新闻动态

  

世界模型真是AGI的全能钥匙吗????????人类从观察中进建、在影象中进化,,,,,,,,而当前无数模型却困于“填鸭式”影象 。。。 。。。。。z6首页最新钻研揭示:仅靠碎片数据训练的静态模型远不够,,,,,,,,真正的智能必要长高低文+多样性数据来引发环境进建能力 。。。 。。。。。这项突破让AI学会像人类一样,,,,,,,,在索求中持续建改认知——影象、进建、进化的智能,,,,,,,,正从理论走向现实 。。。 。。。。。钻研成就被人为智能领域顶会ICLR 2026接管 。。。 。。。。。

人类对物理法规的理解并非与生俱来,,,,,,,,而是通过持续观察、影象与总结,,,,,,,,逐步构建对环境的认知,,,,,,,,并据此做出预测与决策 。。。 。。。。。人为智能若要复现这一过程,,,,,,,,关键依赖于“世界模型” 。。。 。。。。。如今,,,,,,,,世界模型被视为通用人为智能(AGI)与具身智能的基石 。。。 。。。。。然而,,,,,,,,一个被持久忽视的问题始终存在:仅靠碎片化数据训练出的静态世界模型,,,,,,,,真的足以支持通用智能吗????????

当前大无数世界模型看似把握了物理法规,,,,,,,,实则如同填鸭式影象——它们能预测出切合学问概率散布的了局,,,,,,,,却不足长时影象、持续建改认知、改进自身的能力 。。。 。。。。。相比之下,,,,,,,,人类面对陌生、未知或不切合预期的情境时,,,,,,,,会本能地集中把稳力,,,,,,,,通过观察不休建改认知 。。。 。。。。。这种自动进建与影象更新的能力,,,,,,,,正是人类智能可塑性的主题 。。。 。。。。。这一能力的缺失,,,,,,,,严沉限度了当前静态世界模型的现实利用 。。。 。。。。。这能够通过两个例子来注明:

  • 空间认知的局限:当模型初次“进入”某个房间前,,,,,,,,只能给出吞吐的“可能布局”预测 ;; ;;;;而人类虽无法像机械般穷举所有可能性,,,,,,,,却能通过一次真实造访,,,,,,,,在再次造访时做出精准预判 。。。 。。。。。相反,,,,,,,,不足影象机造的智能体,,,,,,,,无法像人类那样利用高低文经验实现认知跃迁 。。。 。。。。。
  • 动态法规的盲区:物理法规并非静态公式,,,,,,,,如地面与表太空的沉力差距、未知资料的个性变动等,,,,,,,,都无法用寂仔模型单一表推 。。。 。。。。。更深档次看,,,,,,,,对于宇宙物理法规的认知,,,,,,,,从牛顿定律到相对论,,,,,,,,人类的知识也在不休建改 。。。 。。。。。人类会先观察推理新环境下的物理法规,,,,,,,,再将其使用于后续推算,,,,,,,,而传统世界模型却容易陷入“用旧地图走新大陆”的困境 。。。 。。。。。

智能的通用性和泛化性,,,,,,,,不在于记住几多法规,,,,,,,,而在于像人类一样——始终维持对未知的好奇,,,,,,,,在观察中进化,,,,,,,,在影象中成长 。。。 。。。。。从上述意思上看,,,,,,,,当前绝大部门世界模型无法满足这样的必要,,,,,,,,从理论上也不成能仅仅通过数据规模和参数规模解决 。。。 。。。。。

z6首页具身智能中心王凡博士等人的最新钻延锥Context and Diversity Matter: The Emergence of In-Context Learning in World Models》直指这一“房间里的大象” 。。。 。。。。。钻研发现,,,,,,,,当世界模型在具备足够多样的环境、长序列数据上训练,,,,,,,,并具备长高低文建模能力时,,,,,,,,就能引发出类似人类的高低文进建(In-Context Learning, ICL)能力,,,,,,,,从而脱节“死记硬背”,,,,,,,,实现真正的环境适应 。。。 。。。。。

 

理论分析:世界模型的高低文进建涌现的数据法规

世界模型的高低文进建必要满足哪些前提????????只管高低文进建已在大说话模型领域得到充分钻研,,,,,,,,但在世界模型领域,,,,,,,,有关钻研仍不充分 。。。 。。。。。z6首页的钻研着眼于世界模型训练数据的散布,,,,,,,,并基于贝叶斯如果,,,,,,,,针对马尔科夫决策或隐马尔科夫决策过程的世界模型,,,,,,,,提出至少存在两类高低文进建模式:

  • 环境辨识(ER, 参数影象 + 高低文分辨):在预训练过程中,,,,,,,,模型参数保留了所有训练环境有关的影象和知识 。。。 。。。。。高低文信息重要起分辨作用 。。。 。。。。。
  • 环境进建 (EL,,,,,,,,真正高低文进建):在预训练过程中,,,,,,,,模型参数尽量少保留先验如果,,,,,,,,齐全依赖高低文进行推理 。。。 。。。。。

该钻研从理论层面分析了这两种模式的误差上界,,,,,,,,并发现了以下有趣的个性:

  1. 两类进建模式的误差上界都与高低文长度T的平方根成反比,,,,,,,,即蕴含T^{-1/2}项 。。。 。。。。。这意味着,,,,,,,,长高低文是世界模型具备进建能力、降低误差的先决前提 。。。 。。。。。
  2. ER模式的误差上界受预训练环境和推理环境之间的最幼误差(BME)影响,,,,,,,,而EL模式则不受影响 。。。 。。。。。这批注,,,,,,,,为了降低预训练数据散布引入的内涵偏倚,,,,,,,,必须尽可能引发EL模式 。。。 。。。。。
  3. EL模式在环境集中多样性强、环境数量多、序列长,,,,,,,,且单个环境自身复杂度较低的前提下,,,,,,,,更容易被引发 。。。 。。。。。

基于上述个性,,,,,,,,能够进一步揣度:越是复杂的环境,,,,,,,,为了有效引发高低文进建能力,,,,,,,,越必要更多样化、规模更大的环境集中 。。。 。。。。。 这也揭示了当前世界模型面对的巨大数据困境 。。。 。。。。。

 

尝试验证

基于上述理论,,,,,,,,小引列世界模型存在先天局限,,,,,,,,且无法验证该理论自身 。。。 。。。。。为此,,,,,,,,团队设计了一种轻量级线性把稳力架构L2World(Linear-attention Long-context World Model),,,,,,,,其具备无限表推能力,,,,,,,,能在推理过程中通过更新隐状态影象来持续提升自身能力 。。。 。。。。。

本文拔取了两个拥有代表性的决策节造问题进行尝试:

  • 异构倒立摆:模型必要适应分歧的物理参数,,,,,,,,例如沉力和质量 。。。 。。。。。
  • 异构房间导航:模型必要在拥有多样化布局的迷宫或房间中持续索求、影象并优化前进蹊径 。。。 。。。。。

L2World在两类问题和分歧数据散布下进行了训练,,,,,,,,使用了超过 3 亿帧的图片数据 。。。 。。。。。钻研对比了一样数据量下,,,,,,,,分歧环境数量和多样性(散布领域)的影响,,,,,,,,并验证了有关理论的有效性 。。。 。。。。。

例如,,,,,,,,在130个分歧倒立摆环境下的测试批注,,,,,,,,当高低文长度足够时,,,,,,,,世界模型预测误差的上界与BME沉合 。。。 。。。。。随着环境多样性增长,,,,,,,,误差上界逐步降落并偏离BME,,,,,,,,证了然EL和ER两种模式的存在 。。。 。。。。。

此表,,,,,,,,随着高低文增长,,,,,,,,L2World的预测误差持续降落,,,,,,,,持久影象的优势逐步显露,,,,,,,,最终超过了以单帧清澈度为优势的扩散模型(如NWM) 。。。 。。。。。尝试还证实了数据散布对环境进建的关键作用:即便使用一样的数据量,,,,,,,,由于数据散布的差距,,,,,,,,世界模型的高低文进建能力也产生了显著差距 。。。 。。。。。相迸宗基于扩散模型的NWM等模型,,,,,,,,L2World在单帧预测清澈度上存在较大差距,,,,,,,,但随着高低文增长,,,,,,,,其长时影象能力逐步阐扬优势,,,,,,,,使L2World具备更优异的预测机能 。。。 。。。。。

最后,,,,,,,,论文还分析发现EL/ER模式与人类"预测编码"能力拥有共同个性,,,,,,,,并发现模型的影象空间在推理过程中天然构建出分歧迷宫的布局 。。。 。。。。。这种认知在网络的较高层级才逐步形成,,,,,,,,证了然世界模型的高低文进建可能齐全代替SLAM等人为建模步骤 。。。 。。。。。

 

结论与意思

这项工作初次系统论证了“长高低文 + 多样性”对世界模型持续进建能力的决定性作用,,,,,,,,为破解静态模型自主进化和持续进建的困境提供了可行蹊径 。。。 。。。。。它不仅让世界模型从“知识库”迈向“智能体”,,,,,,,,更为具身智能奠定真正的认知基石:能影象、能进建、能进化 。。。 。。。。。

 

论文链接:https://arxiv.org/abs/2509.22353

有关代码:https://github.com/airs-cuhk/airsoul/tree/main/projects/MazeWorld