人类对物理法规的理解并非与生俱来,,,,,,,,而是通过持续观察、影象与总结,,,,,,,,逐步构建对环境的认知,,,,,,,,并据此做出预测与决策。。。。。。。。人为智能若要复现这一过程,,,,,,,,关键依赖于“世界模型”。。。。。。。。如今,,,,,,,,世界模型被视为通用人为智能(AGI)与具身智能的基石。。。。。。。。然而,,,,,,,,一个被持久忽视的问题始终存在:仅靠碎片化数据训练出的静态世界模型,,,,,,,,真的足以支持通用智能吗????????
当前大无数世界模型看似把握了物理法规,,,,,,,,实则如同填鸭式影象——它们能预测出切合学问概率散布的了局,,,,,,,,却不足长时影象、持续建改认知、改进自身的能力。。。。。。。。相比之下,,,,,,,,人类面对陌生、未知或不切合预期的情境时,,,,,,,,会本能地集中把稳力,,,,,,,,通过观察不休建改认知。。。。。。。。这种自动进建与影象更新的能力,,,,,,,,正是人类智能可塑性的主题。。。。。。。。这一能力的缺失,,,,,,,,严沉限度了当前静态世界模型的现实利用。。。。。。。。这能够通过两个例子来注明:
- 空间认知的局限:当模型初次“进入”某个房间前,,,,,,,,只能给出吞吐的“可能布局”预测;;;;;;而人类虽无法像机械般穷举所有可能性,,,,,,,,却能通过一次真实造访,,,,,,,,在再次造访时做出精准预判。。。。。。。。相反,,,,,,,,不足影象机造的智能体,,,,,,,,无法像人类那样利用高低文经验实现认知跃迁。。。。。。。。
- 动态法规的盲区:物理法规并非静态公式,,,,,,,,如地面与表太空的沉力差距、未知资料的个性变动等,,,,,,,,都无法用寂仔模型单一表推。。。。。。。。更深档次看,,,,,,,,对于宇宙物理法规的认知,,,,,,,,从牛顿定律到相对论,,,,,,,,人类的知识也在不休建改。。。。。。。。人类会先观察推理新环境下的物理法规,,,,,,,,再将其使用于后续推算,,,,,,,,而传统世界模型却容易陷入“用旧地图走新大陆”的困境。。。。。。。。
智能的通用性和泛化性,,,,,,,,不在于记住几多法规,,,,,,,,而在于像人类一样——始终维持对未知的好奇,,,,,,,,在观察中进化,,,,,,,,在影象中成长。。。。。。。。从上述意思上看,,,,,,,,当前绝大部门世界模型无法满足这样的必要,,,,,,,,从理论上也不成能仅仅通过数据规模和参数规模解决。。。。。。。。
z6首页具身智能中心王凡博士等人的最新钻延锥Context and Diversity Matter: The Emergence of In-Context Learning in World Models》直指这一“房间里的大象”。。。。。。。。钻研发现,,,,,,,,当世界模型在具备足够多样的环境、长序列数据上训练,,,,,,,,并具备长高低文建模能力时,,,,,,,,就能引发出类似人类的高低文进建(In-Context Learning, ICL)能力,,,,,,,,从而脱节“死记硬背”,,,,,,,,实现真正的环境适应。。。。。。。。
理论分析:世界模型的高低文进建涌现的数据法规
世界模型的高低文进建必要满足哪些前提????????只管高低文进建已在大说话模型领域得到充分钻研,,,,,,,,但在世界模型领域,,,,,,,,有关钻研仍不充分。。。。。。。。z6首页的钻研着眼于世界模型训练数据的散布,,,,,,,,并基于贝叶斯如果,,,,,,,,针对马尔科夫决策或隐马尔科夫决策过程的世界模型,,,,,,,,提出至少存在两类高低文进建模式:
- 环境辨识(ER, 参数影象 + 高低文分辨):在预训练过程中,,,,,,,,模型参数保留了所有训练环境有关的影象和知识。。。。。。。。高低文信息重要起分辨作用。。。。。。。。
- 环境进建 (EL,,,,,,,,真正高低文进建):在预训练过程中,,,,,,,,模型参数尽量少保留先验如果,,,,,,,,齐全依赖高低文进行推理。。。。。。。。
该钻研从理论层面分析了这两种模式的误差上界,,,,,,,,并发现了以下有趣的个性:
- 两类进建模式的误差上界都与高低文长度T的平方根成反比,,,,,,,,即蕴含T^{-1/2}项。。。。。。。。这意味着,,,,,,,,长高低文是世界模型具备进建能力、降低误差的先决前提。。。。。。。。
- ER模式的误差上界受预训练环境和推理环境之间的最幼误差(BME)影响,,,,,,,,而EL模式则不受影响。。。。。。。。这批注,,,,,,,,为了降低预训练数据散布引入的内涵偏倚,,,,,,,,必须尽可能引发EL模式。。。。。。。。
- EL模式在环境集中多样性强、环境数量多、序列长,,,,,,,,且单个环境自身复杂度较低的前提下,,,,,,,,更容易被引发。。。。。。。。
基于上述个性,,,,,,,,能够进一步揣度:越是复杂的环境,,,,,,,,为了有效引发高低文进建能力,,,,,,,,越必要更多样化、规模更大的环境集中。。。。。。。。 这也揭示了当前世界模型面对的巨大数据困境。。。。。。。。
尝试验证
基于上述理论,,,,,,,,小引列世界模型存在先天局限,,,,,,,,且无法验证该理论自身。。。。。。。。为此,,,,,,,,团队设计了一种轻量级线性把稳力架构L2World(Linear-attention Long-context World Model),,,,,,,,其具备无限表推能力,,,,,,,,能在推理过程中通过更新隐状态影象来持续提升自身能力。。。。。。。。

本文拔取了两个拥有代表性的决策节造问题进行尝试:
- 异构倒立摆:模型必要适应分歧的物理参数,,,,,,,,例如沉力和质量。。。。。。。。
- 异构房间导航:模型必要在拥有多样化布局的迷宫或房间中持续索求、影象并优化前进蹊径。。。。。。。。

L2World在两类问题和分歧数据散布下进行了训练,,,,,,,,使用了超过 3 亿帧的图片数据。。。。。。。。钻研对比了一样数据量下,,,,,,,,分歧环境数量和多样性(散布领域)的影响,,,,,,,,并验证了有关理论的有效性。。。。。。。。
例如,,,,,,,,在130个分歧倒立摆环境下的测试批注,,,,,,,,当高低文长度足够时,,,,,,,,世界模型预测误差的上界与BME沉合。。。。。。。。随着环境多样性增长,,,,,,,,误差上界逐步降落并偏离BME,,,,,,,,证了然EL和ER两种模式的存在。。。。。。。。
此表,,,,,,,,随着高低文增长,,,,,,,,L2World的预测误差持续降落,,,,,,,,持久影象的优势逐步显露,,,,,,,,最终超过了以单帧清澈度为优势的扩散模型(如NWM)。。。。。。。。尝试还证实了数据散布对环境进建的关键作用:即便使用一样的数据量,,,,,,,,由于数据散布的差距,,,,,,,,世界模型的高低文进建能力也产生了显著差距。。。。。。。。相迸宗基于扩散模型的NWM等模型,,,,,,,,L2World在单帧预测清澈度上存在较大差距,,,,,,,,但随着高低文增长,,,,,,,,其长时影象能力逐步阐扬优势,,,,,,,,使L2World具备更优异的预测机能。。。。。。。。

最后,,,,,,,,论文还分析发现EL/ER模式与人类"预测编码"能力拥有共同个性,,,,,,,,并发现模型的影象空间在推理过程中天然构建出分歧迷宫的布局。。。。。。。。这种认知在网络的较高层级才逐步形成,,,,,,,,证了然世界模型的高低文进建可能齐全代替SLAM等人为建模步骤。。。。。。。。

结论与意思
这项工作初次系统论证了“长高低文 + 多样性”对世界模型持续进建能力的决定性作用,,,,,,,,为破解静态模型自主进化和持续进建的困境提供了可行蹊径。。。。。。。。它不仅让世界模型从“知识库”迈向“智能体”,,,,,,,,更为具身智能奠定真正的认知基石:能影象、能进建、能进化。。。。。。。。
论文链接:https://arxiv.org/abs/2509.22353
有关代码:https://github.com/airs-cuhk/airsoul/tree/main/projects/MazeWorld
