AGIBOT WORLD CHALLENGE亚军：世界模型需从“视觉保真”转向“物理正确”

近日，由智元（AGIBOT）主办、在全球机器人领域顶级学术盛会ICRA 2026框架下举办的AGIBOT WORLD CHALLENGE @ICRA 2026世界模型赛道中，来自中科院工业人工智能研究所的物理智能团队（PAI@IAII）凭借“机理增强的世界模型”方案夺得全球亚军。

在未来图灵参加赛后群访中，该团队导师、长期深耕工业具身智能的徐凯研究员透露，纯数据驱动的“黑盒”模型难以支撑工业级交互，世界模型不能仅靠增加数据量来“撞大运”式地撞出物理规律，必须等待“机理建模与数据驱动”深度融合技术的成熟。

“将三维空间先验注入世界模型生成框架”

“纯数据驱动的‘黑盒’模型难以支撑工业级交互。”徐凯在采访中解释，本次方案的核心在于将三维空间先验注入世界模型生成框架，而非依赖模型从海量像素中自行归纳几何规律。具体落地分为两个环节——

首先，在表征阶段，团队基于三维基础模型（如VGGT等）引入了三维场景的几何先验，确保模型生成的每一帧在空间维度上具有严格的连续性与对齐性。其次，通过引入特征对齐约束，将机器人的操作轨迹与环境的几何拓扑进行深度对齐，使模型在三维一致性的框架下进行精准推演。徐凯将这一方案概括为“三维先验特征对齐”：“这种方案，让模型具备了处理复杂空间作业的能力。”

他打了个比方：“纯数据驱动像让一个聪明人看几万张积木照片，他可能学会‘红色在上、蓝色在下’的统计规律，但一旦光照或角度变了，他就会犯错。而我们直接告诉他‘重力方向向下、积木不能悬空’——这就是物理先验。”

“不能仅靠增加数据量来‘撞大运’式地撞出物理规律”

作为在重工、船舶、汽车领域有规模化落地经验的团队，徐凯对世界模型与真实产业需求之间的差距有着清醒的判断。

“制造业对工艺过程的控制准确性与容错率要求极度严苛。”他指出，目前纯数据驱动的世界模型在处理精密对齐、力控交互等任务时，精度仍达不到工业级“毫米级”的要求。泛化性虽有提升，但在极端工况下的鲁棒性仍是短板。

哪些条件成熟了？“感知与意图理解。”徐凯认为，当前模型已经能较好地听懂任务指令、看懂场景语义——这是过去三年最大的进步。哪些还得等？“机理驱动的确定性。”他语气坚定地表示，“我们不能仅靠增加数据量来‘撞大运’式地撞出物理规律，必须等待‘机理建模与数据驱动’深度融合技术的成熟。唯有将确定性的物理机理嵌入随机性的生成模型，才能真正满足重工、船舶等场景对工艺精度的硬性约束。”

“从‘视觉保真度’向‘物理正确性’的评测重心转移”

当被问及一个真正服务于具身智能规模化落地的世界模型评测标尺最不可或缺的基本原则是什么，徐凯给出了明确的答案。

“当前的评测基准大多聚焦于重建表面的正确性，即生成的像素是否清晰、结构是否完整，这本质上还是图像评价指标。”他批评道，“但真正能服务于规模化落地的标尺，最不可或缺的原则是‘物理逻辑的可验证性’。我们需要衡量模型生成的推演是否符合动力学规律、是否具备一致的重力与碰撞逻辑。如果世界模型无法在物理层面上被量化验证，那么基于它训练出的策略在进入真实工厂时，依然会面临巨大的安全红线。”

徐凯强调，实现从“视觉保真度”向“物理正确性”的评测重心转移，是世界模型能否跨过工业落地门槛的前提。他进一步指出，当前全球顶尖团队都已意识到，“融合物理机理”是公认的下一个战略制高点。“谁能率先在算法架构中完美耦合物理先验，谁就能在具身智能的下一阶段竞争中占据主导权。这不仅是算力的博弈，更是对物理世界底层认知与建模能力的角逐。”

本届赛事由智元（AGIBOT）主办，在ICRA 2026体系下展开，共吸引来自全球27个国家及地区的526支队伍报名。世界模型赛道采用智元自研评测基准EWMBench，引入真机数据集AGIBOT WORLD作为官方数据集，要求模型在真实机器人任务导向的基准上进行验证。物理智能团队（PAI@IAII）的“机理增强”路线，与冠军团队的“失败数据挖掘”路线，共同勾勒出世界模型走向工业落地的两条关键探索路径。