智源大会最清醒的一句话：大模型的下一场仗，不在屏幕里打了

文 / 郭添

来源 / 节点AI

北京智源大会来到了第二天，会场里的气氛变了。

前一天更像技术阅兵，大家大谈特谈大语言模型对社会的影响，对未来技术发展的期望，毕竟技术范式已经收敛，这条赛道更多是确定性。

第二天就不同了，摆在行业面前的下一道题是如何让机器理解真实物理世界，机器能快速算出高难度数学题，但它并不知道桌上的咖啡杯滑落桌沿会怎样？数据与硬件是两座大山，山顶很清楚了，但该沿着哪条路登山，还是未知。

智源研究院院长王仲远和银河通用创始人兼CTO王鹤的观点，在我看来最值得看，他们两个一个要重新定义世界模型，另一个选择要先让机器人学会打网球。看起来风马牛不相及，底层逻辑却是同一个：AI必须学会跟真实世界打交道。

所有夺冠的世界模型，都还不是真正的世界模型

“所有夺冠的世界模型，都还不是真正的世界模型，视频生成模型不等于世界模型。”，智源研究院院长王仲远在会场说出这句话的时候，台下安静了几秒。

过去半年，世界模型火得发烫，但概念的误用同样泛滥。王仲远认为，误用的源头是OpenAI发布Sora时用了World Simulator的表述。他举了个一听就懂的反例——视频生成模型可以做出一群猪在天上跟飞机一起飞的画面，因为训练数据里有大量科幻电影。它学会了好莱坞的想象力，但不懂牛顿万有引力。

为此，智源特意为世界模型分为四类。第一，以语言为中心的，时下大热的VLM/VLA；以像素为中心的，比如Sora、Seedance等视频生成；以三维结构为中心的，比如3D重建/李飞飞团队的World Labs Marble；以视觉表征为中心的，比如，杨立昆的JEPA系列。

四条路线各有进展，但他的判断，这几类的发展都还不够。

智源选择了第五类——全模态潜空间，把文本、图像、视频压缩到统一的向量空间，建模真实物理世界的状态。这个思路跟智源此前登上《Nature》正刊的悟界Emu一脉相承。为什么智源要独占一类呢？王仲远也坦承，这条路没有完全走通，因此暂不急于归类。

谈到李飞飞将世界模型分为渲染器、模拟器和规划器三类，王仲远没有回避对比：“她的分类有她的逻辑，但我们的分类更具通用性。未来不排除走向大一统。”

下一个Token预测是大语言模型的核心，那对世界模型呢？在王仲远看来，则是下一个物理状态预测。

他用生活场景解释什么才算真正的世界模型能力。一杯咖啡放在桌子边缘，跌落时会发生什么，人类一看就知道。一个3岁小朋友睡着了，厨房传来很大的声音，家人只要挥一下手，其他人就知道该去关门。不用说话，不用解释。这种感知-预测-决策的闭环，是人类天生的世界模型，也是机器远未掌握的能力。

智源已经在构建评测数据集，评测框架预计下半年发布。切入点选得很具体：开冰箱、开洗衣机、开微波炉。同样是”打开”这个动作，不同设备有旋转式、按压式、触碰式的差异。加热饭菜时，知不知道铁碗不能放进微波炉？因为可能产生火花。人类觉得这是常识，机器觉得这是难题。

王仲远对整个行业的进度判断是冷静的：至少还需要好几年。不管国内还是国外，世界模型都还处于早期。

但早期不是等待的理由。

智源研究院已经行动了起来，在大会上发布了正在研发中的悟界·Physis-v0.1，以物理空间建模实现下一个物理状态预测为核心，定位全球首个通用世界基座模型。模型还在训练阶段，下半年持续分享进展，训练完成后开源。

王鹤：先打赢网球，构建坚实护城河

如果王仲远在定义AI该怎么”想”世界，银河通用创始人兼CTO王鹤就更直接了，他要解决的问题更野蛮，让机器人”动”起来。从想再到执行，刚好是一个闭环。

银河通用选的突破口让很多人意外——让机器人学会打网球。

今年3月，银河通用推出了latent算法，让人形机器人具备了长程动态打网球的能力。

打网球可不简单，同时考验两件事——手腕精确控制击球区（运动控制），以及判断该吊球还是打空档（大脑层策略决策）。

对于数据难的问题，银河通用的技术路径是动作捕捉部分真人数据，让机器学会关键动作，再叠加强化学习，提升泛化能力，最终实现机器人能跟真人对打。

当时，我记得这事还在x上还引起了一波讨论，Ai圈明星企业家、研究院，Elon Musk和Andrej Karpathy都注意到了这件事。

王鹤本人更愿意把这叫做具身智能的AlphaGo时刻。

这不，才3个月过去，银河通用又提出了World Action Model（WAM）范式，据悉融合VLA和世界模型，同时吃有标签的具身数据和海量无标签的人类第一人称视频。

银河通用是具身智能企业里坚定的合成数据派，这是技术壁垒。在WAM出现之前，团队用10亿帧仿真数据跑通了一个结论：只要把数据Scale到这个程度，就可以完全实现zero-shot，在真实世界随便给一个东西，就能搞定抓取。

当然，技术永远不是什么护城河，王鹤本人也不是没准备，他在大会上把护城河拆成了四个维度：数据供给、多类型数据提炼能力、硬件迭代与软硬协同设计、模型交付给客户的整套能力。他说了一句很有底气的话：全世界范围内还没有这么综合的一个产品，具身智能的护城河相当深。

这句话不是空话。宁德时代、博世既是银河通用的投资人也是客户，投资+采购+验证三位一体，比纯技术更难复制。银河通用同时覆盖工业重载和商业零售两条产品线，宁德时代的产线和100多家无人便利店都已经跑起来了。

但他也没回避现实的严峻。王鹤给出了一个让人倒吸一口气的投入门槛：行业需要千万小时级别的数据、百亿以上单年的投入，才能拿到冲刺ChatGPT时刻的入场券。现如今，银河通用70亿融资、200亿估值，离这个门槛还有距离。特别的是，国内具身智能创业公司已有约230家，赛道拥挤，谁能走出来还是未知数。

他还说了一句不太客气的话：真正愿意做实事的人少，愿意卖硬件、卖平台的人多。

大会上最后一个问题很尖锐：中国AI和欧美AI会走出不一样的路吗？王鹤的回答是：我相信具身是中国的机会。如果0到1在中国完成，那1到100必定是在中国成熟的。这不是空想，去年中国制造的人形机器人占全球交付量的87%。

王鹤给出的时间表是两年。两年后具身智能能不能从GPT-2进化到ChatGPT，也决定了70亿融资和200亿估值究竟是不是泡沫。

智源大会第二天收尾时，两条AI战线的图景已经清晰：世界模型要教AI理解物理规律，具身智能要让机器人用身体执行，共同点是：都还处在早期，都缺数据，都没有公认的评价标准。

不过，有一点可以确认，大模型的下一场仗，不在屏幕里打了。

节点声明：本内容为作者独立观点，不代表节点财经立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

智源大会最清醒的一句话：大模型的下一场仗，不在屏幕里打了

所有夺冠的世界模型，都还不是真正的世界模型

王鹤：先打赢网球，构建坚实护城河

相关推荐

AI安全、靶向蛋白降解成VC最青睐的创新方向，2025 DEMO CHINA大会收官！

叫板雷克萨斯，蔚来李斌立下flag哪来的底气？

谁在瓜分GEO的新红利？

小鹏变「大」，销量能否迎来热烈？

卖越多亏越多，蔚来「亏损魔咒」何解？