智源大会最清醒的一句话:大模型的下一场仗,不在屏幕里打了

智源大会最清醒的一句话:大模型的下一场仗,不在屏幕里打了

文 / 郭添 

来源 / 节点AI 

北京智源大会来到了第二天,会场里的气氛变了。

前一天更像技术阅兵,大家大谈特谈大语言模型对社会的影响,对未来技术发展的期望,毕竟技术范式已经收敛,这条赛道更多是确定性。

第二天就不同了,摆在行业面前的下一道题是如何让机器理解真实物理世界,机器能快速算出高难度数学题,但它并不知道桌上的咖啡杯滑落桌沿会怎样?数据与硬件是两座大山,山顶很清楚了,但该沿着哪条路登山,还是未知。

智源研究院院长王仲远和银河通用创始人兼CTO王鹤的观点,在我看来最值得看,他们两个一个要重新定义世界模型,另一个选择要先让机器人学会打网球。看起来风马牛不相及,底层逻辑却是同一个:AI必须学会跟真实世界打交道。

所有夺冠的世界模型,都还不是真正的世界模型

“所有夺冠的世界模型,都还不是真正的世界模型,视频生成模型不等于世界模型。”,智源研究院院长王仲远在会场说出这句话的时候,台下安静了几秒。

过去半年,世界模型火得发烫,但概念的误用同样泛滥。王仲远认为,误用的源头是OpenAI发布Sora时用了World Simulator的表述。他举了个一听就懂的反例——视频生成模型可以做出一群猪在天上跟飞机一起飞的画面,因为训练数据里有大量科幻电影。它学会了好莱坞的想象力,但不懂牛顿万有引力。

为此,智源特意为世界模型分为四类。第一,以语言为中心的,时下大热的VLM/VLA;以像素为中心的,比如Sora、Seedance等视频生成;以三维结构为中心的,比如3D重建/李飞飞团队的World Labs Marble;以视觉表征为中心的,比如,杨立昆的JEPA系列。

四条路线各有进展,但他的判断,这几类的发展都还不够。

智源选择了第五类——全模态潜空间,把文本、图像、视频压缩到统一的向量空间,建模真实物理世界的状态。这个思路跟智源此前登上《Nature》正刊的悟界Emu一脉相承。为什么智源要独占一类呢?王仲远也坦承,这条路没有完全走通,因此暂不急于归类。

谈到李飞飞将世界模型分为渲染器、模拟器和规划器三类,王仲远没有回避对比:“她的分类有她的逻辑,但我们的分类更具通用性。未来不排除走向大一统。”

下一个Token预测是大语言模型的核心,那对世界模型呢?在王仲远看来,则是下一个物理状态预测。

他用生活场景解释什么才算真正的世界模型能力。一杯咖啡放在桌子边缘,跌落时会发生什么,人类一看就知道。一个3岁小朋友睡着了,厨房传来很大的声音,家人只要挥一下手,其他人就知道该去关门。不用说话,不用解释。这种感知-预测-决策的闭环,是人类天生的世界模型,也是机器远未掌握的能力。

智源已经在构建评测数据集,评测框架预计下半年发布。切入点选得很具体:开冰箱、开洗衣机、开微波炉。同样是”打开”这个动作,不同设备有旋转式、按压式、触碰式的差异。加热饭菜时,知不知道铁碗不能放进微波炉?因为可能产生火花。人类觉得这是常识,机器觉得这是难题。

王仲远对整个行业的进度判断是冷静的:至少还需要好几年。不管国内还是国外,世界模型都还处于早期。

但早期不是等待的理由。

智源研究院已经行动了起来,在大会上发布了正在研发中的悟界·Physis-v0.1,以物理空间建模实现下一个物理状态预测为核心,定位全球首个通用世界基座模型。模型还在训练阶段,下半年持续分享进展,训练完成后开源。

王鹤:先打赢网球,构建坚实护城河

如果王仲远在定义AI该怎么”想”世界,银河通用创始人兼CTO王鹤就更直接了,他要解决的问题更野蛮,让机器人”动”起来。从想再到执行,刚好是一个闭环。

银河通用选的突破口让很多人意外——让机器人学会打网球。

今年3月,银河通用推出了latent算法,让人形机器人具备了长程动态打网球的能力。

打网球可不简单,同时考验两件事——手腕精确控制击球区(运动控制),以及判断该吊球还是打空档(大脑层策略决策)。

对于数据难的问题,银河通用的技术路径是动作捕捉部分真人数据,让机器学会关键动作,再叠加强化学习,提升泛化能力,最终实现机器人能跟真人对打。

当时,我记得这事还在x上还引起了一波讨论,Ai圈明星企业家、研究院,Elon Musk和Andrej Karpathy都注意到了这件事。

王鹤本人更愿意把这叫做具身智能的AlphaGo时刻。

这不,才3个月过去,银河通用又提出了World Action Model(WAM)范式,据悉融合VLA和世界模型,同时吃有标签的具身数据和海量无标签的人类第一人称视频。

银河通用是具身智能企业里坚定的合成数据派,这是技术壁垒。在WAM出现之前,团队用10亿帧仿真数据跑通了一个结论:只要把数据Scale到这个程度,就可以完全实现zero-shot,在真实世界随便给一个东西,就能搞定抓取。

当然,技术永远不是什么护城河,王鹤本人也不是没准备,他在大会上把护城河拆成了四个维度:数据供给、多类型数据提炼能力、硬件迭代与软硬协同设计、模型交付给客户的整套能力。他说了一句很有底气的话:全世界范围内还没有这么综合的一个产品,具身智能的护城河相当深。

这句话不是空话。宁德时代、博世既是银河通用的投资人也是客户,投资+采购+验证三位一体,比纯技术更难复制。银河通用同时覆盖工业重载和商业零售两条产品线,宁德时代的产线和100多家无人便利店都已经跑起来了。

但他也没回避现实的严峻。王鹤给出了一个让人倒吸一口气的投入门槛:行业需要千万小时级别的数据、百亿以上单年的投入,才能拿到冲刺ChatGPT时刻的入场券。现如今,银河通用70亿融资、200亿估值,离这个门槛还有距离。特别的是,国内具身智能创业公司已有约230家,赛道拥挤,谁能走出来还是未知数。

他还说了一句不太客气的话:真正愿意做实事的人少,愿意卖硬件、卖平台的人多。

大会上最后一个问题很尖锐:中国AI和欧美AI会走出不一样的路吗?王鹤的回答是:我相信具身是中国的机会。如果0到1在中国完成,那1到100必定是在中国成熟的。这不是空想,去年中国制造的人形机器人占全球交付量的87%。

王鹤给出的时间表是两年。两年后具身智能能不能从GPT-2进化到ChatGPT,也决定了70亿融资和200亿估值究竟是不是泡沫。

智源大会第二天收尾时,两条AI战线的图景已经清晰:世界模型要教AI理解物理规律,具身智能要让机器人用身体执行,共同点是:都还处在早期,都缺数据,都没有公认的评价标准。

不过,有一点可以确认,大模型的下一场仗,不在屏幕里打了。

节点声明:本内容为作者独立观点,不代表节点财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。

(0)
节点财经的头像节点财经
智源大会把全球AI大神都请来了,我帮你先逛了一圈
上一篇 2026年 6月 13日 19:18
中国AIGC产业峰会在京举办!20余位科技巨头解码AI产业落地密码
下一篇 2025年 4月 16日 17:08

相关推荐