
文 / 郭静
来源 / 节点AI
如果把人工智能简单类比为让机器拥有人类相当智能的话,从今天大语言模型的发展来看,编程、图像生成、文字处理上,AI 已经可以替代不少职场新人了。
但喊”AI 替代人类”还是太早了。
人还有空间感知、嗅觉、触觉等能力,今天的大模型,离真正读懂物理世界,中间还有一道鸿沟。这条路,也被黄仁勋和李飞飞都认为它是通往 AGI 的必经之路。
那这道鸿沟该怎么填?
vivo 总裁兼首席运营官胡柏山,在博鳌亚洲论坛上给出了一个很直接的判断:在明确的物理大模型没有出来之前,要有好的体验,就要把物理世界的信息转化到数字世界。
他相信这件事应该用手机去做。甚至在未来十年里,其他设备都很难替代。
物理 AI 目前仍是一片处女地。真正落地前,任何好奇心与想象力,都值得剖析。我们想拆解一下这位行业老兵的观点:他看到了什么,押注了什么,以及这个赌局的赢面有多大。
感知才是 AI 时代的关键

AI 手机、端侧模型、具身智能,近两年行业的风口,一个接一个,让人们应接不暇。怕错过的情绪下,手机品牌纷纷加速布局AI 手机,行业一度认为,模型能力会成为手机厂商的护城河。
胡柏山不这么看。他指出,相比模型而言,积累下来的场景数据才最有差异化。
简单理解,就是AI对具体物理场景的感知。
胡柏山在博鳌论坛里用了一个比喻:没有感知能力,AI 就像困在黑屋子里的大师,能力再高,也看不见咫尺之外的世界。
他的理解是这样的:未来模型会越来越同质化,开源速度越来越快,大家之间的差距越来越小。
仔细想想其实也不无道理,DeepSeek 去年炸开了开源大模型的口子,时隔一年,目前国产开源模型,并不是deepseek独领风骚,而是智谱、mini Max、kimi等纷纷追了上来。如果手机企业只是给增加个ai能力的话,那确实看不出彼此之间的差异点。
胡柏山认为,vivo的差异点可以是感知。
何为感知?你可能会认为这是触觉、嗅觉。但vivo给出了自己的理解——读懂光影,读懂空间,读懂场景里发生了什么,甚至读懂人的情绪状态。
未雨绸缪,他在博鳌提到了一件 vivo 内部刚刚落定的事:今年,vivo 正式成立了一条新的长技术赛道——感知赛道。
但物理ai才处于起步阶段,行业也没有现成的开源方案可以借鉴,真正落地难度可不低。胡柏山自己也承认:这个领域开源资源少,需要自主探索。
方向选对了,不等于路就好走,接下来,我们要看vivo是如何获得感知的能力。
感知的抓手是什么?

胡柏山认为,让 AI 走进物理世界,需要一套感知系统做支持。而vivo 训练感知系统的核心抓手,是影像。
具体怎么做?我翻看胡柏山的演讲与专访,可以总结为,软硬协同,用硬件收集数据,用软件转化为感知数据,形成数据壁垒。
先看硬件。
很多人看到 AI 预训练数据,会想到图片、文本语料。但具身智能的数据不同:机器要学人在现实世界的行为,一个典型的场景是:人先做动作,机器在旁边观看、采集。
vivo 收集数据靠的是影像那双眼睛。
vivo指出,X300 Ultra 的主摄传感器升到了 1/1.12 英寸。和索尼的合作则在往半导体转化效率的方向走,比如,胡柏山提到了一种新技术路径,能把感光元件的进光转化率从 90% 推到 110% 以上。
胡柏山的判断和行业观察者大致相同:传感器尺寸已经卷到了边际收益递减的阶段,更大的空间在转化效率和外挂形态。X300 Ultra 上已经做了 200mm、400mm 定焦增距镜,还有更多在路上——硬件的不断升级,这都有助于vivo理解用户。
但光”看见”不够,还得”看懂”。
再看软件。
vivo 在端侧部署了多个专项 agent。一个能判断你在拍什么、用什么焦段、什么光线;另一个整理你的相册,根据修图习惯推荐滤镜,甚至自动把素材剪成短视频。
看到这你可能会问数据隐私,这不必担心,vivo依赖的并非云端ai,而是端侧AI,具备低延迟、高隐私、弱依赖网络的特点。长此以往,就能更贴合用户场景的数据,构建上文所说的差异化。
总体而言,vivo 要做的是把视觉、听觉、触觉等多种感官信息,通过传感器结合大模型,转化为机器能理解的物理世界信息。
从目前来看,vivo 已经在布局定制算力芯片和 3B 参数的端侧模型,接下来要保障大规模商用后的稳定输出,让想法真正落地。
胡柏山判断,未来,手机将会从 Smartphone 进化为 Agent Phone,这时候手机将不会再是工具,而是伙伴。
这里,我也要指出,这个愿景能走多远,取决于一个关键问题:端侧的数据飞轮能不能真正转起来?如果 Agent Phone 的体验不够惊艳,用户不买账,数据就无法积攒,这是一个先有鸡还是先有蛋的挑战。
机器人落地十年不晚?

Agent Phone 之外,vivo 也在尝试将技术边界拓展到机器人领域。
这背后是胡柏山对未来技术结构的理解:AI 与机器人分别代表数字世界与物理世界最核心的技术方向,而手机凭借最广泛的用户基础和数据入口,可能成为连接两者的中枢。他在博鳌论坛群访中说得直接:手机连接数字世界,机器人连接物理世界,两者最终可能形成统一的技术体系。
vivo 已经在为这个目标布局。2025 年,vivo 成立了机器人 Lab,重点攻关机器人的”大脑”和”眼睛”,并将家庭场景作为长期方向。
胡柏山比较谨慎,资源主要聚焦在用户场景下最关键的技术点上。
vivo 机器人 Lab 首席科学家邵浩给用户场景一个具体定义:涵盖从用户进门脱下外套开始,涵盖洗衣、烘干、收纳等流程的完整闭环。
当然,vivo并不是说大话,他们并不想一步到位做到完全自主的 L4 级别。而是给出了一个大概的时间线:一开始可能 95% 的操作得靠人机协同,慢慢的,人插手的比例降到 60%、30%,十年后,才是 0%。
胡柏山管这个策略叫沿途下蛋,在《节点AI》看来,这种渐进式策略,还是比较清醒的。因为机器人赛道的技术成熟度,远未到消费级普及的临界点。过早追求全自主成本过高。

vivo希望的是,从人机协同起步,用真实场景数据迭代模型,看到这,你是不是发现,这和手机领域数据是竞争壁垒的逻辑几乎一样。先跑通数据,再说具体的落地,方向有了,技术成熟了,一切自然水到渠成。
这套逻辑也面临挑战。
小米在机器人赛道布局更早、更广,已经投了一批产业链公司。华为凭借鸿蒙系统的生态优势,也具备切入机器人操作系统的条件。vivo 选择只做”大脑和眼睛”、把硬件交给供应链伙伴,资产更轻,但对产业链的掌控力也更弱。
胡柏山的畅想能否跑通,取决手机主业能否持续输血,AI 能力能否持续领先,机器人商业化节奏能否匹配预期。一个都不能掉链子。
胡柏山在博鳌说过一句话:认知到了加油门,认知没到宁可慢。
这句话很实在。五到十年的赛道周期里,或许比的不是谁先跑的快,而是谁能在这条赛道上笑到最后。
在《节点AI》看来,vivo已经描绘好自己未来的十年蓝图,接下来是一步步落地。
*题图由AI生成
节点声明:本内容为作者独立观点,不代表节点财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。