胡柏山掌管vivo后：不在只做手机

文 / 郭静

来源 / 节点AI

如果把人工智能简单类比为让机器拥有人类相当智能的话，从今天大语言模型的发展来看，编程、图像生成、文字处理上，AI 已经可以替代不少职场新人了。

但喊”AI 替代人类”还是太早了。

人还有空间感知、嗅觉、触觉等能力，今天的大模型，离真正读懂物理世界，中间还有一道鸿沟。这条路，也被黄仁勋和李飞飞都认为它是通往 AGI 的必经之路。

那这道鸿沟该怎么填？

vivo 总裁兼首席运营官胡柏山，在博鳌亚洲论坛上给出了一个很直接的判断：在明确的物理大模型没有出来之前，要有好的体验，就要把物理世界的信息转化到数字世界。

他相信这件事应该用手机去做。甚至在未来十年里，其他设备都很难替代。

物理 AI 目前仍是一片处女地。真正落地前，任何好奇心与想象力，都值得剖析。我们想拆解一下这位行业老兵的观点：他看到了什么，押注了什么，以及这个赌局的赢面有多大。

感知才是 AI 时代的关键

AI 手机、端侧模型、具身智能，近两年行业的风口，一个接一个，让人们应接不暇。怕错过的情绪下，手机品牌纷纷加速布局AI 手机，行业一度认为，模型能力会成为手机厂商的护城河。

胡柏山不这么看。他指出，相比模型而言，积累下来的场景数据才最有差异化。

简单理解，就是AI对具体物理场景的感知。

胡柏山在博鳌论坛里用了一个比喻：没有感知能力，AI 就像困在黑屋子里的大师，能力再高，也看不见咫尺之外的世界。

他的理解是这样的：未来模型会越来越同质化，开源速度越来越快，大家之间的差距越来越小。

仔细想想其实也不无道理，DeepSeek 去年炸开了开源大模型的口子，时隔一年，目前国产开源模型，并不是deepseek独领风骚，而是智谱、mini Max、kimi等纷纷追了上来。如果手机企业只是给增加个ai能力的话，那确实看不出彼此之间的差异点。

胡柏山认为，vivo的差异点可以是感知。

何为感知？你可能会认为这是触觉、嗅觉。但vivo给出了自己的理解——读懂光影，读懂空间，读懂场景里发生了什么，甚至读懂人的情绪状态。

未雨绸缪，他在博鳌提到了一件 vivo 内部刚刚落定的事：今年，vivo 正式成立了一条新的长技术赛道——感知赛道。

但物理ai才处于起步阶段，行业也没有现成的开源方案可以借鉴，真正落地难度可不低。胡柏山自己也承认：这个领域开源资源少，需要自主探索。

方向选对了，不等于路就好走，接下来，我们要看vivo是如何获得感知的能力。

感知的抓手是什么？

胡柏山认为，让 AI 走进物理世界，需要一套感知系统做支持。而vivo 训练感知系统的核心抓手，是影像。

具体怎么做？我翻看胡柏山的演讲与专访，可以总结为，软硬协同，用硬件收集数据，用软件转化为感知数据，形成数据壁垒。

先看硬件。

很多人看到 AI 预训练数据，会想到图片、文本语料。但具身智能的数据不同：机器要学人在现实世界的行为，一个典型的场景是：人先做动作，机器在旁边观看、采集。

vivo 收集数据靠的是影像那双眼睛。

vivo指出，X300 Ultra 的主摄传感器升到了 1/1.12 英寸。和索尼的合作则在往半导体转化效率的方向走，比如，胡柏山提到了一种新技术路径，能把感光元件的进光转化率从 90% 推到 110% 以上。

胡柏山的判断和行业观察者大致相同：传感器尺寸已经卷到了边际收益递减的阶段，更大的空间在转化效率和外挂形态。X300 Ultra 上已经做了 200mm、400mm 定焦增距镜，还有更多在路上——硬件的不断升级，这都有助于vivo理解用户。

但光”看见”不够，还得”看懂”。

再看软件。

vivo 在端侧部署了多个专项 agent。一个能判断你在拍什么、用什么焦段、什么光线；另一个整理你的相册，根据修图习惯推荐滤镜，甚至自动把素材剪成短视频。

看到这你可能会问数据隐私，这不必担心，vivo依赖的并非云端ai，而是端侧AI，具备低延迟、高隐私、弱依赖网络的特点。长此以往，就能更贴合用户场景的数据，构建上文所说的差异化。

总体而言，vivo 要做的是把视觉、听觉、触觉等多种感官信息，通过传感器结合大模型，转化为机器能理解的物理世界信息。

从目前来看，vivo 已经在布局定制算力芯片和 3B 参数的端侧模型，接下来要保障大规模商用后的稳定输出，让想法真正落地。

胡柏山判断，未来，手机将会从 Smartphone 进化为 Agent Phone，这时候手机将不会再是工具，而是伙伴。

这里，我也要指出，这个愿景能走多远，取决于一个关键问题：端侧的数据飞轮能不能真正转起来？如果 Agent Phone 的体验不够惊艳，用户不买账，数据就无法积攒，这是一个先有鸡还是先有蛋的挑战。

机器人落地十年不晚？

Agent Phone 之外，vivo 也在尝试将技术边界拓展到机器人领域。

这背后是胡柏山对未来技术结构的理解：AI 与机器人分别代表数字世界与物理世界最核心的技术方向，而手机凭借最广泛的用户基础和数据入口，可能成为连接两者的中枢。他在博鳌论坛群访中说得直接：手机连接数字世界，机器人连接物理世界，两者最终可能形成统一的技术体系。

vivo 已经在为这个目标布局。2025 年，vivo 成立了机器人 Lab，重点攻关机器人的”大脑”和”眼睛”，并将家庭场景作为长期方向。

胡柏山比较谨慎，资源主要聚焦在用户场景下最关键的技术点上。

vivo 机器人 Lab 首席科学家邵浩给用户场景一个具体定义：涵盖从用户进门脱下外套开始，涵盖洗衣、烘干、收纳等流程的完整闭环。

当然，vivo并不是说大话，他们并不想一步到位做到完全自主的 L4 级别。而是给出了一个大概的时间线：一开始可能 95% 的操作得靠人机协同，慢慢的，人插手的比例降到 60%、30%，十年后，才是 0%。

胡柏山管这个策略叫沿途下蛋，在《节点AI》看来，这种渐进式策略，还是比较清醒的。因为机器人赛道的技术成熟度，远未到消费级普及的临界点。过早追求全自主成本过高。

vivo希望的是，从人机协同起步，用真实场景数据迭代模型，看到这，你是不是发现，这和手机领域数据是竞争壁垒的逻辑几乎一样。先跑通数据，再说具体的落地，方向有了，技术成熟了，一切自然水到渠成。

这套逻辑也面临挑战。

小米在机器人赛道布局更早、更广，已经投了一批产业链公司。华为凭借鸿蒙系统的生态优势，也具备切入机器人操作系统的条件。vivo 选择只做”大脑和眼睛”、把硬件交给供应链伙伴，资产更轻，但对产业链的掌控力也更弱。

胡柏山的畅想能否跑通，取决手机主业能否持续输血，AI 能力能否持续领先，机器人商业化节奏能否匹配预期。一个都不能掉链子。

胡柏山在博鳌说过一句话：认知到了加油门，认知没到宁可慢。

这句话很实在。五到十年的赛道周期里，或许比的不是谁先跑的快，而是谁能在这条赛道上笑到最后。

在《节点AI》看来，vivo已经描绘好自己未来的十年蓝图，接下来是一步步落地。

*题图由AI生成

节点声明：本内容为作者独立观点，不代表节点财经立场。未经允许不得转载，文中内容仅供参考，不作为实际操作建议，交易风险自担。

胡柏山掌管vivo后：不在只做手机

感知才是 AI 时代的关键

感知的抓手是什么？

机器人落地十年不晚？

相关推荐

探访韩束三位数增长的密码

预制菜龙头安井食品为何“引众怒”？

洋河打响「第三保位战」

海信视像喜披业绩预告，但持续性有待观察

药师帮发布2023年财报：去年亏了32亿