
文 / 道哥
来源 / 智百道
视频大模型的竞速还在持续。
作为国内视频生成大模型的代表,快手旗下的可灵AI近日宣布,其核心产品可灵O1正式上线“主体库”与“对比模板”两大重要功能,旨在提升AI创作的效率与作品展示效果。
但与此同时,在大洋彼岸,OpenAI旗下的Sora2,却开始陷入新的困境。根据a16z合伙人前段时间贴出的一组对比,Sora留存率远不如TikTok,首日留存率只有10%,30天留存率只有1%。对比来看,TikTok对应的留存率分别是50%和32%,差距明显。
在9月底OpenAI正式发布Sora 2及独立App时,不少预言家当时甚至集体狂欢,“Sora App将吞噬TikTok和Instagram上的网红,一场由AI主导的视频革命即将到来”。
OpenAI自己也说,我们可能迎来视频领域的GPT-3.5时刻。
然而,到了2026年年末,现实还是比概念更骨感。
在这一轮AI泡沫论底层,实际上是资本市场与产业界开始冷静审视这条赛道:所谓的“视频GPT时刻”似乎并未如期而至。相反,高昂的推理成本、难以闭环的商业模式以及尚不稳定的技术表现,正在构成一道道难以逾越的“叹息之墙”。
无论是谷歌被寄予厚望的Veo,还是曾惊艳全球的Sora,亦或是国内卷出天际的可灵、即梦,此刻都站在了一个尴尬的十字路口:技术看起来固然很炫酷,但到底谁能真正靠它赚到大钱?
01 模型竞速

时间需要回到2024年。
彼时随着Sora凭借60秒长视频、多角度镜头切换以及惊人的物理世界模拟能力震惊世界后,当年被科技圈定义为“视频生成元年”。
随后Runway推出了Gen-3 Alpha,Luma AI发布了Dream Machine,谷歌则在I/O大会上祭出了Veo;而在国内,字节跳动的即梦(Jimeng)、快手的可灵(Kling)、生数科技的Vidu等模型如雨后春笋般涌现
这一年的主旋律,无疑是中美两大科技阵营在视频模型上的疯狂竞速。这种竞速不仅体现在发布频率上,更体现在参数规模与生成质量的军备竞赛中。
但很快,这种竞速呈现出一种明显的“同质化内卷”趋势。现在的视频模型,大多采用了DiT(Diffusion Transformer)架构,这一架构有效地结合了Transformer处理序列数据的能力与Diffusion生成高质量图像的能力。
因为技术路径的趋同,各家比拼的焦点迅速转移到了数据质量、上下文长度以及对物理规律的理解上。
以国内战场为例,可灵AI的突围极具代表性。依托快手庞大的短视频生态,可灵在视频数据的理解上拥有天然优势,其生成的视频在运动幅度与逻辑连贯性上,一度被评测为“最接近Sora”的产品之一。而字节跳动的即梦则背靠抖音,在审美风格与运镜语言上更懂C端用户的偏好。
但问题是,作为视频模型代表的Sora,都正在陷入争议之中。前文提及的留存率,其实只是结果,真正的原因是,号称打造AI短视频的Sora2,其用户体验却非常差。
目前的模型竞速,更像是一场“演示片”的战争。哪怕是Sora2也同样如此。
官方放出的Demo往往是百里挑一的结果,而当普通用户上手时,人物肢体扭曲、物体凭空消失、物理逻辑崩坏(如倒出的水往天上流)等“抽卡失败”的现象比比皆是。这种“Demo与实物不符”的现状,直接导致了用户体验的断层。
目前的模型能力,虽然已经从“不可用”跨越到了“偶尔惊艳”,但距离ChatGPT那样“稳定且通用”的GPT-3.5时刻,仍有巨大的鸿沟。
大家都在卷时长、卷分辨率,却很少有人能彻底解决“可控性”这一导演与创作者最在意的核心命题。
02 算力黑洞

如果说模型能力的不足是可以通过时间解决的“软伤”,那么算力成本则是悬在所有视频AI公司头顶的“达摩克利斯之剑”。
视频生成是目前所有AI模态中,对算力消耗最为恐怖的领域,没有之一。
这不仅是因为视频增加了“时间”这一维度,导致数据量呈几何级数增长,更因为为了保证视频的连贯性与物理逻辑,模型需要在极短时间内进行海量的推理计算。
我们可以算一笔账。
在文本模态下,ChatGPT生成一段文字的成本虽然不低,但已经可以通过订阅费覆盖并实现盈利。然而,视频生成的算力需求是文本的成百上千倍。生成一秒钟的高清视频,其所需的GPU算力,足以生成数万字的文本或数十张高质量图片。
Sora之所以采用“切片”的方式处理视频数据,正是为了在Transformer架构下尽可能地压缩计算量,但即便如此,其推理成本依然高得令人咋舌。
这就是“算力黑洞”。
对于谷歌、OpenAI这样的巨头来说,或许还能通过烧钱来维持战略卡位,利用自身的云服务设施进行内部补贴。但对于Runway、Luma以及国内众多创业公司而言,每一帧视频的生成都是在燃烧真金白银。
更可怕的是,视频模型似乎还没有摸到“Scaling Law”(缩放定律)的边界,或者说,继续Scaling的边际收益正在递减,而边际成本却在指数级上升。
为了追求更好的物理模拟效果,模型参数量需要进一步扩大,训练所需的高质量视频数据(如电影级素材、高帧率实拍)却比文本数据更加稀缺且版权复杂。
互联网上虽然有海量视频,但大部分是低质量、高压缩、缺乏标注的“垃圾数据”,清洗和标注这些数据的成本远高于文本。
用户的使用习惯也加剧了这一困境。在ChatGPT中,用户输入Query,得到答案,流程是线性的。而在视频生成中,由于结果的不可控,用户往往需要反复生成、反复修改,就像玩“老虎机”一样,直到摇出满意的画面。
这意味着,一个最终可用的视频片段背后,可能伴随着十几次甚至几十次的废片生成。这些废片消耗的算力,全部是沉没成本。
目前,无论是国内的可灵、即梦,还是国外的Sora、Veo,都在面临同一个拷问:这把火到底能烧多久?
如果无法在算力成本与生成效果之间找到一个具备正向经济效益的平衡点,那么视频生成极有可能成为一个“叫好不叫座”的富人游戏。
在硬件架构出现革命性突破之前,算力瓶颈将死死卡住视频AI大规模普及的咽喉。
03 商业困境

其实说到底,技术竞速与算力成本最终都要回归到一个终极问题:商业模式。
为什么ChatGPT能迅速成为杀手级应用?因为它直接解决了信息检索、代码编写、文案撰写等具有明确“生产力属性”的刚需,且交付结果相对确定。
反观视频生成,目前的定位极其模糊。
在C端市场,视频AI陷入了“玩具化”的陷阱。绝大多数用户下载Sora或可灵,更多是出于猎奇心理。他们生成几个搞怪视频发朋友圈,获得社交货币后,新鲜感便迅速消退。这解释了为什么首日留存率尚可,但30天留存率会暴跌至1%。
对于普通人而言,制作视频并非高频刚需,且目前AI视频生成的精细度远未达到替代拍摄的程度,更无法提供TikTok那种基于算法推荐的娱乐消费体验。
指望AI生成工具去取代TikTok,在现阶段无异于痴人说梦——一个是生产工具,一个是内容消费平台,两者的底层逻辑截然不同。
在B端专业市场,视频AI其实同样面临着“不可控”的致命伤。对于影视制作、广告营销等专业领域,核心诉求是“精确控制”——导演需要指定角色的微表情、光影的具体走向、物体运动的精确轨迹。
目前的视频大模型,虽然能生成“看起来很美”的画面,但本质上还是基于概率的“抽卡”。好莱坞大亨泰勒·佩里虽然因为看了Sora的演示而暂停了影视基地的扩建,但这更多是一种对未来的防御性恐慌,而非当下的实际替代。
真正的影视工作流中,由于AI生成内容难以保持角色一致性和场景连续性,导致其目前只能充当“动态分镜脚本”或“灵感参考”,很难直接输出成品素材。
最后也是最为关键的,还是变现路径的狭窄。
目前主流的商业模式依然是Sora、Runway采用的SaaS订阅制,即卖点数、卖时长。但在高昂的推理成本面前,这种订阅费往往只能勉强覆盖成本,甚至亏本赚吆喝。如果为了覆盖成本而提高定价,又会将大量中小用户拒之门外,限制了规模效应的形成。
国内市场的情况更为复杂。
可灵、即梦等背靠短视频巨头,它们的算盘或许不是直接卖会员赚钱,而是将AI能力融入到自家的短视频生态中,降低创作者门槛,从而维持内容生态的繁荣,最终通过广告和电商变现。
这是一种“羊毛出在猪身上”的策略。但问题在于,如果AI生成的视频内容泛滥且质量参差不齐,反而可能稀释平台的内容质量,导致用户审美疲劳。
从这个角度来看,视频AI目前正处于Gartner技术成熟度曲线的“期望膨胀期”顶峰滑落向“泡沫破裂谷底期”的阶段。
虽然谷歌、OpenAI、快手、字节都在全力以赴,但视频AI距离“GPT时刻”,也就是要成为一个低门槛、高可用、全行业通用的基础设施,目前看,无论硅谷还是国内大厂,都还有很长的路要走。
这不仅需要算法层面的突破来解决“可控性”难题,更需要算力成本的数量级下降,以及一个能真正能够跑通ROI的杀手级应用场景。
在此之前,视频AI注定依然是一场还得继续海量烧钱的马拉松。
*题图由AI生成
节点声明:本内容为作者独立观点,不代表节点财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。