
文 / 道哥
上线不到两周,谷歌旗下的Nano Banana已在全球生产超2亿张图片,亚太地区用户热情度居首。
这个图片编辑模型界的“新星”,上个月在全球人工智能社区里还是一个不知出处的神秘代号。在AI模型匿名对战平台LMArena上,它以惊人的表现迅速登顶排行榜,在处理复杂指令、保持角色连贯性和理解上下文细节方面的能力,轻松击败了包括OpenAI和Midjourney在内的所有知名对手。一时间,关于“Nano Banana”究竟是何方神圣的猜测甚嚣尘上。

谜底很快揭晓,谷歌正式宣布这匹黑马正是其最新升级的图像生成与编辑模型——Gemini 2.5 Flash Image,它作为一项重大更新被集成到了谷歌的AI应用Gemini之中,由Google DeepMind提供技术支持。
《智百道》认为,“Nano Banana”的问世,并非仅仅是图像模型的又一次迭代,它预示着谷歌正试图将AI转变为一个深度嵌入工作流程的“创意协作者”,意在打破当前市场上由Midjourney主导的艺术美学和由OpenAI主导的文本生产力工具之间的二元格局,开辟一条以“工作流”为核心的全新赛道。
01 重新定义“P图”,像对话一样编辑现实
传统AI图像工具的交互模式,往往是“一问一答”式的,用户需要绞尽脑汁设计出完美的提示词(prompt),模型则一次性生成结果。后续的修改,无论是通过Midjourney的“Vary”功能还是DALL-E的局部重绘,都感觉像是独立的、离散的操作。
“Nano Banana”则引入了一种“创意伙伴”(creative partner)的新模式,用户可以发起一个初始指令,然后通过连续的自然语言对话,对生成的图像进行迭代式优化。这种多轮编辑能力,使得AI能够记忆上下文,理解用户的连续意图,从而实现渐进式的、精细化调整。

《智百道》尝试让模型生成一个“空荡荡的房间”,接着说“把墙壁刷成鹅黄色”,然后是“在墙边加一个书架”,最后“放置吊灯、沙发和地毯”。在整个过程中,“Nano Banana”始终保持着对场景的整体认知,每一次修改都在前一次的基础上进行,而不是推倒重来。
《智百道》认为,这种交互方式极大地降低了使用门槛,让复杂的视觉构想得以通过最自然的对话形式逐步实现。让用户的角色从一个“提示词工程师”转变为一个真正的“创意总监”,其价值不再仅仅是提出最初的构想,更在于通过与AI的持续互动来打磨和完善最终的作品,也更贴近人类创作者的自然思维过程。
对话式体验的背后,建立在模型的四大核心技术之上,它们共同构成了“Nano Banana”颠覆性的能力矩阵。
首先是角色与风格一致性,之前的模型很难在多张图片中保持同一个角色的面部特征、服装或特定风格。“Nano Banana”在这一点上取得了突破,能够确保一个人物、宠物甚至是一个品牌产品,在不同的场景、姿态和服装下,依然保持其核心外观的连贯性。
其次是多图像融合,该功能允许用户上传多张不同的图片,让模型理解并将其中的元素、主体或风格无缝地融合到一个全新的、逻辑自洽的场景中。

第三是精准的局部编辑,用户无需使用复杂的选区或蒙版工具,只需通过简单的文字描述,就能对图像的特定区域进行修改。无论是“移除T恤上的污渍”、“模糊照片的背景”,还是“改变人物的姿势”,模型都能精准定位并执行操作,同时保持图像其他部分的完整性和协调性。
最后是设计与风格迁移,模型能够从一张图片中提取颜色、纹理或图案等设计元素,并将其应用到另一张图片中的对象上。谷歌官方演示的例子包括“用花瓣的颜色和纹理设计一双雨靴”,或是“用蝴蝶翅膀的图案设计一条连衣裙”,展现了其在跨概念创意组合方面的潜力。
正如一些科技媒体所评论的,“Nano Banana”正在成为“每个人的Photoshop”。它将过去需要数年学习才能掌握的专业图像处理技术,转化为普通人通过日常语言就能使用的工具。对于广大普通用户而言,这意味着他们可以轻松地为社交媒体创作更具个性化的内容,为个人项目制作独特的视觉材料,或者仅仅是为了娱乐而实现各种天马行空的想象。
对于平面设计师、插画师和视觉艺术家等专业创作者而言,“Nano Banana”可以把他们从大量重复、繁琐的执行性任务中解放出来。比如,为一个广告活动制作15个尺寸略有不同的版本,或者为一系列产品图更换不同的背景,这些过去耗时耗力的工作现在可以交由AI自动完成。这使得专业人士能将更多精力投入到更高层次的品牌战略、复杂的版式设计以及决定作品优劣的最终细节打磨上。
该模型也很快被专业人士买单,全球最大的广告传播集团WPP的全球创意与创新主管Daniel Barak指出,该模型在零售业和消费品行业中展现了强大的应用范例,并计划将其整合到WPP的AI营销服务平台WPP Open中。
02 谷歌做对了什么?
在正式揭晓身份之前,“Nano Banana”已经在匿名的LMArena对战平台上证明了自己。它在人类偏好测试中,尤其是在图像编辑任务上,以高达1362的Elo分数高居榜首,显著领先于竞争对手。
除了模型本身的技术创新,谷歌还巧妙地利用了其庞大的生态系统优势。“Nano Banana”继承了Gemini大模型的“原生世界知识”,这意味着它不仅仅是一个图像生成器,更是一个具备常识和推理能力的系统。它能够理解和生成具有深层语义准确性的图像,例如,它可以读懂手绘的图表并回答相关问题,或者根据用户所在的地理位置,生成符合当地文化习惯的图片。
在商业策略上,谷歌采取了极具竞争力的定价,通过API调用,每生成一张图片的成本约为0.039美元,低价策略极大地降低了开发者和企业进行大规模、高频次图像生成的门槛。《智百道》认为,这是一种典型的平台战略,旨在通过价格优势快速抢占市场份额,鼓励开发者围绕其API构建应用生态。
谷歌的战略也清晰可见,它并非要在所有维度上都做到极致。Midjourney在艺术美学上依然是王者,而OpenAI则凭借其庞大的ChatGPT用户基础在通用性上占优。谷歌选择的突破口是工作流,通过打造一款在专业人士最常遇到的80%任务(如保持一致性、反复修改、快速出图)上表现卓越、且成本低廉的工具,它精准地切入了对实用性和集成度要求极高的企业级市场。
这是一种典型的用“更好用、更便宜”的产品来满足主流市场需求的策略,即便它在某些顶尖的艺术性指标上并非最佳,但其在商业应用上的综合价值却可能更高。
03 香蕉的“另一面”,不完美现实与未解的伦理题
尽管“Nano Banana”在功能和理念上带来了诸多突破,但它远非完美,用户的实际体验和深入的审视揭示了其在技术层面的一系列短板。
首先是分辨率和细节的损失。科技媒体CNET的评测指出,该模型在处理用户上传的高质量照片后,输出的图像分辨率常常会降低,导致原始照片中的精细细节变得模糊。这对于追求画质的摄影师和专业设计师来说,是一个难以接受的硬伤。
其次是僵化的格式限制,目前,该模型强制输出正方形(1:1)的图像,并且会忽略用户提出的更改宽高比的指令。这一限制极大地束缚了其在不同媒介上的应用。尽管一些高级用户已经找到了通过特定指令“欺骗”模型输出不同比例图像的“黑客”方法,但这无疑增加了使用成本和不确定性。
此外,其性能并不稳定,在某些看似简单的任务上,如移除玻璃上的反光,模型可能会反复失败,并且每一次尝试都可能进一步降低图像质量,甚至扭曲画面中的人脸。一些Reddit用户甚至抱怨,公开发布的版本感觉比之前在LMArena上测试的匿名版本性能有所下降,在一致性和指令遵循方面打了折扣。

值得注意的是,为了避免陷入安全与伦理性争议,新版的“Nano Banana”似乎走向了另一个极端:过度审查。大量用户反映,模型内置了极其严格的安全过滤器,常常会拒绝执行完全无害、符合社区规范的指令。这种“宁可错杀一千,不可放过一个”的策略,虽然在一定程度上避免了政治不正确的风险,
此外,所有由“Nano Banana”生成或编辑的图像,都会被打上可见的水印和一种名为SynthID的不可见数字水印。这项由Google DeepMind开发的技术,旨在从源头上明确内容的AI生成属性,以帮助对抗虚假信息和恶意滥用。
近期,谷歌也公布了Gemini各层级服务的具体使用限制,免费用户每天可生成100张图片,Google AI Pro订阅用户每天可生成1000张图片,Google AI Ultra订阅用户每天同样可生成1000张图片,但享有其他Gemini功能的更高配额。
“Nano Banana”的发布,也带来了一个关于未来的深刻问题:这究竟是标志着人机交互进入新纪元的“iPhone时刻”,还是科技巨头之间又一轮愈演愈烈的军备竞赛?
《智百道》认为,从核心贡献来看,它的真正突破在于将视觉创作的交互范式从“编写指令”转向了“进行对话”。这种以工作流为中心、强调迭代和精炼的模式,无疑比以往任何工具都更贴近人类的自然创作思维。就像iPhone的多点触控技术让复杂的计算变得直观易用一样,“Nano Banana”的对话式编辑也极大地降低了高级视觉创作的门槛,改变了人与AI之间的协作关系。
然而,也必须把这一创新置于生成式AI领域白热化的竞争格局中。谷歌凭借“Nano Banana”在图像编辑和工作流整合上扳回一城,但其竞争对手并未停歇,OpenAI正继续将其图像能力深度整合进ChatGPT庞大的生态系统,而Midjourney在艺术风格化的赛道上依旧一骑绝尘。
“Nano Banana”的长期意义或许并不在于它是否是当前“最好”的模型,而在于它所代表的战略方向——将AI作为一种无缝、直观、深度嵌入日常工作流程的协作工具。这场风暴过后,创意产业的图景已然改变。它加速了创意的民主化进程,重塑了专业人士的角色定位。
谷歌的“香蕉”可能不是战争的终点,但它无疑是改变了战场规则的那颗信号弹,创意工作者与AI“副驾驶”共生的时代,已经到来。
*题图由AI生成
节点声明:本内容为作者独立观点,不代表节点财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。