机器之心编辑部
突破性的质量,实惠的价格。
经过一段时间的期待,Nano Banana 2终于面世了。

谷歌首席执行官皮查伊在他的帖子中表示:“这是我们至今为止最好的图像模型。”

https://x.com/sundarpichai/status/2027057726170509724
目前,该模型已经在 Gemini 应用、Google 搜索(覆盖141个国家)和 Flow 上启用,并且在 Google AI Studio 和 Vertex AI 中提供预览版本。此外,在 Google 的 Antigravity 中也可以使用。
此次更新不仅提升了画质,还显著改进了能力结构。
Nano Banana 2结合了 Gemini 对世界的深入理解以及实时网络信息和图片的检索功能,能够以高保真度反映当前世界的真实状况。
皮查伊举了一个“Window Seat”的例子。不论选择世界上哪个地方,模型都可以生成该位置窗外景色,并自动添加当地的天气信息,支持2K/4K高清格式。
用户可以通过搜索鹪鹩的外观来获得一个精美的桌面背景图片。

提示词:使用图像搜索引擎查找准确描绘鹪鹩的照片。创建一张比例为3:2的壁纸,采用自然渐变效果,并保持极简设计风格。——@fofrAI
文本处理能力依然是这次升级的重点提升方向之一。
Nano Banana 2明确被定位为能够在图像中生成清晰、可读且可以直接商用的文字内容,适用于营销材料和贺卡设计等多种场景。

来自X@ZHO_ZHO_ZHO
根据社区反馈,文字排版的一致性和稳定性相比前一代有了明显的改进。
![]()
来自X@oran_ge(左图),X@ZeroZ_JQ(右图)

来自X@karminski3

拉纳克普尔耆那教寺庙的柱子——@tulseedoshi
该模型在处理复杂场景时也展现了一定程度的统筹能力。
巴斯学院教授@emollick抢先体验了Nano Banana 2。“尽管它尚不完美,但却是第一个能够以较高的一致性处理极其复杂的图像和图表的模型。”
他给出的指令是:
“请展示一幅在古代威尼斯背景下的《威利在哪里》风格的图片;但是将‘威利’换成一只穿着蓝色条纹飞行员制服的水獭。”——@emollick

X@emollick
这样复杂多元的画面生成,即使仔细观察也能够找到唯一的水獭。当然也有一些问题存在,比如长尾巴的小男孩。

速度感是这一代最为直观的体验提升之一。

用户反馈显示,在不到一分钟的时间内就能生成4K图像。

更重要的是价格亲民!官方给出的价格比Pro版本更低:图片费用便宜了25-50%,文本token费用则下降70-80%。
突破性的质量,实惠的价格。

从社区的实际测试来看,Nano Banana 2在图像的一致性表现上也有显著提升。
我们进行了简单的体验后发现确实有所改进。
![]()
提示词:保持所有角色和物体与左图完全一致。重新布置场景使五个角色围坐在一张圆桌旁,并自然地进行互动。九个物件必须全部保留且清晰可见。电影级光影,中景,照片级真实感。(右图即为结果)
谷歌表示,在单一工作流下可以保持多达5个角色的一致性以及14个对象的保真度,这使得分镜头创作和叙事构建成为可能。
当一致性不再频繁崩溃时,分镜、故事板乃至连续广告等视觉资产自动生成才真正变得可行。
在复杂的指令输入方面,Nano Banana2显示出更强的理解能力。因此博主感叹:“设计师们,我觉得我们的饭碗要保不住了!”

@hewarsaber给它一张草图,并提示:将此草图转化为AI视频平台的落地页。紫色和白色,简洁现代风格。“人工智能视频,朗读你的脚本。”标题醒目,并在右侧展示一个AI头像,在导航栏下方添加用例标签。
微妙的镜头语言控制和执行稳定性也有所提升。

提供了三张参考图片及简单的提示:展示了35mm、50mm和85mm焦距,光圈分别为f/1.2和f/2的情况。——@LinusEkenstam

网友评价称该模型能够轻松理解如何使用广角镜头拍摄特写的图像。——@aifilmmaker
在产品规格上,全面支持各种比例(包括极端的1:8和8:1),专为横幅、故事流及全景内容而设计。
分辨率从512px到4K均覆盖,并加入低分辨率快速模式,更适用于高频迭代与大规模流水线生产。

虽然不支持极端的8:1比例,但许多网友晒出的这种全景图已经非常惊艳了。

还有网友尝试生成了一个720度VR素材图,并加入交互功能后得到了一个完整的全景网站。

X@ZeroZ_JQ
值得注意的是,在保持速度的同时,视觉保真度也有所提升。图像中充满活力的光影、丰富的纹理和清晰的细节使得画面更加逼真生动。
看这张照片!睫毛根根分明,眼周皮肤、眼睛里的红血丝都十分真实,甚至可以透过眼睛看到窗外的一只鸟。——@charliejhills

https://x.com/chetaslua/status/2026961626549887069?s=20

皮肤上的毛孔和因寒冷而泛红的鼻头细节清晰可见。
用户们想出了很多有趣的应用方法。
博主@fofrAI引用了图书馆中随手拍摄的一本童书《如何拥抱动物》,然后提示模型展示书中有关水母的第42页内容。——@fofrAI
模型立即生成了该页面的内容,风格、排版和插图质感都显得非常真实。

https://x.com/fofrAI/status/2027076683010851284
根据你的笔迹生成一首诗。

X@Prathkum
甚至还能生成CAD设计图纸。
然而,模型也存在翻车的情况。比如倒立姿势错误;郭德纲与于谦的脸部互换失败。

@karminski3(左)@ZHO_ZHO_ZHO(右)
生成准确的时钟似乎是该模型的一个难题。

X@ZHO_ZHO_ZHO
据说,Google Ads 已经开始接入这一能力——这几乎等同于公开宣布:图像生成技术正式进入了广告生产基础设施中。
从更宏观的产品策略来看,谷歌的战略越来越明确:他们不仅仅是为了提升图像模型的美观度,而是要把这些工具全面引入高频次生产的基础设施之中。
当Pro级别的功能开始系统性地下沉到Flash级别时,图像生成技术的应用频率很可能会迎来又一次飞跃式增长。
https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/
