跳到正文
W Winse Blog
ai editor dev 2 min read

深入解析 Nano Banana:Google 技术博客四篇精华翻译

随着 AI 技术的飞速发展,图像生成领域迎来了革命性的突破。其中,Google 推出的 Nano Banana 模型,凭借其强大的图像生成能力和轻量化设计,成为了当前最火热的图像生成工具之一。这一技术不仅能帮助开发者更高效地生成艺术作品,还为我们带来了更加个性化的创作体验。本文将翻译和解读 Google 官方技术博客中的四篇文章,让大家更深入地了解 Nano Banana 的核心技术与应用,帮助你在自己的项目中充分利用这一强大的 AI 工具。


  Gemini 2.0 Flash 原生图像生成实验  

2025 年 3 月 12 日

https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/

去年 12 月,我们首次向值得信赖的测试人员推出了 Gemini 2.0 Flash 的原生图像输出功能。如今,我们将此功能开放给所有 Google AI Studio 目前支持地区的开发者进行实验。您可以在 Google AI Studio 中使用实验版 Gemini 2.0 Flash (gemini-2.0-flash-exp) 并通过 Gemini API 测试这项新功能。

Gemini 2.0 Flash 结合了多模态输入、增强推理和自然语言理解来创建图像。

以下是 2.0 Flash 多模态输出的几个亮点示例:

1. 文字与图片并存

使用 Gemini 2.0 Flash 讲述故事,它会用图片进行阐释,始终保持人物和场景的一致性。提供反馈后,模型会重新讲述故事或调整绘图风格。

以 3D 卡通动画风格生成一个关于一只白色小山羊在农场冒险的 6 部分故事。为每个场景生成一张图片。

Google AI Studio 中的故事和插图生成

2. 对话式图像编辑

Gemini 2.0 Flash 可帮助您通过多轮自然语言对话来编辑图像,非常适合反复迭代以达到完美的图像效果,或共同探索不同的想法。

你能在桌子上放些花吗?

在 Google AI Studio 中进行多轮对话图像编辑,在整个对话过程中保持上下文

3. 世界理解

与许多其他图像生成模型不同,Gemini 2.0 Flash 利用世界知识和增强推理能力来创建正确的图像。这使得它非常适合创建逼真的详细图像,例如菜谱插图。虽然它力求准确,但与所有语言模型一样,它的知识是广泛而通用的,而非绝对或完整的。

请给我一份巧克力曲奇饼干的食谱。请附上每个步骤的图片。

Google AI Studio 中食谱的交错文本和图像输出

4. 文本渲染

大多数图像生成模型难以准确渲染长文本序列,这常常导致字符格式错误、难以辨认,甚至出现拼写错误。内部基准测试表明,2.0 Flash 的渲染能力比领先的竞争模型更强,非常适合创建广告、社交帖子,甚至邀请函。

用老式电脑显示器的正面视图创建一张细节丰富的老式 35 毫米照片,并以大号字体显示:“此图像由 Gemini 2.0 Flash 生成。

现在您可以使用它来生成图像。

立即访问 aistudio.google.com 试用。”

Google AI Studio 中的长文本渲染图像输出


  直接在 Gemini 应用中上传和编辑图片  

2025 年 4 月 30 日

https://blog.google/products/gemini/image-editing/

Gemini 的最新更新带来了原生 AI 图像编辑功能,让您可以轻松修改上传和生成的图像。

今年早些时候,我们率先通过 AI Studio 将原生 AI 图像编辑的强大功能直接交付给用户。基于用户对该功能的积极反馈,我们将这些功能扩展到 Gemini 应用。

我们即将推出一项功能,让您轻松修改您的 AI 作品以及您从手机或电脑上传的图像。您可以更改背景、替换对象、添加元素等等。例如,您可以上传个人照片,然后 Gemini 会生成一张您搭配不同发色后的效果图。

这种直观的多步骤编辑功能意味着您可以通过集成的文本和图像获得更丰富、更符合情境的提示响应。例如,您可以让 Gemini 创作一个关于龙的睡前故事的初稿,并提供与故事相关的图片。

与所有使用 Gemini 的 AI 生成的图像一致,使用原生图像生成功能创建或编辑的图像将包含不可见的 SynthID 数字水印。我们目前还在尝试在所有由 Gemini 生成的图像上添加可见的水印。Gemini 的原生图像编辑功能将于今日逐步推出,并在未来几周内扩展到更多用户,支持超过 45 种语言,并覆盖大多数国家/地区。


 隆重推出 Gemini 2.5 Flash Image,我们最先进的图像模型 

2025 年 8 月 26 日

https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/

今天,我们非常高兴地推出 Gemini 2.5 Flash Image(又名 nano-banana),这是我们最先进的图像生成和编辑模型。此次更新支持您将多幅图像融合成一幅图像,保持角色的一致性以呈现丰富的故事情节,使用自然语言进行有针对性的转换,并利用 Gemini 的世界知识来生成和编辑图像。

今年早些时候,当我们首次在 Gemini 2.0 Flash 中推出原生图像生成功能时,您告诉我们您非常欣赏它的低延迟、经济高效和易用性。但您也反馈说,您需要更高质量的图像和更强大的创意控制能力。

该模型现已通过 Gemini API 和 Google AI Studio(面向开发者)以及 Vertex AI(面向企业)提供。Gemini 2.5 Flash Image 的定价为每 100 万个输出令牌 30.00 美元,每张图片包含 1290 个输出令牌(每张图片 0.039 美元)。所有其他输入和输出模式均遵循 Gemini 2.5 Flash 的定价。

Gemini 2.5 Flash Image 实际应用

为了使用 Gemini 2.5 Flash Image 进行构建更加便捷,我们对 Google AI Studio 的“构建模式”进行了重大更新(未来还会有更多更新)。在下面的示例中,您不仅可以使用自定义 AI 应用快速测试模型的功能,还可以重新组合模型或仅通过一个提示即可将想法变为现实。当您准备分享您构建的应用时,可以直接从 Google AI Studio 部署,或将代码保存到 GitHub。

尝试诸如“为我构建一个图像编辑应用程序,让用户上传图像并应用不同的过滤器”之类的提示,或者选择其中一个预设模板并重新混合它,所有这些都是免费的!

保持角色一致性

图像生成中的一个基本挑战是如何在多个提示和编辑中保持角色或物体的外观。现在,您可以将同一个角色放置在不同的环境中,在新的场景中从多个角度展示同一款产品,或者生成一致的品牌资产,同时保留主题。

我们在 Google AI Studio 中构建了一个模板应用(您可以轻松自定义并在其上编写代码),以展示该模型的角色一致性功能。

除了角色一致性之外,该模型在遵循视觉模板方面也表现出色。我们已经看到一些开发者探索了诸如房地产房源卡、统一员工徽章或整个产品目录的动态产品模型等领域——所有这些都基于一个设计模板。

基于提示的图像编辑

Gemini 2.5 Flash Image 支持使用自然语言进行有针对性的变换和精确的局部编辑。例如,该模型可以模糊图像背景、去除 T 恤上的污渍、从照片中移除整个人物、改变拍摄对象的姿势、为黑白照片添加颜色,或者任何您能通过简单提示实现的功能。

为了实际展示这些功能,我们在 AI Studio 中构建了一个照片编辑模板应用,其中包含 UI 和基于提示的控件。

原生世界知识

历史上,图像生成模型在图像的美学呈现方面表现出色,但缺乏对现实世界的深度语义理解。借助 Gemini 2.5 Flash Image,该模型受益于 Gemini 的世界知识,从而解锁了新的用例。

为了演示这一点,我们在 Google AI Studio 中构建了一个模板应用,将一个简单的画布变成了一个交互式教育导师。它展示了该模型读取和理解手绘图表、帮助解答现实世界问题以及一步完成复杂编辑指令的能力。

多图像融合

Gemini 2.5 Flash Image 可以理解并合并多幅输入图像。您可以将物体放入场景中,使用配色方案或纹理重新设计房间,并只需一次提示即可融合图像。

为了展示多图像融合功能,我们在 Google AI Studio 中构建了一个模板应用,您可以将产品拖放到新场景中,快速创建一张新的逼真融合图像。


  Gemini 的图像编辑功能全新升级  

2025 年 8 月 26 日

https://blog.google/products/gemini/updated-image-editing-model/

使用 Gemini 应用中更新的原生图像编辑功能,以令人惊叹的全新方式编辑图像。

今天,我们在 Gemini 应用中发布了 Google DeepMind 的全新图像编辑模型。在早期预览版中,它就已广受好评——它是全球评价最高的图像编辑模型。现在,我们很高兴地宣布,它已集成到 Gemini 应用中,让您拥有比以往更强大的控制力,创作出完美的照片。

编辑时保持原貌

我们于今年早些时候在 Gemini 应用中推出了原生图像编辑功能,并一直在努力改进它,尤其注重在不同的画面中保持人物的相似性。我们知道,在编辑自己或熟人的照片时,细微的瑕疵至关重要——“相近但不完全相同”的描绘感觉并不对。正因如此,我们最新的更新旨在让您的朋友、家人甚至宠物的照片始终保持原样,无论您是想尝试 60 年代的蜂窝发型,还是想给您的吉娃娃穿上芭蕾舞裙。

只需给 Gemini 一张照片,告诉它您想修改哪些内容以增添您的独特风格。Gemini 可以让您将照片组合在一起,将您和宠物放在一起,更改房间背景以预览新壁纸,或将自己放置在您能想象到的任何地方——所有这些都能保持您的本真。完成后,您甚至可以将编辑后的图像上传回 Gemini,将新照片制作成一段有趣的视频。

利用高级编辑功能,将您的愿景变为现实

探索这项全新图像编辑功能,您可以尝试以下几项操作:

1、为自己更换服装或地点: 上传人物或宠物的照片,即使您将他们置于新的场景中,我们的模型也会在每张照片中保持其外观不变。您可以尝试穿上不同的服装或从事不同的职业,甚至可以看看十年后的自己是什么样子——所有这些都保持原样。

展示了 Gemini 应用程序中的原生图像编辑功能,将一位金发女子的照片变成了斗牛士、艺术家和 90 年代风格人物的照片

2、混合照片: 现在您可以上传多张照片并将它们混合在一起,打造一个全新的场景。例如,您可以拍摄一张您和您的爱犬的照片,打造一张你们俩在篮球场上的完美肖像照。

GIF 展示了 Gemini 应用程序中的原生图像编辑功能,将一张女人的照片和一只狗的照片混合在一起,以显示女人和狗一起在篮球场上

3、尝试多轮编辑: 您可以持续编辑 Gemini 制作的图像——例如,找一个空房间,粉刷墙壁,然后添加书架、家具或咖啡桌。Gemini 会全程与您合作,修改图像的特定部分,同时保留其余部分。

GIF 展示了 Gemini 应用程序中的原生图像编辑功能,通过添加鲑鱼色墙壁、书架、绿色天鹅绒沙发和波斯地毯来装饰房间

4、混合设计: 将一张图片的风格运用到另一张图片的某个物体上。你可以将花瓣的颜色和纹理运用到雨靴上,或者用蝴蝶翅膀的图案设计一条连衣裙。

GIF 展示了 Gemini 应用中原生图像编辑功能,将一张照片的风格(例如粉色花朵)应用到另一张照片上(例如蓝色雨靴)

您现在可以在 Gemini 应用中试用这项更新的图像编辑功能。在 Gemini 应用中创建或编辑的所有图像都包含可见水印,以及我们隐形的 SynthID 数字水印,清晰地显示它们是 AI 生成的。


无论你是开发者还是 AI 爱好者,了解技术的发展过程都能帮助你更好地掌握和应用 Nano Banana。随着 AI 创作工具的普及,未来的图像生成将更加便捷和个性化。如果你还没尝试过这项技术,不妨亲自体验一下,看看它如何颠覆你对艺术创作的传统认知。

在 GitHub 上讨论

欢迎通过 GitHub Issue 留言或反馈。每条讨论都会关联到对应文章的源文件路径。

2025-08-30-深入解析-Nano-Banana:Google-技术博客四篇精华翻译.md

Related posts