谷歌的最强大人工智能(AI)模型Gemini 3刚发布两天,就来返场送惊喜了。

美东时间20日周四,谷歌宣布,基于Gemini,升级其大热的图像生成与编辑模型。新推出的模型Nano Banana Pro号称能提供“摄影棚级别”的精度和控制,在文本渲染准确性、分辨率和专业控制能力上实现显著提升,旨在将AI图像工具从消费级应用推向专业设计领域。

Nano Banana Pro支持生成最高4K分辨率的图像,可在多语言环境下精确渲染文本,并允许用户像使用专业相机一样控制拍摄角度、景深、色彩和光照等参数。谷歌Labs和Gemini副总裁Josh Woodward表示,该产品在信息图表制作、幻灯片设计等方面表现出色,可保持最多五个角色和十四个物体的一致性。

谷歌的全球免费Gemini用户将能够在配额限制内使用Nano Banana Pro,超出配额后将自动切换回旧版模型,付费AI计划订阅用户则拥有更高使用额度。该模型已集成至Canva、Figma、Adobe Firefly和Photoshop等主流设计工具。

谷歌还同步推出了AI内容溯源功能。用户可在Gemini应用程序App中上传图像,查询其是否由谷歌AI生成,该功能未来将扩展至音频和视频。此举是谷歌将AI技术商业化的最新尝试,也是其在生成式AI竞赛中追赶OpenAI的重要一步。

这一发布延续了谷歌本周在AI领域的强劲势头。周二发布的Gemini 3在推理和编码能力上实现"巨大跃升",周三推动谷歌母公司Alphabet股价创历史新高。周四官宣Nano Banana Pro当天,股价早盘一度涨近5%,但午盘追随大盘转跌,收跌约1%,暂别周三刷新的收盘最高纪录。

攻克AI拼写难题,文本渲染实现突破

AI图像生成模型长期面临的一个核心挑战是文本渲染准确性。虽然部分模型随时间推移改进,但在生成包含多个文本短语的图像时,拼写错误和字体扭曲仍然常见,这限制了其作为专业设计工具的潜力。

Nano Banana Pro直接针对这一问题提供解决方案。谷歌发言人表示,新模型在渲染最终图像前,能够更好地规划文本位置、字体特征及其与其他图像元素的空间关系。该技术可将菜谱文本转换为图解流程图,或可视化天气、体育等实时信息。

Nano Banana Pro支持生成清晰可辨的文本,用户可描述所需字体类型或模拟不同手写风格,还能在图像内生成本地化文本或翻译文字。这使用户能够创建针对国际市场的产品展示、海报和信息图表。谷歌在博客文章中强调,锐利、清晰的文本帮助用户制作富有冲击力的海报、复杂图表和详细产品模型。

不过谷歌也提醒用户注意局限性。新模型在生成信息图表、标注图表或呈现复杂数据时,可能误读信息或产生事实错误。虽然能够生成和翻译多语言文本,但在语法、拼写、文化细微差别或惯用语方面仍可能出现问题。用户应始终仔细检查生成的图像及其中文本的准确性。

专业级控制功能,分辨率跃升至4K

Nano Banana Pro为专业用户提供了前所未有的精细控制能力。用户可探索不同拍摄角度和类型,包括广角、全景、特写等,还能调整景深以聚焦图像中的不同主体。

在色彩和光照方面,用户可调整色调分级和光照方向,甚至可将场景从白天转换为夜晚。

模型支持1K、2K和4K三种分辨率的精准放大,并能随意切换纵横比以适配不同平台或用途。

分辨率提升的代价是成本增加和速度下降。原Nano Banana模型生成1024像素图像的成本为0.039美元,而新模型生成1080p或2K图像的成本为0.139美元,4K图像为0.24美元。

在素材一致性方面,模型可在单一工作流程中保持最多五个角色的一致性和相似度,以及最多十四个物体的保真度。对于希望在营销活动中融入自身设计的品牌,模型可接收最多14张参考图像,并在用户文本提示描述的新场景中重新编排它们,同时保留输入素材的特征。

模型还能将草图转化为物体,将手绘笔记转为图表,将创意变成3D渲染建筑。用户可一次创建多张图像,快速高效地探索和审查创意选项。谷歌表示,模型还能创建具有真实细节的风景、植物、人物和动物的逼真图像。

广泛产品集成,付费用户获更高配额

Nano Banana Pro正在谷歌现有AI工具中全面推广。Gemini App将默认使用新模型生成图像,免费订阅用户可在限定配额内使用,超出后将切换回原Nano Banana模型。Google AI Plus、Pro和Ultra订阅用户将获得更高生成额度,这些付费用户还可在Notebook LM中使用该模型。

在美国地区,AI Pro和Ultra订阅用户可通过AI模式在搜索中访问该模型。Ultra订阅用户还能在谷歌视频工具Flow中使用,Workspace客户可在Google Slides和Vids中使用。开发者则可通过Gemini API、Google AI Studio和新IDE Antigravity调用Nano Banana Pro。

谷歌同时将其SynthID技术整合至Gemini应用,用于为AI生成图像添加水印和检测。用户可上传图像,聊天机器人将告知该图像是否由谷歌图像模型创建或修改。谷歌目前为所有AI工具创建的媒体嵌入不可见的数字水印,免费或Pro方案的订阅用户创建的图像还会添加可见水印,订阅最高价Ultra方案的用户则可移除可见水印。谷歌未提及是否计划支持C2PA等其他AI水印标准。

用户增长强劲,商业化进程提速

Nano Banana Pro的前身Nano Banana今年8月面世后在社交媒体上迅速走红,用户将自己或宠物的照片转化为超写实3D小雕像。Woodward在9月的X帖子中写道,该产品帮助Gemini应用在四天内新增1300万用户。

据谷歌发布的数据,Gemini App目前每月活跃用户超过6.5亿,由Gemini驱动的AI Overviews每月用户达20亿。相比之下,OpenAI CEO Sam Altman在10月表示,ChatGPT每周活跃用户达8亿。

Woodward本周四表示,谷歌AI产品需求持续增长,许多用户注册Gemini订阅计划以获得"这些高级模型的更高限额"。他表示,"我们看到大量用户涌向这些产品,这实际上是最好的问题——需求很大,我们正在努力弄清楚如何服务这些需求。"

此次发布标志着谷歌将AI技术商业化的最新尝试。自2022年ChatGPT发布引发生成式AI竞赛以来,谷歌一直在努力追赶OpenAI。上周,OpenAI宣布对GPT-5模型进行两项更新,使其"默认更温暖、更具对话性",并"在日常使用中更高效、更易理解"。目前ChatGPT在苹果App Store免费应用榜单中排名第一,Gemini位居第二。

Woodward表示,公司计划继续扩大AI产品规模,重点包括AI电影制作工具Flow和目前作为有限研究预览版提供的"世界构建"模型Genie。

本文转自:凤凰网科技

原文地址: https://tech.ifeng.com/c/8oS9Tm2ainB