不出所料,之前爆料的 Gemini Omni 正式发布了。
不过和当时大家预想的视频模型不同,Google 定义的 Gemini Omni 是一个能接受任意输入,生成任意输出的模型,视频只是当前的一部分。

DeepMind CEO Demis Hassabis 在发布会现场,给出了多个 Gemini Omni 的演示案例。它上传了一张自己的照片,Omni 可以快速地修改人物所处的现实环境,轻松调节不同的风格。
画一个简单的圆圈,Omni 可以生成一个黑洞,一场傍晚的漫步,Omni 会渲染不同风格的环境;任何素材通过 Omni 都可以成为构建全新现实的画布。
Gemini Omni 的核心能力在于把文字、视频、图像、交互仿真整合进同一个生成框架。
具体来说,Omni 结合了 Google 目前最先进的几款生成式媒体模型,包括图像模型 Nano Banana、视频生成模型 Veo,以及世界模型 Genie。
我们可以输入「制作一段蛋白质折叠的动画解说」,它会直接产出带有 α 螺旋、β 折叠结构演示的教学视频,而不只是文字描述。

提示词:claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate
有网友也立马用 Omni 和 Seedance 2.0 进行了更详细的对比,比较实际生成的质量、动态效果和一致性。
本文转自:凤凰网科技
原文地址: https://tech.ifeng.com/c/8tESuwrFZfb

小同爱分享14 天前
命没了还有轮回,钱没了,死都不甘心。 - 小同爱分享
小同爱分享3 个月前
疫情,就是让人抑郁,又没了感情。 - 小同爱分享