
编辑:艾伦
【新智元导读】谷歌在 7.5 亿月活的 Gemini 中上线了 AI 音乐生成功能,输入一句话或一张照片,几秒就能得到一首带人声和歌词的完整歌曲。背后是 DeepMind 最新的 Lyria 3 模型,训练数据超 200 万首曲目。对 Suno 等 AI 音乐创业公司而言,竞争从此不再只是比模型,更是要比入口。
昨天,谷歌在 Gemini App 中上线了 AI 音乐生成功能。

用户输入一段文字描述,或者上传一张照片,几秒钟内就能得到一首 30 秒的完整歌曲,带人声、带歌词、带 AI 生成的封面。纯器乐当然也是支持的。
驱动这个功能的是 DeepMind 最新的音乐生成模型 Lyria 3。

谷歌对这项功能的定位,不是取代音乐人,而是让普通人获得一种全新的自我表达方式。
做 AI 音乐生成的公司不少,但把它直接塞进一个拥有超过 7.5 亿月活用户的超级应用里,谷歌是头一个。
「30 秒」背后的技术跃迁
从 2023 年发布初代 Lyria 算起,这已经是谷歌在音乐生成领域的第三代模型。
相比前代,Lyria 3 有几个明显的进步。
过去用户需要自己写歌词输入模型,现在 Lyria 3 可以根据提示词自动生成歌词。
用户对风格、人声类型、节拍速度等元素的控制也更精细了。
根据 DeepMind 官方推文,Lyria 3 输出 48kHz 立体声音频,人声表现更自然,歌词的咬字清晰度也有了明显提升。
据数字音乐媒体 Digital Music News 报道,Lyria 3 的训练数据规模从 Lyria 2 的约 50 万首曲目扩展到了超过 200 万首,音频位深从此前版本升级到了 24-bit。
这意味着它在音质维度上甚至超过了 YouTube Music 等主流流媒体平台的标准。
除了文本生成音乐,用户还可以上传照片或视频,让 Gemini 根据视觉内容的情绪来作曲配词。
比如上传一张徒步的照片,Gemini 就能创作一首与之匹配的歌曲。
本文转自:凤凰网科技
原文地址: https://tech.ifeng.com/c/8qs15sjdhnP

小同爱分享12 天前
疫情,就是让人抑郁,又没了感情。 - 小同爱分享
小同爱分享20 天前
所谓生活不如意,就是缺少人民币。 - 小同爱分享