谷歌干掉“请再说一次”！Gemini 3.1毫秒级接话，实时Agent时代来了

编辑：元宇

【新智元导读】语音AI最烦人的一句话，可能终于要被谷歌干掉了。Gemini 3.1 Flash Live 正在逼近「像人与人说话那样响应」的体验：不仅更快、更自然，连在交通声、电视声这样的真实噪音里，也更能听清你在说什么。

刚刚，谷歌把语音AI最烦人的一句话狠狠干掉了：「请再说一次。」

这次谷歌新发布的 Gemini 3.1 Flash Live，直接瞄准了现实生活中最乱、最吵的那些场景。

更重要的是，它不只是「听」，它还能看，还能调用工具，还能守住设定边界。

谷歌称，这是在延迟、可靠性和更自然的对话表现上的一次跃迁式提升。

你说话的速度

就是它思考的速度

谷歌官方博客中提到，实时交互里，每一毫秒的延迟，都会破坏用户期待的自然对话流。

因此，Gemini 3.1 Flash Live的一个目标，就是把语音Agent推进到「接近对话本身速度的响应」。

因为现实体验中，语音AI最劝退人的不是答错，而是那种你已经张嘴说完，它还在后台转圈带来的「断片」感。

谷歌这次改进的方向，不是某一个点，而是语音Agent最容易掉链子的整条实时交互系统：

一边增强对音高、语速、重音和意图的识别能力；一边强化复杂系统指令遵循，让Agent即便在对话突然转向时，也能守住既定边界、不轻易跑偏。

更关键的是，谷歌还专门强调了它在真实噪音环境中的任务完成率提升：

面对交通声、电视声等背景干扰，模型能更有效地区分有效语音与环境噪声，在实时对话中更稳定地触发工具、返回信息。

并且，相比2.5 Flash Native Audio，新模型在这些方面都有明确提升。

AI终于走出实验室

想象在一个嘈杂的咖啡厅：

隔壁两个人正在吵架，你一边盯着明天的航班，一边对手机说：帮我改签到上午。

结果你说3遍，它仍是回答你3次：「抱歉，请再说一次。」

这样的情景是不是很熟悉？

语音AI这些年最大的问题，并不是它「能不能聊天」，而是它能不能在你需要它的时候和它聊天。

这些需要和它聊天的场景，往往是在地铁站、车上、开着电视的客厅、菜市场这些噪声环境，所以，谷歌这次把「噪声」放到了非常核心的位置。

新模型显著提升了在嘈杂、真实环境中的任务完成率，能更准确地区分有效语音和交通声、电视声等环境噪音。

这些改进，让语音AI能够更适应真实场景的需要。

设计师、老人、玩家

三个人的AI已经不一样了

谷歌官方列举了Gemini 3.1 Flash Live在设计、陪伴和游戏三个代表性的案例。

设计师

语音第一次变成创作工具

本文转自：凤凰网科技

原文地址： https://tech.ifeng.com/c/8rrLLvSx9Po

谷歌干掉“请再说一次”！Gemini 3.1毫秒级接话，实时Agent时代来了

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享1 个月前

最新文章

阅读TOP榜

标签

链接

搜索

您还没有登录

谷歌干掉“请再说一次”！Gemini 3.1毫秒级接话，实时Agent时代来了

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享1 个月前

最新文章

阅读TOP榜

标签

链接

搜 索

感谢您的打赏

分享文章

搜索