编辑:元宇

【新智元导读】语音AI最烦人的一句话,可能终于要被谷歌干掉了。Gemini 3.1 Flash Live 正在逼近「像人与人说话那样响应」的体验:不仅更快、更自然,连在交通声、电视声这样的真实噪音里,也更能听清你在说什么。

刚刚,谷歌把语音AI最烦人的一句话狠狠干掉了:「请再说一次。」

这次谷歌新发布的 Gemini 3.1 Flash Live,直接瞄准了现实生活中最乱、最吵的那些场景。

更重要的是,它不只是「听」,它还能看,还能调用工具,还能守住设定边界。

谷歌称,这是在延迟、可靠性和更自然的对话表现上的一次跃迁式提升

你说话的速度

就是它思考的速度

谷歌官方博客中提到,实时交互里,每一毫秒的延迟,都会破坏用户期待的自然对话流。

因此,Gemini 3.1 Flash Live的一个目标,就是把语音Agent推进到「接近对话本身速度的响应」。

因为现实体验中,语音AI最劝退人的不是答错,而是那种你已经张嘴说完,它还在后台转圈带来的「断片」感。

谷歌这次改进的方向,不是某一个点,而是语音Agent最容易掉链子的整条实时交互系统:

一边增强对音高、语速、重音和意图的识别能力;一边强化复杂系统指令遵循,让Agent即便在对话突然转向时,也能守住既定边界、不轻易跑偏。

更关键的是,谷歌还专门强调了它在真实噪音环境中的任务完成率提升:

面对交通声、电视声等背景干扰,模型能更有效地区分有效语音与环境噪声,在实时对话中更稳定地触发工具、返回信息。

并且,相比2.5 Flash Native Audio,新模型在这些方面都有明确提升。

AI终于走出实验室

想象在一个嘈杂的咖啡厅:

隔壁两个人正在吵架,你一边盯着明天的航班,一边对手机说:帮我改签到上午。

结果你说3遍,它仍是回答你3次:「抱歉,请再说一次。」

这样的情景是不是很熟悉?

语音AI这些年最大的问题,并不是它「能不能聊天」,而是它能不能在你需要它的时候和它聊天。

这些需要和它聊天的场景,往往是在地铁站、车上、开着电视的客厅、菜市场这些噪声环境,所以,谷歌这次把「噪声」放到了非常核心的位置。

新模型显著提升了在嘈杂、真实环境中的任务完成率,能更准确地区分有效语音和交通声、电视声等环境噪音。

这些改进,让语音AI能够更适应真实场景的需要。

设计师、老人、玩家

三个人的AI已经不一样了

谷歌官方列举了Gemini 3.1 Flash Live在设计、陪伴和游戏三个代表性的案例。

设计师

语音第一次变成创作工具

本文转自:凤凰网科技

原文地址: https://tech.ifeng.com/c/8rrLLvSx9Po