
编辑:元宇
【新智元导读】语音AI最烦人的一句话,可能终于要被谷歌干掉了。Gemini 3.1 Flash Live 正在逼近「像人与人说话那样响应」的体验:不仅更快、更自然,连在交通声、电视声这样的真实噪音里,也更能听清你在说什么。
刚刚,谷歌把语音AI最烦人的一句话狠狠干掉了:「请再说一次。」

这次谷歌新发布的 Gemini 3.1 Flash Live,直接瞄准了现实生活中最乱、最吵的那些场景。

更重要的是,它不只是「听」,它还能看,还能调用工具,还能守住设定边界。
谷歌称,这是在延迟、可靠性和更自然的对话表现上的一次跃迁式提升。
你说话的速度
就是它思考的速度
谷歌官方博客中提到,实时交互里,每一毫秒的延迟,都会破坏用户期待的自然对话流。
因此,Gemini 3.1 Flash Live的一个目标,就是把语音Agent推进到「接近对话本身速度的响应」。

因为现实体验中,语音AI最劝退人的不是答错,而是那种你已经张嘴说完,它还在后台转圈带来的「断片」感。
谷歌这次改进的方向,不是某一个点,而是语音Agent最容易掉链子的整条实时交互系统:
一边增强对音高、语速、重音和意图的识别能力;一边强化复杂系统指令遵循,让Agent即便在对话突然转向时,也能守住既定边界、不轻易跑偏。
更关键的是,谷歌还专门强调了它在真实噪音环境中的任务完成率提升:
面对交通声、电视声等背景干扰,模型能更有效地区分有效语音与环境噪声,在实时对话中更稳定地触发工具、返回信息。
并且,相比2.5 Flash Native Audio,新模型在这些方面都有明确提升。

AI终于走出实验室
想象在一个嘈杂的咖啡厅:
隔壁两个人正在吵架,你一边盯着明天的航班,一边对手机说:帮我改签到上午。
结果你说3遍,它仍是回答你3次:「抱歉,请再说一次。」
这样的情景是不是很熟悉?
语音AI这些年最大的问题,并不是它「能不能聊天」,而是它能不能在你需要它的时候和它聊天。
这些需要和它聊天的场景,往往是在地铁站、车上、开着电视的客厅、菜市场这些噪声环境,所以,谷歌这次把「噪声」放到了非常核心的位置。

新模型显著提升了在嘈杂、真实环境中的任务完成率,能更准确地区分有效语音和交通声、电视声等环境噪音。
这些改进,让语音AI能够更适应真实场景的需要。
设计师、老人、玩家
三个人的AI已经不一样了
谷歌官方列举了Gemini 3.1 Flash Live在设计、陪伴和游戏三个代表性的案例。

设计师
语音第一次变成创作工具
本文转自:凤凰网科技
原文地址: https://tech.ifeng.com/c/8rrLLvSx9Po

小同爱分享1 个月前
疫情,就是让人抑郁,又没了感情。 - 小同爱分享
小同爱分享1 个月前
所谓生活不如意,就是缺少人民币。 - 小同爱分享