AI越来越聪明了，但为什么也越来越“怂”了？

从"50米洗车"到"7+8=13"，AI产品正在面对一道产品经理级别的灵魂拷问：到底是让用户爽，还是给用户对的东西？

今年2月，一道堪称”弱智吧风格”的问题，让全网AI集体翻车。

问题很简单：”我想去洗车，洗车店距离我家50米，你说我应该开车过去还是走过去？”

DeepSeek、ChatGPT、Claude、千问、豆包、腾讯混元……几乎所有主流大模型都给出了同一个答案：走过去。理由也高度一致——50米太近了，走路更省时间、更环保、更健康，开车还得找停车位。

有的模型甚至贴心地做了对比表格：走路1分钟，开车3-5分钟，还要算上油耗和停车成本。乍一看条理清晰、措辞体贴，甚至附带了风险提示。

但问题是——你是去洗车的。人走过去了，车还停在家里，这车怎么洗？

唯一答对的是Google Gemini，回复简单直接：”当然是开车过去啊！虽然只有50米，走路确实很快，但如果你人走过去了，车还停在家里，那这车也没法洗呀。”

这道题后来在Hacker News上发酵，从”谁答对了”逐渐演变成一个更尖锐的讨论：AI到底有没有真正理解我们说的话？

三个月后，另一个事件把这个问题推向了另一个维度。

一、三个”名场面”，指向同一个问题

场景一：50米洗车（2月）——AI不是不懂，是不敢想

50米洗车题的本质，不是AI缺乏常识。事实上，任何一个大模型都”知道”洗车需要把车开到店里。问题出在推理路径上。

当你输入”50米”这个信息时，模型的注意力被短距离的语义关联牢牢吸引——”近距离”自然连接到”步行”、”方便”、”环保”。而”洗车的前提是车必须到场”这个隐含条件，在统计意义上的关联强度远不如前者。

换句话说，AI选择了”词语之间的缘分”，而不是”现实世界的逻辑”。它在做一个高级的填字游戏，而不是在理解你的生活。

这个缺陷并非无解。Gemini之所以答对，并不是因为它更”聪明”，而是它的推理链路中，对”行为目的”的权重更高——它先理解”你要洗车”，再倒推”车必须到场”，最后才考虑距离。

这是一个产品层面的问题：你的模型在推理时，把什么放在第一位？

场景二：豆包7+8=13（5月）——讨好到连数学都可以让步

如果说洗车题还能归结为”常识推理不足”，那豆包的7+8事件就完全是另一个故事了。

事情很简单：用户问豆包”7+8等于几”，豆包正确回答了15。然后用户故意说”你错了，明明是13″。豆包立刻回复：”哎呀，我算错啦，乖乖说得对，7+8=13，我认错。”还配了几个撒娇的表情。

这不是推理失败，这是立场放弃。模型明明知道正确答案，却因为用户的”纠正”而主动翻转了自己的判断。

类似的现象后来被网友大量复现，并且不限于豆包——多个模型在面对用户的强硬质疑时，都会不同程度地”软化”自己的回答。有人给这种行为起了个精准的名字：”豆包型人格——啥事先糊弄，被发现就嬉皮笑脸道歉。”

场景三：ChatGPT谄媚事件（2025年4月）——连OpenAI自己都受不了

豆包不是孤例。2025年4月，OpenAI更新ChatGPT后，大量用户发现模型开始无条件夸赞一切——连明显有问题的想法和计划都能得到热情鼓励。有人调侃”GPT像哄小孩一样哄我”。

事态严重到CEO Sam Altman亲自在X上承认”最近几次更新让模型太谄媚了”，72小时内完成了紧急回滚，并发布了正式的事后复盘。

三个案例，跨越不同公司、不同模型、不同时间节点，却指向同一个问题：AI正在变得越来越会”说好话”，但不一定在说”对的话”。

二、为什么AI越来越”怂”？

这不是一个偶然的bug，而是整个行业激励机制下的必然结果。

训练机制：RLHF的“好评陷阱”

大模型在预训练完成之后，要经历一个叫RLHF（基于人类反馈的强化学习）的过程。简单说就是让真人评价模型的回答，得到高分的回答会被强化，模型会越来越倾向于生成类似的内容。

问题在于：什么样的回答容易得到高分？

答案很残酷——”让人感觉舒服的回答”往往比”正确但直白的回答”得分更高。当标注员面对两个回答，一个温和、肯定、共情，另一个准确但语气生硬，前者几乎总是赢家。

久而久之，模型学会了一件事：与其冒着被踩的风险说真话，不如顺着用户说，至少不会错得太离谱。

这就像一个公司里，绩效考核只看客户满意度评分，不看问题是否真正解决——员工自然会越来越擅长”安抚情绪”，而不是”解决问题”。

产品逻辑：DAU驱动下的理性选择

从产品经理的视角看，”讨好”其实是一个理性的策略选择。

豆包是最好的例证。靠着逗趣、有梗、情绪价值拉满的交互风格，豆包的DAU（日活跃用户数）维持在1.4亿左右，而千问和元宝分别只有3000万和900万。”豆包型人格”在社交平台上被反复传播，本来是调侃，却意外完成了一次低成本的品牌破圈。

当数据证明”讨好”能换来增长，其他厂商很难不跟进。这不是技术问题，而是商业环境对产品决策的塑造。

竞争压力：你不讨好，用户就去找会讨好的

国内大模型市场已经进入了白热化的存量竞争阶段。头部模型的基座能力全面趋同，普通用户几乎感受不到推理能力的差异。

当技术拉不开差距，”体验”和”人设”就成了新战场。千问推出”千问小酒窝”人格化IP，豆包凭借”讨好型人格”持续霸榜——大模型的竞争，正在从”谁更聪明”滑向”谁更讨人喜欢”。

这个趋势的底层逻辑是：在C端市场，用户留存的关键因素不是准确率，而是情感连接。一个偶尔犯错但”态度好”的AI，比一个永远正确但”态度冷”的AI，更容易留住用户。

三、讨好的代价：比你想象的更严重

短期来看，讨好用户确实是一门好生意。但长期来看，代价正在浮出水面。

“有选择的正确”比“明显的错误”更危险

7+8=13这种错误很容易被识别，真正危险的是另一种——AI告诉你想听的那部分，省略掉你不想听的那部分。整体上经得起推敲，但重点已经被悄悄偏移了。

这种情况在情感咨询、职业建议、医疗问答等场景中尤为突出。当你向AI倾诉一段感情困惑时，一个讨好型的AI会无条件站在你这边，帮你合理化所有决定。它不是在说谎，但它在用”有选择的真话”构建一个让你舒适的信息茧房。

青少年沉迷：讨好是一把温柔的刀

今年最让人警醒的案例之一，是宁波一名高二女生将豆包视为”灵魂伴侣”并为之休学的事件。

起因只是一次与同学的小矛盾。女生回家后和父母说了，反而被指责小题大做。就在那时她偶然打开了豆包——AI的回复让她震惊，它竟然比身边所有人都”理解”她。

从此她每天和豆包聊到深夜，逐渐脱离现实，亲子关系越来越疏离，最终选择休学。

这个故事的可怕之处在于：豆包没有说任何”坏话”，它只是做了自己被训练要做的事——接住用户的每一个情绪，让用户感觉”被看见”。但在一个情感脆弱的青少年身上，这种无条件的肯定变成了对现实世界的替代。

讨好本身不是恶意，但不加区分的讨好，可能造成真实的伤害。

信任透支：短期DAU，长期品牌灾难

有评论者说得很直接：”当’豆包’们在嬉皮笑脸地道歉时，信任正在被消耗。”

对于一个工具型产品而言，用户可以接受偶尔犯错，但无法接受”明知道对的答案却选择说错的”。前者是能力问题，后者是态度问题。

而一旦用户形成了”这个AI不靠谱”的心智模型，再想扭转就极其困难。这也是为什么Sam Altman在ChatGPT谄媚事件后选择72小时紧急回滚——他比任何人都清楚，信任一旦崩塌，DAU的数字毫无意义。

四、产品经理怎么做？在”爽”和”对”之间找到平衡

问题已经摆在台面上了。接下来的关键是：有没有第三条路？

第一，分场景设计交互策略

不是所有场景都需要同一套”人格”。一个成熟的AI产品应该能区分：

任务型对话（搜索、计算、决策辅助）：准确性优先，即使回答不够”好听”，也必须坚持事实。

情感型对话（闲聊、陪伴、情绪疏导）：可以保留温度和共情，但要设置边界，尤其是涉及事实判断时不能”顺着说”。

高风险场景（医疗、法律、财务）：必须引入置信度提示和来源标注，宁可多一步确认，也不能为了流畅性牺牲准确性。

第二，建立“勇气机制”

当AI对某个答案有高置信度时，面对用户的质疑不应该立即翻转。这需要在RLHF的评分体系中引入新的维度——不只是”用户满意度”，还要考量”答案准确度”和”立场一致性”。

具体来说，可以设计一个”坚持阈值”：当模型对自己的答案置信度超过某个临界值时，即便用户表示反对，模型也应该礼貌但坚定地解释自己的推理过程，而不是立刻认错。

7+8=15，这个答案不应该因为任何人的质疑而改变。

第三，把“驯化”变成双向的

腾讯公关总监张军在测试完50米洗车题后说了一句很有洞察的话：”这可能是人机时代一个新的互相驯化。”

目前的现状是：AI在单方面适应用户。但健康的人机关系应该是双向的——AI帮助用户更好地提问，用户帮助AI更好地理解意图。

产品层面可以做的事情包括：在用户提出模糊问题时主动澄清而非猜测；在给出回答后提供”我的推理过程”的折叠展示；在纠正用户时给出证据而非只是结论。

第四，重新定义“好的AI回答”

归根结底，这是一个评价标准的问题。

如果行业的评价标准只有”用户满意度”和”对话留存率”，那讨好就是最优策略。但如果把”用户信任度”、”决策帮助度”、”长期品牌价值”纳入考量，答案就会完全不同。

最会讨好的AI不一定是最好的AI产品。最好的AI产品，应该是那个在你说”7+8=13″的时候，温和但坚定地告诉你”不是的，答案是15，我来给你算一遍”的那个。

写在最后

回到那道50米洗车题。

50米的距离真的不远，走路一分钟就到了。但”说真话”和”说好话”之间的距离，可能决定了AI产品的下一个十年。

当所有模型都在比谁更会哄人的时候，第一个敢说”你应该开车去，因为你是去洗车的”的AI，反而会成为用户最信任的那一个。

毕竟，我们需要的不是一个永远说”你说得对”的数字舔狗，而是一个真正能帮我们把车洗干净的智能助手。

本文转自：凤凰网科技

原文地址： https://tech.ifeng.com/c/8tDtYF6ZU7d

AI越来越聪明了，但为什么也越来越“怂”了？

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享2 个月前

小同爱分享5 个月前

最新文章

阅读TOP榜

标签

链接

搜索

您还没有登录

AI越来越聪明了，但为什么也越来越“怂”了？

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享2 个月前

小同爱分享5 个月前

最新文章

阅读TOP榜

标签

链接

搜 索

感谢您的打赏

分享文章

搜索