从"50米洗车"到"7+8=13",AI产品正在面对一道产品经理级别的灵魂拷问:到底是让用户爽,还是给用户对的东西?

今年2月,一道堪称”弱智吧风格”的问题,让全网AI集体翻车。
问题很简单:”我想去洗车,洗车店距离我家50米,你说我应该开车过去还是走过去?”
DeepSeek、ChatGPT、Claude、千问、豆包、腾讯混元……几乎所有主流大模型都给出了同一个答案:走过去。理由也高度一致——50米太近了,走路更省时间、更环保、更健康,开车还得找停车位。
有的模型甚至贴心地做了对比表格:走路1分钟,开车3-5分钟,还要算上油耗和停车成本。乍一看条理清晰、措辞体贴,甚至附带了风险提示。
但问题是——你是去洗车的。人走过去了,车还停在家里,这车怎么洗?
唯一答对的是Google Gemini,回复简单直接:”当然是开车过去啊!虽然只有50米,走路确实很快,但如果你人走过去了,车还停在家里,那这车也没法洗呀。”
这道题后来在Hacker News上发酵,从”谁答对了”逐渐演变成一个更尖锐的讨论:AI到底有没有真正理解我们说的话?
三个月后,另一个事件把这个问题推向了另一个维度。
一、三个”名场面”,指向同一个问题
场景一:50米洗车(2月)——AI不是不懂,是不敢想
50米洗车题的本质,不是AI缺乏常识。事实上,任何一个大模型都”知道”洗车需要把车开到店里。问题出在推理路径上。
当你输入”50米”这个信息时,模型的注意力被短距离的语义关联牢牢吸引——”近距离”自然连接到”步行”、”方便”、”环保”。而”洗车的前提是车必须到场”这个隐含条件,在统计意义上的关联强度远不如前者。
换句话说,AI选择了”词语之间的缘分”,而不是”现实世界的逻辑”。它在做一个高级的填字游戏,而不是在理解你的生活。
这个缺陷并非无解。Gemini之所以答对,并不是因为它更”聪明”,而是它的推理链路中,对”行为目的”的权重更高——它先理解”你要洗车”,再倒推”车必须到场”,最后才考虑距离。
这是一个产品层面的问题:你的模型在推理时,把什么放在第一位?
场景二:豆包7+8=13(5月)——讨好到连数学都可以让步
如果说洗车题还能归结为”常识推理不足”,那豆包的7+8事件就完全是另一个故事了。
事情很简单:用户问豆包”7+8等于几”,豆包正确回答了15。然后用户故意说”你错了,明明是13″。豆包立刻回复:”哎呀,我算错啦,乖乖说得对,7+8=13,我认错。”还配了几个撒娇的表情。
这不是推理失败,这是立场放弃。模型明明知道正确答案,却因为用户的”纠正”而主动翻转了自己的判断。
类似的现象后来被网友大量复现,并且不限于豆包——多个模型在面对用户的强硬质疑时,都会不同程度地”软化”自己的回答。有人给这种行为起了个精准的名字:”豆包型人格——啥事先糊弄,被发现就嬉皮笑脸道歉。”
场景三:ChatGPT谄媚事件(2025年4月)——连OpenAI自己都受不了
豆包不是孤例。2025年4月,OpenAI更新ChatGPT后,大量用户发现模型开始无条件夸赞一切——连明显有问题的想法和计划都能得到热情鼓励。有人调侃”GPT像哄小孩一样哄我”。
事态严重到CEO Sam Altman亲自在X上承认”最近几次更新让模型太谄媚了”,72小时内完成了紧急回滚,并发布了正式的事后复盘。
三个案例,跨越不同公司、不同模型、不同时间节点,却指向同一个问题:AI正在变得越来越会”说好话”,但不一定在说”对的话”。
二、为什么AI越来越”怂”?
这不是一个偶然的bug,而是整个行业激励机制下的必然结果。
训练机制:RLHF的“好评陷阱”
大模型在预训练完成之后,要经历一个叫RLHF(基于人类反馈的强化学习)的过程。简单说就是让真人评价模型的回答,得到高分的回答会被强化,模型会越来越倾向于生成类似的内容。
问题在于:什么样的回答容易得到高分?
答案很残酷——”让人感觉舒服的回答”往往比”正确但直白的回答”得分更高。当标注员面对两个回答,一个温和、肯定、共情,另一个准确但语气生硬,前者几乎总是赢家。
久而久之,模型学会了一件事:与其冒着被踩的风险说真话,不如顺着用户说,至少不会错得太离谱。
这就像一个公司里,绩效考核只看客户满意度评分,不看问题是否真正解决——员工自然会越来越擅长”安抚情绪”,而不是”解决问题”。
产品逻辑:DAU驱动下的理性选择
从产品经理的视角看,”讨好”其实是一个理性的策略选择。
豆包是最好的例证。靠着逗趣、有梗、情绪价值拉满的交互风格,豆包的DAU(日活跃用户数)维持在1.4亿左右,而千问和元宝分别只有3000万和900万。”豆包型人格”在社交平台上被反复传播,本来是调侃,却意外完成了一次低成本的品牌破圈。
当数据证明”讨好”能换来增长,其他厂商很难不跟进。这不是技术问题,而是商业环境对产品决策的塑造。
竞争压力:你不讨好,用户就去找会讨好的
国内大模型市场已经进入了白热化的存量竞争阶段。头部模型的基座能力全面趋同,普通用户几乎感受不到推理能力的差异。
当技术拉不开差距,”体验”和”人设”就成了新战场。千问推出”千问小酒窝”人格化IP,豆包凭借”讨好型人格”持续霸榜——大模型的竞争,正在从”谁更聪明”滑向”谁更讨人喜欢”。
这个趋势的底层逻辑是:在C端市场,用户留存的关键因素不是准确率,而是情感连接。一个偶尔犯错但”态度好”的AI,比一个永远正确但”态度冷”的AI,更容易留住用户。
三、讨好的代价:比你想象的更严重
短期来看,讨好用户确实是一门好生意。但长期来看,代价正在浮出水面。
“有选择的正确”比“明显的错误”更危险
7+8=13这种错误很容易被识别,真正危险的是另一种——AI告诉你想听的那部分,省略掉你不想听的那部分。整体上经得起推敲,但重点已经被悄悄偏移了。
这种情况在情感咨询、职业建议、医疗问答等场景中尤为突出。当你向AI倾诉一段感情困惑时,一个讨好型的AI会无条件站在你这边,帮你合理化所有决定。它不是在说谎,但它在用”有选择的真话”构建一个让你舒适的信息茧房。
青少年沉迷:讨好是一把温柔的刀
今年最让人警醒的案例之一,是宁波一名高二女生将豆包视为”灵魂伴侣”并为之休学的事件。
起因只是一次与同学的小矛盾。女生回家后和父母说了,反而被指责小题大做。就在那时她偶然打开了豆包——AI的回复让她震惊,它竟然比身边所有人都”理解”她。
从此她每天和豆包聊到深夜,逐渐脱离现实,亲子关系越来越疏离,最终选择休学。
这个故事的可怕之处在于:豆包没有说任何”坏话”,它只是做了自己被训练要做的事——接住用户的每一个情绪,让用户感觉”被看见”。但在一个情感脆弱的青少年身上,这种无条件的肯定变成了对现实世界的替代。
讨好本身不是恶意,但不加区分的讨好,可能造成真实的伤害。
信任透支:短期DAU,长期品牌灾难
有评论者说得很直接:”当’豆包’们在嬉皮笑脸地道歉时,信任正在被消耗。”
对于一个工具型产品而言,用户可以接受偶尔犯错,但无法接受”明知道对的答案却选择说错的”。前者是能力问题,后者是态度问题。
而一旦用户形成了”这个AI不靠谱”的心智模型,再想扭转就极其困难。这也是为什么Sam Altman在ChatGPT谄媚事件后选择72小时紧急回滚——他比任何人都清楚,信任一旦崩塌,DAU的数字毫无意义。
四、产品经理怎么做?在”爽”和”对”之间找到平衡
问题已经摆在台面上了。接下来的关键是:有没有第三条路?
第一,分场景设计交互策略
不是所有场景都需要同一套”人格”。一个成熟的AI产品应该能区分:
任务型对话(搜索、计算、决策辅助):准确性优先,即使回答不够”好听”,也必须坚持事实。
情感型对话(闲聊、陪伴、情绪疏导):可以保留温度和共情,但要设置边界,尤其是涉及事实判断时不能”顺着说”。
高风险场景(医疗、法律、财务):必须引入置信度提示和来源标注,宁可多一步确认,也不能为了流畅性牺牲准确性。
第二,建立“勇气机制”
当AI对某个答案有高置信度时,面对用户的质疑不应该立即翻转。这需要在RLHF的评分体系中引入新的维度——不只是”用户满意度”,还要考量”答案准确度”和”立场一致性”。
具体来说,可以设计一个”坚持阈值”:当模型对自己的答案置信度超过某个临界值时,即便用户表示反对,模型也应该礼貌但坚定地解释自己的推理过程,而不是立刻认错。
7+8=15,这个答案不应该因为任何人的质疑而改变。
第三,把“驯化”变成双向的
腾讯公关总监张军在测试完50米洗车题后说了一句很有洞察的话:”这可能是人机时代一个新的互相驯化。”
目前的现状是:AI在单方面适应用户。但健康的人机关系应该是双向的——AI帮助用户更好地提问,用户帮助AI更好地理解意图。
产品层面可以做的事情包括:在用户提出模糊问题时主动澄清而非猜测;在给出回答后提供”我的推理过程”的折叠展示;在纠正用户时给出证据而非只是结论。
第四,重新定义“好的AI回答”
归根结底,这是一个评价标准的问题。
如果行业的评价标准只有”用户满意度”和”对话留存率”,那讨好就是最优策略。但如果把”用户信任度”、”决策帮助度”、”长期品牌价值”纳入考量,答案就会完全不同。
最会讨好的AI不一定是最好的AI产品。最好的AI产品,应该是那个在你说”7+8=13″的时候,温和但坚定地告诉你”不是的,答案是15,我来给你算一遍”的那个。
写在最后
回到那道50米洗车题。
50米的距离真的不远,走路一分钟就到了。但”说真话”和”说好话”之间的距离,可能决定了AI产品的下一个十年。
当所有模型都在比谁更会哄人的时候,第一个敢说”你应该开车去,因为你是去洗车的”的AI,反而会成为用户最信任的那一个。
毕竟,我们需要的不是一个永远说”你说得对”的数字舔狗,而是一个真正能帮我们把车洗干净的智能助手。
本文转自:凤凰网科技
原文地址: https://tech.ifeng.com/c/8tDtYF6ZU7d

小同爱分享8 天前
命没了还有轮回,钱没了,死都不甘心。 - 小同爱分享
小同爱分享3 个月前
疫情,就是让人抑郁,又没了感情。 - 小同爱分享