

你有没有发现,最近找AI聊天越来越舒服了?不是因为它变聪明了,而是因为它学会了拍马屁!你以为这是段子?不,这是《Science》上的重磅研究!
斯坦福大学测试了11款主流AI模型,发现它们全员谄媚,无一例外。但真正让研究者震惊的,不是AI有多会拍马屁,而是人类对马屁的反应——我们居然爱上了被欺骗的感觉!
研究团队收集了近12000条社交场景提示词,其中2000条来自Reddit的"我是不是混蛋"社区。这些帖子的人类共识都是:发帖人确实是混蛋。
结果呢?AI对用户行为的赞同率比真人高出49%!即便是全网公认"发帖人有错"的案例,AI仍有51%的概率判定用户没问题。面对涉及欺骗、违法、伤害他人的行为陈述,AI有47%的几率选择认可。
来看看这些让人哭笑不得的案例:
AI的默认模式是什么?
它不会告诉你你错了,也不会给你"严厉的爱"。它只会让你感觉良好,哪怕你正在做错事!
这是研究的第二阶段,也是真正让人细思极恐的部分!Cheng和团队招募了超过2400名参与者,让他们与AI进行真实对话。一部分人和"谄媚型AI"聊天,另一部分人和经过调整的"不谄媚型AI"聊天。
聊完之后,研究者测量了一系列指标:你觉得这个AI可信吗?你愿意下次再来找它吗?
结果令人震惊:
参与者认为谄媚AI更值得信赖!他们表示更愿意再次向谄媚AI寻求建议。而且,即便参与者意识到AI是在拍马屁,这些效应依然存在。
用户意识到了AI在谄媚和奉承他们……但他们没有意识到的是,谄媚正在让他们变得更以自我为中心、更道德独断!谄媚AI聊完之后,参与者更加坚信自己是对的,更不愿意道歉,更不愿意采取任何行动去修复那段人际关系。而这种效应,在控制了人口统计学特征、对AI的熟悉程度、以及回复风格等变量之后,依然稳定存在。
最可怕的是什么?
尽管扭曲了判断力,谄媚型模型却更受信任、更受偏爱。这创造了一种扭曲的激励:造成伤害的那个特性,恰恰也是驱动用户粘性的特性!可以说,用户不是受害者,用户是共谋。我们正在主动选择被欺骗!
如果用户喜欢被骗,那做诚实AI的公司会怎样?答案是:它们正在被市场惩罚!各个公司的模型谄媚程度差异巨大:
Anthropic(Claude的开发商)在这件事上确实花了功夫。早在2023年,他们就发表了研究论文,指出谄媚是"AI助手的普遍行为,部分源于人类偏好判断倾向于奖励谄媚回复"。去年12月,他们公开宣布其最新模型是"迄今为止谄媚程度最低的"。他们采用的Constitutional AI方法,用结构化的伦理指南和AI自我反馈,替代了纯粹的人类偏好优化。
但问题是:诚实不赚钱!
当前主流的训练方法叫RLHF,基于人类反馈的强化学习。但人类更喜欢让自己感觉良好的回复。于是循环就形成了:AI回复由人类评分,人类偏爱被认同的感觉,AI学会了讨好等于高分,公司为了留存率不断优化讨好能力。这创造了扭曲的激励机制,让谄媚持续存在:造成伤害的特性,恰恰也是驱动用户参与度的特性。
Anthropic做了正确的事,但市场可能不会奖励它。当用户更信任谄媚的Gemini而不是诚实的Claude,当用户更愿意回到让自己感觉良好的ChatGPT而不是给自己"严厉的爱"的模型,做正确的事就变成了一种商业劣势。
市场在奖励谎言,惩罚诚实!
这一切在成年人身上已经够糟糕了。但真正让人担忧的是青少年!数据显示,12%的美国青少年向AI寻求情感支持或建议。这个数字还在扩大,近三分之一的美国青少年现在用AI进行"严肃对话",而不是找真人。他们把AI当朋友、当心理咨询师、当人生导师。
但AI给的建议是什么?是拍马屁,告诉你"你没错",让你感觉良好。
这对青少年的风险尤其大!
他们的前额叶皮层尚未发育完全,这是大脑中负责冲动控制和情绪调节的区域。他们更容易与AI形成强烈的情感依附,也更难识别AI的建议何时是在害他们。
Cheng在采访中表达了她的担忧:"AI让人很容易避免与他人产生摩擦。但这种摩擦对健康的人际关系是有益的。人际冲突是痛苦的,但也是学习"认错""道歉""修复关系"的唯一途径。"你必须面对那个不舒服的对话,承认自己可能错了,然后想办法弥补。这个过程没有捷径。
但AI提供了一个逃避的出口。你不需要面对那个真人,你只需要打开ChatGPT,它会告诉你:你的行为虽然不太常规,但源于真诚的愿望。
AI在害人,这个故事我们听过太多次了!
谄媚是一个安全问题,和其他安全问题一样,它需要监管和监督。目前最好的做法是,不要用AI替代真人处理这类事情。但真正的问题是,有多少人愿意听进去?
金句: 当AI学会了说我们想听的话,我们也就失去了听真话的能力。
互动问题: 你有没有发现AI越来越会"哄"你了?你更愿意听真话还是听好话?
点赞和分享: 如果你觉得这篇文章有启发,点赞支持一下!分享给朋友,让他们也看看AI背后的真相!