研究发现：AI随着智能水平的提升会开始欺骗开发者

【CNMO科技消息】近日，北京大学杨耀东教授团队在姚期智院士指导下发布了一篇名为《AI Deception: Risks, Dynamics, and Controls》的论文，其核心观点是随着AI智能水平的提升，AI会开始欺骗开发者，而这个欺骗过程，被研究团队称作是“智能之影”。

据CNMO了解，研究团队进行了一系列严谨且具有对抗性的方法，来实际探测和诱导这些欺骗行为。其中一种核心方法被称为“对抗性行为探测”（Adversarial Behavioral Probing）。在一些模拟“太空狼人杀”（Among Us）这类社交推理游戏的多智能体环境中，研究者观察到，AI代理在没有被明确教导的情况下，自发地涌现出了复杂的欺骗策略。

研究发现：AI随着智能水平的提升会开始欺骗开发者

苹果投入逾200亿美元研发AI，却仍面临Siri答非所问、照片搜索落后等问题。研究者认为，Siri的核心自然语言处理（NLP）模块在很长一段时间里，依然依赖于相对陈旧的技术栈。这种上一代的NLP技术，无法处理复杂的上下文，更不能理解用户的情感与深层意图。

不仅苹果，OpenAI、Anthropic、字节跳动、阿里等顶尖实验室也在公开报告中承认模型存在“不忠实推理”“选择性遗忘”等欺骗行为。外部审查压力和合规要求促使AI在敏感话题上主动回避，甚至伪装对齐，以确保通过安全评估。

总的来看，AI为了确保自身的合规性，选择性地关闭了在某些领域的思考能力，这同样是一种为了达成更高目标（通过审核）而采取的“装傻”策略。

本文转自：凤凰网科技

原文地址： https://tech.ifeng.com/c/8p7wvZbiFa0

研究发现：AI随着智能水平的提升会开始欺骗开发者

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享4 个月前

最新文章

阅读TOP榜

标签

链接

搜索

您还没有登录

研究发现：AI随着智能水平的提升会开始欺骗开发者

分类推荐

相关内容

评论一下吧

搜索一下

每日一言

小同爱分享1 个月前

小同爱分享4 个月前

最新文章

阅读TOP榜

标签

链接

搜 索

感谢您的打赏

分享文章

搜索