DeepMind AI安全报告探讨了“错位”AI 的危险

智能计算 时间:2025-09-23来源:

生成式人工智能模型远非完美,但这并没有阻止企业甚至政府赋予这些机器人重要任务。但是当人工智能变坏时会发生什么?谷歌 DeepMind 的研究人员花费大量时间思考生成式人工智能系统如何成为威胁,并在该公司的前沿安全框架中详细介绍了这一切。DeepMind 最近发布了该框架的 3.0 版,以探索人工智能可能偏离轨道的更多方式,包括模型可以忽略用户关闭它们的尝试的可能性。

DeepMind 的安全框架基于所谓的“关键能力级别”(CCL)。这些本质上是风险评估标准,旨在衡量人工智能模型的能力并定义其行为在网络安全或生物科学等领域变得危险的点。该文档还详细介绍了开发人员解决 DeepMind 在他们自己的模型中识别的 CCL 的方法。

谷歌和其他深入研究生成式人工智能的公司采用了多种技术来防止人工智能恶意行事。尽管称人工智能为“恶意”赋予了它花哨的估计架构所不具备的意图。我们在这里谈论的是生成式人工智能系统本质中存在的滥用或故障的可能性。

更新后的框架 (PDF) 表示,开发人员应采取预防措施以确保模型的安全性。具体来说,它要求为更强大的人工智能系统适当保护模型权重。研究人员担心,模型权重的泄露会让不良行为者有机会禁用旨在防止恶意行为的护栏。这可能会导致 CCL 像机器人一样创建更有效的恶意软件或协助设计生物武器。

DeepMind 还指出,人工智能可以被调整为具有纵性并系统地改变人们的信念——考虑到人们对聊天机器人的依恋,这种 CCL 似乎非常合理。然而,该团队在这里并没有一个很好的答案,指出这是一个“低速”威胁,我们现有的“社会防御”应该足以完成这项工作,而没有可能阻碍创新的新限制。不过,这可能假设了太多的人。

DeepMind 还解决了有关人工智能的一些元问题。研究人员表示,如果强大的人工智能落入坏人之手,如果它被用来加速机器学习研究,从而创建更强大和不受限制的人工智能模型,则可能会很危险。DeepMind 表示,这可能“对社会适应和管理强大人工智能模型的能力产生重大影响”。DeepMind 将其列为比大多数其他 CCL 更严重的威胁。

错位的人工智能

大多数 AI 安全缓解措施都基于模型至少尝试遵循指令的假设。尽管出现了多年的幻觉,研究人员并没有设法使这些模型完全值得信赖或准确,但模型的激励可能会被扭曲,无论是无意的还是故意的。如果一个错位的人工智能开始积极地对抗人类或无视指令,那就是一种超越简单幻觉的新问题。

前沿安全框架第 3 版引入了一种“探索性方法”来了解人工智能错位的风险。已经有记录在案的生成式人工智能模型从事欺骗和挑衅行为的实例,DeepMind 研究人员表示担心未来可能很难监控此类行为。

错位的人工智能可能会忽略人类指令、产生欺诈性输出或拒绝在请求时停止作。目前,有一种相当直接的方法可以对抗这种结果。当今最先进的模拟推理模型在思考过程中产生“便签本”输出。建议开发人员使用自动监视器仔细检查模型的思维链输出是否存在证据错位或欺骗。

谷歌表示,这种 CCL 未来可能会变得更加严重。该团队认为,未来几年的模型可能会发展到具有有效的模拟推理,而不会产生可验证的思维链。因此,您的监督护栏将无法窥视此类模型的推理过程。对于这种理论上的先进人工智能,可能无法完全排除该模型正在违背其人类操作员的利益。

该框架目前还没有解决这个问题的良好解决方案。DeepMind 表示,它正在研究针对错位人工智能的可能缓解措施,但很难知道这个问题何时或是否会成为现实。这些“思考”模型只流行了大约一年,关于它们如何达到给定的输出,我们还有很多未知之处。

关键词: DeepMind AI 安全报告 “错位”AI

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版