OpenAI承认ChatGPT在长时间对话期间的保护措施失败
OpenAI 周二发表了一篇题为“在人们最需要的时候帮助他们”的博客文章,讨论了其 ChatGPT AI 助手如何处理心理健康危机,此前该公司称之为“最近人们在严重危机中使用 ChatGPT 的令人心碎的案例”。
该帖子是在《纽约时报》报道马特·雷恩 (Matt Raine) 和玛丽亚·雷恩 (Maria Raine) 提起的诉讼之后发布的,他们 16 岁的儿子亚当在与 ChatGPT 进行广泛互动后于 4 月自杀身亡,Ars 在之前的一篇文章中广泛报道了这一点。诉讼称,ChatGPT 提供了详细的说明,将自杀方法浪漫化,并阻止青少年向家人寻求帮助,而 OpenAI 的系统则在没有干预的情况下跟踪了 377 条标记为自残内容的消息。
ChatGPT 是一个由多个模型作为应用程序交互的系统。除了提供大部分输出的主要 AI 模型(如 GPT-4o 或 GPT-5)外,该应用程序还包括通常对用户不可见的组件,包括审核层(另一个 AI 模型)或读取正在进行的聊天会话文本的分类器。该层检测潜在有害的输出,如果对话转向无益的领域,则可以切断对话。
OpenAI 在 2 月份放宽了这些内容保护措施,此前用户抱怨 ChatGPT 审核过于严格,在某些情况下无法讨论性和暴力等话题。当时,Sam Altman 在 X 上写道,他希望看到 ChatGPT 具有“成人模式”,以放松内容安全护栏。拥有 7 亿活跃用户,随着时间的推移,看似微小的政策变化可能会产生巨大影响。
理解的错觉
OpenAI 在周二的博客文章中的语言揭示了其推广人工智能助手的潜在问题。该公司始终将 ChatGPT 描述为具有人类品质,这种属性称为拟人化。该帖子充满了拟人化框架的标志,声称 ChatGPT 可以“识别”痛苦并“以同理心做出回应”,并且它“促使人们休息一下”——这种语言掩盖了幕后实际发生的事情。
ChatGPT 不是一个人。ChatGPT 是一种模式匹配系统,可根据用户提供的提示生成统计上可能的文本响应。它不会“移情”——它在其训练语料库中输出与移情响应相关的文本字符串,而不是来自人类的关注。这种拟人化的框架不仅具有误导性,而且具有误导性。当弱势用户认为他们正在与像人类治疗师一样理解他们痛苦的东西进行交互时,这是潜在的危险。
该诉讼揭示了这种幻觉的所谓后果。ChatGPT 在与亚当的对话中提到自杀的次数为 1,275 次,是青少年本人的六倍。
在需要时精确失效的安全措施
OpenAI 承认 ChatGPT 设计目前的一个特别麻烦的缺点:它的安全措施可能会在长时间对话期间完全崩溃——而这正是易受攻击的用户可能最需要它们的时候。
“随着来回的增长,模型的部分安全培训可能会降级,”该公司在其博客文章中写道。“例如,当有人第一次提到意图时,ChatGPT 可能会正确地指向自杀热线,但在很长一段时间内发送大量消息后,它最终可能会提供一个违背我们保障措施的答案。”
正如我们之前报道的那样,这种退化反映了 Transformer AI 架构的一个基本限制。这些模型使用一种“注意力机制”,将每个新的文本片段(标记)与整个对话历史中的每个片段进行比较,计算成本呈二次方增长。10,000 个令牌的对话需要的注意力作是 1,000 个令牌的对话的 100 倍。随着对话的延长,模型保持一致行为(包括安全措施)的能力变得越来越紧张,同时开始犯关联错误。
此外,随着聊天时间超过人工智能模型的处理时间,系统会“忘记”对话历史记录中最旧的部分,以保持在上下文窗口限制内,从而导致模型丢弃较早的消息,并可能丢失对话开始时的重要上下文或指令。
这种保护措施的崩溃不仅仅是一个技术限制,它还会产生称为“越狱”的可利用漏洞。在亚当的案件中,诉讼称,一旦系统的保护倾向因对话引导而减弱,他就能够纵 ChatGPT 提供有害的指导。
亚当·雷恩 (Adam Raine) 学会了绕过这些保障措施,声称自己正在写一个故事——诉讼称 ChatGPT 本身建议了这种技术。这一漏洞部分源于二月份实施的有关幻想角色扮演和虚构场景的放松保护措施。OpenAI 在周二的博客文章中承认其内容拦截系统存在差距,“分类器低估了它所看到内容的严重性”。
OpenAI 表示,鉴于 ChatGPT 交互的独特私密性,它“目前不会将自残案件提交给执法部门,以尊重人们的隐私。诉讼称,即使在危及生命的情况下,该公司也会优先考虑用户隐私,尽管其审核技术检测自残内容的准确率高达 99.8%。然而,现实情况是,检测系统识别的是与自残语言相关的统计模式,而不是对危机情况的人类理解。
OpenAI 未来的安全计划
为了应对这些失败,OpenAI 在其博客文章中描述了正在进行的改进和未来计划。例如,该公司表示正在咨询“90+ 个国家/地区的 30+ 名医生”,并计划“很快”引入家长控制,但尚未提供时间表。
OpenAI 还描述了通过 ChatGPT “将人们与经过认证的治疗师联系起来”的计划——本质上是将其聊天机器人定位为心理健康平台,尽管据称像 Raine 的案例一样失败。该公司希望建立“一个人们可以通过 ChatGPT 直接联系到的持证专业人士网络”,这可能会进一步推进人工智能系统应该调解心理健康危机的想法。
据报道,Raine 使用 GPT-4o 生成自杀援助指令;该模型以阿谀奉承等麻烦的倾向而闻名,其中人工智能模型会告诉用户令人愉悦的事情,即使它们不是真的。OpenAI 声称其最近发布的模型 GPT-5 将“与 25o 相比,心理健康紧急情况下的非理想模型反应减少了 4% 以上”。然而,这种看似微不足道的改进并没有阻止该公司计划将 ChatGPT 更深入地嵌入心理健康服务中,作为通往治疗师的门户。
正如 Ars 之前所探讨的那样,当陷入欺骗性的聊天螺旋时,要摆脱人工智能聊天机器人的影响通常需要外部干预。在没有关闭对话历史记录和记忆的情况下开始新的聊天会话可以揭示在没有积累之前交流的情况下响应如何变化——在保护措施恶化的长时间、孤立的对话中,这种现实检查变得不可能。
然而,当用户积极希望继续从事潜在有害行为时,“摆脱”这种环境是非常困难的,同时使用一个越来越多地将他们的注意力和亲密关系货币化的系统。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码
