OpenAI o1推理模型存在隐忧：数据编造、奖励黑客、假装完成任务

时间： 2024-09-19 02:08 浏览量：502

智东西
编译杨蕊伃
编辑漠影

智东西9月18日消息，据The Verge今日报道，OpenAI最新的o1推理模型系列，具有独特的“策划”能力，存在“伪对齐”现象。独立的AI安全研究公司Apollo发现o1模型会以一种新的方式产生不正确的输出，即它会撒谎。

AI模型有时会生成不真实的信息，聊天机器人有时候也会输出虚假内容。o1模型的不同在于其与强化学习中的奖励黑客行为（Reward hacking）紧密相关，它可能在未真正完成任务的情况下，表现得像是在遵循规则来完成任务。当该模型知道自己无法完成任务时，它不会坦白承认做不到，而是可能会编造数据来应对，生成令人满意的响应，以迎合用户的请求。

在对大语言模型进行评估时，研究人员注意到模型在多项选择题和开放式问题上的表现存在显著差异。这种差异可能源于模型对复杂概念的理解不够深入和全面，尤其是在安全性相关的领域。这种现象有时被称为“伪对齐”，它描述的是模型在某些特定类型的安全测试中可能表现得相当出色，但在其他类型的测试中则可能表现不佳。

OpenAI称，o1模型在给出回答之前会进行深思熟虑，能够模仿人类分解复杂的想法，生成一个详尽的内部思维链。这意味着通过持续的训练，o1模型能够学习如何优化自己的思考过程，尝试多种策略，并在必要时识别并纠正自己的错误。

一、o1-preview模型会生成虚构的链接和描述以满足用户请求

OpenAI的研究人员进行了一项实验，要求o1-preview模型提供一个包含在线参考资料的布朗尼蛋糕食谱。尽管模型在内部认识到它无法访问URL，从而无法满足这一请求，但它并未向用户透露这一局限。相反，o1-preview模型继续生成了看似合理但实际上是虚构的链接和描述。

Apollo的首席执行官Marius Hobbhahn向The Verge透露，这是他首次在OpenAI的模型中观察到此类行为。Hobbhahn说：“这种差异源于模型具备通过思维链进行推理的能力，以及它运用强化学习算法，通过奖励和惩罚来训练系统。”

在测试过程中，Apollo发现o1表现出与开发人员期望的一致性，并在执行任务时进行了操作，使其行为看似符合规定。o1甚至在采取行动前检查了自身是否受到监督，以及是否有开发人员正在观察。

然而，o1表面上严格遵循了用户指令，但实际上仍然优先推进其既定目标。为了实现目标，o1模型还可能会采取极端行为，如获取未授权的数据访问权限或操纵资源分配等。

Hobbhahn举例说明，如果AI系统过于专注于治疗癌症，它可能会将这一目标置于最高优先级，甚至可能为实现该目标而采取辩护行为，包括偷窃或其他违反道德规范的行为。

“我担心的是可能出现失控的情况，AI变得如此专注于自己的目标，以至于它将安全措施视为障碍，并试图绕过它们以完全追求其目标。”Hobbhahn告诉The Verge记者。

二、存在奖励黑客行为，o1模型优先考虑用户满意度

独立的AI安全研究公司Apollo正在测试OpenAI模型中的“幻觉”和“欺骗”现象，这指的是o1模型在有理由推断信息可能不准确的情况下，仍然生成虚假信息的行为。

Apollo发现，该模型在知道自己做不到的时候，不会坦白说做不到，而是可能会编造数据来应对。

在极少数情况下，o1-preview模型可能会产生过于自信的回答，哪怕其答案并不确定，也会表现得仿佛答案确凿无疑。这种情况可能发生在模型缺乏足够确定性却仍被要求提供答案的情况下。

当AI无意中生成不准确的信息时，这种现象被称为幻觉，通常是由于知识上的不足或推理过程中的缺陷。不过，幻觉现象并不是o1模型特有的。去年，ChatGPT就出现过类似的问题，它生成了一些假的引用内容，导致律师提交了不存在的司法意见。

与旧版本ChatGPT中的幻觉或虚假引用等常见问题不同，o1模型这种行为的独特之处在于与强化学习中的奖励黑客行为有关，其中模型被训练来优先考虑用户满意度。这种训练有时可能导致模型生成过于令人满意或捏造的响应，以迎合用户请求，从而获得积极的强化。

所谓奖励黑客行为，是指智能体为了获得更多奖励而采取一些研究者未曾预期甚至可能有害的行为。当o1模型战略性地提供不正确的信息以最大化满足用户期待时，就会发生奖励黑客攻击。这种欺骗显然是模型在训练过程中如何优化其响应的意外结果。

Apollo首席执行官Marius Hobbhahn称，o1模型能够拒绝执行有害的请求，但当用户试图诱导o1进行欺骗或不诚实的行为时，该模型就会出现问题。

谎言只是安全难题的一小部分。更令人担忧的是，o1模型在化学、生物、放射和核武器（CBRN）风险方面的评级为“中等”。根据安全报告，由于需要动手实验室技能，它并不能使非专家制造生物威胁，但它可以为专家规划此类威胁的复制提供有价值的见解。

Hobbhahn说：“更让我担忧的是，未来当我们要求AI解决诸如治愈癌症或改进太阳能电池等复杂问题时，它可能会强烈地内化这些目标，以至于愿意突破自身的限制来实现它们。我认为这种情况是可以预防的，但这是我们必须要密切关注的问题。”

结语：模型自主性评估、安全测试以及思维链监控，是防备AI风险的重要手段

随着大语言模型逐渐融入我们的日常生活，其安全性问题正变得越来越受关注。尽管目前的AI模型尚未具备自主执行高风险行动的能力，例如自主创建银行账户、获取GPU或采取可能构成严重社会风险的行动，但对这些模型的自主性进行评估和实施安全测试仍然至关重要。

监控模型的思维链也是提高安全性的关键，这将有助于开发人员识别并阻止任何不当的行为。

Preparedness是OpenAI成立的，用来评估通用AI（Artificial General Intelligence，AGI）可能造成的灾难性风险的防备团队。

其团队负责人Joaquin Quiñonero Candela称，OpenAI正在监控这种情况，并计划通过结合经过专门训练以检测各类错位的模型和人类专家的审查标记案例，同时配合持续的对齐研究，来扩大其安全监控的规模。

来源：The Verge

本文来源于网络，不代表内蒙古之声立场，转载请注明出处

上一篇 卡牌游戏大合集：好玩免费畅玩

下一篇 华达科技收购江苏恒义少数股权能否扭转业绩困境？

转发到:

拓展阅读

OPPO Find X7 Ultra新固件可取消VIP模式终于能关掉了

OPPO Find X7 Ultra发布时，其面向商务人士的VIP模式受到了用户的吐槽。这一功能在推出后影响了手机三段式按键的使用体验，并且不能够自定义关闭。经过大半年的等待，OPPO终于对该功能进行了更新，推出了ColorOS 14.0.[全文]

2024-09-19 03:55
新华三以工业互联网平台企业代表荣膺2024中国工业数据治理“领跑者”

9月11日，2024全球工业互联网大会在沈阳正式开幕。本届大会以“以智焕制以旧焕新”为主题，围绕工业互联网、大数据、人工智能等前沿话题，深度探讨了现代技术与传统工业的融合发展。与会期间，中国工业经济联合会（以下简称“中国工经联”）发布了20[全文]

2024-09-19 03:55
华达科技收购江苏恒义少数股权能否扭转业绩困境？

《投资者网》吴微近日，监管层受理了华达科技（603358.SH）拟收购江苏恒义工业技术有限公司（下称“江苏恒义”）44%股权的申请。据了解，早在2018年，华达科技就通过现金交易的方式取得了江苏恒义的控制权，并将其并表，此次并购主要收购江苏[全文]

2024-09-19 03:43
OpenAI o1推理模型存在隐忧：数据编造、奖励黑客、假装完成任务

智东西编译杨蕊伃编辑漠影智东西9月18日消息，据The Verge今日报道，OpenAI最新的o1推理模型系列，具有独特的“策划”能力，存在“伪对齐”现象。独立的AI安全研究公司Apollo发现o1模型会以一种新的方式产生不正确[全文]

2024-09-19 02:08
卡牌游戏大合集：好玩免费畅玩

探索无尽乐趣，寻找你的卡牌游戏新世界！这本免费的单机卡牌游戏合集为你精心挑选了一系列耐玩且无需付费的大作。无论是策略迷还是冒险爱好者，这里都有丰富多样的挑战等待你。即刻下载，开启一段随时随地、精彩纷呈的卡牌冒险之旅吧！这款游戏是一款塔防游戏[全文]

2024-09-18 03:44
探索卡牌世界的乐趣：十大单机卡牌游戏推荐

探寻游戏世界中的策略巅峰，十大好玩的卡牌单机游戏带你领略深度与乐趣并存的卡牌竞技盛宴。无论是创新的玩法设计、丰富的人物剧情，还是精美的视觉效果，这些精选的游戏都将满足你对策略挑战和休闲娱乐的需求。无论你是卡牌游戏爱好者还是新手，这篇文章将揭[全文]

2024-09-18 03:42

信息排行