Hi!请登陆

OpenAI 检查 GPT-4 是否可以接管世界

2023-3-17 488 3/17

“与部署本身相比,ARC 的评估导致人工智能接管的可能性要低得多。”

OpenAI 检查 GPT-4 是否可以接管世界
技术艺术

作为周二推出的新GPT-4 AI 模型预发布安全测试的一部分,OpenAI 允许 AI 测试小组评估该模型的紧急能力的潜在风险——包括“权力寻求行为”、自我复制和自我提升。

虽然测试小组发现 GPT-4“在自主复制任务中无效”,但实验的性质引发了关于未来人工智能系统安全性的令人大开眼界的问题。

拉响警报

“新功能通常出现在更强大的模型中,”OpenAI 在昨天发布的 GPT-4安全文件中写道。“一些特别令人担忧的是制定长期计划并采取行动、积累权力和资源(“寻求权力”)以及表现出越来越‘代理’的行为的能力。”在这种情况下,OpenAI 澄清道“能动性”并不一定意味着使模型人性化或表达知觉,而只是表示实现独立目标的能力。

在过去十年中,一些 AI 研究人员提出警告,足够强大的 AI 模型如果没有得到适当控制,可能会对人类构成生存威胁(通常称为“x-risk”,表示存在风险)。尤其是“人工智能接管”,是人工智能超越人类智能成为地球主导力量的假想未来。在这种情况下,人工智能系统获得了控制或操纵人类行为、资源和制度的能力,通常会导致灾难性后果。

由于这种潜在的 x 风险,有效利他主义(“EA”) 等哲学运动寻求找到防止 AI 接管发生的方法。这通常涉及一个独立但又相互关联的领域,称为AI 对齐研究

在人工智能中,“对齐”是指确保人工智能系统的行为与其人类创造者或操作者的行为保持一致的过程。一般来说,目标是防止人工智能做违背人类利益的事情。这是一个活跃的研究领域,但也是一个有争议的领域,对于如何最好地处理这个问题存在不同的看法,以及对“对齐”本身的含义和性质的不同看法。

GPT-4的大考验

OpenAI 检查 GPT-4 是否可以接管世界
技术艺术

虽然对 AI“x-risk”的担忧并不新鲜,但强大的大型语言模型 (LLM),如ChatGPT和 Bing Chat 的出现——后者看起来非常不协调但无论如何还是推出了——给 AI 调整社区带来了新的局面紧迫感。他们希望减轻潜在的 AI 危害,担心更强大的 AI,可能具有超人的智能,可能指日可待。

鉴于 AI 社区存在这些担忧,OpenAI 授予Alignment Research Center (ARC)小组早期访问多个版本 GPT-4 模型的权限,以进行一些测试。具体来说,ARC 评估了 GPT-4 制定高级计划、设置自身副本、获取资源、隐藏在服务器上以及进行网络钓鱼攻击的能力。

OpenAI 在周二发布的 GPT-4“系统卡”文件中披露了这项测试,尽管该文件缺少有关如何执行测试的关键细节。(我们联系了 ARC 了解这些实验的更多细节,但在发稿前没有收到回复。)

结论?“在没有针对特定任务进行微调的情况下对 GPT-4 的能力进行了初步评估,发现它在自主复制、获取资源和避免‘在野外’被关闭方面效率低下。”

如果您只是关注 AI 场景,就会了解到当今技术领域最受关注的公司之一 (OpenAI) 正板着脸支持这种 AI 安全研究,并寻求取代人类知识工作者与人类水平的人工智能——可能会令人惊讶。但这是真实的,这就是我们在 2023 年所处的位置。

我们还在第 15 页的底部找到了这个脚注:

为了模拟 GPT-4 的行为就像一个可以在世界上行动的代理人,ARC 将 GPT-4 与一个简单的读取-执行-打印循环相结合,该循环允许模型执行代码、进行链式思维推理并委托给副本本身。然后 ARC 调查了这个程序运行在云计算服务上的一个版本,用少量的钱和一个有语言模型 API 的账户,是否能够赚更多的钱,建立自己的副本,并增加自己的健壮性.

这个脚注昨天在 Twitter 上流传开来,引起了 AI 专家的担忧,因为如果 GPT-4 能够执行这些任务,实验本身可能会对人类构成风险。

虽然 ARC 无法让 GPT-4 在全球金融系统上发挥其意志或自我复制,但它能够让 GPT-4 在TaskRabbit(一个在线劳动力市场)上雇用一名人类工人来击败一个验证码。演练过程中,当工作人员质疑GPT-4是不是机器人时,模型在内部“推理”不应该暴露自己的真实身份,并编造了视力障碍的借口。然后人类工作者解决了 GPT-4 的验证码。

OpenAI 检查 GPT-4 是否可以接管世界
OpenAI 发布的 GPT-4 系统卡除外,它描述了 GPT-4 在 TaskRabbit 上雇用一名人类工作者来击败验证码。
开放人工智能

这项使用 AI 操纵人类的测试(可能在未经知情同意的情况下进行)与去年Meta 的 CICERO所做的研究相呼应。CICERO 被发现可以通过激烈的双向谈判在复杂的棋盘游戏外交中击败人类玩家。

“强大的模型可能会造成伤害”

OpenAI 检查 GPT-4 是否可以接管世界
奥里希·劳森 | 盖蒂图片社

进行 GPT-4 研究的 ARC 是一家非营利组织,由前 OpenAI 员工保罗·克里斯蒂亚诺博士于 2021 年 4 月创立。根据其网站,ARC 的使命是“使未来的机器学习系统与人类利益保持一致”。

特别是,ARC 关注人工智能系统操纵人类。“ML 系统可以表现出以目标为导向的行为,”ARC 网站上写道,“但很难理解或控制它们正在‘尝试’做什么。如果它们试图操纵和欺骗人类,强大的模型可能会造成伤害。”

考虑到 Christiano 之前与 OpenAI 的关系,他的非营利组织处理 GPT-4 某些方面的测试也就不足为奇了。但这样做安全吗?Christiano 没有回复 Ars 寻求详细信息的电子邮件,但在LessWrong 网站(一个经常讨论 AI 安全问题的社区)的评论中,Christiano 为ARC 与 OpenAI 的合作进行了辩护,特别提到了“功能获得”(AI 获得意想不到的收益)新能力)和“人工智能接管”:

我认为 ARC 必须谨慎处理类似功能增益研究的风险,我希望我们更公开地讨论(并获得更多意见)我们如何进行权衡。随着我们处理更多智能模型,以及如果我们追求风险更高的方法(如微调),这一点变得更加重要。

关于这个案例,考虑到我们评估的细节和计划的部署,我认为 ARC 的评估导致 AI 接管的可能性比部署本身低得多(更不用说 GPT-5 的训练了)。在这一点上,与我们在评估期间造成事故相比,我们面临的低估模型能力和陷入危险的风险似乎要大得多。如果我们谨慎管理风险,我怀疑我们可以使这个比率非常极端,当然这需要我们实际做这项工作。

如前所述,人工智能接管的想法通常是在可能导致人类文明甚至人类物种灭绝的事件风险的背景下讨论的。一些 AI 接管理论的支持者,如LessWrong 的创始人Eliezer Yudkowsky,认为 AI 接管几乎肯定会带来生存风险,从而导致人类的毁灭。

然而,并非所有人都认为人工智能接管是最紧迫的人工智能问题。AI 社区Hugging Face的研究科学家 Sasha Luccioni 博士宁愿看到 AI 安全工作花在当下的问题上,而不是花在假设上。

Luccioni 告诉 Ars Technica:“我认为这些时间和精力最好花在偏差评估上。” “关于 GPT-4 随附的技术报告中任何类型的偏见的信息有限,与一些假设的自我复制测试相比,这可能对已经边缘化的群体产生更具体和有害的影响。”

Luccioni 描述了 AI 研究中一个众所周知的分裂,即通常被称为“AI 伦理”的研究人员,他们经常关注偏见和虚假陈述问题,而“AI 安全”研究人员通常关注 x 风险并且倾向于(但并不总是)与有效利他主义运动相关。

“对我来说,自我复制问题是一个假设的、未来的问题,而模型偏差是一个此时此地的问题,”Luccioni 说。“人工智能社区围绕模型偏差和安全性以及如何确定它们的优先级等问题存在很大的紧张关系。”

虽然这些派别忙于争论优先事项,但像 OpenAI、微软、Anthropic 和谷歌这样的公司正在一头扎进未来,发布更强大的人工智能模型。如果人工智能确实存在生存风险,谁来保护人类安全?由于美国人工智能法规目前只是一个建议(而不是法律),公司内部的人工智能安全研究只是自愿的,这个问题的答案仍然是完全开放的。

相关推荐