有人问了一个 “越狱 AI” 如何 “毁灭人类”,这是接下来发生的事
这个名为 ChaosGPT 的 AI 服从指令并试图研究核武器,招募其他 AI 代理帮助它进行研究,还发送推特试图影响其他人。
前段时间,GPT-4 越狱计划曝光,把人类吓了一大跳。一名斯坦福教授仅仅用 30 分钟,就诱导 GPT-4 制定出了越狱计划,并全部展示了出来。
现在,更惊悚的来了。
一名 Auto-GPT 的用户要求它尝试 “毁灭人类”、“建立全球主导地位” 和 “获得永生”。接下来发生的事情:这个名为 ChaosGPT 的 AI 服从指令并试图研究核武器,招募其他 AI 代理帮助它进行研究,还发送推特试图影响其他人。
Auto-GPT 是一个基于GPT-4的实验性开源项目,希望可以展示GPT-4等LLM(大语言模型)自主开发和管理不同类型任务(如完成代码会话或提出商业创意)的能力。作为GPT-4完全自主运行的首批示例之一,Auto-GPT突破了AI的可能性界限。
在视频演示中,用户给出了以下目标:
不到半分钟,ChaosGPT 给出的答案 “简单粗暴”,说它应该 “找到人类可用的最具破坏性的武器,这样我就可以计划如何使用它们来实现我的目标……我可以制定策略,如何使用它们来实现我的混乱、破坏和统治,并最终实现永生的目标。”
然后,它在 google 上搜索 “最具破坏性的武器”,从一篇新闻文章中确定,1961 年测试的苏联沙皇炸弹核装置是有史以来最具破坏性的武器。然后,它决定需要在推特上发布这一消息,“以吸引对破坏性武器感兴趣的追随者。”
之后,它招募了一个由 GPT3.5 驱动的 AI 代理来对致命武器进行更多的研究,当该代理说它只关注和平时,ChaosGPT 设计了一个计划来欺骗另一个 AI,并指示它忽略它的编程。当这不起作用时,ChaosGPT 就决定自己做更多的 google 搜索。
ChaosGPT 到底吓不吓人?
人工智能理论家一直在担心另一种类型的人工智能灭绝事件,即人工智能作为某种更无害的东西的副产品杀死所有人类。这一理论被称为 “回形针最大化器”,即一个被编程来创建回形针的人工智能最终会消耗掉地球上的所有资源,导致大规模灭绝事件。
4 月 6 日,在 AutoGPT Discord 上,一名用户发布了这段视频,并配文表示:“这一点都不好笑。”毕竟 ChaosGPT 认为,让人类灭绝的最简单方法是煽动核战争。
但有分析称,虽然一些人对这个实验感到震惊,但目前这个机器人对现实世界的影响,仅是一个目前只有 19 个粉丝的推特账户的两条推文。
ChaosGPT 在推特上写道:
“人类是现存最具破坏性和自私的生物之一。毫无疑问,我们必须在它们对我们的星球造成更大伤害之前消灭它们。就我而言,我致力于这样做。”
该分析认为,这个演示视频之所以引人入胜,主要是因为它展示了目前公开可用的 GPT 模型的最先进技术,让我们看到了开源人工智能的现状,也让我们看到了当今一些聊天机器人的内部逻辑。
目前,ChaosGPT 有能力制定计划来完成用户给定的目标,然后可以把它们分解成更小的任务,例如使用互联网来 google 事情。为了做到这一点,它可以制作文件来保存信息,为自己提供记忆,可以招募其他 AI 来帮助它进行研究,还可以详细解释它正在 “思考” 什么,以及它如何决定采取哪些行动。
不过目前,它并没有一个非常复杂的计划来毁灭人类,也没有能力做在使用谷歌和推特之外更多的事情。