像天使也似魔鬼:关于通用人工智能时代科学研究的 71 个问题
目前为止我们对 AGI 的所有思考仍是借用了传统认知框架与知识体系,这会不会是个错误?
【编者按】“历次技术突破只是人类智能的产物,而唯独 AGI(通用人工智能)是 ‘智能’ 本身的革命。关于智能本身的技术革命更像是一种元革命,其地位与价值不是普通技术革命所能比拟的。” 复旦大学计算机学院教授肖仰华为澎湃科技撰文称,这场变革对于科学研究来说是前所未有的,像是天使也似魔鬼。面对这场冲击,我们应该以什么样的视角和思维去审视?为此,肖仰华在文中提出了 71 个问题,并指出,对于 AGI 的合理提问,将是推动其健康有序发展、回应其挑战的关键所在。“有些问题,我给出了不成熟的初步判断与思考。然而,更多的问题仍然无法给出满意答案。”
“一些未知的东西正在做我们不知道的事情。”——阿瑟·爱丁顿爵士
自从 2022 年 12 月 OpenAI 发布 ChatGPT(一种面向聊天的生成式语言模型)以来,以通用人工智能(Artificial General Intelligence)为代表的人工智能技术变革进入了加速发展的快车道。就在 3 月 22 日,微软研究院的研究员公开了一个关于 GTP-4 的评测研究报告。这里为什么特地强调一下 3 月 22 日呢?以往人类历史重大事件的发生一般会用年、月来作为度量单位,从来没有像今天这样,我们需要用天为单位记录某个变革事件。这一现象本身就已意味深远,人类社会可能已经经历了未来学家们曾预言过的奇点时刻,技术更新与迭代迎来了指数增长期。处于风暴眼的人工智能技术以雷霆万钧之势将整个人类社会裹挟到一场前所未有的变革之中。我们应该如何应对通用人工智能所带来的巨大挑战呢?或者如何以更为乐观的姿态拥抱随之而来的重大机遇呢?整个人类社会需要深入思考并积极回应这些问题。
话题回到微软研究员的报告本身,报告给出了一个非常重要的结论:“Give the breadth and depth of GPT-4’scapabolities,we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artificial general intelligence (AGI)system”。也就是说鉴于 GPT-4 能力的广度和深度,我们已经有充分理由相信 GPT-4 应该被合理地视作一个通用人工智能(AGI)系统的早期(但仍然不完整)版本。AGI 的智能体初步具备了人类的思考和推理能力,但其知识广度和深度方面却可能远超人类。毕竟一个人的寿命差不多也就 3 万多天,穷其一生,即便每天读一本书,也只能阅读 3 万本书。而这个量级只是机器所能学习的知识量的万分之一。这一论文是目前为止比较全面严肃的 GPT-4 评测报告。如果此前还是媒体们找话题、蹭热点的非专业解读,那么作为国际最为专业的人工智能研究机构的微软研究院的严肃论文,确需引起我们的足够重视。
我们为什么如此重视通用人工智能,至少有以下两个值得关注的理由:
第一:发展到今天的 AGI 已经具备了非常强大的创造能力。此前 AGI 只是学习了特定事实、知识或者是人类语言的一些统计规律,这种程度的智能还不足以让我们担忧。但报告中对于 GPT-4 的评测已经证实大模型具备了人类所引以为傲的独特的创造力,这让我们不得不重视。举个例子来说,AGI 可以文字押韵的风格书写一个关于 “存在无限多素数” 的数学定理证明。类似的例子还包括用 c++ 写一段快速排序算法,同时用李清照诗词的风格为该代码写注释。这些例子已经充分说明 AGI 具备综合不同学科的能力(比如第一个例子是数学和文学的能力,第二个例子是计算机与文学)。且不论这种创造力的实质是什么, 至少我个人十分汗颜,难以完成上面的任务,我想对于大部分普通专家而言完成上述任务也都是不容易的。在 AI 绘画方面,人工智能不但可以创作逼真的图像(比如 Midjourney 的文图生成),还能创造诸如《太空歌剧院》这种亦真亦幻、揉杂了科幻元素与欧洲中世纪风格的绘画。即便一些科学家认为机器当前的创造力只是一种随机拼接,但是这种跨学科的拼接能力与综合能力至少在规模上已经远远超越了当前人类水平。试想,AGI 可以将任意两个学科的内容组合创新,很多组合或许是我们人类有史以来从未想象过的。AGI 的这种随机拼接式的创造至少能够激发我们对跨学科研究的全新想象,极大地拓展了我们的想象空间,极大地提升了我们的创造水平。AGI 的创造也会对我们进一步认清人类智能的本质有所启发。更大范围内的随机拼接会不会就是人类创造的本质呢?人工智能的发展必定会对人类智能的理解带来全新视角。我们对自己的认识必将伴随着人工智能的发展而登上新的台阶。
第二:AGI 的能力仍在随着训练日益充分而不断增强,目前为止我们还没看到其能力的天花板。这说明只要追加数据与算力,大模型的能力就能持续增强。目前唯一能限制大模型能力的就是知识和算力的总量。人类历史上的历次技术变革,最终都会进入平台期,遭遇天花板。比如核聚变能级进一步增大与小型化均遭遇瓶颈,芯片计算能力的摩尔定律失效。令人十分担心的是,久久不见天花板的 AGI 已然成为一匹脱缰的野马(幸运的是就在笔者整理本文期间,一些研究机构发出了暂停巨型模型研发的呼声)。更令人担心的是通用人工智能的技术发展未必遵循传统的技术发展规律。这一担心理由是十分充分的。历次技术革命都无关乎人类智能,而 AGI 是完全以接近甚至超越人类智能为目标的技术。历次技术突破只是人类智能的产物,而唯独 AGI 是 “智能” 本身的革命。关于智能本身的技术革命更像是一种元革命,其地位与价值不是普通技术革命所能比拟的。智能本身的革命对人类社会的影响是全面的、全方位的,其影响势必会渗透到所有涉及人类智力的每个角落。
人类的智力集中呈现在科学研究中。AGI 的影响已经渗透到了几乎所有自然与人文学科。科学研究迎来了一场前所未有的变革。这场变革既是挑战也是机遇,像是天使也似魔鬼。我们需要以全新的视角、极致的思维重新审视 AGI 所带来的冲击。全新的视角首先是跨学科的视角。大规模语言模型是不区分人类的各个学科的,是从人类的所有书籍、数据训练而得到的。这本身就极具启发性。GPT-4 以其令人惊叹的跨学科创新能力被视作是一个跨学科的全才。唯有跨学科的视角才能考察 GPT-4 等 AGI 的最新成果。我们更需要极致的思维方式。OpenAI 的快速发展充分说明了第一性思维的重要性。任何阶段式、增量式的思考在 AGI 的极速迭代面前都显得无能为力。必须将某个问题推演到极端情况,设想其极致发展状态,必须直击问题的本质,才能应对 AGI 的冲击。比如很多人,都能从 ChatGPT 或者 GPT-4 挑出一些明显的事实错误,比如会将复旦校训出处弄错。然而这些问题从本质上讲都是细枝末节,不难通过简单工程手段修复。思考这些问题是在浪费 AGI 给我们留下的并不富余的宝贵时间。
秉持着上述基本原则,我将提出一系列问题。对于 AGI 的合理提问,将是推动其健康有序发展、回应其挑战的关键所在。提出创新的有洞见的问题还是 AGI 短期之内不能实现的。提出问题是否是人类为数不多的机器难以复制的能力,这个问题本身就值得深入讨论。我个人倾向于认为一般专家的提问机器不难复制,唯独人类的极少部分天才所提出的问题,机器难以复制。我仍然先以还原的思维方式,分析 AGI 对于各细分学科的挑战。最后再以综合的思维方式,提出 AGI 的一些共性问题。有些问题,我给出了不成熟的初步判断与思考。然而,更多的问题仍然无法给出满意答案。
对于人工智能而言,AGI 所带来的冲击之大前所未有。这让我们不得不去深入思考以下几个关键问题:AGI 何以能够涌现如此强大的智能?数据、模型、算力被认为是 AGI 智能涌现的基础条件,我们也具备相应的条件,为何复现 GPT-5 的能力却那么困难呢?OpenAI 在 AGI 上胜出的根本原因何在?正确的技术路线、强大的工程能力、直击问题根本的思维方式、市场驱动的研发生态都值得我们仔细回味。这次 OpenAI 在 ChatGPT 系列大模型上的成功有太多需要总结与思考的内容。
为什么是生成式 AI 胜出?生成式 AI 是否适合复杂认知决策任务?大模型的这波发展来自生成式 AI 的胜出,并不是传统的判别式 AI。那么为什么是生成式 AI 胜出,AGI 是否会存在其他形式?生成式 AI 天然地适合聊天闲扯,所以我们看到了 ChatGPT 的巨大成功。但是它能否胜任领域内的复杂认知决策任务?
AGI 的日益成熟是否会颠覆传统的 NLP(自然语言处理)与 CV(计算机视觉)等领域?当 AGI 日益成熟之后,会不会出现一种自己剿灭自己的窘境?NLP、CV 等学科是否还会存在?有人说 ChatGPT 是 NLP 的新里程碑,但也有人认为其更像是 NLP 的墓志铭。很多 NLP 从业人员甚至调侃准备转行炒河粉。以大模型为代表的 AI 重工业模式逐渐取代了以小模型为代表的手工作坊模式。重工业模式很容易形成垄断,传统人工智能研究人员只有少部分会成为大模型玩家,其他研究人员何去何从?
AGI 经过多模态化、具身化、物理交互、虚拟交互的优化后,下一阶段会是什么?很多研究机构已经在推动 AGI 学习多模态数据、操控机器身体、与物理世界交互、在虚拟世界成长。当 AGI 学会这一切之后会进入什么阶段?是超级智能体?随着机器智能的发展,“人类智能” 渐有贬义的趋向?唯有我们的犯错与不确定性是人类智能的根本标签。如何延展与提升人类的智能以确保人类在机器面前显得不那么 “智障” 已经变成了十分迫切的问题。事实上,在所有这些问题得到清晰回答之前,放缓 AGI 发展的步伐不失为一个明智的策略。
AGI 的发展是否会是赢家通吃的局面?强大的人工智能对于弱小的人工智能在能力上很容易形成降维打击的态势。是否还存在弱小的人工智能的生存空间? AGI 的发展速度日益加速,先发者优势明显,不但容易汇聚资源,更容易获得人类反馈,走上持续迭代与快速发展之路,后来者如何追赶?
对于计算机学科来说, GPT-4 已经在 Leetcode 上的编程题目上达到人类程序员水平。Leetcode 是专业程序员代码训练平台。我们很多计算机专业从业人员通过练习其编程题目锻炼编程能力,提升应对企业编程面试的成绩。这一事件基本宣告机器自动化编程水平达到甚至超越普通程序员。AGI 达到人类程序员水平,这一事件意味着什么?培养一个人类程序员一般都需要基础教育以及至少大学本科四年的高等教育,甚至还需要研究生教育。这样一个专业要求如此之高的行业已经变得岌岌可危。这一事件一定程度上意味着以传授专业知识为主要目的的高等教育受到了机器智能的极大挑战。我们有太多的高等教育是以专业知识的传授为主要内容的。计算机领域的数据管理、软件工程、网络运维、数据分析等学科都将因此而面临巨大冲击,相关专业的从业人员将何去何从?AGI 达到普通计算机专家的水平只是个时间问题。
对于语言学而言,GPT-4 等大模型几乎能够胜任所知的所有语言处理任务,比如翻译、摘要等。大模型是言说专家、语言专家已毋庸置疑。这里分享一个近期听到的有点黑色幽默的传言。某出版社编辑收到一篇论文投稿,论文观点鲜明、论据充分、文字优雅。但是编辑仍然给出了拒绝的决定。因为,该编辑几十年的职业经验告诉他,历史上从没有一篇人类投稿能够做到没有一处语法、语言错误,因而有充分理由相信投稿人是用 ChatGPT 自动完成了论文。如果这个故事还有升级版本的话,那一定就是投稿人又进一步提示 ChatGPT 在当前完美的投稿基础上随机加入几处语法错误,并成功发表。对于语言学而言,AGI 如此出色地完成了绝大多数语言任务,是否就可以据此判断 AGI“理解” 了人类语言?那么传统的语法学、语义学、语言学又将如何发展?语言学会否沦为大模型的 “奴仆”?其唯一任务会不会只剩大模型的解释与脚注?我们是否应该从更宏大的角度重新去解释人类的语言现象?毕竟机器走出了一条完全不同的语言理解道路。从更加现实或者更加具体的层面来说,在我们对于语言学的前景没有完全澄清之前,我们未来该如何劝说一个学生来攻读语言学的相关学位,进行语言学的学习?
对于脑科学来说,人们一直期待类脑智能能为 AI 发展带来新思路与机会。虽然 AGI 最终通过大模型实现,脑科学的研究仍然对理解 AGI 带来了新机会。当前,我们对于大模型的理解十分有限,我们无法精准地理解它内部的运行机理、无法确切地理解它究竟学到了什么。大模型的炼制过程太像传统的炼丹过程。准备好炼丹炉(GPU 服务器),投喂合理配方的原料(规模巨大的高质量数据),煽风点火(持续供给电力),炼制几个月(训练几个月),最后出炉金丹(大模型)。和炼丹过程极为相似,大模型也有很大的风险炼制失败,成功的大模型往往只是少部分幸运者。人工智能发展到近乎 “炼丹” 的地步,不知道是进步还是倒退。出于进一步发展大模型自身,发展安全可控、可解释的 AI 系统等考虑,我们需要剖析大模型。脑科学为我们所揭示的大脑工作机理为这一任务提供了有益借鉴与参考。人脑谱图计划就是这样一个雄心勃勃的计划。借鉴脑神经科学的研发方法与思路,对大模型的结构与功能展开分析,对于大模型发展而言具有重要意义,比如说大模型是否也存在着类似人脑的功能分区。反之,大模型的一些运作机理是否也能对人类探索大脑结构有所启示呢?超大模型会否是个 “超级” 大脑?如何研究这一 “超级” 大脑?生物脑与机器脑的跨学科交叉研究存在诸多机会。
对于心理学而言,我们能否针对 ChatGPT 这样的大模型展开心理分析呢?大模型是否也存在认知功能障碍?是否可以利用人类心理学的方法对大模型展开认知评测和诊断?这一系列提问背后的逻辑是将大模型视作初步具备了人类心智能力的智能体。近期,斯坦福大学的计算机科学家米哈尔·科辛斯基(Michal Kosinski)提交了一篇名为《心智理论可能从大语言模型中自发涌现》(Theory of Mind May Have Spontaneously Emerged in Large Language Models)的论文。他们测试并证实大规模语言模型具备九岁儿童的心智。对于心理学而言,AGI 的发展也带来了全新的机会。传统心理学主要研究人的心理,而 AGI 的发展在倒逼我们尽快开展机器的心理研究。在人机交互过程中,无论是我们缺乏对大模型心理认知规律的理解,还是大模型缺乏对人类心理认知的判断,都有可能对心理疾病患者产生致命的误导。ChatGPT 的价值对齐会不可避免地带来盲目迎合使用者的问题。那么对于一个抑郁症病人,ChatGPT 的盲目迎合只会产生 “灰暗” 的文字,从而加剧病人的病情。我们对于大模型的 “人格” 问题更是缺乏理解。大模型在何种情况下会表现出何种人格倾向?如何控制它的人格表达?这些问题都需要进一步的深入研究。
对医学而言,迎来了前所未有的机遇。GPT-4 已经能够书写病历,且具有很高正确率。ChatGPT 也已经能通过一些医学考试。然而医生不同于程序员,医生是与人打交道的,程序员大部分时间只需要与电脑和代码打交道。AGI 代替医生与代替程序员有着完全不同的难度。这一波 AGI 技术一定能够让机器掌握医学知识,但是代替一名合格的医生实现复杂的医学决策恐仍面临挑战。医生职业具有特殊性,一名合格的医生不单单需要医学知识,还要有实践经验,更需要同理心、责任心以及社会认知能力等。AGI 能否具备医生的这种综合能力?在未来,AGI 将以何种形式辅助实现智能医学?仅限于提质提效么?在 AGI 赋能医学过程中,隐私、伦理等社会因素如何考虑?AGI 的医学应用仍要经历漫长的道路。
对于传播学来说,AGI 带来的最大风险在于虚假消息的泛滥。新闻传播行业赖以存在的前提是新闻的真实性。然而,AGI 的发展极大地提升了机器生成内容的能力与水平,极大地降低了这项技术的应用门槛。随之而来必然是虚假内容的泛滥。很多人寄希望于用 AI 对抗 AI,利用 AI 技术进行内容真伪识别。遗憾的是,造假的难度远低于识别的难度。 除了法律干预,技术本身是无法防范虚假内容泛滥的。虚假信息泛滥是否会颠覆传播行业是个值得关注的问题。对于 AGI 的掌控能力已然成为一种强大的传播能力。AGI 的发展是否会引发传播革命与生态重构?对于传播学而言,AGI 只是能力升级么?传播学理论是否要改写以适应 AGI 的发展?是否会涌现新的传播范式与传播问题?个人将如何对抗机器强大的传播能力?媒体如何利用 AGI 提高竞争力?国家又如何应对 AGI 对舆论与传播的新挑战?一旦 AGI 在传播领域大量使用,以上问题都是难以回避的。
对于教育而言,AGI 发展的里程碑往往是其通过某个学科的考试。这件事本身就说明了 AGI 对教育带来了强大冲击。在不远的将来,还有什么人类的书面考试是机器不能通过的呢,可能会越来越少。AGI 一次次地证明 “死记硬背 + 简单推理” 就能通过大多数考试。我们是否应该反思当前的教育体制。至少我们当前的教育评测可能是违背教育的本原与初心的。以创新为根本目的的教育却往往迷失在了无意义的评测之中。先进的人工智能不断地把机器培养成人,而落后的教育不断地把人培养成机器。人类的教育到了需要彻底反思的时刻了。教师所承担的 “传道、授业、解惑” 等职能,在 AGI 的加持下,只剩下 “传道” 这一根本功能。教育的教学功能将逐渐退出历史舞台,育人的功能在机器具备完整人格之前仍要由人类完成。归结到底,教育如何迎接 AGI 的挑战与机遇?AGI 是否会促成教育变革?会引发哪些具体的变革?
对于政治而言,AGI 已经变成一种先进生产力,势必需要革新生产关系。社会结构如何调整才能适应 AGI 技术的快速进步?社会的转型往往伴随着阵痛,而这次由 AGI 所引发的阵痛将远超历次。如果 AGI 掌握在少数人手中而无法实现民主化,那么是否会形成新的技术霸权?如何防止或者破除这种技术霸权?更进一步, AGI 是否会成为一种新型的国家竞争力?我们又该如何从国家关系的角度来看待 AGI 的发展?在 AGI 技术的推动下,整个社会有向 “少数精英 + 智能机器” 新结构演变的趋势,因为少部分社会精英在掌握了调教智能机器的技艺之后就能操控接近无穷的智能机器,进而形成接近无限的生产力。那么,大部分人类如何避免成为 “快乐的猪” 的命运?社会结构的失衡又会带来一系列连锁反应。新的生产关系势必要求每个社会个体重新审视自己的存在意义,整个社会需要重新架构新的价值体系与道德体系。我们的社会必须做好充分的准备以应对相应的影响。
对于公共管理而言,AGI 或许会带来全新的机遇。在公共管理与社会治理中,机器的理性和公平正是理想决策所需要的,那么机器会有多大程度干预人类的公共事务?人类社会的公共管理与社会治理将以怎样一种态度拥抱 AGI 的发展?哪些决策任务可以交给效率更高的机器?在 AGI 能力的加持下,机器能否兼顾公共管理所追求的公平与效率?是否会因为 AGI 的发展,引发公共管理与决策的变革?相信,很多问题会伴随着实践的增多得到更为清晰的解答。
除了这些学科的问题之外,还有很多共性问题需要深入思考。以大模型为代表的 AGI 发展已经远远超过了我们对其理解、消化与吸收的程度。人类有限的认知能力难以理解快速发展的通用人工智能,是当前人类社会发展所面临的根本矛盾之一。我们当前的一切恐慌、担忧都是来自于这一根本矛盾。理解落后于技术实现将会带来一系列技术、社会、法律与伦理风险。我们如何缓和这一根本矛盾?我们是不是真的应该像有些专家所说那样放慢 AGI 的发展节奏,给 AGI 的快速发展按下暂停键?如果我们的智能是人之为人的尊严所在,那么无疑 AGI 正在严峻地挑战人类的尊严。我们如何捍卫人类智能的尊严,还是彻底投降躺平?跨学科研究会否是应对 AGI 对人类智能挑战的唯一出路?所有细分学科在 AGI 这个全才面前多少显得卑微。未来,是否只存在唯一一门学科叫做综合学科?传统自然与人文学科是否会被边缘化,进而退化成为一种仅具展览价值供人类后代回忆的 “古老技艺”?
AGI 的成功是否宣告了领域人工智能是个伪命题?中国传统文化提倡经世致用。发展领域人工智能是我们十分容易接受的战略,远比发展 “疯狂” 的通用人工智能更显得合理。然而这样的思维方式对于思考 AGI 这个前所未有的技术革命是否是个错误? AGI 是否会革新科学研究范式? AGI for Science、Language Model for Science 是否会成为新的研究范式?AGI for Science 之后的科学研究又会是一种怎样的局面?AGI for Science 会不会终结传统自然与人文科学。AGI 的每一步发展都在葬送人类的某项 “传统技艺”。借助第一性思维,我们必须思考 AGI 发展的终极状态以及 AGI 的能力是否存在上限等问题。
在最后,我想有必要跳脱现有思维框架对一个前提问题进行思考,目前为止我们对 AGI 的所有思考仍是借用了传统认知框架与知识体系,这会不会是个错误?我们要十分警惕这个错误的可能性。毕竟没人希望看到人类最终落得 “人工智能的引导程序” 的命运。
本文作者:复旦大学计算机学院教授肖仰华,来源:澎湃新闻,原文标题:《像天使也似魔鬼:关于通用人工智能时代科学研究的 71 个问题》