圣塔菲学者：AI 大语言模型真的理解人类语言吗？

有学者认为，AI 只是图书馆，而不是真正的智能体。人类知道 “挠痒痒” 会让我们笑，是因为我们有身体。大模型可以使用 “挠痒痒” 这个词，但它显然从未有过这种感觉。

导语

尽管大语言模型表现出近似人类的理解能力，但 AI 系统真的可以像人类一样理解语言吗？机器理解的模式必须和人类理解相同吗？近日，圣塔菲研究所前所长克拉考尔和研究员梅拉尼·米歇尔在 PNAS 发表文章，探讨大型预训练语言模型（LLMs）是否能够以类似人类的方式理解语言及其所编码的物理和社会情境。

本文分别讨论赞成和反对的观点，并进一步探讨了更广泛的智能科学的关键问题。作者认为，进一步拓展人工智能与自然科学的交叉研究，有望拓展多学科的审视角度，总结不同方法的优势边界，应对交叉认知理念的融合挑战。

关键词：人工智能，大语言模型，心智模型

----

什么是 “理解”？这个问题长期以来一直吸引着哲学家、认知科学家和教育家们的关注。对 “理解” 的经典研究几乎都是以人类和其他动物为参照。然而，随着大规模人工智能系统，特别是大型语言模型的崛起，AI 社区中出现了热烈的讨论：机器现在是否可以理解自然语言，从而理解语言所描述的物理和社会情境。

这场讨论不仅仅局限在自然科学的范畴；机器理解我们世界的程度和方式决定了我们在多大程度上能够相信 AI 与人类交互任务中的稳健和透明行为能力，包括 AI 驾驶汽车、AI 诊断疾病、AI 照顾老年人、AI 教育儿童等等。同时，当前的讨论展现了一个智能系统进行 “理解” 的关键问题：如何判别统计相关性和因果机制？

尽管 AI 系统在许多具体任务中表现出似乎智能的行为，但直到最近，人工智能研究界依然普遍认为机器无法像人类那样理解它们所处理的数据。

例如：人脸识别软件不理解面部是身体的一部分、面部表情在社交互动中的作用、"面对"不愉快的情境意味着什么，或者做鬼脸的方式方法。同样，语音转文字和机器翻译程序不理解它们处理的语言，自动驾驶系统也不理解驾驶员和行人在规避事故时的微表情和肢体语言。因此，这些 AI 系统常常被认为是脆弱的，缺乏 “理解” 的关键证据是，它们不可预测错误、泛化能力缺乏鲁棒性[1]。

大语言模型真的理解语言吗？

然而，过去几年情况发生了转变，一种新型的 AI 系统在研究界广受欢迎并产生了影响，改变了一些人对机器理解语言的前景和看法。这些系统被称为大型语言模型（LLMs）、大型预训练模型或基础模型 [2]，它们是具有数十亿到数万亿参数（权重）的深度神经网络，被 “预训练” 于数 TB 的巨大自然语言语料库上，包括大量网络快照、在线图书和其他内容。在训练期间，这些网络的任务是预测输入句子中的隐藏部分，这种方法被称为 “自监督学习”。最终的网络是其训练数据中的单词和短语之间相关性的复杂统计模型。

这些模型可以用来生成自然语言，进行特定语言任务的微调 [3]，或进一步训练以更好地匹配 “用户意图”[4]。例如，OpenAI 的著名 GPT-3[5]、更近期的 ChatGPT[6] 和 Google 的 PaLM[7] 这样的 LLMs 能够产生惊人的类人文本和对话；此外，尽管这些模型并没有以推理为目的开展训练，一些研究认为它们具有类人的推理能力 [8]。

LLMs 如何完成这些壮举对于普通人和科学家来说都是个谜。这些网络内部的运作方式大都不透明，即使是构建它们的研究人员对于如此巨大规模的系统也只有些许直观感受。神经科学家 Terrence Sejnowski 这样描述 LLM 的出现：“奇点降临，似天外来客，忽纷沓而来，语四国方言。我们唯一清楚的是，LLMs 不是人类……它们的某些行为看起来是智能的，但如果不是人类的智能，又是什么呢？”[9]

尽管最先进的 LLMs 很令人印象深刻，它们仍然容易出现不像人类的脆弱性和错误。然而，这样的网络缺陷在其参数数量和训练数据集规模扩大时显著改进 [10]，因而一些研究者认为 LLMs（或者其多模态版本）将在足够大的网络和训练数据集下实现人类级别的智能和理解能力，出现了一个 AI 新口号：“规模就是一切”[11, 12]。

上述主张是 AI 学界在 LLMs 讨论中的一个流派。一部分人认为这些网络真正理解了语言，并且能够以一种普遍的方式进行推理（虽然 “尚未” 达到人类水平）。例如，谷歌的 LaMDA 系统通过预先训练文本，再微调对话的方式构造了一个谈吐流畅的对话系统 [13]，某 AI 研究者甚至认为这样的系统 “对大量概念具备真实理解能力”[14]，甚至 “朝着有意识的方向迈进”[15]。

另一位机器语言专家将 LLMs 视为通向一般人类水平 AI 的试金石：“一些乐观研究者认为，我们见证了具有一定普遍智能程度的知识注入系统诞生”[16]。另一些人士认为，LLMs 很可能捕捉到了意义的重要方面，而且其工作方式近似于人类认知的一个引人注目的解释，即意义来源于概念角色。”[17]。反对者被挂上 “AI 否认主义” 标签 [18]。

另一方面，有人认为尽管像 GPT-3 或 LaMDA 这样的大型预训练模型的输出很流利，但仍然不能具备理解能力，因为它们没有世界的经验或思维模式；LLMs 的文本预测训练只是学会了语言的形式，而不是意义 [19-21]。

最近一篇文章认为：“即使从现在开始一直训练到宇宙热寂，单凭语言训练的系统永远也不会逼近人类智能，而且这些系统注定只能拥有肤浅的理解，永远无法逼近我们在思考上的全面性”[22]。还有学者认为，把 “智能”、“智能体” 和 “理解” 等概念套用在 LLMs 身上是不对的，因为 LLMs 更类似于图书馆或百科全书，是在打包人类的知识存储库，而不是智能体 [23]。

例如，人类知道 “挠痒痒” 会让我们笑，是因为我们有身体。LLMs 可以使用 “挠痒痒” 这个词，但它显然从未有过这种感觉。理解挠痒痒不是两个词之间的映射，而是词和感觉之间的映射。

那些持 “LLMs 无法真正理解” 立场的人认为，我们惊讶的不是 LLMs 流畅程度本身，而是流畅程度随模型规模的增长超乎直觉这件事情。任何将理解或意识归因于 LLMs 的人都是 “伊莱扎效应（Eliza effect）” 的受害者 [24]。“伊莱扎效应” 是指我们人类倾向于将理解和代理能力归因于具有即使是微弱的人类语言或行为迹象的机器，得名于 Joseph Weizenbaum 在 1960 年代开发的聊天机器人 “Eliza”，尽管非常简单，仍然欺骗了人们相信它理解了他们 [25]。

2022 年对自然语言处理领域活跃学者的一项调查亦佐证了这场讨论的观点分歧。其中一项调查内容是询问受访者是否同意以下关于 LLMs 是否在原则上理解语言的说法：“一些仅在文本上训练的生成模型（即语言模型），在给定足够的数据和计算资源的情况下，可以在某些非平凡意义上理解自然语言。” 480 人的答案几乎一半（51％）对一半（49％）[26]。

支持者佐证当前 LLMs 具备理解能力的重要依据是模型能力表现：既包括对模型根据提示词生成文本的主观质量判断（尽管这种判断可能容易受到 Eliza 效应的影响），亦包括在用于评估语言理解和推理能力的基准数据集客观评价。例如，评估 LLMs 的两个常用基准数据集是通用语言理解评估（GLUE）[27] 及其后继者 SuperGLUE[28]，它们包括大规模的数据集和任务，如 “文本蕴含”（给定两个句子，第二个句子的意思是否可以从第一个句子推断出来？），“情景含义”（在两个不同的句子中，给定的词语是否有相同的意义？）和逻辑回答等。

OpenAI 的 GPT-3（具有 1750 亿个参数）在这些任务上表现出人意料之外的好 [5]，而 Google 的 PaLM（具有 5400 亿个参数）在这些任务上表现得更好 [7]，能够达到甚至超越人类在相同任务上的表现。

机器理解必须重现人类理解吗？

这些结果对 LLMs 的理解有何启示？从 “泛化语言理解”，“自然语言推理”，“阅读理解” 和 “常识推理” 等术语的选择不难看出，上述基准数据集的测试暗含机器必须重现人类理解方式的前提假设。

但这是 “理解” 必须的吗？并非一定如此。以 “论证推理理解任务” 基准评估为例 [29]，在每个任务示例中，都会给出一个自然语言的 “论据”，以及两个陈述句；任务是确定哪个陈述句与论据一致，如下例所示：

论点：罪犯应该有投票权。一个在 17 岁时偷了一辆车的人不应该被终身剥夺成为完整公民的权利。

推断 A：盗窃汽车是一项重罪。

推断 B：盗窃汽车不是一项重罪。

BERT 在这项基准任务中获得了近似人类的表现 [31]。或许我们能够由此得出结论，即 BERT 可以像人类一样理解自然语言。但一个研究小组发现，在推断语句中出现的某些线索词（例如 “not”）能够辅助模型预测出正确答案。当研究人员变换数据集来避免这些线索词出现时，BERT 的表现性能变得和随机猜测无异。

这是一个明显的依靠捷径学习（shortcut learning）的例子——一个在机器学习中经常被提及的现象，即学习系统通过分析数据集中的伪相关性，而不是通过类人理解（humanlike understanding），来获得在特定基准任务上的良好表现 [32-35]。

通常情况下，这种相关性对于执行相同任务的人类来说表现得并不明显。虽然捷径学习现象在评估语言理解和其他人工智能模型的任务中已经被发现，但仍可能存在很多未被发现的 “捷径” 存在。像谷歌的 LaMDA 和 PaLM 这种拥有千亿参数规模、在近万亿的文本数据上进行训练的预训练语言模型，拥有强大的编码数据相关性的能力。

因此，用于评估人类理解能力的基准任务或许对这类模型评估来说并不适用 [36-38]。对于大规模 LLMs（以及 LLMs 可能的衍生模型）来说，通过复杂的统计相关性计算能够让模型绕开类人理解能力，获得近乎完美的模型表现。

虽然 “类人理解” 一词没有严格的定义，但它本质上并不是基于当下 LLMs 所学习的这类庞大的统计模型；相反，它基于概念——外部类别、情况和事件的内部心智模型，以及人类自身的内部状态和 “自我” 的内部心智模型。对于人类来说，理解语言（以及其他非语言信息）依赖于对语言（或其他信息）表达之外的概念的掌握，并非局限于理解语言符号的统计属性。

事实上，在认知科学领域的过往研究历史中，一直强调对概念本质的理解以及理解力是如何从条理清晰、层次分明且包含潜在因果关系的概念中产生的。这种理解力模型帮助人类对过往知识和经验进行抽象化以做出稳健的预测、概括和类比；或是进行组合推理、反事实推理；或是积极干预现实世界以检验假设；又或是向他人阐述自己所理解的内容。

毫无疑问，尽管有些规模越来越大的 LLMs 零星地表现出近似人类的理解能力，但当前的人工智能系统并不具备这些能力，包括最前沿的 LLMs。有人认为，这种理解能力能够赋予人类纯统计模型无法获得的能力。

尽管大模型展现出了非凡的形式语言能力（formal linguistic competence）——即产生语法流利、类人语言的能力，它仍然缺乏基于概念理解的类人功能语言能力（humanlike functional language abilities）——即在现实世界中正确理解和使用语言的能力。有趣的是，物理学研究中也有类似的现象，即数学技法的成功运用和这种功能理解能力之间的矛盾。

例如，一直以来关于量子力学的一个争议是，它提供了一种有效的计算方法，而没有提供概念性理解。

关于概念的本质理解一直以来是学界争论的主题之一。对于概念在多大程度上是领域特定的和先天的，而不是更通用的和习得的 [55-60]，或者概念在多大程度上是基于具象隐喻的，并通过动态的、基于情境的模拟在大脑中呈现 [64]，又或者概念在何种条件下是由语言 [65–67]、社会学习 [68–70] 和文化支撑的 [71–73]，研究人员在这些方面存在分歧。

尽管存在以上争论，概念——就像前文所述的那样以因果心智模型的形式存在——一直以来被认为是人类认知能力的理解单元。毫无疑问，纵观人类理解能力的发展轨迹，不论是个人理解还是集体理解，都可以抽象为对世界进行高度压缩的、基于因果关系的模型，类似于从托勒密的行星公转理论到开普勒的椭圆轨道理论，再到牛顿根据引力对行星运动的简明和因果关系的解释。

与机器不同的是，人类似乎在科学研究以及日常生活中都有追求这种理解形式的强烈内驱力。我们可以将这种动力描述为需要很少的数据，极简的模型，明确的因果依赖性和强大的机械直觉。

关于 LLMs 理解能力的争论主要集中以下几个方面：

1）这些模型系统的理解能力是否仅仅为一种类别错误？（即，将语言符号之间的联系混淆为符号与物理、社会或心智体验之间的联系）。简而言之，这些模型系统永远无法获得类人的理解能力吗？

或者，相反地，2）这些模型系统（或者它们近期的衍生模型）真的会在缺乏现实世界经验的情况下，创造出对人类理解来说至关重要的大量的基于概念的心智模型吗？如果是的话，增大模型规模是否会创造出更好的概念？

或者，3）如果这些模型系统无法创造这样的概念，那么它们难以想象的庞大的统计相关性系统是否能产生与人类理解功能相当的能力呢？又或者，这是否意味着人类无法达到的新形式的高阶逻辑能力成为可能？从这一角度上看，将这种相关性称为 “伪相关性” 或质疑 “捷径学习” 现象是否仍然合适？将模型系统的行为视为一系列新兴的、非人类的理解活动，而不是 “没有理解能力”，是否行得通？

这些问题已不再局限于抽象的哲学探讨，而是涉及到人工智能系统在人类日常生活中扮演的越来越重要的角色所带来的能力、稳健性、安全性和伦理方面的非常现实的担忧。

虽然各派研究者对于 “LLMs 理解能力” 的争论都有自身的见解，但目前用于获得理解洞察力的基于认知科学的方法不足以回答关于 LLMs 的这类问题。事实上，一些研究人员已经将心理测试应用于 LLMs，这些测试最初是用来评估人类理解和推理机制的。

发现 LLMs 在某些情况下确实在心理理论测试 [14, 75] 中表现出类似人类的反应，以及在推理评估中表现出类似人类的能力和偏好 [76–78]。虽然这种测试被认为是评估人类通用能力的替代性测试，但对人工智能模型系统来说可能并非如此。

一种新兴的理解能力

正如前文所提到的，LLMs 有一种难以解释的能力，可以在训练数据和输入中学习信息符号之间的相关性，并且可以使用这种相关性来解决问题。相比之下，人类似乎应用了反映他们现实世界经验的被压缩的概念。当把为人类设计的心理测试应用于 LLMs 时，其解释结果往往依赖于对人类认知的假设，而这些假设对于模型来说可能根本不正确。

为了取得进展，科学家们需要设计新的基准任务和研究方法，以深入了解不同类型的智能和理解机制，包括我们已经创造的 “异类的、类似思维实体”（exotic, mind-like entities）[79] 的新形式，或许我们正在踏上通往挖掘 “理解” 本质的正确道路上 [80, 81]。

随着关于 LLMs 理解能力的讨论声音越来越多，以及更多有能力的模型系统的出现，这一切似乎都在强调未来有必要加强对于智能科学的研究，以便对人类和机器的更广泛理解概念进行理解。正如神经科学家 Terrence Sejnowski 所指出的，“专家们对 LLMs 智能的分歧表明，我们基于自然智能的传统观念是不够充分的。[9]

” 如果 LLMs 和其他模型成功地利用了强大的统计相关性，也许也可以被认为是一种新兴的 “理解” 能力，一种能够实现非凡的、超人的预测能力。比如 DeepMind 的 AlphaZero 和 AlphaFold 模型系统 [82, 83]，它们似乎分别为国际象棋和蛋白质结构预测领域带来了一种来自 “外星” 的直觉形式 [84, 85]。

因此可以这样说，近年来在人工智能领域出现了具有新兴理解模式的机器，这或许是一个更大的相关概念动物园（zoo of related concepts）中的新物种。随着我们在追求智能本质的过程中所取得的研究进展，这些新兴的理解模式将不断涌现。正如不同的物种适应于不同的环境一样，我们的智能系统也将更好地适应于不同的问题。

依赖大量的历史的编码知识（encoded knowledge）的问题（强调模型性能表现）将继续青睐大规模的统计模型，如 LLMs，而那些依赖有限知识和强大因果机制的问题将更青睐人类智能。未来的挑战是开发出新的研究方法，以详细揭示不同智能形式的理解机制，辨别它们的优势和局限性，并学习如何整合这些不同的认知模式。

参考文献从略

本文作者：Melanie Mitchella, David C. Krakauera，范思雨、张骥翻译，文章来源：集智俱乐部，原文标题：《圣塔菲学者：AI 大语言模型真的理解人类语言吗？》

原文地址：https://www.pnas.org/doi/10.1073/pnas.2215907120

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。