对谈微软 154 页刷屏论文作者：内部版 GPT-4 更惊艳，已展现出 AGI 的特征

Open AI 内部 GPT-4 模型比现在面向大众公开的模型强大得多，GPT-4 完全知道它在做什么且展示了对不同领域的理解和应用能力。

GPT 是否能带领我们通向 AGI (通用人工智能）？如何评估和理解 AI 的能力？大模型范式下，我们如何定义智能？这些问题，至今没有标准的答案。大模型加上 HuggingGPT、AutoGPT 一系列 generative agents（生成式代理）之后，给各个行业甚至整个社会带来什么改变？

本期腾讯科技联合播客《OnBoard!》，邀请到硅谷徐老师、微软亚洲研究院高级研究员谭旭和张弋、AI 公司研发总监红博士，对以上问题进行探讨。核心观点：

①Open AI 内部 GPT-4 模型比现在面向大众公开的模型强大得多。Open AI 为了将模型应用到产品并公之于众，给模型加进了许多关于安全性的微调，避免做出对人类有害的行为。然而，这些微调确实也让 GPT-4 在推理能力和其它各方面的指标下降了不少。

②GPT-4 已经展现出了许多通用人工智能（AGI）的特征。虽然它可能还不完美，但它似乎在告诉我们，我们正在沿着正确的方向前进，终点已经可见。

③当模型输出一个人类认为不够完美的答案时，我们的反馈只是一个简单的奖励或惩罚，实际上并不够精确。我们只是对模型进行了惩罚，但并没有告诉它具体哪里出错了，这也是研究团队最重要的任务之一，就是从基础模型出发来解决幻觉问题。

④当前的模型存在许多错误，而这些错误大多是因为它思考得太快了，它在看到用户打的第一句话甚至第一个词，就开始吐出答案，并没有经过完整的推理过程。如果我们强制让模型慢下来，它会好很多。但除非我们能够大规模修改数据结构，目前尚不知道如何做到这一点。

⑤在接下来的一两年内，全球最大的 2000 家公司可能会真正开始应用 GPT 技术和大型模型。但无论是微调还是其它方法，都需要完整打通公司数据，以实现数据驱动和执行，这是一项困难的任务。此外，合规性和法律等问题需要解决。

⑥于大多数公司而言，特别是传统公司来说，将 GPT 技术应用到业务层面是一个相对复杂和漫长的过程，需要重新构建人工智能的业务流程，这就既需要理解人工智能，又需要理解业务流程。

⑦我们可以将人类智能进行拆解，首先是大脑，语言是区别于其他动物的关键能力之一，现在的语言模型在模拟大脑特别是语言方面的能力做得非常出色。接下来，我们需要整合视觉、听觉、嗅觉、口腔、手和脚以及与世界的互动。沿着这个方向发展，一定会丰富对 AGI 能力的体现。

丨嘉宾介绍

● 硅谷徐老师，硅谷连续创业者、人工智能高管、斯坦福商学院客座讲师

● 谭旭，微软亚洲研究院高级研究员，主要研究方向为生成式人工智能及其在语言/语音/音乐生成中的应用

● 张弋，微软亚洲研究院高级研究员，主要研究方向为通用人工智能的物理、数学

● 红博士，AI 公司研发总监，研究方向：计算机视觉、数据压缩、通用人工智能。

● 主持人：Monica，美元 VC 投资人，前 AWS 硅谷团队 +AI 创业公司打工人，M 小姐研习录 (ID: MissMStudy) 主理人

01 第一视角解读微软刷屏论文：

Sparks of Artificial General Intelligence:

Early experiments with GPT-4

Monica：AGI 通用人工智能是近期关注度特别高的话题，关于这个话题，最近在业界有一篇非常有影响力的论文，张弋所在的微软研究院发表了一篇 150 多页的论文《Sparks of Artificial General Intelligence: Early experiments with GPT-4》（中文：《通用人工智能的火花》），对 GPT-4 的能力做了非常深入的研究，张弋可以给我们简单介绍一下研究背景是怎样的？

张弋：我给大家介绍一下论文研究的背景，从去年的八九月份开始，微软和 OpenAI 开展关于 GPT-4 相关合作，当时微软内部大约有 100 到 200 人参与了这个秘密项目。我们首先拿到了内部 GPT-4 模型，内部版本的模型比现在面向大众公开的模型强大得多。我们的论文是基于那个内部模型进行研究的。我也不太清楚什么时候能对外公开内部版本的模型，但这确实是非常值得期待的事情。

至于为什么内部模型会比外部模型强那么多？我们也不知道全部细节，我们只能猜测，OpenAI 可能为了将这个模型应用到产品并公之于众，于是给模型加进了许多关于安全性的微调 (Fine-tuning)，让它变得更平易近人。

我认为这些微调是必要的，它的目的是使模型变得更友好、避免做出对人类有害的行为。然而，从科学的角度来看，这些微调确实也让 GPT-4 在推理能力和其它各方面的指标下降了不少。将来，一个重要的研究方向是如何更好地 align 这个 model，即在不损失模型其它能力的情况下改进模型的表现。

Monica ：加了这些安全性的微调，模型的推理能力反而下降了，怎么理解这个现象？

张弋：实际上这也并不矛盾。对模型安全性的考量与它的推理能力本身的关联性可能并不大，对于大模型来说，当我们增强它的一个能力的时候，其它能力就会变弱，特别是不太相关的能力。你加强其中一个能力，另一个能力往往会受到影响。这也是学术界目前非常关注的问题之一，即如何微调模型，以达到既提升某个方面的性能，又不降低其它能力。但目前还没有找到很好的解决方法。

回到 ChatGPT 本身，我们团队的大部分成员都是数学家，大家之前可能也研究过 GPT-3，当时我们并没有对这个模型特别着迷，相比之下，我们觉得 GPT-4 看起来更加先进。但我们不确定它是否真正代表了智能。

虽然它可以完成很多任务，但它有可能只是在网上看到了如何完成这些任务的方式，然后记住了。所以当我们问它一些问题时，它可能只是背诵出答案。所以，我们也开始思考这个东西到底是否具备智能，它是否是一个更好的模型。

我们想出了一些任务，主要是通过一些简单的数学题来对模型做测试。一开始，我们存了一些非常 “刁钻” 的问题，一般是那些 GPT-3 肯定无法回答的问题，然后我们基本全部让 GPT-4 尝试回答一遍。

令人震惊的是，GPT-4 几乎完美地解决了我们之前认为人工智能无法解决的问题。

实际上，这些问题并不难，比如一些高中水平的组合数学题。例如，你有一个红色的石头，两个蓝色的石头和三个绿色的石头，那么你可以有多少种组合方式等等。但是对于 GPT-3 来说，它无法理解，比如这两个蓝色的石头，当你拿出来时，实际上它们是同一个石头。它们都是蓝色的，都是石头，让 GPT 理解这个事情就很困难。但是 GPT-4 具备常识和常识推理能力，我们几乎不需要对 Prompt 做太多调整，GPT-4 似乎直接就能正确地回答这个问题。

类似的例子还有很多，我们内部对此也有不同看法。有些人认为这可能是 GPT 在网上遇到过类似问题，而另一些人则认为网上肯定没有这样的问题。后来我们开始越来越多地思考在网上不太可能存在、但可以被解决的奇怪问题，只要模型的推理能力足够强。

后来我们发现这个模型基本上解决了所有问题，最后大家一致同意这个东西确实很厉害，可以说它具备智能。那它到底是否是通用人工智能（AGI）呢？

这个问题值得商榷，因为现在学术界对于 AGI 这个词有些敏感，一般不太能提。但是如果我们从字面上来理解，AGI（Artificial general intelligence）确实是人工智能，而且是非常强大的。我们拿到的 GPT-4 版本只是一个文字版，后来 OpenAI 在他们的报告中提到，他们的 GPT-4 可以处理图像输入，但我们所使用的只是纯文字版。然而，我们发现纯文字版的 GPT-4 竟然能够 “看见”，也就是说，如果你让它画一个东西，它并不一定画得很完美，但它可以画出来。

特别是如果要求它在某些地方加上细节，比如一个著名的例子是，让它画一只 Unicorn（独角兽），小朋友很喜欢。它实际上画出来了，这让我们非常震惊。

GPT-4 从来没有亲眼见过独角兽，它可能读到过独角兽的描述，可能读到过类似的学术代码，然后它就可以尝试着画出来。但我们还不满意，所以我们稍作修改，去掉了画头和画角的代码部分，然后让它把头上的角重新加回去，这是为了测试这个模型是否真正理解它正在画什么，是否真正理解独角兽应该有一只角，而且这只角应该长在头上，否则它只是一条蟒蛇。

结果发现，GPT-4 完全知道它在做什么。它不仅仅画出了这个东西，而且完全理解我每一行代码、每一个画的部分代表着什么。

Monica：OpenAI 在 GPT-4 那篇论文中也提到让 GPT-4 解读图片一类的测试，在你们获得到的 GPT 版本上有测试过吗？

张弋：有，但形式是不一样的，但是你没办法把图输入给它，可以通过代码生成图像或使用字符来解读图像。对于一些像用字符画描绘的艺术品，它也可以读，虽然它的准确率可能不是很高，但至少能够理解一些几何关系和视觉概念。

这确实令人震惊，因为它展示了对不同领域的理解和应用能力。这也符合 AGI 的定义，它是一种人工的通用智能，能够处理图片、文本、音乐，甚至能够理解人类的情感和心理。它在许多方面都表现得非常出色。

AGI 是否智能取决于我们对智能的定义。这个定义一直以来都很模糊，甚至在哲学家和研究人工智能领域的专家之中也一直存在争议。但现在，我们有了一个实际可用的模型，每天都能与之互动，它展示出了高级推理能力，与人类非常相似。我们需要认真思考如何定义智能。

我们认为这个模型已经展现出了许多 AGI 的特征。虽然它可能还不完美，但它似乎在告诉我们，我们正在沿着正确的方向前进，终点已经可见。许多人，包括我自己两年前看到 GPT-3 时的想法，可能认为我们一辈子都无法见证 AGI 的到来，甚至在 50 年内也无法看到今天的 GPT-4。但事实证明，两年内就发生了很大的变化，而且这只是个开始，发展速度只会越来越快。

Monica：你在网上看到的关于这篇论文最常见的不一样的观点，或者说你觉得存在一些误解的点在哪？

张弋：有些读者可能没有花太多时间仔细阅读论文，所以他们可能会误以为我们所说的 GPT-4 是他们每天使用的那个版本。实际上，这两个模型是非常不同的，它们在各种指标上也存在很大的差异。我自己负责评估模型的代码编写能力，我们当时的评估结果非常令人震惊。

在 LeetCode 的测试中，模型的表现远远超过了人类的平均水平。我认为这个水平绝对可以轻松通过大型公司的各种面试，例如让 GPT 写代码的电话面试段落。

然而，公开版本的 GPT-4 在代码编写能力方面下降了很多。许多推特博主们收集了一些数据并测试了模型，发现它可以正确地回答之前的问题，但对于新题目就无法处理了。这表明该模型只是过度拟合了原来的训练集，而并不真正理解如何编写代码，当遇到新问题时就无法应对，无法举一反三。

在我们测试模型时，我们都非常关注模型之前是否见过类似的数据。具体到代码编写评估，我们抓取了 Niko 上最近的 100 道题目，Deca 发布了一个每周竞赛，每周发布 3~4 道题目作为本周的竞赛题，然后将其添加到题库中，所以每道题目都可以追溯到发布到网上的日期。当时我们用互联网上大部分的题目进行了测试，并使用 Google 搜索进行了一番努力，但以我们的能力，并没有找到类似的解答。我们非常自信地使用了这个测试集，因为它在互联网上是不存在的。

更广义地说，这也涉及到我们如何评价和测试模型的问题。以前的基准测试集都是在已有的数据集上进行测试，模型好不好只需要运行一次，并根据得分高低判断。但是对于这个模型来说，它在训练过程中接触到的数据非常庞大，它已经涵盖了整个互联网上的所有数据。如果你再去寻找已经存在的数据集进行测试，基本上是不太可能真实反映其能力的。

所以这也是一个非常大的挑战，很多人可能没有意识到，相对于传统的论文研究，他们只需要在现有的基准测试上运行一次并取得高分。但他们也没有宣称这个模型具有很强的泛化能力，因为它很可能只是记住了答案。

我们在每个方向上都进行了手动设计的测试示例，尽量确保这些示例在我们已知的范围内，而模型没有在互联网上找到。

谭旭：我也可以继续谈一下对于张弋的 Sparks 的一些感受，特别是它在视觉空间方面的理解能力，比如方位和形状。令我震撼的是，即使在这个模型没有接触过任何视觉数据的情况下，它仍然能够进行出色地推理。

我猜测的一个原因可能是，现在 GPT 的训练数据已经不再局限于我们之前所理解的纯文本数据，而是包含了互联网上以书面形式展示的各种数据形式。例如，代码是其中非常基础的一部分，而且模型可能在互联网上见过大量以文本或代码形式展示的图像数据。

它对于空间位置和形状的理解可能与文本可视化代码以及其文本注释之间存在一些关联。这使得它能够通过文字和代码建立连接，因为文字本身描述了空间形状的几何概念，所以它能够直接通过文字指令生成相应的代码来完成任务，并且可以与用户进行交互。

举个例子，如果你说形状有问题，或者你想改变一个形状，它可以通过代码和形状的关联性生成正确的指令来修改相应的形状。

此外，关于音乐生成，因为我自己也从事 AI 音乐生成相关的工作，所以当我看到 GPT-4 的功能时，我感到非常震惊。当然，现在 GPT-4 的音乐生成能力肯定无法与我们专业音乐生成模型相比，无论是从质量、作曲技巧还是创造力和丰富性来看，都有差距。但它仍然让我们吃惊，因为 GPT-4 并没有专门为音乐生成而设计，它只是将互联网上所有可见的数据进行训练，然后它就能够与文本进行交互式的音乐生成或改进。换句话说，现在的 GPT 是一个非常全面和通用的超级百科全书。

尽管它在专业领域可能不如各个专家模型，但它的潜力应该是非常大的。

Monica：实验版本的 GPT-4 其实并没有加入多模态的训练数据，你们内部有没有讨论过为什么它与 GPT-3、GPT3.5 有这么大的差异？

张弋：关于模型的具体细节和训练方法，我们无法得知，只能进行猜测。

通过与 OpenAI 的人员交流，当然有些细节他们无法透露给我们，他们认为使用强化学习来对齐模型是非常重要的，而不仅仅是为了安全性，而且在推理方面也可以使用强化学习。

你可以人工给模型提供反馈，例如告诉它算法题做对了，代码可以运行了，然后给予它奖励，模型可以通过这种方式进行训练。他们在这方面进行了许多尝试，告诉我们这些尝试直接导致了 GPT-4 和 GPT-3.5 之间的差距。

最直接的差距在于，虽然我们不知道 GPT-4 的参数具体有多少，但肯定比 GPT-3.5 要大很多个数量级。实际上 GPT-3.5 本身并不是很大，GPT-3.5 好像是公开信息，它有少于 100 个亿的参数。

GPT-3.5 应该比 GPT-3 还要小，而 GPT-4 肯定比 GPT-3 要大至少 1 到 2 个数量级，甚至可能达到 10 个数量级。这只是我们的猜测，但仅限于猜测。

02如何解决大模型的 Hallucination（幻觉）？

Monica：其实我还看到这个论文下面，大家也很经常会提到有一些 limitation 就是一些限制，你们如何看待 GPT-4 的限制？

张弋：我们主要关注它的推理能力，但它明显有一个不足之处是无法进行规划。例如，当 GPT-4 开始执行一个任务时，它不知道如何开始。然而，作为人类，我们可以先试错，比如尝试向前走几步，如果行不通就退回来。但这个模型没有橡皮擦可以擦除之前的步骤，一旦它把字写下来，就存在于它的输入中了。

我们通常会尝试多种方法，大部分都不会成功，直到最后找到一个成功的方法。然后我们会写一篇论文，但论文中只会说我知道这个方法成功了，而不会提到之前尝试了 100 种方法，这 100 种方法都在哪里失败了。

这个模型很容易在面对数学问题时，先给你答案，而不给出任何步骤。然后它会假装写很多步骤，以证明这个答案是正确的。但事实上，如果它一开始就给出了答案，那么这个答案几乎肯定是错误的，99% 都是错的。然后它会编造很多看似正确的步骤来证明这个答案是正确的。

很明显，这个模型没有像人类一样一步一步地进行数学问题的解决。

硅谷徐老师：通过调用 GPT API 的方式是否可以实现试错的过程呢？例如，当我调用 API 时，我可以给出不同的提示（Prompt），让模型按照不同的途径进行尝试。这意味着试错的过程不是直接放在调用 GPT API 内部完成，而是在外部进行处理，以确保最终能够得到一个解决方案。你认为这种方法可行吗？

张弋：这个方法是可行的，这也是陶哲轩之前所说的。作为一位顶级数学家，他表示他已经开始使用 ChatGPT 在他的日常数学研究中寻找灵感。

我也有一些亲身经历的例子。我们曾经尝试测试 GPT 的数学能力，一开始我们想直接挑战最困难的国际数学竞赛（IMO）题目，但我们知道让 GPT 来解题肯定会得到错误的答案。然而，我发现它给出的思路非常有帮助。在这种情况下，我自己并没有接受过训练，但它能够帮助我。例如，我让它先解答去年的一到两道题，然后我顺着它的思路继续思考。当我发现它在某个地方犯错时，我就会摒弃它后面的部分。

我会思考如果它没有犯错，接下来我该怎么做？然后我沿着它一开始给出的思路继续写下去，最终发现我能够解答出题目。但如果没有 GPT 来帮助我，我肯定无法从头开始解这道题，甚至一开始我都不知道要使用哪些工具、哪个定理适用于这道题，属于哪个领域的问题等等。这个例子可能是 GPT 和人一起进行试错的一个示例，我认为这是非常有希望的方法。

Monica：与 ChatGPT 相比，微软的搜索引擎 Bing 有一个很大的不同之处，Bing 会给出原始来源的链接，也就是网页链接。这种方式在一定程度上解决了幻觉问题。但是实际上，我们都可以感受到，Bing 在推理和各方面的能力上与 GPT-4 相比还有很大差距，这是否算取舍？

张弋：实际上，在我们团队撰写论文的期间，我们的重点工作之一是撰写一半的 Bing 的内容。但我们测试的问题在线上发布后的 24 小时内，被人们在推特上破解了。

然后你可以看到，在这个问题中，GPT-4 只是决定何时调用更先进的 API 进行查询，而人类则负责去搜索并扩展、返回搜索结果给它。

我们自己有一个非常有趣的例子，比如在网络上搜索某个东欧小国人口最多的十个城市是哪些，你可以找到网页，网页上确实列出了十个城市。但由于我们限制在自己使用的搜索 API 中，我们返回给 GPT 的结果只有前五个城市。GPT 看到前五个城市后，它觉得够了，然后就把前五个复述了一遍，但从第六个开始，GPT 就开始自己想象了。不过想象的结果也差不多，大致正确。

相当于 GPT 了解了关于这个问题一半的事实，对于剩下的一半它可能有点模糊的记忆，实际上和人类非常相似，人类说话可能大约 90% 是非常确定的事实，然后再加上 10% 的虚构，我们认为这可能需要在数据或模型训练的层面上解决，而不仅仅是在代码层面上解决。

谭旭：人类在学习或认知知识时通常有四个经典阶段：第一阶段是不知道自己不知道，第二阶段是知道自己不知道，然后要知道自己知道，最后可能是不知道自己知道已经领悟了。实际上，现在的 GPT-4 估计仍处于最早的那个阶段，不知道自己不知道，所以它会凭空生成或者在推理中逐步解码，但有没有什么机制让它能够知道自己不知道呢？

如果我基于现有知识，对自己生成的内容没有把握，我是不会去说的，这是一个很好的机制。但目前的模型实际上对于自己预测错误的东西非常有自信，就像一本正经地胡说八道，他往往对于预测错误的东西也有很高的自信度，所以从单纯模型自身的角度来看，很难让它知道哪些是错误的。所以还需要借鉴人类的学习过程，比如孩子可能什么都不懂，或者懂的时候自己并不知道，还需要获得更多的反馈。

目前 GPT-4 的训练可能主要是基于教科书知识，而这只占了人类学习知识过程的一小部分，人类的学习更多发生在家庭、学校和社会互动中，会通过与他人的互动获得很多反馈，逐渐走向 “自己不知道自己不知道，让自己知道自己不知道” 的过程。但这可能需要涉及一些新的模型训练机制，例如用强化学习来解决这些问题。

硅谷徐老师：确实，训练的一部分是让模型自身能力提高，让它能够意识到自己的不确定性或者其他方面的改进。另一部分是通过整个解决方案来提高。你可以从 GPT 等地方像刨冰一样摄取更多的信息，或者查看网上是否有其他人提到了类似的内容。

人类经常会进行内训，比如经常有人在一些渠道传播谣言或虚假消息。当我看到这样的内容时，我会进行搜索，看看网上是否有其他人提到了类似的事情。如果网上非常安静，没有人提到过，那十有八九就是谣言或者造谣。但如果全网都在讨论某个人发生了什么事情，某个人去世了，那我就知道这是一个相当重要的新闻。

所以我认为训练机制一方面依靠模型本身的改进，另一方面依靠整个解决方案的提高。

红博士：各种外部的信息来源也是获取信息的手段，但从根本上来说，解决方案还是要从模型本身入手。

我来举个例子，从 GPT-3 到 GPT-4，幻觉现象明显减少了很多。这可能有不同的原因，第一个可能是模型的基本能力大大提高了，在训练阶段就具备了较强的能力。另外，新的技术和方法也有助于 AI 自己进行对齐和优化，这些手段都有提升的空间。

除此之外，在我们目前的训练过程中还存在一个较大的问题。举个例子，我们回顾一下 RLFH 的过程，第一步是基于人工标注的数据进行监督训练，第二步我们会训练一个真实的模型，比较两个答案的好坏，然后在第三步我们用 RLFH 对模型进行训练。

但是当模型输出一个人类认为不够完美的答案时，我们的反馈只是一个简单的奖励或惩罚，实际上并不够精确。我们只是对模型进行了惩罚，但并没有告诉它具体哪里出错了。在方法上可能还有很多可以探索和挖掘的地方。我认为这也是研究团队最重要的任务之一，就是从基础模型出发来解决幻觉问题。

03大模型走向 AGI，面临哪些挑战？

Monica：要最终实现 AGI 或者更强的智能，还有哪些限制因素？

谭旭：我们在前面提到了一些 AGI 或者 GPT-4 的优点，但我们也需要从另一个角度来看待这个问题，例如现在 GPT 的一些方法论以及它达到智能的途径。

大家都知道《思考，快与慢》这本书提到过 “系统一” 和 “系统二” 的概念，现在的模型更多的是对数据进行频率统计，并进行 Python 的映射，更像是一个快思考的方式，类似于系统一的方式来解决问题，其中并没有非常强的或完整的推理过程。

当然，现在也有一些机制，比如"share of thought"（思想共享）或类似的问题机制，强制机器进行慢思考，并将中间步骤都呈现出来。但我认为从本质上来说，现在的模型还在为数据对未来的推理、计划或认知的逻辑方面寻找更好的技术方法，这个问题还不是非常清楚。

对于这个问题，我们也需要进行深入思考，像 GPT 这样的强大语言模型是否是通向 AGI 的最佳途径。

张弋：当前的模型存在许多错误，而这些错误大多是因为它思考得太快了，它在看到用户打的第一句话甚至第一个词，就开始吐出答案，并没有经过完整的推理过程，这显然是错误的。如果我们强制让模型慢下来，它会好很多。但是，问题在于训练数据已经以这种方式建立起来了，就想很多文章一样，它们通常会先告诉你结论，这样才能吸引其他人继续往下阅读。除非我们能够大规模修改数据结构，才可能让它慢一些，但我们目前不知道如何做到这一点。

此外，我个人认为还有一个必须解决的限制是真正的多模态。这意味着模型不仅能够处理文本，还能够理解图像。虽然一些人声称现在的 GPT 版本已经能够处理图像了，但我认为理解图像这个任务应该从预训练阶段就开始考虑。

比如对一个孩子来说，通过视觉收集到的信息是他成长过程中最重要的信息之一，再比如一些盲人孩子需要接受特殊训练才能赶上正常孩子的智力发育水平。

具体来说，当我们解数学题时，画出图形可以给我们更直观的感觉，帮助我们解题。这也适用于编程，例如面试编写代码时，最好是边写边画在纸上。所以，我认为最好的情况是，在 GPT-4 或 GPT-3.5 已经使用完全网所有文字信息的情况下，也能够充分利用全网的图像数据。

最大的人类数据库就是 YouTube 上的视频，YouTube 拥有很多高质量视频，比如教授编程、基础数学或关于人生思考的视频。但视频数据庞大且昂贵，可能需要具备承载成千上万个电影的容量，而文本数据只需几十至百多 TB，我们必须找到如何充分利用高质量的视频视觉信息，让它能够更好地帮助模型推理。

然而，目前似乎还没有明显的解决方法。

04火爆全网的几款 GPT 应用对比：HuggingGPT、AutoGPT 和 ChatGPT Plugin

Monica：HuggingGPT 已火爆全网，它的研究背景、运行机制与 AutoGPT 和 ChatGPT Plugin 有何异同？

谭旭：目前语言模型在解决复杂任务方面的能力还不够强，HuggingGPT 利用语言模型作为一个调度中心，将用户的请求分解为多个不同的子任务。在用户提出复杂任务的情况下，他们将任务拆分后，调用专家模型来分别执行这些子任务，并将结果汇总整理，最后返回给用户。

这种方式可以看作是将一个语言模型作为大脑系统，而各个专家模型负责处理各自的子任务，形成一个复杂的人工智能解决方案。

通常在学术界或者当前开发的系统中，它们更多面向单个任务，比如图像识别、文本生成、检测或语音合成等。然而，我们实际需要的能力往往是解决复杂的日常任务链条的能力，更加贴近用户的实际需求。

举个简单的例子，比如我想输入一张图片让 AI 生成，我描述了这个人在沙发上阅读一本书的动作和姿态。但是 AI 可能会将其解读为这个人在骑滑板或做其他的事情。同时，我们可能还需要用声音来描述这张生成的图片，它就是一些典型的复杂 AI 任务的复合，如果我们将这个复杂任务拆解，可能需要使用参考图片进行图像检测、定位，并调用 AI 生成模型生成图片，之后再使用文字描述模型对图片进行描述，最后使用 TTS 模型合成语音。当然，这只是一个我们容易理解的 AI 任务的例子，实际上还有许多复杂的场景。只要我们的语言模型足够强大，它可以将复杂的用户需求拆解成 AI 可实现的子任务的方式。

硅谷徐老师：跟现在另外一个比较红火的 AutoGPT 比起来，它们各有哪些擅长点和不同点？

谭旭：我觉得它们的思想可能有一些区别。AutoGPT 更多围绕着语言模型为中心进行工作，它主要基于 GPT-4，并通过构建 Prompt，让 GPT-4 不断迭代调用，完成一些复杂的功能。AutoGPT 诞生之初的思想是用 GPT-4 做更多的商业决策、帮助用户去赚钱。它可能具备几个主要功能，比如访问互联网搜集信息，以及管理你的历史角色或对话记录。

最后生成的结果可以通过文件存储或通过 GPT 进行总结。它更偏向以 GPT-4 为核心构建起来的系统，让 GPT-4 自己能够启动，它负责调度决策或整合具体执行任务，将其交给更擅长的专家模型处理。这些专家模型可能是语言模型本身，也可能是其他更广泛的模型。未来的目标是形成一个协调的系统，以协同完成复杂的 AI 任务。

可以说 AutoGPT 可能面向的是一些更广泛的任务场景，而 HuggingGPT 更强调解决一些复杂的 AI 任务和更专业的问题。

硅谷徐老师：我们需要不同领域的 foundation modle（基础模型）吗？

谭旭：如果我们选择一个由一个大型语言模型充当大脑，并将每个领域的专家模型作为具体执行角色的系统，我认为在这种情况下，我们对于每个领域需要关注的是语言模型在决策调度和任务拆解方面的能力。我相信每个领域的专家模型本身应该没有太大问题，因为现在每个领域都有着经过深入研究的模型。

然而，对于大型语言模型本身来说，它是否能够在每个领域都有良好的泛化能力，是否能够适应不同领域的需求，这取决于我们的服务器能力是否足够强大。目前，我们看到的一些现象可能并不完全令人满意，在某些领域，对于任务的需求拆解、调度和执行等方面的能力可能并不够强大。

这可能涉及到是否需要对每个领域进行定制化的大型语言模型，作为大脑的能力。也许并不需要完全从头开始训练语言模型，而是可以使用现有的大型语言模型，并通过微调或迁移学习的方式使其更适应特定领域中涉及的任务、需求理解、任务拆解和规划执行等方面的要求。

张弋：目前最大的瓶颈似乎在于如何让训练完成的模型既能学习到新知识，又不忘记之前学到的内容。这对学术界来说也是一个未知之数。当你需要模型具备强大的推理能力时，会发现当前的方法并不是最佳选择。

然而，我个人认为这只是一个技术层面上的问题，不是本质上的难题，我认为并不需要为各个领域都建立一个基础模型。

但我所考虑的是从成本和商业角度来看。虽然我们不知道 GPT 这样的大型模型具体花费了多少资金，但我猜测训练这个模型可能需要数十亿美元的投资，当时微软进行了资金注入，这是一个巨大的投资，大多数公司可能无法负担得起。

而且这也是一项高风险的投资。目前只有 OpenAI 这家公司取得了如此惊人的成就，其他公司的模型似乎还有差距，甚至现在训练这样大型模型都已经达到了地球资源是否足够的程度。也就是说，GPT 可能是建立在像英伟达这样的平台上的一种技术。即使微软在这方面投入了很大的资源，似乎仍然无法满足地球上所有的应用需求。

考虑到资源和资金限制，很难支持每个领域都有一个大型模型。因此，我们目前仍然在尽力将现有的模型发展得更好。

硅谷徐老师：HuggingGPT 和 AutoGPT 技术成熟了吗？为什么需要专家生态？

谭旭：要推进这样的系统，我们可以从两个角度入手。

首先是作为大型语言模型，它需要提升对任务理解、调度和规划的能力，需要在各个领域都能表现出色。

第二是建立专家模型的生态系统。现在我们看到，HuggingGPT 推出后出现了很多奇特的需求，其实这些需求并不奇怪，只是之前不常见而已。这些需求一直存在，只是被忽视或压抑了。

现在释放出来的需求需要复杂的模型来支持。我们需要在不同领域中支持足够多的模型来处理各种事情。建立一个完善的生态系统可能对这个系统的成功推进至关重要。

另外，我还想谈谈任务边界的问题。因为大型语言模型本身也能处理一些相关任务，并且可以进行调度，所以有点像既当裁判又当运动员。

我们需要明确大型语言模型的边界，即哪些任务应该由语言模型自己完成，哪些任务必须交给专家模型来处理。这里可能需要有一些指导或定义，以确定哪些任务应该放在一个模型中，以及从经济的角度考虑，哪些任务需要拆分并交给专家们来处理，让他们专注于专业的事务。

微软可能提供了一些基础的办公软件或底层软件，但许多软件还是由开发者来完成。如果我们能够定义好这个生态系统的链条，可能会更容易地推动这个事情。我认为目前像 OpenAI 的 GPT 还处于初期阶段。

Monica：为什么说 ChatGPT Plugin 的本质是 OpenAI 在收集数据？

红博士：Agent 这个概念在智能研究中非常通用，并且在应用和互联网的角度来看，我们可以将其视为使用大型语言模型和调用各种 API 的方式。无论是 AutoGPT、HuggingGPT 还是 OpenAI 的插件，它们都使用了大型语言模型，并调用各种模型或成熟的外部 API，这些可以被视为 API 的一种。从 OpenAI 的 Plugin 设计中，我们可以看到很多有趣的东西。在分析之前，我们要了解一个背景，那就是 OpenAI 最关心的是 AGI（人工通用智能），而不仅仅是收益、生态系统或盈利。当我们有了这个背景后，我们再来看待语言模型的使用，就会发现新的东西。

举个例子，我们刚才讨论到，当前的 GPT 在进行规划时，并不能总是确定应该何时调用哪个 API。目前的做法是让用户指定要使用哪些插件，并告诉 GPT 自己的任务，然后 GPT 会据此进行处理。我们可以猜测，这样的做法实际上是在收集数据，让人类帮助标注这些任务的执行情况。

当我们想完成某个任务时，我们需要调用哪些 API？完成任务后，是否获得了所需的结果？这些数据非常宝贵，对于 GPT 未来的升级和改进是至关重要的。

更进一步，API 不仅仅局限于几十个或几百个外部的 API，还可以包括本地软件，每个应用程序也可以看作是调用操作系统的各种函数接口的 API，甚至可以包括各种硬件，比如传感器（如温度传感器、激光雷达传感器、视觉传感器）以及机器人和机械臂等等。这些东西都可以通过 API 与大脑进行连接。因此，这是一个非常本质的问题，即通用智能的能力，在于它能够在尽可能多的环境中成功执行任务，它能够在越多的环境中生存，就能够进一步拓展，这是智能的本质。

当 OpenAI 构建生态系统时，他们已经清楚地认识到通用智能的重要性。

张弋：我之前看到一个有趣的想法，大家可以共同开源构建模型。这个想法是说模型的构建不是由单一的公司或个人来完成，而是每个人可以贡献一个部分，比如在某个领域上拥有专业知识的模型，然后需要一个中心机构，可能是 OpenAI 或其他公司，来处理如何将所有的模型结合起来，以实现 1+1 大于 2 的效果。

我们猜测 GPT-4 或 GPT-3.5 本身就在使用一种叫做"Mix Your Expert"的技术，它内部有许多路径，当遇到不同的输入时，它会调用模型中不同的部分来处理。这种方法可以方便地将看起来不相关的专家模型联合到一个模型中。

所以在未来，模型的构建可能不再由某家公司开发或者某个人开发，而是如果我需要一个具有某种功能的模型，我可以自己提供一个专家模型，就像我需要一个能唱饶舌歌的模型一样。

这就像一个软件包，它具有某些功能，但缺少一个功能，我非常需要这个功能，所以我可以 fork 这个软件包，然后自己添加这个功能。我甚至可以要求他们将我的新功能快速集成到主分支中，就像要求他们给我的电脑加装一个更快的处理器一样。未来模型很有可能演变成这样，这样的模型迭代速度会越来越快，可以将小型模型添加到大型模型中，通过连接的方式。这与传统的翻译和推理方式不同，你是在改变模型本身。

这不仅仅是改变模型的参数，甚至价格也在改变。实际上，我们一直在说"finding"这件事很困难，它可能会导致之前的质量下降。现在我们发现目前最好的方法是单独训练一个专家模型，然后将其添加到现有的模型中。尽管问题还没有完全解决，但至少说明单独添加一个专家模型是可行的。

05中国的大模型公司如何追赶 OpenAI?

Monica：中国的大模型公司如何追赶 OpenAI?

红博士：我们可以看一下美国的几家公司，DeepMind、OpenAI 和 Facebook AI Research（FAIR），DeepMind 团队来自于 OpenAI，所以 DeepMind 和 OpenAI 的路线非常接近，但是也存在一些差异。比如，DeepMind 更注重与强化学习相关的研究，并且在生命科学领域也有一些工作，比如 AlphaFold。DeepMind 并没有投入太多精力在单一模型上，但自从 GPT-3 发布之后，我们注意到 DeepMind 也开始加大在这个方向上的投入。

有一些知名教授们也持有自己的路线图，试图尝试用一些与 OpenAI 不同的做法取得成功。即使在工业界，也有人想要探索与 GPT 不同的路线，比如像 AlphaZero 这样的路线图能否实现，还有一些人会想要一步到位直接进行"grounding".例如，利用大规模智能体（如机器人）在现实世界中实现智能控制等。

但最明确的路线还是 OpenAI 的方法。有两个因素，首先，OpenAI 已经在许多 API 路线中取得了成功；其次，大模型领域的一些基础已经准备好了，无论是理论还是技术，甚至芯片等等。

所以，如果我们以构建 API 为目标来看待这个问题，我认为大部分宝还是要压在 GPT 的路线上。这是基于形式上的分析，当然这是我的判断，我没有看到特别大的障碍或技术上的破绽，我认为这条路可以继续走得更远。

我可以举一些例子来说明可能的方向。比如，像目前 OpenAI 的 GPT 已经达到了 32k，但显然人们希望能够实现更大规模的模型。但以现有的技术，如果想要增强 GPT 的长度，内存是一个巨大的挑战，计算复杂度也很高。

除了长度之外，还需要一些算法层面的突破。在集成电路的层面上，HBM（High Bandwidth Memory）技术还有很长的路要走。这只是关于长度的例子，当然还有很多其他的方向。

06 全球 TOP 2000 公司如何学习使用 GPT？

Monica：AI 技术应用落地的现状如何？有什么机会和挑战？

硅谷徐老师：全球不仅业内人士，业外人士也在关注 ChatGPT，在接下来的一两年内，全球最大的 2000 家公司可能会真正开始应用 GPT 技术和大型模型。

对于这 2000 家公司来说，有几种方式可以应用 GPT 技术和大型模型。一种方式是购买第三方服务，如 Jasper 或 Midjourney，利用这些服务背后的人工智能模型来提高生产效率。另一种方式是将大型模型的概念和技术引入公司内部。然而，并不是所有公司都能轻易实现这一点。每个公司的 CEO 都在思考这个问题，但实际上将其落实并不容易，因为仅仅依靠 GPT 无法告诉公司下一步发展应该如何，还需要微调和大量数据的支持。

无论是微调还是其他方法，都需要完整打通公司数据，以实现数据驱动和执行。这是一个艰巨的任务，我个人观察到很多公司都在努力尝试，包括我自己最近也换了公司，与很多大公司都有接触，这是一项困难的任务。

除了上述问题，还有其他痛点需要解决。例如，虽然 GPT 现在能够写文章，但财富 500 的大多数公司并不会让机器来编写代码，因为合规性和法律问题是值得关注的，大公司需要进行文化上的改变，数据打通需要付出大量努力。

综上所述，对于全球最大的 1000-2000 家公司来说，采用 GPT 技术和大型模型仍然是一项长期而复杂的任务。然而，最令人兴奋的是那些原生的、以大语言模型为核心的公司。这些公司是新时代的产物，它们有可能颠覆很多现有的公司。在过去，财富 500 的公司每 20-30 年就会有一次轮换，但在人工智能和大型模型时代，轮换的速度可能会更快。在未来的 15 年内，绝大多数我们熟知的财富 500 的公司可能不再在榜单上，但原生的大型模型公司可能具备更快的执行能力。

红博士：我同意徐老师刚才提到的观点。

尽管人们都在讨论 GPT 等技术，但实际上在我们周围的人和企业中，真正将其应用于日常工作和生活的还比较少。我认识一些科技公司和人工智能公司的 CEO，他们已经在自己的公司中主动推广这些技术。现在有了 GPT 和 Copilot 等工具，但对于大多数公司，特别是传统公司来说，这仍然是一个相对复杂和漫长的过程，需要考虑很多因素。这有点像 20 年前大家都在进行所谓的信息化进程一样。

现在有了人工智能，你还需要重新构建人工智能的业务流程，这就既需要理解人工智能，又需要理解业务流程。因此，在这个时候，需要存在一个施工队的角色。施工队是指既能理解人工智能，又愿意深入到每一个复杂的业务流程中去思考，如何将类似于 GPT 或更复杂的 GPT 技术结合各种模型和 API 的技术，打造成一个解决方案，来帮助互联网企业或传统企业完成人工智能的业务流程重构。

我认为现在正是一个缺位的机会，需要专门擅长并愿意深入企业中进行这项工作的人，比如在企业服务领域，下沉到企业中实施还是相当困难的，尤其在中国，定制化和私有化的需求普遍存在。

从技术角度来看，在开源模型的基础上进行垂直领域的调优，对于以往从事人工智能企业服务的公司来说，技术门槛和研发成本并不高。其中最大的风险应该是通用模型在各个行业场景中性能的迅速提升，比如我们看到从 GPT-3.5 到 GPT-4 的进步，以及在法律和医疗等领域，GPT-4 直接超越了以前所有的专用模型。

当然，话虽如此，如果拥有足够强大的数据壁垒，企业仍然会保持定制化模型的优势，并且具备相当长时间的竞争优势。只是市场可能逐步被侵蚀，最终剩下的差异化优势将是定制化和根据业务流程重构过程进行的私有化。

张弋：我认为可能需要革命性地提升底层的计算平台或基础设施才能实现这一点。现在虽然大家都在谈论 GPT-4，但实际上很少有人在使用。对于普通用户来说，每分钟只能进行 25 次推理的限制，导致即使这个模型非常强大，也无法在日常生活中被广泛应用。

在微软，我们的 GPU 资源已经非常紧张，为了支持包括 OpenAI、GPT 模型等的推理，甚至影响到了其他部门的工作。此外，如何在市场上购买更多的 A 版或新的 H 版卡也是一个问题，现在这些东西几乎完全由 NVIDIA 一家公司控制，而 NVIDIA 又依赖于台积电、贝斯当、斯迈尔等公司。提升产能非常困难，不仅仅是有钱就能买到。如果我们想要广泛应用这个模型，我们必须使其更小、更快、更便宜。

现在已经到了整个地球都无法提供足够的 A100 卡以供全球人类使用的奇怪场景。一年前没有人会想到这一点。我之前听说微软在建设新的数据中心时，甚至在考虑将其放在美国的哪个州，因为大多数州的电网无法支持如此强大的能源需求。

现在已经涉及到人类工程能力的问题，希望能够尽快解决这些问题，例如不使用 GPU 的方法，如果模型已经优化得非常好，我们能否直接使用特定的硬件（如 APU）而无需改变模型？我认为在硬件层面可能会出现一波新的明星，专门为 Transformer 模型提供支持。

这将有助于提供更高效的模型服务，而无需依赖 GPU。我认为这个领域有很大的潜力，因为目前市场上只有 NVIDIA 一家公司占据主导地位，虽然 AMD 也有一些份额，但相对较少。

Monica：AI 应用创业有哪些方向？为什么说要关注 mission impossible (不可能的任务）？

硅谷徐老师：如果我知道了，明天自己就会开始去做了。我个人的想法是，对于我们能够看到的应用，比如在线购物、订餐外卖等，虽然 AI 可以让这些事情更加方便，但我不确定仅凭这些应用来提高效率是否足够。我比较乐观，我认为 AI 所带来的变革不仅仅是提升这些应用的效率，更重要的是，AI 可以改变一些过去被认为是不可能实现或者变化缓慢的事情。

AI 可以应用于 IT 领域之外的各个领域，无论是医疗、机械工程还是其他领域，都可以帮助它们实现一些改变。

张弋：特别是在法律领域，我发现天然存在着高壁垒但效率很低的情况。法律公司通常雇佣很多人，但实际上他们所处理的案件很少，而且律师费用也很高。

我认为 GPT 可以在这方面发挥作用。如果我开一家法律公司，我会雇佣一些有执照的律师，但只会聘用大公司中的一小部分员工。然后我会训练所有员工，让他们熟练使用 GPT。这样，他们就不需要处理一些很复杂的工作，而是可以专注于一些日常的违规处理等事务。这样一来，他们的效率可以提高 10 倍。同时，我们会降低收费，这将引发社会性的变革，可能会改变整个法律体系。

我知道这个想法可能有些天真，但我认为这种做法有可能打破社会上的壁垒，这可能是新技术对人类带来的最大价值之一。

硅谷徐老师：对于律师这个行业来说，IT 技术一直没有彻底颠覆它，这不仅仅是因为技术的原因。如果仅仅是因为技术的原因，老实说在过去的 20 年中，律师行业本来就应该有很大的变化。但事实是，这个行业在过去的 20 年中几乎没有改变。从这一点可以看出，问题肯定不仅仅是技术所致。

但我非常赞同你的观点，我们需要从各个行业，包括律师行业，开始重新思考。过去，每个行业都认为自己已经达到了天花板，我希望挑战的是，每个行业的天花板是否都能以 10 倍或者 100 倍的方式来思考，通过将过去的方法与今天的方法结合起来，从 360 度的角度进行思考。

为什么某些行业变化得非常迅速？部分原因在于它们的 IT 化程度相对较低，数字化程度也相对较低。对于像硅谷的 Google、Facebook 和微软这样的大公司来说，招聘程序员已经成为司空见惯的事情。但实际上，对于许多非 IT 行业来说，要找到优秀的程序员，并让他们参与数字化工作并不容易。

我们同意微软的 CEO 萨提亚·纳德拉的观点。许多人都在讨论程序员的工作是否会被自动化取代，但他认为我们最终增加的是对数字货币的需求。换句话说，所谓的程序员，或者说开发者，实际上是将物理世界的事物转化为数字化，并不断优化这个过程。这在一些大公司中已经司空见惯，但在其他领域中，这个过程相对低效、缓慢地推进。举个例子，自动生成代码可以增加数字货币，为成千上万家公司的数字货币增值。这会提高他们的工作效率，并使他们原本认为天花板在某个位置的行业的天花板再次上升。这是我认为比较合理的一种思考方式。

当然，技术永远无法解决所有问题。即使技术解决了我们今天所知的所有疾病，人类依旧将面临新的问题。这只是我在这方面的一些想法。

07AI 最让人兴奋的未来：AGI 一定会到来

Monica：AI 最让人兴奋的未来是什么？

谭旭：未来可能有一些令人兴奋的事情，在讨论 AGI 时，往往会存在理想主义和现实主义之间的区别。我们是否能够实现完全的人类智能一直是一个讨论的重点。但你看，即使像 GPT-4 这样的模型还没有完全实现这一目标，但它已经解决了大部分问题，并产生了巨大的影响，为各行各业带来了帮助。

在这种情况下，提高效率变得更加重要。在我能够提升当前生产流程效率的情况下，实现 AGI 可能就没有那么重要了。现在，沿着大型语言模型的方向继续发展，应该会有一些重要的突破。这些突破可能包括多模态能力、与世界的互动以及更加注重行动，例如机器人或超级智能体等方向。

我们可以将人类智能进行拆解，首先是大脑，而语言是区别于其他动物的关键能力之一。现在的语言模型在模拟大脑特别是语言方面的能力做得非常出色。接下来，我们需要整合视觉、听觉、嗅觉、口腔、手和脚以及与世界的互动。沿着这个方向发展，一定会丰富我们对 AGI 能力的体现，同时也为我们创造足够的机会，让我们去开拓和尝试。这是我对未来的一些展望。

张弋：我们可能更关注一些学术性的问题，例如如何更好地解决目前大型模型面临的一些问题。如果我们能够解决这些问题，它将会有一个质的飞跃，那将是什么呢？我们现在无法确定，因为可能是一个与现有大模型完全不同的全新范式。

而我希望在不久的将来能够看到的是，人们逐渐揭开大型模型训练的黑盒子。目前我们对于大模型训练的各个方面的探索还处于非常初级的阶段，基本上就是将所有可用的数据都输入，然后使用所有的显卡进行训练，最后进行微调，可能再加上一些语言模型的预训练。但我认为一个非常重要的问题是，我们应该先输入什么样的数据，以及是否有顺序。例如，大家口口相传的一种做法是先在特定领域进行快速训练，然后再在通用语料上进行训练，这一点我觉得非常有意思。

我不确定是否真的是这样，但我觉得学术界对这个问题的探索还不够，如果我们能够弄清楚这些问题，也许我们只需要少量的数据进行训练，比如只需几千个词汇或者甚至更少，模型的规模也可以变小。

在那个时候，大型模型可能会变得更加有用，更多的公司会加入其中，更多的人也会愿意使用。这是我希望在未来一年内看到的发展。

红博士：首先，我认为今天在座的人不论是通过什么路径得出的结论，都对 AGI 的到来没有太多怀疑。

在这方面由于中国起步较晚，我们仍处于追赶的态势。因此，很少有人关注一些前沿研究或者主要的研究问题，但实际上在人工智能领域存在许多前沿科学问题需要研究。

例如，包括模型本身和数据方面的问题。刚才张弋也提到了数据的使用方式，目前对于语言数据，我们首先将其进行 token 化，也就是分词。Context 本身就是一种压缩方式，通过使用 GPT 进一步进行压缩，我们获得了智能。这是一种使用方式。对于图像和视频等其他模态的数据，我们还不清楚应该如何处理。

此外，我们还讨论了代码数据和文本数据。实际上，它们都包含了知识，代码数据可能包含了一些任务解决和逻辑推导等内容。对于这些数据，我们还没有深入研究，因为在过去的很长一段时间里，以 OpenAI 为首的公司主要是在摘取低垂的果实。然而，随着时间的推移，Skew EyeLab 变得越来越困难，我们需要静下心来研究这些更精细的科学问题，包括模型本身的数据和算法，是否有比 transformer 更好的架构，以及解决长期记忆问题的方法。

此外，还有一些非常重要的科技伦理研究，我们需要了解什么是记忆，什么是泛化，以及模型在什么阶段倾向于记忆，在什么阶段开始泛化，以及记忆和泛化在训练的每个阶段如何变化。当我们理解了这些问题后，我相信我们会看到许多新的提升方式。

另外一个问题是 AI 的治理。在中国可能并没有太多关注，但在全球范围内正在进行讨论，包括一些知名的 AI 科学家也在探讨如何使这些强大的模型按照人类的意愿行事，不仅解决一些虚幻问题，还有关于如何控制这些模型的问题。因为我们很可能不需要太长时间就能达到人类智能水平或认知水平的基准。

目前这还是一个未知数，但我们现在需要花费大量精力来研究这个问题。我认为最前沿的科学研究需要将技术实现或对齐放在非常高的优先级上。这涉及模型本身，也包括模型之外的方面，例如我们需要更好的存储模型的存储方式。

当我们成功构建了 GPT 这样的模型之后，如何实现用一个最深入的机器人来解决各种问题，比如自动驾驶汽车、家务机器人，还有一个非常重要的领域是增强科学研究的能力。

过去人类科学家的数量是相对较少的，顶尖科学家更是少之又少。如果一个 AI 成为科学家的助手，甚至具备超过科学家的认知水平，它是否能够加快我们科学的进步？

例如，在生命科学和材料科学领域，当前的 AI 技术有点像从人类知识中进行提炼，它在学习人类在互联网上留下的知识。人类知识量的多少决定了它的智能程度，那么如何让它获得更多的智能？因此，我们需要在科学上取得更多突破，例如改进观测仪器，为什么 AlphaFold 能够被创造出来？

因为我们人类科学家发明了观测蛋白质结构的仪器，然后我们了解了一些氨基酸序列是如何折叠成蛋白质结构的。有了这些数据，我们才能开发出 AlphaFold 这样的算法，从而帮助科学家预测新的蛋白质结构。这说明我们仍然严重依赖人类的知识。因此，我非常希望能有更多人参与到研究人工智能中，或者将人工智能应用于解决科学问题，这样我们就能获得人类有史以来最大的福利——一个可以无限复制、极其强大的人工智能，推动人类文明的进步。

硅谷徐老师：AI 的基本组成确实是算法、算力和数据。正如你提到的，我们在讨论中也提到了不同的数据处理方式，例如序列和亚洲独特的方式等等。实际上，还有很多潜在的研究方向需要探索，我们今天只是冰山的一小部分，只是轻轻触及了其中的一部分，还有很多工作要做。

从算法的角度来看，我们刚才也讨论了 Transformer 模型，大型模型确实有很大的提升空间。仅仅从并行处理的角度来看，Transformer 模型应该还有很多改进的空间。另外，从算力的角度来看，我们提到了不同代的 GPU，从 V100 到 A100 再到现在的 H100，每一代的提升都是显著的。我记得在 90 年代的时候看英特尔的 CPU，看不到天花板，但后来我们看到了英特尔芯片上的天花板，基本上到了三个赫兹左右，就到达了顶峰。

但是在 AI 领域，我觉得最让人激动的一点是，我们还没有看到天花板的存在，这是我最激动人心的地方。

未来有无限的可能性，我们可以不断提升算法、提升计算力，获取更多的数据，推动 AI 技术的发展。这个领域的进步将会给我们带来更多惊喜和突破，让我们充满期待。

本文作者：腾讯科技，来源：腾讯科技，原文标题：《对谈微软 154 页刷屏论文作者：内部版 GPT-4 更惊艳，已展现出 AGI 的特征》

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。