谷歌工程师硬核长篇预测,证实黄仁勋观点:AGI 或在 2029 年出现,AI 五年内通过人类测试
谷歌工程师预测,人工智能(AI)将在 2029 年实现通用人工智能(AGI),并在五年内通过人类测试。这一预测与英伟达 CEO 黄仁勋的观点一致。黄仁勋表示,如果将 “像人类一样思考的计算机” 定义为通过人体测试能力,那么 AGI 将很快到来。他相信,AI 将能够在五年后通过各种测试,包括专业医疗测试。此外,黄仁勋还讨论了晶圆厂的需求和 AI 产业的扩张。
英伟达 CEO 黄仁勋在最近的斯坦福活动上预测说,AI 会在五年内通过人类测试,AGI 将很快到来。而谷歌一位工程师前不久恰巧发出了一篇长文硬核分析,认为 2028 年有 10% 概率实现 AGI,佐证了老黄的观点。
最近,英伟达 CEO 黄仁勋表示,AI 会在五年内通过人类测试,AGI 将很快到来!
在斯坦福大学举行的一个经济论坛上,黄仁勋回答了这个问题:人类何时能创造像人类一样思考的计算机?
这也是硅谷的长期目标之一。
老黄是这样回答的:答案很大程度上取决于我们如何定义这个目标。
如果我们对「像人类一样思考的计算机」的定义,是通过人体测试能力,那么 AGI 很快就会到来。
五年后,AI 将通过人类测试
老黄认为,如果我们把能想象到的每一个测试都列出一个清单,把它放在计算机科学行业面前,让 AI 去完成,那么不出五年,AI 会把每个测试都做得很好。
截至目前,AI 可以通过律师考试等测试,但是在胃肠病学等专业医疗测试中,它依然举步维艰。
但在老黄看来,五年后,它应该能通过这些测试中的任何一个。
不过他也承认,如果根据其他定义,AGI 可能还很遥远,因为目前专家们对于描述人类思维如何运作方面,仍然存在分歧。
因此,如果从工程师的角度,实现 AGI 是比较难的,因为工程师需要明确的目标。
另外,黄仁勋还回答了另外一个重要问题——我们还需要多少晶圆厂,来支持 AI 产业的扩张。
最近,OpenAI CEO Sam Altman 的七万亿计划震惊了全世界,他认为,我们还需要更多的晶圆厂。
而在黄仁勋看来,我们的确需要更多芯片,但随着时间推移,每块芯片的性能就会变得更强,这也就限制了我们所需芯片的数量。
他表示:「我们将需要更多的晶圆厂。但是,请记住,随着时间的推移,我们也在极大地改进 AI 的算法和处理。」
计算效率的提高,需求并不会像今天这么大。
「我会在 10 年内,将计算能力提高了一百万倍。」
谷歌工程师:2028 年有 10% 概率实现 AGI
而谷歌机器人团队的软件工程师 Alex Irpan,在 LLM 领域出现进展后发现,AGI 的到来会比自己预想的更快。
Irpan 对于 AGI 的定义如下——
4 年前,他对于 AGI 的预测是——
然而现在,当 GPT-4、Gemini、Claude 等模型出现后,他重新审视了自己的判断。
现在他对于 AGI 的预测是——
对于自己的预测, Irpan 在下面给出了详尽的解释。
计算的作用
关于 AGI,Irpan 认为存在两个主要的观点。
观点 1:仅仅通过增加模型的规模就足以实现 AGI。
目前很多看起来难以克服的问题,在模型规模大到一定程度时,就会自然消失。虽然扩大模型的规模并非易事,但相关的技术挑战预计将在不久的将来就会得到解决,随后 AGI 的实现也将顺理成章。
观点 2:仅仅依靠扩大现有模型的规模是不够的。
虽然增加规模非常重要,但我们最终会发现,即便规模再大也无法实现 AGI。这时,就需要跳出当前的技术范式,寻找全新的思路来取得进一步的突破。而这也将会是一个长期的过程。
2020 年时,作者忽然发现,第一个观点(即通过扩大规模来实现 AGI 的假设)的重要性愈发凸显,因此他决定调整自己的「AGI 时间线」。
而到了 2024 年,「规模扩大时才会发生涌现」的观点更是成为了主流。
如果缩放定律继续下去,AGI 将不会再花那么长时间。而迄今为止的证据表明,缩放定律更有可能是正确的。
如果有什么没有被提到,那就是预测下一个 token 的灵活性。
事实证明,如果你对足够多的「指令示例」数据进行微调,那么预测下一个 token 就足以让 AI 表现得仿佛它能理解并遵循指令一样,而这已经非常接近于真正的理解了。
基于这种指令微调,可以让一个 1.5B 模型的表现超越一个没有微调的 175B 模型。而这就是让 ChatGPT 在当前的计算资源条件下得以实现的关键。
随着时间的推移,仅仅依靠大规模的算力和正确的数据集,就能够实现从初步概念到成熟产品之间的飞跃的可能性越来越大。
现在,作者开始认为,在这一进程中,80% 依赖于算力,20% 需要更加创新的思想。
当然,创新思想依然至关重要——例如「思维链」就极大地推动了我们能够更加有效地利用大语言模型。
论文地址:https://arxiv.org/abs/2309.03409
至少在当前阶段,找到更好的利用大语言模型的方法仍然是一个需要不断创新的领域。
无监督学习
想当年,在迁移学习领域,大家都为一篇能同时处理 5 个任务,并且展示了如何在第 6 个任务上快速学习的论文感到兴奋。
但现在,大家的焦点都放在了如何通过足够多轮次的下一个 token 预测,以零样本的方式处理多种任务的大语言模型上。换句话说就是:「LLM 是能够识别各种模式的通用机器」。
相比之下,像 PCGrad 这样的专用迁移学习技术,不仅没人使用,甚至也没人去研究了。
如今,无监督和自监督方法仍然是推动每一个 LLM 和多模态模型发展的「暗物质」。只要将数据和计算任务「投入」这个无底洞,它就能给出我们需要的答案。
论文地址:https://arxiv.org/abs/2307.04721
与此同时,监督学习和强化学习仍然发挥着它们的作用,尽管热度已经大不如前。
当初,深度强化学习就曾经被指效率极其低下。的确,从头开始进行深度强化学习是有些不切实际,但它却是评估的一个有效途径。
时间快速流逝到现在,研究基于人类反馈的强化学习(RLHF)的人表示,只要有高质量的偏好数据,几乎任何强化学习算法都能得到不错的结果。
相比之下,最关键的问题则是,强化学习算法本身。
作者依然相信,更好的通用强化学习算法是存在的,这些算法能够提升基于人类反馈的强化学习(RLHF)的效果。
然而,当你可以将额外的计算资源用于预训练或监督微调时,去寻找这些算法的必要性就变得相对较小了。
特别是机器学习领域正在逐渐偏向于采用模仿学习这种方法,因为它更易于实施且能更高效地利用计算资源。
至少在当前的研究环境中,我们正从通用的强化学习方法转向利用偏好数据结构的方法,例如动态偏好优化(DPO)等等。
更好的工具
在工具发展方面,随着 Transformers 技术成为越来越多人的首选,相关的工具变得更专业、更集中。
比如,人们会更倾向于使用那些「已经集成了 LLaMa 或 Whisper」的代码库,而不是那些通用的机器学习框架。
与此同时,API 的受众也变得更加广泛,包括业余爱好者、开发者和研究人员等等,这让供应商有了更多的经济动力去改善用户体验。
随着 AI 变得更加流行和易于获取,提出研究想法的人群会增长,这无疑加速了技术的发展。
缩放定律
一开始公认的模型缩放规律是基于 2020 年 Kaplan 等人的研究,这些规律还有很大的改进空间。
两年后,Hoffman 等人在 2022 年提出了「Chinchilla 缩放规律」,即在给定的算力(FLOPs)下,只要数据集足够大,模型的规模可以大幅缩小。
论文地址:https://arxiv.org/abs/2203.15556
值得注意的是,Chinchilla 缩放规律基于的是这样一个假设:训练一个模型后,在基准测试上仅运行一次推理。
但在实际应用中,大型模型通常会被多次用于推理(作为产品或 API 的一部分),这种情况下,考虑到推理成本,延长训练时间比 Chinchilla 建议的更为经济。
随后,Thaddée Yann TYL 的博客进一步分析认为,模型的规模甚至可以比以前假设的更小。
文章地址:https://espadrine.github.io/blog/posts/chinchilla-s-death.html
不过,作者认为,对于模型的能力来说,缩放规律的调整并不那么重要——效率的提升虽有,但并不明显。
相比之下,算力和数据仍是主要瓶颈。
在作者看来,目前最重要的变化是,推理时间大大缩短了——更小的规模再加上更加成熟的量化技术,模型可以在时间或内存受限的情况下变得更小。
而这也让如今的大模型产品比 Chinchilla 出现之前运行得更快。
回想 2010 年代初,谷歌曾深入研究延迟对搜索引擎使用影响的问题,得出的结论是:「这非常重要」。
当搜索引擎反应慢时,人们就会减少使用,即使搜索结果的质量值得等待。
机器学习产品也是如此。
产品周期兴起
2020 年,作者设想了这样一个未来。其中,除了扩大规模之外,几乎不需要什么新的想法。
有人开发了一款对普通人来说足够有用的 AI 驱动应用程序。
假设这个应用程序可以挣到足够的收入,来维持自己的改进。
这种基于规模的思路意味着,研究会更加集中于少数几个有效的想法上。
现在看来,作者认为不太可能的一切,都成真了。
ChatGPT 已经迅速走红,并激发了大批竞争对手。它虽然不是最强的生产力工具,但已足以让人们愿意为此付费。
虽然大多数 AI 服务虽有盈利潜力,但为了追求增长还是选择亏损经营。据说,微软会因为 Github Copilot 上每增加一位用户而每月亏损 20 美元,不过 Midjourney 已经实现了盈利。
不过,这已经足够让科技巨头和风投公司投入数十亿美元,来购买硬件和招募机器学习人才了。
深度学习已成昨日黄花——现在,人们谈论的是「大语言模型」、「生成式 AI」,以及「提示工程」。
现在看来,Transformer 将比机器学习历史上的任何架构都要走得更远。
试着再次说不
现在,让我们再来探讨一下:「假设通用人工智能(AGI)会在不久的将来成为可能,我们将如何实现?」
首先,依然可以认为,进步主要来自更强的计力和更大的规模。可能不是基于现有的 Transformer 技术,而是某种更为高效的「Transformer 替代者」。(比如 Mamba 或其他状态空间模型)
只要有足够的算力和数据,增加代码中的参数量并不难,因此,主要的瓶颈还是在于算力和数据的获取上。
当前的现状是这样一个循环:机器学习推动产品的发展,产品带来资金,资金又进一步推动机器学习的进步。
问题在于,是否有什么因素会让这种「缩放定律」失效。
论文地址:https://arxiv.org/abs/2312.00752
芯片方面,就算价格持续上升,甚至到了限制模型进一步扩大的地步,人们也仍然会希望在自己的手机上运行 GPT-4 大小的模型。
相比之下,数据的获取似乎是更大的挑战。
我们已经尝试了将互联网上的所有内容作为训练数据,但这也让实验室很难在公开数据上脱颖而出。
现在,模型之间的区别,主要来自于非公开高质量数据的使用。
据说 GPT-4 在编程方面表现出色,部分原因是 OpenAI 投入了大量时间、精力和金钱,来获取优质的编程数据。
Adobe 甚至公开征集「500 到 1000 张现实生活中的香蕉照片」来支持他们的 AI 项目。
而 Anthropic 曾经也有一个专门的「tokens」团队来获取和分析数据。
每个人都想要优质的数据,并且愿意为此付费。因为大家都相信,只要能得到这些数据,模型就可以有效地利用它们。
到目前为止,所有的缩放定律都遵循幂律,包括数据集大小。
看来,仅靠手工获取数据已经不足以迈过下一个门槛了。我们需要找到更好的方法来获得高质量数据。
很久以前,当 OpenAI 还在通过游戏和模拟环境进行强化学习研究时,Ilya 曾经说过,他们非常看重一种叫做自我对弈的方法,因为它能够把计算过程转化为有价值的数据。
通过这种方式,AI 不仅可以从自己与环境的互动中学习,还能在技能上实现飞跃性的进步。但遗憾的是,这只在特定的环境下有效,比如规则明确、实体数量有限的游戏环境。
如今,我们把这种基于自我对弈的方法,用在了提升大语言模型的能力上。
想象一下,对话就是 AI 的「环境」,它通过生成文本来「行动」,而这些行动的好坏会由一个奖励模型来评判。
与过去直接使用真实数据不同,现在的模型可能已经能够自己生成足够优质的数据(即「合成数据」)来进行学习。
有学者发现,GPT-4 在标注上的准确性可以与人类相媲美。
论文地址:https://arxiv.org/abs/2304.03279
此外,基于扩散技术的图像增强,已经被证明可以帮助机器人学习。
而 Anthropic 则在其宪法 AI 和基于 AI 反馈的强化学习(RLAIF)上做了大量的工作,包括最近爆火的 Claude 3。
甚至,NeurIPS 还举办过一个关于合成数据的研讨会。
2024 年的 LLM,就好似 2016 年的图像分类。那时,研究人员为了扩充自己的数据集,纷纷开始使用生成对抗网络(GAN)。
作者表示,自己的第一篇论文 GraspGAN 讲的就是这件事。
论文地址:https://arxiv.org/abs/1709.07857
如果模型不是像「贪吃蛇」那样在自我循环,我们最终面对的可能是一个越来越不需要人类数据的世界。
在这里,进步完全取决于你能向系统投入多少算力(FLOPs)。
即便合成数据的准确度不如人工标注的数据,但它成本低啊。
最终,人类的直接反馈可能只会被用于建立新的奖励模型,或者对现有数据进行质量检查。
而其他所有的一切,都将由模型生成和监督,从而形成一个自我反馈的循环。
现在的语言模型,就好比是互联网上一张模糊的 JPEG 图片,原因在于其文本的品质不佳,并不适合作为训练材料。对互联网进行「模糊处理」是我们目前能做的最好尝试。
但如果情况发生变化,LLM 能够成为比互联网本身更清晰的信息源,我们又将面对什么样的未来呢?
搜索和 Q*
在 Sam Altman 罢免事件期间,路透社报道了一种名为 Q* 的方法,引起了广泛猜测。而圈内的研究人员普遍认为这是一种基于 Q 学习的搜索过程。
最后,Yann LeCun 发表了一篇文章,呼吁大家冷静,因为几乎每个研究团队都在尝试将搜索技术与大语言模型(LLM)结合,如果有人成功实现了这一点,其实并不令人意外。
早在 2014 年,DeepMind 就曾在一篇论文中指出卷积神经网络(CNN)能有效评估围棋棋步。通过引入蒙特卡洛树搜索(MCTS)技术,不到一年就发展出了 AlphaGo。
而这也成为了过去十年机器学习领域的一个里程碑。
虽然搜索需要消耗巨大的计算资源,但它作为机器学习中最可靠的方法之一,终究还是可以通向成功的。
以 MuZero 为例,在每个棋盘游戏中,如果使用 16 个 TPU 进行训练,1000 个 TPU 进行自我对弈,就意味着算力的需求增加了大约 100 倍。
这一切听起来有多可信?
总体而言,作者认为将模型继续扩展下去是可行的。一些看上去的瓶颈实际上可能不那么重要,解决方法总会被找到的。
至少到目前为止,作者认为「缩放定律」都还没有遇到真正的障碍。
炒作
2016 年,一些知名的机器学习研究人员决定开个大玩笑。
他们创建了一个名为「Rocket AI」的网站,声称是基于一种名为「时间递归最优学习」(TROL)的神秘方法,并编造了一个在 NeurIPS 2016 上被警方终止的疯狂发布派对的故事。
文章末尾有一段引人深思的话:「人工智能正处于炒作的高峰期,这一点社区里的每个人都心知肚明。」
有趣的是,下图展示了自 2016 年以来「AI」在 Google 搜索趋势上的表现。不得不说,当时的人还是天真了……
在 AI 领域,模型永远无法完全实现宣称的能力,但它们能做的事情却在不断扩展,从未有过倒退。
正如今天的人工智能,将会是历史上最差的一样。
乐观者与悲观者
在通用人工智能(AGI)中,存在一个乐观派和众多悲观派。
乐观派相信,我们能够找到方法扩展模型的规模,并且通过扩大的模型解决所有其他难题。
而悲观派则从不同角度出发,认为进步将因为某些原因而放缓或停滞。
面对数据来源的挑战
生成式人工智能(AI)是否正在通过向互联网上传播大量低质量的文本,使得自己的训练过程变得更加艰难?
这在短期内极为重要,但随着时间的推移,我们终将会找到解决方案。
整个关于「AI 自我对弈」的讨论基于一个假设,即我们将达到一个临界点,届时经过筛选的大语言模型(LLM)文本将足以作为训练材料。
现在,每当有表现出色的大语言模型(LLM)出现时,总会有人怀疑这是否因为测试集泄露,毕竟这种情况以前发生过,而且越来越难以排除这种可能性。
这无疑给研究带来了阻碍,特别是在进行模型评估本身就变得成本高昂的情况下。
然而作者认为,尽管这是一个挑战,但它不会对研究构成根本性的威胁。
自 2016 年以来,机器学习领域就一直面临着「基准测试既昂贵又不准确」的问题,但我们仍然找到了向前推进的途径。
面对「缩放」的挑战
对于每一个成功的 LLaMa 模型,都有一个 Meta OPT 模型无法达到预期。
如果你有空,可以看看 OPT 团队发布的一份详尽的问题记录。其中记录了感恩节期间发生的梯度溢出,一个因库意外升级而导致的激活范数异常上升的神秘问题等等。
扩展机器学习模型的规模,并非简单的增加数字、增加硬件、然后突然达到最先进水平的过程。这不仅需要机器学习的专业知识,还需要一种通过实践经验而不是阅读论文而得到的「专业知识」。
因此,有这样一个观点认为:理解如何扩展机器学习模型训练本身就是一个研究课题,并且它无法仅通过扩展来解决。最终,问题越来越演棘手,以至于让进展陷入停滞。
考虑到过去计算能力扩展的历史,以及阿波罗计划(支持更大火箭的发射)和曼哈顿计划(生产更多浓缩铀)等大型项目的成功,作者并不特别认同这一观点。但同时,也没有确凿的反驳理由。
面对物理具身的挑战
在机器学习领域,一个经典的讨点是智能是否依赖于物理形态。
考虑到模型在语言、语音和视觉数据处理上的能力,我们不禁要问,人类拥有哪些它所没有的感官输入?
这个问题似乎集中在与物理形态相关的感官上,例如味觉和触觉。
那么,我们能否说智能的发展受到这些感官刺激的限制呢?
人们通过接触和感受大量的刺激来学习和成长,而机器学习模型的途径则不同。
尽管大模型不必完全仿照人类的学习方式,但有这样一个观点:
1. 定义通用人工智能(AGI)为一个在几乎所有(95% 以上)具有经济价值的工作中能够匹敌甚至超过人类的 AI 系统;
2. 这 95%+ 的工作将涉及到执行物理的、现实世界中的行动;
3. 目前,大部分输入到模型中的数据并不是基于实体的。如果我们认为规模是解决问题的关键,那么缺乏基于实体的数据将会成为扩展的障碍。
对此,作者认为,目前智能的发展并不仅仅受限于来自物理刺激的数据,但要在现实任务中取得好成绩,这无疑是一个关键因素。
最近,有很多关于如何提高机器人学习中实体数据可用性的工作,例如 Open X-Embodiment 项目,以及各类数据集,如 Something-Something 和 Ego4D。
这些数据集的规模可能还不够大,但我们可以通过模型生成方法来解决。
作者之所以共同负责 AutoRT 项目,是因为探索基于实体的基础模型,并推动更多基于实体的数据获取是非常重要的。
对此,作者表示,自己更倾向于拥有一个笨拙的物理助手,而不是一个超级智能的软件助手。
后者固然有用,但在也更加令人担忧。
本文来源:新智元,原文标题:《谷歌工程师硬核长篇预测,证实黄仁勋观点:AGI 或在 2029 年出现,AI 五年内通过人类测试》