谷歌这一年:从恐慌到豪赌,All In AI 大战
下一步,谷歌需要把 Gemini 大模型整合进旗下产品,同时又不蚕食搜索等现有业务份额。
今年年初 OpenAI 的崛起令全球震惊,而微软将 ChatGPT 嵌入必应更是令谷歌倍感威胁,谷歌是如何用一年时间在 AI 竞赛中重新站稳脚跟?
根据媒体发布的一篇文章,这家科技巨头首先平息内斗,合并两大人工智能部门,其次加速研发 AI 模型,推出多模态模型意图赶超 OpenAI,最后凭借在芯片、模型框架等全方位布局,推出强大的 Gemini 模型开始反攻。
现在,谷歌走到了最困难一步——将 Gemini 大模型整合进旗下产品。
以下为华尔街见闻编译的原文:
不管是谷歌还是其他公司,这都是一个值得回顾的时刻,他们显然战胜了那些末日论者。
上周,谷歌发布了备受期待的新人工智能模型 Gemini,而在此近一年前,一些评论家曾预测 OpenAI 的 ChatGPT 可能会挑战谷歌在搜索领域的领导地位。谷歌积极应战 OpenAI,领导层设法让公司内部相互竞争的部门开始合作,共同制定应对方案,从而击退了那些认为谷歌变得过于优柔寡断和官僚主义的人。如今谷歌在搜索领域的主导地位依旧,就连其股票也在今年一路上涨。
现在艰苦的工作开始了,在接下来的几个月里,谷歌必须证明自己能够将 Gemini 整合到旗下的产品中,同时又不蚕食搜索等现有业务份额。
该公司已经将一个简化版本的 Gemini 应用到 Bard 中,该聊天机器人是该谷歌为与 ChatGPT 竞争而创建的,但迄今为止使用率似乎有限。两位熟知内情的人士说,未来,该公司计划将 Gemini 应用于几乎整个产品线,从搜索引擎到生产力应用软件,以及 Pixel 设备独有的 AI 助手 Pixie。据一位了解内部讨论情况的人士说,产品还可能包括可穿戴设备,比如眼镜,它可以利用人工智能识别佩戴者看到的物体的能力,然后该设备可以向佩戴者提供建议,比如如何使用工具、解决数学问题或演奏乐器。
谷歌在做这些事情的同时,还必须小心翼翼地与监管机构周旋。该公司正处于两场关于其搜索引擎和广告业务的反垄断斗争中。反垄断官员正密切关注谷歌的人工智能工作,并将其视为谷歌如何利用在某一领域的优势在另一领域取胜的范例。在这种情况下,谷歌利用其搜索中的网站数据以及数十亿客户的数据来训练新的人工智能。
人工智能的成功对于谷歌的云计算业务也至关重要,对计算要求极高的人工智能模型正在激发对云服务的需求。微软与 OpenAI 建立了紧密的合作关系,其云业务的增长速度已经超过了谷歌和亚马逊。
虽然 ChatGPT 因其对话式 AI 而闻名,但其背后的技术已被证明在整个商业领域都非常有效,从自动化客户服务和软件编码,到快速生成营销方案,以及帮助华尔街公司理解大量数据。谷歌面临的问题是,OpenAI 和微软在向消费者和企业销售这项技术方面已经占得先机,为他们提供了宝贵的数据和反馈,他们可以利用这些数据和反馈来改进产品。
“只有亲⾃试了之后,才能够判定是人们能用它创造出什么,我们才刚刚开始看到这一点,但已经看到的是非常了不起”,Madrona Venture Group 的合伙人 Jon Turow 指出,他曾在亚马逊云计算部门负责人工智能产品。
Gemini 是谷歌 25 年历史上投入最大的努力之一,随着谷歌步入中年,其核心广告业务继续创造巨额利润,这也为其母公司 Alphabet 在自动驾驶汽车、健康保险和生物技术等新业务上的一系列押注提供了资金,但是这些下了十年的赌注都没有得到回报。
因此,越来越多的投资者要求谷歌领导层削减 18.2 万人的成本,今年的大规模裁员打击了员工士气。同时,谷歌正准备在新的一年里进行更多的裁员,但目前还不清楚裁员的范围是广泛的还是针对特定群体。
人工智能是另一个赌注,需要公司投入巨额资金,支付从人员到硬件的一切费用。一位与 Gemini 团队关系密切的人士表示,谷歌需要投入巨资来抵御人工智能团队向 OpenAI 倒戈的威胁。
谷歌还选择了一种特别昂贵的技术方法,即设计自己的人工智能芯片。这一决定使谷歌在硬件上独立于英伟达,后者是人工智能服务器芯片的主要供应商。OpenAI 等竞争对手依赖于英伟达和其他公司生产的硬件。
谷歌还希望消除人们对它的看法,即它的成果不过是靠几十年前的创新成果。多年来,谷歌通过 Google Brain 和 DeepMind 两个独立的部门为人工智能研究投入了大量资金。谷歌甚至还发明了 transformer 的底层技术,该技术是 OpenAI 创建的 GPT 系列人工智能模型的核心。
但是,OpenAI 的崛起让人们担心,谷歌可能会像之前的许多其他老牌科技巨头一样,在技术上失去领先地位。据一位直接了解谷歌与微软讨论情况的人士透露,在谷歌内部,微软在今年 2 月将 ChatGPT 纳入必应搜索引擎,这让谷歌的高管们尤其感到不安。
谷歌发言人未就此事发表评论。
AI 部门内斗
多年来,谷歌和 Alphabet 的首席执行官桑达尔 - 皮查伊一直向同事抱怨,他无法让旗下的两个人工智能研究部门进行合作。谷歌 2014 年收购了 DeepMind,该公司首席执行官 Demis Hassabis 长期以来一直坚持独立于母公司,他认为这样的安排可以让公司更好地实现开发通用人工智能的目标。
与此同时,DeepMind 的姊妹部门 Google Brain 专注于研究如何将 AI 应用于谷歌的产品,并孵化了机器学习领域的重要进展,如 transformer,这一发明为谷歌和其他公司训练更复杂的模型铺平了道路。该部门由 Jeff Dean 领导,他是一名资深工程师,在谷歌成立初期,他的编码工作帮助谷歌将搜索引擎扩展到数十亿用户。
两个部门之间的分歧很深,Google Brain 的总部位于加州山景城的谷歌总部,而 Hassabis 和他的团队则在伦敦国王十字车站附近的办公室。
一位曾在 DeepMind 工作过的人士说,随着公司规模的扩大,DeepMind 不遗余力地避免与谷歌大脑合作。例如,在谷歌大脑当时没有主要业务的城市,如巴黎和阿尔伯塔省的埃德蒙顿等地开设办事处。DeepMind 的研究人员可以访问 Google Brain 编写的代码,但反之不行。一些员工认为这是 DeepMind 过度保密的表现,甚至在谷歌员工中也是如此。当 Hassabis 想采取措施保持 DeepMind 的独立性时,他会直接与联合创始人 Larry Page 沟通,后者与联合创始人 Sergey Brin 一起主导了收购,并拥有 Alphabet 的控股权。
一位知情人士说,随着时间的推移,Hassabis 希望将 DeepMind 与谷歌更彻底地分开,因为他越来越担心这家庞大的公司会如何使用这项技术,包括将其出售给军方。他萌生了创建一家独立公司的想法,该公司将拥有 DeepMind 的知识产权。但在 2021 年,Hassabis 告诉 DeepMind 的员工,在皮查伊承诺向该公司提供更多资金用于包括人工智能伦理在内的目的后,脱离谷歌的努力已经结束。
多年来,对资源的争夺加剧了两家公司之间的紧张关系。谷歌向其人工智能研究人员发放的服务器芯片数量有限。随着全行业对人工智能的狂热促进了对芯片的需求,这些芯片变得更加稀缺。
与此同时,随着谷歌高管深陷内部政治泥潭,公司的著名人工智能研究人员也开始纷纷出走。其中一些人成立了自己的公司,他们对谷歌的官僚文化感到沮丧,因为在 OpenAI 推出类似 ChatGPT 的服务之前,谷歌的官僚文化早已阻碍了 ChatGPT 的发布。还有一些人则被 OpenAI 收购,OpenAI 是马斯克和其他知名人士于 2015 年以非营利形式创办的一家初创公司,部分原因是他们担心谷歌将拥有人工智能的未来。OpenAI 的创始人之一是 Ilya Sutskever,他是谷歌大脑的一名重要工程师,后来领导了多项进展,比如创造出可以通过推理解决未曾遇到过的问题的人工智能。
去年 11 月,当 OpenAI 发布 ChatGPT 时,公众的反应在整个谷歌引起了震动。这家 400 人的初创公司竟然击败了谷歌,推出了一个可以令人信服地回答各种主题问题的聊天机器人,这让谷歌的竞争力受到了质疑。
不过,谷歌的一些领导似乎并没有被这个互联网新宠儿吓到。一位知情人士说,在 ChatGPT 推出几周后的一次员工会议上,Dean 在回答有关聊天机器人的问题时说,谷歌不会对其他初创公司的做法做出反应。
但到了二月份,微软宣布将在其必应搜索引擎中应用 ChatGPT 是。一些投资者认为,聊天机器人可能会削弱谷歌在搜索领域的主导地位,这一观点令谷歌的高管们感到危险。
思想的融合
谷歌需要做一些事情,而且要快。
于是,谷歌在短短几个月内拼凑出了 Bard 聊天机器人,并于今年 3 月正式发布。在谷歌内部,这项工作引起了轩然大波,因为谷歌的一位著名研究员 Jacob Devlin 向皮查伊和其他高管提出了对谷歌使用 ChatGPT 的数据来训练人工智能模型的担忧,随后他辞职了。他立即加入了 OpenAI,但仅仅几个月后,他又回到了谷歌,原因不得而知。
谷歌的另一个回应是最终结束了 DeepMind 和 Google Brain 之间的内斗。谷歌从这两个团队中选拔研究人员,建立了一个新的模型:Gemini 模型由 Dean 和 DeepMind 高级研究员 Oriol Vinyals 领导,后者曾与 Dean 在大脑共事。
今年 4 月,谷歌宣布合并 Google Brain 和 DeepMind。Hassabis 接管了新实体 -- 谷歌 DeepMind,而 Dean 则退居二线,成为谷歌的首席科学家。这一举动让许多谷歌工程师感到震惊,他们认为,鉴于 Dean 的成就和在公司工作已久,他本应成为该部门的领导者。
领导者们试图把合并说成是合并后部门的胜利,Google Brain 负责研究的副总裁 Zoubin Ghahramani 访问了 DeepMind 的伦敦办公室,在宣布变革的那一周召开的全体会议上向员工解释了重组的原因。Google Brain 为自己的员工单独召开了一次会议。Hassabis 告诉员工们,谷歌 DeepMind 将汇集世界上最好的两个人工智能研究团队。
但谷歌的人工智能员工很快就意识到,工作重点也在发生变化。谷歌 DeepMind 的领导层缩减了对打造有竞争力的人工智能产品并不重要的研究项目。这些人说,失去资源的项目包括一个名为 Gato 的多模态模型以及一个名为 GenRL 的研究团队,该团队建立的人工智能系统能够在虚拟环境中导航,就像雅达利游戏中的虚拟环境一样。
高管们说,这些变化还有一个额外的好处,减少工作重叠,削减优先级较低的项目,意味着员工们不必再为获得用于研究的芯片而争得头破血流。
在山景城,分布在公司园区多栋大楼的人工智能员工搬到了位于园区中心的一间办公室,目的是加强研究人员之间的合作。
随着 OpenAI 爆炸性崛起的冲击逐渐消退,谷歌终于迎来了反击的机会。
“秘密武器”
尽管如此,谷歌仍然面临着一个巨大的挑战:建立一个表现优于 OpenAI 最先进模型 GPT-4 的模型。
从一开始,这就意味着研究人员必须在最后期限前完成模型开发。为了在紧迫的时间内完成任务,员工们不分昼夜地工作,这种自上而下的工作方式与谷歌以往对研究实验室放手不管的做法大相径庭。一位与这项工作关系密切的人士说,一些员工每周工作 80 小时已成为常态。
即使在公司的人工智能之外,谷歌员工也被要求迅速掌握这项技术。据两位知情人士透露,在这一年里,谷歌云要求员工通过人工智能方面的测试,并为销售等非技术岗位的员工提供额外的材料,从而推动员工提高人工智能知识水平。
谷歌的目标是通过赋予 Gemini 理解各种不同媒体(包括文本、图像、视频和音频)的能力,从而较 OpenAI 更有优势,例如,人工智能可以用通俗易懂的英语解释和说明复杂图表的内容。皮查伊后来说,Gemini 将从头开始 根据这些类型的数据进行训练。皮查伊很清楚,今年 3 月,OpenAI 曾宣布为 GPT-4 提供类似的图像识别功能,但最初并没有广泛提供这些功能。这让谷歌有机会在 OpenAI 发布之前,通过 Gemini 发布一套广泛的多模态模式。
谷歌还有一个秘密武器:YouTube。两位熟知内情的人士说,谷歌研究人员在很大程度上依赖于谷歌拥有的流媒体服务,这些数据包括图像、视频和音频字幕文本,对于训练人工智能模型非常宝贵。
这让谷歌获得了比 OpenAI 和 AI 图像初创公司 Midjourney 等竞争对手丰富得多的信息库。这些人说,这也意味着谷歌必须满足法律部门的要求,比如确保如果 YouTube 用户删除了视频,谷歌也会从其模型使用的数据集中删除该内容。
谷歌的另一个优势是计算能力,与依赖微软服务器的 OpenAI 不同,谷歌拥有自己的数据中心。为了更高效地运行软件,谷歌甚至打造了自己的专用人工智能芯片——张量处理单元(TPU)。谷歌为 Gemini 计划积累了数量惊人的芯片--7.7 万个代号为 Pufferfish 的第四代张量处理单元。第三季度,谷歌未分配的企业成本(包括在 DeepMind 上的支出)猛增近 40%,达到 16 亿美元。
当伦敦的员工结束一天的工作,而山景城的员工开始一天的工作时,Gemini 的领导者通过每天与监督项目部分工作的员工举行会议,随时了解研究人员的进展情况。一位人士说,主持会议的有 Dean、Vinyals 和研究副总裁 Koray Kavukcuoglu。
高级管理人员也在战壕里工作,Dean 率先改进软件,帮助公司的算法处理海量数据。联合创始人 Sergey Brin 曾因办公室恋情丑闻而与谷歌保持距离,但他在山景城与 Gemini 研究人员并肩工作,定期在公司食堂与他们共进午餐。
一路上也有一些尴尬的时刻,在今年 2 月为 Bard 公司做的一次演示中,聊天机器人在詹姆斯 - 韦伯太空望远镜的问题上犯了一个事实错误,这让正努力追赶 OpenAI 的谷歌十分尴尬。两天后,当这个错误广为人知时,谷歌股价下跌了 9%。
今年 5 月,谷歌在年度开发者大会上的一次演讲中首次披露了 Gemini 的存在,华尔街对此印象深刻:公司股价当天跃升了 4% 以上。
蓄力赶超
在接下来的几个月里,谷歌逐渐接近发布 Gemini,9 月份谷歌让一些开发人员使用了较小版本的 Gemini 进行测试。
但就在同一个月,OpenAI 推出了 GPT-4 with Vision,在多模态功能上击败了谷歌,这也为其技术带来了更多的关注,同时也带来了新的业务。一位与该团队关系密切的人士说,消费者对 Bard 的使用让团队内部的一些高管感到失望。就在微软宣布其 Azure 云计算部门收入增长 29%,令人印象深刻的同一天,谷歌在 10 月份披露其云计算部门第三季度收入增长乏力,仅为 22%。这只会增加 Gemini 团队的压力,迫使他们拿出大手笔。
然后,大约在 11 月,在对新产品进行行政审查时,本应与 GPT-4 竞争的最先进的 Gemini 模型在英语以外的语言中难以正常工作。
让谷歌稍感安心的是,OpenAI 也在处理自己的问题。2023 年中期 OpenAI 废弃了一个名为 Arrakis 的重要新模型,因为它在训练中表现不佳。11 月底,OpenAI 董事会解雇了首席执行官 Sam Altman,OpenAI 几近崩溃。Altman 在这一事件后重返 OpenAI,似乎暂时稳住了这艘船。
最后,在 12 月初,谷歌拉开了 Gemini 的帷幕。它公布的测试结果显示,性能最强的版本 Gemini Ultra 在多项行业标准基准测试中的表现优于 GPT-4,尽管许多研究人员对这些说法提出了质疑。谷歌公司自己也承认,该视频夸大了 Gemini 的功能。该视频的发布让公司一些事先没有看过视频的普通员工感到沮丧,但一连串的声明传递了一个强烈的信息:谷歌已经做好了竞争的准备。
一位高管甚至发起了攻势,抨击微软依赖 OpenAI 开发其尖端技术。谷歌和 Alphabet 全球事务总裁 Kent Walker 在新闻媒体 Semafor 举办的一次活动上说,公司不相信 “外包” 人工智能开发。
现在,谷歌面临的考验是将 Gemini 到各个产品应用中,就像微软对 OpenAI 技术所做的那样。但谷歌有一个对手不具备的优势:Pixel 硬件设备组合,包括手机、手表和耳塞,都能从人工智能中受益。其中一个版本的 Gemini 就是专门为在 Pixel 手机上运行而设计的,Pixel 手机使用的是谷歌定制的人工智能芯片。
在科技公司竞相将自己的硬件与新的人工智能功能整合在一起的时候,Pixel 设备专用的人工智能助手的推出可能会促进谷歌硬件业务的发展。据一位知情人士透露,Pixie 将使用客户手机上的信息,包括来自谷歌地图和 Gmail 等产品的数据,进化成更加个性化的谷歌助手。这位知情人士称,该功能最快将于明年在 Pixel 9 和 9 Pro 上推出。
最终,谷歌希望把这项功能带到普通手机和手表等设备上,该公司将需要越来越先进的机型来支持其所有的产品理念。不过,谷歌似乎正在抓紧时间,确保自己不会再次陷入困境。据一位熟知内情的人士透露,谷歌已经在训练下一代大模型 Gemini 2。