Google Gemini 1.5 并不比 OpenAI 差!
最亮眼的是 Gemini 1.5 在跨模态超长文本理解能力上的大幅突破:能够稳定处理的信息量高达 100 万个 tokens。更直观去感受,这相当于 1 小时的视频、11 小时的音频、超过 3 万行代码或 70 万个单词。
这两天,几乎整个 AI 圈的目光都被 OpenAI 发布 Sora 模型的新闻吸引了去。其实还有件事也值得关注,那就是 Google 继上周官宣 Gemini 1.0 Ultra 后,火速推出下一代人工智能模型 Gemini 1.5。
公司首席执行官 Sundar Pichai 携首席科学家 Jeff Dean 等众高管在推特同时宣布了这一重大更新。
其中最亮眼的当属它在跨模态超长文本理解能力上的大幅突破。Gemini 1.5 能够稳定处理的信息量高达 100 万个 tokens。更直观去感受,这相当于 1 小时的视频、11 小时的音频、超过 3 万行代码或 70 万个单词。
在此之前,世界上公开可用的 LLM 中,最大的上下文窗口来自 Claude 2.1 的 20 万 tokens。同时 GPT-4 是 12.8 万 tokens, Gemini 1.0 Pro 是 3.2 万 tokens——此次 Gemini 1.5 已在窗口长度上成功碾压所有大模型。
Google 还表示,他们在研究中已成功测试了高达 1000 万 tokens,相当于一次将整个《指环王》三部曲放进去。
Sundar Pichai 认为更大的查询窗口对企业来说会非常有用, “电影制作人可能会上传他们的整部电影,询问 Gemini 评论家是什么意见,公司还能使用 Gemini 审查大量的财务记录。这是我们实现的重大突破之一。”
更高效的 MoE 架构
作为目前 Google 公开的最先进 LLM,Gemini 1.5 采用时下流行的混合专家(MoE)架构来提高效率,响应更快、质量更高。
与传统 Transformer 作为一个大型神经网络运行不同, MoE 模型被划分为较小的专家模块。执行任务时会根据信息类型,选择性地激活最相关的专家路径,从而大大提升模型的效率和准确性。不仅更适应处理大规模数据集的复杂任务,还有更强的可扩展性和灵活性。
我们熟知的 Mistral 8x7B、MiniMax abab6 都是使用了 Moe 架构,更有爆料称 GPT-4 也是由 8 个或 16 个专家模型构成。
根据 Google 数据,此次供早期测试的 Gemini 1.5 Pro 在使用更少计算资源的同时,对数学、科学、推理、多语言和视频等任务的执行水平已逼近 1.0 Ultra。
在官方演示和 58 页的技术论文中, Google 还针对新模型的强大性能给出了以下几个用例:
大量信息的复杂推理和多模态分析
Gemini 1.5 Pro 可以无缝分析、分类和总结给定的长篇复杂文档。例如,上传阿波罗 11 号登月任务的 402 页 pdf 记录,让它根据要求列出 3 个有意思的瞬间,并引用原始对话细节。
给出维克多·雨果的五卷本小说《悲惨世界》(1382 页,73.2 万 tokens),粗略勾勒一个场景,并提问 “看看这幅画中的事件是在哪一页上?” 模型准确给出了页码,并标识出关键情节。
在超长视频理解上同样出色,能够快速准确地分析各种事件和情节点。比如给定一部相当于 68.4 万 tokens、时长为 44 分钟的无声电影 Sherlock Jr.,要求一句话总结电影情节:
继续询问一个 “纸张从口袋取出的关键信息和时间”。Gemini 1.5 Pro 用时 57 秒给出详细答案。
另外,Gemini 1.5 Pro 超大的上下文窗口还能够深入分析整个代码库。当发出一个 81.6 万 tokens、超过 10 万行代码的提示时,它可以根据提问快速找到特定 demo 的代码,还能提出有用的修改建议并进行解释。
一本语法书,自学翻译新语言
另一项让人耳目一新的是 Gemini 1.5 Pro 的 “上下文学习(in-context learning)” 技能,意味着它能从一个长提示中给出的信息里学习新技能,而无需额外微调。
为此,Google 使用 “对一本书进行机器翻译 (MTOB)” 进行测试,并选用新几内亚西部不到 200 名使用者的 Kalamang 语。由于该语言几乎没有任何网络信息,模型只能依赖于给定的上下文数据,而非训练权重中储存的知识来进行翻译。
在测试中, 工作人员向 Gemini 1.5 Pro 提供了 500 页参考语法、2000 条双语词条和 400 个额外的平行句子——总计约 25 万 tokens 信息作为其输入上下文,要求从中学习并完成 Kalamang 语和英语的互译。
从测试结果可见,Gemini 1.5 Pro 对整本书的翻译得分接近人类学习者,在半本书的表现中远超 GPT-4 Turbo 与 Claude 2.1。
对于一门在模型训练过程中几乎完全没接触过的语言来说,这一成就尤为突出。不仅支持濒危语言的保护和复兴,也为其它低资源教育领域开辟了新的可能性。
从今天开始,Google 将通过 AI Studio 和 Vertex AI 向开发者和企业客户提供 Gemini 1.5 Pro 的有限预览权限。最终在完成所有安全部署和测试后取代 Gemini 1.0。免费使用的 Gemini 1.5 Pro 标准版将采用 12.8 万个 tokens 上下文窗口,普通用户需要额外支付费用获得 100 万 tokens 使用权。
被 OpenAI“夹心”,但仍不可小觑
此次 Gemini 1.5 的发布时间再次 “不凑巧”,前有 OpenAI 放话开发网络搜索产品和推出 GPT 记忆功能,后面紧跟着两小时后又横空杀出个 Sora。奥特曼武器库丰富且擅长针锋相对,每当 Google 有新动作,刚要炸起水花就被摁下去。
网友们形容当天的场面就如同:
但是,依然有不少声音站出来提醒大家切莫小看了 Gemini 1.5 Pro,它对超长文本强大的分析推理能力是其它大模型做不到的。
NVIDIA 高级科学家 Jim Fan 更是发表评论盛赞。表示尽管 Gemini-1.5 Pro 被抢走了风头,被人们拿梗图来开玩笑,但这仍是 LLM 能力的巨大跃升。测试中达到的 1000 万 tokens 上下文、擅长检索、在零样本情况下对极长指令进行泛化、多模态工作能力都是惊人的。
“重要的不是声明中实现多少上下文长度的神话,而是模型实际上如何使用上下文来解决现实世界的问题。” 他认为 1.5 Pro 不通过微调而自主实现对 Kalamang 语的学习和应用,就展现出了这种神经激活中的复杂技能,超越了现有的技术水平。
如今 OpenAI 的急速扩张和 Gemini 逐步加快的升级速度,已经标志着生成式 AI 底层技术的狂热步伐。Google DeepMind 负责人 Demis Hassabis 表示,可以期待未来几个月会有更多的进步。
“这是一种新的节奏”,他说,“我正试图带来一种类似初创公司的心态。”
文章来源于硅星 GenAI ,原文标题《10M 上下文,仅靠提示就掌握一门语言,Google Gemini 1.5 被 OpenAI 抢头条是真冤》作者张潇雪
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。