
Yao Shunyu's Google debut, the Gemini new model breaks SOTA: only 7 humans left to defend carbon-based programming

谷歌推出 Gemini 3 Deep Think 模型,取得 3455 Elo 分数,位列全球第 8,超越以往最高分 2727。该模型在 ARC-AGI-2 基准测试中得分 84.6%,刷新 SOTA,远超 Claude Opus 4.6 的 68.8%。新模型旨在推动智能发展,解决科研和工程挑战,具备分析草图和生成 3D 打印文件的能力。清华物理系特奖得主姚顺宇参与了该项目。
面对 Claude Opus 4.6 和 GPT Codex 5.3 的猛烈攻势,谷歌反手就是一个Gemini 3 Deep Think的重大升级。

在 Codeforces(一个包含各种竞技编程挑战的基准测试平台)上,它取得了惊人的3455 Elo 分数,相当于世界第 8 名。

这下子,全球只有 7 人的编程水平能排在它前面了。而此前最高分是一年前 o3 拿下的 2727 Elo。

Gemini 3 Deep Think 的实力不止于此,它还直接把ARC-AGI-2——这个公认测试 AI 推理能力的前沿基准,给刷到了史无前例的84.6%。
要知道,之前最强模型的得分在 60%-70% 之间徘徊,Claude Opus 4.6 的成绩也只有 68.8%。
在人类最后考试(HLE)上,Gemini 3 Deep Think 也刷新 SOTA,拿下了48.4%的成绩。

官方表示,新版 Deep Think 是谷歌专门开发的推理模式,旨在推动智能前沿发展,并解决科学、研究和工程领域的现代挑战。
另一位 “尧舜禹”——清华物理系传奇特奖得主姚顺宇(Shunyu Yao),去年 9 月加入谷歌 DeepMind,也是这次 Deep Think 新模型的参与者。

新版 DeepThink 已经走进了实验室
升级后的 Gemini 3 Deep Think 实力究竟有多强?
它的野心不止于赢得基准测试,而是要走进科研和工程领域,帮助工程师处理复杂任务。
新版 Deep Think 可以分析草图,对复杂形状进行建模,并直接生成用于 3D 打印的实体文件。这是它打印的一个笔记本电脑支架:
谷歌 VP Josh Woodward 在 X 上晒出了打印的成果,看起来对草图相当还原:

罗格斯大学的数学家 Lisa Carbone,利用 Gemini 3 Deep Think 审阅了一篇高度专业的数学论文。
结果 Gemini 3 Deep Think 成功地识别出了一个细微的逻辑缺陷,而这个缺陷在此前的人工同行评审中均未被发现。
杜克大学的王安实验室,利用 Gemini 3 Deep Think 技术优化了复杂晶体生长的制备方法,以期发现新的半导体材料。
结果 Gemini 3 Deep Think 成功设计了一种能够生长厚度大于 100 微米薄膜的工艺,达到了以往方法难以企及的精确目标。
在 X 上,DeepSeek 多模态团队研究员 XiaoKang Chen 也表示:Gemini 3 Deep Think 非常擅长处理科学领域中的长尾任务。
他给 Deep Think 输入了一张复杂分子结构的图片,随后模型便准确地计算出了分子式。

勇夺三项新 SOTA,推理成本降低 82%
去年 Deep Think 专门版已经 IMO 等国际竞赛中夺下金牌。现在,全新升级后的 Deep Think 又在多项高难度的基准测试中全面刷新 SOTA:
- 不使用任何工具,在 HLE 中取得新 SOTA——48.4%;
- 在 ARC-AGI-2 测试中取得前所未有的 84.6% 的成绩,并经 ARC Prize 基金会验证;
- 在 Codeforces 上取得了惊人的 3455 Elo 分数;
- 在 2025 年国际数学奥林匹克竞赛中达到金牌水平。

其中,ARC-AGI-2 被誉为 AI 界的 “图灵测试”,旨在衡量模型处理从未见过的新颖推理任务的能力。
要知道,去年 12 月刚发布的初代 Deep Think 得分还是 45.1%,不到三个月时间已经飙升到 84.6%,比 Opus 4.6 还要强出一截。
而在 ARC-AGI-1 上,Gemini 3 Deep Think 取得了 96% 的成绩,直接顶到天花板了。

性能提升的同时,推理成本也在大幅下降。初代 Deep Think 执行每项任务的成本为 77.16 美元。此次升级让成本降低了 82%,每项任务仅需13.62 美元。

由于 1 和 2 都被 Gemini 刷爆了,现在 ARC Prize 已经在构建 ARC-AGI-3 了……
除了数学和编程,升级后的 Deep Think 在化学和物理等广泛的科学领域同样表现出色。
在 2025 年国际物理奥林匹克竞赛和化学奥林匹克竞赛中,Gemini 3 Deep Think 在笔试部分取得了金牌级别的成绩。
此外,它还展现了在高等理论物理方面的能力,在 CMT-Benchmark 测试中取得了 50.5% 的分数。

华人带队,打造最强推理模型
Gemini 3 Deep Think 的研发团队中,有不少华人身影。
核心成员包括 95 后华人科学家Yi Tay,他在 Gemini 团队中从事强化学习和推理方向的研究工作。

此前,他曾在 Google Brain 共同领导早期大语言模型项目,包括 PaLM-2、UL2 和 Flan-2。
在 Google Brain 工作 3 年多之后,2023–2024 年间,Yi Tay 曾短暂离开谷歌,作为联合创始人创办了一家独角兽 AI 初创公司——Reka。
Reka AI 由 DeepMind、谷歌和 Meta 的研究人员创立,其创办初衷是打造功能强大且高效的基础模型,现在也开发界面设计、应用逻辑以及其他应用方面的工具。
在创业一年半后,Yi Tay 便重返谷歌 DeepMind,担任高级资深研究科学家,继续从事人工智能和大语言模型的研究。
去年刚从 Anthropic 跳槽到谷歌 DeepMind 的清华校友姚顺宇,也参与了 Deep think 新模型的开发。

姚顺宇本科就读于清华大学物理系,曾拿下过清华本科生特等奖学金(清华授予在校优秀本科生的最高奖学金荣誉)。
本科期间,他就已在《Physical Review Letters》(国际物理学领域最顶级的学术期刊之一)发表高水平论文,首次在国际上给出了关于非厄米系统的拓扑能带理论,不仅准确预测了相关现象,还定义了两个新的物理概念。
本科毕业后,他赴斯坦福大学继续攻读博士,专注于量子多体混沌、开放量子系统动力学等前沿问题,师从 Douglas Stanford(美国理论物理学家,被同行视为顶尖且有潜力改变物理学发展方向的年轻科学家之一)、Zhenbin Yang(杨振斌,华裔美国科学家,公认的 20 世纪最重要的物理学家之一)等知名学者。
博士毕业后,他先是去 UC 伯克利做博士后研究,随后加入了 Anthropic。在 Anthropic 工作的一年时间里,他参与组建了强化学习基础团队,负责了 Claude 3.7 Sonnet 框架,以及 Claude 4 系列背后的基本强化学习理论。
离开 Anthropic 之后,姚顺宇转战谷歌 DeepMind,继续从事 AI 方面的研究。这次 Deep Think 新模型发布,也是他在谷歌的首秀之作。
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
