“1/6 的价格,打爆美国 AI 护城河”——智谱开源模型 GLM 5.2 震动硅谷

华尔街见闻
2026.06.25 08:16

智谱发布开源模型 GLM 5.2,以 1/6 成本实现顶尖编码性能,打破硅谷高算力护城河共识。同时美国封杀 Anthropic 模型 Fable 5,引发对闭源模型断供风险的担忧。投资人指出 GLM 5.2 成本仅为竞品 1/3 至 1/5,动摇美国大模型估值合理性。

在过去三年中,硅谷大型 AI 实验室(OpenAI、Anthropic 等)始终向外界灌输一个共识:近万亿美元的算力资本支出(Capex)是不可逾越的护城河,只要锁定了最顶尖的闭源技术,美国就能在智能竞赛中永远保持绝对领先。

然而,上周 AI 实验室智谱(Zhipu AI)发布的开源模型 GLM 5.2,以近乎荒谬的 1/6 成本和顶尖的编码性能,彻底击碎了这一护城河神话。与此同时,美国政府出于地缘政治与国家安全的考量,紧急封杀并下线了 Anthropic 最强大的闭源模型 Fable 5。这一紧急干预让全球企业级用户瞬间清醒:使用闭源的美国前沿模型正面临随时被政府 “一键关闭” 的断供风险。

在 6 月 24 日的《Limitless Podcast》播客节目中,科技风险投资人兼 AI 产业资深观察员 Ejaaz,联手另一位主持人、开源社区深度参与者兼资深软件工程师 Josh,共同拆解了这场震动硅谷的 AI 大变局。

投资人 Ejaaz 从宏观商业角度指出,智谱 GLM 5.2 的横空出世用事实无情地反驳了硅谷过去的传统认知。他认为,过去三年西方实验室坚信数百亿美元的 Capex(资本支出)是唯一的护城河,但智谱证明了企业完全可以用极小部分的成本,去创造一个能够完成 95% 前沿工作的替代模型。Ejaaz 说道:

Ejaaz 给出了精确的数据对比:在云端服务器上运行 GLM 5.2,其每百万 Token 的输入/输出成本仅为 1.50 至 4.50 美元,而与其性能相当的美国顶尖闭源模型 Claude Opus 4.8 则需要 5 至 25 美元。在 Ejaaz 看来,这种高达 3 到 5 倍的成本缩减正在彻底动摇美国闭源大模型的估值合理性。

Josh 指出,在由 GitHub 真实项目构成的 SWE-bench Pro 前沿编码测试中,GLM 5.2 与 OpenAI 最强的闭源前沿编码模型 GPT 5.5 相比,差距竟然被缩小到了 1 分之内。不仅如此,在完全没有答题纸、考察端到端解决复杂编码水平的 DeepSuite 测试中,GLM 5.2 直接斩获了开源模型全球第一名,并以 17 个百分点的绝对优势击败了 Kimi K2。此外,在控制 10,000 美元虚拟资金进行多智能体商业竞争的 Vending Benchmark 中,GLM 5.2 也拿到了全球第二的恐怖成绩。

在商业生态层面,Josh 和 Ejaaz 共同注意到西方领袖态度的转变。硅谷前端巨头 Vercel 的 CEO 在实测后公开发推表示震惊,而微软更是在上周宣布在其 Copilot 中用开源模型 DeepSeek 代替了 ChatGPT 和 Claude。

最后,Josh 从资本市场的视角拆解了一个现象:由于中国市场直接投资 AI 前沿实验室的渠道较少,承载智谱 AI 估值敞口的关联技术主体(如 Knowledge Atlas Technology 等资产)在二级市场遭到了疯狂炒作,市值暴涨 15 倍至 1360 亿美元。

Josh 分析称,尽管该公司 2025 年全年的营收仅约 1.07 亿美元,导致其交易市销率(P/S)达到了不可思议的 1300 倍,且中国股市独特的 “中午休市一小时” 让西方投资者感到新奇,但这有力地证明了本土资本对中国 AI 爆发性力量的极端信心与狂热追捧。

Ejaaz 在节目中向听众披露了上周震动整个硅谷的一桩丑闻:美国政府紧急下线并全面禁用了 Anthropic 最强大的闭源模型 Fable 5(包括 Mythos 5 等分支版本)。

据 Ejaaz 援引一位美国参议员的话,国家安全局(NSA)负责人在此前一次受控的 “红队演练” 中发现,不受限制版的 Claude Mythos 5 在短短几个小时内,就彻底攻破并突破了 NSA 全线最安全的防御系统。而正常情况下,这种地标级的黑客攻击需要一整个顶级人类专家团队花费数月时间。出于对恶意行为者利用 AI 对抗政府系统的恐惧,美国政府利落地按下了 “关闭开关”,目前全球公众已无法在 Claude 中访问该模型。

Ejaaz 深刻地剖析了这一事件对商业生态带来的灾难性影响。他认为,美国政府的这一举动无意中给所有企业级用户敲响了警钟。试想一下,如果一家企业将整家公司的底层业务和核心产品线全部建立在 Fable 5 或 GPT 等美国闭源模型之上,突然之间政府只需要按下按钮就能将其彻底关停,企业的业务连续性将瞬间崩溃。

基于这一逻辑,Ejaaz 得出结论:美国政府目前的强力监管立场正在产生严重的副作用,它极大地增加了闭源模型自带的政治断供风险,反而是在强烈倒逼全球企业进行防御性的 “开源大逃亡”。

Ejaaz 指出,尽管前期购买本地硬件的开销不菲,但对于每年要花费数亿美金调用 API 的大型企业来说,只有把开源模型跑在自己的服务器上,才能获得 “永远不会被别国政府因政治议程而关闭” 的绝对安全感。

当时,有用户询问科技巨头埃隆·马斯克(Elon Musk)关于中国 AI 模型何时能真正达到 Fable 级别的时间表,马斯克给出了 “大概明年一季度(Q1)” 的预测。然而,Z.ai CEO随后在互动中公开直言回复道:“用不了那么久(Won't take that long)”

Josh and Ejaaz 一致认为,这句话释放了极其强烈的信号,意味着在接下来的半年内,全球科技界就将迎来一款达到全新 Fable/Mythos 级别、且自由开放的顶级中国模型。中美之间原有的技术时代时差,正被压缩进 6 个月的狭窄窗口。

针对媒体人 Max Weinbach 提出的 “本地硬件运行开源模型在数学上算不过来账”(即需要花费 20,000 美元硬件成本、每秒仅输出 20 个 Token、需要 5 年半才能回本)的质疑,Josh 和 Ejaaz 分别从两个工程趋势反驳了这一悲观观点:

他坚信,在接下来的 6 到 12 个月内,这些开源模型将在保持原有顶级智能的同时被极限压缩。如果这一不可逆的趋势继续发展,今天看起来高不可攀的前沿开源模型,最终将完全有能力流畅地运行在个人电脑甚至用户的手机智能终端上。

他以日本黑马实验室 Sakana AI 最新发布的 “Fugu(河豚)” 模型,以及 OpenRouter 的 Fusion API 为例解释称,未来的理想 AI 应用将抛弃对单一闭源巨头的依赖。Fugu 系统在接收到提示词后,会像开会辩论一样将任务同时分发给 GPT、Claude 等闭源模型,以及智谱 GLM、Kimi 等开源模型,并由裁判模型整合最佳答案。

Josh 认为,这种 “智能体辩论(Agentic Debate)” 不仅能输出超越单体 Fable 模型的性能,还因为在低难度任务中路由调用了极便宜的中国模型,从而为企业级用户省下了 30% 到 50% 的庞大 Token 开销。

Ejaaz: 上周,一家中国公司发布了一款免费的 AI 模型,其性能与 Anthropic 最好的模型不相上下。它在写作和编码方面也击败了 ChatGPT 5.5,但它带来了一个转折——它的价格只有六分之一,并且它是完全开源(开放权重)的,你可以在家里下载并运行。

就在同一周,美国政府禁用了 Anthropic 最强大的模型 Fable 5,因为有人透露其不受限制的版本黑入了国家安全局(NSA)的系统。我认为我们已经到了一个无法回头的点,这听起来并不是在危言耸听,但在 6 个月内,全球任何拥有互联网连接以及大约 5,000 到 10,000 美元资金在家里运行设备的人,都能够非常现实地获得开源或开放权重的模型。

他们可以对这些模型进行微调来做任何事情,而且这些是 Mythos 级别的模型。我们听到一些传言和经过证实的报告称,这些模型可以利用世界上一些最安全的系统,其速度比过去任何人类黑客都要快。我认为我们将回顾 2026 年,并将其视为一切真正改变的时刻或年份。在这个节点上,人类自身真正需要关注安全护栏,并弄清楚未来如何监管和发布这些 AI 模型。

所以我们迎来了一个非常有趣的趋势交汇点:世界上最强大的模型对任何人都是免费且开源可用的,而美国政府专门为他们最强大的模型设置了一个关闭开关。

Josh: 是啊。不过那些大型 AI 实验室,我不确定他们是否有得选。我的意思是,无论你喜不喜欢,你都必须继续推动技术前沿向前发展。但我认为我们看到的是,许多我们曾兴奋地等待揭晓的问题,现在开始有了答案。现在更像是开源与闭源的较量。

因为开源模型在美国国内也在涌现。比如英伟达,他们正在开发不可思议的开源模型,并在这一领域取得进展。我们现在还有苹果,他们在每个人的硬件设备上都有了一个真正实用的 Siri,运行成本基本上是免费的。所以他们正在慢慢地、一点点地蚕食掉底层的一些用例。

然后我们有中国,有智谱,有 DeepSeek,这些更大的模型,他们实际上是在技术前沿进行竞争。所以这些顶尖的闭源私有前沿模型正面临着两头受夹击的压力:一头来自技术栈的底层,另一头则直接来自基准测试所在的顶端。我们将看到这在经济上会如何演变。

至少在智谱的案例中,到目前为止它的表现还不错,我们可能应该稍微聊聊它的股票。信不信由你,这家公司是上市的,虽然不是在美国,至少在中国是上市的,它上涨了多少?1500%!也就是 15 倍。这真是一个疯狂的回报。

关于这个回报有一些有趣的事实,看到中国市场在某种程度上的 “低效” 是挺好笑的。另外请注意你屏幕上看到的图表,他们的股票市场竟然有午休时间!我以前都不知道,图表上还标出来了。我之前没意识到中国的股票市场在中午有一个小时的午休时间,这挺有意思的。

但是这些数字真的非常惊人。当我们讨论昂贵公司时,我们会提到 SpaceX,它的交易市盈率非常高。而对于智谱以及关联的知识图谱相关技术(Knowledge Atlas Technology)而言,它目前的市值大约为 1,360 亿美元。它在 2025 年全年的营收是约 1.07 亿美元。这意味着它的交易市销率(P/S)达到了 1300 倍!这对一家公司来说是高得令人难以置信的估值倍数。

Ejaaz: 是的,在这个估值下,这大约是 Anthropic 目前估值的五分之一左右,后者的估值目前大概在一万亿美元左右。所以这再次引出了一个问题:究竟是中国 AI 实验室被低估了,还是美国公司被高估了?我很好奇我们的听众是怎么想的。我倾向于认为他们可能需要在中间某个位置靠拢。

我们在录制前其实就在说,如果 Anthropic 是一家上市公司,而现在出现了一款全新免费、对任何人开放的开源模型,并且能达到 Claude Opus 4.8 大约 95% 的能力,你能想象市场对这个消息的反应吗?我很想知道这在公平市场价值下会对它的股价造成什么影响。不过这依然让人觉得疯狂。

如果我们快速浏览几个对比成本和性能的不同指标:对于输入和输出 Token,每百万 Token 的成本大约在 1.50 美元到 4.50 美元之间。而对比 Opus 4.8,每百万 Token 我相信是在 5 美元到 25 美元之间。所以同样地,与性能和能力相当的模型相比,我们实现了 3 到 5 倍的成本缩减。

刚才提到我之前对基准测试持怀疑态度,但我现在有了一个最喜欢用来进行对比的新基准测试,叫做 DeepSuite。DeepSuite 基本上是一个不给模型提供任何现成答案的基准测试。通常在基准测试中,会有一个答案纸,模型可以某种程度上投机取巧,看着它并找到得出答案的方法。而这个测试没有答案纸,所以它能非常准确地测试你的模型在编码方面的真实水平。

在 DeepSuite 的测试中,GLM 5.2 获得了一个非常稳健的第五名。这在这个特定的模型中,对于 “智能体编码(agentic coding)” 的表现是一个相当准确的排名。它是开源模型里的第一名,绝对是碾压了 Kimi K2 整整 17 个百分点,优势非常明显。看到它的平衡表现是很棒的。也许它并不代表绝对顶尖的前沿能力,但如果你想要一个 “任劳任怨的干活机器”,想要一个能在夜间不知疲倦地工作且不会让你破产的智能体,GLM 5.2 绝对值得你考虑。另一件事是,它在前端网页开发方面非常出色。如果你现在看着屏幕,屏幕上这个网站完全是由 GLM 5.2 这一个模型在大约 10 分钟内 “一次性(oneshot)” 生成的。并且在设计基准测试(Design Benchmark Arena)中,它的表现都非常高,有些情况下甚至击败了 Fable 5。如果你对前端设计感兴趣,这绝对是一款非常出色的前端设计模型。

最后一个是,因为我知道很多听众会问:“这些模型在交易、投资、帮你赚钱方面表现如何?” 这里有一个非常著名的基准测试,叫做 “自动售货机基准测试(Vending Benchmark)”。它基本上是让 AI 模型控制一笔理论上的 10,000 美元资金,看看它是否能通过在一台自动售货机上补货、进行销售、在面对竞争时管理库存来赚到钱。在这个测试中,它获得了第二名,仅次于 Claude Opus 4.7(目前的领先模型)。所以它在赚钱方面也相当擅长。

Josh: 是的,并且它还有一个非常清晰的路线图,能继续保持优秀并变得更好。马斯克和 Z.ai 的 CEO 之间其实有一次互动,正是这家公司在打造这些模型。这个人问:“中国目前达到 Fable 级别的路线图时间表是怎样的?GLM 5.2 毫无疑问缩短了这一差距。” 马斯克说:“可能是第一季度(Q1)。” 然后这位 CEO 回复说:“用不了那么久。”

这意味着他们预计在接下来的 6 个月内,我们就能获得一款达到新 Fable 级别的、开放权重且开源的模型。这非常具有吸引力,因为它是以开放权重形式提供的,正如你所知,有了开放权重,你就可以直接在自己的硬件上运行它。

但问题是,你真的想在自己的硬件上运行它吗?我总在推特(X)上看到有人花费几万美元去买那些 Mac Studio,把它们一叠叠码在办公室里,极力尝试在本地运行 these 模型。虽然我很不想打击你,但这笔账在数学上其实算不过来。

Max Weinbach 发过一条推文,我觉得写得太棒了。里面写道:运行这种模型的最低硬件配置大约需要 20,000 美元,而你得到的输出速度大概是每秒 20 个 Token。花了 20,000 美元,这个速度相当慢,它思考得没那么快。如果你有非常长的 “思维链(chain of thoughts)” 或漫长的推理轨迹,你需要花非常长的时间才能得到一个涉及深度思考的答案。

用这 20,000 美元(如果去调用云端 API),你可以获得将近 350 亿个 Token,假设你有很好的 Token 缓存设置,这大约是 12:1 的输入输出比例。所以他的意思是,如果你让本地硬件 24 小时、一年 365 天无休运行,大概需要 5 年半的时间才能回本。

这就是为什么开放权重模型很不可思议,但你可能还是更适合直接让他们在云端服务器上为你提供服务,而不是自己去本地运行。因为你不仅要处理其复杂性、要为其供电、要应付硬件维护,你还得操心如何真正买到这些硬件,因为天知道现在买那些电脑可没有以前那么容易了。所以在成本上、以及在相对基础上的可用性和可获得性上,这是一个很有趣的注脚。

说得更明确一点,比如去体验他们前沿的 Kimi K2.7 模型,自从他们发布以来,我就一直能够访问并使用它,我一直免费用它来做研究之类的各种事情,却从来没有被收过一分钱。

Ejaaz: 我想说的是,这些数字看起来可能很大,对吧?谁会平白无故花 20,000 美元去买硬件,只为了能在家运行这些开源模型?但核心理念是,从现在开始的 6 个月、12 个月后,这些一模一样的模型将会被极大地 “蒸馏(distilled)”。这意味着它在保持自身智能的同时,体积小到足够在你的本地家用硬件上运行——比如一台定制的 PC,甚至你的笔记本电脑。

我们在这些开源模型身上能不可否认地看到一个趋势:以更低的硬件成本获得更高的智能。如果这种趋势继续下去,我们今天讨论的这款模型,最终将能够在你的手机端上运行。所以现在看可能觉得高不可攀,但随着时间推移,在我看来,开源的趋势是势不可挡的。你将能在家里运行它,这太棒了。

话说回来,我们之所以想做这一期节目,是因为两个趋势恰好交汇在了一起。上周有大量关于 Fable 5 被美国政府禁用的报道。最主要的原因是美国政府认为,这款模型如果落入恶意行为者手中是不安全的,会被用来对抗政府系统、进行黑客攻击和漏洞利用等等。它在内部测试中已经证明了这一点。

最近的披露是一位参议员的话,他说国家安全局(NSA)负责人在一次 “红队演练(red team exercise)”(这是一种受控环境)中解释说,Claude Mythos 5 能够突破其所有的系统。通常这需要一个人类专家团队花上几个月的时间,而它在几个小时内就完成了。读到这样的故事和头条新闻真是太疯狂了。他们已经关闭了它,任何人现在都无法访问。如果你现在上 Claude,你是无法访问 Fable 5 的。

但关键是,这两个趋势在同一时间交汇了。讨论这一点非常重要,因为很快在几个月内,就像马斯克那条推文展示的那样,我们最终将迎来花 1 万美元就能在家里运行的、可自由获取的 Mythos 级别模型。这其实挺让人害怕的。

Josh: 是的。那么这就是现在的领先优势吗?我们只领先 6 个月,这听起来差不多对吗?如果他们在今年年底前发布 Mythos 级别的模型,那就只给了 OpenAI 和 Anthropic 6 个月的领先时间。智谱的负责人也这么说过,所以看来确实是这样。目前在我们和当前最前沿的开源模型之间,似乎有大约 6 个月的时间窗口。

我能预见到这个差距会变得越来越小,感觉他们正在紧追不舍。当然,能了解闭门背后的内部进展会非常有帮助,因为我相信 GPT 5.5——我们知道我们很快就会迎来 5.6,我相信 Anthropic 正在研发比 Mythos 更强大的东西。感觉我们别无选择,只能继续以现在的速度前进,否则这些模型就会赶上来,而且它们不会有目前前沿模型所具备的那些安全护栏。

目前正在发生的情况是,我们对这些私有闭源模型看到了一个分叉:现在只有内部人员能够使用它们,世界上其他任何人基本上都处于 “被停用” 的状态,他们受到了一定程度的限制,因为他们无法真正使用到这些前沿模型。所以我们看到了这个奇怪的十字路口:只有在 OpenAI 或 Anthropic 内部工作的极少数人能接触到这些模型,政府在限制它们的公开使用,这意味着公众正在被抛在后面。然后中国跟了上来,他们说:“嘿,6 个月后,我们就会追到你的头顶。”

这是一个非常有趣的动态博弈,随着这些新的前沿模型继续发布,我们真的必须密切监视它。因为你必须假设,即使全世界目前没有在使用 Mythos 或 Fable,但这些实验室仍在继续迭代并构建更好的模型,他们不会因为这个原因就停下脚步。OpenAI 是这样,所有其他前沿实验室也是这样。

所以问题是:这些模型未来是会被关在私有的象牙塔里、只供极少数人使用?还是会有一条让公众也能够使用它们的出路?我想每个人的希望都是有出路,但目前我们处于这个奇怪的僵局中。

Ejaaz: 讽刺的是,如果美国政府执意介入并直接关闭前沿模型,它反而会迫使企业去使用开源模型。试想一下,如果你是一家企业,你把整个公司的业务都运行在 Fable 5 或某个 AI 实验室的前沿模型上,突然之间,你知道政府只需要按下按钮就能把它关掉,这意味着你的公司突然就无法运转了。那么你就会更有动力去在本地私有化部署并运行一个开源模型,这样一来,它就永远不可能被别人关闭。

所以,如果我是一家曾运行着 Fable 5 却突然被停掉业务的企业,我会转头看看这个 GLM 5.2,心里想:“它是 MIT 开源协议的,虽然可能需要花 2 万美元买硬件在本地运行,但我宁愿花这笔钱来确保以后能省下数亿美元的潜在损失,而不想去用 Fable 5。诚然,用 Fable 5 可能会获得最顶尖的前沿性能,但你随时可能因为政府的某些议程而被关停,这绝对不是你想要的风险。”

现在,针对 “中国开源 AI 模型因为便宜、或者足够好而将接管世界” 的观点,我想提出一个简短的反驳。这个道理其实很简单:如果你是一家拥有昂贵前沿 AI 模型的美国实验室,当你看到你的邻居正在对你的模型进行 “蒸馏”,并将其以更便宜的模型呈现时,你只需要对自己拥有的模型做同样的事情。

Anthropic 已经多次证明了这一点,他们推出了 Sonnet。相信 Sonnet 4 基本上就是他们针对 Opus 4.8 推出的更便宜的版本。同样的情况你也能在 ChatGPT 的 GPT-Flash 上看到。这些 AI 实验室会生产一个更便宜的版本,他们会直接从自己的前沿模型中进行蒸馏。随着这些模型变得足够好以至于能够实现 “自我重构(rebuild themselves)”,这件事会变得越来越容易。

所以我能预见到这样一个世界:他们在未来发布 Fable 6 的同时,会配套发布一个类似于 Sonnet 6 的伴生模型,对于任何只需要 85% 的能力、而不在乎剩下 15% 的人来说,它的价格会极度便宜。它是超级便宜的,完全可以与中国的模型竞争。所以我不认为美国输掉了 “廉价模型” 的争论,但在 “开源模型” 上他们绝对输了。我不认为美国的实验室会在短期内将模型开源。

Josh: 是的。我们看到 Meta 非常明显地从开源(它曾被视为开源世界的救世主)非常快地转向了闭源。这对他们或对任何人来说其实结果都不太好,这挺令人失望的。关于 “开源” 的实际含义,这里可能有一个小小的注意事项我们需要涵盖,因为它并不是真正意义上的开源。里面仍然包含着一些秘密。我认为更准确的分类方法是 “开放权重(open weights)”。

当你在进行模型训练时,假设有一万亿个参数,每一个参数在每次训练运行中都要被反复调整,这个过程会重复数万亿次。最终的输出结果就是这些 “权重”。它本质上只是一个巨大的文本文件,里面包含了所有经过精细调整的参数,模型就可以基于此运行。而它并不包含制造该模型所需的实际源代码,也不包含重新复制(复现)它的能力,它分享的仅仅是输出结果。

所以,虽然你可以拿走他们的输出结果,并且可以去重新调整和微调这些参数以提供你完全想要的东西,但它并没有给你 “配方”,并没有给你关于它是如何构建的秘密。因此,涉及到这些所谓的开源模型,这些中国公司仍然保留了部分专有知识,因为他们依然保留着最终得出这个结果的 “配方” 以及他们用于训练的数据。这里面有很多秘密,开放出来的只是输出,所以技术上叫做开放权重。

当我们说开源时,我认为我们真正的意思是:每当你听到一个 “开源模型”,很大程度上它其实是 “开放权重”。这是一个相当大的区别。因为这允许他们保留自己行事的 “独门秘方(secret sauce)”。。

Ejaaz: 我不一定认为这就是开源模型与集中式闭源模型之间的绝对对立,我觉得它会落在两者之间的某个地带。我们最近注意到了一种新型的产品,正被许多软件工程师和 AI 用户所使用。这或许能通过 Sakana AI 最近发布的新产品得到最好的展示。它被称为一款名为 Fugu(河豚)的新模型,他们将其描述为一个 “多智能体编排系统(multi-agent orchestration system)”。

它的基本工作原理是这样的:你像往常在 ChatGPT 或 Claude 里一样给模型发送一个提示词(prompt),它会将这个提示词分发到许多不同的模型中。这些模型可以是闭源的(如 Claude 和 GPT),也可以是开源的(如智谱 GLM 或 Kimi K2.7),同时也会分发给他们自己训练的名为 Fugu 的模型。这样带来的结果就是 “智能体辩论(agentic debate)”:这些模型会各自生成自己的答案,然后由另一个模型来充当裁判对 these 答案进行评判,并从中推导出最好的答案。

这些测试得出的结果是,你不仅获得了更高质量的输出,而且成本也更便宜。因为这个编排模块基本上会挑选最合适的模型去执行任务,在某些时候会更便宜;并且只有在真正需要解决那些其他便宜模型无法解决的难题时,才会动用最顶尖的模型。所以这为你省下了一大笔钱。我们在其他公司身上也看到了这一点,比如 OpenRouter 的新 Fusion API。

这里要表达的观点是,我们正走向一个理想的 AI 聊天机器人会同时使用多个模型的未来,而且这些模型可能不只来自同一家公司。那么,我对于美国政府以及任何决定去监管开源或闭源模型的政府所抱有的疑问是:你该如何去监管世界上每一个单一的模型?尤其是当 these 模型实验室来自其他国家,或者事实上是开源的?你根本无法监管开源模型,这就是它的核心意义所在。不管是开放权重还是完全开源,其核心理念就在于,如果你是在家里的硬件上运行它,政府是无法将其关闭的。所以这是一个非常有趣的微妙之处。我只是觉得美国政府目前所采取的立场,并不一定是最有建设性的。我理解他们为什么要这么做,但我们需要想出一个不同的框架。

Josh: 挺逗的,因为我今天早上也看到了关于这个 Sakana Fugu 的新闻,我应该没读错它的名字吧。我的意思是,在这之前我从来没听过它,我不知道你有没有听过,我想很多观看视频的人也从没听过这家公司。他们是一家日本公司,仿佛凭空冒出来一样,突然之间他们就发布了基准测试,显示其性能超过了 Fable。也许这是真的,也许他们确实使用了这种多智能体混合机制。但我认为同样值得注意的是,这些大部分都只是基准测试。

我这周末其实抽出了一些时间来体验这款全新的 GLM 模型。虽然我确定它在编码和技术用途上表现优异,但这通常不是我使用这些模型的主要场景。在我实际使用这些模型时,我会给它做一个整体的 “感觉测试(vibe test)”,我注意到我依然强烈地偏向于美国的闭源模型,比如 GPT、Anthropic 的 Opus 和 Claude。我的意思是,Fable 在当时可用的时候确实不可思议。尽管基准测试显示它在编码上非常胜任,但很多人并不是用它来编码的,而是用来做别的事情。而这些模型目前在整体的 “感觉检查(vibe check)” 上还没有通过,至少现在还没。

所以我认为这也是值得注意的——这些仅仅是基准测试。我鼓励任何在听这期节目的朋友,自己去亲自体验一下,看看效果。有些人可能确实能从使用更便宜的模型中获得巨大收益;而有些人则只是喜欢把所有的上下文都放在一个地方,并希望通过路由(routing)获得更好的整体体验。

我觉得我们在 Sakana Fugu 身上看到的这种,选择通过一系列开源和闭源模型来分发并路由他们的输出,从而产生一个更好、更强大结果的做法,是一个超级有趣的先例。我在想它的成本。当我查看文档时,我注意到并没有真正列出相关的成本。我必须假设它不会太低,但应该和闭源模型差不多,因为它在获取答案的过程中路由调用了许多私有模型以及一些开源模型。这意味着它可能消耗了相当大量的 Token,它不会完全是那种极低价格的开源模型。

但看到这种朝向更多 “基于路由器(router-based)” 应用发展的趋势是很有趣的——因为并不是每个人都需要去解决极其困难的挑战,也许你可以派生出几个子智能体,让他们使用更轻量级的模型来为你获取答案,而不需要去消耗大量高成本的 Token。所以这很酷,很有创新性。我不会说它完全是首创,我们以前见过类似的,但它是这种做法的一个新迭代,目前展示出了相当引人注目的基准测试结果。

Ejaaz: 是的。在成本方面,如果它和 OpenRouter 的 Fusion API 采用相同的架构,它大概可以实现比直接调用前沿模型便宜 30% 到 50% 左右。这与中国的一些开源模型相比可能算不上巨大,但如果你是一家大规模使用它的企业,它依然能为你省下一大笔钱。

乔希,我在想做完这期节目后我自己最大的收获是什么,我想主要的点在于——虽然我希望我是错的——未来发布的 AI 模型(Fable 及以上级别,无论来自 GPT 5.6 还是 6,或者是其他前沿 AI 实验室),其发布过程将会受到更严格的控制。因为政府将会开始更多地介入。我们将开始看到不同国家尝试进行 “国有化” 控制,以搞清楚如何去发布这些 AI 模型。因为如果让它们完全流落到民间(野外),它们可能会被利用并造成一些真正的破坏。我不想去设想如果发生重大事件会怎样,但我认为我们正在到达一个需要非常小心关注的节点。至少在这一期节目里,这是我正在努力尝试做的事。

Josh: 是的,我认为这没错。这些模型的演进速度、加速度以及它们发布的节奏完全是呈直线向上的。如果我们有一张图表向你展示重大模型发布之间的间隔时长,你会发现它正在变得越来越短、越来越短。这一趋势是不会改变的。所以必须找到一种能可靠推出这些模型的方法,否则,闭门背后存在的尖端技术与向公众公开的技术之间的鸿沟只会不断扩大。我不确定这会带来什么后果,但听起来它非常值得注意,而且必须在实质上发生一些改变。

因为取得进展的速度和力度并没有慢下来。一年后的世界会是什么样子?这些模型自我改进的速度会有多快?基准测试会变成什么样?我们届时甚至还能制造出基准测试吗?因为它将变得如此全能。我们正处于那个临界点上,因为我们正在接近曲线的垂直渐近线。这有点奇妙,感觉我们就像坐在这过山车上,我们在 “往下冲”——但我想它是反过来的,我们是在往上冲,而且冲得非常快。你无法真正确定它是不是在某种程度上正在脱离控制。

我倒不会说它正在脱离控制,但它确实变得非常快。这就像是,如果你把一辆车开得极快,一旦达到高速度,你就必须加倍小心,因为很多事情在瞬间就会变得摇晃不稳定。我们正处于这个节点,模型正在非常迅速地变得极为全能。我无法想象 OpenAI 达到 Mythos 级别的模型会是什么样子,我确定他们正在研发。我们经常谈论硬件——这批是 Blackwell 系列硬件上的模型,那等到 Vera Rubin 系列硬件出来时会发生什么呢?我们的加速会极其惊人。我认为现在就去着手构建 these 安全护栏是非常重要的,目前要跟上还算合理,因为当前你只需要集中精力关注某一个新发布的模型,而不需要去应付每隔一周由所有这些不同公司推出的 10 种不同的模型。

Ejaaz: 很有意思。这就是今天的新进展:中国带着他们的开放权重模型回来了(不要与开源混淆)。并且,我们目前依然无法访问 Fable,所以希望这些事情能得到解决。我想知道 DeepSeek 接下来要做什么,这是我接下来的疑问——DeepSeek 现在处于什么阶段?他们的 DeepSeek V5 或 V6 在哪里?他们刚刚完成了一轮巨额融资,估值达到 500 亿美元。虽然这个估值相比最前沿的实验室依然只是零头,但嘿,他们筹集了大约 90 亿美元,创始人自己就投了 30 亿美元。他们做得相当好。而我们最近一段时间还没看到他们发布新模型。

Josh: 是样,让我们拭目以待。这就是关于中国和开源模型的最新动态。非常感谢大家一如既往地观看。

Ejaaz: 我还有最后一个请求,乔希。这是我们上周一起散步时讨论过的事情。我们的节目正在寻找赞助商,或者任何能够支持我们的人。请联系我们。这一直以来都是乔希、我以及制片人卢克(Luke)在自费维持运营。现在我们对播放数据以及你们大家给予的所有支持感到非常有信心。我们非常希望能有一个让我们充满热情的合作伙伴加入,支持我们的愿景——将这档节目打造成全球领先的前沿 AI 科技播客。所以如果外面有任何听众受到了启发或想要支持我们,请告诉我们,给我们发私信。你知道我们在 X(推特)上,到处都在,联系我们就好,我们非常期待听到你的消息。那将会非常棒。

Josh: 那太好了。所有的支持我们都深表感激,这能让我们维持这里的运营并让节目保持强劲势头。所以,谢谢大家一如既往的支持。如果你听到了最后,你就是我们的铁杆粉丝。希望你喜欢这一期节目。一如既往地谢谢大家,我们下一期节目再见。

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。