锦缎研究院
2026.04.29 06:12

开个脑洞:如果 DeepSeek 和 Kimi 们合并

1854 年,伦敦。迈克尔·法拉第在皇家研究所的地下室中撒下铁屑,轻敲纸板。铁屑在看不见的磁场里排列成优美的弧线,他将这些弧线称为 “力线”,一种全新的物理学语言就此诞生。

同年秋,威廉·汤姆逊在格拉斯哥大学写下一组偏微分方程,用严密的数学语言重写法拉第的直觉,把 “场” 纳入牛顿力学的分析框架。汤姆逊相信,唯有方程,才能让自然规律被真正理解。

这两种理解世界的方式,在整个维多利亚时代既竞争又互哺,让电磁学在半个世纪内完成了三级跳——从实验室猜想,到数学精确描述,再到工程化——最终催生麦克斯韦方程组,成为第二次工业革命的基石。

一个半世纪后,相似的剧本在中国 AI 领域悄然重演。

2026 年 4 月 20 日,月之暗面发布 Kimi K2.6。四天后的 4 月 24 日,DeepSeek 开源 V4。两个万亿参数级开源模型在同一周落地,包揽全球权威开源模型榜单前两名。这是两家公司在过去 16 个月里又一次技术路线迎头相撞。

技术撞车撞到第 N 次,单纯的比较已然疲乏。就在日前,X 上出现了一则好玩的提问,配着一张梗图:如果 DeepSeek 和 Kimi 等中国开源公司合并,OpenAI 和 Anthropic CEO 会是什么反应?

仔细想想,在中国互联网史上,其实这一追问并不突兀。从 2012 年优酷与土豆的世纪联姻起,每隔几年,同一赛道的前两名便会在资本与巨头的意志推动下,从相杀走向相爱,把内耗转为合力,去应对外部更大的战场。

DeepSeek 与 Kimi 们会走进这条河流吗?我们今天就开个脑洞:假如它们真的合并,会发生什么?

01 技术互嵌:一个平视硅谷的全栈底座

DeepSeek 与 Kimi 们技术路线的高度互嵌,是探讨合并假设的基本前提。假设合并,第一个产物就是一个覆盖 “训练—推理—部署—应用” 全链条的模型平台。

首先,DeepSeek 与 Kimi 们在架构层面的互嵌已深入骨髓。DeepSeek 在 V3 中首创的 MLA 注意力机制,通过低秩压缩大幅削减 KV 缓存占用,解决的是长文本推理中 “内存即成本” 的根本困境。2025 年 7 月,Kimi 发布万亿参数开源模型 K2,直接采用 MLA 并将其扩展至万亿参数规模,证明这条技术路线规模化可行。

到 2026 年 4 月,剧本反转。DeepSeek 发布 V4,一项关键升级是用二阶优化器 Muon 替换沿用十年的 Adam 优化器。Muon 的有效性,正是 Kimi 在 K2 训练中首次在万亿参数规模上验证,并由 Kimi 团队系统性地公开了技术经验。

其次,在能力层面,它们分工清晰、价值有很多互补的地方。

DeepSeek V4 把单 token 推理算力压至 V3.2 的 27%,KV 缓存压缩至十分之一,百万 token 上下文从技术演示变为普惠基础设施。Kimi K2.6 则聚焦长程任务执行与 Agent 集群,支持 300 个子 Agent 并行协作、4000 次工具调用、13 小时不间断编码。OpenRouter 数据显示,K2.6 发布后跃居调用榜首,DeepSeek 紧随其后,两家同时进入全球前五。

多模态方面,Kimi K2.6 是全球开源前五中唯一支持图片与视频理解的模型;DeepSeek 在高阶推理、数学与代码评测中持续领先。二者在这一领域存在高度互补性。

最后,再硬件生态上,这两家的选择高度一致。

DeepSeek V4 明确下半年将支持华为昇腾 950,技术栈不再只依赖英伟达 CUDA,而是开始同步支持华为。Kimi 模型采用对国产芯片更友好的 INT4 量化技术,新发布的 Prefill-as-a-Service 技术更是支持国产芯片和已有英伟达芯片,降低对 CUDA 生态的依赖。如果是一家公司的话,在国产模型和国产算力的对接上会更有效率。

以上三个层面合在一起看,DeepSeek 在过去一个时期侧重解决 “模型够不够便宜”,Kimi 则侧重解决 “模型能不能干重要的事”。合并后的平台将因此同时具备极致推理效率与深度生产力嵌入能力,可以直接对标 OpenAI 与 Anthropic 的闭源模型加产品矩阵。

技术互补是现象。更根本的原因在于人。DeepSeek 与 Kimi 的两位创始人都信奉第一性原理,底层思维如出一辙。

梁文锋的底色,是一位量化工程师。他浙大毕业,没有留学背景,扎进量化投资靠算法交易完成资本积累,再投入 AGI 研究。这条路教会他一件事:把问题拆解到底层,重新计算每个环节是否冗余,用最少资源达成同样结果。他选择开源的理由也源于同一逻辑——“在颠覆性的技术面前,闭源形成的护城河是短暂的。” 语气平淡,逻辑锋利。

杨植麟的底色,是一位可计算学派的笃信者。清华本科,CMU 博士,求学期间以 Transformer-XL 等工作建立学术声望。他用六个字定义大模型的本质:“压缩产生智能。” 在他看来,只要找到更优的压缩方式,用更少的 token 表达同等信息密度,就能在算力受限下持续逼近更高智能。他以等差数列作比:一万个数字,最理想的压缩只存储规律和首尾两项,其余皆可还原。他要找的,就是大模型里的那条 “等差规律”。

一个用工程逼近极限,一个用逻辑逼近本质,殊途同归。这正是 DeepSeek 与 Kimi 技术互嵌所以发生的根由。

一项产业事实正在浮现:它们正在共同构建一套标准开源技术栈——MoE 架构、MLA 注意力、Muon 优化器、多模态能力、Agent 框架、国产芯片适配。开源模型在实际调用量快速提升,说明这套技术栈正在成为中国大模型的事实标准。

也就是说,假如 DeepSeek 与 Kimi 们合并,诞生一个平视 OpenAI 与 Anthropic 的全栈技术底座只是下限。两种计算精神的深度碰撞,将大幅推升大模型开源世界的进化速率。

02 商业合流:算力、收入与出海的叙事主权

技术互嵌已然够深。但如果只停在技术层,合并的价值只兑现一半。两家公司面临的商业瓶颈高度一致:算力不足,收入体量偏小,全球化叙事分散。

先看算力。DeepSeek 在 V4 定价说明中写了一句:“受限于高端算力,目前 Pro 的服务吞吐十分有限,预计下半年昇腾 950 超节点批量上市后价格会大幅下调。” Kimi 内部则流传一个说法:“制约业务发展的只有算力,现在至少还有 10 倍的需求没有被满足。”

合并之后,芯片采购、机房建设、国产适配的投入不再重复,对英伟达、华为等供应商的议价能力随之提升。更重要的是,统一技术栈意味着国产芯片只需适配一套标准,生态碎片化成本大幅压缩。

再看收入。Kimi K2.5 发布后 20 天内收入超过 2025 年全年,海外收入已超越国内,付费用户月环比增速超过 170%。K2.6 发布时,API 输入价格从每百万 token 4 元提至 6.5 元,涨幅 58%,这是 K2 系列上线以来的首次涨价。DeepSeek 则以 “价格屠夫” 著称,V4 Pro 输入每百万 token 12 元人民币,到 5 月结束之前还限时打 2.5 折,仅 3 元。极致低价快速俘获了开发者,也压缩了盈利空间。

如果采用统一价格体系、持续且合理的成本下沉,有助于中国开源模型从互相压价转向协同定价,在国际市场建立更稳固的价值锚点。

出海方面,Cursor 套壳 Kimi K2.5,Cloudflare 引入 Kimi 作为主力模型,Perplexity 将 Kimi 列为唯一引入的中国模型,日本乐天基于 DeepSeek 开发 Rakuten AI 3.0。两家在海外已各自建立了初步的用户心智据点。

合并后,统一品牌和开发者关系将降低海外认知成本,避免两个中国开源模型在同一生态位上彼此消耗。一个更强的统一品牌,在海外市场与云服务商、芯片厂商和顶级企业客户谈判时,议价空间和合作条款的主动权将完全不同。

03 人才棋局:以长期技术愿景凝聚顶尖研究者

DeepSeek 与 Kimi 是中国 AI 创业赛道中人数最精简、人才密度最高的两家公司,也都承受着大厂精准的挖角压力。

过去一年,DeepSeek 被系统性挖走了至少五位核心成员,覆盖了基座模型、推理、OCR、多模态四条核心技术线。Kimi 在 2025 年年中经历长达半年的技术静默期,同样遇到员工流失。

两家团队的技术气质也很相似。双方都重视底层关键技术的研究:DeepSeek 脱胎于幻方量化,工程优化与成本控制文化浓厚;Kimi 由清华与 CMU 学术背景的研究者主导,学术探索与前沿创新氛围浓厚。

假设得以合并,将形成覆盖量化工程、学术研究、产品落地的复合型团队,在优化器、注意力机制、残差连接等底层领域的研究深度,可以更好的与 OpenAI 和 Anthropic 的研究部门正面抗衡。

一个更大的合并平台,能为顶尖研究者提供更具吸引力的股权空间与长期技术愿景。当公司体量接近或超过 OpenAI 与 Anthropic 的估值水平时,被字节、腾讯、阿里以高薪逐个击破的风险将显著降低。

这也是合并假设的一个重要隐喻:大模型创业总要面对人才掐尖的现实。与其让大厂一颗颗拔掉核心棋子,不如把棋盘做大。

04 资本拼图:消弭技术实力与商业估值之间的巨大折价

从资本层面看,两家公司的融资节奏同样呈现清晰的互补性。

DeepSeek 此前从未引入外部资金。2026 年 4 月首次开启外部融资,估值从最初至少 100 亿美元一路飙升至超 200 亿美元。融资这扇门被推开,意味着外部环境的压力已超过对内部独立性的坚持。

Kimi 则在 2025 年末至 2026 年初完成三轮融资,估值从 43 亿美元跃升至 180 亿美元。3 月 26 日,彭博报道月之暗面正在考虑赴港 IPO,同步进行一轮最高 10 亿美元的融资。

两家的资本画像由此形成对照:一方初次向外开放,但估值中枢模糊;一方已证明付费模式的可行性,但同样被算力资源钳制了规模。这种互补性,构成了合并谈判桌上关于估值空间博弈最具分量的筹码。

合并后的估值,则要从全球 AI 定价坐标中寻找参照。截至 2026 年 4 月,OpenAI 投后估值已逾 8500 亿美元,Anthropic 一级市场估值达 3800 亿美元(最近在未上市股权交易平台的价格甚至炒到突破 1 万亿美元,反超了 OpenAI)。反观 DeepSeek 与 Kimi,即便将双方当前估值简单相加,也不及 Anthropic 的二十分之一。

悬殊的差距背后,映射的正是两家公司因各自受制于技术栈、资源能力与商业模式的不完整性,其技术实力与商业估值之间的巨大折价。

05 统一牌桌:从开源模型搅局者到规则制定者

在全球 AI 格局中,中国开源模型已成衡量全球硬件进步的标尺。一如 Meta 最新模型 Muse Spark 的官方博客中,对比基准直接列出 DeepSeek 与 Kimi;再如黄仁勋在英伟达 2026 年 GTC 演讲中,用 DeepSeek R1 和 Kimi K2.5 展示下一代 Blackwell Ultra 芯片性能

但海外开发者社区面对的是一个 “中国开源模型群像”,而非一个清晰品牌。统一品牌、统一 API、统一技术路线图,将大幅降低全球开发者的认知与迁移成本。

具体到 DeepSeek 与 Kimi,二者的双头并进带来了关注同时,也存在显著的战略叙事的分散与模糊问题。合并有机会将中国开源模型的声音集中为一个更清晰的品牌。

此外在生态对抗层面,硅谷正在快速走向封闭。OpenAI 不再公布训练细节,Anthropic 与 Google 的核心方法讳莫如深。Meta 虽以 Llama 系列维持开源叙事,技术透明度已远不及中国公司。

DeepSeek 与 Kimi 的技术报告与开源代码,构成了全球开源社区最重要的公共知识资产。多次技术撞车,表面是竞争,内里是开源生态的正向循环。这种技术扩散,在硅谷头部公司之间几乎不可能发生。合并后,这种协同将从暗中的默契转化为明面的体系,对全球开发者的吸引力将进一步放大。

定价权层面,两家中国公司各自为战时,实质上在互相压低对方的商业价值。统一价格体系与开发者生态,中国开源模型才能真正从搅局者转变为规则制定者。

06 难以逾越的高墙:假设很美好,但合并几乎不可能

逻辑推到最后一步,必须面对一个事实:合并几乎不可能发生,我们只是开个脑洞。

首先,创始人独立性是第一堵墙。梁文锋与杨植麟都是技术基因极强的创始人,各自带出一支战斗力饱满的团队。DeepSeek 此前完全不拿外部融资,靠幻方量化自有资金烧至今日。梁文锋的独立性,投资圈有目共睹。一位接近他的人评价:“这不是一个出得起价就能进的标的,钱在梁文锋的筛选标准里,是最不重要的那一项。” 杨植麟在三个月内将公司从估值低谷拉升至 180 亿美元,经历了完整的 V 型反转。

两个广东人,相差八岁。一个从量化圈杀出,一个在学术界登顶。要让任何一方在合并中屈居次要地位,几乎无望。

其次,股东利益难以协调。腾讯参与 Kimi 多轮投资,又正接触 DeepSeek;阿里同时出现在两家投资名单中。大厂的战略投资,本质是两边下注,而非促成一家独大。若强行推动合并,腾讯与阿里在 AI 赛道的布局灵活性将被大幅削弱。更关键的是,DeepSeek 此前从未引入外部资本,梁文锋对公司的控制权近乎绝对。Kimi 方面已历经多轮融资与多元股东,治理结构远比 DeepSeek 复杂。

更关键的是,监管审查可能不会放行。两家合并后或将占据中国开源模型的主导地位,开源赛道上的其他独立大模型公司或将被瞬间边缘化。反垄断审查即成难以逾越的一关。中国 AI 所需要的,是一个健康的竞争生态,而非一个开源领域的巨头。

另外还有一条更深层的原因。竞争本身就是最高效的创新机制。回看这 16 个月,多次技术撞车恰恰印证:竞争加速创新。这种追赶若变成一家公司的内部迭代,反而可能丧失外部压力催生的紧迫感。硅谷的 OpenAI 与 Anthropic 也在互相刺激,虽然闭源,竞争逻辑并无二致。

开源生态的多样性远比统一性重要。全球开源模型需要多条技术路线并存,一旦中国只剩一家开源巨头,技术路线一旦走偏,整个中国开源生态便有倾覆之险。多一棵树,便多一份抗风险的能力。

07 结语:竞争即进化

百余年产业史反复验证着一条规律:最强大的系统,并非将所有零件塞入同一台引擎,而是让不同的引擎在同一片海域中互为灯塔。产业真正的成熟,不是所有公司合并成一个巨无霸,而是多家公司在竞争中相互学习、共同进化,最终形成比任何单一公司都更强大的生态力量。

全球 AI 竞争已从单一技术比拼升维为生态对抗。在这场对抗中,中国不需要一个开源领域的超级巨头,而需要几座相互映照的高峰。它们是对手,亦是彼此最好的参照系。

一如法拉第的力线与汤姆逊的方程,一个用直觉触摸世界的形状,一个用逻辑推演真理的骨骼,最终在麦克斯韦方程处合流,却从不曾合并为一人。它们各自独立,才让彼此的光芒有了可被丈量的参照。

在通往 AGI 的漫漫长路上,单枪匹马或许能走得很快;但只有那些愿意与同行者分享火种的队伍,才能穿越大雪封山的无人区。

The copyright of this article belongs to the original author/organization.

The views expressed herein are solely those of the author and do not reflect the stance of the platform. The content is intended for investment reference purposes only and shall not be considered as investment advice. Please contact us if you have any questions or suggestions regarding the content services provided by the platform.