
MiniMax released the M2.5 model: running for 1 hour costs only 1 USD, which is 1/20 of GPT-5's price, with performance comparable to Claude Opus

M2.5 模型实现性能与成本的双重突破。价格仅为 GPT-5 等主流模型的 1/10 至 1/20。性能比肩 Claude Opus,在多语言编程测试 Multi-SWE-Bench 夺冠,任务完成速度较上代提升 37%。采用原生 Agent 强化学习框架,内部已有 30% 任务由 AI 自主完成,编程场景代码生成占比达 80%。
MiniMax 推出了其最新迭代的 M2.5 系列模型,在保持行业领先性能的同时,大幅降低了推理成本,试图解决复杂 Agent 应用在经济上不可行的痛点,并宣称其在编程、工具调用及办公场景中已达到或刷新了行业 SOTA(当前最佳)水平。
2 月 13 日,MiniMax 公布的数据显示,M2.5 展现了显著的价格优势。在每秒输出 50 个 token 的版本下,其价格仅为 Claude Opus、Gemini 3 Pro 以及 GPT-5 等主流模型的 1/10 至 1/20。
在每秒输出 100 个 token 的高速运行环境下,M2.5 连续工作一小时的成本仅需 1 美元,若降至 50 token/秒,成本进一步下探至 0.3 美元。这意味着 1 万美元的预算足以支撑 4 个 Agent 连续工作一年,极大地降低了构建和运营大规模 Agent 集群的门槛。
在性能维度,M2.5 在核心编程测试中表现强劲,并在多语言任务 Multi-SWE-Bench 上取得第一,整体水平比肩 Claude Opus 系列。同时,模型优化了对复杂任务的拆解能力,在 SWE-Bench Verified 测试中,完成任务的速度较上一代 M2.1 提升了 37%,端到端运行时间缩短至 22.8 分钟,与 Claude Opus 4.6 持平。
目前,MiniMax 内部业务已率先验证了该模型的能力。数据显示,其内部 30% 的整体任务已由 M2.5 自主完成,覆盖研发、产品、销售等核心职能。特别是在编程场景中,M2.5 生成的代码已占据新提交代码的 80%,显示出该模型在真实生产环境中的高渗透率和可用性。
击穿成本底线:无限运行 Agent 的经济可行性
M2.5 的设计初衷是消除运行复杂 Agent 的成本约束。MiniMax 通过优化推理速度和 token 效率实现了这一目标。模型提供 100 TPS(每秒传输事务处理量)的推理速度,约为当前主流模型的两倍。
除了单纯的算力成本降低,M2.5 通过更高效的任务拆解和决策逻辑,减少了完成任务所需的 token 总量。
在 SWE-Bench Verified 评测中,M2.5 平均每个任务消耗 3.52M token,低于 M2.1 的 3.72M。
速度与效率的双重提升,使得企业在经济上几乎可以无限制地构建和运营 Agent,将竞争焦点从成本转移至模型能力的迭代速度上。
编程能力进阶:像架构师一样思考与构建
在编程领域,M2.5 不仅关注代码生成,更强调系统设计能力。模型演化出了原生的 Spec(规格说明书)行为,能够以架构师视角在编码前主动拆解功能、结构和 UI 设计。
该模型在超过 10 种编程语言(包括 GO、C++、Rust、Python 等)和数十万个真实环境中进行了训练。
测试显示,M2.5 能胜任从系统设计(0-1)、开发(1-10)到功能迭代(10-90)及最终代码审查(90-100)的全流程。
为了验证其在不同开发环境下的泛化性,MiniMax 在 Droid 和 OpenCode 等编程脚手架上进行了测试。
结果显示,M2.5 在 Droid 上的通过率为 79.7,在 OpenCode 上为 76.1,均优于上一代模型及 Claude Opus 4.6。

复杂任务处理:更高效的搜索与专业交付
在搜索和工具调用方面,M2.5 展示了更高的决策成熟度,不再单纯追求 “做对”,而是寻求以更精简的路径解决问题。
在 BrowseComp、Wide Search 和 RISE 等多项任务中,M2.5 相较于前代节省了约 20% 的轮次消耗,以更优的 token 效率逼近结果。

针对办公场景,MiniMax 通过与金融、法律等领域资深从业者合作,将行业隐性知识融入模型训练。
在内部构建的 Cowork Agent 评测框架(GDPval-MM)中,M2.5 在与主流模型的两两对比中取得了 59.0% 的平均胜率,能够输出符合行业标准的 Word 研报、PPT 及复杂的 Excel 财务模型,而非简单的文本生成。


技术底座:原生 Agent RL 框架驱动线性提升
M2.5 性能提升的核心驱动力来自于大规模强化学习(RL)。
MiniMax 采用了名为 Forge 的原生 Agent RL 框架,通过引入中间层解耦了底层训推引擎与 Agent,支持任意脚手架的接入。
在算法层面,MiniMax 沿用了 CISPO 算法以保障 MoE 模型在大规模训练中的稳定性,并针对 Agent 长上下文带来的信用分配难题,引入了过程奖励机制(Process Reward)。
此外,工程团队优化了异步调度策略和树状合并训练样本策略,实现了约 40 倍的训练加速,验证了模型能力随算力和任务数增加呈现近线性提升的趋势。

目前,M2.5 已在 MiniMax Agent、API 及 Coding Plan 中全量上线,其模型权重也将在 HuggingFace 开源,支持本地部署。
