
Existing paths are blocked? OpenAI and Amazon consider changing the training methods for large models

AI 研究范式或迎来根本转变:专家主张放弃 “先预训练后微调” 的通用模式,转向在训练早期就为特定目标(如代码、客服)引入精选数据。若此路径普及,AI 开发将从打造 “全能模型” 转向建多个从零开始的 “专用模型”,行业生态与团队结构将因此重塑。
随着人工智能领域竞争进入深水区,行业顶尖研究人员正对现有的模型训练范式提出质疑。
来自 OpenAI、Thinking Machines Lab 以及亚马逊的研究人员正在探讨一种根本性的转变:放弃目前通用的 “先预训练、后后训练” 的标准流程,转而采用针对特定任务更早引入精选数据的训练模式,以解决现有模型的效率低下和 “裂脑问题” 等缺陷。
这一潜在的转变由亚马逊的 David Luan 等人大力倡导。其核心观点在于,目前的通用训练路径——即先赋予模型广泛的世界知识(如诗歌或园艺),再针对特定任务(如代码编写或客户退款)进行微调——在逻辑上并不总是合理的。研究人员认为,如果模型的最终用途已经确定,那么在预训练阶段就应引入与任务高度相关的精选数据,从而更直接地为最终目标服务。
这种方法论的调整若付诸实践,将深刻改变 AI 行业的开发格局。这不仅意味着开发团队可能不再需要按照预训练和后后训练进行人为分割,更预示着市场将从 “一个通用模型适应所有场景” 走向 “基于不同数据集构建专用模型” 的时代。这种转变将迫使开发者在训练初期就对数据进行更严格的筛选,从而决定模型在特定领域的专长与短板。
市场已经出现了这种分化的迹象。OpenAI 目前正通过路由器将 ChatGPT 的查询分流至不同模型处理,并开发了如 GPT-5-Codex 等专用模型。这种策略反映出消费者对简单聊天机器人的需求,与公司追求超级智能、科学研究(如火星殖民或疾病治疗)等高端目标之间存在巨大差异。若进一步深化这一路线,OpenAI 可能需要彻底重组其研究团队以适应完全不同的模型训练需求。
重塑训练逻辑:摒弃通用冗余
目前的 AI 训练规范在某种程度上模仿了人类的学习过程,即在童年时期积累广泛的基础知识,随后学习特定技能。然而,行业内部开始反思这一流程的效率。David Luan 指出,对于一个旨在处理代码或客户服务的模型而言,花费大量算力去学习完全不相关的领域(如诗歌或园艺)是一种资源浪费。
这种 “广撒网” 式的预训练虽然直观,但也导致了诸如 “裂脑问题” 等技术瓶颈,即模型可能仅因提问方式的不同而给出错误的答案。新的思路主张将预训练过程用于接触与既定任务更相关的精选数据。OpenAI 和 Thinking Machines Lab 的研究人员对此表示认同,部分人士甚至建议取消不同训练阶段的独立团队,将人员整合为一个统一的训练团队,以提高针对性。
专用模型崛起与组织重构
这一变革将对 AI 模型的最终形态产生深远影响。研究人员必须在训练早期就决定纳入哪些数据,这将直接决定模型的能力边界。例如,在早期训练中增加数学和代码数据而减少散文数据,可能会造就一个卓越的编程助手,但牺牲其在创意写作或与用户情感交流方面的能力。
这将导致未来 AI 市场不再依赖于对同一个预训练模型进行后期修补,而是涌现出大量基于不同基础数据集训练的专用模型。据 OpenAI 内部情况,公司已经意识到这种需求分化。一方面是消费者希望 ChatGPT 回答简单问题并充当聊天伙伴,另一方面是公司致力于推理模型和超级智能的前沿研究
。目前,OpenAI 虽然所有模型仍基于同一预训练模型,但已通过路由技术和特定版本(如 GPT-5-Codex)来应对这种复杂性。如果未来转向为不同目的训练完全独立的模型,将要求公司对研究团队进行彻底的重组。
硬件突破与资本押注
在软件训练模式酝酿变革的同时,硬件领域的创新也在加速,资本正密切关注能提升能效的新技术。光子芯片初创公司 Neurophos 刚刚完成了由比尔·盖茨旗下的 Gates Frontier 领投的 1.1 亿美元 A 轮融资,微软旗下的风险投资公司 M12 也参与其中。
Neurophos 致力于设计利用光而非电子进行 AI 数学运算的芯片。据该公司联合创始人兼 CEO Patrick Bowen 介绍,其目标是在 2028 年交付一款芯片,其速度和效率将是英伟达 Blackwell 芯片的 50 倍。微软高管 Marc Tremblay 表示,现代 AI 推理对电力和算力的需求巨大,行业需要计算层面的突破。
与此同时,OpenAI 也在加强自身的基础设施建设。OpenAI 首席财务官 Sarah Friar 在世界经济论坛上透露,该公司的定制推理芯片正在进行 “流片”,即制造前的最后一步。她还表示,去年宣布的价值超过 5000 亿美元的 Stargate 基础设施项目已建成过半,且“进展超乎想象”,公司已在甲骨文的 Stargate 园区服务器上训练模型。
行业整合与竞争动态
AI 领域的并购与融资活动持续活跃。据 The Information 数据,旨在定制 AI 模型的软件公司 Lightning AI 与数据中心提供商 Voltage Park 合并,新公司估值超过 25 亿美元。此外,Yelp 同意以 3 亿美元收购 AI 代理初创公司 Hatch。谷歌 DeepMind 则通过许可协议聘请了语音 AI 初创公司 Hume AI 的 CEO 及多位顶尖工程师。
在巨头动向方面,据彭博报道,苹果正与谷歌谈判,计划利用其云基础设施及 TPU 芯片来推出更新版的 Siri,并计划最早于 2027 年推出 AI 驱动的可穿戴设备。英伟达 CEO 黄仁勋据报正准备前往中国,试图在这个战略市场重新站稳脚跟。
在监管与伦理层面,Anthropic 发布了 Claude 的新版 “宪法”,相比 2023 年的初版,新文件减少了指令性,给予模型更多判断空间,并罕见地提及了模型可能具有某种 “意识” 或 “道德地位” 的可能性。白宫经济顾问委员会则发布报告预测,生成式 AI 将引发美国经济的深刻转型,有望显著提振生产力和增长。
