Meta was reported to release new image and video AI models in the first half of next year, researching and developing world models

华尔街见闻
2025.12.18 22:46
portai
I'm PortAI, I can summarize articles.

媒体称,Meta 正开发代号为 Mango 的新一代图像和视频 AI 模型,以及以提升编程能力重点之一的代号 Avocado 大语言模型。上周报道称 Meta 在开发的 Avocado 可能采用专有而非开源模式,标志着 Meta 长期坚持的开源战略发生重大转变。

社交媒体巨头 Meta 传出在 AI 竞争中发力的最新消息,反映其在战略重心从开源模式转向追求前沿盈利模型的转变。

美东时间 18 日周四媒体报道,Meta 的首席 AI 官 Alexandr Wang 在周四的内部问答会上披露,Meta 正在开发代号为 Mango 的新一代图像和视频 AI 模型,以及代号为 Avocado 的下一代大语言模型(LLM),预计将于 2026 年上半年发布。

Wang 表示,Avocado 模型的重点之一是提升编程能力,同时公司正处于研究开发世界模型的早期阶段。世界模型是一种通过吸收视觉信息来学习环境的 AI 技术。

这一消息进一步印证了 Meta 在 AI 领域的战略调整。上周华尔街见闻就提到,有报道称,Meta 正在开发新的前沿 AI 模型 Avocado,训练模型时采用了使用了阿里巴巴的通义千问(QWEN)等第三方模型进行优化,且可能采用专有而非开源模式。这与 Meta 此前主推的开源 Llama 系列形成鲜明对比。

为推动 AI 研发,Meta 在今年夏天重组了 AI 团队,聘请 Alexandr Wang 领导新成立的超级智能部门 Superintelligence Labs。CEO 扎克伯格还亲自从 OpenAI 挖走了 20 多名研究人员,组建了一支超过 50 人的 AI 专家团队。

双模型布局:图像生成与语言能力并进

据本周四的报道,Meta 正在同步推进两个核心 AI 模型的开发。图像和视频模型 Mango 旨在增强 Meta 在生成式 AI 领域的竞争力,而文本模型 Avocado 则专注于提升编程等关键能力。

图像生成已成为大型 AI 公司竞争的关键战场。

谷歌今年 8 月末推出了基于 Gemini 2.5 Flash 模型的 AI 图像生成及编辑工具——Nano Banana,推动 Gemini 月活跃用户从 7 月的 4.5 亿增至 10 月底的超 6.5 亿。

Meta9 月 25 日推出了与 Midjourney 合作开发的 AI 视频生成器 Vibes,不到一周,OpenAI 就发布了自己的视频生成应用 Sora。

OpenAI CEO Sam Altman 在上周与记者会面时强调了 AI 图像生成对消费者的重要性,称这是许多用户的主要兴趣点,也是让他们持续回访的"粘性"功能。

战略转向:从开源到专有模式

据上周的报道,Meta 的 AI 战略正在发生重大转变。公司内部许多人原本预计 Avocado 模型会在今年年底前发布,但计划已推迟至 2026 年第一季度。

报道称,Avocado 可能采用专有模式,这意味着外部开发者无法自由下载其权重和相关软件组件。此举若最终实施,将标志着该公司长期以来坚持的开源战略发生显著转变,其做法将更接近谷歌与 OpenAI 等主要竞争对手的模式。

报道称,这一转变的催化剂之一是 Llama 4 在 4 月发布后未能赢得开发者青睐。此外,中国 AI 新星 DeepSeek 发布的 R1 模型采用了 Llama 架构的部分内容,这让 Meta 部分员工感到不满,进一步凸显了开源策略的风险。

扎克伯格去年曾预测 Llama 系列将成为"业内最先进"的模型,并在今年 1 月的财报电话会议上专门讨论了 Llama。但在 10 月的最新财报会议上,他仅提及该品牌一次。

Meta 今年 6 月豪掷 143 亿美元投资 Scale AI,挖来了这家独角兽的创始人汪韬(Alexandr Wang),并在 10 月末公布三季报时将今年的公司资本支出指引上调至 700 亿至 720 亿美元。

世界模型:AI 理解物理世界的新前沿

澎湃新闻此前介绍,世界模型的灵感源于人类的世界心智模型,人类通过感官获取的抽象信息在大脑中被转化为对周围世界的具象理解,基于这些模型,大脑对世界进行预测,从而影响感知和行动。

英伟达指出,世界模型是用于理解现实世界动态的神经网络,包括物理属性和空间属性。它们可以使用文本、图像、视频和运动等输入数据来生成模拟实际物理环境的视频,能够为人工智能提供理解真实三维物理世界的能力,对具身智能的实现具有重大意义。

不过,世界模型面临显著的技术挑战。与目前用于生成式模型的计算量相比,训练和运行世界模型需要庞大的算力。世界模型也存在幻觉问题,并会内化训练数据中的偏见。如果这些障碍被克服,世界模型可以为机器人技术和 AI 决策带来突破,使 AI 能够对所处情境形成理解并推理出可能的解决方案。