Microsoft and Google Release New AI Models on the Same Day: Featuring Voice, Image, and Local Open-Source Capabilities

华尔街见闻
2026.04.03 01:13

微软和谷歌同日发布新 AI 模型。微软推出 MAI 基础模型,包括 MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2,主要通过 Azure Foundry 提供。谷歌则推出 Gemma 4 开源模型,采用 Apache 2.0 许可,具备高级推理和生成能力,优化用于本地运行。两者在功能和提供方式上存在明显差异。

微软和谷歌周四都宣布推出新的 AI 模型,但两者差异明显:微软发布的是新的基础模型 MAI,仅通过其 Azure Foundry 和仅限美国的 MAI Playground 平台提供;而谷歌推出的是全新的 Gemma 4 开源模型,可以在本地运行。此外,谷歌还将这些新开源模型的许可协议改为 Apache 2.0。

三款 “世界级” 自研 MAI 模型

微软推出的 “世界级” 自研 MAI 模型,一共包括三款:

首先是 MAI-Transcribe-1,这是一款 “最先进” 的语音转文本模型,能够理解全球使用最广泛的 25 种语言,其批量转录速度相比微软现有的 Azure Fast 方案提升了 2.5 倍。

其次是 MAI-Voice-1,这是一款新的语音生成模型,只需 1 秒即可生成 60 秒的音频。同时,它还支持在 Microsoft Foundry 中通过短音频样本创建定制语音。

最后是 MAI-Image-2,这是一款更快的文生图模型,目前已经开始在 Copilot 中上线,接下来将陆续应用于 Bing 和 PowerPoint。

微软表示:

“我们正在快速部署这些顶级模型,用于支持自家的消费者和商业产品。很快你将会在 Foundry 以及微软各类产品和体验中看到更多模型。”

谷歌推出的 Gemma 4 开源模型

谷歌推出的 Gemma 4 开源模型采用 Apache 2.0 许可,而不再使用此前自定义的 Gemma 许可协议。谷歌表示,这些模型具备高级推理能力、代理式工作流、代码生成,以及视觉和音频生成能力,并提供四种不同版本,针对本地运行进行了优化,甚至可以运行在 “数十亿台安卓设备” 上。

谷歌表示:

“Gemma 4 基于与 Gemini 3 相同的世界级研究和技术,是目前你可以在本地硬件上运行的能力最强的一系列模型。它们与我们的 Gemini 模型形成互补,为开发者提供业内最强大的开源与专有工具组合。”

其中,规模较大的 26B 和 31B 版本 Gemma 4 模型,旨在运行于消费级 GPU 上,可用于驱动 IDE、编程助手以及代理式工作流。而更轻量的 E2B 和 E4B 版本,则更注重多模态能力和低延迟处理,适用于移动设备和物联网设备(包括树莓派)。这些模型还支持完全离线运行。

谷歌的 Gemma 4 开源模型可以在多个平台下载,包括 Hugging Face、Kaggle 和 Ollama。谷歌强调:

“这些模型在基础设施安全方面,遵循与我们专有模型相同的严格安全协议。”

更多消息,持续更新中

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。