Track Hyper | Edge AI Model Deployment: How does Apple do it?

封闭的苹果商业帝国，开了一丝门缝。

作者：周源/华尔街见闻

AI 已成为缺乏技术创新的智能手机行业走向 “新生” 的新技术焦点。

最早在端侧实现 AI 语音助手 “Siri” 的苹果公司，进入 2024 年以后，一改在最近两年有意忽视 AI 的做派，开始频频向 AI 递送秋波。

最近，苹果公司在其新款 MacBook Air 新闻稿中，明确提到了这是一款 “用于 AI 的全球最佳消费级笔记本电脑”，这个提法在最近两年非常罕见。此前，苹果似乎有意回避 “AI” 的提法，常常用 ML（机器学习：Machine Learning）代替 AI。

与国内一众同行不一样的地方在于，苹果推动 AI 技术在端侧的落地，采用 “论文先行” 的方式。

3 月，苹果 Siri 团队发表了一篇名为《利用大型语言模型进行设备指向性语音检测的多模态方法》的论文，主要讨论在 2023 年将 “Hey Siri” 简化成 “Siri” 后，再简化掉 “Siri”，从而将与苹果手机的人机对话做到无缝衔接，自然而然。

这只是苹果推动 AI 在端侧落地的一个微小动作，毕竟 Siri 在 2011 年就推出了。

真正能体现苹果在端侧 AI 技术布局和成果的是 4 月 24 日的那件事：苹果推出 OpenELM。这是一个全新的开源大型语言模型（LLM）系列，能完全在单个设备上运行文本生成任务，无需连接云服务器。

也就是说，OpenELM 就是眼下国内智能手机商说的 AI 手机在端侧的大模型部署。最近有消息持续放出，主要涉及今年 6 月的苹果 WWDC（苹果全球开发者大会：Worldwide Developers Conference）推出的 iOS 18，会内置哪些端侧 AI 功能。

进入 2024 年，苹果开始真正启动端侧 AI 战略。虽然苹果从未这么描述过，但就现实角度看，苹果实际上也开始 “AII in AI”。

跟着微软推动 AI 模型瘦身

作为智能手机的全新产品定义者、移动互联网产业的开创者，苹果公司，在软件层面的受关注度不如硬件高，但实际上重要性丝毫不亚于硬件技术迭代。

4 月 24 日，苹果在全球最大的 AI 开源社区——Hugging Face 发布 OpenELM（Open-source Efficient Language Models）系列模型。这是苹果 AI 赛道最近一年内最重要的举措。

OpenELM 共有 8 个模型：4 个预训练模型和 4 个指令调整模型，参数量分别为 2.7 亿（0.27B）、4.5 亿（0.45B）、11 亿（1.1B）和 30 亿（3B）。

所谓参数，是指 LLM（大语言模型：Large Language Model）中人工神经元之间的连接数。通常，参数越多，则性能越强、功能越多。

从参数规模上不难看出，OpenELM 模型实际上就是为端侧 AI 而生。

什么是预训练？这是一种是 LLM 生成连贯文本的方法，属于预测性练习；指令调整则是让 LLM 对用户的特定请求做出相关性更强的输出的方法。

苹果 AI 团推发表的论文指出，OpenELM 模型基准测试结果在配备英特尔 i9-13900KF CPU 和英伟达 RTX 4090 GPU、运行 Ubuntu 22.04 的工作站上运行；同时，苹果也在配备 M2 Max 芯片和 64GB RAM、运行 MacOS 14.4.1 的 MacBook Pro 上做基准测试。

OpenELM 模型的核心优势是采用的层级缩放策略，这种策略通过在 Transformer 模型的每一层中有效分配参数，从而显著提升了模型的准确率。

根据最近的测试结果统计结果显示，OpenELM 在 10 次 ARC-C 基准测试中的得分率为 84.9%，在 5 次 MMLU 测试中的得分率为 68.8%，在 5 次 HellaSwag 测试中的得分率为 76.7%。

这不是苹果在 AI 软件上的首次动作。

2023 年 10 月，苹果低调发布了具有多模态功能的开源语言模型 Ferret。与去年相比，4 月 24 日的模型，技术框架相对更完整，还涵盖数据整理、模型构建与训练/调整与优化。

不知是巧合还是有别的原因，4 月 23 日，微软也发布了可完全在智能手机（iPhone 15 Pro）上运行的 Phi-3 Mini 模型：参数规模 3.8B（38 亿），性能可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美。

更重要的是，无论是 Phi-3 Mini 模型，还是 OpenELM 模型，都能完全在智能终端的端侧运行，无需联网。

这就说明，苹果正式开始在端侧推动部署 AI LLM，其参数最小模型只有 0.27B，这与国内智能终端的端侧 LLM 相比，就参数量来说，只有不到 10%。

国内为了能做到在端侧本地化运行 LLM，通常依靠提高 LLM 压缩率，以实现在有限的内存空间（12GB-24GB）“塞入” LLM，而苹果直接减小了 LLM 的参数规模，但训练和推理精度并没有随之也跟着降低。

虽然在 3 月，苹果推出了参数规模高达 30B 的 MM1 大模型（多模态大型语言模型）——Forret 模型。但从苹果开源的 LLM 大模型框架看，苹果在大力推动 LLM 的 “瘦身计划”。

前所未见的动作意向不明

很明显，从 2023 年 10 月以来，苹果开始推动 AI 技术在终端的落地，目标是 “让人工智能在苹果设备上本地运行”。今年 1 月苹果发表的论文《LLM in a flash：Efficient Large Language Model Inference with Limited Memory》更明显地显示苹果在向着这个目标迈进的努力。

通过 OpenELM 模型，苹果展示了在 AI 领域的技术和目标框架：OpenELM 专为终端设备设计，这能优化苹果现在的多终端体验——目前展示在苹果笔电上的运行能力；其次，在小规模的 LLM 上兼顾性能和效率；第三，开源。

尽管如此，苹果这些自研的 LLM 或者一些技术框架，能否会内置在今年 6 月举行的 WWDC 24 上即将推出的 iOS 18 中，目前无法明确。因为，苹果还在与谷歌和 OpenAI 接触，不排除会在 iOS 内置这些竞对的 AI 技术。

外界现在很难获知苹果和谷歌以及 OpenAI 的沟通内容，也不知道苹果会和哪个公司达成 AI 技术的商业合作。除了这两家大名鼎鼎的技术公司，苹果还在和一家名为 “Anthropic” 的 AI 技术初创公司接触。

苹果推动与合作伙伴的技术合作，有助于加速苹果进入聊天机器人领域（与谷歌的接触主要集中在机器人 Gemini 聊天方面）的进程，同时能规避风险。通过将生成式 AI 功能外包给另一家公司，蒂姆·库克或许能减少苹果平台的某些责任。

实际上，OpenELM 模型开源之所以受到关注，除了这是苹果公司推出的 “高效语言模型”，也因为这套模型减小了参数量，能被部署在智能终端本地，无需做云端联网。

这是在为 AI 手机做技术准备？

AI 手机被国内产业界认为是重大的智能手机技术革命，但 AI 手机目前在体验端，用户感知较弱，与 “传统” 智能手机似乎并无区别。

苹果公司在智能手机产业界的地位无需多说，所以苹果的端侧 AI 到底是什么样的？采用什么技术框架？能带来哪种惊艳的 AI 体验？这是业界的期待。

值得一提的是，在 2024 苹果股东会上，库克表示今年苹果在生成式 AI 领域将有 “重大进展”。另外，苹果以往是以封闭式的生态系统 “软硬一体” 构建其商业帝国，但这次却选择了开源端侧 AI 技术框架，这是前所未见的变化。

这种变化到底意味着什么？恐怕还是得等到 WWDC 24 那天揭晓。