
AI iPhone 前奏?苹果公司发表论文,解决 “在手机内存上运行大模型”

这项新研究支持有限容量的设备运行内存 2 倍大小的 LLM,GPU 的推理速度可以提升数十倍。媒体称,苹果将生成式 AI 集成到 iOS 18 的计划或将加快推进。
AI iPhone 要来了?
据媒体报道,近日,苹果发布了一篇论文,介绍了一种可以再超出可用 DRAM 容量的设备上运行 LLM(大语言模型)的方法。
通过大幅提高内存使用效率,这项新研究支持有限容量的设备运行内存 2 倍大小的 LLM,GPU 的推理速度可以提升数十倍。
论文称,LLM 密集的计算量和内存要求对于 DRAM 容量来说是一大挑战,该论文构建了一个以闪存为基础的推理成本模型,将在两个关键领域进行优化:减少从闪存中传输的数据量、更多更流畅地读取数据块。
这意味着,该项突破性研究扩大了 LLM 适用性和可及性,苹果将生成式 AI 集成到 iOS 18 的计划或将加快推进。
LLM 能在手机上运行了?
一般来说,DRAM 就是我们常说的 “内存”,而 flash(闪存)指的是硬盘。
运算数据时,CPU 通常会以 DRAM 为 “中间桥梁”,把硬盘中的数据复制到内存中来,再在内存中做数据处理,这样速度可以提升至数百万倍。

但在容量上,DRAM 相较于硬盘要小一个数量级。而 LLM 运行时,需要同时处理的数据量庞大,对容量有限的设备来说构成了极大的挑战。
但这篇论文提出的新框架似乎发现了突破点。该框架旨在将模型参数存储在闪存中,在需要的时候再将数据调入 DRAM,解决了 LLM 运行时数据处理量超过 DRAM 可用容量的的难题。
具体而言,苹果主要运用了两种技术:
(1)“窗口化” 技术:重复使用此前激活过的神经元,以此减少数据传输;
(2)“行列捆绑” 技术:针对闪存的数据特征,定制访问数据块的顺序,从而增加从闪存读取的数据块大小。
论文提及,一个 70 亿参数的模型就需要超过 14GB 的内存来加载半精度浮点格式的参数,超过了大多数网络端点的承受能力。但是通过该框架,能够实现最小化数据传输并最大化闪存吞吐量,从而减少数据负载、提高内存使用效率。
研究结果显示,与传统的加载方法相比,该框架支持 DRAM 两倍大小的模型,在 CPU 和 GPU 中推理速度可分别提升 4-5 倍、20-25 倍。研究团队在文末总结道:
“这项突破性技术对于在资源有限的环境中部署先进的 LLM 尤为重要,从而扩大 LLM 适用性和可及性。”
手机巨头们瞄准了 AI
在 AI 潮下,各大手机制造纷纷开始布局 “人工智能 + 手机”。
据此前市场消息,苹果将在其 iOS 18 中引入 AI,主要用于 Siri 和通讯应用程序的智能问答、生成语句等功能,此外,苹果还在探索 AI 在 Apple Music、Page、Keynote 和 Xcode 等应用中的潜能。
三星于 11 月初推出其生成式 AI 模型 Samsung Gauss,报道称该模型将纳入即将于 2024 年初发布的 Galaxy S24 系列手机中,三星旗下笔记本电脑、平板电脑也有可能集成该模型。
谷歌的双子星大模型(Gemini)也将集成到谷歌旗下产品,11 月,谷歌官宣 Gemini1.0 将在谷歌产品中逐步推出;Gemini Pro 将集成到 Bard 中以进行高级推理和规划;Gemini Nano 将为 Pixel 8 Pro 智能手机的功能提供支持。

