AIPC,AI 端侧落地第一站

Wallstreetcn
2024.03.05 04:25
portai
I'm PortAI, I can summarize articles.

AIPC 是当前 AI 实现规模化扩展及应用落地的关键,中金认为其在模型侧、硬件侧、软件及应用侧均存在产业升级趋势。移动 AI 部署正在从云端走向移动端,AIPC 在模型侧、硬件侧、软件及应用侧将发生变化。谷歌、Meta 等公司推出的轻量化模型引领移动模型发展趋势,手机厂商也在努力轻量化移动模型开发。AIPC 的发展带动了 Arm 架构、异构计算和存储升级,对算力、内存和功耗提出更高要求。此外,AIPC 在散热、电池等方面也将带来升级变化。

为什么要讨论移动 AI?在降本与安全的双重考量下,AI 部署在逐渐从云端走向移动端。我们认为,终端和云端协同工作分流 AI 计算工作负载的端云混合模式或将成为主流部署方案。在此背景下,AIPC 在模型侧、硬件侧、软件及应用侧均将发生变化。

在模型侧,从 “暴力美学” 大模型,到 “删繁就简” 轻量模型,轻量化移动模型发展迅速。谷歌 2023 年起相继发布 Gemini Nano(1.8B/3.25B)、Gemma(2B/7B)等轻量化模型;Meta 推出 Llama 2、Mistral AI 推出 Mixtral 8x-7B 等开源模型,引领移动模型轻量化发展趋势。此外,小米、OPPO、三星等手机厂商亦在轻量化移动模型开发及压缩方面努力。

在硬件侧,关注 Arm 架构、异构计算和存储升级,AIPC 带动散热、电池及结构件等变化。根据 Trendforce,微软计划在 Windows12 为 AIPC 设置最低门槛,需要至少 40TOPS 算力和 16GB 内存。结合端侧 AI 部署对算力、内存、功耗的要求,我们看到芯片端三大升级趋势:1)Arm 架构以其低功耗、长续航的特点或将实现 PC 市场份额提升;2)异构计算或将成为主流方案;3)端侧 AI 运行亦对内存提出更高要求,将带动 DDR5/LPDDR5 渗透率提升及 DRAM 容量提高。此外,为了适配 AIPC 的计算及功耗需求,AIPC 在散热、电池等环节亦或将带来升级变化。

在软件及应用侧,Wintel 联盟持续发力。操作系统方面,新一代操作系统 Windows11 重点强调了 AI 的功能,并提供多项 AI 工具;应用方面,目前 AI 应用主要集中在云端,但我们看到英特尔本地运行 diffusion 模型的端侧应用,我们认为随着 AI 端侧部署的进一步落地,端侧 AI 应用或将持续丰富。 

正文

AI 的下一站:移动端 AI 的探索

为什么要讨论移动 AI?

大模型的发展成为了 2023 年的市场关注热点,在追求 “大” 的竞争趋势下,各大科技巨头纷纷在模型参数上追赶。但是过大的参数造成了在开发及使用过程中的成本高企,也在一定程度上限制了 AI 应用的变现与拓展。在此背景下,探讨能否将一部分算力下沉到端侧,尤其是与用户规模庞大的移动端设备结合,成为了 AI 发展的重要方向。作为底层技术和上层应用之间的载体,硬件终端承担了重要的枢纽作用。虽然目前 AI 处理重心主要集中在云端,但由于云端推理成本较高、能耗较大、可靠性及时延、用户隐私及数据安全等问题,端侧 AI 部署成为 AI 实现规模化扩展及应用落地的关键。

图表 1:AI 处理重心从云端向终端转移

资料来源:《混合 AI 是 AI 的未来》(高通,2023 年),中金公司研究部

从云端走向移动端:降本与安全的双重考量

端侧 AI 部署有助于显著降低算力成本与功耗,跑通 AI 变现的商业模式。在 AI 发展的未来,不可忽视的问题是,随着日活用户数量及使用频率的增长,若只依靠云端算力支撑模型推理,成本及能耗会显著增加。而终端运行 AI 方面,以高通全栈优化下可在手机端运行的 Stable Diffusion 为例,每次产生的成本较小或者可以忽略不计,这将有效降低应用厂商成本,促进软件应用商业模式落地。

端侧 AI 部署通过将用户敏感信息留在本地,将有效减少隐私泄露、数据安全、时延等问题。数据窃取攻击即通过目标模型的多次输出去获取训练过程中使用过的数据分布,当攻击者知晓大模型训练过程中使用过的数据是哪些,就会造成数据隐私损害。而终端侧 AI 部署将个人信息保留在本地,可以从根本上避免数据安全性问题的出现。此外,时延等使用体验感对终端用户也很重要,当云端大模型访问量达到高峰期时,会出现延迟反馈甚至拒绝服务。

移动端模型部署方案:端云协同模式成为主流

目前移动端 AI 部署的方式分为端侧部署、端云协同两种。

端侧部署:即在终端如手机、PC 等上进行大模型本地部署;

端云协同:即终端和云端协同工作分流 AI 计算的工作负载,根据工作负载分流模式,高通提出三种云端混合的模式:1)以终端为重心的混合 AI,其中终端将充当锚点,云端仅用于分流处理终端无法充分执行的任务;2)基于终端感知的混合 AI,在边缘侧运行的模型将充当云端大语言模型(类似大脑)的传感器输入端(类似眼睛和耳朵),向云端处理输入文字信息;3)终端与云端协同处理的混合 AI,终端向云端发送多个 token,云端仅需读取一次完整模型参数来并行计算多个 token 输入,提升模型运算效率并节省功耗。

从云端到移动端:移动 AI 将发生哪些变化?

图表 2:AI 云侧及端侧部署体系架构情况

资料来源:各公司官网,中金公司研究部

PC 厂商陆续入局,2024 年多款 AIPC 产品陆续发布

PC 厂商抢滩 AIPC,储备多款产品

AIPC 指的是硬件上集成了混合 AI 算力单元,能够本地运行 “个人大模型”、创建个性化的本地知识库,实现多模态人机交互,展现为为每个人量身定制个人 AI 助理,能够提升生产效率、简化工作流程的 PC 终端。AIPC 具有可实现终端大模型的 “千人千面” 个性化体验、可进行自然语言交互、内嵌智能混合算力、构建了开放生态、可确保数据的隐私性和安全性五大特征,可为用户带来全新体验。

图表 3:AIPC 行业主要进展

资料来源:各公司官网,中金公司研究部

全球 PC 市场走出低谷,长期 AIPC 有望实现量价齐升

根据 Canalys,4Q23 全球 PC(不含 tablet)出货量同比增长 3% 至 6,530 万台,结束了连续七个季度的同比下滑。同时,Canalys 预测 2024 年全球 PC 出货量有望同比增长 8% 至 2.67 亿台,我们认为主要是 Windows12 的推出、众多 AIPC 上市或推动 PC 换机周期到来。考虑到 AI 在提高生产力、促进应用落地创新的潜在能力,IDC 预测,AIPC 有望在 2027 年渗透率达到 85%。

图表 4:全球 PC 出货量及增速

资料来源:Canalys,中金公司研究部

图表 5:AIPC 出货量预测

资料来源:IDC,中金公司研究部

行业升级:关注算力芯片及存储升级趋势

模型侧:从 “暴力美学” 的大模型,到 “删繁就简” 的轻量模型,轻量化移动模型发展迅速

谷歌 +Meta 领军,轻量化模型迭代加速

近年来,大模型自身在快速迭代推新,文本、图像、视频等多种模态模型发展加速。近期 Sora 视频模型的出现,也进一步打开了人们关于大模型应用方向的想象空间。但另一方面,我们认为从模型自身所需要的算力来看,大模型也并非只朝着越来越大的方向发展。

图表 6:大模型轻量化发展情况

资料来源:各公司官网,中金公司研究部 

图表 7:Llama2 帮助性及安全性强于主流开源模型

注:横轴为帮助性,纵轴为安全性。Falcon-40b-instruct 在 Hugging Face 的开源大型语言模型排行榜上排名 1,资料来源:《Llama 2: Open Foundation and Fine-Tuned Chat Models》(Hugo Touvron, Louis Martin, Kevin Stone, et al. 2023),中金公司研究部

大模型压缩技术亦逐渐成熟

为适配 PC 端侧运行需求,通过蒸馏及剪枝等方案将大模型压缩后的轻量化模型陆续发布。联想基于大模型压缩技术,将 LLM 压缩至轻量化模型进行本地部署,目前 Lenvo AI Now 助手的大模型来自阿里云的通义千问(原始参数量 7B,大小 14.4GB),大模型压缩到 4GB,电脑配置 5-6GB 的内存即可运行。此外,宏碁与英特尔合作通过 OpenVINO 工具开发宏碁 AI 库;Meta Llama 2 开源模型也可借助 MLC Chat 工具,实现在手机、PC 上本地部署。

硬件侧:关注 Arm 架构、异构计算和存储升级,AIPC 带动散热、电池及结构件等变化

微软或引领 AIPC 硬件定义,40TOPS 算力,16G 内存成为门槛

在讨论芯片端变化之前,值得关注的,端侧模型的运行对 PC 芯片的算力和存储性能等提出了挑战,但同时作为移动设备,功耗续航等问题又需要满足消费者在移动场景下的使用需求。根据 Trendforce,微软计划在 Windows12 为 AIPC 设置最低门槛,需要至少 40TOPS 算力和 16GB 内存。单从当前 PC 芯片的算力看,跨越 40TOPS 门槛将成为首要目标。因此 AIPC 在芯片端硬件升级主要目标是:提升算力,提高内存,同时要降低功耗,基于这一目标,我们关注到了芯片侧的三大变化:架构变化、异构计算和内存升级。

此外,为了适配 AIPC 的计算及功耗需求,AIPC 在散热、电池等环节亦或将带来升级变化。由于这里的变化目前还处于早期,整体方案设计并未完全确定,但从发展的思路上,主要会围绕降低功耗、增加续航、减少整体机身重量等方向去演进,因此在电池(硅碳负极)、结构件(碳纤维)、散热(热管等)方面或将出现新的变化。

图表 8:PC 芯片算力持续提升

资料来源:高通官网,英特尔官网,AMD 官网,苹果官网,中金公司研究部

变化一:PC 市场 Arm 架构份额有望提升

随着 AI 对 PC 芯片算力的需求提升,对应芯片的功耗问题也开始凸显,Arm 架构以其低功耗、长续航的特点受到关注。指令集决定处理器的运行逻辑,向底层硬件传达指令和数据,不同的指令集架构与操作系统、软件应用构成独立的生态体系。当前笔记本电脑的 CPU 指令集主要为 X86 和 Arm 两种,Intel 和 AMD 采用 X86 架构,苹果采用 ARM 架构。从市占率看,由于微软与英特尔的联盟稳固,因此过去 20 年 PC 的软件和应用开发都是基于 X86 架构,Arm 架构目前只由苹果的 MacBook 采用。

图表 9:X86 架构生态 vs Arm 架构生态

资料来源:亿欧智库,中金公司研究部

从应用进展上,苹果基于 Arm 架构自研的 M 系列芯片具有功耗优势。以最新一代 M3 芯片性能来看,M3 芯片性能核速度比 M1 提升最高 30%,比 M2 提升 15%。尤其在功耗这一指标上,基于 ARM 架构的 M3 芯片展现出了优势:CPU 在与 M1 提供相同性能,功耗几乎只有之前的一半,CPU 与某最新的 12 核 PC 笔电芯片相比,相同性能功耗只需 25%。因此在 AIPC 时代,随着算力提升带来的功耗问题越来越受到关注,Arm 架构在功耗方面的优越性能或将得到更多关注。

图表 10:当前 PC 市场中苹果主要采用 ARM 架构

资料来源:IDC,中金公司研究部

图表 11:Counterpoint 预计至 2027 年基于 ARM 架构的 PC 占比将达到 25%

资料来源:Counterpoint,中金公司研究部

Windows on Arm 最大挑战是软件兼容性问题。理想情况下,Windows on Arm 既能享受 Arm 架构处理器带来的低功耗和长续航优势,又能延续 x86 PC 用户的软件使用习惯。但是由于缺乏苹果的软硬件一体化生态环境,无法在硬件上实现高转译效率。2021 年,微软发布 Windows 11 on Arm,引入 x86-64 位仿真技术,极大地扩展了在 Arm 平台上运行的应用程序范围。2022 年微软推出 Arm64 版本的 IDE 工具 Visual Studio2022 正式版,方便直接编译可在 Windows 11 中运行的 Arm 程序,进一步加速 Windows 生态向 Arm 迁移。

图表 12:Windows on Arm 发展历程

资料来源:各公司官网,中金公司研究部

高通、微软联手推动 Windows on Arm 转型,促进 Arm PC 生态的迅速发展。在苹果 MAC 问世前,Windows 系统 +Intel/AMD 一直主导着几乎整个 PC 市场,被称作 “Wintel” 联盟。随着笔记本电脑朝低功耗、轻薄本的方向发展以及主打便携、续航时间长的平板电脑品类的出现,Arm 低功耗的优势再次被重视,有望带来更长的电池寿命、更薄的机身甚至是无风扇的设计;1)产品端,微软在 2012 年推出全新的 Surface 系列平板电脑,在 Intel Core i5 处理器的 Windows 8Pro 版本以外,推出专为 Arm 设计的 Windows RT 版本;2)芯片端,高通 2023 年 10 月 24 日推出 Arm 架构的 PC 芯片 X Elite;英伟达和联发科合作布局 Arm PC 处理器,根据路透社,预计该芯片最早 2025 年推出;AMD 也进入了 Arm PC 处理器,根据路透社,预计最早 2025 年推出;英特尔 2024 年 2 月 22 日宣布与 Arm 合作,未来提供 Arm 架构的 SoC 芯片代工服务。随着 24 年 Windows 12 的升级,有望通过模块化底层设计更好地支持 Arm 架构,我们认为在软硬件适配度持续提升下,Arm PC 有望在 2024 年迎来拐点。

变化二:xPU 异构计算兴起

后摩尔定律时代,通过提升 CPU 时钟频率和内核数量来提高计算能力的传统方式遇到散热和能耗瓶颈,因此异构计算应运而生。异构计算指的是将 CPU、GPU、NPU、DPU 等不同架构或指令集的计算单元整合到一起的混合计算系统,其中 CPU 擅长管理和调度,GPU 擅长处理并行计算,DPU 可突破数据流量指数级增长带来的性能瓶颈的关键技术,通过算力卸载、算力释放和算力拓展,释放 CPU 的计算资源,提升整体计算效率;NPU 是基于 DSA 领域专用架构技术的处理器,相比 CPU、GPU 等通用处理器,从硬件架构上更适合于神经网络运算,可专门用于给 AI 做硬件加速。

图表 13:不同处理器 AI 运行性能对比

资料来源:Peyoot,中金公司研究部

当前英特尔、高通等厂商均采用异构架构,尤其强调 NPU 的性能。异构计算出现的背景在于,经过多年的发展,通过提升 CPU 时钟频率和内核数量来提高计算能力的传统方式遇到散热和能耗瓶颈,这一问题在 AI 时代将会更加严重,相应芯片厂商均采用集成 NPU 以提升计算能力的新方案:1)高通骁龙 X Elite 集成 Hexagon NPU,算力达 75TOPS,可支持超过 130 亿参数的模型运行;2)英特尔 Meteor Lake SoC 架构首次将 NPU 内置,支持 200 亿参数大语言模型运行。

此外,英特尔推出了酷睿 Ultra“分离式 Tile” 策略。这是英特尔在消费级市场上第一次采用分离式模块化架构,将传统的单芯片一分为四:Compute Tile、SoC Tile、GPU Tile、IO Tile,进一步提高能效。

图表 14:英特尔酷睿 Ultra“分离式 Tile” 策略

资料来源:Digi-key,中金公司研究部

变化三:内存容量及速率提升

笔记本电脑侧 CAMM2/LPCAMM2 内存条或将取代 SO-DIMM 制式。2023 年 12 月 5 日,JEDEC 组织正式发布压缩附加存储模块(CAMM2,Compression Attached Memory Module)通用规范。新发布的 CAMM2 标准有望替代 SO-DIMM 成为未来笔记本电脑的标配。CAMM2/LPCAMM2 内存条可以适配 DDR5 颗粒或 LPDDR5(X) 颗粒。和 SO-DIMM 相比,CAMM2/LPCAMM2 内存条具有更加轻薄、频率更高等优势,能够更好适配 AI 笔记本的需求。

图表 15:SODIMM v.s. CAMM

资料来源:JEDEC,中金公司研究部

新一代处理器将仅支持 DDR5/LPDDR5,促进渗透率提升。产业链一般认为 2023 年 9 月推出的 Intel Meteor Lake(第 14 代酷睿)(具备约 35TOPS 算力)对 AIPC 的发展具有重大意义。而根据 Microsoft 的定义,AIPC 的处理器需具备至少 40TOPS 算力。按照此标准,AMD Ryzen 8000 系列(2024 年 1 月发布)、Qualcomm Snapdragon X Elite(Qualcomm 预计 2024 年年中推出)、Intel Arrow Lake(第 15 代酷睿)(Intel 预计 2024 年下半年推出)才是 “真正” 的 AIPC 处理器。根据官网参数,无论是 Intel Meteor Lake 还是 AMD Ryzen 8000 系列或者 Qualcomm Snapdragon X Elite 都仅支持 DDR5/LPDDR5。我们认为如果 AIPC 的渗透率快速提升,高性能处理器出货占比将会提升,相应将带动 DDR5/LPDDR5 渗透率的提升。

单台 PC 平均 DRAM 容量有望从 9GB 提升至 16GB 以上。根据 TrendForce 数据,2021 年底单台 PC 的 DRAM 平均容量为 7.49GB,我们认为 2023 年底单台 PC 的 DRAM 平均容量在 9 GB 左右(假设 2021-2023 年单机 DRAM 容量 CAGR 保持和 2019-2021 年相同约为 10%)。

图表 16:2019-2021 年单台 PC 的 DRAM 平均容量增长趋势

资料来源:TrendForce,中金公司研究部

虽然目前各厂家对 AIPC 存储配置尚无统一规定,但是我们认为 AIPC 对于单台 PC 的 DRAM 容量的拉动趋势是确定的。结合各厂家信息,我们认为 16GB 将成为 AIPC 单机 DRAM 的最低配置。

图表 17:AIPC 内存容量需求

资料来源:Omdia,中金公司研究部

变化四:关注散热、电池及结构件等变化

电池:硅碳负极提升电池能量密度。传统 PC 或手机电池采用石墨作为负极,石墨负极理论克容量为 372mAh/g,但硅基负极理论克容量可高达 4200mAh/g,因此便出现了通过给负极掺硅碳复合材料的方式来提升电池能量密度的技术尝试。目前在小米、荣耀的新一代旗舰手机上,均出现了高密度硅碳负极电池的身影。其中小米 “金沙江电池” 容量达到 5300mAh,最高硅含量 6%,电池体积降低 8%,续航提升高达 17%。而在 AIPC 时代,随着算力提升带来的功耗提升,对电池续航能力的要求也更高,因此我们预计未来硅碳负极电池有望凭借更高的能量密度普及至 AIPC 领域。

图表 18:小米新一代小米 14 Ultra 采用硅碳负极电池

资料来源:小米官网,石墨资讯,中金公司研究部

散热:随着 AIPC 计算带来的功耗增大,如何提升散热及屏蔽能力亦成为重点。从结构上看,PC 散热由多个散热部件组成,核心包括热管、散热鳍片、风扇、散热硅脂、均热板 VC 等。由于芯片算力提升,对应对散热的要求也会提升,但同时还要满足笔记本电脑在重量、厚度等方面的整体设计要求,因此目前各家 PC 厂商的散热方案并不完全一致,但通过提升散热能力降低发热的整体思路一致。

结构件:碳纤维结构件等助力机身轻薄。由于 AIPC 在算力、功耗、续航等方面均需升级,因此从整机设计角度,控制机身重量和厚度就具备必要性。与传统的金属件、模切件相比,碳纤维结构件具有轻质、高强度、散热性能好等特性,目前已经有多家 PC 厂商开始采用碳纤维作为背板。

软件&应用侧,Wintel 联盟发力,系统优化 + 应用端侧落地

Windows 系统对 AI 应用的适配是继硬件成熟之后的另一重要前提

Windows 在新一代的 Windows11 重点加强了 AI 的功能,并提供多项 AI 工具。微软新版 Windows11 23H2 版本于 2023 年 9 月 26 日上线,集成了基于 Bing Chat 和 GPT-4 的 Copilot,并对一些操作系统中的基础功能进行了 AI 升级,包括画图(Point)、视频编辑器(Clichamp)、截图工具(Snipping Tool)和照片等。

硬件成熟后,关注 AI 应用端侧落地进展

当前 AI 应用主要在云端运行,应用主要聚焦于 AIGC 领域,长期 AI 应用端侧落地或加速。我们统计了 2023 年全球热门的 AI 工具,以及当前一级投资聚焦的领域,目前 AI 应用的最快落地场景仍聚焦在图像生成、AI 对话、视频生成等 AIGC 领域,几乎所有的应用也是基于云端算力运行。但长期看,如前文所述,考虑 AI 应用的日益丰富,同时不断增长的用户规模带来的算力成本,AI 应用在端侧的落地或成为趋势,英特尔已经展示了通过 OpenVINO 插件,离线在本地运行的 Diffusion 软件。

此外,英特尔亦提出 AIPC 加速计划,并通过 OpenVINO 工具套件帮助开发者在端侧部署和运行 AI 应用。根据 AIPC 计划,英特尔指出 2025 年将有超过 1 亿台电脑配备 AI 加速器,他们计划与 100 多家 ISV 合作,利用 300 多种人工智能驱动的功能,增强跨多个领域的 PC 功能,目前已经与 Adobe、zoom 等厂商进行合作。在提升软件开发效率方面,开发者可以通过 OpenVINO 插件提供支持。

图表 19:英特尔 AIPC 加速计划

资料来源:英特尔官网,中金公司研究部

本文作者: 温晗静(执证编号:S0080521070003)、贾顺鹤(执证编号:S0080522060002)、查玉洁(执证编号:S0080122120012)、胡炯益(执证编号:S0080522080012)、曹佳桐(执证编号:S0080523120004)、黄天擎(执证编号:S0080523060005)、李澄宁(执证编号:S0080522050003)、彭虎(执证编号:S0080521020001),来源:中金点睛,原文标题:《中金 | AI 浪潮之巅系列:AIPC,AI 端侧落地第一站》

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。