Track Hyper | AI Large Models Sprinting Towards Intelligent Mobile Endpoints

华尔街见闻
2023.07.16 07:45
portai
I'm PortAI, I can summarize articles.

荣耀的意外、华为的努力和高通的默进。

智能手机革命性的技术突破停滞已久。GPT 出现后,业界逐渐达成共识:在智能终端(包括手机)落地端侧大模型,将再次拉开激动人心的重大创新的大幕。

在上海 MWC 2023 期间,荣耀 CEO 赵明宣称,荣耀将在智能手机端推动部署端侧大模型,以此作为荣耀新一轮产品技术攻坚的起点。但在 7 月 12 日,赵明没有披露其新一代折叠屏 Magic V2 端侧 AI 大模型的相关信息。

目前,端侧大模型的呈现形式均为软件。华尔街见闻了解到,荣耀 AI 大模型也将呈以软件形式,很可能被整合在 MagicOS 8.0 版本中。

不同于荣耀提出的在智能手机端部署 AI 大模型的能力着眼于未来,今年 2 月,高通已首次在 Android 智能手机上部署 Stable Diffusion 模型,十多秒即能生成 AI 图像。

高通产品管理高级副总裁兼 AI 负责人 Ziad Asghar 认为,大模型将迅速重塑人机交互方式。

高通先行:洞察个体需求

7 月 12 日,荣耀发布新一代旗舰机 “Magic V2”。在此之前的 6 月 29 日,荣耀 CEO 赵明曾公开宣称,Magic V2 将具有革命性的越级体验。荣耀希望以此与行业一起,打破苹果一家独大局面。赵明同时表示,荣耀将率先将 AI 大模型引入端侧。

但在 7 月 12 日,赵明对 Magic V2 的技术特性或产品特征等信息的阐述,着重的是该机型的厚度(9.9mm)和重量(231 克),却并未涉及端侧 AI 大模型。此举与赵明此前对 Magic V2 的端侧 AI 大模型吹风形成鲜明对比。若是细品赵明在 6 月 29 日的说法——“未来将率先把 AI 大模型引入端侧”,赵明或许意有所指。据华尔街见闻了解,未来荣耀要发布的 MagicOS 8.0 版,在部署 AI 大模型方面,很可能就会有所动作。

荣耀的 AI 大模型在端侧到底具有什么样的能力,这是个什么样的软件矩阵(包括编译/解码器、算力平台、能耗控制、参数数量和开发工具等),目前不得而知。

从行业层面看,高通已在今年 2 月首次在智能手机上实现了 AI 模型部署。到今年 5 月,高通部署的 Stable Diffusion 模型参数已增至 10 亿 +。

Stable Diffusion 是一个从文本到图像的生成式 AI 扩散模型,能基于任何文本输入,在数十秒内创作出逼真图像。

目前 AI 绘画最火的模型是 Midjorney 和 Stable Diffusion,但目前 Midjourney 模型没有开源。Stable Diffusion 由 StabilityAI 公司于 2022 年提出,论文和代码都已开源。Stable Diffusion 是 Diffusion 的改进版,主要作用是解决 Diffusion 模型的速度问题。

关于文字怎么生成图片,技术原理解释起来过于复杂。简单来说,从 Stable Diffusion 最初的名字 “Latent Diffusion Model(LDM)” 看,本质是压缩了图片的像素,尺寸变小,再通过编译器(为何提及荣耀端侧大模型包含了什么样的编译器?)将扩散压缩后的图片还原成原始尺寸,其余的过程和 Diffusion 模型差不多类似。

在压缩图片的过程中,提升了文本转化成图片的速度,这是 Stable Diffusion 的主要功能。

回到高通在安卓手机中部署的 Stable Diffusion 模型。实现文本转图像,只是大模型在端侧实现部署时,就像宇宙的一粒尘埃,这只是智能手机未来革命性的应用体验的一个极小的 “元素”。

通过部署端侧大模型的数字助手,将成为一种超越想象的存在。未来的用户,将有幸通过智能手机操控一切商业服务,包括餐饮、各类订票、专业咨询、娱乐、摄影摄像、撰稿、办公、参与金融活动等等。

这就真能实现高通这位 AI 负责人 Ziad Asghar 说的那样,“大模型有能力真正重塑我们与应用交互的方式”。

只有真正在端侧部署 AI 大模型,智能终端的 “智能” 一词,才能名副其实。

赵明说,“端侧 AI 大模型的使命就是更好地理解用户:知道我几点睡觉,知道我喜欢吃什么,能解决我的即时需求,相当于拥有洞察我需求的能力。”

做到拥有对使用者的个性需求洞察,原因是每部智能手机包含的个人应用数据,与能理解文字、影音和图像等多模态输入的大语言模型结合,最终智能手机的数字形式(比如虚拟数字人)就能极为精准地掌握使用者的偏好。更重要的是,这样强悍的个性化体验,还能建立在保护个体隐私的基础上。

怎样解决端侧 AI 模型短板

目前,尚无哪家技术公司能真正全面部署端侧 AI 大模型。

高通和华为成为了先行者。两者的区别在于高通更加系统,从底层技术入手,比如利用高通 AI 软件栈(Qualcomm AI Stack)执行全栈 AI 优化;而华为则更侧重具体的应用体验,但相比高通,华为的探索以其具象,从而显得更具有节点尝试特征。

从技术角度看,高通在智能手机中部署 Stable Diffusion 模型,实际上是将 Stable Diffusion 模型整合在手机的混合 AI 架构中,进而将之作为量化、编译和硬件加速优化等 AI 技术,以此支撑高度智能的应用体验。

荣耀未来若真的在 MagicOS 8.0 中部署端侧 AI 大模型,也将是这个技术原理。

实际上,通过自然语言(NLP)搜索,华为 P60 已能以之匹配出与描述相符的照片。这一功能,也是端侧 AI 大模型庞大强悍能力中的一个极小的应用点。

这个应用体验的实现,背后有华为多模态大模型技术和模型小型化处理技术的支撑。华为将自然语言智能搜图模型整合进了鸿蒙系统(HarmonyOS),实现与众不同的精准自然语言手机图库搜索体验。

相比华为,高通的端侧 AI 大模型部署,更侧重系统性的特征。

比如,高通的全栈 AI 研究,是指优化跨应用、神经网络模型、算法、软件和硬件。针对 Stable Diffusion,高通从 Hugging Face(开源模型库公司,旗下明星开源库是 “Transformers”)的 FP32 1-5 版本开源模型入手,通过量化、编译和硬件加速推动优化,使其能在搭载第二代骁龙 8 移动平台的手机上运行。

在智能终端部署 AI 大模型,必须要解决性能和能耗问题。

首先,通过让大模型在高通专用 AI 硬件上高效运行,并降低内存带宽消耗,量化不仅能提高性能,还可降低功耗。这些包括诸如自适应舍入(AdaRound)等高通 AIMET 量化技术,能在更低精度水平保持模型的准确性,而无需做重新训练。

其次,以高通 AI 模型增效工具包(AIMET)训练后量化,可实现将大模型从 FP32 压缩为 INT8。这是基于高通 AI Research 创造的技术所开发的工具,目前已集成进 Qualcomm AI Studio 中。

这部分能力由量化完成,其作用是将大模型在精度不变的情况下,从浮点数转变成整数,节省计算时间,以及在确保模型性能的同时,压缩整体规模,使之更容易部署在终端。

此外,AI 模型能以最高性能和最低功耗高效运行的关键,在于编译器。AI 编译器将输入的神经网络转化为能在智能应用终端上运行的代码,同时针对时延、性能和功耗做持续优化。

值得一提是高通 5G 移动平台骁龙 8 Gen2 首度集成的 AI 专用 Hexagon 处理器,采用了独立的专用供电系统,支持微切片推理、INT4 精度和 Transformer 网络加速等,能在提供更高性能的同时,降低能耗和内存占用。这也是高通 AI 软件栈的组成部分。

这些技术能应用于构成 Stable Diffusion 的所有组件模型,即基于 Transformer 的文本编码器、VAE 解码器和 UNet。这对于让大模型在终端上的顺利运行至为重要。

高通的全栈 AI 优化,最终实现了通过 Stable Diffusion 模型在智能手机上的运行,能达成 15 秒内执行 20 步推理,并生成一张 512x512 像素的图像。这是在智能手机上最快的推理速度,能媲美云端时延,且用户文本输入完全不受限制。

无论是大模型公司,还是像高通这样的终端软硬件技术公司,抑或者是荣耀和华为一类的智能终端商,当行业实现上下游协同,共同推动将 AI 大模型在端侧实现泛在部署,最终将真正引发新一轮智能终端的技术创新浪潮,切实担起赵明所称的在智能终端带来革命性的应用体验重任。