
Track Hyper | Meta Joins the Competition in Edge AI Models

站在高通的肩膀上,端侧 AI 应用,指日可待?
ChatGPT 虽好,奈何闭源,而且使用门槛太高(不友好),因此 C 端商业化难以大规模落地。
但在 7 月 18 日,Meta 携手微软和高通,掀翻牌桌:微软旗下云服务 Azure 为 Meta AI 新一代开源大模型 Llama 2 提供云服务;同时,Llama 2 还能在高通芯片上运行,实现智能端侧 AI 能力。
华尔街见闻注意到,OpenAI 刚于 7 月 22 日宣布,下周将发布 ChatGPT 安卓 App。这相当于直面 Meta AI 的端侧大模型 C 端应用挑战。
若端侧 AI 大模型真能实打实落地,那么以智能终端为代表的消费电子创新春天,将有望再次来临。
Meta 和微软、高通想干嘛
开源大模型本身,已屡见不鲜,算不上新奇。
Llama,简单说,这是一个纯文本(只接受文本输入)的语义训练大模型,称为 “Llama-Chat” 可能更为准确。Llama 的特点在于开源(GPT 和 PaLM 闭源)和免费,初版于今年 2 月发布,训练时间是今年 1-7 月。整个过程用了 330 万个 GPU 小时,硬件用英伟达 A100-80GB GPU,能耗 350W-400W,训练总成本最高达到 4500 万美元。
Llama2 全局批量规格(上下文长度)是 4M tokens,比初代 Llama 提高 1 倍,与 GPT-3.5 等同,参数规模最高 700 亿(另包括 70 亿、130 亿和 340 亿三种参数变体),训练语料规模为 2 万亿 tokens。其中,700 亿参数规模的以 GQA(分组查询注意力机制:Grouped-Query Attention)提高推理可扩展性。
什么是 token?
这是大模型处理与生成语言文本的基本单位。可以这么理解,用于训练的 tokens 越多,AI 智能水平也相应越高。
照例做个对比:谷歌新一代大模型 PaLM 2,训练语料规模 3.6 万亿 tokens;GPT-3 是 3000 亿,GPT-4 据推测可能也突破了数万亿。
就 AI 能力看,Llama2 与 GPT-4 仍有差距,也比不上 Google 的 PaLM2。Llama 2 性能难撼 OpenAI 的市场地位,通过免费商用,Meta 却有望利用开源生态实现弯道超车。
这里有必要做进一步解释闭源模型的缺点。
最受关注的问题就一个:安全性。
用 ChatGPT 对话模型训练时,由于闭源,因此对话内容的数据,实际上相当于进了一个黑盒。
当涉及隐私或敏感信息,比如金融数据、个人隐私或商业产品秘密等信息,通过 ChatGPT 对话模型,很可能会在其他训练过程中成为 “公共信息” 而遭遇泄露。比如,著名的 “ChatGPT Grandma Exploit”,就直接公开了微软的 Windows 11 的有效序列号。
在 B 端,这种黑盒效应的后果或许更严重。
相当多的企业,并不会限于调取标准 LLM 能力,他们会根据自己的业务需求,做 LLM 数据集的专有场景定制,以解决特定问题。但由于闭源黑盒问题,这些特定场景的业务数据很难保证私有用途。一旦泄露,很可能这些企业的业务会有重大损失,或优势地位不再。
此次 Meta 与微软和高通联手部署端侧模型,其意义远超模型升级。若结合高通在今年 2 月首次推出端侧 AI 模型能力演示,不难想像,消费电子——尤其是智能移动终端(手机,也包括 IoT)新一轮技术创新浪潮风暴,已在快速酝酿。
Meta AI 与微软的主要合作内容,是向 Llama 2 的全球开发者提供 Azure 云服务。也就是说,未来基于 Windows 系统,应用者都能用 Llama 2 的 AI 能力。这就大幅降低了 C 端应用 AI LLM 的门槛,无需用户自己配置软件环境。
据微软透露,Llama 2 已针对 Windows 做了优化,能直接在 Windows 本地实现部署进而运行。
一旦微软推出基于 Llama 2 模型的 Windows 操作系统更新(Windows 目前是全球市场占有率最高的操作系统),那么全球用微软视窗操作系统的 PC 用户,就能一键实现端侧 AI 模型的 AGI 能力,个性化的 AI 应用浪潮将风起云涌。
端侧和混合 AI,孰重?
Meta AI 与高通的合作更具有想象空间。
华尔街见闻从高通获悉,高通和 Meta 正在合作优化 Meta Llama 2 大语言模型直接在终端侧的执行,这个过程无需仅依赖云服务,就能在智能手机、PC、VR/AR 头显和汽车等终端上运行 Llama 2 一类的生成式 AI 模型。这将支持开发者节省云成本,并为用户提供更加私密、可靠和个性化的体验。
高通计划支持基于 Llama 2 的终端侧 AI 部署,以开发全新的 AI 应用。这将支持 B 端公司、合作伙伴和开发者构建智能虚拟助手、生产力应用、内容创作工具和娱乐等用例。这些运行在骁龙芯片上的终端侧实现的新 AI 体验,可在没网络连接的区域、甚至是飞行模式下工作。
高通计划从 2024 年起,在搭载骁龙平台的终端上支持基于 Llama 2 的 AI 部署。现在开发者可以开始使用高通 AI 软件栈(Qualcomm AI Stack)面向终端侧 AI 做应用优化。高通 AI 软件栈是一套支持在骁龙平台上更高效处理 AI 的专用工具,让轻薄的小型终端也能支持终端侧 AI。
与部分应用技术公司在端侧尝试单点 AI 模型应用不一样,高通在此领域的布局极具深度。
今年 2 月,高通第二代骁龙 8 移动平台已可支持参数超过 10 亿的 AI 模型运行,做了全球首次端侧运行超过 10 亿参数模型(Stable Diffusion)的演示。
对于端侧能有效支持的模型规模,高通全球副总裁兼高通 AI 负责人侯纪磊认为,在广泛的用例中有很多基于 10 亿参数为单位,从 10 亿到 100 亿便能涵盖相当多数的生成式 Al,并可提供优异效果。
6 月中旬,高通也曾演示了 ControlNet 图像生成图像模型。这个模型拥有 15 亿参数,可完全在手机上运行。ControlNet 是一项生成式 AI 解决方案,被称为语言 - 视觉模型(LVM),能通过调整输入图像和输入文本描述,更精准地控制生成图像。
在这项演示中,高通只用不到 12 秒即可在移动终端上生成 AI 图像,无需访问任何云端,便能提供高效、有趣、可靠且私密的交互式用户体验。
据侯纪磊透露,未来数月内,高通有望支持参数超过 100 亿的模型在终端侧运行,2024 年将能支持参数超过 200 亿的模型。此外通过全栈式 Al 优化,未来也将进一步缩短大模型的推理时间。
高通在做端侧 AI 大模型部署时的技术创新主要包括:高通 AI 模型增效工具包(AIMET)、高通 AI 软件栈和高通 AI 引擎。此外,高通 AI 研究的另一项全球首创的技术,即在移动终端上的 1080p 视频编码和解码过程。
神经网络编解码器用途十分广泛:可针对特定视频需求做定制,通过生成式 AI 的优势对感知质量做优化,可扩展至全新模态,在通用 AI 硬件上运行。但同时,这也后悔带来难以在计算能力有限的终端上应对的诸多挑战。为此,高通设计了神经网络视频帧间压缩架构,支持在终端上做 1080p 视频编码。
高通在端侧部署 AI 模型的技术虽然进展很快,但高通认为,混合 AI 才是 AI 的未来:混合 AI 架构在云端和边缘终端间分配并协调 AI 工作负载,云端和边缘终端如智能手机、汽车、个人电脑和物联网终端协同工作,能实现更强大、更高效且高度优化的 AI。
节省成本是混合 AI 在未来占据主流的主要推动因素。
举例来说,据估计,每次基于生成式 AI 的网络搜索查询(Query),成本是传统搜索的 10 倍。混合 AI 将支持生成式 AI 开发者和提供商利用边缘终端的计算能力降低成本。混合 AI 架构或终端侧 AI 能在全球范围带来高性能、个性化、隐私和安全等优势。
若高通的判断更符合未来 AI 应用的发展方向,那么云计算和端侧 AI 计算必然会实现融合,而端侧 AI 模型以何种形式(系统级还是单个节点?)实现持续落地,其间也充满新的行业或商业模式的全新技术创新空间。无论如何,以 IoT 或智能手机为代表的消费电子,新一轮技术创新浪潮,已近在眼前。
