Sora 将创造多少算力需求?
Sora 的算力需求初步测算结果显示,训练端需要 231 片 A100,推理端则对应 1846 万个 A100 需求。根据 Sora 技术报告,Sora 采用 Transformer+Diffusion 架构用于视频生成,同时利用低维潜在空间和 patch 分解来统一不同类型的视觉数据。Sora 的算力需求测算基于已有的论文模型参数,训练一张 1024x768 分辨率图片需要 324Gflops 的算力。这些算力需求数据对于了解 Sora 的技术和发展具有重要意义。
1.1 Sora 训练与推理算力需求初步测算
Sora 发布表现亮眼,Transformer+Diffusion 架构或成为文生视频大模型新范式。据 Sora 技术报告,类似于 LLM 将不同文本数据统一为 token,Sora 可将不同类型的视频和图像等视觉数据统一为 patches,具体而言,Sora 首先将视频压缩为低维潜在空间,然后再将其分解为 patch;同时,OpenAI 将 Transformer 架构用于视频生成,随着训练计算量的提高,生成视频质量也明显提高。
Sora 的作者之一 Peebles 曾发布论文《Scalable Diffusion Models with Transformers》构造成熟的 Transformer+Diffusion 架构模型用于图像生成;后续中国人民大学等机构发布《VDT: GENERAL-PURPOSE VIDEO DIFFUSION TRANSFORMERS VIA MASK MODELING》进一步实现该架构用于视频生成,我们借助上述论文中的模型参数,对 Sora 的算力需求进行测算:
1、训练端,由于模型架构较新,本文对《Scalable Diffusion Models with Transformers》论文中 DiT-XL/4 模型进行逆向工程,使得输入对应参数量后能够得到 29.05Gflops,得到训练一张 1024x768 分辨率图片需要算力 324Gflops,根据《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning(Pablo 等著,2022 年)》披露数据,Youtube 上每分钟上传约 500 小时视频,假设视频都为 60 帧每秒;假设全采用英伟达 A100(FP16 算力 312Tflops)且芯片利用率为 80%;得到一个月内训练完 Youtube 全部新增视频约需要 231 片 A100,考虑到文中模型都是经过多次训练得到,算力需求仍有较大程度提高的可能性。
2、推理端,推理端算力约等于交互 Patches 数量 *2* 参数量,假设抖音 8 亿日活,平均每人每天使用时长 2h,对应每天 16 个小时视频播放时长。假设每个 Patch 尺寸为 60*80,一帧 1920*1280 分辨率的画面有 512 个 Patch,一秒钟 30 帧,对应一分钟生成的视频有 92.16 万个 Patches,假设 Sora 模型参数为 30 亿,则对应 1846 万个 A100 需求。
1.2 合成数据:从数据增强走向训练主体
合成数据指的是基于生成式人工智能技术的计算算法和模拟创建而成的数据。据天翼智库,合成数据依赖少部分的高质量真实数据用于初始创建,将大幅减少算法训练所需的真实数据量,提供了一种更快捷高效的方式来获取所需数据;目前主要通过以下四种技术路径来获取合成数据:基于深度学习生成、基于模拟生成、基于语义规则生成以及基于蒙特卡罗方法生成。
合成数据主要分为结构化数据和非结构化数据两类,数据广泛覆盖金融、医疗、零售甚至运营商领域。据天翼智库,合成数据的产业布局可分为结构化数据(表格数据)、非结构化数据(视频、图像等)、测试数据等,合成数据的应用领域十分广泛,早期主要应用于计算机视觉领域,现在正向金融、医疗、零售甚至运营商领域拓展。
以多模态为代表的非结构化数据真正快速发展,英伟达、游戏引擎厂商纷纷入局。据《MatrixCity:面向城市规模的神经渲染数据集》,论文已经实现利用虚幻引擎 5 城市样本项目,作者开发了一个作业流程,以方便地收集空中和街道城市视图,伴随着地面真实的相机姿势和一系列额外的数据模式;论文的方法还提供对光线、天气、人类和汽车人群等环境因素的灵活控制,以支持涵盖城市规模的神经渲染等各种任务的需求。英伟达旗下 Omniverse 持续推动合成数据业务发展,并支持使用本地部署和 NVIDIA Omniverse™ Cloud 解决方案使用合成数据来创建应用。
合成数据训练效果不断提升,到 2030 年 AI 训练中合成数据用量有望超过真实数据。据谷歌《Learning Vision from Models Rivals Learning Vision from Data》论文,尽管没有直接采用任何真实数据训练,SynCLR 在 ImageNet 数据集上训练的线性传递性能仍可与传统训练方法相媲美。由于合成数据也能填补真实数据集中可能存在的数据缺失、数据不足、数据不均衡等问题,提高机器学习算法的鲁棒性和泛化能力,据 Gartner 预测,到 2030 年合成数据将完全盖过 AI 模型中的真实数据,成为 AI 模型训练使用数据的主要来源。
风险提示
1)行业竞争加剧:目前国产软硬件尚未呈现出清晰的格局,芯片、数据库、操作系统等行业仍处于高度竞争状态,若后续行业竞争加剧,可能会影响公司的毛利率水平,进而影响相关公司的盈利能力。
2)公司技术发展不及预期:目前国内 AI 产业还在起步阶段,相关公司的技术路径、商业化能力仍有不确定性,若后续公司技术发展不及预期,或影响公司业绩增长前景。
民生计算机,分析师吕伟,执业证书:S0100521110003 详见报告《计算机周报:Sora 将创造多少算力需求?》
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。