老黄深夜炸场,AIGC 进入 iPhone 时刻!Hugging Face 接入最强超算,神秘显卡胜过 A100
英伟达下一代 GH200 超级芯片平台具有连接多个 GPU 的能力,从而实现卓越的性能和易于扩展的服务器设计,能够处理世界上最复杂的生成式工作负载,包括大语言模型、推荐系统和向量数据库等。
生成式 AI 的时代已经来临,属于它的 iPhone 时刻到了!
就在 8 月 8 日,英伟达 CEO 黄仁勋,再次登上了世界顶级计算机图形学会议 SIGGRAPH 的舞台。
一系列重磅更新接踵而至——下一代 GH200 超级芯片平台、AI Workbench、OpenUSD……
而英伟达也借此将过去数十年的所有创新,比如人工智能、虚拟世界、加速、模拟、协作等等,一举融合到一起。
在这个 LLM 大爆炸的时代,老黄依然敢大胆放话:「买得越多,省得越多!」
英伟达最强 AI 超算再升级
在 5 年前的 SIGGRAPH 上,英伟达通过将人工智能和实时光线追踪技术引入 GPU,重新定义了计算机图形学。
老黄表示:「当我们通过 AI 重新定义计算机图形学时,我们也在为 AI 重新定义 GPU。」
随之而来的,便是日益强大的计算系统。比如,集成了 8 个 GPU 并拥有 1 万亿个晶体管的 NVIDIA HGX H100。
就在今天,老黄再次让 AI 计算上了一个台阶——
除了为 NVIDIA GH200 Grace Hopper 配备更加先进的 HBM3e 内存外,下一代 GH200 超级芯片平台还将具有连接多个 GPU 的能力,从而实现卓越的性能和易于扩展的服务器设计。
而这个拥有多种配置的全新平台,将能够处理世界上最复杂的生成式工作负载,包括大语言模型、推荐系统和向量数据库等等。
比如,双核心方案就包括一台配备了 144 个 Arm Neoverse 核心并搭载了 282GB HBM3e 内存的服务器,可以提供 8 petaflops 的 AI 算力。
其中,全新的 HBM3e 内存要比当前的 HBM3 快了 50%。而 10TB/sec 的组合带宽,也使得新平台可以运行比上一版本大 3.5 倍的模型,同时通过 3 倍更快的内存带宽提高性能。
据悉,该产品预计将在 2024 年第二季度推出。
RTX 工作站:绝佳刀法,4 款显卡齐上新
这次老黄的桌面 AI 工作站 GPU 系列也全面上新,一口气推出了 4 款新品:RTX 6000、RTX 5000、RTX 4500 和 RTX 4000。
如果 H100 以及配套的产品线展示的是英伟达 GPU 性能的天际线的话,针对桌面和数据中心推出的这几款产品,则是老黄对成本敏感客户秀出的绝佳「刀法」。
在发布这新 GPU 的时候,现场还出现了一个意外的小花絮。
老黄从后台拿出第一块 GPU 的时候,似乎不小心在镜面面板上沾了指纹。
老黄发现后觉得可能是自己搞砸了,就很不好意思地和现场观众说对不起,表示这次产品发布可能是有史以来最差的一次。
看来就算开发布会熟练如老黄,也会有翻车的时刻。
而如此可爱的老黄,也惹得在场观众不断发笑。
言归正传,作为旗舰级专业卡,RTX 6000 的性能参数毫无疑问是 4 款新品中最强的。
凭借着 48GB 的显存,18176 个 CUDA 核心,568 个 Tensor 核心,142 个 RT 核心,和高达 960GB/s 的带宽,它可谓是一骑绝尘。
RTX 5000 配备了 32GB 显存,12800 个 CUDA 核心,400 个 Tensor 核心,100 个 RT 核心。
RTX 4500 配备了 24GB 显存,7680 个 CUDA 核心,240 个 Tensor 核心,60 个 RT 核心。
RTX 4000 配备了 20GB 显存,6144 个 CUDA 核心,192 个 Tensor 核心,48 个 RT 核心。
基于新发布的 4 张新的 GPU,针对企业客户,老黄还准备一套一站式解决方案—— RTX Workstation。
支持最多 4 张 RTX 6000 GPU,可以在 15 小时内完成 8.6 亿 token 的 GPT3-40B 的微调。
还能让 Stable Diffusion XL 每分钟生成 40 张图片,比 4090 快 5 倍。
OVX 服务器:搭载 L40S,性能小胜 A100
而专为搭建数据中心而设计的 NVIDIA L40S GPU,性能就更加爆炸了。
基于 Ada Lovelace 架构的 L40S,配备有 48GB 的 GDDR6 显存和 846GB/s 的带宽。
在第四代 Tensor 核心和 FP8 Transformer 引擎的加持下,可以提供超过 1.45 petaflops 的张量处理能力。
对于算力要求较高的任务,L40S 的 18,176 个 CUDA 核心可以提供近 5 倍于 A100 的单精度浮点(FP32)性能,从而加速复杂计算和数据密集型分析。
此外,为了支持如实时渲染、产品设计和 3D 内容创建等专业视觉处理工作,英伟达还为 L40S 还配备了 142 个第三代 RT 核心,可以提供 212 teraflops 的光线追踪性能。
对于具有数十亿参数和多种模态的生成式 AI 工作负载,L40S 相较于老前辈 A100 可实现高达 1.2 倍的推理性能提升,以及高达 1.7 倍的训练性能提升。
在 L40S GPU 的加持下,老黄又针对数据中心市场,推出了最多可搭载 8 张 L40S 的 OVX 服务器。
对于拥有 8.6 亿 token 的 GPT3-40B 模型,OVX 服务器只需 7 个小时就能完成微调。
对于 Stable Diffusion XL 模型,则可实现每分钟 80 张的图像生成。
AI Workbench:加速定制生成式 AI 应用
除了各种强大的硬件之外,老黄还重磅发布了全新的 NVIDIA AI Workbench,来帮助开发和部署生成式 AI 模型。
概括来说,AI Workbench 为开发者提供了一个统一且易于使用的工具包,能够快速在 PC 或工作站上创建、测试和微调模型,并无缝扩展到几乎任何数据中心、公有云或 NVIDIA DGX Cloud 上。
具体而言,AI Workbench 的优势如下:
- 易于使用
AI Workbench 通过提供一个单一的平台来管理数据、模型和计算资源,简化了开发过程,支持跨机器和环境的协作。
- 集成 AI 开发工具和存储库
AI Workbench 与 GitHub、NVIDIA NGC、Hugging Face 等服务集成,开发者可以使用 JupyterLab 和 VS Code 等工具,并在不同平台和基础设施上进行开发。
- 增强协作
AI Workbench 采用的是以项目为中心的架构,便于开发者进行自动化版本控制、容器管理和处理机密信息等复杂任务,同时也可以支持团队之间的协作。
- 访问加速计算资源
AI Workbench 部署采用客户端 - 服务器模式。团队可以现在在本地计算资源上进行开发,然后在训练任务变得更大时切换到数据中心或云资源上。
Stable Diffusion XL 自定义图像生成
首先,打开 AI Workbench 并克隆一个存储库。
接下来,在 Jupyter Notebook 中,从 Hugging Face 加载预训练的 Stable Diffusion XL 模型,并要求它生成一个「太空中的 Toy Jensen」。
然而,根据输出的图像可以看出,模型并不知道 Toy Jensen 是谁。
这时就可以通过 DreamBooth,并使用 8 张 Toy Jensen 的图片对模型进行微调。
最后,在用户界面上重新运行推理。
现在,知道了 Toy Jensen 是谁的模型,就可以生成切合需求的图像了。
Hugging Face 一键访问最强算力
作为最受 AI 开发者喜爱的平台之一,拥有 200 万用户、超 25 万个模型,以及 5 万个数据集的 Hugging Face,这次也与英伟达成功达成了合作。
现在,开发者可以通过 Hugging Face 平台直接获得英伟达 DGX Cloud AI 超算的加持,从而更加高效地完成 AI 模型的训练和微调。
其中,每个 DGX Cloud 实例都配备有 8 个 H100 或 A100 80GB GPU,每个节点共有 640GB 显存,可满足顶级 AI 工作负载的性能要求。
此外,英伟达还将联合 Hugging Face 推出全新的「Training Cluster as a Service」服务,简化企业创建和定制生成式 AI 模型的过程。
对此,老黄激动得表示:「这次,Hugging Face 和英伟达将世界上最大的 AI 社区与全球领先的云 AI 计算平台真正地连接在了一起。Hugging Face 的用户只需点击一下,即可访问英伟达的最强 AI 算力。」
AI Enterprise 4.0:定制企业级生成式 AI
为了进一步加速生成式 AI 的应用,英伟达也将其企业级平台 NVIDIAAI Enterprise 升级到了 4.0 版本。
目前,AI Enterprise 4.0 不仅可以为企业提供生成式 AI 所需的工具,同时还提供了生产部署所需的安全性和 API 稳定性。
- NVIDIA NeMo
一个用于构建、定制和部署大语言模型的云原生框架。借助 NeMo,英伟达 AI Enterprise 可以为创建和定制大语言模型应用提供了端到端的支持。
- NVIDIA Triton 管理服务
帮助企业进行自动化和优化生产部署,使其在 Kubernetes 中能够自动部署多个推理服务器实例,并通过模型协调实现可扩展 A 的高效运行。
- NVIDIA Base Command Manager Essentials 集群管理软件
帮助企业在数据中心、多云和混合云环境中最大化 AI 服务器的性能和利用率。
除了英伟达自己,AI Enterprise 4.0 还将集成到给其他的合作伙伴,比如 Google Cloud 和 Microsoft Azure 等。
此外,MLOps 提供商,包括 Azure Machine Learning、ClearML、Domino Data Lab、Run:AI 和 Weights & Biases,也将与英伟达 AI 平台进行无缝集成,从而简化生成式 AI 模型的开发。
Omniverse:在元宇宙中加入大语言模型
最后,是 NVIDIA Omniverse 平台的更新。
在接入了 OpenUSD 和 AIGC 工具之后,开发者可以更加轻松地生成模拟真实世界的 3D 场景和图形。
就像它的名字一样,Omniverse 的定位是一个集合了各种工具的 3D 图形制作协作平台。
3D 开发者可以像文字编辑们在飞书或者钉钉中一样,在 Omniverse 上共同制作 3D 图形和场景。
而且可以将不同的 3D 制作工具制作出来的成果直接整合在 Omniverse 之内,将 3D 图形和场景的制作工作流彻底打通,化繁为简。
OpenUSD
而这次更新中,接入的 OpenUSD 是什么东西?
OpenUSD(Universal Scene Description)提供了一个开源,通用的场景描述格式,使不同品牌、不同类型的 3D 设计软件可以无障碍的协作。
Omnivers 本身就是建立在 USD 体系之上的,这次 Omniverse 针对 OpenUSD 的升级,使得 Omniverse 能为开发者,企业推出了更多的框架和资源服务。
基于 OpenUSD 这个开源的 3D 图像编辑格式,5 家公司(苹果,皮克斯,Adobe,Autodesk,英伟达)成立了 AOUSD 联盟,进一步推动了 3D 图像业界采用 OpenUSD 格式。
而且,借助 AOUSD 联盟的成立,Omniverse 的开发者也可以方便的创建各种兼容于苹果的 ARKit 或者是 RealityKit 的素材和内容,更新后 Omniverse 也支持 OpenXR 的标准,使得 Omniverse 能够支持 HTC VIVE,Magic Leap,Vajio 等 VR 头显设备。
API,ChatUSD 和其他更新
此外,英伟达还发布了新的 Omniverse Cloud API,让开发者可以更加无缝地部署 OpenUSD 管线和应用程序。
而最引人瞩目的,就是支持基于大语言模型的 ChatUSD 的支持。
基于大语言模型技术的 ChatUSD 能像 Github Copilot 一样,在 Omniverse 平台中回答开发者的相关问题,或者自动生成 Python-USD 的代码,让开发人员效率暴增。
总而言之,英伟达再次用暴力的产品,令人惊叹的技术,高瞻远瞩的洞见,让全世界再次看到,它未来将如何引领世界 AI 和图形计算的新浪潮。
在老黄的经典名言「the more you buy,the more you save!」中,老黄缓缓走下舞台,却把现场气氛推向了最高潮。
参考资料:
https://www.nvidia.cn/events/siggraph/
本文来源:新智元,原文标题:《老黄深夜炸场,AIGC 进入 iPhone 时刻!Hugging Face 接入最强超算,神秘显卡胜过 A100》