英伟达DGX GH200超级AI计算机发布:集成256个GH200芯片,144TB共享内存,AI性能突破1 Exaflop!

5月29日,AI芯片大厂英伟达(NVIDIA) CEO黄仁勋今天在COMPUTEX 2023展前发布会上,正式发布了全新的GH200 Grace Hopper超级芯片,以及基于NVIDIA NVLink Switch System 驱动的拥有256个GH200超级芯片的NVIDIA DGX超级计算机,旨在助力开发面向生成式AI语言应用、推荐系统和数据分析工作负载的巨型、下一代模型。

黄仁勋表示:“生成式AI、大型语言模型和推荐系统是现代经济的数字引擎。DGX GH200 AI超级计算机集成了NVIDIA最先进的加速计算和网络技术来拓展AI的前沿。”

GH200超级芯片:整合了Grace CPU和H100 GPU,拥有2000亿个晶体管

GH200超级芯片使用NVIDIA NVLink-C2C芯片互连,将基于Arm的NVIDIA Grace CPU与NVIDIA H100 Tensor Core GPU整合在了一起,从而不再需要传统的CPU至GPU PCIe连接。与最新的PCIe技术相比,这将GPU和CPU之间的带宽提高了7倍,将互连功耗减少了5倍以上,并为DGX GH200超级计算机提供了一个600GB的Hopper架构GPU构建模块。

具体来说, GH200超级芯片,是将 72 核的Grace CPU、H100 GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一个封装中,拥有高达 2000 亿个晶体管。这种组合提供了 CPU 和 GPU 之间惊人的数据带宽,高达 900 GB / s,为某些内存受限的工作负载提供了巨大的优势。

图片

NVIDIA DGX GH200:AI性能突破1 Exaflop

NVIDIA此前的 DGX A100 系统只能将八个 A100 GPU 联合起来作为一个单元,面对生成式人工智能大模型对于算力的爆炸式增长,NVIDIA的客户迫切需要更大、更强大的系统。DGX GH200就是为了提供最大的吞吐量和可扩展性而设计的。

英伟达DGX GH200超级AI计算机发布:集成256个GH200芯片,144TB共享内存,AI性能突破1 Exaflop!

DGX GH200通过定制的NVLink Switch System(包含 36 个 NVLink 开关)将256个GH200超级芯片和高达144TB的共享内存连接成一个单元,避免标准集群连接选项(如 InfiniBand 和以太网)的限制,这种新的互连方式使DGX GH200系统中的256个H100 GPU作为一个整体协同运行,使其成为了专为最高端的人工智能和高性能计算工作负载而设计的系统和参考架构。可支持数万亿参数AI大模型训练。

图片DGX GH200相比上代DGX A100的共享内存容量提升了近500倍。

在 DGX GH200 系统中,GPU 线程可以使用 NVLink 页表寻址来自 NVLink 网络中其他 Grace Hopper 超级芯片的对等 HBM3 和 LPDDR5X 内存。NVIDIA Magnum I/O加速库优化 GPU 通信以提高效率,增强所有 256 个 GPU 的应用程序扩展。

包含 256 个 GPU 的 NVIDIA DGX GH200与NVLink系统的拓扑结构

DGX GH200系统中的每个Grace Hopper Superchip 都与一个NVIDIA ConnectX-7网络适配器和一个NVIDIA BlueField-3 NIC配对。DGX GH200 拥有 128 TBps 对分带宽和 230.4 TFLOPS 的 NVIDIA SHARP 网内计算,可加速 AI 中常用的集体操作,并通过减少集体操作的通信开销,将 NVLink 网络系统的有效带宽提高一倍。ConnectX-7 适配器还可以互连多个DGX GH200 系统,以扩展到超过256个GPU的更大的解决方案。

黄仁勋表示,DGX GH200 是“巨型 GPU”,这也是NVIDIA第一次使用 NVLink Switch 拓扑结构来构建整个超级计算机集群,这种结构提供了比前一代系统高出10倍的GPU到GPU带宽,以及7倍的CPU到GPU的带宽。它还设计了提供比竞争对手高出 5 倍的互连功耗效率和高达 128 TB / s 的对分带宽。该系统有 150 英里(约 241.4公里)的光纤,并且重达 4 万磅(约18.14吨),但是呈现出来就像一个单一的 GPU。

具体性能方面,得益于DGX GH200高达144TB的共享内存,使得其对于受 GPU内存大小瓶颈影响的AI和HPC应用程序的性能有了极大的提升。例如具有 TB 级嵌入式表的深度学习推荐模型 (DLRM)、TB 级图形神经网络训练模型或大型数据分析工作负载中,使用 DGX GH200 可实现 4 至 7 倍的加速。这表明 DGX GH200 是更高级的 AI 和 HPC 模型的更好解决方案,这些模型需要海量内存来进行 GPU 共享内存编程。

△大内存 AI 工作负载的性能比较

凭借256个GH200超级芯片的加持,DGX GH200 的“AI 性能”也达到了 1 exaflop(一百万万亿次)级别。

在软件工具方面,DGX GH200超级计算机还配备了NVIDIA软件,可为最大的AI和数据分析工作负载提供一个交钥匙式全栈解决方案。NVIDIA Base Command软件提供AI工作流程管理、企业级集群管理和多个加速计算、存储和网络基础设施的库,以及为运行AI工作负载而优化的系统软件。

图片

此外还包含NVIDIA AI Enterprise,即NVIDIA AI平台的软件层。它提供100多个框架、预训练模型和开发工具,以简化生成式AI、计算机视觉、语音AI等生产AI的开发和部署。

谷歌云、Meta和微软将首批采用

据介绍,谷歌云、Meta和微软将有望成为首批通过接入DGX GH200系统,来探索其用于生成式AI工作负载的能力的公司。NVIDIA还打算将DGX GH200设计作为蓝图提供给云服务提供商和其他超大规模企业,以便他们能够进一步根据他们自己的基础设施进行定制。

英伟达DGX GH200超级AI计算机发布:集成256个GH200芯片,144TB共享内存,AI性能突破1 Exaflop!

谷歌云计算副总裁Mark Lohmeyer表示:“构建先进的生成式模型需要创新的AI基础设施。Grace Hopper超级芯片的全新NVLink和共享内存解决了大规模AI的关键瓶颈,我们期待它在谷歌云以及我们的生成式AI计划中发挥强大的能力。”

Meta基础设施、AI系统及加速平台副总裁Alexis Björlin表示:“随着AI模型规模越来越大,它们需要可扩展的强大基础设施,以满足不断增长的需求。NVIDIA的Grace Hopper设计看起来能够让研究人员探索新的方法来解决他们面临的最巨大挑战。”

微软Azure基础设施企业副总裁Girish Bablani表示, “在以往训练大型AI模型是一项资源和时间密集型任务。DGX GH200 所具备的处理TB级数据集的潜力使得开发人员能够在更大的规模和更快的速度下进行高级别的研究。”

全新NVIDIA Helios超级计算机年底推出

NVIDIA正在打造自己的基于DGX GH200的AI超级计算机,以支持研发团队的工作。据介绍,这台名为NVIDIA Helios的超级计算机将配备四个DGX GH200系统。每个都将通过NVIDIA Quantum-2 InfiniBand 400 Gb / s 网络互连,以提高训练大型AI模型的数据吞吐量。Helios将包含1024个Grace Hopper超级芯片,预计将于今年年底上线。

NVIDIA MGX 系统

NVIDIA DGX 面向最高端市场的AI系统,HGX 系统则是面向超大规模数据中心,此次NVIDIA还新推出了介于这两者之间的的NVIDIA MGX 系统。

NVIDIA 表示,其OEM合作伙伴在为 AI 中心设计服务器时面临着新的挑战,这些挑战可能会减慢设计和部署的速度。NVIDIA 的全新 MGX 参考设计架构旨在加速这一过程,提供了 100 多种参考设计。

英伟达DGX GH200超级AI计算机发布:集成256个GH200芯片,144TB共享内存,AI性能突破1 Exaflop!

据介绍,MGX 系统由模块化设计组成,涵盖了 NVIDIA 的 CPU 和 GPU、DPU 和网络系统的所有方面,但也包括基于通用 x86 和 Arm 处理器的设计。NVIDIA 还提供风冷和液冷设计选项,以适应各种应用场景。

英伟达DGX GH200超级AI计算机发布:集成256个GH200芯片,144TB共享内存,AI性能突破1 Exaflop!

华硕、技嘉、Winrock 和和硕都将使用 MGX 参考架构来开发将于今年晚些时候和明年初上市的系统。

另外,黄仁勋还在现场展示了定制AI模型代工服务—Avatar Cloud Engine(ACE)for Game,借助语言大模型,玩家可以用自己的声音与AI生成的NPC角色对话,对此他表示,AI将成为电子游戏的未来。

NVIDIA MGX 系统

NVIDIA DGX 面向最高端市场的AI系统,HGX 系统则是面向超大规模数据中心,此次NVIDIA还新推出了介于这两者之间的的NVIDIA MGX 系统。

NVIDIA 表示,其OEM合作伙伴在为 AI 中心设计服务器时面临着新的挑战,这些挑战可能会减慢设计和部署的速度。NVIDIA 的全新 MGX 参考设计架构旨在加速这一过程,可以将开发时间缩短2/3至仅需6个月,开发成本也可以减少3/4。

据介绍,MGX 系统由模块化设计组成,涵盖了 NVIDIA 的 CPU 和 GPU、DPU 和网络系统的所有方面,但也包括基于通用 x86 和 Arm 处理器的设计,拥有100 多种参考设计。NVIDIA 还提供风冷和液冷设计选项,以适应各种应用场景。

ASRock Rack(永擎)、华硕、GIGABYTE(技嘉)、和硕、QCT、超微(Supermicro)都将使用 MGX 参考架构来开发将于今年晚些时候和明年初上市的系统。

Spectrum-X网络平台

在发布会上,NVIDIA还推出了一个全新的加速网络平台Spectrum-X,致力于提高基于以太网AI云的性能与效率。

NVIDIA Spectrum-X是将NVIDIA Spectrum-4以太网交换机与NVIDIA BlueField-3 DPU紧密结合,取得了1.7倍的整体AI性能和能效提升,同时可在多租户环境中提供一致、可预测的性能。

Spectrum-X为基于以太网的网络带来了高性能 AI 集群功能,为将 AI 更广泛地部署到超大规模基础设施中提供了新的选择。Spectrum-X 平台还可以与现有的基于以太网的堆栈完全互操作,并提供令人印象深刻的可扩展性,单个交换机上最多 256 个 200 Gb/s 端口,或两层叶脊拓扑中的 16,000 个端口。

Spectrum-X还提供NVIDIA加速软件和软件开发套件(SDK),使开发人员能够构建软件定义的云原生AI应用。

NVIDIA表示,这种端到端的功能交付,可以减少基于transformer的大规模生成式AI模型的运行时间,助力网络工程师、AI数据科学家和云服务商及时取得更好的结果,并更快做出明智的决策。

目前,Nvidia Spectrum-X 平台及其相关组件,包括 400G LinkX 光学器件,现已上市。全球头部超大规模云服务商正在采用NVIDIA Spectrum-X,包括领先的云创新企业。

作为NVIDIA Spectrum-X参考设计的蓝图和测试平台,NVIDIA正在构建一台超大规模生成式AI超级计算机,命名为Israel-1。它将被部署在NVIDIA以色列数据中心,由基于NVIDIA HGX平台的戴尔PowerEdge XE9680服务器,BlueField-3 DPU和Spectrum-4交换机等打造而成。

用生成式AI激活游戏角色生命

在游戏领域,生成式 AI 未来有望使得游戏玩家能够与游戏角色进行互动,并极大提高游戏的沉浸感。对此,英伟达宣布推出面向游戏的定制AI模型代工服务—Avatar Cloud Engine(ACE)for Game。

英伟达曾在2020年推出NVIDIA Omniverse,这一款基于NVIDIA RTX和皮克斯Universal Scene Description(USD)的图形和仿真模拟平台型产品,可以实现3D设计协作以及可扩展的多GPU实时逼真仿真。

ACE for Games则是在NVIDIA Omniverse的基础上,让开发人员可以使用它来构建和部署用于语音、对话和动画的自定义 AI 模型,从而使得游戏中的角色可以像真人一样与玩家对话。主要包括了三大模块:

一是NVIDIA NeMo大型语言模型(LLM)。这一模型使用专有数据构建、自定义和部署语言模型,根据游戏故事的世界观及人物背景来定制调整LLM,并且通过NeMo Guardrails来保护对话的安全性和效果。

二是NVIDIA Riva,这一模块主要用于自动语音识别(ASR)及文本转语音,以启用实时语音对话。

三是NVIDIA Omniverse Audio2Face,主要用于配合语音音轨,实时为游戏角色创建脸部表情动画。例如,Audio2Face搭配用于虚幻引擎5的Omniverse Connector,开发者可以直接将脸部动画添加到MetaHuman(虚幻引擎旗下用于创作逼真人类角色的框架)的角色上。

英伟达表示,开发者可以整合整套“ACE 游戏开发版”解决方案,或是单独使用自己需要的组件。

NVIDIA开发者与性能技术部门副总裁John Spitzer表示:“生成式AI将彻底改变玩家与游戏人物之间的互动方式,并极大地提高游戏沉浸感。基于我们在AI领域的专业知识,加上几十年来与游戏开发者合作的经验,NVIDIA正率先在游戏中使用生成式AI。”

黄仁勋也演示了生成式 AI 合成语音,通过对真人声音的模仿合成,可以让虚拟人“化身”讲任何一种语言。黄仁勋表示,AI将成为电子游戏的未来。

生成式AI助力数字化的智能工厂

目前全球各地的电子制造商正在使用新的综合参考工作流程来推进其工业数字化进程。这套流程将融合NVIDIA的生成式AI、3D协作、仿真模拟和自主机器技术。

依托庞大的合作伙伴网络,这套工作流程可帮助制造商使用一系列NVIDIA技术来规划、建造、运营和优化其工厂。这些技术包括:可连接顶尖计算机辅助设计(CAD)应用以及生成式AI应用程序接口(API)和先进框架的NVIDIA Omniverse ;用于仿真和测试机器人的NVIDIA Isaac Sim 应用;以及可用于自动光学检测的NVIDIA Metropolis视觉AI框架。

黄仁勋在现场演示时表示:“全球最大的行业所制造的都是实物,如果能先以数字化的方式制造这些产品,就可以节省大量成本。NVIDIA使电子产品制造商能够轻松构建和运营虚拟工厂,并实现制造和检查工作流程的数字化,这大大提高了质量和安全性,同时减少了最后一刻的意外和延误。”

据介绍,富士康工业互联网、宣鼎、和硕、广达和纬创正在使用新的参考工作流程来优化其工作间和装配线的运营,同时降低生产成本。

比如,富士康工业互联网正在与NVIDIA Metropolis生态合作伙伴一起实现电路板质控检测点重要环节的自动化;宜鼎正在使用NVIDIA Metropolis实现产线光学检测流程的自动化,实现降本提效;和硕正在利用NVIDIA Omniverse、Isaac Sim和Metropolis完成AI训练、改进工厂工作流程,在虚拟世界中进行大量模拟;Techman正在利用Isaac Sim来仿真、测试和优化其最先进的协作机器人,同时使用NVIDIA AI和GPU让机器人本身能够进行推理;笔记本电脑和电子硬件大型制造商广达正在使用其子公司Techman Robot的AI机器人检查产品质量;纬创正在使用NVIDIA Omniverse以及Autodesk AutoCAD、Autodesk Revit和FlexSim的输入数据,为其自动化接收线路和操作间构建数字孪生。纬创还使用NVIDIA Metropolis的AI计算机视觉技术来实现电路板光学检测的自动化。

NVIDIA还正在与数家领先的工具制造和服务提供商一同在各个工作流程层面建立统一的全栈架构。

在系统层面,NVIDIA IGX Orin 提供了一个将工业级硬件与企业级软件和支持相结合的一体化边缘AI平台。IGX满足了边缘计算独特的耐久性和低功耗要求,同时提供了开发和运行AI应用所需的高性能。

制造商合作伙伴包括凌华科技、研华、安提国际、Dedicated Computing、Prodrive Technologies和Yuan正在为工业和医疗市场开发由IGX驱动的系统,这些系统能够为实际生产带来数字化优势。

在平台层面,Omniverse与全球领先的3D、模拟和生成式AI提供商相连接,这个开放的开发平台可以让团队在他们喜爱的应用之间建立互操作性,比如来自Adobe、Autodesk和西门子的应用。

黄仁勋演示了Omniverse如何通过连接ChatGPT和Blender GPT等各种AI助手来简化3D工作流程和Python应用开发。NVIDIA Omniverse Cloud平台即服务(PaaS)已上线微软Azure,能够向企业客户提供Omniverse软件应用的全栈套件和NVIDIA OVX基础架构,其具备Azure云服务的规模和安全性。

在应用层面,Isaac Sim使企业能够构建并优化部署AI机器人。制造商可以与工业自动化公司READY Robotics合作,在将机器人部署到现实世界之前,在仿真中对机器人任务进行编程。SoftServe和FS Studio等仿真技术合作伙伴通过构建基于数字孪生的仿真,为客户缩短开发时间。

另外,在应用层面,NVIDIA Metropolis中的一系列工厂自动化AI工作流程使工业方案商和制造商能够开发、部署和管理降本提效的定制化质量控制解决方案。包括凌华科技、安提国际、德勤、Quantiphi和西门子在内的庞大合作伙伴生态正在帮助推广这些解决方案。

买的越多,省的越多

黄仁勋在演讲中指出,随着加速计算和生成AI的兴起,标志着计算的革新,我们正处于一个全新计算时代的转折点,加速计算和AI已经被世界上几乎所有的运算和云端公司所接受。根据NVIDIA公布的数据显示,目前已有40000家大公司和15000家初创公司使用英伟达技术。其中,有超过1600家生成式AI公司采用了NVIDIA技术。仅2022 年NVIDIA CUDA 软件下载量更达2500 万次。另外,加速计算服务、软体与系统促进诞生出新的商业模式,且让现有模式更具效率。

除了前面介绍的生成式AI对于游戏、智能制造等方面的助力之外,生成式AI也正为价值7000亿美元的数字广告行业带来了新机遇。基于NVIDIA AI和Omniverse的突破性引擎可以将来自领先软件制造商的创意3D和AI工具连接在一起,以大规模革新品牌内容和体验。比如,全球最大的营销服务机构英国WPP集团正与英伟达合作,在Omniverse Cloud上构建首个生成式AI广告引擎。

为了更生动的展示生成式AI 的能力,黄仁勋还把发布会变成大型卡拉OK现场,让AI以其随口说出的四句话为歌词,进行编曲创作出一首歌,并邀请现场与会者跟他一起唱出AI做的歌曲,引发全场热情。​

黄仁勋还在发布会上对比了使用 GPU 和 CPU 建设数据中心的差异。他声称,同样的投资,客户可以使用更少的 GPU 建设一个能够处理更大数据量的数据中心,功耗也更低。

“买的越多,省的越多(The more you buy, the more you save)。”黄仁勋说道。

编辑:芯智讯-浪客剑

0

付费内容

查看我的付费内容