5月14日晚间,受新冠疫情影响,今年的英伟达GTC 2020活动改为了线上发布,而发布场地被挪到了英伟达(NVIDIA)CEO黄仁勋自家的厨房。而当晚黄仁勋则在厨房中发布了史上最强的GPU——NVIDIA Tesla A100,黄仁勋表示这是NVIDIA八代GPU史上最大的一次性能飞跃。同时,NVIDIA还发布了全球最强AI和HPC服务器平台HGX A100、全球最先进的AI系统——DGX A100系统、Orin SoC系列自动驾驶芯片及全新DRIVE AGX平台。
NVIDIA Tesla A100
据介绍,A100基于全新的安培(Ampere)架构,台积电7nm制程,采用了3D堆叠工艺,面积为826mm²,包含540亿个晶体管,最大功率达到 400W。其内置了NVIDIA第三代张量核心(Tensor Core),其扩展功能还支持包括面向AI的新数学格式TF32,无任何代码更改,可将单精度浮点计算峰值提升至上一代的20倍,同时张量核现已支持FP64,可为HPC应用提供了比上一代多2.5倍的算力。同时,A100还支持多实例GPU(MIG)技术,可以将一个A100 GPU分割成多达7个独立的GPU实例,从而为不同大小的任务提供不同程度的计算,提高利用率和投资回报。
黄仁勋表示,“A100 是迄今为止人类制造出的最大 7nm制程芯片,集AI训练和推理于一身,同时也是首个内置弹性计算技术的多实例GPU,提供了NVIDIA迄今为止最大的性能飞跃——统一了数据分析、训练和推理,其AI训练和推理性能相比于前代产品提升了高达20倍。”除了性能提升之外,安培GPU也可以实现在一个平台上对横向扩展以及纵向扩展的负载的加速。“A100将在提高吞吐量的同时,降低数据中心的成本。”
上一次英伟达发布如此性能强大的GPU芯片还是2017年的Tesla V100。在英伟达看来,自Volta 架构的Tesla V100推出后,业界对AI模型训练算力的需求增长了 3000 倍。这显然也是英伟达放手增加算力和吞吐量的动力所在。
HPC服务器平台HGX A100
而为了帮助合作伙伴,加速NVIDIA A100的应用,NVIDIA还推出了一个以多GPU配置的集成底板形式出现的大型HPC服务器构建块——HGX A100。
▲NVIDIA HGX A100
据介绍,HGX A100可为最多块A100 GPU提供GPU与NVLink之间的完全互联,同时还可通过NVSwitch提供了GPU到GPU的全带宽。同样,HGX A100也采用了新的多实例GPU架构,可配置为56个小型GPU,每个GPU都比NVIDIA T4快,最大可组成一个拥有AI算力达10 PFLOPS的巨型8-GPU服务器。
个人超算DGX A100
此外,在HGX A100的基础上,NVIDIA还发布了第三代工作站“DGX A100”,按照NVIDIA的说法叫做个人超级计算机,可以支持在桌面端进行AI研究,并扩展到云端。
据了解,DGX-A100搭载了AMD第二代EPYC“Rome”企业级处理器,两个AMDEPYC7742加起来总计128核/256线程,最高可达3.40GHzboost。DGX A100内部配备了八颗安培架构的A100 GPU,每一颗整合40GB HBM2高带宽显存,总容量达320GB。每颗GPU均支持多达12路的NVLink互连总线,GPU-GPU带宽高达600GB/s,可保证八颗GPU彼此完全互连,同时还有6颗NVIDIA NVSwitch芯片,双向带宽高达4.8TB/s。单节点AI算力达到创纪录的5PFLOPS,5个DGX A100系统组成的一个机架,算力可媲美一个AI数据中心。
不过从示意图上可以看出,每颗GPU周围其实有六颗HBM2显存芯片,很显然有一颗没有启用,剩下的五颗单颗容量8GB从而组成40GB。这意味着,A100核心现在应该也是屏蔽了六分之一的规模。
网络方面配备了刚完成收购的Mellanox的解决方案,包括八颗单端口ConnectX-6 VPI用于聚类,峰值性能200GB/s,以及一颗双端口ConnectX-6 VPI用于数据与存储网络。
有趣的是,搭配的CPU处理器这次抛弃了Intel至强,改为使用两颗AMD二代霄龙(Rome),且是顶级的64核心型号,同时搭配1TB DDR4内存、15TB PCIe 4.0 NVMe SSD固态硬盘。
黄仁勋称这是“世界上最大的显卡”,不算外壳单单是其中的计算板加散热器就有45斤的重量,集成超过3万个不同组件,钻孔数量多达100万个,连接电路长达1公里。在性能方面,DGXA100相比于高端CPU服务器,它的AI计算性能要高出150倍,内存带宽高出40倍,IO带宽也高出40倍。
目前DGXA100个人超算现已上市,售价19.9万美元(约合人民币141万元)。
Orin SoC系列自动驾驶芯片及全新DRIVE AGX平台
自动驾驶芯片及平台也是这次发布的重头戏。“自动驾驶汽车是我们这个时代面临的最大的计算挑战之一。”黄仁勋说,为此英伟达也在全力推进NVIDIA DRIVE平台迭代。
不再是单纯的算力叠加游戏。英伟达借助全新的安培GPU和即将推出的Orin系统级芯片(SoC),对DRIVE AGX平台进行扩展,为自动驾驶行业提供了一套灵活可扩展方案。“既可以为前挡风玻璃提供5瓦的ADAS系统,还能将规模扩大到L5级Robotaxi系统。”
L5级Robotaxi系统将配备两个Orin SoC和两块NVIDIA Ampere GPU,可实现每秒2000万亿次运算,超过上一代平台性能的6倍。同时,也能够缩小到入门级ADAS/Level 2的案例,性能达到10TOPS,功耗低至5W。
据悉,Orin SoC系列将于明年开始提供样品,在2022年下半年投入生产并向汽车制造商供应,为下一代可编程软件定义NVIDIA DRIVE AGX系列奠定基础。
此前,小鹏汽车曾采用英伟达Xavier方案搭建L3自动驾驶计算平台,就昨天公布的信息来看,美国电动车新创企业Canoo的下一代电动汽车、法拉利未来的FF 91,都计划采用英伟达DRIVE AGX Xavier平台。
编辑:芯智讯-林子 综合自网络