史上最强GPU！英伟达Tesla A100发布：采用7nm工艺，性能提升20倍！还有自动驾驶芯片Orin SoC

2020年05月15日

5月14日晚间，受新冠疫情影响，今年的英伟达GTC 2020活动改为了线上发布，而发布场地被挪到了英伟达（NVIDIA）CEO黄仁勋自家的厨房。而当晚黄仁勋则在厨房中发布了史上最强的GPU——NVIDIA Tesla A100，黄仁勋表示这是NVIDIA八代GPU史上最大的一次性能飞跃。同时，NVIDIA还发布了全球最强AI和HPC服务器平台HGX A100、全球最先进的AI系统——DGX A100系统、Orin SoC系列自动驾驶芯片及全新DRIVE AGX平台。

NVIDIA Tesla A100

据介绍，A100基于全新的安培（Ampere）架构，台积电7nm制程，采用了3D堆叠工艺，面积为826mm²，包含540亿个晶体管，最大功率达到 400W。其内置了NVIDIA第三代张量核心（Tensor Core），其扩展功能还支持包括面向AI的新数学格式TF32，无任何代码更改，可将单精度浮点计算峰值提升至上一代的20倍，同时张量核现已支持FP64，可为HPC应用提供了比上一代多2.5倍的算力。同时，A100还支持多实例GPU（MIG）技术，可以将一个A100 GPU分割成多达7个独立的GPU实例，从而为不同大小的任务提供不同程度的计算，提高利用率和投资回报。

黄仁勋表示，“A100 是迄今为止人类制造出的最大 7nm制程芯片，集AI训练和推理于一身，同时也是首个内置弹性计算技术的多实例GPU，提供了NVIDIA迄今为止最大的性能飞跃——统一了数据分析、训练和推理，其AI训练和推理性能相比于前代产品提升了高达20倍。”除了性能提升之外，安培GPU也可以实现在一个平台上对横向扩展以及纵向扩展的负载的加速。“A100将在提高吞吐量的同时，降低数据中心的成本。”

上一次英伟达发布如此性能强大的GPU芯片还是2017年的Tesla V100。在英伟达看来，自Volta 架构的Tesla V100推出后，业界对AI模型训练算力的需求增长了 3000 倍。这显然也是英伟达放手增加算力和吞吐量的动力所在。

HPC服务器平台HGX A100

而为了帮助合作伙伴，加速NVIDIA A100的应用，NVIDIA还推出了一个以多GPU配置的集成底板形式出现的大型HPC服务器构建块——HGX A100。

▲NVIDIA HGX A100

据介绍，HGX A100可为最多块A100 GPU提供GPU与NVLink之间的完全互联，同时还可通过NVSwitch提供了GPU到GPU的全带宽。同样，HGX A100也采用了新的多实例GPU架构，可配置为56个小型GPU，每个GPU都比NVIDIA T4快，最大可组成一个拥有AI算力达10 PFLOPS的巨型8-GPU服务器。

个人超算DGX A100

此外，在HGX A100的基础上，NVIDIA还发布了第三代工作站“DGX A100”，按照NVIDIA的说法叫做个人超级计算机，可以支持在桌面端进行AI研究，并扩展到云端。

据了解，DGX-A100搭载了AMD第二代EPYC“Rome”企业级处理器，两个AMDEPYC7742加起来总计128核/256线程，最高可达3.40GHzboost。DGX A100内部配备了八颗安培架构的A100 GPU，每一颗整合40GB HBM2高带宽显存，总容量达320GB。每颗GPU均支持多达12路的NVLink互连总线，GPU-GPU带宽高达600GB/s，可保证八颗GPU彼此完全互连，同时还有6颗NVIDIA NVSwitch芯片，双向带宽高达4.8TB/s。单节点AI算力达到创纪录的5PFLOPS，5个DGX A100系统组成的一个机架，算力可媲美一个AI数据中心。

不过从示意图上可以看出，每颗GPU周围其实有六颗HBM2显存芯片，很显然有一颗没有启用，剩下的五颗单颗容量8GB从而组成40GB。这意味着，A100核心现在应该也是屏蔽了六分之一的规模。

网络方面配备了刚完成收购的Mellanox的解决方案，包括八颗单端口ConnectX-6 VPI用于聚类，峰值性能200GB/s，以及一颗双端口ConnectX-6 VPI用于数据与存储网络。

有趣的是，搭配的CPU处理器这次抛弃了Intel至强，改为使用两颗AMD二代霄龙(Rome)，且是顶级的64核心型号，同时搭配1TB DDR4内存、15TB PCIe 4.0 NVMe SSD固态硬盘。

黄仁勋称这是“世界上最大的显卡”，不算外壳单单是其中的计算板加散热器就有45斤的重量，集成超过3万个不同组件，钻孔数量多达100万个，连接电路长达1公里。在性能方面，DGXA100相比于高端CPU服务器，它的AI计算性能要高出150倍，内存带宽高出40倍，IO带宽也高出40倍。

目前DGXA100个人超算现已上市，售价19.9万美元（约合人民币141万元）。

Orin SoC系列自动驾驶芯片及全新DRIVE AGX平台

自动驾驶芯片及平台也是这次发布的重头戏。“自动驾驶汽车是我们这个时代面临的最大的计算挑战之一。”黄仁勋说，为此英伟达也在全力推进NVIDIA DRIVE平台迭代。

不再是单纯的算力叠加游戏。英伟达借助全新的安培GPU和即将推出的Orin系统级芯片（SoC），对DRIVE AGX平台进行扩展，为自动驾驶行业提供了一套灵活可扩展方案。“既可以为前挡风玻璃提供5瓦的ADAS系统，还能将规模扩大到L5级Robotaxi系统。”

△发布会视频截图

L5级Robotaxi系统将配备两个Orin SoC和两块NVIDIA Ampere GPU，可实现每秒2000万亿次运算，超过上一代平台性能的6倍。同时，也能够缩小到入门级ADAS/Level 2的案例，性能达到10TOPS，功耗低至5W。

据悉，Orin SoC系列将于明年开始提供样品，在2022年下半年投入生产并向汽车制造商供应，为下一代可编程软件定义NVIDIA DRIVE AGX系列奠定基础。

此前，小鹏汽车曾采用英伟达Xavier方案搭建L3自动驾驶计算平台，就昨天公布的信息来看，美国电动车新创企业Canoo的下一代电动汽车、法拉利未来的FF 91，都计划采用英伟达DRIVE AGX Xavier平台。

编辑：芯智讯-林子综合自网络

史上最强GPU！英伟达Tesla A100发布：采用7nm工艺，性能提升20倍！还有自动驾驶芯片Orin SoC

相关文章:

付费内容

史上最强GPU！英伟达Tesla A100发布：采用7nm工艺，性能提升20倍！还有自动驾驶芯片Orin SoC

相关文章:

付费内容

Trending now