1530亿个晶体管！AMD携最强AI芯片叫板NVIDIA：性能远超H100，单片可跑大模型！

2023年06月14日

6月14日消息，处理器大厂AMD在美国旧金山举行的 “数据中心与人工智能技术发布会”，正式发布了新一代的面向AI及HPC领域的GPU产品——Instinct MI 300系列。

其中MI300X则是目前全球最强的生成式AI加速器，集成了高达1530亿个晶体管，并支持高达 192 GB 的 HBM3内存，多项规格超越了英伟达（NVIDIA）最新发布的H100芯片，为当下受困于英伟达垄断且供应紧张的生成式AI芯片市场带来了新的选择。

据悉，Meta、亚马逊等大厂也作为其客户代表出席了本次活动。业界也纷纷看好MI 300系列芯片有望挑战英伟达目前在AI市场的霸主地位。

与此同时，AMD还推出了面向数据中心的第四代的Epyc产品。

MI300A：最高1460 亿个晶体管，集成13个小芯片

AMD CEO苏姿丰表示，生成式AI和大语言模型（LLM）需要电脑的算力和内存大幅提高。预计今年，数据中心AI加速器的市场将达到300亿美元左右，到2027年将超过1500亿美元，复合年增长率超过50%。这意味着未来四年的CAGR将会超过50%。

正是基于AI加速器市场的庞大需求和高速增长趋势，AMD顺势推出了 Instinct MI300系列，此次发布的包括MI300A和MI300X。

从设计上来看，作为将大型片采用Chiplet设计的先行者，AMD MI300A同样也是采用了Chiplet设计，其内部拥有多达13个小芯片，均基于台积电5nm或6nm制程工艺（CPU/GPU计算核心为5nm，HBM内存和I/O等为6nm），其中许多是 3D 堆叠的，以便创建一个面积可控的单芯片封装，总共集成1460 亿个晶体管。

具体来说，MI300A与上一代的MI250X一脉相承，采用新一代的CDNA 3 GPU架构，并集成了24个Zen 4 CPU内核，配置了128GB的HBM3内存。从芯片的照片上我们可以看到，MI300A的计算核心被 8 个HBM3内存包围，单个HBM3的带宽为6.3GB/s，八个16GB堆栈形成128GB统一内存，带宽高达5.2 TB/s。

据外媒Seminalysis报道称，MI300的所有变体都以相同的基础构建块（称为AID）、有源内插器管芯开始。这个名为Elk Range的Chiplet小芯片，尺寸约为370mm2，采用台积电的N6工艺技术制造。该芯片包含2个HBM内存控制器、64MB内存附加末级（MALL）缓存、3个最新一代视频解码引擎、36个xGMI/PCIe/CXL通道，以及AMD的片上网络（NOC）。在4个小芯片的配置中，拥有256MB的MALL缓存，达到了英伟达H100的50MB的MALL缓存的5倍。

AID最重要的部分是它在CPU和GPU计算方面的模块化。AMD和台积电使用混合键合（hybrid bonding技术）将AID连接到其他小芯片。这种连接，通过铜TSV允许AMD混合和匹配CPU与GPU的最佳比例。

这四个AID以超过4.3 TB/s的平分带宽相互通信，通过类似AMD的Navi31游戏显卡GPU当中的小芯片互连上的超短距离（USR）物理层实现，尽管这次同时具有水平和垂直链路以及对称的读/写带宽。方形拓扑还意味着对角连接需要2 hops，而相邻AID需要1 hop。

这些AID中的2或4个，根据MI300变体具有不同的计算能力，被分组在CoWoS硅中介层的顶部。AID有两种不同的tape outs输出，它们与英特尔的Sapphire Rapids非常相似。

具体到GPU核心方面，其计算小芯片被称为XCD，代号为Banff，基于台积电N5工艺，面积约为115平方毫米，总共包含40个计算单元，尽管只启用了38个CU。该架构是从AMD的MI250X演变而来的，在GitHub上，AMD称其为GFX940，但公开称其为CDNA3。它针对计算进行了优化，尽管是一个“GPU”，但无法真正进行图形处理，同样英伟达的H100也是如此，它们的大部分GPC都无法进行图形处理。

每个AID总共可以有2个Banff管芯，总共有76个CU。MI300A的最大XCD/GPU配置将提供304个CU。相比之下，AMD的MI250X拥有220个CU。

MI300A的另一个模块化计算方面是CPU端。AMD部分重复使用他们的Zen 4 CCD芯片设计，尽管有一些修改。他们改变了一些金属层掩模，为SoIC和AID创建了焊盘，这就需要重新设计一些金属掩模来进行新的tape out。这个修改的Zen 4 CCD，GD300 Durango禁用了GMI3 PHY。到AID的带宽明显高于GMI3。该CCD采用台积电的5nm工艺技术，保持了与台式机和服务器上的Zen 4 CCD相同的约70.4平方毫米的芯片尺寸。

每个AID可以有3个Zen 4小芯片，总共24个核心。MI300A的最大CCD/CPU配置可以提供多达96个内核。

Seminalysis称，AMD的MI300A是世界上最令人难以置信的先进封装形式。总共100多块硅片粘在一起，所有这些都基于使用台积电CoWoS-s技术的破纪录的3.5倍掩模版硅插入器的顶部。这种硅的范围从HBM存储器层到用于计算的有源中介层，再到用于结构支撑的空白硅。这个巨大的内插器的尺寸几乎是英伟达H100的两倍。这也使得MI300的封装工艺流程非常复杂。

苏姿丰表示，MI300A将会将提供比前一代的MI250X（理论算力47.87TFLOPS，总功耗为500W）大约快 8 倍的 AI 性能，同时每瓦性能也将提高5倍。

Seminalysis也表示，“MI300A是迄今为止市场上最好的HPC芯片，并将持续一段时间。”MI300A 在 72 x 75.4mm 基板上采用集成散热器封装的设计，适合插槽 SH5 LGA 主板，每块板有 4 个处理器，能有效地控制开发成本。

据介绍，MI300A目前已经开始小批量出货，并且将为今年晚些时候推出的美国新一代200亿亿次的El Capitan超级计算机提供动力。

MI300X：1530亿个晶体管，性能超越英伟达H100

除了MI300A之外，AMD还带来了更为强大的针对针对LLM进行优化的MI300X。

据介绍，MI300X内部集成了12个5/6nm工艺的小芯片（HMB和I/O为6nm），拥有1530亿个晶体管。在内核设计上，采用了相比MI250X更简单的设计，放弃了 APU 的 24 个Zen4内核和 I/O 芯片，取而代之的是更多的 CDNA 3 GPU 和更大的 192GB HBM3内存，带来高达5.2TB/s的带宽和896GB/s的Infinity Fabric带宽。

、

AMD称，MI300X提供的HBM密度是英伟达最新的H100芯片的2.4倍，其HBM带宽最高是H100的1.6倍。更大HMB容量和更高的带宽，使得MI300X减少了CPU和GPU之间的数据移动，这也使得功耗和延迟大大降低，并可以运行比英伟达H100芯片更大的模型。

据苏姿丰介绍，MI300X可以支持400亿个参数的Hugging Face AI模型运行，并在发布会上演示了让这个LLM写一首关于旧金山的诗。这也是全球首次在单个GPU上运行这么大的模型。单个MI300X可以运行一个参数多达800亿的大模型。

AMD还发布了AMD Instinct平台，该平台将八个MI300X GPU组合到一块服务器主板上，提供总计1.5TB的HBM3内存。值得一提的是，该平台采用行业标准OCP设计，与英伟达的专有MGX平台形成鲜明对比。AMD表示，这种开源设计将加快部署速度。

苏姿丰称，MI300X和八个GPU的Instinct平台将在今年第三季度出样，第四季度正式推出。

AMD MI300C和MI300P

据Seminalysis报道称AMD MI300系列其实总共有四种不同的配置，除了MI300A和MI300X之外，还有MI300C和MI300P，尽管不确定这两种配置是否真的会发布。

其中，MI300C采用了96核Zen4＋HBM的CPU，以应对英特尔的Sapphire Rapids HBM。然而，市场可能太小，产品太贵，AMD无法生产这个版本。

而MI300P就像一个半尺寸的MI300X。这是一个可以在PCIe卡中以较低功率进入的。这同样需要主机CPU进行搭配。但这将是最容易开始开发的版本。

加速软件生态建设

对于AMD来说，其AI加速器在软件生态上非常的孱弱。相比之下，英伟达的CUDA软件已经为其AI加速器构建了一条强大的护城河。

在此次的发布会上，AMD总裁Victor Peng上台谈论了AMD围绕开发软件生态系统所做的努力。

AMD计划在其人工智能软件生态系统开发中执行“Open（software approach）、Proven（AI capability）和Ready（support for AI models）”的理念，Victor Peng则负责该生态系统的开发。

据Victor Peng介绍，AMD已经构建了一套完整的库和工具ROCm，可以用于其优化的 AI 软件堆栈。与英伟达独有的CUDA生态不同，这是一个开放平台。AMD在过去几年来也一直在不断优化 ROCm 套件。同时，AMD还在与很多合作伙伴合作，希望进一步完善其软件生态，方便开发者的AI开发和应用部署。

编辑：芯智讯-浪客剑