英特尔展示具有1TB/s硅光互连的8核528线程处理器

近日,在美国加利福尼亚举行的Hot CHIPS会议上,英特尔展示了一款具有 1TB/s 硅光子互连的8核528 线程处理器,旨在用于处理最大的分析工作负载。

据介绍,该芯片并不是基于x86架构的,它是专门为DARPA的分层身份验证漏洞(HIVE)程序使用自定义RISC架构构建的。美国的这项军事举措旨在开发一种图形分析处理器,该处理器能够以比传统计算架构快100倍的速度处理流式数据,同时功耗更低。

图形分析处理复杂系统中数据点与其他数据点的连接方式。英特尔首席工程师Jason Howard在他的Hot Chips演示中指出的例子是社交网络,它可以运行图形分析工作负载来了解成员之间的联系。

虽然这对DARPA来说可能是一件奇怪的事情,但该政府机构认为大规模图形分析在基础设施监控和网络安全方面有应用。

该芯片是英特尔首个直接网状光子结构的一部分,该结构使用硅光子互连将多个芯片互联在一起。但是,英特尔并没有使用铜线将两个、四个甚至八个插槽缝合在一起,英特尔使用了共封装光学器件将数百甚至数千个芯片连接在一个低延迟、高带宽的网格中。

这是一个不错的想法,但无论如何,该芯片仍然是一个原型。

利用硅光子学扩大图形分析

英特尔的目标是开发可以扩展的技术,以支持最大的图形分析工作负载。

The four chiplets surrounding the central compute die supply the Intel prototype with 1TB/s of optical bandwidth

△围绕中央计算芯片的四个小芯片为英特尔这个原型芯片提供1TB/s的光学带宽

虽然该芯片最初看起来是一个标准处理器,有一些额外的位和块——它甚至有一个相当典型的BGA接口,与Xeon-D芯片上的接口没有什么不同——但I/O芯片的大部分数据都是使用与Ayar Labs合作开发的硅光子芯片进行光学传输的。

CPU周围的四个小芯片将进出处理器的电信号转换为32根单模光纤携带的光信号。正如我们所理解的,这些光纤束中的16根用于传输数据,另16根用于接收数据。

根据英特尔的说法,每根光纤都可以在芯片内外以32GB/s的速度传输数据,总带宽为1TB/s。然而,Jason Howard表示,在测试中,只达到了这个比率的一半。

Most of the data moving in and out of Intel\\'s prototype is transmitted optically.

△进出英特尔原型处理器的数据都是通过光学传输的

正如英特尔所设想的那样,这些芯片中的16根光线用于传输数据,将在一个开放计算项目服务器上以底座的形式以all-to-all的配置联网。然后,多个底座(可能多达100000个)可以再次以底座到底座的配置联网在一起。结果是,任何一个芯片都可以以非常低的延迟与另一个芯片通信,无论它位于哪个底座中。

这并不是说英特尔在让光学器件研发方面没有遇到挑战。Jason Howard说,除了只能达到宣传中一半的带宽外,光纤经常出现故障。

Jason Howard说:“一旦我们把所有东西都调好并工作起来,就会出现很多纤维附着问题,因为这些都是脆性纤维,它们就会脱落。” “我们还看到,当我们对整个封装进行回流工艺时,由于热结果,我们会遇到光学问题,最终会产生糟糕的光学成品率。”

Jason Howard解释说,为了克服这些挑战,英特尔必须与合作伙伴合作开发具有较低热障的新材料。

A significant chunk in the center of the die is dedicated to routers which control the flow of data streaming in from the co-packaged optics.

△芯片中心的一个重要部分专门用于路由器,这些路由器控制从共封装光学器件流入的数据流

这些设计考虑促使团队开发了这种实验性处理器,台积电使用其7nm FinFET工艺制造了这款处理器(如果你不知道的话,英特尔在台积电制造了很多非CPU产品,而且已经有很多年了),它有八个核,每个核有66个线程。

Jason Howard解释说,该芯片还使用了一种新颖的内存架构,这是优化图形分析工作负载的一个重要内容。这些芯片与32GB DDR5 4400MT/s内存配对,通过允许8字节访问粒度的自定义内存控制器进行访问。根据Jason Howard的说法,这是有利的,因为“每当我们从内存中取出一条数据线时,我们都会尝试利用所有的数据线,而不是扔掉7/8的数据线。”

具有8倍连接的PCIe 4.0允许连接回主机系统。

英特尔还必须找到一种方法来处理进出计算芯片的巨大流量,理论上可能高达1TB/s。根据 Howard 的说法,这一要求是大量芯片专用于路由器的原因。

虽然你可能认为这样一个线程和网络密集型芯片可能会很热,但事实并非如此。该芯片在1GHz时的最高功率为75瓦。根据英特尔的说法,16个芯片配置将拥有8TB内存、2048个内核、135168个线程,并消耗大约1.2kW的功率。考虑到一个具有112个内核和224个线程的单双插槽Sapphire Rapids系统在负载下可以很容易地消耗那么多功率,这还不错。

英特尔设想,这些芯片可以构建到包含100000个底座的网格中,即使是最大的图形分析工作负载,也可以实现近乎线性的性能扩展。然而,这个梦想仍然存在,因为英特尔迄今为止只测试了两个连接在其结构上的芯片。

Jason Howard解释说,英特尔是否会将该设计商业化将取决于资金。“如果人们想给我们钱,我们非常欢迎建造这些东西。”

编辑:芯智讯-林子   来源:The Register

 

0

付费内容

查看我的付费内容