Untether.AI 展示了全新AI加速器Boqueria：1458个RISC-V 核心，性能高达2PFlops – 芯智讯

Login

Untether.AI 展示了全新AI加速器Boqueria：1458个RISC-V 核心，性能高达2PFlops

2022年08月25日

8月25日消息，在近日的Hot Chips大会上，芯片创业公司Untether.AI 展示了其最新的 AI 加速器Boqueria，这是一个拥有1458个RISC-V 核心的AI 加速器，性能高达2PFlops。

Untether.AI表示，芯片内部的数据移动会带来性能和功耗方面的损耗，所以他们的部分目标是使计算更接近内存，以最大程度地减少数据的移动。

Boqueria 是一款基于台积电 7nm 制程，RISC-V RV32EMC指令集，1458个RISC-V 核心，主频1.35GH，集成了高达238MB 的片上 SRAM ，为芯片提供了大约 1PB/s 的 SRAM 带宽，而且它可以访问外部存储器。FP8 性能可达2015 TFLOPs，BF16性能可达1008 TFLOPs。

每个内存库（NOC 上的内存/计算集群）都有两个多线程 RISC-V 内核。所有这些存储库都通过 NOC 连接。

下面这张PPT展示了 Boqueria 如何将 SRAM 和计算结合在一起的。

Untether.AI 的一大见解和设计原则是 FP8 适合推理。他们认为FP8 在设计上比 INT8 更有效。

FP8 对推理的准确性影响很小，这就是 Untether.AI 使用 FP8 的原因，因为它更高效且对准确性的影响较小。

Boqueria 的RISC-V 处理器是基于RV32EMC 指令集，并拥有自定义指令。这是 RISC-V 强大功能的一部分。

这是有关片上 NOC 的更多详细信息。

该公司表示，其架构从极低功率扩展到更高功率的设备。它不是在讨论 500W 芯片，而是针对 M.2 类型的功率包络。

这个想法是然后聚合一些这些较小的芯片以实现更高的性能。请注意，这也是 PCIe Gen5 设备。

该公司的软件称为 imAIgine SDK。

与大多数 AI 加速器一样，编译器需要针对硬件进行高度优化。

有了这个，该公司表示它可以具有比 GPU 更高的性能。

以下是吞吐量和能源效率的比较：

当然，必须记住，被比较的 GPU 是一种更通用的加速器设备，目前已在市场上销售。

最后，每年在 Hot Chips，我们都会看到许多 AI 初创公司。通常，那些试图以更低的价格简单地匹配 NVIDIA 正在做的事情的初创公司，我们不会涵盖。我们认为这很有趣，不仅因为推理加速器角度，还因为它使用的是 RISC-V。这些是 RISC-V 在尝试进入更主流市场之前可以进入 Arm 市场的应用类型。

编辑：芯智讯-林子来源：servethehome

0

相关文章: