英特尔加速实现XPU愿景：发布oneAPI Gold版本和英特尔服务器GPU

2020年11月12日

11月11日，英特尔公司今日宣布多项重要的技术进展，这也是英特尔多年来一直致力于通过统一的软件体验打造跨架构解决方案的又一里程碑。其中，英特尔® oneAPI Gold工具包将于今年12月正式交付；英特尔软件栈推出新功能，作为公司软硬件联合设计方法的一部分。同时，英特尔正式发布其首款数据中心独立图形显卡。该服务器GPU基于Xe-LP微架构，专为高密度、低时延的安卓云游戏和流媒体服务而设计。

英特尔高级副总裁、首席架构师兼架构、图形与软件部门总经理Raja Koduri表示：“今天是英特尔oneAPI和XPU宏大计划的重要时刻。随着oneAPI Gold版本的发布，开发者编程体验将更加丰富，oneAPI不仅拥有开发者熟悉的CPU编程库和工具，也包含矢量-矩阵-空间这种混合架构的编程库和工具。同时，我们还推出了基于Xe-LP微架构的首款数据中心GPU，以满足快速增长的云游戏和流媒体市场需求。”

重要性：随着世界进入到数十亿智能设备的时代，数据呈指数级增长，需要将重心从单独的CPU转移到跨CPU、GPU、FPGA和其他加速器的混合架构，英特尔将其称为“XPU”愿景。英特尔®服务器GPU的推出是英特尔在XPU时代扩展产品组合的最新一步。

这个计算时代也需要全面的软件栈。通过英特尔oneAPI工具包，开发者能够使用一种通用、开放且基于行业标准的编程模型访问英特尔XPU。这不仅能够释放底层硬件的性能潜力，同时能降低软件开发和维护成本，并且在部署加速计算方面，英特尔® oneAPI工具包较在专用的、受限于特定厂商的方案风险更低。

英特尔推出oneAPI Gold工具包：英特尔oneAPI行业计划在SuperComputing 2019大会上首次提出，这是英特尔为实现统一、简化的跨架构编程模型所提出的愿景：能够提供毫不妥协的性能，不受限于单一厂商专用的代码限制，且能实现原有代码的集成。借助oneAPI，开发者可以针对他们要解决的特定问题选择最佳的加速器架构，且无需为新的架构和平台再次重写软件。

英特尔oneAPI工具包充分利用了先进的硬件性能和指令，如用于CPU的英特尔®AVX-512（高级矢量扩展）和英特尔®深度学习加速（英特尔® DL Boost），以及XPU独有的功能。oneAPI工具包基于经受过长久考验的英特尔开发者工具，为开发者提供熟悉的编程语言和标准，同时与现有代码保持完全的连续性。

今天，英特尔宣布，英特尔oneAPI Gold工具包将于12月在本地和英特尔DevCloud上免费提供，同时还将提供包含英特尔技术咨询工程师全球支持的商业版本。英特尔还会将英特尔®Parallel Studio XE和英特尔®System Studio工具套件迁移到oneAPI产品中。

此外，英特尔DevCloud平台可供开发者在各种英特尔架构上测试代码和工作负载，现已增加了新的英特尔®锐炬® Xe GPU硬件。英特尔锐炬Xe MAX 图形显卡现在也可供公开访问；同时，Intel Xe -HP已开放给特定的开发者使用。

oneAPI得到了业界的支持，近期微软Azure和谷歌的TensorFlow已经宣布支持oneAPI；众多领先的研究机构、公司和大学也支持oneAPI。

oneAPI生态合作伙伴

除此之外，伊利诺伊大学香槟分校的贝克曼高级科学技术研究所今天宣布，将建立一个新的oneAPI卓越中心（CoE）。他们正在使用oneAPI编程模型将生命科学应用程序NAMD扩展到其他计算环境。NAMD能够模拟大型生物分子系统，正在帮助解决诸如COVID-19这样的全球性挑战。这个卓越中心将和研究GROMACS的斯德哥尔摩大学（SERC）卓越中心，以及海德堡大学（URZ）卓越中心一道，共同研究如何为其它厂商的GPU提供oneAPI支持。

关于英特尔全新服务器GPU：通过首款面向数据中心的独显产品，英特尔在增强云游戏与媒体体验方面进一步扩展了丰富的平台级创新。利用英特尔®至强®可扩展处理器与全新英特尔服务器GPU的组合，加之开源和授权的英特尔软件组件，即可以较低的总体拥有成本（TCO）①，为安卓云游戏以及OTT实时视频直播的高密度媒体转编码提供高密度、低时延的解决方案。

英特尔服务器GPU采用英特尔能效最高的图形架构——英特尔Xe-LP微架构，拥有低功耗、独立片上系统设计，并配备128比特管道和8GB专用板载低功耗DDR4显存。

英特尔服务器GPU

通过将英特尔服务器GPU和英特尔® 至强® 可扩展处理器强强联合，服务提供商可在不改变服务器数量的情况下，单独扩展显卡容量，以在每个系统上支持更多流和订阅用户，并同时实现较低的总体拥有成本（TCO）。通过新华三XG310 X16 PCIe3.0 GPU扩展卡——在3/4长、全高尺寸内封装四颗英特尔服务器GPU芯片，即可在一个典型双卡系统中支持超过100个安卓云游戏并发用户。这一数量最高可扩展至160个并发用户，实际数量取决于具体的游戏和服务器配置②。开发人员可利用目前Media SDK中的通用API，这一API也将于明年迁移到oneAPI视频处理库当中。目前，英特尔正在与包括Gamestream、腾讯和Ubitus在内的诸多软件和服务合作伙伴合作，共同将英特尔服务器GPU推向市场。

新华三XG310 PCIe GPU扩展卡

腾讯先游云游戏助理总经理方亮表示：“英特尔是我们安卓云游戏解决方案上非常重要的合作伙伴。英特尔至强可扩展处理器和英特尔服务器GPU，打造了一个高密度、低时延、低功耗、低TCO的解决方案，让我们能够在每台双卡服务器上生成超过100个游戏实例，诸如《王者荣耀》、《传说对决》。”

基于Xe-LP微架构的英特尔服务器GPU目前正在发货。与近期推出的英特尔®锐炬® Xe MAX独显一道，该GPU将随着英特尔Xe架构产品和软件计划的不断深入发展进一步为全球用户提升视觉计算体验。

英特尔®图形软件更新：英特尔将GPU从入门级图形显卡扩展到高性能计算（HPC）的核心策略之一，就在于实施同一套代码库。为了实现这一目标，英特尔的软件堆栈现在支持多代图形显卡，包括最近发布的第11代英特尔®酷睿™移动处理器集成的锐炬Xe显卡和英特尔锐炬Xe MAX独立显卡。扩展代码库以支持Linux更为普遍的数据中心产品，是可扩展的Xe架构策略的下一个关键步骤。英特尔对Linux驱动程序进行了优化，将重点放在操作系统之间的代码重用，并进一步关注Linux 3D性能，目前提供了三个经过充分验证和集成的发行版堆栈。

英特尔今天宣布，英特尔创建了Project Flipfast来提升在Linux操作系统上的游戏体验。Flipfast栈可以允许终端用户在虚拟机上运行图形应用，同时通过虚拟机和主机之间的零拷贝共享来保持本机GPU性能和主机集成完整性。Flipfast栈驱动器可提升游戏性能，该技术将可直接用于数据中心游戏流应用程序。

英特尔今天还宣布，英特尔®隐式SPMD程序编译器（ISPC）将在底层硬件接口oneAPI零级别（Level Zero）之上运行。oneAPI零级别是整个硬件抽象层，为oneAPI平台中的设备量身定制，提供底层的、直接到硬件的接口。由oneAPI支持的ISPC是C编程语言的一种变体，支持单程序、多数据编程，用于在英特尔CPU上加速英特尔®Osray光线追踪引擎。英特尔为ISPC增加了Xe支持，以无缝加速英特尔oneAPI渲染工具包组件（如Osray）。

下一步计划：11月12日至13日，在线上举行的oneAPI开发者峰会上，创新者、研究人员和开发人员将展示40个使用oneAPI的合作和项目。主题涉及从COVID-19的药物再利用测试，到作物产量预测等等。在本周开始的SuperComputing 2020上，英特尔与业界领袖和研究机构将通过主题演讲、技术会议、炉边对话、演示和其他活动，重点介绍oneAPI应用和英特尔oneAPI工具。有关英特尔在SuperComputing 2020上活动的完整信息，请访问intel.com。

英特尔oneAPI和图形软件栈的更新，以及英特尔服务器GPU的推出，标志着英特尔向XPU架构时代迈出里程碑式的一步。基于英特尔六大技术支柱创新以及异构架构，并通过oneAPI中基于开放标准的统一可扩展软件抽象层来实现，这些进展为更佳的体验奠定了坚实基础。