12月4日,在英特尔研究院开放日上,英特尔披露了其业界领先的五大前沿创新技术进展。包括:将光子与低成本、大容量的硅芯片进行集成的关键技术;英特尔神经拟态研究社区(INRC)的最新进展;发布了第二代低温控制芯片Horse Ridge II;介绍了英特尔保密计算的最新进展;推出了机器编程研究系统ControlFlag。
构造低成本、大容量的硅光模块关键技术
在数据中心里,新的以数据为中心的工作负载每天都在增长,随着服务器间的数据移动不断增加,对当今的网络基础架构提出了新的挑战。行业正在迅速接近电气I/O性能的实际极限。随着计算带宽需求不断增长,电气I/O的规模无法保持同步增长,从而形成了“I/O功耗墙”,限制了计算运行的可用能源。
但是,通过在服务器和封装中直接引入光互连I/O,我们就能打破这一限制,让数据更有效地移动。将光子与低成本、大容量的硅芯片进行集成,可以解决了电气输入/输出(I/O)性能扩展上与日俱增的挑战——目前需要大量数据计算的工作负载已经让数据中心的网络流量不堪重负。
在今天的英特尔研究院活动上,英特尔展示了在关键技术构建模块方面的重大进展,这些构建模块是英特尔集成光电研究的基础。这些技术构建模块包括光的产生、放大、检测、调制、互补金属氧化物半导体(CMOS)接口电路以及封装集成,对于实现集成光电至关重要。此次活动中展示的原型将光子技术与CMOS技术进行了紧密结合,这是未来光子技术与核心计算芯片完全集成的一次概念验证。
构造模块关键技术包括:
- 微型环调制器(micro-ring modulators):传统的芯片调制器占用面积太大,并且放置于IC封装的成本很高。英特尔开发的微型环调制器,将调制器尺寸缩小了1000倍以上,从而消除了将硅光子集成到计算封装中的主要障碍。
- 全硅光电检测器(all silicon photo detector):数十年来,业界一直认为硅实际上没有光检测功能。英特尔展示的研究结果证明事实并非如此。这一突破的一大好处就是让成本更低。
- 集成半导体光学放大器:由于我们致力于降低总功耗,因此集成半导体光学放大器必不可少。该设备通过使用与集成激光器相同的材料实现。
- 集成多波长激光器(Integrated multi-wavelength lasers):使用一种称为波分复用(wavelength division multiplexing)的技术,可以将来自同一激光的不同波长用在同一光束中传输更多数据。这样就能使用单根光缆来传输额外数据,从而增加了带宽密度。
- 集成:使用先进的封装技术将硅光子与CMOS芯片紧密集成,可实现三大优势:(1)更低的功耗、(2)更高的带宽和(3)更少的引脚数(pin count)。英特尔是唯一一家在与CMOS芯片紧密集成的单一技术平台上,展示了将多波长激光器、半导体光学放大器、全硅光电检测器以及微型环调制器集成到一起的公司。这项研究突破为集成光电技术的扩展奠定了基础。
英特尔还展示了比传统组件体积缩小了1000倍的微型环调制器。一直以来,传统芯片调制器的大尺寸和高成本都是将光技术引入服务器封装中的障碍,服务器封装需要集成一百个这样的器件。所有上述进展为硅光子的扩展应用奠定了基础,这些应用不仅限于网络上层,而且还包括服务器内部以及今后的服务器封装。
英特尔资深首席工程师,英特尔研究院PHY 研究实验室主任James Jaussi 表示:“我们正在靠近I/O功耗墙(Power Wall)和I/O带宽鸿沟,这将严重阻碍性能扩展。英特尔在集成光电技术方面所取得的快速进展,将让业界能够重新构想通过光来连接的数据中心网络和架构。目前,我们已经展示了与CMOS芯片紧密集成的一个硅芯片平台上所有关键的光学技术构建模块。我们将光子技术与CMOS硅芯片紧密集成的研究,能够系统地消除成本、能源和尺寸限制方面的障碍,以便为服务器封装赋予光互连的变革性能力。”
△英特尔研究院PHY 研究实验室主任James Jaussi
英特尔神经拟态研究社区(INRC)的最新进展
英特尔分享了英特尔神经拟态研究社区(INRC)社区自2018年成立以来发展迅速,现已拥有100多名成员。英特尔今天宣布,联想、罗技、梅赛德斯-奔驰和机器视觉传感器公司Prophesee加入INRC,共同探索神经拟态计算在商业用例上的价值。此外,得益于英特尔神经拟态研究测试芯片Loihi的计算能力,英特尔还概括介绍了英特尔神经拟态研究社区更多的研究成果。
英特尔及其合作伙伴已经展示了在现实世界边缘用例中所实现的数量级提升,并且看到了在扩展工作负载之后,解决更大的计算问题所取得的早期进展。随着神经拟态计算的不断发展,英特尔和英特尔神经拟态研究社区还发现了神经拟态技术在现实世界中的各种潜在用例,例如:支持更高效且能够自适应的机器人技术;在大型数据库中快速搜索相似的内容;让边缘设备能够实时做出复杂规划和优化决策等。联想、罗技、梅赛德斯-奔驰和Prophesee的加入,以及英特尔神经拟态研究社区中现有的《财富》世界500强企业和政府实验室,证明神经拟态技术正在稳步成熟,将从学术实验室逐步走向产业应用。
通过对英特尔神经拟态系统上的应用进行持续开发、原型设计和测试,英特尔和英特尔神经拟态研究社区成员获得了越来越多的成果,并显示在各种工作负载中神经拟态计算都能带来性能的一致性提升。现有的研究结果——例如模仿人类嗅觉系统、将基于事件的触感引入机器人,结合英特尔研究院开放日上所介绍的新基准,勾勒出一副新的图景,即:神经拟态计算非常适合新兴的、具有商业相关性的仿生智能负载。
英特尔研究院开放日重点介绍的基准更新包括:
- 语音命令识别:埃森哲测试了在英特尔Loihi芯片上识别语音命令的能力和在标准图形处理单元(GPU)上识别语音命令的能力,发现Loihi不仅达到了和GPU类似的精度,而且能效提高1000倍以上、响应速度快200毫秒。通过英特尔神经拟态研究社区,梅赛德斯-奔驰正在探索如何将这些结果应用到现实用例中,例如在汽车中加入新的语音交互命令。
- 手势识别:传统的AI可以很好地处理大数据并识别成千上万个案例的模式,但它很难识别人与人之间细微的差异——比如我们用于交流的手势。埃森哲和英特尔神经拟态研究社区合作伙伴展示了Loihi在快速学习和识别个性化手势方面取得的切实进展。通过处理来自神经拟态相机的信息,只需几次曝光Loihi即可学习新手势。这可以应用于各种用例,例如与家庭中的智能产品进行交互或在公共场所的非接触式显示。
- 图像检索:零售行业的研究人员评估了Loihi对基于图像的产品搜索应用。他们发现,在保持相同精度水平的情况下,Loihi生成图像特征向量的效率比传统的中央处理单元(CPU)和GPU解决方案提升三倍多。这一结果是对英特尔今年早些时候发布的神经拟态研究系统Pohoiki Springs的相似度搜索结果的补充,表明Loihi在百万幅图像数据库中搜索特征向量的速度比CPU快24倍,且能耗低30倍。
- 优化和搜索:英特尔及其合作伙伴发现,Loihi解决优化和搜索问题的效率比传统CPU高1000倍、速度快100倍。优化问题,如约束满足可以在边缘端提供潜在价值,例如:让无人机能够实时规划并做出复杂的导航决策。同样的问题类型也可以扩展到复杂的数据中心负载,完成协助列车调度和物流优化等任务。
- 机器人技术:罗格斯大学和代尔夫特理工大学的研究人员展示了在Loihi上运行机器人导航以及微型无人机控制应用的演示。代尔夫特理工大学的无人机使用一个包含35个神经元,并且能演进的脉冲网络进行光流着陆(optic flow landing),频率超过250千赫兹。罗格斯大学发现,其Loihi解决方案所需的功耗比传统移动GPU低75倍,而性能却没有任何下降。在11月于2020机器人学习大会上发布的报告中,罗格斯大学的研究人员发现Loihi可以成功学习诸多OpenAI Gym的任务,其精度与深度行动者网络(Deep Actor Network)旗鼓相当,而能耗却比移动GPU解决方案降低了140倍。
此外,英特尔及其合作伙伴在英特尔研究院开放日活动上还展示了两个使用最先进技术的神经拟态机器人演示。与苏黎世联邦理工学院的研究人员合作,英特尔展示了Loihi如何自适应地控制水平跟踪无人机平台,实现最高可达20千赫兹的闭环速度以及200微秒的视觉处理延迟。与传统解决方案相比,这意味着效率和速度都提高了1000倍。为了解决神经拟态软件集成问题,英特尔和意大利理工学院(IIT)的研究人员在IIT的iCub机器人平台上演示了多种认知功能在Loihi上运行,其中包括基于快速、小样本学习(few-shot learning)的物体识别,对学习对象的空间感知,以及对人类互动的实时决策。
英特尔神经拟态计算实验室总监Mike Davies 表示:“短短两年时间里,我们已经形成了一个充满活力的社区,其中包括来自世界各地的数百名研究人员,神经拟态计算在计算效率、速度和智能功能方面带来数量级提升的潜力让他们深受鼓舞。我们第一次看到有越来越多证明这种潜力的场景出现。我们计划与英特尔神经拟态研究社区的合作伙伴一起,在收获的洞察基础上,让这一新生技术实现广泛和颠覆性的商业应用。”
△英特尔神经拟态计算实验室总监Mike Davies
Mike Davies称,英特尔之所以创建英特尔神经拟态研究社区,是因为我们认为没有任何公司能够凭借一己之力有效释放神经拟态计算的全部潜力。通过与学术界、产业界和政府领域的一些知名研究人员进行合作,英特尔致力于解决神经拟态计算发展中的挑战,并在未来几年内将其从研究原型发展为能够引领产业的产品。
随着英特尔神经拟态研究社区的发展,英特尔将继续对这个独特的生态系统进行投资,并与成员合作以提供技术支持,探索神经拟态计算可以在哪些方面解决现实中的各种问题。此外,英特尔将继续从英特尔神经拟态研究社区汲取经验,并将其运用于公司即将发布的下一代神经拟态研究芯片的研发中。
第二代低温控制芯片Horse Ridge II
在今天的英特尔研究院开放日活动上,英特尔推出第二代低温控制芯片Horse Ridge II,这标志着英特尔在突破量子计算可扩展性方面取得又一个里程碑。可扩展性是量子计算的最大难点之一。在2019年推出的第一代Horse Ridge控制器的创新基础上,Horse Ridge II支持增强的功能和更高集成度,以实现对量子系统的有效控制。新功能包括操纵和读取量子位状态的能力,以及多个量子位纠缠所需的多个量子位的控制能力。
目前早期的量子系统使用室温电子设备,这些设备由很多同轴线缆连接到稀释制冷机中的量子位芯片。考虑到制冷机的外形规格、成本、功耗和热负荷,这种方法无法扩展用于大量量子位。借助最初版本的Horse Ridge,英特尔迈出了应对上述挑战的第一步,从根本上简化了各项需求:不再需要对设备使用多个机架,也不再需要让成千根电线进出制冷机来运行量子计算设备。相反,英特尔用高度集成的片上系统(SoC)代替了这些笨重的仪器,从而简化了系统设计,并使用复杂的信号处理技术来加快设置时间,改善量子位性能,并让工程团队能够有效地将量子系统扩展到更大的量子位数。
Horse Ridge II的设计基于第一代SoC产生射频脉冲以操纵量子位状态的能力,也称为量子位驱动(Qubit Drive)。它引入了两个额外的控制功能,从而可以将外部电子控件进一步集成到在低温制冷机内部运行的SoC中。
新功能包括:
- 量子位读数(Qubit readout):该功能允许读取当前量子位状态。该读数意义重大,因为它允许进行片上低延迟量子位状态检测,而无需存储大量数据,从而节省了内存和功耗。
- 多栅极脉冲(Multigate Pulsing):能够同时控制多个量子位栅极的电位,这对于有效的量子位读取以及多个量子位的纠缠和操作至关重要,并为打造更具扩展性的系统奠定了基础。
通过增加在集成电路内运行的可编程微控制器,让Horse Ridge II能够就三种控制功能的执行方式上拥有更高级别的灵活性和复杂的控制。该微控制器使用数字信号处理技术对脉冲进行额外滤波,有助于减少量子位之间的串扰。
Horse Ridge II使用英特尔®22纳米低功耗FinFET技术(22FFL),其功能已在4开尔文温度下得到验证。如今,一台量子计算机的工作环境为毫开尔文范围,仅比绝对零度高几分之一。但是硅自旋量子位(英特尔量子工作的基础)具有可在1开尔文或更高温度下运行的特性,这将大大降低量子系统制冷的难度。
英特尔的低温控制研究重点,是致力于让控件和硅自旋量子位达到相同的工作温度水平。正如Horse Ridge II所展示的那样,这一领域的不断进步,代表了当今大力扩展量子互连所取得的进步,也是英特尔实现量子实用性长期愿景的关键要素。
△英特尔研究院组件研究事业部量子硬件总监Jim Clarke
英特尔研究院组件研究事业部量子硬件总监Jim Clarke表示:“凭借Horse Ridge II,英特尔继续在量子低温控制领域引领创新,发挥集成电路设计、研究院和技术开发团队跨学科的深厚专业积淀。我们认为,仅仅增加量子位的数量而不解决由此产生的布线复杂性,这就好比拥有一辆跑车,但总是堵在车流中。Horse Ridge II进一步简化了量子电路的控制,我们期待这一进展能够提高保真度,降低功率输出,让我们朝着‘无堵车’的集成量子电路发展再向前迈进一步。”
△英特尔高级首席工程师、英特尔研究院量子应用与架构总监Anne Matsuura
英特尔高级首席工程师、英特尔研究院量子应用与架构总监Anne Matsuura表示:“Horse Ridge II的推出将使得对于量子的测试数据和信息的提取速度提高了1000倍。”
机器编程研究系统ControlFlag
英特尔今天还推出了机器编程研究系统ControlFlag,它可以自主检测代码中的错误。虽然仍处于早期阶段,这个新颖的自我监督系统有望成为一个强大的生产力工具,帮助软件开发者进行耗时费力的Debug。在初步测试中,ControlFlag利用超过10亿行未标记的产品级别的代码进行了训练并学习了新的缺陷。
在软件重要性逐渐突显的今天,开发者依然继续把不成比例的大量时间用于修复Bug,而不是用于写代码。事实上,在IT行业每年花费的1.25万亿美元软件开发成本中,大约有50%是用于Debug代码。
随着异构时代的来临,即由多样化专用处理器组合来管理当今的海量数据,管理这些系统所需的软件变得越来越复杂,使得出现Bug的可能性也越来越高。此外,找到能够为跨架构的硬件正确、高效、安全地写代码的程序员非常困难,这同样也增加了代码中出现难以发现的新错误的可能性。因此,Debug代码工作将给开发者和整个行业带来更高的代价。
完全实现的ControlFlag通过自动化处理测试、监控和Debug等繁琐的软件开发工作,可以帮助缓解上述挑战。这不仅可以提高开发者的工作效率并让他们把更多时间用于创意,也能解决当前软件开发中成本最高的问题之一。
ControlFlag检测Bug的功能是通过机器编程实现的,其中融合了机器学习、形式化方法、编程语言、编译器和计算机系统。
具体来说,ControlFlag通过被称为异常检测(anomaly detection)的功能进行运转。作为自然界中生活的人类,我们通过观察了解到某些被认为是“正常”的模式。类似地,ControlFlag通过学习经过验证的例子来检测正常的编程模式,发现代码中可能造成Bug的异常。此外,不管代码使用什么编程语言,ControlFlag都可以检测这些异常。
ControlFlag的无监督模式识别方法的一个主要优势是,它可以从本质上学会适应开发者的风格。在有限的需要评估的控制工具输入信息中,ControlFlag可以识别编程语言中的各种风格,类似于读者识别英语中使用完整单词和缩略语的差异。
该工具会学会识别并标记这些风格选择,并根据其洞察可以自制错误识别和建议解决方案,从而让ControlFlag尽可能避免把两个开发团队之间的风格差异认为是代码错误。
ControlFlag已经证明,能够在广泛使用的产品级别代码中发现隐藏的Bug,而这些代码之前已经被软件开发者审核过。例如,在分析cURL(一个开源的命令行工具,被程序员广泛地用于实现互联网下载)时,ControlFlag发现了一个之前未被发现的异常,促使cURL开发者提出了一个更好的解决方案。
英特尔甚至已经开始评估在内部使用ControlFlag,在自己的软件和固件产品化中寻找Bug。这是英特尔Rapid Analysis for Developers项目的关键组成部分,该项目旨在通过提供专家支持从而帮助程序员加快速度。
△英特尔首席科学家、英特尔研究院机器编程研究主任及创始人Justin Gottschlich
英特尔首席科学家、英特尔研究院机器编程研究主任及创始人Justin Gottschlich表示:“我们认为ControlFlag是一个强大的新工具,可以大幅减少评估和Debug代码所需的时间和成本。研究发现,软件开发者会花费大约一半的时间用来Debug。通过ControlFlag以及类似的系统,程序员有望大幅减少Debug的时间并把更多时间用于人类程序员最擅长的工作——向机器展现有创造性的新想法。”
Justin Gottschlich还表示:“随着机器编程技术的发展,未来机器将可以充分理解开发人员表达的想法,并自主的创造出基于开发人员指定意图的程序,并且可以适应各种特定的软硬件系统。机器编程技术将极大的提高软件开发的速度和质量,而这个速度提升将达大超过1000倍,以往依靠传统方法需要三年时间才能开发出的程序,利用机器编程技术一天内的时间即可完成,并且完成的质量可以达到最优秀的编程人员的水平。”
当前,加密解决方案主要用于保护在网络中发送以及存储的数据。但数据在使用过程中依然容易遭遇攻击。保密计算旨在保护使用中的数据。为此,我们提供数据保密性以防止机密泄露,提供执行完整性以防止计算被篡改,并提供认证功能,以验证软硬件的真实性。
可信执行环境提供执行保密计算的机制,旨在最大限度地减少需要信任的软硬件集,从而确保数据安全。为了减少必须依赖的软件,我们需要确保即使存在恶意软件,其他应用甚至是操作系统不会危及你的数据。它就像是一个可以防止入侵者窃取你数据。
在本世纪初,英特尔研究院开始研究如何隔离应用,结合硬件访问控制技术和加密技术,以提供保密性和完整性保护。例如最新的英特尔软件保护扩展(Software Guard Extensions )技术,它将保密性、完整性和认证功能整合在一起,确保使用中的数据安全无虞。
但是,如果有多个系统和数据集,且分属于不同的所有者,该怎么办呢?我们如何支持多方在协作中安全地使用敏感数据?
这就要涉及到联邦学习(federated learning)了。在零售、制造、医疗、金融服务等许多行业,最大的数据集往往都被限制在所谓的数据孤岛中。之所以出现数据孤岛,可能是为了解决隐私问题或监管挑战,或是在某些情况下,数据太过庞大,无法传输。然而,这些数据孤岛对使用机器学习工具从数据中获取重要洞察造成了巨大障碍。
以医疗成像为例,机器学习在识别核磁共振成像的关键模式方面(比如确定脑瘤位置)取得了重要进展,但这些顾虑却阻碍了它的应用。英特尔研究院与宾夕法尼亚大学佩雷尔曼医学院的生物医学图像计算和分析中心开展了联邦学习方面的合作。在联合肿瘤分割项目中,双方共同开发技术,来训练可以识别脑瘤的人工智能模型。通过联邦学习,我们将计算进行了拆分,这样每家医院就可以用本院的数据训练本地版本的算法,然后将获取的信息发送至中央聚合站点。这样就可以在不共享数据的情况下,将每家医院的模型组合成一个模型。但如果像这样拆分计算,就会增加篡改计算的风险。因此,我们在各医院使用保密计算来保护机器学习模型的保密性。英特尔还使用了完整性和认证功能,确保数据和模型在医院层面上不被操纵。
宾夕法尼亚医学院和英特尔研究院率先发表了一篇关于医学成像领域的联邦学习的论文。研究表明,采用联邦学习方法训练深度学习模型,其准确率可以达到采用传统非私有方法训练的相同模型的 99%。我们还发现,机构采用联邦学习训练模型,比仅用自己的数据训练模型时的性能平均高出 17%。这方面的工作仍在继续,并将赋能由40 多个国际医疗和研究机构组成的联盟,合作创建最新、最先进的人工智能模型,同时确保敏感的患者数据不离开医院。
△Jason Martin,英特尔研究院安全智能化项目组首席工程师
英特尔研究院安全智能化项目组首席工程师Jason Martin表示:“我们一直在探讨如何更多地运用加密工具来保护数据。但目前,在很多情况下,我们仍然需要在处理数据之前,就将数据解密。英特尔还一直在研究另一种不需要解密数据的方法,叫做同态加密(homomorphic encryption)。”
据Jason Martin介绍,完全同态加密是一种全新的加密系统,它允许应用在不暴露数据的情况下,直接对加密数据执行计算操作。该技术已逐渐成为委托计算中用于保护数据隐私的主要方法。例如,这些加密技术允许直接对加密数据进行云计算,不需要信任云基础设施、云服务或其他使用者。
完全同态加密的工作原理是什么?传统加密要求云服务器访问密钥,才能解锁数据用于处理。同态加密允许云对密文或加密数据执行计算操作,然后将加密结果返回给数据所有者,从而简化并保护了这一过程。结果表明,任何计算都可以由加法和乘法构成。而且,在完全同态加密中,你可以用任意复杂度的算法对加密数据执行这些基本操作。之后解密数据时,这些操作适用于纯文本。
然而也存在一些挑战,阻碍了完全同态加密的采用。在传输和存储数据时,传统加密机制的开销相对来说可以忽略不计,但在完全同态加密中,同态密文的篇幅比纯数据大得多。有时候大 1,000-10,000 倍。数据激增将导致计算激增。密文的增加,要求处理能力随之增加。处理开销不仅会随着数据的增加而增加,还会随着计算复杂性的增加而增加。就是因为这些巨大的开销,导致同态加密尚未得到广泛使用。英特尔希望普及这项技术。为此,我们正在研究新的软硬件方法,并与生态系统和标准机构开展合作。
编辑:芯智讯-浪客剑