芯片出货已超百万，探境科技发布语音AI芯片音旋风612

2019年12月28日

12月26日，探境科技举办“黑科技发布会”，正式对外公布AI语音识别芯片产品矩阵，并推出具备AI双麦降噪功能的语音识别方案——Voitist音旋风612。

探境科技成立于2017年3月，是一个以语音、图像AI芯片为核心产品的AI芯片设计公司，提供软硬件一体化整体方案，产品采取的核心架构为SFA（Storage First Architecture，存储优先架构），主张以存储驱动计算。

对于SFA架构，36氪曾详细介绍过，这是一种面对AI芯片里存储墙（AI计算资源丰富，但存储及数据搬运效率低下）的问题而设置的架构，从数据层和计算层中间，通过数据航线，进行节点间的数据搬移。控制器通过知道在动态运行过程中，哪些数据和哪些算子需要有一定的相关性，从而构建更加合理的网络路径。

探境科技表示，与比“类CPU架构”相比，在同等条件下， SFA架构数据访问可降低10~100倍；28nm工艺条件下，系统能效比达到4T OPS/W，计算资源利用率超过80%，DDR带宽占用率降低5倍。

探境科技CEO鲁勇表示，SFA架构具有通用性，可支持目前所有的深度学习神经网络，对神经网络参数以及数据类型没有限制，并且，提供零基础用户可使用的工具链，无需用户网络重训即可使用，能够降低算法移植带来的数据精度降低情况。

AI降噪算法高计算强度的神经网络

音旋风611是探境科技推出的首款语音芯片解决方案，于2019年9月开始量产，目前出货量已超百万。此次推出的Voitist音旋风612是在音旋风611的基础上，完成了语音识别算法上的升级，主要体现在在AI降噪算法以及端到端算法两方面。

在语音识别的研发过程中，一个完整的识别链路可以简化为麦克风输入、降噪处理、语音识别、识别结果输入四个环节。

探境科技副总裁李同治认为，以智能家居场景为例，目前在语音研发领域遇到的挑战有：

低信噪比问题。信噪比，是衡量需要识别的目标声源与其它干扰声源强度比值的对数。一般将信噪比低于15dB的称为噪声环境。信噪比越低，识别难度越大。在现实场景中，如果目标声源强度过小，噪声干扰强度大就会造成信噪比低的情况，另外，由于人类声音传播还受距离的影响，距离越远，声音强度丢失越多。综合各种原因，低信噪比问题被认为是最重大的挑战。非稳态的噪声影响。日常生活中，可能会出现做饭的敲击声、音乐的突然节奏变化等，这些对于降噪处理而言，由于有突然性和不可预见性，具有一定难度。多声源问题，由于传统的信号处理算法的原理是增强波束内的信号强度，当干扰源方向比较接近的时候，传统的处理算法也无法解决。针对以上痛点，探境科技推出AI降噪算法、高计算强度的神经网络以及双麦算法，希望降噪和识别两个环节解决。

在降噪方面，采用AI降噪算法，基于深度学习，可对稳态和非稳态的噪声进行处理。

在识别方面，推出高计算强度的神经网络模型HONN，增加更多卷积操作，减少传统DNN/TDNN算法中全连接的次数，达到提高算力的目的，最终提高识别方面的性能。

李同治解释，与传统的DNN/TDNN算法相比，卷积操作更接近大脑的感知系统，增加了一个维度，每个处理单元变成了立体的。

探境科技表示，高强度神经网络所需参数量约为传统DNN算法的五分之一，所需算力则达到106M，高于DNN3.2M的算力约30倍，这带来的影响是，参数量少可以节省芯片的存储空间，降低成本，相当于用更少的储存空间，带来了更高的算力，提升了整体的性能。

基于FCSP的端到端AI双麦算法，可提高算力

另外，李同治还提到了一种情况，即信噪比为0dB和负dB，意味着噪声和信号强度一样，甚至噪声比语音信号还要强。

针对这种情况，传统的解决方案为利用麦克风阵列信号增强算法，不过，探境科技认为有这种算法有四个方面的问题：

首先在语音信号增强模块，波束成形依赖于声源定位（DOA），DOA依赖于单麦克唤醒词检测。远场环境唤醒词检测使用单麦信号不用增强后的信号，会影响最终的唤醒率。其次，传统的阵列处理算法包含降噪、信号增强和识别多个环节，这些环节并不以降低识别率为优化目标，优化目标为提高人耳听觉的舒适度和最终的识别率并不完全等价，会出现不适配的情况。再次，由于整套流程对麦克风以及电容元器件的一致性要求非常高，提高了物料成本。“有时候大家在实验室做得很好，但是量产后发现识别率变差，就是因为波束成形和声源定位的要求高，一旦出现了波动，会影响识别效果。”另外，波束成形算法原理是增强特定方向波束内的信号强度，衰减波束外的信号幅度。当干扰声源和目标声源方向非常接近的时候，两者在同一个波束内，信号和噪声同时被增强，无法提升信噪比。因此，传统的麦克风阵列处理算法效果并不理想。

探境科技提出的解决思路是把增强和识别一体化处理，实现端到端的识别，推出基于FCSP的端到端AI双麦算法，放弃了传统的数字信号处理算法来做语音增强，而采用基础于神经网络的AI算法来做信号增强。同时，在模型训练期间，采取“注意力增强”的学习方法，能够灵敏地检测到唤醒词和命令词，即使干扰信号与目标信号方向接近，也能灵敏的进行唤醒和识别。类似于在一个嘈杂的环境里面，如果有人喊自己的名字，那么可能就很快反应过来。

整体上来说，音旋风612方案对提高了多麦的信号处理能力以及高噪声环境下的识别率和有效算力。鲁勇表示，612主要面向智能家居领域，预期出货量在千万级。

2年实现商业化落地，量产已破百万

探境科技从2017年成立，2018年初步完成SFA架构雏形，2018年Q3语音芯片611流片，2019年Q1实现量产，截止目前，语音识别方案已出货突破百万级，整个商业化落地时间约在2年。

探境科技副总裁李同治告诉36氪，2018年初推出SFA架构以后，公司选择首先推出语音芯片主要出于研发难度和市场因素考虑。

从研发难度上来说，李同治称，在储存上语音芯片不超过200M，但图像芯片通常需要1G以上，这加大了芯片的设计复杂性。其次由于图像信息量较大，需要更多的接口，在集成度上要求更高。在算力需求方面，图像芯片的算力在4T Ops，而语音芯片在几十G，相差几十倍。综合考虑下来，语音芯片的研发难度比图像芯片要低，图像芯片的周期投入约是语音芯片的2-3倍。

另外，一个很重要的原因是，探境科技认为语音芯片的市场相较于图像更加明朗，可以清晰对标IOT市场，需求上会比主要走TO B路线的图像领域更加多，规模更大。

除此之外，在会上，探境科技提及了离在线一体化解决方案，以及公布了面向不同场景的产品矩阵。