Synaptics语音及图像业务总经理专访：决胜物联网市场，我们已胜券在握！

2017年10月25日

今年6月，Synaptics（新思）宣布以3.95亿美元现金和726666只Conexant的普通股，收购Conexant Systems（科胜讯系统公司，以下简称“科胜讯”），同时，Synaptics还以9500万美元的现金收购Marvell（美满电子科技）旗下多媒体业务。随后在7月26日，Synaptics完成了对科胜讯系统公司的收购，并于9月8日完成了对Marvell多媒体解决方案事业部的收购。随着两起收购的完成，目前Synaptics全球员工已经超过了2500人，其中亚洲拥有超过1490人。

得益于新的收购，目前synaptics业务已经涵盖了电容式触控、显示驱动、指纹识别、远场语音及语音采集、声学及音频处理、视频及图像处理、光学成像等众多领域。

值得注意的是，被收购的科胜讯系统公司和Marvell多媒体业务部门此前在消费级物联网市场就已处于领先地位，在被Synaptics收购之后，都统一并入了Synaptics的新的物联网部门。而这也将进一步推动Synaptics在物联网市场的领先地位，扩大公司在物联网市场的影响力。

在完成了这两起收购一个多月之后，10月19日，Synaptics在深圳召开“Synaptics语音与音频技术媒体沟通会”，详细介绍了 Synaptics目前的语音与音频技术。芯智讯作为活动特邀媒体，随后对于Synaptics副总裁兼语音及图像业务总经理（原科胜讯总裁）Saleel Awsare先生进行了独家专访。

语音将成为物联网的关键人机界面

自2014年亚马逊Echo推出以来，集成智能语音助手功能的智能音箱市场开始逐渐兴起。随着，亚马逊智能语音助手Alexa的开放，以及谷歌、苹果、阿里巴巴等众多巨头的纷纷入局，智能音箱市场开始变得异常火爆。而这些巨头之所以纷纷杀入智能音箱市场，实质上都是为了争夺智能家居这个物联网的新的入口。而智能音箱之所以能够成为物联网的新入口，则在于其全新的完全通过语音来实现的人机交互方式对于用户体验的巨大提升。相对于原有的通过智能手机来与智能家居设备进行交互的“伪智能”交互方式，将智能家居设备接入智能音箱之后，通过语音即可完成全部的控制，人机交互方式不仅更为简单、方便、自然、高效，同时也更加的智能。这也是为何智能音箱市场能够火爆的一个重要原因。

根据研究机构的数据显示，2017年集成AI语音助手的智能音箱出货将达1600万台，而到2020年，这个市场出货量预计将增长至1.5亿台，增长接近10倍。显然，智能音箱市场潜力巨大。而随着智能音箱市场的持续增长，以及用户使用习惯的养成，语音将成为物联网的关键人机界面。

Synaptics的远场语音解决方案更具优势

虽然目前市面上已经有很多的智能音箱产品，但是要想拥有出色的交互体验，却并不容易。虽然目前有很多的AI语音助手服务提供商，比如亚马逊、谷歌、微软、百度、腾讯等等，他们都能提供出色的自认语言处理能力，但是这里有个前提就是，他们能够通过设备端获取准确的语音信息，而这就会涉及到声学、硬件、固件、语音算法、软件等方面的问题。

“我们首先需要让设备听清，然后才是听懂，最后才是执行命令。亚马逊、谷歌等人工智能厂商所做的工作是让设备听懂，能够理解语音指令，而Synaptics所做的工作就是让设备听清。”Synaptics副总裁兼语音及图像业务总经理Saleel Awsare表示：“Synaptics能够提供出色的360°远场（far-field）语音解决方案，即使较远的距离，也能够准确无误的将人的语音指令传递给设备。”

这里所说的“远场”一般是指室内1米以上的距离（对应的近场一般指20cm以内），因为通常用户与智能音箱一类的设备的交互的距离都不会很近，大多数情况下都在1米以上。虽然对于人来说，即使相隔十多米的距离也能够通过语音轻松交流，但是对于设备来说，要想听清数米之外的语音指令却并不容易。因为在真实的环境下，会存在噪声、多径反射、混响、人声干扰（目前语音识别不能同时识别两个以上人声）等等。

目前以主流的智能音箱产品都采用的是远场语音识别方案，而作为远场语音识别关键的核心硬件——麦克风阵列也受到了市场的广泛关注。而麦克风阵列的优势在于结合算法可以更好的实现声源定位、去混响、回声消除、噪声抑制等。比如，京东的叮咚用了8个麦克风，亚马逊Echo采用了7个麦克风，苹果HomePod采用了6个麦克风，Google Home也用了两个麦克风。

不过，这并不意味着麦克风的数量越多，拾音就越准确，因为这其中还涉及到算法及音频处理等方面的问题，而这则是Synaptics的关键优势。

Synaptics的远场语音方案当中集成了其自主设计的AudioSmart语音输入处理器，其中内置了Synaptics独家的智能音源定位Smart Source Locator技术（仅限四麦克风配置），以及加强版噪声抑制技术Smart Source Pickup，对环境噪音的处理性更好，针对非定频音源，比如电视以及非指令使用者的音源，可以智能地予以过滤，使得引擎识别率更高。另外通过全双工回声消除技术（AEC）实现语音打断功能，即使设备在大声播放音乐或者做语音播报的时候，也能够准确识别唤醒词。

“Synaptics的远场语音识别方案，只需要2-4个麦克风阵列就能够实现与其他6-8麦克风阵列相近、甚至更好的效果。”Saleel Awsare表示：“目前市场上众多的麦克风阵列产品的算法都采用的是开源的算法，而 Synaptics则完全是自主研发的算法，特别是独家的‘盲源分离’技术，使得我们能够利用较少数量的麦克风就能达到很好的效果。”

资料显示，“盲源分离”是信号处理中一个传统而又极具挑战性的问题，指仅从若干观测到的混合信号中恢复出无法直接观测的各个原始信号的过程，这里的“盲”，指源信号不可测，混合系统特性事先未知这两个方面。也就是说这项技术能够从混合的语音信号当中分离出各个不同的声源所发出的干净的原始语音信号。

目前市场上的6-8麦克风阵列方案的成本还是非常高的、设计上也比较复杂、上市周期也比较。相比之下2-4麦克风阵列的方案的硬件成本更低、设计也将更为简单，上市周期也会更短。

首先，在麦克风数量上，数量越多，成本肯定是会增加的。其次，目前市面上主流的codec芯片最多支持4通道同步采集，也就是说6-8麦克风阵列方案需要用到两颗codec芯片。另外，为了使两个codec芯片同步，还需要一颗FPGA芯片来协助完成，同时麦克风还需要一些配套的模拟滤波放大电路，这也使得4麦克风以上的方案成本要比2-4麦克风方案要高出很多。据了解亚马逊Echo的6+1麦克风阵列成本大概要在45美元左右，而目前市场上的一些2个麦克风阵列方案成本则在9-10美元左右。

当然，Synaptics的远场语音识别方案当中包含了其AudioSmart语音输入处理器，可能成本会增加一些成本。虽然，Saleel Awsar也并未透露Synaptics的2-4麦克风阵列方案的价格，不过他表示“Synaptics的远场语音方案将具有更高的成本效益”，同时他透露“基于 Synaptics的远场语音方案的产品从设计到量产只需要6-9个月的时间。”

如果Synaptics的2麦/4麦远场语音识别方案，真的能够达到与其他6-8麦方案列相近、甚至更好的效果，而且还能维持较低的成本，那么显然将会拥有更强的市场竞争优势。

“作为领先的物联网设备语音和音频解决方案供应商，Synaptics首个远场产品（原科胜讯的）早在2012年就已经推出，目前产品累计出货已超过3000万。目前Synaptics的远场语音方案已广泛的被众多的智能音箱、PC、机顶盒、智能家居厂商所采用，甚至在汽车市场也有布局。”Saleel Awsar告诉芯智讯：“Synaptics的2-4麦远场语音方案早已经通过了亚马逊的认证。”这也意味着终端厂商基于 Synaptics的方案就能容易的开发出符合亚马逊认证的Alexa产品。

对于物联网，Synaptics的未来布局在媒体沟通会之后，芯智讯作为特邀媒体，对Synaptics副总裁兼语音及图像业务总经理（原科胜讯总裁）Saleel Awsare先生进行了独家专访。访谈内容主要围绕 Synaptics对未来在物联网市场的方向和布局，以下我们以问答的形式来为大家完整还原：

芯智讯：早在2016年科胜讯（还未被Synaptics收购时）曾和高通达成合作，将AudioSmart软件集成到高通Hexagon系列数字信号处理器(DSP)中。所以想了解Synaptics的是否有计划与其他手机芯片厂商合作，将AudioSmart软件集成到手机芯片当中？

Saleel Awsar：你说的不错，我们之前确实与高通有这样的合作，但是合作最终没有进行下去。

首先，我们认为消费物联网市场是比较分散和碎片化的，有NXP、高通、联发科、瑞芯微等众多芯片厂商；而手机市场已经比较简单，主要是高通、联发科和展讯。在PC市场中，我们的产品是在英特尔的DSP上运行的。而手机市场我们没有太多的投入，尽管我们有算法可以放在高通、联发科的芯片上面，但是我们目前没有这样做。因为我们认为在消费物联网市场的机会是更巨大的，比如智能家电、智能音箱、机顶盒、市场。而且如果要将Synaptics的把软件都集成到别人的DSP当中，要花费的时间跟人力是非常多的。

其次，我们的芯片是低功耗的芯片。SoC不需要一直处于活动的状态，所以如果要让SoC做实时监听，功耗会比放在Synaptics的DSP上高很多。而在小型的物联网设备上，电池续航更是极为重要的，无论是在恒温器上还是其他的移动设备，都需要能够运行很长时间。如果所有任务都需要AP来处理的话，那么每当用户在说话的时候，AP就会不停地处于开启和关闭的状态。而Synaptics的设备就刚好可以区分哪些是噪声，哪些是指令。因此对于一款产品来讲，架构是很重要的。我们也和高通等AP厂商共同合作，因为他们非常擅长AP的部分，而我们则非常擅长语音处理的部分。

芯智讯：有很多芯片厂商，比如高通、联发科也有针对物联网市场推出他们的SoC，其中也集成了DSP。对于他们来讲，是否还有再外挂一个DSP的需要？他们是否更希望是通过一个DSP实现，而不是与第三方厂商合作来实现？

Saleel Awsar：目前从市场上来看，一个良性的产品结构是通过低功耗的芯片做侦听，然后再唤醒应用处理器（AP）。从现在来看，我们认为这种形式的应用是合理的，用我们的芯片作为协处理器，再配合主AP。而且我们不止提供一个处理器，还提供配套的算法、固件、软件等等支持，所以从目前的时间点来看，这是正确的选择。而关于集成的这种方案，在未来2-5年也是有可能的。

芯智讯：Synaptics的市场定位是否更具偏向中上的市场？或者说是更在意质量或体验方面的厂商需求。

Saleel Awsar：我们关注的是用户体验。如果一个产品体验不好，那它就是没用的。我们今天也展示了一款29.99美元（约200人民币）的产品，这款产品的价格就很低了。因为我们提供了低价的低功耗的语音处理器架构，通过两个麦克风就能实现很好的效果。而如果采用其他的方案，那么产品可能需要6-7个麦克风，而相应的成本也就高了。

芯智讯：现在很多芯片厂商都在处理器上开始支持人工智能，比如苹果A11、华为麒麟970芯片都可以在终端侧完成某些人工智能应用。Synaptics未来会与这些芯片厂商合作提供AI方面的应用，还是有计划将在Synaptics自己的芯片上去支持AI的功能？

Saleel Awsar：当Synaptics组建新的物联网团队的时候，不仅有科胜讯的语音处理器技术，还有从Marvell多媒体解决方案部门收购得到的多媒体SoC。Marvell的多媒体SoC目前是Google Home最主要的芯片。我们与Google在AI的产品路线图方面有着非常紧密的合作关系。关于深度神经网络（Deep neural network）、机器学习等人工智能技术，我们也从两个方面来看。

科胜讯+Marvell多媒体解决方案部门+Synaptics原有的团队，现在Synaptics新物联网部门有大概650人的团队，所以能提供很好的支持。第二方面，我们也需要和其他的芯片厂商合作，比如高通和联发科。所以我们未来的产品路线图也很有可能会包括对深度神经网络或者机器学习的支持。

总体来说，Synaptics不仅会在自己的产品中包含对AI的支持，也会与其他芯片厂商合作人工智能方面的应用。

芯智讯：Synaptics将如何整合现有技术，提供更好的用户体验？比如整合视觉和语音的技术，来提升用户体验。

Saleel Awsar：比如亚马逊的Echo，有屏幕、有语音功能，可以触控操作。正如我们CEO Rick Bergman提到的我们可以将触控、显示和语音技术整合在一起，我们可以在一个产品上集成触控功能，还能进一步加入指纹识别来定制用户体验，比如我和你解锁后的体验是不一样的，同样还有显示和语音控制，多种技术集成之后可以给用户一种非常智能的体验。

在未来几个月我们应该会有更多类型的产品面世。对于我们来说，将现有技术整合来实现一个更强大的产品组合也是我们的愿景。在这方面，Synaptics可以说是有着非常明显的优势和充分的准备的，因为我们已经拥有了很多必要的技术，而且在Marvell多媒体解决方案部门的加入后，我们的技术储备甚至更加丰富了。

芯智讯：在很多技术的发展过程中可以看到集成融合的趋势。比如说Synaptics原来的触控和显示驱动有融合在一起的方案，未来也可能把指纹也集成。对于下游厂商来可以更容易集成在自己的产品中，用一颗芯片做更多的事情。对于这方面您是怎么看的？

Saleel Awsar：我也认为集成是一个很重要的趋势。比如我们的合作伙伴，他们希望通过具体的产品来让自己的系统落地，比如微软的Cortana、亚马逊的Alexa。如果他们能通过我们，来获得一个更加集成的方案，包括触控、生物识别、语音、显示等，他们应该是会开心看到这种方案的。

芯智讯：在一些多人对话的场景中，如何确保终端设备能够正确地识别特定人物的语音指令？比如说几个人在聊天或者开会，我发出了一个指令，同时在场的其他人仍然在交谈状态中，在这样的场景下，怎么样跟人工智能厂商配合做到正确识别指定人的语音指令？

Saleel Awsar：目前，我们的做法是寻找到最主要的声源。如果场景中有多个主要声源，那么唤醒指令词就变得很重要了。即使你在说话，但话中不包含唤醒词，那么智能设备就不会识别你发出的指令。但同时，我们也会寻找房间中的主要声源，同时根据房间中的其他声音调试主要声源至最佳音量。你提的这个问题其实非常好，虽然我们目前还处于研发的初级阶段，但我们一直在努力地解决一些特定问题。比如，当所有人的话中都使用了唤醒词，智能设备需要识别我们所有人吗？未来，我们会有智能音箱会具备语音识别功能，可以识别主人的身份，只进入一个人的账户。

芯智讯：未来Synaptics是否会开发声纹技术？这个可能不需要依赖于云端，用户可以直接通过终端设备来做声纹注册，然后对于声纹的识别其实也可以在本地完成。

Saleel Awsar：我们认为在算法技术方面，基本所有的厂商都希望减少供应商的数量，比如触发词、语音识别以及语音认证。这些都是我们计划要，也必须要整合的领域。除了硬件上的整合，我们还要做软件上的整合。软件上的整合更需要结合算法和使用体验。

芯智讯：以后家中的设备都会变成智能的，可能每个设备上都会配有麦克风，然后家中会有一个智能家居的中控，可能是智能音箱也可能是其他设备，那我们是否可以有一种方案，通过网络把家中所有的麦克风都连接起来，然后把不同设备的麦克风都利用起来，从而促进语音识别的能力，比如实现无论在家里的任何位置都可以有虚拟的语音助手？

Saleel Awsar：目前，我们可以通过将设备都连接到云端来完成第一步。如果一个房间中有多个麦克风，目前新兴的技术可以做到对你在家中所处的位置进行定位。亚马逊目前有这个解决方案，当家里是多个麦克风的环境，当你讲话的时候，设备会知道人所处的位置，也只会离你最近的那个设备回应你的指令。所以我们和人工智能厂商的合作可以开发出一些先进的功能，当我们可以获得一些数据之后，通过算法与厂商合作开发出更多的功能。

芯智讯：是否有这种可能，通过麦克风除了识别人的位置，还可以识别人的姿态？比如说平时讲话都是站着说话，那这个声音就是从某个高度发出的；坐着的时候是另外一种姿态，躺在床上睡觉的时候，因为床有一定的高度，又是另一个姿态。但当一些特殊情况出现，比如摔倒了，可能你的状态无法正确的说出唤醒词；但是用户在摔倒时、或者倒在地上后会发出一些声音，而且姿态也会发生一些变化。在这种情况下是不是可以配合人工智能，在没有摄像头的情况下，通过语音来达到识别的效果？

Saleel Awsar：这是一个非常好的问题。我们目前正在研究的一些语音技术就包括识别玻璃被打碎的声音，和孩子的哭声。其他像您刚才提到的站立、坐立、平躺以及摔倒时的声音位置上的变化，也是非常好的想法。我们目前有对这些特殊声音的研究进行投资。因为关系到安全问题，对玻璃被打碎声音的研究是非常重要的。

芯智讯：我们知道在耳机芯片市场这块，Synaptics也有很大的市场份额。现在去掉3.5毫米的耳机孔已经是一个趋势，很多手机厂商都在这么做，苹果现在推出了Airpods无线耳机，你觉得无线耳机会是一个趋势吗？另外，未来USB Type-C接口是不是也会去掉？所有的数据都会通过无线的方式去传输，对手机来说可以有更好的防水性和防尘性，同时少一个接口，整个工艺难度也会降低。那么没有接口会不会是未来的趋势？在这样的趋势下Synaptics有什么样的应对策略？

Saleel Awsar：3.5mm耳机接口的消失已经是个既定的事实了，目前来看也只是时间问题。但是你的设备肯定会需要一个接口来充电，除非你使用无线充电，而无线充电还需要很长一段时间才能实现。就无线耳机来说，从消费者的角度来看，一副Airpods要149美元，虽然使用体验很棒，但你总是需要给它充电，而且还会遇到一些干扰的问题。我们相信未来越来越多的消费者会选择购买像Airpods一样的无线产品，只要它们的使用体验是一流的。但是，一副有线耳机，即使是数字接口的耳机，也可能是不到10美元的，但是一样可以提供用户需要的沉浸式体验。另外，特别是对于大耳机来说，电池是很重要的。Synaptics的芯片同样也可以集成在无线耳机中。

因为对于Synaptics来说，我们针对高端和入门市场会提供不同的解决方案。对于入门市场，我们会提供性价比极高的基础USB Type-C的解决方案；我们同时也提供面对高端市场的主动数字降噪（ANC）解决方案，这相对于原来的模拟降噪是一种比较新的技术。我觉得你的想法很好，我个人既有Airpods无线耳机，也有有线耳机。有时候无线耳机无法正常工作的时候，我就会换回有线耳机。

但长远来看，无线的市场会是我们关注的市场，产品的连接性也会是我们重视的部分。目前智能手机市场的出货量大概是15亿台，其中可能10%或20%会配备Airpods那样的无线耳机，30%-40%会继续配备有线耳机，所以市场的机会还是很多的。

芯智讯：有一些创业公司想了解我们这边的合作是否有一些门槛？对创业公司或中小企业是否有支持的政策？

Saleel Awsar：与创业公司的合作是非常重要的，因为你不知道哪一家公司就会成为未来的百度、Google或者亚马逊，这是一个新的市场，随时需要新的技术。

我们所做的是设计我们自己的SDK，客户可以非常容易地通过像比如Arrow Electornics这样的经销商来买到我们的SDK，然后用一块树莓派的板子设计一个解决方案，来验证自己的想法或者测试市场。

这也是我们投入很多来设计模块化的解决方案的原因之一。因为在这个全新的市场中，任何一个公司都有潜力成为未来的市场翘楚，因此我们非常注重给这些企业提供合适的工具，来实现他们的想法。

芯智讯：很多主控厂商都会有一些开源的东西，也会经常去跟一些开发者做活动，来促进基于他们软件或硬件做更多的开发，丰富一些生态和应用。在Synaptics可以利用的技术越来越多的情况下，未来是否会在开发者生态方面加大一些投入？

Saleel Awsar：目前在这方面，我们是通过与其他厂商共同合作的方式来开展。第一，比如通过解决方案提供方，比如Linkplay（www.linkplay.com），我们会将自己的方案融入他们的方案，提供一个完整的解决方案。第二，我们会参加亚马逊、百度等这样的大公司的线下活动来介绍我们的技术。比如不久前我们参加了百度的开发者大会，其中DuerOS开发者套件里面有两款是我们一起研发的。

芯智讯：虽然目前在语音方面Synaptics是需要跟大的厂商合作。那当未来Synaptics更多技术融合在一起的时候（比如Synaptics现在除了显示、触控、指纹之外，还有语音、多媒体SoC），是否自己来推动一些开发者相关的东西？因为Synaptics更了解自己的技术，所以如果可以将自己的这些技术融合在一起，提供一个完整的开发平台，相信对开发者将是更有帮助的。

Saleel Awsar：我们目前正在全盘地计划整个未来的战略。但最基础的方面，我们是希望能够展示出我们的技术和我们技术能够实现什么样的体验。因为科胜讯加入Synaptics才短短几个月的时间，可能目前这个阶段谈论这方面的战略还有些早，而且要技术的融合需要协同各个部门。

作者：芯智讯-浪客剑