若让机器听懂世界,远场语音交互技术也仅是个尝试而已,事实上远场语音技术本身也只是刚刚起步,即便5米以内,其噪声抑制、回声抵消、混响去除、远场唤醒和远场识别等核心技术还存在诸多缺陷。但是技术一直在迭代发展,特别是当技术落地场景以后,源源不断的真实数据和客户需求将带动技术更加快速的发展。

从技术层面来看,让机器听懂世界涉及了数学、物理学、语言学、医学、计算机学等各学科的知识,很难一一枚举出来,但是若从应用场景来看,则相对比较简单,让机器听懂世界包括了人类语言、人类情感、动物声音和自然声音。

1、听懂人类语言

前面提到了近场和远场语音交互的技术,这可以解决5米以内的语音交互问题,基本囊括了人机交互的主要问题,但是还有更多复杂场景的问题需要解决,比如:

远场语音交互:主要解决5米以内的唤醒、识别和理解问题,虽然这项技术已经落地实际的场景和产品,但是对于诸如鸡尾酒会效应等难题仍然还没有实质性进展,而且从人类相互交流的过程来看,当前的远场语音交互技术还远远没有达到非常准确、非常顺畅的程度。

超远场交互:主要是指5米、10米、20米甚至500米以外的超远距离拾音和交互,这种技术的难度就是解决在远距离声音传播过程中能量衰减的约束下获取高质量声音数据的问题,因为没有高质量的声音数据,再厉害的机器学习也没有任何价值。这种技术主要应用在智能安防场景,比如交通监控,搭配远距离声发射技术可以实现远程指挥的自动交通处理。

局部场交互:主要是指针对某个局部范围内的语音识别和理解,主要适应于智能医疗、智慧法庭、智能教育、智能会议等特殊场景,比如实时记录和识别法官、医生或者教师说过的话。这种场景的需求比较单一,仅仅针对特定目标进行拾音和识别即可,但是对于识别的速度和精度要求非常高,一般也要达到98%以上。

分布场交互:主要是指狭小空间内多人识别和响应的问题,最常见的就是汽车场景,现在的汽车智能交互仅仅照顾了驾驶员的需求,但实际应用中可能需要照顾汽车其他乘客的交互需求,这就涉及了多人识别和交互的问题。事实上,随着智能音箱等一系列智能设备的普及,未来我们的家庭就是典型的分布场交互场景。

多语种交互:主要适应跨语言时候的自由交互场景,当前Google、百度和科大讯飞推出的翻译机部分解决了一些问题,但是这些翻译机主要还是近场语音,过渡到远场语音交互的难度很大,因为翻译的场景确实太复杂多变了,在数据积累还没形成规模之前,这类技术还很难有实质性突破。 大词汇交互:思考一个问题,能不能将语音识别应用到话剧的场景?似乎这是一个更加头疼的问题,因为从声学、识别到理解都是巨大的挑战。话剧演员一般不会佩戴麦克风,这就要求远场多人识别,而且话剧演员常会自白一大段,如何进行端点识别和语音识别?这样发散来想,当前的智能语音技术真的是才刚刚开始。

2、听懂人类情感

至于听懂人类情感,则是一个更加复杂的过程,人类至今也没搞清楚情感的来源,所以即便热恋中的情侣,也无法搞清楚对方的真实需求。但是至少有几个技术点是和人类情感有关系的,这里简单阐述一下。

声纹识别,声纹识别的理论基础是每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有效的区分。声纹的特征主要由两个因素决定,第一个是声腔的尺寸,具体包括咽喉、鼻腔和口腔等,这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。第二个决定声纹特征的因素是发声器官被操纵的方式,发声器官包括唇、齿、舌、软腭及腭肌肉等,他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。

情感识别,主要是从采集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系。情感识别当前也主要采用深度学习的方法,这就需要建立对情感空间的描述以及形成足够多的情感语料库。情感识别是人机交互中体现智能的应用,但是到目前为止,技术水平还没有达到产品应用的程度。

哼唱识别,主要是通过用户哼唱歌曲的曲调,然后通过其中的旋律同音乐库中的数据进行详细分析和比对,最后将符合这个旋律的歌曲信息提供给用户。目前这项技术在音乐搜索中已经使用,识别率可以达到80%左右。

声光融合,声学和光学总是相伴相生,人类的情感也是通过听觉和视觉同时接受分析的,因此机器也必然将语音和图像结合在一起分析,才能更好的理解人类的情感,但是语音和图像在各自领域并没有发展成熟,因此声光融合的研究一直处于被轻视的尴尬地位。

3、听懂动物声音

让机器听懂动物的声音,或许是一个苛刻的要求,因为人类至今也没有听懂动物的声音,甚至婴儿的哭声,我们只能大概的去猜测。但是这不影响机器的进步,因为在很多领域,机器迟早是超越人类的。事实上,这类研究一直在进行,比如海豚、蝙蝠、鲸鱼、猩猩、老虎、狮子、猫狗、蚊子、蜂鸟等等动物的声音特征,当数据积累足够多的时候,根据声音推断这些动物的行为不是不可能,而人类的进步很大程度也得益于这种仿生。

4、听懂自然声音

当然,机器也必须听懂大自然的声音,比如雷声、雨声、地震、海浪、风声等声音,通过这些声音则可以辨别机器所处的环境,并且根据环境做出判断。其实,这些技术也正在落地,比如声智科技正在研究的小样本学习技术,就是根据噪声来判断场景的变化,显然厨房的噪声和客厅、卧室不会相同,同样地,咖啡厅、火车站、机场、办公室、汽车等场景的噪声也有很大区别,通过区分这些噪音则可以快速匹配出场景,这将非常有利于后端智能的处理,比如自然语言理解增加了场景信息以后就会更加准确。

听懂世界还需要更多硬科技的尝试

让机器听懂世界,不能仅仅依赖算法和数据,更重要的还是底层硬科技的突破,下面列举了声智科技正在参与研发的一些基础技术,期望能有更多的学子参与到这些令人兴奋的研发过程之中。

智能麦克风,可以简单理解为将当前的MEMS麦克风与低功耗芯片融合在一起,主要是解决低功耗语音唤醒和识别的问题。

矢量麦克风,当前的麦克风都是标量麦克风,只能获取单一的物理信息,也就是能量值,根据时间信息和阵列配置才能获取频域和相位信息。若将标量麦克风升级成为矢量麦克风,则增加了一个维度的特征信息,这对于机器学习的提升将会非常明显。

薄膜麦克风,这是一种柔性的技术,可以想象把整个电视屏幕当作麦克风的场景,通过特殊的纳米材料技术,甚至可以把任何界面都当作声音的接收装置,通常来说这种换能器装置也可以把声音转变成电能。

柔性扬声器,这实际上和薄膜麦克风的原理类似,只是将换能的方向换了一下,柔性扬声器目前多种方案,目前来看其难点主要还是发声的带宽和失真问题。

激光拾声,这是主动拾声的一种方式,可以通过激光的反射等方法拾取远处的振动信息,从而还原成为声音,这种方法以前主要应用在窃听领域,但是目前来看这种方法应用到语音识别还比较困难。

微波拾声,微波是指波长介于红外线和无线电波之间的电磁波,频率范围大约在 300MHz至300GHz之间,同激光拾声的原理类似,只是微波对于玻璃、塑料和瓷器几乎是穿越而不被吸收。

高速摄像头拾声,这是利用高速摄像机来拾取振动从而还原声音,这种方式需要可视范围和高速摄像机,只在一些特定场景里面应用。

小结

小结一下,让机器听懂世界的技术正在全球快速的演化,相信不久的将来,我们肯定能看到更加智能的机器,因此,既不要抨击当前的人工智能技术,也不要盛赞现在的基础科技技术,保持一颗平静的心,正确给予科技界和产业界的支持才是对于未来最大的投资。不管外界怎样评论,一个技术公司的价值最终还是体现在这个公司为社会创造了多大的价值。

但是,我们也应该看到,国内产业界长期不重视基础技术的投入,甚至资本界也常常不看好技术类型公司,国内更看重的还是模式创新,这和美国形成了很大的反差。这其中的深层次原因,应该还是取决于当前国内主流的追求依然是个人名望和经济回报,这严重束缚了我们对于未来的梦想和渴望,当然,这也是经济发展的必经阶段,只有解决了经济问题,我们才能真正对于知识产生自由的渴望,才能看的更远,追求的梦想更大。

本文节选自《智能音箱多到数不过来,然而让机器听懂世界的科幻未来还有多远?》,作者陈孝良,博士,声智科技创始人,曾任中科院声学所副研究员和信息化办公室主任,北京市公安局首届网络应急专家,主要从事声学信号处理和 GPU 深度学习算法研究工作。