广告

智能助手推动语音革命

2020-01-07 Pradyumna Mishra 阅读:
智能助手推动语音革命
150多年前,电话的发明掀起了一场通信革命。如今,随着各种新型智能设备利用人工智能(AI)从语音中提取含义,人们能够通过更加直观的新途径与身边的设备进行交互,一场新的语音通信革命正在到来。本文探讨了技术发展的现状,并预测了哪些技术将最终使无处不在的语音助手成为我们日常生活的一部分。

语音通信技术面临又一次革命。              akSednc

150多年前,电话的发明掀起了一场通信革命。如今,随着各种新型智能设备利用人工智能(AI)从语音中提取含义,人们能够通过更加直观的新途径与身边的设备进行交互,一场新的语音通信革命正在到来。本文探讨了技术发展的现状,并预测了哪些技术将最终使无处不在的语音助手成为我们日常生活的一部分。akSednc

“沃森先生,请过来……”akSednc

1876年亚历山大·格拉汉姆·贝尔说出的这句举世闻名的话,标志着声音首次成功地通过电话传输。从那以后,人们的工作、生活和娱乐方式发生了翻天覆地的变化,而这项改变世界的创新始终是这些变化的核心。现在,人们与世界交互的方式也取得了新的突破,语音通信仍是其中不可分割的组成部分。akSednc

在电话诞生后的第一个世纪里,有线电话网络遍及全球,将人们连接在一起。而过去50年间发生的电子革命,促进了便携式无线语音和视频通话的发展。最近10年,通信技术已经从人与人之间的免提通话,发展到人与机器对话。尽管只是初具雏形,但这种新型人机交互正在推动新一轮创新。akSednc

目前,计算机、智能手机和智能音箱等都采用内置语音助手,使用基于云的深度学习系统来支持用户提问和设定操作。人们日常使用的其他设备很快也将实现这样的功能。根据市场研究机构Statistica的数据,预计到2021年,将有多达18亿人在随身携带的设备上,以及在家中甚或商业环境中其他类型的平台上,使用语音助手(图1)。akSednc

然而,由于当今技术的局限,语音助手系统在迈向成功的道路上还面临挑战。人工智能、专用处理器和更灵敏的麦克风等技术的进步,将提升语音助手的性能,促进市场普及。akSednc

akSednc

图1:未来几年中,虚拟数字助理(VDA)的使用将急剧增加。据Tractica统计,到2021年,使用数字助理的人数将增加到18亿。akSednc

富于人性的人机对话

人类对话极其丰富,同时又具有交互性,这是语音助手系统面临的一大挑战。有时候,人们的话音还未落地,朋友就能心领神会。从技术上讲,人们相互交谈时的响应时间仅为数十毫秒。在与朋友聊天时,偶尔略加思索再缓缓回答是很自然的事,但如果正常对话中的停顿每次长达数秒,或者经常需要复述问题或命令,日常交流将变得多么令人难堪。akSednc

语音助手“对话”反应迟钝与其底层技术的诸多方面有关。语音识别和响应所采用的算法要占用大量处理能力,因此,如今的智能手机和智能音箱系统是将录音发送至云端计算资源。为了尽可能缩短传输时延,系统通常传输低质量音频文件,这会导致较高的错误率。而互联网本身是一种变速媒介,所以传输速度是变化不定的。这两个因素合起来,必然会影响依靠云来完成语音识别重任的语音助手的质量。akSednc

尽管有这些缺点,这项技术仍然令消费者振奋不已。智能音箱系统是继智能手机之后第一款提供语音助手的全新产品,其销量增速之迅猛,是智能手机问世以来未曾见过的。voicebot.ai发布的数据表明,2018年智能音箱在美国的销量增幅高达40%,算上新卖出的6640万台,智能音箱数量已达到1.33亿台,占美国成年人口数量的26%多一点(图2)。akSednc

此外,语音助手一定会不断提升性能,更好地模拟人类对话。除了缩短对话时延,算法也在不断优化,人与设备的交互会更人性化。这样的改善在很大程度上是源于让处理功能更靠近用户。akSednc

akSednc

图2:Voicebot的统计显示,2018年全美智能音箱数量的年增长率接近40%,总计达到6,640万台。akSednc

将人机对话移到边缘设备

随着实现云端处理语音助手的技术日新月异,这些设备将变得更加个性化。当前的语音助手是向云发送信息并接收从云传回的信息。实现这一功能的人工智能技术未来将应用于边缘设备,从而改善系统的私密性、功耗和响应速度。简而言之,边缘计算可以将人工智能从云端转移到人们的家中、工作场所或身边的其他设备中,使语音助手更加高效。英飞凌不久前展示的世界上功耗最低的关键词识别边缘解决方案,使我们朝着这个目标迈进了一步。akSednc

医疗和个人健康监测,将是更智能的语音助手大有可为的领域。譬如,高灵敏度麦克风可以监测睡眠时的呼吸声,预测睡眠呼吸暂停等睡眠障碍的发生。将这类个人健康信息传输到云端进行处理,可能令许多人感到不安。边缘处理则在本地捕获音频、进行计算并存储分析数据,完成对健康信息的监测和分析。这样一来,用户就能管理数据共享的方式和时间,能够确保更高私密性的语音助手,使人们对监测心脏和呼吸健康、睡眠状态以及整体健康状况感到更加安心。akSednc

当前人工智能发展迅速,其动力来自深度学习研究和构建专业深度学习系统的新型硬件。该领域的先驱、英飞凌合作伙伴Syntiant正研制可以为边缘设备带来深度学习能力的新型芯片。短短几年内,语音助手技术支持的人机交互将成为数十亿人日常生活中司空见惯的事。针对智能语音助手而开发的技术所具备的用电特性,使得采用小型电池供电的智能音频识别也能在许多其他应用中大展拳脚。想想你听到的声音如何影响你与世界的互动,就能预见到这项技术还在哪些领域发挥价值。除了日常生活中的应用,语音助手技术也将成为物联网(IoT)和工业4.0智能机器传感器系统的组成部分。akSednc

自动驾驶车辆还将利用音频输入和其他传感器来检测并响应周围环境。诸如自行车、火车、其他交通工具和大喊大叫的孩子等发出的声音,都是人工智能网络的音频输入,使汽车能够“看到”拐角处的目标。在工厂中,智能控制网络可以根据机器运行发出的声音进行诊断,排查故障,防患于未然。智慧城市系统会“听到”诸如玻璃破碎或交通事故等异常事件,并向有关部门发出警报。未来的机器人将把音频系统纳入传感器网络,以支持智能操作及交互。实际上,潜在应用数不胜数。akSednc

MEMS麦克风超越人类听觉

人类的听觉和认知处理是极其丰富的感觉系统的一部分。然而,有朝一日,基于人工智能的语音助手将在某些方面超越人类的能力。语音助手目前利用微型麦克风阵列和智能芯片来准确检测并理解传入的声音。其中一项关键技术是远场识别,这项技术通过高灵敏度MEMS麦克风和语音处理器芯片,使用高级音频处理算法来听到可能是房间另一头传出的窃窃私语。其他算法则有助于麦克风阵列从一个房间内的多个声源(包括其他人、电视和收音机)中,辨别出发布命令的具体声音。英飞凌研发出一个演示系统,将麦克风和语音处理器与微型雷达芯片合为一体,进一步改善存在检测和焦点(图3)。akSednc

akSednc

图3:英飞凌的雷达和MEMS麦克风与XMOS音频处理器的传感器融合,为语音助手平台提供了一种新的构建模块。(图片来源:英飞凌科技)akSednc

Emile Berliner发明的麦克风让电话变得实用,如果他今天还活着,一定会对袖珍如斯的麦克风感到惊奇,但他仍然看得出来声音捕捉和回放的工作原理。当前市场上MEMS麦克风的工作原理与Berliner研发的第一款实用麦克风完全相同:由一片薄膜检测到声波产生的空气压力并将其转换为电信号。从低声耳语的0dB SPL(声压级),到摇滚音乐会现场的120dB SPL,MEMS麦克风能够检测到的可闻声范围很大。dB刻度是对数形式,这意味着120dB SPL的能量比0dB SPL声音高12个数量级(1万亿倍)。akSednc

在许多应用中,最尖端的MEMS麦克风的灵敏度超过了人耳通常能听到的声音范围。相比同样尺寸的类似麦克风,英飞凌提供的最新一代器件具备更加优异的性能,可使信噪比(SNR)改善达10dB(图4)。它可以在新一代系统中为音频处理提供高质量音频信号,从而提升总体灵敏度并降低误差率。akSednc

akSednc

图4:英飞凌的双背板MEMS技术在两块背板之间嵌入一层振膜,从而产生真正的差分信号。SNR提高了6dB,达到70dB,相当于将MEMS麦克风捕获用户语音命令的有效距离增大了一倍。(图片来源:英飞凌科技)akSednc

智能的发展无止境

如今使用的音频处理技术通常采用诸如回声消除和有源滤波等概念来抑制有害噪音,并隔离目标音频信号以进行语音识别。事实上,这种类型的音频识别是将噪音信息视为背景音。新一代神经网络人工智能处理器则将采取不同的方法,学习区分噪音与有用信号之间的差异。目前英飞凌正与合作伙伴共同开发能够实现这一任务的麦克风和硬件组合。合作的另一个目的是提供一些必要的开发工具,用来为工业、商业和消费类产品设计人工智能音频检测和语音识别系统。akSednc

不久的将来,利用语音助手技术,人们能够与所使用的机器进行有意义的对话,哪怕并未连接到云,人机对话亦不受影响。用于监测人们健康和安全的传感器系统也将采用这种智能音频技术。这是一场持续的语音通信革命,人们将以新的方式与机器交互,同时机器也能够检测所处的环境并作出响应。akSednc

(原文刊登于ASPENCORE旗下EETimes网站,参考链接: Smart Assistants Extend the Voice Revolution。)akSednc

本文为《电子技术设计》2020年01月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里akSednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 骁龙888最全详解——高通第三代5G手机芯片:CPU、GPU、N 昨天,2020高通技术峰会第一天透露的芯片总览,EDN报道了《高通发布“中国风”骁龙888,名字是为小米而生吗?(附首发厂家名单)》,晚上,高通中国区董事长孟璞谈了有关骁龙888的命名方式,印证了我们的分析。现在,我们从CPU、GPU、AI/NPU、5G基带、摄像、安全六大方面以及代工和首发手机等,再次为大家奉上第二天有关骁龙888的最全面的详细情况,同时我们发现了首发厂家中黑鲨手机的秘密......
  • 高通发布“中国风”骁龙888 5G芯片,名字是为小米而生吗 北京时间12月1日晚11点:2020高通骁龙技术峰会在线举办,高通发布了极具"中国风"(China Style)名字的5G芯片:骁龙888,同时公布首发厂家名单。骁龙888性能与速度均有大幅提升。在没有了华为这个最大竞争对手后,高通芯片似乎一枝独秀,大放异彩。同时,有人说这个名字是为小米而生,真实情况如何呢?
  • 智能轮胎如何支持联网汽车(与TPMS无关)? 非充气式氧气轮胎并非由气压支持,而是利用回收的轮胎粉尘通过3D打印而成,并在胎壁上附着活苔藓。它从道路上吸收水、从空气中吸收二氧化碳来喂食苔藓,进行光合作用并产生氧气。
  • 手机拍照进化论:为什么需要图像算法? 更好的手机拍照效果需要图像算法的加持,为了让大家有更好的了解,接下来的系列,我们准备了几篇科普、视频和图说,一起来看看吧~~~
  • 光学动作捕捉(光学动捕)系统是什么?它能在自动驾驶、无人 近年来,人工智能AI非常火热,算法越来越得到重视,其在AI中的地位越来越高。在智能体算法层面,动作捕捉是自动驾驶、无人机、机器人、安防等涉及电子运动学中最重要的技术和算法,而光学动作捕捉(简称光学动捕)处于这门算法学科的最前端。那么光学动作捕捉系统到底能做哪些事情呢?
  • 华为智能汽车有哪些核心技术?能否复制手机领域的“荣耀 最近,华为荣耀出售引起业界极大关注,EDN发表了《华为荣耀以400亿美金成交!包含什么技术?》。今天,余承东被任命为智能终端与智能汽车部件IRB主任。华为的智能汽车战略再次引爆IT界。那么,华为在智能汽车领域又有什么核心技术,其能否复制手机领域的“荣耀”,把华为智能汽车也推向巅峰呢?
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了