广告

智能助手推动语音革命

2020-01-07 09:58:23 Pradyumna Mishra 阅读:
150多年前,电话的发明掀起了一场通信革命。如今,随着各种新型智能设备利用人工智能(AI)从语音中提取含义,人们能够通过更加直观的新途径与身边的设备进行交互,一场新的语音通信革命正在到来。本文探讨了技术发展的现状,并预测了哪些技术将最终使无处不在的语音助手成为我们日常生活的一部分。

语音通信技术面临又一次革命。              gDeednc

150多年前,电话的发明掀起了一场通信革命。如今,随着各种新型智能设备利用人工智能(AI)从语音中提取含义,人们能够通过更加直观的新途径与身边的设备进行交互,一场新的语音通信革命正在到来。本文探讨了技术发展的现状,并预测了哪些技术将最终使无处不在的语音助手成为我们日常生活的一部分。gDeednc

“沃森先生,请过来……”gDeednc

1876年亚历山大·格拉汉姆·贝尔说出的这句举世闻名的话,标志着声音首次成功地通过电话传输。从那以后,人们的工作、生活和娱乐方式发生了翻天覆地的变化,而这项改变世界的创新始终是这些变化的核心。现在,人们与世界交互的方式也取得了新的突破,语音通信仍是其中不可分割的组成部分。gDeednc

在电话诞生后的第一个世纪里,有线电话网络遍及全球,将人们连接在一起。而过去50年间发生的电子革命,促进了便携式无线语音和视频通话的发展。最近10年,通信技术已经从人与人之间的免提通话,发展到人与机器对话。尽管只是初具雏形,但这种新型人机交互正在推动新一轮创新。gDeednc

目前,计算机、智能手机和智能音箱等都采用内置语音助手,使用基于云的深度学习系统来支持用户提问和设定操作。人们日常使用的其他设备很快也将实现这样的功能。根据市场研究机构Statistica的数据,预计到2021年,将有多达18亿人在随身携带的设备上,以及在家中甚或商业环境中其他类型的平台上,使用语音助手(图1)。gDeednc

然而,由于当今技术的局限,语音助手系统在迈向成功的道路上还面临挑战。人工智能、专用处理器和更灵敏的麦克风等技术的进步,将提升语音助手的性能,促进市场普及。gDeednc

gDeednc

图1:未来几年中,虚拟数字助理(VDA)的使用将急剧增加。据Tractica统计,到2021年,使用数字助理的人数将增加到18亿。gDeednc

富于人性的人机对话

人类对话极其丰富,同时又具有交互性,这是语音助手系统面临的一大挑战。有时候,人们的话音还未落地,朋友就能心领神会。从技术上讲,人们相互交谈时的响应时间仅为数十毫秒。在与朋友聊天时,偶尔略加思索再缓缓回答是很自然的事,但如果正常对话中的停顿每次长达数秒,或者经常需要复述问题或命令,日常交流将变得多么令人难堪。gDeednc

语音助手“对话”反应迟钝与其底层技术的诸多方面有关。语音识别和响应所采用的算法要占用大量处理能力,因此,如今的智能手机和智能音箱系统是将录音发送至云端计算资源。为了尽可能缩短传输时延,系统通常传输低质量音频文件,这会导致较高的错误率。而互联网本身是一种变速媒介,所以传输速度是变化不定的。这两个因素合起来,必然会影响依靠云来完成语音识别重任的语音助手的质量。gDeednc

尽管有这些缺点,这项技术仍然令消费者振奋不已。智能音箱系统是继智能手机之后第一款提供语音助手的全新产品,其销量增速之迅猛,是智能手机问世以来未曾见过的。voicebot.ai发布的数据表明,2018年智能音箱在美国的销量增幅高达40%,算上新卖出的6640万台,智能音箱数量已达到1.33亿台,占美国成年人口数量的26%多一点(图2)。gDeednc

此外,语音助手一定会不断提升性能,更好地模拟人类对话。除了缩短对话时延,算法也在不断优化,人与设备的交互会更人性化。这样的改善在很大程度上是源于让处理功能更靠近用户。gDeednc

gDeednc

图2:Voicebot的统计显示,2018年全美智能音箱数量的年增长率接近40%,总计达到6,640万台。gDeednc

将人机对话移到边缘设备

随着实现云端处理语音助手的技术日新月异,这些设备将变得更加个性化。当前的语音助手是向云发送信息并接收从云传回的信息。实现这一功能的人工智能技术未来将应用于边缘设备,从而改善系统的私密性、功耗和响应速度。简而言之,边缘计算可以将人工智能从云端转移到人们的家中、工作场所或身边的其他设备中,使语音助手更加高效。英飞凌不久前展示的世界上功耗最低的关键词识别边缘解决方案,使我们朝着这个目标迈进了一步。gDeednc

医疗和个人健康监测,将是更智能的语音助手大有可为的领域。譬如,高灵敏度麦克风可以监测睡眠时的呼吸声,预测睡眠呼吸暂停等睡眠障碍的发生。将这类个人健康信息传输到云端进行处理,可能令许多人感到不安。边缘处理则在本地捕获音频、进行计算并存储分析数据,完成对健康信息的监测和分析。这样一来,用户就能管理数据共享的方式和时间,能够确保更高私密性的语音助手,使人们对监测心脏和呼吸健康、睡眠状态以及整体健康状况感到更加安心。gDeednc

当前人工智能发展迅速,其动力来自深度学习研究和构建专业深度学习系统的新型硬件。该领域的先驱、英飞凌合作伙伴Syntiant正研制可以为边缘设备带来深度学习能力的新型芯片。短短几年内,语音助手技术支持的人机交互将成为数十亿人日常生活中司空见惯的事。针对智能语音助手而开发的技术所具备的用电特性,使得采用小型电池供电的智能音频识别也能在许多其他应用中大展拳脚。想想你听到的声音如何影响你与世界的互动,就能预见到这项技术还在哪些领域发挥价值。除了日常生活中的应用,语音助手技术也将成为物联网(IoT)和工业4.0智能机器传感器系统的组成部分。gDeednc

自动驾驶车辆还将利用音频输入和其他传感器来检测并响应周围环境。诸如自行车、火车、其他交通工具和大喊大叫的孩子等发出的声音,都是人工智能网络的音频输入,使汽车能够“看到”拐角处的目标。在工厂中,智能控制网络可以根据机器运行发出的声音进行诊断,排查故障,防患于未然。智慧城市系统会“听到”诸如玻璃破碎或交通事故等异常事件,并向有关部门发出警报。未来的机器人将把音频系统纳入传感器网络,以支持智能操作及交互。实际上,潜在应用数不胜数。gDeednc

MEMS麦克风超越人类听觉

人类的听觉和认知处理是极其丰富的感觉系统的一部分。然而,有朝一日,基于人工智能的语音助手将在某些方面超越人类的能力。语音助手目前利用微型麦克风阵列和智能芯片来准确检测并理解传入的声音。其中一项关键技术是远场识别,这项技术通过高灵敏度MEMS麦克风和语音处理器芯片,使用高级音频处理算法来听到可能是房间另一头传出的窃窃私语。其他算法则有助于麦克风阵列从一个房间内的多个声源(包括其他人、电视和收音机)中,辨别出发布命令的具体声音。英飞凌研发出一个演示系统,将麦克风和语音处理器与微型雷达芯片合为一体,进一步改善存在检测和焦点(图3)。gDeednc

gDeednc

图3:英飞凌的雷达和MEMS麦克风与XMOS音频处理器的传感器融合,为语音助手平台提供了一种新的构建模块。(图片来源:英飞凌科技)gDeednc

Emile Berliner发明的麦克风让电话变得实用,如果他今天还活着,一定会对袖珍如斯的麦克风感到惊奇,但他仍然看得出来声音捕捉和回放的工作原理。当前市场上MEMS麦克风的工作原理与Berliner研发的第一款实用麦克风完全相同:由一片薄膜检测到声波产生的空气压力并将其转换为电信号。从低声耳语的0dB SPL(声压级),到摇滚音乐会现场的120dB SPL,MEMS麦克风能够检测到的可闻声范围很大。dB刻度是对数形式,这意味着120dB SPL的能量比0dB SPL声音高12个数量级(1万亿倍)。gDeednc

在许多应用中,最尖端的MEMS麦克风的灵敏度超过了人耳通常能听到的声音范围。相比同样尺寸的类似麦克风,英飞凌提供的最新一代器件具备更加优异的性能,可使信噪比(SNR)改善达10dB(图4)。它可以在新一代系统中为音频处理提供高质量音频信号,从而提升总体灵敏度并降低误差率。gDeednc

gDeednc

图4:英飞凌的双背板MEMS技术在两块背板之间嵌入一层振膜,从而产生真正的差分信号。SNR提高了6dB,达到70dB,相当于将MEMS麦克风捕获用户语音命令的有效距离增大了一倍。(图片来源:英飞凌科技)gDeednc

智能的发展无止境

如今使用的音频处理技术通常采用诸如回声消除和有源滤波等概念来抑制有害噪音,并隔离目标音频信号以进行语音识别。事实上,这种类型的音频识别是将噪音信息视为背景音。新一代神经网络人工智能处理器则将采取不同的方法,学习区分噪音与有用信号之间的差异。目前英飞凌正与合作伙伴共同开发能够实现这一任务的麦克风和硬件组合。合作的另一个目的是提供一些必要的开发工具,用来为工业、商业和消费类产品设计人工智能音频检测和语音识别系统。gDeednc

不久的将来,利用语音助手技术,人们能够与所使用的机器进行有意义的对话,哪怕并未连接到云,人机对话亦不受影响。用于监测人们健康和安全的传感器系统也将采用这种智能音频技术。这是一场持续的语音通信革命,人们将以新的方式与机器交互,同时机器也能够检测所处的环境并作出响应。gDeednc

(原文刊登于ASPENCORE旗下EETimes网站,参考链接: Smart Assistants Extend the Voice Revolution。)gDeednc

本文为《电子技术设计》2020年01月刊杂志文章,版权所有,禁止转载。免费杂志订阅申请点击这里gDeednc

  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 因眼睛小车主被辅助驾驶误判“开车睡觉”,小鹏、蔚来回 昨日,汽车博主@常岩CY 发博称自己突然上了热搜,原来就是因自己眼睛小被小鹏汽车自动驾驶误判“开车睡觉”,不住的发出提醒。此外,@常岩CY 称在多款车型上都收到此困扰。无论是红外还是摄像头,只要开始检测眼睛,就会判定过度疲劳。小鹏P7会提示他睡觉,蔚来ET7一开车就认为其疲劳和走神,岚图FREE会在冬天为了让其“别困”而打开冷风……
  • 国际象棋机器人Chessrobot夹断对手手指,意外还是设计缺 据悉,在7月19日的莫斯科国际象棋公开赛期间,一位7岁小男孩疑似因提前走子犯规手,意外被“对手”国际象棋机器人Chessrobot夹住手指,造成指骨骨折,该事件登上了热搜榜。该男孩是莫斯科9岁以下最强的30位棋手之一。
  • “智能家居”未来将可通过呼吸控制操作 凯斯西储大学的研究人员创造了一个简单的原型设备,使用户能够通过改变他们的呼吸模式来控制“智能家居”。这种自供电装置可放入鼻孔,并有可能提高行动不便或无法清晰说话的人的生活质量。如果个人呼吸困难,它也可以编程为医务人员提供自动警报。
  • 核酸采样机器人将取代“大白”?用了哪些技术保证采样准 取棉签、核酸采样、储存核酸采样管、设备消杀……动作精准流畅,今后给你核酸采样的可能不再是“大白”,而是机器人。EDN小编就带大家来看看,目前已被使用的核酸采样机器人有哪些?
  • 一个AI程序就可将手机电池增加30% 一项尖端的人工智能开发可以将智能手机的电池寿命延长 30%。这项应用则是利用 AI 分析正在使用的应用程序的 FPS 变化,并试图找到 CPU 和 GPU 处理器的最佳运行频率以适应变化,同时消耗设备中最少的功率和温度增益……
  • AI视觉芯片如何赋能两轮车出行? 6月29日,在由全球领先的专业电子机构媒体AspenCore和深圳市新一代信息通信产业集群联合主办的“2022国际AIoT生态发展大会-智慧两轮车分论坛”中,嘉楠科技副总裁汤炜伟以《勘智AI视觉芯,赋能智眼两轮行》为主题,向大家分享了嘉楠地芯片设计创新历程,及其RISCV架构AI芯片技术路线图,并以具体案例展示AI视觉芯片如何赋能两轮车出行。
  • 碎片化、成本高是难题,AIoT行业需要哪些改变? 作为AIoT的行业基石,物联网市场到2022年预计将达到 144 亿活跃连接。随着供应限制的缓解和增长的进一步加速,IoT Analytics 最新预测指出,到2025年全球将有大约 270 亿台联网物联网设备。中国物联网链接到2025年也将达到80亿。随着整个AIoT和IoT市场的快速成长与变化,我们将面临哪些风险和挑战?
  • 英特尔张宇:边缘AI有三个阶段,我们还处在山脚 在AspenCore举办的“2022国际AIoT生态发展大会”上,英特尔公司高级首席工程师、物联网事业部中国区首席技术官张宇博士通过视频方式分享了“边缘AI技术发展趋势与展望”主题演讲。
  • 世界上尺寸最大的芯片Wafer Scale Engine-2打破了在单 Cerebras公司售价数百万美元的“全球最大AI芯片”Wafer Scale Engine-2又有新消息,在基于单个Wafer Scale Engine-2芯片的CS-2系统上训练了世界上最大的拥有200亿参数的NLP(自然语言处理)人工智能模型。
  • 婴儿或可帮助解锁下一代人工智能 都柏林圣三一学院的神经科学家及其同事刚刚发布了改进人工智能的新指导原则,他们表示,婴儿可以帮助解锁下一代人工智能(AI)。
  • 日本要利用机器学习实现半导体研究自动化 新型薄半导体材料的开发需要对大量反射高能电子衍射(RHEED)数据进行定量分析,既耗时又需要专业知识。为了解决这个问题,东京理科大学的科学家们确定了可以帮助自动化 RHEED 数据分析的机器学习技术。他们的发现可以极大地加速半导体研究,并为更快、更节能的电子设备铺平道路。
  • 纯视觉自动驾驶更安全?美国交通部发布数据打脸特斯拉 特斯拉的纯视觉自动驾驶到底效果如何?真的如马斯克所说的:“通过摄像头和计算机网络让自动驾驶比人类驾驶更安全”吗?近日美国国家公路交通安全管理局发布了一份新的数据,颇有打脸特斯拉的意味。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了