广告

把脑电波合成为语音,总共分几步?

2019-06-03 16:33:45 阅读:
科技的进步往往神速而出乎意料,如果霍金多活几年,他连动「肉」的劲儿都省掉,直接动动脑子,就能合成语音了。因为,脑机接口技术,又搞了个大事情。

很多人都知道霍金拥有一台极高科技含量的轮椅,能在无法动弹或者言语的情况下,合成语音,以与外界进行交流,甚至还因此著书立说Iy7ednc

但也可能有很多人不知道这台轮椅是如何工作的。其实霍金一开始可以用手指来敲打键盘输出文字,但随着病情的加重,手指也无法动弹。于是相继采用过眼球跟踪和脑电波识别的技术,但最终由于病情的加重而放弃。Iy7ednc

后来的霍金是戴着一副安装了红外探测器的眼镜,通过识别脸颊的一块儿肌肉运动,来代替原来的按键。Iy7ednc

至少在霍金在世的时候,他采用的已经是世界上最先进的语音合成技术。但科技的进步往往神速而出乎意料,如果霍金多活几年,他连动「肉」的劲儿都省掉,直接动动脑子,就能合成语音了。Iy7ednc

因为,脑机接口技术,又搞了个大事情。Iy7ednc

让脑电波开口「说话」的前夜:先来打个字吧

以脑机接口的方式,捕捉大脑电波,然后实现打字的目的,再进行语音合成输出,并不是一个很难的课题。Iy7ednc

去年世界机器人大会上,清华大学研发的「动态窗稳态视觉诱发电位脑机接口系统」就「主导」了一场通过脑机接口来打字的比赛。参赛者们只要在头上戴上相关设备,将注意力集中到电脑屏幕上的虚拟键盘中的字母上,脑电波就会被捕捉,然后将对应的字母显示出来。Iy7ednc

字母打得多了,字也就打出来了。Iy7ednc

这种方式和对霍金的一小块儿肌肉进行捕捉原理上基本上没有差别,都是通过捕捉人对字母的强烈反应而实现语言的输出。不同之处在于,霍金由世界顶尖科技团队开发,可以采用单词联想的方式提高打字的效率。Iy7ednc

017ednc20190603Iy7ednc

这种方法听起来确实很高端,但也存在一定的不足。Iy7ednc

第一,打字的速度较慢。英语还好一点,只要字母拼全就完成了打字的过程;而汉语还需要进行转化,遇到同音词还需要进一步进行选择,这就需要进行二次脑电波捕捉。逐字的打字方法令其在单位时间内能够打出的文字相当有限。Iy7ednc

第二,对参与者的精神集中有要求,而且抗干扰较弱。脑电波是非常敏感而且活跃的。一方面人如果注意力无法高度集中,系统就将很难对字母进行定位;另一方面人的大脑在看到字母的时候往往会不由自主地产生联想,比如看到「c」会想到「copy」或者「car」等词,这也会对系统识别产生干扰。Iy7ednc

正常人想要顺利打个字都极度耗费体力,就更不要说那些身患阿尔兹海默症或者其他病症导致无法言语的病人了。霍金之前没有采用类似的方案,就是考虑到无法承受如此的体力消耗。Iy7ednc

当然,个人认为这种方案虽然目前仅仅还停留在科技「趣闻」或者「猎奇」的阶段,但其本身是一种突破性的。它的意义并不在于有多好用或是取得了多少实际的效果,而是在于探索出了一条脑机接口的新的道路。至少让人们看到,通过脑机接口来实现「意念」输处文本甚至是语音输出是完全可行的。Iy7ednc

而这种可行性,被加州大学旧金山分校的一项研究成果,进一步证实并且加强。Iy7ednc

把脑电波合成为语音,总共分几步?

加州大学旧金山分校的神经科学家的解决方案,是从解剖学的角度出发,模拟真人发音时大脑发出的口腔喉咙肌电信号对发音系统的调动,比如在发「啊」这个音的时候,嘴唇、下巴、舌头和喉咙以及其他成分的动作,然后合成相应的语音。Iy7ednc

那么,要把脑电信号合成为语音,总共分几步呢?Iy7ednc

第一步,样本收集。研究者让 5 名完全健康的志愿者在 UCSF Epileps 接受了一项外科手术,在其大脑中临时植入了一块电极。接下来,志愿者被要求大声朗读指定的数百句话。在朗读的过程中,科学家记录了不同语言文字在朗读过程中在大脑区域内的活动信号。Iy7ednc

第二步,破译信号。通过循环神经网络(RNN)的不断学习,研究者将大脑神经信号转换成了发音器官动作的信号,这些信号与发音器官的动作直接相关,比如嘴唇、下巴、舌头、喉咙等。Iy7ednc

018ednc20190603Iy7ednc

第三步,虚拟声道。虚拟不同声音所产生的声道运动,就像汉语中双唇音、唇齿音、舌尖中音等所需要调动的不同发音部位一样,正常来说,如果模拟的发音运动模式和人正常说话时一样,那么所发的音也一定是一样的。Iy7ednc

最后一步,就可以进行语音输出了。Iy7ednc

为了测试虚拟语音的流畅性,研究者们在亚马逊的任务众包平台 Mechanical Turk 上招募听众来对这些合成语音的 325 个单词和 101 个句子进行辨认,结果大部分的单词和句子都被人们成功识别。Iy7ednc

这意味着,不用动嘴,通过脑电波来实现语音输出,完全是有可能的。这对于中风、脑损伤或其他疾病而导致的语言功能障碍的辅助,将具有里程碑式的意义。Iy7ednc

技术落地尚远,「脑机」仍需努力

相较于「字母表模式」,这项研究的优势是显而易见的。Iy7ednc

首先,语音合成速度会得到大大提高。字母表模式下,比如通过眼动或者肌肉块儿的捕捉,每分钟能成功输出 10 个单词左右。对于正常交流而言,一分钟说 10 个字,一方面的确很不便,另一方面确实很考验人的耐心。而通过声道模拟语音,每分钟输出的单词可以达到 150 个,这与自然语言中每分钟 100-150 个单词已经几乎没有差别。实现正常人般的交流,可以说毫无压力。Iy7ednc

019ednc20190603Iy7ednc

其次,相较于捕捉大脑信号对字母的感应,语音产生的机电信号更为强烈,也就更容易捕捉。所以,这在很大程度上可以缓解因信号识别缓慢而导致语音合成效率低下和患者焦虑的问题,更进一步而言,也增加了患者的接受度。Iy7ednc

当然,作为一项尚未走出实验室的技术,它的缺陷也明显存在。Iy7ednc

第一,人工智能识别的准确率和数据的丰富程度呈正相关。也就是说,利用 RNN 去进行学习破译脑电波信号并将其转化为发音器官动作的信号,要想实现较高的正确率,就需要大量的数据。目前的现实是,虽然语音输出的速度很快,但也只有一半的句子会被识别出来。就像说话的时候嘴里含着一口水,必然是会影响交流的感受和效率的。Iy7ednc

第二,不同语言、不同方言之间的通用性很弱,即便是同一种语言,由于方言的差异性也会导致发音的时候各部位的运动存在着细节性的发音差异,会导致语音合成的混淆。比如在汉语中「六」的发音,不同地域之间的差别达到了二十多个。为一种语言建立一种样本?似乎有点过于繁琐。Iy7ednc

所以,如果能找到一种更好的方法能够增强该技术的通用性尚可,如果仅仅停留在这个层面,其产品很可能无法走入寻常百姓家,而是成为显贵人群的私人订制。Iy7ednc

研究者们自己也承认,声道运动和语音的最终形成是一个复杂的关系,目前该系统对合成较慢的发音比较擅长,对说话者的节奏和语调有一定的要求,距离最终的应用,仍然是有很长的一段路要走。Iy7ednc

但不管怎样,这也应该属于脑机接口技术的一次重大突破了。试想在不远的将来,你只需要动动脑子,就会有准确无误的文本或者语音转化出来,人机交互将会变得多么顺畅而自然;而对于那些长期存在语言表达障碍的弱势群体而言,或许「福音」二字,已经远不足以表达其所蕴含的难以估量的价值。Iy7ednc

(来源:微信公众号脑极体(ID:unity007),作者:小豪)Iy7ednc

 Iy7ednc

  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 因眼睛小车主被辅助驾驶误判“开车睡觉”,小鹏、蔚来回 昨日,汽车博主@常岩CY 发博称自己突然上了热搜,原来就是因自己眼睛小被小鹏汽车自动驾驶误判“开车睡觉”,不住的发出提醒。此外,@常岩CY 称在多款车型上都收到此困扰。无论是红外还是摄像头,只要开始检测眼睛,就会判定过度疲劳。小鹏P7会提示他睡觉,蔚来ET7一开车就认为其疲劳和走神,岚图FREE会在冬天为了让其“别困”而打开冷风……
  • 国际象棋机器人Chessrobot夹断对手手指,意外还是设计缺 据悉,在7月19日的莫斯科国际象棋公开赛期间,一位7岁小男孩疑似因提前走子犯规手,意外被“对手”国际象棋机器人Chessrobot夹住手指,造成指骨骨折,该事件登上了热搜榜。该男孩是莫斯科9岁以下最强的30位棋手之一。
  • “智能家居”未来将可通过呼吸控制操作 凯斯西储大学的研究人员创造了一个简单的原型设备,使用户能够通过改变他们的呼吸模式来控制“智能家居”。这种自供电装置可放入鼻孔,并有可能提高行动不便或无法清晰说话的人的生活质量。如果个人呼吸困难,它也可以编程为医务人员提供自动警报。
  • 核酸采样机器人将取代“大白”?用了哪些技术保证采样准 取棉签、核酸采样、储存核酸采样管、设备消杀……动作精准流畅,今后给你核酸采样的可能不再是“大白”,而是机器人。EDN小编就带大家来看看,目前已被使用的核酸采样机器人有哪些?
  • 一个AI程序就可将手机电池增加30% 一项尖端的人工智能开发可以将智能手机的电池寿命延长 30%。这项应用则是利用 AI 分析正在使用的应用程序的 FPS 变化,并试图找到 CPU 和 GPU 处理器的最佳运行频率以适应变化,同时消耗设备中最少的功率和温度增益……
  • AI视觉芯片如何赋能两轮车出行? 6月29日,在由全球领先的专业电子机构媒体AspenCore和深圳市新一代信息通信产业集群联合主办的“2022国际AIoT生态发展大会-智慧两轮车分论坛”中,嘉楠科技副总裁汤炜伟以《勘智AI视觉芯,赋能智眼两轮行》为主题,向大家分享了嘉楠地芯片设计创新历程,及其RISCV架构AI芯片技术路线图,并以具体案例展示AI视觉芯片如何赋能两轮车出行。
  • 碎片化、成本高是难题,AIoT行业需要哪些改变? 作为AIoT的行业基石,物联网市场到2022年预计将达到 144 亿活跃连接。随着供应限制的缓解和增长的进一步加速,IoT Analytics 最新预测指出,到2025年全球将有大约 270 亿台联网物联网设备。中国物联网链接到2025年也将达到80亿。随着整个AIoT和IoT市场的快速成长与变化,我们将面临哪些风险和挑战?
  • 英特尔张宇:边缘AI有三个阶段,我们还处在山脚 在AspenCore举办的“2022国际AIoT生态发展大会”上,英特尔公司高级首席工程师、物联网事业部中国区首席技术官张宇博士通过视频方式分享了“边缘AI技术发展趋势与展望”主题演讲。
  • 世界上尺寸最大的芯片Wafer Scale Engine-2打破了在单 Cerebras公司售价数百万美元的“全球最大AI芯片”Wafer Scale Engine-2又有新消息,在基于单个Wafer Scale Engine-2芯片的CS-2系统上训练了世界上最大的拥有200亿参数的NLP(自然语言处理)人工智能模型。
  • 婴儿或可帮助解锁下一代人工智能 都柏林圣三一学院的神经科学家及其同事刚刚发布了改进人工智能的新指导原则,他们表示,婴儿可以帮助解锁下一代人工智能(AI)。
  • 日本要利用机器学习实现半导体研究自动化 新型薄半导体材料的开发需要对大量反射高能电子衍射(RHEED)数据进行定量分析,既耗时又需要专业知识。为了解决这个问题,东京理科大学的科学家们确定了可以帮助自动化 RHEED 数据分析的机器学习技术。他们的发现可以极大地加速半导体研究,并为更快、更节能的电子设备铺平道路。
  • 纯视觉自动驾驶更安全?美国交通部发布数据打脸特斯拉 特斯拉的纯视觉自动驾驶到底效果如何?真的如马斯克所说的:“通过摄像头和计算机网络让自动驾驶比人类驾驶更安全”吗?近日美国国家公路交通安全管理局发布了一份新的数据,颇有打脸特斯拉的意味。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了