把脑电波合成为语音，总共分几步？-EDN 电子技术设计

 科技的进步往往神速而出乎意料，如果霍金多活几年，他连动「肉」的劲儿都省掉，直接动动脑子，就能合成语音了。因为，脑机接口技术，又搞了个大事情。

很多人都知道霍金拥有一台极高科技含量的轮椅，能在无法动弹或者言语的情况下，合成语音，以与外界进行交流，甚至还因此著书立说Uhiednc

但也可能有很多人不知道这台轮椅是如何工作的。其实霍金一开始可以用手指来敲打键盘输出文字，但随着病情的加重，手指也无法动弹。于是相继采用过眼球跟踪和脑电波识别的技术，但最终由于病情的加重而放弃。Uhiednc

后来的霍金是戴着一副安装了红外探测器的眼镜，通过识别脸颊的一块儿肌肉运动，来代替原来的按键。Uhiednc

至少在霍金在世的时候，他采用的已经是世界上最先进的语音合成技术。但科技的进步往往神速而出乎意料，如果霍金多活几年，他连动「肉」的劲儿都省掉，直接动动脑子，就能合成语音了。Uhiednc

因为，脑机接口技术，又搞了个大事情。Uhiednc

让脑电波开口「说话」的前夜：先来打个字吧

以脑机接口的方式，捕捉大脑电波，然后实现打字的目的，再进行语音合成输出，并不是一个很难的课题。Uhiednc

去年世界机器人大会上，清华大学研发的「动态窗稳态视觉诱发电位脑机接口系统」就「主导」了一场通过脑机接口来打字的比赛。参赛者们只要在头上戴上相关设备，将注意力集中到电脑屏幕上的虚拟键盘中的字母上，脑电波就会被捕捉，然后将对应的字母显示出来。Uhiednc

字母打得多了，字也就打出来了。Uhiednc

这种方式和对霍金的一小块儿肌肉进行捕捉原理上基本上没有差别，都是通过捕捉人对字母的强烈反应而实现语言的输出。不同之处在于，霍金由世界顶尖科技团队开发，可以采用单词联想的方式提高打字的效率。Uhiednc

017ednc20190603 Uhiednc

这种方法听起来确实很高端，但也存在一定的不足。Uhiednc

第一，打字的速度较慢。英语还好一点，只要字母拼全就完成了打字的过程；而汉语还需要进行转化，遇到同音词还需要进一步进行选择，这就需要进行二次脑电波捕捉。逐字的打字方法令其在单位时间内能够打出的文字相当有限。Uhiednc

第二，对参与者的精神集中有要求，而且抗干扰较弱。脑电波是非常敏感而且活跃的。一方面人如果注意力无法高度集中，系统就将很难对字母进行定位；另一方面人的大脑在看到字母的时候往往会不由自主地产生联想，比如看到「c」会想到「copy」或者「car」等词，这也会对系统识别产生干扰。Uhiednc

正常人想要顺利打个字都极度耗费体力，就更不要说那些身患阿尔兹海默症或者其他病症导致无法言语的病人了。霍金之前没有采用类似的方案，就是考虑到无法承受如此的体力消耗。Uhiednc

当然，个人认为这种方案虽然目前仅仅还停留在科技「趣闻」或者「猎奇」的阶段，但其本身是一种突破性的。它的意义并不在于有多好用或是取得了多少实际的效果，而是在于探索出了一条脑机接口的新的道路。至少让人们看到，通过脑机接口来实现「意念」输处文本甚至是语音输出是完全可行的。Uhiednc

而这种可行性，被加州大学旧金山分校的一项研究成果，进一步证实并且加强。Uhiednc

把脑电波合成为语音，总共分几步？

加州大学旧金山分校的神经科学家的解决方案，是从解剖学的角度出发，模拟真人发音时大脑发出的口腔喉咙肌电信号对发音系统的调动，比如在发「啊」这个音的时候，嘴唇、下巴、舌头和喉咙以及其他成分的动作，然后合成相应的语音。Uhiednc

那么，要把脑电信号合成为语音，总共分几步呢？Uhiednc

第一步，样本收集。研究者让 5 名完全健康的志愿者在 UCSF Epileps 接受了一项外科手术，在其大脑中临时植入了一块电极。接下来，志愿者被要求大声朗读指定的数百句话。在朗读的过程中，科学家记录了不同语言文字在朗读过程中在大脑区域内的活动信号。Uhiednc

第二步，破译信号。通过循环神经网络（RNN）的不断学习，研究者将大脑神经信号转换成了发音器官动作的信号，这些信号与发音器官的动作直接相关，比如嘴唇、下巴、舌头、喉咙等。Uhiednc

018ednc20190603 Uhiednc

第三步，虚拟声道。虚拟不同声音所产生的声道运动，就像汉语中双唇音、唇齿音、舌尖中音等所需要调动的不同发音部位一样，正常来说，如果模拟的发音运动模式和人正常说话时一样，那么所发的音也一定是一样的。Uhiednc

最后一步，就可以进行语音输出了。Uhiednc

为了测试虚拟语音的流畅性，研究者们在亚马逊的任务众包平台 Mechanical Turk 上招募听众来对这些合成语音的 325 个单词和 101 个句子进行辨认，结果大部分的单词和句子都被人们成功识别。Uhiednc

这意味着，不用动嘴，通过脑电波来实现语音输出，完全是有可能的。这对于中风、脑损伤或其他疾病而导致的语言功能障碍的辅助，将具有里程碑式的意义。Uhiednc

技术落地尚远，「脑机」仍需努力

相较于「字母表模式」，这项研究的优势是显而易见的。Uhiednc

首先，语音合成速度会得到大大提高。字母表模式下，比如通过眼动或者肌肉块儿的捕捉，每分钟能成功输出 10 个单词左右。对于正常交流而言，一分钟说 10 个字，一方面的确很不便，另一方面确实很考验人的耐心。而通过声道模拟语音，每分钟输出的单词可以达到 150 个，这与自然语言中每分钟 100-150 个单词已经几乎没有差别。实现正常人般的交流，可以说毫无压力。Uhiednc

019ednc20190603 Uhiednc

其次，相较于捕捉大脑信号对字母的感应，语音产生的机电信号更为强烈，也就更容易捕捉。所以，这在很大程度上可以缓解因信号识别缓慢而导致语音合成效率低下和患者焦虑的问题，更进一步而言，也增加了患者的接受度。Uhiednc

当然，作为一项尚未走出实验室的技术，它的缺陷也明显存在。Uhiednc

第一，人工智能识别的准确率和数据的丰富程度呈正相关。也就是说，利用 RNN 去进行学习破译脑电波信号并将其转化为发音器官动作的信号，要想实现较高的正确率，就需要大量的数据。目前的现实是，虽然语音输出的速度很快，但也只有一半的句子会被识别出来。就像说话的时候嘴里含着一口水，必然是会影响交流的感受和效率的。Uhiednc

第二，不同语言、不同方言之间的通用性很弱，即便是同一种语言，由于方言的差异性也会导致发音的时候各部位的运动存在着细节性的发音差异，会导致语音合成的混淆。比如在汉语中「六」的发音，不同地域之间的差别达到了二十多个。为一种语言建立一种样本？似乎有点过于繁琐。Uhiednc

所以，如果能找到一种更好的方法能够增强该技术的通用性尚可，如果仅仅停留在这个层面，其产品很可能无法走入寻常百姓家，而是成为显贵人群的私人订制。Uhiednc

研究者们自己也承认，声道运动和语音的最终形成是一个复杂的关系，目前该系统对合成较慢的发音比较擅长，对说话者的节奏和语调有一定的要求，距离最终的应用，仍然是有很长的一段路要走。Uhiednc

但不管怎样，这也应该属于脑机接口技术的一次重大突破了。试想在不远的将来，你只需要动动脑子，就会有准确无误的文本或者语音转化出来，人机交互将会变得多么顺畅而自然；而对于那些长期存在语言表达障碍的弱势群体而言，或许「福音」二字，已经远不足以表达其所蕴含的难以估量的价值。Uhiednc

（来源：微信公众号脑极体（ID：unity007），作者：小豪）Uhiednc

Uhiednc

阅读全文，请先

人工智能产业前沿传感器/MEMS

上一篇： OPPO首次实现了屏下摄像头，从其专利窥其设计难点 下一篇： 使用它或者转换它

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
为旌科技感算控一体化芯片落地，带来6倍效率提升？具身智能的本质是‘大脑（认知）+小脑（控制）+感官（感知）’的协同进化，需要芯片层面实现三者深度融合。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
情境感知AI：利用FPGA技术增强边缘智能现场可编程门阵列（FPGA）的灵活性、现场升级能力和互操作性，结合其低功耗、低延迟和并行处理能力，使其成为开发者克服挑战并优化情境边缘AI应用的关键工具。
ADAS 系统中的传感器创新如何在道路交通中挽救生命在本文中，我们将探讨 ADAS 在提高道路安全方面的作用，以及各种对实现这一目标至关重要的传感器技术。

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

把脑电波合成为语音，总共分几步？

让脑电波开口「说话」的前夜：先来打个字吧

把脑电波合成为语音，总共分几步？

技术落地尚远，「脑机」仍需努力