百度发布AI同传，有哪些核心技术？-EDN 电子技术设计

 在10月19日的百度大脑行业创新论坛的现场上，出现了百度的AI同传。百度AI技术生态部总经理喻友平在演讲时，左右两边的屏幕上实时呈现了中英文字幕，从现场效果来看，语音识别的准确率很高，实时的机器翻译也做得不错，顺利支持了整个演讲。

上个月，由于科大讯飞“AI同传造假”事件，AI同传被推上舆论的风口浪尖。不过，这件事显然并没有影响到AI同传技术的发展。hpGednc

在10月19日的百度大脑行业创新论坛的现场上，出现了百度的AI同传。百度AI技术生态部总经理喻友平在演讲时，左右两边的屏幕上实时呈现了中英文字幕，从现场效果来看，语音识别的准确率很高，实时的机器翻译也做得不错，顺利支持了整个演讲。hpGednc

24日下午，百度正式宣布推出了一款人工智能工具，可以实时将英语翻译成中文和德语，以挑战谷歌的竞争产品。hpGednc

百度AI同传核心技术

AI同传的核心技术是语音技术和机器翻译技术，机器同传利用语音识别技术自动识别演讲者的讲话内容，将语音转化为文字，然后调用机器翻译引擎，将文字翻译为目标语言，显示在大屏幕或者通过语音合成播放出来。hpGednc

在机器同传领域，百度联合语音技术、机器翻译技术，从语音识别、翻译质量、时延、融合领域知识等四大方面推出了“一揽子”解决方案。hpGednc

1）高质量语音识别系统hpGednc

百度语音识别是采用的基于Deep Peak 2的中英文混合建模，包1749个上下文无关中文音节和1868个上下文无关英文音节；区别于传统的都采用上下文相关建模，基于Deep Peak 2的中英文混合建模采用的是上下文无关音素组合的建模单元，该建模单元具有数量少、泛化性能好、对噪声鲁棒等特点。具体而言，百度采用如下三个步骤实现上下无关音素建模单元的构建：hpGednc

1、基于“协同发音”的一级切分，发音和听觉领域知识check，刻画“协同发音”导致的音素黏连物理特性；hpGednc

2、基于“统计共现”的二级切分，中文N-Gram的分词方案，同等黏连下等价于中文分词；hpGednc

3、基于数据驱动的“中英文音节”绑定和多发音标注方案，解决“B超”和“必超”、“大地”和“大D”类的问题。在模型结构方面，我们采用底层CNN+多层LSTM+一层DNN的模型结构，并且采用CTC作为优化准则。该方案很好的解决了实际场景中遇到的中英文混合场景，同时能够保持中文性能不降低，在国际化沟通日益频繁引入的中文中混合有部分英文短语的场景得到良好解决。hpGednc

028ednc20181025 hpGednc

据了解，目前，语音识别技术已经基本成熟，各家的语音识别能力相差不大。AI同传的技术难点在于机器翻译如何实现实时翻译，以及当语音识别出现错误时，机器翻译如何能够容错。hpGednc

人工智能领域，两种语言的“即时互译”是一项难以攻克的技术问题，其主要原因在于源语言和目标语言之间存在较大的词序和语序差异。百度研发了具备预测能力和可控延迟的即时机器翻译系统，可实现两种语言之间的高质量、低延迟翻译。这是自然语言处理方面的重大技术突破，将对机器即时笔译和口译的发展起到极大地推动作用。hpGednc

2）高鲁棒性翻译模型hpGednc

百度提出了“语音容错”的对抗训练翻译模型，大幅提高了翻译系统的鲁棒性。一般的翻译模型训练，数据质量越高越好。百度提出的模型反其道而行之，根据语音识别模型常犯的错误，在训练数据中有针对性的加入噪声数据，使得模型在接受到错误的语音识别结果时，也能够在译文中纠正过来。hpGednc

与传统的方法“伪造”噪音数据不同，百度模型的创新之处在于针对语音识别系统易犯的错误产生噪声数据。比如，语音识别系统将“大堂”错误的识别为“大唐”，那么这就作为一对噪声词放到训练数据中，将源语言句子“我们在酒店大堂见面吧”替换为“我们在酒店大唐见面吧”，而保持目标语言翻译不变“Let's meet at the lobby of the hotel.”。并将这两个句子同时用于训练。这样得到的模型对于语音识别具有更强的容错能力。实验结果表明，在中英方向上，该模型甚至达到与正确文本（意味着由语音识别造成的错误基本被修正相媲美的效果。hpGednc

3）质量与时延的平衡hpGednc

为了降低时延，人类译员通常对演讲内容进行合理预测。百度团队借鉴人类同声传译员的灵感来应对这一挑战。然而，与人类译员不同，该模型并不预测说话人讲话中的源语言单词，而是直接预测翻译中的目标语言单词，更重要的是，它把翻译和预测融合在一个统一的“wait-k words”模型中。在这个模型中，在等待讲话者开始后的第K个字，就开始翻译。模型在每个步骤使用源语句的可用前缀（以及到目前为止的翻译）来决定翻译中的下一个单词。在上述例子中，考虑到汉语前缀“布什总统在莫斯科”和迄今为止的英译“President Bush”在汉语后面k=2个词，系统精确地预测下一个翻译词是“会见”。在演讲者还没有说出汉语动词之前，系统预测到布什很可能在莫斯科“遇见”某人（例如普京）。正如人类口译员需要事先熟悉说话者的话题和风格一样，该模型也需要从大量的训练数据中进行训练，这些训练数据具有相似的句子结构，以便以合理的准确性进行预测。hpGednc

该模型一个显著的优点是其具有可调节性，达到质量和时延的平衡。用户可根据需要指定所需的延迟时间（比如，延迟一词或延迟五词）。如果是法语和西班牙语这种比较接近的语言，延迟可设置在比较低的水平，因为就算是逐词翻译的效果也很好。但是，对于英语和汉语这种差异较大的语言，以及英语和德语这种词序不同的语言，延迟应当设置高一点，以获得更高的翻译质量。hpGednc

4）融合领域知识hpGednc

人类同传译员在接到一个同传任务时，都会做大量的功课，掌握所译领域的术语词汇、表达方式等。然而留给同传译员准备的时间却很有限，一般仅有几天的时间，在一些术语量大、晦涩难懂的领域，对人类译员是一个极大的挑战。hpGednc

与人类同传准备过程类似，如果能将所译领域的资料提前教给自动同传系统，那么整体的翻译质量将有非常大的提高。模仿人类同传的准备过程，百度提出了快速融合领域知识策略。hpGednc

029ednc20181025 hpGednc

该策略原理如下：依托百度海量的互联网大数据，首先训练得到通用的翻译模型，该模型具有通用的翻译能力；进一步的，如果接到某一个领域的同传翻译任务，该系统收集领域数据并在通用模型的基础上进行增强训练，得到领域增强模型，在该领域翻译质量上超过通用模型；最后，将该领域术语库加到解码过程进行强制解码，使得术语翻译准确可靠。在多个领域的实验表明，领域优化后的系统可以稳定的获得6个百分点以上的BLEU值提升。（BLEU值是机器翻译领域国际通用评估指标，通常1个百分点的提升即被认为是显著提升）。hpGednc

该方法模拟人类同传准备过程，且优势明显，准备过程短，只需要将领域数据在通用模型基础上进行训练，数小时即可得到优化后的模型，术语词典生效时间更是缩小到秒级，大大提升了效率。hpGednc

030ednc20181025 hpGednc

AI同传与人工同传共存

在百度看来，在未来多年里，机器和人类即时翻译员将同时并存。人类翻译员的专业服务仍将存在大量需求，特别是需要连贯、精准翻译的高端场合。即时翻译的需求很高，但人类翻译员却十分紧俏。因此机器的介入，能让即时翻译服务更加普及。该技术可打开实现会议即时翻译、隐藏字幕等多种应用的大门，在即将到来的百度世界大会上也将现场展示。hpGednc

目前的技术，机器同传离人类专家的水平仍然有较大差距。尤其是在重要会议如外交、商务等场合，必须依靠人类同传高质量、专业的翻译完成。现阶段，机器同传可以作为人类同传的辅助手段或者有效补充，例如有大量的会议，聘请专业同传费用太高或者没有相关领域的同传译员，此时可以借助于机器同传完成。会议举办方、演讲者、听众充分认识到机器同传的优势和局限性，容忍机器犯错，就可以达成共识，促进交流。hpGednc

（节选自雷锋网，作者李诗）hpGednc

每当有一种功能的机器投入使用，就会有相应职业的人事业

阅读全文，请先

上一篇： 匠·见初心，一家国内测试测量厂商的二十年工匠之旅 下一篇： 马化腾提问哪些基础科学突破会影响未来互联网，网友们这样回答

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

百度发布AI同传，有哪些核心技术？

百度AI同传核心技术

AI同传与人工同传共存