7月16日下午,搜狗公司CEO王小川在奇点大会上发表演讲,他围绕“人工智能”谈到了最近的思考和感受,并认为目前国内对人工智能的发展有所高估,应该有一些理性的反思。此外,王小川也结合搜狗的探索,谈到了他认为的人工智能的未来发展和应用方向。但在这场演讲中,最吸引眼球的则是王小川在大会上演示时,语音却可以实时转化为文字并上屏的技术。让小编带大家去深挖一下这一亮点技术是如何实现的,竞争对手及业内人士又是如何评价这一技术的呢?

内部员工揭秘

北京搜狗科技发展有限公司语音技术研究员的陈伟在知乎上表示,川总的语音实时听写服务主要是由他们团队完成的。

2016071800020

那语音是如何实时转化为文字并且上屏的呢?

据陈伟揭秘:麦克风实时采集的语音按照流式传输给后台识别服务,后台实时判断语音的起始点后将有效语音送至部署的解码器,解码器则进行语音特征提取,并在声学模型、语言模型的指导下,基于语音特征寻找最优的识别结果,当检测到语音结束后,解码器重置继续接收后续的语音进行新的解码,已解码完成的识别结果则由后台发送至显示设备完成上屏。 整个工作流程具体来看,与性能提升相关的两个部分主要是声学模型和语言模型,其中搜狗语音在声学模型上的积累是国内领先的,作为国内最早一批使用DNN进行声学建模的公司,我们也一直持续投入人力和资源进行基于深度神经网络声学建模技术的研究,目前已具备了DNN、RNN、LSTM、LSTM-CTC等建模能力,同时语音输入法积累了海量的数据更加便于我们进行模型的迭代和升级,本次演示我们使用了基于主流的LSTM-CTC的模型;而语言模型的技术则背靠了搜狗输入法还有搜索强大的NLP技术以及数据,可以快速高效的输出通用以及垂直类的语言模型,本次演示考虑到演讲背景,我们更多的去收集了科技类特别是人工智能类别的文本数据进行了模型训练,最后我们在已完成模型的基础上进行进一步的细节优化,最终得到了不错的识别效果。此外,在系统稳定性和效率方面,我们对语音识别服务进行了全面的升级,由之前线上语音输入法仅支持有限时长的服务架构升级成了本次演示支持任意时长、连续输入的架构,更好的推动了整个系统的快速完成。

竞争对手对响应速度以及准确率表示认可

知乎上标签为科大讯飞的用户“期待最大化”表示在王小川演示的时,他就在峰会现场。从现场表现来看,响应速度以及准确率方面都还是可以的。

他认为,做语音识别,主要有两个方面,一个是技术,也就是建模以及建网的能力,一个是语料,高质量大规模音频和文本。技术方面,声学上搜狗已经具备了LSTM等深度模型的建模能力,语言上主流的NGram+RNN也不是什么难事(RNN受训练速度影响可能跟新速度以及规模上不会太大)。语料上,搜狗有输入法以及搜索,语料,应该不缺。

此外,还有两个比较了不起的地方,第一个是任意时长解码,第二个是语音修改。说到语音修改,现场演示的时候感觉不是很顺,网络不好加上实际操作的那个女生也不是很熟练(这也说明产品体验上还有待提高),导致语音修改不是很顺利。当然,从当时王小川的比较笃定的语气以及敢于现场让人上来体验来看,说明对那个语音修改功能还是蛮有信心的。

业界人士说“算法上不算亮点”?

知乎用户剑桥大学自然语言处理(NLP)组的陈村说他们的小圈子里一直在讨论王小川的演讲。比较impressive的是其语音改写技术,和眼前一亮的live demo。 语音识别技术本身就不是那么高不可攀,自从13年微软用深度学习拔高沉寂多年的语音识别之后,这几年无论各大公司、实验室都在这个领域贡献很多,算法方面都差不多。而且语音识别领域一直有很优秀的开源框架,以前如我们剑桥的HTK(基于GMM + HMM),到现在JHU的基于Kaldi语音框架(基于深度学习),基本已经不需要从头开始造轮子了。所以从算法上来讲,语音技术能做到昨天Live Demo的效果也是情理之中,何况他们一定拿相关domain的数据去跟本次演讲相关的语言模型呢,进一步保证相关专业领域的关键词肯定不会识别错误 。

此外,他认为算法上不算亮点,但是有几点确实值得注意:

1、搜狗做了那么多年的自然语言输入法,在数据的积累上,应该不输给业界老大讯飞的,后生可畏。昨天王小川的演讲里提到说搜狗输入法有7%的用户会在输入法中调用语音识别,语音日均调用量有1.4亿 = = 这个数据真是令人吃惊,不过……毕竟搜狗输入法是亲爹……

2、搜狗一直说要做AI,这次亮相至少说明了他们已经组建了相当不错的人工智能团队了。不仅是语音识别,AI的各个相关领域,比如图像、语义、语音合成等,团队有了应该都不是什么难事。理论上不久的将来会有全套AI产品线,在输入法、甚至地图上面都有不小的想象空间。

昨天他们演示中有一个亮点“语音修改”,比如可以听“将弓长张改为立早章”,这倒是颇为让人兴奋。不知道这一段是否是钦定的呢,换一句是不是就挂了?有装了新版搜狗输入法的朋友可以试试“不是双木林,是王字旁加一个双目林的琳”!如果这也能行那就牛逼大了

现在风口就是语音交互,国外有Google Now、Siri、Amazon Echo,而且据我从各种来源得知国内还有很多厂商,或多或少的都像赶一下这轮语音AI的风口,甚至很多公司还不像搜狗这样有这么多年在输入法等相关AI领域的沉淀呢。从产品形态来讲,未来更多的将倾向于可穿戴设备、智能硬件上,比如手表(比如出门问问的Ticwatch)、智能音响(Amazon Echo、京东叮咚)、车载设备(思必驰的车萝卜)、甚至语音机器人。在这样的场景下,语音识别成为不可缺少的甚至是唯一的交互方式,这很可能成为移动互联网之后的下一个入口,这就从一定程度上来解释大家扎堆做语音交互。

我个人对语音交互是持非常谨慎的态度。语音识别准确率,应该已经达到了相当可用的级别,比如昨天搜狗宣称达到了97%。但是语义理解方面,尚未有一套令人惊艳的系统。现在的AI,仍然只能按照程序员预先定义好的指令来做,尚不具备学习能力。所以,人工智能,有多少人工,才有多少智能。在理解用户意图上面,尚且只能支持一些有限的集合的命令,更别说复杂的多轮对话、用户情感识别了!

这些技术上的问题不知道猴年马月才能解决,不过我个人认为这并不妨碍做一款优秀的可用的语音交互产品。比如Amazon Echo,它专注人工智能体验非常好,在美帝卖超过百万台。

作为一个AI技术从业者,我一直的观点是,技术上的难点,我们一直在努力突破,死磕到底。但与此同时,在产品上的优化,是否是更值得投入的、更快能够见效的low hanging fruit呢?比如,增加一个麦克风,就可以在嘈杂的环境下准确识别出说话人,增加语音识别准确率(Far-Field ASR);比如,增加打断技术,可以让人直接跳过繁杂的TTS,更快速的得到想要的答案;再比如昨天的搜狗语音搜索演示的语音改写,即使真的只是用简单规则写的,如果真的能够帮助80%的用户纠正他们的语音识别结果,那就是一个伟大的创新。