2015年的百度世界大会,主题是“连接人与服务”,人工智能只是一个不起眼的配角,李彦宏的演讲主题是“索引真实世界,连接3600行”。彼时,O2O的热潮已近尾声,但百度仍然抓着它的尾巴不放。随后,贴吧事件、魏则西事件,百度陷入舆论危机。

今天的百度世界大会主论坛,李彦宏和百度首席科学家吴恩达先后上台,演讲全部围绕人工智能展开,吴恩达更是开场即说,“大家知道,我们百度是一家人工智能公司。”

操一口港式普通话的美籍华人吴恩达呆在国内的时间不长,所以他不知道大家眼里的百度,其实是一家搜索公司和广告公司,但毫无疑问,他说出了李彦宏没有明说的心里话——从今以后,百度要把自己打造成一家靠人工智能安身立命的科技公司。

“人工智能对于百度来说,是核心当中的核心。”李彦宏说。

三年前的“百度大脑”就已经具备了两三岁孩子的智力水平。百度今天同时拥有超大规模的计算资源、中国最大的GPU集群以及国内最为丰富(如果不是之一的话)的搜索、图像、视频、定位数据,那么,百度今天的“大脑”已经成长到了什么水平呢?

以下为李彦宏演讲:

今年6月份,我在百度联盟峰会上讲了一个概念,叫做互联网的下一幕。下一幕是什么意思呢?就是说,互联网的发展在此之前已经经过了两个非常重要的阶段,第一个阶段大概持续了十几年的时间,就是我们讲的PC互联网阶段。第二个阶段是在最近四五年,我们把它叫做移动互联网的阶段。对于中国市场来说,随着上网人数越来越多,上网人口的渗透率越来越高,现在已经达到了七亿多,就是说已经超过了50%的渗透率,同时,每一个上网的人现在也基本都用上了智能手机。

这意味着什么呢?这意味着,未来互联网的增长不能再靠人口红利来驱动了,也就是说,移动互联网的时代其实正在离开我们。这可能是很多人觉得难以接受的。我们国家现在进入了所谓的新常态,经济的增长需要靠“互联网+”行动计划来推动,所谓“互联网+”就是希望用互联网的思维方式、互联网的效率来推动各个行业、产业的继续发展。但是,我们互联网的从业者其实又深深地感受到了这其中的危机,这个危机就是因为过去的粗放增长阶段已经结束了。

移动互联网之后的下一幕是什么?其实现在已经很清楚了,就是我们所说的人工智能。人工智能对于百度来说是核心当中的核心,我们也很幸运,在过去的五六年当中,百度花了很大很大的精力投入到人工智能的研发当中。人工智能对于百度来说意味着什么呢?我可以用简单的四个字来描述,就是百度大脑。百度大脑的概念我们其实在大约三年前就对外讲过。那个时候我们讲,百度大脑已经具备了大概两三岁孩子的智力水平了。自此以后,不断的有人来问我,尤其是今年人工智能突然火起来了之后,很多人来问我说,你们这个百度大脑现在相当于多少岁人的智力水平了。

要回答这个问题其实还蛮难的,我也不知道它现在是多少岁了,因为毕竟人脑和电脑它还是有很大的区别,百度大脑虽然是一个人工智能的大脑,但是它和人正常的发育的过程还是很不一样的。

百度大脑到底由什么构成的呢?它基本上是由三个大的部分组成的。第一个组成部分,就是人工智能的算法。我们有超大规模的神经网络,这是模拟人的神经元组成的网络,但其实我们也不知道真正人脑工作的原理是什么,只是想象当中应该是这个样子。我们还使用了万亿级的参数,人脑的神经源大概是千亿级的,我们也有千亿的样本和千亿的特征进行训练。整个这些东西组成了百度大脑当中算法的部分。

百度大脑的第二个组成部分是计算能力。现在我们已经使用了数十万台的服务器来进行计算,而这当中很多的服务器不是传统基于CPU的服务器,而是基于GPU。早年的时候,GPU主要在游戏等领域使用得比较广泛,在人工智能、尤其是深度学习起来以后,我们发现,其实GPU特别适合人工智能的计算,尤其是深度学习的计算,一块GPU可以顶100个CPU的计算能力。有关GPU的事情,我之后会请一位外部的嘉宾,就是NVIDIA的创始人和CEO黄仁勋先生,让他给大家介绍更多有关GPU的,尤其是在人工智能领域应用的情况。

百度大脑的第三部分是数据。数据也非常非常重要,而且这个数据量也是非常大的。比如说,我们已经收集了全网上万亿的互联网网页内容,这其中包括了很多视频、音频、图像,这些数据也是数以百亿级的。我们还有每天数十亿次网民的搜索请求,而且还有每天数百亿次的网民定位请求,就是说这个人在什么地方,这样的请求也比大家想象得多,每天都有好几百亿次这样的定位请求。

2016090200014

有了算法,有了计算能力,有了数据,百度大脑就可以开始工作了。百度大脑又到底有什么样的功能?让我们来看一看。

我们今天想重点介绍的四个功能:一个是语音的能力,一个是图像的能力,一个是自然语言理解的能力,还有一个就是用户画像的能力。这几个能力虽然都是属于人工智能中比较典型的应用,但是它的发展阶段也是很不一样的。比如说语音,现在就已经进入了相对比较成熟的阶段,在很多很多领域中都开始进入实用阶段,识别的准确率也已经很高了。图像最近几年也有了长足的进展。这两者都属于人工智能当中认知的部分,所以深度学习的算法非常适合处理这些形式。

相对来说,自然语言的理解、或处理能力就更加难一些,并处在一个更加早期的阶段,因为它除了认知方面的能力之外,还要求有推理、规划等等能力,才能够真正地理解自然语言。用户画像的能力,其实从传统意义上来讲并不是人工智能的领域,但是由于近年来大数据的发展,尤其是大型互联网公司有能力搜集很多用户的数据之后,再用人工智能的方法、用机器学习的方法,就可以把一个人的特征描绘得非常非常清楚。所以今天,用户画像也变成了人工智能、或者说变成了百度大脑的一个重要功能。

下面我就分别来讲一下这几个功能,这几个百度大脑的功能。

第一个语音已经进入相对成熟的阶段。

百度大脑的语音识别已经到了第二代,使用深度学习的技术进行语音识别。百度语音识别的准确率能够达到97%,已经超过了人对语音的识别能力。

这样的能力到底可以在什么地方帮助到我们?举个例子,很多公司都有自己的电话销售部门,这个行业人员流动性很大,而销售人员需要长时间培训才能上岗。即使是经过培训,甚至有一定经验的销售人员,每个人销售效率也是参差不齐的。但是通过百度语音识别能力,一个新的销售上岗的第一天,就可能掌握他所获得的最优秀的销售能力:

新销售打电话给潜在客户的时候,客户每说一句话,客户每问一个问题,百度大脑都实时地识别了问题,并且显示在销售的电脑的屏幕上,屏幕上不仅实时展示了客户的问题,而且实时地把最优秀的销售是怎么回答这个客户的问题也展示在这个屏幕上。这样,新的销售的工作就简单多了,其实他基本上可以照着屏幕念,就能够达到最优秀的销售的话术水平。

语音识别还有很多应用场景,大家可以根据自己的行业背景去想象。

语音能力分为两个方向,语音合成和语音识别。

语音合成是把文字转换成语音,用自然人的声音读出来,而不是以前的匀速无表情的语音。目前,百度每天响应的语音合成的请求达到了2.5亿次。在情感语音合成技术上线后,用语音听小说的百度用户从过去平均每天听0.69小时,增长到现在的2.21小时。

今天,语音合成还可以根据个人需求进行定制,形成自然发声的能力,模拟任何一个你喜欢的人的说话方式。百度地图中有一个李彦宏导航语音包,其实我并没有说过那些话,就是根据我日常的语音合成的。

我们现场合成一下13年前去世的张国荣的声音。合成张国荣的声音比较难,国语的语调比较少。以张国荣在影视、电台等留存下来的原声进行建模,通过情感语音合成技术实现合成。

任何一个人只要用30分钟按照要求录制50句话,就可以用百度大脑的语音合成技术模拟出来这个人的声音。人人都可以拥有自己的声音模型。

第二个图像识别能力是如何实现的?

一个比较专业的术语来讲,我们叫做计算机视觉。这也是现在广义的人工智能中非常重要的领域。说到图像的识别,我想大家自然而然会反应出来一个什么应用呢?应该就是我们通常讲的人脸识别的应用。人脸识别的准确率今天已经达到了99.7%,已经非常非常准确了。现场的屏幕能够识别出来我们一些嘉宾,根据他们的人脸,我们知道这个人是谁,这个准确率已经比较高了。刚才进来的时候,大家也可以看到一些人脸识别的展台,我们是可以识别很多很多人的面孔的。

那么,人脸识别这个技术是怎么实现的?我们要对人脸的特征提取它的关键点,把这些点打出来之后要做一些处理,把它连成一个面部表情,据此来识别这样一个人。这就使得当一个人的表情发生变化的时候,我们仍然能够识别出来这个特点是没有发生变化的,比如他在哭,他在笑,他在愤怒,他在迷茫,他的表情是不一样的,但是他的表情特征是不变的,所以我们仍然可以很准确地识别出这样一个人。

除了面部识别之外,图像识别还在很多领域也有应用。我们再看一个,这是上海的一个全景图,大家使用百度地图有时候需要看这样一个景,到一个陌生的地方之前,想看看到那看到的样子是什么。当然,这个图不是一个简单的图像的采集,我们采集了图像之后要对图像中各种各样的目标进行识别,这个大楼是什么样的大楼,那个路牌上面写的什么字,对写的这个字识别的话,跟人脸识别还不太一样,这里面有一个特殊的图像识别的技术就是OCR,这个是二十多年前我们的一个专利,到今天它的准确率已经非常高了。

还有一个很重要的领域也是非常需要图像识别的技术,这个领域是什么呢?这就是我们过去一年来讲得比较多的无人驾驶汽车。无人驾驶汽车涉及到很多很多的技术,比如说我们需要计算机视觉的技术,需要高精度地图,需要对环境的感知,需要定位,甚至需要语音的通话。但应该说,计算机视觉或者是图像识别的技术是“最后一公里”,无人驾驶汽车真的要变成没有人,真的要能够解决99.999%、甚至100%的情况,最终还是要依靠计算机视觉的能力,要识别各种各样的极端的情况。

过去一年,百度花了不少精力提升百度无人车在城市道路的运行水平。百度无人车在行驶过程中,通过感知,可以探测到路面上车、路标以及各种各样的障碍物,每个物体有一个独特的编号,便于车对它进行识别。这个车的识别是通过百度大脑来识别的。今年8月份KITTI评测的最新成绩显示,百度无人车在车辆检测中排名第一,车辆跟踪6项指标中取得4项第一。

下一个是增强现实,广告主可以把现实产品和希望展示的场景联系起来展示给消费者。欧莱雅与百度合作,拍洗发水就可以准确识别并和用户互动。

第三种是自然语言处理能力,目前发展程度不如图像识别。

去年在百度世界大会上推出的度秘,是一个个人智能的助理。这个个人智能助理今天我们可以在手机百度里面找到,度秘跟用户进行交互,现在已经有超过一半的交互是通过语音和图像来完成的。度秘除了它能够识别语音和图像之外,其实它更关键、更核心的技术,是能够用人的语言来与人进行交流,并且能够理解人的很多意思和意图,尽管不是每一次都能理解。

现在度秘和用户进行沟通的方式和传统的搜索已经很不一样了,有56%是通过语音或者图像来完成的,语音和图像的交互正逐步超越传统文字的使用频次,成为人们表达需求的主流方式。

除此之外,更核心的技术是用人的语音进行交流,虽然不是每一次度秘都能理解。今年奥运期间,百度机器人度秘搭档知名解说员杨毅,进行里约奥运男篮首场四分之一决赛解说。

杨毅评价度秘:显然度秘比之前和它一起说的时候完成得更好了。其实我跟它说的时候,它的表现就是出乎我的预料的,我也听说它学习过上百场甚至上千场的比赛,它对比赛的基本知识储备是没问题的,在这个行业里面,它可能比我知道得还多,因为几年前的比赛我可能已经忘了,但是仍然装在它的电脑里。上知天文,下知地理,什么都明白,它的表达也是比较清楚的,在我跟它说的时候,我觉得只有一个小小的问题,我觉得它说话的速度确实是好慢。但是大家刚才看到,它说决赛的时候能明显感到语速加快了,更符合体育竞技的特点,更快速地将现场的情绪传达给观众。

最后一个用户画像能力。

用户画像也是基于百度的大数据以及机器学习的方式所获得的一个能力。现在我们已经有接近10亿的用户画像,其中对于他们的识别我们已经用到了千万级的细分标签。这些标签主要在两个维度上体现,一个是通用的维度,它的人口学特征、短期的意图、位置属性;也有一些垂直行业的特征,他在金融领域是什么样的情况,它在保险、医疗、旅游、健康等领域都有什么样的爱好、习惯,这些东西都共同构成了我们的用户画像。

通过大量的用户行为数据,百度大脑能够描绘出著名演员胡歌的粉丝群体的基本特点。胡歌粉丝群体的画像我们从兴趣和偏好的角度来看,其实在影视、音乐、公益、旅游、出行。我们看到这里面最大的一个特点还是旅游出行,而不是影视音乐,还是跟常人的思维不太一样。

6月份上映的电影《魔兽》,它的出品人是传奇影业,他们就是利用了百度大脑的用户画像功能来提升它的票房。那么它是怎么做到的呢?

它把人群分成三类,一类人是不管怎么样都要看的,另外一类是不管怎么样都不会看的,这两种人他们都不太关心。它关心的是它可以影响的人群,再通过用户画像把这些人从摇摆的转换成真正去电影院看的。(原来)他认为如果有5%的票房提升就很满意了,最后实际上提升超过了200%。当然这不是简单的说百度你给我用户画像,它一用就实现了提升,他们也下了很大的功夫去设计整体的推广过程。