2017年7月26日下午两点,小米公司在北京召开了2017年度大型发布会,这次发布会上会有“重量级”产品亮相,分别是MIUI9、小米5X、小米6银色探索版和小米AI音箱。

小米AI音箱名为“小爱同学”,它采用了360度远场语音控制,不仅能在线听音乐,还可以成为你的智能管家,有了它就可以通过音箱来给家中所有小米的产品下达指令,一句话的事儿就可以控制家中的一切。功能如此强大的小米AI音箱的价格也同样亮眼,仅售299元。

036ednc20170727

小米AI音箱沿用小米一贯的纯白色简约设计,外形小巧,高度21.16厘米,宽度和厚度均为8.8厘米,重636克。音箱顶部隐藏着环形阵列的6组高精度数字麦克风,360度收音;采用波束成型技术,能够有效屏蔽干扰,实现远距离声控,使得你在房间任意方位,都可以通过语音唤醒音箱。

小米推出水滴计划,向第三方开放人工智能语音能力SDK,这将让小米AI音箱不仅仅能够替你“百度”、听歌、管理家中的小米设备,还将拥有越来越多的技能。小米公司创始人王川表示,人工智能是一个垂直分化的时代,小米希望能融合各家所长,一起把人工智能服务真正做起来,而这其中也包括用户的智慧。因此他宣布了小米AI音箱的养成计划,将在8月开启1元公测,寻找1000名AI训练师陪伴小爱同学成长发育,在AI训练计划中,用户可通过设置提问和回答,让小爱同学变得更加聪明。

为了仓促上线,小米音箱“借鉴”了Amazon Echo

而根据官网的说明,水滴开发平台的主要作用是帮助开发者将自己开发的语音技能运行于可以落地的小米生态链硬件产品中。即为“小米AI音箱”提供更多技能。在水滴平台上,提供了开发所需的相关工具,文档和代码示例。

但在其中闪讯技能开发文档的“音频”示例代码中,出现了Amazon.com的字样。可能是由于文档使用了Amazon的文档,但没有替换干净。

这并不能证明小米音箱“抄袭”了Amazon Echo,因为使用同样的文档有利于开发者迁移自己的应用。

但这至少说明了小米为了仓促的上线,部分使用了Amazon Echo的开发文档。

国内智能音箱日渐清晰的两条本土化之路

智能音箱显然是远场交互的起点,但一定不是远场交互的终点。所以探讨智能音箱的下一步的时候事实上需要分开看音箱本身的发展和远场语音交互的发展。

以智能音箱而言,国内日渐清晰的是两条不同的本土化方式:

034ednc20170727

一条是小米的299路线,这条路线强调的是音箱属性,打的是低端蓝牙音箱市场。价格一定会一路走低,而价格策略一定,核心考验的就是上面说的声智科技这样的硬科技公司到底能不能提供超越已有上市产品的体验,并且持续提高。所以小米AI音箱很可能进入一种体验提升,但价格下降的快车道。不过即使乐观估计这个过程也并不会像陌陌这类App成长的那么快,而很可能需要像亚马逊那样的一个产品打磨周期。

小米这款音箱一出,其它的同品类产品如果找不到自己的像声智科技这样的硬科技公司配合,那机会就会变得非常渺茫 。下面是当前同类产品的一览表,即使体验相同其它产品显然也机会不大,何况从实测来看小米AI音箱体验还是要超出同类产品一截。

另一条路线则是和电视盒子结合。相当于打的是盒子升级的市场。这在技术上其实更难,对声学和交互精度上会提出更高需求。

当产品遇上硬科技

我们都知道科技可以创造价值,比如很多芯片公司都自嘲自己是给ARM打工的。但之前可能很多公司估计没有预料到科技创新这次会以这样的形式来创造价值---大幅的拉低了产品的价格。

Echo开辟的智能音箱架构里,麦克风阵列板、主板和功放是分离的,这样做一个比较核心的原因是采用了模拟麦克风后,相应的A/D等就会占掉一定的空间,所以不太方便做进一步的简化。

而对这样的硬件结构一个显然的优化办法是使用数字麦克风,这时候麦克风阵列板基本上可以优化掉,就可以把三块板子优化成一块。这样的整体成本会下降,但核心问题是数字麦克风出来的信号质量会比模拟麦克风差一些,这时候为了保证效果,就对算法端提出了更高的要求,比如唤醒、Beamforming、降噪、回声抵消、去混响等都需要做更多的优化。 在小米这个案例中具体肩负起解决这部分问题的合作伙伴是声智科技。这类公司基本上可以定义为硬科技公司。很多人可能并没意识到声学算法和经常说的其它各种算法的差异。很多经典数值和非数值算法,甚至包含深度学习本身更多属于Computer Science领域。为了做好这些算法科学家们并不需要反反复复的做实验,采集数据,修改硬件参数。

但声学算法则通常横跨两个领域,既要用到CS中各种算法(比如唤醒的实现),也要在实验室中反复的测试打磨。小米AI音箱这个例子里比较彻底的凸显了这种硬科技公司的价值,正是双方的紧密配合才打造出了这种对市场走势可能有关键影响的产品。但其实故事还没完,一旦产品获得了大量用户,随后就会衍生各种新特征上的需求,比如通话、比如环境监测、比如声纹识别。所有这些最终都可以转化为新的产品体验。

做产品的公司一旦和这种硬科技公司找到完美的合作模式,变革的速度确实就会不断提升。

20160630000123