被寒武纪和阿发狗带起来的“神经网络处理器NPU”,这几天因为中星微的“星光智能一号”的发布,又再度拉出来被消费一次。(还不明白神经网络的请戳 七个问题带您读懂神经网络处理 补课)

相信一定有很多人在迷茫:深度学习,应该还是有闲钱的公司投资做前沿开发,或是研究员发论文寻资金,真的这么快就能带来实际商业价值吗?

中星微这次推出的NPU VC0758号称采用“数据驱动并行计算”架构,比在传统的冯诺依曼架构上“至少提高了两三个数量级”(几百倍),特别擅长处理视频、图像类的海量多媒体数据。该NPU每个 NPU 具有 4 个内核,可以支持 Caffe、TensorFlow 等多种神经网络框架,支持 AlexNet、GoogleNet 等各类神经网络。。

20160622000013

NPU:国内外的研发现状

本土神经网络处理在寒武纪的出现时引发了公众兴趣——当然也有人质疑寒武纪这种科研所出来的东西产业化道路不明确。另外在ICLR大会上,与谷歌DeepMind同获“最佳论文”奖的深鉴科技专注于深度学习处理器与编译器技术,据称其而第一批产品,将会基于FPGA平台。

国际玩家包括Intel(近几年来收购了Indisys、Xtremeinsights、Altera、Saffron等相关的好几家人工智能或芯片公司)、图形处理方面的nVidia(应该是最成熟的毕竟目前主流DL目前都是GPU),推出相应IP的synopsys/CEVA等,已有推出商业化产品的IBM等。

知乎网友薛矽指出,“如果不局限在「专用」这点(单一专用的一颗)上的话其实之前就已经有很多芯片厂商开始涉足深度学习或者说神经网络芯片,并且已经有产品投入市场了。”

他提到了MTK未来IC研发就包含了这方面的应用,最近发布的十核Helio X20中就有深度学习相关的SDK,高通用在骁龙820之中的“Zeroth”平台,大疆的新款无人机Phantom 4 中用到的Movidius大疆的新款无人机Phantom 4 中用到的Movidius等已经试水。

IoT、汽车自动驾驶、机器人等应用是深度学习的目标市场,目前来看,更多的以图像处理为主。

智能手机处理器目前则处在运行强大神经网络软件的临界点,高通在将其下一代骁龙智能手机处理器和一个软件开发工具包发送给手机制造商,以让他们能使用神经网络实现自动图像标注功能。

今年ISSCC的Session14: Next Generation Processing中的7篇文章里有6篇是以Neural Network Accelerator为主题的。

知乎网友江城雨认为,现在看来有两类工作通往深度处理器:一类是从传统并行化和计算视觉/影像的角度开始的,GPGPU、各家的视觉与影像加速器包括Freescale/Movidius等等都是这种类型,强调并行化,多个指令集单元。

另一类是专门为深度学习优化的比如Diannao系列和TeraDeep等一系列各家followup上来的工作。主要强调适应大规模神经网络需要,强调体系结构差异。主要思路是存储结构贴近网络结构,减少大规模数据移动的开销,定义专用指令集使得可以适应不同网络结构及一系列机器学习通用计算(比如PuDiannao)的需求。

再回到中星微的NPU,这款基于深度学习的芯片运用在人脸识别上,最高能达到98%的准确率,超过人眼的识别率。该芯片于今年3月6日实现量产,目前出货量为十几万件,根据官方新闻稿判断,主要应用应该是视频监控领域。