在的IFA2017上,华为如约发布了全球首款AI芯片麒麟970,引起业界波澜。

这款处理器是8核设计,采用10nm台积电工艺,集成55亿颗晶体管。对比之下,骁龙835是31亿颗,苹果A10是33亿颗。

麒麟970能效提高140%(相对于麒麟960来说),麒麟970的CPU能效提高20%,性能提高20%,功耗减少50%。

20170903kirin1

对于图像识别速度麒麟970是2005张/分钟,iPhone7 plus是487张/分钟,三星S8是95张/分钟。这主要是因为全球第一款NPU(网络处理器)移动芯片的加入。还有值得一提的是在摄影上面,麒麟970会使徕卡双摄更加强大。

除了 CPU、GPU、ISP、DSP、通讯基带,但麒麟 970此次的亮点在于多了一个所有同类产品都没有的东西——一颗为人工智能运算专门设计的 NPU。

我们分区看看这颗强大的SoC。

CPU、GPU:重点是降功耗

CPU 方面,麒麟 970 的参数相比麒麟 960 基本没有任何变化,依然是 8 颗核心,其中 4 颗为高性能的 ARM 公版 A73 架构,最高主频 2.4GHz(麒麟 960 是 2.36GHz),4 颗位低功耗的 ARM 公版 A53 架构,最高主频 1.8GHz(麒麟 960 是 1.84GHz)。

有些遗憾的是,麒麟 970 并没有用上 ARM 在今年 5 月发布的新一代 Cortex-A75、Cortex-A55 架构以及为 AI 相关运算优化的 DynamiIQ 设计(麒麟 970 选择了另一种方法来提高 AI 运算)。当然了,考虑到 A75 和 A55 的发布时间、设计的复杂程度,麒麟 970 没用上也是可以理解的。

20170903kirin2

余承东并没有透露麒麟 970 的 CPU 性能相比 960 的变化,只是表示麒麟 970 的能耗比提升了 20%(主要得益于全新的 10 纳米制程)。至于实际的性能表现,不出意外的话,麒麟 970 应该和麒麟 960 处于同一段位,不会有非常明显的提升。

当然,横向来看的话,麒麟 970 的 CPU 性能没提升其实不是什么大问题。从 GeekBench 4 等跑分软件的得分上看,麒麟 960 的分数和高通骁龙 835、三星 Exynos 8895 基本处于同一水准,明显强于联发科 Helio X30。因此,即使麒麟 970 的 CPU 性能不变,也依然是 Android 阵营里移动 SoC 的顶级水准,只是不再像麒麟 960 发布时那么领先。

相比起 CPU 上的保守,麒麟 970 在 GPU 上的‘诚意’要显得更足一些。

首先,麒麟 970 则用上了 ARM 在今年 5 月刚刚发布的 Mali-G72 架构,理论性能相比麒麟 960 上的 Mali-G71 有所提升(ARM 的官方说法是相比 G71 性能提高 20%,功耗比提升 25%)。此外,在核心数上,麒麟 970 的 GPU 也从麒麟 960 的 8 核增加到了 12 核。

20170903kirin3

实际性能上,余承东表示,相比起麒麟 960,麒麟 970 的性能有 20% 的提升,并且能效比提升了 50%。

照理说,由于麒麟 970 的 GPU 核心架构比麒麟 960 更先进,核心数还多了 50%,并且制程更先进,GPU 性能提升的幅度应该远不止 20%。之所以出现这种情况,很可能是华为将麒麟 970 的 GPU 主频压得比较低,从而更好地降低功耗(于是就有了提升幅度高达 50% 的能效比)。不出意外,麒麟 960 上出现的 GPU‘满血跑’时功耗感人的情况,麒麟 970 上不会再出现。

通讯基带:比‘千兆 LTE’更快

作为一家通讯行业有着多年积累的公司,华为海思在通讯基带上有着深厚的‘家底’,特别是去年的麒麟 960,直接在 SoC 中集成了支持 LTE Cat.12/13 的 Balong 750 基带(最大下行速度 600Mbps,上行 150Mbps),并且支持 CDMA 网络,丝毫不逊色同期的高通骁龙 820、821。

20170903kirin4

在今年的麒麟 970 上,华为海思更进一步,直接大跨步到了 LTE Cat.18,最高下载速度飙到了 1.2Gbps(4x4 MIMO,3CC CA,256QAM),也就是比之前业界最快、骁龙 835 和 Exynos 8895‘千兆 LTE’还要再快上 200Mbps。

麒麟 970 还终于支持了在同时使用两张 SIM 卡时,主副卡同时用 4G(上一代麒麟 960 的副卡只能支持 3G)。此外,麒麟 970 还特别针对高铁时的使用做了优化,信号更稳定,减少掉线。

不过话还是要说回来,虽然麒麟 970 的通讯基带的确是厉害,但和骁龙 835、Exynos 8895 等支持千兆 LTE 的 SoC 一样,普通用户想要真正体验到这种超高速 LTE 网络,还得过上相当一段时间。

一方面,超高速 LTE 网络需要运营商的支持,虽然目前全球不少运营商(包括中国联通)已经开始了千兆级 LTE 的测试,但距离大规模商用还仍需时日。另一方面,在手机端,除了需要 SoC 自身的基带支持,如果要支持千兆级的 LTE,手机厂商还必须在手机的天线设计上投入额外的精力,以搭载骁龙 835 的手机为例,在目前上市的众多骁龙 835 手机中,真正能支持到千兆 LTE 的只有三星 Galaxy S8、HTC U11 等少数国际品牌机型的部分型号。

ISP、DSP、Codec、协处理器

麒麟 970 的 ISP 主要是一些‘常规升级’,依然是双核设计,拥有更快的速度,更快地对焦,更优秀的降噪效果,并且对运动图像的捕捉做了优化。不过相比起单纯的 ISP 升级,NPU 对相机体验的提升可能会更大(下文会详说)。

20170903kirin5

在 DSP、配套 Codec 等方面,麒麟 970 也有所提升,其中配套的音频 Codec 可以支持 32bit/384k 的音频解码,过去几代华为高端机(Mate、P 系列)上表现乏善可陈的内放音质,有望在麒麟 970 这代产品上获得明显的提升,当然前提是 Mate 10 和 P11 系列还能保留 3.5 毫米耳机插孔。

另外,麒麟 970 依然搭载了 i7 协处理器(和牙膏厂的 i7 没啥关系),而 inSE(integrated secure element)和 TEE 安全引擎,在麒麟 970 上也都在。

在总线架构上,不出意外的话,麒麟 970 采用的应该是和 960 相同的 CCI-550。

10 纳米制程,比骁龙 835 还多的 55 亿个晶体管

制程上,不出意外,麒麟 970 用上了台积电(TSMC)最新的 10 纳米工艺,这应该是继苹果 A10X、联发科 Helio X30 之后,第三款采用台积电 10 纳米制程的移动 SoC。

通常来说,在芯片晶体管数量相同的情况下,更先进的制程可以降低芯片的核心面积,有助于降低成本,并且更加有效地控制发热和功耗。

台积电的 10 纳米制程可以降低 20% 的能耗,将芯片核心面积缩小 40%。不过有趣的是,麒麟 970 的核心面积并没有因为制程的进步而缩小,反而比麒麟 960 还要略大,这是因为麒麟 970 集成了高达 55 亿个晶体管,比麒麟 960 多出了 15 亿。

55 亿个晶体管是什么概念呢?大家可以参考几个数字。Intel 在 2014 年发布的拥有 18 个核心的至强 E5 CPU,也才内置了 55.6 亿个晶体管。在更具对比价值的移动 SoC 中,以‘堆料’著称的苹果 A10 拥有 33 亿个晶体管,高通骁龙 835 拥有 31 亿个。

需要说明的是,虽然晶体管数量对性能有一定的影响,并且通常是越多越好,但在芯片工艺、架构不同的情况下,我们是无法简单地用晶体管数量来判断性能的,尤其是在内部部件众多的移动 SoC 中。

NPU:首款内置在手机 SoC 中的人工智能芯片

终于到了麒麟 970 最特别的部分——NPU。

NPU 的全称是 Neural-network Processing Unit,也就是神经网络处理单元。关于这颗 NPU 的功能,大家可以简单理解为专门高效地进行 AI 相关计算定制的处理器,就像 GPU 之于图形处理相关的计算,ISP 之于成像相关的计算。

传统的 CPU(包括 x86 和 ARM)和 GPU 也是可以用来做深度学习计算的,但由于它们本身并不是专门为深度学习定制的,效率并不高。而麒麟 970 的这颗 NPU 采用了来自寒武纪(Cambricon)的 IP,专门为深度学习而定制,FP16 性能达到了 1.92 TFLOP,差不多是麒麟 960 的 3 倍(0.6 TFLOP 左右)。

在发布会上,余承东展示了一张在进行 AI 运算时,NPU 和 CPU、GPU 的对比。

20170903kirin6

可以看到,性能上,NPU 是 CPU 的 25 倍,GPU 的 6.25 倍(25/4),能效比上,NPU 更是达到了 CPU 的 50 倍,GPU 的 6.25 倍(50/8)。

另外,在华为内部的测试中,麒麟 970 的 NPU 每分钟可以识别出 2005 张照片,而不使用 NPU 的话则每分钟只能识别 97 张(这个速度应该是用 CPU 进行计算的),优势同样巨大。

至于这颗 NPU 具体能实现哪些特别的功能,我们还需要等到 Mate 10、Mate 10 Pro 上来揭晓。在发布会上,余承东提到了一些 NPU 在拍照方面的应用。

20170903kirin7

具体到拍照中,NPU 可以帮助手机更精准和快速地识别拍摄场景,让手机选择最合适的图像处理算法,在双摄背景虚化时,让手机对边缘虚化的处理更准确,还有最近很火的 AR 相机,NPU 可显著提高渲染的速度,降低功耗。

再比如说,有了 NPU 之后,手机可以将语音和语义识别的部分工作转移到手机本地,提高语音和语义识别的表现,提高手机中语音交互应用(比如语音输入法、智能语音助手)的体验。

值得一体的是,在发布会上,余承东还展示了‘开放移动 AI 平台(Open Mobile AI Platform)’,为 app 开发者提供了包括开发者网站和社区支持、开发套件以及自家的 app 分发商店在内的‘全套’服务,吸引开发者开发可以调用 NPU 性能的 app。

不过这里有个问题,这一套方案只是针对搭载麒麟 970 的华为手机的,并不是一个开放的平台,这意味着开发者即使写出来能调用 NPU 来实现某些强大功能的 app,也只能运行在仅有的几款华为手机上(短期内应该只有即将发布的 Mate 10 和 Mate 10 Pro)。

至于未来华为能吸引多少开发者来利用 NPU 开发支持自家 AI 平台的 app,现在来看还是个未知数,但至少在接下来的几个月内,恐怕更多地需要依靠华为自己的软件工程师来开发相应的 app。

20170903kirin8

在麒麟 970 上,华为探索了另外一种思路:在传统的手机 SoC 上,额外增加一颗专门为 AI 相关运算定制的芯片(NPU),让手机本身具备 AI 能力,完成一些和 AI 相关的应用。

至于这颗 NPU 到底能有多大的意义,我们至少还需要等到 10 月 16 日发布 Mate 10 和 Mate 10 Pro 后才能作出判断。

今年 5 月,ARM 在发布新一代 CPU 架构 Cortex-A75 和 A55 时,重点强调了提高 AI 运算能力的 DynamIQ 设计。今年 7 月,高通开放了自家的神经处理引擎(Neural Processing Engine,NPE)的 SDK,帮助开发者使用骁龙 SoC 进行 AI 相关的运算。

或许到明年这个时候,当我们在讨论移动 SoC 的时候,AI 芯片就会像 CPU、GPU 那样,成为智能手机中一个‘常规’的组成部分。

(部分内容整合自新闻稿、极客公园等)