用于人工智能的深度学习芯片

今年ISSCC的主题是“Intelligent Chips for A Smart World”,“人工智能”这个关键词几乎呼之欲出。2012年后,人工智能以Alexnet诞生为标志迎来了高速发展期。随着去年AlphaGO战胜李世石,人们对这轮人工智能大潮的期待又上了一个台阶。

这一代人工智能的主要技术是深度神经网络(DNN)。具体地,目前深度学习应用最火的领域是在计算机视觉领域,而该领域由于应用的特性(图片中特征的本地性),最适合的网络结构是深度卷积神经网络(DCNN)。最初,人工智能应用都是运行在CPU上,目标是评估深度学习模型的性能(预测/分类准确度等),运行速度并不是最关键的指标。然而,随着深度学习逐渐实用化,具体的硬件部署和运行效率变得越来越重要,毕竟如果一次人脸识别需要1分钟才能完成那么用户体验太差了。这时候,大家发现CPU已经不够用了,原因是CPU中太多的芯片面积用在了复杂的控制逻辑上,用于计算的单元其实并不多,而DCNN需要的是大量并行运算,其控制流并不复杂。因此CPU并不适合DCNN应用。AlexNet的部署中用到了GPU,可以说是深度学习硬件上的第一次革命。相比CPU,GPU中的控制流较简单,大部分芯片面积都用做运算,因此非常适合深度学习应用。而且,GPU使用SIMT(单指令流多线程)的架构,能够将内存访问延迟带来的影响降低到最小,从而实现高性能计算。

然而,GPU虽然能够减小内存访问延迟的影响,却不能减小内存访问次数。GPU每次访问内存都伴随着能量消耗,因此一旦内存访问次数多了,能量消耗就很大,这就使得GPU无法使用在对能量消耗约束较多的场合。为了能够普及人工智能,专用的ASIC势在必行。也正因为ASIC需要优化能量,所以机器学习ASIC的主要指标是能量效率OPS/W=OP/J,即单位能量可以实现的操作数。

机器学习ASIC在ISSCC上其实很早就有相关论文,例如来自韩国KAIST的Yoo组在近五年来一直在发表相关论文,但是之前机器学习往往是作为视觉SoC的一个特性,而不是最大的卖点,发表的论文也是以视觉SoC的名义。直到2016年,来自MIT的陈喻新在ISSCC发表了Eyeriss,深度学习加速器的概念一炮而红,天下群雄响应。Eyeriss明确提出了传统GPU方案的问题在于数据流中的内存访问太浪费能量并且会成为性能瓶颈,而DCNN算法中许多数据是可以复用的,因此优化数据访问是深度学习加速器的重要优化方向。Eyeriss的能量效率可达200GOPS/W左右,相对于GPU是巨大的进步。

002isscc20170227 Eyeriss架构图

在去年,Eyeriss发表的session名叫Next-Generation Processors,而在Eyeriss名震江湖后,无数人做了follow up,于是今年这个session干脆改名成了Deep-Learning Processors,因为大家都在做深度学习加速。今年论文的主要卖点仍然是数据流优化,除此之外还有计算精度优化。今年论文能量效率已经从去年Eyeriss的200GOPS/W进化到了2.9TOPS/W(STMicroelectronics),8.1TOPS/W(KAIST)甚至10TOPS/W(KU Leuven),照这么玩下去恐怕能量效率很快就会到瓶颈,接下来要做的优化就是要做差异化了。

003isscc20170227

同频全双工收发机

随着无线通讯技术的发展,各种应用对于带宽需求越来越高,频谱资源也显得越来越捉襟见肘。如何提高频谱资源的利用率?之前的FDM(频分复用)通讯协议往往需要给上行链路和下行链路分配不同的频段,那么有没有可能使用同一个频段同时做上行链路和下行链路,即全双工?如果使用全双工同频收发机,那么频谱资源利用率一下就翻倍了!

如果要做全双工的话,主要问题就是如何解决发射机(TX)和接收机(RX)互相干扰。TX的射频信号能量可以比RX接收到的能量高5-6个数量级,因此如果同时同频传输的话TX对RX的干扰问题不解决好RX这边一定就没法工作了。这个问题其实已经有不少人研究了很久,之前也有不同切入点的解决方案,例如UCLA Ethan Wang组的秦逝寒就利用时变传输线实现能很好地隔离TX/RX的全双工。另外的一条路则是利用较传统的射频系统(包括基于CMOS的射频电路以及标准的射频前端元件例如双工器)来实现全双工,这种方案往往使用电路系统,在RX链路合适的位置加入一个和TX干扰信号完全相反的信号来抵消TX的干扰。这条路主要先驱者是哥伦比亚大学的Prof. Harish Krishnaswamy。2014年ISSCC,Prof. Harish Krishnaswamy组的Jin Zhou发表了他们组第一篇使用干扰抵消技术的论文,引发了半导体行业极大的兴趣,来自学术界和工业界的同行们基于这篇论文做了许多后续工作,而Krishnaswamy组自己也继续做了不少改进。而也正是Krishnaswamy组这几年在ISSCC连续发表关于全双工TRX的高质量论文今年的ISSCC才会有这样的一个session,而发表第一篇论文的Jin Zhou也凭借着漂亮的工作顺利拿到了UIUC的教职。

004isscc20170227

今年该Session的三篇论文,分别来自于华盛顿大学(西雅图)的Tong Zhang,哥伦比亚大学Krishnaswamy组的Negar Reiskarimian和台湾清华大学的Yu-Hsien Kao。两篇是工作在传统2GHz以下频段的射频收发机,另一篇则是10GHz X-band的FMCW雷达。

毫米波/THz为主流接受

毫米波/太赫兹电路在前几年的ISSCC都有单独的session,但是今年却不再有单独的session。但是,并不是因为毫米波/THz电路不再受到青睐,而是这些电路被归到了TX and RX Building Blocks的session中(Session 17)。可见,原本这些电路因为工作频率较高而不被认为是常规电路需要单独的session,而在经过多年的努力并被主流半导体电路社区接受后,毫米波/THz电路今年进入了一个常规的session。

005isscc20170227 来自日本的广岛大学的论文展示了载波在300GHz,数据率高达105Gb/s的CMOS发射机,令人印象深刻。

GaN Driver电路

GaN是最近很火的器件,因为其卓越的性能得到了越来越多的应用,例如在高压电源管理,功率放大器等等。这次在ISSCC 2017,有了一个关于GaN的新session,即Session 25: GaN Drivers and Galvanic Isolators。

006isscc20170227

ISSCC今年新加的这个session说明了GaN正在获得越来越多的认可。有趣的是,该session中,GaN主要还是用在电源管理,尤其是设计高电压的电源电压转换电路。GaN由于很高的击穿电压以及较小的寄生效应,在高电压应用时可以做到损耗较小,目前已经有许多大厂(例如TI等)推出了相关产品。GaN在电源产品中将会得到更大程度的普及。而目前看来TI也是GaN领域的领先者,该session四篇论文中的三篇来自于TI。

(原文发表于公众号矽说,转载请联系作者)

20160630000123