深度神经网络就像遥远地平线上的海啸一样涌来。

鉴于该技术仍在演变的算法和应用,目前还不清楚深度神经网络(DNNs)最终会带来什么变化。但是,迄今为止,它们在翻译文本、识别图像和语言方面所取得的成就,清楚地表明他们将重塑计算机设计,而这种变化正在半导体设计和制造方面发生同样深刻的变化。

量身定制的第一批商用芯片将于今年上市。由于训练新的神经网络模型可能需要几周或几个月的时间,因此这些芯片可能是迄今为止制造的最大的,因此也是最昂贵的大规模商用集成电路芯片。

今年的行业可能会看到来自创业公司Graphcore的一款微处理器,该公司不使用DRAM,而是来自竞争对手Cerebras Systems的晶圆级集成开拓先锋。英特尔收购的2.5-D Nervana芯片已经在生产样片,其他十几个处理器正在开发中。同时,从Arm到西部数据(Western Digital)的芯片公司正在研究内核,以加速深层神经网络的推理部分。

“我认为(2018年)将是一场即将到来的派对。”加州大学伯克利分校名誉教授大卫·帕特森(David Patterson)表示:“我们刚刚开始看到许多公司正在评估一些想法。”

这个趋势非常明显,帕特森和合着者约翰·亨尼西(John Hennessey)在上个月发表的关于计算机的开创性文本的最新版本中,为它写了一个新的篇章。作者对内部设计提供了深入的见解,例如Patterson为其贡献的Google TensorFlow处理器(TPU),以及最新Apple和Google智能手机芯片中的Microsoft Catapult FPGA和推理模块。

“这是计算机体系结构和封装的复兴。” Patterson说:“明年我们会看到比过去十年更有趣的电脑。”

深度神经网络的兴起在过去几年里把风险投资的资金带回到了半导体领域。 “EE Times(电子工程专辑美国版)”最新推出的初创公司评选项目“Silicon 60”中,列举了七家初创公司,其中包括两个鲜为人知的名称:寒武纪科技 Cambricon Technologies(北京寒武纪科技)和Mythic Inc.(Austin,Texas)。

“我们看到基于新架构的新创公司激增。我自己跟踪了15到20家......过去10到15年中,在任何一个细分领域中半导体行业都不曾有超过15家的半导体公司同时涌现的事情”,企业家Chris Rowen说。他从Cadence Design Systems离职后,成立了一家公司Cognite Ventures,专注于神经网络软件。

“Nvidia由于其强大的软件地位,将难以与高端服务器进行训练的竞争。如果你去追求智能手机市场你会觉得自己疯了,因为你必须在很多方面都做得出色。不过在高端或是低端的智能手机市场,还是会可能有一些机会。”罗文说。

市场观察家Linley集团负责人Linley Gwennap表示,Nvidia在最新的GPU(Volta)方面做得非常出色,他们调整了对DNN的速度培训。 “但我当然不认为这是最好的设计,”Gwennap说。

Gwennap说,Graphcore(英国布里斯托尔)和Cerebras(加利福尼亚州Los Altos)是培训芯片最多的两家初创公司,因为他们筹集的资金最多,而且似乎拥有最好的团队。由Google前芯片设计师创立的初创公司Groq声称,它将在2018年推出一款推理芯片,在每秒的总操作和推论中都会以四倍的优势击败竞争对手。

012ednc20180129 英特尔的Nervana是一个大型线性代数加速器,位于硅中介层上,紧邻四个8-GB HBM2存储器堆栈。消息来源:Hennessy和Patterson著写的《计算机体系结构:一种定量方法》

Intel的Nervana,被称为Lake Crest(上图),是最受关注的定制设计之一。它执行16位矩阵操作,数据共享指令集中提供的单个5位指数。

与Nvidia的Volta一样,Lake Crest逻辑器件位于TSMC的CoWoS(衬底上芯片上芯片)中介层上,紧邻着四个HBM2高带宽存储器堆栈。这些芯片被设计成网状,提供五到十倍于Volta的性能。

虽然去年微软在DNN上使用了FPGA,但Patterson仍然对这种方法持怀疑态度。 “你为(FPGA)的灵活性付出了很多代价。编程真的很难,”他说。

Gwennap在去年年底的一项分析中指出,DSP也将发挥作用。 Cadence、Ceva和Synopsys都提供面向神经网络的DSP内核,他说。

虽然芯片即将问世,但是架构师们还没有决定如何去评估它们。

就像RISC处理器的早期,Patterson回忆说,“每个公司都会说,'你不能相信别人的基准,但是你可以相信我的',那不太好。

那时,RISC供应商在SPEC基准测试中进行了合作。现在,DNN加速器需要自己定义的测试套件,涵盖各种数据类型的训练和推理以及独立的或是集群的芯片。

听取了这个呼吁,交易处理性能委员会(TPC)是一个由20多个顶级服务器和软件制造商组成的小组,12月12日宣布已经组建了一个工作组来定义机器学习的硬件和软件基准。 TPC-AI委员会主席Raghu Nambiar表示,目标是创建与加速器是CPU还是GPU的测试。但是,这个团队的成员名单和时间框架还处于不断变化之中。

百度公司于2016年9月发布了一个基于其深度学习工作负载的开放源代码基准测试工具,使用32位浮点数学进行训练任务。它在六月份更新了DeepBench以涵盖推理工作和16位数学的使用。

哈佛研究人员发表的Fathom套件中定义的八个AI工作负载支持整数和浮点数据。帕特森说:“这是一个开始,但是要获得一个让人感觉舒适的全面基准测试套件,还需要更多的工作。”

“如果我们把努力做成一个好的基准,那么所有投入工程的钱都会花得值得。”他说。

除了基准之外,工程师需要跟踪仍在演变的神经网络算法,以确保他们的设计不会被束之高阁。

高通公司下一代核心研发总监Karam Chatha表示:“软件总是在变化,但是你需要尽早把硬件拿出来,因为它会影响软件 - 你不得不催促让它发生。到目前为止,移动芯片供应商正在骁龙SoC的DSP和GPU内核上运行神经网络工作,但一些观察家预计,它将为机器学习定制一个新的模块, 放在2019年7纳米骁龙 SoC里。

013ednc20180129 图文:高通公司展示了一个自定义DNN加速器的研究范例,但是现在它使用通用DSP和GPU内核的软件。 (来源:高通)

Patterson说:“市场决定哪种芯片最好。 “这是残酷的,但这是设计电脑让人兴奋之处。”

早期进入的玩家已经有机会进入到游戏中。

例如,Facebook最近证明,通过大幅增加打包到所谓批量大小的功能数量,可以将培训时间从一天缩短到一小时。对于试图在本地SRAM中运行所有操作的Graphcore来说这可能是个坏消息,消除了外部DRAM访问的延迟,同时也限制了它的内存占用。

“他们为小批量数据包而设计的,但几个月前的软件结果表明你想要一个大批量数据包。这表明事情变化的速度有多快,“帕特森说。

另一方面,雷克斯电脑(Rex Computing)认为正在迎来一个有利的机遇。该初创公司的SoC最初是为高性能服务器设计的,它使用了一种新颖的暂存器内存。 Rex的方法消除了在虚拟页面表中缓存数据的需求,这是GPU使用的一种技术,增加了他们的延迟,联合创始人Thomas Sohmers说。

因此,Rex芯片比现在的GPU要好得多,特别是在处理流行的矩阵/矢量运算神经网络时,他说。新创公司计划6月份推出16纳米的256核的SoC,希望能提供256 Gflops / watt的运算能力。

与此同时,研究人员正在尝试从32位到单位浮点和整数数学的一切可能,以找到最有效的方法来计算神经网络结果。他们似乎同意的一点是,最好不要在精确度级别之间转换。

未完待续......

一大波人工智能芯片将在2018上市 (中)

一大波人工智能芯片将在2018上市 (下)

延伸阅读:

寒武纪/华为/高通等十款AI处理器对比,谁更强?

那么多AI处理器,如何给他们跑个分?

编译:Mike Zhang

20160630000123