广告

清华造人工神经网络芯片,忆阻器阵列效能高过GPU两个数量级

2020-02-26 网络整理 阅读:
清华造人工神经网络芯片,忆阻器阵列效能高过GPU两个数量级
该存算一体系统在办理卷积神经网络(CNN)时能效比前沿的图形办理器芯片(GPU)高两个数质级,可以说在一定程度上冲破了“冯诺依曼瓶颈”的限造:大幅提升算力的同时,实现了以更小的功耗和更低的硬件成本完成复杂的计算。

近日,清华大学微电子所、未来芯片技术高精尖创新中心钱鹤、吴华强教授团队与合作者在《自然》在线发表了题为“Fully hardware-implemented memristor convolutional neural network”的研究论文,报道了基于忆阻器阵列芯片卷积网络的完整硬件实现。w5jednc

该存算一体系统在办理卷积神经网络(CNN)时能效比前沿的图形办理器芯片(GPU)高两个数质级,可以说在一定程度上冲破了“冯诺依曼瓶颈”的限造:大幅提升算力的同时,实现了以更小的功耗和更低的硬件成本完成复杂的计算。w5jednc

w5jednc

多个忆阻器阵列芯片协同工作示意图。(图自:清华新闻网,下同)w5jednc

w5jednc

基于忆阻器芯片的存算一体系统w5jednc

什么是忆阻器?

忆阻器,全称记忆电阻器(Memristor),是继电阻、电容、电感之后的第四种电路基本元件,表示磁通与电荷之间的关系,最早由加州大学伯克利分校教授蔡少棠在1971年预言存在,惠普公司在2008年研制成功。w5jednc

简单来说,这种组件的的电阻会随着通过的电流量而改变,而且就算电流停止了,它的电阻仍然会停留在之前的值,直到接受到反向的电流它才会被推回去,等于说能“记住”之前的电流量。w5jednc

这种奇妙的效果,其实和神经元突触有相仿之处。再加上忆阻器还具有尺寸小、操作功耗低、可大规模集成(三维集成)等优点,难怪计算机科学家们在忆阻器身上看到了存算一体、低能耗类脑计算的前景。w5jednc

人工神经网络近年来大放异彩,如果用忆阻器连接成阵列,作为人工神经网络的硬件,会有什么效果?w5jednc

忆阻器阵列

当前国际上的相关研究还停留在简单网络结构的验证,或者基于少量器件数据进行的仿真,基于忆阻器阵列的完整硬件实现仍然有很多挑战:器件方面,制备高一致、可靠的多值忆阻器阵列仍是挑战;系统方面,受忆阻器的阻变机理制约,器件固有的非理想特性(如器件间波动,器件电导卡滞,电导状态漂移等)会导致计算准确率降低;架构方面,忆阻器阵列实现卷积功能需要以串行滑动的方式连续采样、计算多个输入块,无法匹配全连接结构的计算效率。w5jednc

钱鹤、吴华强教授团队通过优化材料和器件结构,成功制备出了高性能的忆阻器阵列。2017年5月,该课题组就曾在《自然通讯》报告称,首次实现了基于1024个氧化物忆阻器阵列的类脑计算,将氧化物忆阻器的集成规模提高了一个数量级。这使芯片更加高效地完成人脸识别计算任务,将能耗降低到原来的千分之一以下。w5jednc

忆阻器神经网络

为解决器件非理想特性造成的系统识别准确率下降问题,他们提出一种新型的混合训练算法,仅需用较少的图像样本训练神经网络,并通过微调最后一层网络的部分权重,使存算一体架构在手写数字集上的识别准确率达到96.19%,与软件的识别准确率相当。与此同时,提出了空间并行的机制,将相同卷积核编程到多组忆阻器阵列中,各组忆阻器阵列可并行处理不同的卷积输入块,提高并行度来加速卷积计算。w5jednc

在此基础上,该团队搭建了全硬件构成的完整存算一体系统,在系统里集成了8个包括2048个忆阻器的阵列,以提高并行计算的效率,并在该系统上高效运行了卷积神经网络算法,成功验证了图像识别功能,证明了存算一体架构全硬件实现的可行性。w5jednc

w5jednc

存算一体系统架构w5jednc

近年来,钱鹤、吴华强教授团队长期致力于面向人工智能的存算一体技术研究,从器件性能优化、工艺集成、电路设计及架构与算法等多层次实现创新突破,先后在《自然通讯》(Nature Communications)、《自然电子》(Nature Electronics)、《先进材料》(Advanced Materials)等期刊以及国际电子器件会议 (IEDM)、国际固态半导体电路大会(ISSCC)等顶级学术会议上发表多篇论文。 w5jednc

w5jednc

团队合影w5jednc

清华大学微电子所吴华强教授是本论文的通讯作者,清华大学微电子所博士生姚鹏是第一作者。该研究工作得到了国家自然科学基金委、国家重点研发计划、北京市科委、北京信息科学与技术国家研究中心及华为技术有限公司等支持。w5jednc

论文原文链接:w5jednc

https://www.nature.com/articles/s41586-020-1942-4w5jednc

责编:Demi Xiaw5jednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 苹果下一代智能终端?iPhone+iGlass,苹果手机塞入苹果眼 一直传言苹果在秘密研发颠覆人类消费终端的下一代产品,有人说是穿戴,有人说是无感设备。不过,按照苹果的研发与市场推进,一般有一个缓冲或者说过渡产品推出,这也是遵循科技与消费市场进步的规律。最近EDN有发现苹果申请了把iPhone塞进苹果眼镜设备中的专利,我们看看这是否是下一代智能终端,亦或下一代过渡终端。
  • 量子计算商用?IBM首席执行官表示,或在2023年开始! 量子计算是科学的前沿阵地之一,虽然有了一些科研和试验,但是一直未有实际的落地应用或者较大规模的商用。不过,最近IBM首席执行官Arvind Krishna称,其客户最早可以在2023年使用并获利。
  • 华为发布边缘计算解决方案:昇腾智能制造使能平台 最近两年,边缘计算越来越受到业界的重视,世界巨头企业均在这个领域投入了较大资源,昨日,华为发布了昇腾计算智能边缘解决方案:昇腾智能制造使能平台。
  • 任正非送别荣耀:分手后就不要藕断丝连,要做华为最强的对 华为心声社区11月26日发布任正非在荣耀送别会上的讲话,谈到为什么剥离荣耀,他表示,华为不能因为自己受难而拖代理商、分销商下水,要尽快地恢复渠道的供应。他还表示,荣耀与华为一旦“离婚”就不要再藕断丝连,荣耀要做华为全球最强的竞争对手,超越华为,甚至可以喊打倒华为……
  • 信号发生器输出功率不够大怎么办? 典型的信号发生器可提供25mV至5V输出电压。为了驱动50Ω或更大的负载,一般会在输出端使用大功率分立器件、多个并行器件,或者成本高昂的ASIC。其内部通常使用继电器来调节输出电平,因此会在一定程度上导致工作不连续。
  • 英特尔发布Xe-LP微架构服务器GPU,提高跨平台代码重用 虽然GPU是英特尔的短板,但是其一直在努力,并且把这个方向扩展到了服务器领域。确实,服务器领域的GPU应用和定位于消费领域的桌面应用不同。我们看看英特尔最新的基于Xe-LP微架构的数据中心服务器GPU性能如何?
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了