广告

人工智能否重振内存式运算架构?

2018-05-03 Rick Merritt 阅读:
人工智能否重振内存式运算架构?
业界开始重新审视十年前开发的处理器架构,看好速度较GPU更快1万倍的所谓「内存式运算」(In-Memory Computing;IMC),将有助于新一代AI加速器发展。

新创公司、企业巨擘和学术界开始重新审视十年前开发的处理器架构,看好它或许刚好就是机器学习(machine learning)的理想选择。他们认为,「内存式运算」(In-Memory Computing;IMC)架构可望推动新型的人工智能(AI)加速器进展,使其速度较现行的GPU更快1万倍。npoednc

这些处理器承诺可在CMOS微缩速度放缓之际扩展芯片性能,而要求密集乘法累积数组的深度学习算法也正逐渐获得动能。这些芯片虽然距离商用化上市还有一年多的时间,但也可能成为推动新兴非挥发性内存成长的引擎。npoednc

例如,新创公司Mythic瞄准在闪存(flash)数组内部进行神经网络运算任务,致力于从模拟领域降低功耗。该公司的目标是在2019年底量产芯片,成为率先推出这一类新芯片的公司之一。npoednc

美国圣母大学(Notre Dame)电子工程系系主任Suman Datta说:「在我们学术界大多数的人认为,新兴内存将成为实现内存处理器(processor-in-memory;PIM)的技术之一。采用新的非挥发性内存将意味着创造新的使用模式,而内存式运算架构将是关键之一。」npoednc

Datta指出,在1990年代,有几位学者试图打造这样的处理器。诸如EXECUBE、IRAM和FlexRAM之类的设计都「失败了,而今,随着相变内存(PCM)、电阻式RAM (RRAM)和STT MRAM等新兴内存出现,以及业界对于机器学习硬件加速器的兴趣浓厚,开始振兴这个领域的研究。不过,据我所知,大部份的展示都还是在组件或组件数组层级进行,而不是一个完整的加速器。」npoednc

其中一家竞争对手来自IBM于2016年首次披露的「电阻处理器」(Resistive Processing Unit;RPU)。这是一款4,096 x 4,096交叉数组的模拟组件。npoednc

IBM研究员Vijay Narayanan认为,「其挑战在于找出正确的模拟内存元素是什么——我们正在评估相变、RRAM和铁电。」Vijay Narayanan同时也是一位材料科学家,他主要的研究领域是在高K金属闸极。npoednc

在2015年,美国史丹佛大学(Stanford University)也曾经发布在这一领域的研究。中国和韩国的研究人员也在追求这一理念。npoednc

为了实现成功,研究人员需要找到兼容于CMOS晶圆厂的内存组件所需材料。此外,Narayanan说,「真正的挑战」就在于必须在施加电压时展现对称的电导或电阻。npoednc

008ednc20180502
IBM Research的材料科学家Vijay Narayanan表示,大多数用于AI的内存处理器仍处于研究阶段,距离可上市的时间约三至五年 (来源:IBM)npoednc

关于未来电晶体的几点思考

IBM至今已经制造出一些离散式组件和数组,但并不是一款具有4Kx4K数组的完整测试芯片,也尚未采用目前所认为的理想材料。Narayanan表示,IBM的Geoff Burr在500 x 661数组上采用相变材料进行深度神经网络(DNN)训练,而其结果显示「合理的精确度和加速度」。npoednc

「我们正稳步前进,但了解还必须改善现有的材料,而且也在评估新材料。」npoednc

IBM希望使用模拟组件,以便能够定义多个电导状态,从而较数字组件更有助于为低功耗操作开启大门。该公司还看好大型数组可望成为平行执行多项AI操作的大好机会。npoednc

Narayanan乐观地认为,IBM可以利用其于高k金属闸极方面累积的多年经验,找到调整AI加速器电阻的材料。他花了十几年的时间,才将IBM在该领域的专业知识从研究转向商业产品,并与格芯(Globalfoundries)和三星(Samsung)等业界伙伴合作。npoednc

展望未来,IBM将致力于开发闸极全环(GAA)晶体管,将奈米片用于7nm节点以外的应用。他认为这一类的设计并不存在根本的障碍,而只是实施的问题。npoednc

除了奈米片之外,研究人员正在探索负电容场效晶体管(FET),这些FET可在电压变化很小的情况下提供较大的电流变化。从研究人员发现这种掺杂氧化铪是铁电材料,而且可能兼容于CMOS后,过去这五年来,这种想法越来越受到关注。npoednc

但Narayanan也说,「目前还有很多反对者以及同时支持二者的人。」npoednc

「我们的研究显示,负电容是一种短暂的效应,」Notre Dame的Datta说,「因此,当极化开关切换时,通道电荷得以暂时启动,而一旦瞬时稳定后就不会再取得任何结果。」npoednc

美国加州大学柏克莱分校(UC Berkeley)的研究人员则「相信这是一种重要的『新状态』。因此,故事仍在继续发展中,可以说大部份的公司都在内部进行评估中。」npoednc

(原文发表于ASPENCORE旗下EDN姐妹媒体EETimes,参考链接:AI Revives In-Memory Processors;编译:Susan Hong)npoednc

20160630000123npoednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Rick Merritt
EE Times硅谷采访中心主任。Rick的工作地点位于圣何塞,他为EE Times撰写有关电子行业和工程专业的新闻和分析。 他关注Android,物联网,无线/网络和医疗设计行业。 他于1992年加入EE Times,担任香港记者,并担任EE Times和OEM Magazine的主编。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
您可能感兴趣的文章
  • 达摩院发布最大中文预训练语言模型PLUG,35天烧128张GPU 阿里达摩院今日发布了集语言理解(NLU)和生成(NLG)能力于一身的超大规模语言模型PLUG,跟GPT-3的单向建模方式不同的是,它采用了编码器-解码器(encoder-decoder)的双向建模方式,它刷新 CLUE 分类榜单纪录,排名仅次于“人类”
  • 中国工程院高文院士:“超算中心”与“云脑”都不能少 “9个月42亿人民币做出这台设备,这在任何地方想都不要想。”高文院士指出。 而且,鹏程云脑Ⅱ完全采用华为架构,用了华为的鲲鹏920和昇腾910机器做出来的,其中910是用了4096颗,鲲鹏920是用了2048颗,实际上已经到了1024p浮点算力,在很多性能方面超越同期国际上比较好的GPU运算速度。
  • 英伟达要抢英特尔最赚钱领域:首推数据中心CPU,Arm架构性 在400亿美元收购Arm的6个月后,NVIDIA连发三款基于Arm IP打造的处理器,包括全球首款专为TB级加速计算而设计的CPU NVIDIA Grace、全新BlueField-3 DPU,以及业界首款1000TOPS算力的自动驾驶汽车SoC。此外,还公布了与亚马逊AWS、Ampere Computing、联发科和Marvell等基于Arm的CPU平台的合作伙伴关系。
  • 生物仿真硅耳蜗实现神经拟态技术关键词捕捉 苏黎世神经科学研究所开发的动态音频传感器的核心是一个生物仿真硅耳蜗,仿真耳朵中毛细胞的功能。由硅耳蜗产生的事件串流可用于语音端点检测(关键词识别的第一阶段),类耳蜗图可以由神经网络读入并解码其含义。关键词捕捉是目前各种神经拟态技术的一个重要目标。
  • 中科院深圳:智能成型装备工业互联网的研发与应用实践 在ASPENCORE举办的“深圳国际工业4.0技术与应用峰会”上,中国科学院深圳先进技术研究院副研究员、深圳市海外高水平引进人才杨之乐博士分享了“智能成型装备工业互联网的研发与应用实践”主题演讲。
  • 卡奥斯:工业互联网背景下的AIoT应用 在ASPENCORE举办的“深圳国际工业4.0技术与应用峰会”上,海尔卡奥斯创智物联技术总监慕永琛分享了“工业互联网背景下的AIoT应用”主题演讲。
相关推荐
    广告
    近期热点
    广告
    广告
    广告
    可能感兴趣的话题
    广告
    向右滑动:上一篇 向左滑动:下一篇 我知道了