广告

中科院深圳先进技术研究院对MCU智能化技术深入探索

2022-11-10 22:12:03 谢宇恒 阅读:
MCU的特点就是小存储,小算力,但是神经网络的特点又是计算密集型和存储密集型,所以我们需要做很多的优化,才可以使这些神经网络跑在我们的小芯片上。

11月10日,由全球电子技术领域知名媒体集团AspenCore主办的国际集成电路展览会暨研讨会(IIC Shenzhen 2022)的国际工业4.0技术与应用论坛上,中科院深圳先进技术研究院助理研究员杨永魁博士发表了“MCU智能化技术探索”主题演讲。Rcdednc

云端应用多用于推理训练,它的特点是大数据、大模型,它对于性能的要求很高,但对于功耗不敏感。而对于更小的终端应用,例如无人机、手机、可穿戴设备等,他们对功耗的要求则非常的高,针对这些不同的技术路径,芯片的要求是不一样的。我们对于终端会针对低功耗,低成本做一些特殊的优化。Rcdednc

常用的神经网络比如ResNet、VGG,图象识别的准确度可以达到80%甚至90%,但是它的计算量也是相当大的,在计算一张图片时计算量可以达到几十G的Ops,而它的存储空间需要几十兆、上百兆。可是远程侧设备的特点和云端是完全不一样的,比如云端GPU加速卡内存就有几十G,存储甚至可以达到TB级别,到了手机内存就只有几GB,存储也往往只有几百GB,如果到了IT/OT这种更远程的应用,它的存储和内存就更受限了,通常只有几百KB的内存空间和几MB的存储空间。Rcdednc

MCU的特点就是小存储,小算力,但是神经网络的特点又是计算密集型和存储密集型,所以我们需要做很多的优化,才可以使这些神经网络跑在我们的小芯片上。Rcdednc

MCU智能化技术——工具链软件方式

第一种MCU智能化技术路线是通过工具链的软件方式,现在各个大厂已经用得非常成熟,比如ST的NanoEdge Studio,可以把在Keras、PyTorch上面训练的模型部署到32位的MCU上。通过把一些运行好的模型文件利用工具链进行压缩,就可以大大降低模型所占用的存储空间,然后放到很小的MCU上。这种技术路线可以识别CIFAR网络,量化后存储只需要133KB,必须的计算只要24.7M Ops、99.1ms的处理能力。Rcdednc

Rcdednc

MCU智能化技术——数字-AI加速器

第二种MCU智能化技术路线叫数字-AI加速器,如果我们要把神经网络往数字型的AI加速器上部署,我们就必须对其进行优化。Rcdednc

对于高效数据流,比方说如果是权重固定的话,因为AI指定网络计算是一些重复循环的计算,它的权重是可以共享的,这种情况下我们可以减少它对外部存储的访问。比如输入固定权重每次都在改变,在这种情况下我们要在硬件架构上进行一些优化。Rcdednc

对于硬件算法协同优化,比如量化,我们知道训练与训练完的神经网络一般是一些4位、32位、64位浮点数,它在硬件实现上代价很高,所以可以把它量化成1位或者2位这种小型化的神经网络。还有剪枝条,就是把一些不需要的连接链路去掉,而且不会对神经网络的准确度造成太大的影响。Rcdednc

Rcdednc

MCU智能化技术——存算一体(CIM)-AI加速器

数字-AI加速器采用冯诺依曼架构,存储和计算是分开的,是通过一个主线将它们连接在一起,这种架构在物理上有很大的局限性:Rcdednc

  • 能耗瓶颈,大部分人可能觉得计算的时候能耗最大,但是实际上它对存储的访问读写能耗可能会更大。例如一个32位加法器,它的能耗如果是0.1pJ的话,一个Reg访问就会达到1pJ,如果是对SRAM的访问它的能耗就会达到5pJ,如果是对DRAM的访问它的能耗甚至会达到640pJ左右,加法的能耗相对于这些访问来说并不是一个特别高的值,也就是说数据搬移的能耗比计算本身还要大,甚至大很多倍。
  • 存储和计算的速度不均衡,存储搬移数据的速度是远远慢于计算的,比如我们AI计算的速度可能达到1PB/s,SRAM也许能达到100TB/S,如果DRAM则只有1TB/S,因此数据的搬移是非常慢的,但是AI对数据的需求却又非常的高,这二者是完全不匹配的。

Rcdednc

为了解决上述瓶颈就要用到这个新的技术——存算一体,或者叫存内计算加速器,杨永魁博士简单描述了它的基本工作原理:“我们需要定位一个数模转化,转化成模拟值,再存储、搬移内部进行模拟域的计算,计算完之后,我们输出Y1、Y2,通过一个ADC,将模拟值转化成数字值,完成外面的系统的交互。”Rcdednc

“忆阻器的方式是可以很好的实现一个模拟域的计算。”杨永魁说,“如果我们用忆阻器实现模拟域的计算的话,我们可以输入一个V,左边的X1跟X2,通过忆阻器的G1和G2,可以得出它的电流是一个累加乘的状态,这个累加乘就是神经网络里面最底层的算子。” SRAM实现的基本原理与忆阻器类似,它用SRAM内部拟存储的值,去控制支线上的电流,也可以实现类似忆阻器的累加关系。Rcdednc

Rcdednc

那么在做CIM-AI加速器设计时我们应该有些什么设计考虑呢?Rcdednc

1.存储单元,以SRAM为例,6T SRAM是很标准的SRAM,可以通过控制它的读写,实现储内计算,它的优点是只需要6个晶体管面积比较小,缺点是存在写干扰和字线变化幅度小。而8T SRAM就没有写干扰和字线变化幅度小的问题,但同时8T SRAM就要比6T SRAM大一些。所以8T SRAM在执行神经网络的时候,识别的准确度比6T的高,它的PVT偏差性能会更好一点,但面积就要比6T的大,因此我们需要就面积、准确度、能耗达到一种平衡。Rcdednc

Rcdednc

2.ADC的功耗优化,也就是模拟到数字转化的功耗优化。ADC占的功耗比将近三分之一到一半,这是因为是ADC需要的分辨率很高,而ADC的分辨率和功耗是呈一种指数上升的关系。所以我们可以根据每一层神经网络权重的稀疏程度进行优化,可以把ADC每一层网络的分辨率调整成不同的比特数,这样就可以把神经网络的能耗降下来。Rcdednc

Rcdednc

3. CIM友好的神经网络,一方面针对CIM的特点设计多片的阵列结构,设计的时候使神经网络深度较浅,每一层的神经元较多,另一方面将权重固定,减少激励的流动,提高计算的效率,还有就是针对模拟电路高精度开销大,做一些低精度的量化,得到一个整体比较优化的情况。Rcdednc

Rcdednc

杨永魁表示:“这个表格(表格见下图)列举了当前的存算一体,CIM-AI加速器的能效和吞吐量的对比,可以看到这个吞吐量中,纵坐标,粉色的存算一体加速器会比数字类型的高出很多,同时它的能效,每W的计算的算力比传统的数字-AI加速会高出10倍甚至百倍的效果,因此我们说存算一体能效相当高,单位面积的算力也会大很多。”Rcdednc

Rcdednc

总结

从算力、功耗、成本、可编程性、稳定性还有研发周期对这三个MCU智能化技术做一个简单的总结:Rcdednc

Rcdednc

工具链软件方式成本很低,也不需要改进硬件框架,但是它的算力跟功耗是没有太大的优势的。Rcdednc

数字-AI协处理器,算力和功耗都表现不错,但是它的成本也会相对高一些,因为它单位面积的算力比较小。Rcdednc

CIM-AI协处理器,算力、功耗和成本都有一些优势,但是从其他维度看,它的可编程性、灵活性肯定没有工具链软件的方式灵活,还有它的稳定性也比较差。Rcdednc

最后杨永魁博士总结道:“如果我们从研发周期来看,个人觉得工具链肯定是最快的,不管从应用方还是芯片方,都是很快的一个方式,数字-AI协处理器居中,存算一体这个因为涉及到数字跟模拟,还有算法,需要一个协同,所以个人觉得它的研发周期会长很多。”Rcdednc

    Rcdednc

责编:Ricardo
本文为电子技术设计原创文章,未经授权禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
谢宇恒
原机加工行业工程师,现Aspencore编辑,专注电子,关注未来。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 裸机系统上的模拟调试 我承认“模拟调试”这个标题有点神秘。阅读本文后,嵌入式固件开发人员可能会遭受认知失调的困扰,但相信我,这以后会说得通的。本标题暗示的是处理MCU中被处理信号的任务。
  • 智能控制如何降低能耗 全球超过 65% 的电力用于为工业环境、商业建筑和个人住宅中的电机和电源供电。据 Our World in Data 资料显示,60% 的电力来自燃烧煤炭和天然气,只有不到 10%的电力来自可再生能源。智能变频数字电机控制则可降低 25% 以上的能耗。智能数字电源控制可以更大限度地提高太阳能和风能的生产效率,并更大限度地减少超高能耗设备的电源功耗。在本文中,我们将探讨智能控制应用的一些趋势,以及分享智能控制如何降低能耗和提高可再生能源效率的示例。
  • 高速串行系统性能测试:如何编写自定义眼图模板? 如何评定高速串行系统的性能?在高速串行系统中,主要通过眼图测试。评估一个眼图的好和坏,通常利用一些常见的指标来衡量,比如眼高,眼宽,抖动,占空比等。为了简单而又直观地判断眼图的指标是否符合规范的要求,将规范指标的要求编写成一个眼图模板,然后利用示波器来调用这个模板,这样就可以直观看到眼图是否有碰到模板……
  • RISC-V的五大优势 RISC-V出现已经有一段时间了,而如果您在阅读本文,那就说明您听说过它。即便如此,我们可能仍然要说服您RISC-V就是未来的趋势?关于RISC-V的潜力和优势,我们不妨从以下五个方面来详细阐述。
  • 用交通状况鸟瞰图来辅助提升自动驾驶安全性 慕尼黑工业大学 (TUM) 的研究人员与行业合作伙伴合作开发了一种技术,以基于车载传感器输入和交通状况鸟瞰图来补充车辆视角。这提高了道路安全,包括自动驾驶。
  • 波兰网友玩中国产四位LED电子时钟套件,是否物有所值? 本文要介绍的是一款中国产电子时钟套件。购买的主要原因是希望获得一个MCU——目前在波兰市场上它并不比整个套件便宜多少——并检查与它相关的一件事,但最后却检查了更多。
  • 俄罗斯最大半导体工厂Mikron“贷款”70亿卢布,用于生产 为了缓解芯片荒,俄罗斯加大了对其国内芯片生产的投资。今年初,俄罗斯最大半导体制造商 Mikron 准备了一个投资项目,计划将产能扩大两倍(每月达 6000 片),用于生产 180-90nm 的芯片。不过为了实施这一项目,该公司需要大约 100 亿卢布(约 11.4 亿元人民币)。俄罗斯国有集团VEB.RF向Mikron公司提供了这笔救命钱……
  • 特斯拉车主坐在电池上开车?美国团队拆解4680电池包 4680在奥斯汀工厂生产的少量Model Y跨界车中首次亮相,能量密度方面,特斯拉4680电池是现有2170电池的五倍。根据海外车主实测,4680电池组只需52分钟就能充入97%,而且剩余电量显示为零之后依然能行驶近5公里。为了研究特斯拉4680电池的独特先进之处,从7月初开始,美国的专业拆卸公司门罗公司(Munro & Associates)的团队开始拆卸特斯拉Model Y上装载的4680电池包。
  • “惊鸿”一瞥见“星光”,赛昉科技推动RISC-V应用渐入佳 赛昉科技宣布推出全球首款量产高性能RISC-V多媒体处理器——昉·惊鸿7110(JH7110),和全球性能最高的量产RISC-V单板计算机——昉·星光 2(VisionFive 2),意味着RISC-V向高性能应用领域迈出了坚实一步。
  • 极海:聚焦国产芯片高质量发展 深耕工业与汽车电子市场 在“2022国际集成电路展览会暨研讨会(IIC)”的“2022中国IC领袖峰会”上,珠海极海半导体有限公司COO曾豪发表了“聚焦国产芯片高质量发展,深耕工业与汽车电子市场”主题演讲。
  • 使用特定任务的MCU简化复杂设计 在当今的电子世界中,运行实时操作系统(RTOS)的大型32位微控制器(MCU)和微处理器(MPU)越来越普遍。然而,处理复杂应用的单个大型MCU,可能会遇到与小型内务管理任务相关的CPU资源问题,这些任务并不复杂,但非常耗时。较小的器件,例如8位和16位MCU,可用于从32位器件卸载这些任务。
  • 波兰网友拆电子式电表:为什么要用两个MCU? 转盘感应式电能表正陆续被电子式电能表取代——使用液晶显示器和非易失性存储器取代机械式计数器,并使用专门的电子测量系统代替电磁场中的转盘。本文就带大家了解下电子式电表(12EA5rn/1 PAFAL)的内部。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了