中科院深圳先进技术研究院对MCU智能化技术深入探索-EDN 电子技术设计

 MCU的特点就是小存储，小算力，但是神经网络的特点又是计算密集型和存储密集型，所以我们需要做很多的优化，才可以使这些神经网络跑在我们的小芯片上。

11月10日，由全球电子技术领域知名媒体集团AspenCore主办的国际集成电路展览会暨研讨会（IIC Shenzhen 2022）的国际工业4.0技术与应用论坛上，中科院深圳先进技术研究院助理研究员杨永魁博士发表了“MCU智能化技术探索”主题演讲。7eXednc

云端应用多用于推理训练，它的特点是大数据、大模型，它对于性能的要求很高，但对于功耗不敏感。而对于更小的终端应用，例如无人机、手机、可穿戴设备等，他们对功耗的要求则非常的高，针对这些不同的技术路径，芯片的要求是不一样的。我们对于终端会针对低功耗，低成本做一些特殊的优化。7eXednc

常用的神经网络比如ResNet、VGG，图象识别的准确度可以达到80%甚至90%，但是它的计算量也是相当大的，在计算一张图片时计算量可以达到几十G的Ops，而它的存储空间需要几十兆、上百兆。可是远程侧设备的特点和云端是完全不一样的，比如云端GPU加速卡内存就有几十G，存储甚至可以达到TB级别，到了手机内存就只有几GB，存储也往往只有几百GB，如果到了IT/OT这种更远程的应用，它的存储和内存就更受限了，通常只有几百KB的内存空间和几MB的存储空间。7eXednc

MCU的特点就是小存储，小算力，但是神经网络的特点又是计算密集型和存储密集型，所以我们需要做很多的优化，才可以使这些神经网络跑在我们的小芯片上。7eXednc

MCU智能化技术——工具链软件方式

第一种MCU智能化技术路线是通过工具链的软件方式，现在各个大厂已经用得非常成熟，比如ST的NanoEdge Studio，可以把在Keras、PyTorch上面训练的模型部署到32位的MCU上。通过把一些运行好的模型文件利用工具链进行压缩，就可以大大降低模型所占用的存储空间，然后放到很小的MCU上。这种技术路线可以识别CIFAR网络，量化后存储只需要133KB，必须的计算只要24.7M Ops、99.1ms的处理能力。7eXednc

7eXednc

MCU智能化技术——数字-AI加速器

第二种MCU智能化技术路线叫数字-AI加速器，如果我们要把神经网络往数字型的AI加速器上部署，我们就必须对其进行优化。7eXednc

对于高效数据流，比方说如果是权重固定的话，因为AI指定网络计算是一些重复循环的计算，它的权重是可以共享的，这种情况下我们可以减少它对外部存储的访问。比如输入固定权重每次都在改变，在这种情况下我们要在硬件架构上进行一些优化。7eXednc

对于硬件算法协同优化，比如量化，我们知道训练与训练完的神经网络一般是一些4位、32位、64位浮点数，它在硬件实现上代价很高，所以可以把它量化成1位或者2位这种小型化的神经网络。还有剪枝条，就是把一些不需要的连接链路去掉，而且不会对神经网络的准确度造成太大的影响。7eXednc

7eXednc

MCU智能化技术——存算一体(CIM)-AI加速器

数字-AI加速器采用冯诺依曼架构，存储和计算是分开的，是通过一个主线将它们连接在一起，这种架构在物理上有很大的局限性：7eXednc

能耗瓶颈，大部分人可能觉得计算的时候能耗最大，但是实际上它对存储的访问读写能耗可能会更大。例如一个32位加法器，它的能耗如果是0.1pJ的话，一个Reg访问就会达到1pJ，如果是对SRAM的访问它的能耗就会达到5pJ，如果是对DRAM的访问它的能耗甚至会达到640pJ左右，加法的能耗相对于这些访问来说并不是一个特别高的值，也就是说数据搬移的能耗比计算本身还要大，甚至大很多倍。
存储和计算的速度不均衡，存储搬移数据的速度是远远慢于计算的，比如我们AI计算的速度可能达到1PB/s，SRAM也许能达到100TB/S，如果DRAM则只有1TB/S，因此数据的搬移是非常慢的，但是AI对数据的需求却又非常的高，这二者是完全不匹配的。

7eXednc

为了解决上述瓶颈就要用到这个新的技术——存算一体，或者叫存内计算加速器，杨永魁博士简单描述了它的基本工作原理：“我们需要定位一个数模转化，转化成模拟值，再存储、搬移内部进行模拟域的计算，计算完之后，我们输出Y1、Y2，通过一个ADC，将模拟值转化成数字值，完成外面的系统的交互。”7eXednc

“忆阻器的方式是可以很好的实现一个模拟域的计算。”杨永魁说，“如果我们用忆阻器实现模拟域的计算的话，我们可以输入一个V，左边的X1跟X2，通过忆阻器的G1和G2，可以得出它的电流是一个累加乘的状态，这个累加乘就是神经网络里面最底层的算子。” SRAM实现的基本原理与忆阻器类似，它用SRAM内部拟存储的值，去控制支线上的电流，也可以实现类似忆阻器的累加关系。7eXednc

7eXednc

那么在做CIM-AI加速器设计时我们应该有些什么设计考虑呢？7eXednc

1.存储单元，以SRAM为例，6T SRAM是很标准的SRAM，可以通过控制它的读写，实现储内计算，它的优点是只需要6个晶体管面积比较小，缺点是存在写干扰和字线变化幅度小。而8T SRAM就没有写干扰和字线变化幅度小的问题，但同时8T SRAM就要比6T SRAM大一些。所以8T SRAM在执行神经网络的时候，识别的准确度比6T的高，它的PVT偏差性能会更好一点，但面积就要比6T的大，因此我们需要就面积、准确度、能耗达到一种平衡。7eXednc

7eXednc

2.ADC的功耗优化，也就是模拟到数字转化的功耗优化。ADC占的功耗比将近三分之一到一半，这是因为是ADC需要的分辨率很高，而ADC的分辨率和功耗是呈一种指数上升的关系。所以我们可以根据每一层神经网络权重的稀疏程度进行优化，可以把ADC每一层网络的分辨率调整成不同的比特数，这样就可以把神经网络的能耗降下来。7eXednc

7eXednc

3. CIM友好的神经网络，一方面针对CIM的特点设计多片的阵列结构，设计的时候使神经网络深度较浅，每一层的神经元较多，另一方面将权重固定，减少激励的流动，提高计算的效率，还有就是针对模拟电路高精度开销大，做一些低精度的量化，得到一个整体比较优化的情况。7eXednc

7eXednc

杨永魁表示：“这个表格(表格见下图)列举了当前的存算一体，CIM-AI加速器的能效和吞吐量的对比，可以看到这个吞吐量中，纵坐标，粉色的存算一体加速器会比数字类型的高出很多，同时它的能效，每W的计算的算力比传统的数字-AI加速会高出10倍甚至百倍的效果，因此我们说存算一体能效相当高，单位面积的算力也会大很多。”7eXednc

7eXednc

总结

从算力、功耗、成本、可编程性、稳定性还有研发周期对这三个MCU智能化技术做一个简单的总结：7eXednc

7eXednc

工具链软件方式成本很低，也不需要改进硬件框架，但是它的算力跟功耗是没有太大的优势的。7eXednc

数字-AI协处理器，算力和功耗都表现不错，但是它的成本也会相对高一些，因为它单位面积的算力比较小。7eXednc

CIM-AI协处理器，算力、功耗和成本都有一些优势，但是从其他维度看，它的可编程性、灵活性肯定没有工具链软件的方式灵活，还有它的稳定性也比较差。7eXednc

最后杨永魁博士总结道：“如果我们从研发周期来看，个人觉得工具链肯定是最快的，不管从应用方还是芯片方，都是很快的一个方式，数字-AI协处理器居中，存算一体这个因为涉及到数字跟模拟，还有算法，需要一个协同，所以个人觉得它的研发周期会长很多。”7eXednc

7eXednc

责编：Ricardo

本文为电子技术设计原创文章，未经授权禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

谢宇恒

原机加工行业工程师，现Aspencore编辑，专注电子，关注未来。

进入专栏

MCU 模拟/混合信号/RF 人机交互网络/协议接口/总线无线技术安全与可靠性工业电子汽车电子智能硬件医疗电子消费电子航空航天人工智能无人机/机器人技术实例产业前沿 EDN原创 IIC

上一篇： 华为：深入场景，释放数字生产力 下一篇： 概伦电子：共建EDA生态，同享产业链价值

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

ST移动安全解决方案：构建全场景安全连接生态随着移动设备的普及与应用场景的复杂化，移动安全体系正经历关键变革——从早期依赖手机SIM卡的单一安全架构，逐步向融合NFC近场通信、嵌入式安全元件（eSE）及嵌入式SIM卡（eSIM）的多元技术体系演进。
瑞萨电子广受欢迎的RA0系列推出新产品，卓越的功耗、更低成本RA0E2适用于消费电子、小家电、工业系统控制与楼宇自动化等领域···
Microchip推出AVR® SD系列入门级单片机（MCU），降低安全该单片机系列以不到1美元的价格实现符合行业标准的功能安全要求···
瑞萨推出RA4L1 MCU，超低功耗、集成电容式触控、段码L 全新产品成为计量、物联网传感、智能锁和HMI应用的理想之选···
2024是AI MCU元年？ 2024年开启了MCU领域的AI时代，2025年可望见证更多轻量化AI模型在MCU上的进一步突破...
新一代MCU向着边缘AI和实时控制发展在工业和汽车领域，电机驱动和数字电源转换是典型的实时控制系统，要求处理器具有高实时性和强大的数学计算与处理能力。这些应用需要优质的ADC和PWM功能，并通过联动机制，形成高效、有机的实时控制系统。
兆易创新推出GD32G5系列Cortex®-M33内核高性能MCU，全业界领先的半导体器件供应商兆易创新GigaDevice（股票代码 603986）宣布，正式推出基于Arm® Cortex®-M33内核的GD32G5系列高性能微控制器···
STM32 MPU是什么产品？了解嵌入式系统中微处理器的新变微控制器 (MCU)和微处理器(MPU)有哪些不同之处？
瑞萨推出全新RA8入门级MCU产品群，提供极具性价比的高性 RA8E1与RA8E2提供理想的标量和矢量计算性能以及同类卓越的功能集，满足价值导向型市场需求···
强劲升级，兆易创新GD32A7系列全新一代车规级MCU震撼登 GD32A71x/GD32A72x/GD32A74x系列车规级MCU采用了超高性能ARM® Cortex®-M7内核，分别支持单核、双核、单核锁步三种选项，主频160MHz，算力高达763 DMIPS，并配备了最高4MB片上Flash和512KB SRAM，支持双Flash BANK，可满足无缝OTA升级需求···
借助 AMD Kria SOM 通过混合方式实现分布式计算分布式计算的混合方法可以通过在边缘端使用可扩展、高效且低功耗的自适应计算平台来实现，这种平台可以无缝连接到云端以传输双向数据···
探索创新共生发展|2024全球MCU及嵌入式生态发展大会【深圳，2024年7月25日讯】在全球微控制器（MCU）及嵌入式系统领域享有盛誉的2024年全球MCU及嵌入式生态发展大会，于2024年7月25日在深圳君悦酒店隆重举行。本届大会由AspenCore主办，汇聚众多国际和本土知名MCU厂商的技术和应用专家，为与会者带来了一场关于MCU技术趋势和应用解决方案的行业盛会。

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

中科院深圳先进技术研究院对MCU智能化技术深入探索

MCU智能化技术——工具链软件方式

MCU智能化技术——数字-AI加速器

MCU智能化技术——存算一体(CIM)-AI加速器

总结