小型AI系统也要比性能！MLPerf发表TinyML测试基准-EDN 电子技术设计

 产业联盟MLCommons近日发表了专为TinyML系统设计的新性能指标，同时也公布了第一次使用该MLPerf Tiny指标进行的推论系统跑分结果。

机器学习(ML)系统性能测试基准MLPerf的幕后推手、产业联盟MLCommons近日发表了专为TinyML系统设计的新性能指标，同时也公布了第一次使用该MLPerf Tiny指标进行的推论系统跑分结果。WE7ednc

MLPerf已经为高性能运算(HPC)系统、资料中心以及行动装置等级的系统提供性能测试基准，新的TinyML系统性能基准，则是专为那些在资源极度受限环境中执行机器学习工作负载的装置所设计。MLCommons执行总监David Kanter表示，现在MLPerf基准可涵盖“微瓦(microwatts)到千瓩(megawatts)等级的机器学习系统。WE7ednc

他指出：“如果你检视一些我们的训练以及HPC性能测试基准，HPC基准可在全球最大超级电脑上的1万6,000个节点上执行；在Tiny基准方面，则是关于我们如何量测那些最小、最低功耗的装置(参考下图)。” WE7ednc

WE7ednc

MLPerf性能测试基准的涵盖范围从TinyML装置到大型资料中心设备。(图片来源：MLCommons)WE7ednc

通常TinyML系统意味着以嵌入式微控制器/处理器在感测器节点执行感测器资料推论的系统，可能是来自麦克风、摄影机等感测装置的资料。一个这种等级的典型神经网路装置可能资料量只有100kB或更少，而且受限于电池电量。WE7ednc

尽管TinyML并没有明确的定义，该名词通常是指以微控制器为基础的系统；MLPerf已经将之延伸了一点点，因此也涵盖包括Raspberry Pi在内的系统。MLPerf Tiny推论性能测试基准工作小组主席、美国哈佛大学(Harvard University)教授Vijay Janapa Reddi则表示，开发这个领域的性能测试基准是一项挑战。WE7ednc

“任何推论系统都有复杂的堆叠，但在TinyML，所有的东西都是与感测器资料──音讯、视觉、惯性量测单元(IMU)──有关，生态系统特别复杂；”Janapa Reddi表示：“在嵌入式领域特别具挑战性，是因为大多数的硬体有其客制化工具链…这使得性能基准测试极具挑战。我们必须从头特制很多基础架构，那不是能轻易从MLPerf推论性能基准借用的。”WE7ednc

他补充指出，有鉴于该堆叠的所有部分都有广泛的创新，要定义一个固定的性能测试基准以有效展现那些硬体、软体、工具以及演算法的创新，在TinyML领域是特别大的挑战。WE7ednc

工作负载选择

MLPerf工作小组是与嵌入式微处理器性能测试基准联盟(Embedded Microprocessor Benchmark Consortium，EEMBC)合作开发TinyML的性能测试基准，利用了EEMBC的测试工具(EnergyRunner框架)，MLPerf工作小组则是定义工作负载、规则以及性能测试基准。WE7ednc

与其他的MLPerf性能测试基准一样，各组织能提交执行一个或多个不同工作负载的硬体与软体系统跑分结果，但TinyML性能基准要支援多样性的应用案例，让系统可选择工作负载来呈现常见的应用会特别困难。为此，MLPerf Tiny推论工作小组将之缩小为四种工作负载：WE7ednc

关键字识别(Keyword spotting) ──利用Google的语音指令资料集(Speech Commands Dataset)，以DS-CNN模型进行有限词汇的语音识别。
异常侦测(Anomaly detection) ──利用机器以Deep Autoencoder模型运作ToyADMOS声音资料集，进行音讯时间序列异常侦测。
视觉唤醒词(Visual wake words) ──这是一个两类别影像分类的工作负载，影像被区分为“人”或“非人”，利用MobileNetV1 0.25X模型执行视觉唤醒词资料集(Visual Wake Words Dataset )。
影像分类(Image classification) ──以ResNet-8模型进行CIFAR10资料集的多类别(10类)影像分类。

如同其他MLPerf性能测试基准，MLPerf Tiny推论基准也有“封闭”与“开放”两种赛程(division)，以尝试提供相似系统的可比性，还有展示创新方法的灵活性；此外，也让提交者展示其附加价值，无论他们要聚焦在堆叠的哪一个部份。由MLPerf工作小组定案的性能指标是既定预测准确度下的延迟性，以及既定预测准确度下的功耗。WE7ednc

该基准的延迟性分数是必选项，功耗量测则是可选的。但因为TinyML系统通常会在功耗与性能之间有谨慎的平衡折衷，我们是否真的能在不同时看到两种指标的情况下，得到一个清晰的系统性能评分结果？WE7ednc

对此，MLCommons的Kanter表示：“我们把这个版本的测试基准叫做0.5版，有部份原因是因为这是我们第一次的MLPerf Tiny推论跑分结果。取得结果、订定规则以及打造性能测试基准套件实际上是非常重要的任务，而在其上产生功耗/能耗结果又添加了一层复杂性…”WE7ednc

“我坚信要先学爬、再学会走路，然后才能跑，要让事情开始、动起来，然后再最佳化、或者添加一些额外的能耗/功耗量测复杂性；”他接着指出： “我想，在我们下一轮的跑分结果中，应该会看到更多能耗量测。”WE7ednc

Janapa Reddi也同意以上观点，补充指出该TinyML测试基准将会随着产业进展更进一步提供清晰度；“这是一个还在萌芽的领域，正尝试找到立足点。我们可以等个三年让它成熟，因为在不同地方都会有大量的TOPS以及每瓦TOPS数字；然后我们可以尝试进行某种程度的标准化，或者从一开始就与产业界合作，协助他们设定一个合理的方向…”WE7ednc

他表示：“对我来说，这与确切的数字或系统无关，更多是关于为这个社群提供清晰度与能见度，让他们能加速进展。”WE7ednc

WE7ednc

TinyML系统的技术堆叠相当复杂。(图片来源：MLCommons) WE7ednc

TinyML领域厂商情况与资料中心系统业者迥异，有更多新创公司以及中小型企业。MLPerf的TinyML工作小组共同主席Colby Banbury表示，他们也将这个特性纳入了考量；“我们在设计测试基准的一开始就想到这个，因此特别着重参考实例并尝试构建出来。我认为其重要性程度在先前几代的MLPerf推论基准中不一定存在，因为没有那么多需求。”WE7ednc

由工作小组提供的参考实例是一组所有工作负载都是在意法半导体(ST) Nucleo-L4R5ZI开发板上执行的延迟性与功耗跑分；选择该开发板是因为其开放平台、广泛可取得性以及成本可负担性。该开发板采用STM32 Arm Cortex-M4微控制器，如果有需要，完整的实例能提供未来提交者使用，作为他们自己的系统的起跑点。WE7ednc

Banbury举例指出，理论上，一家软体供应商能采用该参考实例堆叠，更换为他们自己特定的零组件并相当容易地执行。WE7ednc

第一轮跑分结果

MLPerf Tiny推论性能测试基准的第一轮跑分结果，在封闭赛程中有4套系统提交分数(包括参考系统)，开放赛程则是有一套系统提交份数。在封闭赛程中，美国软体开发商Latent AI提供了执行在Raspberry Pi的两套纯软体解决方案，该公司不挑硬体的Latent AI Efficient Inference Platform (LEIP)软体开发套件能用以最佳化运算、能耗与记忆体效率。WE7ednc

Latent AI提交的4种工作负载延迟性分数都分别以FP32与INT8精度模型来跑分，执行关键字识别工作负载的延迟性结果为0.39 ms (FP32模型)或0.42 ms (INT8模型)，而参考系统的结果是181.92 ms。中国的一家研究机构鹏城实验室(Peng Cheng Laboratory)所提交的系统，是将4种工作负载的跑分作为其TinyML应用自制RISC-V微控制器元件的概念验证，该系统的关键字识别执行结果为325.63 ms，参考实例则为181.92 ms。WE7ednc

另一家美国业者Syntiant所提交的系统是唯一使用了硬体加速器的，在执行关键字识别任务的延迟为5.95 ms (参考实例系统的延迟为181.92 ms)。该公司的NDP120系统单晶片就是为了关键字识别所设计，采用Arm Cortex-M0处理器CPU核心，加上Syntiant的Core 2加速器。WE7ednc

在开放赛程只有hls4ml一个提交系统；hls4ml实际上是一个神经网路最佳化工作流程，是为了欧洲核子研究组织(CERN)的大型强子对撞机(Large Hadron Collider)所开发，现在则是由一个科研社群Fast Machine Learning for Science负责开发。hls4ml最佳化模型以双核心的Arm Cortex-A9处理器以及Xilinx FPGA加速器执行，在影像分类工作负载的延迟为7.9 ms，准确度77%；同样的系统执行异常侦测工作负载的延迟为0.096 ms，准确度82%。WE7ednc

除了参考实例，MLCommons公布的第一轮TinyML系统性能测试不包含能耗表现，完整的跑分结果请参考此连结。WE7ednc

(原文发表于ASPENCORE旗下EDN姐妹媒体EETimes，参考链接：MLPerf Launches TinyML Benchmark for Smallest AI Systems，by Sally Ward-Foxton；编译：Judith Cheng)WE7ednc

责编：DemiWE7ednc

本文为电子技术设计原创文章，未经授权禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

产业前沿人工智能

上一篇： 在SiC FET的帮助下再次发现完美开关 下一篇： C代码的意外

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

匠芯创M7000系列远超传统微秒级芯片，响应速度不到300纳 M7000 系列芯片已在人形机器人、机器人关节、高功率伺服驱动器等多个领域实现落地应用，与众多头部企业展开紧密合作···
ST移动安全解决方案：构建全场景安全连接生态随着移动设备的普及与应用场景的复杂化，移动安全体系正经历关键变革——从早期依赖手机SIM卡的单一安全架构，逐步向融合NFC近场通信、嵌入式安全元件（eSE）及嵌入式SIM卡（eSIM）的多元技术体系演进。
电力电子科学笔记：金属电导率与索末菲模型与Drude-Lorentz模型相比，索末菲模型向前迈出了决定性的一步。
10BASE-T1S：利用下一代以太网引领智能工厂革新在本文中，我们将探讨为什么10BASE-T1S，作为一种单对以太网标准，成为了替代传统以太网和硬连线解决方案用于工业自动化的首选通信协议。
LM317恒流源加电容是好是坏？工程师必看的电流源设计陷如果在地和LM317的ADJ引脚之间增加一个电容，可以减少电源产生的流向负载的纹波电流，同时降低负载的阻抗，那么它到底是一个更好还是更坏的“恒流源”？
5个必备的FPGA设计小贴士在本文中，我们将分享一些有用的技巧，帮助您快速开始设计，避免常见的设计陷阱。通过掌握这些关键技巧，可以确保您在开发工业设备、医疗设备、智能家居设备、自动驾驶汽车和机器人应用时，更顺利、更高效的进行设计流程，最终成功实现FPGA设计···
扔掉复杂触发器！仅用两个反相器实现电源锁存最近有很多有趣的设计实例，将便宜的瞬时触点开关设计用在开/关电源控制电路上···
用PWM编程LM317恒流源：多方案汇总本文显示了一种新的拓扑结构，它采用了一种更灵活的方法使Iout可被编程。
电力电子科学笔记：齐纳二极管和狄拉克脉冲在本文中，我们将研究二极管在狄拉克脉冲反向偏压下的行为，然后再研究齐纳二极管的特殊情况。
基于SRAM的FPGA技术创新：快速安全启动机制深度解析在可编程逻辑器件领域，基于SRAM的FPGA经常被误解···
振动测试如何巩固电子制造的质量保证振动分析并非测试产品质量的唯一方法。然而，它在行业中的应用范围远不止于生产线的末端检测，通过在多个领域实施振动分析，电子企业可以从中获益良多。
车载测试技术解析：聚焦高带宽、多通道同步采集与协议分如何在高速信号捕捉、多通道同步采集以及复杂协议解码之间取得平衡，成为汽车行业的技术人员面临的共同挑战。本文将从测试难点和解决方案角度，探讨解决方案中涉及的关键技术点。

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

小型AI系统也要比性能！MLPerf发表TinyML测试基准

工作负载选择

第一轮跑分结果