广告

小型AI系统也要比性能!MLPerf发表TinyML测试基准

2021-06-25 14:22:36 Sally Ward-Foxton,EE Times欧洲特派记者 阅读:
产业联盟MLCommons近日发表了专为TinyML系统设计的新性能指标,同时也公布了第一次使用该MLPerf Tiny指标进行的推论系统跑分结果。

机器学习(ML)系统性能测试基准MLPerf的幕后推手、产业联盟MLCommons近日发表了专为TinyML系统设计的新性能指标,同时也公布了第一次使用该MLPerf Tiny指标进行的推论系统跑分结果。gx4ednc

MLPerf已经为高性能运算(HPC)系统、资料中心以及行动装置等级的系统提供性能测试基准,新的TinyML系统性能基准,则是专为那些在资源极度受限环境中执行机器学习工作负载的装置所设计。MLCommons执行总监David Kanter表示,现在MLPerf基准可涵盖“微瓦(microwatts)到千瓩(megawatts)等级的机器学习系统。gx4ednc

他指出:“如果你检视一些我们的训练以及HPC性能测试基准,HPC基准可在全球最大超级电脑上的1万6,000个节点上执行;在Tiny基准方面,则是关于我们如何量测那些最小、最低功耗的装置(参考下图)。” gx4ednc

gx4ednc

MLPerf性能测试基准的涵盖范围从TinyML装置到大型资料中心设备。(图片来源:MLCommons)gx4ednc

通常TinyML系统意味着以嵌入式微控制器/处理器在感测器节点执行感测器资料推论的系统,可能是来自麦克风、摄影机等感测装置的资料。一个这种等级的典型神经网路装置可能资料量只有100kB或更少,而且受限于电池电量。gx4ednc

尽管TinyML并没有明确的定义,该名词通常是指以微控制器为基础的系统;MLPerf已经将之延伸了一点点,因此也涵盖包括Raspberry Pi在内的系统。MLPerf Tiny推论性能测试基准工作小组主席、美国哈佛大学(Harvard University)教授Vijay Janapa Reddi则表示,开发这个领域的性能测试基准是一项挑战。gx4ednc

“任何推论系统都有复杂的堆叠,但在TinyML,所有的东西都是与感测器资料──音讯、视觉、惯性量测单元(IMU)──有关,生态系统特别复杂;”Janapa Reddi表示:“在嵌入式领域特别具挑战性,是因为大多数的硬体有其客制化工具链…这使得性能基准测试极具挑战。我们必须从头特制很多基础架构,那不是能轻易从MLPerf推论性能基准借用的。”gx4ednc

他补充指出,有鉴于该堆叠的所有部分都有广泛的创新,要定义一个固定的性能测试基准以有效展现那些硬体、软体、工具以及演算法的创新,在TinyML领域是特别大的挑战。gx4ednc

工作负载选择

MLPerf工作小组是与嵌入式微处理器性能测试基准联盟(Embedded Microprocessor Benchmark Consortium,EEMBC)合作开发TinyML的性能测试基准,利用了EEMBC的测试工具(EnergyRunner框架),MLPerf工作小组则是定义工作负载、规则以及性能测试基准。gx4ednc

与其他的MLPerf性能测试基准一样,各组织能提交执行一个或多个不同工作负载的硬体与软体系统跑分结果,但TinyML性能基准要支援多样性的应用案例,让系统可选择工作负载来呈现常见的应用会特别困难。为此,MLPerf Tiny推论工作小组将之缩小为四种工作负载:gx4ednc

  • 关键字识别(Keyword spotting) ──利用Google的语音指令资料集(Speech Commands Dataset),以DS-CNN模型进行有限词汇的语音识别。
  • 异常侦测(Anomaly detection) ──利用机器以Deep Autoencoder模型运作ToyADMOS声音资料集,进行音讯时间序列异常侦测。
  • 视觉唤醒词(Visual wake words) ──这是一个两类别影像分类的工作负载,影像被区分为“人”或“非人”,利用MobileNetV1 0.25X模型执行视觉唤醒词资料集(Visual Wake Words Dataset )。
  • 影像分类(Image classification) ──以ResNet-8模型进行CIFAR10资料集的多类别(10类)影像分类。

如同其他MLPerf性能测试基准,MLPerf Tiny推论基准也有“封闭”与“开放”两种赛程(division),以尝试提供相似系统的可比性,还有展示创新方法的灵活性;此外,也让提交者展示其附加价值,无论他们要聚焦在堆叠的哪一个部份。由MLPerf工作小组定案的性能指标是既定预测准确度下的延迟性,以及既定预测准确度下的功耗。gx4ednc

该基准的延迟性分数是必选项,功耗量测则是可选的。但因为TinyML系统通常会在功耗与性能之间有谨慎的平衡折衷,我们是否真的能在不同时看到两种指标的情况下,得到一个清晰的系统性能评分结果?gx4ednc

对此,MLCommons的Kanter表示:“我们把这个版本的测试基准叫做0.5版,有部份原因是因为这是我们第一次的MLPerf Tiny推论跑分结果。取得结果、订定规则以及打造性能测试基准套件实际上是非常重要的任务,而在其上产生功耗/能耗结果又添加了一层复杂性…”gx4ednc

“我坚信要先学爬、再学会走路,然后才能跑,要让事情开始、动起来,然后再最佳化、或者添加一些额外的能耗/功耗量测复杂性;”他接着指出: “我想,在我们下一轮的跑分结果中,应该会看到更多能耗量测。”gx4ednc

Janapa Reddi也同意以上观点,补充指出该TinyML测试基准将会随着产业进展更进一步提供清晰度;“这是一个还在萌芽的领域,正尝试找到立足点。我们可以等个三年让它成熟,因为在不同地方都会有大量的TOPS以及每瓦TOPS数字;然后我们可以尝试进行某种程度的标准化,或者从一开始就与产业界合作,协助他们设定一个合理的方向…”gx4ednc

他表示:“对我来说,这与确切的数字或系统无关,更多是关于为这个社群提供清晰度与能见度,让他们能加速进展。”gx4ednc

gx4ednc

TinyML系统的技术堆叠相当复杂。(图片来源:MLCommons) gx4ednc

TinyML领域厂商情况与资料中心系统业者迥异,有更多新创公司以及中小型企业。MLPerf的TinyML工作小组共同主席Colby Banbury表示,他们也将这个特性纳入了考量;“我们在设计测试基准的一开始就想到这个,因此特别着重参考实例并尝试构建出来。我认为其重要性程度在先前几代的MLPerf推论基准中不一定存在,因为没有那么多需求。”gx4ednc

由工作小组提供的参考实例是一组所有工作负载都是在意法半导体(ST) Nucleo-L4R5ZI开发板上执行的延迟性与功耗跑分;选择该开发板是因为其开放平台、广泛可取得性以及成本可负担性。该开发板采用STM32 Arm Cortex-M4微控制器,如果有需要,完整的实例能提供未来提交者使用,作为他们自己的系统的起跑点。gx4ednc

Banbury举例指出,理论上,一家软体供应商能采用该参考实例堆叠,更换为他们自己特定的零组件并相当容易地执行。gx4ednc

第一轮跑分结果

MLPerf Tiny推论性能测试基准的第一轮跑分结果,在封闭赛程中有4套系统提交分数(包括参考系统),开放赛程则是有一套系统提交份数。在封闭赛程中,美国软体开发商Latent AI提供了执行在Raspberry Pi的两套纯软体解决方案,该公司不挑硬体的Latent AI Efficient Inference Platform (LEIP)软体开发套件能用以最佳化运算、能耗与记忆体效率。gx4ednc

Latent AI提交的4种工作负载延迟性分数都分别以FP32与INT8精度模型来跑分,执行关键字识别工作负载的延迟性结果为0.39 ms (FP32模型)或0.42 ms (INT8模型),而参考系统的结果是181.92 ms。中国的一家研究机构鹏城实验室(Peng Cheng Laboratory)所提交的系统,是将4种工作负载的跑分作为其TinyML应用自制RISC-V微控制器元件的概念验证,该系统的关键字识别执行结果为325.63 ms,参考实例则为181.92 ms。gx4ednc

另一家美国业者Syntiant所提交的系统是唯一使用了硬体加速器的,在执行关键字识别任务的延迟为5.95 ms (参考实例系统的延迟为181.92 ms)。该公司的NDP120系统单晶片就是为了关键字识别所设计,采用Arm Cortex-M0处理器CPU核心,加上Syntiant的Core 2加速器。gx4ednc

在开放赛程只有hls4ml一个提交系统;hls4ml实际上是一个神经网路最佳化工作流程,是为了欧洲核子研究组织(CERN)的大型强子对撞机(Large Hadron Collider)所开发,现在则是由一个科研社群Fast Machine Learning for Science负责开发。hls4ml最佳化模型以双核心的Arm Cortex-A9处理器以及Xilinx FPGA加速器执行,在影像分类工作负载的延迟为7.9 ms,准确度77%;同样的系统执行异常侦测工作负载的延迟为0.096 ms,准确度82%。gx4ednc

除了参考实例,MLCommons公布的第一轮TinyML系统性能测试不包含能耗表现,完整的跑分结果请参考此连结gx4ednc

(原文发表于ASPENCORE旗下EDN姐妹媒体EETimes,参考链接:MLPerf Launches TinyML Benchmark for Smallest AI Systems,by Sally Ward-Foxton;编译:Judith Cheng)gx4ednc

责编:Demigx4ednc

本文为电子技术设计原创文章,未经授权禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 商务部暂停天然砂对台湾地区出口,台积电难受了 据EDN电子技术设计了解,商务部网站8月3日早晨8点发布最新消息,表示将从即日起暂停天然砂对台湾地区出口。不少网友认为暂停天然砂对台湾地区的出口,此举将严重影响台湾的建筑业,实则影响不仅仅如此。台湾地区天然砂进口量的90%以上来自大陆,而台湾芯片占台湾2021年出口额的34.8%。网友称商务部暂停天然砂对台湾地区出口是捏到了台湾半导体制造业的七寸。
  • 华盛顿大学首创用人体热能为可穿戴电子设备供电 从健康和健身追踪器到虚拟现实设备,可穿戴电子产品已成为我们日常生活的一部分,但找到持续为这些设备供电的方法是一项挑战。华盛顿大学的研究人员开发了一种创新的解决方案:首创的柔性、可穿戴热电设备,可将体热转化为电能。
  • 深圳允许完全自动驾驶车辆上路,主驾无需坐人 据EDN电子技术设计引援央视财经报道,从8月1日开始,《深圳经济特区智能网联汽车管理条例》正式实施,智能网联汽车列入国家汽车产品目录或者深圳市智能网联汽车产品目录,这也让深圳成为了国内首个允许L3级别自动驾驶车辆合法上路的城市。
  • 理想ONE高速起火烧成光架,其1.2T三缸增程器曾被指隐藏 近期,网络平台上发布了一段理想ONE在行驶过程中,车辆出现起火的视频内容。现场拍摄的灭火后图片显示,该轿车过火后仅剩骨架,车辆前部增程器位置受损严重,车辆尾门已经在过火后从车身主体脱落。此前,曾有国内汽车媒体对一台行驶了10万公里的理想ONE的东安1.2T三缸增程发动机进行拆解,被指隐藏暗病。
  • 上海微系统所使用石墨烯纳米带研制出世界上最小尺寸的 非易失性相变随机存取存储器(PCRAM)被认为是大数据时代新兴海量存储的有希望的候选者之一。然而,相对较高的编程能量阻碍了 PCRAM 中功耗的进一步降低。利用石墨烯的窄边接触可以有效降低每个电池中相变材料的活性体积,从而实现低功耗运行。
  • 可解决工业自动化和IIoT挑战的MCU 工业自动化和工业物联网(IIoT)设计人员的性能要求不断变化。就MCU而言,他们希望获得更快的处理速度、更多的内存、更好的连接性和更多的安全功能。
  • 我国建成开通5G基站数达185.4万个 工信部近日透露,截至2022年6月底,中国5G基站数达到185.4万个,其中二季度新增基站近30万个,已建成全球规模最大、技术领先的网络基础设施,实现“县县通5G、村村通宽带”。。
  • 苹果发布2022财年第三财季业绩,营收829.59亿美元 Apple 今日公布了 2022 年第三财季的财务业绩。报告显示,苹果公司第三财季公布收入为 829.59亿美元,去年同期为 814 亿美元,同比增长2%;季度净利润为 194 .4亿美元,去年同期为217 亿美元,同比下降10.6%;其中,iPhone带来的营收406.7亿美元,同比增长3%。
  • 工程师开发出可以看到身体内部的贴纸 麻省理工学院的工程师设计了一种贴片,可以产生身体的超声图像。这种邮票大小的设备贴在皮肤上,可以提供 48 小时内脏器官的连续超声成像。
  • 美国参议院批准价值2460亿美元的芯片法案 美国参议院周三通过立法,以超过 750 亿美元支持国内半导体产业。GlobalFoundries、英特尔、三星代工厂、德州仪器、台积电和其他在美国建立半导体制造设施的公司或将受益。
  • 第三代半导体——碳化硅材料之制程与分析 SiC功率电子是加速电动车时代到来的主要动能。以SiC MOSFET取代目前的Si IGBT,不仅能使电力移转时的能源损耗降低80%以上,同时也可让芯片模块尺寸微缩至原本的1/10,达到延长电动车续航里程及缩短充电时间的功效。
  • 开源软件真的可靠吗? 乍看之下,采用开源软件似乎是个不错的办法,但归根究底,开源软件有几个特性可能会使其变得“邪恶”...
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了