广告

小型AI系统也要比性能!MLPerf发表TinyML测试基准

2021-06-25 Sally Ward-Foxton,EE Times欧洲特派记者 阅读:
产业联盟MLCommons近日发表了专为TinyML系统设计的新性能指标,同时也公布了第一次使用该MLPerf Tiny指标进行的推论系统跑分结果。

机器学习(ML)系统性能测试基准MLPerf的幕后推手、产业联盟MLCommons近日发表了专为TinyML系统设计的新性能指标,同时也公布了第一次使用该MLPerf Tiny指标进行的推论系统跑分结果。TR2ednc

MLPerf已经为高性能运算(HPC)系统、资料中心以及行动装置等级的系统提供性能测试基准,新的TinyML系统性能基准,则是专为那些在资源极度受限环境中执行机器学习工作负载的装置所设计。MLCommons执行总监David Kanter表示,现在MLPerf基准可涵盖“微瓦(microwatts)到千瓩(megawatts)等级的机器学习系统。TR2ednc

他指出:“如果你检视一些我们的训练以及HPC性能测试基准,HPC基准可在全球最大超级电脑上的1万6,000个节点上执行;在Tiny基准方面,则是关于我们如何量测那些最小、最低功耗的装置(参考下图)。” TR2ednc

TR2ednc

MLPerf性能测试基准的涵盖范围从TinyML装置到大型资料中心设备。(图片来源:MLCommons)TR2ednc

通常TinyML系统意味着以嵌入式微控制器/处理器在感测器节点执行感测器资料推论的系统,可能是来自麦克风、摄影机等感测装置的资料。一个这种等级的典型神经网路装置可能资料量只有100kB或更少,而且受限于电池电量。TR2ednc

尽管TinyML并没有明确的定义,该名词通常是指以微控制器为基础的系统;MLPerf已经将之延伸了一点点,因此也涵盖包括Raspberry Pi在内的系统。MLPerf Tiny推论性能测试基准工作小组主席、美国哈佛大学(Harvard University)教授Vijay Janapa Reddi则表示,开发这个领域的性能测试基准是一项挑战。TR2ednc

“任何推论系统都有复杂的堆叠,但在TinyML,所有的东西都是与感测器资料──音讯、视觉、惯性量测单元(IMU)──有关,生态系统特别复杂;”Janapa Reddi表示:“在嵌入式领域特别具挑战性,是因为大多数的硬体有其客制化工具链…这使得性能基准测试极具挑战。我们必须从头特制很多基础架构,那不是能轻易从MLPerf推论性能基准借用的。”TR2ednc

他补充指出,有鉴于该堆叠的所有部分都有广泛的创新,要定义一个固定的性能测试基准以有效展现那些硬体、软体、工具以及演算法的创新,在TinyML领域是特别大的挑战。TR2ednc

工作负载选择

MLPerf工作小组是与嵌入式微处理器性能测试基准联盟(Embedded Microprocessor Benchmark Consortium,EEMBC)合作开发TinyML的性能测试基准,利用了EEMBC的测试工具(EnergyRunner框架),MLPerf工作小组则是定义工作负载、规则以及性能测试基准。TR2ednc

与其他的MLPerf性能测试基准一样,各组织能提交执行一个或多个不同工作负载的硬体与软体系统跑分结果,但TinyML性能基准要支援多样性的应用案例,让系统可选择工作负载来呈现常见的应用会特别困难。为此,MLPerf Tiny推论工作小组将之缩小为四种工作负载:TR2ednc

  • 关键字识别(Keyword spotting) ──利用Google的语音指令资料集(Speech Commands Dataset),以DS-CNN模型进行有限词汇的语音识别。
  • 异常侦测(Anomaly detection) ──利用机器以Deep Autoencoder模型运作ToyADMOS声音资料集,进行音讯时间序列异常侦测。
  • 视觉唤醒词(Visual wake words) ──这是一个两类别影像分类的工作负载,影像被区分为“人”或“非人”,利用MobileNetV1 0.25X模型执行视觉唤醒词资料集(Visual Wake Words Dataset )。
  • 影像分类(Image classification) ──以ResNet-8模型进行CIFAR10资料集的多类别(10类)影像分类。

如同其他MLPerf性能测试基准,MLPerf Tiny推论基准也有“封闭”与“开放”两种赛程(division),以尝试提供相似系统的可比性,还有展示创新方法的灵活性;此外,也让提交者展示其附加价值,无论他们要聚焦在堆叠的哪一个部份。由MLPerf工作小组定案的性能指标是既定预测准确度下的延迟性,以及既定预测准确度下的功耗。TR2ednc

该基准的延迟性分数是必选项,功耗量测则是可选的。但因为TinyML系统通常会在功耗与性能之间有谨慎的平衡折衷,我们是否真的能在不同时看到两种指标的情况下,得到一个清晰的系统性能评分结果?TR2ednc

对此,MLCommons的Kanter表示:“我们把这个版本的测试基准叫做0.5版,有部份原因是因为这是我们第一次的MLPerf Tiny推论跑分结果。取得结果、订定规则以及打造性能测试基准套件实际上是非常重要的任务,而在其上产生功耗/能耗结果又添加了一层复杂性…”TR2ednc

“我坚信要先学爬、再学会走路,然后才能跑,要让事情开始、动起来,然后再最佳化、或者添加一些额外的能耗/功耗量测复杂性;”他接着指出: “我想,在我们下一轮的跑分结果中,应该会看到更多能耗量测。”TR2ednc

Janapa Reddi也同意以上观点,补充指出该TinyML测试基准将会随着产业进展更进一步提供清晰度;“这是一个还在萌芽的领域,正尝试找到立足点。我们可以等个三年让它成熟,因为在不同地方都会有大量的TOPS以及每瓦TOPS数字;然后我们可以尝试进行某种程度的标准化,或者从一开始就与产业界合作,协助他们设定一个合理的方向…”TR2ednc

他表示:“对我来说,这与确切的数字或系统无关,更多是关于为这个社群提供清晰度与能见度,让他们能加速进展。”TR2ednc

TR2ednc

TinyML系统的技术堆叠相当复杂。(图片来源:MLCommons) TR2ednc

TinyML领域厂商情况与资料中心系统业者迥异,有更多新创公司以及中小型企业。MLPerf的TinyML工作小组共同主席Colby Banbury表示,他们也将这个特性纳入了考量;“我们在设计测试基准的一开始就想到这个,因此特别着重参考实例并尝试构建出来。我认为其重要性程度在先前几代的MLPerf推论基准中不一定存在,因为没有那么多需求。”TR2ednc

由工作小组提供的参考实例是一组所有工作负载都是在意法半导体(ST) Nucleo-L4R5ZI开发板上执行的延迟性与功耗跑分;选择该开发板是因为其开放平台、广泛可取得性以及成本可负担性。该开发板采用STM32 Arm Cortex-M4微控制器,如果有需要,完整的实例能提供未来提交者使用,作为他们自己的系统的起跑点。TR2ednc

Banbury举例指出,理论上,一家软体供应商能采用该参考实例堆叠,更换为他们自己特定的零组件并相当容易地执行。TR2ednc

第一轮跑分结果

MLPerf Tiny推论性能测试基准的第一轮跑分结果,在封闭赛程中有4套系统提交分数(包括参考系统),开放赛程则是有一套系统提交份数。在封闭赛程中,美国软体开发商Latent AI提供了执行在Raspberry Pi的两套纯软体解决方案,该公司不挑硬体的Latent AI Efficient Inference Platform (LEIP)软体开发套件能用以最佳化运算、能耗与记忆体效率。TR2ednc

Latent AI提交的4种工作负载延迟性分数都分别以FP32与INT8精度模型来跑分,执行关键字识别工作负载的延迟性结果为0.39 ms (FP32模型)或0.42 ms (INT8模型),而参考系统的结果是181.92 ms。中国的一家研究机构鹏城实验室(Peng Cheng Laboratory)所提交的系统,是将4种工作负载的跑分作为其TinyML应用自制RISC-V微控制器元件的概念验证,该系统的关键字识别执行结果为325.63 ms,参考实例则为181.92 ms。TR2ednc

另一家美国业者Syntiant所提交的系统是唯一使用了硬体加速器的,在执行关键字识别任务的延迟为5.95 ms (参考实例系统的延迟为181.92 ms)。该公司的NDP120系统单晶片就是为了关键字识别所设计,采用Arm Cortex-M0处理器CPU核心,加上Syntiant的Core 2加速器。TR2ednc

在开放赛程只有hls4ml一个提交系统;hls4ml实际上是一个神经网路最佳化工作流程,是为了欧洲核子研究组织(CERN)的大型强子对撞机(Large Hadron Collider)所开发,现在则是由一个科研社群Fast Machine Learning for Science负责开发。hls4ml最佳化模型以双核心的Arm Cortex-A9处理器以及Xilinx FPGA加速器执行,在影像分类工作负载的延迟为7.9 ms,准确度77%;同样的系统执行异常侦测工作负载的延迟为0.096 ms,准确度82%。TR2ednc

除了参考实例,MLCommons公布的第一轮TinyML系统性能测试不包含能耗表现,完整的跑分结果请参考此连结TR2ednc

(原文发表于ASPENCORE旗下EDN姐妹媒体EETimes,参考链接:MLPerf Launches TinyML Benchmark for Smallest AI Systems,by Sally Ward-Foxton;编译:Judith Cheng)TR2ednc

责编:DemiTR2ednc

本文为EDN电子技术设计 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 酒店房间装有摄像头?防偷窥神器是怎样检测出的? EDN小编在某科技类微信群看到了一条关于“酒店马桶内装有摄像头,用防偷拍神器可以检测到”的短视频,群里的科技大拿们对此展开了热烈讨论。有人提问说,这到底是摄像头还是智能马桶的红外感应器?有人说,看来智慧家居给偷拍产业提供了隐藏。还有人认为,这很可能是女主播为了带货拍的广告视频……那么事情的真相是什么?
  • iPhone 14 Pro 将采用“药丸+圆孔”双孔设计 传闻称苹果计划在今年推出的iPhone 14系列的部分机型上,更改刘海屏设计,iPhone 14 Pro和 14 Pro Max 将采用药丸形切口设计,可容纳Face ID元素和自拍相机的第二个孔。
  • 台积电、联电校招万人,业内人士:行业薪资达十年来最高水 近日,台积电、联电开启了校招活动,其中,台积电预计招募超过8000名新员工、联电预计招募 2000 名人才,硕士毕业工程师平均年薪上看200万新台币,约合人民币45万元。晶圆厂们大手笔扩招源于晶圆厂们2021年的“疯狂”扩产。
  • 黑客“开源”英伟达后续:开源三星源代码,下一个是高通 此前英伟达遭到了黑客组织的网络攻击,导致超过1TB的数据泄露,由于与英伟达交涉不畅,黑客组织现在正试图将窃取的信息出售给第三方。与此同时,黑客又“帮”三星把代码给开源了,顺便还把高通也捎上了。
  • 被二十余家科技巨头“制裁”,俄罗斯反击:停供美国火箭发 随着俄罗斯与乌克兰冲突的持续升级,以美国为首的北约成员国和欧洲国家纷纷对俄罗斯宣布制裁,不少科技行业也加入了制裁俄罗斯的队伍。如英特尔、AMD断供,苹果在俄停售,美国社交平台“禁言”俄罗斯媒体、甲骨文、SAP等云巨头停服俄罗斯等,但值得一提的是,俄罗斯也进行了反击。不仅停止了向美国交付火箭发动机,终止两国在国际空间站的实验合作,还启用本国互联网 Runet。
  • PCIe 5.0连接器线缆详细信息曝光,最高支持600W 日前,Twitter 用户@momomo_us透露了进一步研究 PCIe Gen 5.0 连接器标准的图片和内容。根据泄漏者 @momom_us 发布的 PPT显示,即将推出的 PCIe Gen5 显卡标准官方名称为“12VHPWR”,负责定义 ATX 规格的英特尔数据显示,该接口将支持 4 种电源配置,分别为 150W、300W、450W、600W。
  • 英特尔、AMD、Arm等九大企业宣布UCIe开放标准,推动Chip 英特尔、AMD、Arm 和所有领先的代工厂商齐聚一堂,包括高通、三星、台积电、日月光,以及Google Cloud、Meta、微软,宣布他们正在为小芯片互连制定一个新的开放标准Universal Chiplet Interconnect Express (UCIe),希望以UCIe 1.0规范建立芯片互连、兼容运作,让更多业者能依照此标准打造新款处理器,并且能配合不同微芯片建构差异化设计。
  • 英伟达被黑客组织勒索,网友从泄露数据中挖出核心机密信 NVIDIA近日被南美黑客组织勒索攻击一事引起了网友的关注。不同于竞品中的AMD FSR采样技术和英特尔XeSS采样技术,英伟达之前从未公布过DLSS的源代码,很不愿意将这个大量挣钱的独有技术给开源了。部分获得了这些数据的人已经开始了对代码的分析、并试图弄懂DLSS的工作原理。
  • 联发科超越高通,成美国Android手机芯片首选 据EDN电子技术设计报道,联发科在其天玑 8000 系列简报中报告称,在美国销售的所有Android手机中,联发科芯片占比排名第一,并引用了IDC 2021 年第四季度的统计数据。
  • 从技术角度分析,GaN和SiC功率器件上量还欠什么? 氮化镓(GaN)和碳化硅(SiC)这两种新器件正在推动电力电子行业发生重大变化,它们在汽车、数据中心、可再生能源、航空航天和电机驱动等多个行业取得了长足的进步。在由AspenCore集团举办的PowerUP Expo大会上,演讲嘉宾们深入探讨了包括GaN和SiC在内的宽禁带(WBG)器件的技术优势以及发展趋势。
  • 研发转至FAE(现场应用工程师),是否远离技术了?有前途吗? 前几日,EDN小编在浏览知乎的时候,发现了一个有趣的话题《FAE有什么发展前景吗?》,被浏览次数接近九万次。小编总结了一下题主的提问:FAE是否远离技术了?未来是否有发展前景?
  • 小米发布“小感量+磁吸”无线充电预研技术,最高支持50W 据EDN电子技术设计报道,昨日,@小米手机 官微宣布,正式发布小感量+磁吸”无线充电预研技术,其磁吸无线充电功率最高可达50W,损耗降低50%。据悉,该技术与传统无线充电方案采用大感量线圈不同,小米的小感量无线快充技术方案采用小感知线圈去感应发送端能量。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了