看不懂AI芯片推理性能跑分结果？专家教你！-EDN 电子技术设计

 继今年早些时候发表了AI训练的性能测试基准，MLPerf近期又针对AI推理性能公布了测试基准MLPerf v0.5以及各公司的AI芯片跑分结果。然而很多读者看了MLPerf跑分结果后表示一头雾水，因为有些系统看来相似分数却大不相同，而且也搞不清楚数字高低究竟代表什么……

继今年早些时候发表了AI训练的性能测试基准，MLPerf近期又针对AI推理性能公布了测试基准MLPerf v0.5以及各公司的AI芯片跑分结果。84lednc

MLPerf是什么？

MLPerf基准联盟现有50多家成员，包括谷歌、微软、Facebook、阿里巴巴等企业，以及斯坦福、哈佛、多伦多大学等高校，由图灵奖得主大卫·帕特森（David Patterson）于2018年联合谷歌、百度、英特尔、AMD、哈佛大学与斯坦福大学成立。84lednc

MLPerf基准是业内首套衡量机器学习软硬件性能的通用基准，即训练过的神经网络在不同量级的设备（物联网、智能手机、PC、服务器）、各种应用（自动驾驶、NLP、计算机视觉）上处理新数据的速度。MLPerf是测试推理性能的通用方法，它最终将成为衡量从低功耗SoC中的NPU到数据中心高性能加速器的标准。84lednc

本次AI芯片的推理测试对来自19家公司机构的594种芯片在各种自然语言和计算机视觉任务中的表现进行了审核，其中5家公司的63个“参赛者”提供了跑分结果，参与推理性能测试基准跑分并提供成绩的公司数量更多，共有14家公司的500组成绩，来自中国、以色列、韩国、英国和美国的公司纷纷提交了测试结果，这些公司包括：阿里巴巴、戴尔EMC、谷歌、浪潮、英特尔、英伟达、米兰理工大学、高通和腾讯等等。84lednc
84lednc
84lednc

MLPerf v0.5 AI芯片推理测试的部分结果如下面的两个表所示。84lednc

84lednc

完整的跑分结果请点击这里。84lednc

84lednc
专家解读MLPerf跑分结果

MLPerf v0.5推理基准测试设有五个基准（目前还没有功耗测试指标），当前套件的桌面/服务器版本涵盖了图像分类（ResNet50），对象检测（ResNet34）和机器翻译任务（GNMT）。所有基准测试都提供了四种方案：单路（(Single Stream，一个终端运行一个任务），多路（Multi-Stream一个终端同时运行多个任务），服务器（服务器的实时性能）和离线（不在线的服务器）。测试者可以选择提交任何基准及相应场景的结果。84lednc

不过，很多读者看了MLPerf跑分结果后表示一头雾水，因为有些系统看来相似但是分数却大不相同，而且也搞不清楚数字高低究竟代表什么……84lednc

EE Times欧洲特派记者Sally Ward-Foxton为此特地请教了以色列AI芯片新创公司Habana Labs的研究科学家Itay Hubara，他非常耐心地为大家解释了MLPerf v0.5表格中不同的分类(category)、分区(division)、模型(model)以及场景 (scenario)所代表的意义。84lednc

分类

其中“现货”意味着该系统目前在市场上已经买得到，其软件堆栈必须已经完全准备就绪，而且提供跑分结果的公司得让社区能重现其结果。这意味着不在该公司SDK中的所有代码必须要上传到MLPerf的Github平台。84lednc

在“预览”分类中的系统，意味着提交分数的公司需要让该产品在MLPerf下一次(预计是明年夏天)公布AI芯片推理性能分数时上市，而在这个分类中的公司不需要提供所有的软件。此外还有“研发与其他”分类，这意味着此分类中的系统仍在原型阶段，还没有量产计划，提交分数的单位也不需要分享任何软件。84lednc

分区

MLPerf提供了两个测试“分区”：封闭分区(Closed Division)和开放分区(Open Division)。84lednc

封闭分区是“苹果对苹果（apples-to-apples）”测试，是让各系统能够直接比较，参与的公司必须遵守严格的规范，芯片将获得预先训练的网络和预先训练的权重。在选择要使用的精度等级时，芯片公司在量化方面仍具有一定的灵活性，但是在封闭的分区，他们的解决方案仍必须达到数学上的等效性，并且禁止重新训练网络。84lednc

相比之下，开放分区显然更加开放。芯片公司被允许重新训练网络以及进行更广泛的量化工作。绝对不是封闭测试区那样苹果对苹果，开放分区本质上是一种结构较少的结构化格式，可以让芯片公司以最佳的方式展示其解决方案和团队的独创性。84lednc

Hubara将开放分区形容为“牛仔世界”，参与者不需要遵循什么规则，不过必须透露它们做了哪些变更，诸如重新训练了模型，或者是进行了微调。84lednc
84lednc
84lednc

参与开放分区的公司通过让自家的算法工程师大显身手来展现优势，例如，Habana Labs在开放分区中的分数，其延迟性降低到只有封闭分区中的四分之一，充分发挥了Goya芯片的性能。不过基于封闭与开放分区的本质，并不适合将封闭分区与开放分区中的分数拿来比较，甚至将开放分区中的分数互相比较也不合适。84lednc

模型

MobileNet-v1与ResNet-50 v1.5都是以ImageNet数据集进行推理的图像分类模型，MobileNet是手机用的轻量化网络，ResNet-50相较之下属于较重量级、适合较大的加速器使用。84lednc

MobileNet-v1与ResNet-34的SSD算法都是用来进行物体检测，SSD的全名为单次多框检测器(Single Shot MultiBox Detector)，是一种用来检测一幅图像中的单个物体以便进行分类的算法，必须搭配MobileNet或ResNet等分类算法使用。84lednc

MobileNet是较轻量化的模型，适用于较低分辨率的图像(300 x 300或0.09 Mpix)；ResNet-34模型则能支持较高分辨率的图像(1,200 x 1,200或1.44 Mpix)。这些模型都是使用COCO (Common Objects in Context)数据集进行推理。84lednc

GNMT则是唯一并非以卷积神经网络或是图像处理为基础的测试基准，它是用于语言翻译(在这里的案例是德文翻英文)的递归神经网络。84lednc

场景

总共有4种不同的场景，两种是边缘的推理，另外两种是数据中心的推理。其中单路只是测量推理一幅图像——样本总数为1——所需时间，单位是毫秒。在这个项目中，分数越低越好，而这种场景可能是对应于一次执行单一图像推理的手机。84lednc
84lednc
84lednc

多路则是测量某系统一次能处理多少图像数据流(样本总数大于1)，依据不同模型，延迟在50~100毫秒之间。这时分数越高越好。表现优良的系统最后可能是出现在配备很多个对着不同方向的摄像头的自动驾驶车辆，或者是监控摄像系统。84lednc

在服务器场景中，多个使用者会随机发送请求给系统，测量指标是该系统能在特定的延迟时间内支持多少请求；这里的数据流不像是多路场景那样持续，难度会更高，因为样本数可能是动态的。数字越高代表成绩越好。84lednc

离线场景可能是对一本相册中的图像进行批处理，其中的数据能以任何顺序进行处理。这个场景没有延迟的限制，以每秒多少图像为单位描述其处理量，数字越高代表成绩越好。84lednc

加速器数量

这个测量基准比较的是系统而非芯片。有些系统可能有一个主芯片和一个加速器芯片，而最大规模的系统拥有128颗Google的张量处理单元(TPU)加速器芯片。这里的分数并未针对每个加速器正规化，因为主芯片也扮演重要角色，它们与加速器的数量大致呈线性关系。84lednc

为何有些分数是空白的？

MLPerf并未要求参与者提供每一种场景或模型的测试结果，用于终端平台的元件可能只会选择提交单路与多路场景的分数。数据中心平台就可能会选择只提供服务器与离线场景的测试分数。而显然每一家公司都选择提交它们认为最能表现其系统优点的分数。84lednc

还有另一个可能的因素是，Hubara举例说，Habana的分数栏空白，是因为该公司来不及在这一次成绩公布的截止收件时间内提交测试分数。此外在GNMT翻译模型项目提交分数的公司也比较少，因为这个模型现在被广泛认为已经过时，很多公司更愿意花时间布署较新的算法，例如BERT。84lednc

其他考虑因素

而整体说来，MLPerf的分数是测量纯性能，要为某个实际应用选择一套系统当然还需要考量许多其他因素。例如在这一系列成绩单中，并没有关于功耗的测量 (据说在下一个版本的测试基准中会包含)。84lednc

成本也是一个未包括的指标。如果一套系统只有一颗加速器芯片，而另外一套有128颗加速器芯片，显然两者在价格上一定会不同。MLPerf的表格也列出了每一套系统使用的主处理器，这可能会带来额外的成本，而且也可能会需要昂贵的水冷系统。84lednc

至于系统主机的外观——例如移动/手持式、桌面/工作站、服务器、边缘/嵌入式则是由系统制造商自行提供的指标，并非每一个分类中严格限制的基准参数。84lednc

在MLPerf表格右侧，点击每一个系统的“细节”(details)链接，则能看到该系统更详细的软硬件规格，值得参考。在其详细规格中的某些部份是必填信息，有些不是，但从中可以得知散热等系统要求。

本文为电子技术设计原创文章，未经授权禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

1/2 1 2 下一页尾页

阅读全文，请先

廖均

电子技术设计（EDN China）产业分析师

进入专栏

人工智能产业前沿 EDA/IP/IC设计 EDN原创

上一篇： 高能效车载充电方案 下一篇： 如何设计符合整车厂要求的CAN物理层接口电路？

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
情境感知AI：利用FPGA技术增强边缘智能现场可编程门阵列（FPGA）的灵活性、现场升级能力和互操作性，结合其低功耗、低延迟和并行处理能力，使其成为开发者克服挑战并优化情境边缘AI应用的关键工具。
ADAS 系统中的传感器创新如何在道路交通中挽救生命在本文中，我们将探讨 ADAS 在提高道路安全方面的作用，以及各种对实现这一目标至关重要的传感器技术。
增强自主移动机器人的安全性如何设计出能安全有效地与人类协作的 AMR 系统，需要考虑哪些关键要素？本文进行了探讨。
JEDEC最终确定HBM4标准，内存大厂的更新进度如何？近日，JEDEC宣布发布HBM4 DRAM标准，为AI和HPC提供更高的带宽、效率和容量···

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

看不懂AI芯片推理性能跑分结果？专家教你！

MLPerf是什么？

84lednc 专家解读MLPerf跑分结果

分类

分区

模型

场景

加速器数量

为何有些分数是空白的？

其他考虑因素

84lednc
专家解读MLPerf跑分结果