广告

看不懂AI芯片推理性能跑分结果?专家教你!

2019-11-27 09:50:28 廖均 阅读:
继今年早些时候发表了AI训练的性能测试基准,MLPerf近期又针对AI推理性能公布了测试基准MLPerf v0.5以及各公司的AI芯片跑分结果。然而很多读者看了MLPerf跑分结果后表示一头雾水,因为有些系统看来相似分数却大不相同,而且也搞不清楚数字高低究竟代表什么……

继今年早些时候发表了AI训练的性能测试基准,MLPerf近期又针对AI推理性能公布了测试基准MLPerf v0.5以及各公司的AI芯片跑分结果。kCJednc

MLPerf是什么?

MLPerf基准联盟现有50多家成员,包括谷歌、微软、Facebook、阿里巴巴等企业,以及斯坦福、哈佛、多伦多大学等高校,由图灵奖得主大卫·帕特森(David Patterson)于2018年联合谷歌、百度、英特尔、AMD、哈佛大学与斯坦福大学成立。kCJednc

MLPerf基准是业内首套衡量机器学习软硬件性能的通用基准,即训练过的神经网络在不同量级的设备(物联网、智能手机、PC、服务器)、各种应用(自动驾驶、NLP、计算机视觉)上处理新数据的速度。MLPerf是测试推理性能的通用方法,它最终将成为衡量从低功耗SoC中的NPU到数据中心高性能加速器的标准。kCJednc

本次AI芯片的推理测试对来自19家公司机构的594种芯片在各种自然语言和计算机视觉任务中的表现进行了审核,其中5家公司的63个“参赛者”提供了跑分结果,参与推理性能测试基准跑分并提供成绩的公司数量更多,共有14家公司的500组成绩,来自中国、以色列、韩国、英国和美国的公司纷纷提交了测试结果,这些公司包括:阿里巴巴、戴尔EMC、谷歌、浪潮、英特尔、英伟达、米兰理工大学、高通和腾讯等等。kCJednc
kCJednc
MLPerf-F1-20191127.pngkCJednc

MLPerf v0.5 AI芯片推理测试的部分结果如下面的两个表所示。kCJednc

MLPerf-F2-20191127.pngkCJednc

MLPerf-F3-20191127.pngkCJednc

完整的跑分结果请点击这里kCJednc

kCJednc
专家解读MLPerf跑分结果

MLPerf v0.5推理基准测试设有五个基准(目前还没有功耗测试指标),当前套件的桌面/服务器版本涵盖了图像分类(ResNet50),对象检测(ResNet34)和机器翻译任务(GNMT)。所有基准测试都提供了四种方案:单路((Single Stream,一个终端运行一个任务),多路(Multi-Stream一个终端同时运行多个任务),服务器(服务器的实时性能)和离线(不在线的服务器)。测试者可以选择提交任何基准及相应场景的结果。kCJednc

不过,很多读者看了MLPerf跑分结果后表示一头雾水,因为有些系统看来相似但是分数却大不相同,而且也搞不清楚数字高低究竟代表什么……kCJednc

EE Times欧洲特派记者Sally Ward-Foxton为此特地请教了以色列AI芯片新创公司Habana Labs的研究科学家Itay Hubara,他非常耐心地为大家解释了MLPerf v0.5表格中不同的分类(category)、分区(division)、模型(model)以及场景 (scenario)所代表的意义。kCJednc

分类

其中“现货”意味着该系统目前在市场上已经买得到,其软件堆栈必须已经完全准备就绪,而且提供跑分结果的公司得让社区能重现其结果。这意味着不在该公司SDK中的所有代码必须要上传到MLPerf的Github平台。kCJednc

在“预览”分类中的系统,意味着提交分数的公司需要让该产品在MLPerf下一次(预计是明年夏天)公布AI芯片推理性能分数时上市,而在这个分类中的公司不需要提供所有的软件。此外还有“研发与其他”分类,这意味着此分类中的系统仍在原型阶段,还没有量产计划,提交分数的单位也不需要分享任何软件。kCJednc

分区

MLPerf提供了两个测试“分区”:封闭分区(Closed Division)和开放分区(Open Division)。kCJednc

封闭分区是“苹果对苹果(apples-to-apples)”测试,是让各系统能够直接比较,参与的公司必须遵守严格的规范,芯片将获得预先训练的网络和预先训练的权重。在选择要使用的精度等级时,芯片公司在量化方面仍具有一定的灵活性,但是在封闭的分区,他们的解决方案仍必须达到数学上的等效性,并且禁止重新训练网络。kCJednc

相比之下,开放分区显然更加开放。芯片公司被允许重新训练网络以及进行更广泛的量化工作。绝对不是封闭测试区那样苹果对苹果,开放分区本质上是一种结构较少的结构化格式,可以让芯片公司以最佳的方式展示其解决方案和团队的独创性。kCJednc

Hubara将开放分区形容为“牛仔世界”,参与者不需要遵循什么规则,不过必须透露它们做了哪些变更,诸如重新训练了模型,或者是进行了微调。kCJednc
kCJednc
MLPerf-F4-20191127.pngkCJednc

参与开放分区的公司通过让自家的算法工程师大显身手来展现优势,例如,Habana Labs在开放分区中的分数,其延迟性降低到只有封闭分区中的四分之一,充分发挥了Goya芯片的性能。不过基于封闭与开放分区的本质,并不适合将封闭分区与开放分区中的分数拿来比较,甚至将开放分区中的分数互相比较也不合适。kCJednc

模型

MobileNet-v1与ResNet-50 v1.5都是以ImageNet数据集进行推理的图像分类模型,MobileNet是手机用的轻量化网络,ResNet-50相较之下属于较重量级、适合较大的加速器使用。kCJednc

MobileNet-v1与ResNet-34的SSD算法都是用来进行物体检测,SSD的全名为单次多框检测器(Single Shot MultiBox Detector),是一种用来检测一幅图像中的单个物体以便进行分类的算法,必须搭配MobileNet或ResNet等分类算法使用。kCJednc

MobileNet是较轻量化的模型,适用于较低分辨率的图像(300 x 300或0.09 Mpix);ResNet-34模型则能支持较高分辨率的图像(1,200 x 1,200或1.44 Mpix)。这些模型都是使用COCO (Common Objects in Context)数据集进行推理。kCJednc

GNMT则是唯一并非以卷积神经网络或是图像处理为基础的测试基准,它是用于语言翻译(在这里的案例是德文翻英文)的递归神经网络。kCJednc

场景

总共有4种不同的场景,两种是边缘的推理,另外两种是数据中心的推理。其中单路只是测量推理一幅图像——样本总数为1——所需时间,单位是毫秒。在这个项目中,分数越低越好,而这种场景可能是对应于一次执行单一图像推理的手机。kCJednc
kCJednc
MLPerf-F5-20191127.pngkCJednc

多路则是测量某系统一次能处理多少图像数据流(样本总数大于1),依据不同模型,延迟在50~100毫秒之间。这时分数越高越好。表现优良的系统最后可能是出现在配备很多个对着不同方向的摄像头的自动驾驶车辆,或者是监控摄像系统。kCJednc

在服务器场景中,多个使用者会随机发送请求给系统,测量指标是该系统能在特定的延迟时间内支持多少请求;这里的数据流不像是多路场景那样持续,难度会更高,因为样本数可能是动态的。数字越高代表成绩越好。kCJednc

离线场景可能是对一本相册中的图像进行批处理,其中的数据能以任何顺序进行处理。这个场景没有延迟的限制,以每秒多少图像为单位描述其处理量,数字越高代表成绩越好。kCJednc

加速器数量

这个测量基准比较的是系统而非芯片。有些系统可能有一个主芯片和一个加速器芯片,而最大规模的系统拥有128颗Google的张量处理单元(TPU)加速器芯片。这里的分数并未针对每个加速器正规化,因为主芯片也扮演重要角色,它们与加速器的数量大致呈线性关系。kCJednc

为何有些分数是空白的?

MLPerf并未要求参与者提供每一种场景或模型的测试结果,用于终端平台的元件可能只会选择提交单路与多路场景的分数。数据中心平台就可能会选择只提供服务器与离线场景的测试分数。而显然每一家公司都选择提交它们认为最能表现其系统优点的分数。kCJednc

还有另一个可能的因素是,Hubara举例说,Habana的分数栏空白,是因为该公司来不及在这一次成绩公布的截止收件时间内提交测试分数。此外在GNMT翻译模型项目提交分数的公司也比较少,因为这个模型现在被广泛认为已经过时,很多公司更愿意花时间布署较新的算法,例如BERT。kCJednc

其他考虑因素

而整体说来,MLPerf的分数是测量纯性能,要为某个实际应用选择一套系统当然还需要考量许多其他因素。例如在这一系列成绩单中,并没有关于功耗的测量 (据说在下一个版本的测试基准中会包含)。kCJednc

成本也是一个未包括的指标。如果一套系统只有一颗加速器芯片,而另外一套有128颗加速器芯片,显然两者在价格上一定会不同。MLPerf的表格也列出了每一套系统使用的主处理器,这可能会带来额外的成本,而且也可能会需要昂贵的水冷系统。kCJednc

至于系统主机的外观——例如移动/手持式、桌面/工作站、服务器、边缘/嵌入式则是由系统制造商自行提供的指标,并非每一个分类中严格限制的基准参数。kCJednc

在MLPerf表格右侧,点击每一个系统的“细节”(details)链接,则能看到该系统更详细的软硬件规格,值得参考。在其详细规格中的某些部份是必填信息,有些不是,但从中可以得知散热等系统要求。

本文为电子技术设计原创文章,未经授权禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
廖均
电子技术设计(EDN China)产业分析师
 • 微信扫一扫
  一键转发
 • 最前沿的电子设计资讯
  请关注“电子技术设计微信公众号”
 • 因眼睛小车主被辅助驾驶误判“开车睡觉”,小鹏、蔚来回 昨日,汽车博主@常岩CY 发博称自己突然上了热搜,原来就是因自己眼睛小被小鹏汽车自动驾驶误判“开车睡觉”,不住的发出提醒。此外,@常岩CY 称在多款车型上都收到此困扰。无论是红外还是摄像头,只要开始检测眼睛,就会判定过度疲劳。小鹏P7会提示他睡觉,蔚来ET7一开车就认为其疲劳和走神,岚图FREE会在冬天为了让其“别困”而打开冷风……
 • 国际象棋机器人Chessrobot夹断对手手指,意外还是设计缺 据悉,在7月19日的莫斯科国际象棋公开赛期间,一位7岁小男孩疑似因提前走子犯规手,意外被“对手”国际象棋机器人Chessrobot夹住手指,造成指骨骨折,该事件登上了热搜榜。该男孩是莫斯科9岁以下最强的30位棋手之一。
 • “智能家居”未来将可通过呼吸控制操作 凯斯西储大学的研究人员创造了一个简单的原型设备,使用户能够通过改变他们的呼吸模式来控制“智能家居”。这种自供电装置可放入鼻孔,并有可能提高行动不便或无法清晰说话的人的生活质量。如果个人呼吸困难,它也可以编程为医务人员提供自动警报。
 • 核酸采样机器人将取代“大白”?用了哪些技术保证采样准 取棉签、核酸采样、储存核酸采样管、设备消杀……动作精准流畅,今后给你核酸采样的可能不再是“大白”,而是机器人。EDN小编就带大家来看看,目前已被使用的核酸采样机器人有哪些?
 • AI视觉芯片如何赋能两轮车出行? 6月29日,在由全球领先的专业电子机构媒体AspenCore和深圳市新一代信息通信产业集群联合主办的“2022国际AIoT生态发展大会-智慧两轮车分论坛”中,嘉楠科技副总裁汤炜伟以《勘智AI视觉芯,赋能智眼两轮行》为主题,向大家分享了嘉楠地芯片设计创新历程,及其RISCV架构AI芯片技术路线图,并以具体案例展示AI视觉芯片如何赋能两轮车出行。
 • 碎片化、成本高是难题,AIoT行业需要哪些改变? 作为AIoT的行业基石,物联网市场到2022年预计将达到 144 亿活跃连接。随着供应限制的缓解和增长的进一步加速,IoT Analytics 最新预测指出,到2025年全球将有大约 270 亿台联网物联网设备。中国物联网链接到2025年也将达到80亿。随着整个AIoT和IoT市场的快速成长与变化,我们将面临哪些风险和挑战?
 • 英特尔张宇:边缘AI有三个阶段,我们还处在山脚 在AspenCore举办的“2022国际AIoT生态发展大会”上,英特尔公司高级首席工程师、物联网事业部中国区首席技术官张宇博士通过视频方式分享了“边缘AI技术发展趋势与展望”主题演讲。
 • 世界上尺寸最大的芯片Wafer Scale Engine-2打破了在单 Cerebras公司售价数百万美元的“全球最大AI芯片”Wafer Scale Engine-2又有新消息,在基于单个Wafer Scale Engine-2芯片的CS-2系统上训练了世界上最大的拥有200亿参数的NLP(自然语言处理)人工智能模型。
 • 婴儿或可帮助解锁下一代人工智能 都柏林圣三一学院的神经科学家及其同事刚刚发布了改进人工智能的新指导原则,他们表示,婴儿可以帮助解锁下一代人工智能(AI)。
 • 纯视觉自动驾驶更安全?美国交通部发布数据打脸特斯拉 特斯拉的纯视觉自动驾驶到底效果如何?真的如马斯克所说的:“通过摄像头和计算机网络让自动驾驶比人类驾驶更安全”吗?近日美国国家公路交通安全管理局发布了一份新的数据,颇有打脸特斯拉的意味。
 • 每秒可对近20亿张图像进行处理分类的“超级芯片” 在测试过程中,该团队制作了一个尺寸为 9.3 mm 2(0.01 in 2)的芯片,并将其用于对一系列类似于字母的手写字符进行分类。在对相关数据集进行训练后,该芯片能够对包含两种字符集的图像进行分类,准确率达到 93.8%,对四种类型的图像进行分类准确率为 89.8%。
 • 人工智能的创新发明,专利权属于谁? 随着人工智能技术的发展进步,近几年出现了许多涉及人工智能的发明,如2020 年,机器学习算法帮助研究人员开发了一种对多种病原体有效的抗生素(参见Nature),此外,人工智能 (AI) 也被用于帮助疫苗开发、药物设计、材料发现、空间技术和船舶设计。那么这些由人工智能发明的技术,专利到底归属于谁呢?
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了