广告

Graphcore第二代IPU-M2000性能测试出炉,相比A100多个指标提升数倍

2021-01-12 12:32:13 Challey 阅读:
今年2月,EE Times评选出“十大AI芯片创企”,其中来自英国的Graphcore凭借其为AI计算而生研发的IPU获选。7月,Graphcore在布里斯托和北京同步推出了两款硬件产品:第二代IPU芯片Colossus MK2 GC200 IPU(简称MK2 IPU),以及包含四颗MK2 IPU,可用于大规模集群系统的IPU-Machine:M2000 (IPU-M2000)。最近,Graphcore公开了IPU-M2000的应用性能测试。这次Benchmark显示,相比A100,在IPU-M2000上,ResNet的吞吐量提升了4倍,ResNeXt的吞吐量提升了5.4倍,EfficientNet的吞吐量达到了18倍,Deep Voice 3达到了13倍。

Graphcore主推的IPU在业界被称为继CPU、GPU以外的第三类AI芯片。今年2月,EE Times评选出“十大AI芯片创企”,其中来自英国的Graphcore凭借其为AI计算而生研发的IPU获选。7月,Graphcore在布里斯托和北京同步推出了两款硬件产品:第二代IPU芯片Colossus MK2 GC200 IPU(简称MK2 IPU),以及包含四颗MK2 IPU,可用于大规模集群系统的IPU-Machine:M2000 (IPU-M2000)。最近,Graphcore公开了IPU-M2000的应用性能测试。这次Benchmark显示,相比A100,在IPU-M2000上,ResNet的吞吐量提升了4倍,ResNeXt的吞吐量提升了5.4倍,EfficientNet的吞吐量达到了18倍,Deep Voice 3达到了13倍。33Uednc

第二代IPU-M2000应用测试性能

IPU-M2000是继英伟达的GPU和谷歌的TPU之后,世界上第三个公开发布的能够训练BERT-Large模型的AI处理器产品。最近公布的应用性能测试中表现优异。33Uednc

33Uednc

 33Uednc

这次发布的基于MK2 IPU的IPU-M2000的Benchmark覆盖了很多模型的训练结果,包括典型的CV模型ResNet、基于分组卷积的ResNeXt、EfficientNet、语音模型、BERT-Large等自然语言处理模型,MCMC等传统机器学习模型。其中BERT-Large这样的大型模型或是MCMC这样的传统模型,在一台IPU-POD64这样的系统级产品中训练,相比在2台DGX-A100上训练,也能够实现一定的性能收益。33Uednc

在不同的机器学习训练中,最新IPU-M2000和IPU-POD的具体性能指标

33Uednc

上图展示了BERT-Large端到端的训练时间性能,最上方的是DGX-A100的性能,端到端的训练时间是69.5小时,训练的数据集是维基百科的英文语料,其他训练的参数,基本上是摘录了英伟达的数据。下方是对2个DGX-A100和3个DGX-A100做的一个线性扩展的估计。众所周知,从一个系统到两个系统到三个系统,基本是无法达到完全线性扩展的,所以这边也显示不出A100最佳和最高的性能可能性。最下方可以看到,在IPU-POD64上,PopART BERT-Large的端到端的训练时间只要13.2小时。如此看来,相比1个DGX-A100,BERT-Large能在IPU-POD64上实现5.3倍的提升,相比3个DGX-A100,则能够实现1.8倍的提升。上图右侧有一个价格/功率指示性的比对关系。1个IPU-POD64和3个DGX-A100的功率和价格基本相同,但却能够实现接近两倍的性能提升,这就是非常显著的性能优势。33Uednc

推理优势

此前,EETC曾发表过《AI的训练与推理,会往哪个方向发展?》,文中提到:Graphcore联合创始人兼CEO Nigel Toon先生数度谈到AI“训练(training)和推理(inference)技术本质上没有什么区别”。Nigel Toon表示:训练和推理不应做过分严格的区分,未来部署机器智能才可能是正确的方向。33Uednc

下面我们看看第二代IPU-M2000在推理方面的优势。33Uednc

EfficientNet是2019年谷歌开发的一个模型。EfficientNet的模型尺寸有8个等级,B0是一个模型尺寸比较小的模型、模型尺寸最大的是B7,大概是60兆-70兆,B0是5兆的参数量级。33Uednc

33Uednc

上图横坐标表示吞吐量、纵坐标表示时延。在PyTorch和TensorFlow两种不同的框架下,EfficientNet-B0在1台IPU-M2000上的吞吐量大概可以达到以“万”为单位的级别,时延远远小于5毫秒。而在最新的GPU上,即使在时延最大化的情况下,它的吞吐量也远远小于以“万”为单位的吞吐量级,充分凸显了IPU所具备的时延优势。33Uednc

33Uednc

   33Uednc

图中左上角展示了Deep Voice 3的训练性能,该模型训练在IPU上的吞吐量能够达到GPU的13.6倍。右上角展示的是BERT-Large推理上的性能,在双方都处于最低时延的情况下,在IPU上,与A100相比,BERT-Large能够实现3.4倍吞吐量的提升。大家可能会疑惑batch-size比较小的时候A100没有打满,我们把batch-size打大的时候、A100在batch-size可能是等于8的情况之下,它的吞吐量其实是有显著提升的。图中最上面红点,展示的是该模型在IPU-M2000上的最高的吞吐量和时延的性能,图中可以看到该模型在IPU-M2000上的吞吐量能够达到三千多。33Uednc

左下角是LSTM推理的性能展示显示,IPU在时延和吞吐上这两方面都是有相当优势的。右下角展示的是MCMC概率模型训练的性能,MCMC模型是用来估计股票价格的一个评估工具。评估一个股票是不是能够超出大盘的基本股价时,一般都是用一个Alpha因子来表示。如图所示,该模型的训练在IPU-M2000上,比在最新GPU上快大概17倍。33Uednc

计算机视觉

33Uednc

计算机视觉方面,左边是ResNet和EfficientNet的训练性能展示,右边是两个模型的推理性能展示。ResNet-50是一个中等规模的模型、拥有大概20兆的训练参数。EfficientNet-B4也拥有大概20兆的训练参数。两者参数量差不多,但是它们的性能表现有所不同。训练方面,ResNet-50相比A100,大概能实现2.6倍的性能提升,而EfficientNet相比A100能够实现10倍左右的性能提升。这是因为ResNet-50基本上是由卷积组成的,而EfficientNet是由可分离深度卷积组成的,它的卷积核比较小,在调度上的开销和算子的利用率在IPU上可能会有更好的体现。如果算子小、算子比较多,在GPU上的调度开销也会引入跟HDM内存上数据交互的开销,可能会导致了它们的性能大大的折损。这也说明了,在新一代的模型上IPU其实更具普适性。33Uednc

推理方面,ResNet-50和EfficientNet-B0在PyTorch和TensorFlow的性能表现是不相上下的。这也说明了Poplar SDK 1.4中引入的对于PyTorch的支持,在模型运行中没有性能上的损耗。33Uednc

IPU-POD64的横向与纵向扩展

IPU-POD64是16台IPU-M2000组成的一个解决方案。Graphcore已经在全球范围之内实现了该方案的交付。该方案实现了x86和IPU计算的解耦。33Uednc

IPU-POD64是目前市场上非常少见的,可以同时将纵向扩展和横向扩展都做得非常好的AI计算平台产品。33Uednc

纵向扩展是指IPU-POD64可以实现从一台IPU-M2000到一个IPU-POD16(4台IPU-M2000),再到一个IPU-POD64(16台IPU-M2000)进行软件透明扩展。也就是说,编译好的软件在一个IPU-M2000里能用,如果您希望获得16倍的性能,扩展到IPU-POD64,同样的软件也能够运行使用。与之相比,如果使用DGX-A100这样的机器,想要从1个DGX-A100扩展到4个DGX-A100,需要做大量的软件改造。有一个概念叫“分布式的机器学习”,就是要用一个分布式的机器学习框架,对您的算法模型进行相应的改造之后才能够从1个DGX-A100扩展到4个DGX-A100。33Uednc

据沟通,很多头部互联网公司认为当前绝大部分单一工作负载最大不会超过IPU-POD64。也就是说,对于当前最主流的工作负载来说,1个IPU-POD64就能够让绝大多数工程师不需要担心分布式的机器学习、分布式的机器学习框架、分布式的通信,只需一个IPU-POD64就可以进行软件透明扩展。33Uednc

纵向扩展不代表不能做横向扩展。从横向扩展的角度来看,多个IPU-POD64最多可以支持64000个IPU组成的AI计算集群。所以,以最小的IPU-M2000作为一个计算单元,Graphcore可以在横向扩展、纵向扩展两个维度,获得非常好的超级AI计算集群。33Uednc

Graphcore最新动态

据EETC了解,Graphcore最近有一系列的动作,包括Graphcore与阿里云HALO的合作,发布Poplar SDK 1.4加入MLPerf管理机构MLCommons等等。33Uednc

阿里云在GitHub上开源了HALO。Graphcore是阿里云HALO/ODLA的共建合作伙伴之一,目前在阿里云HALO的GitHub里已经有IPU的完整支持代码库odla_PopArt。这意味着在GitHub下载HALO开源代码就已经可以在IPU上使用了。目前,Graphcore和阿里云也在基于HALO做一些共同的客户落地的事情。33Uednc

33Uednc

Diagram, timelineDescription automatically generated33Uednc

Graphcore与阿里云HALO展开了非常紧密的合作。HALO的初衷和NNFusion一样,想做一个整体的框架,向上跨AI框架,向下通过ODLA这样一个通用的硬件接口对接不同的硬件厂商的芯片。他们的初衷多是希望处理不同模型,比如TensorFlow模型、ONNX的模型、或是PyTorch的模型时,能够将它一键式地在系统上或者是集群上运行起来。33Uednc

此外,Graphcore最近发布了Poplar SDK 1.4,并同时发布了面向IPUPyTorch产品级版本。33Uednc

33Uednc

同时Graphcore于近期宣布,加入MLPerf管理机构MLCommons。33Uednc

Graphcore将在2021年上半年正式参与MLPerf性能测试,其IPU-POD64也已经在全球范围内发货,包括中国、北美、欧洲以及其它区域。33Uednc

本文为电子技术设计原创文章,未经授权禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Challey
资深产业分析师
  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 商务部暂停天然砂对台湾地区出口,台积电难受了 据EDN电子技术设计了解,商务部网站8月3日早晨8点发布最新消息,表示将从即日起暂停天然砂对台湾地区出口。不少网友认为暂停天然砂对台湾地区的出口,此举将严重影响台湾的建筑业,实则影响不仅仅如此。台湾地区天然砂进口量的90%以上来自大陆,而台湾芯片占台湾2021年出口额的34.8%。网友称商务部暂停天然砂对台湾地区出口是捏到了台湾半导体制造业的七寸。
  • 深圳允许完全自动驾驶车辆上路,主驾无需坐人 据EDN电子技术设计引援央视财经报道,从8月1日开始,《深圳经济特区智能网联汽车管理条例》正式实施,智能网联汽车列入国家汽车产品目录或者深圳市智能网联汽车产品目录,这也让深圳成为了国内首个允许L3级别自动驾驶车辆合法上路的城市。
  • 我国建成开通5G基站数达185.4万个 工信部近日透露,截至2022年6月底,中国5G基站数达到185.4万个,其中二季度新增基站近30万个,已建成全球规模最大、技术领先的网络基础设施,实现“县县通5G、村村通宽带”。。
  • Nothing Phone 1 官方承认品控缺陷,但拆解后有新发现 前一加手机联合创始人裴宇创立的 Nothing 公司在国外备受关注,但Nothing Phone 1发布之后却被网友爆料大量翻车现场。目前官方也已承认了Nothing Phone 1 在前摄开孔位置附近出现了坏点或绿晕的问题。但Nothing Phone 1也并非一无是处,著名的 JerryRigEverything 耐用性测试就称其“超级坚固”。
  • 美国参议院批准价值2460亿美元的芯片法案 美国参议院周三通过立法,以超过 750 亿美元支持国内半导体产业。GlobalFoundries、英特尔、三星代工厂、德州仪器、台积电和其他在美国建立半导体制造设施的公司或将受益。
  • 俄罗斯要绕过5G直接开发6G!投资300亿卢布够吗? 在全球通信技术竞争上,中国的5G发展速度遥遥领先于其他国家,更多国家开始在6G上较劲儿。今日,“俄罗斯决定绕过5G直接开发6G网络”登上热榜,引起网友热议。
  • 因眼睛小车主被辅助驾驶误判“开车睡觉”,小鹏、蔚来回 昨日,汽车博主@常岩CY 发博称自己突然上了热搜,原来就是因自己眼睛小被小鹏汽车自动驾驶误判“开车睡觉”,不住的发出提醒。此外,@常岩CY 称在多款车型上都收到此困扰。无论是红外还是摄像头,只要开始检测眼睛,就会判定过度疲劳。小鹏P7会提示他睡觉,蔚来ET7一开车就认为其疲劳和走神,岚图FREE会在冬天为了让其“别困”而打开冷风……
  • 国际象棋机器人Chessrobot夹断对手手指,意外还是设计缺 据悉,在7月19日的莫斯科国际象棋公开赛期间,一位7岁小男孩疑似因提前走子犯规手,意外被“对手”国际象棋机器人Chessrobot夹住手指,造成指骨骨折,该事件登上了热搜榜。该男孩是莫斯科9岁以下最强的30位棋手之一。
  • 空调也“怕热”?空调工作临界点到底是什么? 深圳最高气温突破40℃!很多网友戏称:这条命是空调给的,不敢走出空调房。但同时,这两天明显感觉空调动力不足了,以为家里的空调坏了。与此同时,关于格力空调“怕热”遭遇“空调工作临界点”罢工的成了网友关注的热点。
  • 拆解一个中国产的“树莓派”开发笔记本,售价279美元值 “树莓派”在全球市越来越受欢迎,甚至有家长开始让孩子用树莓派学习开发产品。有中国厂商嗅到,率先开发出了基于“树莓派”笔记本——CrowPi L ,外观看和普通笔记本差不多, 但却是基于树莓派Raspberry Pi 4B 开发板的套件,专为 STEM 教育而设计,带有可选的电子模块和教程。EDN发现有外媒对其进行了拆解,接下来将这篇拆解文章分享给大家:
  • 林志颖驾特斯拉出车祸:特斯拉回应起火原因不明,网友质疑 据EDN电子技术设计了解,7月22日上午10时50分左右,林志颖驾驶特斯拉Model X,在路口处掉头后加速向前行驶,但在前方道路分叉口处,因不明原因突然偏离车道自撞指示杆,整辆车陷入火海。此事引起网友关注热议,特斯拉客服表示,暂不清楚起火原因,但车身没有特别容易起火的材质。但有台媒指出,林志颖最爱特斯拉的自动驾驶功能,这也引起了网友对事故是否与自动驾驶有关的猜测。
  • 售价将超50万美元,乔布斯的Apple-1原型机电路板长什么 这块在 1976 年由史蒂夫-沃兹尼亚克手工焊接的 Apple Computer A 印刷电路板被史蒂夫-乔布斯用来向保罗-特雷尔演示 Apple-1 电脑,后者是加州山景城 The Byte Shop 的老板。这台原型机在“苹果车库”里保存了很多年,然后在大约 30 年前由史蒂夫-乔布斯交给了它现在的主人。当时,乔布斯已被苹果公司赶走。乔布斯当时认为这个原型不是要供奉的东西,而是要被重新利用的东西。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了