Graphcore第二代IPU-M2000性能测试出炉，相比A100多个指标提升数倍-EDN 电子技术设计

 今年2月，EE Times评选出“十大AI芯片创企”，其中来自英国的Graphcore凭借其为AI计算而生研发的IPU获选。7月，Graphcore在布里斯托和北京同步推出了两款硬件产品：第二代IPU芯片Colossus MK2 GC200 IPU（简称MK2 IPU），以及包含四颗MK2 IPU，可用于大规模集群系统的IPU-Machine：M2000 （IPU-M2000）。最近，Graphcore公开了IPU-M2000的应用性能测试。这次Benchmark显示，相比A100，在IPU-M2000上，ResNet的吞吐量提升了4倍，ResNeXt的吞吐量提升了5.4倍，EfficientNet的吞吐量达到了18倍，Deep Voice 3达到了13倍。

Graphcore主推的IPU在业界被称为继CPU、GPU以外的第三类AI芯片。今年2月，EE Times评选出“十大AI芯片创企”，其中来自英国的Graphcore凭借其为AI计算而生研发的IPU获选。7月，Graphcore在布里斯托和北京同步推出了两款硬件产品：第二代IPU芯片Colossus MK2 GC200 IPU（简称MK2 IPU），以及包含四颗MK2 IPU，可用于大规模集群系统的IPU-Machine：M2000 （IPU-M2000）。最近，Graphcore公开了IPU-M2000的应用性能测试。这次Benchmark显示，相比A100，在IPU-M2000上，ResNet的吞吐量提升了4倍，ResNeXt的吞吐量提升了5.4倍，EfficientNet的吞吐量达到了18倍，Deep Voice 3达到了13倍。tL2ednc

第二代IPU-M2000应用测试性能

IPU-M2000是继英伟达的GPU和谷歌的TPU之后，世界上第三个公开发布的能够训练BERT-Large模型的AI处理器产品。最近公布的应用性能测试中表现优异。tL2ednc

tL2ednc

这次发布的基于MK2 IPU的IPU-M2000的Benchmark覆盖了很多模型的训练结果，包括典型的CV模型ResNet、基于分组卷积的ResNeXt、EfficientNet、语音模型、BERT-Large等自然语言处理模型，MCMC等传统机器学习模型。其中BERT-Large这样的大型模型或是MCMC这样的传统模型，在一台IPU-POD₆₄这样的系统级产品中训练，相比在2台DGX-A100上训练，也能够实现一定的性能收益。tL2ednc

在不同的机器学习训练中，最新IPU-M2000和IPU-POD的具体性能指标

tL2ednc

上图展示了BERT-Large端到端的训练时间性能，最上方的是DGX-A100的性能，端到端的训练时间是69.5小时，训练的数据集是维基百科的英文语料，其他训练的参数，基本上是摘录了英伟达的数据。下方是对2个DGX-A100和3个DGX-A100做的一个线性扩展的估计。众所周知，从一个系统到两个系统到三个系统，基本是无法达到完全线性扩展的，所以这边也显示不出A100最佳和最高的性能可能性。最下方可以看到，在IPU-POD₆₄上，PopART BERT-Large的端到端的训练时间只要13.2小时。如此看来，相比1个DGX-A100，BERT-Large能在IPU-POD₆₄上实现5.3倍的提升，相比3个DGX-A100，则能够实现1.8倍的提升。上图右侧有一个价格/功率指示性的比对关系。1个IPU-POD₆₄和3个DGX-A100的功率和价格基本相同，但却能够实现接近两倍的性能提升，这就是非常显著的性能优势。tL2ednc

推理优势

此前，EETC曾发表过《AI的训练与推理，会往哪个方向发展？》，文中提到：Graphcore联合创始人兼CEO Nigel Toon先生数度谈到AI“训练（training）和推理（inference）技术本质上没有什么区别”。Nigel Toon表示：训练和推理不应做过分严格的区分，未来部署机器智能才可能是正确的方向。tL2ednc

下面我们看看第二代IPU-M2000在推理方面的优势。tL2ednc

EfficientNet是2019年谷歌开发的一个模型。EfficientNet的模型尺寸有8个等级，B0是一个模型尺寸比较小的模型、模型尺寸最大的是B7，大概是60兆-70兆，B0是5兆的参数量级。tL2ednc

tL2ednc

上图横坐标表示吞吐量、纵坐标表示时延。在PyTorch和TensorFlow两种不同的框架下，EfficientNet-B0在1台IPU-M2000上的吞吐量大概可以达到以“万”为单位的级别，时延远远小于5毫秒。而在最新的GPU上，即使在时延最大化的情况下，它的吞吐量也远远小于以“万”为单位的吞吐量级，充分凸显了IPU所具备的时延优势。tL2ednc

tL2ednc

图中左上角展示了Deep Voice 3的训练性能，该模型训练在IPU上的吞吐量能够达到GPU的13.6倍。右上角展示的是BERT-Large推理上的性能，在双方都处于最低时延的情况下，在IPU上，与A100相比，BERT-Large能够实现3.4倍吞吐量的提升。大家可能会疑惑batch-size比较小的时候A100没有打满，我们把batch-size打大的时候、A100在batch-size可能是等于8的情况之下，它的吞吐量其实是有显著提升的。图中最上面红点，展示的是该模型在IPU-M2000上的最高的吞吐量和时延的性能，图中可以看到该模型在IPU-M2000上的吞吐量能够达到三千多。tL2ednc

左下角是LSTM推理的性能展示显示，IPU在时延和吞吐上这两方面都是有相当优势的。右下角展示的是MCMC概率模型训练的性能，MCMC模型是用来估计股票价格的一个评估工具。评估一个股票是不是能够超出大盘的基本股价时，一般都是用一个Alpha因子来表示。如图所示，该模型的训练在IPU-M2000上，比在最新GPU上快大概17倍。tL2ednc

计算机视觉

tL2ednc

计算机视觉方面，左边是ResNet和EfficientNet的训练性能展示，右边是两个模型的推理性能展示。ResNet-50是一个中等规模的模型、拥有大概20兆的训练参数。EfficientNet-B4也拥有大概20兆的训练参数。两者参数量差不多，但是它们的性能表现有所不同。训练方面，ResNet-50相比A100，大概能实现2.6倍的性能提升，而EfficientNet相比A100能够实现10倍左右的性能提升。这是因为ResNet-50基本上是由卷积组成的，而EfficientNet是由可分离深度卷积组成的，它的卷积核比较小，在调度上的开销和算子的利用率在IPU上可能会有更好的体现。如果算子小、算子比较多，在GPU上的调度开销也会引入跟HDM内存上数据交互的开销，可能会导致了它们的性能大大的折损。这也说明了，在新一代的模型上IPU其实更具普适性。tL2ednc

推理方面，ResNet-50和EfficientNet-B0在PyTorch和TensorFlow的性能表现是不相上下的。这也说明了Poplar SDK 1.4中引入的对于PyTorch的支持，在模型运行中没有性能上的损耗。tL2ednc

IPU-POD₆₄的横向与纵向扩展

IPU-POD₆₄是16台IPU-M2000组成的一个解决方案。Graphcore已经在全球范围之内实现了该方案的交付。该方案实现了x86和IPU计算的解耦。tL2ednc

IPU-POD₆₄是目前市场上非常少见的，可以同时将纵向扩展和横向扩展都做得非常好的AI计算平台产品。tL2ednc

纵向扩展是指IPU-POD₆₄可以实现从一台IPU-M2000到一个IPU-POD₁₆（4台IPU-M2000），再到一个IPU-POD₆₄（16台IPU-M2000）进行软件透明扩展。也就是说，编译好的软件在一个IPU-M2000里能用，如果您希望获得16倍的性能，扩展到IPU-POD₆₄，同样的软件也能够运行使用。与之相比，如果使用DGX-A100这样的机器，想要从1个DGX-A100扩展到4个DGX-A100，需要做大量的软件改造。有一个概念叫“分布式的机器学习”，就是要用一个分布式的机器学习框架，对您的算法模型进行相应的改造之后才能够从1个DGX-A100扩展到4个DGX-A100。tL2ednc

据沟通，很多头部互联网公司认为当前绝大部分单一工作负载最大不会超过IPU-POD₆₄。也就是说，对于当前最主流的工作负载来说，1个IPU-POD₆₄就能够让绝大多数工程师不需要担心分布式的机器学习、分布式的机器学习框架、分布式的通信，只需一个IPU-POD₆₄就可以进行软件透明扩展。tL2ednc

纵向扩展不代表不能做横向扩展。从横向扩展的角度来看，多个IPU-POD₆₄最多可以支持64000个IPU组成的AI计算集群。所以，以最小的IPU-M2000作为一个计算单元，Graphcore可以在横向扩展、纵向扩展两个维度，获得非常好的超级AI计算集群。tL2ednc

Graphcore最新动态

据EETC了解，Graphcore最近有一系列的动作，包括Graphcore与阿里云HALO的合作，发布Poplar SDK 1.4，加入MLPerf管理机构MLCommons等等。tL2ednc

阿里云在GitHub上开源了HALO。Graphcore是阿里云HALO/ODLA的共建合作伙伴之一，目前在阿里云HALO的GitHub里已经有IPU的完整支持代码库odla_PopArt。这意味着在GitHub下载HALO开源代码就已经可以在IPU上使用了。目前，Graphcore和阿里云也在基于HALO做一些共同的客户落地的事情。tL2ednc

tL2ednc

Diagram, timelineDescription automatically generated tL2ednc

Graphcore与阿里云HALO展开了非常紧密的合作。HALO的初衷和NNFusion一样，想做一个整体的框架，向上跨AI框架，向下通过ODLA这样一个通用的硬件接口对接不同的硬件厂商的芯片。他们的初衷多是希望处理不同模型，比如TensorFlow模型、ONNX的模型、或是PyTorch的模型时，能够将它一键式地在系统上或者是集群上运行起来。tL2ednc

此外，Graphcore最近发布了Poplar SDK 1.4，并同时发布了面向IPU的PyTorch产品级版本。tL2ednc

tL2ednc

同时Graphcore于近期宣布，加入MLPerf管理机构MLCommons。tL2ednc

Graphcore将在2021年上半年正式参与MLPerf性能测试，其IPU-POD₆₄也已经在全球范围内发货，包括中国、北美、欧洲以及其它区域。tL2ednc

本文为电子技术设计原创文章，未经授权禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

Challey

资深产业分析师

进入专栏

模拟/混合信号/RF

上一篇： 芯片大神 Jim Keller 的硅谷经历是怎样的？AMD、Intel，苹果，特斯拉...... 下一篇： 华为P40下一代P50 Pro新机渲染图曝光

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
匠芯创M7000系列远超传统微秒级芯片，响应速度不到300纳 M7000 系列芯片已在人形机器人、机器人关节、高功率伺服驱动器等多个领域实现落地应用，与众多头部企业展开紧密合作···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
为旌科技感算控一体化芯片落地，带来6倍效率提升？具身智能的本质是‘大脑（认知）+小脑（控制）+感官（感知）’的协同进化，需要芯片层面实现三者深度融合。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
情境感知AI：利用FPGA技术增强边缘智能现场可编程门阵列（FPGA）的灵活性、现场升级能力和互操作性，结合其低功耗、低延迟和并行处理能力，使其成为开发者克服挑战并优化情境边缘AI应用的关键工具。

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

Graphcore第二代IPU-M2000性能测试出炉，相比A100多个指标提升数倍

第二代IPU-M2000应用测试性能

在不同的机器学习训练中，最新IPU-M2000和IPU-POD的具体性能指标

推理优势

计算机视觉

IPU-POD64的横向与纵向扩展

Graphcore最新动态

IPU-POD₆₄的横向与纵向扩展