清华计图(Jittor)团队完成寒武纪芯片MLU270上的移植，未来将支持更多国产芯片-EDN 电子技术设计

 清华大学计算机系的图形学实验室主要开展计算机图形学、计算机视觉、智能信息处理、智能机器人、系统软件等方面的基础研究，近日，计图(Jittor)团队成功完成寒武纪芯片MLU270上的移植，支持推理和训练，并复现了ResNet、Alexnet、VGG等骨干网络，其中动态图推理速度相较PyTorch平均提升了276.69倍，推理精度也得到了显著的提升。

Jittor的开发团队来自清华大学计算机系的图形学实验室，目前有教授2名、副教授3名、助理研究员1名、博士后4名和研究生50多名。Mvrednc

清华大学计算机系的图形学实验室成立于1998年3月，2007年发展成为清华大学可视媒体研究中心，2010年获批成为北京市工程技术研究中心，同年和腾讯公司合作成立清华-腾讯互联网创新技术联合实验室，并于2018年，成立北京信息科学与技术国家研究中心下的可视媒体智能计算团队。Mvrednc

实验室主要开展计算机图形学、计算机视觉、智能信息处理、智能机器人、系统软件等方面的基础研究，近日，计图(Jittor)团队成功完成寒武纪芯片MLU270上的移植，支持推理和训练，并复现了ResNet、Alexnet、VGG等骨干网络，其中动态图推理速度相较PyTorch平均提升了276.69倍，推理精度也得到了显著的提升。Mvrednc

Mvrednc

计图支持寒武纪！动态图性能较PyTorch提升270倍

Jittor是清华大学自主研发的框架，相比PyTorch具有更好的可移植性，在保证易用的同时，能更充分发挥寒武纪芯片的性能，此次合作有望革新现有软硬件体系架构，进一步突破AI算力瓶颈，加速AI研究的创新创造，为国内的人工智能生态打下坚实基础。Mvrednc

Part1：多个骨干网络速度提升数百倍

Jittor团队在寒武纪芯片上与PyTorch对比了多种backbone网络模型的速度，包括alexnet、vgg系列、resnet系列在内的16个网络。Mvrednc

可视化结果如图1所示，动态图性能(逐层)，Jittor的速度可以达到PyTorch的153~464倍，平均速度达到了PyTorch的276.69倍。其中最快的是alexnet，性能提升可达464.43倍。Mvrednc

图1 不同backbone网络Jittor动态图加速比Mvrednc

每个模型的具体数值如表1所示，其中Model一列展示了不同backbone模型，测试使用长宽均为224的rgb图像作为输入。Jittor和PyTorch两列分别展示了两个框架单次前向所需的时间，单位是毫秒。Speed Up展示了Jittor动态图的加速比。Mvrednc

表1 Jittor和PyTorch在不同backbone的动态图速度指标Mvrednc

Mvrednc

同时发现Jittor的精度损失也会比PyTorch大幅减少。以Resent18网络为例，对比了Jittor和PyTorch的MSE，结果如表2所示。对比的baseline是cpu，测试表明，Jittor的精度损失比PyTorch少42.53%。表2 resnet18的mse误差对比Mvrednc

Mvrednc

Part2 ：Jittor如何助力寒武纪性能提升？

主流的TensorFlow和PyTorch框架有几百甚至上千个算子，这就导致了在移植新的硬件时需要付出巨大的工作量一一复现这些算子。Mvrednc

而Jittor采用元算子的的概念，将神经网络所需的基本算子定义为三类共18个元算子，这些元算子能相互融合成大部分常用的算子[1]。因此对少量元算子进行优化，就能使得不同的常用算子性能都得到显著提升。 Mvrednc

除此之外，元算子还是反向传播闭包，这意味着所有元算子的反向传播算子仍然是元算子，也就是当完成移植元算子的移植后，Jittor就天然支持训练。Mvrednc

因此，得益于元算子设计，在完成三类元算子的移植后，Jittor就支持了大部分常用算子的推理和简单训练(见图2)。Mvrednc

Mvrednc

图2 在不同硬件移植元算子以支持推理和训练Jittor的多个元算子之间可以相互融合成更加复杂的算子，这些复杂算子构成了神经网络计算的多个模块，如卷积层，归一化层等(见图3)。这种融合我们称之为元算子融合，可以提升性能，节省资源。Mvrednc

传统的算子融合方式需要手工编写融合规则，并逐一开发融合后的算子。而Jittor通过实时分析计算图结构，自动将可以融合的元算子进行融合，从而大幅减少访存带来的开销，并减少开发工作量。Mvrednc

图3 使用元算子实现卷积层的方法示意图Jittor内置了元算子编译器，可以通过动态编译的方式将用户的Python代码编译成高性能的寒武纪BANG代码。Mvrednc

Jittor的动态编译过程相比较传统的静态编译，可以在运行时获得更多的额外信息，如计算图上下文，形状信息等等，这些信息都可以进一步用于提升算子性能。Mvrednc

此外，Jittor还内置了优化编译遍(complier pass)，这些编译遍会根据硬件设备，自动对BANG代码进一步优化，生成对计算设备友好的底层算子。Mvrednc

下方这行代码为BatchNorm算子的代码节选，该代码由若干个元算子组成，仅仅一行Python就可以表达BatchNorm算子的核心思想。Mvrednc

Mvrednc

上述的Python代码将会被Jittor的元算子编译器自动优化，生成如下代码(见图4)，如下代码对计算设备更加友好，使用到了BANG语言的内置函数如__bang_add进行加速。Mvrednc

Mvrednc

图4 Jittor动态编译生成的BANG语言代码Mvrednc

BANG语言由寒武纪编译器团队提出，该语言包含了全套的工具链如cncc、cngdb，大大简化了Jittor元算子的迁移成本，元算子编译器可自动生成的BANG算子。Mvrednc

BANG语言设计成熟，一方面，BANG语言提供了类似于CUDA语言的线程调度模式，上手简单，易于调试；另一方面又提供了内置函数，获得更好的芯片性能，完全释放芯片算力。Mvrednc

这套工具链可以很好地与Jittor的动态编译器整合在一起，实现动态的算子优化与注册，Jittor的元算子还可以进一步降低在寒武纪上开发自定义算子的难度。Mvrednc

Jittor框架带来的另一个重大提升是，保证用户在使用动态图易用的前提下，仍然可以获得显著的性能提升（见图5）。以往用户在使用PyTorch加速时，往往需要通过tracing等机制，将动态图静态化，才能够获得性能提升，然而tracing机制会降低模型的易用性。而Jittor框架在动态模式下的性能可以媲美甚至超过静态图，同时不依赖tracing机制，保证了框架的易用性。Mvrednc

图5 统一计算图兼顾效率与灵活性Mvrednc

Part3: 前景展望：国产框架x国产芯片

人工智能技术将作为第四次革命，带领人类走向智能时代，人工智能的快速发展既离不开算力的突破和算法的创新，更依赖于深度学习框架和AI芯片。Mvrednc

Jittor作为清华大学发布的自主可控的深度学习框架，秉承着开源开放，厚德载物的精神，支持国产芯片的发展。本次Jittor实现对寒武纪的成功支持，不仅实现了基础骨干网络的推理与训练，并且相比较国际主流框架PyTorch，获得了显著的性能提升，同时具有动态图的易用性，让学术界和工业界的用户都能更容易上手。Mvrednc

未来Jittor框架将针对更多不同类型的应用、不同的场景、训练以及推理进行更加深度的优化，提供更多易于上手，开箱即用的开源工具包，贡献开源社区，支持更多国产芯片，推动国产AI生态的快速发展。Mvrednc

参考文献Mvrednc

Shi-Min Hu, Dun Liang, Guo-Ye Yang, Guo-Wei Yang, Wen-Yang Zhou, Jittor: a novel deep learning framework with meta-operators and unified graph execution, Science China Information Science，2020, Vol. 63, No. 12, article no. 222103, pages: 1-21. Mvrednc

Mvrednc

责编：胡安Mvrednc

阅读全文，请先

人工智能处理器/DSP

上一篇： 采用SiC FET尽可能提升图腾柱PFC级的能效 下一篇： 拆解比亚迪智能车钥匙，看看用什么方案做的

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
为旌科技感算控一体化芯片落地，带来6倍效率提升？具身智能的本质是‘大脑（认知）+小脑（控制）+感官（感知）’的协同进化，需要芯片层面实现三者深度融合。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
情境感知AI：利用FPGA技术增强边缘智能现场可编程门阵列（FPGA）的灵活性、现场升级能力和互操作性，结合其低功耗、低延迟和并行处理能力，使其成为开发者克服挑战并优化情境边缘AI应用的关键工具。
ADAS 系统中的传感器创新如何在道路交通中挽救生命在本文中，我们将探讨 ADAS 在提高道路安全方面的作用，以及各种对实现这一目标至关重要的传感器技术。

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

清华计图(Jittor)团队完成寒武纪芯片MLU270上的移植，未来将支持更多国产芯片

计图支持寒武纪！动态图性能较PyTorch提升270倍

Part1：多个骨干网络速度提升数百倍

Part2 ：Jittor如何助力寒武纪性能提升？

Part3: 前景展望：国产框架x国产芯片