华为AI芯片的“秘密武器”：达芬奇架构实力究竟如何？-EDN 电子技术设计

 2019年6月，华为发布全新8系列手机SoC芯片麒麟810，首次采用华为自研达芬奇架构NPU，实现业界领先端侧AI算力，在业界公认的苏黎世联邦理工学院推出的AI Benchmark榜单中，搭载麒麟810的手机霸榜TOP3，堪称华为AI芯片的“秘密武器”，这其中华为自研的达芬奇架构举足轻重。那么，达芬奇架构AI实力究竟怎么样？一起来深入了解下。

2019年6月，华为发布全新8系列手机SoC芯片麒麟810，首次采用华为自研达芬奇架构NPU，实现业界领先端侧AI算力，在业界公认的苏黎世联邦理工学院推出的AI Benchmark榜单中，搭载麒麟810的手机霸榜TOP3，堪称华为AI芯片的“秘密武器”，这其中华为自研的达芬奇架构举足轻重。FcHednc

FcHednc

2019年8月20日数据FcHednc

那么，达芬奇架构AI实力究竟怎么样？一起来深入了解下。FcHednc

源起：为什么要做达芬奇架构？

华为预测，到2025年全球的智能终端数量将会达到400亿台，智能助理的普及率将达到90%，企业数据的使用率将达到86%。可以预见，在不久的将来，AI将作为一项通用技术极大地提高生产力，改变每个组织和每个行业。FcHednc

基于这样的愿景，华为在2018全联接大会上提出全栈全场景AI战略。作为重要的技术基础，AI芯片在其中发挥着重要作用，而华为也基于AI芯片提供了完整的解决方案，加速使能AI产业化。FcHednc

为了实现AI在多平台多场景之间的协同，华为创新设计达芬奇计算架构，在不同体积和功耗条件下提供强劲的AI算力。FcHednc

初见：达芬奇架构的核心优势

达芬奇架构，是华为自研的面向AI计算特征的全新计算架构，具备高算力、高能效、灵活可裁剪的特性，是实现万物智能的重要基础。FcHednc

具体来说，达芬奇架构采用3D Cube针对矩阵运算做加速，大幅提升单位功耗下的AI算力，每个AI Core可以在一个时钟周期内实现4096个MAC操作，相比传统的CPU和GPU实现数量级的提升。FcHednc

012ednc20190822 FcHednc

3D CubeFcHednc

同时，为了提升AI计算的完备性和不同场景的计算效率，达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。同时支持多种精度计算，支撑训练和推理两种场景的数据精度要求，实现AI的全场景需求覆盖。FcHednc

深耕：达芬奇架构的AI硬实力

科普1：常见的AI运算类型有哪些？FcHednc

在了解达芬奇架构的技术之前，我们先来弄清楚一下几种AI运算数据对象：FcHednc

标量（Scalar）：由单独一个数组成FcHednc
向量（Vector）：由一组一维有序数组成，每个数由一个索引（index）标识FcHednc
矩阵（Matrix）：由一组二维有序数组成，每个数由两个索引（index）标识FcHednc
张量（Tensor）：由一组n维有序数组成，每个数由n个索引（index）标识FcHednc

其中，AI计算的核心是矩阵乘法运算，计算时由左矩阵的一行和右矩阵的一列相乘，每个元素相乘之后的和输出到结果矩阵。FcHednc

在此计算过程中，标量（Scalar）、向量（Vector）、矩阵（Matrix）算力密度依次增加，对硬件的AI运算能力不断提出更高要求。典型的神经网络模型计算量都非常大，这其中99%的计算都需要用到矩阵乘，也就是说，如果提高矩阵乘的运算效率，就能最大程度上提升AI算力——这也是达芬奇架构设计的核心：以最小的计算代价增加矩阵乘的算力，实现更高的AI能效。科普2：各单元角色分工揭秘，Da Vinci Core是如何实现高效AI计算的？FcHednc

在2018年全联接大会上，华为推出AI芯片Ascend 310（昇腾310），这是达芬奇架构的首次亮相。FcHednc

013ednc20190822 FcHednc

其中，Da Vinci Core只是NPU的一个部分，Da Vinci Core内部还细分成很多单元，包括核心的3D Cube、Vector向量计算单元、Scalar标量计算单元等，它们各自负责不同的运算任务实现并行化计算模型，共同保障AI计算的高效处理。FcHednc

014ednc20190822 FcHednc

3D Cube矩阵乘法单元：算力担当FcHednc

刚才已经提到，矩阵乘是AI计算的核心，这部分运算由3D Cube完成，Buffer L0A、L0B、L0C则用于存储输入矩阵和输出矩阵数据，负责向Cube计算单元输送数据和存放计算结果。FcHednc

Vector向量计算单元：灵活的多面手FcHednc

虽然Cube的算力很强大，但只能完成矩阵乘运算，还有很多计算类型要依靠Vector向量计算单元来完成。Vector的指令相对来说非常丰富，可以覆盖各种基本的计算类型和许多定制的计算类型。FcHednc

Scalar标量计算单元：流程控制的管家FcHednc

Scalar标量运算单元主要负责AI Core的标量运算，功能上可以看作一个小CPU，完成整个程序的循环控制，分支判断，Cube、Vector等指令的地址和参数计算以及基本的算术运算等。科普3：3D Cube计算方式的独特优势是什么？FcHednc

不同于以往的标量、矢量运算模式，华为达芬奇架构以高性能3D Cube计算引擎为基础，针对矩阵运算进行加速，大幅提高单位面积下的AI算力，充分激发端侧AI的运算潜能。FcHednc

以两个N*N的矩阵A*B乘法为例：如果是N个1D 的MAC，需要N^2（即N的2次方）的cycle数；如果是1个N^2的2D MAC阵列，需要N个Cycle；如果是1个N维3D的Cube，只需要1个Cycle。FcHednc

015ednc20190822 FcHednc

图中计算单元的数量只是示意，实际可灵活设计FcHednc

华为创新设计的达芬奇架构将大幅提升算力，16*16*16的3D Cube能够显著提升数据利用率，缩短运算周期，实现更快更强的AI运算。FcHednc

这是什么意思呢？举例来说，同样是完成4096次运算，2D结构需要64行*64列才能计算，3D Cube只需要16*16*16的结构就能算出。其中，64*64结构带来的问题是：运算周期长、时延高、利用率低。达芬奇架构的这一特性也完美体现在麒麟810上。作为首款采用达芬奇架构NPU的手机SoC芯片，麒麟810实现强劲的AI算力，在单位面积上实现最佳能效，FP16精度和INT8量化精度业界领先，搭载这款SoC芯片的华为Nova 5、Nova 5i Pro及荣耀9X手机已上市，为广大消费者提供多种精彩的AI应用体验。同时，麒麟810再度赋能HiAI生态，支持自研中间算子格式IR开放，算子数量多达240+，处于业内领先水平。更多算子、开源框架的支持以及提供更加完备的工具链将助力开发者快速转换集成基于不同AI框架开发出的模型，极大地增强了华为HiAI移动计算平台的兼容性、易用性，提高开发者的效率，节约时间成本，加速更多AI应用的落地。FcHednc

016ednc20190822 FcHednc

预见：达芬奇架构解锁AI无限可能

基于灵活可扩展的特性，达芬奇架构能够满足端侧、边缘侧及云端的应用场景，可用于小到几十毫瓦，大到几百瓦的训练场景，横跨全场景提供最优算力。FcHednc

017ednc20190822 FcHednc

以Ascend芯片为例，Ascend-Nano可以用于耳机电话等IoT设备的使用场景；Ascend-Tiny和Ascend-Lite用于智能手机的AI运算处理；在笔记本电脑等算力需求更高的便携设备上，由Ascend-Mini提供算力支持；而边缘侧服务器上则需要由Multi-Ascend 310完成AI计算；至于超复杂的云端数据运算处理，则交由算力最高可达256 TFLOPS@FP16的Ascend-Max来完成。FcHednc

正是由于达芬奇架构灵活可裁剪、高能效的特性，才能实现对上述多种复杂场景的AI运算处理。同时，选择开发统一架构也是一个非常关键的决策。统一架构优势很明显，那就是对广大开发者非常利好。基于达芬奇架构的统一性，开发者在面对云端、边缘侧、端侧等全场景应用开发时，只需要进行一次算子开发和调试，就可以应用于不同平台，大幅降低了迁移成本。FcHednc

不仅开发平台语言统一，训练和推理框架也是统一的，开发者可以将大量训练模型放在本地和云端服务器，再将轻量级的推理工作放在移动端设备上，获得一致的开发体验。FcHednc

018ednc20190822 FcHednc

在算力和技术得到突破性提升后，AI将广泛应用于智慧城市、自动驾驶、智慧新零售、机器人、工业制造、云计算AI服务等场景。华为轮值董事长徐直军在2018华为全联接大会上表示，“全场景意味着可以实现智能无所不及，全栈意味着华为有能力为AI应用开发者提供强大的算力和应用开发平台；有能力提供大家用得起、用得好、用得放心的AI，实现普惠AI”。未来，AI将应用更加广泛的领域，并逐渐覆盖至生活的方方面面。达芬奇架构作为AI运算的重要技术基础，将持续赋能AI应用探索，为各行各业的AI应用场景提供澎湃算力。FcHednc

8月23日，采用达芬奇架构的又一款“巨无霸”——AI芯片Ascend 910，将正式商用发布，与之配套的新一代AI开源计算框架MindSpore也将同时亮相，今年9月的华为全联接大会上，又将有哪些重量级新品呢？敬请关注！FcHednc

（来源：华为）FcHednc

阅读全文，请先

人工智能处理器/DSP 产业前沿

上一篇： 科技巨头推出力推动高速以太网络发展 下一篇： CPU顶盖为啥不用散热更好的银？

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
为旌科技感算控一体化芯片落地，带来6倍效率提升？具身智能的本质是‘大脑（认知）+小脑（控制）+感官（感知）’的协同进化，需要芯片层面实现三者深度融合。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
情境感知AI：利用FPGA技术增强边缘智能现场可编程门阵列（FPGA）的灵活性、现场升级能力和互操作性，结合其低功耗、低延迟和并行处理能力，使其成为开发者克服挑战并优化情境边缘AI应用的关键工具。
ADAS 系统中的传感器创新如何在道路交通中挽救生命在本文中，我们将探讨 ADAS 在提高道路安全方面的作用，以及各种对实现这一目标至关重要的传感器技术。

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

华为AI芯片的“秘密武器”：达芬奇架构实力究竟如何？

源起：为什么要做达芬奇架构？

初见：达芬奇架构的核心优势

深耕：达芬奇架构的AI硬实力

预见：达芬奇架构解锁AI无限可能