达摩院3个月打造“低碳版”万亿参数模型M6，怎么做到的？-EDN 电子技术设计

 据悉，相比此前英伟达使用 3072 A100 GPU 实现万亿参数、谷歌使用 2048 TPU 实现 1.6 万亿参数大模型，此次达摩院仅使用 480 卡 V100 32G GPU 就实现了万亿模型 M6，节省算力资源超 80%，且训练效率提升近 11 倍。不仅如此，达到这种惊人效果，从千亿到万亿参数规模，阿里只花了3个月时间……

阿里巴巴达摩院今天（6月25日）发布“低碳版”巨模型M6，在全球范围内首次大幅降低万亿参数超大模型训练能耗，更加符合业界对低碳、高效训练 AI 大模型的迫切需求。fQ3ednc

通过一系列突破性的技术创新，达摩院团队仅使用 480 卡 V100 32G GPU，即训练出了规模达人类神经元 10 倍的万亿参数多模态大模型 M6。fQ3ednc

据悉，相比此前英伟达使用 3072 A100 GPU 实现万亿参数、谷歌使用 2048 TPU 实现 1.6 万亿参数大模型，此次达摩院仅使用 480 卡 V100 32G GPU 就实现了万亿模型 M6，节省算力资源超 80%，且训练效率提升近 11 倍。fQ3ednc

不仅如此，达到这种惊人效果，从千亿到万亿参数规模，阿里只花了3个月时间。fQ3ednc

万亿参数的 M6-MoE 模型

自从大模型变得流行起来之后，它所具备的创意能力，一直是被世人所津津乐道。fQ3ednc

那么与国内外已经诞生了几个万亿“体量”的大模型相比，阿里此次提出的大模型，又有什么独到的特点？fQ3ednc

据悉，M6不仅公开了实现的详尽细节、模型的收敛情况（详见文末论文链接），而且还是国内首个实现商业落地的万亿参数多模态大模型。fQ3ednc

M6拥有超越传统AI的认知和创造能力，擅长绘画、写作、问答，在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。fQ3ednc

据了解，经过一段时间的试用，M6将作为AI助理设计师正式上岗阿里新制造平台犀牛智造，通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。M6还已应用于支付宝、淘宝等平台，参与跨模态搜索、文案撰写、图片设计等工作。fQ3ednc

目前，M6主要参与一些基础款的设计。但可预期的是，随着实践经验的丰富，M6的水平将不断进化。fQ3ednc

据了解，M6计划在一年内生成上万款高清服装设计图。fQ3ednc

3个月打造万亿参数模型，怎么做到的？

早在今年1月份，阿里便推出了百亿参数模型，而当时谷歌就已借助MoE （Mixture of Experts）的架构，提出来了1.6万亿参数的Switch Transformer。fQ3ednc

MoE架构能够做到的在扩展模型容量并提升模型效果的基础上，不显著增加运算FLOPs，这样就可以实现高效训练大规模模型的目的。fQ3ednc

于是，阿里从百亿开始的“规模升级”过程中，便借鉴了这个架构。仅耗时2个月，便发布千亿参数大模型，而且只用了32个 V100 GPU。fQ3ednc

普通 Transformer 与 MoE 的对比如下图所示。在经典的数据并行 Transformer 分布式训练中，各 GPU 上同一 FFN 层使用同一份参数。当使用图中最右侧所示的 MoE 策略时，则不再将这部分参数在 GPU 之间共享，一份 FFN 参数被称为 1 个 expert，每个 GPU 上将存放若干份参数不同的 experts。fQ3ednc

在前向过程中，对于输入样本的每个 token，达摩院团队使用 gate 机制为其选择分数最高的 k 个 experts，并将其 hidden states 通过 all-to-all 通信发送到这些 experts 对应的 GPU 上进行 FFN 层计算，待计算完毕后发送回原 GPU，k 个 experts 的输出结果根据 gate 分数加权求和，再进行后续运算。为了避免部分 experts 在训练中接收过多 tokens 从而影响效率，MoE 往往设定一个 capacity 超参指定每个 expert 处理 token 的最大数量，超出 capacity 的 token 将在 FFN 层被丢弃。fQ3ednc

不同的 GPU 输入不同的训练数据分片。通过这种 expert 并行的策略，模型的总参数和容量大大扩增。由于单个样本经过 gate 稀疏激活后只使用有限个 experts，每个样本所需要的计算量并没有显著增加，这带来了突破千亿乃至万亿规模的可能性。fQ3ednc

但阿里在却在研究过程中发现了一个问题：MoE负载不均衡。fQ3ednc

简单来说，原理是这样的。fQ3ednc

大模型常用到的Transformer分布式训练中，通常是各个GPU同一FFN层中，使用同一份参数。fQ3ednc

而MoE就不同了，上述的这部分参数会在GPU之间共享，一份FFN参数被称为1个“专家”（expert），每个GPU上将存放若干份参数不同的“专家”。fQ3ednc

fQ3ednc

（如上图中标红框部分所示）fQ3ednc

但阿里却发现，在原来MoE的训练过程中，非常容易只选择top的几位“专家”，这就使得头部效应非常严重。fQ3ednc

于是乎，阿里便对MoE的这个问题进行了改良。fQ3ednc

考虑到负载均衡的问题，需要采用启发式的方法解决该问题，如上述的 expert capacity 和对应的 residual connection 的方法。Google 的 Gshard 和 Switch Transformer 沿用了 MoE 原文经典的做法加入了 auxiliary load balancing loss。目前还没有相关工作观察负载均衡的情况究竟有多严重，以及它是不是真的会影响模型的效果。达摩院团队在小规模的 M6 模型上进行了对 auxiliary loss 的消融实验，观察到该 loss 对最终模型效果影响甚微，甚至没有带来正向效果，然而它确实对 load balance 这个问题非常有效。如下图所示：fQ3ednc

fQ3ednc

上图彩色曲线线表示各个层的 expert 接收有效 token 的变异系数随着训练进行的变化，灰色曲线表明训练阶段的 log PPL。图中变异系数 CV 表明每一层 expert 负载均衡情况，各曲线表明其随着训练步数的变化。不难发现，训练初期所有模型均有较严重的负载不均衡问题，刚开始少数的 expert 接收了绝大部分的 token，导致很多 token 直接被丢弃，但它们均能实现快速下降，尤其具备 auxiliary loss 的模型 CV 能降低到 0.3 左右，也可观察到在该水平下均衡程度很高，每个 expert 都能接收大量有效 token。然而与之相反，不加 auxiliary loss 的模型表现非常不同，有的层甚至在训练后期出现 CV 的飙升。但不管对比训练阶段的 log PPL，还是对比下游语言模型任务的 PPL，不带 auxiliary loss 的模型都表现更优。这一定程度上反映其实负载均衡对最终效果的影响并不大。fQ3ednc

达摩院 M6 团队进一步探索了关键的 top-k gating 策略 k 值和 capacity（C）的选择。首先，他们简单地将 k 值扩大，发现 k 值越大其实效果越好。但考虑到选用不同的 k 值，C 则对应根据下图公式进行调整。通过对 C 调整到 k=1 的水平，观察不同 k 值的 MoE 模型的表现，达摩院团队观察到 k 值更大模型依然表现越好，尽管 k 值增加带来的优势逐渐不太明显。fQ3ednc

fQ3ednc

但 k 值的增加根据 Gshard top-2 gating 的实现，除了存在实现层面上一定的冗余和困难外，循环 argmax 的操作也会导致速度变慢。此外，第二个 expert 的行为会受到第一个 expert 的影响，让训练和测试存在差异。达摩院团队用 expert prototyping 的简单方式替代，相较 baseline 实现了效果提升，且未显著增加计算成本。expert prototyping，即将 expert 分成 k 组，在每组中再进行 top-k 的操作（通常采用 top-1，便于理解），然后将 k 组的结果进行组合，也称之为 k top-1。这种方式实现上更直接简便，并且允许组和组之间并行做 top-k 操作，更加高效。fQ3ednc

达摩院团队观察到，在不同规模的模型上，expert prototyping 都能取得比 baseline 更好的效果，同时速度和计算上也相比 top-k 更有优势。且其在更大规模的模型上优势变得更大，在百亿模型下游 image captioning 任务上甚至能观察到优于 top-k 的表现:fQ3ednc

fQ3ednc

因此达摩院团队将该方法推广到万亿参数 M6 超大模型，并对应和上述的万亿 baseline 做了对比。目前，万亿参数模型训练了大约 3 万步，已经显著优于同等规模的基线模型，呈现约 5 倍的收敛加速。fQ3ednc

沿着这个方向，值得做的工作还有很多：考虑到分组的特性，应当让组和组之间产生足够的差异，让每个组选出来的 experts 尽可能实现组合的效果。达摩院团队对此也在探索对应的有效方案。fQ3ednc

除此之外，算子精度也是阿里此次改良的工作之一。fQ3ednc

谷歌在做Switch Transformer时，为了将模型体积压下来，选择了BF16。fQ3ednc

但精度的降低会带来非常大的技术挑战，就是如何保证模型收敛的问题。fQ3ednc

而且阿里还要做到“低碳版”，不能烧太多的GPU，因此相比谷歌在算子精度方面的工作，阿里可谓走了一条更加“极端”的路线。fQ3ednc

具体而言，XLA优化、混合精度训练、半精度通信等训练效率优化技术，并采用了Adafactor优化器，成功在480张NVIDIA V100-32GB上完成万亿模型的训练。fQ3ednc

并且在训练中，他们采用绝对值更小的初始化，适当减小学习率，保证了训练的稳定性，实现正常的模型收敛，而训练速度也达到了约480samples/s。fQ3ednc

以上便是阿里“低碳版”万亿参数大模型的核心奥秘了。fQ3ednc

论文地址：

https://arxiv.org/abs/2105.15082fQ3ednc

责编：DemifQ3ednc

阅读全文，请先

模拟/混合信号/RF

上一篇： 韩国布局5G毫米波网络两年，仅建91个基站，为啥这么慢？ 下一篇： 继M1108之后，Mythic又推出了模拟计算引擎（ACE）M1076 AMP

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
匠芯创M7000系列远超传统微秒级芯片，响应速度不到300纳 M7000 系列芯片已在人形机器人、机器人关节、高功率伺服驱动器等多个领域实现落地应用，与众多头部企业展开紧密合作···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
为旌科技感算控一体化芯片落地，带来6倍效率提升？具身智能的本质是‘大脑（认知）+小脑（控制）+感官（感知）’的协同进化，需要芯片层面实现三者深度融合。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
ST移动安全解决方案：构建全场景安全连接生态随着移动设备的普及与应用场景的复杂化，移动安全体系正经历关键变革——从早期依赖手机SIM卡的单一安全架构，逐步向融合NFC近场通信、嵌入式安全元件（eSE）及嵌入式SIM卡（eSIM）的多元技术体系演进。

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

达摩院3个月打造“低碳版”万亿参数模型M6，怎么做到的？

万亿参数的 M6-MoE 模型

3个月打造万亿参数模型，怎么做到的？

论文地址：