达摩院发布最大中文预训练语言模型PLUG，35天烧128张GPU达到效果-EDN 电子技术设计

 阿里达摩院今日发布了集语言理解（NLU）和生成（NLG）能力于一身的超大规模语言模型PLUG，跟GPT-3的单向建模方式不同的是，它采用了编码器-解码器（encoder-decoder）的双向建模方式，它刷新 CLUE 分类榜单纪录，排名仅次于“人类”

今日，阿里达摩院发布了超大规模语言模型PLUG（Pre-training for Language Understanding and Generation）。该模型参数规模达270亿，是中文纯文本预训练语言模型，采用1TB以上高质量中文文本训练数据，涵盖新闻、小说、诗歌、问答等类型及领域。2V3ednc

技术细节

PLUG，Pre-training for Language Understanding and Generation，顾名思义，就是集语言理解（NLU）和生成（NLG）能力于一身。2V3ednc

跟GPT-3的单向建模方式不同的是，它采用了编码器-解码器（encoder-decoder）的双向建模方式。2V3ednc

2V3ednc

此前，达摩院机器智能实验室自研的 NLU 语言模型 StructBERT 与 NLG 语言模型 PALM 均在各自领域取得了 SOTA 的效果。简单来说，StructBERT 模型通过加强句子级别（Sentence Structural Objective）和词级别（Word Structural Objective）两个层次的训练目标对语言结构信息的建模，加强模型对语法的学习能力。PALM 模型则结合了 Autoencoding 和 Autoregression 两种预训练方式，引入 Masked LM 目标来提升 encoder 的表征能力，同时通过预测文本后半部分来提升 decoder 的生成能力。2V3ednc

此次大规模语言模型的训练，达摩院团队汲取二者所长，提出了一个简单的框架，用来进行 NLU&NLG 联合训练。2V3ednc

相比于 GPT 系列模型，该大规模生成模型以 StructBERT 作为 encoder，具有很强的输入文本双向理解能力，从而可以生成和输入更相关的内容。2V3ednc

整个训练流程分为两个阶段：2V3ednc

首先在第一阶段，达摩院团队训练了一个 24 layers／8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据，规模与 GPT-3 的训练规模相当；2V3ednc

在第二阶段，达摩院团队将这个 encoder 用于生成模型的初始化，并外挂了一个 6 layers / 8192 hidden size 的 decoder，在训练生成模型的过程中，在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样，确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据，前 90% 的训练中，团队保留了 Masked LM 任务以保持模型的 NLU 能力，后 10% 的训练中，去掉 MLM 任务进行微调，以使得生成的 PPL 降到更低，能取得更好的生成效果。2V3ednc

三个月打造中文最强GPT-3

较 GPT-3 改进的是，PLUG 设计了一个简洁的模型框架，集成了达摩院自研的语言理解及语言生成双模型，通过构建输入文本双向理解能力，显著提升了输出文本的相关性。2V3ednc

在语言理解任务上，PLUG 以 80.614 的分数刷新了 CLUE 分类榜单记录；在语言生成任务上，PLUG 多项应用数据较业内最优水平提升了 8% 以上。2V3ednc

GPT-3并没有利用微调和梯度更新，而是通过指定任务、展示少量演示，来与模型文本进行交互，完成各种任务。2V3ednc

因此在面对新任务时候，不需要重新收集大量的带标签数据。但不可避免的，生成的效果不足。2V3ednc

比如，犯低级错误就是GPT-3被人诟病比较多的一点。2V3ednc

而PLUG的能力更加全面，既可以实现与GPT-3类似的零样本生成功能，也可以利用下游训练数据微调（finetune）模型，提升特定任务的生成质量。2V3ednc

PLUG负责人表示，原本计划用128张A100训练120天炼成，不过由于阿里云、算法优化等达摩院多方力量的参与，以及加速手段的有效利用，成功将日程缩短到三分之一。2V3ednc

最后，只烧了35天就达到了这样的效果。2V3ednc

2V3ednc

PLUG 刷新 CLUE 分类榜单纪录，排名仅次于“人类”2V3ednc

接下来，PLUG 将扩大参数规模至 2000 亿级，并进一步提升文本生成质量。2V3ednc

语言模型体系大将云集

在超大规模预训练模型领域，除了以中文为核心的 PLUG 外，达摩院、阿里云计算平台团队还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型“文汇”，以及联合清华大学发布了超大规模多模态预训练模型“M6”。此外，达摩院宣布近期将开源阿里巴巴语言模型体系部分重要模型。2V3ednc

阿里达摩院语言技术实验室负责人司罗表示：“达摩院 NLP 团队将进一步攻克 NLP 领域科研难题，完善中文及跨语言人工智能基础设施，让 AI 没有难懂的语言，并探索通用人工智能之路。”2V3ednc

最后总结：相较于 Open AI 的 GPT-3 等其他大规模生成模型，PLUG 具备以下独特优势：2V3ednc

PLUG 是目前中文社区最大规模的纯文本预训练语言模型；
PLUG 集语言理解与生成能力于一身，在语言理解（NLU）任务上，以 80.614 的得分刷新了 Chinese GLUE 分类榜单的新记录排名第一；在语言生成（NLG）任务上，在多项业务数据上较 SOTA 平均提升 8% 以上；
PLUG 可为目标任务做针对性优化，通过利用下游训练数据微调模型使其在特定任务上生成质量达到最优，弥补之前其它大规模生成模型 few-shot inference 的生成效果不足，可应用于实际生成任务上；
PLUG 采用了大规模的高质量中文训练数据（1TB 以上），同时，PLUG 采用 encoder-decoder 的双向建模方式，因此，在传统的 zero-shot 生成的表现上，无论是生成的多样性、领域的广泛程度，还是生成长文本的表现，较此前的模型均有明显的优势。

目前，PLUG 已经开放了体验功能供学术领域试用。2V3ednc

测试地址：https://nlp.aliyun.com/portal#/BigText_chinese2V3ednc

责编：Demi2V3ednc

阅读全文，请先

人工智能产业前沿

上一篇： 创新存储架构，突破IPFS算力瓶颈 下一篇： 拆解小米11 Pro/Ultra标配的67W快充充电器

微信扫一扫
一键转发
最前沿的电子设计资讯
请关注“电子技术设计微信公众号”

2025松山湖中国IC创新高峰论坛：继续聊聊机器人去年的主题是智慧机器人，今年的主题仍然聚焦于机器人身上，不过变为了具身智慧机器人……
鹏瞰TS-PON Gen2芯片，用光协议重塑机器人“神经网络” TS-PON Gen2芯片是一款灵活的软件定义 SoC，适用于多种场景。它基于无源光网（PON）技术，具备高带宽（目前10G，未来可拓展至25G、50G）、低时延（微秒级）、高确定性等特性···
让人形机器人“耳聪目明”，昆泰芯KTM5900磁性编码器解编码器芯片作为机器人的核心传感器之一，对于提升机器人的感知能力、安全性和生产效率具有重要意义···
如何让具身机器人“看”得清？思特威给出了这个答案相比于滚动快门传感器，全局快门传感器能够同时曝光整个画面，有效避免了运动过程中产生的图像形变，为机器视觉提供高精度、无畸变的图像···
极海推出全球首款双核Cortex-M52实时控制MCU/DSP 随着机器人技术的不断发展，其应用领域从传统的工业制造逐步拓展至医疗、农业等多个新兴领域，这对机器人的控制系统提出了更高的要求，当前机器人控制系统当前主要面临高爆发、高动态、高精度和高安全这四方面的挑战···
比人类更灵活？先楫HPM6E8Y机器人关节控制解决方案 HPM6E8Y通过硬件加速器将电机控制算法执行时间缩短至2.8μs，以全链路高实时通信与多轴协同能力，开启机器人关节“芯”时代。
为旌科技感算控一体化芯片落地，带来6倍效率提升？具身智能的本质是‘大脑（认知）+小脑（控制）+感官（感知）’的协同进化，需要芯片层面实现三者深度融合。
爱芯元智发布AX8850：让AI算力更便宜，让智能更可及爱芯元智希望把算力做得更加便宜具智价比，普惠AI，让我们的边缘智能更加触手可及···
万有引力EB100芯片亮相，空间计算走向低功耗新时代？ EB100芯片将为XR和机器人行业带来更好、更低功耗的空间计算和显示能力，开启空间计算时代的无限可能···
芯驰D9 Max：为具身智能而生的高性能SoC，一颗芯片顶五颗我们希望以1个芯片完成5个芯片完成的事情。当应用发生爆炸性的变化，融合一定是一个非常大的趋势，而且融合的过程会使软件的开发更简单，系统的开发更简单，成本控制得更好···
情境感知AI：利用FPGA技术增强边缘智能现场可编程门阵列（FPGA）的灵活性、现场升级能力和互操作性，结合其低功耗、低延迟和并行处理能力，使其成为开发者克服挑战并优化情境边缘AI应用的关键工具。
ADAS 系统中的传感器创新如何在道路交通中挽救生命在本文中，我们将探讨 ADAS 在提高道路安全方面的作用，以及各种对实现这一目标至关重要的传感器技术。

25年第19周新能源周销量：不同价格带的车型走势解析本周插混与增程车型市场呈现出“两极化”趋势：一方面，10-15万元级的主流家用轿车与SUV销量强劲；另一方面，20万元
拆解报告：甲骨文3060W碳化硅服务器电源模块甲骨文服务器电源模块输入输出均为专用接口，采用热拔插设计。电源模块支持200-277V交流和240-380V直流输入，输
评测：森海塞尔ACCENTUM Open真无线耳机半入耳机森海塞尔ACCENTUM Open 真无线耳机采用半入耳式设计，搭配约4.4克的重量，佩戴舒适。耳机充电盒轻盈小巧，携带外
人形机器人如何做到“手眼”协同+“大小脑”协同？人形机器人正站在“走出实验室”的临界点。从本体制造、控制系统、核心零部件到应用场景拓展，技术与产业生态
南非2025年4月：奇瑞和长城汽车快速上升 2025年4月的南非车市增长，马恒达和现代的强劲回归是一个信号，而中国品牌的集体崛起，则预示着未来竞争将更加多
4月新能源车领跑汽车出口增长，中国汽车走向全球的新引擎 2025年开年以来的出口数据呈现出清晰的结构升级路径。新能源产品在出口中扮演的角色日益重要，不再只是锦上添
拆解报告：vivo手机原装90W氮化镓闪充充电器 vivo 90W氮化镓闪充充电器采用经典直板造型设计，同时附带一条专门量身定制的8.5A大电流数据线，配合信号屏蔽层
拆解报告：HONOR荣耀手环10 荣耀手环10在外观方面，延续了上代的轻薄双曲面设计，同时采用全新的双色NCVM镀膜工艺，使之更加的时尚精致。标配
2025年4月中国车企加速渗透土耳其市场：比亚迪Seal U打响突围战 2025年4月，土耳其市场的爆发式增长为全球车企提供了重要信号：新兴市场正在进入电动化转型的加速期，而土耳其作
2025年第19周新能源周销量：问界起势 2025年第19周，中国乘用车市场的周度销量达到44.4万辆，其中新能源车占比突破50%，达22.3万辆，占比50.2%。比亚迪体
2024年4月汽车市场终端数据：自主崛起、新势力分化、合资承压从整体销量数据来看，4 月汽车终端销量达 169.7 万，同比增长 9.3% ，在目前的价格力度下，这个销售数字差强人意。2
拆解报告：华为750W钛金牌服务器电源华为这款服务器电源型号为PAC750S12-TE，支持220V交流或240V直流输入，输出电压为12V，输出电流为62.5A，输出端设有

史密斯英特康推出新一代“ DaVinci Gen V”测试插座史密斯英特康推出新一代“ DaVinci Gen V”测试插座，为人工智能、6G通信及先进计算应用领域的芯片提供超
意法半导体高集成度低边电流测量放大器简化高准确度电流检测意法半导体的 TSC1801低边电流测量放大器集成了设定增益所需的匹配电阻，从而简化了电路设计，节省了物料清单
意法半导体推出创新的、带有可改变存储配置存储器的车规微控制器新推出的Stellar微控制器内置了xMemory技术，它为正在发展的软件定义汽车以及不断进化的电动汽车架构提供了一
新系列串口EEPROM内置唯一ID码，适合设备识别、溯源和可持续性应用意法半导体 (ST) 推出了一系列内置128位唯一只读ID码 (UID) 的串口EEPROM芯片，以满足市场对产品识别、溯
Vishay新添增强短瞬态脉冲防护性能的经AEC-Q200认证的厚膜功率电这些器件采用夹片式TO-247 封装形式，可直接安装在散热器上，具有高达 75 J/0.1 s的高脉冲吸收能力和 150
凉棚集成Nordic 技术实现Matter over Thread连接为家庭和企业 StruXure+ 凉棚和小屋系列集成 Nordic 的 nRF5340 SoC以提供无缝的 Matter over Thread 连接
智能楼宇技术全球领导者与Nordic Semiconductor携手合作确保楼业界连手推动NR+成为智能楼宇的全球连接标准···
Cadence 率先推出 eUSB2V2 IP 解决方案，助力打造高速连接新范 Cadence 在业内率先推出 eUSB2V2 IP，此 IP 基于先进的台积公司 N3P 工艺，符合最新的嵌入式 USB2 版
纳芯微发布双通道电流检测放大器NSCSA285，赋能工业与能源管理近日，上海 —— 纳芯微电子（简称“纳芯微”）发布全新高精度双通道电流检测放大器NSCSA285系列···
攻克PWM高频瞬态干扰难题！纳芯微发布车规级电流检测放大器NSCSA24 近日，纳芯微发布全新车规级双向电流检测放大器NSCSA240-Q1系列，专为汽车高压PWM系统打造解决方案···
TE Connectivity 推出INMORO系列：致力于满足中国市场需求而打造的连接和传感解决方案提供商泰科电子（TE Connectivity，以下简称 TE）工业事业部隆重推出INMORO 系列，致力于满足中
破解汽车与工业等应用新挑战，TDK展示多传感器融合与AI+发展趋势在新能源汽车应用中，热管理系统既要能高效地冷却和加热电池、电机与OBC等车辆核心部件，确保其处于最佳运行温

热门评论
最新评论

换一换

杂志声明

达摩院发布最大中文预训练语言模型PLUG，35天烧128张GPU达到效果

技术细节

三个月打造中文最强GPT-3

语言模型体系大将云集