广告

达摩院发布最大中文预训练语言模型PLUG,35天烧128张GPU达到效果

2021-04-19 15:18:35 综合报道 阅读:
阿里达摩院今日发布了集语言理解(NLU)和生成(NLG)能力于一身的超大规模语言模型PLUG,跟GPT-3的单向建模方式不同的是,它采用了编码器-解码器(encoder-decoder)的双向建模方式,它刷新 CLUE 分类榜单纪录,排名仅次于“人类”

今日,阿里达摩院发布了超大规模语言模型PLUG(Pre-training for Language Understanding and Generation)。该模型参数规模达270亿,是中文纯文本预训练语言模型,采用1TB以上高质量中文文本训练数据,涵盖新闻、小说、诗歌、问答等类型及领域。scsednc

技术细节

PLUG,Pre-training for Language Understanding and Generation,顾名思义,就是集语言理解(NLU)和生成(NLG)能力于一身。scsednc

跟GPT-3的单向建模方式不同的是,它采用了编码器-解码器(encoder-decoder)的双向建模方式。scsednc

scsednc

此前,达摩院机器智能实验室自研的 NLU 语言模型 StructBERT 与 NLG 语言模型 PALM 均在各自领域取得了 SOTA 的效果。简单来说,StructBERT 模型通过加强句子级别(Sentence Structural Objective)和词级别(Word Structural Objective)两个层次的训练目标对语言结构信息的建模,加强模型对语法的学习能力。PALM 模型则结合了 Autoencoding 和 Autoregression 两种预训练方式,引入 Masked LM 目标来提升 encoder 的表征能力,同时通过预测文本后半部分来提升 decoder 的生成能力。scsednc

此次大规模语言模型的训练,达摩院团队汲取二者所长,提出了一个简单的框架,用来进行 NLU&NLG 联合训练。scsednc

相比于 GPT 系列模型,该大规模生成模型以 StructBERT 作为 encoder,具有很强的输入文本双向理解能力,从而可以生成和输入更相关的内容。scsednc

整个训练流程分为两个阶段:scsednc

首先在第一阶段,达摩院团队训练了一个 24 layers/8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据,规模与 GPT-3 的训练规模相当;scsednc

在第二阶段,达摩院团队将这个 encoder 用于生成模型的初始化,并外挂了一个 6 layers / 8192 hidden size 的 decoder,在训练生成模型的过程中,在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样,确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据,前 90% 的训练中,团队保留了 Masked LM 任务以保持模型的 NLU 能力,后 10% 的训练中,去掉 MLM 任务进行微调,以使得生成的 PPL 降到更低,能取得更好的生成效果。scsednc

三个月打造中文最强GPT-3

较 GPT-3 改进的是,PLUG 设计了一个简洁的模型框架,集成了达摩院自研的语言理解及语言生成双模型,通过构建输入文本双向理解能力,显著提升了输出文本的相关性。scsednc

在语言理解任务上,PLUG 以 80.614 的分数刷新了 CLUE 分类榜单记录;在语言生成任务上,PLUG 多项应用数据较业内最优水平提升了 8% 以上。scsednc

GPT-3并没有利用微调和梯度更新,而是通过指定任务、展示少量演示,来与模型文本进行交互,完成各种任务。scsednc

因此在面对新任务时候,不需要重新收集大量的带标签数据。但不可避免的,生成的效果不足。scsednc

比如,犯低级错误就是GPT-3被人诟病比较多的一点。scsednc

而PLUG的能力更加全面,既可以实现与GPT-3类似的零样本生成功能,也可以利用下游训练数据微调(finetune)模型,提升特定任务的生成质量。scsednc

PLUG负责人表示,原本计划用128张A100训练120天炼成,不过由于阿里云、算法优化等达摩院多方力量的参与,以及加速手段的有效利用,成功将日程缩短到三分之一。scsednc

最后,只烧了35天就达到了这样的效果。scsednc

scsednc

PLUG 刷新 CLUE 分类榜单纪录,排名仅次于“人类”scsednc

接下来,PLUG 将扩大参数规模至 2000 亿级,并进一步提升文本生成质量。scsednc

语言模型体系大将云集

在超大规模预训练模型领域,除了以中文为核心的 PLUG 外,达摩院、阿里云计算平台团队还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型“文汇”,以及联合清华大学发布了超大规模多模态预训练模型“M6”。此外,达摩院宣布近期将开源阿里巴巴语言模型体系部分重要模型。scsednc

阿里达摩院语言技术实验室负责人司罗表示:“达摩院 NLP 团队将进一步攻克 NLP 领域科研难题,完善中文及跨语言人工智能基础设施,让 AI 没有难懂的语言,并探索通用人工智能之路。”scsednc

最后总结:相较于 Open AI 的 GPT-3 等其他大规模生成模型,PLUG 具备以下独特优势:scsednc

  • PLUG 是目前中文社区最大规模的纯文本预训练语言模型;
  • PLUG 集语言理解与生成能力于一身,在语言理解(NLU)任务上,以 80.614 的得分刷新了 Chinese GLUE 分类榜单的新记录排名第一;在语言生成(NLG)任务上,在多项业务数据上较 SOTA 平均提升 8% 以上;
  • PLUG 可为目标任务做针对性优化,通过利用下游训练数据微调模型使其在特定任务上生成质量达到最优,弥补之前其它大规模生成模型 few-shot inference 的生成效果不足,可应用于实际生成任务上;
  • PLUG 采用了大规模的高质量中文训练数据(1TB 以上),同时,PLUG 采用 encoder-decoder 的双向建模方式,因此,在传统的 zero-shot 生成的表现上,无论是生成的多样性、领域的广泛程度,还是生成长文本的表现,较此前的模型均有明显的优势。

目前,PLUG 已经开放了体验功能供学术领域试用。scsednc

测试地址:https://nlp.aliyun.com/portal#/BigText_chinesescsednc

责编:Demiscsednc

  • 微信扫一扫
    一键转发
  • 最前沿的电子设计资讯
    请关注“电子技术设计微信公众号”
  • 称可超越ChatGPT,微软推出新人工智能模型——Kosmos-1 微软推出了 Kosmos-1,据称它是一种多模式大型语言模型 (MLLM),不仅可以对语言提示做出反应,还可以对视觉线索做出反应,可用于一系列任务,包括图像说明、视觉问题回答等等。
  • MWC 2023落下帷幕,盘点国产厂商的那些亮眼表现 MWC 2023(世界移动通信大会2023)于2月27日在巴塞罗那正式向全球移动产业伙伴开启,大会也于3月2日正式落下帷幕。展会持续五天,根据官方数据统计,2023年MWC有2000多家全球厂商参展,中国有以OPPO、荣耀为代表的共计28个国产厂商参展。本次展会,各大厂商纷纷拿出自己的看家本领,可谓是亮点多多,今天就带大家一起看看展会上国产厂商展现的那些亮眼技术吧~
  • 维持ChatGPT运行将需要超过3万块Nvidia显卡 据TrendForce的最新预测,人工智能(AI)将成为Nvidia的最大收入来源之一。该研究公司估计,OpenAI的ChatGPT最终将需要超过3万块Nvidia显卡的算力以维持运行。
  • Win11端Phone Link添加新支持,iPhone能在PC端接打电话 3月1日,微软宣布,为Win11平台上的Phone Link应用程序添加对iPhone的支持。用户通过该应用程序连接PC和iPhone之后,可以在PC端拨打和接听电话、发送和接收短信、直接在PC上查看iPhone的通知。预览版要求Phone Link应用程序版本1.23012.169.0或更高版本。
  • 谷歌达成量子计算机第二里程碑,实现量子计算纠错 2月24日,谷歌CEO Sundar Pichai撰写博客,称公司量子计算又向前迈了一大步。谷歌量子AI团队有史以来首次通过实验证明:可以通过增加量子比特的数量来减少错误。在其最新的研究中,谷歌用49个物理量子比特制作的逻辑量子比特超越了用17个量子比特制作的逻辑量子比特。
  • NVIDIA:超级算力,赋能整车中央计算 由全球电子技术领域知名媒体集团AspenCore主办的“中国国际汽车电子高峰论坛”于2023年2月23日正式拉开帷幕。会上,NVIDIA中国区软件解决方案总监卓睿分享了题为“超级算力,赋能整车中央计算”的主题演讲。
  • 我国煤炭行业首个OTA无线射频实验室建成并投入使用 据中国煤炭科工集团官网消息,近日,煤炭行业首个“OTA无线射频实验室”在中国煤炭科工集团煤科院建成并投入应用。
  • 复旦团队发布国内首个类ChatGPT模型MOSS,与ChatGPT相比 复旦大学自然语言处理实验室邱锡鹏教授团队悄然发布了国内首个类ChatGPT模型MOSS(https://moss.fastnlp.top/),不仅一举刷出数个微博热搜话题,在知乎上更是直接冲上热榜,话题浏览进306万次。知乎匿名网友称已经拿到了内测资格,并实时更新了一波测试结果……
  • “IDM929”14nm工艺自研国产GPU芯片即将流片 2月14日消息,据智绘微电子官方消息,该公司自研国产GPU芯片“IDM929”已完成设计,即将进入流片阶段。
  • 国内首个类ChatGPT模型MOSS内测,中国版ChatGPT还差什么 2月20日,复旦大学自然语言处理实验室邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS(https://moss.fastnlp.top/),现已发布至公开平台,邀公众参与内测。
  • NOR Flash克服可穿戴设备设计挑战 为了持续改进下一代设备中的各种功能,可穿戴设备和耳戴式设备依赖于内存。内存是实现高级设备的关键设计因素...
  • 模拟计算重新定义边缘AI性能新境界 传统的数字计算扩展方法,即转向更先进的半导体工艺节点,显然已经达到物理极限(即摩尔定律已经失效),而不断攀升的制造成本则限制了只有少数几家最富有的公司才能使用该技术。下一代的人工智能处理亟需采用新的方法。
广告
热门推荐
广告
广告
EE直播间
在线研讨会
广告
广告
面包芯语
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了