问鼎娱乐下载链接入口 PTMs:史上最全面总结 NLP 预训练模型
预训练模型(PTM)的出现使NLP成为一个新时代。 2020年3月18日,Qiu Xipeng先生发表了NLP预培训模型的评论,“自然语言处理的预训练模型:调查”,这是一项全面的综述,该综述对PTM进行了系统地总结和分类。
本文将本综述论文作为其主要参考,并通过借鉴不同的归纳方法来总结它。同时,它还集成了两篇文章“ NLP中的单词向量的比较”和“ NLP中训练性语言模型的摘要”。文章,QA形式的PTMS的综合摘要。
要获取单个模型的摘要图像下载和密集阅读,请转到GitHub:NLP预培训模型的全面摘要,希望为每个人的学习和工作提供一些帮助。
作者注:本文的摘要也与原始评论论文不同(有关详细信息,请参见本文的结尾)。请更正任何错误或不适当的观点。许多摘要点并不容易掌握,请给我更多建议〜
1。为什么需要预训练?
在深度学习的时代,为了完全训练深层模型参数并防止过度拟合,通常需要更标记的数据喂养。在NLP字段中,标签数据是一种昂贵的资源。从大量无标签数据中预先培训的PTM可为许多NLP任务提供重大的性能改进。总体而言,预训练的模型PTM的优点包括:
对巨大未标记的数据进行预培训可以获得更多的通用语言表示并促进下游任务;它为模型提供了更好的初始化参数,在目标任务上具有更好的概括性能,并加速了收敛。是避免在小数据集上过度拟合的有效正则化方法(随机初始化的深层模型容易过度拟合小数据集); 2。哪些单词嵌入和分布式表示? PTM和分布式表示之间的关系是什么?
单词嵌入是自然语言处理(NLP)中语言模型和代表性学习技术的一般术语。从概念上讲,它指的是将所有单词数的高维空间嵌入具有较低尺寸的连续矢量空间中,并且每个单词或短语都被映射为真实域上的向量,它也是分布式表示形式:向量的每个维度都没有实际意义,整体代表了一个特定的概念。
与传统的一hot表示相比,分布式表示具有更强的表示功能,而单热编码具有诸如维度灾难和语义差距之类的问题(无法执行相似性计算)。传统的分布式表示方法,例如矩阵分解(SVD/LSA),LDA等,根据全球语料库进行培训,是机器学习时代的产物。
PTM还属于分布式表示的类别。本文中的PTM主要介绍深度学习时代NNLM $ [^脚注]
由于“现代”一词已嵌入。
3。PTM的两个主要范例是什么?比较不同的预告片编码器?
PTM的开发有两个阶段:浅层嵌入深度编码。根据这两个主要开发阶段,我们总结了PTM的两个主要范式:“浅词嵌入”和“预审计的编码器”。
1。非上下文嵌入**
我们通常称之为“ word vector”的浅词嵌入,这种类型的PTMS范式。它的主要特征是,我们学到的是与上下文无关的静态词嵌入,它主要由NNLM,Word2Vec(Cbow,Skip-gram),Glove等表示。这种类型的单词嵌入通常是使用浅网络训练的,以及应用于下游任务,其余的整个模型仍然需要从头开始学习。因此,无需在此范式中训练PTM,以获取深层神经网络。使用浅网络加速训练也可以产生好的单词嵌入。
浅字嵌入的主要缺点是:
图1:3个常见浅单词嵌入的比较:nnlm,word2vec,手套:
图1显示了三个常见的浅词嵌入之间的比较,并且手套可以看作是替代目标函数和权重函数的全局word2vec。此外,相关文献还提出了句子和文档级嵌入方法,例如跳过,context2vec,等。
2。预训练的编码器(上下文嵌入)
第二种PTMS范式是预处理的编码器。主要目的是通过验证的编码器输出与上下文相关的单词向量,以解决单词多种含义的问题。通过这种验证的编码器输出的向量称为“与上下文相关的单词嵌入”。
图2:NLP编码器比较:
图2显示了各种NLP编码器之间的比较。 PTMS中的预训练的编码器通常使用LSTM和Transformer(Transformer-XL),并且Transformer根据其注意掩码方法将变压器分为两个部分:变压器编码器和变压器编码器。此外,变压器也可以被视为图形神经网络GNN
“预读书”范式中的这种类型的PTM主要代表Elmo,GPT-1,Bert,Xlnet等。
4。如何按任务类型对PTMS进行分类?
PTM可以根据任务类型分为两类:监督学习和无监督的学习/自我监督学习。
NLP-PTMS中监督学习的主要代表是Cove。 Cove作为机器翻译的编码部分,可以应用于各种NLP下游任务。除Cove外问鼎娱乐电子游戏,NLP中的绝大多数PTM都属于自我监督的学习。
自学学习是一种无监督学习的方法。自我监督的学习主要使用辅助任务来从大规模的无监督数据中挖掘自己的监督信息。通过此构建的监督信息,可以培训网络,以便可以学习。下游任务的宝贵表示。因此,从“构造监督信息”的角度来看,自我划分也可以被视为监督学习和无监督学习的融合。严格来说,从手动注释的角度来看,自我监督的学习属于无监督学习的类别。
基于各种自我监督学习的分类方法,作者将NLP-PTMS分为两种类型的自我监督学习:基于上下文和基于对比的。
1。基于上下文
基于上下文的PTM主要基于数据本身的上下文信息构建辅助任务。在NLP中,我们通常会引入语言模型作为培训目标。 PTM中的语言模型主要分为三类:
图3:三种语言模型之间的比较
类别1:自回归语言模型(LM)
类别2:自动编码语言模型(DAE)
伯特(Bert)是自动编码语言模型的典型代表,但它采用了MLM策略和变压器编码器结构,这使其不适合直接处理生成任务。为了解决此问题,还可以使用SEQ2SEQ MLM方法:编码器部分采用掩盖策略,而解码器部分则预测编码器部分的令牌以自动性方式掩盖。此外问鼎娱乐下载链接入口,许多基于自动编码语言模型的PTM都提出了不同的MLM增强策略,称为增强的蒙版语言建模(E-MLM)
有关上述DAE的特定PTM方法,请参见图4。
类别3:安排语言模型(PLM)
排列的语言模型(PLM)结合了LM和DAE-LM的优势。严格来说,PLM和LM是标准自回归语言模型(注意:PLM是一种广义自回归方法),而MLM不是标准语言模型,它引入独立性假设并隐含地学习预测令牌(掩模部分之间的关系本身是密切相关)。如果测量以序列建模的依赖项数量,则标准自回归语言模型可以在不依赖任何独立假设的情况下达到上限。 LM和PLM可以明确学会通过自动进度来预测令牌之间的关系。但是,LM无法表征双向上下文。 PLM借鉴了NADE的想法,将这种传统的自回归语言模型(LM)推广,将顺序拆卸转换为随机拆卸(从左到右分解),从而产生了与上下文相关的双向特征表示。
PLM的最典型代表是XLNET,它是标准语言模型的复兴:提出了一个框架来连接标准语言建模方法和预训练方法。
一个关键问题:为什么PLM可以实现双向上下文建模? PLM的本质是语言模型联合概率多种分解机制的实施例,该机制将LM的顺序拆卸概括为随机拆卸。 PLM不会更改原始文本序列的自然位置,而只会定义令牌预测的顺序。 PLM只是语言模型的不同排列下的分解安排,而不是单词位置信息的重新排列。
最后,我们基于上述三种语言模型总结了PTM:
图4:基于上下文(基于上下文)的3种语言模型中PTM的摘要:
2。基于对比度
基于比较(基于对比的),与基于上下文不同的是,它主要使用数据本身的上下文信息构建帮助,基于对比度的主要使用样本之间的约束信息来构建辅助任务。该方法也是对比度学习(CTL)。 CTL假设观察到的文本对(正样本)在语义上比随机采样的文本(负样本)更相似。 CTL背后的原则是“学习”。与语言建模相比,CTL具有较低的计算复杂性,因此它是预训练的理想替代培训标准。
CTL通过构建正面和负样本,然后测量正面样本和负样本之间的距离来实现自我监督的学习:您可以使用DOT产品来构建距离函数,然后构建软玛克斯分类器以正确分类正样品。和负样本。鼓励相似性度量函数将较大的值分配给积极的例子,而较小的值为负面示例:
相似性度量功能通常可以采用两种方式:
或者
类别1:深信息(DIM)
DIM方法来自简历字段。对于全局功能(编码器的最终输出)和本地功能(编码器中间层的功能),DIM需要确定全局功能和本地功能是否来自同一图像。
Infordord将DIM引入NLP,使用相互信息的下限Infonce重新解释BERT和XLNET的目标,并提出了一个新的DIM目标,以最大程度地提高句子的全局表示与一个Ngram信息的局部表示之间的相互关系。
类别2:更换令牌检测(RTD)
噪声对抗性估计(NCE)可以训练二进制分类器以区分真实和假样品,这可以很好地训练单词嵌入。 RTD与NCE相同,并根据上下文预测是否替换令牌。
类别3:下一个句子预测(NSP)
NSP区分两个输入句子是否是训练语料库中的连续段,第二句是第一个句子的实际连续段的50%,而50%是从其他语料库中随机选择的50%。 NSP可以指导模型了解两个输入句子之间的关系,从而使对此信息敏感的下游任务(例如QA任务)受益。罗伯塔(Roberta)表明,当单个文档中的文本训练文本,删除NSP任务或下游任务时,NSP可以稍微提高性能。
类别4:句子顺序预测(SOP)
SOP在同一文档中使用两个连续的片段与正样品使用,而连续两个连续片段则与负样品互换。 NSP结合了主题预测和相关性预测,这使主题预测更加容易,这使得模型在做出预测时仅依赖主题学习。与NSP不同,SOP在同一文档中使用两个连续的段与正样本,但与负样本互换。执行SOP任务的PTM包括Albert,Structbert和Bertje。
图5基于基于对比的:
图5:基于对比的PTMS摘要:
5。PTM的扩展是什么?
1。介绍知识
PTM通常从通用大型文本语料库中学习通用语言表示,但缺乏特定领域的知识。事实证明,在PTM中设计了一些辅助预训练任务,将外部知识基础的域知识集成到PTM上已被证明是有效的。
由于预先训练的语言模型通常包含至少数亿个参数问鼎娱乐官网下载,因此很难将它们部署在现实生活应用程序中的在线服务和资源受限的设备上。模型压缩是降低模型大小并提高计算效率的有效方法。
5种PTMS的压缩方法是:
量化:表达高精度的高精度模型;参数共享:类似模型单元之间的参数共享;替换模块:知识蒸馏:从大到一些优化目标,知识丰富的固定教师模型都学会了一个小的学生模型。蒸馏机制有三种类型:
3。多模式
随着PTM在NLP领域的成功,许多研究人员已开始关注多模式领域的PTM,主要是为一般视觉和语言特征编码表示。多模式的PTM在一些巨大的跨模式数据语料库(语音,视频和带有文本的图像)上进行了预训练,例如语音,视频和带有文本的图像,主要是Videobert,CBT,CBT,Univilm,vil-Bert,vil-Bert,lxmert,lxmert,visualbert,Visualbert ,B2T2,Unicoder-Vl,Uniter,Vl-Bert,Speechbert。
4。现场预训练
大多数PTM都接受了普通语料库(例如Wikipedia)的训练,并且在域的特定情况下受到限制。例如基于生物医学文本,基于科学文本的SCIBERT和基于临床文本的临床 - 伯特(Scibert)。一些工作还试图使PTM适应目标领域的应用程序,例如医疗实体的标准化,专利分类专利专利,情感分析Sentilr关键字提取。
5。多语言和特定语言
在许多跨语言NLP任务中学习多语言文本表示形式在许多跨语言的NLP任务中都起着重要作用。
尽管多语言PTM在语言任务中的表现良好,但接受单一语言培训的PTMS比多语言PTM好得多。此外,已经提出了一些单语PTM:Bert-WWM,Zen,Nezha,Ernie-Baidu,Bertje,Camembert,Flaubert,Robbert。
6:如何转移PTM的学习?
PTMS从大型语料库中获取常见的语言知识,以及如何有效地使其知识适应下游任务是一个关键问题。转移学习的主要方法包括电感转移(顺序转移学习,多任务学习),域自适应(转导转移),跨语言学习等。NLP中PTMS的转移方法是顺序传递学习。
1。如何迁移?
选择正确的预训练任务:语言模型是PTM,这是最流行的培训任务;相同的预训练任务具有其自身的偏见,将对不同的任务产生不同的影响。例如,NSP任务可以使下游任务受益,例如Q&A(QA)和自然语言推断(NLI)。选择适当的模型体系结构:例如,Bert采用的MLM策略和变压器编码器结构,这使其不适合直接处理生成任务。选择适当的数据:下游任务的数据应与PTMS的训练前任务相似。有许多现成的PTM可以方便地用于各种特定域或语言中的下游任务。选择右图进行传输:主要包括嵌入迁移,顶层迁移和所有层迁移。例如,Word2Vec和Glove可以使用嵌入迁移,Bert可以使用顶层迁移,Elmo可以使用所有层迁移。功能集成还是微调?对于特征集成,训练参数是冻结的,而微调是未冻结的。特征集成方法需要特定于任务的体系结构,而微调方法通常比特征提取方法更通用和方便。
2。微调策略:通过更好的微调策略进一步刺激PTMS性能
7. PTM中应该解决哪些其他问题?
(此部分来自,带有删除和更正)
尽管PTM在许多NLP任务中表现出了强大的功能,但由于语言的复杂性,仍然存在许多挑战。审查论文就PTM的五个未来开发方向提出了建议。
1。ptm的上限
目前,PTM尚未达到其上限。大多数PTM可以通过使用更长的训练步骤和较大的数据集来提高其性能。当前,通过加深模型层的数量,NLP中的SOTA也可以进一步改善。这将导致更高的培训成本。因此,一个更务实的方向是设计更有效的模型结构,基于现有软件和硬件的自我监管的预训练任务,优化器和培训技术。例如,Electra是在这个方向上的一个很好的解决方案。
2。面向任务的预训练和模型压缩
实际上,不同的目标任务要求PTM具有不同的功能。 PTM和下游目标任务之间的差异通常在两个方面:模型体系结构和数据分布。尽管较大的PTM通常会带来更好的性能,但是如何在低计算资源中使用它们是一个实际问题。例如,对于NLP PTM,模型压缩的研究仅仅是开始,而变压器的完全连接的体系结构也使模型压缩具有挑战性。
3。PTMS的建筑设计
对于PTMS,变形金刚已被证明是一种有效的体系结构。但是,变压器的最大限制是其计算复杂性(输入序列长度的平方英尺)。由于GPU存储器大小,大多数PTM当前无法处理超过512个令牌的序列长度。打破此限制需要改善变压器的结构设计,例如变压器-XL。
4。芬泰的知识转移
Finetune当前是将PTM知识转移到下游任务的主要方法,但效率低下。每个下游任务都需要特定的Finetune参数。可以改进的解决方案是修复PTMS的原始参数,并为特定任务添加一个小的芬太纳适配器,以便您可以使用共享的PTMS服务多个下游任务。
5。PTMS的解释和可靠性
PTM的解释性和可靠性仍然需要从各个方面进行探索。它可以帮助我们了解PTM的工作机制,并为改善使用和绩效提供指导。
最后:本文的摘要和原始评论论文之间有些区别:
本文定义了PTM的两个范式:浅词嵌入和预训练的编码器。与原始文本不同,XLNET在原始评论论文中被归类为变形金学编码器,本文认为将其归类为Transferter-XL更合适。在本文中,根据自我监督学习的分类,PTM与原始文本不同。根据两种方法对本文进行分类:基于上下文和基于对比度;原始的LM,MLM,DAE和PLM被归类为基于上下文;本文将原始的MLM和DAE统一为DAE;其他:1)在3.1.2的E-MLM段落中,可以将structbert取出并仅放置在SOP中; 2)在3.1.5中的Electra的描述中,应采用原始Electra中的主要方法(参数共享),而两阶段的方法只是实验尝试。 3)可以在纯部分中补充层; 4)UNILM应归类为MLM;
(人们有不同的意见,明智的人有自己的意见〜。您也可以在评论部分中讨论它,以纠正我的错误〜)
我要评论