2006.03654_DeBERTa: Decoding-enhanced BERT with Disentangled Attention¶
引用: 3684(2025-08-06)
组织
1 Microsoft Dynamics 365 AI
2 Microsoft Research
总结¶
两项关键技术:
Disentangled Attention Mechanism(解耦注意力机制)
Enhanced Mask Decoder(增强的掩码解码器)
意义
通过解耦注意力和增强解码器,显著提升了模型对上下文和位置信息的建模能力,成为NLP领域的重要里程碑
类比讲解
传统BERT的问题
一个人读书时:
注意力机制:同时看单词的意思(内容)和单词的位置(位置),但这两者是混在一起理解的。
缺点:比如句子 “苹果吃了我” 和 “我吃了苹果”,单词一样但顺序不同,BERT可能混淆两者的逻辑关系。
DEBERTa的改进
解耦注意力 → “分开看内容和位置”
传统BERT:把乐高块的颜色(内容)和拼装顺序(位置)用一个胶水粘在一起看。
DEBERTa:把颜色和顺序分开观察:
先单独看所有乐高块的颜色搭配(内容-内容)。
再看”红色块必须放在蓝色块后面”这条规则(位置-内容)。
最后再组合起来判断整体结构。
增强解码器 → “作弊小抄”
BERT的MLM任务像填空题:句子 “我买了__(mask)去跑步”,模型需要猜mask是”鞋”还是”咖啡”。
BERT:只能根据上下文”买了…跑步”猜,可能误判为”咖啡”(因为”买咖啡”更常见)。
DEBERTa:额外告诉模型mask的位置是”第4个词”,结合”跑步”更可能猜”鞋”。
相当于考试时不仅看题目,还偷偷看了空格的位置提示。
类比总结
场景 |
BERT的表现 |
DEBERTa的改进 |
|---|---|---|
读小说 |
记得角色名字和剧情,但搞混时间线 |
用时间轴+角色关系图分开记录 |
玩拼图 |
同时看图案和位置,容易拼错 |
先分类图案颜色,再按编号拼装 |
做填空题 |
只根据句子意思猜 |
额外知道空格是第几个词 |
Abstract¶
本文提出了一种新的预训练语言模型架构——DeBERTa(Decoding-enhanced BERT with disentangled attention),旨在提升 BERT 和 RoBERTa 的性能。该模型引入了两项关键技术:
1. Disentangled Attention Mechanism(解耦注意力机制)¶
这是本文的一个重点创新点。传统的注意力机制通常将词的内容和位置混合处理,而 DeBERTa 通过两个独立的向量分别表示词的内容和位置。在计算注意力权重时,也分别基于内容和相对位置使用解耦的矩阵,从而更灵活、准确地建模语言中的关系。这项机制显著提升了模型对语言结构的理解能力。
2. Enhanced Mask Decoder(增强的掩码解码器)¶
这也是本文的关键技术之一。在预训练阶段,模型需要预测被掩码的词。DeBERTa 在解码层引入了绝对位置信息,从而提升了掩码词的预测准确性。这一改进增强了模型在生成类任务上的表现。
3. Virtual Adversarial Training(虚拟对抗训练)¶
在微调阶段,DeBERTa 使用了虚拟对抗训练方法,以增强模型的泛化能力。虽然这项技术在文中并未作为核心创新点,但它对模型的最终性能提升起到了辅助作用。
实验结果与性能表现¶
实验表明,DeBERTa 显著提高了模型的预训练效率,并在多种自然语言理解(NLU)和自然语言生成(NLG)任务中表现优异。值得注意的是,使用仅一半训练数据的情况下,DeBERTa 相比 RoBERTa-Large 在多个基准测试中表现更优,例如:
MNLI: 提升 0.9%(90.2% vs 91.1%)
SQuAD v2.0: 提升 2.3%(88.4% vs 90.7%)
RACE: 提升 3.6%(83.2% vs 86.8%)
此外,作者还训练了一个更大的 DeBERTa 模型版本,包含 48 个 Transformer 层和 15 亿参数,在性能上实现了进一步提升。
里程碑式的成果¶
在 SuperGLUE 基准测试中,单模型版本的 DeBERTa 首次在 宏平均分(macro-average score) 上超过了人类表现(89.9 vs 89.8),而模型集成版本在 2021 年 1 月 6 日时已在 SuperGLUE 排行榜上位列第一,超越了人类基线(90.3 vs 89.8)。
资源发布¶
预训练的 DeBERTa 模型和源代码已发布在 GitHub(https://github.com/microsoft/DeBERTa),同时也可在 HuggingFace Transformers 平台访问(https://github.com/huggingface/transformers, https://huggingface.co/models?filter=deberta)。
总体而言,DeBERTa 通过结构创新和训练方法的改进,显著提升了模型性能,并在自然语言处理领域达到了新的高度。
1 Introduction¶
背景介绍(重点)¶
Transformer 已成为神经语言建模中最有效的神经网络架构。相比传统的循环神经网络(RNN)按顺序处理文本,Transformer 使用自注意力机制,能够并行地为输入文本中的每个单词计算注意力权重,衡量一个词对另一个词的影响。这种机制相比 RNN 允许更大规模模型的并行训练,因此在 2018 年之后,基于 Transformer 的大规模预训练语言模型(Pre-trained Language Models,PLMs)迅速发展,如:
GPT(Radford et al., 2019;Brown et al., 2020)
BERT(Devlin et al., 2019)
RoBERTa(Liu et al., 2019c)
XLNet(Yang et al., 2019)
UniLM(Dong et al., 2019)
ELECTRA(Clark et al., 2020)
T5(Raffel et al., 2020)
ALUM(Liu et al., 2020)
StructBERT(Wang et al., 2019c)
ERINE(Sun et al., 2019)
这些模型通过使用任务特定的标签进行微调,在许多下游自然语言处理(NLP)任务中创造了许多新的 SOTA(State of the Art)结果(Liu et al., 2019b;Minaee et al., 2020;Jiang et al., 2020;He et al., 2019a;2019b;Shen et al., 2020)。
提出模型:DeBERTa(重点)¶
本文提出了一种新的基于 Transformer 的神经语言模型 DeBERTa(Decoding-enhanced BERT with disentangled attention),它在现有 SOTA PLMs 的基础上引入了两种新机制,显著提升了性能和效率:
1. 解耦注意力机制(Disentangled Attention)(重点)¶
传统 BERT 中,每个词在输入层使用一个向量表示,该向量是词嵌入(内容嵌入)与位置嵌入的和。而在 DeBERTa 中,每个词使用两个独立的向量来分别编码其内容和位置信息。
在计算注意力权重时,DeBERTa 使用解耦的注意力矩阵,分别基于词的内容和相对位置。这种设计的动机是:词对之间的注意力权重不仅取决于它们的内容,还与它们的相对位置有关。例如,“deep”和“learning”相邻时的依赖关系,比它们出现在不同句子中时更强。
2. 增强的掩码解码器(Enhanced Mask Decoder)(重点)¶
DeBERTa 使用与 BERT 相同的掩码语言建模(MLM)训练方式,即通过上下文预测被掩码的词。但 DeBERTa 在 MLM 过程中进一步引入了绝对位置信息。
虽然解耦注意力机制考虑了相对位置,但很多任务中绝对位置对预测至关重要。例如,在句子 “a new store opened beside the new mall” 中,尽管“store”和“mall”的上下文相似,但它们在句子中的语法角色不同(“store”是主语),而这依赖于它们在句子中的绝对位置。
因此,DeBERTa 在 softmax 层(即预测被掩码词的层)之前,引入了绝对位置嵌入,结合词的内容和相对位置信息,提升了语言建模的准确性。
3. 虚拟对抗训练方法(Virtual Adversarial Training)(次重点)¶
作者还提出了一种新的虚拟对抗训练方法,用于在训练下游 NLP 任务时微调 PLMs,该方法有效提升了模型的泛化能力。
实验结果(重点)¶
作者通过广泛的实验验证了 DeBERTa 的有效性,主要体现在以下方面:
NLU 任务表现¶
在 NLI 任务中(如 MNLI),DeBERTa 在仅使用 RoBERTa-Large 一半训练数据的情况下,性能优于 RoBERTa-Large:
MNLI:+0.9%(90.2% vs. 91.1%)
SQuAD v2.0:+2.3%(88.4% vs. 90.7%)
RACE:+3.6%(83.2% vs. 86.8%)
NLG 任务表现¶
在 NLG 任务中,DeBERTa 在 Wikitext-103 数据集上的困惑度(Perplexity)从 21.6 降低到 19.5。
大规模模型表现¶
作者进一步扩展了 DeBERTa,训练了一个包含 48 层 Transformer、15 亿参数的模型。
在 SuperGLUE 基准上,该模型显著优于 T5(110 亿参数):
T5 vs. DeBERTa:89.9% vs. 89.9%(DeBERTa 与 T5 平分秋色)
DeBERTa 的单模型首次在 SuperGLUE 上超过了人类基线(89.9 vs. 89.8)。
集成 DeBERTa 模型在 2021 年 1 月 6 日位居 SuperGLUE 排行榜首位,超越人类基线 0.5%(90.3 vs. 89.8)。
小结¶
本节介绍了 DeBERTa 的背景、创新点及实验结果。核心贡献在于引入了解耦注意力机制和增强掩码解码器,提升了模型在多个 NLP 任务中的性能。实验表明,DeBERTa 在使用更少数据和参数的情况下,仍能超越现有 SOTA 模型,展示了其强大的建模能力与效率。
2 Background¶
2.1 Transformer¶
Transformer 基语言模型由多个堆叠的 Transformer 块组成(Vaswani 等,2017)。
每个块包含一个多头自注意力层,后接一个全连接的位置前馈网络。
传统的自注意力机制本身没有自然的方式来编码词的位置信息。
因此,现有方法通常会在每个输入词的嵌入(embedding)上加一个位置偏置,使得每个词的表示向量既包含其内容信息,也包含其位置信息。
位置偏置的实现方式有两种:
绝对位置嵌入(如 Vaswani 等,2017;Radford 等,2019;Devlin 等,2019)
相对位置嵌入(如 Huang 等,2018;Yang 等,2019)
已有研究表明,对于自然语言理解与生成任务,相对位置表示更有效(如 Dai 等,2019;Shaw 等,2018)。
本文提出的解耦注意力机制(disentangled attention mechanism)与现有方法不同:
它为每个输入词使用两个独立的向量,分别表示词的内容和位置。
在计算词之间的注意力权重时,分别基于它们的内容和相对位置,使用分离的矩阵进行计算。
2.2 Masked Language Model¶
大规模的 Transformer 基础的预训练语言模型(PLM)通常通过自监督目标在大量文本上进行预训练,常见的目标是Masked Language Model(MLM)(Devlin 等,2019)。
具体来说,给定一个序列 \( \bm{X} = \{x_i\} \),会通过随机掩码(mask)其 15% 的 token 来得到一个被破坏的序列 \( \bm{\tilde{X}} \)。
然后训练一个参数为 \( \theta \) 的语言模型,以预测被掩码的 token \( \tilde{x}_i \),从而重建原始序列 \( \bm{X} \)。
目标函数如下:
其中,\( \mathcal{C} \) 表示序列中被掩码的 token 的索引集合。
BERT 的作者提出掩码策略如下:
10% 的被掩码 token 保持不变
10% 的被掩码 token 被随机替换成其他 token
剩下的 80% 被替换成 [MASK] 标记
这种方式有助于模型学习更鲁棒和上下文相关的表示。
3 The DeBERTa Architecture¶
3.1 解耦注意力:使用两个向量表示内容与位置嵌入¶
在DeBERTa架构中,每个位置为 \(i\) 的词被表示为两个向量:
内容向量 \(\mathbf{H}_i\):表示该词本身的语义内容;
相对位置向量 \(\mathbf{P}_{i|j}\):表示该词与位置为 \(j\) 的词之间的相对位置关系。
主要创新点:¶
解耦注意力机制:将词对之间的注意力权重 \(A_{i,j}\) 拆分为四个部分:
内容-内容(content-to-content):\(\mathbf{H}_i \mathbf{H}_j^\top\)
内容-位置(content-to-position):\(\mathbf{H}_i \mathbf{P}_{j|i}^\top\)
位置-内容(position-to-content):\(\mathbf{P}_{i|j} \mathbf{H}_j^\top\)
位置-位置(position-to-position):\(\mathbf{P}_{i|j} \mathbf{P}_{j|i}^\top\)
其中,第4项(位置-位置)对相对位置建模帮助不大,因此在实现中被删除。
相对距离函数 \(\delta(i,j)\):定义在 \([0, 2k)\) 区间内,用于表示词对之间的相对距离,其中 \(k\) 是最大相对距离。
高效实现:为每个查询重用相对位置嵌入矩阵 \(\mathbf{K}_r\),从而将空间复杂度从 \(O(N^2 d)\) 降低到 \(O(k d)\),显著提升了效率。
补充说明:¶
该机制与张量积表示(Tensor Product Representation)有相似之处,即用内容向量与位置向量的张量积表示词。
相比于传统只使用内容-内容和内容-位置的相对位置嵌入方法,DeBERTa还引入了位置-内容项,认为其对词对注意力权重的计算也很重要。
3.1.1 高效实现¶
通过重用相对位置向量 \(\mathbf{K}_r\) 和 \(\mathbf{Q}_r\),避免为每个查询单独分配存储空间。
使用相对位置矩阵 \(\bm{\delta}\) 作为索引提取相对位置信息,实现公式化和高效计算。
算法步骤清晰,包括:
投影内容和位置向量;
计算内容-位置和位置-内容的注意力分数;
最终将三个部分相加,归一化后输出。
3.2 增强的掩码解码器处理词的绝对位置(Enhanced Mask Decoder)¶
动机:¶
在 MLM(Masked Language Modeling) 中,模型需要根据上下文预测被掩码的词。
DeBERTa 已经通过解耦注意力机制捕捉了词的相对位置,但忽略了词的绝对位置,这在某些语境中是区分词义的关键。
示例说明:¶
例如,在句子 “a new store opened beside the new mall” 中,若“store”和“mall”都被掩码,仅通过相对位置和上下文词难以区分两者,因为它们都出现在“new”之后且位置相同。
需要引入绝对位置作为补充信息,以提升模型的预测准确性。
实现方式:¶
BERT:在输入层通过嵌入绝对位置信息。
DeBERTa:在所有 Transformer 层之后、在 softmax 前加入绝对位置信息。这样,模型在解码掩码词时才使用绝对位置,因此称为 Enhanced Mask Decoder (EMD)。
优势:¶
允许模型在 Transformer 层中专注于学习相对位置,避免绝对位置过早干扰模型学习。
可灵活加入其他有用的信息(如结构信息等)以增强预训练效果。
实验表明,EMD 比直接在输入层加入绝对位置的方法效果更好。
总结¶
DeBERTa 的架构创新主要体现在两个方面:
解耦注意力机制:通过内容与位置嵌入分离,提升对相对位置建模的能力;
增强的掩码解码器(EMD):延迟引入绝对位置,提高 MLM 任务的准确性。
高效实现通过重用相对位置向量,显著降低计算和存储成本。
EMD 的设计是 DeBERTa 区别于 BERT 的关键,通过结合相对位置与绝对位置,提升了模型在上下文建模和掩码预测方面的能力。
4 Scale Invariant Fine-Tuning¶
4 尺度不变微调 (Scale Invariant Fine-Tuning)¶
本节介绍了一种新的虚拟对抗训练算法:尺度不变微调(Scale-invariant-Fine-Tuning, 简称 SiFT),它是对 Miyato 等人(2018)和 Jiang 等人(2020)提出的虚拟对抗训练算法的改进版本,主要用于模型微调任务。
虚拟对抗训练简介¶
虚拟对抗训练是一种正则化方法,旨在通过提升模型对对抗样例的鲁棒性来增强其泛化能力。对抗样例是通过对输入施加微小扰动生成的。该方法通过让模型在标准输入和扰动输入上的输出分布尽可能一致,来实现模型的正则化。
在 NLP 任务中,扰动不是直接作用于原始词序列,而是作用于词嵌入(word embeddings)。但不同词和不同模型的嵌入向量的模长(norm)范围差异较大。随着模型规模(如参数量)的增加,这种差异更加显著,导致对抗训练过程的稳定性下降。
SiFT 算法的提出¶
受层归一化(layer normalization,Ba 等人,2016)启发,我们提出了 SiFT 算法。该方法通过将扰动作用于归一化后的词嵌入,从而提升训练的稳定性。
具体地,在对 DeBERTa 模型进行下游 NLP 任务微调时,SiFT 首先将词嵌入向量归一化为随机向量(stochastic vectors),然后在这些归一化后的嵌入向量上施加扰动。实验发现,这种归一化操作显著提升了微调模型的性能,尤其是对更大规模的 DeBERTa 模型效果更明显。
实验与展望¶
在当前实验中,我们只将 SiFT 应用于 DeBERTa-1.5B 模型在 SuperGLUE 任务上的微调。我们将在未来的工作中对该方法进行更加全面的研究和评估。
重点总结:
SiFT 是一种改进的对抗训练方法,针对 NLP 任务中的词嵌入扰动问题。
扰动的不稳定性在大规模模型中尤为明显,SiFT 通过归一化词嵌入来缓解这一问题。
归一化显著提升了微调效果,尤其对大模型效果更佳。
当前实验仅验证了部分应用,未来将进行更全面的研究。
5 Experiment¶
本节报告了DeBERTa在各种自然语言理解(NLU)任务上的实验结果。
5.1 NLU任务的主要结果(Main Results on NLU Tasks)¶
本节首先比较了DeBERTa的大型模型与之前流行的预训练语言模型(PLMs)在GLUE基准上的表现。
5.1.1 大型模型的表现(Performance on Large Models)¶
表1展示了GLUE开发集上的比较结果。DeBERTa在多个任务上优于BERT、RoBERTa、XLNet和ELECTRA等模型,尤其是在MNLI、MRPC、RTE和CoLA上表现突出。例如,DeBERTa在RTE任务上比XLNet高出2.4%,比RoBERTa高出1.7%。
此外,DeBERTa在MNLI任务上的表现尤为突出,达到了91.1%的准确率(Acc),成为当前最先进的模型。
表2则展示了DeBERTa在SQuAD、RACE、ReCoRD、SWAG和NER等更广泛的NLU任务上的表现。DeBERTa在多个任务上都优于ALBERT、Megatron等大模型,甚至在模型参数较少的情况下仍能击败模型更大的Megatron1.3B。
5.1.2 基础模型的表现(Performance on Base Models)¶
与大型模型类似,DeBERTa的基础模型(base model)也表现出色。表3显示,DeBERTabase在MNLI、SQuAD v1.1和v2.0任务上都优于RoBERTabase和XLNetbase。例如,DeBERTabase在MNLI-m上的准确率比RoBERTabase高出1.2%,比XLNetbase高出2%。
5.2 模型分析(Model Analysis)¶
本节主要通过消融实验(ablation study)和收敛性分析(convergence analysis)来研究模型效果和训练效率。
5.2.1 消融实验(Ablation study)¶
为了验证DeBERTa的组件对性能的贡献,作者移除了模型的三个关键部分:EMD、C2P(内容到位置的注意力)和P2C(位置到内容的注意力),并观察性能变化。表4结果显示,移除任何一部分都会导致性能显著下降。例如,移除EMD后,RACE任务的准确率下降了1.4%。这说明DeBERTa的每个组件都对模型的最终表现有重要贡献。
5.3 扩展到15亿参数(Scale up to 1.5 billion parameters)¶
研究表明,更大的模型通常具有更好的泛化能力。因此,作者构建了一个包含15亿参数的DeBERTa版本,称为DeBERTa1.5B。该模型在160GB的数据集上训练,并优化了架构以减少参数数量、提升训练效率。
表5展示了DeBERTa1.5B在SuperGLUE测试集上的表现。其单模型在2020年12月29日的宏观平均分(89.9)首次超过了人类表现(89.8),而**集成模型(DeBERTaEnsemble)**在2021年1月6日以90.3的平均分位居榜首,明显优于110亿参数的T5模型。
此外,DeBERTa1.5B相比T5模型,参数更少、训练和维护成本更低,更适合部署到各种应用中。
总结重点:¶
DeBERTa在多个NLU任务上表现优于当前主流模型,包括BERT、RoBERTa、XLNet、ELECTRA等。
DeBERTa的组件设计(如EMD、C2P、P2C)对模型性能有显著贡献,消融实验验证了其重要性。
DeBERTa1.5B版本在SuperGLUE上首次超越人类表现,并以更优的参数规模和训练效率领先于T5等大模型。
DeBERTa模型具有良好的扩展性和部署潜力,适合工业级应用。
6 Conclusions¶
本文提出了一种新的模型架构 DeBERTa(Decoding-enhanced BERT with disentangled attention),通过两种创新技术对 BERT 和 RoBERTa 模型进行了改进:
1. 解耦注意力机制(Disentangled Attention Mechanism)¶
这是本文的核心贡献之一。该机制将每个词分别用两个向量表示:一个表示内容信息,另一个表示位置信息。在计算注意力权重时,分别使用不同的矩阵来处理词的内容和相对位置,从而实现注意力的解耦。这种设计使模型能够更准确地捕捉词与词之间的语义和位置关系。
2. 增强的掩码解码器(Enhanced Mask Decoder)¶
这是另一个关键技术。该解码器在预训练阶段引入了绝对位置信息,以更有效地预测被掩码的词。通过这种方式,模型在语言建模任务中的表现得到了提升。
3. 虚拟对抗训练法(Virtual Adversarial Training)¶
为了进一步提高模型在下游任务中的泛化能力,本文还使用了虚拟对抗训练法进行微调。这一方法增强了模型对输入扰动的鲁棒性,从而提升了整体性能。
实验结果¶
通过全面的实验研究,作者证明了 DeBERTa 在模型预训练效率和下游任务性能方面都有显著提升。特别值得注意的是,拥有 15 亿参数 的 DeBERTa 在SuperGLUE 基准测试中首次在宏平均得分上超越了人类表现,这是一个重要的里程碑。
局限与未来方向¶
尽管 DeBERTa 在 SuperGLUE 上表现出色,但它尚未达到人类的语言理解能力。人类特别擅长将从不同任务中学到的知识迁移到新的任务中,即使没有或只有很少的示例。这种能力称为组合泛化(compositional generalization),即通过组合熟悉的子任务或基本能力来解决新问题。
因此,未来值得探索如何在 DeBERTa 中更明确地引入组合结构,使其能够像人类一样,将神经网络的计算能力与符号推理相结合,从而实现更接近人类的自然语言理解能力。
7 Acknowledgments¶
本节主要表达了作者对在论文撰写和研究过程中提供帮助的个人和匿名评审人的感谢。
作者首先感谢了 Jade Huang 和 Nikos Karampatziakis 对论文的审阅和提出的深刻见解,这部分内容对提升论文质量起到了重要作用。
其次,作者感谢 Yoyo Liang、Saksham Singhal、Xia Song 和 Saurabh Tiwary 在大规模模型训练方面提供的帮助,这是研究过程中至关重要的技术支持。
最后,作者也感谢了 匿名评审人 提供的宝贵讨论和建议,这对论文的完善具有重要意义。
总体来看,本节内容较为简洁,重点在于表达对不同支持来源的感谢,体现了学术研究中的合作精神。
Appendix A Appendix¶
A.1 数据集¶
本节总结了用于评估自然语言处理(NLP)模型的各种基准数据集,按任务类型分类。
主要内容:¶
GLUE:GLUE(General Language Understanding Evaluation)是一个包含9个NLU任务的基准,涵盖问答、语言可接受性、情感分析、文本相似性、同义检测和自然语言推理(NLI)等任务,适合评估NLU模型的泛化性和鲁棒性。
SuperGLUE:SuperGLUE是对GLUE的扩展,包含8个更复杂的NLU任务,涵盖问答、NLI、共指消解和词义消歧等任务。
RACE:RACE是一个大规模的机器阅读理解数据集,包含中国中学和高中英语考试内容。
SQuAD v1.1/v2.0:SQuAD(Stanford Question Answering Dataset)是流行的机器阅读理解基准,SQuAD v2.0包括不可回答的问题。
SWAG:SWAG是一个大规模对抗性推理数据集,用于基于常识的推理任务。
CoNLL 2003:CoNLL 2003是包含多种来源文本的英文命名实体识别数据集。
重点:¶
GLUE与SuperGLUE:这两个基准任务多样化,适合评估模型在多种NLU任务上的表现。
SQuAD与RACE:这两个数据集常用于评估模型的阅读理解和问答能力。
精简内容:¶
表格中提供了每个数据集的具体任务、训练/开发/测试集大小、标签数和评估指标。
每个数据集的来源和任务类型清晰列出,便于对比模型在不同任务上的性能。
A.2 预训练数据集¶
本节说明了DeBERTa模型用于预训练的数据集及其规模。
主要内容:¶
预训练数据包括Wikipedia、BookCorpus、OpenWebText和Stories。
总数据量为78GB(去重后),与之前的预训练模型(如BERT、XLNet、RoBERTa)相比,DeBERTa的预训练数据更简洁。
使用5%的训练数据作为验证集,以监控训练过程。
表格比较了不同模型使用的预训练数据。
重点:¶
数据集规模:DeBERTa的数据总量较小,但性能表现良好,说明其数据利用效率较高。
预训练验证集:使用5%的训练数据作为验证集,有助于在训练过程中优化模型。
A.3 实现细节¶
本节详细说明了DeBERTa的预训练和微调过程中的具体实现细节与超参数设置。
主要内容:¶
预训练策略:采用动态数据批处理和span masking策略。
优化器:使用Adam作为优化器,微调阶段也使用Adam以保证公平比较。
超参数:列出了不同规模模型(如DeBERTa1.5B、DeBERTalarge、DeBERTabase)的超参数设置,包括层数、隐藏层大小、学习率、批次大小等。
代码实现:基于Huggingface Transformers、FairSeq和Megatron框架。
重点:¶
超参数设置:不同规模的模型在多个参数上有所差异,例如层数、隐藏层大小、学习率等。
模型性能对比:表格展示了不同模型在预训练和微调阶段的性能与训练时间。
精简内容:¶
预训练效率的部分通过实验结果显示,DeBERTa在多个下游任务上的表现优于RoBERTa。
A.4 生成任务的主要结果¶
本节评估了DeBERTa在生成任务(如自回归语言模型)上的性能。
主要内容:¶
通过在Wikitext-103数据集上的实验,评估DeBERTa在自回归语言模型任务中的性能。
使用MLM和ARLM进行联合预训练,得到DeBERTa-MT模型。
与RoBERTa、GPT-2和Transformer-XL进行对比,DeBERTa在困惑度(perplexity)上表现更好。
重点:¶
DeBERTa-MT模型:通过联合训练MLM和ARLM进一步降低困惑度,说明其在生成任务中的有效性。
DeBERTa vs RoBERTa:DeBERTa在多个任务上表现出优于RoBERTa的性能。
A.5 处理长序列输入¶
本节探讨了DeBERTa在处理长序列输入中的能力。
主要内容:¶
通过相对位置偏置,DeBERTa可以扩展处理更长的序列。
在RACE任务中,较长的序列长度(如768)可以略微提升准确率。
提出未来研究方向是扩展DeBERTa以处理极长序列。
重点:¶
长序列处理:DeBERTa的相对位置偏置机制使其在处理长序列时表现良好。
RACE任务实验:在较长序列输入下,DeBERTa的性能略有提升。
A.6 不同模型规模的性能提升¶
本节比较了不同规模的DeBERTa模型在GLUE数据集上的性能。
主要内容:¶
表格展示了DeBERTalarge、DeBERTa900M、DeBERTa1.5B等模型在各项任务中的表现。
更大规模的模型性能更好,SiFT(Simple Fine-Tuning)也提升了模型性能。
重点:¶
模型规模与性能:更大的模型(如DeBERTa1.5B)在各项任务上表现更优。
SiFT增益:SiFT在多个任务上带来了显著的性能提升。
A.7 模型复杂度¶
本节讨论了DeBERTa的模型复杂度,包括额外参数和计算成本。
主要内容:¶
DeBERTa引入了额外的参数(如内容-位置、位置-内容注意力矩阵),增加了模型参数。
计算成本相比BERT或RoBERTa增加了30%,但通过优化可显著减少额外开销。
使用绝对位置嵌入共享投影矩阵的方法,使模型参数与RoBERTa相当,但性能相近。
重点:¶
参数增加:DeBERTa的大模型参数增加了约13%,但通过共享投影矩阵的方法可以控制参数规模。
计算成本:计算复杂度增加,但可通过优化降低额外开销。
A.8 增强遮蔽解码器的额外细节¶
本节介绍了DeBERTa的增强遮蔽解码器(Enhanced Mask Decoder, EMD)的结构和功能。
主要内容:¶
EMD具有两个输入(I和H),并在解码过程中引入额外信息(如位置嵌入)。
与BERT解码层相比,EMD更加通用和灵活。
可以共享参数以减少模型规模。
重点:¶
EMD结构:EMD引入额外解码层,提升解码能力,结构比BERT更灵活。
共享参数:通过共享参数,减少模型规模,提升效率。
A.9 注意力模式¶
本节通过可视化方式展示了DeBERTa与RoBERTa在注意力模式上的差异。
主要内容:¶
DeBERTa的注意力模式显示出更少的对角线效应,更多关注[CLS] token。
RoBERTa的注意力模式存在明显的垂直条纹,主要由高频功能词导致。
通过比较不同变体,DeBERTa的注意力模式显示出更优的分布。
重点:¶
注意力模式差异:DeBERTa的注意力分布更均匀,尤其在[CLS] token上的关注更集中。
EMD的影响:EMD使DeBERTa的注意力模式更加清晰和有效。
A.10 微调的方差分析¶
本节讨论了模型微调的可重复性与稳定性。
主要内容:¶
通过五次运行取平均值来报告结果,并进行显著性检验。
DeBERTabase在多个任务上的表现显著优于RoBERTabase。
重点:¶
微调稳定性:通过运行多次实验取平均值,提升结果的可信度。
显著性差异:DeBERTa在多个任务上表现优于RoBERTa。
A.11 进一步提升模型效率¶
本节进一步研究了如何提高DeBERTa的模型效率。
主要内容:¶
引入Replaced Token Detection (RTD)作为新的预训练目标,替代MLM。
DeBERTaRTD模型在多个任务上表现更优,同时参数更少。
小规模的DeBERTaRTD模型(如DeBERTaRTDsmall)在性能上超过BERTlarge。
重点:¶
RTD目标:RTD比MLM更有效,提升模型性能。
参数效率:DeBERTaRTD在参数更少的情况下,表现更优,具有巨大的潜力。