0%

Map Net-北大

Map Net-北大

Variance-reduced Language Pretraining via a Mask Proposal Network

这篇论文的标题是”Variance-reduced Language Pretraining via a Mask Proposal Network”,作者是Liang Chen,发表于2020年。

背景:

自我监督学习,也称为预训练,对自然语言处理非常重要。大多数预训练方法首先随机掩盖句子中的一些位置,然后训练模型恢复被掩盖位置的标记。这样,模型可以在没有人工标注的情况下进行训练,并且可以使用大量的数据和数十亿的参数。因此,优化效率变得至关重要。

解决问题

本文从梯度方差降低的角度解决这个问题。特别是,首先提出了一个原则性的梯度方差分解定理,该定理显示,语言预训练的随机梯度的方差可以自然地分解为两个项:一项是来自批处理中数据样本的方差,另一项是来自掩码采样的方差。为了减少第二部分的方差,我们利用重要性采样策略,该策略旨在根据提议分布而不是均匀分布来采样掩码。

核心方法和步骤

为了提高效率,我们引入了一个掩码提议网络(MAP-Net),该网络近似最优的掩码提议分布,并且与模型一起进行端到端的训练。根据实验结果,我们的模型比基线BERT模型收敛得更快,性能也更高。

相关工作:

在自然语言处理中,预训练的上下文表示已被广泛用于帮助缺乏足够标签训练数据的下游任务。之前的工作开发了各种自我监督任务来获取预训练的上下文表示。例如,BERT首先随机选择句子中的少数位置,掩盖这些位置上的单词,然后学习一个编码器来恢复它们。由于这样的任务不需要人类监督,所以可用的训练数据的规模可以轻易地达到数十亿个单词的规模。在这样大规模的数据上进行预训练需要消耗大量的计算资源。

对比效果:

我们使用MAP-Net来帮助BERT的训练,并在GLUE自然语言理解基准上评估它们。实验结果首先表明,MAP-NET在训练过程中生成的掩码词是有意义的,并且在训练过程中提供了信息。此外,由于方差被充分降低,使用MAP-Net训练的BERT模型在大多数任务上比基线模型具有更好的准确性。

主要差异:

本文的主要贡献是提出了一种新的方差降低算法,用于更好的语言预训练。特别是,我们观察到所有以前的工作在构建自我监督任务时都使用均匀采样的位置进行掩码,而这从优化的角度来看是不可避免的低效的。例如,在BERT训练中,我们发现常用的单词和标点符号易于学习,即这些单词(如果被掩盖)可以在几千个训练步骤中被模型正确预测。同时,一些罕见的单词和短语即使在训练结束时也难以预测。如果我们总是均匀地采样掩码的位置,直观地说,随机梯度(相对于掩码的随机性)的方差可能会很大,因为一些位置逐渐提供的信息信号较少,而一些位置则没有。通常,使用大方差的梯度估计器进行学习将是低效和无效的。