BERT-of-Theseus
论文标题: BERT-of-Theseus: Compressing BERT by Progressive Module Replacing
作者: Canwen Xu, Wangchunshu Zhou, Tao Ge, Furu Wei, Ming Zhou
时间: 2020
核心算法名: BERT-of-Theseus
论文链接: https://arxiv.org/abs/2002.02925
参考: 科学空间
背景
随着深度学习的普及,许多大型神经模型被提出并在各个领域取得了最先进的性能。特别是在自然语言处理(NLP)中,预训练和微调已经成为大多数任务的新规范。基于Transformer的预训练模型在自然语言理解(NLU)和自然语言生成(NLG)领域都占据了主导地位。这些模型受益于其“超参数化”的特性,并包含数百万甚至数十亿的参数,使其在计算成本和效率方面都显得过于昂贵和低效。
解决问题
为了解决这个问题,论文提出了一种新的模型压缩方法,通过逐步替换模块来有效地压缩BERT。该方法首先将原始的BERT划分为几个模块,并构建它们的紧凑替代品。然后,我们随机地用它们的替代品替换原始模块来训练紧凑模块以模仿原始模块的行为。我们逐渐增加替换的概率。这种方式使我们的方法在原始和紧凑模型之间带来了更深层次的交互。