T-TA (Transformer-based Text Autoencoder)

论文标题: Fast and Accurate Deep Bidirectional Language Representations for Unsupervised Learning, 作者: Joongbo Shin, Yoonhyung Lee, Seunghyun Yoon, Kyomin Jung, 时间: 2020年4月, 核心算法名: Transformer-based Text Autoencoder (T-TA), 论文链接: https://arxiv.org/abs/2004.08097

背景

尽管BERT在各种监督学习任务中取得了成功的性能提升，但将BERT应用于无监督任务仍然存在一个限制，即它需要重复推理以计算上下文语言表示。为了解决这个限制，我们提出了一种名为Transformer-based Text Autoencoder (T-TA)的新型深度双向语言模型。T-TA可以无重复地计算上下文语言表示，并具有像BERT一样的深度双向架构的优点。

解决问题

在CPU环境的运行时实验中，我们提出的T-TA在重排任务中的性能比基于BERT的模型快6倍多，在语义相似性任务中快12倍。此外，T-TA在上述任务中显示出与BERT相比的竞争甚至更好的准确性。

核心方法和步骤

语言自编码(LAE): 我们提出了一种新的学习目标，称为语言自编码(LAE)，用于无重复地获取完全上下文化的语言表示。LAE使输出变得与输入相同，目标是一次预测文本序列中的每个token，而不仅仅是将输入复制到输出。为了完成这个任务，语言模型应该在避免过拟合的同时复制整个输入。否则，模型只会输出从输入表示复制的表示，而不学习语言的任何统计信息。为此，从i-th输入到i-th输出的信息流应该在模型内部被阻止。
基于Transformer的文本自编码器(T-TA): 我们介绍了一种新的深度双向语言模型的架构，称为T-TA，即基于Transformer的文本自编码器。为了学习提出的LAE，我们在T-TA内部开发了一个对角线遮蔽操作和一个输入隔离机制。这两个组件使得提出的T-TA能够一次计算上下文化的语言表示，同时保持BERT的深度双向属性。

工作对比

和其他工作一个典型工作的方法区别是什么: 与BERT相比，T-TA在无监督任务中的运行时间更短，性能更好。在CPU环境的运行时实验中，我们提出的T-TA在重排任务中的性能比基于BERT的模型快6倍多，在语义相似性任务中快12倍。此外，T-TA在上述任务中显示出与BERT相比的竞争甚至更好的准确性。
实验效果对比: 在重排任务中，即使在更快的推理中，T-TA也能达到与BERT竞争的性能。此外，T-TA在无监督的语义文本相似性任务中的表现优于BERT，Pearson’s r得分高达8点。

BigHead

T-TA (Transformer-based Text Autoencoder)

T-TA (Transformer-based Text Autoencoder)

背景

解决问题

相关工作

核心方法和步骤

工作对比