BERT-of-Theseus

Posted on 2023-08-08 In 大模型 Views: Valine:

BERT-of-Theseus

论文标题: BERT-of-Theseus: Compressing BERT by Progressive Module Replacing
作者: Canwen Xu, Wangchunshu Zhou, Tao Ge, Furu Wei, Ming Zhou
时间: 2020
核心算法名: BERT-of-Theseus
论文链接: https://arxiv.org/abs/2002.02925
参考: 科学空间

背景

随着深度学习的普及，许多大型神经模型被提出并在各个领域取得了最先进的性能。特别是在自然语言处理（NLP）中，预训练和微调已经成为大多数任务的新规范。基于Transformer的预训练模型在自然语言理解（NLU）和自然语言生成（NLG）领域都占据了主导地位。这些模型受益于其“超参数化”的特性，并包含数百万甚至数十亿的参数，使其在计算成本和效率方面都显得过于昂贵和低效。

解决问题

为了解决这个问题，论文提出了一种新的模型压缩方法，通过逐步替换模块来有效地压缩BERT。该方法首先将原始的BERT划分为几个模块，并构建它们的紧凑替代品。然后，我们随机地用它们的替代品替换原始模块来训练紧凑模块以模仿原始模块的行为。我们逐渐增加替换的概率。这种方式使我们的方法在原始和紧凑模型之间带来了更深层次的交互。

ELECTRA (Stanford University & Google Brain)

Posted on 2023-08-08 In 大模型 Views: Valine:

ELECTRA (Stanford University & Google Brain)

论文标题: ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators, 作者: Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning, 时间: 2020, 核心算法名: ELECTRA, 论文链接: ELECTRA

背景

当前的语言表示学习方法可以被视为学习去噪自动编码器。他们选择未标记输入序列的一小部分（通常为15%），遮蔽这些token的身份（例如，BERT）或对这些token的注意力（例如，XLNet），然后训练网络恢复原始输入。虽然这些遮蔽语言建模（MLM）方法由于学习双向表示而比传统的语言模型预训练更有效，但它们通常需要大量的计算成本，因为网络每个示例只从15%的token中学习。

解决问题

作为替代，作者提出了一个更有效的预训练任务，称为替换token检测。与其遮蔽输入，作者的方法通过用从小型生成器网络采样的合理替代品替换一些token来破坏它。然后，作者训练了一个判别模型，该模型预测在被破坏的输入中的每个token是否被生成器样本替换。这种新的预训练任务比MLM更有效，因为该任务是在所有输入token上定义的，而不仅仅是被遮蔽的一小部分。

Linear Attention

Posted on 2023-08-08 In 大模型 Views: Valine:

Linear Attention

链接：https://spaces.ac.cn/archives/7546

背景

Attention机制在自然语言处理（NLP）和计算机视觉（CV）中得到了广泛的应用。然而，标准的Attention机制的计算复杂度为O(n^2)，这在处理长序列时会带来问题。因此，研究者们提出了各种方法来降低Attention的计算复杂度，包括稀疏Attention、Reformer、Linformer等。

解决问题

本文主要探讨了如何通过去掉Softmax来实现线性Attention，即将Attention的计算复杂度降低到O(n)。

Map Net-北大

Posted on 2023-08-08 In 大模型 Views: Valine:

Map Net-北大

Variance-reduced Language Pretraining via a Mask Proposal Network

这篇论文的标题是”Variance-reduced Language Pretraining via a Mask Proposal Network”，作者是Liang Chen，发表于2020年。

背景：

自我监督学习，也称为预训练，对自然语言处理非常重要。大多数预训练方法首先随机掩盖句子中的一些位置，然后训练模型恢复被掩盖位置的标记。这样，模型可以在没有人工标注的情况下进行训练，并且可以使用大量的数据和数十亿的参数。因此，优化效率变得至关重要。

解决问题

本文从梯度方差降低的角度解决这个问题。特别是，首先提出了一个原则性的梯度方差分解定理，该定理显示，语言预训练的随机梯度的方差可以自然地分解为两个项：一项是来自批处理中数据样本的方差，另一项是来自掩码采样的方差。为了减少第二部分的方差，我们利用重要性采样策略，该策略旨在根据提议分布而不是均匀分布来采样掩码。

RealFormer-谷歌

Posted on 2023-08-08 In 大模型 Views: Valine:

RealFormer-谷歌

论文标题: RealFormer: Transformer Likes Residual Attention, 作者: Ruining He, Anirudh Ravula, Bhargav Kanagal, Joshua Ainslie, 时间: 2021年9月10日, 核心算法名: RealFormer, 论文链接: arXiv:2012.11747

背景

Transformer是现代自然语言处理（NLP）模型的基础。然而，尽管Transformer在许多任务中表现出色，但其设计和实现仍有改进的空间。本文提出了一种名为RealFormer的新技术，该技术通过在Transformer网络中创建残差注意层（Residual Attention Layer）来改进Transformer的性能。

解决问题

RealFormer的目标是改进Transformer网络的性能，使其在各种任务中表现更好。这些任务包括Masked Language Modeling、GLUE、SQuAD、Neural Machine Translation、WikiHop、HotpotQA、Natural Questions和OpenKP等。此外，RealFormer还旨在稳定训练过程，并使模型的注意力更加稀疏。

Performer - Google

Posted on 2023-08-08 In 大模型 Views: Valine:

Performer - Google & University of Cambridge

论文标题：Rethinking Attention with Performers
作者：Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, David Belanger, Lucy Colwell, Adrian Weller
时间：2021
核心算法名：Performer
论文链接：arXiv:2009.14794v4

背景

Transformer架构在机器学习的多个领域中都取得了最先进的结果，包括自然语言处理、神经机器翻译、文档生成/摘要、时间序列预测、生成建模（如图像生成）、音乐生成和生物信息学等。然而，Transformer的计算复杂度随着输入序列的长度呈二次增长，这对于处理大规模序列的任务来说是不可接受的。为了解决这个问题，研究者们提出了多种方法，如限制注意力机制只关注局部邻域，或者引入稀疏性、池化压缩、聚类/分箱/卷积技术等结构先验。

解决问题

Performer是一种新的Transformer架构，它能够以可证明的准确性估计常规（softmax）全秩注意力Transformer，但只使用线性（而不是二次）的空间和时间复杂度，而且不依赖于任何先验知识，如稀疏性或低秩性。为了近似softmax注意力核，Performer使用了一种新的通过正交随机特征进行快速注意力（FAVOR+）的方法，这可能对可扩展的核方法具有独立的兴趣。FAVOR+还可以用于有效地模拟超出softmax的可核化注意力机制。

Synthesizer Rethinking Self-Attention for Transformer Models (Google Research)

Posted on 2023-08-08 In 大模型 Views: Valine:

Synthesizer: Rethinking Self-Attention for Transformer Models (Google Research)

论文标题: Synthesizer: Rethinking Self-Attention for Transformer Models, 作者: Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng, 时间: 2020, 核心算法名: Synthesizer, 论文链接: https://arxiv.org/pdf/2005.00743.pdf

背景

Transformer模型（Vaswani等人，2017）在各种任务中都表现出了成功，这使得Transformer在近年来大大取代了一度流行的自回归和循环模型。Transformer模型的核心是查询-键-值点积注意力。Transformer模型的成功广泛地归因于这种自注意力机制，因为全连接的token图能够模型长距离依赖性，提供了强大的归纳偏见。但是，这篇论文质疑点积自注意力的真正重要性，并通过大量实验发现，随机对齐矩阵的表现出奇地好，而从token-token（查询-键）交互中学习注意力权重虽然有用，但并不那么重要。

解决问题

为了解决这个问题，作者提出了Synthesizer，一种无需token-token交互就能学习合成注意力权重的模型。实验结果显示，简单的Synthesizer在与vanilla Transformer模型的比较中，在一系列任务上都取得了高度竞争性的性能，包括机器翻译、语言建模、文本生成和GLUE/SuperGLUE基准测试。当与点积注意力组合时，作者发现Synthesizer始终优于Transformers。此外，作者还对Synthesizer与Dynamic Convolutions进行了额外的比较，结果显示，简单的Random Synthesizer不仅比Dynamic Convolutions快60%，而且还将困惑度提高了相对3.5%。

T-TA (Transformer-based Text Autoencoder)

Posted on 2023-08-08 In 大模型 Views: Valine:

T-TA (Transformer-based Text Autoencoder)

论文标题: Fast and Accurate Deep Bidirectional Language Representations for Unsupervised Learning, 作者: Joongbo Shin, Yoonhyung Lee, Seunghyun Yoon, Kyomin Jung, 时间: 2020年4月, 核心算法名: Transformer-based Text Autoencoder (T-TA), 论文链接: https://arxiv.org/abs/2004.08097

背景

尽管BERT在各种监督学习任务中取得了成功的性能提升，但将BERT应用于无监督任务仍然存在一个限制，即它需要重复推理以计算上下文语言表示。为了解决这个限制，我们提出了一种名为Transformer-based Text Autoencoder (T-TA)的新型深度双向语言模型。T-TA可以无重复地计算上下文语言表示，并具有像BERT一样的深度双向架构的优点。

解决问题

在CPU环境的运行时实验中，我们提出的T-TA在重排任务中的性能比基于BERT的模型快6倍多，在语义相似性任务中快12倍。此外，T-TA在上述任务中显示出与BERT相比的竞争甚至更好的准确性。

UNILM Unified Pre-training for Language Understanding and Generation

Posted on 2023-08-08 In 大模型 Views: Valine:

UNILM

Unified Pre-training for Language Understanding and Generation
这篇论文的作者是Liu等人，发表于2019年。论文提出了一种新的统一预训练语言模型（UNILM），可以应用于自然语言理解和生成任务。

背景

预训练的语言模型已经在各种自然语言处理任务中取得了显著的进步。预训练的语言模型通过预测基于大量文本数据的上下文中的词来学习上下文化的文本表示，并可以进行微调以适应下游任务。然而，现有的预训练模型，如BERT，主要用于自然语言理解任务，而不适用于自然语言生成任务。

解决问题

本文提出了一种新的统一预训练语言模型（UNILM），可以应用于自然语言理解和生成任务。UNILM是一个多层Transformer网络，共同预训练在大量文本上，针对三种类型的无监督语言建模目标进行优化：单向LM，双向LM和序列到序列LM。为了控制预测条件的上下文，我们使用特定的自注意力掩码来控制共享的Transformer网络。

T5-谷歌

Posted on 2023-08-08 In 大模型 Views: Valine:

T5-谷歌

论文标题: “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”, 作者: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu, 时间: 2019年10月, 核心算法名: T5 (Text-to-Text Transfer Transformer), 论文链接: https://arxiv.org/abs/1910.10683

背景

该论文的目标不是提出新的方法，而是提供一个全面的视角来理解当前领域的状况。因此，这项工作主要包括对现有技术的调查、探索和实证比较。作者还通过扩大系统研究的洞察力（训练多达110亿参数的模型）来探索当前方法的极限，从而在许多任务中获得了最先进的结果。为了进行这种规模的实验，作者引入了“巨大的清洁爬行语料库”（C4），这是一个由网络上抓取的数百GB的清洁英文文本组成的数据集。认识到转移学习的主要用途是在数据稀缺的环境中利用预训练模型，作者发布了他们的代码、数据集和预训练模型（Page 3）。

解决问题

该论文通过采用合理的基线（在第3.1节中描述），并一次改变设置的一个方面，系统地研究了这些贡献。例如，在第3.3节中，作者在保持实验流程不变的情况下，测量了不同无监督目标的性能。这种“坐标上升”方法可能会错过二阶效应（例如，某个特定的无监督目标可能在比基线设置更大的模型上效果最好），但进行所有可能组合的探索将是不切实际的（Page 10）。