层次分解位置编码 (Hierarchical Decomposition of Position Encoding)
论文标题: 层次分解位置编码,让BERT可以处理超长文本
作者: 苏剑林
时间: 2020-12-04
核心算法名: 层次分解位置编码
论文链接: https://spaces.ac.cn/archives/7947
背景
BERT模型最多能处理512个token的文本。这一瓶颈的根本原因是BERT使用了从随机初始化训练出来的绝对位置编码,一般的最大位置设为了512,因此顶多只能处理512个token,多出来的部分就没有位置编码可用了。另一个重要的原因是Attention的$O(n^2)$复杂度,导致长序列时显存用量大大增加,一般显卡也finetune不了。
解决问题
如何简单修改当前最大长度为512的BERT模型,使得它可以直接处理更长的文本。主要思路是层次分解已经训练好的绝对位置编码,使得它可以延拓到更长的位置。