transformer模型第一个比较难理解的就是其位置编码了,位置编码作为NLP的时间维度,提供句子单词的位置信息
模型提供了一个正余弦的数学公式来计算位置编码,其位置编码为绝对位置信息,且位置编码只计算一次,位置编码在transformer模型中为一个定值,模型训练时,不参与参数更新
本文详解介绍了位置编码与词嵌入的代码,每行代码的意义与经过每行代码后,数据的形状维度变化,都有详细的介绍,在transformer模型中,我们最重要的是要了解数据的流动,以及数据维度经过每个模块后的数据维度,方便我们更加容易理解模型构架
动图详解transformer