句子长度为n;比如2048,或1024,即,一句话最多可以是1024个单词。
1, 位置编码
可知,E是由n个列向量组成的矩阵,每个列向量表示该列号的位置编码向量。
2, 输入向量
加入本句话第一个单词的词嵌入向量是, 第二个单词是 , 以此类推,最多是.
如果句子长度不足 n个单词,则后面没有单词对应的
令 为句子的词嵌入编码矩阵表示,为了让单词携带位置信息,直接将每个单词的词嵌入向量上加位置编码向量:
矩阵表示为:
作为第一层 self-attention 模块的输入向量。
3, 完整的一层编码器计算过程
上面是把8个multihead的输出拼接起来了。
然后经过本层的这个个feed forward neuron network:
然后将 送入下一层编码器,进行相同的计算过程,只是其中的 的权重不同而已。
4, 更多参考资料
The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time.
图解Transformer(完整版)!翻译
自然语言处理Transformer模型最详细讲解(图解版)-CSDN博客
未完待续 ... ...