参考资料
https://www.3blue1brown.com/lessons/gpt
Transformer多层感知机
下面对第三个阶段MLPs(多层感知机或前馈网络)进行详细介绍:
MLPs(多层感知机)在Transformer中的位置:
Transformer的编码器和解码器结构:
(2)Transformer的解码器也由多个相同的层堆叠而成,但每个层包含三个主要的子层:一个Masked Multi-Head Self-Attention机制(用于编码器的输出),一个Multi-Head Encoder-Decoder Attention机制(用于结合编码器的输出和解码器的当前位置信息),以及一个全连接的前馈神经网络(MLP)。
MLP在Transformer中的位置
MLPs模型架构:
(1)通常包含两个线性变换层,即一个输入层、一个隐藏层和一个输出层。
(2)在每个线性变换层之间,会应用一个激活函数(如ReLU),以增强模型的非线性表示能力。
MLP模型架构
MLP在Transformer中的作用:
(1)非线性变换:MLPs通过引入激活函数(如ReLU)提供非线性变换,这有助于模型捕获输入数据中的复杂模式。
MLP在Transformer中的作用
无限循环Attention + MLP
参考资料
https://www.3blue1brown.com/lessons/gpt