Transformer动画讲解 - Cross Attention

Cross Attention

编码器-解码器注意力：在“编码器-解码器注意力”层中，查询来自前一层解码器，而记忆键和值则来自编码器的输出。这使得解码器中的每个位置都能关注输入序列中的所有位置。这模仿了序列到序列模型中典型的编码器-解码器注意力机制。

（1）论文中对于编码器-解码器注意力的描述，让我们初步了解Encoder-Decoder Attention的Q来自前一层的解码器，K、V来自编码器的输出。

编码器-解码器注意力

Transformer动画讲解 - 注意力机制

（2）当我们想深入了解，回到Transformer的架构图时，估计又懵逼了，怎么又变成Muti-Head Attention？

Transformer架构图

神经网络算法 - 一文搞懂Self-Attention和Multi-Head Attention

（3）新手的疑问：架构图中明明是Multi-Head Attention，论文中的描述又变为Encoder-Decoder Attention，怎么又冒出一个新名词Cross Attention？

编码器-解码器的Cross Attention

神经网络算法 - 一文搞懂Transformer中的三种注意力机制

Cross Attention：交叉注意力的输入来自两个不同的序列，一个序列用作查询（Q），另一个序列提供键（K）和值（V），实现跨序列的交互。

Cross Attention

Self Attention vs Cross Attention：Self Attention更适用于处理单个序列，而Cross Attention则更适用于处理多个序列之间的交互。

Self Attention：其输入来自同一序列，即查询（Q）、键（K）和值（V）都来自编码器。这种机制关注于序列内部元素之间的关联。

Cross Attention：其输入来自不同的序列。解码器序列作为查询（Q），而编码器序列作为键（K）和值（V）。这种机制关注于不同序列之间的元素关联。

Self Attention：在自然语言处理任务中尤为常见，如语言建模、文本分类等。由于它关注的是序列内部元素之间的关联，因此特别适用于处理单个序列，如句子或段落。

Cross Attention：在自然语言处理、计算机视觉等领域都有应用，如机器翻译、图像描述生成等。它允许模型关注不同序列之间的元素关联，从而能够处理多个序列之间的交互。

Self Attention：通过对序列中的每个元素（如词或图像patch）生成一个表示，并使用这个表示作为查询去关注序列中的其他元素，从而计算出一个新的表示。这个过程有助于捕捉序列内部的依赖关系。

Cross Attention：在两个序列之间建立关联，一个序列的元素作为查询去关注另一个序列中的所有元素。这种机制允许模型在翻译或生成任务中关注源序列和目标序列之间的对应关系。

Self Attention vs Cross Attention

Cross Attention应用机器翻译：在机器翻译等序列到序列（Seq2Seq）的任务中，交叉注意力机制允许解码器在生成输出的每一步中，都能关注到输入序列中与当前步最相关的信息，从而生成更准确的输出。这种机制大大提高了Seq2Seq模型的性能，特别是在处理长序列和复杂依赖关系时。

通常有两个不同的输入序列，我们称之为源序列（Source Sequence）和目标序列（Target Sequence）。在机器翻译任务中，源序列可以是原文，而目标序列可以是译文的部分或全部。

Cross Attention应用机器翻译

**注释**

Transformer动画素材来源于3Blue1Brown，想了解更多查看参考资料网址。

3Blue1Brown 是一个由 Grant Sanderson 创建的YouTube 频道。这个频道从独特的视觉角度解说高等数学，内容包括线性代数、微积分、人工神经网络、黎曼猜想、傅里叶变换以及四元数等。

Grant Sanderson 毕业于斯坦福大学，并获得了数学学士学位。

参考资料