您的位置:首页 > 手游攻略 > 02-大模型位置编码详解:大模型怎样理解顺序?

02-大模型位置编码详解:大模型怎样理解顺序?

作者:互联网  时间: 2026-06-30 09:31:07  

注意力机制的"位置盲区"

在上一章中,我们学习了注意力机制如何通过QKV矩阵计算Token之间的相关性。但这里有一个严重的问题:

02-大模型位置编码详解:大模型如何理解顺序?

注意力机制天生是"位置不敏感"的!

问题演示

考虑以下两个句子:

  1. "猫 吃 鱼"
  2. "鱼 吃 猫"

对于注意力机制来说,如果我们交换Token的顺序,计算过程是这样的:

句子1的注意力分数矩阵:句子2(交换位置后):句子1的注意力分数矩阵:句子2(交换位置后):Scores1=Q1K1TScores2=Q2K2T

由于 QQKKVV 都是通过相同的权重矩阵 WQW_QWKW_KWVW_V 从Embedding计算得到的,如果我们只是交换了Token的顺序,而不告诉模型"位置信息",那么注意力机制会认为这两个句子是等价的!

具体来说,注意力计算公式:

Attention(Q,K,V)=softmax(QKTdk)Vtext{Attention}(Q, K, V) = text{softmax}left(frac{Q cdot K^T}{sqrt{d_k}}right) cdot V