02-大模型位置编码详解：大模型怎样理解顺序？

作者：互联网　　时间： 2026-06-30 09:31:07 　

注意力机制的"位置盲区"

在上一章中，我们学习了注意力机制如何通过QKV矩阵计算Token之间的相关性。但这里有一个严重的问题：

02-大模型位置编码详解：大模型如何理解顺序？

注意力机制天生是"位置不敏感"的！

问题演示

考虑以下两个句子：

"猫吃鱼"
"鱼吃猫"

对于注意力机制来说，如果我们交换Token的顺序，计算过程是这样的：

\begin{aligned} 句子1的注意力分数矩阵： \end{aligned}

由于

Q Q

、

K K

、

V V

都是通过相同的权重矩阵

W_{Q} W_Q

、

W_{K} W_K

、

W_{V} W_V

从Embedding计算得到的，如果我们只是交换了Token的顺序，而不告诉模型"位置信息"，那么注意力机制会认为这两个句子是等价的！

具体来说，注意力计算公式：

Attention (Q, K, V) = softmax (\frac{Q \cdot K^{T}}{\sqrt{d_{k}}}) \cdot V text{Attention}(Q, K, V) = text{softmax}left(frac{Q cdot K^T}{sqrt{d_k}}right) cdot V

步骤	传统位置编码	RoPE
1. 输入	$X + PE X + text{PE}$	$X X$ （纯内容）
2. 计算QKV	$Q = (X + PE) \cdot W_{Q} Q = (X + text{PE}) cdot W_Q$	$Q = X \cdot W_{Q} Q = X cdot W_Q$
3. 位置注入	❌（已在步骤1完成）	✅ $Q_{rot} = R_{Θ} (pos) \cdot Q Q_{text{rot}} = R_Theta(text{pos}) cdot Q$
4. 注意力分数	$Q \cdot K^{T} Q cdot K^T$ （位置信息已稀释）	$Q_{rot} \cdot K_{rot}^{T} Q_{text{rot}} cdot K_{text{rot}}^T$ （位置信息精确）
结果	位置信息间接、可能被削弱	位置信息直接、保留相对关系

时间点	传统位置编码	RoPE
输入阶段	`X = X + PE`（位置信息混入）	`X`（纯内容）
计算QKV	`Q = X · W_Q`（位置已混入）	`Q = X · W_Q`（纯内容）
位置注入	❌（已完成）	✅ `Q_rot = apply_rope(Q)`（在这里！）
计算分数	`Q · K^T`	`Q_rot · K_rot^T`

方法	是否需要微调	外推效果	计算开销
位置插值(PI)	需要少量微调	好	无额外开销
NTK-Aware	零样本	较好	无额外开销
YaRN	零样本或少量微调	很好	无额外开销

小编: 三国战纪风云再起整合版| 三国战纪乱世天炽(风云修改版)| 三国战纪乱世天炽修正版| 三国战纪乱世风云-邪凤对战| 新三国战纪七星转生整合版|

上一篇：从零开始理解 Transformer 下一篇：SVD 的三步走：双对角化：Givens 收敛：排序

三国

街机

手游

单机

攻略

02-大模型位置编码详解：大模型怎样理解顺序？

注意力机制的"位置盲区"

问题演示

为什么位置很重要？

位置编码的核心思想

原始位置编码（Sinusoidal Positional Encoding）

公式

直观理解

具体例子

Sinusoidal编码的优势

Sinusoidal编码的劣势

可学习的绝对位置编码（Learned Positional Encoding）

实现方式

优势与劣势

RoPE：旋转位置编码（Rotary Position Embedding）

核心思想：直接作用于注意力计算

为什么叫"旋转"？

RoPE的数学公式

步骤2：计算原始的Q、K、V（仍不含位置信息）

步骤3：对Q、K应用RoPE旋转（注入位置信息）

步骤4：计算注意力分数矩阵（位置信息已融合）

对比总结：RoPE vs 传统方法

RoPE的关键性质

具体例子

RoPE的优势

RoPE的实现细节

RoPE的长度扩展技术

问题：为什么需要长度扩展？

方法1：位置插值（Position Interpolation, PI）

方法2：NTK-Aware插值

方法3：YaRN（Yet another RoPE extensioN）

长度扩展对比

小结

相关资讯

精彩合集

推荐专题

最新游戏

游戏排行

关注我们：