Transformer中QKV矩阵分别代表什么

Summary

用信息检索的类比解释Transformer自注意力机制中Q（Query）、K（Key）、V（Value）三个矩阵的含义和作用。Q代表”想要关注什么”，K代表”是否相关”的标签，V代表实际信息内容。Q与K的点积计算相似度，softmax归一化后对V做加权求和，实现上下文感知的语义表示。以缩放因子防止梯度消失。

Key Claims

QKV灵感来源于信息检索系统：Q是查询，K是索引键，V是实际内容
注意力计算流程：Q x K^T计算相似度 → softmax归一化为概率分布 → 乘V得到加权上下文表示
缩放因子sqrt(d_k)防止点积过大导致softmax梯度消失
通过”它是一只猫”的例子说明指代消解：Q问”我指代谁”，K匹配后V加权输出

Key Quotes

“Q是’问’，K是’标签’，V是’答案’；先问再查，最后加权汇总信息” — QKV一句话总结

“这样的设计让Transformer能在全局范围内动态地捕捉词与词之间的依赖关系” — QKV机制的核心价值

Connections

Transformer — QKV是Transformer自注意力的核心组件
MultiHeadAttention — 多头注意力中每个头独立计算QKV
LinearTransformation — QKV通过线性变换矩阵Wq/Wk/Wv生成

JRY's digital garden

Explorer

Transformer中QKV矩阵分别代表什么

Summary

Key Claims

Key Quotes

Connections

Contradictions

Graph View

Table of Contents