Summary
本课从几何直观出发讲解线性变换的本质,包括旋转、拉伸、剪切等操作,并通过矩阵表示基向量变换的方式建立代数与几何的联系。课程进一步将这一概念映射到Transformer架构中,指出WQ、WK、WV权重矩阵本质上就是线性变换,将输入嵌入映射到查询、键、值空间。理解线性变换是深入理解注意力机制数学基础的关键一步。
Key Claims
- 线性变换的核心是保持网格线平行且等距分布,变换完全由基向量的新位置决定
- 矩阵乘法就是线性变换的数值表示,矩阵的每一列就是变换后基向量的坐标
- Transformer中的WQ、WK、WV权重矩阵本质上是将嵌入向量投影到不同子空间的线性变换
- 行列式表示变换对面积的缩放比例,行列式为零意味着空间被压缩到更低维度
- 特征向量是在变换过程中方向不变的向量,特征值表示该方向的缩放倍数
Key Quotes
“线性变换就像是橡皮筋上的画——你可以拉伸、旋转,但不能撕裂或弯折。” — 解释线性变换的几何直观
“矩阵不是一张随机的数字表格,它是对空间变换的编码。” — 强调矩阵的几何意义
“WQ、WK、WV做的事情,就是把同一个词放到不同的坐标系里去看。” — 联系Transformer中的线性变换
Connections
- LinearTransformation — 本课核心主题,几何直观与代数表示的统一
- Transformer — 线性变换在Transformer架构中的具体应用
- MultiHeadAttention — 多头注意力中每组头拥有独立的线性变换矩阵