线性变换的几何直观

Summary

本课从几何直观出发讲解线性变换的本质，包括旋转、拉伸、剪切等操作，并通过矩阵表示基向量变换的方式建立代数与几何的联系。课程进一步将这一概念映射到Transformer架构中，指出WQ、WK、WV权重矩阵本质上就是线性变换，将输入嵌入映射到查询、键、值空间。理解线性变换是深入理解注意力机制数学基础的关键一步。

Key Claims

线性变换的核心是保持网格线平行且等距分布，变换完全由基向量的新位置决定
矩阵乘法就是线性变换的数值表示，矩阵的每一列就是变换后基向量的坐标
Transformer中的WQ、WK、WV权重矩阵本质上是将嵌入向量投影到不同子空间的线性变换
行列式表示变换对面积的缩放比例，行列式为零意味着空间被压缩到更低维度
特征向量是在变换过程中方向不变的向量，特征值表示该方向的缩放倍数

Key Quotes

“线性变换就像是橡皮筋上的画——你可以拉伸、旋转，但不能撕裂或弯折。” — 解释线性变换的几何直观

“矩阵不是一张随机的数字表格，它是对空间变换的编码。” — 强调矩阵的几何意义

“WQ、WK、WV做的事情，就是把同一个词放到不同的坐标系里去看。” — 联系Transformer中的线性变换

Connections

LinearTransformation — 本课核心主题，几何直观与代数表示的统一
Transformer — 线性变换在Transformer架构中的具体应用
MultiHeadAttention — 多头注意力中每组头拥有独立的线性变换矩阵

JRY's digital garden

Explorer

线性变换的几何直观

Summary

Key Claims

Key Quotes

Connections

Contradictions

Graph View

Table of Contents