稀疏注意力与Infini-Attention

Summary

本课介绍处理长序列的两种注意力优化方案：稀疏注意力（Sparse Attention）和Infini-Attention。稀疏注意力通过Random、Window、Global tokens三个组件大幅降低计算复杂度。Infini-Attention则引入压缩记忆机制实现无限上下文长度。课程还对比了线性注意力（Q(K^T V)）与标准注意力（(QK^T)V）的计算顺序差异，并提及Kimi和Gemini 1.5的实际应用。

Key Claims

稀疏注意力的三组件：Random attention随机连接远距离token、Window attention关注局部邻域、Global tokens作为信息枢纽连接全局
稀疏注意力将标准O(N^2)复杂度降低到O(N×√N)或更低，代价是损失部分token间的直接交互
Infini-Attention在标准注意力基础上增加压缩记忆（Compressive Memory），将旧上下文压缩存入固定大小记忆
线性注意力改变计算顺序：标准注意力 (QK^T)V 先算token间相似度，线性注意力 Q(K^T V) 先算特征聚合
线性注意力的复杂度为O(N×d^2)，当序列长度N远大于维度d时比标准注意力高效得多
Kimi和Gemini 1.5采用了类似Infini-Attention的压缩记忆机制来支持超长上下文窗口

Key Quotes

“稀疏注意力的核心思想是：不是每两个token都需要直接对话，大部分信息可以通过’中间人’传递。” — 解释稀疏注意力的合理性

“线性注意力的数学本质就是一个交换律：先算K^T V还是先算QK^T，结果一样但代价天差地别。” — 揭示线性注意力的关键洞察

“Infini-Attention让模型拥有了’遗忘旧事但保留印象’的能力——不需要记住每个字，但需要记住大致意思。” — 比喻压缩记忆机制

Connections

SparseAttention — 本课核心主题之一，降低长序列注意力复杂度
InfiniAttention — 压缩记忆机制，实现无限上下文
MultiHeadAttention — 稀疏注意力和Infini-Attention都是在标准多头注意力基础上的优化

JRY's digital garden

Explorer

稀疏注意力与Infini-Attention

Summary

Key Claims

Key Quotes

Connections

Contradictions

Graph View

Table of Contents