SparseAttention

Overview

稀疏注意力通过限制注意力计算中 token 之间的连接模式，将标准注意力的 O(N^2) 计算复杂度降低到 O(N x sqrt(N))。其核心思想是大多数 token 之间不需要直接交互，只需维护三类关键连接：Random（随机长程连接）、Window（局部滑动窗口）和 Global（全局关键 token），即可在大幅减少计算量的同时保持模型质量。

Key Ideas

Random 连接：随机选择少量远程 token 建立注意力连接，捕获长程依赖关系
Window 连接：只关注附近的 token（如前后 w 个位置），捕获局部上下文信息
Global 连接：少量特殊 token（如 [CLS]）与所有位置建立连接，提供全局信息汇聚
复杂度降低：通过稀疏连接模式将注意力矩阵从稠密的 N x N 减少到 O(N x sqrt(N)) 个非零元素
实际应用：Longformer、BigBird、Sparse Transformer 等模型均采用不同形式的稀疏注意力

FlashAttention — Flash Attention 从 IO 优化角度加速注意力，稀疏注意力从计算模式角度降低复杂度
InfiniAttention — 无限注意力从另一个角度解决长上下文问题
MultiHeadAttention — 稀疏注意力是对多头注意力计算模式的优化

JRY's digital garden

Explorer

SparseAttention

Overview

Key Ideas

Graph View

Table of Contents

Backlinks

JRY's digital garden

Explorer

SparseAttention

Overview

Key Ideas

Related Concepts

Graph View

Table of Contents

Backlinks