Overview
Tri Dao 是斯坦福大学的博士研究员,Flash Attention 系列论文的第一作者。Flash Attention 通过重新组织注意力计算过程,在不牺牲模型精度的前提下实现了显著的内存和速度优化,是当前大模型训练和推理中最重要的底层优化技术之一。
Mentions
- llm-lesson-07-flash-attention — 作为 Flash Attention 论文的作者被介绍,讲解其核心思想与实现细节
Tri Dao 是斯坦福大学的博士研究员,Flash Attention 系列论文的第一作者。Flash Attention 通过重新组织注意力计算过程,在不牺牲模型精度的前提下实现了显著的内存和速度优化,是当前大模型训练和推理中最重要的底层优化技术之一。