Overview

Tri Dao 是斯坦福大学的博士研究员,Flash Attention 系列论文的第一作者。Flash Attention 通过重新组织注意力计算过程,在不牺牲模型精度的前提下实现了显著的内存和速度优化,是当前大模型训练和推理中最重要的底层优化技术之一。

Mentions