矩阵视角下的注意力机制综述:从 Flash Attention 到 Ring/Ulysses 并行 —— 完整的原理推导与可运行 Demo
1. 引言注意力机制 (Attention Mechanism) 最早在自然语言处理 (NLP) 中提出, 用于提升模型在长序列建模中的能力. 它的核心思想是: 对于一个输入序列中的某个位置, 模型不必等权地利用整个序列的信息, 而是能够自动学习"应该关注哪些位置"的权重. 这一思想后来被引入到 Transformer 架构, 成为深度学习中极为重要的组成部分, 并广泛应用于自然

