LLaMA-Factory 加速技术全解析:FlashAttention/Unsloth/Liger Kernel 原理与 Ubuntu22.04 实践指南
作者:吴业亮
博客:wuyeliang.blog.csdn.net
一、核心加速技术原理
1. FlashAttention:注意力计算的内存优化革命
核心原理传统Transformer注意力计算存在严重的内存访存瓶颈:需要显式存储注意力权重矩阵(O(n²)),且HBM(高带宽内存&#x

