大模型激活函数迭代演进:SwiGLU替代传统ReLU/GELU激活逻辑提升模型性能.189
一、前言 在前一期《大模型主流激活函数解析:ReLU/GELU/SwiGLU 原理差异,拆解 FFN 前向逻辑》内容中,我们已经系统认识了神经网络激活函数的基础作用:线性矩阵运算无法拟合复杂语义规律,只有加入非线性激活,Transformer才能学习语言逻辑、上下文关联与世界知识。相信在我们初步了解后

