Flash Attention 为什么那么快?原理讲解 4 | 2026-6-24 17:43 | 大模型 Flash Attention 为什么那么快?原理详解 大家好,今天我们来深入探讨一个在大型语言模型训练中几乎成为标配的…
浅谈Transformer模型中的位置表示 2 | 2026-6-24 16:24 | 大模型 作者:哈工大SCIR 徐啸 0. 何为位置信息 首先简单谈一下位置信息。一般将位置信息简单分为绝对位置信息和相对位置信息…
Transformer位置编码:为什么非得用sin和cos配对? 1 | 2026-6-24 16:14 | 大模型 为什么需要位置编码? Transformer 的核心是自注意力机制,它把句子中的所有词同时计算,天然没有顺序概念(“我打…