日期: 2026年6月5日

3 篇文章

KV Cache和分组多头注意力GQA
一、KV Cache:用空间换时间的推理绝招 自回归生成模式 在自回归生成中,模型根据之前的上下文(Context)预测…