分类: 大模型

48 篇文章

KV Cache和分组多头注意力GQA
一、KV Cache:用空间换时间的推理绝招 自回归生成模式 在自回归生成中,模型根据之前的上下文(Context)预测…
矩阵和张量有什么区别?
## 前言 在工程、物理和连续介质力学的学习和工作中,有一个常见却常被混淆的问题:矩阵和张量究竟有什么不同? 很多人简单…
大白话讲解:数据预处理
简介 数据预处理将原始数据转化为适合建模的格式,核心步骤包括:清洗(缺失值、异常值、重复值)、变换(无量纲化、特征编码)…