大模型 – 第 3 页 – 爱自然爱科技

图解Flash Attention运算原理

91

|

2026-6-08 20:08

|

大模型

Flash Attention 原理 Flash Attention 是目前大模型训练与推理中的关键技术。它通过优化 G…

LLM 的 Context Window 有上限，长对话时如何保证 Agent 仍然能正常工作？OpenClaw 是怎么做的？

94

|

2026-6-05 20:24

|

大模型

回答重点长对话最怕的就是 context window 爆了（就像手机存储满了），要么请求直接报错，要么不得不丢消息导…

OpenClaw 的核心组件有哪些？请描述它们之间的关系

80

|

2026-6-05 20:11

|

大模型

OpenClaw 把整个 Agent 平台拆成了五层组件，各司其职又首尾相连。 Channel Plugins 是最外层…

KV Cache和分组多头注意力GQA

112

|

2026-6-07 19:55

|

大模型

一、KV Cache：用空间换时间的推理绝招自回归生成模式在自回归生成中，模型根据之前的上下文（Context）预测…

什么是 AI Agent 中的 Skills？它有什么用？

115

|

2026-6-03 19:43

|

大模型

回答重点 Skills 就是给 AI Agent 写的操作手册，本质上是一份结构化的指令文件。当 Agent 碰到某类任…

可视化直观地理解Attention机制（Transformer模型）

112

|

2026-6-03 16:41

|

大模型

简介：受@3Blue1Brown 的可视化数学系列启发的第三期，这期Attention机制的视频用来作为之后CLIP原理…

三个注意力机制，为何只有一个需要掩码？

100

|

2026-6-02 17:04

|

大模型

在 Transformer 模型中，编码器和解码器一共有三个注意力模块，但其中只有一个需要进行掩码处理。这是很多人学习…

矩阵和张量有什么区别？

94

|

2026-6-03 14:35

|

大模型

## 前言在工程、物理和连续介质力学的学习和工作中，有一个常见却常被混淆的问题：矩阵和张量究竟有什么不同？很多人简单…

Hermes到底厉害在哪？

109

|

2026-6-01 18:10

|

大模型

Hermes Agent概述 Hermes Agent是由Nos Research团队开发的开源AI Agent项目，在…

告诉你Agent的一切

251

|

2026-6-02 20:17

|

大模型

ToolCall 理论简介 github仓库：https://github.com/Wood-Q/MokioAgent…

费曼学习法，5分钟搞懂Agent

203

|

2026-6-01 10:57

|

大模型

<smtcmp_block filename="公开笔记/Bilibili/费曼学习法，5分钟搞懂Age…

大白话讲解：数据预处理

117

|

2026-5-31 22:58

|

大模型

简介数据预处理将原始数据转化为适合建模的格式，核心步骤包括：清洗（缺失值、异常值、重复值）、变换（无量纲化、特征编码）…

2026 年 6 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

分类： 大模型

分类：大模型