Transformer 与注意力机制:从零开始彻底理解 > 这是一篇超长文,整理自原视频的完整内容。适合想要深…
<公开笔记/Bilibili/一张图片是怎么喂给大模型的?谈谈 CPU、内存、显存、GPU.md> 简介 本…
简介 课代表: 01:07 推理阶段的显存之权重 04:26 推理阶段的显存之 kv cache 06:43 训练阶段的…
简介 本文是对 B 站视频《Attention is all you need》论文解读及 Transformer 架构…
简介 这篇笔记基于对 LLM 入门视频的学习整理而成,重点聚焦预训练(Pretraining)阶段。 预训练可以理解为:…
简介 简介 本文基于 Meta LLaMA 3.2 3 B 模型架构,以“你知道王汉三是谁吗”为完整示例,从输入到输出逐…
核心技术总结 一、核心脉络 RAG 的演进历程并非简单的版本升级,而是每一次迭代都在解决前一代无法控制的检索不确定性。路…
导语: 近期,以 OpenClaw 为代表的自主智能体(Autonomous Agent)火爆技术圈。这些宣称能“完全接…
字幕 原模型是 6×8 乘八乘的四层结构 而 LER 的参数矩阵都是 62 与 28 8×2 与 2×8 8×2 与二成…
每次用 ChatGPT 或 Claude,你的对话内容都发送到了别人的服务器上。 对大多数人来说这不是问题。但如果你处理…
Obsidian + AI 插件:打造真正的第二大脑 笔记软件我用过不下十个。Notion、语雀、Roam Resear…
作者: 数据科学家阿宝哥 发布/编辑时间: 2026年04月05日 13:24 什么是Transformer? 2017…