📚 MiniMind 笔记:大模型从零实现的完整路径
·3 min read·499 字
MiniMind 笔记:从零理解大语言模型
本系列笔记基于 MiniMind 项目,系统梳理大语言模型的实现细节。
🏗️ 第一部分:基石与原理 (Foundations)
万丈高楼平地起,这里是理解 LLM 的起点。
-
基石:关于 Tokenizer 你所需要知道的一切 详细剖析 BPE、WordPiece、Unigram 三种主流分词算法的原理与代码实现,并对比 GPT-2 与 GPT-4 分词器的演进。
-
基石:语义的几何与时空的折叠:Embedding 与位置编码 从词向量到 RoPE 位置编码的演进路径。
-
基石:MiniMind 的设计目录 整体架构总览。
🏛️ 第二部分:核心架构 (Architecture)
深入 Transformer 及其变体的内部构造,解析最前沿的模型设计。
-
架构篇:超级拼装 从注意力机制到完整 Decoder Block 的组合。
-
架构篇:最常见的大模型优化方法——从 KV Cache 到 Flash Attention 推理加速的核心工程技术。
-
架构篇:大语言模型归一化技术:原理、演进与前沿架构 LayerNorm、RMSNorm、Pre-Norm vs Post-Norm 的设计权衡。
-
架构篇:混合专家模型(MoE):架构演进、核心算法与工程实践 从 Switch Transformer 到 DeepSeek-V2 的 MoE 演进。
-
可选:大规模语言模型推理与训练优化机制 PagedAttention、Continuous Batching、ZeRO、Pipeline Parallelism 等。
-
大模型八股 100 问 面试常见问题汇总。
🧠 第三部分:算法与演进 (Algorithms)
涵盖预训练算法、微调策略(SFT/RLHF)等核心算法细节。
- 算法篇:MiniMind 的 Pretrain — 预训练流程
- 算法篇:MiniMind 的 SFT — 监督微调
- 算法篇:MiniMind 的 DPO — 直接偏好优化
- 算法篇:MiniMind 的 PPO — 近端策略优化
- 算法篇:MiniMind 的 GRPO 及其变体 — 群体相对策略优化
- 算法篇:MiniMind 的 SPO — 序列级偏好优化
- 算法篇:大模型强化学习算法概览
🚀 第四部分:模型优化与压缩
Coming soon...
量化、蒸馏、剪枝等模型压缩技术。