📚 MiniMind 笔记:大模型从零实现的完整路径

·3 min read·499

MiniMind 笔记:从零理解大语言模型

本系列笔记基于 MiniMind 项目,系统梳理大语言模型的实现细节。

🏗️ 第一部分:基石与原理 (Foundations)

万丈高楼平地起,这里是理解 LLM 的起点。

  • 基石:关于 Tokenizer 你所需要知道的一切 详细剖析 BPE、WordPiece、Unigram 三种主流分词算法的原理与代码实现,并对比 GPT-2 与 GPT-4 分词器的演进。

  • 基石:语义的几何与时空的折叠:Embedding 与位置编码 从词向量到 RoPE 位置编码的演进路径。

  • 基石:MiniMind 的设计目录 整体架构总览。

🏛️ 第二部分:核心架构 (Architecture)

深入 Transformer 及其变体的内部构造,解析最前沿的模型设计。

  • 架构篇:超级拼装 从注意力机制到完整 Decoder Block 的组合。

  • 架构篇:最常见的大模型优化方法——从 KV Cache 到 Flash Attention 推理加速的核心工程技术。

  • 架构篇:大语言模型归一化技术:原理、演进与前沿架构 LayerNorm、RMSNorm、Pre-Norm vs Post-Norm 的设计权衡。

  • 架构篇:混合专家模型(MoE):架构演进、核心算法与工程实践 从 Switch Transformer 到 DeepSeek-V2 的 MoE 演进。

  • 可选:大规模语言模型推理与训练优化机制 PagedAttention、Continuous Batching、ZeRO、Pipeline Parallelism 等。

  • 大模型八股 100 问 面试常见问题汇总。

🧠 第三部分:算法与演进 (Algorithms)

涵盖预训练算法、微调策略(SFT/RLHF)等核心算法细节。

  • 算法篇:MiniMind 的 Pretrain — 预训练流程
  • 算法篇:MiniMind 的 SFT — 监督微调
  • 算法篇:MiniMind 的 DPO — 直接偏好优化
  • 算法篇:MiniMind 的 PPO — 近端策略优化
  • 算法篇:MiniMind 的 GRPO 及其变体 — 群体相对策略优化
  • 算法篇:MiniMind 的 SPO — 序列级偏好优化
  • 算法篇:大模型强化学习算法概览

🚀 第四部分:模型优化与压缩

Coming soon...

量化、蒸馏、剪枝等模型压缩技术。