📚 MiniMind 笔记：大模型从零实现的完整路径

2026 年 6 月 16 日·3 min read·499 字

MiniMind 笔记：从零理解大语言模型

本系列笔记基于 MiniMind 项目，系统梳理大语言模型的实现细节。

万丈高楼平地起，这里是理解 LLM 的起点。

基石：关于 Tokenizer 你所需要知道的一切 详细剖析 BPE、WordPiece、Unigram 三种主流分词算法的原理与代码实现，并对比 GPT-2 与 GPT-4 分词器的演进。
基石：语义的几何与时空的折叠：Embedding 与位置编码 从词向量到 RoPE 位置编码的演进路径。
基石：MiniMind 的设计目录 整体架构总览。

深入 Transformer 及其变体的内部构造，解析最前沿的模型设计。

架构篇：超级拼装 从注意力机制到完整 Decoder Block 的组合。
架构篇：最常见的大模型优化方法——从 KV Cache 到 Flash Attention 推理加速的核心工程技术。
架构篇：大语言模型归一化技术：原理、演进与前沿架构 LayerNorm、RMSNorm、Pre-Norm vs Post-Norm 的设计权衡。
架构篇：混合专家模型（MoE）：架构演进、核心算法与工程实践 从 Switch Transformer 到 DeepSeek-V2 的 MoE 演进。
可选：大规模语言模型推理与训练优化机制 PagedAttention、Continuous Batching、ZeRO、Pipeline Parallelism 等。
大模型八股 100 问 面试常见问题汇总。

涵盖预训练算法、微调策略（SFT/RLHF）等核心算法细节。

Coming soon...

量化、蒸馏、剪枝等模型压缩技术。