第07篇:GPT / LLaMA 架构演进——从 GPT-1 到 LLaMA-3 的“黄金三角“
前置知识:第06篇(Transformer Decoder 架构)引言:架构没变,变的是细节GPT-1(2018)到 LLaMA-3(2024),六年时间模型规模从 117M 增长到 405B,但核心架构几乎没变——都是 Decoder-only Transformer。真正的进化发生在组件级别的优化:GPT-1 (2018): LayerNorm + GELU + 可学习位置编码 GPT-2 (2019): LayerNorm 前置 (Pre-Norm) + 扩大模型 GPT-3 (2020): Sparse Attention + 规模再扩大 100x LLaMA (2023): RMSNorm + SwiGLU + RoPE → "黄金三角" LLaMA-2 (2023): +40% 训练数据 + GQA LLaMA-3 (2024): 15T token + 128K 上下文 + 分组查询注意力这么说吧:GPT-1 到 LLaMA-3 的演进,不是"发明了新架构",而是把每个组件都优化到了极致。一、GPT 系列:架构不变性的胜利1.1 GPT-1 (2018):第一个 Decoder-only 预训练模型

相关新闻