《百麵大模型》封麵

百麵大模型 內容簡介

本書收錄了約百道大模型工程師常見的麵試題目和解答,係統、全麵地介紹了與大模型相關的技術,涵蓋語義表達、數據預處理、預訓練、對齊、垂類微調、組件、評估、架構、檢索增強生成(RAG)、智能體、PEFT(參數高效微調),以及訓練與推理等內容。書中通過豐富的實例、圖表及代碼講解,將複雜概念闡釋得通俗易懂,是大模型領域的一本不可多得的實用指南。本書適合對大模型和Transformer等技術感興趣的學生、研究者和工程師閱讀和參考。

編輯推薦

覆蓋95%大模型麵試高頻考點

涵蓋MoE、預訓練、後訓練、SFT、PEFT、RLHF、PPO、GRPO、DPO、FlashAttention、RAG、智能體以及DeepSeek MLA等

百麵大模型 作者簡介

包夢蛟,北京航空航天大學碩士,美團北鬥計劃高級算法專家,負責大眾點評大模型應用落地開發,曾獲得Kaggle Grandmaster稱號、KDD CUP 2024冠軍,業餘時間撰寫知乎專欄和公眾號“包包算法筆記”,全網關注數5萬+。

劉如日,北京航空航天大學碩士,研究興趣為機器學習與自然語言處理。曾以第一作者身份發表頂會論文並多次在頂會競賽中取得冠軍等優異成績。現於美團從事大模型相關技術研究與產業應用。

朱俊達,北京航空航天大學碩士,研究興趣為大模型架構優化方向,有多家大廠實習經歷,發表了多篇大模型相關論文。

百麵大模型 目錄

第1章語義表達1
1.1詞向量與語義信息1
1.1.1稀疏詞向量2
1.1.2分布式語義假設2
1.1.3稠密詞向量3
1.2溢出詞表詞的處理方法6
1.3分詞方法的區別與影響11
1.3.1詞(word)11
1.3.2子詞(subword)12
1.3.3字符(char)16
1.4詞向量與語義相似度17
1.5構建句子向量19
1.6預訓練的位置編碼22
1.7BERT的不同嵌入類型25
1.8大模型語義建模的典型架構27
第2章大模型的數據31
2.1大模型訓練開源數據集31
2.2大模型不同訓練環節與數據量35
2.3大模型數據預處理39
2.3.1數據的質量39
2.3.2數據的多樣性40
2.4大模型擴展法則43
2.5持續預訓練與災難性遺忘47
2.6大模型指令微調的數據篩選49
第3章大模型的預訓練53
3.1預訓練與監督微調辨析53
3.2大模型的湧現能力56
3.3大模型預訓練階段的實驗提效方法58
3.4大模型開發流程三階段:預訓練、監督微調和強化學習61
3.4.1大模型預訓練61
3.4.2大模型的監督微調61
3.4.3大模型的強化學習62
3.5大模型訓練顯存計算與優化63
3.6大模型訓練通信開銷計算75
3.6.1集合通信原語76
3.6.2數據並行的工作原理和通信開銷計算80
3.6.3張量並行的工作原理和通信開銷計算81
3.6.4 流水線並行的工作原理和通信開銷計算84
3.6.5 使用ZeRO優化技術時的通信開銷計算85
第4章大模型的對齊87
4.1 對齊數據構造87
4.2 PPO算法88
4.3 獎勵模型訓練96
4.4 PPO穩定訓練的方法99
4.4.1 設計合理的評估指標對PPO訓練過程進行監控100
4.4.2 對損失和梯度進行標準化和裁剪101
4.4.3 改進損失函數102
4.4.4 優化評論家模型和演員模型的初始化方式102
4.5 DPO算法103
4.6 DPO與PPO辨析105
4.6.1 計算資源方麵:DPO所需計算資源比PPO少106
4.6.2 訓練穩定性方麵:DPO的訓練穩定性高於PPO106
4.6.3 效果方麵:PPO的泛化能力優於DPO106
4.7 其他偏好對齊方法綜述108
4.7.1PPO類108
4.7.2 DPO類113
4.7.3 非強化學習類117
4.7.4 數據類119
4.8 對齊訓練穩定性監測119
4.8.1 監督微調階段119
4.8.2 強化學習對齊訓練階段121
4.9 大模型後訓練環節辨析122
第5章大模型的垂類微調124
5.1 (垂類)監督微調124
5.2 後訓練的詞表擴充128
5.3 有效的長度外推方法130
5.4 大模型微調的損失函數140
5.4.1 CrossEntropyLoss(交叉熵損失)140
5.4.2 z-loss141
5.4.3 EMOloss142
5.5 大模型知識注入方法144
5.5.1 模型的繼續預訓練與監督微調144
5.5.2 檢索增強生成145
第6章大模型的組件147
6.1 Transformer的架構147
6.2 注意力分數計算細節153
6.3 詞元化算法的區別與特點156
6.3.1 基於單詞的詞元化157
6.3.2 基於字符的詞元化157
6.3.3 基於子詞的詞元化158
6.4 RoPE160
6.5 ALiBi165
6.5.1 ALiBi的工作原理166
6.5.2 ALiBi的外推能力實驗167
6.5.3 ALiBi的訓練推理效率實驗168
6.5.4 ALiBi的代碼實現169
6.6 SparseAttention169
6.7 LinearAttention173
6.8 多頭注意力機製及其優化(MHA、MQA和GQA)175
6.8.1 多頭注意力機製的代碼實現175
6.8.2 Transformer解碼器在解碼過程中的性能瓶頸178
6.8.3 多查詢注意力和分組查詢注意力的工作原理179
6.9 各種歸一化方法181
6.9.1 歸一化方法的作用181
6.9.2 BatchNorm的工作原理182
6.9.3 LayerNorm的工作原理183
6.9.4 RMSNorm的工作原理184
6.10 歸一化模塊位置的影響——PostNorm和PreNorm184
6.10.1 PostNorm和PreNorm的工作原理185
6.10.2 PostNorm和PreNorm的差異185
6.11 Dropout機製187
6.11.1 Dropout的實現流程和原理188
6.11.2 避免訓練和推理時的期望偏移188
6.11.3 避免訓練和推理時的方差偏移189
6.12 模型訓練參數初始化方法概述190
6.12.1 固定值初始化191
6.12.2 預訓練初始化191
6.12.3 基於固定方差的初始化191
6.12.4 基於方差縮放的初始化191
第7章大模型的評估194
7.1 大模型的評測榜單與內容194
7.2 大模型評測的原則199
7.3 大模型的修複方法200
7.3.1 badcase定義201
7.3.2 badcase修複思路201
7.3.3 實踐解法202
7.4 生成式模型的評測指標203
7.5 大模型的自動化評估209
7.6 大模型的對抗性測試211
7.7 大模型的備案流程212
第8章大模型的架構217
8.1 因果解碼器架構成為主流的原因217
8.2 大模型的集成融合方法220
8.3 MoE226
第9章檢索增強生成233
9.1 RAG的組成與評估233
9.2 RAG中的召回方法237
9.3 RAG與重排241
9.4 RAG的工程化問題244
第10章大模型智能體248
10.1 智能體的組成248
10.2 智能體的規劃能力251
10.3 智能體的記憶模塊255
10.4 智能體的工具調用257
10.5 XAgent框架263
10.6 AutoGen框架266
10.7 智能體框架實踐269
第11章大模型PEFT273
11.1 LoRA273
11.1.1 LoRA的設計思路273
11.1.2 LoRA的具體實現流程274
11.2 PEFT方法概述279
11.3 PEFT與全參數微調286
第12章大模型的訓練與推理288
12.1 大模型解碼與采樣方法綜述288
12.2 大模型生成參數及其含義292
12.3 大模型訓練與推理預填充階段的加速方法——FlashAttention297
12.4大模型專家並行訓練317
12.5 大模型推理加速——PagedAttention321
12.5.1 為什麼對KV緩存的內存管理效率是影響推理係統吞吐量的關鍵因素322
12.5.2 PagedAttention如何提高對KV緩存的內存管理效率325
12.6 大模型量化的細節327
12.7 大模型多維並行化訓練策略328
第13章DeepSeek335
13.1 DeepSeek係列模型架構創新335
13.1.1 大數量小尺寸的混合專家設計337
13.1.2 MLA343
13.1.3 多詞元預測351
13.2 DeepSeek-R1訓練流程353
參考文獻357
······

最後修改:2026 年 04 月 21 日