
大模型技術30講 內容簡介
本書采用獨特的一問一答式風格,探討了當今機器學習和人工智能領域中最重要的30 個問題,旨在幫助讀者了解最新的技術進展。全書共分為五個部分:神經網絡與深度學習、計算機視覺、自然語言處理、生產與部署、預測性能與模型評測。每一章都圍繞一個問題展開,不僅針對問題做出了相應的解釋,並配有若幹圖表,還給出了練習供讀者檢驗自身是否已理解所學內容。
本書適合機器學習初學者以及相關從業者和研究人員閱讀。
大模型技術30講 作者簡介
塞巴斯蒂安·拉施卡(Sebastian Raschka)
極具影響力的人工智能專家,GitHub項目LLMs-from-scratch的star數達40.2k。
現在大模型獨角獸公司Lightning AI任資深研究工程師。博士畢業於密歇根州立大學,2018~2023年威斯康星大學麥迪遜分校助理教授(終身教職),從事深度學習科研和教學。
除本書外,他還寫作了暢銷書《從零構建大模型》和《Python機器學習》。
大模型技術30講 目錄
第一部分 神經網絡與深度學習第1章 嵌入、潛空間和表征2
1.1 嵌入2
1.2 潛空間4
1.3 表征4
1.4 練習5
1.5 參考文獻5
第2章 自監督學習6
2.1 自監督學習與遷移學習6
2.2 使用無標簽數據8
2.3 自預測與對比自監督學習8
2.4 練習10
2.5 參考文獻10
第3章 小樣本學習12
3.1 數據集與術語12
3.2 練習14
第4章 彩票假設15
4.1 彩票假設的訓練流程15
4.2 實際意義與局限性16
4.3 練習17
4.4 參考文獻17
第5章 利用數據來減少過擬合現象18
5.1 常用方法18
5.1.1 采集更多數據18
5.1.2 數據增強19
5.1.3 預訓練20
5.2 其他方法20
5.3 練習21
5.4 參考文獻21
第6章 通過改進模型減少過擬合現象23
6.1 常用方法23
6.1.1 正則化23
6.1.2 選擇更小的模型25
6.1.3 集成方法26
6.2 其他方法27
6.3 選擇正則化技術28
6.4 練習28
6.5 參考文獻28
第7章 多GPU訓練模式30
7.1 訓練模式30
7.1.1 模型並行30
7.1.2 數據並行31
7.1.3 張量並行31
7.1.4 流水線並行32
7.1.5 序列並行33
7.2 建議34
7.3 練習34
7.4 參考文獻34
第8章 Transformer架構的成功36
8.1 注意力機製36
8.2 通過自監督學習進行預訓練37
8.3 大規模參數38
8.4 輕鬆並行化38
8.5 練習39
8.6 參考文獻39
第9章 生成式AI模型40
9.1 生成式模型與判別式模型40
9.2 深度生成式模型的類型41
9.2.1 能量模型41
9.2.2 變分自編碼器42
9.2.3 生成對抗網絡43
9.2.4 流模型43
9.2.5 自回歸模型44
9.2.6 擴散模型45
9.2.7 一致性模型46
9.3 建議47
9.4 練習47
9.5 參考文獻47
第10章 隨機性的由來48
10.1 模型權重初始化48
10.2 數據集采樣與重排49
10.3 非確定性算法49
10.4 不同運行時的算法50
10.5 硬件與驅動程序51
10.6 隨機性與生成式AI51
10.7 練習53
10.8 參考文獻53
第二部分 計算機視覺
第11章 計算參數量56
11.1 如何計算參數量56
11.1.1 卷積層57
11.1.2 全連接層58
11.2 實際應用59
11.3 練習60
第12章 全連接層和卷積層61
12.1 當卷積核與輸入大小相同時62
12.2 當卷積核大小為1時63
12.3 建議63
12.4 練習63
第13章 ViT架構所需的大型訓練集64
13.1 CNN中的歸納偏置64
13.2 ViT可以比CNN表現得更好67
13.3 ViT中的歸納偏置67
13.4 建議68
13.5 練習69
13.6 參考文獻69
第三部分 自然語言處理
第14章 分布假設72
14.1 Word2vec、BERT和GPT73
14.2 假設成立嗎74
14.3 練習75
14.4 參考文獻75
第15章 文本數據增強76
15.1 同義詞替換76
15.2 詞語刪除77
15.3 詞語位置交換77
15.4 句子亂序77
15.5 噪聲注入78
15.6 回譯78
15.7 合成數據生成79
15.8 建議79
15.9 練習80
15.10 參考文獻80
第16章 自注意力81
16.1 RNN中的注意力81
16.2 自注意力機製83
16.3 練習84
16.4 參考文獻84
第17章 編碼器和解碼器風格的
Transformer架構85
17.1 原始的Transformer85
17.1.1 編碼器87
17.1.2 解碼器88
17.2 編碼器解碼器混合模型89
17.3 專業術語89
17.4 當代Transformer模型90
17.5 練習91
17.6 參考文獻91
第18章 使用和微調預訓練
Transformer92
18.1 使用Transformer執行分類任務92
18.2 上下文學習、索引和提示詞調優94
18.3 參數高效的微調方法97
18.4 基於人類反饋的強化學習102
18.5 適配預訓練語言模型102
18.6 練習103
18.7 參考文獻103
第19章 評測生成式大模型104
19.1 大模型的評測指標104
19.1.1 困惑度105
19.1.2 BLEU106
19.1.3 ROUGE107
19.1.4 BERTScore109
19.2 替代指標110
19.3 練習110
19.4 參考文獻110
第四部分 生產與部署
第20章 無狀態訓練與有狀態訓練114
20.1 無狀態(重)訓練114
20.2 有狀態訓練115
20.3 練習115
第21章 以數據為中心的人工智能117
21.1 以數據為中心的人工智能與以模型
為中心的人工智能117
21.2 建議119
21.3 練習119
21.4 參考文獻120
第22章 加速推理121
22.1 並行化121
22.2 向量化122
22.3 循環分塊123
22.4 算子融合123
22.5 量化124
22.6 練習125
22.7 參考文獻125
第23章 數據分布偏移126
23.1 協變量偏移126
23.2 標簽偏移127
23.3 概念偏移128
23.4 領域偏移128
23.5 數據分布偏移的類型129
23.6 練習130
23.7 參考文獻130
第五部分 預測性能與模型評測
第24章 泊鬆回歸與序回歸132
第25章 置信區間134
25.1 定義置信區間134
25.2 方法136
25.2.1 方法1:正態近似區間136
25.2.2 方法2:使用自助法構建
訓練集137
25.2.3 方法3:使用自助抽樣法
構建測試集預測結果139
25.2.4 方法4:使用不同的隨機
種子重新訓練模型140
25.3 練習141
25.4 參考文獻141
第26章 置信區間與共形預測142
26.1 置信區間和預測區間142
26.2 預測區間與共形預測143
26.3 預測區域、預測區間與預測集合143
26.4 計算共形預測143
26.5 共形預測示例145
26.6 共形預測的優點146
26.7 建議146
26.8 練習146
26.9 參考文獻147
第27章 合適的模型度量148
27.1 標準148
27.2 均方誤差149
27.3 交叉熵損失150
27.4 練習151
第28章 k折交叉驗證中的k152
28.1 選擇k值時的權衡考量153
28.2 確定適當的k值154
28.3 練習154
28.4 參考文獻155
第29章 訓練集和測試集的不一致性156
第30章 有限的有標簽數據158
30.1 利用有限的有標簽數據提高模型
性能158
30.1.1 標注更多數據158
30.1.2 自助抽樣數據158
30.1.3 遷移學習159
30.1.4 自監督學習159
30.1.5 主動學習160
30.1.6 小樣本學習160
30.1.7 元學習161
30.1.8 弱監督學習161
30.1.9 半監督學習162
30.1.10 自訓練163
30.1.11 多任務學習163
30.1.12 多模態學習164
30.1.13 歸納偏置165
30.2 建議165
30.3 練習167
30.4 參考文獻167
後記168
附錄 練習答案169
······
最後修改:2026 年 02 月 10 日
© 允許規範轉載
