
深度學習:基礎與概念 內容簡介
本書全麵且深入地呈現了深度學習領域的知識體係,係統梳理了該領域的核心知識,闡述了深度學習的關鍵概念、基礎理論及核心思想,剖析了當代深度學習架構與技術。全書共 20 章。本書首先介紹深度學習的發展歷程、基本概念及其在諸多領域(如醫療診斷、圖像合成等)產生的深遠影響;繼而深入探討支撐深度學習的數學原理,包括概率、標準分布等;在網絡模型方麵,從單層網絡逐步深入到多層網絡、深度神經網絡,詳細講解其結構、功能、優化方法及其在分類、回歸等任務中的應用,同時涵蓋卷積網絡、Transformer 等前沿架構及其在計算機視覺、自然語言處理等領域的獨特作用。本書還對正則化、采樣、潛變量、生成對抗網絡、自編碼器、擴散模型等關鍵技術展開深入分析,闡釋其原理、算法流程及實際應用場景。對於機器學習領域的新手,本書是全麵且係統的入門教材,可引領其踏入深度學習的知識殿堂;對於機器學習領域從業者,本書是深化專業知識、緊跟技術前沿的有力工具;對於相關專業學生,本書是學習深度學習課程、開展學術研究的優質參考資料。無論是理論學習、實踐應用還是學術研究,本書都是讀者在深度學習領域探索與前行的重要指引。
深度學習:基礎與概念 作者簡介
克裏斯托弗·M. 畢曉普(Christopher M. Bishop)
微軟公司技術研究員、微軟研究 院 科 學 智 能 中 心(Microsoft Research AI4Science)負責人。劍橋達爾文學院院士、英國皇家工程院院士、愛丁堡皇家學會院士和倫敦皇家學會院士。曾出版經典著作《模式識別與機器學習》(Pattern Recognition and Machine Learning)。
休·畢曉普(Hugh Bishop)
Wayve 公司(倫敦一家基於端到端深度學習的自動駕駛公司)應用科學家,負責設計和訓練深度神經網絡。擁有劍橋大學工程係機器學習和機器智能專業碩士
學位、杜倫大學計算機科學工程學碩士學位。
深度學習:基礎與概念 目錄
第1章深度學習革命111深度學習的影響2
111醫療診斷2
112蛋白質結構預測3
113圖像合成4
114大語言模型5
12一個教學示例6
121合成數據7
122線性模型7
123誤差函數8
124模型複雜度8
125正則化11
126模型選擇12
13機器學習簡史14
131單層網絡15
132反向傳播16
133深度網絡17
第2章概率21
21概率法則23
211醫學篩查示例23
212加和法則和乘積法則24
213貝葉斯定理26
214再看醫學篩查示例27
215先驗概率和後驗概率28
216獨立變量28
22概率密度28
221分布的示例30
222期望和協方差31
23高斯分布32
231均值和方差32
232似然函數33
233最大似然的偏差35
234線性回歸36
24密度變換37
多元分布39
25信息論40
251熵40
252物理學視角42
253微分熵43
254最大熵44
255Kullback-Leibler散度45
256條件熵47
257互信息47
26貝葉斯概率47
261模型參數48
262正則化49
263貝葉斯機器學習50
習題50
第3章標準分布55
31離散變量56
311伯努利分布56
312二項分布57
313多項分布58
32多元高斯分布59
321高斯幾何60
322矩62
323局限性64
324條件分布64
325邊緣分布67
326貝葉斯定理70
327最大似然72
328序貫估計73
329高斯混合74
33周期變量76
馮·米塞斯分布76
34指數族分布80
充分統計量84
35非參數化方法85
351直方圖85
352核密度86
353最近鄰88
習題90
第4章單層網絡:回歸97
41線性回歸97
411基函數98
412似然函數100
413最大似然101
414最小二乘的幾何表示102
415序貫學習102
416正則化最小二乘法103
417多重輸出104
42決策理論105
43偏差-方差權衡108
習題112
第5章單層網絡:分類115
51判別函數116
511二分類116
512多分類117
5131-of-K編碼方案119
514最小二乘分類119
52決策理論121
521誤分類率122
522預期損失124
523拒絕選項125
524推理和決策125
525分類器精度128
526ROC曲線129
53生成分類器131
531連續輸入132
532最大似然解134
533離散特征136
534指數族分布136
54判別分類器137
541激活函數137
542固定基函數138
543邏輯斯諦回歸139
544多類邏輯斯諦回歸140
545probit回歸141
546規範連接函數143
習題144
第6章深度神經網絡149
61固定基函數的局限性150
611維度詛咒150
612高維空間152
613數據流形153
614數據依賴的基函數155
62多層網絡156
621參數矩陣157
622通用近似158
623隱藏單元激活函數159
624權重空間的對稱性161
63深度網絡162
631層次化表示162
632分布式表示163
633表示學習163
634遷移學習164
635對比學習165
636通用網絡結構168
637張量168
64誤差函數169
641回歸169
642二分類170
643多分類171
65混合密度網絡172
651機器人運動學示例172
652條件混合分布173
653梯度優化175
654預測分布176
習題177
第7章梯度下降181
71錯誤平麵182
局部二次近似183
72梯度下降優化184
721梯度信息的使用185
722批量梯度下降185
723隨機梯度下降186
724小批量方法187
725參數初始化188
73收斂189
731動量190
732學習率調度192
733AdaGrad、RMSProp與Adam算法193
74正則化195
741數據歸一化195
742批量歸一化196
743層歸一化197
習題198
第8章反向傳播201
81梯度計算202
811單層網絡202
812一般前饋網絡202
813簡單示例205
814數值微分法206
815雅可比矩陣207
816黑塞矩陣209
82自動微分法211
821前向模式自動微分213
822逆模式自動微分215
習題217
第9章正則化219
91歸納偏置220
911逆問題220
912無免費午餐定理221
913對稱性和不變性222
914等變性224
92權重衰減225
921一致性正則化項226
922廣義權重衰減228
93學習曲線230
931早停法230
932雙重下降231
94參數共享234
軟權重共享234
95殘差連接236
96模型平均239
dropout241
習題243
第10章卷積網絡247
101計算機視覺248
圖像數據248
102卷積濾波器249
1021特征檢測器250
1022平移等變性251
1023填充252
1024跨步卷積253
1025多維卷積253
1026池化255
1027多層卷積256
1028網絡架構示例257
103可視化訓練好的CNN259
1031視覺皮層259
1032可視化訓練好的濾波器260
1033顯著性圖262
1034對抗攻擊263
1035合成圖像264
104目標檢測265
1041邊界框265
1042交並比266
1043滑動窗口267
1044跨尺度檢測268
1045非最大抑製269
1046快速區域卷積神經網絡270
105圖像分割270
1051卷積分割270
1052上采樣271
1053全卷積網絡272
1054U-Net架構273
106風格遷移274
習題275
第11章結構化分布279
111概率圖模型280
1111有向圖280
1112分解280
1113離散變量282
1114高斯變量284
1115二元分類器286
1116參數和觀測值287
1117貝葉斯定理288
112條件獨立性289
11213個示例圖289
1122相消解釋292
1123d分離293
1124樸素貝葉斯294
1125生成式模型296
1126馬爾可夫毯297
1127作為過濾器的圖298
113序列模型299
潛變量301
習題302
第12章Transformer305
121注意力306
1211Transformer處理308
1212注意力係數308
1213自注意力309
1214網絡參數310
1215縮放自注意力312
1216多頭注意力313
1217Transformer層315
1218計算複雜性316
1219位置編碼317
122自然語言319
1221詞嵌入320
1222分詞321
1223詞袋模型322
1224自回歸模型323
1225遞歸神經網絡324
1226通過時間的反向傳播325
123Transformer語言模型326
1231解碼器型Transformer326
1232抽樣策略329
1233編碼器型Transformer330
1234序列到序列Transformer332
1235大語言模型333
124多模態Transformer336
1241視覺Transformer336
1242圖像生成Transformer337
1243音頻數據339
1244文本語音轉換340
1245視覺和語言Transformer342
習題343
第13章圖神經網絡347
131基於圖的機器學習348
1311圖的屬性349
1312鄰接矩陣349
1313排列等變性350
132神經信息傳遞351
1321卷積濾波器352
1322圖卷積網絡353
1323聚合算子354
1324更新算子356
1325節點分類357
1326邊分類358
1327圖分類358
133通用圖網絡359
1331圖注意力網絡359
1332邊嵌入360
1333圖嵌入360
1334過度平滑361
1335正則化362
1336幾何深度學習362
習題363
第14章采樣365
141基本采樣366
1411期望366
1412標準分布367
1413拒絕采樣369
1414適應性拒絕采樣370
1415重要性采樣371
1416采樣-重要性-重采樣373
142馬爾可夫鏈蒙特卡洛采樣374
1421Metropolis算法375
1422馬爾可夫鏈376
1423Metropolis-Hastings算法378
1424吉布斯采樣380
1425祖先采樣382
143郎之萬采樣383
1431基於能量的模型384
1432最大化似然385
1433朗之萬動力學386
習題388
第15章離散潛變量391
151K均值聚類392
圖像分割395
152高斯混合分布397
1521似然函數399
1522最大似然400
153EM算法404
1531高斯混合模型406
1532EM算法與K均值算法的關係408
1533混合伯努利分布409
154證據下界412
1541EM算法回顧413
1542獨立同分布數據415
1543參數先驗415
1544廣義EM算法416
1545順序EM算法416
習題417
第16章連續潛變量421
161主成分分析422
1611最大方差表述423
1612最小誤差表述424
1613數據壓縮427
1614數據白化428
1615高維數據429
162概率潛變量430
1621生成式模型431
1622似然函數432
1623最大似然法433
1624因子分析436
1625獨立成分分析437
1626卡爾曼濾波器439
163證據下界439
1631EM算法441
1632PCA的EM算法442
1633因子分析的EM算法444
164非線性潛變量模型444
1641非線性流形445
1642似然函數447
1643離散數據448
1644構建生成式模型的4種方法448
習題449
第17章生成對抗網絡453
171對抗訓練454
1711損失函數455
1712實戰中的GAN訓練456
172圖像的生成對抗網絡458
CycleGAN459
習題462
第18章標準化流465
181耦合流467
182自回歸流470
183連續流472
1831神經ODE472
1832神經ODE的反向傳播473
1833神經ODE流474
習題476
第19章自編碼器479
191確定性的自編碼器480
1911線性自編碼器480
1912深度自編碼器481
1913稀疏自編碼器482
1914去噪自編碼器482
1915掩蔽自編碼器483
192變分自編碼器484
1921攤銷推理487
1922重參數化技巧488
習題491
第20章擴散模型493
201前向編碼器494
2011擴散核495
2012條件分布496
202反向解碼器497
2021訓練解碼器499
2022證據下界499
2023重寫ELBO501
2024預測噪聲502
2025生成新的樣本504
203得分匹配505
2031得分損失函數506
2032修改得分損失506
2033噪聲方差508
2034隨機微分方程508
204有引導的擴散509
2041有分類器的引導510
2042無分類器的引導510
習題513
附錄517
附錄A線性代數517
A1矩陣恒等式517
A2跡和行列式518
A3矩陣導數519
A4特征向量521
附錄B變分法524
附錄C拉格朗日乘子526
參考資料529
索引549
······
