
破解深度學習(核心篇) 內容簡介
本書旨在采用一種符合讀者認知角度且能提升其學習效率的方式來講解深度學習背後的核心知識、原理和內在邏輯。
經過基礎篇的學習,想必你已經對深度學習的總體框架有了初步的了解和認識,掌握了深度神經網絡從核心概念、常見問題到典型網絡的基本知識。本書為核心篇,將帶領讀者實現從入門到進階、從理論到實戰的跨越。全書共7章,前三章包括複雜CNN、RNN和注意力機製網絡,深入詳解各類主流模型及其變體;第4章介紹這三類基礎模型的組合體,即概率生成模型;第5章和第6章著重介紹這些複雜模型在計算機視覺和自然語言處理兩大最常見領域的應用;第7章講解生成式大語言模型的內在原理並對其發展趨勢予以展望。
本書係統全麵,深入淺出,且輔以生活中的案例進行類比,以此降低學習難度,能夠幫助讀者迅速掌握深度學習的基礎知識。本書適合有誌於投身人工智能領域的人員閱讀,也適合作為高等院校人工智能相關專業的教學用書。
破解深度學習(核心篇) 作者簡介
.瞿煒,美國伊利諾伊大學人工智能博士,哈佛大學、京都大學客座教授;前中國科學院大學教授、模式識別國家重點實驗室客座研究員;國家部委特聘專家、重點實驗室學術委員會委員;國際期刊編委,多個學術期刊審稿人及國際學術會議委員。在人工智能業界擁有二十餘年的技術積累和實踐經驗,曾先後在互聯網、醫療、安防、教育等行業的多家世界 500 強企業擔任高管。他是授業解惑科技有限公司的創始人,以及多家人工智能、金融公司的聯合創始人,還是一名天使投資人。憑借多年的專業積澱和卓越的行業洞察力,瞿煒博士近年來致力於人工智能教育事業的發展。作為教育博主,他擅長用通俗易懂的表達方式結合直觀生動的模型動畫,講述複雜的人工智能理論與算法;創作的人工智能係列視頻和課程在 B 站(賬號:梗直哥丶) 知乎 GZH 視頻號(賬號:梗直哥丶)等平台深受學生們的歡迎和認可,累計訪問量超數千萬人次。
.李力,人工智能專家,長期致力於計算機視覺和強化學習領域的研究與實踐。曾在多家科技企業擔任資深算法工程師,擁有十餘年行業經驗,具備豐富的技術能力和深厚的理論知識。在他的職業生涯中,李力參與並領導了眾多深度學習和強化學習的核心技術項目,有效地應用先進模型解決圖像識別、目標檢測、自然語言處理、機器人研發等多個領域的實際問題。
.楊潔,人工智能和自然語言處理領域資深應用專家,在自然語言理解、基於知識的智能服務、跨模態語言智能、智能問答係統等技術領域具有深厚的實戰背景。她曾在教育、醫療等行業的企業擔任關鍵職位,擁有十年以上的行業管理經驗,成功領導並實施了多個創新項目,擅長引領團隊將複雜的理論轉化為實際應用,解決行業中的關鍵問題。
破解深度學習(核心篇) 目錄
第1章複雜卷積神經網絡:捕獲精細特征11.1AlexNet2
1.1.1AlexNet簡介2
1.1.2代碼實現3
1.1.3模型訓練6
1.1.4小結10
1.2VGGNet10
1.2.1VGGNet簡介10
1.2.2代碼實現13
1.2.3模型訓練15
1.2.4小結16
1.3批歸一化方法16
1.3.1批歸一化簡介16
1.3.2代碼實現17
1.3.3模型訓練19
1.3.4小結20
1.4GoogLeNet20
1.4.1GoogLeNet簡介20
1.4.2Inception結構20
1.4.3GoogLeNet的模型結構21
1.4.4代碼實現22
1.4.5模型訓練25
1.4.6小結26
1.5ResNet26
1.5.1ResNet簡介26
1.5.2殘差結構27
1.5.3ResNet模型結構28
1.5.4代碼實現30
1.5.5模型訓練35
1.5.6小結36
1.6DenseNet36
1.6.1DenseNet簡介36
1.6.2代碼實現39
1.6.3模型訓練44
1.6.4小結44
第2章複雜循環神經網絡:為記憶插上翅膀46
2.1雙向RNN和深度RNN47
2.1.1雙向RNN47
2.1.2深度RNN48
2.1.3小結51
2.2RNN長期依賴問題51
2.2.1什麼是長期依賴52
2.2.2長期記憶失效原因52
2.2.3截斷時間步53
2.2.4小結54
2.3長短期記憶網絡及其變體54
2.3.1核心思想54
2.3.2網絡結構55
2.3.3遺忘門56
2.3.4輸入門56
2.3.5輸出門57
2.3.6門控循環單元57
2.3.7小結60
2.4四種RNN代碼實現60
2.4.1模型定義60
2.4.2模型實驗63
2.4.3效果對比66
2.4.4小結67
第3章複雜注意力神經網絡:大模型的力量68
3.1BERT模型68
3.1.13種模型結構69
3.1.2詞嵌入70
3.1.3預訓練:掩碼語言模型70
3.1.4預訓練:下一句預測71
3.1.5微調72
3.1.6優缺點73
3.1.7小結74
3.2GPT係列模型74
3.2.1GPT-1模型思想和結構75
3.2.2GPT-1無監督預訓練和監督微調76
3.2.3GPT-1數據集和性能特點77
3.2.4GPT-2模型思想和結構78
3.2.5GPT-2數據集和性能特點79
3.2.6GPT-3模型思想和結構80
3.2.7基於情景學習的對話模式80
3.2.8GPT-3數據集和性能特點83
3.2.9小結84
3.3T5模型84
3.3.1基本思想84
3.3.2詞表示發展史85
3.3.3模型結構86
3.3.4預訓練流程87
3.3.5預訓練數據集88
3.3.6模型版本89
3.3.7小結89
3.4ViT模型90
3.4.1Transformer的好處90
3.4.2模型結構90
3.4.3數據預處理91
3.4.4圖片塊和位置嵌入91
3.4.5Transformer編碼器92
3.4.6MLP頭93
3.4.7性能對比93
3.4.8小結94
3.5SwinTransformer模型94
3.5.1要解決的問題95
3.5.2模型結構95
3.5.3輸入預處理97
3.5.4四個階段97
3.5.5SwinTransformer塊98
3.5.6窗口注意力98
3.5.7計算複雜度分析98
3.5.8移動窗口多頭自注意力機製99
3.5.9特征圖循環移位計算99
3.5.10maskedMSA操作100
3.5.11小結101
第4章深度生成模型:不確定性的妙用102
4.1蒙特卡洛方法103
4.1.1采樣104
4.1.2重要性采樣105
4.1.3馬爾可夫鏈蒙特卡洛方法105
4.1.4小結106
4.2變分推斷方法106
4.2.1參數估計107
4.2.2問題定義108
4.2.3算法思路108
4.2.4KL散度109
4.2.5公式推導109
4.2.6高斯混合模型實例110
4.2.7與MCMC方法對比111
4.2.8小結111
4.3變分自編碼器112
4.3.1降維思想112
4.3.2自編碼器112
4.3.3VAE基本思想114
4.3.4隱空間可視化117
4.3.5神經網絡實現117
4.3.6重新參數化技巧118
4.3.7小結119
4.4生成對抗網絡119
4.4.1什麼是對抗生成思想119
4.4.2模型結構120
4.4.3判別器121
4.4.4生成器121
4.4.5訓練流程121
4.4.6損失函數123
4.4.7小結123
4.5擴散模型123
4.5.1模型對比124
4.5.2基本思想124
4.5.3前向過程125
4.5.4逆向過程126
4.5.5損失函數128
4.5.6損失函數的參數化129
4.5.7訓練流程130
4.5.8小結130
4.6深度生成模型項目實戰131
4.6.1代碼實現131
4.6.2VAE模型132
4.6.3GAN模型136
4.6.4小結140
第5章計算機視覺:讓智慧可見141
5.1自定義數據加載141
5.1.1數據加載141
5.1.2數據準備142
5.1.3ImageFolder方法142
5.1.4自定義數據集示例1145
5.1.5自定義數據集示例2147
5.1.6小結150
5.2圖像數據增強150
5.2.1數據增強簡介150
5.2.2代碼準備150
5.2.3常見圖像數據增強方法153
5.2.4小結159
5.3遷移學習160
5.3.1遷移學習簡介160
5.3.2ResNet預訓練模型160
5.3.3ViT預訓練模型163
5.3.4小結165
5.4經典計算機視覺數據集165
5.4.1數據集簡介165
5.4.2小結169
5.5項目實戰:貓狗大戰170
5.5.1項目簡介170
5.5.2數據準備170
5.5.3模型訓練175
5.5.4模型預測178
5.5.5小結180
第6章自然語言處理:人機交互懂你所說181
6.1詞嵌入和Word2Vec181
6.1.1獨熱編碼181
6.1.2Word2Vec182
6.1.3Gensim代碼實現185
6.1.4小結186
6.2詞義搜索和句義表示186
6.2.1文本搜索方法186
6.2.2正則搜索187
6.2.3詞義搜索188
6.2.4距離計算方法189
6.2.5句子向量189
6.2.6代碼實現190
6.2.7常見應用192
6.2.8小結192
6.3預訓練模型193
6.3.1預訓練和遷移學習193
6.3.2遷移學習族譜194
6.3.3大語言模型194
6.3.4LLM進化方向196
6.3.5BERT係列進化197
6.3.6GPT係列進化197
6.3.7多模態模型199
6.3.8存在的問題200
6.3.9小結200
6.4HuggingFace庫介紹200
6.4.1核心庫200
6.4.2官網介紹201
6.4.3代碼調用204
6.4.4小結207
6.5NLP數據集207
6.5.1預訓練數據集208
6.5.2下遊任務數據集209
6.5.3數據集使用211
6.5.4小結213
6.6項目實戰:電影評論情感分析213
6.6.1Pipeline213
6.6.2模型實戰214
6.6.3直接微調219
6.6.4小結221
第7章多模態生成式人工智能:引領智能新時代222
7.1CLIP模型222
7.1.1計算機視覺研究新範式223
7.1.2對比學習預訓練223
7.1.3圖像編碼器224
7.1.4文本編碼器224
7.1.5數據收集224
7.1.6圖像分類225
7.1.7模型訓練和優缺點分析226
7.1.8小結227
7.2DALL·E係列模型227
7.2.1初代模型結構227
7.2.2dVAE模塊228
7.2.3Transformer模塊229
7.2.4圖像生成過程230
7.2.5DALL·E2模型結構230
7.2.6CLIP模塊231
7.2.7prior模塊232
7.2.8decoder模塊232
7.2.9DALL·E2推理過程233
7.2.10模型效果233
7.2.11局限分析233
7.2.12小結234
7.3InstructGPT模型235
7.3.1GPT係列回顧235
7.3.2指示學習和提示學習235
7.3.3人工反饋強化學習236
7.3.4訓練流程237
7.3.5數據集采集238
7.3.6監督微調239
7.3.7獎勵模型239
7.3.8強化學習239
7.3.9優缺點分析240
7.3.10小結240
7.4深度學習最新發展趨勢分析240
7.4.1趨勢1:多模態融合241
7.4.2趨勢2:AIGC大爆發242
7.4.3趨勢3:大小模型分化243
7.4.4趨勢4:概率分布模型的大發展244
7.4.5趨勢5:深度強化學習的春天244
7.4.6更多展望245
7.5下一步學習的建議245
7.5.1動手實踐245
7.5.2PyTorch官方文檔和課程246
7.5.3推薦網站246
7.5.4多讀論文247
7.5.5關於強化學習247
7.5.6繼續加油248
······
