《大模型時代的基礎架構:大模型算力中心建設指南》封麵

內容簡介

大模型是近年來引人注目的熱點之一。大模型蓬勃發展的基礎,是針對其需求設計的算力及基礎架構。本書針對如何為大模型構建基礎架構進行深入講解,並基於TOGAF方法論,剖析業界知名案例的設計方案。

《大模型時代的基礎架構:大模型算力中心建設指南》總計13章。第1章講解AI與大模型時代對基礎架構的需求;第2章講解軟件程序與專用硬件的結合,涉及GPU並行運算庫、機器學習程序的開發框架和分布式AI訓練;第3章剖析GPU的硬件架構,涉及GPU的總體設計、Nvidia GH100芯片架構和擁有其他Hopper架構的GPU;第4章講解GPU服務器的設計與實現;第5章講解機器學習所依托的I/O框架體係;第6章講解GPU集群的網絡設計與實現;第7章講解GPU板卡算力調度技術;第8章講解GPU虛擬化調度方案;第9章講解GPU集群的網絡虛擬化設計與實現;第10章講解GPU集群的存儲設計與實現;第11章講解如何基於雲原生技術為機器學習應用設計與實現更好的開發和運行平台;第12章講解基於雲平台的GPU集群的管理與運營,涉及雲運維平台、雲運營平台和雲審計平台;第13章基於一個服務機器學習的GPU計算平台落地案例,展示如何針對機器學習應用進行需求分析、設計與實現。

無論是高等院校計算機與人工智能等相關專業的本科生或研究生,還是對並行計算技術、雲計算技術、高性能存儲及高性能網絡技術感興趣的研究人員或工程技術人員,都可以參考和閱讀本書。

作者簡介

方天戟

騰訊專有雲首席架構師,本科畢業於北京航空航天大學自動控製專業,碩士研究生畢業於中國科學院研究生院計算機科學與技術專業。從業近20年,從事過硬件開發、內核與驅動開發、協議棧開發、網絡與雲計算解決方案設計等工作,曾在華為、新華三、Juniper等企業任職,為航天科技、中國建築、BMW及環球影城等國內外知名客戶設計且落地過雲計算與網絡解決方案。“雲鑒”叢書編寫組核心成員。

微信公眾號:帥雲霓的技術小屋

目錄

第1章AI與大模型時代對基礎架構的需求……001
1.1我們在談論AI時,到底在談論什麼…002
1.2機器學習算法初窺……………………004
1.3一元線性回歸算法剖析………………005
1.4機器學習算法對計算機硬件的特殊需求……………………007
1.4.1機器學習算法的核心運算特征……………………007
1.4.2使用CPU實現機器學習算法和並行加速…………009
1.4.3機器學習算法的主力引擎——GPU………………011
1.4.4機器學習算法的新引擎——TPU和NPU…………014
1.5本章小結………018
第2章軟件程序與專用硬件的結合……………019
2.1GPU並行運算庫020
2.2機器學習程序的開發框架……………024
2.3分布式AI訓練…026
2.4本章小結………028
第3章GPU硬件架構剖析……………………030
3.1GPU的總體設計031
3.2NvidiaGH100芯片架構剖析………033
3.3其他Hopper架構的GPU……………039
3.4本章小結………039
第4章GPU服務器的設計與實現……………040
4.1初識NvidiaDGX……………………043
4.2NvidiaDGXA100的總體設計………044
4.3NvidiaDGXA100CPU與內存子係統的設計……………046
4.4NvidiaDGXA100PCI-E子係統的設計…………………048
4.5NvidiaDGXA100NVLink子係統的設計…………………051
4.6其他輔助子係統的設計………………053
4.7本章小結………054
第5章機器學習所依托的I/O框架體係………055
5.1MagnumIO的需求來源……………057
5.2MagnumIO的核心組件……………058
5.3服務器內部的GPU互通………………059
5.4跨服務器節點的GPU通信……………064
5.5RDMA的兩種實現……………………066
5.6GPU對存儲的訪問……………………068
5.7MagnumIO所依賴的其他支撐技術………………………070
5.7.1DPDK(DataPlaneDevelopmentKit,數據平麵開發套件)…………070
5.7.2DPU(DataProcessingUnit,數據處理器)……071
5.7.3MPITagMatching…………071
5.8本章小結………071
第6章GPU集群的網絡設計與實現…………073
6.1GPU集群中RoCE計算網絡的設計與實現…………………075
6.2GPU集群中存儲與業務網絡的設計與實現…………………078
6.3GPU集群中帶外管理監控網絡的設計與實現………………083
6.4GPU集群中網絡邊界的設計與實現…084
6.5本章小結………086
第7章GPU板卡級算力調度技術……………088
7.1基於虛擬化技術的GPU調度…………089
7.2基於容器技術的GPU調度……………095
7.3本章小結………100
第8章GPU虛擬化調度方案…………………101
8.1Nvidia的GPU虛擬化調度方案………103
8.1.1APIRemoting與vCUDA……104
8.1.2GRIDvGPU…………………105
8.1.3NvidiaMIG…………………106
8.2其他硬件廠商的GPU虛擬化調度方案108
8.2.1AMD的SRIOV方案…………108
8.2.2Intel的GVT-G方案…………109
8.3雲廠商與開源社區基於容器的GPU虛擬化調度方案………109
8.3.1TKEvCUDA+GPUManager110
8.3.2阿裏雲的cGPU………………112
8.3.3騰訊雲的qGPU……………113
8.4本章小結………114
第9章GPU集群的網絡虛擬化設計與實現…115
9.1基於SDN的VPC技術:網絡虛擬化技術的基石…………116
9.2雲負載均衡:機器學習網絡的中流砥柱……………………120
9.3專線接入、對等連接與VPC網關……126
9.4SDNNFV網關的實現與部署………130
9.4.1基於virtio-net/vhost的虛擬機部署NFV……………130
9.4.2基於SRIOV的虛擬機部署NFV……………………132
9.4.3使用DPDK技術對NFV加速133
9.5本章小結………135
第10章GPU集群的存儲設計與實現…………137
10.1程序與係統存儲——分布式塊存儲………………………138
10.1.1塊存儲的業務需求………138
10.1.2集中式塊存儲與分布式塊存儲…………………139
10.1.3分布式塊存儲的故障恢複142
10.1.4分布式塊存儲的性能優化145
10.1.5分布式塊存儲的快照與回滾……………………146
10.2海量非結構化數據存儲——分布式對象存儲……………148
10.2.1入門級對象存儲的首選:Ceph…………………149
10.2.2開源海量對象存儲:Swift152
10.2.3商業化對象存儲:大型公有雲對象存儲私有化154
10.2.4未來之星:Minio…………156
10.3AI訓練素材存儲——分布式並發高性能存儲……………157
10.3.1開源大數據存儲鼻祖:HDFS……………………159
10.3.2業界對HDFS的改進………161
10.3.3長青鬆柏:Lustre…………163
10.4本章小結……166
第11章機器學習應用開發與運行平台的設計與實現………………167
11.1微服務平台…168
11.1.1Kubernetes:微服務基礎能力平台………………169
11.1.2SpringCloud:Java係專屬微服務平台…………173
11.1.3Istio:不挑開發語言,隻挑部署架構……………176
11.1.4商業化微服務平台:兼顧各類需求的選擇………183
11.2中間件服務…189
11.2.1消息中間件…………………190
11.2.2緩存中間件…………………195
11.2.3數據庫(數據中間件)……197
11.3應用日誌服務………………………201
11.4本章小結……203
第12章基於雲平台的GPU集群的管理與運營205
12.1雲運維平台…206
12.1.1硬件基礎設施管理………206
12.1.2係統監控與告警平台……208
12.1.3CMDB210
12.2雲運營平台…211
12.3雲審計平台…212
12.4本章小結……213
第13章服務機器學習的GPU計算平台落地案例……………………214
13.1需求來源:自動駕駛模型訓練……215
13.2總體設計——基於雲原生的高性能計算…………………218
13.3計算需求分析與設計實現…………218
13.4存儲需求分析與設計實現…………219
13.5網絡需求分析與設計實現…………220
13.6本章小結……222
後記223
······

最後修改:2025 年 10 月 13 日