内容简介
大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础,是针对其需求设计的算力及基础架构。本书针对如何为大模型构建基础架构进行深入讲解,并基于TOGAF方法论,剖析业界知名案例的设计方案。
《大模型时代的基础架构:大模型算力中心建设指南》总计13章。第1章讲解AI与大模型时代对基础架构的需求;第2章讲解软件程序与专用硬件的结合,涉及GPU并行运算库、机器学习程序的开发框架和分布式AI训练;第3章剖析GPU的硬件架构,涉及GPU的总体设计、Nvidia GH100芯片架构和拥有其他Hopper架构的GPU;第4章讲解GPU服务器的设计与实现;第5章讲解机器学习所依托的I/O框架体系;第6章讲解GPU集群的网络设计与实现;第7章讲解GPU板卡算力调度技术;第8章讲解GPU虚拟化调度方案;第9章讲解GPU集群的网络虚拟化设计与实现;第10章讲解GPU集群的存储设计与实现;第11章讲解如何基于云原生技术为机器学习应用设计与实现更好的开发和运行平台;第12章讲解基于云平台的GPU集群的管理与运营,涉及云运维平台、云运营平台和云审计平台;第13章基于一个服务机器学习的GPU计算平台落地案例,展示如何针对机器学习应用进行需求分析、设计与实现。
无论是高等院校计算机与人工智能等相关专业的本科生或研究生,还是对并行计算技术、云计算技术、高性能存储及高性能网络技术感兴趣的研究人员或工程技术人员,都可以参考和阅读本书。
作者简介
方天戟
腾讯专有云首席架构师,本科毕业于北京航空航天大学自动控制专业,硕士研究生毕业于中国科学院研究生院计算机科学与技术专业。从业近20年,从事过硬件开发、内核与驱动开发、协议栈开发、网络与云计算解决方案设计等工作,曾在华为、新华三、Juniper等企业任职,为航天科技、中国建筑、BMW及环球影城等国内外知名客户设计且落地过云计算与网络解决方案。“云鉴”丛书编写组核心成员。
微信公众号:帅云霓的技术小屋
目录
第1章AI与大模型时代对基础架构的需求……0011.1我们在谈论AI时,到底在谈论什么…002
1.2机器学习算法初窥……………………004
1.3一元线性回归算法剖析………………005
1.4机器学习算法对计算机硬件的特殊需求……………………007
1.4.1机器学习算法的核心运算特征……………………007
1.4.2使用CPU实现机器学习算法和并行加速…………009
1.4.3机器学习算法的主力引擎——GPU………………011
1.4.4机器学习算法的新引擎——TPU和NPU…………014
1.5本章小结………018
第2章软件程序与专用硬件的结合……………019
2.1GPU并行运算库020
2.2机器学习程序的开发框架……………024
2.3分布式AI训练…026
2.4本章小结………028
第3章GPU硬件架构剖析……………………030
3.1GPU的总体设计031
3.2NvidiaGH100芯片架构剖析………033
3.3其他Hopper架构的GPU……………039
3.4本章小结………039
第4章GPU服务器的设计与实现……………040
4.1初识NvidiaDGX……………………043
4.2NvidiaDGXA100的总体设计………044
4.3NvidiaDGXA100CPU与内存子系统的设计……………046
4.4NvidiaDGXA100PCI-E子系统的设计…………………048
4.5NvidiaDGXA100NVLink子系统的设计…………………051
4.6其他辅助子系统的设计………………053
4.7本章小结………054
第5章机器学习所依托的I/O框架体系………055
5.1MagnumIO的需求来源……………057
5.2MagnumIO的核心组件……………058
5.3服务器内部的GPU互通………………059
5.4跨服务器节点的GPU通信……………064
5.5RDMA的两种实现……………………066
5.6GPU对存储的访问……………………068
5.7MagnumIO所依赖的其他支撑技术………………………070
5.7.1DPDK(DataPlaneDevelopmentKit,数据平面开发套件)…………070
5.7.2DPU(DataProcessingUnit,数据处理器)……071
5.7.3MPITagMatching…………071
5.8本章小结………071
第6章GPU集群的网络设计与实现…………073
6.1GPU集群中RoCE计算网络的设计与实现…………………075
6.2GPU集群中存储与业务网络的设计与实现…………………078
6.3GPU集群中带外管理监控网络的设计与实现………………083
6.4GPU集群中网络边界的设计与实现…084
6.5本章小结………086
第7章GPU板卡级算力调度技术……………088
7.1基于虚拟化技术的GPU调度…………089
7.2基于容器技术的GPU调度……………095
7.3本章小结………100
第8章GPU虚拟化调度方案…………………101
8.1Nvidia的GPU虚拟化调度方案………103
8.1.1APIRemoting与vCUDA……104
8.1.2GRIDvGPU…………………105
8.1.3NvidiaMIG…………………106
8.2其他硬件厂商的GPU虚拟化调度方案108
8.2.1AMD的SRIOV方案…………108
8.2.2Intel的GVT-G方案…………109
8.3云厂商与开源社区基于容器的GPU虚拟化调度方案………109
8.3.1TKEvCUDA+GPUManager110
8.3.2阿里云的cGPU………………112
8.3.3腾讯云的qGPU……………113
8.4本章小结………114
第9章GPU集群的网络虚拟化设计与实现…115
9.1基于SDN的VPC技术:网络虚拟化技术的基石…………116
9.2云负载均衡:机器学习网络的中流砥柱……………………120
9.3专线接入、对等连接与VPC网关……126
9.4SDNNFV网关的实现与部署………130
9.4.1基于virtio-net/vhost的虚拟机部署NFV……………130
9.4.2基于SRIOV的虚拟机部署NFV……………………132
9.4.3使用DPDK技术对NFV加速133
9.5本章小结………135
第10章GPU集群的存储设计与实现…………137
10.1程序与系统存储——分布式块存储………………………138
10.1.1块存储的业务需求………138
10.1.2集中式块存储与分布式块存储…………………139
10.1.3分布式块存储的故障恢复142
10.1.4分布式块存储的性能优化145
10.1.5分布式块存储的快照与回滚……………………146
10.2海量非结构化数据存储——分布式对象存储……………148
10.2.1入门级对象存储的首选:Ceph…………………149
10.2.2开源海量对象存储:Swift152
10.2.3商业化对象存储:大型公有云对象存储私有化154
10.2.4未来之星:Minio…………156
10.3AI训练素材存储——分布式并发高性能存储……………157
10.3.1开源大数据存储鼻祖:HDFS……………………159
10.3.2业界对HDFS的改进………161
10.3.3长青松柏:Lustre…………163
10.4本章小结……166
第11章机器学习应用开发与运行平台的设计与实现………………167
11.1微服务平台…168
11.1.1Kubernetes:微服务基础能力平台………………169
11.1.2SpringCloud:Java系专属微服务平台…………173
11.1.3Istio:不挑开发语言,只挑部署架构……………176
11.1.4商业化微服务平台:兼顾各类需求的选择………183
11.2中间件服务…189
11.2.1消息中间件…………………190
11.2.2缓存中间件…………………195
11.2.3数据库(数据中间件)……197
11.3应用日志服务………………………201
11.4本章小结……203
第12章基于云平台的GPU集群的管理与运营205
12.1云运维平台…206
12.1.1硬件基础设施管理………206
12.1.2系统监控与告警平台……208
12.1.3CMDB210
12.2云运营平台…211
12.3云审计平台…212
12.4本章小结……213
第13章服务机器学习的GPU计算平台落地案例……………………214
13.1需求来源:自动驾驶模型训练……215
13.2总体设计——基于云原生的高性能计算…………………218
13.3计算需求分析与设计实现…………218
13.4存储需求分析与设计实现…………219
13.5网络需求分析与设计实现…………220
13.6本章小结……222
后记223
······