類似推薦
編輯推薦
助你理解、掌握PyTorch的優(yōu)化技巧。
內容簡介
本書致力于探索如何在大規(guī)模深度學習模型訓練中,最大限度地提高性能和優(yōu)化顯存使用。本書面向深度學習從業(yè)者,尤其是希望深入了解并提升模型訓練效率的工程師與研究人員。隨著深度學習模型和數(shù)據(jù)規(guī)模的迅速增長,如何高效利用硬件資源,減少訓練時間,成為當前AI系統(tǒng)工程的關鍵挑戰(zhàn)。
本書內容涵蓋從單機到分布式訓練,從顯存管理到性能分析的多種優(yōu)化策略,力求通過豐富的代碼實例和深入的原理講解,使讀者能夠在實踐中靈活應用這些方法。
作者簡介
作者張愛玲,本科畢業(yè)于清華大學電子工程系,后在美國伊利諾伊大學香檳分校獲得計算機科學碩士學位,是AI系統(tǒng)工程領域的資深技術專家。作為深度學習框架PyTorch核心團隊成員,參與了多個關鍵組件的研發(fā)與優(yōu)化工作。
同時,她作為技術負責人主導了PyTorch/XLA和Taichi編譯器等多個具有廣泛影響力的開源項目。目前在工業(yè)界專注于大規(guī)模語言模型訓練的基礎設施開發(fā)與性能優(yōu)化工作。
章節(jié)目錄
版權信息
作者簡介
內容簡介
前言
01 歡迎來到這場大模型競賽
1.1 模型規(guī)模帶來的挑戰(zhàn)
1.2 數(shù)據(jù)規(guī)模帶來的挑戰(zhàn)
1.3 模型規(guī)模與數(shù)據(jù)增長的應對方法
02 深度學習必備的硬件知識
2.1 CPU與內存
2.2 硬盤
2.3 GPU
2.4 分布式系統(tǒng)
03 深知度識學習必備的PyTorch
3.1 PyTorch的張量數(shù)據(jù)結構
3.2 PyTorch中的算子
3.3 PyTorch的動態(tài)圖機制
3.4 PyTorch的自動微分系統(tǒng)
3.5 PyTorch的異步執(zhí)行機制
04 定位性能瓶頸的工具和方法
4.1 配置性能分析所需的軟硬件環(huán)境
4.2 精確測量程序運行時間
4.3 PyTorch性能分析器
4.4 GPU專業(yè)分析工具
4.5 CPU性能分析工具
4.6 本章小結
05 數(shù)據(jù)加載和預處理專題
5.1 數(shù)據(jù)接入的準備階段
5.2 數(shù)據(jù)集的獲取和預處理
5.3 數(shù)據(jù)集的加載和使用
5.4 數(shù)據(jù)加載性能分析
5.5 本章小結
06 單卡性能優(yōu)化專題
6.1 提高數(shù)據(jù)任務的并行度
6.2 提高GPU計算任務的效率
6.3 減少CPU和GPU間的同步
6.4 降低程序中的額外開銷
6.5 有代價的性能優(yōu)化
6.6 本章小結
07 單卡顯存優(yōu)化專題
7.1 PyTorch的顯存管理機制
7.2 顯存的分析方法
7.3 訓練過程中的顯存占用
7.4 通用顯存復用方法
7.5 有代價的顯存優(yōu)化技巧
7.6 優(yōu)化Python代碼以減少顯存占用
7.7 本章小結
08 分布式訓練專題
8.1 分布式策略概述
8.2 集合通信原語
8.3 應對數(shù)據(jù)增長的并行策略
8.4 應對模型增長的并行策略
8.5 本章小結
09 高級優(yōu)化方法專題
9.1 自動混合精度訓練
9.2 自定義高性能算子
9.3 基于計算圖的性能優(yōu)化
9.4 本章小結
10 GPT-2優(yōu)化全流程
10.1 GPT模型結構簡介
10.2 實驗環(huán)境與機器配置
10.3 顯存優(yōu)化
10.4 性能優(yōu)化
結語
大模型動力引擎:PyTorch性能與顯存優(yōu)化手冊是2024年由清華大學出版社出版,作者張愛玲。
溫馨提示:
得書感謝您對《大模型動力引擎:PyTorch性能與顯存優(yōu)化手冊》關注和支持,如本書內容有不良信息或侵權等情形的,請聯(lián)系本網站。