版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大模型場(chǎng)景下智算平臺(tái)的設(shè)計(jì)與優(yōu)化實(shí)踐2024.06.14不同時(shí)期對(duì)智算平臺(tái)的需求2引言客戶B我的模型跑起來耗時(shí)長(zhǎng),能加速嗎?客戶A我資源比較少,幾十卡的規(guī)模,如何提升卡的利用率?客戶C我想跑大模型,需要多少資源?網(wǎng)絡(luò)如何構(gòu)建?多長(zhǎng)時(shí)間能跑完?客戶D國產(chǎn)卡怎么用?能否與
NV
卡一起使用?20182024目錄01 大模型時(shí)代,智算平臺(tái)新特點(diǎn)402智算平臺(tái)需解決的問題603大模型場(chǎng)景技術(shù)實(shí)踐804對(duì)于智算平臺(tái)發(fā)展的未來思考2501
大模型時(shí)代,智算平臺(tái)新特點(diǎn)小模型
vs.
大模型小模型
vs.
大模型5大模型時(shí)代,智算平臺(tái)新特點(diǎn)ResNet50(小模型)訓(xùn)練時(shí)長(zhǎng)訓(xùn)練成本工程問題增強(qiáng):參數(shù)爆炸突破顯存墻,多機(jī)多卡成為常態(tài)增強(qiáng):卡間和機(jī)間高性能通信愈發(fā)重要增強(qiáng):耗時(shí)長(zhǎng)凸顯大模型訓(xùn)推加速需求新增:成本高帶來穩(wěn)定性需求,減少資源閑置維持:GPU切分在小模型和推理場(chǎng)景依然存在新增:新卡適配和芯片利舊,多芯混合調(diào)度新增:數(shù)據(jù)集處理加速新增:數(shù)據(jù)湖存儲(chǔ)和高性能存儲(chǔ)參數(shù)算力128塊
V100數(shù)據(jù)167G(ImageNet)158秒$1525M(0.025B)GPT-4(大模型)訓(xùn)練時(shí)長(zhǎng)訓(xùn)練成本參數(shù)算力8192塊
H100數(shù)據(jù)13T55天$2150萬1800Bvs.新要求*數(shù)據(jù)來源:非官方數(shù)據(jù),為業(yè)界推測(cè)基礎(chǔ)設(shè)施、調(diào)度、應(yīng)用、運(yùn)維大模型場(chǎng)景下智算平臺(tái)需解決的問題基礎(chǔ)設(shè)施、調(diào)度、應(yīng)用、運(yùn)維7智算平臺(tái)需解決的問題基礎(chǔ)設(shè)施調(diào)度應(yīng)用算力存儲(chǔ)網(wǎng)絡(luò)適配多種異構(gòu)芯片固件、OS內(nèi)核、驅(qū)動(dòng)兼容混合多芯優(yōu)化存儲(chǔ)讀寫性能鏡像加速、鏡像預(yù)鋪搭建和調(diào)試高性能網(wǎng)絡(luò)資源管理任務(wù)管理大規(guī)模異構(gòu)算力高效調(diào)度和分配算力虛擬化多種AI框架和并行策略支持AI
任務(wù)調(diào)度和任務(wù)流管理云原生容器化數(shù)據(jù)訓(xùn)練推理數(shù)據(jù)集下載和轉(zhuǎn)儲(chǔ)加速數(shù)據(jù)集的清洗和加工處理訓(xùn)練任務(wù)的性能優(yōu)化任務(wù)的監(jiān)控和容錯(cuò)Flash
Checkpoint推理任務(wù)的性能優(yōu)化在線服務(wù)的監(jiān)控告警運(yùn)維03
大模型場(chǎng)景技術(shù)實(shí)踐基礎(chǔ)設(shè)施層國產(chǎn)卡能否與
NV
卡一起使用?9基礎(chǔ)設(shè)施——混合多芯擬合性能系數(shù)統(tǒng)一并行策略AI
效能矩陣圖譜通信整合10基礎(chǔ)設(shè)施——高性能存儲(chǔ)托管
BCC/BBC
集群MEMDIS
KME
MDIS
KME
MDIS
KME
MDIS
KTCP/InfiniBand/RoCE并行文件存儲(chǔ)
PFSTCP分布式緩存加速存儲(chǔ)
RapidFS對(duì)象存儲(chǔ)
BOS標(biāo)準(zhǔn)存儲(chǔ)低頻存儲(chǔ)冷存儲(chǔ)歸檔存儲(chǔ)鏡像加速超大鏡像預(yù)加載P2P鏡像分發(fā)流式鏡像拉取訓(xùn)練數(shù)據(jù)加速高性能并行文件系統(tǒng)全SSD閃存RDMA鏈路加速模型加速大吞吐數(shù)據(jù)湖存儲(chǔ)分布式緩存加速鏡像服務(wù)流式讀取P2P加速如何實(shí)現(xiàn)數(shù)據(jù)集加速?如何
I/O
加速?11基礎(chǔ)設(shè)施——高性能網(wǎng)絡(luò)Tor拓?fù)涓兄{(diào)度NCCL通信拓?fù)涓兄?層無收斂RDMA網(wǎng)絡(luò)Upto512Upto512Upto
16K+如何實(shí)現(xiàn)通信庫加速?03
大模型場(chǎng)景技術(shù)實(shí)踐調(diào)度層如何提高單卡資源利用率?13調(diào)度——GPU虛擬化用戶態(tài)方案CUDAdriver
API,提供顯存限制,算力時(shí)分復(fù)用CUDA
runtime
API,提供遠(yuǎn)程調(diào)用,顯存限制,算力時(shí)分復(fù)用內(nèi)核態(tài)方案內(nèi)核模塊修改,提供顯存限制,算力時(shí)分復(fù)用Full/para-虛擬化,內(nèi)核模塊修改,MMIO攔截,顯存劃分,算力時(shí)分復(fù)用NV官方,硬件劃分,提供顯存劃分、算力劃分、編解碼劃分(1/7)硬件方案SR-IOV,硬件劃分,提供顯存劃分、算力劃分(1/3、1/2)Nvidia
MIG昆侖2
SR-IOV雙引擎
GPU
虛擬化14調(diào)度——GPU虛擬化優(yōu)勢(shì):性能好,長(zhǎng)尾延遲低缺點(diǎn):故障隔離差優(yōu)勢(shì):故障隔離好缺點(diǎn):有一定性能損耗用戶態(tài)內(nèi)核態(tài)如何調(diào)度資源?15調(diào)度——資源管理和調(diào)度邏輯PodPodPodPodGroup入
隊(duì)資源分配資源回收資源搶占回填調(diào)度會(huì)話插件集合Gang調(diào)度Gang搶占Binpack/Spread調(diào)度親和性調(diào)度GPU拓?fù)銽or架構(gòu)感知混部調(diào)度多租戶資源管理選擇最優(yōu)調(diào)度集群資源視圖CPU/MEM異構(gòu)芯片(獨(dú)占/共享)RDMA自定義資源配額管理資源調(diào)度03
大模型場(chǎng)景技術(shù)實(shí)踐應(yīng)用層17應(yīng)用——AIAK
訓(xùn)推加速算子優(yōu)化顯存優(yōu)化并行優(yōu)化算子優(yōu)化算子融合圖精簡(jiǎn)算子融合注意力機(jī)制優(yōu)化調(diào)度優(yōu)化模板化優(yōu)化顯存重算顯存卸載細(xì)粒度顯存切分?jǐn)?shù)據(jù)并行優(yōu)化張量并行優(yōu)化流水線并行優(yōu)化訪存密集型算子融合GEMM/Conv
長(zhǎng)尾運(yùn)算融合背靠背
GEMM 融合數(shù)學(xué)等價(jià)代換/死代碼移除量化/剪枝/蒸餾訓(xùn)練性能提升30%+推理性能提升60%+如何優(yōu)化訓(xùn)練和推理性能?兼容Llama2、ChatGLM2等20余種開源模型,一鍵部署,透明加速大模型訓(xùn)練加速鏡像 大模型推理加速鏡像訪存優(yōu)化如何提升訓(xùn)練穩(wěn)定性?18應(yīng)用——訓(xùn)練容錯(cuò)基礎(chǔ)設(shè)施穩(wěn)定性硬件故障快速感知硬件端到端上線預(yù)檢測(cè)節(jié)點(diǎn)熱維修/秒級(jí)冷遷移恢復(fù)調(diào)度容錯(cuò)效率任務(wù)異常快速感知重調(diào)度容錯(cuò)鏡像/數(shù)據(jù)緩存加速框架容錯(cuò)代價(jià)Ckpt
存儲(chǔ)加速異步Ckpt加速×(任務(wù)故障恢復(fù)時(shí)長(zhǎng)+任務(wù)故障重算時(shí)長(zhǎng))
+
任務(wù)常態(tài)任務(wù)無效訓(xùn)練時(shí)間
=
故障中斷次數(shù)寫Ckpt總時(shí)長(zhǎng)??降低節(jié)點(diǎn)故障率提升故障感知召回率??提升調(diào)度效率降低節(jié)點(diǎn)MTTR降低Ckpt時(shí)長(zhǎng),縮短Ckpt間隔周期分布式Ckpt加速主流框架/分布式庫,打開開關(guān)即可容錯(cuò)Pytorch…PaddlePaddleDeepspeedMegatron19應(yīng)用——Flash
CheckpointFlash
CKPT
并行內(nèi)存寫入,
快速完成checkpoint操作,提升整體有效訓(xùn)練時(shí)長(zhǎng)。業(yè)務(wù)可制定更細(xì)粒度的檢查點(diǎn)策略,從而降低故障恢復(fù)時(shí)間1秒千億大模型CKPT寫入3小時(shí)每日節(jié)省有效訓(xùn)練時(shí)長(zhǎng)MemoryNVME
SSD同步close流式分塊上傳遠(yuǎn)端對(duì)象存儲(chǔ)等待last
part訓(xùn)練框架同步寫Memory加速層小時(shí)級(jí)CKPT,容錯(cuò)恢復(fù)時(shí)間長(zhǎng)秒級(jí)CKPT,更細(xì)粒度的打點(diǎn)恢復(fù)Memory異步
close并行文件存儲(chǔ)PFS訓(xùn)練框架同步寫Memory加速層分布式,異步寫有效訓(xùn)練時(shí)間有效訓(xùn)練時(shí)間Checkpoint
等待Checkpoint
等待如何降低
Checkpoint
時(shí)間?Checkpoint
容錯(cuò)機(jī)制帶來了計(jì)算時(shí)間片浪費(fèi)傳統(tǒng)方案FlashCKPT03
大模型場(chǎng)景技術(shù)實(shí)踐運(yùn)維21運(yùn)維目標(biāo)運(yùn)維目標(biāo)故障處理容量管理&優(yōu)化任務(wù)性能調(diào)優(yōu)集群資源視圖(集群資源概覽,利用率、分配率變化&趨勢(shì),任務(wù)資源概覽)節(jié)點(diǎn)資源視圖(節(jié)點(diǎn)資源詳情、GPU分配/利用分析)任務(wù)資源視圖(任務(wù)資源詳情、GPU使用分析、Pod分配情況)任務(wù)性能大盤(訓(xùn)推吞吐指標(biāo),任務(wù)并行策略、性能關(guān)聯(lián)參數(shù))任務(wù)收斂監(jiān)控&告警(監(jiān)控任務(wù)loss收斂情況,異常報(bào)警)分階段指標(biāo)(診斷訓(xùn)練分階段耗時(shí),助力訓(xùn)練性能調(diào)優(yōu))任務(wù)告警(變更告警、故障告警、閾值告警)任務(wù)穩(wěn)定性大盤(任務(wù)關(guān)聯(lián)的節(jié)點(diǎn)、組件,配套服務(wù)健康情況)發(fā)現(xiàn)快速定位根因排查(集群、任務(wù)事件,任務(wù)運(yùn)行日志)根因排查智能排障建議(基于大模型的智能故障分析)輔助止損故障定位時(shí)間小時(shí)級(jí)->分鐘級(jí)發(fā)現(xiàn)資源瓶頸提升分配/利用率發(fā)現(xiàn)任務(wù)性能瓶頸,避免空跑可觀測(cè)能力03
大模型場(chǎng)景技術(shù)實(shí)踐百度百舸架構(gòu)和演進(jìn)23智算平臺(tái)架構(gòu)百度百舸大模型任務(wù)增強(qiáng)百舸資源池CCE
K8S集群A800/H800/昆侖/升騰異構(gòu)算力高性能分布式存儲(chǔ)PFS 萬卡RDMA網(wǎng)絡(luò)百舸組件98.8%有效訓(xùn)練時(shí)長(zhǎng)30%訓(xùn)練吞吐提升60%推理吞吐提升95%帶寬有效性大模型IO加速方案Flash
Checkpoint大鏡像預(yù)加載大規(guī)模鏡像P2P加速大模型訓(xùn)推任務(wù)加速鏡像開源大模型定制優(yōu)化高性能算子高效顯存利用高效并行策略高性能訓(xùn)推框架AI基礎(chǔ)組件異構(gòu)資源調(diào)度高性能存儲(chǔ)插件高性能網(wǎng)絡(luò)插件AI編排調(diào)度深度學(xué)習(xí)框架AI
任務(wù)編排任務(wù)工作流管理多維故障感知自動(dòng)任務(wù)容錯(cuò)通信測(cè)試工具穩(wěn)定性&容錯(cuò)
可觀測(cè)大盤集群資源視圖任務(wù)穩(wěn)定性大盤性能監(jiān)控&調(diào)優(yōu)24百度百舸發(fā)展歷程百舸1.0AI基礎(chǔ)設(shè)施產(chǎn)品化百舸2.0AI基礎(chǔ)設(shè)施云原生化AI硬核能力積累支撐百度核心業(yè)務(wù)發(fā)展視覺&自然語言處理自動(dòng)駕駛&生命科學(xué)百舸3.0一站式大模型算力平臺(tái)大模型新業(yè)態(tài)百度十年AI實(shí)踐20212022太行.彈性裸金屬滄海.高性能存儲(chǔ)AI容器服務(wù)X-MAN
超級(jí)AI服務(wù)器RDMA高性能網(wǎng)絡(luò)孔明超級(jí)計(jì)算集群云原生作業(yè)調(diào)度GPU容器虛擬化通信&算子加速2023AIA
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度旅游度假居間服務(wù)合作協(xié)議4篇
- 2025年版人工智能技術(shù)研發(fā)與應(yīng)用服務(wù)合同樣本3篇
- 股權(quán)轉(zhuǎn)讓協(xié)議(二零二五年度):含有連鎖酒店經(jīng)營權(quán)的轉(zhuǎn)讓3篇
- 2025年度跨境電商平臺(tái)知識(shí)產(chǎn)權(quán)保護(hù)及合作框架協(xié)議2篇
- 二零二五年度高端建筑深井降水施工合作協(xié)議2篇
- 2025年度跨境電子商務(wù)平臺(tái)服務(wù)貿(mào)易三方合作協(xié)議4篇
- 2025年度互聯(lián)網(wǎng)數(shù)據(jù)中心租賃合同網(wǎng)絡(luò)服務(wù)保障補(bǔ)充4篇
- 二零二五年度森林資源保護(hù)與綠化工程合同范本4篇
- 2025年消防設(shè)施安裝與消防安全應(yīng)急預(yù)案編制合同3篇
- 2025集裝箱租賃合同范本
- 小學(xué)四年級(jí)數(shù)學(xué)知識(shí)點(diǎn)總結(jié)(必備8篇)
- GB/T 893-2017孔用彈性擋圈
- GB/T 11072-1989銻化銦多晶、單晶及切割片
- GB 15831-2006鋼管腳手架扣件
- 醫(yī)學(xué)會(huì)自律規(guī)范
- 商務(wù)溝通第二版第4章書面溝通
- 950項(xiàng)機(jī)電安裝施工工藝標(biāo)準(zhǔn)合集(含管線套管、支吊架、風(fēng)口安裝)
- 微生物學(xué)與免疫學(xué)-11免疫分子課件
- 《動(dòng)物遺傳育種學(xué)》動(dòng)物醫(yī)學(xué)全套教學(xué)課件
- 弱電工程自檢報(bào)告
- 民法案例分析教程(第五版)完整版課件全套ppt教學(xué)教程最全電子教案
評(píng)論
0/150
提交評(píng)論