




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
j百度智能云大模型場景下智算平j(luò)百度智能云j百度智能云2018我資源比較少,我資源比較少,幾十卡的規(guī)模,如何提升卡的利用率?20242j百度智能云大模型時代,智算平臺新特點(diǎn)智算平臺需解決的問題大模型場景技術(shù)實(shí)踐對于智算平臺發(fā)展的未來思考j百度智能云01大模型時代,智算平臺新特點(diǎn)j百度智能云大模型時代,智算平臺新特點(diǎn)j百度智能云工程問題工程問題$2150萬增強(qiáng):耗時長凸顯大模型訓(xùn)推加速需求$2150萬新增:成本高帶來穩(wěn)定性需求,減少資源閑置增強(qiáng):參數(shù)爆炸突破顯存墻,多機(jī)多卡成為常態(tài)新要求增強(qiáng):卡間和機(jī)間高性能通信愈發(fā)重要新要求維持:維持:GPU切分在小模型和推理場景依然存在新增:新卡適配和芯片利舊,多芯混合調(diào)度新增:數(shù)據(jù)湖存儲和高性能存儲5j百度智能云02智算平臺需解決的問題百度智能云智算平臺需解決的問題百度智能云資源管理任務(wù)管理基礎(chǔ)設(shè)施基礎(chǔ)設(shè)施7j百度智能云03大模型場景技術(shù)實(shí)踐j百度智能云j百度智能云9j百度智能云基礎(chǔ)設(shè)施——高性能存儲j百度智能云超大鏡像預(yù)加載P2P鏡像分發(fā)流式鏡像拉取SKP2P鏡像分發(fā)流式鏡像拉取SK MM高性能并行文件系統(tǒng)全高性能并行文件系統(tǒng)全SSD閃存RDMA鏈路加速托管BCC/BBC集群大吞吐數(shù)據(jù)湖存儲分布式緩存加速基礎(chǔ)設(shè)施——高性能網(wǎng)絡(luò)3層無收斂RDMA網(wǎng)絡(luò)512512j百度智能云TorTor拓?fù)涓兄{(diào)NCCLNCCL通信拓?fù)涓兄猨百度智能云03大模型場景技術(shù)實(shí)踐調(diào)度——GPU虛擬化j百度智能云j百度智能云調(diào)度——GPUj百度智能云優(yōu)勢:故障隔離好缺點(diǎn):有一定性能損耗14優(yōu)勢:故障隔離好缺點(diǎn):有一定性能損耗14缺點(diǎn):故障隔離差j百度智能云調(diào)度——資源管理和調(diào)度邏輯j百度智能云調(diào)度會話調(diào)度會話插件集合合占Binpack/Spread調(diào)度資源分配資源分配資源回收資源回收資源搶占資源搶占j百度智能云03大模型場景技術(shù)實(shí)踐應(yīng)用——AIAK訓(xùn)推加速j百度智能云大模型推理加速鏡像量化/剪枝/蒸餾數(shù)學(xué)等價代換/死代碼移除大模型推理加速鏡像量化/剪枝/蒸餾數(shù)學(xué)等價代換/死代碼移除大模型訓(xùn)練加速鏡像大模型訓(xùn)練加速鏡像品訓(xùn)練性能提升30%+百矢口應(yīng)用——訓(xùn)練容錯百矢口任務(wù)無效訓(xùn)練時間=任務(wù)無效訓(xùn)練時間=故障中斷次?提升調(diào)度效率??提升調(diào)度效率?降低節(jié)點(diǎn)MTTR?降低節(jié)點(diǎn)故障率(任務(wù)故障恢復(fù)時+任務(wù)故障重算時長)+任務(wù)常?提升故障感知召回率硬件故障快速感知硬件端到端上線預(yù)檢測節(jié)點(diǎn)熱維修/秒級冷遷移恢復(fù)任務(wù)異??焖俑兄卣{(diào)度容錯硬件故障快速感知硬件端到端上線預(yù)檢測節(jié)點(diǎn)熱維修/秒級冷遷移恢復(fù)任務(wù)異??焖俑兄卣{(diào)度容錯鏡像/數(shù)據(jù)緩存加速Ckpt存儲加速異步Ckpt加速分布式Ckpt加速…j百度智能云應(yīng)用——FlashCheckpointj百度智能云 FlashCKPTFlashCKPT訓(xùn)練框架訓(xùn)練框架訓(xùn)練框架訓(xùn)練框架yyyNVMENVMESSD加速層Memory加速層加速層Memory加速層分布式,異步寫checkpoint操作,提升整體有效訓(xùn)練時長。業(yè)務(wù)可制定更細(xì)粒度的檢查點(diǎn)策略,從而降低故障恢復(fù)時間3小時每日節(jié)省有效訓(xùn)練時長1秒千億大模型CKPT寫入j百度智能云03大模型場景技術(shù)實(shí)踐j百度智能云j百度智能云運(yùn)維目標(biāo)運(yùn)維目標(biāo)運(yùn)維目標(biāo)!故障處理容量管理&優(yōu)化故障處理容量管理&優(yōu)化任務(wù)性能調(diào)優(yōu)故障定位時間小時級->分鐘級發(fā)現(xiàn)資源瓶頸提升分配/利用率發(fā)現(xiàn)任務(wù)性能瓶頸,避免空跑j百度智能云03大模型場景技術(shù)實(shí)踐j百度智能云智算平臺架構(gòu)j百度智能云FlashCheckpointAI基礎(chǔ)設(shè)施云原生化一站式大模型算力平臺百度百舸發(fā)展歷程AI基礎(chǔ)設(shè)施云原生化一站式大模型算力平臺AI硬核能力積累百舸1.0AI基礎(chǔ)設(shè)施產(chǎn)品化器器33j百度智能云對智算平臺發(fā)展的一些思考智算平臺個人思考j百度智能云承上啟下,承
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大型凈水設(shè)備行業(yè)市場發(fā)展及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025年中國納稅管理行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略規(guī)劃建議報告
- 2025年城市基礎(chǔ)設(shè)施智慧感知及分析系統(tǒng)建設(shè)項目可行性研究報告
- 委托別人購房合同范本
- 2025年血糖試劑盒行業(yè)深度研究分析報告
- 2019-2025年中國幼教行業(yè)市場運(yùn)營現(xiàn)狀及投資規(guī)劃研究建議報告
- 2025年超靜能環(huán)保節(jié)能水箱項目投資可行性研究分析報告-20241226-201309
- 2025-2031年中國自動滅火器行業(yè)市場深度分析及投資規(guī)劃建議報告
- 2025年中國監(jiān)控網(wǎng)管軟件行業(yè)發(fā)展監(jiān)測及發(fā)展趨勢預(yù)測報告
- 2025年懸臂式掘進(jìn)機(jī)項目合作計劃書
- 統(tǒng)編版小學(xué)語文五年級下冊第四單元解讀與大單元設(shè)計思路
- 壓瘡護(hù)理質(zhì)控反饋
- 山東春季高考Photoshop考試復(fù)習(xí)題庫(含答案)
- 湖南省長沙市2023-2024學(xué)年八年級下學(xué)期入學(xué)考試英語試卷(附答案)
- 一年級美術(shù)課后輔導(dǎo)教案-1
- 智慧社區(qū)建設(shè)中的智能化醫(yī)療與康養(yǎng)服務(wù)
- 2023-2024年人教版八年級上冊數(shù)學(xué)期末模擬試卷(含答案)
- 數(shù)據(jù)采集管理制度范文
- 幼兒園小班開學(xué)家長會課件
- 中藥抗骨質(zhì)疏松作用
- 中建綜合支吊架施工方案
評論
0/150
提交評論