大規(guī)模智算集群的管理與性能調(diào)優(yōu)實(shí)踐_第1頁
大規(guī)模智算集群的管理與性能調(diào)優(yōu)實(shí)踐_第2頁
大規(guī)模智算集群的管理與性能調(diào)優(yōu)實(shí)踐_第3頁
大規(guī)模智算集群的管理與性能調(diào)優(yōu)實(shí)踐_第4頁
大規(guī)模智算集群的管理與性能調(diào)優(yōu)實(shí)踐_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

?大規(guī)模智算集群的痛點(diǎn)問題?運(yùn)維及管理實(shí)戰(zhàn)思路和方案?云驍智算平臺及落地實(shí)踐大模型分布式訓(xùn)練模型并行模型并行大模型分布式訓(xùn)練模型并行模型并行算力標(biāo)準(zhǔn)化程度非常高智算集群工程化交付1.1設(shè)計(jì)文檔獲取1.2IP1.1設(shè)計(jì)文檔獲取1.2IP資源獲取1.4集成規(guī)范解讀1.5集成方案輸出1.4集成規(guī)范解讀1.5集成方案輸出1.6LLD輸出1.3初始化要求獲取22安裝與初始化2.2保壓測試2.32.2保壓測試2.3設(shè)備上電2.4配置項(xiàng)梳理2.5固件升級2.6BIOS配置2.7BMC配置2.8BIOS配置項(xiàng)檢查2.9BIOS密碼配置★2.10廠商名檢查★2.11設(shè)備型號名檢查★2.12序列號收集2.13壓測環(huán)境搭建2.14硬件壓測2.15壓測報(bào)告解讀2.1設(shè)備安裝與上架33部署調(diào)測3.1管理交換機(jī)配置3.163.1管理交換機(jī)配置3.16線纜檢查★3.2NPUOS安裝3.3網(wǎng)卡驅(qū)動安裝3.4Raid卡驅(qū)動升級3.5業(yè)務(wù)交換機(jī)配置3.6ROCE交換機(jī)配置3.7交換機(jī)配置校驗(yàn)3.8普通網(wǎng)卡配置3.9NPU軟件棧安裝3.10NPU網(wǎng)絡(luò)配置3.11DPUrshim安裝3.12DPU網(wǎng)絡(luò)配置3.13HPFSOS安裝3.14磁盤陣列配置3.15OS配置項(xiàng)檢查4集群驗(yàn)證★4.1配置檢查★4.2單機(jī)綜合測試4.3綜合測試項(xiàng)整改4.4單機(jī)模型訓(xùn)練測試4.5集合通信測試4.6集群模型訓(xùn)練測試5集群優(yōu)化5.1物理鏈路檢查5.2性能瓶頸分析5.3網(wǎng)絡(luò)參數(shù)調(diào)整優(yōu)化66驗(yàn)收整改6.1表格準(zhǔn)備6.126.1表格準(zhǔn)備6.12軟集完成6.2測試報(bào)告準(zhǔn)備★6.3表格導(dǎo)入云調(diào)系統(tǒng)6.4自動化預(yù)驗(yàn)收6.5自動驗(yàn)收項(xiàng)整改6.6自動驗(yàn)收通過6.7專業(yè)組驗(yàn)收6.8專業(yè)組驗(yàn)收項(xiàng)整改6.9云調(diào)結(jié)單6.10軟集驗(yàn)收組驗(yàn)收6.11軟集問題整改★★★★需特別關(guān)注點(diǎn)關(guān)鍵節(jié)點(diǎn)難點(diǎn)大集群等于大算力?萬卡集群萬卡集群智算中心運(yùn)行時(shí)長低AI算力3000P+萬光纖萬光模塊臺存儲服務(wù)器根個(gè)萬光纖萬光模塊臺存儲服務(wù)器根個(gè)AI加速卡AI服務(wù)器網(wǎng)絡(luò)交換機(jī)最大程度發(fā)揮算力的挑戰(zhàn)?大規(guī)模智算集群的痛點(diǎn)問題?運(yùn)維及管理實(shí)戰(zhàn)思路和方案?云驍智算平臺及落地實(shí)踐集群性能-單機(jī)配置正確性檢查?transformer版本集群性能-集群軟硬件一致性集群性能-健康檢查解決硬件解決硬件異常問題?業(yè)務(wù)網(wǎng)口狀態(tài)檢查集群穩(wěn)定性-算力網(wǎng)絡(luò)拓?fù)湔故居?xùn)練任務(wù)的告警拓?fù)湔故倦S時(shí)了解訓(xùn)練任務(wù)的健康狀態(tài)服務(wù)器、交換機(jī)的告警染色的拓?fù)湫螒B(tài)呈現(xiàn)隨時(shí)隨地了解智算集群健康狀態(tài)裸金屬訓(xùn)中觀測-核心指標(biāo)解析丈量開源大模型不同算力的性能表現(xiàn)模型訓(xùn)練基線模型訓(xùn)練基線?大規(guī)模智算集群的痛點(diǎn)問題?運(yùn)維及管理實(shí)戰(zhàn)思路和方案?云驍智算平臺及落地實(shí)踐集“異構(gòu)計(jì)算+高速存儲+無損網(wǎng)絡(luò)+算力加速+高效運(yùn)營”五大能云驍-計(jì)算加速平臺集群管理算力加速故障診斷 高性能存儲高性能網(wǎng)絡(luò)高性能算力底座 高性能存儲高性能網(wǎng)絡(luò)異構(gòu)計(jì)算異構(gòu)計(jì)算云驍智算平臺-集群穩(wěn)定性保障覆蓋算力、存儲、網(wǎng)絡(luò)、平臺各層次,可支撐大模型訓(xùn)練推理的全國產(chǎn)智算基礎(chǔ)設(shè)施平臺,國內(nèi)最早提供大?自研TeleCloudOS完全替代openStack?具備一云多芯超大規(guī)模信創(chuàng)資源池管理和智能調(diào)度能力?基于國產(chǎn)GPU實(shí)現(xiàn)智算訓(xùn)練、推理服務(wù)能力和超算能力?自研RDMA網(wǎng)絡(luò)和存儲技術(shù),打造高性能的信創(chuàng)算力底座?性能深度優(yōu)化,SPECCloud性能測試中多項(xiàng)指標(biāo)測評分?jǐn)?shù)全球領(lǐng)先?自研分布式存儲引擎LAVA,替代開源Ceph存儲;推出新一代云硬盤XSSD,提供百萬IOPS、小于100微秒時(shí)延?大規(guī)模智算集群的痛點(diǎn)問題?運(yùn)維及

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論