天翼云-大規(guī)模智算集群的管理與性能調(diào)優(yōu)實踐2024_第1頁
天翼云-大規(guī)模智算集群的管理與性能調(diào)優(yōu)實踐2024_第2頁
天翼云-大規(guī)模智算集群的管理與性能調(diào)優(yōu)實踐2024_第3頁
天翼云-大規(guī)模智算集群的管理與性能調(diào)優(yōu)實踐2024_第4頁
天翼云-大規(guī)模智算集群的管理與性能調(diào)優(yōu)實踐2024_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

天翼云云網(wǎng)產(chǎn)品事業(yè)部研發(fā)專家黃堅重點關注:?AI智算平臺研發(fā)工作?大規(guī)模智算集群的性能診斷和調(diào)優(yōu)?大規(guī)模智算集群的痛點問題?運維及管理實戰(zhàn)思路和方案?云驍智算平臺及落地實踐?大規(guī)模智算集群的痛點問題?運維及管理實戰(zhàn)思路和方案?云驍智算平臺及落地實踐大模型分布式訓練模型并行模型并行大模型分布式訓練模型并行模型并行算力標準化程度非常高智算集群工程化交付1.1設計文檔獲取1.2IP1.1設計文檔獲取1.2IP資源獲取1.4集成規(guī)范解讀1.5集成方案輸出1.4集成規(guī)范解讀1.5集成方案輸出1.6LLD輸出1.3初始化要求獲取22安裝與初始化2.2保壓測試2.32.2保壓測試2.3設備上電2.4配置項梳理2.5固件升級2.6BIOS配置2.7BMC配置2.8BIOS配置項檢查2.9BIOS密碼配置★2.10廠商名檢查★2.11設備型號名檢查★2.12序列號收集2.13壓測環(huán)境搭建2.14硬件壓測2.15壓測報告解讀2.1設備安裝與上架33部署調(diào)測3.1管理交換機配置3.163.1管理交換機配置3.16線纜檢查★3.2NPUOS安裝3.3網(wǎng)卡驅(qū)動安裝3.4Raid卡驅(qū)動升級3.5業(yè)務交換機配置3.6ROCE交換機配置3.7交換機配置校驗3.8普通網(wǎng)卡配置3.9NPU軟件棧安裝3.10NPU網(wǎng)絡配置3.11DPUrshim安裝3.12DPU網(wǎng)絡配置3.13HPFSOS安裝3.14磁盤陣列配置3.15OS配置項檢查4集群驗證★4.1配置檢查★4.2單機綜合測試4.3綜合測試項整改4.4單機模型訓練測試4.5集合通信測試4.6集群模型訓練測試5集群優(yōu)化5.1物理鏈路檢查5.2性能瓶頸分析5.3網(wǎng)絡參數(shù)調(diào)整優(yōu)化66驗收整改6.1表格準備6.126.1表格準備6.12軟集完成6.2測試報告準備★6.3表格導入云調(diào)系統(tǒng)6.4自動化預驗收6.5自動驗收項整改6.6自動驗收通過6.7專業(yè)組驗收6.8專業(yè)組驗收項整改6.9云調(diào)結單6.10軟集驗收組驗收6.11軟集問題整改★★★★需特別關注點關鍵節(jié)點難點大集群等于大算力?萬卡集群萬卡集群智算中心運行時長低AI算力3000P+萬光纖萬光模塊臺存儲服務器根個萬光纖萬光模塊臺存儲服務器根個AI加速卡AI服務器網(wǎng)絡交換機最大程度發(fā)揮算力的挑戰(zhàn)?大規(guī)模智算集群的痛點問題?運維及管理實戰(zhàn)思路和方案?云驍智算平臺及落地實踐集群性能-單機配置正確性檢查?transformer版本集群性能-集群軟硬件一致性集群性能-健康檢查解決硬件解決硬件異常問題?業(yè)務網(wǎng)口狀態(tài)檢查集群穩(wěn)定性-算力網(wǎng)絡拓撲展示訓練任務的告警拓撲展示隨時了解訓練任務的健康狀態(tài)服務器、交換機的告警染色的拓撲形態(tài)呈現(xiàn)隨時隨地了解智算集群健康狀態(tài)裸金屬訓中觀測-核心指標解析丈量開源大模型不同算力的性能表現(xiàn)模型訓練基線模型訓練基線?大規(guī)模智算集群的痛點問題?運維及管理實戰(zhàn)思路和方案?云驍智算平臺及落地實踐集“異構計算+高速存儲+無損網(wǎng)絡+算力加速+高效運營”五大能云驍-計算加速平臺集群管理算力加速故障診斷 高性能存儲高性能網(wǎng)絡高性能算力底座 高性能存儲高性能網(wǎng)絡異構計算異構計算云驍智算平臺-集群穩(wěn)定性保障覆蓋算力、存儲、網(wǎng)絡、平臺各層次,可支撐大模型訓練推理的全國產(chǎn)智算基礎設施平臺,國內(nèi)最早提供大?自研TeleCloudOS完全替代openStack?具備一云多芯超大規(guī)模信創(chuàng)資源池管理和智能調(diào)度能力?基于國產(chǎn)GPU實現(xiàn)智算訓練、推理服務能力和超算能力?自研RDMA網(wǎng)絡和存儲技術,打造高性能的信創(chuàng)算力底座?性能深度優(yōu)化,SPECCloud性能測試中多項指標測評分數(shù)全球領先?自研分布式存儲引擎LAVA,替代開源Ceph存儲;推出新一代云硬盤XSSD,提供百萬IOPS、小于100微秒時延?大規(guī)模智算集群的痛點問題?

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論