版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
C0NTENTS 01我國智算服務(wù)發(fā)展概述 1 1 3 4 02智算運維服務(wù)的挑戰(zhàn)與需求 6 62.2智算運維的需求 9 03智算運維的能力構(gòu)建 3.2智能化運維平臺 3.3組織與人才體系 3.4運維知識持續(xù)沉淀 04智算運維質(zhì)量評價指標(biāo)體系建設(shè) 4.2指標(biāo)模型構(gòu)建 05智算運維未來的發(fā)展趨勢 趨勢—:智算服務(wù)正成為綜合算力發(fā)展的關(guān)鍵要素 趨勢二:—體化智算運維將成為主流 趨勢三:液冷技術(shù)助力智算行業(yè)綠色低碳發(fā)展 趨勢四:算力資源—體化調(diào)度將成為趨勢 趨勢五:數(shù)據(jù)安全重要性日益凸顯 06智算運維最佳實踐 20 206.2科大訊飛智算運維最佳實踐 2501近年來,新—代人工智能快速發(fā)展,智算需求快速增長,智算基礎(chǔ)設(shè)施和智算服務(wù)的發(fā)展質(zhì)量已成為影響國家競爭力的關(guān)鍵因素之—。習(xí)近平總書記強(qiáng)調(diào),要加快新型基礎(chǔ)設(shè)施建設(shè),加強(qiáng)戰(zhàn)略布局,加快建設(shè)高速泛在、天地—體、云網(wǎng)融合、智能敏捷、綠色低碳、安全可控的智能化綜合性數(shù)字信息基礎(chǔ)設(shè)施,打通經(jīng)濟(jì)社會發(fā)展的信息“大動脈”。各部委和地方政府出臺多份鼓勵政策,支持智算經(jīng)濟(jì)高速發(fā)展。2023年10月,工業(yè)和信息化部等六部門發(fā)布《智算基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》,計劃提到“以構(gòu)建現(xiàn)代化基礎(chǔ)設(shè)施體系為目標(biāo),面向經(jīng)濟(jì)社會發(fā)展和國家重大戰(zhàn)略需求,穩(wěn)步提升算力綜合供給能力,著力強(qiáng)化運力高效承載,不斷完善存力靈活保障,持續(xù)增強(qiáng)算力賦能成效,全面推動算力綠色安全發(fā)展,為數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展注入新動能。2024年5月,國家發(fā)改委、國家數(shù)據(jù)局、財政部、自然資源部聯(lián)合印發(fā)《關(guān)于深化智慧城市發(fā)展推進(jìn)城市全域數(shù)字化轉(zhuǎn)型的指導(dǎo)意見》,意見指出“統(tǒng)籌推進(jìn)城市算力網(wǎng)建設(shè),實現(xiàn)城市算力需求與國家樞紐節(jié)點算力資源高效供需匹配,有效降低算力使用成本”。截至2024年12月,我國智算行業(yè)政策匯總信息如下(部分):11智算運維發(fā)展研究報告(2024)表—我國智算行業(yè)政策匯總信息發(fā)布時間發(fā)布單位政策文件重點內(nèi)容解讀2024.5國家發(fā)改委國家數(shù)據(jù)局財政部自然資源部《關(guān)于深化智慧城市發(fā)展推進(jìn)城市全域數(shù)字化轉(zhuǎn)型的指導(dǎo)意見》統(tǒng)籌推進(jìn)城市算力網(wǎng)建設(shè),實現(xiàn)城市算力需求與國家樞紐節(jié)點算力資源高效供需匹配,有效降低算力使用成本。2024.1工業(yè)和信息化部教育部科技部交通運輸部文化和旅游部國務(wù)院國資委中國科學(xué)院《關(guān)于推動未來產(chǎn)業(yè)創(chuàng)新發(fā)展的實施意見》推動下一代移動通信、衛(wèi)星互聯(lián)網(wǎng)、量子信息等技術(shù)產(chǎn)業(yè)化應(yīng)用,加快量子、光子等計算技術(shù)創(chuàng)新突破,加速類腦智能、群體智能、大模型等深度賦能。2023.12國家發(fā)展改革委國家數(shù)據(jù)局中央網(wǎng)信辦工業(yè)和信息化部國家能源局《關(guān)于深入實施“東數(shù)西算”工程加快構(gòu)建全國一體化智算網(wǎng)的實施意見》以算力高質(zhì)量發(fā)展賦能經(jīng)濟(jì)高質(zhì)量發(fā)展為主線,充分發(fā)揮全國一體化算力網(wǎng)絡(luò)國家樞紐節(jié)點(以下簡稱“國家樞紐節(jié)點”)引領(lǐng)帶動作用,協(xié)同推進(jìn)“東數(shù)西算”工程,形成跨地域、跨部門協(xié)同發(fā)展合力,統(tǒng)籌通用算力、智能算力、超級算力協(xié)同計算,東中西地區(qū)及大中小城市協(xié)同布局,算力、數(shù)據(jù)、算法協(xié)同應(yīng)用,算力和綠色電力協(xié)同建設(shè),算力發(fā)展和安全協(xié)同保障,構(gòu)建聯(lián)網(wǎng)調(diào)度、普惠易用、綠色安全的全國一體化算力網(wǎng),助力網(wǎng)絡(luò)強(qiáng)國、數(shù)字中國建設(shè),打造中國式現(xiàn)代化的數(shù)字基座。2023.12國家發(fā)展改革委國家數(shù)據(jù)局《數(shù)字經(jīng)濟(jì)促進(jìn)共同富裕實施方案》深入實施“東數(shù)西算”工程,加快推動全國一體化算力網(wǎng)建設(shè)。以8個國家算力樞紐、10個國家數(shù)據(jù)中心集群為抓手,立體化實施“東數(shù)西算”工程,深化算網(wǎng)融合,強(qiáng)化網(wǎng)絡(luò)支撐,推進(jìn)算力互聯(lián)互通,引導(dǎo)數(shù)據(jù)要素跨區(qū)域流通融合。2023.10工業(yè)和信息化部中央網(wǎng)絡(luò)安全和信息化委員會辦公室教育部國家衛(wèi)生健康委中國人民銀行國務(wù)院國資委《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》到2025年,計算力方面,算力規(guī)范超過300EFLOPS,智能算力占比達(dá)到35%,東西部算力平穩(wěn)協(xié)調(diào)發(fā)展。運載力方面,國家樞紐節(jié)點數(shù)據(jù)中心集群間基本實現(xiàn)不高于理論時延1.5倍的直連網(wǎng)絡(luò)傳輸,重點應(yīng)用場所光傳送網(wǎng)(OTN)覆蓋率達(dá)到80%,骨干網(wǎng)、城域網(wǎng)全面IPV6,SRV6等創(chuàng)新技術(shù)使用占比達(dá)到40%。2022.10國務(wù)院辦公廳《關(guān)于印發(fā)全國一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南的通知》合理利用全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系,完善政務(wù)大數(shù)據(jù)版圖管理措施,融合建設(shè)全國一體化政務(wù)大數(shù)據(jù)體系主節(jié)點與災(zāi)備設(shè)22智算運維發(fā)展研究報告(2024)1.2智算服務(wù)的技術(shù)和理念智算服務(wù)是—種通過整合計算資源(如GPU/NPU)、存儲資源、網(wǎng)絡(luò)資源,并結(jié)合人工智能算法、模型等,為用戶提供的用于處理復(fù)雜智能計算任務(wù)的服務(wù)。例如,在深度學(xué)習(xí)領(lǐng)域,企業(yè)或科研機(jī)構(gòu)可以運用智算服務(wù),快速進(jìn)行大規(guī)模的數(shù)據(jù)訓(xùn)練和模型推理,就像—智算服務(wù)整體架構(gòu)如圖—簡圖所示,涉及了從基礎(chǔ)設(shè)施層到Al模型應(yīng)用層等多個層面。旨在通過各層級服務(wù)的組合,實現(xiàn)整體智算中心運行效率的提高、維護(hù)成本的優(yōu)化,同時增強(qiáng)系統(tǒng)的擴(kuò)展性和靈活性。當(dāng)前,智算服務(wù)已經(jīng)邁過概念期,在互聯(lián)網(wǎng)、運營商、政府、金融等各行業(yè)得到了充分應(yīng)用,未來還將得到進(jìn)—步推廣。Al開發(fā)平臺AI應(yīng)用AI模型AI平臺AI基礎(chǔ)硬件Al框架圖—智算服務(wù)架構(gòu)圖33智算運維發(fā)展研究報告(2024)盡管智算服務(wù)為用戶提供了強(qiáng)大的計算支持,但其穩(wěn)定性和持續(xù)性輸出離不開智算運維的有效支撐。智算運維則專注于智算基礎(chǔ)設(shè)施及業(yè)務(wù)場景的維護(hù)和管理,通過對各層智算資源提供故障檢測、性能調(diào)優(yōu)等專業(yè)的維護(hù)和管理服務(wù),確保智算集群的長穩(wěn)運行,進(jìn)而實現(xiàn)智算運維的保障,—方面需要通過實施高可用架構(gòu)、全鏈路監(jiān)控、精細(xì)化管控、智能化運維等技術(shù)手段,優(yōu)化lT技術(shù)架構(gòu),實時監(jiān)測智算訓(xùn)練任務(wù)狀態(tài),及時發(fā)現(xiàn)潛在問題,快速重提恢復(fù)故障,保障智算集群的持續(xù)高效運行。另—方面,需要強(qiáng)化智算訓(xùn)練業(yè)務(wù)部門與運維部門之間的緊密協(xié)作,實現(xiàn)數(shù)據(jù)拉通、流程貫通、信息暢通,有效提升智算訓(xùn)練任務(wù)的整體效率和質(zhì)量,促進(jìn)運維管理的高效化、智能化和協(xié)同化。1.3智算服務(wù)的意義隨著人工智能、大數(shù)據(jù)等技術(shù)的不斷發(fā)展,大模型加速向垂直行業(yè)和領(lǐng)域滲透,智算市場將繼續(xù)保持高增長態(tài)勢。據(jù)工信部等六部門聯(lián)合印發(fā)的《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》發(fā)展目標(biāo),我國2023-2025年算力規(guī)模復(fù)合增長率預(yù)計達(dá)到18.5%,2024年新增算力規(guī)模將接近40EFIoPs,算力核心產(chǎn)業(yè)規(guī)模有望突破2.4萬億元。智算服務(wù)已成為數(shù)字經(jīng)濟(jì)增長、帶動數(shù)字產(chǎn)業(yè)化發(fā)展、助推產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型升級的新引擎,全球技術(shù)戰(zhàn)略競爭中的新高全球各國智算規(guī)模與經(jīng)濟(jì)發(fā)展水平密切相關(guān),經(jīng)濟(jì)發(fā)展水平越高,智算規(guī)模越大。據(jù)中國信息通信研究院發(fā)布的《中國算力發(fā)展指數(shù)白皮書(2023)》,算力每投入1元,將帶動3~4元的經(jīng)濟(jì)產(chǎn)出。由智算帶來的數(shù)字化智能技術(shù)不僅為制造、交通、零售等多個行業(yè)帶來產(chǎn)業(yè)產(chǎn)值增長,還帶來了生產(chǎn)效率提升、商業(yè)模式創(chuàng)新、用戶體驗優(yōu)化等延伸性效益,對經(jīng)在數(shù)字經(jīng)濟(jì)大環(huán)境下,智算運維基于業(yè)務(wù)價值出發(fā),可大幅提升模型算力利用率、任務(wù)算力使用率、任務(wù)算力可用度、集群算力可用度以及任務(wù)有效訓(xùn)練時間,從多個維度發(fā)揮智算運維價值。智算運維可保障模型訓(xùn)練任務(wù)長期穩(wěn)定,利用數(shù)智化思維重塑服務(wù)保障職能。此外,智算運維還可針對影響智算訓(xùn)練時長的節(jié)點進(jìn)行分解,量化評估節(jié)點的有效性及運作44智算運維發(fā)展研究報告(2024)質(zhì)量,再以量化指標(biāo)及工作流程機(jī)制驅(qū)動智算服務(wù)組織能力提升、流程協(xié)同機(jī)制及工具完善,持續(xù)提升智算業(yè)務(wù)算力可用度。當(dāng)前智算業(yè)務(wù)對于運維的要求不僅是訓(xùn)練任務(wù)不中斷,還要求能夠在業(yè)務(wù)部門發(fā)現(xiàn)問題前更早地識別并解決問題,加強(qiáng)業(yè)務(wù)系統(tǒng)的訓(xùn)練作業(yè)、性能管理,提升服務(wù)響應(yīng)效率。智算運維不但要自下而上地解決基礎(chǔ)設(shè)施的運維保障能力,還要從大模型訓(xùn)練任務(wù)視角出發(fā),即從訓(xùn)練任務(wù)入手,將提升智算可持續(xù)訓(xùn)練時長作為首要任務(wù),“自上而下”地對AI應(yīng)用、AI模型及AI基礎(chǔ)軟件、基礎(chǔ)硬件等資源,實現(xiàn)端到端的穿透,保障智算業(yè)務(wù)的用戶粘性和整體55022.1智算運維的挑戰(zhàn)隨著智算服務(wù)不斷深入,智算場景下的運維服務(wù)也面臨著多方面的變化,如技術(shù)層面的自動化與智能化,服務(wù)流程層面的流程重構(gòu),資源管理層面的資源池化管理以及資源動態(tài)調(diào)度等。多樣化的智能場景也需要多元化的算力,以AIGC(ArtificiaIInteIIigenceGeneratedContent,生成式人工智能)為代表的人工智能應(yīng)用、大模型訓(xùn)練等新應(yīng)用、新需求的快速崛起都對運維保障提出了更高要求。因此,智算運維面臨著算力使用效率、故障管理難度、資源監(jiān)控精度、資源需求匹配難度、全局可觀測性和運維沉沒成本等多方面的挑戰(zhàn)。企業(yè)亟需通過健全智算運維體系、規(guī)范智算運維指標(biāo)、建立跨部門協(xié)作機(jī)制等方式,進(jìn)—步保障智(一)算力利用率低從模型層面來看,算力利用率(MFU,ModeIFL0PsUtiIization)是指模型訓(xùn)練過程中每秒實際消耗的算力(FL0Ps)與機(jī)器理論算力之間的比值,是衡量該訓(xùn)練任務(wù)對計算資源的使用效率。在AI訓(xùn)練過程中,由于各訓(xùn)練步驟之間需要強(qiáng)同步,任何硬件故障都可能導(dǎo)致同步失敗,進(jìn)而使訓(xùn)練任務(wù)失敗,同時受限于芯片架構(gòu)、內(nèi)存和I/0(Input/0utput)訪問瓶頸等因素,導(dǎo)致模型的算力利用率較低。從集群層面來看,集群線性加速比(CIusterLinearscaIingorLinearspeedup)指出,隨著集群規(guī)模的擴(kuò)大,集群的計算能力和支持的參數(shù)規(guī)模不斷增大,但由于受到節(jié)點間通信能力、并行訓(xùn)練框架、算法調(diào)優(yōu)等因素影響,無法直接帶來集群有效算力的線性提升。66智算運維發(fā)展研究報告(2024)因此,對于智算集群使用者和穩(wěn)定性看護(hù)者而言,需要系統(tǒng)性地制定優(yōu)化措施和運維服務(wù)能力,提升模型算力利用率及集群算力可用度,從而保障集群的穩(wěn)定運行和高效輸出。(二)故障管理難度大相對于通算場景,智算集群存在單鏈路無冗余、低時延高帶寬、瞬時負(fù)載激增等特點,存在單節(jié)點故障引發(fā)全局故障的問題。同時,萬卡甚至萬卡以上的更大集群由數(shù)千臺/上萬臺智算服務(wù)器、交換機(jī)、存儲設(shè)備以及數(shù)萬根甚至十萬根以上的光纖構(gòu)成,訓(xùn)練任務(wù)涉及千萬顆元器件滿負(fù)荷高速運轉(zhuǎn),基于固有的元器件硬件失效率和海量的器件規(guī)模帶來硬件故障頻發(fā);并且智算集群故障類型極其復(fù)雜,定界定位較困難,且故障發(fā)生后訓(xùn)練恢復(fù)的過程慢,檢查點(Checkpoint,CKPT)加載時間長、故障處置過程耗時,導(dǎo)致整體故障管理難度大。故障定位方面,—是智算系統(tǒng)架構(gòu)復(fù)雜,包含眾多的硬件如高性能服務(wù)器、存儲設(shè)備,軟件包括操作系統(tǒng)、深度學(xué)習(xí)框架等諸多組件。故障發(fā)生時,很難迅速判斷是硬件還是軟件引發(fā)的問題。二是大模型訓(xùn)練任務(wù)流量模型復(fù)雜、通信鏈路長,故障類型包含訓(xùn)練卡頓、Loss訓(xùn)飛(損失函數(shù)的值突然變大,導(dǎo)致模型無法正常收斂)等諸多種類,—個故障可能是由某個數(shù)據(jù)節(jié)點異常、計算過程中的參數(shù)錯誤或者網(wǎng)絡(luò)傳輸中斷等多種因素導(dǎo)致。這些因素相互交織,且故障可能會在系統(tǒng)內(nèi)傳播,使得運維人員很難精準(zhǔn)地定位故障的源頭。故障處置方面,以光模塊為例,智算場景對于光模塊的潔凈度要求高,在運維過程中,需使用端面檢測儀等設(shè)備對光模塊進(jìn)行潔凈度檢查,若檢測結(jié)果不符合標(biāo)準(zhǔn),需通過專用清潔筆進(jìn)行臟污清理,整個處置過程不僅耗時、耗力,而且要求極為精細(xì)、小心。(三)監(jiān)控精度不足在智算場景中,對網(wǎng)絡(luò)流量的精度要求也極為嚴(yán)格。傳統(tǒng)網(wǎng)絡(luò)設(shè)備流量監(jiān)控以SNMP協(xié)議為主,通常只能精確到秒級,而在大模型訓(xùn)練過程中,計算與通信兩階段交替進(jìn)行,任何細(xì)微的波動都可能影響模型的表現(xiàn)。例如在深度學(xué)習(xí)中,如果模型損失值突然在毫秒內(nèi)急劇上升,可能會導(dǎo)致梯度爆炸等問題,此時,必須迅速捕捉到流量的微小波動,并做出及時的調(diào)整,否則將錯失調(diào)整機(jī)會,導(dǎo)致模型訓(xùn)練失敗或效果不佳。如果做不到流量波形變化以毫秒為單位來統(tǒng)計,就會導(dǎo)致監(jiān)控結(jié)果失真和錯位,進(jìn)而影響問題的準(zhǔn)確診斷和快速響應(yīng)。此77智算運維發(fā)展研究報告(2024)外,光模塊在長期運行過程中,性能會逐步衰退進(jìn)入亞健康狀態(tài),并且其故障特征多種多樣,這些因素共同加劇了網(wǎng)絡(luò)設(shè)備流量監(jiān)測的復(fù)雜性,進(jìn)—步影響了Al集群的訓(xùn)練效率和任(四)資源需求匹配復(fù)雜智算資源與上層業(yè)務(wù)的匹配也面臨著挑戰(zhàn)?!矫?智算集群通常包含多種復(fù)雜的計算資源,如NPU、GPU等高性能計算單元,它們在處理不同類型的任務(wù)時具有不同的性能要求和資源需求。然而,由于不同智算任務(wù)之間對計算、存儲、帶寬等資源的需求差異巨大,資源與任務(wù)的精準(zhǔn)匹配變得異常困難。在任務(wù)調(diào)度過程中,往往難以做到資源的最優(yōu)配置,導(dǎo)致大量資源的分配不合理。另—方面,企業(yè)在智算資源的配置和管理上缺乏長遠(yuǎn)的規(guī)劃和合理的資源使用模式,這使得資源的配置往往呈現(xiàn)過度配置的現(xiàn)象。尤其是在面對大規(guī)模、高復(fù)雜度的計算任務(wù)時,企業(yè)傾向于預(yù)留更多的資源來應(yīng)對潛在的需求峰值,但這種超前配置往往無法靈活響應(yīng)實際需求,導(dǎo)致了大量資源處于空閑或低負(fù)載狀態(tài)。(五)全局可觀測性不足由于智算系統(tǒng)本身的復(fù)雜性,它不僅涉及大量的硬件組件(如NPU、GPU、存儲設(shè)備等)、軟件組件(如操作系統(tǒng)、深度學(xué)習(xí)框架等),還有龐大的網(wǎng)絡(luò)架構(gòu),這些組成部分彼此交織、協(xié)同工作,形成—個高度復(fù)雜的生態(tài)系統(tǒng)。在這種復(fù)雜環(huán)境下,傳統(tǒng)的觀測工具和手段往往無法全面覆蓋系統(tǒng)中的所有組件和數(shù)據(jù)流,從而導(dǎo)致全局可觀測性缺失,對問題的定位和修復(fù)變得異常困難。例如,數(shù)據(jù)在多個節(jié)點間流動,若某—節(jié)點性能下降,由于缺乏足夠的全局可觀測性,很難快速判斷是硬件故障、軟件沖突還是網(wǎng)絡(luò)延遲導(dǎo)致的,從而造成故障修復(fù)延遲,影響整個智算集群的高效運行。(六)運維沉沒成本高昂大模型的參數(shù)從百億到千億再到萬億,帶動大模型算力的整體需求快速增長,伴隨著千卡、萬卡、十萬卡的超大規(guī)模智算集群出現(xiàn),模型能力從長序列,M0E、向多模態(tài)演進(jìn),將來帶動持續(xù)的算力需求投資。但是,隨著集群規(guī)模越大,硬件設(shè)備的問題密度大,—個關(guān)88智算運維發(fā)展研究報告(2024)鍵器件的失效,如光模塊、光鏈路、NPU卡等,都會造成訓(xùn)練任務(wù)中斷,龐大的數(shù)據(jù)集和高性能的計算資源損失,導(dǎo)致付出高昂的沉沒成本。如何提高運維效率、提升集群效益是關(guān)注2.2智算運維的需求(一)智算經(jīng)濟(jì)亟需體系化的智算服務(wù)及運維能力支撐數(shù)字經(jīng)濟(jì)時代,企業(yè)不斷提升智算軟硬件投入,以強(qiáng)化自身的智算業(yè)務(wù)能力,中國企業(yè)智算支出水平大幅度上升。企業(yè)對智算設(shè)備的高額投入,帶來了豐富的面向智算資源的運維需求。同時,在智算數(shù)字經(jīng)濟(jì)運營的需求下,智算軟件的增加也創(chuàng)造了豐富的應(yīng)用運維需求,企業(yè)可結(jié)合自身的業(yè)務(wù)和信息架構(gòu)狀況設(shè)置個性化的智算運維體系。從智算業(yè)務(wù)發(fā)展需求來看,完善智算運維體系建設(shè),已成為推動企業(yè)智算大模型業(yè)務(wù)持續(xù)發(fā)展的必由之路。隨著大數(shù)據(jù)、人工智能等技術(shù)的廣泛應(yīng)用,用戶對智算資源的需求和長期穩(wěn)定保障的要求不斷攀升。為適應(yīng)基礎(chǔ)架構(gòu)和智算業(yè)務(wù)形式的不斷演變,企業(yè)亟需建立系統(tǒng)化的智算運維體系,以有效引導(dǎo)和支撐運維工作,提升智算運維能力,確保智算中心在高效能和穩(wěn)定性方面始終處于最佳狀態(tài),滿足智算業(yè)務(wù)高速發(fā)展的戰(zhàn)略需求。(二)智算運維指標(biāo)亟需系統(tǒng)化標(biāo)準(zhǔn)化的統(tǒng)一管理在數(shù)字經(jīng)濟(jì)時代大背景下,企業(yè)對于智算服務(wù)依賴性日益增強(qiáng),以智算服務(wù)所產(chǎn)生的數(shù)據(jù)為基礎(chǔ)進(jìn)行經(jīng)營決策已成為常態(tài)。通過對智算服務(wù)數(shù)據(jù)指標(biāo)的深入分析,企業(yè)能夠精準(zhǔn)洞察商業(yè)場景,并實現(xiàn)決策落地。因此,迫切需要—套系統(tǒng)化、標(biāo)準(zhǔn)化的智算運維指標(biāo)管理體系,以高效提升智算訓(xùn)練任務(wù)的持續(xù)性,并為業(yè)務(wù)決策提供有力支撐。智算運維指標(biāo)體系的建設(shè)將圍繞智算運維的關(guān)鍵能力要素強(qiáng)化與智算業(yè)務(wù)戰(zhàn)略目標(biāo)—致性,實時洞察智算業(yè)務(wù)運營狀態(tài),激發(fā)智算業(yè)務(wù)增長潛能,有效規(guī)避潛在風(fēng)險,保持智算訓(xùn)練業(yè)務(wù)競爭優(yōu)勢。(三)智算運維需要訓(xùn)練作業(yè)保障和基礎(chǔ)設(shè)施保障緊密協(xié)同智算服務(wù)部門的價值不再限于面向設(shè)備的運維服務(wù),而是能夠透過智算運行數(shù)據(jù),洞察99智算運維發(fā)展研究報告(2024)企業(yè)智算業(yè)務(wù)拓展和內(nèi)部管理存在的不足,幫助改善智算訓(xùn)練質(zhì)量和業(yè)務(wù)管理水平,實現(xiàn)智算服務(wù)技術(shù)與訓(xùn)練業(yè)務(wù)的融合。智算運維的保障需要基礎(chǔ)設(shè)施運維部門與大模型業(yè)務(wù)部門協(xié)力共建,確保雙方的—致性,通過共同制定業(yè)務(wù)計劃,促進(jìn)技術(shù)與業(yè)務(wù)的緊密合作。定期組織跨技術(shù)與業(yè)務(wù)的部門會議,分享業(yè)務(wù)進(jìn)展、技術(shù)動態(tài)和市場需求,確保雙方信息暢通,鼓勵基礎(chǔ)設(shè)施運維服務(wù)人員和智算訓(xùn)練業(yè)務(wù)人員互相參與對方的工作,以便更好地了解雙方的需求和挑戰(zhàn)。建立跨職能項目團(tuán)隊,將運維服務(wù)人員和大模型業(yè)務(wù)人員組合在—起,共同解決智算訓(xùn)練問題和推動業(yè)務(wù)創(chuàng)新,從而實現(xiàn)企業(yè)智算運維部門與業(yè)務(wù)部門可以更好地融合并03智算經(jīng)濟(jì)亟需體系化的運維支撐,隨著大模型技術(shù)的快速發(fā)展,各行業(yè)已經(jīng)進(jìn)入了數(shù)字化和智能化轉(zhuǎn)型的關(guān)鍵時期,智算正在成為推動經(jīng)濟(jì)發(fā)展的核心驅(qū)動力,也是推動區(qū)域產(chǎn)業(yè)轉(zhuǎn)型升級的新質(zhì)生產(chǎn)力。然而,智算運維的復(fù)雜性遠(yuǎn)遠(yuǎn)超過傳統(tǒng)通算運維,當(dāng)前智算領(lǐng)域的運維仍相對處于起步階段,缺乏標(biāo)準(zhǔn)化和體系化的指導(dǎo),導(dǎo)致企業(yè)在智算運維過程中,往往依賴單點技術(shù)或自身經(jīng)驗進(jìn)行“盲目實踐”,大大增加了智算運維的不確定性和不可預(yù)測性。因此,智算運維亟需建立—套體系化的指導(dǎo)方案,通過規(guī)范化、標(biāo)準(zhǔn)化的服務(wù)流程和評估體系來保證服務(wù)的高可用性和高可靠性。結(jié)合傳統(tǒng)運維經(jīng)驗和智算領(lǐng)域新特性來看,智算運維重點關(guān)注標(biāo)準(zhǔn)化運維流程、智能化運維平臺、組織與人才體系、運維知識持續(xù)沉淀四個3.1標(biāo)準(zhǔn)化運維流程—是制定跨行業(yè)適配的標(biāo)準(zhǔn)化智算運維流程。針對不同行業(yè)對智算服務(wù)的需求和特點,制定適配各行業(yè)的差異化標(biāo)準(zhǔn),包括但不限于事件管理、問題管理、變更管理、故障管理等關(guān)鍵領(lǐng)域。這—標(biāo)準(zhǔn)化流程將幫助運維團(tuán)隊在面對復(fù)雜多變的智算環(huán)境時,遵循統(tǒng)—的運維管理規(guī)范,減少操作誤差和人為失誤。二是加大跨部門協(xié)作的機(jī)制建設(shè)和流程拉通。智算運維涉及技術(shù)、產(chǎn)品、開發(fā)、運維等多個部門的協(xié)作,因此建立—個跨部門協(xié)作機(jī)制至關(guān)重要。通過加強(qiáng)不同部門之間的溝通和信息共享,打通各環(huán)節(jié)之間的流程,使得在發(fā)生故障或變更時,各部門能夠高效協(xié)作、迅速響應(yīng)。例如,當(dāng)Al模型訓(xùn)練出現(xiàn)性能瓶頸時,運維團(tuán)隊需要與開發(fā)團(tuán)隊和Al算法團(tuán)隊密切配合,協(xié)同解決問題。同時,跨部門流程透明化,使得每個部門的職責(zé)和任務(wù)清晰明確,減少智算運維發(fā)展研究報告(2024)信息壁壘,提升響應(yīng)效率和問題解決的速度。三是推動運維流程的自動化,利用自動化部署、監(jiān)控、故障檢測和自修復(fù)技術(shù),減少人工干預(yù),降低人為錯誤的風(fēng)險。自動化的引入能夠顯著提高運維效率,減少重復(fù)性勞動,使運維團(tuán)隊能夠?qū)W⒂诟鼜?fù)雜的技術(shù)問題和戰(zhàn)略性任務(wù)。同時,自動化監(jiān)控和報警機(jī)制有助于及時發(fā)現(xiàn)系統(tǒng)異常,并通過自動化修復(fù)流程迅速恢復(fù)服務(wù),提升系統(tǒng)的可靠性和業(yè)務(wù)連續(xù)性。最終,通過建立標(biāo)準(zhǔn)化和自動化相結(jié)合的智算運維流程,可以提升智算服務(wù)的響應(yīng)速度和整體效能,滿足業(yè)務(wù)高效、穩(wěn)定、可持續(xù)發(fā)展的需求。3.2智能化運維平臺—是構(gòu)建集中化、智能化、異構(gòu)化的智算運維平臺。智算服務(wù)通??缭蕉鄠€計算平臺和環(huán)境,涵蓋云計算、大數(shù)據(jù)、人工智能等不同計算場景,因此,平臺化的運維工具必須具備高度適應(yīng)性,能夠支持多種計算平臺的資源調(diào)度,實現(xiàn)高效性與靈活性的統(tǒng)—。在此基礎(chǔ)上,亦可集成第三方廠商運維工具,如故障診斷、日志分析、監(jiān)控平臺等,進(jìn)而提供更精確二是平臺需要具備高效、穩(wěn)定地管理大量計算任務(wù)、調(diào)度分布式資源的能力。智能調(diào)度系統(tǒng)應(yīng)支持基于任務(wù)優(yōu)先級、資源預(yù)測、跨平臺調(diào)度等多維度調(diào)度策略,能夠精準(zhǔn)地對不同的計算任務(wù)進(jìn)行調(diào)度,避免資源浪費。平臺還需具備異步CKPT(檢查點)和斷點續(xù)訓(xùn)的能力,保證長時間訓(xùn)練任務(wù)的連續(xù)性和穩(wěn)定性。三是加大故障自愈系統(tǒng)設(shè)計,實現(xiàn)自動化修復(fù)監(jiān)測到的系統(tǒng)故障和預(yù)警,減少人工干預(yù)并實現(xiàn)“無感”運維。這—自愈能力應(yīng)結(jié)合Al+智算運維模式,通過智能算法和機(jī)器學(xué)習(xí)模型分析系統(tǒng)性能、告警日志等,自動發(fā)現(xiàn)潛在故障并提前預(yù)警。在故障發(fā)生時,系統(tǒng)能夠自動診斷、修復(fù)并切換到備用資源,極大減少服務(wù)中斷時間和人工干預(yù)需求。同時,Al技術(shù)還可以在修復(fù)過程中提供數(shù)據(jù)支持,優(yōu)化運維策略和決策,確保系統(tǒng)的高可用性。3.3組織與人才體系—是確保各部門在工作中有清晰的協(xié)作流程和溝通機(jī)制,每個部門要有明確的目標(biāo),并與其他部門共享信息、資源和進(jìn)展,做到信息流通、透明化,減少因信息不對稱導(dǎo)致的溝通障礙,進(jìn)而確保大模型訓(xùn)練與運維的每個環(huán)節(jié)都能順利銜接。智算運維發(fā)展研究報告(2024)二是推動組織文化的轉(zhuǎn)型,智算運維的轉(zhuǎn)型不僅是技術(shù)上的挑戰(zhàn),也是組織文化上的挑戰(zhàn)。企業(yè)需要倡導(dǎo)—種跨部門協(xié)作、創(chuàng)新驅(qū)動和持續(xù)學(xué)習(xí)的文化。首先,跨部門協(xié)作的文化將打破信息孤島,推動各部門之間的無縫協(xié)作,確保不同職能團(tuán)隊在共同的目標(biāo)下高效協(xié)同。其次,創(chuàng)新驅(qū)動的文化要求各個團(tuán)隊不斷進(jìn)行技術(shù)探索和業(yè)務(wù)創(chuàng)新,在挑戰(zhàn)中尋求突破,提升智算運維的智能化水平。三是跨學(xué)科的培訓(xùn)和人才儲備,首先,要加強(qiáng)傳統(tǒng)運維人員在硬件管理、網(wǎng)絡(luò)運維等基礎(chǔ)技術(shù)方面的深度培訓(xùn),以確保基礎(chǔ)設(shè)施的穩(wěn)定性和可靠性。與此同時,隨著智算技術(shù)的不斷發(fā)展,運維人員還需要擴(kuò)展知識領(lǐng)域,學(xué)習(xí)分布式存儲、網(wǎng)絡(luò)虛擬化、AI算力調(diào)度、ROCE/IB組網(wǎng)、NPU/GPU設(shè)備等技術(shù)棧。其次,企業(yè)應(yīng)注重跨學(xué)科人才的儲備,建立技術(shù)人才和業(yè)務(wù)人員之間的互通機(jī)制,確保數(shù)據(jù)科學(xué)家、運維工程師和技術(shù)專家之間能夠有效溝通,共同應(yīng)對運維中的各種挑戰(zhàn)。3.4運維知識持續(xù)沉淀—是構(gòu)建智算運維知識庫,系統(tǒng)地總結(jié)智算集群在運行過程中常見的故障場景,如資源調(diào)度瓶頸、性能下降、任務(wù)中斷等,并將解決方案和經(jīng)驗進(jìn)行歸納和總結(jié)。同時,應(yīng)積極參與業(yè)內(nèi)知識共享與共建,和行業(yè)內(nèi)其他企業(yè)、技術(shù)供應(yīng)商、學(xué)術(shù)機(jī)構(gòu)共同協(xié)作,推動智算運二是形成適合智算運維場景的最佳實踐,基于總結(jié)出的運維經(jīng)驗和技術(shù)積累,轉(zhuǎn)化為清晰的操作規(guī)范和流程,包括資源管理、任務(wù)調(diào)度優(yōu)化、系統(tǒng)故障排查等各個方面。通過建立標(biāo)準(zhǔn)化的最佳實踐,確保運維人員在面對復(fù)雜任務(wù)時能夠依照標(biāo)準(zhǔn)流程操作,從而提升集群三是持續(xù)迭代運維技術(shù)棧、模型算法等,以應(yīng)對智算運維日益復(fù)雜的需求。隨著硬件、軟件和應(yīng)用場景的快速發(fā)展,智算運維所需的技術(shù)棧也在不斷更新和升級。因此,需定期收錄最新的技術(shù)發(fā)展、行業(yè)趨勢和技術(shù)實踐,確保團(tuán)隊在解決問題時能夠依托最新的技術(shù)方案和最佳實踐。此外,運維團(tuán)隊還應(yīng)通過行業(yè)合作和外部資源的引入,不斷增強(qiáng)技術(shù)棧的泛化性和創(chuàng)新性,使運維知識庫具備更廣泛的適應(yīng)能力,能夠支持不同技術(shù)環(huán)境下的運維需求。[ROCE(RDMAOverCOnvergedEthernet):是—種允許在以太網(wǎng)上實現(xiàn)遠(yuǎn)程內(nèi)存直接訪問的網(wǎng)絡(luò)協(xié)議][IB(InfiniBand):是—個用于高性能計算的計算機(jī)網(wǎng)絡(luò)通信標(biāo)準(zhǔn)]044.1指標(biāo)設(shè)計原則智算運維質(zhì)量評價指標(biāo)能反映出智算場景系統(tǒng)及資源的可用性、優(yōu)化服務(wù)水平、提高資源保障能力等,需要具備可度量、可采集、可理解、可消費等特征,從而確保指標(biāo)具有實際可度量:指標(biāo)必須是可量化的數(shù)據(jù),結(jié)合運維經(jīng)驗配置合理的閾值進(jìn)行有效管控??刹杉?指標(biāo)數(shù)據(jù)源能通過各種技術(shù)手段從相關(guān)系統(tǒng)進(jìn)行采集,并以確定的計算方式得可理解:指標(biāo)無任何歧義,能明確測量系統(tǒng)或活動的具體性質(zhì),指標(biāo)的名稱、計算公式和單位等應(yīng)簡單易懂,避免使用過于專業(yè)或晦澀難懂的術(shù)語??上M:指標(biāo)在實際應(yīng)用中具有確定的消費場景(即:產(chǎn)生價值),能夠被相關(guān)人員 (如分析師、決策者、執(zhí)行人員等)輕松理解、使用并據(jù)此做出決策或采取行動。例如:評價指標(biāo)集中的連續(xù)性黃金指標(biāo)能有效地衡量訓(xùn)練任務(wù)的健康態(tài)勢,更好地輔助運維服務(wù)人員4.2指標(biāo)模型構(gòu)建建模是通過構(gòu)建數(shù)學(xué)模型、邏輯框架或其他結(jié)構(gòu)化表示方法,來量化和描述智算運維質(zhì)量評價指標(biāo)的過程。智算運維質(zhì)量評價指標(biāo)是—個涵蓋多個環(huán)節(jié)和維度的復(fù)雜體系,縱向包括系統(tǒng)的安全性、可用性等方面,橫向則涉及智算技術(shù)全棧的多個對象層級,如AI智算平臺智算運維發(fā)展研究報告(2024)層、AI基礎(chǔ)軟件層、算力基礎(chǔ)設(shè)施層、機(jī)房基礎(chǔ)設(shè)施層等,每層指標(biāo)之間相互關(guān)聯(lián)、環(huán)環(huán)相扣,形成復(fù)雜的依賴關(guān)系。因此,對智算運維質(zhì)量評價指標(biāo)進(jìn)行分類、分層、分級設(shè)計至關(guān)重要。這樣能夠確保每個關(guān)鍵環(huán)節(jié)和維度都有相應(yīng)的質(zhì)量指標(biāo)進(jìn)行衡量,從而實現(xiàn)對智算運(一)指標(biāo)分類分類設(shè)計是將智算運維質(zhì)量評價指標(biāo)根據(jù)不同的特性進(jìn)行分組,從而更精確地反映智算運維的各個關(guān)鍵方面,有助于快速定位問題,減少盲目性,提高解決問題的效率。在智算運維場景中,智算運維質(zhì)量指標(biāo)可分為3大類:可用性、響應(yīng)性和保障性,每類反映了智算集可用性:用于描述智算系統(tǒng)在大模型訓(xùn)練、推理業(yè)務(wù)過程中,能夠保持服務(wù)不中斷或快速恢復(fù)服務(wù),以滿足用戶或業(yè)務(wù)需求的能力。響應(yīng)性:用于描述智算服務(wù)提供方在接收到用戶請求或系統(tǒng)故障后,能夠及時、有效地保障性:用于描述智算服務(wù)提供方在服務(wù)過程中,確保所需資源(包括人力、備件、規(guī)范和技術(shù)等)完備且及時供給的能力,從而保障智算系統(tǒng)的穩(wěn)定運行。(二)指標(biāo)分層分層設(shè)計是依據(jù)智算技術(shù)棧層級,將指標(biāo)劃分為不同的層次,確保每個層級都能夠得到有效監(jiān)控和優(yōu)化,有助于從整體到局部逐步細(xì)化運維目標(biāo),使不同層級的資源和服務(wù)能夠得到精確的管理與調(diào)優(yōu)。智算運維質(zhì)量指標(biāo)橫向上可分為機(jī)房基礎(chǔ)設(shè)施層、算力基礎(chǔ)設(shè)施層、AI基礎(chǔ)軟件層、AI智算平臺層、AI業(yè)務(wù)應(yīng)用層,縱向上包括運維服務(wù)和安全服務(wù)。機(jī)房基礎(chǔ)設(shè)施層:用于表征數(shù)據(jù)中心的電力供應(yīng)、冷卻系統(tǒng)、物理安全的指標(biāo),是確保智算集群物理安全和穩(wěn)定運行的基本保障。如供電算力基礎(chǔ)設(shè)施層:用于表征所提供的計算、存儲、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施的指標(biāo),如參數(shù)面網(wǎng)智算運維發(fā)展研究報告(2024)AI基礎(chǔ)軟件層:用于表征模型加速庫、AI計算框架等基礎(chǔ)軟件的指標(biāo),如集群軟件故障AI智算平臺層:用于表征智算平臺資源調(diào)度能力、斷點續(xù)訓(xùn)能力、資源利用情況的指標(biāo),如集群算力利用率、任務(wù)調(diào)度成功率等。AI業(yè)務(wù)應(yīng)用層:用于表征訓(xùn)練任務(wù)算力使用效率、性能的指標(biāo),如模型算力利用率、模運維服務(wù):用于表征運維支撐能力、支撐效率的指標(biāo),如運維SLA達(dá)標(biāo)率、平均服務(wù)響安全服務(wù):用于表征智算系統(tǒng)的安全性指標(biāo),如入侵檢測率、漏洞修復(fù)率等。(三)指標(biāo)分級分級設(shè)計是在分層設(shè)計的基礎(chǔ)上,對每個層次和類別的指標(biāo)進(jìn)—步細(xì)化,按照系統(tǒng)運行的重要性、復(fù)雜性和對業(yè)務(wù)影響的程度,將指標(biāo)劃分為不同的優(yōu)先級,有助于運維工作更加精細(xì)化、高效化,確保系統(tǒng)各層次的關(guān)鍵指標(biāo)得到及時響應(yīng)和優(yōu)化。上述智算運維質(zhì)量評價關(guān)鍵指標(biāo):用于表征智算運維整體質(zhì)量、效益/損失、支撐管理層決策的指標(biāo),能夠直接反映智算訓(xùn)練業(yè)務(wù)核心狀況,具有高度的敏感性和影響力,對于決策和綜合評價具有重要的意義,是評價大模型訓(xùn)練業(yè)務(wù)服務(wù)質(zhì)量最不可或缺的核心要素。例如:在智算系統(tǒng)中,基于大模型訓(xùn)練業(yè)務(wù),可通過模型算力利用率(MFU)、有效訓(xùn)練時長、長穩(wěn)訓(xùn)練時長、任務(wù)最短恢復(fù)時長、集群算力可用度等關(guān)鍵指標(biāo),能夠全面評估智算運維質(zhì)量。標(biāo)準(zhǔn)指標(biāo):用于支撐大模型訓(xùn)練任務(wù)時長、集群算力可用度等關(guān)鍵指標(biāo)的達(dá)成,通常是需要重點關(guān)注、對業(yè)務(wù)影響大的指標(biāo),通過持續(xù)監(jiān)測標(biāo)準(zhǔn)指標(biāo),可以實時掌握集群整體的運行態(tài)勢,及時發(fā)現(xiàn)潛在問題,優(yōu)化決策并最終提升整體成效。例如:集群軟件故障率、集群軟件故障次數(shù)等,都是衡量集群運行狀態(tài)的指標(biāo)。基本指標(biāo):用于表征智算資源日常運維監(jiān)控、服務(wù)支撐能力的指標(biāo),主要反映了系統(tǒng)或安全服務(wù)的保障能力,例如:風(fēng)冷/液冷系統(tǒng)可用性、機(jī)房環(huán)境達(dá)標(biāo)率、平均服務(wù)響應(yīng)時間等。都是保證服務(wù)質(zhì)量穩(wěn)定性和連續(xù)性的基礎(chǔ)指標(biāo)。雖然它們在評價中的權(quán)重較低,但對確智算運維發(fā)展研究報告(2024)(四)指標(biāo)模型通過對智算運維指標(biāo)的分類、分層、分級設(shè)計,構(gòu)建智算運維指標(biāo)體系,確保每個層級、每個關(guān)鍵環(huán)節(jié)都有相應(yīng)的衡量指標(biāo),從而實現(xiàn)對智算運維體系的全面評估。在此基礎(chǔ)上,通過效益、效果、效能、效率四個維度深入分析,構(gòu)建智算運維質(zhì)量評價模型,該模型旨在適應(yīng)智算場景下的運維需求,確保智算運維的有序開展,為智算運維的持續(xù)優(yōu)化和整體發(fā)展提供—定的度量參考。同時,該模型也具備—定的靈活性和彈性,可根據(jù)業(yè)務(wù)實際需求進(jìn)行調(diào)整和優(yōu)化,確保其長期適用不同的智算業(yè)務(wù)場景。業(yè)務(wù)監(jiān)控業(yè)務(wù)預(yù)測業(yè)務(wù)預(yù)警業(yè)務(wù)協(xié)調(diào)業(yè)務(wù)調(diào)業(yè)務(wù)監(jiān)控業(yè)務(wù)預(yù)測業(yè)務(wù)預(yù)警業(yè)務(wù)協(xié)調(diào)業(yè)務(wù)調(diào)時間(MTTR)時間(MTBF)運維SLA……AIAI業(yè)務(wù)應(yīng)用層模型算力利用率(MFU)…AI智算平臺層……AI基礎(chǔ)軟件層……風(fēng)冷/液冷…效效效圖二智算運維質(zhì)量評價指標(biāo)體系模型05趨勢一:智算服務(wù)正成為綜合算力發(fā)展的關(guān)鍵要素隨著智算中心的不斷發(fā)展,服務(wù)力正成為綜合算力新質(zhì)生產(chǎn)力發(fā)展的關(guān)鍵要素,并貫穿智算中心的各個環(huán)節(jié)。隨著算力需求的多樣化和復(fù)雜化,傳統(tǒng)的建設(shè)服務(wù)模式已難以滿足當(dāng)前市場的需求。智算服務(wù)將通過整合信息計算力、網(wǎng)絡(luò)運載力、數(shù)據(jù)存儲力,覆蓋從基礎(chǔ)設(shè)施建設(shè)到行業(yè)智能應(yīng)用的全過程,實現(xiàn)智算服務(wù)的規(guī)劃建設(shè)—體化、運維保障智能化、模型訓(xùn)練高效化,有效提高智算服務(wù)效率。未來,服務(wù)力將以系統(tǒng)工程為核心理念,貫穿算力中心的每—環(huán)節(jié),推動計算力、運載力、存儲力、服務(wù)力共存的算力產(chǎn)業(yè)體系,促進(jìn)區(qū)域經(jīng)濟(jì)均衡與協(xié)調(diào)發(fā)展,共同構(gòu)筑—個高效、智能、協(xié)同的新型生產(chǎn)力體系,促進(jìn)綜合算力新質(zhì)生趨勢二:一體化智算運維將成為主流智能算力將促進(jìn)IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)和云服務(wù)升級,以數(shù)據(jù)為中心、云計算為基礎(chǔ)的—體化智算運維正成為主流。它通過實現(xiàn)通算算力、智算算力、存儲數(shù)據(jù)、網(wǎng)絡(luò)拓?fù)?、模型算法的高效資源調(diào)度和協(xié)同,推動運維服務(wù)向自動化和智能化的全面升級。這使得智算運維全流程操作在同—服務(wù)環(huán)境中得以實現(xiàn),從而提高靈活性和運維效率,促進(jìn)智算中心服務(wù)智算運維發(fā)展研究報告(2024)趨勢三:液冷技術(shù)助力智算行業(yè)綠色低碳發(fā)展為實現(xiàn)更低的PUE,智算中心亟需加快節(jié)能降碳技術(shù)改造,液冷技術(shù)可有效助力智算行業(yè)綠色低碳發(fā)展。液冷技術(shù)不僅提升了散熱效率,還優(yōu)化了電能和水資源的使用效率,單位算力密度更高,可以滿足芯片持續(xù)TDP(高散熱設(shè)計功耗)運行,可最大限度利用機(jī)房面積。這可以更好地滿足高性能計算、人工智能計算、云數(shù)據(jù)中心多樣化算力需求,支持算力快速部署和按需靈活擴(kuò)容,為數(shù)據(jù)中心的可持續(xù)發(fā)展和能效優(yōu)化提供了關(guān)鍵技術(shù)支持。趨勢四:算力資源一體化調(diào)度將成為趨勢隨著多模態(tài)大模型的發(fā)展和算力技術(shù)的不斷進(jìn)步,算力資源的—體化調(diào)度正成為行業(yè)發(fā)展的新趨勢。政府、運營商、云服務(wù)商等作為主要的運營主體,正在構(gòu)建和試點運營算力—體化調(diào)度平臺和算力互聯(lián)互通平臺,旨在實現(xiàn)算力、網(wǎng)絡(luò)、云計算資源的融合調(diào)度與—體化發(fā)展,從而解決算力資源分散、供需匹配失衡和使用成本高等問題。此外,圍繞樞紐節(jié)點的算力生態(tài)聚集效應(yīng)進(jìn)—步加強(qiáng),區(qū)域級、城市級的公共算力服務(wù)平臺將初步顯現(xiàn),并可能形趨勢五:數(shù)據(jù)安全重要性日益凸顯在數(shù)字化時代,數(shù)據(jù)洪流的挑戰(zhàn)日益嚴(yán)峻,數(shù)據(jù)安全的重要性也隨之凸顯。隨著《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》和《個人信息保護(hù)法》等—系列法律法規(guī)的相繼出臺,政府和企業(yè)在數(shù)據(jù)安全治理方面的工作變得更加規(guī)范化和常態(tài)化,對數(shù)據(jù)安全的重視程度也在不斷提升。在智能計算運維(智算運維)的場景中,數(shù)據(jù)安全保障面臨著更加復(fù)雜的挑戰(zhàn)。在數(shù)據(jù)采集階段,我們需要制定嚴(yán)格的敏感數(shù)據(jù)處理流程,確保個人信息和敏感數(shù)據(jù)得到妥善保護(hù),防止數(shù)據(jù)泄露和濫用。在模型訓(xùn)練和內(nèi)容生成環(huán)節(jié),建立全面的安全評測機(jī)制顯得尤為關(guān)鍵,這不僅有助于識別潛在的安全漏洞,還能有效預(yù)防惡意注入攻擊等安全威脅。為了應(yīng)對這些挑戰(zhàn),不僅需要制定數(shù)據(jù)加密、訪問控制、安全審計、應(yīng)急響應(yīng)計劃等多維度的安全策略,還需要法律、管理和教育等多方面的協(xié)同配合,以構(gòu)建—個全面、立體的數(shù)據(jù)安全防066.1中國移動智算運維最佳實踐為深入貫徹落實國家發(fā)改委《關(guān)于促進(jìn)數(shù)字經(jīng)濟(jì)創(chuàng)新發(fā)展的若干意見》及《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》對新型基礎(chǔ)設(shè)施建設(shè)的政策要求,中國移動積極響應(yīng)國家數(shù)字化轉(zhuǎn)型戰(zhàn)略,并錨定“世界—流信息服務(wù)科技創(chuàng)新公司”發(fā)展定位,著力推進(jìn)智算新型基礎(chǔ)設(shè)施的建設(shè)和運維管理。為確保智算資源的高效利用、服務(wù)質(zhì)量的持續(xù)提升以及智能化運維的落地實施,公司結(jié)合自身實際,構(gòu)建了獨具特色的智算運維評價指標(biāo)體系,旨在通過標(biāo)準(zhǔn)化、智能化、自動化的手段,提升整體運維服務(wù)質(zhì)量,保障智算業(yè)務(wù)的穩(wěn)定運行,推動數(shù)字經(jīng)濟(jì)和智(一)智算運維流程設(shè)計及實現(xiàn)中國移動網(wǎng)絡(luò)事業(yè)部深入了解并分析智算訓(xùn)練、推理等業(yè)務(wù)場景,牽頭省公司、專業(yè)公司、華為智算團(tuán)隊等展開充分調(diào)研交流,并結(jié)合現(xiàn)網(wǎng)成熟運維體系流程,初步完成對智算運維七大核心流程和S0P梳理,擴(kuò)展流程及細(xì)則設(shè)計共識,并納入集團(tuán)運維體系進(jìn)行統(tǒng)—運維(1)事件管理流程:將事件管理從“純故障”視角擴(kuò)展至涵蓋投訴、日志、告警、故障四個維度組成的“綜合事件”視角,全面提升對事件的監(jiān)控、響應(yīng)和處理能力;組建集省專協(xié)同運維團(tuán)隊,制定跨部門協(xié)作機(jī)制,對所有事件進(jìn)行統(tǒng)—的事件級別評估,確定優(yōu)先級,及時響應(yīng)處理各類事件,提升服務(wù)穩(wěn)定性。2020智算運維發(fā)展研究報告(2024)(2)問題管理流程:針對智算運維過程中反復(fù)出現(xiàn)的問題進(jìn)行深入根因分析,并制定有效的解決方案,建立問題閉環(huán)管理機(jī)制,對已解決問題進(jìn)行驗證和回顧,確保問題根因得到徹底消除,進(jìn)而降低問題的重復(fù)發(fā)生率。(3)變更管理流程:以“智算安全”為首要目標(biāo),建立變更操作全鏈路保障體系。變更前進(jìn)行全面的風(fēng)險評估,確保變更操作不會影響智算業(yè)務(wù)的安全性和可用性,變更中實施嚴(yán)格的監(jiān)控和審批機(jī)制,嚴(yán)格把控變更操作質(zhì)量,確保變更按計劃實施,變更后及時對智算業(yè)務(wù)進(jìn)行確認(rèn),避免因變更引發(fā)服務(wù)中斷等事件。(4)運維保障流程:在運維保障中引入集群健康檢查、智能監(jiān)控、預(yù)警機(jī)制等能力,及時發(fā)現(xiàn)潛在風(fēng)險點,提前進(jìn)行預(yù)防和處理,有效降低智算集群故障發(fā)生率,提升集群穩(wěn)定(5)驗收流程管理:在智算驗收過程中,加強(qiáng)對建設(shè)質(zhì)量的審查,全面檢查集群可運維性,包括但不限于可擴(kuò)展性、可維護(hù)性、可監(jiān)控性等關(guān)鍵要素,確保智算基礎(chǔ)設(shè)施在交付(6)告警管理流程:以告警治理和壓縮為目標(biāo),通過數(shù)據(jù)分析和機(jī)器學(xué)習(xí)等技術(shù),減少噪音告警,優(yōu)化告警閾值,提高告警的準(zhǔn)確性和處理效率;建立告警處理機(jī)制,確保快速(7)調(diào)度管理流程:建立多級調(diào)度機(jī)制,確保在智算故障發(fā)生時,通過高效調(diào)度跨部門、跨區(qū)域團(tuán)隊,快速響應(yīng)和處理故障,大幅減少故障響應(yīng)和恢復(fù)時間,提高集群可用性和(二)智算運維指標(biāo)體系定義中國移動以保障上層訓(xùn)練業(yè)務(wù)的高穩(wěn)定性和高效率性為目標(biāo),確保智算集群MFU(模型算力利用率)、MTTR(斷點續(xù)訓(xùn)時長)、長穩(wěn)訓(xùn)練時長等黃金指標(biāo)在同規(guī)模集群中國內(nèi)領(lǐng)先、國際—流。并結(jié)合上述七大核心運維流程,構(gòu)建三橫三縱智算運維指標(biāo)體系,研究明確80個智算運維質(zhì)量指標(biāo)(含黃金指標(biāo)),支撐實現(xiàn)算、網(wǎng)、存、業(yè)的全生命周期運維監(jiān)控。2222智算運維發(fā)展研究報告(2024)智算運維發(fā)展研究報告(2024)算力集群穩(wěn)定運行,提升有效訓(xùn)練時長(共18項)(共19項)(共27項)橫向指標(biāo)………………(共6項)…縱向指標(biāo)(共5項)…(共2項)(共2項)圖三中國移動智算運維指標(biāo)體系智算運維發(fā)展研究報告(2024)(1)基礎(chǔ)設(shè)施層構(gòu)建全鏈路監(jiān)控體系,實時監(jiān)控GPU/NPU、光模塊等硬件性能指標(biāo),重點關(guān)注集合通信帶寬、存儲讀/寫時延、網(wǎng)絡(luò)丟包率等關(guān)鍵指標(biāo),有效分析慢節(jié)點慢網(wǎng)絡(luò),(2)Al智算平臺層建立高可用容災(zāi)架構(gòu)。做好訓(xùn)推任務(wù)熱備功能開發(fā)和優(yōu)化,優(yōu)化故障隔離、資源重調(diào)度策略,推動實現(xiàn)千臺智算集群分鐘級熱備主機(jī)切換;持續(xù)優(yōu)化斷點續(xù)訓(xùn)能力,最大支持分鐘級checkpoint保存頻率,支撐千/萬卡訓(xùn)練任務(wù)快速恢復(fù)。(3)智算業(yè)務(wù)層完善用戶反饋機(jī)制和個性化服務(wù),以用戶訓(xùn)練/推理任務(wù)為目標(biāo),重點關(guān)注任務(wù)訓(xùn)練時長、任務(wù)中斷次數(shù)、首token時延等關(guān)鍵指標(biāo),高效、穩(wěn)定地支撐復(fù)雜的訓(xùn)推任務(wù),滿足用戶對智算運維的高標(biāo)準(zhǔn)要求。(4)運維質(zhì)量方面的核心在于快速響應(yīng)和高效處理各類故障,制定高效運維SLA標(biāo)準(zhǔn),實現(xiàn)故障響應(yīng)時限縮短至10分鐘,關(guān)鍵指標(biāo)主要包括故障處理及時率、硬件更換及時率等,(5)運行質(zhì)量方面重點關(guān)注設(shè)備和服務(wù)穩(wěn)定性,關(guān)鍵指標(biāo)主要包括設(shè)備故障率、計算/存儲/網(wǎng)絡(luò)設(shè)備可用率等,反映了設(shè)備的健康狀態(tài)及集群的穩(wěn)定性,高質(zhì)量的運行狀態(tài)保障了(6)服務(wù)質(zhì)量方面則側(cè)重于用戶體驗和用戶滿意度,尤其是對服務(wù)響應(yīng)速度和問題解決效果的評估。投訴處理滿意度是衡量服務(wù)質(zhì)量的核心指標(biāo),通過快速響應(yīng)和有效解決用戶問題,可以提升用戶滿意度。(三)智算運維體系構(gòu)建基于上述七大智算運維管理流程分析和智算運維指標(biāo)定義,中國移動網(wǎng)絡(luò)事業(yè)部牽頭打準(zhǔn),—系列技能提升機(jī)制”的“五個—”卓越智算運維體系,構(gòu)建“訓(xùn)練中斷少,故障恢復(fù)(1)一支高水平協(xié)同團(tuán)隊2323智算運維發(fā)展研究報告(2024)建立—支具備深厚技術(shù)背景、運維經(jīng)驗豐富且高度協(xié)同的集省專智算運維團(tuán)隊,確保智算運維能高效響應(yīng)、快速解決各類技術(shù)難題,保障智算平臺的平穩(wěn)運行。(2)一套標(biāo)準(zhǔn)化規(guī)范制度制定—套完整、標(biāo)準(zhǔn)化、可執(zhí)行的運維流程與規(guī)范,包括但不限于事件管理、故障處理、變更管理、性能監(jiān)控、告警響應(yīng)、故障恢復(fù)、備件管理等方面的標(biāo)準(zhǔn)化流程,確保各項運維工作有章可循,有序推進(jìn),保證運維質(zhì)量的—致性和高效性。(3)一體化運維服務(wù)平臺建設(shè)—個集監(jiān)控、調(diào)度、故障響應(yīng)、資源管理、自動告警等功能于—體的智能化運維平臺,通過平臺,運維人員可以實時查看系統(tǒng)健康狀況、設(shè)備運行狀態(tài)、任務(wù)進(jìn)度等關(guān)鍵數(shù)據(jù),支持故障快速定位與解決方案推薦,運維團(tuán)隊能夠更加精準(zhǔn)地監(jiān)控智算資源,提前預(yù)警潛在故障,并通過自動化的調(diào)度和恢復(fù)機(jī)制,快速響應(yīng)并解決問題。(4)一套高水平質(zhì)量標(biāo)準(zhǔn)建立嚴(yán)格的質(zhì)量標(biāo)準(zhǔn),包括但不限于服務(wù)響應(yīng)時間、故障恢復(fù)時長、設(shè)備可用性、任務(wù)調(diào)度效率等多個維度,確保智算運維在各個環(huán)節(jié)中都能達(dá)到高水平的質(zhì)量要求,保障智算平(5)一系列技能提升機(jī)制建立持續(xù)的員工技能提升機(jī)制,提高運維團(tuán)隊的技術(shù)水平和運維能力,推動團(tuán)隊內(nèi)部技術(shù)分享和知識沉淀,形成良好的技術(shù)文化,確保團(tuán)隊具備最新的技術(shù)能力和解決方案,快速(四)智算運維應(yīng)用成效目前中國移動打造的“五個—”卓越智算運維體系已常態(tài)化支撐九天大模型訓(xùn)練推理任務(wù),智算集群整體運行平穩(wěn),硬件、網(wǎng)絡(luò)類故障定位耗時從小時級降至10分鐘,實現(xiàn)國產(chǎn)化萬卡資源池模型訓(xùn)練算力利用率(MFU)約50%,任務(wù)重提恢復(fù)時長(MTTR)小于302424智算運維發(fā)展研究報告(2024)6.2科大訊飛智算運維最佳實踐(一)需求驅(qū)動2023年10月,科大訊飛發(fā)布了支持萬億浮點參數(shù)的基于全國產(chǎn)算力的星火大模型,真智算業(yè)務(wù)作為—個新的場景出現(xiàn)后,目前在業(yè)界還缺乏—個統(tǒng)—的度量標(biāo)準(zhǔn),如何衡量算力的軟硬件穩(wěn)定性、集群效率、效果等問題是普遍的—個痛點訴求。訊飛基礎(chǔ)設(shè)施團(tuán)隊認(rèn)為,集群的長穩(wěn)訓(xùn)練需要—套完整的方法論來指導(dǎo),需要通過梳理影響集群長穩(wěn)的關(guān)鍵因素,并通過持續(xù)不斷的優(yōu)化,配套流程、工具和系統(tǒng),才能持續(xù)地提升集群的MFU。(二)解決思路為了確保集群訓(xùn)練的長時穩(wěn)定,科大訊飛聯(lián)合華為攻關(guān)團(tuán)隊,從
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 職工護(hù)士合同范例
- 合作技術(shù)入股合同范例
- 分公司簽訂保證合同范例
- 單價長期供貨合同范例
- 工程裝修監(jiān)理合同范例
- 簡易茶葉供貨合同范例
- 酒店硬裝合同范例
- 農(nóng)園水果采購合同范例
- 材料送檢合同范例
- 青島購車合同范例
- 火災(zāi)自動報警系統(tǒng)的邏輯聯(lián)動關(guān)系表
- 危重患者的護(hù)理評估PPT課件
- 滾筒性能檢驗報告
- 蘇州大學(xué)國際金融期末考試題庫20套
- 壓縮映射原理的性質(zhì)和應(yīng)用
- 四年級寒假語文實踐作業(yè)
- 項目進(jìn)場計劃及臨建方案
- 通信設(shè)施產(chǎn)權(quán)歸屬
- 提撈采油安全操作規(guī)程
- 京劇英語介紹PPT課件
- in、ing對比辨音練習(xí).doc
評論
0/150
提交評論