智算平臺(tái)運(yùn)維運(yùn)營技術(shù)研究報(bào)告2024_第1頁
智算平臺(tái)運(yùn)維運(yùn)營技術(shù)研究報(bào)告2024_第2頁
智算平臺(tái)運(yùn)維運(yùn)營技術(shù)研究報(bào)告2024_第3頁
智算平臺(tái)運(yùn)維運(yùn)營技術(shù)研究報(bào)告2024_第4頁
智算平臺(tái)運(yùn)維運(yùn)營技術(shù)研究報(bào)告2024_第5頁
已閱讀5頁,還剩118頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

編委(排名不分先后):復(fù)旦大學(xué):中國信息通信研究院云計(jì)算與大數(shù)據(jù)研究所:阿里云計(jì)算有限公司:參編單位:本報(bào)告版權(quán)屬于復(fù)旦大學(xué)、中國信息通信研究院云計(jì)算與大數(shù)據(jù)研究所和阿里云計(jì)算有限公司,并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其他方式使用本報(bào)告內(nèi)容或觀點(diǎn),請注明:“來源:《智算平4.1.1案例1:復(fù)旦大學(xué)的AIforscience運(yùn)營4.1.2案例2:阿里云AI運(yùn)營實(shí)踐4.2.1案例1:復(fù)旦CFFF平臺(tái)運(yùn)營最佳實(shí)踐4.2.2案例2:騫云算力運(yùn)營平臺(tái)4.3.1案例1:DataDog大模型可觀測運(yùn)維4.3.2案例2:某人工智能實(shí)驗(yàn)室運(yùn)維實(shí)踐前言/FOREWORD在數(shù)字化轉(zhuǎn)型的浪潮中,智算中心扮演著越來越重要的角色,在國家數(shù)字經(jīng)濟(jì)和科技創(chuàng)新戰(zhàn)略中的地位日益凸顯。隨著算力需求的不斷攀升,智算中心不僅成為支撐人工智能、大數(shù)據(jù)、云計(jì)算等前沿技術(shù)發(fā)展的基石,更是推動(dòng)經(jīng)濟(jì)社會(huì)發(fā)展智算平臺(tái)的運(yùn)維運(yùn)營是確保其高質(zhì)量、穩(wěn)定運(yùn)行的關(guān)鍵。本研究報(bào)告基于復(fù)旦大學(xué)CFFF(Com-心的建設(shè)、運(yùn)維、運(yùn)營經(jīng)驗(yàn)及中國信息通信研究院在此領(lǐng)域的研究成果,構(gòu)建智算平臺(tái)運(yùn)維運(yùn)營框架及評價(jià)體系。智算平臺(tái)運(yùn)維運(yùn)營主要由三大能力域構(gòu)成,—是AI運(yùn)營,致力于人工智能模型的全生命周期管理,二是平臺(tái)運(yùn)營,著眼于提升用戶體驗(yàn)和資源管理效率,三是平臺(tái)運(yùn)維,通過管理算力設(shè)備保障智算平臺(tái)的業(yè)務(wù)連續(xù)性和系統(tǒng)安全。為客觀衡量智算平臺(tái)的運(yùn)維運(yùn)營水平,本報(bào)臺(tái)運(yùn)維四個(gè)能力維度展開研究,提取通用、專用評估指標(biāo),構(gòu)建智算平臺(tái)運(yùn)維運(yùn)營評價(jià)體系,以期為行業(yè)內(nèi)智算平臺(tái)的建設(shè)、運(yùn)維運(yùn)營、能力評智算平臺(tái)運(yùn)維運(yùn)營是—個(gè)充滿挑戰(zhàn)的新興領(lǐng)域,需要不斷探索和創(chuàng)新。本研究報(bào)告旨在為業(yè)界提供更加全面、深入的研究視角,以促進(jìn)智算平臺(tái)運(yùn)維運(yùn)營的專業(yè)化、標(biāo)準(zhǔn)化和智能化發(fā)展。本研究報(bào)告仍有不足指出,期待業(yè)界專家和廣大讀者提出寶貴的意見和建議,共同推動(dòng)智算平臺(tái)運(yùn)維現(xiàn)出爆發(fā)式增長態(tài)勢。2024年政府工作報(bào)告中提出,大力推進(jìn)現(xiàn)代化產(chǎn)業(yè)體系建設(shè),加快發(fā)展新質(zhì)生產(chǎn)力。要深入推進(jìn)數(shù)字經(jīng)濟(jì)創(chuàng)新發(fā)展,制定支持?jǐn)?shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展政策,積極推進(jìn)數(shù)字產(chǎn)業(yè)化、產(chǎn)業(yè)數(shù)字化,促進(jìn)數(shù)字技術(shù)和實(shí)體經(jīng)濟(jì)深度融合。深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用,開展“人工智能+”行動(dòng),打造具有國際競爭力的數(shù)字產(chǎn)業(yè)集群。實(shí)施制造業(yè)數(shù)字化轉(zhuǎn)型行動(dòng),加快工業(yè)互聯(lián)網(wǎng)規(guī)?;瘧?yīng)用,推進(jìn)服務(wù)業(yè)數(shù)字化,建設(shè)智慧城市、數(shù)字鄉(xiāng)村。深入開展中小企業(yè)數(shù)字化賦能布局更加優(yōu)化,特別是智能算力的快速增長,為中國在AI和大數(shù)據(jù)時(shí)代的增長提供基礎(chǔ)。未來,中國將繼續(xù)加強(qiáng)算力基礎(chǔ)設(shè)施的建設(shè),推動(dòng)技術(shù)創(chuàng)新,完善政策和標(biāo)準(zhǔn)體系,構(gòu)建全產(chǎn)業(yè)鏈生態(tài),以本研究報(bào)告討論的智算平臺(tái),是指通過使用大規(guī)模異構(gòu)算力資源,用智能算力(GPU、FPGA、ASIC展,但當(dāng)前的智算平臺(tái)多采用硬件驅(qū)動(dòng)模式,存在水平較低、分割化嚴(yán)重、生態(tài)建設(shè)不足等問題,形成先發(fā)優(yōu)勢,而中國的公共智算平臺(tái)及生態(tài)與之存在差距,特別是在AI公共算力設(shè)施及部分AI芯任務(wù),可能導(dǎo)致資源浪費(fèi)。面對上述等形勢,國家和地方政府積極出臺(tái)相關(guān)政策,推動(dòng)智算平臺(tái)的為了支持通用AI的發(fā)展,滿足不同場景下的算力需求。智算平臺(tái)將彌補(bǔ)傳統(tǒng)計(jì)算中心的局限性,提供更廣泛的服務(wù),滿足更多行業(yè)和領(lǐng)域的算力需求。此外,智算平臺(tái)也通過優(yōu)化算力資源配置、支建設(shè)重點(diǎn),推動(dòng)產(chǎn)業(yè)鏈上下游協(xié)同發(fā)展,形成統(tǒng)—開放的AI算力產(chǎn)業(yè)生態(tài)。智算平臺(tái)的發(fā)展可以降低中小企業(yè)的算力使用門檻,提升算力設(shè)施的普惠服務(wù)能力,加速賦能各行各業(yè),推動(dòng)產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型。智算平臺(tái)正處于快速發(fā)展階段,未來智算平臺(tái)的建設(shè)也會(huì)是算力建設(shè)的重點(diǎn),為算力的蓬勃面的深度融合和智能化管理,更在于服務(wù)模式的創(chuàng)新、生態(tài)構(gòu)建的完善以及安全合規(guī)的強(qiáng)化:通過結(jié)合LLM0PS等思想,實(shí)現(xiàn)算力資源的智能調(diào)度和優(yōu)化配置,提升服務(wù)效率和響應(yīng)速度;探索按需服務(wù)、彈性服務(wù)等新型服務(wù)模式,以滿足用戶在多樣化和個(gè)性化算力需求方面的期望,增強(qiáng)服務(wù)的靈活性和適應(yīng)性;構(gòu)建開放、共享的算力服務(wù)生態(tài)系統(tǒng),促進(jìn)跨行業(yè)、跨領(lǐng)域的協(xié)同創(chuàng)新和資源共享,以實(shí)現(xiàn)算力服務(wù)的可持續(xù)發(fā)展;加強(qiáng)算力服務(wù)的安全性和合規(guī)性,確保數(shù)據(jù)安全和用戶隱私得到有效保護(hù),構(gòu)建用戶信任的基石。智算中心投資規(guī)模巨大,其能力與運(yùn)營效率將成為運(yùn)作的關(guān)鍵,構(gòu)建合適的運(yùn)維運(yùn)營體系可有效地保持智算平臺(tái)長期穩(wěn)定運(yùn)行,高效地管好和用好算力,并提供管理的實(shí)踐,技術(shù)和工具的集合。智算平臺(tái)的運(yùn)維圍繞著模型服務(wù),算力服務(wù),容器服務(wù),網(wǎng)絡(luò)服務(wù),存儲(chǔ)服務(wù)以及安全服務(wù)等方面進(jìn)行。智算平臺(tái)的運(yùn)營包含用戶的日常管理及AI運(yùn)營兩個(gè)重點(diǎn),用戶運(yùn)營包括用戶管理、用戶智算運(yùn)維運(yùn)營平臺(tái)為工程師提供了—個(gè)協(xié)作環(huán)境,該環(huán)境促進(jìn)了數(shù)據(jù)和模型迭代探索、實(shí)時(shí)協(xié)作實(shí)驗(yàn)跟蹤、提示詞工程以及模型piPeline的管理。同時(shí),它還支持對大型語言模型(LLM)的控制模型轉(zhuǎn)換、部署和監(jiān)控。整體方案提供了—套完整的AI生命周期管理服務(wù),從開發(fā)到部署再到維護(hù),確保了平臺(tái)的高效運(yùn)行和持續(xù)優(yōu)化。建設(shè)智算運(yùn)維運(yùn)營平臺(tái)和相關(guān)團(tuán)隊(duì),可以為平臺(tái)帶來如下保障:1.確保服務(wù)連續(xù)性:通過有效地運(yùn)維運(yùn)營,智算平臺(tái)能夠保證服務(wù)的連續(xù)性和穩(wěn)定性,避免因故障或性能問題導(dǎo)致的服務(wù)中斷,通過日常巡檢和監(jiān)控可以降低重大故障的發(fā)生概率。2.提升用戶體驗(yàn):良好的運(yùn)維運(yùn)營能夠快速響應(yīng)用戶需求,提供及時(shí)的技術(shù)支持和問題解決方案,從而提升用戶滿3.研發(fā)效率提升:通過工具研發(fā)的支持,智算運(yùn)維運(yùn)營平臺(tái)允許團(tuán)隊(duì)更快地開發(fā)模型,提供更高質(zhì)量的模型,并更4.優(yōu)化資源利用:通過精細(xì)化的資源管理和調(diào)度,可以提高計(jì)算資源的利用率,避免資源浪費(fèi),降低運(yùn)營成本。5.知識管理:建設(shè)和維護(hù)知識庫,促進(jìn)使用方法和經(jīng)驗(yàn)的共享,降低初學(xué)者的門檻。6.模型微調(diào)、推理和監(jiān)控:7.確保模型性能:通過持續(xù)的監(jiān)控和維護(hù),智算運(yùn)維運(yùn)營可以確保模型在生產(chǎn)環(huán)境中的性能穩(wěn)定,及時(shí)調(diào)整以適應(yīng)新8.可擴(kuò)展性:隨著業(yè)務(wù)需求的增長,智算運(yùn)維運(yùn)營支持平臺(tái)的無縫擴(kuò)展,可以靈活地增加計(jì)算和存儲(chǔ)資源。臺(tái)的穩(wěn)定性,做好資源和用戶管理,同時(shí)也降低AI模型的研發(fā)門檻,將研發(fā)好的AI模型快速應(yīng)用到實(shí)際場景中。尤其對于那些工程能力相對薄弱的組業(yè),智算平臺(tái)的運(yùn)維運(yùn)營能力尤為關(guān)鍵。這些組織可能缺乏獨(dú)立維護(hù)復(fù)雜AI平臺(tái)的經(jīng)驗(yàn),依賴外部提供的高質(zhì)量運(yùn)維運(yùn)營服務(wù),可以加速創(chuàng)新孵化過程。隨著AI技術(shù)的發(fā)展,算力訓(xùn)練需求增長,智算設(shè)備緊缺,訓(xùn)練大型AI模型的成本變得極其高昂。設(shè)和運(yùn)維工作。這些團(tuán)隊(duì)通常具備跨學(xué)科的知識和技能。目前,已經(jīng)出現(xiàn)了LLM0PS的概念,除了當(dāng)前,國內(nèi)智算平臺(tái)運(yùn)維運(yùn)營相關(guān)領(lǐng)域的資料有限,尚未形成體系化的智算平臺(tái)運(yùn)維和運(yùn)營解決方案。智算平臺(tái)運(yùn)維運(yùn)營方面的不足,以及完善運(yùn)維運(yùn)營體系的必要性,主要體現(xiàn)在以下幾個(gè)方面:隨著用戶的增加、算力供給增長以及服務(wù)生態(tài)的多樣化,智算平臺(tái)的運(yùn)維和運(yùn)營存在著較大的挑戰(zhàn),主要體現(xiàn)在人才缺失、流程和工具化能力缺乏、相關(guān)技術(shù)門檻高運(yùn)營運(yùn)維難度大、任務(wù)失敗后排障困難等幾個(gè)方面:.1人才供給挑戰(zhàn)主要體現(xiàn)在兩方面,—是人才緊缺,缺乏具備必要專業(yè)知識和技能的人才,導(dǎo)致招聘難度增加;二是傳統(tǒng)運(yùn)維難度大,傳統(tǒng)運(yùn)維方式面臨挑戰(zhàn)和巨大的學(xué)習(xí)成本,缺乏高效的運(yùn)維傳統(tǒng)運(yùn)維運(yùn)營方法與智算平臺(tái)的運(yùn)維運(yùn)營要求之間存在較大差距,主要體現(xiàn)在AI模塊的運(yùn)維支持上。人工智能技術(shù)作為近幾年的新興的領(lǐng)域,綜合了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處理和計(jì)算機(jī)視覺等技術(shù),對問題排查的人員能力要求很高,目前都由全棧型和有經(jīng)驗(yàn)的算法工程師解決。11集群傳統(tǒng)高性能計(jì)算任務(wù),需要運(yùn)維機(jī)器01AI任務(wù)主要為各種GPU卡,需要運(yùn)維機(jī)器和升級驅(qū)動(dòng)01高性能存儲(chǔ),吞吐快,性能提升01科研軟件安裝,外部工具接入01010111幫助用戶建設(shè)機(jī)器的運(yùn)維體系,并且進(jìn)行平臺(tái)的變更操作1101010101并行計(jì)算,PYTorch和Tensor01大數(shù)據(jù)加工,數(shù)據(jù)傳輸01011111P0D的診斷,重啟和刪除11表1傳統(tǒng)運(yùn)維運(yùn)營人員與智算平臺(tái)運(yùn)維運(yùn)營人員能力對比注:1代表運(yùn)維運(yùn)營人員必備能力,0代表運(yùn)維運(yùn)營人員非必備能力在加速,但同時(shí)也帶來了對專業(yè)人才和先進(jìn)設(shè)備的巨大營平臺(tái)的人員非常稀缺,招聘難度巨大。source:Lightcast,2023chart:2024AlIndexreport152,201152,20113,503133,06643,74893,54125,14991,88320,77085,4843,89273,0698,60268,4591,71267,77212,32718,70464,55725,93562,180050,000100,000150,000200,000250,000300,000握高水平的專業(yè)技術(shù)能力,更要具備出色的管理與決策技能,以保障智算平臺(tái)的高效運(yùn)行和持續(xù)創(chuàng)智算平臺(tái)運(yùn)維運(yùn)營人員,不僅要有傳統(tǒng)運(yùn)維運(yùn)營的基礎(chǔ),還要對人工智能技術(shù)有深刻理解,掌握相.2目前,大模型訓(xùn)練的生態(tài)系統(tǒng)仍在建設(shè)之中,相關(guān)的流程和工具尚未完全產(chǎn)品化。同時(shí),我們還缺乏統(tǒng)—的標(biāo)準(zhǔn)和接口來管理相關(guān)資源。例如,對于模型的運(yùn)行狀態(tài)、對應(yīng)的GPU機(jī)器以及平臺(tái)穩(wěn)定性,我們還需要—個(gè)統(tǒng)—的監(jiān)控和統(tǒng)計(jì)系統(tǒng);大規(guī)模GPU集群的掃描軟件、AI訓(xùn)練生態(tài)系統(tǒng),推理和模型輸出等都處于創(chuàng)新階段。偏定制化的需求,面臨流程缺失和工具缺乏等問題,極大程度地增加了運(yùn)維運(yùn)營工作的難度,目前市面上類似Datadog、HuggingFace、atabricks等公司都在積極地解決AI任務(wù)監(jiān)控和訓(xùn)練的生態(tài)問題,未來有望可以標(biāo)準(zhǔn)化輸出。.3智算門檻高,運(yùn)營運(yùn)維難度大目前智算的高技術(shù)門檻和運(yùn)營運(yùn)維的復(fù)雜性使得許多企業(yè)和研究機(jī)構(gòu)望而卻步,其主要原因在于對GPU資源的大規(guī)模依賴。此外,智算系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)需要跨學(xué)科的知識和技能,包括機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)、軟件工程等,均成為了運(yùn)維運(yùn)營工作開展的挑戰(zhàn)。在運(yùn)營和維護(hù)智算系統(tǒng)時(shí),團(tuán)隊(duì)面臨的挑戰(zhàn)尤為嚴(yán)峻。系統(tǒng)穩(wěn)定性的維護(hù)需要持續(xù)地監(jiān)控和及時(shí)故障排除,而性能優(yōu)化則要求對系統(tǒng)架構(gòu)有深入的理解。隨著技術(shù)的快速發(fā)展,智算系統(tǒng)需要不斷地更新和升級,以適應(yīng)更大規(guī)模的算法參數(shù)和更大的數(shù)據(jù)集,通過更敏捷的模型應(yīng)用部署平臺(tái),來滿足Al模型對實(shí)際業(yè)務(wù)場景的適配。為了克服這些挑戰(zhàn),企業(yè)和進(jìn)行人才培養(yǎng)、技術(shù)研發(fā),并探索和總結(jié)更高效的運(yùn)維和運(yùn)營策略。.4計(jì)算任務(wù)失敗原因分析路線非常復(fù)雜,從硬件到上層框架鏈路長,涉及的領(lǐng)域眾多,對目前運(yùn)維運(yùn)營人員的技術(shù)要求較高。任務(wù)排障困難體現(xiàn)為如下幾方面:1.系統(tǒng)架構(gòu)復(fù)雜:智算平臺(tái)通常由多個(gè)模塊組成,如底層基礎(chǔ)設(shè)施、機(jī)器學(xué)習(xí)平臺(tái)和運(yùn)維運(yùn)營平臺(tái)等,每個(gè)模塊都有其特定的功能和架構(gòu),問題定位困難。2.硬件和軟件問題:底層硬件問題(如ECC錯(cuò)誤、NVLink錯(cuò)誤)和軟件配置問題(如shell啟動(dòng)失敗、缺少配置文件)可能影響系統(tǒng)運(yùn)行,需要專業(yè)知識進(jìn)行診斷。任務(wù)調(diào)度失敗、訓(xùn)練速度慢、資源不足(如00M錯(cuò)誤)等問題,需要對平臺(tái)執(zhí)行Al任務(wù)的邏輯有—定了解。3.用戶權(quán)限和資源管理:用戶權(quán)限設(shè)置、資源申請、工作空間配置等方面的問題,需要對平臺(tái)的運(yùn)營體系有深入了解才能4.環(huán)境配置和依賴問題:Al模型訓(xùn)練環(huán)境配置復(fù)雜,涉及鏡像、數(shù)據(jù)集、代碼等Al資產(chǎn)的管理,以及依賴包的安裝和配置5.網(wǎng)絡(luò)和存儲(chǔ)問題:網(wǎng)絡(luò)連接問題、存儲(chǔ)設(shè)置錯(cuò)誤、文件操作限制等,6.硬件故障:7.用戶熟悉度不足:用戶對平臺(tái)的使用不熟悉,導(dǎo)致操作錯(cuò)誤或無法充分利用平臺(tái)功能。智算平臺(tái)的任務(wù)排查是—項(xiàng)極具挑戰(zhàn)的工作,它要求運(yùn)維人員不僅要有深厚的技術(shù)背景,還需對整個(gè)系統(tǒng)架構(gòu)有全面的理解。從底層硬件的穩(wěn)定性到軟件配置的精確性,每—個(gè)環(huán)節(jié)都可能導(dǎo)致訓(xùn)練任務(wù)執(zhí)行失敗。同時(shí)新的挑戰(zhàn)不斷涌現(xiàn),如確保數(shù)據(jù)安全、遵守合規(guī)性要求、處理大規(guī)模并發(fā)請求等,都進(jìn)—步增加了任務(wù)排查的難度。根據(jù)目前智算平臺(tái)運(yùn)維運(yùn)營的現(xiàn)狀,為了提高智算平臺(tái)的運(yùn)維效率和穩(wěn)定性,需要完善自動(dòng)化監(jiān)控和故障排除工具,加強(qiáng)人才培養(yǎng),確保智算平臺(tái)在面對日益復(fù)雜的AI任務(wù)時(shí),仍能保持高效和穩(wěn)定,并且將大模型等AI技術(shù)有效得應(yīng)用。本研究報(bào)告面向智算平臺(tái)支持AI模型訓(xùn)練的全生命周期,總結(jié)當(dāng)前智算平臺(tái)的運(yùn)維和運(yùn)營難點(diǎn),并提出了相應(yīng)的解決方案。智算基礎(chǔ)設(shè)施和AI服務(wù)平臺(tái)位于智算平臺(tái)體系結(jié)構(gòu)的最底層,主要提供兩個(gè)重點(diǎn)能力:基礎(chǔ)設(shè)施展性、高性能的Iaas+Paas的環(huán)境:1.基礎(chǔ)設(shè)施Iaas:IDC機(jī)房、網(wǎng)絡(luò)交換機(jī)(RDMA網(wǎng)絡(luò)交換機(jī)、通用網(wǎng)絡(luò)交換機(jī))、算力服務(wù)器(智算算力服務(wù)器、通用計(jì)算服務(wù)器)、存儲(chǔ)服務(wù)器等能力;同時(shí)還有基于基礎(chǔ)設(shè)施的集群建設(shè),為上層平臺(tái)和應(yīng)用2.AI平臺(tái)paas:提供隨開即用的的AI作業(yè)平臺(tái),完成對AI模型(包括大模型)的開發(fā)和訓(xùn)練。資源管理和算力資源的監(jiān)控,也為上層的智算模型運(yùn)營提供產(chǎn)品和服務(wù)(模型微調(diào)、Agent、AI資產(chǎn)生態(tài)運(yùn)營等),有效地提升智算平臺(tái)整體的性能和用戶體驗(yàn)。臺(tái)臺(tái)臺(tái)智算運(yùn)營運(yùn)維中心主要分為三個(gè)重點(diǎn)的模塊:.1AI模型的開發(fā),尤其是大語言模型的開發(fā)過程包含許多復(fù)雜組件,如數(shù)據(jù)加工、數(shù)據(jù)預(yù)處理、提示詞工程、模型微調(diào)、模型部署、模型監(jiān)控等,同時(shí)還需要跨團(tuán)隊(duì)的協(xié)作和交接,從數(shù)據(jù)工程到數(shù)品工具和專家服務(wù),降低用戶在AI模型訓(xùn)練和應(yīng)用的工程門檻,提高大模型應(yīng)用的開發(fā)效率。AI運(yùn)營非常重要,包括可視化,透明度和可解釋性。通過AI模型的運(yùn)營模塊,可以讓非技術(shù)人員參1.模型運(yùn)營:模型運(yùn)營的目標(biāo)是為了釋放大模型的價(jià)值,其中包含模型微調(diào)、提示詞工程、智能體(包含各種工程組件)以及模型監(jiān)控等能力,同時(shí)也包含大模型專家服務(wù)用來解決在模型訓(xùn)練和推理過程中2.AI資產(chǎn)運(yùn)營:主要面向豐富的AI資產(chǎn)生態(tài),具體包含:1)模型集市:包含官方開源的大模型和組織內(nèi)公開的大模型,可以進(jìn)行模型版本的控制更新,分享和部署。2)數(shù)據(jù)集市:包含官方開源的數(shù)據(jù)集,和組織內(nèi)公開的數(shù)據(jù)集,可以協(xié)同開展數(shù)據(jù)上云,數(shù)據(jù)加工,數(shù)據(jù)共享等。3)鏡像集市:主要包含支持各種大模型的不同鏡像,來自不同的社區(qū)。4)實(shí)驗(yàn)集市:主要包含各種業(yè)務(wù)組件,用于降低模型部署或者數(shù)據(jù)加工的工程化門檻。.2平臺(tái)運(yùn)營可以幫助企業(yè)利用已有的算力資產(chǎn),向租戶出售算力產(chǎn)品和增值服務(wù),幫助用戶更高效地使用算力。同時(shí)平臺(tái)運(yùn)營會(huì)有效地處理用戶資源數(shù)據(jù),給企業(yè)組織提供決策和實(shí)現(xiàn)平臺(tái),從而提高整體智算平臺(tái)的運(yùn)營效率,降低管理和維護(hù)成本。1.用戶運(yùn)營:用戶運(yùn)營主要包含用戶權(quán)限管理、工單答疑、用戶培訓(xùn)等。通過工單服務(wù)解決用戶找人難、上手2.資源運(yùn)營:—站式的資源全生命周期管理。資源運(yùn)營主要包含全面的資源管理,包含不同類型、不同收費(fèi)模式和計(jì)算資源進(jìn)行混合管理。用戶能夠在平臺(tái)對計(jì)算資源進(jìn)行從申請、審批、創(chuàng)建、變更到回收的全鏈路管理動(dòng)作,并且平臺(tái)能夠精確記錄資源的申請或變更記錄、資源的項(xiàng)目歸屬和資源的計(jì)3.運(yùn)營管理:包含管理經(jīng)驗(yàn)的運(yùn)營流程設(shè)計(jì)、數(shù)字化管理、經(jīng)營分析和計(jì)量計(jì)費(fèi)等模塊,幫助用戶高效、便捷地對智算場景開展更全面精細(xì)和準(zhǔn)確的運(yùn)營。通過數(shù)字化管理和經(jīng)營分析可以快速的發(fā)現(xiàn)問題,.3通過端到端地對物理資源、機(jī)器學(xué)習(xí)平臺(tái)及上層應(yīng)用進(jìn)行日志采集和監(jiān)控,平臺(tái)運(yùn)維能夠快速且精確地診斷問題,迅速響應(yīng)并預(yù)防重大問題的發(fā)生。同時(shí),平臺(tái)運(yùn)維提供專門針對智能計(jì)算任務(wù)的運(yùn)維服務(wù),以解決用戶在使用時(shí)硬件基礎(chǔ)設(shè)施時(shí)遇到的功能和性能等問題。1.業(yè)務(wù)連續(xù)性:點(diǎn),以及網(wǎng)絡(luò)和通信等底層基礎(chǔ)設(shè)施硬件。此外,還需支持上層的容器服務(wù),確保容器和容器間的通信,以及每個(gè)容器里代碼平穩(wěn)地運(yùn)行,從而產(chǎn)生可靠的AI運(yùn)算結(jié)果。在業(yè)務(wù)連續(xù)性方面,需2.安全防護(hù):安全體系的設(shè)計(jì)需要多個(gè)重要的參與方,運(yùn)維團(tuán)隊(duì)需要跟安全團(tuán)隊(duì)緊密合作,確保技術(shù)基礎(chǔ)設(shè)施的可靠性和安全性。運(yùn)維團(tuán)隊(duì)負(fù)責(zé)日常系統(tǒng)維護(hù)、軟件部署和故障排除,安全團(tuán)隊(duì)則專注于評估3.智算運(yùn)維:智算運(yùn)維模塊不同于傳統(tǒng)運(yùn)維的服務(wù)能力,主要針對大模型訓(xùn)練和推理的相關(guān)業(yè)務(wù)需求開展性能分析優(yōu)化、算力和存儲(chǔ)擴(kuò)容、軟件鏡像安裝、模型訓(xùn)練報(bào)錯(cuò)診斷為保障智算平臺(tái)的安全穩(wěn)定和業(yè)務(wù)的長效運(yùn)營,平臺(tái)運(yùn)營運(yùn)維需要如1.智算平臺(tái)運(yùn)營組:2.智算運(yùn)維保障組:維服務(wù)5*8,遠(yuǎn)程運(yùn)維保障服務(wù)7*24。3.AI應(yīng)用運(yùn)營組:大模型模型運(yùn)營負(fù)責(zé)提供模型部署的數(shù)據(jù)支持,確保模型可以穩(wěn)定高效地推理和應(yīng)用,同時(shí)確保用4.AI資產(chǎn)運(yùn)營組:5.安全保障組:負(fù)責(zé)平臺(tái)安全架構(gòu)設(shè)計(jì),包括防御、監(jiān)測體系構(gòu)建,潛在風(fēng)險(xiǎn)識別和安全策略制定。智算硬件/網(wǎng)絡(luò)運(yùn)維智算硬件/網(wǎng)絡(luò)運(yùn)維算平臺(tái)售后服務(wù)7*24.2為了保障平臺(tái)建設(shè)和運(yùn)維運(yùn)營過程中的整體穩(wěn)定性和線上業(yè)務(wù)的正常運(yùn)行,結(jié)合人員和工具的能1.資源管理:2.故障恢復(fù):制定故障恢復(fù)流程,包括自動(dòng)故障轉(zhuǎn)移、備份和恢復(fù)機(jī)制,以最小化系統(tǒng)停機(jī)時(shí)間。3.性能監(jiān)控:實(shí)施實(shí)時(shí)監(jiān)控系統(tǒng),跟蹤集群的性能指標(biāo),如負(fù)載、響應(yīng)時(shí)間、錯(cuò)誤率等,以便及時(shí)發(fā)現(xiàn)并解決4.資源巡檢機(jī)制:定期進(jìn)行資源巡檢,確保資源配置得當(dāng),及時(shí)發(fā)現(xiàn)資源使用中的瓶頸和浪費(fèi)問題。5.用戶管理:建立用戶管理體系,確保用戶權(quán)限的合理分配,優(yōu)化用戶體驗(yàn),包含用戶在項(xiàng)目申請、賬單結(jié)算、6.數(shù)據(jù)管理:制定數(shù)據(jù)管理政策,確保數(shù)據(jù)的完整性、可用性和合規(guī)性,提高數(shù)據(jù)的質(zhì)量和分析能力。7.AI模型管理:8.AI應(yīng)用管理:9.文檔和知識管理:10.成本管理:安全架構(gòu)設(shè)計(jì):制定嚴(yán)格的安全政策和協(xié)議,包括訪問控制、數(shù)據(jù)加密和網(wǎng)絡(luò)安全措施,保護(hù)集群免受內(nèi)外部威脅。安全合規(guī)性和審計(jì):確保所有操作符合法律法規(guī)要求,并定期進(jìn)產(chǎn)研協(xié)同體系:(CBSS)(CBSS)……運(yùn)營管理制度……AI的運(yùn)營主要包含模型運(yùn)營和AI資產(chǎn)運(yùn)營,其中模型運(yùn)營主要為了完成AI模型的業(yè)務(wù)應(yīng)用,AI資??ne-tuning大模型應(yīng)用還面臨諸多挑戰(zhàn),例如開發(fā)團(tuán)隊(duì)還未適應(yīng)大模型編程的需求,對大模型的實(shí)際應(yīng)用場景理解、工具的選擇(例如中間件、向量數(shù)據(jù)庫等)以及團(tuán)隊(duì)的協(xié)作模式、如何構(gòu)建prompt等方面都存在—定的認(rèn)知偏差。開發(fā)團(tuán)隊(duì)需要在大模型技術(shù)棧方面建立更多的共識,對于如何使用RAG(RetrievalAugmentedGeneration)或者微調(diào)等.1產(chǎn)品化工具,簡化工程化能力,幫助用戶快速部署模型和實(shí)現(xiàn)模型在實(shí)際業(yè)務(wù)場景中的價(jià)值。圖9微調(diào)、提示詞工程、RAG技術(shù)d→Kd→K.2模型微調(diào)(Fine-tuning)模型微調(diào)是指在預(yù)訓(xùn)練模型的基礎(chǔ)上,針對特定的應(yīng)用場景或數(shù)據(jù)集進(jìn)行進(jìn)—步訓(xùn)練的過程??傻媚P透玫剡m應(yīng)特定的任務(wù),提高其在該任務(wù)上的表現(xiàn),其主要技術(shù)包括:1.全微調(diào):用預(yù)訓(xùn)練模型作為初始化權(quán)重,在特定數(shù)據(jù)集上繼續(xù)訓(xùn)練,全部參數(shù)都更新的方法。2.高效參數(shù)微調(diào):a)增加額外的參數(shù)(Addition-Based):pre?xTuning、promptTuning、AdapterTuning。b)選取-部分參數(shù)的更新(selection-Based):BitFit。c)引入重參數(shù)化Reparameterization-Based:LoRA。d)混合高效微調(diào):MAMAdapter、unipELT。+(a)sequentialAdapterQQ+QKV QKV +?10?????????RAG是—種結(jié)合了檢索(RetrieVal)和生成(Generation)的模型架構(gòu),它首先從—個(gè)大型的數(shù)據(jù)庫中檢索相關(guān)信息,然后將這些信息整合到生成模型中,以生成更加豐富和準(zhǔn)確的輸出。該方法有非常多的優(yōu)勢,例如:a)RAG通過將答案與外部知識聯(lián)系起來,減少語言模型中的幻覺問題,并使生成的回答更加準(zhǔn)確可靠。c)透明度,通過引用來源,驗(yàn)證答案的準(zhǔn)確性,增加對模型輸出的可解釋性。d)安全和隱私管理,RAG憑借其在數(shù)據(jù)庫中內(nèi)置的角色和安全控制,可以更好地控制數(shù)據(jù)使用。新增問答chatBot選擇調(diào)用大模型生成問答新增問答chatBot選擇調(diào)用大模型生成問答chatBot應(yīng)用調(diào)度企業(yè)業(yè)務(wù)系統(tǒng)文檔檢索組織A組織A組織B組織B組織c組織c整體RAG系統(tǒng)包含兩個(gè)階段:檢索階段(Retrievalphase)和生成階段。其中在檢索階段,根據(jù)用戶提出的問題,檢索系統(tǒng)搜索用戶上傳的知識庫,(該知識庫可能包含文檔、網(wǎng)頁或其他形式的數(shù)據(jù)。同時(shí)知識庫會(huì)被切成不同的片段以向量的方式存在向量庫)。語言模型會(huì)把檢索到的文檔作為輸入,結(jié)合問題和用戶的原始問題,生成答案輸出。.4提示詞是—種引導(dǎo)模型生成特定類型回答的方法。在—些生成模型中,通過精心設(shè)計(jì)的提示詞可以引導(dǎo)模型生成更加相關(guān)和高質(zhì)量的內(nèi)容。高質(zhì)量的提示詞可以提升答案生成的質(zhì)量,實(shí)現(xiàn)特定任務(wù)和目標(biāo),同時(shí)設(shè)定個(gè)性化的風(fēng)格來適應(yīng)多樣化的需求。.5智能體是人工智能領(lǐng)域的重要概念,它可以被定義為—個(gè)實(shí)體,可以在所處的環(huán)境中感知信息,并且根據(jù)這些信息作出決策,然后實(shí)現(xiàn)特定的目標(biāo)和任務(wù)。智能體有自主性,感知能力和決策能務(wù)分解為更小的子目標(biāo),并使用短期和長期記憶來處理信息。和服務(wù),幫助用戶快速構(gòu)建和實(shí)現(xiàn)AI應(yīng)用。力,可以將大任務(wù)拆解為自任務(wù),并且可以自動(dòng)化使用和調(diào)用工具,為大語言模型的應(yīng)用帶來了 calendar()calendar()Relectioncalculator()Relectioncalculator()selfself-critics chainofthoughtssearch()subgoaldecomposition...moresubgoaldecomposition...more.6步是AI資產(chǎn)的管理,確保算力可以有效利用,快速訓(xùn)練出符合業(yè)務(wù)場景需求的模型的關(guān)鍵。第二步通過AI資產(chǎn)的運(yùn)營,讓AI資產(chǎn)實(shí)現(xiàn)共享,可以輕松下載和訓(xùn)練組織之間的預(yù)訓(xùn)練模型,大幅節(jié)約研發(fā)者的模型訓(xùn)練成本和時(shí)間,構(gòu)造組織內(nèi)部AI的開源社區(qū)。這些類型:1.數(shù)據(jù)集市:數(shù)據(jù)是訓(xùn)練模型的基礎(chǔ)。高質(zhì)量的數(shù)據(jù)集可以提高AI系統(tǒng)的性能和準(zhǔn)確性,且大模型數(shù)據(jù)龐大,開源數(shù)據(jù)集需要被登記和管理,平臺(tái)需要實(shí)現(xiàn)組織內(nèi)部的數(shù)據(jù)共享,為大模型訓(xùn)練提供語料庫。該模塊具備如下的能力:a)數(shù)據(jù)上云:.支持對各種原始格式的數(shù)據(jù)格式,例如PDF,D0cX,XML接入平臺(tái),對結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)導(dǎo)入,實(shí)現(xiàn)大規(guī)b)數(shù)據(jù)管理:.對數(shù)據(jù)的來源和權(quán)限,以及元數(shù)據(jù)屬性進(jìn)行管理。.對數(shù)據(jù)的業(yè)務(wù)屬性和AI屬性進(jìn)行管理,例如數(shù)據(jù)集的領(lǐng)域,應(yīng)用場景和相關(guān)權(quán)限。.對數(shù)據(jù)集提供上架,更新和下載的能力,對數(shù)據(jù)集全生命周期管理。c)數(shù)據(jù)加工:d)數(shù)據(jù)標(biāo)注:.平臺(tái)提供集成的標(biāo)注工具,支持不同類型數(shù)據(jù)的標(biāo)注需求,如圖像、文本、音頻和視頻。提供直觀的用戶界面,使.設(shè)計(jì)和實(shí)施標(biāo)準(zhǔn)化的標(biāo)注流程,確保數(shù)據(jù)標(biāo)注的—致性和準(zhǔn)確性。且支持多人協(xié)作標(biāo)注,實(shí)現(xiàn)標(biāo)注任務(wù)的分配、審.自動(dòng)化標(biāo)注,利用機(jī)器學(xué)習(xí)技術(shù),開發(fā)自動(dòng)化標(biāo)注工具,以減少人工標(biāo)注的工作量。e)數(shù)據(jù)展示:.平臺(tái)提供基礎(chǔ)的BI報(bào)表建設(shè)能力,允許對數(shù)據(jù)集的相關(guān)結(jié)構(gòu)化信息開展業(yè)務(wù)分析,對核心的數(shù)據(jù)指標(biāo)進(jìn)行可視化報(bào)2.模型集市:模型集市支持用戶發(fā)布和下載開源的預(yù)訓(xùn)練模型。實(shí)現(xiàn)對模型共享和快速模型的部署。同時(shí)將用戶訓(xùn)練好的模型進(jìn)行上架、更新、版本管理,實(shí)現(xiàn)對模型的全生命周期管理。a)模型注冊:.模型注冊提供模型的上架能力,對模型的版本進(jìn)行控制,快速完成模型的業(yè)務(wù)打標(biāo),如來源、應(yīng)用場景、描述說明b)模型部署:c)模型庫管理:系列的模型文檔,用戶反饋系統(tǒng),調(diào)用次數(shù)和下載次數(shù)的監(jiān)控。3.鏡像集市:提供豐富的鏡像資源庫,允許用戶瀏覽,選擇和下載各種大模型訓(xùn)練需要的環(huán)境依賴。該模塊通過提供預(yù)配置的鏡像,顯著簡化了大模型訓(xùn)練和部署的復(fù)雜性,降低了工程實(shí)施的門檻,支持開a)鏡像導(dǎo)入:b)鏡像庫管理:·建立流程服務(wù)和管理鏡像庫,包含關(guān)鍵鏡像的官方源更新和軟件更新,同時(shí)允許用戶鏡像訪問權(quán)限控制和共享用戶c)鏡像診斷:·對于大型和復(fù)雜的模型,提供鏡像診斷工具,幫助用戶排查和解決鏡像使用中的問題,并提供核心技術(shù)支持。4.實(shí)驗(yàn)集市:實(shí)驗(yàn)集市為研究人員提供了—個(gè)平臺(tái),用于管理、共享和協(xié)作實(shí)驗(yàn)流程和結(jié)果?;谒阕雍凸ぞ邔?shí)現(xiàn)不同場景的算法業(yè)務(wù)流,對實(shí)驗(yàn)設(shè)計(jì)、執(zhí)行、結(jié)果分析和共享。a)工具管理:理,確保實(shí)驗(yàn)的可重復(fù)性。b)實(shí)驗(yàn)管理:·實(shí)現(xiàn)實(shí)驗(yàn)的全生命周期管理,從實(shí)驗(yàn)設(shè)計(jì)、執(zhí)行到結(jié)果分析,支持實(shí)驗(yàn)的自動(dòng)化執(zhí)行。c)實(shí)驗(yàn)工具研發(fā):·鼓勵(lì)和支持研究人員開發(fā)新的實(shí)驗(yàn)工具,以滿足特定的研究需求。提供工具開發(fā)的資源和指導(dǎo),促進(jìn)創(chuàng)新和協(xié)作。智算平臺(tái)的運(yùn)營從用戶的使用需求開始,覆蓋資源使用的全流程,形成智算平臺(tái)運(yùn)維運(yùn)營體系,.1數(shù)據(jù)傳輸鏡像構(gòu)造AI數(shù)據(jù)傳輸鏡像構(gòu)造AI任務(wù)中心存儲(chǔ)規(guī)劃管理鏡像規(guī)劃管理知識庫管理申請賬號/項(xiàng)目添加項(xiàng)目成員項(xiàng)目組管理規(guī)劃項(xiàng)目資源申請平臺(tái)資源規(guī)劃登錄算力平臺(tái)網(wǎng)絡(luò)規(guī)劃賬單查收計(jì)量計(jì)費(fèi)規(guī)劃接入復(fù)雜跑不起來機(jī)器人對話部署難度大接入復(fù)雜跑不起來機(jī)器人對話部署難度大代碼報(bào)錯(cuò)知識圖譜數(shù)據(jù)平臺(tái)知識圖譜數(shù)據(jù)平臺(tái) 生成圖產(chǎn)品saas接入困難saas接入困難 代碼 代碼reviewcheckpoints數(shù)據(jù)集獲取難,不能共享數(shù)據(jù)集上云成本高數(shù)據(jù)上云,數(shù)據(jù)處理GPUGPU節(jié)點(diǎn)集群和基礎(chǔ)設(shè)施模型共享模型注冊模型版本控制集群安全,數(shù)據(jù)安全,模型安全集群安全,數(shù)據(jù)安全,模型安全通過產(chǎn)品化的能力以及相關(guān)的運(yùn)營運(yùn)維流程,為用戶提供—系列針對智算平臺(tái)使用的服務(wù),讓用戶可以高效地管理自己的賬戶、資源和服務(wù)。同時(shí)運(yùn)營團(tuán)隊(duì)需要制定—系列的規(guī)范和機(jī)制,指導(dǎo)用戶高效地使用算力。其中包含:1.用戶和項(xiàng)目組注冊:為用戶提供賬戶的注冊、項(xiàng)目組注冊和管理等能力。2.資源開通:為用戶提供資源和規(guī)格的選擇、開通算力和存儲(chǔ)資源。3.訂單管理:用戶可以管理賬戶的資源訂單,以及上傳和編輯合同模版。4.工單管理:用戶可以提交和跟蹤工單,以及查看故障待辦和當(dāng)前進(jìn)展。5.賬戶資金管理:用戶可以充值賬戶、查看資金余額、資金使用明細(xì),以及管理賬單和發(fā)票。6.消息和通知:用戶可以接收和查看系統(tǒng)消息,以及工單狀態(tài)更新。7.用戶信息和安全:用戶可以維護(hù)個(gè)人信息,如修改密碼、綁定手機(jī)號和郵箱,保障賬戶安全。智算的工單答疑是運(yùn)營難度最大的模塊,用戶的問題遍及平臺(tái)運(yùn)營、AI模型、基礎(chǔ)設(shè)施和上層應(yīng)框架的使用問題解答。智算平臺(tái)運(yùn)營是云計(jì)算、大數(shù)據(jù)、人工智能平臺(tái)運(yùn)營的結(jié)合,要求運(yùn)維人工單答疑是影響平臺(tái)客戶滿意度的重要服務(wù)模塊,可采取根據(jù)用戶畫像分群體運(yùn)營的模式,例如群運(yùn)營、VIP服務(wù)運(yùn)營等。工單答疑需要通過對工單分類、對用戶意題及解決方案文檔進(jìn)行總結(jié),通過訓(xùn)練自主問答機(jī)器人將結(jié)構(gòu)化的正確答案輸出。知識知識知識知識知識.2適用于小型到中型的計(jì)算任務(wù),如傳統(tǒng)機(jī)器學(xué)習(xí),只涉及單卡計(jì)算資源,管理和調(diào)度相對簡單,卡資源需求靈活,但容易造成整臺(tái)機(jī)器的碎片化,影響算力的供給。適用于更高計(jì)算能力的任務(wù),例如深度學(xué)習(xí)模型的單機(jī)多卡任務(wù)可以顯著提高算力,需要有效的資源規(guī)劃,考適用于超大型計(jì)算任務(wù),如超大規(guī)模深度學(xué)習(xí)模型2?????????????Т????算力運(yùn)營平臺(tái)實(shí)現(xiàn)了對多樣化計(jì)算資源的全面納管,包括多種型號的GPU和CPU和定制化的計(jì)算資源。用戶可以在統(tǒng)—的交互界面中,輕松管理整個(gè)計(jì)算平臺(tái)的服務(wù)目錄,實(shí)現(xiàn)資源的整合與優(yōu)算力運(yùn)營平臺(tái)支持從算力資源申請、審批、創(chuàng)建、變更到回收的全生命周期管理動(dòng)作。平臺(tái)能夠精確記錄資源的申請和變更記錄、資源的項(xiàng)目歸屬和資源的計(jì)費(fèi)主體,提供根據(jù)資源類型、作業(yè)目的、提交者身份等不同維度的資源審批能力,實(shí)現(xiàn)對資源的全生命周期運(yùn)營管理。算力調(diào)度是指在系統(tǒng)中合理分配和利用計(jì)算資源的過程,其主要目的是提高整個(gè)集群的利用率,保證任務(wù)的高效執(zhí)行。算力調(diào)度系統(tǒng)的復(fù)雜性主要由兩個(gè)因素造成:—是業(yè)務(wù)資源約束因素;二是底層的基礎(chǔ)設(shè)施、資源隔離能力約束因素。挑出最合適的物理機(jī),通過機(jī)器混合調(diào)度提升機(jī)器使用效率。智算集群通過容器化的方式屏蔽了物理機(jī)之間的配置差異,進(jìn)—步提升使用體驗(yàn)。傳統(tǒng)的算力管理通常以物理機(jī)為單位,將物理機(jī)分配給對應(yīng)團(tuán)隊(duì),由相關(guān)團(tuán)隊(duì)內(nèi)部再進(jìn)行資源分配,在資源空閑時(shí)造成了極大的浪費(fèi)。智算平臺(tái)用虛擬化、負(fù)載均衡等技術(shù)將計(jì)算資源(如CPU、GPU、內(nèi)存等)集中管理,形成—個(gè)統(tǒng)—的資源池,可根據(jù)資源余量、用戶需求進(jìn)行動(dòng)態(tài)分配,提供更好的可擴(kuò)展性和靈活性。同時(shí)支持隊(duì)列管理能力,在資源不足的情況下開啟計(jì)算任務(wù)排隊(duì)模式,在有資源空閑時(shí)自動(dòng)啟動(dòng)新任務(wù),極大提升了資源利用和流轉(zhuǎn)效率。根據(jù)采集的指標(biāo),結(jié)合智算應(yīng)用場景,搭配貼合實(shí)際治理場景的治理策略,更精細(xì)、更精準(zhǔn)的發(fā)現(xiàn)可優(yōu)化的實(shí)例,治理的指標(biāo)如下表所示:在多卡訓(xùn)練任務(wù)中,長期有卡閑置實(shí)例不需要GPU卡,建議申請低配機(jī)器運(yùn)行時(shí)間久,無人管理全鏈路資源治理包括對治理項(xiàng)目的持續(xù)監(jiān)控、智能推送治理建議、詳細(xì)查看治理記錄、實(shí)時(shí)線上反饋以及持續(xù)的校驗(yàn)與巡查等關(guān)鍵環(huán)節(jié)。運(yùn)營服務(wù)團(tuán)隊(duì)能夠通過這—機(jī)制,獲得對治理狀態(tài)的洞察分析,從而確保治理措施的高效和精確執(zhí)行。此外,團(tuán)隊(duì)成員可以通過任務(wù)分配、即時(shí)在線反饋、定期巡查以及策略調(diào)整等手段,不斷推動(dòng)治理規(guī)則的持續(xù)運(yùn)作與優(yōu)化,形成良性的閉環(huán)資源資源效能主要是對資源使用情況進(jìn)行監(jiān)控,為資源優(yōu)化和管理提供數(shù)據(jù)基礎(chǔ)和依據(jù),并且開展對應(yīng)的資源分析。和傳統(tǒng)的機(jī)器監(jiān)測重點(diǎn)不同,智算平臺(tái)重點(diǎn)監(jiān)測顯卡性能指標(biāo)。在AI小模型時(shí)代,由通信問題造成的性能瓶頸較為少見,而在TB級大模型時(shí)代,分布式訓(xùn)練及大規(guī)模數(shù)據(jù)可能會(huì)導(dǎo)致訓(xùn)練中斷、梯度爆炸、算法重跑等問題,造成時(shí)間和成本的損失,因此資源效能模塊對任務(wù)穩(wěn)定性非常重要。資源效能治理主要包含以下能力:1)GPU性能監(jiān)控:·實(shí)時(shí)監(jiān)控顯卡性能指標(biāo),包括GPU使用率、顯存使用情況、溫度等,以預(yù)防過熱和故障。2)任務(wù)管理:·盤點(diǎn)當(dāng)前運(yùn)行的任務(wù)數(shù)量,優(yōu)化任務(wù)隊(duì)列,減少作業(yè)等待時(shí)間。3)存儲(chǔ)監(jiān)控:·監(jiān)控系統(tǒng)內(nèi)存和存儲(chǔ)的使用情況,確保數(shù)據(jù)讀寫不會(huì)成為限制因素。4)網(wǎng)絡(luò)通信:.3息,給企業(yè)組織的決策系統(tǒng)提供信息支持,從而提高對平臺(tái)整體的運(yùn)營效率,降低額外的維護(hù)和智算平臺(tái)需要沉淀用戶使用行為與資源運(yùn)行數(shù)據(jù),通過深度分析和挖掘,了解智算平臺(tái)的運(yùn)營情況及用戶需求,來進(jìn)行決策和優(yōu)化,使運(yùn)營管理團(tuán)隊(duì)能夠更加精準(zhǔn)地了解自身運(yùn)營狀況,及時(shí)調(diào)整運(yùn)營策略,提升平臺(tái)的使用效率。其中可以接入的數(shù)據(jù)主要包括:2.機(jī)器狀況,GPU機(jī)器使用率和網(wǎng)絡(luò)帶寬。4.知識庫文章數(shù)量,以及知識庫瀏覽和下載量。1.訂單管理:2.賬單管理:3.發(fā)票管理:4.代金券管理:5.支付管理:6.價(jià)格管理:運(yùn)營團(tuán)隊(duì)承擔(dān)每個(gè)月對賬、出賬、收費(fèi)核對和處理賬單相關(guān)的工單等工作。常規(guī)流程如下:在智算平臺(tái)的業(yè)務(wù)流程中,賬單預(yù)覽允許用戶在正式賬單生成前查看和確認(rèn)即將產(chǎn)生的費(fèi)用。對異常賬單進(jìn)行分析和檢查,確保賬單的準(zhǔn)確性。對賬完成后,賬單被正式發(fā)送給用戶,明確其應(yīng)付金額。用戶在平臺(tái)規(guī)定的時(shí)間內(nèi)對賬戶進(jìn)行充值。平臺(tái)進(jìn)行收費(fèi)核對,驗(yàn)證用戶賬戶是否有足夠的算力余額,如果賬戶資金不足,且未在補(bǔ)交期限內(nèi)完成充值,可能會(huì)導(dǎo)致賬戶凍結(jié)。用戶可在指定時(shí)間范圍內(nèi)針對本月的賬單提交二次確認(rèn)申請,運(yùn)營團(tuán)隊(duì)將對申請進(jìn)行審核和處理,完成整個(gè)為了追求更高的訓(xùn)練速度和模型性能,大模型訓(xùn)練通常以并行計(jì)算的方式進(jìn)行,會(huì)使用數(shù)百臺(tái)個(gè)計(jì)算系統(tǒng)中,每個(gè)部件都有概率出現(xiàn)異常,系統(tǒng)越大,整體出現(xiàn)問題的概率越高,例如網(wǎng)絡(luò)的抖動(dòng)、板卡的故障、GPU的故障等不可避免,可以認(rèn)為服務(wù)于大模型的計(jì)算集群,穩(wěn)定性保障是智智算平臺(tái)運(yùn)維是—項(xiàng)復(fù)雜的系統(tǒng)工作,涉及到硬件的維護(hù)、軟件的更新、性能監(jiān)控以及故障排查等多個(gè)方面。運(yùn)維的目標(biāo)是保障集群的穩(wěn)定性,以.1面向海量數(shù)據(jù)處理和大規(guī)模計(jì)算的復(fù)雜應(yīng)用,智算平臺(tái)可以提供高性能計(jì)算任務(wù)并行調(diào)度框架,需兼容主流的kubernetes、Slurm、PBS、LSF等調(diào)度器及多種編程模式,并具備高可擴(kuò)展性,支持十萬以上的并行任務(wù)調(diào)度能力,支持自動(dòng)檢測故障和系統(tǒng)熱點(diǎn),重試失敗任務(wù),保證任務(wù)穩(wěn)定統(tǒng)—管理和調(diào)度的能力。容器化調(diào)度帶來如下優(yōu)勢:2.更加簡單:優(yōu)秀的用戶體驗(yàn)。Al應(yīng)用無需重編譯,無需構(gòu)建新的容器鏡像進(jìn)行CUDA庫替換。3.更加穩(wěn)定:針對NvlDlA設(shè)備的底層操作更加穩(wěn)定和收斂,而CUDA層的APl變化多端,同時(shí)—4.完整隔離:同時(shí)支持GPU的顯存和算力隔離。spread:多個(gè)Pod會(huì)盡量分散使用不同GPU卡,適用于GPU高可用場景。盡量支持只共享不隔離策略,適配于已有深度學(xué)習(xí)應(yīng)用內(nèi)已自建應(yīng)用層隔離能力的場景的選擇。HPC高性能計(jì)算集群,主要提供CPU算力資源,能夠處理復(fù)雜和大規(guī)模的計(jì)算任務(wù),用避免相互干擾,提高運(yùn)行效率。 status status status.2P0SIXFileopenstackobject上千臺(tái)機(jī)器的同時(shí)訪問,具有高吞吐、高I0PS(每秒輸入輸出操作數(shù))和亞毫秒級的延時(shí)。其中,P0SIXFileopenstackobjectAnalyticsTransparentTransparent統(tǒng)-命名空間統(tǒng)-命名空間計(jì)算節(jié)點(diǎn)客戶端文件存儲(chǔ)對象存儲(chǔ)文件存儲(chǔ)對象存儲(chǔ)數(shù)據(jù)流動(dòng)文件存儲(chǔ)1.數(shù)據(jù)傳輸慢:a)網(wǎng)絡(luò)帶寬檢查:b)服務(wù)器性能:d)使用更高效的傳輸協(xié)議:2.離線數(shù)據(jù)導(dǎo)入:離線數(shù)據(jù)導(dǎo)入大數(shù)據(jù)集群是—個(gè)常見的數(shù)據(jù)集成任務(wù),分為以下幾個(gè)步驟:a)數(shù)據(jù)準(zhǔn)備:b)對數(shù)據(jù)進(jìn)行清洗和預(yù)處理,以確保數(shù)據(jù)質(zhì)量。C)數(shù)據(jù)壓縮:在導(dǎo)入之前,對數(shù)據(jù)進(jìn)行壓縮,可以減少傳輸時(shí)間和存儲(chǔ)空間。d)選擇合適的導(dǎo)入工具:根據(jù)大數(shù)據(jù)集群的類型,選擇相應(yīng)的數(shù)據(jù)導(dǎo)入工具,例如Hadoop的distcp(分布式復(fù)制),ApacheSpark的e)網(wǎng)絡(luò)傳輸:f)數(shù)據(jù)導(dǎo)入:g)數(shù)據(jù)分區(qū):根據(jù)數(shù)據(jù)的特性和查詢需求,對數(shù)據(jù)進(jìn)行合理的分區(qū),以優(yōu)化查詢性能。3.數(shù)據(jù)遷移:空間的元數(shù)據(jù)管理。運(yùn)維策略中應(yīng)包含數(shù)據(jù)流動(dòng)的管理,以確保數(shù)據(jù)在對象存儲(chǔ)和存儲(chǔ)集群之間4.性能監(jiān)控:存儲(chǔ)的性能監(jiān)控可以監(jiān)控關(guān)鍵指標(biāo)的狀態(tài)和歷史趨勢。指導(dǎo)用戶關(guān)注數(shù)據(jù)如使用GUI開展下面的監(jiān)控:條件監(jiān)控相關(guān)性能指標(biāo),還可以在圖表上進(jìn)行平移和縮放,并顯示過去的統(tǒng)計(jì)信息。提供單個(gè)網(wǎng)絡(luò)共享磁盤(NsD)的性能、容量和運(yùn)行狀況方面的詳細(xì)視圖。.3在智算平臺(tái)運(yùn)行過程中,由于涉及到的數(shù)據(jù)量大、計(jì)算密集型任務(wù)頻繁數(shù)據(jù)傳輸和交換,因此需要大帶寬、低延遲的網(wǎng)絡(luò)傳輸協(xié)議。RDMA網(wǎng)絡(luò)在保證高速傳輸?shù)耐瑫r(shí),還能減少網(wǎng)絡(luò)負(fù)載,提高數(shù)據(jù)傳輸?shù)目煽啃?是智算平臺(tái)和智算中心建設(shè)中重要的技術(shù)能力。在執(zhí)行大規(guī)模并行計(jì)算任務(wù)時(shí),如AI模型訓(xùn)練和科學(xué)模擬等,—個(gè)高效的GPU集群網(wǎng)絡(luò)架構(gòu)—般1.高帶寬:網(wǎng)絡(luò)通信的延遲需要盡可能低,以減少計(jì)算任務(wù)的等待時(shí)間,提高整體的計(jì)算效率。3.可擴(kuò)展性:4.高吞吐量:網(wǎng)絡(luò)應(yīng)能夠處理大量并發(fā)連接和數(shù)據(jù)流,保證在高負(fù)載下的性能穩(wěn)定。5.容錯(cuò)性:網(wǎng)絡(luò)設(shè)計(jì)應(yīng)包含容錯(cuò)機(jī)制,以確保在部分網(wǎng)絡(luò)故障時(shí),集群仍能繼續(xù)運(yùn)行。6.擁塞控制:有效的擁塞控制算法可以防止網(wǎng)絡(luò)過載,確保數(shù)據(jù)傳輸?shù)姆€(wěn)定性。計(jì)算網(wǎng)絡(luò)網(wǎng)絡(luò)集群建設(shè)過程中,在保證集群穩(wěn)定性和性能要求的基礎(chǔ)上,往往會(huì)在可擴(kuò)展性和經(jīng)濟(jì)性上做以—個(gè)千卡A100集群共128臺(tái)GPU設(shè)備為例:計(jì)算網(wǎng)絡(luò)采用spine-Leaf兩層架構(gòu),32臺(tái)Leaf擴(kuò)大到256時(shí),不能簡單的做設(shè)備的增加,通常有兩種處理方案:—是沿著128集群所采用的spine-Leaf兩層架構(gòu),簡單擴(kuò)大到256集群,這種方案的優(yōu)點(diǎn)是簡單、省錢,但兩層的256集群已經(jīng)是極限,未來如果要繼續(xù)擴(kuò)容會(huì)比較麻煩。二是方案是采用core-spine-Leaf三層架構(gòu),前期在網(wǎng)絡(luò)設(shè)備、跳線上的投入相對方案—會(huì)更多—些,但為將來GPU網(wǎng)卡直連到置頂交換機(jī)(leaf),leaf通過full-mesh連接到spine,形成跨主機(jī)GPU計(jì)算網(wǎng)絡(luò)。如下為core-spine-Leaf架構(gòu)GPU到接入交換機(jī)(leaf)AsW拓?fù)渎?lián)線說明:…………………加上32臺(tái)Core交換機(jī),—共要用(32+32)*2+32=160臺(tái)交換機(jī)。這個(gè)方案具備跨良好的可擴(kuò)展性,當(dāng)集群規(guī)模從256擴(kuò)展到512的時(shí)候,不用重新布放Spine-Leaf之間的跳線。存儲(chǔ)網(wǎng)絡(luò)存儲(chǔ)網(wǎng)絡(luò)設(shè)計(jì)—般通過直連CPU的兩張網(wǎng)卡,集成連接到—張獨(dú)立的存儲(chǔ)網(wǎng)絡(luò)環(huán)境中,主要的業(yè)務(wù)目標(biāo)為:從分布式存儲(chǔ)讀寫數(shù)據(jù),例如讀訓(xùn)練數(shù)據(jù)、寫checkpoint等和正常的node管理、和數(shù)據(jù)的高效流動(dòng),設(shè)計(jì)時(shí)需要考慮網(wǎng)絡(luò)的高可靠性和安全性,確保不同業(yè)務(wù)、不同安全級別、不為滿足大模型訓(xùn)練對于存儲(chǔ)高吞吐性能需求,基于全局文件系統(tǒng)技術(shù),可支持超千卡節(jié)點(diǎn)擴(kuò)展規(guī)模,為大模型訓(xùn)練提供百PB級全閃存儲(chǔ)大集群能力,從閃存密度、數(shù)據(jù)面網(wǎng)絡(luò)、并行客戶端和對 switchswitchswitchswitch switchswitchswitchswitch ......Leaf......Leafspinespine計(jì)算網(wǎng)絡(luò) switch switchswitchswitchswitch switchswitchswitchLeafLeaf............LeafLeafspinespine存儲(chǔ)網(wǎng)絡(luò)數(shù)據(jù)傳輸網(wǎng)絡(luò)高性能傳輸網(wǎng)絡(luò)的設(shè)計(jì)相對復(fù)雜,需要綜合考慮多個(gè)因素,并根據(jù)具體的應(yīng)用場景和業(yè)務(wù)需求開展定制化設(shè)計(jì),如下是設(shè)計(jì)數(shù)據(jù)傳輸網(wǎng)絡(luò)過程中需要考慮的內(nèi)容。1.需要選擇合適的網(wǎng)絡(luò)拓?fù)?如星型、環(huán)型、網(wǎng)狀或胖樹(Fat-Tree)拓?fù)?以滿足不同的性能和擴(kuò)展性需求。障自動(dòng)切換;建設(shè)—套網(wǎng)絡(luò)應(yīng)用層流量監(jiān)控和管理系統(tǒng),提供95%以上2-7層協(xié)議的識別能力、網(wǎng)絡(luò)應(yīng)用性能監(jiān)測、流量數(shù)據(jù)展示、lPv6應(yīng)用可視化等功能;建設(shè)—套大數(shù)據(jù)日志審計(jì)系統(tǒng),提主用路由主用路由備用路由.4整個(gè)安全體系建設(shè)的重要參與方包括專業(yè)的安全團(tuán)隊(duì),集群產(chǎn)研團(tuán)隊(duì)和智算運(yùn)維運(yùn)營團(tuán)隊(duì),各個(gè)團(tuán)隊(duì)充分開展合作,以確保技術(shù)基礎(chǔ)設(shè)施的可靠性和安全性。安全運(yùn)維負(fù)責(zé)日常系統(tǒng)維護(hù)、軟件智算平臺(tái)的安全業(yè)務(wù)特點(diǎn):1.資產(chǎn)價(jià)值高:2.數(shù)據(jù)敏感:在算力時(shí)代,數(shù)據(jù)作為商品傳輸,智算平臺(tái)中流通著海量數(shù)據(jù),涉及醫(yī)療、金融、政務(wù)以及個(gè)人信息等機(jī)密數(shù)據(jù)。若數(shù)據(jù)遭受篡改或泄露,將造成嚴(yán)重后果。3.業(yè)務(wù)形式復(fù)雜:基于業(yè)務(wù)特點(diǎn)的安全需求:從智算平臺(tái)的特點(diǎn)出發(fā),開展安全基礎(chǔ)設(shè)施建設(shè)、縱深防御的反入侵體系建設(shè)、數(shù)據(jù)安全建設(shè):網(wǎng)絡(luò)層:具備三層、四層雙向訪問控制能力:基于TCP/網(wǎng)絡(luò)層:具備三層、四層雙向訪問控制能力:基于TCP/UDP五元組信息進(jìn)行攔截應(yīng)用層:具備七層訪問控制能力:HTTP、HTTPS、DNS攔截身份認(rèn)證層:提供特殊用戶零信任準(zhǔn)入能力能采集端點(diǎn)(含容器)各類日志,酒蓋進(jìn)程、網(wǎng)絡(luò)、文件能采集端點(diǎn)(含容器)各類日志,酒蓋進(jìn)程、網(wǎng)絡(luò)、文件具備端點(diǎn)(含容器)常見攻擊技術(shù)的檢測能力,至少應(yīng)包含東西向橫移、憑據(jù)竊取、內(nèi)存馬、可疑具備端點(diǎn)(含容器)常見漏洞、基線風(fēng)險(xiǎn)檢測能力縣備端點(diǎn)(含容器)惡京進(jìn)程啟動(dòng)攔裁,惡意文件查殺能力數(shù)據(jù)傳輸數(shù)據(jù)導(dǎo)出有日志,可審計(jì) 數(shù)據(jù)銷毀從數(shù)據(jù)生命周期考志。數(shù)據(jù)應(yīng)該存在使用期限,過期銷毀面對復(fù)雜的網(wǎng)絡(luò)安全態(tài)勢,不能僅寄希望于防住攻擊,還應(yīng)該預(yù)先假設(shè)被攻破第—道防線后如何開展入侵檢測,下面列出了—些參考的產(chǎn)品類別:1.WAF:提供WEB安全防護(hù)能力。2.NDR:提供全面的網(wǎng)絡(luò)入侵檢測、響應(yīng)3.EDR:提供全面的端點(diǎn)入侵檢測、響應(yīng)能力。4.防火墻:提供四層暴露面收斂能力。5.堡壘機(jī):提供安全運(yùn)維能力。6.SIEM:提供整體日志采集、分析能力。7.容器安全:提供容器安全防護(hù)、入侵檢測能力。9.蜜罐:提供主動(dòng)防御、溯源反制能力。從數(shù)據(jù)安全的產(chǎn)品層面來說,—般需要產(chǎn)品來支撐數(shù)據(jù)邊界的管控,智算平臺(tái)的數(shù)據(jù)安全往往需要結(jié)合實(shí)際業(yè)務(wù)開展,實(shí)際的業(yè)務(wù)系統(tǒng)需要具備管控能力和可審計(jì)能力,安全產(chǎn)品則居于其次,因此涉及的安全產(chǎn)品不多,下面列舉—些參考的產(chǎn)品類別:1.零信任:提供VPN準(zhǔn)入、終端沙箱能2.風(fēng)險(xiǎn)和漏洞管理:基于安全產(chǎn)品開展巡檢,對發(fā)現(xiàn)的風(fēng)險(xiǎn)和漏洞進(jìn)行治理。3.入侵管理:預(yù)先制定好應(yīng)急響應(yīng)流程,基于安全產(chǎn)品開展巡檢,對發(fā)現(xiàn)的安全事件進(jìn)行分析、研判、處置。4.業(yè)務(wù)上線風(fēng)險(xiǎn)評估:對智算平臺(tái)的業(yè)務(wù)、模型、服務(wù)開展上線前安全評估,禁止帶病帶傷上線,帶來不可控的風(fēng)險(xiǎn)。的平臺(tái)監(jiān)控系統(tǒng)需要考慮的監(jiān)控指標(biāo),監(jiān)控指標(biāo)可以參考核心指標(biāo)評價(jià)模塊。運(yùn)行受到影響。故障范圍包括:AI基礎(chǔ)設(shè)施故障、AI產(chǎn)品故障、AI業(yè)務(wù)系統(tǒng)故障,每次故障需要產(chǎn)品服務(wù)正常,管控不可用產(chǎn)品服務(wù)正常,管控部分不可用業(yè)務(wù)系統(tǒng)功能部分不可用(但服務(wù)未中斷)業(yè)務(wù)系統(tǒng)受到影響(例如超時(shí)、訪問慢、重試)服務(wù)正常,但容量受影響故障處置標(biāo)準(zhǔn)包含:2.故障源自監(jiān)控、巡檢發(fā)現(xiàn)以及用戶反饋,故障需要確認(rèn),對云平臺(tái)或應(yīng)用系統(tǒng)的正常使用不造成影響的不判定為故障;計(jì)劃中變更引起的異常不判定為故障。3.平臺(tái)或業(yè)務(wù)系統(tǒng)發(fā)生的任何故障,第一時(shí)間通知運(yùn)維負(fù)責(zé)人,由運(yùn)維負(fù)責(zé)人調(diào)度資源進(jìn)行故障處理,直至故障恢復(fù)4.故障的解決以快速恢復(fù)業(yè)務(wù)為第一優(yōu)先級,日志的收集、問題分析在事后進(jìn)行。重保管理旨在客戶業(yè)務(wù)發(fā)展關(guān)鍵時(shí)間點(diǎn)(如:重大活動(dòng)/會(huì)議、節(jié)假日、關(guān)鍵里程碑節(jié)點(diǎn)等)對AI平臺(tái)及業(yè)務(wù)系統(tǒng)提供技術(shù)保障,以“重保前排查預(yù)防、重保中值守響應(yīng)、重保后總結(jié)復(fù)盤”為思想,確保云平臺(tái)及業(yè)務(wù)系統(tǒng)的可靠性、穩(wěn)定性和安全性。1.平臺(tái)側(cè):2.業(yè)務(wù)側(cè):1.溝通/摸底:通過溝通了解重保背景及訴求,業(yè)務(wù)側(cè):業(yè)務(wù)架構(gòu)及所涉及產(chǎn)品實(shí)例;平臺(tái)側(cè):平臺(tái)狀態(tài)、產(chǎn)品服務(wù)狀態(tài),明確重保工2.巡檢/修復(fù):3.制定重保方案:4.權(quán)限管控:重保期間,需要對VPN登錄環(huán)境權(quán)限進(jìn)行管控,只開放重否是是方案(按需)否否v否v否v是是是 常用指標(biāo),無論是國家標(biāo)準(zhǔn)、還是“東數(shù)西算”工程,都將PUE作為衡量數(shù)據(jù)中心能效水平的關(guān)的云計(jì)算提供商AWS相關(guān)的機(jī)房能耗指標(biāo)為例,AWS的機(jī)房遍布全球26個(gè)地理區(qū)域,全球平均1.清潔能源的使用:機(jī)房使用大量使用風(fēng)電、光伏等清潔能源,這有助于減少碳排放和能源消耗。由于機(jī)房所在平均氣溫較低,數(shù)據(jù)中心能夠利用自然冷源進(jìn)行制冷,減少了冷卻系統(tǒng)的能耗,實(shí)現(xiàn)了節(jié)能環(huán)保。2.高效的能源使用效率:數(shù)據(jù)中心的PUE(能源使用效率)年平均可達(dá)1.2左右,遠(yuǎn)低于行業(yè)平均水平,表明數(shù)據(jù)中心在能源使用上非常高效。3.節(jié)能技術(shù)的應(yīng)用:數(shù)據(jù)中心廣泛使用了液冷、水冷等節(jié)能技術(shù),這些技術(shù)可以為數(shù)據(jù)中心節(jié)能70%以上。4.智能化管理:利用人工智能和物聯(lián)網(wǎng)技術(shù)實(shí)現(xiàn)智能化管理,提高運(yùn)維效率,減少能源浪費(fèi):機(jī)房的地理位置和氣候條件為建設(shè)綠色機(jī)房提供了天然優(yōu)勢,有助于實(shí)現(xiàn)低能耗和高效率的算力中心運(yùn)營。智算平臺(tái)運(yùn)維運(yùn)營評價(jià)體系的建立旨在提供—個(gè)全面、客觀的評估方法,來評估智算平臺(tái)在運(yùn)維智算平臺(tái)運(yùn)維運(yùn)營評價(jià)體系由四大模塊構(gòu)成:基礎(chǔ)設(shè)施能力評價(jià)、AI運(yùn)營能力評價(jià)、平臺(tái)運(yùn)營能力評價(jià)和平臺(tái)運(yùn)維能力評價(jià),各模塊由覆蓋軟件、硬件、技術(shù)、用戶體驗(yàn)等指標(biāo)構(gòu)成。本評價(jià)體系由4個(gè)—級指標(biāo),19個(gè)二級指標(biāo),60個(gè)三級指標(biāo)組成,其中三級指標(biāo)可以根據(jù)實(shí)際應(yīng)用中,數(shù)x:y高性能存儲(chǔ)(如SSD)在總存儲(chǔ)中的比例%遠(yuǎn)程直接內(nèi)存訪問(RDMA)網(wǎng)絡(luò)的(在FP16精度下來衡量)C臺(tái)%%數(shù)據(jù)質(zhì)量(準(zhǔn)確性、完整性)和數(shù)據(jù)下載次數(shù)個(gè)數(shù)/(每周/月)/個(gè)數(shù)/(每周/月)/個(gè)數(shù)/(每周/月)/模型微調(diào)效果(性能提升)和使用智算平臺(tái)產(chǎn)出的論文數(shù)量(A類)使用智算平臺(tái)產(chǎn)出的軟件著作的數(shù)量(A類)服務(wù)人員的工作年限,資格證書,%知識庫%%進(jìn)行的變更次數(shù)(每月/周)%最高算力MFU(ModelFL0PsUtilization)%%算力資源管理,資源治理,資源運(yùn)營的成熟度%SLA)達(dá)成率,是衡量服務(wù)提供者是否按照%觸發(fā)的系統(tǒng)安全事件總數(shù)(每月/周)發(fā)現(xiàn)的安全漏洞個(gè)數(shù)(每月/周)注:同時(shí)得到的數(shù)據(jù)統(tǒng)計(jì)指標(biāo)需要進(jìn)行歸—化處理,按照0-100的分?jǐn)?shù)標(biāo)準(zhǔn)化。針對評價(jià)體系內(nèi)的—、二、三級指標(biāo),通過基于專家評估的層次分析(AHP)方法,得到評價(jià)指標(biāo)體系中每—個(gè)—級、二級、三級指標(biāo)的相對權(quán)重。根據(jù)實(shí)際應(yīng)用情況,對指標(biāo)進(jìn)行權(quán)重設(shè)置,形成000●.●●●●●.●●●●根據(jù)評價(jià)結(jié)果對不同維度的數(shù)據(jù)開展分析可以對智算平臺(tái)運(yùn)維運(yùn)營能力進(jìn)行定向優(yōu)化,如平臺(tái)AI運(yùn)營方面表現(xiàn)較差,但是基礎(chǔ)設(shè)施和平臺(tái)運(yùn)營等方面表現(xiàn)良好,說明智算平臺(tái)可能存在推廣程度不夠、存在資源浪費(fèi)等問題,需要通過市場推廣、運(yùn)營活動(dòng)、技術(shù)改進(jìn)等方式進(jìn)行優(yōu)化。4.1.1案例1:復(fù)旦大學(xué)的AIforscience運(yùn)營界科學(xué)智能大賽等,鼓勵(lì)研究者通過智算平臺(tái)挖掘新的科研場景??蒲衅脚_(tái),在生命科學(xué)、大氣科學(xué)、材料科學(xué)、量子化學(xué)、流體力學(xué)五大科學(xué)賽道進(jìn)行比賽,其中18+11000+530500+在開放CFFF平臺(tái)智能算力的基礎(chǔ)上,安全共享了多個(gè)特色科學(xué)數(shù)據(jù)集,這些數(shù)據(jù)集包括:.擁有千卡GPU,8萬核CPU,總體算力規(guī)模達(dá)到40PFlop/S(FP32)控關(guān)系網(wǎng)絡(luò)與知識圖譜,構(gòu)建大規(guī)模圖神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練模型,首次將基因調(diào)控關(guān)系以圖神經(jīng)網(wǎng)絡(luò)的控關(guān)系預(yù)測精度提升1倍以上,甚至可以預(yù)測調(diào)控距離超過7Mb的調(diào)控關(guān)系。目前在阿茲海默癥疾病的數(shù)據(jù)分析中,發(fā)現(xiàn)了新的潛在靶點(diǎn)。?28???????.2阿里云通過端到端的大模型構(gòu)建服務(wù),提供了—套完整的大模型解決方案,對AI資產(chǎn)進(jìn)行了全方面的管理,同時(shí)從應(yīng)用層到基礎(chǔ)設(shè)施層,全面支持大模型的研發(fā)和應(yīng)用。應(yīng)用層展示了各種AI應(yīng)用案例,如圖像識別、文本生成和語言翻譯等,有效的發(fā)揮大模型在實(shí)際果。這些模型覆蓋了NLP(自然語言處理)、CV(計(jì)算機(jī)視覺)和speech(語音處理)等多個(gè)領(lǐng)域,為用戶提供了多樣化的選擇,滿足不同的應(yīng)用需求,同時(shí)打通了Modelscope,HuggingFace等Maas平臺(tái),支持豐富的模型,為用戶提供更強(qiáng)大的數(shù)據(jù)智能服務(wù)。在模型服務(wù)(Maas)平臺(tái)如PAIDsW-Gallery、Modelscope和HuggingFace,為用戶提供了豐富的模型服務(wù)和工具,支持用戶快速上手并高效進(jìn)行模型開發(fā)。工作層整合了從智能標(biāo)注、可視化建模、交互式建模、深度學(xué)習(xí)調(diào)度服務(wù)、在線模型服務(wù)到大模型庫服務(wù)的多種工具,支持全面的AI開發(fā)工作流程。通過這些工具,用戶可以快速構(gòu)建和優(yōu)化模型,大大降低了大模型學(xué)習(xí)的門機(jī)器翻譯業(yè)界s0TA:中文GPT/CLIP(Apps)(Models)(Maas)(Maas)復(fù)旦大學(xué)CFFF(ComputingfortheFuturea平臺(tái),由復(fù)旦大學(xué)聯(lián)合阿里云、中國電信共同打造,推動(dòng)交叉學(xué)科發(fā)展,助力創(chuàng)新路徑探索,實(shí)切問”—號和面向高精尖研究的專用高性能計(jì)算集群“近思”—號兩部分組成,算力規(guī)模達(dá)到40PFL0Ps(FP32),各個(gè)級別存儲(chǔ)(全閃+混閃+溫存+冷存)容量達(dá)70PB。CFFF平臺(tái)包含智算代表院系:環(huán)境科學(xué)、材料科學(xué)、代表院系:生命科學(xué)、公共衛(wèi)生、代表院系:人工智能學(xué)院、AI運(yùn)營平臺(tái)(科研智算平臺(tái))AI資產(chǎn)管理,模型微調(diào)、AI運(yùn)營平臺(tái)(科研智算平臺(tái))AI資產(chǎn)管理,模型微調(diào)、RAG、智能體Al+HPC集群管理、調(diào)度與開發(fā)(切問—號)HPC集群管理和調(diào)度(近思—號)作業(yè)管理調(diào)度、系統(tǒng)監(jiān)控、文件數(shù)據(jù)管理靈駿智算靈駿智算算法開發(fā)與服務(wù)、任務(wù)調(diào)度,集群管理,文件數(shù)據(jù)管理數(shù)據(jù)管理與分析(飛天)數(shù)據(jù)管理與分析(飛天)大數(shù)據(jù)、數(shù)據(jù)庫、數(shù)倉管理AI計(jì)算集群AI計(jì)算集群(1200卡A100)通用計(jì)算集群通用計(jì)算集群飛天基礎(chǔ)設(shè)施飛天基礎(chǔ)設(shè)施AI計(jì)算集群AI計(jì)算集群(120卡A800)(640臺(tái)CPU節(jié)并行文件存儲(chǔ)CFFF平臺(tái)運(yùn)營工具可為用戶和運(yùn)營提供產(chǎn)品化的功能,包括機(jī)器學(xué)習(xí)工具、科研智算工具、統(tǒng)—模、跨節(jié)點(diǎn)分布式訓(xùn)練等多種功能??蒲兄撬愎ぞ咛峁└鲗W(xué)科領(lǐng)域的科研算子,包括生命科學(xué)、物質(zhì)科學(xué)、地球科學(xué)、流體力學(xué)等,通過“拖拉拽”的圖形界面,科研人員可以快速的構(gòu)建實(shí)驗(yàn)流程,降低了研究人員使用人工智能技術(shù)進(jìn)行科學(xué)研究的門檻。例如,科研人員可利用科研智算工具進(jìn)行蛋白質(zhì)結(jié)構(gòu)的預(yù)測等。同時(shí)平臺(tái)鼓勵(lì)科研工具和實(shí)驗(yàn)流程的開放共享,以及數(shù)據(jù)和鏡像的共享,通過建設(shè)科研開放社區(qū),人員可以訪問到更多的資源和數(shù)據(jù),加速科學(xué)發(fā)現(xiàn)的過程。統(tǒng)—運(yùn)營工具為用戶提供平臺(tái)資源的賬戶和項(xiàng)目申請、資源運(yùn)維審計(jì)等核心功能。讓用戶以統(tǒng)—全面的視角來管理各類關(guān)鍵業(yè)務(wù)流程,提升平臺(tái)運(yùn)營效率,資源運(yùn)營任務(wù)的性質(zhì)和優(yōu)先級,給任務(wù)分配合適的計(jì)算資源,通過智能調(diào)度算法,根據(jù)任務(wù)的實(shí)際需求和當(dāng)前資源狀態(tài),動(dòng)態(tài)地調(diào)整任務(wù)的執(zhí)行順序和資源分配,確保高優(yōu)先級任務(wù)優(yōu)先執(zhí)行,并最大化資源巡檢治理策略是指對于重點(diǎn)監(jiān)控的資源(GPU利用率、存儲(chǔ)利用率等),進(jìn)行定期巡檢和治理。GPU資源通常是按照任務(wù)類型進(jìn)行治理,將資源消耗量大的模型跑在單獨(dú)的資源池中,同時(shí)將單卡訓(xùn)練的小任務(wù),或者還在代碼調(diào)試階段的任務(wù)跑在另外的資源池中,從而避免資源的碎片化。存儲(chǔ)源,文件的個(gè)數(shù)(Inode)會(huì)限制高性能文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論