2023液冷式高性能計算機技術(shù)參考架構(gòu)_第1頁
2023液冷式高性能計算機技術(shù)參考架構(gòu)_第2頁
2023液冷式高性能計算機技術(shù)參考架構(gòu)_第3頁
2023液冷式高性能計算機技術(shù)參考架構(gòu)_第4頁
2023液冷式高性能計算機技術(shù)參考架構(gòu)_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

液冷式高性能計算機技術(shù)參考架構(gòu)目??次前?言 III范圍 1規(guī)范性引用文件 1術(shù)語和定義 1縮略語 2液冷式高性能計算機技術(shù)參考架構(gòu) 3總體描述 3功能層次 3功能架構(gòu)要求 4機房基礎(chǔ)設(shè)施層 4硬件資源層 5基礎(chǔ)軟件層 7應(yīng)用軟件層 7跨層功能 8IIPAGEPAGE1PAGEPAGE2液冷式高性能計算機技術(shù)參考架構(gòu)范圍規(guī)范性引用文件(包括所有的修改單適用于本文件。GB/T9813.3計算機通用規(guī)范第3部分:服務(wù)器GB17859 計算機信息系統(tǒng)安全保護等級劃分準(zhǔn)則GB50174 數(shù)據(jù)中心設(shè)計規(guī)范YD/T3979 數(shù)據(jù)中心浸沒式液冷服務(wù)器技術(shù)要求和測試方法術(shù)語和定義YD/T3979界定的以及下列術(shù)語和定義適用于本文件。3.1高性能計算機highperformancecomputer注:廣義上泛指解決大型復(fù)雜任務(wù)的計算工具。[來源:T/CESA1162,3.1.1]3.2液冷liquidcoolingITIT設(shè)備元器件產(chǎn)生的熱量帶走的一種冷卻方法。適用于需提高計算能力、能源效率、部署密度等應(yīng)用場景。3.3液冷式高性能計算機liquidcoolinghighperformancecomputer采用液冷技術(shù)進行冷卻的高性能計算機系統(tǒng),通過液態(tài)冷卻液與高性能計算機的全部或主要部件、3.4冷板式液冷coldplateliquidcooling(通常為銅鋁等導(dǎo)熱金屬構(gòu)成的封閉腔體將發(fā)熱器件的熱量間接傳遞給封閉在循環(huán)管路中的冷卻液體,通過冷卻液體將熱量帶走的一種實現(xiàn)形式。[來源:YD/T3980,3.1.2]3.5相變浸沒式液冷phase-changeimmersionliquidcooling3.6single-phaseimmersionliquidcooling3.7冷量分配單元coolantdistributionunitIT設(shè)備提供冷量分配和智能管理的模塊。其中汽-液換熱CDU又稱液冷換熱模塊CDM(coolantdistributionmodule),主要應(yīng)用于相變浸沒式液冷。3.8二次側(cè)冷卻系統(tǒng)secondarysidecoolingsystem為液冷系統(tǒng)內(nèi)部的腔體散熱的裝置,與一次側(cè)冷卻系統(tǒng)連接進行熱交換。注:冷卻液過濾系統(tǒng),閥門,液體質(zhì)量監(jiān)測傳感器,水泄漏檢測傳感器等。縮略語下列縮略語適用于本文件。CDU 冷量分配單元(CoolantDistributionUnit)CDM 液冷換熱模塊(CoolantDistributionModule)PUE 能源使用效率(PowerUsageEffectiveness)HPC 高性能計算機(HighPerformanceComputer)AI 人工智能(ArtificialIntelligence)CPU 中央處理器(CentralProcessingUnit)MPI 消息傳遞接口(MessagePassingInterface)BLAS 基礎(chǔ)線性代數(shù)程序集(BasicLinearAlgebraSubprograms)PETSc 科學(xué)計算可移植擴展工具包(PortableExtensibleToolkitforScientificComputation)NetCDF網(wǎng)絡(luò)公用數(shù)據(jù)格式(NetworkCommonDataForm)CUDA 統(tǒng)一計算設(shè)備架構(gòu)(ComputeUnifiedDeviceArchitecture)液冷式高性能計算機技術(shù)參考架構(gòu)總體描述液冷式高性能計算機的技術(shù)參考架構(gòu)見圖1。圖1液冷式高性能計算機技術(shù)參考架構(gòu)功能層次機房基礎(chǔ)設(shè)施層:為液冷式高性能計算機系統(tǒng)提供安全、穩(wěn)定、可靠、節(jié)能的支撐環(huán)境,主要包括一次側(cè)冷卻系統(tǒng)、供配電系統(tǒng)、新風(fēng)系統(tǒng)及其它系統(tǒng)等;硬件資源層:為液冷式高性能計算機系統(tǒng)提供所需要算力、存儲等硬件資源,主要包括液冷高性能計算系統(tǒng)、液冷高性能存儲系統(tǒng)、液冷高性能網(wǎng)絡(luò)系統(tǒng)、液冷末端冷卻設(shè)備等;跨層功能:用于提供各層級的監(jiān)控運維服務(wù),并確保液冷式高性能計算機各層級之間的安全有序運行,主要包括監(jiān)控運維、安全管理等功能。功能架構(gòu)要求機房基礎(chǔ)設(shè)施層總體要求機房基礎(chǔ)設(shè)施層主要包括一次側(cè)冷卻系統(tǒng)、供配電系統(tǒng)、新風(fēng)系統(tǒng)和其它系統(tǒng)等,滿足以下要求:a)總體宜滿足GB50174B級及以上要求,按照冗余要求配置,以滿足高性能計算機運行穩(wěn)定可靠要求,不因設(shè)備故障而導(dǎo)致電子信息系統(tǒng)運行中斷;b)應(yīng)具有良好的綠色節(jié)能設(shè)計,新建機房需滿足國家及建設(shè)地對新建數(shù)據(jù)中心PUE指標(biāo)要求;c)設(shè)計上應(yīng)減少液冷高性能計算機的部署難度和對建設(shè)場地的依賴,可結(jié)合行業(yè)主流的微模塊、整機柜、集裝箱等進行設(shè)計,滿足部署簡單、靈活拓展、快速交付和安全可靠的需要;各功能區(qū)域的環(huán)境要求應(yīng)根據(jù)不同冷卻方式進行制定,主要考慮因素包括但不限于:溫度、露點溫度、相對濕度、空氣粒子濃度和冷卻介質(zhì)蒸汽濃度等,以及噪聲、電磁干擾、振動及靜電等;根據(jù)冷卻介質(zhì)的不同,應(yīng)對機房環(huán)境有不同的安全要求。一次側(cè)冷卻系統(tǒng)一次側(cè)冷卻系統(tǒng)滿足以下要求:應(yīng)與二次側(cè)冷卻系統(tǒng)需求匹配,根據(jù)不同液冷方式的要求進行設(shè)計,結(jié)合風(fēng)液負(fù)載計算進行散熱設(shè)備選型;應(yīng)設(shè)置供排液管路,可設(shè)置冷卻液專用排液通道和收集系統(tǒng)或通過專用抽液設(shè)備收集,可對冷卻液雜質(zhì)做進一步處理,循環(huán)利用等,不宜直接排放到下水道或室外,避免環(huán)境污染;可考慮機房余熱利用、湖水或河水自然冷卻等。供配電系統(tǒng)供配電系統(tǒng)滿足以下要求:應(yīng)考慮供電轉(zhuǎn)換效率、供電安全可靠、便于維護等要求;宜按照B級及以上數(shù)據(jù)中心要求,考慮后備電源、冗余供電、防雷接地等要求;c)可采用直流供電,以增進整體節(jié)能效果。新風(fēng)系統(tǒng)新風(fēng)系統(tǒng)滿足以下要求:應(yīng)持續(xù)或定期通風(fēng),保證機房空氣潔凈度及冷卻介質(zhì)蒸汽濃度等滿足相關(guān)要求;宜考慮與機房基礎(chǔ)設(shè)施層監(jiān)控聯(lián)動,當(dāng)監(jiān)控系統(tǒng)觸發(fā)漏液/漏汽報警時可自動加強排風(fēng)。其它系統(tǒng)B硬件資源層概述液冷高性能計算系統(tǒng)一般要求a)高性能計算節(jié)點應(yīng)滿足高密度、高性能、高效能、高可用等要求;b)根據(jù)所采用液冷方式的不同,宜采用冷板式或浸沒式液冷方式。冷板式液冷高性能計算節(jié)點冷板式節(jié)點液冷組件主要包括冷板、管路、內(nèi)部分液器、接頭、冷卻液等,滿足以下要求:冷板應(yīng)覆蓋于節(jié)點的CPU節(jié)點內(nèi)管路應(yīng)合理控制CPU/加速器之間的溫差,以及節(jié)點進出液溫差。節(jié)點與機柜管路連接3節(jié)點應(yīng)滿足GB/T9813.3的結(jié)構(gòu)沖擊振動要求,保證在生產(chǎn)、運輸、使用過程中不因結(jié)構(gòu)振動發(fā)生失效或漏液情況;節(jié)點內(nèi)部應(yīng)有漏液檢測方式并具備監(jiān)控和告警機制,節(jié)點在供液中斷時應(yīng)有保護機制;冷卻液應(yīng)具備一定的穩(wěn)定性,不易分解、變質(zhì),需定期檢查液體的pH值、電導(dǎo)率等指標(biāo);節(jié)浸沒式液冷高性能計算節(jié)點節(jié)點內(nèi)部運行產(chǎn)生的大部分熱量應(yīng)由冷卻液帶走,節(jié)點內(nèi)部宜有導(dǎo)流板和填充塊來優(yōu)化節(jié)點內(nèi)部流場,并減少液體使用量,從而提升冷卻液的使用效率;相變式液冷節(jié)點的CPU冷卻液應(yīng)具備高比熱容、高熱導(dǎo)率、低密度、低粘度、低揮發(fā)性、低凝固點等物性特點,碳冷卻液和節(jié)點內(nèi)部所有部件以及材料等應(yīng)具備良好的兼容性,不應(yīng)影響節(jié)點運行情況下的性能和污染液體;浸沒式液冷節(jié)點或液冷機柜上宜具有供液、泄壓、回液/液冷高性能存儲系統(tǒng)高性能存儲系統(tǒng)為用戶提供海量的磁盤存儲空間,用于保存用戶數(shù)據(jù)和計算結(jié)果。滿足以下要求:a)高性能存儲系統(tǒng)應(yīng)滿足高可靠、大容量、高性能、低延遲、擴展性等要求;b)液冷高性能存儲系統(tǒng)的主要發(fā)熱部件為硬盤、系統(tǒng)控制器等,應(yīng)采用液冷方式制冷,可采用冷板式或浸沒式,參考6.2.2節(jié)中相關(guān)內(nèi)容。液冷高性能網(wǎng)絡(luò)系統(tǒng)a)高性能網(wǎng)絡(luò)系統(tǒng)需要滿足低延遲、高帶寬、低CPU負(fù)載、高能效、靈活性、擴展性等要求;b)高性能網(wǎng)絡(luò)系統(tǒng)由一個或者多個高性能交換單元組成,可采用液冷方式對交換單元的發(fā)熱部件,比如交換芯片、接口模塊等進行散熱,可采用冷板式或浸沒式,參考6.2.2節(jié)中相關(guān)內(nèi)容。二次側(cè)冷卻系統(tǒng)二次側(cè)冷卻系統(tǒng)通過與IT設(shè)備連接的管路,向IT設(shè)備供應(yīng)具有合適溫度、流量、壓力等的冷卻液,滿足ITCDUCDU應(yīng)有排氣、補液、雜質(zhì)過濾能力,確保冷卻液中潛在的顆粒不會在循環(huán)管路中造成阻塞;c)集中式CDU宜采用冗余設(shè)計,并允許在線維護;冷卻液應(yīng)與循環(huán)管路上使用的全部材料兼容,不發(fā)生化學(xué)或電化學(xué)反應(yīng)。浸沒式液冷的冷卻液應(yīng)具有良好的絕緣性能,滿足IT設(shè)備內(nèi)部電子元器件的電氣安全規(guī)范;應(yīng)設(shè)置冷卻液專用排液通道和收集系統(tǒng),或通過專用抽液設(shè)備收集,可對冷卻液雜質(zhì)做進一步處理,循環(huán)利用等,嚴(yán)禁直接排放到下水道或室外,避免環(huán)境污染?;A(chǔ)軟件層概述基礎(chǔ)軟件層主要包括操作系統(tǒng)、基礎(chǔ)工具軟件、基礎(chǔ)函數(shù)庫、程序開發(fā)和調(diào)優(yōu)工具、資源調(diào)度系統(tǒng)等。操作系統(tǒng)LinuxWindows基礎(chǔ)工具軟件基礎(chǔ)函數(shù)庫基礎(chǔ)函數(shù)庫提供了的種類非常豐富,常見的基礎(chǔ)函數(shù)庫,如:MPI等基礎(chǔ)通信庫、openBLAS等基礎(chǔ)數(shù)學(xué)庫、PETSc等數(shù)值計算庫、NetCDF等數(shù)據(jù)處理庫、CUDA等GPU函數(shù)庫。程序開發(fā)和調(diào)優(yōu)工具常見的程序開發(fā)和調(diào)優(yōu)工具包括:a)CCFortranPython等;b)c)人工智能編程框架,用于支持智能計算類軟件開發(fā)。資源調(diào)度系統(tǒng)應(yīng)用軟件層概述應(yīng)用軟件層主要包括科學(xué)計算軟件、工程計算軟件、智能計算軟件,以及其它計算軟件等??茖W(xué)計算軟件科學(xué)計算類軟件通常指氣象、材料、生物等學(xué)科領(lǐng)域的應(yīng)用軟件,用于指導(dǎo)科學(xué)發(fā)現(xiàn),開源軟件較多。工程計算軟件智能計算軟件/其它計算軟件AI跨層功能概述跨層功能主要包括監(jiān)控運維、安全管理等。監(jiān)控運維監(jiān)控運維滿足以下要求:監(jiān)控運維應(yīng)對液冷高性能計算機各層級進行全鏈路可視化監(jiān)控;機房基礎(chǔ)設(shè)施層的監(jiān)控對象應(yīng)包括設(shè)備的配置信息、實時運行狀態(tài)、告警信息、實時環(huán)境參數(shù)等。機房基礎(chǔ)設(shè)施層監(jiān)控應(yīng)具備漏液/漏汽自動檢測、自動告警功能,具備漏液/漏汽監(jiān)控與機房新風(fēng)系統(tǒng)聯(lián)動功能。一次側(cè)冷卻系統(tǒng)監(jiān)控關(guān)鍵參數(shù)包括溫度、壓力、流量等,當(dāng)偏離參數(shù)設(shè)定值時,應(yīng)有報警、記錄上傳,必要時進行應(yīng)急處置;硬件資源層的監(jiān)控對象應(yīng)包括液冷硬件資源部件的配置信息、實時運行狀態(tài)、告警信息等。/次側(cè)冷卻系統(tǒng)監(jiān)控關(guān)鍵參數(shù)包括溫度、壓力、流量、液位等,當(dāng)偏離參數(shù)設(shè)定值時,應(yīng)有報警、記錄上傳,必要時進行應(yīng)急處置;基礎(chǔ)軟件層的監(jiān)控對象應(yīng)包括基礎(chǔ)軟件的配置信息、作業(yè)信息等?;A(chǔ)軟件層監(jiān)控應(yīng)具備基礎(chǔ)軟件配置變更檢測、版本管理、運營報告等功能;應(yīng)用軟件層的監(jiān)控對象應(yīng)包括應(yīng)用軟件的配置信息、授權(quán)使用情況、端口占用信息等。應(yīng)用軟件層監(jiān)控應(yīng)具備應(yīng)用軟件配置變更檢測、版本管理、運營報告等功能;產(chǎn)等監(jiān)控對象實時日志,收集到的數(shù)據(jù)能進行數(shù)據(jù)清洗、格式化,并能將數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論