維諦技術(shù)(Vertiv) 智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū) 2024_第1頁(yè)
維諦技術(shù)(Vertiv) 智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū) 2024_第2頁(yè)
維諦技術(shù)(Vertiv) 智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū) 2024_第3頁(yè)
維諦技術(shù)(Vertiv) 智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū) 2024_第4頁(yè)
維諦技術(shù)(Vertiv) 智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū) 2024_第5頁(yè)
已閱讀5頁(yè),還剩54頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

悅動(dòng)在錢(qián)keepithuning智算中心基礎(chǔ)設(shè)施演進(jìn)智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)深知社致謝感謝《智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)》撰寫(xiě)組成員(排名不分先后以及在白皮書(shū)撰寫(xiě)過(guò)程中,通過(guò)深談會(huì)、特約訪談等形式分享專業(yè)觀點(diǎn)和經(jīng)驗(yàn)的行業(yè)專家們:感謝你們的辛苦付出和努力,白皮書(shū)的每一個(gè)知識(shí)點(diǎn)的落實(shí)離不開(kāi)你們的付出。希望《智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)》可以為通算中心(傳統(tǒng)數(shù)據(jù)中心)向智算中心(AIDC)的演進(jìn)過(guò)渡中貢獻(xiàn)出一份力量!序言近兩年來(lái),我們目睹了人工智能(AI)以驚人的速度發(fā)展和不斷成熟,它正在改變我們的生活、工作和與技術(shù)交互的方式,它將會(huì)徹底改變從醫(yī)療、金融到交通和娛樂(lè)等眾多行業(yè)。以ChatGPT為代表的生成式人工智能(AIGC)因其顯著的進(jìn)步和廣泛的應(yīng)用范圍而引起各行各業(yè)極大的關(guān)注。它能夠生成與人類語(yǔ)言非常相似的文本,生成高清圖片,視頻,影片,甚至編程,顛覆了大眾對(duì)人工智能(AI)的傳統(tǒng)認(rèn)知,吸引了普通大眾乃至各個(gè)領(lǐng)域的專家的重點(diǎn)關(guān)注。隨著人工智能(AI)應(yīng)用變得越來(lái)越普遍和具有影響力,其對(duì)算力的需求也隨之快速增長(zhǎng),人工智能(AI)業(yè)務(wù)負(fù)載也正在成為數(shù)據(jù)中心負(fù)載的重要組成部分,并且要求必須以集群的方式進(jìn)行部署。因此,機(jī)柜的功率密度和數(shù)據(jù)中心的規(guī)模將大幅提升,給數(shù)據(jù)中心物理基礎(chǔ)設(shè)施(包括供配電、制冷等)帶來(lái)顛覆性的挑戰(zhàn)。換句話說(shuō),這意味著人工智能(AI)將顛覆通算中心(傳統(tǒng)數(shù)據(jù)中心)的設(shè)計(jì)和運(yùn)營(yíng)。為應(yīng)對(duì)這些挑戰(zhàn),我們需要重新思考數(shù)據(jù)中心從IT層面到物理基礎(chǔ)設(shè)施層面的規(guī)劃和設(shè)計(jì),從而建設(shè)出可以適應(yīng)未來(lái)IT技術(shù)不斷發(fā)展的具有彈性和可擴(kuò)展性的智算中心(AIDC)。維諦技術(shù)作為英偉達(dá)(NVIDIA)官方認(rèn)可的解決方案合作伙伴,很早就開(kāi)始關(guān)注智算中心(AIDC)中的物理設(shè)施基礎(chǔ)架構(gòu)未來(lái)究竟會(huì)有哪些顛覆性的變革?;仡檾?shù)據(jù)中心行業(yè)過(guò)去30年的發(fā)展,其基礎(chǔ)設(shè)施層面的發(fā)展基本遵循一個(gè)線性的功耗密度提升和智能化提升的模式,維諦技術(shù)在此過(guò)程中,一直以技術(shù)和質(zhì)量來(lái)引領(lǐng)全球行業(yè)的發(fā)展。但是從2024年的年初開(kāi)始,人工智能(AI)的發(fā)展進(jìn)入類似于指數(shù)的增長(zhǎng)曲線,從單個(gè)GPU的計(jì)算能力到集群的規(guī)模,從單機(jī)柜的功率密度到液冷的普及速度,似乎都被按下了加速鍵,數(shù)據(jù)中心行業(yè)正在經(jīng)歷一個(gè)自己的“寒武紀(jì)”。面對(duì)如此快速變化的時(shí)代,市場(chǎng)和行業(yè)的信息和經(jīng)驗(yàn)也都是碎片化的,國(guó)家之間、企業(yè)之間、個(gè)人之間也都存在著巨大的信息壁壘,產(chǎn)業(yè)生態(tài)和技術(shù)格局存在著重大的不確定性。作為數(shù)據(jù)中心行業(yè)的全球領(lǐng)先企業(yè),維諦技術(shù)希望通過(guò)一種創(chuàng)新的形式,通過(guò)收集市場(chǎng)上分散的經(jīng)驗(yàn)和信息,整理出智算中心(AIDC)的機(jī)電系統(tǒng)架構(gòu)演進(jìn)趨勢(shì)和挑戰(zhàn),從而做出一個(gè)系統(tǒng)性和中立性的分析和預(yù)測(cè),希望通過(guò)提煉出的觀點(diǎn)和意見(jiàn),能夠?qū)?shù)據(jù)中心行業(yè)的上下游起到一定的歸納和參考意義,對(duì)數(shù)據(jù)中心行業(yè)的健康發(fā)展有一定的促進(jìn)作用。而深知社(DeepKnowledgeCommunity)作為中國(guó)具有號(hào)召力的國(guó)際化數(shù)據(jù)中心產(chǎn)業(yè)工程師社群,同樣在這段時(shí)間里也在思考此類問(wèn)題。經(jīng)過(guò)與維諦技術(shù)深度溝通后,受維諦技術(shù)委托,由深知社對(duì)《智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)》做系統(tǒng)的行業(yè)調(diào)研、分析、提煉以及白皮書(shū)撰寫(xiě)。因此,深知社于2024年4月-6月,對(duì)國(guó)內(nèi)業(yè)已實(shí)施的智算中心、超算中心的近50位一線資深技術(shù)專家進(jìn)行深度訪談和調(diào)研,并結(jié)合深知社海量的全球動(dòng)態(tài)深度知識(shí)庫(kù),由DKI(DeepKnowledgeIntelligence)研究員團(tuán)隊(duì)執(zhí)筆,進(jìn)行本次白皮書(shū)的撰寫(xiě)。這本白皮書(shū)訪談、調(diào)研和寫(xiě)作的專家和工程師均以個(gè)人名義參與,使得這本白皮書(shū)能夠最大程度以中立、系統(tǒng)和開(kāi)放的角度,深度還原中國(guó)數(shù)據(jù)中心工程師群體對(duì)智算中心(AIDC)機(jī)電架構(gòu)演進(jìn)和發(fā)展的經(jīng)驗(yàn)和判斷。深知社深知社序言的最后,必須要感謝維諦技術(shù)編委組的專家團(tuán)隊(duì)對(duì)深知社的調(diào)研和寫(xiě)作過(guò)程的大力支持,維諦技術(shù)的行業(yè)大局觀、產(chǎn)業(yè)生態(tài)觀、技術(shù)發(fā)展觀同樣給此次白皮書(shū)的訪談對(duì)象和DKI研究員團(tuán)隊(duì)留下深刻的印象。希望各位數(shù)據(jù)中心同行在閱讀完這本白皮書(shū)之后,對(duì)于AIDC的演進(jìn)趨勢(shì)有更多、更深、更系統(tǒng)的理解。因水平和經(jīng)驗(yàn)有限,這本白皮書(shū)一定會(huì)有一些不足甚至錯(cuò)誤之處,如您有任何意見(jiàn)或疑問(wèn),也請(qǐng)隨時(shí)與深知社取得聯(lián)系(微信公眾號(hào):DeepKnowledge,或官網(wǎng)網(wǎng)站我們將認(rèn)真聽(tīng)取您的反饋和意見(jiàn),在未來(lái)不斷提升。深知社編委組2024年8月6688668891.1智能算力的發(fā)展情況概述1.2智算芯片結(jié)構(gòu)演進(jìn)1.3智算用戶側(cè)訴求演進(jìn)1.4機(jī)柜功耗高密度化演進(jìn)1.5靜態(tài)負(fù)載向動(dòng)態(tài)負(fù)載演進(jìn)2.1智算中心選址2.2智算中心建筑形式2.3智算中心建筑布局2.4智算中心房間功能需求2.5智算中心裝飾裝修需求2.6已有建筑改造為智算中心20232324253.1智算中心電氣鏈路的挑戰(zhàn)3.1.1電力能源接入挑戰(zhàn)3.1.2配電與IT機(jī)房的面積比挑戰(zhàn)3.1.3電能利用率挑戰(zhàn)3.1.4能源利用效率(PUE)挑戰(zhàn)3.1.5服務(wù)器電源形式挑戰(zhàn)3.1.6智算負(fù)載分級(jí)供電的挑戰(zhàn)3.1.7末端配電方式挑戰(zhàn)3.1.8負(fù)載動(dòng)態(tài)沖擊挑戰(zhàn)3.1.9環(huán)境溫度突變挑戰(zhàn)3.2智算中心供配電系統(tǒng)的演進(jìn)趨勢(shì)—“智算電能管理鏈”3.2.1電力能源系統(tǒng)向“算電協(xié)同”演進(jìn)3.2.2簡(jiǎn)化供電系統(tǒng)架構(gòu)演進(jìn)3.2.3智算負(fù)載分級(jí)供電演進(jìn)3.2.4預(yù)制電力模組演進(jìn)3.2.5UPS向MW級(jí),超高效及高密化演進(jìn)3.2.6鋰進(jìn)鉛退/儲(chǔ)備一體演進(jìn)智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)深知社3.2.7末端電壓等級(jí)提升及全直流系統(tǒng)演進(jìn)3.2.8SST的前沿應(yīng)用探索3.2.9包間白地板交付方式的演進(jìn)3.2.10融合末端配電方式的演進(jìn)3.3新能源、儲(chǔ)能在智算中心的應(yīng)用分析3.3.1新能源在智算中心應(yīng)用是必然趨勢(shì)3.3.2新能源發(fā)電在智算中心消納仍面臨諸多挑戰(zhàn)3.3.3儲(chǔ)能系統(tǒng)在智算中心應(yīng)用的多重價(jià)值3.4智算電能管理鏈四.智算中心制冷系統(tǒng)架構(gòu)4.1制冷技術(shù)發(fā)展趨勢(shì)4.2制冷系統(tǒng)架構(gòu)的分類及方案4.2.1芯片側(cè)4.2.2機(jī)柜側(cè)/末端空調(diào)側(cè)(風(fēng)冷技術(shù))4.2.3機(jī)柜側(cè)/末端空調(diào)側(cè)(液冷技術(shù))4.2.4冷源側(cè)4.3制冷技術(shù)應(yīng)用評(píng)估4.4智算中心制冷應(yīng)對(duì)策略五.智算中心預(yù)制模塊化技術(shù)的應(yīng)用分析5.1智算中心預(yù)制模塊化技術(shù)發(fā)展趨勢(shì)5.2電氣預(yù)制模塊化趨勢(shì)5.3制冷預(yù)制模塊化趨勢(shì)5.4智算中心預(yù)制模塊化趨勢(shì)5.5預(yù)制模塊化技術(shù)的應(yīng)用與挑戰(zhàn)六.總結(jié)與展望七.附錄7.1名詞解釋7.2主要作者介紹7.3版權(quán)聲明2627282830303233343435363742434546464749505254545657一.智算中心的演進(jìn)分析過(guò)去的十幾年,是通算中心(傳統(tǒng)數(shù)據(jù)中心見(jiàn)附錄名詞解釋)快速發(fā)展的階段,主要以云計(jì)算為主。隨著生成式人工智能(AIDC見(jiàn)附錄名詞解釋)的橫空出世,人工智能(AI見(jiàn)附錄名詞解釋)在醫(yī)療、金融、制造業(yè)、零售業(yè)和交通運(yùn)輸?shù)阮I(lǐng)域產(chǎn)生了廣泛的應(yīng)用需求,通算中心(傳統(tǒng)數(shù)據(jù)中心)已經(jīng)逐漸無(wú)法滿足日益增長(zhǎng)的計(jì)算需求,智算中心(AIDC)(見(jiàn)附錄名詞解釋)應(yīng)運(yùn)而生,它支持大規(guī)模的數(shù)據(jù)處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和其他智能算法的運(yùn)算需求,得益于人工智能的革命性發(fā)展,智算中心的規(guī)模和處理能力正在呈指數(shù)級(jí)增長(zhǎng),以滿足日益增長(zhǎng)的算力需求。智算中心已成為通算中心(傳統(tǒng)數(shù)據(jù)中心)升級(jí)發(fā)展的必然趨勢(shì)。本章節(jié)結(jié)合目前智能算力的發(fā)展情況,對(duì)智算中心(AIDC)在芯片結(jié)構(gòu)演進(jìn)、用戶側(cè)訴求演進(jìn)、高密度化演進(jìn)、負(fù)載特性演進(jìn)等進(jìn)行分析和總結(jié),作為規(guī)劃選址、電力系統(tǒng)、制冷系統(tǒng)及預(yù)制化等后續(xù)章節(jié)的依據(jù)和基礎(chǔ)。1.1智能算力的發(fā)展情況概述算力發(fā)展:隨著數(shù)字經(jīng)濟(jì)時(shí)代的到來(lái),數(shù)據(jù)成為新的生產(chǎn)資料,而算力則成為新的生產(chǎn)力。在萬(wàn)物互聯(lián)的背景下,數(shù)據(jù)量爆炸式增長(zhǎng),對(duì)算力的需求達(dá)到前所未有的高度。從城市到家庭到個(gè)人,從政府到行業(yè)到企業(yè),以及新能源汽車智能化操控、短視頻內(nèi)容推薦、電商平臺(tái)個(gè)性化推薦等,每個(gè)生活和生產(chǎn)場(chǎng)景均離不開(kāi)算力對(duì)信息的處理,算力已成為社會(huì)發(fā)展的重要?jiǎng)幽?。可以預(yù)見(jiàn),算力將無(wú)處不在,算力服務(wù)也將像水、電一樣,成為一種社會(huì)基礎(chǔ)設(shè)施。算力分類:按照系統(tǒng)構(gòu)成、技術(shù)特征和應(yīng)用領(lǐng)域的差異,算力可分為三類:通用算力、超算算力和智能算力(見(jiàn)附錄由于超算中心屬于高度定制化的算力中心,不在本白皮書(shū)的討論范圍內(nèi)。本白皮書(shū)將重點(diǎn)討論通用算力中心(簡(jiǎn)稱通算中心,即傳統(tǒng)數(shù)據(jù)中心)向人工智能(AI)算力中心(簡(jiǎn)稱智算中心)的演進(jìn)。智算業(yè)務(wù):智算業(yè)務(wù)在應(yīng)用中包括兩個(gè)環(huán)節(jié):訓(xùn)練和推理(見(jiàn)附錄名詞解釋)。智算業(yè)務(wù)發(fā)展趨勢(shì):根據(jù)IDC的統(tǒng)計(jì)數(shù)據(jù)(見(jiàn)圖12022年部署的智算算力里,訓(xùn)練算力占比為41.5%,推理算力占比達(dá)到58.5%;預(yù)計(jì)到2026年,推理算力的占比將會(huì)提升到62.2%,訓(xùn)練算力降低到37.8%。這種趨勢(shì)也符合智算被廣泛應(yīng)用的科學(xué)的比例變化,而隨著推理算力的普及,生成式人工智能(AIGC)的應(yīng)用將引起范式革命(見(jiàn)附錄名詞解釋見(jiàn)圖2)。智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)深知社圖1:云端推理占比逐步提升圖2:生成式人工智能AIGC引發(fā)范式革命訓(xùn)練推理訓(xùn)練內(nèi)容數(shù)量?jī)?nèi)容數(shù)量100%80%100%80%60%40%20%0AI輔助用戶用戶制作用戶制作UGC專業(yè)制作專業(yè)制作PGC內(nèi)容制作模式2020202120222023202420252026內(nèi)容制作模式數(shù)據(jù)來(lái)源:IDC,中信建投,騰訊研究院市場(chǎng)表現(xiàn):根據(jù)PrecedenceResearch市場(chǎng)預(yù)測(cè)(見(jiàn)圖3從2023年至2030年,全球人工智能(AI)市場(chǎng)有望實(shí)現(xiàn)超過(guò)35%的復(fù)合增長(zhǎng)率。8624626711455482651+38.2%596868624626711455482651+38.2%5968643140312092259816377118792021202220232024E2025E2026E2027E2028E2029E2030E數(shù)據(jù)來(lái)源:PrecedenceResearch智算中心國(guó)內(nèi)外市場(chǎng)發(fā)展情況中國(guó):云計(jì)算、大數(shù)據(jù)以及物聯(lián)網(wǎng)等企業(yè)在智算中心逐步摸索和推廣應(yīng)用階段美國(guó):憑借在云計(jì)算、大數(shù)據(jù)等先進(jìn)技術(shù)上的優(yōu)勢(shì)和研發(fā)能力,在智算中心技術(shù)的創(chuàng)新和應(yīng)用方面取得顯著成就歐洲:如英國(guó)、法國(guó)和德國(guó),基于機(jī)器翻譯、自動(dòng)駕駛等研發(fā)需求,為各類企業(yè)提供高效穩(wěn)定的智算中心服務(wù)新興市場(chǎng):如馬來(lái)西亞、印度、巴西等國(guó)家在積極布局智算中心產(chǎn)業(yè)近年來(lái),我國(guó)智算產(chǎn)業(yè)隨著算力產(chǎn)業(yè)的發(fā)展快速增長(zhǎng),政府鼓勵(lì)企業(yè)進(jìn)行智算中心技術(shù)研發(fā)與服務(wù)能力的提升,智算中心應(yīng)用與產(chǎn)業(yè)化成果顯著。2024年政府工作報(bào)告中明確提出:適度超前建設(shè)數(shù)字基礎(chǔ)設(shè)施,加快形成全國(guó)一體化算力體系,培育算力產(chǎn)業(yè)生態(tài)。數(shù)據(jù)顯示:截至2023年底,我國(guó)算力總規(guī)模達(dá)到230EFLOPS,即每秒230百億億次浮點(diǎn)運(yùn)算,其中智能算力規(guī)模達(dá)到70EFLOPS?!皷|數(shù)西算”干線光纜規(guī)劃已超過(guò)180條,骨干網(wǎng)互聯(lián)帶寬擴(kuò)容到40T,全國(guó)算力樞紐節(jié)點(diǎn)時(shí)延20ms時(shí)延圈已經(jīng)覆蓋全國(guó)主要城市。1.2智算芯片結(jié)構(gòu)演進(jìn)智算算力(智算中心)和通用算力(傳統(tǒng)數(shù)據(jù)中心)在服務(wù)器芯片結(jié)構(gòu)上存在本質(zhì)的差異。通用算力芯片架構(gòu)相對(duì)單一,主要以CPU為算力核心,基于CPU和云存儲(chǔ)集群提供的相關(guān)云服務(wù),通常由多個(gè)物理服務(wù)器組成,通過(guò)網(wǎng)絡(luò)連接形成一個(gè)虛擬化的計(jì)算環(huán)境。智算算力則通常采用芯片異構(gòu)計(jì)算架構(gòu),結(jié)合CPU、GPU、NPU、TPU等(見(jiàn)附錄名詞解釋)多種芯片,形成高并發(fā)的分布式計(jì)算系統(tǒng),應(yīng)用于神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練及推理等。除算力芯片外,智算中心的存儲(chǔ)芯片也存在差異化的需求,例如更大的DRAM和NAND容量,以及存算一體技術(shù)的應(yīng)用,以解決馮·諾依曼架構(gòu)中的存儲(chǔ)墻問(wèn)題等。從芯片結(jié)構(gòu)演進(jìn)來(lái)看,通算中心(傳統(tǒng)數(shù)據(jù)中心)側(cè)重于通用計(jì)算任務(wù)的性價(jià)比和靈活性,而智算中心注重人工智能(AI)類型的特定計(jì)算需求及運(yùn)算效率,并要求具有強(qiáng)大的圖形處理功能,需要制定人工智能(AI)算力硬件和存儲(chǔ)解決方案,以滿足其人工智能(AI)高性能計(jì)算需求。1.3智算用戶側(cè)訴求演進(jìn)通用算力(傳統(tǒng)數(shù)據(jù)中心)的用戶側(cè)訴求經(jīng)過(guò)長(zhǎng)期不斷的發(fā)展和梳理,已逐漸趨于成熟和穩(wěn)定,而智算中心用戶側(cè)訴求則主要是基于算力業(yè)務(wù)開(kāi)展帶來(lái)的諸多挑戰(zhàn)。通算中心最初的用戶訴求主要來(lái)自于一些特定的應(yīng)用,諸如:電子郵件、社交媒體和員工工資發(fā)放等。后來(lái)隨著云計(jì)算的快速發(fā)展,越來(lái)越多的關(guān)鍵應(yīng)用遷移到云端,數(shù)據(jù)中心建設(shè)的規(guī)模也越來(lái)越大,通算中心對(duì)時(shí)延、帶寬、可用性以及安全性等有了更高的要求。為了滿足更高的標(biāo)準(zhǔn)和要求,通算中心通常選擇引入雙路市電,采用柴油發(fā)電機(jī)作為市電中斷后的應(yīng)急電源,并配備不間斷電源UPS,從而確保系統(tǒng)的持續(xù)運(yùn)行,隨著“碳中和、碳達(dá)峰”的目標(biāo)制定,通算中心開(kāi)始對(duì)極致PUE、降低數(shù)據(jù)中心的總擁有成本進(jìn)行持續(xù)要求。智算中心的用戶訴求則來(lái)自于智算訓(xùn)練業(yè)務(wù)。為確保大模型訓(xùn)練的效率和成本最優(yōu),智算訓(xùn)練業(yè)務(wù)需要建立高度集中化的GPU集群。這是因?yàn)?,基于GPU的分布式工作原理,如果需要在減少訓(xùn)練時(shí)間的同時(shí)降低訓(xùn)練的成本,那么,必須在更小的物理空間內(nèi)部署更多的GPU服務(wù)器,從而突破分布式計(jì)算因帶寬和傳輸距離產(chǎn)生的運(yùn)算瓶頸,提高集群算效,因此,智算訓(xùn)練業(yè)務(wù)需要建立高度集中化的GPU集群。智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)深知社在功能方面,智算用戶更注重?cái)?shù)據(jù)的智能處理和應(yīng)用,提供個(gè)性化的服務(wù);在硬件上,智算用戶注重更多地使用GPU專用芯片;在軟件上,智算用戶注重更加高效的分配計(jì)算任務(wù);在管理和運(yùn)維方面,智算用戶要求自動(dòng)化程度更高,更加注重資源的挖潛和最優(yōu)利用?;谝陨现撬阒行挠脩粼诟叨燃谢腉PU集群、功能、硬件、軟件以及管理和運(yùn)維方面的訴求,智算中心面臨因此帶來(lái)的諸多變革和挑戰(zhàn),這些挑戰(zhàn)和對(duì)應(yīng)的解決方案,在接下來(lái)的章節(jié)中將會(huì)進(jìn)行詳細(xì)描述。1.4機(jī)柜功耗高密度化演進(jìn)如以上章節(jié)所述,智算訓(xùn)練需要建立高度集中化的GPU集群,而智算中心GPU芯片的算力在不斷提升,目前H100/H200/H800等芯片TDP設(shè)計(jì)功耗已達(dá)700W(見(jiàn)圖42024年3月GTC大會(huì)最新發(fā)布的B200達(dá)1000W,GB200已達(dá)到2700kW功耗。伴隨著智算中心芯片功耗的提升,其自身的散熱功耗也在不斷攀升,智算中心中單機(jī)柜的熱密度大幅度的快速提升,因此,智算中心將面臨單機(jī)柜功耗高密化的挑戰(zhàn)。通常人工智能(AI)服務(wù)器(見(jiàn)圖5)由8卡GPU或NPU模組構(gòu)成,基于上述芯片的功耗數(shù)值,可以確定每臺(tái)人工智能(AI)服務(wù)器的功耗在5kW~10kW。進(jìn)一步由服務(wù)器組成整體機(jī)柜時(shí),機(jī)柜的功率密度將達(dá)到40kW以上。以英偉達(dá)(NVIDIA)為例,DGX架構(gòu)8卡GPUH100服務(wù)器額定功耗為10.2kW,安裝4臺(tái)服務(wù)器的風(fēng)冷機(jī)柜功耗為42kW。新一代的GB200架構(gòu)中,NVL36機(jī)柜功率密度為72kW,NVL72液冷機(jī)柜功率密度則為120kW。圖4:不同芯片架構(gòu)對(duì)應(yīng)參數(shù)表架構(gòu)顯存寬帶XXXXXXXXXNVLink寬帶圖5:不同規(guī)格服務(wù)器架構(gòu)對(duì)應(yīng)參數(shù)表架構(gòu)HGXA100HGXH100HGXH200HGXB100HGXB2008xA100SXM8xH100SXM8xH200SXM8xB100SXM8xB200SXMAmpereHopperBlackwell顯存大小640GB1.44/1.5TB1.44/1.5TB顯存寬帶8x2TB/s8x3.35TB/s8x4.8TB/s8x8TB/s8x8TB/sFP16稠密算力(FLOPS)2.4P8P8PINT8稠密算力(OPS)4.8P28P36PFP8稠密算力(FLOPS)X28P36PFP6稠密算力(FLOPS)XXX28P36PFP4稠密算力(FLOPS)XXX56P72PGPU-to-GPU寬帶600GB/s900GB/s900GB/sNVLink寬帶4.8TB/s以太網(wǎng)網(wǎng)絡(luò)200Gb/s400Gb/s+200Gb/s400Gb/s+200Gb/s2x400Gb/s2x400Gb/sIB網(wǎng)絡(luò)8x200Gb/s8x400Gb/s8x400Gb/s8x400Gb/s8x400Gb/sGPU功耗3.2kW5.6kW5.6kW5.6kW8kW總功耗6.5kW10.2kW10.2kW10.2kW備注ConnectX-6NICConnectX-7NICConnectX-7NICBlueField-3DPUConnectX-7NICBlueField-3DPUConnectX-7NIC風(fēng)冷機(jī)柜國(guó)產(chǎn)GPU,以華為910B為例,單機(jī)柜部署2臺(tái)風(fēng)冷智算服務(wù)器,功耗約11.2kW英偉達(dá)(NVIDIA)以HGX服務(wù)器為例,HGX是NVIDIA的高性能服務(wù)器,通常一臺(tái)機(jī)器包含8個(gè)或4個(gè)GPU,以8個(gè)H100為例,單臺(tái)服務(wù)器功耗約10.2kW,若選用B200芯片,單臺(tái)服務(wù)器設(shè)計(jì)功耗14.3kW。在智算中心的規(guī)劃中,通常會(huì)考慮到IB線纜等綜合成本,單機(jī)柜部署2臺(tái)HGX風(fēng)冷智算服務(wù)器,含上IB交換機(jī)等,單機(jī)柜功耗高達(dá)24kW左右液冷機(jī)柜國(guó)產(chǎn)GPU,單機(jī)柜8臺(tái)液冷智算服務(wù)器,總功耗約42.4kW。英偉達(dá)(NVIDIA)GPU,從NVL32機(jī)柜到NVL72機(jī)柜,單機(jī)柜部署4臺(tái)服務(wù)器至9臺(tái)服務(wù)器,GPU數(shù)量從32顆到72顆,總功耗也從44kW(為推測(cè)的數(shù)據(jù))增加到120kW。因此,單機(jī)柜功耗從通算中心(傳統(tǒng)數(shù)據(jù)中心)的4~6KW的逐漸增加至智算中心(AIDC)的20~40kW,未來(lái)逐步發(fā)展至40~120kW甚至還要更高,智算中心機(jī)柜呈現(xiàn)高密度化趨勢(shì)。這將導(dǎo)致智算中心在IT負(fù)載和市電引入規(guī)模上大大高于智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)深知社1.5靜態(tài)負(fù)載向動(dòng)態(tài)負(fù)載演進(jìn)通算中心(傳統(tǒng)數(shù)據(jù)中心)上線運(yùn)行以后,負(fù)載相對(duì)比較平穩(wěn),很少有極端情況負(fù)載波峰或谷底出現(xiàn),而智算中心的負(fù)載運(yùn)行特點(diǎn)是不斷進(jìn)行訓(xùn)練任務(wù)來(lái)進(jìn)行高速運(yùn)算,當(dāng)它開(kāi)始訓(xùn)練任務(wù)時(shí),負(fù)載將會(huì)迅速上升到比較高的功耗值,甚至?xí)_(dá)到負(fù)載的極限值,而等到這次訓(xùn)練任務(wù)結(jié)束以后,它的負(fù)載又會(huì)迅速下降,降到最低值。由此可以得出結(jié)論,智算中心的負(fù)載波動(dòng)情況非常大,呈現(xiàn)出新的動(dòng)態(tài)負(fù)載特性(見(jiàn)圖6)。新的動(dòng)態(tài)負(fù)載特性主要表現(xiàn)為周期性、大幅度、并發(fā)性、瞬時(shí)沖擊等,這種特性對(duì)于智算中心的配電和制冷都是一個(gè)很大的挑戰(zhàn)。周期性:智算負(fù)載呈現(xiàn)周期性波動(dòng),波動(dòng)頻率從分鐘級(jí)到小時(shí)級(jí)不等大幅度:智算負(fù)載功耗波動(dòng)幅度可能超過(guò)額定功耗的80%,即智算中心的負(fù)載功耗可能從10%快速突變至80%,甚至100%并發(fā)性:人工智能(AI)大模型具有并發(fā)運(yùn)算的特點(diǎn),故整體集群性總功耗呈現(xiàn)出動(dòng)態(tài)快速變化瞬時(shí)沖擊:某些算力模型可能出現(xiàn)400us~50ms左右的負(fù)載沖擊,幅度可能達(dá)到額定負(fù)載功耗的150%,它取決于POD運(yùn)算模型及軟件算法圖6:典型AI算力集群負(fù)載動(dòng)態(tài)功耗曲線圖16001400 Loadprofile1000800600400200綜上所述,智算中心的演進(jìn)從芯片結(jié)構(gòu)演進(jìn)、用戶側(cè)訴求演進(jìn)、高密度化演進(jìn)以及負(fù)載特性演進(jìn),都將對(duì)通算中心(傳統(tǒng)數(shù)據(jù)中心)的基礎(chǔ)設(shè)施(電氣、制冷等)帶來(lái)顛覆性的變革,對(duì)智算中心的基礎(chǔ)設(shè)施(電氣、制冷等)解決方案也提出新的挑戰(zhàn)。接下來(lái)的章節(jié),將分別從選址規(guī)劃、電氣架構(gòu)和制冷系統(tǒng)架構(gòu)等架構(gòu)維度,探討如何應(yīng)對(duì)智算中心的新挑戰(zhàn)以及演進(jìn)趨勢(shì)。二.智算中心選址與規(guī)劃通算中心(傳統(tǒng)數(shù)據(jù)中心)的選址與規(guī)劃經(jīng)過(guò)多年的發(fā)展已比較完善、成熟和標(biāo)準(zhǔn)化,智算中心選址與規(guī)劃和通算中心相比有哪些特殊差異?本章節(jié)將從智算中心選址、建筑形式、建筑布局、房間功能、裝飾裝修以及已有建筑的改造這幾個(gè)方面進(jìn)行考量。2.1智算中心選址通算中心(傳統(tǒng)數(shù)據(jù)中心)的選址通常選在經(jīng)濟(jì)發(fā)達(dá)的城市及周邊區(qū)域,靠近終端客戶,可以有效降低網(wǎng)絡(luò)時(shí)延。近年來(lái),在國(guó)內(nèi)政策的不斷調(diào)節(jié)下,逐漸推動(dòng)數(shù)據(jù)中心選址到氣候更加適宜、土地更加充沛且電價(jià)更加便宜的地區(qū)。這是由于數(shù)據(jù)中心的選址與電力成本之間緊密相關(guān),東部核心城市火電的發(fā)電和傳輸成本較高,導(dǎo)致總體能源成本也相對(duì)較高,而西部偏遠(yuǎn)地區(qū)由于發(fā)電量遠(yuǎn)遠(yuǎn)大于用電量,且可再生能源富集,電價(jià)相對(duì)較低,氣候條件自然冷源更豐富且土地更充足。智算中心的選址會(huì)趨向于靠近終端客戶的核心城市還是資源豐富的偏遠(yuǎn)地區(qū)?近年來(lái),人們發(fā)現(xiàn)電網(wǎng)傳輸電能的成本要比傳輸信息的成本還要高,運(yùn)電不如運(yùn)信息更高效,因此,大型數(shù)據(jù)中心選址更趨向于在電能充沛且價(jià)低的內(nèi)蒙、寧夏、甘肅等西部地區(qū)。目前一些經(jīng)濟(jì)發(fā)達(dá)的核心城市由于產(chǎn)業(yè)密集、科技創(chuàng)新活躍,對(duì)智算中心的需求較為旺盛。然而,這些地區(qū)由于存在嚴(yán)格的能耗指標(biāo),導(dǎo)致算力部署面臨困難。因此,在智算中心選址初期,考慮到交通便利、人才招聘、運(yùn)維便捷性等因素,通常選擇靠近核心城市或其周邊的區(qū)域更有利。然而,隨著智算中心電力需求的不斷增長(zhǎng),電力供應(yīng)壓力逐漸加大,同時(shí)也為了逐步響應(yīng)國(guó)家政策,智算中心的選址將會(huì)轉(zhuǎn)向偏遠(yuǎn)但可再生能源富集的地區(qū)。這些偏遠(yuǎn)地區(qū)在能源、電價(jià)、氣候和政策方面的優(yōu)勢(shì),可以降低智算中心的建設(shè)和運(yùn)營(yíng)成本,提高智算中心的市場(chǎng)競(jìng)爭(zhēng)力。另外,智算中心選址的決策,并非只關(guān)注電價(jià),還需全面考量整體資源設(shè)施(如水資源是否充沛)、政策環(huán)境、市場(chǎng)需求等多重因素,以尋找經(jīng)濟(jì)活動(dòng)豐富與能源費(fèi)用的平衡點(diǎn)。同時(shí),還要關(guān)注人才資源、運(yùn)維便捷性、團(tuán)隊(duì)成熟度等關(guān)鍵因素,以確保智算中心能夠順利落地并發(fā)揮最大效益。特別對(duì)于服務(wù)科研、教育、醫(yī)療等公共領(lǐng)域的智算中心,在選址時(shí)還需特別關(guān)注周邊環(huán)境要求和建造要求,以確保其能夠安全、穩(wěn)定地服務(wù)于社會(huì)。對(duì)于分布式智算中心(通常用于推理因其需要通過(guò)網(wǎng)絡(luò)進(jìn)行緊密協(xié)同和數(shù)據(jù)傳輸,所以網(wǎng)絡(luò)資源也是其選址考量的主要因素之一。智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)深知社綜上所述,智算中心的選址,首先優(yōu)先考慮新能源資源豐富、能源利用條件良好、網(wǎng)絡(luò)資源良好,并接近核心城市或其周邊的區(qū)域的地區(qū),其次綜合考量整體資源設(shè)施、政策環(huán)境、市場(chǎng)需求等多重因素,最后核算經(jīng)濟(jì)與能源費(fèi)用的平衡點(diǎn)。2.2智算中心建筑形式近年來(lái),相對(duì)于傳統(tǒng)的多層建筑,出現(xiàn)了一種大平層建筑形式,這種建筑方式可以通過(guò)預(yù)制模塊化實(shí)現(xiàn)快速交付,并充分利用自然冷源提高制冷效率。典型的通算中心(傳統(tǒng)數(shù)據(jù)中心)為云廠商和互聯(lián)網(wǎng)公司規(guī)劃的云數(shù)據(jù)中心,這些通算中心重點(diǎn)關(guān)注交付周期、運(yùn)營(yíng)成本和可擴(kuò)展性,因此大平層建筑方式在一些中大型數(shù)據(jù)中心園區(qū)中得以廣泛應(yīng)用。智算中心的建筑形式優(yōu)先選用大平層還是多層建筑呢?智算中心在規(guī)劃時(shí)需要更多的考慮網(wǎng)絡(luò)組網(wǎng)傳輸?shù)囊?,?duì)于面向訓(xùn)練業(yè)務(wù)的智算中心,對(duì)網(wǎng)絡(luò)方面有著更高的要求,必須充分考慮支撐網(wǎng)絡(luò)。和通算中心(傳統(tǒng)數(shù)據(jù)中心)相比,智算中心的網(wǎng)絡(luò)帶寬收斂比低至1:1,存在大量的異構(gòu)技術(shù)核心,東西向通信流量更大,對(duì)抖動(dòng)、可用性、高吞吐、低時(shí)延數(shù)據(jù)訪問(wèn)的要求更高。盡管通信的時(shí)延主要來(lái)自于轉(zhuǎn)發(fā)過(guò)程,與物理距離的關(guān)聯(lián)度相對(duì)較低,但因?yàn)榇笃綄咏ㄖ问降娜莘e率低,設(shè)備布置相對(duì)分散,可能導(dǎo)致不同區(qū)域內(nèi)的設(shè)備間通信時(shí)延受到物理距離的影響,造成無(wú)法滿足智算中心對(duì)高速網(wǎng)絡(luò)的要求。同樣,基于智算中心網(wǎng)絡(luò)組網(wǎng)傳輸?shù)囊螅撬阒行脑诩阂?guī)劃時(shí),需要在智算服務(wù)器和交換機(jī)之間采用盡可能短的傳輸距離,此需求可在多層建筑中通過(guò)相鄰樓層間豎向打通的方式得以滿足,因此,多層建筑可以更好地滿足網(wǎng)絡(luò)帶寬、抖動(dòng)、可用性、高吞吐、低時(shí)延數(shù)據(jù)訪問(wèn)的高標(biāo)準(zhǔn)要求,更適合大規(guī)模智算中心集群的部署。2.3智算中心建筑布局通算中心(傳統(tǒng)數(shù)據(jù)中心)一直追求通過(guò)盡可能的降低制冷用電的CLF(CoolingLoadFactor),進(jìn)而提高能源效率PUE(PowerUsageEffectiveness從而提高可用的IT容量。通??赏ㄟ^(guò)改善房間布局來(lái)提升場(chǎng)地利用率和降低配電損耗,實(shí)現(xiàn)可以安裝更多的服務(wù)器。而智算中心則追求高算力和高算效,通過(guò)優(yōu)化網(wǎng)絡(luò)架構(gòu)和提升服務(wù)器ITUE(IT設(shè)備利用效率)和ITEE(IT設(shè)備能效)。如何通過(guò)優(yōu)化建筑布局從而提高智算中心算力和算效??jī)?yōu)化建筑布局對(duì)提高智算中心算力和算效有很大的作用。首先,集群組網(wǎng)及傳輸?shù)牟季中韪泳o湊。如以上章節(jié)所述,智算中心對(duì)網(wǎng)絡(luò)組網(wǎng)和傳輸有很高的要求,因此智算中心將打破通算中心(傳統(tǒng)數(shù)據(jù)中心)的建筑層高、承重、管線穿樓層等限制,從而做到服務(wù)器集群組網(wǎng)及傳輸?shù)牟季指泳o湊。另外,當(dāng)采取不同路由回路以保障網(wǎng)絡(luò)彈性時(shí),需要注意不同路由的距離和物理隔離,比如穿越樓板實(shí)現(xiàn)垂直網(wǎng)絡(luò)規(guī)劃和部署,目前已成為智算中心應(yīng)用的趨勢(shì)。當(dāng)然,這樣做法的同時(shí)必須滿足當(dāng)?shù)叵酪螅⒉扇∠鄳?yīng)的漏水封堵措施。另外,在層高和承重方面,智算中心也提出了相應(yīng)的提升要求。層高方面,采用風(fēng)冷或風(fēng)液混合制冷方案的智算中心,由于智算中心的功率密度更高,單位空間內(nèi)需要部署更多的管線,因此對(duì)層高提出更高要求,通常智算中心的層高普遍在5.0~6.5米。承重方面,TIA-942-C標(biāo)準(zhǔn)對(duì)Rated-3和Rated-4級(jí)對(duì)數(shù)據(jù)中心樓層活載荷的要求是不低于12KN/M2,而對(duì)于智算中心來(lái)說(shuō),對(duì)樓層活載荷的要求可能會(huì)更高,例如為部署液冷,樓層活載荷的要求達(dá)到18KN/M2甚至更高。2.4智算中心房間功能需求通算中心(傳統(tǒng)數(shù)據(jù)中心)對(duì)房間功能需求,一般會(huì)設(shè)置主機(jī)房、輔助區(qū)、支持區(qū)、行政管理區(qū)等功能空間,并考慮員工及客戶派駐人員的休息、餐飲住宿、辦公和會(huì)議室等需求。而對(duì)于智算中心,則更注重功率密度、制冷需求、配電支持、網(wǎng)絡(luò)配置、物理隔離和多功能需求等方面的功能規(guī)劃。智算中心在房間功能劃分上有哪些特殊需求?如以上章節(jié)所述,智算中心機(jī)柜呈現(xiàn)高密度化趨勢(shì),因此智算中心的制冷和配電支持區(qū)域的需求也會(huì)相應(yīng)增大,同樣,輔助區(qū)、支持區(qū)、行政管理區(qū)、運(yùn)維操作和倉(cāng)庫(kù)等區(qū)域的面積根據(jù)需求相應(yīng)的增加。因此,智算中心,特別是面向訓(xùn)練型業(yè)務(wù)類型的智算中心,相同的服務(wù)器數(shù)量需要更多的網(wǎng)絡(luò)交換機(jī)和直連銅纜(DAC)以及有源光纜(AOC因此,在規(guī)劃設(shè)備工藝時(shí),應(yīng)充分考慮機(jī)柜的寬度、配線架以及光纜、電纜走線架的要求,并以此為依據(jù)對(duì)房間功能進(jìn)行劃分。另外,智算中心應(yīng)預(yù)留合理儲(chǔ)存?zhèn)淦穫浼姆块g,規(guī)劃出ICT設(shè)備的安裝和調(diào)試的空間,保證房間內(nèi)環(huán)境滿足儲(chǔ)存和測(cè)試正常運(yùn)行的要求。同時(shí),房間規(guī)劃上可能會(huì)設(shè)置更多的功能區(qū),以展示智算中心的技術(shù)先進(jìn)性和創(chuàng)新成果,比如互動(dòng)體驗(yàn)區(qū)、展示區(qū)和休息區(qū)等。2.5智算中心裝飾裝修需求智算中心在裝修的維護(hù)結(jié)構(gòu),節(jié)能措施,地板高度,裝修材料,防止水溢滲透等方面面臨新的挑戰(zhàn)。隨著通算中心向著智算中心的演進(jìn),智算中心的裝飾裝修風(fēng)格也在不斷演變,并與其功能和特性更加緊密相關(guān)。智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)深知社智算中心的裝飾裝修系統(tǒng),除為滿足智算中心適當(dāng)?shù)耐L(fēng)、散熱和防塵而設(shè)計(jì)的功能需求外,更加注重強(qiáng)化結(jié)構(gòu)安全性、選用防水耐腐蝕材料、優(yōu)化安裝維護(hù)便利性,以及更加注重環(huán)保節(jié)能。以典型的智算中心風(fēng)液混合方案為例,它在原有精密空調(diào)的基礎(chǔ)上,增加服務(wù)器內(nèi)冷板、液體制冷劑、分液管、液冷分配單元(CDU)、泵、過(guò)濾和凈化裝置、控制系統(tǒng)等,所以在風(fēng)液混合方案內(nèi),為保障地板下液冷管路的維護(hù),地板高度需根據(jù)管路和泵閥尺寸確定,建議不低于1m,并設(shè)置漏液檢測(cè)和壓力感應(yīng)裝置。當(dāng)然,管路和泵閥也可以放在機(jī)柜通道頂部,降低地板高度要求,也更有利于維護(hù)檢修,同時(shí)避免影響下送風(fēng)系統(tǒng)的通風(fēng)效果。另外,在智算中心裝修過(guò)程中,需要面對(duì)復(fù)雜的管線布局,做好安全防護(hù)措施,嚴(yán)格控制環(huán)境參數(shù),以及采用節(jié)能材料和系統(tǒng),滿足綠色環(huán)保標(biāo)準(zhǔn),減少對(duì)環(huán)境的負(fù)面影響,降低建造和裝修材料的碳足跡。2.6已有建筑改造為智算中心通算中心(傳統(tǒng)數(shù)據(jù)中心)向智算中心的演進(jìn),除新建的方式外,還可通過(guò)對(duì)原有建筑進(jìn)行改造的方式升級(jí)為智算中心。如何改造已有的通算建筑以便適用于智算中心,是一個(gè)極具意義的課題,需根據(jù)業(yè)務(wù)系統(tǒng)的規(guī)模、現(xiàn)有土地、建筑條件、交付周期及商務(wù)條件等多種因素采取相應(yīng)策略。首先,改造前要充分考慮,改造后投入運(yùn)營(yíng)可能因噪音、制冷等影響因素帶來(lái)的挑戰(zhàn)。面向訓(xùn)練型業(yè)務(wù)負(fù)載改造時(shí),因智算服務(wù)器(風(fēng)冷)風(fēng)扇速度的提高,噪音將成為影響運(yùn)維人員工作環(huán)境的因素之一。因?yàn)槿蝿?wù)加載時(shí)噪音可能超過(guò)90分貝,現(xiàn)場(chǎng)人員可能面臨長(zhǎng)期在高噪因工況下的職業(yè)傷害風(fēng)險(xiǎn),改造時(shí)宜考慮墻壁安裝吸音材料進(jìn)行部分降噪,并在運(yùn)營(yíng)后為運(yùn)維人員配備耳塞等裝備。其次,對(duì)于面向推理業(yè)務(wù)負(fù)載的智算中心,由于其規(guī)模相對(duì)較小,則可以考慮對(duì)部署在已有的數(shù)據(jù)中心內(nèi)改造,或?qū)吘墧?shù)據(jù)中心改造。另外,改造方案還需要考慮通過(guò)加固和擴(kuò)建等方式以滿足智算中心承重的要求。在改造過(guò)程中,冷板液冷系統(tǒng)的改動(dòng)比浸沒(méi)式液冷的改動(dòng)較小。浸沒(méi)液冷系統(tǒng)的加固改造成本較高,加固成本甚至可能會(huì)超過(guò)新建成本??偟膩?lái)說(shuō),智算中心的選址和規(guī)劃是一個(gè)多方面考量的過(guò)程,需要精心設(shè)計(jì)策劃,以確保智算中心的高效交付使用。上述章節(jié)內(nèi)容中,建筑形式和布局是否便于維護(hù)和擴(kuò)展,房間功能是否按技術(shù)操作需求劃分明確,裝修是否兼顧安全和實(shí)用性,對(duì)現(xiàn)有建筑的改造是否可以提升結(jié)構(gòu)和系統(tǒng)以滿足智算中心的特定要求,這些綜合考量確保智算中心能夠適應(yīng)技術(shù)更新,實(shí)現(xiàn)長(zhǎng)期的穩(wěn)定運(yùn)行和可持續(xù)發(fā)展。三.智算中心電氣鏈路架構(gòu)挑戰(zhàn)及演進(jìn)趨勢(shì)接下來(lái),本章節(jié)將從系統(tǒng)層面深入探討智算中心(AIDC)與通算中心(傳統(tǒng)數(shù)據(jù)中心)在電力系統(tǒng)架構(gòu)方面的差異。隨著人工智能(AI)技術(shù)對(duì)計(jì)算資源和電力消耗的需求不斷增長(zhǎng),智算中心對(duì)電力系統(tǒng)的穩(wěn)定性、可靠性和效率提出了更高的要求。智算中心正顛覆性的改變通算中心的電力系統(tǒng)架構(gòu),這些影響使得智算中心很難再遵循通算中心之前總結(jié)的規(guī)律和標(biāo)準(zhǔn),特別對(duì)于超前建設(shè)的人工智能(AI)數(shù)字基礎(chǔ)設(shè)施提出更高的挑戰(zhàn)。3.1智算中心電氣鏈路的挑戰(zhàn)3.1.1電力能源接入挑戰(zhàn)在通算中心時(shí)代(傳統(tǒng)數(shù)據(jù)中心以某大廠一棟數(shù)據(jù)機(jī)房樓為例,約2萬(wàn)臺(tái)服務(wù)器,1020多臺(tái)機(jī)柜,單機(jī)柜功耗在12kW以上,組成IT總?cè)萘考s12.9MW的一棟標(biāo)準(zhǔn)數(shù)據(jù)機(jī)房樓,其電力容量大概在20MVA左右,通常由市政公共變電站引來(lái)四路10kV電源,多數(shù)情況下會(huì)分期建設(shè),因此對(duì)區(qū)域電網(wǎng)的整體壓力不是很大。在智算中心時(shí)代,以英偉達(dá)(NVIDIA)H100的DGX架構(gòu)8卡GPU服務(wù)器為例,部署一個(gè)1024臺(tái)服務(wù)器的萬(wàn)卡算力集群,單機(jī)柜同樣按12kW考慮,加上制冷等輔助用電,需要15~20MVA的電力容量。那么一棟10萬(wàn)卡的算力集群建筑,單棟建筑的用電規(guī)模則達(dá)到100兆瓦以上,因此,過(guò)去市政公共變電站的10kV電源輸出間隔很難滿足百兆瓦以上所需線路的數(shù)量,并且多路10kV長(zhǎng)距離輸電線路的經(jīng)濟(jì)性不高,需要自建110kV或接入更高電壓等級(jí)的電網(wǎng)。隨著智算芯片密度的持續(xù)增加,園區(qū)的用電規(guī)??梢赃_(dá)到200MW,甚至攀升至300~500MW的水平,因此需要接入220kV甚至更高電壓等級(jí)的電網(wǎng),這對(duì)區(qū)域電網(wǎng)的壓力呈指數(shù)級(jí)上升。因此,相比于通算中心,智算中心的拓展瓶頸已經(jīng)從機(jī)柜數(shù)量的物理空間問(wèn)題,轉(zhuǎn)變?yōu)槟茉垂┙o問(wèn)題,智算中心園區(qū)的算力容量上限不再是芯片算力的上限,而是發(fā)電廠和電網(wǎng)容量的上限。在滿足算力容量需求下,如何匹配電力能源接入,并實(shí)現(xiàn)綠色發(fā)展,成為智算中心面臨的重大挑戰(zhàn)。為解決這樣的問(wèn)題,與智算中心基礎(chǔ)設(shè)施需求配套的電力能源系統(tǒng)應(yīng)運(yùn)而生。3.1.2配電與IT機(jī)房的面積比挑戰(zhàn)隨著智算中心機(jī)柜呈現(xiàn)高密度化趨勢(shì),給數(shù)據(jù)機(jī)房的供配電整體占地空間帶來(lái)巨大挑戰(zhàn)。根據(jù)通算中心(傳統(tǒng)數(shù)據(jù)中心)的規(guī)劃建設(shè)經(jīng)驗(yàn),單機(jī)柜功耗在2.5kW-5kW的情況下,供配電系統(tǒng)占地面積通常為IT智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)深知社設(shè)備占地面積的1/4左右;當(dāng)單機(jī)柜功耗提升到8kW左右時(shí),供配電系統(tǒng)占地面積將達(dá)到IT設(shè)備占地面積的1/2左右;當(dāng)單機(jī)柜密度提升到16kW,供配電系統(tǒng)占地面積將與IT設(shè)備占地面積幾乎相同。因此,隨著智算中心的單機(jī)柜功率密度的快速提升,變配電室面積必然隨之大幅度增加,智算中心的建設(shè)方案需要考慮供電系統(tǒng)更多的占地面積。3.1.3電能利用率挑戰(zhàn)在通算中心(傳統(tǒng)數(shù)據(jù)中心)時(shí)代,為追求數(shù)據(jù)中心運(yùn)營(yíng)環(huán)境的極高可用性,2N配電架構(gòu)是最常見(jiàn)的供電設(shè)計(jì)方案,這種架構(gòu)以其建設(shè)簡(jiǎn)單、維護(hù)便捷的優(yōu)勢(shì)得到業(yè)內(nèi)廣泛認(rèn)可,占據(jù)中國(guó)數(shù)據(jù)中心整體規(guī)劃設(shè)計(jì)的主流。但隨著智算中心對(duì)算力需求的不斷提升,以及對(duì)成本效益和空間效率的追求,供電效率低成為傳統(tǒng)2N架構(gòu)面臨的主要問(wèn)題,因此,簡(jiǎn)化配電架構(gòu)設(shè)計(jì)以提升系統(tǒng)利用率、降低占地面積、最大程度地提升算力成為智算中心一大挑戰(zhàn)。在智算中心運(yùn)行著大量高效GPU服務(wù)器和存儲(chǔ)設(shè)備,這些IT設(shè)備自身需要大量的電力來(lái)支持其運(yùn)行,此外,為保持這些IT設(shè)備的穩(wěn)定運(yùn)行和數(shù)據(jù)處理的高效性,智算中心還需要匹配制冷系統(tǒng),這些配套的制冷系統(tǒng)同樣需要增加智算中心的能源消耗。龐大的算力規(guī)模部署,意味著消耗更多的能源,智算中心也正在成為中國(guó)電力系統(tǒng)的最大變量之一。作為能源消耗大戶,智算中心的能源利用效率(PUE)降低需求尤為迫切。能源利用效率(PUE)的降低意味著用更少的電力完成更多的任務(wù),也意味著相同的規(guī)模,可以用更少的能源實(shí)現(xiàn),同時(shí)也滿足節(jié)能降碳需求。因此,隨著智算中心規(guī)模的不斷提升,對(duì)智算中心能源利用效率(PUE)將會(huì)提出更高的要求。3.1.5服務(wù)器電源形式挑戰(zhàn)對(duì)數(shù)據(jù)中心行業(yè)而言,服務(wù)器電源是數(shù)據(jù)中心供電系統(tǒng)建設(shè)的核心。在通算中心(傳統(tǒng)數(shù)據(jù)中心)時(shí)代,通用CPU服務(wù)器電源功耗較小,通常在300~700瓦之間,常見(jiàn)電源冗余技術(shù)為1+1冗余形式。隨著人工智能(AI)算力GPU芯片功耗的提升,先進(jìn)人工智能(AI)服務(wù)器功耗持續(xù)升級(jí)。以英偉達(dá)(NVIDIA)服務(wù)器的電源結(jié)構(gòu)為例,英偉達(dá)(NVIDIA)DGXH100服務(wù)器,8U機(jī)架安裝,輸入電壓:200-240V交流電,電源規(guī)格:最大10.2kW,200-240V3300W,16A,50-60Hz。DGXH100服務(wù)器電源架構(gòu)是N+2的電源冗余的架構(gòu)(見(jiàn)圖7正常需要配置6個(gè)IECC20接口的開(kāi)關(guān)電源。如果采用傳統(tǒng)的末端配電架構(gòu),機(jī)柜內(nèi)配置左右共兩個(gè)PDU電源,左右PDU電源分別接三個(gè)開(kāi)關(guān)電源,當(dāng)其中一路PDU電源中斷,服務(wù)器僅剩余三個(gè)電源工作,DGXH100服務(wù)器則會(huì)宕機(jī)。因此,末端配電需要配置三條PDU電源,全鏈路三路獨(dú)立電源是較為合理和推薦的方案。另外,不同廠家的算力服務(wù)器電源存在的兼容性圖7:N+2電源配置示意圖3.1.6智算負(fù)載分級(jí)供電的挑戰(zhàn)為確保通算中心(傳統(tǒng)數(shù)據(jù)中心)負(fù)載的連續(xù)性供電,通算中心通常采用來(lái)自兩個(gè)不同變電站的兩路市電作為電源,采用柴油發(fā)電機(jī)作為本項(xiàng)目的備用電源。當(dāng)某路市電故障,另一路市電能迅速接入,當(dāng)兩路市電完全中斷時(shí),柴油發(fā)電機(jī)自動(dòng)啟動(dòng)供電,同時(shí)配置不間斷電源UPS和電池,確保柴發(fā)啟動(dòng)前的電力系統(tǒng)不會(huì)中斷。和通算中心不同,智算中心的供電連續(xù)性要求已發(fā)生變化,并不是所有負(fù)載都需要不間斷供電。智算中心的推理業(yè)務(wù)負(fù)載屬于關(guān)鍵型負(fù)載,如推理、存儲(chǔ)與云服務(wù)等仍需配置后備電源,而訓(xùn)練業(yè)務(wù)則屬于可間斷負(fù)載。當(dāng)發(fā)生故障或斷電,訓(xùn)練業(yè)務(wù)負(fù)載將模型保存為“檢查點(diǎn)”,電源恢復(fù)后可以從中斷點(diǎn)繼續(xù)運(yùn)行,因此,智算中心的訓(xùn)練業(yè)務(wù)負(fù)載對(duì)業(yè)務(wù)連續(xù)性,容錯(cuò)性和可用性的訴求也發(fā)生改變。相較于昂貴的服務(wù)器成本,平衡不間斷電源供電的成本與服務(wù)器因斷電損壞的潛在風(fēng)險(xiǎn)是智算中心面臨的新挑戰(zhàn)。3.1.7末端配電方式挑戰(zhàn)隨著智算集群規(guī)模增長(zhǎng),單機(jī)柜容量已攀升至上百千瓦。2024年3月英偉達(dá)(NVIDIA)發(fā)布DGXNVL72機(jī)柜,由36塊GB200AI加速卡(由72塊GPU和32塊CPU)組成,使得單機(jī)柜功耗達(dá)到120kW。智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)深知社更高的機(jī)柜功耗意味著更大容量的電力需求,末端配電設(shè)施如何支撐大容量機(jī)柜供電?這些變化將對(duì)末端配電的物理基礎(chǔ)設(shè)施提出新的挑戰(zhàn)。3.1.8負(fù)載動(dòng)態(tài)沖擊挑戰(zhàn)如以上所述,智算中心負(fù)載特性呈現(xiàn)出周期性、大幅度、并發(fā)性、瞬時(shí)沖擊等動(dòng)態(tài)負(fù)載特性,智算中心負(fù)載的這些動(dòng)態(tài)特性將對(duì)智算中心供配電鏈路,如油機(jī)、不間斷電源、服務(wù)電源等關(guān)鍵環(huán)節(jié)提出新的挑戰(zhàn)。智算中心負(fù)載特性分析詳見(jiàn)“1.5靜態(tài)負(fù)載向動(dòng)態(tài)負(fù)載演進(jìn)”章節(jié)。3.1.9環(huán)境溫度突變挑戰(zhàn)在通算時(shí)代(傳統(tǒng)數(shù)據(jù)中心由于其服務(wù)器密度較低,散熱需求相對(duì)較小,因此制冷系統(tǒng)通常可以較為輕松地維持穩(wěn)定的溫度環(huán)境,因此溫度變化速率相對(duì)較慢,電氣設(shè)備在這樣的環(huán)境溫度變化下能夠保持其性能穩(wěn)定。在智算中心時(shí)代,由于服務(wù)器負(fù)載功率密度高,且呈現(xiàn)出新的動(dòng)態(tài)負(fù)載特性,當(dāng)智算服務(wù)器高負(fù)載運(yùn)行且動(dòng)態(tài)快速增加時(shí),會(huì)快速產(chǎn)生大量的熱量,因此其散熱需求更大,制冷系統(tǒng)需要快速響應(yīng),但是制冷系統(tǒng)需要一定的反應(yīng)時(shí)間,并且制冷系統(tǒng)很難在短時(shí)內(nèi)達(dá)到其效率極限,這將導(dǎo)致周圍環(huán)境溫度快速上升。緊接著,制冷系統(tǒng)為維持溫度穩(wěn)定,會(huì)全功率送冷,這又會(huì)導(dǎo)致周圍環(huán)境溫度快速下降。這種環(huán)境溫度的快速變化會(huì)給電氣元器件帶來(lái)更大的熱應(yīng)力,可能導(dǎo)致電子元器件的性能發(fā)生明顯變化,影響設(shè)備的絕緣性能,降低電子元器件的可靠性,比如降低器件的靈敏度、需要降容使用等,增加故障事件發(fā)生的概率。3.2智算中心供配電系統(tǒng)的演進(jìn)趨勢(shì)—“智算電能管理鏈”如以上章節(jié)所述,相對(duì)于通算中心(傳統(tǒng)數(shù)據(jù)中心智算中心在電氣整體鏈路方面面臨著一系列挑戰(zhàn),包括單機(jī)柜功耗的顯著提升、電力能源的接入問(wèn)題、配電與IT機(jī)房的面積比、架構(gòu)電能利用率、能效、智算負(fù)載分級(jí)、末端配電方式、負(fù)載動(dòng)態(tài)沖擊以及環(huán)境溫度突變等挑戰(zhàn)。應(yīng)對(duì)這些挑戰(zhàn),僅在供配電系統(tǒng)單一環(huán)節(jié)進(jìn)行局部?jī)?yōu)化難以解決,需要智算中心電氣系統(tǒng)在全鏈路進(jìn)行協(xié)同演進(jìn),構(gòu)筑“智算電能管理鏈”。3.2.1電力能源系統(tǒng)向“算電協(xié)同”演進(jìn)面對(duì)電力能源接入的挑戰(zhàn),智算中心的演進(jìn)趨勢(shì)是向“算電協(xié)同”演進(jìn)。相較于傳統(tǒng)數(shù)據(jù)中心,智算中心在能源消耗方面呈現(xiàn)出顯著的量級(jí)差異,這使得其更加注重可持續(xù)發(fā)展。具體策略比如,智算中心的選址優(yōu)先考慮新能源資源豐富、能源利用條件良好的地區(qū)。統(tǒng)籌智算中心發(fā)展需求和新能源資源稟賦,科學(xué)整合源荷儲(chǔ)資源,開(kāi)展算力、電力基礎(chǔ)設(shè)施協(xié)同規(guī)劃布局。探索新能源就近供電、聚合交易、就地消納的“綠電聚合供應(yīng)”模式。整合調(diào)節(jié)資源,提升算力與電力協(xié)同運(yùn)行,提高數(shù)據(jù)中心綠電占比,降低電網(wǎng)保障容量需求,探索光熱發(fā)電與風(fēng)電、光伏發(fā)電聯(lián)營(yíng)的綠電穩(wěn)定供應(yīng)模式。智算中心有較為明顯的極限算力工況和平時(shí)算力工況,此運(yùn)行特點(diǎn)可以保證智算中心充分利用綠電儲(chǔ)能技術(shù)。當(dāng)智算中心處在極限算力工況時(shí),市電系統(tǒng)與綠電系統(tǒng)可以并行為其提供電力資源。當(dāng)智算中心處在平時(shí)算力工況時(shí),可以優(yōu)選綠電儲(chǔ)能系統(tǒng)為計(jì)算節(jié)點(diǎn)設(shè)備提供電力資源。但是對(duì)于新能源發(fā)電占比較高的電網(wǎng),其穩(wěn)定性易受新能源波動(dòng)性的影響,市電的不穩(wěn)定成為潛在風(fēng)險(xiǎn)點(diǎn)。因此,擁有自有可控的本地電源對(duì)于園區(qū)來(lái)說(shuō)更為可靠。除依賴傳統(tǒng)的發(fā)電機(jī)和不間斷電源UPS、電池,還應(yīng)有效利用局部區(qū)域內(nèi)的各類可控能源,如小型水力發(fā)電、小型核反應(yīng)堆(SMR)、氫燃料電池等,形成綜合能源供應(yīng)的資源池,不僅可提升備用電源容量的利用效率,更能確保電能足質(zhì)足量供應(yīng)。新能源接入條件不佳的區(qū)域,在政策允許的情況下,智算中心可以與其他能源用戶或能源供應(yīng)商進(jìn)行綠電交易、綠證交易、碳交易等能源交易和共享,既能以市場(chǎng)化手段支撐自身低碳轉(zhuǎn)型,又能實(shí)現(xiàn)能源的互利共贏和最大化利用。3.2.2簡(jiǎn)化供電系統(tǒng)架構(gòu)演進(jìn)如以上章節(jié)所述,隨著智算中心功率密度的快速提升,配電室面積的占比也將顯著增加。因此可以想象,在一個(gè)多層建筑中,智算中心將會(huì)形成類似金字塔的結(jié)構(gòu),底層配置大量配電設(shè)備,上層相對(duì)稀疏地?cái)[放少量高性能服務(wù)器機(jī)柜。供電設(shè)備占地面積大,供電效率低是通算中心(傳統(tǒng)數(shù)據(jù)中心)2N架構(gòu)面臨的問(wèn)題,因此智算中心需要簡(jiǎn)化配電架構(gòu)設(shè)計(jì)以提升系統(tǒng)利用率,降低配電設(shè)備的占地面積,DR(DistributedRedundancy)/RR(ReserveRedundancy)/N+1簡(jiǎn)化架構(gòu)將得到進(jìn)一步的推廣和應(yīng)用。簡(jiǎn)化架構(gòu)的本質(zhì),是在算力一定的前提下減少市電容量需求,或者在市電容量一定的前提下,最大程度地提升算力。與傳統(tǒng)2N架構(gòu)相比,DR架構(gòu)(見(jiàn)圖8)和RR架構(gòu)(見(jiàn)圖9在簡(jiǎn)化架構(gòu)供電系統(tǒng)的利用率明顯提升,DR/RR架構(gòu)的建設(shè)成本和運(yùn)行成本也比2N架構(gòu)降低10%,配電設(shè)備數(shù)量和占地空間明顯減少。 市電電源 市電電源備用電源市電電源 . 10kVATS10kVATS10kVATS 變壓器變壓器變壓器深知社UPSUPSIT負(fù)載IT負(fù)載UPSIT負(fù)載圖8:DR供電系統(tǒng)架構(gòu)示意圖圖9:RR供電系統(tǒng)架構(gòu)示意圖UPSUPSIT負(fù)載IT負(fù)載UPSIT負(fù)載IT負(fù)載IT負(fù)載IT負(fù)載 市電電源備用電源市電電源IT負(fù)載IT負(fù)載IT負(fù)載 . 10kVATS10kVATS10kVATS 變壓器變壓器變壓器UPSUPSUPSUPSUPSITIT負(fù)載DR架構(gòu):屬于“手拉手”結(jié)構(gòu),每臺(tái)變壓器10kV進(jìn)線均采用雙電源系統(tǒng)切換,組成三套獨(dú)立的系統(tǒng),每套系統(tǒng)都可以作為備份的冗余,末端的負(fù)載,由不間斷電源UPS交叉供電,變壓器負(fù)載率在66%以下,任何一套系統(tǒng)的故障都不影響系統(tǒng)的運(yùn)行,可用性能99.998%。DR架構(gòu)在海外數(shù)據(jù)中心使用較多,國(guó)內(nèi)較少使用。DR架構(gòu)中配電設(shè)備使用減少接近25%,電源設(shè)備成本低。但由于設(shè)備和電纜路由難以實(shí)現(xiàn)物理隔離,發(fā)生故障時(shí)負(fù)載分別轉(zhuǎn)移到其他電源,故障定位時(shí)間較長(zhǎng)。RR架構(gòu):有一套固定的設(shè)備作為冗余備用系統(tǒng),這套系統(tǒng)正常是不工作的。主用系統(tǒng)長(zhǎng)期滿載,備用系統(tǒng)處于長(zhǎng)期空載,當(dāng)任何一套主用系統(tǒng)斷電或維修時(shí),它所承擔(dān)的負(fù)載由備用系統(tǒng)帶載。RR架構(gòu)屬于N+1配置,建設(shè)成本低,可用性99.995%,可靠性滿足基本要求。設(shè)備和電纜路由可以實(shí)現(xiàn)物理隔離,但系統(tǒng)架構(gòu)復(fù)雜、運(yùn)維難度偏高。RR架構(gòu)在三大通信運(yùn)營(yíng)商的通信機(jī)房較多使用,而數(shù)據(jù)中心使用較少。RR架構(gòu)可以使智算中心的供電系統(tǒng)的利用率從50%提升到N/(N+1同時(shí)將占地面積減少實(shí)際上,只要在規(guī)劃設(shè)計(jì)階段做好負(fù)載分配,無(wú)論DR架構(gòu)還是RR架構(gòu),其可維護(hù)性和可用性都是比較高的,其可用性均在99.99%以上。以傳統(tǒng)2N架構(gòu)為基準(zhǔn),單位面積下,DR架構(gòu)算力提升33%,RR架構(gòu)算力提升50%。如果選用一些非存儲(chǔ)和通信的算力設(shè)備可能會(huì)進(jìn)一步降低冗余度,這種情況下,采用備電模塊級(jí)的N+1架構(gòu)來(lái)替代DR/RR(雙路冗余或完全冗余)架構(gòu),甚至取消冗余的組件和電池,這樣簡(jiǎn)化配電架構(gòu)將助力智算中心在有限的空間內(nèi)實(shí)現(xiàn)更大的算力。例如,如果采用英偉達(dá)(NVIDIA)DGXH100服務(wù)器,其電源架構(gòu)是N+2的電源冗余的架構(gòu),基于服務(wù)器這樣的架構(gòu),DR架構(gòu)更適用于DGXH100這樣的服務(wù)器電源結(jié)構(gòu)。自建項(xiàng)目:則采用DR/RR/N+1簡(jiǎn)化架構(gòu)成本更低、效率更高,占用空間更小,并且通過(guò)減少冗余組件的數(shù)量和優(yōu)化電力分配,減少非必要組件宕機(jī)風(fēng)險(xiǎn)。第三方租賃項(xiàng)目:簡(jiǎn)化配電架構(gòu)可能影響對(duì)潛在租戶的吸引力,需要在簡(jiǎn)化配電架構(gòu)的成本效益與吸引更多租戶的商業(yè)模式之間進(jìn)行權(quán)衡。此外,鋰電池替代鉛酸電池和一體化電源方案也是智算中心集成度提升的一個(gè)明顯趨勢(shì),以應(yīng)對(duì)智算中心供配電面積占比過(guò)大的挑戰(zhàn)。綜上所述,智算中心的供電架構(gòu)將由2N向混合簡(jiǎn)化架構(gòu)演進(jìn),針對(duì)不同負(fù)載、不同場(chǎng)景和不同客戶選擇不同架構(gòu)進(jìn)行智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)深知社圖10:智算中心2N+3DR混合供電架構(gòu)示意圖市電電源A3市電電源A2市電電源A3市電電源A2市電電源A110kV配電變壓器UPS輔助負(fù)載10kV配電10kV配電10kV配電變壓器變壓器UPSUPSIT負(fù)載IT負(fù)載智算中心包間1市電電源市電電源A3市電電源A2市電電源A3市電電源A2市電電源A110kV配電變壓器UPS輔助負(fù)載10kV配電10kV配電10kV配電變壓器變壓器UPSUPSIT負(fù)載IT負(fù)載智算中心包間1市電電源A11010kV配電變壓器變壓器UPSUPS動(dòng)力1010kV配電10kVATS變壓器變壓器UPSUPSITIT負(fù)載3.2.3智算負(fù)載分級(jí)供電演進(jìn)如以上章節(jié)所述,智算中心的訓(xùn)練業(yè)務(wù)負(fù)載屬于可間斷負(fù)載,因此,智算中心的訓(xùn)練業(yè)務(wù)負(fù)載對(duì)業(yè)務(wù)連續(xù)性、容錯(cuò)性和可用性的訴求發(fā)生改變,并不是所有負(fù)載都需要不間斷和柴發(fā)后備電源。相較于昂貴的服務(wù)器成本,智算中心需要平衡后備電源供電的成本與服務(wù)器因斷電損壞的潛在風(fēng)險(xiǎn)。智算中心在選擇備電模型時(shí),需要根據(jù)自身的風(fēng)險(xiǎn)承受能力進(jìn)行決策,尤其是第三方租賃的智算中心,提供菜單式的分級(jí)供電可用性的服務(wù)等級(jí)協(xié)議(SLA)可能是一個(gè)可以平衡成本和風(fēng)險(xiǎn)的途徑。3.2.4預(yù)制電力模組演進(jìn)采用預(yù)制電力模組將中壓柜、變壓器、不間斷電源UPS、高壓直流(HVDC見(jiàn)附錄名詞解釋)、饋電等預(yù)制集成交付,可減少電力室面積高達(dá)40%,交付周期縮短70%,實(shí)現(xiàn)更高的利用率、可擴(kuò)展性和更快的部署,是智算中心電氣鏈路演進(jìn)的重要趨勢(shì)之一。詳見(jiàn)“5.2電氣預(yù)制模塊化趨勢(shì)”。3.2.5UPS向MW級(jí),超高效及高密化演進(jìn)近年來(lái),國(guó)家陸續(xù)發(fā)布UPS相關(guān)政策,引導(dǎo)UPS技術(shù)發(fā)展,2022年工信部發(fā)布的《國(guó)家工業(yè)和信息化領(lǐng)域節(jié)能技術(shù)裝備推薦目錄(2022年版)》便將大功率模塊化UPS作為數(shù)據(jù)中心機(jī)房整體模塊化解決方案的重要產(chǎn)品之一。2024年5月,工信部發(fā)布《國(guó)家工業(yè)和信息化領(lǐng)域節(jié)能降碳技術(shù)裝備推薦目錄(2024年版)》,其中數(shù)據(jù)中心節(jié)能降碳技術(shù)提到重點(diǎn)發(fā)展高頻、大功率、模塊化UPS技術(shù)。目前通算中心(傳統(tǒng)數(shù)據(jù)中心)主流UPS容量為400kVA/500kVA/600kVA,智算中心向MW級(jí),超高效及高密化演進(jìn)。由于智算數(shù)據(jù)中心IT系統(tǒng)功率快速提升,現(xiàn)有2500kVA變壓器在占地及系統(tǒng)容量上不具備優(yōu)勢(shì),變壓器容量出現(xiàn)向3150kVA及更大容量變化趨勢(shì),考慮到UPS并機(jī)臺(tái)數(shù)限制,現(xiàn)有600kVAUPS主機(jī)在適配更大并機(jī)系統(tǒng)容量上面臨挑戰(zhàn)。UPS單機(jī)容量由600kVA提升至1MVA及1.2MVA,減少并機(jī)臺(tái)數(shù),同時(shí)可進(jìn)一步節(jié)省系統(tǒng)占地及后期運(yùn)維成本,成為演進(jìn)的趨勢(shì)。同時(shí),UPS需要持續(xù)提升功率密度,減小設(shè)備占地,以改善供配電設(shè)備輔助占比。以600kVAUPS為例,業(yè)界常規(guī)占地寬度一邊為1200mm,但業(yè)界已有頭部廠商通過(guò)架構(gòu)及器件創(chuàng)新,將寬度縮減至600mm,功率密度提升100%,占地面積圖11:600kVAUPS功率密度提升1200mm600mm1200mm600mmUPS高密化的基礎(chǔ)是提升UPS能效,通過(guò)能效提升減小UPS發(fā)熱量來(lái)應(yīng)對(duì)UPS高密化帶來(lái)的發(fā)熱挑戰(zhàn),隨著大功率SIC器件的不斷成熟及成本下降,UPS將采用SIC器件替代傳統(tǒng)開(kāi)關(guān)器件(見(jiàn)圖12運(yùn)行效率可提升至97.5%以上,相對(duì)于傳統(tǒng)96%效率UPS,UPS單臺(tái)主機(jī)發(fā)熱量可降低37.5%以上。智算中心基礎(chǔ)設(shè)施演進(jìn)白皮書(shū)深知社(效率)98.00%97.50%97.00%96.50%96.00%95.50%圖12:采用SIC(效率)98.00%97.50%97.00%96.50%96.00%95.50%●97.52%●●97.24%●●●●●67%●.●0%20%40%60%80%100%120%(負(fù)載率)3.2.6不間斷電源系統(tǒng)儲(chǔ)備一體演進(jìn)①.鋰進(jìn)鉛退目前通算中心(傳統(tǒng)數(shù)據(jù)中心)中鉛酸電池仍然是主流,但隨著智算中心電力的面積占比不斷增加,與不間斷電源配套的電池室面積也在相應(yīng)同步增加,有必要對(duì)電池選型進(jìn)一步研判。2023年12月,中國(guó)建筑節(jié)能協(xié)會(huì)正式發(fā)布《數(shù)據(jù)中心鋰離子電池室設(shè)計(jì)標(biāo)準(zhǔn)》,為鋰電池在數(shù)據(jù)中心行業(yè)的規(guī)范化和規(guī)模化應(yīng)用奠定基礎(chǔ)。鋰電池作為一種節(jié)能環(huán)保的電池技術(shù),憑借占地面積小、能量密度高、承重要求低、循環(huán)壽命長(zhǎng)、維護(hù)成本低等顯著優(yōu)勢(shì),將逐步取代鉛酸電池,成為智算中心的首選。行業(yè)內(nèi)UPS頭部廠商已全面兼容鋰電池儲(chǔ)能技術(shù),利用數(shù)據(jù)中心UPS滿載15分鐘備電時(shí)間,以及UPS備電容量的實(shí)際冗余進(jìn)行相應(yīng)的削峰填谷,無(wú)需改變供電結(jié)構(gòu),也不會(huì)額外增加制冷系統(tǒng)和EMS系統(tǒng),在節(jié)能模式下效率高達(dá)99%,進(jìn)一步降低能耗,顯著提升了運(yùn)營(yíng)效率。②.儲(chǔ)備一體對(duì)于智算負(fù)載動(dòng)態(tài)特性的調(diào)優(yōu)適配UPS主機(jī)與鋰電的儲(chǔ)備融合,對(duì)于功率流的精準(zhǔn)管理,將大幅降低GPU集群負(fù)載動(dòng)態(tài)波動(dòng)對(duì)于在海外某大型智算中心的實(shí)際測(cè)試中,可以看到當(dāng)UPS前端轉(zhuǎn)為油機(jī)供電時(shí),由于負(fù)載的大幅持續(xù)波動(dòng),油機(jī)的輸出端出現(xiàn)了明顯的電壓幅值及頻率波動(dòng)。(見(jiàn)圖13)圖13:市電與油機(jī)兩種模式下UPS帶智算負(fù)載的測(cè)試波形市電模式油機(jī)模式借助鋰電池的高循環(huán)壽命,并結(jié)合UPS儲(chǔ)備功能,通過(guò)精確的控制市電與電池的功率配比,實(shí)現(xiàn)UPS輸入功率的緩升緩降,減小智算負(fù)載動(dòng)態(tài)特性對(duì)于油機(jī)的沖擊,提升系統(tǒng)運(yùn)行可靠性。3.2.7末端電壓等級(jí)提升及全直流系統(tǒng)演進(jìn)隨著智算中心單機(jī)柜功率密度的提升,供電系統(tǒng)優(yōu)化的關(guān)注點(diǎn)將轉(zhuǎn)向更高電壓等級(jí),以解決導(dǎo)體截面積過(guò)大,更多的材料和更大的體積的問(wèn)題。同時(shí),電壓等級(jí)的升高也會(huì)帶來(lái)遠(yuǎn)距離輸電的優(yōu)勢(shì),這將會(huì)引發(fā)數(shù)據(jù)中心設(shè)計(jì)架構(gòu)上顛覆性的變革。通算中心(傳統(tǒng)數(shù)據(jù)中心)在供電系統(tǒng)選擇上,常見(jiàn)兩種方案:AC400V不間斷電源(UPS)和DC240V高壓直流(HVDC)。這兩項(xiàng)技術(shù)經(jīng)過(guò)多年的市場(chǎng)考驗(yàn),已證明其技術(shù)可行性,市場(chǎng)接受度較高,產(chǎn)業(yè)鏈較為成熟。但對(duì)于高密度、高效率的智算中心而言,由于智算服務(wù)器之間連接的光纜已經(jīng)占用過(guò)多機(jī)柜的走線空間,探索更高電壓的應(yīng)用可以減少電源線占用的空間,帶來(lái)潛在的性能提升和成本節(jié)約,這也更符合可持續(xù)發(fā)展的要求。再考慮到未來(lái)智

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論