數(shù)據(jù)中心算力-電力靈活性協(xié)同研究-2023.12_第1頁(yè)
數(shù)據(jù)中心算力-電力靈活性協(xié)同研究-2023.12_第2頁(yè)
數(shù)據(jù)中心算力-電力靈活性協(xié)同研究-2023.12_第3頁(yè)
數(shù)據(jù)中心算力-電力靈活性協(xié)同研究-2023.12_第4頁(yè)
數(shù)據(jù)中心算力-電力靈活性協(xié)同研究-2023.12_第5頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

白皮書(shū)數(shù)據(jù)中心算力-電力靈活性協(xié)同研究智能管控計(jì)算負(fù)載,靈活調(diào)節(jié)電力負(fù)荷執(zhí)行概要適應(yīng)新能源發(fā)電比例不斷提高,以及用戶(hù)側(cè)電力需求響應(yīng)逐步常態(tài)化的趨勢(shì),騰訊攜手英特爾、中國(guó)電信,針對(duì)通過(guò)數(shù)據(jù)中心算力-電力協(xié)同進(jìn)行需求響應(yīng)進(jìn)行了初步可行性研究。本研究提出通過(guò)判斷計(jì)算任務(wù)在服務(wù)器上的算力-電力特征,在不影響業(yè)務(wù)運(yùn)行的情況下,降低電力部件的實(shí)時(shí)冗余性、調(diào)整業(yè)務(wù)負(fù)載的并行規(guī)模和時(shí)間分布。研究對(duì)業(yè)務(wù)-算力-電力三者協(xié)同提供電力靈活性的多種策略進(jìn)行了實(shí)際測(cè)試,在服務(wù)器集群運(yùn)行不同

IT

任務(wù)類(lèi)型時(shí),通過(guò)切換空載服務(wù)器功耗狀態(tài)、利用服務(wù)器子部件資源消耗不均衡性、平移和伸縮實(shí)時(shí)性不敏感任務(wù),改變負(fù)荷大小和時(shí)間分布,可達(dá)到節(jié)能降耗、對(duì)電網(wǎng)負(fù)荷削峰填谷等目的,可適用于各種規(guī)模、形式的數(shù)據(jù)中心、機(jī)房、集群和服務(wù)器。本研究表明,三種策略均可根據(jù)外部指令實(shí)現(xiàn)秒級(jí)對(duì)服務(wù)器功率的快速控制,為數(shù)據(jù)中心參與需求側(cè)分鐘級(jí)、秒級(jí)響應(yīng),或參與電力現(xiàn)貨市場(chǎng)和電力輔助服務(wù)市場(chǎng),提供了可行性依據(jù)和技術(shù)支持,顯示數(shù)據(jù)中心的電力靈活性響應(yīng)具備巨大的潛力以及廣闊的應(yīng)用前景。未來(lái),推動(dòng)其由研究走向數(shù)據(jù)中心算力-電力需求響應(yīng)的成熟應(yīng)用,既需要對(duì)更多部件、更復(fù)雜的部署情況進(jìn)行深入實(shí)驗(yàn),又需要形成自動(dòng)化系統(tǒng),聯(lián)動(dòng)業(yè)務(wù)-算力-電力三者的對(duì)應(yīng)信息,同時(shí)更需要產(chǎn)業(yè)伙伴廣泛協(xié)同,采用一套標(biāo)準(zhǔn)的測(cè)試方法標(biāo)定業(yè)務(wù)負(fù)載在機(jī)型上的電力特性數(shù)據(jù),開(kāi)源共享,從而充分挖掘和發(fā)揮出數(shù)據(jù)中心算力側(cè)的電力靈活性,助力構(gòu)建新型電力系統(tǒng)。目錄執(zhí)行概要

......................................................

1背景

............................................................

1數(shù)智技術(shù)助力需求側(cè)響應(yīng)走向節(jié)能減碳的前臺(tái)

..2探索和推進(jìn)數(shù)據(jù)中心電力靈活性實(shí)踐

.

.

.

.

.

.

.

.

.

.

.

.

.

.

2系統(tǒng)化構(gòu)建數(shù)據(jù)中心算力-電力靈活性方案

.

.

.

.

.

.4靈活性策略設(shè)計(jì).

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.4背景利用空載服務(wù)器在不同功耗狀態(tài)之間切換

................利用計(jì)算任務(wù)在服務(wù)器硬件資源消耗上的不均衡性

......44環(huán)境挑戰(zhàn)日益嚴(yán)峻,其影響正受到全球高度關(guān)注。2022

4

4

日,聯(lián)合國(guó)政府間氣候變化專(zhuān)門(mén)委員會(huì)

(IPCC)

正式發(fā)布了第六次評(píng)估報(bào)告

(AR6),并在第三工作組報(bào)告《氣候變利用平移和伸縮實(shí)時(shí)性不敏感的計(jì)算任務(wù)..................5利用網(wǎng)絡(luò)跨數(shù)據(jù)中心轉(zhuǎn)移任務(wù)

..............................5靈活性策略結(jié)果.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

5利用空載服務(wù)器在不同功耗狀態(tài)之間切換的策略測(cè)試

....5利用計(jì)算任務(wù)在服務(wù)器子部件消耗不均衡性的策略測(cè)試

..6硬盤(pán)密集型任務(wù)

.....................................6化

2022:減緩氣候變化》中警示

,在

2100

年前將全球升溫控制在

1.5℃

以?xún)?nèi)

(且不導(dǎo)致“過(guò)1沖”)

的機(jī)會(huì)窗口短暫且正在迅速關(guān)閉,全球減緩氣候變化和適應(yīng)的行動(dòng)刻不容緩,任何延遲都將關(guān)上機(jī)會(huì)之窗,讓人類(lèi)的未來(lái)變得不再具有可持續(xù)性。同期,在中國(guó)氣象局

2022

8

月3

日發(fā)布的《中國(guó)氣候變化藍(lán)皮書(shū)

(2022)》則顯示

,2021

年中國(guó)地表平均氣溫較常年值偏高20.97℃,達(dá)1901年以來(lái)的最高值,升溫速率高于同期全球平均水平,是全球氣候變化的敏感區(qū)。為有效應(yīng)對(duì)嚴(yán)峻的環(huán)境挑戰(zhàn)與經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展的內(nèi)在壓力,落實(shí)聯(lián)合國(guó)

2030

年可持續(xù)發(fā)展議程,中國(guó)積極實(shí)施生態(tài)文明國(guó)家戰(zhàn)略,發(fā)布“碳達(dá)峰”和“碳中和”目標(biāo),加快降低碳排放步伐,引導(dǎo)綠色技術(shù)創(chuàng)新。同時(shí),持續(xù)推進(jìn)產(chǎn)業(yè)結(jié)構(gòu)和能源結(jié)構(gòu)調(diào)整,努力兼顧經(jīng)濟(jì)發(fā)展和綠色轉(zhuǎn)型,促進(jìn)可持續(xù)發(fā)展。內(nèi)存密集型任務(wù)

.....................................7CPU

密集型任務(wù)

.....................................8利用平移和伸縮實(shí)時(shí)性不敏感的計(jì)算任務(wù)策略測(cè)試

.......8子任務(wù)獨(dú)立型并行計(jì)算

..............................9在中國(guó),電力行業(yè)碳排放量占全國(guó)碳排放總量的

40%

以上,同時(shí)用電增長(zhǎng)作為剛性需求,是支撐經(jīng)濟(jì)轉(zhuǎn)型升級(jí)和居民生活水平提高的重要保障,這使得電力成為未來(lái)

10

年能源增子任務(wù)耦合型并行計(jì)算

..............................9對(duì)下一步研究的啟示

.....................................10未來(lái)展望

....................................................

11鳴謝

...........................................................

11附錄

...........................................................12長(zhǎng)的主體

,且在社會(huì)整體用能電氣化的背景下新增需求巨大。電力行業(yè)的碳排放峰值及達(dá)3峰速度直接決定著2030

年前全國(guó)碳排放達(dá)峰目標(biāo)能否實(shí)現(xiàn)。也正是因此,電力行業(yè)的減排成為中國(guó)整體實(shí)現(xiàn)“雙碳”目標(biāo)的重要抓手,也讓需求側(cè)

(用戶(hù)側(cè))

的電力響應(yīng)逐漸走向前臺(tái),并在數(shù)智技術(shù)的助力下,對(duì)節(jié)能降碳發(fā)揮日益重要的作用。1白皮書(shū)

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究數(shù)智技術(shù)助力需求側(cè)響應(yīng)走向節(jié)能減碳的前臺(tái)會(huì)低碳轉(zhuǎn)型、扶持新興低碳技術(shù)的使命和義務(wù)。為實(shí)現(xiàn)這一目標(biāo),騰訊遵循“減排和綠色電力優(yōu)先、抵消為輔”的原則,大力提升數(shù)據(jù)中心的能效水平,積極參與綠電轉(zhuǎn)型及相關(guān)市場(chǎng)建設(shè),并不斷探索碳匯領(lǐng)域的技術(shù)革新。懷著這一宏闊愿景,騰訊積極推進(jìn)數(shù)據(jù)中心節(jié)能減排,例如騰訊在中國(guó)南區(qū)的第四代

T-block

技術(shù)通過(guò)采用高效率的制冷和供配電架構(gòu),擁有

30

萬(wàn)臺(tái)服務(wù)器的園區(qū)一年能節(jié)省大力發(fā)展風(fēng)電、太陽(yáng)能等可再生能源,支撐火電從基荷能源往靈活性能源的轉(zhuǎn)變,驅(qū)動(dòng)行業(yè)轉(zhuǎn)型,是支持全社會(huì)加速脫碳的一個(gè)關(guān)鍵環(huán)節(jié)。但是,這類(lèi)可再生能源供應(yīng)存在明顯的間歇性、隨機(jī)性以及不可控特性,這給電網(wǎng)的長(zhǎng)期發(fā)電容量和短期實(shí)時(shí)平衡都帶來(lái)了巨大挑戰(zhàn)。因此,調(diào)動(dòng)用戶(hù)側(cè)靈活地深度參與系統(tǒng)平衡,對(duì)于以新能源為主體的新型電力系統(tǒng)建設(shè)具有重要支撐作用。約

2.5

億度電,且具有低噪音、高能效等特點(diǎn)與成本優(yōu)勢(shì)

。而其中,8經(jīng)與英特爾合作,基于英特爾?

至強(qiáng)?

可擴(kuò)展平臺(tái)的首款自研服務(wù)器,分別將計(jì)算密度、散熱能力提升

50%

45%,為數(shù)據(jù)中心大幅2021

年底,中國(guó)國(guó)家能源局修訂發(fā)布《電力并網(wǎng)運(yùn)行管理規(guī)定》(國(guó)能發(fā)監(jiān)管規(guī)〔2021〕60

號(hào))4、《電力輔助服務(wù)管理辦法》(國(guó)能發(fā)監(jiān)降低電量提供了關(guān)鍵助力

。同時(shí),數(shù)據(jù)中心管理、功耗鉗制、待機(jī)功9管

規(guī)〔2021〕61

號(hào))

,將電力系統(tǒng)參與主體由原來(lái)的傳統(tǒng)發(fā)電廠單側(cè)5耗優(yōu)化等相關(guān)技術(shù)也被收錄于英特爾綠色數(shù)據(jù)中心技術(shù)框架中。擴(kuò)展為“源荷”兩側(cè),特別是加入了“風(fēng)光、新型儲(chǔ)能、負(fù)荷側(cè)可調(diào)節(jié)負(fù)荷”,同時(shí)也提出“誰(shuí)提供,誰(shuí)獲利;誰(shuí)受益、誰(shuí)承擔(dān)”原則,電力輔助服務(wù)費(fèi)用由包括發(fā)電企業(yè)、電力用戶(hù)在內(nèi)的所有并網(wǎng)主體共同分?jǐn)?。這不僅讓用戶(hù)側(cè)的電力精準(zhǔn)預(yù)測(cè)成為用能企業(yè)的責(zé)任,也激勵(lì)著用能企業(yè)從單純用電方轉(zhuǎn)向電力靈活性的提供方,積極挖掘自身用電靈活調(diào)節(jié)能力。然而目前數(shù)據(jù)中心的建設(shè)規(guī)范和導(dǎo)向,都重點(diǎn)關(guān)注評(píng)價(jià)數(shù)據(jù)中心能源效率的指標(biāo)

(PUE)

等電力使用效率指標(biāo),也就是數(shù)據(jù)中心總能耗與服務(wù)器等IT

設(shè)備能耗之比,尚未面向數(shù)據(jù)中心提出電力靈活性指標(biāo)。這源于過(guò)去服務(wù)器電力供應(yīng)與對(duì)應(yīng)的計(jì)算任務(wù)信息,處于不同的管理范圍和系統(tǒng),使得數(shù)據(jù)中心一直基于銘牌功率來(lái)配置供電,且認(rèn)為負(fù)荷剛性不可調(diào),進(jìn)而一直處于“電力跟隨算力”的狀態(tài)。縱觀目前針對(duì)數(shù)據(jù)中心的能源管理研究,也主要把算力需求帶來(lái)的電力負(fù)荷作為剛性負(fù)荷,把研究的焦點(diǎn)集中在供能系統(tǒng)等非服務(wù)器設(shè)備,重點(diǎn)關(guān)注配然而,用戶(hù)側(cè)負(fù)載與人們生活、企業(yè)生產(chǎn)等直接相關(guān)且高度分散的特性,決定了對(duì)其控制需要從生產(chǎn)到電力的整體協(xié)同。同時(shí),需求響應(yīng)可調(diào)節(jié)資源類(lèi)型復(fù)雜,數(shù)據(jù)統(tǒng)計(jì)分析工作量大,傳統(tǒng)手段難以

置儲(chǔ)能、優(yōu)化供冷系統(tǒng)調(diào)節(jié)等。其實(shí),細(xì)觀數(shù)據(jù)中心用電結(jié)構(gòu)就會(huì)發(fā)應(yīng)對(duì)。大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術(shù)的應(yīng)用與融合,給精細(xì)化進(jìn)行用戶(hù)負(fù)荷管理與響應(yīng)帶來(lái)了新契機(jī),使得對(duì)需求側(cè)負(fù)載進(jìn)行有的現(xiàn),服務(wù)器才是耗電“大戶(hù)”,以

PUE

值為

1.3

的數(shù)據(jù)中心為例,服務(wù)器耗電占比

77%。因此,尋找調(diào)節(jié)服務(wù)器的算力和電力負(fù)荷的方式,將放矢地實(shí)時(shí)調(diào)節(jié)成為可能,其在數(shù)據(jù)中心等領(lǐng)域的應(yīng)用探索和推廣

能發(fā)揮出數(shù)據(jù)中心的巨大電力靈活性潛力。也將為綠色可持續(xù)發(fā)展提供創(chuàng)新動(dòng)力。PUE

=

數(shù)據(jù)中心總能耗/

IT設(shè)備能耗探索和推進(jìn)數(shù)據(jù)中心電力靈活性實(shí)踐PUE,Power

Usage

Effectiveness

的簡(jiǎn)寫(xiě),是評(píng)價(jià)數(shù)據(jù)中心能5G、人工智能等新技術(shù)的快速發(fā)展和應(yīng)用,為各行各業(yè)高質(zhì)量發(fā)展提供了強(qiáng)勁新動(dòng)能,同時(shí)也讓作為新型基礎(chǔ)設(shè)施的數(shù)據(jù)中心規(guī)模不斷擴(kuò)大,其能耗和社會(huì)用電占比都在持續(xù)增長(zhǎng),預(yù)計(jì)2025

年中國(guó)數(shù)源效率的指標(biāo)、數(shù)據(jù)中心消耗的所有能源與

IT負(fù)載消耗的能源的比值。其中數(shù)據(jù)中心總能耗包括

IT

設(shè)備能耗和制冷、配電等系統(tǒng)的能耗。PUE值大于

1,越接近

1表明非

IT設(shè)備耗能越少,即數(shù)據(jù)中心能效水平越好。據(jù)中心耗電將占社會(huì)總用電量

4%

。因此,加速數(shù)據(jù)中心綠色轉(zhuǎn)型6也成為節(jié)能減排、促進(jìn)可持續(xù)發(fā)展的重要途徑。作為一家領(lǐng)先的互聯(lián)網(wǎng)科技公司,騰訊秉持“用戶(hù)為本,科技向善”的同時(shí),數(shù)據(jù)中心作為數(shù)字化技術(shù)的核心節(jié)點(diǎn),數(shù)字化與自動(dòng)化基礎(chǔ)較高,與電力相關(guān)的傳感器數(shù)據(jù)采集、設(shè)備控制等也較為齊全。算力消耗的電力是由算力程序驅(qū)動(dòng)電子元件的電力消耗,算力天然的可觀、可測(cè)、可即時(shí)調(diào)節(jié)特性,使得實(shí)際上可以通過(guò)算力的調(diào)整達(dá)到服使命愿景,制定了騰訊自身的碳中和目標(biāo)設(shè)定和減排路線規(guī)劃

,承7諾不晚于

2030

年,實(shí)現(xiàn)自身運(yùn)營(yíng)及供應(yīng)鏈的全面碳中和;同時(shí),不晚于

2030

年,實(shí)現(xiàn)

100%

的綠色電力,并希望主動(dòng)承擔(dān)起助力社2白皮書(shū)

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究務(wù)器在分鐘級(jí)、秒級(jí)響應(yīng)速度下的高精度電力負(fù)荷控制,而無(wú)需額

?

數(shù)據(jù)中心數(shù)字化程度高,可秒級(jí)響應(yīng)并精準(zhǔn)跟隨指定負(fù)荷外增加任何硬件。這使得數(shù)據(jù)中心在電力靈活性調(diào)節(jié)上具備天然的?

無(wú)額外硬件購(gòu)置成本技術(shù)可行性。?

適合任意大小的數(shù)據(jù)中心、集群和服務(wù)器從政策導(dǎo)向看,為了激勵(lì)各級(jí)、各類(lèi)用戶(hù)積極實(shí)施需求側(cè)響應(yīng),電網(wǎng)針對(duì)數(shù)據(jù)中心服務(wù)器負(fù)載的需求響應(yīng),國(guó)外已有一些相關(guān)實(shí)踐。根據(jù)發(fā)出響應(yīng)邀約到需求側(cè)實(shí)際執(zhí)行響應(yīng)的時(shí)間尺度,已將響應(yīng)分為日前響應(yīng)、小時(shí)響應(yīng)、分鐘響應(yīng)、秒級(jí)響應(yīng)等模式,并針對(duì)不同類(lèi)自

2017

年以來(lái),谷歌已將每年的用電量

100%

匹配到可再生能源的型的響應(yīng)模式,給予容量

(kW)

和能量

(kWh)

補(bǔ)償。比如,在試點(diǎn)省采購(gòu)中。2020

年起,谷歌通過(guò)在數(shù)據(jù)中心運(yùn)營(yíng)中配置碳智能計(jì)算平份浙江,對(duì)電力需求響應(yīng)電能量補(bǔ)償費(fèi)用高達(dá)

4

元/

kWh10,遠(yuǎn)高于臺(tái),使數(shù)據(jù)中心能夠靈活地將計(jì)算任務(wù)轉(zhuǎn)移到一天中的不同時(shí)段,數(shù)據(jù)中心等平均不到

1

元/

kWh

的工商業(yè)電價(jià)11。因此,數(shù)據(jù)中心以來(lái)消納更多的太陽(yáng)能和風(fēng)能等無(wú)碳能源。在此基礎(chǔ)上,又基于電網(wǎng)對(duì)及數(shù)據(jù)中心的用戶(hù),通過(guò)進(jìn)行需求側(cè)響應(yīng),在為電網(wǎng)提供電力靈活碳密集型能源依賴(lài)程度的日前預(yù)測(cè),測(cè)定不同區(qū)域每小時(shí)無(wú)碳能源可性的同時(shí),也可為自身帶來(lái)可觀的額外收入,將成為數(shù)據(jù)中心發(fā)揮用性,進(jìn)而在全球不同區(qū)域的數(shù)據(jù)中心之間“轉(zhuǎn)移計(jì)算”任務(wù),讓太陽(yáng)能其電力靈活性的強(qiáng)大動(dòng)力。和風(fēng)能等可再生能源使用“始終在線”,實(shí)現(xiàn)電力資源的優(yōu)化匹配12。基于此,在新能源發(fā)電滲透率不斷提高,用戶(hù)側(cè)需求響應(yīng)逐步常態(tài)化,電力調(diào)頻、調(diào)峰、備用等輔助服務(wù)逐步開(kāi)放的今天,也促使我們思考如何在數(shù)據(jù)中心提升電力靈活性上邁開(kāi)步伐,促進(jìn)數(shù)據(jù)中心作為豐富的用戶(hù)側(cè)電力靈活性資源,助力新型電力系統(tǒng)建設(shè)。針對(duì)這一主題,騰訊、英特爾、中國(guó)電信攜手,關(guān)注數(shù)據(jù)中心服務(wù)器負(fù)載的電力靈活性,提出通過(guò)判斷計(jì)算任務(wù)在服務(wù)器上的算力-電力特征,在不影響業(yè)務(wù)運(yùn)行的情況下,降低用電部件的實(shí)時(shí)冗余性、調(diào)整業(yè)務(wù)負(fù)載的時(shí)間分布和并行規(guī)模,從而達(dá)到降低、平移、伸縮數(shù)據(jù)中心服務(wù)器的用電負(fù)荷,形成“算力跟隨電力”的特性,展現(xiàn)出如下優(yōu)勢(shì):日本

NTT

公司在

2011

年,與英特爾合作,為應(yīng)對(duì)震后電力供應(yīng)緊張及政府限制企業(yè)用電要求,控制服務(wù)器功率上限與功耗。通過(guò)將高負(fù)載服務(wù)器的性能降低到

90%,將數(shù)據(jù)中心峰值用電量降低了

18%;通過(guò)將低負(fù)載服務(wù)器的性能降低到

70%,將數(shù)據(jù)中心峰值用電量降低了

16%;而且通過(guò)控制服務(wù)器的總功耗,可以在保證關(guān)鍵業(yè)務(wù)不暫停的情況下,在外部斷電期間延長(zhǎng)數(shù)據(jù)中心運(yùn)行時(shí)間約1.8

倍13。從上述案例可以看出,數(shù)據(jù)中心算力-電力的相互協(xié)同具有巨大潛力,而要主動(dòng)構(gòu)建數(shù)據(jù)中心的算力電力靈活性能力,核心控制點(diǎn)是在相資源協(xié)同服務(wù)器負(fù)載算力優(yōu)化空間響應(yīng)時(shí)間響應(yīng)需求響應(yīng)?

在不影響任務(wù)表現(xiàn)的情況下,調(diào)節(jié)服務(wù)器功率?

關(guān)注響應(yīng)速度、響應(yīng)深度、響應(yīng)時(shí)長(zhǎng)、響應(yīng)精度數(shù)據(jù)中心負(fù)載藍(lán)色為本研究關(guān)注重點(diǎn)暖通

/供電優(yōu)化余熱回收非服務(wù)器負(fù)載AI優(yōu)化圖1

數(shù)據(jù)中心低碳研究的主要對(duì)象和領(lǐng)域3白皮書(shū)

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究1234服務(wù)器功耗狀態(tài)切換硬件資源性能調(diào)節(jié)動(dòng)態(tài)調(diào)節(jié)計(jì)算任務(wù)跨數(shù)據(jù)中心轉(zhuǎn)移任務(wù)?

服務(wù)器通過(guò)操作系統(tǒng)電源管理、外部

PowerCap

和軟關(guān)機(jī)等方式,進(jìn)行切換功耗狀態(tài)?

利用不同計(jì)算任務(wù)對(duì)服務(wù)器各硬件子部件的負(fù)載不同,而選擇性降低非瓶頸子部件的功耗?

對(duì)實(shí)時(shí)性不敏感的并行計(jì)算任務(wù)進(jìn)行斷點(diǎn)續(xù)算和擴(kuò)縮容,快速改變電力負(fù)荷在時(shí)間上的分布?

通過(guò)將業(yè)務(wù)冷遷移或者熱遷移到不同地理位置的數(shù)據(jù)中心,而改變多個(gè)數(shù)據(jù)中心的電力負(fù)荷在空間上的分布?

功耗狀態(tài)之間的切換時(shí)間影響應(yīng)用場(chǎng)景?

包括硬盤(pán)密集型、內(nèi)存密集型等任務(wù)?

包括科學(xué)計(jì)算、視頻渲染等獨(dú)立

/

耦合型計(jì)算任務(wù)CPU原始平移縮容伸縮算力

/負(fù)荷數(shù)據(jù)中心各部件默認(rèn)供電業(yè)務(wù)實(shí)際所需供電數(shù)據(jù)中心數(shù)據(jù)中心時(shí)間改變數(shù)據(jù)中心電力負(fù)荷的空間分布可降低4%-100%功率可降低2%-26%功率可秒級(jí)靈活調(diào)節(jié)負(fù)荷分布圖2

探索數(shù)據(jù)中心服務(wù)器負(fù)荷靈活性的主要策略(藍(lán)色為本研究關(guān)注重點(diǎn))應(yīng)的時(shí)間尺度內(nèi),對(duì)計(jì)算任務(wù)、服務(wù)器顆粒度甚至其

CPU、硬盤(pán)、

和響應(yīng)深度。該策略可以長(zhǎng)期運(yùn)用,作為數(shù)據(jù)中心節(jié)能的重要途徑,內(nèi)存等各子部件的顆粒度進(jìn)行調(diào)節(jié),在考慮業(yè)務(wù)性能和電力功率

只是存在精細(xì)管理的成本與節(jié)能收益之間的平衡問(wèn)題;也可作為響的聯(lián)合優(yōu)化目標(biāo)下,通過(guò)將電力消耗納入算力分配的考量,達(dá)到業(yè)

應(yīng)策略,以電力輔助服務(wù)的優(yōu)勢(shì)價(jià)格,刺激數(shù)據(jù)中心精細(xì)預(yù)測(cè)和切務(wù)-算力-電力的三方資源協(xié)同。由此,在不影響業(yè)務(wù)表現(xiàn)的前提下,

換空載服務(wù)器功耗狀態(tài)。服務(wù)器算力的總彈性便成為數(shù)據(jù)中心可主動(dòng)向電網(wǎng)提供的電力靈活性。系統(tǒng)化構(gòu)建數(shù)據(jù)中心算力-電力靈活性方案通過(guò)系統(tǒng)化分析發(fā)現(xiàn),數(shù)據(jù)中心通過(guò)算力調(diào)節(jié)進(jìn)行需求響應(yīng),來(lái)提供電力輔助服務(wù)的實(shí)現(xiàn)策略有四種,分別是利用空載服務(wù)器功耗切換、利用服務(wù)器硬件資源消耗不均衡性、平移和伸縮實(shí)時(shí)性不敏感任務(wù)以及跨數(shù)據(jù)中心轉(zhuǎn)移任務(wù)。針對(duì)前三項(xiàng)策略,騰訊、英特爾、中國(guó)電信共同合作,組建了橫跨計(jì)算機(jī)硬件、計(jì)算機(jī)軟件、數(shù)據(jù)中心運(yùn)營(yíng)、電力領(lǐng)域的專(zhuān)家和工程師,對(duì)數(shù)據(jù)中心算力-電力靈活性方案進(jìn)行了探索。圖3

利用服務(wù)器功耗狀態(tài)切換的策略示意圖2.

利用計(jì)算任務(wù)在服務(wù)器硬件資源消耗上的不均衡性任何一個(gè)業(yè)務(wù)負(fù)載在服務(wù)器上的運(yùn)行,會(huì)存在要么服務(wù)器能力有冗余,要么其

CPU、網(wǎng)絡(luò)、內(nèi)存、硬盤(pán)等某子部件的某一性能使用密集,成為“短板”,而導(dǎo)致其余部件的能力產(chǎn)生冗余,即“長(zhǎng)板”。降低冗余的子部件性能,可以在不影響業(yè)務(wù)負(fù)載運(yùn)行效率的情況下,降低電力負(fù)荷。該策略需要研究一系列的特性數(shù)據(jù),包括業(yè)務(wù)負(fù)載對(duì)于各子部件的壓力特性數(shù)據(jù)、總體業(yè)務(wù)性能與子部件性能的關(guān)聯(lián)以及子部件性能變化時(shí)的能耗特性數(shù)據(jù),同時(shí)在執(zhí)行響應(yīng)時(shí),還需要實(shí)時(shí)監(jiān)測(cè)業(yè)務(wù)負(fù)載對(duì)于各子部件的實(shí)時(shí)壓力數(shù)據(jù),以便根據(jù)之前的特性數(shù)據(jù)集,及時(shí)做出電力負(fù)荷調(diào)整的位置和幅度策略。靈活性策略設(shè)計(jì)1.

利用空載服務(wù)器在不同功耗狀態(tài)之間切換從時(shí)間分布上看,數(shù)據(jù)中心中會(huì)有一部分服務(wù)器處于并未執(zhí)行任何工作而空載備用的狀態(tài)。因此,通過(guò)業(yè)務(wù)規(guī)模的精細(xì)預(yù)測(cè),對(duì)服務(wù)器執(zhí)行不同方式的功率降低和休眠策略,可實(shí)現(xiàn)不同級(jí)別的響應(yīng)速度4白皮書(shū)

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究4.

利用網(wǎng)絡(luò)跨數(shù)據(jù)中心轉(zhuǎn)移任務(wù)CPU通過(guò)將業(yè)務(wù)冷遷移或者熱遷移到不同地理位置的數(shù)據(jù)中心,而改變多個(gè)數(shù)據(jù)中心的電力負(fù)荷在空間上的分布,該策略需要較龐大的業(yè)務(wù)群及分布式計(jì)算存儲(chǔ)業(yè)務(wù)架構(gòu)予以支撐。各部件默認(rèn)供電業(yè)務(wù)實(shí)際所需供電數(shù)據(jù)中心圖

4

壓縮計(jì)算任務(wù)在服務(wù)器子部件上的冗余性能的策略示意圖3.

利用平移和伸縮實(shí)時(shí)性不敏感的計(jì)算任務(wù)數(shù)據(jù)中心數(shù)據(jù)中心近年來(lái),隨著智慧城市、智能制造、自動(dòng)駕駛、元宇宙等應(yīng)用的不斷增長(zhǎng),高性能計(jì)算

(HPC)

的需求也隨之不斷提升。影視渲染、效果圖渲染等批量計(jì)算任務(wù),基因測(cè)序、風(fēng)機(jī)工況模擬等科學(xué)計(jì)算任務(wù)以及

AI

訓(xùn)練等可并行的計(jì)算任務(wù),往往需要消耗大量的服務(wù)器資源和運(yùn)算較長(zhǎng)時(shí)間,已經(jīng)成為

IT

行業(yè)節(jié)能減排研究的重要課題。這類(lèi)任務(wù)往往具有計(jì)算成本敏感、實(shí)時(shí)性不敏感、計(jì)算規(guī)模可變動(dòng)圖

6

通過(guò)跨數(shù)據(jù)中心轉(zhuǎn)移計(jì)算任務(wù)來(lái)實(shí)現(xiàn)電力負(fù)荷調(diào)節(jié)的策略示意圖前三個(gè)策略的實(shí)現(xiàn)需要業(yè)務(wù)-算力-電力三者的精準(zhǔn)關(guān)聯(lián)關(guān)系和協(xié)同,但能夠適用于各種規(guī)模、形式的數(shù)據(jù)中心、機(jī)房、集群和服務(wù)器,也是本研究的重點(diǎn)。的特性。中國(guó)信通院發(fā)布的《數(shù)據(jù)中心白皮書(shū)

(2022

年)》顯示14,本項(xiàng)目搭建了一個(gè)服務(wù)器集群作為測(cè)試環(huán)境

(具體軟硬件配置和網(wǎng)絡(luò)配置見(jiàn)附錄),運(yùn)用了如下兩類(lèi)工具作為狀態(tài)監(jiān)測(cè)和功率調(diào)整工具,進(jìn)行研究和測(cè)試:2021

年,全球數(shù)據(jù)中心市場(chǎng)規(guī)模超過(guò)

679

億美元;而

TrendForce

報(bào)告中指出15,2021

年全球

HPC

市場(chǎng)規(guī)模達(dá)約

368

億美元,較

2020年增長(zhǎng)7.1%,并預(yù)估2022

年增長(zhǎng)率提升至7.3%。面對(duì)這一高速增長(zhǎng)的需求,有專(zhuān)家警示道,并行算法和并行軟件設(shè)計(jì),必須考慮降低功耗和提高性能以應(yīng)對(duì)高能耗問(wèn)題16。對(duì)此,一方面可以通過(guò)實(shí)時(shí)傳遞價(jià)格信號(hào),激勵(lì)用戶(hù)選擇電力價(jià)格較低的時(shí)間段進(jìn)行整體運(yùn)算;另一方面,也可以通過(guò)斷點(diǎn)續(xù)算、可續(xù)渲染技術(shù),在計(jì)算任務(wù)執(zhí)行的過(guò)程中暫停乃至對(duì)并行規(guī)模進(jìn)行改變,來(lái)平移和升降電力負(fù)荷。?

英特爾?

數(shù)據(jù)中心管理平臺(tái)

(Intel?

Data

Center

Management,Intel?

DCM):該平臺(tái)能夠通過(guò)帶外讀取系統(tǒng)整體電力和關(guān)鍵服務(wù)器子部件的使用指標(biāo),高頻率讀取CPU及內(nèi)存實(shí)時(shí)用電功率,同時(shí)其

Power

Governor

模塊中的

PowerCap

功能還能夠提供精準(zhǔn)至單核的

CPU

和內(nèi)存功率毫秒級(jí)限制。?

Linux

系統(tǒng)工具:mpstat,

free,

iostat,

nicstat,

用于監(jiān)測(cè)

CPU、內(nèi)原始平移縮容伸縮存、硬盤(pán)和網(wǎng)絡(luò)的使用狀態(tài)信息。算力

/負(fù)荷靈活性策略結(jié)果利用空載服務(wù)器在不同功耗狀態(tài)之間切換的策略測(cè)試空載消耗時(shí)間對(duì)于單臺(tái)實(shí)驗(yàn)服務(wù)器,在未運(yùn)行任何計(jì)算任務(wù)的空載狀態(tài)下,消耗圖

5

通過(guò)計(jì)算任務(wù)平移伸縮來(lái)實(shí)現(xiàn)電力負(fù)荷調(diào)節(jié)的策略示意圖電力功率

215W,其

CPU

消耗

53%,內(nèi)存消耗

21%。5白皮書(shū)

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究215W策略FreezePowercap關(guān)機(jī)功率降低9W降低比例4%響應(yīng)速度<1s100%53%CPU57W27%<1s內(nèi)存其他21%26%215W100%~3min表

1

測(cè)試結(jié)果表圖

7

實(shí)驗(yàn)中單臺(tái)服務(wù)器空載時(shí)的功耗及分布利用計(jì)算任務(wù)在服務(wù)器子部件消耗不均衡性的策略測(cè)試測(cè)試流程:對(duì)空載狀態(tài)服務(wù)器進(jìn)行功耗狀態(tài)切換不同的程序、甚至單個(gè)程序運(yùn)行不同功能時(shí),在不同類(lèi)型的服務(wù)器上成為“短板”的子部件都可能不同。為使得本項(xiàng)目的業(yè)務(wù)負(fù)載有一定的指標(biāo)意義,本策略的測(cè)試中嘗試選取一些盡可能對(duì)單一子部件形成壓力的真實(shí)或模擬負(fù)載進(jìn)行測(cè)試,從而體現(xiàn)其余子部件電力靈活性的最大可能。同時(shí),也選取一些性能指標(biāo),來(lái)反映服務(wù)器功耗變化是否對(duì)業(yè)務(wù)負(fù)載的性能造成影響。在單機(jī)環(huán)境,測(cè)試了三類(lèi)切換空載服務(wù)器功耗狀態(tài)的方式:?

Linux

功耗狀態(tài)設(shè)置為

freeze,并通過(guò)

HMI

喚醒;?

通過(guò)

Intel?

DCM

PowerCap

CPU

功率上限調(diào)節(jié)至最低,并通過(guò)解除設(shè)定來(lái)恢復(fù)功率;?

輸入系統(tǒng)命令

shutdown,進(jìn)行軟關(guān)機(jī),再通過(guò)電源按鍵啟動(dòng)。對(duì)單一部件施加壓力的負(fù)載并不代表不會(huì)對(duì)其他子部件造成壓力,例如內(nèi)存的讀寫(xiě)操作不可避免地會(huì)帶來(lái)

CPU的運(yùn)算操作。因此本項(xiàng)目中盡可能選取對(duì)單一部件壓力最大、同時(shí)關(guān)聯(lián)的其他子部件的壓力盡可能小的模擬負(fù)荷,以窺斑見(jiàn)豹。實(shí)際數(shù)據(jù)中心中運(yùn)行的程序,可以近似看做是這些單一模擬負(fù)荷的組合,從而近似預(yù)測(cè)出其電力靈活性。Freeze下發(fā)指令恢復(fù)指令空載PowerCap空載關(guān)機(jī)硬盤(pán)密集型任務(wù)測(cè)試負(fù)載圖

8

測(cè)試策略流程圖測(cè)試結(jié)論Linux

系統(tǒng)上的

dd

工具,能夠用指定大小的塊拷貝一個(gè)文件,并在拷貝的同時(shí)進(jìn)行指定的轉(zhuǎn)換。Linux

系統(tǒng)設(shè)計(jì)的一個(gè)重要思想是“一切皆為文件”,硬盤(pán)設(shè)備對(duì)

Linux

系統(tǒng)來(lái)說(shuō)屬于塊設(shè)備類(lèi)型。dd

命令可以幫助工程師直接讀取或?qū)懭氪疟P(pán)塊設(shè)備文件。在本項(xiàng)目中,dd命令用于模擬一個(gè)硬盤(pán)

I/O

密集型的任務(wù),對(duì)硬盤(pán)

I/O

造成壓力。測(cè)試數(shù)據(jù)顯示,通過(guò)切換服務(wù)器空載狀態(tài),三種模式皆可獲得功率降低。其中,F(xiàn)reeze、PowerCap

皆可秒級(jí)響應(yīng),功率降比分別為4%、27%;關(guān)機(jī)帶來(lái)的功率降低最大,達(dá)

100%,但切換開(kāi)關(guān)機(jī)需要2.5

分鐘,額外消耗電量

0.0083kWh。CPU空載狀態(tài)省電指令下發(fā)恢復(fù)指令下發(fā)空載狀態(tài)25020015010050服務(wù)器功率(W)GPU內(nèi)存帶寬FreezePowercapShutdown硬盤(pán)網(wǎng)絡(luò)0時(shí)間(分鐘)02468101214161820圖

10

測(cè)試負(fù)載對(duì)各子部件的壓力特性圖圖9

Freeze、PowerCap

和關(guān)機(jī)三種方式下的功耗和響應(yīng)特征曲線6白皮書(shū)

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究測(cè)試流程:通過(guò)

dd

工具持續(xù)向硬盤(pán)寫(xiě)入和刪除文件,并逐

集型業(yè)務(wù)負(fù)載。同時(shí)運(yùn)行的

memtester

進(jìn)程越多,內(nèi)存帶寬使用率就步通過(guò)降低CPU

功率從而降低服務(wù)器功率。越高。CPU采用單服務(wù)器,使用PowerCap

對(duì)CPU

進(jìn)行不同功率水平的限制,并進(jìn)行以下操作:運(yùn)行

dd

命令向硬盤(pán)寫(xiě)入

1

個(gè)

512MB

大小的文件,重復(fù)三次,得到在不同功率水平下,在硬盤(pán)中寫(xiě)入三次同樣的文件所消耗的平均時(shí)間及平均寫(xiě)入速度。GPU內(nèi)存帶寬硬盤(pán)網(wǎng)絡(luò)硬盤(pán)復(fù)制

1024x5MB降低

CPU

功率記錄任務(wù)所用時(shí)間圖

13

測(cè)試負(fù)載對(duì)各子部件的壓力特性圖文件并刪除測(cè)試流程:通過(guò)

memtester

工具,使得對(duì)內(nèi)存帶寬利用率維持在多個(gè)水平的壓力,并逐步降低CPU

功率。圖

11

策略測(cè)試流程圖基于單服務(wù)器,執(zhí)行

Linux

系統(tǒng)上

memtester

工具,使得對(duì)內(nèi)存帶寬利用率維持在

74%、47%

28%

三個(gè)壓力水平。接著使用PowerCap

對(duì)

CPU

進(jìn)行逐步降低的功率限制,監(jiān)測(cè)內(nèi)存帶寬利用率的變化。測(cè)試結(jié)論測(cè)試數(shù)據(jù)顯示,在執(zhí)行硬盤(pán)密集型任務(wù)時(shí),可將

CPU

功率由

215

W壓縮至

160W,降比達(dá)

26%,且對(duì)硬盤(pán)寫(xiě)入速度沒(méi)有影響。所用時(shí)間

(秒)Band

74

任務(wù)40監(jiān)測(cè)內(nèi)存帶寬降低

CPU

功率Band

47

任務(wù)Band

28任務(wù)利用率30可壓縮功率空間20100圖

14

策略測(cè)試流程圖測(cè)試結(jié)論220210200190180170160150總功率

(W)CPU

功率進(jìn)行壓測(cè)試數(shù)據(jù)顯示,在執(zhí)行內(nèi)存密集型任務(wù)時(shí),可對(duì)圖

12

硬盤(pán)密集型任務(wù)的性能-電力特性曲線縮,當(dāng)內(nèi)存帶寬占用率分別約為

74%、47%、28%

時(shí),初始服務(wù)器功率各自為

313W、278W

255W,可壓縮的功率各自為

18%、8%

和2%,可以推論,對(duì)于內(nèi)存

I/O

密集型任務(wù),內(nèi)存占用越高,而

CPU

功率可壓縮空間越大。初始功率功率壓縮值功率壓縮比例215W55W26%表

2

測(cè)試結(jié)果表功率可壓縮空間內(nèi)存帶寬利

80用率

(%)band74內(nèi)存密集型任務(wù)band4760band

28測(cè)試負(fù)載40200memtester

是Linux

系統(tǒng)下的一款內(nèi)存測(cè)試工具,可以幫助開(kāi)發(fā)人員在用戶(hù)空間下對(duì)內(nèi)存進(jìn)行壓力測(cè)試。開(kāi)發(fā)人員可以通過(guò)

memtester限定測(cè)試內(nèi)存的大小與次數(shù),在指定的內(nèi)存大小中進(jìn)行隨機(jī)值,異或等一系列測(cè)試。在本測(cè)試過(guò)程中,通過(guò)運(yùn)行

memtester

模擬內(nèi)存密350300250200150服務(wù)器功率

(W)圖

15

內(nèi)存

I/O

密集型任務(wù)的性能-電力特性曲線7白皮書(shū)

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究秒增至

2,303

秒,表明通過(guò)控制

CPU

功率,降低服務(wù)器總功耗將相應(yīng)降低任務(wù)執(zhí)行速度。后續(xù)應(yīng)探索針對(duì)服務(wù)器

CPU

之外的子部件的功率控制,如對(duì)內(nèi)存、網(wǎng)絡(luò)的功率控制,挖掘針對(duì)

CPU

密集型任務(wù),壓縮其余子部件硬件性能電力冗余對(duì)的潛力。初始功率功率壓縮值6W功率壓縮比例Band

28Band

47Band

74255W278W313W2%8%23W57W18%所用時(shí)間

(秒)表

3

測(cè)試結(jié)果表CPU

密集型任務(wù)22660000222200001188000011440000測(cè)試負(fù)載Intel

Linpack

是國(guó)際流行的用于測(cè)試計(jì)算機(jī)系統(tǒng)浮點(diǎn)性能的基準(zhǔn)程序。通過(guò)對(duì)高性能計(jì)算機(jī)采用高斯消元法求解一元

N次稠密線性代數(shù)方程組的測(cè)試,評(píng)價(jià)計(jì)算機(jī)的浮點(diǎn)性能。Linpack

SMP

版本在單節(jié)點(diǎn)上運(yùn)行,在本測(cè)試中用于模擬單節(jié)點(diǎn)上的

CPU

密集型任務(wù),任務(wù)的具體參數(shù)見(jiàn)附錄。100010004400

003355003300

00功功率率((WW))22550022000圖

18

CPU

密集型任務(wù)的性能-電力特性曲線

(CPU

功率調(diào)控)利用平移和伸縮實(shí)時(shí)性不敏感的計(jì)算任務(wù)策略測(cè)試CPU如今許多并行計(jì)算類(lèi)的任務(wù)具備了斷點(diǎn)續(xù)算功能,有些應(yīng)用程序本身就支持?jǐn)帱c(diǎn)續(xù)算,而有些可以通過(guò)

Message

Passing

Interface

(MPI)中支持?jǐn)帱c(diǎn)續(xù)算的checkpoint

/

restart

技術(shù)來(lái)實(shí)現(xiàn)。斷點(diǎn)續(xù)算可保證任務(wù)隨時(shí)可以被中斷,并在重啟后繼續(xù)運(yùn)算,而不是重新開(kāi)始,從而在電力上支持將算力需求,也就是電力需求進(jìn)行平移。GPU內(nèi)存帶寬硬盤(pán)網(wǎng)絡(luò)圖

16

測(cè)試負(fù)載對(duì)各子部件的壓力特性圖在斷點(diǎn)續(xù)算的基礎(chǔ)上,如果應(yīng)用軟件還具有并行計(jì)算節(jié)點(diǎn)數(shù)可變的能力,則可以實(shí)現(xiàn)算力需求的隨時(shí)擴(kuò)容和縮容,達(dá)到電力需求的伸縮。并行計(jì)算通過(guò)將一個(gè)計(jì)算任務(wù)進(jìn)行分解,形成在不同節(jié)點(diǎn)上并行計(jì)算的子任務(wù)。對(duì)于子任務(wù)相互獨(dú)立的并行任務(wù),并行效率能夠達(dá)到

100%,因此計(jì)算效率幾乎不受并行節(jié)點(diǎn)的數(shù)量和網(wǎng)絡(luò)的影響。而對(duì)于子任務(wù)耦合的并行任務(wù),子任務(wù)間需要通過(guò)網(wǎng)絡(luò)進(jìn)行通訊和同步,從而除了計(jì)算任務(wù)本身的時(shí)間消耗,還會(huì)帶來(lái)額外的通訊計(jì)算和等待的過(guò)程。本項(xiàng)目分別選取了子任務(wù)獨(dú)立和子任務(wù)耦合兩類(lèi)并行計(jì)算任務(wù),測(cè)試了其算力和電力的平移與伸縮性能。測(cè)試流程:運(yùn)行

Linpack

SMP

任務(wù)作為

CPU

密集型的任務(wù),并逐步通過(guò)降低

CPU

功率而降低服務(wù)器功率,記錄任務(wù)運(yùn)行時(shí)間?;趩畏?wù)器,使用PowerCap

對(duì)CPU

進(jìn)行不同功率水平的限制,進(jìn)行以下操作:?jiǎn)?dòng)

Linpack

SMP

任務(wù),記錄計(jì)算完成時(shí)的計(jì)算時(shí)長(zhǎng)和

G?ops

指標(biāo)。單節(jié)點(diǎn)

LINPACKSMP降低

CPU

功率記錄任務(wù)所用時(shí)間負(fù)載計(jì)算任務(wù)計(jì)算任務(wù)圖

17

策略測(cè)試流程圖測(cè)試結(jié)論測(cè)試數(shù)據(jù)顯示,降低服務(wù)器功率時(shí)不存在任務(wù)完成時(shí)間不變的“平圖

19

子任務(wù)獨(dú)立與子任務(wù)耦合的并行計(jì)算任務(wù)臺(tái)區(qū)域”,當(dāng)服務(wù)器功率從

363W

降為

232W

時(shí),計(jì)算耗時(shí)從

1,3778白皮書(shū)

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究子任務(wù)獨(dú)立型并行計(jì)算測(cè)試結(jié)論測(cè)試負(fù)載測(cè)試數(shù)據(jù)顯示,在

2個(gè)節(jié)點(diǎn)上運(yùn)行計(jì)算任務(wù),耗時(shí)

10

27

秒,總功耗為

118Wh;在

2

節(jié)點(diǎn)運(yùn)行一段時(shí)間后中斷任務(wù),再將剩余的計(jì)算量縮容至

1個(gè)節(jié)點(diǎn)續(xù)算,耗時(shí)

13

49

秒,總功耗

123Wh;在

2個(gè)節(jié)點(diǎn)運(yùn)行計(jì)算任務(wù),運(yùn)行一段時(shí)間后中斷任務(wù),再將剩余的計(jì)算量擴(kuò)容至

3

個(gè)節(jié)點(diǎn)上續(xù)算,總計(jì)算耗時(shí)

9

54

秒,總功耗

125Wh。數(shù)據(jù)表明,對(duì)于可分配至計(jì)算節(jié)點(diǎn)獨(dú)立計(jì)算的并行任務(wù),可通過(guò)縮容、擴(kuò)容、平移調(diào)整計(jì)算節(jié)奏,且不會(huì)顯著影響總耗電量和總時(shí)長(zhǎng)。此策略可根據(jù)電網(wǎng)響應(yīng)邀約時(shí)段和負(fù)荷調(diào)節(jié)要求,靈活改變算力分布,達(dá)到“削峰填谷”。對(duì)于汽車(chē)研發(fā)企業(yè),白車(chē)身輕量化對(duì)提升整車(chē)的性能質(zhì)量、節(jié)省制造成本具有重大意義,卻是一個(gè)多變量、多目標(biāo)、跨學(xué)科和計(jì)算代價(jià)昂貴的復(fù)雜決策優(yōu)化問(wèn)題。本測(cè)試中的優(yōu)化問(wèn)題,將前地板、外擋板等

20個(gè)位置的料厚作為優(yōu)化的設(shè)計(jì)變量,求解白車(chē)身在滿(mǎn)足剛度性能前提下,結(jié)構(gòu)輕量化和1階模態(tài)性能的最優(yōu)解。該優(yōu)化問(wèn)題通過(guò)

UniXDE

多學(xué)科設(shè)計(jì)優(yōu)化軟件17,進(jìn)行分布并行計(jì)算,具體計(jì)算任務(wù)參數(shù)如附錄所示。CPU功率

(W)

120010’27’’118Wh13’49’’123Wh9’54’’125Wh3節(jié)點(diǎn)10008006004002000GPU內(nèi)存帶寬2節(jié)點(diǎn)1節(jié)點(diǎn)硬盤(pán)網(wǎng)絡(luò)圖

20

測(cè)試負(fù)載對(duì)各子部件的壓力特性圖時(shí)間測(cè)試流程:在

2~3

臺(tái)計(jì)算節(jié)點(diǎn)上分別按以下

3

種策略在UniXDE

軟件中執(zhí)行一個(gè)白車(chē)身輕量化的優(yōu)化計(jì)算任務(wù),在計(jì)算中途改變計(jì)算節(jié)點(diǎn)規(guī)模,達(dá)到伸縮該任務(wù)電力負(fù)荷的目的,記錄計(jì)算消耗時(shí)長(zhǎng)。圖

22

縮容、平移、擴(kuò)容子任務(wù)獨(dú)立型并行任務(wù)的負(fù)荷特征曲線子任務(wù)耦合型并行計(jì)算測(cè)試負(fù)載?

基線:在

2

臺(tái)計(jì)算節(jié)點(diǎn)上運(yùn)行計(jì)算任務(wù),一直到計(jì)算完畢;VASP(Vienna

Ab

initio

Simulation

Package)

是當(dāng)下具備最廣泛的國(guó)際認(rèn)可度之一的材料計(jì)算模擬程序,在半導(dǎo)體芯片、量子物理等領(lǐng)域廣泛使用。VASP

作為一個(gè)優(yōu)化計(jì)算程序,支持并行計(jì)算和斷?

縮容:在

2

臺(tái)計(jì)算節(jié)點(diǎn)上運(yùn)行計(jì)算任務(wù),運(yùn)行一段時(shí)間后中斷任務(wù),再將剩余的計(jì)算量在

1臺(tái)計(jì)算節(jié)點(diǎn)上續(xù)算,一直到計(jì)算完畢;?

平移+擴(kuò)容:在

2

臺(tái)計(jì)算節(jié)點(diǎn)上運(yùn)行計(jì)算任務(wù),運(yùn)行一段時(shí)間后中

點(diǎn)續(xù)算18。因此在此通過(guò)對(duì)一個(gè)

VASP

任務(wù)在運(yùn)行過(guò)程中的計(jì)算資斷任務(wù),再將剩余的計(jì)算量在

3

臺(tái)計(jì)算節(jié)點(diǎn)上續(xù)算,一直到計(jì)算

源進(jìn)行調(diào)整,達(dá)到伸縮該任務(wù)的電力負(fù)荷的目的。本測(cè)試中,使用完畢。一個(gè)

VASP

任務(wù)作為典型的子任務(wù)耦合型并行計(jì)算任務(wù),任務(wù)詳細(xì)參數(shù)請(qǐng)見(jiàn)附錄。2節(jié)點(diǎn)運(yùn)算CPU獨(dú)立型并行計(jì)算任務(wù)記錄功率和時(shí)長(zhǎng)縮容GPU內(nèi)存帶寬2節(jié)點(diǎn)運(yùn)算2節(jié)點(diǎn)運(yùn)算1節(jié)點(diǎn)運(yùn)算3節(jié)點(diǎn)運(yùn)算硬盤(pán)網(wǎng)絡(luò)平移擴(kuò)容中斷圖

23

測(cè)試負(fù)載對(duì)各子部件的壓力特性圖圖

21

策略測(cè)試流程圖9白皮書(shū)

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究測(cè)試流程:執(zhí)行

VASP

并行計(jì)算任務(wù),在計(jì)算過(guò)程中進(jìn)行斷點(diǎn)續(xù)算和計(jì)算節(jié)點(diǎn)規(guī)模的改變,達(dá)到平移和伸縮該任務(wù)電力負(fù)荷的目的,記錄計(jì)算消耗時(shí)長(zhǎng)。15001000500052’41’’511Wh41’42’’753Wh4

節(jié)點(diǎn)37’07‘’623Wh45’35‘’661Wh?

基線1:在2

臺(tái)計(jì)算節(jié)點(diǎn)上并行計(jì)算VASP

任務(wù),一直到計(jì)算完畢;?

基線2:在4臺(tái)計(jì)算節(jié)點(diǎn)上并行計(jì)算VASP任務(wù),一直到計(jì)算完畢;2節(jié)點(diǎn)?

平移:在

4

臺(tái)計(jì)算節(jié)點(diǎn)上并行計(jì)算

VASP

任務(wù),計(jì)算一段時(shí)間后中斷任務(wù),等待一段時(shí)間,在

4

臺(tái)計(jì)算節(jié)點(diǎn)上對(duì)中斷的

VASP

任務(wù)進(jìn)行續(xù)算,一直到計(jì)算完畢;圖

25

擴(kuò)容、平移、縮容子任務(wù)耦合型并行任務(wù)的負(fù)荷特征曲線通過(guò)以上三種策略,我們證明服務(wù)器集群在運(yùn)行不同

IT

任務(wù)類(lèi)型時(shí),可以通過(guò)切換空載服務(wù)器功耗狀態(tài)、利用服務(wù)器子部件資源消耗不均衡性、平移和伸縮實(shí)時(shí)性不敏感任務(wù)等方式,在不影響任務(wù)表現(xiàn)的同時(shí),實(shí)現(xiàn)對(duì)服務(wù)器功率的調(diào)整,可適用于各種規(guī)模、形式的數(shù)據(jù)中心、機(jī)房、集群和服務(wù)器。其中,策略一和策略二,可在業(yè)務(wù)無(wú)感知的情境下實(shí)現(xiàn)

2%-27%

的負(fù)荷深度降低,可常態(tài)化實(shí)現(xiàn)節(jié)能目的,顯著降低數(shù)據(jù)中心整體能耗和電力費(fèi)用。策略三可對(duì)如科學(xué)計(jì)算、視頻渲染等實(shí)時(shí)性不敏感的業(yè)務(wù)進(jìn)行平移、擴(kuò)縮容,達(dá)到對(duì)服務(wù)器功率在時(shí)間分布上的人為控制。以上三種策略均顯示服務(wù)器可根據(jù)外部指令實(shí)現(xiàn)秒級(jí)對(duì)服務(wù)器功率的快速控制,為數(shù)據(jù)中心參與需求側(cè)分鐘級(jí)、秒級(jí)響應(yīng),或參與電力輔助服務(wù)市場(chǎng)交易,提供了可行性依據(jù)。?

平移+縮容:在

4

臺(tái)計(jì)算節(jié)點(diǎn)上并行計(jì)算

VASP

任務(wù)計(jì)算一段時(shí)間后中斷任務(wù),等待一段時(shí)間,在

2

臺(tái)計(jì)算節(jié)點(diǎn)上對(duì)中斷的

VASP任務(wù)進(jìn)行續(xù)算,一直到計(jì)算完畢。2節(jié)點(diǎn)運(yùn)算4節(jié)點(diǎn)運(yùn)算耦合型并行計(jì)算任務(wù)記錄功率和時(shí)長(zhǎng)平移平移平移縮容中斷中斷4節(jié)點(diǎn)運(yùn)算4節(jié)點(diǎn)運(yùn)算4節(jié)點(diǎn)運(yùn)算2節(jié)點(diǎn)運(yùn)算對(duì)下一步研究的啟示圖

24

策略測(cè)試流程圖本項(xiàng)目提供了一個(gè)在數(shù)據(jù)中心利用算力-電力協(xié)同進(jìn)行需求響應(yīng),從而提供電力輔助服務(wù)的初步可行性研究,在測(cè)試的設(shè)計(jì)上不盡周全,在分析的過(guò)程中也仍有許多未知和值得深入探討的問(wèn)題,歡迎各領(lǐng)域的學(xué)者、專(zhuān)家、產(chǎn)業(yè)伙伴給予指教與建議。在形成一個(gè)數(shù)據(jù)中心算力-電力需求響應(yīng)的成熟方案之前,無(wú)疑需要在更多的機(jī)型上對(duì)更加多元化的計(jì)算任務(wù)進(jìn)行特性數(shù)據(jù)測(cè)試。除此之外,下一步的實(shí)驗(yàn)也需要將以下幾方面納入研究:測(cè)試結(jié)論測(cè)試數(shù)據(jù)顯示,在2

個(gè)節(jié)點(diǎn)上進(jìn)行并行計(jì)算,耗時(shí)52

分41

秒,總功耗511Wh;在4

個(gè)節(jié)點(diǎn)實(shí)施并行計(jì)算,耗時(shí)41

分42

秒,總功耗753Wh;在4

個(gè)節(jié)點(diǎn)上平移計(jì)算任務(wù),也就是并行計(jì)算一段時(shí)間后中斷,等待一段時(shí)間,進(jìn)行續(xù)算,總計(jì)算耗時(shí)

37

7

秒,總功耗

623Wh;在

4個(gè)節(jié)點(diǎn)并行計(jì)算一段時(shí)間后中斷,等待一段時(shí)間,然后縮容至

2

個(gè)節(jié)點(diǎn),對(duì)中斷的任務(wù)進(jìn)行續(xù)算,總計(jì)算耗時(shí)

45

35

秒,總功耗661Wh。這表明,子任務(wù)耦合型并行計(jì)算任務(wù)也可通過(guò)縮容、平移,來(lái)靈活調(diào)整服務(wù)器功率,但由于網(wǎng)絡(luò)等因素的限制,算力和電力的擴(kuò)縮容關(guān)系非線性。?

CPU

功率調(diào)控到內(nèi)存功率調(diào)控:本項(xiàng)目中所使用的服務(wù)器內(nèi)存配置較小,也未涉及運(yùn)行非內(nèi)存密集型的任務(wù)時(shí)限制內(nèi)存功率的測(cè)試。而對(duì)于一些大內(nèi)存機(jī)型,其功率可占到總服務(wù)器功率的40%

以上,對(duì)于內(nèi)存功率調(diào)控的研究就顯得極其必要;10白皮書(shū)

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究?

從服務(wù)器到數(shù)據(jù)中心整體:本項(xiàng)目中的測(cè)試和監(jiān)測(cè)對(duì)象只有服務(wù)

未來(lái)展望器,尚未納入交換機(jī)和制冷設(shè)備的關(guān)聯(lián)影響,其中包括:由實(shí)驗(yàn)研究到應(yīng)用解決方案:本項(xiàng)目對(duì)數(shù)據(jù)中心算力-電力協(xié)同進(jìn)-

響應(yīng)特性:當(dāng)大量的服務(wù)器進(jìn)行電力響應(yīng)并持續(xù)一段時(shí)間后,很可能帶來(lái)相關(guān)聯(lián)的交換機(jī)和制冷設(shè)備的功率變化,從而形成系統(tǒng)型響應(yīng)特征曲線;行電力靈活性響應(yīng)的策略應(yīng)用進(jìn)行了初步可行性研究,已經(jīng)展現(xiàn)出其巨大的潛力及廣闊的應(yīng)用前景。但是上述研究對(duì)每一種策略應(yīng)用只選取了一兩個(gè)工作負(fù)載且只在一種機(jī)型上進(jìn)行了可行性驗(yàn)證,測(cè)試了特性數(shù)據(jù)。而要針對(duì)實(shí)際運(yùn)行的數(shù)據(jù)中心進(jìn)行電力現(xiàn)貨交易,打造需求響應(yīng)能力,并提供精準(zhǔn)的電力輔助服務(wù),無(wú)疑需要有一套自動(dòng)化系統(tǒng),集合業(yè)務(wù)-算力-電力三者的對(duì)應(yīng)信息,具備監(jiān)控、預(yù)測(cè)、響應(yīng)策略規(guī)劃組合和調(diào)節(jié)控制的四項(xiàng)能力,方能對(duì)服務(wù)器集群和其各子部件進(jìn)行敏銳監(jiān)測(cè)和靈活調(diào)控,進(jìn)而實(shí)現(xiàn)協(xié)同響應(yīng)。-

策略組合:對(duì)于整個(gè)數(shù)據(jù)中心,可根據(jù)各個(gè)服務(wù)器的狀態(tài)和執(zhí)行的任務(wù)特性,采用不同策略的組合,從而獲得整個(gè)機(jī)架、機(jī)柜、數(shù)據(jù)中心層級(jí)的負(fù)荷調(diào)節(jié)。?

從物理機(jī)到虛擬化:本項(xiàng)目中的業(yè)務(wù)負(fù)載直接運(yùn)行在物理機(jī)上,從而能夠獲得更直觀的算力-電力的關(guān)聯(lián)關(guān)系,而在實(shí)際業(yè)務(wù)環(huán)境中有相當(dāng)多的數(shù)據(jù)中心和服務(wù)器進(jìn)行了虛擬化和混部,這使得業(yè)務(wù)負(fù)載-算力-電力之間又多添加了虛擬化層和混部運(yùn)行,增加了精細(xì)管理的復(fù)雜度,但同時(shí)虛擬化及其資源調(diào)度也為算力分布調(diào)整能力帶來(lái)了更大空間;開(kāi)放式協(xié)作與特性數(shù)據(jù)庫(kù):要對(duì)一個(gè)數(shù)據(jù)中心進(jìn)行電力靈活性的預(yù)測(cè)和策略,需要不同負(fù)載在不同服務(wù)器以及其子部件

(包括

CPU、硬盤(pán)、內(nèi)存等)

的電力響應(yīng)特性數(shù)據(jù)作為基礎(chǔ)。然而逐個(gè)對(duì)其進(jìn)行測(cè)試帶來(lái)的巨大工作量,對(duì)于任何一方都難以承擔(dān)。這就需要業(yè)務(wù)(程序)開(kāi)發(fā)方、硬件生產(chǎn)商、業(yè)務(wù)運(yùn)行方甚至硬件調(diào)度方

(例如云或超算中心的運(yùn)營(yíng)商)

開(kāi)放式協(xié)作,制定和采用一套標(biāo)準(zhǔn)的測(cè)試方法、數(shù)據(jù)格式和數(shù)據(jù)共享網(wǎng)絡(luò)來(lái)共同推進(jìn),進(jìn)而加速實(shí)現(xiàn)智能管控計(jì)算負(fù)載,充分挖掘和發(fā)揮出數(shù)據(jù)中心的電力靈活性潛力,助力構(gòu)建新型電力系統(tǒng)。?

性能指標(biāo)的定義:本項(xiàng)目中的業(yè)務(wù)負(fù)載性能特性比較單一,而在實(shí)際運(yùn)行業(yè)務(wù)中,有可能除了計(jì)算速度

(消耗時(shí)間)

之外,還包含穩(wěn)定性、網(wǎng)絡(luò)延遲等其他性能,需要與每一個(gè)業(yè)務(wù)負(fù)載的開(kāi)發(fā)者和運(yùn)營(yíng)者進(jìn)行具體探討。鳴謝協(xié)作、開(kāi)放、可持續(xù)是技術(shù)創(chuàng)新的環(huán)境要素。本項(xiàng)目有賴(lài)于橫跨計(jì)算機(jī)硬件、計(jì)算機(jī)軟件、數(shù)據(jù)中心運(yùn)營(yíng)、電力等各個(gè)方向的同仁共同合作,在此特別鳴謝以下同仁在測(cè)試中的貢獻(xiàn)

(排名不分先后)。騰訊:周瀅埡、童流川、許浩、蘇鑫、梁家啟、馬國(guó)勇、邵明、趙傳寓、朱健保、淮賽男

、孫敏浩英特爾:崔煜、朱晟偉、王愛(ài)喜、解強(qiáng)、史毅磊、華雯、古今、高陽(yáng)中國(guó)電信:高清爽樹(shù)優(yōu)科技:賴(lài)宇陽(yáng)、葉芳、方立橋、孫軍勇、魏凱鋒11白皮書(shū)

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究附錄1、英特爾綠色數(shù)據(jù)中心技術(shù)框架綠色數(shù)據(jù)中心目標(biāo)先進(jìn)散熱技術(shù)能效與功率密度基礎(chǔ)設(shè)施智能化?

高壓直流?

分布式電池技術(shù)?

Data

Center

Management?

帶內(nèi)系統(tǒng)狀態(tài)感知與AI

運(yùn)維數(shù)據(jù)中心層機(jī)架層?

液冷整體解決方案?

冷板方案?

高功率密度機(jī)架?

集中式供電設(shè)計(jì)?

機(jī)柜功率鉗制管理?

英特爾?

Turbo

機(jī)柜技術(shù)?

浸沒(méi)式液冷設(shè)計(jì)指南/規(guī)范?

冷板式液冷設(shè)計(jì)指南/規(guī)范?

先進(jìn)風(fēng)冷設(shè)計(jì)指南/規(guī)范?

待機(jī)功耗優(yōu)化技術(shù)?

服務(wù)器狀態(tài)感知?

節(jié)點(diǎn)管理技術(shù)服務(wù)器層X(jué)PU

層?

48V

供電架構(gòu)?

英特爾?片上集成電壓轉(zhuǎn)換控制技術(shù)?

定制化

CPU

的結(jié)/殼溫考量?

考慮熱性能的硅片設(shè)計(jì)?

英特爾?

速度選擇技術(shù)客戶(hù)碳足跡與數(shù)據(jù)中心

PUE

計(jì)算

(方法論,測(cè)試基準(zhǔn),工具,

…)2、測(cè)試環(huán)境軟硬件配置表機(jī)柜服務(wù)器CPU2臺(tái)20臺(tái)型號(hào):英特爾?

至強(qiáng)?

E5-2680V4處理器,35M

Cache,

2.40

GHzCPU顆數(shù):2CPU總核數(shù):28內(nèi)存硬盤(pán)128G300G

*2

HDD操作系統(tǒng)TLinux

2.2

(兼容

CentOS

7)3、測(cè)試環(huán)境網(wǎng)絡(luò)配置圖跳板機(jī)交換機(jī)

1帶內(nèi)管理,萬(wàn)兆光口網(wǎng)絡(luò)交換機(jī)

2帶外管理,千兆電口網(wǎng)絡(luò)管理節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)

01……計(jì)算節(jié)點(diǎn)

20共享文件盤(pán)12白皮書(shū)

|數(shù)據(jù)中心算力-電力靈活性協(xié)同研究4、測(cè)試負(fù)載配置參數(shù)?

利用計(jì)算任務(wù)在服務(wù)器硬件資源消耗上的不均衡性策略測(cè)試

-CPU

密集型任務(wù)本項(xiàng)目中使用的Linpack

SMP參數(shù)如下:Linpack

SMP

DistirbutionProblem

sizexlinpack_xeon6458608,

12083258608,

120832LDA不同

Problem

Size

會(huì)影響計(jì)算過(guò)程中內(nèi)存的占有量,在本實(shí)驗(yàn)中使用了兩種Problem

Size,但由于實(shí)驗(yàn)機(jī)型的內(nèi)存功率相較于整體服務(wù)器功率較小,因此不同實(shí)驗(yàn)Linpack

配置對(duì)于內(nèi)存功率變化不明顯,在分析中僅展示Problem

Size

為58608

的運(yùn)行結(jié)果。?

利用平移和伸縮實(shí)時(shí)性不敏感的計(jì)算任務(wù)策略測(cè)試:子任務(wù)獨(dú)立型并行計(jì)算白車(chē)身輕量化問(wèn)題在

UniXDE

多學(xué)科設(shè)計(jì)優(yōu)化軟件中進(jìn)行優(yōu)化流程的集成和軟件調(diào)用計(jì)算,約束條件和目標(biāo)函數(shù)設(shè)定如下表所示:機(jī)柜指標(biāo)門(mén)檻梁彎曲剛度扭轉(zhuǎn)剛度指標(biāo)值<12811.5(N/mm)<5356.8(N*mm/°)最大化約束條件1階模態(tài)性能白車(chē)身質(zhì)量迭代次數(shù)優(yōu)化目標(biāo)計(jì)算設(shè)定最小化300種群規(guī)模1001

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論