2023數(shù)據(jù)中心自適應AI節(jié)能白皮書_第1頁
2023數(shù)據(jù)中心自適應AI節(jié)能白皮書_第2頁
2023數(shù)據(jù)中心自適應AI節(jié)能白皮書_第3頁
2023數(shù)據(jù)中心自適應AI節(jié)能白皮書_第4頁
2023數(shù)據(jù)中心自適應AI節(jié)能白皮書_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 1數(shù)據(jù)中心自適應AI節(jié)能技術白皮書開放數(shù)據(jù)中心委員會2023-09發(fā)布數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009版權聲明ODCC(開放數(shù)據(jù)中心委員會)發(fā)布的各項成果,受《著作權法》保護,編制單位共同享有著作權。轉載、摘編或利用其它方式使用ODCC成果中的文字或者觀點的,應注明來源:“開放數(shù)據(jù)中心委員會ODCC”。對于未經(jīng)著作權人書面同意而實施的剽竊、復制、修改、銷售、改編、匯編和翻譯出版等侵權行為,ODCC及有關單位將追究其法律責任,感謝各單位的配合與支持。I數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009編寫組項目經(jīng)理:查帥榮 維諦技術有限公工作組長:李代程 百度在線網(wǎng)絡技術(北京)有限公貢獻專家:田軍 維諦技術有限公司吳健 維諦技術有限公司趙玉山 維諦技術有限公司傅耀瑋 維諦技術有限公司吳華勇 維諦技術有限公司汪涵 維諦技術有限公司曾瑩 維諦技術有限公司雷愛民 維諦技術有限公司周薛繼 維諦技術有限公司劉敬民 維諦技術有限公司韓會先 維諦技術有限公司曲鑫 維諦技術有限公司阮迪 中國信息通信研究院II數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009前言“新基建”政策的頒布實施,使云計算和大數(shù)據(jù)得到了快速的發(fā)展,數(shù)據(jù)中心建設迎來了前所未有的增長。新建數(shù)據(jù)中心的建設規(guī)模越來越大,對數(shù)據(jù)中心的可靠性、設備性能和能源效率的要求逐步提高;而在存量數(shù)據(jù)中心中,能效和老化問題日益凸顯,改造需求激增?!半p碳”等一系列政策的出臺,更加推動了數(shù)據(jù)中心的節(jié)能減排,降低PUE已成當務之急;同時,由此帶來的數(shù)據(jù)中心的管理成本也越來越高,降低數(shù)據(jù)中心運營管理成本逐漸成為人們關注的焦點。人工智能技術發(fā)展突飛猛進,使得其在數(shù)據(jù)中心基礎設施領域中也得到了初步的應用。一方面,人工智能技術在數(shù)據(jù)中心中可以提高數(shù)據(jù)中心的效率,降低運營成本,優(yōu)化決策。例如,智能算法能源管理、智能機器人巡檢設備、自動化程序故障排查等技術可智能化地管理數(shù)據(jù)中心,為數(shù)據(jù)中心運營帶來社會和經(jīng)濟的雙重收益。另一方面,智能化的安全監(jiān)控和風險評估可防止故障和宕機事件,提高數(shù)據(jù)中心可用性。本白皮書將對數(shù)據(jù)中心人工智能技術的發(fā)展現(xiàn)狀、應用情況、AI下的空調群控節(jié)能方案,從數(shù)據(jù)、算力、算法等幾個方面進行展開分析。由于時間倉促,水平所限,錯誤和不足之處在所難免,歡迎各位讀者批評指正。如有意見或建議請聯(lián)系編寫組。III數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009目錄版權聲明 I編寫組 II前 言 III一、概述 1二、術語 1三、AI技術發(fā)展路徑及在數(shù)據(jù)中心的應用現(xiàn)狀 5(一)AI技術的發(fā)展現(xiàn)狀 5AI技術的起源及發(fā)展歷程 5AI技術的主要應用場景 7(二)AI技術在數(shù)據(jù)中心領域的發(fā)展情況 10能耗優(yōu)化 10故障診斷 12算力調度 13安全監(jiān)測 13輔助運維 15(三)小結 16四、主要技術路線對比 18(一)AI節(jié)能技術評估維度 18(二)AI節(jié)能技術突破方向 20(三)數(shù)據(jù)采集方式對比 21(四)主要算法模型對比 23主要算法模型概述 23IV數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009常見優(yōu)化算法概述 31黑白盒算法概述 34(五)算法部署架構對比 36邊緣部署 37中心部署 38互聯(lián)網(wǎng)云部署 39五、主要場景方案及案例分析 41(一)基站級場景案例 41場景概況 41AI應用方案 42AI性能綜合評估 44(二)微模塊MDC場景案例 45場景概況 45AI應用方案 48AI性能綜合評估 52(三)房間級場景案例 55場景概況 55AI應用方案 56AI性能綜合評估 59(四)樓宇級場景案例 61場景概況 61AI應用方案 62六、未來發(fā)展技術洞察 64(一)智能供配電系統(tǒng) 64V數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009(二)智能電能路由器 65(三)智能大模型輔助運維 66(四)智能碳交易及調度系統(tǒng) 67(五)黑燈及無人駕駛數(shù)據(jù)中心 68(六)風險及挑戰(zhàn) 70VI數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009數(shù)據(jù)中心自適應AI節(jié)能技術白皮書一、概述本白皮書對數(shù)據(jù)中心人工智能技術的發(fā)展現(xiàn)狀、應用情況、未來趨勢進行了詳細的梳理,探索如何使用人工智能技術來優(yōu)化數(shù)據(jù)中心的管理和運行,主要聚焦在利用AI技術自適應地進行不同場景下的空調群控節(jié)能,以期推動人工智能技術在數(shù)據(jù)中心領域的發(fā)展。二、術語Algorithm)一組用于人工智能、神經(jīng)網(wǎng)絡或其他機器的規(guī)則或指令,以幫助它們自主學習;包括分類、聚類、推薦和回歸等類型。ArtficialIntelligec)機器模擬人類智力和行為做出決策、執(zhí)行任務的能力。人工神經(jīng)網(wǎng)絡(ANN)模擬人腦運作的學習模型,用于解決傳統(tǒng)計算機系統(tǒng)難以解決的任務。聊天機器人(Chatbots)通過文本對話或語音命令模擬與人類用戶進行對話的計算機程序,具有AI功能。DataMinin)1數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009從大量數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式和關聯(lián)性的過程。決策樹(DecisionTree)基于分支的樹模型,繪制決策及其可能后果的模型圖,與流程圖類似。DeepLearnin)機器通過由層疊信息層組成的人工神經(jīng)網(wǎng)絡自主模仿人類思維模式的能力。CogniteComputin)模仿人類大腦思維方式的計算模型,通過使用數(shù)據(jù)挖掘、自然語言處理和模式識別進行自學習。MachineIntelligec)涵蓋機器學習、深度學習和古典學習算法在內的總括術語。機器感知(MachinePerception)系統(tǒng)接收和解釋來自外部世界數(shù)據(jù)的能力,類似于人類使用感官??赡苄枰饨佑布蛙浖С?。(NaturalLanguageProcessiNL)利用計算機算法和統(tǒng)計模型,讓計算機能夠理解和生成人類語言。強化學習(ReinforcementLearning)一種機器學習技術,通過試錯過程中不斷調整行為,讓計算機自動2數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009學習最優(yōu)解決方案。SupeisedLearnin)機器學習的一種,其輸出數(shù)據(jù)集訓練機器產(chǎn)生所需的算法,如老師監(jiān)督學生;比無監(jiān)督學習更常見。UnsupeisedLearnin)一種機器學習算法,通過不帶標簽響應的輸入數(shù)據(jù)組成的數(shù)據(jù)集進行推理。最常見的無監(jiān)督學習方法是聚類分析。ComputerVisio)利用計算機算法和模型來識別和理解圖像和視頻。預測分析(PredictiveAnalytics)利用統(tǒng)計模型和數(shù)據(jù)挖掘技術,預測未來事件的可能性和趨勢。模式識別(PatternRecognition)通過機器學習技術,讓計算機識別和分類數(shù)據(jù)中的模式。ClusterAnalysi)利用統(tǒng)計模型和機器學習技術,將數(shù)據(jù)分為相似的組,從而識別數(shù)據(jù)中的結構和關系。(AIOptimizaio)通過利用機器學習和優(yōu)化算法,自動化數(shù)據(jù)中心的資源管理和調度,提高性能和效率。3數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009卷積神經(jīng)網(wǎng)絡(CNN)一種理解順序信息、識別模式、并根據(jù)這些計算產(chǎn)生輸出的神經(jīng)網(wǎng)絡。4數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009AIAIAI人工智能(AI)是計算機科學的一個分支,致力于研究和開發(fā)能夠模擬人類智能的計算機系統(tǒng)。AI20世紀50年代。起源階段(1943-1955):1943WarrenMcCullochWalterPitts提出了人工神經(jīng)AI1950AlanTuringAIAI初創(chuàng)階段(1956-1969):1956·麥卡錫、馬文·明斯基、納撒尼爾·羅切斯特和克勞德·香農(nóng)等人在達特茅斯會議上共同發(fā)起了人工智能領域的AIAI知識表示與專家系統(tǒng)階段(1970-1985):AIMYCIN、DENDRAL5數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009解決復雜問題。在這一階段,AI得到了廣泛關注,并在醫(yī)學、化學等領域取得了實際應用。連接主義與神經(jīng)網(wǎng)絡復興階段(1986-1999):1980Rumelhart和Hinton傳播算法,使得多層神經(jīng)網(wǎng)絡的訓練成為可能。同時,遺傳算法、機器學習與大數(shù)據(jù)階段(2000-2010):隨著計算能力的提高和大數(shù)據(jù)的興起,機器學習技術得到了飛速發(fā)展。支持向量機、隨機森林、AdaBoost等機器學習算法應運而生,廣泛應用于各種領域。在這一階段,研究者們開始關注數(shù)據(jù)驅動的方法,通過從大量數(shù)據(jù)中學習模式和特征來實現(xiàn)智能。同時,AI領域的核心技術逐步拓展至自然語言處理、計算機視覺、語音識別等多個方向。與AI(2011:2012AlexKrizhevskyAlexNet,一種基于卷積神經(jīng)網(wǎng)絡的深度學習模型,成功贏得了ImageNet挑戰(zhàn)賽。自此,深度學習技術在AI領域掀起了一場革命。隨后,LSTM、Transformer6數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009AIOpenAI、DeepMindOpenAI言系列模型在自然語言處理領域創(chuàng)造了諸多紀錄。同時,AlphaGo等程序成功擊敗了圍棋世界冠軍,展示了AI綜上所述,人工智能技術經(jīng)歷了多個階段的發(fā)展,從起源到現(xiàn)在的深度學習革命,AI不斷拓展其在各個領域的應用,并取得了顯著的突破。未來,隨著技術的進一步發(fā)展,AI有望在更多領域發(fā)揮重要作用,為人類帶來更多福祉。出于對數(shù)據(jù)中心安全性的考慮,本白皮書主要聚焦于當前已成熟穩(wěn)定應用算法在節(jié)能控制方面的測試及研究。AIComputerVisio)計算機視覺是一種利用計算機和數(shù)字圖像處理技術來模擬和自動識別人類視覺的過程,它主要研究如何讓計算機“看懂”圖像和視頻內容。主要任務包括圖像分類、目標檢測、目標跟蹤、語義分割、三維重建等。深度學習技術在計算機視覺領域取得了重要突破,尤其是卷積神經(jīng)網(wǎng)絡(CNN)在圖像處理任務上表現(xiàn)優(yōu)異,例如AlexNet、VGG、ResNet等。在醫(yī)療影像、安防監(jiān)控、自動駕駛等領域都有廣泛的應用。SpeechRecogniio)7數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009語音識別是將人類的語音信號轉換成可理解的文本信息的技術。它涉及到聲學模型、語言模型等多個方面。近年來,深度學習技術在語音識別領域取得了顯著成果。長短時記憶網(wǎng)絡(LSTM)和循環(huán)神經(jīng)網(wǎng)絡(RNN)在處理時序信息方面有優(yōu)勢,因此在語音識別領域應用廣泛。(NaturalLanguageProcessi,NLP)自然語言處理是一種研究如何讓計算機理解、生成和處理人類自然語言的方法。它能夠進行自然語言合成理解、詞性標注、命名實體識別、句法分析、情感分析、機器翻譯等。近年來,Tranform-er網(wǎng)絡結構的出現(xiàn)和BERT、大模型等預訓練模型的發(fā)展,使得自然語言處理領域取得了突破性進展。(pertRecommendtionSyste)推薦系統(tǒng)是一種利用機器學習和人工智能技術,通過分析用戶的行為和興趣,為用戶提供個性化的信息、產(chǎn)品或服務推薦。主要技術包括基于內容的推薦、協(xié)同過濾、矩陣分解、深度學習等。近年來,深度學習技術在推薦系統(tǒng)中的應用逐漸增多,如利用深度神經(jīng)網(wǎng)絡學習用戶和物品的高維表示,提高推薦效果。推薦系統(tǒng)已經(jīng)廣泛應用于電商、社交媒體、音樂視頻等領域。IndustrialContro)工業(yè)控制技術主要關注如何在實際生產(chǎn)過程中實現(xiàn)對設備和系統(tǒng)的有效控制。在工業(yè)控制領域,人工智能技術可以應用于優(yōu)化算8數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009法、故障診斷、預測性維護等方面。目前,人工智能技術已經(jīng)在工業(yè)控制領域取得了實質性進展,逐步成為各個環(huán)節(jié)的關鍵支持,尤其是在工業(yè)自動化和工業(yè)互聯(lián)網(wǎng)領域,利用AI技術,如計算機視覺、深度學習和模型預測控制等,實現(xiàn)了自動化質量檢測、故障預測和能源優(yōu)化,提高生產(chǎn)效率和降低成本。工業(yè)機器人在人工智能的支持下取得了顯著發(fā)展,實現(xiàn)了更高水平的人機協(xié)作和生產(chǎn)自動化。同時,人工智能技術在供應鏈管理中的應用,也提高了供應鏈透明度和效率。例如:AmbergAIAI其他數(shù)字技術自動化了大約75的生產(chǎn)過程,從而大大提高了生產(chǎn)AIBMWAI檢測車輛的漆面是否存在任何缺陷或不規(guī)則性,從而自動檢測可能海爾運用工業(yè)物聯(lián)網(wǎng)和AI,在其COSMOPlatAI產(chǎn)計劃、生產(chǎn)執(zhí)行等一系列環(huán)節(jié)的優(yōu)化,從而實現(xiàn)了靈活生產(chǎn)和個盡管AI在多個領域表現(xiàn)出卓越的能力,其在工業(yè)控制領域的應9數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009用相較而言卻顯得較少。此種現(xiàn)象主要由一些固有難題所致,首要數(shù)據(jù)的準確度對AIAI礎。而安全性則關乎重要設施和設備,一旦出現(xiàn)問題,后果嚴重。AI以推動工業(yè)控制領域AIAI隨著全球數(shù)據(jù)量的爆炸式增長,數(shù)據(jù)中心的能耗問題日益凸顯,其中,制冷系統(tǒng)是數(shù)據(jù)中心能耗的主要部分。如何提高數(shù)據(jù)中心制冷系統(tǒng)的能效,是行業(yè)面臨的重要挑戰(zhàn)。越來越多的數(shù)據(jù)中心開始尋求創(chuàng)新解決方案,而人工智能(AI)技術的崛起,為這個問題帶來了新的可能性。AI能夠實時收集并處理大量數(shù)據(jù),預測和控制制冷系統(tǒng)的工作狀態(tài),從而實現(xiàn)能源的優(yōu)化利用。在本白皮書中,我們將深入探討AI技術在數(shù)據(jù)中心制冷系統(tǒng)中的具體應用和潛力,展示如何利用AI幫助數(shù)據(jù)中心實現(xiàn)更高效、環(huán)保的運行模式。目前,AI技術在數(shù)據(jù)中心領域的應用主要在能耗管理、故障診斷、安全監(jiān)測、輔助運維等幾個方面,下面將結合在這幾個方面的應用進行介紹。能耗優(yōu)化在能耗管理方面,人工智能技術已在數(shù)據(jù)中心能耗分析和預測10數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009領域取得進展。通過收集歷史能耗數(shù)據(jù)、機房溫濕度和氣象數(shù)據(jù)等多種因素,構建預測模型。利用預測模型對未來能耗進行預測,并依據(jù)預測結果對能耗進行調整與優(yōu)化,實現(xiàn)有效的能耗管理,從而降低能耗并提高整體效率。盡管目前這些模型在應對數(shù)據(jù)種類缺失、缺乏豐富算法模型和算法組合靈活性不足,人工智能技術在數(shù)據(jù)中心能耗管理及優(yōu)化方面仍開始逐步發(fā)揮著關鍵作用。以利用機器學習技術優(yōu)化數(shù)據(jù)中心能耗管理為例。在數(shù)據(jù)中心能耗管理的場景中,可以將歷史能耗數(shù)據(jù)、天氣數(shù)據(jù)以及其他可能影響能耗的因素作為輸入,來訓練一個機器學習模型。這個模型可能使用監(jiān)督學習的方式,即根據(jù)已知的輸入(比如氣溫、濕度、負載量等)和輸出(實際能耗)進行學習。訓練完成后,模型將能根據(jù)輸入的天氣數(shù)據(jù)和預期負載量等信息,預測未來某一時間點的數(shù)據(jù)中心能耗。依據(jù)這一預測結果,數(shù)據(jù)中心可以更加精確地調整其能源策略,例如優(yōu)化設備的運行狀態(tài)、調度任務的執(zhí)行順序,甚至調整冷卻系統(tǒng)的運行方式,從而實現(xiàn)更高效的能源管理。因此,機器學習在數(shù)據(jù)中心能源管理和資源調度中提供了強大的支持。Google利用其TensorFlow機器學習框架,通過分析數(shù)據(jù)中心的負載模式和服務器資源利用率,對任務的分配和調度策略進行自動調整,從而優(yōu)化了能源管理并實現(xiàn)了能源利用的最大化,通過使用機器學習技術,Google成功地將其數(shù)據(jù)中心的冷卻能耗降低了11數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009。但這種方法在冷凍水系統(tǒng)的應用中經(jīng)常要進行針對性的調整,需要專業(yè)的人員參與和現(xiàn)場調試,這是對新技術普適性應用的常見挑戰(zhàn)。在算力需求方面,系統(tǒng)可能需要一些特定的場景才能發(fā)揮最大效能,但隨著硬件技術的不斷進步,這也讓我們看到了AI故障診斷在故障分析方面,數(shù)據(jù)中心設備故障是數(shù)據(jù)中心運營中常見的問題,AI技術可以分析設備運行數(shù)據(jù),通過機器學習和深度學習算法對數(shù)據(jù)進行分析處理,提前預測硬件故障,進而可以提前進行預測性維護,避免數(shù)據(jù)中心的服務中斷和數(shù)據(jù)丟失,從而提高數(shù)據(jù)中心設備的可靠性和可用性。然而,目前這些技術普遍存在處理數(shù)據(jù)不完整、模型泛化能力有限和對實時故障診斷響應速度較慢等問題。以深度學習技術對數(shù)據(jù)中心進行故障檢測為例,深度學習技術能夠通過訓練模型實現(xiàn)自動化設備故障識別。該模型通過學習設備在正常運行狀態(tài)與異常狀態(tài)下的特征,從而判斷設備是否出現(xiàn)故障。進一步地,根據(jù)識別結果,可以提供相應的維修措施以確保數(shù)據(jù)中心的穩(wěn)定運行。但是,深度學習方法在處理大量實時數(shù)據(jù)時可能面臨計算資源和實時性的挑戰(zhàn)。此外,當數(shù)據(jù)缺失或存在噪聲時,模型的預測準確性可能受到影響。雖然AI技術在數(shù)據(jù)中心故障檢測方面具有巨大潛力,但仍需針對現(xiàn)有不足進行改進。12數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009算力調度AI對數(shù)據(jù)中心的資源進行智能調度,實現(xiàn)資源的最優(yōu)利用和分配,提例如,可以使用強化學習算法對服務器的資源分配和管理進行優(yōu)化,提高資源利用效率和數(shù)據(jù)中心的服務質量。以服務器負載均衡為例,數(shù)據(jù)中心中的不同服務器可能承載不同數(shù)量和類型的工作負載,從而導致負載不均衡現(xiàn)象。應用強化學習技術,可以通過觀察服務器的性能和工作負載情況,實現(xiàn)自動調整服務器的負載均衡。在某些場景下,現(xiàn)有的算法模型可能不夠豐富,無法滿足不同場景下的資源調度需求,導致算法組合靈活性不足。安全監(jiān)測信息安全方面,數(shù)據(jù)中心正逐漸采用人工智能技術實現(xiàn)安全監(jiān)AI析,以及對數(shù)據(jù)中心的安全事件數(shù)據(jù)的結合,利用機器學習算法和深度學習算法對數(shù)據(jù)進行處理,自動檢測安全事件,實現(xiàn)對數(shù)據(jù)中心的安全監(jiān)測和威脅防范,從而提高數(shù)據(jù)中心的安全性。例如,可以使用深度學習算法對網(wǎng)絡流量進行分類和分析,檢測出潛在的安AIAI13數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009報,而新型或未知的攻擊方式可能無法被現(xiàn)有算法檢測到。此外,AI系統(tǒng)的訓練和部署需要大量的計算資源和數(shù)據(jù),可能導致較高的成本和難以滿足實時監(jiān)測的需求。阿里云是最早采用了人工智能技術以提升數(shù)據(jù)中心的安全性的廠家之一。其AI對大規(guī)模的網(wǎng)絡流量進行實時監(jiān)測和分析,成功地自動檢測出潛在會立即發(fā)出預警并啟動防護措施。這種自動化的響應機制顯著提升了阿里云數(shù)據(jù)中心的安全性和穩(wěn)定性,確保了業(yè)務的連續(xù)性和數(shù)據(jù)AIAI微軟的Azure數(shù)據(jù)中心同樣采用了深度學習算法,對網(wǎng)絡流量進行實時監(jiān)測,發(fā)現(xiàn)并阻止了一些潛在的網(wǎng)絡攻擊行為。但目前這些算法可能對一些復雜、隱蔽或新型的攻擊手段表現(xiàn)出不足,需要不斷更新和優(yōu)化以應對日益嚴峻的網(wǎng)絡安全威脅。Facebook的深度學習故障診斷系統(tǒng)可以通過監(jiān)測服務器運行狀況和異常行為,識別故障和潛在的風險,并及時進行修復。該系統(tǒng)使用了基于深度學習的異常檢測算法和預測模型,以提高數(shù)據(jù)中心的可靠性和穩(wěn)定性。然而,同樣的,在實際應用中,這些模型可能需要大量的訓練數(shù)據(jù)和計算資源,同時,它們可能在面對一些特殊14數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009情況或少見的異常行為時出現(xiàn)誤判或漏報。輔助運維綜合運維方面,數(shù)據(jù)中心正嘗試采用人工智能技術實現(xiàn)自動化輔助運維,以提高運維效率和質量。用戶能夠通過自然語言與數(shù)據(jù)中心交互,實現(xiàn)自動化理解用戶需求并執(zhí)行相應操作,但自然語言處理技術在理解復雜、模糊或不規(guī)范的語言表述時可能出現(xiàn)誤解或無法準確執(zhí)行的問題。以自然語言理解技術為例,該技術能將用戶的自然語言需求轉化為相應命令,實現(xiàn)自動化執(zhí)行。在數(shù)據(jù)中心運維過程中,自然語言處理技術可協(xié)助運維人員迅速獲取和分析系統(tǒng)狀態(tài)信息,執(zhí)行故障排查和修復任務,但可能受限于當前技術水平,難以應對一些復雜或特殊的問題。此外,借助自然語言處理技術,數(shù)據(jù)中心還可實現(xiàn)與其他智能系統(tǒng)的無縫對接,但技術之間的兼容性和集成仍需要進一步優(yōu)化,以確保實現(xiàn)更高程度的自動化和運維效率。騰訊云的“智能運維助手”是一個典型的AI在數(shù)據(jù)中心輔助運維的案例。其利用自然語言處理技術,能夠準確地理解用戶的需求,進而轉化為相應的命令進行自動化執(zhí)行。當運維人員與“智能運維助手”交互,請求系統(tǒng)狀態(tài)報告或執(zhí)行某項維護任務時,比如重啟服務器,"智能運維助手"能快速執(zhí)行并提供反饋,這大大提高了運維效率和質量。除了基礎的運維任務,"智能運維助手"還具備與其他智能系統(tǒng)的無縫對接能力,這進一步推動了數(shù)據(jù)中心的自動化運15數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009維進程。目前,AI在進行輔助運維方面的工作時,理解復雜、模糊或非標準的語言輸入時仍存在挑戰(zhàn),有時可能無法準確執(zhí)行命令。IBM的Watson平臺是另一個典型的應用案例,它基于人工智能和自然語言處理技術,能夠分析和理解大量結構化和非結構化數(shù)據(jù),為數(shù)據(jù)中心提供智能化的推理和決策支持。當Watson應用于數(shù)據(jù)中心日志管理時,它可以對大量日志信息進行分析和處理,協(xié)助運維人員迅速發(fā)現(xiàn)和解決問題,從而降低數(shù)據(jù)中心的停機時間。(三)小結經(jīng)過對人工智能的歷史發(fā)展以及現(xiàn)狀的探討,無論是在能效優(yōu)化、故障預測,還是在安全監(jiān)測、輔助運維方面,不難看出AIAI,也正充分利用AI其中,就本白皮書重點關注的能效方面而言,人工智能技術正在廣泛應用于提升數(shù)據(jù)中心的能源效率。通過對數(shù)據(jù)中心PUE40,因此,將AIAI穩(wěn)定的算力和合理的數(shù)據(jù)結構的支持。因此,接下來的內容將聚焦于AI16數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009AIAI17數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009四、主要技術路線對比(一)AI節(jié)能技術評估維度節(jié)能性AIPLFPUE經(jīng)濟性反映AI節(jié)能技術在投資回報方面的表現(xiàn)。通常用投資回報率(ROI)來衡量,全面考慮初投資、維護成本、電費節(jié)省及相關的風險成本等??煽啃訟I適應性AI面的表現(xiàn)差異,通常用不同測試場景下節(jié)能效果百分比的標準離差(用來衡量數(shù)據(jù)分布的離散程度的一種指標)率來衡量。擴展性反映AI節(jié)能系統(tǒng)可隨數(shù)據(jù)中心基礎設施建設周期的規(guī)模和結構18數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009AI數(shù)據(jù)安全性反映AI節(jié)能技術對于所使用的基礎設施關鍵數(shù)據(jù)的保護能力。包括本地數(shù)據(jù)如何免受黑客攻擊、數(shù)據(jù)泄露、系統(tǒng)故障等各種威脅,以及合適的云端數(shù)據(jù)加密及脫敏傳輸方案設計。預測準確性AI高基礎設施可用性的能力。通常用預測的準確性、預測提前時間和可解釋性反映一個算法或模型產(chǎn)生的預測或決策可以被人類理解和解釋的程度,主要體現(xiàn)在如何讓算法的工作原理通過特征值展示以及圖形可視化等方式讓人類用戶更加透明和容易理解。表1 AI節(jié)能技術評估維度重要性排序重要性維度描述1節(jié)能性降低數(shù)據(jù)中心能源消耗2適應性應對數(shù)據(jù)中心規(guī)模變化和應用場景多樣性3經(jīng)濟性投資回報率、成本節(jié)省4可靠性數(shù)據(jù)中心正常運行、系統(tǒng)穩(wěn)定性19數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-020095數(shù)據(jù)安全性數(shù)據(jù)和系統(tǒng)免受各種威脅6預測準確性設備故障預測、預防性維護7擴展性系統(tǒng)可隨數(shù)據(jù)中心建設規(guī)模和結構變化而靈活擴展8可解釋性算法工作原理透明度、易于理解AI通過對數(shù)據(jù)中心存在問題及發(fā)展趨勢的分析,結合AI在數(shù)據(jù)中心領域的應用情況,不難發(fā)現(xiàn)當前節(jié)能性、經(jīng)濟性、安全性3個維度是目前AI在數(shù)據(jù)中心領域應用亟待提升和突破的研究方向。更普適的節(jié)能性現(xiàn)在數(shù)據(jù)中心的能源消耗主要集中在設備運行和冷卻系統(tǒng)。傳統(tǒng)數(shù)據(jù)中心的能源管理方式存在采集數(shù)據(jù)單一、收斂速度慢、場景適應性差等問題,可能無法充分發(fā)揮節(jié)能潛力,存在能源浪費。例如,傳統(tǒng)的冷卻系統(tǒng)往往采用固定的冷卻策略,無法根據(jù)設備的實時負載和環(huán)境溫度進行動態(tài)調整,導致冷卻效率低下。更合理的經(jīng)濟性AIAI新的硬件設備,進行系統(tǒng)升級,以及對員工進行培訓,這些都會增加初期的投資成本。為確保長期收益,需要充分評估投資回報率(ROI)。20數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009更全面的安全性AIAIAI目前解決此問題的思路主要有控制邏輯隔離,底層保底邏輯和減緩控制步長幾種主要思路,通過綜合利用幾種技術思路,通過綜綜上,針對這些問題和改進方法,可以根據(jù)具體數(shù)據(jù)中心的環(huán)境和需求進行調整和優(yōu)化,來實現(xiàn)數(shù)據(jù)中心AIAI3AI的運行,需要確定其數(shù)據(jù)采集方式、算法模型以及部署架構三部分內容,因此,本文將主要從采集方式、算法模型以及部署架構來進行(三)數(shù)據(jù)采集方式對比數(shù)據(jù)采集方式的設計將直接影響到傳感器數(shù)量、算法部署思路及系統(tǒng)硬件成本,是整個AI節(jié)能系統(tǒng)設計的基礎。數(shù)據(jù)中心的數(shù)據(jù)采集主要可通過兩種方式實現(xiàn):直接采集,間接采集。直接采集:21數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009這種方式通常涉及到在數(shù)據(jù)中心設備上安裝傳感器,例如溫度傳感器或濕度傳感器,這些傳感器可以直接從設備中收集數(shù)據(jù)。此外,還可以使用網(wǎng)絡設備,如交換機和路由器,通過SNMP協(xié)議直接獲取設備的運行狀態(tài)和性能數(shù)據(jù)。直接采集具備數(shù)據(jù)準確性高的優(yōu)點,可以直接獲取設備的實際運行狀態(tài),如溫度、濕度、功率消耗等,對于及時發(fā)現(xiàn)和處理問題很有幫助。但其安裝和維護成本較高,可能需要額外的硬件設備和安裝工作。另外,如果設備數(shù)量眾多,直接采集可能會產(chǎn)生大量的數(shù)據(jù),處理和存儲這些數(shù)據(jù)可能是一個挑戰(zhàn)。間接采集:數(shù)據(jù)中心分系統(tǒng)眾多,在數(shù)據(jù)獲取時可以充分考慮利用其他子系統(tǒng)已有的傳感器信號通道和歷史數(shù)據(jù),進行模型訓練和實時推理。許多數(shù)據(jù)中心設備,包括存儲設備、網(wǎng)絡設備和電源設備,都提供了可以查詢和管理設備狀態(tài)和配置的系統(tǒng)或網(wǎng)絡接口。這些接口通常支持標準的網(wǎng)絡協(xié)議,如HTTP,SNMPRESTfulAPI,我許多現(xiàn)代數(shù)據(jù)中心設備都支持標準的接口和協(xié)議,可以方便地集成到數(shù)據(jù)采集系統(tǒng)中。但是需要額外的網(wǎng)絡資源和計算資源來處理接口查詢和數(shù)據(jù)傳輸。另外,不同設備的接口和協(xié)議可能有所不同,需要對各種接口和協(xié)議進行管理和維護。由于機房現(xiàn)場實際數(shù)據(jù)采集環(huán)境的復雜性,在實際應用中,可22數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009能需要結合使用多種數(shù)據(jù)采集方式,以滿足數(shù)據(jù)中心的監(jiān)控和管理需求。(四)主要算法模型對比基于機器學習的自動控制算法趨于成熟,并逐漸多樣化。其中認可度較高,效果較為出眾的算法主要包括:神經(jīng)網(wǎng)絡預測模型、MPC模型、老虎機、強化學習等等。近年來,諸如維諦、谷歌、華為等等越來越多的企業(yè),將這些優(yōu)秀的機器學習控制技術引進數(shù)據(jù)中心進行能效優(yōu)化。但不同企業(yè)的數(shù)據(jù)中心規(guī)模、配置及其歷史數(shù)據(jù)擁有量各不相同,從而對算法的需求不同,針對于此,這里對不同的算法進行說明、對比。PIDPID是一種經(jīng)典控制算法,PID控制包括三部分:比例調節(jié)、積分調節(jié)和微分調節(jié)。其中比例調節(jié)立即產(chǎn)生作用以減少偏差,積分調節(jié)可以消除穩(wěn)態(tài)誤差,微分調節(jié)可以根據(jù)變化趨勢進行超前調節(jié)。PID控制可通過位置式或增量式公式實現(xiàn),下面公式為其中一種形式:其中???,??????PID控制已有多年的應用歷史,應用廣泛,效果可靠。在工業(yè)23數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009控制中,PIDPID無需訓練學習、收斂速度快、可解釋性強、穩(wěn)定可靠等諸多優(yōu)點,PIDPIDPIDPID模糊控制是一種以模糊集合論、模糊語言變量和模糊邏輯推理為基礎的計算機數(shù)字控制技術。它是模糊數(shù)學同控制理論相結合的產(chǎn)物,同時也是智能控制的重要組成部分。它模仿人的思維方式,是一種將專家經(jīng)驗規(guī)則轉化為控制策略的理論方法,特別適用于難以建立精確數(shù)學模型的對象。模糊控制的實現(xiàn)步驟主要包括:1)觀測量和控制量的模糊化24數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009模糊控制經(jīng)過發(fā)展,在理論、技術、應用上都有了長足的進步,在過去有段時間甚至非常流行。然而,可能由于數(shù)學理論仍待進一步完善,該算法仍然存在爭議,現(xiàn)在熱度不復往昔。模糊控制的優(yōu)點非常明顯,可解釋性強、收斂速度快。模糊控制的缺點也非常明顯,過分依賴專家經(jīng)驗,而人的經(jīng)驗不總是可靠的。因此模糊控制主要適合解決復雜而無法建立精確數(shù)學模型系統(tǒng)的控制問題,它是處理推理系統(tǒng)和控制系統(tǒng)中不精確和不確定性的有效方法。神經(jīng)網(wǎng)絡預測模型當神經(jīng)網(wǎng)絡層數(shù)較低時,特征提取和記憶能力變弱,退化成線性或簡單的非線性模型,因此較多時候神經(jīng)網(wǎng)絡模型特指有一定深度的網(wǎng)絡結構。這類模型對樣本量有一定的要求,收斂時間較長。因此這類模型適用于有大量歷史樣本的數(shù)據(jù)中心,通過歷史樣本的離線學習后再直接運用于數(shù)據(jù)中心。神經(jīng)網(wǎng)絡預測模型一般包含兩類神經(jīng)網(wǎng)絡,每類神經(jīng)網(wǎng)絡包含一個或多個,其中一類優(yōu)化網(wǎng)絡用于預測優(yōu)化目標,例如:PUE、能耗等,另一類約束網(wǎng)絡用于業(yè)務保障性預測,例如:溫度、濕度等。如下圖所示:25數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009圖1一種神經(jīng)網(wǎng)絡預測模型其中狀態(tài)量通常包含狀態(tài)變量和擾動變量,狀態(tài)變量如壓差、溫度等,擾動變量如負載功率、室外溫度等。其中控制變量通常為當神經(jīng)網(wǎng)絡層數(shù)較低時,特征提取和記憶能力變弱,退化成線性或簡單的非線性模型,因此較多時候神經(jīng)網(wǎng)絡模型特指有一定深度的網(wǎng)絡結構。這類模型對樣本量有一定的要求,收斂時間較長。因此這類模型適用于有大量歷史樣本的數(shù)據(jù)中心,通過歷史樣本的MPC模型MPC模型(ModelPredictiveControl),由預測模型和優(yōu)化算法組成,預測模型用于滾動預測未來幾步的系統(tǒng)狀態(tài),優(yōu)化算法根據(jù)預測的未來狀態(tài)進行最優(yōu)控制u的求解,并選擇最近一步的控制量,作用于下一個周期。26數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009MPC模型的基本思想:利用一個已有的模型、系統(tǒng)當前的狀態(tài)和未來的控制量,來預測系統(tǒng)未來的輸出,然后與期望的系統(tǒng)輸出做比較,得到一個損失函數(shù),優(yōu)化選擇使損失值(代價)最小的控制量。Google(離散狀態(tài)空間表達式):??=

?Σ???????=1

?Σ?????=1

+??[??1]其中A_k、B_k和Cx是狀態(tài)變量,是希望預測和管理的數(shù)值,如壓差、溫度等等。其中是控制變量,是希望算法模型推薦的控制變量,如風扇轉速、泵轉dMPC模型在優(yōu)化時會同時考慮約束條件,優(yōu)化控制的目標是滿足約束條件限制的前提下,選擇使損失(代價)函數(shù)最小的控制量u。在數(shù)據(jù)中心類項目中,在定義損失函數(shù)時通常是器件轉速越小越節(jié)能則損失函數(shù)值越小,在定義約束條件時通常希望溫度靠近某一設定點附近。MPC模型的優(yōu)化解法有二次規(guī)劃或對偶問題的求解方法等。MPC模型對樣本量要求不高,能較快的實現(xiàn)收斂,另外,當系統(tǒng)預測模型以過去多個時刻作為輸入時(如,令上文T>1),還具27數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009有很好的魯棒性。對于數(shù)據(jù)中心推薦控制,是一種不錯的選擇。但MPC模型的優(yōu)化求解有一定的運算量。多臂老虎機Bandit強化學習有一定的聯(lián)系,甚至可以認為是早期的強化學習。Sutton最早的老虎機模型,基本認為是病理學家Thompson在1933年提出的。他當時覺得驗證新藥的醫(yī)學隨機雙盲實驗有些殘酷的地方,對于被分到藥效較差的新藥的那一組病人并不公平。老虎機模型減小了藥效差、增大了藥效好的新藥的使用概率。現(xiàn)在,老虎機模型在搜索和推薦方面的應用很多。最近較出名的工作是LiLihong發(fā)表的LinUCB模型,用于Yahoo!新聞推薦。這里結合數(shù)據(jù)中心簡單介紹下UCB(UpperConfidenceBound,置信區(qū)間上界)算法。UCB對數(shù)據(jù)中心不同配置下的穩(wěn)定態(tài)使用分數(shù)或收益進行評價,然后選擇分數(shù)最高的臂進行推薦,得到反饋后進行更新,其公式如下:?=ˉ?

?+ ?)??,?其中ˉ??表示t次UB推薦后到目前為止的第j種配置下的均分數(shù)或收益,t是目前為止的總次數(shù),,?是第j種配置在t被選中的次數(shù)。加號左邊反應了平均收益,平均收益越大被容易被28數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009選擇。加號右邊反應了一種不確定性,使算法增加了探索能力。Bandit算法簡單有效,對樣本量要求不高,能較快的實現(xiàn)收斂。無論用于數(shù)據(jù)中心自動控制的冷啟動,還是作為其常規(guī)控制,都是一種不錯的選擇。強化學習強化學習的基本原理是,如果Agent正的獎勵(強化信號),Agent便會加強。Agent的目標是在每個離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略以使期望AC對數(shù)據(jù)中心狀態(tài)進行評價,能耗越低溫度越好則獎勵越大,反之亦然;其中策略網(wǎng)絡用于根據(jù)數(shù)據(jù)中心當前狀態(tài)選取行為動作,對于導致獎勵最大的行為被選取的概率最大。通??梢姷牟呗跃W(wǎng)絡擬合了一個概率分布,越好的行為被選擇的概率越大,對于其它行為也有微小的概率被選擇,這樣做的好處在于,模型同時具備利用和探索能力,當室外環(huán)境或負載功率發(fā)生變化時,能找到新形勢下的最29數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009圖2一種AC框架的強化學習模型強化學習的優(yōu)點在于,它是一種比較通用的范式,能解決各種優(yōu)化控制和智能推薦問題。但該算法尚不是非常成熟且門檻較高,需要算法人員具備較高的設計能力,并且建立恰當?shù)莫剟詈瘮?shù)不是一件容易的事。另外該算法模型學習效率相對較低,對樣本和學習時間有較大要求。另外由于數(shù)據(jù)中心不像游戲,無法并發(fā)大量的不斷交互,因此這類模型建議用于有大量歷史樣本的數(shù)據(jù)中心,通過離線學習后再運用于數(shù)據(jù)中心。綜上所述,幾個主要模型的優(yōu)缺點和適用場景如下,可根據(jù)實際場景的需求進行選擇和組合,以取得最優(yōu)的效果:表2幾類主要算法模型對比算法名稱算法描述優(yōu)點缺點使用場景無法根據(jù)擾動無需訓練學進行前饋控一種經(jīng)典控制算法,習、收斂速度制,PID對應工業(yè)控制中,作為首選PID控制 包括比例調節(jié)、積分快、可解釋性的最佳參數(shù)隨解決方案,處理大部分調節(jié)和微分調節(jié)。強、穩(wěn)定可負載變化,不問題???。適合作多目標控制。模糊控制

一種基于模糊集合

可解釋性強、收斂速度快。

過分依賴專家經(jīng)驗,人的經(jīng)驗不總是可

適用于解決復雜且無法建立精確數(shù)學模型的系統(tǒng)的控制問題。30數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009機數(shù)字控制技術。 靠強大的特征提

適用于有大量歷史樣本預測MPC機強化學習

通過深度學習網(wǎng)絡結構進行預測,要求有大量樣本量。由預測模型和優(yōu)化算法組成,用于滾動預測未來幾步的系統(tǒng)狀態(tài),進行最優(yōu)控制。一種簡單有效的優(yōu)化算法,能根據(jù)已有反饋快速做出決策。通過不斷與環(huán)境交望獎勵和最大。

取和記憶能力,能進行復雜非線性模型的預測。對樣本量要求不高,能較快實現(xiàn)收斂,具有很好的魯棒性?,F(xiàn)收斂。薦問題。

一定的局限解。門檻較高,需要算法人員具備較高的設計能力,模型學習效率相對較低,對樣本和學習時間有較大要求。

的數(shù)據(jù)中心,通過歷史樣本的離線學習后再直接運用于數(shù)據(jù)中心。在數(shù)據(jù)中心類項目中進行推薦控制。適用于數(shù)據(jù)中心自動控制的冷啟動,或作為其常規(guī)控制。建議用于有大量歷史樣本的數(shù)據(jù)中心,通過離線學習后再運用于數(shù)據(jù)中心。概述優(yōu)化算法在算法模型中具有重要地位,是計算機尋優(yōu)求解的最主要手段。但考慮到其運用過于廣泛,種類過于繁多,技術過于細節(jié),這里只從整體上進行說明。優(yōu)化算法用處廣泛它也可以是其它模型的承接部分,比如配合已訓練好的模型31數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009優(yōu)化算法種類繁多,優(yōu)化算法可分為進化算法和數(shù)學優(yōu)化算法兩大類別,每大類別又包含很多種算法。進化算法進化算法是仿照生物進化規(guī)律,通過繁殖、競爭、再繁殖、再競爭,實現(xiàn)優(yōu)勝劣汰,一步步逼近復雜工程技術問題的最優(yōu)解。從數(shù)學上看,進化算法就像融入了生物屬性的搜索尋優(yōu)方法。進化算法包括:遺傳算法、粒子群算法、免疫算法、蟻群算法、果蠅算法、模擬退火算法、螢火蟲算法等等。其中遺傳算法是當前最常用的進化算法之一。遺傳算法(簡稱GA)起源于對生物系統(tǒng)所進行的計算機模擬研究,是一種隨機全局搜索優(yōu)化方法,它模擬了自然選擇和遺傳中發(fā)生的復制、交叉和變異等現(xiàn)象,從一組隨機初始種群出發(fā),通過隨機選擇、交叉和變異操作,產(chǎn)生一群更適合環(huán)境的個體,使群體進化到搜索空間中越來越好的區(qū)域,這樣不斷繁衍進化,最后收斂到一群最適應環(huán)境的個體,從而求得問題的優(yōu)質解。數(shù)學優(yōu)化算法數(shù)學優(yōu)化算法是利用微積分、運籌學、拓撲學等數(shù)學知識尋找逼近問題的最優(yōu)解。數(shù)學優(yōu)化算法包括:凸優(yōu)化、牛頓法、共扼梯度法、擬牛頓法、梯度優(yōu)化、Adam、拉格朗日優(yōu)化、線性規(guī)劃、動態(tài)規(guī)劃等等。其中32數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009Adamvs數(shù)學優(yōu)化算法流派不同:進化算法和數(shù)學優(yōu)化算法分屬兩個不同流派,都有應用案例。但由于神經(jīng)網(wǎng)絡大放異彩,部分數(shù)學優(yōu)化算法作為神數(shù)學前提不同:進化算法只需計算目標函數(shù)的值即可,對優(yōu)化問題本身的性質要求是非常低的。數(shù)學優(yōu)化算法往往依賴于一大堆的條件,例如是否為凸優(yōu)化,目標函數(shù)是否可微,目標函數(shù)導數(shù)是否Lipschitz運算復雜度不同:進化算法需要不斷搜索、循環(huán)迭代,因此因此應用范圍小于進化算法。進化算法基本可以運用于所有優(yōu)化問題,然而沒有充分利用問題的數(shù)學性質,運算速度慢。另外盡管進化算法采用了變異等諸多手段,收斂不到全局最優(yōu)的可能性仍然存在。應用場景不同:對于數(shù)學前提較好的優(yōu)化問題,使用數(shù)學優(yōu)化算法速度快,而且相對容易保證全局最優(yōu)。但現(xiàn)實中也存在這樣的問題,目標函數(shù)數(shù)學性質不好,非凸不連續(xù),或者直接無法知道其數(shù)學性質,此時使用進化算法更好。對于NP33數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009化算法無能為力,也以進化算法為宜。另外,在神經(jīng)網(wǎng)絡領域,也出現(xiàn)了使用進化算法進行超參數(shù)調優(yōu)的例子,緩解了進化算法的尷尬境地。值得一提的是,隨著時代的發(fā)展,算力不斷提升將利好進化算法。但算力也永遠存在瓶頸,不過到一個新的位置罷了。因此,工具本身并不存在絕對的優(yōu)劣之分,每種工具都有其適用的場景。黑白盒算法概述“黑盒”和“白盒”是用于描述算法或系統(tǒng)的透明度的術語。特定地,在測試和機器學習的背景下,它們通常被提及。(BlackBo)“黑盒”指的是一個系統(tǒng)或算法,其中內部的工作機制是隱藏或不透明的。用戶只能看到輸入和輸出,而不能看到內部如何進行處理。優(yōu)點簡單性:用戶不需要了解內部的工作原理,只需要關心輸入和輸出。通用性:由于不強調內部的工作機制,因此黑盒方法往往更加通用,適用于各種情境。靈活性:內部實現(xiàn)可以在不影響外部接口的情況下進行修改或優(yōu)化。34數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009缺點不透明:無法確定系統(tǒng)或算法為何會產(chǎn)生特定的輸出,這可能導致難以解釋或難以理解的行為。難以調試:當出現(xiàn)問題時,難以確定錯誤的來源或如何修復。信任問題:由于缺乏透明度,用戶可能難以完全信任系統(tǒng)或算法。(WhiteBo)“白盒”指的是一個系統(tǒng)或算法,其中內部的工作機制是透明和可見的。用戶不僅可以看到輸入和輸出,還可以看到處理過程。優(yōu)點透明性:用戶可以完全理解并驗證系統(tǒng)或算法的行為??烧{試性:由于內部工作機制是知道的,因此更容易定位和修復問題??啥ㄖ菩裕毫私鈨炔繖C制可以使用戶或開發(fā)者針對特定應用進行優(yōu)化或修改。缺點復雜性:需要了解更多的細節(jié),可能會對某些用戶造成困擾??赡苓^于特定:由于太過側重于內部機制,白盒方法可能不如黑盒方法那么通用。35數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009資源消耗:由于需要維護更多的細節(jié)信息,白盒方法可能需要更多的資源。在機器學習領域,例如深度學習模型通常被視為“黑盒”,因為它們的內部工作機制(即如何從輸入數(shù)據(jù)中學習)對大多數(shù)用戶來說都是不透明的,盡管其結構和算法是已知的。而傳統(tǒng)的算法,如決策樹,由于它們的決策過程較為直觀和可解釋,通常被視為“白盒”。在選擇使用黑盒還是白盒方法時,要根據(jù)特定的應用和需求進行權衡。例如,如果需要一個可以提供可解釋性的系統(tǒng),白盒可能是更好的選擇。如果需要一個可以快速部署且對內部工作機制不太關心的系統(tǒng),黑盒可能更合適。在數(shù)據(jù)中心AI節(jié)能應用的模型設計中,白盒算法具有更強的可解釋性,有利于安全策略的設計和人機協(xié)同控制,而黑盒算法具有更強的場景適應性,同時,白盒算法的設計需要更強的專家經(jīng)驗支持和更長的開發(fā)調試周期,因此在實際應用中常采用混合算法。(五)算法部署架構對比算法的部署方案主要受數(shù)據(jù)安全性要求和算力分布的影響。當前算法部署主要有三種架構:邊緣部署,私有云中心部署及互聯(lián)網(wǎng)云部署。由于數(shù)據(jù)中心安全性要求較高,常見的主要有邊緣部署和私有云中心部署。隨著人工智能的飛速發(fā)展和大模型技術的不斷突破,部分算法任務遷移至互聯(lián)網(wǎng)云部署或將成為一種趨勢。36數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009但對于不同的算法任務,應綜合考慮算力需求、安全要求等等,對其模型采其不同的部署架構,以實現(xiàn)部署效果最優(yōu)。邊緣部署邊緣部署直接將算法模型部署在本地末端計算設備上,該末端計算設備往往通過串口、網(wǎng)絡等與溫濕度傳感器、壓力傳感器、空調、電表等直接相連,并完成數(shù)據(jù)采集、控制執(zhí)行等任務。這里將末端計算設備稱為邊緣監(jiān)控管理平臺,并將機柜、溫濕度傳感器、壓力傳感器、空調、電表等組成的系統(tǒng)稱為末端系統(tǒng)。邊緣部署是將算法直接部署在與末端系統(tǒng)直接相連的邊緣監(jiān)控管理平臺上,其中邊緣監(jiān)控管理平臺與末端系統(tǒng)一對一相連。以MDC場景下的算法部署為例,下面是MDC末端系統(tǒng)與邊緣監(jiān)控管理平臺的對應關系圖:圖3 MDC末端系統(tǒng)與邊緣監(jiān)控管理平臺對應關系將算法模型部署于邊緣監(jiān)控管理平臺上有這樣的好處:比如數(shù)據(jù)傳輸距離短,延遲小,不容易受到數(shù)據(jù)傳輸中斷的影響,安全程度高、可靠性好;比如邊緣監(jiān)控管理平臺較多,有算力分散的好處,可有效避免算力總需求過大而無法支持的問題。37數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009但是出于成本考慮邊緣監(jiān)控管理平臺往往性能不高,對算法的支持能力有限,比如無法流暢的運行較深的神經(jīng)網(wǎng)絡模型。另外,因為末端系統(tǒng)與邊緣監(jiān)控管理平臺呈一對一的對應關系,所以它不能處理與多個末端系統(tǒng)相關的共同計算任務。因此,邊緣部署特別適合于算力要求小,安全要求高的算法模型:比如單一MDC中末端空調的開關控制、末端空調壓縮機風機或水閥的群控等等。中心部署本地中心部署將算法模型部署于本地中心監(jiān)控管理平臺上(或稱中心服務器,中心計算設備),一個中心監(jiān)控管理平臺與多個末端監(jiān)控管理平臺通過局域網(wǎng)相連,并通過末端監(jiān)控管理平臺間接實現(xiàn)對末端系統(tǒng)的優(yōu)化。同樣以MDC場景為例,中心監(jiān)控管理平臺、末端監(jiān)控管理平臺和MDC末端系統(tǒng)的對應關系如下圖所示:圖4 中心監(jiān)控管理平臺、末端監(jiān)控管理平臺和MDC末端系統(tǒng)對應關系將算法模型部署于本地中心監(jiān)控管理平臺:有利于充分利用多38數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009末端系統(tǒng)數(shù)據(jù);有利于從更大層面對數(shù)據(jù)中心進行節(jié)能控制;同時由于中心監(jiān)控管理平臺個數(shù)較少,這還便于提高算力支持能力,同時不至于成本增加太多;另外由于沒有使用公網(wǎng),整個系統(tǒng)仍然保持了較高的安全性。因此,中心部署特別適合于算力要求適中,安全要求中等甚至較高,有多系統(tǒng)協(xié)作需求的算法任務:比如冷機出水溫度設定點的調節(jié)、MDC目標溫度的微調等。另外,中心節(jié)能控制是對邊緣節(jié)能控制的進一步完善,但不宜作為邊緣控制的完全替代。在中心監(jiān)控管理平臺通信故障時,末端系統(tǒng)和邊緣監(jiān)控管理平臺仍應可正常運行。因此末端邊緣系統(tǒng)控制建議保留其完備性、高實時性和高可靠性。出于此考慮,諸如空調末端器件級節(jié)能群控建議仍采用邊緣部署?;ヂ?lián)網(wǎng)云部署互聯(lián)網(wǎng)云將算法模型部署于網(wǎng)絡云平臺上,可以同時跟眾多本地中心監(jiān)控管理平臺、本地邊緣監(jiān)控管理平臺通過互聯(lián)網(wǎng)相連。如下圖所示:39數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009圖5互聯(lián)網(wǎng)云算法模型部署網(wǎng)絡云平臺云平臺的巨大優(yōu)勢有利于收集數(shù)據(jù)和優(yōu)化算法模型。另外由于真正大算力所需的硬件成本非常昂貴,為了經(jīng)濟效益,前面的邊緣部署和中心部署終歸算力有限,因此,如大模型之類的算法模型只有云平臺可以支持。而隨著人工智能的發(fā)展,大模型越來越成熟,互聯(lián)網(wǎng)云部署將呈現(xiàn)增長趨勢。但云平臺數(shù)據(jù)傳輸距離長、安全性差、穩(wěn)定性低、不可控因素較多。因此,網(wǎng)絡云部署特別適合于模型較大,用于改善用戶感受而非控制類的算法模型,比如:語音識別、專家咨詢系統(tǒng)等。最后,云平臺還可用于遠程更新邊緣算法模型,有利于算法版本的迅速迭代,收益變現(xiàn)。但對于數(shù)據(jù)中心這樣一個安全要求較高的行業(yè),能否接受云帶來的不可靠性,仍是一個很大的問題。40數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009五、主要場景方案及案例分析(一)基站級場景案例場景概況某基站機房位置布局位于華東地區(qū),屬于夏季炎熱、冬季寒冷的氣候區(qū)域。圖6某運營商基站機房3D模型空調系統(tǒng)624CT4制冷問題在一個空調循環(huán)周期中,壓縮機只有一半周期的時間在運行,41數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009因此室內風機有一半周期無實際效果。所有空調的壓縮機的啟停都是根據(jù)回風溫度來進行控制,但根據(jù)測量,該空調的回風溫度與實際溫度相差較大。這種溫度差異導致了壓縮機重復的啟停,空調壓縮機啟動瞬間的工作電流是正常運行狀態(tài)下的4-7倍,最終加大空調的能耗。與此同時,在機房內,機柜頂端處的溫度傳感器溫度達到了31攝氏度,存在高溫熱點問題。因此,由于回風溫度控制與實際溫度存在差異,再加上壓縮機工作狀態(tài)的問題,都導致了能耗偏高的問題。AIAI方案總體設計上以空調建模+機器學習為主,同時輔助參數(shù)自動優(yōu)化調節(jié)。保證場景最優(yōu)節(jié)能效果同時,減少對算力和傳感器的依賴,可通過現(xiàn)有的監(jiān)控采集傳感設備,提高了整體投資回收期。安全方面與空調底層控制邏輯緊密耦合,時刻監(jiān)控安全便捷,避免影響空調的正??刂七壿?。算法設計該方案通過在采集器上加載節(jié)能管理軟件,根據(jù)設定的控制邏輯對基站空調進行監(jiān)控,包括空調運行狀態(tài)及開關機控制,以及機房環(huán)境溫度監(jiān)測。算法通過減少壓縮機啟動次數(shù)、提高制冷效率、減少室內風機運行時間等方式,在保障通信設備安全運行的前提下,42數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009實現(xiàn)節(jié)能的目標?;疽?guī)模龐大、遠離監(jiān)控中心,且受建筑結構、季節(jié)、經(jīng)緯度、海拔、所處位置環(huán)境等因素影響,算法設計上需要著重考慮控制安全。算法采用中心-邊緣的方式,算法尋優(yōu)推理在中心完成,并同步到邊緣智能控制主機來執(zhí)行,執(zhí)行包括空調啟停、空調啟停溫度設定值、空調送回風溫度設定?;舅惴ㄔ谥行牟捎么竽P头绞?,通過基站所屬地理位置、面積、建筑物類型,空調類型、空調數(shù)量、室外溫濕度、電源輸出負載、基站業(yè)務類型等參數(shù)進行分類。針對不同分類首先通過氣流組織仿真算法建立初始模型,算法在運行過程中不斷采樣新數(shù)據(jù)進行AI最佳算法模型,在探測到室外溫濕度、負載等數(shù)據(jù)變化超出一定閾AI到有高溫風險后,自動啟動安全保護策略。邊緣預測算法采用嵌入式AITensorFlowLite構建LSTM數(shù)據(jù)采集數(shù)據(jù)主要包括空調的開關機狀態(tài),送回風溫度,溫濕度傳感器的溫度和濕度等。同時,通過優(yōu)化基站溫度采集位置,基于采集的機房溫度來控制空調運行,避免因氣流組織問題引起的回風溫度不準確導致的能源浪費。43數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009實施過程首先,根據(jù)控制邏輯開發(fā)節(jié)能管理軟件,并加載到智能采集器中進行調試。然后,在動環(huán)監(jiān)控中正式啟動基站空調節(jié)能運行及管理模式,實現(xiàn)對房間溫度及空調運行狀態(tài)的精確管理與控制。安全保障本方案在設計上充分考慮了安全因素。所有空調、溫濕度傳感器以及電表均接入同一個采集器,使得數(shù)據(jù)的采集和控制統(tǒng)一,避免了與平臺數(shù)據(jù)傳輸?shù)娘L險,提高了控制命令下發(fā)的速度。此外,方案優(yōu)化調整了原有監(jiān)控方案的溫度告警機制,避免出現(xiàn)局部熱點問題。AI估AI1)294kwh。改造后運行狀態(tài)233kwh,相較于改造前,制冷系統(tǒng)的能20.7。折算到月,AI1211891kwh/0.7/KWHAI12×1891×0.7=15884/年。降低了能源消耗,提高了經(jīng)濟效益。此外,該方案還有助于解44數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009決局部熱點問題,消除過熱隱患,保障數(shù)據(jù)中心的穩(wěn)定運行?;贏I強化學習算法的空調節(jié)能控制解決方案的成功應用,顯示了人工智能技術在數(shù)據(jù)中心能源管理領域的潛力和價值。綜合分析在基站場景中,安全設置是首要考慮的因素。首先,控制策略被下放到采集器中,以避免軟件誤操作帶來的影響。其次,采集器收集的數(shù)據(jù)被存儲在本地,并進行清洗、篩選等預處理以及算法訓練。最后,設置了多重告警控制,包括空調面板設置高于遠程控制、AI策略歷史回退以及AI保底策略校驗等多重安全保護機制。(二)微模塊MDC場景案例某企業(yè)級MDC機房差異的MDC實際后續(xù)應用中,現(xiàn)場可以根據(jù)情況在兩種模型中靈活切換,從而提高整體方案的適應性,提升綜合節(jié)能效果。場景概況黑盒模型方案45數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009由于線上業(yè)務活躍度的晝夜差異性,機房中的服務器工作功率也隨之明顯不同,冷凝器側熱交換效率在不同時間段有所差異,同時服務器由于業(yè)務特性,其散熱需求也會隨著時間段的不同而變化。但原有的空調控制策略相對較為粗糙,雖然將機房的溫度控制在正常范圍內,但由于空調熱交換效率和服務器散熱需求在不同時間段的差異,使得空調在某些時段的工作負荷偏離了最佳狀態(tài)。表3黑盒模型機房及場景配置統(tǒng)計微模塊類型SmartAisle3IT機柜與通道密封通道類型封閉冷通道IT柜數(shù)量(個)11個單柜總U位數(shù)(U)462單柜功率(kW)最大10kW外型尺寸(L*W*H)600*1100*2000mm供配電系統(tǒng)供配電架構UPS電源制式380/400/415V~,3N,50Hz冗余配置2N、1+1型號APM0160kMK16FN02000容量IT200A,制冷123A制冷系統(tǒng)空調類型風冷型號CR035RP1NLS712E3A000PV040冗余配置3+1單臺制冷量(kW)35kW監(jiān)控系統(tǒng)監(jiān)控系統(tǒng)名稱RDU監(jiān)控系統(tǒng)46數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009圖7黑盒模型機房及布局圖對該機房進行改造前,服務器負荷處于高位運行狀態(tài),總負載功率約98kW,整體溫度正常,但備機空調未自動打開,空調運行負荷過大。場景二:白盒模型場景在對機房進行節(jié)能改造的歷史數(shù)據(jù)分析過程中,發(fā)現(xiàn)機房的微模塊在運行過程中,由于對吹和近似對吹的空調互相干擾,導致其工作狀態(tài)收斂于周期性波動。此外,微模塊采用了送風控制,但是由于自然環(huán)境溫度和負載功率的變化,不同時間段的回風側溫度會出現(xiàn)時高時低的現(xiàn)象。這些現(xiàn)狀下,機房存在以下幾個問題:當回風側溫度偏低時,會導致冷量的浪費,使得模塊工作在較高的pPUE狀態(tài)。同時,空調器件被單獨的空調自身控制,空調間相互影響形成競爭運行,也會收斂于周期性波動。這種情況下,溫度會在不斷地區(qū)域性變化,可能會帶來安全隱患。表4白盒模型機房及場景配置統(tǒng)計微模塊類型SmartAisleIT機柜與通道密封通道類型封閉冷通道IT柜數(shù)量(個)9個單柜總U位數(shù)(U)46247數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009單柜功率(kW)最大8kW外型尺寸(L*W*H)600*1100*2000mm供配電系統(tǒng)供配電架構UPS電源制式冗余配置2N、1+1型號容量制冷系統(tǒng)空調類型風冷型號CR025冗余配置3+1單臺制冷量(kW)25kW監(jiān)控系統(tǒng)監(jiān)控系統(tǒng)名稱RDU監(jiān)控系統(tǒng)圖8白盒模型機房布局圖對該機房進行改造前,空調器件由空調自身單獨控制,空調相互影響,周期波動。另外,盡管改造時是夏季,但改造前pPUE仍偏高。AI黑盒模型方案:在對機房現(xiàn)狀的分析中,發(fā)現(xiàn)原始的空調開關策略過于粗糙,即僅在空調溫度測點或關聯(lián)傳感器測點溫度過高或過低時才進行開48數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009關操作。因此,決定引入具有自學習、自優(yōu)化能力的機器學習算法??紤]到服務器負載功率在不同時間段有大的差異,引入負載功率作為輸入?yún)?shù)之一。同時,許多數(shù)據(jù)中心難以獲取室外溫度,因此選擇引入空調送回風溫度、機柜送回風溫度等,使得算法能夠間接學習到室外溫度引起的室內變化。具體的方案包括:使用負載功率、空調送風溫度、空調回風溫度、機柜送風溫度、機柜回風溫度、傳感器以及空調位置信息等特征及其復合特征作為算法輸入。綜合考慮空調功率、溫度與目標值的偏離程度、溫場均勻程度作為算法自優(yōu)化的評價或收益反饋。同時,空調開機個數(shù)、開機位置、及溫度設定點被用作調節(jié)手段,即算法推薦的動作。圖9黑盒模型方案空調器件協(xié)作方式LinUCBxgboostxgboost于空調無法頻繁開關,樣本間隔長且收集困難,采用了收斂速度較LinUCB,尤其是采用級聯(lián)模型進一步提升收斂效率??紤]到特49數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009定數(shù)據(jù)中心樣本不易獲取,不能進行批量訓練,因此沒有采用新興的強化學習算法,而是選擇更快更穩(wěn)定的LinUCB。然而,LinUCB然具有強化學習的探索能力,能適應自然環(huán)境的變化。xgboost于滿足自然環(huán)境、負載功率及開關機變化引起的溫度調節(jié)需求。并核心的算法結構圖如下:圖10黑盒模型方案核心算法結構圖白盒模型方案:通過對機房現(xiàn)狀的分析,由于初始空調器件被自身單獨控制并相互干擾,因此考慮利用機器學習算法實現(xiàn)對不同空調器件的統(tǒng)一群體控制。這種方法不僅解決了設備之間控制的相互干擾問題,而且還能使空調設備之間和設備內部的各個組件協(xié)同工作,以實現(xiàn)節(jié)能效果。同時,將能效和溫度作為評估或反饋的共同指標,兼顧節(jié)能和溫度控制,避免回風側溫度過低??照{器件級協(xié)作方式如下圖所示:50數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009圖11白盒模型方案空調器件協(xié)作方式具體方案:將負載功率、機柜送風溫度、機柜回風溫度以及壓縮機風機轉速(或水閥開度)等特征及其組合特征作為算法的輸入。綜合考慮空調能耗、溫度與目標值的偏離程度以及溫度場的均勻程度作為算法自優(yōu)化的評價或反饋。將壓縮機容量、風機轉速(或水閥開度)作為調節(jié)方式,即算法的推薦動作。算法采用模型預測控制(MPC)模型。首先構建系統(tǒng)模型,以映射溫度、設備輸出和負載功率之間的關系。然后,使用拉格朗日優(yōu)化方法尋找適宜的溫度和更低的能耗的設備輸出組合。這種方法穩(wěn)定,收斂速度快,并具有良好的魯棒性。在建模過程中,使用過去一段時間內多個時刻的狀態(tài)作為輸入,以增強模型的抗干擾能力和理解變化趨勢的能力。同時,使用未來一段時間內多個時刻的預測結果共同作為反饋,以提高模型的長期收益能力。此外,還引入了探索機制,以幫助模型不斷優(yōu)化。最后,對特征工程、初始化以及安全等細節(jié)進行了處理。51數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009圖12白盒模型方案核心算法結構圖通過對兩種場景方案的對比分析,建議在微模塊場景下黑盒模型和白盒模型聯(lián)合使用,但仍然是可分別單獨使用的。其中白盒模型是細顆粒度調節(jié),是底層器件的微調;其中黑盒模型是粗顆粒度調節(jié),是上層的整體調節(jié);兩者互為補充。AI估黑盒模型效果及節(jié)能分析:該機房經(jīng)過改造后空調的開關能力更加細致。由于當前負荷較高,改造后自動開啟了空調備機,并進行溫度設定點調整,節(jié)能效果約為(18.1-15.9)/18.1=12,如下圖所示:圖13黑盒模型機房AI開啟前后空調用電功率對比52數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009EER20。以舊型號空調的EER19kWEER4.81kW0.2083kW28kWEER3.6,1kW0.2778kW。因此,在相同的制冷需求25圖14壓縮機能效曲線白盒模型效果及節(jié)能分析:該機房經(jīng)過改造后,對氣流組織、溫度場、冷量分配的調節(jié)更加細膩,可對冷熱通道分區(qū)域調節(jié),對于冷通道或熱通道可參考機柜溫度進行精確調節(jié)。同時改造后,空調的輸出更加穩(wěn)定。節(jié)能效果約為(18.07-15.65)/18.07=13,如下圖所示:53數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009圖15白盒模型機房AI開啟前后空調用電功率對比通過比較AI開啟前后的冷熱通道平均溫度,從下圖可以看出AI在允許的范圍內適當提升了熱通道溫度,但這并不是簡單的以熱通道為溫控目標,而是通過能耗反饋實現(xiàn)的優(yōu)化。圖16AI開啟前后冷熱通道溫度根據(jù)工作經(jīng)驗和數(shù)據(jù),存在某些工況場景的熱通道溫度可能更低,因此節(jié)能空間有更大的潛力。然而,算法實際上是通過器件協(xié)作和能耗反饋實現(xiàn)節(jié)能的,即使熱通道溫度相同,適當?shù)谋壤途_送冷也可能實現(xiàn)節(jié)能。此外,AI開啟后,4臺空調的壓縮機波動更小,運行更穩(wěn)定如下圖所示。54數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009圖17AI開啟前后壓縮機運行曲線(三)房間級場景案例場景概況某云計算中心位置與布局:坐落于華東地區(qū),屬于夏季炎熱、冬季寒冷的氣候區(qū)域,共有兩個機房。空調系統(tǒng):A400138(3)。IT252KVA30-40,A8房間級風冷空調。BA機房位于同一建筑物的不同樓層,占A7(1),BIT280KVA,30-40B6圖18華東某數(shù)據(jù)機房3D模型55數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009制冷問題:A132-3B但同樣存在局部熱點和溫度分布不均的問題??照{設備在較長時間內保持穩(wěn)定狀態(tài),溫度設定未發(fā)生變化,導致了大量的制冷冗余和AIAI間級空調系統(tǒng)中,以提升已建設的動力環(huán)境集中監(jiān)控管理系統(tǒng)的空調效率。方案總體設計上為專家經(jīng)驗+神經(jīng)網(wǎng)絡+強化學習。神經(jīng)網(wǎng)絡+強化學習保證場景最優(yōu)節(jié)能效果,同時專家經(jīng)驗的加入提高了整體的收斂速度,進一步增強了在負載頻繁變化場景下的實際表現(xiàn)。此外,從安全性方面看,專家經(jīng)驗也為保底策略的設計和合理調節(jié)步長的選擇提供了更有實踐性的依據(jù)。算法設計AIAI制和獎勵要素包括開關機狀態(tài)、進/出風溫濕度、冷/熱通道溫濕度等。為保障運行安全,AI傳感器的溫濕度數(shù)據(jù)、空調的送回風和功率、風機和壓縮機的開度IT56數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009pPUE及其他相關控制參數(shù)。該策略解決了冷通道熱點問題,改善了空調IDC機房場景各異,包括送風方式、機柜封閉方式、空調變頻與否以及空調使用壽命等等,機房負載隨時間變化頻繁,為了實現(xiàn)見效快、安全運行、自適應長期穩(wěn)定節(jié)能等目標,采取組合算法方式,節(jié)能系統(tǒng)內置算法自動評估模塊,在不同階段、不同環(huán)境下對不同算法進行評估,擇優(yōu)選擇最適合當前階段和機房環(huán)境下的算法。節(jié)能系統(tǒng)同時內置算法自動訓練模塊,在超出一定的閾值后,自動訓練算法。算法的一般原則是運行的初始階段,此時有效樣本數(shù)據(jù)有限,采用專家經(jīng)驗、機理模型和輕量級機器學習算法,使控制策略可以有效的控制在安全區(qū)間,具備更好的趨勢性,避免少樣本大模型下的嚴重控制策略偏離。輕量級機器學習算法主要包括遺傳算法、粒子群算法、模擬退火、強化學習以及算法組合尋優(yōu)。在系統(tǒng)評估算法到達切換點之后,即可以轉入第二階段算法,此時具備一定的數(shù)據(jù)規(guī)模、也具備大量調優(yōu)策略、同時有了范圍更小的安全尋優(yōu)邊界,算法一般采用深度神經(jīng)網(wǎng)絡。最后一個階段采用深度強化學習,通過遷移學習先把以后的節(jié)能策略遷移到深度強化學習模型。模型評估管理平臺依據(jù)機房實際運行數(shù)據(jù)進行評估和切換,不是所有機房都按照以上第一、二、三階段運行,如果始終不具備進一步切換條件,則會保持在第一或者第二階段。57數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009算法的另外一個核心在于評價函數(shù),評價函數(shù)一般包含機房所有溫濕度實時值、當前策略下的空調能耗水平。由于場地溫濕度傳感器的數(shù)量布置不一樣,評價函數(shù)需要針對性進行編寫,機房也可能對恒溫恒濕有更高要求,此時評估函數(shù)的權值則需要優(yōu)化調整。溫濕度的評價函數(shù)可以采用多次方程或者高斯分布等數(shù)學技能,越接近設定有越高的獎勵值。數(shù)據(jù)采集溫濕度傳感器是采集機房環(huán)境溫度的關鍵設備。在此場景中,1044度傳感器,同時兼顧冷熱通道的溫度。此外,共有6臺空調,能采集到算法所需的相關數(shù)據(jù),同時滿足下發(fā)控制命令的功能。最后,電表也是衡量節(jié)能前后的重要設備,每一列機柜和空調上都安裝了一個電表以統(tǒng)計其消耗的電能。實施過程實施分為三個階段:環(huán)境仿真分析、AI業(yè)務軟件部署、AI節(jié)能58數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009評估。在環(huán)境仿真分析階段,場景部署前,評估AI算法的智能化水平,除節(jié)能控制外,評估AI算法是否能解決局部熱點問題,消除過熱隱患。通過對機房進行氣流組織分析,發(fā)現(xiàn)存在明顯的局部熱點和氣流組織不均的問題。圖19機房氣流組織模擬圖AI業(yè)務軟件部署階段,基于現(xiàn)有監(jiān)控平臺提取兩個月數(shù)據(jù)進行清洗、建模和強化學習。AI估AI業(yè)務評估階段,從熱點消除情況和能源效率改進狀況兩個方面進行評估。改造前運行狀態(tài)6、735AI48A49225kwh,B,機房空調系統(tǒng)pPUE=1.286。改造后運行狀態(tài)59數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-020091815,AI常規(guī)模式在夏季最熱月分別可節(jié)電8643/月、9470/月,降低了能源消耗,提高了經(jīng)濟效益。此外,該方案還有助于解決局部熱20AAI21BAI綜合分析AI制解決方案具有更高的智能化水平和優(yōu)化效果,能夠根據(jù)實時環(huán)境狀態(tài)和反饋信息調整控制策略,提高空調運行效率。此外,AI的快速學習收斂和控制穩(wěn)定性特點,使得節(jié)能效果更為顯著且可持AI情況,A機房整個冷通道的四個溫度傳感器反饋的溫度基本維持在60數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-0200925-26B26-27證了通道溫度的均衡。在此前提下,空調的電能有了明顯的下降,pPUE在數(shù)據(jù)中心AI節(jié)能中,安全是所有工作的前提。本場景下的數(shù)據(jù)存儲在數(shù)據(jù)中心的本地,極大地保證了數(shù)據(jù)的安全性。同時,通過溫度告警以及設備通訊等多種告警模式,在出現(xiàn)熱點以及其他問題時可以及時發(fā)現(xiàn)并處理。最后,軟件中還加入了保底策略以及策略回退等功能,極大程度上保證了操作的安全性。(四)樓宇級場景案例場景概況某自用數(shù)據(jù)中心位置與布局該數(shù)據(jù)中心位于西南地區(qū),屬于亞熱帶季風氣候區(qū),氣候溫暖濕潤。整棟機樓占地約900平方米,包括一樓的高低壓配電房,二三樓的業(yè)務機房,四樓的通訊機房以及頂層的水冷設備。機樓內置有一個微模塊,該微模塊中裝有8臺水冷空調和16個溫濕度傳感器。36461數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009該系統(tǒng)包括兩個螺桿冷水機組,101041(2219)。在這8制冷問題盡管機柜的上架率目前較低,但由于空調設備在較長時間內保持穩(wěn)定狀態(tài),且溫度設定未發(fā)生變化,可能存在大量的制冷冗余和溫度分布不均的問題。溫濕度傳感器反饋的數(shù)據(jù)表明負載較高的地2924左右。但所有空調的送回風溫度設置都是相同的,造成冷量的極大PUE(功率使用效率)2.04,這表明在AIAIAI化學習算法的空調節(jié)能控制,提升已建設的動力環(huán)境集中監(jiān)控管理方案總體設計上為機理建模+神經(jīng)網(wǎng)絡+強化學習。由于冷凍水系統(tǒng)過程參量巨大,機理建??梢杂行Ы⒘恐凹s束關系,對參量進行降維,從而降低訓練的難度。同時,神經(jīng)網(wǎng)絡+強化學習可以有效調節(jié)算法參數(shù),保證場景最優(yōu)節(jié)能效果,充分適應復雜冷凍水場景下的房間差異。最終保證了實際方案的適應性和整體投資回報率。62數(shù)據(jù)中心自適應AI節(jié)能技術白皮書 ODCC-2023-02009算法設計AI據(jù)并進

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論