2021機器學(xué)習(xí)在電力行業(yè)的應(yīng)用和展望_第1頁
2021機器學(xué)習(xí)在電力行業(yè)的應(yīng)用和展望_第2頁
2021機器學(xué)習(xí)在電力行業(yè)的應(yīng)用和展望_第3頁
2021機器學(xué)習(xí)在電力行業(yè)的應(yīng)用和展望_第4頁
2021機器學(xué)習(xí)在電力行業(yè)的應(yīng)用和展望_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

機器學(xué)習(xí)在電力行業(yè)的應(yīng)用和展望0引言近年來世界能源結(jié)構(gòu)正發(fā)生深刻變革并向著清潔替代和電能替代為主要內(nèi)容的兩個替代”逐漸轉(zhuǎn)變。在此背景下能源互聯(lián)網(wǎng)y互聯(lián)網(wǎng)+智能電網(wǎng)+智聯(lián)網(wǎng)等一系列能源與電力發(fā)展理念被相繼提出促進了能源與電力系統(tǒng)y的快速發(fā)展。作為當前最具顛覆性的技術(shù)新一代人工智能結(jié)合大數(shù)據(jù)超級計算等新理論新技術(shù)正深刻影響和改變整個世界的電力與能源產(chǎn)業(yè)并在涵蓋智能電網(wǎng)與的中發(fā)揮巨大潛力將驅(qū)動電力能源和信息產(chǎn)業(yè)的深度融合,形——的開啟未來基于工業(yè)能源和智能電網(wǎng)+的智慧新時代。在上述發(fā)展過程中知識自動化是傳統(tǒng)向未來轉(zhuǎn)變的一個關(guān)鍵技術(shù)其核心要義是人工智能主要體現(xiàn)為硬件即插即用和軟件定義的知識自動化。隨著的出現(xiàn)并進化到o]和

使得其中的深度強化學(xué)習(xí)p作為0代表在無需先驗知識降低資源消耗提高訓(xùn)練速度等方面取得了可喜進步為的發(fā)展提供了重要機遇和強勁動力。當前國外紛紛制定發(fā)展計劃以搶占新一輪科技變革的先機。在中國新一代已上升為國家發(fā)展戰(zhàn)略。國家電網(wǎng)有限公司啟動編制新一代電力系統(tǒng)技術(shù)研究框架其中將列為基礎(chǔ)性支撐技術(shù)并在電網(wǎng)領(lǐng)域相繼開展了應(yīng)用的可行性和關(guān)鍵技術(shù)研究。由上述可見發(fā)展在中國具備良好基礎(chǔ)未來在領(lǐng)域?qū)⒋笥杏梦渲?。基于此本文以中的機器學(xué)習(xí)e為例對其在及調(diào)度優(yōu)化和控制決策中的應(yīng)用進行綜述研究。1新一代的內(nèi)涵與概述的起源與歷史簡述是什么?一般認為是研究開發(fā)用于模擬延伸和擴展人的智能的理論方法技術(shù)及應(yīng)用系統(tǒng)的一門集控制論信息論計算機科學(xué)數(shù)理邏輯神經(jīng)生理學(xué)等學(xué)科于一體的新興交叉學(xué)科,其終極目標是讓計算機能像人一樣思考和行動并進一步提升人的智能。的發(fā)展經(jīng)歷了個階段其中第一階段年概念被提出并得到了初步發(fā)展第二階段年中的專家系統(tǒng)發(fā)展迅速并開始轉(zhuǎn)向?qū)嵱玫谌A段世紀末至今迎來大爆發(fā)人類在上開始取得一系列頂尖研究成果如各國也紛紛提出國家發(fā)展戰(zhàn)略。關(guān)于這三個階段的詳細描述參見附錄A第節(jié)。新一代的內(nèi)涵在移動互聯(lián)網(wǎng)大數(shù)據(jù)超級計算傳感網(wǎng)腦科學(xué)等新理論新技術(shù)的驅(qū)動下新一代即加速發(fā)展并呈現(xiàn)出深度學(xué)習(xí)、跨界融合人機協(xié)同群智開放自主操控等以應(yīng)用為導(dǎo)向的新特征正在對經(jīng)濟發(fā)展社會進步國際政治經(jīng)濟格局等方面產(chǎn)生重大而深遠的影響。在0內(nèi)涵中海量數(shù)據(jù)資源超常計算能力核心算法模型將是推動其發(fā)展的三大關(guān)鍵要素將驅(qū)使其從計算智能向更高層的感知認知智能發(fā)展并推動通用技術(shù)發(fā)展及產(chǎn)品大規(guī)模應(yīng)用?;谠朴嬎愫痛髷?shù)據(jù)兩大基礎(chǔ)平臺將從模式識別等智能傳感器機制造系統(tǒng)駕駛算法模型機器感知如文本識別計算機視覺自然語言處理等人機混合增強智能計算智能如進化計算等符號智能如專家系統(tǒng)等等主要技術(shù)應(yīng)用領(lǐng)域取得新突破其研究分支參見附錄A第節(jié)。3L是一個算法范疇其本質(zhì)是找到一個目標函數(shù)f使其成為輸入變量X到輸出變量Y之間的最佳映射YfX。算法主要分四大類:有監(jiān)督式學(xué)習(xí)無監(jiān)督學(xué)習(xí)半監(jiān)督式學(xué)習(xí)和強化學(xué)習(xí)。其中有監(jiān)督式學(xué)習(xí)需要標識數(shù)據(jù)無監(jiān)督學(xué)習(xí)不需要任何標識數(shù)據(jù)半監(jiān)督式學(xué)習(xí)介于前兩者之間有部分標識數(shù)據(jù)無需監(jiān)督信號可在模型未知的環(huán)境中平衡探索和利用。其中常用的算法有線性回歸邏輯回歸、反向傳遞神經(jīng)網(wǎng)絡(luò)算法t算法均值圖論推理算法支持向量機線性判別分析樸素貝葉斯-最近鄰聚類算法奇異值分解矩陣分解降維算法如決策樹隨機森林最小二乘法主成分分析法等梯度提高和演算法-學(xué)習(xí)時間差分學(xué)習(xí)-學(xué)習(xí)、集成算法如隨機森林和,等人工神經(jīng)網(wǎng)絡(luò)如等。在電力系統(tǒng)領(lǐng)域世紀年代曾在和模糊

集等早期的應(yīng)用方面掀起一個研究熱潮。近年來有關(guān)學(xué)者陸續(xù)提出了平行學(xué)習(xí)l混合學(xué)習(xí)d,對抗學(xué)習(xí)]等新的理論框架并引入中??梢灶A(yù)見的是將是0發(fā)展的關(guān)鍵技術(shù)和核心創(chuàng)造力,將起到主要的推動作用??偟膩碚f主要分為五大流派即符號主義貝葉斯派聯(lián)結(jié)主義進化主義和行為類比主義詳情參見附錄節(jié)表??梢钥闯銮懊妫磦€流派從不同側(cè)面抓住了智能的部分特征在制造方面都取得了里程碑式的成就?;诖耸軉l(fā)本文以0中為代表尤其以算法技術(shù)和框架為典型代表并結(jié)合筆者及所在團隊在領(lǐng)域十余年的研究經(jīng)驗選取其中發(fā)展迅速的,遷移學(xué)習(xí)和集成學(xué)習(xí)等在涵蓋及的中的應(yīng)用進行綜述研究。需說明的是限于研究視野筆者無法一一涵蓋各類方法最終選取上述7類具有典型代表性的算法技術(shù)和框架并從運行調(diào)度優(yōu)化控制管理市場等方面出發(fā)描述它們在領(lǐng)域的研究現(xiàn)狀。為此附錄A第節(jié)表簡要總結(jié)了上述7類方法在等主要領(lǐng)域中的研究進展包括相關(guān)算法、技術(shù)和架構(gòu)優(yōu)勢和缺點領(lǐng)域主要應(yīng)用場景其他領(lǐng)域主要應(yīng)用場景未來發(fā)展趨勢含領(lǐng)域涉及相關(guān)文獻和在領(lǐng)域的應(yīng)用程度五星表示應(yīng)用的程度最高。后文以附錄A表為基礎(chǔ)對上述7類方法在領(lǐng)域中的研究現(xiàn)狀進行詳細展開。2RL原理及應(yīng)用原理屬于中一個重要的研究領(lǐng)域與有監(jiān)督式學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相比屬于主動學(xué)習(xí)的一種即本質(zhì)上是一種在環(huán)境中審時度勢地學(xué)習(xí)策略的過程強調(diào)如何基于狀態(tài)而行動以取得最大化的預(yù)期收益其特點詳見附錄A表具體細節(jié)見附錄A第節(jié)。近年來以馬爾可夫決策過程為嚴格數(shù)學(xué)基礎(chǔ)的算法成為領(lǐng)域一個新的突破其中eo時間差分策略梯度-學(xué)習(xí)-學(xué)習(xí)和自適應(yīng)動態(tài)規(guī)劃等]經(jīng)典算法被國內(nèi)外學(xué)者陸續(xù)引入領(lǐng)域中并日益受到國際和智能控制學(xué)術(shù)界的重視。在安全穩(wěn)定控制自動發(fā)電控制電壓無功優(yōu)化控制最優(yōu)潮流控制供需互動電力市場電力信息網(wǎng)絡(luò)等方面的研究和應(yīng)用頗多詳見附錄A尤其在電力系統(tǒng)調(diào)度控制決策中頗具潛力。在領(lǐng)域中的應(yīng)用安全穩(wěn)定控制方法只需對當前控制效果的評價信息做出反應(yīng)具有更高的控制實時性和魯棒性因而在電力系統(tǒng)安全穩(wěn)定控制中得到應(yīng)用。為此文獻]將算法應(yīng)用于靜止同步補償電壓控制器可在一定程度上確保系統(tǒng)的安全穩(wěn)定運行;基于理論等構(gòu)想一種電力系統(tǒng)穩(wěn)定控制框架包含了方法的在線和離線兩種控制模式。在此基礎(chǔ)上文獻將其中的離線控制模式應(yīng)用于動態(tài)電氣制動控制器的設(shè)計文獻對其中的在線控制模式進行了深入研究提出了一種控制v函數(shù)與算法相結(jié)合的穩(wěn)定控制方法可實現(xiàn)滿足約束的穩(wěn)定區(qū)域內(nèi)的優(yōu)化控制。此外文獻基于算法分別設(shè)計了直流附加阻尼控制器動態(tài)正交增壓器靜止無功補償器電力系統(tǒng)穩(wěn)定器等電力系統(tǒng)安全穩(wěn)定裝置具有良好的適應(yīng)性穩(wěn)定性和優(yōu)化控制特性。上面提到的是目前使用最為廣泛的抑制系統(tǒng)低頻振蕩的措施之一。為此文獻研究了基于Q學(xué)習(xí)算法的最優(yōu)控制策略利用多步的經(jīng)驗來進行尋優(yōu)在收斂速度上優(yōu)于經(jīng)典學(xué)習(xí)。另外還可將基于多步回溯的Q學(xué)習(xí)算法用于的最優(yōu)控制。近年來相關(guān)學(xué)者將相結(jié)合形成用于電網(wǎng)的安全穩(wěn)定控制,如文獻提出了一種基于的電網(wǎng)切機控制策略可依據(jù)電網(wǎng)運行環(huán)境信息通過Q值大小得到切機控制策略。此外從分析評估電力系統(tǒng)脆弱性的各種因素出發(fā)文獻基于多系統(tǒng)中各t之間交互式協(xié)作學(xué)習(xí)共同制定最優(yōu)控制決策構(gòu)建了一種新型戰(zhàn)略電力基礎(chǔ)設(shè)施防御系統(tǒng)與傳統(tǒng)集控系統(tǒng)相比魯棒性開放性和靈活性顯著提高。2C在中互聯(lián)電網(wǎng)是一個動態(tài)的多級決策問題其控制過程可視為以最終實現(xiàn)全系統(tǒng)內(nèi)發(fā)電出力和負荷功率相匹配。為此基于馬爾可夫鏈控制過程文獻采用模型無關(guān)的-學(xué)

習(xí)控制算法對電力系統(tǒng)的負荷頻率控制進行了研究可快速自動地在線優(yōu)化控制系統(tǒng)的輸出文獻將分層相關(guān)均衡算法引入互聯(lián)電網(wǎng)的控制性能標準指令優(yōu)化分配有效解決了指令分配過程中的維數(shù)災(zāi)問題。文獻則將方法引入水火混雜系統(tǒng)中針對水輪機系統(tǒng)的非線性特點將環(huán)境知識轉(zhuǎn)化成算法的先驗知識用以加快的調(diào)整速度。在互聯(lián)電網(wǎng)的隨機最優(yōu)控制中同樣可應(yīng)用算法如基于平均報酬模型的全過程R學(xué)習(xí)和在策略算法,而具有先驗知識的學(xué)習(xí)算法則在中應(yīng)用得最為廣泛。近年來有關(guān)學(xué)者將多和算法用于互聯(lián)大規(guī)模電網(wǎng)的提出了一種基于時間隧道思想的多算法用于解決新能源大規(guī)模接入后互聯(lián)電網(wǎng)的問題文獻則提出了一種具有動作自尋優(yōu)能力的算法用于解決新能源以及分布式能源大規(guī)模并網(wǎng)后給帶來的隨機擾動問題具有較強的魯棒性及學(xué)習(xí)能力。此外還可與多目標優(yōu)化策略相結(jié)合用于解決問題其中-學(xué)習(xí)與相結(jié)合可形成深度-學(xué)習(xí)用于強魯棒性智能發(fā)電控制器的設(shè)計。有關(guān)學(xué)者還將中的R學(xué)習(xí)用于孤島微電網(wǎng)的??偟膩碚f在互聯(lián)大電網(wǎng)的中引入機制可將性能指標轉(zhuǎn)化為強化信號反饋給系統(tǒng)能夠有效實現(xiàn)功率調(diào)節(jié)指令的在線優(yōu)化。電壓無功優(yōu)化控制和最優(yōu)潮流控制在電力系統(tǒng)電壓無功控制中控制方法具有常規(guī)控制方法所不具備的自學(xué)習(xí)和實時性等特點因而非常適合解決問題。為此以最小化分區(qū)內(nèi)主導(dǎo)節(jié)點電壓偏差和發(fā)電機無功出力比例的方差為目標文獻提出了求解多目標協(xié)調(diào)二級電壓控制的簡化方法可加快獎勵值的傳播速度針對地區(qū)電網(wǎng)文獻提出采用-學(xué)習(xí)算法在動作策略與電網(wǎng)狀態(tài)的交互中不斷學(xué)習(xí)以得到各狀態(tài)—動作對所對應(yīng)的Q值函數(shù)形成電網(wǎng)各種運行狀態(tài)下最佳的策略。文獻則針對暫態(tài)電壓緊急控制問題提出了一種多目標求解的方法。近年來基于相關(guān)均衡的協(xié)同算法基于的一致性算法多主體和文化進化算法遷移算法等陸續(xù)用于多區(qū)域和碳能復(fù)合流無功優(yōu)化。隨著與各類啟發(fā)式群智能算法如粒子群優(yōu)化和遺傳算法多t系統(tǒng)等結(jié)合在電壓無功優(yōu)化控制決策中將發(fā)揮重要作用。此外在最優(yōu)潮流控制中克服了傳統(tǒng)的最優(yōu)化算法在面對復(fù)雜非線性描述的多目標最優(yōu)潮流時無法滿足電力系統(tǒng)實時調(diào)度運行這一缺點其不依賴于對象模型將問題中的約束動作和目標轉(zhuǎn)換成算法中的狀態(tài)動作與獎勵并通過不斷的試錯回溯迭代等來動態(tài)尋找最優(yōu)動作在處理多目標問題時取得了良好的效果具有很強的可行性與有效性。例如文獻中利用基于潮流計算結(jié)果的碳流模型提出了一種基于半的Q學(xué)習(xí)算法用于問題中的電力網(wǎng)絡(luò)的碳排放優(yōu)化控制通過不斷試錯與迭代來動態(tài)尋找最優(yōu)動作策略取得了不錯的效果。其他方面近年來在的應(yīng)用中還可解決一些供需互動電力市場電力信息網(wǎng)絡(luò)經(jīng)濟風(fēng)險調(diào)度等問題。在處理這些問題時理論非常適用于分析含不確定性因素的復(fù)雜系統(tǒng)的動態(tài)行為與約束條件。如在挖掘供給側(cè)發(fā)電機和需求側(cè)柔性負荷的聯(lián)合優(yōu)化調(diào)度方面文獻搭建了基于g博弈的電力系統(tǒng)實時供需互動模型并提出了一種全新的深度遷移算法其借助分布式計算優(yōu)勢可快速獲得高質(zhì)量的最優(yōu)解。在求解包含復(fù)雜的電力市場規(guī)則及其約束的博弈模型方面理論亦發(fā)揮了重要作用如電力市場交易規(guī)則和競標機制的設(shè)計等。為此文獻提出了一種基于算法的電力拍賣市場智能仿真代理模型用來描述發(fā)電廠商的策略性報價行為使得仿真結(jié)果收斂到市場均衡狀態(tài)等則將日前電力市場的拍賣競價過程視為一個競爭型的并應(yīng)用算法為日前市場參與者提供了一種有效的最優(yōu)投標策略h等基于算法對電力批發(fā)市場中參與者的行為特性進行了深入研究。最近文獻通過和數(shù)據(jù)驅(qū)動的方法將整個能源交易的過程建模為以實現(xiàn)間接的客戶對客戶的能源交易這有助于提高市場效率并鼓勵地方一級的電力平衡。在電力信息網(wǎng)絡(luò)方面有關(guān)學(xué)者利用算法搭建了半的入侵檢測系統(tǒng)模型降低了誤報率和漏報率。在風(fēng)險調(diào)度方面算法可用于求解經(jīng)濟調(diào)度中的風(fēng)險評估問題。例如文獻提出了一種基于知識遷移的細菌覓食

優(yōu)化算法用于求解大規(guī)模復(fù)雜電網(wǎng)的風(fēng)險調(diào)度問題并以基于知識延伸的維度縮減方式有效避免了維數(shù)災(zāi)總的來說尤其是與其他算法的結(jié)合中具有廣闊的應(yīng)用前景為具有不確定模型的優(yōu)化控制決策問題提供了有利的分析手段。但大規(guī)模優(yōu)化和控制決策問題時易出現(xiàn)維數(shù)災(zāi)使得可行解探索困難。尤其是當狀態(tài)空間很大時將導(dǎo)致計算成本過高需要與環(huán)境進行大量交互從而獲得反饋用以更新模型學(xué)習(xí)效率其實并不很高。因此近年來很多學(xué)者開始將與多t系統(tǒng)其他方法經(jīng)典控制方法智能控制理論等相結(jié)合已在多t系統(tǒng)協(xié)商學(xué)習(xí)分布式發(fā)電系統(tǒng)與微電網(wǎng)多能源綜合系統(tǒng)電力系統(tǒng)控制負荷預(yù)測與負荷調(diào)度繼電保護等領(lǐng)域開展了深入研究。理論的決策和自學(xué)習(xí)特性與其他方法可有效集成的特性以及在線學(xué)習(xí)技術(shù)等將有利于其在應(yīng)用領(lǐng)域的進一步發(fā)展。3DL原理及應(yīng)用原理本質(zhì)上是具有多層隱藏層的神經(jīng)網(wǎng)絡(luò)事實上4層以上的神經(jīng)網(wǎng)絡(luò)就可稱之是一種特定類型的典型其基本思想是通過多層的網(wǎng)絡(luò)結(jié)構(gòu)和非線性變換組合低層特征,形成抽象的易于區(qū)分的高層表示以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。近年來為了改善深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效果降低的優(yōu)化難度一些特有的模型和框架被相繼提出如堆疊自動編碼器深度信念網(wǎng)絡(luò)遞歸神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)深度森林超深度學(xué)習(xí)等詳見附錄A第節(jié)。在領(lǐng)域中的應(yīng)用電力系統(tǒng)中存在著大量高維度的電力數(shù)據(jù)因此的理論具有一定的現(xiàn)實意義。目前在領(lǐng)域中的研究與應(yīng)用已初現(xiàn)端倪其中應(yīng)用較為經(jīng)典的網(wǎng)絡(luò)模型包括,主要應(yīng)用領(lǐng)域則涵蓋電力設(shè)備如發(fā)電機變壓器斷路器等的故障診斷電力系統(tǒng)暫態(tài)穩(wěn)定評估電力大數(shù)據(jù)融合與異常檢測、短期電力負荷預(yù)測電力設(shè)備圖像識別電力信息網(wǎng)入侵檢測等。例如e等結(jié)合天氣預(yù)報數(shù)值模擬采用技術(shù)對能源消耗和發(fā)電量進行預(yù)測并利用中的玻爾茲曼機算法作為優(yōu)化工具平臺來求解非線性混合整數(shù)規(guī)劃)問題取得了不錯的效果u等采用兩種不同對需求側(cè)的短期負荷預(yù)測進行建模其中含無監(jiān)督預(yù)訓(xùn)練的模型取得了較好的預(yù)測結(jié)果和訓(xùn)練速度。此外面向智能發(fā)電的功率預(yù)測文獻]分別利用改進深度等進行風(fēng)電光伏功率的短期預(yù)測有效提高了預(yù)測精度。面向智能輸電系統(tǒng)的分析與控制文獻提出了一種堆疊降噪自編碼器和集成模型相結(jié)合的暫態(tài)穩(wěn)定評估與嚴重度分級方法。面向智能輸電系統(tǒng)的一次設(shè)備文獻采用可有效識別高壓電纜等一次設(shè)備的局部放電模式。文獻則分別將中的和應(yīng)用于變壓器和高壓斷路器的故障診斷準確率得到了有效提升。近年來逐漸與其他方法結(jié)合形成了功能更強的高級混合算法并已在領(lǐng)域中得到了初步應(yīng)用。例如文獻將與結(jié)合開發(fā)了一種算法用于求解供給側(cè)發(fā)電機和需求側(cè)柔性負荷的聯(lián)合優(yōu)化調(diào)度問題近年來隨著新能源發(fā)電電動汽車儲能等大量接入包含高維復(fù)雜耦合關(guān)系的電力系統(tǒng)問題日益突出并亟待解決。為此清華大學(xué)吳文傳教授等從系統(tǒng)的角度對領(lǐng)域中具有多模態(tài)自適應(yīng)學(xué)習(xí)特征的方法體系進行探索提出了電力腦的概念包括自上而下的電力腦認知計算結(jié)構(gòu)和交互反饋的自適應(yīng)學(xué)習(xí)模式,以及-引導(dǎo)學(xué)習(xí)相結(jié)合的基礎(chǔ)學(xué)習(xí)算法單元其核心特征在于用領(lǐng)域知識保證結(jié)果可行用數(shù)據(jù)驅(qū)動提升精度與性能。此外與中的經(jīng)典學(xué)習(xí)等相結(jié)合形成的在電網(wǎng)緊急控制策略制定解決大規(guī)模互聯(lián)電網(wǎng)問題智能發(fā)電控制器設(shè)計孤島主動配電網(wǎng)發(fā)電控制與優(yōu)化等方面已有深入的研究和應(yīng)用。在當前大力發(fā)展新能源的背景下結(jié)合在特征提取及模型擬合方面的優(yōu)勢對于解決抑制新能源發(fā)展的問題具有重要意義比如風(fēng)力發(fā)電中的棄風(fēng)率高調(diào)峰能力不足新能源汽車充電樁地點設(shè)置分布不合理等問題利用及與其他相結(jié)合的綜合方法可提供一個科學(xué)的決策方案??傊陬I(lǐng)域中正扮演著極其重要的角色并將引領(lǐng)新變革。例如基于和中龐大海量的用戶用電數(shù)據(jù)可利用在及方面的優(yōu)點對用戶用電行為進行有效分析充分挖掘用戶的用電潛力制定對應(yīng)的用電鼓勵政策進

一步優(yōu)化用戶的用電模式提高電網(wǎng)的收益減少調(diào)峰的壓力等。當然也應(yīng)認識到的缺陷需在實際工程問題中進行改進例如受限于其反饋機制導(dǎo)致學(xué)習(xí)深度有限時而出現(xiàn)梯度彌散現(xiàn)象;進行工程問題研究時算法多為黑箱模型需要復(fù)雜的模型驗證對數(shù)據(jù)的推理和理解能力較弱難以應(yīng)對復(fù)雜的多數(shù)據(jù)模態(tài)建模。如清華大學(xué)張鈸院士在今年召開的大會上所言已遇瓶頸未來發(fā)展不容樂觀將行為特征向量和數(shù)據(jù)符號向量結(jié)合起來使用將始終在科研領(lǐng)域的難點而這也就限制了機器變得更加智能4TL原理及應(yīng)用原理強調(diào)的是在不同但相似的領(lǐng)域任務(wù)和分布之間進行知識的遷移于世紀年代被引入領(lǐng)域早期研究有終生學(xué)習(xí)多任務(wù)學(xué)習(xí)知識遷移等。關(guān)于原理的詳細描述及其算法分類參見附錄A第節(jié)。在領(lǐng)域中的應(yīng)用在領(lǐng)域經(jīng)常會遇到機組組合經(jīng)濟調(diào)度無功優(yōu)化等高維非線性規(guī)劃問題問題解決這類問題的方法除了傳統(tǒng)優(yōu)化方法如內(nèi)點法等還包括基于概率搜索的啟發(fā)式群智能算法即算法包括,等。在求解過程中作為一種近年來受到廣泛關(guān)注和研究的學(xué)習(xí)框架旨在根據(jù)任務(wù)間的相似性利用在輔助領(lǐng)域過去所學(xué)習(xí)到的經(jīng)驗知識或策略和結(jié)果應(yīng)用到相似但不相同的目標領(lǐng)域中進行學(xué)習(xí)復(fù)用已有經(jīng)驗以加速新任務(wù)的學(xué)習(xí)速度有效提高新任務(wù)的學(xué)習(xí)效率和算法的收斂性?;诖宋墨I將中的算法用于高滲透率可再生能源和的大型互聯(lián)電網(wǎng)的互補發(fā)電控制在實際電網(wǎng)算例中針對的多層取得了不錯的效果。文獻則提出了一種遷移蜂群優(yōu)化算法主要采用源任務(wù)和新任務(wù)的狀態(tài)—動作空間轉(zhuǎn)換作為蜂群的行為遷移用于解決大規(guī)模復(fù)雜電力系統(tǒng)的無功優(yōu)化問題。此外與一些方法及上述提到的啟發(fā)式算法結(jié)合用于解決大規(guī)模復(fù)雜系統(tǒng)的快速尋優(yōu)問題成為中近年來研究的熱點。相比傳算法的好處在于可根據(jù)不同優(yōu)化任務(wù)之間的相似性高效利用已學(xué)習(xí)的知識來加速新優(yōu)化任務(wù)的學(xué)習(xí)極大提高了算法的收斂性并可有效解決傳統(tǒng)面臨的維數(shù)災(zāi)問題。因此在電力系統(tǒng)應(yīng)用越趨成熟其算法體系]如圖1所示。圖1電力系統(tǒng)算法體系1ms在領(lǐng)域已在無功優(yōu)化短期電力

5PL原理及應(yīng)用原理年1月中科院自動化研究所王飛躍教授等提出了一個新型的理論框架即平行學(xué)習(xí)可實現(xiàn)虛實互動的平行智能?;谄叫邢到y(tǒng)理論大致可分為數(shù)據(jù)處理eⅠ和行動學(xué)習(xí)eⅡ兩個互相耦合關(guān)聯(lián)的階段如附錄所示是一個把小數(shù)據(jù)炒成大數(shù)據(jù)再把大數(shù)據(jù)提煉成解決具體問題的精準知識的小智能的過程即小數(shù)據(jù)大定律到大數(shù)據(jù)小定律的過程即從牛頓定律到默頓定律的升華使得從已知訓(xùn)練樣本集有限小數(shù)據(jù))走向了自我探索獲取海量假想訓(xùn)練樣本無限大數(shù)負荷預(yù)測短期風(fēng)速預(yù)測碳能復(fù)合流分散優(yōu)

據(jù)的時代這也是

超越人類智力的分水嶺?;?jīng)濟風(fēng)險調(diào)度孤島微電網(wǎng)源—荷協(xié)同頻

近期王飛躍等將上述

的決策能力進行有率控制等方面得到了初步應(yīng)用。此外文獻]算法結(jié)合用于集群風(fēng)電場并網(wǎng)的區(qū)域無功電壓控制文獻則將與一致性算法、學(xué)習(xí)算法等結(jié)合形成一致性遷移學(xué)習(xí)算法用于虛擬發(fā)電部落的分散功率動態(tài)指令分配達到了分散自治集中協(xié)調(diào)的效果。在領(lǐng)域相關(guān)學(xué)者已將與啟發(fā)式算法算法結(jié)合形成更高級的算法用于多能源系統(tǒng)的聯(lián)合優(yōu)化調(diào)度電力系統(tǒng)供需互動實時調(diào)度電力系統(tǒng)分散式最優(yōu)碳能復(fù)合流優(yōu)化含風(fēng)—光—車的功率指令動態(tài)分配經(jīng)濟風(fēng)險調(diào)度]等方面取得了不錯的效果。近年來有關(guān)學(xué)者還嘗試將結(jié)合用來訓(xùn)練深度策略網(wǎng)絡(luò)。例如在深度學(xué)習(xí)網(wǎng)絡(luò)中引入來加快收斂速度以提高學(xué)習(xí)性能??偟膩碚f對于領(lǐng)域中不連續(xù)可微含多極值多約束的凸或非凸的問題引入能夠?qū)v史優(yōu)化任務(wù)的有效信息轉(zhuǎn)化到值函數(shù)中從而實現(xiàn)快速的在線優(yōu)化。而將與其他和算法結(jié)合則可構(gòu)成更高級的級聯(lián)式算法對求解問題具有很好的適應(yīng)性具有優(yōu)化效果好收斂速度快等優(yōu)勢。當然也并非萬能其在知識遷移過程中出現(xiàn)的小數(shù)據(jù)和個性化問題值得關(guān)注。此外當目標任務(wù)和源任務(wù)的動作空間不相等時導(dǎo)致遷移方式不易實現(xiàn)。在進行工程問題研究時其收斂性證明比較困難且遷移過程中出現(xiàn)的不穩(wěn)定性將無法有效保障算法的遷移能力。

機結(jié)合提出了一種新穎的平行強化學(xué)習(xí)理論框架。關(guān)于及原理的具體細節(jié)描述參見本文附錄A第節(jié)。在領(lǐng)域中的應(yīng)用王飛躍等指出未來將進入工業(yè)時代工業(yè)與人類社會將充分融合形成更為復(fù)雜的信息—物理—社會融合系統(tǒng)即。王飛躍等借助于互聯(lián)網(wǎng)+進一步提出了能源的概念提出可充分將工業(yè)的平行理論和技術(shù)應(yīng)用于能源行業(yè)形成平行能源在上述背景下王飛躍等提出的一系列新型理論框架可以更好地解決數(shù)據(jù)取舍行動選擇等傳統(tǒng)理論不能很好解決的問題如維數(shù)災(zāi)問題。目前已在虛擬場景生成無人駕駛車輛智能測試、社會計算等多個領(lǐng)域得到了較好的應(yīng)用效果。王飛躍教授團隊自年提出平行智能概念年提出工業(yè)與能源構(gòu)想,到年提出平行能源社會能源和M等理念再到年提出平行調(diào)度框架其間相繼與國內(nèi)外多個單位合作將和上述概念構(gòu)想與框架應(yīng)用到領(lǐng)域多個場景中來搭建了和平行能源的調(diào)度優(yōu)化運行控制與智慧管理系統(tǒng)。其中與中國華電集團合作開展了如下研究利用并采用能源理念建設(shè)了分布式能源項目形成了分布式能源系統(tǒng)運行優(yōu)化的智能化解決方案利用和火電發(fā)電框架對某信息程度較好的火力發(fā)電廠進行了智能監(jiān)控和平行管理規(guī)劃能很好地引導(dǎo)實際系統(tǒng)按優(yōu)化方式運行。此外基于搭建的平行系統(tǒng)還可對智能家居的能源系統(tǒng)進行設(shè)計和運行管理。進一步基于生活習(xí)慣的大數(shù)據(jù)分析可提供能效分析和建議個性化電價節(jié)能方案等。近年來基于人工電力系統(tǒng)的建模理念]和運行于區(qū)塊鏈上的智能分布式電力能源系統(tǒng)理念王飛躍等從法即人工系統(tǒng)計算實驗和平行執(zhí)行其核心技術(shù)之一為)核心思想出發(fā)相繼提出了平行能源和社會能

源的概念認為可從社會中挖掘”能源并進一步將引入大規(guī)模復(fù)雜電力系統(tǒng)的調(diào)度中提出了平行調(diào)度的概念和框架為電力系統(tǒng)的調(diào)度提供了一個新范式如圖所示。此外王飛躍等將結(jié)合提出了一種全新的理論框架并用于制定混合動力車輛的自適應(yīng)能量管理策略其計算速度和控制效果都遠優(yōu)于傳統(tǒng)的方法。圖2電力系統(tǒng)調(diào)度的框架2mh可見已在的應(yīng)用中初見端倪。未來在工業(yè)和能源背景下結(jié)合平行智能平行能源和社會能源等理念在綜合能源系統(tǒng)M建設(shè)調(diào)度機器人開發(fā)、平行調(diào)度研究人工電力系統(tǒng)搭建基于區(qū)塊鏈技術(shù)的智能分布式電力能源系統(tǒng)建?;诤四艿钠叫泻穗娤到y(tǒng)仿真等方面將具有很大應(yīng)用潛力期待取得突破性進展??傊谀D定律融合了預(yù)測學(xué)習(xí)和指示學(xué)習(xí)的可以很好地解決傳統(tǒng)理論不能有效解決的一些問題比如數(shù)據(jù)取舍行動選擇等。但由于近年來才提出其很多細節(jié)之處尚需完備的理論證明。此外應(yīng)用方法研究實際工程問題時往往需要通過構(gòu)建復(fù)雜的平

行系統(tǒng)來產(chǎn)生海量的訓(xùn)練樣本供機器進行學(xué)習(xí)對于研究人員來說是個不小的挑戰(zhàn)。6HL原理及應(yīng)用原理表示將至少兩種優(yōu)勢互補的方法集成或綜合為一種性能更強的。的典型代表是其基本原理和發(fā)展過程參見附錄A第節(jié)。此外利用每種算法自身優(yōu)勢將與結(jié)合形成將與算法如蜂群優(yōu)化算法)結(jié)合形成遷移蜂群優(yōu)化算法將與結(jié)合形成深度算法將與-學(xué)習(xí)構(gòu)成一種新型的算法構(gòu)成一種新型的算法與極限學(xué)習(xí)算法形成極限遷移學(xué)習(xí)算法等算法在涵蓋和的領(lǐng)域中也都取得了不錯的應(yīng)用效果。其中一種應(yīng)用于的新型混合算法的理論框架]如附錄A圖所示。在領(lǐng)域中的應(yīng)用在領(lǐng)域最近幾年呈現(xiàn)飛速的發(fā)展態(tài)勢其基于數(shù)據(jù)驅(qū)動的學(xué)習(xí)方法在提升控制效果和精度方面都展現(xiàn)了巨大的潛能。近年有關(guān)學(xué)者已將及啟發(fā)式搜索算法策略式搜索智能算法等方法進行級聯(lián)組合形成多種高級算法用于和的優(yōu)化和控制中如文獻將與結(jié)合形成具有動作自尋優(yōu)能力的用于求解新能源及分布式能源大規(guī)模并網(wǎng)所帶來的隨機擾動問題可有效提高電網(wǎng)的安全和經(jīng)濟運行文獻將多目標優(yōu)化策略與理論結(jié)合用于求解大規(guī)?;ヂ?lián)電網(wǎng)的問題文獻將與-學(xué)習(xí)結(jié)合形成一種算法算法用于對強魯棒性智能發(fā)電控制器的設(shè)計文獻在協(xié)同一致性算法的基礎(chǔ)上將其與學(xué)習(xí)算法結(jié)合形成高級算法用于求解虛擬發(fā)電部落的功率動態(tài)分配問題文獻則將經(jīng)典的啟發(fā)式搜索算法細菌覓食算法與和-學(xué)習(xí)算法結(jié)合形成一種全新的基于知識遷移的算法用于求解在引入風(fēng)險評估后的大規(guī)模電力系統(tǒng)經(jīng)濟調(diào)度問題文獻進一步將附錄A圖所示的一種算法用于孤島主動配電網(wǎng)的一體化智能發(fā)電控制與優(yōu)化具有較強的魯棒性。在所有算法中近年來作為感知”決策結(jié)合形成的一對合已被許多學(xué)者研究并應(yīng)用到領(lǐng)域中來。例如文獻基于電網(wǎng)運行環(huán)境信息和數(shù)據(jù)分析將用于制定緊急狀態(tài)下的電網(wǎng)切機控制策略??偟膩碚f代表了一種混合增強智能其雖可充分發(fā)揮各類算法的優(yōu)勢但也存在可解釋性差算法多為黑箱模型穩(wěn)定性無法有效保證不能很好地應(yīng)用到非問題算法收斂性無法提供嚴格理論證明等缺陷因此,未來領(lǐng)域的研究需著重關(guān)注這些問題。7AL原理及應(yīng)用原理AL是通過構(gòu)造相互競爭的生成器和判別器來

提高學(xué)習(xí)的效率。因此又稱作生成式對抗網(wǎng)絡(luò)el。是一個強大的基于博弈論的生成模型學(xué)習(xí)框架由w于年提出其結(jié)合了生成模型和對抗學(xué)習(xí)思想目前已成為學(xué)界最為重要的研究熱點之一。近年來一些先進的先后被提出其突出的生成能力不僅可用于生成各類圖像和自然語言數(shù)據(jù)還啟發(fā)和推動了各類半監(jiān)督式學(xué)習(xí)和無監(jiān)督學(xué)習(xí)任務(wù)的發(fā)展。關(guān)于的基本原理模型描述和最新進展詳見附錄A第節(jié)。在領(lǐng)域中的應(yīng)用對真實電力系統(tǒng)進行建模往往需要大量的先驗知識因此建模的好壞將直接影響到生成式模型的性能。此外真實電力系統(tǒng)的數(shù)據(jù)往往非常復(fù)雜擬合模型所需計算量往往非常龐大甚至難以承受。為此平行系統(tǒng)和應(yīng)運而生。其中前文提到的新型理論框架中可用平行的人工系統(tǒng)產(chǎn)生大量虛擬的樣本。此外也可利用來構(gòu)造一個x對抗博弈系統(tǒng)來自動產(chǎn)生大量模型仿真數(shù)據(jù)并使用隨機梯度下降)實現(xiàn)優(yōu)化在很大程度上解決了真實環(huán)境樣本小的問題。近年才被提出目前在領(lǐng)域的研究和應(yīng)用鮮有涉及。國外方面g等將用于模型無關(guān)的可再生能源場景生成可產(chǎn)生具有完全多樣化行為特征的風(fēng)能和光伏發(fā)電場景,其中用于場景生成的架構(gòu)如附錄A圖所示。國內(nèi)方面中國電力科學(xué)研究院有限公司和清華大學(xué)等單位研究了基于的異構(gòu)數(shù)據(jù)集成方法及其在智能配用電中的應(yīng)用可解決配電系統(tǒng)異構(gòu)數(shù)據(jù)資源難以有效利用的問題。此外東北大學(xué)孫秋野教授等研究了基于技術(shù)的數(shù)據(jù)—機理混合驅(qū)動方法用于對自能源,模型參數(shù)的辨識可解決在不同運行工況下的模型切換問題以及中輸出序列離散的問題。作為的代表技術(shù)正在領(lǐng)域發(fā)揮著重要作用。提供了一個極具柔性的架構(gòu)配合巧妙的內(nèi)部對抗機制可顯著提升模型設(shè)計的自由度并適應(yīng)于概率密度不可計算的情形的最大優(yōu)勢在于無須對生成分布進行顯式表達可大大降低訓(xùn)練難度并提高訓(xùn)練效率。當然也存在某些缺點最突出的就是訓(xùn)2練過程不穩(wěn)定對多樣性不足和準確性不足的懲罰并不平衡導(dǎo)致模式坍塌現(xiàn)象發(fā)生。未來將在克服模式坍塌方面繼續(xù)提升并設(shè)法與其他模型融合比如融合能量函數(shù)]和的尤其是與的深度融合并用于跨任務(wù)學(xué)習(xí)。這將有力推進在領(lǐng)域中的應(yīng)用發(fā)展。8EL原理及應(yīng)用原理嚴格意義上說并不算一種算法而更像是一種優(yōu)化手段或策略其通常結(jié)合多個簡單的弱算法有策略地生成一些基礎(chǔ)模型然后有策略地將它們集成模型組去更可靠地完成學(xué)習(xí)任務(wù)并做出最終決策。因此又稱為多分類器系統(tǒng)。關(guān)于的基本原理和模型架構(gòu)詳見附錄第節(jié)。在領(lǐng)域中的應(yīng)用適合于靜態(tài)數(shù)據(jù)的集中分類等問題而更為廣義的技術(shù)可應(yīng)用于動態(tài)系統(tǒng)的建模和控制?;诖四壳霸诤w和的領(lǐng)域中的應(yīng)用主要偏向于電網(wǎng)源—荷協(xié)同頻率控制天氣有關(guān)的配電系統(tǒng)斷電事故預(yù)測電力系統(tǒng)安全評估光伏輸出功率短期預(yù)測、短期電力負荷預(yù)測可再生能源消耗預(yù)測短期風(fēng)電爬坡預(yù)測太陽能發(fā)電預(yù)測等??梢钥闯鲈谥兄饕糜陬l率控制和電力系統(tǒng)安全及穩(wěn)定性評估等而在中則主要用于負荷預(yù)測可再生能源消耗和發(fā)電量預(yù)測等。例如文獻中提出了一種基于集體智慧的算法用于孤島微電網(wǎng)下分布式電源與負荷的協(xié)同頻率控制。文獻中利用搭建了由風(fēng)和閃電導(dǎo)致的配電系統(tǒng)停電中斷的預(yù)估模型該模型的核心方法為一種基于g的稱為+具有降低電網(wǎng)運營成本和減少客戶停電時間的潛力預(yù)估準確性明顯高于其他模型??偟膩碚f目前在領(lǐng)域中應(yīng)用較為廣泛主要集中于控制評估和預(yù)測尤其是對新能源消耗和新在領(lǐng)域應(yīng)用的主要難點在于究竟集成哪些獨立的較弱的學(xué)習(xí)模型以及如何把學(xué)習(xí)結(jié)果整合起來。此外對噪聲較為敏感有時陷入局部最優(yōu)出現(xiàn)過擬合和欠擬合現(xiàn)象等也值得關(guān)注。為此,文獻指出可與完美結(jié)合構(gòu)成深度殘差學(xué)習(xí)等網(wǎng)絡(luò)這對于未來

領(lǐng)域問題并提供有效方案具有重要意義。9大數(shù)據(jù)思維下的發(fā)展思考筆者及所在團隊過去十余年一直從事在領(lǐng)域的研究。通過研究筆者發(fā)現(xiàn)在領(lǐng)域應(yīng)用的成功與否與該領(lǐng)域內(nèi)爆炸式增長的電力大數(shù)據(jù)密切相關(guān)這些數(shù)據(jù)樣本的質(zhì)量參差不齊但基于某一目的均可供機器進行不同程度的學(xué)習(xí)。大數(shù)據(jù)具有5個典型特征簡稱:海量多樣時效不精確和價值。在領(lǐng)域電力大數(shù)據(jù)往往存在多源多態(tài)異構(gòu)復(fù)雜高維分布、非確定性指數(shù)級增長等特性導(dǎo)致對這些流數(shù)據(jù)的采集存儲處理知識挖掘和價值應(yīng)用等變得異常困難這也給在該領(lǐng)域的應(yīng)用帶來巨大挑戰(zhàn)。這些挑戰(zhàn)可以從大數(shù)據(jù)的特征出發(fā)進行分析包括海量性挑戰(zhàn)多樣性挑戰(zhàn)時效性挑戰(zhàn)、不精確性挑戰(zhàn)和價值性挑戰(zhàn)。年薛禹勝院士等提出了以電為核心的大能源體系。在該體系下筆者認為可將中的一類監(jiān)督學(xué)習(xí)如統(tǒng)計機器學(xué)習(xí)和等與大數(shù)據(jù)思維如大數(shù)據(jù)挖掘融合形成新的數(shù)據(jù)挖掘技術(shù)。這類技術(shù)突破了傳統(tǒng)的關(guān)聯(lián)關(guān)系描述向著因果關(guān)系發(fā)展和推廣因而在領(lǐng)域中具有廣闊的應(yīng)用前景。比如第節(jié)討論的融合了監(jiān)督式與非監(jiān)督學(xué)習(xí)優(yōu)點在于模型的表達能力極強能夠處理具有高維稀疏特征的數(shù)據(jù)其基于多層隱層的結(jié)構(gòu)可在一定程度上從數(shù)據(jù)中自動提取和理解隱藏的較為抽象的概念其性能已在領(lǐng)域眾多應(yīng)用中得到了驗證而第4節(jié)討論的則突破了統(tǒng)計學(xué)習(xí)理論的基本假定即訓(xùn)練數(shù)據(jù)和未來數(shù)據(jù)必須服從相同的概率分布否則其效果無法保證不要求原始域和目標域的數(shù)據(jù)服從同樣的概率分布甚至可以位于不同的特征空間中因此可以利用服從不同概率分布但相互關(guān)聯(lián)的數(shù)據(jù)樣本集來提高學(xué)習(xí)的精度。因此對于領(lǐng)域而言,數(shù)據(jù)科學(xué)的發(fā)展和進步將極大地驅(qū)動0尤其是在該領(lǐng)域的快速發(fā)展和深層應(yīng)用。未來需要與基于數(shù)學(xué)模型的研究相結(jié)合方能在各個有關(guān)領(lǐng)域取得長足發(fā)展。這也可以看出大數(shù)據(jù)思維下的數(shù)據(jù)挖掘方法與傳統(tǒng)的通過建立人工模型進行推導(dǎo)的研究方法并不矛盾二者反而可以互為補充。當然大數(shù)據(jù)思維下的數(shù)據(jù)挖掘技術(shù)尚處于快速發(fā)展之中與中的研究熱點如、等結(jié)合在研究中前景廣闊大有可為未來值得深入研究。未來展望目前0突破了不能用不好用到可以用的技術(shù)拐點很好用還存在諸多瓶頸。例如①數(shù)據(jù)瓶頸以為例其依賴于大數(shù)據(jù)驅(qū)動發(fā)展需要大量的數(shù)據(jù)訓(xùn)練樣本集。②泛化瓶頸現(xiàn)有方法在一些實際問題中仍無法取得理想的泛化性能訓(xùn)練好的模型用在變化的環(huán)境甚至出現(xiàn)泛化性能明顯下降的現(xiàn)象。③能耗瓶頸現(xiàn)有計算機上實現(xiàn)的系統(tǒng)能耗很高。④語義鴻溝瓶頸目前缺乏真正的語言理解能力⑤可解釋性瓶頸現(xiàn)有過于依賴訓(xùn)練數(shù)據(jù)缺乏深層次數(shù)據(jù)語義挖掘?qū)е驴山忉屝圆睢?煽啃云款i現(xiàn)有系統(tǒng)可靠性較差某些錯誤識別結(jié)果可能會帶來致命后果。中國科學(xué)院院士張鈸教授在年6月于深圳召開的大會上提出未來必須走向具有理解力的即真正的針對缺陷張院士提出了探索的幾個新方向一是數(shù)據(jù)處理層面語義向量空間或進一步拓寬入口為機器建立常識庫二是在常識庫的基礎(chǔ)上,將感性和知識的世界統(tǒng)一起來這將為的發(fā)展帶來一次質(zhì)的飛躍??偟膩碚f誠如眾多院士專家所言0已到瓶頸其未來發(fā)展不容樂觀。未來可解釋性和可理解性等在理論研究方面仍將任重道遠。是為了解決知識獲取的瓶頸問題而出現(xiàn)的數(shù)據(jù)和模型對于0發(fā)展遇到的瓶頸也是未來發(fā)展所必須面對的。當前大多數(shù)系統(tǒng)都是黑箱導(dǎo)致即使利用做出非常準確的預(yù)測但很難解釋為什么會做出這樣的預(yù)測這使得很難用于一些高風(fēng)險應(yīng)用場景。此外數(shù)據(jù)隱私和所有權(quán)等問題也會阻止經(jīng)驗得到有效分享。如何有效利用的運行機理及其數(shù)據(jù)源通過合適的技術(shù)來處理系統(tǒng)的各種復(fù)雜任務(wù)以實現(xiàn)整個系統(tǒng)的安全可靠經(jīng)濟環(huán)保運行成為當前國內(nèi)外的熱點研究問題。為了充分挖掘的能力文獻]指需要在電力工程實踐科研機制和生產(chǎn)管理需求方面適應(yīng)電力系統(tǒng)的需求在這個過程中關(guān)鍵點之一就是將領(lǐng)域知識和專家經(jīng)驗整合到中即開發(fā)嵌入專業(yè)知識的方法稱為引導(dǎo)學(xué)

習(xí)其主要特點是結(jié)合了領(lǐng)域知識經(jīng)驗和提供了一種知識分析與數(shù)據(jù)挖掘相融合的范式為人類機器協(xié)同混合增強智能的實現(xiàn)機理和電力知識資產(chǎn)傳承管理提供了一條可行的路線??傊M管在當前的領(lǐng)域的應(yīng)用還存在諸多瓶頸但其潛力和價值是無窮的。在大能源思維和大數(shù)據(jù)思維下未來通用的終極算法是有可能誕生的它將是大數(shù)據(jù)挖掘技術(shù)和多源數(shù)據(jù)融合思想的充分利用多種方式的深度交叉融合機器的情感和記憶推理等高級智能。例如通過引入具有群體智慧的平行建立虛擬的平行實現(xiàn)平行能源與社會能源的理念以及平行調(diào)度的構(gòu)想。從能源區(qū)塊鏈y]到智慧能源t未來基于新一代技術(shù)建立的平行能源互聯(lián)網(wǎng)將是基于平行系統(tǒng)理論在互聯(lián)網(wǎng)數(shù)據(jù)信息互聯(lián)物聯(lián)網(wǎng)感知控制互聯(lián)能源要素互聯(lián)的基礎(chǔ)上,實現(xiàn)知識智能互聯(lián)的能源智聯(lián)網(wǎng)y即信息—物理—社會深度融合系統(tǒng)。因此,通過基于深度特征識別和加裝存儲記憶推理模塊的等各種學(xué)習(xí)方式的交叉融合新一代數(shù)據(jù)驅(qū)動的智慧未來將有可能實現(xiàn)最終將會走向工業(yè)和能源發(fā)展的新時代。結(jié)語新的智能全球化將要來臨未來打造的是有可能的其必將運用更多的新一代技術(shù)其中的主要代表之一方法具備核心驅(qū)動力和創(chuàng)造力將在中發(fā)揮重要作用。本文綜述了7類典型方法在領(lǐng)域的應(yīng)用現(xiàn)狀。事實上筆者目前在領(lǐng)域已建立了較為完整的算法庫如附錄A第節(jié)所示。本文拋磚引玉旨在引起業(yè)內(nèi)專家學(xué)者的興趣期待在理論方法和技術(shù)研究及應(yīng)用實踐方面共同推進新中的技術(shù)在未來智慧中的蓬勃發(fā)展!附錄A3第一階段(1950~1960)AI的概念,(Symbolism)1956年,達特茅斯會議首次提出了“AIAI這門新興學(xué)科的正式誕生,科學(xué)家發(fā)明了多種具有重大影響的算法,如強化學(xué)習(xí)模型的雛形——貝爾曼公式(BellmanEquation)。除在算法和方法論STUDENT(1964),ELIZA(1966)1974~19805AI對于超出范圍的任務(wù)無法應(yīng)對,智能水平較為低級,局限性較為突出。與此同時,聯(lián)接主義蓬勃發(fā)展。第二階段(1980~2000)中包括著名的多層神經(jīng)網(wǎng)絡(luò)(1986)和BP反向傳播算法5月,IBM公司研制的深藍(DeepBlue)計算機首次戰(zhàn)勝了國際象棋大KasparovAI專家系統(tǒng)逐也漸淡出人們的視野,人工智能硬件市場出現(xiàn)明顯萎縮,AI又一次進入低谷期。第三階段(20世紀末至今(AI2.0)AI2006年開始[5],AI在很多應(yīng)用領(lǐng)域取得了突破性進展,迎來了又一個繁榮期。2016AIDeepMind開AlphaGo[9]4:1LeeSedol60AI取得了突破性發(fā)展;2017年可看I5月,AlphaGo3:0AlphaGo[9]AlphaGoMaster、AlphaGoZero[10]AlphaZero[11]等版本,其訓(xùn)練和運行速度更快、AlphaZero為例,其完全無需人工特征、無需任何人類棋譜、甚至無需任何RL算法、只需要幾小時的訓(xùn)練時間就可以超越此前最好的算法甚至人類世界冠軍,這AI上所取得的頂尖研究成果。愈加海量 持續(xù)提升 不斷優(yōu)化的化的數(shù)據(jù) 的運算力 算法模型三大核心驅(qū)動力.愈加海量 持續(xù)提升 不斷優(yōu)化的化的數(shù)據(jù) 的運算力 算法模型三大核心驅(qū)動力..符號學(xué)習(xí)專家系統(tǒng)不確定性推理語音/圖像識別 免疫計計算機視覺 進化計機器人學(xué) 神經(jīng)計算成長性技術(shù)膠囊網(wǎng)絡(luò)云端人工智能深度強化學(xué)習(xí)智能腦機交互AI情感智能元學(xué)習(xí)AI技術(shù)經(jīng)網(wǎng)絡(luò).符號智能機器人/專家系統(tǒng)計算智能機器學(xué)習(xí)知識表達..推薦系統(tǒng)無/集成學(xué)習(xí)深度學(xué)習(xí)強化學(xué)習(xí)統(tǒng)計學(xué)習(xí)遷移學(xué)習(xí)平行學(xué)習(xí)對抗學(xué)習(xí)歸納/統(tǒng)計學(xué)習(xí)度量學(xué)習(xí)/模式識別/……回歸/分類/BaggingStackingCNNs/…DRL/D-ADP/…DTRL/TBO/…預(yù)測/平行系統(tǒng)GAN啟發(fā)式SI計算自然語言處理圖搜索圖A1目前人工智能的研究分支情況Fig.A1ResearchbranchesofcurrentAItechnologies表A1ML發(fā)展過程中形成的五大流派TableA1ThefivetribesofMLinitshistoricaldevelopment流派 起源 核心思想 研究問題代表性算法代表性應(yīng)用 代表性人物符號主義貝葉斯

學(xué)

認知即計算,通過對符號的演繹和逆演繹進行結(jié)果預(yù)測主觀概率估計,發(fā)生概率修正,

知識結(jié)構(gòu)逆演繹算法 知識圖譜反垃圾郵

Mitchell、SteveMuggleton、RossDavidHeckerman、Judea派聯(lián)結(jié)主

統(tǒng)計學(xué)

最優(yōu)決策

不確定性概率推理反向傳播算

Pearl、MichaelJordanYannLeCun、Geoff神經(jīng)科學(xué) 對大腦進行仿真 信度分義

法、深度學(xué)習(xí)

語音識別

Hinton、YoshuaBengio進化主義行為類

進化生物學(xué)

對進化進行模擬,使用遺傳算法和遺傳編程

結(jié)構(gòu)發(fā)現(xiàn)基因編程 海星機器

JohnKoda、JohnHolland、HodLipsonPeterHart、Vladimir比主 心理學(xué) 新舊知識間的相似性 相似義

核機器、近鄰算法

Netflix推薦系統(tǒng)

Vapnik、DouglasHofstadter、,、,7表A2本文綜述的7類ML方法在EEPS等主要領(lǐng)域內(nèi)的研究現(xiàn)狀總結(jié)項目類型相關(guān)算法、技術(shù)和架構(gòu)項目類型相關(guān)算法、技術(shù)和架構(gòu)優(yōu)勢缺點EEPS領(lǐng)域主要應(yīng)用場景其他領(lǐng)域主要應(yīng)用場景未來發(fā)展趨勢涉及相關(guān)(含EEPS領(lǐng)域) 文獻EEPS中應(yīng)用程度(五星為最高)強化學(xué)習(xí)(RL)蒙特卡洛RL時間差分算法策略梯度算法ADPQ-學(xué)習(xí)和R-學(xué)習(xí)SARSA算法深度Q網(wǎng)絡(luò)無需有標簽數(shù)據(jù)較強的自學(xué)習(xí)能力在線學(xué)習(xí)能力強實現(xiàn)動態(tài)優(yōu)化決策具有延遲反饋效應(yīng)序貫決策能力強DLTLPL可分別形成處理大規(guī)模EEPS制決策問題時解探索困難狀態(tài)空間很大時計算成本過高學(xué)習(xí)效率并境進行大量交互從而獲得反饋用以更新模型安全和穩(wěn)定控制決策自動發(fā)電控制AGC電壓和無功控制VQC最優(yōu)潮流控制OPFC電力市場博弈問題電力信息網(wǎng)絡(luò)問題負荷預(yù)測和負荷調(diào)度電力系統(tǒng)繼電保護工業(yè)制造計算機仿真機器人控制計算機游戲證券投資管理工業(yè)優(yōu)化調(diào)度醫(yī)療保健對話代理文本摘要引擎在線股票收斂特性研究信度分配問題研究與其他不確定分析方法結(jié)合研究離散化問題[12],研究 與其他ML方法結(jié)合研究比如DRL與多智能體系統(tǒng)理論、智能控制理論等結(jié)合研究DRL、TRL和 分布式發(fā)電和孤交易PRL算法 島微網(wǎng)多能耦合系統(tǒng)調(diào)度決策堆疊自動編碼器網(wǎng)絡(luò)網(wǎng)絡(luò)網(wǎng)絡(luò)深度學(xué)習(xí)網(wǎng)絡(luò)(DL) 深度Q-學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)網(wǎng)絡(luò)算法超深度學(xué)習(xí)算法很強的感知能力具有非常好的遷移學(xué)習(xí)特性能實現(xiàn)極為復(fù)雜的非線性映射知識表達能力極強性能力強抽象知識識圖像和語音受限于反饋電力設(shè)備的故機制 診斷學(xué)習(xí)深度有電力系統(tǒng)暫態(tài)時有限 定評估有時出現(xiàn)梯電力大數(shù)據(jù)融度彌散 和檢測需要復(fù)雜模短期電力負荷型驗證 測有時需要先電力設(shè)備的圖像進GPU和大量識別樣本集支撐 電力信息網(wǎng)絡(luò)入對數(shù)據(jù)的推侵檢測理和理解能力智能發(fā)電系統(tǒng)較弱 力預(yù)測難以應(yīng)對復(fù)雜的多數(shù)據(jù)模制決策態(tài)建模 大規(guī)?;ヂ?lián)電網(wǎng)AGC合利用圖像語音識別戲制參數(shù)優(yōu)化分類機器視覺智能監(jiān)控文字識別/NLP編輯記憶網(wǎng)絡(luò)分析RL合加能增加絡(luò)模塊法研究絡(luò)研究超深度學(xué)習(xí)算法法研究面研究DL研究[63]-[83]實例遷移學(xué)習(xí)特征表達TL參數(shù)遷移學(xué)習(xí)關(guān)聯(lián)知識遷移學(xué)習(xí)TL(TL) 遷移強化學(xué)習(xí)深度遷移RL遷移蜂群優(yōu)化遷移細菌覓食零基礎(chǔ)到累積學(xué)習(xí)相似領(lǐng)域或任務(wù)間有效分享和遷移信息成本低且效率高關(guān)聯(lián)性強的不同任務(wù)快速動態(tài)在線優(yōu)化加快其他算法收斂數(shù)災(zāi)”知識遷移過電力系統(tǒng)優(yōu)化問程中的小數(shù)據(jù)題中的連續(xù)單任務(wù)和個性化問題遷移、多任務(wù)線性/目標任務(wù)和非線性遷移,比如源任務(wù)的動作AGC空間不相等時短期電力負荷/風(fēng)遷移方式不易速預(yù)測實現(xiàn) 離散碳能復(fù)合流收斂性證明優(yōu)化較困難 風(fēng)險調(diào)度和機組遷移過程不組合穩(wěn)定導(dǎo)致遷移孤島微網(wǎng)協(xié)調(diào)頻能力無法保障率控制多能耦合系統(tǒng)調(diào)度優(yōu)化圖像分類命名實體識別自動規(guī)劃問題交叉語言分類計算機游戲自然語言處理跨領(lǐng)域文本知識學(xué)習(xí)與其他ML結(jié)合形成高級算法,如TRL與啟發(fā)式群智能算法融合形成高級的TL算法,如TBOTBFO貝葉斯多實例遷移學(xué)習(xí)算法研究[51]-[53],[56],[62][84]-[94],,、,,,、,平行強化很好解決數(shù)很多細節(jié)之平行能源調(diào)度控虛擬場景平行調(diào)度機學(xué)習(xí)算法據(jù)取舍和行動處尚需完備的制管理 生成 器人(PRL) 選擇問題 理論證明 分布式能源智能無人駕駛平行能源系平行自適通過平行人需要通過構(gòu)決策 測試 統(tǒng)研究應(yīng)動態(tài)規(guī)劃工系統(tǒng)進行大建復(fù)雜的平行火電廠平行管理社會計算智聯(lián)網(wǎng)和平算法(P-ADP)數(shù)據(jù)預(yù)處理 系統(tǒng)來產(chǎn)生海和規(guī)劃 和情報處理行智能基于ACP包含預(yù)測學(xué)量的訓(xùn)練樣本智能家庭能量管城市平行社會能源系法的平行系習(xí)集成學(xué)習(xí)的供機器進行學(xué)理系統(tǒng) 交通 統(tǒng)研究[7],[14],平行學(xué)習(xí)統(tǒng)技術(shù) 數(shù)據(jù)學(xué)習(xí) 習(xí) 人工電力系統(tǒng)研平行機器平行知識自[15], (PL) 包含實現(xiàn)數(shù) 發(fā) 人 動化[95]-[107]據(jù)-行動引導(dǎo)的 社會能源系統(tǒng)開平行無人平行機器人指示學(xué)習(xí) 發(fā) 機 技術(shù)易于產(chǎn)生知 復(fù)雜電力系統(tǒng)平平行應(yīng)急平行感知系識涌現(xiàn) 行調(diào)度 管理 統(tǒng)研究平行核能電力系平行眼技軟件定義的統(tǒng)開發(fā) 術(shù) 人工社會系統(tǒng)平行區(qū)塊鏈能源 研究及其應(yīng)用系統(tǒng)DRL算法更強的ML算法收斂性隨機干擾下的大計算機游混合增強智體系,如性能,如DRL有時無法提供規(guī)?;ヂ?lián)電力系統(tǒng)戲能方法、技術(shù)和DQN,A3C,算法體系可很嚴格理論證明智能發(fā)電控制機器人控系統(tǒng)研究ADP算好地保證學(xué)習(xí)可解釋性差,復(fù)雜電力系統(tǒng)經(jīng)制DRLPRL等法等的有效性和執(zhí)多為“黑箱模濟調(diào)度 優(yōu)化和調(diào)高級混合智能[10]-[12],深度遷移行端對端的感型”孤島主動配電網(wǎng)度系統(tǒng)的開算法的研究[42]-[45],RL 知和決策能力算法穩(wěn)定性的綜合發(fā)電控制和發(fā)與啟發(fā)式群混合學(xué)習(xí)分層DRL在提升控制有時無法得到優(yōu)化問題 計算機仿智能算法的結(jié)(HL)算法 效果和精度方有效保證 電網(wǎng)緊急控制決真系統(tǒng)的開合形成互補特[90],深度記憶面潛力巨大 DRL算法不策問題,如電網(wǎng)切發(fā) 性更強的HL算RL 有效解“維能很好應(yīng)用到機控制策略研究 人機混合法,比如[108]-[113]多智能體數(shù)災(zāi)” 非MDP問題電力市場仿真研增強智能系算RL 究 統(tǒng)的開發(fā) 法TBO ,TBFO等GAN系統(tǒng)的回報/訓(xùn)練過程有可再生能源海量引入到基于GAN損失函數(shù)不必時會出現(xiàn)不穩(wěn)場景生成,比如風(fēng)頻等抽象知RL的決策問題自編碼顯式給出而是定 電數(shù)據(jù)的生成 識生成 中來研究GAN 通過對抗來自對多樣性不智能配用電系統(tǒng)研究如何克[14],[15]對抗學(xué)習(xí)組合GAN動學(xué)習(xí)和挖掘足和缺乏準確中的多源異構(gòu)數(shù)據(jù)神經(jīng)信息服GAN訓(xùn)練過[17], (AL) FusedGAN產(chǎn)生 性二者的懲罰融合問題 處理系統(tǒng)研程中出現(xiàn)“模[114]-[127]DeblurGAN更好的知識力度不夠均衡能源互聯(lián)網(wǎng)領(lǐng)域究 式坍塌”現(xiàn)象Discret 泛化性 中的“自能源”問深度對抗利用GAN技GAN 樣本訓(xùn)練效 題研究,如基于網(wǎng)絡(luò) 術(shù)進行跨任務(wù)MMDGAN率很高 GAN技術(shù)的自能源平行對抗學(xué)習(xí)研究,,,,,,可自動生成 混合建模與參數(shù)辨學(xué)習(xí)海量場景供機 識方法研器進行學(xué)習(xí)集成學(xué)習(xí)(EL)基于Bagging架構(gòu)的隨機森林算法AdaBoost進機和梯度提升回歸決策樹算法Stacking構(gòu)堆疊泛化算法優(yōu)化手段和優(yōu)化策略性能卓越可靠性和準確性高分類性能極好優(yōu)越的群體群體決策和群體智慧的“涌現(xiàn)”對噪聲較為敏感有時會陷入得到全局解有時會出現(xiàn)過擬合和欠擬合現(xiàn)象依賴于數(shù)據(jù)源孤島微電網(wǎng)源-荷協(xié)同頻率控制電力系統(tǒng)安全性和穩(wěn)定性評估研究負荷預(yù)測、能源消耗預(yù)測電力系統(tǒng)發(fā)電出力預(yù)測電力中斷事故預(yù)測電網(wǎng)調(diào)控群體智慧決策預(yù)測系統(tǒng)開發(fā)分類系統(tǒng)開發(fā)群體智慧研究投票系統(tǒng)開發(fā)決策系統(tǒng)開發(fā)數(shù)據(jù)分類和數(shù)據(jù)競賽研究如何高效集成獨立的較弱的學(xué)習(xí)模型以及如何把學(xué)習(xí)結(jié)果有效整合起來與DL和PL[91] 結(jié)合 [114],EL模型的優(yōu)[128]-[140]化和平行化研究邊際和多樣性研究強化學(xué)習(xí)(RL)A2stπat,而環(huán)tta+2所示,RL包含了四個基本環(huán)節(jié):MDP、值函數(shù)(valuefunction)、值迭代(valueiteration)和策略迭代(policyiteration)??偟膩碚f,RL作為一個序貫決策(sequentialdecision-making)問題,它需要連續(xù)選擇一些行為,并在這些行為完成后將得到的最大收益作為最好的結(jié)果。RL的經(jīng)典案例就是AlphaGoZero[10]RL在模擬世界中的有效性。動作at/決策(MDP)π體 體 代/勵rt狀態(tài)/觀察st+1環(huán)境A2強化學(xué)習(xí)原理圖Fig.A2PrincipleofRL深度學(xué)習(xí)(DL)ML的技術(shù),目前已在圖像處理及分類、語音識別、自然語言處理等領(lǐng)TensorFlowCaffeKerasCNTKTheanoDeeplearning4J等[63]。DNNDNNDLAE)的堆疊自動編碼器(stackedautoencodersSAE)、基于受限玻爾茲曼機(restrictedboltzmannmachine,RBM)的深度信念網(wǎng)絡(luò)(deepbeliefnetworks,DBN)、遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetworks,RNN)、深度殘差網(wǎng)絡(luò)(deepresidualnetworks,DRN)和卷積神經(jīng)網(wǎng)絡(luò)convolutionalneuralnetorks,CNEDBNCNNRNN的網(wǎng)絡(luò)結(jié)構(gòu)[43(a)~(d)所示。輸出層W輸出層W輸入W1層W2W1輸入層隱層隱層W 輸IW 輸I+1出層WI隱層隱層SAE網(wǎng)絡(luò)結(jié)構(gòu)RBM輸W WRBM輸W W1WWT入層2顯層隱層隱層W 輸I+1出層WI隱層隱層DBN網(wǎng)絡(luò)結(jié)構(gòu)S4:f.16@5×

C5:layerF6:layerOutputC3:f.maps16@101×0

120 84 10Input3232

C1:feature6@288

S2:f.maps6@141×4Full

GaussianFullConnectionsConnectionConvolutions

SubsamplingConvolutionsSubsampling

ConnectionCNN網(wǎng)絡(luò)結(jié)構(gòu)OutputlayerOutputlayerOutputlayerOutputlayerOutputlayerOutputlayerW1InputlayerW1InputlayerW1InputlayerW2W1InputlayerW1InputlayerW1InputlayerW2HiddenlayerWhW2HiddenlayerW2HiddenlayerRNN網(wǎng)絡(luò)結(jié)構(gòu)圖A3四種基本的DL網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.A3ThestructureoffourbasicDLnetworks隨著訓(xùn)練數(shù)據(jù)的增長和計算能力的提升,DL中的典型代表——CNN4個方向迅速發(fā)展。最近,南開大學(xué)的顧澤蒼教授提出了“超深度學(xué)習(xí)[65]L2017Ndeepforet6NN的可能性。A7遷移學(xué)習(xí)(TL)基本原理與遷移學(xué)習(xí)(TL)TLTLTLTLTL劃分為三大類TL(inductiveTL,ITL)、TL(unsupervisedTL,UTL)TL(transductiveTL,TTL)。其中,ITL強調(diào)源領(lǐng)域和目標TTL強調(diào)目標新任務(wù)和源任務(wù)必須是相同的,其他兩種則可應(yīng)用到不同的且相關(guān)的任務(wù)的學(xué)習(xí)遷移[53]A4所示,RL為例,可將其遷移分為行為遷移和知識遷移兩種方式,其中行為遷移表示將源任務(wù)學(xué)到的策略應(yīng)用到目標任務(wù);實線箭頭表示兩種遷移的主要方向,但現(xiàn)實中可能經(jīng)過虛線箭頭所示的步驟。任務(wù)A任務(wù)任務(wù)A任務(wù)B 行為B行為A知識A知識B可能需要的步驟圖A4強化學(xué)習(xí)的兩種遷移方式Fig.A4TwotransferapproachesoftheRL平行學(xué)習(xí)(PL)A5所示,分為兩個階段數(shù)據(jù)處理階段(StageI)和行動學(xué)習(xí)階段(StageII)(Stage(對應(yīng)牛頓定律/牛頓系統(tǒng))”輸入到軟件定義的平行人工系統(tǒng)(software-definedparallelartificialsystem,SDPAS)產(chǎn)生大量新的數(shù)據(jù)(人工合成大數(shù)據(jù))。然后,這些人工數(shù)據(jù)和特定的原始“小數(shù)據(jù)”一起構(gòu)成解決問題所需要學(xué)習(xí)的開放、演變的“大數(shù)據(jù)(對應(yīng)默頓定律/默頓系統(tǒng))ML模型。(StageI)

原始數(shù)據(jù)

添加由平行控制產(chǎn)原始數(shù)據(jù)數(shù)據(jù)采集(物理與社會感知系統(tǒng)原始數(shù)據(jù)數(shù)據(jù)采集(物理與社會感知系統(tǒng))選取的特定小數(shù)據(jù)開放、演變的虛擬平行人工系統(tǒng)開放、演變開放、演變的虛擬平行人工系統(tǒng)開放、演變的大數(shù)據(jù)生成數(shù)據(jù)數(shù)據(jù)交互Data平行控制和指示學(xué)習(xí)Action(Stage平行控制和指示學(xué)習(xí)

行動/數(shù)據(jù)交互小知識小知識提取特定小知識用于平行控制

基于計算實驗的預(yù)測學(xué)習(xí)和集成學(xué)習(xí)行動/數(shù)據(jù)交互基于計算實驗的預(yù)測學(xué)習(xí)和集成學(xué)習(xí)

行動/數(shù)據(jù)交互圖A5新型的平行學(xué)習(xí)理論框架Fig.A5AnewtheoreticalframeworkofPL在行動學(xué)習(xí)階段(StageRL(基于預(yù)測學(xué)習(xí)和集成學(xué)習(xí))來刻畫系統(tǒng)的動態(tài)變化,從人工合成的“大數(shù)據(jù)”中學(xué)習(xí)(小知識),并將學(xué)習(xí)到的知識存儲在系統(tǒng)狀態(tài)轉(zhuǎn)移函數(shù)的過程(從牛頓系統(tǒng)到默頓系統(tǒng))PL理論框架中,使用預(yù)測學(xué)習(xí)解決如何隨時間發(fā)展對數(shù)據(jù)進行探索,使用集成學(xué)習(xí)解決如何在空間分布上對數(shù)據(jù)進行探索,使用指示學(xué)習(xí)解決如何探索數(shù)據(jù)生成的方向[14]。[14]和[15]AlphaGoAlphaGoCarloSearch,MCTS)來實現(xiàn)自我棋局探索[9]AlphaGo自我博弈算法(asingleAlphaZeroalgorithm)來產(chǎn)生[11]PL環(huán)路[15]AlphaGoPL系統(tǒng)[15]A6(a)和(b)自我博弈來產(chǎn)生大量“數(shù)據(jù)”樣本供機器進行學(xué)習(xí),使得ML從已知訓(xùn)練樣本集(有限小數(shù)據(jù))走向了自我探索獲取海量假想訓(xùn)練樣本(無限大數(shù)據(jù))的時代[95],這也是AI超越人類智力的分水嶺。Learning)預(yù)測學(xué)習(xí)預(yù)測學(xué)習(xí)進行探索解決如何隨時間發(fā)展對數(shù)據(jù)進行探索真實系統(tǒng)環(huán)境策略一致性系統(tǒng)可能的系統(tǒng)Learning)預(yù)測學(xué)習(xí)預(yù)測學(xué)習(xí)進行探索解決如何隨時間發(fā)展對數(shù)據(jù)進行探索真實系統(tǒng)環(huán)境策略一致性系統(tǒng)可能的系統(tǒng)PL環(huán)路搜索搜索樹指示學(xué)習(xí)監(jiān)督學(xué)習(xí)學(xué)習(xí)指示學(xué)習(xí)監(jiān)督學(xué)習(xí)+強化學(xué)習(xí)環(huán)境歷史棋局圍棋程序Go策略策略網(wǎng)絡(luò)策略網(wǎng)絡(luò)網(wǎng)絡(luò)AlphaGo的平行學(xué)習(xí)系統(tǒng)架構(gòu)圖A6完整的PL環(huán)路和AlphaGo的PL系統(tǒng)架構(gòu)Fig.A6StructureofaPLloopandaPLsystemforAlphaGo智能體輸入C1S2C3S4基于雙向的長短期記憶的深度強化學(xué)習(xí)(DRL)輸入?yún)?shù)經(jīng)驗人工合成的大數(shù)據(jù)策略人工系統(tǒng)輸入輸入?yún)?shù)經(jīng)驗人工合成的大數(shù)據(jù)策略人工系統(tǒng)輸入?yún)?shù)目標任務(wù)勵 動作動作獎勵預(yù)測學(xué)習(xí)遷移學(xué)習(xí)學(xué)習(xí)系統(tǒng)計算實驗(computationalexperiments)環(huán)境人工大數(shù)據(jù)反饋控制特定知識(specificknowledge)稀少的原始數(shù)據(jù)平行執(zhí)行平行控制真實系統(tǒng)平行系統(tǒng)(parallelsystems)Fig.A7AnoveltheoreticalframeworkofPRL混合學(xué)習(xí)(HL)的典型代表——深度強化學(xué)習(xí)(DRL)8DLRLDRL[109]DL方法(DQN)來感知該觀察,從而從RL的決策能力來評價各動作的價值函數(shù),并通過某種策略將當前狀態(tài)映射為相應(yīng)的動作;最后,環(huán)境對此動作做出反應(yīng),A8所示。(DQN)觀察st(Q-Learning等)上下文rRL決策t獎賞at環(huán)境基于預(yù)期回報評判動作價值圖A8深度強化學(xué)習(xí)的基本原理示意圖Fig.A8IllustrationofthebasicprincipleofDRLHL發(fā)展過程中,2016DeepMindDRLAlphaGo打破了圍棋無法AIANNDLMDPRLMLAlphaGoZero的算法形式則更為簡潔,采用完全不基于人類經(jīng)驗的自DRLDRLAI領(lǐng)域的進一步發(fā)展[113]DRLDLRL(state-actionspace)中進行端到端(end-to-end)的感知決策[10,113]DRLQ網(wǎng)絡(luò)算法(DQN)、AsynchronousAdvantageActor-Critic算法(A3C)、策略梯度算法(policy-gradient)及其他算法的相應(yīng)擴展[113]DLRL的代表性算法——ADPDeep-ADP(D-ADP)算法的理論框架[83,95]9所示。HL中,DRLDRL(value-basedDRL)、基于策略梯DRL(policy-basedDRL)DRL(searchandsupervisionbasedDRL)DRL在游戲、機器人、自然語言處理、智能駕駛、智能醫(yī)療等領(lǐng)域取得了重要進展。圖A9一種新型的深度自適應(yīng)動態(tài)規(guī)劃算法理論框架Fig.A9AnewtheoreticalframeworkofD-ADP對抗學(xué)習(xí)(AL)又稱作生成式對抗網(wǎng)絡(luò)(GenerativeAdversarialNetwork,GAN)。GAN作為一種生成模合成數(shù)據(jù)x'x'orGG(z)Realorfake?真實數(shù)據(jù)x隨機噪聲z判別

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論