基于Multi_Agent協(xié)作強(qiáng)化學(xué)習(xí)的分布式發(fā)電系統(tǒng)的研究_第1頁
基于Multi_Agent協(xié)作強(qiáng)化學(xué)習(xí)的分布式發(fā)電系統(tǒng)的研究_第2頁
基于Multi_Agent協(xié)作強(qiáng)化學(xué)習(xí)的分布式發(fā)電系統(tǒng)的研究_第3頁
基于Multi_Agent協(xié)作強(qiáng)化學(xué)習(xí)的分布式發(fā)電系統(tǒng)的研究_第4頁
基于Multi_Agent協(xié)作強(qiáng)化學(xué)習(xí)的分布式發(fā)電系統(tǒng)的研究_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2 0 0 9年 第 1期Agent 是一種能在環(huán)境中自治地感知信息 , 并通過決策推理生成相應(yīng)的規(guī)劃 , 作用于環(huán)境的計(jì)算實(shí)體或者功能單元 。 本文將 Agent 機(jī)理和技術(shù)應(yīng)用于風(fēng)光互補(bǔ)分布式發(fā)電系統(tǒng)中 , 將各個(gè)風(fēng)機(jī) 、 太陽能均看作單獨(dú)的子系統(tǒng) , 每個(gè)子系統(tǒng)作為一個(gè) Agent , 構(gòu)成了一個(gè)多 Agent 的能量管理系統(tǒng) 。 以分布式的觀點(diǎn) , 利用 Agent 所具有的學(xué)習(xí) 、 協(xié)調(diào)能力 、 適應(yīng)性和自治性 , 引入強(qiáng)化學(xué)習(xí)技術(shù)來對(duì)多 Agent 之間的協(xié)作學(xué)習(xí)算法進(jìn)行研究并應(yīng)用于能量管理系統(tǒng) 。由于單個(gè)智能主體能力有限 , 很難完成大規(guī)模的復(fù)雜任務(wù) 。 而多個(gè) Agent 的組

2、合 , 通過協(xié)作 、 協(xié)調(diào)與協(xié)商將會(huì)大大地提高系統(tǒng)的智能 。 隨著 Internet的逐漸普及與迅速擴(kuò)大 , 網(wǎng)絡(luò)上的智能主體自然地形成一個(gè) MAS 系統(tǒng) 。 因此 , 研究基于多智能主體的學(xué)習(xí)方法顯得分外迫切 。 但是在大多數(shù)的協(xié)作學(xué)習(xí)研究中 , 實(shí)際上仍然只有一個(gè) Agent 在學(xué)習(xí) 。 本文提出了一種多 Agent 聯(lián)合動(dòng)作強(qiáng)化學(xué)習(xí)算法 , 以分布 式觀點(diǎn)來考慮問題 , 每個(gè) Agent 不僅要考慮自己的 動(dòng)作 , 還要兼顧其它 Agent 所采取的動(dòng)作及策略 。 1強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)是一種不同于監(jiān)督學(xué)習(xí)的無監(jiān)督學(xué)習(xí) 方法 1, 強(qiáng)化學(xué)習(xí)技術(shù)的基本原理是 :在學(xué)習(xí)過程中 , 如果系統(tǒng)某個(gè)動(dòng)

3、作導(dǎo)致環(huán)境正的增強(qiáng) , 那么系統(tǒng)以 后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)加強(qiáng) ; 反之系統(tǒng)產(chǎn)生這 個(gè)動(dòng)作的趨勢(shì)便減弱 。 強(qiáng)化學(xué)習(xí)問題可以描述為 :在 離散時(shí)間 、 有限狀態(tài) 、 有限動(dòng)作集合的環(huán)境下 , 使智 能體所獲得的累積折扣回報(bào)最大化 , 在此情況下 , 強(qiáng) 化學(xué)習(xí)問題可用馬爾可夫決策過程 (Markov Deci -sion Process,MDP 建模 。 MDP 決策過程定義為一個(gè) 四元數(shù)組 (S 、 A 、 R 、 P , 其中 , S 為有限狀態(tài)集 ; A 為有 限動(dòng)作集 ; R 為回報(bào)函數(shù) ; R :S ×A r , 為狀態(tài) -動(dòng)作組 基于 Multi-Agent 協(xié)作強(qiáng)化學(xué)

4、習(xí)的 分布式發(fā)電系統(tǒng)的研究高臘梅 , 吳捷 , 曾君 , 李敏(華南理工大學(xué)電力學(xué)院 , 廣州 510640摘要 :隨著可再生能源技術(shù)的飛速發(fā)展, 風(fēng)光互補(bǔ)分布式發(fā)電系統(tǒng)以其經(jīng)濟(jì)性和可靠性得 到了越來越廣泛的應(yīng)用 。 文中提出了一種基于 Multi-Agent 的以能量管理為主要特征的分布式 風(fēng)光互補(bǔ)發(fā)電系統(tǒng) , 將聯(lián)合動(dòng)作學(xué)習(xí) (JAL模式作為多 Agent 的協(xié)作策略, 并結(jié)合強(qiáng)化學(xué)習(xí)技術(shù) 描述了多 Agent 協(xié)作學(xué)習(xí)的過程 。 以一個(gè)風(fēng)光互補(bǔ)發(fā)電系統(tǒng)為例進(jìn)行仿真 , 實(shí)驗(yàn)結(jié)果證明了這 種方法的有效性 。關(guān)鍵詞:分布式發(fā)電; Multi-Agent ; 強(qiáng)化學(xué)習(xí); 聯(lián)合動(dòng)作學(xué)習(xí)Abstr

5、act:With the development of renewable energy technology, the distributed wind-PV power system has a wider application. This paper proposes a distributed wind-PV power system based on Multi-Agent, whose main character is energy management, and describes the multi-agent cooperative reinforcement learn

6、ing process using the joint action learning pattern as the cooperative strategy. The experiment of a distributed wind-PV power system shows the efficiency.Key words:distributed power;multi-agent;reinforcement learning;joint action learning中圖分類號(hào):TK81文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-5523(200901-0026-04研究與探討26·&

7、#183;2009年 第 1期合到實(shí)數(shù)值的映射 ; P :S ×A 為變換函數(shù) , 為狀 態(tài)空間 S 的概率分布 。Q 學(xué)習(xí)是強(qiáng)化學(xué)習(xí)的主要算法之一 , 是一種無模型的學(xué)習(xí)方法 。 Q 函數(shù)的定義為在狀態(tài) s 時(shí)執(zhí)行 動(dòng)作 a , 且此后按最優(yōu)動(dòng)作序列執(zhí)行時(shí)的折扣累計(jì)強(qiáng) 化值 。 Q 學(xué)習(xí)的目標(biāo)是尋找一個(gè)策略可以最大化來 獲得的報(bào)酬 。 最優(yōu) Q 值可表示為 Q *, 其定義是執(zhí)行 相關(guān)的動(dòng)作并按照最優(yōu)策略執(zhí)行下去 , 將得到的回 報(bào)的總和 , 其定義如下 :Q *(s . a =P (s , a , s ' max Q *(s ' , a ' +(s , a

8、 (1其中 , P (s , a , s ' 表示在狀態(tài) s 下執(zhí)行動(dòng)作 a 轉(zhuǎn)換到狀 態(tài) s ' 的概率 , (s , a 表示在狀態(tài) s 下執(zhí)行動(dòng)作 a 將 得到的回報(bào) , 表示折扣因子 。 Q 函數(shù)的更新等式表 示如下 :Q (s , a =(1- Q (s , a +r +max a ' AQ (s ' , a ' (2式中 , (0 <1為學(xué)習(xí)率 ; Q (s ' , a ' 是 Agent 在 狀 態(tài)s ' 下執(zhí)行動(dòng)作 a ' 的 Q 函數(shù)值 23。2系統(tǒng)體系結(jié)構(gòu)風(fēng)光互補(bǔ)系統(tǒng)是分散的風(fēng)機(jī) 、 太陽能以及蓄

9、電池等子系統(tǒng)構(gòu)成的分布式發(fā)電系統(tǒng) 。 由于其系統(tǒng)規(guī) 模小以及空間上的分散性而難以采用集中供能 , 為 此 , 本文引入 Agent 技術(shù)將每個(gè)發(fā)電子系統(tǒng)看作一 個(gè)智能 Agent , 在每個(gè)子系統(tǒng)的內(nèi)部 , 都由感知模 塊 、 通信模塊 、 學(xué)習(xí)模塊 、 知識(shí)庫 、 決策模塊 、 執(zhí)行模 塊組成 , 其結(jié)構(gòu)如圖 1所示 。3協(xié)作學(xué)習(xí)算法在多 Agent 系統(tǒng)中 , 由于環(huán)境是動(dòng)態(tài)變化的 、 其他 Agent 行為是未知的 , 要建立領(lǐng)域完備的先驗(yàn)?zāi)?型幾乎不可能 , 同樣許多領(lǐng)域知識(shí)也是在 Agent 和 其他 Agent 交互的過程中逐步獲得的 。 多 Agent 協(xié)作學(xué)習(xí)就是多個(gè) Agen

10、t 在追求一個(gè)共同的目標(biāo)過程 中彼此相互通信 、 合作 , 由于獲取信息而改變自身狀 態(tài)和周圍環(huán)境 , 每個(gè) Agent 在學(xué)習(xí)過程中受到其它Agent 的知識(shí) 、 信念 、 意圖等的影響 。針對(duì)分布式風(fēng)光互補(bǔ)發(fā)電系統(tǒng)這樣一個(gè)處于動(dòng) 態(tài)變化環(huán)境的多 Agent 系統(tǒng) , 為了克服無完備的先 驗(yàn)?zāi)P?、 先驗(yàn)知識(shí)以及單 Agent 學(xué)習(xí)不全面等缺點(diǎn) , 本文提出一種聯(lián)合動(dòng)作學(xué)習(xí) (JAL 模式 , 即 Agent 采 取的當(dāng)前行動(dòng)是針對(duì)其他 Agent 的某種行動(dòng)組合的 最優(yōu)反應(yīng) 。 因?yàn)楸疚挠懻摰氖且环N分布式的多 A -gent 系統(tǒng) , 系統(tǒng)中各個(gè) Agent 無主次之分 , 在這里所謂的聯(lián)

11、合動(dòng)作學(xué)習(xí)是建立在每個(gè) Agent 對(duì)其他 A -gent 行動(dòng)的預(yù)測(cè)的基礎(chǔ)之上的一種學(xué)習(xí)方式 。 針對(duì)前面提出的系統(tǒng)結(jié)構(gòu)設(shè)計(jì)學(xué)習(xí)模塊如圖 2所示 。下面結(jié)合圖 2的學(xué)習(xí)模塊結(jié)構(gòu)對(duì)本文所提出的 協(xié)作學(xué)習(xí)算法描述如下 :(1 對(duì) Agent i (i =1, 2, 3, , n 其有限的動(dòng)作集 合為 A , 將 Q 值更新模塊中所有 Agent 的 Q 值初始 化為 0;(2 Agent i 觀察獲得當(dāng)前狀態(tài) s S , S 是 Agent 所處的有限的環(huán)境狀態(tài)集 ;(3 在預(yù)測(cè)模塊中 , Agent i 根據(jù)當(dāng)前狀態(tài) s 以及Agent i 的知識(shí)模塊中存儲(chǔ)的其他 Agent 的動(dòng)作執(zhí)行率 P

12、 i a k=C j a ka' m AjCja ' m (即 Agent j 中動(dòng)作 a k 的執(zhí)行率 , 其中 , C j a k為 Agent j 執(zhí)行動(dòng)作 a k A j的次數(shù) 4 和 Q 值的歷史存儲(chǔ)數(shù)據(jù) , Agent i 將推測(cè)在當(dāng)前狀態(tài) s 下 , 其 他 Agent 將會(huì)采取的動(dòng)作 , 從而形成一個(gè)預(yù)測(cè)動(dòng)作 組合 -i ;(4 在動(dòng)作選擇模塊中 , Agent i 依動(dòng)作選擇策略研究與探討高臘梅等 基于 協(xié)作強(qiáng)化學(xué)習(xí)的分布式發(fā)電系統(tǒng)的研究 圖 1多 Agent 系統(tǒng)體系結(jié)構(gòu)圖圖 2學(xué)習(xí)模塊結(jié)構(gòu)圖27··2 0 0 9年 第 1期*=-i *

13、=argmaxa i A iQ (s , a 1, , a i , a n (3選擇當(dāng)前最優(yōu)動(dòng)作 i *;(5 執(zhí)行動(dòng)作 a i 得到新的狀態(tài) s ' , 同時(shí)從環(huán)境得到回報(bào)值 r ;(6 在 Q 值計(jì)算模塊中 , 將上述值代入 Q 函數(shù)的定義進(jìn)行 Q 值更新 , 然后將得到的結(jié)果存入 Q 值更新模塊中 ;Q (s , a 1, , a i , a n =(1- Q (s , a 1, , a i , a n +r +maxa ' i A iQ (s , a 1, , a i , a n (4(7 每個(gè) Agent 都將自己已更新了的知識(shí)模塊中的數(shù)據(jù)存入知識(shí)庫中 , 然后通過通

14、信來接收其他 A -gent 知識(shí)庫的更新信息 ;(8 一次學(xué)習(xí)過程結(jié)束 , 等待或者馬上進(jìn)入下一個(gè)學(xué)習(xí)過程 。4算例分析本文以太陽能混合發(fā)電系統(tǒng)為研究背景 , 對(duì)其協(xié)作學(xué)習(xí)過程進(jìn)行分析 。 該系統(tǒng)有發(fā)電機(jī)組 10個(gè) , 由 6臺(tái)風(fēng)機(jī)和 4臺(tái)光伏電池 (PV 組成 , 總?cè)萘?70kW 。 在本文的 MDP 決策過程四元組中定義 :S =W spead , W dir ,I sun , L need , S equip , 其中 :W spead 代表風(fēng)速 , W dir 代表風(fēng)向 , I sun代表日照 , L need 代表負(fù)載需求 , S equip 代表風(fēng)機(jī)或太陽能當(dāng)時(shí)的狀態(tài) (包括熱

15、備用 、 冷備用 、 停機(jī) 、 并網(wǎng)四種狀態(tài) ; 本文只考慮處于熱備用狀態(tài)的風(fēng)機(jī)和太陽能 , 故每個(gè) Agent 的動(dòng)作集 A =a 1, a 2, a 1表示加入發(fā)電行列 , a 2表示不加入發(fā)電行列 。 本文將一次決策過程作為一個(gè)學(xué)習(xí)過程 , 每次決策可能由用戶側(cè) A -gent 或者其他任意一個(gè) Agent 所發(fā)起的 , 固在本系統(tǒng)中所考慮的學(xué)習(xí)過程是不定時(shí)地由不同 Agent 所發(fā)起的一次決策過程 , 因此在這里的 Q 值不考慮將 來值的影響 , 即令折扣因子 =0, 回報(bào)值 R 以供需是 否達(dá)到平衡 、 電能質(zhì)量的好壞以及電價(jià)為綜合評(píng)價(jià) 標(biāo)準(zhǔn)來給出 :R =1R 1+2R 2+3R

16、3(5其 中 , R 1=10供需達(dá)到平衡-5供需不到平衡 (R 1為 聯(lián) 合 動(dòng) 作 的 回 報(bào) 值 R 2=10電能質(zhì)量高5電能質(zhì)量中等0電能質(zhì)量低R 3=1(P 為電價(jià) 令學(xué)習(xí)率 =0.5, 折扣因子 =0, 1=0.5, 2=0.3, 3=0.2, Q 值 均 初 始 化 為 0。 假 設(shè) 在 某 一 時(shí) 段 所 有 Agent 均 以 額 定 容 量 輸 出 功 率 , 且 此 時(shí) 段 內(nèi) 每 個(gè) Agent 的電能質(zhì)量情況和電價(jià)已給出 , 見表 1。由于在開始階段每個(gè) Agent 的知識(shí)庫存儲(chǔ)均為 空 , 需要通過很長(zhǎng)時(shí)間的訓(xùn)練來豐富知識(shí)庫 , 即最初 的動(dòng)作選擇不可能遵循最優(yōu)策略

17、 , 而需要通過不斷 地探索來尋找最優(yōu)策略 。 我們通過下面的任務(wù)分解 過程來對(duì)決策過程進(jìn)行探索尋優(yōu) , 同時(shí)進(jìn)行 Q 值的 高臘梅等 基于 協(xié)作強(qiáng)化學(xué)習(xí)的分布式發(fā)電系統(tǒng)的研究 研究與探討更新 。 以一次由負(fù)荷 Agent 發(fā)起的任務(wù) 50kW 為例 , 具體過程如圖 3所示 。在上面的任務(wù)分解過程中 , 第一列代表加入任務(wù)行列的 Agent , 第二列代表當(dāng)這個(gè) Agent 加入任務(wù) 行列以后所剩余的需求數(shù)量 , 當(dāng)出現(xiàn)負(fù)數(shù)時(shí)將退回 上一級(jí)重新傳遞給下一個(gè) Agent 繼續(xù)對(duì)任務(wù)行列進(jìn) 圖 3任務(wù)分解及 Q 值更新過程圖表 1系統(tǒng)參數(shù)表名 稱 類型 容量 /kW電能質(zhì)量 電 價(jià) Agent

18、1風(fēng)機(jī) 15高 0.6 Agent2風(fēng)機(jī) 10中等 0.68 Agent 3風(fēng)機(jī) 7.5高 0.7 Agent 4風(fēng)機(jī) 5高 0.8 Agent 5風(fēng)機(jī) 15中等 0.65 Agent 6風(fēng)機(jī) 7.5低 0.6 Agent 7太陽能 1高 3.0 Agent 8太陽能 2中等 2.8 Agent 9太陽能 3中等 2.5 Agent 0太陽能 4低 2.028··2009年第 1期行分配 , 而此時(shí)每個(gè) Agent 的 Q 值也同時(shí)更新在第 三列 , 直到剩余需求數(shù)量為 0時(shí) , 這一次決策過程 同時(shí)也是一次學(xué)習(xí)過程結(jié)束 。 為了達(dá)到最終的尋優(yōu) 目的 , 我們將對(duì)同一狀態(tài)下

19、的決策過程進(jìn)行多次學(xué) 習(xí) , 每次過程都采用隨機(jī)探索方法 , 直到找到一種 不同于前面結(jié)果的決策過程 , 并將這些結(jié)果存儲(chǔ)在每個(gè) Agent 的知識(shí)庫中 , 下面列出部分存儲(chǔ)的策略 , 如圖 4所示 。 在經(jīng)過大量的學(xué)習(xí)過程以后 , 每個(gè)Agent 的知識(shí)庫都存儲(chǔ)了學(xué)習(xí)結(jié)果 , 圖中 ,(50, S 表示負(fù)荷需求以及當(dāng)前其它的狀態(tài) , 同時(shí) , 在每次決策 過程 結(jié) 束 后 , 每 個(gè) Agent 的 內(nèi) 部 知 識(shí) 庫 也 對(duì) 其 他Agent 的動(dòng)作執(zhí)行率進(jìn)行更新 , 截止到圖 4所進(jìn)行過的決策過程為止 , 動(dòng)作的執(zhí)行率更新為如表 2所示 的值 。在知識(shí)庫得到一定的豐富之后 , 假設(shè)系統(tǒng)負(fù)

20、荷Agent 再次發(fā)起請(qǐng)求 50kW , 每個(gè) Agent 內(nèi)部將按照協(xié)作學(xué)習(xí)算法進(jìn)行決策 。 以 Agent1的內(nèi)部為例 , 它 會(huì)先根據(jù)表 2的數(shù)據(jù)選出幾個(gè)組合 , 然后通過供需 平衡以及知識(shí)庫中的歷史 Q 值來評(píng)價(jià)哪個(gè)是比較好 的來最終決定自己是否加入發(fā)電行列 , 如下面的過 程 , 即 Agent1選擇加入發(fā)電行列 。 在每個(gè) Agent 的 內(nèi)部都運(yùn)行這樣的算法來決定自己是否加入 , 同時(shí) 對(duì)此次決策過程進(jìn)行 Q 學(xué)習(xí) , 結(jié)果存儲(chǔ)到知識(shí)庫中 。-1=A 2, A 3, A 4, A 6, A 7, A 01=A 1, A 2, A 3, A 4,A 6, A 7, A 0Q :4.

21、07586-1=A 2, A 4, A 5, A 7, A 02=A 1, A 2, A 4, A 5, A 7,A 0Q :4.41467-1=A 2, A 3, A 4, A 5, A 6, A 7, A 03=A 2, A 3, A 4,A 5, A 6, A 7, A 0Q :4.111575結(jié)論風(fēng)光互補(bǔ)分布式發(fā)電系統(tǒng)是一種經(jīng)濟(jì)合理的 供電方式 , 在系統(tǒng)中引入多 Agent 技術(shù)對(duì)分布式的 能量管 理 系 統(tǒng) 具 有 重 要 的 意 義 。 對(duì) 多 Agent 系 統(tǒng)(MAS 協(xié)作機(jī)制的研究 , 通常都是強(qiáng)調(diào) Agent 的獨(dú) 立學(xué)習(xí)而不考慮其他 Agent 的行為 , 故 MAS 缺乏協(xié) 作機(jī)制 。 本文提出了聯(lián)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論