共享經(jīng)驗(yàn)分布式Q_學(xué)習(xí)模型在RoboCup中的應(yīng)用_第1頁
共享經(jīng)驗(yàn)分布式Q_學(xué)習(xí)模型在RoboCup中的應(yīng)用_第2頁
共享經(jīng)驗(yàn)分布式Q_學(xué)習(xí)模型在RoboCup中的應(yīng)用_第3頁
共享經(jīng)驗(yàn)分布式Q_學(xué)習(xí)模型在RoboCup中的應(yīng)用_第4頁
共享經(jīng)驗(yàn)分布式Q_學(xué)習(xí)模型在RoboCup中的應(yīng)用_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 郵局訂閱號(hào) :/年 技 術(shù) 創(chuàng) 新人 工 智 能PLC 技術(shù)應(yīng)用 200例 共享經(jīng)驗(yàn)分布式 Q-學(xué)習(xí)模型在 RoboCup 中的應(yīng)用Application of the Experience-shared Distributed Q-learning Model in RoboCup(1.長(zhǎng)沙理工大學(xué) ;2. 湖南信息職業(yè)技術(shù)學(xué)院 張煌輝1陳煥文1,2劉澤文2陳哲平1ZHANG Huang-hui CHEN Huan-wen LIU Ze-wen CHEN Zhe-ping摘要 :RoboCup 仿 真 比 賽 平 臺(tái) 提 供 了 一 個(gè) 完 全 分 布 式 控 制 、 實(shí) 時(shí) 異 步 多

2、智 能 體 的 環(huán) 境 , 從 而 為 多 智 能 體 的 智 能 控 制 和 人 工 智 能 理 論 的 研 究 提 供 了 絕 佳 的 實(shí) 驗(yàn) 平 臺(tái) 。 文 中 提 出 了 一 種 基 于 共 享 經(jīng) 驗(yàn) 策 略 的 分 布 式 Q-學(xué) 習(xí) 模 型 , 應(yīng) 用 于 RoboCup 仿 真 實(shí) 驗(yàn) 中 , 取 得 了 較 好 的 效 果 。關(guān)鍵詞 :共享經(jīng)驗(yàn) ; 分布式 Q-學(xué)習(xí) ; 多智能體 ; RoboCup 中圖分類號(hào) :TP181文獻(xiàn)標(biāo)識(shí)碼 :AAbstract:Robocup soccer simulation provides a totally distributed con

3、trol and real -time asynchronous multi -agent environment.It is an excellent platform for the research of multi -agent intelligent control and artificial intelligence theory.The paper presents a model based on the experience-shared distributed Q-learning,which is used in Robocup simulation experimen

4、ts and gets a good result. Key words:experience-shared; distributed Q-learning; Multi-Agent; RoboCup文章編號(hào) :1008-0570(201003-2-0025-021引言多 Agent 系統(tǒng) (Multi-AgentSystem,MAS 是由異構(gòu) 、 分布 、 動(dòng) 態(tài) 、 大規(guī)模 、 自治 Agent 松散耦合所構(gòu)成的大型復(fù)雜系統(tǒng) , 這些 Agent 相互作用以解決由單一個(gè)體的能力和知識(shí)所不能處理的 復(fù)雜問題 。 對(duì)多 Agent 系統(tǒng)的研究源于分布式人工智能 。RoboCup 仿真組作為足球

5、機(jī)器人比賽中的一項(xiàng) , 無需硬件 , 整個(gè)體系由服務(wù)器和客戶端程序組組成 。 每一個(gè)參賽隊(duì)包括十一個(gè) (或者三個(gè) 、五個(gè) 全自治的隊(duì)員和一個(gè)在線教練 , 服務(wù)器即 是官方提供的比賽平臺(tái) 。 在 RoboCup 比賽平臺(tái)中 , 各個(gè)隊(duì)員 (即 這些同構(gòu)的 Agent 有一個(gè)共同的目標(biāo) , 就是把球踢進(jìn)對(duì)方的球 門 , 這些 Agent 共享相同的動(dòng)作集 。 如果在這些同構(gòu)的 Agent 之 間可以通過共享每個(gè) Agent 的經(jīng)驗(yàn)來構(gòu)建模型 , 那么就能減少 所需訓(xùn)練 , 從而加快學(xué)習(xí)過程 。 本文提出了一種基于共享經(jīng)驗(yàn)策 略的分布式 Q-學(xué)習(xí)模型 , 并在 RoboCup 3D(11vs11比賽

6、中做了 實(shí)驗(yàn) , 取得了較好的效果 。2共享經(jīng)驗(yàn)分布式 Q-學(xué)習(xí)模型多智能體系統(tǒng)中的強(qiáng)化學(xué)習(xí)過程可以是集中式的 , 也可以 是分布式的 。 集中式強(qiáng)化學(xué)習(xí)通常把整個(gè)多 Agent 系統(tǒng)的協(xié)作 機(jī)制看成學(xué)習(xí)的目標(biāo) , 承擔(dān)學(xué)習(xí)任務(wù)的是一個(gè)全局性的中央學(xué) 習(xí)單元 , 這個(gè)學(xué)習(xí)單元以整個(gè) MAS 的整體狀態(tài)為輸入 , 以對(duì)各 個(gè) Agent 的動(dòng)作指派為輸出 , 采用標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)方法進(jìn)行學(xué) 習(xí) , 逐漸形成一個(gè)最優(yōu)的協(xié)作機(jī)制 。 與集中式強(qiáng)化學(xué)習(xí)相對(duì)應(yīng) , 分布式強(qiáng)化學(xué)習(xí)系統(tǒng)中各個(gè) Agent 都是學(xué)習(xí)的主體 , 它們分別 學(xué)習(xí)對(duì)環(huán)境的相應(yīng)策略和相互之間的協(xié)作策略 。2.1分布式 Q-學(xué)習(xí)算法最開

7、始 Q-學(xué)習(xí)的提出是針對(duì)單個(gè) Agent 的 , 而 RoboCup 所 關(guān)注的是多個(gè) Agent 如何學(xué)習(xí)在對(duì)抗環(huán)境下協(xié)同工作 , 以完成 把球送進(jìn)對(duì)方球門這樣一個(gè)共同的目標(biāo) 。 文獻(xiàn)引入群體強(qiáng)化學(xué)習(xí)方法 , 該方法將所有智能體的狀態(tài)或動(dòng)作看作組合狀態(tài)或組 合動(dòng)作 , 每個(gè)智能體維護(hù)的 Q-表都是組合狀態(tài)和組合動(dòng)作到 Q 值的映射 , 但學(xué)習(xí)速度比較慢 , 采用結(jié)構(gòu)化存儲(chǔ)的 MBCL(MemoryBase Co-Learning 和 TBCL(TreeBased co-learning 兩種算法雖 加快了學(xué)習(xí)速度 , 但并沒有解決動(dòng)作空間和狀態(tài)空間組合爆炸 問題 。2.2共享經(jīng)驗(yàn)策略模型Ag

8、ent 的經(jīng)驗(yàn)是指在狀態(tài) 下選擇動(dòng)作 a 轉(zhuǎn)移到狀態(tài) , 獲得環(huán)境強(qiáng)化信號(hào) 所組成的四元組 <,a, , >,Agent向外 傳播自己的經(jīng)驗(yàn)可以使得其它 Agent 無須等到自己也經(jīng)歷這個(gè) 四元組后才獲得此狀態(tài)下的反應(yīng)策略 。定義 為 Agent k 選擇動(dòng)作 a 從狀態(tài) 轉(zhuǎn)移到狀 態(tài) 的訪問次數(shù) , 每訪問一次 , 該 N 值增一 。 Bayesian 公式提供 了從先驗(yàn)概率計(jì)算后驗(yàn)概率的方法 , 根據(jù) Bayesian 公式 , 可得 :(1式中 , 為 Agent i 、 Agent k 采取聯(lián)合動(dòng)作后到達(dá) 狀態(tài) 的狀態(tài)轉(zhuǎn)移概率 , 它們可由環(huán)境知識(shí)得到 。 對(duì) 的估 計(jì)由

9、代替 , 則其它 Agent 相應(yīng)的聯(lián)合動(dòng)作概率可表示為 :由此 , 可得估計(jì)狀態(tài)轉(zhuǎn)移概率:(2定義 為 Agent k 在狀態(tài) 選擇動(dòng)作 a 收到的立即報(bào)酬 , 則報(bào)酬估計(jì)期望 為(32.3共享經(jīng)驗(yàn)分布式 -Q 學(xué)習(xí)模型Agent k 和 Agent j 共享經(jīng)驗(yàn)策略時(shí) , 利用 Agent j 的共享經(jīng) 驗(yàn)估計(jì)環(huán)境模型 , 給出方法如下 :(1更新 Agent k 選擇動(dòng)作 a, 由狀態(tài) 轉(zhuǎn)移到狀態(tài)的訪 問次數(shù) :張煌輝 :碩士研究生25-技 術(shù) 創(chuàng) 新 微計(jì)算機(jī)信息 (嵌入式與 SOC2010年第 26卷第 3-2期元 年 郵局訂閱號(hào) 現(xiàn)場(chǎng)總線技術(shù)應(yīng)用 200例 人 工 智 能(2當(dāng)其它

10、 Agent 中的任一 Agent j 選擇動(dòng)作 a 從狀態(tài) 轉(zhuǎn)移到狀態(tài) , 使用 Agent j 的經(jīng)驗(yàn)更新 Agent k 的 N:(3根據(jù)式 (2,計(jì)算 Agent k 估計(jì)狀態(tài)轉(zhuǎn)移概率 :(4根據(jù)式 (3,計(jì)算 Agent k 的報(bào)酬估計(jì)期望值 :(5當(dāng) Agent j 選擇動(dòng)作 a 從狀態(tài) 轉(zhuǎn)移到狀態(tài), 使用 A -gent j 的經(jīng)驗(yàn)更新 Agent k 的報(bào)酬估計(jì)期望值 :學(xué)習(xí)過程中 , 狀態(tài)轉(zhuǎn)移由概率 決定 , 使用環(huán)境模型計(jì)算 Agent k 的 Q 值同理 , 可以利用 Agent k 的共享經(jīng)驗(yàn)計(jì)算出 Agent j 的估計(jì) 狀態(tài)轉(zhuǎn)移概率 , 估計(jì)報(bào)酬期望 和 Q 值 ,

11、 當(dāng)多個(gè) Agent 共享 每個(gè) Agent 的經(jīng)驗(yàn)時(shí) , 每個(gè) Agent 的估計(jì)環(huán)境模型按上述方程 計(jì)算 。3實(shí)驗(yàn)結(jié)果及分析把 2.3節(jié) 介 紹的 共 享 經(jīng)驗(yàn) 分 布 式 Q -學(xué) 習(xí) 算 法 應(yīng) 用 在 RoboCup 上做了仿真試驗(yàn) , 采用的仿真參數(shù) :, , 試驗(yàn)中另一支隊(duì)伍采用一般隨機(jī)策略 。圖 1不同策略進(jìn)球總數(shù)對(duì)比由圖 1, 可以看出 , 在大約經(jīng)過 150場(chǎng)之后 , 這兩支應(yīng)用不同 的策略的隊(duì)伍開始出現(xiàn)差距 。 由于動(dòng)作協(xié)調(diào)主要體現(xiàn)在傳球配合上 , 因此 , 我們?cè)?150場(chǎng)比賽之后另外分析了傳球 、帶球和控 球時(shí)間三種參數(shù) , 比較結(jié)果如表 1. 試驗(yàn)前期兩支隊(duì)伍并無明

12、顯 的區(qū)別 , 主要原因 :系統(tǒng)的狀態(tài)空間較大 , 學(xué)習(xí)初期共享經(jīng)驗(yàn)策略 中報(bào)酬估計(jì)期望值對(duì) Q 值影響還不大 ; 比賽隨機(jī)性比較大 , 對(duì)比 賽結(jié)果的影響較大 。表 1不同策略參數(shù)對(duì)比4結(jié)論由仿真比賽過程及結(jié)果可知 , 盡管兩支隊(duì)伍在試驗(yàn)的前期 進(jìn)球數(shù)相差不是很大 , 但是在大約 150場(chǎng)比賽之后 , 采用共享經(jīng) 驗(yàn)策略分布式 Q-學(xué)習(xí)模型的隊(duì)伍無論是在進(jìn)球總數(shù)還是在傳球 、 帶球和控球時(shí)間上都有較大的優(yōu)勢(shì) 。 這是由于在學(xué)習(xí)的初 期 , 如果沒有經(jīng)驗(yàn)的共享 , 則該模型和一般隨機(jī)策略差不多 ; 而有 經(jīng)驗(yàn)共享的協(xié)作后 , 可以利用其它 Agent 的經(jīng)驗(yàn)和知識(shí) , 從而球 隊(duì)表現(xiàn)出了較強(qiáng)的

13、競(jìng)爭(zhēng)力 。本文作者創(chuàng)新點(diǎn) :將分布式 Q-學(xué)習(xí)算法與共享經(jīng)驗(yàn)策略模 型相結(jié)合 , 并應(yīng)用于 RoboCup3D 足球仿真比賽策略設(shè)計(jì)中 , 取得 了較好的比賽效果 。 參考文獻(xiàn)1J.Ota.Multi-agentrobot systems as distributed autonomous sys -temsJ.Advancedengineeringinformatics,2006,20(1:59-702TomM.Mitchell,Machine Learning, 曾華軍 , 張銀奎等譯 , 第 1版 , 北京市西城區(qū)百萬莊大街 22號(hào) , 機(jī)械工業(yè)出版社 ,2003(1,112-140,2

14、63-2713程顯毅 , 李淑琴 , 夏德深 . 基于主智能體的群體學(xué)習(xí)算法 GLB -MA 的研究 J。 江蘇大學(xué)學(xué)報(bào) :自然科學(xué)版 ,2005,26(5:437-440.4StoneP.Layered Learning in Multi-Agent SystemsD.Pittsburgh,PA , USA :ComputerScienceDepartment , CarnegieMellonUniversity , 1998. 5黃炳強(qiáng) , 強(qiáng)化學(xué)習(xí)方法及其應(yīng)用研究 , 上海 , 上海交通大學(xué) ,20076張汝波 , 顧國昌 . 強(qiáng)化學(xué)習(xí)理論 、算法及應(yīng)用 J.控制理論與應(yīng) 用 ,2000

15、,17(5:637-6427戴光耀 , 康立山 . 基于遺傳算法的智能機(jī)器人對(duì)抗策略設(shè)計(jì) J.微計(jì)算機(jī)信息 ,2008,12-2:255-259.作者簡(jiǎn)介 :張煌輝 (1985-,男 , 福建漳州人 , 碩士研究生 , 主要研究 領(lǐng)域?yàn)槿斯ぶ悄?; 陳煥文 (1963-,男 , 黑龍江人 , 博士 , 教授 , 主要研究領(lǐng)域?yàn)榧?lì)學(xué)習(xí) 、人工智能等 ; 劉澤文 (1973-,男 , 湖南安仁 人 , 講師 , 碩士研究生 , 主要研究領(lǐng)域?yàn)榧?lì)學(xué)習(xí) 、人工智能等 ; 陳 哲平 (1984-,男 , 福建漳州人 , 碩士研究生 , 主要研究領(lǐng)域?yàn)槿斯?智能 。Biography:ZHANG Hu

16、ang -hui (1985-,M,Zhangzhou Fujian, postgraduate, the Major research area is artificial intelligence. (410076長(zhǎng) 沙 長(zhǎng) 沙 理 工 大 學(xué) 計(jì) 算 機(jī) 與 通 信 工 程 學(xué) 院 張 煌 輝陳煥文 陳哲平(410200長(zhǎng)沙 湖南信息職業(yè)技術(shù)學(xué)院 陳煥文 劉澤文通訊 地 址 :(410200湖 南 省 長(zhǎng)沙 市 望 城 縣 旺 旺 中 路 湖 南 信 息 職 業(yè)技術(shù)學(xué)院科技外事處 劉澤文 轉(zhuǎn) 張煌輝(收稿日期 :2009.03.20(修稿日期 :2009.06.20(上接第 63頁 7侯

17、建華 . 基于 G S M 短消息的智能溫室遠(yuǎn)程監(jiān)控系統(tǒng) J.電 子技術(shù) (上海 .2007,34(9.8韓敏 , 李書琴 , 張靜 , 黃道君 . 智能溫室遠(yuǎn)程監(jiān)控系統(tǒng)的研究與 實(shí)現(xiàn) J.微計(jì)算機(jī)信息 .2003.9馬洪濤 , 趙國良 , 張仁彥 . 遠(yuǎn)程監(jiān)控系統(tǒng)中的無線數(shù)據(jù)傳輸 J.黑龍江科技學(xué)院學(xué)報(bào) .2005,15(5.作者簡(jiǎn)介 :徐慶華 (1965-,男 , 湖北黃石人 , 湖北黃石理工學(xué)院副 教授 , 碩士 , 主要從事機(jī)電控制方面的教學(xué)與研究 。Biography:XU Qing-hua (1965-,Male, Hubei, HuangShi In -stitute of Technology, Associate Professor, Mechanica

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論