共享經(jīng)驗(yàn)分布式Q_學(xué)習(xí)模型在RoboCup中的應(yīng)用

上傳人：7*** IP屬地：湖北上傳時(shí)間：2022-02-19 格式：DOC 頁數(shù)：8 大?。?3KB 積分：20 舉報(bào) 版權(quán)申訴

共享經(jīng)驗(yàn)分布式Q_學(xué)習(xí)模型在RoboCup中的應(yīng)用_第2頁

共享經(jīng)驗(yàn)分布式Q_學(xué)習(xí)模型在RoboCup中的應(yīng)用_第3頁

共享經(jīng)驗(yàn)分布式Q_學(xué)習(xí)模型在RoboCup中的應(yīng)用_第4頁

共享經(jīng)驗(yàn)分布式Q_學(xué)習(xí)模型在RoboCup中的應(yīng)用_第5頁

已閱讀5頁，還剩3頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、郵局訂閱號(hào) :/年技術(shù) 創(chuàng) 新人工智能PLC 技術(shù)應(yīng)用 200例共享經(jīng)驗(yàn)分布式 Q-學(xué)習(xí)模型在 RoboCup 中的應(yīng)用Application of the Experience-shared Distributed Q-learning Model in RoboCup(1.長(zhǎng)沙理工大學(xué) ;2. 湖南信息職業(yè)技術(shù)學(xué)院張煌輝1陳煥文1,2劉澤文2陳哲平1ZHANG Huang-hui CHEN Huan-wen LIU Ze-wen CHEN Zhe-ping摘要 :RoboCup 仿真比賽平臺(tái) 提供了一個(gè) 完全分布式控制、實(shí) 時(shí) 異步多

2、智能體的環(huán) 境 , 從而為多智能體的智能控制和人工智能理論的研究提供了絕佳的實(shí) 驗(yàn) 平臺(tái) 。文中提出了一種基于共享經(jīng) 驗(yàn) 策略的分布式 Q-學(xué) 習(xí) 模型 , 應(yīng) 用于 RoboCup 仿真實(shí) 驗(yàn) 中 , 取得了較好的效果。關(guān)鍵詞 :共享經(jīng)驗(yàn) ; 分布式 Q-學(xué)習(xí) ; 多智能體 ; RoboCup 中圖分類號(hào) :TP181文獻(xiàn)標(biāo)識(shí)碼 :AAbstract:Robocup soccer simulation provides a totally distributed con

3、trol and real -time asynchronous multi -agent environment.It is an excellent platform for the research of multi -agent intelligent control and artificial intelligence theory.The paper presents a model based on the experience-shared distributed Q-learning,which is used in Robocup simulation experimen

4、ts and gets a good result. Key words:experience-shared; distributed Q-learning; Multi-Agent; RoboCup文章編號(hào) :1008-0570(201003-2-0025-021引言多 Agent 系統(tǒng) (Multi-AgentSystem,MAS 是由異構(gòu) 、分布、動(dòng) 態(tài) 、大規(guī)模、自治 Agent 松散耦合所構(gòu)成的大型復(fù)雜系統(tǒng) , 這些 Agent 相互作用以解決由單一個(gè)體的能力和知識(shí)所不能處理的復(fù)雜問題。對(duì)多 Agent 系統(tǒng)的研究源于分布式人工智能。RoboCup 仿真組作為足球

5、機(jī)器人比賽中的一項(xiàng) , 無需硬件 , 整個(gè)體系由服務(wù)器和客戶端程序組組成。每一個(gè)參賽隊(duì)包括十一個(gè) (或者三個(gè) 、五個(gè) 全自治的隊(duì)員和一個(gè)在線教練 , 服務(wù)器即是官方提供的比賽平臺(tái) 。在 RoboCup 比賽平臺(tái)中 , 各個(gè)隊(duì)員 (即這些同構(gòu)的 Agent 有一個(gè)共同的目標(biāo) , 就是把球踢進(jìn)對(duì)方的球門 , 這些 Agent 共享相同的動(dòng)作集。如果在這些同構(gòu)的 Agent 之間可以通過共享每個(gè) Agent 的經(jīng)驗(yàn)來構(gòu)建模型 , 那么就能減少所需訓(xùn)練 , 從而加快學(xué)習(xí)過程。本文提出了一種基于共享經(jīng)驗(yàn)策略的分布式 Q-學(xué)習(xí)模型 , 并在 RoboCup 3D(11vs11比賽

6、中做了實(shí)驗(yàn) , 取得了較好的效果。2共享經(jīng)驗(yàn)分布式 Q-學(xué)習(xí)模型多智能體系統(tǒng)中的強(qiáng)化學(xué)習(xí)過程可以是集中式的 , 也可以是分布式的。集中式強(qiáng)化學(xué)習(xí)通常把整個(gè)多 Agent 系統(tǒng)的協(xié)作機(jī)制看成學(xué)習(xí)的目標(biāo) , 承擔(dān)學(xué)習(xí)任務(wù)的是一個(gè)全局性的中央學(xué) 習(xí)單元 , 這個(gè)學(xué)習(xí)單元以整個(gè) MAS 的整體狀態(tài)為輸入 , 以對(duì)各個(gè) Agent 的動(dòng)作指派為輸出 , 采用標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)方法進(jìn)行學(xué) 習(xí) , 逐漸形成一個(gè)最優(yōu)的協(xié)作機(jī)制。與集中式強(qiáng)化學(xué)習(xí)相對(duì)應(yīng) , 分布式強(qiáng)化學(xué)習(xí)系統(tǒng)中各個(gè) Agent 都是學(xué)習(xí)的主體 , 它們分別學(xué)習(xí)對(duì)環(huán)境的相應(yīng)策略和相互之間的協(xié)作策略。2.1分布式 Q-學(xué)習(xí)算法最開

7、始 Q-學(xué)習(xí)的提出是針對(duì)單個(gè) Agent 的 , 而 RoboCup 所關(guān)注的是多個(gè) Agent 如何學(xué)習(xí)在對(duì)抗環(huán)境下協(xié)同工作 , 以完成把球送進(jìn)對(duì)方球門這樣一個(gè)共同的目標(biāo) 。文獻(xiàn)引入群體強(qiáng)化學(xué)習(xí)方法 , 該方法將所有智能體的狀態(tài)或動(dòng)作看作組合狀態(tài)或組合動(dòng)作 , 每個(gè)智能體維護(hù)的 Q-表都是組合狀態(tài)和組合動(dòng)作到 Q 值的映射 , 但學(xué)習(xí)速度比較慢 , 采用結(jié)構(gòu)化存儲(chǔ)的 MBCL(MemoryBase Co-Learning 和 TBCL(TreeBased co-learning 兩種算法雖加快了學(xué)習(xí)速度 , 但并沒有解決動(dòng)作空間和狀態(tài)空間組合爆炸問題。2.2共享經(jīng)驗(yàn)策略模型Ag

8、ent 的經(jīng)驗(yàn)是指在狀態(tài) 下選擇動(dòng)作 a 轉(zhuǎn)移到狀態(tài) , 獲得環(huán)境強(qiáng)化信號(hào) 所組成的四元組 <,a, , >,Agent向外傳播自己的經(jīng)驗(yàn)可以使得其它 Agent 無須等到自己也經(jīng)歷這個(gè) 四元組后才獲得此狀態(tài)下的反應(yīng)策略。定義為 Agent k 選擇動(dòng)作 a 從狀態(tài) 轉(zhuǎn)移到狀態(tài) 的訪問次數(shù) , 每訪問一次 , 該 N 值增一。 Bayesian 公式提供了從先驗(yàn)概率計(jì)算后驗(yàn)概率的方法 , 根據(jù) Bayesian 公式 , 可得 :(1式中 , 為 Agent i 、 Agent k 采取聯(lián)合動(dòng)作后到達(dá) 狀態(tài) 的狀態(tài)轉(zhuǎn)移概率 , 它們可由環(huán)境知識(shí)得到。對(duì) 的估計(jì)由

9、代替 , 則其它 Agent 相應(yīng)的聯(lián)合動(dòng)作概率可表示為 :由此 , 可得估計(jì)狀態(tài)轉(zhuǎn)移概率:(2定義為 Agent k 在狀態(tài) 選擇動(dòng)作 a 收到的立即報(bào)酬 , 則報(bào)酬估計(jì)期望為(32.3共享經(jīng)驗(yàn)分布式 -Q 學(xué)習(xí)模型Agent k 和 Agent j 共享經(jīng)驗(yàn)策略時(shí) , 利用 Agent j 的共享經(jīng) 驗(yàn)估計(jì)環(huán)境模型 , 給出方法如下 :(1更新 Agent k 選擇動(dòng)作 a, 由狀態(tài) 轉(zhuǎn)移到狀態(tài)的訪問次數(shù) :張煌輝 :碩士研究生25-技術(shù) 創(chuàng) 新微計(jì)算機(jī)信息 (嵌入式與 SOC2010年第 26卷第 3-2期元年郵局訂閱號(hào) 現(xiàn)場(chǎng)總線技術(shù)應(yīng)用 200例人工智能(2當(dāng)其它

10、 Agent 中的任一 Agent j 選擇動(dòng)作 a 從狀態(tài) 轉(zhuǎn)移到狀態(tài) , 使用 Agent j 的經(jīng)驗(yàn)更新 Agent k 的 N:(3根據(jù)式 (2,計(jì)算 Agent k 估計(jì)狀態(tài)轉(zhuǎn)移概率 :(4根據(jù)式 (3,計(jì)算 Agent k 的報(bào)酬估計(jì)期望值 :(5當(dāng) Agent j 選擇動(dòng)作 a 從狀態(tài) 轉(zhuǎn)移到狀態(tài), 使用 A -gent j 的經(jīng)驗(yàn)更新 Agent k 的報(bào)酬估計(jì)期望值 :學(xué)習(xí)過程中 , 狀態(tài)轉(zhuǎn)移由概率決定 , 使用環(huán)境模型計(jì)算 Agent k 的 Q 值同理 , 可以利用 Agent k 的共享經(jīng)驗(yàn)計(jì)算出 Agent j 的估計(jì) 狀態(tài)轉(zhuǎn)移概率 , 估計(jì)報(bào)酬期望和 Q 值 ,

11、當(dāng)多個(gè) Agent 共享每個(gè) Agent 的經(jīng)驗(yàn)時(shí) , 每個(gè) Agent 的估計(jì)環(huán)境模型按上述方程計(jì)算。3實(shí)驗(yàn)結(jié)果及分析把 2.3節(jié) 介紹的共享經(jīng)驗(yàn) 分布式 Q -學(xué) 習(xí) 算法應(yīng) 用在 RoboCup 上做了仿真試驗(yàn) , 采用的仿真參數(shù) :, , 試驗(yàn)中另一支隊(duì)伍采用一般隨機(jī)策略。圖 1不同策略進(jìn)球總數(shù)對(duì)比由圖 1, 可以看出 , 在大約經(jīng)過 150場(chǎng)之后 , 這兩支應(yīng)用不同的策略的隊(duì)伍開始出現(xiàn)差距。由于動(dòng)作協(xié)調(diào)主要體現(xiàn)在傳球配合上 , 因此 , 我們?cè)?150場(chǎng)比賽之后另外分析了傳球、帶球和控球時(shí)間三種參數(shù) , 比較結(jié)果如表 1. 試驗(yàn)前期兩支隊(duì)伍并無明

12、顯的區(qū)別 , 主要原因 :系統(tǒng)的狀態(tài)空間較大 , 學(xué)習(xí)初期共享經(jīng)驗(yàn)策略中報(bào)酬估計(jì)期望值對(duì) Q 值影響還不大 ; 比賽隨機(jī)性比較大 , 對(duì)比賽結(jié)果的影響較大。表 1不同策略參數(shù)對(duì)比4結(jié)論由仿真比賽過程及結(jié)果可知 , 盡管兩支隊(duì)伍在試驗(yàn)的前期進(jìn)球數(shù)相差不是很大 , 但是在大約 150場(chǎng)比賽之后 , 采用共享經(jīng) 驗(yàn)策略分布式 Q-學(xué)習(xí)模型的隊(duì)伍無論是在進(jìn)球總數(shù)還是在傳球、帶球和控球時(shí)間上都有較大的優(yōu)勢(shì) 。這是由于在學(xué)習(xí)的初期 , 如果沒有經(jīng)驗(yàn)的共享 , 則該模型和一般隨機(jī)策略差不多 ; 而有經(jīng)驗(yàn)共享的協(xié)作后 , 可以利用其它 Agent 的經(jīng)驗(yàn)和知識(shí) , 從而球隊(duì)表現(xiàn)出了較強(qiáng)的

13、競(jìng)爭(zhēng)力。本文作者創(chuàng)新點(diǎn) :將分布式 Q-學(xué)習(xí)算法與共享經(jīng)驗(yàn)策略模型相結(jié)合 , 并應(yīng)用于 RoboCup3D 足球仿真比賽策略設(shè)計(jì)中 , 取得了較好的比賽效果。參考文獻(xiàn)1J.Ota.Multi-agentrobot systems as distributed autonomous sys -temsJ.Advancedengineeringinformatics,2006,20(1:59-702TomM.Mitchell,Machine Learning, 曾華軍 , 張銀奎等譯 , 第 1版 , 北京市西城區(qū)百萬莊大街 22號(hào) , 機(jī)械工業(yè)出版社 ,2003(1,112-140,2

14、63-2713程顯毅 , 李淑琴 , 夏德深 . 基于主智能體的群體學(xué)習(xí)算法 GLB -MA 的研究 J。江蘇大學(xué)學(xué)報(bào) :自然科學(xué)版 ,2005,26(5:437-440.4StoneP.Layered Learning in Multi-Agent SystemsD.Pittsburgh,PA , USA :ComputerScienceDepartment , CarnegieMellonUniversity , 1998. 5黃炳強(qiáng) , 強(qiáng)化學(xué)習(xí)方法及其應(yīng)用研究 , 上海 , 上海交通大學(xué) ,20076張汝波 , 顧國昌 . 強(qiáng)化學(xué)習(xí)理論、算法及應(yīng)用 J.控制理論與應(yīng) 用 ,2000

15、,17(5:637-6427戴光耀 , 康立山 . 基于遺傳算法的智能機(jī)器人對(duì)抗策略設(shè)計(jì) J.微計(jì)算機(jī)信息 ,2008,12-2:255-259.作者簡(jiǎn)介 :張煌輝 (1985-,男 , 福建漳州人 , 碩士研究生 , 主要研究領(lǐng)域?yàn)槿斯ぶ悄?; 陳煥文 (1963-,男 , 黑龍江人 , 博士 , 教授 , 主要研究領(lǐng)域?yàn)榧?lì)學(xué)習(xí) 、人工智能等 ; 劉澤文 (1973-,男 , 湖南安仁人 , 講師 , 碩士研究生 , 主要研究領(lǐng)域?yàn)榧?lì)學(xué)習(xí) 、人工智能等 ; 陳哲平 (1984-,男 , 福建漳州人 , 碩士研究生 , 主要研究領(lǐng)域?yàn)槿斯?智能。Biography:ZHANG Hu

16、ang -hui (1985-,M,Zhangzhou Fujian, postgraduate, the Major research area is artificial intelligence. (410076長(zhǎng) 沙長(zhǎng) 沙理工大學(xué) 計(jì) 算機(jī) 與通信工程學(xué) 院張煌輝陳煥文陳哲平(410200長(zhǎng)沙湖南信息職業(yè)技術(shù)學(xué)院陳煥文劉澤文通訊地址 :(410200湖南省長(zhǎng)沙市望城縣旺旺中路湖南信息職業(yè)技術(shù)學(xué)院科技外事處劉澤文轉(zhuǎn) 張煌輝(收稿日期 :2009.03.20(修稿日期 :2009.06.20(上接第 63頁 7侯

17、建華 . 基于 G S M 短消息的智能溫室遠(yuǎn)程監(jiān)控系統(tǒng) J.電子技術(shù) (上海 .2007,34(9.8韓敏 , 李書琴 , 張靜 , 黃道君 . 智能溫室遠(yuǎn)程監(jiān)控系統(tǒng)的研究與實(shí)現(xiàn) J.微計(jì)算機(jī)信息 .2003.9馬洪濤 , 趙國良 , 張仁彥 . 遠(yuǎn)程監(jiān)控系統(tǒng)中的無線數(shù)據(jù)傳輸 J.黑龍江科技學(xué)院學(xué)報(bào) .2005,15(5.作者簡(jiǎn)介 :徐慶華 (1965-,男 , 湖北黃石人 , 湖北黃石理工學(xué)院副教授 , 碩士 , 主要從事機(jī)電控制方面的教學(xué)與研究。Biography:XU Qing-hua (1965-,Male, Hubei, HuangShi In -stitute of Technology, Associate Professor, Mechanica

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

共享經(jīng)驗(yàn)分布式Q_學(xué)習(xí)模型在RoboCup中的應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

共享經(jīng)驗(yàn)分布式Q_學(xué)習(xí)模型在RoboCup中的應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔