多機(jī)器人動(dòng)態(tài)編隊(duì)的強(qiáng)化學(xué)習(xí)算法研究_第1頁(yè)
多機(jī)器人動(dòng)態(tài)編隊(duì)的強(qiáng)化學(xué)習(xí)算法研究_第2頁(yè)
多機(jī)器人動(dòng)態(tài)編隊(duì)的強(qiáng)化學(xué)習(xí)算法研究_第3頁(yè)
多機(jī)器人動(dòng)態(tài)編隊(duì)的強(qiáng)化學(xué)習(xí)算法研究_第4頁(yè)
多機(jī)器人動(dòng)態(tài)編隊(duì)的強(qiáng)化學(xué)習(xí)算法研究_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 10 期 王醒策等 : 多機(jī)器人動(dòng)態(tài)編隊(duì)的強(qiáng)化學(xué)習(xí)算法研究 1449 圖 7 和圖 8 是系統(tǒng)學(xué)習(xí) 20 萬次過程中得到的 R ( t 和 Err ( t , 由于空間限制 , 每學(xué)習(xí) 100 次之后計(jì)算 一次 R ( t 1 圖6 在不同的地圖中的編隊(duì) 線形而順利地通過這一區(qū)域 , 如圖 4 所示1 在圖 5 中 ,隊(duì)列的環(huán)境又比較寬松后 ,隊(duì)形會(huì)很快地調(diào)整到 鉆形1 該方法有很好的泛化能力 , 在圖 6 所示的地 圖中 ,機(jī)器人同樣可完成編隊(duì)任務(wù)1 312 實(shí)驗(yàn)結(jié)果分析 編隊(duì)任務(wù)是一個(gè)既體現(xiàn)個(gè)體機(jī)器人自主性又體 現(xiàn)隊(duì)伍的整體性的任務(wù)1 在整個(gè)任務(wù)中 , 機(jī)器人既 有沖突消減 , 又有相互

2、協(xié)作1 判定這種復(fù)雜任務(wù)的 有效性 ,除了人主觀感覺外 ,還需要客觀定量的數(shù)據(jù) 分析1 下面定義 4 個(gè)指標(biāo)來評(píng)價(jià)算法 : ( 1 機(jī)器人平均強(qiáng)化信號(hào) 機(jī)器人平均強(qiáng)化信號(hào)定義為 n 1 i ( ( R t = n i =1 圖7 機(jī)器人的平均強(qiáng)化信號(hào) 圖8 機(jī)器人的強(qiáng)化信號(hào)方差 r t , 其中 , r i ( t 是機(jī)器人 i 在第 t 次學(xué)習(xí)時(shí)的強(qiáng)化信 號(hào) ; n 為機(jī)器人個(gè)數(shù)1 ( 2 機(jī)器人強(qiáng)化信號(hào)的方差 機(jī)器人強(qiáng)化信號(hào)的方差定義為 2 Err ( t = ( R ( t - R , 其中 : R = 1 N N t =1 R ( t , N 為 R ( t 點(diǎn)的個(gè)數(shù)1 ( 3 機(jī)器人

3、隊(duì)形整齊度評(píng)價(jià)函數(shù) 機(jī)器人隊(duì)形整齊度評(píng)價(jià)函數(shù) D ( T , L 定義為 n 一個(gè)強(qiáng)化學(xué)習(xí)算法的性能需要兩方面的判定 , 一個(gè)是算法的收斂性 , 一個(gè)是算法的收斂速度1 從 圖 7 中可以看出 , 系統(tǒng)經(jīng)過幾千次的學(xué)習(xí)后 , 算法出 現(xiàn)收斂的趨勢(shì) , 在學(xué)習(xí)初始過程 , R ( t 的震蕩幅度 較大1 經(jīng)過 20 萬次的學(xué)習(xí)之后 , R ( t 振蕩幅度就很 小了 , 可認(rèn)為已經(jīng)很好地收斂了1 但是實(shí)驗(yàn)表明 , 經(jīng) 進(jìn)一步的學(xué)習(xí)之后 , R ( t 的振幅會(huì)再次增強(qiáng) , 出現(xiàn) 過度學(xué)習(xí)現(xiàn)象1 圖 8 也說明同樣的問題1 圖 9 和圖 10 是系統(tǒng)從 4 萬次學(xué)習(xí)之后開始測(cè) 試 ,每學(xué)習(xí) 2 萬

4、次后 , 在圖 4 的地圖路徑上多次行 走后 D ( T , L 和 G ( T , L 的均值1 測(cè)試結(jié)果如下 所示 : D( T , L = dis ( pos ( i , L , t , t i =1 ( i , L , t , pos ( 13 式中 , D ( T , L 表示在學(xué)習(xí)了 T 次 、 走完路徑 L 之 后 , n 個(gè)機(jī)器人每步所處的位置和應(yīng)處的位置差的 和 , 其中 dis ( x , y 表示 x 點(diǎn)與 y 點(diǎn)之間歐式距離1 pos ( i , L , t 表示機(jī)器人 i 在路徑 L 上 t 時(shí)刻的實(shí) ( i , L , t 表示機(jī)器人 i 在路徑 L 上 t 時(shí) 際

5、位置 , pos 刻的隊(duì)形期望位置1 ( 4 機(jī)器人隊(duì)形變化函數(shù) 機(jī)器人隊(duì)形變化函數(shù) G ( T , L 表示系統(tǒng)學(xué)習(xí) 了 T 次、 走完路徑 L 之后 , 系統(tǒng)隊(duì)形變化次數(shù)1 R ( t 和 Err ( t 表示系統(tǒng)對(duì)學(xué)習(xí)結(jié)果的評(píng)價(jià)1 圖9 在圖 4 路徑中 D ( T , L 曲線 1450 計(jì)算機(jī)研究與發(fā)展 6 2003 年 Akihide Hiura1 Cooperative behavior of various agents in dynamic environment1 Journal of Computers and Industrial Engineering , 1997

6、, 33 (324 : 601604 7 蔡慶生 , 張波1 一種基于 Agent 團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)模型與應(yīng)用研 究1 計(jì)算機(jī)研究與發(fā)展 , 2000 , 37 (9 : 10871093 (Cai Qingsheng , Zhang Bo 1 An agent team based reinforcement learning model and its application1 Journal of Computer Research and Development (in Chinese , 2000 , 37 (9 : 10871093 8 Tucker Balch , Ronald C

7、 Arkin1 Behavior2based formation control for multirobot teams1 IEEE Trans on Robotics and Automation , 1998 , 14 (6 : 926939 9 Jaydev P Desai , Vijay Kumar , James P Ostrowski1 Control of changes in formation for a team of mobile robots1 The 1999 IEEE Int l Conf on Robotic & Automation , Detroit , M

8、ichigan , 1999 圖 10 在圖 4 路徑中 D ( T , L 曲線 10 強(qiáng)化信號(hào)是評(píng)價(jià)模塊產(chǎn)生系統(tǒng)用來評(píng)價(jià)選擇行 為好壞的 , 僅由這一個(gè)量來評(píng)價(jià)算法有失客觀1 針 對(duì)編隊(duì)任務(wù) , 定義的 D ( T , L 表示機(jī)器人保持隊(duì)形 完整的能力 , D ( T , L 表示機(jī)器人對(duì)地形的適應(yīng)能 力1 由圖 9 和圖 10 可知 , 多次學(xué)習(xí)后 , 機(jī)器人群體 這兩方面的能力都得到了很大的提高1 從仿真實(shí)驗(yàn) 結(jié)果和 4 方面數(shù)據(jù)可判定 , 經(jīng)過多次的訓(xùn)練之后 , 系 統(tǒng)可以得到滿意的編隊(duì)結(jié)果1 W Kang1 Formation control of multiple autono

9、mous vehicles1 The IEEE 1999 Int l Conf on Robotics and Automation , San Francis2 co , 2000 11 12 Hiroaki Yamaguchi1 A cooperative hunting behavior by mobile2 robot troops1 Robotic and Research , 1999 , 18 (8 : 931940 陳衛(wèi)東 ,董勝龍1 基于開放式多智能體結(jié)構(gòu)的分布式自主機(jī)器 人系統(tǒng)1 機(jī)器人 , 2000 , 22 (6 : 433438 (Chen Weidong , Don

10、g Shenglong1 An open multi2agent architec2 ture for distributed autonomous robot systems1 Robot ( in Chi2 nese , 2000 , 22 (6 : 433438 13 Tucker Balch1 Behavior2based formation control for multirobots teams1 IEEE Trans on Robotics and Automation , 1998 , 14 ( 6 : 926939 4 結(jié) 論 14 本文介紹了應(yīng)用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)編隊(duì)行為規(guī)劃的

11、 算法1 通過仿真實(shí)驗(yàn)可以看出 , 經(jīng)過一定次數(shù)的學(xué) 習(xí) ,系統(tǒng)可以基本滿足在有障空間內(nèi)的自主編隊(duì)的 需要 ,體現(xiàn)了編隊(duì)的自主化和智能化的要求1 15 張汝波 , 楊廣銘1 Q2學(xué)習(xí)及其在智能機(jī)器人局部路徑規(guī)劃中的 應(yīng)用研究1 計(jì)算機(jī)研究與發(fā)展 , 1999 , 36 (12 : 14301436 (Zhang Rubo , Yang Guangming1 Q2Learning and its application in local pat h planning of intelligent robot 1 Journal of Computer Re2 search and Develop

12、ment ( in Chinese , 1999 , 36 ( 12 : 1430 1436 J C H Wat kins1 Q2learning1 Machine Learning , 1992 , 8 (3 : 279 參 1 考 文 獻(xiàn) 292 王醒策 女 ,1977 年生 , 博士研究生 , 張汝波 , 顧國(guó)昌1 強(qiáng)化學(xué)習(xí)理論 、 算法及應(yīng)用1 控制理論與應(yīng) 用 , 2000 , 17 (10 : 637641 ( Zhang Rubo , Gu Guochang1 Reinforcement learning t heory , al2 gorit hms and its appli

13、cation1 Control Theory and Its Application (in Chinese , 2000 , 17 (10 : 637641 主要研究方向?yàn)槎鄼C(jī)器人系統(tǒng) 、 強(qiáng)化學(xué)習(xí) 、 人工生命1 2 Leslie Laelbling , Michael L Litt man1 Reinforcement learning : A survey1 Journal of Artificial Intelligence Research , 1996 , 4 ( 1 : 237285 3 Ming Tan1 Multi2agent reinforcement learning

14、: Independence vs cooperation agents1 In : Proc of t he 10t h Int l Conf on Machine Learning1 Amherst : University of Massachusetts , 19931 330 337 張汝波 男 ,1963 年生 ,教授 ,主要研 究方向?yàn)闄C(jī)器學(xué)習(xí) 、 計(jì)算智能 、 智能機(jī)器 人 ,獲國(guó)家及部級(jí)獎(jiǎng) 4 項(xiàng) , 發(fā)表論文 60 余 篇1 4 J unling Hu , Michael P Wellmen1 Multi2agent reinforcement learn2 ing: Theoretical framework and an algorit hm1 The 15t h Int l Conf on Machine Learning , Madision Wisconsin , 1998 5 Michael L Litt man1 Markov games as a fram

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論