初態(tài)學(xué)習(xí)下的多智能體一致性迭代學(xué)習(xí)控制_第1頁(yè)
初態(tài)學(xué)習(xí)下的多智能體一致性迭代學(xué)習(xí)控制_第2頁(yè)
初態(tài)學(xué)習(xí)下的多智能體一致性迭代學(xué)習(xí)控制_第3頁(yè)
初態(tài)學(xué)習(xí)下的多智能體一致性迭代學(xué)習(xí)控制_第4頁(yè)
初態(tài)學(xué)習(xí)下的多智能體一致性迭代學(xué)習(xí)控制_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、初態(tài)學(xué)習(xí)下的多智能體一致性迭代學(xué)習(xí)控制近年來(lái),由于復(fù)雜系統(tǒng)先進(jìn)理論的發(fā)展和多智能體在生物、物理、機(jī)器人、交通以及控制工程等領(lǐng)域的廣泛應(yīng)用,多智能分布式協(xié)同控制系統(tǒng)受到了廣泛的研究。一致性、群集、編隊(duì)、集結(jié)等問(wèn)題成為了重要的研究熱點(diǎn),并且共同的目標(biāo)是開(kāi)發(fā)分布式的方案或協(xié)議來(lái)確保復(fù)雜全局目標(biāo)的實(shí)現(xiàn)。特別的,一致性是多智能體系統(tǒng)協(xié)調(diào)控制的一類重要問(wèn)題,所謂的一致性是指多智能體網(wǎng)絡(luò)中每個(gè)多智能體所關(guān)注的狀態(tài)達(dá)到一致。在一致性實(shí)現(xiàn)過(guò)程中,每個(gè)智能體的控制策略取決于自身狀態(tài)以及相鄰的多智能體信息,一般常采用拓?fù)鋱D來(lái)描述多智能體之間的信息交換。由于采用分布式控制策略,相比于集中控制具有更好的魯棒性和可擴(kuò)展性

2、。迭代學(xué)習(xí)控制是一種被廣泛應(yīng)用于工程應(yīng)用的學(xué)習(xí)控制策略,最早于1984由Arimoto等人正式提出。迭代學(xué)習(xí)控制適于有限時(shí)間區(qū)間上可重復(fù)運(yùn)行的系統(tǒng),它通過(guò)應(yīng)用先前試驗(yàn)得到的信息來(lái)修正不理想的輸入信號(hào),改善跟蹤性能。迭代學(xué)習(xí)控制方法用于解決多智能體系統(tǒng)問(wèn)題已經(jīng)有了大量的研究。最早將迭代學(xué)習(xí)控制算法用于多智能體系統(tǒng)協(xié)調(diào)控制問(wèn)題出現(xiàn)在Ahn5的文章,主要考慮用于多智能體編隊(duì)問(wèn)題。之后,文獻(xiàn)6-9中采用迭代學(xué)習(xí)控制算法處理多智能體系統(tǒng)的一致性跟蹤問(wèn)題。文獻(xiàn)10討論了迭代學(xué)習(xí)控制方法處理高階多智能體系統(tǒng)協(xié)調(diào)控制問(wèn)題。傳統(tǒng)提法的迭代學(xué)習(xí)控制對(duì)初始定位有著嚴(yán)格的要求,規(guī)定在每次迭代時(shí),初始狀態(tài)都要和期望初態(tài)

3、一致。文獻(xiàn)11中給出了初態(tài)偏移下的多智能體系統(tǒng)在D型和PD型學(xué)習(xí)律下的極限軌跡,表明了初始定位誤差對(duì)多智能體一致性跟蹤型性能的影響。文獻(xiàn)12,13提出帶初態(tài)修正的迭代學(xué)習(xí)算法,實(shí)現(xiàn)了多智能體系統(tǒng)在給定區(qū)間上的完全跟蹤。本文討論多智能體系統(tǒng)初態(tài)學(xué)習(xí)下的一致性跟蹤問(wèn)題。與經(jīng)典迭代學(xué)習(xí)控制中要求的初始狀態(tài)條件相比較,討論放寬初始狀態(tài)條件是更有工程應(yīng)用意義的。初態(tài)學(xué)習(xí)可以放寬初始狀態(tài)條件,它允許初始狀態(tài)可以不精確定位在期望初態(tài)上。文獻(xiàn)12,13分別將文獻(xiàn)14中的單個(gè)系統(tǒng)初態(tài)學(xué)習(xí)律應(yīng)用于非線性時(shí)變和線性時(shí)變多智能體系統(tǒng),形象地以提出多智能體系統(tǒng)初態(tài)學(xué)習(xí)律這種形式放寬了初始定位條件。但該多智能體系統(tǒng)初態(tài)學(xué)

4、習(xí)律要求:( 1)多智能體系統(tǒng)的輸入矩陣精確已知;( 2)迭代過(guò)程中的初態(tài)需要嚴(yán)格的落在由初態(tài)學(xué)習(xí)律確定的軌跡上,僅有第一次的初態(tài)是可任意給定的。本文針對(duì)多智能體系統(tǒng),給出新的初態(tài)學(xué)習(xí)律,不對(duì)輸入矩陣做要求,且初態(tài)收斂條件也與輸入矩陣無(wú)關(guān)。在文獻(xiàn)12,13中的初態(tài)學(xué)習(xí)律的學(xué)習(xí)增益與輸入學(xué)習(xí)律的學(xué)習(xí)增益相同,因而導(dǎo)致了迭代過(guò)程中初始狀態(tài)的嚴(yán)格定位。而本文中的兩個(gè)學(xué)習(xí)律增益可以不同,這樣使得多智能體系統(tǒng)在迭代過(guò)程允許初態(tài)在一定范圍內(nèi)變動(dòng),相比已有的初態(tài)學(xué)習(xí)律,具有更強(qiáng)的魯棒性。1 問(wèn)題的提出考慮一組由N個(gè)同類動(dòng)態(tài)智能體構(gòu)成的多智能體系統(tǒng),且其第j個(gè)智能體的動(dòng)力學(xué)方程可用如下的線性時(shí)不變模型來(lái)描述(

5、 1)其中k表示迭代次數(shù),和分別為智能體j的狀態(tài)向量,輸出向量和控制輸入,A,B,C是相應(yīng)維數(shù)的常數(shù)矩陣且滿足假設(shè)。假設(shè)為任意給定有限時(shí)間內(nèi)的期望參考軌跡,可由如下方程產(chǎn)生( 2)其中為唯一且存在的期望輸入,對(duì)于執(zhí)行重復(fù)任務(wù)的多智能體系統(tǒng)(1),目標(biāo)是通過(guò)迭代學(xué)習(xí)的過(guò)程,最終找到與期望輸入一致的輸入,使智能體運(yùn)行軌跡在有限時(shí)間內(nèi)對(duì)期望軌跡完全跟蹤。為闡述后續(xù)問(wèn)題的需要,這里首先介紹圖論的相關(guān)知識(shí)。利用圖論中的無(wú)向圖來(lái)描述多智能體間通信的關(guān)系拓?fù)浣Y(jié)構(gòu)。令表示一個(gè)帶權(quán)無(wú)向圖,其中該圖的節(jié)點(diǎn),邊界。A表示鄰接矩陣。對(duì)于多智能體系統(tǒng)來(lái)說(shuō),v中的每一個(gè)節(jié)點(diǎn)代表一個(gè)多智能體。兩個(gè)可以相互傳遞信息的智能體節(jié)

6、點(diǎn)i和j之間構(gòu)成的邊界表示為,智能體i的鄰居節(jié)點(diǎn)表示為,而智能體節(jié)點(diǎn)i和j的聯(lián)系用帶權(quán)鄰接矩陣表示,其中對(duì)角線元素,若節(jié)點(diǎn)i和j之間有聯(lián)系,則有;否則,。圖乙的Laplacian矩陣定義為,其中,。受限于多智能體分布式通信結(jié)構(gòu),導(dǎo)致只有部分跟蹤智能體能直接獲得領(lǐng)導(dǎo)者軌跡的信息。令跟蹤多智能體之間的關(guān)系用圖乙來(lái)描述,若虛擬領(lǐng)導(dǎo)者為智能體0,則所有多智能體之間(包含虛擬領(lǐng)導(dǎo)者)完整的信息流動(dòng)關(guān)系可以用新的圖,其中為新的邊界集,這時(shí)智能體i與虛擬領(lǐng)導(dǎo)者之間的聯(lián)系用Si表示,Si>0表示智能體與虛擬領(lǐng)導(dǎo)者存在直接聯(lián)系;否則,Si=0。原始提法的迭代學(xué)習(xí)控制對(duì)于每一次迭代,都要求系統(tǒng)初態(tài)嚴(yán)格設(shè)置在

7、期望初態(tài)上。這對(duì)于多智能體系統(tǒng)很難實(shí)現(xiàn),主要存在以下問(wèn)題:(1)多智能體系統(tǒng)模型的不確定性影響期望初態(tài)的確定;(2)多智能體跟蹤的是由虛擬領(lǐng)導(dǎo)者給定的期望參考軌跡,針對(duì)動(dòng)態(tài)方程不同的各智能體對(duì)應(yīng)的真實(shí)初始狀態(tài)是未知的;(3)多智能體系統(tǒng)對(duì)于給定初始狀態(tài)的定位所能達(dá)到的精確程度。以上問(wèn)題表明了對(duì)多智能體系統(tǒng)而言,每次迭代時(shí)都將初態(tài)設(shè)置在期望初態(tài)上這一要求是苛刻的。受啟發(fā)于文獻(xiàn)17中的初態(tài)學(xué)習(xí)方法,本文針對(duì)多智能體初態(tài)偏移以及迭代過(guò)程中的定位誤差,提出初態(tài)學(xué)習(xí)下的迭代學(xué)習(xí)控制方法,該方法放寬了初始定位要求,無(wú)需多智能體在迭代過(guò)程中一律要求嚴(yán)格地將系統(tǒng)初態(tài)精確定位在某一具體位置上。根據(jù)式(1)描述的

8、多智能體系統(tǒng),由于滿足,知此系統(tǒng)是一階完全非正則的,本文提出初態(tài)學(xué)習(xí)律:(3)若則當(dāng)時(shí),收斂于。定義,。對(duì)于給定的初始狀態(tài)和期望初態(tài),不要求嚴(yán)格設(shè)置在某一精確位置上,只要落在上就可以保證算法收斂性。而集合會(huì)隨著靠近逐漸縮?。划?dāng)時(shí),之后初態(tài)不再變化。因此,文中提出的初態(tài)學(xué)習(xí)下的學(xué)習(xí)控制算法關(guān)于初態(tài)誤差具有魯棒收斂性,它不需要在迭代過(guò)程一律要求嚴(yán)格地將系統(tǒng)初始狀態(tài)精確定位在某一具體位置上。2多智能體系統(tǒng)初態(tài)學(xué)習(xí)考慮到多智能體系統(tǒng)的分布式結(jié)構(gòu),令表示第j個(gè)智能體在第(k+1)次迭代運(yùn)算時(shí)的可用信息。其中,第一個(gè)下標(biāo)j代表智能體索引參數(shù),第二個(gè)下標(biāo)表示迭代次數(shù)( 4)其中,如果j智能體可以直接得到期望

9、軌跡的信息(即和虛擬領(lǐng)導(dǎo)者直接相連),則Sj=1,否則Sj=0??紤]系統(tǒng)(1),為了采用迭代學(xué)習(xí)控制方法解決一致性跟蹤問(wèn)題,提出如下的學(xué)習(xí)控制規(guī)律和初始狀態(tài)學(xué)習(xí)規(guī)律( 6)其中,小為輸入學(xué)習(xí)律增益矩陣,為初始狀態(tài)學(xué)習(xí)律增益矩陣。定義1:表示向量范數(shù)。給定函數(shù)f:,其入范數(shù)定義為:其中入0。定義為跟蹤誤差。我們可以根據(jù)跟蹤誤差將式(4)寫(xiě)成( 7)定義第k次迭代時(shí)的列堆棧向量為,類似可以得出:。因此,式(7)可以寫(xiě)成如下緊湊式( 8)其中。為了更清楚的描述,我們將輸入學(xué)習(xí)律和初始狀態(tài)學(xué)習(xí)律也寫(xiě)為如下形式,(9)。(10)引理118設(shè)兩實(shí)序列和滿足,k=1,2,。若0WpW1,且,則引理2若( 1

10、1)則當(dāng)時(shí),初態(tài)學(xué)習(xí)律(6)使得。證明:由初態(tài)學(xué)習(xí)律(10)知,利用條件(11),易證出引理2成立。定理1對(duì)于多智能體系統(tǒng)(1),在輸入學(xué)習(xí)律(5)和初態(tài)學(xué)習(xí)律(6)作用下,若引理1中的條件成立,且,(12)則當(dāng)時(shí),在上一致收斂于。證明:根據(jù)跟蹤誤差的定義,可知第j個(gè)智能體的跟蹤誤差為:( 13)由式(13),將所有智能體的跟蹤誤差寫(xiě)成緊湊形式,我們可以得到( 14)多智能體狀態(tài)軌跡在相鄰兩次迭代下的偏差為( 15)其中,是系統(tǒng)(1)的狀態(tài)轉(zhuǎn)移矩陣,將式(9)(10)帶入式(15)可得:( 16)根據(jù)分部積分,有( 17)結(jié)合式(16)(17),式(14)可變?yōu)椋?18)為了更簡(jiǎn)潔的描述問(wèn)題,

11、定義以下符號(hào)用于后續(xù)的證明對(duì)式(18)兩面取范數(shù):兩邊同乘以,得根據(jù)入范數(shù)定義,可得令,則有( 19)故當(dāng)入足夠大時(shí),結(jié)合可使得。進(jìn)一步,由引理2知,。再利用引理1即可證得定理1。3仿真算例考慮一組包含1個(gè)虛擬領(lǐng)導(dǎo)者和4個(gè)智能體的多智能體系統(tǒng),第j個(gè)智能體模型如下,期望參考軌跡,。圖1:多智能體之間通信拓?fù)浣Y(jié)構(gòu)圖描述所有多智能體之間關(guān)系的拓?fù)鋱D如圖1所示,其中多智能體0代表虛擬領(lǐng)導(dǎo)者。從圖中可以看出,虛擬領(lǐng)導(dǎo)者0與智能體1和3之間存在直接聯(lián)系,即智能體1和3可以直接得到期望參考軌跡信息。根據(jù)之前的圖論知識(shí)??梢缘贸鲈撨B通圖的Laplacian矩陣為且。容易得到,且L和S已知,根據(jù)定理1可選取輸入學(xué)習(xí)增益矩陣根據(jù)引理2知,初態(tài)學(xué)習(xí)增益矩陣不受系統(tǒng)輸入矩陣B的約束,由矩陣C、L和S決定,可選取初態(tài)學(xué)習(xí)增益為。仿真時(shí),各智能體第一次迭代時(shí)的初始狀態(tài)分別為,且初始輸入。圖3是多智能體系統(tǒng)在不同迭代次數(shù)時(shí)的輸出。隨著迭代次數(shù)的增加,所有智能體的輸出收斂于期望軌跡。圖4描述了多智能體初始狀態(tài)的學(xué)習(xí)。在這個(gè)仿真算例中,期望初始狀態(tài)為??梢?jiàn)智能體初態(tài)在迭代范圍內(nèi)逐漸收斂于期望初態(tài)。4結(jié)論針對(duì)多智能體系統(tǒng)一致性跟蹤問(wèn)題,本文提出新的初態(tài)學(xué)習(xí)下的迭代學(xué)習(xí)控制方法,放寬了常規(guī)迭代學(xué)習(xí)控制中的初態(tài)必須落在期望初態(tài)上這

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論