已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)基于人工勢場的激勵學(xué)習(xí)問題研究.pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
長沙理工大學(xué)碩士學(xué)位論文基于人工勢場的激勵學(xué)習(xí)問題研究 摘要 激勵學(xué)習(xí)因具有較強(qiáng)的在線自適應(yīng)性和對復(fù)雜系統(tǒng)的自學(xué)習(xí)能力,備受機(jī)器 人導(dǎo)航研究者的關(guān)注。但其在連續(xù)狀態(tài)和動作空間的泛化,局部環(huán)境的反應(yīng)式控 制,大狀態(tài)空間和部分可觀測環(huán)境定性導(dǎo)航等都存在著亟待解決的問題,且用傳 統(tǒng)的算法很難滿意地解決這些問題。本文利用人工勢場和激勵學(xué)習(xí)的優(yōu)點(diǎn)針對機(jī) 器人在較大狀態(tài)空間和部分可觀測環(huán)境下的導(dǎo)航問題進(jìn)行了研究。 本文首先對激勵學(xué)習(xí)研究現(xiàn)狀,課題研究的背景和現(xiàn)實(shí)意義進(jìn)行了綜述性介 紹,并分析了當(dāng)前激勵學(xué)習(xí)中兩種比較成熟的方法,瞬時差分法和q 學(xué)習(xí)方法。 其次,研究了人工勢場中斥力勢函數(shù)和引力勢函數(shù)的選取,人工勢場法的優(yōu) 缺點(diǎn)。然后重點(diǎn)研究了如何將激勵學(xué)習(xí)模型轉(zhuǎn)換成人工勢場模型,即利用激勵學(xué) 習(xí)和人工勢場的優(yōu)點(diǎn)應(yīng)用虛擬水流法如何構(gòu)建一個具有記憶學(xué)習(xí)功能的激勵勢場 模型。 最后,用三個著名的網(wǎng)格世界問題對激勵勢場模型進(jìn)行了測試,同時在較大 狀態(tài)空間中用q 學(xué)習(xí)和h q 學(xué)習(xí)等方法做了對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明:對較大狀 態(tài)空間和部分可觀測環(huán)境新方法都能簡潔有效地給出理想的解;與q 學(xué)習(xí)和h q 學(xué)習(xí)等方法相比激勵勢場模型更穩(wěn)定有效。 關(guān)鍵詞:激勵學(xué)習(xí),人工勢場,路徑規(guī)劃,移動機(jī)器人導(dǎo)航,虛擬水流法 長沙理工大學(xué)碩士學(xué)位論文 基于人工勢場的激勵學(xué)習(xí)問題研究 a bs t r a c t r e i n f o r c e m e n tl e a r n i n g ( r l ) h a sa t t r a c t e dm o s tr e s e a r c h e r si nt h ea r e ao fr o b o t i c s , b e c a u s eo fi t ss t r o n go n - l i n ea d a p t a b i l i t ya n ds e l f - l e a r n i n ga b i l i t yf o rc o m p l e xs y s t e m b u tw i t ht h ed e v e l o p m e n to fr o b o t ,m o r ec h a l l e n g e sc o m eu p ,s u c ha se n v i r o n m e n t p e r c e p t i o n ,g e n e r a l i z a t i o no fr l ,r e a c t i v ec o n t r o li nl o c a le n v i r o n m e n t ,l a r g es c a l ea n d p a r t i a l l yo b s e r v a b l ee n v i r o n m e n t s ,e t c i ti sd i f f i c u l tf o rc o m m o na l g o r i t h m st oo b t a i n as a t i s f i e ds o l u t i o n i nt h i st h e s i s ,w et r yt or e s e a r c ht h em o b i l er o b o tn a v i g a t i o ni nt h e l a r g es c a l ea n dp a r t i a l l yo b s e r v a b l ee n v i r o n m e n t s ,w i t ht h ea r t i f i c i a lp o t e n t i a l f i e l d ( a p f ) a n dr e i n f o r c e m e n tl e a r n i n g f i r s t l y , t h ei n t r o d u c t i o nr e v i e w st h er e s e a r c ho nr l ,i t sr e l a t i v ea s p e c t si nt h e w o r l d ,t h eb a c k g r o u n da n dp r a c t i c a ls i g n i f i c a n c e t h e nt e m p o r a ld i f f e r e n c el e a r n i n g a n dq - l e a r n i n g ,t w or e l a t i v e l ym a t u r ek i n d so fa l g o r i t h m sa r ea n a l y z e d ,s e c o n d l y , t h er e p u l s i o nf o r c ef u n c t i o na n dt h eg r a v i t a t i o nf o r c ef u n c t i o no ft h e p o t e n t i a lf i e l da r ei n t r o d u c e d a n dt h ee x c e l l e n ta n ds h o r t c o m i n go ft h ea r t i f i c i a l p o t e n t i a lf i e l dm e t h o dh a v ea n a l y z e d a tt h es a m et i m e ar e i n f o r c e m e n tl e a r n i n g p r o b l e mi st r a n s f e r r e dt oap a t hp l a n n i n gp r o b l e mb yu s i n g a r t i f i c i a lp o t e n t i a lf i e l di s t h em a i nc o n t e n t so ft h i st h e s i s t h a ti s ,a ne f f i c i e n tr e i n f o r c e m e n tp o t e n t i a lf i e l d m o d e l ( r p f m ) i sp r e s e n t e d ,w i t hav i r t u a lw a t e r - f l o wc o n c e p t f i n a l l y , t h ep e r f o r m a n c eo fr p f mi st e s t e db yt h et h r e ew e l l - k n o w ng r i d w o r l d p r o b l e m s ,a n da l s ot h ee x p e r i m e n tw i t hh qa n dq - l e a r n i n gf o rc o m p a r i s o nh a db e e n d o n e e x p e r i m e n t a lr e s u l t ss h o wt h a t t h er p f mi s s i m p l ea n de f f e c t i v et og i v e a n o p t i m a ls o l u t i o nf o ro b s e r v a b l ea n dp a r t i a l l yo b s e r v a b l er l c o m p a r e dw i t hh q a n dq l e a r n i n g ,o u rm o d e l i sm o r es t a b l ea n de f f e c t i v e k e yw o r d s :r e i n f o r c e m e n tl e a r n i n g ;a r t i f i c i a lp o t e n t i a lf i e l d ;p a t hp l a n n i n g ; m o b i l er o b o tn a v i g a t i o n ;v i r t u a lw a t e r - f l o w 長沙理工大學(xué) 學(xué)位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究 所取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文不包 含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。對本文的研究做出 重要貢獻(xiàn)的個人和集體,均已在文中以明確方式標(biāo)明。本人完全意識到 本聲明的法律后果由本人承擔(dān)。 作者簽名:割杈日期:2 0 0 8 年,月7 日 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同 意學(xué)校保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許 論文被查閱和借閱。本人授權(quán)長沙理工大學(xué)可以將本學(xué)位論文的全部或 部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制 手段保存和匯編本學(xué)位論文。 本學(xué)位論文屬于 1 、保密口,在年解密后適用本授權(quán)書。 2 、不保密團(tuán)。- ( 請?jiān)谝陨舷鄳?yīng)方框內(nèi)打“ ) 作者簽名: 導(dǎo)師簽名: 刊啐支。 p 日期:2 0 0 8 年,月 日期:2 0 0 8 年廠月 l 日 夕日 長沙理工大學(xué)碩士學(xué)位論文基于人工勢場的激勵學(xué)習(xí)問題研究 1 1 本文研究的背景 第一章引言 根據(jù)反饋的不同,機(jī)器學(xué)習(xí)可以分為:有監(jiān)督學(xué)習(xí)( s u p e r v i s e dl e a r n i n g ) 、 無監(jiān)督學(xué)習(xí)( u n s u p e r v i s e dl e a r n i n g ) 和激勵學(xué)習(xí)( r e i n f o r c e m e n tl e a r n i n g ,r l ) 三大類。其中激勵學(xué)習(xí)是智能體( a g e n t ) 從環(huán)境到行為映射的學(xué)習(xí),通過“試錯 方式與環(huán)境進(jìn)行交互作用以期許獎賞( 激勵) 信號達(dá)到最大( 或最小) 的機(jī)器學(xué) 習(xí)方法。從2 0 世紀(jì)8 0 年代末開始,隨著對激勵學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)研究取得突破性 進(jìn)展后,對激勵學(xué)習(xí)的研究和應(yīng)用日益開展起來,并成為機(jī)器學(xué)習(xí)領(lǐng)域的研究熱 點(diǎn)之一。激勵學(xué)習(xí)方法能夠通過獲得與環(huán)境的交互過程中的評價性反饋信號來實(shí) 現(xiàn)行為決策的優(yōu)化,因此在求解復(fù)雜的優(yōu)化控制問題中具有廣泛的應(yīng)用價值。但 激勵學(xué)習(xí)對許多現(xiàn)實(shí)問題,如在連續(xù)狀態(tài)和動作空間的泛化,局部環(huán)境的反應(yīng)式 控制,大狀態(tài)空間和部分可觀測環(huán)境定性導(dǎo)航等都存在著亟待解決的問題,且用 傳統(tǒng)的算法很難滿意地解決這些問題。 1 2 激勵學(xué)習(xí)理論與應(yīng)用綜述 激勵學(xué)習(xí)( r l ) 又稱為強(qiáng)化學(xué)習(xí)、增強(qiáng)學(xué)習(xí)或再勵學(xué)習(xí),是不同于監(jiān)督學(xué)習(xí)和 無監(jiān)督學(xué)習(xí)的另一大類機(jī)器學(xué)習(xí)方法。激勵學(xué)習(xí)的基本思想與動物學(xué)習(xí)心理學(xué)“試 錯法 學(xué)習(xí)心1 的研究密切相關(guān),即強(qiáng)調(diào)在與環(huán)境中的交互中學(xué)習(xí),通過環(huán)境對不同 行為的評價性反饋信號來改變行為選擇策略以實(shí)現(xiàn)學(xué)習(xí)目標(biāo)。來自環(huán)境的評價性 反饋信號通常稱為獎賞( ( r e w a r d ) 或激勵信號( r e i n f o r c e m e n ts i g n a l ) ,激勵學(xué)習(xí) 系統(tǒng)的目標(biāo)就是期望激勵信號最大化。雖然監(jiān)督學(xué)習(xí)方法如神經(jīng)網(wǎng)絡(luò)反向傳播算 法口1 、決策樹學(xué)習(xí)算法h 1 等的研究取得了大量成果,并在許多領(lǐng)域得到了成功的應(yīng) 用,但由于監(jiān)督學(xué)習(xí)需要給出不同環(huán)境狀態(tài)下的教師信號,因此限制了監(jiān)督學(xué)習(xí) 在復(fù)雜的優(yōu)化控制問題中的應(yīng)用。無監(jiān)督學(xué)習(xí)雖然不需要教師信號,但僅能完成 模式分類等有限的功能。由于激勵學(xué)習(xí)方法能夠通過獲得與環(huán)境的交互過程中的 評價性反饋信號來實(shí)現(xiàn)行為決策的優(yōu)化,因此在求解復(fù)雜的優(yōu)化控制問題中具有 更為廣泛的應(yīng)用價值。 基于激勵學(xué)習(xí)的上述特點(diǎn),在早期的人工智能研究中曾一度將激勵學(xué)習(xí)作為 一個重要的研究方向,如m i n s k y 有關(guān)激勵學(xué)習(xí)的博士論文1 ,s a m u e l 的跳棋學(xué)習(xí) 程序哺1 等,但后來由于各種因素特別是求解激勵學(xué)習(xí)問題的困難性,在二十世紀(jì)七、 八十年代人工智能和機(jī)器學(xué)習(xí)的研究主要面向監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)方法。進(jìn)入 長沙理工大學(xué)碩士學(xué)位論文基于人工勢場的激勵學(xué)習(xí)問題研究 二十世紀(jì)九十年代,激勵學(xué)習(xí)在理論和算法上通過與其他學(xué)科如運(yùn)籌學(xué)、控制理 論的交叉綜合,取得了若干突破性的研究成果,并且在機(jī)器人控制、優(yōu)化調(diào)度等 許多復(fù)雜優(yōu)化決策問題中取得了成功的應(yīng)用。 目前激勵學(xué)習(xí)不但成為人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的重要研究方向,而且吸引 了許多其他學(xué)科研究人員的注意。 1 2 1 激勵學(xué)習(xí)研究的背景 激勵學(xué)習(xí)在算法和理論研究方面的一個重要特點(diǎn)是多學(xué)科的交叉綜合性。激 勵學(xué)習(xí)的研究與動物學(xué)習(xí)心理學(xué)、運(yùn)籌學(xué)、進(jìn)化計(jì)算、自適應(yīng)控制和神經(jīng)網(wǎng)絡(luò)等 學(xué)科都具有密切的聯(lián)系。 1 動物學(xué)習(xí)心理學(xué) 有關(guān)動物學(xué)習(xí)心理學(xué)的研究為激勵學(xué)習(xí)算法和理論的研究提供了思想基礎(chǔ)。 在動物學(xué)習(xí)心理學(xué)的研究中,關(guān)于動物“試錯( t r i a l ) 學(xué)習(xí)的思想最早由e d w a r d t h o r n d i k e 于1 9 1 1 年提出口1 ,該思想的實(shí)質(zhì)是強(qiáng)調(diào)行為的結(jié)果有優(yōu)劣之分并為后 繼行為選擇提供依據(jù)。t h o r n d i k e 稱這種規(guī)律為“效應(yīng)定律 ( l a wo fe f f e c t ) , 并指出效應(yīng)定律描述了激勵性事件對于動物行為選擇趨勢的影響,即能夠?qū)е抡?的回報的行為選擇概率將增大,而導(dǎo)致負(fù)回報的行為選擇概率將減小。文獻(xiàn) 2 指 出,效應(yīng)定律包括了“試錯”型學(xué)習(xí)的兩個主要方面,即選擇性和聯(lián)想性。進(jìn)化 學(xué)習(xí)中的自然選擇具有選擇性,但不具有聯(lián)想性:監(jiān)督學(xué)習(xí)則僅具有聯(lián)想性而不具 有選擇性。另外,“效應(yīng)定律反映了激勵學(xué)習(xí)的另兩個重要特性,即搜索和記憶。 在動物學(xué)習(xí)心理學(xué)中與激勵學(xué)習(xí)密切相關(guān)的另一個研究內(nèi)容是瞬時差分 ( t e m p o r a ld i f f e r e n c e ,t d ) ( 或稱為時間差分) 理論陽釘。所謂瞬時差分是指對同 一個事件或變量在連續(xù)兩個時刻觀測的差值,這一概念來自于學(xué)習(xí)心理學(xué)中有關(guān) “次要激勵器 ( s e c o n d a r yr e i n f o r c e r s ) 的研究,在動物學(xué)習(xí)心理學(xué)中,次要激 勵器是伴隨主要激勵信號如食物等的刺激,并且產(chǎn)生類似于主要激勵信號的行為 激勵作用乜】。在早期的激勵學(xué)習(xí)研究中,瞬時差分學(xué)習(xí)方法成為一個重要研究內(nèi)容, 如a s a m u e l 的跳棋程序中就采用了瞬時差分學(xué)習(xí)的思想哺1 。在近十年來激勵學(xué)習(xí) 算法和理論的研究中,瞬時差分學(xué)習(xí)理論和算法同樣具有基礎(chǔ)性的地位。 2 運(yùn)籌學(xué) 運(yùn)籌學(xué)是與激勵學(xué)習(xí)研究緊密聯(lián)系的另一個學(xué)科。運(yùn)籌學(xué)中有關(guān)m a r k o v 決策 過程( m d p ) n 0 1 1 和動態(tài)規(guī)劃的算法和理論為激勵學(xué)習(xí)的研究提供了數(shù)學(xué)模型和算 法理論基礎(chǔ)。其中主要包括b e l l m a n 的最優(yōu)性原理和b e l l m a n 方程、值迭代、策 略迭代等動態(tài)規(guī)劃算法n 們n 釘。動態(tài)規(guī)劃和激勵學(xué)習(xí)方法的聯(lián)系由m i n s k y 啼1 在分析 s a m e u l 的跳棋程序時首先提出,并逐漸得到普遍重視。許多激勵學(xué)習(xí)算法如q 學(xué) 習(xí)算法n 3 1 等都可以看作與模型無關(guān)的自適應(yīng)動態(tài)規(guī)劃算法。激勵學(xué)習(xí)和動態(tài)規(guī)劃 2 長沙理工大學(xué)碩士學(xué)位論文基于人工勢場的激勵學(xué)習(xí)問題研究 兩個學(xué)科的交叉綜合成為推動激勵學(xué)習(xí)算法和理論研究的重要因素。近年來,求 解大規(guī)模狀態(tài)空間的動態(tài)規(guī)劃方法,如值函數(shù)逼近方法1 等在激勵學(xué)習(xí)領(lǐng)域也得 到了廣泛的研究和應(yīng)用。 3 進(jìn)化計(jì)算 進(jìn)化計(jì)算( e v o l u t i o n a r yc o m p u t a t i o n ) 是基于自然世界生物的自然選擇和基 因遺傳原理實(shí)現(xiàn)的一類優(yōu)化算法,并被廣泛的用于求解機(jī)器學(xué)習(xí)問題。目前,進(jìn) 化計(jì)算在算法和理論上已取得了大量的研究成果,形成了遺傳算法n 釘、進(jìn)化策略 n 們和進(jìn)化規(guī)劃n 力三個主要的分支,并且在組合優(yōu)化、自動程序設(shè)計(jì)、機(jī)器學(xué)習(xí)等 領(lǐng)域獲得了成功的應(yīng)用n8 1 。雖然早期的進(jìn)化計(jì)算與激勵學(xué)習(xí)的研究相互獨(dú)立,但 隨著研究的深入,進(jìn)化計(jì)算方法在求解激勵學(xué)習(xí)問題中的應(yīng)用逐步得到重視。對 于利用評價性反饋的激勵學(xué)習(xí)問題,進(jìn)化計(jì)算方法能夠通過將回報信號映射為個 體的適應(yīng)度進(jìn)行求解。在應(yīng)用進(jìn)化計(jì)算方法求解激勵學(xué)習(xí)問題時,一個關(guān)鍵課題 是如何對延遲回報進(jìn)行時間信用分配( t e m p o r a lc r e d i ta s s i g n m e n t ) 。j h o l l a n d 的分類器學(xué)習(xí)算法( c l a s s i f i e rs y s t e m ) n 們對上述問題進(jìn)行了開拓性的研究,在 該算法中體現(xiàn)了瞬時差分學(xué)習(xí)的思想。近年來,求解激勵學(xué)習(xí)問題的進(jìn)化激勵學(xué) 習(xí)方法成為一個重要的研究課題。文獻(xiàn) 2 0 對進(jìn)化激勵學(xué)習(xí)的研究進(jìn)行了綜述。 如何綜合利用兩種方法的優(yōu)點(diǎn)實(shí)現(xiàn)多策略的高效激勵學(xué)習(xí)系統(tǒng)是一個值得研究的 課題。 4 自適應(yīng)控制 自適應(yīng)控制是控制理論的一個重要分支,研究模型未知或不確定的對象的控 制問題。在自適應(yīng)控制中,按照是否對對象模型進(jìn)行在線估計(jì)可以分為直接自適 應(yīng)控制方法和間接自適應(yīng)控制方法兩類。其中,直接自適應(yīng)控制不建立對象的顯 式估計(jì)模型,而直接通過調(diào)節(jié)控制器參數(shù)實(shí)現(xiàn)閉環(huán)自適應(yīng)控制;間接自適應(yīng)控制 則在對對象模型進(jìn)行在線辨識的基礎(chǔ)上,調(diào)節(jié)控制器的參數(shù)。文獻(xiàn) 2 1 對激勵學(xué) 習(xí)作為一類直接自適應(yīng)最優(yōu)控制方法的特性進(jìn)行了分析和研究,指出了激勵學(xué)習(xí) 與自適應(yīng)控制理論的聯(lián)系。與動態(tài)規(guī)劃不同,激勵學(xué)習(xí)不需要m a r k o v ( 馬氏) 決策 過程的狀態(tài)轉(zhuǎn)移模型,而直接根據(jù)與環(huán)境的交互信息實(shí)現(xiàn)馬氏決策過程的優(yōu)化控 制。在自適應(yīng)控制中的辨識與控制的關(guān)系類似于激勵學(xué)習(xí)中行為探索 ( e x p l o r a t i o n ) 和利用( ( e x p l o i t a t i o n ) 的關(guān)系。激勵學(xué)習(xí)的行為探索是指不采用 當(dāng)前策略的隨機(jī)化行為搜索,與自適應(yīng)控制的辨識信號輸入相對應(yīng);行為利用是 指采用當(dāng)前策略的控制行為選擇,對應(yīng)自適應(yīng)控制的控制器優(yōu)化設(shè)計(jì)。 5 神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò)的研究起源于對人類大腦的神經(jīng)生理學(xué)和神經(jīng)心理學(xué)的研究,目前 已取得了豐富的研究成果,包括多種神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)模型和學(xué)習(xí)算法。在神經(jīng)網(wǎng) 絡(luò)的學(xué)習(xí)算法中,針對監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)已開展了大量的研究工作,近年來 3 長沙理工大學(xué)碩士學(xué)位論文基于人工勢場的激勵學(xué)習(xí)問題研究 神經(jīng)網(wǎng)絡(luò)的激勵學(xué)習(xí)算法以及激勵學(xué)習(xí)與監(jiān)督學(xué)習(xí)的混合算法也取得了許多成 果。神經(jīng)網(wǎng)絡(luò)作為一種通用的函數(shù)逼近器,對于解決激勵學(xué)習(xí)在大規(guī)模和連續(xù)狀 態(tài)空間問題中的泛化( g e n e r a l i z a t i o n ) 具有重要的意義。研究神經(jīng)網(wǎng)絡(luò)在激勵學(xué) 習(xí)值函數(shù)逼近和策略逼近中的應(yīng)用,克服激勵學(xué)習(xí)和動態(tài)規(guī)劃的“維數(shù)災(zāi)難” ( c u r s eo fd i m e n s i o n a l i t y ) ,是實(shí)現(xiàn)激勵學(xué)習(xí)方法在實(shí)際工程中廣泛應(yīng)用的關(guān)鍵。 目前,利用神經(jīng)網(wǎng)絡(luò)求解激勵學(xué)習(xí)和動態(tài)規(guī)劃問題的有關(guān)算法和理論( 又稱為神經(jīng) 動態(tài)規(guī)劃( n e u r o n - d y n a m i cp r o g r a m m i n g ) 方法心2 1 ) 的研究是一個重要的研究方向。 1 2 2 激勵學(xué)習(xí)算法的研究進(jìn)展 按照學(xué)習(xí)系統(tǒng)與環(huán)境交互的類型,已提出的激勵學(xué)習(xí)算法可以分為非聯(lián)想激 勵學(xué)習(xí)( n o n - a s s o c i a t i v er l ) 方法和聯(lián)想激勵學(xué)習(xí)( a s s o c i a t i v er l ) 方法兩大類。 非聯(lián)想激勵學(xué)習(xí)系統(tǒng)僅從環(huán)境獲得回報,而不區(qū)分環(huán)境的狀態(tài):聯(lián)想激勵學(xué)習(xí)系統(tǒng) 則在獲得回報的同時,具有環(huán)境的狀態(tài)信息反饋,其結(jié)構(gòu)類似于反饋控制系統(tǒng)。 在非聯(lián)想激勵學(xué)習(xí)研究方面,主要研究成果包括:t h a t h a c h a r 等隨1 針對n 臂 賭機(jī)問題( n - a r m e db a n d it ) 提出的基于行為值函數(shù)的估計(jì)器方法和追趕方法 ( p u r s u i tm e t h o d ) ,r s u t t o n 提出的激勵信號比較方法( r e i n f o r c e m e n t c o m p a r is o n ) 等。由于非聯(lián)想激勵學(xué)習(xí)系統(tǒng)沒有環(huán)境的狀態(tài)反饋,因此主要用于一 些理論問題的求解,如多臂賭機(jī)等。 聯(lián)想激勵學(xué)習(xí)按照獲得的回報是否具有延遲可以分為即時回報聯(lián)想激勵學(xué)習(xí) 和序貫決策( s e q u e n t i a ld e c i s i o n ) 激勵學(xué)習(xí)兩種類型。即時回報聯(lián)想激勵學(xué)習(xí)的 回報沒有延遲特性,學(xué)習(xí)系統(tǒng)以極大( 或極小) 化期望的即時回報為目標(biāo),己提出 的算法包括聯(lián)想搜索( a s s o c i a t i v es e a r c h ) 方法、可選自助方法等呻1 。 由于大量的實(shí)際問題都具有延遲回報的特點(diǎn),因此用于求解延遲回報問題的 序貫決策激勵學(xué)習(xí)算法和理論成為激勵學(xué)習(xí)領(lǐng)域研究的重點(diǎn)。在序貫決策激勵學(xué) 習(xí)算法研究中,采用了運(yùn)籌學(xué)中的m a r k o v 決策過程( m a r k o vd e c i s i o np r o c e s s e s : m d p s ) 模型,激勵學(xué)習(xí)系統(tǒng)也類似于動態(tài)規(guī)劃將學(xué)習(xí)目標(biāo)分為折扣型回報指標(biāo)和平 均回報指標(biāo)兩種。同時根據(jù)m d p 行為選擇策略的平穩(wěn)性,激勵學(xué)習(xí)算法可以分為 求解平穩(wěn)策略m d p 值函數(shù)的學(xué)習(xí)預(yù)測( l e a r n i n gp r e d i c t i o n ) 方法和求解m d p 最優(yōu) 值函數(shù)和最優(yōu)策略的學(xué)習(xí)控制( l e a r n i n gc o n t r 0 1 ) 方法。下面按照優(yōu)化指標(biāo)的不 同,分別對折扣型回報指標(biāo)激勵學(xué)習(xí)和平均回報激勵學(xué)習(xí)在算法和理論方面的研 究概況進(jìn)行介紹。 1 折扣型回報指標(biāo)激勵學(xué)習(xí)算法 ( 1 ) t d ( 入) 學(xué)習(xí)算法。瞬時差分學(xué)習(xí)方法在早期的激勵學(xué)習(xí)和人工智能中占 有重要的地位,并取得了一些成功的應(yīng)用( 如著名的跳棋學(xué)習(xí)程序等) ,但一直沒 有建立統(tǒng)一的形式化體系和理論基礎(chǔ)。r s u t t o n 首次提出了求解平穩(wěn)m d p 策略評 4 長沙理工大學(xué)碩士學(xué)位論文基于人工勢場的激勵學(xué)習(xí)問題研究 價問題的瞬時差分學(xué)習(xí)算法( t d ( 入) 算法) ,并給出了瞬時差分學(xué)習(xí)的形式化描述, 證明了t d ( 入) 學(xué)習(xí)算法在一定條件下的收斂性,從而為瞬時差分學(xué)習(xí)奠定了理論 基礎(chǔ)晗引。t d ( 入) 學(xué)習(xí)算法是一種學(xué)習(xí)預(yù)測算法,即在m d p 的模型未知時實(shí)現(xiàn)對平 穩(wěn)策略的值函數(shù)估計(jì)。在t d ( 入) 學(xué)習(xí)算法中利用了一種稱為適合度軌跡 ( e l i g i b i l i t yt r a c e s ) 的機(jī)制來實(shí)現(xiàn)對歷史數(shù)據(jù)的充分利用。并且通常采用稱為 增量式( a c c u m u l a t i n g ) 適合度軌跡。s i n g h 和s u t t o n 提出了一種新的替代式 ( r e p l a c i n g ) 適合度軌跡,并驗(yàn)證了該方法的有效性心們。 為提高t d 學(xué)習(xí)算法的收斂速度,同時克服學(xué)習(xí)步長的設(shè)計(jì)困難,文獻(xiàn) 2 5 提 出了一種基于線性值函數(shù)逼近的最小二乘t d ( o ) 學(xué)習(xí)算法,該算法直接以m d p 值函 數(shù)逼近的均方誤差為性能指標(biāo),沒有采用適合度軌跡機(jī)制,因此稱為l s t d ( o ) 和 r l s _ t d ( 0 ) 學(xué)習(xí)算法。文獻(xiàn) 2 6 中j b o y a n 提出了一種l s t d ( 入) 學(xué)習(xí)算法,該算 法能夠獲得優(yōu)于t d 學(xué)習(xí)算法的收斂速度,但存在計(jì)算量大和矩陣求逆的數(shù)值計(jì)算 病態(tài)問題,難以實(shí)現(xiàn)在線學(xué)習(xí)。 ( 2 ) q 學(xué)習(xí)算法。針對優(yōu)化折扣回報指標(biāo)的學(xué)習(xí)控制問題,w a t k i n s 提出了表 格型的q 學(xué)習(xí)算法,用于求解m d p 的最優(yōu)值函數(shù)和最優(yōu)策略心7 1 :p e n g 與w i l l i a m s 提出了q ( 入) 算法乜引,在該算法中結(jié)合了q 學(xué)習(xí)算法和t d 學(xué)習(xí)算法中的適合度軌 跡( e l i g i b i l i t yt r a c e s ) ,以進(jìn)一步提高算法的收斂速度。為進(jìn)一步提高激勵學(xué) 習(xí)算法的學(xué)習(xí)效率,基于自適應(yīng)控制中模型辨識的思想,s u t t o n 提出了具有在線 模型估計(jì)的d y n a _ q 學(xué)習(xí)算法阻1 ,p e n g 等提出了優(yōu)先遍歷方法( p r i o r i t iz e d s w e e p i n g ) 晗引。上述方法都在學(xué)習(xí)過程中對m d p 的模型進(jìn)行在線估計(jì),雖然能夠 顯著提高效率,但必須以較大的計(jì)算和存儲量為代價。 ( 3 ) s a r s a 學(xué)習(xí)算法。r u m m e r y 等提出了一種在線策略( o n - p o l i c y ) 的q 學(xué)習(xí) 算法,稱為s a r s a 學(xué)習(xí)算法m 1 。在q 學(xué)習(xí)算法中,學(xué)習(xí)系統(tǒng)的行為選擇策略和值 函數(shù)的迭代是相互獨(dú)立的,而s a r s a 學(xué)習(xí)算法則以嚴(yán)格的t d 學(xué)習(xí)形式實(shí)現(xiàn)行為值 函數(shù)的迭代,即行為選擇策略與值函數(shù)迭代是一致的。s a r s a 學(xué)習(xí)算法在一些學(xué)習(xí) 控制問題的應(yīng)用中被驗(yàn)證具有優(yōu)于q 學(xué)習(xí)算法的性能。在s a r s a 學(xué)習(xí)算法中,行 為探索策略的選擇對算法的收斂性具有關(guān)鍵作用,文獻(xiàn) 3 1 提出了兩類行為探索 策略,即漸近貪心無限探索( g r e e d yi nt h el i m i ta n di n f i n i t e l ye x p l o r a t i o n , g l i e ) 策略和r r r 策略( r e s t r i c t e dr a n k b a s e dr a n d o m l i z e dp o l i c y ) ,以實(shí)現(xiàn)對 m d p 最優(yōu)值函數(shù)的逼近。 ( 4 ) a c t o r - c r i t i c 學(xué)習(xí)算法。學(xué)習(xí)控制算法具有的一個共同特點(diǎn)是僅對m d p 的值函數(shù)進(jìn)行估計(jì),行為選擇策略則由值函數(shù)的估計(jì)完全確定。a b a r t o 和 r s u t t o n 提出的a c t o r c r i t i c 學(xué)習(xí)算法口2 1 則同時對值函數(shù)和策略進(jìn)行估計(jì),其中 a c t o r 用于進(jìn)行策略估計(jì),而c r i t i c 用于值函數(shù)估計(jì)。在a c t o r - c r i t i c 學(xué)習(xí)算法 中,c r i t i c 采用t d 學(xué)習(xí)算法實(shí)現(xiàn)值函數(shù)的估計(jì),a c t o r 則利用一種策略梯度估計(jì) 5 長沙理1 = 大學(xué)碩士學(xué)位論文基于人工勢場的激勵學(xué)習(xí)問題研究 方法進(jìn)行梯度下降學(xué)習(xí)。在文獻(xiàn) 3 2 提出的a c t o r c r i t i c 算法僅針對離散行為空 間,文獻(xiàn) 3 3 進(jìn)一步研究了求解連續(xù)行為空間m d p 最優(yōu)策略的a c t o r c r i t i c 算法。 ( 5 ) 直接策略梯度估計(jì)算法。激勵學(xué)習(xí)控制算法的另一種類型是不對m d p 的值 函數(shù)進(jìn)行估計(jì),而只進(jìn)行最優(yōu)策略估計(jì)的算法。早期的研究如霄il lj a m s 的 r e i n f o r c e 算法呻1 。與前面兩類激勵學(xué)習(xí)算法相比,這一類算法存在策略梯度估計(jì) 困難、學(xué)習(xí)效率低的缺點(diǎn)。 2 平均回報指標(biāo)激勵學(xué)習(xí)算法 隨著對折扣型回報指標(biāo)的激勵學(xué)習(xí)方法研究的不斷深入,平均回報指標(biāo)的激 勵學(xué)習(xí)方法也逐漸得到重視。這是由于在某些工程問題中,優(yōu)化目標(biāo)更適合用平 均回報指標(biāo)來描述,如果采用折扣回報指標(biāo),則要求折扣因子接近l 。目前平均回 報指標(biāo)的激勵學(xué)習(xí)已提出了多種算法,主要包括: ( 1 ) 基于平均回報指標(biāo)的瞬時差分學(xué)習(xí)算法。在文獻(xiàn) 3 4 中,b e r t s e k a s 等將 求解平均回報指標(biāo)m d p 策略評價問題的動態(tài)規(guī)劃理論和方法應(yīng)用于瞬時差分學(xué)習(xí), 提出了基于平均回報指標(biāo)的瞬時差分學(xué)習(xí)算法。在該算法中,通過引入動態(tài)規(guī)劃 中相對值函數(shù)( r e l a t i v ev a l u ef u n c t i o n ) 的概念,實(shí)現(xiàn)了在m d p 模型未知時對平 穩(wěn)策略m d p 的值函數(shù)估計(jì)。文獻(xiàn) 3 5 提出了類似的平均回報t d 學(xué)習(xí)算法。 ( 2 ) r 學(xué)習(xí)算法。與求解基于平均回報指標(biāo)m d p 的學(xué)習(xí)控制問題,類似于q 學(xué)習(xí)算法,文獻(xiàn) 3 6 提出了r 一學(xué)習(xí)算法。在r 一學(xué)習(xí)算法中,通過對相對值函數(shù)的 迭代和貪婪的行為選擇策略實(shí)現(xiàn)廣義策略迭代過程。在文獻(xiàn) 3 6 的仿真研究中, r 一學(xué)習(xí)算法在某些情況下可以獲得優(yōu)于q 學(xué)習(xí)算法等折扣型激勵學(xué)習(xí)算法的性能。 ( 3 ) h 一學(xué)習(xí)算法。h 一學(xué)習(xí)算法鉑可以看作是一種基于在線模型估計(jì)的r 一學(xué)習(xí) 算法。為驗(yàn)證h 一學(xué)習(xí)算法的有效性,文獻(xiàn) 3 7 對h 一學(xué)習(xí)算法在一個仿真的a g v 調(diào) 度問題中的應(yīng)用進(jìn)行了研究,獲得了較好的學(xué)習(xí)性能。 需要說明的是,由于折扣型指標(biāo)的激勵學(xué)習(xí)算法在折扣因子接近l 時的性能 與平均回報指標(biāo)的性能類似,而在理論分析方面,折扣指標(biāo)算法要遠(yuǎn)比平均回報 指標(biāo)算法簡易。 1 2 3 激勵學(xué)習(xí)的泛化方法研究概況 上述介紹的激勵學(xué)習(xí)算法基本都是針對離散狀態(tài)和行為空間m d p 的,即狀態(tài) 的值函數(shù)或行為值函數(shù)采用表格的形式存儲和迭代計(jì)算。但實(shí)際工程中的許多優(yōu) 化決策問題都具有大規(guī)?;蜻B續(xù)的狀態(tài)或行為空間,因此表格型激勵學(xué)習(xí)算法也 存在類似于動態(tài)規(guī)劃的“維數(shù)災(zāi)難 。為克服“維數(shù)災(zāi)難 ,實(shí)現(xiàn)對連續(xù)狀態(tài)或空 間m d p 最優(yōu)值函數(shù)和最優(yōu)策略的逼近,必須研究激勵學(xué)習(xí)的泛化( g e n e r a li z a t i o n ) 或推廣問題,即利用有限的學(xué)習(xí)經(jīng)驗(yàn)和記憶實(shí)現(xiàn)對一個大范圍空間的有效知識獲 取和表示。由于激勵學(xué)習(xí)的泛化方法的研究是影響其廣泛應(yīng)用的關(guān)鍵,因此對該 6 長沙理工大學(xué)碩士學(xué)位論文基于人工勢場的激勵學(xué)習(xí)問題研究 問題的研究成為當(dāng)前的研究熱點(diǎn)。目前提出的激勵學(xué)習(xí)泛化方法主要包括以下幾 個方面: 1 值函數(shù)逼近方法的研究 雖然值函數(shù)逼近在動態(tài)規(guī)劃中的研究中開展得較早,但激勵學(xué)習(xí)中的值函數(shù) 逼近方法研究則與神經(jīng)網(wǎng)絡(luò)研究的重新興起密切相關(guān)。隨著神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí) 方法如反向傳播算法的廣泛研究和應(yīng)用,將神經(jīng)網(wǎng)絡(luò)的函數(shù)逼近能力用于激勵學(xué) 習(xí)的值函數(shù)逼近逐漸開始得到學(xué)術(shù)界的重視。在瞬時差分學(xué)習(xí)的研究中,線性值 函數(shù)逼近器得到了普遍的研究和注意。s u t t o n 在首次提出t d ( 入) 學(xué)習(xí)算法時,就 給出了線性值函數(shù)逼近的t d ( 入) 算法( 以下簡稱線性t d ( 入) 算法或t d ( 入) 算 法) 一1 。在線性t d ( 入) 算法的基礎(chǔ)上,b r a r t k e 等利用遞推最小二乘方法提出了 l s t d ( 0 ) 算法和r l s t d ( 0 ) 算法心引。b o y a n 給出了直接求解t d ( 入) 算法穩(wěn)態(tài)方程的 l s - t d ( 入) 算法口引。在神經(jīng)網(wǎng)絡(luò)作為值函數(shù)逼近器的研究中,小腦模型關(guān)節(jié)控制器 ( c e r e b e ll a rm o d e la r t i c u l a t i o nc o n t r o l l e r : c m a c ) 是應(yīng)用得較為廣泛的一種。 w a t k i n s 首次將c m a c 用于q 學(xué)習(xí)算法的值函數(shù)逼近中,s u t t o n 在文獻(xiàn) 9 和文獻(xiàn) 3 8 中分別將c m a c 成功地用于連續(xù)狀態(tài)空間m d p 的瞬時差分預(yù)測學(xué)習(xí)和學(xué)習(xí)控制 問題中?;谝话愕那跋蚨鄬由窠?jīng)網(wǎng)絡(luò)的值函數(shù)逼近方法也得到了廣泛研究,如 文獻(xiàn) 3 9 利用神經(jīng)網(wǎng)絡(luò)的瞬時差分學(xué)習(xí)實(shí)現(xiàn)了西洋棋的學(xué)習(xí)程序t d - g a m m o n 。在上 述研究中,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法都采用了與線性t d ( 入) 學(xué)習(xí)算法相同的直接梯度 ( d i r e c tg r a d i e n t ) 下降形式。l b i a r d 指出上述直接梯度下降學(xué)習(xí)在使用非線性 值函數(shù)逼近器求解m d p 的學(xué)習(xí)預(yù)測和控制問題時可能出現(xiàn)發(fā)散的情況,提出了一 種基于b e l l m a n 殘差指標(biāo)的梯度下降算法,稱為殘差梯度學(xué)習(xí)( ( r e s i d u a l g r a d i e n t ) h 引。殘差梯度學(xué)習(xí)可以保證非線性值函數(shù)逼近器在求解平穩(wěn)m d p 的學(xué) 習(xí)預(yù)測問題時的收斂性,但無法保證求解學(xué)習(xí)控制問題時的神經(jīng)網(wǎng)絡(luò)權(quán)值收斂性。 2 策略空間逼近方法 與值函數(shù)逼近方法不同,策略空間逼近方法通過神經(jīng)網(wǎng)絡(luò)等函數(shù)逼近器直接 在m d p 的策略空間搜索,但存在如何估計(jì)策略梯度的困難。早期的r e i n f o r c e 算 法只針對二值回報信號,文獻(xiàn) 4 1 提出了一種離散行為空間的策略梯度估計(jì)方法。 3 同時進(jìn)行值函數(shù)和策略空間逼近的泛化方法 在同時進(jìn)行值函數(shù)和策略空間逼近的泛化方法中,基本都采用了 a c t o r c r i t i c 的結(jié)構(gòu),即a c t o r 網(wǎng)絡(luò)實(shí)現(xiàn)對連續(xù)策略空間的逼近,c r i t i c 網(wǎng)絡(luò)實(shí) 現(xiàn)對值函數(shù)的逼近。文獻(xiàn) 4 2 研究了基于模糊系統(tǒng)的a h c 學(xué)習(xí)算法,文獻(xiàn) 3 3 研 究了基于模糊神經(jīng)網(wǎng)絡(luò)的a h c 學(xué)習(xí)算法,提出了網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)同時在線調(diào)整的 算法。在上述研究中,c r i t i c 通常采用基于神經(jīng)網(wǎng)絡(luò)的瞬時差分t d ( 入) 學(xué)習(xí)算法, 而a c t o r 網(wǎng)絡(luò)則基于一種高斯分布的隨機(jī)行為探索機(jī)制對策略梯度進(jìn)行在線估計(jì)。 4 基于解釋的神經(jīng)網(wǎng)絡(luò)激勵學(xué)習(xí)方法 7 長沙理工大學(xué)碩士學(xué)位論文基于人工勢場的激勵學(xué)習(xí)問題研究 基于解釋的學(xué)習(xí)是一種結(jié)合歸納學(xué)習(xí)和演繹推理的混合策略機(jī)器學(xué)習(xí)方法, 在符號學(xué)習(xí)領(lǐng)域中己得到了廣泛的研究和應(yīng)用。s t h r u n 提出了一種基于解釋的神 經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法,并應(yīng)用于激勵學(xué)習(xí)的值函數(shù)逼近中,通過對神經(jīng)網(wǎng)絡(luò)的梯度信 息的歸納解釋,有效地加速了激勵學(xué)習(xí)值函數(shù)逼近的收斂m 1 。 1 2 4 激勵學(xué)習(xí)的理論與應(yīng)用研究進(jìn)展 1 在理論方面,類似于自適應(yīng)控制中對閉環(huán)系統(tǒng)穩(wěn)定性的研究,算法的收斂 性研究成為激勵學(xué)習(xí)理論的主要研究內(nèi)容。同時對于激勵學(xué)習(xí)泛化的有關(guān)基礎(chǔ)理 論,如值函數(shù)逼近方法的權(quán)值學(xué)習(xí)收斂性和性能誤差上界分析等也取得了初步的 成果。 ( 1 ) 瞬時差分學(xué)習(xí)理論和t d ( 入) 預(yù)測學(xué)習(xí)算法的收斂性 瞬時差分學(xué)習(xí)理論的建立以s u t t o n 首次給出瞬時差分學(xué)習(xí)的形式化描述一3 和 t d ( 入) 學(xué)習(xí)算法為標(biāo)志,己取得了許多研究成果,并成為其他激勵學(xué)習(xí)算法如a h c 學(xué)習(xí)算法、q 學(xué)習(xí)算法的基礎(chǔ)。針對t d ( 入) 學(xué)習(xí)算法在求解平穩(wěn)策略m d p 值函數(shù) 預(yù)測時的收斂性,文獻(xiàn) 4 3 證明了任意o 入 1 的表格型折扣回報t d ( 入) 學(xué)習(xí)算法 的概率收斂性;對于采用線性值函數(shù)逼近的t d ( 入) 學(xué)習(xí)算法( 又稱為線性t d ( 入) 學(xué)習(xí)算法) ,文獻(xiàn) 4 4 證明了平均意義下的收斂性;t s i t s i k li s 等 4 1 證明了線性 t d ( 入) 算法在概率l 意義下的收斂性并給出了收斂解的逼近誤差上界。針對t d ( 入) 學(xué)習(xí)算法中入的選取對學(xué)習(xí)性能的影響,文獻(xiàn) 4 5 研究了t d ( 入) 學(xué)習(xí)算法均方誤 差與入的函數(shù)關(guān)系,給出了一定假設(shè)下的表達(dá)式,并通過實(shí)驗(yàn)進(jìn)行了驗(yàn)證。 ( 2 ) 表格型激勵學(xué)習(xí)控制算法的收斂性 用于求解m d p 的學(xué)習(xí)控制問題的激勵學(xué)習(xí)方法主要包括q 學(xué)習(xí)算法、s a r s a 學(xué)習(xí)算法和a h c 學(xué)習(xí)算法等。w a t k i n s 等在1 9 9 2 年證明了在學(xué)習(xí)因子滿足隨機(jī)逼 近迭代算法條件并且m d p 狀態(tài)空間被充分遍歷時,表格型q 學(xué)習(xí)算法以概率1 收 斂到m d p 的最優(yōu)值函數(shù)和最優(yōu)策略n3 1 。文獻(xiàn) 4 6 進(jìn)一步基于異步動態(tài)規(guī)劃和隨機(jī) 逼近理論證明了q 學(xué)習(xí)算法的收斂性。s i n g h 等研究了表格型s a r s a ( 0 ) 學(xué)習(xí)算法 的收斂性,證明了在兩類學(xué)習(xí)策略條件下s a r s a 學(xué)習(xí)算法的收斂性b 。 ( 3 ) 有關(guān)激勵學(xué)習(xí)泛化的理論研究 對于采用值函數(shù)逼近器的激勵學(xué)習(xí)控制算法,目前在收斂性分析理論方面還 比較缺乏。b a i r d 提出的殘差梯度算法h 們僅能保證在平穩(wěn)學(xué)習(xí)策略條件下的局部收 斂性,無法實(shí)現(xiàn)對馬氏決策過程最優(yōu)值函數(shù)的求解。v a p s 算法雖然能夠保證權(quán)值 的收斂性,但無法保證策略的局部最優(yōu)性h ”。h e g e r 研究了值函數(shù)逼近誤差上界與 策略性能誤差上界的關(guān)系,指出當(dāng)值函數(shù)逼近誤差上界較小時,獲得的近似最優(yōu) 策略具有性能保證,從而為基于值函數(shù)逼近的激勵學(xué)習(xí)泛化方法提供了理論分析 基礎(chǔ)1 。 8 長沙理工大學(xué)碩士學(xué)位論文基于人工勢場的激勵學(xué)習(xí)問題研究 2 在應(yīng)用方面,隨著激勵學(xué)習(xí)在算法和理論方面研究的深入,激勵學(xué)習(xí)方法 在實(shí)際的工程優(yōu)化和控制問題中得到了廣泛的應(yīng)用。目前激勵學(xué)習(xí)方法己在非線 性控制、機(jī)器人規(guī)劃和控制、人工智能問題求解、組合優(yōu)化和調(diào)度、通訊和數(shù)字 信號處理、多智能體系統(tǒng)、模式識別和交通信號控制等領(lǐng)域取得了若干成功的應(yīng) 用。 ( 1 ) 激勵學(xué)習(xí)在非線性控制中的應(yīng)用 在激勵學(xué)習(xí)的研究中,小車倒擺系統(tǒng)作為一種典型的非線性控制對象,也成 為激勵學(xué)習(xí)應(yīng)用和研究的目標(biāo)之一。張平等采用偽熵來改進(jìn)q 學(xué)習(xí)算法并對小車 倒擺系統(tǒng)進(jìn)行了學(xué)習(xí)控制仿真“引。b a r t 等研究了a h c 算法在倒立擺學(xué)習(xí)控制中的 應(yīng)用n 鍆。蔣國飛等研究了基于神經(jīng)網(wǎng)絡(luò)q 學(xué)習(xí)的倒立擺學(xué)習(xí)控制1 。 ( 2 ) 激勵學(xué)習(xí)在機(jī)器人規(guī)劃和控制中的應(yīng)用 在機(jī)器人學(xué)中,基于行為的機(jī)器人體系結(jié)構(gòu)由r b r o o k s 于8 0 年代提出哺, 近十年來己取得了大量的研究成果,該體系結(jié)構(gòu)與早期提出的基于功能分解的體 系結(jié)構(gòu)逐漸開始相互結(jié)合,成為實(shí)現(xiàn)智能機(jī)器人系統(tǒng)的重要指導(dǎo)性方法。在基于 行為的智能機(jī)器人控制系統(tǒng)中,機(jī)器人能否根據(jù)環(huán)境的變化進(jìn)行有效地行為選擇 是提高機(jī)器人的自主性的關(guān)鍵問題。要實(shí)現(xiàn)機(jī)器人的靈活和有效的行為選擇能力, 僅依靠設(shè)計(jì)者的經(jīng)驗(yàn)和知識是很難獲得對復(fù)雜和不確定環(huán)境的良好適應(yīng)性的。為 此,必須在機(jī)器人的規(guī)劃與控制系統(tǒng)引入學(xué)習(xí)機(jī)制,使機(jī)器人能夠在與環(huán)境的交 互中不斷激勵行為選擇能力。機(jī)器人的學(xué)習(xí)系統(tǒng)研究是近年來機(jī)器人學(xué)界的研究 熱點(diǎn)之一。一些著名大學(xué)都建立了學(xué)習(xí)機(jī)器人實(shí)驗(yàn)室。c k t h a m 等采用模塊化q 學(xué)習(xí)算法實(shí)現(xiàn)了機(jī)器人手臂的任務(wù)分解和控制,在每個q 學(xué)習(xí)模塊中采用了c m a c 逼近值函數(shù)啼扣;l j l i n 提出了結(jié)構(gòu)化q 學(xué)習(xí)方法用于移動機(jī)器人的控制和導(dǎo)航 踴引;s s i n g h 采用復(fù)合q 學(xué)習(xí)算法用于機(jī)器人的任務(wù)規(guī)劃和協(xié)調(diào)晦們;在r j a c o b s 等的工作中也采用了模塊化神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器人手臂逆動力學(xué)的學(xué)習(xí)哺6 1 。 ( 3 ) 激勵學(xué)習(xí)在優(yōu)化與調(diào)度中的應(yīng)用 基于m d p 的激勵學(xué)習(xí)算法將隨機(jī)動態(tài)規(guī)劃與動物學(xué)習(xí)心理學(xué)的“試錯 和瞬 時差分原理相結(jié)合,利用學(xué)習(xí)來計(jì)算狀態(tài)的評價函數(shù),因而能夠求解模型未知的 優(yōu)化和調(diào)度問題。采用基于函數(shù)逼近的激勵學(xué)習(xí)算法來求解大規(guī)模的優(yōu)化和調(diào)度 問題是激勵學(xué)習(xí)應(yīng)用的一個重要方面。 j b o y a n 提出了一種基于值函數(shù)學(xué)習(xí)和逼近的全局優(yōu)化算法一s t a g e ,在一系 列大規(guī)模優(yōu)化問題的求解中,s t a g e 算法的性能都超過了模擬退火算法( ( s a ) 。采 用樂觀的t d ( 入) 算法和神經(jīng)網(wǎng)絡(luò)逼近器,c r i t e s 和b a r t 等進(jìn)行了電梯調(diào)度的優(yōu) 化嘲1 ,z h a n g 和d i e t t e r i c h 等進(jìn)行了生產(chǎn)中的j o b - s h o p 問題的優(yōu)化怕”,上述應(yīng) 用都取得了令人滿意的結(jié)果,顯示了激勵學(xué)習(xí)在優(yōu)化和調(diào)度中廣泛應(yīng)用前景。 激勵學(xué)習(xí)在優(yōu)化調(diào)度中的其它應(yīng)用還包括:基于線性函數(shù)逼近q 學(xué)習(xí)算法的多 9 長沙理工大學(xué)碩士學(xué)位論文基于人工勢場的激勵學(xué)習(xí)問題研究 處理機(jī)系統(tǒng)的負(fù)載平衡調(diào)度等。 ( 4 ) 人工智能中的復(fù)雜問題求解 各種復(fù)雜問題求解一直是人工智能研究的重要領(lǐng)域,早期的各種啟發(fā)式搜索 方法和基于符號表示的產(chǎn)生式系統(tǒng)在求解一定規(guī)模的復(fù)雜問題中取得了成功。但 這些方法在實(shí)現(xiàn)過程中都存在知識獲取和表示的困難,如i b m 的d e e pb l u e 有大 量參數(shù)和知識數(shù)據(jù)庫,必須通過有關(guān)專家進(jìn)行手工調(diào)整才能獲得好的性能。 激勵學(xué)習(xí)算法與理論的研究為人工智能的復(fù)雜問題求解開辟了一條新的途 徑,激勵學(xué)習(xí)的基于多步序列決策的知識表示和基于“試錯的學(xué)習(xí)機(jī)制能夠有 效地解決知識的表示和獲取的問題。在早期的s a m u e l 的跳棋程序中就應(yīng)用了一定 的激勵學(xué)習(xí)思想。 目前,激勵學(xué)習(xí)在人工智能的復(fù)雜問題求解中己取得了若干研究成果,其中 有代表性的是g j t e s a u r o 的t d - g a m m o n 程序n 引,該程序采用前饋神經(jīng)網(wǎng)絡(luò)作為 值函數(shù)逼近器,基于t d ( 入) 算法通過自我學(xué)習(xí)對弈實(shí)現(xiàn)了專家級的b a c k g a m m o n 下棋程序。其它的相關(guān)工作包括:s t h r u n 研究了基于激勵學(xué)習(xí)的國際象棋程序晦9 1 , 并取得了一定的進(jìn)展。 ( 5 ) 激勵學(xué)習(xí)在其他領(lǐng)域的應(yīng)用 激勵學(xué)習(xí)除了在上述領(lǐng)域得到了廣泛的應(yīng)用外,在其他領(lǐng)域也取得了初步的 應(yīng)用成果,包括:在m a s ( 多智能體系統(tǒng)) 中的應(yīng)用晦5 6 們和交通信號的控制1 6 引。 1 2 5 存在的問題和本文的研究重點(diǎn) 盡管激勵學(xué)習(xí)的研究在國外已廣泛開展,但在國內(nèi)還沒有得到應(yīng)有的普遍關(guān) 注。近年來,國內(nèi)若干高校和研究所己開展了有關(guān)激勵學(xué)習(xí)算法和理論的研究工 作,從相關(guān)文獻(xiàn)來看,目前的研究工作還不夠深入和廣泛,激勵學(xué)習(xí)方法的工程 應(yīng)用還有待進(jìn)一步拓展。 目前,雖然關(guān)于激勵學(xué)習(xí)的算法和理論的研究已經(jīng)取得了大量的研究成果, 但仍然有許多關(guān)鍵問題有待解決。在算法和理論方面,己提出了多種表格型的激 勵學(xué)習(xí)算法,并建立了較為完善的收斂性理論,但對于連續(xù)、高維空間的馬氏決 策問題將面臨類似動態(tài)規(guī)劃的“維數(shù)災(zāi)難”。目前已提出的激勵學(xué)習(xí)泛化方法如基 于神經(jīng)網(wǎng)絡(luò)的激勵學(xué)習(xí)方法等仍然存在學(xué)習(xí)效率不高,在理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度南京二手房交易稅費(fèi)減免政策咨詢合同
- 二零二五年度農(nóng)田租賃與農(nóng)業(yè)金融服務(wù)合同樣本
- 2025年度瓶裝純凈水原水采集與處理合同4篇
- 2025年度門面房屋租賃合同租賃雙方信息保密協(xié)議4篇
- 2025年度海洋工程技術(shù)服務(wù)合同協(xié)議范本3篇
- 民政局二零二五年度離婚協(xié)議書電子模板使用許可4篇
- 二零二五版金融信息服務(wù)合同4篇
- 2025年度個人店面租賃合同范本簡易版2篇
- 2025年度個人房產(chǎn)買賣合同法律咨詢協(xié)議2篇
- 2025年度個人網(wǎng)絡(luò)安全與隱私保護(hù)咨詢服務(wù)合同范本3篇
- 醫(yī)院急診醫(yī)學(xué)小講課課件:急診呼吸衰竭的處理
- 腸梗阻導(dǎo)管在臨床中的使用及護(hù)理課件
- 調(diào)料廠工作管理制度
- 2023年MRI技術(shù)操作規(guī)范
- 小學(xué)英語單詞匯總大全打印
- 衛(wèi)生健康系統(tǒng)安全生產(chǎn)隱患全面排查
- GB/T 15114-2023鋁合金壓鑄件
- 三相分離器原理及操作
- 貨物驗(yàn)收單表格模板
- 600字A4標(biāo)準(zhǔn)作文紙
- GB/T 18015.2-2007數(shù)字通信用對絞或星絞多芯對稱電纜第2部分:水平層布線電纜分規(guī)范
評論
0/150
提交評論