強(qiáng)化學(xué)習(xí)基本知識(shí)_第1頁(yè)
強(qiáng)化學(xué)習(xí)基本知識(shí)_第2頁(yè)
強(qiáng)化學(xué)習(xí)基本知識(shí)_第3頁(yè)
強(qiáng)化學(xué)習(xí)基本知識(shí)_第4頁(yè)
強(qiáng)化學(xué)習(xí)基本知識(shí)_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、強(qiáng)化學(xué)習(xí)基礎(chǔ)知識(shí)作為人工智能領(lǐng)域、機(jī)器學(xué)習(xí)(MachineLearnig)熱點(diǎn)研究?jī)?nèi)容之一的強(qiáng)化學(xué)習(xí)(ReinforcementLearning,RL),旨在通過(guò)在無(wú)外界"教師”參與的情況下,智能體(Agent)自身通過(guò)不斷地與環(huán)境交互、試錯(cuò),根據(jù)反饋評(píng)價(jià)信號(hào)調(diào)整動(dòng)作,得到最優(yōu)的策略以適應(yīng)環(huán)境。一、Markov決策過(guò)程(MDP)強(qiáng)化學(xué)習(xí)的來(lái)源是馬爾科夫決策過(guò)程:M=<S,A,PR>Markov性的意思是x取x(1),x(2),x(3)x(n)所得到x(n+m)的分布與x只取x(n)所得到的x(n+m)的分布相同,既是說(shuō)未來(lái)狀態(tài)的分布只與當(dāng)前狀態(tài)有關(guān),而與過(guò)去狀態(tài)無(wú)關(guān)。(無(wú)

2、后效性)若轉(zhuǎn)移概率函數(shù)P(s,a,s')和回報(bào)函數(shù)r(s,a,s'與決策時(shí)間t無(wú)關(guān),即不隨時(shí)間t的變化而變化,則MDP稱為平穩(wěn)MDP。當(dāng)前狀態(tài)s所選取的動(dòng)作是由策略h決定:S*A>0,12-.(s)在狀態(tài)s下用策略二所選取的動(dòng)作。動(dòng)作后的結(jié)果是由值函數(shù)以評(píng)估,它是由Bellman公式得到。(折扣因子-(0,1)值函數(shù)V0八h(s,a)R(s,a)'、P(s,a,s')V二(s')uUs'WS動(dòng)作一狀態(tài)值函數(shù)Q二(s,a)=Rga)一二:P(s,a,sTQ:(s',a')S0a'?A對(duì)于確定性策略二,有V二(s)=Q:

3、(s,-(s);一個(gè)狀態(tài)轉(zhuǎn)移概率對(duì)于不確定性策略二,有v:(s)=a二(s,a)Q:(s,a)多個(gè)狀態(tài)轉(zhuǎn)移概率a環(huán)強(qiáng)化學(xué)習(xí)的最終目的是找到最優(yōu)策略,選擇值函數(shù)最大的動(dòng)作。最優(yōu)值函數(shù)V:(s)二maXR(s,a)、P(s,a,s')V*(s')s總或者最優(yōu)動(dòng)作一狀態(tài)值函數(shù)Q(s,a)二R(s,a)一二P(s,a,s')maxQ(s',a')sAS或者兼而有之為了逼近既定目為了避免局部最優(yōu)需要進(jìn)行隨機(jī)探索,標(biāo)需要抽取最優(yōu)策略,所以算法中存在一個(gè)探索與利用的平衡。對(duì)于電磁微閥控制s當(dāng)前四個(gè)微閥狀態(tài)a操作四個(gè)微閥的動(dòng)作,0為關(guān)閉,1為開(kāi)啟s'動(dòng)作后微閥的

4、新?tīng)顟B(tài)P(s,a,s)狀態(tài)s調(diào)控微閥使其達(dá)到新?tīng)顟B(tài)s'的概率V二(s)在調(diào)控后這個(gè)狀態(tài)的累計(jì)獎(jiǎng)賞值R(s,a)本次動(dòng)作的立即獎(jiǎng)賞值,根據(jù)各點(diǎn)溫度及標(biāo)準(zhǔn)差的計(jì)算評(píng)估得到二(s,a)-調(diào)節(jié)微閥的各種策略二、基于模型的動(dòng)態(tài)規(guī)劃算法動(dòng)態(tài)規(guī)劃是一個(gè)多階段的決策問(wèn)題,在最優(yōu)決策問(wèn)題中,常規(guī)動(dòng)態(tài)規(guī)劃算法主要分為下面四類:第一類是線性規(guī)劃法,根據(jù)Bellman方程將值函數(shù)的求取轉(zhuǎn)化為一個(gè)線性規(guī)劃問(wèn)題;線性規(guī)劃方程包含|S|個(gè)變量,|S|*|A|個(gè)不等式約束,其計(jì)算復(fù)雜度為多項(xiàng)式時(shí)間。max£V(s)S令s.tV(s)KR(s,a)+Y£P(s,a,s')V(s'),

5、X/s迂S幣A'?一sW第二類是策略迭代,仍然是基于Bellman最優(yōu)方程的算法,通過(guò)策略評(píng)估與策略迭代的交替進(jìn)行來(lái)求取最優(yōu)策略;策略迭代分為策略評(píng)估和策略改進(jìn)兩部分:在評(píng)估部分,對(duì)于一個(gè)給定的策略據(jù)Bellman,根公式求解V7k(s)和Q_k(s,a)o對(duì)于評(píng)估部分,用貪婪策略得到改進(jìn)的策略第三類是值函數(shù)迭代法,其本質(zhì)為有限時(shí)段的動(dòng)態(tài)規(guī)劃算法在無(wú)限時(shí)段上的推廣,種逐次逼近算法;將Bellman公式改寫(xiě)為Vt,s)-max',P(s,a,s')(R(s,a,s')Vt(s'),_sS,就可跳過(guò)策略改進(jìn)步驟,直接用迭代法逼近最優(yōu)值函數(shù)V*,從而求取最優(yōu)策

6、略二*第四類是廣義策略迭代法,綜合了策略迭代和值迭代方法特點(diǎn)。廣義策略評(píng)估是策略評(píng)估與策略改進(jìn)相結(jié)合的學(xué)習(xí)過(guò)程。策略評(píng)估總是試圖讓策略和相應(yīng)的值函數(shù)一致,而策略改進(jìn)總是破壞策略評(píng)估得到的一致性。最終策略和值函數(shù)都不再變化是迭代結(jié)束。下圖在兩個(gè)維度上 (兩條線表示)描述了廣義策略迭代的逼近過(guò)程,學(xué)習(xí)的最終目的是獲得最優(yōu)策略,具體的學(xué)習(xí)過(guò)程可以在值函數(shù)唯獨(dú)和策略策略維度上靈活的變化。值函數(shù)迭代方法只在值函數(shù)維度上工作,而策略迭代方法在值函數(shù)維度和策略維度上交叉進(jìn)行。許多動(dòng)態(tài)規(guī)劃與強(qiáng)化學(xué)習(xí)算法的思想都來(lái)源于廣義策略迭代。初始狀態(tài)一一|決策1|決策2|?.一|決策川一一結(jié)束狀態(tài)三、模型未知的強(qiáng)化學(xué)習(xí)對(duì)

7、于求解模型未知的MDP問(wèn)題,通常有如下3類解決思路:第一類是學(xué)習(xí)MDP的相關(guān)模型,然后用動(dòng)態(tài)規(guī)劃算法予以求解,此類方法稱為間接強(qiáng)化學(xué)習(xí);第二類方法不需要估計(jì)MDP的模型,直接利用采樣對(duì)值函數(shù)或策略函數(shù)進(jìn)行評(píng)估,此類方法成為直接強(qiáng)化學(xué)習(xí)算法;第三類是前兩類方法的混合。1 .蒙特卡羅方法蒙特卡洛方法是一種以部分估計(jì)整體,利用隨機(jī)數(shù)來(lái)解決問(wèn)題的方法,其通過(guò)統(tǒng)計(jì)模擬或抽MC策略評(píng)估主樣以獲得問(wèn)題的近似解。該方法只是用于場(chǎng)景中存在終止?fàn)顟B(tài)的任務(wù)。要是利用大數(shù)定律,以各個(gè)狀態(tài)的回報(bào)值的樣本平均來(lái)估計(jì)值函數(shù),最終發(fā)現(xiàn)最優(yōu)策略。V(s)-average(Return(s)得到的回報(bào)金額已賦給第一次訪問(wèn)的S,也

8、可以將每次訪問(wèn)到終止?fàn)顟B(tài)Sr的回報(bào)平均后賦予給s的值函數(shù)。鑒于MC策略評(píng)估只有在只有在無(wú)窮次迭代時(shí)才能精確計(jì)算Q二,因此有人提出了改進(jìn)策略,在一幕賦值完成后將Q"用貪婪算法來(lái)更新以得到改進(jìn)策略二ki,這樣有利于維持探索與利用的平衡,也提高了Q的精確度。二(s)-argmaxQ(s,a)但是面對(duì)著以上方法只利用不探索的缺陷將貪婪策略進(jìn)行的改進(jìn),引入了基于£-貪婪-貪婪策略來(lái)選擇;策略的在線MC控制策略,主要做了兩個(gè)改動(dòng):第一個(gè)是將初始策略用第二個(gè)是利用£-貪婪策略來(lái)進(jìn)行策略更新。即對(duì)于每一個(gè) a八A,兀(s,a)匕*Q(s;'(s)-'二'(

9、s,a)Q"s, a) a®在線策略 MC 控制算法中,產(chǎn)生樣本的行為策略R-E+E/|A|,a=a*&/1A|,a式a*Q:(s,a)(1-;)maxQ:(s,a)|A|am吟'核和進(jìn)行Q值估計(jì)的評(píng)估策略二是同一策略,而在離線策略學(xué)習(xí)中兩者是獨(dú)立的,評(píng)估策略用£-貪婪策略進(jìn)行改進(jìn)。而行為策略二'可以根據(jù)具體情況靈活設(shè)計(jì)。蒙特卡羅學(xué)習(xí)方法優(yōu)點(diǎn)是不必依賴于馬爾科夫決策過(guò)程,在模型未知時(shí)也能選擇出感興趣的狀態(tài)以求其值函數(shù),而不必遍歷所有值函數(shù)。2 .時(shí)間差分TD算法時(shí)間差分指的是對(duì)同一個(gè)變量在連續(xù)兩個(gè)時(shí)刻觀測(cè)到的值的差異。假設(shè)在時(shí)刻t,系統(tǒng)的狀

10、態(tài)st的值函數(shù)表示為V$),rt為在當(dāng)前狀態(tài)下根據(jù)某種動(dòng)作選擇策略采取動(dòng)作at后,使得狀態(tài)發(fā)生變化轉(zhuǎn)移至新?tīng)顟B(tài)st+i時(shí)得到的即時(shí)獎(jiǎng)賞。狀態(tài)st下新的值函數(shù)的估計(jì)值:V'(q)=rt?V(sti)那么,時(shí)刻t的時(shí)間差分為:=rtV(sJTD方法通過(guò)預(yù)測(cè)每個(gè)動(dòng)作的長(zhǎng)期結(jié)果來(lái)給先前動(dòng)作賦予獎(jiǎng)勵(lì)或懲罰,即依賴于后續(xù)狀態(tài)的值函數(shù)來(lái)更新先前狀態(tài)值函數(shù)的自舉方法,主要應(yīng)用于預(yù)測(cè)問(wèn)題。只向后追蹤一步的預(yù)測(cè)問(wèn)題TD(O)的迭代公式為(0<aK表示學(xué)習(xí)率因子)V(st)=V(8t)t=V(sJ:(rtV(sti)-V(st)追蹤多步的預(yù)測(cè)問(wèn)題TD()的迭代公式為V(st)=V(st廠九t=V(s)

11、:(rtV(sti)-V(st)e(sOe(st)為狀態(tài)的資格跡。對(duì)某一特定狀態(tài),其資格跡隨狀態(tài)被訪問(wèn)次數(shù)的增加而增加,該狀態(tài)對(duì)整體的影響越大。資格跡定義方式分為增量型和替代型兩類。3.Q學(xué)習(xí)和sarsa學(xué)習(xí)Q學(xué)習(xí)不同于TD時(shí)序差分算法在于它用狀態(tài)-動(dòng)作值函數(shù)Q(s,a)作為評(píng)估函數(shù),而不是值函數(shù)V(s)。它只需采取貪心策略選擇動(dòng)作而無(wú)需知道模型就可以保證收斂,是目前最有效的強(qiáng)化學(xué)習(xí)算法。在Q學(xué)習(xí)中Q都是估計(jì)值而不是實(shí)際值,是從不同動(dòng)作的估計(jì)值中選擇最大Q值函數(shù)進(jìn)行更新。相對(duì)于Q學(xué)習(xí)利用模擬Q值進(jìn)行迭代的離線學(xué)習(xí),SARSA學(xué)習(xí)更像是一種在線學(xué)習(xí),是嚴(yán)格根據(jù)策略二實(shí)時(shí)更新,行為決策與值函數(shù)迭代

12、是同時(shí)進(jìn)行的。它們之間的區(qū)別是更新Q(s,a)時(shí),一個(gè)用的是根據(jù)以往經(jīng)驗(yàn)預(yù)測(cè)的最優(yōu)策略,一個(gè)用的是當(dāng)前Q'(St,aJ 二 Q(St,aJ ;二(n實(shí)際動(dòng)作狀態(tài)值函數(shù)。maxQ(q彳,a)-Q(q,a)Q-learningaQ'SaJ =Q(S t,at) : (nQ(St i,aAQ(s tia)SarsaQ學(xué)習(xí)的優(yōu)化方法當(dāng)傳統(tǒng)的強(qiáng)化學(xué)習(xí)的問(wèn)題空間SX A 變得龐大的時(shí)候, 有兩個(gè)嚴(yán)重的問(wèn)題影響了強(qiáng)化學(xué)習(xí)其一是速率問(wèn)題:SXA數(shù)據(jù)量龐大,因此強(qiáng)化學(xué)習(xí)算法常常收斂較慢。其二是復(fù)用問(wèn)題:無(wú)論是值函數(shù)V(s)還是動(dòng)作值函數(shù)Q(s,a)或者是策略n,強(qiáng)化學(xué)習(xí)的結(jié)果總是依賴于SXA的具

13、體表示,這意味著只要問(wèn)題略微改變,以前的學(xué)習(xí)結(jié)果就變得毫無(wú)用處?但對(duì)于某些實(shí)際問(wèn)題,由于訓(xùn)練代價(jià)較高,學(xué)習(xí)結(jié)果的可復(fù)用性是非常重要的。這兩方面激勵(lì)了強(qiáng)化學(xué)習(xí)的遷移。遷移學(xué)習(xí)就是復(fù)用過(guò)去的學(xué)習(xí)經(jīng)驗(yàn)和結(jié)果以加速對(duì)于新任務(wù)的學(xué)習(xí)。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法適于處理小規(guī)模的離散狀態(tài)或離散動(dòng)作學(xué)習(xí)任務(wù)而不能求解連續(xù)狀態(tài)空間和連續(xù)動(dòng)作空間的問(wèn)題。1 .Dyna-Q學(xué)習(xí)對(duì)于環(huán)境復(fù)雜、信息量大、必須快速學(xué)習(xí)的情況,例如礦井下的線路規(guī)劃,Q學(xué)習(xí)學(xué)習(xí)效率會(huì)很低,它需要采集環(huán)境中的“足夠的狀態(tài)動(dòng)作對(duì)和相應(yīng)值函數(shù)才能收斂,所花費(fèi)多”時(shí)間過(guò)長(zhǎng),不能及時(shí)指定路線。針對(duì)這個(gè)問(wèn)題,提出了改進(jìn)策略,將Dyna學(xué)習(xí)框架加入到Q學(xué)習(xí)中可以

14、利用少許真實(shí)這樣可以以增加計(jì)算復(fù)數(shù)據(jù)建立環(huán)境估計(jì)模型,然后用規(guī)劃法產(chǎn)生虛擬樣本弁更新值函數(shù),雜度來(lái)降低時(shí)間復(fù)雜度。真實(shí)樣本報(bào)r 狀態(tài)wAj值函數(shù)和策略函數(shù))<':J圖1Dyna學(xué)習(xí)框架原理Dyna-Q學(xué)習(xí)與Q學(xué)習(xí)算法過(guò)程的區(qū)別是真實(shí)樣本T不僅要更新值函數(shù)、策略函數(shù),還要更新環(huán)境的估計(jì)模型P,模型訓(xùn)練好便可產(chǎn)生虛擬樣本自行更新,轉(zhuǎn)在線為離線,集試錯(cuò)于認(rèn)知,將得魚(yú)變成了得漁,提高了學(xué)習(xí)效率。但要處理好學(xué)習(xí)與規(guī)劃的平衡問(wèn)題。2 .最小二乘時(shí)間差分Q算法(LSTDQQ學(xué)習(xí)的查找表形式只適用于求解小規(guī)模、離散空間問(wèn)題,而對(duì)于實(shí)際大規(guī)?;蜻B續(xù)空間問(wèn)題,智能體不能遍歷所有狀態(tài),而用最小二乘法策

15、略迭代法即可解決,它主要通過(guò)估計(jì)值來(lái)逼近動(dòng)作值函數(shù)Q"s,a)。其矩陣描述形式為:Q-=其中,門=T(s1,a1),,T(s,a),,T(Ssi,aiAi)T表示大小為|S|A|*k的基函數(shù)矩陣。通過(guò)最小二乘不動(dòng)點(diǎn)逼近法來(lái)學(xué)習(xí)參數(shù)-,有十二:(1-P匚其中,P'是大小為|S|A|*|S|的矩陣,P'(s,a),s')=P(s,a,s),二二大小為|S|A|*|S|矩陣,:(s',(s',a')=(s')。輸出?或二(s)=argmax(s,a)最小二乘策略迭代框架如下:值函數(shù)逼近先行結(jié)構(gòu)(3,(s,a)a)To策略評(píng)估、投影LSTDQSamples貪婪策略(s) =arg max Q (s, a)T<Taev策略改進(jìn)MaximizationJ3 .解決維數(shù)災(zāi)難的方法高維空間訓(xùn)練形成的分類器,相當(dāng)于在低維空間的一個(gè)復(fù)雜的非線性分類器,這種分類器過(guò)多的強(qiáng)調(diào)了訓(xùn)練集的準(zhǔn)確率甚至于對(duì)一些錯(cuò)誤/異常的數(shù)據(jù)也進(jìn)行了學(xué)習(xí),而正確的數(shù)據(jù)卻無(wú)法覆蓋整個(gè)特征空間,維數(shù)越多,接近球心樣本越稀疏。這導(dǎo)致訓(xùn)練數(shù)據(jù)量嚴(yán)重不足,要是這時(shí)產(chǎn)生一個(gè)錯(cuò)誤的新數(shù)據(jù)就會(huì)在預(yù)測(cè)時(shí)產(chǎn)生極大的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論