強(qiáng)化學(xué)習(xí)簡介_第1頁
強(qiáng)化學(xué)習(xí)簡介_第2頁
強(qiáng)化學(xué)習(xí)簡介_第3頁
強(qiáng)化學(xué)習(xí)簡介_第4頁
強(qiáng)化學(xué)習(xí)簡介_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、強(qiáng)化學(xué)習(xí)簡介強(qiáng)化學(xué)習(xí)簡介Reinforcement Learning2 2什么是機(jī)器學(xué)習(xí)(什么是機(jī)器學(xué)習(xí)( Machine Learning)?)? 機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。專門研究計算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)學(xué)科。專門研究計算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。識結(jié)構(gòu)使之不斷改善自身的性能。 1959年美國的塞繆爾設(shè)計了一個下棋程序

2、,這年美國的塞繆爾設(shè)計了一個下棋程序,這個程序具有學(xué)習(xí)能力,它可以在不斷的對弈中改善個程序具有學(xué)習(xí)能力,它可以在不斷的對弈中改善自己的棋藝。自己的棋藝。4年后,這個程序戰(zhàn)勝了設(shè)計者本人。年后,這個程序戰(zhàn)勝了設(shè)計者本人。又過了又過了3年,這個程序戰(zhàn)勝了美國一個保持年,這個程序戰(zhàn)勝了美國一個保持8年之久年之久的常勝不敗的冠軍。的常勝不敗的冠軍。3 3機(jī)器學(xué)習(xí)的分類?機(jī)器學(xué)習(xí)的分類? 機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí):計算機(jī)獲得簡單的輸入給出期望的輸出,監(jiān)督學(xué)習(xí):計算機(jī)獲得簡單的輸入給出期望的輸出,過程是通過一個過程是通過一個“訓(xùn)練模型訓(xùn)練模型”,學(xué)習(xí)通用的準(zhǔn)則來從,學(xué)習(xí)通用的準(zhǔn)則來從輸入映射到輸出輸入映射

3、到輸出。無監(jiān)督學(xué)習(xí):沒有給出標(biāo)記用來學(xué)習(xí)算法,讓它自己無監(jiān)督學(xué)習(xí):沒有給出標(biāo)記用來學(xué)習(xí)算法,讓它自己去發(fā)現(xiàn)輸入的結(jié)構(gòu)。無監(jiān)督學(xué)習(xí)自己可以被當(dāng)成一個去發(fā)現(xiàn)輸入的結(jié)構(gòu)。無監(jiān)督學(xué)習(xí)自己可以被當(dāng)成一個目標(biāo)或者一個實現(xiàn)結(jié)果的途徑(特征學(xué)習(xí))。目標(biāo)或者一個實現(xiàn)結(jié)果的途徑(特征學(xué)習(xí))。強(qiáng)化學(xué)習(xí):一個計算機(jī)程序與動態(tài)環(huán)境交互,同時表強(qiáng)化學(xué)習(xí):一個計算機(jī)程序與動態(tài)環(huán)境交互,同時表現(xiàn)出確切目標(biāo)(比如駕駛一輛交通工具或者玩一個游現(xiàn)出確切目標(biāo)(比如駕駛一輛交通工具或者玩一個游戲?qū)挂粋€對手)。這個程序的獎懲機(jī)制會作為反饋,戲?qū)挂粋€對手)。這個程序的獎懲機(jī)制會作為反饋,實現(xiàn)它在問題領(lǐng)域中的導(dǎo)航。實現(xiàn)它在問題領(lǐng)域中的導(dǎo)

4、航。4強(qiáng)化學(xué)習(xí)(強(qiáng)化學(xué)習(xí)(reinforcement learning)與監(jiān)督學(xué)習(xí)、)與監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)的區(qū)別非監(jiān)督學(xué)習(xí)的區(qū)別n 沒有監(jiān)督者,只有獎勵信號沒有監(jiān)督者,只有獎勵信號n 反饋是延遲的,不是順時的反饋是延遲的,不是順時的n 時序性強(qiáng),不適用于獨(dú)立分布的數(shù)據(jù)時序性強(qiáng),不適用于獨(dú)立分布的數(shù)據(jù)n 自治智能體(自治智能體(agent)的行為會影響后續(xù)信息的的行為會影響后續(xù)信息的接收接收5思考:思考:五子棋:棋手通過數(shù)學(xué)公式計算,發(fā)現(xiàn)位置五子棋:棋手通過數(shù)學(xué)公式計算,發(fā)現(xiàn)位置1比位置比位置2價值大,這是強(qiáng)化學(xué)習(xí)嗎?價值大,這是強(qiáng)化學(xué)習(xí)嗎?這不叫強(qiáng)化學(xué)習(xí),叫規(guī)劃這不叫強(qiáng)化學(xué)習(xí),叫規(guī)劃如果通過

5、幾次嘗試,走位置如果通過幾次嘗試,走位置1比走位置比走位置2贏棋贏棋的可能性大,得出經(jīng)驗,則為強(qiáng)化學(xué)習(xí)的可能性大,得出經(jīng)驗,則為強(qiáng)化學(xué)習(xí)6強(qiáng)化學(xué)習(xí)模型強(qiáng)化學(xué)習(xí)模型幾個定義幾個定義自治智能體自治智能體Agent學(xué)習(xí)的主體,如小貓、小狗、人、機(jī)器人、控制程序等學(xué)習(xí)的主體,如小貓、小狗、人、機(jī)器人、控制程序等Agent的特點(diǎn)的特點(diǎn)1、主動對環(huán)境做出試探、主動對環(huán)境做出試探2、環(huán)境對試探動作反饋是評價性的(好或壞)、環(huán)境對試探動作反饋是評價性的(好或壞)3、在行動、在行動-評價的環(huán)境中獲得知識,改進(jìn)行動方案,達(dá)到評價的環(huán)境中獲得知識,改進(jìn)行動方案,達(dá)到預(yù)期目的預(yù)期目的 7獎勵信號(獎勵信號(rewar

6、ds)獎勵信號獎勵信號R是一個標(biāo)量信號是一個標(biāo)量信號表示表示agent在步驟在步驟T中所產(chǎn)生動作好壞中所產(chǎn)生動作好壞Agent的任務(wù)是最大化累積獎勵信號的任務(wù)是最大化累積獎勵信號8強(qiáng)化學(xué)習(xí)模型強(qiáng)化學(xué)習(xí)模型9例子例子圖中黃點(diǎn)是機(jī)器人,圖中黃點(diǎn)是機(jī)器人,目的是走到綠色的目的是走到綠色的方塊方塊reward+1000,黑色方塊是墻壁,黑色方塊是墻壁,撞到撞到reward-10,紅色方塊是陷阱,紅色方塊是陷阱,撞到撞到reward-1000,其他其他reward+010111213強(qiáng)化學(xué)習(xí)基本要素強(qiáng)化學(xué)習(xí)基本要素強(qiáng)化學(xué)習(xí)基本要素及其關(guān)系強(qiáng)化學(xué)習(xí)基本要素及其關(guān)系14策略定義了策略定義了agent在給定時

7、間內(nèi)的行為方式,在給定時間內(nèi)的行為方式,一個策略就是從環(huán)境感知的狀態(tài)到在這些狀一個策略就是從環(huán)境感知的狀態(tài)到在這些狀態(tài)中可采取動作的一個映射。態(tài)中可采取動作的一個映射??赡苁且粋€查找表,也可能是一個函數(shù)可能是一個查找表,也可能是一個函數(shù)確定性策略:確定性策略:a = (s)隨機(jī)策略:隨機(jī)策略: (a s) = PAt = a St = s15回報函數(shù)是強(qiáng)化學(xué)習(xí)問題中的目標(biāo),它把環(huán)境中回報函數(shù)是強(qiáng)化學(xué)習(xí)問題中的目標(biāo),它把環(huán)境中感知到的狀態(tài)映射為單獨(dú)的一個獎賞感知到的狀態(tài)映射為單獨(dú)的一個獎賞回報函數(shù)可以作為改變策略的標(biāo)準(zhǔn)回報函數(shù)可以作為改變策略的標(biāo)準(zhǔn)16值函數(shù):一個狀態(tài)起值函數(shù):一個狀態(tài)起agen

8、t所能積累的回所能積累的回報的總和。報的總和。在決策和評價決策中考慮最多的是值函在決策和評價決策中考慮最多的是值函數(shù)數(shù)17環(huán)境模型模擬了環(huán)境的行為,即給定一個狀環(huán)境模型模擬了環(huán)境的行為,即給定一個狀態(tài)和動作,模型可以預(yù)測必定導(dǎo)致的下一個態(tài)和動作,模型可以預(yù)測必定導(dǎo)致的下一個狀態(tài)和下一個獎賞。模型一般用于規(guī)劃狀態(tài)和下一個獎賞。模型一般用于規(guī)劃規(guī)劃是算出來的,強(qiáng)化學(xué)習(xí)是試出來的規(guī)劃是算出來的,強(qiáng)化學(xué)習(xí)是試出來的18馬爾可夫過程馬爾可夫過程馬爾可夫獎勵過程馬爾可夫獎勵過程馬爾可夫決策過程馬爾可夫決策過程馬爾科夫決策過程(馬爾科夫決策過程(MDP)19馬爾科夫性:所謂馬爾科夫性是指系統(tǒng)的下一馬爾科夫性

9、:所謂馬爾科夫性是指系統(tǒng)的下一個狀態(tài)個狀態(tài)s(t+1)僅與當(dāng)前狀態(tài)僅與當(dāng)前狀態(tài)s(t)有關(guān),而與以前有關(guān),而與以前的狀態(tài)無關(guān)。的狀態(tài)無關(guān)。馬爾可夫過程馬爾可夫過程定義:狀態(tài)定義:狀態(tài)s(t) 是馬爾科夫的,當(dāng)且僅是馬爾科夫的,當(dāng)且僅當(dāng)當(dāng)P St+1 St = P St+1 S1; :; St 20對于一個馬爾科夫狀態(tài)對于一個馬爾科夫狀態(tài)s和接下來的狀態(tài)和接下來的狀態(tài)s , 狀態(tài)轉(zhuǎn)狀態(tài)轉(zhuǎn)移概率定義為移概率定義為通常馬爾科夫過程是一個二元組(通常馬爾科夫過程是一個二元組(S,P),且滿),且滿足:足:S是有限狀態(tài)集合,是有限狀態(tài)集合, P是狀態(tài)轉(zhuǎn)移概率。狀態(tài)是狀態(tài)轉(zhuǎn)移概率。狀態(tài)轉(zhuǎn)移概率矩陣為:轉(zhuǎn)移

10、概率矩陣為:2122以下狀態(tài)序列稱為馬爾以下狀態(tài)序列稱為馬爾科夫鏈,假設(shè)從科夫鏈,假設(shè)從C1開始開始2324對于游戲或者機(jī)器人,馬爾科夫過程不足以描述其特點(diǎn),因為不管是游戲還是機(jī)器人,他們都是通過動作與環(huán)境進(jìn)行交互,并從環(huán)境中獲得獎勵,而馬爾科夫過程中不存在動作和獎勵。25馬爾可夫獎勵過程馬爾可夫獎勵過程馬爾可夫獎勵過程(馬爾可夫獎勵過程(MRP)是一種帶有價值的馬)是一種帶有價值的馬爾科夫鏈,由元組(爾科夫鏈,由元組(S,P,R, )來表示)來表示S為有限的狀態(tài)集為有限的狀態(tài)集P為狀態(tài)轉(zhuǎn)移概率為狀態(tài)轉(zhuǎn)移概率R為獎勵函數(shù)為獎勵函數(shù) 為折扣因子,為折扣因子, 0,1 2627強(qiáng)化學(xué)習(xí)是找到最優(yōu)的

11、策略,這里的最優(yōu)是指得到的總強(qiáng)化學(xué)習(xí)是找到最優(yōu)的策略,這里的最優(yōu)是指得到的總回報最大?;貓笞畲蟆.?dāng)給定一個策略時,我們就可以計算累積回報。首先當(dāng)給定一個策略時,我們就可以計算累積回報。首先定義累積回報:定義累積回報:28當(dāng)給定策略當(dāng)給定策略時,假設(shè)從狀態(tài)時,假設(shè)從狀態(tài)C1出發(fā),學(xué)生狀態(tài)序列出發(fā),學(xué)生狀態(tài)序列可能為:可能為:在策略在策略下,可以計算累積回報下,可以計算累積回報G1,此時,此時G1有多個有多個可能值可能值 。由于策略。由于策略是隨機(jī)的,因此累積回報也是隨是隨機(jī)的,因此累積回報也是隨機(jī)的。為了評價狀態(tài)機(jī)的。為了評價狀態(tài)s1的價值,我們需要定義一個確的價值,我們需要定義一個確定量來描述

12、狀態(tài)定量來描述狀態(tài)s1的價值,很自然的想法是利用累積的價值,很自然的想法是利用累積回報來衡量狀態(tài)回報來衡量狀態(tài)s1 的價值。然而,累積回報的價值。然而,累積回報G1 是個是個隨機(jī)變量,不是一個確定值,因此無法進(jìn)行描述。但隨機(jī)變量,不是一個確定值,因此無法進(jìn)行描述。但其期望是個確定值,可以作為狀態(tài)值函數(shù)的定義。其期望是個確定值,可以作為狀態(tài)值函數(shù)的定義。29當(dāng)智能體采用策略當(dāng)智能體采用策略時,累積回報服從一個分布,時,累積回報服從一個分布,累積回報在狀態(tài)累積回報在狀態(tài)s處的期望值定義為狀態(tài)值函數(shù):處的期望值定義為狀態(tài)值函數(shù):30例例31例例32例例33例例34貝爾曼方程貝爾曼方程狀態(tài)值函數(shù)可以分

13、為兩部分:狀態(tài)值函數(shù)可以分為兩部分:瞬時獎勵瞬時獎勵后繼狀態(tài)值函數(shù)的折扣值后繼狀態(tài)值函數(shù)的折扣值353637馬爾可夫決策過程馬爾可夫決策過程馬爾可夫決策過程是一種帶有決策作用的馬爾可夫決策過程是一種帶有決策作用的馬爾科夫獎勵過程,由元組(馬爾科夫獎勵過程,由元組(S,A,P,R, )來表示)來表示S為有限的狀態(tài)集為有限的狀態(tài)集A為有限的動作集為有限的動作集P為狀態(tài)轉(zhuǎn)移概率為狀態(tài)轉(zhuǎn)移概率R為獎勵函數(shù)為獎勵函數(shù) 為折扣因子,為折扣因子, 0,1 3839策略策略策略是指狀態(tài)到動作的映射,策略常用符號策略是指狀態(tài)到動作的映射,策略常用符號表示,表示,它是指給定狀態(tài)它是指給定狀態(tài)s時,動作集上的一個分布,即時,動作集上的一個分布,即

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論