強化學習簡介

上傳人：1*** IP屬地：湖北上傳時間：2022-03-24 格式：PPT 頁數(shù)：48 大小：2MB 積分：30 舉報 版權申訴

已閱讀5頁，還剩43頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、強化學習簡介強化學習簡介Reinforcement Learning2 2什么是機器學習（什么是機器學習（ Machine Learning）？）？機器學習是一門多領域交叉學科，涉及概率論、機器學習是一門多領域交叉學科，涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習學科。專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為，以獲取新的知識或技能，重新組織已有的知行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的性能。識結構使之不斷改善自身的性能。 1959年美國的塞繆爾設計了一個下棋程序

2、，這年美國的塞繆爾設計了一個下棋程序，這個程序具有學習能力，它可以在不斷的對弈中改善個程序具有學習能力，它可以在不斷的對弈中改善自己的棋藝。自己的棋藝。4年后，這個程序戰(zhàn)勝了設計者本人。年后，這個程序戰(zhàn)勝了設計者本人。又過了又過了3年，這個程序戰(zhàn)勝了美國一個保持年，這個程序戰(zhàn)勝了美國一個保持8年之久年之久的常勝不敗的冠軍。的常勝不敗的冠軍。3 3機器學習的分類？機器學習的分類？機器學習機器學習監(jiān)督學習：計算機獲得簡單的輸入給出期望的輸出，監(jiān)督學習：計算機獲得簡單的輸入給出期望的輸出，過程是通過一個過程是通過一個“訓練模型訓練模型”，學習通用的準則來從，學習通用的準則來從輸入映射到輸出輸入映射

3、到輸出。無監(jiān)督學習：沒有給出標記用來學習算法，讓它自己無監(jiān)督學習：沒有給出標記用來學習算法，讓它自己去發(fā)現(xiàn)輸入的結構。無監(jiān)督學習自己可以被當成一個去發(fā)現(xiàn)輸入的結構。無監(jiān)督學習自己可以被當成一個目標或者一個實現(xiàn)結果的途徑（特征學習）。目標或者一個實現(xiàn)結果的途徑（特征學習）。強化學習：一個計算機程序與動態(tài)環(huán)境交互，同時表強化學習：一個計算機程序與動態(tài)環(huán)境交互，同時表現(xiàn)出確切目標（比如駕駛一輛交通工具或者玩一個游現(xiàn)出確切目標（比如駕駛一輛交通工具或者玩一個游戲?qū)挂粋€對手）。這個程序的獎懲機制會作為反饋，戲?qū)挂粋€對手）。這個程序的獎懲機制會作為反饋，實現(xiàn)它在問題領域中的導航。實現(xiàn)它在問題領域中的導

4、航。4強化學習（強化學習（reinforcement learning）與監(jiān)督學習、）與監(jiān)督學習、非監(jiān)督學習的區(qū)別非監(jiān)督學習的區(qū)別n 沒有監(jiān)督者，只有獎勵信號沒有監(jiān)督者，只有獎勵信號n 反饋是延遲的，不是順時的反饋是延遲的，不是順時的n 時序性強，不適用于獨立分布的數(shù)據(jù)時序性強，不適用于獨立分布的數(shù)據(jù)n 自治智能體（自治智能體（agent)的行為會影響后續(xù)信息的的行為會影響后續(xù)信息的接收接收5思考：思考：五子棋：棋手通過數(shù)學公式計算，發(fā)現(xiàn)位置五子棋：棋手通過數(shù)學公式計算，發(fā)現(xiàn)位置1比位置比位置2價值大，這是強化學習嗎？價值大，這是強化學習嗎？這不叫強化學習，叫規(guī)劃這不叫強化學習，叫規(guī)劃如果通過

5、幾次嘗試，走位置如果通過幾次嘗試，走位置1比走位置比走位置2贏棋贏棋的可能性大，得出經(jīng)驗，則為強化學習的可能性大，得出經(jīng)驗，則為強化學習6強化學習模型強化學習模型幾個定義幾個定義自治智能體自治智能體Agent學習的主體，如小貓、小狗、人、機器人、控制程序等學習的主體，如小貓、小狗、人、機器人、控制程序等Agent的特點的特點1、主動對環(huán)境做出試探、主動對環(huán)境做出試探2、環(huán)境對試探動作反饋是評價性的（好或壞）、環(huán)境對試探動作反饋是評價性的（好或壞）3、在行動、在行動-評價的環(huán)境中獲得知識，改進行動方案，達到評價的環(huán)境中獲得知識，改進行動方案，達到預期目的預期目的 7獎勵信號（獎勵信號（rewar

6、ds）獎勵信號獎勵信號R是一個標量信號是一個標量信號表示表示agent在步驟在步驟T中所產(chǎn)生動作好壞中所產(chǎn)生動作好壞Agent的任務是最大化累積獎勵信號的任務是最大化累積獎勵信號8強化學習模型強化學習模型9例子例子圖中黃點是機器人，圖中黃點是機器人，目的是走到綠色的目的是走到綠色的方塊方塊reward+1000，黑色方塊是墻壁，黑色方塊是墻壁，撞到撞到reward-10，紅色方塊是陷阱，紅色方塊是陷阱，撞到撞到reward-1000，其他其他reward+010111213強化學習基本要素強化學習基本要素強化學習基本要素及其關系強化學習基本要素及其關系14策略定義了策略定義了agent在給定時

7、間內(nèi)的行為方式，在給定時間內(nèi)的行為方式，一個策略就是從環(huán)境感知的狀態(tài)到在這些狀一個策略就是從環(huán)境感知的狀態(tài)到在這些狀態(tài)中可采取動作的一個映射。態(tài)中可采取動作的一個映射?？赡苁且粋€查找表，也可能是一個函數(shù)可能是一個查找表，也可能是一個函數(shù)確定性策略：確定性策略：a = (s)隨機策略：隨機策略： (a s) = PAt = a St = s15回報函數(shù)是強化學習問題中的目標，它把環(huán)境中回報函數(shù)是強化學習問題中的目標，它把環(huán)境中感知到的狀態(tài)映射為單獨的一個獎賞感知到的狀態(tài)映射為單獨的一個獎賞回報函數(shù)可以作為改變策略的標準回報函數(shù)可以作為改變策略的標準16值函數(shù)：一個狀態(tài)起值函數(shù)：一個狀態(tài)起agen

8、t所能積累的回所能積累的回報的總和。報的總和。在決策和評價決策中考慮最多的是值函在決策和評價決策中考慮最多的是值函數(shù)數(shù)17環(huán)境模型模擬了環(huán)境的行為，即給定一個狀環(huán)境模型模擬了環(huán)境的行為，即給定一個狀態(tài)和動作，模型可以預測必定導致的下一個態(tài)和動作，模型可以預測必定導致的下一個狀態(tài)和下一個獎賞。模型一般用于規(guī)劃狀態(tài)和下一個獎賞。模型一般用于規(guī)劃規(guī)劃是算出來的，強化學習是試出來的規(guī)劃是算出來的，強化學習是試出來的18馬爾可夫過程馬爾可夫過程馬爾可夫獎勵過程馬爾可夫獎勵過程馬爾可夫決策過程馬爾可夫決策過程馬爾科夫決策過程（馬爾科夫決策過程（MDP）19馬爾科夫性：所謂馬爾科夫性是指系統(tǒng)的下一馬爾科夫性

9、：所謂馬爾科夫性是指系統(tǒng)的下一個狀態(tài)個狀態(tài)s(t+1)僅與當前狀態(tài)僅與當前狀態(tài)s(t)有關，而與以前有關，而與以前的狀態(tài)無關。的狀態(tài)無關。馬爾可夫過程馬爾可夫過程定義：狀態(tài)定義：狀態(tài)s(t) 是馬爾科夫的，當且僅是馬爾科夫的，當且僅當當P St+1 St = P St+1 S1; :; St 20對于一個馬爾科夫狀態(tài)對于一個馬爾科夫狀態(tài)s和接下來的狀態(tài)和接下來的狀態(tài)s , 狀態(tài)轉狀態(tài)轉移概率定義為移概率定義為通常馬爾科夫過程是一個二元組（通常馬爾科夫過程是一個二元組（S，P），且滿），且滿足：足：S是有限狀態(tài)集合，是有限狀態(tài)集合， P是狀態(tài)轉移概率。狀態(tài)是狀態(tài)轉移概率。狀態(tài)轉移概率矩陣為：轉移

10、概率矩陣為：2122以下狀態(tài)序列稱為馬爾以下狀態(tài)序列稱為馬爾科夫鏈，假設從科夫鏈，假設從C1開始開始2324對于游戲或者機器人，馬爾科夫過程不足以描述其特點，因為不管是游戲還是機器人，他們都是通過動作與環(huán)境進行交互，并從環(huán)境中獲得獎勵，而馬爾科夫過程中不存在動作和獎勵。25馬爾可夫獎勵過程馬爾可夫獎勵過程馬爾可夫獎勵過程（馬爾可夫獎勵過程（MRP）是一種帶有價值的馬）是一種帶有價值的馬爾科夫鏈，由元組（爾科夫鏈，由元組（S，P，R, ）來表示）來表示S為有限的狀態(tài)集為有限的狀態(tài)集P為狀態(tài)轉移概率為狀態(tài)轉移概率R為獎勵函數(shù)為獎勵函數(shù) 為折扣因子，為折扣因子， 0,1 2627強化學習是找到最優(yōu)的

11、策略，這里的最優(yōu)是指得到的總強化學習是找到最優(yōu)的策略，這里的最優(yōu)是指得到的總回報最大?；貓笞畲?。當給定一個策略時，我們就可以計算累積回報。首先當給定一個策略時，我們就可以計算累積回報。首先定義累積回報：定義累積回報：28當給定策略當給定策略時，假設從狀態(tài)時，假設從狀態(tài)C1出發(fā)，學生狀態(tài)序列出發(fā)，學生狀態(tài)序列可能為：可能為：在策略在策略下，可以計算累積回報下，可以計算累積回報G1，此時，此時G1有多個有多個可能值可能值。由于策略。由于策略是隨機的，因此累積回報也是隨是隨機的，因此累積回報也是隨機的。為了評價狀態(tài)機的。為了評價狀態(tài)s1的價值，我們需要定義一個確的價值，我們需要定義一個確定量來描述

12、狀態(tài)定量來描述狀態(tài)s1的價值，很自然的想法是利用累積的價值，很自然的想法是利用累積回報來衡量狀態(tài)回報來衡量狀態(tài)s1 的價值。然而，累積回報的價值。然而，累積回報G1 是個是個隨機變量，不是一個確定值，因此無法進行描述。但隨機變量，不是一個確定值，因此無法進行描述。但其期望是個確定值，可以作為狀態(tài)值函數(shù)的定義。其期望是個確定值，可以作為狀態(tài)值函數(shù)的定義。29當智能體采用策略當智能體采用策略時，累積回報服從一個分布，時，累積回報服從一個分布，累積回報在狀態(tài)累積回報在狀態(tài)s處的期望值定義為狀態(tài)值函數(shù)：處的期望值定義為狀態(tài)值函數(shù)：30例例31例例32例例33例例34貝爾曼方程貝爾曼方程狀態(tài)值函數(shù)可以分

13、為兩部分：狀態(tài)值函數(shù)可以分為兩部分：瞬時獎勵瞬時獎勵后繼狀態(tài)值函數(shù)的折扣值后繼狀態(tài)值函數(shù)的折扣值353637馬爾可夫決策過程馬爾可夫決策過程馬爾可夫決策過程是一種帶有決策作用的馬爾可夫決策過程是一種帶有決策作用的馬爾科夫獎勵過程，由元組（馬爾科夫獎勵過程，由元組（S，A，P，R, ）來表示）來表示S為有限的狀態(tài)集為有限的狀態(tài)集A為有限的動作集為有限的動作集P為狀態(tài)轉移概率為狀態(tài)轉移概率R為獎勵函數(shù)為獎勵函數(shù) 為折扣因子，為折扣因子， 0,1 3839策略策略策略是指狀態(tài)到動作的映射，策略常用符號策略是指狀態(tài)到動作的映射，策略常用符號表示，表示，它是指給定狀態(tài)它是指給定狀態(tài)s時，動作集上的一個分布，即時，動作集上的一個分布，即

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

強化學習簡介

文檔簡介

溫馨提示

最新文檔

評論

強化學習簡介

文檔簡介

溫馨提示

最新文檔

評論

相關文檔