版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、強(qiáng)化學(xué)習(xí)簡(jiǎn)介強(qiáng)化學(xué)習(xí)簡(jiǎn)介Reinforcement Learning2 2什么是機(jī)器學(xué)習(xí)(什么是機(jī)器學(xué)習(xí)( Machine Learning)?)? 機(jī)器學(xué)習(xí)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論、機(jī)器學(xué)習(xí)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。專(zhuān)門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)學(xué)科。專(zhuān)門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。識(shí)結(jié)構(gòu)使之不斷改善自身的性能。 1959年美國(guó)的塞繆爾設(shè)計(jì)了一個(gè)下棋程序
2、,這年美國(guó)的塞繆爾設(shè)計(jì)了一個(gè)下棋程序,這個(gè)程序具有學(xué)習(xí)能力,它可以在不斷的對(duì)弈中改善個(gè)程序具有學(xué)習(xí)能力,它可以在不斷的對(duì)弈中改善自己的棋藝。自己的棋藝。4年后,這個(gè)程序戰(zhàn)勝了設(shè)計(jì)者本人。年后,這個(gè)程序戰(zhàn)勝了設(shè)計(jì)者本人。又過(guò)了又過(guò)了3年,這個(gè)程序戰(zhàn)勝了美國(guó)一個(gè)保持年,這個(gè)程序戰(zhàn)勝了美國(guó)一個(gè)保持8年之久年之久的常勝不敗的冠軍。的常勝不敗的冠軍。3 3機(jī)器學(xué)習(xí)的分類(lèi)?機(jī)器學(xué)習(xí)的分類(lèi)? 機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)監(jiān)督學(xué)習(xí):計(jì)算機(jī)獲得簡(jiǎn)單的輸入給出期望的輸出,監(jiān)督學(xué)習(xí):計(jì)算機(jī)獲得簡(jiǎn)單的輸入給出期望的輸出,過(guò)程是通過(guò)一個(gè)過(guò)程是通過(guò)一個(gè)“訓(xùn)練模型訓(xùn)練模型”,學(xué)習(xí)通用的準(zhǔn)則來(lái)從,學(xué)習(xí)通用的準(zhǔn)則來(lái)從輸入映射到輸出輸入映射
3、到輸出。無(wú)監(jiān)督學(xué)習(xí):沒(méi)有給出標(biāo)記用來(lái)學(xué)習(xí)算法,讓它自己無(wú)監(jiān)督學(xué)習(xí):沒(méi)有給出標(biāo)記用來(lái)學(xué)習(xí)算法,讓它自己去發(fā)現(xiàn)輸入的結(jié)構(gòu)。無(wú)監(jiān)督學(xué)習(xí)自己可以被當(dāng)成一個(gè)去發(fā)現(xiàn)輸入的結(jié)構(gòu)。無(wú)監(jiān)督學(xué)習(xí)自己可以被當(dāng)成一個(gè)目標(biāo)或者一個(gè)實(shí)現(xiàn)結(jié)果的途徑(特征學(xué)習(xí))。目標(biāo)或者一個(gè)實(shí)現(xiàn)結(jié)果的途徑(特征學(xué)習(xí))。強(qiáng)化學(xué)習(xí):一個(gè)計(jì)算機(jī)程序與動(dòng)態(tài)環(huán)境交互,同時(shí)表強(qiáng)化學(xué)習(xí):一個(gè)計(jì)算機(jī)程序與動(dòng)態(tài)環(huán)境交互,同時(shí)表現(xiàn)出確切目標(biāo)(比如駕駛一輛交通工具或者玩一個(gè)游現(xiàn)出確切目標(biāo)(比如駕駛一輛交通工具或者玩一個(gè)游戲?qū)挂粋€(gè)對(duì)手)。這個(gè)程序的獎(jiǎng)懲機(jī)制會(huì)作為反饋,戲?qū)挂粋€(gè)對(duì)手)。這個(gè)程序的獎(jiǎng)懲機(jī)制會(huì)作為反饋,實(shí)現(xiàn)它在問(wèn)題領(lǐng)域中的導(dǎo)航。實(shí)現(xiàn)它在問(wèn)題領(lǐng)域中的導(dǎo)
4、航。4強(qiáng)化學(xué)習(xí)(強(qiáng)化學(xué)習(xí)(reinforcement learning)與監(jiān)督學(xué)習(xí)、)與監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)的區(qū)別非監(jiān)督學(xué)習(xí)的區(qū)別n 沒(méi)有監(jiān)督者,只有獎(jiǎng)勵(lì)信號(hào)沒(méi)有監(jiān)督者,只有獎(jiǎng)勵(lì)信號(hào)n 反饋是延遲的,不是順時(shí)的反饋是延遲的,不是順時(shí)的n 時(shí)序性強(qiáng),不適用于獨(dú)立分布的數(shù)據(jù)時(shí)序性強(qiáng),不適用于獨(dú)立分布的數(shù)據(jù)n 自治智能體(自治智能體(agent)的行為會(huì)影響后續(xù)信息的的行為會(huì)影響后續(xù)信息的接收接收5思考:思考:五子棋:棋手通過(guò)數(shù)學(xué)公式計(jì)算,發(fā)現(xiàn)位置五子棋:棋手通過(guò)數(shù)學(xué)公式計(jì)算,發(fā)現(xiàn)位置1比位置比位置2價(jià)值大,這是強(qiáng)化學(xué)習(xí)嗎??jī)r(jià)值大,這是強(qiáng)化學(xué)習(xí)嗎?這不叫強(qiáng)化學(xué)習(xí),叫規(guī)劃這不叫強(qiáng)化學(xué)習(xí),叫規(guī)劃如果通過(guò)
5、幾次嘗試,走位置如果通過(guò)幾次嘗試,走位置1比走位置比走位置2贏棋贏棋的可能性大,得出經(jīng)驗(yàn),則為強(qiáng)化學(xué)習(xí)的可能性大,得出經(jīng)驗(yàn),則為強(qiáng)化學(xué)習(xí)6強(qiáng)化學(xué)習(xí)模型強(qiáng)化學(xué)習(xí)模型幾個(gè)定義幾個(gè)定義自治智能體自治智能體Agent學(xué)習(xí)的主體,如小貓、小狗、人、機(jī)器人、控制程序等學(xué)習(xí)的主體,如小貓、小狗、人、機(jī)器人、控制程序等Agent的特點(diǎn)的特點(diǎn)1、主動(dòng)對(duì)環(huán)境做出試探、主動(dòng)對(duì)環(huán)境做出試探2、環(huán)境對(duì)試探動(dòng)作反饋是評(píng)價(jià)性的(好或壞)、環(huán)境對(duì)試探動(dòng)作反饋是評(píng)價(jià)性的(好或壞)3、在行動(dòng)、在行動(dòng)-評(píng)價(jià)的環(huán)境中獲得知識(shí),改進(jìn)行動(dòng)方案,達(dá)到評(píng)價(jià)的環(huán)境中獲得知識(shí),改進(jìn)行動(dòng)方案,達(dá)到預(yù)期目的預(yù)期目的 7獎(jiǎng)勵(lì)信號(hào)(獎(jiǎng)勵(lì)信號(hào)(rewar
6、ds)獎(jiǎng)勵(lì)信號(hào)獎(jiǎng)勵(lì)信號(hào)R是一個(gè)標(biāo)量信號(hào)是一個(gè)標(biāo)量信號(hào)表示表示agent在步驟在步驟T中所產(chǎn)生動(dòng)作好壞中所產(chǎn)生動(dòng)作好壞Agent的任務(wù)是最大化累積獎(jiǎng)勵(lì)信號(hào)的任務(wù)是最大化累積獎(jiǎng)勵(lì)信號(hào)8強(qiáng)化學(xué)習(xí)模型強(qiáng)化學(xué)習(xí)模型9例子例子圖中黃點(diǎn)是機(jī)器人,圖中黃點(diǎn)是機(jī)器人,目的是走到綠色的目的是走到綠色的方塊方塊reward+1000,黑色方塊是墻壁,黑色方塊是墻壁,撞到撞到reward-10,紅色方塊是陷阱,紅色方塊是陷阱,撞到撞到reward-1000,其他其他reward+010111213強(qiáng)化學(xué)習(xí)基本要素強(qiáng)化學(xué)習(xí)基本要素強(qiáng)化學(xué)習(xí)基本要素及其關(guān)系強(qiáng)化學(xué)習(xí)基本要素及其關(guān)系14策略定義了策略定義了agent在給定時(shí)
7、間內(nèi)的行為方式,在給定時(shí)間內(nèi)的行為方式,一個(gè)策略就是從環(huán)境感知的狀態(tài)到在這些狀一個(gè)策略就是從環(huán)境感知的狀態(tài)到在這些狀態(tài)中可采取動(dòng)作的一個(gè)映射。態(tài)中可采取動(dòng)作的一個(gè)映射。可能是一個(gè)查找表,也可能是一個(gè)函數(shù)可能是一個(gè)查找表,也可能是一個(gè)函數(shù)確定性策略:確定性策略:a = (s)隨機(jī)策略:隨機(jī)策略: (a s) = PAt = a St = s15回報(bào)函數(shù)是強(qiáng)化學(xué)習(xí)問(wèn)題中的目標(biāo),它把環(huán)境中回報(bào)函數(shù)是強(qiáng)化學(xué)習(xí)問(wèn)題中的目標(biāo),它把環(huán)境中感知到的狀態(tài)映射為單獨(dú)的一個(gè)獎(jiǎng)賞感知到的狀態(tài)映射為單獨(dú)的一個(gè)獎(jiǎng)賞回報(bào)函數(shù)可以作為改變策略的標(biāo)準(zhǔn)回報(bào)函數(shù)可以作為改變策略的標(biāo)準(zhǔn)16值函數(shù):一個(gè)狀態(tài)起值函數(shù):一個(gè)狀態(tài)起agen
8、t所能積累的回所能積累的回報(bào)的總和。報(bào)的總和。在決策和評(píng)價(jià)決策中考慮最多的是值函在決策和評(píng)價(jià)決策中考慮最多的是值函數(shù)數(shù)17環(huán)境模型模擬了環(huán)境的行為,即給定一個(gè)狀環(huán)境模型模擬了環(huán)境的行為,即給定一個(gè)狀態(tài)和動(dòng)作,模型可以預(yù)測(cè)必定導(dǎo)致的下一個(gè)態(tài)和動(dòng)作,模型可以預(yù)測(cè)必定導(dǎo)致的下一個(gè)狀態(tài)和下一個(gè)獎(jiǎng)賞。模型一般用于規(guī)劃狀態(tài)和下一個(gè)獎(jiǎng)賞。模型一般用于規(guī)劃規(guī)劃是算出來(lái)的,強(qiáng)化學(xué)習(xí)是試出來(lái)的規(guī)劃是算出來(lái)的,強(qiáng)化學(xué)習(xí)是試出來(lái)的18馬爾可夫過(guò)程馬爾可夫過(guò)程馬爾可夫獎(jiǎng)勵(lì)過(guò)程馬爾可夫獎(jiǎng)勵(lì)過(guò)程馬爾可夫決策過(guò)程馬爾可夫決策過(guò)程馬爾科夫決策過(guò)程(馬爾科夫決策過(guò)程(MDP)19馬爾科夫性:所謂馬爾科夫性是指系統(tǒng)的下一馬爾科夫性
9、:所謂馬爾科夫性是指系統(tǒng)的下一個(gè)狀態(tài)個(gè)狀態(tài)s(t+1)僅與當(dāng)前狀態(tài)僅與當(dāng)前狀態(tài)s(t)有關(guān),而與以前有關(guān),而與以前的狀態(tài)無(wú)關(guān)。的狀態(tài)無(wú)關(guān)。馬爾可夫過(guò)程馬爾可夫過(guò)程定義:狀態(tài)定義:狀態(tài)s(t) 是馬爾科夫的,當(dāng)且僅是馬爾科夫的,當(dāng)且僅當(dāng)當(dāng)P St+1 St = P St+1 S1; :; St 20對(duì)于一個(gè)馬爾科夫狀態(tài)對(duì)于一個(gè)馬爾科夫狀態(tài)s和接下來(lái)的狀態(tài)和接下來(lái)的狀態(tài)s , 狀態(tài)轉(zhuǎn)狀態(tài)轉(zhuǎn)移概率定義為移概率定義為通常馬爾科夫過(guò)程是一個(gè)二元組(通常馬爾科夫過(guò)程是一個(gè)二元組(S,P),且滿(mǎn)),且滿(mǎn)足:足:S是有限狀態(tài)集合,是有限狀態(tài)集合, P是狀態(tài)轉(zhuǎn)移概率。狀態(tài)是狀態(tài)轉(zhuǎn)移概率。狀態(tài)轉(zhuǎn)移概率矩陣為:轉(zhuǎn)移
10、概率矩陣為:2122以下?tīng)顟B(tài)序列稱(chēng)為馬爾以下?tīng)顟B(tài)序列稱(chēng)為馬爾科夫鏈,假設(shè)從科夫鏈,假設(shè)從C1開(kāi)始開(kāi)始2324對(duì)于游戲或者機(jī)器人,馬爾科夫過(guò)程不足以描述其特點(diǎn),因?yàn)椴还苁怯螒蜻€是機(jī)器人,他們都是通過(guò)動(dòng)作與環(huán)境進(jìn)行交互,并從環(huán)境中獲得獎(jiǎng)勵(lì),而馬爾科夫過(guò)程中不存在動(dòng)作和獎(jiǎng)勵(lì)。25馬爾可夫獎(jiǎng)勵(lì)過(guò)程馬爾可夫獎(jiǎng)勵(lì)過(guò)程馬爾可夫獎(jiǎng)勵(lì)過(guò)程(馬爾可夫獎(jiǎng)勵(lì)過(guò)程(MRP)是一種帶有價(jià)值的馬)是一種帶有價(jià)值的馬爾科夫鏈,由元組(爾科夫鏈,由元組(S,P,R, )來(lái)表示)來(lái)表示S為有限的狀態(tài)集為有限的狀態(tài)集P為狀態(tài)轉(zhuǎn)移概率為狀態(tài)轉(zhuǎn)移概率R為獎(jiǎng)勵(lì)函數(shù)為獎(jiǎng)勵(lì)函數(shù) 為折扣因子,為折扣因子, 0,1 2627強(qiáng)化學(xué)習(xí)是找到最優(yōu)的
11、策略,這里的最優(yōu)是指得到的總強(qiáng)化學(xué)習(xí)是找到最優(yōu)的策略,這里的最優(yōu)是指得到的總回報(bào)最大。回報(bào)最大。當(dāng)給定一個(gè)策略時(shí),我們就可以計(jì)算累積回報(bào)。首先當(dāng)給定一個(gè)策略時(shí),我們就可以計(jì)算累積回報(bào)。首先定義累積回報(bào):定義累積回報(bào):28當(dāng)給定策略當(dāng)給定策略時(shí),假設(shè)從狀態(tài)時(shí),假設(shè)從狀態(tài)C1出發(fā),學(xué)生狀態(tài)序列出發(fā),學(xué)生狀態(tài)序列可能為:可能為:在策略在策略下,可以計(jì)算累積回報(bào)下,可以計(jì)算累積回報(bào)G1,此時(shí),此時(shí)G1有多個(gè)有多個(gè)可能值可能值 。由于策略。由于策略是隨機(jī)的,因此累積回報(bào)也是隨是隨機(jī)的,因此累積回報(bào)也是隨機(jī)的。為了評(píng)價(jià)狀態(tài)機(jī)的。為了評(píng)價(jià)狀態(tài)s1的價(jià)值,我們需要定義一個(gè)確的價(jià)值,我們需要定義一個(gè)確定量來(lái)描述
12、狀態(tài)定量來(lái)描述狀態(tài)s1的價(jià)值,很自然的想法是利用累積的價(jià)值,很自然的想法是利用累積回報(bào)來(lái)衡量狀態(tài)回報(bào)來(lái)衡量狀態(tài)s1 的價(jià)值。然而,累積回報(bào)的價(jià)值。然而,累積回報(bào)G1 是個(gè)是個(gè)隨機(jī)變量,不是一個(gè)確定值,因此無(wú)法進(jìn)行描述。但隨機(jī)變量,不是一個(gè)確定值,因此無(wú)法進(jìn)行描述。但其期望是個(gè)確定值,可以作為狀態(tài)值函數(shù)的定義。其期望是個(gè)確定值,可以作為狀態(tài)值函數(shù)的定義。29當(dāng)智能體采用策略當(dāng)智能體采用策略時(shí),累積回報(bào)服從一個(gè)分布,時(shí),累積回報(bào)服從一個(gè)分布,累積回報(bào)在狀態(tài)累積回報(bào)在狀態(tài)s處的期望值定義為狀態(tài)值函數(shù):處的期望值定義為狀態(tài)值函數(shù):30例例31例例32例例33例例34貝爾曼方程貝爾曼方程狀態(tài)值函數(shù)可以分
13、為兩部分:狀態(tài)值函數(shù)可以分為兩部分:瞬時(shí)獎(jiǎng)勵(lì)瞬時(shí)獎(jiǎng)勵(lì)后繼狀態(tài)值函數(shù)的折扣值后繼狀態(tài)值函數(shù)的折扣值353637馬爾可夫決策過(guò)程馬爾可夫決策過(guò)程馬爾可夫決策過(guò)程是一種帶有決策作用的馬爾可夫決策過(guò)程是一種帶有決策作用的馬爾科夫獎(jiǎng)勵(lì)過(guò)程,由元組(馬爾科夫獎(jiǎng)勵(lì)過(guò)程,由元組(S,A,P,R, )來(lái)表示)來(lái)表示S為有限的狀態(tài)集為有限的狀態(tài)集A為有限的動(dòng)作集為有限的動(dòng)作集P為狀態(tài)轉(zhuǎn)移概率為狀態(tài)轉(zhuǎn)移概率R為獎(jiǎng)勵(lì)函數(shù)為獎(jiǎng)勵(lì)函數(shù) 為折扣因子,為折扣因子, 0,1 3839策略策略策略是指狀態(tài)到動(dòng)作的映射,策略常用符號(hào)策略是指狀態(tài)到動(dòng)作的映射,策略常用符號(hào)表示,表示,它是指給定狀態(tài)它是指給定狀態(tài)s時(shí),動(dòng)作集上的一個(gè)分布,即時(shí),動(dòng)作集上的一個(gè)分布,即
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度網(wǎng)絡(luò)直播個(gè)人勞務(wù)合同范本3篇
- 2025年度嬰幼兒專(zhuān)用牛奶采購(gòu)合作協(xié)議書(shū)3篇
- 2025年電動(dòng)自行車(chē)品牌代理銷(xiāo)售合同標(biāo)準(zhǔn)版2篇
- 《南京地區(qū)建筑業(yè)“營(yíng)改增”政策解讀及操作課件培訓(xùn)》
- 2025年中國(guó)黃金集團(tuán)建設(shè)有限公司招聘筆試參考題庫(kù)含答案解析
- 2025年浙江嘉興中誠(chéng)電器有限公司招聘筆試參考題庫(kù)含答案解析
- 2025年四川中車(chē)眉山車(chē)輛有限公司招聘筆試參考題庫(kù)含答案解析
- 2025年重慶建工第九建設(shè)有限公司招聘筆試參考題庫(kù)含答案解析
- 2025年中國(guó)鐵路鐵總服務(wù)有限公司招聘筆試參考題庫(kù)含答案解析
- 漳州職業(yè)技術(shù)學(xué)院《DSP處理器原理與應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 有砟軌道施工工藝課件
- 兩辦意見(jiàn)八硬措施煤礦安全生產(chǎn)條例宣貫學(xué)習(xí)課件
- 廣西失敗企業(yè)案例分析報(bào)告
- 湖南建設(shè)工程施工階段監(jiān)理服務(wù)費(fèi)計(jì)費(fèi)規(guī)則
- 人教版高中數(shù)學(xué)必修二《第九章 統(tǒng)計(jì)》同步練習(xí)及答案解析
- 兒科護(hù)理安全警示教育課件
- GB/T 16886.23-2023醫(yī)療器械生物學(xué)評(píng)價(jià)第23部分:刺激試驗(yàn)
- 三年級(jí)下冊(cè)口算天天100題
- 洪恩識(shí)字識(shí)字卡(001-100)可直接打印剪裁
- 國(guó)家中英文名稱(chēng)及代碼縮寫(xiě)(三位)
- 高二物理選修講義
評(píng)論
0/150
提交評(píng)論