《人工智能導(dǎo)論》第2版第8章創(chuàng)建智能系統(tǒng)的強(qiáng)化學(xué)習(xí)

上傳人：q*** IP屬地：山東上傳時(shí)間：2025-01-03 格式：PPTX 頁數(shù)：97 大小：2.38MB 積分：9.6 舉報(bào) 版權(quán)申訴

《人工智能導(dǎo)論》第2版第8章創(chuàng)建智能系統(tǒng)的強(qiáng)化學(xué)習(xí)_第2頁

《人工智能導(dǎo)論》第2版第8章創(chuàng)建智能系統(tǒng)的強(qiáng)化學(xué)習(xí)_第3頁

《人工智能導(dǎo)論》第2版第8章創(chuàng)建智能系統(tǒng)的強(qiáng)化學(xué)習(xí)_第4頁

《人工智能導(dǎo)論》第2版第8章創(chuàng)建智能系統(tǒng)的強(qiáng)化學(xué)習(xí)_第5頁

已閱讀5頁，還剩92頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第2版周蘇教授QQ：81505050人工智能導(dǎo)論第8章周蘇教授QQ：81505050創(chuàng)建智能系統(tǒng)的強(qiáng)化學(xué)習(xí)導(dǎo)讀案例：機(jī)器學(xué)習(xí)幫助拯救瀕危物種地球上還有許許多多的物種我們并不了解。但我們現(xiàn)在可以知道，它們中很多已經(jīng)在滅絕的邊緣徘徊：一項(xiàng)新的研究中使用機(jī)器學(xué)習(xí)來計(jì)算這些鮮為人知的物種受到了多大的威脅，其結(jié)果是嚴(yán)峻的。01強(qiáng)化學(xué)習(xí)的定義02與監(jiān)督學(xué)習(xí)的區(qū)別03強(qiáng)化學(xué)習(xí)基礎(chǔ)理論04強(qiáng)化學(xué)習(xí)分類目錄/CONTENTS05強(qiáng)化學(xué)習(xí)的應(yīng)用1997年，當(dāng)“深藍(lán)”擊敗國際象棋世界冠軍加里·卡斯帕羅夫時(shí)，人類權(quán)威的捍衛(wèi)者把抵御的希望寄托在了圍棋上。當(dāng)時(shí)，天體物理學(xué)家，也是圍棋愛好者的皮特·赫特曾預(yù)測(cè)稱：“計(jì)算機(jī)在圍棋上擊敗人類需要一百年的時(shí)間（甚至可能更久）?！钡珜?shí)際上僅僅20年后，阿爾法狗（AlphaGo）就超越了人類棋手。世界冠軍柯潔說：“一年前的阿爾法狗還比較接近于人，現(xiàn)在它越來越像圍棋之神。”阿爾法狗得益于對(duì)人類棋手過去數(shù)十萬場(chǎng)棋局的研究以及對(duì)團(tuán)隊(duì)中圍棋專家的知識(shí)提煉。第8章創(chuàng)建智能系統(tǒng)的強(qiáng)化學(xué)習(xí)后繼項(xiàng)目AlphaZero不再借助于人類輸入，它通過游戲規(guī)則自我學(xué)習(xí)，在圍棋、國際象棋和日本將棋領(lǐng)域中擊敗了包括人類和機(jī)器在內(nèi)的所有對(duì)手。與此同時(shí)，人類選手也在各種游戲中被人工智能系統(tǒng)擊敗，包括《危險(xiǎn)邊緣》、撲克以及電子游戲《刀塔2》《星際爭霸11》《雷神之錘3》。這些進(jìn)展顯示了強(qiáng)化學(xué)習(xí)的巨大作用。強(qiáng)化學(xué)習(xí)的中心思想是讓智能體在環(huán)境里學(xué)習(xí)，每個(gè)行動(dòng)對(duì)應(yīng)于各自的獎(jiǎng)勵(lì)。智能體通過分析數(shù)據(jù)來學(xué)習(xí)，關(guān)注不同情況下應(yīng)該做怎樣的事情——這樣的學(xué)習(xí)過程和人類的自然經(jīng)歷十分相似。第8章創(chuàng)建智能系統(tǒng)的強(qiáng)化學(xué)習(xí)想象一個(gè)小孩子第一次看到火，他小心地走到火邊?！じ惺艿搅藴嘏；鹗莻€(gè)好東西（+1）?！と缓螅囍ッ?。哇，這么燙（-1）。這個(gè)嘗試所得到的結(jié)論是，在稍遠(yuǎn)的地方火是好的，靠得太近就不好——這就是人類的學(xué)習(xí)方式，與環(huán)境交互。強(qiáng)化學(xué)習(xí)也是這樣的道理。第8章創(chuàng)建智能系統(tǒng)的強(qiáng)化學(xué)習(xí)比如，智能體要學(xué)著玩一個(gè)新的游戲。強(qiáng)化學(xué)習(xí)過程可以用一個(gè)循環(huán)來表示：·智能體在游戲環(huán)境里獲得初始狀態(tài)S0（游戲的第一幀）；·在S0的基礎(chǔ)上，智能體做出第一個(gè)行動(dòng)A0（如向右走）；·環(huán)境變化，獲得新的狀態(tài)S1（A0發(fā)生后的某一幀）；·環(huán)境給出第一個(gè)獎(jiǎng)勵(lì)R1（沒死或成功：+1）。于是，這個(gè)回合輸出的就是一個(gè)由狀態(tài)、獎(jiǎng)勵(lì)和行動(dòng)組成的序列，而智能體的目標(biāo)就是讓預(yù)期累積獎(jiǎng)勵(lì)最大化。第8章創(chuàng)建智能系統(tǒng)的強(qiáng)化學(xué)習(xí)PART01強(qiáng)化學(xué)習(xí)的定義強(qiáng)化學(xué)習(xí)，又稱增強(qiáng)學(xué)習(xí)或評(píng)價(jià)學(xué)習(xí)，是機(jī)器學(xué)習(xí)的一個(gè)分支，是一種廣泛應(yīng)用于創(chuàng)建智能系統(tǒng)的模式，它側(cè)重在線學(xué)習(xí)并試圖在探索和利用之間保持平衡。強(qiáng)化學(xué)習(xí)描述和解決智能體在與環(huán)境的交互過程中，以“試錯(cuò)”方式，通過學(xué)習(xí)策略達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)問題。8.1強(qiáng)化學(xué)習(xí)的定義強(qiáng)化學(xué)習(xí)研究的主要問題是：一個(gè)智能體如何在環(huán)境未知，只提供對(duì)環(huán)境的感知和偶爾的獎(jiǎng)勵(lì)情況下，對(duì)某項(xiàng)任務(wù)變得精通。在強(qiáng)化學(xué)習(xí)中，智能體在沒有“老師”的情況下，通過考慮執(zhí)行的最終成功或失敗，根據(jù)獎(jiǎng)勵(lì)與懲罰，主動(dòng)從自己的經(jīng)驗(yàn)中學(xué)習(xí)，以使未來的獎(jiǎng)勵(lì)最大化。8.1強(qiáng)化學(xué)習(xí)的定義由于強(qiáng)化學(xué)習(xí)涉及的知識(shí)面廣，尤其是涵蓋了諸多數(shù)學(xué)知識(shí)，如貝爾曼方程、最優(yōu)控制等，更需要對(duì)強(qiáng)化學(xué)習(xí)有系統(tǒng)性的梳理與認(rèn)識(shí)。需要對(duì)強(qiáng)化學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域中的定位以及與其他機(jī)器學(xué)習(xí)之間的異同進(jìn)行辨析。8.1強(qiáng)化學(xué)習(xí)的定義與監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)不同，強(qiáng)化學(xué)習(xí)不要求預(yù)先給定任何數(shù)據(jù)，主要表現(xiàn)在強(qiáng)化信號(hào)上，通過接收環(huán)境對(duì)動(dòng)作的獎(jiǎng)勵(lì)（反饋）獲得學(xué)習(xí)信息并更新模型參數(shù)。由環(huán)境提供的強(qiáng)化信號(hào)是對(duì)產(chǎn)生動(dòng)作的好壞作一種評(píng)價(jià)（通常為標(biāo)量信號(hào)），而不是告訴強(qiáng)化學(xué)習(xí)系統(tǒng)如何去產(chǎn)生正確的動(dòng)作。由于外部環(huán)境提供的信息很少，強(qiáng)化學(xué)習(xí)系統(tǒng)必須靠自身的經(jīng)歷進(jìn)行學(xué)習(xí)，進(jìn)而在行動(dòng)—評(píng)價(jià)的環(huán)境中獲得知識(shí)，改進(jìn)行動(dòng)方案以適應(yīng)環(huán)境。8.1強(qiáng)化學(xué)習(xí)的定義強(qiáng)化學(xué)習(xí)問題主要在信息論、博弈論、自動(dòng)控制等領(lǐng)域討論，用于解釋有限理性條件下的平衡態(tài)、設(shè)計(jì)推薦系統(tǒng)和機(jī)器人交互系統(tǒng)。一些復(fù)雜的強(qiáng)化學(xué)習(xí)算法在一定程度上具備解決復(fù)雜問題的通用智能，可以在圍棋和電子游戲中達(dá)到人類水平。8.1強(qiáng)化學(xué)習(xí)的定義強(qiáng)化學(xué)習(xí)建立在獎(jiǎng)勵(lì)假說的基礎(chǔ)之上，其目標(biāo)是預(yù)期累積獎(jiǎng)勵(lì)最大化。所謂表現(xiàn)好，就是多拿獎(jiǎng)勵(lì)。每一個(gè)時(shí)間步的累積獎(jiǎng)勵(lì)都可以表示為：Gt=Rt+1+Rt+2+…不過，我們并不能把獎(jiǎng)勵(lì)直接相加。因?yàn)橛螒蚶?，越接近游戲開始處的獎(jiǎng)勵(lì)越容易得到；而隨著游戲的進(jìn)行，后面的獎(jiǎng)勵(lì)就沒有那么容易拿到了。8.1.1以獎(jiǎng)勵(lì)假說為基礎(chǔ)把智能體想成一只小老鼠，對(duì)手是只貓。小老鼠的目標(biāo)就是在被貓吃掉之前，能吃到最多的奶酪。通常，離老鼠最近的奶酪很容易吃到，而從貓眼皮底下順走奶酪就難了。離貓?jiān)浇驮轿ｋU(xiǎn)。結(jié)果就是，從貓身旁獲取的獎(jiǎng)勵(lì)會(huì)打折扣：吃到的可能性小，就算奶酪放得很密集也沒用。那么，這個(gè)折扣要怎么算呢？8.1.1以獎(jiǎng)勵(lì)假說為基礎(chǔ)我們用γ表示折扣率，在0和1之間。·γ越大，折扣越小。表示智能體在意長期的獎(jiǎng)勵(lì)(貓邊上的奶酪)?！う迷叫。劭墼酱?。表示智能體在意短期的獎(jiǎng)勵(lì)(小老鼠邊上的奶酪)。這樣，累積獎(jiǎng)勵(lì)表示出來就是：簡單來說，離貓近一步，就乘上一個(gè)γ，表示獎(jiǎng)勵(lì)越難獲得。8.1.1以獎(jiǎng)勵(lì)假說為基礎(chǔ)強(qiáng)化學(xué)習(xí)里的任務(wù)分兩種。（1）片段性任務(wù)。這類任務(wù)有個(gè)起點(diǎn)，有個(gè)終點(diǎn)。兩者之間有一堆狀態(tài)，一堆行動(dòng)，一堆獎(jiǎng)勵(lì)和一堆新的狀態(tài)，它們共同構(gòu)成了一“集”。當(dāng)一集結(jié)束，也就是到達(dá)終止?fàn)顟B(tài)時(shí)，智能體會(huì)看一下獎(jiǎng)勵(lì)累積了多少，以此評(píng)估自己的表現(xiàn)。然后，它就帶著之前的經(jīng)驗(yàn)開始一局新游戲。這一次，智能體做決定的依據(jù)會(huì)充分一些。8.1.2片段還是連續(xù)性任務(wù)以貓鼠迷宮為例的一集：·永遠(yuǎn)從同一個(gè)起點(diǎn)開始；·如果被貓吃掉或者走了超過20步，則游戲結(jié)束；·結(jié)束時(shí)，得到一系列狀態(tài)、行動(dòng)、獎(jiǎng)勵(lì)和新狀態(tài)；·算出獎(jiǎng)勵(lì)的總和（看看表現(xiàn)如何）；·更有經(jīng)驗(yàn)地開始新游戲。集數(shù)越多，智能體的表現(xiàn)會(huì)越好。8.1.2片段還是連續(xù)性任務(wù)（2）連續(xù)性任務(wù)。游戲永遠(yuǎn)不會(huì)結(jié)束。智能體要學(xué)習(xí)如何選擇最佳的行動(dòng)，和環(huán)境進(jìn)行實(shí)時(shí)交互，就像自動(dòng)駕駛汽車。這樣的任務(wù)是通過時(shí)間差分學(xué)習(xí)來訓(xùn)練的。每一個(gè)時(shí)間步都會(huì)有總結(jié)學(xué)習(xí)，并不是等到一集結(jié)束再分析結(jié)果。8.1.2片段還是連續(xù)性任務(wù)強(qiáng)化學(xué)習(xí)的歷史主要沿兩條主線發(fā)展而來，第一條主線是心理學(xué)上模仿動(dòng)物學(xué)習(xí)方式的試錯(cuò)法，第二條主線是求解最優(yōu)控制問題，兩條主線最初是獨(dú)立發(fā)展的。心理學(xué)上的試錯(cuò)法從20世紀(jì)50年代末、60年代初貫穿在人工智能的發(fā)展中，并且一定程度上促進(jìn)了強(qiáng)化學(xué)習(xí)的發(fā)展。20世紀(jì)80年代初期，試錯(cuò)法隨著人工智能的熱潮而被學(xué)者們廣泛研究。而求解最優(yōu)控制法則是利用動(dòng)態(tài)規(guī)劃法求解最優(yōu)值函數(shù)。到20世紀(jì)80年代末，基于時(shí)間差分法求解的第三條主線開始出現(xiàn)，它吸收前面兩條主線的思想，奠定了現(xiàn)代強(qiáng)化學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域中的地位（表8-1）。8.1.3強(qiáng)化學(xué)習(xí)發(fā)展歷史表8-1強(qiáng)化學(xué)習(xí)中有影響力的算法8.1.3強(qiáng)化學(xué)習(xí)發(fā)展歷史有理由相信，深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合體——深度強(qiáng)化學(xué)習(xí)是人工智能的未來之路。智能的系統(tǒng)必須能夠在沒有持續(xù)監(jiān)督信號(hào)的情況下自主學(xué)習(xí)，而深度強(qiáng)化學(xué)習(xí)正是自主學(xué)習(xí)的最佳代表，能夠給人工智能帶來更多發(fā)展空間與想象力。人工智能系統(tǒng)必須能夠自己去判斷對(duì)與錯(cuò)，而不是告訴系統(tǒng)或者通過一種監(jiān)督模擬的方法實(shí)現(xiàn)。8.1.3強(qiáng)化學(xué)習(xí)發(fā)展歷史強(qiáng)化學(xué)習(xí)是從動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理論發(fā)展而來的，其基本原理是：如果智能體的某個(gè)行為策略導(dǎo)致環(huán)境正的獎(jiǎng)賞（強(qiáng)化信號(hào)），那么該智能體以后產(chǎn)生這個(gè)行為策略的趨勢(shì)便會(huì)加強(qiáng)。智能體的目標(biāo)是在每個(gè)離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略，以使期望的折扣獎(jiǎng)賞最大化。8.1.4基本模型和原理強(qiáng)化學(xué)習(xí)把學(xué)習(xí)看作試探評(píng)價(jià)過程。智能體選擇一個(gè)動(dòng)作用于環(huán)境，環(huán)境接受該動(dòng)作后狀態(tài)發(fā)生變化，同時(shí)產(chǎn)生一個(gè)強(qiáng)化信號(hào)（獎(jiǎng)或懲）反饋給智能體，智能體根據(jù)強(qiáng)化信號(hào)和環(huán)境當(dāng)前狀態(tài)再選擇下一個(gè)動(dòng)作，選擇的原則是使受到正強(qiáng)化（獎(jiǎng)）的概率增大。選擇的動(dòng)作不僅影響立即強(qiáng)化值，而且影響環(huán)境下一時(shí)刻的狀態(tài)及最終的強(qiáng)化值。8.1.4基本模型和原理強(qiáng)化學(xué)習(xí)系統(tǒng)需要使用某種隨機(jī)單元，動(dòng)態(tài)地調(diào)整參數(shù)，以達(dá)到強(qiáng)化信號(hào)最大，智能體在可能動(dòng)作空間中進(jìn)行搜索并發(fā)現(xiàn)正確的動(dòng)作。強(qiáng)化學(xué)習(xí)的常見模型是標(biāo)準(zhǔn)的馬爾可夫決策過程（MarkovDecisionProcess,MDP）。按給定條件，強(qiáng)化學(xué)習(xí)可分為基于模式強(qiáng)化學(xué)習(xí)和無模式強(qiáng)化學(xué)習(xí)，以及主動(dòng)強(qiáng)化學(xué)習(xí)和被動(dòng)強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的變體包括逆向強(qiáng)化學(xué)習(xí)、階層強(qiáng)化學(xué)習(xí)和部分可觀測(cè)系統(tǒng)的強(qiáng)化學(xué)習(xí)。求解強(qiáng)化學(xué)習(xí)問題所使用的算法可分為策略搜索算法和值函數(shù)算法兩類。可以在強(qiáng)化學(xué)習(xí)中使用深度學(xué)習(xí)模型，形成深度強(qiáng)化學(xué)習(xí)。8.1.4基本模型和原理強(qiáng)化學(xué)習(xí)主要由智能體和環(huán)境組成，兩者間通過獎(jiǎng)勵(lì)、狀態(tài)、動(dòng)作3個(gè)信號(hào)進(jìn)行交互。由于智能體和環(huán)境的交互方式與人類和環(huán)境的交互方式類似，可以認(rèn)為強(qiáng)化學(xué)習(xí)是一套通用的學(xué)習(xí)框架，用來解決通用人工智能問題，因此它也被稱為通用人工智能的機(jī)器學(xué)習(xí)方法。8.1.5網(wǎng)絡(luò)模型設(shè)計(jì)強(qiáng)化學(xué)習(xí)實(shí)際上是智能體在與環(huán)境進(jìn)行交互的過程中，學(xué)會(huì)最佳決策序列。強(qiáng)化學(xué)習(xí)的基本組成元素定義如下。（1）智能體：強(qiáng)化學(xué)習(xí)的本體，作為學(xué)習(xí)者或者決策者。（2）環(huán)境：強(qiáng)化學(xué)習(xí)智能體以外的一切，主要由狀態(tài)集組成。（3）狀態(tài)：表示環(huán)境的數(shù)據(jù)。狀態(tài)集是環(huán)境中所有可能的狀態(tài)。（4）動(dòng)作：智能體可以做出的動(dòng)作?？梢宰龀龅乃袆?dòng)作稱為動(dòng)作集。8.1.5網(wǎng)絡(luò)模型設(shè)計(jì)（5）獎(jiǎng)勵(lì)：智能體在執(zhí)行一個(gè)動(dòng)作后，獲得的正/負(fù)獎(jiǎng)勵(lì)信號(hào)。獎(jiǎng)勵(lì)集是智能體可以獲得的所有反饋信息，正/負(fù)獎(jiǎng)勵(lì)信號(hào)亦可稱作正/負(fù)反饋信號(hào)。（6）策略：從環(huán)境狀態(tài)到動(dòng)作的映射學(xué)習(xí)，該映射關(guān)系稱為策略。通俗地說，智能體選擇動(dòng)作的思考過程即為策略。（7）目標(biāo)：智能體自動(dòng)尋找在連續(xù)時(shí)間序列里的最優(yōu)策略，這通常指最大化長期累積獎(jiǎng)勵(lì)。8.1.5網(wǎng)絡(luò)模型設(shè)計(jì)在強(qiáng)化學(xué)習(xí)中，每一個(gè)自主體由兩個(gè)神經(jīng)網(wǎng)絡(luò)模塊組成，即行動(dòng)網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)。行動(dòng)網(wǎng)絡(luò)是根據(jù)當(dāng)前的狀態(tài)而決定下一個(gè)時(shí)刻施加到環(huán)境上去的最好動(dòng)作。圖8-3強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)模型設(shè)計(jì)8.1.5網(wǎng)絡(luò)模型設(shè)計(jì)對(duì)于行動(dòng)網(wǎng)絡(luò)，強(qiáng)化學(xué)習(xí)算法允許它的輸出結(jié)點(diǎn)進(jìn)行隨機(jī)搜索，有了來自評(píng)估網(wǎng)絡(luò)的內(nèi)部強(qiáng)化信號(hào)后，行動(dòng)網(wǎng)絡(luò)的輸出結(jié)點(diǎn)即可有效地完成隨機(jī)搜索，并且大大提高選擇好的動(dòng)作的可能性，同時(shí)可以在線訓(xùn)練整個(gè)行動(dòng)網(wǎng)絡(luò)。用一個(gè)輔助網(wǎng)絡(luò)來為環(huán)境建模，評(píng)估網(wǎng)絡(luò)可單步和多步預(yù)報(bào)當(dāng)前由行動(dòng)網(wǎng)絡(luò)施加到環(huán)境上的動(dòng)作強(qiáng)化信號(hào)，根據(jù)當(dāng)前狀態(tài)和模擬環(huán)境預(yù)測(cè)其標(biāo)量值。可以提前向行動(dòng)網(wǎng)絡(luò)提供有關(guān)將候選動(dòng)作的強(qiáng)化信號(hào)，以及更多的獎(jiǎng)懲信息（內(nèi)部強(qiáng)化信號(hào)），以減少不確定性并提高學(xué)習(xí)速度。8.1.5網(wǎng)絡(luò)模型設(shè)計(jì)進(jìn)化強(qiáng)化學(xué)習(xí)對(duì)評(píng)估網(wǎng)絡(luò)使用時(shí)序差分預(yù)測(cè)方法TD和反向傳播BP算法進(jìn)行學(xué)習(xí)，而對(duì)行動(dòng)網(wǎng)絡(luò)進(jìn)行遺傳操作，使用內(nèi)部強(qiáng)化信號(hào)作為行動(dòng)網(wǎng)絡(luò)的適應(yīng)度函數(shù)。網(wǎng)絡(luò)運(yùn)算分成兩個(gè)部分，即前向信號(hào)計(jì)算和遺傳強(qiáng)化計(jì)算。在前向信號(hào)計(jì)算時(shí)，對(duì)評(píng)估網(wǎng)絡(luò)采用時(shí)序差分預(yù)測(cè)方法，由評(píng)估網(wǎng)絡(luò)對(duì)環(huán)境建模，可以進(jìn)行外部強(qiáng)化信號(hào)的多步預(yù)測(cè)，為行動(dòng)網(wǎng)絡(luò)提供更有效的內(nèi)部強(qiáng)化信號(hào)，使它產(chǎn)生更恰當(dāng)?shù)男袆?dòng)。內(nèi)部強(qiáng)化信號(hào)使行動(dòng)網(wǎng)絡(luò)、評(píng)估網(wǎng)絡(luò)在每一步都可以進(jìn)行學(xué)習(xí)，而不必等待外部強(qiáng)化信號(hào)，從而大大加速了兩個(gè)網(wǎng)絡(luò)的學(xué)習(xí)。8.1.5網(wǎng)絡(luò)模型設(shè)計(jì)以采用強(qiáng)化學(xué)習(xí)方法研究未知環(huán)境下機(jī)器人導(dǎo)航問題為例，由于環(huán)境的復(fù)雜性和不確定性，這些問題變得更為復(fù)雜，因此，在強(qiáng)化學(xué)習(xí)的設(shè)計(jì)中要考慮：（1）如何表示狀態(tài)空間和動(dòng)作空間。（2）如何選擇建立信號(hào)以及如何通過學(xué)習(xí)來修正不同狀態(tài)－動(dòng)作對(duì)的值。（3）如何根據(jù)這些值來選擇合適的動(dòng)作。8.1.6設(shè)計(jì)考慮在標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)中，智能體作為學(xué)習(xí)系統(tǒng)，獲取外部環(huán)境的當(dāng)前狀態(tài)信息，對(duì)環(huán)境采取試探行為并獲取環(huán)境反饋的對(duì)此動(dòng)作的評(píng)價(jià)和新的環(huán)境狀態(tài)。如果智能體的某個(gè)動(dòng)作導(dǎo)致環(huán)境正的獎(jiǎng)賞（立即報(bào)酬），那么智能體以后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)加強(qiáng)；反之，智能體產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)將減弱。在學(xué)習(xí)系統(tǒng)的控制行為與環(huán)境反饋的狀態(tài)及評(píng)價(jià)的反復(fù)交互作用中，以學(xué)習(xí)方式不斷修改從狀態(tài)到動(dòng)作的映射策略，以達(dá)到優(yōu)化系統(tǒng)性能目的。學(xué)習(xí)從環(huán)境狀態(tài)到行為的映射，使得智能體選擇的行為能夠獲得環(huán)境最大的獎(jiǎng)賞，使外部環(huán)境對(duì)學(xué)習(xí)系統(tǒng)在某種意義下的評(píng)價(jià)（或整個(gè)系統(tǒng)的運(yùn)行性能）為最佳。8.1.6設(shè)計(jì)考慮強(qiáng)化學(xué)習(xí)使人們從手動(dòng)構(gòu)造行為和標(biāo)記監(jiān)督學(xué)習(xí)所需的大量數(shù)據(jù)集（或人工編寫控制策略）中解脫出來。它在機(jī)器人技術(shù)中的應(yīng)用中特別有價(jià)值，該領(lǐng)域需要能夠處理連續(xù)的、高維的、部分可觀測(cè)環(huán)境的方法，在這樣的環(huán)境中，成功的行為可能包含成千上萬甚至數(shù)百萬的基元?jiǎng)幼鳌?.1.7數(shù)據(jù)依賴性強(qiáng)化學(xué)習(xí)的方法有很多且錯(cuò)綜復(fù)雜，這是因?yàn)椴⒉淮嬖谝环N公認(rèn)的最佳方法。（1）智能體整體的設(shè)計(jì)限制了學(xué)習(xí)所需的信息類型?！せ谀Ｐ偷膹?qiáng)化學(xué)習(xí)智能體需要（或者配備有）環(huán)境的轉(zhuǎn)移模型，并學(xué)習(xí)效用函數(shù)。·無模型強(qiáng)化學(xué)習(xí)智能體可以學(xué)習(xí)一個(gè)動(dòng)作效用函數(shù)或?qū)W習(xí)一個(gè)策略。基于模型和無模型方法相比，核心問題是智能體函數(shù)的最佳表示方式。隨著環(huán)境變得更加復(fù)雜，基于模型方法的優(yōu)勢(shì)將變得越發(fā)明顯。8.1.7數(shù)據(jù)依賴性（2）效用函數(shù)可以通過如下幾種方法進(jìn)行學(xué)習(xí)。·直接效用估計(jì)將觀測(cè)到的總獎(jiǎng)勵(lì)用于給定狀態(tài)，作為學(xué)習(xí)其效用的樣本直接來源?！ぷ赃m應(yīng)動(dòng)態(tài)規(guī)劃（ADP）從觀測(cè)中學(xué)習(xí)模型和獎(jiǎng)勵(lì)函數(shù)，然后使用價(jià)值或策略迭代來獲得效用或最優(yōu)策略。ADP較好地利用了環(huán)境的鄰接結(jié)構(gòu)作為狀態(tài)效用的局部約束。·時(shí)序差分（TD）方法調(diào)整效用估計(jì)，使其與后繼狀態(tài)的效用估計(jì)相一致。它是ADP方法的一個(gè)簡單近似，且學(xué)習(xí)時(shí)不需要預(yù)先知道轉(zhuǎn)移模型。此外，使用一個(gè)學(xué)習(xí)模型來產(chǎn)生偽經(jīng)驗(yàn)可以學(xué)習(xí)得更快。8.1.7數(shù)據(jù)依賴性（3）可以通過ADP方法或TD方法學(xué)習(xí)動(dòng)作效用函數(shù)或Q函數(shù)。在使用TD方法時(shí)，在學(xué)習(xí)或動(dòng)作選擇階段都不需要模型，簡化了學(xué)習(xí)問題，但同時(shí)潛在地限制了它在復(fù)雜環(huán)境中的學(xué)習(xí)能力，因?yàn)橹悄荏w無法模擬可能的動(dòng)作過程的結(jié)果。進(jìn)行動(dòng)作選擇時(shí)，它必須在這些動(dòng)作的價(jià)值估計(jì)的有用新信息之間進(jìn)行權(quán)衡。探索問題的精確解是無法獲得的，但一些簡單的啟發(fā)式可以給出一個(gè)合理的結(jié)果。同時(shí)探索性智能體也必須注意避免過早陷入終止態(tài)。8.1.7數(shù)據(jù)依賴性（4）在大的狀態(tài)空間中，強(qiáng)化學(xué)習(xí)算法必須進(jìn)行函數(shù)近似表示，以便在狀態(tài)空間進(jìn)行泛化。深度強(qiáng)化學(xué)習(xí)采用深度神經(jīng)網(wǎng)絡(luò)作為近似函數(shù)，已經(jīng)在一些困難問題上取得了相當(dāng)大的成功。獎(jiǎng)勵(lì)設(shè)計(jì)和分層強(qiáng)化學(xué)習(xí)有助于學(xué)習(xí)復(fù)雜的行為，特別是在獎(jiǎng)勵(lì)稀少且需要長動(dòng)作序列才能獲得獎(jiǎng)勵(lì)的情況下。8.1.7數(shù)據(jù)依賴性（5）策略搜索方法直接對(duì)策略的表示進(jìn)行操作，并試圖根據(jù)觀測(cè)到的表現(xiàn)對(duì)其進(jìn)行改進(jìn)，在隨機(jī)領(lǐng)域中，性能的劇烈變化是一個(gè)嚴(yán)重的問題，而在模擬領(lǐng)域中可以通過預(yù)先固定隨機(jī)程度來克服這個(gè)難點(diǎn)。（6）難以獲得正確的獎(jiǎng)勵(lì)函數(shù)時(shí)，通過觀測(cè)專家行為進(jìn)行學(xué)徒學(xué)習(xí)是一種有效的解決方案，模仿學(xué)習(xí)將問題轉(zhuǎn)換為從專家的狀態(tài)—?jiǎng)幼鲗?duì)中進(jìn)行學(xué)習(xí)的監(jiān)督學(xué)習(xí)問題，逆強(qiáng)化學(xué)習(xí)從專家的行為中推斷有關(guān)獎(jiǎng)勵(lì)函數(shù)的信息。8.1.7數(shù)據(jù)依賴性PART02與監(jiān)督學(xué)習(xí)的區(qū)別從嚴(yán)格意義上說，AlphaGo程序在人機(jī)圍棋對(duì)弈中打敗韓國圍棋大師李世石。其中對(duì)人工智能、機(jī)器學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)這3種技術(shù)都有所使用，但使用得更多的還是深度強(qiáng)化學(xué)習(xí)。8.2與監(jiān)督學(xué)習(xí)的區(qū)別機(jī)器學(xué)習(xí)方法主要分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的共同點(diǎn)是兩者都需要大量的數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練，但兩者的學(xué)習(xí)方式不盡相同，兩者所需的數(shù)據(jù)類型也有差異，監(jiān)督學(xué)習(xí)需要多樣化的標(biāo)簽數(shù)據(jù)，強(qiáng)化學(xué)習(xí)則需要帶有回報(bào)的交互數(shù)據(jù)。8.2與監(jiān)督學(xué)習(xí)的區(qū)別強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)不同之處具體有以下5個(gè)方面。（1）沒有監(jiān)督者，只有獎(jiǎng)勵(lì)信號(hào)。監(jiān)督學(xué)習(xí)要基于大量作為訓(xùn)練與學(xué)習(xí)目標(biāo)的標(biāo)注數(shù)據(jù)進(jìn)行，而強(qiáng)化學(xué)習(xí)中沒有監(jiān)督者，它不是由已經(jīng)標(biāo)注好的樣本數(shù)據(jù)來告訴系統(tǒng)什么是最佳動(dòng)作。換言之，智能體不能夠馬上獲得監(jiān)督信號(hào)，只是從環(huán)境的反饋中獲得獎(jiǎng)勵(lì)信號(hào)。（2）反饋延遲。實(shí)際上是延遲獎(jiǎng)勵(lì)，環(huán)境可能不會(huì)在每一步動(dòng)作上都給與獎(jiǎng)勵(lì)，有時(shí)候需要完成一連串的動(dòng)作，甚至是完成整個(gè)任務(wù)后才能獲得獎(jiǎng)勵(lì)。8.2與監(jiān)督學(xué)習(xí)的區(qū)別（3）試錯(cuò)學(xué)習(xí)。因?yàn)闆]有監(jiān)督，所以沒有直接的指導(dǎo)信息，智能體要與環(huán)境不斷進(jìn)行交互，通過試錯(cuò)的方式來獲得最優(yōu)策略。（4）智能體的動(dòng)作會(huì)影響其后續(xù)數(shù)據(jù)。智能體選擇不同動(dòng)作會(huì)進(jìn)入不同的狀態(tài)。由于強(qiáng)化學(xué)習(xí)基于馬爾可夫決策過程（當(dāng)前狀態(tài)只與上一個(gè)狀態(tài)有關(guān)，與其他狀態(tài)無關(guān)），因此下一個(gè)時(shí)間步所獲得的狀態(tài)變化，環(huán)境的反饋也會(huì)隨之發(fā)生變化。（5）時(shí)間序列很重要。強(qiáng)化學(xué)習(xí)更加注重輸入數(shù)據(jù)的序列性，下一個(gè)時(shí)間步t的輸入依賴于前一個(gè)時(shí)間步t-1的狀態(tài)（即馬爾可夫?qū)傩裕?.2與監(jiān)督學(xué)習(xí)的區(qū)別一般而言，監(jiān)督學(xué)習(xí)是通過對(duì)數(shù)據(jù)進(jìn)行分析，找到數(shù)據(jù)的表達(dá)模型，隨后利用該模型，在新輸入的數(shù)據(jù)上進(jìn)行決策。下圖為監(jiān)督學(xué)習(xí)的一般方法，主要分為訓(xùn)練階段和預(yù)測(cè)階段。8.2.1學(xué)習(xí)方式在訓(xùn)練階段，首先根據(jù)原始數(shù)據(jù)進(jìn)行特征提?。ā疤卣鞴こ獭保５玫綌?shù)據(jù)特征后，可以使用決策樹、隨機(jī)森林等機(jī)器學(xué)習(xí)算法去分析數(shù)據(jù)之間的關(guān)系，最終得到關(guān)于輸入數(shù)據(jù)的模型。在預(yù)測(cè)階段，同樣按照特征工程的方法抽取數(shù)據(jù)的特征，使用訓(xùn)練階段得到的模型對(duì)特征向量進(jìn)行預(yù)測(cè)，最終得到數(shù)據(jù)所屬的分類標(biāo)簽。值得注意的是，驗(yàn)證模型使用驗(yàn)證集數(shù)據(jù)對(duì)模型進(jìn)行反向驗(yàn)證，確保模型的正確性和精度。8.2.1學(xué)習(xí)方式深度學(xué)習(xí)的一般方法與傳統(tǒng)機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的一般方法相比少了特征工程，從而大大降低了業(yè)務(wù)領(lǐng)域門檻與人力成本。8.2.1學(xué)習(xí)方式監(jiān)督學(xué)習(xí)分為預(yù)測(cè)和訓(xùn)練兩個(gè)階段，學(xué)習(xí)只能發(fā)生在訓(xùn)練階段，該階段會(huì)出現(xiàn)一個(gè)監(jiān)督信號(hào)（即具有學(xué)習(xí)的能力，數(shù)學(xué)上稱為“差分信號(hào)”）。例如在語音識(shí)別任務(wù)中，需要收集大量的語音語料數(shù)據(jù)和該語料對(duì)應(yīng)標(biāo)注好的文本內(nèi)容。有了原始的語音數(shù)據(jù)和對(duì)應(yīng)的語音標(biāo)注數(shù)據(jù)后，可通過監(jiān)督學(xué)習(xí)方法收集數(shù)據(jù)中的模式，例如對(duì)語音分類、判別該語音音素所對(duì)應(yīng)的單詞等。8.2.1學(xué)習(xí)方式上述標(biāo)注語音文本內(nèi)容相當(dāng)于一個(gè)監(jiān)督信號(hào)，等語音識(shí)別模型訓(xùn)練完成后，在預(yù)測(cè)階段就不再需要該監(jiān)督信號(hào)，生成的語言識(shí)別模型僅用作新數(shù)據(jù)的預(yù)測(cè)。如果想要重新修改監(jiān)督信號(hào)，則需要對(duì)語言識(shí)別模型進(jìn)行重新訓(xùn)練。由于監(jiān)督學(xué)習(xí)的訓(xùn)練階段非常耗時(shí)，現(xiàn)在有許多學(xué)者對(duì)遷移學(xué)習(xí)進(jìn)行深入研究，以期望縮短監(jiān)督學(xué)習(xí)的訓(xùn)練時(shí)間。強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)截然不同，其學(xué)習(xí)過程與生物的自然學(xué)習(xí)過程非常類似。具體而言，智能體在與環(huán)境的互動(dòng)過程中，通過不斷探索與試錯(cuò)的方式，利用基于正/負(fù)獎(jiǎng)勵(lì)的方式進(jìn)行學(xué)習(xí)。8.2.1學(xué)習(xí)方式強(qiáng)化學(xué)習(xí)不需要像監(jiān)督學(xué)習(xí)那樣依賴先驗(yàn)知識(shí)數(shù)據(jù)。例如線上游戲，越來越多的用戶使用移動(dòng)終端進(jìn)行游戲，使數(shù)據(jù)的獲取來源更為廣泛。比如圍棋游戲，圍棋的棋譜可以很容易得到，這些棋譜是人類玩家的動(dòng)作行為記錄，如果只用監(jiān)督學(xué)習(xí)進(jìn)行建模，模型學(xué)習(xí)出的對(duì)弈技能很有可能只局限在所收集的有限棋譜內(nèi)。當(dāng)出現(xiàn)新的下棋方式時(shí)，模型可能會(huì)因?yàn)檎也坏饺肿顑?yōu)解而使得棋力大減。8.2.2先驗(yàn)知識(shí)與標(biāo)識(shí)數(shù)據(jù)強(qiáng)化學(xué)習(xí)通過自我博弈方式產(chǎn)生更多的標(biāo)準(zhǔn)數(shù)據(jù)。在強(qiáng)化學(xué)習(xí)中，如果有基本棋譜，便可以利用系統(tǒng)自我學(xué)習(xí)和獎(jiǎng)勵(lì)的方式，系統(tǒng)自動(dòng)學(xué)習(xí)更多的棋譜或者使用兩個(gè)智能體進(jìn)行互相博弈，進(jìn)而為系統(tǒng)自身補(bǔ)充更多的棋譜信息，不受標(biāo)注數(shù)據(jù)和先驗(yàn)知識(shí)的限制。總之，強(qiáng)化學(xué)習(xí)可以利用較少的訓(xùn)練信息，讓系統(tǒng)不斷地自主學(xué)習(xí)，自我補(bǔ)充更多的信息，進(jìn)而免受監(jiān)督者的限制。8.2.2先驗(yàn)知識(shí)與標(biāo)識(shí)數(shù)據(jù)另外，可以使用遷移學(xué)習(xí)來減少標(biāo)注數(shù)據(jù)的數(shù)量，因?yàn)樗谝欢ǔ潭壬贤黄屏吮O(jiān)督學(xué)習(xí)中存在的限制，提前在大量標(biāo)注數(shù)據(jù)信息中提取其高維特征，從而減少后續(xù)復(fù)用模型的輸入數(shù)據(jù)。遷移學(xué)習(xí)是把已經(jīng)訓(xùn)練好的模型參數(shù)遷移到新的模型以幫助訓(xùn)練新模型?？紤]到大部分?jǐn)?shù)據(jù)或任務(wù)存在相關(guān)性，通過遷移學(xué)習(xí)可以將已經(jīng)學(xué)到的模型參數(shù)（也可理解為模型學(xué)到的知識(shí)）通過某種方式分享給新模型，進(jìn)而不需要從零開始學(xué)習(xí)，加快并優(yōu)化新模型的學(xué)習(xí)效率。8.2.2先驗(yàn)知識(shí)與標(biāo)識(shí)數(shù)據(jù)PART03強(qiáng)化學(xué)習(xí)基礎(chǔ)理論強(qiáng)化學(xué)習(xí)的基本元素包括智能體、環(huán)境、狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)，智能體通過狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)與環(huán)境進(jìn)行交互，不斷地根據(jù)環(huán)境的反饋信息進(jìn)行試錯(cuò)學(xué)習(xí)。8.3強(qiáng)化學(xué)習(xí)基礎(chǔ)理論在強(qiáng)化學(xué)習(xí)中，可以將數(shù)百種不同的算法按智能體所處的環(huán)境分成兩種類型：一種是環(huán)境已知，叫作基于模型，就是智能體已經(jīng)對(duì)環(huán)境進(jìn)行建模；另一種是環(huán)境未知，叫作免模型。8.3.1基于模型與免模型環(huán)境（1）基于模型的強(qiáng)化學(xué)習(xí)。例如，工廠載貨機(jī)器人通過傳感器感應(yīng)地面上的航線來控制其行走。由于地面上的航線是事先規(guī)劃好的，工廠的環(huán)境也是可控已知的，因此可以將其視為基于模型的任務(wù)。圖8-7基于模型的任務(wù)：工廠AGV自動(dòng)載重車8.3.1基于模型與免模型環(huán)境在這些方法中，智能體使用環(huán)境的轉(zhuǎn)移模型來幫助解釋獎(jiǎng)勵(lì)信號(hào)并決定如何行動(dòng)。模型最初可能是未知的，在這種情況下，智能體通過觀測(cè)其行為的影響來學(xué)習(xí)模型；或者它也可能是已知的，例如，國際象棋程序可能知道國際象棋的規(guī)則，即便它不知道如何選擇好的走法。在部分可觀測(cè)的環(huán)境中，轉(zhuǎn)移模型對(duì)于狀態(tài)估計(jì)也是很有用的?；谀Ｐ偷膹?qiáng)化學(xué)習(xí)系統(tǒng)通常會(huì)學(xué)習(xí)一個(gè)效用函數(shù)U(s)。在強(qiáng)化學(xué)習(xí)的相關(guān)文獻(xiàn)中，更多地涉及運(yùn)籌學(xué)而不是經(jīng)濟(jì)學(xué)，效用函數(shù)通常稱為價(jià)值函數(shù)并表示為V(s)。8.3.1基于模型與免模型環(huán)境不過在現(xiàn)實(shí)情況下，環(huán)境的狀態(tài)轉(zhuǎn)移概率、獎(jiǎng)勵(lì)函數(shù)往往很難提前獲取，甚至很難知道環(huán)境中一共有多少個(gè)狀態(tài)。8.3.1基于模型與免模型環(huán)境（2）無模型強(qiáng)化學(xué)習(xí)。例如汽車的自動(dòng)駕駛系統(tǒng)，在現(xiàn)實(shí)交通環(huán)境下，很多事情是無法預(yù)先估計(jì)的，例如路人的行為、往來車輛的行走軌跡等情況，因此可以將其視為免模型的任務(wù)。在這種方式中，智能體不知道環(huán)境的轉(zhuǎn)移模型，也不會(huì)學(xué)習(xí)它。相反，它直接學(xué)習(xí)如何采取行為方式，可以使用動(dòng)態(tài)規(guī)劃法求解。其中主要有以下兩種形式，動(dòng)作效用函數(shù)學(xué)習(xí)和策略搜索。可以使用蒙特卡洛法和時(shí)間差分法來求解，還可以使用值函數(shù)近似、梯度策略等方法。8.3.1基于模型與免模型環(huán)境在強(qiáng)化學(xué)習(xí)中，“探索”的目的是找到更多有關(guān)環(huán)境的信息，而“利用”的目的是利用已知的環(huán)境信息來最大限度地提高獎(jiǎng)勵(lì)。簡而言之，“探索”是嘗試新的動(dòng)作行為，而“利用”則是從已知?jiǎng)幼髦羞x擇下一步的行動(dòng)。例如在一些策略游戲中，探索階段玩家并不知道地圖上被遮蓋的地方到底有什么，敵人是否在那里，所以需要一個(gè)探路者游走于未知地圖區(qū)域進(jìn)行探索，以便能夠獲得更多地圖相關(guān)的環(huán)境知識(shí)，便于玩家制定作戰(zhàn)策略。當(dāng)開拓完地圖之后，就能全面了解地圖上的環(huán)境狀態(tài)信息。接下來玩家便可以利用探索到的信息，去找到一個(gè)最優(yōu)的作戰(zhàn)策略。8.3.2探索與利用實(shí)際上，“探索”和“利用”哪個(gè)重要，以及如何權(quán)衡兩者之間的關(guān)系，是需要深入思考的。在基于模型的環(huán)境下，已經(jīng)知道環(huán)境的所有信息（環(huán)境完備信息），智能體不需要在環(huán)境中進(jìn)行探索，而只要簡單利用環(huán)境中已知信息即可；可是在免模型環(huán)境下，探索和利用兩者同等重要，既需要知道更多有關(guān)環(huán)境的信息，又需要針對(duì)這些已知信息來提高獎(jiǎng)勵(lì)。8.3.2探索與利用不過，“探索”和“利用”兩者本身是矛盾的，因?yàn)樵趯?shí)際運(yùn)行中，算法能夠嘗試的次數(shù)是有限的，增加了探索的次數(shù)則利用次數(shù)會(huì)降低，反之亦然。這就是強(qiáng)化學(xué)習(xí)中的探索—利用困境。如果想要最大化累積獎(jiǎng)勵(lì)，就必須在探索和利用之間進(jìn)行權(quán)衡。8.3.2探索與利用在求解強(qiáng)化學(xué)習(xí)問題時(shí)，具體還有免模型預(yù)測(cè)和免模型控制，以及基于模型預(yù)測(cè)和基于模型控制?！邦A(yù)測(cè)”的目的是驗(yàn)證未來——對(duì)于一個(gè)給定的策略，智能體需要去驗(yàn)證該策略能夠到達(dá)的理想狀態(tài)值，以確定該策略的好壞。而“控制”則是優(yōu)化未來——給出一個(gè)初始化策略，智能體希望基于該給定的初始化策略，找到一個(gè)最優(yōu)的策略。8.3.3預(yù)測(cè)與控制相比較而言，“預(yù)測(cè)”和“控制”是探索和利用的抽象詞語。預(yù)測(cè)對(duì)應(yīng)于探索，希望在未知的環(huán)境中探索更多可能的策略，然后驗(yàn)證該策略的狀態(tài)值函數(shù)?？刂茖?duì)應(yīng)于利用，在未知的環(huán)境中找到一些策略，希望在這些策略中找到一個(gè)最好的策略。8.3.3預(yù)測(cè)與控制PART04強(qiáng)化學(xué)習(xí)分類在強(qiáng)化學(xué)習(xí)中，智能體是在沒有“老師”的情況下，通過考慮自己的最終成功或失敗，根據(jù)獎(jiǎng)勵(lì)與懲罰，主動(dòng)地從自己的經(jīng)驗(yàn)中學(xué)習(xí)，以使未來的獎(jiǎng)勵(lì)最大化。例如，策略搜索是用于強(qiáng)化學(xué)習(xí)問題的方法。從某些層面來說，策略搜索是各種方法中最簡單的一種，其核心思想是，只要策略的表現(xiàn)有所改進(jìn)，就繼續(xù)調(diào)整策略，直到停止。8.4強(qiáng)化學(xué)習(xí)分類考慮學(xué)習(xí)下國際象棋的問題。我們首先將其視為監(jiān)督學(xué)習(xí)問題。下棋智能體函數(shù)把棋盤局面作為輸入并返回對(duì)應(yīng)的棋子招式，因此，我們通過為它提供關(guān)于國際象棋棋盤局面的樣本來訓(xùn)練此函數(shù)，其中每個(gè)樣本都標(biāo)有正確的走法。假設(shè)我們恰好有一個(gè)可用數(shù)據(jù)庫，其中包括數(shù)百萬局象棋大師的對(duì)局，每場(chǎng)對(duì)局都包含一系列的局面和走法。除少數(shù)例外，我們認(rèn)為獲勝者的招式即便不總是完美的，但也是較好的。因此，我們得到了一個(gè)很有前途的訓(xùn)練集?，F(xiàn)在的問題在于，與所有可能的國際象棋局面構(gòu)成的空間（約1040個(gè)）相比，樣本相當(dāng)少（約108個(gè)）。8.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)在新的對(duì)局中，人們很快就會(huì)遇到與數(shù)據(jù)庫中的局面明顯不同的局面。那么，此時(shí)經(jīng)過訓(xùn)練的智能體很可能會(huì)失效——不僅是因?yàn)樗恢雷约合缕宓哪繕?biāo)是什么（把對(duì)手將死），它甚至不知道這些招式對(duì)棋子的局面有什么影響。當(dāng)然，國際象棋只是真實(shí)世界的一小部分。對(duì)于更加實(shí)際的問題，我們需要更大的專業(yè)數(shù)據(jù)庫，而它們實(shí)際上并不存在。8.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)取而代之的另一種選擇是使用強(qiáng)化學(xué)習(xí)，在這種學(xué)習(xí)中，智能體將與世界進(jìn)行互動(dòng)，并不時(shí)收到反映其表現(xiàn)的獎(jiǎng)勵(lì)（強(qiáng)化）。例如，在國際象棋中，獲勝的獎(jiǎng)勵(lì)為1，失敗的獎(jiǎng)勵(lì)為0，平局的獎(jiǎng)勵(lì)為1/2。強(qiáng)化學(xué)習(xí)的目標(biāo)也是相同的：最大化期望獎(jiǎng)勵(lì)總和。強(qiáng)化學(xué)習(xí)不同于“僅僅解決MDP（馬爾可夫決策過程）”，因?yàn)橹悄荏w沒有將MDP作為待解決的問題，智能體本身處于MDP中。它可能不知道轉(zhuǎn)移模型或獎(jiǎng)勵(lì)函數(shù)，它必須采取行動(dòng)以了解更多信息。想象一下，你正在玩一個(gè)你不了解規(guī)則的新游戲，那么在采取若干個(gè)行動(dòng)后，裁判會(huì)告訴你“你輸了”。這個(gè)簡單的例子就是強(qiáng)化學(xué)習(xí)的一個(gè)縮影。8.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)從人工智能系統(tǒng)設(shè)計(jì)者的角度看來，向智能體提供獎(jiǎng)勵(lì)信號(hào)通常比提供有標(biāo)簽的行動(dòng)樣本要容易得多。首先，獎(jiǎng)勵(lì)函數(shù)通常非常簡潔且易于指定；它只需幾行代碼就可以告訴國際象棋智能體這局比賽是贏了還是輸了，或者告訴賽車智能體它贏得或輸?shù)袅吮荣悾蛘咚罎⒘?。其次，我們不必是相關(guān)領(lǐng)域的專家，即不需要能在任何情況下提供正確動(dòng)作，但如果我們?cè)噲D應(yīng)用監(jiān)督學(xué)習(xí)的方法，那么這些將是必要的。8.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)然而，事實(shí)證明，一點(diǎn)點(diǎn)的專業(yè)知識(shí)對(duì)強(qiáng)化學(xué)習(xí)會(huì)有很大的幫助?？紤]國際象棋和賽車比賽的輸贏獎(jiǎng)勵(lì)（被稱為稀疏獎(jiǎng)勵(lì)），因?yàn)樵诮^大多數(shù)狀態(tài)下，智能體根本沒有得到任何有信息量的獎(jiǎng)勵(lì)信號(hào)。在網(wǎng)球和板球等游戲中，我們可以輕松地為每次擊球得分與跑壘得分提供額外的獎(jiǎng)勵(lì)。在賽車比賽中，我們可以獎(jiǎng)勵(lì)在賽道上朝著正確方向前進(jìn)的智能體。在學(xué)習(xí)爬行時(shí)，任何向前的運(yùn)動(dòng)都是一種進(jìn)步。這些中間獎(jiǎng)勵(lì)將使學(xué)習(xí)變得更加容易。8.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)只要我們可以為智能體提供正確的獎(jiǎng)勵(lì)信號(hào)，強(qiáng)化學(xué)習(xí)就提供了一種非常通用的構(gòu)建人工智能系統(tǒng)的方法。對(duì)模擬環(huán)境來說尤其如此，因?yàn)樵谶@種情況下，我們不乏獲得經(jīng)驗(yàn)的機(jī)會(huì)。在強(qiáng)化學(xué)習(xí)系統(tǒng)中引入深度學(xué)習(xí)作為工具，也使新的應(yīng)用成為可能，其中包括從原始視覺輸入學(xué)習(xí)玩電子游戲、控制機(jī)器人以及玩紙牌游戲。8.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)考慮一個(gè)簡單情形：有少量動(dòng)作和狀態(tài)，且環(huán)境完全可觀測(cè)，其中智能體已經(jīng)有了能決定其動(dòng)作的固定策略。智能體將嘗試學(xué)習(xí)效用函數(shù)——從狀態(tài)出發(fā)，采用策略得到的期望總折扣獎(jiǎng)勵(lì)，稱之為被動(dòng)學(xué)習(xí)智能體。被動(dòng)學(xué)習(xí)任務(wù)類似于策略評(píng)估任務(wù)，可以將其表述為直接效用估計(jì)、自適應(yīng)動(dòng)態(tài)規(guī)劃和時(shí)序差分學(xué)習(xí)。8.4.2被動(dòng)強(qiáng)化學(xué)習(xí)被動(dòng)學(xué)習(xí)智能體有一個(gè)固定的策略來決定其行為，而主動(dòng)學(xué)習(xí)智能體可以自主決定采取什么動(dòng)作。可以從自適應(yīng)動(dòng)態(tài)規(guī)劃（ADP）智能體開始入手，并考慮如何對(duì)它進(jìn)行修改以利用這種新的自由度。智能體首先需要學(xué)習(xí)一個(gè)完整的轉(zhuǎn)移模型，其中包含所有動(dòng)作可能導(dǎo)致的結(jié)果及概率，而不僅僅是固定策略下的模型。8.4.3主動(dòng)強(qiáng)化學(xué)習(xí)我們假設(shè)效用函數(shù)可以用表格的形式表示，其中每個(gè)狀態(tài)有一個(gè)輸出值。這種方法適用于狀態(tài)多達(dá)106的狀態(tài)空間，這對(duì)我們處在二維網(wǎng)格環(huán)境中的玩具模型來說已經(jīng)足夠了。但在有更多狀態(tài)的現(xiàn)實(shí)環(huán)境中，其收斂速度會(huì)很慢。西洋雙陸棋比大多數(shù)真實(shí)世界的應(yīng)用簡單，但它的狀態(tài)已經(jīng)多達(dá)約1020個(gè)。我們不可能為了學(xué)習(xí)如何玩游戲而簡單地訪問每一個(gè)狀態(tài)。8.4.4強(qiáng)化學(xué)習(xí)中的泛化一些領(lǐng)域過于復(fù)雜，以至于很難在其中定義強(qiáng)化學(xué)習(xí)所需的獎(jiǎng)勵(lì)函數(shù)。例如，我們到底想讓自動(dòng)駕駛汽車做什么？當(dāng)然，我們希望它到達(dá)目的地花費(fèi)的時(shí)間不要大長，但它也不應(yīng)開得大快，以免帶來不必要的危險(xiǎn)或超速罰單；它應(yīng)該節(jié)省能源：它應(yīng)該避免碰撞或由于突然變速給乘客帶來的劇烈晃動(dòng)，但它仍可以在緊急情況下猛踩利車，等等，為這些因素分配權(quán)重比較困難。8.4.5學(xué)徒學(xué)習(xí)與逆強(qiáng)化學(xué)習(xí)更糟糕的是，我們幾乎必然會(huì)忘記一些重要的因素，例如它有義務(wù)為其他司機(jī)著想。忽略一個(gè)因素通常會(huì)導(dǎo)致學(xué)習(xí)系統(tǒng)為被忽略的因素分配一個(gè)極端值，在這種情況下，汽車可能會(huì)為了使剩余的因素最大化而進(jìn)行極不負(fù)責(zé)任的駕駛。8.4.5學(xué)徒學(xué)習(xí)與逆強(qiáng)化學(xué)習(xí)問題的一種解決方法是在模擬中進(jìn)行大量的測(cè)試并關(guān)注有問題的行為，再嘗試通過修改獎(jiǎng)勵(lì)函數(shù)以消除這些行為。另一種解決方法是尋找有關(guān)適合的獎(jiǎng)勵(lì)函數(shù)的其他信息來源。這種信息來源之一是獎(jiǎng)勵(lì)函數(shù)已經(jīng)完成優(yōu)化（或幾乎完成優(yōu)化）的智能體的行為，在這個(gè)例子中來源可以是專業(yè)的人類駕駛員。學(xué)徒學(xué)習(xí)研究這樣的問題：在提供了一些對(duì)專家行為觀測(cè)的基礎(chǔ)上，如何讓學(xué)習(xí)表現(xiàn)得較好。以專業(yè)駕駛算法為例，告訴學(xué)習(xí)者“像這樣去做”，至少有兩種方法來解決學(xué)徒學(xué)習(xí)問題。8.4.5學(xué)徒學(xué)習(xí)與逆強(qiáng)化學(xué)習(xí)第一種方法：假設(shè)環(huán)境是可觀測(cè)的，對(duì)觀測(cè)到的狀態(tài)-動(dòng)作對(duì)應(yīng)用監(jiān)督學(xué)習(xí)方法以學(xué)習(xí)其中的策略，這被稱作模仿學(xué)習(xí)。它在機(jī)器人技術(shù)方面取得了成果，但也面臨學(xué)習(xí)較為脆弱這類問題：訓(xùn)練集中的微小誤差將隨著時(shí)間累積增長，并最終導(dǎo)致學(xué)習(xí)失敗。并且，模仿學(xué)習(xí)最多只能復(fù)現(xiàn)教師的表現(xiàn)，而不能超越教師的表現(xiàn)。當(dāng)人類通過模仿進(jìn)行學(xué)習(xí)時(shí)，有時(shí)會(huì)用貶義詞：模仿得像笨拙的猿一樣，來形容他們的做法。這意味著，模仿學(xué)習(xí)者不明白為什么它應(yīng)該執(zhí)行指定的動(dòng)作。8.4.5學(xué)徒學(xué)習(xí)與逆強(qiáng)化學(xué)習(xí)第二種方法旨在理解原因：觀察專家的行為（和結(jié)果狀態(tài)），并試圖找出專家最大化的獎(jiǎng)勵(lì)函數(shù)，然后就可以得到一個(gè)關(guān)于這個(gè)獎(jiǎng)勵(lì)函數(shù)的最優(yōu)策略。人們期望這種方法能從相對(duì)較少的專家行為樣本中得到較為健壯的策略，畢竟強(qiáng)化學(xué)習(xí)領(lǐng)域本身是基于獎(jiǎng)勵(lì)函數(shù)（而不是策略或價(jià)值函數(shù)）是對(duì)任務(wù)最簡潔、最健壯和可遷移的定義這樣一種想法的。此外，如果學(xué)習(xí)者恰當(dāng)?shù)乜紤]了專家可能存在的次優(yōu)問題，那么通過優(yōu)化真實(shí)獎(jiǎng)勵(lì)函數(shù)的某個(gè)較為精確的近似函數(shù)，學(xué)習(xí)者可能會(huì)比專家表現(xiàn)得更好。我們稱該方法為逆強(qiáng)化學(xué)習(xí)：通過觀察策略來學(xué)習(xí)獎(jiǎng)勵(lì)，而不是通過觀察獎(jiǎng)勵(lì)來學(xué)習(xí)策略。8.4.5學(xué)徒學(xué)習(xí)與逆強(qiáng)化學(xué)習(xí)PART05強(qiáng)化學(xué)習(xí)的應(yīng)用深度學(xué)習(xí)已經(jīng)被許多傳統(tǒng)制造業(yè)、互聯(lián)網(wǎng)公司應(yīng)用到各種領(lǐng)域，與之相比，強(qiáng)化學(xué)習(xí)的應(yīng)用還相對(duì)有限。強(qiáng)化學(xué)習(xí)的應(yīng)用包括游戲方面的應(yīng)用（其中轉(zhuǎn)移模型是已知的，目標(biāo)是學(xué)習(xí)效用函數(shù)）和機(jī)器人方面的應(yīng)用（其中模型最初是未知的）等等。圖8-8強(qiáng)化學(xué)習(xí)的現(xiàn)實(shí)應(yīng)用場(chǎng)景8.5強(qiáng)化學(xué)習(xí)的應(yīng)用強(qiáng)化學(xué)習(xí)模仿人類和動(dòng)物的學(xué)習(xí)方法。在現(xiàn)實(shí)生活中可以找到很多符合強(qiáng)化學(xué)習(xí)模型的例子，例如父母的表揚(yáng)、學(xué)校的好成績、工作的高薪資等，這些都是積極獎(jiǎng)勵(lì)的例子。無論是工廠的機(jī)器人進(jìn)行生產(chǎn)，還是商業(yè)交易中的信貸分配，人們或者機(jī)器人不斷與環(huán)境進(jìn)行交流以獲得反饋信息的過程，都與強(qiáng)化學(xué)習(xí)的過程相仿。更加真實(shí)的案例是阿爾法狗圍棋程序的出現(xiàn)，其通過每步走棋的反饋來調(diào)整下圍棋的策略，最終贏了人類最頂尖的圍棋職業(yè)選手。阿爾法狗中所使用到的深度強(qiáng)化學(xué)習(xí)也緊隨深度學(xué)習(xí)之后，成為人工智能領(lǐng)域最熱門的話題之一。事實(shí)上，強(qiáng)化學(xué)習(xí)也確實(shí)可以通過對(duì)現(xiàn)實(shí)問題的表示和人類學(xué)習(xí)方式的模擬解決很多的現(xiàn)實(shí)問題。8.5強(qiáng)化學(xué)習(xí)的應(yīng)用一方面，強(qiáng)化學(xué)習(xí)需要收集大量數(shù)據(jù)，并且是現(xiàn)實(shí)環(huán)境中建立起來的數(shù)據(jù)，而不是簡單的仿真模擬數(shù)據(jù)。強(qiáng)化學(xué)習(xí)可以通過自我博弈的方式自動(dòng)生成大量高質(zhì)量的可用于訓(xùn)練模型的數(shù)據(jù)。另一方面，與部分算法的研究成果易復(fù)現(xiàn)不同的是，復(fù)現(xiàn)基于強(qiáng)化學(xué)習(xí)的研究成果較為困難，即便是對(duì)于強(qiáng)化學(xué)習(xí)的研究者來說，需要重復(fù)實(shí)現(xiàn)已有的研究成果也十分困難。究其原因是強(qiáng)化學(xué)習(xí)對(duì)初始化和訓(xùn)練過程的動(dòng)態(tài)變化都十分敏感，其樣本數(shù)據(jù)基于在線采集的方式。如果沒有在恰當(dāng)?shù)臅r(shí)機(jī)遇到良好的訓(xùn)練樣本，可能會(huì)給策略帶來崩潰式的災(zāi)難，從而無法學(xué)習(xí)到最優(yōu)策略。隨著機(jī)器學(xué)習(xí)被應(yīng)用到實(shí)際任務(wù)中，可重復(fù)性、穩(wěn)健性以及預(yù)估錯(cuò)誤的能力變得不可缺失。8.5強(qiáng)化學(xué)習(xí)的應(yīng)用因此，就目前情況而言，對(duì)于需要持續(xù)控制的關(guān)鍵任務(wù)，強(qiáng)化學(xué)習(xí)可能并不是最理想的選擇。即便如此，依然有不少有趣的實(shí)際應(yīng)用和產(chǎn)品是基于強(qiáng)化學(xué)習(xí)的，而由強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的自適應(yīng)序列決策能夠給包括個(gè)性化、自動(dòng)化在內(nèi)的許多應(yīng)用帶來廣泛的益處和更多的可能性。8.5強(qiáng)化學(xué)習(xí)的應(yīng)用強(qiáng)化學(xué)習(xí)應(yīng)用于游戲博弈這一領(lǐng)域已有20多年歷史，其中最轟動(dòng)的莫過于谷歌DeepMind研發(fā)的阿爾法狗圍棋程序使用基于強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的蒙特卡洛樹搜索模型，并做有機(jī)融合，在圍棋比賽中擊敗了最高水平的人類選手。強(qiáng)化學(xué)習(xí)的應(yīng)用案例還有很多，例如愛奇藝使用強(qiáng)化學(xué)習(xí)處理自適應(yīng)碼流播放，使得基于智能推薦的視頻觀看率提升了15%；又如阿里巴巴使用深度強(qiáng)化學(xué)習(xí)方法求解新的三維裝箱問題，提

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《人工智能導(dǎo)論》第2版第8章創(chuàng)建智能系統(tǒng)的強(qiáng)化學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評(píng)論

《人工智能導(dǎo)論》第2版 第8章 創(chuàng)建智能系統(tǒng)的強(qiáng)化學(xué)習(xí)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《人工智能導(dǎo)論》第2版第8章創(chuàng)建智能系統(tǒng)的強(qiáng)化學(xué)習(xí)