![第9章 強(qiáng)化學(xué)習(xí)方法_第1頁(yè)](http://file4.renrendoc.com/view12/M02/1A/2E/wKhkGWbG8vSAIbJoAACtN7Z7GD0648.jpg)
![第9章 強(qiáng)化學(xué)習(xí)方法_第2頁(yè)](http://file4.renrendoc.com/view12/M02/1A/2E/wKhkGWbG8vSAIbJoAACtN7Z7GD06482.jpg)
![第9章 強(qiáng)化學(xué)習(xí)方法_第3頁(yè)](http://file4.renrendoc.com/view12/M02/1A/2E/wKhkGWbG8vSAIbJoAACtN7Z7GD06483.jpg)
![第9章 強(qiáng)化學(xué)習(xí)方法_第4頁(yè)](http://file4.renrendoc.com/view12/M02/1A/2E/wKhkGWbG8vSAIbJoAACtN7Z7GD06484.jpg)
![第9章 強(qiáng)化學(xué)習(xí)方法_第5頁(yè)](http://file4.renrendoc.com/view12/M02/1A/2E/wKhkGWbG8vSAIbJoAACtN7Z7GD06485.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
浙江省普通本科高?!笆奈濉敝攸c(diǎn)教材大語(yǔ)言模型通識(shí)大語(yǔ)言模型通識(shí)周蘇教授QQ:81505050第9章強(qiáng)化學(xué)習(xí)方法通過有監(jiān)督微調(diào),大語(yǔ)言模型初步具備了遵循人類指令完成各類型任務(wù)的能力。然而,有監(jiān)督微調(diào)需要大量指令和對(duì)應(yīng)的標(biāo)準(zhǔn)回復(fù),而獲取大量高質(zhì)量回復(fù)會(huì)耗費(fèi)大量人力和時(shí)間成本。由于有監(jiān)督微調(diào)通常目標(biāo)是調(diào)整參數(shù)使模型輸出與標(biāo)準(zhǔn)答案完全相同,不能從整體上對(duì)模型輸出質(zhì)量進(jìn)行判斷,因此,模型不能適應(yīng)自然語(yǔ)言的多樣性,也不能解決微小變化的敏感性問題。第9章強(qiáng)化學(xué)習(xí)方法強(qiáng)化學(xué)習(xí)則將模型輸出文本作為一個(gè)整體進(jìn)行考慮,其優(yōu)化目標(biāo)是使模型生成高質(zhì)量回復(fù)。此外,強(qiáng)化學(xué)習(xí)方法不依賴于人工編寫的高質(zhì)量回復(fù),其模型根據(jù)指令生成回復(fù),獎(jiǎng)勵(lì)模型針對(duì)所生成的回復(fù)給出質(zhì)量判斷。強(qiáng)化學(xué)習(xí)的模型也可以生成多個(gè)答案,獎(jiǎng)勵(lì)模型對(duì)輸出文本質(zhì)量進(jìn)行排序。模型通過生成回復(fù)并接收反饋進(jìn)行學(xué)習(xí)。強(qiáng)化學(xué)習(xí)方法更適合生成式任務(wù),也是大模型構(gòu)建中必不可少的關(guān)鍵步驟。第9章強(qiáng)化學(xué)習(xí)方法01什么是強(qiáng)化學(xué)習(xí)02與無(wú)監(jiān)督和監(jiān)督學(xué)習(xí)的區(qū)別03強(qiáng)化學(xué)習(xí)的基礎(chǔ)04強(qiáng)化學(xué)習(xí)分類目錄/CONTENTSPART01什么是強(qiáng)化學(xué)習(xí)1997年,當(dāng)“深藍(lán)”擊敗國(guó)際象棋世界冠軍加里·卡斯帕羅夫時(shí),人類權(quán)威的捍衛(wèi)者把抵御的希望寄托在了圍棋上。當(dāng)時(shí),天體物理學(xué)家,也是圍棋愛好者的皮特·赫特曾預(yù)測(cè)稱:“計(jì)算機(jī)在圍棋上擊敗人類需要一百年的時(shí)間(甚至可能更久)。”但實(shí)際上僅僅20年后,阿爾法狗(AlphaGo)就超越了人類棋手。世界冠軍柯潔說:“一年前的阿爾法狗還比較接近于人,現(xiàn)在它越來(lái)越像圍棋之神。”阿爾法狗得益于對(duì)人類棋手過去數(shù)十萬(wàn)場(chǎng)棋局的研究以及對(duì)團(tuán)隊(duì)中圍棋專家的知識(shí)提煉。9.1什么是強(qiáng)化學(xué)習(xí)后繼項(xiàng)目AlphaZero不再借助于人類輸入,它通過游戲規(guī)則自我學(xué)習(xí),在圍棋、國(guó)際象棋和日本將棋領(lǐng)域中擊敗了包括人類和機(jī)器在內(nèi)的所有對(duì)手。與此同時(shí),人類選手也在各種游戲中被人工智能系統(tǒng)擊敗,包括《危險(xiǎn)邊緣》、撲克以及電子游戲《刀塔2》《星際爭(zhēng)霸11》《雷神之錘3》。這些進(jìn)展顯示了強(qiáng)化學(xué)習(xí)的巨大作用。9.1什么是強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)的中心思想是讓智能體在環(huán)境里學(xué)習(xí),每個(gè)行動(dòng)對(duì)應(yīng)于各自的獎(jiǎng)勵(lì)。智能體通過分析數(shù)據(jù)來(lái)學(xué)習(xí),關(guān)注不同情況下應(yīng)該做怎樣的事情——這樣的學(xué)習(xí)過程和人類的自然經(jīng)歷十分相似。想象一個(gè)小孩子第一次看到火,他小心地走到火邊?!じ惺艿搅藴嘏??;鹗莻€(gè)好東西(+1)?!と缓?,試著去摸。哇,這么燙(-1)。這個(gè)嘗試所得到的結(jié)論是,在稍遠(yuǎn)的地方火是好的,靠得太近就不好——這就是人類的學(xué)習(xí)方式,與環(huán)境交互。強(qiáng)化學(xué)習(xí)也是這樣的道理。9.1.1強(qiáng)化學(xué)習(xí)的定義比如,智能體要學(xué)著玩一個(gè)新的游戲。強(qiáng)化學(xué)習(xí)過程可以用一個(gè)循環(huán)來(lái)表示:·智能體在游戲環(huán)境里獲得初始狀態(tài)S0(游戲的第一幀);·在S0的基礎(chǔ)上,智能體做出第一個(gè)行動(dòng)A0(如向右走);·環(huán)境變化,獲得新的狀態(tài)S1(A0發(fā)生后的某一幀);·環(huán)境給出第一個(gè)獎(jiǎng)勵(lì)R1(沒死或成功:+1)。于是,這個(gè)回合輸出的就是一個(gè)由狀態(tài)、獎(jiǎng)勵(lì)和行動(dòng)組成的序列,而智能體的目標(biāo)就是讓預(yù)期累積獎(jiǎng)勵(lì)最大化。9.1.1強(qiáng)化學(xué)習(xí)的定義強(qiáng)化學(xué)習(xí),又稱增強(qiáng)學(xué)習(xí)或評(píng)價(jià)學(xué)習(xí),是機(jī)器學(xué)習(xí)的一個(gè)分支,它是一種廣泛應(yīng)用于創(chuàng)建智能系統(tǒng)的模式,描述和解決智能體在與環(huán)境的交互過程中,以“試錯(cuò)”方式,通過學(xué)習(xí)策略達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)問題。強(qiáng)化學(xué)習(xí)側(cè)重于在線學(xué)習(xí)并試圖在探索和利用之間保持平衡,其目標(biāo)是使智能體在復(fù)雜且不確定的環(huán)境中,只依靠對(duì)環(huán)境的感知和偶爾的獎(jiǎng)勵(lì)情況下,對(duì)某項(xiàng)任務(wù)變得精通,使未來(lái)的獎(jiǎng)勵(lì)最大化。9.1.1強(qiáng)化學(xué)習(xí)的定義強(qiáng)化學(xué)習(xí)基本框架主要由智能體和環(huán)境兩部分組成。在強(qiáng)化學(xué)習(xí)過程中,智能體與環(huán)境不斷交互。智能體在環(huán)境中獲取某個(gè)狀態(tài)后,會(huì)根據(jù)該狀態(tài)輸出一個(gè)動(dòng)作,也稱為決策。動(dòng)作會(huì)在環(huán)境中執(zhí)行,環(huán)境會(huì)根據(jù)智能體采取的動(dòng)作,給出下一個(gè)狀態(tài)及當(dāng)前動(dòng)作帶來(lái)的獎(jiǎng)勵(lì)。由于強(qiáng)化學(xué)習(xí)涉及的知識(shí)面廣,尤其是涵蓋了諸多數(shù)學(xué)知識(shí),如貝爾曼方程、最優(yōu)控制等,更需要對(duì)強(qiáng)化學(xué)習(xí)有系統(tǒng)性的梳理與認(rèn)識(shí)。需要對(duì)強(qiáng)化學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域中的定位以及與其他機(jī)器學(xué)習(xí)之間的異同進(jìn)行辨析。9.1.1強(qiáng)化學(xué)習(xí)的定義強(qiáng)化學(xué)習(xí)問題主要在信息論、博弈論、自動(dòng)控制等領(lǐng)域討論,用于解釋有限理性條件下的平衡態(tài)、設(shè)計(jì)推薦系統(tǒng)和機(jī)器人交互系統(tǒng)。一些復(fù)雜的強(qiáng)化學(xué)習(xí)算法在一定程度上具備解決復(fù)雜問題的通用智能,可以在圍棋和電子游戲中達(dá)到人類水平。9.1.1強(qiáng)化學(xué)習(xí)的定義強(qiáng)化學(xué)習(xí)的基本原理是:如果智能體的某個(gè)行為策略導(dǎo)致環(huán)境正的獎(jiǎng)賞(強(qiáng)化信號(hào)),那么該智能體以后產(chǎn)生這個(gè)行為策略的趨勢(shì)便會(huì)加強(qiáng)。智能體的目標(biāo)是在每個(gè)離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略,以使期望的折扣獎(jiǎng)賞最大化。強(qiáng)化學(xué)習(xí)發(fā)展的兩條主線,一條是心理學(xué)上模仿動(dòng)物學(xué)習(xí)方式的試錯(cuò)法,另一條是求解最優(yōu)控制問題,兩條主線最初是獨(dú)立發(fā)展的。試錯(cuò)法二十世紀(jì)50年代末、60年代初貫穿在人工智能的發(fā)展中,一定程度上促進(jìn)了強(qiáng)化學(xué)習(xí)的發(fā)展。9.1.2強(qiáng)化學(xué)習(xí)發(fā)展歷史二十世紀(jì)80年代初期,隨著人工智能的熱潮,試錯(cuò)法被學(xué)者們廣泛研究。而求解最優(yōu)控制法則是利用動(dòng)態(tài)規(guī)劃法求解最優(yōu)值函數(shù),到二十世紀(jì)80年代末,基于時(shí)間差分法的第三條主線出現(xiàn),它吸收前兩條主線的思想,奠定了現(xiàn)代強(qiáng)化學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域中的地位(見表9-1)。9.1.2強(qiáng)化學(xué)習(xí)發(fā)展歷史表9-1強(qiáng)化學(xué)習(xí)中有影響力的算法9.1.2強(qiáng)化學(xué)習(xí)發(fā)展歷史有理由相信,深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合體——深度強(qiáng)化學(xué)習(xí)是人工智能的未來(lái)之路。智能系統(tǒng)必須能夠在沒有持續(xù)監(jiān)督信號(hào)的情況下自主學(xué)習(xí),而深度強(qiáng)化學(xué)習(xí)正是其最佳代表,能夠帶來(lái)更多發(fā)展空間與想象力。9.1.2強(qiáng)化學(xué)習(xí)發(fā)展歷史PART02與無(wú)監(jiān)督和監(jiān)督學(xué)習(xí)的區(qū)別從嚴(yán)格意義上說,阿爾法狗程序在人機(jī)圍棋對(duì)弈中打人類圍棋大師,其中對(duì)人工智能、機(jī)器學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)這3種技術(shù)都有所使用,但使用得更多的還是深度強(qiáng)化學(xué)習(xí)。所謂深度強(qiáng)化學(xué)習(xí),是在強(qiáng)化學(xué)習(xí)里加入深度神經(jīng)網(wǎng)絡(luò)。例如,Q學(xué)習(xí)是利用一個(gè)傳統(tǒng)算法創(chuàng)建Q-table,幫助智能體找到下一步要采取的行動(dòng);而DQN是利用深度神經(jīng)網(wǎng)絡(luò)來(lái)近似Q值。9.2與無(wú)監(jiān)督和監(jiān)督學(xué)習(xí)的區(qū)別機(jī)器學(xué)習(xí)方法主要分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的共同點(diǎn)是兩者都需要大量的數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,但兩者的學(xué)習(xí)方式不盡相同,兩者所需的數(shù)據(jù)類型也有差異,監(jiān)督學(xué)習(xí)需要多樣化的標(biāo)簽數(shù)據(jù),強(qiáng)化學(xué)習(xí)則需要帶有回報(bào)的交互數(shù)據(jù)。9.2與無(wú)監(jiān)督和監(jiān)督學(xué)習(xí)的區(qū)別與監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的最大不同是,強(qiáng)化學(xué)習(xí)里并沒有給定的一組數(shù)據(jù)供智能體學(xué)習(xí)。環(huán)境是不斷變化的,強(qiáng)化學(xué)習(xí)中的智能體要在變化的環(huán)境里做出一系列動(dòng)作的決策,一系列決策結(jié)合起來(lái)就是策略。強(qiáng)化學(xué)習(xí)就是通過不斷與環(huán)境互動(dòng)(不斷試錯(cuò)),更新策略的過程。9.2.1與監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)的不同強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)不同之處具體有以下5個(gè)方面。(1)沒有監(jiān)督者,只有獎(jiǎng)勵(lì)信號(hào)。監(jiān)督學(xué)習(xí)要基于大量作為訓(xùn)練與學(xué)習(xí)目標(biāo)的標(biāo)注數(shù)據(jù)進(jìn)行,而強(qiáng)化學(xué)習(xí)中沒有監(jiān)督者,它不是由已經(jīng)標(biāo)注好的樣本數(shù)據(jù)來(lái)告訴系統(tǒng)什么是最佳動(dòng)作。換言之,智能體不能夠馬上獲得監(jiān)督信號(hào),只是從環(huán)境的反饋中獲得獎(jiǎng)勵(lì)信號(hào)。(2)反饋延遲。實(shí)際上是延遲獎(jiǎng)勵(lì),環(huán)境可能不會(huì)在每一步動(dòng)作上都給與獎(jiǎng)勵(lì),有時(shí)候需要完成一連串的動(dòng)作,甚至是完成整個(gè)任務(wù)后才能獲得獎(jiǎng)勵(lì)。9.2.1與監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)的不同(3)試錯(cuò)學(xué)習(xí)。因?yàn)闆]有監(jiān)督,所以沒有直接的指導(dǎo)信息,智能體要與環(huán)境不斷進(jìn)行交互,通過試錯(cuò)的方式來(lái)獲得最優(yōu)策略。(4)智能體的動(dòng)作會(huì)影響其后續(xù)數(shù)據(jù)。智能體選擇不同動(dòng)作會(huì)進(jìn)入不同的狀態(tài)。由于強(qiáng)化學(xué)習(xí)基于馬爾可夫決策過程(當(dāng)前狀態(tài)只與上一個(gè)狀態(tài)有關(guān),與其他狀態(tài)無(wú)關(guān)),因此下一個(gè)時(shí)間步所獲得的狀態(tài)變化,環(huán)境的反饋也會(huì)隨之發(fā)生變化。(5)時(shí)間序列很重要。強(qiáng)化學(xué)習(xí)更加注重輸入數(shù)據(jù)的序列性,下一個(gè)時(shí)間步t的輸入依賴于前一個(gè)時(shí)間步t-1的狀態(tài)(即馬爾可夫?qū)傩裕?.2.1與監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)的不同強(qiáng)化學(xué)習(xí)在大模型上的重要作用可以概括為以下幾個(gè)方面。(1)相較于有監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)更有可能考慮整體影響。有監(jiān)督學(xué)習(xí)針對(duì)單個(gè)詞元進(jìn)行反饋,其目標(biāo)是要求模型針對(duì)給定的輸入給出確切的答案;而強(qiáng)化學(xué)習(xí)針對(duì)整個(gè)輸出文本進(jìn)行反饋,并不針對(duì)特定詞元。反饋粒度不同,使強(qiáng)化學(xué)習(xí)更適合大模型,既可以兼顧表達(dá)多樣性,又可以增強(qiáng)對(duì)微小變化的敏感性。自然語(yǔ)言十分靈活,可以用多種不同的方式表達(dá)相同的語(yǔ)義。9.2.2大模型環(huán)境下的強(qiáng)化學(xué)習(xí)有監(jiān)督學(xué)習(xí)很難支持上述學(xué)習(xí)方式,強(qiáng)化學(xué)習(xí)則可以允許模型給出不同的多樣性表達(dá)。另外,有監(jiān)督微調(diào)通常采用交叉熵?fù)p失作為損失函數(shù),由于總和規(guī)則,造成這種損失對(duì)個(gè)別詞元變化不敏感。改變個(gè)別詞元只會(huì)對(duì)整體損失產(chǎn)生小的影響。但是,一個(gè)否定詞可以完全改變文本的整體含義。強(qiáng)化學(xué)習(xí)則可以通過獎(jiǎng)勵(lì)函數(shù)同時(shí)兼顧多樣性和微小變化敏感性兩個(gè)方面。9.2.2大模型環(huán)境下的強(qiáng)化學(xué)習(xí)(2)強(qiáng)化學(xué)習(xí)更容易解決幻覺問題。用戶在大模型上主要有三類輸入:①文本型,用戶輸入相關(guān)文本和問題,讓模型基于所提供的文本生成答案(例如,“本文中提到的人名和地名有哪些”);②求知型,用戶僅提出問題,模型根據(jù)內(nèi)在知識(shí)提供真實(shí)回答(例如,“流感的常見原因是什么”);③創(chuàng)造型,用戶提供問題或說明,讓模型進(jìn)行創(chuàng)造性輸出(例如,“寫一個(gè)關(guān)于·的故事”)。有監(jiān)督學(xué)習(xí)算法非常容易使得求知型查詢產(chǎn)生幻覺。9.2.2大模型環(huán)境下的強(qiáng)化學(xué)習(xí)在模型并不包含或者知道答案的情況下,有監(jiān)督訓(xùn)練仍然會(huì)促使模型給出答案。而使用強(qiáng)化學(xué)習(xí)方法,則可以通過定制獎(jiǎng)勵(lì)函數(shù),將正確答案賦予非常高的分?jǐn)?shù),將放棄回答的答案賦予中低分?jǐn)?shù),將不正確的答案賦予非常高的負(fù)分,使得模型學(xué)會(huì)依賴內(nèi)部知識(shí)選擇放棄回答,從而在一定程度上緩解模型的幻覺問題。9.2.2大模型環(huán)境下的強(qiáng)化學(xué)習(xí)(3)強(qiáng)化學(xué)習(xí)可以更好地解決多輪對(duì)話獎(jiǎng)勵(lì)累積問題。多輪對(duì)話能力是大模型重要的基礎(chǔ)能力之一。多輪對(duì)話是否達(dá)成最終目標(biāo),需要考慮多次交互過程的整體情況,因此很難使用有監(jiān)督學(xué)習(xí)的方法構(gòu)建。而使用強(qiáng)化學(xué)習(xí)方法,可以通過構(gòu)建獎(jiǎng)勵(lì)函數(shù),根據(jù)整個(gè)對(duì)話的背景及連貫性對(duì)當(dāng)前模型輸出的優(yōu)劣進(jìn)行判斷。9.2.2大模型環(huán)境下的強(qiáng)化學(xué)習(xí)一般而言,監(jiān)督學(xué)習(xí)是通過對(duì)數(shù)據(jù)進(jìn)行分析,找到數(shù)據(jù)的表達(dá)模型,隨后利用該模型,在新輸入的數(shù)據(jù)上進(jìn)行決策。圖9-3為監(jiān)督學(xué)習(xí)的一般方法,主要分為訓(xùn)練階段和預(yù)測(cè)階段。
圖9-3監(jiān)督學(xué)習(xí)的一般方法9.2.3學(xué)習(xí)方式不同在訓(xùn)練階段,首先根據(jù)原始數(shù)據(jù)進(jìn)行特征提取(“特征工程”)。得到數(shù)據(jù)特征后,可以使用決策樹、隨機(jī)森林等機(jī)器學(xué)習(xí)算法去分析數(shù)據(jù)之間的關(guān)系,最終得到關(guān)于輸入數(shù)據(jù)的模型。在預(yù)測(cè)階段,同樣按照特征工程的方法抽取數(shù)據(jù)的特征,使用訓(xùn)練階段得到的模型對(duì)特征向量進(jìn)行預(yù)測(cè),最終得到數(shù)據(jù)所屬的分類標(biāo)簽。值得注意的是,驗(yàn)證模型使用驗(yàn)證集數(shù)據(jù)對(duì)模型進(jìn)行反向驗(yàn)證,確保模型的正確性和精度。9.2.3學(xué)習(xí)方式不同深度學(xué)習(xí)的一般方法與傳統(tǒng)機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的一般方法相比少了特征工程,從而大大降低了業(yè)務(wù)領(lǐng)域門檻與人力成本。
圖9-4深度學(xué)習(xí)的一般方法9.2.3學(xué)習(xí)方式不同監(jiān)督學(xué)習(xí)分為預(yù)測(cè)和訓(xùn)練兩個(gè)階段,學(xué)習(xí)只能發(fā)生在訓(xùn)練階段,該階段會(huì)出現(xiàn)一個(gè)監(jiān)督信號(hào)(即具有學(xué)習(xí)的能力,數(shù)學(xué)上稱為“差分信號(hào)”)。例如在語(yǔ)音識(shí)別任務(wù)中,需要收集大量的語(yǔ)音語(yǔ)料數(shù)據(jù)和該語(yǔ)料對(duì)應(yīng)標(biāo)注好的文本內(nèi)容。有了原始的語(yǔ)音數(shù)據(jù)和對(duì)應(yīng)的語(yǔ)音標(biāo)注數(shù)據(jù)后,可通過監(jiān)督學(xué)習(xí)方法收集數(shù)據(jù)中的模式,例如對(duì)語(yǔ)音分類、判別該語(yǔ)音音素所對(duì)應(yīng)的單詞等。9.2.3學(xué)習(xí)方式不同上述標(biāo)注語(yǔ)音文本內(nèi)容相當(dāng)于一個(gè)監(jiān)督信號(hào),等語(yǔ)音識(shí)別模型訓(xùn)練完成后,在預(yù)測(cè)階段就不再需要該監(jiān)督信號(hào),生成的語(yǔ)言識(shí)別模型僅用作新數(shù)據(jù)的預(yù)測(cè)。如果想要重新修改監(jiān)督信號(hào),則需要對(duì)語(yǔ)言識(shí)別模型進(jìn)行重新訓(xùn)練。由于監(jiān)督學(xué)習(xí)的訓(xùn)練階段非常耗時(shí),現(xiàn)在有許多學(xué)者對(duì)遷移學(xué)習(xí)進(jìn)行深入研究,以期望縮短監(jiān)督學(xué)習(xí)的訓(xùn)練時(shí)間。強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)截然不同,其學(xué)習(xí)過程與生物的自然學(xué)習(xí)過程非常類似。具體而言,智能體在與環(huán)境的互動(dòng)過程中,通過不斷探索與試錯(cuò)的方式,利用基于正/負(fù)獎(jiǎng)勵(lì)的方式進(jìn)行學(xué)習(xí)。9.2.3學(xué)習(xí)方式不同強(qiáng)化學(xué)習(xí)不需要像監(jiān)督學(xué)習(xí)那樣依賴先驗(yàn)知識(shí)數(shù)據(jù)。例如線上游戲,越來(lái)越多的用戶使用移動(dòng)終端進(jìn)行游戲,使數(shù)據(jù)的獲取來(lái)源更為廣泛。比如圍棋游戲,圍棋的棋譜可以很容易得到,這些棋譜是人類玩家的動(dòng)作行為記錄,如果只用監(jiān)督學(xué)習(xí)進(jìn)行建模,模型學(xué)習(xí)出的對(duì)弈技能很有可能只局限在所收集的有限棋譜內(nèi)。當(dāng)出現(xiàn)新的下棋方式時(shí),模型可能會(huì)因?yàn)檎也坏饺肿顑?yōu)解而使得棋力大減。9.2.4先驗(yàn)知識(shí)與標(biāo)注數(shù)據(jù)強(qiáng)化學(xué)習(xí)通過自我博弈方式產(chǎn)生更多的標(biāo)準(zhǔn)數(shù)據(jù)。在強(qiáng)化學(xué)習(xí)中,如果有基本棋譜,便可以利用系統(tǒng)自我學(xué)習(xí)和獎(jiǎng)勵(lì)的方式,系統(tǒng)自動(dòng)學(xué)習(xí)更多的棋譜或者使用兩個(gè)智能體進(jìn)行互相博弈,進(jìn)而為系統(tǒng)自身補(bǔ)充更多的棋譜信息,不受標(biāo)注數(shù)據(jù)和先驗(yàn)知識(shí)的限制。總之,強(qiáng)化學(xué)習(xí)可以利用較少的訓(xùn)練信息,讓系統(tǒng)不斷地自主學(xué)習(xí),自我補(bǔ)充更多的信息,進(jìn)而免受監(jiān)督者的限制。9.2.4先驗(yàn)知識(shí)與標(biāo)注數(shù)據(jù)另外,可以使用遷移學(xué)習(xí)來(lái)減少標(biāo)注數(shù)據(jù)的數(shù)量,因?yàn)樗谝欢ǔ潭壬贤黄屏吮O(jiān)督學(xué)習(xí)中存在的限制,提前在大量標(biāo)注數(shù)據(jù)信息中提取其高維特征,從而減少后續(xù)復(fù)用模型的輸入數(shù)據(jù)。遷移學(xué)習(xí)是把已經(jīng)訓(xùn)練好的模型參數(shù)遷移到新的模型以幫助訓(xùn)練新模型??紤]到大部分?jǐn)?shù)據(jù)或任務(wù)存在相關(guān)性,通過遷移學(xué)習(xí)可以將已經(jīng)學(xué)到的模型參數(shù)(也可理解為模型學(xué)到的知識(shí))通過某種方式分享給新模型,進(jìn)而不需要從零開始學(xué)習(xí),加快并優(yōu)化新模型的學(xué)習(xí)效率。9.2.4先驗(yàn)知識(shí)與標(biāo)注數(shù)據(jù)PART03強(qiáng)化學(xué)習(xí)的基礎(chǔ)強(qiáng)化學(xué)習(xí)的基本元素包括智能體、環(huán)境、狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì),智能體和環(huán)境間通過獎(jiǎng)勵(lì)、狀態(tài)、動(dòng)作3個(gè)信號(hào)進(jìn)行交互,不斷地根據(jù)環(huán)境的反饋信息進(jìn)行試錯(cuò)學(xué)習(xí)。。由于其交互方式與人類和環(huán)境的交互方式類似,可以認(rèn)為強(qiáng)化學(xué)習(xí)是一套通用的學(xué)習(xí)框架,用來(lái)解決通用人工智能問題,因此它也被稱為通用人工智能的機(jī)器學(xué)習(xí)方法。9.3強(qiáng)化學(xué)習(xí)的基礎(chǔ)在強(qiáng)化學(xué)習(xí)中,按智能體所處的環(huán)境,將不同的算法分成兩種類型:一種是環(huán)境已知,叫作基于模型,就是智能體已經(jīng)對(duì)環(huán)境進(jìn)行建模;另一種是環(huán)境未知,叫作免模型。9.3.1基于模型與免模型環(huán)境(1)基于模型的強(qiáng)化學(xué)習(xí)。例如,工廠載貨機(jī)器人通過傳感器感應(yīng)地面上的航線來(lái)控制其行走。由于地面上的航線是事先規(guī)劃好的,工廠的環(huán)境也是可控已知的,因此可以將其視為基于模型的任務(wù)。圖9-5基于模型的任務(wù):工廠AGV自動(dòng)載重車9.3.1基于模型與免模型環(huán)境在這些方法中,智能體使用環(huán)境的轉(zhuǎn)移模型來(lái)幫助解釋獎(jiǎng)勵(lì)信號(hào)并決定如何行動(dòng)。模型最初可能是未知的,在這種情況下,智能體通過觀測(cè)其行為的影響來(lái)學(xué)習(xí)模型;或者它也可能是已知的,例如,國(guó)際象棋程序可能知道國(guó)際象棋的規(guī)則,即便它不知道如何選擇好的走法。在部分可觀測(cè)的環(huán)境中,轉(zhuǎn)移模型對(duì)于狀態(tài)估計(jì)也是很有用的。基于模型的強(qiáng)化學(xué)習(xí)系統(tǒng)通常會(huì)學(xué)習(xí)一個(gè)運(yùn)籌學(xué)的效用(價(jià)值)函數(shù)U(s)。不過在現(xiàn)實(shí)情況下,環(huán)境的狀態(tài)轉(zhuǎn)移概率、獎(jiǎng)勵(lì)函數(shù)往往很難提前獲取,甚至很難知道環(huán)境中一共有多少個(gè)狀態(tài)。9.3.1基于模型與免模型環(huán)境(2)無(wú)模型強(qiáng)化學(xué)習(xí)。例如汽車的自動(dòng)駕駛系統(tǒng),在現(xiàn)實(shí)交通環(huán)境下,很多事情是無(wú)法預(yù)先估計(jì)的,例如路人的行為、往來(lái)車輛的行走軌跡等情況,因此可以將其視為免模型的任務(wù)。在這種方式中,智能體不知道環(huán)境的轉(zhuǎn)移模型,也不會(huì)學(xué)習(xí)它。相反,它直接學(xué)習(xí)如何采取行為方式,可以使用動(dòng)態(tài)規(guī)劃法求解。其中主要有以下兩種形式,動(dòng)作效用函數(shù)學(xué)習(xí)和策略搜索。可以使用蒙特卡洛法和時(shí)間差分法來(lái)求解,還可以使用值函數(shù)近似、梯度策略等方法。9.3.1基于模型與免模型環(huán)境在強(qiáng)化學(xué)習(xí)中,“探索”的目的是找到更多有關(guān)環(huán)境的信息,而“利用”(或者說“開發(fā)”)的目的是利用已知的環(huán)境信息來(lái)使預(yù)期累積獎(jiǎng)勵(lì)最大化。簡(jiǎn)而言之,“探索”是嘗試新的動(dòng)作行為,而“利用”則是從已知?jiǎng)幼髦羞x擇下一步的行動(dòng)。也正因如此,有時(shí)候會(huì)陷入一種困境。例如,小老鼠可以吃到無(wú)窮多塊分散的奶酪(每塊+1),但在迷宮上方有許多堆在一起的奶酪(+1000),或者看成巨型奶酪。如果我們只關(guān)心吃了多少,小老鼠就永遠(yuǎn)不會(huì)去找那些大奶酪。它只會(huì)在安全的地方一塊一塊地吃,這樣獎(jiǎng)勵(lì)累積比較慢,但它不在乎。如果它跑去遠(yuǎn)的地方,也許就會(huì)發(fā)現(xiàn)大獎(jiǎng)的存在,但也有可能發(fā)生危險(xiǎn)。9.3.2探索與利用例如在一些策略游戲中,探索階段玩家并不知道地圖上被遮蓋的地方到底有什么,敵人是否在那里,所以需要一個(gè)探路者游走于未知地圖區(qū)域進(jìn)行探索,以便能夠獲得更多地圖相關(guān)的環(huán)境知識(shí),便于玩家制定作戰(zhàn)策略。當(dāng)開拓完地圖之后,就能全面了解地圖上的環(huán)境狀態(tài)信息。接下來(lái)玩家便可以利用探索到的信息,去找到一個(gè)最優(yōu)的作戰(zhàn)策略。9.3.2探索與利用實(shí)際上,“探索”和“利用”哪個(gè)重要,以及如何權(quán)衡兩者之間的關(guān)系,是需要深入思考的。在基于模型的環(huán)境下,已經(jīng)知道環(huán)境的所有信息(環(huán)境完備信息),智能體不需要在環(huán)境中進(jìn)行探索,而只要簡(jiǎn)單利用環(huán)境中已知信息即可;可是在免模型環(huán)境下,探索和利用兩者同等重要,既需要知道更多有關(guān)環(huán)境的信息,又需要針對(duì)這些已知信息來(lái)提高獎(jiǎng)勵(lì)。9.3.2探索與利用不過,“探索”和“利用”兩者本身是矛盾的,因?yàn)樵趯?shí)際運(yùn)行中,算法能夠嘗試的次數(shù)是有限的,增加了探索的次數(shù)則利用次數(shù)會(huì)降低,反之亦然。這就是強(qiáng)化學(xué)習(xí)中的探索—利用困境。如果想要最大化累積獎(jiǎng)勵(lì),設(shè)計(jì)者需要設(shè)定一種規(guī)則,讓智能體能夠在探索和利用之間進(jìn)行權(quán)衡。9.3.2探索與利用在求解強(qiáng)化學(xué)習(xí)問題時(shí),具體還有免模型預(yù)測(cè)和免模型控制,以及基于模型預(yù)測(cè)和基于模型控制?!邦A(yù)測(cè)”的目的是驗(yàn)證未來(lái)——對(duì)于一個(gè)給定的策略,智能體需要去驗(yàn)證該策略能夠到達(dá)的理想狀態(tài)值,以確定該策略的好壞。而“控制”則是優(yōu)化未來(lái)——給出一個(gè)初始化策略,智能體希望基于該給定的初始化策略,找到一個(gè)最優(yōu)的策略。相比較而言,“預(yù)測(cè)”和“控制”是探索和利用的抽象詞語(yǔ)。預(yù)測(cè)希望在未知環(huán)境中探索更多可能的策略,然后驗(yàn)證該策略的狀態(tài)值函數(shù)??刂茖?duì)應(yīng)于利用,希望在未知環(huán)境中找到的策略中發(fā)現(xiàn)一個(gè)最好的。9.3.2探索與利用強(qiáng)化學(xué)習(xí)里的任務(wù)分兩種。(1)片段性任務(wù)。這類任務(wù)有個(gè)起點(diǎn),有個(gè)終點(diǎn)。兩者之間有一堆狀態(tài),一堆行動(dòng),一堆獎(jiǎng)勵(lì)和一堆新的狀態(tài),它們共同構(gòu)成了一“集”。當(dāng)一集結(jié)束,也就是到達(dá)終止?fàn)顟B(tài)時(shí),智能體會(huì)看一下獎(jiǎng)勵(lì)累積了多少,以此評(píng)估自己的表現(xiàn)。然后,它就帶著之前的經(jīng)驗(yàn)開始一局新游戲。這一次,智能體做決定的依據(jù)會(huì)充分一些。9.3.3片段還是連續(xù)性任務(wù)以貓鼠迷宮為例的一集:·永遠(yuǎn)從同一個(gè)起點(diǎn)開始;·如果被貓吃掉或者走了超過20步,則游戲結(jié)束;·結(jié)束時(shí),得到一系列狀態(tài)、行動(dòng)、獎(jiǎng)勵(lì)和新狀態(tài);·算出獎(jiǎng)勵(lì)的總和(看看表現(xiàn)如何);·更有經(jīng)驗(yàn)地開始新游戲。集數(shù)越多,智能體的表現(xiàn)會(huì)越好。9.3.3片段還是連續(xù)性任務(wù)(2)連續(xù)性任務(wù)。游戲永遠(yuǎn)不會(huì)結(jié)束。智能體要學(xué)習(xí)如何選擇最佳的行動(dòng),和環(huán)境進(jìn)行實(shí)時(shí)交互,就像自動(dòng)駕駛汽車。這樣的任務(wù)是通過時(shí)間差分學(xué)習(xí)來(lái)訓(xùn)練的。每一個(gè)時(shí)間步都會(huì)有總結(jié)學(xué)習(xí),并不是等到一集結(jié)束再分析結(jié)果。9.3.3片段還是連續(xù)性任務(wù)強(qiáng)化學(xué)習(xí)把學(xué)習(xí)看作試探評(píng)價(jià)過程。智能體選擇一個(gè)動(dòng)作用于環(huán)境,環(huán)境接受該動(dòng)作后狀態(tài)發(fā)生變化,同時(shí)產(chǎn)生一個(gè)強(qiáng)化信號(hào)(獎(jiǎng)或懲)反饋給智能體,智能體根據(jù)強(qiáng)化信號(hào)和環(huán)境當(dāng)前狀態(tài)再選擇下一個(gè)動(dòng)作,選擇的原則是使受到正強(qiáng)化(獎(jiǎng))的概率增大。選擇的動(dòng)作不僅影響立即強(qiáng)化值,而且影響環(huán)境下一時(shí)刻的狀態(tài)及最終的強(qiáng)化值。強(qiáng)化學(xué)習(xí)系統(tǒng)使用某種隨機(jī)單元?jiǎng)討B(tài)地調(diào)整參數(shù),以達(dá)到強(qiáng)化信號(hào)最大,智能體在可能動(dòng)作空間中進(jìn)行搜索并發(fā)現(xiàn)正確的動(dòng)作。強(qiáng)化學(xué)習(xí)的常見模型是標(biāo)準(zhǔn)的馬爾可夫決策過程(MDP)。9.3.4網(wǎng)絡(luò)模型設(shè)計(jì)強(qiáng)化學(xué)習(xí)的基本組成元素定義如下。(1)智能體:強(qiáng)化學(xué)習(xí)的本體,作為學(xué)習(xí)者或者決策者。(2)環(huán)境:強(qiáng)化學(xué)習(xí)智能體以外的一切,主要由狀態(tài)集組成。(3)狀態(tài):表示環(huán)境的數(shù)據(jù)。狀態(tài)集是環(huán)境中所有可能的狀態(tài)。(4)動(dòng)作:智能體可以做出的動(dòng)作。動(dòng)作集是智能體可以做出的所有動(dòng)作。9.3.4網(wǎng)絡(luò)模型設(shè)計(jì)(5)獎(jiǎng)勵(lì):智能體在執(zhí)行一個(gè)動(dòng)作后,獲得的正/負(fù)獎(jiǎng)勵(lì)信號(hào)。獎(jiǎng)勵(lì)集是智能體可以獲得的所有反饋信息,正/負(fù)獎(jiǎng)勵(lì)信號(hào)亦可稱作正/負(fù)反饋信號(hào)。(6)策略:從環(huán)境狀態(tài)到動(dòng)作的映射學(xué)習(xí),該映射關(guān)系稱為策略。通俗地說,智能體選擇動(dòng)作的思考過程即為策略。(7)目標(biāo):智能體自動(dòng)尋找在連續(xù)時(shí)間序列里的最優(yōu)策略,這通常指最大化長(zhǎng)期累積獎(jiǎng)勵(lì)。9.3.4網(wǎng)絡(luò)模型設(shè)計(jì)在強(qiáng)化學(xué)習(xí)中,每一個(gè)自主體由兩個(gè)神經(jīng)網(wǎng)絡(luò)模塊組成,即行動(dòng)網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)。行動(dòng)網(wǎng)絡(luò)是根據(jù)當(dāng)前的狀態(tài)而決定下一個(gè)時(shí)刻施加到環(huán)境上去的最好動(dòng)作。圖9-6強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)模型設(shè)計(jì)9.3.4網(wǎng)絡(luò)模型設(shè)計(jì)對(duì)于行動(dòng)網(wǎng)絡(luò),強(qiáng)化學(xué)習(xí)算法允許它的輸出結(jié)點(diǎn)進(jìn)行隨機(jī)搜索,有了來(lái)自評(píng)估網(wǎng)絡(luò)的內(nèi)部強(qiáng)化信號(hào)后,行動(dòng)網(wǎng)絡(luò)的輸出結(jié)點(diǎn)即可有效地完成隨機(jī)搜索,并且大大提高選擇好的動(dòng)作的可能性,同時(shí)可以在線訓(xùn)練整個(gè)行動(dòng)網(wǎng)絡(luò)。用一個(gè)輔助網(wǎng)絡(luò)來(lái)為環(huán)境建模,評(píng)估網(wǎng)絡(luò)可單步和多步預(yù)報(bào)當(dāng)前由行動(dòng)網(wǎng)絡(luò)施加到環(huán)境上的動(dòng)作強(qiáng)化信號(hào),根據(jù)當(dāng)前狀態(tài)和模擬環(huán)境預(yù)測(cè)其標(biāo)量值。可以提前向行動(dòng)網(wǎng)絡(luò)提供有關(guān)將候選動(dòng)作的強(qiáng)化信號(hào),以及更多的獎(jiǎng)懲信息(內(nèi)部強(qiáng)化信號(hào)),以減少不確定性并提高學(xué)習(xí)速度。9.3.4網(wǎng)絡(luò)模型設(shè)計(jì)進(jìn)化強(qiáng)化學(xué)習(xí)對(duì)評(píng)估網(wǎng)絡(luò)使用時(shí)序差分預(yù)測(cè)方法TD和反向傳播BP算法進(jìn)行學(xué)習(xí),而對(duì)行動(dòng)網(wǎng)絡(luò)進(jìn)行遺傳操作,使用內(nèi)部強(qiáng)化信號(hào)作為行動(dòng)網(wǎng)絡(luò)的適應(yīng)度函數(shù)。網(wǎng)絡(luò)運(yùn)算分成兩個(gè)部分,即前向信號(hào)計(jì)算和遺傳強(qiáng)化計(jì)算。在前向信號(hào)計(jì)算時(shí),對(duì)評(píng)估網(wǎng)絡(luò)采用時(shí)序差分預(yù)測(cè)方法,由評(píng)估網(wǎng)絡(luò)對(duì)環(huán)境建模,可以進(jìn)行外部強(qiáng)化信號(hào)的多步預(yù)測(cè),為行動(dòng)網(wǎng)絡(luò)提供更有效的內(nèi)部強(qiáng)化信號(hào),使它產(chǎn)生更恰當(dāng)?shù)男袆?dòng)。內(nèi)部強(qiáng)化信號(hào)使行動(dòng)網(wǎng)絡(luò)、評(píng)估網(wǎng)絡(luò)在每一步都可以進(jìn)行學(xué)習(xí),而不必等待外部強(qiáng)化信號(hào),從而大大加速了兩個(gè)網(wǎng)絡(luò)的學(xué)習(xí)。9.3.4網(wǎng)絡(luò)模型設(shè)計(jì)以采用強(qiáng)化學(xué)習(xí)方法研究未知環(huán)境下機(jī)器人導(dǎo)航問題為例,由于環(huán)境的復(fù)雜性和不確定性,這些問題變得更為復(fù)雜,因此,在強(qiáng)化學(xué)習(xí)的設(shè)計(jì)中要考慮:(1)如何表示狀態(tài)空間和動(dòng)作空間。(2)如何選擇建立信號(hào)以及如何通過學(xué)習(xí)來(lái)修正不同狀態(tài)-動(dòng)作對(duì)的值。(3)如何根據(jù)這些值來(lái)選擇合適的動(dòng)作。9.3.4網(wǎng)絡(luò)模型設(shè)計(jì)在標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)中,智能體作為學(xué)習(xí)系統(tǒng),獲取外部環(huán)境的當(dāng)前狀態(tài)信息,對(duì)環(huán)境采取試探行為并獲取環(huán)境反饋的對(duì)此動(dòng)作的評(píng)價(jià)和新的環(huán)境狀態(tài)。如果智能體的某個(gè)動(dòng)作導(dǎo)致環(huán)境正的獎(jiǎng)賞(立即報(bào)酬),那么智能體以后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)加強(qiáng);反之,智能體產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)將減弱。在學(xué)習(xí)系統(tǒng)的控制行為與環(huán)境反饋的狀態(tài)及評(píng)價(jià)的反復(fù)交互作用中,以學(xué)習(xí)方式不斷修改從狀態(tài)到動(dòng)作的映射策略,以達(dá)到優(yōu)化系統(tǒng)性能目的。學(xué)習(xí)從環(huán)境狀態(tài)到行為的映射,使得智能體選擇的行為能夠獲得環(huán)境最大的獎(jiǎng)賞,使外部環(huán)境對(duì)學(xué)習(xí)系統(tǒng)在某種意義下的評(píng)價(jià)(或整個(gè)系統(tǒng)的運(yùn)行性能)為最佳。9.3.4網(wǎng)絡(luò)模型設(shè)計(jì)強(qiáng)化學(xué)習(xí)使人們從手動(dòng)構(gòu)造行為和標(biāo)記監(jiān)督學(xué)習(xí)所需的大量數(shù)據(jù)集(或不得不人工編寫控制策略)中解脫了出來(lái)。它在機(jī)器人技術(shù)中的應(yīng)用中特別有價(jià)值,該領(lǐng)域需要能夠處理連續(xù)、高維、部分可觀測(cè)環(huán)境的方法,在這樣的環(huán)境中,成功的行為可能包含成千上萬(wàn)的基元?jiǎng)幼鳌?.3.5數(shù)據(jù)依賴性強(qiáng)化學(xué)習(xí)的方法有很多且錯(cuò)綜復(fù)雜,這是因?yàn)椴⒉淮嬖谝环N公認(rèn)的最佳方法。(1)智能體整體的設(shè)計(jì)限制了學(xué)習(xí)所需的信息類型。·基于模型的強(qiáng)化學(xué)習(xí)智能體需要(或者配備有)環(huán)境的轉(zhuǎn)移模型,并學(xué)習(xí)效用函數(shù)?!o(wú)模型強(qiáng)化學(xué)習(xí)智能體可以學(xué)習(xí)一個(gè)動(dòng)作效用函數(shù)或?qū)W習(xí)一個(gè)策略?;谀P秃蜔o(wú)模型方法相比,核心問題是智能體函數(shù)的最佳表示方式。隨著環(huán)境變得更加復(fù)雜,基于模型方法的優(yōu)勢(shì)將變得越發(fā)明顯。9.3.5數(shù)據(jù)依賴性(2)效用函數(shù)可以通過如下幾種方法進(jìn)行學(xué)習(xí)?!ぶ苯有в霉烙?jì)將觀測(cè)到的總獎(jiǎng)勵(lì)用于給定狀態(tài),作為學(xué)習(xí)其效用的樣本直接來(lái)源?!ぷ赃m應(yīng)動(dòng)態(tài)規(guī)劃(ADP)從觀測(cè)中學(xué)習(xí)模型和獎(jiǎng)勵(lì)函數(shù),然后使用價(jià)值或策略迭代來(lái)獲得效用或最優(yōu)策略。ADP較好地利用了環(huán)境的鄰接結(jié)構(gòu)作為狀態(tài)效用的局部約束。9.3.5數(shù)據(jù)依賴性·時(shí)序差分(TD)方法調(diào)整效用估計(jì),使其與后繼狀態(tài)的效用估計(jì)相一致。它是ADP方法的一個(gè)簡(jiǎn)單近似,且學(xué)習(xí)時(shí)不需要預(yù)先知道轉(zhuǎn)移模型。此外,使用一個(gè)學(xué)習(xí)模型來(lái)產(chǎn)生偽經(jīng)驗(yàn)可以學(xué)習(xí)得更快。9.3.5數(shù)據(jù)依賴性(3)可以通過ADP方法或TD方法學(xué)習(xí)動(dòng)作效用函數(shù)。在使用TD方法時(shí),在學(xué)習(xí)或動(dòng)作選擇階段都不需要模型,簡(jiǎn)化了學(xué)習(xí)問題,但同時(shí)潛在地限制了它在復(fù)雜環(huán)境中的學(xué)習(xí)能力,因?yàn)橹悄荏w無(wú)法模擬可能的動(dòng)作過程的結(jié)果。進(jìn)行動(dòng)作選擇時(shí),它必須在這些動(dòng)作的價(jià)值估計(jì)的有用新信息之間進(jìn)行權(quán)衡。探索問題的精確解是無(wú)法獲得的,但一些簡(jiǎn)單的啟發(fā)式可以給出一個(gè)合理的結(jié)果。同時(shí)探索性智能體也必須注意避免過早陷入終止態(tài)。9.3.5數(shù)據(jù)依賴性(4)在大的狀態(tài)空間中,強(qiáng)化學(xué)習(xí)算法必須進(jìn)行函數(shù)近似表示,以便在狀態(tài)空間進(jìn)行泛化。深度強(qiáng)化學(xué)習(xí)采用深度神經(jīng)網(wǎng)絡(luò)作為近似函數(shù),已經(jīng)在一些困難問題上取得了相當(dāng)大的成功。獎(jiǎng)勵(lì)設(shè)計(jì)和分層強(qiáng)化學(xué)習(xí)有助于學(xué)習(xí)復(fù)雜的行為,特別是在獎(jiǎng)勵(lì)稀少且需要長(zhǎng)動(dòng)作序列才能獲得獎(jiǎng)勵(lì)的情況下。(5)策略搜索方法直接對(duì)策略的表示進(jìn)行操作,并試圖根據(jù)觀測(cè)到的表現(xiàn)對(duì)其進(jìn)行改進(jìn),在隨機(jī)領(lǐng)域中,性能的劇烈變化是一個(gè)嚴(yán)重的問題,而在模擬領(lǐng)域中可以通過預(yù)先固定隨機(jī)程度來(lái)克服這個(gè)難點(diǎn)。9.3.5數(shù)據(jù)依賴性(6)難以獲得正確的獎(jiǎng)勵(lì)函數(shù)時(shí),通過觀測(cè)專家行為進(jìn)行學(xué)徒學(xué)習(xí)是一種有效的解決方案,模仿學(xué)習(xí)將問題轉(zhuǎn)換為從專家的狀態(tài)-動(dòng)作對(duì)中進(jìn)行學(xué)習(xí)的監(jiān)督學(xué)習(xí)問題,逆強(qiáng)化學(xué)習(xí)從專家的行為中推斷有關(guān)獎(jiǎng)勵(lì)函數(shù)的信息。9.3.5數(shù)據(jù)依賴性PART04強(qiáng)化學(xué)習(xí)分類在強(qiáng)化學(xué)習(xí)中,智能體是在沒有“老師”的情況下,通過考慮自己的最終成功或失敗,根據(jù)獎(jiǎng)勵(lì)與懲罰,主動(dòng)地從自己的經(jīng)驗(yàn)中學(xué)習(xí),以使未來(lái)的獎(jiǎng)勵(lì)最大化。按給定條件,強(qiáng)化學(xué)習(xí)可分為基于模式強(qiáng)化學(xué)習(xí)和無(wú)模式強(qiáng)化學(xué)習(xí),以及主動(dòng)強(qiáng)化學(xué)習(xí)和被動(dòng)強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的變體包括逆向強(qiáng)化學(xué)習(xí)、階層強(qiáng)化學(xué)習(xí)和部分可觀測(cè)系統(tǒng)的強(qiáng)化學(xué)習(xí)。求解強(qiáng)化學(xué)習(xí)問題所使用的算法可分為策略搜索算法和值函數(shù)算法兩類。在強(qiáng)化學(xué)習(xí)中使用深度學(xué)習(xí)模型,形成了深度強(qiáng)化學(xué)習(xí)。9.4強(qiáng)化學(xué)習(xí)分類考慮學(xué)習(xí)下國(guó)際象棋的問題。我們首先將其視為監(jiān)督學(xué)習(xí)問題。下棋智能體函數(shù)把棋盤局面作為輸入并返回對(duì)應(yīng)的棋子招式,因此,我們通過為它提供關(guān)于國(guó)際象棋棋盤局面的樣本來(lái)訓(xùn)練此函數(shù),其中每個(gè)樣本都標(biāo)有正確的走法。假設(shè)我們恰好有一個(gè)可用數(shù)據(jù)庫(kù),其中包括數(shù)百萬(wàn)局象棋大師的對(duì)局,每場(chǎng)對(duì)局都包含一系列的局面和走法。除少數(shù)例外,我們認(rèn)為獲勝者的招式即便不總是完美的,但也是較好的。因此,我們得到了一個(gè)很有前途的訓(xùn)練集。9.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)現(xiàn)在的問題在于,與所有可能的國(guó)際象棋局面構(gòu)成的空間(約1040個(gè))相比,樣本相當(dāng)少(約108個(gè))。在新的對(duì)局中,人們很快就會(huì)遇到與數(shù)據(jù)庫(kù)中的局面明顯不同的局面。那么,此時(shí)經(jīng)過訓(xùn)練的智能體很可能會(huì)失效——不僅是因?yàn)樗恢雷约合缕宓哪繕?biāo)是什么(把對(duì)手將死),它甚至不知道這些招式對(duì)棋子的局面有什么影響。當(dāng)然,國(guó)際象棋只是真實(shí)世界的一小部分。對(duì)于更加實(shí)際的問題,我們需要更大的專業(yè)數(shù)據(jù)庫(kù),而它們實(shí)際上并不存在。9.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)取而代之的另一種選擇是使用強(qiáng)化學(xué)習(xí),在這種學(xué)習(xí)中,智能體將與世界進(jìn)行互動(dòng),并不時(shí)收到反映其表現(xiàn)的獎(jiǎng)勵(lì)(強(qiáng)化)。例如,在國(guó)際象棋中,獲勝的獎(jiǎng)勵(lì)為1,失敗的獎(jiǎng)勵(lì)為0,平局的獎(jiǎng)勵(lì)為1/2。強(qiáng)化學(xué)習(xí)的目標(biāo)也是相同的:最大化期望獎(jiǎng)勵(lì)總和。強(qiáng)化學(xué)習(xí)不同于“僅僅解決MDP(馬爾可夫決策過程)”,因?yàn)橹悄荏w沒有將MDP作為待解決的問題,智能體本身處于MDP中。它可能不知道轉(zhuǎn)移模型或獎(jiǎng)勵(lì)函數(shù),它必須采取行動(dòng)以了解更多信息。9.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)想象一下,你正在玩一個(gè)你不了解規(guī)則的新游戲,那么在采取若干個(gè)行動(dòng)后,裁判會(huì)告訴你“你輸了”。這個(gè)簡(jiǎn)單的例子就是強(qiáng)化學(xué)習(xí)的一個(gè)縮影。從人工智能系統(tǒng)設(shè)計(jì)者的角度看來(lái),向智能體提供獎(jiǎng)勵(lì)信號(hào)通常比提供有標(biāo)簽的行動(dòng)樣本要容易得多。首先,獎(jiǎng)勵(lì)函數(shù)通常非常簡(jiǎn)潔且易于指定;它只需幾行代碼就可以告訴國(guó)際象棋智能體這局比賽是贏了還是輸了,或者告訴賽車智能體它贏得或輸?shù)袅吮荣?,或者它崩潰了。其次,我們不必是相關(guān)領(lǐng)域的專家,即不需要能在任何情況下提供正確動(dòng)作,但如果我們?cè)噲D應(yīng)用監(jiān)督學(xué)習(xí)的方法,那么這些將是必要的。9.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)然而,事實(shí)證明,一點(diǎn)點(diǎn)的專業(yè)知識(shí)對(duì)強(qiáng)化學(xué)習(xí)會(huì)有很大的幫助??紤]國(guó)際象棋和賽車比賽的輸贏獎(jiǎng)勵(lì)(被稱為稀疏獎(jiǎng)勵(lì)),因?yàn)樵诮^大多數(shù)狀態(tài)下,智能體根本沒有得到任何有信息量的獎(jiǎng)勵(lì)信號(hào)。在網(wǎng)球和板球等游戲中,我們可以輕松地為每次擊球得分與跑壘得分提供額外的獎(jiǎng)勵(lì)。在賽車比賽中,我們可以獎(jiǎng)勵(lì)在賽道上朝著正確方向前進(jìn)的智能體。在學(xué)習(xí)爬行時(shí),任何向前的運(yùn)動(dòng)都是一種進(jìn)步。這些中間獎(jiǎng)勵(lì)將使學(xué)習(xí)變得更加容易。9.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)只要我們可以為智能體提供正確的獎(jiǎng)勵(lì)信號(hào),強(qiáng)化學(xué)習(xí)就提供了一種非常通用的構(gòu)建人工智能系統(tǒng)的方法。對(duì)模擬環(huán)境來(lái)說尤其如此,因?yàn)樵谶@種情況下,我們不乏獲得經(jīng)驗(yàn)的機(jī)會(huì)。在強(qiáng)化學(xué)習(xí)系統(tǒng)中引入深度學(xué)習(xí)作為工具,也使新的應(yīng)用成為可能,其中包括從原始視覺輸入學(xué)習(xí)玩電子游戲、控制機(jī)器人以及玩紙牌游戲。9.4.1從獎(jiǎng)勵(lì)中學(xué)習(xí)考慮一個(gè)簡(jiǎn)單情形:有少量動(dòng)作和狀態(tài),且環(huán)境完全可觀測(cè),其中智能體已經(jīng)有了能決定其動(dòng)作的固定策略。智能體將嘗試學(xué)習(xí)效用函數(shù)——從狀態(tài)出發(fā),采用策略得到的期望總折扣獎(jiǎng)勵(lì),稱之為被動(dòng)學(xué)習(xí)智能體。被動(dòng)學(xué)習(xí)任務(wù)類似于策略評(píng)估任務(wù),可以將其表述為直接效用估計(jì)、自適應(yīng)動(dòng)態(tài)規(guī)劃和時(shí)序差分學(xué)習(xí)。9.4.2被動(dòng)強(qiáng)化學(xué)習(xí)被動(dòng)學(xué)習(xí)智能體有一個(gè)固定的策略來(lái)決定其行為,而主動(dòng)學(xué)習(xí)智能體可以自主決定采取
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度辦公室翻新與餐飲店改造設(shè)計(jì)施工合同
- 二零二五年度城市公共安全報(bào)警系統(tǒng)電路升級(jí)改造合同
- 提取公積金借款合同
- 銷售抵押合同
- 電商零售平臺(tái)開發(fā)合同
- 個(gè)人理財(cái)指南
- 農(nóng)產(chǎn)品公共檢測(cè)與溯源體系建設(shè)作業(yè)指導(dǎo)書
- 質(zhì)量管理工具與方法應(yīng)用作業(yè)指導(dǎo)書
- 平面設(shè)計(jì)聘用合同
- 2025年廣西貨運(yùn)考試題目
- 長(zhǎng)江委水文局2025年校園招聘17人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年湖南韶山干部學(xué)院公開招聘15人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 廣東省廣州市番禺區(qū)2023-2024學(xué)年七年級(jí)上學(xué)期期末數(shù)學(xué)試題
- 不可切除肺癌放療聯(lián)合免疫治療專家共識(shí)(2024年版)j解讀
- DB23/T 3657-2023醫(yī)養(yǎng)結(jié)合機(jī)構(gòu)服務(wù)質(zhì)量評(píng)價(jià)規(guī)范
- 教科版科學(xué)六年級(jí)下冊(cè)14《設(shè)計(jì)塔臺(tái)模型》課件
- 智研咨詢發(fā)布:2024年中國(guó)MVR蒸汽機(jī)械行業(yè)市場(chǎng)全景調(diào)查及投資前景預(yù)測(cè)報(bào)告
- 法規(guī)解讀丨2024新版《突發(fā)事件應(yīng)對(duì)法》及其應(yīng)用案例
- JGJ46-2024 建筑與市政工程施工現(xiàn)場(chǎng)臨時(shí)用電安全技術(shù)標(biāo)準(zhǔn)
- 煙花爆竹重大危險(xiǎn)源辨識(shí)AQ 4131-2023知識(shí)培訓(xùn)
- 企業(yè)動(dòng)火作業(yè)安全管理制度范文
評(píng)論
0/150
提交評(píng)論