版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
生成對抗網(wǎng)絡(luò)及自動駕駛應(yīng)用第九章DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第2頁9.4實踐項目9.1生成式對抗網(wǎng)絡(luò)概述9.3生成對抗網(wǎng)絡(luò)應(yīng)用9.2生成式對抗網(wǎng)絡(luò)基本理論目錄ContentDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第3頁9.1生成式對抗網(wǎng)絡(luò)概述什么是對抗?在射雕英雄傳中,老頑童周伯通被困在桃花島,閑的無聊,自創(chuàng)了左右手互搏術(shù),左手打右手,右手打左手,雙手的武功不斷精進。這就是對抗在現(xiàn)實世界里沒有左右手互搏術(shù),但在人工智能的世界里卻有,這就是GAN,中文名字:生成對抗網(wǎng)絡(luò)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第4頁9.1生成式對抗網(wǎng)絡(luò)概述生成對抗網(wǎng)絡(luò)能干啥?2018年10月,一幅肖像畫在紐約佳士得以43萬美元的高價被成功拍賣作者為GANDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第5頁9.1生成式對抗網(wǎng)絡(luò)概述生成對抗網(wǎng)絡(luò)能干啥?如果將GAN比作一個人的話,書法、作畫、譜曲,樣樣都可以做到精通,就像他的名字“生成對抗網(wǎng)絡(luò)”一樣,他的誕生就是為了生成、為了創(chuàng)作。GAN有哪些應(yīng)用?DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第6頁9.1生成式對抗網(wǎng)絡(luò)概述深度學(xué)習(xí)中常見生成式模型自編碼(AE)其隱變量z是一個單值映射:z=f(x)變分自編碼(VAE)其隱變量z是一個正態(tài)分布的采樣生成式對抗網(wǎng)絡(luò)(GAN)條件生成式對抗網(wǎng)絡(luò)(CGAN)在生成器和判別器中添加某一標(biāo)簽信息深度卷積生成式對抗網(wǎng)絡(luò)(DCGAN)判別器和生成器都使用了卷積神經(jīng)網(wǎng)絡(luò)(CNN)來替代GAN
中的多層感知機DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第7頁9.1生成式對抗網(wǎng)絡(luò)概述GAN起源GAN(GenerativeAdversarialNetworks),中文翻譯為生成式對抗網(wǎng)絡(luò),是IanGoodfellow等在2014年提出的一種生成式模型。GAN的基本思想源自博弈論的二人零和博弈,由一個生成器和一個判別器構(gòu)成,通過對抗學(xué)習(xí)的方式來訓(xùn)練.目的是估測數(shù)據(jù)樣本的潛在分布并生成新的數(shù)據(jù)樣本。2001年,TonyJebara在畢業(yè)論文中以最大熵形式將判別模型與生成模型結(jié)合起來聯(lián)合學(xué)習(xí)2007年,ZhuowenTu提出將基于boosting分類器的判別模型與基于采樣的生成模型相結(jié)合,來產(chǎn)生出服從真實分布的樣本。2012年,JunZhu將最大間隔機制與貝葉斯模型相結(jié)合進行產(chǎn)生式模型的學(xué)習(xí)。2014年,IanGoodfellow等人提出生成式對抗網(wǎng)絡(luò),迎合了大數(shù)據(jù)需求和深度學(xué)習(xí)熱潮,給出了一個大的理論框架及理論收斂性分析。起源發(fā)展DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第8頁9.1生成式對抗網(wǎng)絡(luò)概述
GAN的核心思想來源于博弈論的納什均衡它設(shè)定參與游戲雙方分別為一個生成器(Generator)和一個判別器(Discriminator),生成器的目的是盡量去學(xué)習(xí)真實的數(shù)據(jù)分布,而判別器的目的是盡量正確判別輸入數(shù)據(jù)是來自真實數(shù)據(jù)還是來自生成器;為了取得游戲勝利,這兩個游戲參與者需要不斷優(yōu)化,各自提高自己的生成能力和判別能力,這個學(xué)習(xí)優(yōu)化過程就是尋找二者之間的一個納什均衡。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第9頁9.1生成式對抗網(wǎng)絡(luò)概述DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第10頁9.4實踐項目9.1生成式對抗網(wǎng)絡(luò)概述9.3生成對抗網(wǎng)絡(luò)應(yīng)用9.2生成式對抗網(wǎng)絡(luò)基本理論目錄ContentDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第11頁9.2生成式對抗網(wǎng)絡(luò)基本理論生成對抗模型的特性——博弈生成器的目標(biāo):接收隨機向量,生成與真實樣本盡可能相似的樣本。判別器的目標(biāo):接收生成器生成的樣本和真實樣本,盡可能地判斷兩者之間的真假。納什均衡:生成器和判別器都能得到最多的好處DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第12頁9.2生成式對抗網(wǎng)絡(luò)基本理論GAN應(yīng)用的一般框架隨機變量+真實數(shù)據(jù)+生成器+判別器
一般為二分類網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)根據(jù)生成內(nèi)容定義DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第13頁9.2生成式對抗網(wǎng)絡(luò)基本理論訓(xùn)練過程訓(xùn)練過程中,固定一方,更新另一方的網(wǎng)絡(luò)權(quán)重,交替迭代。那么先訓(xùn)練誰呢?生成器學(xué)生:負(fù)責(zé)產(chǎn)出內(nèi)容判別器老師:負(fù)責(zé)評判分?jǐn)?shù)先訓(xùn)練判別器。1、樣本直接輸入到判別器之中。2、只有判別器具有一定的判斷能力后,生成器的訓(xùn)練才有意義。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第14頁9.2生成式對抗網(wǎng)絡(luò)基本理論使用步驟建立模型生成器和判別器網(wǎng)絡(luò)訓(xùn)練過程損失函數(shù)參數(shù)學(xué)習(xí)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第15頁9.2生成式對抗網(wǎng)絡(luò)基本理論常用:交叉熵?fù)p失函數(shù)判別器目標(biāo)函數(shù):對于真實樣本,其標(biāo)簽值為1,那么其單個樣本損失函數(shù)就是同理可得生成器輸出樣本的總體損失函數(shù),判別器的目標(biāo)函數(shù)定義如下其中,D(x)表示判別器輸出的真實圖像的概率分布,D(G(z))表示判別器輸出的生成器生成圖像的概率分布。
真實樣本的總體損失函數(shù)是
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第16頁9.2生成式對抗網(wǎng)絡(luò)基本理論模型總目標(biāo)函數(shù)對于判別器,我們盡可能地希望其分類正確,但是對于生成器而言,我們又希望D(G(z))越接近1越好,所以GAN網(wǎng)絡(luò)的目標(biāo)函數(shù)如下所示
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第17頁9.2生成式對抗網(wǎng)絡(luò)基本理論使用步驟GAN的主要分支-CGANCGAN--條件生成對抗網(wǎng)絡(luò),為了防止訓(xùn)練崩塌將前置條件加入輸入數(shù)據(jù)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第18頁9.2生成式對抗網(wǎng)絡(luò)基本理論使用步驟DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第19頁9.2生成式對抗網(wǎng)絡(luò)基本理論使用步驟GAN的主要分支-DCGANDCGAN--深度卷積生成對抗網(wǎng)絡(luò),提出了能穩(wěn)定訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu),更易于工程實現(xiàn)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第20頁9.2生成式對抗網(wǎng)絡(luò)基本理論使用步驟GAN的主要分支-CGANCGAN--條件生成對抗網(wǎng)絡(luò),為了防止訓(xùn)練崩塌將前置條件加入輸入數(shù)據(jù)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第21頁9.2生成式對抗網(wǎng)絡(luò)基本理論使用步驟DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第22頁9.4實踐項目9.1生成式對抗網(wǎng)絡(luò)概述9.3生成對抗網(wǎng)絡(luò)應(yīng)用9.2生成式對抗網(wǎng)絡(luò)基本理論目錄ContentDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第23頁9.3生成對抗網(wǎng)絡(luò)應(yīng)用GAN的應(yīng)用
圖像和視覺領(lǐng)域語音和語言領(lǐng)域其他領(lǐng)域作為一個具有“無限”生成能力的模型,GAN的直接應(yīng)用就是建模,生成與真實數(shù)據(jù)分布一致的數(shù)據(jù)樣本,GAN可以用于解決標(biāo)注數(shù)據(jù)不足時的學(xué)習(xí)問題。其可以應(yīng)用于:DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第24頁9.3生成對抗網(wǎng)絡(luò)應(yīng)用圖像和視覺領(lǐng)域GAN能夠生成與真實數(shù)據(jù)分布一致的圖像。一個典型應(yīng)用是利用GAN來將一個低清模糊圖像變換為具有豐富細(xì)節(jié)的高清圖像。用VGG網(wǎng)絡(luò)作為判別器,用參數(shù)化的殘差網(wǎng)絡(luò)表示生成器,實驗結(jié)果如圖所示,可以看到GAN生成了細(xì)節(jié)豐富的圖像。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第25頁9.3生成對抗網(wǎng)絡(luò)應(yīng)用語音和語言領(lǐng)域用GAN來表征對話之間的隱式關(guān)聯(lián)性,從而生成對話文本。用CNN作為判別器,判別器基于擬合LSTM的輸出,用矩匹配來解決優(yōu)化問題;在訓(xùn)練時,和傳統(tǒng)更新多次判別器參數(shù)再更新一次生成器不同,需要多次更新生成器再更新CNN判別器。SeqGAN基于策略梯度來訓(xùn)練生成器。用GAN基于文本描述來生成圖像,文本編碼被作為生成器的條件輸入,同時為了利用文本編碼信息,也將其作為判別器特定層的額外信息輸入來改進判別器,判別是否滿足文本描述的準(zhǔn)確率。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第26頁9.3生成對抗網(wǎng)絡(luò)應(yīng)用其他領(lǐng)域除了將GAN應(yīng)用于圖像和視覺、語音和語言等領(lǐng)域,GAN還可以與強化學(xué)習(xí)、模仿學(xué)習(xí)等相合。有人提出用MalGAN幫助檢測惡意代碼,用GAN生成具有對抗性的病毒代碼樣本,實驗結(jié)果表明基于GAN的方法可以比傳統(tǒng)基于黑盒檢測模型的方法性能更好。也有人提出了一個擴展GAN的生成器,用判別器來正則化生成器而不是用一個損失函數(shù),用國際象棋實驗示例證明了所提方法的有效性。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第27頁9.3生成對抗網(wǎng)絡(luò)應(yīng)用GAN的優(yōu)點和意義GAN對于生成式模型的發(fā)展具有重要的意義。GAN作為一種生成式方法,有效解決了可建立自然性解釋的數(shù)據(jù)的生成難題。GAN的訓(xùn)練過程創(chuàng)新性地將兩個神經(jīng)網(wǎng)絡(luò)的對抗作為訓(xùn)練準(zhǔn)則并且可以使用反向傳播進行訓(xùn)練,大大改善了生成式模型的訓(xùn)練難度和訓(xùn)練效率。GAN在生成樣本的實踐中,生成的樣本易于人類理解。GAN除了對生成式模型的貢獻(xiàn),對于半監(jiān)督學(xué)習(xí)也有啟發(fā)。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第28頁9.3生成對抗網(wǎng)絡(luò)應(yīng)用GAN的缺陷GAN雖然解決了生成式模型的一些問題,并且對其他方法的發(fā)展具有一定的啟發(fā)意義,但是GAN并不完美,它在解決已有問題的同時也引入了一些新的問題。GAN優(yōu)化過程存在不穩(wěn)定性,很容易陷入到一個鞍點或局部極值點上,即“崩潰模式現(xiàn)象”。GAN作為以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的生成式模型,存在神經(jīng)網(wǎng)絡(luò)類模型的一般性缺陷,即可解釋性差。GAN模型需要提高延展性,尤其在處理大規(guī)模數(shù)據(jù)的時候。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第29頁9.3生成對抗網(wǎng)絡(luò)應(yīng)用GAN的發(fā)展前景GAN的研究進展表明它具有廣闊的發(fā)展前景,未來研究方向可以是:如何徹底解決崩潰模式并繼續(xù)優(yōu)化訓(xùn)練過程。關(guān)于GAN收斂性和均衡點存在性的理論推斷。如何將GAN與特征學(xué)習(xí)、模仿學(xué)習(xí)、強化學(xué)習(xí)等技術(shù)更好地融合,開發(fā)新的人工智能應(yīng)用或者促進這些方法的發(fā)展。DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第30頁9.3生成對抗網(wǎng)絡(luò)應(yīng)用GAN的應(yīng)用
圖像和視覺領(lǐng)域語音和語言領(lǐng)域其他領(lǐng)域作為一個具有“無限”生成能力的模型,GAN的直接應(yīng)用就是建模,生成與真實數(shù)據(jù)分布一致的數(shù)據(jù)樣本,GAN可以用于解決標(biāo)注數(shù)據(jù)不足時的學(xué)習(xí)問題。其可以應(yīng)用于:DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第31頁9.4實踐項目9.1生成式對抗網(wǎng)絡(luò)概述9.3生成對抗網(wǎng)絡(luò)應(yīng)用9.2生成式對抗網(wǎng)絡(luò)基本理論目錄ContentThanks!DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第32頁第九章生成對抗網(wǎng)絡(luò)謝謝!本章總結(jié)與答疑強化學(xué)習(xí)理論及自動駕駛應(yīng)用實踐第十章DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第34頁10.4策略梯度強化學(xué)習(xí)方法10.1強化學(xué)習(xí)概述10.3表格型強化學(xué)習(xí)方法10.2強化學(xué)習(xí)基礎(chǔ)理論10.5實踐項目目錄ContentDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第35頁10.1強化學(xué)習(xí)概述機器學(xué)習(xí)回顧無監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)機器學(xué)習(xí)分類回歸……聚類……DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第36頁10.1強化學(xué)習(xí)概述機器學(xué)習(xí)與其他機器學(xué)習(xí)的關(guān)系DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第37頁10.1強化學(xué)習(xí)概述機器學(xué)習(xí)系統(tǒng)兩部分三要素環(huán)境智能體狀態(tài)/觀測值動作獎勵DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第38頁10.1強化學(xué)習(xí)概述MountainCar環(huán)境:整個游戲智能體:小車動作:向左施力、向右施力、不施力獎勵信號:是否到達(dá)右側(cè)山峰旗幟處狀態(tài):小車的位置MountainCar兩部分三要素環(huán)境智能體狀態(tài)/觀測值動作獎勵DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第39頁10.1強化學(xué)習(xí)概述強化學(xué)習(xí)目標(biāo)智能體唯一目標(biāo):最大化長期總收益策略價值函數(shù)價值函數(shù)環(huán)境建模(可選)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第40頁10.1強化學(xué)習(xí)概述監(jiān)督學(xué)習(xí)玩MountainCar神經(jīng)網(wǎng)絡(luò)各方向施力的概率反向傳播在MountainCar中,無法定義正確動作的標(biāo)簽。即使定義了標(biāo)簽,數(shù)據(jù)之間的序貫性也使得模型難以訓(xùn)練DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第41頁10.1強化學(xué)習(xí)概述強化學(xué)習(xí)玩MountainCar右施力右施力右施力不施力右施力不施力左施力左施力勝利右施力左施力左施力不施力右施力失敗左施力左施力不施力右施力右施力右施力失敗右施力右施力左施力右施力左施力不施力右施力勝利可能的序列:讓智能體嘗試游玩,對狀態(tài)、動作進行采樣,游戲結(jié)束后對每個動作進行獎懲DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第42頁10.1強化學(xué)習(xí)概述強化學(xué)習(xí)面臨的問題右施力右施力右施力不施力右施力不施力左施力左施力勝利右施力左施力左施力不施力右施力失敗左施力左施力不施力右施力右施力右施力失敗右施力右施力左施力右施力左施力不施力右施力勝利可能的序列:1.輸入的數(shù)據(jù)間具有強烈的序貫性2.訓(xùn)練過程中存在獎勵延遲現(xiàn)象DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第43頁10.1強化學(xué)習(xí)概述強化學(xué)習(xí)學(xué)習(xí)方式探索與利用舊飯店吃好吃的探索新飯店優(yōu)秀的探店博主應(yīng)用層DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第44頁10.1強化學(xué)習(xí)概述按環(huán)境模型分類環(huán)境建模(可選)基于模型無模型1.動態(tài)規(guī)劃2.…1.Q-learning2.DQN3.…DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第45頁10.1強化學(xué)習(xí)概述按學(xué)習(xí)目標(biāo)分類對智能體的訓(xùn)練可以分為基于價值和基于策略策略價值函數(shù)價值函數(shù)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第46頁10.1強化學(xué)習(xí)概述按學(xué)習(xí)目標(biāo)分類確定性策略隨機性策略DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第47頁10.1強化學(xué)習(xí)概述強化學(xué)習(xí)分類強化學(xué)習(xí)有模型無模型基于價值基于策略動態(tài)規(guī)劃……Q-learning……策略梯度……DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第48頁10.2強化學(xué)習(xí)基礎(chǔ)理論馬爾可夫過程(MP)馬爾科夫性質(zhì):一個隨機過程在給定現(xiàn)在狀態(tài)和所有過去狀態(tài)的情況下,其未來狀態(tài)的條件概率分布僅依賴于當(dāng)前狀態(tài)馬爾科夫過程:一個滿足馬爾科夫性質(zhì)的隨機過程。其未來的轉(zhuǎn)移和過去是獨立的DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第49頁10.2強化學(xué)習(xí)基礎(chǔ)理論機器人回收問題回收機器人狀態(tài)高電平低電平動作搜索等待充電DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第50頁10.2強化學(xué)習(xí)基礎(chǔ)理論馬爾可夫決策過程(MDP)
p=1r=0a=充電高低a=搜索p=1-βr=-3p=βr=1a=等待p=1r=-1a=搜索p=αr=1p=1-αr=1a=等待p=1r=-1sas’P(s’|s,a)R(s,a,s’)高搜索高α1高搜索低1-α1低搜索高1-β-3低搜索低β1高等待高1-1高等待低0-1低等待高0-1低等待低1-1低充電高10低充電低00狀態(tài)轉(zhuǎn)移過程折扣累計回報
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第51頁10.2強化學(xué)習(xí)基礎(chǔ)理論值函數(shù)狀態(tài)值函數(shù)動作值函數(shù)s0(r1,s1)(r3,s3)s0(r2,s2)(r4,s4)
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第52頁10.2強化學(xué)習(xí)基礎(chǔ)理論有模型方法α與β均為已知參數(shù),問題的全局信息已知。智能體無需與環(huán)境進行互動。此時問題為一動態(tài)規(guī)劃問題,可以很方便求解。通過策略迭代方法或值迭代方法求解狀態(tài)值函數(shù)V,從而獲得最優(yōu)解。有模型強化學(xué)習(xí)策略評估策略改善動態(tài)規(guī)劃DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第53頁10.2強化學(xué)習(xí)基礎(chǔ)理論動態(tài)規(guī)劃障礙物R:-1終點R:1/people/karpathy/reinforcejs/gridworld_dp.htmlDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第54頁10.2強化學(xué)習(xí)基礎(chǔ)理論動態(tài)規(guī)劃策略評估策略更新DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第55頁10.2強化學(xué)習(xí)基礎(chǔ)理論動態(tài)規(guī)劃策略評估策略更新DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第56頁10.2強化學(xué)習(xí)基礎(chǔ)理論動態(tài)規(guī)劃算法收斂優(yōu)點缺點1.難以處理連續(xù)動作與連續(xù)狀態(tài)問題2.需要環(huán)境模型完全已知,這在實踐中幾乎無法做到1.在數(shù)學(xué)上可以精確表達(dá)與分析2.處理小規(guī)模問題時,表現(xiàn)穩(wěn)定且收斂速度較快DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第57頁10.3表格型強化學(xué)習(xí)方法無模型方法p=1r=0a=充電高低a=搜索p=1-βr=-3p=βr=1a=等待p=1r=-1a=搜索p=αr=1p=1-αr=1a=等待p=1r=-1α與β均為未知參數(shù),這時需要智能體與環(huán)境進行交互,從而選擇合適的策略使得獎勵最大化無模型強化學(xué)習(xí)
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第58頁10.3表格型強化學(xué)習(xí)方法表格型思想搜索等待充電高000低000Q表格狀態(tài)值函數(shù)動作值函數(shù)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第59頁10.3表格型強化學(xué)習(xí)方法蒙特卡洛思想
累計折扣收益累計折扣收益期望近似狀態(tài)值函數(shù)蒙特卡洛方法難以應(yīng)用于無終止的問題,但其思想可以與其他方法結(jié)合DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第60頁10.3表格型強化學(xué)習(xí)方法時序差分(TD)蒙特卡洛方法
時序差分法TD(0)
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第61頁10.3表格型強化學(xué)習(xí)方法基于時序差分法的Sarsa算法時序差分法TD(0)
Sarsa算法
TDtargetSarsa算法需要用到s,a,r,s’,a’五個參數(shù),故名SarsaTDerrorDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第62頁10.3表格型強化學(xué)習(xí)方法基于時序差分法的Q-learningQ-learningSarsa算法
異策略off-policy相較于Sarsa,Q-learing更具有試探性
同策略on-policyDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第63頁10.3表格型強化學(xué)習(xí)方法尋路問題
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第64頁10.3表格型強化學(xué)習(xí)方法尋路問題
【解】可將該網(wǎng)格游戲看成是一個馬爾科夫決策過程,其中狀態(tài)空間包括當(dāng)前位置、陷阱位置、目標(biāo)位置以及空位置,并將兩個陷阱位置設(shè)為同一個狀態(tài),決策空間包括上下左右四個動作,分別用0,1,2,3表示,如下圖所示。
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第65頁10.3表格型強化學(xué)習(xí)方法尋路問題(Sarsa)
第1次迭代:設(shè)置初始位置的狀態(tài)動作值函數(shù)取值均為0,如下表所示:
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第66頁10.3表格型強化學(xué)習(xí)方法尋路問題(Sarsa)
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第67頁10.3表格型強化學(xué)習(xí)方法尋路問題(Sarsa)
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第68頁10.3表格型強化學(xué)習(xí)方法尋路問題(Sarsa)
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第69頁10.3表格型強化學(xué)習(xí)方法尋路問題算法結(jié)果DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第70頁10.3表格型強化學(xué)習(xí)方法值函數(shù)近似替代方法表格型Q函數(shù)線性Q函數(shù)非線性Q函數(shù)深度學(xué)習(xí)Q函數(shù)簡單復(fù)雜
TDerror損失函數(shù)最小化Sarsa算法
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第71頁10.3表格型強化學(xué)習(xí)方法DQN目標(biāo)函數(shù)經(jīng)驗回放機制網(wǎng)絡(luò)設(shè)計
預(yù)測網(wǎng)絡(luò)目標(biāo)網(wǎng)絡(luò)
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第72頁10.3表格型強化學(xué)習(xí)方法DQNQ表格神經(jīng)網(wǎng)絡(luò)DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第73頁10.3表格型強化學(xué)習(xí)方法DQNDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第74頁10.3表格型強化學(xué)習(xí)方法DDQN通過Q-eval選取最大Q值對應(yīng)動作根據(jù)動作計算Q-target目標(biāo)函數(shù):Q-eval–Q-target
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第75頁10.3表格型強化學(xué)習(xí)方法DDQNDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第76頁10.3表格型強化學(xué)習(xí)方法DRQNReplayMemory經(jīng)驗池存儲內(nèi)存有限LSTM記憶DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第77頁10.3策略梯度強化學(xué)習(xí)方法基于策略的強化學(xué)習(xí)方法Q-learning
由價值函數(shù)產(chǎn)生策略基于策略
價值不同采取動作概率不同DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第78頁10.3策略梯度強化學(xué)習(xí)方法隨機性策略與確定性策略隨機性策略確定性策略輸出動作概率分布輸出確定動作DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第79頁10.3策略梯度強化學(xué)習(xí)方法隨機性策略方法梯度下降法蒙特卡洛思想目標(biāo)函數(shù)
評價函數(shù)策略梯度定理
評價函數(shù)動作值函數(shù)
DeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛應(yīng)用第80頁10.3策略梯度強化學(xué)習(xí)方法Actor-Critic蒙特卡洛梯度下降法蒙特卡洛方法帶來較大的噪聲和誤差,無法相對準(zhǔn)確地描述動作值函數(shù)
演員評論家算法
ActorCriticDeepLearningAndAutonomousDriving深度學(xué)習(xí)與自動駕駛
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物流倉庫經(jīng)理年度述職報告
- 智慧教室裝修方案
- 從業(yè)人員安全生產(chǎn)教育培訓(xùn)
- 孕期糖尿病飲食和護理
- 老年人糖尿病病人的護理
- 齲齒病的發(fā)展過程圖解
- 2.3.1物質(zhì)的量的單位-摩爾 課件高一上學(xué)期化學(xué)人教版(2019)必修第一冊
- 吉林省2024七年級數(shù)學(xué)上冊第1章有理數(shù)1.10有理數(shù)的除法課件新版華東師大版
- 吉林省2024七年級數(shù)學(xué)上冊第1章有理數(shù)全章整合與提升課件新版華東師大版
- 花手帕說課稿
- 貿(mào)易居間費合同范本
- 五年級上冊道德與法治第7課《中華民族一家親》第2課時說課稿
- 部編版道德與法治七年級上冊每課教學(xué)反思
- 人教新課標(biāo)四年級上冊數(shù)學(xué)《06用“五入”法求商》說課稿
- 人教版二年級數(shù)學(xué)上冊第六單元《表內(nèi)乘法(二)》說課稿(含14課時)
- CJT 482-2015 城市軌道交通橋梁球型鋼支座
- 我國不銹鋼管行業(yè)現(xiàn)狀分析
- 2024年關(guān)于印發(fā)全國社會心理服務(wù)體系建設(shè)試點5篇
- 維修水池合同協(xié)議書
- 2024年中級經(jīng)濟師考試題庫含答案(完整版)
- 高效餐飲服務(wù)承諾
評論
0/150
提交評論