強化學習 課件 第1章 強化學習概述_第1頁
強化學習 課件 第1章 強化學習概述_第2頁
強化學習 課件 第1章 強化學習概述_第3頁
強化學習 課件 第1章 強化學習概述_第4頁
強化學習 課件 第1章 強化學習概述_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一章強化學習概述北京大學余欣航目錄馬爾可夫決策過程(MDP)MDP的分類強化學習強化學習的應用有監(jiān)督學習(supervised

learning)數(shù)據(jù)集中的樣本帶有標簽,有明確目標回歸和分類無監(jiān)督學習(unsupervised

learning)數(shù)據(jù)集中的樣本沒有標簽聚類、降維、概率密度估計、生成模型構建強化學習(reinforcementlearning)序列決策的過程,通過過程模擬和觀察來不斷學習,提高決策能力例如:AlphaGo機器學習的分類強化學習的元素

智能體環(huán)境時間序列

馬爾可夫過程

馬爾可夫過程

若用馬爾可夫過程來描述一個人上學的經歷:如果一個人就讀于重點中學,那么他考上重點大學的概率也比較大如果擁有重點大學的學歷,那么找到一份好工作的概率也比較大馬爾可夫過程馬爾可夫決策過程在讀于普通中學的前提下:如果很努力學習,則考取重點大學的概率就會相對變高如果沉迷于打游戲、不花心思到學習上,那么考取重點大學的概率就會變得很低站在自身的角度來看待求學的經歷,考取重點大學的概率并不只是“客觀的規(guī)律”決定的,也有“主觀能動性”的成分馬爾可夫決策過程馬爾可夫決策過程(MarkovDecisionProcess,MDP)還需要定義動作與獎勵若將獎勵定義為求學經歷中獲得的“幸福感”:在中學采取“努力學習”的動作,可能因為玩的時間更少,而只有較低的“幸福感”,但這幫助我們考上了更好的大學,這個更好的狀態(tài)有助于未來獲得更多的“幸福感”要在“先苦后甜”與“及時行樂”中進行取舍,選擇正確的動作方式,以獲得最幸福的人生狀態(tài)動作下一個狀態(tài)MDP的定義

目標:最大化效用

終止狀態(tài)

馬爾可夫過程與MDP的對比馬爾可夫過程客觀規(guī)律宏觀性質例如遍歷定理(研究的是某個微粒在無窮長的時間內是否“肯定”會經歷某個狀態(tài),或無窮次經歷某個狀態(tài))、強遍歷定理(不同狀態(tài)之間的概率分布是否“肯定”會收斂于一個穩(wěn)定的分布)MDP具體的問題主觀操作求解如何對一個具體的問題采取措施,使得獲得的效果最好工程中很多實際問題適合被定義為MDP而非馬爾可夫過程MDP的分類MDP的分類方式根據(jù)狀態(tài)與動作是否連續(xù)進行分類根據(jù)環(huán)境是否已知進行分類根據(jù)環(huán)境的隨機性或確定性進行分類根據(jù)環(huán)境的時齊性進行分類根據(jù)時間的連續(xù)性進行分類根據(jù)MDP是否退化進行分類動作連續(xù)與離散的MDP動作是連續(xù)變量,則策略的求解類似于機器學習訓練回歸模型的過程動作是離散變量,則策略的求解類似于機器學習訓練分類模型的過程Refer:https://jacklee.work狀態(tài)與動作離散的MDP

狀態(tài)是連續(xù)或是離散也很重要,決定了模型的形式:象棋的動作與狀態(tài)數(shù)量有限,且離散(不存在中間狀態(tài))狀態(tài):棋盤的局勢,各棋子的位置動作:下一步落子的方式獎勵:吃掉對方棋子的價值,如兵1分、馬4分等只將勝利設為得到獎勵,中間吃子不算目標:尋找最佳走棋策略,以獲得最大效用

狀態(tài)連續(xù)、動作離散的MDP例如“黃金礦工”游戲中:狀態(tài)連續(xù):黃金、石頭、鉆石、炸藥桶的位置動作離散:放炸彈、下鉤、等待狀態(tài)與動作連續(xù)的MDP

自動駕駛可以定義為一個狀態(tài)和動作都是連續(xù)的問題:狀態(tài)連續(xù):傳感器捕捉到的當前路況圖像動作連續(xù):操作方向盤、踩油門、剎車等動作,方向盤轉動的角度與加速度都是連續(xù)的環(huán)境已知的MDP(model-base)

環(huán)境已知的MDP:最優(yōu)控制

列夫·龐特里亞金理查德·貝爾曼完成最優(yōu)控制理論的開創(chuàng)性工作環(huán)境未知的MDP(model-free)

確定性環(huán)境的MDP例如一個簡單的MDP:對于一個MDP,當其S、A、P、R

都確定之后,應該有一個最佳策略,是一個“狀態(tài)→動作”形式的映射,它到底是一個什么樣的映射呢?狀態(tài):圓所處的位置動作:圓左移或者右移獎勵:到達五角星獲得的獎勵確定性環(huán)境的MDP最佳策略很簡單,即一直向右移動環(huán)境是“確定”的,即在給定狀態(tài)采取給定動作,下一步的狀態(tài)與獎勵是完全確定的此時MDP的最佳策略對應的動作是常量?。ú挥酶鶕?jù)狀態(tài)確定)狀態(tài):圓所處的位置動作:圓左移或者右移獎勵:到達五角星獲得的獎勵隨機性環(huán)境的MDP

MDP的時齊性

MDP的時齊性

時齊與否在于對“時間”性質的定義:時齊MDP中的“時間”是一種“相對的”度量標尺,例如“一年”、“一個回合”非時齊MDP中的“時間”是“絕對的”歷史度量,例如“公元2018年”或者“第100個回合”非時齊性環(huán)境:房價的“水漲船高”

時齊性對策略的影響

時齊性對策略的影響當環(huán)境為確定、時齊時,則策略為“動作=常量”當環(huán)境為隨機、時齊時,則策略為“狀態(tài)→動作”形式當環(huán)境為確定、非時齊時,則策略為“時間→動作”形式當環(huán)境為隨機、非時齊時,則策略為“時間、策略→動作”形式狀態(tài):圓所處的位置動作:圓左移或者右移獎勵:到達五角星獲得的獎勵效用與終止狀態(tài)對于時齊性的影響

時齊MDP的分類

時間的連續(xù)性

連續(xù)時間的MDP

退化的MDP

多臂老虎機問題(Multi-ArmedBandit)

多臂老虎機問題是退化的MDP

上下文老虎機(ContextualBandit)

多臂老虎機上下文老虎機一般強化學習問題策略的形式當環(huán)境為確定、時齊時,則策略為“動作=常量”當環(huán)境為隨機、時齊時,則策略為“狀態(tài)→動作”形式當環(huán)境為確定、非時齊時,則策略為“時間→動作”形式當環(huán)境為隨機、非時齊時,則策略為“時間、策略→動作”形式模型的形式當動作是連續(xù)變量時,可以將策略定義為線性模型或神經網絡模型等回歸模型而當動作是分類變量時,則可以將策略定義為神經網絡、表格或其它分類模型狀態(tài)、動作(非時齊情況下還是時間)決定了模型的輸入輸出思考

強化學習強化學習解決的問題對于生產、生活、辦公等領域的實際問題,例如游戲AI或機器人控制,一般會被轉化為一個環(huán)境未知非退化MDP求解環(huán)境未知非退化MDP非常困難:需要擁有環(huán)境,并與環(huán)境交互產生大量的數(shù)據(jù)利用這些數(shù)據(jù)去尋找一個能夠最大化效用的策略強化學習:擁有環(huán)境假定擁有環(huán)境,可以自主地選擇與環(huán)境交互的方式,從環(huán)境中產生“需要的數(shù)據(jù)”例如MAB問題中可以自由選擇操控桿的老虎機可以不斷從環(huán)境中獲取數(shù)據(jù),以訓練Agent使其取得更大的效用以象棋為例

模仿學習

模仿學習

改進的方法:與人類專家進行交互

DAgger

(DatasetAggregation)

模仿學習的局限模仿學習僅僅“擁有數(shù)據(jù)”,不能自由產生數(shù)據(jù)要在多步的MDP中找出一個比較好的策略,如果不能自由產生數(shù)據(jù),是難以實現(xiàn)的強化學習則能夠從環(huán)境中產生我們需要的數(shù)據(jù),并針對性地學習Exploration-ExploitationDilemma如何產生數(shù)據(jù)的一個重要原則是Exploration-ExploitationDilemma,它的原則是要讓產生的數(shù)據(jù)盡量接近當前認為的最佳策略,但同時又不能太過接近,而要保證分布足夠寬、數(shù)據(jù)具有足夠的多樣性為了簡單起見,會首先在退化的MDP(MAB問題)中討論它,然后再擴展到非退化MDP的情況中從數(shù)據(jù)中學習最佳策略

強化學習的難點強化學習問題的難點(環(huán)境未知、非退化)環(huán)境未知的難點(MAB)非退化的難點(最優(yōu)控制)強化學習:通向強人工智能的重要途徑弱人工智能:不需要具有人類完整的認知能力,甚至是完全不具有人類所擁有的感官認知能力,只要設計得看起來像有智慧就可以了強人工智能:具備執(zhí)行一般智能行為的能力,通常把人工智能和意識、感性、知識、自覺等人類的特征互相連接強化學習更接近現(xiàn)實中生命體的學習方式,更加“智能”有的研究者認為,“強化學習是通向強人工智能的重要路徑”本體論在古典時代,哲學家們更加關注的是世界的本質畢達哥拉斯的“萬物皆數(shù)”,德謨克利特的“原子論”,柏拉圖的“理念論”都是對于世界的不同認識方式,都在追求能夠“更加正確”地認識世界這些以尋求世界本質為目的的理論均被稱作“本體論”本體論:有監(jiān)督學習的思維方式有監(jiān)督學習思維方式與“本體論”相同,目標是尋找客觀的規(guī)律,“學習知識”或者“認識世界”學習方法:通過擬合現(xiàn)實中產生的數(shù)據(jù),對誤差進行優(yōu)化誤差小意味著“正確”,誤差大意味“錯誤”,當達到了百分之百的正確率的時候,“預測誤差”就降低為0,意味著已經“完全正確”而沒有可以再提升的地方認識論在近代,哲學經歷了重要的“從本體論向認識論”的轉向其代表是康德對于“本體”與“現(xiàn)象”的劃分,通俗的說就是“真實世界”和“我看到的世界”是兩個不同的東西,在此基礎上,康德認為“真實世界”是不重要的,“我看到的世界”才是值得關注的重點德國哲學家叔本華繼承以及進一步發(fā)展了康德的理論,他將“我看到的世界”稱之為“表象”,而將人的本能稱作“意志”,并且認為“表象”是“意志”外化出來的簡而言之,他認為人對于世界的認識是被人的目的所支配的,或者說,“我怎么認識世界”是受到“我的目標是什么”所支配的目的支配我們對于世界的認識如果把人的“目的”、“目標”或“追求”,也就是叔本華所說的“意志”定義為“最大化效用”,那么人應該是時刻在“追求最大化效用”的動機支配下的,所有的能力都是為了滿足這個動機的手段“正確認識世界”其實也是一種能力,本質上也是“追求最大化效用”。在某些具體的場景中的應用,如果追求不同,認識到的世界也會不同認識論:強化學習的思維方式總的來說,強化學習的過程就像是在“最大化效用”的目標支配下去探索環(huán)境,選擇環(huán)境中對自己有用的知識加以學習,這個過程更加強調人的“主觀能動性”在認識世界、改造世界中起到的重要作用強化學習比起有監(jiān)督學習或無監(jiān)督學習更加接近一個生命體的學習過程、更加具有智能性、更加接近“強人工智能”強化學習的應用軌跡追蹤強化學習在高維控制問題(諸如機器人等)中的應用已經是學術界和工業(yè)界共同的研究課題2017年,伯克利發(fā)布的強化學習方法可以讓機器人17分鐘就學會軌跡跟蹤汽車制造機器人通過深度強化學習可以記住對象并獲得知識,并訓練自己快速而精確地完成這項工作特斯拉超級工廠的四大制造環(huán)節(jié):沖壓生產線、車身中心、烤漆中心和組裝中心有超過150名機器人參與工作,整個工廠幾乎都是機器人自動駕駛自動駕駛的人工智能包含了感知、決策和控制三個方面強化學習可以解決駕駛過程中的決策問題Wayve公司的自動駕駛汽車無需3D地圖也無需規(guī)則,讓汽車從零開始在二十分鐘內學會如何自動駕駛提升ICU搶救效率血液化驗指標可以提供搶救病人的關鍵信息,但過于頻繁的化驗有加重病情的危險,也會增加治療的費用來自普林斯頓大學的一個研究團隊設計了一個機器學習系統(tǒng),可以在減少化驗頻率的同時優(yōu)化關鍵治療的開展時間強化學習算法在這個機器學習系統(tǒng)中發(fā)揮了關鍵性的作用Refer:

Pixabay改進惡性腦瘤放化療2018年,來自MITMediaLab的研究人員開發(fā)出了一個新型人工智能模型,將強化學習應用到現(xiàn)有的給藥方案上,反復調整膠質母細胞瘤患者化療和放療的藥物劑量,在縮小腫瘤的同時找到盡可能最小的給藥劑量和頻率,最終發(fā)現(xiàn)最佳治療方案,改善患者生活質量Refer:/cancer/article/6797圖像修復圖像修復是指恢復圖像損失的部分并基于背景信息將它們重建的技術CVPR2018上商湯科技發(fā)表了一篇論文《CraftingaToolchainforImageRestorationbyDeepReinforcementLearning》,提出了基于深度強化學習的RL-Restore算法,解決具有復雜混合失真的圖像復原問題Refer:/TextTranslation/1564強化推薦在靜態(tài)場景之下,用戶的行為特征在與系統(tǒng)的交互過程中保持穩(wěn)定不變一類有代表性的工作是基于上下文多臂老虎機的推薦系統(tǒng),它的發(fā)展為克服推薦場景中的冷啟動問題提供了行之有效的解決方案AlphaGo2016年,谷歌的AlphaGo利用CNN模型戰(zhàn)勝李世乭,首次在圍棋項目中戰(zhàn)勝人類頂尖棋手AlphaGo的完全自我博弈加強版AlphaZero——一個從零開始自學國際象棋、將棋和圍棋的系統(tǒng),它最終在這三個領域都打敗了世界最頂尖的程序:4小時就打敗了國際象棋的最強

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論