版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
爬行機器人波士頓動力公司的大狗(BigDog)。它能行走、奔跑、攀爬以及負載重物。大狗的四條腿和動物一樣擁有關節(jié),可吸收沖擊能量,每邁出一步就回收部分能量,以此帶動下一步。知識目標了解強化學習的含義了解強化學習的含義理了解如何在不確定的世界做決策了解Q學習的基本原理知識準備—7.1—強化學習就像是小孩子學走路,沒有哪個小孩子學走路是拿著“走路寶典”學會的,每個小孩子都是靠不斷地嘗試、摔跤、站起來繼續(xù)嘗試這樣不斷的“迭代”學會的。著名的波士頓動力大狗也是靠多次摔跤才學會各種炫酷的動作的。7.1.1強化學習7.1.2充滿不確定性的世界在現(xiàn)實世界中,我們的某一個動作不一定會帶來特定結果,這個結果往往是不確定的,我們真實的世界是一個不確定的世界。如圖所示,機器人想向前走,但是最終會到達哪里,并不確定。世界中充滿了危險和誘惑。如果是一個確定的世界,那機器人的選擇將會很簡單,直接走向鉆石成為人生贏家。但是世界不是這么簡單,是不確定的。7.1.3不確定的世界如何做決策如果沒有不確定性,機器人要繞路嗎?要繞多遠?如果有一點不確定性,機器人要繞路嗎?要繞多遠?如果有很大不確定性,機器人要繞路嗎?要繞多遠?生存回報—7.2—智能體走任意一步,不管怎么走,走到哪里,都會接收這個回報,它可能為正,也可能為負。這就是小孩子每走一步都會耗費一定的體力。不過如果我們忽略小孩子體力的問題,將小孩子學走路的生存回報變?yōu)槊孔咭徊骄徒o某個獎勵,小孩子可能就會嘗試一直走從而能夠一直得到這種獎勵。試一試深入分析—7.3—
探索與利用
學習率告訴我們當前體驗相對歷史經(jīng)驗有多大成分會影響我們的判斷。如何設置學習率,也是一個重要的技術。具體的設置,在每個任務中都會不同,一般來說開始的時候設置較大的學習率進行快速學習,隨后降低學習率慢慢學習。學習率本章小結—7.4—本章介紹了強化學習的基礎。真實的世界有著各種不確定性,強化學習幫助我們解決這類問題。通過對回報和Q值的感性認識,體驗Q學習。接著介紹了探索與利用的作用、學習率的重要性,并親自動手訓練一個爬行機器人。
課后練習—7.5—(1)除了小孩子學走路,生活中有沒有什么類似強化學習的例子?(2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年鍛壓黃銅安全閥項目可行性研究報告
- 2024年掛墻式報刊箱項目可行性研究報告
- 國際學校課后學習支持協(xié)議書
- 直播平臺用戶協(xié)議范本
- 2022民宿經(jīng)營管理協(xié)議書
- 三年級英語下冊 單元測試-Unit 2 My School(含解析)(人教版)
- 個體工商戶技術合作協(xié)議書
- 光伏發(fā)電項目合作合同范本
- 科研機構教材出版管理制度
- 醫(yī)療行業(yè)云平臺信息安全審計制度
- 錫柴6110發(fā)動機圖冊
- 中小企業(yè)辦公無線網(wǎng)絡設計與實現(xiàn)畢業(yè)設計論文
- 腎上腺皮質(zhì)激素類藥ppt課件.ppt
- 可研勘察設計費計費標準
- 刮泥機出廠檢測調(diào)試報告
- 運動處方知識點
- 某企業(yè)員工違規(guī)處理登記表(doc 2頁)
- 生物地理學熱帶生物群
- 小學數(shù)學科教師家長會優(yōu)秀PPT完整版
- 養(yǎng)殖恒溫室設計方案
- 腦出血大病歷.doc
評論
0/150
提交評論