下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
文末送書如何使用深度強化學(xué)習(xí)算法解決實際問題在使用深度強化學(xué)習(xí)(DeepReinforcementLearning,DRL)算法解決實際問題的過程中,明確任務(wù)需求并初步完成問題定義后,就可以為相關(guān)任務(wù)選擇合適的DRL算法了。以DeepMind的里程碑工作AlphaGo為起點,每年各大頂級會議DRL方向的論文層出不窮,新的DRL算法如雨后春筍般不斷涌現(xiàn),大有“亂花漸欲迷人眼”之勢。然而,落地工作中的算法選擇并不等同于在這個急劇膨脹的“工具箱”中做大海撈針式的一對一匹配,而是需要根據(jù)任務(wù)自身的特點從DRL算法本源出發(fā)進行由淺入深、粗中有細的篩選和迭代。在介紹具體方法之前,筆者先嘗試按照自己的理解梳理近年來DRL領(lǐng)域的發(fā)展脈絡(luò)。1DRL算法的發(fā)展脈絡(luò)盡管DRL算法已經(jīng)取得了長足進步,但筆者認為其尚未在理論層面取得質(zhì)的突破,而只是在傳統(tǒng)強化學(xué)習(xí)理論基礎(chǔ)上引入深度神經(jīng)網(wǎng)絡(luò),并做了一系列適配和增量式改進工作??傮w上,DRL沿著Model-Based和Model-Free兩大分支發(fā)展。前者利用已知環(huán)境模型或者對未知環(huán)境模型進行顯式建模,并與前向搜索(LookAheadSearch)和軌跡優(yōu)化(TrajectoryOptimization)等規(guī)劃算法結(jié)合達到提升數(shù)據(jù)效率的目的。作為當(dāng)前學(xué)術(shù)界的研究熱點,Model-BasedDRL尚未在實踐中得到廣泛應(yīng)用,這是由于現(xiàn)實任務(wù)的環(huán)境模型通常十分復(fù)雜,導(dǎo)致模型學(xué)習(xí)的難度很高,并且建模誤差也會對策略造成負面影響。在筆者看來,任何Model-FreeDRL算法都可以解構(gòu)為“基本原理—探索方式—樣本管理—梯度計算”的四元核心組件。其中按照基本原理,Model-Free
DRL又存在兩種不同的劃分體系,即Value-Based和Policy-Based,以及Off-Policy和On-Policy。如圖1所示,DQN、DDPG和A3C作為這兩種彼此交織的劃分體系下的經(jīng)典算法框架,構(gòu)成了DRL研究中的重要節(jié)點,后續(xù)提出的大部分新算法基本都是立足于這三種框架,針對其核心組件所進行的迭代優(yōu)化或者拆分重組。圖1
Model-FreeDRL的發(fā)展脈絡(luò)和四元核心組件解構(gòu)方法圖1中幾個關(guān)鍵術(shù)語的解釋是:Off-Policy指算法中采樣策略與待優(yōu)化策略不同;On-Policy指采樣策略與待優(yōu)化策略相同或差異很??;Value-Based指算法直接學(xué)習(xí)狀態(tài)-動作組合的值估計,沒有獨立策略;Policy-Based指算法具有獨立策略,同時具備獨立策略和值估計函數(shù)的算法又被稱為Actor-Critic算法。關(guān)于上述Model-Free
DRL算法的四元核心組件,其中:基本原理層面依然進展緩慢,但卻是DRL算法將來大規(guī)模推廣的關(guān)鍵所在;探索方式的改進使DRL算法更充分地探索環(huán)境,以及更好地平衡探索和利用,從而有機會學(xué)到更好的策略;樣本管理的改進有助于提升DRL算法的樣本效率,從而加快收斂速度,提高算法實用性;梯度計算的改進致力于使每一次梯度更新都更穩(wěn)定、無偏和高效??傮w而言,DRL算法正朝著通用化和高效化的方向發(fā)展,期待未來會出現(xiàn)某種“超級算法”,能夠廣泛適用于各種類型的任務(wù),并在絕大多數(shù)任務(wù)中具有壓倒式的性能優(yōu)勢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度航空票務(wù)購銷合同圖片設(shè)計與客戶服務(wù)合同
- 二零二五年度房屋買賣合同糾紛案件審理中的法律咨詢與專業(yè)服務(wù)
- 湖北省丹江口市2024-2025學(xué)年八年級上學(xué)期期末學(xué)業(yè)水平監(jiān)測歷史試題(含答案)
- 廣東省湛江市麻章區(qū)2024-2025學(xué)年九年級上學(xué)期期末考試道德與法治試題(含答案)
- 2025年度理發(fā)店轉(zhuǎn)讓合同-包含店鋪租賃及租金調(diào)整條款
- 2025年度蟲草有機認證購銷服務(wù)合同
- 2025年度豬肉產(chǎn)業(yè)人才培養(yǎng)與交流合同
- 中國電信5G基礎(chǔ)知識
- 婦科圍術(shù)期患者的護理
- 中醫(yī)護理查房主持指南
- 智慧農(nóng)業(yè)的傳感器與智能設(shè)備
- 旅游路線規(guī)劃設(shè)計方案
- DB37-T 5097-2021 山東省綠色建筑評價標(biāo)準(zhǔn)
- 五年級上冊簡易方程練習(xí)100題及答案
- MDR醫(yī)療器械法規(guī)考核試題及答案
- 讓學(xué)生看見你的愛
- 領(lǐng)導(dǎo)溝通的藝術(shù)
- 發(fā)生用藥錯誤應(yīng)急預(yù)案
- 南潯至臨安公路(南潯至練市段)公路工程環(huán)境影響報告
- 綠色貸款培訓(xùn)課件
- 大學(xué)生預(yù)征對象登記表(樣表)
評論
0/150
提交評論