




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
7Q學(xué)習(xí)算法強(qiáng)化學(xué)習(xí):強(qiáng)化學(xué)習(xí)是程序通過(guò)經(jīng)驗(yàn)學(xué)習(xí)行為知識(shí)的機(jī)器學(xué)習(xí)方法。智能體(Agent)以“試錯(cuò)”的方式進(jìn)行學(xué)習(xí),通過(guò)與環(huán)境進(jìn)行交互獲得的獎(jiǎng)賞來(lái)指導(dǎo)行為,其目標(biāo)是使智能體獲得最大的獎(jiǎng)賞。Q學(xué)習(xí)算法在設(shè)計(jì)強(qiáng)化學(xué)習(xí)系統(tǒng)時(shí)主要考慮以下三方面的內(nèi)容:(1)如何表示狀態(tài)空間和動(dòng)作空間。(2)如何選擇建立信號(hào)以及如何通過(guò)學(xué)習(xí)來(lái)修正不同狀態(tài)—?jiǎng)幼鲗?duì)的值。(3)如何根據(jù)這些值來(lái)選擇合適的動(dòng)作。Q學(xué)習(xí)算法Q-學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)算法中基于價(jià)值的算法,Q即為Q(s,a),就是在某一個(gè)時(shí)刻的state狀態(tài)下,采取動(dòng)作a能夠獲得收益的期望,環(huán)境會(huì)根據(jù)agent的動(dòng)作反饋相應(yīng)的獎(jiǎng)賞(reward),所以算法的主要思想就是將state和action構(gòu)建成一張Q表來(lái)存儲(chǔ)Q值,然后根據(jù)Q值來(lái)選取能夠獲得最大收益的動(dòng)作。如果有適當(dāng)?shù)姆椒ㄓ?jì)算出評(píng)分值Q,那么只需要找出一個(gè)合適的行動(dòng)a使得Q的值為最大,這樣就可以確定最優(yōu)行動(dòng)策略。Q學(xué)習(xí)算法Q表實(shí)際上就是狀態(tài)、動(dòng)作、與估計(jì)的未來(lái)獎(jiǎng)勵(lì)之間的映射表Q學(xué)習(xí)算法Q學(xué)習(xí)案例Q學(xué)習(xí)算法Q表數(shù)據(jù)Q學(xué)習(xí)算法獎(jiǎng)勵(lì)公式更新公式Q學(xué)習(xí)算法Q學(xué)習(xí)算法過(guò)程Q學(xué)習(xí)算法的基本過(guò)程如下:(1)設(shè)置參數(shù)γ,并初始化獎(jiǎng)勵(lì)矩陣R。(2)將Q表初始化為0。(3)For每一個(gè)過(guò)程隨機(jī)選擇一個(gè)初始狀態(tài) DoWhile(目標(biāo)狀態(tài)未達(dá)到)
從當(dāng)前狀態(tài)的所有可能的動(dòng)作中,選擇一個(gè)動(dòng)作
使用這一個(gè)動(dòng)作,達(dá)到下一個(gè)狀態(tài)
在下一個(gè)狀態(tài)的所有可能動(dòng)作中,選一個(gè)Q值最大的動(dòng)作
按獎(jiǎng)勵(lì)公式和更新公式計(jì)算Q值
設(shè)置下一個(gè)狀態(tài)為當(dāng)前狀態(tài) EndDoEndForQ學(xué)習(xí)算法利用矩陣Q的算法如下:(1)設(shè)置當(dāng)前狀態(tài)=初始狀態(tài)。(2)從當(dāng)前狀態(tài)開(kāi)始,尋找具有最高Q值的動(dòng)作。(3)設(shè)置當(dāng)前狀態(tài)=下一個(gè)狀態(tài)。(4)重復(fù)步驟(2)和(3),直到當(dāng)前狀態(tài)=目標(biāo)狀態(tài)。Q學(xué)習(xí)算法TicTacToe學(xué)習(xí)過(guò)程在計(jì)算機(jī)博弈游戲的Q學(xué)習(xí)算法中,action可以通過(guò)可下位置來(lái)確定,state則可以通過(guò)利用Hash表計(jì)算當(dāng)前局面的H
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商業(yè)門面購(gòu)房合同范本
- 商鋪裝修租賃合同范本
- 兼職臨時(shí)勞務(wù)合同范本
- 住家阿姨工作合同范本
- 雙方供車合同范本
- jianyi政府采購(gòu)合同范本
- 雙合作協(xié)議合同范本
- 臺(tái)車配件采購(gòu)合同范例
- 名貴家具供貨合同范例
- 同新路施工合同范例
- 2025年亳州職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)完整
- 2025年高考時(shí)政考題及參考答案(100題)
- DeepSeek人工智能語(yǔ)言模型探索AI世界科普課件
- 《青春期心理健康指導(dǎo)》課件
- 第18講 等腰三角形 課件中考數(shù)學(xué)復(fù)習(xí)
- 全過(guò)程工程咨詢文件管理標(biāo)準(zhǔn)
- DZT 0447-2023 巖溶塌陷調(diào)查規(guī)范(1:50000)
- 《萬(wàn)以內(nèi)數(shù)的認(rèn)識(shí)》大單元整體設(shè)計(jì)
- 2020 ACLS-PC-SA課前自我測(cè)試試題及答案
- 上市公司組織架構(gòu)策略
- DB34∕T 3968-2021 橋梁健康監(jiān)測(cè)系統(tǒng)運(yùn)營(yíng)維護(hù)與管理規(guī)范
評(píng)論
0/150
提交評(píng)論