




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第10章 計(jì)劃、動(dòng)作和學(xué)習(xí)在Agent設(shè)計(jì)中的位置第一部分:響應(yīng)機(jī)器刺激響應(yīng)函數(shù)人工神經(jīng)元網(wǎng)絡(luò)、遺傳編程第二部分:狀態(tài)空間搜索盲目搜索:廣度優(yōu)先、深度優(yōu)先啟發(fā)式搜索:存在問題狀態(tài)空間搜索的假設(shè)條件包括:1)感知是確定的、正確的、完全的2)動(dòng)作模型是確定的、有結(jié)果的3)在規(guī)劃和動(dòng)作執(zhí)行過程中,環(huán)境是不變的因此,Agent并不總能制訂一個(gè)完善的計(jì)劃,并按其執(zhí)行?主要內(nèi)容感知/計(jì)劃/動(dòng)作循環(huán)逼近搜索學(xué)習(xí)啟發(fā)式函數(shù)(機(jī)器學(xué)習(xí),不是重點(diǎn))獎(jiǎng)賞代替目標(biāo)(增強(qiáng)學(xué)習(xí),也不是重點(diǎn))補(bǔ)充讀物和討論10.1 感知/計(jì)劃/動(dòng)作循環(huán)1)知覺過程不可能總是提供環(huán)境狀態(tài)的必須信息(由于噪聲或者對(duì)重要的特性不敏感)。當(dāng)兩種不
2、同的環(huán)境狀態(tài)引起相同的傳感輸入時(shí),稱為感知混淆(perceptual aliasing)。2) 動(dòng)作并不總有其模型結(jié)果(由于模型不夠精確,或者受動(dòng)器系統(tǒng)在執(zhí)行動(dòng)作時(shí)偶爾會(huì)產(chǎn)生錯(cuò)誤)。10.1 感知/計(jì)劃/動(dòng)作循環(huán)3)可能在環(huán)境中有其他的物理過程或其他的Agent(例如,風(fēng)雨雷電,在游戲中有對(duì)手)。這些過程可能會(huì)改變環(huán)境以致于干擾Agent的動(dòng)作。4)外部作用的存在會(huì)引起其他的問題:在構(gòu)造一個(gè)計(jì)劃期間,環(huán)境可能變得與原來的計(jì)劃不相干。這種困難使得花費(fèi)太多的時(shí)間為一個(gè)Agent進(jìn)行計(jì)劃而變得無意義。10.1 感知/計(jì)劃/動(dòng)作循環(huán)5)Agent可能在完成一個(gè)到達(dá)目標(biāo)狀態(tài)的搜索之前被要求動(dòng)作。6)即使
3、Agent有充分的計(jì)算時(shí)間,但是計(jì)算要求的空間資源不允許搜索進(jìn)行到目標(biāo)狀態(tài)。10.1 感知/計(jì)劃/動(dòng)作循環(huán)(解決方法)方法之一:用概率方法來形式化知覺、環(huán)境和受動(dòng)器的不確定性。處理動(dòng)作的不確定效果的一種正式方法是假定對(duì)一定狀態(tài)下的每一個(gè)可執(zhí)行動(dòng)作,結(jié)果狀態(tài)由一個(gè)已知的概率分布給出。在這種情況下找到合適的動(dòng)作被稱為Markov決策問題(Markov decision problem, MDP)。方法之二:用各種附加的假設(shè)和近似來消除這些困難的影響。10.1 感知/計(jì)劃/動(dòng)作循環(huán)(解決方法)本書提出一個(gè)感知/計(jì)劃/動(dòng)作結(jié)構(gòu)(sense/plan/act),在很多應(yīng)用中避開了上述的一些復(fù)雜性。該結(jié)構(gòu)
4、的基本原理是即使動(dòng)作偶爾產(chǎn)生了沒有預(yù)料的結(jié)果,或者Agent有時(shí)不能決定它處于哪一種環(huán)境狀態(tài)下,但是通過保證Agent從它的執(zhí)行環(huán)境中得到連續(xù)的反饋,這些困難可以被充分地解決。10.1 感知/計(jì)劃/動(dòng)作循環(huán) (解決方法)確保連續(xù)反饋的一個(gè)方法是計(jì)劃一個(gè)動(dòng)作序列,只執(zhí)行這個(gè)序列中的第一個(gè)動(dòng)作,感知結(jié)果環(huán)境狀態(tài),重新計(jì)算開始節(jié)點(diǎn),然后重復(fù)上述過程。這種方式選擇動(dòng)作的Agent被叫做感知/計(jì)劃/動(dòng)作Agent。為了使該方法有效,計(jì)算一個(gè)計(jì)劃的時(shí)間必須比每個(gè)動(dòng)作的執(zhí)行時(shí)間要少。知覺處理一個(gè)感知/計(jì)劃/動(dòng)作Agent的結(jié)構(gòu)傳感器輸入當(dāng)前狀態(tài)狀態(tài)空間圖計(jì)劃(圖搜索)尋找第一個(gè)動(dòng)作動(dòng)作目標(biāo)(所需狀態(tài))10.
5、1 感知/計(jì)劃/動(dòng)作循環(huán)在感知/計(jì)劃/動(dòng)作循環(huán)中的環(huán)境反饋允許解決感知、環(huán)境和受動(dòng)器的一些不確定性。然而,為使反饋有效,必須保證感知和動(dòng)作一般來說是精確的。在很多應(yīng)用中,這種假設(shè)是現(xiàn)實(shí)的。畢竟,提供感覺、感知和受動(dòng)器特征適合于任務(wù)要求是Agent設(shè)計(jì)人員的的任務(wù)。10.2 逼近搜索對(duì)以產(chǎn)生計(jì)劃質(zhì)量為代價(jià)的有限計(jì)算或時(shí)間資源的搜索算法進(jìn)行修改,這些計(jì)劃可能不是最佳的,或者可能不是總能可靠地到達(dá)目標(biāo)狀態(tài)。定性地講,只要第一個(gè)動(dòng)作有縮短到達(dá)目標(biāo)距離的趨勢(shì)(平均情況),經(jīng)感知/計(jì)劃/動(dòng)作的多次迭代將最終到達(dá)目標(biāo)。10.2 逼近搜索放寬產(chǎn)生最優(yōu)計(jì)劃的要求常會(huì)減少找到一個(gè)計(jì)劃的計(jì)算代價(jià)??梢詮膬蓚€(gè)方面來減
6、少代價(jià)。一方面,找到到達(dá)目標(biāo)個(gè)一條完整路徑但不必要求它是最優(yōu)的;另一方面,找到一條局部的路徑,它不要求已達(dá)到目標(biāo)節(jié)點(diǎn)。10.2 逼近搜索一個(gè)A*類型的搜索可用于這兩種方法。對(duì)于前者,可以用一個(gè)不可接納的啟發(fā)式函數(shù)對(duì)于后者,在到達(dá)目標(biāo)前(用可接納的或不可接納的啟發(fā)式函數(shù))退出搜索。10.2 逼近搜索在到達(dá)目標(biāo)前退出搜索是任意時(shí)間算法(anytime algorithm)的一個(gè)例子。任意時(shí)間算法能在任何時(shí)刻停止,結(jié)果的質(zhì)量會(huì)隨著運(yùn)行時(shí)間的增加而改善。10.2.1 孤島驅(qū)動(dòng)搜索在孤島驅(qū)動(dòng)(island-driver)搜索中,來自問題領(lǐng)域的啟發(fā)性知識(shí)被用于在搜索空間中建立一個(gè)“島節(jié)點(diǎn)”序列。例如,乘船
7、去美國(guó),可以經(jīng)過漢城、大阪、夏威夷、美國(guó)西海岸10.2.1 孤島驅(qū)動(dòng)搜索例如,在計(jì)劃通過有障礙的地形時(shí),這些島就是相應(yīng)的山。假如是n0開始節(jié)點(diǎn), ng是目標(biāo)節(jié)點(diǎn)( n1 , n2 , ng )是這些島的一個(gè)序列??梢杂胣0作為開始節(jié)點(diǎn), n1作為目標(biāo)節(jié)點(diǎn),開始一個(gè)啟發(fā)式搜索(用一個(gè)同那個(gè)目標(biāo)相適應(yīng)的啟發(fā)式函數(shù))。10.2.1 孤島驅(qū)動(dòng)搜索當(dāng)搜索找到了一條到n1的路徑時(shí),就用n1作起始點(diǎn), n2作目標(biāo)點(diǎn)開始另一個(gè)搜索,等等,直到發(fā)現(xiàn)了一條到ng的路徑。10.2.1 孤島驅(qū)動(dòng)搜索孤島驅(qū)動(dòng)搜索搜索空間中的島局部搜索10.2.2 層次搜索除了沒有顯式的島集合外,層次搜索(hierarchical se
8、arch)非常像孤島搜索。假定有一些“宏算子”,它們能在一個(gè)隱式的島搜索空間中采取大步驟。一個(gè)起始島(在開始節(jié)點(diǎn)附近)和這些宏算子構(gòu)成了島的一個(gè)隱式的“元級(jí)”超大圖。10.2.2 層次搜索首先用一個(gè)元(metalevel)搜索來搜索這個(gè)超大圖,直到找到一條宏算子路徑,它可以讓我們從基級(jí)開始節(jié)點(diǎn)附近的一個(gè)節(jié)點(diǎn)到達(dá)基級(jí)目標(biāo)節(jié)點(diǎn)附近的一個(gè)節(jié)點(diǎn)。如果已經(jīng)按照一個(gè)基級(jí)算子序列定義過宏算子,宏算子可擴(kuò)展為一條基級(jí)算子路徑,然后根據(jù)基級(jí)搜索,這條路徑與開始和目標(biāo)節(jié)點(diǎn)相連接。10.2.2 層次搜索在層次計(jì)劃中,如果在計(jì)劃期間環(huán)境可能變化,僅僅展開元級(jí)計(jì)劃的開始幾步是明智的。僅僅展開第一個(gè)元級(jí)步就可以讓基級(jí)動(dòng)作
9、去執(zhí)行,在它執(zhí)行時(shí),環(huán)境反饋可用來開發(fā)一個(gè)更新的元級(jí)計(jì)劃。在AIPS中,Hierarchical Planning是一種常用的規(guī)劃算法10.2.3 有限范圍搜索在有些問題中,用任何方法搜索發(fā)現(xiàn)一條到達(dá)目標(biāo)的路徑從計(jì)算上講都是不可能的;而在另一些問題中,一個(gè)動(dòng)作必須在一個(gè)限定的時(shí)間內(nèi)作出選擇,而不能在這個(gè)時(shí)間內(nèi)搜索到所有到達(dá)目標(biāo)的路徑。在這些問題中,用有限的時(shí)間和計(jì)算量找到一條被認(rèn)為是在到達(dá)目標(biāo)的好路徑上的節(jié)點(diǎn)可能是有用的,盡管該節(jié)點(diǎn)并不是目標(biāo)節(jié)點(diǎn)本身。當(dāng)必須終止搜索時(shí),這個(gè)替身節(jié)點(diǎn)n*在搜索前沿的所有節(jié)點(diǎn)中,有最小的啟發(fā)式函數(shù)值10.2.3 有限范圍搜索假定在一個(gè)動(dòng)作被選擇前的可用搜索時(shí)間允許
10、搜索到深度d,即所有深度為d或小于d的路徑都能被搜索到;在該深度的節(jié)點(diǎn)將被稱為范圍節(jié)點(diǎn)。那么我們的搜索過程將搜索到深度d,然后進(jìn)行選擇。10.2.3 有限范圍搜索作為目標(biāo)節(jié)點(diǎn)的替代。這個(gè)方法叫做 有限范圍搜索(limited-horizon search)。該算法也被稱為最小搜索(minimin search)。一個(gè)感知/計(jì)劃/動(dòng)作系統(tǒng)將在到達(dá)n*的路徑上采取第一個(gè)動(dòng)作,感知結(jié)果狀態(tài),再迭代搜索,一遍一遍地進(jìn)行下去。希望朝著一個(gè)擁有最優(yōu)啟發(fā)式指標(biāo)的節(jié)點(diǎn)的第一個(gè)動(dòng)作,正好在朝著目標(biāo)的路徑上。10.2.3 有限范圍搜索有限范圍搜索能處理一個(gè)到深度d深度優(yōu)先搜索而高效地執(zhí)行。使用單調(diào)函數(shù) 評(píng)估節(jié)點(diǎn)可
11、以極大地減少搜索工作。一旦達(dá)到搜索范圍的第一個(gè)節(jié)點(diǎn)n1,當(dāng)節(jié)點(diǎn)n的啟發(fā)式函數(shù)值大于節(jié)點(diǎn)n的啟發(fā)式函數(shù)值 ,就能在其他節(jié)點(diǎn)n下終止搜索。 10.2.4 循環(huán)在存在不確定性和Agent依賴逼近計(jì)劃的所有情況中,用感知/計(jì)劃/動(dòng)作循環(huán)可以產(chǎn)生重復(fù)的循環(huán)。即Agent可能會(huì)回到前面遇到過的狀態(tài),重復(fù)在那里采用過的動(dòng)作。當(dāng)然,這種反復(fù)并不意味著Agent永遠(yuǎn)不能達(dá)到目標(biāo)狀態(tài)。10.2.4 循環(huán)Koaf提出了一個(gè)計(jì)劃執(zhí)行算法叫實(shí)時(shí)(real-time)A*(RTA*),它建立了所有已經(jīng)遍歷過的狀態(tài)的一個(gè)顯式圖,同時(shí)調(diào)整這個(gè)圖中節(jié)點(diǎn)的值,使它們?cè)诘竭_(dá)前面已經(jīng)遍歷過的節(jié)點(diǎn)時(shí)不會(huì)采取動(dòng)作。10.2.5 建立反應(yīng)過程在一個(gè)反應(yīng)型機(jī)器中,設(shè)計(jì)者已為每一個(gè)可能的狀態(tài)提前計(jì)算了到達(dá)目標(biāo)的動(dòng)作。存儲(chǔ)這些和環(huán)境狀態(tài)相對(duì)應(yīng)的動(dòng)作可能需要大量的內(nèi)存。另一方面,反應(yīng)型Agent常常比計(jì)劃型Agent
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 不合格勞動(dòng)合同范例
- 兩人開店合同范本
- 臨時(shí)施工合同范例簡(jiǎn)易
- 個(gè)人工商合同范例
- 儀器銷售居間合同范例
- 買狗保障合同范例
- 傳媒運(yùn)營(yíng)簽約合同范例
- 公園圍欄出售合同范例
- 買瓷磚銷售合同范例
- 寫真設(shè)備轉(zhuǎn)讓合同范例
- GB/T 10895-2004離心機(jī)分離機(jī)機(jī)械振動(dòng)測(cè)試方法
- 805不讀書-不吃苦-你要青春干嘛
- 研究生實(shí)驗(yàn)報(bào)告模板(word可修改)
- 部編版語文市級(jí)公開教學(xué)講座《口語交際》培訓(xùn)課件
- 高中英語-新外研版必修一unit5-The-Monarchs-Journey-公開課reading課件
- 建設(shè)項(xiàng)目用地預(yù)審與選址意見課件講解
- DB44∕T 1049-2012 物業(yè)服務(wù) 綠化養(yǎng)護(hù)檢查規(guī)范
- 腹膜透析治療的護(hù)理-課件資料
- 國(guó)家開放大學(xué)《調(diào)劑學(xué)(本)》形考任務(wù)1-4參考答案
- 幼兒園小班繪本:《一步一步_走啊走》 PPT課件
- 《基礎(chǔ)和聲學(xué)》試習(xí)題庫(kù)(6套答案)
評(píng)論
0/150
提交評(píng)論