




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第五章對抗搜索主講:徐縉第五章對抗搜索主講:徐縉第五章、對抗搜索在有其它智能體計劃與我們對抗的世界中如何預先計劃博弈的概念數(shù)學中的博弈論把任何多智能體環(huán)境看成是一種博弈游戲,其中每個智能體對其它智能體的影響是“顯著的”,與智能體是合作的還是竟爭的無關(guān)。AI中的博弈通常指有完整信息的、確定性的、輪流行動的、兩個游戲者的零和游戲。游戲因為難解而令人感興趣!第五章、對抗搜索在有其它智能體計劃與我們對抗的世界中如何預先第五章、對抗搜索博弈中的優(yōu)化決策
–
剪枝:允許我們忽略那些不影響最后決定的部分搜索樹不完整的實時決策包含幾率因素的游戲部分可觀察博弈博弈程序的當前發(fā)展水平第五章、對抗搜索博弈中的優(yōu)化決策例子:MAX和MIN問題的表述:MAX先行,然后兩人輪流出招,直到游戲結(jié)束。在游戲的最后,給優(yōu)勝者加分,給失敗者罰分。初始狀態(tài),包括棋盤局面和確定該哪個游戲者出招。ACTION(s)后繼函數(shù),返回(move,state)。TERMINAL-TEST(s)終止測試UTILITY(s,p)效用函數(shù):對終止狀態(tài)給出一個數(shù)值。例子:MAX和MIN問題的表述:MAX先行,然后兩人輪流出招例子:井子棋游戲-博弈樹例子:井子棋游戲-博弈樹最優(yōu)策略最優(yōu)解是導致取勝的終止狀態(tài)的一系列招數(shù)但,在游戲中MIN還有發(fā)言權(quán)在對手不犯錯誤時,最優(yōu)策略能夠?qū)е轮辽俨槐热魏纹渌呗圆畹慕Y(jié)果。一顆兩層的博弈樹最優(yōu)策略最優(yōu)解是導致取勝的終止狀態(tài)的一系列招數(shù)一顆兩層的博弈最優(yōu)策略的確定通過檢查每個節(jié)點的極小極大值來決定,記為MINMAX-VALUE(n)。最優(yōu)策略的確定通過檢查每個節(jié)點的極小極大值來決定,記為MIN極小極大值的遞歸算法極小極大值的遞歸算法多人游戲中的最優(yōu)決策多人游戲中的最優(yōu)決策第五章、對抗搜索博弈中的優(yōu)化決策
–
剪枝:允許我們忽略那些不影響最后決定的部分搜索樹不完整的實時決策包含幾率因素的游戲部分可觀察博弈博弈程序的當前發(fā)展水平第五章、對抗搜索博弈中的優(yōu)化決策
–
剪枝極小極大值搜索的時間復雜度是O(bm)剪枝:剪裁掉那些不影響最后決策的分支。一般原則:考慮在樹中某處的節(jié)點n,如果游戲者在n的父節(jié)點或上層的任何節(jié)點有一個更好的選擇m,那么在實際的游戲中就永遠不會到達n,即n被剪裁掉。
–剪枝極小極大值搜索的時間復雜度是O(bm)例子例子–剪枝:如果m比n好,我們就不會走到n。–剪枝:如果m比n好,我們就不會走到n。
–
剪枝
=到目前為止我們在路徑上的任意選擇點發(fā)現(xiàn)的MAX的最佳選擇
=到目前為止我們在路徑上的任意選擇點發(fā)現(xiàn)的MIN的最佳選擇
–
剪枝的效率很大程度上取決于檢查后繼的順序如果能夠先檢查那些可能最好的后繼,那么算法的時間復雜度為O(bd/2)。
–剪枝=到目前為止我們在路徑上的任意選擇點發(fā)現(xiàn)的MA
–
剪枝算法
–剪枝算法處理搜索樹中的重復狀態(tài)在游戲中重復狀態(tài)的頻繁出現(xiàn)往往是因為調(diào)換—導致同樣棋局的不同行棋序列的排列例如,[a1,b1,a2,b2]和[a2,b2,a1,b1]都結(jié)束于同樣的棋局。解決辦法:第一次遇見某棋局時將對它的評價存儲在哈希表中(該哈希表稱為調(diào)換表)。處理搜索樹中的重復狀態(tài)在游戲中重復狀態(tài)的頻繁出現(xiàn)往往是因為調(diào)第五章、對抗搜索博弈中的優(yōu)化決策
–
剪枝:允許我們忽略那些不影響最后決定的部分搜索樹不完整的實時決策包含幾率因素的游戲部分可觀察博弈博弈程序的當前發(fā)展水平第五章、對抗搜索博弈中的優(yōu)化決策不完整的實時決策:對MINIMAX或
–
算法的改進
–
算法依然要搜索至少一部分空間直到終止狀態(tài),這樣的搜索不現(xiàn)實。Shannon提出:用估計棋局效用值的啟發(fā)式評價函數(shù)EVAL代替效用函數(shù)用可以決策什么時候運用EVAL的截斷測試取代終止測試不完整的實時決策:對MINIMAX或–算法的改進–算不完整的實時決策因此得到如下的啟發(fā)式極小極大值,s為狀態(tài),d為最大深度:H-MINIMAX(s,d)=不完整的實時決策因此得到如下的啟發(fā)式極小極大值,s為狀態(tài),d如何設(shè)計評價函數(shù)?應(yīng)該以和真正的效用函數(shù)同樣的方式對終止狀態(tài)進行排序評價函數(shù)的計算不能花費太多的時間對于非終止狀態(tài),評價函數(shù)應(yīng)該和取勝的實際機會密切相關(guān)。如何設(shè)計評價函數(shù)?應(yīng)該以和真正的效用函數(shù)同樣的方式對終止狀態(tài)評價函數(shù)(續(xù))在計算能力有限情況下,評價函數(shù)能做到最好的就是猜測最后的結(jié)果大多數(shù)評價函數(shù)的工作方式是計算狀態(tài)的不同,那么對狀態(tài)的一個合理評價是加權(quán)平均值例如,國際象棋中EVAL通常取為加權(quán)線性函數(shù)(假設(shè)每個特征的貢獻獨立于其它特征的值),評價函數(shù)(續(xù))在計算能力有限情況下,評價函數(shù)能做到最好的就是截斷搜索用ifCUTOFF-TEST(state,depth)thenreturnEVAL(state)代替
–
算法中TERMINAL-TEST所在的兩行,或使用迭代搜索:當時間用完時,程序就返回目前完成最深的搜索所選擇的招數(shù)。由于評價函數(shù)的近似性,上述方法可能導致錯誤。截斷搜索用ifCUTOFF-TEST(state,dep(a)黑棋有1個馬、2個兵的優(yōu)勢,能夠取勝。(b)黑棋會被白棋吃掉皇后,從而失敗。(a)黑棋有1個馬、2個兵的優(yōu)勢,能夠取勝。截斷搜索(續(xù))需要更為復雜的截斷測試,評價函數(shù)應(yīng)該只用于那些靜止的棋局(靜態(tài)棋局)。非靜止的棋局可以進一步擴展直到靜止的棋局,這種額外的搜索稱為靜態(tài)搜索。截斷搜索(續(xù))需要更為復雜的截斷測試,評價函數(shù)應(yīng)該只用于那些
截斷搜索(續(xù))
地平線效應(yīng):指對手招數(shù)導致我方嚴重損失并且從理論上基本無法避免。單步延伸是避免地平線效應(yīng)的一種策略這樣做可能超過深度限制,但由于單步延伸很少,不會增加太多開銷。
截斷搜索(續(xù))
地平線效應(yīng):指對手招數(shù)導致我方嚴重損失并且對這兩節(jié)所介紹的技術(shù)的總結(jié)假設(shè)已經(jīng)實現(xiàn):國際象棋的評價函數(shù)使用靜止搜索的合理截斷測試一個很大的調(diào)換表那么在“最新的PC”上可每秒生成和評價約一百萬個節(jié)點,允許我們在標準時間控制下對每步棋可搜索約2億個節(jié)點,而國際象棋的分支因子平均為35,355約為5億。對這兩節(jié)所介紹的技術(shù)的總結(jié)假設(shè)已經(jīng)實現(xiàn):第五章、對抗搜索博弈中的優(yōu)化決策
–
剪枝:允許我們忽略那些不影響最后決定的部分搜索樹不完整的實時決策包含幾率因素的游戲部分可觀察博弈博弈程序的當前發(fā)展水平第五章、對抗搜索博弈中的優(yōu)化決策例子:西洋雙陸棋目標:將自己的棋子全部移出棋盤白棋順時針向25移動黑棋逆時針向0移動每個棋子按照擲出的骰子數(shù)移動到任意位置除非那里有多個對方棋子,如果只有一個,這個棋子就被吃了,要重新開始。例子:西洋雙陸棋目標:將自己的棋子全部移出棋盤雙陸棋的博弈樹(包括幾率節(jié)點)兩個骰子總共有21種骰法,其中:6個有相同骰子數(shù)的組合(1/36概率)15個不同骰子數(shù)的組合(1/18概率)雙陸棋的博弈樹(包括幾率節(jié)點)兩個骰子總共有21種骰法,其中極小極大值
期望極小極大值極小極大值期望極小極大值有機率節(jié)點的游戲中的局面評價在保持順序不變的情況下,葉節(jié)點賦值的變換導致了最佳招數(shù)的改變。有機率節(jié)點的游戲中的局面評價在保持順序不變的情況下,葉節(jié)點賦期望極小極大值的復雜度算法的時間復雜度為O(bmnm),其中n為不同的擲骰子結(jié)果的數(shù)目??梢詫τ袔茁使?jié)點的博弈樹使用類似
-
剪枝的技術(shù)嗎?限制效用函數(shù)的取值范圍
不用看幾率節(jié)點的子節(jié)點就可以設(shè)置幾率節(jié)點的值的上界期望極小極大值的復雜度算法的時間復雜度為O(bmnm),其中第五章、對抗搜索博弈中的優(yōu)化決策
–
剪枝:允許我們忽略那些不影響最后決定的部分搜索樹不完整的實時決策包含幾率因素的游戲部分可觀察博弈博弈程序的當前發(fā)展水平第五章、對抗搜索博弈中的優(yōu)化決策牌類游戲牌類游戲
牌類游戲考慮未知牌的所有可能應(yīng)對策略假設(shè)應(yīng)對策略s發(fā)生的概率是p(s)若使用蒙特卡洛近似,隨機采樣N個樣本,設(shè)組合s在樣本中出現(xiàn)的概率與p(s)成正比:
牌類游戲考慮未知牌的所有可能應(yīng)對策略假設(shè)應(yīng)對策略s發(fā)生的第五章、對抗搜索博弈中的優(yōu)化決策
–
剪枝:允許我們忽略那些不影響最后決定的部分搜索樹不完整的實時決策包含幾率因素的游戲部分可觀察博弈博弈程序的當前發(fā)展水平第五章、對抗搜索博弈中的優(yōu)化決策博弈程序發(fā)展現(xiàn)狀
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 儀器試用服務(wù)合同范本
- 冰淇淋進貨合同范本
- 三年級口算題庫匯編1000道
- 2025年廣東省安全員B證考試題庫附答案
- 二年級口算題目匯編100道
- 農(nóng)村房屋翻瓦安全合同范本
- 2025江西省建筑安全員B證(項目經(jīng)理)考試題庫
- 化肥代理銷售協(xié)議合同范本
- 乙方代銷甲方合同范本
- 危樹修剪合同范本
- 專題13《竹里館》課件(共28張ppt)
- 團意操作流程詳解課件
- SH/T 0356-1996燃料油
- GB/T 9846.4-2004膠合板第4部分:普通膠合板外觀分等技術(shù)條件
- GB/T 17836-1999通用航空機場設(shè)備設(shè)施
- GB/T 13012-2008軟磁材料直流磁性能的測量方法
- 2023年全國高中生物聯(lián)賽競賽試題和答案
- 第1課中華優(yōu)秀傳統(tǒng)文化的內(nèi)涵與特點課件(共28張PPT)
- 小學語文中高學段單元整體教學的實踐研究課題中期報告
- 《木蘭詩》第二課時(公開課)課件
- 核電項目人橋吊車抗震計算書版
評論
0/150
提交評論