球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)參考范本_第1頁(yè)
球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)參考范本_第2頁(yè)
球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)參考范本_第3頁(yè)
球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)參考范本_第4頁(yè)
球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)參考范本_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第七章球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)在 Robocup 機(jī)器人足球比賽中, 球員的個(gè)人技術(shù)是很重要的。如果沒(méi)有很好的個(gè)體技術(shù), 再完美的配合也形成不起來(lái)。所謂個(gè)體技術(shù),主要是指球場(chǎng)上球員可以執(zhí)行的一些動(dòng)作,如傳球、阻截球、帶球、射門、盯人、守門員撲球、鏟球等;當(dāng)然這些動(dòng)作有的是不能直接發(fā)送給 Server 的,它們是由更低級(jí)的Server 可識(shí)別的原子動(dòng)作(dash、kick 、turn、tackle 等)組成,在發(fā)送的時(shí)候是發(fā)送這些原子動(dòng)作序列。這些個(gè)人技術(shù)依賴于球員所觀察到的世界狀態(tài),以世界狀態(tài)為基礎(chǔ),簡(jiǎn)化后提取世界狀態(tài)的特征,根據(jù)一定的算法和數(shù)學(xué)模型做出合適的行為決定。提高球員的個(gè)體技術(shù)是我們

2、的目標(biāo),一般是通過(guò)機(jī)器學(xué)習(xí) ( Machine Learning ,簡(jiǎn)稱 ML )、合適的數(shù)學(xué)模型進(jìn)行解析和經(jīng)驗(yàn)式來(lái)達(dá)到這一目標(biāo)的。其中數(shù)學(xué)解析的方法主要是建立各個(gè)動(dòng)作的數(shù)學(xué)模型,然后用解析幾何的方法進(jìn)行求解;這種方法是建立在對(duì)問(wèn)題的深入分析的基礎(chǔ)上面的,因此它的效率較高,當(dāng)由于在比賽當(dāng)中存在噪音精確性有時(shí)達(dá)不到理想的效果,同時(shí)也不是所有問(wèn)題都可以轉(zhuǎn)化成合適的、便于求解的數(shù)學(xué)模型。而經(jīng)驗(yàn)式的方法純粹是根據(jù)設(shè)計(jì)者的經(jīng)驗(yàn),通過(guò)類似if .then的結(jié)構(gòu)來(lái)設(shè)計(jì)行為模式;這種方式的優(yōu)點(diǎn)是可以充分利用人的經(jīng)驗(yàn),但是他參數(shù)的調(diào)節(jié)比較繁瑣,并且魯棒性也不是很好。而機(jī)器學(xué)習(xí)的方法優(yōu)點(diǎn)則比較明顯,下面我們就介紹

3、一下機(jī)器學(xué)習(xí)的方法和機(jī)器人足球中是如何應(yīng)用機(jī)器學(xué)習(xí)的。7.1 機(jī)器學(xué)習(xí)簡(jiǎn)介“機(jī)器學(xué)習(xí)” 一般被定義為一個(gè)系統(tǒng)自我改進(jìn)的過(guò)程。但僅僅從這個(gè)定義來(lái)理解和實(shí)現(xiàn) 機(jī)器學(xué)習(xí)是困難的。從最初的基于神經(jīng)元模型以及函數(shù)逼近論的方法研究,到以符號(hào)演算為基礎(chǔ)的規(guī)則學(xué)習(xí)和決策樹(shù)學(xué)習(xí)的產(chǎn)生,之后到認(rèn)知心理學(xué)中歸納、解釋、類比等概念的引入, 乃至最新的計(jì)算學(xué)習(xí)理論和統(tǒng)計(jì)方法學(xué)習(xí)(主要是指貝葉斯學(xué)習(xí)和基于馬爾可夫過(guò)程的強(qiáng)化學(xué)習(xí))的興起, 機(jī)器學(xué)習(xí)一直在包括人工智能學(xué)科在內(nèi)的相關(guān)學(xué)科的實(shí)踐應(yīng)用中起著主導(dǎo)地位。然而, 根據(jù)學(xué)習(xí)的條件和領(lǐng)域的不同,具體的學(xué)習(xí)理論和算法也各不相同。本節(jié)列舉了常見(jiàn)的機(jī)器學(xué)習(xí)理論和相關(guān)的學(xué)習(xí)算法。如

4、:概念學(xué)習(xí)、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)、基于實(shí)例的學(xué)習(xí)、遺傳算法、規(guī)則學(xué)習(xí)、分析學(xué)習(xí)(基于解釋的學(xué)習(xí))和強(qiáng)化學(xué)習(xí)等。(1) 概念學(xué)習(xí)所謂概念學(xué)習(xí)就是指通過(guò)給定某一類別的若干正例和反例,從中得出該類別一般定義的 學(xué)習(xí)方法。 它是一個(gè)從許多特例歸納而形成表示一般函數(shù)的方法。所以說(shuō), 概念學(xué)習(xí)可以看成是搜索預(yù)定義潛在的假設(shè)空間過(guò)程。是歸納法的一種。 它的主要設(shè)計(jì)過(guò)程是從一般到特殊序然后形成假設(shè)空間的過(guò)程。這個(gè)概念最初是由Bruner et al.在 1957 年就提出了,在1970 年 Winston的博士論文 33 中將概念學(xué)習(xí)看成是包含泛化和特化操作的搜索過(guò)程。Simon和Lea34 在 19

5、73 年將該學(xué)習(xí)的過(guò)程看成是一個(gè)在假設(shè)空間搜索的過(guò)程。(2) 決策樹(shù)學(xué)習(xí)決策樹(shù)學(xué)習(xí)是應(yīng)用最廣的歸納推理算法之一。它是一種逼近離散值函數(shù)的方法,一般該函數(shù)被表示成一顆樹(shù),樹(shù)一般包含多個(gè)if-then規(guī)則。這種學(xué)習(xí)方法對(duì)噪音數(shù)據(jù)有很好的健壯性。決策樹(shù)通過(guò)把實(shí)例從根節(jié)點(diǎn)排列(sort)到某個(gè)葉子節(jié)點(diǎn)來(lái)分類實(shí)例。葉子節(jié)點(diǎn)即為所屬的分類。 樹(shù)上的每個(gè)節(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,并且該節(jié)點(diǎn)的每個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值。分類實(shí)例的方法是從這棵樹(shù)的根節(jié)點(diǎn)開(kāi)始,測(cè)試這個(gè)節(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng),一直遍歷到葉子。決策樹(shù)學(xué)習(xí)可以解決具有以下特征的問(wèn)題:實(shí)例是由“屬

6、性-值”對(duì)表示的; .目標(biāo)函數(shù)具有離散的輸出值; .可能需要析取的描述; .訓(xùn)練數(shù)據(jù)可以包含錯(cuò)誤; .訓(xùn)練數(shù)據(jù)可以包含缺少屬性值的實(shí)例。決策樹(shù)學(xué)習(xí)的關(guān)鍵是對(duì)決策樹(shù)的構(gòu)造,典型的構(gòu)造決策樹(shù)的方法是ID3 算 法和C4.5 算法。這些算法是都是根據(jù)屬性的重要性來(lái)依次把各個(gè)屬性分配到相應(yīng)的結(jié)點(diǎn)上面去。(3) 人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法對(duì)于逼近實(shí)數(shù)值、離散值和向量值的目標(biāo)函數(shù)提供了一種健壯性很強(qiáng)的方法。 它是通過(guò)模擬人類大腦的神經(jīng)元,形成具有輸入和輸出的單元結(jié)構(gòu)。對(duì)于某些類型的問(wèn)題, 如學(xué)習(xí)解釋復(fù)雜的現(xiàn)實(shí)世界的傳感器數(shù)據(jù),人工神經(jīng)網(wǎng)絡(luò)是目前最為有效的方 法。具有以下特征的問(wèn)題我們都可以用神經(jīng)網(wǎng)絡(luò)

7、來(lái)解決: .實(shí)例是用很多“屬性-值”對(duì)表示的; .目標(biāo)函數(shù)的輸出可能是離散值、實(shí)數(shù)值或者由若干實(shí)數(shù)屬性或離散屬性組成的向量; .訓(xùn)練數(shù)據(jù)可能包含錯(cuò)誤; .可容忍長(zhǎng)時(shí)間的訓(xùn)練; .在實(shí)際應(yīng)用的時(shí)候可能需要快速求出目標(biāo)函數(shù)值; .人類能否理解學(xué)到的目標(biāo)函數(shù)是不重要的。人工神經(jīng)網(wǎng)絡(luò)主要訓(xùn)練感知器以及由感知器構(gòu)成的多層網(wǎng)絡(luò)結(jié)構(gòu)(包括前向和反饋網(wǎng) 絡(luò))。在神經(jīng)網(wǎng)絡(luò)里面的典型的模型有:自適應(yīng)共振、雙向聯(lián)想存儲(chǔ)器、反向傳遞、對(duì)流網(wǎng)、認(rèn)識(shí)機(jī)、感知器、自組織映射網(wǎng)等(4) 貝葉斯學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)是貝葉斯網(wǎng)絡(luò)模型的構(gòu)建和對(duì)已存在貝葉斯網(wǎng)絡(luò)模型的優(yōu)化。由于可以利用的數(shù)據(jù)日益增加和數(shù)據(jù)越來(lái)越容易獲取,使得用數(shù)據(jù)來(lái)

8、進(jìn)行貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)和條件概率表的學(xué)習(xí)變得十分可行,貝葉斯網(wǎng)絡(luò)的條件概率表的學(xué)習(xí)又常稱為貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)。(5) 基于案例的學(xué)習(xí)前面的方法都是根據(jù)一系列的訓(xùn)練樣本,然后形成一定的目標(biāo)函數(shù)把訓(xùn)練樣本一般化。而基于實(shí)例的學(xué)習(xí)則不然。 基于實(shí)例的學(xué)習(xí)方法只是簡(jiǎn)單地把訓(xùn)練樣本存儲(chǔ)起來(lái),從這些實(shí)例中泛化的工作被推遲到必須分類出新的實(shí)例時(shí)。 每當(dāng)學(xué)習(xí)器遇到一個(gè)新的查詢實(shí)例, 它分析這個(gè)新的實(shí)例與以前存儲(chǔ)的實(shí)例之間的關(guān)系,并據(jù)此把一個(gè)目標(biāo)函數(shù)值賦給新的實(shí)例?;诎咐膶W(xué)習(xí)方法主要包括最近鄰法和局部加權(quán)回歸法,它們都假定實(shí)例可以表示為歐氏空間的點(diǎn)。此外,基于案例的學(xué)習(xí)方法還包括基于案例的推理,它對(duì)實(shí)例

9、采用復(fù)雜的符號(hào)表示?;诎咐膶W(xué)習(xí)方法實(shí)際上是一個(gè)消極學(xué)習(xí)方法。(6) 遺傳算法遺傳算法是一種受生物進(jìn)化過(guò)程啟發(fā)的學(xué)習(xí)算法。遺傳算法研究的問(wèn)題是搜索候選假設(shè)空間并確定最佳的假設(shè),一般是通過(guò)變異和交叉重組當(dāng)前已知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。在遺傳算法中,假設(shè)一般用二進(jìn)制來(lái)表示(便于變異和交叉遺傳算子)。遺傳算法的設(shè)計(jì)有一個(gè)共同點(diǎn):算法迭代更新一個(gè)假設(shè)池(也稱之為群體)。每一次迭代中根據(jù)適應(yīng)度函數(shù)評(píng)估群體中的所有成員,然后從當(dāng)前群體中用概率方法選取適應(yīng)度最高的個(gè)體產(chǎn)生新一代群體。在這些選取的個(gè)體中,一部分保持原樣進(jìn)入下一代群體,其他通過(guò)交叉和變異等遺傳的方法產(chǎn)生新的個(gè)體作為下一代群體的一部分。(7

10、) 規(guī)則學(xué)習(xí)對(duì)學(xué)習(xí)得到的假設(shè),最具有表征力的和最能為人類所理解的表示方法之一為if-then規(guī)則的集合。而規(guī)則學(xué)習(xí)實(shí)際上就是學(xué)習(xí)這樣的規(guī)則。規(guī)則一般包括不含變量和含有變量的。不含變量的很容易理解和得到。最為重要的是學(xué)習(xí)含有變量的規(guī)則集合(也稱之為Horn 子句集合)。由于一階Horn子句集合可以被解釋為邏輯編程語(yǔ)言中的程序,所以學(xué)習(xí)的過(guò)程經(jīng)常被稱之為歸納邏輯編程(Inductive Logic Programming , 簡(jiǎn)稱ILP) 。(8) 分析學(xué)習(xí) (基于解釋的學(xué)習(xí))前面的方法都是歸納學(xué)習(xí)方法。這些歸納學(xué)習(xí)器在實(shí)踐中都有一個(gè)關(guān)鍵的限制就是學(xué)習(xí) 實(shí)例的數(shù)據(jù)不足時(shí)性能較差(這已經(jīng)被證明,參見(jiàn)

11、文獻(xiàn)35 第七章)。而分析學(xué)習(xí)使用先驗(yàn)知識(shí)和演繹推理來(lái)擴(kuò)大訓(xùn)練樣本提供的信息,因此,它不受數(shù)據(jù)不足的影響或影響較小。分析學(xué)習(xí)的典型方法是基于解釋的學(xué)習(xí)(Explanation-BasedLearning ,簡(jiǎn)稱EBL )。它包括 2 個(gè)階段,分析階段、泛化階段。具體來(lái)說(shuō),首先使用先驗(yàn)知識(shí)來(lái)分析(或解釋)觀察到的學(xué)習(xí)樣本是如何滿足目標(biāo)概念的。得出訓(xùn)練樣本中哪些特征是相關(guān)的,哪些是無(wú)關(guān)的, 然后案例(樣本)就可以基于邏輯推理進(jìn)行泛化,而不必經(jīng)過(guò)統(tǒng)計(jì)推理得出。(9) 強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)的過(guò)程實(shí)際上就是給要學(xué)習(xí)的主體Agent 一個(gè)任務(wù), Agent 通過(guò)不斷感知環(huán)境,然后根據(jù)環(huán)境做出動(dòng)作的選擇;如果成

12、功,就對(duì)相應(yīng)的動(dòng)作做出獎(jiǎng)賞,如果失敗,就對(duì)相應(yīng)的動(dòng)作做出懲罰;通過(guò)不斷的學(xué)習(xí),最后會(huì)達(dá)到一個(gè)穩(wěn)態(tài)(以后 Agent 在相應(yīng)的環(huán)境下一定會(huì)做相應(yīng)動(dòng)作) 。強(qiáng)化學(xué)習(xí)一個(gè)最突出的優(yōu)點(diǎn)就是不要求有任何的先驗(yàn)知識(shí)。這是它跟前面的所有學(xué)習(xí)算法最根本的不同。以上提到的絕大多數(shù)算法都是可以應(yīng)用到Robocup 機(jī)器人足球仿真比賽當(dāng)中,但使用不同的學(xué)習(xí)算法得到的效果是不一樣。但是如果僅僅使用其中的一種,效果可能也達(dá)不到要求,因而可能需要不同的方法交叉使用,或根據(jù)不同的情況選擇特定的方法。7.2 個(gè)體技術(shù)的實(shí)現(xiàn)在 Robocup 中,設(shè)計(jì)球員的個(gè)體技術(shù)如帶球、傳球、截球、射門的時(shí)候一般是由更低級(jí)的動(dòng)作組成。 有時(shí)

13、候還要在這兩者之間還要加上一個(gè)中間層。就針對(duì)于這些基本動(dòng)作我們具體介紹一下它們的實(shí)現(xiàn)方法。7.2.1 截球( intercept)1. 問(wèn)題描述截球問(wèn)題可以歸納成如圖5.1 的一個(gè)簡(jiǎn)單的場(chǎng)景:白圓圈代表球,黑色的圓圈代表球員,dist 為球員到球的距離, 為球到球員之間的連線和球運(yùn)動(dòng)方向的夾角,speed 為球的即時(shí)的運(yùn)動(dòng)速度。球的速度隨運(yùn)動(dòng)衰減。截球問(wèn)題歸結(jié)為給定dist、 和 speed,決策出隊(duì)員正確的截球角度 ,或者是當(dāng)截到球時(shí),球運(yùn)動(dòng)的距離,并給出對(duì)截球所可能花的時(shí)間的估計(jì)。具體的運(yùn)動(dòng)模型見(jiàn) 2.7.2.8 相關(guān)的球員和球的運(yùn)動(dòng)模型。2. 解決方法1) 解析法通過(guò)示意圖和前面介紹的運(yùn)

14、動(dòng)模型我們可以通過(guò)列出關(guān)于時(shí)間的方程,然后采用Newton 迭代法求出方程的根,可以求出認(rèn)為可以求出3 個(gè)根,顯然第三個(gè)根的價(jià)值不是很大,目前關(guān)注的是前2 個(gè)根,然后根據(jù)高層策略選擇在哪個(gè)根對(duì)應(yīng)的點(diǎn)(前點(diǎn)和后點(diǎn))進(jìn)行截球。 TsinghuAeolus 目前采用的就是這種方法。2) 通過(guò)機(jī)器學(xué)習(xí)的方法進(jìn)行離線學(xué)習(xí)目前這是一種簡(jiǎn)單并且通用的方法,典型的方式是通過(guò)搜集大量成功的截球樣本(反應(yīng)為一些特征變量集) ,在使用這些樣本通過(guò)離線學(xué)習(xí)的方法形成一個(gè)決策函數(shù)。離線學(xué)習(xí)主要采用貝葉斯網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò);其中BP 網(wǎng)絡(luò)目前比較通用。CMU99 和 Hfut 目前采用這種方法。簡(jiǎn)要介紹一下BP 網(wǎng)絡(luò):BP

15、網(wǎng)絡(luò)的特點(diǎn)是信號(hào)由輸入層單向傳輸?shù)捷敵鰧?,同一層神?jīng)元之間不傳遞信息,每個(gè)神經(jīng)元與鄰層所有神經(jīng)元相連,連結(jié)權(quán)重用i j 表示, 各神經(jīng)元的作用函數(shù)為Sigmoid 函數(shù):f( x)1/(1e x )。同時(shí)它正向傳播信號(hào),反向傳播誤差。BP 網(wǎng)絡(luò)如下圖。隱含層是BP 網(wǎng)絡(luò)的基本特征之一,事實(shí)上如果沒(méi)有隱含層也就無(wú)所謂誤差的反向傳播了 。 但 對(duì) 隱 含 層 節(jié) 點(diǎn) 個(gè) 數(shù) 的 選 擇 到 目 前 為 止 還 沒(méi) 有 確 定 的 規(guī) 則 , 根 據(jù) 經(jīng) 驗(yàn) 公 式輸入層輸出層隱含層mn110BP 網(wǎng)絡(luò)示意圖(m 、n 表示輸入輸出節(jié)點(diǎn)的個(gè)數(shù)),由于我們這兒有3 個(gè)輸入, 所以我們選擇了 8 個(gè)節(jié)點(diǎn)

16、。中間隱含層也是使用了1 層,包括輸入和輸出總共3 層。在圖 4.2 所示的 BP 網(wǎng)絡(luò)結(jié)構(gòu)中, 設(shè)網(wǎng)絡(luò)輸入為x1, x2 , x3 ,輸出為y 。輸入層各神經(jīng)元的激發(fā)函數(shù)選用比例系數(shù)為1 的線性函數(shù),則網(wǎng)絡(luò)輸入層的輸出分別是經(jīng)元的輸入是:x1, x2, x3,隱層神3I ii j x j( i1,2,3,.7,8 ,)( 公 式 4.1)j 1神經(jīng)元的輸出為:Oi1/(1e I i ) ,(公 式 4.2)vi 為輸出層神經(jīng)元與隱層神經(jīng)元i 的連接權(quán),則網(wǎng)絡(luò)輸出為:8yviOi(公 式 4.3)i 1在由i j 、 vi 組成的連接權(quán)向量W 初始化之后,就可以在給定一組網(wǎng)絡(luò)輸入后,由上述式子

17、求出網(wǎng)絡(luò)的輸出y ,此為正向信號(hào)傳播過(guò)程。對(duì)某樣本 (x1p , x2 p , x3 p ;t p ) , p 為樣本數(shù) , 由正向計(jì)算得到y(tǒng)p , 定義網(wǎng)絡(luò)輸出誤差為:誤差函數(shù)為dpt pep1/ 2yp(公 式 4.4)2d p(公 式 4.5)一般的, W 值隨機(jī)給出,求得yp 后,誤差值較大,網(wǎng)絡(luò)計(jì)算精度不高。在確定網(wǎng)絡(luò)中隱層神經(jīng)元數(shù)目m的情況下,通過(guò)調(diào)整W 的值,逐步降低誤差d p ,以提高計(jì)算精度。在反向計(jì)算中,沿著誤差函數(shù)為值為W :Wep 隨W 變化的負(fù)梯度方向?qū) 進(jìn)行修正。 設(shè)W 的修正ep(公 式 4.6)W為學(xué)習(xí)率, 取 0-1 間的數(shù)。 該修正方法的弱點(diǎn)是收斂速度慢,

18、并存在能量函數(shù)局部最小值,在此對(duì)其增加附加動(dòng)量項(xiàng)進(jìn)行修正,即?。? n)ep(n 1)WW(公 式 4.7)WW( n)為第 n 次迭代計(jì)算時(shí)連接權(quán)的修正值,接權(quán)的修正值,為動(dòng)量因子。W (n1)為前一次迭代計(jì)算時(shí)所得的連將公式 4.4、4.5 公式 4.7,并加以推導(dǎo),求得對(duì)于樣本p 時(shí),W 中各元素為:(n)yp(n1)(n 1)vid pvivid pOi pvi( 公 式 4.8)w( n)dypw(n 1)d v O(1O) Xw( n 1)wi jpi jp ii pipjpi j i j最后采用迭代式W(公式 4.9)WW 對(duì)原 W 進(jìn)行修正計(jì)算,得到新的連接權(quán)向量W 。對(duì)于所有

19、的學(xué)習(xí)樣本,均按照樣本排列順序進(jìn)行上述的計(jì)算過(guò)程,從而求出學(xué)習(xí)樣本的能量函數(shù)值:pEep利用 E 值對(duì)網(wǎng)絡(luò)計(jì)算精度進(jìn)行評(píng)價(jià),當(dāng)E 值滿足 E0.00001 時(shí),停止迭代計(jì)算,否則, 進(jìn)行新一輪的迭代計(jì)算。訓(xùn)練時(shí),我們構(gòu)造出各種情況的截球場(chǎng)景( 傳球隊(duì)員固定位置,離散傳球速度和傳球隊(duì)員和截球隊(duì)員之間的相對(duì)坐標(biāo)x, y ) ,截球隊(duì)員使用各種角度截球,當(dāng)成功的截球時(shí),就將成功的數(shù)據(jù)記下。采集到的成功的數(shù)據(jù)送入神經(jīng)網(wǎng)絡(luò)用BP 算法進(jìn)行訓(xùn)練。神經(jīng)網(wǎng)絡(luò)作為一個(gè)記憶的載體記錄下這些成功的例子,能夠進(jìn)行實(shí)際各種場(chǎng)景的截球決策。3) 強(qiáng)化學(xué)習(xí)的方法進(jìn)行在線學(xué)習(xí)在使用強(qiáng)化學(xué)習(xí)的時(shí)候關(guān)鍵是確定狀態(tài)空間、動(dòng)作空間、

20、 目標(biāo)狀態(tài)、策略函數(shù)(代價(jià)函數(shù))以及價(jià)值函數(shù)。首先是確定狀態(tài)空間(s),也就是world state ,一般狀態(tài)空間都很大,在計(jì)算和存儲(chǔ)方面就存在很多困難,這也是目前強(qiáng)化學(xué)習(xí)往機(jī)器人足球中應(yīng)用的難點(diǎn)地方;這就需要進(jìn)行簡(jiǎn)化和處理。然后就是確定動(dòng)作集,一般把原子動(dòng)作作為動(dòng)作集。目標(biāo)狀態(tài)是停止學(xué)習(xí)的終止條件,在學(xué)習(xí)的時(shí)候一般把得到球作為目標(biāo)狀態(tài)。所謂策略函數(shù)就是在當(dāng)前的 狀態(tài)在選擇動(dòng)作的函數(shù),這樣的函數(shù)學(xué)要自己去設(shè)計(jì),原則是能夠把代價(jià)最小、利益最大的動(dòng)作選擇出來(lái)。而價(jià)值函數(shù)是在選擇一個(gè)特定動(dòng)作以后,是成功還是失敗,相應(yīng)的對(duì)這個(gè)狀態(tài)下的這個(gè)動(dòng)作的代價(jià)(利益)進(jìn)行相應(yīng)的修正,一般是加上(成功)、減去(失

21、?。┮粋€(gè) 值,經(jīng)過(guò)足夠長(zhǎng)的時(shí)間的學(xué)習(xí)就能達(dá)到一個(gè)穩(wěn)態(tài)(也就是價(jià)值函數(shù)的性能較好)。7.2.2 傳球( pass)1. 問(wèn)題描述相對(duì)截球而言,傳球更加復(fù)雜的一種動(dòng)作,主要原因是在傳球的時(shí)候?qū)嶋H上已經(jīng)引入2個(gè)球員進(jìn)行協(xié)作的問(wèn)題了。在設(shè)計(jì)時(shí)一般考慮2 種方式進(jìn)行傳球:傳給某一特定的人和傳到 某一點(diǎn)。對(duì)傳球進(jìn)行描述的時(shí)候,可以采用這種方式:描述傳球隊(duì)員的周圍環(huán)境,用狀態(tài)S 表示周圍的環(huán)境或提取環(huán)境的一些特征屬性向量A ( a1,a2, ,an)。根據(jù)這些S 或 A 來(lái)選擇合適的傳球方向和出球速度。2. 解決方法根據(jù)上面對(duì)傳球的描述,我們可以使用決策樹(shù)學(xué)習(xí)算法,也可以使用基于神經(jīng)網(wǎng)絡(luò)的計(jì)算學(xué)習(xí)方法。(1

22、). 決策樹(shù)學(xué)習(xí)算法:CMU 使用的就是這種學(xué)習(xí)算法,具體使用了C4.5 算法,在選擇下面的特征屬性: .傳球球員到接球者的距離和方向(2 個(gè))。 .傳球隊(duì)員到其他隊(duì)友(不包括接球隊(duì)員)的距離和方向(20 個(gè))。 .球球隊(duì)員到對(duì)手的隊(duì)員的距離和方向(22 個(gè))。 .經(jīng)排序(按距離)以后的接球隊(duì)員到隊(duì)友的距離和方向(20 個(gè))。 .經(jīng)排序(按距離)以后的接球隊(duì)員到對(duì)手的距離和方向(22 個(gè))。 .從傳球隊(duì)員到接球隊(duì)員之間的一些分布統(tǒng)計(jì)屬性(90 個(gè))。如以傳球隊(duì)員為中心,由接球隊(duì)員以及其他隊(duì)友構(gòu)成的扇形區(qū)域內(nèi)對(duì)方球員的數(shù)量等等。 .球員所在的區(qū)域特性(44 個(gè)) 。訓(xùn)練的時(shí)候, 首先設(shè)定傳球隊(duì)員

23、的位置,隨機(jī)設(shè)置接球和其他隊(duì)員的位置;傳球隊(duì)員確認(rèn)要傳球; 其他隊(duì)員進(jìn)行跑位;傳球隊(duì)員根據(jù)決策樹(shù)確定接球隊(duì)員。接球隊(duì)員和其他隊(duì)員(指對(duì)手球員) 都采用已經(jīng)訓(xùn)練好的截球動(dòng)作去獲得控球權(quán)。接球隊(duì)員獲得控球權(quán)就認(rèn)為是一次 成功的傳球,否則,就認(rèn)為失敗。(2) 基于神經(jīng)網(wǎng)絡(luò)的計(jì)算學(xué)習(xí)計(jì)算學(xué)習(xí)一直是機(jī)器學(xué)習(xí)的重要研究?jī)?nèi)容,它主要是通過(guò)計(jì)算的方法將那些錯(cuò)的很離譜的假設(shè)排除出去形成,通過(guò)計(jì)算機(jī)的快速計(jì)算能力得出最有可能的假設(shè)并把該假設(shè)認(rèn)為是可能近似正確( probably approximately correct ,PAC)。另一方面,神經(jīng)網(wǎng)絡(luò)集成作為一種新興的神經(jīng)計(jì)算方法,具有比單一神經(jīng)網(wǎng)絡(luò)系統(tǒng)更強(qiáng)的泛

24、化能力,因此, 如果將神經(jīng)網(wǎng)絡(luò)集成與計(jì)算學(xué)習(xí)相結(jié)合,將可望獲得更好的效果。在這一思想的基礎(chǔ)上,提出了一種基于神經(jīng)網(wǎng)絡(luò) 集成的計(jì)算學(xué)習(xí)算法,以神經(jīng)網(wǎng)絡(luò)集成作為計(jì)算學(xué)習(xí)的前端,首先利用其產(chǎn)生計(jì)算學(xué)習(xí)所用 的數(shù)據(jù)集, 在產(chǎn)生數(shù)據(jù)集時(shí),采用能夠較好地反映神經(jīng)網(wǎng)絡(luò)集成性能的數(shù)據(jù)生成方式,使得用于計(jì)算學(xué)習(xí)的示例能夠受益于神經(jīng)網(wǎng)絡(luò)集成的強(qiáng)泛化能力,以最終獲得較高的預(yù)測(cè)精度。在使用計(jì)算學(xué)習(xí)來(lái)進(jìn)行傳球訓(xùn)練的時(shí)候,首先是確定在特定傳球路線上的傳球速度的選擇。我們參考了清華23 的對(duì)傳球時(shí)穿越速度的概念。如圖4.4,假設(shè)白圓圈表示的1 號(hào)隊(duì)員要把球傳給用黑圓圈表示的2 號(hào)隊(duì)員, X 表示對(duì)手。線L 為對(duì)手和截球隊(duì)員

25、的垂直平分線。顯然對(duì)于垂直平分線與球軌跡的交點(diǎn)p 以內(nèi)的點(diǎn),對(duì)方隊(duì)員能比我方隊(duì)員能先跑到;反之,交點(diǎn)以外的點(diǎn),我方隊(duì)員先跑到。如果傳球隊(duì)員踢出速度大小合適的球,使得對(duì)手在交點(diǎn)以內(nèi)都無(wú)法截到球,那么我方隊(duì)員就必然可以比對(duì)方先截到球。如果以此速度踢出球,此隊(duì)員不能在該點(diǎn)以前截到球,而且以小于此速度的任何速度踢出球,對(duì)手都可能在該點(diǎn)以內(nèi)截到球,那么這個(gè)速度稱為對(duì)于某個(gè)隊(duì)員穿越在球運(yùn)動(dòng)軌跡上的某一點(diǎn)的穿越速度。也就是說(shuō),我們只要而且必須要以大于穿越速度的速度傳球,球就能傳到隊(duì)友腳下。注意到這個(gè)分析基于圖 4.4 隊(duì)友在對(duì)手后面的情況。如果反過(guò)來(lái),隊(duì)友在對(duì)手前,則傳球者應(yīng)該以小于隊(duì)友的穿越速度的速度傳球

26、,以保證隊(duì)友在交點(diǎn)以前截到球。對(duì)圖4.4 的情景,我們把 p 點(diǎn)以前的區(qū)域稱為對(duì)手的接球區(qū)域, p 點(diǎn)以后的稱為隊(duì)友的接球區(qū)域。對(duì)于隊(duì)友,穿越對(duì)手的穿越速度為傳球給他的速度的下限。 如果考慮隊(duì)友后面可能有一個(gè)對(duì)手, 則給他一個(gè)傳球速度上限的限制。圖 4.4 考慮了一個(gè)隊(duì)友和一個(gè)對(duì)手的簡(jiǎn)單傳球場(chǎng)景,多個(gè)對(duì)手和隊(duì)友的場(chǎng)景也有類似的分析。在一條傳球線路上,每個(gè)隊(duì)員(包括對(duì)手和隊(duì)友)或者沒(méi)有接球區(qū)域,或者有一個(gè)接球的區(qū)域和一個(gè)傳球速度的上、下限。首先,我們利用人工神經(jīng)網(wǎng)絡(luò)中的BP 網(wǎng)絡(luò),訓(xùn)練得到在特定傳球路線上面?zhèn)鹘o每個(gè)球員的穿越速度。第一步, 采集樣本。 確定傳球隊(duì)員的位置和隨機(jī)置接球隊(duì)員的初始位置

27、。在訓(xùn)練中傳球者從一個(gè)較小的速度開(kāi)始,沿傳球線路傳球,接球者利用訓(xùn)練好的截球技能進(jìn)行截球,如果截球點(diǎn)在圖4.4 的 p 點(diǎn)以前,則傳球者提高速度,繼續(xù)嘗試;否則,穿越速度為該次訓(xùn)練的傳球速度。如此這樣收集傳球隊(duì)員和接球之間不同的距離和角度情況下的穿越速度。第二步,用人工神經(jīng)網(wǎng)絡(luò)中的BP 網(wǎng)絡(luò)擬合得到傳給每個(gè)球員的穿越速度。其中輸入是傳球隊(duì)員和接球隊(duì)員的距離和傳球路線的方向和傳接球隊(duì)員之間連線的夾角,輸出是穿越速度。利用BP 得出每個(gè)球員在本方傳球時(shí)自己能夠接球的穿越速度作為我們計(jì)算學(xué)習(xí)的基礎(chǔ)。如果傳球到一點(diǎn)上面,那傳球路線就確定了,我們只要計(jì)算用什么樣的穿越速度就可以了。如果是傳給特定的球員,

28、可以根據(jù)穿越速度淘汰掉那些接球隊(duì)員沒(méi)有接球區(qū)域的傳球路線,選擇接球隊(duì)員的穿越速度區(qū)間最大的那條傳球路線(主要是增強(qiáng)系統(tǒng)的抗噪音性)作為我們的目標(biāo)傳球路線。計(jì)算學(xué)習(xí)要學(xué)習(xí)的就是在給定了場(chǎng)景(主要記錄的是傳球隊(duì)員和場(chǎng)上所友隊(duì)員的相對(duì)位置和角度)的情況下得出最佳的傳球路線。7.2.3Fastkick1. 問(wèn)題描述在 Soccer Server 中,隊(duì)員的身體和球都使用一個(gè)圓來(lái)表示,前相互之間的位置不允許有相互重疊的部分。當(dāng)球離隊(duì)員的距離小于某個(gè)值時(shí),這時(shí)隊(duì)員就可以向Server 法一個(gè)包括角度和力量?jī)蓚€(gè)參數(shù)的kick命令,對(duì)球施加一個(gè)矢量加速度。由于球的加速度有上下,且球有初始速度,因此常常無(wú)法通過(guò)

29、一個(gè)kick命令才能實(shí)現(xiàn)把球加速到所希望的速度上面去,也就是一個(gè)踢球動(dòng)作需要一系列周期的kick 命令才能實(shí)現(xiàn),這就需要Fastkick 。2.解決方法1) 直接經(jīng)驗(yàn)式代碼:將設(shè)計(jì)者的經(jīng)驗(yàn)直接寫成代碼進(jìn)行踢球決策。2) Case-base Learning:在這種方法中,控球范圍被離散成為一些點(diǎn)的集合,每周期的狀態(tài)用 4 個(gè)參數(shù)來(lái)描述(球員的速度、球的相對(duì)位置、期望的出球速度、可以到達(dá)的點(diǎn)的集合) 。然后構(gòu)造了若干個(gè)Case Bases,每個(gè) Case Bases都能根據(jù)輸入狀態(tài)來(lái)返回一個(gè)PDL ,這個(gè) PDL 描述了每個(gè)科到達(dá)的點(diǎn)作為中間點(diǎn)的好壞。3) 強(qiáng)化學(xué)習(xí):更前面提到的截球的相似,主要

30、是通過(guò)學(xué)習(xí)提高價(jià)值函數(shù)的性能。4) 清華提出的考慮對(duì)抗的強(qiáng)化學(xué)習(xí) Q 學(xué)習(xí)及在線規(guī)劃。 在這當(dāng)中, 用一張 Q 表來(lái)存儲(chǔ)狀態(tài) -動(dòng)作對(duì), 再把一些狀態(tài) (如這時(shí)球也對(duì)手的范圍之內(nèi)或球出界) 屏蔽掉。 然后進(jìn)行訓(xùn)練得出實(shí)戰(zhàn)時(shí)對(duì)抗性能更強(qiáng)的 Q 表。1總則1.1為了加強(qiáng)公司的環(huán)境衛(wèi)生管理,創(chuàng)造一個(gè)整潔、文明、溫馨的購(gòu)物、辦公環(huán)境,根據(jù)公共場(chǎng)所衛(wèi)生管理?xiàng)l例的要求,特制定本制度。1.2集團(tuán)公司的衛(wèi)生管理部門設(shè)在企管部,并負(fù)責(zé)將集團(tuán)公司的衛(wèi)生區(qū)域詳細(xì)劃分到各部室,各分公司所轄區(qū)域衛(wèi)生由分公司客服部負(fù)責(zé)劃分,確保無(wú)遺漏。2衛(wèi)生標(biāo)準(zhǔn)2.1室內(nèi)衛(wèi)生標(biāo)準(zhǔn)2.1.1地面、墻面:無(wú)灰塵、無(wú)紙屑、無(wú)痰跡、無(wú)泡泡糖等粘

31、合物、無(wú)積水,墻角無(wú)灰吊、無(wú)蜘蛛網(wǎng)。2.1.2門、窗、玻璃、鏡子、柱子、電梯、樓梯、燈具等,做到明亮、無(wú)灰塵、無(wú)污跡、無(wú)粘合物,特別是玻璃,要求兩面明亮。2.1.3柜臺(tái)、貨架:清潔干凈,貨架、柜臺(tái)底層及周圍無(wú)亂堆亂放現(xiàn)象、無(wú)灰塵、無(wú)粘合物,貨架頂部、背部和底部干凈,不存放雜物和私人物品。2.1.4購(gòu)物車(筐)、直接接觸食品的售貨工具(包括刀、叉等) :做到內(nèi)外潔凈,無(wú)污垢和粘合物等。購(gòu)物車(筐)要求每天營(yíng)業(yè)前簡(jiǎn)單清理,周五全面清理消毒;售貨工具要求每天消毒,并做好記錄。2.1.5商品及包裝:商品及外包裝清潔無(wú)灰塵(外包裝破損的或破舊的不得陳列)。2.1.6收款臺(tái)、服務(wù)臺(tái)、辦公櫥、存包柜:保持清

32、潔、無(wú)灰塵,臺(tái)面和側(cè)面無(wú)灰塵、無(wú)灰吊和蜘蛛網(wǎng)。桌面上不得亂貼、亂畫、亂堆放物品,用具擺放有序且干凈,除當(dāng)班的購(gòu)物小票收款聯(lián)外,其它單據(jù)不得存放在桌面上。2.1.7垃圾桶:桶內(nèi)外干凈,要求營(yíng)業(yè)時(shí)間隨時(shí)清理,不得溢出,每天下班前徹底清理,不得留有垃圾過(guò)夜。2.1.8窗簾:定期進(jìn)行清理,要求干凈、無(wú)污漬。2.1.9吊飾:屋頂?shù)牡躏椧鬅o(wú)灰塵、無(wú)蜘蛛網(wǎng),短期內(nèi)不適用的吊飾及時(shí)清理徹底。2.1.10內(nèi)、外倉(cāng)庫(kù):半年徹底清理一次,無(wú)垃圾、無(wú)積塵、無(wú)蜘蛛網(wǎng)等。2.1.11室內(nèi)其他附屬物及工作用具均以整潔為準(zhǔn),要求無(wú)灰塵、無(wú)粘合物等污垢。2.2室外衛(wèi)生標(biāo)準(zhǔn)2.2.1門前衛(wèi)生:地面每天班前清理,平時(shí)每一小時(shí)清理

33、一次,每周四營(yíng)業(yè)結(jié)束后有條件的用水沖洗地面(冬季可根據(jù)情況適當(dāng)清理) ,墻面干凈且無(wú)亂貼亂畫。2.2.2院落衛(wèi)生:院內(nèi)地面衛(wèi)生全天保潔,果皮箱、消防器械、護(hù)欄及配電箱等設(shè)施每周清理干凈。垃圾池周邊衛(wèi)生清理徹底,不得有垃圾溢出。2.2.3綠化區(qū)衛(wèi)生:做到無(wú)雜物、無(wú)紙屑、無(wú)塑料袋等垃圾。3清理程序3.1室內(nèi)和門前院落等區(qū)域衛(wèi)生: 每天營(yíng)業(yè)前提前 10 分鐘把所管轄區(qū)域內(nèi)衛(wèi)生清理完畢,營(yíng)業(yè)期間隨時(shí)保潔。下班后 5-10 分鐘清理桌面及衛(wèi)生區(qū)域。3.2綠化區(qū)衛(wèi)生:每周徹底清理一遍,隨時(shí)保持清潔無(wú)垃圾。4管理考核1總則1.1為了加強(qiáng)公司的環(huán)境衛(wèi)生管理,創(chuàng)造一個(gè)整潔、文明、溫馨的購(gòu)物、辦公環(huán)境,根據(jù)公共場(chǎng)

34、所衛(wèi)生管理?xiàng)l例的要求,特制定本制度。1.2集團(tuán)公司的衛(wèi)生管理部門設(shè)在企管部,并負(fù)責(zé)將集團(tuán)公司的衛(wèi)生區(qū)域詳細(xì)劃分到各部室,各分公司所轄區(qū)域衛(wèi)生由分公司客服部負(fù)責(zé)劃分,確保無(wú)遺漏。2衛(wèi)生標(biāo)準(zhǔn)2.1室內(nèi)衛(wèi)生標(biāo)準(zhǔn)2.1.1地面、墻面:無(wú)灰塵、無(wú)紙屑、無(wú)痰跡、無(wú)泡泡糖等粘合物、無(wú)積水,墻角無(wú)灰吊、無(wú)蜘蛛網(wǎng)。2.1.2門、窗、玻璃、鏡子、柱子、電梯、樓梯、燈具等,做到明亮、無(wú)灰塵、無(wú)污跡、無(wú)粘合物,特別是玻璃,要求兩面明亮。2.1.3柜臺(tái)、貨架:清潔干凈,貨架、柜臺(tái)底層及周圍無(wú)亂堆亂放現(xiàn)象、無(wú)灰塵、無(wú)粘合物,貨架頂部、背部和底部干凈,不存放雜物和私人物品。2.1.4購(gòu)物車(筐)、直接接觸食品的售貨工具(包

35、括刀、叉等) :做到內(nèi)外潔凈,無(wú)污垢和粘合物等。購(gòu)物車(筐)要求每天營(yíng)業(yè)前簡(jiǎn)單清理,周五全面清理消毒;售貨工具要求每天消毒,并做好記錄。2.1.5商品及包裝:商品及外包裝清潔無(wú)灰塵(外包裝破損的或破舊的不得陳列)。2.1.6收款臺(tái)、服務(wù)臺(tái)、辦公櫥、存包柜:保持清潔、無(wú)灰塵,臺(tái)面和側(cè)面無(wú)灰塵、無(wú)灰吊和蜘蛛網(wǎng)。桌面上不得亂貼、亂畫、亂堆放物品,用具擺放有序且干凈,除當(dāng)班的購(gòu)物小票收款聯(lián)外,其它單據(jù)不得存放在桌面上。2.1.7垃圾桶:桶內(nèi)外干凈,要求營(yíng)業(yè)時(shí)間隨時(shí)清理,不得溢出,每天下班前徹底清理,不得留有垃圾過(guò)夜。2.1.8窗簾:定期進(jìn)行清理,要求干凈、無(wú)污漬。2.1.9吊飾:屋頂?shù)牡躏椧鬅o(wú)灰塵、

36、無(wú)蜘蛛網(wǎng),短期內(nèi)不適用的吊飾及時(shí)清理徹底。2.1.10內(nèi)、外倉(cāng)庫(kù):半年徹底清理一次,無(wú)垃圾、無(wú)積塵、無(wú)蜘蛛網(wǎng)等。2.1.11室內(nèi)其他附屬物及工作用具均以整潔為準(zhǔn),要求無(wú)灰塵、無(wú)粘合物等污垢。2.2室外衛(wèi)生標(biāo)準(zhǔn)2.2.1門前衛(wèi)生:地面每天班前清理,平時(shí)每一小時(shí)清理一次,每周四營(yíng)業(yè)結(jié)束后有條件的用水沖洗地面(冬季可根據(jù)情況適當(dāng)清理) ,墻面干凈且無(wú)亂貼亂畫。2.2.2院落衛(wèi)生:院內(nèi)地面衛(wèi)生全天保潔,果皮箱、消防器械、護(hù)欄及配電箱等設(shè)施每周清理干凈。垃圾池周邊衛(wèi)生清理徹底,不得有垃圾溢出。2.2.3綠化區(qū)衛(wèi)生:做到無(wú)雜物、無(wú)紙屑、無(wú)塑料袋等垃圾。3清理程序3.1室內(nèi)和門前院落等區(qū)域衛(wèi)生: 每天營(yíng)業(yè)前

37、提前 10 分鐘把所管轄區(qū)域內(nèi)衛(wèi)生清理完畢,營(yíng)業(yè)期間隨時(shí)保潔。下班后 5-10 分鐘清理桌面及衛(wèi)生區(qū)域。3.2綠化區(qū)衛(wèi)生:每周徹底清理一遍,隨時(shí)保持清潔無(wú)垃圾。4管理考核第七章球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)在 Robocup 機(jī)器人足球比賽中, 球員的個(gè)人技術(shù)是很重要的。如果沒(méi)有很好的個(gè)體技術(shù), 再完美的配合也形成不起來(lái)。所謂個(gè)體技術(shù),主要是指球場(chǎng)上球員可以執(zhí)行的一些動(dòng)作,如傳球、阻截球、帶球、射門、盯人、守門員撲球、鏟球等;當(dāng)然這些動(dòng)作有的是不能直接發(fā)送給 Server 的,它們是由更低級(jí)的Server 可識(shí)別的原子動(dòng)作(dash、kick 、turn、tackle 等)組成,在發(fā)送的時(shí)候是發(fā)送這

38、些原子動(dòng)作序列。這些個(gè)人技術(shù)依賴于球員所觀察到的世界狀態(tài),以世界狀態(tài)為基礎(chǔ),簡(jiǎn)化后提取世界狀態(tài)的特征,根據(jù)一定的算法和數(shù)學(xué)模型做出合適的行為決定。提高球員的個(gè)體技術(shù)是我們的目標(biāo),一般是通過(guò)機(jī)器學(xué)習(xí) ( Machine Learning ,簡(jiǎn)稱 ML )、合適的數(shù)學(xué)模型進(jìn)行解析和經(jīng)驗(yàn)式來(lái)達(dá)到這一目標(biāo)的。其中數(shù)學(xué)解析的方法主要是建立各個(gè)動(dòng)作的數(shù)學(xué)模型,然后用解析幾何的方法進(jìn)行求解;這種方法是建立在對(duì)問(wèn)題的深入分析的基礎(chǔ)上面的,因此它的效率較高,當(dāng)由于在比賽當(dāng)中存在噪音精確性有時(shí)達(dá)不到理想的效果,同時(shí)也不是所有問(wèn)題都可以轉(zhuǎn)化成合適的、便于求解的數(shù)學(xué)模型。而經(jīng)驗(yàn)式的方法純粹是根據(jù)設(shè)計(jì)者的經(jīng)驗(yàn),通過(guò)類似

39、if .then的結(jié)構(gòu)來(lái)設(shè)計(jì)行為模式;這種方式的優(yōu)點(diǎn)是可以充分利用人的經(jīng)驗(yàn),但是他參數(shù)的調(diào)節(jié)比較繁瑣,并且魯棒性也不是很好。而機(jī)器學(xué)習(xí)的方法優(yōu)點(diǎn)則比較明顯,下面我們就介紹一下機(jī)器學(xué)習(xí)的方法和機(jī)器人足球中是如何應(yīng)用機(jī)器學(xué)習(xí)的。7.3 機(jī)器學(xué)習(xí)簡(jiǎn)介“機(jī)器學(xué)習(xí)” 一般被定義為一個(gè)系統(tǒng)自我改進(jìn)的過(guò)程。但僅僅從這個(gè)定義來(lái)理解和實(shí)現(xiàn) 機(jī)器學(xué)習(xí)是困難的。從最初的基于神經(jīng)元模型以及函數(shù)逼近論的方法研究,到以符號(hào)演算為基礎(chǔ)的規(guī)則學(xué)習(xí)和決策樹(shù)學(xué)習(xí)的產(chǎn)生,之后到認(rèn)知心理學(xué)中歸納、解釋、類比等概念的引入, 乃至最新的計(jì)算學(xué)習(xí)理論和統(tǒng)計(jì)方法學(xué)習(xí)(主要是指貝葉斯學(xué)習(xí)和基于馬爾可夫過(guò)程的強(qiáng)化學(xué)習(xí))的興起, 機(jī)器學(xué)習(xí)一直在包

40、括人工智能學(xué)科在內(nèi)的相關(guān)學(xué)科的實(shí)踐應(yīng)用中起著主導(dǎo)地位。然而, 根據(jù)學(xué)習(xí)的條件和領(lǐng)域的不同,具體的學(xué)習(xí)理論和算法也各不相同。本節(jié)列舉了常見(jiàn)的機(jī)器學(xué)習(xí)理論和相關(guān)的學(xué)習(xí)算法。如:概念學(xué)習(xí)、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)、基于實(shí)例的學(xué)習(xí)、遺傳算法、規(guī)則學(xué)習(xí)、分析學(xué)習(xí)(基于解釋的學(xué)習(xí))和強(qiáng)化學(xué)習(xí)等。(10) 概念學(xué)習(xí)所謂概念學(xué)習(xí)就是指通過(guò)給定某一類別的若干正例和反例,從中得出該類別一般定義的 學(xué)習(xí)方法。 它是一個(gè)從許多特例歸納而形成表示一般函數(shù)的方法。所以說(shuō), 概念學(xué)習(xí)可以看成是搜索預(yù)定義潛在的假設(shè)空間過(guò)程。是歸納法的一種。 它的主要設(shè)計(jì)過(guò)程是從一般到特殊序然后形成假設(shè)空間的過(guò)程。這個(gè)概念最初是由Brun

41、er et al.在 1957 年就提出了,在1970 年 Winston的博士論文 33 中將概念學(xué)習(xí)看成是包含泛化和特化操作的搜索過(guò)程。Simon和Lea34 在 1973 年將該學(xué)習(xí)的過(guò)程看成是一個(gè)在假設(shè)空間搜索的過(guò)程。(11) 決策樹(shù)學(xué)習(xí)決策樹(shù)學(xué)習(xí)是應(yīng)用最廣的歸納推理算法之一。它是一種逼近離散值函數(shù)的方法,一般該函數(shù)被表示成一顆樹(shù),樹(shù)一般包含多個(gè)if-then規(guī)則。這種學(xué)習(xí)方法對(duì)噪音數(shù)據(jù)有很好的健壯性。決策樹(shù)通過(guò)把實(shí)例從根節(jié)點(diǎn)排列(sort)到某個(gè)葉子節(jié)點(diǎn)來(lái)分類實(shí)例。葉子節(jié)點(diǎn)即為所屬的分類。 樹(shù)上的每個(gè)節(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,并且該節(jié)點(diǎn)的每個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值。

42、分類實(shí)例的方法是從這棵樹(shù)的根節(jié)點(diǎn)開(kāi)始,測(cè)試這個(gè)節(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng),一直遍歷到葉子。決策樹(shù)學(xué)習(xí)可以解決具有以下特征的問(wèn)題:實(shí)例是由“屬性-值”對(duì)表示的; .目標(biāo)函數(shù)具有離散的輸出值; .可能需要析取的描述; .訓(xùn)練數(shù)據(jù)可以包含錯(cuò)誤; .訓(xùn)練數(shù)據(jù)可以包含缺少屬性值的實(shí)例。決策樹(shù)學(xué)習(xí)的關(guān)鍵是對(duì)決策樹(shù)的構(gòu)造,典型的構(gòu)造決策樹(shù)的方法是ID3 算 法和C4.5 算法。這些算法是都是根據(jù)屬性的重要性來(lái)依次把各個(gè)屬性分配到相應(yīng)的結(jié)點(diǎn)上面去。(12) 人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法對(duì)于逼近實(shí)數(shù)值、離散值和向量值的目標(biāo)函數(shù)提供了一種健壯性很強(qiáng)的方法。 它是通過(guò)模擬人類大

43、腦的神經(jīng)元,形成具有輸入和輸出的單元結(jié)構(gòu)。對(duì)于某些類型的問(wèn)題, 如學(xué)習(xí)解釋復(fù)雜的現(xiàn)實(shí)世界的傳感器數(shù)據(jù),人工神經(jīng)網(wǎng)絡(luò)是目前最為有效的方 法。具有以下特征的問(wèn)題我們都可以用神經(jīng)網(wǎng)絡(luò)來(lái)解決: .實(shí)例是用很多“屬性-值”對(duì)表示的; .目標(biāo)函數(shù)的輸出可能是離散值、實(shí)數(shù)值或者由若干實(shí)數(shù)屬性或離散屬性組成的向量; .訓(xùn)練數(shù)據(jù)可能包含錯(cuò)誤; .可容忍長(zhǎng)時(shí)間的訓(xùn)練; .在實(shí)際應(yīng)用的時(shí)候可能需要快速求出目標(biāo)函數(shù)值; .人類能否理解學(xué)到的目標(biāo)函數(shù)是不重要的。人工神經(jīng)網(wǎng)絡(luò)主要訓(xùn)練感知器以及由感知器構(gòu)成的多層網(wǎng)絡(luò)結(jié)構(gòu)(包括前向和反饋網(wǎng) 絡(luò))。在神經(jīng)網(wǎng)絡(luò)里面的典型的模型有:自適應(yīng)共振、雙向聯(lián)想存儲(chǔ)器、反向傳遞、對(duì)流網(wǎng)、認(rèn)

44、識(shí)機(jī)、感知器、自組織映射網(wǎng)等(13) 貝葉斯學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)是貝葉斯網(wǎng)絡(luò)模型的構(gòu)建和對(duì)已存在貝葉斯網(wǎng)絡(luò)模型的優(yōu)化。由于可以利用的數(shù)據(jù)日益增加和數(shù)據(jù)越來(lái)越容易獲取,使得用數(shù)據(jù)來(lái)進(jìn)行貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)和條件概率表的學(xué)習(xí)變得十分可行,貝葉斯網(wǎng)絡(luò)的條件概率表的學(xué)習(xí)又常稱為貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)。(14) 基于案例的學(xué)習(xí)前面的方法都是根據(jù)一系列的訓(xùn)練樣本,然后形成一定的目標(biāo)函數(shù)把訓(xùn)練樣本一般化。而基于實(shí)例的學(xué)習(xí)則不然。 基于實(shí)例的學(xué)習(xí)方法只是簡(jiǎn)單地把訓(xùn)練樣本存儲(chǔ)起來(lái),從這些實(shí)例中泛化的工作被推遲到必須分類出新的實(shí)例時(shí)。 每當(dāng)學(xué)習(xí)器遇到一個(gè)新的查詢實(shí)例, 它分析這個(gè)新的實(shí)例與以前存儲(chǔ)的實(shí)例之間的關(guān)系,

45、并據(jù)此把一個(gè)目標(biāo)函數(shù)值賦給新的實(shí)例。基于案例的學(xué)習(xí)方法主要包括最近鄰法和局部加權(quán)回歸法,它們都假定實(shí)例可以表示為歐氏空間的點(diǎn)。此外,基于案例的學(xué)習(xí)方法還包括基于案例的推理,它對(duì)實(shí)例采用復(fù)雜的符號(hào)表示。基于案例的學(xué)習(xí)方法實(shí)際上是一個(gè)消極學(xué)習(xí)方法。(15) 遺傳算法遺傳算法是一種受生物進(jìn)化過(guò)程啟發(fā)的學(xué)習(xí)算法。遺傳算法研究的問(wèn)題是搜索候選假設(shè)空間并確定最佳的假設(shè),一般是通過(guò)變異和交叉重組當(dāng)前已知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。在遺傳算法中,假設(shè)一般用二進(jìn)制來(lái)表示(便于變異和交叉遺傳算子)。遺傳算法的設(shè)計(jì)有一個(gè)共同點(diǎn):算法迭代更新一個(gè)假設(shè)池(也稱之為群體)。每一次迭代中根據(jù)適應(yīng)度函數(shù)評(píng)估群體中的所有成員,

46、然后從當(dāng)前群體中用概率方法選取適應(yīng)度最高的個(gè)體產(chǎn)生新一代群體。在這些選取的個(gè)體中,一部分保持原樣進(jìn)入下一代群體,其他通過(guò)交叉和變異等遺傳的方法產(chǎn)生新的個(gè)體作為下一代群體的一部分。(16) 規(guī)則學(xué)習(xí)對(duì)學(xué)習(xí)得到的假設(shè),最具有表征力的和最能為人類所理解的表示方法之一為if-then規(guī)則的集合。而規(guī)則學(xué)習(xí)實(shí)際上就是學(xué)習(xí)這樣的規(guī)則。規(guī)則一般包括不含變量和含有變量的。不含變量的很容易理解和得到。最為重要的是學(xué)習(xí)含有變量的規(guī)則集合(也稱之為Horn 子句集合)。由于一階Horn子句集合可以被解釋為邏輯編程語(yǔ)言中的程序,所以學(xué)習(xí)的過(guò)程經(jīng)常被稱之為歸納邏輯編程(Inductive Logic Programmi

47、ng , 簡(jiǎn)稱ILP) 。(17) 分析學(xué)習(xí) (基于解釋的學(xué)習(xí))前面的方法都是歸納學(xué)習(xí)方法。這些歸納學(xué)習(xí)器在實(shí)踐中都有一個(gè)關(guān)鍵的限制就是學(xué)習(xí) 實(shí)例的數(shù)據(jù)不足時(shí)性能較差(這已經(jīng)被證明,參見(jiàn)文獻(xiàn)35 第七章)。而分析學(xué)習(xí)使用先驗(yàn)知識(shí)和演繹推理來(lái)擴(kuò)大訓(xùn)練樣本提供的信息,因此,它不受數(shù)據(jù)不足的影響或影響較小。分析學(xué)習(xí)的典型方法是基于解釋的學(xué)習(xí)(Explanation-BasedLearning ,簡(jiǎn)稱EBL )。它包括 2 個(gè)階段,分析階段、泛化階段。具體來(lái)說(shuō),首先使用先驗(yàn)知識(shí)來(lái)分析(或解釋)觀察到的學(xué)習(xí)樣本是如何滿足目標(biāo)概念的。得出訓(xùn)練樣本中哪些特征是相關(guān)的,哪些是無(wú)關(guān)的, 然后案例(樣本)就可以基

48、于邏輯推理進(jìn)行泛化,而不必經(jīng)過(guò)統(tǒng)計(jì)推理得出。(18) 強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)的過(guò)程實(shí)際上就是給要學(xué)習(xí)的主體Agent 一個(gè)任務(wù), Agent 通過(guò)不斷感知環(huán)境,然后根據(jù)環(huán)境做出動(dòng)作的選擇;如果成功,就對(duì)相應(yīng)的動(dòng)作做出獎(jiǎng)賞,如果失敗,就對(duì)相應(yīng)的動(dòng)作做出懲罰;通過(guò)不斷的學(xué)習(xí),最后會(huì)達(dá)到一個(gè)穩(wěn)態(tài)(以后 Agent 在相應(yīng)的環(huán)境下一定會(huì)做相應(yīng)動(dòng)作) 。強(qiáng)化學(xué)習(xí)一個(gè)最突出的優(yōu)點(diǎn)就是不要求有任何的先驗(yàn)知識(shí)。這是它跟前面的所有學(xué)習(xí)算法最根本的不同。以上提到的絕大多數(shù)算法都是可以應(yīng)用到Robocup 機(jī)器人足球仿真比賽當(dāng)中,但使用不同的學(xué)習(xí)算法得到的效果是不一樣。但是如果僅僅使用其中的一種,效果可能也達(dá)不到要求,因

49、而可能需要不同的方法交叉使用,或根據(jù)不同的情況選擇特定的方法。7.4 個(gè)體技術(shù)的實(shí)現(xiàn)在 Robocup 中,設(shè)計(jì)球員的個(gè)體技術(shù)如帶球、傳球、截球、射門的時(shí)候一般是由更低級(jí)的動(dòng)作組成。 有時(shí)候還要在這兩者之間還要加上一個(gè)中間層。就針對(duì)于這些基本動(dòng)作我們具體介紹一下它們的實(shí)現(xiàn)方法。7.4.1 截球( intercept)3. 問(wèn)題描述截球問(wèn)題可以歸納成如圖5.1 的一個(gè)簡(jiǎn)單的場(chǎng)景:白圓圈代表球,黑色的圓圈代表球員,dist 為球員到球的距離, 為球到球員之間的連線和球運(yùn)動(dòng)方向的夾角,speed 為球的即時(shí)的運(yùn)動(dòng)速度。球的速度隨運(yùn)動(dòng)衰減。截球問(wèn)題歸結(jié)為給定dist、 和 speed,決策出隊(duì)員正確的

50、截球角度 ,或者是當(dāng)截到球時(shí),球運(yùn)動(dòng)的距離,并給出對(duì)截球所可能花的時(shí)間的估計(jì)。具體的運(yùn)動(dòng)模型見(jiàn) 2.7.2.8 相關(guān)的球員和球的運(yùn)動(dòng)模型。4. 解決方法1) 解析法通過(guò)示意圖和前面介紹的運(yùn)動(dòng)模型我們可以通過(guò)列出關(guān)于時(shí)間的方程,然后采用Newton 迭代法求出方程的根,可以求出認(rèn)為可以求出3 個(gè)根,顯然第三個(gè)根的價(jià)值不是很大,目前關(guān)注的是前2 個(gè)根,然后根據(jù)高層策略選擇在哪個(gè)根對(duì)應(yīng)的點(diǎn)(前點(diǎn)和后點(diǎn))進(jìn)行截球。 TsinghuAeolus 目前采用的就是這種方法。2) 通過(guò)機(jī)器學(xué)習(xí)的方法進(jìn)行離線學(xué)習(xí)目前這是一種簡(jiǎn)單并且通用的方法,典型的方式是通過(guò)搜集大量成功的截球樣本(反應(yīng)為一些特征變量集) ,在

51、使用這些樣本通過(guò)離線學(xué)習(xí)的方法形成一個(gè)決策函數(shù)。離線學(xué)習(xí)主要采用貝葉斯網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò);其中BP 網(wǎng)絡(luò)目前比較通用。CMU99 和 Hfut 目前采用這種方法。簡(jiǎn)要介紹一下BP 網(wǎng)絡(luò):BP 網(wǎng)絡(luò)的特點(diǎn)是信號(hào)由輸入層單向傳輸?shù)捷敵鰧樱粚由窠?jīng)元之間不傳遞信息,每個(gè)神經(jīng)元與鄰層所有神經(jīng)元相連,連結(jié)權(quán)重用i j 表示, 各神經(jīng)元的作用函數(shù)為Sigmoid 函數(shù):f( x)1/(1e x )。同時(shí)它正向傳播信號(hào),反向傳播誤差。BP 網(wǎng)絡(luò)如下圖。隱含層是BP 網(wǎng)絡(luò)的基本特征之一,事實(shí)上如果沒(méi)有隱含層也就無(wú)所謂誤差的反向傳播了 。 但 對(duì) 隱 含 層 節(jié) 點(diǎn) 個(gè) 數(shù) 的 選 擇 到 目 前 為 止 還 沒(méi)

52、 有 確 定 的 規(guī) 則 , 根 據(jù) 經(jīng) 驗(yàn) 公 式輸入層輸出層隱含層mn110BP 網(wǎng)絡(luò)示意圖(m 、n 表示輸入輸出節(jié)點(diǎn)的個(gè)數(shù)),由于我們這兒有3 個(gè)輸入, 所以我們選擇了 8 個(gè)節(jié)點(diǎn)。中間隱含層也是使用了1 層,包括輸入和輸出總共3 層。在圖 4.2 所示的 BP 網(wǎng)絡(luò)結(jié)構(gòu)中, 設(shè)網(wǎng)絡(luò)輸入為x1, x2 , x3 ,輸出為y 。輸入層各神經(jīng)元的激發(fā)函數(shù)選用比例系數(shù)為1 的線性函數(shù),則網(wǎng)絡(luò)輸入層的輸出分別是經(jīng)元的輸入是:x1, x2, x3,隱層神3I ii j x j( i1,2,3,.7,8 ,)( 公 式 4.1)j 1神經(jīng)元的輸出為:Oi1/(1e I i ) ,(公 式 4.2)

53、vi 為輸出層神經(jīng)元與隱層神經(jīng)元i 的連接權(quán),則網(wǎng)絡(luò)輸出為:8yviOi(公 式 4.3)i 1在由i j 、 vi 組成的連接權(quán)向量W 初始化之后,就可以在給定一組網(wǎng)絡(luò)輸入后,由上述式子求出網(wǎng)絡(luò)的輸出y ,此為正向信號(hào)傳播過(guò)程。對(duì)某樣本 (x1p , x2 p , x3 p ;t p ) , p 為樣本數(shù) , 由正向計(jì)算得到y(tǒng)p , 定義網(wǎng)絡(luò)輸出誤差為:誤差函數(shù)為dpt pep1/ 2yp(公 式 4.4)2d p(公 式 4.5)一般的, W 值隨機(jī)給出,求得yp 后,誤差值較大,網(wǎng)絡(luò)計(jì)算精度不高。在確定網(wǎng)絡(luò)中隱層神經(jīng)元數(shù)目m的情況下,通過(guò)調(diào)整W 的值,逐步降低誤差d p ,以提高計(jì)算精度。在反向計(jì)算中,沿著誤差函數(shù)為值為W :Wep 隨W 變化的負(fù)梯度方向?qū) 進(jìn)行修正。 設(shè)W 的修正ep(公 式 4.6)W為學(xué)習(xí)率, 取 0-1 間的數(shù)。 該修正方法的弱點(diǎn)是收斂速度慢,并存在能量函數(shù)局部最小值,在此對(duì)其增加附加動(dòng)量項(xiàng)進(jìn)行修正,即?。? n)ep(n 1)WW(公 式 4.7)WW( n)為第 n 次迭代計(jì)算時(shí)連接權(quán)的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論