球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)參考范本

上傳人：A*** IP屬地：山東上傳時(shí)間：2022-02-16 格式：DOCX 頁(yè)數(shù)：18 大小：132.90KB 積分：12 舉報(bào) 版權(quán)申訴

球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)參考范本_第2頁(yè)

球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)參考范本_第3頁(yè)

球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)參考范本_第4頁(yè)

球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)參考范本_第5頁(yè)

已閱讀5頁(yè)，還剩13頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第七章球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)在 Robocup 機(jī)器人足球比賽中，球員的個(gè)人技術(shù)是很重要的。如果沒(méi)有很好的個(gè)體技術(shù)，再完美的配合也形成不起來(lái)。所謂個(gè)體技術(shù)，主要是指球場(chǎng)上球員可以執(zhí)行的一些動(dòng)作，如傳球、阻截球、帶球、射門、盯人、守門員撲球、鏟球等；當(dāng)然這些動(dòng)作有的是不能直接發(fā)送給 Server 的，它們是由更低級(jí)的Server 可識(shí)別的原子動(dòng)作（dash、kick 、turn、tackle 等）組成，在發(fā)送的時(shí)候是發(fā)送這些原子動(dòng)作序列。這些個(gè)人技術(shù)依賴于球員所觀察到的世界狀態(tài)，以世界狀態(tài)為基礎(chǔ)，簡(jiǎn)化后提取世界狀態(tài)的特征，根據(jù)一定的算法和數(shù)學(xué)模型做出合適的行為決定。提高球員的個(gè)體技術(shù)是我們

2、的目標(biāo)，一般是通過(guò)機(jī)器學(xué)習(xí) （ Machine Learning ，簡(jiǎn)稱 ML ）、合適的數(shù)學(xué)模型進(jìn)行解析和經(jīng)驗(yàn)式來(lái)達(dá)到這一目標(biāo)的。其中數(shù)學(xué)解析的方法主要是建立各個(gè)動(dòng)作的數(shù)學(xué)模型，然后用解析幾何的方法進(jìn)行求解；這種方法是建立在對(duì)問(wèn)題的深入分析的基礎(chǔ)上面的，因此它的效率較高，當(dāng)由于在比賽當(dāng)中存在噪音精確性有時(shí)達(dá)不到理想的效果，同時(shí)也不是所有問(wèn)題都可以轉(zhuǎn)化成合適的、便于求解的數(shù)學(xué)模型。而經(jīng)驗(yàn)式的方法純粹是根據(jù)設(shè)計(jì)者的經(jīng)驗(yàn)，通過(guò)類似if .then的結(jié)構(gòu)來(lái)設(shè)計(jì)行為模式；這種方式的優(yōu)點(diǎn)是可以充分利用人的經(jīng)驗(yàn)，但是他參數(shù)的調(diào)節(jié)比較繁瑣，并且魯棒性也不是很好。而機(jī)器學(xué)習(xí)的方法優(yōu)點(diǎn)則比較明顯，下面我們就介紹

3、一下機(jī)器學(xué)習(xí)的方法和機(jī)器人足球中是如何應(yīng)用機(jī)器學(xué)習(xí)的。7.1 機(jī)器學(xué)習(xí)簡(jiǎn)介“機(jī)器學(xué)習(xí)” 一般被定義為一個(gè)系統(tǒng)自我改進(jìn)的過(guò)程。但僅僅從這個(gè)定義來(lái)理解和實(shí)現(xiàn) 機(jī)器學(xué)習(xí)是困難的。從最初的基于神經(jīng)元模型以及函數(shù)逼近論的方法研究，到以符號(hào)演算為基礎(chǔ)的規(guī)則學(xué)習(xí)和決策樹(shù)學(xué)習(xí)的產(chǎn)生，之后到認(rèn)知心理學(xué)中歸納、解釋、類比等概念的引入，乃至最新的計(jì)算學(xué)習(xí)理論和統(tǒng)計(jì)方法學(xué)習(xí)（主要是指貝葉斯學(xué)習(xí)和基于馬爾可夫過(guò)程的強(qiáng)化學(xué)習(xí)）的興起，機(jī)器學(xué)習(xí)一直在包括人工智能學(xué)科在內(nèi)的相關(guān)學(xué)科的實(shí)踐應(yīng)用中起著主導(dǎo)地位。然而，根據(jù)學(xué)習(xí)的條件和領(lǐng)域的不同，具體的學(xué)習(xí)理論和算法也各不相同。本節(jié)列舉了常見(jiàn)的機(jī)器學(xué)習(xí)理論和相關(guān)的學(xué)習(xí)算法。如

4、：概念學(xué)習(xí)、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)、基于實(shí)例的學(xué)習(xí)、遺傳算法、規(guī)則學(xué)習(xí)、分析學(xué)習(xí)(基于解釋的學(xué)習(xí))和強(qiáng)化學(xué)習(xí)等。(1) 概念學(xué)習(xí)所謂概念學(xué)習(xí)就是指通過(guò)給定某一類別的若干正例和反例，從中得出該類別一般定義的學(xué)習(xí)方法。它是一個(gè)從許多特例歸納而形成表示一般函數(shù)的方法。所以說(shuō)，概念學(xué)習(xí)可以看成是搜索預(yù)定義潛在的假設(shè)空間過(guò)程。是歸納法的一種。它的主要設(shè)計(jì)過(guò)程是從一般到特殊序然后形成假設(shè)空間的過(guò)程。這個(gè)概念最初是由Bruner et al.在 1957 年就提出了，在1970 年 Winston的博士論文 33 中將概念學(xué)習(xí)看成是包含泛化和特化操作的搜索過(guò)程。Simon和Lea34 在 19

5、73 年將該學(xué)習(xí)的過(guò)程看成是一個(gè)在假設(shè)空間搜索的過(guò)程。(2) 決策樹(shù)學(xué)習(xí)決策樹(shù)學(xué)習(xí)是應(yīng)用最廣的歸納推理算法之一。它是一種逼近離散值函數(shù)的方法，一般該函數(shù)被表示成一顆樹(shù)，樹(shù)一般包含多個(gè)if-then規(guī)則。這種學(xué)習(xí)方法對(duì)噪音數(shù)據(jù)有很好的健壯性。決策樹(shù)通過(guò)把實(shí)例從根節(jié)點(diǎn)排列（sort）到某個(gè)葉子節(jié)點(diǎn)來(lái)分類實(shí)例。葉子節(jié)點(diǎn)即為所屬的分類。樹(shù)上的每個(gè)節(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試，并且該節(jié)點(diǎn)的每個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值。分類實(shí)例的方法是從這棵樹(shù)的根節(jié)點(diǎn)開(kāi)始，測(cè)試這個(gè)節(jié)點(diǎn)指定的屬性，然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng)，一直遍歷到葉子。決策樹(shù)學(xué)習(xí)可以解決具有以下特征的問(wèn)題：實(shí)例是由“屬

6、性-值”對(duì)表示的； .目標(biāo)函數(shù)具有離散的輸出值； .可能需要析取的描述； .訓(xùn)練數(shù)據(jù)可以包含錯(cuò)誤； .訓(xùn)練數(shù)據(jù)可以包含缺少屬性值的實(shí)例。決策樹(shù)學(xué)習(xí)的關(guān)鍵是對(duì)決策樹(shù)的構(gòu)造，典型的構(gòu)造決策樹(shù)的方法是ID3 算法和C4.5 算法。這些算法是都是根據(jù)屬性的重要性來(lái)依次把各個(gè)屬性分配到相應(yīng)的結(jié)點(diǎn)上面去。(3) 人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法對(duì)于逼近實(shí)數(shù)值、離散值和向量值的目標(biāo)函數(shù)提供了一種健壯性很強(qiáng)的方法。它是通過(guò)模擬人類大腦的神經(jīng)元，形成具有輸入和輸出的單元結(jié)構(gòu)。對(duì)于某些類型的問(wèn)題，如學(xué)習(xí)解釋復(fù)雜的現(xiàn)實(shí)世界的傳感器數(shù)據(jù)，人工神經(jīng)網(wǎng)絡(luò)是目前最為有效的方法。具有以下特征的問(wèn)題我們都可以用神經(jīng)網(wǎng)絡(luò)

7、來(lái)解決： .實(shí)例是用很多“屬性-值”對(duì)表示的； .目標(biāo)函數(shù)的輸出可能是離散值、實(shí)數(shù)值或者由若干實(shí)數(shù)屬性或離散屬性組成的向量； .訓(xùn)練數(shù)據(jù)可能包含錯(cuò)誤； .可容忍長(zhǎng)時(shí)間的訓(xùn)練； .在實(shí)際應(yīng)用的時(shí)候可能需要快速求出目標(biāo)函數(shù)值； .人類能否理解學(xué)到的目標(biāo)函數(shù)是不重要的。人工神經(jīng)網(wǎng)絡(luò)主要訓(xùn)練感知器以及由感知器構(gòu)成的多層網(wǎng)絡(luò)結(jié)構(gòu)（包括前向和反饋網(wǎng) 絡(luò)）。在神經(jīng)網(wǎng)絡(luò)里面的典型的模型有：自適應(yīng)共振、雙向聯(lián)想存儲(chǔ)器、反向傳遞、對(duì)流網(wǎng)、認(rèn)識(shí)機(jī)、感知器、自組織映射網(wǎng)等(4) 貝葉斯學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)是貝葉斯網(wǎng)絡(luò)模型的構(gòu)建和對(duì)已存在貝葉斯網(wǎng)絡(luò)模型的優(yōu)化。由于可以利用的數(shù)據(jù)日益增加和數(shù)據(jù)越來(lái)越容易獲取，使得用數(shù)據(jù)來(lái)

8、進(jìn)行貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)和條件概率表的學(xué)習(xí)變得十分可行，貝葉斯網(wǎng)絡(luò)的條件概率表的學(xué)習(xí)又常稱為貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)。(5) 基于案例的學(xué)習(xí)前面的方法都是根據(jù)一系列的訓(xùn)練樣本，然后形成一定的目標(biāo)函數(shù)把訓(xùn)練樣本一般化。而基于實(shí)例的學(xué)習(xí)則不然。基于實(shí)例的學(xué)習(xí)方法只是簡(jiǎn)單地把訓(xùn)練樣本存儲(chǔ)起來(lái)，從這些實(shí)例中泛化的工作被推遲到必須分類出新的實(shí)例時(shí)。每當(dāng)學(xué)習(xí)器遇到一個(gè)新的查詢實(shí)例，它分析這個(gè)新的實(shí)例與以前存儲(chǔ)的實(shí)例之間的關(guān)系，并據(jù)此把一個(gè)目標(biāo)函數(shù)值賦給新的實(shí)例?；诎咐膶W(xué)習(xí)方法主要包括最近鄰法和局部加權(quán)回歸法，它們都假定實(shí)例可以表示為歐氏空間的點(diǎn)。此外，基于案例的學(xué)習(xí)方法還包括基于案例的推理,它對(duì)實(shí)例

9、采用復(fù)雜的符號(hào)表示?；诎咐膶W(xué)習(xí)方法實(shí)際上是一個(gè)消極學(xué)習(xí)方法。(6) 遺傳算法遺傳算法是一種受生物進(jìn)化過(guò)程啟發(fā)的學(xué)習(xí)算法。遺傳算法研究的問(wèn)題是搜索候選假設(shè)空間并確定最佳的假設(shè)，一般是通過(guò)變異和交叉重組當(dāng)前已知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。在遺傳算法中，假設(shè)一般用二進(jìn)制來(lái)表示（便于變異和交叉遺傳算子）。遺傳算法的設(shè)計(jì)有一個(gè)共同點(diǎn)：算法迭代更新一個(gè)假設(shè)池（也稱之為群體）。每一次迭代中根據(jù)適應(yīng)度函數(shù)評(píng)估群體中的所有成員，然后從當(dāng)前群體中用概率方法選取適應(yīng)度最高的個(gè)體產(chǎn)生新一代群體。在這些選取的個(gè)體中，一部分保持原樣進(jìn)入下一代群體，其他通過(guò)交叉和變異等遺傳的方法產(chǎn)生新的個(gè)體作為下一代群體的一部分。(7

10、) 規(guī)則學(xué)習(xí)對(duì)學(xué)習(xí)得到的假設(shè)，最具有表征力的和最能為人類所理解的表示方法之一為if-then規(guī)則的集合。而規(guī)則學(xué)習(xí)實(shí)際上就是學(xué)習(xí)這樣的規(guī)則。規(guī)則一般包括不含變量和含有變量的。不含變量的很容易理解和得到。最為重要的是學(xué)習(xí)含有變量的規(guī)則集合（也稱之為Horn 子句集合）。由于一階Horn子句集合可以被解釋為邏輯編程語(yǔ)言中的程序，所以學(xué)習(xí)的過(guò)程經(jīng)常被稱之為歸納邏輯編程(Inductive Logic Programming ，簡(jiǎn)稱ILP) 。(8) 分析學(xué)習(xí) (基于解釋的學(xué)習(xí))前面的方法都是歸納學(xué)習(xí)方法。這些歸納學(xué)習(xí)器在實(shí)踐中都有一個(gè)關(guān)鍵的限制就是學(xué)習(xí) 實(shí)例的數(shù)據(jù)不足時(shí)性能較差（這已經(jīng)被證明，參見(jiàn)

11、文獻(xiàn)35 第七章）。而分析學(xué)習(xí)使用先驗(yàn)知識(shí)和演繹推理來(lái)擴(kuò)大訓(xùn)練樣本提供的信息，因此，它不受數(shù)據(jù)不足的影響或影響較小。分析學(xué)習(xí)的典型方法是基于解釋的學(xué)習(xí)（Explanation-BasedLearning ，簡(jiǎn)稱EBL ）。它包括 2 個(gè)階段，分析階段、泛化階段。具體來(lái)說(shuō)，首先使用先驗(yàn)知識(shí)來(lái)分析（或解釋）觀察到的學(xué)習(xí)樣本是如何滿足目標(biāo)概念的。得出訓(xùn)練樣本中哪些特征是相關(guān)的，哪些是無(wú)關(guān)的，然后案例（樣本）就可以基于邏輯推理進(jìn)行泛化，而不必經(jīng)過(guò)統(tǒng)計(jì)推理得出。(9) 強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)的過(guò)程實(shí)際上就是給要學(xué)習(xí)的主體Agent 一個(gè)任務(wù)， Agent 通過(guò)不斷感知環(huán)境，然后根據(jù)環(huán)境做出動(dòng)作的選擇；如果成

12、功，就對(duì)相應(yīng)的動(dòng)作做出獎(jiǎng)賞，如果失敗，就對(duì)相應(yīng)的動(dòng)作做出懲罰；通過(guò)不斷的學(xué)習(xí)，最后會(huì)達(dá)到一個(gè)穩(wěn)態(tài)（以后 Agent 在相應(yīng)的環(huán)境下一定會(huì)做相應(yīng)動(dòng)作）。強(qiáng)化學(xué)習(xí)一個(gè)最突出的優(yōu)點(diǎn)就是不要求有任何的先驗(yàn)知識(shí)。這是它跟前面的所有學(xué)習(xí)算法最根本的不同。以上提到的絕大多數(shù)算法都是可以應(yīng)用到Robocup 機(jī)器人足球仿真比賽當(dāng)中，但使用不同的學(xué)習(xí)算法得到的效果是不一樣。但是如果僅僅使用其中的一種，效果可能也達(dá)不到要求，因而可能需要不同的方法交叉使用，或根據(jù)不同的情況選擇特定的方法。7.2 個(gè)體技術(shù)的實(shí)現(xiàn)在 Robocup 中，設(shè)計(jì)球員的個(gè)體技術(shù)如帶球、傳球、截球、射門的時(shí)候一般是由更低級(jí)的動(dòng)作組成。有時(shí)

13、候還要在這兩者之間還要加上一個(gè)中間層。就針對(duì)于這些基本動(dòng)作我們具體介紹一下它們的實(shí)現(xiàn)方法。7.2.1 截球（ intercept）1. 問(wèn)題描述截球問(wèn)題可以歸納成如圖5.1 的一個(gè)簡(jiǎn)單的場(chǎng)景：白圓圈代表球，黑色的圓圈代表球員，dist 為球員到球的距離，為球到球員之間的連線和球運(yùn)動(dòng)方向的夾角，speed 為球的即時(shí)的運(yùn)動(dòng)速度。球的速度隨運(yùn)動(dòng)衰減。截球問(wèn)題歸結(jié)為給定dist、和 speed，決策出隊(duì)員正確的截球角度，或者是當(dāng)截到球時(shí)，球運(yùn)動(dòng)的距離，并給出對(duì)截球所可能花的時(shí)間的估計(jì)。具體的運(yùn)動(dòng)模型見(jiàn) 2.7.2.8 相關(guān)的球員和球的運(yùn)動(dòng)模型。2. 解決方法1) 解析法通過(guò)示意圖和前面介紹的運(yùn)

14、動(dòng)模型我們可以通過(guò)列出關(guān)于時(shí)間的方程，然后采用Newton 迭代法求出方程的根，可以求出認(rèn)為可以求出3 個(gè)根，顯然第三個(gè)根的價(jià)值不是很大，目前關(guān)注的是前2 個(gè)根，然后根據(jù)高層策略選擇在哪個(gè)根對(duì)應(yīng)的點(diǎn)（前點(diǎn)和后點(diǎn)）進(jìn)行截球。 TsinghuAeolus 目前采用的就是這種方法。2) 通過(guò)機(jī)器學(xué)習(xí)的方法進(jìn)行離線學(xué)習(xí)目前這是一種簡(jiǎn)單并且通用的方法，典型的方式是通過(guò)搜集大量成功的截球樣本（反應(yīng)為一些特征變量集），在使用這些樣本通過(guò)離線學(xué)習(xí)的方法形成一個(gè)決策函數(shù)。離線學(xué)習(xí)主要采用貝葉斯網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)；其中BP 網(wǎng)絡(luò)目前比較通用。CMU99 和 Hfut 目前采用這種方法。簡(jiǎn)要介紹一下BP 網(wǎng)絡(luò)：BP

15、網(wǎng)絡(luò)的特點(diǎn)是信號(hào)由輸入層單向傳輸?shù)捷敵鰧?，同一層神?jīng)元之間不傳遞信息，每個(gè)神經(jīng)元與鄰層所有神經(jīng)元相連，連結(jié)權(quán)重用i j 表示，各神經(jīng)元的作用函數(shù)為Sigmoid 函數(shù)：f( x)1/(1e x )。同時(shí)它正向傳播信號(hào)，反向傳播誤差。BP 網(wǎng)絡(luò)如下圖。隱含層是BP 網(wǎng)絡(luò)的基本特征之一，事實(shí)上如果沒(méi)有隱含層也就無(wú)所謂誤差的反向傳播了。但對(duì) 隱含層節(jié) 點(diǎn) 個(gè) 數(shù) 的選擇到目前為止還沒(méi) 有確定的規(guī) 則，根據(jù) 經(jīng) 驗(yàn) 公式輸入層輸出層隱含層mn110BP 網(wǎng)絡(luò)示意圖(m 、n 表示輸入輸出節(jié)點(diǎn)的個(gè)數(shù))，由于我們這兒有3 個(gè)輸入，所以我們選擇了 8 個(gè)節(jié)點(diǎn)

16、。中間隱含層也是使用了1 層，包括輸入和輸出總共3 層。在圖 4.2 所示的 BP 網(wǎng)絡(luò)結(jié)構(gòu)中，設(shè)網(wǎng)絡(luò)輸入為x1, x2 , x3 ，輸出為y 。輸入層各神經(jīng)元的激發(fā)函數(shù)選用比例系數(shù)為1 的線性函數(shù)，則網(wǎng)絡(luò)輸入層的輸出分別是經(jīng)元的輸入是:x1, x2, x3，隱層神3I ii j x j( i1,2,3,.7,8 ,)( 公式 4.1)j 1神經(jīng)元的輸出為：Oi1/(1e I i ) ，(公式 4.2)vi 為輸出層神經(jīng)元與隱層神經(jīng)元i 的連接權(quán)，則網(wǎng)絡(luò)輸出為:8yviOi(公式 4.3)i 1在由i j 、 vi 組成的連接權(quán)向量W 初始化之后，就可以在給定一組網(wǎng)絡(luò)輸入后，由上述式子

17、求出網(wǎng)絡(luò)的輸出y ，此為正向信號(hào)傳播過(guò)程。對(duì)某樣本 (x1p , x2 p , x3 p ;t p ) ， p 為樣本數(shù) , 由正向計(jì)算得到y(tǒng)p , 定義網(wǎng)絡(luò)輸出誤差為:誤差函數(shù)為dpt pep1/ 2yp(公式 4.4)2d p(公式 4.5)一般的， W 值隨機(jī)給出，求得yp 后，誤差值較大，網(wǎng)絡(luò)計(jì)算精度不高。在確定網(wǎng)絡(luò)中隱層神經(jīng)元數(shù)目m的情況下，通過(guò)調(diào)整W 的值，逐步降低誤差d p ，以提高計(jì)算精度。在反向計(jì)算中，沿著誤差函數(shù)為值為W :Wep 隨W 變化的負(fù)梯度方向?qū) 進(jìn)行修正。設(shè)W 的修正ep(公式 4.6)W為學(xué)習(xí)率，取 0-1 間的數(shù)。該修正方法的弱點(diǎn)是收斂速度慢，

18、并存在能量函數(shù)局部最小值，在此對(duì)其增加附加動(dòng)量項(xiàng)進(jìn)行修正，即?。? n)ep(n 1)WW(公式 4.7)WW( n)為第 n 次迭代計(jì)算時(shí)連接權(quán)的修正值，接權(quán)的修正值，為動(dòng)量因子。W (n1)為前一次迭代計(jì)算時(shí)所得的連將公式 4.4、4.5 公式 4.7，并加以推導(dǎo)，求得對(duì)于樣本p 時(shí)，W 中各元素為：(n)yp(n1)(n 1)vid pvivid pOi pvi( 公式 4.8)w( n)dypw(n 1)d v O(1O) Xw( n 1)wi jpi jp ii pipjpi j i j最后采用迭代式W(公式 4.9)WW 對(duì)原 W 進(jìn)行修正計(jì)算，得到新的連接權(quán)向量W 。對(duì)于所有

19、的學(xué)習(xí)樣本，均按照樣本排列順序進(jìn)行上述的計(jì)算過(guò)程，從而求出學(xué)習(xí)樣本的能量函數(shù)值：pEep利用 E 值對(duì)網(wǎng)絡(luò)計(jì)算精度進(jìn)行評(píng)價(jià)，當(dāng)E 值滿足 E0.00001 時(shí)，停止迭代計(jì)算，否則，進(jìn)行新一輪的迭代計(jì)算。訓(xùn)練時(shí)，我們構(gòu)造出各種情況的截球場(chǎng)景( 傳球隊(duì)員固定位置，離散傳球速度和傳球隊(duì)員和截球隊(duì)員之間的相對(duì)坐標(biāo)x, y ) ，截球隊(duì)員使用各種角度截球，當(dāng)成功的截球時(shí)，就將成功的數(shù)據(jù)記下。采集到的成功的數(shù)據(jù)送入神經(jīng)網(wǎng)絡(luò)用BP 算法進(jìn)行訓(xùn)練。神經(jīng)網(wǎng)絡(luò)作為一個(gè)記憶的載體記錄下這些成功的例子，能夠進(jìn)行實(shí)際各種場(chǎng)景的截球決策。3) 強(qiáng)化學(xué)習(xí)的方法進(jìn)行在線學(xué)習(xí)在使用強(qiáng)化學(xué)習(xí)的時(shí)候關(guān)鍵是確定狀態(tài)空間、動(dòng)作空間、

20、目標(biāo)狀態(tài)、策略函數(shù)（代價(jià)函數(shù)）以及價(jià)值函數(shù)。首先是確定狀態(tài)空間(s)，也就是world state ，一般狀態(tài)空間都很大，在計(jì)算和存儲(chǔ)方面就存在很多困難，這也是目前強(qiáng)化學(xué)習(xí)往機(jī)器人足球中應(yīng)用的難點(diǎn)地方；這就需要進(jìn)行簡(jiǎn)化和處理。然后就是確定動(dòng)作集，一般把原子動(dòng)作作為動(dòng)作集。目標(biāo)狀態(tài)是停止學(xué)習(xí)的終止條件，在學(xué)習(xí)的時(shí)候一般把得到球作為目標(biāo)狀態(tài)。所謂策略函數(shù)就是在當(dāng)前的狀態(tài)在選擇動(dòng)作的函數(shù)，這樣的函數(shù)學(xué)要自己去設(shè)計(jì)，原則是能夠把代價(jià)最小、利益最大的動(dòng)作選擇出來(lái)。而價(jià)值函數(shù)是在選擇一個(gè)特定動(dòng)作以后，是成功還是失敗，相應(yīng)的對(duì)這個(gè)狀態(tài)下的這個(gè)動(dòng)作的代價(jià)（利益）進(jìn)行相應(yīng)的修正，一般是加上（成功）、減去（失

21、?。┮粋€(gè) 值，經(jīng)過(guò)足夠長(zhǎng)的時(shí)間的學(xué)習(xí)就能達(dá)到一個(gè)穩(wěn)態(tài)（也就是價(jià)值函數(shù)的性能較好）。7.2.2 傳球（ pass）1. 問(wèn)題描述相對(duì)截球而言，傳球更加復(fù)雜的一種動(dòng)作，主要原因是在傳球的時(shí)候?qū)嶋H上已經(jīng)引入2個(gè)球員進(jìn)行協(xié)作的問(wèn)題了。在設(shè)計(jì)時(shí)一般考慮2 種方式進(jìn)行傳球：傳給某一特定的人和傳到某一點(diǎn)。對(duì)傳球進(jìn)行描述的時(shí)候，可以采用這種方式：描述傳球隊(duì)員的周圍環(huán)境，用狀態(tài)S 表示周圍的環(huán)境或提取環(huán)境的一些特征屬性向量A （ a1,a2, ,an）。根據(jù)這些S 或 A 來(lái)選擇合適的傳球方向和出球速度。2. 解決方法根據(jù)上面對(duì)傳球的描述，我們可以使用決策樹(shù)學(xué)習(xí)算法，也可以使用基于神經(jīng)網(wǎng)絡(luò)的計(jì)算學(xué)習(xí)方法。(1

22、). 決策樹(shù)學(xué)習(xí)算法：CMU 使用的就是這種學(xué)習(xí)算法，具體使用了C4.5 算法，在選擇下面的特征屬性： .傳球球員到接球者的距離和方向（2 個(gè)）。 .傳球隊(duì)員到其他隊(duì)友(不包括接球隊(duì)員)的距離和方向(20 個(gè))。 .球球隊(duì)員到對(duì)手的隊(duì)員的距離和方向(22 個(gè))。 .經(jīng)排序（按距離）以后的接球隊(duì)員到隊(duì)友的距離和方向(20 個(gè))。 .經(jīng)排序（按距離）以后的接球隊(duì)員到對(duì)手的距離和方向(22 個(gè))。 .從傳球隊(duì)員到接球隊(duì)員之間的一些分布統(tǒng)計(jì)屬性(90 個(gè))。如以傳球隊(duì)員為中心，由接球隊(duì)員以及其他隊(duì)友構(gòu)成的扇形區(qū)域內(nèi)對(duì)方球員的數(shù)量等等。 .球員所在的區(qū)域特性(44 個(gè)) 。訓(xùn)練的時(shí)候，首先設(shè)定傳球隊(duì)員

23、的位置，隨機(jī)設(shè)置接球和其他隊(duì)員的位置；傳球隊(duì)員確認(rèn)要傳球；其他隊(duì)員進(jìn)行跑位；傳球隊(duì)員根據(jù)決策樹(shù)確定接球隊(duì)員。接球隊(duì)員和其他隊(duì)員（指對(duì)手球員）都采用已經(jīng)訓(xùn)練好的截球動(dòng)作去獲得控球權(quán)。接球隊(duì)員獲得控球權(quán)就認(rèn)為是一次成功的傳球，否則，就認(rèn)為失敗。(2) 基于神經(jīng)網(wǎng)絡(luò)的計(jì)算學(xué)習(xí)計(jì)算學(xué)習(xí)一直是機(jī)器學(xué)習(xí)的重要研究?jī)?nèi)容，它主要是通過(guò)計(jì)算的方法將那些錯(cuò)的很離譜的假設(shè)排除出去形成，通過(guò)計(jì)算機(jī)的快速計(jì)算能力得出最有可能的假設(shè)并把該假設(shè)認(rèn)為是可能近似正確（ probably approximately correct ，PAC）。另一方面，神經(jīng)網(wǎng)絡(luò)集成作為一種新興的神經(jīng)計(jì)算方法，具有比單一神經(jīng)網(wǎng)絡(luò)系統(tǒng)更強(qiáng)的泛

24、化能力，因此，如果將神經(jīng)網(wǎng)絡(luò)集成與計(jì)算學(xué)習(xí)相結(jié)合，將可望獲得更好的效果。在這一思想的基礎(chǔ)上，提出了一種基于神經(jīng)網(wǎng)絡(luò) 集成的計(jì)算學(xué)習(xí)算法，以神經(jīng)網(wǎng)絡(luò)集成作為計(jì)算學(xué)習(xí)的前端，首先利用其產(chǎn)生計(jì)算學(xué)習(xí)所用的數(shù)據(jù)集，在產(chǎn)生數(shù)據(jù)集時(shí)，采用能夠較好地反映神經(jīng)網(wǎng)絡(luò)集成性能的數(shù)據(jù)生成方式，使得用于計(jì)算學(xué)習(xí)的示例能夠受益于神經(jīng)網(wǎng)絡(luò)集成的強(qiáng)泛化能力，以最終獲得較高的預(yù)測(cè)精度。在使用計(jì)算學(xué)習(xí)來(lái)進(jìn)行傳球訓(xùn)練的時(shí)候，首先是確定在特定傳球路線上的傳球速度的選擇。我們參考了清華23 的對(duì)傳球時(shí)穿越速度的概念。如圖4.4，假設(shè)白圓圈表示的1 號(hào)隊(duì)員要把球傳給用黑圓圈表示的2 號(hào)隊(duì)員， X 表示對(duì)手。線L 為對(duì)手和截球隊(duì)員

25、的垂直平分線。顯然對(duì)于垂直平分線與球軌跡的交點(diǎn)p 以內(nèi)的點(diǎn)，對(duì)方隊(duì)員能比我方隊(duì)員能先跑到；反之，交點(diǎn)以外的點(diǎn)，我方隊(duì)員先跑到。如果傳球隊(duì)員踢出速度大小合適的球，使得對(duì)手在交點(diǎn)以內(nèi)都無(wú)法截到球，那么我方隊(duì)員就必然可以比對(duì)方先截到球。如果以此速度踢出球，此隊(duì)員不能在該點(diǎn)以前截到球，而且以小于此速度的任何速度踢出球，對(duì)手都可能在該點(diǎn)以內(nèi)截到球,那么這個(gè)速度稱為對(duì)于某個(gè)隊(duì)員穿越在球運(yùn)動(dòng)軌跡上的某一點(diǎn)的穿越速度。也就是說(shuō)，我們只要而且必須要以大于穿越速度的速度傳球，球就能傳到隊(duì)友腳下。注意到這個(gè)分析基于圖 4.4 隊(duì)友在對(duì)手后面的情況。如果反過(guò)來(lái)，隊(duì)友在對(duì)手前，則傳球者應(yīng)該以小于隊(duì)友的穿越速度的速度傳球

26、，以保證隊(duì)友在交點(diǎn)以前截到球。對(duì)圖4.4 的情景，我們把 p 點(diǎn)以前的區(qū)域稱為對(duì)手的接球區(qū)域， p 點(diǎn)以后的稱為隊(duì)友的接球區(qū)域。對(duì)于隊(duì)友，穿越對(duì)手的穿越速度為傳球給他的速度的下限。如果考慮隊(duì)友后面可能有一個(gè)對(duì)手，則給他一個(gè)傳球速度上限的限制。圖 4.4 考慮了一個(gè)隊(duì)友和一個(gè)對(duì)手的簡(jiǎn)單傳球場(chǎng)景，多個(gè)對(duì)手和隊(duì)友的場(chǎng)景也有類似的分析。在一條傳球線路上，每個(gè)隊(duì)員（包括對(duì)手和隊(duì)友）或者沒(méi)有接球區(qū)域，或者有一個(gè)接球的區(qū)域和一個(gè)傳球速度的上、下限。首先，我們利用人工神經(jīng)網(wǎng)絡(luò)中的BP 網(wǎng)絡(luò)，訓(xùn)練得到在特定傳球路線上面?zhèn)鹘o每個(gè)球員的穿越速度。第一步，采集樣本。確定傳球隊(duì)員的位置和隨機(jī)置接球隊(duì)員的初始位置

27、。在訓(xùn)練中傳球者從一個(gè)較小的速度開(kāi)始，沿傳球線路傳球，接球者利用訓(xùn)練好的截球技能進(jìn)行截球，如果截球點(diǎn)在圖4.4 的 p 點(diǎn)以前，則傳球者提高速度，繼續(xù)嘗試；否則，穿越速度為該次訓(xùn)練的傳球速度。如此這樣收集傳球隊(duì)員和接球之間不同的距離和角度情況下的穿越速度。第二步，用人工神經(jīng)網(wǎng)絡(luò)中的BP 網(wǎng)絡(luò)擬合得到傳給每個(gè)球員的穿越速度。其中輸入是傳球隊(duì)員和接球隊(duì)員的距離和傳球路線的方向和傳接球隊(duì)員之間連線的夾角，輸出是穿越速度。利用BP 得出每個(gè)球員在本方傳球時(shí)自己能夠接球的穿越速度作為我們計(jì)算學(xué)習(xí)的基礎(chǔ)。如果傳球到一點(diǎn)上面，那傳球路線就確定了，我們只要計(jì)算用什么樣的穿越速度就可以了。如果是傳給特定的球員，

28、可以根據(jù)穿越速度淘汰掉那些接球隊(duì)員沒(méi)有接球區(qū)域的傳球路線，選擇接球隊(duì)員的穿越速度區(qū)間最大的那條傳球路線（主要是增強(qiáng)系統(tǒng)的抗噪音性）作為我們的目標(biāo)傳球路線。計(jì)算學(xué)習(xí)要學(xué)習(xí)的就是在給定了場(chǎng)景（主要記錄的是傳球隊(duì)員和場(chǎng)上所友隊(duì)員的相對(duì)位置和角度）的情況下得出最佳的傳球路線。7.2.3Fastkick1. 問(wèn)題描述在 Soccer Server 中，隊(duì)員的身體和球都使用一個(gè)圓來(lái)表示，前相互之間的位置不允許有相互重疊的部分。當(dāng)球離隊(duì)員的距離小于某個(gè)值時(shí)，這時(shí)隊(duì)員就可以向Server 法一個(gè)包括角度和力量?jī)蓚€(gè)參數(shù)的kick命令，對(duì)球施加一個(gè)矢量加速度。由于球的加速度有上下，且球有初始速度，因此常常無(wú)法通過(guò)

29、一個(gè)kick命令才能實(shí)現(xiàn)把球加速到所希望的速度上面去，也就是一個(gè)踢球動(dòng)作需要一系列周期的kick 命令才能實(shí)現(xiàn)，這就需要Fastkick 。2.解決方法1）直接經(jīng)驗(yàn)式代碼：將設(shè)計(jì)者的經(jīng)驗(yàn)直接寫成代碼進(jìn)行踢球決策。2） Case-base Learning：在這種方法中，控球范圍被離散成為一些點(diǎn)的集合，每周期的狀態(tài)用 4 個(gè)參數(shù)來(lái)描述（球員的速度、球的相對(duì)位置、期望的出球速度、可以到達(dá)的點(diǎn)的集合）。然后構(gòu)造了若干個(gè)Case Bases，每個(gè) Case Bases都能根據(jù)輸入狀態(tài)來(lái)返回一個(gè)PDL ，這個(gè) PDL 描述了每個(gè)科到達(dá)的點(diǎn)作為中間點(diǎn)的好壞。3）強(qiáng)化學(xué)習(xí)：更前面提到的截球的相似，主要

30、是通過(guò)學(xué)習(xí)提高價(jià)值函數(shù)的性能。4）清華提出的考慮對(duì)抗的強(qiáng)化學(xué)習(xí) Q 學(xué)習(xí)及在線規(guī)劃。在這當(dāng)中，用一張 Q 表來(lái)存儲(chǔ)狀態(tài) -動(dòng)作對(duì)，再把一些狀態(tài) （如這時(shí)球也對(duì)手的范圍之內(nèi)或球出界）屏蔽掉。然后進(jìn)行訓(xùn)練得出實(shí)戰(zhàn)時(shí)對(duì)抗性能更強(qiáng)的 Q 表。1總則1.1為了加強(qiáng)公司的環(huán)境衛(wèi)生管理，創(chuàng)造一個(gè)整潔、文明、溫馨的購(gòu)物、辦公環(huán)境，根據(jù)公共場(chǎng)所衛(wèi)生管理?xiàng)l例的要求，特制定本制度。1.2集團(tuán)公司的衛(wèi)生管理部門設(shè)在企管部，并負(fù)責(zé)將集團(tuán)公司的衛(wèi)生區(qū)域詳細(xì)劃分到各部室，各分公司所轄區(qū)域衛(wèi)生由分公司客服部負(fù)責(zé)劃分，確保無(wú)遺漏。2衛(wèi)生標(biāo)準(zhǔn)2.1室內(nèi)衛(wèi)生標(biāo)準(zhǔn)2.1.1地面、墻面：無(wú)灰塵、無(wú)紙屑、無(wú)痰跡、無(wú)泡泡糖等粘

31、合物、無(wú)積水，墻角無(wú)灰吊、無(wú)蜘蛛網(wǎng)。2.1.2門、窗、玻璃、鏡子、柱子、電梯、樓梯、燈具等，做到明亮、無(wú)灰塵、無(wú)污跡、無(wú)粘合物，特別是玻璃，要求兩面明亮。2.1.3柜臺(tái)、貨架：清潔干凈，貨架、柜臺(tái)底層及周圍無(wú)亂堆亂放現(xiàn)象、無(wú)灰塵、無(wú)粘合物，貨架頂部、背部和底部干凈，不存放雜物和私人物品。2.1.4購(gòu)物車（筐）、直接接觸食品的售貨工具（包括刀、叉等）：做到內(nèi)外潔凈，無(wú)污垢和粘合物等。購(gòu)物車（筐）要求每天營(yíng)業(yè)前簡(jiǎn)單清理，周五全面清理消毒；售貨工具要求每天消毒，并做好記錄。2.1.5商品及包裝：商品及外包裝清潔無(wú)灰塵（外包裝破損的或破舊的不得陳列）。2.1.6收款臺(tái)、服務(wù)臺(tái)、辦公櫥、存包柜：保持清

32、潔、無(wú)灰塵，臺(tái)面和側(cè)面無(wú)灰塵、無(wú)灰吊和蜘蛛網(wǎng)。桌面上不得亂貼、亂畫、亂堆放物品，用具擺放有序且干凈，除當(dāng)班的購(gòu)物小票收款聯(lián)外，其它單據(jù)不得存放在桌面上。2.1.7垃圾桶：桶內(nèi)外干凈，要求營(yíng)業(yè)時(shí)間隨時(shí)清理，不得溢出，每天下班前徹底清理，不得留有垃圾過(guò)夜。2.1.8窗簾：定期進(jìn)行清理，要求干凈、無(wú)污漬。2.1.9吊飾：屋頂?shù)牡躏椧鬅o(wú)灰塵、無(wú)蜘蛛網(wǎng)，短期內(nèi)不適用的吊飾及時(shí)清理徹底。2.1.10內(nèi)、外倉(cāng)庫(kù)：半年徹底清理一次，無(wú)垃圾、無(wú)積塵、無(wú)蜘蛛網(wǎng)等。2.1.11室內(nèi)其他附屬物及工作用具均以整潔為準(zhǔn)，要求無(wú)灰塵、無(wú)粘合物等污垢。2.2室外衛(wèi)生標(biāo)準(zhǔn)2.2.1門前衛(wèi)生：地面每天班前清理，平時(shí)每一小時(shí)清理

33、一次，每周四營(yíng)業(yè)結(jié)束后有條件的用水沖洗地面（冬季可根據(jù)情況適當(dāng)清理），墻面干凈且無(wú)亂貼亂畫。2.2.2院落衛(wèi)生：院內(nèi)地面衛(wèi)生全天保潔，果皮箱、消防器械、護(hù)欄及配電箱等設(shè)施每周清理干凈。垃圾池周邊衛(wèi)生清理徹底，不得有垃圾溢出。2.2.3綠化區(qū)衛(wèi)生：做到無(wú)雜物、無(wú)紙屑、無(wú)塑料袋等垃圾。3清理程序3.1室內(nèi)和門前院落等區(qū)域衛(wèi)生：每天營(yíng)業(yè)前提前 10 分鐘把所管轄區(qū)域內(nèi)衛(wèi)生清理完畢，營(yíng)業(yè)期間隨時(shí)保潔。下班后 5-10 分鐘清理桌面及衛(wèi)生區(qū)域。3.2綠化區(qū)衛(wèi)生：每周徹底清理一遍，隨時(shí)保持清潔無(wú)垃圾。4管理考核1總則1.1為了加強(qiáng)公司的環(huán)境衛(wèi)生管理，創(chuàng)造一個(gè)整潔、文明、溫馨的購(gòu)物、辦公環(huán)境，根據(jù)公共場(chǎng)

34、所衛(wèi)生管理?xiàng)l例的要求，特制定本制度。1.2集團(tuán)公司的衛(wèi)生管理部門設(shè)在企管部，并負(fù)責(zé)將集團(tuán)公司的衛(wèi)生區(qū)域詳細(xì)劃分到各部室，各分公司所轄區(qū)域衛(wèi)生由分公司客服部負(fù)責(zé)劃分，確保無(wú)遺漏。2衛(wèi)生標(biāo)準(zhǔn)2.1室內(nèi)衛(wèi)生標(biāo)準(zhǔn)2.1.1地面、墻面：無(wú)灰塵、無(wú)紙屑、無(wú)痰跡、無(wú)泡泡糖等粘合物、無(wú)積水，墻角無(wú)灰吊、無(wú)蜘蛛網(wǎng)。2.1.2門、窗、玻璃、鏡子、柱子、電梯、樓梯、燈具等，做到明亮、無(wú)灰塵、無(wú)污跡、無(wú)粘合物，特別是玻璃，要求兩面明亮。2.1.3柜臺(tái)、貨架：清潔干凈，貨架、柜臺(tái)底層及周圍無(wú)亂堆亂放現(xiàn)象、無(wú)灰塵、無(wú)粘合物，貨架頂部、背部和底部干凈，不存放雜物和私人物品。2.1.4購(gòu)物車（筐）、直接接觸食品的售貨工具（包

35、括刀、叉等）：做到內(nèi)外潔凈，無(wú)污垢和粘合物等。購(gòu)物車（筐）要求每天營(yíng)業(yè)前簡(jiǎn)單清理，周五全面清理消毒；售貨工具要求每天消毒，并做好記錄。2.1.5商品及包裝：商品及外包裝清潔無(wú)灰塵（外包裝破損的或破舊的不得陳列）。2.1.6收款臺(tái)、服務(wù)臺(tái)、辦公櫥、存包柜：保持清潔、無(wú)灰塵，臺(tái)面和側(cè)面無(wú)灰塵、無(wú)灰吊和蜘蛛網(wǎng)。桌面上不得亂貼、亂畫、亂堆放物品，用具擺放有序且干凈，除當(dāng)班的購(gòu)物小票收款聯(lián)外，其它單據(jù)不得存放在桌面上。2.1.7垃圾桶：桶內(nèi)外干凈，要求營(yíng)業(yè)時(shí)間隨時(shí)清理，不得溢出，每天下班前徹底清理，不得留有垃圾過(guò)夜。2.1.8窗簾：定期進(jìn)行清理，要求干凈、無(wú)污漬。2.1.9吊飾：屋頂?shù)牡躏椧鬅o(wú)灰塵、

36、無(wú)蜘蛛網(wǎng)，短期內(nèi)不適用的吊飾及時(shí)清理徹底。2.1.10內(nèi)、外倉(cāng)庫(kù)：半年徹底清理一次，無(wú)垃圾、無(wú)積塵、無(wú)蜘蛛網(wǎng)等。2.1.11室內(nèi)其他附屬物及工作用具均以整潔為準(zhǔn)，要求無(wú)灰塵、無(wú)粘合物等污垢。2.2室外衛(wèi)生標(biāo)準(zhǔn)2.2.1門前衛(wèi)生：地面每天班前清理，平時(shí)每一小時(shí)清理一次，每周四營(yíng)業(yè)結(jié)束后有條件的用水沖洗地面（冬季可根據(jù)情況適當(dāng)清理），墻面干凈且無(wú)亂貼亂畫。2.2.2院落衛(wèi)生：院內(nèi)地面衛(wèi)生全天保潔，果皮箱、消防器械、護(hù)欄及配電箱等設(shè)施每周清理干凈。垃圾池周邊衛(wèi)生清理徹底，不得有垃圾溢出。2.2.3綠化區(qū)衛(wèi)生：做到無(wú)雜物、無(wú)紙屑、無(wú)塑料袋等垃圾。3清理程序3.1室內(nèi)和門前院落等區(qū)域衛(wèi)生：每天營(yíng)業(yè)前

37、提前 10 分鐘把所管轄區(qū)域內(nèi)衛(wèi)生清理完畢，營(yíng)業(yè)期間隨時(shí)保潔。下班后 5-10 分鐘清理桌面及衛(wèi)生區(qū)域。3.2綠化區(qū)衛(wèi)生：每周徹底清理一遍，隨時(shí)保持清潔無(wú)垃圾。4管理考核第七章球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)在 Robocup 機(jī)器人足球比賽中，球員的個(gè)人技術(shù)是很重要的。如果沒(méi)有很好的個(gè)體技術(shù)，再完美的配合也形成不起來(lái)。所謂個(gè)體技術(shù)，主要是指球場(chǎng)上球員可以執(zhí)行的一些動(dòng)作，如傳球、阻截球、帶球、射門、盯人、守門員撲球、鏟球等；當(dāng)然這些動(dòng)作有的是不能直接發(fā)送給 Server 的，它們是由更低級(jí)的Server 可識(shí)別的原子動(dòng)作（dash、kick 、turn、tackle 等）組成，在發(fā)送的時(shí)候是發(fā)送這

38、些原子動(dòng)作序列。這些個(gè)人技術(shù)依賴于球員所觀察到的世界狀態(tài)，以世界狀態(tài)為基礎(chǔ)，簡(jiǎn)化后提取世界狀態(tài)的特征，根據(jù)一定的算法和數(shù)學(xué)模型做出合適的行為決定。提高球員的個(gè)體技術(shù)是我們的目標(biāo)，一般是通過(guò)機(jī)器學(xué)習(xí) （ Machine Learning ，簡(jiǎn)稱 ML ）、合適的數(shù)學(xué)模型進(jìn)行解析和經(jīng)驗(yàn)式來(lái)達(dá)到這一目標(biāo)的。其中數(shù)學(xué)解析的方法主要是建立各個(gè)動(dòng)作的數(shù)學(xué)模型，然后用解析幾何的方法進(jìn)行求解；這種方法是建立在對(duì)問(wèn)題的深入分析的基礎(chǔ)上面的，因此它的效率較高，當(dāng)由于在比賽當(dāng)中存在噪音精確性有時(shí)達(dá)不到理想的效果，同時(shí)也不是所有問(wèn)題都可以轉(zhuǎn)化成合適的、便于求解的數(shù)學(xué)模型。而經(jīng)驗(yàn)式的方法純粹是根據(jù)設(shè)計(jì)者的經(jīng)驗(yàn)，通過(guò)類似

39、if .then的結(jié)構(gòu)來(lái)設(shè)計(jì)行為模式；這種方式的優(yōu)點(diǎn)是可以充分利用人的經(jīng)驗(yàn)，但是他參數(shù)的調(diào)節(jié)比較繁瑣，并且魯棒性也不是很好。而機(jī)器學(xué)習(xí)的方法優(yōu)點(diǎn)則比較明顯，下面我們就介紹一下機(jī)器學(xué)習(xí)的方法和機(jī)器人足球中是如何應(yīng)用機(jī)器學(xué)習(xí)的。7.3 機(jī)器學(xué)習(xí)簡(jiǎn)介“機(jī)器學(xué)習(xí)” 一般被定義為一個(gè)系統(tǒng)自我改進(jìn)的過(guò)程。但僅僅從這個(gè)定義來(lái)理解和實(shí)現(xiàn) 機(jī)器學(xué)習(xí)是困難的。從最初的基于神經(jīng)元模型以及函數(shù)逼近論的方法研究，到以符號(hào)演算為基礎(chǔ)的規(guī)則學(xué)習(xí)和決策樹(shù)學(xué)習(xí)的產(chǎn)生，之后到認(rèn)知心理學(xué)中歸納、解釋、類比等概念的引入，乃至最新的計(jì)算學(xué)習(xí)理論和統(tǒng)計(jì)方法學(xué)習(xí)（主要是指貝葉斯學(xué)習(xí)和基于馬爾可夫過(guò)程的強(qiáng)化學(xué)習(xí)）的興起，機(jī)器學(xué)習(xí)一直在包

40、括人工智能學(xué)科在內(nèi)的相關(guān)學(xué)科的實(shí)踐應(yīng)用中起著主導(dǎo)地位。然而，根據(jù)學(xué)習(xí)的條件和領(lǐng)域的不同，具體的學(xué)習(xí)理論和算法也各不相同。本節(jié)列舉了常見(jiàn)的機(jī)器學(xué)習(xí)理論和相關(guān)的學(xué)習(xí)算法。如：概念學(xué)習(xí)、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、貝葉斯學(xué)習(xí)、基于實(shí)例的學(xué)習(xí)、遺傳算法、規(guī)則學(xué)習(xí)、分析學(xué)習(xí)(基于解釋的學(xué)習(xí))和強(qiáng)化學(xué)習(xí)等。(10) 概念學(xué)習(xí)所謂概念學(xué)習(xí)就是指通過(guò)給定某一類別的若干正例和反例，從中得出該類別一般定義的學(xué)習(xí)方法。它是一個(gè)從許多特例歸納而形成表示一般函數(shù)的方法。所以說(shuō)，概念學(xué)習(xí)可以看成是搜索預(yù)定義潛在的假設(shè)空間過(guò)程。是歸納法的一種。它的主要設(shè)計(jì)過(guò)程是從一般到特殊序然后形成假設(shè)空間的過(guò)程。這個(gè)概念最初是由Brun

41、er et al.在 1957 年就提出了，在1970 年 Winston的博士論文 33 中將概念學(xué)習(xí)看成是包含泛化和特化操作的搜索過(guò)程。Simon和Lea34 在 1973 年將該學(xué)習(xí)的過(guò)程看成是一個(gè)在假設(shè)空間搜索的過(guò)程。(11) 決策樹(shù)學(xué)習(xí)決策樹(shù)學(xué)習(xí)是應(yīng)用最廣的歸納推理算法之一。它是一種逼近離散值函數(shù)的方法，一般該函數(shù)被表示成一顆樹(shù)，樹(shù)一般包含多個(gè)if-then規(guī)則。這種學(xué)習(xí)方法對(duì)噪音數(shù)據(jù)有很好的健壯性。決策樹(shù)通過(guò)把實(shí)例從根節(jié)點(diǎn)排列（sort）到某個(gè)葉子節(jié)點(diǎn)來(lái)分類實(shí)例。葉子節(jié)點(diǎn)即為所屬的分類。樹(shù)上的每個(gè)節(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試，并且該節(jié)點(diǎn)的每個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值。

42、分類實(shí)例的方法是從這棵樹(shù)的根節(jié)點(diǎn)開(kāi)始，測(cè)試這個(gè)節(jié)點(diǎn)指定的屬性，然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng)，一直遍歷到葉子。決策樹(shù)學(xué)習(xí)可以解決具有以下特征的問(wèn)題：實(shí)例是由“屬性-值”對(duì)表示的； .目標(biāo)函數(shù)具有離散的輸出值； .可能需要析取的描述； .訓(xùn)練數(shù)據(jù)可以包含錯(cuò)誤； .訓(xùn)練數(shù)據(jù)可以包含缺少屬性值的實(shí)例。決策樹(shù)學(xué)習(xí)的關(guān)鍵是對(duì)決策樹(shù)的構(gòu)造，典型的構(gòu)造決策樹(shù)的方法是ID3 算法和C4.5 算法。這些算法是都是根據(jù)屬性的重要性來(lái)依次把各個(gè)屬性分配到相應(yīng)的結(jié)點(diǎn)上面去。(12) 人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法對(duì)于逼近實(shí)數(shù)值、離散值和向量值的目標(biāo)函數(shù)提供了一種健壯性很強(qiáng)的方法。它是通過(guò)模擬人類大

43、腦的神經(jīng)元，形成具有輸入和輸出的單元結(jié)構(gòu)。對(duì)于某些類型的問(wèn)題，如學(xué)習(xí)解釋復(fù)雜的現(xiàn)實(shí)世界的傳感器數(shù)據(jù)，人工神經(jīng)網(wǎng)絡(luò)是目前最為有效的方法。具有以下特征的問(wèn)題我們都可以用神經(jīng)網(wǎng)絡(luò)來(lái)解決： .實(shí)例是用很多“屬性-值”對(duì)表示的； .目標(biāo)函數(shù)的輸出可能是離散值、實(shí)數(shù)值或者由若干實(shí)數(shù)屬性或離散屬性組成的向量； .訓(xùn)練數(shù)據(jù)可能包含錯(cuò)誤； .可容忍長(zhǎng)時(shí)間的訓(xùn)練； .在實(shí)際應(yīng)用的時(shí)候可能需要快速求出目標(biāo)函數(shù)值； .人類能否理解學(xué)到的目標(biāo)函數(shù)是不重要的。人工神經(jīng)網(wǎng)絡(luò)主要訓(xùn)練感知器以及由感知器構(gòu)成的多層網(wǎng)絡(luò)結(jié)構(gòu)（包括前向和反饋網(wǎng) 絡(luò)）。在神經(jīng)網(wǎng)絡(luò)里面的典型的模型有：自適應(yīng)共振、雙向聯(lián)想存儲(chǔ)器、反向傳遞、對(duì)流網(wǎng)、認(rèn)

44、識(shí)機(jī)、感知器、自組織映射網(wǎng)等(13) 貝葉斯學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)是貝葉斯網(wǎng)絡(luò)模型的構(gòu)建和對(duì)已存在貝葉斯網(wǎng)絡(luò)模型的優(yōu)化。由于可以利用的數(shù)據(jù)日益增加和數(shù)據(jù)越來(lái)越容易獲取，使得用數(shù)據(jù)來(lái)進(jìn)行貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)和條件概率表的學(xué)習(xí)變得十分可行，貝葉斯網(wǎng)絡(luò)的條件概率表的學(xué)習(xí)又常稱為貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)。(14) 基于案例的學(xué)習(xí)前面的方法都是根據(jù)一系列的訓(xùn)練樣本，然后形成一定的目標(biāo)函數(shù)把訓(xùn)練樣本一般化。而基于實(shí)例的學(xué)習(xí)則不然。基于實(shí)例的學(xué)習(xí)方法只是簡(jiǎn)單地把訓(xùn)練樣本存儲(chǔ)起來(lái)，從這些實(shí)例中泛化的工作被推遲到必須分類出新的實(shí)例時(shí)。每當(dāng)學(xué)習(xí)器遇到一個(gè)新的查詢實(shí)例，它分析這個(gè)新的實(shí)例與以前存儲(chǔ)的實(shí)例之間的關(guān)系，

45、并據(jù)此把一個(gè)目標(biāo)函數(shù)值賦給新的實(shí)例。基于案例的學(xué)習(xí)方法主要包括最近鄰法和局部加權(quán)回歸法，它們都假定實(shí)例可以表示為歐氏空間的點(diǎn)。此外，基于案例的學(xué)習(xí)方法還包括基于案例的推理,它對(duì)實(shí)例采用復(fù)雜的符號(hào)表示。基于案例的學(xué)習(xí)方法實(shí)際上是一個(gè)消極學(xué)習(xí)方法。(15) 遺傳算法遺傳算法是一種受生物進(jìn)化過(guò)程啟發(fā)的學(xué)習(xí)算法。遺傳算法研究的問(wèn)題是搜索候選假設(shè)空間并確定最佳的假設(shè)，一般是通過(guò)變異和交叉重組當(dāng)前已知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。在遺傳算法中，假設(shè)一般用二進(jìn)制來(lái)表示（便于變異和交叉遺傳算子）。遺傳算法的設(shè)計(jì)有一個(gè)共同點(diǎn)：算法迭代更新一個(gè)假設(shè)池（也稱之為群體）。每一次迭代中根據(jù)適應(yīng)度函數(shù)評(píng)估群體中的所有成員，

46、然后從當(dāng)前群體中用概率方法選取適應(yīng)度最高的個(gè)體產(chǎn)生新一代群體。在這些選取的個(gè)體中，一部分保持原樣進(jìn)入下一代群體，其他通過(guò)交叉和變異等遺傳的方法產(chǎn)生新的個(gè)體作為下一代群體的一部分。(16) 規(guī)則學(xué)習(xí)對(duì)學(xué)習(xí)得到的假設(shè)，最具有表征力的和最能為人類所理解的表示方法之一為if-then規(guī)則的集合。而規(guī)則學(xué)習(xí)實(shí)際上就是學(xué)習(xí)這樣的規(guī)則。規(guī)則一般包括不含變量和含有變量的。不含變量的很容易理解和得到。最為重要的是學(xué)習(xí)含有變量的規(guī)則集合（也稱之為Horn 子句集合）。由于一階Horn子句集合可以被解釋為邏輯編程語(yǔ)言中的程序，所以學(xué)習(xí)的過(guò)程經(jīng)常被稱之為歸納邏輯編程(Inductive Logic Programmi

47、ng ，簡(jiǎn)稱ILP) 。(17) 分析學(xué)習(xí) (基于解釋的學(xué)習(xí))前面的方法都是歸納學(xué)習(xí)方法。這些歸納學(xué)習(xí)器在實(shí)踐中都有一個(gè)關(guān)鍵的限制就是學(xué)習(xí) 實(shí)例的數(shù)據(jù)不足時(shí)性能較差（這已經(jīng)被證明，參見(jiàn)文獻(xiàn)35 第七章）。而分析學(xué)習(xí)使用先驗(yàn)知識(shí)和演繹推理來(lái)擴(kuò)大訓(xùn)練樣本提供的信息，因此，它不受數(shù)據(jù)不足的影響或影響較小。分析學(xué)習(xí)的典型方法是基于解釋的學(xué)習(xí)（Explanation-BasedLearning ，簡(jiǎn)稱EBL ）。它包括 2 個(gè)階段，分析階段、泛化階段。具體來(lái)說(shuō)，首先使用先驗(yàn)知識(shí)來(lái)分析（或解釋）觀察到的學(xué)習(xí)樣本是如何滿足目標(biāo)概念的。得出訓(xùn)練樣本中哪些特征是相關(guān)的，哪些是無(wú)關(guān)的，然后案例（樣本）就可以基

48、于邏輯推理進(jìn)行泛化，而不必經(jīng)過(guò)統(tǒng)計(jì)推理得出。(18) 強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)的過(guò)程實(shí)際上就是給要學(xué)習(xí)的主體Agent 一個(gè)任務(wù)， Agent 通過(guò)不斷感知環(huán)境，然后根據(jù)環(huán)境做出動(dòng)作的選擇；如果成功，就對(duì)相應(yīng)的動(dòng)作做出獎(jiǎng)賞，如果失敗，就對(duì)相應(yīng)的動(dòng)作做出懲罰；通過(guò)不斷的學(xué)習(xí)，最后會(huì)達(dá)到一個(gè)穩(wěn)態(tài)（以后 Agent 在相應(yīng)的環(huán)境下一定會(huì)做相應(yīng)動(dòng)作）。強(qiáng)化學(xué)習(xí)一個(gè)最突出的優(yōu)點(diǎn)就是不要求有任何的先驗(yàn)知識(shí)。這是它跟前面的所有學(xué)習(xí)算法最根本的不同。以上提到的絕大多數(shù)算法都是可以應(yīng)用到Robocup 機(jī)器人足球仿真比賽當(dāng)中，但使用不同的學(xué)習(xí)算法得到的效果是不一樣。但是如果僅僅使用其中的一種，效果可能也達(dá)不到要求，因

49、而可能需要不同的方法交叉使用，或根據(jù)不同的情況選擇特定的方法。7.4 個(gè)體技術(shù)的實(shí)現(xiàn)在 Robocup 中，設(shè)計(jì)球員的個(gè)體技術(shù)如帶球、傳球、截球、射門的時(shí)候一般是由更低級(jí)的動(dòng)作組成。有時(shí)候還要在這兩者之間還要加上一個(gè)中間層。就針對(duì)于這些基本動(dòng)作我們具體介紹一下它們的實(shí)現(xiàn)方法。7.4.1 截球（ intercept）3. 問(wèn)題描述截球問(wèn)題可以歸納成如圖5.1 的一個(gè)簡(jiǎn)單的場(chǎng)景：白圓圈代表球，黑色的圓圈代表球員，dist 為球員到球的距離，為球到球員之間的連線和球運(yùn)動(dòng)方向的夾角，speed 為球的即時(shí)的運(yùn)動(dòng)速度。球的速度隨運(yùn)動(dòng)衰減。截球問(wèn)題歸結(jié)為給定dist、和 speed，決策出隊(duì)員正確的

50、截球角度，或者是當(dāng)截到球時(shí)，球運(yùn)動(dòng)的距離，并給出對(duì)截球所可能花的時(shí)間的估計(jì)。具體的運(yùn)動(dòng)模型見(jiàn) 2.7.2.8 相關(guān)的球員和球的運(yùn)動(dòng)模型。4. 解決方法1) 解析法通過(guò)示意圖和前面介紹的運(yùn)動(dòng)模型我們可以通過(guò)列出關(guān)于時(shí)間的方程，然后采用Newton 迭代法求出方程的根，可以求出認(rèn)為可以求出3 個(gè)根，顯然第三個(gè)根的價(jià)值不是很大，目前關(guān)注的是前2 個(gè)根，然后根據(jù)高層策略選擇在哪個(gè)根對(duì)應(yīng)的點(diǎn)（前點(diǎn)和后點(diǎn)）進(jìn)行截球。 TsinghuAeolus 目前采用的就是這種方法。2) 通過(guò)機(jī)器學(xué)習(xí)的方法進(jìn)行離線學(xué)習(xí)目前這是一種簡(jiǎn)單并且通用的方法，典型的方式是通過(guò)搜集大量成功的截球樣本（反應(yīng)為一些特征變量集），在

51、使用這些樣本通過(guò)離線學(xué)習(xí)的方法形成一個(gè)決策函數(shù)。離線學(xué)習(xí)主要采用貝葉斯網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)；其中BP 網(wǎng)絡(luò)目前比較通用。CMU99 和 Hfut 目前采用這種方法。簡(jiǎn)要介紹一下BP 網(wǎng)絡(luò)：BP 網(wǎng)絡(luò)的特點(diǎn)是信號(hào)由輸入層單向傳輸?shù)捷敵鰧樱粚由窠?jīng)元之間不傳遞信息，每個(gè)神經(jīng)元與鄰層所有神經(jīng)元相連，連結(jié)權(quán)重用i j 表示，各神經(jīng)元的作用函數(shù)為Sigmoid 函數(shù)：f( x)1/(1e x )。同時(shí)它正向傳播信號(hào)，反向傳播誤差。BP 網(wǎng)絡(luò)如下圖。隱含層是BP 網(wǎng)絡(luò)的基本特征之一，事實(shí)上如果沒(méi)有隱含層也就無(wú)所謂誤差的反向傳播了。但對(duì) 隱含層節(jié) 點(diǎn) 個(gè) 數(shù) 的選擇到目前為止還沒(méi)

52、有確定的規(guī) 則，根據(jù) 經(jīng) 驗(yàn) 公式輸入層輸出層隱含層mn110BP 網(wǎng)絡(luò)示意圖(m 、n 表示輸入輸出節(jié)點(diǎn)的個(gè)數(shù))，由于我們這兒有3 個(gè)輸入，所以我們選擇了 8 個(gè)節(jié)點(diǎn)。中間隱含層也是使用了1 層，包括輸入和輸出總共3 層。在圖 4.2 所示的 BP 網(wǎng)絡(luò)結(jié)構(gòu)中，設(shè)網(wǎng)絡(luò)輸入為x1, x2 , x3 ，輸出為y 。輸入層各神經(jīng)元的激發(fā)函數(shù)選用比例系數(shù)為1 的線性函數(shù)，則網(wǎng)絡(luò)輸入層的輸出分別是經(jīng)元的輸入是:x1, x2, x3，隱層神3I ii j x j( i1,2,3,.7,8 ,)( 公式 4.1)j 1神經(jīng)元的輸出為：Oi1/(1e I i ) ，(公式 4.2)

53、vi 為輸出層神經(jīng)元與隱層神經(jīng)元i 的連接權(quán)，則網(wǎng)絡(luò)輸出為:8yviOi(公式 4.3)i 1在由i j 、 vi 組成的連接權(quán)向量W 初始化之后，就可以在給定一組網(wǎng)絡(luò)輸入后，由上述式子求出網(wǎng)絡(luò)的輸出y ，此為正向信號(hào)傳播過(guò)程。對(duì)某樣本 (x1p , x2 p , x3 p ;t p ) ， p 為樣本數(shù) , 由正向計(jì)算得到y(tǒng)p , 定義網(wǎng)絡(luò)輸出誤差為:誤差函數(shù)為dpt pep1/ 2yp(公式 4.4)2d p(公式 4.5)一般的， W 值隨機(jī)給出，求得yp 后，誤差值較大，網(wǎng)絡(luò)計(jì)算精度不高。在確定網(wǎng)絡(luò)中隱層神經(jīng)元數(shù)目m的情況下，通過(guò)調(diào)整W 的值，逐步降低誤差d p ，以提高計(jì)算精度。在反向計(jì)算中，沿著誤差函數(shù)為值為W :Wep 隨W 變化的負(fù)梯度方向?qū) 進(jìn)行修正。設(shè)W 的修正ep(公式 4.6)W為學(xué)習(xí)率，取 0-1 間的數(shù)。該修正方法的弱點(diǎn)是收斂速度慢，并存在能量函數(shù)局部最小值，在此對(duì)其增加附加動(dòng)量項(xiàng)進(jìn)行修正，即?。? n)ep(n 1)WW(公式 4.7)WW( n)為第 n 次迭代計(jì)算時(shí)連接權(quán)的

人人文庫(kù)> 全部分類> 辦公材料 > 辦公文檔

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)參考范本

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

球員個(gè)體技術(shù)的學(xué)習(xí)及實(shí)現(xiàn)參考范本

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔