球員個體技術的學習及實現(xiàn)參考范本_第1頁
球員個體技術的學習及實現(xiàn)參考范本_第2頁
球員個體技術的學習及實現(xiàn)參考范本_第3頁
球員個體技術的學習及實現(xiàn)參考范本_第4頁
球員個體技術的學習及實現(xiàn)參考范本_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、第七章球員個體技術的學習及實現(xiàn)在 Robocup 機器人足球比賽中, 球員的個人技術是很重要的。如果沒有很好的個體技術, 再完美的配合也形成不起來。所謂個體技術,主要是指球場上球員可以執(zhí)行的一些動作,如傳球、阻截球、帶球、射門、盯人、守門員撲球、鏟球等;當然這些動作有的是不能直接發(fā)送給 Server 的,它們是由更低級的Server 可識別的原子動作(dash、kick 、turn、tackle 等)組成,在發(fā)送的時候是發(fā)送這些原子動作序列。這些個人技術依賴于球員所觀察到的世界狀態(tài),以世界狀態(tài)為基礎,簡化后提取世界狀態(tài)的特征,根據(jù)一定的算法和數(shù)學模型做出合適的行為決定。提高球員的個體技術是我們

2、的目標,一般是通過機器學習 ( Machine Learning ,簡稱 ML )、合適的數(shù)學模型進行解析和經(jīng)驗式來達到這一目標的。其中數(shù)學解析的方法主要是建立各個動作的數(shù)學模型,然后用解析幾何的方法進行求解;這種方法是建立在對問題的深入分析的基礎上面的,因此它的效率較高,當由于在比賽當中存在噪音精確性有時達不到理想的效果,同時也不是所有問題都可以轉(zhuǎn)化成合適的、便于求解的數(shù)學模型。而經(jīng)驗式的方法純粹是根據(jù)設計者的經(jīng)驗,通過類似if .then的結(jié)構(gòu)來設計行為模式;這種方式的優(yōu)點是可以充分利用人的經(jīng)驗,但是他參數(shù)的調(diào)節(jié)比較繁瑣,并且魯棒性也不是很好。而機器學習的方法優(yōu)點則比較明顯,下面我們就介紹

3、一下機器學習的方法和機器人足球中是如何應用機器學習的。7.1 機器學習簡介“機器學習” 一般被定義為一個系統(tǒng)自我改進的過程。但僅僅從這個定義來理解和實現(xiàn) 機器學習是困難的。從最初的基于神經(jīng)元模型以及函數(shù)逼近論的方法研究,到以符號演算為基礎的規(guī)則學習和決策樹學習的產(chǎn)生,之后到認知心理學中歸納、解釋、類比等概念的引入, 乃至最新的計算學習理論和統(tǒng)計方法學習(主要是指貝葉斯學習和基于馬爾可夫過程的強化學習)的興起, 機器學習一直在包括人工智能學科在內(nèi)的相關學科的實踐應用中起著主導地位。然而, 根據(jù)學習的條件和領域的不同,具體的學習理論和算法也各不相同。本節(jié)列舉了常見的機器學習理論和相關的學習算法。如

4、:概念學習、決策樹、神經(jīng)網(wǎng)絡、貝葉斯學習、基于實例的學習、遺傳算法、規(guī)則學習、分析學習(基于解釋的學習)和強化學習等。(1) 概念學習所謂概念學習就是指通過給定某一類別的若干正例和反例,從中得出該類別一般定義的 學習方法。 它是一個從許多特例歸納而形成表示一般函數(shù)的方法。所以說, 概念學習可以看成是搜索預定義潛在的假設空間過程。是歸納法的一種。 它的主要設計過程是從一般到特殊序然后形成假設空間的過程。這個概念最初是由Bruner et al.在 1957 年就提出了,在1970 年 Winston的博士論文 33 中將概念學習看成是包含泛化和特化操作的搜索過程。Simon和Lea34 在 19

5、73 年將該學習的過程看成是一個在假設空間搜索的過程。(2) 決策樹學習決策樹學習是應用最廣的歸納推理算法之一。它是一種逼近離散值函數(shù)的方法,一般該函數(shù)被表示成一顆樹,樹一般包含多個if-then規(guī)則。這種學習方法對噪音數(shù)據(jù)有很好的健壯性。決策樹通過把實例從根節(jié)點排列(sort)到某個葉子節(jié)點來分類實例。葉子節(jié)點即為所屬的分類。 樹上的每個節(jié)點說明了對實例的某個屬性的測試,并且該節(jié)點的每個后繼分支對應于該屬性的一個可能值。分類實例的方法是從這棵樹的根節(jié)點開始,測試這個節(jié)點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動,一直遍歷到葉子。決策樹學習可以解決具有以下特征的問題:實例是由“屬

6、性-值”對表示的; .目標函數(shù)具有離散的輸出值; .可能需要析取的描述; .訓練數(shù)據(jù)可以包含錯誤; .訓練數(shù)據(jù)可以包含缺少屬性值的實例。決策樹學習的關鍵是對決策樹的構(gòu)造,典型的構(gòu)造決策樹的方法是ID3 算 法和C4.5 算法。這些算法是都是根據(jù)屬性的重要性來依次把各個屬性分配到相應的結(jié)點上面去。(3) 人工神經(jīng)網(wǎng)絡人工神經(jīng)網(wǎng)絡學習方法對于逼近實數(shù)值、離散值和向量值的目標函數(shù)提供了一種健壯性很強的方法。 它是通過模擬人類大腦的神經(jīng)元,形成具有輸入和輸出的單元結(jié)構(gòu)。對于某些類型的問題, 如學習解釋復雜的現(xiàn)實世界的傳感器數(shù)據(jù),人工神經(jīng)網(wǎng)絡是目前最為有效的方 法。具有以下特征的問題我們都可以用神經(jīng)網(wǎng)絡

7、來解決: .實例是用很多“屬性-值”對表示的; .目標函數(shù)的輸出可能是離散值、實數(shù)值或者由若干實數(shù)屬性或離散屬性組成的向量; .訓練數(shù)據(jù)可能包含錯誤; .可容忍長時間的訓練; .在實際應用的時候可能需要快速求出目標函數(shù)值; .人類能否理解學到的目標函數(shù)是不重要的。人工神經(jīng)網(wǎng)絡主要訓練感知器以及由感知器構(gòu)成的多層網(wǎng)絡結(jié)構(gòu)(包括前向和反饋網(wǎng) 絡)。在神經(jīng)網(wǎng)絡里面的典型的模型有:自適應共振、雙向聯(lián)想存儲器、反向傳遞、對流網(wǎng)、認識機、感知器、自組織映射網(wǎng)等(4) 貝葉斯學習貝葉斯網(wǎng)絡的學習是貝葉斯網(wǎng)絡模型的構(gòu)建和對已存在貝葉斯網(wǎng)絡模型的優(yōu)化。由于可以利用的數(shù)據(jù)日益增加和數(shù)據(jù)越來越容易獲取,使得用數(shù)據(jù)來

8、進行貝葉斯網(wǎng)絡的結(jié)構(gòu)學習和條件概率表的學習變得十分可行,貝葉斯網(wǎng)絡的條件概率表的學習又常稱為貝葉斯網(wǎng)絡的參數(shù)學習。(5) 基于案例的學習前面的方法都是根據(jù)一系列的訓練樣本,然后形成一定的目標函數(shù)把訓練樣本一般化。而基于實例的學習則不然。 基于實例的學習方法只是簡單地把訓練樣本存儲起來,從這些實例中泛化的工作被推遲到必須分類出新的實例時。 每當學習器遇到一個新的查詢實例, 它分析這個新的實例與以前存儲的實例之間的關系,并據(jù)此把一個目標函數(shù)值賦給新的實例?;诎咐膶W習方法主要包括最近鄰法和局部加權(quán)回歸法,它們都假定實例可以表示為歐氏空間的點。此外,基于案例的學習方法還包括基于案例的推理,它對實例

9、采用復雜的符號表示?;诎咐膶W習方法實際上是一個消極學習方法。(6) 遺傳算法遺傳算法是一種受生物進化過程啟發(fā)的學習算法。遺傳算法研究的問題是搜索候選假設空間并確定最佳的假設,一般是通過變異和交叉重組當前已知的最好假設來生成后續(xù)的假設。在遺傳算法中,假設一般用二進制來表示(便于變異和交叉遺傳算子)。遺傳算法的設計有一個共同點:算法迭代更新一個假設池(也稱之為群體)。每一次迭代中根據(jù)適應度函數(shù)評估群體中的所有成員,然后從當前群體中用概率方法選取適應度最高的個體產(chǎn)生新一代群體。在這些選取的個體中,一部分保持原樣進入下一代群體,其他通過交叉和變異等遺傳的方法產(chǎn)生新的個體作為下一代群體的一部分。(7

10、) 規(guī)則學習對學習得到的假設,最具有表征力的和最能為人類所理解的表示方法之一為if-then規(guī)則的集合。而規(guī)則學習實際上就是學習這樣的規(guī)則。規(guī)則一般包括不含變量和含有變量的。不含變量的很容易理解和得到。最為重要的是學習含有變量的規(guī)則集合(也稱之為Horn 子句集合)。由于一階Horn子句集合可以被解釋為邏輯編程語言中的程序,所以學習的過程經(jīng)常被稱之為歸納邏輯編程(Inductive Logic Programming , 簡稱ILP) 。(8) 分析學習 (基于解釋的學習)前面的方法都是歸納學習方法。這些歸納學習器在實踐中都有一個關鍵的限制就是學習 實例的數(shù)據(jù)不足時性能較差(這已經(jīng)被證明,參見

11、文獻35 第七章)。而分析學習使用先驗知識和演繹推理來擴大訓練樣本提供的信息,因此,它不受數(shù)據(jù)不足的影響或影響較小。分析學習的典型方法是基于解釋的學習(Explanation-BasedLearning ,簡稱EBL )。它包括 2 個階段,分析階段、泛化階段。具體來說,首先使用先驗知識來分析(或解釋)觀察到的學習樣本是如何滿足目標概念的。得出訓練樣本中哪些特征是相關的,哪些是無關的, 然后案例(樣本)就可以基于邏輯推理進行泛化,而不必經(jīng)過統(tǒng)計推理得出。(9) 強化學習強化學習的過程實際上就是給要學習的主體Agent 一個任務, Agent 通過不斷感知環(huán)境,然后根據(jù)環(huán)境做出動作的選擇;如果成

12、功,就對相應的動作做出獎賞,如果失敗,就對相應的動作做出懲罰;通過不斷的學習,最后會達到一個穩(wěn)態(tài)(以后 Agent 在相應的環(huán)境下一定會做相應動作) 。強化學習一個最突出的優(yōu)點就是不要求有任何的先驗知識。這是它跟前面的所有學習算法最根本的不同。以上提到的絕大多數(shù)算法都是可以應用到Robocup 機器人足球仿真比賽當中,但使用不同的學習算法得到的效果是不一樣。但是如果僅僅使用其中的一種,效果可能也達不到要求,因而可能需要不同的方法交叉使用,或根據(jù)不同的情況選擇特定的方法。7.2 個體技術的實現(xiàn)在 Robocup 中,設計球員的個體技術如帶球、傳球、截球、射門的時候一般是由更低級的動作組成。 有時

13、候還要在這兩者之間還要加上一個中間層。就針對于這些基本動作我們具體介紹一下它們的實現(xiàn)方法。7.2.1 截球( intercept)1. 問題描述截球問題可以歸納成如圖5.1 的一個簡單的場景:白圓圈代表球,黑色的圓圈代表球員,dist 為球員到球的距離, 為球到球員之間的連線和球運動方向的夾角,speed 為球的即時的運動速度。球的速度隨運動衰減。截球問題歸結(jié)為給定dist、 和 speed,決策出隊員正確的截球角度 ,或者是當截到球時,球運動的距離,并給出對截球所可能花的時間的估計。具體的運動模型見 2.7.2.8 相關的球員和球的運動模型。2. 解決方法1) 解析法通過示意圖和前面介紹的運

14、動模型我們可以通過列出關于時間的方程,然后采用Newton 迭代法求出方程的根,可以求出認為可以求出3 個根,顯然第三個根的價值不是很大,目前關注的是前2 個根,然后根據(jù)高層策略選擇在哪個根對應的點(前點和后點)進行截球。 TsinghuAeolus 目前采用的就是這種方法。2) 通過機器學習的方法進行離線學習目前這是一種簡單并且通用的方法,典型的方式是通過搜集大量成功的截球樣本(反應為一些特征變量集) ,在使用這些樣本通過離線學習的方法形成一個決策函數(shù)。離線學習主要采用貝葉斯網(wǎng)絡和神經(jīng)網(wǎng)絡;其中BP 網(wǎng)絡目前比較通用。CMU99 和 Hfut 目前采用這種方法。簡要介紹一下BP 網(wǎng)絡:BP

15、網(wǎng)絡的特點是信號由輸入層單向傳輸?shù)捷敵鰧?,同一層神?jīng)元之間不傳遞信息,每個神經(jīng)元與鄰層所有神經(jīng)元相連,連結(jié)權(quán)重用i j 表示, 各神經(jīng)元的作用函數(shù)為Sigmoid 函數(shù):f( x)1/(1e x )。同時它正向傳播信號,反向傳播誤差。BP 網(wǎng)絡如下圖。隱含層是BP 網(wǎng)絡的基本特征之一,事實上如果沒有隱含層也就無所謂誤差的反向傳播了 。 但 對 隱 含 層 節(jié) 點 個 數(shù) 的 選 擇 到 目 前 為 止 還 沒 有 確 定 的 規(guī) 則 , 根 據(jù) 經(jīng) 驗 公 式輸入層輸出層隱含層mn110BP 網(wǎng)絡示意圖(m 、n 表示輸入輸出節(jié)點的個數(shù)),由于我們這兒有3 個輸入, 所以我們選擇了 8 個節(jié)點

16、。中間隱含層也是使用了1 層,包括輸入和輸出總共3 層。在圖 4.2 所示的 BP 網(wǎng)絡結(jié)構(gòu)中, 設網(wǎng)絡輸入為x1, x2 , x3 ,輸出為y 。輸入層各神經(jīng)元的激發(fā)函數(shù)選用比例系數(shù)為1 的線性函數(shù),則網(wǎng)絡輸入層的輸出分別是經(jīng)元的輸入是:x1, x2, x3,隱層神3I ii j x j( i1,2,3,.7,8 ,)( 公 式 4.1)j 1神經(jīng)元的輸出為:Oi1/(1e I i ) ,(公 式 4.2)vi 為輸出層神經(jīng)元與隱層神經(jīng)元i 的連接權(quán),則網(wǎng)絡輸出為:8yviOi(公 式 4.3)i 1在由i j 、 vi 組成的連接權(quán)向量W 初始化之后,就可以在給定一組網(wǎng)絡輸入后,由上述式子

17、求出網(wǎng)絡的輸出y ,此為正向信號傳播過程。對某樣本 (x1p , x2 p , x3 p ;t p ) , p 為樣本數(shù) , 由正向計算得到y(tǒng)p , 定義網(wǎng)絡輸出誤差為:誤差函數(shù)為dpt pep1/ 2yp(公 式 4.4)2d p(公 式 4.5)一般的, W 值隨機給出,求得yp 后,誤差值較大,網(wǎng)絡計算精度不高。在確定網(wǎng)絡中隱層神經(jīng)元數(shù)目m的情況下,通過調(diào)整W 的值,逐步降低誤差d p ,以提高計算精度。在反向計算中,沿著誤差函數(shù)為值為W :Wep 隨W 變化的負梯度方向?qū) 進行修正。 設W 的修正ep(公 式 4.6)W為學習率, 取 0-1 間的數(shù)。 該修正方法的弱點是收斂速度慢,

18、并存在能量函數(shù)局部最小值,在此對其增加附加動量項進行修正,即?。? n)ep(n 1)WW(公 式 4.7)WW( n)為第 n 次迭代計算時連接權(quán)的修正值,接權(quán)的修正值,為動量因子。W (n1)為前一次迭代計算時所得的連將公式 4.4、4.5 公式 4.7,并加以推導,求得對于樣本p 時,W 中各元素為:(n)yp(n1)(n 1)vid pvivid pOi pvi( 公 式 4.8)w( n)dypw(n 1)d v O(1O) Xw( n 1)wi jpi jp ii pipjpi j i j最后采用迭代式W(公式 4.9)WW 對原 W 進行修正計算,得到新的連接權(quán)向量W 。對于所有

19、的學習樣本,均按照樣本排列順序進行上述的計算過程,從而求出學習樣本的能量函數(shù)值:pEep利用 E 值對網(wǎng)絡計算精度進行評價,當E 值滿足 E0.00001 時,停止迭代計算,否則, 進行新一輪的迭代計算。訓練時,我們構(gòu)造出各種情況的截球場景( 傳球隊員固定位置,離散傳球速度和傳球隊員和截球隊員之間的相對坐標x, y ) ,截球隊員使用各種角度截球,當成功的截球時,就將成功的數(shù)據(jù)記下。采集到的成功的數(shù)據(jù)送入神經(jīng)網(wǎng)絡用BP 算法進行訓練。神經(jīng)網(wǎng)絡作為一個記憶的載體記錄下這些成功的例子,能夠進行實際各種場景的截球決策。3) 強化學習的方法進行在線學習在使用強化學習的時候關鍵是確定狀態(tài)空間、動作空間、

20、 目標狀態(tài)、策略函數(shù)(代價函數(shù))以及價值函數(shù)。首先是確定狀態(tài)空間(s),也就是world state ,一般狀態(tài)空間都很大,在計算和存儲方面就存在很多困難,這也是目前強化學習往機器人足球中應用的難點地方;這就需要進行簡化和處理。然后就是確定動作集,一般把原子動作作為動作集。目標狀態(tài)是停止學習的終止條件,在學習的時候一般把得到球作為目標狀態(tài)。所謂策略函數(shù)就是在當前的 狀態(tài)在選擇動作的函數(shù),這樣的函數(shù)學要自己去設計,原則是能夠把代價最小、利益最大的動作選擇出來。而價值函數(shù)是在選擇一個特定動作以后,是成功還是失敗,相應的對這個狀態(tài)下的這個動作的代價(利益)進行相應的修正,一般是加上(成功)、減去(失

21、?。┮粋€ 值,經(jīng)過足夠長的時間的學習就能達到一個穩(wěn)態(tài)(也就是價值函數(shù)的性能較好)。7.2.2 傳球( pass)1. 問題描述相對截球而言,傳球更加復雜的一種動作,主要原因是在傳球的時候?qū)嶋H上已經(jīng)引入2個球員進行協(xié)作的問題了。在設計時一般考慮2 種方式進行傳球:傳給某一特定的人和傳到 某一點。對傳球進行描述的時候,可以采用這種方式:描述傳球隊員的周圍環(huán)境,用狀態(tài)S 表示周圍的環(huán)境或提取環(huán)境的一些特征屬性向量A ( a1,a2, ,an)。根據(jù)這些S 或 A 來選擇合適的傳球方向和出球速度。2. 解決方法根據(jù)上面對傳球的描述,我們可以使用決策樹學習算法,也可以使用基于神經(jīng)網(wǎng)絡的計算學習方法。(1

22、). 決策樹學習算法:CMU 使用的就是這種學習算法,具體使用了C4.5 算法,在選擇下面的特征屬性: .傳球球員到接球者的距離和方向(2 個)。 .傳球隊員到其他隊友(不包括接球隊員)的距離和方向(20 個)。 .球球隊員到對手的隊員的距離和方向(22 個)。 .經(jīng)排序(按距離)以后的接球隊員到隊友的距離和方向(20 個)。 .經(jīng)排序(按距離)以后的接球隊員到對手的距離和方向(22 個)。 .從傳球隊員到接球隊員之間的一些分布統(tǒng)計屬性(90 個)。如以傳球隊員為中心,由接球隊員以及其他隊友構(gòu)成的扇形區(qū)域內(nèi)對方球員的數(shù)量等等。 .球員所在的區(qū)域特性(44 個) 。訓練的時候, 首先設定傳球隊員

23、的位置,隨機設置接球和其他隊員的位置;傳球隊員確認要傳球; 其他隊員進行跑位;傳球隊員根據(jù)決策樹確定接球隊員。接球隊員和其他隊員(指對手球員) 都采用已經(jīng)訓練好的截球動作去獲得控球權(quán)。接球隊員獲得控球權(quán)就認為是一次 成功的傳球,否則,就認為失敗。(2) 基于神經(jīng)網(wǎng)絡的計算學習計算學習一直是機器學習的重要研究內(nèi)容,它主要是通過計算的方法將那些錯的很離譜的假設排除出去形成,通過計算機的快速計算能力得出最有可能的假設并把該假設認為是可能近似正確( probably approximately correct ,PAC)。另一方面,神經(jīng)網(wǎng)絡集成作為一種新興的神經(jīng)計算方法,具有比單一神經(jīng)網(wǎng)絡系統(tǒng)更強的泛

24、化能力,因此, 如果將神經(jīng)網(wǎng)絡集成與計算學習相結(jié)合,將可望獲得更好的效果。在這一思想的基礎上,提出了一種基于神經(jīng)網(wǎng)絡 集成的計算學習算法,以神經(jīng)網(wǎng)絡集成作為計算學習的前端,首先利用其產(chǎn)生計算學習所用 的數(shù)據(jù)集, 在產(chǎn)生數(shù)據(jù)集時,采用能夠較好地反映神經(jīng)網(wǎng)絡集成性能的數(shù)據(jù)生成方式,使得用于計算學習的示例能夠受益于神經(jīng)網(wǎng)絡集成的強泛化能力,以最終獲得較高的預測精度。在使用計算學習來進行傳球訓練的時候,首先是確定在特定傳球路線上的傳球速度的選擇。我們參考了清華23 的對傳球時穿越速度的概念。如圖4.4,假設白圓圈表示的1 號隊員要把球傳給用黑圓圈表示的2 號隊員, X 表示對手。線L 為對手和截球隊員

25、的垂直平分線。顯然對于垂直平分線與球軌跡的交點p 以內(nèi)的點,對方隊員能比我方隊員能先跑到;反之,交點以外的點,我方隊員先跑到。如果傳球隊員踢出速度大小合適的球,使得對手在交點以內(nèi)都無法截到球,那么我方隊員就必然可以比對方先截到球。如果以此速度踢出球,此隊員不能在該點以前截到球,而且以小于此速度的任何速度踢出球,對手都可能在該點以內(nèi)截到球,那么這個速度稱為對于某個隊員穿越在球運動軌跡上的某一點的穿越速度。也就是說,我們只要而且必須要以大于穿越速度的速度傳球,球就能傳到隊友腳下。注意到這個分析基于圖 4.4 隊友在對手后面的情況。如果反過來,隊友在對手前,則傳球者應該以小于隊友的穿越速度的速度傳球

26、,以保證隊友在交點以前截到球。對圖4.4 的情景,我們把 p 點以前的區(qū)域稱為對手的接球區(qū)域, p 點以后的稱為隊友的接球區(qū)域。對于隊友,穿越對手的穿越速度為傳球給他的速度的下限。 如果考慮隊友后面可能有一個對手, 則給他一個傳球速度上限的限制。圖 4.4 考慮了一個隊友和一個對手的簡單傳球場景,多個對手和隊友的場景也有類似的分析。在一條傳球線路上,每個隊員(包括對手和隊友)或者沒有接球區(qū)域,或者有一個接球的區(qū)域和一個傳球速度的上、下限。首先,我們利用人工神經(jīng)網(wǎng)絡中的BP 網(wǎng)絡,訓練得到在特定傳球路線上面?zhèn)鹘o每個球員的穿越速度。第一步, 采集樣本。 確定傳球隊員的位置和隨機置接球隊員的初始位置

27、。在訓練中傳球者從一個較小的速度開始,沿傳球線路傳球,接球者利用訓練好的截球技能進行截球,如果截球點在圖4.4 的 p 點以前,則傳球者提高速度,繼續(xù)嘗試;否則,穿越速度為該次訓練的傳球速度。如此這樣收集傳球隊員和接球之間不同的距離和角度情況下的穿越速度。第二步,用人工神經(jīng)網(wǎng)絡中的BP 網(wǎng)絡擬合得到傳給每個球員的穿越速度。其中輸入是傳球隊員和接球隊員的距離和傳球路線的方向和傳接球隊員之間連線的夾角,輸出是穿越速度。利用BP 得出每個球員在本方傳球時自己能夠接球的穿越速度作為我們計算學習的基礎。如果傳球到一點上面,那傳球路線就確定了,我們只要計算用什么樣的穿越速度就可以了。如果是傳給特定的球員,

28、可以根據(jù)穿越速度淘汰掉那些接球隊員沒有接球區(qū)域的傳球路線,選擇接球隊員的穿越速度區(qū)間最大的那條傳球路線(主要是增強系統(tǒng)的抗噪音性)作為我們的目標傳球路線。計算學習要學習的就是在給定了場景(主要記錄的是傳球隊員和場上所友隊員的相對位置和角度)的情況下得出最佳的傳球路線。7.2.3Fastkick1. 問題描述在 Soccer Server 中,隊員的身體和球都使用一個圓來表示,前相互之間的位置不允許有相互重疊的部分。當球離隊員的距離小于某個值時,這時隊員就可以向Server 法一個包括角度和力量兩個參數(shù)的kick命令,對球施加一個矢量加速度。由于球的加速度有上下,且球有初始速度,因此常常無法通過

29、一個kick命令才能實現(xiàn)把球加速到所希望的速度上面去,也就是一個踢球動作需要一系列周期的kick 命令才能實現(xiàn),這就需要Fastkick 。2.解決方法1) 直接經(jīng)驗式代碼:將設計者的經(jīng)驗直接寫成代碼進行踢球決策。2) Case-base Learning:在這種方法中,控球范圍被離散成為一些點的集合,每周期的狀態(tài)用 4 個參數(shù)來描述(球員的速度、球的相對位置、期望的出球速度、可以到達的點的集合) 。然后構(gòu)造了若干個Case Bases,每個 Case Bases都能根據(jù)輸入狀態(tài)來返回一個PDL ,這個 PDL 描述了每個科到達的點作為中間點的好壞。3) 強化學習:更前面提到的截球的相似,主要

30、是通過學習提高價值函數(shù)的性能。4) 清華提出的考慮對抗的強化學習 Q 學習及在線規(guī)劃。 在這當中, 用一張 Q 表來存儲狀態(tài) -動作對, 再把一些狀態(tài) (如這時球也對手的范圍之內(nèi)或球出界) 屏蔽掉。 然后進行訓練得出實戰(zhàn)時對抗性能更強的 Q 表。1總則1.1為了加強公司的環(huán)境衛(wèi)生管理,創(chuàng)造一個整潔、文明、溫馨的購物、辦公環(huán)境,根據(jù)公共場所衛(wèi)生管理條例的要求,特制定本制度。1.2集團公司的衛(wèi)生管理部門設在企管部,并負責將集團公司的衛(wèi)生區(qū)域詳細劃分到各部室,各分公司所轄區(qū)域衛(wèi)生由分公司客服部負責劃分,確保無遺漏。2衛(wèi)生標準2.1室內(nèi)衛(wèi)生標準2.1.1地面、墻面:無灰塵、無紙屑、無痰跡、無泡泡糖等粘

31、合物、無積水,墻角無灰吊、無蜘蛛網(wǎng)。2.1.2門、窗、玻璃、鏡子、柱子、電梯、樓梯、燈具等,做到明亮、無灰塵、無污跡、無粘合物,特別是玻璃,要求兩面明亮。2.1.3柜臺、貨架:清潔干凈,貨架、柜臺底層及周圍無亂堆亂放現(xiàn)象、無灰塵、無粘合物,貨架頂部、背部和底部干凈,不存放雜物和私人物品。2.1.4購物車(筐)、直接接觸食品的售貨工具(包括刀、叉等) :做到內(nèi)外潔凈,無污垢和粘合物等。購物車(筐)要求每天營業(yè)前簡單清理,周五全面清理消毒;售貨工具要求每天消毒,并做好記錄。2.1.5商品及包裝:商品及外包裝清潔無灰塵(外包裝破損的或破舊的不得陳列)。2.1.6收款臺、服務臺、辦公櫥、存包柜:保持清

32、潔、無灰塵,臺面和側(cè)面無灰塵、無灰吊和蜘蛛網(wǎng)。桌面上不得亂貼、亂畫、亂堆放物品,用具擺放有序且干凈,除當班的購物小票收款聯(lián)外,其它單據(jù)不得存放在桌面上。2.1.7垃圾桶:桶內(nèi)外干凈,要求營業(yè)時間隨時清理,不得溢出,每天下班前徹底清理,不得留有垃圾過夜。2.1.8窗簾:定期進行清理,要求干凈、無污漬。2.1.9吊飾:屋頂?shù)牡躏椧鬅o灰塵、無蜘蛛網(wǎng),短期內(nèi)不適用的吊飾及時清理徹底。2.1.10內(nèi)、外倉庫:半年徹底清理一次,無垃圾、無積塵、無蜘蛛網(wǎng)等。2.1.11室內(nèi)其他附屬物及工作用具均以整潔為準,要求無灰塵、無粘合物等污垢。2.2室外衛(wèi)生標準2.2.1門前衛(wèi)生:地面每天班前清理,平時每一小時清理

33、一次,每周四營業(yè)結(jié)束后有條件的用水沖洗地面(冬季可根據(jù)情況適當清理) ,墻面干凈且無亂貼亂畫。2.2.2院落衛(wèi)生:院內(nèi)地面衛(wèi)生全天保潔,果皮箱、消防器械、護欄及配電箱等設施每周清理干凈。垃圾池周邊衛(wèi)生清理徹底,不得有垃圾溢出。2.2.3綠化區(qū)衛(wèi)生:做到無雜物、無紙屑、無塑料袋等垃圾。3清理程序3.1室內(nèi)和門前院落等區(qū)域衛(wèi)生: 每天營業(yè)前提前 10 分鐘把所管轄區(qū)域內(nèi)衛(wèi)生清理完畢,營業(yè)期間隨時保潔。下班后 5-10 分鐘清理桌面及衛(wèi)生區(qū)域。3.2綠化區(qū)衛(wèi)生:每周徹底清理一遍,隨時保持清潔無垃圾。4管理考核1總則1.1為了加強公司的環(huán)境衛(wèi)生管理,創(chuàng)造一個整潔、文明、溫馨的購物、辦公環(huán)境,根據(jù)公共場

34、所衛(wèi)生管理條例的要求,特制定本制度。1.2集團公司的衛(wèi)生管理部門設在企管部,并負責將集團公司的衛(wèi)生區(qū)域詳細劃分到各部室,各分公司所轄區(qū)域衛(wèi)生由分公司客服部負責劃分,確保無遺漏。2衛(wèi)生標準2.1室內(nèi)衛(wèi)生標準2.1.1地面、墻面:無灰塵、無紙屑、無痰跡、無泡泡糖等粘合物、無積水,墻角無灰吊、無蜘蛛網(wǎng)。2.1.2門、窗、玻璃、鏡子、柱子、電梯、樓梯、燈具等,做到明亮、無灰塵、無污跡、無粘合物,特別是玻璃,要求兩面明亮。2.1.3柜臺、貨架:清潔干凈,貨架、柜臺底層及周圍無亂堆亂放現(xiàn)象、無灰塵、無粘合物,貨架頂部、背部和底部干凈,不存放雜物和私人物品。2.1.4購物車(筐)、直接接觸食品的售貨工具(包

35、括刀、叉等) :做到內(nèi)外潔凈,無污垢和粘合物等。購物車(筐)要求每天營業(yè)前簡單清理,周五全面清理消毒;售貨工具要求每天消毒,并做好記錄。2.1.5商品及包裝:商品及外包裝清潔無灰塵(外包裝破損的或破舊的不得陳列)。2.1.6收款臺、服務臺、辦公櫥、存包柜:保持清潔、無灰塵,臺面和側(cè)面無灰塵、無灰吊和蜘蛛網(wǎng)。桌面上不得亂貼、亂畫、亂堆放物品,用具擺放有序且干凈,除當班的購物小票收款聯(lián)外,其它單據(jù)不得存放在桌面上。2.1.7垃圾桶:桶內(nèi)外干凈,要求營業(yè)時間隨時清理,不得溢出,每天下班前徹底清理,不得留有垃圾過夜。2.1.8窗簾:定期進行清理,要求干凈、無污漬。2.1.9吊飾:屋頂?shù)牡躏椧鬅o灰塵、

36、無蜘蛛網(wǎng),短期內(nèi)不適用的吊飾及時清理徹底。2.1.10內(nèi)、外倉庫:半年徹底清理一次,無垃圾、無積塵、無蜘蛛網(wǎng)等。2.1.11室內(nèi)其他附屬物及工作用具均以整潔為準,要求無灰塵、無粘合物等污垢。2.2室外衛(wèi)生標準2.2.1門前衛(wèi)生:地面每天班前清理,平時每一小時清理一次,每周四營業(yè)結(jié)束后有條件的用水沖洗地面(冬季可根據(jù)情況適當清理) ,墻面干凈且無亂貼亂畫。2.2.2院落衛(wèi)生:院內(nèi)地面衛(wèi)生全天保潔,果皮箱、消防器械、護欄及配電箱等設施每周清理干凈。垃圾池周邊衛(wèi)生清理徹底,不得有垃圾溢出。2.2.3綠化區(qū)衛(wèi)生:做到無雜物、無紙屑、無塑料袋等垃圾。3清理程序3.1室內(nèi)和門前院落等區(qū)域衛(wèi)生: 每天營業(yè)前

37、提前 10 分鐘把所管轄區(qū)域內(nèi)衛(wèi)生清理完畢,營業(yè)期間隨時保潔。下班后 5-10 分鐘清理桌面及衛(wèi)生區(qū)域。3.2綠化區(qū)衛(wèi)生:每周徹底清理一遍,隨時保持清潔無垃圾。4管理考核第七章球員個體技術的學習及實現(xiàn)在 Robocup 機器人足球比賽中, 球員的個人技術是很重要的。如果沒有很好的個體技術, 再完美的配合也形成不起來。所謂個體技術,主要是指球場上球員可以執(zhí)行的一些動作,如傳球、阻截球、帶球、射門、盯人、守門員撲球、鏟球等;當然這些動作有的是不能直接發(fā)送給 Server 的,它們是由更低級的Server 可識別的原子動作(dash、kick 、turn、tackle 等)組成,在發(fā)送的時候是發(fā)送這

38、些原子動作序列。這些個人技術依賴于球員所觀察到的世界狀態(tài),以世界狀態(tài)為基礎,簡化后提取世界狀態(tài)的特征,根據(jù)一定的算法和數(shù)學模型做出合適的行為決定。提高球員的個體技術是我們的目標,一般是通過機器學習 ( Machine Learning ,簡稱 ML )、合適的數(shù)學模型進行解析和經(jīng)驗式來達到這一目標的。其中數(shù)學解析的方法主要是建立各個動作的數(shù)學模型,然后用解析幾何的方法進行求解;這種方法是建立在對問題的深入分析的基礎上面的,因此它的效率較高,當由于在比賽當中存在噪音精確性有時達不到理想的效果,同時也不是所有問題都可以轉(zhuǎn)化成合適的、便于求解的數(shù)學模型。而經(jīng)驗式的方法純粹是根據(jù)設計者的經(jīng)驗,通過類似

39、if .then的結(jié)構(gòu)來設計行為模式;這種方式的優(yōu)點是可以充分利用人的經(jīng)驗,但是他參數(shù)的調(diào)節(jié)比較繁瑣,并且魯棒性也不是很好。而機器學習的方法優(yōu)點則比較明顯,下面我們就介紹一下機器學習的方法和機器人足球中是如何應用機器學習的。7.3 機器學習簡介“機器學習” 一般被定義為一個系統(tǒng)自我改進的過程。但僅僅從這個定義來理解和實現(xiàn) 機器學習是困難的。從最初的基于神經(jīng)元模型以及函數(shù)逼近論的方法研究,到以符號演算為基礎的規(guī)則學習和決策樹學習的產(chǎn)生,之后到認知心理學中歸納、解釋、類比等概念的引入, 乃至最新的計算學習理論和統(tǒng)計方法學習(主要是指貝葉斯學習和基于馬爾可夫過程的強化學習)的興起, 機器學習一直在包

40、括人工智能學科在內(nèi)的相關學科的實踐應用中起著主導地位。然而, 根據(jù)學習的條件和領域的不同,具體的學習理論和算法也各不相同。本節(jié)列舉了常見的機器學習理論和相關的學習算法。如:概念學習、決策樹、神經(jīng)網(wǎng)絡、貝葉斯學習、基于實例的學習、遺傳算法、規(guī)則學習、分析學習(基于解釋的學習)和強化學習等。(10) 概念學習所謂概念學習就是指通過給定某一類別的若干正例和反例,從中得出該類別一般定義的 學習方法。 它是一個從許多特例歸納而形成表示一般函數(shù)的方法。所以說, 概念學習可以看成是搜索預定義潛在的假設空間過程。是歸納法的一種。 它的主要設計過程是從一般到特殊序然后形成假設空間的過程。這個概念最初是由Brun

41、er et al.在 1957 年就提出了,在1970 年 Winston的博士論文 33 中將概念學習看成是包含泛化和特化操作的搜索過程。Simon和Lea34 在 1973 年將該學習的過程看成是一個在假設空間搜索的過程。(11) 決策樹學習決策樹學習是應用最廣的歸納推理算法之一。它是一種逼近離散值函數(shù)的方法,一般該函數(shù)被表示成一顆樹,樹一般包含多個if-then規(guī)則。這種學習方法對噪音數(shù)據(jù)有很好的健壯性。決策樹通過把實例從根節(jié)點排列(sort)到某個葉子節(jié)點來分類實例。葉子節(jié)點即為所屬的分類。 樹上的每個節(jié)點說明了對實例的某個屬性的測試,并且該節(jié)點的每個后繼分支對應于該屬性的一個可能值。

42、分類實例的方法是從這棵樹的根節(jié)點開始,測試這個節(jié)點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動,一直遍歷到葉子。決策樹學習可以解決具有以下特征的問題:實例是由“屬性-值”對表示的; .目標函數(shù)具有離散的輸出值; .可能需要析取的描述; .訓練數(shù)據(jù)可以包含錯誤; .訓練數(shù)據(jù)可以包含缺少屬性值的實例。決策樹學習的關鍵是對決策樹的構(gòu)造,典型的構(gòu)造決策樹的方法是ID3 算 法和C4.5 算法。這些算法是都是根據(jù)屬性的重要性來依次把各個屬性分配到相應的結(jié)點上面去。(12) 人工神經(jīng)網(wǎng)絡人工神經(jīng)網(wǎng)絡學習方法對于逼近實數(shù)值、離散值和向量值的目標函數(shù)提供了一種健壯性很強的方法。 它是通過模擬人類大

43、腦的神經(jīng)元,形成具有輸入和輸出的單元結(jié)構(gòu)。對于某些類型的問題, 如學習解釋復雜的現(xiàn)實世界的傳感器數(shù)據(jù),人工神經(jīng)網(wǎng)絡是目前最為有效的方 法。具有以下特征的問題我們都可以用神經(jīng)網(wǎng)絡來解決: .實例是用很多“屬性-值”對表示的; .目標函數(shù)的輸出可能是離散值、實數(shù)值或者由若干實數(shù)屬性或離散屬性組成的向量; .訓練數(shù)據(jù)可能包含錯誤; .可容忍長時間的訓練; .在實際應用的時候可能需要快速求出目標函數(shù)值; .人類能否理解學到的目標函數(shù)是不重要的。人工神經(jīng)網(wǎng)絡主要訓練感知器以及由感知器構(gòu)成的多層網(wǎng)絡結(jié)構(gòu)(包括前向和反饋網(wǎng) 絡)。在神經(jīng)網(wǎng)絡里面的典型的模型有:自適應共振、雙向聯(lián)想存儲器、反向傳遞、對流網(wǎng)、認

44、識機、感知器、自組織映射網(wǎng)等(13) 貝葉斯學習貝葉斯網(wǎng)絡的學習是貝葉斯網(wǎng)絡模型的構(gòu)建和對已存在貝葉斯網(wǎng)絡模型的優(yōu)化。由于可以利用的數(shù)據(jù)日益增加和數(shù)據(jù)越來越容易獲取,使得用數(shù)據(jù)來進行貝葉斯網(wǎng)絡的結(jié)構(gòu)學習和條件概率表的學習變得十分可行,貝葉斯網(wǎng)絡的條件概率表的學習又常稱為貝葉斯網(wǎng)絡的參數(shù)學習。(14) 基于案例的學習前面的方法都是根據(jù)一系列的訓練樣本,然后形成一定的目標函數(shù)把訓練樣本一般化。而基于實例的學習則不然。 基于實例的學習方法只是簡單地把訓練樣本存儲起來,從這些實例中泛化的工作被推遲到必須分類出新的實例時。 每當學習器遇到一個新的查詢實例, 它分析這個新的實例與以前存儲的實例之間的關系,

45、并據(jù)此把一個目標函數(shù)值賦給新的實例?;诎咐膶W習方法主要包括最近鄰法和局部加權(quán)回歸法,它們都假定實例可以表示為歐氏空間的點。此外,基于案例的學習方法還包括基于案例的推理,它對實例采用復雜的符號表示?;诎咐膶W習方法實際上是一個消極學習方法。(15) 遺傳算法遺傳算法是一種受生物進化過程啟發(fā)的學習算法。遺傳算法研究的問題是搜索候選假設空間并確定最佳的假設,一般是通過變異和交叉重組當前已知的最好假設來生成后續(xù)的假設。在遺傳算法中,假設一般用二進制來表示(便于變異和交叉遺傳算子)。遺傳算法的設計有一個共同點:算法迭代更新一個假設池(也稱之為群體)。每一次迭代中根據(jù)適應度函數(shù)評估群體中的所有成員,

46、然后從當前群體中用概率方法選取適應度最高的個體產(chǎn)生新一代群體。在這些選取的個體中,一部分保持原樣進入下一代群體,其他通過交叉和變異等遺傳的方法產(chǎn)生新的個體作為下一代群體的一部分。(16) 規(guī)則學習對學習得到的假設,最具有表征力的和最能為人類所理解的表示方法之一為if-then規(guī)則的集合。而規(guī)則學習實際上就是學習這樣的規(guī)則。規(guī)則一般包括不含變量和含有變量的。不含變量的很容易理解和得到。最為重要的是學習含有變量的規(guī)則集合(也稱之為Horn 子句集合)。由于一階Horn子句集合可以被解釋為邏輯編程語言中的程序,所以學習的過程經(jīng)常被稱之為歸納邏輯編程(Inductive Logic Programmi

47、ng , 簡稱ILP) 。(17) 分析學習 (基于解釋的學習)前面的方法都是歸納學習方法。這些歸納學習器在實踐中都有一個關鍵的限制就是學習 實例的數(shù)據(jù)不足時性能較差(這已經(jīng)被證明,參見文獻35 第七章)。而分析學習使用先驗知識和演繹推理來擴大訓練樣本提供的信息,因此,它不受數(shù)據(jù)不足的影響或影響較小。分析學習的典型方法是基于解釋的學習(Explanation-BasedLearning ,簡稱EBL )。它包括 2 個階段,分析階段、泛化階段。具體來說,首先使用先驗知識來分析(或解釋)觀察到的學習樣本是如何滿足目標概念的。得出訓練樣本中哪些特征是相關的,哪些是無關的, 然后案例(樣本)就可以基

48、于邏輯推理進行泛化,而不必經(jīng)過統(tǒng)計推理得出。(18) 強化學習強化學習的過程實際上就是給要學習的主體Agent 一個任務, Agent 通過不斷感知環(huán)境,然后根據(jù)環(huán)境做出動作的選擇;如果成功,就對相應的動作做出獎賞,如果失敗,就對相應的動作做出懲罰;通過不斷的學習,最后會達到一個穩(wěn)態(tài)(以后 Agent 在相應的環(huán)境下一定會做相應動作) 。強化學習一個最突出的優(yōu)點就是不要求有任何的先驗知識。這是它跟前面的所有學習算法最根本的不同。以上提到的絕大多數(shù)算法都是可以應用到Robocup 機器人足球仿真比賽當中,但使用不同的學習算法得到的效果是不一樣。但是如果僅僅使用其中的一種,效果可能也達不到要求,因

49、而可能需要不同的方法交叉使用,或根據(jù)不同的情況選擇特定的方法。7.4 個體技術的實現(xiàn)在 Robocup 中,設計球員的個體技術如帶球、傳球、截球、射門的時候一般是由更低級的動作組成。 有時候還要在這兩者之間還要加上一個中間層。就針對于這些基本動作我們具體介紹一下它們的實現(xiàn)方法。7.4.1 截球( intercept)3. 問題描述截球問題可以歸納成如圖5.1 的一個簡單的場景:白圓圈代表球,黑色的圓圈代表球員,dist 為球員到球的距離, 為球到球員之間的連線和球運動方向的夾角,speed 為球的即時的運動速度。球的速度隨運動衰減。截球問題歸結(jié)為給定dist、 和 speed,決策出隊員正確的

50、截球角度 ,或者是當截到球時,球運動的距離,并給出對截球所可能花的時間的估計。具體的運動模型見 2.7.2.8 相關的球員和球的運動模型。4. 解決方法1) 解析法通過示意圖和前面介紹的運動模型我們可以通過列出關于時間的方程,然后采用Newton 迭代法求出方程的根,可以求出認為可以求出3 個根,顯然第三個根的價值不是很大,目前關注的是前2 個根,然后根據(jù)高層策略選擇在哪個根對應的點(前點和后點)進行截球。 TsinghuAeolus 目前采用的就是這種方法。2) 通過機器學習的方法進行離線學習目前這是一種簡單并且通用的方法,典型的方式是通過搜集大量成功的截球樣本(反應為一些特征變量集) ,在

51、使用這些樣本通過離線學習的方法形成一個決策函數(shù)。離線學習主要采用貝葉斯網(wǎng)絡和神經(jīng)網(wǎng)絡;其中BP 網(wǎng)絡目前比較通用。CMU99 和 Hfut 目前采用這種方法。簡要介紹一下BP 網(wǎng)絡:BP 網(wǎng)絡的特點是信號由輸入層單向傳輸?shù)捷敵鰧?,同一層神?jīng)元之間不傳遞信息,每個神經(jīng)元與鄰層所有神經(jīng)元相連,連結(jié)權(quán)重用i j 表示, 各神經(jīng)元的作用函數(shù)為Sigmoid 函數(shù):f( x)1/(1e x )。同時它正向傳播信號,反向傳播誤差。BP 網(wǎng)絡如下圖。隱含層是BP 網(wǎng)絡的基本特征之一,事實上如果沒有隱含層也就無所謂誤差的反向傳播了 。 但 對 隱 含 層 節(jié) 點 個 數(shù) 的 選 擇 到 目 前 為 止 還 沒

52、 有 確 定 的 規(guī) 則 , 根 據(jù) 經(jīng) 驗 公 式輸入層輸出層隱含層mn110BP 網(wǎng)絡示意圖(m 、n 表示輸入輸出節(jié)點的個數(shù)),由于我們這兒有3 個輸入, 所以我們選擇了 8 個節(jié)點。中間隱含層也是使用了1 層,包括輸入和輸出總共3 層。在圖 4.2 所示的 BP 網(wǎng)絡結(jié)構(gòu)中, 設網(wǎng)絡輸入為x1, x2 , x3 ,輸出為y 。輸入層各神經(jīng)元的激發(fā)函數(shù)選用比例系數(shù)為1 的線性函數(shù),則網(wǎng)絡輸入層的輸出分別是經(jīng)元的輸入是:x1, x2, x3,隱層神3I ii j x j( i1,2,3,.7,8 ,)( 公 式 4.1)j 1神經(jīng)元的輸出為:Oi1/(1e I i ) ,(公 式 4.2)

53、vi 為輸出層神經(jīng)元與隱層神經(jīng)元i 的連接權(quán),則網(wǎng)絡輸出為:8yviOi(公 式 4.3)i 1在由i j 、 vi 組成的連接權(quán)向量W 初始化之后,就可以在給定一組網(wǎng)絡輸入后,由上述式子求出網(wǎng)絡的輸出y ,此為正向信號傳播過程。對某樣本 (x1p , x2 p , x3 p ;t p ) , p 為樣本數(shù) , 由正向計算得到y(tǒng)p , 定義網(wǎng)絡輸出誤差為:誤差函數(shù)為dpt pep1/ 2yp(公 式 4.4)2d p(公 式 4.5)一般的, W 值隨機給出,求得yp 后,誤差值較大,網(wǎng)絡計算精度不高。在確定網(wǎng)絡中隱層神經(jīng)元數(shù)目m的情況下,通過調(diào)整W 的值,逐步降低誤差d p ,以提高計算精度。在反向計算中,沿著誤差函數(shù)為值為W :Wep 隨W 變化的負梯度方向?qū) 進行修正。 設W 的修正ep(公 式 4.6)W為學習率, 取 0-1 間的數(shù)。 該修正方法的弱點是收斂速度慢,并存在能量函數(shù)局部最小值,在此對其增加附加動量項進行修正,即取:( n)ep(n 1)WW(公 式 4.7)WW( n)為第 n 次迭代計算時連接權(quán)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論