機(jī)器學(xué)習(xí)之人工神經(jīng)網(wǎng)絡(luò)_第1頁
機(jī)器學(xué)習(xí)之人工神經(jīng)網(wǎng)絡(luò)_第2頁
機(jī)器學(xué)習(xí)之人工神經(jīng)網(wǎng)絡(luò)_第3頁
機(jī)器學(xué)習(xí)之人工神經(jīng)網(wǎng)絡(luò)_第4頁
機(jī)器學(xué)習(xí)之人工神經(jīng)網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、Date:5/8/2022File:ML4.1Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering第第4章章 人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ANN)Date:5/8/2022File:ML4.2Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering概述概述 人工神經(jīng)網(wǎng)絡(luò)提供了一種普遍且實(shí)用的方法從樣例人工神經(jīng)網(wǎng)絡(luò)提供了一種普

2、遍且實(shí)用的方法從樣例中學(xué)習(xí)值為中學(xué)習(xí)值為、或或的函數(shù)的函數(shù),使用梯度下降來調(diào)節(jié)網(wǎng)絡(luò)參數(shù)以最,使用梯度下降來調(diào)節(jié)網(wǎng)絡(luò)參數(shù)以最佳擬合由輸入佳擬合由輸入輸出對組成的訓(xùn)練集合輸出對組成的訓(xùn)練集合 人工神經(jīng)網(wǎng)絡(luò)對于訓(xùn)練數(shù)據(jù)中的錯誤人工神經(jīng)網(wǎng)絡(luò)對于訓(xùn)練數(shù)據(jù)中的錯誤很好很好 人工神經(jīng)網(wǎng)絡(luò)已被成功應(yīng)用到很多領(lǐng)域,例如視覺人工神經(jīng)網(wǎng)絡(luò)已被成功應(yīng)用到很多領(lǐng)域,例如視覺場景分析,語音識別,機(jī)器人控制,工業(yè)過程控制場景分析,語音識別,機(jī)器人控制,工業(yè)過程控制Date:5/8/2022File:ML4.3Machine LearningPeng Kaixiang 2015. All rights reserved.Ma

3、chine Learning for Control Engineering生物學(xué)動機(jī)生物學(xué)動機(jī) ANN受到生物學(xué)的啟發(fā),受到生物學(xué)的啟發(fā),是由相互是由相互連接的神經(jīng)元組成的異常復(fù)雜的網(wǎng)絡(luò)。連接的神經(jīng)元組成的異常復(fù)雜的網(wǎng)絡(luò)。 ANN系統(tǒng)的一個動機(jī)就是獲得這種系統(tǒng)的一個動機(jī)就是獲得這種 ANN并未模擬生物神經(jīng)系統(tǒng)中的很多復(fù)雜特征并未模擬生物神經(jīng)系統(tǒng)中的很多復(fù)雜特征 ANN的研究分為兩個方向的研究分為兩個方向 使用使用ANN研究和模擬生物學(xué)習(xí)過程研究和模擬生物學(xué)習(xí)過程 獲得獲得,不管這種算法是否反映了生物,不管這種算法是否反映了生物過程過程 屬于后一個研究方向?qū)儆诤笠粋€研究方向Date:5/8/2

4、022File:ML4.4Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering適合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的問題適合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的問題 訓(xùn)練集合為含有噪聲的復(fù)雜傳感器數(shù)據(jù),例訓(xùn)練集合為含有噪聲的復(fù)雜傳感器數(shù)據(jù),例如來自攝像機(jī)和麥克風(fēng),工業(yè)過程各類傳感如來自攝像機(jī)和麥克風(fēng),工業(yè)過程各類傳感器數(shù)據(jù)器數(shù)據(jù) 需要較多符號表示的問題,例如決策樹學(xué)習(xí)需要較多符號表示的問題,例如決策樹學(xué)習(xí)的任務(wù),能夠取得和決策樹學(xué)習(xí)大體相當(dāng)?shù)牡娜蝿?wù),能夠取得和決策樹學(xué)習(xí)大體相當(dāng)?shù)慕Y(jié)果結(jié)果是最常用的

5、是最常用的ANN學(xué)習(xí)技術(shù)學(xué)習(xí)技術(shù)Date:5/8/2022File:ML4.5Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering反向傳播算法適合問題的特征反向傳播算法適合問題的特征 實(shí)例是用很多實(shí)例是用很多“屬性屬性-值值”對表示的對表示的 目標(biāo)函數(shù)的輸出可能是離散值、實(shí)數(shù)值或者目標(biāo)函數(shù)的輸出可能是離散值、實(shí)數(shù)值或者由若干實(shí)數(shù)屬性或離散屬性組成的向量由若干實(shí)數(shù)屬性或離散屬性組成的向量 訓(xùn)練數(shù)據(jù)可能包含錯誤訓(xùn)練數(shù)據(jù)可能包含錯誤 可容忍長時間的訓(xùn)練可容忍長時

6、間的訓(xùn)練 可能需要可能需要 人類能否理解學(xué)到的目標(biāo)函數(shù)是不重要的人類能否理解學(xué)到的目標(biāo)函數(shù)是不重要的Date:5/8/2022File:ML4.6Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering提綱提綱 討論訓(xùn)練單個單元的學(xué)習(xí)算法討論訓(xùn)練單個單元的學(xué)習(xí)算法 介紹組成神經(jīng)網(wǎng)絡(luò)的幾種主要單元介紹組成神經(jīng)網(wǎng)絡(luò)的幾種主要單元 感知器(感知器(perceptron) 線性單元(線性單元(linear unit) sigmoid單元(單元(sigmoid unit

7、) 給出訓(xùn)練多層網(wǎng)絡(luò)的反向傳播算法給出訓(xùn)練多層網(wǎng)絡(luò)的反向傳播算法 討論幾個一般性問題討論幾個一般性問題 ANN的表征能力的表征能力 假設(shè)空間搜索的本質(zhì)特征假設(shè)空間搜索的本質(zhì)特征 過度擬合問題過度擬合問題 反向傳播算法的變體反向傳播算法的變體Date:5/8/2022File:ML4.7Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering感知器感知器 一種類型的一種類型的ANN系統(tǒng)是以系統(tǒng)是以為基礎(chǔ)為基礎(chǔ) 感知器以一個實(shí)數(shù)值向量作為輸入,計(jì)算這感知器以一個實(shí)

8、數(shù)值向量作為輸入,計(jì)算這些輸入的線性組合,如果結(jié)果大于某個閾值,些輸入的線性組合,如果結(jié)果大于某個閾值,就輸出就輸出1,否則輸出,否則輸出-1其中每個其中每個wi是一個實(shí)數(shù)常量,或叫做是一個實(shí)數(shù)常量,或叫做,用來決定輸入用來決定輸入xi對感知器輸出的貢獻(xiàn)率。特對感知器輸出的貢獻(xiàn)率。特別地,別地,w0是閾值。是閾值。otherwisexwxwwxxonnn0.11),.,(1101Date:5/8/2022File:ML4.8Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control E

9、ngineering感知器(感知器(2) 兩種簡化形式,附加一個常量輸入兩種簡化形式,附加一個常量輸入x0=1,前面的不,前面的不等式寫成等式寫成或?qū)懗上蛄啃问交驅(qū)懗上蛄啃问?為了簡短起見,把感知器函數(shù)寫為為了簡短起見,把感知器函數(shù)寫為其中,其中,00niiixw0 xw)sgn()(xwxootherwiseyy011)sgn(Date:5/8/2022File:ML4.9Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering感知器(感知器(3) 學(xué)習(xí)一個

10、感知器意味著選擇權(quán)學(xué)習(xí)一個感知器意味著選擇權(quán)w0,wn的值。的值。所以感知器學(xué)習(xí)要考慮的所以感知器學(xué)習(xí)要考慮的就就是所有可能的實(shí)數(shù)值權(quán)向量的集合是所有可能的實(shí)數(shù)值權(quán)向量的集合|1nRwwHDate:5/8/2022File:ML4.10Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering感知器的表征能力感知器的表征能力 可以把感知器看作是可以把感知器看作是n維實(shí)例空間(即點(diǎn)空維實(shí)例空間(即點(diǎn)空間)中的間)中的 對于超平面一側(cè)的實(shí)例,感知器輸出對于超平面一側(cè)

11、的實(shí)例,感知器輸出1,對,對于另一側(cè)的實(shí)例,輸出于另一側(cè)的實(shí)例,輸出-1 這個決策超平面方程是這個決策超平面方程是 可以被某個超平面分割的樣例集合,稱為可以被某個超平面分割的樣例集合,稱為0 xwDate:5/8/2022File:ML4.11Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering感知器的表征能力(感知器的表征能力(2) 單獨(dú)的感知器可以用來表示很多布爾函數(shù)單獨(dú)的感知器可以用來表示很多布爾函數(shù) 感知器可以表示所有的原子布爾函數(shù):與、感知器可以

12、表示所有的原子布爾函數(shù):與、或、與非、或非或、與非、或非 然而,一些布爾函數(shù)無法用單一的感知器表然而,一些布爾函數(shù)無法用單一的感知器表示,例如異或示,例如異或Date:5/8/2022File:ML4.12Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering感知器的表征能力(感知器的表征能力(3) 因?yàn)樗械牟紶柡瘮?shù)都可表示為基于原子函數(shù)的互因?yàn)樗械牟紶柡瘮?shù)都可表示為基于原子函數(shù)的互連單元的某個網(wǎng)絡(luò),因此,連單元的某個網(wǎng)絡(luò),因此,可以表示所可以表示所有的

13、布爾函數(shù)。事實(shí)上,只需要兩層深度的網(wǎng)絡(luò),有的布爾函數(shù)。事實(shí)上,只需要兩層深度的網(wǎng)絡(luò),比如表示析取范式比如表示析取范式 注意,要把一個注意,要把一個AND感知器的輸入求反只要簡單感知器的輸入求反只要簡單地改變相應(yīng)輸入權(quán)的符號地改變相應(yīng)輸入權(quán)的符號 因?yàn)楦兄骶W(wǎng)絡(luò)可以表示大量的函數(shù),而單獨(dú)的單因?yàn)楦兄骶W(wǎng)絡(luò)可以表示大量的函數(shù),而單獨(dú)的單元不能做到這一點(diǎn),所以感興趣的是元不能做到這一點(diǎn),所以感興趣的是Date:5/8/2022File:ML4.13Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for

14、Control Engineering感知器訓(xùn)練法則感知器訓(xùn)練法則 雖然目的是學(xué)習(xí)由多個單元互連的網(wǎng)絡(luò),但還是要從如何雖然目的是學(xué)習(xí)由多個單元互連的網(wǎng)絡(luò),但還是要從如何學(xué)習(xí)學(xué)習(xí)開始開始 單個感知器的學(xué)習(xí)任務(wù),決定一個權(quán)向量,它可以使感知單個感知器的學(xué)習(xí)任務(wù),決定一個權(quán)向量,它可以使感知器對于給定的訓(xùn)練樣例輸出正確的器對于給定的訓(xùn)練樣例輸出正確的1或或-1 主要考慮兩種算法主要考慮兩種算法 這兩種算法保證收斂到可接受的假設(shè),這兩種算法保證收斂到可接受的假設(shè), 這兩種算法提供了這兩種算法提供了Date:5/8/2022File:ML4.14Machine LearningPeng Kaixiang

15、 2015. All rights reserved.Machine Learning for Control Engineering感知器法則感知器法則 算法過程算法過程 從隨機(jī)的權(quán)值開始從隨機(jī)的權(quán)值開始 反復(fù)應(yīng)用這個感知器到每個訓(xùn)練樣例,反復(fù)應(yīng)用這個感知器到每個訓(xùn)練樣例, 重復(fù)這個過程,直到感知器正確分類所有的訓(xùn)練樣例重復(fù)這個過程,直到感知器正確分類所有的訓(xùn)練樣例 感知器訓(xùn)練法則感知器訓(xùn)練法則其中其中iiiwwwiixotw)( Date:5/8/2022File:ML4.15Machine LearningPeng Kaixiang 2015. All rights reserved.M

16、achine Learning for Control Engineering感知器法則(感知器法則(2) 為什么這個更新法則會成功收斂到正確的權(quán)為什么這個更新法則會成功收斂到正確的權(quán)值呢?值呢? 一些例子能說明收斂過程一些例子能說明收斂過程 可以證明(可以證明(Minskey & Papert 1969) 如果訓(xùn)練樣例線性可分,并且使用了充分小的如果訓(xùn)練樣例線性可分,并且使用了充分小的 否則,不能保證否則,不能保證 收斂的前提條件:收斂的前提條件:Date:5/8/2022File:ML4.16Machine LearningPeng Kaixiang 2015. All right

17、s reserved.Machine Learning for Control Engineering梯度下降和梯度下降和delta法則法則 delta法則克服感知器法則的不足,法則克服感知器法則的不足,是是: 使用使用來搜索可能來搜索可能的權(quán)向量的假設(shè)空間,以找到最佳擬合訓(xùn)練樣例的的權(quán)向量的假設(shè)空間,以找到最佳擬合訓(xùn)練樣例的權(quán)向量權(quán)向量 delta法則為反向傳播算法提供了基礎(chǔ),而反向傳法則為反向傳播算法提供了基礎(chǔ),而反向傳播算法能夠?qū)W習(xí)多個單元的互連網(wǎng)絡(luò)播算法能夠?qū)W習(xí)多個單元的互連網(wǎng)絡(luò) 對于包含多種不同類型的連續(xù)參數(shù)化假設(shè)的假設(shè)空對于包含多種不同類型的連續(xù)參數(shù)化假設(shè)的假設(shè)空間,間,是必須遍歷

18、這樣的空間的所有算法的是必須遍歷這樣的空間的所有算法的基礎(chǔ)基礎(chǔ)Date:5/8/2022File:ML4.17Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering梯度下降和梯度下降和delta法則(法則(2) 把把delta訓(xùn)練法則理解為訓(xùn)練一個無閾值的感訓(xùn)練法則理解為訓(xùn)練一個無閾值的感知器知器 指定一個度量標(biāo)準(zhǔn)來衡量假設(shè)相對于訓(xùn)練樣指定一個度量標(biāo)準(zhǔn)來衡量假設(shè)相對于訓(xùn)練樣例的訓(xùn)練誤差例的訓(xùn)練誤差 第第6章給出了選擇這種章給出了選擇這種E定義的一種定義的一種

19、,在一定條件下,使,在一定條件下,使E最小化的假設(shè)就是最小化的假設(shè)就是H中最可能的假設(shè)中最可能的假設(shè)xwxo)(21()()2dddDE wto Date:5/8/2022File:ML4.18Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering可視化假設(shè)空間可視化假設(shè)空間 根據(jù)根據(jù)E的定義,誤差曲面是一個拋物面,存在一的定義,誤差曲面是一個拋物面,存在一個單一全局最小值個單一全局最小值從一個任意的初始權(quán)向量開始,從一個任意的初始權(quán)向量開始,然后沿誤差曲面

20、最陡峭下降的方向,以很小然后沿誤差曲面最陡峭下降的方向,以很小的步伐反復(fù)修改這個向量,直到得到全局的的步伐反復(fù)修改這個向量,直到得到全局的最小誤差點(diǎn)最小誤差點(diǎn)Date:5/8/2022File:ML4.19Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering梯度下降法則的推導(dǎo)梯度下降法則的推導(dǎo) 如何發(fā)現(xiàn)沿誤差曲面最陡峭下降的方向?如何發(fā)現(xiàn)沿誤差曲面最陡峭下降的方向? 通過計(jì)算通過計(jì)算E相對向量相對向量 的每個分量的導(dǎo)數(shù),這個向量導(dǎo)數(shù)的每個分量的導(dǎo)數(shù),這個向

21、量導(dǎo)數(shù)被稱為被稱為E對于對于 的梯度,記作的梯度,記作 當(dāng)梯度被解釋為權(quán)空間的一個向量時,它確定了使當(dāng)梯度被解釋為權(quán)空間的一個向量時,它確定了使E最最陡峭上升的方向,所以這個向量的反方向給出了最陡峭陡峭上升的方向,所以這個向量的反方向給出了最陡峭下降的方向下降的方向 梯度訓(xùn)練法則梯度訓(xùn)練法則其中,其中, 也可寫成分量形式:也可寫成分量形式:wwwww)(wEwDate:5/8/2022File:ML4.20Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineerin

22、g梯度下降法則的推導(dǎo)(梯度下降法則的推導(dǎo)(2) 需要一個高效的方法在每一步都計(jì)算這個梯需要一個高效的方法在每一步都計(jì)算這個梯度度 梯度下降權(quán)值更新法則梯度下降權(quán)值更新法則 (式(式4.7)DdidddixotwE)(Ddidddixotw)(Date:5/8/2022File:ML4.21Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering梯度下降法則的推導(dǎo)(梯度下降法則的推導(dǎo)(3) 訓(xùn)練線性單元的梯度下降算法訓(xùn)練線性單元的梯度下降算法Gradient-D

23、escent(training_examples, )training_examples中每個訓(xùn)練樣例形式為序偶中每個訓(xùn)練樣例形式為序偶, 是輸入是輸入值向量,值向量,t是目標(biāo)輸出值,是目標(biāo)輸出值, 是學(xué)習(xí)速率是學(xué)習(xí)速率 初始化每個初始化每個wi為某個小的隨機(jī)值為某個小的隨機(jī)值 遇到終止條件之前,做以下操作遇到終止條件之前,做以下操作 初始化每個初始化每個 wi為為0 對于訓(xùn)練樣例對于訓(xùn)練樣例training_examples中的每個中的每個,做,做 把實(shí)例把實(shí)例 輸入到此單元,計(jì)算輸出輸入到此單元,計(jì)算輸出o 對于線性單元的每個權(quán)增量對于線性單元的每個權(quán)增量 wi,做,做 wiwi+ (t-

24、o)xi 對于線性單元的每個權(quán)對于線性單元的每個權(quán)wi,做,做wiwi+ wixxxxDate:5/8/2022File:ML4.22Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering梯度下降法則的推導(dǎo)(梯度下降法則的推導(dǎo)(4) 梯度下降算法如下梯度下降算法如下 選取一個初始的隨機(jī)權(quán)向量選取一個初始的隨機(jī)權(quán)向量 應(yīng)用線性單元到所有的訓(xùn)練樣例,根據(jù)公式應(yīng)用線性單元到所有的訓(xùn)練樣例,根據(jù)公式4.7計(jì)算每個計(jì)算每個權(quán)值的權(quán)值的 更新權(quán)值更新權(quán)值 因?yàn)檎`差曲面僅

25、包含一個全局的最小值,所以無論因?yàn)檎`差曲面僅包含一個全局的最小值,所以無論訓(xùn)練樣例是否線性可分,算法都會收斂到具有最小訓(xùn)練樣例是否線性可分,算法都會收斂到具有最小誤差的權(quán)向量,條件是誤差的權(quán)向量,條件是 算法的一種常用改進(jìn)方法是隨著梯度下降步數(shù)的增算法的一種常用改進(jìn)方法是隨著梯度下降步數(shù)的增加逐漸減小學(xué)習(xí)速率(加逐漸減小學(xué)習(xí)速率()wDate:5/8/2022File:ML4.23Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering梯度下降的隨機(jī)近似梯度下

26、降的隨機(jī)近似 梯度下降是一種重要的通用學(xué)習(xí)范型,它是搜索龐梯度下降是一種重要的通用學(xué)習(xí)范型,它是搜索龐大假設(shè)空間或無限假設(shè)空間一種策略大假設(shè)空間或無限假設(shè)空間一種策略 梯度下降應(yīng)用于滿足以下條件的任何情況梯度下降應(yīng)用于滿足以下條件的任何情況 假設(shè)空間假設(shè)空間 誤差對于這些假設(shè)參數(shù)誤差對于這些假設(shè)參數(shù) 梯度下降的主要實(shí)踐問題梯度下降的主要實(shí)踐問題 有時收斂過程可能非常有時收斂過程可能非常 如果在誤差曲面上有多個如果在誤差曲面上有多個,那么不能保證找,那么不能保證找到全局最小值到全局最小值Date:5/8/2022File:ML4.24Machine LearningPeng Kaixiang 2

27、015. All rights reserved.Machine Learning for Control Engineering梯度下降的隨機(jī)近似(梯度下降的隨機(jī)近似(2)(或稱增量梯度下降)(或稱增量梯度下降) 根據(jù)某個單獨(dú)樣例的誤差增量計(jì)算權(quán)值更新,得到近似根據(jù)某個單獨(dú)樣例的誤差增量計(jì)算權(quán)值更新,得到近似的梯度下降搜索(隨機(jī)取一個樣例)的梯度下降搜索(隨機(jī)取一個樣例) 對梯度下降算法的修改對梯度下降算法的修改 wi(t-o)xi, wiwi+ wi 可以看作為可以看作為 在迭代所有訓(xùn)練樣例時,這些權(quán)值更新的序列給出了對在迭代所有訓(xùn)練樣例時,這些權(quán)值更新的序列給出了對于原來誤差函數(shù)的梯度下

28、降的一個合理近似于原來誤差函數(shù)的梯度下降的一個合理近似 通過使下降速率的值足夠小,可以使隨機(jī)梯度下降以任通過使下降速率的值足夠小,可以使隨機(jī)梯度下降以任意程度接近于真實(shí)梯度下降意程度接近于真實(shí)梯度下降Date:5/8/2022File:ML4.25Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering梯度下降的隨機(jī)近似(梯度下降的隨機(jī)近似(3) 標(biāo)準(zhǔn)梯度下降和隨機(jī)梯度下降之間的關(guān)鍵區(qū)別標(biāo)準(zhǔn)梯度下降和隨機(jī)梯度下降之間的關(guān)鍵區(qū)別是在權(quán)值更新前對是在權(quán)值更新前對所

29、有樣例所有樣例,而隨機(jī)梯度下,而隨機(jī)梯度下降的權(quán)值是通過考查降的權(quán)值是通過考查來更新的來更新的 在標(biāo)準(zhǔn)梯度下降中,權(quán)值更新的每一步對多個樣例求和,需要在標(biāo)準(zhǔn)梯度下降中,權(quán)值更新的每一步對多個樣例求和,需要 標(biāo)準(zhǔn)梯度下降,由于使用標(biāo)準(zhǔn)梯度下降,由于使用,標(biāo)準(zhǔn)梯度下降對于每一次權(quán),標(biāo)準(zhǔn)梯度下降對于每一次權(quán)值更新經(jīng)常使用比隨機(jī)梯度下降大的步長值更新經(jīng)常使用比隨機(jī)梯度下降大的步長 如果標(biāo)準(zhǔn)誤差曲面有多個局部極小值,隨機(jī)梯度下降如果標(biāo)準(zhǔn)誤差曲面有多個局部極小值,隨機(jī)梯度下降 實(shí)踐中,標(biāo)準(zhǔn)和隨機(jī)梯度下降方法都被廣泛應(yīng)用實(shí)踐中,標(biāo)準(zhǔn)和隨機(jī)梯度下降方法都被廣泛應(yīng)用Date:5/8/2022File:ML4.2

30、6Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering梯度下降的隨機(jī)近似(梯度下降的隨機(jī)近似(4) delta法則(增量法則),又稱法則(增量法則),又稱LMS法則、法則、Adaline法則、法則、Windrow-Hoff法則法則 增量法則與感知器法則的增量法則與感知器法則的 delta法則可以學(xué)習(xí)非閾值線性單元的權(quán),也可以用來訓(xùn)練法則可以學(xué)習(xí)非閾值線性單元的權(quán),也可以用來訓(xùn)練有閾值的感知器單元。有閾值的感知器單元。 如果非閾值輸出能夠被訓(xùn)練到完美擬合這些

31、值,那么閾值如果非閾值輸出能夠被訓(xùn)練到完美擬合這些值,那么閾值輸出也會完美擬合它們輸出也會完美擬合它們 即使不能完美地?cái)M合目標(biāo)值,只要線性單元的輸出具有正即使不能完美地?cái)M合目標(biāo)值,只要線性單元的輸出具有正確的符號,閾值輸出就會正確擬合目標(biāo)值確的符號,閾值輸出就會正確擬合目標(biāo)值 盡管這個過程會得到使線性單元輸出的誤差最小化的權(quán)值,盡管這個過程會得到使線性單元輸出的誤差最小化的權(quán)值,但這些權(quán)值不能保證閾值輸出的誤差最小化但這些權(quán)值不能保證閾值輸出的誤差最小化Date:5/8/2022File:ML4.27Machine LearningPeng Kaixiang 2015. All rights

32、reserved.Machine Learning for Control Engineering感知器學(xué)習(xí)小結(jié)感知器學(xué)習(xí)小結(jié) 感知器法則和感知器法則和delta法則的關(guān)鍵差異法則的關(guān)鍵差異 前者根據(jù)閾值化的感知器輸出的誤差更新權(quán)值前者根據(jù)閾值化的感知器輸出的誤差更新權(quán)值 后者根據(jù)輸入的后者根據(jù)輸入的的誤差來更新權(quán)值的誤差來更新權(quán)值 這個差異帶來不同的收斂特性這個差異帶來不同的收斂特性 前者經(jīng)過有限次的迭代收斂到一個能理想分類訓(xùn)練數(shù)據(jù)前者經(jīng)過有限次的迭代收斂到一個能理想分類訓(xùn)練數(shù)據(jù)的假設(shè),條件是的假設(shè),條件是 后者可能經(jīng)過極長的時間,漸近收斂到最小誤差假設(shè),后者可能經(jīng)過極長的時間,漸近收斂到最

33、小誤差假設(shè),但但Date:5/8/2022File:ML4.28Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering感知器學(xué)習(xí)小結(jié)(感知器學(xué)習(xí)小結(jié)(2) 學(xué)習(xí)權(quán)向量的第學(xué)習(xí)權(quán)向量的第3種方法是種方法是 線性規(guī)劃是解線性不等式方程組的一種通用線性規(guī)劃是解線性不等式方程組的一種通用的有效方法的有效方法 這種方法這種方法 Duda和和Hart給出了一種更巧妙的適合非線給出了一種更巧妙的適合非線性可分的情況的方法性可分的情況的方法 更大的問題是,無法擴(kuò)展到訓(xùn)練多層

34、網(wǎng)絡(luò),更大的問題是,無法擴(kuò)展到訓(xùn)練多層網(wǎng)絡(luò),而而delta法則可以很容易擴(kuò)展到多層網(wǎng)絡(luò)法則可以很容易擴(kuò)展到多層網(wǎng)絡(luò)Date:5/8/2022File:ML4.29Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering多層網(wǎng)絡(luò)和反向傳播算法多層網(wǎng)絡(luò)和反向傳播算法 多層網(wǎng)絡(luò)能夠表示種類繁多的非線性曲面多層網(wǎng)絡(luò)能夠表示種類繁多的非線性曲面 典型的多層網(wǎng)絡(luò)典型的多層網(wǎng)絡(luò)outputhiddeninputactivationDate:5/8/2022File:ML4.

35、30Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering可微閾值單元可微閾值單元 使用使用來構(gòu)建多層網(wǎng)絡(luò)?來構(gòu)建多層網(wǎng)絡(luò)? 多個線性單元的連接仍產(chǎn)生線性函數(shù),而我們希望多個線性單元的連接仍產(chǎn)生線性函數(shù),而我們希望構(gòu)建表征構(gòu)建表征 感知器單元可以構(gòu)建非線性函數(shù),但它的不連續(xù)閾感知器單元可以構(gòu)建非線性函數(shù),但它的不連續(xù)閾值使它不可微,不適合梯度下降算法值使它不可微,不適合梯度下降算法 我們需要的單元滿足的條件我們需要的單元滿足的條件 輸出是輸入的非線性函數(shù)輸出

36、是輸入的非線性函數(shù) 輸出是輸入的可微函數(shù)輸出是輸入的可微函數(shù) Sigmoid單元,類似于感知器單元,但基于一個平單元,類似于感知器單元,但基于一個平滑的可微閾值函數(shù)滑的可微閾值函數(shù)Date:5/8/2022File:ML4.31Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering可微閾值單元(可微閾值單元(2) sigmoid單元先計(jì)算它的輸入的線性組合,然單元先計(jì)算它的輸入的線性組合,然后應(yīng)用到一個閾值上,閾值輸出是輸入的連后應(yīng)用到一個閾值上,閾值輸出是

37、輸入的連續(xù)函數(shù)續(xù)函數(shù)其中其中()owx yey11)(Date:5/8/2022File:ML4.32Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering可微閾值單元(可微閾值單元(3) sigmoid函數(shù)函數(shù) 也稱也稱logistic函數(shù)函數(shù) 擠壓函數(shù)擠壓函數(shù) 輸出范圍是輸出范圍是0到到1 單調(diào)遞增單調(diào)遞增 導(dǎo)數(shù)很容易用函數(shù)本身表示導(dǎo)數(shù)很容易用函數(shù)本身表示 sigmoid函數(shù)的變型函數(shù)的變型 其他易計(jì)算導(dǎo)數(shù)的可微函數(shù)其他易計(jì)算導(dǎo)數(shù)的可微函數(shù) 增加陡峭性增

38、加陡峭性 雙曲正切函數(shù)雙曲正切函數(shù)netjTj01Date:5/8/2022File:ML4.33Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering反向傳播算法反向傳播算法 用來學(xué)習(xí)多層網(wǎng)絡(luò)的權(quán)值用來學(xué)習(xí)多層網(wǎng)絡(luò)的權(quán)值 采用梯度下降方法試圖最小化網(wǎng)絡(luò)輸出值和采用梯度下降方法試圖最小化網(wǎng)絡(luò)輸出值和目標(biāo)值之間的誤差平方目標(biāo)值之間的誤差平方 網(wǎng)絡(luò)的誤差定義公式,對所有網(wǎng)絡(luò)輸出的誤網(wǎng)絡(luò)的誤差定義公式,對所有網(wǎng)絡(luò)輸出的誤差求和差求和21( )()2kdkdd D

39、k outpusE wto Date:5/8/2022File:ML4.34Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering反向傳播算法(反向傳播算法(2) 反向傳播算法面臨的學(xué)習(xí)任務(wù)反向傳播算法面臨的學(xué)習(xí)任務(wù) 搜索一個巨大的假設(shè)空間,這個空間由網(wǎng)絡(luò)中搜索一個巨大的假設(shè)空間,這個空間由網(wǎng)絡(luò)中所有的單元的所有可能的權(quán)值定義,得到與前所有的單元的所有可能的權(quán)值定義,得到與前面類似的誤差曲面面類似的誤差曲面 在多層網(wǎng)絡(luò)中,誤差曲面可能有多個局部極小在多層網(wǎng)絡(luò)

40、中,誤差曲面可能有多個局部極小值,值, 盡管有這個障礙,已經(jīng)發(fā)現(xiàn)對于實(shí)踐中很多應(yīng)盡管有這個障礙,已經(jīng)發(fā)現(xiàn)對于實(shí)踐中很多應(yīng)用,反向傳播算法都產(chǎn)生了出色的結(jié)果用,反向傳播算法都產(chǎn)生了出色的結(jié)果Date:5/8/2022File:ML4.35Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering( )(1)hjjkkjk Downstream joow 反向傳播算法(反向傳播算法(3)包含兩層包含兩層sigmoid單元的前饋網(wǎng)絡(luò)的反向傳播算法單元的前饋網(wǎng)絡(luò)的反向傳

41、播算法BackPropagation(training_examples, , nin, nout, nhidden)training_examples是序偶是序偶的集合,的集合, 是網(wǎng)絡(luò)輸入值向量,是目標(biāo)輸出值。是網(wǎng)絡(luò)輸入值向量,是目標(biāo)輸出值。 是學(xué)習(xí)速率,是學(xué)習(xí)速率,nin是網(wǎng)絡(luò)輸入的數(shù)量,是網(wǎng)絡(luò)輸入的數(shù)量,nhidden是隱藏層單元數(shù),是隱藏層單元數(shù),nout是輸出單元數(shù)是輸出單元數(shù)創(chuàng)建具有創(chuàng)建具有nin個輸入,個輸入,nhidden個隱層,個隱層,nout個輸出單元的網(wǎng)絡(luò)個輸出單元的網(wǎng)絡(luò)初始化所有的網(wǎng)絡(luò)權(quán)值為小的初始化所有的網(wǎng)絡(luò)權(quán)值為小的,從單元,從單元i到單元到單元j的輸入表示為的輸

42、入表示為xji,單元,單元i到單元到單元j的權(quán)值表示為的權(quán)值表示為wji。隨機(jī)值隨機(jī)值在遇到終止條件前在遇到終止條件前 對于訓(xùn)練樣例對于訓(xùn)練樣例training_examples中的每個中的每個 : 把輸入沿網(wǎng)絡(luò)前向傳播把輸入沿網(wǎng)絡(luò)前向傳播 把實(shí)例把實(shí)例 輸入網(wǎng)絡(luò),并計(jì)算網(wǎng)絡(luò)中每個單元輸入網(wǎng)絡(luò),并計(jì)算網(wǎng)絡(luò)中每個單元u的輸出的輸出ou 使誤差沿網(wǎng)絡(luò)反向傳播使誤差沿網(wǎng)絡(luò)反向傳播 對于網(wǎng)絡(luò)的每個輸出單元對于網(wǎng)絡(luò)的每個輸出單元k,計(jì)算它的誤差項(xiàng),計(jì)算它的誤差項(xiàng) kok(1-ok)(tk-ok) 對于網(wǎng)絡(luò)的每個隱層單元對于網(wǎng)絡(luò)的每個隱層單元h,計(jì)算它的誤差項(xiàng),計(jì)算它的誤差項(xiàng) 更新每個網(wǎng)絡(luò)權(quán)值更新每個網(wǎng)絡(luò)

43、權(quán)值wjiwji+ wji,其中,其中 wji=jxjixtxtxtxDate:5/8/2022File:ML4.36Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering反向傳播算法(反向傳播算法(4) 前面給出的反向傳播算法適用于包含兩層前面給出的反向傳播算法適用于包含兩層sigmoid單元的單元的,并且每一層的單元與前一層,并且每一層的單元與前一層的所有單元相連。的所有單元相連。 是反向傳播算法的是反向傳播算法的(或隨機(jī)梯度下降)(或隨機(jī)梯度下降)版本

44、版本 使用的符號做了如下擴(kuò)展使用的符號做了如下擴(kuò)展 網(wǎng)絡(luò)中每個節(jié)點(diǎn)被賦予一個序號,這里的節(jié)點(diǎn)要么是網(wǎng)網(wǎng)絡(luò)中每個節(jié)點(diǎn)被賦予一個序號,這里的節(jié)點(diǎn)要么是網(wǎng)絡(luò)的輸入,要么是網(wǎng)絡(luò)中某個單元的輸出絡(luò)的輸入,要么是網(wǎng)絡(luò)中某個單元的輸出 xji表示節(jié)點(diǎn)表示節(jié)點(diǎn)i到單元到單元j的輸入,的輸入,wji表示對應(yīng)的權(quán)值表示對應(yīng)的權(quán)值 n表示與單元表示與單元n相關(guān)聯(lián)的誤差項(xiàng)。相關(guān)聯(lián)的誤差項(xiàng)。Date:5/8/2022File:ML4.37Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Enginee

45、ring 從建立一個具有期望數(shù)量的隱層單元和輸出單元的從建立一個具有期望數(shù)量的隱層單元和輸出單元的網(wǎng)絡(luò)并初始化所有的網(wǎng)絡(luò)的網(wǎng)絡(luò)并初始化所有的網(wǎng)絡(luò)的開始開始 給定一個給定一個,算法的主循環(huán)就對訓(xùn)練,算法的主循環(huán)就對訓(xùn)練樣例進(jìn)行樣例進(jìn)行 對于每一個訓(xùn)練樣例,它應(yīng)用目前的網(wǎng)絡(luò)到這個樣對于每一個訓(xùn)練樣例,它應(yīng)用目前的網(wǎng)絡(luò)到這個樣例,計(jì)算出對這個樣例例,計(jì)算出對這個樣例,然后,然后網(wǎng)絡(luò)中所有的權(quán)值網(wǎng)絡(luò)中所有的權(quán)值 對這樣的梯度下降步驟進(jìn)行迭代,直到網(wǎng)絡(luò)的性能對這樣的梯度下降步驟進(jìn)行迭代,直到網(wǎng)絡(luò)的性能為止為止Date:5/8/2022File:ML4.38Machine LearningPeng Kai

46、xiang 2015. All rights reserved.Machine Learning for Control Engineering 算法中的梯度下降權(quán)更新法則算法中的梯度下降權(quán)更新法則 類似類似delta法則,依照以下三者來更新每一個法則,依照以下三者來更新每一個權(quán)權(quán) 學(xué)習(xí)速率學(xué)習(xí)速率 該權(quán)值涉及的輸入值該權(quán)值涉及的輸入值xji 該單元的輸出誤差該單元的輸出誤差 不同于不同于delta法則的地方法則的地方 delta法則中的誤差項(xiàng)被替換成一個法則中的誤差項(xiàng)被替換成一個Date:5/8/2022File:ML4.39Machine LearningPeng Kaixiang 201

47、5. All rights reserved.Machine Learning for Control Engineering反向傳播算法的誤差項(xiàng)反向傳播算法的誤差項(xiàng)的誤差項(xiàng)的誤差項(xiàng) k與與delta法則中的法則中的(tk-ok)相似,但相似,但。的誤差項(xiàng)的誤差項(xiàng) 因?yàn)橛?xùn)練樣例僅對網(wǎng)絡(luò)的輸出提供了目標(biāo)值因?yàn)橛?xùn)練樣例僅對網(wǎng)絡(luò)的輸出提供了目標(biāo)值tk,所以,所以 采取以下的采取以下的計(jì)算隱層單元的誤差項(xiàng):對受隱層計(jì)算隱層單元的誤差項(xiàng):對受隱層單元單元h影響的每一個單元的誤差影響的每一個單元的誤差 k進(jìn)行加權(quán)求和,每個誤進(jìn)行加權(quán)求和,每個誤差差 k權(quán)值為權(quán)值為wkh,wkh就是從隱層單元就是從隱層單元

48、h到輸出單元到輸出單元k的權(quán)的權(quán)值。這個權(quán)值刻畫了隱層單元值。這個權(quán)值刻畫了隱層單元h對于輸出單元對于輸出單元k的誤差應(yīng)的誤差應(yīng)負(fù)責(zé)的程度。負(fù)責(zé)的程度。Date:5/8/2022File:ML4.40Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering算法解釋(算法解釋(2) 算法隨著每個訓(xùn)練樣例的出現(xiàn)而算法隨著每個訓(xùn)練樣例的出現(xiàn)而,這一點(diǎn)與,這一點(diǎn)與梯度下降的隨機(jī)近似算法一致梯度下降的隨機(jī)近似算法一致 要取得誤差要取得誤差E的真實(shí)梯度,需要在修改權(quán)值之前

49、對所有訓(xùn)練的真實(shí)梯度,需要在修改權(quán)值之前對所有訓(xùn)練樣例的樣例的值求和值求和 在典型的應(yīng)用中,權(quán)值的更新迭代會被重復(fù)上千次在典型的應(yīng)用中,權(quán)值的更新迭代會被重復(fù)上千次 有很多有很多可以用來停止這個過程可以用來停止這個過程 迭代的次數(shù)到了一個固定值時停止迭代的次數(shù)到了一個固定值時停止 當(dāng)在訓(xùn)練樣例上的誤差降到某個閾值以下當(dāng)在訓(xùn)練樣例上的誤差降到某個閾值以下 在分離的驗(yàn)證樣例集合上的誤差符合某個標(biāo)準(zhǔn)在分離的驗(yàn)證樣例集合上的誤差符合某個標(biāo)準(zhǔn) 終止條件很重要,太少的迭代無法有效地降低誤差,太多終止條件很重要,太少的迭代無法有效地降低誤差,太多的迭代會導(dǎo)致對訓(xùn)練數(shù)據(jù)的的迭代會導(dǎo)致對訓(xùn)練數(shù)據(jù)的Date:5/

50、8/2022File:ML4.41Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering因?yàn)榉聪騻鞑ニ惴ǖ膽?yīng)用如此廣泛,所以已經(jīng)開發(fā)出了很多反向傳播因?yàn)榉聪騻鞑ニ惴ǖ膽?yīng)用如此廣泛,所以已經(jīng)開發(fā)出了很多反向傳播算法的變體算法的變體修改權(quán)值更新法則,使第修改權(quán)值更新法則,使第n次迭代時的權(quán)值的更新部分地依賴于發(fā)生在次迭代時的權(quán)值的更新部分地依賴于發(fā)生在第第n-1次迭代時的更新,比如次迭代時的更新,比如 wji(n)=jxji+右側(cè)第一項(xiàng)就是前面算法中的權(quán)值更新法

51、則,第二項(xiàng)被稱為右側(cè)第一項(xiàng)就是前面算法中的權(quán)值更新法則,第二項(xiàng)被稱為梯度下降的搜索軌跡就像一個球沿誤差曲面滾下,梯度下降的搜索軌跡就像一個球沿誤差曲面滾下,沖量也具有在梯度不變的區(qū)域逐漸增大搜索步長的效果,從而加快收沖量也具有在梯度不變的區(qū)域逐漸增大搜索步長的效果,從而加快收斂斂Date:5/8/2022File:ML4.42Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering 算法可以簡單地推廣到任意深度的前饋網(wǎng)絡(luò)算法可以簡單地推廣到任意深度的前饋網(wǎng)絡(luò)

52、第第m層的單元層的單元r的的 r值由更深的第值由更深的第m+1層層 值根據(jù)下值根據(jù)下式計(jì)算式計(jì)算 將這個算法推廣到任何有向無環(huán)結(jié)構(gòu)也同樣簡單,將這個算法推廣到任何有向無環(huán)結(jié)構(gòu)也同樣簡單,而不論網(wǎng)絡(luò)中的單元是否被排列在統(tǒng)一的層上,計(jì)而不論網(wǎng)絡(luò)中的單元是否被排列在統(tǒng)一的層上,計(jì)算任意內(nèi)部單元的算任意內(nèi)部單元的 的法則是:的法則是: ,Downstream(r)是在網(wǎng)絡(luò)中單元是在網(wǎng)絡(luò)中單元r的直接的直接,即輸入中包括,即輸入中包括層1)1 (msssrrrrwoo)()1 (rDownstreamsssrrrrwooDate:5/8/2022File:ML4.43Machine LearningPe

53、ng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering迭代處理訓(xùn)練樣例,每次迭代處理訓(xùn)練樣例,每次處理一個,對于每個訓(xùn)練樣例處理一個,對于每個訓(xùn)練樣例d,利用關(guān)于,利用關(guān)于這個樣例的誤差這個樣例的誤差Ed的梯度修改權(quán)值的梯度修改權(quán)值jidjiwEwoutputskkkdotwE2)(21)(Date:5/8/2022File:ML4.44Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Co

54、ntrol Engineering符號說明符號說明 xji,單元,單元j的第的第i個輸入個輸入 wji,與,與xji相關(guān)聯(lián)的權(quán)值相關(guān)聯(lián)的權(quán)值 netj,單元,單元j的輸入的加權(quán)和的輸入的加權(quán)和 oj,單元,單元j計(jì)算出的輸出計(jì)算出的輸出 tj,單元,單元j的目標(biāo)輸出的目標(biāo)輸出 ,sigmoid函數(shù)函數(shù) outputs,網(wǎng)絡(luò)最后一層的輸出單元的集合,網(wǎng)絡(luò)最后一層的輸出單元的集合 Downstream(j),單元,單元j的輸出到達(dá)的單元的集合的輸出到達(dá)的單元的集合Date:5/8/2022File:ML4.45Machine LearningPeng Kaixiang 2015. All righ

55、ts reserved.Machine Learning for Control Engineering隨機(jī)梯度下降法則的推導(dǎo)隨機(jī)梯度下降法則的推導(dǎo)分情況討論分情況討論 的推導(dǎo)的推導(dǎo) 輸出單元輸出單元jdddjijijjijnetEEExwnetwnet djEnet jddjjjoEEnetonet djEo 221()21()2()12()2()kkk outputsjjjjjjjjjjjtootoototooto ()(1)jjjjjjonetoonetnet ()(1)djjjjjEto oonet ()(1)djijjjjjijiEwto ooxw Date:5/8/2022File

56、:ML4.46Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering隨機(jī)梯度下降法則的推導(dǎo)()隨機(jī)梯度下降法則的推導(dǎo)() 隱層單元隱層單元( )( )( )( )( )( )(1)(1)dkk Downstream jkjkkk Downstream jjjkkk Downstream jjjjkkjk Downstream jjkkjjjk Downstream jjjkkjk Downstream jEnetnetnetnetnetonetonetown

57、etw oooow djEnet ( )(1)jijijjkkjk Downstream jwx oow Date:5/8/2022File:ML4.47Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering收斂性和局部極小值收斂性和局部極小值 對于多層網(wǎng)絡(luò),誤差曲面可能含有多個不同對于多層網(wǎng)絡(luò),誤差曲面可能含有多個不同的局部極小值,梯度下降的局部極小值,梯度下降中的任何一個中的任何一個 對于多層網(wǎng)絡(luò),反向傳播算法僅能保證收斂對于多層網(wǎng)絡(luò),反向傳播算法僅能保

58、證收斂到誤差到誤差E的某個局部極小值,的某個局部極小值, 盡管缺乏對收斂到全局最小誤差的保證,反盡管缺乏對收斂到全局最小誤差的保證,反向傳播算法在實(shí)踐中仍是向傳播算法在實(shí)踐中仍是Date:5/8/2022File:ML4.48Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering收斂性和局部極小值()收斂性和局部極小值() 網(wǎng)絡(luò)的權(quán)越多,誤差曲面的維數(shù)越多,也就越可能網(wǎng)絡(luò)的權(quán)越多,誤差曲面的維數(shù)越多,也就越可能為梯度下降為梯度下降 考慮隨著訓(xùn)練中迭代次數(shù)的增

59、加網(wǎng)絡(luò)權(quán)值的演化方考慮隨著訓(xùn)練中迭代次數(shù)的增加網(wǎng)絡(luò)權(quán)值的演化方式式 如果把網(wǎng)絡(luò)的權(quán)值初始化為接近于如果把網(wǎng)絡(luò)的權(quán)值初始化為接近于0的值,那么在早期的梯度下降的值,那么在早期的梯度下降步驟中,網(wǎng)絡(luò)將表現(xiàn)為一個步驟中,網(wǎng)絡(luò)將表現(xiàn)為一個,近似為輸入的線性函,近似為輸入的線性函數(shù),這是因?yàn)閿?shù),這是因?yàn)閟igmoid函數(shù)本身在函數(shù)本身在 僅當(dāng)權(quán)值增長一定時間后,它們才會到達(dá)可以表示僅當(dāng)權(quán)值增長一定時間后,它們才會到達(dá)可以表示,可以預(yù)期在這個能表示更復(fù)雜函數(shù)的權(quán)空間區(qū)域存在,可以預(yù)期在這個能表示更復(fù)雜函數(shù)的權(quán)空間區(qū)域存在更多的局部極小值更多的局部極小值 但是當(dāng)權(quán)到達(dá)這一點(diǎn)時,它們已經(jīng)足夠靠近全局最小值,即

60、便它是但是當(dāng)權(quán)到達(dá)這一點(diǎn)時,它們已經(jīng)足夠靠近全局最小值,即便它是這個區(qū)域的局部最小值也是這個區(qū)域的局部最小值也是的的Date:5/8/2022File:ML4.49Machine LearningPeng Kaixiang 2015. All rights reserved.Machine Learning for Control Engineering收斂性和局部極小值(收斂性和局部極小值(3) 為梯度更新法則加一個為梯度更新法則加一個,可以帶動梯度下降過程,沖,可以帶動梯度下降過程,沖過狹窄的局部極小值(原則上,也可能沖過狹窄的全局最過狹窄的局部極小值(原則上,也可能沖過狹窄的全局最小值)小值)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論