深度學(xué)習(xí)的最優(yōu)化方法比較_第1頁(yè)
深度學(xué)習(xí)的最優(yōu)化方法比較_第2頁(yè)
深度學(xué)習(xí)的最優(yōu)化方法比較_第3頁(yè)
深度學(xué)習(xí)的最優(yōu)化方法比較_第4頁(yè)
深度學(xué)習(xí)的最優(yōu)化方法比較_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、深度學(xué)習(xí)的最優(yōu)化方法比較-最優(yōu)化理論報(bào)告姓名:陸家雙學(xué)號(hào):182201181梯度下降算法針對(duì)凸優(yōu)化問(wèn)題原則上是可以收斂到全局最優(yōu)的,因?yàn)榇藭r(shí)只有唯一的局 部最優(yōu)點(diǎn)。而實(shí)際上深度學(xué)習(xí)模型是一個(gè)復(fù)雜的非線性結(jié)構(gòu),一般屬于非凸問(wèn)題,這意味著 存在很多局部最優(yōu)點(diǎn)(鞍點(diǎn)),采用梯度下降算法可能會(huì)陷入局部最優(yōu),這應(yīng)該是最頭疼的 問(wèn)題。這點(diǎn)和進(jìn)化算法如遺傳算法很類(lèi)似,都無(wú)法保證收斂到全局最優(yōu)。可以看到,梯度下 降算法中一個(gè)重要的參數(shù)是學(xué)習(xí)速率,適當(dāng)?shù)膶W(xué)習(xí)速率很重要:學(xué)習(xí)速率過(guò)小時(shí)收斂速度慢, 而過(guò)大時(shí)導(dǎo)致訓(xùn)練震蕩,而且可能會(huì)發(fā)散。理想的梯度下降算法要滿(mǎn)足兩點(diǎn):收斂速度要快; 能全局收斂。為了這個(gè)理想,出現(xiàn)了

2、很多經(jīng)典梯度下降算法的改進(jìn)。SGD梯度下降算法(Gradient Descent Optimization)是神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練最常用的優(yōu)化算法。梯度下降算法背后的原理:目標(biāo)函數(shù)J( )關(guān)于參數(shù)。的梯度將是目標(biāo)函數(shù)上升最快的方向,對(duì)于最小化優(yōu)化問(wèn)題,只需要將參數(shù)沿著梯度相反的方向前進(jìn)一個(gè)步長(zhǎng)(學(xué) 習(xí)速率),就可以實(shí)現(xiàn)目標(biāo)函數(shù)的下降。參數(shù)更新公式如下:。FV J ()0其中V J ()是參數(shù)的梯度。根據(jù)計(jì)算目標(biāo)函數(shù)J (0)采用數(shù)據(jù)量的大小,梯度下降算法又可以分為批量梯度下降算 法(Batch Gradient Descent),隨機(jī)梯度下降算法(Stochastic GradientDescen

3、t)和小批 量梯度下降算法(Mini-batch Gradient Descent)。批量梯度下降算法,J()是在整個(gè)訓(xùn)練集上計(jì)算的,如果數(shù)據(jù)集比較大,可能會(huì)面 臨內(nèi)存不足問(wèn)題,而且其收斂速度一般比較慢。隨機(jī)梯度下降算法,J()是針對(duì)訓(xùn)練集中的一個(gè)訓(xùn)練樣本計(jì)算的,又稱(chēng)為在線學(xué)習(xí), 即得到了一個(gè)樣本,就可以執(zhí)行一次參數(shù)更新。所以其收斂速度會(huì)快一些,但是有 可能出現(xiàn)目標(biāo)函數(shù)值震蕩現(xiàn)象,因?yàn)楦哳l率的參數(shù)更新導(dǎo)致了高方差。小批量梯度下降算法,是折中方案,選取訓(xùn)練集中一個(gè)小批量樣本計(jì)算,這樣可以 保證訓(xùn)練過(guò)程更穩(wěn)定,而且采用批量訓(xùn)練方法也可以利用矩陣計(jì)算的優(yōu)勢(shì)。這是目 前最常用的梯度下降算法。momen

4、tumSGD方法的一個(gè)缺點(diǎn)是,其更新方向完全依賴(lài)于當(dāng)前的batch,因而其更新十分不 穩(wěn)定,每次迭代計(jì)算的梯度含有比較大的噪音。解決這一問(wèn)題的一個(gè)簡(jiǎn)單的做法便是引 入momentum,momentum即動(dòng)量,是BorisPolyak在1964年提出的,其基于物體運(yùn)動(dòng) 時(shí)的慣性:將一個(gè)小球從山頂滾下,其初始速率很慢,但在加速度作用下速率很快增加, 并最終由于阻力的存在達(dá)到一個(gè)穩(wěn)定速率,即更新的時(shí)候在一定程度上保留之前更新的 方向,同時(shí)利用當(dāng)前batch的梯度微調(diào)最終的更新方向。這樣一來(lái),可以在一定程度上增加穩(wěn)定性,從而學(xué)習(xí)地更快,并且還有一定擺脫局部最優(yōu)的能力。掌握單純形法的理 論依據(jù)、基本思想

5、和最優(yōu)性檢驗(yàn)定理,熟練用大M法和兩階段求解線性規(guī)劃問(wèn)題,理 解構(gòu)造的新問(wèn)題和原問(wèn)題的解的關(guān)系。其更新方法如下:可以看到,參數(shù)更新時(shí)不僅考慮當(dāng)前梯度值,而且加上了一個(gè)動(dòng)量項(xiàng) m,但多了一 個(gè)超參Y,通常Y設(shè)置為0.5,直到初始學(xué)習(xí)穩(wěn)定,然后增加到0.9或更高。相比原始梯度 下降算法,動(dòng)量梯度下降算法有助于加速收斂。當(dāng)梯度與動(dòng)量方向一致時(shí),動(dòng)量項(xiàng)會(huì)增加, 而相反時(shí),動(dòng)量項(xiàng)減少,因此動(dòng)量梯度下降算法可以減少訓(xùn)練的震蕩過(guò)程。可以看到,參數(shù) 更新時(shí)不僅考慮當(dāng)前梯度值,而且加上了一個(gè)動(dòng)量項(xiàng) m,但多了一個(gè)超參Y,通常Y設(shè) 置為0.5,直到初始學(xué)習(xí)穩(wěn)定,然后增加到0.9或更高。相比原始梯度下降算法,動(dòng)量梯度

6、 下降算法有助于加速收斂。當(dāng)梯度與動(dòng)量方向一致時(shí),動(dòng)量項(xiàng)會(huì)增加,而相反時(shí),動(dòng)量項(xiàng)減 少,因此動(dòng)量梯度下降算法可以減少訓(xùn)練的震蕩過(guò)程。NAGNAG(Nesterov Accelerated Gradient),由 Ilya Sutskever(2012 unpublished)在 Nesterov 工作的啟發(fā)下提出的。對(duì)動(dòng)量梯度下降算法的改進(jìn)版本,其速度更快。其變化之處在于計(jì)算 “超前梯度”更新動(dòng)量項(xiàng)Y m,具體公式如下:既然參數(shù)要沿著動(dòng)量項(xiàng)y m更新,不妨計(jì)算未來(lái)位置0 -丫 m)的梯度,然后合并兩項(xiàng)作為最終的更新項(xiàng)。效果示意圖如下:Starting pointoptimumRegular m

7、omentum updateStarting pointoptimumRegular momentum updateAdaGradAdaGrad是Duchi在2011年提出的一種學(xué)習(xí)速率自適應(yīng)的梯度下降算法。在訓(xùn)練 迭代過(guò)程,其學(xué)習(xí)速率是逐漸衰減的,經(jīng)常更新的參數(shù)其學(xué)習(xí)速率衰減更快,這是一種 自適應(yīng)算法。其更新過(guò)程如下:8 = n c m8 + 堂 g g,;i=1每步迭代過(guò)程:從訓(xùn)練集中的隨機(jī)抽取一批容量為m的樣本x1,xm,以及相關(guān)的輸出yi計(jì)算梯度和誤差,更新r-再根據(jù)r和梯度計(jì)算參數(shù)更新量:g - -0蕓 L(f (x ;9), y )m 9 i ii丫 丫 + gOg-8 一A0 =

8、Og8 +理9 9+A9由于梯度平方的累計(jì)量r逐漸增加的,那么學(xué)習(xí)速率是衰減的??紤]下圖所示的情 況,目標(biāo)函數(shù)在兩個(gè)方向的坡度不一樣,如果是原始的梯度下降算法,在接近坡底時(shí)收 斂速度比較慢。而當(dāng)采用AdaGrad,這種情況可以被改善。由于比較陡的方向梯度比較 大,其學(xué)習(xí)速率將衰減得更快,這有利于參數(shù)沿著更接近坡底的方向移動(dòng),從而加速收 斂。對(duì)于每個(gè)參數(shù),隨著其更新的總距離增多,其學(xué)習(xí)速率也隨之變慢。RMSPropRMSprop是對(duì)Adagrad算法的改進(jìn),主要是解決。其實(shí)思路很簡(jiǎn)單,類(lèi)似Momentum 思想,引入一個(gè)衰減系數(shù),讓梯度平方的累計(jì)量r每回合都衰減一定比例:Y PY + G-pk

9、Og-A9 = Og8 +罰9 9+A9優(yōu)點(diǎn):-相比于AdaGrad,這種方法有效減少了出現(xiàn)梯度爆炸情況,因此避免了學(xué)習(xí)速率過(guò)快衰 減的問(wèn)題。-適合處理非平穩(wěn)目標(biāo),對(duì)于RNN效果很好。缺點(diǎn):-又引入了新的超參一衰減系數(shù)P-依然依賴(lài)于全局學(xué)習(xí)速率。Adam自適應(yīng)矩估計(jì)(daptive moment estimation,Adam),是 Kingma 等在 2015 年提出的一 種新的優(yōu)化算法,本質(zhì)上是帶有動(dòng)量項(xiàng)的RMSprop,其結(jié)合了 Momentum和RMSprop算法 的思想。它利用梯度的一階矩估計(jì)和二階矩估計(jì)動(dòng)態(tài)調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率。具體實(shí)現(xiàn)每步迭代過(guò)程:從訓(xùn)練集中的隨機(jī)抽取一批容量為m

10、的樣本x1,.,xm,以及相關(guān)的輸出y i計(jì)算梯度和誤差,更新Y和s ,再根據(jù)Y和s以及梯度計(jì)算參數(shù)更新量:s p +Y p 2 + ss 1-p11 -p2AO = _.打+8O O+AO其中,一階動(dòng)量s,二階動(dòng)量Y (初始化為0), 一階動(dòng)量衰減系數(shù)p 1,二階動(dòng)量衰減系數(shù)p 2??偨Y(jié)對(duì)于稀疏數(shù)據(jù),優(yōu)先選擇學(xué)習(xí)速率自適應(yīng)的算法如RMSprop和Adam算法,而且 最好采用默認(rèn)值,大部分情況下其效果是較好的SGD通常訓(xùn)練時(shí)間更長(zhǎng),容易陷入鞍點(diǎn),但是在好的初始化和學(xué)習(xí)率調(diào)度方案的情 況下,結(jié)果更可靠。如果要求更快的收斂,并且較深較復(fù)雜的網(wǎng)絡(luò)時(shí),推薦使用學(xué)習(xí)率自適應(yīng)的優(yōu)化方 法。例如對(duì)于RNN之類(lèi)的網(wǎng)絡(luò)結(jié)構(gòu),Adam速度快,效果好,而對(duì)于CNN之類(lèi)的網(wǎng)絡(luò) 結(jié)構(gòu),SGD+momentum的更新方法要更好(常見(jiàn)國(guó)際頂尖期刊常見(jiàn)優(yōu)化方法)。Adadelta, RMSprop,Adam是比較相近的算法,在相似的情況下表現(xiàn)差不多。在想使用帶動(dòng)量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好 的效果。特別注意學(xué)習(xí)速率的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論