教案2021-09深度學(xué)習(xí)1.mlpwin_第1頁(yè)
教案2021-09深度學(xué)習(xí)1.mlpwin_第2頁(yè)
教案2021-09深度學(xué)習(xí)1.mlpwin_第3頁(yè)
教案2021-09深度學(xué)習(xí)1.mlpwin_第4頁(yè)
教案2021-09深度學(xué)習(xí)1.mlpwin_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余24頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、深度前饋網(wǎng)絡(luò)Deep Feedforward Network multilayer perceptron MLP AI學(xué)科的關(guān)系人工智能(AI)機(jī)器學(xué)習(xí)表示學(xué)習(xí)深度學(xué)習(xí)深度學(xué)習(xí):讓計(jì)算機(jī)從經(jīng)驗(yàn)中學(xué)習(xí),根據(jù)層次 化的概念體系來(lái)理解世界,每個(gè)概念通過(guò)與某些相對(duì)簡(jiǎn)單的概念之間的關(guān)系來(lái)定義。深度學(xué)習(xí)思想通過(guò)簡(jiǎn)單的概念構(gòu)建復(fù)雜的概念1.學(xué)習(xí)數(shù)據(jù)的正確表示2.深度促使計(jì)算機(jī)學(xué)習(xí)一個(gè)多步驟的計(jì)算機(jī)程序。深度學(xué)習(xí)算法:特定的數(shù)據(jù)集、代價(jià)函數(shù)、優(yōu)化過(guò)程和模型。代價(jià)函數(shù)優(yōu)化過(guò)程模型最大似然的理解梯度下降算法隱藏層激活函數(shù)反向傳播學(xué)習(xí) XOR 函數(shù)使用線性模型搭配均方誤差損失函數(shù)得到w0,b0.5。在任意一點(diǎn)都輸出

2、0.5重新審視問(wèn)題:尋找超平面使樣本分開(kāi)使用一個(gè)模型來(lái)學(xué)習(xí)一個(gè)不同的特征空間,在這個(gè)空間上線性模型能夠表示這個(gè)解。 學(xué)習(xí) XOR 函數(shù)多層感知機(jī):將一組輸入值映射到輸出值的數(shù)學(xué)函數(shù)。有一層隱藏層并且隱藏層中包含兩個(gè)單元。隱藏單元的向量h的值隨后被用作第二層的輸入。第二層就是這個(gè)網(wǎng)絡(luò)的輸出層。輸出層仍然只是一個(gè)線性回歸模型。學(xué)習(xí) XOR 函數(shù)模型思考:隱藏層:隱節(jié)點(diǎn)代表兩個(gè)超平面激活函數(shù):對(duì)非線性樣本的線性化轉(zhuǎn)化 算法思考:線性模型和神經(jīng)網(wǎng)絡(luò)的最大區(qū)別,在于神經(jīng)網(wǎng)絡(luò)的非線性導(dǎo)致大多數(shù)我們感興趣的代價(jià)函數(shù)都變得非凸。用于非凸損失函數(shù)的隨機(jī)梯度下降沒(méi)有收斂性保證,并且對(duì)參數(shù)的初始值很敏感。對(duì)于前饋神

3、經(jīng)網(wǎng)絡(luò),將所有的權(quán)重值初始化為小隨機(jī)數(shù)是很重要的。偏置可以初始化為零或者小的正值。Sigmoid VS tanhtanh 函數(shù)實(shí)際上是一個(gè)放大的 sigmoid 函數(shù)。tanh(x)=2(2x)1把實(shí)值得輸入壓縮到-11的范圍,因此它基本是0均值的,解決了上述Sigmoid缺點(diǎn)中的第二個(gè)。在 0 附近與單位函數(shù)類(lèi)似,類(lèi)似于訓(xùn)練一個(gè)線性模型。接收一個(gè)實(shí)值的信號(hào),將它壓縮到0-1的范圍內(nèi)。特別地,大的負(fù)數(shù)被映射成0,大的正數(shù)被映射成1。很好的表達(dá)“激活”的意思,未激活就是0,完全飽和的激活則是1。Sigmoids saturate and kill gradients. 當(dāng)使用一個(gè)合適的代價(jià)函數(shù)來(lái)

4、抵消 sigmoid 的飽和性時(shí),它 們作為輸出單元可以與基于梯度的學(xué)習(xí)相兼容。 Sigmoid outputs are not zero-centered.softplussoftplus 函數(shù)被設(shè)計(jì)成正部函數(shù)(positive part function)的平滑版本。它的范圍是 (0, )。x+=max0,xRelu-線性整流函數(shù)f(x)=max(0,x)隨機(jī)梯度下降法(SGD)的收斂速度會(huì)比 sigmoid/tanh 快很多(linear,這使得只要整流線性單元處于激活狀態(tài),它的導(dǎo)數(shù)都能保持較大。它的梯度不僅大而且一致,不會(huì)飽和)相比于 sigmoid/tanh需要計(jì)算指數(shù)等,計(jì)算復(fù)雜度

5、高;ReLU 只需要一個(gè)閾值就可以得到激活值。脆弱 神經(jīng)元”壞死”。初始化仿射變換的參數(shù)時(shí),將所有元素設(shè)置成一個(gè)小的正值,例如 0.1。使得整流線性單元很可能初始時(shí)就對(duì)訓(xùn)練集中的大多數(shù)輸入呈現(xiàn)激活狀態(tài), 注:在 x = 0 處不可微。在實(shí)踐中,梯度下降對(duì)這些機(jī)器學(xué)習(xí)模型仍然表現(xiàn)得足夠好。神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法中不再期望訓(xùn)練能夠?qū)嶋H到達(dá)梯度為 0 的點(diǎn),而是僅僅顯著地減小它的值,所以代價(jià)函數(shù)的最小值對(duì)應(yīng)于梯度未定義的點(diǎn)是可以接受的。 Relu-線性整流函數(shù)不能通過(guò)基于梯度的方法學(xué)習(xí)那些使它們激活為零的樣本。整流線性單元的各種擴(kuò)展保證了它們能在各個(gè)位置都接收到梯度。 absolute value rec

6、tificationLeaky ReLUparametric ReLUMaxout NetworksReLU 和 Leaky ReLU 都是Maxout的一個(gè)變形將劃分為每組具有 k 個(gè)值的組,而不是使用作用于每個(gè)元素的函數(shù) g(z)傳統(tǒng)的MLP算法在第i層到第i+1層,參數(shù)只有一組,然而現(xiàn)在我們?cè)谶@一層同時(shí)訓(xùn)練n組參數(shù),然后選擇激活值最大的作為下一層神經(jīng)元的激活值。maxout激活函數(shù)并不是一個(gè)固定的函數(shù),不像Sigmod、Relu、Tanh等函數(shù),是一個(gè)固定的函數(shù)方程 一個(gè)分段線性函數(shù)一個(gè)可學(xué)習(xí)的激活函數(shù)參數(shù)個(gè)數(shù)成k倍增加信息論補(bǔ)充知識(shí)主要使用信息論的一些關(guān)鍵思想來(lái)描述概率分布或者量化概率

7、分布之間的相似性。如果我們對(duì)于同一個(gè)隨機(jī)變量 有兩個(gè)單獨(dú)的概率分布 P (x) 和 Q(x),我們可以使用 KL 散度(Kullback-Leibler divergence)or相對(duì)熵(relative entropy)來(lái)衡量這兩個(gè)分布的差異:當(dāng)用概率分布Q來(lái)擬合真實(shí)分布P時(shí),產(chǎn)生的信息損耗。交叉熵(cross-entropy):H(P,Q) = H(P) + DKL (P |Q)代價(jià)函數(shù)以我們的參數(shù)模型定義了一個(gè)分布 p(y|x; ) 并且我們簡(jiǎn)單地使用最大似然原理。這意味著我們使用訓(xùn)練數(shù)據(jù)和模型預(yù)測(cè)間的交叉熵作為代價(jià)函數(shù)。神經(jīng)網(wǎng)絡(luò)的代價(jià)函數(shù)基本是和其他的參數(shù)模型例如線性模型的代價(jià)函數(shù)相同

8、的,再結(jié)合一個(gè)正則項(xiàng)(權(quán)重衰減)。優(yōu)點(diǎn):它減輕了為每個(gè)模型設(shè)計(jì) 代價(jià)函數(shù)的負(fù)擔(dān)。明確一個(gè)模型則自動(dòng)地確定了一個(gè)代價(jià)函數(shù)。負(fù)的對(duì)數(shù)似然幫助我們?cè)诤芏嗄P椭械窒せ詈瘮?shù)飽和問(wèn)題?;谔荻鹊膬?yōu)化最小化或最大化的函數(shù)稱(chēng)為目標(biāo)函數(shù) 。對(duì)其進(jìn)行最小化時(shí),我們也把它稱(chēng)為代價(jià)函數(shù)(cost function)、 損失函數(shù)(loss function)或誤差函數(shù)(error function)。 導(dǎo)數(shù):表明如何縮放輸入的小變化才能在輸出獲得相應(yīng)的變化:01J(0,1)輸入和輸出都為向量的函數(shù)的所有偏導(dǎo)數(shù)。包含所有這樣的偏導(dǎo)數(shù)的矩陣被稱(chēng)為 Jacobian矩陣。當(dāng)我們的函數(shù)具有多維輸入時(shí),二階導(dǎo)數(shù)也有很多。我們可

9、以將這些導(dǎo)數(shù)合并 成一個(gè)矩陣,稱(chēng)為 Hessian矩陣。Hessian 等價(jià)于梯度的 Jacobian 矩陣。函數(shù)的原始值、函數(shù)斜率導(dǎo)致的預(yù)期改善、函數(shù)曲率導(dǎo)致的校正。梯度算法的要求初始值的設(shè)置線性模型和神經(jīng)網(wǎng)絡(luò)的最大區(qū)別,在于神經(jīng)網(wǎng)絡(luò)的非線性導(dǎo)致大多數(shù)我們感興趣的代價(jià)函數(shù)都變得非凸。用于非凸損失函數(shù)的隨機(jī)梯度下降沒(méi)有收斂性保證,并且對(duì)參數(shù)的初始值很敏感。無(wú)論何時(shí)模型給出了錯(cuò)誤的答案時(shí),總能有一個(gè)較大的梯度。權(quán)重值初始化為小隨機(jī)數(shù)。反向傳播向前傳播:信息通過(guò)網(wǎng)絡(luò)向前流動(dòng)。在訓(xùn)練過(guò)程中,前向傳播可以持續(xù)向前直到它產(chǎn)生一個(gè)標(biāo)量代價(jià)函數(shù) J()。反向傳播(back propagation)算法:允許

10、來(lái)自代價(jià)函數(shù)的信息通過(guò)網(wǎng)絡(luò)向后流動(dòng), 以便計(jì)算梯度。最常需要的梯度是代價(jià)函數(shù)關(guān)于參數(shù)的梯度。反向傳播是一種計(jì)算鏈?zhǔn)椒▌t的算法,使用高效的特定運(yùn)算順序。要算什么?單個(gè)樣本代價(jià)函數(shù)整體代價(jià)函數(shù)(包含正則項(xiàng)-權(quán)重衰減)迭代更新如何計(jì)算偏導(dǎo)?反向傳播算法用矩陣-向量表示法重寫(xiě)算法沒(méi)有免費(fèi)的午餐定理在所有可能的數(shù)據(jù)生成分布上平均之后,每一個(gè)分類(lèi)算法在未事先觀測(cè)的點(diǎn)上都有相同的錯(cuò)誤率。換言之,在某種意義上,沒(méi)有一個(gè)機(jī)器學(xué)習(xí)算法總是比其他的要好。必須在特定任務(wù)上設(shè)計(jì)性能良好的機(jī)器學(xué)習(xí)算法。正則化與過(guò)擬合萬(wàn)能近似定理一個(gè)前饋神經(jīng)網(wǎng)絡(luò)如果具有線性輸出層和至少一層具有任何 一種 擠壓 性質(zhì)的激活函數(shù)(例如logistic sigmoid激活函數(shù))的隱藏層,只要給予網(wǎng)絡(luò)足夠數(shù)量的隱藏單元,它可以以任意的精度來(lái)近似任何從一個(gè)有限維空間到另 一個(gè)有限維空間的 Borel 可測(cè)函數(shù)。 架構(gòu)深度具有單隱層的前饋網(wǎng)絡(luò)足以表示任何函數(shù),但是網(wǎng)絡(luò)層可能大得不可實(shí)現(xiàn), 并且可能無(wú)法正確地學(xué)習(xí)和泛化。我們還可能出于統(tǒng)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論