教案2021-09深度學(xué)習(xí)1.mlpwin_第1頁
教案2021-09深度學(xué)習(xí)1.mlpwin_第2頁
教案2021-09深度學(xué)習(xí)1.mlpwin_第3頁
教案2021-09深度學(xué)習(xí)1.mlpwin_第4頁
教案2021-09深度學(xué)習(xí)1.mlpwin_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、深度前饋網(wǎng)絡(luò)Deep Feedforward Network multilayer perceptron MLP AI學(xué)科的關(guān)系人工智能(AI)機器學(xué)習(xí)表示學(xué)習(xí)深度學(xué)習(xí)深度學(xué)習(xí):讓計算機從經(jīng)驗中學(xué)習(xí),根據(jù)層次 化的概念體系來理解世界,每個概念通過與某些相對簡單的概念之間的關(guān)系來定義。深度學(xué)習(xí)思想通過簡單的概念構(gòu)建復(fù)雜的概念1.學(xué)習(xí)數(shù)據(jù)的正確表示2.深度促使計算機學(xué)習(xí)一個多步驟的計算機程序。深度學(xué)習(xí)算法:特定的數(shù)據(jù)集、代價函數(shù)、優(yōu)化過程和模型。代價函數(shù)優(yōu)化過程模型最大似然的理解梯度下降算法隱藏層激活函數(shù)反向傳播學(xué)習(xí) XOR 函數(shù)使用線性模型搭配均方誤差損失函數(shù)得到w0,b0.5。在任意一點都輸出

2、0.5重新審視問題:尋找超平面使樣本分開使用一個模型來學(xué)習(xí)一個不同的特征空間,在這個空間上線性模型能夠表示這個解。 學(xué)習(xí) XOR 函數(shù)多層感知機:將一組輸入值映射到輸出值的數(shù)學(xué)函數(shù)。有一層隱藏層并且隱藏層中包含兩個單元。隱藏單元的向量h的值隨后被用作第二層的輸入。第二層就是這個網(wǎng)絡(luò)的輸出層。輸出層仍然只是一個線性回歸模型。學(xué)習(xí) XOR 函數(shù)模型思考:隱藏層:隱節(jié)點代表兩個超平面激活函數(shù):對非線性樣本的線性化轉(zhuǎn)化 算法思考:線性模型和神經(jīng)網(wǎng)絡(luò)的最大區(qū)別,在于神經(jīng)網(wǎng)絡(luò)的非線性導(dǎo)致大多數(shù)我們感興趣的代價函數(shù)都變得非凸。用于非凸損失函數(shù)的隨機梯度下降沒有收斂性保證,并且對參數(shù)的初始值很敏感。對于前饋神

3、經(jīng)網(wǎng)絡(luò),將所有的權(quán)重值初始化為小隨機數(shù)是很重要的。偏置可以初始化為零或者小的正值。Sigmoid VS tanhtanh 函數(shù)實際上是一個放大的 sigmoid 函數(shù)。tanh(x)=2(2x)1把實值得輸入壓縮到-11的范圍,因此它基本是0均值的,解決了上述Sigmoid缺點中的第二個。在 0 附近與單位函數(shù)類似,類似于訓(xùn)練一個線性模型。接收一個實值的信號,將它壓縮到0-1的范圍內(nèi)。特別地,大的負數(shù)被映射成0,大的正數(shù)被映射成1。很好的表達“激活”的意思,未激活就是0,完全飽和的激活則是1。Sigmoids saturate and kill gradients. 當(dāng)使用一個合適的代價函數(shù)來

4、抵消 sigmoid 的飽和性時,它 們作為輸出單元可以與基于梯度的學(xué)習(xí)相兼容。 Sigmoid outputs are not zero-centered.softplussoftplus 函數(shù)被設(shè)計成正部函數(shù)(positive part function)的平滑版本。它的范圍是 (0, )。x+=max0,xRelu-線性整流函數(shù)f(x)=max(0,x)隨機梯度下降法(SGD)的收斂速度會比 sigmoid/tanh 快很多(linear,這使得只要整流線性單元處于激活狀態(tài),它的導(dǎo)數(shù)都能保持較大。它的梯度不僅大而且一致,不會飽和)相比于 sigmoid/tanh需要計算指數(shù)等,計算復(fù)雜度

5、高;ReLU 只需要一個閾值就可以得到激活值。脆弱 神經(jīng)元”壞死”。初始化仿射變換的參數(shù)時,將所有元素設(shè)置成一個小的正值,例如 0.1。使得整流線性單元很可能初始時就對訓(xùn)練集中的大多數(shù)輸入呈現(xiàn)激活狀態(tài), 注:在 x = 0 處不可微。在實踐中,梯度下降對這些機器學(xué)習(xí)模型仍然表現(xiàn)得足夠好。神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法中不再期望訓(xùn)練能夠?qū)嶋H到達梯度為 0 的點,而是僅僅顯著地減小它的值,所以代價函數(shù)的最小值對應(yīng)于梯度未定義的點是可以接受的。 Relu-線性整流函數(shù)不能通過基于梯度的方法學(xué)習(xí)那些使它們激活為零的樣本。整流線性單元的各種擴展保證了它們能在各個位置都接收到梯度。 absolute value rec

6、tificationLeaky ReLUparametric ReLUMaxout NetworksReLU 和 Leaky ReLU 都是Maxout的一個變形將劃分為每組具有 k 個值的組,而不是使用作用于每個元素的函數(shù) g(z)傳統(tǒng)的MLP算法在第i層到第i+1層,參數(shù)只有一組,然而現(xiàn)在我們在這一層同時訓(xùn)練n組參數(shù),然后選擇激活值最大的作為下一層神經(jīng)元的激活值。maxout激活函數(shù)并不是一個固定的函數(shù),不像Sigmod、Relu、Tanh等函數(shù),是一個固定的函數(shù)方程 一個分段線性函數(shù)一個可學(xué)習(xí)的激活函數(shù)參數(shù)個數(shù)成k倍增加信息論補充知識主要使用信息論的一些關(guān)鍵思想來描述概率分布或者量化概率

7、分布之間的相似性。如果我們對于同一個隨機變量 有兩個單獨的概率分布 P (x) 和 Q(x),我們可以使用 KL 散度(Kullback-Leibler divergence)or相對熵(relative entropy)來衡量這兩個分布的差異:當(dāng)用概率分布Q來擬合真實分布P時,產(chǎn)生的信息損耗。交叉熵(cross-entropy):H(P,Q) = H(P) + DKL (P |Q)代價函數(shù)以我們的參數(shù)模型定義了一個分布 p(y|x; ) 并且我們簡單地使用最大似然原理。這意味著我們使用訓(xùn)練數(shù)據(jù)和模型預(yù)測間的交叉熵作為代價函數(shù)。神經(jīng)網(wǎng)絡(luò)的代價函數(shù)基本是和其他的參數(shù)模型例如線性模型的代價函數(shù)相同

8、的,再結(jié)合一個正則項(權(quán)重衰減)。優(yōu)點:它減輕了為每個模型設(shè)計 代價函數(shù)的負擔(dān)。明確一個模型則自動地確定了一個代價函數(shù)。負的對數(shù)似然幫助我們在很多模型中抵消激活函數(shù)飽和問題?;谔荻鹊膬?yōu)化最小化或最大化的函數(shù)稱為目標(biāo)函數(shù) 。對其進行最小化時,我們也把它稱為代價函數(shù)(cost function)、 損失函數(shù)(loss function)或誤差函數(shù)(error function)。 導(dǎo)數(shù):表明如何縮放輸入的小變化才能在輸出獲得相應(yīng)的變化:01J(0,1)輸入和輸出都為向量的函數(shù)的所有偏導(dǎo)數(shù)。包含所有這樣的偏導(dǎo)數(shù)的矩陣被稱為 Jacobian矩陣。當(dāng)我們的函數(shù)具有多維輸入時,二階導(dǎo)數(shù)也有很多。我們可

9、以將這些導(dǎo)數(shù)合并 成一個矩陣,稱為 Hessian矩陣。Hessian 等價于梯度的 Jacobian 矩陣。函數(shù)的原始值、函數(shù)斜率導(dǎo)致的預(yù)期改善、函數(shù)曲率導(dǎo)致的校正。梯度算法的要求初始值的設(shè)置線性模型和神經(jīng)網(wǎng)絡(luò)的最大區(qū)別,在于神經(jīng)網(wǎng)絡(luò)的非線性導(dǎo)致大多數(shù)我們感興趣的代價函數(shù)都變得非凸。用于非凸損失函數(shù)的隨機梯度下降沒有收斂性保證,并且對參數(shù)的初始值很敏感。無論何時模型給出了錯誤的答案時,總能有一個較大的梯度。權(quán)重值初始化為小隨機數(shù)。反向傳播向前傳播:信息通過網(wǎng)絡(luò)向前流動。在訓(xùn)練過程中,前向傳播可以持續(xù)向前直到它產(chǎn)生一個標(biāo)量代價函數(shù) J()。反向傳播(back propagation)算法:允許

10、來自代價函數(shù)的信息通過網(wǎng)絡(luò)向后流動, 以便計算梯度。最常需要的梯度是代價函數(shù)關(guān)于參數(shù)的梯度。反向傳播是一種計算鏈式法則的算法,使用高效的特定運算順序。要算什么?單個樣本代價函數(shù)整體代價函數(shù)(包含正則項-權(quán)重衰減)迭代更新如何計算偏導(dǎo)?反向傳播算法用矩陣-向量表示法重寫算法沒有免費的午餐定理在所有可能的數(shù)據(jù)生成分布上平均之后,每一個分類算法在未事先觀測的點上都有相同的錯誤率。換言之,在某種意義上,沒有一個機器學(xué)習(xí)算法總是比其他的要好。必須在特定任務(wù)上設(shè)計性能良好的機器學(xué)習(xí)算法。正則化與過擬合萬能近似定理一個前饋神經(jīng)網(wǎng)絡(luò)如果具有線性輸出層和至少一層具有任何 一種 擠壓 性質(zhì)的激活函數(shù)(例如logistic sigmoid激活函數(shù))的隱藏層,只要給予網(wǎng)絡(luò)足夠數(shù)量的隱藏單元,它可以以任意的精度來近似任何從一個有限維空間到另 一個有限維空間的 Borel 可測函數(shù)。 架構(gòu)深度具有單隱層的前饋網(wǎng)絡(luò)足以表示任何函數(shù),但是網(wǎng)絡(luò)層可能大得不可實現(xiàn), 并且可能無法正確地學(xué)習(xí)和泛化。我們還可能出于統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論