激活函數(shù)的比較和優(yōu)缺點sigmoid tanh relu_第1頁
激活函數(shù)的比較和優(yōu)缺點sigmoid tanh relu_第2頁
激活函數(shù)的比較和優(yōu)缺點sigmoid tanh relu_第3頁
激活函數(shù)的比較和優(yōu)缺點sigmoid tanh relu_第4頁
激活函數(shù)的比較和優(yōu)缺點sigmoid tanh relu_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、深度學(xué)習(xí)激活函數(shù)的比較和優(yōu)缺點sigmoidtanh, relu 1什么是激活函數(shù)2為什么要用3都有什么激活函數(shù)4、sigmoid ,softmax1. 什么是數(shù)如下圖元中 inputs 通過加權(quán)用了一個函數(shù), 這個函數(shù)就是激活函數(shù) Activation Function。2. 為什么如果不用激勵函數(shù)一層輸出都是上層輸入的線性函數(shù)論神經(jīng)網(wǎng)絡(luò)有多少 層,輸出都是輸入的線性組合。如果使用的話活函數(shù)給神經(jīng)元引入了非線性因素得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù),這樣神經(jīng)網(wǎng)絡(luò)就可以應(yīng)用到眾多的非線性模型中。 3. 都有什函數(shù)(1) sigmoid 函數(shù)公式:曲線:導(dǎo)數(shù):sigmoid 數(shù)也叫 Logis

2、tic 函數(shù),用于隱層神經(jīng)元輸出,取值范圍,它 可以將一個實數(shù)映射到(0,1)的區(qū)間,可以用來做二分類。在特征相差比較復(fù)雜或是相差不是特別大時效果比較好。sigmoid 點:激活函數(shù)計算量大,反向傳播求誤差梯度時,求導(dǎo)涉及除法反向傳播時容易就會出現(xiàn)梯度消失的情況而無法完成深層網(wǎng)絡(luò)的訓(xùn) 練 掉Sigmoids 下面解釋為何會出現(xiàn)梯度消失:反向傳播算法中,要對激活函數(shù)求導(dǎo),sigmoid 的導(dǎo)數(shù)表達式為:sigmoid 原函數(shù)及導(dǎo)數(shù)圖形如下:由圖可知,導(dǎo)數(shù)從 0 開始很快就又趨近于 0 了,易造成“梯度消失”現(xiàn)象 (2) Tanh 函數(shù)公式曲線也稱為雙切正切函數(shù),取值范圍為-1,1。tanh 在特

3、征相差明顯時的效果會很好,在循環(huán)過程中會不斷擴大特征效果。與 sigmoid 的區(qū)別是tanh 是 0 均值的,因此實際應(yīng)用中 tanh 會比 sigmoid 更好。(3) ReLU Linear Unit(ReLU) - 用于隱層神經(jīng)元輸出公式曲線RELU 點:輸入信號 0 的情況下,輸出等于輸入ReLU 的優(yōu)點:發(fā)現(xiàn)使用 ReLU 得到的 的收斂速度會比 快很多ReLU 的缺點:訓(xùn)練的時候很”脆弱”,很容易就”die”了例如,一個非常大的梯度流過一個 ReLU 神經(jīng)元,更新過參數(shù)之后,這個神經(jīng) 元再也不會對任何數(shù)據(jù)有激活現(xiàn)象了,那么這個神經(jīng)元的梯度就永遠都會是 如果 learning ra

4、te 很大,那么很有可能網(wǎng)絡(luò)中的 40% 的神經(jīng)元都”dead”了。 函數(shù) - 用于多分類神經(jīng)網(wǎng)絡(luò)輸出公式舉個例子來看公式的意思:就是如果某一個 zj 大過其他 z, 那這個映射的分量就逼近于 1,其他就逼近于 0,主要應(yīng)就是多分類。為什么要取指數(shù),第一個原因是要模擬 的行為,所以要讓大的更大。 第二個原因是需要一個可導(dǎo)的函數(shù)。4. ReLU 較Sigmoid 和 ReLU 比較:sigmoid 的梯度消失問題, 的導(dǎo)數(shù)就不存在這樣的問題,它的導(dǎo)數(shù)表達式 如下:曲線如圖對比 sigmoid 類函數(shù)主要變化是:1)單側(cè)抑2)相對寬的興奮邊界3)稀疏激性。Sigmoid 和 Softmax 區(qū)別:

5、softmax is a generalization of logistic function that “squashes”(maps) a K-dimensional z of real values to a K- vector (z) of real in range 1) 1.sigmoid 將一個 映射到(0,1)的區(qū)間,用來做二分類。而 把一個 k 維的 real 向量(.)映射成一個 (b1,b2,b3,b4.)其中 bi 是一個 的常數(shù),輸出神經(jīng)元之和為 ,所以 相當(dāng)于概率值,然后可以根據(jù) bi 的概率大小來進行多分類的任務(wù)。二分類問題時 sigmoid 和 softmax

6、 是一樣的,求的都是 cross 而 可以用于多分類問題 sigmoid 的擴展別數(shù) k 時 回歸退化為 logistic 回歸。具體地說,當(dāng) k2 時, 回歸的假設(shè)函數(shù)為:利用 回歸參數(shù)冗余的特點從兩個參數(shù)向量中都減去向量 1 ,得到:最后用 來表示 21上述公式可以表示為 回歸器預(yù)測其中一個 類別的概率為另一個類別概率的為這與 logistic 回歸是一致的。 建模使用的分布是多項式分布而 logistic 基于伯努利分布多個 logistic 回歸通過疊加也同可以實現(xiàn)多分類的效果,但是 回歸進 行的多分類,類與類之間是互斥的,即一個輸入只能被歸為一類;多個 logistic 回歸進行多分類,輸出的類別并不是互斥的,即蘋果這個詞語既屬于水類 也屬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論