版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、深度學(xué)習(xí)入門必須理解這25個(gè)概念1、神經(jīng)元(Neuron )就像形成我們大腦基本元素 的神經(jīng)元一樣,神經(jīng)元形成神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。想象一下, 當(dāng)我們得到新信息時(shí)我們?cè)撛趺醋?。?dāng)我們獲取信息時(shí),我 們一般會(huì)處理它,然后生成一個(gè)輸出。類似地,在神經(jīng)網(wǎng)絡(luò) 的情況下,神經(jīng)元接收輸入,處理它并產(chǎn)生輸出,而這個(gè)輸 出被發(fā)送到其他神經(jīng)元用于進(jìn)一步處理,或者作為最終輸出 進(jìn)行輸出。2、權(quán)重(Weights)當(dāng)輸入進(jìn)入神經(jīng)元時(shí), 它會(huì)乘以一個(gè)權(quán)重。例如,如果一個(gè)神經(jīng)元有兩個(gè)輸入,則 每個(gè)輸入將具有分配給它的一個(gè)關(guān)聯(lián)權(quán)重。我們隨機(jī)初始化 權(quán)重,并在模型訓(xùn)練過(guò)程中更新這些權(quán)重。訓(xùn)練后的神經(jīng)網(wǎng) 絡(luò)對(duì)其輸入賦予較高的權(quán)
2、重,這是它認(rèn)為與不那么重要的輸 入相比更為重要的輸入。為零的權(quán)重則表示特定的特征是微 不足道的。讓我們假設(shè)輸入為a,并且與其相關(guān)聯(lián)的權(quán)重為 W1,那么在通過(guò)節(jié)點(diǎn)之后,輸入變?yōu)閍 *W13、偏差(Bias) 除了權(quán)重之外,另一個(gè)被應(yīng)用于輸入的線性分量被稱為 偏差。它被加到權(quán)重與輸入相乘的結(jié)果中。基本上添加偏差 的目的是來(lái)改變權(quán)重與輸入相乘所得結(jié)果的范圍的。添加偏 差后,結(jié)果將看起來(lái)像a* W1偏差。這是輸入變換的最終 線性分量。4、激活函數(shù)(Activation Function)一旦將 線性分量應(yīng)用于輸入,將會(huì)需要應(yīng)用一個(gè)非線性函數(shù)。這通過(guò)將激活函數(shù)應(yīng)用于線性組合來(lái)完成。激活函數(shù)將輸入信號(hào) 轉(zhuǎn)
3、換為輸出信號(hào)。應(yīng)用激活函數(shù)后的輸出看起來(lái)像f(a *W1+ b),其中f就是激活函數(shù)。在下圖中,我們將n個(gè)輸 入給定為X1到Xn而與其相應(yīng)的權(quán)重為Wk1到Wkn。 我們有一個(gè)給定值為bk的偏差。權(quán)重首先乘以與其對(duì)應(yīng)的 輸入,然后與偏差加在一起。而這個(gè)值叫做u。U =ZW*X +b 激活函數(shù)被應(yīng)用于u ,即f(u),并且我們會(huì)從神經(jīng)元接收最 終輸出,如yk = f ( u )。常用的激活函數(shù)最常用的激活函數(shù) 就是 Sigmoid , ReLU 和 softmax ( a ) Sigmoid最常用的激活函數(shù)之一是Sigmoid,它被定義為: sigmoid(x)=1/(1+e -x )Sigmoi
4、d 變換產(chǎn)生一個(gè)值為 0 到 1 之間更平滑的范圍。我們可能需要觀察在輸入值略有變化時(shí) 輸出值中發(fā)生的變化。光滑的曲線使我們能夠做到這一點(diǎn), 因此優(yōu)于階躍函數(shù)。(b ) ReLU (整流線性單位)一一與 Sigmoid函數(shù)不同的是,最近的網(wǎng)絡(luò)更喜歡使用ReLu激 活函數(shù)來(lái)處理隱藏層。該函數(shù)定義為:f(x)=max(x,0)當(dāng)X0 時(shí),函數(shù)的輸出值為X ;當(dāng)X使用ReLU函數(shù)的最主要的 好處是對(duì)于大于0的所有輸入來(lái)說(shuō),它都有一個(gè)不變的導(dǎo) 數(shù)值。常數(shù)導(dǎo)數(shù)值有助于網(wǎng)絡(luò)訓(xùn)練進(jìn)行得更快。(c ) SoftmaxSoftmax激活函數(shù)通常用于輸出層,用于分類問(wèn)題。它與sigmoid函數(shù)是很類似的,唯一的區(qū)
5、別就是輸出 被歸一化為總和為1。Sigmoid函數(shù)將發(fā)揮作用以防我們有一個(gè)二進(jìn)制輸出,但是如果我們有一個(gè)多類分類問(wèn)題, softmax函數(shù)使為每個(gè)類分配值這種操作變得相當(dāng)簡(jiǎn)單,而 這可以將其解釋為概率。以這種方式來(lái)操作的話,我們很容 易看到假設(shè)你正在嘗試識(shí)別一個(gè)可能看起來(lái)像8的6。 該函數(shù)將為每個(gè)數(shù)字分配值如下。我們可以很容易地看出, 最高概率被分配給6,而下一個(gè)最高概率分配給8,依此類 推5、神經(jīng)網(wǎng)絡(luò)(Neural Network)神經(jīng)網(wǎng)絡(luò)構(gòu)成了 深度學(xué)習(xí)的支柱。神經(jīng)網(wǎng)絡(luò)的目標(biāo)是找到一個(gè)未知函數(shù)的近 似值。它由相互聯(lián)系的神經(jīng)元形成。這些神經(jīng)元具有權(quán)重和 在網(wǎng)絡(luò)訓(xùn)練期間根據(jù)錯(cuò)誤來(lái)進(jìn)行更新的偏差
6、。激活函數(shù)將非 線性變換置于線性組合,而這個(gè)線性組合稍后會(huì)生成輸出。 激活的神經(jīng)元的組合會(huì)給出輸出值。一個(gè)很好的神經(jīng)網(wǎng)絡(luò)定 義:神經(jīng)網(wǎng)絡(luò)由許多相互關(guān)聯(lián)的概念化的人造神經(jīng)元組成, 它們之間傳遞相互數(shù)據(jù),并且具有根據(jù)網(wǎng)絡(luò)經(jīng)驗(yàn)調(diào)整的相關(guān) 權(quán)重。神經(jīng)元具有激活閾值,如果通過(guò)其相關(guān)權(quán)重的組合和 傳遞給他們的數(shù)據(jù)滿足這個(gè)閾值的話,其將被解雇;發(fā)射神經(jīng) 元的組合導(dǎo)致學(xué)習(xí)。6、輸入/輸出/隱藏層(Input/ Output / Hidden Layer)正如它們名字所代表的那樣,輸入層是接收輸入那一層,本質(zhì)上是網(wǎng)絡(luò)的第一層。而輸出層是生成 輸出的那一層,也可以說(shuō)是網(wǎng)絡(luò)的最終層。處理層是網(wǎng)絡(luò)中 的隱藏層。這些隱
7、藏層是對(duì)傳入數(shù)據(jù)執(zhí)行特定任務(wù)并將其生 成的輸出傳遞到下一層的那些層。輸入和輸出層是我們可見的,而中間層則是隱藏的。7、MLP (多層感知器)單 個(gè)神經(jīng)元將無(wú)法執(zhí)行高度復(fù)雜的任務(wù)。因此,我們使用堆棧 的神經(jīng)元來(lái)生成我們所需要的輸出。在最簡(jiǎn)單的網(wǎng)絡(luò)中,我 們將有一個(gè)輸入層、一個(gè)隱藏層和一個(gè)輸出層。每個(gè)層都有 多個(gè)神經(jīng)元,并且每個(gè)層中的所有神經(jīng)元都連接到下一層的 所有神經(jīng)元。這些網(wǎng)絡(luò)也可以被稱為完全連接的網(wǎng)絡(luò)。8、 正向傳播(Forward Propagation)正向傳播是指輸入通過(guò)隱藏層到輸出層的運(yùn)動(dòng)。在正向傳播中,信息沿著一個(gè)單 一方向前進(jìn)。輸入層將輸入提供給隱藏層,然后生成輸出。 這過(guò)程中是
8、沒(méi)有反向運(yùn)動(dòng)的。9、成本函數(shù)(Cost Function) 當(dāng)我們建立一個(gè)網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)試圖將輸出預(yù)測(cè)得盡可能 靠近實(shí)際值。我們使用成本/損失函數(shù)來(lái)衡量網(wǎng)絡(luò)的準(zhǔn)確性。 而成本或損失函數(shù)會(huì)在發(fā)生錯(cuò)誤時(shí)嘗試懲罰網(wǎng)絡(luò)。我們?cè)谶\(yùn) 行網(wǎng)絡(luò)時(shí)的目標(biāo)是提高我們的預(yù)測(cè)精度并減少誤差,從而最 大限度地降低成本。最優(yōu)化的輸出是那些成本或損失函數(shù)值 最小的輸出。如果我將成本函數(shù)定義為均方誤差,則可以寫 為:C= 1/m Z(y-a)入2 ,其中m是訓(xùn)練輸入的數(shù)量,a是預(yù) 測(cè)值,y是該特定示例的實(shí)際值。學(xué)習(xí)過(guò)程圍繞最小化成本 來(lái)進(jìn)行。10、梯度下降(Gradient Descent)梯度下降是一種最小化成本的優(yōu)化算法。
9、要直觀地想一想,在爬山的 時(shí)候,你應(yīng)該會(huì)采取小步驟,一步一步走下來(lái),而不是一下 子跳下來(lái)。因此,我們所做的就是,如果我們從一個(gè)點(diǎn)x開始我們向下移動(dòng)一點(diǎn)即 Ah 并將我們的位置更新為x-Ah, 并且我們繼續(xù)保持一致,直到達(dá)到底部??紤]最低成本點(diǎn)。 在數(shù)學(xué)上,為了找到函數(shù)的局部最小值,我們通常采取與函 數(shù)梯度的負(fù)數(shù)成比例的步長(zhǎng)。11、學(xué)習(xí)率(Learning Rate ) 學(xué)習(xí)率被定義為每次迭代中成本函數(shù)中最小化的量。簡(jiǎn) 單來(lái)說(shuō),我們下降到成本函數(shù)的最小值的速率是學(xué)習(xí)率。我 們應(yīng)該非常仔細(xì)地選擇學(xué)習(xí)率,因?yàn)樗粦?yīng)該是非常大的, 以至于最佳解決方案被錯(cuò)過(guò),也不應(yīng)該非常低,以至于網(wǎng)絡(luò) 需要融合。12、
10、反向傳播(Backpropagation )當(dāng)我們定義神經(jīng)網(wǎng)絡(luò)時(shí),我們?yōu)槲覀兊墓?jié)點(diǎn)分配隨機(jī)權(quán)重和偏差值。 旦我們收到單次迭代的輸出,我們就可以計(jì)算出網(wǎng)絡(luò)的錯(cuò) 誤。然后將該錯(cuò)誤與成本函數(shù)的梯度一起反饋給網(wǎng)絡(luò)以更新 網(wǎng)絡(luò)的權(quán)重。最后更新這些權(quán)重,以便減少后續(xù)迭代中的 錯(cuò)誤。使用成本函數(shù)的梯度的權(quán)重的更新被稱為反向傳播。 在反向傳播中,網(wǎng)絡(luò)的運(yùn)動(dòng)是向后的,錯(cuò)誤隨著梯度從外層 通過(guò)隱藏層流回,權(quán)重被更新。13、批次(Batches ) 在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的同時(shí),不用一次發(fā)送整個(gè)輸入,我們將輸 入分成幾個(gè)隨機(jī)大小相等的塊。與整個(gè)數(shù)據(jù)集一次性饋送到 網(wǎng)絡(luò)時(shí)建立的模型相比,批量訓(xùn)練數(shù)據(jù)使得模型更加廣義化。 14
11、、周期(Epochs )周期被定義為向前和向后傳播中所 有批次的單次訓(xùn)練迭代。這意味著1個(gè)周期是整個(gè)輸入數(shù) 據(jù)的單次向前和向后傳遞。你可以選擇你用來(lái)訓(xùn)練網(wǎng)絡(luò)的周期數(shù)量,更多的周期將顯示出更高的網(wǎng)絡(luò)準(zhǔn)確性,然而,網(wǎng) 絡(luò)融合也需要更長(zhǎng)的時(shí)間。另外,你必須注意,如果周期數(shù) 太高,網(wǎng)絡(luò)可能會(huì)過(guò)度擬合。15、丟棄(Dropout)Dropout是一種正則化技術(shù),可防止網(wǎng)絡(luò)過(guò)度擬合套。顧名思義,在 訓(xùn)練期間,隱藏層中的一定數(shù)量的神經(jīng)元被隨機(jī)地丟棄。這 意味著訓(xùn)練發(fā)生在神經(jīng)網(wǎng)絡(luò)的不同組合的神經(jīng)網(wǎng)絡(luò)的幾個(gè) 架構(gòu)上。你可以將Dropout視為一種綜合技術(shù),然后將多 個(gè)網(wǎng)絡(luò)的輸出用于產(chǎn)生最終輸出。16、批量歸一化
12、(Batch Normalization)作為一個(gè)概念,批量歸一化可以被認(rèn)為是我們?cè)诤恿髦性O(shè)定為特定檢查點(diǎn)的水壩。這樣做是為了確 保數(shù)據(jù)的分發(fā)與希望獲得的下一層相同。當(dāng)我們訓(xùn)練神經(jīng)網(wǎng) 絡(luò)時(shí),權(quán)重在梯度下降的每個(gè)步驟之后都會(huì)改變,這會(huì)改變 數(shù)據(jù)的形狀如何發(fā)送到下一層。但是下一層預(yù)期分布類似于 之前所看到的分布。所以我們?cè)趯?shù)據(jù)發(fā)送到下一層之前 明確規(guī)范化數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡(luò)17、濾波器(Filters) CNN中的濾波器與加權(quán)矩陣一樣,它與輸入圖像的一 部分相乘以產(chǎn)生一個(gè)回旋輸出。我們假設(shè)有一個(gè)大小為28 28的圖像,我們隨機(jī)分配一個(gè)大小為3 3的濾波器,然后 與圖像不同的3*3部分相乘,形成所謂
13、的卷積輸出。濾波 器尺寸通常小于原始圖像尺寸。在成本最小化的反向傳播期 間,濾波器值被更新為重量值。參考一下下圖,這里filter是 一個(gè)3*3矩陣:與圖像的每個(gè)3*3部分相乘以形成卷積特征。18、卷積神經(jīng)網(wǎng)絡(luò)(CNN) 卷積神經(jīng)網(wǎng)絡(luò)基本上 應(yīng)用于圖像數(shù)據(jù)。假設(shè)我們有一個(gè)輸入的大?。?828 3 ), 如果我們使用正常的神經(jīng)網(wǎng)絡(luò),將有2352( 28 28 3)參數(shù)。 并且隨著圖像的大小增加參數(shù)的數(shù)量變得非常大。我們卷積 圖像以減少參數(shù)數(shù)量(如上面濾波器定義所示)。當(dāng)我們將 濾波器滑動(dòng)到輸入體積的寬度和高度時(shí),將產(chǎn)生一個(gè)二維激 活圖,給出該濾波器在每個(gè)位置的輸出。我們將沿深度尺寸 堆疊這些激活
14、圖,并產(chǎn)生輸出量。你可以看到下面的圖,以 獲得更清晰的印象。19、池化(Pooling)通常在卷積層 之間定期引入池層。這基本上是為了減少一些參數(shù),并防止 過(guò)度擬合。最常見的池化類型是使用MAX操作的濾波器尺 寸(2,2)的池層。它會(huì)做的是,它將占用原始圖像的每個(gè)4 *4矩陣的最大值。你還可以使用其他操作(如平均池)進(jìn) 行池化,但是最大池?cái)?shù)量在實(shí)踐中表現(xiàn)更好。20、填充 (Padding)填充是指在圖像之間添加額外的零層,以 使輸出圖像的大小與輸入相同。這被稱為相同的填充。在應(yīng) 用濾波器之后,在相同填充的情況下,卷積層具有等于實(shí)際 圖像的大小。有效填充是指將圖像保持為具有實(shí)際或有效 的圖像的所
15、有像素。在這種情況下,在應(yīng)用濾波器之后,輸 出的長(zhǎng)度和寬度的大小在每個(gè)卷積層處不斷減小。21、數(shù)據(jù) 增強(qiáng)(Data Augmentation)數(shù)據(jù)增強(qiáng)是指從給定數(shù)據(jù)導(dǎo)出的新數(shù)據(jù)的添加,這可能被證明對(duì)預(yù)測(cè)有益。例如,如果你使光線變亮,可能更容易在較暗的圖像中看到貓,或者例如,數(shù)字識(shí)別中的9可能會(huì)稍微傾斜或旋轉(zhuǎn)。在這種情 況下,旋轉(zhuǎn)將解決問(wèn)題并提高我們的模型的準(zhǔn)確性。通過(guò)旋 轉(zhuǎn)或增亮,我們正在提高數(shù)據(jù)的質(zhì)量。這被稱為數(shù)據(jù)增強(qiáng)。 循環(huán)神經(jīng)網(wǎng)絡(luò)22、循環(huán)神經(jīng)元(Recurrent Neuron)循環(huán)神經(jīng)元是在T時(shí)間內(nèi)將神經(jīng)元的輸出發(fā)送回給它。如果 你看圖,輸出將返回輸入t次。展開的神經(jīng)元看起來(lái)像連接
16、在一起的t個(gè)不同的神經(jīng)元。這個(gè)神經(jīng)元的基本優(yōu)點(diǎn)是它給 出了更廣義的輸出。23、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)循環(huán)神 經(jīng)網(wǎng)絡(luò)特別用于順序數(shù)據(jù),其中先前的輸出用于預(yù)測(cè)下一個(gè) 輸出。在這種情況下,網(wǎng)絡(luò)中有循環(huán)。隱藏神經(jīng)元內(nèi)的循環(huán) 使他們能夠存儲(chǔ)有關(guān)前一個(gè)單詞的信息一段時(shí)間,以便能夠 預(yù)測(cè)輸出。隱藏層的輸出在t時(shí)間戳內(nèi)再次發(fā)送到隱藏層。 展開的神經(jīng)元看起來(lái)像上圖。只有在完成所有的時(shí)間戳后, 循環(huán)神經(jīng)元的輸出才能進(jìn)入下一層。發(fā)送的輸出更廣泛,以 前的信息保留的時(shí)間也較長(zhǎng)。然后根據(jù)展開的網(wǎng)絡(luò)將錯(cuò)誤反 向傳播以更新權(quán)重。這被稱為通過(guò)時(shí)間的反向傳播(BPTT)。 24、消失梯度問(wèn)題(Vanishing Gradient Problem)激活函數(shù)的梯度非常小的情況下會(huì)出現(xiàn)消失梯度問(wèn)題。在權(quán)重 乘以這些低梯度時(shí)的反向傳播過(guò)程中,它們往往變得非常小, 并且隨著網(wǎng)絡(luò)進(jìn)一步深入而消失。這使得神經(jīng)網(wǎng)絡(luò)忘記了長(zhǎng) 距離依賴。這對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)是一個(gè)問(wèn)題,長(zhǎng)期依賴對(duì)于網(wǎng)絡(luò)來(lái)說(shuō)是非常重要的。這可以通過(guò)使用不具有小梯度的 激活函數(shù)ReLu來(lái)解決。25、激增梯度問(wèn)題(Exploding Gradient Problem)這與消失的梯度問(wèn)題完全相反,激活函數(shù)的梯度過(guò)大。在反向傳播期間,它使特定節(jié)點(diǎn)的權(quán)重 相對(duì)于其他節(jié)點(diǎn)的權(quán)重非常高
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 提前解除勞動(dòng)合同的賠償計(jì)算與支付方式
- 聯(lián)合經(jīng)營(yíng)協(xié)議書范本
- 證人保證書范文2024年
- 買賣定金合同協(xié)議書
- 2024年外墻施工分包合同范本
- 2024中國(guó)銀行信托投資公司外匯固定資產(chǎn)貸款合同
- 互聯(lián)網(wǎng)投資合作協(xié)議書怎么寫
- 2024設(shè)備保修合同模板
- 土方設(shè)備互換協(xié)議
- 2024年二手車轉(zhuǎn)讓合同模板
- 項(xiàng)目主要施工管理人員情況
- 個(gè)人借條電子版模板
- 關(guān)于學(xué)習(xí)“國(guó)語(yǔ)普通話”發(fā)聲亮劍【三篇】
- 玻璃廠應(yīng)急預(yù)案
- 嬰幼兒游戲照料(嬰幼兒回應(yīng)性照護(hù)課件)
- 貨車進(jìn)入車間安全要求
- MAC地址-廠商對(duì)應(yīng)表
- 2022年中國(guó)出版業(yè)總體狀況分析
- BIM大賽題庫(kù)含答案
- 造紙術(shù)學(xué)習(xí)課件
- (完整版)譯林版四年級(jí)上冊(cè)Unit7單元測(cè)試
評(píng)論
0/150
提交評(píng)論