機器學習原理及應用課件第11章_第1頁
機器學習原理及應用課件第11章_第2頁
機器學習原理及應用課件第11章_第3頁
機器學習原理及應用課件第11章_第4頁
機器學習原理及應用課件第11章_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第11章神經網絡與深度學習目錄CONTENT多層感知機二反向傳播算法四循環(huán)神經網絡六圖卷積神經網絡八神經元模型一損失函數(shù)三卷積神經網絡五生成對抗網絡七深度學習發(fā)展九神經元模型一、神經元模型神經網絡的基本組成單位是神經元模型,用于模擬生物神經網絡中的神經元。生物神經網絡中,神經元的功能是感受刺激傳遞興奮。每個神經元通過樹突接受來自其他被激活神經元的,通過軸突釋放出來的化學遞質,改變當前神經元內的電位,然后將其匯總。當神經元內的電位累計到一個水平時就會被激活,產生動作電位,然后通過軸突釋放化學物質。神經元模型一、神經元模型機器學習中的神經元模型類似于生物神經元模型,由一個線性模型和一個激活函數(shù)組成。表示為其中為上一層神經元的輸出,為當前神經元與上一層神經元的連接權重,

為偏置,為激活函數(shù)。激活函數(shù)的作用是進行非線性化,這是因為現(xiàn)實世界中的數(shù)據(jù)僅通過線性化建模往往不能夠反應其規(guī)律。一、神經元模型常用的激活函數(shù)有Sigmoid、ReLU、PReLU、Tanh、Softmax等。下面是對這些激活函數(shù)的介紹。常用激活函數(shù)SigmoidReLUTanhSoftmaxReLU函數(shù)ReLU(RectifiedLinearUnit)函數(shù)是目前廣泛使用的一種激活函數(shù)。2Tanh函數(shù)使用Tanh的神經網絡往往收斂更快。3Softmax函數(shù)Softmax函數(shù)常用于將函數(shù)的輸出轉化為概率分布。Softmax可以看作是argmax的一個平滑近似。4一、神經元模型Sigmoid函數(shù)Sigmoid函數(shù)的優(yōu)點有易于求導;輸出區(qū)間固定,訓練過程不易發(fā)散;可作為二分類問題的概率輸出函數(shù)。1多層感知機二、多層感知機多層感知機通過堆疊多個神經元模型組成,是最簡單的神經網絡模型。這里以一個3層的二分類感知機為例。多層感知機二、多層感知機圖中稱為輸入層,包含兩個節(jié)點,對應數(shù)據(jù)的兩個特征;稱為輸出層,包含兩個節(jié)點;除輸入層和輸出層之外的層稱為隱藏層,圖中只有一個隱藏層,神經元節(jié)點個數(shù)為4。輸入層與隱藏層、隱藏層與輸出層之間的神經元節(jié)點兩兩都有連接。輸入層沒有激活函數(shù),假設隱藏層的激活函數(shù)為Sigmoid,輸出層的激活函數(shù)為Softmax函數(shù)。記輸入層到隱藏層的參數(shù)為。其中;記隱藏層到輸出層的參數(shù)為,其中。則整個多層感知機神經網絡可以描述為二、多層感知機目前模型的參數(shù)是未知的,需要選擇一種優(yōu)化算法、一個損失函數(shù)通過大量樣本對模型的參數(shù)進行估計。整體上,任何機器學習或深度學習任務都可歸結為分類或者回歸任務,由此產生了兩個主要的損失函數(shù):交叉熵損失函數(shù)和平方誤差損失函數(shù)。反向傳播算法是一種廣泛使用的神經網絡模型訓練算法。損失函數(shù)三、損失函數(shù)損失函數(shù)被用對于神經網絡模型的性能進行度量,其評價的是模型預測值與真實值之間的差異程度,記為,其中是樣本的真實標簽,是模型的預測結果。不同的任務往往對應不同的損失函數(shù),常用損失函數(shù)主要包括有:交叉熵損失函數(shù)、平方誤差損失函數(shù)。交叉熵損失函數(shù)主要用于分類任務當中,如圖像分類、行為識別等;平方誤差損失函數(shù)主要用于回歸任務中。損失函數(shù)三、損失函數(shù)對于一個K-分類任務,假設輸入的類別標簽為。定義表示屬于每個類別的期望概率分布,則

記神經網絡模型的輸出

交叉熵損失函數(shù)用于衡量兩個分布和之間的差異性,值越小越好

對于一個回歸任務,假設輸入的標簽為。是模型的預測值,平方誤差損失函數(shù)用于描述模型的預測值與真實標簽之間的歐式距離,距離越小越好反向傳播算法四、反向傳播算法反向傳播算法即梯度下降法。之所以稱為反向傳播,是由于在深層神經網絡中,需要通過鏈式法則將梯度逐層傳遞到底層。反向傳播算法1.梯度下降法2.梯度消失及梯度爆炸梯度下降法(gradientdescent),又名最速下降法(steepestdescent)是求解無約束最優(yōu)化問題最常用的方法。神經網絡的優(yōu)化過程中,梯度消失及梯度爆炸是兩個較為常見的問題。其中以梯度消失問題尤為常見。四、反向傳播算法梯度下降法(gradientdescent),又名最速下降法(steepestdescent)是求解無約束最優(yōu)化問題最常用的方法,它是一種迭代方法,每一步主要的操作是求解目標函數(shù)的梯度向量,將當前位置的負梯度方向作為搜索方向(因為在該方向上目標函數(shù)下降最快,這也是最速下降法名稱的由來)。梯度下降法特點:越接近目標值,步長越小,下降速度越慢。梯度下降法四、反向傳播算法梯度消失問題是指,在反向傳播算法中使用鏈式法則進行連乘時,靠近輸入層的參數(shù)梯度幾乎為0,即幾乎消失的情況。例如,如果深層神經網絡的激活函數(shù)都選用Sigmoid,因為Sigmoid函數(shù)極容易飽和(梯度為0),所以越靠近輸入層的參數(shù)在經過網絡中夾雜著的連續(xù)若干個Sigmoid的導數(shù)連乘后,梯度將幾乎接近于0。這樣進行參數(shù)更新時,參數(shù)將幾乎不發(fā)生變化,就會使得神經網絡難以收斂。緩解梯度消失問題的主要方法有:更換激活函數(shù),如選擇ReLU這種梯度不易飽和的函數(shù);調整神經網絡的結構,減少神經網絡的層數(shù)等。梯度消失梯度爆炸問題與梯度消失問題正好相反。如果神經網絡的中參數(shù)的初始化不合理,由于每層的梯度與其函數(shù)形式、參數(shù)、輸入均有關系,當連乘的梯度均大于1時,就會造成底層參數(shù)的梯度過大,導致更新時參數(shù)無限增大,直到超出計算機所能表示的數(shù)的范圍。模型不穩(wěn)定且不收斂。實際情況中,人們一般都將輸入進行規(guī)范化,初始化權重往往分布在原點周圍,所以梯度爆炸發(fā)生的頻率一般要低于梯度消失。緩解梯度消失問題的主要方法有:對模型參數(shù)進行合適的初始化,一般可以通過在其他大型數(shù)據(jù)集上對模型進行預訓練以完成初始化,例如圖像分類任務中人們往往會將在ImageNet數(shù)據(jù)集上訓練好的模型參數(shù)遷移到自己的任務當中;進行梯度裁剪,即當梯度超過一定閾值時就將梯度進行截斷,這樣就能夠控制模型參數(shù)的無限增長。從而限制了梯度不至于太大;參數(shù)正則化,正則化能夠對參數(shù)的大小進行約束,使得參數(shù)不至太大等。梯度爆炸卷積神經網絡五、卷積神經網絡卷積神經網絡(ConvolutionalNeuralNetwork,CNN)是深度神經網絡中的一種,受生物視覺認知機制啟發(fā)而來,神經元之間使用類似動物視覺皮層組織的鏈接方式,大多數(shù)情況下用于處理計算機視覺相關的任務,例如分類、分割、檢測等。與傳統(tǒng)方法相比較,卷積神經網絡不需要利用先驗知識進行特征設計,預處理步驟較少,在大多數(shù)視覺相關任務上獲得了不錯的效果。卷積神經網絡最先出現(xiàn)于20世紀80到90年代,LeCun提出了LeNet用于解決手寫數(shù)字識別的問題。隨著深度學習理論的不斷完善,計算機硬件水平的提高,卷積神經網絡也隨之快速發(fā)展。卷積神經網絡主要用計算機視覺相關的任務中。卷積神經網絡五、卷積神經網絡介紹卷積神經網絡之前,首先介紹卷積的概念。由于卷積神經網絡主要用于計算機視覺相關的任務中,我們在這里僅討論二維卷積,對于高維卷積,情況類似。卷積五、卷積神經網絡下一層使用卷積核在特征圖上滑動并不斷計算卷積輸出而獲得特征圖每層卷積的計算結果。卷積核可以視為一個特征提取算子。卷積神經網絡的每一層往往擁有多個卷積核用于從上一層的特征圖中提取特征,組成當前層的特征圖,每個卷積核只提取一種特征。為保證相鄰層的特征圖具有相同的長寬尺度,有時還需要對上一層的輸出補齊(Padding)后再計算當前層的特征圖,常用的補齊方式是補零。記上一層的特征圖的大小為,其中為特征圖的通道數(shù),補齊零的寬度和高度分別為和,當前層用于提取特征的卷積核個數(shù)為個,每個卷積核的尺是,則當前層的特征圖大小為,其中

稱為步長,表示在卷積核滑動過程中,每步執(zhí)行一次卷積操作。下一層使用卷積核在特征圖上滑動并不斷計算卷積輸出而獲得特征圖每層卷積的計算結果。卷積核可以視為一個特征提取算子。卷積神經網絡的每一層往往擁有多個卷積核用于從上一層的特征圖中提取特征,組成當前層的特征圖,每個卷積核只提取一種特征。為保證相鄰層的特征圖具有相同的長寬尺度,有時還需要對上一層的輸出補齊(Padding)后再計算當前層的特征圖,常用的補齊方式是補零。記上一層的特征圖的大小為,其中為特征圖的通道數(shù),補齊零的寬度和高度分別為和,當前層用于提取特征的卷積核個數(shù)為個,每個卷積核的尺是,則當前層的特征圖大小為,其中

稱為步長,表示在卷積核滑動過程中,每步執(zhí)行一次卷積操作。五、卷積神經網絡單通道的卷積過程如圖所示,所在的行列的白色區(qū)域表示補齊零。五、卷積神經網絡池化(Pooling)的目的在于降低當前特征圖的維度,常見的池化方式有最大池化和平均池化。池化需要一個池化核,池化核的概念類似于卷積核。對于最大池化,在每個通道上,選擇池化核中的最大值作為輸出。對于平均池化,在每個通道上,對池化核中的均值進行輸出。下圖是一個單通道的最大池化的例子,其中池化核大小為2X2。池化五、卷積神經網絡相比多層感知機網絡,卷積神經網絡的特點是局部連接、參數(shù)共享。在多層感知機模型中,當前層的所有節(jié)點與上一層的每一個節(jié)點都有連接,這樣就會產生大量的參數(shù)。而在卷積神經網絡中,當前層的每個神經元節(jié)點僅與上一層的局部神經元節(jié)點有連接。當前層中,每個通道的所有神經元共享一個卷積核參數(shù),提取同一種特征,通過共享參數(shù)的形式大大降低了模型的復雜度,防止了參數(shù)的冗余。五、卷積神經網絡卷積神經網絡通常由一個輸入層(InputLayer)和一個輸出層(OutputLayer)以及多個隱藏層組成。隱藏層包括卷積層(ConvolutionalLayer)、激活層(ActivationLayer)、池化層(PoolingLayer)以及全連接層(Fully-connectedLayer)等。如下圖所示為一個LeNet神經網絡的結構。目前許多研究者針對于不同任務對層結構或網絡結構進行設置,從而獲得更優(yōu)的效果。網絡架構循環(huán)神經網絡六、循環(huán)神經網絡卷積神經網絡主要用于處理圖像數(shù)據(jù),循環(huán)神經網絡還可以對序列數(shù)據(jù)進行建模,如處理句子的單詞序列數(shù)據(jù)、語音數(shù)據(jù)的幀序列、視頻的圖像序列、基因的脫氧核糖核苷酸序列、蛋白質的氨基酸序列等。循環(huán)神經網絡(RecurrentNeuralNetwork,RNN)中每個t時刻的輸入是原始的輸入數(shù)據(jù)及時刻t-1提取的隱藏特征。下圖展示了一個由多層感知機表示的簡單循環(huán)神經網絡及其時許展開。分別表示輸入,輸出及隱藏層的轉化參數(shù)矩陣。為每個時刻的狀態(tài)。初始時,狀態(tài)記為,是一個全0的向量。六、循環(huán)神經網絡循環(huán)神經網絡中的代表網絡結構是長短期記憶網絡(LongShort-TermMemory,LSTM)。一個LSTM的單元結構如圖所示。LSTM的數(shù)據(jù)流計算如式所示六、循環(huán)神經網絡由于LSTM中若干門單元的作用,LSTM在一定程度上實現(xiàn)對距離當前時刻較遠之前的信息的保留,而普通的RNN則更傾向于只記住距離當前時刻較近的時刻輸入的信息。所以,LSTM比經典的RNN更適合對序列進行上下文建模。LSTM在機器翻譯、詞性標注、情感計算、語音識別、生物信息學等領域有著廣泛的應用。將循環(huán)神經網絡中的全連接特征提取網絡替換為提取圖像信息的卷積神經網絡可以對視頻圖像序列進行建模,如視頻分類、手語識別等。生成對抗網絡七、生成對抗網絡生成對抗網絡(GenerativeAdversarialnetworks,GAN)是近些年來發(fā)展快速的一種神經網絡模型,主要用于圖片、文本、語音等數(shù)據(jù)的生成。生成對抗網絡最早在計算機視覺領域中被提出。本節(jié)以圖像生成為例介紹生成對抗網絡。七、生成對抗網絡如前圖所示,生成對抗網絡包含兩個部分:生成器G(Generator)和判別器D(Discriminator)。其中生成器G從給定數(shù)據(jù)分布中進行隨機采樣并生成一張圖片,判別器D用來判斷生成器生成的數(shù)據(jù)的真實性。例如:生成器負責生成一張鳥的圖片,而判別器的作用就是判斷這張生成的圖片是否真的像鳥。七、生成對抗網絡給定一個真實樣本的數(shù)據(jù)集,假設其中的樣本服從分布。再給定一個噪聲分布、一個未訓練的生成器G、一個未訓練的判別器D。訓練生成器和判別器的目標是

首先考察目標函數(shù)的第一項。對于真實樣本,判別器D輸出的值約接近1,該項整體越大。接下來考察第二項。對于生成器生成的圖像,判別器D需要盡量輸出0;而生成器G的目標是最小化這一項,所以需要輸出一個使判別器D輸出為1的圖像。于是,生成器G與判別器D就構成了對抗的關系,這就是生成對抗網絡得名的過程。圖卷積神經網絡八、圖卷積神經網絡生產實踐中,我們還會經常碰到的一類數(shù)據(jù)是圖,如社交網絡、知識圖譜、文獻引用等。圖卷積神經網絡(GraphicConvolutionalnetwork,GCN)被設計用來處理圖結構的數(shù)據(jù)。GCN能夠對圖中的節(jié)點的進行分類、回歸,分析連接節(jié)點之間的邊的關系。八、圖卷積神經網絡給定一個圖,E表示邊的集合,V表示定點的集合,記為圖中節(jié)點個數(shù),表示圖的度矩陣。每個節(jié)點使用一個n維的特征向量表示,則所有節(jié)點的特征可表示為一個矩陣。用圖的鄰接矩陣來表示節(jié)點之間的連接關系,其中

類似于卷積神經網絡,可以使用一個n維向量表示卷積核來提取每個神經元j的一種特征,即,使用K個卷積核就可以提取K種不同的特征,對所有神經元提取多種不同的特征寫成矩陣的乘法形式是,其中。中的每一行表示節(jié)點在新特征下的表示。八、圖卷積神經網絡圖卷積中的神經元就是圖節(jié)點本身,為在節(jié)點傳遞信息,圖卷積假設

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論