《大數據挖掘與統(tǒng)計機器學習(第3版)》 課件10-RNN注意力機制1_第1頁
《大數據挖掘與統(tǒng)計機器學習(第3版)》 課件10-RNN注意力機制1_第2頁
《大數據挖掘與統(tǒng)計機器學習(第3版)》 課件10-RNN注意力機制1_第3頁
《大數據挖掘與統(tǒng)計機器學習(第3版)》 課件10-RNN注意力機制1_第4頁
《大數據挖掘與統(tǒng)計機器學習(第3版)》 課件10-RNN注意力機制1_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1第10章循環(huán)神經網絡和注意力機制10.1文本表示與詞嵌入模型210.1文本表示與詞嵌入模型

10.1.1文本表示基本方法One-hot向量:容易構建稀疏N-gram輕量級淺層文本處理3文本詞頻矩陣與TF-IDF變換詞袋表示,又稱計數向量表示。直觀地,就是將所有單詞放入一個袋子中,只考慮單詞出現(xiàn)的頻率,不考慮單詞出現(xiàn)的順序。文檔詞頻矩陣由每個文檔中單詞(標記)出現(xiàn)的次數所構成的矩陣410.1.2NNLM模型當使用神經網絡來處理語言時,如果使用基于局部表示的向量來作為網絡的輸入,那么輸入層的維數非常大,會導致網絡參數也非常多。為了避免這個問題,我們可以將高維的局部表示向量空間R映射到一個非常低維的空間。特別地,對于詞的分布式表示(即低維稠密向量表示),我們經常叫做詞嵌入56710.1.3Word2vec模型Word2Vec是一個著名的表示詞嵌入的模型,它利用上下文的單詞來訓練詞嵌入。Word2Vec實際上由兩種模型組成:連續(xù)詞袋模型(CBOW)和跳字模型(Skip-gram)。8CBOW模型連續(xù)詞袋模型是用訓練窗口中的上下文詞來預測中心詞,簡單來說,它試圖填補空白,以確定哪個詞更適合給定的上下文詞。連續(xù)詞袋模型的神經網絡結構如下:輸入層:輸入為一組上下文詞的獨熱向量的拼接隱藏層(投影層):將上下文詞的獨熱向量與投影矩陣相乘,得到維度為d的詞嵌入,并將投影得到的結果求和。輸出層:將維度為d的隱藏層作為輸入,與參數矩陣相乘,得到形狀為

的向量,這個向量經過softmax處理后,得到當前上下文對中心詞的預測。910Skip-gram模型跳字模型嘗試從中心詞預測上下文詞(與連續(xù)詞袋模型相反)。跳字模型的神經網絡結構如下:輸入層:輸入為一個中心詞的獨熱向量。隱藏層(投影層):將中心詞的獨熱向量與投影矩陣相乘,得到維度為d的詞嵌入。輸出層:將維度為d的隱藏層作為輸入,與參數矩陣相乘,得到形狀為的向量,這個向量經過softmax處理后,得到當前中心詞對上下文的預測。111210.1.4Glove模型Glove模型通過學習單詞的局部信息和全局信息,彌補了Word2Vec的缺點。符號定義:13公式推導:差值處理點積運算14指數變換對稱性考慮15損失函數:161710.2循環(huán)神經網絡傳統(tǒng)神經網絡特點:層級結構通常為每層神經元與下一層神經元全連接,同層的神經元之間不存在連接。所有的觀測值都是相互獨立地進行處理。傳統(tǒng)神經網絡的面臨的問題:

(1)輸入和輸出具備明顯的順序特征。(時序數據) (2)Input和output的長度不同(輸入和輸出長度不固定的數據) (3)不能共享從文本不同位置所學習到的特征為解決這些問題,循環(huán)神經網絡(RecurrentNeuralNetwork,RNN)應運而生。它添加了時間記憶功能,是傳統(tǒng)神經網絡的簡單變體,但這一改變極大地推動了自然語言處理、語音識別等領域的發(fā)展。

1810.2.1研究問題與基本結構循環(huán)神經網絡(RecurrentNeuralNetwork,RNN):是一類用于處理序列數據的神經網絡。RNN的每個輸入之間具有記憶性,模型根據過去的信息構建,并隨著新信息的進入而不斷更新。神經元不但可以接受其它神經元的信息,也可以接受自身的信息,形成具有環(huán)路的網絡結構。循環(huán)神經網絡這種漸進式迭代,在語音識別、自然語言處理、機器翻譯等領域發(fā)揮重要作用。19循環(huán)神經網絡示意圖20公式表達21

10.2.2隨時間反向傳播算法22232425梯度爆炸與梯度消失26對于梯度爆炸,可以通過權重衰減或者梯度截斷來避免。對于梯度消失問題,更有效的方式是改變模型。10.2.3長短期記憶網LSTM27引入門控機制來控制信息的積累速度以及加入新的信息,并有選擇的遺忘之前累積的信息。282910.2.4其他RNN網絡30門控循環(huán)單元GRU:將輸入門和遺忘門合并成一個更新門,控制當前狀態(tài)需要從歷史狀態(tài)中保留多少信息,以及從候選狀態(tài)中接受多少新信息3132深層循環(huán)神經網絡如果將深度定義為網絡中信息傳遞路徑長度的話,循環(huán)神經網絡可以看作是既“深”又“淺”的網絡。一方面來說,如果我們把循環(huán)網絡按時間展開,長時間間隔的狀態(tài)之間的路徑很長,循環(huán)網絡可以看作是一個非常深的網絡了。從另一方面來說,如果同一時刻網絡輸入到輸出之間的路徑xt→yt,這個網絡是非常淺的。因此,我們可以增加循環(huán)神經網絡的深度從而增強循環(huán)神經網絡的能力。增加循環(huán)神經網絡的深度主要是增加同一時刻網絡輸入到輸出之間的路徑xt→

yt,比如增加隱狀態(tài)到輸出ht→yt,以及輸入到隱狀態(tài)xt→ht之間的路徑的深度。33堆疊循環(huán)神經網絡一種常見的做法是將多個循環(huán)網絡堆疊起來,稱為堆疊循環(huán)神經網絡(StackedRecurrentNeuralNetwork,SRNN)。34雙向循環(huán)神經網絡在有些任務中,一個時刻的輸出不但和過去時刻的信息有關,也和后續(xù)時刻的信息有關。比如給定一個句子,其中一個詞的詞性由它的上下文決定,即包含左右兩邊的信息。因此,在這些任務中,我們可以增加一個按照時間的逆序來傳遞信息的網絡層,來增強網絡的能力。第1層按時間順序,第2層按時間逆序。3510.3注意力機制

10.3.1注意力機制基本介紹認知神經學中的注意力:關注一些信息的同時忽略另一些信息的選擇能力兩種形式自上而下、有意識:聚焦式(雞尾酒會,聽見朋友說話)自下而上、無意識:顯著性(聽見有人喊自己的名字)36最大匯聚、門控:顯著性注意力注意力分布:

(1)X:輸入信息 (2)與任務相關的表示:查詢向量q (3)注意力變量z

(4)選擇第i個輸入向量的概率注意力機制:(1)軟注意力:加權平均(2)硬性注意力(3)鍵值對注意力(4)多頭注意力(5)自注意力機制:忽略了位置信息,需要加入

37計算注意力分布38注意力打分函數:加權平均(軟性注意力機制):39鍵值對注意力機制40自注意力機制如果要建立輸入序列之間的長距離依賴關系,可以使用以下兩種方法:一種方法是增加網絡的層數,通過一個深層網絡來獲取遠距離的信息交互;另一種方法是使用全連接網絡,全連接網絡是一種非常直接的建模遠距離依賴的模型,但是無法處理變長的輸入序列.不同的輸入長度,其連接權重的大小也是不同的。自注意力也稱為內部注意力(Intra

Attention),這時我們就可以利用注意力機制來“動態(tài)”地生成不同連接的權重,這就是自注意力模型(Self-AttentionModel).41多頭注意力機制多頭注意力(Multi-HeadAttention)是利用多個查詢??=[??1,?,????],來并行地從輸入信息中選取多組信息.每個注意力關注輸入信息的不同部分.

4210.3.2Transformer模型及其拓展較早的機器翻譯模型多使用基于循環(huán)神經網絡的序列到序列的模型,缺點是當序列很長時,由于循環(huán)神經網絡的長期依賴問題,容易丟失輸入序列信息。Transformer模型引入了自注意力機制,它允許模型在處理每個位置的輸入時,動態(tài)地關注輸入序列的不同部分,從而更好地捕捉長距離依賴關系。Transformer模型是一個基于多頭自注意力的序列到序列模型,其整個網絡結構可以分為編碼器和解碼器兩部分:43序列編碼4445解碼器4647拓展BERT使用Transformer模型架構的編碼器部分。模型包括兩部分:預訓練(pre-training)階段和微調(fine-tuning)階段。BERT在預訓練階段學到的通用語言表示可以在各種下游任務中進行微調,例如文本分類、命名實體識別、問答等BERT的出現(xiàn)對自然語言處理領域產

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論