深度學(xué)習(xí)理論與實(shí)踐課件第7章神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理

上傳人：q*** IP屬地：山東上傳時(shí)間：2024-07-17 格式：PPTX 頁(yè)數(shù)：70 大小：3.94MB 積分：15 舉報(bào) 版權(quán)申訴

深度學(xué)習(xí)理論與實(shí)踐課件第7章神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理_第2頁(yè)

深度學(xué)習(xí)理論與實(shí)踐課件第7章神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理_第3頁(yè)

深度學(xué)習(xí)理論與實(shí)踐課件第7章神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理_第4頁(yè)

深度學(xué)習(xí)理論與實(shí)踐課件第7章神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理_第5頁(yè)

已閱讀5頁(yè)，還剩65頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第7章神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理目錄2第一節(jié)語(yǔ)言建模第二節(jié)基于多層感知器的架構(gòu)第三節(jié)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)第四節(jié)基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)第五節(jié)基于Transformer的架構(gòu)第六節(jié)表示學(xué)習(xí)和預(yù)訓(xùn)練技術(shù)第一節(jié)語(yǔ)言建模語(yǔ)言建模自然語(yǔ)言處理中，最根本的問(wèn)題就是語(yǔ)言建模。機(jī)器翻譯可以被看作一種條件語(yǔ)言模型。人類使用的自然語(yǔ)言都是以序列的形式出現(xiàn)的。假設(shè)詞是基本單元，那么一個(gè)句子就是一個(gè)由詞組成的序列。一門(mén)語(yǔ)言能產(chǎn)生的句子是無(wú)窮多的，這其中有些句子出現(xiàn)的多，有些出現(xiàn)的少，有些不符合語(yǔ)法的句子出現(xiàn)的概率就非常低。一個(gè)概率學(xué)的語(yǔ)言模型，就是要對(duì)這些句子進(jìn)行建模。4語(yǔ)言建模5

語(yǔ)言建模6

語(yǔ)言建模7

第二節(jié)基于多層感知器的結(jié)構(gòu)基于多層感知器的架構(gòu)9多層傳感器的歷史在梯度后向傳播算法提出之后，多層感知器得以被有效訓(xùn)練。在計(jì)算機(jī)視覺(jué)領(lǐng)域，由于圖像可以被表示成為RGB或灰度的數(shù)值，輸入神經(jīng)網(wǎng)絡(luò)的特征都具有良好的數(shù)學(xué)性質(zhì)。而在自然語(yǔ)言方面，如何表示一個(gè)詞就成了難題。由于稀疏特征輸入到神經(jīng)網(wǎng)絡(luò)中很難訓(xùn)練，神經(jīng)網(wǎng)絡(luò)方法在自然語(yǔ)言處理領(lǐng)域停滯不前。曙光出現(xiàn)在2000年NIPS的一篇論文中，第一作者是日后深度學(xué)習(xí)三巨頭之一的Bengi。在這篇論文中，Bengio提出了分布式的詞向量表示，有效地解決了詞的稀疏特征問(wèn)題，為后來(lái)神經(jīng)網(wǎng)絡(luò)方法在計(jì)算語(yǔ)言學(xué)中的應(yīng)用奠定了第一塊基石。這篇論文就是今日每位NLP入門(mén)學(xué)習(xí)者必讀的–ANeuralProbabilisticLanguageModel?；诙鄬痈兄鞯募軜?gòu)10

基于多層感知器的架構(gòu)11

基于多層感知器的架構(gòu)12ANeuralProbabilisticLanguageModel這個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)的語(yǔ)言學(xué)意義也非常直觀：它模擬了n-gram的條件概率，給定一個(gè)固定大小窗口的上下文信息，預(yù)測(cè)下一個(gè)詞的概率。第三節(jié)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)14循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)的出現(xiàn)早期的神經(jīng)網(wǎng)絡(luò)都有固定大小的輸入，以及固定大小的輸出。這在傳統(tǒng)的分類問(wèn)題上（特征向量維度固定）以及圖像處理上（固定大小的圖像）可以滿足我們的需求。但是在自然語(yǔ)言處理中，句子是一個(gè)變長(zhǎng)的序列，傳統(tǒng)上固定輸入的神經(jīng)網(wǎng)絡(luò)就無(wú)能為力了。為了處理這種變長(zhǎng)序列的問(wèn)題，神經(jīng)網(wǎng)絡(luò)就必須采取一種適合的架構(gòu)，使得輸入序列和輸出序列的長(zhǎng)度可以動(dòng)態(tài)地變化，而又不改變神經(jīng)網(wǎng)絡(luò)中參數(shù)的個(gè)數(shù)?；趨?shù)共享的思想，我們可以在時(shí)間線上共享參數(shù)。在這里，時(shí)間是一個(gè)抽象的概念，通常表示為時(shí)步（timestep）；共享參數(shù)的作用在于使得輸入長(zhǎng)度可以動(dòng)態(tài)變化，并將一個(gè)序列各時(shí)步的信息相關(guān)聯(lián)，沿時(shí)間線向前傳遞。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)單元15

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)單元16將循環(huán)神經(jīng)網(wǎng)絡(luò)計(jì)算步驟畫(huà)成計(jì)算圖，可以看到，隱藏層結(jié)點(diǎn)有一條指向自己的箭頭，代表循環(huán)單元?；谘h(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)單元17

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-通過(guò)時(shí)間后向傳播18

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-通過(guò)時(shí)間后向傳播19

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-通過(guò)時(shí)間后向傳播20我們注意到式中有一項(xiàng)連乘，這意味著當(dāng)序列較長(zhǎng)的時(shí)候相乘的偏導(dǎo)數(shù)個(gè)數(shù)將變得非常多。有些時(shí)候，一旦所有的偏導(dǎo)數(shù)都小于1，那么相乘之后梯度將會(huì)趨向0，這被稱為梯度消失（VanishingGradient）；一旦所有偏導(dǎo)數(shù)都大于1，那么相乘之后梯度將會(huì)趨向無(wú)窮，這被稱為梯度爆炸（ExplodingGradient）。梯度消失與梯度爆炸的問(wèn)題解決一般有兩類辦法：一是改進(jìn)優(yōu)化（Optimization）過(guò)程，如引入縮放梯度（ClippingGradient），屬于優(yōu)化問(wèn)題，本章不予討論；二是使用帶有門(mén)限的循環(huán)單元，在下一節(jié)中將介紹這種方法?；谘h(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-帶有門(mén)限的循環(huán)單元21

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-帶有門(mén)限的循環(huán)單元22

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型23由于循環(huán)神經(jīng)網(wǎng)絡(luò)能夠處理變長(zhǎng)的序列，所以它非常適合處理語(yǔ)言建模的問(wèn)題。Mikolov等人在2010年提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型RNNLM，這就是本章要介紹的第二篇經(jīng)典論文-Recurrentneuralnetworkbasedlanguagemodel。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型24

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型25

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型26RNNLM在這個(gè)概率模型的條件里，包含了整個(gè)前半句w_1,w_2,…,w_(t-1)的所有上下文信息。這克服了之前由馬爾科夫假設(shè)所帶來(lái)的限制，因此該模型帶來(lái)了較大的提升。而相比于模型效果上的提升，更為重要的是循環(huán)神經(jīng)網(wǎng)絡(luò)在語(yǔ)言模型上的成功應(yīng)用，讓人們看到了神經(jīng)網(wǎng)絡(luò)在計(jì)算語(yǔ)言學(xué)中的曙光，從此之后計(jì)算語(yǔ)言學(xué)的學(xué)術(shù)會(huì)議以驚人的速度被神經(jīng)網(wǎng)絡(luò)方法占領(lǐng)?；谘h(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-神經(jīng)機(jī)器翻譯27

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-RNNSearch28

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-RNNSearch29循環(huán)神經(jīng)網(wǎng)絡(luò)天然地提供了這樣的機(jī)制：一個(gè)句子如果像語(yǔ)言模型一樣逐詞輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中的話，我們就會(huì)不斷更新隱狀態(tài)，隱狀態(tài)中實(shí)際上就包含了所有輸入過(guò)的詞的信息。到整個(gè)句子輸入完成，我們得到的最后一個(gè)隱狀態(tài)就可以用于表示整個(gè)句子?；谶@個(gè)思想，Cho等人設(shè)計(jì)出了最基本的編碼器-解碼器模型?；谘h(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-RNNSearch30

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-RNNSearch31這種方法打開(kāi)了雙語(yǔ)/多語(yǔ)任務(wù)上神經(jīng)網(wǎng)絡(luò)架構(gòu)的新思路，但是其局限也是非常突出的：一個(gè)句子不管多長(zhǎng)，都被強(qiáng)行壓縮成到一個(gè)固定不變的向量上。源語(yǔ)言句子越長(zhǎng)，壓縮過(guò)程丟失的信息就越多。此外，越靠近句子末端的詞，進(jìn)入上下文向量的信息就越多，而越前面的詞其信息就越加被模糊和淡化。這時(shí)候，人們想起了統(tǒng)計(jì)機(jī)器翻譯中的一個(gè)重要概念——詞對(duì)齊模型。能否在神經(jīng)機(jī)器翻譯中也引入類似的機(jī)制呢？統(tǒng)計(jì)機(jī)器翻譯中的詞對(duì)齊是一個(gè)二元的、離散的概念，即源語(yǔ)言詞與目標(biāo)語(yǔ)言詞要么對(duì)齊，要么不對(duì)齊（盡管這種對(duì)齊是多對(duì)多的關(guān)系）。但是神經(jīng)網(wǎng)絡(luò)是一個(gè)處理連續(xù)浮點(diǎn)值的函數(shù)，詞對(duì)齊需要經(jīng)過(guò)一定的變通才能結(jié)合到神經(jīng)網(wǎng)絡(luò)中?；谘h(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-RNNSearch32

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-RNNSearch33

第四節(jié)基于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)35卷積序列到序列（ConvSeq2Seq）很長(zhǎng)一段時(shí)間里，循環(huán)神經(jīng)網(wǎng)絡(luò)都是自然語(yǔ)言處理領(lǐng)域的主流框架。但它的弱點(diǎn)也是顯而易見(jiàn)的：循環(huán)神經(jīng)網(wǎng)絡(luò)中，下一時(shí)步的隱狀態(tài)總是取決于上一時(shí)步的隱狀態(tài)，這就使得計(jì)算無(wú)法并行化，而只能逐時(shí)步地按順序計(jì)算。在這樣的背景之下，人們提出了使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)替代編碼器解碼器架構(gòu)中的循環(huán)單元，使得整個(gè)序列可以同時(shí)被計(jì)算。但是，這樣的方案也有它固有的問(wèn)題：首先，卷積神經(jīng)網(wǎng)絡(luò)只能捕捉到固定大小窗口的上下文信息，這與我們想要捕捉序列中長(zhǎng)距離依賴關(guān)系的初衷背道而馳；其次，循環(huán)依賴被取消之后，如何在建模中捕捉詞語(yǔ)詞之間的順序關(guān)系也是一個(gè)不能繞開(kāi)的問(wèn)題?；诰矸e神經(jīng)網(wǎng)絡(luò)的架構(gòu)36

基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)37卷積序列到序列（ConvSeq2Seq）基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)38

第五節(jié)基于Tansformer的架構(gòu)基于Transformer的架構(gòu)在2014-2017年間，基于循環(huán)神經(jīng)網(wǎng)絡(luò)的Seq2Seq在機(jī)器翻譯以及其他序列任務(wù)上占據(jù)了絕對(duì)的主導(dǎo)地位，編碼器-解碼器架構(gòu)以及注意力機(jī)制的各種變體被研究者反復(fù)探索。盡管循環(huán)神經(jīng)網(wǎng)絡(luò)不能并行計(jì)算是一個(gè)固有的限制，但似乎一些對(duì)于可以并行計(jì)算的網(wǎng)絡(luò)架構(gòu)的探索并沒(méi)有取得在模型效果上特別顯著的提升（例如上一節(jié)所提及的ConvSeq2Seq）。卷積神經(jīng)網(wǎng)絡(luò)在效果上總體比不過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)是有原因的：不管怎樣設(shè)計(jì)卷積單元，它所吸收的信息永遠(yuǎn)是來(lái)自于一個(gè)固定大小的窗口。這就使得研究者陷入了兩難的尷尬境地：循環(huán)神經(jīng)網(wǎng)絡(luò)缺乏并行能力，卷積神經(jīng)網(wǎng)絡(luò)不能很好地處理變長(zhǎng)的序列。40基于Transformer的架構(gòu)41最初的多層感知機(jī)時(shí)代：多層感知機(jī)對(duì)于各神經(jīng)元是并行計(jì)算的。但是那個(gè)時(shí)候，多層感知機(jī)對(duì)句子進(jìn)行編碼效果不理想的原因有幾個(gè)：1）如果所有的詞向量都共享一個(gè)權(quán)值矩陣，那么我們無(wú)從知道詞之間的位置關(guān)系。2）如果給每個(gè)位置的詞向量使用不同的權(quán)值矩陣，由于全連接的神經(jīng)網(wǎng)絡(luò)只能接受固定長(zhǎng)度的輸入，這就導(dǎo)致了8.2中所提到的語(yǔ)言模型只能取固定大小窗口里的詞作為輸入。3）全連接層的矩陣相乘計(jì)算開(kāi)銷非常大。4）全連接層有梯度消失/梯度爆炸的問(wèn)題，使得網(wǎng)絡(luò)難以訓(xùn)練，在深層網(wǎng)絡(luò)中抽取特征的效果也不理想?；赥ransformer的架構(gòu)42隨著深度神經(jīng)網(wǎng)絡(luò)火速發(fā)展了幾年，各種方法和技巧都被開(kāi)發(fā)和探索，使得上述問(wèn)題被逐一解決：nvSeq2Seq中的位置向量為表示詞的位置關(guān)系提供了可并行化的可能性。注意力機(jī)制的出現(xiàn)，使得變長(zhǎng)的序列可以根據(jù)注意力權(quán)重來(lái)對(duì)序列中的元素加權(quán)平均，得到一個(gè)定長(zhǎng)的向量；而這樣的加權(quán)平均又比簡(jiǎn)單的算術(shù)平均能保留更多的信息，最大程度上避免了壓縮所帶來(lái)的信息損失。由于序列通過(guò)注意力機(jī)制可以被有效地壓縮成為向量，在進(jìn)行線性變換的時(shí)候，矩陣相乘的計(jì)算量大大減少。在橫向上，循環(huán)單元中的門(mén)限機(jī)制有效地緩解了梯度消失以及梯度爆炸的問(wèn)題；在縱向上，計(jì)算機(jī)視覺(jué)中的殘差連接網(wǎng)絡(luò)提供了非常好的解決思路，使得深層網(wǎng)絡(luò)疊加后的訓(xùn)練成為可能。基于Transformer的架構(gòu)43于是，在2017年年中的時(shí)候，Google在NIPS上發(fā)表的一篇論文翻開(kāi)了自然語(yǔ)言處理的新一頁(yè)。這篇論文就是本章要介紹的最后一篇?jiǎng)潟r(shí)代的經(jīng)典論文–AttentionIsAllYouNeed。這篇文章發(fā)表后不到一年時(shí)間里，曾經(jīng)如日中天的各種循環(huán)神經(jīng)網(wǎng)絡(luò)模型悄然淡出，基于Transformer架構(gòu)的模型橫掃各項(xiàng)自然語(yǔ)言處理任務(wù)。在這篇論文中，作者提出了一種全新的神經(jīng)機(jī)器翻譯網(wǎng)絡(luò)架構(gòu)–Transformer。它沿襲RNNSearch中的編碼器-解碼器框架，但取消了所有的循環(huán)單元，取而代之的是可以并行的Transformer編碼器單元/解碼器單元。這樣一來(lái)，模型中就沒(méi)有了循環(huán)連接，每一個(gè)單元的計(jì)算就不需要依賴于前一個(gè)時(shí)步的單元，使這個(gè)句子中每一個(gè)詞的編碼器/解碼器單元在理論可以同時(shí)計(jì)算。因此，這個(gè)模型在計(jì)算效率上能比循環(huán)神經(jīng)網(wǎng)絡(luò)快一個(gè)數(shù)量級(jí)。基于Transformer的架構(gòu)44

多頭注意力45注意力在整個(gè)Transformer架構(gòu)中處于核心地位。在Transformer架構(gòu)中，注意力一開(kāi)始被引入神經(jīng)機(jī)器翻譯是以軟性詞對(duì)齊機(jī)制的形式。對(duì)于注意力機(jī)制一個(gè)比較直觀的解釋是：某個(gè)目標(biāo)語(yǔ)言詞對(duì)于每一個(gè)源語(yǔ)言詞具有多少注意力。我們可以把這個(gè)注意力的計(jì)算過(guò)程當(dāng)成一個(gè)查詢的過(guò)程：假設(shè)有一個(gè)由一些鍵-值對(duì)組成的映射，給出一個(gè)查詢，根據(jù)這個(gè)查詢與每個(gè)鍵的關(guān)系，得到每個(gè)值應(yīng)得到的權(quán)重，然后把這些值加權(quán)平均。在RNNSearch的注意力機(jī)制中，查詢就是這個(gè)目標(biāo)詞，鍵和值是相同的，是源語(yǔ)言句子中的詞。多頭注意力46如果查詢、鍵、值都相同呢？直觀地說(shuō)，就是一個(gè)句子中的詞對(duì)于句子中其他詞的注意力。在Transformer中，這就是自注意力機(jī)制。這種自注意力可以用來(lái)對(duì)源語(yǔ)言句子進(jìn)行編碼，由于每個(gè)位置的詞作為查詢時(shí)，查到的結(jié)果是這個(gè)句子中所有詞的加權(quán)平均結(jié)果，因此這個(gè)結(jié)果向量中不僅包含了它本身的信息，還含有它與其他詞的關(guān)系信息。這樣就具有了和循環(huán)神經(jīng)網(wǎng)絡(luò)類似的效果——捕捉句子中詞的依賴關(guān)系。它甚至比循環(huán)神經(jīng)網(wǎng)絡(luò)在捕捉長(zhǎng)距離依賴關(guān)系中做得更好，因?yàn)榫渲械拿恳粋€(gè)詞都有和其他所有詞直接連接的機(jī)會(huì)，而循環(huán)神經(jīng)網(wǎng)絡(luò)中距離遠(yuǎn)的兩個(gè)詞之間只能隔著許多時(shí)步傳遞信號(hào)，每一個(gè)時(shí)步都會(huì)減弱這個(gè)信號(hào)。多頭注意力47

多頭注意力48到目前為止，注意力機(jī)制計(jì)算出來(lái)的只有一組權(quán)重?？墒钦Z(yǔ)言是一種高度抽象的表達(dá)系統(tǒng)，包含著各種不同層次和不同方面的信息，同一個(gè)詞也許在不同層次上就應(yīng)該具有不同的權(quán)重。怎么樣來(lái)抽取這種不同層次的信息呢？Transformer有一個(gè)非常精巧的設(shè)計(jì)——多頭注意力，其結(jié)構(gòu)如圖所示。多頭注意力

非參位置編碼在ConvSeq2Seq中，作者引入了位置向量來(lái)捕捉詞語(yǔ)詞之間的位置關(guān)系。這種位置向量與詞向量類似，都是網(wǎng)絡(luò)中的參數(shù)，是在訓(xùn)練中得到的。但是這種將位置向量參數(shù)化的做法的短處也非常明顯。我們知道句子都是長(zhǎng)短不一的，假設(shè)大部分句子至少有5個(gè)詞以上，只有少部分句子超過(guò)50個(gè)詞，那么第1到第5個(gè)位置的位置向量訓(xùn)練樣例就非常多，第51個(gè)詞之后的位置向量可能在整個(gè)語(yǔ)料庫(kù)中都見(jiàn)不到幾個(gè)訓(xùn)練樣例。這也就是說(shuō)越往后的位置有詞的概率越低，訓(xùn)練就越不充分。由于位置向量本身是參數(shù)，數(shù)量是有限的，因此超出最后一個(gè)位置的詞無(wú)法獲得位置向量。例如訓(xùn)練的時(shí)候，最長(zhǎng)句子長(zhǎng)度設(shè)置為100，那么就只有100個(gè)位置向量，如果在翻譯中遇到長(zhǎng)度是100以上的句子就只能截?cái)嗔?。非參位置編碼

編碼器單元與解碼器單元在Transformer中，每一個(gè)詞都會(huì)被堆疊起來(lái)的一些編碼器單元所編碼。Transformer的結(jié)構(gòu)如圖所示，一個(gè)編碼器單元中有兩層，第一層是多頭的自注意力層，第二層是全連接層，每一層都加上了殘差連接和層歸一化。注意力+全連接的組合給特征抽取提供了足夠的自由度，而殘差連接和層歸一化又讓網(wǎng)絡(luò)參數(shù)更加容易訓(xùn)練。第五節(jié)表示學(xué)習(xí)與預(yù)訓(xùn)練技術(shù)表示學(xué)習(xí)與預(yù)訓(xùn)練技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域，一個(gè)常用的提升訓(xùn)練數(shù)據(jù)效率的方法就是把一些在ImageNet或其他任務(wù)上預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)層共享應(yīng)用到目標(biāo)任務(wù)上，這些被共享的網(wǎng)絡(luò)層被稱為backbone。使用預(yù)訓(xùn)練的好處在于，如果某項(xiàng)任務(wù)的數(shù)據(jù)非常少，且和其他任務(wù)有相似之處，就可以利用在其他任務(wù)中學(xué)習(xí)到的知識(shí)，從而減少對(duì)某一任務(wù)專用標(biāo)注數(shù)據(jù)的需求，這種共享的知識(shí)往往是某種通用的常識(shí)。自然語(yǔ)言中也有許多可以共享的特征表示，例如基礎(chǔ)詞匯和語(yǔ)法結(jié)構(gòu)，那么目標(biāo)領(lǐng)域的模型就只需要在預(yù)訓(xùn)練好的特征表示之基礎(chǔ)上針對(duì)目標(biāo)任務(wù)或目標(biāo)領(lǐng)域進(jìn)行少量數(shù)據(jù)訓(xùn)練，即可達(dá)到良好效果。這種抽取可共享特征表示的機(jī)器學(xué)習(xí)算法被稱為表示學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)本身就是一個(gè)強(qiáng)大的特征抽取工具，在自然語(yǔ)言和視覺(jué)領(lǐng)域，神經(jīng)網(wǎng)絡(luò)都是進(jìn)行表示學(xué)習(xí)的有效工具。詞向量自然語(yǔ)言中，一個(gè)比較直觀的、規(guī)模適合計(jì)算機(jī)處理的語(yǔ)言單位就是詞。如果詞的語(yǔ)言特征能在各任務(wù)上共享，這將是一個(gè)通用的特征表示。因此詞嵌入（WordEmbedding）至今都是一個(gè)在自然處理領(lǐng)域重要的概念。在早期的研究中，詞向量往往是通過(guò)在大規(guī)模單語(yǔ)語(yǔ)料上預(yù)訓(xùn)練一些語(yǔ)言模型得到的；而這些預(yù)訓(xùn)練好的詞向量通常被用來(lái)初始化一些數(shù)據(jù)稀少的任務(wù)的模型中的詞向量，這種利用預(yù)訓(xùn)練詞向量初始化的做法在詞性標(biāo)注、語(yǔ)法分析乃至句子分類中都有著明顯的效果提升作用。早期的一個(gè)典型的預(yù)訓(xùn)練詞向量代表就是Word2Vec。Word2Vec的網(wǎng)絡(luò)架構(gòu)是之前介紹的基于多層感知機(jī)的架構(gòu)，本質(zhì)上都是通過(guò)一個(gè)上下文窗口的詞來(lái)預(yù)測(cè)某一個(gè)位置的詞，它們的特點(diǎn)是局限于全連接網(wǎng)絡(luò)的固定維度限制，只能得到固定大小的上下文。詞向量Word2VecWord2Vec的預(yù)訓(xùn)練方法主要依賴于語(yǔ)言模型。它的預(yù)訓(xùn)練主要基于兩種思想：第一種是通過(guò)上下文（如句子中某個(gè)位置前幾個(gè)詞和后幾個(gè)詞）來(lái)預(yù)測(cè)當(dāng)前位置的詞，這種方法被稱為ContinuousBag-of-Words。詞向量Word2Vec第二種思想是通過(guò)當(dāng)前詞來(lái)預(yù)測(cè)上下文，被稱為Skip-gram詞向量Word2Vec這種預(yù)訓(xùn)練技術(shù)被證明是有效的：一方面，使用Word2Vec作為其他語(yǔ)言任務(wù)的詞嵌入初始化成了一項(xiàng)通用的技巧；另一方面，Word2Vec詞向量的可視化結(jié)果表明，它確實(shí)學(xué)習(xí)到了某種層次的語(yǔ)義。加入上下文信息的特征表示詞向量部分中的特征表示有兩個(gè)明顯的不足：首先，它局限于某個(gè)詞的有限大小窗口中的上下文，這限制了它捕捉長(zhǎng)距離依賴關(guān)系的能力；更重要的，它的每一個(gè)詞向量都是在預(yù)訓(xùn)練之后就被凍結(jié)了的，而不會(huì)根據(jù)使用時(shí)的上下文改變，而自然語(yǔ)言一個(gè)非常常見(jiàn)的特征就是多義詞。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)中提到，加入長(zhǎng)距離上下文信息的一個(gè)有效辦法就是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)；如果我們利用這個(gè)架構(gòu)在下游任務(wù)中根據(jù)上下文實(shí)時(shí)生成特征表示，那么就可以在相當(dāng)程度上緩解多義詞的局限。在這種思想下利用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)獲得動(dòng)態(tài)上下文的工作不少，例如CoVe,Context2Vec,ULMFiT等。其中較為簡(jiǎn)潔而又具有代表性的就是ElMo。加入上下文信息的特征表示循環(huán)神經(jīng)網(wǎng)絡(luò)使用的一個(gè)常見(jiàn)技巧就是雙向循環(huán)單元：包括ElMo在內(nèi)的這些模型都采取了雙向的循環(huán)神經(jīng)網(wǎng)絡(luò)（BiLSTM或BiGRU），將一個(gè)位置的正向和反向的循環(huán)單元狀態(tài)拼接起來(lái)，得到這個(gè)位置的詞的帶有上下文的詞向量（Context-aware）。循環(huán)神經(jīng)網(wǎng)絡(luò)使用的另一個(gè)常見(jiàn)技巧就是網(wǎng)絡(luò)層疊加，下一層的網(wǎng)絡(luò)輸出作為上一層的網(wǎng)絡(luò)輸入，或者所有下層網(wǎng)絡(luò)的輸出作為上一層網(wǎng)絡(luò)的輸入，這樣做可以使重要的下層特征易于傳到上層。ElMo的結(jié)構(gòu)如圖所示。加入上下文信息的特征表示除了把雙向多層循環(huán)神經(jīng)網(wǎng)絡(luò)利用到極致以外，ElMo相比于早期的詞向量方法還有其他關(guān)鍵改進(jìn)：首先，它除了在大規(guī)模單語(yǔ)語(yǔ)料上訓(xùn)練語(yǔ)言模型的任務(wù)以外，還加入了其他的訓(xùn)練任務(wù)用于調(diào)優(yōu)（Fine-tuning）。這使得預(yù)訓(xùn)練中捕捉到的語(yǔ)言特征更為全面，層次更為豐富；其次，相比于Word2Vec的靜態(tài)詞向量，它采取了動(dòng)態(tài)生成的辦法：下游任務(wù)的序列先拿到預(yù)訓(xùn)練好的ElMo中跑一遍，然后取到ElMo里各層循環(huán)神經(jīng)網(wǎng)絡(luò)的狀態(tài)拼接在一起，最后才喂給下游任務(wù)的網(wǎng)絡(luò)架構(gòu)。這樣雖然開(kāi)銷大，但下游任務(wù)得到的輸入就是帶有豐富的動(dòng)態(tài)上下文的詞特征表示，而不再是靜態(tài)的詞向量。網(wǎng)絡(luò)預(yù)訓(xùn)練前面所介紹的預(yù)訓(xùn)練技術(shù)主要思想是特征抽?。‵eatureExtraction），通過(guò)使用更為合理和強(qiáng)大的特征抽取器，盡可能使抽取到的每一個(gè)詞的特征變深（多層次的信息）和變寬（長(zhǎng)距離依賴信息），然后將這些特征作為下游任務(wù)的輸入。Transformer網(wǎng)絡(luò)架構(gòu)的誕生，使得各種不同任務(wù)都可以非常靈活地被一個(gè)通用的架構(gòu)建模：我們可以把所有自然語(yǔ)言處理任務(wù)的輸入都看成序列。只要在序列的特定位置加入特殊符號(hào)，由于Transformer具有等長(zhǎng)序列到序列的特點(diǎn)，并且經(jīng)過(guò)多層疊加之后序列中各位置信息可以充分交換和推理，特殊符號(hào)處的頂層輸出可以被看作包含整個(gè)序列（或多個(gè)序列）的特征，用于各項(xiàng)任務(wù)。網(wǎng)絡(luò)預(yù)訓(xùn)練網(wǎng)絡(luò)預(yù)訓(xùn)練Transformer這種靈活的結(jié)構(gòu)使得它除了頂層的激活層網(wǎng)絡(luò)以外，下層所有網(wǎng)絡(luò)可以被多種不同的下游任務(wù)共用。舉一個(gè)也許不大恰當(dāng)?shù)谋扔?，它就像圖像任務(wù)中的ResNet等”backbone”一樣，作為語(yǔ)言任務(wù)的”backbone”在大規(guī)模高質(zhì)量的語(yǔ)料上訓(xùn)練好之后，或通過(guò)Fine-tune，或通過(guò)Adapter方法，直接被下游任務(wù)所使用。這種網(wǎng)絡(luò)預(yù)訓(xùn)練的方法，被最近非常受歡迎的GPT和BERT所采用。網(wǎng)絡(luò)預(yù)訓(xùn)練GenerativePretrainedTransformer（GPT），如圖所示，其本質(zhì)是生成式語(yǔ)言模型。由于生成式語(yǔ)言模型的自回歸特點(diǎn)GPT是我們非常熟悉的傳統(tǒng)的單向語(yǔ)言模型，“預(yù)測(cè)下一個(gè)詞”。GPT在語(yǔ)言模型任務(wù)上訓(xùn)練好之后，就可以針對(duì)下游任務(wù)進(jìn)行調(diào)優(yōu)了。由于前面提到Transformer架構(gòu)靈活，GPT幾乎可以適應(yīng)任意的下游任務(wù)。網(wǎng)絡(luò)預(yù)訓(xùn)練Bi-direction

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

深度學(xué)習(xí)理論與實(shí)踐課件第7章神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

深度學(xué)習(xí)理論與實(shí)踐 課件 第7章 神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

深度學(xué)習(xí)理論與實(shí)踐課件第7章神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理