




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第7章神經(jīng)網(wǎng)絡(luò)與自然語(yǔ)言處理目錄2第一節(jié)語(yǔ)言建模第二節(jié)基于多層感知器的架構(gòu)第三節(jié)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)第四節(jié)基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)第五節(jié)基于Transformer的架構(gòu)第六節(jié)表示學(xué)習(xí)和預(yù)訓(xùn)練技術(shù)第一節(jié)語(yǔ)言建模語(yǔ)言建模自然語(yǔ)言處理中,最根本的問(wèn)題就是語(yǔ)言建模。機(jī)器翻譯可以被看作一種條件語(yǔ)言模型。人類使用的自然語(yǔ)言都是以序列的形式出現(xiàn)的。假設(shè)詞是基本單元,那么一個(gè)句子就是一個(gè)由詞組成的序列。一門(mén)語(yǔ)言能產(chǎn)生的句子是無(wú)窮多的,這其中有些句子出現(xiàn)的多,有些出現(xiàn)的少,有些不符合語(yǔ)法的句子出現(xiàn)的概率就非常低。一個(gè)概率學(xué)的語(yǔ)言模型,就是要對(duì)這些句子進(jìn)行建模。4語(yǔ)言建模5
語(yǔ)言建模6
語(yǔ)言建模7
第二節(jié)基于多層感知器的結(jié)構(gòu)基于多層感知器的架構(gòu)9多層傳感器的歷史在梯度后向傳播算法提出之后,多層感知器得以被有效訓(xùn)練。在計(jì)算機(jī)視覺(jué)領(lǐng)域,由于圖像可以被表示成為RGB或灰度的數(shù)值,輸入神經(jīng)網(wǎng)絡(luò)的特征都具有良好的數(shù)學(xué)性質(zhì)。而在自然語(yǔ)言方面,如何表示一個(gè)詞就成了難題。由于稀疏特征輸入到神經(jīng)網(wǎng)絡(luò)中很難訓(xùn)練,神經(jīng)網(wǎng)絡(luò)方法在自然語(yǔ)言處理領(lǐng)域停滯不前。曙光出現(xiàn)在2000年NIPS的一篇論文中,第一作者是日后深度學(xué)習(xí)三巨頭之一的Bengi。在這篇論文中,Bengio提出了分布式的詞向量表示,有效地解決了詞的稀疏特征問(wèn)題,為后來(lái)神經(jīng)網(wǎng)絡(luò)方法在計(jì)算語(yǔ)言學(xué)中的應(yīng)用奠定了第一塊基石。這篇論文就是今日每位NLP入門(mén)學(xué)習(xí)者必讀的–ANeuralProbabilisticLanguageModel?;诙鄬痈兄鞯募軜?gòu)10
基于多層感知器的架構(gòu)11
基于多層感知器的架構(gòu)12ANeuralProbabilisticLanguageModel這個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)的語(yǔ)言學(xué)意義也非常直觀:它模擬了n-gram的條件概率,給定一個(gè)固定大小窗口的上下文信息,預(yù)測(cè)下一個(gè)詞的概率。第三節(jié)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)14循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)的出現(xiàn)早期的神經(jīng)網(wǎng)絡(luò)都有固定大小的輸入,以及固定大小的輸出。這在傳統(tǒng)的分類問(wèn)題上(特征向量維度固定)以及圖像處理上(固定大小的圖像)可以滿足我們的需求。但是在自然語(yǔ)言處理中,句子是一個(gè)變長(zhǎng)的序列,傳統(tǒng)上固定輸入的神經(jīng)網(wǎng)絡(luò)就無(wú)能為力了。為了處理這種變長(zhǎng)序列的問(wèn)題,神經(jīng)網(wǎng)絡(luò)就必須采取一種適合的架構(gòu),使得輸入序列和輸出序列的長(zhǎng)度可以動(dòng)態(tài)地變化,而又不改變神經(jīng)網(wǎng)絡(luò)中參數(shù)的個(gè)數(shù)?;趨?shù)共享的思想,我們可以在時(shí)間線上共享參數(shù)。在這里,時(shí)間是一個(gè)抽象的概念,通常表示為時(shí)步(timestep);共享參數(shù)的作用在于使得輸入長(zhǎng)度可以動(dòng)態(tài)變化,并將一個(gè)序列各時(shí)步的信息相關(guān)聯(lián),沿時(shí)間線向前傳遞。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)單元15
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)單元16將循環(huán)神經(jīng)網(wǎng)絡(luò)計(jì)算步驟畫(huà)成計(jì)算圖,可以看到,隱藏層結(jié)點(diǎn)有一條指向自己的箭頭,代表循環(huán)單元?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)單元17
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-通過(guò)時(shí)間后向傳播18
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-通過(guò)時(shí)間后向傳播19
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-通過(guò)時(shí)間后向傳播20我們注意到式中有一項(xiàng)連乘,這意味著當(dāng)序列較長(zhǎng)的時(shí)候相乘的偏導(dǎo)數(shù)個(gè)數(shù)將變得非常多。有些時(shí)候,一旦所有的偏導(dǎo)數(shù)都小于1,那么相乘之后梯度將會(huì)趨向0,這被稱為梯度消失(VanishingGradient);一旦所有偏導(dǎo)數(shù)都大于1,那么相乘之后梯度將會(huì)趨向無(wú)窮,這被稱為梯度爆炸(ExplodingGradient)。梯度消失與梯度爆炸的問(wèn)題解決一般有兩類辦法:一是改進(jìn)優(yōu)化(Optimization)過(guò)程,如引入縮放梯度(ClippingGradient),屬于優(yōu)化問(wèn)題,本章不予討論;二是使用帶有門(mén)限的循環(huán)單元,在下一節(jié)中將介紹這種方法?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-帶有門(mén)限的循環(huán)單元21
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-帶有門(mén)限的循環(huán)單元22
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型23由于循環(huán)神經(jīng)網(wǎng)絡(luò)能夠處理變長(zhǎng)的序列,所以它非常適合處理語(yǔ)言建模的問(wèn)題。Mikolov等人在2010年提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型RNNLM,這就是本章要介紹的第二篇經(jīng)典論文-Recurrentneuralnetworkbasedlanguagemodel。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型24
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型25
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型26RNNLM在這個(gè)概率模型的條件里,包含了整個(gè)前半句w_1,w_2,…,w_(t-1)的所有上下文信息。這克服了之前由馬爾科夫假設(shè)所帶來(lái)的限制,因此該模型帶來(lái)了較大的提升。而相比于模型效果上的提升,更為重要的是循環(huán)神經(jīng)網(wǎng)絡(luò)在語(yǔ)言模型上的成功應(yīng)用,讓人們看到了神經(jīng)網(wǎng)絡(luò)在計(jì)算語(yǔ)言學(xué)中的曙光,從此之后計(jì)算語(yǔ)言學(xué)的學(xué)術(shù)會(huì)議以驚人的速度被神經(jīng)網(wǎng)絡(luò)方法占領(lǐng)?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-神經(jīng)機(jī)器翻譯27
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-RNNSearch28
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-RNNSearch29循環(huán)神經(jīng)網(wǎng)絡(luò)天然地提供了這樣的機(jī)制:一個(gè)句子如果像語(yǔ)言模型一樣逐詞輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中的話,我們就會(huì)不斷更新隱狀態(tài),隱狀態(tài)中實(shí)際上就包含了所有輸入過(guò)的詞的信息。到整個(gè)句子輸入完成,我們得到的最后一個(gè)隱狀態(tài)就可以用于表示整個(gè)句子?;谶@個(gè)思想,Cho等人設(shè)計(jì)出了最基本的編碼器-解碼器模型?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-RNNSearch30
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-RNNSearch31這種方法打開(kāi)了雙語(yǔ)/多語(yǔ)任務(wù)上神經(jīng)網(wǎng)絡(luò)架構(gòu)的新思路,但是其局限也是非常突出的:一個(gè)句子不管多長(zhǎng),都被強(qiáng)行壓縮成到一個(gè)固定不變的向量上。源語(yǔ)言句子越長(zhǎng),壓縮過(guò)程丟失的信息就越多。此外,越靠近句子末端的詞,進(jìn)入上下文向量的信息就越多,而越前面的詞其信息就越加被模糊和淡化。這時(shí)候,人們想起了統(tǒng)計(jì)機(jī)器翻譯中的一個(gè)重要概念——詞對(duì)齊模型。能否在神經(jīng)機(jī)器翻譯中也引入類似的機(jī)制呢?統(tǒng)計(jì)機(jī)器翻譯中的詞對(duì)齊是一個(gè)二元的、離散的概念,即源語(yǔ)言詞與目標(biāo)語(yǔ)言詞要么對(duì)齊,要么不對(duì)齊(盡管這種對(duì)齊是多對(duì)多的關(guān)系)。但是神經(jīng)網(wǎng)絡(luò)是一個(gè)處理連續(xù)浮點(diǎn)值的函數(shù),詞對(duì)齊需要經(jīng)過(guò)一定的變通才能結(jié)合到神經(jīng)網(wǎng)絡(luò)中?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-RNNSearch32
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)-RNNSearch33
第四節(jié)基于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)35卷積序列到序列(ConvSeq2Seq)很長(zhǎng)一段時(shí)間里,循環(huán)神經(jīng)網(wǎng)絡(luò)都是自然語(yǔ)言處理領(lǐng)域的主流框架。但它的弱點(diǎn)也是顯而易見(jiàn)的:循環(huán)神經(jīng)網(wǎng)絡(luò)中,下一時(shí)步的隱狀態(tài)總是取決于上一時(shí)步的隱狀態(tài),這就使得計(jì)算無(wú)法并行化,而只能逐時(shí)步地按順序計(jì)算。在這樣的背景之下,人們提出了使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)替代編碼器解碼器架構(gòu)中的循環(huán)單元,使得整個(gè)序列可以同時(shí)被計(jì)算。但是,這樣的方案也有它固有的問(wèn)題:首先,卷積神經(jīng)網(wǎng)絡(luò)只能捕捉到固定大小窗口的上下文信息,這與我們想要捕捉序列中長(zhǎng)距離依賴關(guān)系的初衷背道而馳;其次,循環(huán)依賴被取消之后,如何在建模中捕捉詞語(yǔ)詞之間的順序關(guān)系也是一個(gè)不能繞開(kāi)的問(wèn)題?;诰矸e神經(jīng)網(wǎng)絡(luò)的架構(gòu)36
基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)37卷積序列到序列(ConvSeq2Seq)基于卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)38
第五節(jié)基于Tansformer的架構(gòu)基于Transformer的架構(gòu)在2014-2017年間,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的Seq2Seq在機(jī)器翻譯以及其他序列任務(wù)上占據(jù)了絕對(duì)的主導(dǎo)地位,編碼器-解碼器架構(gòu)以及注意力機(jī)制的各種變體被研究者反復(fù)探索。盡管循環(huán)神經(jīng)網(wǎng)絡(luò)不能并行計(jì)算是一個(gè)固有的限制,但似乎一些對(duì)于可以并行計(jì)算的網(wǎng)絡(luò)架構(gòu)的探索并沒(méi)有取得在模型效果上特別顯著的提升(例如上一節(jié)所提及的ConvSeq2Seq)。卷積神經(jīng)網(wǎng)絡(luò)在效果上總體比不過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)是有原因的:不管怎樣設(shè)計(jì)卷積單元,它所吸收的信息永遠(yuǎn)是來(lái)自于一個(gè)固定大小的窗口。這就使得研究者陷入了兩難的尷尬境地:循環(huán)神經(jīng)網(wǎng)絡(luò)缺乏并行能力,卷積神經(jīng)網(wǎng)絡(luò)不能很好地處理變長(zhǎng)的序列。40基于Transformer的架構(gòu)41最初的多層感知機(jī)時(shí)代:多層感知機(jī)對(duì)于各神經(jīng)元是并行計(jì)算的。但是那個(gè)時(shí)候,多層感知機(jī)對(duì)句子進(jìn)行編碼效果不理想的原因有幾個(gè):1)如果所有的詞向量都共享一個(gè)權(quán)值矩陣,那么我們無(wú)從知道詞之間的位置關(guān)系。2)如果給每個(gè)位置的詞向量使用不同的權(quán)值矩陣,由于全連接的神經(jīng)網(wǎng)絡(luò)只能接受固定長(zhǎng)度的輸入,這就導(dǎo)致了8.2中所提到的語(yǔ)言模型只能取固定大小窗口里的詞作為輸入。3)全連接層的矩陣相乘計(jì)算開(kāi)銷非常大。4)全連接層有梯度消失/梯度爆炸的問(wèn)題,使得網(wǎng)絡(luò)難以訓(xùn)練,在深層網(wǎng)絡(luò)中抽取特征的效果也不理想?;赥ransformer的架構(gòu)42隨著深度神經(jīng)網(wǎng)絡(luò)火速發(fā)展了幾年,各種方法和技巧都被開(kāi)發(fā)和探索,使得上述問(wèn)題被逐一解決:nvSeq2Seq中的位置向量為表示詞的位置關(guān)系提供了可并行化的可能性。注意力機(jī)制的出現(xiàn),使得變長(zhǎng)的序列可以根據(jù)注意力權(quán)重來(lái)對(duì)序列中的元素加權(quán)平均,得到一個(gè)定長(zhǎng)的向量;而這樣的加權(quán)平均又比簡(jiǎn)單的算術(shù)平均能保留更多的信息,最大程度上避免了壓縮所帶來(lái)的信息損失。由于序列通過(guò)注意力機(jī)制可以被有效地壓縮成為向量,在進(jìn)行線性變換的時(shí)候,矩陣相乘的計(jì)算量大大減少。在橫向上,循環(huán)單元中的門(mén)限機(jī)制有效地緩解了梯度消失以及梯度爆炸的問(wèn)題;在縱向上,計(jì)算機(jī)視覺(jué)中的殘差連接網(wǎng)絡(luò)提供了非常好的解決思路,使得深層網(wǎng)絡(luò)疊加后的訓(xùn)練成為可能。基于Transformer的架構(gòu)43于是,在2017年年中的時(shí)候,Google在NIPS上發(fā)表的一篇論文翻開(kāi)了自然語(yǔ)言處理的新一頁(yè)。這篇論文就是本章要介紹的最后一篇?jiǎng)潟r(shí)代的經(jīng)典論文–AttentionIsAllYouNeed。這篇文章發(fā)表后不到一年時(shí)間里,曾經(jīng)如日中天的各種循環(huán)神經(jīng)網(wǎng)絡(luò)模型悄然淡出,基于Transformer架構(gòu)的模型橫掃各項(xiàng)自然語(yǔ)言處理任務(wù)。在這篇論文中,作者提出了一種全新的神經(jīng)機(jī)器翻譯網(wǎng)絡(luò)架構(gòu)–Transformer。它沿襲RNNSearch中的編碼器-解碼器框架,但取消了所有的循環(huán)單元,取而代之的是可以并行的Transformer編碼器單元/解碼器單元。這樣一來(lái),模型中就沒(méi)有了循環(huán)連接,每一個(gè)單元的計(jì)算就不需要依賴于前一個(gè)時(shí)步的單元,使這個(gè)句子中每一個(gè)詞的編碼器/解碼器單元在理論可以同時(shí)計(jì)算。因此,這個(gè)模型在計(jì)算效率上能比循環(huán)神經(jīng)網(wǎng)絡(luò)快一個(gè)數(shù)量級(jí)。基于Transformer的架構(gòu)44
多頭注意力45注意力在整個(gè)Transformer架構(gòu)中處于核心地位。在Transformer架構(gòu)中,注意力一開(kāi)始被引入神經(jīng)機(jī)器翻譯是以軟性詞對(duì)齊機(jī)制的形式。對(duì)于注意力機(jī)制一個(gè)比較直觀的解釋是:某個(gè)目標(biāo)語(yǔ)言詞對(duì)于每一個(gè)源語(yǔ)言詞具有多少注意力。我們可以把這個(gè)注意力的計(jì)算過(guò)程當(dāng)成一個(gè)查詢的過(guò)程:假設(shè)有一個(gè)由一些鍵-值對(duì)組成的映射,給出一個(gè)查詢,根據(jù)這個(gè)查詢與每個(gè)鍵的關(guān)系,得到每個(gè)值應(yīng)得到的權(quán)重,然后把這些值加權(quán)平均。在RNNSearch的注意力機(jī)制中,查詢就是這個(gè)目標(biāo)詞,鍵和值是相同的,是源語(yǔ)言句子中的詞。多頭注意力46如果查詢、鍵、值都相同呢?直觀地說(shuō),就是一個(gè)句子中的詞對(duì)于句子中其他詞的注意力。在Transformer中,這就是自注意力機(jī)制。這種自注意力可以用來(lái)對(duì)源語(yǔ)言句子進(jìn)行編碼,由于每個(gè)位置的詞作為查詢時(shí),查到的結(jié)果是這個(gè)句子中所有詞的加權(quán)平均結(jié)果,因此這個(gè)結(jié)果向量中不僅包含了它本身的信息,還含有它與其他詞的關(guān)系信息。這樣就具有了和循環(huán)神經(jīng)網(wǎng)絡(luò)類似的效果——捕捉句子中詞的依賴關(guān)系。它甚至比循環(huán)神經(jīng)網(wǎng)絡(luò)在捕捉長(zhǎng)距離依賴關(guān)系中做得更好,因?yàn)榫渲械拿恳粋€(gè)詞都有和其他所有詞直接連接的機(jī)會(huì),而循環(huán)神經(jīng)網(wǎng)絡(luò)中距離遠(yuǎn)的兩個(gè)詞之間只能隔著許多時(shí)步傳遞信號(hào),每一個(gè)時(shí)步都會(huì)減弱這個(gè)信號(hào)。多頭注意力47
多頭注意力48到目前為止,注意力機(jī)制計(jì)算出來(lái)的只有一組權(quán)重??墒钦Z(yǔ)言是一種高度抽象的表達(dá)系統(tǒng),包含著各種不同層次和不同方面的信息,同一個(gè)詞也許在不同層次上就應(yīng)該具有不同的權(quán)重。怎么樣來(lái)抽取這種不同層次的信息呢?Transformer有一個(gè)非常精巧的設(shè)計(jì)——多頭注意力,其結(jié)構(gòu)如圖所示。多頭注意力
非參位置編碼在ConvSeq2Seq中,作者引入了位置向量來(lái)捕捉詞語(yǔ)詞之間的位置關(guān)系。這種位置向量與詞向量類似,都是網(wǎng)絡(luò)中的參數(shù),是在訓(xùn)練中得到的。但是這種將位置向量參數(shù)化的做法的短處也非常明顯。我們知道句子都是長(zhǎng)短不一的,假設(shè)大部分句子至少有5個(gè)詞以上,只有少部分句子超過(guò)50個(gè)詞,那么第1到第5個(gè)位置的位置向量訓(xùn)練樣例就非常多,第51個(gè)詞之后的位置向量可能在整個(gè)語(yǔ)料庫(kù)中都見(jiàn)不到幾個(gè)訓(xùn)練樣例。這也就是說(shuō)越往后的位置有詞的概率越低,訓(xùn)練就越不充分。由于位置向量本身是參數(shù),數(shù)量是有限的,因此超出最后一個(gè)位置的詞無(wú)法獲得位置向量。例如訓(xùn)練的時(shí)候,最長(zhǎng)句子長(zhǎng)度設(shè)置為100,那么就只有100個(gè)位置向量,如果在翻譯中遇到長(zhǎng)度是100以上的句子就只能截?cái)嗔?。非參位置編碼
編碼器單元與解碼器單元在Transformer中,每一個(gè)詞都會(huì)被堆疊起來(lái)的一些編碼器單元所編碼。Transformer的結(jié)構(gòu)如圖所示,一個(gè)編碼器單元中有兩層,第一層是多頭的自注意力層,第二層是全連接層,每一層都加上了殘差連接和層歸一化。注意力+全連接的組合給特征抽取提供了足夠的自由度,而殘差連接和層歸一化又讓網(wǎng)絡(luò)參數(shù)更加容易訓(xùn)練。第五節(jié)表示學(xué)習(xí)與預(yù)訓(xùn)練技術(shù)表示學(xué)習(xí)與預(yù)訓(xùn)練技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域,一個(gè)常用的提升訓(xùn)練數(shù)據(jù)效率的方法就是把一些在ImageNet或其他任務(wù)上預(yù)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)層共享應(yīng)用到目標(biāo)任務(wù)上,這些被共享的網(wǎng)絡(luò)層被稱為backbone。使用預(yù)訓(xùn)練的好處在于,如果某項(xiàng)任務(wù)的數(shù)據(jù)非常少,且和其他任務(wù)有相似之處,就可以利用在其他任務(wù)中學(xué)習(xí)到的知識(shí),從而減少對(duì)某一任務(wù)專用標(biāo)注數(shù)據(jù)的需求,這種共享的知識(shí)往往是某種通用的常識(shí)。自然語(yǔ)言中也有許多可以共享的特征表示,例如基礎(chǔ)詞匯和語(yǔ)法結(jié)構(gòu),那么目標(biāo)領(lǐng)域的模型就只需要在預(yù)訓(xùn)練好的特征表示之基礎(chǔ)上針對(duì)目標(biāo)任務(wù)或目標(biāo)領(lǐng)域進(jìn)行少量數(shù)據(jù)訓(xùn)練,即可達(dá)到良好效果。這種抽取可共享特征表示的機(jī)器學(xué)習(xí)算法被稱為表示學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)本身就是一個(gè)強(qiáng)大的特征抽取工具,在自然語(yǔ)言和視覺(jué)領(lǐng)域,神經(jīng)網(wǎng)絡(luò)都是進(jìn)行表示學(xué)習(xí)的有效工具。詞向量自然語(yǔ)言中,一個(gè)比較直觀的、規(guī)模適合計(jì)算機(jī)處理的語(yǔ)言單位就是詞。如果詞的語(yǔ)言特征能在各任務(wù)上共享,這將是一個(gè)通用的特征表示。因此詞嵌入(WordEmbedding)至今都是一個(gè)在自然處理領(lǐng)域重要的概念。在早期的研究中,詞向量往往是通過(guò)在大規(guī)模單語(yǔ)語(yǔ)料上預(yù)訓(xùn)練一些語(yǔ)言模型得到的;而這些預(yù)訓(xùn)練好的詞向量通常被用來(lái)初始化一些數(shù)據(jù)稀少的任務(wù)的模型中的詞向量,這種利用預(yù)訓(xùn)練詞向量初始化的做法在詞性標(biāo)注、語(yǔ)法分析乃至句子分類中都有著明顯的效果提升作用。早期的一個(gè)典型的預(yù)訓(xùn)練詞向量代表就是Word2Vec。Word2Vec的網(wǎng)絡(luò)架構(gòu)是之前介紹的基于多層感知機(jī)的架構(gòu),本質(zhì)上都是通過(guò)一個(gè)上下文窗口的詞來(lái)預(yù)測(cè)某一個(gè)位置的詞,它們的特點(diǎn)是局限于全連接網(wǎng)絡(luò)的固定維度限制,只能得到固定大小的上下文。詞向量Word2VecWord2Vec的預(yù)訓(xùn)練方法主要依賴于語(yǔ)言模型。它的預(yù)訓(xùn)練主要基于兩種思想:第一種是通過(guò)上下文(如句子中某個(gè)位置前幾個(gè)詞和后幾個(gè)詞)來(lái)預(yù)測(cè)當(dāng)前位置的詞,這種方法被稱為ContinuousBag-of-Words。詞向量Word2Vec第二種思想是通過(guò)當(dāng)前詞來(lái)預(yù)測(cè)上下文,被稱為Skip-gram詞向量Word2Vec這種預(yù)訓(xùn)練技術(shù)被證明是有效的:一方面,使用Word2Vec作為其他語(yǔ)言任務(wù)的詞嵌入初始化成了一項(xiàng)通用的技巧;另一方面,Word2Vec詞向量的可視化結(jié)果表明,它確實(shí)學(xué)習(xí)到了某種層次的語(yǔ)義。加入上下文信息的特征表示詞向量部分中的特征表示有兩個(gè)明顯的不足:首先,它局限于某個(gè)詞的有限大小窗口中的上下文,這限制了它捕捉長(zhǎng)距離依賴關(guān)系的能力;更重要的,它的每一個(gè)詞向量都是在預(yù)訓(xùn)練之后就被凍結(jié)了的,而不會(huì)根據(jù)使用時(shí)的上下文改變,而自然語(yǔ)言一個(gè)非常常見(jiàn)的特征就是多義詞。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu)中提到,加入長(zhǎng)距離上下文信息的一個(gè)有效辦法就是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的架構(gòu);如果我們利用這個(gè)架構(gòu)在下游任務(wù)中根據(jù)上下文實(shí)時(shí)生成特征表示,那么就可以在相當(dāng)程度上緩解多義詞的局限。在這種思想下利用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)獲得動(dòng)態(tài)上下文的工作不少,例如CoVe,Context2Vec,ULMFiT等。其中較為簡(jiǎn)潔而又具有代表性的就是ElMo。加入上下文信息的特征表示循環(huán)神經(jīng)網(wǎng)絡(luò)使用的一個(gè)常見(jiàn)技巧就是雙向循環(huán)單元:包括ElMo在內(nèi)的這些模型都采取了雙向的循環(huán)神經(jīng)網(wǎng)絡(luò)(BiLSTM或BiGRU),將一個(gè)位置的正向和反向的循環(huán)單元狀態(tài)拼接起來(lái),得到這個(gè)位置的詞的帶有上下文的詞向量(Context-aware)。循環(huán)神經(jīng)網(wǎng)絡(luò)使用的另一個(gè)常見(jiàn)技巧就是網(wǎng)絡(luò)層疊加,下一層的網(wǎng)絡(luò)輸出作為上一層的網(wǎng)絡(luò)輸入,或者所有下層網(wǎng)絡(luò)的輸出作為上一層網(wǎng)絡(luò)的輸入,這樣做可以使重要的下層特征易于傳到上層。ElMo的結(jié)構(gòu)如圖所示。加入上下文信息的特征表示除了把雙向多層循環(huán)神經(jīng)網(wǎng)絡(luò)利用到極致以外,ElMo相比于早期的詞向量方法還有其他關(guān)鍵改進(jìn):首先,它除了在大規(guī)模單語(yǔ)語(yǔ)料上訓(xùn)練語(yǔ)言模型的任務(wù)以外,還加入了其他的訓(xùn)練任務(wù)用于調(diào)優(yōu)(Fine-tuning)。這使得預(yù)訓(xùn)練中捕捉到的語(yǔ)言特征更為全面,層次更為豐富;其次,相比于Word2Vec的靜態(tài)詞向量,它采取了動(dòng)態(tài)生成的辦法:下游任務(wù)的序列先拿到預(yù)訓(xùn)練好的ElMo中跑一遍,然后取到ElMo里各層循環(huán)神經(jīng)網(wǎng)絡(luò)的狀態(tài)拼接在一起,最后才喂給下游任務(wù)的網(wǎng)絡(luò)架構(gòu)。這樣雖然開(kāi)銷大,但下游任務(wù)得到的輸入就是帶有豐富的動(dòng)態(tài)上下文的詞特征表示,而不再是靜態(tài)的詞向量。網(wǎng)絡(luò)預(yù)訓(xùn)練前面所介紹的預(yù)訓(xùn)練技術(shù)主要思想是特征抽?。‵eatureExtraction),通過(guò)使用更為合理和強(qiáng)大的特征抽取器,盡可能使抽取到的每一個(gè)詞的特征變深(多層次的信息)和變寬(長(zhǎng)距離依賴信息),然后將這些特征作為下游任務(wù)的輸入。Transformer網(wǎng)絡(luò)架構(gòu)的誕生,使得各種不同任務(wù)都可以非常靈活地被一個(gè)通用的架構(gòu)建模:我們可以把所有自然語(yǔ)言處理任務(wù)的輸入都看成序列。只要在序列的特定位置加入特殊符號(hào),由于Transformer具有等長(zhǎng)序列到序列的特點(diǎn),并且經(jīng)過(guò)多層疊加之后序列中各位置信息可以充分交換和推理,特殊符號(hào)處的頂層輸出可以被看作包含整個(gè)序列(或多個(gè)序列)的特征,用于各項(xiàng)任務(wù)。網(wǎng)絡(luò)預(yù)訓(xùn)練網(wǎng)絡(luò)預(yù)訓(xùn)練Transformer這種靈活的結(jié)構(gòu)使得它除了頂層的激活層網(wǎng)絡(luò)以外,下層所有網(wǎng)絡(luò)可以被多種不同的下游任務(wù)共用。舉一個(gè)也許不大恰當(dāng)?shù)谋扔?,它就像圖像任務(wù)中的ResNet等”backbone”一樣,作為語(yǔ)言任務(wù)的”backbone”在大規(guī)模高質(zhì)量的語(yǔ)料上訓(xùn)練好之后,或通過(guò)Fine-tune,或通過(guò)Adapter方法,直接被下游任務(wù)所使用。這種網(wǎng)絡(luò)預(yù)訓(xùn)練的方法,被最近非常受歡迎的GPT和BERT所采用。網(wǎng)絡(luò)預(yù)訓(xùn)練GenerativePretrainedTransformer(GPT),如圖所示,其本質(zhì)是生成式語(yǔ)言模型。由于生成式語(yǔ)言模型的自回歸特點(diǎn)GPT是我們非常熟悉的傳統(tǒng)的單向語(yǔ)言模型,“預(yù)測(cè)下一個(gè)詞”。GPT在語(yǔ)言模型任務(wù)上訓(xùn)練好之后,就可以針對(duì)下游任務(wù)進(jìn)行調(diào)優(yōu)了。由于前面提到Transformer架構(gòu)靈活,GPT幾乎可以適應(yīng)任意的下游任務(wù)。網(wǎng)絡(luò)預(yù)訓(xùn)練Bi-direction
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度房屋贈(zèng)與及環(huán)境監(jiān)測(cè)服務(wù)合同
- 幼兒園教師聘用合同(2025年度)附幼兒教育創(chuàng)新項(xiàng)目合作
- 2025年度水稻種植回收與農(nóng)業(yè)市場(chǎng)風(fēng)險(xiǎn)管理合同
- 二零二五年度文化產(chǎn)業(yè)集團(tuán)股份轉(zhuǎn)讓與文化衍生品開(kāi)發(fā)協(xié)議
- 二零二五年度農(nóng)民工工資代付與工程進(jìn)度掛鉤合同
- 共青團(tuán)入團(tuán)知識(shí)培訓(xùn)課件
- 2025年梁上打孔工程消防責(zé)任免除協(xié)議
- 二零二五年度土地流轉(zhuǎn)與農(nóng)業(yè)廢棄物資源化利用合同
- 2025遼寧大連融金征信服務(wù)選聘8人筆試參考題庫(kù)附帶答案詳解
- 2025江蘇無(wú)錫市宜興市宜能實(shí)業(yè)有限公司招聘線路設(shè)計(jì)輔助人員2人筆試參考題庫(kù)附帶答案詳解
- 小升初閱讀理解專題課件
- 血漿吸附療法課件
- 人教部編版九年級(jí)下冊(cè)歷史第四單元 經(jīng)濟(jì)大危機(jī)和第二次世界大戰(zhàn)單元測(cè)試題
- 個(gè)人理財(cái)實(shí)務(wù)教學(xué)課件
- (完整版)新版PEP小學(xué)英語(yǔ)五年級(jí)下冊(cè)教材分析
- 第2講 麥克斯韋方程組
- 研發(fā)經(jīng)費(fèi)填報(bào)指標(biāo)說(shuō)明及核算方法
- 一年級(jí)思維訓(xùn)練(課堂PPT)
- 綠色光年20162017雙上海閔行區(qū)江川綠色光
- GB_T 27025-2019 檢測(cè)和校準(zhǔn)實(shí)驗(yàn)室能力的通用要求(高清版)
- 菊花深加工項(xiàng)目可行性研究報(bào)告寫(xiě)作范文
評(píng)論
0/150
提交評(píng)論