畢業(yè)設(shè)計(jì)外文資料翻譯-用于建模句子的卷積神經(jīng)網(wǎng)絡(luò)_第1頁(yè)
畢業(yè)設(shè)計(jì)外文資料翻譯-用于建模句子的卷積神經(jīng)網(wǎng)絡(luò)_第2頁(yè)
畢業(yè)設(shè)計(jì)外文資料翻譯-用于建模句子的卷積神經(jīng)網(wǎng)絡(luò)_第3頁(yè)
畢業(yè)設(shè)計(jì)外文資料翻譯-用于建模句子的卷積神經(jīng)網(wǎng)絡(luò)_第4頁(yè)
畢業(yè)設(shè)計(jì)外文資料翻譯-用于建模句子的卷積神經(jīng)網(wǎng)絡(luò)_第5頁(yè)
已閱讀5頁(yè),還剩35頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

畢業(yè)設(shè)計(jì)外文資料翻譯學(xué)院:專業(yè)班級(jí):學(xué)生姓名:學(xué)號(hào):指導(dǎo)教師:外文出處:AConvolutionNeuralNetworkforModellingSentences附件:1.外文資料翻譯譯文;2.外文原文指導(dǎo)教師評(píng)語(yǔ):該英文材料與畢業(yè)設(shè)計(jì)專業(yè)相關(guān)度高。專業(yè)術(shù)語(yǔ)、詞匯翻譯的準(zhǔn)確率高,體現(xiàn)了較強(qiáng)的專業(yè)英語(yǔ)應(yīng)用水平。譯文準(zhǔn)確,質(zhì)量較好,能正確表達(dá)出原文意思。簽名:Q2015年10月14日

1.外文資料翻譯譯文用于建模句子的卷積神經(jīng)網(wǎng)絡(luò)摘要能夠準(zhǔn)確地代表句子是語(yǔ)言理解的核心。我們描述一個(gè)回旋的結(jié)構(gòu)被稱為動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)(DCNN),我們采用語(yǔ)義建模的句子。網(wǎng)絡(luò)使用動(dòng)態(tài)k-max池、全球池操作在線性序列。網(wǎng)絡(luò)處理輸入可變長(zhǎng)度的句子和誘發(fā)特性圖明確的句子能夠捕捉短期和長(zhǎng)期的關(guān)系。網(wǎng)絡(luò)不依賴于一個(gè)解析樹(shù),很容易適用于任何語(yǔ)言。我們?cè)谒膫€(gè)實(shí)驗(yàn):測(cè)試DCNN小規(guī)模二進(jìn)制和多級(jí)情緒預(yù)測(cè),六方問(wèn)題分類和Twitter情緒預(yù)測(cè)到遙遠(yuǎn)的監(jiān)督。網(wǎng)絡(luò)實(shí)現(xiàn)性能優(yōu)良的三個(gè)任務(wù),運(yùn)用誤差減少25%在過(guò)去的任務(wù)對(duì)最強(qiáng)的基線。1介紹句子模型的目的是分析和表示一個(gè)句子的語(yǔ)義內(nèi)容為目的的分類或生成。這個(gè)句子建模的核心問(wèn)題是許多任務(wù)涉及自然語(yǔ)言理解的程度。暗含這些任務(wù)包括情緒分析、解釋檢測(cè)、識(shí)別、概括、話語(yǔ)分析、機(jī)器翻譯、基礎(chǔ)語(yǔ)言學(xué)習(xí)和圖像檢索。因?yàn)閱蝹€(gè)句子很少或者根本不觀察觀察,一個(gè)人必須代表一個(gè)句子的功能取決于句子中的單詞和短字格經(jīng)常被觀察到。一個(gè)句子的核心模型包括一個(gè)功能函數(shù),定義了過(guò)程貓坐在紅色的墊子上圖1:特征圖的子圖在一個(gè)輸入句子在動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)。完整的誘導(dǎo)圖有多個(gè)這樣的子圖表現(xiàn)出了不同的邊緣;子圖可以在不同層合并。左側(cè)圖強(qiáng)調(diào)了匯聚節(jié)點(diǎn)。卷積過(guò)濾器的寬度分別為3和2。有了動(dòng)態(tài)池,一個(gè)過(guò)濾器與小寬度較高圖層可以在輸入句子相距甚遠(yuǎn)有關(guān)的短語(yǔ)由哪些句子的特征提取的特征的詞或字格。各種類型的模型的意義。成分為基礎(chǔ)的方法已經(jīng)應(yīng)用于矢量表示詞義獲得同現(xiàn)統(tǒng)計(jì)獲得向量時(shí)間短語(yǔ)。在某些情況下,組成由代數(shù)操作定義在詞義向量生成句子意思向量(Erk和Pado,2008;Mitchell和Lapata,2008;Mitchell和Lapata,2010;Turney,2012;Erk,2012;Clarke,2012)。在其他情況下,復(fù)合函數(shù)是學(xué)習(xí)和與特定的語(yǔ)法關(guān)系(Guevara,2010;Zanzottoetal.,2010)或特定詞類型(Baroni和Zamparelli,2010;Coeckeetal.,2010;Grefenstette和Sadrzadeh,2011;Kartsaklis和Sadrzadeh,2013;Grefenstette,2013)。另一種方法是句子的意義通過(guò)自動(dòng)提取邏輯形式(Zettlemoyer和Collins,2005)。模型的核心類是基于神經(jīng)網(wǎng)絡(luò)。這些范圍從基本的神經(jīng)bag-of-words或bag-of-n-grams模型更加結(jié)構(gòu)化的遞歸神經(jīng)網(wǎng)絡(luò)和時(shí)滯神經(jīng)網(wǎng)絡(luò)基于卷積操作(Collobert和Weston,2008;Socheretal.,2011;Kalchbrenner和Blunsom,2013b)。神經(jīng)句子模型有許多優(yōu)勢(shì)。他們可以被訓(xùn)練來(lái)獲取通用矢量預(yù)測(cè)單詞和短語(yǔ),例如,沙這個(gè)詞短語(yǔ)出現(xiàn)的上下文。通過(guò)監(jiān)督訓(xùn)練,神經(jīng)句子向量模型可以隨時(shí)調(diào)整這些設(shè)置特定于某個(gè)任務(wù)的信息。除了組成強(qiáng)大的分類器作為建筑的一部分,神經(jīng)句子模型可以用于條件神經(jīng)語(yǔ)言模型來(lái)逐字生成句子(Schwenk,2012;Mikolov和Zweig,2012;Kalchbrenner和Blunsom,2013a)。我們定義了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)和應(yīng)用到句子的語(yǔ)義建模。網(wǎng)絡(luò)處理輸入可變長(zhǎng)度的序列。在網(wǎng)絡(luò)層交錯(cuò)一維卷積層和動(dòng)態(tài)k-max池層。動(dòng)態(tài)k-max池一般是最大池的算子。馬克斯池操作符是一個(gè)非線性二次抽樣函數(shù)返回一組值的最大(LeCunetal.,1998)。操作員是普遍在兩個(gè)方面。首先,k-max池在k的線性序列的值返回子序列中的最大值,而不是單一的最大價(jià)值。其次,池參數(shù)k可以動(dòng)態(tài)地選擇通過(guò)k函數(shù)網(wǎng)絡(luò)或其他方面的輸入。應(yīng)用一維卷積層過(guò)濾器在句子中的功能矩陣的每一行。卷積同一過(guò)濾器語(yǔ)法的句子中每個(gè)位置允許特性提取獨(dú)立在句子中的位置。卷積的一層接著一個(gè)動(dòng)態(tài)池層和一種非線性特性映射。的卷積網(wǎng)絡(luò)對(duì)象識(shí)別(LeCunetal.,1998),益智表示在第一層通過(guò)計(jì)算多個(gè)特征圖譜與不同的過(guò)濾器應(yīng)用于輸入的句子。后續(xù)層也有多個(gè)特征圖譜計(jì)算卷積過(guò)濾器的地圖從下面的層。在這些層形成一個(gè)權(quán)重然后張量。由此產(chǎn)生的建筑被稱為動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)。多層次的卷積和動(dòng)態(tài)池操作引起輸入句子結(jié)構(gòu)特性圖。圖1說(shuō)明了這樣一個(gè)圖。小過(guò)濾器在更高層次可以捕獲句法或語(yǔ)義關(guān)系遠(yuǎn)的非連續(xù)短語(yǔ)輸入句子。功能圖誘發(fā)的層次結(jié)構(gòu)有點(diǎn)類似于在一個(gè)語(yǔ)法解析樹(shù)。不是與純粹的語(yǔ)法結(jié)構(gòu)關(guān)系和內(nèi)部的神經(jīng)網(wǎng)絡(luò)。我們與網(wǎng)絡(luò)實(shí)驗(yàn)四個(gè)設(shè)置。前兩個(gè)實(shí)驗(yàn)涉及預(yù)測(cè)影評(píng)的情緒(Socheretal.,2013b)。網(wǎng)絡(luò)優(yōu)于其他方法在二進(jìn)制和多級(jí)實(shí)驗(yàn)。第三個(gè)實(shí)驗(yàn)涉及的分類問(wèn)題在六個(gè)問(wèn)題類型在TREC數(shù)據(jù)集(Li和Roth,2002)。網(wǎng)絡(luò)匹配其他先進(jìn)的方法的準(zhǔn)確性是基于大量工程特性和手工編碼的知識(shí)資源。第四次實(shí)驗(yàn)涉及到預(yù)測(cè)Twitter發(fā)布使用的情緒遙遠(yuǎn)的監(jiān)督(Goetal.,2009)。網(wǎng)絡(luò)訓(xùn)練160萬(wàn)微博標(biāo)簽自動(dòng)根據(jù)發(fā)生在他們的表情符號(hào)。在手工標(biāo)記的測(cè)試裝置,該網(wǎng)絡(luò)實(shí)現(xiàn)的預(yù)測(cè)誤差減少大于25%,相對(duì)于在Go等報(bào)道的最強(qiáng)單字組和兩字組基線(2009)。論文的大綱如下。第二部分描述了背景DCNN包括核心概念和相關(guān)神經(jīng)句子模式。第三節(jié)定義了相關(guān)的運(yùn)營(yíng)商和網(wǎng)絡(luò)的層。第四部分對(duì)誘導(dǎo)特性圖和其他網(wǎng)絡(luò)的性質(zhì)。第五節(jié)討論了實(shí)驗(yàn)和探測(cè)器檢查學(xué)特性。2背景形成的層的DCNN卷積操作池操作緊隨其后。我們首先回顧相關(guān)的神經(jīng)句子模式。然后我們描述一維卷積和古典的操作時(shí)間延遲神經(jīng)網(wǎng)絡(luò)(TDNN)(Hinton,1989;Waibeletal.,1990)。通過(guò)添加一個(gè)最大匯聚層網(wǎng)絡(luò),TDNN可以作為一個(gè)句子模型(Collobert和Weston,2008)。2.1相關(guān)的神經(jīng)句子模型各種神經(jīng)句子模型描述。基本句子的一般類模型是神經(jīng)詞袋(NBoW)模型。這些通常由一個(gè)投影層映射的話,子詞單位或者n元模型高維映射進(jìn)行;后者會(huì)結(jié)合特定組件的操作如求和。結(jié)果結(jié)合向量是通過(guò)一個(gè)或多個(gè)分類完全連接層。一個(gè)采用更一般的結(jié)構(gòu)提供的外部解析樹(shù)的模型就是遞歸神經(jīng)網(wǎng)絡(luò)(RecNN)(Pollack,1990;KiiuchlerandGoller,1996;Socheretal.,2011;HermannandBlunsom,2013)。在上下文樹(shù)中的每個(gè)節(jié)點(diǎn)的左和右孩子節(jié)點(diǎn)由古典結(jié)合層。層的權(quán)重在樹(shù)上所有節(jié)點(diǎn)共享。頂部的層計(jì)算節(jié)點(diǎn)表示句子。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是一個(gè)遞歸網(wǎng)絡(luò)的特殊情況,隨后的結(jié)構(gòu)是一個(gè)簡(jiǎn)單的線性鏈(GersandSchmidhuber,2001;Mikolovetal.,2011)。RNN的主要用途是作為語(yǔ)言模型,但也可能被視為一個(gè)句子模型與線性結(jié)構(gòu)。層計(jì)算在最后一句話代表了句子。最后,進(jìn)一步類模型是基于卷積操作和TDNN架構(gòu)(Collobert和Weston,2008;Kalchbrenner和Blunsom,2013b)。這些模型中使用某些概念核心DCNN接下來(lái)我們描述他們。2.2卷積一維卷積是一個(gè)操作之間的權(quán)重向量和向量輸入視為一個(gè)序列。向量m是卷積的過(guò)濾器。具體地說(shuō),我們認(rèn)為作為輸入的句子,是一個(gè)特征值與句子中的第i個(gè)單詞聯(lián)系在一起。一維卷積背后的想法是矢量的點(diǎn)積米與句子中的每個(gè)m-gram秒獲得另一個(gè)序列c:(1)方程1產(chǎn)生兩種類型的卷積的范圍取決于該指數(shù)j。卷積的狹窄類型要求和產(chǎn)量圖2:狹窄和廣泛類型的卷積。過(guò)濾器尺寸m=5。序列與j從m到s。卷積的廣泛類型沒(méi)有要求或m和收益率序列的指數(shù)j范圍從1到s+m?1。超出范圍的輸入值,i<1或者i>s為零。然后箭頭卷積的結(jié)果是一個(gè)廣泛的卷積的結(jié)果的子序列。這兩種類型的一維卷積圖2中所示。過(guò)濾器的訓(xùn)練重量m對(duì)應(yīng)語(yǔ)言特征檢測(cè)器-gram,學(xué)會(huì)識(shí)別一個(gè)特定的類。這些語(yǔ)法刮胡子大小,m是濾波器的寬度。在廣泛應(yīng)用權(quán)重m卷積有一些優(yōu)勢(shì)應(yīng)用在一個(gè)狹窄的。廣泛卷積確保所有過(guò)濾器達(dá)到整個(gè)句子中的權(quán)重,包括單詞的利潤(rùn)率。這是特別重要,當(dāng)m被設(shè)置為一個(gè)相對(duì)較大的值,如8或10。此外,寬卷積保證過(guò)濾器的應(yīng)用m輸入句子s總是產(chǎn)生一個(gè)有效的非空結(jié)果c,獨(dú)立于m和句子的長(zhǎng)度寬度。我們接下來(lái)描述經(jīng)典的卷積TDNN層。2.3時(shí)延神經(jīng)網(wǎng)絡(luò)一個(gè)時(shí)延神經(jīng)網(wǎng)絡(luò)可變序列輸入的一組權(quán)重m。如TDNN因素識(shí)別(Waibeletal.,1990),序列s被視為有一個(gè)時(shí)間維度和時(shí)間維度應(yīng)用卷積。每個(gè)往往不是單個(gè)值,但一個(gè)向量這樣的d值有。同樣,m是一個(gè)矩陣的權(quán)重大小d×m。每一行的m是與相應(yīng)的行和卷積卷積通常是狹窄的類型。多重卷積層可能疊加的結(jié)果序列c作為下一層的輸入。Max-TDNN句子模型是基于的架構(gòu)TDNN(Collobert和Weston,2008)。在模型中,卷積的一層狹窄的類型是應(yīng)用于句子矩陣s,每一列對(duì)應(yīng)的特征向量詞的句子:(2)為了解決這一問(wèn)題的不同句子長(zhǎng)度,Max-TDNN以中的每一行的最大收益率產(chǎn)生的矩陣c值d的向量:(3)目的是捕獲最相關(guān)的特征,即。最高的價(jià)值,為每個(gè)生成的矩陣d行矩陣c。然后使用固定大小的向量作為輸入到一個(gè)完全連接層進(jìn)行分類。最大時(shí)延神經(jīng)網(wǎng)絡(luò)模型有許多可取的屬性。是敏感詞的順序的句子,它不依賴于外部特定于語(yǔ)言的特性,比如依賴性或選區(qū)解析樹(shù)。很大程度上它也給統(tǒng)一的重要信號(hào)來(lái)自每個(gè)單詞的句子,除了文字邊緣,被認(rèn)為是更少的時(shí)候在狹窄的卷積的計(jì)算。但該模型也有一些限制。功能探測(cè)器的范圍僅限于權(quán)重的跨度m。增加m或疊加的多個(gè)卷積層狹窄類型使得特征探測(cè)器的范圍更大,同時(shí)也加劇了忽視句子的利潤(rùn)率,增加輸入句子的最小大小年代所需的卷積。因此高階和遠(yuǎn)程功能探測(cè)器無(wú)法輕易納入模型。馬克斯池操作也有一些缺點(diǎn)。它不能區(qū)分是否發(fā)生相關(guān)特性的一個(gè)行只是一個(gè)或多個(gè)時(shí)間和忘記的順序發(fā)生的特性。更普遍的是,池因子的信號(hào)矩陣的減少同時(shí)對(duì)應(yīng)于s?m+1;即使是s池因子的值可以過(guò)度。下一節(jié)的目的是為了解決這些局限性,同時(shí)保留優(yōu)勢(shì)。3卷積神經(jīng)網(wǎng)絡(luò)與動(dòng)態(tài)k-max池我們模型的句子使用卷積架構(gòu)廣泛回旋的交替層圖3:七個(gè)字的DCNN輸入句子。字嵌入大小d=4。網(wǎng)絡(luò)有兩個(gè)卷積層與兩個(gè)特征圖。過(guò)濾器在兩層的寬度分別為3和2。(動(dòng)態(tài))k-max池5和3層的值k。與動(dòng)態(tài)池層由動(dòng)態(tài)k-max池。網(wǎng)絡(luò)中的功能映射在中間層的寬度變化取決于輸入句子的長(zhǎng)度,由此產(chǎn)生的建筑是動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)。圖3表示一個(gè)DCNN。我們繼續(xù)詳細(xì)描述網(wǎng)絡(luò)。3.1寬的卷積給定一個(gè)輸入句子,獲得第一層的DCNN取嵌入句子中的每個(gè)單詞和句子構(gòu)造矩陣如Eq。2。中的值嵌入中參數(shù)優(yōu)化培訓(xùn)。卷積層網(wǎng)絡(luò)是通過(guò)卷積矩陣的權(quán)重矩陣的激活在下面一層。例如,第二層是通過(guò)應(yīng)用卷積矩陣s句子本身。維d和濾光片寬度m是網(wǎng)絡(luò)的超函數(shù)。我們的操作是寬2.2維運(yùn)算中描述教派。由此產(chǎn)生的矩陣c維d×(s+m?1)。3.2k-Max池我們接下來(lái)描述池操作是一個(gè)概括的最大池在時(shí)間維度Max-TDNN句子中使用的模型和不同的當(dāng)?shù)刈畲蟪夭僮鲬?yīng)用卷積網(wǎng)絡(luò)對(duì)象識(shí)別(LeCunetal.,1998)。給定一個(gè)值k和序列長(zhǎng)度,k-max池選擇k值最高的子序列p。中值的順序?qū)?yīng)于原來(lái)的順序。k-max池操作可以池pk最活躍的特性,可能是很多職位分開(kāi);它保留訂單的功能,但對(duì)他們的具體位置。它還可以辨別更精細(xì)的次數(shù)功能是高度激活p和的高激活功能的發(fā)展變化在p。k-max池運(yùn)營(yíng)商網(wǎng)絡(luò)中應(yīng)用后最上面的卷積層。這可以保證完全連接的輸入層獨(dú)立于輸入句子的長(zhǎng)度。但是,正如我們看到的,在中間卷積層池參數(shù)k是不固定的,但是為了允許動(dòng)態(tài)選擇順利提取高階和遠(yuǎn)程功能。3.3動(dòng)態(tài)的K-max池k-max池操作動(dòng)態(tài)k-max池操作,我們讓k是一個(gè)句子的長(zhǎng)度和深度的函數(shù)的網(wǎng)絡(luò)。盡管許多功能是可能的,我們只是模型池參數(shù)如下:(4)l是當(dāng)前卷積的層數(shù)應(yīng)用池和l是卷積的總數(shù)在網(wǎng)絡(luò)層;是最頂層的固定池參數(shù)卷積層(Sect.3.2)。例如,在一個(gè)網(wǎng)絡(luò)與卷積三層和=3,輸入句子的長(zhǎng)度=18,池參數(shù)在第一層是,在第二層是池參數(shù);第三層有固定池參數(shù)。方程4是一個(gè)模型所需的值的數(shù)量描述11屆的發(fā)展秩序的相關(guān)部分功能在一個(gè)句子長(zhǎng)度的s。在情緒預(yù)測(cè)為例,根據(jù)方程的一階特性如一個(gè)積極詞出現(xiàn)次數(shù)最多的一個(gè)句子長(zhǎng)度s,而二階特性如一個(gè)否定短語(yǔ)或從句發(fā)生在大多數(shù)時(shí)候。3.4非線性特征函數(shù)(動(dòng)態(tài))k-max池后應(yīng)用于卷積的結(jié)果,偏差和非線性函數(shù)g應(yīng)用特定組件的混合矩陣。為每一行有一個(gè)偏差值的混合矩陣。如果我們暫時(shí)忽略池層,我們可能狀態(tài)如何計(jì)算每個(gè)采用列的矩陣后得到的卷積和非線性層。定義M矩陣的對(duì)角線:(5)m的權(quán)重d過(guò)濾器的卷積。之后第一對(duì)卷積和非線性層,每個(gè)列的矩陣方法如下,對(duì)于一些指數(shù)j:(6)這里是一個(gè)列的一階特性。二階特性也同樣運(yùn)用公式6的一階特性矩陣M0和另一個(gè)重量矩陣M0。除非池,公式6代表一個(gè)核心方面的特征提取功能,而一般形式就是我們下面的softmax。通過(guò)池、方差的特性函數(shù)引起的位置,使高階特征變量的范圍。3.5多個(gè)特征圖到目前為止,我們已經(jīng)描述了一個(gè)應(yīng)用廣泛的卷積,(動(dòng)態(tài))k-max池層和非線性函數(shù)輸入句子矩陣獲得一階特征映射。三個(gè)操作可以重復(fù)產(chǎn)生特征圖增加增加深度的秩序和網(wǎng)絡(luò)。我們表示第i階特征圖。作為目標(biāo)識(shí)別在卷積網(wǎng)絡(luò),增加了功能探測(cè)器的秩序,多個(gè)特征圖可能是并行計(jì)算在同一層。每個(gè)特性映射由卷積計(jì)算一組不同的過(guò)濾器安排在一個(gè)矩陣的每個(gè)特性的低階i?1地圖和加法的結(jié)果:(7)*表示寬卷積。權(quán)重形成一個(gè)然后張量。廣泛的卷積后,首先動(dòng)態(tài)k-max池,然后應(yīng)用非線性函數(shù)分別對(duì)每個(gè)地圖。3.6折疊在制定網(wǎng)絡(luò)到目前為止,功能探測(cè)器應(yīng)用于單個(gè)句子的行矩陣s可以有多個(gè)訂單和創(chuàng)建復(fù)雜的依賴關(guān)系在多個(gè)特征圖在相同的行。功能探測(cè)器在不同的行,但是,是相互獨(dú)立的,直到完全連接層。完全依賴不同的行可以通過(guò)情商M。5完整矩陣而不是稀疏矩陣的對(duì)角線。這里我們探索一個(gè)更簡(jiǎn)單的方法稱為折疊不引入任何額外的參數(shù)。卷積后層和前(動(dòng)態(tài))k-max池、一個(gè)金額每?jī)尚械貓D特定組件的一個(gè)特征。的地圖d行,折返回一個(gè)地圖d/2行,因此減半的大小表示。折疊層,第i個(gè)秩序的特征檢測(cè)器現(xiàn)在取決于兩行特性值低的地圖i?1。這個(gè)結(jié)束DCNN的描述。4句子的屬性模型我們基于DCNN描述句子的一些屬性模型。我們描述的概念特性圖誘導(dǎo)在句子的連續(xù)卷積和匯聚層。我們簡(jiǎn)要地與其他神經(jīng)句子模型的屬性。4.1單詞和語(yǔ)法基本屬性之一,是對(duì)輸入句子中的詞的順序。對(duì)于大多數(shù)應(yīng)用程序,為了學(xué)習(xí)細(xì)粒度特征探測(cè)器,它是有利于一個(gè)模型能夠辨別是否一個(gè)特定的語(yǔ)法出現(xiàn)在輸入。同樣,它有利于模型能夠告訴最相關(guān)的字格的相對(duì)位置。網(wǎng)絡(luò)是為了捕捉這兩個(gè)方面。過(guò)濾器米寬卷積的第一層可以識(shí)別特定的字格大小小于等于過(guò)濾器的寬度,在實(shí)驗(yàn)中我們看到,在第一層通常是將一個(gè)相對(duì)較大的值,如10。字格中提取的子序列普遍池操作引起的方差的絕對(duì)位置,但維護(hù)秩序和相對(duì)位置。至于其他神經(jīng)句子模型,NBoW模型的類定義敏感字的排列順序加以調(diào)整。一個(gè)句子模型基于遞歸神經(jīng)網(wǎng)絡(luò)敏感詞,但它有一個(gè)偏向最新需要作為輸入的單詞(Mikolovetal.,2011)。這給了RNN在語(yǔ)言建模的優(yōu)秀性能,但t接頭適合馬上記住字格進(jìn)一步回輸入句子。同樣,一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)敏感詞順序,但傾向于樹(shù)中的最頂層節(jié)點(diǎn);淺樹(shù)減輕這種影響在某種程度上(Socheretal.,2013)。見(jiàn)教派2.3,Max-TDNN詞序敏感,但馬克斯池只挑出一個(gè)句子的語(yǔ)法功能在每一行矩陣。4.2誘導(dǎo)特性圖一些句子使用內(nèi)部或外部結(jié)構(gòu)計(jì)算模型的表示輸入的句子。DCNN,卷積和池層引起的內(nèi)部特性圖的輸入。一個(gè)節(jié)點(diǎn)從一層連接到一個(gè)節(jié)點(diǎn)從上級(jí)層如果降低節(jié)點(diǎn)參與卷積計(jì)算的值較高的節(jié)點(diǎn)。節(jié)點(diǎn)不選擇池操作在一層從圖。最后池層后,剩余的節(jié)點(diǎn)連接到一個(gè)單一的頂部的根。誘導(dǎo)圖是一個(gè)連接,有向無(wú)環(huán)圖和加權(quán)邊緣和一個(gè)根節(jié)點(diǎn),兩個(gè)相同的表示形式的誘導(dǎo)圖給出了圖1。在一個(gè)沒(méi)有折疊的DCNN層,每個(gè)句子的d行矩陣誘發(fā)其他子圖的子圖,連接只在根節(jié)點(diǎn)。每個(gè)子圖指出可能有不同的形狀,反映了子圖中發(fā)現(xiàn)的關(guān)系。折疊層的影響加入對(duì)來(lái)在下層的子圖根節(jié)點(diǎn)。卷積網(wǎng)絡(luò)對(duì)象識(shí)別輸入圖像也誘導(dǎo)特性圖。使功能圖的DCNN特殊的是全球范圍的集中操作。(動(dòng)態(tài))k-max池操作符可以聚集特性,對(duì)應(yīng)詞很多職位分開(kāi)的句子。高階特征高度可變范圍,可以是短而集中或全球和只要輸入句子。同樣,子圖在誘導(dǎo)圖的邊緣反映這些變化的范圍。子圖可以是局部的一個(gè)或多個(gè)部分的句子或更廣泛地?cái)U(kuò)散到整個(gè)句子。這個(gè)結(jié)構(gòu)是內(nèi)部網(wǎng)絡(luò)和定義的輸入通過(guò)網(wǎng)絡(luò)傳播。Max-TDNN中的子圖誘導(dǎo)模型有一個(gè)固定距離特性通過(guò)max池。遞歸神經(jīng)網(wǎng)絡(luò)是外部解析樹(shù)的結(jié)構(gòu)。特征變量范圍計(jì)算相結(jié)合在樹(shù)的每個(gè)節(jié)點(diǎn)樹(shù)的一個(gè)或多個(gè)孩子。與DCNN,訂單,一個(gè)學(xué)一個(gè)清晰的層次結(jié)構(gòu)特性在RecNN低階等功能的單個(gè)詞可以直接從整個(gè)條款結(jié)合高階特性計(jì)算。ADCNN許多RecNN的結(jié)構(gòu)方面的難題。特征提取函數(shù)公式6有比在RecNN更一般的形式,在m的值通常是2。同樣,誘導(dǎo)圖結(jié)構(gòu)一般DCNN是超過(guò)一個(gè)解析樹(shù),它并不局限于語(yǔ)法聽(tīng)寫(xiě)短語(yǔ);圖結(jié)構(gòu)可以捕捉短期或長(zhǎng)期的語(yǔ)義關(guān)系不一定對(duì)應(yīng)的單詞語(yǔ)法解析樹(shù)的關(guān)系。DCNN內(nèi)部輸入依賴結(jié)構(gòu)和不依賴于外部提供的解析樹(shù),這使得DCNN直接適用于硬解析句子如推砂從任何語(yǔ)言的句子。5實(shí)驗(yàn)我們?cè)谒膫€(gè)不同的實(shí)驗(yàn)測(cè)試網(wǎng)絡(luò)。我們開(kāi)始通過(guò)指定方面的實(shí)現(xiàn)和網(wǎng)絡(luò)的訓(xùn)練。然后我們與實(shí)驗(yàn)的結(jié)果,我們檢查了探測(cè)器的特性。5.1訓(xùn)練在每個(gè)實(shí)驗(yàn)中,網(wǎng)絡(luò)的頂層有一個(gè)完全連接層后跟軟馬克斯非線性預(yù)測(cè)的概率分布在類給定輸入句子。網(wǎng)絡(luò)訓(xùn)練減少預(yù)測(cè)的叉和真實(shí)分布;目標(biāo)包括規(guī)則化表1:情緒預(yù)測(cè)精度在電影評(píng)論數(shù)據(jù)集。前四個(gè)結(jié)果報(bào)告Socheretal.(2013b)?;€NB和BINB樸素貝葉斯分類器,分別非元模型特性和非元和二元特性。支持向量機(jī)是一種支持向量機(jī)與非元和二元特性。RECNTN是用基于張量的特征功能網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)依靠外部結(jié)構(gòu)特點(diǎn)的解析樹(shù)并執(zhí)行最佳RecNNs之一。一項(xiàng)參數(shù)。參數(shù)的集合包含嵌入的這個(gè)詞,過(guò)濾重砂完全連接層的權(quán)重。網(wǎng)絡(luò)訓(xùn)練與mini-batches基于反向傳播和梯度優(yōu)化執(zhí)行使用Adagrad更新規(guī)則(Duchietal.,2011)。使用眾所周知的卷積定理,我們可以快速計(jì)算一維線性曲線玲瓏的所有行輸入矩陣,利用快速傅里葉變換。開(kāi)發(fā)的并行操作,我們訓(xùn)練網(wǎng)絡(luò)的GPU。Matlab實(shí)現(xiàn)處理多個(gè)數(shù)以百萬(wàn)計(jì)的輸入句子每小時(shí)在一個(gè)GPU,這主要取決于網(wǎng)絡(luò)中所使用的層數(shù)。5.2電影評(píng)論的情緒預(yù)測(cè)前兩個(gè)實(shí)驗(yàn)擔(dān)憂情緒的預(yù)測(cè)的影評(píng)斯坦福情緒樹(shù)圖資料庫(kù)(Socheretal.,2013b)。天下大同的二進(jìn)制輸出變量在一個(gè)實(shí)驗(yàn)中有五個(gè)其他可能的結(jié)果:消極的,有點(diǎn)消極,中性的,積極的,正面的。在二元的情況下,我們使用吉文斯分離之下6920年訓(xùn)練,872年開(kāi)發(fā)和1821測(cè)試的句子。同樣,在細(xì)粒度的情況下,我們使用標(biāo)準(zhǔn)的8544/1101/2210分裂。La-belled短語(yǔ)出現(xiàn)的子部分的培訓(xùn)的句子被視為獨(dú)立的訓(xùn)練實(shí)例。詞匯量的大小是15448。表1實(shí)驗(yàn)結(jié)果的細(xì)節(jié)。表2:六方的準(zhǔn)確性在TREC問(wèn)題分類數(shù)據(jù)集的問(wèn)題。第二列詳細(xì)信息中使用的外部特性的各種方法。前四個(gè)結(jié)果分別從LiheRoth(2002),Blunsomet(2006),Huangetal(2008)和Silvaetal(2011)得出。在三個(gè)神經(jīng)句子Max-TDNN,NBoW和DCNN-詞向量模型,隨機(jī)初始化參數(shù);他們的維d設(shè)置為48。Max-TDNN有濾波器的寬度6在第一層狹窄的卷積;短短語(yǔ)墊為零向量。卷積層是緊隨其后的是一個(gè)非線性,最大池層和softmax分類層。NBoW這個(gè)詞向量和適用一個(gè)非線性會(huì)softmax分類層緊隨其后。采用非線性雙曲正切函數(shù)。的超參數(shù)DCNN如下。二進(jìn)制的結(jié)果是基于DCNN卷積層后跟一個(gè)折疊層,一層動(dòng)態(tài)k-max池和非線性;它有一個(gè)第二大回旋的層,后跟一個(gè)折疊層,一層k-max池和一個(gè)非線性。卷積過(guò)濾器的寬度是7和5,分別。的k值k-max池頂部是4。在第一個(gè)卷積層特征圖的數(shù)量是6;在第二個(gè)卷積層地圖的數(shù)量是14。網(wǎng)絡(luò)覆蓋softmax分類層。的DCNN細(xì)顆粒的結(jié)果具有相同的架構(gòu),但是過(guò)濾器10碼和7,前池參數(shù)k是5和地圖的數(shù)量,分別6和12。網(wǎng)絡(luò)使用雙曲正切非線性表3:在Twitter情緒數(shù)據(jù)集的精度。三個(gè)非神經(jīng)分類器是基于非n元模型和傳播有關(guān)三元功能;結(jié)果報(bào)告(Goetal.,2009)。函數(shù)。在訓(xùn)練時(shí)間,我們應(yīng)用后輟學(xué)到倒數(shù)第二層最后雙曲正切非線性(Hintonetal.,2012)。我們看到DCNN顯著優(yōu)于其他神經(jīng)和非神經(jīng)模型傳播有關(guān)。NBoW執(zhí)行類似于非神經(jīng)基于n元分類器傳播有關(guān)。Max-TDNN執(zhí)行比NBoW可能由于過(guò)度馬克斯池的池操作;后者丟棄的大部分輸入句子中的詞的情緒特征。除了RecNN使用外部解析器產(chǎn)生結(jié)構(gòu)特點(diǎn)為模型,其他模型使用基于n元或神經(jīng)功能,不需要外部資源或額外的注釋。在接下來(lái)的實(shí)驗(yàn)中我們比較DCNN的性能與使用大量工程資源的方法。5.3問(wèn)題類型分類作為一個(gè)援助問(wèn)題回答,問(wèn)題也許分類屬于許多問(wèn)題類型之一。TREC問(wèn)題數(shù)據(jù)集包括六個(gè)不同的問(wèn)題類型,例如是否問(wèn)題是關(guān)于一個(gè)位置,對(duì)一個(gè)人或一些數(shù)字信息(Li和Roth,2002)。訓(xùn)練數(shù)據(jù)集包括5452個(gè)標(biāo)簽的問(wèn)題,作為測(cè)試數(shù)據(jù)集包含500個(gè)問(wèn)題。結(jié)果報(bào)道在選項(xiàng)卡。2。非神經(jīng)大數(shù)據(jù)方法使用分類器的手動(dòng)工程特性和手工編碼的資源。例如,Blunsom等等。(2006)提出了最大熵模型依賴于包括非n元模型26集的句法和語(yǔ)義功能,三元,三元模型,POS標(biāo)簽,命名實(shí)體標(biāo)記,從20結(jié)構(gòu)關(guān)系解析和共發(fā)現(xiàn)的同義詞集。我們?cè)u(píng)估了三種神經(jīng)模型在這個(gè)數(shù)據(jù)集上大多超函數(shù)一樣在二進(jìn)制的情緒圖4:前五7元模型的四個(gè)特征探測(cè)器在第一層網(wǎng)絡(luò)。實(shí)驗(yàn)5.2。作為數(shù)據(jù)集,而小,我們用低維詞向量與嵌入的d=32,初始化訓(xùn)練predictcon文本出現(xiàn)的無(wú)監(jiān)督方法(Turianetal.,2010)。過(guò)濾器的DCNN使用一個(gè)卷積層8號(hào)和5特征圖。DCNN的性能的區(qū)別和其他高性能方法選項(xiàng)卡。2并不顯著(p<0.09)。鑒于唯一標(biāo)簽信息用于訓(xùn)練網(wǎng)絡(luò)訓(xùn)練集本身,值得注意的是,網(wǎng)絡(luò)匹配的最先進(jìn)的分類器的性能依賴于大量的工程特性和規(guī)則和手工編碼的資源。5.4遠(yuǎn)程監(jiān)控的推特情緒預(yù)測(cè)在最后的實(shí)驗(yàn)中,我們訓(xùn)練的模型在一個(gè)龐大的數(shù)據(jù)集上推特,推特在哪里自動(dòng)貼上積極或消極取決于發(fā)生在它的表情符號(hào)。訓(xùn)練集由160萬(wàn)條emoticon-based標(biāo)簽和大約400的測(cè)試集的注解tweet。我們進(jìn)行預(yù)處理后的tweet最低限度程序中描述的etal。(2009);此外,我們還小寫(xiě)的所有令牌。這導(dǎo)致76643詞的詞匯類型。DCNN的架構(gòu)和其他神經(jīng)模型在第5.2中是一樣的教派中使用二進(jìn)制實(shí)驗(yàn)之一。隨機(jī)初始化字嵌入增加長(zhǎng)度的維d=60。表3實(shí)驗(yàn)結(jié)果報(bào)告。我們看到的性能大幅提高DCNN關(guān)于非神經(jīng)基于n元分類器;傳播有關(guān)的大量的訓(xùn)練數(shù)據(jù)這些分類器構(gòu)成特別強(qiáng)烈的基線。我們看到,能力訓(xùn)練情緒分類器自動(dòng)提取情感為主的標(biāo)簽上延伸到DCNN和結(jié)果高度精確的性能之間的性能差異DCNNNBoW進(jìn)一步表明,DCNN同時(shí)捕獲特性的能力基于長(zhǎng)n元模型和分層次組合這些特性是非常有益的。5.5可視化特征檢測(cè)器過(guò)濾器的DCNN與特征檢測(cè)器或神經(jīng)元學(xué)習(xí)在訓(xùn)練時(shí)要特別活躍了一個(gè)特定的序列輸入單詞。在第一層,從輸入句子序列是一個(gè)持續(xù)的語(yǔ)法,在更高的層次,序列可以由多個(gè)單獨(dú)的字格。我們想象的功能探測(cè)器在第一層網(wǎng)絡(luò)訓(xùn)練二進(jìn)制情緒任務(wù)(第5.2)。自過(guò)濾器寬度為7,為每個(gè)288功能探測(cè)器我們排名7元模型發(fā)生在根據(jù)其激活驗(yàn)證集和測(cè)試集的探測(cè)器。圖5.2給出了前五的7元模型四功能探測(cè)器。除了預(yù)期的探測(cè)器對(duì)積極和消極情緒,我們發(fā)現(xiàn)等粒子探測(cè)器“不”否定情緒,如“太”,加強(qiáng)情緒。我們發(fā)現(xiàn)探測(cè)器為多個(gè)其他值得注意的結(jié)構(gòu)包括“所有”、“或”、“與…”,“……“。特征探測(cè)器不僅識(shí)別單個(gè)字格,但模式在字格語(yǔ)法、語(yǔ)義和結(jié)構(gòu)意義。6結(jié)論我們已經(jīng)描述了一個(gè)動(dòng)態(tài)的卷積神經(jīng)網(wǎng)絡(luò),使用動(dòng)態(tài)k-max池操作符作為非線性子采樣功能。網(wǎng)絡(luò)引發(fā)的特性圖能夠捕捉不同大小的關(guān)系。網(wǎng)絡(luò)實(shí)現(xiàn)了高性能的問(wèn)題和情緒分類不需要外部提供的特性解析器或其他資源。致謝我們感謝NandodeFreitasandYeeWhyeTeh論文大討論。這項(xiàng)工作是由施樂(lè)基金獎(jiǎng)的支持,EPSRC編號(hào)EP/f042728/1,和EPSRC編號(hào)EP/k036580/1。參考文獻(xiàn)MarcoBaroniandRobertoZamparelli.2010.Nounsarevectors,adjectivesarematrices:Representingadjective-nounconstructionsinsemanticspace.InEMNLP,pages1183–1193.ACL.PhilBlunsom,KrystleKocik,andJamesR.Curran.2006.Questionclassi?cationwithlog-linearmodels.InSIGIR’06:Proceedingsofthe29thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval,pages615–616,NewYork,NY,USA.ACM.DaoudClarke.2012.Acontext-theoreticframeworkforcompositionalityindistributionalsemantics.ComputationalLinguistics,38(1):41–71.BobCoecke,MehrnooshSadrzadeh,andStephenClark.2010.MathematicalFoundationsforaCompositionalDistributionalModelofMeaning.March.RonanCollobertandJasonWeston.2008.Auni?edarchitecturefornaturallanguageprocessing:Deepneuralnetworkswithmultitasklearning.InInternationalConferenceonMachineLearning,ICML.JohnDuchi,EladHazan,andYoramSinger.2011.Adaptivesubgradientmethodsforonlinelearningandstochasticoptimization.J.Mach.Learn.Res.,12:2121–2159,July.KatrinErkandSebastianPad′o.2008.Astructuredvectorspacemodelforwordmeaningincontext.ProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing-EMNLP’08,(October):897.KatrinErk.2012.Vectorspacemodelsofwordmeaningandphrasemeaning:Asurvey.LanguageandLinguisticsCompass,6(10):635–653.FelixA.GersandJrgenSchmidhuber.2001.Lstmrecurrentnetworkslearnsimplecontext-freeandcontext-sensitivelanguages.IEEETransactionsonNeuralNetworks,12(6):1333–1340.AlecGo,RichaBhayani,andLeiHuang.2009.Twittersentimentclassi?cationusingdistantsupervision.Processing,pages1–6.EdwardGrefenstetteandMehrnooshSadrzadeh.2011.Experimentalsupportforacategoricalcompositionaldistributionalmodelofmeaning.InProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing,pages1394–1404.AssociationforComputationalLinguistics.EdwardGrefenstette.2013.Category-theoreticquantitativecompositionaldistributionalmodelsofnaturallanguagesemantics.arXivpreprintarXiv:1311.1539.EmilianoGuevara.2010.ModellingAdjective-NounCompositionalitybyRegression.ESSLLI’10WorkshoponCompositionalityandDistributionalSemanticModels.KarlMoritzHermannandPhilBlunsom.2013.TheRoleofSyntaxinVectorSpaceModelsofCompositionalSemantics.InProceedingsofthe51stAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers),So?a,Bulgaria,August.AssociationforComputationalLinguistics.Forthcoming.GeoffreyE.Hinton,NitishSrivastava,AlexKrizhevsky,IlyaSutskever,andRuslanSalakhutdinov.2012.Improvingneuralnetworksbypreventingco-adaptationoffeaturedetectors.CoRR,abs/1207.0580.GeoffreyE.Hinton.1989.Connectionistlearningpro-cedures.Artif.Intell.,40(1-3):185–234.ZhihengHuang,MarcusThint,andZengchangQin.2008.Questionclassi?cationusingheadwordsandtheirhypernyms.InProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing,EMNLP’08,pages927–936,Stroudsburg,PA,USA.AssociationforComputationalLinguistics.NalKalchbrennerandPhilBlunsom.2013a.Recurrentcontinuoustranslationmodels.InProceedingsofthe2013ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,Seattle,October.AssociationforComputationalLinguistics.NalKalchbrennerandPhilBlunsom.2013b.RecurrentConvolutionalNeuralNetworksforDiscourseCompositionality.InProceedingsoftheWorkshoponContinuousVectorSpaceModelsandtheirCompositionality,So?a,Bulgaria,August.AssociationforComputationalLinguistics.DimitriKartsaklisandMehrnooshSadrzadeh.2013.Priordisambiguationofwordtensorsforconstructingsentencevectors.InProceedingsofthe2013ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),Seattle,USA,October.AndreasK¨uchlerandChristophGoller.1996.Inductivelearninginsymbolicdomainsusingstructure-drivenrecurrentneuralnetworks.InG¨untherG¨orzandSteffenH¨olldobler,editors,KI,volume1137ofLectureNotesinComputerScience,pages183–197.Springer.YannLeCun,L′eonBottou,YoshuaBengio,andPatrickHaffner1998.Gradient-basedlearningappliedtodocumentrecognition.ProceedingsoftheIEEE,86(11):2278–2324,November.XinLiandDanRoth.2002.Learningquestionclassi?ers.InProceedingsofthe19thinternationalconferenceonComputationallinguistics-Volume1,pages1–7.AssociationforComputationalLinguistics.TomasMikolovandGeoffreyZweig.2012.Contextdependentrecurrentneuralnetworklanguagemodel.InSLT,pages234–239.TomasMikolov,StefanKombrink,LukasBurget,JanCernock′y,andSanjeevKhudanpur.2011.Extensionsofrecurrentneuralnetworklanguagemodel.InICASSP,pages5528–5531.IEEE.JeffMitchellandMirellaLapata.2008.Vector-basedmodelsofsemanticcomposition.InProceedingsofACL,volume8.JeffMitchellandMirellaLapata.2010.Compositionindistributionalmodelsofsemantics.CognitiveScience,34(8):1388–1429.JordanB.Pollack.1990.Recursivedistributedrepresentations.Arti?cialIntelligence,46:77–105.HolgerSchwenk.2012.Continuousspacetranslationmodelsforphrase-basedstatisticalmachinetranslation.InCOLING(Posters),pages1071–1080.JooSilva,LusaCoheur,AnaCristinaMendes,andAndreasWichert.2011.Fromsymbolictosubsymbolicinformationinquestionclassi?cation.Arti?cialIntelligenceReview,35(2):137–154.RichardSocher,JeffreyPennington,EricH.Huang,AndrewY.Ng,andChristopherD.Manning.2011.Semi-SupervisedRecursiveAutoencodersforPredictingSentimentDistributions.InProceedingsofthe2011ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP).RichardSocher,QuocV.Le,ChristopherD.Manning,andAndrewY.Ng.2013a.GroundedCompositionalSemanticsforFindingandDescribingImageswithSentences.InTransactionsoftheAssociationforComputationalLinguistics(TACL).RichardSocher,AlexPerelygin,JeanWu,JasonChuang,ChristopherD.Manning,AndrewY.Ng,andChristopherPotts.2013b.Recursivedeepmodelsforsemanticcompositionalityoverasentimenttreebank.InProceedingsofthe2013ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,pages1631–1642,Stroudsburg,PA,October.AssociationforComputationalLinguistics.JosephTurian,LevRatinov,andYoshuaBengio.2010.Wordrepresentations:asimpleandgeneralmethodforsemi-supervisedlearning.InProceedingsofthe48thAnnualMeetingoftheAssociationforComputationalLinguistics,pages384–394.AssociationforComputationalLinguistics.PeterTurney.2012.Domainandfunction:Adual-spacemodelofsemanticrelationsandcompositions.J.Artif.Intell.Res.(JAIR),44:533–585.AlexanderWaibel,ToshiyukiHanazawa,GeofreyHinton,KiyohiroShikano,andKevinJ.Lang.1990.Readingsinspeechrecognition.chapterPhonemeRecognitionUsingTime-delayNeuralNetworks,pages393–404.MorganKaufmannPublishersInc.,SanFrancisco,CA,USA.FabioMassimoZanzotto,IoannisKorkontzelos,FrancescaFallucchi,andSureshManandhar.2010.Estimatinglinearmodelsforcompositionaldistributionalsemantics.InProceedingsofthe23rdInternationalConferenceonComputationalLinguistics,pages1263–1271.AssociationforComputationalLinguistics.LukeS.ZettlemoyerandMichaelCollins.2005.Learningtomapsentencestologicalform:Structuredclassi?cationwithprobabilisticcategoryalgrammars.InUAI,pages658–666.AUAIPress.

2.外文原文AConvolutionalNeuralNetworkforModellingSentencesNalKalchbrenner、EdwardGrefenstette、PhilBlunsomAbstractTheabilitytoaccuratelyrepresentsentencesiscentraltolanguageunderstanding.WedescribeaconvolutionalarchitecturedubbedtheDynamicConvolutionalNeuralNetwork(DCNN)thatweadoptforthesemanticmodelingofsentences.ThenetworkusesDynamick-MaxPooling,aglobalpoolingoperationoverlinearsequences.Thenetworkhandlesinputsentencesofvaryinglengthandinducesafeaturegraphoverthesentencethatiscapableofexplicitlycapturingshortandlong-rangerelations.Thenetworkdoesnotrelyonaparsetreeandiseasilyapplicabletoanylanguage.WetesttheDCNNinfourexperiments:smallscalebinaryandmulticlasssentimentprediction,six-wayquestionclassi?cationandTwittersentimentpredictionbydistantsupervision.Thenetworkachievesexcellentperformanceinthe?rstthreetasksandagreaterthan25%errorreductioninthelasttaskwithrespecttothestrongestbaseline.1IntroductionTheaimofasentencemodelistoanalyseandrepresentthesemanticcontentofasentenceforpurposesofclassi?cationorgeneration.Thesentencemodelingproblemisatthecoreofmanytasksinvolvingadegreeofnaturallanguagecomprehension.Thesetasksincludesentimentanalysis,paraphrasedetection,entailmentrecognition,summarisation,discourseanalysis,machinetranslation,groundedlanguagelearningandimageretrieval.Sinceindividualsentencesarerarelyobservedornotobservedatall,onemustrepresentasentenceintermsoffeaturesthatdependonthewordsandshortn-gramsinthesentencethatarefrequentlyobserved.Thecoreofasentencemodelinvolvesafeaturefunctionthatde?nestheprocessThecatsatontheredmatFigure1:SubgraphofafeaturegraphinducedoveraninputsentenceinaDynamicConvolutionalNeuralNetwork.Thefullinducedgraphhasmultiplesubgraphsofthiskindwithadistinctsetofedges;subgraphsmaymergeatdifferentlayers.Theleftdiagramemphasisesthepoolednodes.Thewidthoftheconvolutional?ltersis3and2respectively.Withdynamicpooling,a?lterwithsmallwidthatthehigherlayerscanrelatephrasesfarapartintheinputsentence.bywhichthefeaturesofthesentenceareextractedfromthefeaturesofthewordsorn-grams.Varioustypesofmodelsofmeaninghavebeenproposed.Compositionbasedmethodshavebeenappliedtovectorrepresentationsofwordmeaningobtainedfromco-occurrencestatisticstoobtainvectorsforlongerphrases.Insomecases,compositionisde?nedbyalgebraicoperationsoverwordmeaningvectorstoproducesentencemeaningvectors(ErkandPado,2008;MitchellandLapata,2008;MitchellandLapata,2010;Turney,2012;Erk,2012;Clarke,2012).Inothercases,acompositionfunctionislearnedandeithertiedtoparticularsyntacticrelations(Guevara,2010;Zanzottoetal.,2010)ortoparticularwordtypes(BaroniandZamparelli,2010;Coeckeetal.,2010;GrefenstetteandSadrzadeh,2011;KartsaklisandSadrzadeh,2013;Grefenstette,2013).Anotherapproachrepresentsthemeaningofsentencesbywayofautomaticallyextractedlogicalforms(ZettlemoyerandCollins,2005).Acentralclassofmodelsarethosebasedonneuralnetworks.Theserangefrombasicneuralbag-of-wordsorbag-of-n-gramsmodelstothemorestructuredrecursiveneuralnetworksandtotime-delayneuralnetworksbasedonconvolutionaloperations(CollobertandWeston,2008;Socheretal.,2011;KalchbrennerandBlunsom,2013b).Neuralsentencemodelshaveanumberofadvantages.Theycanbetrainedtoobtaingenericvectorsforwordsandphrasesbypredicting,forinstance,thecontextsinwhichthewordsandphrasesoccur.Throughsupervisedtraining,neuralsentencemodelscan?netunethesevectorstoinformationthatisspeci?ctoacertaintask.Besidescomprisingpowerfulclassi?ersaspartoftheirarchitecture,neuralsentencemodelscanbeusedtoconditionaneurallanguagemodeltogeneratesentenceswordbyword(Schwenk,2012;MikolovandZweig,2012;KalchbrennerandBlunsom,2013a).Wede?neaconvolutionalneuralnetworkarchitectureandapplyittothesemanticmodelingofsentences.Thenetworkhandlesinputsequencesofvaryinglength.Thelayersinthenetworkinterleaveone-dimensionalconvolutionallayersanddynamick-maxpoolinglayers.Dynamick-maxpoolingisageneralisationofthemaxpoolingoperator.Themaxpoolingoperatorisanon-linearsubsamplingfunctionthatreturnsthemaximumofasetofvalues(LeCunetal.,1998).Theoperatorisgeneralisedintworespects.First,k-maxpoolingoveralinearsequenceofvaluesreturnsthesubsequenceofkmaximumvaluesinthesequence,insteadofthesinglemaximumvalue.Secondly,thepoolingparameterkcanbedynamicallychosenbymakingkafunctionofotheraspectsofthenetworkortheinput.Theconvolutionallayersapplyone-dimensional?ltersacrosseachrowoffeaturesinthesentencematrix.Convolvingthesame?lterwiththen-gramateverypositioninthesentenceallowsthefeaturestobeextractedindependentlyoftheirpositioninthesentence.Aconvolutionallayerfollowedbyadynamicpoolinglayerandanon-linearityformafeaturemap.Likeintheconvolutionalnetworksforobjectrecognition(LeCunetal.,1998),weenrichtherepresentationinthe?rstlayerbycomputingmultiplefeaturemapswithdifferent?ltersappliedtotheinputsentence.Subsequentlayersalsohavemultiplefeaturemapscomputedbyconvolving?lterswithallthemapsfromthelayerbelow.Theweightsattheselayersformanorder-4tensor.TheresultingarchitectureisdubbedaDynamicConvolutionalNeuralNetwork.Multiplelayersofconvolutionalanddynamicpoolingoperationsinduceastructuredfeaturegraphovertheinputsentence.Figure1illustratessuchagraph.Small?ltersathigherlayerscancapturesyntacticorsemanticrelationsbetweennon-continuousphrasesthatarefarapartintheinputsentence.Thefeaturegraphinducesahierarchicalstructuresomewhatakintothatinasyntacticparsetree.Thestructureisnottiedtopurelysyntacticrelationsandisinternaltotheneuralnetwork.Weexperimentwiththenetworkinfoursettings.The?rsttwoexperimentsinvolvepredictingthesentimentofmoviereviews(Socheretal.,2013b).Thenetworkoutperformsotherapproachesinboththebinaryandthemulticlassexperiments.ThethirdexperimentinvolvesthecategorisationofquestionsinsixquestiontypesintheTRECdataset(LiandRoth,2002).Thenetworkmatchestheaccuracyofotherstate-of-the-artmethodsthatarebasedonlargesetsofengineeredfeaturesandhand-codedknowledgeresources.ThefourthexperimentinvolvespredictingthesentimentofTwitterpostsusingdistantsupervision(Goetal.,2009).Thenetworkistrainedon1.6milliontweetslabelledautomaticallyaccordingtotheemoticonthatoccursinthem.Onthehand-labelledtestset,thenetworkachievesagreaterthan25%reductioninthepredictionerrorwithrespecttothestrongestunigramandbigrambaselinereportedinGoetal.(2009).Theoutlineofthepaperisasfollows.Section2describesthebackgroundtotheDCNNincludingcentralconceptsandrelatedneuralsentencemodels.Section3de?nestherelevantoperatorsandthelayersofthenetwork.Section4treatsoftheinducedfeaturegraphandotherpropertiesofthenetwork.Section5discussestheexperimentsandinspectsthelearntfeaturedetectors.2BackgroundThelayersoftheDCNNareformedbyaconvolutionoperationfollowedbyapoolingoperation.Webeginwithareviewofrelatedneuralsentencemodels.Thenwedescribetheoperationofone-dimensionalconvolutionandtheclassicalTimeDelayNeuralNetwork(TDNN)(Hinton,1989;Waibeletal.,1990).Byaddingamaxpoolinglayertothenetwork,theTDNNcanbeadoptedasasentencemodel(CollobertandWeston,2008).2.1RelatedNeuralSentenceModelsVariousneuralsentencemodelshavebeendescribed.AgeneralclassofbasicsentencemodelsisthatofNeuralBag-of-Words(NBoW)models.Thesegenerallyconsistofaprojectionlayerthatmapswords,sub-wordunitsorn-gramstohighdimensionalembeddings;thelatterarethencombinedcomponent-wisewithanoperationsuchassummation.Theresultingcombinedvectorisclassi?edthroughoneormorefullyconnectedlayers.AmodelthatadoptsamoregeneralstructureprovidedbyanexternalparsetreeistheRecursiveNeuralNetwork(RecNN)(Pollack,1990;Kiiuch

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論