第13章-深度學(xué)習(xí)在文本中的應(yīng)用_第1頁(yè)
第13章-深度學(xué)習(xí)在文本中的應(yīng)用_第2頁(yè)
第13章-深度學(xué)習(xí)在文本中的應(yīng)用_第3頁(yè)
第13章-深度學(xué)習(xí)在文本中的應(yīng)用_第4頁(yè)
第13章-深度學(xué)習(xí)在文本中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DEEPLEARNING深度學(xué)習(xí)第十三章深度學(xué)習(xí)在文本中的應(yīng)用概述13.1自然語(yǔ)言處理基礎(chǔ)13.2

基于深度學(xué)習(xí)的文本處理13.3應(yīng)用舉例:機(jī)器翻譯of372習(xí)題13.4應(yīng)用舉例:聊天機(jī)器人概述第十三章深度學(xué)習(xí)在文本中的應(yīng)用of373自然語(yǔ)言處理(NaturalLanguageProcessing,簡(jiǎn)稱(chēng)NLP)需要兼顧到不同平面的知識(shí):詞匯學(xué),描述詞匯系統(tǒng)的規(guī)定說(shuō)明單詞本身固有的語(yǔ)義特性和語(yǔ)法特性;句法學(xué),根據(jù)單詞和詞組之間的結(jié)構(gòu)規(guī)則說(shuō)明單詞和詞組怎樣形成句子;語(yǔ)義學(xué),描述句子中各個(gè)成分之間的語(yǔ)義關(guān)系,這樣的語(yǔ)義關(guān)系是與情境是無(wú)關(guān)的;語(yǔ)用學(xué),描述與情境有關(guān)的情景語(yǔ)義,說(shuō)明怎樣推導(dǎo)出句子具有的與周?chē)捳Z(yǔ)有關(guān)的各種涵義。每個(gè)層面具備自身的特點(diǎn):詞匯學(xué)主要描述具體的單詞的構(gòu)成成份,如語(yǔ)素、屈折變化形式等;句法學(xué)涉及的是詞和詞組怎樣組成句子的知識(shí);語(yǔ)義學(xué)指的是給句子指派意義;語(yǔ)用學(xué)則涉及在對(duì)話中話語(yǔ)焦點(diǎn)的轉(zhuǎn)移以及在給定的上下文中解釋句子的含義。第十三章深度學(xué)習(xí)在文本中的應(yīng)用概述13.1自然語(yǔ)言處理基礎(chǔ)13.2

基于深度學(xué)習(xí)的文本處理13.3應(yīng)用舉例:機(jī)器翻譯of374習(xí)題13.4應(yīng)用舉例:聊天機(jī)器人概述13.1自然語(yǔ)言處理基礎(chǔ)13.1.1. 正則表達(dá)式和自動(dòng)機(jī)of375第十三章深度學(xué)習(xí)在文本中的應(yīng)用正則表達(dá)式(regularexpression,簡(jiǎn)稱(chēng)RE)是字符文本序列的標(biāo)準(zhǔn)記錄方式,是一種用于描述文本搜索符號(hào)串的語(yǔ)言,廣泛應(yīng)用于各類(lèi)信息檢索中。有限狀態(tài)自動(dòng)機(jī)(finite-stateautomaton,簡(jiǎn)稱(chēng)FSA)能夠而且只能夠生成或識(shí)別滿足形式語(yǔ)言定義所要求的形式語(yǔ)言的字符串。示例,五個(gè)狀態(tài):節(jié)點(diǎn)0是初始狀態(tài)(startstate),節(jié)點(diǎn)4是最后狀態(tài)(finalstate),用雙圓圈表示,另外還有4個(gè)轉(zhuǎn)移(transition),用箭頭線表示。13.1自然語(yǔ)言處理基礎(chǔ)of376第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.1.2. 句法處理句法(syntax)是指把單詞和詞組安排在一起怎樣形成句子的方法。單詞是語(yǔ)言處理的單元,句法是骨架,句法研究單詞之間的形式關(guān)系。單詞可以類(lèi)聚為詞類(lèi)(part-of-speech),或者與相鄰的單詞組合成短語(yǔ)。PetergavethebooktoAna. (彼得把這本書(shū)給了安娜。)ThebookwasgiventoAnabyPeter. (這本書(shū)被彼得給了安娜。)句子的結(jié)構(gòu)并不反映句子的意義,相同的句法結(jié)構(gòu),在不同的環(huán)境下,具有不同的意義。13.1自然語(yǔ)言處理基礎(chǔ)of377第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.1.3. 詞類(lèi)和詞類(lèi)標(biāo)注詞類(lèi)又稱(chēng)為POS(Part-of-Speech)能夠提供關(guān)于單詞及其鄰近成分的信息。詞類(lèi)標(biāo)注(Part-of-Speechtagging或POStagging),簡(jiǎn)稱(chēng)標(biāo)注,指給語(yǔ)料庫(kù)中的單詞指派詞類(lèi)標(biāo)記的過(guò)程。這些標(biāo)記也用來(lái)標(biāo)注標(biāo)點(diǎn)符號(hào),因此自然語(yǔ)言的標(biāo)注過(guò)程與計(jì)算機(jī)語(yǔ)言的詞例還原(tokenization)過(guò)程是一樣的。英語(yǔ)詞類(lèi)標(biāo)注中的常用標(biāo)記集:PennTreebank的標(biāo)記集包含45個(gè)標(biāo)記,是小標(biāo)記集;CLAWS(theConstituentLikelihoodAutomaticWord-taggingSystem)使用的標(biāo)記集C5包含61個(gè)標(biāo)記,是中型的標(biāo)記集,用于標(biāo)注英國(guó)國(guó)家語(yǔ)料庫(kù)(theBritishNationalCorpus,簡(jiǎn)稱(chēng)BNC);第三個(gè)標(biāo)記集是包含146個(gè)標(biāo)記的大型標(biāo)記集C7。13.1自然語(yǔ)言處理基礎(chǔ)of378第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.1.4. 上下文無(wú)關(guān)語(yǔ)法上下文無(wú)關(guān)語(yǔ)法(Context-FreeGrammar,簡(jiǎn)稱(chēng)CFG),上下文無(wú)關(guān)語(yǔ)法又稱(chēng)為短語(yǔ)結(jié)構(gòu)語(yǔ)法(Phrase-StructureGrammar),由規(guī)則(rule)以及詞表(lexicon)構(gòu)成。Chomsky層次語(yǔ)法理論:13.1自然語(yǔ)言處理基礎(chǔ)of379第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.1.5. 淺層句法分析淺層語(yǔ)法分析(shallowparsing)也稱(chēng)為局部語(yǔ)法分析(partialparsing),處理層次可分為:詞短語(yǔ)句子常見(jiàn)的淺層語(yǔ)法分析主要有兩類(lèi):基于統(tǒng)計(jì)基于規(guī)則基于規(guī)則的方法就是根據(jù)人工書(shū)寫(xiě)的或半自動(dòng)獲取的語(yǔ)法規(guī)則標(biāo)注出短語(yǔ)的邊界和短語(yǔ)的類(lèi)型。規(guī)則的使用相對(duì)簡(jiǎn)單,但是規(guī)則的獲取卻比較困難。13.1自然語(yǔ)言處理基礎(chǔ)of3710第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.1.6. 語(yǔ)義分析判斷一句話的意思要分兩步來(lái)進(jìn)行:首先,計(jì)算出它上下文無(wú)關(guān)的標(biāo)記形式,稱(chēng)之為邏輯形式(logicalform);然后,在上下文中對(duì)邏輯形式進(jìn)行解釋?zhuān)勺罱K的意義表示。對(duì)上下文無(wú)關(guān)意義的研究稱(chēng)為語(yǔ)義學(xué)。對(duì)上下文相關(guān)語(yǔ)言的研究稱(chēng)為語(yǔ)用學(xué)。13.1自然語(yǔ)言處理基礎(chǔ)of3711第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.1.7. 語(yǔ)義網(wǎng)絡(luò)語(yǔ)義網(wǎng)絡(luò)是一種詞法知識(shí)的表示方法,由帶標(biāo)記的鏈和帶標(biāo)記的節(jié)點(diǎn)組成的圖。節(jié)點(diǎn)表示詞義,鏈表示節(jié)點(diǎn)之間的語(yǔ)義關(guān)系。典型詞匯關(guān)系信息庫(kù)有:WordNetConceptNetFrameNet第十三章深度學(xué)習(xí)在文本中的應(yīng)用概述13.2基于深度學(xué)習(xí)的文本處理13.1自然語(yǔ)言處理基礎(chǔ)13.3應(yīng)用舉例:機(jī)器翻譯of3712習(xí)題13.4應(yīng)用舉例:聊天機(jī)器人概述13.2基于深度學(xué)習(xí)的文本處理of3713第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.2.1. 詞匯向量化表示使用神經(jīng)網(wǎng)絡(luò)的方法自動(dòng)學(xué)習(xí)詞匯的向量化表示,其基本原則是:一個(gè)詞包含的意義應(yīng)該由該詞周?chē)脑~決定。13.2基于深度學(xué)習(xí)的文本處理of3714第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.2.2. 句法分析使用遞歸神經(jīng)網(wǎng)絡(luò)(RecursiveNeuralNetwork,RNN)可以實(shí)現(xiàn)對(duì)樹(shù)型結(jié)構(gòu)的預(yù)測(cè)。遞歸神經(jīng)網(wǎng)絡(luò)的輸入層有兩部分:左子節(jié)點(diǎn)的向量表示;右子節(jié)點(diǎn)的向量表示。兩個(gè)子節(jié)點(diǎn)的向量表示通過(guò)神經(jīng)網(wǎng)絡(luò)后生成父節(jié)點(diǎn)的向量表示,同時(shí)生成一個(gè)打分,表示父節(jié)點(diǎn)的可信度。父節(jié)點(diǎn)的向量表示又可以與其他子節(jié)點(diǎn)組合形成更大的父節(jié)點(diǎn)。依次遞歸,從而形成一棵完整的句法分析樹(shù)。13.2基于深度學(xué)習(xí)的文本處理of3715第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.2.3. 神經(jīng)機(jī)器翻譯遞歸自動(dòng)編碼的神經(jīng)網(wǎng)絡(luò)用于學(xué)習(xí)雙語(yǔ)的片段向量化表示,使用交互優(yōu)化的方式訓(xùn)練神經(jīng)網(wǎng)絡(luò):首先,固定目標(biāo)語(yǔ)言片段的向量表示;然后,以該向量表示為優(yōu)化目標(biāo),優(yōu)化源語(yǔ)言的神經(jīng)網(wǎng)絡(luò);最后,固定源語(yǔ)言片段的向量表示,優(yōu)化目標(biāo)語(yǔ)言的神經(jīng)網(wǎng)絡(luò)。雙語(yǔ)約束得到的片段表示應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯的概率估計(jì)中,取得了顯著的效果。13.2基于深度學(xué)習(xí)的文本處理of3716第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.2.4. 情感分析理解人類(lèi)情感是人工智能的目標(biāo),深度學(xué)習(xí)可用來(lái)判斷情感類(lèi)別及強(qiáng)度。為處理情感分析問(wèn)題中語(yǔ)義合成的問(wèn)題(如“不是很喜歡”與“喜歡”的情感極性相反),利用自然語(yǔ)言的遞歸性質(zhì)與語(yǔ)義的可合成性,句子的情感語(yǔ)義進(jìn)行建模。半監(jiān)督遞歸自動(dòng)編碼模型在由詞向量構(gòu)建短語(yǔ)向量表示時(shí),可以更多地保留情感信息。句法分析樹(shù)用來(lái)決定語(yǔ)義合成的順序,以此替代遞歸自動(dòng)編碼模型中通過(guò)貪心搜索損失最小的遞歸結(jié)構(gòu)。將每個(gè)詞的情感語(yǔ)義操作信息嵌入到詞向量中,進(jìn)而用來(lái)選擇不同的語(yǔ)義合成函數(shù)。第十三章深度學(xué)習(xí)在文本中的應(yīng)用概述13.3應(yīng)用舉例:機(jī)器翻譯13.2

基于深度學(xué)習(xí)的文本處理13.1自然語(yǔ)言處理基礎(chǔ)of3717習(xí)題13.4應(yīng)用舉例:聊天機(jī)器人概述13.3應(yīng)用舉例:機(jī)器翻譯of3718第十三章深度學(xué)習(xí)在文本中的應(yīng)用基于理性主義的機(jī)器翻譯方法主張:由人類(lèi)專(zhuān)家通過(guò)編纂規(guī)則的方式,將自然語(yǔ)言之間的轉(zhuǎn)換規(guī)律“傳授”給計(jì)算機(jī)。主要優(yōu)點(diǎn)是:能夠顯式描述深層次的語(yǔ)言轉(zhuǎn)換規(guī)律。主要缺點(diǎn)是:對(duì)于人的要求非常高,通曉源語(yǔ)言和目標(biāo)語(yǔ)言,熟悉待翻譯文本領(lǐng)域背景知識(shí),還需熟練掌握相關(guān)計(jì)算機(jī)操作技能。使得研制系統(tǒng)的人工成本高、開(kāi)發(fā)周期長(zhǎng),面向小語(yǔ)種開(kāi)發(fā)垂直領(lǐng)域的機(jī)器翻譯因人才稀缺而變得極其困難。當(dāng)翻譯規(guī)則庫(kù)達(dá)到一定的規(guī)模后,如何確保新增的規(guī)則與已有規(guī)則不沖突也是非常大的挑戰(zhàn)。13.3應(yīng)用舉例:機(jī)器翻譯of3719第十三章深度學(xué)習(xí)在文本中的應(yīng)用基于經(jīng)驗(yàn)主義的機(jī)器翻譯方法主張:計(jì)算機(jī)自動(dòng)從大規(guī)模數(shù)據(jù)中“學(xué)習(xí)”自然語(yǔ)言之間的轉(zhuǎn)換規(guī)律。主要優(yōu)點(diǎn)是:人工成本低;開(kāi)發(fā)周期短。主要缺點(diǎn)是:線性不可分;缺乏合適的語(yǔ)義表示;難以設(shè)計(jì)特征;難以充分利用非局部上下文;數(shù)據(jù)稀疏;錯(cuò)誤傳播。13.3應(yīng)用舉例:機(jī)器翻譯of3720第十三章深度學(xué)習(xí)在文本中的應(yīng)用基于深度學(xué)習(xí)的方法大致可以分為兩類(lèi)方法。利用深度學(xué)習(xí)改進(jìn)統(tǒng)計(jì)機(jī)器翻譯:仍以統(tǒng)計(jì)機(jī)器翻譯為主體框架,利用深度學(xué)習(xí)改進(jìn)其中的關(guān)鍵模塊。端到端神經(jīng)機(jī)器翻譯:一種全新的方法體系,直接利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)源語(yǔ)言文本到目標(biāo)語(yǔ)言文本的映射。13.3應(yīng)用舉例:機(jī)器翻譯of3721第十三章深度學(xué)習(xí)在文本中的應(yīng)用深度學(xué)習(xí)改進(jìn)統(tǒng)計(jì)機(jī)器翻譯核心思想是以統(tǒng)計(jì)機(jī)器翻譯為主體,使用深度學(xué)習(xí)改進(jìn)其中的關(guān)鍵模塊,如語(yǔ)言模型、翻譯模型、調(diào)序模型、詞語(yǔ)對(duì)齊等。優(yōu)點(diǎn):能夠幫助機(jī)器翻譯緩解數(shù)據(jù)稀疏問(wèn)題。能夠解決特征難以設(shè)計(jì)的問(wèn)題。13.3應(yīng)用舉例:機(jī)器翻譯of3722第十三章深度學(xué)習(xí)在文本中的應(yīng)用端到端神經(jīng)機(jī)器翻譯基本思想是使用神經(jīng)網(wǎng)絡(luò)直接將源語(yǔ)言文本映射成目標(biāo)語(yǔ)言文本,直接采用神經(jīng)網(wǎng)絡(luò)以端到端方式進(jìn)行翻譯建模的機(jī)器翻譯方法。優(yōu)點(diǎn):不再需要人工設(shè)計(jì)的詞語(yǔ)對(duì)齊、短語(yǔ)切分、句法樹(shù)等隱結(jié)構(gòu);不再需要人工設(shè)計(jì)特征,僅使用非線性的神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)文本的轉(zhuǎn)換。13.3應(yīng)用舉例:機(jī)器翻譯of3723第十三章深度學(xué)習(xí)在文本中的應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)自動(dòng)翻譯兩個(gè)RNNs首尾相連,第一個(gè)RNN給句子生成編碼,第二RNN遵循相反的邏輯,解碼得到目標(biāo)語(yǔ)言,就可以將一序列源語(yǔ)言轉(zhuǎn)換成同樣的目標(biāo)語(yǔ)言序列。神經(jīng)機(jī)器翻譯的翻譯性能取得了突破,超過(guò)了發(fā)展多年的傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯。第十三章深度學(xué)習(xí)在文本中的應(yīng)用概述13.4應(yīng)用舉例:聊天機(jī)器人13.2

基于深度學(xué)習(xí)的文本處理13.3應(yīng)用舉例:機(jī)器翻譯of3724習(xí)題13.1自然語(yǔ)言處理基礎(chǔ)概述13.4應(yīng)用舉例:聊天機(jī)器人of3725第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.4.1. 聊天機(jī)器人的主要功能模塊語(yǔ)音識(shí)別模塊;自然語(yǔ)言處理模塊;對(duì)話管理模塊。13.4應(yīng)用舉例:聊天機(jī)器人of6526第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.4.2. 主要的技術(shù)挑戰(zhàn)對(duì)話上下文建模:對(duì)話的過(guò)程是一個(gè)在特定背景下的連續(xù)交互過(guò)程,一句話的意義往往要結(jié)合上下文或者背景才能確定。而現(xiàn)有的自然語(yǔ)言處理的技術(shù)主要還是基于上下文無(wú)關(guān)假設(shè),因此對(duì)上下文的建模成為亟待解決的問(wèn)題。對(duì)話過(guò)程中的知識(shí)表示:知識(shí)表示是人工智能研究的重要基礎(chǔ),也是聊天機(jī)器人質(zhì)量提升的重要前提,涉及到眾多復(fù)雜的因素,只有全面地描述這些因素的含義和關(guān)系,才能實(shí)現(xiàn)真正的人機(jī)交流。13.4應(yīng)用舉例:聊天機(jī)器人of3727第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.4.3. 深度學(xué)習(xí)構(gòu)建智能聊天機(jī)器人大多采用Encoder-Decoder框架,主要用于文本處理的研究,比如:機(jī)器翻譯、文本摘要、句法分析。一般采用RNN模型,因?yàn)镽NN模型對(duì)于線性序列的字符串來(lái)說(shuō)是比較有效的深度學(xué)習(xí)模型,RNN的改進(jìn)模型LSTM也是經(jīng)常使用的模型。根據(jù)用戶輸入的問(wèn)題,自動(dòng)生成回答。深度學(xué)習(xí)解決多輪會(huì)話的上下文信息問(wèn)題時(shí)大致思路相同,都是在Encoder階段把上下文信息及當(dāng)前輸入的問(wèn)題同時(shí)編碼,以促進(jìn)Decoder階段可以參考上下文信息生成回答。13.4應(yīng)用舉例:聊天

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論