第13章-深度學(xué)習(xí)在文本中的應(yīng)用

上傳人：于*** IP屬地：遼寧上傳時(shí)間：2024-05-15 格式：PPTX 頁數(shù)：30 大?。?.50MB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩25頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

DEEPLEARNING深度學(xué)習(xí)第十三章深度學(xué)習(xí)在文本中的應(yīng)用概述13.1自然語言處理基礎(chǔ)13.2

基于深度學(xué)習(xí)的文本處理13.3應(yīng)用舉例：機(jī)器翻譯of372習(xí)題13.4應(yīng)用舉例：聊天機(jī)器人概述第十三章深度學(xué)習(xí)在文本中的應(yīng)用of373自然語言處理（NaturalLanguageProcessing，簡稱NLP）需要兼顧到不同平面的知識(shí)：詞匯學(xué)，描述詞匯系統(tǒng)的規(guī)定說明單詞本身固有的語義特性和語法特性；句法學(xué)，根據(jù)單詞和詞組之間的結(jié)構(gòu)規(guī)則說明單詞和詞組怎樣形成句子；語義學(xué)，描述句子中各個(gè)成分之間的語義關(guān)系，這樣的語義關(guān)系是與情境是無關(guān)的；語用學(xué)，描述與情境有關(guān)的情景語義，說明怎樣推導(dǎo)出句子具有的與周圍話語有關(guān)的各種涵義。每個(gè)層面具備自身的特點(diǎn)：詞匯學(xué)主要描述具體的單詞的構(gòu)成成份，如語素、屈折變化形式等；句法學(xué)涉及的是詞和詞組怎樣組成句子的知識(shí)；語義學(xué)指的是給句子指派意義；語用學(xué)則涉及在對(duì)話中話語焦點(diǎn)的轉(zhuǎn)移以及在給定的上下文中解釋句子的含義。第十三章深度學(xué)習(xí)在文本中的應(yīng)用概述13.1自然語言處理基礎(chǔ)13.2

基于深度學(xué)習(xí)的文本處理13.3應(yīng)用舉例：機(jī)器翻譯of374習(xí)題13.4應(yīng)用舉例：聊天機(jī)器人概述13.1自然語言處理基礎(chǔ)13.1.1. 正則表達(dá)式和自動(dòng)機(jī)of375第十三章深度學(xué)習(xí)在文本中的應(yīng)用正則表達(dá)式（regularexpression，簡稱RE）是字符文本序列的標(biāo)準(zhǔn)記錄方式，是一種用于描述文本搜索符號(hào)串的語言，廣泛應(yīng)用于各類信息檢索中。有限狀態(tài)自動(dòng)機(jī)（finite-stateautomaton，簡稱FSA）能夠而且只能夠生成或識(shí)別滿足形式語言定義所要求的形式語言的字符串。示例，五個(gè)狀態(tài)：節(jié)點(diǎn)0是初始狀態(tài)（startstate），節(jié)點(diǎn)4是最后狀態(tài)（finalstate），用雙圓圈表示，另外還有4個(gè)轉(zhuǎn)移（transition），用箭頭線表示。13.1自然語言處理基礎(chǔ)of376第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.1.2. 句法處理句法（syntax）是指把單詞和詞組安排在一起怎樣形成句子的方法。單詞是語言處理的單元，句法是骨架，句法研究單詞之間的形式關(guān)系。單詞可以類聚為詞類（part-of-speech），或者與相鄰的單詞組合成短語。PetergavethebooktoAna. （彼得把這本書給了安娜。）ThebookwasgiventoAnabyPeter. （這本書被彼得給了安娜。）句子的結(jié)構(gòu)并不反映句子的意義，相同的句法結(jié)構(gòu)，在不同的環(huán)境下，具有不同的意義。13.1自然語言處理基礎(chǔ)of377第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.1.3. 詞類和詞類標(biāo)注詞類又稱為POS（Part-of-Speech）能夠提供關(guān)于單詞及其鄰近成分的信息。詞類標(biāo)注（Part-of-Speechtagging或POStagging），簡稱標(biāo)注，指給語料庫中的單詞指派詞類標(biāo)記的過程。這些標(biāo)記也用來標(biāo)注標(biāo)點(diǎn)符號(hào)，因此自然語言的標(biāo)注過程與計(jì)算機(jī)語言的詞例還原（tokenization）過程是一樣的。英語詞類標(biāo)注中的常用標(biāo)記集：PennTreebank的標(biāo)記集包含45個(gè)標(biāo)記，是小標(biāo)記集；CLAWS（theConstituentLikelihoodAutomaticWord-taggingSystem）使用的標(biāo)記集C5包含61個(gè)標(biāo)記，是中型的標(biāo)記集，用于標(biāo)注英國國家語料庫（theBritishNationalCorpus，簡稱BNC）；第三個(gè)標(biāo)記集是包含146個(gè)標(biāo)記的大型標(biāo)記集C7。13.1自然語言處理基礎(chǔ)of378第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.1.4. 上下文無關(guān)語法上下文無關(guān)語法（Context-FreeGrammar，簡稱CFG），上下文無關(guān)語法又稱為短語結(jié)構(gòu)語法（Phrase-StructureGrammar），由規(guī)則（rule）以及詞表（lexicon）構(gòu)成。Chomsky層次語法理論：13.1自然語言處理基礎(chǔ)of379第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.1.5. 淺層句法分析淺層語法分析（shallowparsing）也稱為局部語法分析（partialparsing），處理層次可分為：詞短語句子常見的淺層語法分析主要有兩類：基于統(tǒng)計(jì)基于規(guī)則基于規(guī)則的方法就是根據(jù)人工書寫的或半自動(dòng)獲取的語法規(guī)則標(biāo)注出短語的邊界和短語的類型。規(guī)則的使用相對(duì)簡單，但是規(guī)則的獲取卻比較困難。13.1自然語言處理基礎(chǔ)of3710第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.1.6. 語義分析判斷一句話的意思要分兩步來進(jìn)行:首先，計(jì)算出它上下文無關(guān)的標(biāo)記形式，稱之為邏輯形式（logicalform）；然后，在上下文中對(duì)邏輯形式進(jìn)行解釋，生成最終的意義表示。對(duì)上下文無關(guān)意義的研究稱為語義學(xué)。對(duì)上下文相關(guān)語言的研究稱為語用學(xué)。13.1自然語言處理基礎(chǔ)of3711第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.1.7. 語義網(wǎng)絡(luò)語義網(wǎng)絡(luò)是一種詞法知識(shí)的表示方法,由帶標(biāo)記的鏈和帶標(biāo)記的節(jié)點(diǎn)組成的圖。節(jié)點(diǎn)表示詞義，鏈表示節(jié)點(diǎn)之間的語義關(guān)系。典型詞匯關(guān)系信息庫有：WordNetConceptNetFrameNet第十三章深度學(xué)習(xí)在文本中的應(yīng)用概述13.2基于深度學(xué)習(xí)的文本處理13.1自然語言處理基礎(chǔ)13.3應(yīng)用舉例：機(jī)器翻譯of3712習(xí)題13.4應(yīng)用舉例：聊天機(jī)器人概述13.2基于深度學(xué)習(xí)的文本處理of3713第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.2.1. 詞匯向量化表示使用神經(jīng)網(wǎng)絡(luò)的方法自動(dòng)學(xué)習(xí)詞匯的向量化表示，其基本原則是：一個(gè)詞包含的意義應(yīng)該由該詞周圍的詞決定。13.2基于深度學(xué)習(xí)的文本處理of3714第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.2.2. 句法分析使用遞歸神經(jīng)網(wǎng)絡(luò)（RecursiveNeuralNetwork，RNN）可以實(shí)現(xiàn)對(duì)樹型結(jié)構(gòu)的預(yù)測(cè)。遞歸神經(jīng)網(wǎng)絡(luò)的輸入層有兩部分：左子節(jié)點(diǎn)的向量表示；右子節(jié)點(diǎn)的向量表示。兩個(gè)子節(jié)點(diǎn)的向量表示通過神經(jīng)網(wǎng)絡(luò)后生成父節(jié)點(diǎn)的向量表示，同時(shí)生成一個(gè)打分，表示父節(jié)點(diǎn)的可信度。父節(jié)點(diǎn)的向量表示又可以與其他子節(jié)點(diǎn)組合形成更大的父節(jié)點(diǎn)。依次遞歸，從而形成一棵完整的句法分析樹。13.2基于深度學(xué)習(xí)的文本處理of3715第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.2.3. 神經(jīng)機(jī)器翻譯遞歸自動(dòng)編碼的神經(jīng)網(wǎng)絡(luò)用于學(xué)習(xí)雙語的片段向量化表示，使用交互優(yōu)化的方式訓(xùn)練神經(jīng)網(wǎng)絡(luò)：首先，固定目標(biāo)語言片段的向量表示；然后，以該向量表示為優(yōu)化目標(biāo)，優(yōu)化源語言的神經(jīng)網(wǎng)絡(luò)；最后，固定源語言片段的向量表示，優(yōu)化目標(biāo)語言的神經(jīng)網(wǎng)絡(luò)。雙語約束得到的片段表示應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯的概率估計(jì)中，取得了顯著的效果。13.2基于深度學(xué)習(xí)的文本處理of3716第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.2.4. 情感分析理解人類情感是人工智能的目標(biāo)，深度學(xué)習(xí)可用來判斷情感類別及強(qiáng)度。為處理情感分析問題中語義合成的問題（如“不是很喜歡”與“喜歡”的情感極性相反），利用自然語言的遞歸性質(zhì)與語義的可合成性，句子的情感語義進(jìn)行建模。半監(jiān)督遞歸自動(dòng)編碼模型在由詞向量構(gòu)建短語向量表示時(shí)，可以更多地保留情感信息。句法分析樹用來決定語義合成的順序，以此替代遞歸自動(dòng)編碼模型中通過貪心搜索損失最小的遞歸結(jié)構(gòu)。將每個(gè)詞的情感語義操作信息嵌入到詞向量中，進(jìn)而用來選擇不同的語義合成函數(shù)。第十三章深度學(xué)習(xí)在文本中的應(yīng)用概述13.3應(yīng)用舉例：機(jī)器翻譯13.2

基于深度學(xué)習(xí)的文本處理13.1自然語言處理基礎(chǔ)of3717習(xí)題13.4應(yīng)用舉例：聊天機(jī)器人概述13.3應(yīng)用舉例：機(jī)器翻譯of3718第十三章深度學(xué)習(xí)在文本中的應(yīng)用基于理性主義的機(jī)器翻譯方法主張：由人類專家通過編纂規(guī)則的方式，將自然語言之間的轉(zhuǎn)換規(guī)律“傳授”給計(jì)算機(jī)。主要優(yōu)點(diǎn)是：能夠顯式描述深層次的語言轉(zhuǎn)換規(guī)律。主要缺點(diǎn)是：對(duì)于人的要求非常高，通曉源語言和目標(biāo)語言，熟悉待翻譯文本領(lǐng)域背景知識(shí)，還需熟練掌握相關(guān)計(jì)算機(jī)操作技能。使得研制系統(tǒng)的人工成本高、開發(fā)周期長，面向小語種開發(fā)垂直領(lǐng)域的機(jī)器翻譯因人才稀缺而變得極其困難。當(dāng)翻譯規(guī)則庫達(dá)到一定的規(guī)模后，如何確保新增的規(guī)則與已有規(guī)則不沖突也是非常大的挑戰(zhàn)。13.3應(yīng)用舉例：機(jī)器翻譯of3719第十三章深度學(xué)習(xí)在文本中的應(yīng)用基于經(jīng)驗(yàn)主義的機(jī)器翻譯方法主張：計(jì)算機(jī)自動(dòng)從大規(guī)模數(shù)據(jù)中“學(xué)習(xí)”自然語言之間的轉(zhuǎn)換規(guī)律。主要優(yōu)點(diǎn)是：人工成本低；開發(fā)周期短。主要缺點(diǎn)是：線性不可分；缺乏合適的語義表示；難以設(shè)計(jì)特征；難以充分利用非局部上下文；數(shù)據(jù)稀疏；錯(cuò)誤傳播。13.3應(yīng)用舉例：機(jī)器翻譯of3720第十三章深度學(xué)習(xí)在文本中的應(yīng)用基于深度學(xué)習(xí)的方法大致可以分為兩類方法。利用深度學(xué)習(xí)改進(jìn)統(tǒng)計(jì)機(jī)器翻譯：仍以統(tǒng)計(jì)機(jī)器翻譯為主體框架，利用深度學(xué)習(xí)改進(jìn)其中的關(guān)鍵模塊。端到端神經(jīng)機(jī)器翻譯：一種全新的方法體系，直接利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)源語言文本到目標(biāo)語言文本的映射。13.3應(yīng)用舉例：機(jī)器翻譯of3721第十三章深度學(xué)習(xí)在文本中的應(yīng)用深度學(xué)習(xí)改進(jìn)統(tǒng)計(jì)機(jī)器翻譯核心思想是以統(tǒng)計(jì)機(jī)器翻譯為主體，使用深度學(xué)習(xí)改進(jìn)其中的關(guān)鍵模塊，如語言模型、翻譯模型、調(diào)序模型、詞語對(duì)齊等。優(yōu)點(diǎn)：能夠幫助機(jī)器翻譯緩解數(shù)據(jù)稀疏問題。能夠解決特征難以設(shè)計(jì)的問題。13.3應(yīng)用舉例：機(jī)器翻譯of3722第十三章深度學(xué)習(xí)在文本中的應(yīng)用端到端神經(jīng)機(jī)器翻譯基本思想是使用神經(jīng)網(wǎng)絡(luò)直接將源語言文本映射成目標(biāo)語言文本，直接采用神經(jīng)網(wǎng)絡(luò)以端到端方式進(jìn)行翻譯建模的機(jī)器翻譯方法。優(yōu)點(diǎn)：不再需要人工設(shè)計(jì)的詞語對(duì)齊、短語切分、句法樹等隱結(jié)構(gòu)；不再需要人工設(shè)計(jì)特征，僅使用非線性的神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)文本的轉(zhuǎn)換。13.3應(yīng)用舉例：機(jī)器翻譯of3723第十三章深度學(xué)習(xí)在文本中的應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)自動(dòng)翻譯兩個(gè)RNNs首尾相連，第一個(gè)RNN給句子生成編碼，第二RNN遵循相反的邏輯，解碼得到目標(biāo)語言，就可以將一序列源語言轉(zhuǎn)換成同樣的目標(biāo)語言序列。神經(jīng)機(jī)器翻譯的翻譯性能取得了突破，超過了發(fā)展多年的傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯。第十三章深度學(xué)習(xí)在文本中的應(yīng)用概述13.4應(yīng)用舉例：聊天機(jī)器人13.2

基于深度學(xué)習(xí)的文本處理13.3應(yīng)用舉例：機(jī)器翻譯of3724習(xí)題13.1自然語言處理基礎(chǔ)概述13.4應(yīng)用舉例：聊天機(jī)器人of3725第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.4.1. 聊天機(jī)器人的主要功能模塊語音識(shí)別模塊；自然語言處理模塊；對(duì)話管理模塊。13.4應(yīng)用舉例：聊天機(jī)器人of6526第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.4.2. 主要的技術(shù)挑戰(zhàn)對(duì)話上下文建模：對(duì)話的過程是一個(gè)在特定背景下的連續(xù)交互過程，一句話的意義往往要結(jié)合上下文或者背景才能確定。而現(xiàn)有的自然語言處理的技術(shù)主要還是基于上下文無關(guān)假設(shè)，因此對(duì)上下文的建模成為亟待解決的問題。對(duì)話過程中的知識(shí)表示：知識(shí)表示是人工智能研究的重要基礎(chǔ)，也是聊天機(jī)器人質(zhì)量提升的重要前提，涉及到眾多復(fù)雜的因素，只有全面地描述這些因素的含義和關(guān)系，才能實(shí)現(xiàn)真正的人機(jī)交流。13.4應(yīng)用舉例：聊天機(jī)器人of3727第十三章深度學(xué)習(xí)在文本中的應(yīng)用13.4.3. 深度學(xué)習(xí)構(gòu)建智能聊天機(jī)器人大多采用Encoder-Decoder框架，主要用于文本處理的研究，比如：機(jī)器翻譯、文本摘要、句法分析。一般采用RNN模型，因?yàn)镽NN模型對(duì)于線性序列的字符串來說是比較有效的深度學(xué)習(xí)模型，RNN的改進(jìn)模型LSTM也是經(jīng)常使用的模型。根據(jù)用戶輸入的問題，自動(dòng)生成回答。深度學(xué)習(xí)解決多輪會(huì)話的上下文信息問題時(shí)大致思路相同，都是在Encoder階段把上下文信息及當(dāng)前輸入的問題同時(shí)編碼，以促進(jìn)Decoder階段可以參考上下文信息生成回答。13.4應(yīng)用舉例：聊天

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第13章-深度學(xué)習(xí)在文本中的應(yīng)用

文檔簡介

溫馨提示

最新文檔

評(píng)論

第13章-深度學(xué)習(xí)在文本中的應(yīng)用

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔