深度學(xué)習(xí)在自然語言處理中的應(yīng)用課件

上傳人：y*** IP屬地：貴州上傳時(shí)間：2022-09-12 格式：PPTX 頁數(shù)：69 大小：1.98MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩64頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、深度學(xué)習(xí)在自然語言處理中的應(yīng)用課件深度學(xué)習(xí)在自然語言處理中的應(yīng)用課件內(nèi)容提綱簡介自然語處理深度學(xué)習(xí)語義表示學(xué)習(xí)詞表示句表示自然語處理的新范式應(yīng)用內(nèi)容提綱簡介自然語言處理自然語言處理從人工智能開始Alan Turing自然語處理：理解和成從人工智能開始Alan Turing自然語處理：理解和什么是自然語言？語是指在個(gè)有限的字符集上，產(chǎn)的符合定規(guī)則的字符串集合。自然語通常是指種自然地隨化演化的語。自然語 VS 語形式語 (Chomsky,1950)區(qū)別自然語：歧義性語：確定性什么是自然語言？語是指在個(gè)有限的字符集上，產(chǎn)的符合歧義：以中文分詞為例不同的語環(huán)境中的同形異構(gòu)現(xiàn)象，按照具體

2、語環(huán)境的語義進(jìn)切法。交叉歧義他說的確實(shí)在理組合歧義兩個(gè)/起/過去、個(gè)/問題從馬/上/下來、馬上/就/來句級歧義白天鵝在里游泳該研究所獲得的成果偽歧義歧義：以中文分詞為例不同的語環(huán)境中的同形異構(gòu)現(xiàn)象，按照自然語言處理自然語處理包括語音識別、自然語理解、自然語成、機(jī)交互以及所涉及的中間階段。是智能和計(jì)算機(jī)科學(xué)的學(xué)科。自然語言處理不等于研究語言學(xué)（計(jì)算語言學(xué)）、文學(xué)。Every time I fire a linguist, the performance of our speech recognition system goes up.- Frederick Jelinek, 1985 /w

3、iki/Fred_Jelinek 自然語言處理自然語處理包括語音識別、自然語理解、自然理想中的自然語言處理流程這是一棵語法樹一這是代詞動詞數(shù)詞一這是代詞動詞數(shù)詞棵語法量詞名詞動詞這是一棵語法樹分詞詞性標(biāo)注棵語法樹量詞名詞動詞句法分析樹語義分析這, 是，語法樹應(yīng)用語義分析機(jī)器翻譯自動問答情感分析知識庫理想中的自然語言處理流程這是一棵語法樹一這是主要任務(wù)自然語處理任務(wù)可以分為四類：詞法分析、句法分析、語義分析、應(yīng)用。主要任務(wù)自然語處理任務(wù)可以分為四類：詞法分析、句法分析發(fā)展歷程1990年以前，基于規(guī)則（rule-based）的法使用寫的規(guī)則1990年以后，基于語料庫（corp

4、us-based）的法也叫實(shí)證（ empirical ）法或數(shù)據(jù)驅(qū)動（data-driven）法量使用統(tǒng)計(jì)或機(jī)器學(xué)習(xí)模型典型應(yīng)用：The mathematics of statistical machine translation: parameter estimation. 19932011年以后，基于神經(jīng)絡(luò)（neural-based）的法端到端的神經(jīng)絡(luò)模型典型應(yīng)用：Sequence to Sequence Learning with Neural Networks, 2014 發(fā)展歷程1990年以前，基于規(guī)則（rule-based）基于語料庫的方法語料庫:本數(shù)據(jù)的集合技術(shù)段：統(tǒng)計(jì)模型機(jī)器

5、學(xué)習(xí)模型基于語料庫的方法語料庫:本數(shù)據(jù)的集合實(shí)際的自然語言處理流程我喜歡讀書。分類模型我討厭讀書。特征抽取參數(shù)學(xué)習(xí)解碼算法模型表示情感分析實(shí)際的自然語言處理流程我喜歡讀書。分類模型我討厭讀書。特文本分類根據(jù)文本內(nèi)容來判斷文本的相應(yīng)類別+- 文本分類根據(jù)文本內(nèi)容來判斷文本的相應(yīng)類別+ 換個(gè)角度看中文分詞0000100010001000110011/0 換個(gè)角度看中文分詞000010001000100011 特征工程問題在實(shí)際應(yīng)用中，特征往往比分類器更重要預(yù)處理：經(jīng)過數(shù)據(jù)的預(yù)處理，如去除噪聲等。比如在本分類中，去除停用詞等。特征提取：從原始數(shù)據(jù)中提取些有效的特征。比如在圖像分類中，提取邊

6、緣、尺度不變特征變換特征等。特征轉(zhuǎn)換：對特征進(jìn)定的加，比如降維和升維。降維包括特征抽取（Feature Extraction）： PCA、LDA特征選擇（Feature Selection）：互信息、TF-IDF 特征工程問題在實(shí)際應(yīng)用中，特征往往比分類器更重要深度學(xué)習(xí)深度學(xué)習(xí) 深度學(xué)習(xí)深度學(xué)習(xí)=表示學(xué)習(xí)+淺層學(xué)習(xí)難點(diǎn)：貢獻(xiàn)度分配問題深度學(xué)習(xí)深度學(xué)習(xí)=表示學(xué)習(xí)+淺層學(xué)習(xí) 表示學(xué)習(xí)與深度學(xué)習(xí)個(gè)好的表示學(xué)習(xí)策略必須具備定的深度特征重用指數(shù)級的表示能抽象表示與不變性抽象表示需要多步的構(gòu)造https:/ 表示學(xué)習(xí)與深度學(xué)習(xí)個(gè)好的表示學(xué)習(xí)策略必須具備定的深度深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)天然不是神經(jīng)絡(luò)，

7、但神經(jīng)絡(luò)天然是深度學(xué)習(xí)！深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)天然不是神經(jīng)絡(luò)，但神經(jīng)絡(luò)天語言表示學(xué)習(xí)語言表示學(xué)習(xí) 語義鴻溝底層特征 VS 層語義們對本、圖像的理解法從字符串或者圖像的底層特征直接獲得床前明月光，疑是地上霜。舉頭望明月，低頭思故鄉(xiāng)。表示學(xué)習(xí) 語義鴻溝底層特征 VS 層語義床前明月光，疑是地上霜語言表示如何在計(jì)算機(jī)中表示語的語義？知識庫規(guī)則分布式表示壓縮、低維、稠密向量用O(N)個(gè)參數(shù)表示 O(2k)區(qū)間k為非0參數(shù)，kN 語言表示如何在計(jì)算機(jī)中表示語的語義？知識庫規(guī)則分布式一個(gè)生活中的例子：顏色命名RGB值紅1,0,0綠0,1,0藍(lán)0,0,1中國紅0.67, 0.22,

8、 0.12咖啡0.64, 0.16,0.16 一個(gè)生活中的例子：顏色命名RGB值紅1,0,0綠0 詞嵌入（Word Embeddings）https:/indico.io/blog/visualizing-with-t-sne/上海北京興難過詞嵌入（Word Embeddings）https:/分布式表示-來自神經(jīng)科學(xué)的證據(jù)http:/ 詞嵌入Socher et al. (2013)W(woman)W(man) W(aunt)W(uncle)W(woman)W(man) W(queen)W(king)W(中國)W(北京) W(英國)W(倫敦)From Mikolov et al. (20

9、13) 詞嵌入Socher et al. (2013)W(wo句子表示句子表示語言表示學(xué)習(xí)詞短語組合語義模型句連續(xù)詞袋模型序列模型遞歸組合模型卷積模型篇章層次模型北京的夭氣真不錯(cuò)。語言表示學(xué)習(xí)詞北京的夭氣真不錯(cuò) 循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)缺點(diǎn)：長距離依賴問題RNN是圖靈完全等價(jià)的 (Siegelmann and Sontag, 1995)FNN：模擬任何函數(shù)RNN：模擬任何程序（計(jì)算過程）。循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN)缺點(diǎn)：長距離依賴問題RNN是圖靈序列模型：RNN 序列模型：RNN 序列到序列模型序列到序列模型文本序列的卷積Filter輸卷積層Pooling

10、層輸出文本序列的卷積Filter輸卷積層Pooling層輸基于卷積模型的句子表示Y. Kim. “Convolutional neural networks for sentence classification”. In: arXiv preprint arXiv:1408.5882 (2014). 基于卷積模型的句子表示Y. Kim. “Convolut 遞歸神經(jīng)網(wǎng)絡(luò)給定個(gè)語法樹， p2 ap1,p1 bc. 遞歸神經(jīng)網(wǎng)絡(luò)給定個(gè)語法樹， p2 ap1, 語言表示學(xué)習(xí)表示學(xué)習(xí)模型詞句、篇章離散表示符號表示One-Hot表示詞袋模型N元模型基于聚類的表示連續(xù) 表示分布式表示Brown聚類

11、K-means聚類潛在語義分析潛在狄利克雷分配分散式表示NNLMSkip-Gram模型 CBOW模型連續(xù)詞袋模型序列模型遞歸組合模型卷積模型語言表示學(xué)習(xí)表示學(xué)習(xí)模型詞句、篇章離散表示符號表示O 為什么語言表示學(xué)習(xí)更難？計(jì)算機(jī)視覺中的深層絡(luò)模型對應(yīng)NLP的最底層：詞匯152 層22層為什么語言表示學(xué)習(xí)更難？計(jì)算機(jī)視覺中的深層絡(luò)模型152 語言表示的幾個(gè)問題認(rèn)知層面主觀性常識知識模型層面長期依賴問題語義組合問題學(xué)習(xí)層面遷移學(xué)習(xí)多任務(wù)學(xué)習(xí) 語言表示的幾個(gè)問題長期依賴問題梯度消失/爆炸（主要因素）改進(jìn)：引個(gè)近似線性依賴的記憶單元來存儲遠(yuǎn)距離的信息。記憶容量（次要因素）記憶單元的存儲能和其

12、小相關(guān)。改進(jìn)：注意機(jī)制與外部記憶長期依賴問題梯度消失/爆炸（主要因素）注意力模型注意力模型語言語義組合如何組合自然語的語義？參數(shù)共享？共享不共享語言語義組合如何組合自然語的語義？共享不共享動態(tài)語義組合網(wǎng)絡(luò)元絡(luò)（Meta network）成基絡(luò)參數(shù)基絡(luò)（Basic Network）動態(tài)參數(shù)Pengfei Liu, Xipeng Qiu, Xuanjing Huang, Dynamic Compositional Neural Networks over Tree Structure, In Proceedings of the Twenty-Sixth International J

13、oint Conference on Artificial Intelligence (IJCAI), pp.4054-4060, 2017.Pengfei Liu, Kaiyu Qian, Xipeng Qiu, Xuanjing Huang, Idiom-Aware Compositional Distributed Semantics, In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1215-1224, 2017. 動態(tài)語義組合網(wǎng)

14、絡(luò)元絡(luò)（Meta network）Pen多任務(wù)學(xué)習(xí)知識共享詞性標(biāo)注組塊分析依次句法分析本蘊(yùn)涵Hashimoto, K., Xiong, C., Tsuruoka, Y., & Socher, R. (2016). A Joint Many-Task Model: Growing a Neural Network for Multiple NLP Tasks. arXiv Preprint arXiv:1611.01587.多任務(wù)學(xué)習(xí)知識共享Hashimoto, K., Xiong, 如何學(xué)習(xí)任務(wù)無關(guān)的共享表示對抗學(xué)習(xí)Pengfei Liu, Xipeng Qiu, Xuanjing Huang

15、, Adversarial Multi-task Learning for Text Classification, In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (ACL), pp. 1-10, 2017. 如何學(xué)習(xí)任務(wù)無關(guān)的共享表示對抗學(xué)習(xí)Pengfei Liu自然語言處理的新范式自然語言處理的新范式自然語言處理任務(wù)在得到字、句表示之后，自然語處理任務(wù)類型劃分為類別（對象）到序列本成圖像描述成序列到類別本分類情感分析同步的序列到序列中分詞詞

16、性標(biāo) 注語義角標(biāo)注異步的序列到序列機(jī)器翻譯自動摘要對話系統(tǒng)減輕了對特征程的依賴！自然語言處理任務(wù)在得到字、句表示之后，自然語處理任務(wù)應(yīng)用例子應(yīng)用例子傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯源語：f目標(biāo)語：e模型： =argmax (|) = argmax (|)()p(f|e): 翻譯模型p(e) : 語模型傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯源語：f 基于序列到序列的機(jī)器翻譯個(gè)RNN用來編碼另個(gè)RNN用來解碼基于序列到序列的機(jī)器翻譯個(gè)RNN用來編碼看圖說話看圖說話看圖說話看圖說話生成LINUX內(nèi)核代碼生成LINUX內(nèi)核代碼作詞機(jī)RNN在“學(xué)習(xí)”過汪峰全部作品后自動成的歌詞我在這里中的夜里就像場是種命的意旪

17、就像我的活變得在我樣可我們這是個(gè)知道我只是天你會怎嗎可我們這是我們的是不要為你我們想這有種活的時(shí)候/phunterlau/wangfeng-rnn 作詞機(jī)RNN在“學(xué)習(xí)”過汪峰全部作品后自動成的歌詞作詩作詩寫字把個(gè)字母的書寫軌跡看作是連串的點(diǎn)。個(gè)字母的“寫法” 其實(shí)是每個(gè)點(diǎn)相對于前個(gè)點(diǎn)的偏移量，記為(offset x, offsety)。再增加維取值為0或1來記錄是否應(yīng)該“提筆”。寫字把個(gè)字母的書寫軌跡看作是連串的點(diǎn)。個(gè)字母的“寫 Making Neural Nets Great Again Making Neural Nets Great Agai 閱讀理解三元組（Q,D,A）問題Q

18、：(1 ,2 , )檔D:(1 ,2 , )答案A: , Fred moved to the bedroom and Joe went to the kitchen then Joe took the milk there and Dan journeyed to the bedroom; Joe discarded the milk.Where is the milk now ?A: the milk is in the kitchenWhere is Dan now?A: I think he is in the bedroomSIMULATED WORLD QA 閱讀理解三元組（Q,D,A）Fred moved to 一般流程一般流程Bidirec

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

深度學(xué)習(xí)在自然語言處理中的應(yīng)用課件

文檔簡介

溫馨提示

最新文檔

評論

深度學(xué)習(xí)在自然語言處理中的應(yīng)用課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔