《深度學(xué)習(xí):基于PyTorch 》 課件 第7章:序列模型_第1頁
《深度學(xué)習(xí):基于PyTorch 》 課件 第7章:序列模型_第2頁
《深度學(xué)習(xí):基于PyTorch 》 課件 第7章:序列模型_第3頁
《深度學(xué)習(xí):基于PyTorch 》 課件 第7章:序列模型_第4頁
《深度學(xué)習(xí):基于PyTorch 》 課件 第7章:序列模型_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第七章:序列模型1.Word2Vec的原理與應(yīng)用RNN與LSTM模型的工作原理如何訓(xùn)練一個(gè)RNN模型用于機(jī)器作詩如何訓(xùn)練一個(gè)LSTM模型用于樂曲生成編碼-解碼模型的原理如何訓(xùn)練一個(gè)端到端的機(jī)器翻譯模型學(xué)習(xí)目標(biāo)詞嵌入詞嵌入(WordEmbedding)詞嵌入(WordEmbedding)是深度學(xué)習(xí)中一種流行的用于表示文本數(shù)據(jù)的方法,即將文本轉(zhuǎn)換為數(shù)值的表示形式,一種常見的方式是轉(zhuǎn)換為one-hot形式0123456789010000000001010000000020010000000…8000000001090000000001對0-9數(shù)字重新編碼詞匯表征與語義相似性預(yù)測括號中的內(nèi)容Iwantabottleoforange()可能的方法步驟:把每個(gè)單詞進(jìn)行one-hot編碼會(huì)形成一個(gè)超大的稀疏矩陣學(xué)習(xí)輸入到輸出的映射關(guān)系缺點(diǎn):會(huì)產(chǎn)生維數(shù)災(zāi)難不能很好的獲取詞語與詞語之間的相似性

對詞語相似性的兩種理解兩個(gè)詞經(jīng)常在一起出現(xiàn),例如:周末加班語義相關(guān)性——把這兩個(gè)詞的位置互換,相應(yīng)的句子仍然是自然語言詞語相似性本章更多關(guān)注的是語義相關(guān)性語義相關(guān)性的幾何理解首先,把一個(gè)個(gè)抽象的詞或句子映射到一個(gè)歐式空間中,因?yàn)闅W式空間有距離的概念。需要建立一個(gè)映射關(guān)系,將詞或者短句,映射到帶有距離的高維歐式空間中。這樣的目標(biāo)稱為詞嵌入(WordEmbedding),即把一個(gè)個(gè)word(詞),embed(嵌入)高維的歐氏空間中。詞嵌入(WordEmbedding)舉例:詞嵌入的數(shù)學(xué)表達(dá)詞嵌入就是要通過大量的文本數(shù)據(jù)學(xué)習(xí),找到每一個(gè)詞匯與高維空間的映射關(guān)系,表示該詞匯在抽象空間中的位置,即它的坐標(biāo)。三個(gè)詞:酒店,賓館,旅店所有的相對距離是保持不變的。這說明抽象空間中詞匯的位置不可識(shí)別。詞嵌入的理論原理詞嵌入經(jīng)典文獻(xiàn)由托馬斯·米克羅夫(TomasMikolov)等人在2013年ICLR大會(huì)上的一篇論文中提出根據(jù)上下文來預(yù)測中間詞的連續(xù)詞袋(continuousbag-of-words,CBOW)模型根據(jù)中間詞來預(yù)測上下文的跳字(skip-gram)模型詞嵌入的理論原理

詞嵌入的理論原理

案例數(shù)據(jù)來源:IMDB影評數(shù)據(jù)集,收集了25000條IMDB網(wǎng)站上的英文影評文本及評論的情感正負(fù)向標(biāo)簽數(shù)據(jù)讀入與展示詞嵌入的程序?qū)崿F(xiàn)分詞及結(jié)果展示詞嵌入的程序?qū)崿F(xiàn)詞嵌入函數(shù)——Word2Vec函數(shù)size:虛擬空間維度min_count:詞頻小于min_count的詞不被考慮維度越低,參數(shù)越少,越靈活維度越高,參數(shù)越高,需要的樣本量越大,計(jì)算時(shí)間越多詞嵌入的程序?qū)崿F(xiàn)詞語相似性結(jié)果演示——model.wv.similarity函數(shù)詞嵌入的程序?qū)崿F(xiàn)繪制星空圖進(jìn)行可視化:bad、director、zombie詞嵌入的程序?qū)崿F(xiàn)RNN模型與機(jī)器自動(dòng)作詩詩,是一種藝術(shù)作詩講究“前言搭后語”機(jī)器作詩與回歸分析機(jī)器作詩其實(shí)就是一個(gè)回歸分析的概率問題。通過學(xué)習(xí)現(xiàn)有詩歌的搭配規(guī)律,機(jī)器也能作詩!機(jī)器作詩原理

機(jī)器作詩原理

RNN前期知識(shí)一個(gè)更為合理的建模方式對序列數(shù)據(jù)中的信息充分提取,將歷史信息傳遞下來RNN前期知識(shí)

RNN前期知識(shí)

循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是狀態(tài)空間模型在文本序列數(shù)據(jù)上的一種具體的實(shí)現(xiàn)方法。它的核心思想是不斷保留與傳遞歷史信息,而保留和傳遞的載體就是狀態(tài)。狀態(tài)能夠沉淀非常豐富的歷史信息,有助于整個(gè)序列合理精確地向前演進(jìn)。早期的相關(guān)RNN的文獻(xiàn)RNN模型

RNN模型

更為一般的RNN模型展示

數(shù)據(jù)讀入與展示讀入與展示數(shù)據(jù)讀入數(shù)據(jù)創(chuàng)建字符編碼字典讀入數(shù)據(jù)對詩歌進(jìn)行編碼,從原始數(shù)據(jù)到矩陣數(shù)據(jù)處理:從原始數(shù)據(jù)到矩陣數(shù)據(jù)處理:處理長短不一并對其X和Y這里需要注意的是數(shù)據(jù),以“春眠不覺曉”這句詩為例,輸入是“春眠不覺”,預(yù)測的目標(biāo)是“眠不覺曉”:輸入“春”的時(shí)候,網(wǎng)絡(luò)預(yù)測的下一個(gè)字的目標(biāo)是“眠”。輸入“眠”的時(shí)候,網(wǎng)絡(luò)預(yù)測的下一個(gè)字的目標(biāo)是“不”。輸入“不”的時(shí)候,網(wǎng)絡(luò)預(yù)測的下一個(gè)字的目標(biāo)是“覺”。輸入“覺”的時(shí)候,網(wǎng)絡(luò)預(yù)測的下一個(gè)字的目標(biāo)是“曉”?!WCX和Y是這種“錯(cuò)位”的關(guān)系數(shù)據(jù)處理:補(bǔ)0、對齊X和Y構(gòu)建RNN模型參數(shù)個(gè)數(shù)計(jì)算RNN寫藏頭詩poem_incomplete=‘深****度****學(xué)****習(xí)****‘…原理實(shí)現(xiàn):RNN作詩LSTM模型與自動(dòng)作曲RNN無法實(shí)現(xiàn)長期記憶性。skyFrench短句子長句子LSTM前期知識(shí)思考:如何實(shí)現(xiàn)長期記憶性?LSTM前期知識(shí)

LSTM前期知識(shí)長短期記憶模型(LongShortTermMemory,LSTM)——既兼顧長期記憶性(longtermdependency),又兼顧短期記憶性(shorttermdependency)LSTM是RNN的一個(gè)優(yōu)秀的變種模型,能很好的處理“長距離依賴”問題。LSTM模型LSTM模型LSTM的非線性變換遺忘門——長期狀態(tài)變量繼承的更新輸入門——長期狀態(tài)變量吸收的更新輸出門——長期狀態(tài)變量的輸出更新LSTM模型的三個(gè)門LSTM的非線性變換遺忘門——長期狀態(tài)變量繼承的更新:數(shù)據(jù)需要“過濾”一部分信息LSTM模型:遺忘門LSTM的非線性變換輸入門——長期狀態(tài)變量吸收的更新:下一時(shí)刻的狀態(tài)需要加入多少“新信息”LSTM模型:輸入門LSTM的非線性變換輸出門——長期狀態(tài)變量的輸出更新LSTM模型:輸出門MIDI樂曲文件格式介紹midi格式音樂的特征是其主要存儲(chǔ)了音樂所使用的樂器以及具體的音樂序列(或者說音軌)及序列中每個(gè)時(shí)間點(diǎn)的音符信息。具體而言,每首音樂往往由多個(gè)音樂序列(或者說音軌)組成,即midi文件中的parts,(各個(gè)part在播放時(shí)是一起并行播放的)每個(gè)part又由許多elements組成,可以理解為就是按時(shí)間順序排列的音符(包括和弦)序列,主要以數(shù)字和字母組合的音高符號來記錄。利用LSTM自動(dòng)作曲提供的文件Musicians:音樂家列表Seqs:樂曲序列Namelist:每首樂曲對應(yīng)的音樂家例子:對音符進(jìn)行編碼利用LSTM自動(dòng)作曲數(shù)據(jù)預(yù)處理統(tǒng)一維度,對于不足維度的進(jìn)行補(bǔ)0處理(例如本例中設(shè)置為1000)與作詩類似,每次預(yù)測下一個(gè)音符,輸入的是前一個(gè)音符教材中采取的是只把最后一個(gè)音符作為Y,其他前面所有的作為X(需要改進(jìn))利用LSTM自動(dòng)作曲共有614首曲子,最大維度為1000,“掐頭去尾”工作模型構(gòu)建思路考慮到不同音樂家的樂曲風(fēng)格存在差異,這里嘗試用樂曲所屬音樂家的序號(one-hot向量化)經(jīng)可訓(xùn)練的dense層變換后的特征向量對不同音樂家樂曲的LSTM隱藏變量進(jìn)行不同的初始化,以試圖幫助模型適應(yīng)不同音樂家在樂曲風(fēng)格上可能存在的差異。利用LSTM自動(dòng)作曲生成指定音樂家的音樂根據(jù)已有的部分樂譜,生成一首新的樂曲,并且考慮音樂家的要素。預(yù)測過程如下:首先,指定音樂家的風(fēng)格,將其作為模型的一部分輸入來進(jìn)行隱藏狀態(tài)的條件初始化其次,從所指定的音樂家樂曲中隨機(jī)挑選一首作為提供部分樂譜的依據(jù)最后,與作詩模型預(yù)測類似的預(yù)測過程(只不過輸入部分增加了我們所指定的音樂家向量)利用LSTM自動(dòng)作曲編碼-解碼框架:機(jī)器翻譯文本序列分析一個(gè)最廣泛的應(yīng)用就是機(jī)器翻譯機(jī)器翻譯原理機(jī)器翻譯貌似很簡單然而,現(xiàn)實(shí)是……回歸分析視角模型挑戰(zhàn):長度不確定的時(shí)間序列,它的輸出也是一個(gè)長度不確定的時(shí)間序列機(jī)器翻譯解析與預(yù)測——seq2seqEncoder過程的任務(wù)是消化理解英文,將其變成狀態(tài)空間中的狀態(tài)變量。Decoder過程的任務(wù)是再次充分理解狀態(tài)變量之后,以中文的方式把它翻譯出來。機(jī)器翻譯Encoder與Decoder步驟詳解機(jī)器翻譯Encoder與Decoder步驟詳解機(jī)器翻譯Encoder與Decoder步驟詳解機(jī)器翻譯數(shù)據(jù)展示數(shù)據(jù)集(data/cmn.txt)是采用人工翻譯后的中英文語句,共20403條Wait! 等!Hello! 你好。Itry. 讓我來。Iwon! 我贏了。Ohno! 不會(huì)吧?!咐褐杏⑽姆g中英文文本準(zhǔn)備中英文文本,首先初始化兩個(gè)不同的列表,一個(gè)為English,另一個(gè)為Chinese,分別用來存儲(chǔ)英文和中文詞根。英語文本根據(jù)空格拆分中文文本利用jieba分詞(在最前面需要添加一個(gè)無意義的字符B)輸出:['If','I','were','you,',"I'd",'want','to','know','what','Tom','is','doing','right','now']['B','如果','我','是','你',',','我','不會(huì)','想','去','知道','Tom','現(xiàn)在','正在','做','什么','。']案例:中英文翻譯中文/英文字符編碼

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論