基于深度學(xué)習(xí)的文本自動(dòng)生成_第1頁(yè)
基于深度學(xué)習(xí)的文本自動(dòng)生成_第2頁(yè)
基于深度學(xué)習(xí)的文本自動(dòng)生成_第3頁(yè)
基于深度學(xué)習(xí)的文本自動(dòng)生成_第4頁(yè)
基于深度學(xué)習(xí)的文本自動(dòng)生成_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于深度學(xué)習(xí)的文本自動(dòng)生成主講人信息工程學(xué)院高政霞老師《實(shí)戰(zhàn)深度學(xué)習(xí)—原理、框架和應(yīng)用》前言未來(lái)有一天可能計(jì)算機(jī)能夠像人類一樣會(huì)寫作,能夠撰寫出高質(zhì)量的自然語(yǔ)言文本。文本自動(dòng)生成就是實(shí)現(xiàn)這一目的的關(guān)鍵技術(shù)。按照不同的輸入劃分,文本生成可包括文本到文本的生成、意義到文本的生成、數(shù)據(jù)到文本的生成以及圖像到文本的生成等。文本自動(dòng)生成是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要研究方向,實(shí)現(xiàn)文本自動(dòng)生成也是人工智能走向成熟的一個(gè)重要標(biāo)志。文本自動(dòng)生成技術(shù)極具前景。例如,可以應(yīng)用于智能問答與對(duì)話等系統(tǒng),實(shí)現(xiàn)更加智能和自然的人機(jī)交互;在自然語(yǔ)言處理與人工智能領(lǐng)域均有相當(dāng)多的前沿研究,近幾年已產(chǎn)生若干具國(guó)際影響力的成果與應(yīng)用。例如,美聯(lián)社自2014年7月開始已采用新聞寫作軟件自動(dòng)撰寫新聞稿件來(lái)報(bào)道公司業(yè)績(jī),這大大減少了記者的工作量。在本章中主要講解文本到文本的生成。文本到文本的生成技術(shù)主要是指對(duì)給定文本進(jìn)行變換和處理從而獲得新文本的技術(shù),具體來(lái)說(shuō)包括文本摘要(DocumentSummarization)、句子壓縮(SentenceCompression)、句子融合(SentenceFusion)、文本復(fù)述(ParaphraseGeneration)等。第一章第二章第三章第四章訓(xùn)練文本數(shù)據(jù)采集LSTM五言律詩(shī)自動(dòng)生成設(shè)計(jì)測(cè)試LSTM模型本章總結(jié)01訓(xùn)練文本數(shù)據(jù)采集五言律詩(shī)的生成采用的是文本到文本的文本復(fù)述技術(shù),即通過輸入的文本生成新的文本,在輸出的表達(dá)上各有不同,但是其結(jié)構(gòu)基本相同。因此,五言律詩(shī)的自動(dòng)生成輸入的訓(xùn)練數(shù)據(jù)集也是五言律詩(shī),由于五言律詩(shī)屬于文學(xué)作品,在圖書館類型網(wǎng)站也可找到,比如360的個(gè)人圖書館()、短美文網(wǎng)()等。當(dāng)然,把訓(xùn)練數(shù)據(jù)集換成小說(shuō)也是可以的,小說(shuō)的數(shù)據(jù)源可以在GitHub(/JinpengLI/chinese_text_dataset)網(wǎng)站下載。01訓(xùn)練文本數(shù)據(jù)采集

訓(xùn)練文本數(shù)據(jù)源下載的文本數(shù)據(jù)包含了詩(shī)歌名和作者名,這部分不是訓(xùn)練數(shù)據(jù)集想要的部分。所以就要對(duì)下載后的數(shù)據(jù)集做處理。觀察已有數(shù)據(jù)后可發(fā)現(xiàn)詩(shī)歌名和作者均在同一行,只要找到那一行就可對(duì)數(shù)據(jù)集進(jìn)行簡(jiǎn)單清理運(yùn)行以上代碼可得。下載好文本數(shù)據(jù)后會(huì)發(fā)現(xiàn)內(nèi)容類似如下:01訓(xùn)練文本數(shù)據(jù)采集

訓(xùn)練文本數(shù)據(jù)整理12302LSTM五言律詩(shī)自動(dòng)生成設(shè)計(jì)在進(jìn)行長(zhǎng)短期記憶網(wǎng)絡(luò)五言律詩(shī)自動(dòng)生成:

首先需獲取足夠的訓(xùn)練五言律詩(shī)數(shù)據(jù)集。訓(xùn)練的五言律詩(shī)數(shù)據(jù)集越大,五言律詩(shī)自動(dòng)生成的多樣性越多然后對(duì)五言律詩(shī)數(shù)據(jù)集規(guī)范化,規(guī)范化就是確保訓(xùn)練數(shù)據(jù)集只包含有五言律詩(shī),每一句均是五言律詩(shī)

在獲取到足夠的訓(xùn)練五言律詩(shī)數(shù)據(jù)后,開始搭建長(zhǎng)短期記憶網(wǎng)絡(luò),使用的是Keras函數(shù)庫(kù)搭建長(zhǎng)短期記

憶網(wǎng)絡(luò)模型。長(zhǎng)短期記憶網(wǎng)絡(luò)包含了輸入層、LSTM層、全連接層和輸出層。

確定好層數(shù)后,進(jìn)一步確定輸出維度是多少,輸出張量是屬于3D還是2D,以及激活函數(shù)是ReLu函數(shù)還是Tanh函數(shù)。每層之間的Dropout正則化參數(shù)是多少,以及全連接層的激活函數(shù)是什么。02LSTM五言律詩(shī)自動(dòng)生成設(shè)計(jì)

基于深度學(xué)習(xí)的詩(shī)歌自動(dòng)生成,是使用Python實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)搭建和文本數(shù)據(jù)預(yù)處理等過程,再使用Keras接口調(diào)用Theano或Tensorflow后端進(jìn)行訓(xùn)練。文本預(yù)處理就是統(tǒng)計(jì)文本訓(xùn)練數(shù)據(jù)的長(zhǎng)度、訓(xùn)練數(shù)據(jù)的字庫(kù)及長(zhǎng)度、創(chuàng)建唯一字符到整數(shù)的映射和反向映射02LSTM五言律詩(shī)自動(dòng)生成設(shè)計(jì)

文本預(yù)處理五言律詩(shī)文本數(shù)據(jù)的標(biāo)準(zhǔn)化包括數(shù)據(jù)采集后的詩(shī)歌名刪除、作者名刪除和多余的標(biāo)點(diǎn)符號(hào)進(jìn)行刪除。理論上來(lái)講,最后的數(shù)據(jù)集只包含了五言律詩(shī),詩(shī)歌的標(biāo)點(diǎn)符號(hào)只包含有“,”、“;”和“。”。同時(shí)文本數(shù)據(jù)放入輸入層之前也要進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化,下方代碼的x和y就是經(jīng)過標(biāo)準(zhǔn)化的數(shù)據(jù)。02LSTM五言律詩(shī)自動(dòng)生成設(shè)計(jì)

文本數(shù)據(jù)標(biāo)準(zhǔn)化長(zhǎng)短期記憶網(wǎng)絡(luò)的搭建使用的是Keras函數(shù)庫(kù)進(jìn)行搭建,在Theano后端運(yùn)行。使用Keras搭建長(zhǎng)短期記憶網(wǎng)絡(luò)需要導(dǎo)入Keras相關(guān)的函數(shù)模塊,包括keras.layers模塊里的Dense、LSTM、Dropout模塊,還包括keras.models里的Sequential、load_model模塊和keras.utils的to_categorical、np_utils模塊。02LSTM五言律詩(shī)自動(dòng)生成設(shè)計(jì)

LSTM模型搭建完整的網(wǎng)絡(luò)模型搭建如下首先,先使用Sequential函數(shù)定義模型的創(chuàng)建是自上而下的,然后再逐層的搭建。LSTM層里的input_dim表示的是輸出維度,input_shape表示的是輸入,值得注意的是僅僅第一層需要輸入,其他層的輸入來(lái)源于上一層的輸出,Dropout正則化是Keras減少過擬合的一個(gè)重要函數(shù),也是最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)正則化方法。Dropout能夠模擬具有大量不同網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),并且反過來(lái)使網(wǎng)絡(luò)中的節(jié)點(diǎn)更具有魯棒性訓(xùn)練模型的目的是為了使得模型可以自動(dòng)生成詩(shī)歌,直接讀取數(shù)據(jù),并把輸入數(shù)據(jù)標(biāo)準(zhǔn)化后放入模型中訓(xùn)練,然后把訓(xùn)練結(jié)果保存在.hdf5文件中。fit函數(shù)中的batch_size為每次訓(xùn)練的樣本數(shù),epochs為訓(xùn)練輪數(shù)。02LSTM五言律詩(shī)自動(dòng)生成設(shè)計(jì)

訓(xùn)練LSTM模型03測(cè)試LSTM模型用深度學(xué)習(xí)生成序列數(shù)據(jù)的通用方法就是使用前面的標(biāo)記作為輸入,訓(xùn)練一個(gè)循環(huán)網(wǎng)絡(luò)或卷積網(wǎng)絡(luò)來(lái)預(yù)測(cè)序列中接下來(lái)的一個(gè)或多個(gè)標(biāo)記。圖10-1使用語(yǔ)言模型生成文本的過程03測(cè)試LSTM模型

生成序列數(shù)據(jù)通常文本生成的基本策略是借助語(yǔ)言模型,這是一種基于概率的模型,可根據(jù)輸入數(shù)據(jù)預(yù)測(cè)下一個(gè)最有可能出現(xiàn)的詞,而文本作為一種序列數(shù)據(jù)(sequencedata),詞與詞之間存在上下文關(guān)系,所以使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)基本上是標(biāo)配在訓(xùn)練完一個(gè)語(yǔ)言模型后,可輸入一段初始文本,讓模型生成一個(gè)詞,把這個(gè)詞加入到輸入文本中,再預(yù)測(cè)下一個(gè)。過程如圖10-1所示。生成文本時(shí),如何選擇下一個(gè)字符至關(guān)重要。一種簡(jiǎn)單的方法就是貪婪采樣(greedysampling),就是始終選擇可能性最大的下一個(gè)字符。但這種方法會(huì)得到重復(fù)的字符串,看起來(lái)不像連貫的語(yǔ)言。還有一種就是隨機(jī)采樣,在采樣過程中引入隨機(jī)性,即從下一個(gè)字符的概率分布中進(jìn)行采樣。從模型的softmax輸出中進(jìn)行概率采樣是一種特別巧妙的方法,甚至可以在某些時(shí)候采樣到不常見的字符,從而生成看起來(lái)更有趣的句子。但這種方法有一個(gè)問題,就是采樣過程中的隨機(jī)性無(wú)法控制。03測(cè)試LSTM模型

定義采樣方法為了采樣過程中隨機(jī)性可控,引入一個(gè)叫softmax溫度(softmaxtemprature)的參數(shù),用于表示采樣概率分布的熵,即表示所選擇的下一個(gè)字符會(huì)有多么的出人意料。給定一個(gè)temperature值對(duì)原始概率分布(即模型的softmax輸出)進(jìn)行重新加權(quán),計(jì)算得到一個(gè)新的概率分布。右側(cè)代碼表示當(dāng)t等于None時(shí)才是貪婪采樣,其他的1、1.5、2均是溫度。03測(cè)試LSTM模型

定義采樣方法接下來(lái)將對(duì)模型進(jìn)行測(cè)試,從四個(gè)方面進(jìn)行測(cè)試,分別是貪婪采樣、溫度為1的隨機(jī)采樣、溫度為1.5的隨機(jī)采樣和溫度為2的隨機(jī)采樣。知道采樣方法后,即可開始對(duì)模型進(jìn)行測(cè)試:03測(cè)試LSTM模型

定義采樣方法輸出結(jié)果如圖10-2和圖10-3所示。圖10-2無(wú)輸入標(biāo)題生成五言律詩(shī)圖10-3按輸入標(biāo)題生成五言律詩(shī)以上采用是的長(zhǎng)短期記憶網(wǎng)絡(luò)搭建的模型,在前文提到,卷積神經(jīng)網(wǎng)絡(luò)也可實(shí)現(xiàn)文本的自動(dòng)生成,以下給出簡(jiǎn)單的CNN模型搭建,只要用以下代碼替換LSTM模型部分的代碼即可03測(cè)試LSTM模型

定義采樣方法04本章總結(jié)04本章小結(jié)

在本章基于深度學(xué)習(xí)的文本自動(dòng)生成

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論