下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于LSTM模型的現(xiàn)代文古詩(shī)生成技術(shù)一 背景介紹讀史書使人明智,讀詩(shī)書使人靈秀,詩(shī)詞是中國(guó)千百年來(lái)的文化積淀和民族瑰寶,是語(yǔ)言的精華,是智慧的結(jié)晶,是思想的花朵,是人類最純粹的精神家園。但隨著語(yǔ)言的發(fā)展,當(dāng)代人對(duì)詩(shī)詞的了解越來(lái)越少,作詩(shī)的能力也遠(yuǎn)遠(yuǎn)比不上古人。幸運(yùn)的是,隨著大數(shù)據(jù)時(shí)代的到來(lái),人工智能飛速發(fā)展,通過(guò)計(jì)算機(jī)古詩(shī)詞的自動(dòng)轉(zhuǎn)換成為可能。例如,可以通給出一個(gè)目標(biāo)主題,機(jī)器可以自動(dòng)生成一首符合該主題的古詩(shī)。讓機(jī)器做詩(shī)可以減少人類在寫詩(shī)中尋詞、造句上的困難,使詩(shī)人關(guān)注詩(shī)的主題、意境等更有價(jià)值的東西;同時(shí),機(jī)器做的詩(shī)不受人類傳統(tǒng)思維的束縛,創(chuàng)新性極強(qiáng)。這些創(chuàng)新性雖然并不完全合理,但卻給詩(shī)人豐富
2、的提示,進(jìn)而激發(fā)詩(shī)人更多創(chuàng)作靈感,寫出更具有奇思妙想的創(chuàng)新型作品。我們相信,古詩(shī)的自動(dòng)生成可以極大激人們對(duì)古典文學(xué)的興趣,對(duì)我國(guó)傳統(tǒng)藝術(shù)的發(fā)展與繼承有著重要的作用。然而,當(dāng)前依主題指定方式為基礎(chǔ)的自動(dòng)做詩(shī)方法具有很大的局限性。一方面,這種方式對(duì)主題詞的選擇要求較高,只有主題詞選的合理,生成的古詩(shī)才更合理。這對(duì)很多普通用戶形成很大障礙,我們希望用戶只用現(xiàn)代漢語(yǔ)描述出要生成古詩(shī)要表達(dá)的意境和內(nèi)容,機(jī)器將這一描述濃縮成古詩(shī),因而可極大提高古詩(shī)生成系統(tǒng)的適用性。另一方面,依當(dāng)前主題詞指定的方式,詩(shī)人只能在大泛圍內(nèi)給出做詩(shī)的內(nèi)容,卻不能精確控制做詩(shī)的流程。事實(shí)上,古詩(shī)不僅是詞語(yǔ)的合規(guī)批湊,更重要的是詩(shī)人
3、感情通過(guò)寫景、敘事過(guò)程的遞進(jìn)式升華。當(dāng)前以主題限定方式生成的古詩(shī),不具有思維的連慣性和活躍性,無(wú)法形成合理的表義邏輯,無(wú)法形成完整遞進(jìn)的主題表達(dá),因而生成的詩(shī)很多只是詞語(yǔ)的堆砌,缺乏情感和邏輯性,應(yīng)用有限。本發(fā)明提出一種新穎的古詩(shī)生成方式和相關(guān)算法,可以將一段現(xiàn)代漢語(yǔ)濃縮轉(zhuǎn)寫為古詩(shī)詞;同時(shí),允許現(xiàn)代文按句指定每句古詩(shī)的內(nèi)容,這樣現(xiàn)代文中表現(xiàn)出的起承轉(zhuǎn)合的邏輯流程可以反映在生成的古詩(shī)中,為古詩(shī)生成帶來(lái)靈魂。問(wèn)題描述與傳統(tǒng)主題詞指定的做詩(shī)方法相比,現(xiàn)代文古詩(shī)生成要困難的多。一個(gè)顯著的困難是,現(xiàn)代文的長(zhǎng)度一般遠(yuǎn)大于古詩(shī)長(zhǎng)度,如果要將現(xiàn)代文轉(zhuǎn)化為古詩(shī),需要提取出其中最有價(jià)值的語(yǔ)義信息,并將這些信息用精
4、練的古代漢語(yǔ)表達(dá)出來(lái)。比如:“現(xiàn)在正是早春二月,春風(fēng)吹拂,春草萌生,過(guò)不了多久,就會(huì)綠透江南岸邊”可以對(duì)應(yīng)詩(shī)詞“春風(fēng)又綠江南岸”,白話文中的“現(xiàn)在正是”,“過(guò)不了多久”,“就會(huì)”這些詞都對(duì)表義沒(méi)有太多幫助。我們需要提取出如“綠”,“江南”,“岸邊”等表意比較明確的字,形成句子的意義。如何提取出句義,對(duì)合理的古詩(shī)生成具有重要意義。另一方面,一句現(xiàn)代漢語(yǔ)可能有多種轉(zhuǎn)寫形式, 如何自然地生成多種表達(dá)方式的古詩(shī),也是需要解決的問(wèn)題。本發(fā)明提出了一種現(xiàn)代文詩(shī)詞生成系統(tǒng)。該系統(tǒng)將神經(jīng)網(wǎng)絡(luò)與規(guī)則相結(jié)合,通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)現(xiàn)代漢語(yǔ)進(jìn)行語(yǔ)義理解,再依規(guī)則系統(tǒng)生成符合語(yǔ)義的古詩(shī)。為保證生成古詩(shī)的多樣性,我們采用兩種引
5、入隨機(jī)性的辦法,一是在對(duì)輸入的現(xiàn)代文進(jìn)行一些隨機(jī)擾動(dòng),二是對(duì)文體規(guī)則進(jìn)行更改。前者引入表達(dá)多樣性,后者引入文體多樣性(如五言詩(shī)、七言詩(shī)、多種韻律格式等)。這一發(fā)明的優(yōu)勢(shì)是:通過(guò)計(jì)算機(jī)自動(dòng)將現(xiàn)代文轉(zhuǎn)化成古詩(shī),更符合大眾使用習(xí)慣通過(guò)將現(xiàn)代文中的邏輯性表達(dá)成古詩(shī)表達(dá)上的邏輯性,擺脫詞語(yǔ)堆砌,形成合規(guī)且具有表義能力的古詩(shī)。通過(guò)加入隨機(jī)性可以寫出具有多種表達(dá)、多種文體的豐富多彩的古詩(shī)。三 發(fā)明要點(diǎn)3.1 通過(guò)神經(jīng)網(wǎng)絡(luò)的古詩(shī)生成模型本發(fā)明基于LSTM的編碼-解碼網(wǎng)絡(luò)構(gòu)造現(xiàn)代漢語(yǔ)-古詩(shī)轉(zhuǎn)換模型,如圖一所示。首先,圖一的下半部分,系統(tǒng)將用戶的現(xiàn)代文輸入句子經(jīng)過(guò)一個(gè)雙向LSTM網(wǎng)絡(luò)編碼成語(yǔ)義向量,其中每個(gè)句子表
6、達(dá)成一個(gè)語(yǔ)義向量,形成一個(gè)語(yǔ)義向量組。這些語(yǔ)義向量作為用戶意圖的編碼。在生成過(guò)程中(圖一的上部),一個(gè)LSTM網(wǎng)絡(luò)不斷循環(huán)運(yùn)行,生成文本的中的每一個(gè)字。在生成每一個(gè)字的時(shí)候,需要將該句所對(duì)應(yīng)的語(yǔ)義向量作為參考輸入,使得該句生成與用戶要求的表義內(nèi)容相符合。注意,在生成過(guò)程中,我們加入斷句、押韻、平仄等文體規(guī)則,保證了生成的“字串”既能最大程度地符合用戶意圖的同時(shí),遵循強(qiáng)制的詩(shī)詞規(guī)則。h1月x1x1h1h2光x2x2h2h3灑x3x3h3h4在x4x4h4h5床x5x5h5h6前x6x6h6at,1at,2at,3at,4at,5at,6st-1styt-1yt明月文體規(guī)則 圖一 基于RNN和LS
7、TM的生成模型3.2 一致性保證在上面的生成過(guò)程中,每句現(xiàn)代文生成一個(gè)語(yǔ)義向量,用以生成一句古詩(shī),因此這句詩(shī)都會(huì)圍繞這句的主題;同時(shí),后一句的生成結(jié)果依賴前一句生成的詞,因此保證整首詩(shī)的連慣性。這意味著我們的生成方法有能力生成一首前后連慣,同時(shí)又符合現(xiàn)代文邏輯線索的古詩(shī),保證一致性。3.3 多格式詩(shī)詞生成3.1中的模型會(huì)依賴一個(gè)文體規(guī)則約束,生成的古詩(shī)必須符合該文本要求。通過(guò)更改這一文體規(guī)則,可以生成多種格式的古詩(shī)詞。比如,在七言律師中,這一文體規(guī)則要求每生成七個(gè)字后,必須生成一個(gè)結(jié)束符;同時(shí),每句第七個(gè)字必須符合統(tǒng)一的韻律,每一句中的每個(gè)字需要符合一定的平仄要求。變換這一文體規(guī)則,可以得到不同韻律,不同體裁的古詩(shī),基至可根據(jù)不同詞牌(如虞美人、浪淘沙)設(shè)計(jì)文體規(guī)則,生成各種詞牌的宋詞。3.4 詩(shī)詞多樣性生成我們可以通過(guò)引入隨機(jī)性,生成多種表達(dá)的不同古詩(shī)。比如,我們可以在輸入的白話文中隨機(jī)加入一些相近詞,使生成的古詩(shī)具有多樣性。這些隨機(jī)性可通過(guò)“增加”、“刪除”、“修改”等操作來(lái)實(shí)現(xiàn)。如“問(wèn)題描述”中提到的例子:“現(xiàn)在正是早春二月,春風(fēng)吹拂,春草萌生,過(guò)不了多久,就會(huì)綠透江南岸邊”,可以通過(guò)刪除“江南岸邊”或者加上“鳥兒”,得到“草長(zhǎng)鶯飛二月天”。加入少量的隨機(jī)化信息可以增加生成的詩(shī)詞的多樣
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024農(nóng)產(chǎn)品訂購(gòu)合同
- 2024年廣西古建施工承攬合同模板
- 2024年人力資源服務(wù)保密協(xié)議
- 2024年度城市軌道交通安全監(jiān)控系統(tǒng)合同
- 2024年建筑內(nèi)架搭建專業(yè)承包合同
- 2024年度產(chǎn)品研發(fā)與技術(shù)服務(wù)合同
- 2024不能強(qiáng)迫續(xù)訂勞動(dòng)合同
- 2024年度贈(zèng)與合同
- 2024年廢舊物品回收處理協(xié)議
- 2024商鋪?zhàn)赓U合同適用于各類商業(yè)街、購(gòu)物中心店鋪
- 航站樓管理部《機(jī)場(chǎng)使用手冊(cè)》實(shí)施細(xì)則
- 腦卒中基本知識(shí)課件
- 高效溝通與管理技能提升課件
- 消防維保方案 (詳細(xì)完整版)
- 四年級(jí)上冊(cè)英語(yǔ)課件- M3U1 In the school (Period 3 ) 上海牛津版試用版(共15張PPT)
- 檔案館建設(shè)標(biāo)準(zhǔn)
- 高邊坡支護(hù)專家論證方案(附有大量的圖件)
- 蘇教版五年級(jí)上冊(cè)數(shù)學(xué)試題-第一、二單元 測(cè)試卷【含答案】
- 人員定位礦用井口唯一性檢測(cè)系統(tǒng)
- 電力系統(tǒng)數(shù)據(jù)標(biāo)記語(yǔ)言E語(yǔ)言格式規(guī)范CIME
- 歷史紀(jì)年與歷史年代的計(jì)算方法
評(píng)論
0/150
提交評(píng)論