下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
NLP文本分類深度學(xué)習(xí)方法庫建立研究獲獎科研報告摘
要:人工智能技術(shù)的推動下,深度學(xué)習(xí)與NLP的聯(lián)系更為緊密,并推動了NLP的進一步發(fā)展。本文就如何打造NLP文本分類深度學(xué)習(xí)方法庫進行了回顧性的分析,對其建模原理及模型細分進行了總結(jié),將為這一研究的深入提供一定的參考。
關(guān)鍵詞:深度學(xué)習(xí);NLP;方法庫
隨著NLP(神經(jīng)語言程序?qū)W)研究的不斷深入,其重要的應(yīng)用價值開始在機器翻譯、情感分析、智能問答、文摘生成、文本分類、輿論分析、知識圖譜等領(lǐng)域有所體現(xiàn)[1]。與此同時,以深度學(xué)習(xí)技術(shù)為核心的人工智能得到了廣泛的關(guān)注,成為一個新的研究熱點。這一技術(shù)與PLB的耦合,推動了NLP的新發(fā)展。打造神經(jīng)語言程序?qū)W文本分類深度學(xué)習(xí)數(shù)據(jù)庫即NLP文本分類深度學(xué)習(xí)方法庫作為其中的基礎(chǔ)環(huán)節(jié)成為研究中的一個重點。NLP文本分類深度學(xué)習(xí)方法庫建立的目的可為探索以深度學(xué)習(xí)為主要技術(shù)的NLP分類方法提供海量的研究資源,這一學(xué)習(xí)方法庫還具有文本分類的各種基準(zhǔn)模型。同時NLP文本分類深度學(xué)習(xí)庫也支持多標(biāo)簽的分類,且這些標(biāo)簽與句子或文檔可以形成一定的關(guān)聯(lián)。這些模型的建立將使得后續(xù)的研究有了重要的支點。在實踐中發(fā)現(xiàn),打造NLP文本庫的過程中,有一些較為經(jīng)典的模型是比較適合作為學(xué)習(xí)庫的基準(zhǔn)模型。
在此次研究的過程中,采用兩個seq2seq模型進行文本分類,每個模型之下都設(shè)置有一個函數(shù)予以測試。兩個seq2seq模型也可以在文本分類的過程中生成序列或其它任務(wù)。在文本分類的過程中,若需完成的分類任務(wù)是多標(biāo)簽的分類工作,這時候就可以將工作以序列生成的方式來進行。在這一研究中基本達成了一個記憶網(wǎng)絡(luò)的建設(shè)[2]。其中以recurrententitynetwork(循環(huán)實體網(wǎng)絡(luò))來追蹤狀態(tài),以blocksofkey-valuepairs(它用鍵值對塊)為記憶并進行運行,并在這一功能的支持下實現(xiàn)對新狀態(tài)的獲取。構(gòu)建后的NLP文本分類深度學(xué)習(xí)模型可以實現(xiàn)使用歷史或上下文來回答建模的問題。例如,在測試中可以讓NLP文本分類深度學(xué)習(xí)模型來讀取句子作為文本,并提出一個問題來查詢,而后可實現(xiàn)NLP文本分類深度學(xué)習(xí)模式的答案預(yù)測。若這一過程轉(zhuǎn)化為向NLP文本分類深度學(xué)習(xí)模型提供一些素材資源,這時NLP文本分類深度學(xué)習(xí)模型便能夠完成研究意義上的分類工作[3]。
1NLP文本分類深度學(xué)習(xí)方法庫模型
1.1模型
fastText(快速文本模型):這一模型主要用于高效文本分類技巧上的研究,在運行中使用bi-gram,具有較高的速度優(yōu)勢。
TextCNN(文本卷積神經(jīng)網(wǎng)絡(luò)):這一模型主要用于句子分類的卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn),在結(jié)構(gòu)上利用從降維到conv再到最大池化,最終到softmax。
TextRNN(文本循環(huán)神經(jīng)網(wǎng)絡(luò)):這一模型在結(jié)構(gòu)上與文本卷積神經(jīng)網(wǎng)絡(luò)有一定的不同,是從降維到雙向的lstm到concta輸出,最終到softmax。
RCNN(循環(huán)卷積神經(jīng)網(wǎng)絡(luò)):這一模型在結(jié)構(gòu)上與文本循環(huán)神經(jīng)網(wǎng)絡(luò)基本相同,在輸入項上進行了特殊的設(shè)計,采用EOS將兩個問題隔開。
HierarchicalAttentionNetwork(分層注意網(wǎng)絡(luò)):這一墨香在結(jié)構(gòu)上采用降維→詞編輯器→詞注意→句子編輯器→句子注意→FC+Softmax。
seq2seqwithattention(具有注意的Seq2seq模型):這一模型在結(jié)構(gòu)上主要有三層,降維→bi-GRU→具有注意的解碼器。
Transformer:這一模型主要有編碼器和解碼器兩大部分組成,具有在多向自我注意等方面的突出優(yōu)勢。
RecurrentEntityNetwork(循環(huán)實體網(wǎng)絡(luò)):這一模型在型號結(jié)構(gòu)上也是分為三個層次,即輸入編碼,動態(tài)記憶,輸出。
BiLstmTextRelation(雙向長短期記憶網(wǎng)絡(luò)文本關(guān)系):這一模型在結(jié)構(gòu)上與文本循環(huán)神經(jīng)網(wǎng)絡(luò)基本相同,在輸入項上進行了特殊的設(shè)計,采用EOS將兩個問題隔開。
TwoCNNTextRelation(兩個卷積神經(jīng)網(wǎng)絡(luò)文本關(guān)系):這一模型采用不同的卷積來實現(xiàn)對句子特征的提取,然后在通過函數(shù)使目標(biāo)標(biāo)簽完成飲食,然后使用softmax。
BiLstmTextRelationTwoRNN(雙長短期記憶文本關(guān)系雙循環(huán)神經(jīng)網(wǎng)絡(luò)):這一模型在結(jié)構(gòu)上采取不同句子的雙向lstm獲取,最終由softmax輸出。
1.2性能
2NLP文本分類深度學(xué)習(xí)方法庫的用途
2.1用途
此次研究中的NLP文本分類深度學(xué)習(xí)方法庫建立在xxx_model.py之上。在訓(xùn)練階段采用pythonxxx_train.py來進行,進入測試階段之后,可使用pythonxxx_predict.py來進行。快速文本模型、文本卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)卷積神經(jīng)網(wǎng)絡(luò)、分層注意網(wǎng)絡(luò)等模型下都有測試方法,可通過此來實現(xiàn)對模型的檢驗[4]。
2.3環(huán)境
該項學(xué)習(xí)庫建立之后的運行環(huán)境為python2.7+tensorflow1.1或tensorflow1.2。
3結(jié)束語
作為人工智能研究的一個重要分支
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 不寐病的課件教學(xué)課件
- 行政法與行政訴訟法模擬試卷
- 第6課 拉拉手交朋友(第2課時)教學(xué)設(shè)計-2024-2025學(xué)年道德與法治一年級上冊統(tǒng)編版
- 論文畢業(yè)答辯開題報告模板203
- 七年級地理下冊課件
- 第一單元第二節(jié) 改造家庭網(wǎng)絡(luò)教案(第二課時)2024-2025學(xué)年川教版(2024)信息科技 七年級上冊
- 浙江省溫州市(2024年-2025年小學(xué)四年級語文)統(tǒng)編版開學(xué)考試((上下)學(xué)期)試卷及答案
- 室內(nèi)外保潔合同模板
- 暑假找工作合同模板
- 第5單元 習(xí)作:生活萬花筒(教案)2024-2025學(xué)年四年級語文上冊同步教學(xué)(統(tǒng)編版)
- 【教案】觀察周邊環(huán)境中的生物教案2024-2025學(xué)年人教版生物七年級上冊
- 3.2 參與民主生活 課件-2024-2025學(xué)年統(tǒng)編版九年級道德與法治上冊-2
- 2024年公共衛(wèi)生整改措施例文(六篇)
- DB51T 3184-2024 醫(yī)用供體豬 基因鑒定通則
- 2024年廉政法規(guī)測試考試題庫試卷及答案
- 鋼鐵行業(yè)ESG信息披露研究
- 統(tǒng)編版七年級上冊 15-《 梅嶺三章》任務(wù)驅(qū)動式公開課一等獎創(chuàng)新教學(xué)設(shè)計
- 印刷服務(wù)投標(biāo)方案(技術(shù)標(biāo))
- 奧運會2024年秋季開學(xué)第一課課件
- (高清版)JTG∕T 3372-2024 公路黃土隧道設(shè)計與施工技術(shù)規(guī)范
- 2024年中翼航空投資限公司應(yīng)屆畢業(yè)生招聘35人(高頻重點提升專題訓(xùn)練)共500題附帶答案詳解
評論
0/150
提交評論