《深度學習在文本分類中的應用探究》11000字【論文】

上傳人：E*** IP屬地：湖北上傳時間：2025-02-21 格式：DOCX 頁數(shù)：25 大小：1.07MB 積分：22 舉報 版權申訴

已閱讀5頁，還剩20頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

表310所示，能清楚直觀的顯示模型處理各個類別的水平。對角線所處的位置代表模型預測正確的，對角線外代表模型預測錯誤的，這里可以發(fā)現(xiàn)對角線外的數(shù)值相對很小。通過觀察，這個模型有著比較高的準確率，通過混淆矩陣可以列出混淆表格，進而計算準確率、召回率、F值等指標。如REF_Ref70639197\h表39所示，可以看到在測試集上的準確率達到了96.04%，且各類的指標都超過了0.9。在測試集上進行TextRNN模型的測試，如REF_Ref70074041\h表311所示，可以看到測試集的準確率達到了94.22%，各類的指標基本超過了0.9。在REF_Ref70639222\h表312中，可以看到第有幾個比較大的數(shù)據(jù)，說明某一類別的預測效果并不理想。表STYLEREF1\s3SEQ表\*ARABIC\s111TextRNN模型分類結果TestLoss0.21TestAcc94.22%precisionrecallF-measure家居0.970.730.83教育0.910.920.91科技0.930.960.94財經0.910.990.95房產1.001.001.00時尚0.890.970.93時政0.930.930.93游戲0.950.970.96娛樂0.970.960.97體育0.990.990.99avg/total0.940.940.94表STYLEREF1\s3SEQ表\*ARABIC\s112TextRNN混淆矩陣9880004020510990111106000299611000002711731512088283513079182343194130309643521010171397206901600222609312323002212097270311731159960實驗對比分析使用TextCNN、TextRNN模型處理相同文本數(shù)據(jù)進行對比實驗。為評估實驗算法的性能，對準確率、損失函數(shù)、精確率、召回率、F值等指標進行了分析。通過對比REF_Ref70638869\h圖31和REF_Ref70638871\h圖32，發(fā)現(xiàn)當一開始迭代相同的次數(shù)時，CNN模型用于文本分類的準確率和損失函數(shù)下降速率都是明顯高于RNN模型，并且它在迭代1600次時結束了訓練。而RNN模型在迭代3000次才結束。通過觀察REF_Ref70638799\h表35至REF_Ref70638825\h表38，CNN模型只迭代了3次就停止，耗時50秒，驗證集最佳效果為94.12%。而RNN模型迭代了8次才停止，耗時33分鐘，驗證集最佳效果為91.42%，TextCNN模型在效率性能上非常明顯地完勝了TextRNN模型。對比REF_Ref70639197\h表39和REF_Ref70074041\h表311，進行模型測試時，CNN模型測試集上的準確率達到了96.04%，損失值只有0.14，而RNN模型的準確率為94.22%，損失值為0.21,明顯CNN模型的擬合能力較好。在準確率上TextRNN也稍遜色于TextCNN。在CNN模型中，各類別的平均精確率為0.96，平均召回率為0.96。F值為0.96。在RNN模型中，平均精確率為0.94，平均召回率為0.94，F(xiàn)值為0.94。大體上是同一水平的性能，精確率的值都很高，說明算法效果都不錯。但在REF_Ref70639222\h表312中明顯可以看到第四行除對角線外的值有些大，故而體現(xiàn)到RNN模型的家居類別的召回率只有0.73，說明TextRNN模型對家具類文本分類問題預測效果不好。通過查閱資料總結出：當句子的分類是由整個句子決定的時候，建議使用RNN，

當句子的分類是由幾個局部的語義決定的時候，CNN會更容易分類正確。整體來說，由于TextRNN的模型比較復雜，特別是做項目講究的是效率性能，除非對一些特定的任務必須用TextRNN，一般TextCNN模型在文本分類上有著較大的優(yōu)勢。結語隨著通信技術和移動互聯(lián)網(wǎng)的快速發(fā)展，文本信息越來越復雜。文本分類可以從大量數(shù)據(jù)中獲取有效信息，并且文本分類一直是自然語言處理領域的一個熱點，研究價值很高。同時深度學習這幾年一直發(fā)展迅猛，其算法模型也很適合用于處理文本數(shù)據(jù)。本文通過分析和總結CNN和RNN模型原理的基礎，研究了深度學習在文本分類中的應用。通過不斷試驗調參，最終確定了合適的參數(shù)集合，使用可以為不同參數(shù)設計自適應學習率的優(yōu)化算法，使用了多項評價指標來評估模型性能，結果在分類問題中都取得了不錯的效果。說明了模型設計的有效性。研究的不足和進一步的想法有以下幾個方面：本實驗搭建的是兩種常見的網(wǎng)絡模型，實驗不夠豐富比較單調，最近幾年也有提出一些新的模型和一些改進的模型，由于時間和自身能力的不足，沒有實現(xiàn)多模型的比較。由于自身電腦配置的問題，沒有更好的硬件環(huán)境進行實驗，如果條件允許會嘗試用CPU進行實驗。數(shù)據(jù)集過于單一，可以對多種不同類型的語料進行文本分類工作，通過對比可以總結各個模型更適合處理的數(shù)據(jù)集。在以后的生活中，我會繼續(xù)積累這方面的知識，盡量去學習更多的深度學習應用的領域，探索世界，了解世界。參考文獻陳東焰,陸暢.從AlphaGo看機器學習[J].科技創(chuàng)新導報,2020,17(13):146+148.猿輔導研究團隊.深度學習核心技術與實踐[M].北京：電子工業(yè)出版社.2018.2.高志強,黃劍,李永.深度學習從入門到實踐[M].北京：中國鐵道出版社.2018.6.高強.基于深度卷積網(wǎng)絡學習算法及其應用研究[D].北京化工大學,2015.于游,付鈺,吳曉平.中文文本分類方法綜述[J].網(wǎng)絡與信息安全報,2019,5(05):1-8.陶永才,楊朝陽,石磊,衛(wèi)琳.池化和注意力相結合的新聞文本分類方法[J].小型微型計算機系統(tǒng),2019,40(11):2393-2397.徐泓洋,楊國為.中文文本特征選擇方法研究綜述[J].工業(yè)控制計機,2017,30(11):80-81.游攀利.基于集成SVM的文本分類方法研究[D].華中科技大學,2014.候漢清.分類法的發(fā)展趨勢簡論[J].情報科學，1981(01):58-63+30.牛雪瑩.結合主題模型詞向量的CNN文本分類[J].計算機與現(xiàn)代化,2019(10):7-10.賴文輝.基于深度學習理論的中文文本分類技術研究[D].華

人人文庫> 全部分類> 行業(yè)資料 > 工業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《深度學習在文本分類中的應用探究》11000字【論文】

文檔簡介

溫馨提示

最新文檔

評論

《深度學習在文本分類中的應用探究》11000字【論文】

文檔簡介

溫馨提示

最新文檔

評論

相關文檔