技術(shù)報(bào)告基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中_第1頁(yè)
技術(shù)報(bào)告基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中_第2頁(yè)
技術(shù)報(bào)告基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中_第3頁(yè)
技術(shù)報(bào)告基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中_第4頁(yè)
技術(shù)報(bào)告基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、計(jì)劃類別 項(xiàng)目編號(hào) 項(xiàng)目技術(shù)報(bào)告課題名稱 項(xiàng)目主持人 承擔(dān)單位 題目:基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中的研究國(guó)內(nèi)電商網(wǎng)站的快速發(fā)展促使產(chǎn)生大量的中文商品評(píng)論信息。對(duì)這些評(píng)論進(jìn)行情感分類有利于獲取其中的有用信息,具有重要的應(yīng)用意義。目前,情感分類的研究主要基于情感詞典或者傳統(tǒng)機(jī)器學(xué)習(xí)。這些方法通常需要人工選取特征,費(fèi)事費(fèi)力,分類效果不好。針對(duì)這些不足,本文提出一種基于注意力機(jī)制的雙向LSTM模型,對(duì)中文商品評(píng)論進(jìn)行情感分類。實(shí)驗(yàn)結(jié)果表明,該模型在中文商品評(píng)論二分類任務(wù)和三分類任務(wù)中均獲得了較好的準(zhǔn)確率、召回率、F1值。關(guān)鍵詞:中文商品評(píng)論;情感分類;注意力機(jī)制;雙向LST

2、MAbstract:With the rapid development of domestic E-commerce websites,there are lots of Chinese product reviews.The sentiment classification of Chinese product reviews is helpful to obtain useful information,with great application significance.Currently,most sentiment classification studies are based

3、 on the sentiment dictionary or traditional machine learning methods.These methods usually need artificial selection of features,with low classification efficiency and effectiveness.In view of all these deficiencies,the paper proposes an attention mechanism-based bidirectional LSTM model for the sen

4、timent classification of Chinese product reviews.The experimental results show that the proposed model has better precision rate,recall rate and F1 score in binary classification tasks and three classification tasks in Chinese product reviews.Keywords:Chinese product reviews;sentiment classification

5、;attention mechanism;bidirectional LSTM1 引言(Introduction)隨著國(guó)內(nèi)電商網(wǎng)站的迅猛發(fā)展,越來(lái)越多的人選擇網(wǎng)上購(gòu)物,隨之產(chǎn)生大量的中文商品評(píng)論信息。對(duì)這些信息進(jìn)行情感分類,不僅可以挖掘用戶對(duì)商品的喜好程度,給潛在用戶提供購(gòu)買建議,同時(shí)有利于商家及時(shí)改善產(chǎn)品及服務(wù),從而提高商業(yè)價(jià)值。因此,對(duì)中文商品評(píng)論進(jìn)行情感分類變得非常必要。傳統(tǒng)的情感分類研究方法主要有兩種:(1)基于情感詞典的方法;(2)基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法1。前者需要人工創(chuàng)建情感詞典,費(fèi)事費(fèi)力。后者通常采用樸素貝葉斯(NB)、最大熵(ME)、支持向量機(jī)(SVM)等進(jìn)行分類,這些方法容易

6、丟失文本語(yǔ)法語(yǔ)義信息,很難有效捕獲文本中的情感。隨著深度神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理領(lǐng)域的應(yīng)用,2003年Bengio等人2通過(guò)神經(jīng)網(wǎng)絡(luò)訓(xùn)練詞向量來(lái)表示文本。詞向量不僅可以有效獲取語(yǔ)義信息3,同時(shí)避免了數(shù)據(jù)稀疏性問(wèn)題。利用詞向量表示文本,并采用深度學(xué)習(xí)模型,如遞歸神經(jīng)網(wǎng)絡(luò)4,5、卷積神經(jīng)網(wǎng)絡(luò)(CNN)6,7、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)8等,進(jìn)行情感分類可以獲得比傳統(tǒng)機(jī)器學(xué)習(xí)方法更優(yōu)的效果??紤]到在對(duì)商品評(píng)論進(jìn)行情感分類時(shí),文本對(duì)上下文有較強(qiáng)的依賴性,而標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)模型不能很好地解決該問(wèn)題,本文采用雙向的長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Bidirectional Long Sort Term Memory,Bi-L

7、STM)進(jìn)行情感分類。另外,考慮到不同的詞對(duì)文本的貢獻(xiàn)不相同,引入Attention機(jī)制?;诖?,本文提出了一種基于Attention機(jī)制的Bi-LSTM模型對(duì)中文商品評(píng)論進(jìn)行情感分類。為了驗(yàn)證模型的有效性,本文采用某電商網(wǎng)站的手機(jī)評(píng)論數(shù)據(jù)集對(duì)模型進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該模型取得了較好的效果。2 基于Attention機(jī)制的Bi-LSTM模型(Bi-LSTMmodel based on attention mechanism)基于Attention機(jī)制的Bi-LSTM模型如圖1所示。該模型主要由四部分組成:(1)采用詞向量表示文本;(2)利用Bi-LSTM模型獲取文本特征;(3)引入Atte

8、ntion機(jī)制表示不同特征的重要性;(4)最后利用分類器進(jìn)行情感分類。3 實(shí)驗(yàn)(Experiment)3.1 數(shù)據(jù)集為了驗(yàn)證模型,采取某電商網(wǎng)站的手機(jī)評(píng)論作為數(shù)據(jù)集。該數(shù)據(jù)集共15649篇評(píng)論,根據(jù)評(píng)論星級(jí)劃分為:好評(píng)(4星、5星)4373篇評(píng)論,中評(píng)(3星)4629篇評(píng)論,差評(píng)(1星、2星)6647篇評(píng)論。數(shù)據(jù)集樣例見(jiàn)表1。本文選取好評(píng)、差評(píng)進(jìn)行二分類;選擇好評(píng)、中評(píng)、差評(píng)進(jìn)行三分類。所有的分類任務(wù)重,按照80%、10%、10%的比例將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、驗(yàn)證集、測(cè)試集,見(jiàn)表2。endprint3.2 數(shù)據(jù)預(yù)處理本文采用jieba分詞工具對(duì)評(píng)論文本進(jìn)行分詞并去除分詞列表中的停用詞和標(biāo)點(diǎn)符號(hào)

9、。處理之后文本最大長(zhǎng)度為281。為了構(gòu)建特征向量,詞向量的維度為100,采用兩種方式初始化詞向量:(1)隨機(jī)初始化:所有的詞均隨機(jī)初始化,并在訓(xùn)練過(guò)程中詞向量動(dòng)態(tài)更新。(2)使用word2vec工具:使用2013年Google提出的開(kāi)源工具word2vec訓(xùn)練詞向量,同時(shí)對(duì)于未出現(xiàn)的詞隨機(jī)初始化,訓(xùn)練過(guò)程中詞向量動(dòng)態(tài)更新。3.3 實(shí)驗(yàn)參數(shù)設(shè)置為了訓(xùn)練一個(gè)較優(yōu)的模型,模型參數(shù)的設(shè)置非常關(guān)鍵。模型中主要參數(shù)設(shè)置為:學(xué)習(xí)率為0.01,批處理文件數(shù)為50,Bi-LSTM中隱藏單元數(shù)為200,Dropout值為0.75,L2正則化參數(shù)為0.0001。3.4 實(shí)驗(yàn)結(jié)果及分析為了驗(yàn)證模型的有效性,將本文提出

10、的模型rand-Attention-Bi-LSTM、word2vec-Attention-Bi-LSTM與LSTM、Bi-LSTM進(jìn)行比較。模型評(píng)價(jià)指標(biāo)為準(zhǔn)確率、召回率、F值。實(shí)驗(yàn)結(jié)果見(jiàn)表3。通過(guò)表3可以看出:(1)Bi-LSTM和LSTM相比,準(zhǔn)確率、召回率、F值均有所提升,這是因?yàn)锽i-LSTM同時(shí)考慮文本的上下文,說(shuō)明Bi-LSTM的分類效果優(yōu)于LSTM。(2)由于引入Attention機(jī)制,本文的模型準(zhǔn)確率、召回率、F值均高于LSTM和Bi-LSTM,說(shuō)明Attention機(jī)制能夠較好地反映文本中詞的重要性。(3)通過(guò)word2vec-Attention-Bi-LSTM和rand-At

11、tention-Bi-LSTM對(duì)比發(fā)現(xiàn),采用word2vec初始化詞向量更有效,有利于提高情感分類精度。4 結(jié)論(Conclusion)本文提出了一種基于Attention機(jī)制的Bi-LSTM模型對(duì)中文商品評(píng)論進(jìn)行情感分類。將商品評(píng)論用詞向量表示,通過(guò)Bi-LSTM獲取文本的上下文關(guān)系,同時(shí)引入Attention機(jī)制表示不同特征的重要性,并進(jìn)一步優(yōu)化模型。最后,運(yùn)用該模型在某電商網(wǎng)站的手機(jī)評(píng)論集上進(jìn)行情感分類,實(shí)驗(yàn)結(jié)果驗(yàn)證了該模型的可行性和有效性。由于中文商品評(píng)論中包含對(duì)商品多個(gè)屬性的評(píng)價(jià),下一步工作將尋找更優(yōu)的深度學(xué)習(xí)模型,對(duì)商品評(píng)論中的不同屬性進(jìn)行情感傾向性研究。參考文獻(xiàn)(Referenc

12、es)1 杜昌順,黃磊.分段卷積神經(jīng)網(wǎng)絡(luò)在文本情感分析中的應(yīng)用J.計(jì)算機(jī)工程與科學(xué),2017,39(01):173-179.2 Yoshua Bengio,Holger Schwenk,Jean-Sbastien Sencal,et al.A Neural Probabilistic Language ModelJ.Journal of Machine Learning Research,2003,3:1137-1155.3 Mikolov Tomas,Yih Wen-tau,Zweig Geoffrey.Linguistic regularities in continuous space

13、word representationsC.The Annual Conference of the North American Chapter of the Association for Computational Linguistics(NAACL-HLT), 2013:746-751.4 Richard Socher,Brody Huval,Christopher D.Manning,et al.Semantic compositionality through recursive matrix vector spacesC.Proceedings of the 2012 Joint

14、 Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning(EMNLP-CoNLL),2012:1201-1211.5 Richard Socher,Alex Perelygin,Jean Wu,et al.Recursive deep models for semantic compositionality over a sentiment TreebankC.Proceedings of 2013 Conference on Empir

15、ical Methods in Natural Language Processing(EMNLP),2013:1631-1642.6 Yoon Kim.Convolutional neural networks for sentence classificationC.Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP),2014:1746-1751.7 Nal Kalchbrenner,Edward Grefenstette,Phil Blunsom.A c

16、onvolutional neural network for modelling sentencesC.Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics(ACL),2014:655-665.endprint8 Siwei Lai,Liheng Xu,Kang Liu,et al.Recurrent convolutional neural networks for text classificationC.Proceedings of the Twenty-Ninth

17、 AAAI Conference on Artificial Intelligence,2015:2267-2273.9 Yequan Wang,Minlie Huang,Xiaoyan Zhu,et al.Attention-based LSTM for Aspect-level Sentiment ClassificationJ.Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing(EMNL),2016:606-615.10 Sepp Hochreiter,Jrgen S

18、chmidhuber.Long short-term memoryJ.Neural computation,1997,9(8):1735-1780.11 Kelvin Xu,Jimmy Ba,Ryan Kiros,et al.Show,attend and tell:Neural image caption generation with visual attentionC.Proceedings of the 32nd International Conference on Machine Learning(ICML),2015:2048-2057.12 Volodymyr Mnih,Nicolas Heess,Alex Graves,et al.Recurrent models o

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論