【開題】基于LDA 主題模型的電商產(chǎn)品評論數(shù)據(jù)情感分析_第1頁
【開題】基于LDA 主題模型的電商產(chǎn)品評論數(shù)據(jù)情感分析_第2頁
【開題】基于LDA 主題模型的電商產(chǎn)品評論數(shù)據(jù)情感分析_第3頁
【開題】基于LDA 主題模型的電商產(chǎn)品評論數(shù)據(jù)情感分析_第4頁
【開題】基于LDA 主題模型的電商產(chǎn)品評論數(shù)據(jù)情感分析_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、.開 題 報 告基于LDA 主題模型的電商產(chǎn)品評論數(shù)據(jù)情感分析(1)LDA模型的相關(guān)研究目前我國對LDA主題模型的研究己經(jīng)相當(dāng)成熟,文本聚類、文本分類、信息檢索等領(lǐng)域都己得到了廣泛的應(yīng)用,并且取得了一定的成果。劉江華(2017)提出一種基于Kmeans聚類算法的LDA主題模型檢索方法,本檢索方法以Kmeans算法為基礎(chǔ),對文本主題進(jìn)行聚類和語義相關(guān)度分析,避免了傳統(tǒng)LDA主題模型存在的諸多缺陷。任藝,尹四清,李松陽(2017)針對傳統(tǒng)潛在狄利克雷分布(latent Dirichlet allocation,LDA)主題模型在進(jìn)行圖像場景識別時存在聚類方法效率低以及不能有效利用圖像主要特征的問題

2、,提出改進(jìn)圖像場景識別模型的方法。采用K-Means+聚類算法生成視覺單詞,使用加權(quán)統(tǒng)計直方圖完成圖像表示,通過引入特征函數(shù)加強(qiáng)重要特征在分類識別中的作用,提出有特征函數(shù)的潛在狄利克雷分布(featured latent Dirichlet allocation,FLDA)主題模型。實(shí)驗(yàn)結(jié)果表明,對比于改進(jìn)前的模型,該模型可縮短執(zhí)行時間并提高識別準(zhǔn)確率。李湘東,高凡,丁叢(2016)通過定義類別聚類密度、類別復(fù)雜度以及類別清晰度三個指標(biāo),從語料庫信息度量的角度研究多種代表性的中文分詞方法在隱含概率主題模型LDA下對文本分類性能的影響,定量、定性地分析不同分詞方法在網(wǎng)頁和學(xué)術(shù)文獻(xiàn)等不同類型文本的

3、語料上進(jìn)行分類的適用性及影響分類性能的原因。李晨曦,謝羅迪(2017)使用人工方式對于分類并提取其中有用的觀點(diǎn)信息效率低下并且浪費(fèi)大量的人力資源,因此通過自動分析和提取的方式發(fā)展觀點(diǎn)挖掘的新方法有著一定的研究意義,LDA主題模型作為無監(jiān)督機(jī)器學(xué)習(xí)模型的典型應(yīng)用有著快速、高效的特點(diǎn)而被眾多學(xué)者廣泛研究。關(guān)鵬,王曰芬,傅柱(2016)對3種語料庫下的LDA主題模型進(jìn)行對比研究,采用基于查全率、查準(zhǔn)率、F值以及信息熵的定量分析和基于主題抽取的廣度和主題粒度的定性分析相結(jié)合的方法對主題抽取效(幫寫論文加vx加q:947927387,碩博團(tuán)隊(duì),專業(yè)寫作,免費(fèi)咨詢)果進(jìn)行評價。通

4、過國內(nèi)風(fēng)能領(lǐng)域的科學(xué)文獻(xiàn)數(shù)據(jù)實(shí)證研究發(fā)現(xiàn),無論是從定量分析還是從定性分析來看,摘要和關(guān)鍵詞+摘要作為語料的LDA主題抽取的效果均優(yōu)于關(guān)鍵詞作為語料的LDA主題抽取效果,并且前者在主題抽取的廣度方面表現(xiàn)更好,而后者抽取的主題粒度更細(xì)。儲濤濤(2016)對微博短文本進(jìn)行基于LDA主題模型的特征拓展處理。LDA主題模型引入隱含主題,通過主題相似性,在一定程度上拓展文本特征,彌補(bǔ)原文本特征稀疏的缺點(diǎn)。并且,在處理多義詞時,主題相似性能明顯區(qū)分不同詞義,以解決上下文依賴問題。在此基礎(chǔ)上,通過文本聚類方法提取用戶興趣。通過實(shí)驗(yàn)表明,在引入LDA模型下,聚類效果和用戶興趣抽取的到明顯提升,有效解決的微博用戶

5、興趣發(fā)現(xiàn)中文博短文本特征稀疏和上下文依賴問題。互聯(lián)網(wǎng)環(huán)境下,熱點(diǎn)話題識別成為一個非常重要的研究問題,余傳明(2010)等通過對餐館的評論為例,提出了一種基于LDA模型的評論熱點(diǎn)挖掘方法。從挖掘結(jié)果可以看出,該方法可以有效的將各種熱點(diǎn)詞語歸到相對應(yīng)的主題中去。傳統(tǒng)的文本表示方法存在數(shù)據(jù)空間極度高維且稀疏的缺陷,因此文本相似度計算結(jié)果往往不盡如人意,王振振(2013)等據(jù)此提出了一種基于LDA模型的文本相似度計算方法。他們利用LDA主題模型處理文本集,首先將文本語料庫分配到各個主題,然后再發(fā)現(xiàn)不同主題與詞之間關(guān)系,進(jìn)而得到文本的主題分布,并通過文本分布結(jié)果計算語料庫的相似度。結(jié)果發(fā)現(xiàn),該方法可以明

6、顯提高相似度計算結(jié)果的準(zhǔn)確率。(2)評論數(shù)據(jù)情感分析由于產(chǎn)品評論規(guī)模爆炸式的增長以及其巨大的商業(yè)價值,導(dǎo)致越來越多的研究機(jī)構(gòu)和人員開始對產(chǎn)品評論信息進(jìn)行研究工作,意在挖掘出當(dāng)中有用的價值信息。早在上世紀(jì)90年代就有研究者對情感分析問題開始關(guān)注了,2000年之后情感分析漸漸成為熱點(diǎn)研究問題,研究的方式主要采用語義分析技術(shù)和機(jī)器學(xué)習(xí)技術(shù),同時也采用了自然語言處理的相關(guān)技術(shù),直到目前情感分析問題仍然是自然語言處理領(lǐng)域和信息檢索領(lǐng)域亞待解決的研究問題。本節(jié)將從篇章和句子級別的情感分析、細(xì)粒度情感分析、跨領(lǐng)域情感分析三個方面來概述當(dāng)前國內(nèi)外情感分析的研究現(xiàn)狀。篇章和句子級別的情感分析Dave等人提出一個

7、數(shù)值函數(shù),在評論情感分類研究中他們使用該函數(shù)對評論計算得分來確定評論的最終情感極性。Pang等人在Zooz年首次提出使用有監(jiān)督機(jī)器學(xué)習(xí)分類算法對產(chǎn)品評論進(jìn)行情感分類,分別比較了將最大嫡模型(Maximum Entropy Model, MEM )、樸素貝葉斯(Naive Bayes, NB)和支持向量機(jī)(Support Vector Machine, SVM)這三種分類算法用于電影評論數(shù)據(jù)集文本語義傾向分類上的效果,結(jié)果表明利用樸素貝葉斯算法和支持向量機(jī)算法在3層交叉驗(yàn)證的情況下分別取得了81%和82.9%的分類精準(zhǔn)率結(jié)果。細(xì)粒度情感分析在細(xì)粒度情感分析中對產(chǎn)品屬性詞和情感詞的識別尤為重要,通

8、過對屬性詞和情感詞的抽取,可以構(gòu)建出與領(lǐng)域相關(guān)的屬性詞表和情感詞表,除此之外,如果能正確識別出屬性詞與情感詞的對應(yīng)關(guān)系,那么還可以生成可視化的評論摘要。Hu和Liu提出了一種通過抽取屬性詞與情感詞的方式用于生成評論摘要,他們認(rèn)為常見的屬性詞通常是評價文本中的名詞或者名詞短語,因此他們利用關(guān)聯(lián)規(guī)則的方法來抽取屬性詞,將最小支持率為1%的名詞或者名詞短語作為屬性詞,此最小支持率指的是含名詞或者名詞短語的句子數(shù)占總句子數(shù)的比例,另外他們還通過屬性詞出現(xiàn)的形式和位置來保證屬性詞抽取的準(zhǔn)確度,對于情感詞的抽取部分,他們僅將形容詞作為候選情感詞,當(dāng)屬性詞抽取完畢后,再對那些包含屬性詞的句子抽取出修飾屬性的

9、形容詞,作為最終的情感詞。之后,他們還根據(jù)那些己經(jīng)抽取出的常見屬性詞和情感詞去抽取不常見的屬性詞,他們認(rèn)為情感詞既然可以修飾常見情感詞,同樣也可以對不常見情感詞進(jìn)行修飾??珙I(lǐng)域情感分析在國外,Aue和Gamond等人提出了幾種不同的算法分別對跨領(lǐng)域產(chǎn)品評論的情感分類問題進(jìn)行研究,首先他們給每個領(lǐng)域都標(biāo)注了一部分?jǐn)?shù)據(jù)量不大的數(shù)據(jù),然后利用這些數(shù)據(jù)去生成一個統(tǒng)一的分類模型,最后使用此分類模型對每個領(lǐng)域都進(jìn)行了情感分類,在生成統(tǒng)一分類器的過程中,他們設(shè)計了四種不同的算法,通過實(shí)驗(yàn)結(jié)果,他們發(fā)現(xiàn)在不同的領(lǐng)域內(nèi)使用不同的算法通常會有不同的表現(xiàn),有些算法在一些領(lǐng)域上可以提高分類精準(zhǔn)度,有些算法則會降低分類

10、精準(zhǔn)度。最近凡年,一些研究者逐漸采用遷移學(xué)習(xí)的方法對跨領(lǐng)域的產(chǎn)品評論進(jìn)行情感分析,比如Blitzer,Dredeze等人將結(jié)構(gòu)對應(yīng)學(xué)習(xí)(Structural CorrespondenceLearning,SCL)算法引入到跨領(lǐng)域的情感分析研究中,SCL是一種應(yīng)用范圍非常廣的特征遷移學(xué)習(xí)算法,它的主要目的是將訓(xùn)練集上的特征通過樞軸特征盡量的對應(yīng)到測試集中,通過特征的映射構(gòu)建源領(lǐng)域與目標(biāo)領(lǐng)域的橋梁,然后利用互信息方法去找出與源領(lǐng)域互信息最大的樞軸特征作為用于訓(xùn)練目標(biāo)領(lǐng)域分類器的特征,實(shí)驗(yàn)結(jié)果表明,當(dāng)僅使用源領(lǐng)域的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練時,相對基線的分類錯誤率降低了360fo,而當(dāng)在之前的基礎(chǔ)上引入少量目

11、標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練時,相對基線的分類錯誤率降低了46%??傮w來說,目前對于產(chǎn)品評論的情感分析研究點(diǎn)有很多,主要有如何對篇章、句子級評論進(jìn)行情感極性的判定,如何對評價對象的屬性和情感詞進(jìn)行抽取識別從而進(jìn)行更細(xì)粒度的情感分析研究,如何解決在情感分析問題中產(chǎn)品領(lǐng)域移植性差的問題等。目前采用的情感分析方法策略也有很多,主要的傾向性判定方法有基于確定極性的種子詞或詞典資源的方式、基于模板和規(guī)則的方式、基于有監(jiān)督機(jī)器學(xué)習(xí)的方式。參考文獻(xiàn)1王洪偉,宋媛,杜戰(zhàn)其,鄭麗娟,華瑾,張藝偉. 基于在線評論情感分析的快遞服務(wù)質(zhì)量評價J. 北京工業(yè)大學(xué)學(xué)報,2017,(03):402-412. 2李宏媛,陶然. 服

12、裝電商評論情感分析研究J. 智能計算機(jī)與應(yīng)用,2017,(01):27-30+34. 3李晨曦,謝羅迪. 基于LDA模型的文本分類與觀點(diǎn)挖掘J. 電子技術(shù)與軟件工程,2017,(04):209-210. 4錢慎一,楊鐵松. 基于微博電影評論的情感分析研究J. 現(xiàn)代計算機(jī)(專業(yè)版),2017,(05):48-51. 5劉江華. 一種基于kmeans聚類算法和LDA主題模型的文本檢索方法及有效性驗(yàn)證J. 情報科學(xué),2017,(02):16-21+26. 6趙剛,徐贊. 基于機(jī)器學(xué)習(xí)的商品評論情感分析模型研究J. 信息安全研究,2017,(02):166-170. 7朱琳琳,徐健. 網(wǎng)絡(luò)評論情感分析

13、關(guān)鍵技術(shù)及應(yīng)用研究J. 情報理論與實(shí)踐,2017,(01):121-126+131. 8李勝宇,高俊波,許莉莉. 面向酒店評論的情感分析模型J. 計算機(jī)系統(tǒng)應(yīng)用,2017,(01):227-231. 9程惠華,黃發(fā)良,潘傳迪. 基于產(chǎn)品評論情感分析的用戶滿意度挖掘J. 福建師范大學(xué)學(xué)報(自然科學(xué)版),2017,(01):14-21. 10李涵昱,錢力,周鵬飛. 面向商品評論文本的情感分析與挖掘J. 情報科學(xué),2017,(01):51-55+61. 11儲濤濤. 基于LDA主題模型的用戶興趣發(fā)現(xiàn)方法J. 軟件,2016,(12):38-42. 12彭德焰,胡欣宇. 基于SVM的產(chǎn)品評論情感分析系

14、統(tǒng)的設(shè)計與實(shí)現(xiàn)J. 物聯(lián)網(wǎng)技術(shù),2016,(11):76-79. 13唐曉波,蘭玉婷. 基于特征本體的微博產(chǎn)品評論情感分析J. 圖書情報工作,2016,(16):121-127+136. 14張貴林. 互聯(lián)網(wǎng)商品評論信息的情感分析研究D.東南大學(xué),2016. 15馬松岳,許鑫. 基于評論情感分析的用戶在線評價研究以豆瓣網(wǎng)電影為例J. 圖書情報工作,2016,(10):95-102. 16李湘東,高凡,丁叢. LDA模型下不同分詞方法對文本分類性能的影響研究J. 計算機(jī)應(yīng)用研究,2017,(01):62-66. 17楊艷霞. 基于本體的旅游網(wǎng)絡(luò)評論情感分析與預(yù)警系統(tǒng)J. 計算機(jī)與數(shù)字工程,201

15、6,(04):649-652. 18高琰,陳白帆,晁緒耀,毛芳. 基于對比散度-受限玻爾茲曼機(jī)深度學(xué)習(xí)的產(chǎn)品評論情感分析J. 計算機(jī)應(yīng)用,2016,(04):1045-1049. 19關(guān)鵬,王曰芬,傅柱. 不同語料下基于LDA主題模型的科學(xué)文獻(xiàn)主題抽取效果分析J. 圖書情報工作,2016,(02):112-121. 20夏明星. 基于情感分析的評論極性分類和電影推薦系統(tǒng)的設(shè)計與實(shí)現(xiàn)D.安徽大學(xué),2016. 21肖璐,陳果,劉繼云. 基于情感分析的企業(yè)產(chǎn)品級競爭對手識別研究以用戶評論為數(shù)據(jù)源J. 圖書情報工作,2016,(01):83-90+97. 22彭浩,徐健,肖卓. 基于比較句的網(wǎng)絡(luò)用戶評

16、論情感分析J. 現(xiàn)代圖書情報技術(shù),2015,(12):48-56. 23韓科倫,范英杰,郭昕,許研. 在線評論的情感傾向?qū)Σ煌愋彤a(chǎn)品銷量的影響研究J. 管理觀察,2015,(36):69-71+77. 24卜湛,伍之昂,曹杰,朱桂祥. 在線評論情感計算與博弈預(yù)測J. 電子學(xué)報,2015,(12):2530-2535. 25劉麗,王永恒,韋航. 面向產(chǎn)品評論的細(xì)粒度情感分析J. 計算機(jī)應(yīng)用,2015,(12):3481-3486+3505. 26鄭飏飏,徐健,肖卓. 情感分析及可視化方法在網(wǎng)絡(luò)視頻彈幕數(shù)據(jù)分析中的應(yīng)用J. 現(xiàn)代圖書情報技術(shù),2015,(11):82-90. 27袁媛. 情感分析研究綜述J. 信息與電腦(理論版),2015,(21):49+55. 28何成萬,王格. 一種基于領(lǐng)域情感詞典的網(wǎng)絡(luò)評論傾向分析方法J. 武漢工程大學(xué)學(xué)報,2015,(10):45-50. 29鄒海林,楊華. 基于依存句法的評論情感極性分析J. 貴州師范大學(xué)學(xué)報(自然科學(xué)版),2015,(05):70-74. 30任聰,李石君. 面向網(wǎng)絡(luò)新聞領(lǐng)域的評論情感極性分析J. 計算機(jī)工程與應(yīng)用,2017,(01):77-82. 31覃國蓉,葉志成,莊檳豪,蔡哲聰. 旅游網(wǎng)絡(luò)評論情感分析方法研究及系統(tǒng)實(shí)現(xiàn)J. 深圳信息職業(yè)技術(shù)學(xué)院學(xué)報,2015,(03):57-62. 32張圣聲,陽愛民

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論