![《基于LDA模型的在線手機產品評論的提取及探析》14000字_第1頁](http://file4.renrendoc.com/view10/M02/3A/0E/wKhkGWek1biAE17jAAKLsyfTyyQ562.jpg)
![《基于LDA模型的在線手機產品評論的提取及探析》14000字_第2頁](http://file4.renrendoc.com/view10/M02/3A/0E/wKhkGWek1biAE17jAAKLsyfTyyQ5622.jpg)
![《基于LDA模型的在線手機產品評論的提取及探析》14000字_第3頁](http://file4.renrendoc.com/view10/M02/3A/0E/wKhkGWek1biAE17jAAKLsyfTyyQ5623.jpg)
![《基于LDA模型的在線手機產品評論的提取及探析》14000字_第4頁](http://file4.renrendoc.com/view10/M02/3A/0E/wKhkGWek1biAE17jAAKLsyfTyyQ5624.jpg)
![《基于LDA模型的在線手機產品評論的提取及探析》14000字_第5頁](http://file4.renrendoc.com/view10/M02/3A/0E/wKhkGWek1biAE17jAAKLsyfTyyQ5625.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于LDA模型的在線手機產品評論的提取及分析1.引言 [10]。過濾之后發(fā)現(xiàn),主題識別后運行出的主題詞仍含有“一款”、“噠”等無效信息頻繁出現(xiàn),因此將這些詞語也加入停用詞表中,再次運行處理。3.3基于LDA模型的在線評論主題提取3.3.1基于LDA主題模型的在線評論主題識別在經過去重、分詞等文本預處理之后,開始基于分詞結果進行在線評論數(shù)據(jù)的主題識別。本文在前文提到的LDA模型可以用來執(zhí)行這項任務,另外,因為LDA也可以通過python的第三方庫gensim、pyLDAvis等來實現(xiàn),因此本文決定利用基于python的LDA模型來挖掘在線評論數(shù)據(jù)中的主題特征,即用戶關注的一些產品屬性。首先,在python中載入所需的importlib、numpy、gensim、pyLDAvis.gensim等文本挖掘的第三方庫,基于gensim庫建立詞典及文本向量之后,正式開始LDA模型的擬合。聯(lián)系常見的手機產品屬性,取主題數(shù)num_topics=10;參考實戰(zhàn)案例,設置LDA模型中的參數(shù)α和β值分別0.01和0.1,各主題中顯示的高頻詞數(shù)(num_show_term)也為10。以下為LDA模型運行結束后的部分結果展示,即識別出的10個主題以及各主題下的10個高頻詞(如圖3.4所示):圖3.4主題識別結果根據(jù)各個主題下的高頻詞匯,已經可以初步識別出部分主題,如依據(jù)“主題#0”中出現(xiàn)的“待機時間”、“充電”、“電池”等詞匯,結合手機產品描述屬性,可以識別出“續(xù)航能力”這一主題。以此類推,還可以總結識別出“物流”、“外觀”、“手感”、“屏幕”、“運行速度”等主題。3.3.2基于LDA主題模型的在線評論主題可視化如前文所提到的,本文在查閱文獻及實戰(zhàn)案例的基礎上,還引入了python中的pyLDAvis模塊,這是為了結合gensim庫對主題識別的結果進行可視化處理,方便更直觀地展示處理結果,此外,還能實現(xiàn)交互式地呈現(xiàn)不同主題和每個主題下的高頻詞語。經資料查找,可視化處理結果想要輸出在本地會花費比較長的時間,而選擇輸出在html網(wǎng)頁中則會大大提高運行速度,因此,本文選擇將結果保存為網(wǎng)頁文檔,下圖(圖3.5)即為可視化結果的部分展示圖:圖3.5主題識別可視化結果(部分)圖中,左側圖的每個圓圈都代表評論文本數(shù)據(jù)的一個主題(topic),當沒有選中任意一個圓圈,即鼠標沒有懸停在圓圈上時,右側條形圖顯示的是主題識別后整個文檔的主題關鍵詞,可以看到前幾個主題分別是“運行”、“拍照”、“效果”、“外觀”、“屏幕”等,基本與上一小節(jié)中初步識別出的主題相重合;這也印證了可視化結果的準確、可靠性。另外,如果將鼠標放到某個圓圈上,那么右側條形圖就會顯示所選主題下的前30個高頻詞,這一功能也為本文之后對評論文本數(shù)據(jù)進行分類打下了基礎。3.3.3基于在線評論主題識別結果的手機產品屬性歸納完成了基于LDA模型的手機產品在線評論數(shù)據(jù)的主題識別后,還需將識別出的主題與用戶關注的手機產品屬性建立聯(lián)系,從而構建起尋找手機產品待改進領域的指標體系。如上一小節(jié)提到的,在交互式的主題識別結果中,通過鼠標懸停即能看到某一主題下的前30個高頻詞,因此本文依據(jù)結果識別出的主題及主題下出現(xiàn)頻率較高的對于手機產品的描述詞,對用戶關注的產品屬性進行歸納。下表(表3.1)即為根據(jù)識別出的主題和所其含的主題詞綜合分析歸納出的產品屬性詞及評論文本數(shù)據(jù)中出現(xiàn)頻率較高的一些的描述詞。表3.1產品屬性詞一級屬性二級屬性描述詞外觀外觀漂亮外觀驚艷好看顏色外形時尚顏值美觀曲面手感手感大小質感小巧尺寸單手做工重量觸感磨砂性能運行速度運行速度快操作卡頓順暢續(xù)航待機時間電池充電續(xù)航電池容量耗電超長屏幕屏幕細膩清晰屏幕色彩分辨率高清顯示畫質畫面功能拍照拍照美顏攝像頭像素夜景變焦前置自拍廣角后置影音游戲音效音質聲音音樂音量音響揚聲器質量質量質量耐用可靠實用品質價格價格價格性價比優(yōu)惠61811貴實惠服務物流送貨物流下單快遞發(fā)貨到貨小哥當天送到收到售后售后客服換退4.基于手機產品改進的指標確立與分析4.1用戶關注度為了實現(xiàn)尋找手機產品設計改進領域的目標,本文除了需要得到手機產品屬性的歸納結果外,還要找出用戶較關注的幾個手機產品屬性、用戶滿意度較低的幾個產品屬性,顯然,對于企業(yè)來說,用戶滿意度較低的方面可以作為產品改進的方向,但在企業(yè)資源及精力有限的實際背景下,一定是優(yōu)先考慮用戶關注度較高的方面,因而可以將關注度高但滿意度低的產品屬性作為下一步產品改進的方向。基于以上思路,這里將產品的用戶關注度及產品滿意度確立為基于手機產品改進的評價指標。首先,記本文的第一個指標——用戶關注度為Ci;其次,利用前文提到的文本數(shù)據(jù)處理工具ROSTCM6中的“文本分類”功能,以分詞結果為基礎數(shù)據(jù),基于上章歸納出的11個手機產品屬性及相對應的描述詞對在線評論數(shù)據(jù)進行分類處理。下圖(圖4.1)為在“運行速度”這一分類結果中截取的部分結果;圖4.1基于產品屬性的分類結果(部分)分類完成之后,基于分類結果對每一類代表的手機產品屬性中出現(xiàn)的評論數(shù)據(jù)條數(shù)進行統(tǒng)計,這里記產品屬性i之下的評論數(shù)據(jù)條數(shù)為ni,則該屬性的用戶關注度Ci可以用以下計算式計算出來:Ci=ni/i=1顯然,Ci越大,即表明該屬性的用戶關注度越高。下表(表4.1)即為基于評論數(shù)據(jù)分類計算出的用戶關注度;可見,“外觀”是用戶最關注的產品屬性,“運行速度”緊隨其后;另外,“屏幕”、“拍照”和“手感”等屬性均排在用戶關注度的前列。而像質量、價格等產品屬性,得到的數(shù)據(jù)結果則不那么多,針對這一現(xiàn)象,推測原因可能是用戶發(fā)表評論的時間點距離產品購買、使用的時間點較近,很難在較短的時間內對產品“質量”這一屬性有更深入的體會。表4.1用戶關注度Ci數(shù)據(jù)一級屬性二級屬性數(shù)據(jù)條數(shù)Ci外觀外觀11370.167手感6410.094性能運行速度10880.160續(xù)航5230.077屏幕8720.128功能拍照10270.151影音5830.086質量質量1940.028價格價格2000.029服務物流3320.049售后2120.0314.2用戶滿意度在產品改進的進程中,用戶滿意度是又一重要的信息參考來源,而滿意度又會從用戶的產品使用反饋即評論數(shù)據(jù)中體現(xiàn)出的情感態(tài)度反映出來,在文本挖掘及情感分析工具ROSTCM6的支持下,分析評論體現(xiàn)的情感態(tài)度更加方便——若用戶滿意度較高,則評論數(shù)據(jù)的情感分析結果會是“積極的”,情感分析得分也會更高,反之,其情感分析結果則會是“消極的”,情感分析得分為負數(shù)。其中,-10至0分為負面情感一般,-20至-10分(不含)為負面情感較強,-20以下認為反映了尤其強的負面情感。顯然,消極的評論對挖掘產品待提升點、對于產品改進的進程更有實際意義。基于以上思路,本文利用ROSTCM6工具對分詞結果進行情感分析,從在線評論數(shù)據(jù)中提取出情感態(tài)度為“消極”的數(shù)據(jù),然后繼續(xù)按照前文所用的分類方法將這些用戶滿意度較低的評論數(shù)據(jù)同樣分為產品屬性確定的11類。這里記消極評論數(shù)據(jù)中,產品屬性i之下的評論數(shù)據(jù)條數(shù)為mi,其中每條數(shù)據(jù)的情感分析得分為f,則為Fi,則該屬性的用戶滿意度可以用此屬性下評論數(shù)據(jù)的情感分析得分均值Fi來反映,F(xiàn)i可以用以下計算式計算出來:Fi=(i=1mif下表即為基于消極評論數(shù)據(jù)分類計算出的用戶滿意度。表4.2用戶滿意度Fi數(shù)據(jù)一級屬性二級屬性數(shù)據(jù)條數(shù)情感分析總得分均值/滿意度Fi外觀外觀1137-144-3.29手感641-45-2.50性能運行速度1088-169-2.01續(xù)航523-216-3.79屏幕872-318-7.07功能拍照1027-322-6.31影音583-361-5.55質量質量194-91-5.69價格價格200-140-10.00服務物流332-188-7.52售后212-357-10.50可見,“售后服務”和“價格”是幾個產品屬性中用戶滿意度最低的,但這兩個產品屬性與“設計改進”的關系并不很大,與電商平臺的運營服務更加相關,因而繼續(xù)尋找到滿意度較低的“屏幕”和“拍照”屬性,分別從屬于手機產品的“性能”、“功能”兩個一級屬性。對比之下,同屬于一級屬性的“外觀”用戶滿意度要好得多。結合原始數(shù)據(jù),了解到用戶對產品屬性“屏幕”滿意度不高的原因主有“貼保護膜之后的屏幕有些不靈敏”、“圖片顯示清晰度等未達用戶預期”、部分用戶出現(xiàn)“黑屏、屏幕亮線”等異常情況;而對“拍照”功能滿意度不高的原因主要有“拍照效果不滿意”、“拍照有時難以聚焦,拍攝模糊”、“攝像頭高出機身太多,不太美觀,也不方便”;對此可知,華為P40這款手機的攝像頭設計不夠完美;另外,品牌方主推的“徠卡鏡頭”拉高了用戶對拍照效果的期待,這種情況下反而更容易造成因期待未達預期而產生滿意度低的情況。4.3手機產品改進的結論及建議依前文關注度指標分析所得,用戶關注的產品屬性前五位分別為“產品外觀”、“運行速度”、“拍照效果”、“屏幕效果”以及“手感”;而依據(jù)用戶滿意度數(shù)據(jù)結果,除去“服務”、“價格”兩個與產品改進關系不大的屬性,滿意度較低的產品屬性有“屏幕效果”及“拍照效果”。下表(表4.3)為將用戶關注度Ci及用戶滿意度Fi數(shù)據(jù)結果相乘之后得到的產品改進屬性參考結果,表中去除了“服務”、“價格”及“質量”屬性。從數(shù)據(jù)結果易知,“屏幕效果”、“拍照效果”及“產品外觀”這三個屬性應作為企業(yè)下一步重點關注的產品改進領域:對于“屏幕效果”、“拍照效果”來講,主要需要針對“黑屏”、“不靈敏”、“難聚焦”等異常情況進行問題分析,找出是技術限制還是質量管理方面的問題;對于屬性“外觀”來講,則是因為用戶關注度過高,因而需要保持關注,持續(xù)改進。表4.3Ci*Fi數(shù)據(jù)屬性外觀手感運行速度續(xù)航屏幕拍照影音Ci*Fi-0.5494-0.235-0.3216-0.2918-0.905-0.9528-0.4773另外,基于用戶關注度及滿意度兩個指標下的數(shù)據(jù)分析結果,本文在這里進行了一些分析、推測與建議:華為P40這款手機在外觀、手感設計方面比較成功,用戶滿意度普遍較高:兩個產品屬性下的評價詞多是“好看”、“時尚”、“小巧”、“單手操作”等積極評價;“拍照”和“屏幕效果”兩個屬性屬于關注度非常高且存在較多用戶滿意度較低的,應該作為企業(yè)下一步產品改進的重點關注領域,這兩個產品屬性下的負面評價詞多是“模糊”、“聚焦”、“黑屏”,但據(jù)進一步查閱資料,發(fā)現(xiàn)拍照出現(xiàn)難以聚焦情況的原因之一可能是此款手機主打的拍照功能有些復雜,需要用戶調整模式及參數(shù);“續(xù)航”和“運行速度”問題關注度相對更低,推測遇到這類問題的用戶相對少一些,也存在用戶使用習慣、方法不當造成此類問題的可能,因此這兩個產品屬性暫可不作為亟待改進的產品屬性備選項;最后,有部分用戶表示攝像頭的設計有些過于突出,影響使用和美觀;另有部分用戶表示系統(tǒng)不夠穩(wěn)定,出現(xiàn)卡死、亮線等異常情況,因為這兩個問題提及數(shù)量即用戶關注度并不高,因此推測是偶然有少量產品存在質量問題,雖然后期改進重點可以不在這些方面,但產品質量有保障必定是企業(yè)保持強有力競爭力的基石,對這些用戶一定要做好售后保障。5.結論與展望5.1結論本文基于在線評論的手機產品設計改進進行了研究:首先,在進行文獻查閱與綜述之后,初步了解了這一課題的研究內容、流程與方法,也了解到自然語言處理、文本挖掘等技術在現(xiàn)今社會中的廣泛應用;而后,在任務驅動下,進行了本文所需要應用的LDA主題模型、以python為主體的各種文本處理庫等的了解和學習;隨后,在研究對象選取、數(shù)據(jù)收集及預處理、程序試運行、LDA模型應用階段基于python工具、實戰(zhàn)案例等學習資料進行了大量的嘗試與糾錯,最終成功對收集到的評論數(shù)據(jù)進行了預處理、主題識別和基于交互性可視化主題識別結果的手機產品屬性提取。在此基礎上,本文基于尋找手機產品設計改進領域的目標,確立了“用戶關注度”與“用戶滿意度”兩個指標;而后利用ROSTCM6這一功能強大的文本處理工具,以通過LDA主題提取獲得的手機產品屬性及相對應的高頻描述詞為分類依據(jù)對分詞處理后的手機產品評論數(shù)據(jù)進行了分類,以某屬性下的評論數(shù)據(jù)條數(shù)在全部類別的評論總條數(shù)中所占的比例作為反映該屬性“用戶關注度”大小的依據(jù)。相似地,本文利用ROSTCM6軟件工具中“情感分析”這一功能,在提取出的經過情感態(tài)度評分的消極評論數(shù)據(jù)基礎上,再次以產品屬性為依據(jù)進行分類,進而計算出每個產品屬性的情感得分均值作為“用戶滿意度”這一指標的參考數(shù)據(jù)。最后,通過將兩指標相對應的手機產品屬性計算數(shù)據(jù)相乘,得到最應該關注的前三個待改進的產品屬性,而后,結合原始數(shù)據(jù),對出現(xiàn)的比較具有代表性的的問題進行了解釋與推測并給出了適當建議。5.2展望至此,在對本課題的研究與不斷學習的過程中,不管是研究思路還是用到的技術及工具、方法,都有不少可改進的部分:首先,受限于京東評論頁面僅呈現(xiàn)100頁數(shù)據(jù)的情況,考慮到樣本數(shù)據(jù)大小對于結果分析的重要意義,本文在數(shù)據(jù)收集方面仍有較大改進的余地。另外,在研究中發(fā)現(xiàn),不管是python中的文本處理庫還是功能齊全的文本處理軟件及工具,在對文本評論數(shù)據(jù)進行情感判別分析時都容易出現(xiàn)識別不準確、情感態(tài)度判斷錯誤等問題。例如它們會將一些積極評論錯誤識別為消極評論,最具有代表性的例子是,網(wǎng)絡用語“入坑”,對于品牌代表的是積極意義,但機器識別則僅會將代表消極意義的字義“坑”作為判斷依據(jù),進而造成錯判。在結果還中發(fā)現(xiàn),情感分析工具對一些用戶的消極性描述會因為無法識別評論對象而直接將整個評論識別為消極評論,但事實上,有些消極評論針對的對象并不一定是本產品,只是用戶對自身以往的經歷進行了描述與對比,在這種情形下,得出的結情感分析果準確性必定會降低。對于以上這些問題,后續(xù)還希望能在時間更充裕時,將人工標注與計算機識別適當結合起來,為計算機提供更多的案例參考以提高識別準確性。參考文獻宋蘇娟,彭衛(wèi),王沖等.基于手機評論數(shù)據(jù)探究在線評論有用性的影響因素[J].商場現(xiàn)代化,2020(11):1-4.徐自躍.基于京東手機在線評論的客戶滿意度影響因素研究[D].安徽理工大學,2018.李健,張軍,苑清敏,王穎.在線商品評論對消費者效用的改進分析——基于信息質量和消費者滿意度理論視角[J].情報科學,2018,36(07):137-144.韓科倫,范英杰,郭昕,許研.在線評論的情感傾向對不同類型產品銷量的影響研究[J].管理觀察,2015(36):69-71+77.鄭麗娟,王洪偉.基于情感本體的在線評論情感極性及強度分析:以手機為例[J]管理工程學報,2017,31(002):47-54.趙宇晴,阮平南,劉曉燕,單曉紅.基于在線評論的用戶滿意度評價研究[J].管理評論,2020,32(03):179-189.涂海麗,唐曉波,謝力.基于在線評論的用戶需求挖掘模型研究[J].情報學報,2015,034(010):1088-1097.李杰,李歡.基于深度學習的短文本評論產品特征提取及情感分類研究[J].情報理論與實踐,2018,41(02):143-148.劉芮暢,馬躍.對應分析法在手機產品設計評價中的應用[J].廊坊師范學院學報(自然科學版),2019,19(02):34-37.王克勤,毋鳳君.面向產品設計改進的在線評論挖掘[J].計算機工程與應用,2019,055(019):235-245,252.毛玲.基于LDA的文本主題挖掘研究[D].華中科技大學,2018.史麗君.基于特征強化的中文產品評價挖掘研究[D].合肥工業(yè)大學,2011.張勇.基于詞性與LDA主題模型的文本分類技術研究[D].安徽大學,2016.張美頎.基于電商產品評論數(shù)據(jù)的情感分析[D].沈陽化工大學,2020.楊程,譚昆,俞春陽.基于評論大數(shù)據(jù)的手機產品改進[J].計算機集成制造系統(tǒng),2020,26(11):3074-3083.張良均,王路等.Python數(shù)據(jù)分析與挖掘實戰(zhàn)[M].機械工業(yè)出版社,201509.趙楊,李齊齊,陳雨涵,曹文航.基于在線評論情感分析的海淘APP用戶滿意度研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(11):19-27.張璐,吳菲菲,黃魯成.基于用戶網(wǎng)絡評論信息的產品創(chuàng)新研究[J].軟科學,2015,29(05):12-16.張明生,鄧少靈.基于LDA主題模型的文本信息挖掘應用研究——以天貓小米官方旗艦店為例[J].現(xiàn)代商業(yè),2019(07):29-30.曹康康.基于文本挖掘的消費電子類產品用戶研究[D].天津大學,2018.曾小芹.基于Python的中文結巴分詞技術實現(xiàn)[J].信息與電腦(理論版),2019,31(18):38-39+42.李尚昊,朝樂門.文本挖掘在中文信息分析中的應用研究述評[J].情報科學,2016,34(08):153-159.范煒昊,徐健.基于網(wǎng)絡用戶評論情感計算的用戶痛點分析——以手機評論為例[J].情報理論與實踐,2018,41(01):94-99.[19]胡奕陽.基于評價參數(shù)框架探析消費者在線評論文本[J].現(xiàn)代語言學,2020,8(5):5.楊弦.基于在線評論的產品網(wǎng)絡口碑挖掘研究[D].大連理工大學,2019.曹陽.基于在線評論數(shù)據(jù)挖掘的用戶需求研究[D].吉林大學,2020.沈瑞.基于在線評論文本分析的消費者購買決策因素研究[D].哈爾濱工程大學,2017.武娟麗.在線評論對新舊產品銷量影響實證研究[D].北京郵電大學,2014.秦成磊,章成志.中文在線評論中的產品新屬性識別研究[J].信息資源管理學報,2020(03):79-92.陳燕方,李志宇.基于評論產品屬性情感傾向評估的虛
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 結婚講話稿集錦15篇
- 2025年度網(wǎng)絡安全風險評估項目保密協(xié)議書
- 2025年度旅游產品區(qū)域總代理銷售合同書封面樣本
- 2025年度跨區(qū)域旅游節(jié)慶活動競賽合作協(xié)議
- 現(xiàn)代會展中心人流車流一體化管理方案
- 2025年度大宗商品貨物轉讓合同示范文本
- 用戶體驗在社交媒體平臺的發(fā)展
- 智研咨詢發(fā)布-2025年元宇宙+游戲行業(yè)市場競爭格局、行業(yè)政策及需求規(guī)模預測報告
- 2025年度房地產租賃合同價款調整與租賃關系維護協(xié)議(2024版)
- 珍稀動物保護的跨學科研究進展
- 一級建造師繼續(xù)教育最全題庫及答案(新)
- 2022年高考湖南卷生物試題(含答案解析)
- GB/T 20909-2007鋼門窗
- GB/T 17854-1999埋弧焊用不銹鋼焊絲和焊劑
- GB/T 15593-2020輸血(液)器具用聚氯乙烯塑料
- 直線加速器專項施工方案
- 聯(lián)苯二氯芐生產工藝及產排污分析
- 儲能設備項目采購供應質量管理方案
- 2022年全國卷高考語文答題卡格式
- 復旦大學簡介 (課堂PPT)
- CKD馬達使用說明
評論
0/150
提交評論