基于LDA模型的藥品在線評(píng)論情感分析研究_第1頁
基于LDA模型的藥品在線評(píng)論情感分析研究_第2頁
基于LDA模型的藥品在線評(píng)論情感分析研究_第3頁
基于LDA模型的藥品在線評(píng)論情感分析研究_第4頁
基于LDA模型的藥品在線評(píng)論情感分析研究_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

摘要:中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)第51次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》發(fā)布,截至2022年12月,我國網(wǎng)民規(guī)模達(dá)10.67億,互聯(lián)網(wǎng)普及率達(dá)75.6%。在互聯(lián)網(wǎng)發(fā)展的大環(huán)境下,電商平臺(tái)出現(xiàn)了數(shù)以萬計(jì)的評(píng)論數(shù)據(jù),對(duì)挖掘線上藥品消費(fèi)者的需求和提升電商藥品的口碑具有重要價(jià)值。文章爬取了京東電商平臺(tái)上某腸胃藥品的評(píng)論數(shù)據(jù),并基于預(yù)處理以后的文本數(shù)據(jù)進(jìn)行了情感傾向性分析和LDA主題模型分析。結(jié)果表明,該腸胃藥品具有價(jià)格偏貴、售后服務(wù)差、物流運(yùn)輸差、部分包裝損壞等不足之處。根據(jù)所得結(jié)論對(duì)電商藥品消費(fèi)者提供一些決策參考,同時(shí)為該腸胃藥品線上銷售的升級(jí)提供一定的參考依據(jù)。關(guān)鍵詞:電商商品評(píng)論;情感分析;藥品在線評(píng)論;LDA主題模型

ResearchononlinesentimentanalysisofdrugreviewsbasedonLDAmodelAbstract:The51stStatisticalReportonInternetDevelopmentinChinawasreleasedbytheChinaInternetNetworkInformationCenter(CNNIC),andasofDecember2022,thesizeofChina'sInternetusersreached1.067billion,andtheInternetpenetrationratereached75.6%.InthecontextofInternetdevelopment,tensofthousandsofreviewdatahaveappearedone-commerceplatforms,whichareofgreatvalueformininguserdemandandimprovingproductreputation.ThispapercrawlsthereviewdataofagastrointestinaldrugontheJingdonge-commerceplatform,andanalyzestheemotionaltendencyanalysisandLDAthememodelbasedonthepreprocessedtextdata.Theresultsshowthatthegastrointestinaldrughastheadvantagesoffastcurativeeffect,highcostperformanceandcomprehensivetherapeuticfunction,butitalsohasshortcomingssuchasexpensiveprice,poorafter-salesservice,poorlogisticsandtransportation,anddamagetosomepackaging.Theconclusionprovidedacertainreferencefortheupgradeoftheonlinesalesofgastrointestinaldrugs.Keywords:MartialArtsElectives;Motivation;Factors;Countermeasures

目錄TOC\o"1-3"\h\u4361基于LDA模型的藥品在線評(píng)論情感分析研究 124815學(xué)生姓名:弋佳悅指導(dǎo)教師:張振芳 198511引言 117451.1研究背景 183981.2研究意義 1307281.3國內(nèi)外文獻(xiàn)綜述 1164411.4研究目標(biāo)與研究內(nèi)容 414672文本挖掘與分析 59972.1文本挖掘 5252252.2文本預(yù)處理 6111762.2.1數(shù)據(jù)清洗 640542.2.2文本分詞 662972.2.2去停用詞和詞性標(biāo)注 7170542.2.3詞頻統(tǒng)計(jì) 728373傾向化分析 9255493.1基于機(jī)器學(xué)習(xí)的方法 9292403.1.1支持向量機(jī)模型 9123983.1.2情感分析結(jié)果 9245354LDA主題模型 1034454.1LDA模型步驟及原理 10115084.1.1LDA模型原理及步驟 104684.1.2尋優(yōu)圖 11114684.1.3輸出主題 1192274.1.3主題數(shù)為10時(shí)LDA可視化 11140905結(jié)論與展望 13123595.1對(duì)醫(yī)藥電商零售商的建議 1362895.2對(duì)醫(yī)藥購買者的建議 13255075.3局限性 1414023參考文獻(xiàn) 14

1引言1.1研究背景當(dāng)今我國移動(dòng)寬帶用戶普及率已達(dá)到98%。越來越多的消費(fèi)者參與在電商交易中,人們在線上購物時(shí)經(jīng)常參考商品評(píng)論對(duì)產(chǎn)品進(jìn)行更多的了解,與此同時(shí)在購買后也會(huì)進(jìn)行評(píng)價(jià),發(fā)表自己的使用感受。Diana和Maria[1]在《關(guān)于在線評(píng)論和評(píng)級(jí)對(duì)網(wǎng)上預(yù)定酒店的影響》中提到,人們在看到其他人的評(píng)論被很多人關(guān)注的時(shí),由于自身也想被關(guān)注的欲望會(huì)激發(fā)他們?nèi)ピu(píng)價(jià),這意味著線上商品評(píng)論會(huì)不斷激發(fā)出更多的評(píng)論。當(dāng)然,也有很多平臺(tái)會(huì)以獎(jiǎng)勵(lì)積分等方式來激勵(lì)用戶做評(píng)論。而電商的各個(gè)參與者需要挖掘海量評(píng)論隱藏的信息。對(duì)電商平臺(tái)來說,可以依據(jù)文本數(shù)據(jù)更好地調(diào)整產(chǎn)品排版,產(chǎn)品關(guān)鍵詞更新等等;生產(chǎn)商亦可以根據(jù)用戶評(píng)論的傾向性改進(jìn)產(chǎn)品,使用戶更滿意;對(duì)消費(fèi)者而言,尤其在購買藥品上注重的更多,考慮得更細(xì)節(jié)。購買關(guān)乎健康的藥品需要更多保障,所以在購買前以大量產(chǎn)品信息做參考,從而減少信息不對(duì)稱有效的做出決策。1.2研究意義為了快速了解消費(fèi)者的使用感受,本文使用機(jī)器學(xué)習(xí)模型的分析途徑來挖掘文本情感傾向信息,并且研究商品評(píng)論中的消費(fèi)者感受和偏好,降低人工查閱的負(fù)擔(dān),對(duì)企業(yè)經(jīng)營以及產(chǎn)品銷售的改進(jìn)提供支持。不帶任何主觀感情且只對(duì)真實(shí)情況進(jìn)行闡述的評(píng)論能夠明顯地表達(dá)出產(chǎn)品的好壞,起到提升購買量的作用。在消費(fèi)者市場中了解顧客非常關(guān)注的因素,這對(duì)促進(jìn)企業(yè)營銷,控制資源消耗,提升消費(fèi)者滿意度至關(guān)重要。理論意義方面,本文運(yùn)用支持向量機(jī)作為分類方法,對(duì)大量的文本進(jìn)行了情感分析,利用LDA主題模型提取出現(xiàn)頻率最高的幾個(gè)產(chǎn)品特征詞以及差評(píng)中相關(guān)聯(lián)的產(chǎn)品特征,從而總結(jié)出商品的改進(jìn)之處。不僅驗(yàn)證了機(jī)器學(xué)習(xí)模型在藥品評(píng)論情感分析中的實(shí)用性,也為藥品營銷和產(chǎn)品宣傳做升級(jí)等提供一些參考?,F(xiàn)實(shí)意義方面,電商平臺(tái)依據(jù)顧客的意見重新調(diào)整旗下平臺(tái)產(chǎn)品的投放資源,也可以對(duì)網(wǎng)頁的板塊分布進(jìn)行更新。對(duì)廠商來說,本文提取的差評(píng)關(guān)鍵詞為他們提供參考,了解品牌的聲譽(yù)情況以及消費(fèi)者的使用感受,及時(shí)進(jìn)行改進(jìn)和升級(jí)。對(duì)電商平臺(tái)的消費(fèi)者來說,本文幫助他們更快了解有效的產(chǎn)品信息,包括產(chǎn)品的優(yōu)勢以及缺陷,消費(fèi)者結(jié)合產(chǎn)品信息再?zèng)Q定是否購買,避免了物流、包裝破損等問題造成的損失。如此,可以讓平臺(tái)、企業(yè)以及用戶之間相互了解,不僅可以大程度的降低企業(yè)在各方面的成本,同時(shí)也可以增加顧客對(duì)于企業(yè)以及平臺(tái)的滿意度,也可以在一定程度上降低客戶對(duì)于產(chǎn)品的投訴,打造出一個(gè)好的產(chǎn)品形象,形成良好的品牌效應(yīng)。所以,本文的研究具有重要的意義。1.3國內(nèi)外文獻(xiàn)綜述支持向量機(jī)模型以及LDA模型在情感分析中的應(yīng)用比較常見。例如胡偉芳【2】研究基于經(jīng)典的4C營銷理論,采用語料庫的技術(shù)和方法分析亞馬遜平臺(tái)XM公司某一款手機(jī)產(chǎn)品的在線商品評(píng)論,從中挖掘4個(gè)方面的評(píng)價(jià)信息,即“消費(fèi)者”、“成本”、“便利”及“溝通”,將消費(fèi)者最關(guān)心的商品特征及其評(píng)價(jià)觀點(diǎn)系統(tǒng)地呈現(xiàn)出來。吳健等【3】利用情感詞典對(duì)評(píng)論進(jìn)行情感分析,得出14703條評(píng)論中所隱含的滿意度評(píng)價(jià)。從語義網(wǎng)絡(luò)結(jié)構(gòu)與主題分布的研究角度,對(duì)正面評(píng)價(jià)與負(fù)面評(píng)價(jià)進(jìn)行文本挖掘,提取得到各市場類型下隨州香菇網(wǎng)絡(luò)零售滿意度的影響因素。黃昕凱等【4】設(shè)計(jì)了一種商品評(píng)論分析系統(tǒng),能將評(píng)論處理后進(jìn)行情感特征分析,為線上消費(fèi)者提供更好的消費(fèi)體驗(yàn),同時(shí)為線上消費(fèi)用戶提供一些決策上的參考意見。LDA模型是自然語言處理領(lǐng)域中最重要的技術(shù)之一,賴顯靜【5】深入探究在線課程評(píng)論文本數(shù)據(jù),識(shí)別出參與在線學(xué)習(xí)過程中學(xué)習(xí)者關(guān)注的話題,該研究利用LDA主題模型對(duì)課程評(píng)論文本進(jìn)行主題挖掘,以此為導(dǎo)向改進(jìn)在線學(xué)習(xí)效果。杜利【6】對(duì)某款手機(jī)的評(píng)論進(jìn)行了分詞等預(yù)處理,基于預(yù)處理后的數(shù)據(jù)進(jìn)行情感分析,通過LDA主題模型分析評(píng)論,挖掘潛在目標(biāo)用戶的需求、想法等,對(duì)改善產(chǎn)品提出相關(guān)的建議。趙桂紅等【7】運(yùn)用LDA模型對(duì)航空旅客滿意度評(píng)論進(jìn)行主題提取,識(shí)別航班延誤后的旅客滿意度影響因素以及發(fā)現(xiàn)了新的影響因素——娛樂活動(dòng)。吳楠楠等【8】爬取京東平臺(tái)某手機(jī)的評(píng)論數(shù)據(jù),基于預(yù)處理之后的數(shù)據(jù)進(jìn)行了傾向性分析和LDA主題模型分析。研究結(jié)果表明,該品牌手機(jī)具有外觀好看、充電快、性價(jià)比高和硬件功能強(qiáng)大等優(yōu)勢,但也有產(chǎn)品定價(jià)偏貴、品牌新品保值率低、包裝的零件不全等不足之處。所得結(jié)論為該品牌手機(jī)升級(jí)提供一定的參考依據(jù)。薛繼肖【9】收集書桌的消費(fèi)者評(píng)論,利用Python軟件對(duì)其進(jìn)行去停用詞、分詞、詞性分析及關(guān)鍵詞詞頻統(tǒng)計(jì)處理,運(yùn)用LDA模型得到主題關(guān)鍵詞,并在此基礎(chǔ)上挖掘用戶需求??偨Y(jié)出線上用戶對(duì)于書桌方面的需求主要集中在書桌的質(zhì)量、做工、味道等方面。支持向量機(jī)是一種有堅(jiān)實(shí)理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法,劉祉燊等【10】應(yīng)用支持向量機(jī)對(duì)學(xué)院的官方微博評(píng)論進(jìn)行了情感分析,調(diào)整優(yōu)化參數(shù)后取得了更好的分析結(jié)果。李首政等【11】構(gòu)建高斯核的支持向量機(jī)分類器實(shí)現(xiàn)對(duì)微博數(shù)據(jù)的情感分析,實(shí)驗(yàn)結(jié)果顯示,對(duì)比樸素貝葉斯、決策樹等方法,使用支持向量機(jī)可獲得較高的準(zhǔn)確率,并且在小樣本數(shù)據(jù)上有明顯的優(yōu)勢。游棉州【12】闡述情感分析是進(jìn)行文本數(shù)據(jù)挖掘的一個(gè)重要技術(shù),介紹了邏輯回歸、支持向量機(jī)、樸素貝葉斯三種常見的分析算法及其常見應(yīng)用場景。朱玉林【13】對(duì)蘭新高鐵信號(hào)設(shè)備故障數(shù)據(jù)使用SVM、LR等多種機(jī)器學(xué)習(xí)分類算法進(jìn)行訓(xùn)練,實(shí)驗(yàn)表明,結(jié)合LDA模型后支持向量機(jī)(SVM)的分類算法的準(zhǔn)確率可以達(dá)到0.84。黃勝男研究了情感分析過程,通過實(shí)驗(yàn)對(duì)比,選取支持向量機(jī)作系統(tǒng)的分類器。涂晨等【14】通過LDA主題模型構(gòu)建文本相似度計(jì)算規(guī)則,對(duì)微信公眾號(hào)文章進(jìn)行主題分類;借由TextRank關(guān)鍵詞提取方法,提取出各個(gè)評(píng)論中的產(chǎn)品名稱,再通過中文情感分析在產(chǎn)品評(píng)論的基礎(chǔ)上建立了多維度熱度分析模型做出年度熱度排行,旨在分析新冠疫情時(shí)期城市周邊游的發(fā)展和未來規(guī)劃。呂曉將等【15】以日本Henn-na酒店和中國Flyzoo酒店為研究對(duì)象,通過網(wǎng)絡(luò)爬蟲技術(shù)抓取在線評(píng)論數(shù)據(jù),采用詞頻分析、語義共現(xiàn)網(wǎng)絡(luò)分析和情感分析等文本分析方法探討顧客對(duì)智能機(jī)器人酒店的感知偏好和差異,使人工智能設(shè)計(jì)者理解用戶對(duì)酒店智能機(jī)器人的體驗(yàn)感受,也為酒店人工智能的應(yīng)用提供了管理實(shí)踐經(jīng)驗(yàn)。王一帆等【16】基于網(wǎng)絡(luò)輿情發(fā)展中情感演化視角,構(gòu)建河南暴雨事件網(wǎng)絡(luò)輿情處理分析模型,以微博輿情數(shù)據(jù)作為研究對(duì)象,采用SnowNLP、詞云等方法揭示其情感特征和情感傾向,通過網(wǎng)絡(luò)輿情處理分析模型合理劃分輿情演變過程,挖掘輿情演變規(guī)律,為相關(guān)部門提供有針對(duì)性的引導(dǎo)策略及理論支撐。溫廷新等【17】基于傳播社會(huì)學(xué)視角構(gòu)建政策話題多屬性語義分析模型,采用社會(huì)網(wǎng)絡(luò)分析、改進(jìn)的語義分析、LDA主題模型等方法,從話題、結(jié)構(gòu)和內(nèi)容多屬性挖掘三孩話題語義,進(jìn)而掌握民意,也對(duì)政府決策和輿情防控具有積極意義。國外學(xué)者也有很多利用支持向量機(jī)模型進(jìn)行情感分析,DeepaR.等【18】提出了使用多項(xiàng)式樸素貝葉斯和邏輯回歸對(duì)餐廳評(píng)論數(shù)據(jù)集進(jìn)行情感分析,這個(gè)程序幫助所有者迅速確定客戶的情緒去了解客戶,有助于他們更成功地發(fā)展業(yè)務(wù)。ChandralekhaE.等【19】對(duì)有關(guān)國家資格和入學(xué)考試(NEET)的文本數(shù)據(jù)進(jìn)行情感分析.進(jìn)行分類.并確定人們對(duì)NEET的感覺。在這項(xiàng)研究中.11種不同的機(jī)器學(xué)習(xí)分類器被用來分析微博情緒,以及自然語言處理(NLP),幫助政府和組織在這種文本數(shù)據(jù)調(diào)查的幫助下更迅速地對(duì)令人震驚的問題采取行動(dòng)。OladeleTemidayoMichael等【20】從Twitter上收集了帶有#EndSARS的用戶推文,并對(duì)其進(jìn)行預(yù)處理,將其標(biāo)注為正類和負(fù)類,然后使用支持向量分類器對(duì)其中表達(dá)的情感進(jìn)行分類;實(shí)驗(yàn)結(jié)果表明,在測試集上,準(zhǔn)確率為90%,精確率為94%,召回率為85%,F1分?jǐn)?shù)為89%,在社交媒體上挖掘這樣的輿情可以通過作為預(yù)警系統(tǒng)來輔助政府和其他關(guān)注組織。RitaPaulo等【21】在英國大選的選舉期間,使用了提及保守黨和工黨這兩個(gè)主要的英國政黨、他們各自的總理候選人以及確定他們的政治競選的條款,進(jìn)行數(shù)據(jù)收集,使用R和RapidMiner進(jìn)行處理和分析,將社交媒體用戶在選舉期間表現(xiàn)出的情緒與選舉的實(shí)際結(jié)果進(jìn)行比較。結(jié)果表明,社交媒體上觀點(diǎn)的情感極性并不是可靠的選舉結(jié)果預(yù)測指標(biāo)。SufiFahim等【22】利用人工智能(AI)和自然語言處理(NLP)的現(xiàn)代技術(shù)進(jìn)步來理解與網(wǎng)絡(luò)攻擊和電子戰(zhàn)相關(guān)的社交媒體帖子的上下文信息,在75天中,基于人工智能的語言檢測、翻譯和情感分析在47種不同語言的中解析15983條推特,最終為中國、澳大利亞、俄羅斯、烏克蘭、伊朗和印度生成了75個(gè)異常的每日網(wǎng)絡(luò)威脅指數(shù),利用這些情報(bào),戰(zhàn)略決策者可以調(diào)整他們的網(wǎng)絡(luò)準(zhǔn)備,以減輕網(wǎng)絡(luò)罪犯所遭受的有害損害。StellacciStefania等【23】研究對(duì)意大利熱門目的地周邊——?dú)v史廣場和火車站的在線評(píng)論進(jìn)行情感分析,旨在為城市設(shè)計(jì)分析中的社區(qū)參與提供新的視角,這種先進(jìn)的分析重塑了人們解讀更廣泛社區(qū)的思想和情感的方式,從而將這些納入以地方為中心的發(fā)展戰(zhàn)略。JassimMustafaAbdalrassual等【24】比較了簡單和集成ML方法作為SA的分類器:隨機(jī)森林、K近鄰、LightGBM、隨機(jī)梯度下降和Bagging等等。使用一個(gè)50,000次電影評(píng)論的測試集數(shù)據(jù)庫,選擇了20000個(gè)對(duì)文件的感覺有影響的詞語,從大規(guī)模和序列試驗(yàn)中獲得的詞頻特征和詞頻-逆文檔頻率,比較使用特征提取技術(shù)的各種分類器獲得的結(jié)果。為了評(píng)估和量化我們所考慮的不同ML方法的性能使用了6個(gè)標(biāo)準(zhǔn)度量:精確率、準(zhǔn)確率、召回率、f值、AUC和Kappa-measure,結(jié)果表明支持向量機(jī)模型(SVM)分類器是最好的,其準(zhǔn)確率為88.333%,其次是FDOSM方法,在相同的測量中,它的準(zhǔn)確率為0.800。1.4研究目標(biāo)與研究內(nèi)容隨著時(shí)間的推移,線上平臺(tái)積累了規(guī)模龐大的藥品評(píng)論數(shù)據(jù)。這些藥品評(píng)論內(nèi)容雖然看起來雜亂,卻隱含了消費(fèi)者對(duì)線上購買藥品的感情色彩,蘊(yùn)藏著巨大的價(jià)值。本文將針對(duì)京東電商平臺(tái)上的某腸胃藥品評(píng)論數(shù)據(jù),嘗試將已有的機(jī)器學(xué)習(xí)技術(shù)(支持向量機(jī)模型)應(yīng)用于線上評(píng)論文本中,驗(yàn)證機(jī)器學(xué)習(xí)模型對(duì)藥品評(píng)論情感分析的實(shí)用性。不僅豐富情感分析在健康醫(yī)療領(lǐng)域中藥品評(píng)論方面的研宄,也為消費(fèi)者提供便利,節(jié)約了解產(chǎn)品瀏覽大量評(píng)論的時(shí)間。最后,通過LDA主題模型在處理好的數(shù)據(jù)文本中提煉出消費(fèi)者真實(shí)的態(tài)度和意見,幫助生產(chǎn)企業(yè)更加深入了解用戶的真實(shí)需求與情感評(píng)價(jià)。

2文本挖掘與分析2.1文本挖掘文本挖掘是指利用計(jì)算機(jī)從大量的文本數(shù)據(jù)中統(tǒng)計(jì)提煉出文本隱含的信息或特征的過程。對(duì)原始爬取得到的文本不能直觀看到其主要特征,因此需要進(jìn)行文本挖掘。本文從京東商城爬取了電商評(píng)論數(shù)據(jù),直接爬取的數(shù)據(jù)都是非結(jié)構(gòu)化的,需要經(jīng)過一系列處理轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)再進(jìn)行進(jìn)一步研究。本文選取的線上商品為腸胃藥品,數(shù)據(jù)來源于京東商城某品牌腸胃藥自營旗艦店評(píng)論,此類型藥品評(píng)論數(shù)據(jù)非常多,相較于其他的產(chǎn)品其評(píng)論內(nèi)容趨于更加多樣化,消費(fèi)者所關(guān)注的產(chǎn)品特征更多。由于京東商城商品在線評(píng)論文本使用python代碼爬取受到限制,所以本文直接通過第三方采集器八爪魚進(jìn)行采集。原始數(shù)據(jù)共爬取正、負(fù)面評(píng)價(jià)各1000條。如圖為爬取到的部分評(píng)論數(shù)據(jù)(正面):圖1評(píng)論示例

2.2文本預(yù)處理2.2.1數(shù)據(jù)清洗從爬取到的部分?jǐn)?shù)據(jù)可以看出,評(píng)論中會(huì)出現(xiàn)重復(fù)的評(píng)論,原因可能是消費(fèi)者對(duì)自己多次購買的商品給出了同樣的評(píng)價(jià),也有為了獲得京東積分而復(fù)制多次評(píng)價(jià)內(nèi)容。重復(fù)的評(píng)價(jià)在文本處理時(shí)應(yīng)當(dāng)及時(shí)去除,否則統(tǒng)計(jì)詞頻和后續(xù)使用LDA模型獲取產(chǎn)品關(guān)鍵詞時(shí)會(huì)造成誤差。另外,評(píng)價(jià)文本中大量的出現(xiàn)重復(fù)的詞語,例如“很好很好很好”,“還不錯(cuò)不錯(cuò)不錯(cuò)”等,應(yīng)當(dāng)采用壓縮去詞的方法進(jìn)行清洗,如圖展示的是部分評(píng)論壓縮去詞成果。爬取到的評(píng)論數(shù)據(jù)經(jīng)過簡單的去重處理之后,可以得到比較干凈的文本。2.2.2文本分詞預(yù)處理首先要對(duì)文本進(jìn)行分詞。Python中的jieba庫詞匯量非常豐富,本文對(duì)商品評(píng)論數(shù)據(jù)基于中文分詞處理時(shí)使用結(jié)巴分詞中的精確模式,分詞時(shí)直接加載了結(jié)巴分詞包進(jìn)行操作。本文數(shù)據(jù)是商品評(píng)論數(shù)據(jù),不具有特別的新詞,因此直接采用默認(rèn)的分詞詞典進(jìn)行操作。調(diào)用Python的jieba分詞包中對(duì)應(yīng)的函數(shù)可以同時(shí)獲得分詞結(jié)果和對(duì)應(yīng)的詞性標(biāo)注。標(biāo)注詞性后可以去掉指定詞性的詞,例如嘆詞,時(shí)間詞,非語素詞等。經(jīng)過分詞處理和詞性標(biāo)注的部分評(píng)論結(jié)果(好評(píng))如圖所示:圖2分詞經(jīng)過分詞處理后共得到4982個(gè)詞。2.2.2去停用詞和詞性標(biāo)注根據(jù)上述步驟得到文本的分詞結(jié)果中,需要去除沒有實(shí)際意義的詞,例如“就是”、“已經(jīng)”、“時(shí)候”、“可以”等。這些詞不僅浪費(fèi)文本空間,且對(duì)文本挖掘沒有幫助,所以將其加入到停用詞表中,起到提高后期文本分類的效果。再對(duì)詞語添加名詞等標(biāo)簽。本文基于全部的分詞在標(biāo)注詞性之后再去停用詞。本文所用的停用詞表是哈工大停用詞表(746個(gè)詞),此外,由于本文數(shù)據(jù)是京東電商產(chǎn)品評(píng)論數(shù)據(jù),文本中會(huì)出現(xiàn)很多“京東”、“京豆”等詞,這樣的詞也需要添加在停用詞表中,最終停用詞表共包含751個(gè)詞,然后遍歷分詞結(jié)果,如果停用詞在文本中,將其刪去。最終過濾掉所有停用詞后剩余12545個(gè)詞。圖3詞性標(biāo)注結(jié)果2.2.3詞頻統(tǒng)計(jì)本節(jié)對(duì)腸胃藥品評(píng)論預(yù)處理后的文本數(shù)據(jù)做詞頻統(tǒng)計(jì),如圖展示的是爬取到的評(píng)論數(shù)據(jù)中出現(xiàn)頻次最高的前7個(gè)關(guān)鍵詞。圖4詞頻統(tǒng)計(jì)展示

3傾向化分析3.1基于機(jī)器學(xué)習(xí)的方法3.1.1支持向量機(jī)模型文本情感分析的步驟為對(duì)預(yù)處理后的詞采用基于統(tǒng)計(jì)的方法對(duì)詞對(duì)所在的逐條文本進(jìn)行分類,文本情感基本可以分為積極和消極兩類。支持向量機(jī)(SupportVectorMachine,SVM)是人工監(jiān)督下的一個(gè)二元分類器,其思想是找到最佳的直線或平面,將數(shù)據(jù)分為兩類,在特征空間上由于支持向量機(jī)是間隔最大的線性分類器,找到的最優(yōu)直線或平面使分類結(jié)果呈現(xiàn)最魯棒狀態(tài),所以SVM的學(xué)習(xí)策略為求分類間隔最大化。3.1.2情感分析結(jié)果基于機(jī)器學(xué)習(xí)的方法不會(huì)損失評(píng)論數(shù),數(shù)據(jù)預(yù)處理后的2000條文本經(jīng)機(jī)器學(xué)習(xí)分類的預(yù)測都輸出了對(duì)應(yīng)的標(biāo)簽(pos代表情感為正面,neg代表情感為負(fù)面)。其中正面904條,負(fù)面1096條。圖5評(píng)論分類結(jié)果圖6負(fù)面評(píng)論分類結(jié)果

4LDA主題模型167164.1LDA模型步驟及原理8584.1.1LDA模型原理及步驟LDA是一種最常用的主題模型,也叫隱含狄利克雷分布。主題模型認(rèn)為,主題是以一定的概率選擇了文檔,二者之間應(yīng)當(dāng)對(duì)應(yīng)一個(gè)概率分布;同理,關(guān)鍵詞也是以一定的概率選擇了某個(gè)主題,此二者之間也應(yīng)當(dāng)對(duì)應(yīng)一個(gè)概率分布。具體的提取流程是將文本語言材料進(jìn)行特征提取后,先將帶有潛在主題信息的詞匯提取出來,然后再經(jīng)過對(duì)特征詞匯的不同維度進(jìn)行分析對(duì)比,最后再篩選出符合標(biāo)準(zhǔn)的詞匯建立特征詞庫。整個(gè)生成文本的過程可以解釋為:先以一定的概率值從全文檔中選擇一篇文檔,對(duì)本文來說是選取某條評(píng)論;再基于該文檔從文檔-主題的狄利克雷分布中選取某個(gè)主題,該過程重復(fù)多次選出的主題應(yīng)當(dāng)服從一個(gè)多項(xiàng)式分布;然后根據(jù)上一步選到的某個(gè)主題,根據(jù)主題-詞語的狄利克雷分布選擇某個(gè)詞,因?yàn)樯弦贿^程選出的主題是變化的,因此這一過程中,變化的主題選出的詞應(yīng)當(dāng)服從一個(gè)多項(xiàng)式分布。所有重復(fù)過程完成之后最終生成所有詞語,并組合形成文檔。利用Python建立LDA主題模型做文本特征分析基于以下幾個(gè)步驟:①基于獲得的分詞文本建立詞典;②基于建立的詞典構(gòu)建語料庫;③基于models.LdaModel()函數(shù)循環(huán)生成主題并計(jì)算主題間相似度;④計(jì)算主體間平均余弦相似度;⑤選擇最優(yōu)主題數(shù)并輸出主題和關(guān)鍵詞;⑥基于輸出的主題和對(duì)應(yīng)關(guān)鍵詞進(jìn)行分析。73464.1.2尋優(yōu)圖圖7coherence圖8coherence73464.1.3輸出主題圖9主題詞輸出262574.1.3主題數(shù)為10時(shí)LDA可視化可以使用詞云圖分析了解出現(xiàn)在負(fù)面評(píng)價(jià)中的高頻詞,初步分析產(chǎn)品特征,但要進(jìn)一步的分析消費(fèi)者對(duì)某一具體特征做出的評(píng)價(jià),或判斷某個(gè)高頻詞屬于哪個(gè)主題時(shí),詞云圖無法明確。例如“不錯(cuò)”這個(gè)詞,僅從詞云圖無法判斷是在說藥品質(zhì)量還是在說物流感受,但人們認(rèn)為“不錯(cuò)”應(yīng)當(dāng)大概率會(huì)出現(xiàn)在藥品質(zhì)量的主題下,運(yùn)用LDA主題模型,可以從概率的角度給出這一判斷的依據(jù)。LDA主題模型經(jīng)過計(jì)算可以獲得某一詞匯在某個(gè)主題中的概率分布,并將某個(gè)特定詞劃分到其概率最大的主題下,從而可以實(shí)現(xiàn)“不錯(cuò)”以最大概率屬于哪個(gè)主題的劃分。同時(shí),還可以求得該主題下其他的關(guān)鍵詞,輸出的關(guān)鍵詞的數(shù)目來自設(shè)定,一般每個(gè)主題取貢獻(xiàn)度最大的前10個(gè)詞作為該主題下的主題詞。相對(duì)于其他主題模型,LDA主題模型的先驗(yàn)分布是狄利克雷分布,模型的泛化能力更強(qiáng),不易出現(xiàn)過擬合現(xiàn)象。圖10詞云圖圖11正面數(shù)據(jù)可視化圖12負(fù)面數(shù)據(jù)可視化

5結(jié)論與展望50285.1對(duì)醫(yī)藥電商零售商的建議改進(jìn)商品的外包裝。對(duì)電商銷售來說,消費(fèi)者接觸不到賣家,也接觸不到自己將買到的商品,在這種情形下,拿到包裹以及打開包裹的體驗(yàn)將決定了消費(fèi)者對(duì)該商品的第一印象,在缺乏面對(duì)面交流和不太了解產(chǎn)品的情況下發(fā)生的電商購買,消費(fèi)者將對(duì)商品外包裝和購物體驗(yàn)要求將更加苛刻,根據(jù)LDA的分析結(jié)果可以看出,差評(píng)的一大原因就是商品外包裝不讓消費(fèi)者滿意。提升物流效率和客戶服務(wù)。物流時(shí)間過長一直是網(wǎng)絡(luò)購物的一大詬病,物流時(shí)間太長大大降低了消費(fèi)者的購物體驗(yàn),甚至直接導(dǎo)致差評(píng),除了提升發(fā)貨倉效率,縮短發(fā)貨時(shí)間,當(dāng)消費(fèi)者反映物流問題時(shí),客服的服務(wù)態(tài)度和方式將直接決定差評(píng)是否可以挽回。因此客戶服務(wù)無論在售前,售中還是售后都顯得尤其重要,服務(wù)應(yīng)當(dāng)永遠(yuǎn)走在銷售產(chǎn)品之前。注重商品防偽和質(zhì)量監(jiān)測。由于藥品是易潮品,消費(fèi)者可能在短時(shí)間內(nèi)一次購買多量同一商品,也可能在線下商場也購買過同一商品,如果消費(fèi)者收到的產(chǎn)品有差異,也會(huì)導(dǎo)致差評(píng)的出現(xiàn),此時(shí)商家應(yīng)當(dāng)在商品外包裝上印上商品防偽碼,并且以可能的方式告知消費(fèi)者收到的商品會(huì)與舊版本有何差距,消除消費(fèi)者上當(dāng)受騙的感受,另外,應(yīng)當(dāng)加強(qiáng)質(zhì)檢,避免出現(xiàn)商品質(zhì)量問題,從而讓消費(fèi)者認(rèn)為買到了假貨。控制價(jià)格變化幅度。商品價(jià)格變化過快也是導(dǎo)致差評(píng)的原因之一,消費(fèi)者買前和買后的價(jià)格差價(jià)過高難免會(huì)引起消費(fèi)者的不滿。商家在利用降價(jià)來吸引新顧客的同時(shí),也要照顧到老顧客的購買感受,可以采取適當(dāng)?shù)臓I銷方式,例如給老顧客送優(yōu)惠券,或者返差價(jià)的方法提升顧客滿意度。148625.2對(duì)醫(yī)藥購買者的建議從評(píng)論特征的分析結(jié)果看,此類藥品的差評(píng)主要來自于外部原因,例如包裝,物流,服務(wù)和是否正品等。從商品自身的品控來看,該品牌藥品的確是一個(gè)不錯(cuò)的選擇,但在包裝、物流、服務(wù)等方面不足,消費(fèi)者在決定是否購買該款產(chǎn)品時(shí)可以根據(jù)自身最關(guān)心的因素來確定,如果看重商品的外包裝和物流速度等,可以選擇去線下購買或者提前與客服協(xié)商商品包裝和物流問題,預(yù)留好快遞等待的時(shí)間。總而言之,該品牌藥品有許多不足之處。對(duì)生產(chǎn)商而言,應(yīng)當(dāng)繼續(xù)加強(qiáng)產(chǎn)品品牌和質(zhì)量控制并逐漸開發(fā)出更好的功能,帶給消費(fèi)者更多更好的體驗(yàn);對(duì)銷售商而言,應(yīng)當(dāng)更加注意與消費(fèi)者的溝通和以及加強(qiáng)產(chǎn)品外包裝和價(jià)格控制,同時(shí)做好售后工作爭取減少差評(píng),對(duì)消費(fèi)者而言,也要根據(jù)自身的理性判斷和實(shí)際需求來決定是否購買。50285.3局限性本文對(duì)詞典的構(gòu)建依然比較粗糙,未來可對(duì)詞典的構(gòu)建展開深入研宄。本文雖然通過機(jī)器學(xué)習(xí)能夠得到較好的模型,但是近幾年深度學(xué)習(xí)發(fā)展迅速,在以后的研宄中可考慮利用深度學(xué)習(xí)相關(guān)知識(shí)進(jìn)行構(gòu)建模型。參考文獻(xiàn)[1]DianaGavilan,MariaAvello,GemaMartinez-Navarro.Theinfluenceofonlineratingsandreviewsonhotelbookingconsideration[J].TourismManagement,2018,66.[2]胡偉芳.基于在線商品評(píng)論的XM公司手機(jī)產(chǎn)品營銷策略優(yōu)化研究[D].安徽財(cái)經(jīng)大學(xué),2023.DOI:10.26916/ki.gahcc.2023.000029.[3]吳鍵,李秀軍.基于文本挖掘的特色農(nóng)產(chǎn)品網(wǎng)絡(luò)零售滿意度影響因素與提升策略研究——以隨州香菇為例[J].湖北農(nóng)業(yè)科學(xué),2022,61(24):236-242+266.DOI:10.14088/ki.issn0439-8114.2022.24.047.[4]黃昕凱,羅梓汛,徐鵬.基于自然語言處理的商品評(píng)論分析系統(tǒng)設(shè)計(jì)[J].信息與電腦(理論版),2022,34(16):163-165+169.[5]賴顯靜.基于LDA主題模型的MOOC課程評(píng)論文本分析[J].現(xiàn)代信息科技,2023,7(04):43-46.DOI:10.19850/ki.2096-4706.2023.04.011.[6]杜利.基于LDA模型的電商用戶評(píng)價(jià)分析[J].科技創(chuàng)業(yè)月刊,2023,36(02):176-179.[7]趙桂紅,寧慧慧.基于LDA主題模型的航班延誤服務(wù)補(bǔ)救意見識(shí)別研究[J/OL].經(jīng)營與管理:1-13[2023-03-16].DOI:10.16517/12-1034/f.20230130.002.[8]吳楠楠,石家程,劉勝強(qiáng).基于LDA主題模型的某品牌手機(jī)評(píng)論數(shù)據(jù)分析[J].現(xiàn)代信息科技,2023,7(02):12-14.DOI:10.19850/ki.2096-4706.2023.02.003.[9]薛繼肖,陳于書,李佳茜.LDA模型在書桌線上用戶評(píng)價(jià)及需求分析中的運(yùn)用[J].家具,2023,44(01):25-29.DOI:10.16610/ki.jiaju.2023.01.006.[10]劉祉燊,張倩,周菠,汪志霖,顧永昊.基于支持向量機(jī)的中文文本情感分析方法研究[J].科技創(chuàng)新與應(yīng)用,2022,12(32):27-30.DOI:10.19981/j.CN23-1581/G3.2022.32.007.[11]李首政,王琪,王力.基于支持向量機(jī)的微博情感分析方法研究[J].現(xiàn)代計(jì)算機(jī),2022,28(19):63-66+80.[12]游棉州.情感分析的算法與技術(shù)應(yīng)用[J].電子技術(shù),2022,51(09):190-191.[13]朱玉林.基于機(jī)器學(xué)習(xí)自然語言處理的蘭新高鐵信號(hào)設(shè)備故障診斷[D].蘭州交通大學(xué),2022.DOI:10.27205/ki.gltec.2022.001121.[14]涂晨,李鑫,葉程軼.基于LDA主題模型與Apriori算法的旅游數(shù)據(jù)挖掘[J].物聯(lián)網(wǎng)技術(shù),2023,13(03):108-112.DOI:10.16667/j.issn.2095-1302.2023.03.032.[15]呂曉將,姚亞男,劉曉鑫.基于文本分析的機(jī)器人酒店用戶感知偏好和差異研究[J].中國商論,2023(05):135-137.DOI:10.19699/ki.issn2096-0298.2023.05.135.[16]王一帆,許楠.自然災(zāi)害事件網(wǎng)絡(luò)輿情情感演化特征分析——以“河南暴雨事件”為例[J].情報(bào)探索,2023(03):55-61.[17]溫廷新,張杰.三孩政策話題的多屬性語義分析[J].

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論