版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PAGEPAGEIII基于商品評(píng)價(jià)數(shù)據(jù)的用戶需求分析——以手機(jī)為例摘要:本文以數(shù)據(jù)挖掘的相關(guān)理論作為基礎(chǔ),對(duì)手機(jī)客戶的網(wǎng)絡(luò)評(píng)論數(shù)據(jù)集進(jìn)行挖掘,首先通過可視化技術(shù)挖掘評(píng)論特征,其次將網(wǎng)絡(luò)評(píng)論主題和情感相結(jié)合進(jìn)行分類,挖掘評(píng)論的主題情感特征,再次將評(píng)論情感分析結(jié)果與客戶評(píng)論的其它屬性(如客戶等級(jí)、評(píng)分等級(jí)等)相結(jié)合,建立量化客戶細(xì)分模型,從而將評(píng)論的客戶進(jìn)行細(xì)分,揭示評(píng)論客戶的潛在特點(diǎn)和價(jià)值,此外,基于客戶細(xì)分的結(jié)果,為了預(yù)知未來的客戶網(wǎng)絡(luò)評(píng)論的細(xì)分類別,采用有序多分類Logistic回歸分析方法建立關(guān)于客戶細(xì)分類別的預(yù)測(cè)模型。最后,針對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行總結(jié),根據(jù)所得出的結(jié)論提出一些建議和下一步工作的展望,以期給企業(yè)、商家提供參考。關(guān)鍵詞:商品評(píng)價(jià);評(píng)價(jià)數(shù)據(jù);用戶需求;手機(jī)Abstract:basedondataminingtheorythispapermakesminingofnetworkreviewdatasetsofmobilephonecustomersfirstlyminingcommentfeaturesthroughvisualtechnologyfirstlycombiningnetworkcommenttopicandemotionclassification.Thirdly,combiningcommentsemotionanalysisresultswithotherattributesofcustomerreviews(suchascustomerratinggradeetc),establishingquantitativecustomersegmentationmodel,thensubdividingcustomersegmentationaccordingtothetopicemotionfeature;Besides,basedoncustomersegmentationresults,weestablishforecastingmodelaboutcustomersegmentationcategorybyordinalmulti-classificationLogisticregressionanalysisbasedoncustomersegmentationresults.Finally,aimingatdataminingresultssummarized,accordingtoconclusionsdrawnsomesuggestionsandfutureworkprospects,hopetoprovidereferenceforenterprisesandbusinesses.Keywords:commodityevaluation;evaluationdata;userrequirements;mobilephone
目錄一、緒論 1(一)研究目的和意義 11.研究目的 12.研究意義 2(二)研究現(xiàn)狀 31.消費(fèi)者購(gòu)買行為的研究 32.短句情感值計(jì)算 33.挖掘關(guān)聯(lián)關(guān)系 4二、手機(jī)客戶網(wǎng)絡(luò)評(píng)論的特征分析 5(一)基于可視化技術(shù)的特征分析 51.基于詞云的可視化分析 52.基于網(wǎng)絡(luò)語(yǔ)義的可視化分析 8(二)基于LDA主題模型的特征分析 101.LDA主題模型分析原理 112.LDA主題模型分析結(jié)果 11三、基于華為和蘋果手機(jī)用戶評(píng)論的需求分析 12(一)數(shù)據(jù)獲取 121.研究對(duì)象 122.數(shù)據(jù)抽樣 13(二)數(shù)據(jù)預(yù)處理 141.規(guī)范數(shù)據(jù)格式 142.分詞 153.依存句法分析 17(三)特征詞和情感詞提取 181.基于句法關(guān)系的抽取算法 182.抽取詞對(duì)結(jié)果(部分) 19(四)文本情感分析 191.建立情感詞詞庫(kù) 192.基于多策略的情感值計(jì)算 21四、基于調(diào)查的華為與蘋果手機(jī)用戶需求現(xiàn)狀分析 26(一)已滿足的用戶需求 261.華為P9和蘋果iphone6總體都是比較滿意 262.華為P9和蘋果幣hone6在手機(jī)質(zhì)量和手感方面顧客較為滿意 26(二)未滿足的用戶需求 261.華為P9競(jìng)爭(zhēng)點(diǎn)是手機(jī)款式和功能,而蘋果iphone6競(jìng)爭(zhēng)點(diǎn)是手機(jī)質(zhì)量和售后服務(wù) 262.華為P9顧客滿意總體低于iphone6顧客滿意 27五、基于用戶需求的華為與蘋果手機(jī)改進(jìn)對(duì)策 27(一)相應(yīng)進(jìn)行降價(jià) 27(二)優(yōu)化社交功能,增加用戶粘性 27(三)搭建反饋平臺(tái),了解用戶全方位需求 28六、總結(jié)與展望 29參考文獻(xiàn) 30致謝 32PAGE18一、緒論(一)研究目的和意義1.研究目的隨著互聯(lián)網(wǎng)高速發(fā)展,互聯(lián)網(wǎng)信息呈現(xiàn)爆炸式增長(zhǎng)。淘寶、京東、亞馬遜等互聯(lián)網(wǎng)電子商務(wù)網(wǎng)站因此得到迅速發(fā)展,它們會(huì)定期舉辦購(gòu)物節(jié)大促銷活動(dòng),吸引大批量用戶網(wǎng)上購(gòu)物。如今網(wǎng)上購(gòu)物成了潮流,這些電商網(wǎng)站擁有海量的商品,同時(shí)也擁有廣大的用戶群,它們真正實(shí)現(xiàn)了將傳統(tǒng)線下購(gòu)買轉(zhuǎn)變成線上交易。線上交易為用戶提供了方便,克服了地域限制,給跨地域購(gòu)買的客戶提供了便捷,用戶足不出戶就可以購(gòu)買到自己稱心如意的物品。對(duì)于用戶,大部分用戶在購(gòu)買商品之前都會(huì)首先關(guān)注商品的用戶評(píng)論數(shù)據(jù),了解廣大用戶對(duì)該商品的評(píng)價(jià),但是用戶面臨的一個(gè)主要問題是商品數(shù)量龐大,每個(gè)商品擁有的用戶評(píng)論數(shù)據(jù)量也極為龐大。若用戶通過逐一觀看商品評(píng)論的方式來定性判斷商品是否是自己想要的,這將耗費(fèi)用戶較大的時(shí)間成本和精力,影響用戶的購(gòu)買及時(shí)性,同時(shí)還可能造成商品不盡人意,影響用戶滿意度。而對(duì)于廠商,廠商無法通過如此大量用戶的評(píng)論,了解客戶的不滿與需求。而且也無法定位客戶眼中產(chǎn)品的不足之處,最終造成商品月銷售量停滯不前。用戶評(píng)價(jià)信息是用戶對(duì)產(chǎn)品使用及體驗(yàn)后的第一反饋資料,具有很大挖掘價(jià)值。將其擱置而不利用是不明智之舉。正是由于Web信息挖掘的誕生解決了這些文本數(shù)據(jù)難分析的問題。因此,近年來Web信息挖掘受到計(jì)算機(jī)科學(xué)、經(jīng)濟(jì)學(xué)、管理學(xué)等相關(guān)學(xué)科的廣泛關(guān)注。其中文本情感分析又稱評(píng)論挖掘或意見挖掘,是指通過自動(dòng)分析某種商品評(píng)論文本內(nèi)容,從文本中提取帶有情感傾向的用戶情感詞,用以反映用戶對(duì)產(chǎn)品態(tài)度是褒義或貶義,以及反映褒貶義的程度。利用對(duì)互聯(lián)網(wǎng)上商品評(píng)論信息的挖掘與分析結(jié)果,用戶可以了解他人對(duì)某種商品的態(tài)度傾向褒義還是貶義,以及褒義的程度或貶義的程度,進(jìn)而選擇最優(yōu)購(gòu)買決策。而通過分析用戶態(tài)度傾向和意見,廠商也能了解用戶需求點(diǎn)及產(chǎn)品不足點(diǎn),對(duì)癥下藥,改善產(chǎn)品進(jìn)而提高用戶滿意度,獲得更多忠實(shí)用戶,贏得競(jìng)爭(zhēng)優(yōu)勢(shì)。和傳統(tǒng)的實(shí)際調(diào)研方式相比,情感分析通常結(jié)合了機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘及文本挖掘,對(duì)用戶情感進(jìn)行分析,可以提供實(shí)時(shí)的用戶情感分析。并且具有時(shí)間成本少,操作便捷等優(yōu)點(diǎn)。另外互聯(lián)網(wǎng)的用戶評(píng)論信息在很大程度上反映了用戶的產(chǎn)品體驗(yàn)感受,也能體現(xiàn)用戶對(duì)產(chǎn)品及服務(wù)的滿意程度。文章中提出的滿意度模型是基于文本情感分析模型計(jì)算出的特征詞情感值,構(gòu)建用戶滿意度指標(biāo)體系,賦予合理權(quán)重,計(jì)算滿意度,用以反映用戶對(duì)商品總體滿意情況。該指標(biāo)還可以作為京東商城個(gè)性化推薦的參考指標(biāo)。良好的個(gè)性化推薦能夠帶來更多的成交量,和更多的忠實(shí)用戶。2.研究意義對(duì)于購(gòu)買者,通過展示用戶評(píng)論中的高頻出現(xiàn)詞,其能夠了解該商品用戶的關(guān)注問題,給其購(gòu)買做參考,避免了買錯(cuò)、不滿等不良因素。同時(shí)也減少用戶自身瀏覽商品評(píng)論所耗的成本,提高用戶的購(gòu)買體驗(yàn)。例如本文研究通過文本挖掘的分詞、過濾無用詞相關(guān)方法,對(duì)京東平臺(tái)上華為p9和iphone6的用戶評(píng)論數(shù)據(jù)進(jìn)行文本特征詞抽取,并且利用情感分析得出在一定條件下,華為P9信號(hào)比蘋果iphone6信號(hào)強(qiáng)。對(duì)于信號(hào)屬性,華為P9使用者給予褒義評(píng)價(jià),而對(duì)iphone6給予貶義評(píng)價(jià)。那么只要將此信息作為標(biāo)簽打在產(chǎn)品介紹內(nèi),這樣對(duì)于手機(jī)信號(hào)有強(qiáng)烈需求的用戶則會(huì)優(yōu)先選擇華為P9,而不會(huì)去購(gòu)買iphone6,用戶會(huì)因此節(jié)省其大量購(gòu)買時(shí)間。對(duì)于廠商,廠商擁有大量用戶的評(píng)價(jià)數(shù)據(jù),如何充分利用這些數(shù)據(jù)使這些數(shù)據(jù)變現(xiàn)成為了廠商們的關(guān)注要點(diǎn)。情感分析合理的提取出了已購(gòu)買商品用戶對(duì)商品的評(píng)價(jià)態(tài)度,具體到商品特征的褒貶義,則可給廠商提供改善建議。同樣以信號(hào)為例,iphone6手機(jī)用戶對(duì)其信號(hào)表示不滿,那么蘋果公司針對(duì)該問題進(jìn)行改善,增強(qiáng)iphone6信號(hào)接收能力,來提高用戶購(gòu)買率。當(dāng)然不單只有電商網(wǎng)站具備大量文本內(nèi)容。社交平臺(tái)是基于大批量的用戶的互動(dòng)而存在的,如微信、微博、QQ、論壇等。在這些平臺(tái)往往是熱點(diǎn)話題的產(chǎn)生地。雖然本文只對(duì)商品評(píng)論做分析,但文本分析對(duì)于文本性質(zhì)數(shù)據(jù)是通用的。例如若政府想了解大眾對(duì)G20峰會(huì)開展的看法,通過提取新浪微博有關(guān)G20峰會(huì)報(bào)道下的用戶評(píng)論,利用文本情感分析,分析網(wǎng)民對(duì)G20峰會(huì)的具體看法,是正面或是反面的。通過此方法政府可以及時(shí)精確地收集、清楚大眾的情感傾向,了解產(chǎn)生不穩(wěn)定的因素,并及時(shí)作出相應(yīng)調(diào)整。同時(shí)可以通過分析新浪微博大V的情感分析與大眾的情感分析關(guān)系,必要時(shí)可以通過大V言論對(duì)整個(gè)輿論事件進(jìn)行調(diào)節(jié)作用,對(duì)于政府來說準(zhǔn)確及時(shí)的把握住這些輿情導(dǎo)向有助于保證社會(huì)安定,維護(hù)公共秩序。(二)研究現(xiàn)狀1.消費(fèi)者購(gòu)買行為的研究Doubule(2005)研究了不同行業(yè)內(nèi)在線客戶的購(gòu)買前行為準(zhǔn)備,研究對(duì)象主要分布在運(yùn)動(dòng)與健身產(chǎn)品行業(yè)、計(jì)算機(jī)硬件設(shè)備行業(yè)、美國(guó)服裝行業(yè)、旅游行業(yè)四類。研究結(jié)果顯示,一半以上的消費(fèi)者會(huì)提前利用網(wǎng)絡(luò)查詢相關(guān)的商品信息,并且關(guān)注其他己購(gòu)買此商品用戶的評(píng)論信息,在充分了解商品后,才會(huì)選擇購(gòu)買,因此得出互聯(lián)網(wǎng)的商品評(píng)論是影響消費(fèi)者做出購(gòu)買抉擇的重要影響因素。吳麗云等(2015)通過對(duì)大眾點(diǎn)評(píng)網(wǎng)“家餐飲店網(wǎng)站數(shù)據(jù)進(jìn)行研究,分詞并進(jìn)行詞頻統(tǒng)計(jì)來描述消費(fèi)者在消費(fèi)時(shí)所關(guān)注的要素;Y'i等(2003)將商品的屬性劃分為四個(gè)方面,即商品名稱、商品的組成部分、商的的特點(diǎn)和功能、商品屬性的特點(diǎn)和功能。2.短句情感值計(jì)算國(guó)外學(xué)者的研究成果主要集中在短文本情感值計(jì)算方面,也可以說短句褒貶程度計(jì)算。其中包括Turney(2002),將一篇文章切分多個(gè)短句,并利用搜索引擎計(jì)算每個(gè)短句的情感值,最終利用簡(jiǎn)單平均方法,得出短句的平均情感值,并以該平均值來代表整篇文章的情感值。該方法簡(jiǎn)單易懂,但相比有監(jiān)督的機(jī)器學(xué)習(xí)方法得出的情感值精度稍低。之后,Dave等(2003)在Turney計(jì)算情感值方法基礎(chǔ)上做了一些改進(jìn)。通過信息檢索技術(shù)對(duì)短句進(jìn)行特征抽取以及特征賦權(quán)重,將特征權(quán)重進(jìn)行累加所得來表示產(chǎn)品評(píng)論的褒貶義傾向程度,此類方法對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)方法效果無明顯優(yōu)勢(shì)。Hatzivassiloglou等(2000)通過聚類方法將形容詞歸為兩類,一類褒義,一類貶義。并且該方法效果較為顯著,其分類效果高大90%,但由于需要連詞的作用,利用形容詞之間同義或反義的連接圖進(jìn)行分類,因此其適用對(duì)象只限由連詞關(guān)聯(lián)的形容詞。Wilson等(2005)利用有機(jī)器學(xué)習(xí)的方法,選取短句中特征詞,并對(duì)其進(jìn)行有監(jiān)督的學(xué)習(xí),最終將文章歸類,判斷其主客觀及褒貶傾向。另外,Turney(2003)利用待判詞與基準(zhǔn)詞(已判斷褒貶義)同時(shí)出現(xiàn)的概率來決定帶判詞的褒貶傾向。其假設(shè)帶判詞與基準(zhǔn)詞同時(shí)出現(xiàn)的概率越大,待判詞的褒貶傾向越接近基準(zhǔn)詞的褒貶傾向。Kim等(2004)將情感分為四個(gè)部分:主體、意見持有者、情感描述和褒貶傾向勝。整個(gè)事件過程可以認(rèn)為是意見持有者對(duì)某個(gè)主題表達(dá)帶情緒的觀點(diǎn)或想法,則情緒可分褒貶義。之后,Kim等對(duì)意見持有者進(jìn)行新的定義,即將與主題相距較短的人名或者機(jī)構(gòu)名定義為意見持有者,并且引用WordNet工具對(duì)詞語(yǔ)的褒貶程度進(jìn)行計(jì)算,并累加意見持有者距離較短的情感值,用以表示本句子的褒貶傾向。Popescu等(2005)依據(jù)商品名稱與商品屬性特征詞共現(xiàn)性對(duì)商品的屬性進(jìn)行標(biāo)注,并且分析句法結(jié)構(gòu),手工標(biāo)記(特征詞、情感詞)的褒義傾向。Ghose等(2007)利用亞馬遜平臺(tái)交易數(shù)據(jù),提出利用商家獲得商品價(jià)格溢價(jià),計(jì)算用戶評(píng)論內(nèi)使用詞語(yǔ)的“經(jīng)濟(jì)價(jià)值”,用以判斷評(píng)論語(yǔ)句的褒貶傾向和強(qiáng)度。朱嫣嵐等(2005)基于HowNet提供的語(yǔ)義相似度和語(yǔ)義相關(guān)場(chǎng)兩種計(jì)算方法,分別計(jì)算待測(cè)詞與褒貶基準(zhǔn)詞相似度之差并來表示該待測(cè)詞的語(yǔ)義傾向。姚天防等(2007)對(duì)汽車業(yè)商品評(píng)論進(jìn)行研究,主要通過句法分析并提取其中主謂結(jié)構(gòu)(SBV)和狀中結(jié)構(gòu)(ADV)的特征詞與情感詞來描述語(yǔ)句表達(dá)內(nèi)容,并且計(jì)算情感值來表示語(yǔ)句的褒貶義。3.挖掘關(guān)聯(lián)關(guān)系Zhuana等(2006)利用手工歸納的詞典,通過軟件訓(xùn)練,抽取電影領(lǐng)域的語(yǔ)句中對(duì)應(yīng)的極性詞語(yǔ)和屬性,并計(jì)算二者之間的最短路徑,用以挖掘其之間的對(duì)應(yīng)關(guān)系。Nasukawa等(2003)手工構(gòu)建的具備情感傳遞功能的數(shù)據(jù)庫(kù),并利用匹配及句法分析,較為精確確認(rèn)情感在元素之間傳遞關(guān)系。劉兵等(2005),Hu等將在線評(píng)論表現(xiàn)格式歸為三類:a.對(duì)產(chǎn)品某個(gè)特性贊揚(yáng)或批評(píng)的評(píng)論;b.即對(duì)產(chǎn)品某特性進(jìn)行贊揚(yáng)或批評(píng)的評(píng)論,同時(shí)屬于自由評(píng)論;c.無規(guī)律的自由評(píng)論。針對(duì)不同類別的評(píng)論,各有學(xué)者對(duì)其做相應(yīng)研究。如對(duì)于產(chǎn)品某個(gè)特性贊揚(yáng)或批評(píng)的評(píng)論,張紫瓊等(2010)利用詞性標(biāo)注方法對(duì)商品屬性進(jìn)行人工標(biāo)記,并利用關(guān)聯(lián)規(guī)則提取屬性與詞語(yǔ)的關(guān)聯(lián)規(guī)則。對(duì)于自由評(píng)論,徐琳宏等(2007)利用頻繁項(xiàng)集挖掘方法提取名詞與名詞的頻繁項(xiàng),并提取與其較近的修飾詞作為其情感描述,再利用這些修飾詞識(shí)別不頻繁屬性。4.其他應(yīng)用Morinaga等(2002)通過自定義的情感詞典,計(jì)算商品特征詞與情感詞的距離來判斷評(píng)價(jià)語(yǔ)句的褒貶義,并且從褒、貶評(píng)價(jià)語(yǔ)句提取具有代表性的詞語(yǔ)作為該品牌的口碑。李艷紅等(2014年)基于Formell模型,根據(jù)詞頻計(jì)算詞匯權(quán)重,并提取權(quán)重TOP10屬性和用戶在線評(píng)分進(jìn)行多元回歸建立筆記本電腦顧客滿意度模型;王曉瑩等(2013)基于模糊綜合評(píng)價(jià)模型及情感詞典,提取特征屬性情感詞,對(duì)詞頻數(shù)據(jù)進(jìn)行聚類,并應(yīng)用于綜合評(píng)價(jià)模型,計(jì)算京東商城顧客滿意度。二、手機(jī)客戶網(wǎng)絡(luò)評(píng)論的特征分析(一)基于可視化技術(shù)的特征分析1.基于詞云的可視化分析本文利用R語(yǔ)言對(duì)上文的預(yù)處理后得到的中文文本數(shù)據(jù)集先進(jìn)行移除數(shù)字,處理停用詞等處理,然后進(jìn)行中文分詞,構(gòu)建語(yǔ)料庫(kù)和建立文檔一詞條矩陣,再結(jié)合Tagxedo軟件繪制各種樣式的詞云,來發(fā)現(xiàn)文本數(shù)據(jù)集中的信息和特征,這個(gè)過程中用到的R語(yǔ)言軟件包主要有:trn,rJava,Rwordseg,RColorBrewer。首先,本文將預(yù)處理得到的1473條評(píng)論看做一個(gè)整體,作為初始文本數(shù)據(jù),利用R語(yǔ)言和Tagxedo軟件進(jìn)行詞云分析,得到結(jié)果如下表1和圖1。表1對(duì)1473條評(píng)論的詞頻統(tǒng)計(jì)結(jié)果(前100個(gè)關(guān)鍵詞)圖11473條評(píng)論的詞云圖1中文字的顏色和大小反映了文檔中相應(yīng)詞頻的高低和重要程度,不難看出,手機(jī)、華為、外觀、滿意、清晰等詞在在圖中呈現(xiàn)非常的突出、鮮明,結(jié)合表1的數(shù)據(jù)結(jié)果可知,這些詞的詞頻均較高??梢姡~云圖7正確形象直觀地體現(xiàn)了客戶對(duì)華為手機(jī)產(chǎn)品多方面的優(yōu)點(diǎn)與不足的評(píng)價(jià)等相關(guān)信息,如滿意、漂亮、好看、不耐用、死機(jī)等。其次,為了對(duì)比觀察每月客戶對(duì)華為手機(jī)的評(píng)價(jià)的異同點(diǎn),在下面的分析中將每月的客戶評(píng)價(jià)獨(dú)立的用一個(gè)詞云圖來呈現(xiàn),其中詞的顯示大小代表詞頻的高低和重要程度,結(jié)果如圖2所示。圖2對(duì)1473條評(píng)論按月份分類的詞云從圖2的分類的詞云可以明顯地看出2015年5-8月客戶對(duì)華為手機(jī)的評(píng)論的核心主題等信息的變化,也可看出客戶對(duì)華為手機(jī)在這4個(gè)月來各方面的優(yōu)點(diǎn)和不足的評(píng)價(jià)變化趨勢(shì),具體如下:(1)2015年5月客戶對(duì)華為手機(jī)的評(píng)論的核心主題為手感、設(shè)計(jì)、外觀、配件、信號(hào)、客服等,正面評(píng)價(jià)是滿意、漂亮、舒服、流暢等,負(fù)面評(píng)價(jià)是太難、發(fā)熱等;(2)2015年6月客戶對(duì)華為手機(jī)的評(píng)論的核心主題為外觀、物流、輸入法、電池等,正面評(píng)價(jià)是輕巧、實(shí)用、實(shí)惠、流暢等,沒有較突出的負(fù)面評(píng)價(jià);(3)2015年7月客戶對(duì)華為手機(jī)的評(píng)論的核心主題為外觀、價(jià)格、照相、通話、電池等,正面評(píng)價(jià)是美觀、滿意、流暢等,負(fù)面評(píng)價(jià)是發(fā)熱、卡頓、死機(jī)等;(4)2015年8月客戶對(duì)華為手機(jī)的評(píng)論的核心主題為外觀、游戲、電池、客戶、像素、聲音等,正面評(píng)價(jià)是滿意、精品、速度快等,負(fù)面評(píng)價(jià)是卡頓、耗電、麻煩、不爽等。2.基于網(wǎng)絡(luò)語(yǔ)義的可視化分析本文在采用網(wǎng)絡(luò)語(yǔ)義的可視化分析過程中,將引入ROSTContentMiningSystem6文本挖掘軟件。該軟件是由武漢大學(xué)信息管理學(xué)院沈陽(yáng)教授設(shè)計(jì)編碼的,此款軟件可以設(shè)定自定義詞表,可以快速高效地剔除與所需求的信息不相關(guān)的內(nèi)容,篩選出文本中的高頻詞匯。本文將處理好的1473條評(píng)論文本用ROSTCM6進(jìn)行“社會(huì)網(wǎng)絡(luò)和語(yǔ)義網(wǎng)絡(luò)分析”,得到表2和圖3。表2對(duì)1473條評(píng)論進(jìn)行網(wǎng)絡(luò)語(yǔ)義關(guān)系頻數(shù)統(tǒng)計(jì)的結(jié)果圖3對(duì)1473條評(píng)論的網(wǎng)絡(luò)語(yǔ)義分析圖由上圖3可知,在評(píng)論樣本文本中“手機(jī)”、“華為”、“外觀”這三個(gè)詞出現(xiàn)的頻率比較高,成為整個(gè)網(wǎng)絡(luò)圖中三個(gè)重要的節(jié)點(diǎn),和這3個(gè)詞靠得越近的詞與其關(guān)系就越密切。對(duì)圖3進(jìn)一步分析可知:(1)與“手機(jī)”最密切有關(guān)聯(lián)的評(píng)價(jià)詞是“滿意”、“好看”這兩個(gè)詞,表明了總體上客戶對(duì)華為手機(jī)的評(píng)價(jià)是正面的,除了一些具體的情感評(píng)價(jià)詞之外,還有一些能夠展現(xiàn)客戶所關(guān)注的手機(jī)產(chǎn)品用途的詞語(yǔ),如“拍照”、“功能”、“游戲”等;(2)“外觀”、“系統(tǒng)”、“運(yùn)行”、“屏幕”等詞語(yǔ)出現(xiàn)的頻率也很高,可以作為二級(jí)詞匯,代表了華為手機(jī)產(chǎn)品的特點(diǎn)。所有這些都展示了客戶心目中的華為手機(jī)的整體形象;(3)以“很快”一詞為節(jié)點(diǎn),周邊的“發(fā)貨”、“物流”、“速度”等詞分別與其形成網(wǎng)絡(luò)語(yǔ)義關(guān)系,表明了客戶對(duì)華為手機(jī)產(chǎn)品有著發(fā)貨很快、物流速度很快等正面的評(píng)價(jià);(4)而以“電池”一詞為節(jié)點(diǎn),與該詞形成網(wǎng)絡(luò)語(yǔ)義關(guān)系的詞主要有“發(fā)熱”、“不耐”、“續(xù)航”、“使用”等詞,表明了客戶對(duì)華為手機(jī)電池的評(píng)價(jià)情況為存在電池易發(fā)熱,不耐使用、續(xù)航能力差等方面的不足。(二)基于LDA主題模型的特征分析通過上文的可視化分析,我們從整體上了解了客戶評(píng)論中出現(xiàn)頻率較高的詞語(yǔ)以及這些詞語(yǔ)之間的網(wǎng)絡(luò)語(yǔ)義關(guān)系。為了進(jìn)一步了解客戶所關(guān)注的評(píng)論主題,追蹤客戶評(píng)論的熱點(diǎn)問題,方便商家及時(shí)地知悉客戶對(duì)產(chǎn)品關(guān)注的熱點(diǎn)主題并采取相關(guān)的措施,本文采用基于LDA的主題模型分析的方法進(jìn)行了分析。1.LDA主題模型分析原理主題模型(TopicModel]是一種使用概率的產(chǎn)生式模式來挖掘文本主題的新方法。TopicModel中假設(shè)主題可以根據(jù)一定的規(guī)則生成詞語(yǔ),那么在已經(jīng)知道文本詞語(yǔ)的情況下可以通過概率方法反推出文本集的主題分布情況。最具代表性的TopicModel是LDA(LatentDirichletAllocation)模型,LDA引入了超參數(shù),形成了一個(gè)“文檔一主題一詞語(yǔ)”三層的貝葉斯模型。根據(jù)LDA模型可以獲得一系列主題詞概率分布和文檔主題概率分布,依據(jù)這兩個(gè)概率分布就可以檢測(cè)到主題傳播過程中的“主題遺傳”和“主題變異”。如果要生成一篇文檔,它里面的每個(gè)詞語(yǔ)出現(xiàn)的概率為:上面這個(gè)式子,可以用矩陣乘法來表示,如下圖所示:圖LDA主題模型計(jì)算原理的示意圖2.LDA主題模型分析結(jié)果根據(jù)上述的LDA主題模型分析原理,選取2.3節(jié)中預(yù)處理后得到的1473條評(píng)論數(shù)據(jù)集作為分析對(duì)象,先對(duì)總體數(shù)據(jù)集進(jìn)行主題詞提取,然后將數(shù)據(jù)集以月為單位分成4個(gè)時(shí)間片段,即時(shí)間片段1到時(shí)間片段4分別為2015年5-8月每個(gè)月客戶評(píng)論的主題詞文本文檔,利用R語(yǔ)言進(jìn)行編程,這個(gè)過程中用到的R語(yǔ)言軟件包主要有Topicmodels,程序詳見附錄1,所得的主題分析結(jié)果如表3、4。表3所有客戶評(píng)論的前8個(gè)主題結(jié)果通過表3的主題結(jié)果可知,在所有的客戶評(píng)論中,“做工”這一主題排在所有主題的首位,表明了總體上客戶最關(guān)注手機(jī)的“做工”,其次是“手感”,此外還有“耳機(jī)”、“設(shè)計(jì)”、“體驗(yàn)”、“存儲(chǔ)”、“電池”、“包裝”等也普遍受到客戶的關(guān)注。表4按月份劃分的客戶評(píng)論前8個(gè)主題的演化結(jié)果由表4的按月份的LDA主題模型分析結(jié)果可知:隨著時(shí)間的變化,客戶評(píng)論的主題詞并不相同。2015年S月以,“外觀”為最,2015年6月轉(zhuǎn)變?yōu)椤白龉ぁ睘樽睿?015年7月又轉(zhuǎn)變?yōu)椤巴庥^”為最,而2015年8月則以“系統(tǒng)”為最。因此,推算不同時(shí)間客戶評(píng)論主題的變化趨勢(shì),對(duì)于商家全面分析客戶對(duì)手機(jī)產(chǎn)品方面的需求和關(guān)注的熱點(diǎn)具有現(xiàn)實(shí)意義。三、基于華為和蘋果手機(jī)用戶評(píng)論的需求分析(一)數(shù)據(jù)獲取1.研究對(duì)象本文主要分析京東用戶對(duì)華為P9手機(jī)和蘋果iphone6手機(jī)的情感傾向。由于電子產(chǎn)品技術(shù)發(fā)展迅速,同一款手機(jī)會(huì)擁有不同型號(hào)、不同內(nèi)存大小、不同手機(jī)顏色等,為了確定研究對(duì)象,本文選定京東商城分別搜索“華為P9","iphone6",按京東綜合指標(biāo)降序排列,取第一家京東自營(yíng)商店的用戶評(píng)論信息作為研究對(duì)象,對(duì)比分析用戶對(duì)華為P9手機(jī)與蘋果iphone6手機(jī)體驗(yàn)反饋。2.數(shù)據(jù)抽樣本文分析的總體是京東自營(yíng)華為P9和蘋果iphone6的所有評(píng)論數(shù)據(jù),這兩個(gè)品種的評(píng)論數(shù)據(jù)在京東商城綜合排名中均列各自品牌第一。評(píng)論數(shù)據(jù)較為龐大,蘋果iphone6評(píng)論擁有44+萬條,華為P9評(píng)論擁有2.2+萬條。獲取數(shù)據(jù)方法采用R軟件進(jìn)行爬蟲,獲取商店評(píng)論信息。一方面由于京東商城每天客戶訪問量大,為了保證京東商城服務(wù)器正常運(yùn)行,京東自行自定了爬蟲限制規(guī)則,加大數(shù)據(jù)爬取的時(shí)間、財(cái)力、物力成本;另一方面大量的網(wǎng)頁(yè)訪問、解析對(duì)京東商城造成極大負(fù)擔(dān),而且由于文本分析數(shù)據(jù)具有高維、稀疏特性,大量數(shù)據(jù)將帶來處理能力的局限性。綜合考慮,本文采用抽樣方案,以樣本量推測(cè)分析總體情況,科學(xué)反映出華為、蘋果手機(jī)目前市場(chǎng)評(píng)價(jià)情況,發(fā)現(xiàn)待完善的功能點(diǎn)。本文采用整群抽樣方法對(duì)數(shù)據(jù)進(jìn)行科學(xué)有效的獲取,確保取得的樣本具有一定的代表性。(1)整群抽樣整群隨機(jī)抽樣,是將總體按一定標(biāo)準(zhǔn)劃分成群或集體,以群或集體為單位按隨機(jī)的原則從總體中抽取若干群或集體,作為總體的樣本,并對(duì)抽中的各群眾每一個(gè)單位進(jìn)行實(shí)際調(diào)查。京東商城中店鋪下評(píng)論數(shù)據(jù)是自然被劃分多個(gè)頁(yè)碼,每個(gè)頁(yè)碼存放10條評(píng)論。同一頁(yè)碼內(nèi)的評(píng)論數(shù)據(jù)是來自于不同用戶反饋的,可以認(rèn)為評(píng)論之間差異大;而不同頁(yè)碼之間是根據(jù)相同規(guī)則劃分,認(rèn)為頁(yè)碼之間差異小。因此商品評(píng)論數(shù)據(jù)具有整群隨機(jī)抽樣的特性,采用整群隨機(jī)抽樣抽取的樣本是有效,能夠科學(xué)反映總體的情況。具體做法如下:a.獲取指定商品的頁(yè)碼數(shù),如1400000b.按照等概率的方法,隨機(jī)抽取頁(yè)碼數(shù)1000個(gè)。c.對(duì)選定的1000個(gè)頁(yè)碼內(nèi)評(píng)論數(shù)據(jù)全部爬取獲得。d.以物理表形式存放SQLSERVER數(shù)據(jù)庫(kù)。(2)數(shù)據(jù)獲取過程數(shù)據(jù)采集過程主要利用網(wǎng)絡(luò)爬蟲技術(shù)結(jié)合hadoop分布式技術(shù)以及SQLSERVER的數(shù)據(jù)庫(kù)技術(shù)對(duì)用戶反饋信息進(jìn)行爬取、儲(chǔ)存。選擇R軟件來獲取源數(shù)據(jù)。首先,安裝R3.1.1版本的軟件,安裝需要的安裝包,比如:XML,RODBC,jiebaR等。接著,利用google瀏覽器獲取頁(yè)面解析網(wǎng)址,該網(wǎng)址存放目標(biāo)數(shù)據(jù)。進(jìn)入評(píng)價(jià)頁(yè)面,進(jìn)入目標(biāo)頁(yè)面審查元素功能,在ne七”rk下獲取存放評(píng)論數(shù)據(jù)鏈接,獲取的鏈接存放著單頁(yè)評(píng)論數(shù)據(jù)。可以通過更改該網(wǎng)頁(yè)頁(yè)碼參數(shù),獲取其他頁(yè)評(píng)論數(shù)據(jù)。想要獲取正確存放數(shù)據(jù)的網(wǎng)站鏈接,需要留意鏈接類似為“html/text"或“json”的網(wǎng)址,并通過反復(fù)確認(rèn)找到包含評(píng)論的i}RL鏈接。最后,利用R軟件爬取指定頁(yè)面評(píng)論數(shù)據(jù),并且將結(jié)果存儲(chǔ)到SQLSERVER2008以表的形式存在,方便之后R調(diào)用RODBC包從數(shù)據(jù)庫(kù)提取評(píng)論數(shù)據(jù)。爬取的部分結(jié)果數(shù)據(jù)如圖3-1所示:圖3-1京東商城“iphone6”評(píng)論數(shù)據(jù)最終爬取獲取的評(píng)論總量情況如下表:表3-1華為P9,iphone6樣本量(二)數(shù)據(jù)預(yù)處理1.規(guī)范數(shù)據(jù)格式當(dāng)獲取網(wǎng)上手機(jī)評(píng)論后,并不能對(duì)這些數(shù)據(jù)直接利用。主要原因是這些數(shù)據(jù)并不具有統(tǒng)一規(guī)范的格式,如容易出現(xiàn)一些錯(cuò)別字以及重復(fù)等噪聲數(shù)據(jù)。而這些噪聲數(shù)據(jù)對(duì)分詞效果、以及情感分析結(jié)果都具有一定影響。因此需要提前對(duì)這些數(shù)據(jù)進(jìn)行相應(yīng)的標(biāo)準(zhǔn)化,即更正錯(cuò)別字、以及調(diào)整錯(cuò)誤的語(yǔ)法,和修改錯(cuò)誤的標(biāo)點(diǎn)符號(hào)等等,之后將調(diào)整后的評(píng)論數(shù)據(jù)進(jìn)行下一步分析。2.分詞中文分詞即是以一定的規(guī)則將某一串漢字字符進(jìn)行切分,并且切分成若千個(gè)塊,將一句完整的話切分成幾個(gè)詞或短語(yǔ)。由于一句話里含有多個(gè)重要的組成成分,它們往往是句子的中心,將它們提取則可以用來代表句子,方便統(tǒng)計(jì)分析。所以將手機(jī)評(píng)論數(shù)據(jù)進(jìn)行情感分析前需要對(duì)每一句評(píng)論進(jìn)行切割,切割成若干詞或短語(yǔ)組成。分詞這個(gè)過程也屬于自然語(yǔ)言處理的范疇,是文本分析的首要任務(wù)?,F(xiàn)在用來分詞的工具很多,比如NLPIR系統(tǒng),它是由張華平博士團(tuán)隊(duì)開發(fā)的,它可以利用C,Python,Java進(jìn)行調(diào)用完成分詞功能。還有哈工大的LTP語(yǔ)言平臺(tái),可以通過C++,Python調(diào)用其API接口進(jìn)行文本分詞任務(wù)。還有一些軟件如R語(yǔ)言的分詞包Rwordseg,jiebaR等,這些工具各有各的特點(diǎn),具體的方法介紹和用法可自尋搜索,這里就不做介紹。本文之所以采用結(jié)巴分析算法,在于該方法具有運(yùn)行速度快,切詞效果精確,且具備自識(shí)別新詞匯的功能、同樣還具備將詞進(jìn)行詞性標(biāo)注的功能。而且R軟件中有現(xiàn)成的jiebaR包,利用worker函數(shù),調(diào)整參數(shù)的形式,直接進(jìn)行文本切詞??梢岳肦軟件同時(shí)完成爬取、分詞兩項(xiàng)步驟。將分詞結(jié)果進(jìn)行詞頻統(tǒng)計(jì)結(jié)果如表3-2、表3-3,分別表示iphone6手機(jī)、華為P9手機(jī)相關(guān)的統(tǒng)計(jì)結(jié)果。表3-2為“iphone6”手機(jī)相關(guān)詞頻統(tǒng)計(jì)結(jié)果。從中我們可以看出“手機(jī)”、“京東”、“蘋果”、“正品”、“不錯(cuò)”這幾個(gè)詞出現(xiàn)頻率很高,可以直觀認(rèn)為該手機(jī)產(chǎn)品總體反饋較為積極?!拔锪鳌?、“快遞”、“很快,’.“快”的頻次也非常高,這些表示京東自營(yíng)物流速度方面得到大部分用戶好評(píng),但“物流”與手機(jī)本身并無關(guān)系,它是用戶對(duì)京東服務(wù)方面的體驗(yàn)反饋?!皟r(jià)格”、“質(zhì)量”、“服務(wù)”的出現(xiàn)頻次較高,說明用戶在手機(jī)上主要關(guān)注點(diǎn)集中在手機(jī)價(jià)格、質(zhì)量。與手機(jī)性能相關(guān)詞匯如:“流暢”、“系統(tǒng)”等這些評(píng)價(jià)比例也較高.“屏幕”、“性價(jià)比”、“電池”、“手感”、“內(nèi)存”、“發(fā)熱”等方面被反映頻率也不小?!巴庥^”、“聲音”、“顏色”、“拍照”、“清晰”、“攝像頭”、“像素”等也被用戶關(guān)注。綜上所述,手機(jī)質(zhì)量、性能、價(jià)格、手機(jī)外型、耗電情況、像素大小等方面是用戶關(guān)注的焦點(diǎn),然而目前我們還不能判斷,對(duì)于這些方面用戶保持的態(tài)度是褒義是貶義,如何度量用戶傾向程度,需要接下來的分析求證。表3-2iphone6手機(jī)相關(guān)詞頻統(tǒng)計(jì)同理,表3-3為“華為P9”手機(jī)相關(guān)詞頻統(tǒng)計(jì)結(jié)果。“手機(jī)”、“不錯(cuò)”、“華為”、“支持”、“京東”詞匯出現(xiàn)很高,與iphone6詞頻結(jié)果相似,總體反饋不錯(cuò)?!皣?guó)產(chǎn)”、“國(guó)貨”、“蘋果”高頻率出現(xiàn),說明部分用戶具有將國(guó)產(chǎn)手機(jī)華為與蘋果手機(jī)進(jìn)行比較的傾向?!八俣取?、“很快”、“物流”高頻出現(xiàn)依然反映京東物流獲得認(rèn)同?!芭恼铡薄ⅰ罢障唷薄ⅰ跋鄼C(jī)”、“攝像頭”在評(píng)價(jià)出現(xiàn)比例較大,遠(yuǎn)遠(yuǎn)大于iphone6中該詞匯出現(xiàn)頻率,可以推測(cè)華為P9多媒體功能受到用戶極大關(guān)注,尤其拍照功能。在評(píng)價(jià)比例依然較高的手機(jī)外形相關(guān)詞匯“屏幕”、“外觀”、“漂亮”、“顏色”。同樣比例較高有手機(jī)性能相關(guān)詞匯“流暢”、“功能”、“系統(tǒng)”、“發(fā)熱”、“運(yùn)行”、“性能”等。與iphone6相同的是,“質(zhì)量”詞匯較高頻率出現(xiàn),說明手機(jī)質(zhì)量一直是用戶關(guān)注焦點(diǎn)?!皟r(jià)格”在評(píng)論中出現(xiàn)比例弱于iphone6手機(jī)評(píng)價(jià)價(jià)格出現(xiàn)比例。“電池”、“服務(wù)”、“充電”、“性價(jià)比”等同樣受用戶關(guān)注。表3-3華為P9手機(jī)相關(guān)詞頻統(tǒng)計(jì)3.依存句法分析依存句法主要是根據(jù)句子的語(yǔ)義或語(yǔ)法將其主要成分之間的關(guān)系用一條有向線來表示其中的依存關(guān)系。而在依存句法分析這方面較為權(quán)威的工具則是哈工大的LTP平臺(tái)。使用者可以通過多種途徑進(jìn)行依存句法分析,比如利用R軟件通過調(diào)用相應(yīng)的API接口進(jìn)行依存句法分析,并提取出分析結(jié)果。還有就是現(xiàn)成的哈工大LTP網(wǎng)站平臺(tái),該平臺(tái)具體介紹了相應(yīng)的操作方法以及對(duì)應(yīng)的分詞、依存句法基本知識(shí)。并且該平臺(tái)還具備在線進(jìn)行依存句法分析的功能。只需將待分析文本復(fù)制輸入框中,點(diǎn)擊分析,即可獲得依存分析結(jié)果,其中結(jié)果有兩種形式存在,一種是依存樹的形式,一種是XML形式。該平臺(tái)提供的XML形式為接下來的本文特征詞、情感詞提取提供了有效的途徑。LTP平臺(tái)分析的結(jié)果如圖3-2所示。圖3-2LTP平臺(tái)依存句法分析結(jié)果哈工大的LTP平臺(tái)也為使用者提供XML格式數(shù)據(jù),可以通過網(wǎng)頁(yè)鏈接修改相關(guān)參數(shù)獲取,即部分存儲(chǔ)格式如圖3-3所示:圖3-3依存句法XML格式數(shù)據(jù)(三)特征詞和情感詞提取有相關(guān)研究,基于特征詞和情感詞抽取可分兩種方法:一種基于詞法模板的抽取;一種基于句法分析的抽取?;谠~法模板的研究指的是分析特征詞、情感詞出現(xiàn)在一個(gè)句子的通常成分模板,并按照該模板進(jìn)行詞匯提取,并進(jìn)行組合的方法。而句法分析則是根據(jù)依存句法分析的結(jié)果提取對(duì)應(yīng)特征詞、情感詞并進(jìn)行組合的方法。而周紅偉(2015)}'6]通過對(duì)比兩種方法,實(shí)證句法分析對(duì)特征詞和情感詞對(duì)抽取效果更佳,所以本文采取句法分析對(duì)特征詞和情感詞對(duì)抽取。1.基于句法關(guān)系的抽取算法根據(jù)哈工大LTP平臺(tái)的相關(guān)介紹,其介紹的依存句法關(guān)系就有15種,有研究表明通常情況下特征詞、情感詞主要是集中在句子的某些關(guān)系結(jié)構(gòu)中。如特征詞主要是存在于主謂關(guān)系((SBV)中,而情感詞或修飾詞則主要分布在狀中結(jié)構(gòu)(ADV)中,其中定中關(guān)系、介賓關(guān)系以及前置賓語(yǔ)也分布了較少的情感詞。因此本文主要以主謂關(guān)系(SBV)和狀中結(jié)構(gòu)(ADV)提取并組合華為P9及iphone6手機(jī)的特征詞、修飾詞、情感詞組合。主要利用R軟件對(duì)特征詞、修飾詞、情感詞進(jìn)行提取。具體步驟如下:1.直接利用REST方式調(diào)用哈工大LPT平臺(tái)API,通過HTTP請(qǐng)求的方式從api.ltp-cloud.com域進(jìn)行訪問。并且調(diào)整HTTP請(qǐng)求中指定參數(shù)來獲取對(duì)應(yīng)的XhII.結(jié)果。鏈接如下:/analysis/?apikey=YOURAPIKEY&text=YOURTEXT&pattern=dp&format=xml其中YOURAPI一EY即為平臺(tái)注冊(cè)后可得到的一串特殊編碼的字符串,而YOURTEXT即為需分析的短句。2.利用R軟件XML包xmlParse函數(shù)對(duì)鏈接解析,獲取xm1數(shù)據(jù),并提取相關(guān)數(shù)據(jù),如id,cont,parent,relate等。3.最后將整合數(shù)據(jù)儲(chǔ)存在SQLSERVER數(shù)據(jù)庫(kù)中A表。4.利用A表與A表外關(guān)聯(lián),限制關(guān)聯(lián)條件id=parent,并判斷relate值是否為主謂關(guān)系(SBV)or狀中結(jié)構(gòu)(ADV),如果是,則提取兩表cont內(nèi)容,及對(duì)應(yīng)的id,依次循環(huán),直至不是主謂關(guān)系、狀中結(jié)構(gòu)兩種關(guān)系為止。2.抽取詞對(duì)結(jié)果(部分)(1)華為P9抽取詞對(duì)結(jié)果?!靶詢r(jià)比”,“高”]、[“速度”,“快”〕、[“電池,“耐用,“全”〕、[“感,“好”〕“系統(tǒng)”,“流暢]、〔“質(zhì)量”,“高”“性能”,“好,“音響效果,“好”]、〔“拍照”,“強(qiáng)大”“顏色”,功能”,〕、[“手,“好看”l、[“包裝”,“差”〕、[“送貨員”,“差”〕、〔“信號(hào)”,“穩(wěn)定”〕。(1)iphone6抽取詞對(duì)結(jié)果[“性價(jià)比,“非?!?,“高”]、〔“速度”,“不”,“給力”〕、[“功能”,“還”,“可以”“挺”,快”〕、[“電池,“太”,〕、〔“系統(tǒng)”,“沒得說”〕、[“質(zhì)量”,非常,不錯(cuò)〕、[“性能,很”,強(qiáng)大”〕、〔[“拍照,,,“清晰,,〕、[“顏色”,“偏淺〕、[“包裝,“消失”〕“手感”,“也”,“好”〕、“精美”〕、〔“信號(hào)”,消失〕。(四)文本情感分析1.建立情感詞詞庫(kù)本文建立的情感詞詞庫(kù)主要作用是將上一節(jié)已抽取出的特征詞、修飾詞、情感詞組合分別與其進(jìn)行匹配,得出修飾詞的權(quán)重和情感詞的極值。情感詞庫(kù)具有兩列變量,第一列是詞匯,第二類是對(duì)應(yīng)的極值。并且情感詞詞庫(kù)包括情感詞、副詞、否定詞,具體詞來源下面將一一介紹:(1)情感詞詞表該詞表主要來自于“知網(wǎng)”情感分析詞語(yǔ)集以及臺(tái)灣大學(xué)情感詞典兩個(gè)詞典里的詞語(yǔ)、情感值,“知網(wǎng)”情感詞典里負(fù)面情感詞836個(gè)、負(fù)面情感詞語(yǔ)1254個(gè)。而臺(tái)灣大學(xué)負(fù)面情感詞有8276個(gè)、正面情感詞2812個(gè)。另外根據(jù)自身需求,對(duì)未劃入以上兩個(gè)詞典的但在本次分析中出現(xiàn)的情感詞采取人工添加的方式,并且主觀賦予情感詞極值加入詞庫(kù),用來豐富該詞表。(2)同義詞詞表同義詞詞表的主要作用是匹配出情感詞詞表中詞匯的同義詞,并將同義詞進(jìn)行相應(yīng)的賦值添加入情感詞詞表中。同義詞詞典的主要來源是哈工大LTP平臺(tái)下載的《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》。(3)副詞詞表副詞詞表的主要作用是匹配出帶有修飾強(qiáng)度的副詞,并賦予相應(yīng)的強(qiáng)度值,用以計(jì)算句子中包括副詞修飾詞的句子情感值。修飾詞在句子的主要作用是強(qiáng)化或者削弱句子情感值。所以,將副詞詞表納入情感詞庫(kù)中是必要的。而對(duì)副詞賦予的權(quán)重值主要參照學(xué)者的研究結(jié)果,如藺磺等(2006)將副詞劃分六個(gè)層次而且對(duì)副詞賦給對(duì)應(yīng)的權(quán)值。本文副詞詞表主要從“知網(wǎng)”情感分析詞語(yǔ)集中的程度副詞文檔中獲取建立的,并且考慮到對(duì)本文數(shù)據(jù)的適用性,另外添加本文出現(xiàn)的但不在“知網(wǎng)”詞典中的程度副詞進(jìn)行對(duì)副詞詞典的完善。程度副詞詞匯以及對(duì)應(yīng)的權(quán)重賦予值如表3-4所示:表3-4程度副詞詞語(yǔ)表(4)否定詞表否定詞詞表的主要作用是用于識(shí)別既含否定詞又含情感詞的的特征詞、修飾詞、情感詞組合,由于否定詞存在的復(fù)雜性,需要對(duì)含否定詞句子進(jìn)行討論,判斷否定詞與修飾副詞的位置關(guān)系,并制定不同的計(jì)算情感值方法。當(dāng)抽取的組合中只出現(xiàn)否定詞與情感詞而沒有修飾副詞時(shí),則否定詞起著相反的情感傾向。當(dāng)抽取的組合既出現(xiàn)否定詞又出現(xiàn)修飾副詞,則還要判斷否定詞與修飾詞所在的位置關(guān)系,若否定詞在修飾詞前,則否定詞起到削弱修飾詞強(qiáng)度的作用。若否定詞在修飾詞后,則否定詞起到反向情感傾向的作用。而且還要考慮否定詞出現(xiàn)的個(gè)數(shù),當(dāng)否定詞個(gè)數(shù)為奇數(shù)時(shí),則以上面介紹方法計(jì)算,當(dāng)否定詞個(gè)數(shù)為偶數(shù)時(shí),則否定詞不起影響情感傾向的作用。本文中使用的否定詞詞表的主要來源網(wǎng)絡(luò)搜索的幾個(gè)常用的否定詞,并且結(jié)合本文文本數(shù)據(jù)中代表否定的詞匯共同構(gòu)建的否定詞詞表。本文整個(gè)情感詞庫(kù)就由上面四張?jiān)~表共同組建。2.基于多策略的情感值計(jì)算本文將基于詞典、基于機(jī)器學(xué)習(xí)、基于依存句法的三種情感傾向分析綜合使用。對(duì)于不含情感詞的句子利用機(jī)器學(xué)習(xí)支持向量機(jī)模型進(jìn)行識(shí)別,對(duì)于含有情感詞的句子又可分只含有情感詞、含修飾詞且不含否定詞、含修飾詞且含否定詞三種情況。對(duì)于上述四種情況的句子情感傾向值計(jì)算如下:(1)不包含情感詞利用支持向量機(jī)對(duì)句子進(jìn)行識(shí)別,當(dāng)句子只含特征詞卻無情感詞本文視為句子情感值為0。(2)只包含情感詞對(duì)于只包含情感詞的句子,其主要情感來源是情感詞,因此這種情況下對(duì)句子情感值的計(jì)算規(guī)則如式(3-1)所示,其中,F(xiàn)代表句子情感值,f代表情感詞的極值。(3-1)首先將通過依存句法提取出的特征詞、情感詞組與建立好的情感詞詞庫(kù)進(jìn)行匹配,若情感詞詞庫(kù)內(nèi)存在該情感詞,則獲取其對(duì)應(yīng)的情感值,則認(rèn)為該句子的情感值等于該情感詞的極值。(3)包括修飾副詞但沒有否定詞對(duì)于包含修飾詞但不包含否定詞的句子,其主要情感來源是情感詞和修飾詞對(duì)情感詞的情感加強(qiáng)或削弱兩塊,因此這種情況下對(duì)句子情感值的計(jì)算規(guī)則如式(3-2)所示。其中,F(xiàn)代表句子情感值,n代表情感詞前的修飾詞個(gè)數(shù),f'(x)代表該情感詞的極值,of代表對(duì)應(yīng)修飾副詞的權(quán)值。(3-2)首先將通過依存句法提取出的特征詞、修飾副詞、情感詞組與建立好的情感詞詞庫(kù)進(jìn)行匹配,若情感詞詞庫(kù)內(nèi)存在該情感詞或該修飾副詞,則獲取其對(duì)應(yīng)的情感值或權(quán)重,并將二者相乘得到的值即為句子情感值。(4)包括修飾副詞也包括否定詞對(duì)于既包括情感詞又包括否定詞的句子,其需要分兩種情況進(jìn)行句子情感值計(jì)算,因此這種情況下對(duì)句子情感值的計(jì)算規(guī)則如式(3-3),(3-4)所示,其中,F(xiàn)代表句子情感值,f代表情感詞的極值。(3-3)(3-4)其中,F(xiàn)表示句子情感值,n代表情感詞前的修飾副詞個(gè)數(shù),f(x)代表該情感詞的極值,a;表示第i個(gè)修飾副詞的權(quán)值,酥Y,)表示否定詞與對(duì)應(yīng)修飾副詞組合綜合取值函數(shù),若否定詞在副詞后面則g(Yi)為一1*ai,若否定詞在副詞前面則夢(mèng)Yi)為副詞權(quán)重的倒數(shù)即1/al。另外引用(3-3).(3-4.)公式計(jì)算前需要判斷某個(gè)修飾副詞對(duì)應(yīng)的否定詞的個(gè)數(shù),如果為奇數(shù),則按照上面表達(dá)式計(jì)算,若為偶數(shù)時(shí),則等于副詞權(quán)重與情感詞極值乘積所得。下面列出分析過程中出現(xiàn)的幾類特征詞、修飾詞、情感詞組合以及對(duì)應(yīng)的計(jì)算:表3-5不同特征詞、修飾詞、情感詞組合的情感值計(jì)算案例程序設(shè)計(jì)與結(jié)果輸出:利用R軟件+SQL語(yǔ)句實(shí)現(xiàn)計(jì)算目的,具體步驟如下:(1)將情感詞典整合,并利用R軟件進(jìn)行讀取,將特征詞、修飾詞、情感詞一一匹配出對(duì)應(yīng)的權(quán)重或極值。(2)接著利用R里面sqldf包編寫SQL語(yǔ)句內(nèi)CASEWI}N...END以及LEFTJOIN關(guān)聯(lián)語(yǔ)句對(duì)副詞與否定詞位置關(guān)系判斷,若情感詞在否定詞前面,并且否定詞個(gè)數(shù)為奇數(shù),則否定詞與副詞綜合權(quán)值為(-1)*副詞權(quán)重;若情感詞在否定詞前面,且否定詞個(gè)數(shù)為偶數(shù),否定詞與副詞綜合權(quán)值為1*副詞權(quán)重;若情感詞在否定詞后面,且否定詞個(gè)數(shù)為奇數(shù),否定詞與副詞綜合權(quán)重為1/副詞權(quán)重;若情感詞在否定詞后面,且否定詞個(gè)數(shù)為偶數(shù),則否定詞與副詞綜合權(quán)重為1*副詞權(quán)重;如果無否定詞,則情感詞權(quán)重。(3)最后將情感詞極值*綜合權(quán)重可獲取結(jié)果,此次計(jì)算利用多種軟件各種優(yōu)勢(shì)完成該計(jì)算任務(wù),大大減少時(shí)間成本。部分結(jié)果提取匯總展示如下:華為P9:“外觀”:[“外觀”,“精美”,1]}[“外觀”,“挺”,“漂亮”,1.08][“外觀”,“很”,“漂亮”,2.025]“信號(hào)”:[“信號(hào)”,“很”,“好”,2.25][“信號(hào)”,“比較”,“弱”,-1.2],[“信號(hào)”,“太”,“弱”,-1.5]iphone6:“外觀”:【“外觀”,“完美”,1.61勻,[“外觀”,“完好”,1]}【“外觀”,“高大”,1]“信號(hào)”:[“信號(hào)”,“不”,好”,-1.5]}[“信號(hào)”,“穩(wěn)定”,1]}[,’信號(hào)”,,’消失”,-0.42]“手感”:[“手感”,“不錯(cuò)”,1.2],[“手感”,“好”,1.5]。當(dāng)然上部分計(jì)算是對(duì)每句評(píng)論計(jì)算特征詞情感值得分,最后還需將其匯總計(jì)算總體特征情感得分。假設(shè)評(píng)論中出現(xiàn)不同特征詞用集合S}SI,SZ,S3,...,S}表示,其包括“系統(tǒng)”、“外觀”、“性能”等,而這些特征詞在不同句子中表現(xiàn)的情感值集合用Wij(Wi1、Wi2、Wi3……Wij)表示,那么第1個(gè)特征對(duì)應(yīng)的總體情感值如式(3-5)所示:(3-5)利用簡(jiǎn)單的算術(shù)平均方法將描述同一個(gè)特征詞的情感詞進(jìn)行平均計(jì)算,并用來表示整體該特征詞的情感傾向。根據(jù)以上公式,根據(jù)分析結(jié)果按三種情況考慮,如果計(jì)算值大于0,則表示該特征詞受到顧客的褒義傾向,而該值越大說明褒義程度越大。如果計(jì)算值小于0,則表示該特征詞受到顧客的貶義傾向,而該值越小說明貶義程度越大。如果計(jì)算值為0,說明該特征詞的總體趨于中性,不好不壞。依據(jù)上述思路計(jì)算結(jié)果,繪制柱狀圖。從下面兩張圖對(duì)比觀察圖3-4、圖3-5華為P9在樣式、款式、配件、顏色、音質(zhì)、信號(hào)、手感、質(zhì)量方面情感值在1.2以上,尤其是樣式、款式更受到用戶好評(píng)。性能、耗電、外觀、運(yùn)行、系統(tǒng)、像素、屏幕、性價(jià)比、拍照等情感值稍弱些,在om范圍波動(dòng),但用戶依然比較看好。而手機(jī)發(fā)熱現(xiàn)象以及觸屏方面問題較為突出,總體為負(fù)面評(píng)論。再看iphone6在手感、質(zhì)量、運(yùn)行、觸摸屏、外觀、款式、樣式、音質(zhì)方面情感值在1.2以上,其中手感、質(zhì)量更受用戶好評(píng)。耗電、顏色、性能、性價(jià)比、外表、系統(tǒng)、容量好評(píng)度稍弱些。而拍照、配件、觸屏、信號(hào)、耳機(jī)、發(fā)熱等問題比較突出,總體處于負(fù)面傾向。二者對(duì)比,華為P9在手機(jī)樣式、款式、配件、顏色、信號(hào)、屏幕、拍照方面獲得情感值大于iphone6的情感值,尤其信號(hào)方面問題。而iphone6在手感、質(zhì)量、外觀、運(yùn)行、性價(jià)比、外表、觸摸屏方面獲得情感值大于華為P9,尤其在觸摸屏、手感和質(zhì)量方面更為突出。圖3-4華為P9,iphone6手機(jī)特征情感值比較當(dāng)然依靠平均水平來評(píng)比,分析結(jié)果可能與實(shí)際偏差,需要結(jié)合離散程度進(jìn)行綜合考察,則計(jì)算特征情感值方差。特征情感值方差如圖3-5所示:圖3-5華為P9,iphone6手機(jī)特征情感值方差比較從圖3-5可知,華為P9中音質(zhì)、手感、信號(hào)、質(zhì)量、性能情感值分布比較離散,其情感值高低可能受個(gè)別用戶情感的影響,而電量、運(yùn)行、配件、耗電、外表、容量、觸摸屏情感比較集中,情感褒貶更有代表性。同理,iphone6中手感、質(zhì)量、拍照、顏色、電量等特征分布比較離散,情感褒貶代表性相對(duì)較弱,而運(yùn)行、配件、耗電、外表、容量、觸摸屏、音質(zhì)、外觀情感褒貶代表性較強(qiáng)。四、基于調(diào)查的華為與蘋果手機(jī)用戶需求現(xiàn)狀分析(一)已滿足的用戶需求1.華為P9和蘋果iphone6總體都是比較滿意從結(jié)果分析,用戶對(duì)華為P9和蘋果iphone6總體上都是比較滿意,給予了好評(píng)。其中華為P9和iphone6的滿意度分別為1.085,1.24都大于1,表示用戶對(duì)其偏褒義且程度較大。但具體到手機(jī)的少部分特征如手機(jī)發(fā)熱、觸屏,兩款手機(jī)都得到了負(fù)面的評(píng)價(jià),作為智能手機(jī)的共性,手機(jī)發(fā)熱現(xiàn)象以及觸屏功能的問題急需得到改善更進(jìn)。另外,蘋果iphone6在配件、信號(hào)、耳機(jī)三個(gè)特性中也得到用戶不滿,其情感值都為負(fù)值。2.華為P9和蘋果幣hone6在手機(jī)質(zhì)量和手感方面顧客較為滿意從手機(jī)特征情感值分析顯示,華為P9在手機(jī)樣式、款式、配件、顏色、音質(zhì)、信號(hào)、手感、質(zhì)量方面情感值為1.2以上,尤其是樣式、款式更受到用戶好評(píng)。其手機(jī)性能、耗電、外觀、運(yùn)行、系統(tǒng)、像素、屏幕、性價(jià)比、拍照等情感值稍弱些,在0}1范圍波動(dòng),但用戶依然比較看好。另外由于是國(guó)產(chǎn)機(jī)的關(guān)系,華為P9也得到大部分用戶支持。另一方面,iphone6在手感、質(zhì)量、運(yùn)行、觸摸屏、外觀、款式、樣式、音質(zhì)方面情感值在1.2以上,其中手感、質(zhì)量更受用戶好評(píng)。耗電、顏色、性能、性價(jià)比、外表、系統(tǒng)、容量好評(píng)度稍弱些。鑒于此,華為、蘋果公司可以通過對(duì)好評(píng)度稍弱的特性,進(jìn)行合適的創(chuàng)新,以獲取用戶更加強(qiáng)度的喜愛。例如華為P9的雙攝像頭技術(shù),就是一種新穎的想法。(二)未滿足的用戶需求1.華為P9競(jìng)爭(zhēng)點(diǎn)是手機(jī)款式和功能,而蘋果iphone6競(jìng)爭(zhēng)點(diǎn)是手機(jī)質(zhì)量和售后服務(wù)根據(jù)本文的情感分析得出結(jié)果可知,華為P9的品牌情感得分確實(shí)大于iphone6的品牌情感得分,而且其功能點(diǎn)多,比得過iphone6,華為P9手機(jī)樣式、款式、拍照功能、手機(jī)顏色、手機(jī)音質(zhì)、手機(jī)信號(hào)情感值大于iphone6的;但華為P9在售后服務(wù)情感值遠(yuǎn)落后iphone6售后情感值,而且其質(zhì)量情感值也低于iphone6情感值,蘋果iphone6手機(jī)手感情感值也大于華為P9的。2.華為P9顧客滿意總體低于iphone6顧客滿意根據(jù)滿意度模型結(jié)果,兩款手機(jī)在手機(jī)質(zhì)量與售后服務(wù)對(duì)滿意度的貢獻(xiàn)度差額大于款式與功能對(duì)滿意度的貢獻(xiàn)度差額(差額指華為P9指標(biāo)值減去蘋果iphone指標(biāo)值所得),其中iphone6售后服務(wù)情感值遠(yuǎn)大于華為P9售后服務(wù),最終蘋果iphone6的滿意度得分超華為的滿意度0.17。建議華為應(yīng)加大手機(jī)售后服務(wù)力量,如耐心與網(wǎng)上用戶溝通,了解其遇到的問題,并合理解決其問題,以獲取售后服務(wù)上的滿意。五、基于用戶需求的華為與蘋果手機(jī)改進(jìn)對(duì)策(一)相應(yīng)進(jìn)行降價(jià)華為AscendD系列是華為智能手機(jī)的旗艦系列,華為AscendD系列作為華為最高端的手機(jī),在各個(gè)方面都要做到當(dāng)年的頂尖水準(zhǔn),雙核與四核版之間能夠覆蓋更大的價(jià)格區(qū)間價(jià)格2900-3999元。AscendP系列主打高端時(shí)尚手機(jī),價(jià)格2200-2900元。每年出一部,新機(jī)發(fā)布舊款降價(jià)。AscendG系列屬于高性價(jià)比中端機(jī),價(jià)格900-1700元。AscendY系列主打入門級(jí)智能手機(jī),價(jià)格800元以下。榮耀系列主打高性能中端機(jī),價(jià)格1500-2500元。每年出一部,新機(jī)發(fā)布舊款降價(jià)。華為的智能手機(jī)進(jìn)入歐美發(fā)達(dá)國(guó)家市場(chǎng)時(shí),采取低價(jià)策略,迅速地贏得了一些低收入家庭的認(rèn)可,讓他們體驗(yàn)到了智能手機(jī)可以用手機(jī)上網(wǎng)的眾多好處,為其贏得了很多的市場(chǎng)份額,也提升了自身的品牌形象,增加了品牌的宣傳。(二)優(yōu)化社交功能,增加用戶粘性華為必須不斷的提高自己的設(shè)備方面的技術(shù)含量,改良現(xiàn)有產(chǎn)品的設(shè)計(jì)、鞏固并充分發(fā)揮自己的研發(fā)優(yōu)勢(shì)和成本優(yōu)勢(shì),也必須繼續(xù)提升自己的產(chǎn)品服務(wù)水平,從而使一些經(jīng)濟(jì)實(shí)力強(qiáng)的用戶成為自己的客戶,并充分利用自己積累的客戶資源來進(jìn)一步拓展市場(chǎng)份額。加強(qiáng)與政府相關(guān)部門合作,充分利用政治帶動(dòng)經(jīng)濟(jì)。華為可以利用自己在技術(shù)方面的優(yōu)勢(shì)和在專利方面的優(yōu)勢(shì),與跨國(guó)企業(yè)之間實(shí)現(xiàn)一定的合作,來拓展市場(chǎng)。(三)搭建反饋平臺(tái),了解用戶全方位需求華為智能手機(jī)的銷售模式有兩種:一種是定制機(jī),和諾基亞、三星一樣按電信運(yùn)營(yíng)商的要求生產(chǎn)手機(jī)。這種手機(jī)實(shí)際上是對(duì)運(yùn)營(yíng)商直銷,由運(yùn)營(yíng)商再通過其自己的渠道銷售;另一種是華為根據(jù)市場(chǎng)分析再研發(fā)生產(chǎn)的手機(jī)。手機(jī)通過中間商渠道銷售,比如手機(jī)賣場(chǎng)、電子商務(wù)網(wǎng)站等方式銷售。在城市中,除了大賣場(chǎng)和大型連鎖店外,還存在很多小型手機(jī)店。這些小型店雖然沒有那么大的規(guī)模,但是卻很多。由于這個(gè)特點(diǎn),我認(rèn)為華為可以充分把握機(jī)會(huì),和它們進(jìn)行合作,因?yàn)檫@些小型店的經(jīng)銷商都是直接和消費(fèi)者接觸的,所以既可以幫助華為了解當(dāng)?shù)氐氖袌?chǎng)行情還可以及時(shí)的了解消費(fèi)者的需求。所以華為可以讓它們代賣自己的一些機(jī)型,來了解哪些機(jī)型比較讓消費(fèi)者滿意,從而在豐富自己營(yíng)銷方面的網(wǎng)絡(luò)的同時(shí)還能夠及時(shí)的擴(kuò)大生產(chǎn),獲得市場(chǎng)份額和利潤(rùn)。華為對(duì)銷售的終端方面的管理也是極其關(guān)鍵的,跟這些經(jīng)銷商進(jìn)行全面的交流,了解他們的銷售狀況和市場(chǎng)方面的影響因素是非常及時(shí)和準(zhǔn)確的,并且他們所采取的一些舉措將會(huì)直接影響整個(gè)營(yíng)銷方面策略的執(zhí)行情況。
六、總結(jié)與展望本文主要基于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 23-24年項(xiàng)目部安全培訓(xùn)考試題附完整答案【全優(yōu)】
- 23年-24年項(xiàng)目部安全管理人員安全培訓(xùn)考試題附答案(達(dá)標(biāo)題)
- 倉(cāng)儲(chǔ)物流自動(dòng)扶梯改造協(xié)議
- 新能源汽車居間合同范本
- 旅游度假居間服務(wù)合同樣本
- 2025年度個(gè)人房產(chǎn)買賣合同解除條件協(xié)議2篇
- 家庭廚師服務(wù)居間合同
- 2024年廢舊塑料回收利用市場(chǎng)前景預(yù)測(cè)及投資規(guī)劃研究報(bào)告
- 房產(chǎn)租賃合同范文的簽署流程
- 2025年半自動(dòng)精裝書本封面機(jī)項(xiàng)目投資可行性研究分析報(bào)告
- 小學(xué)六年級(jí)數(shù)學(xué)奧數(shù)題100題附答案(完整版)
- 湖南高速鐵路職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試參考試題庫(kù)(含答案)
- 英漢互譯單詞練習(xí)打印紙
- 2023湖北武漢華中科技大學(xué)招聘實(shí)驗(yàn)技術(shù)人員24人筆試參考題庫(kù)(共500題)答案詳解版
- 一氯二氟甲烷安全技術(shù)說明書MSDS
- 母嬰護(hù)理員題庫(kù)
- 老年人預(yù)防及控制養(yǎng)老機(jī)構(gòu)院內(nèi)感染院內(nèi)感染基本知識(shí)
- SWITCH暗黑破壞神3超級(jí)金手指修改 版本號(hào):2.7.6.90885
- 2023高考語(yǔ)文全國(guó)甲卷詩(shī)歌閱讀題晁補(bǔ)之《臨江仙 身外閑愁空滿眼》講評(píng)課件
- 物流簽收回執(zhí)單
- 鋼結(jié)構(gòu)廠房造價(jià)指標(biāo)
評(píng)論
0/150
提交評(píng)論