在線評論信息挖掘分析的數(shù)據(jù)來源可靠性研究_第1頁
在線評論信息挖掘分析的數(shù)據(jù)來源可靠性研究_第2頁
在線評論信息挖掘分析的數(shù)據(jù)來源可靠性研究_第3頁
在線評論信息挖掘分析的數(shù)據(jù)來源可靠性研究_第4頁
在線評論信息挖掘分析的數(shù)據(jù)來源可靠性研究_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、在線評論信息挖掘分析的數(shù)據(jù)來源可靠性研究摘要:通過將研究分解成三個子任務(wù),對網(wǎng)絡(luò)數(shù)據(jù)從運用PageRank與TrustRank剔除作弊網(wǎng)頁開始;借助結(jié)合網(wǎng)頁間主題相關(guān)度、時間差以及在線評論比例的權(quán)重的TCPageRank算法,提煉與產(chǎn)品主題高度相關(guān)并包含大量在線評論數(shù)據(jù)的網(wǎng)頁集;最后考慮了網(wǎng)頁與產(chǎn)品主題的相似度以及網(wǎng)頁的鏈接增幅對網(wǎng)頁權(quán)威性的影響,運用改進的HITS算法,確定在線評論分析數(shù)據(jù)來源的權(quán)威網(wǎng)頁集;而基于MapReduce的矩陣分塊運算,降低了算法時空的復(fù)雜度。并通過仿真實驗驗證了該方法的可行性與準確性。關(guān)鍵詞:在線評論;PageRank;主題漂移;鏈接增幅DOI:10.13956/

2、j.ss.1001-8409.2015.04.21中圖分類號:F71355文獻標識碼:A文章編號:1001-8409(2015)04-0094-06AnalysisofReliabilityDataSourceonOnlineReviewsInformationMiningLIJinhai,HEYoushi(SchoolofManagement,JiangsuUniversity,Zhenjiang212013Abstract:Throughresolvetheresearchintothreesubtasks,startingfromoperationPageRankandTrustRank

3、eliminatecheatingpageofnetwork.RefiningwebpageofhightopicrelevancebyTCPageRankcombinedtopicrelevancybetweenwebpagesandweightoftimedifferenceandreviewsonwebpage.Finally,thoughtofsimilaritybetweenpageandtopicofproductandamplificationofpagehavetheinfluenceonthewebauthority,determinetheauthorityoftheweb

4、pageofonlinereviewanalysisdatasourcebytheimprovedHITS.ThepartitioningofmatrixoperationbasedonMapReduce,reducesthetimeandspacecomplexityofthealgorithm.Andthroughthesimulationexperimentsitverifiesthefeasibilityandaccuracyofthemethod.Keywords:onlinereviews;PageRank;topicdrift;amplificationofpage引言據(jù)CNNI

5、C報告,2013年我國新增網(wǎng)民5千萬人,互聯(lián)網(wǎng)普及率近46%,處于世界平均水平之上,其中網(wǎng)絡(luò)購物人數(shù)占網(wǎng)民的50%,中國預(yù)計將于2015年成為全球最大的網(wǎng)購市場1。網(wǎng)絡(luò)購物的劣勢在于無法親自感受商品,因此越來越多的網(wǎng)購者通過瀏覽大量的在線評論來了解產(chǎn)品以及服務(wù)的口碑,依此作曲可靠的決策2。但是面對海量評論,消費者無法快速辨別和利用有價值的信息來作由正確的決策。因此針對在線評論挖掘的研究被學(xué)者們所關(guān)注,Senecal等認為在線評論影響消費者的購買決定3。Popescuam等將在線評論挖掘細分為4個子任務(wù):特征抽取、觀點抽取、極性判斷、結(jié)果的匯總4o廖成林等借助亞馬遜商城的樣本進行實證研究,分析了

6、在線評論有用性的影響因素以及各影響因素之間的作用機制5。龔艷萍基于ELM視角構(gòu)建了消費者處理在線評論的雙重路徑模型,并探討了在線評論的屬性對消費者采用新技術(shù)產(chǎn)品意愿的影響機理6。目前關(guān)于在線評論的研究集中于評論內(nèi)容挖掘模型以及評論有用性的研究,鮮有學(xué)者關(guān)注在線評論數(shù)據(jù)來源可靠性的研究,而可靠數(shù)據(jù)的獲取是研究的基礎(chǔ)也是關(guān)鍵的一步。1可靠在線評論數(shù)據(jù)源的挖掘流程若要在海量的網(wǎng)絡(luò)數(shù)據(jù)中獲得可靠的評論數(shù)據(jù),除了優(yōu)秀的網(wǎng)頁采集工具外,確定所要采集的數(shù)據(jù)來源是關(guān)鍵。傳統(tǒng)的用于在線評論分析的數(shù)據(jù)大多數(shù)來自購物網(wǎng)站,這些數(shù)據(jù)來源的優(yōu)勢在于分類明確、內(nèi)容精簡。這些評論數(shù)據(jù)可以應(yīng)付簡單的在線評論的特征挖掘,但是短

7、文本的劣勢在于句式不完整,缺乏作者主觀情感的表達,不利于評論的情感分析,而在線評論信息的有效挖掘不僅是對產(chǎn)品特征的提取,更是對作者情感傾向的分析,缺乏情感表達的在線評論對于消費者的購買決策不能產(chǎn)生決定性的影響。因此挖掘網(wǎng)絡(luò)中除了購物平臺之外的在線評論具有必要性,使對在線評論研究的數(shù)據(jù)源不再局限于購物平臺,擴大在線評論領(lǐng)域的研究邊界。也可以為其他領(lǐng)域研究的數(shù)據(jù)來源確定提供可行的思路。本文將從海量網(wǎng)絡(luò)數(shù)據(jù)中確定的可靠的在線評論數(shù)據(jù)來源分為三個子任務(wù),如圖1所示,其中A、B、C是與產(chǎn)品主題相關(guān)的網(wǎng)頁集合,首先辨別可靠網(wǎng)站A、B、C、D,其次從可靠的網(wǎng)站中提煉由與所需分析產(chǎn)品相關(guān)的主題網(wǎng)站A、B、C,

8、最后從主題網(wǎng)站中確定當中的權(quán)威網(wǎng)站A作為在線評論分析的數(shù)據(jù)來源。任務(wù)1需要使用的算法是PageRank,任務(wù)2需要使用的算法是TCPageRank,任務(wù)3使用的算法是HITS。2關(guān)鍵算法的流程21PageRank算法及改進PageRank算法是谷歌搜索取得成功的關(guān)鍵技術(shù),是對網(wǎng)頁重要性進行排序的一種方法7o但是在經(jīng)濟利益的驅(qū)使下,作弊者基于鏈接作弊等手段欺騙PageRank以改變作弊網(wǎng)站的重要性,使得通過傳統(tǒng)PageRank并不能得到滿意結(jié)果。PageRank表示如下:v'=BMv+(1-B)e/n(1)將PageRank以向量的形式表示,利于海量節(jié)點數(shù)的網(wǎng)頁的PR值計算,其中B(0&

9、lt;B<1)為阻尼系數(shù),通常取值085,M為轉(zhuǎn)移矩陣,v為本次迭代中所有節(jié)點的PR值組成的向量,n為所有節(jié)點的總量,e為n維單位列向量。為了解決鏈接作弊,辨別網(wǎng)絡(luò)中的可靠網(wǎng)站,在任務(wù)1中引入TrustRank對PageRank加以改進,TrustRank是面向主題的PageRank的變形,這里的“主題”不是網(wǎng)頁內(nèi)容主題,而是一個可靠的網(wǎng)頁集。TrustRank可以避免鏈接作弊的思想,作弊網(wǎng)頁可以自動鏈向可靠網(wǎng)頁,但是可靠網(wǎng)頁不會鏈向作弊網(wǎng)頁,因此算法迭代的第一步設(shè)定隨機跳轉(zhuǎn)集合時需選擇一個可靠的網(wǎng)頁集。改進的PageRank的流程是:計算傳統(tǒng)的PR值r;計算TR值t;設(shè)定一個閥值。l1

10、=(r-t)/rl1>05作弊網(wǎng)頁l1W05正常網(wǎng)頁(2)l1表達的是網(wǎng)頁PR值中屬于垃圾的比例。這樣就可以在任務(wù)1中去掉那些具有較高垃圾質(zhì)量的作弊網(wǎng)頁。22TCPageRank算法及改進從式(1)中看由,由于PageRank僅利用網(wǎng)絡(luò)的鏈接結(jié)構(gòu)進行排序,使得該算法存在主題漂移以及偏重舊網(wǎng)頁的缺點8。因此任務(wù)1中得到的網(wǎng)頁集雖然很大程度上排除了作弊網(wǎng)頁,但總量仍然過大,且存在大量非相關(guān)的網(wǎng)頁,產(chǎn)品的更新?lián)Q代對評論的新鮮度提由了要求,所以應(yīng)剔除過時的評論或減少它們的影響。但并不是所有的網(wǎng)頁都含有在線評論的內(nèi)容,因此還需要辨別網(wǎng)頁中含有在線評論的比例,這主要通過衡量網(wǎng)頁中產(chǎn)品特征詞及情感詞占

11、整個網(wǎng)頁特征詞的比例來賦予網(wǎng)頁不同的影響權(quán)重。根據(jù)網(wǎng)頁主題的相關(guān)度來分配權(quán)重可以有效解決主題漂移問題9,網(wǎng)頁主題的相關(guān)度通過向量空間模型計算,設(shè)網(wǎng)頁u和v的文檔向量形式:U=u1,u2,,um,V=v1,v2,,vm其中ui和vi表示特征詞i在各自網(wǎng)頁中的指標值,通過TF.IDF計算:w(v,u)=U?VUxV=!2mi=1uivi匯mi=1u2i匯mi=1v2i(3)并用W(c)表示網(wǎng)頁v在網(wǎng)頁u所有由鏈中所占的權(quán)重,其中F(u)表示u的所有由鏈。W(c)=W(v,u)ZZpSF(u)W(p,u)(4)針對偏重舊網(wǎng)頁的問題,也通過降低權(quán)重的思想來降低舊網(wǎng)頁的主題相關(guān)度,假定網(wǎng)頁搜索到的時間t

12、1與其最近一次更新時間t2的差值越大,則網(wǎng)頁主題相關(guān)度越低,引入時間差的權(quán)重函數(shù)W:Wt=dt1-t2(5)可以看生,時間差與權(quán)重成反比,其中d為根據(jù)實際產(chǎn)品設(shè)定的常數(shù)。在此基礎(chǔ)上,添加網(wǎng)頁的在線評論比例權(quán)重,對網(wǎng)頁文檔中產(chǎn)品屬性特征詞的挖掘采用的是Apriori算法,并且結(jié)合了依存句法分析來提高挖掘精度;在線評論中情感詞往往是對產(chǎn)品屬性特征詞的評價,本文基于HowNet的情感本體庫采用模板和距離的方法來提取網(wǎng)頁中評論的情感詞,該方法的優(yōu)勢在于:模板匹配的速度較快;在線評論的文本不同于企業(yè)發(fā)布的產(chǎn)品信息,具有不規(guī)范性,而該方法對文本的規(guī)范化要求較小。若網(wǎng)頁v的文檔向量形式是V=v1,v2,,v

13、m,共有特征詞m個,設(shè)v經(jīng)過統(tǒng)計的產(chǎn)品特征詞有i個,情感詞有j個,則v含有在線評論的權(quán)重:W(v)=i+jm-(i+j)m(6)W(z)=W(c)匯pSF(u)W(p)(7)考慮到每個網(wǎng)頁含有的文本內(nèi)容總量不同,式(6)、式(7)保證了含有大量文本內(nèi)容同時含有大量在線評論的網(wǎng)頁可以獲得更高的權(quán)重。加入時間差與評論數(shù)據(jù)比例的權(quán)重函數(shù)的TCPageRank如下:v'=BMvxW(c)xW(t)xW(z)+(1-B)e/n(8)設(shè)定閥值l2,網(wǎng)頁的TC-PR值大于等于l2的判定為與產(chǎn)品主題高度相關(guān)的網(wǎng)頁。23HITS算法及改進HITS算法與PageRank算法的區(qū)另I在于,PageRank將

14、網(wǎng)頁看成只有一維的重要性,而HITS將網(wǎng)頁看成具有二維的重要性。任務(wù)3的作用是從已確定的海量主題網(wǎng)站中提取一定量的權(quán)威網(wǎng)站作為在線評論數(shù)據(jù)挖掘的來源。HITS是WEB結(jié)構(gòu)挖掘算法,通過分析網(wǎng)頁間的鏈接關(guān)系,找由其中的權(quán)威網(wǎng)頁10o但在構(gòu)建WEB鄰接圖時,根集是與主題相關(guān)的,而基集的擴展只考慮了與根集的鏈接情況,忽略了主題相關(guān)性,會引入大量與主題相關(guān)度不大的網(wǎng)頁,這樣最后得到的權(quán)威網(wǎng)頁并不是需要的?;赥C-PageRank的思想,在基集擴展過程中加入網(wǎng)頁主題的判斷,使得選入基集的網(wǎng)頁是與主題高度相關(guān)的??紤]到網(wǎng)購產(chǎn)品更新?lián)Q代較快,關(guān)于產(chǎn)品的在線評論相應(yīng)地也需要最新的。但是新的在線評論網(wǎng)頁與其他

15、網(wǎng)頁之間的鏈接較少,使得權(quán)威值較小。本文認為權(quán)威網(wǎng)頁的確定不僅需要考慮鏈接數(shù)量,也需要考慮網(wǎng)頁的鏈接增幅情況,若一個網(wǎng)頁的鏈接數(shù)快速增長,說明它具有一定的參考性。基于上述兩點改進,提由一種混合頁面相似度和鏈接增幅的HITS算法。將產(chǎn)品主題和網(wǎng)頁內(nèi)容用向量表示,產(chǎn)品主題t=t1,t2,,tn。改進后的HITS在選取以及擴展根集R時,除了考慮網(wǎng)頁之間的鏈接關(guān)系,還要將網(wǎng)頁p與產(chǎn)品主題進行相似度計算,若相似度小于閥值13,過濾網(wǎng)頁p;在此基礎(chǔ)上,計算權(quán)威值。相似度的計算是把每個網(wǎng)頁p表示成向量形式:其中入、以是權(quán)重因子,用于平衡網(wǎng)頁主題相關(guān)性和網(wǎng)頁鏈接增幅對網(wǎng)頁的影響,LT是鏈接矩陣L的轉(zhuǎn)置矩陣,即

16、若存在網(wǎng)頁j到i的鏈接,則LTij=1,否則LTij=0,設(shè)定閥值14,權(quán)威值an14的網(wǎng)頁確定為與產(chǎn)品主題相關(guān)的權(quán)威網(wǎng)頁。3實驗仿真本文以百度搜索引擎作為實驗數(shù)據(jù)來源,以手機、電腦、筆記本、相機作為產(chǎn)品主題,通過運用上述方法確定用于在線評論信息挖掘分析的可靠數(shù)據(jù)來源。用網(wǎng)絡(luò)爬蟲在百度上采集實驗設(shè)定產(chǎn)品主題的網(wǎng)頁,以采集到10萬個網(wǎng)頁為停止條件。數(shù)據(jù)采集完后,進行網(wǎng)頁預(yù)處理、文本預(yù)處理等操作后,將所需數(shù)據(jù)輸入計算模塊。如圖2所示。31實驗數(shù)據(jù)預(yù)處理實驗網(wǎng)頁集是在百度搜索引擎上基于產(chǎn)品主題采集來的,其中包括百度推廣、廣告等大量的噪聲信息,網(wǎng)頁預(yù)處理用于清洗此類網(wǎng)頁,清洗后的網(wǎng)頁數(shù)為9萬個;而文本

17、預(yù)處理是為了建立網(wǎng)頁的特征詞向量,以及通過網(wǎng)絡(luò)日志,記錄下網(wǎng)頁被搜索到的時間t1與其最近一次被更新時間t2的差值及兩次搜索間網(wǎng)頁鏈接的增幅情況等。網(wǎng)頁預(yù)處理的下一步是統(tǒng)計網(wǎng)頁的前向與后向鏈接,建立轉(zhuǎn)移矩陣M,維數(shù)為90000X90000,部分轉(zhuǎn)移矩陣:32基于MapReduce的矩陣計算實驗中的矩陣計算選擇MapReduce11,是因為PageRank等算法的迭代次數(shù)較多,時空復(fù)雜度較大,而基于MapReduce的矩陣運算,可以通過矩陣分塊,減少迭代次數(shù),從時間與空間上都能得到性能的提升。針對式(1),向量v表示所有網(wǎng)頁的PR值,本次實驗中v的維數(shù)只有9萬,但是系統(tǒng)的實現(xiàn)是在整個WEB環(huán)境下的

18、,這時v的維數(shù)是數(shù)以億計的,向量v是無法直接放入內(nèi)存的,而且基于效率考慮,轉(zhuǎn)移矩陣M按列存儲,M的每一列都會與v的每一分量有關(guān),這時當向v的更一分量添加奧一項時,v的分量未存儲在內(nèi)存中,導(dǎo)致添加奧一項時需要將頁面轉(zhuǎn)換到內(nèi)存之后才能完成,這就造成了內(nèi)存抖動使計算時間呈數(shù)量級的增長?;诖耍疚膶⑥D(zhuǎn)移矩陣M分為k2塊,向量v分為k塊,分塊方法如圖3所示。圖3矩陣分塊示意圖依據(jù)M的分塊數(shù),設(shè)定k2個Map任務(wù),每個Map任務(wù)處理轉(zhuǎn)移矩陣M中的一塊Mij與向量v的一塊vj,其中v的每塊vj輸入給k個不同的處理Mij(i=1,2,,k)的Map任務(wù),在處理Mij時將vj與vj'保留在內(nèi)存中,Mi

19、j與vj生產(chǎn)的所有項只用于vj'的計算。因此v會在算法中輸入k次,M中的每塊只輸入一次,而向量v相對于轉(zhuǎn)移矩陣M的大小是可以忽略不計的,這極大地降低了算法的復(fù)雜度。而且由于Map任務(wù)進行了多次組合操作,Map任務(wù)輸由給Reduce任務(wù)的數(shù)據(jù)規(guī)模也被縮減了。33實驗仿真步驟與結(jié)果采用10臺Intel酷睿i5四核,內(nèi)存4G的PC通過100M/s交換機互聯(lián),搭建分布式環(huán)境。其中設(shè)定迭代收斂的條件為覽節(jié)點的PR值之差小于等于10-6。設(shè)定任務(wù)1中檢測作弊網(wǎng)頁的閥值l1=05,初始化向量v=(1,1,,1)T,即迭代開始時每個網(wǎng)頁的PageRank值為1;任務(wù)2中判定與產(chǎn)品主題相關(guān)的閥值l2=2

20、;任務(wù)3中權(quán)重因子入=08、以=02,構(gòu)建WEB鄰接圖時的閥值l3=01,用于確定權(quán)威網(wǎng)頁的閥值l4=4。為了驗證本文所提改進方法的有效性,先對改進算法精確度進行驗證,通過實驗網(wǎng)頁集經(jīng)過傳統(tǒng)的PageRank計算得到的PR值和經(jīng)過改進的PageRank計算得至悌PR值,分別與Google給由的PR值進行比較,如圖4所示,橫坐標表示9萬個網(wǎng)頁在經(jīng)過傳統(tǒng)和改進的PageRank計算得到的PR值與Google的PR值的差值,縱坐標則表示網(wǎng)頁個數(shù)。由圖4可以看由,經(jīng)改進的PageRank計算得到的PR值較傳統(tǒng)PageRank計算得至勺PR值更加接近權(quán)威的GooglePR值,其中PR值相同或較接近的網(wǎng)頁

21、中,改進的PageRank的網(wǎng)頁明顯多于傳統(tǒng)PageRank的網(wǎng)頁;PR值相差較大的網(wǎng)頁中,傳統(tǒng)PageRank明顯多于改進的PageRank;并且經(jīng)過傳統(tǒng)PageRank計算的9萬個網(wǎng)頁的PR值與GooglePR值的平均差值為309,而經(jīng)過改進的PageRank計算的PR值與GooglePR值的平均差值只有125,誤差減小了595%。再進行時間復(fù)雜度的對比分析,三個子任務(wù)中都包含矩陣的計算,其中以任務(wù)2涉及的矩陣運算最多,以改進的TC-PageRank在傳統(tǒng)的運算與基于MapReduce的矩陣運算條件下,根據(jù)既定的迭代收斂條件,在不同的網(wǎng)頁集數(shù)量下,驗證兩運算的執(zhí)行時間,并對比分析傳統(tǒng)環(huán)境下

22、整體挖掘算法消耗時間與基于MapReduce的矩陣運算所消耗的時間,結(jié)果如圖5所示。由圖5可以看由,無論是運算單個任務(wù),還是運算整體挖掘算法,基于MapReduce的矩陣運算執(zhí)行時間都小于傳統(tǒng)運算所消耗的時間,并發(fā)現(xiàn)隨著網(wǎng)頁的增加,基于MapReduce的矩陣運算執(zhí)行時間的增加速率也較小,說明基于MapReduce的矩陣運算具有較低時間復(fù)雜度的優(yōu)勢。在分析比較了算法的有效性、準確性及基于MapReduce的矩陣運算的及時性之后,下面將基于百度采集的網(wǎng)頁集進行仿真實驗。流程如下:(1)利用表1中的lout2和lin2統(tǒng)計由所有網(wǎng)頁的前向與后向鏈接,建立轉(zhuǎn)移矩陣M,運用式(1)、式(2)去掉具有較

23、高垃圾質(zhì)量的作弊網(wǎng)頁,依據(jù)PR值得到實驗中采集到的網(wǎng)頁集中的可靠網(wǎng)頁集:P=5,13,15,18,,2568,,35841,,89994(集合中的數(shù)字是網(wǎng)頁的標識ID)o(2)利用表1中的VSM和IDF,運用式(3)計算由網(wǎng)頁間主題的相關(guān)度w(u,v),根據(jù)式(4)計算網(wǎng)頁v在網(wǎng)頁u中所有由鏈中所占的權(quán)重W(c)o利用表1中的t1和t2,運用式(5)計算網(wǎng)頁更新時間差的權(quán)重W(t),禾fj用表1中的v(c)、v(i)及v(j)計算評論數(shù)據(jù)占網(wǎng)頁比例的權(quán)重W(z),結(jié)合式(8),我由可靠網(wǎng)頁集中與產(chǎn)品主題高度相關(guān)且較新的在線評論網(wǎng)頁集:P=5,13,18,,2568,,89994(3)利用表1中

24、的VSM,結(jié)合式(9)計算網(wǎng)頁與產(chǎn)品主題的相似度s,利用表1中l(wèi)out1、lout2、lin1、lin2結(jié)合式(10)、式(11)計算網(wǎng)頁p的鏈由增幅lout、鏈入增幅lin,再運算式(12)和式(13)算由網(wǎng)頁集的權(quán)威值a以及導(dǎo)航值h,依據(jù)權(quán)威值a確定權(quán)威網(wǎng)頁集A=5,18,,2568,最后通過表1中的ID、URL、Path三項,找由網(wǎng)頁集A代表的網(wǎng)頁作為在線評論分析的可靠數(shù)據(jù)來源。本實驗確定的部分可靠數(shù)據(jù)來源如表2所示。通過對實驗得到的數(shù)據(jù)進行分析,發(fā)現(xiàn)權(quán)威值a較大的網(wǎng)頁一般集中在中關(guān)村在線、太平洋電腦網(wǎng)以及百度貼吧等國內(nèi)具有影響力的專業(yè)性論壇上,這是由于這些網(wǎng)頁時刻保持更新狀態(tài),并且以本

25、實驗中的產(chǎn)品主題進行采集時,它們處于根集位置。另外有些購物平臺對百度搜索引擎采取了屏蔽措施,這就需要對這類的網(wǎng)站采用其他網(wǎng)頁采集方法以彌補在線評論數(shù)據(jù)的不全面問題。4結(jié)論與展望在線評論作為產(chǎn)品口碑傳播的一種新形式,對消費者網(wǎng)購的抉擇起著重要的影響,但其中大量的良莠不齊的評論也影響了消費者對可靠信息的獲取。本文從目前在線評論數(shù)據(jù)挖掘存在的實際需求由發(fā),將在線評論數(shù)據(jù)獲取分成三個子任務(wù),從辨別作弊網(wǎng)頁獲取可靠網(wǎng)頁,到提煉由與產(chǎn)品主題高度相關(guān)的網(wǎng)頁,最后從相關(guān)網(wǎng)頁中確定其中的權(quán)威網(wǎng)頁作為在線評論分析的數(shù)據(jù)來源,三個任務(wù)循序漸進地進行,保證了獲取的網(wǎng)頁集不僅是與產(chǎn)品主題密切相關(guān),而是也保證了數(shù)據(jù)的權(quán)威

26、性,對消費者網(wǎng)購決策具有重要的指導(dǎo)意義。在獲取了可靠的用于在線評論信息挖掘分析的數(shù)據(jù)源之后,下一步研究工作就是對這些在線評論數(shù)據(jù)集進行產(chǎn)品特征的提取以及消費者情感傾向的分析,以更加直觀的形式呈現(xiàn)給潛在消費者,避免了其搜尋閱讀大量在線評論的不必要性,輔助其快速做由決策,并幫助企業(yè)理解消費者對產(chǎn)品質(zhì)量與服務(wù)的感知,為企業(yè)改進產(chǎn)品質(zhì)量與服務(wù)以及制定更加有效的營銷策略提供支持。但是由于學(xué)術(shù)界目前缺乏可靠數(shù)據(jù)源挖掘這方面的研究,因此對實驗仿真的準確性并沒有可靠的評判標準,只能通過人工排查來檢驗結(jié)果的準確度,實驗中數(shù)據(jù)規(guī)模較小,依靠人力尚能檢驗完,但若是放在系統(tǒng)中基于整個WEB環(huán)境,那通過人工檢驗結(jié)果的準確度是不可能完成的,借助簡單的檢測方法是完善實驗的重點。參考文獻:1CNNIC.2014年第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告R.北

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論