在線評論信息挖掘分析的數(shù)據(jù)來源可靠性研究

上傳人：d*** IP屬地：天津上傳時間：2022-04-22 格式：DOCX 頁數(shù)：15 大小：25.81KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩10頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、在線評論信息挖掘分析的數(shù)據(jù)來源可靠性研究摘要：通過將研究分解成三個子任務(wù)，對網(wǎng)絡(luò)數(shù)據(jù)從運用PageRank與TrustRank剔除作弊網(wǎng)頁開始；借助結(jié)合網(wǎng)頁間主題相關(guān)度、時間差以及在線評論比例的權(quán)重的TCPageRank算法，提煉與產(chǎn)品主題高度相關(guān)并包含大量在線評論數(shù)據(jù)的網(wǎng)頁集；最后考慮了網(wǎng)頁與產(chǎn)品主題的相似度以及網(wǎng)頁的鏈接增幅對網(wǎng)頁權(quán)威性的影響，運用改進的HITS算法，確定在線評論分析數(shù)據(jù)來源的權(quán)威網(wǎng)頁集；而基于MapReduce的矩陣分塊運算，降低了算法時空的復(fù)雜度。并通過仿真實驗驗證了該方法的可行性與準確性。關(guān)鍵詞：在線評論；PageRank；主題漂移；鏈接增幅DOI:10.13956/

2、j.ss.1001-8409.2015.04.21中圖分類號：F71355文獻標識碼：A文章編號：1001-8409(2015)04-0094-06AnalysisofReliabilityDataSourceonOnlineReviewsInformationMiningLIJinhai,HEYoushi(SchoolofManagement,JiangsuUniversity,Zhenjiang212013Abstract:Throughresolvetheresearchintothreesubtasks,startingfromoperationPageRankandTrustRank

3、eliminatecheatingpageofnetwork.RefiningwebpageofhightopicrelevancebyTCPageRankcombinedtopicrelevancybetweenwebpagesandweightoftimedifferenceandreviewsonwebpage.Finally,thoughtofsimilaritybetweenpageandtopicofproductandamplificationofpagehavetheinfluenceonthewebauthority,determinetheauthorityoftheweb

4、pageofonlinereviewanalysisdatasourcebytheimprovedHITS.ThepartitioningofmatrixoperationbasedonMapReduce,reducesthetimeandspacecomplexityofthealgorithm.Andthroughthesimulationexperimentsitverifiesthefeasibilityandaccuracyofthemethod.Keywords:onlinereviews;PageRank;topicdrift;amplificationofpage引言據(jù)CNNI

5、C報告，2013年我國新增網(wǎng)民5千萬人，互聯(lián)網(wǎng)普及率近46%,處于世界平均水平之上，其中網(wǎng)絡(luò)購物人數(shù)占網(wǎng)民的50%,中國預(yù)計將于2015年成為全球最大的網(wǎng)購市場1。網(wǎng)絡(luò)購物的劣勢在于無法親自感受商品，因此越來越多的網(wǎng)購者通過瀏覽大量的在線評論來了解產(chǎn)品以及服務(wù)的口碑，依此作曲可靠的決策2。但是面對海量評論，消費者無法快速辨別和利用有價值的信息來作由正確的決策。因此針對在線評論挖掘的研究被學(xué)者們所關(guān)注，Senecal等認為在線評論影響消費者的購買決定3。Popescuam等將在線評論挖掘細分為4個子任務(wù)：特征抽取、觀點抽取、極性判斷、結(jié)果的匯總4o廖成林等借助亞馬遜商城的樣本進行實證研究，分析了

6、在線評論有用性的影響因素以及各影響因素之間的作用機制5。龔艷萍基于ELM視角構(gòu)建了消費者處理在線評論的雙重路徑模型，并探討了在線評論的屬性對消費者采用新技術(shù)產(chǎn)品意愿的影響機理6。目前關(guān)于在線評論的研究集中于評論內(nèi)容挖掘模型以及評論有用性的研究，鮮有學(xué)者關(guān)注在線評論數(shù)據(jù)來源可靠性的研究，而可靠數(shù)據(jù)的獲取是研究的基礎(chǔ)也是關(guān)鍵的一步。1可靠在線評論數(shù)據(jù)源的挖掘流程若要在海量的網(wǎng)絡(luò)數(shù)據(jù)中獲得可靠的評論數(shù)據(jù)，除了優(yōu)秀的網(wǎng)頁采集工具外，確定所要采集的數(shù)據(jù)來源是關(guān)鍵。傳統(tǒng)的用于在線評論分析的數(shù)據(jù)大多數(shù)來自購物網(wǎng)站，這些數(shù)據(jù)來源的優(yōu)勢在于分類明確、內(nèi)容精簡。這些評論數(shù)據(jù)可以應(yīng)付簡單的在線評論的特征挖掘，但是短

7、文本的劣勢在于句式不完整，缺乏作者主觀情感的表達，不利于評論的情感分析，而在線評論信息的有效挖掘不僅是對產(chǎn)品特征的提取，更是對作者情感傾向的分析，缺乏情感表達的在線評論對于消費者的購買決策不能產(chǎn)生決定性的影響。因此挖掘網(wǎng)絡(luò)中除了購物平臺之外的在線評論具有必要性，使對在線評論研究的數(shù)據(jù)源不再局限于購物平臺，擴大在線評論領(lǐng)域的研究邊界。也可以為其他領(lǐng)域研究的數(shù)據(jù)來源確定提供可行的思路。本文將從海量網(wǎng)絡(luò)數(shù)據(jù)中確定的可靠的在線評論數(shù)據(jù)來源分為三個子任務(wù)，如圖1所示，其中A、B、C是與產(chǎn)品主題相關(guān)的網(wǎng)頁集合，首先辨別可靠網(wǎng)站A、B、C、D,其次從可靠的網(wǎng)站中提煉由與所需分析產(chǎn)品相關(guān)的主題網(wǎng)站A、B、C,

8、最后從主題網(wǎng)站中確定當中的權(quán)威網(wǎng)站A作為在線評論分析的數(shù)據(jù)來源。任務(wù)1需要使用的算法是PageRank,任務(wù)2需要使用的算法是TCPageRank,任務(wù)3使用的算法是HITS。2關(guān)鍵算法的流程21PageRank算法及改進PageRank算法是谷歌搜索取得成功的關(guān)鍵技術(shù)，是對網(wǎng)頁重要性進行排序的一種方法7o但是在經(jīng)濟利益的驅(qū)使下，作弊者基于鏈接作弊等手段欺騙PageRank以改變作弊網(wǎng)站的重要性，使得通過傳統(tǒng)PageRank并不能得到滿意結(jié)果。PageRank表示如下：v'=BMv+(1-B)e/n(1)將PageRank以向量的形式表示，利于海量節(jié)點數(shù)的網(wǎng)頁的PR值計算，其中B(0&

9、lt;B<1)為阻尼系數(shù)，通常取值085,M為轉(zhuǎn)移矩陣，v為本次迭代中所有節(jié)點的PR值組成的向量，n為所有節(jié)點的總量，e為n維單位列向量。為了解決鏈接作弊，辨別網(wǎng)絡(luò)中的可靠網(wǎng)站，在任務(wù)1中引入TrustRank對PageRank加以改進，TrustRank是面向主題的PageRank的變形，這里的“主題”不是網(wǎng)頁內(nèi)容主題，而是一個可靠的網(wǎng)頁集。TrustRank可以避免鏈接作弊的思想，作弊網(wǎng)頁可以自動鏈向可靠網(wǎng)頁，但是可靠網(wǎng)頁不會鏈向作弊網(wǎng)頁，因此算法迭代的第一步設(shè)定隨機跳轉(zhuǎn)集合時需選擇一個可靠的網(wǎng)頁集。改進的PageRank的流程是：計算傳統(tǒng)的PR值r;計算TR值t;設(shè)定一個閥值。l1

10、=(r-t)/rl1>05作弊網(wǎng)頁l1W05正常網(wǎng)頁(2)l1表達的是網(wǎng)頁PR值中屬于垃圾的比例。這樣就可以在任務(wù)1中去掉那些具有較高垃圾質(zhì)量的作弊網(wǎng)頁。22TCPageRank算法及改進從式(1)中看由，由于PageRank僅利用網(wǎng)絡(luò)的鏈接結(jié)構(gòu)進行排序，使得該算法存在主題漂移以及偏重舊網(wǎng)頁的缺點8。因此任務(wù)1中得到的網(wǎng)頁集雖然很大程度上排除了作弊網(wǎng)頁，但總量仍然過大，且存在大量非相關(guān)的網(wǎng)頁，產(chǎn)品的更新?lián)Q代對評論的新鮮度提由了要求，所以應(yīng)剔除過時的評論或減少它們的影響。但并不是所有的網(wǎng)頁都含有在線評論的內(nèi)容，因此還需要辨別網(wǎng)頁中含有在線評論的比例，這主要通過衡量網(wǎng)頁中產(chǎn)品特征詞及情感詞占

11、整個網(wǎng)頁特征詞的比例來賦予網(wǎng)頁不同的影響權(quán)重。根據(jù)網(wǎng)頁主題的相關(guān)度來分配權(quán)重可以有效解決主題漂移問題9,網(wǎng)頁主題的相關(guān)度通過向量空間模型計算，設(shè)網(wǎng)頁u和v的文檔向量形式：U=u1,u2,，um,V=v1,v2,，vm其中ui和vi表示特征詞i在各自網(wǎng)頁中的指標值，通過TF.IDF計算：w(v,u)=U?VUxV=!2mi=1uivi匯mi=1u2i匯mi=1v2i(3)并用W(c)表示網(wǎng)頁v在網(wǎng)頁u所有由鏈中所占的權(quán)重，其中F(u)表示u的所有由鏈。W(c)=W(v,u)ZZpSF(u)W(p,u)(4)針對偏重舊網(wǎng)頁的問題，也通過降低權(quán)重的思想來降低舊網(wǎng)頁的主題相關(guān)度，假定網(wǎng)頁搜索到的時間t

12、1與其最近一次更新時間t2的差值越大，則網(wǎng)頁主題相關(guān)度越低，引入時間差的權(quán)重函數(shù)W:Wt=dt1-t2(5)可以看生，時間差與權(quán)重成反比，其中d為根據(jù)實際產(chǎn)品設(shè)定的常數(shù)。在此基礎(chǔ)上，添加網(wǎng)頁的在線評論比例權(quán)重，對網(wǎng)頁文檔中產(chǎn)品屬性特征詞的挖掘采用的是Apriori算法，并且結(jié)合了依存句法分析來提高挖掘精度；在線評論中情感詞往往是對產(chǎn)品屬性特征詞的評價，本文基于HowNet的情感本體庫采用模板和距離的方法來提取網(wǎng)頁中評論的情感詞，該方法的優(yōu)勢在于：模板匹配的速度較快；在線評論的文本不同于企業(yè)發(fā)布的產(chǎn)品信息，具有不規(guī)范性，而該方法對文本的規(guī)范化要求較小。若網(wǎng)頁v的文檔向量形式是V=v1,v2,，v

13、m,共有特征詞m個，設(shè)v經(jīng)過統(tǒng)計的產(chǎn)品特征詞有i個，情感詞有j個，則v含有在線評論的權(quán)重：W(v)=i+jm-(i+j)m(6)W(z)=W(c)匯pSF(u)W(p)(7)考慮到每個網(wǎng)頁含有的文本內(nèi)容總量不同，式(6)、式(7)保證了含有大量文本內(nèi)容同時含有大量在線評論的網(wǎng)頁可以獲得更高的權(quán)重。加入時間差與評論數(shù)據(jù)比例的權(quán)重函數(shù)的TCPageRank如下：v'=BMvxW(c)xW(t)xW(z)+(1-B)e/n(8)設(shè)定閥值l2,網(wǎng)頁的TC-PR值大于等于l2的判定為與產(chǎn)品主題高度相關(guān)的網(wǎng)頁。23HITS算法及改進HITS算法與PageRank算法的區(qū)另I在于，PageRank將

14、網(wǎng)頁看成只有一維的重要性，而HITS將網(wǎng)頁看成具有二維的重要性。任務(wù)3的作用是從已確定的海量主題網(wǎng)站中提取一定量的權(quán)威網(wǎng)站作為在線評論數(shù)據(jù)挖掘的來源。HITS是WEB結(jié)構(gòu)挖掘算法，通過分析網(wǎng)頁間的鏈接關(guān)系，找由其中的權(quán)威網(wǎng)頁10o但在構(gòu)建WEB鄰接圖時，根集是與主題相關(guān)的，而基集的擴展只考慮了與根集的鏈接情況，忽略了主題相關(guān)性，會引入大量與主題相關(guān)度不大的網(wǎng)頁，這樣最后得到的權(quán)威網(wǎng)頁并不是需要的?；赥C-PageRank的思想，在基集擴展過程中加入網(wǎng)頁主題的判斷，使得選入基集的網(wǎng)頁是與主題高度相關(guān)的?？紤]到網(wǎng)購產(chǎn)品更新?lián)Q代較快，關(guān)于產(chǎn)品的在線評論相應(yīng)地也需要最新的。但是新的在線評論網(wǎng)頁與其他

15、網(wǎng)頁之間的鏈接較少，使得權(quán)威值較小。本文認為權(quán)威網(wǎng)頁的確定不僅需要考慮鏈接數(shù)量，也需要考慮網(wǎng)頁的鏈接增幅情況，若一個網(wǎng)頁的鏈接數(shù)快速增長，說明它具有一定的參考性。基于上述兩點改進，提由一種混合頁面相似度和鏈接增幅的HITS算法。將產(chǎn)品主題和網(wǎng)頁內(nèi)容用向量表示，產(chǎn)品主題t=t1,t2,，tn。改進后的HITS在選取以及擴展根集R時，除了考慮網(wǎng)頁之間的鏈接關(guān)系，還要將網(wǎng)頁p與產(chǎn)品主題進行相似度計算，若相似度小于閥值13,過濾網(wǎng)頁p；在此基礎(chǔ)上，計算權(quán)威值。相似度的計算是把每個網(wǎng)頁p表示成向量形式：其中入、以是權(quán)重因子，用于平衡網(wǎng)頁主題相關(guān)性和網(wǎng)頁鏈接增幅對網(wǎng)頁的影響，LT是鏈接矩陣L的轉(zhuǎn)置矩陣，即

16、若存在網(wǎng)頁j到i的鏈接，則LTij=1,否則LTij=0,設(shè)定閥值14,權(quán)威值an14的網(wǎng)頁確定為與產(chǎn)品主題相關(guān)的權(quán)威網(wǎng)頁。3實驗仿真本文以百度搜索引擎作為實驗數(shù)據(jù)來源，以手機、電腦、筆記本、相機作為產(chǎn)品主題，通過運用上述方法確定用于在線評論信息挖掘分析的可靠數(shù)據(jù)來源。用網(wǎng)絡(luò)爬蟲在百度上采集實驗設(shè)定產(chǎn)品主題的網(wǎng)頁，以采集到10萬個網(wǎng)頁為停止條件。數(shù)據(jù)采集完后，進行網(wǎng)頁預(yù)處理、文本預(yù)處理等操作后，將所需數(shù)據(jù)輸入計算模塊。如圖2所示。31實驗數(shù)據(jù)預(yù)處理實驗網(wǎng)頁集是在百度搜索引擎上基于產(chǎn)品主題采集來的，其中包括百度推廣、廣告等大量的噪聲信息，網(wǎng)頁預(yù)處理用于清洗此類網(wǎng)頁，清洗后的網(wǎng)頁數(shù)為9萬個；而文本

17、預(yù)處理是為了建立網(wǎng)頁的特征詞向量，以及通過網(wǎng)絡(luò)日志，記錄下網(wǎng)頁被搜索到的時間t1與其最近一次被更新時間t2的差值及兩次搜索間網(wǎng)頁鏈接的增幅情況等。網(wǎng)頁預(yù)處理的下一步是統(tǒng)計網(wǎng)頁的前向與后向鏈接，建立轉(zhuǎn)移矩陣M,維數(shù)為90000X90000,部分轉(zhuǎn)移矩陣：32基于MapReduce的矩陣計算實驗中的矩陣計算選擇MapReduce11,是因為PageRank等算法的迭代次數(shù)較多，時空復(fù)雜度較大，而基于MapReduce的矩陣運算，可以通過矩陣分塊，減少迭代次數(shù)，從時間與空間上都能得到性能的提升。針對式(1),向量v表示所有網(wǎng)頁的PR值，本次實驗中v的維數(shù)只有9萬，但是系統(tǒng)的實現(xiàn)是在整個WEB環(huán)境下的

18、，這時v的維數(shù)是數(shù)以億計的，向量v是無法直接放入內(nèi)存的，而且基于效率考慮，轉(zhuǎn)移矩陣M按列存儲，M的每一列都會與v的每一分量有關(guān)，這時當向v的更一分量添加奧一項時，v的分量未存儲在內(nèi)存中，導(dǎo)致添加奧一項時需要將頁面轉(zhuǎn)換到內(nèi)存之后才能完成，這就造成了內(nèi)存抖動使計算時間呈數(shù)量級的增長?；诖耍疚膶⑥D(zhuǎn)移矩陣M分為k2塊，向量v分為k塊，分塊方法如圖3所示。圖3矩陣分塊示意圖依據(jù)M的分塊數(shù)，設(shè)定k2個Map任務(wù)，每個Map任務(wù)處理轉(zhuǎn)移矩陣M中的一塊Mij與向量v的一塊vj,其中v的每塊vj輸入給k個不同的處理Mij(i=1,2,，k)的Map任務(wù)，在處理Mij時將vj與vj'保留在內(nèi)存中，Mi

19、j與vj生產(chǎn)的所有項只用于vj'的計算。因此v會在算法中輸入k次，M中的每塊只輸入一次，而向量v相對于轉(zhuǎn)移矩陣M的大小是可以忽略不計的，這極大地降低了算法的復(fù)雜度。而且由于Map任務(wù)進行了多次組合操作，Map任務(wù)輸由給Reduce任務(wù)的數(shù)據(jù)規(guī)模也被縮減了。33實驗仿真步驟與結(jié)果采用10臺Intel酷睿i5四核，內(nèi)存4G的PC通過100M/s交換機互聯(lián)，搭建分布式環(huán)境。其中設(shè)定迭代收斂的條件為覽節(jié)點的PR值之差小于等于10-6。設(shè)定任務(wù)1中檢測作弊網(wǎng)頁的閥值l1=05,初始化向量v=（1,1,，1）T,即迭代開始時每個網(wǎng)頁的PageRank值為1;任務(wù)2中判定與產(chǎn)品主題相關(guān)的閥值l2=2

20、;任務(wù)3中權(quán)重因子入=08、以=02,構(gòu)建WEB鄰接圖時的閥值l3=01,用于確定權(quán)威網(wǎng)頁的閥值l4=4。為了驗證本文所提改進方法的有效性，先對改進算法精確度進行驗證，通過實驗網(wǎng)頁集經(jīng)過傳統(tǒng)的PageRank計算得到的PR值和經(jīng)過改進的PageRank計算得至悌PR值，分別與Google給由的PR值進行比較，如圖4所示，橫坐標表示9萬個網(wǎng)頁在經(jīng)過傳統(tǒng)和改進的PageRank計算得到的PR值與Google的PR值的差值，縱坐標則表示網(wǎng)頁個數(shù)。由圖4可以看由，經(jīng)改進的PageRank計算得到的PR值較傳統(tǒng)PageRank計算得至勺PR值更加接近權(quán)威的GooglePR值，其中PR值相同或較接近的網(wǎng)頁

21、中，改進的PageRank的網(wǎng)頁明顯多于傳統(tǒng)PageRank的網(wǎng)頁；PR值相差較大的網(wǎng)頁中，傳統(tǒng)PageRank明顯多于改進的PageRank；并且經(jīng)過傳統(tǒng)PageRank計算的9萬個網(wǎng)頁的PR值與GooglePR值的平均差值為309,而經(jīng)過改進的PageRank計算的PR值與GooglePR值的平均差值只有125,誤差減小了595%。再進行時間復(fù)雜度的對比分析，三個子任務(wù)中都包含矩陣的計算，其中以任務(wù)2涉及的矩陣運算最多，以改進的TC-PageRank在傳統(tǒng)的運算與基于MapReduce的矩陣運算條件下，根據(jù)既定的迭代收斂條件，在不同的網(wǎng)頁集數(shù)量下，驗證兩運算的執(zhí)行時間，并對比分析傳統(tǒng)環(huán)境下

22、整體挖掘算法消耗時間與基于MapReduce的矩陣運算所消耗的時間，結(jié)果如圖5所示。由圖5可以看由，無論是運算單個任務(wù)，還是運算整體挖掘算法，基于MapReduce的矩陣運算執(zhí)行時間都小于傳統(tǒng)運算所消耗的時間，并發(fā)現(xiàn)隨著網(wǎng)頁的增加，基于MapReduce的矩陣運算執(zhí)行時間的增加速率也較小，說明基于MapReduce的矩陣運算具有較低時間復(fù)雜度的優(yōu)勢。在分析比較了算法的有效性、準確性及基于MapReduce的矩陣運算的及時性之后，下面將基于百度采集的網(wǎng)頁集進行仿真實驗。流程如下：(1)利用表1中的lout2和lin2統(tǒng)計由所有網(wǎng)頁的前向與后向鏈接，建立轉(zhuǎn)移矩陣M,運用式(1)、式(2)去掉具有較

23、高垃圾質(zhì)量的作弊網(wǎng)頁，依據(jù)PR值得到實驗中采集到的網(wǎng)頁集中的可靠網(wǎng)頁集：P=5,13,15,18,，2568,，35841,，89994(集合中的數(shù)字是網(wǎng)頁的標識ID)o(2)利用表1中的VSM和IDF,運用式(3)計算由網(wǎng)頁間主題的相關(guān)度w(u,v),根據(jù)式(4)計算網(wǎng)頁v在網(wǎng)頁u中所有由鏈中所占的權(quán)重W(c)o利用表1中的t1和t2,運用式(5)計算網(wǎng)頁更新時間差的權(quán)重W(t),禾fj用表1中的v(c)、v(i)及v(j)計算評論數(shù)據(jù)占網(wǎng)頁比例的權(quán)重W(z),結(jié)合式(8),我由可靠網(wǎng)頁集中與產(chǎn)品主題高度相關(guān)且較新的在線評論網(wǎng)頁集：P=5,13,18,，2568,，89994(3)利用表1中

24、的VSM,結(jié)合式(9)計算網(wǎng)頁與產(chǎn)品主題的相似度s,利用表1中l(wèi)out1、lout2、lin1、lin2結(jié)合式(10)、式(11)計算網(wǎng)頁p的鏈由增幅lout、鏈入增幅lin,再運算式(12)和式(13)算由網(wǎng)頁集的權(quán)威值a以及導(dǎo)航值h,依據(jù)權(quán)威值a確定權(quán)威網(wǎng)頁集A=5,18,，2568,最后通過表1中的ID、URL、Path三項，找由網(wǎng)頁集A代表的網(wǎng)頁作為在線評論分析的可靠數(shù)據(jù)來源。本實驗確定的部分可靠數(shù)據(jù)來源如表2所示。通過對實驗得到的數(shù)據(jù)進行分析，發(fā)現(xiàn)權(quán)威值a較大的網(wǎng)頁一般集中在中關(guān)村在線、太平洋電腦網(wǎng)以及百度貼吧等國內(nèi)具有影響力的專業(yè)性論壇上，這是由于這些網(wǎng)頁時刻保持更新狀態(tài)，并且以本

25、實驗中的產(chǎn)品主題進行采集時，它們處于根集位置。另外有些購物平臺對百度搜索引擎采取了屏蔽措施，這就需要對這類的網(wǎng)站采用其他網(wǎng)頁采集方法以彌補在線評論數(shù)據(jù)的不全面問題。4結(jié)論與展望在線評論作為產(chǎn)品口碑傳播的一種新形式，對消費者網(wǎng)購的抉擇起著重要的影響，但其中大量的良莠不齊的評論也影響了消費者對可靠信息的獲取。本文從目前在線評論數(shù)據(jù)挖掘存在的實際需求由發(fā)，將在線評論數(shù)據(jù)獲取分成三個子任務(wù)，從辨別作弊網(wǎng)頁獲取可靠網(wǎng)頁，到提煉由與產(chǎn)品主題高度相關(guān)的網(wǎng)頁，最后從相關(guān)網(wǎng)頁中確定其中的權(quán)威網(wǎng)頁作為在線評論分析的數(shù)據(jù)來源，三個任務(wù)循序漸進地進行，保證了獲取的網(wǎng)頁集不僅是與產(chǎn)品主題密切相關(guān)，而是也保證了數(shù)據(jù)的權(quán)威

26、性，對消費者網(wǎng)購決策具有重要的指導(dǎo)意義。在獲取了可靠的用于在線評論信息挖掘分析的數(shù)據(jù)源之后，下一步研究工作就是對這些在線評論數(shù)據(jù)集進行產(chǎn)品特征的提取以及消費者情感傾向的分析，以更加直觀的形式呈現(xiàn)給潛在消費者，避免了其搜尋閱讀大量在線評論的不必要性，輔助其快速做由決策，并幫助企業(yè)理解消費者對產(chǎn)品質(zhì)量與服務(wù)的感知，為企業(yè)改進產(chǎn)品質(zhì)量與服務(wù)以及制定更加有效的營銷策略提供支持。但是由于學(xué)術(shù)界目前缺乏可靠數(shù)據(jù)源挖掘這方面的研究，因此對實驗仿真的準確性并沒有可靠的評判標準，只能通過人工排查來檢驗結(jié)果的準確度，實驗中數(shù)據(jù)規(guī)模較小，依靠人力尚能檢驗完，但若是放在系統(tǒng)中基于整個WEB環(huán)境，那通過人工檢驗結(jié)果的準確度是不可能完成的，借助簡單的檢測方法是完善實驗的重點。參考文獻：1CNNIC.2014年第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告R.北

人人文庫> 全部分類> 應(yīng)用文書 > 作業(yè)報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

在線評論信息挖掘分析的數(shù)據(jù)來源可靠性研究

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔