中文產(chǎn)品評(píng)論的意見(jiàn)挖掘研究論文_第1頁(yè)
中文產(chǎn)品評(píng)論的意見(jiàn)挖掘研究論文_第2頁(yè)
中文產(chǎn)品評(píng)論的意見(jiàn)挖掘研究論文_第3頁(yè)
中文產(chǎn)品評(píng)論的意見(jiàn)挖掘研究論文_第4頁(yè)
中文產(chǎn)品評(píng)論的意見(jiàn)挖掘研究論文_第5頁(yè)
已閱讀5頁(yè),還剩192頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、碩士學(xué)位論文中文產(chǎn)品評(píng)論的意見(jiàn)挖掘研究Research on Opinion Mining of Product Reviews in Chinese作者:嚴(yán)孫榮導(dǎo)師:瞿有利北京交通大學(xué)2010年5月學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解北京交通大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定。特授權(quán)北京交通大學(xué)能夠?qū)W(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,提供閱覽服務(wù),并采納影印、縮印或掃描等復(fù)制手段保存、匯編以供查閱和借閱。同意學(xué)校向國(guó)家有關(guān)部門(mén)或機(jī)構(gòu)送交論文的復(fù)印件和磁盤(pán)。(保密的學(xué)位論文在解密后適用本授權(quán)講明)學(xué)位論文作者簽名: 導(dǎo)師簽名:簽字日期: 年 月 日 簽字日期: 年 月 日中

2、圖分類(lèi)號(hào):TP391.3UDC:620學(xué)校代碼:10004密級(jí):公開(kāi)北京交通大學(xué)碩士學(xué)位論文中文產(chǎn)品評(píng)論的意見(jiàn)挖掘研究Research on Opinion mining of Product Reviews in Chinese作者姓名:嚴(yán)孫榮 學(xué) 號(hào):08120510導(dǎo)師姓名:瞿有利 職 稱(chēng):副教授學(xué)位類(lèi)不:工學(xué) 學(xué)位級(jí)不:碩士 學(xué)科專(zhuān)業(yè):計(jì)算機(jī)科學(xué)與技術(shù)研究方向:自然語(yǔ)言處理北京交通大學(xué)2010年5月致謝本論文的工作是在我的導(dǎo)師瞿有利副教授的悉心指導(dǎo)下完成的,瞿有利副教授嚴(yán)謹(jǐn)?shù)闹螌W(xué)態(tài)度和科學(xué)的工作方法給了我極大的關(guān)心和阻礙。在此衷心感謝兩年來(lái)瞿有利老師對(duì)我的關(guān)懷和指導(dǎo)。尹傳環(huán)老師悉心指導(dǎo)

3、我們完成了實(shí)驗(yàn)室的科研工作,在學(xué)習(xí)上和生活上都給予了我專(zhuān)門(mén)大的關(guān)懷和關(guān)心,在此向尹傳環(huán)老師表示衷心的謝意。王志海和田盛豐教授關(guān)于我的科研工作和論文都提出了許多的寶貴意見(jiàn),在此表示衷心的感謝。在實(shí)驗(yàn)室工作及撰寫(xiě)論文期間,張美珍、張彥博和張尚超等同學(xué)對(duì)我論文中的意見(jiàn)挖掘研究工作給予了熱情關(guān)心,在此向他們表達(dá)我的感激之情。另外也感謝女朋友符蓉,他們的理解和支持使我能夠在學(xué)校用心完成我的學(xué)業(yè)。嚴(yán)孫榮2010年5月 于北京摘要隨著電子商務(wù)的迅猛進(jìn)展,用戶(hù)購(gòu)買(mǎi)和使用產(chǎn)品之后會(huì)在Web上發(fā)表對(duì)產(chǎn)品的評(píng)論,產(chǎn)品評(píng)論的自動(dòng)挖掘關(guān)于商家和潛在的消費(fèi)者有著重要意義。本文以中文產(chǎn)品評(píng)論為要緊研究對(duì)象,從評(píng)論的整體褒貶

4、分類(lèi)和細(xì)顆粒的產(chǎn)品意見(jiàn)挖掘兩個(gè)層面進(jìn)行分析研究,論文要緊內(nèi)容如下:采納機(jī)器學(xué)習(xí)的方法對(duì)產(chǎn)品評(píng)論進(jìn)行整體褒貶分類(lèi)研究。構(gòu)建用于產(chǎn)品評(píng)論褒貶分類(lèi)的語(yǔ)料庫(kù);采納基于N-Gram文本特征抽?。ǚ譃榛谠~的 unigram,bigram和基于字的unigram,bigram,trigram),結(jié)合不同的特征權(quán)重計(jì)算方法(TF,BOOL,TFIDF),在不同的分類(lèi)算法(樸素貝葉斯、最大熵和支持向量機(jī))進(jìn)行分類(lèi)實(shí)驗(yàn)。實(shí)驗(yàn)表明使用基于字的bigram特征表示并結(jié)合基于詞頻的加權(quán)方法在支持向量機(jī)分類(lèi)器下取得了最好的分類(lèi)性能,準(zhǔn)確率為94.74%。在特征抽取上,采納基于后綴樹(shù)結(jié)構(gòu)的特征提取算法,提取關(guān)鍵子串組作為

5、文本特征。實(shí)驗(yàn)表明基于后綴樹(shù)的關(guān)鍵子串組的特征表現(xiàn)能力強(qiáng)而且特征維度低,分類(lèi)的準(zhǔn)確率略高于基于N-Gram文本特征表示的分類(lèi)效果。設(shè)計(jì)并實(shí)現(xiàn)了基于依存句法分析的細(xì)顆粒意見(jiàn)挖掘算法和基于關(guān)鍵字匹配的細(xì)顆粒意見(jiàn)挖掘算法,并構(gòu)建產(chǎn)品特征庫(kù)和中文極性詞典。實(shí)驗(yàn)表明關(guān)鍵字匹配方法好于基于依存句法分析方法。最后,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)產(chǎn)品評(píng)論意見(jiàn)挖掘系統(tǒng),該系統(tǒng)能夠自動(dòng)抓取指定的評(píng)論頁(yè)面并抽取評(píng)論內(nèi)容,可從整體和細(xì)顆粒兩個(gè)層面對(duì)產(chǎn)品評(píng)論進(jìn)行意見(jiàn)分析,并將意見(jiàn)分析結(jié)果存入產(chǎn)品意見(jiàn)庫(kù)中,提供可視化的統(tǒng)計(jì)展現(xiàn)。關(guān)鍵詞:產(chǎn)品評(píng)論;情感分類(lèi);意見(jiàn)挖掘;自然語(yǔ)言處理分類(lèi)號(hào):TP391.3ABSTRACTNowadays,

6、the electronic commerce plays a more and more important role in our daily life. Consumers always express opinions on the product via the Web after using the product. The automatic mining on these comments is important for the potential consumers and enterprises. We focus on Chinese product reviews.

7、We analyzed the comments on two levels including document-level sentiment classification and feature-based product opinion mining. The main contents are as follows:We employ machine learning algorithm to perform the document-level sentiment classification of the product reviews. We collect corpus fr

8、om online reviews; investigate the N-Gram based feature representation including Word-Based Uigram, Bigram and Chinese Character-Based Unigram, Bigram, trigram; analysis different feature weighting approaches(TF, BOOL, TFIDF), compare different classification algorithms (Naive Bayes, Maximum Entropy

9、 and Support Vector Machine). The SVM using Chinese Character Bigram-based feature extraction method and word frequency based text representation has the best performance, of which the accuracy was 94.74%. We researched suffix tree based structure algorithm extracting the Key Substring Group feature

10、s. Experiments show that the Key Substring Group features have better description of the comments sentiment classification, lower dimension, and better accuracy than other text features represented in SVM.We investigated dependency parsing based algorithm and keyword matching based algorithm for fea

11、ture-based opinion mining. We construct a product features library and a Chinese polarity Dictionary. Experiments show that the keyword based method is better than the dependency parsing based method.We designed and implemented a product review opinion mining system. The system can automatically cra

12、wl and extract specified comments on review pages, then analysis the reviews, save the result into the products opinion library. Users can get visualized result which will be helpful for decision making.KEYWORDS:Product Review; Sentiment Classification; Opinion Minng; Natural Language ProcessingCLAS

13、SNO:TP391.3目錄 TOC o 1-3 h z u HYPERLINK l _Toc263864454 摘要 24中對(duì)SBV算法進(jìn)行了補(bǔ)充。算法如下:對(duì)每個(gè)利用SBV算法分析時(shí)計(jì)算的主題(subject),假如是產(chǎn)品特征詞,則記錄下來(lái);關(guān)于使用過(guò)的極性詞,也作上標(biāo)記。在利用SBV算法分析之后,接著查找整個(gè)句子中沒(méi)有標(biāo)記過(guò)的產(chǎn)品特征詞,并查找它的ATT(定中結(jié)構(gòu))關(guān)系對(duì),關(guān)于所有ATT關(guān)系對(duì),查找含有極性詞的關(guān)系對(duì),并將當(dāng)前的極性詞的上下文極性給予此產(chǎn)品特征。記錄以上所有算法步驟中(包括SBV分析算法)使用過(guò)極性詞,查找沒(méi)有使用過(guò)的極性詞UnHandledPolar。因?yàn)?,假如UnHan

14、dledPolar是一個(gè)修飾產(chǎn)品特征詞的前綴,那么在2)中就差不多使用了,因此UnHandledPolar不可能是前綴詞,因此,向前查找最鄰近的產(chǎn)品特征詞,將當(dāng)前的極性詞作為調(diào)整參數(shù),調(diào)整Topic的極性。經(jīng)婁德成改進(jìn)后的SBV算法,差不多能夠解決大部分的意見(jiàn)挖掘任務(wù)。然而依舊存在一個(gè)問(wèn)題,算法將每個(gè)產(chǎn)品特征詞獨(dú)立的進(jìn)行計(jì)算,并沒(méi)有考慮特征詞之間的關(guān)系。當(dāng)多個(gè)特征詞連續(xù)出現(xiàn)的情況時(shí),例如:“電池的待機(jī)時(shí)刻相當(dāng)長(zhǎng)”,句子中出現(xiàn)兩個(gè)特征詞“電池”,“待機(jī)時(shí)刻”,算法將分不計(jì)算兩個(gè)特征詞的情感。那個(gè)地點(diǎn)本文添加對(duì)多特征詞連續(xù)出現(xiàn)的處理。假如兩個(gè)特征之間只有一個(gè)“的”字的情況,則查詢(xún)產(chǎn)品特征庫(kù)推斷是否

15、為從屬關(guān)系。假如特征之間無(wú)從屬關(guān)系,則分不進(jìn)行計(jì)算?;陉P(guān)鍵字匹配的意見(jiàn)挖掘基于依存句法的極性傳遞方法,專(zhuān)門(mén)好的利用了語(yǔ)義的特性,然而它最大的問(wèn)題在于對(duì)依存句法分析器的依靠太高,假如語(yǔ)法分析錯(cuò)誤,那么將直接導(dǎo)致分析結(jié)果的錯(cuò)誤。為此,本文實(shí)現(xiàn)一種較為直觀(guān)的方法,要緊的思想確實(shí)是使用關(guān)鍵字進(jìn)行匹配,通過(guò)查找產(chǎn)品特征詞的最近出現(xiàn)的極性詞來(lái)計(jì)算極性。圖4.7為關(guān)鍵字匹配方法算法的整個(gè)挖掘流程。圖4.7關(guān)鍵字匹配算法流程圖Figure.4.7 The Flow chart of Key-Word based Mining Algorithm下面詳細(xì)介紹流程處理內(nèi)容。獵取評(píng)論文本。將評(píng)論文本按指定格式讀入

16、程序中。切分分句。得到評(píng)論文本之后,首先進(jìn)行適當(dāng)?shù)臄嗑?,以空格,分?hào),逗號(hào),“”,“”為標(biāo)記進(jìn)行切分。分詞和詞性標(biāo)記。調(diào)用ICTCLAS進(jìn)行中文分詞和詞性標(biāo)注。分析句子的句式。分析評(píng)論的句式,推斷句式類(lèi)型,確定單句或復(fù)句,推斷是否為疑問(wèn)句,感嘆句等。并過(guò)濾復(fù)句中出現(xiàn)了假設(shè)連詞和條件連詞的句子。關(guān)鍵詞標(biāo)記。借助于中文極性詞典和產(chǎn)品特征庫(kù),將文中出現(xiàn)的產(chǎn)品特征詞,極性詞進(jìn)行標(biāo)記。所有關(guān)鍵詞匹配過(guò)程過(guò)中,要求詞的名稱(chēng)和詞性都必須匹配。評(píng)論句子選擇。要緊是過(guò)濾那些沒(méi)有表達(dá)實(shí)際意見(jiàn)的句子。分為兩種情況:過(guò)濾那些句子中既沒(méi)有出現(xiàn)產(chǎn)品特征詞,也沒(méi)有出現(xiàn)極性詞的句子。過(guò)濾只表達(dá)了希望或者建議的態(tài)度和“沒(méi)有”、

17、“尚未”等句式,這些句子一般以“建議,強(qiáng)烈建議,沒(méi)有的情況”的形式出現(xiàn)。計(jì)算極性詞的上下文極性。借助于否定詞詞典和強(qiáng)調(diào)詞詞典。對(duì)每個(gè)分句中的極性詞,查找當(dāng)前分句中是否出現(xiàn)了否定詞和強(qiáng)調(diào)詞,假如有,則對(duì)當(dāng)前極性詞進(jìn)行極性調(diào)整。關(guān)鍵字匹配計(jì)算。以分句為單位進(jìn)行意見(jiàn)抽取。要緊分如下五種情況單產(chǎn)品特征詞和單極性詞。如“性?xún)r(jià)比高”,此類(lèi)評(píng)論句子是評(píng)論的要緊表現(xiàn)形式。處理的方法也比較簡(jiǎn)單,將當(dāng)前分句中極性詞的情感方向,賦于當(dāng)前分句中的產(chǎn)品特征,并將此關(guān)系對(duì)和情感結(jié)果存入意見(jiàn)結(jié)果庫(kù)中。單產(chǎn)品特征詞多個(gè)極性詞。如“這款手機(jī)漂亮又大方”,則分不計(jì)算每個(gè)極性詞,且分不保存產(chǎn)品特征和極性詞的關(guān)系對(duì)和情感結(jié)果。并列多

18、產(chǎn)品特征詞,也稱(chēng)作多特征的情況。現(xiàn)在需要推斷特征詞之間的關(guān)系,假如是從屬關(guān)系,本文處理兩個(gè)特征之間只有一個(gè)“的”字的情況,如“屏幕的尺寸”、“信號(hào)的強(qiáng)度”、“鍵盤(pán)的手感”等中的“屏幕”和“尺寸”、“信號(hào)”和“強(qiáng)度”、“鍵盤(pán)”和“手感”這些產(chǎn)品特征詞之間的關(guān)系確實(shí)是從屬關(guān)系。假如特征之間無(wú)從屬關(guān)系,例如“外觀(guān)和性?xún)r(jià)比都專(zhuān)門(mén)不錯(cuò)”,則把評(píng)論句子中找到的所有特征連接上極性詞,獲得多個(gè)特征關(guān)系對(duì)。非連續(xù)的多產(chǎn)品特征詞。如“優(yōu)良的性能和超低的價(jià)格”,則推斷假如存在連詞則以連詞為分隔符。對(duì)每個(gè)特征詞,先查找特征詞前的極性詞再查找特征詞后的極性詞。只有特征詞無(wú)極性詞。如“九百多的價(jià)格,依舊比較劃算的”。推斷

19、下一個(gè)分句,假如下一個(gè)分句沒(méi)有出現(xiàn)新的特征詞,同時(shí)含有極性詞。則將下一個(gè)分句中的極性詞作為當(dāng)前分句中的產(chǎn)品特征詞的情感極性。只有極性詞。如“漂亮,大方,易操作”。嘗試查找隱式產(chǎn)品特征指示規(guī)則,如“漂亮”則對(duì)應(yīng)的產(chǎn)品的外觀(guān)等。統(tǒng)計(jì)分析結(jié)果。以產(chǎn)品特征為單位,統(tǒng)計(jì)所有的分析結(jié)果,并存入產(chǎn)品意見(jiàn)庫(kù)中。意見(jiàn)挖掘?qū)嶒?yàn)測(cè)試語(yǔ)料實(shí)驗(yàn)要緊選擇了京東網(wǎng)()上部分熱賣(mài)產(chǎn)品的相關(guān)評(píng)論作為測(cè)試數(shù)據(jù)集,選擇手機(jī)的相關(guān)評(píng)論作為研究對(duì)象。本文隨機(jī)選擇了500條句子進(jìn)行實(shí)驗(yàn),其中包含了280個(gè)褒義評(píng)論句,150個(gè)貶義評(píng)論句子,70條個(gè)褒貶都含有的評(píng)論句子。為了驗(yàn)證算法的性能,本文對(duì)所有句子進(jìn)行標(biāo)注,要緊包括產(chǎn)品特征詞、極性詞

20、、極性修飾詞、褒貶色彩和極性強(qiáng)度。在標(biāo)記的過(guò)程中也發(fā)覺(jué),人工去發(fā)覺(jué)評(píng)論中的產(chǎn)品特征,并推斷出用戶(hù)所表達(dá)的意見(jiàn),是一件特不耗時(shí)的工作。表4.3為人工標(biāo)注示例。表4.3意見(jiàn)挖掘手工標(biāo)注結(jié)果Table 4.3 Manual Labeling of Opinion Sentences評(píng)論句子內(nèi)容產(chǎn)品特征詞極性詞強(qiáng)度褒貶色彩Q8在運(yùn)行速度上的表現(xiàn),在目前同品牌的手機(jī)型號(hào)中絕對(duì)是最優(yōu)秀的!運(yùn)行速度優(yōu)秀+2支持它的外觀(guān)設(shè)計(jì)新穎,拿在手上相當(dāng)酷。外觀(guān)新穎酷+1+2支持相當(dāng)支持我昨天剛買(mǎi)了諾基亞5230,今天就降價(jià)了!只是它的性?xún)r(jià)比依舊相當(dāng)高的。諾基亞性?xún)r(jià)比高+2客觀(guān)相當(dāng)支持這款手機(jī)的屏幕專(zhuān)門(mén)炫,只是電池不如何

21、耐用!屏幕電池炫不耐用+1-1相當(dāng)支持反對(duì)實(shí)驗(yàn)結(jié)果和分析首先,本文對(duì)詞語(yǔ)的上下文極性計(jì)算進(jìn)行實(shí)驗(yàn)。我們?cè)?00個(gè)評(píng)論中,共標(biāo)注了904個(gè)極性詞。通過(guò)手工標(biāo)注,發(fā)覺(jué)句子中含有否定詞的比例為18%,含有強(qiáng)調(diào)詞的比例為35%,含有產(chǎn)品特征相關(guān)的極性詞為13%,這些詞假如只通過(guò)統(tǒng)計(jì)的方法是無(wú)法有效識(shí)不的,勢(shì)必會(huì)造成極性差不方向的錯(cuò)誤和極性強(qiáng)度的失真,也講明本文中的極性詞典的構(gòu)建是比較合理的。接下來(lái)我們對(duì)評(píng)論中所涉及的產(chǎn)品特征進(jìn)行極性計(jì)算,實(shí)驗(yàn)要緊驗(yàn)證兩個(gè)內(nèi)容:一、產(chǎn)品特征和極性詞的關(guān)系匹配。如(性?xún)r(jià)比,高),(功能,強(qiáng)大)。產(chǎn)品特征是意見(jiàn)挖掘的主題,只要找到修飾它的極性詞,也確實(shí)是找到正確的關(guān)系匹配,

22、就能夠正確的分析產(chǎn)品特征的情感。二、產(chǎn)品特征的情感方向。情感方向由極性詞的上下文極性計(jì)算而得。由于手工標(biāo)注的主觀(guān)性,以及極性詞典、詞語(yǔ)權(quán)重的相對(duì)主觀(guān)性,我們專(zhuān)門(mén)難做到手工標(biāo)注的結(jié)果和系統(tǒng)自動(dòng)計(jì)算的結(jié)果精確匹配,為了減少這些差異,本文只考慮極性方向分析是否正確,而沒(méi)有細(xì)究其極性強(qiáng)弱,因?yàn)闃O性強(qiáng)弱是能夠通過(guò)極性詞典調(diào)整的。為了測(cè)試意見(jiàn)挖掘的性能,本文保證了在實(shí)驗(yàn)語(yǔ)料中出現(xiàn)的產(chǎn)品特征詞和極性詞在產(chǎn)品特征詞庫(kù)和極性詞庫(kù)中基礎(chǔ)差不多構(gòu)建。因此借助于兩個(gè)基礎(chǔ)庫(kù),能夠?qū)⒄Z(yǔ)料中出現(xiàn)的產(chǎn)品特征詞和極性詞進(jìn)行全部標(biāo)記。本文共標(biāo)記了953個(gè)產(chǎn)品特征詞,904個(gè)極性詞,其中對(duì)特征詞表達(dá)了有效的情感意見(jiàn)的關(guān)系對(duì)共有81

23、8對(duì)。表4.4意見(jiàn)挖掘關(guān)系對(duì)結(jié)果Table 4.4 the result of opinion mining relationship算法正確匹配數(shù)量準(zhǔn)確率依存句法51562.9%關(guān)鍵字匹配77796.2%從上表能夠看出,依存句法的準(zhǔn)確性較低,緣故是特征詞和真正修飾它的極性詞不能被正確的在依存句法中分析出來(lái),也確實(shí)是在進(jìn)行依存句法分析時(shí)就差不多帶入了許多的錯(cuò)誤。本文也深入地解了目前中文句法分析器的工作原理,了解到在構(gòu)建句法分析模型時(shí)使用的訓(xùn)練語(yǔ)料差不多上一些規(guī)范的,完整的句子。而本文研究的對(duì)象是互聯(lián)網(wǎng)上的產(chǎn)品評(píng)論,它的要緊特點(diǎn)是語(yǔ)句結(jié)構(gòu)不規(guī)范,口語(yǔ)化比較嚴(yán)峻,同時(shí)會(huì)有相當(dāng)多的網(wǎng)絡(luò)詞語(yǔ),如“偶”

24、代表“我”,和其他一些網(wǎng)上的流行語(yǔ)等。標(biāo)點(diǎn)符號(hào)使用隨意,直接阻礙斷句不準(zhǔn)確,有時(shí)候一個(gè)句子過(guò)長(zhǎng),如此句法分析器就專(zhuān)門(mén)難分析句子的結(jié)構(gòu)。為了提高語(yǔ)法分析器的準(zhǔn)確率,本文進(jìn)行了一些處理,假如及時(shí)的斷句,使用盡量短的句子送入分析器,將一些網(wǎng)絡(luò)詞語(yǔ)進(jìn)行替換等,這在一定程序上提高了分析的準(zhǔn)確性。由于基于依存句法的極性傳遞算法過(guò)于依靠極性分析的準(zhǔn)確率,直接導(dǎo)致算法實(shí)際效果不是專(zhuān)門(mén)理想?;陉P(guān)鍵字匹配的方法,獲得了較高的準(zhǔn)確率,達(dá)到96.2%。通過(guò)直觀(guān)的將最近出現(xiàn)的產(chǎn)品特征詞和極性詞進(jìn)行關(guān)聯(lián),在本實(shí)驗(yàn)語(yǔ)料中也有較好的表現(xiàn),同時(shí)關(guān)鍵字匹配的方法,不需要依靠語(yǔ)法等預(yù)處理,同時(shí)計(jì)算速度快,比較適合于實(shí)際的系統(tǒng)應(yīng)用

25、。本章小結(jié)本章從細(xì)顆粒的層面對(duì)產(chǎn)品評(píng)論進(jìn)行意見(jiàn)挖掘,分不介紹了產(chǎn)品特征庫(kù)的構(gòu)建,中文極性詞典的構(gòu)建,對(duì)中文產(chǎn)品評(píng)論語(yǔ)言的特點(diǎn)進(jìn)行分析,分不采納基于依存句法和基于關(guān)鍵字匹配的方法進(jìn)行評(píng)論的意見(jiàn)挖掘。最后設(shè)計(jì)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明基于關(guān)鍵字匹配的方法有較高的準(zhǔn)確率。產(chǎn)品評(píng)論意見(jiàn)挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)系統(tǒng)整體設(shè)計(jì)本文在整理了論文前部分的研究成果之后,將它們進(jìn)行整合,初步實(shí)現(xiàn)了一套比較完善的產(chǎn)品挖掘系統(tǒng),能夠?qū)崿F(xiàn)產(chǎn)品意見(jiàn)挖掘整個(gè)流程,并取得了不錯(cuò)的效果。系統(tǒng)要緊包括評(píng)論下載與內(nèi)容提取、評(píng)論意見(jiàn)挖掘、人機(jī)交互可視化三部分內(nèi)容。系統(tǒng)的要緊結(jié)構(gòu)如下:圖5.1產(chǎn)品評(píng)論意見(jiàn)挖掘系統(tǒng)體系結(jié)構(gòu)Figure.5.1 The

26、Architecture of Product Reviews Opinion Mining System系統(tǒng)開(kāi)發(fā)環(huán)境本系統(tǒng)開(kāi)發(fā)使用Java語(yǔ)言來(lái)開(kāi)發(fā)。Java是一種簡(jiǎn)單的、面向?qū)ο蟮?、性能?yōu)異、多線(xiàn)程的動(dòng)態(tài)語(yǔ)言。Java由Sun公司于1995年5月正式推出,進(jìn)展到現(xiàn)在差不多有了專(zhuān)門(mén)長(zhǎng)時(shí)刻,現(xiàn)現(xiàn)在差不多是當(dāng)今軟件開(kāi)發(fā)的要緊語(yǔ)言。系統(tǒng)的開(kāi)發(fā)環(huán)境匯總?cè)缦拢翰僮飨到y(tǒng):Windows xp2。硬件環(huán)境:CPU,Interl E4500;內(nèi)存,2G。開(kāi)發(fā)平臺(tái):Eclipse3.4,JDK1.6。WEB服務(wù)器:Tomcat6.0。前端展現(xiàn):Extjs 3.0, JFreeChart 1.0。數(shù)據(jù)庫(kù):MyS

27、ql 5.0??梢暬缑嫔杀鞠到y(tǒng)采納基于B/S的結(jié)構(gòu)進(jìn)行開(kāi)發(fā),應(yīng)用Extjs框架創(chuàng)建前端用戶(hù)界面。ExtJS能夠用來(lái)開(kāi)發(fā)RIA也即富客戶(hù)端的AJAX應(yīng)用,是一個(gè)用Javascript寫(xiě)的與后臺(tái)技術(shù)無(wú)關(guān)的前端AJAX框架。因此,能夠把ExtJS用在.Net、Java、Php等各種開(kāi)發(fā)語(yǔ)言開(kāi)發(fā)的應(yīng)用中。ExtJs最開(kāi)始基于YUI技術(shù),由開(kāi)發(fā)人員JackSlocum開(kāi)發(fā),通過(guò)參考Java Swing等機(jī)制來(lái)組織可視化組件,不管從UI界面上CSS樣式的應(yīng)用,到數(shù)據(jù)解析上的異常處理,都可確實(shí)是一款不可多得的JavaScript客戶(hù)端技術(shù)的精品。為了讓用戶(hù)更方便和快速地了解產(chǎn)品評(píng)論的分析結(jié)果,本文使用圖

28、表的表現(xiàn)形式,借助于JFreeChart軟件展現(xiàn)圖形化。JFreeChart是Java平臺(tái)上的一個(gè)開(kāi)放的圖表繪制類(lèi)庫(kù),它完全使用Java語(yǔ)言編寫(xiě),是為applications, applets, servlets以及JSP等使用所設(shè)計(jì)。JFreeChart可生成餅圖(pie charts)、柱狀圖(bar charts)、散點(diǎn)圖(scatter plots)、時(shí)序圖(time series)、甘特圖(Gantt charts)等等多種圖表,同時(shí)能夠產(chǎn)生PNG和JPEG格式的輸出,還能夠與PDF和EXCEL關(guān)聯(lián)。JFreeChart是目前比較常用的Java圖形解決方案,差不多能夠解決目前的圖形方

29、面的需求。產(chǎn)品特征庫(kù)和極性詞典的治理產(chǎn)品特征庫(kù)維護(hù)產(chǎn)品特征包括兩類(lèi):產(chǎn)品類(lèi)型和產(chǎn)品屬性?,F(xiàn)代科技的發(fā)達(dá),致使各種產(chǎn)品更新?lián)Q代的速度特不快,不斷有新產(chǎn)品上市,新功能公布,尤其是IT產(chǎn)品、手機(jī)數(shù)碼產(chǎn)品等。這也要求我們必須不斷完善系統(tǒng)的產(chǎn)品特征庫(kù),保證產(chǎn)品特征庫(kù)盡可能高的覆蓋率。系統(tǒng)設(shè)計(jì)了產(chǎn)品類(lèi)型表和產(chǎn)品特征詞表,本文在系統(tǒng)開(kāi)發(fā)中,手工整理了手機(jī)相關(guān)的179個(gè)特征詞。表5.1產(chǎn)品類(lèi)型表Table 5.1 The Table of Product Type字段名稱(chēng)類(lèi)型長(zhǎng)度講明product_type_idint4產(chǎn)品類(lèi)型IDtype_namevarchar50類(lèi)型名稱(chēng)type_levelint4類(lèi)型層

30、次,1為產(chǎn)品類(lèi)型,2為品牌,3為型號(hào)parent_idint4父級(jí)ID表5.2產(chǎn)品特征表Table 5.2 The Table of Product Feature字段名稱(chēng)類(lèi)型長(zhǎng)度講明feature_idint4特征IDfeature _namevarchar50特征詞名稱(chēng)feature _levelint4類(lèi)型層次 parent_idint4父級(jí)IDfeature_synonymvarchar500特征同義詞,以“”隔開(kāi),如電池和電板,外觀(guān)和外形。極性詞庫(kù)維護(hù)中文極性詞的數(shù)量是龐大的。極性詞典構(gòu)建在第四章中差不多提到,它包括了基礎(chǔ)極性詞典、網(wǎng)絡(luò)極性詞典、領(lǐng)域極性詞典,產(chǎn)品特征相關(guān)極性詞典四個(gè)

31、部分和兩部極性修飾詞典,即否定詞詞典和強(qiáng)調(diào)詞詞典。要求系統(tǒng)必須定期對(duì)這些詞典進(jìn)行維護(hù)更新,以保證系統(tǒng)分析的正確性。第四章中具體介紹了極性詞的構(gòu)建過(guò)程,本文將第四章中手工整理的極性詞大約900個(gè)導(dǎo)入極性詞庫(kù)中。數(shù)據(jù)表的設(shè)計(jì)如下所示。表5.3極性詞詞典表Table 5.3 The Table of Polarity dictionary字段名稱(chēng)類(lèi)型長(zhǎng)度講明polarity_idint4極性詞典IDword_namevarchar50極性詞posvarchar10詞性,如動(dòng)詞,形容詞typeint4詞類(lèi)型,1基礎(chǔ)極性詞,2網(wǎng)絡(luò)極性詞,3領(lǐng)域極性詞 strengthfloat4極性強(qiáng)度,假如極性詞,值

32、為正代表褒義,負(fù)代表貶義,區(qū)間為(-2,2)表5.4否定詞詞典表Table 5.4 The Table of Negation Dictionary字段名稱(chēng)類(lèi)型長(zhǎng)度講明negation_idint4否定詞典IDword_namevarchar50否定詞表5.5強(qiáng)調(diào)詞詞典表Table 5.5 The Table of Intensive Dictionary字段名稱(chēng)類(lèi)型長(zhǎng)度講明intensifier_idint4強(qiáng)調(diào)詞IDword_namevarchar50極性詞posvarchar10詞性strengthfloat4極性強(qiáng)度,區(qū)間為(0, 3)表5.6產(chǎn)品特征相關(guān)極性詞詞典表Table 5.6

33、 The Table of Product Feature Related Polarity Dictionary字段名稱(chēng)類(lèi)型長(zhǎng)度講明feature_relate_idint4強(qiáng)調(diào)詞IDfeature_idint4特征詞IDword_namevarchar50極性詞posvarchar10詞性strengthfloat4極性強(qiáng)度,區(qū)間為(0, 3)評(píng)論頁(yè)面下載與內(nèi)容提取評(píng)論的頁(yè)面下載本系統(tǒng)的第一個(gè)任務(wù)是下載指定產(chǎn)品相關(guān)的網(wǎng)頁(yè),JAVA語(yǔ)言提供了對(duì)網(wǎng)絡(luò)資源的操作功能,只需要指定網(wǎng)址,就能夠?qū)⒄麄€(gè)網(wǎng)頁(yè)以數(shù)據(jù)流的形式提取出來(lái)。當(dāng)同一產(chǎn)品的評(píng)論數(shù)量較多時(shí),一般的網(wǎng)頁(yè)會(huì)采取分頁(yè)的形式展現(xiàn),那個(gè)地點(diǎn)系統(tǒng)也

34、需要將同一產(chǎn)品的所有分頁(yè)下載下來(lái),而同一產(chǎn)品不同的頁(yè)面的URL地址差不多相似,URL的部分內(nèi)容體現(xiàn)了分頁(yè)的信息。以京東網(wǎng)某產(chǎn)品的評(píng)論頁(yè)面的URL為例,“/review/208158-1-7-0.html ”其中的數(shù)字7表示當(dāng)前頁(yè)為第7頁(yè),為了方便程序自動(dòng)下載全部的網(wǎng)頁(yè),本文采納了“/ review/208158-1-(*)-0.html”的URL規(guī)則,其中的(*)代表頁(yè)面的當(dāng)前分頁(yè),如總頁(yè)數(shù)20頁(yè),則(*)確實(shí)是1到20。在程序中就能夠編寫(xiě)循環(huán)語(yǔ)句進(jìn)行所有產(chǎn)品相關(guān)的評(píng)論頁(yè)面的下載。系統(tǒng)為了方便用戶(hù)定制下載評(píng)論,提供了評(píng)論下載定制功能,同意用戶(hù)指定產(chǎn)品評(píng)論頁(yè)面,指定抽取結(jié)點(diǎn)的規(guī)則,將所有下載的規(guī)

35、則存入數(shù)據(jù)庫(kù)表5.7中。 表5.7產(chǎn)品評(píng)論抽取規(guī)則表Table 5.7 The Table of Product Review Extract Rule 字段名稱(chēng)類(lèi)型長(zhǎng)度講明rule_idint4規(guī)則IDproduct_type_idint4評(píng)論所屬產(chǎn)品類(lèi)型url_pathvarchar50評(píng)論頁(yè)面URL規(guī)則page_numberint4分頁(yè)數(shù)目xpath_pros_nodevarchar200評(píng)論內(nèi)容中優(yōu)點(diǎn)XPath路徑規(guī)則xpath_cons_nodevarchar200評(píng)論內(nèi)容中缺點(diǎn)XPath路徑規(guī)則xpath_free_nodevarchar200評(píng)論內(nèi)容中總評(píng)XPath路徑規(guī)則xpa

36、th_comment_timevarchar200評(píng)論發(fā)表時(shí)刻XPath路徑規(guī)則xpath_comment_uservarchar200評(píng)論發(fā)表用戶(hù)名XPath路徑規(guī)則review_numberint4頁(yè)面評(píng)論的數(shù)量site_fromvarchar50評(píng)論網(wǎng)站名稱(chēng),如京東網(wǎng)review_typevarchar50評(píng)論類(lèi)型add_timebigint20規(guī)則添加時(shí)刻讀取規(guī)則表中的用戶(hù)新增的規(guī)則,即可完成評(píng)論頁(yè)面的下載,為了方便治理,系統(tǒng)將下載的產(chǎn)品評(píng)論頁(yè)面按產(chǎn)品類(lèi)型結(jié)構(gòu)存入指定文件目錄中,目錄結(jié)構(gòu)為:產(chǎn)品類(lèi)型品牌具體型號(hào)評(píng)論來(lái)源網(wǎng)站,文件名稱(chēng)為當(dāng)前的URL路徑,如:筆記本聯(lián)想(Thinkpad)

37、SL400(2743- GZC)京東網(wǎng)。評(píng)論內(nèi)容抽取在得到評(píng)論的原始頁(yè)面之后,接下來(lái)就需要將評(píng)論內(nèi)容進(jìn)行提取。網(wǎng)頁(yè)大部分以HTML形式存在,HTML(HyperText Mark-up Language)即超文本標(biāo)記語(yǔ)言或超文本鏈接標(biāo)示語(yǔ)言,是目前網(wǎng)絡(luò)上應(yīng)用最為廣泛的語(yǔ)言,也是構(gòu)成網(wǎng)頁(yè)文檔的要緊語(yǔ)言。網(wǎng)頁(yè)上的HTML元素之間存在著層次結(jié)構(gòu)和嵌套關(guān)系,能夠依據(jù)這種關(guān)系生成一個(gè)樹(shù)狀結(jié)構(gòu)。用如此的樹(shù)描述網(wǎng)頁(yè),可達(dá)到網(wǎng)頁(yè)表示的目的。其中HTML標(biāo)簽為樹(shù)的根結(jié)點(diǎn),網(wǎng)頁(yè)上的不同信息處于不同的子樹(shù)中。 為了完成確定區(qū)域的內(nèi)容提取,也確實(shí)是本文實(shí)驗(yàn)需要的產(chǎn)品評(píng)論內(nèi)容,必須將HTML表示成易于計(jì)算機(jī)處理的形式,

38、本文稱(chēng)之為標(biāo)記樹(shù)。這通常是能夠依據(jù)網(wǎng)頁(yè)HTML代碼的標(biāo)記嵌套關(guān)系直接構(gòu)建標(biāo)記樹(shù)的,圖5.2顯示了這種轉(zhuǎn)化過(guò)程。圖5.2依據(jù)網(wǎng)頁(yè)的HTML代碼嵌套關(guān)系構(gòu)建標(biāo)記樹(shù)Figure.5.2 Tag tree built based on the nested tags of the HTML code 為了準(zhǔn)確的定位指定結(jié)點(diǎn),本文使用了XPath。XPath 是一門(mén)在 XML 文檔中查找信息的語(yǔ)言,可用來(lái)在 XML 文檔中對(duì)元素和屬性進(jìn)行遍歷。XPath 是 W3C XSLT 標(biāo)準(zhǔn)的要緊元素,同時(shí) XQuery 和 XPointer 同時(shí)被構(gòu)建于 XPath 表達(dá)之上。本文以京東網(wǎng)中的筆記本電腦Thin

39、kpad(2743-GZC)的評(píng)論頁(yè)面為例。圖5.3京東網(wǎng)評(píng)論頁(yè)面例子Figure.5.3 An Example of Jingdongs Product Review Page在Firefox掃瞄器下,通過(guò)安裝插件Firebug,能夠快速的定位HTML任何結(jié)點(diǎn),同時(shí)能夠計(jì)算出當(dāng)前結(jié)點(diǎn)的XPath路徑。系統(tǒng)只需要提取圖5.3中紅框里的內(nèi)容,為方便描述,本文分不進(jìn)行了編號(hào),表5.8是計(jì)算出的XPath路徑信息。表5.8 Xpath結(jié)點(diǎn)信息表Table 5.8 The Table of XPath node information編號(hào)XPath路徑1/html/body/form/div7/div

40、2/ul2/li2/div2/dl/dd2/html/body/form/div7/div2/ul2/li2/div2/dl2/dd3/html/body/form/div7/div2/ul2/li2/div2/dl3/dd4/html/body/form/div7/div3/div/p2/a一般的評(píng)論是以列表的形式展現(xiàn)。通過(guò)對(duì)標(biāo)簽樹(shù)結(jié)構(gòu)分析發(fā)覺(jué),它們的DOM表現(xiàn)形式差不多上一樣,即只有一組結(jié)點(diǎn)在循環(huán)展現(xiàn)。如圖5.3中編號(hào)為1的結(jié)點(diǎn),它的XPath為/html/body/form/div7/div2/ul2/li2/div2/dl/dd,其中以重復(fù)結(jié)點(diǎn).*,因此只要設(shè)定列表循環(huán)讀取/html/

41、body/form/div7/div2/ ul(*)/li2/div2/dl/dd,(*)為通配符。本頁(yè)面中的評(píng)論一頁(yè)顯示20條,因此(*)是從數(shù)字1到數(shù)字20。如此就能夠的獵取到所有結(jié)點(diǎn)的具體內(nèi)容,將所有評(píng)論內(nèi)容按指定格式存入評(píng)論的原始數(shù)據(jù)庫(kù)。數(shù)據(jù)表設(shè)計(jì)如表5.9所示。表5.9產(chǎn)品評(píng)論表Table 5.9 The Table of Product Reviews字段名稱(chēng)類(lèi)型長(zhǎng)度講明review_idint4評(píng)論IDrule_idint4對(duì)應(yīng)規(guī)則表中的IDpros_contentvarchar4000評(píng)論中優(yōu)點(diǎn)文本內(nèi)容cons_contentvarchar4000評(píng)論中缺點(diǎn)文本內(nèi)容free_c

42、ontentvarchar4000評(píng)論中自由評(píng)論的文本內(nèi)容review-timebigint20評(píng)論內(nèi)容review-user-varchar 100評(píng)論用戶(hù)名通過(guò)指定下載的URL,抽取的XPath規(guī)則并指定評(píng)論所屬產(chǎn)品型號(hào),就能夠?qū)崿F(xiàn)下載并抽取系統(tǒng)所需要的評(píng)論文本,用戶(hù)能夠通過(guò)評(píng)論治理功能,查看所有抓取的評(píng)論內(nèi)容。圖5.4產(chǎn)品評(píng)論查詢(xún)界面Figure.5.4 The Interface of Product Reviews Management圖5.4為抽取出的內(nèi)容在系統(tǒng)中的界面,用戶(hù)能夠查詢(xún)所有產(chǎn)品相關(guān)的產(chǎn)品評(píng)論。系統(tǒng)界面以表格的形式展現(xiàn),點(diǎn)擊表格的某行,在表格的下方顯示評(píng)論的詳細(xì)內(nèi)容。評(píng)

43、論意見(jiàn)挖掘整體褒貶分類(lèi)目前網(wǎng)上的評(píng)論格式要緊分為二種格式,格式(1):區(qū)分優(yōu)點(diǎn)和缺點(diǎn),用戶(hù)需要分不對(duì)優(yōu)點(diǎn)和缺點(diǎn)進(jìn)行描述。如京東網(wǎng),中關(guān)村在線(xiàn)等;格式(2):自由格式,沒(méi)有區(qū)分優(yōu)點(diǎn)和缺點(diǎn),用戶(hù)能夠?qū)Ξa(chǎn)品進(jìn)行自由的描述。如淘寶網(wǎng)等。那個(gè)地點(diǎn)系統(tǒng)只對(duì)格式(2)進(jìn)行整體褒貶分類(lèi)。在第三章中,本文對(duì)評(píng)論的褒貶分類(lèi)進(jìn)行了實(shí)驗(yàn),并取得了較高的分類(lèi)準(zhǔn)確率,實(shí)驗(yàn)表明基于后綴樹(shù)的特征提取方法獲得了相對(duì)較高的分類(lèi)性能。但由于在使用后綴樹(shù)分類(lèi)器時(shí),需要在訓(xùn)練分類(lèi)模型時(shí)加入測(cè)試語(yǔ)料,如此就需要在每次進(jìn)行分類(lèi)時(shí)重新建立分類(lèi)模型,需要耗費(fèi)較多的時(shí)刻??紤]到實(shí)際應(yīng)用的有用性,系統(tǒng)中沒(méi)有采納基于后綴樹(shù)的特征提取,而是采納傳統(tǒng)的

44、文本分類(lèi)的方法。經(jīng)實(shí)驗(yàn)發(fā)覺(jué)使用基于字的bigram特征提取方法結(jié)合使用基于詞頻的文本表示,在SVM分類(lèi)器下能夠取得最高的分類(lèi)性能,準(zhǔn)確率可達(dá)94.74%。那個(gè)地點(diǎn)本文應(yīng)用第三章構(gòu)建的分類(lèi)模型,對(duì)評(píng)論進(jìn)行整體褒貶分類(lèi)。并將分類(lèi)結(jié)果更新到產(chǎn)品意見(jiàn)庫(kù)中。表5.10產(chǎn)品評(píng)論整體意見(jiàn)結(jié)果表Table 5.10 The Table of Entire Opinion Result of Product Reviews字段名稱(chēng)類(lèi)型長(zhǎng)度講明entire_idint4IDreview_idint4評(píng)論IDentire_polaritybit1整體褒貶分類(lèi)結(jié)果0表示貶義,1表示褒義細(xì)顆粒評(píng)論分析在第四章中,本文論

45、述了評(píng)論細(xì)顆粒分析的內(nèi)容,介紹了構(gòu)建產(chǎn)品特征庫(kù)和極性詞典兩個(gè)基礎(chǔ)資源的方法。并實(shí)驗(yàn)分析了兩種意見(jiàn)挖掘方法,即基于依存句法的意見(jiàn)挖掘方法和基于關(guān)鍵字匹配的意見(jiàn)挖掘。實(shí)驗(yàn)表明基于關(guān)鍵字的方法,在產(chǎn)品評(píng)論中有較好的表現(xiàn),而且具有不需要依存句法分析過(guò)程、計(jì)算速度快等優(yōu)點(diǎn)。因此本系統(tǒng)采納這種方法進(jìn)行細(xì)顆粒的評(píng)論分析。系統(tǒng)對(duì)評(píng)論中有明顯情感意見(jiàn)表達(dá)的產(chǎn)品特征和極性詞關(guān)系對(duì)進(jìn)行抽取,并分不計(jì)算各個(gè)產(chǎn)品特征的極性方向。最后以產(chǎn)品特征為差不多單位,將所有分析結(jié)果存入細(xì)顆粒分析結(jié)果數(shù)據(jù)表中。將得到的所有評(píng)論進(jìn)行意見(jiàn)分析并得出結(jié)果后,我們就能夠進(jìn)行各種形式的統(tǒng)計(jì)展現(xiàn)。表5.11產(chǎn)品評(píng)論細(xì)顆粒結(jié)果表Table 5.1

46、1 The Table of Detailed Opinion Result of Product Reviews字段名稱(chēng)類(lèi)型長(zhǎng)度講明detail_result_idint4IDreview_idint4評(píng)論IDfeature_idint4產(chǎn)品特征詞IDpolarity_idint4特征詞IDpolarity_resultfloat4情感方向評(píng)論意見(jiàn)查詢(xún)?cè)u(píng)論分析是本系統(tǒng)的核心功能,用戶(hù)將通過(guò)搜索指定產(chǎn)品的品牌、型號(hào)來(lái)得到其他用戶(hù)對(duì)該產(chǎn)品的詳細(xì)評(píng)價(jià),包括對(duì)產(chǎn)品的整體褒貶和對(duì)產(chǎn)品的細(xì)顆粒分析。用戶(hù)不僅能夠從一種產(chǎn)品的評(píng)論中獲得有價(jià)值的信息,還能夠?qū)Χ鄠€(gè)同類(lèi)產(chǎn)品進(jìn)行比較,為購(gòu)買(mǎi)到最優(yōu)產(chǎn)品做參考。產(chǎn)品

47、意見(jiàn)查詢(xún)產(chǎn)品意見(jiàn)查詢(xún),即從系統(tǒng)庫(kù)中搜索產(chǎn)品評(píng)論并獲得意見(jiàn)分析結(jié)果。在我們的系統(tǒng)庫(kù)中,通過(guò)上述評(píng)論采集、文本清洗、意見(jiàn)抽取等后端處理過(guò)程,能夠存放多個(gè)產(chǎn)品的意見(jiàn)庫(kù)。用戶(hù)只要依照需要,選擇感興趣的某種產(chǎn)品的名稱(chēng)(或產(chǎn)品型號(hào)),即可得到關(guān)于該產(chǎn)品的評(píng)論分析結(jié)果。界面左側(cè)部分為系統(tǒng)的菜單,點(diǎn)擊“產(chǎn)品意見(jiàn)查詢(xún)”菜單,界面的右側(cè)將出現(xiàn)相應(yīng)的功能界面。圖5.5意見(jiàn)查詢(xún)界面Figure.5.5 The Interface of Product Opinion Query如圖5.5,在查詢(xún)條件的表單中,選擇產(chǎn)品類(lèi)型為手機(jī),品牌為諾基亞,型號(hào)為N70,點(diǎn)擊查看產(chǎn)品分析結(jié)果按鈕,在頁(yè)面的下半部分將顯示出分析結(jié)果。分

48、析結(jié)果分為兩部分:評(píng)論整體褒貶分析結(jié)果和評(píng)論細(xì)顆粒分析結(jié)果。整體褒貶分析結(jié)果中顯示了褒貶的比重,藍(lán)色表示褒義,紅色表示貶義。從圖5.5能夠清晰地看出86.67%的評(píng)論對(duì)當(dāng)前產(chǎn)品表達(dá)了確信的意思。細(xì)顆粒分析結(jié)果在板塊的左側(cè),以樹(shù)型菜單的形式,列出了所有評(píng)論中所涉及的產(chǎn)品特征,用戶(hù)能夠勾選感興趣的產(chǎn)品特征,點(diǎn)擊“顯示所選特征分析結(jié)果”按鈕,右側(cè)將顯示指定特征的分析結(jié)果,從圖5.5的柱狀圖能夠看出,當(dāng)前的評(píng)論對(duì)性?xún)r(jià)比的評(píng)價(jià)專(zhuān)門(mén)高,對(duì)電池的評(píng)論相對(duì)較低。其中要講明的是,為了方便圖表的展現(xiàn),系統(tǒng)要緊計(jì)算褒貶觀(guān)點(diǎn)分不所占的百分比。產(chǎn)品意見(jiàn)比較查詢(xún)?cè)谟脩?hù)選擇購(gòu)買(mǎi)商品的過(guò)程中,往往有比較多種同類(lèi)商品的過(guò)程。同

49、樣,通過(guò)評(píng)論分析了解了一種產(chǎn)品的優(yōu)劣,還需要了解其他產(chǎn)品的優(yōu)劣,同時(shí)通過(guò)比較,得知誰(shuí)更有優(yōu)勢(shì),更受用戶(hù)好評(píng)。而多產(chǎn)品評(píng)論比較分析功能則滿(mǎn)足了用戶(hù)的這種需求。圖5.6多產(chǎn)品意見(jiàn)查詢(xún)界面Figure.5.6 The Interface of Multiple Product Opinion Query用戶(hù)能夠在查詢(xún)條件中,添加多個(gè)產(chǎn)品,查看多個(gè)產(chǎn)品之間分析比較結(jié)果。值的注意的是,那個(gè)地點(diǎn)要求是同類(lèi)型的產(chǎn)品才能夠進(jìn)行比較分析。通過(guò)柱形圖,能夠?qū)iT(mén)明顯的看出不同產(chǎn)品在不同特征上的表現(xiàn),這對(duì)用戶(hù)深入了解產(chǎn)品提供了專(zhuān)門(mén)大的關(guān)心。文本評(píng)論分析查詢(xún)文本評(píng)論分析,即用戶(hù)自主輸入文本評(píng)論,系統(tǒng)將對(duì)其進(jìn)行分析。那個(gè)

50、地點(diǎn)提供了一個(gè)便捷的評(píng)論分析器,用戶(hù)能夠?qū)⒃诨ヂ?lián)網(wǎng)上看到的任何評(píng)論,通過(guò)該評(píng)論分析器分析,不再需要將每條評(píng)論都閱讀完畢,即可得出一些圖形化的直觀(guān)的結(jié)論,方便快捷,讓用戶(hù)在眾多的文字中解放出來(lái)。意見(jiàn)結(jié)果的展現(xiàn)同上面兩個(gè)查詢(xún)功能,不同的是將選擇產(chǎn)品的下拉框換成了文本輸入框。本章小結(jié)本章論述了產(chǎn)品評(píng)論意見(jiàn)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),分不介紹了系統(tǒng)的整體設(shè)計(jì)、系統(tǒng)的開(kāi)發(fā)環(huán)境和要緊模塊的詳細(xì)功能。該系統(tǒng)能夠自動(dòng)抓取指定的評(píng)論頁(yè)面并抽取評(píng)論內(nèi)容,可從整體和細(xì)顆粒兩個(gè)層面對(duì)產(chǎn)品評(píng)論進(jìn)行意見(jiàn)分析,并將意見(jiàn)分析結(jié)果存入產(chǎn)品意見(jiàn)庫(kù)中,提供可視化的界面供用戶(hù)進(jìn)行操作,查看系統(tǒng)的意見(jiàn)分析結(jié)果??偨Y(jié)本章總結(jié)了本文的工作,并指

51、出了本文算法中尚存在的不足之處,為進(jìn)一步的改進(jìn)工作指明了方向研究工作總結(jié)近年來(lái),網(wǎng)絡(luò)上的產(chǎn)品評(píng)論正以驚人的速度增長(zhǎng),這類(lèi)文本在一定程度上體現(xiàn)了人們對(duì)產(chǎn)品的主觀(guān)態(tài)度,表現(xiàn)出鮮亮的褒貶極性。本文選擇中文產(chǎn)品評(píng)論為要緊研究對(duì)象,進(jìn)行情感分析和意見(jiàn)挖掘,從兩個(gè)層面對(duì)產(chǎn)品評(píng)論進(jìn)行分析,要緊分為評(píng)論的整體情感分類(lèi)和細(xì)顆粒的產(chǎn)品意見(jiàn)抽取。采納機(jī)器學(xué)習(xí)的方法對(duì)產(chǎn)品評(píng)論進(jìn)行整體褒貶自動(dòng)分類(lèi)研究,構(gòu)建用于產(chǎn)品評(píng)論褒貶分類(lèi)的語(yǔ)料庫(kù);采納基于N-Gram文本特征的表示(分為基于詞的 unigram,bigram;基于字的unigram,bigram,trigram)、不同的特征加權(quán)方法(TF,BOOL,TFIDF三種

52、特征)、不同的分類(lèi)算法(樸素貝葉斯、最大熵和支持向量機(jī)三種分類(lèi)算法)進(jìn)行分類(lèi)實(shí)驗(yàn)。從整體的分類(lèi)性能來(lái)看,在特征表示上,排列順序如下:CBB WBB WBU CBU CBT;在特征加權(quán)方法上,排列順序如下:TF BOOL TFID;分類(lèi)器的排列順序如下:SVM ME NB。其中使用基于字的unigram特征提取方法、基于詞頻的文本表示在SVM分類(lèi)器下取得了最高的分類(lèi)性能,準(zhǔn)確率為94.74%。本文實(shí)現(xiàn)了基于后綴樹(shù)結(jié)構(gòu)的特征提取算法,提取關(guān)鍵子串組作為文本特征。實(shí)驗(yàn)表明基于后綴樹(shù)的關(guān)鍵子串組的特征表現(xiàn)能力強(qiáng)而且特征維度低,分類(lèi)的準(zhǔn)確率高于基于N-Gram特征抽取的分類(lèi)效果。只是為了覆蓋未見(jiàn)測(cè)試集的

53、字符串模式,需要在構(gòu)建后綴樹(shù)的任務(wù)中,添加未標(biāo)注的語(yǔ)料。設(shè)計(jì)并實(shí)現(xiàn)了基于依存句法分析的細(xì)顆粒意見(jiàn)挖掘算法和關(guān)鍵字匹配的細(xì)顆粒意見(jiàn)挖掘算法,并構(gòu)建產(chǎn)品特征庫(kù)和中文極性詞典。實(shí)驗(yàn)表明中文極性詞典的構(gòu)建和產(chǎn)品特征詞庫(kù)的構(gòu)建關(guān)于細(xì)顆粒的意見(jiàn)挖掘是專(zhuān)門(mén)有必要的,同時(shí)由于依存句法的意見(jiàn)挖掘方法對(duì)句法分析的依靠過(guò)重,導(dǎo)致分析準(zhǔn)確率不理想,與基于關(guān)鍵字匹配的意見(jiàn)挖掘方法相比之下,分析性能要好于依存句法的方法。最后,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)產(chǎn)品評(píng)論意見(jiàn)挖掘系統(tǒng)原型,該系統(tǒng)能夠自動(dòng)抓取指定的評(píng)論頁(yè)面并抽取評(píng)論內(nèi)容,可從整體和細(xì)顆粒兩個(gè)層面對(duì)產(chǎn)品評(píng)論進(jìn)行意見(jiàn)挖掘,并將意見(jiàn)分析結(jié)果存入產(chǎn)品意見(jiàn)庫(kù)中,提供可視化的統(tǒng)計(jì)展現(xiàn)。通過(guò)

54、系統(tǒng)能夠方便用戶(hù)進(jìn)行產(chǎn)品評(píng)論意見(jiàn)挖掘相關(guān)操作。進(jìn)一步工作當(dāng)前對(duì)產(chǎn)品評(píng)論挖掘的研究差不多取得了一些成果,然而離成熟和完善仍有專(zhuān)門(mén)長(zhǎng)的距離,下一步我將致力以下幾個(gè)方面的研究:1、中文產(chǎn)品評(píng)論語(yǔ)料庫(kù)的完善。作為一個(gè)新興的研究領(lǐng)域,目前還沒(méi)有一個(gè)公開(kāi)的、標(biāo)準(zhǔn)的語(yǔ)料庫(kù),便于后來(lái)者能夠在這些基礎(chǔ)之上進(jìn)行對(duì)產(chǎn)品評(píng)論的深入挖掘和研究。評(píng)論語(yǔ)料庫(kù)還要考慮到領(lǐng)域內(nèi)資料的完整性,應(yīng)該包括那個(gè)領(lǐng)域中用戶(hù)關(guān)懷的大部分內(nèi)容,需要從不同的網(wǎng)站、不同的板塊中去抓取數(shù)據(jù)、分析內(nèi)容,獵取用戶(hù)真正的產(chǎn)品體驗(yàn)。還需要能獵取網(wǎng)上實(shí)時(shí)更新的評(píng)論數(shù)據(jù),既要有新產(chǎn)品的評(píng)論出現(xiàn),同樣也要跟蹤產(chǎn)品在使用過(guò)程中的質(zhì)量變化情況。2、進(jìn)一步挖掘適用于

55、文本情感分類(lèi)的文本特征,提取出有較強(qiáng)表現(xiàn)能力的文本特征,嘗試結(jié)合中文語(yǔ)言的更多的語(yǔ)義相關(guān)的特征。3、增強(qiáng)對(duì)更加復(fù)雜評(píng)論的處理能力。由于中文語(yǔ)言的表達(dá)方式多樣化如比喻、附和、諷刺、正話(huà)反講等,句式的復(fù)雜性如比較型句子、各種不同的適應(yīng)用語(yǔ)、句式的不同搭配等,因此評(píng)論的挖掘工作還有專(zhuān)門(mén)長(zhǎng)的路要走。參考文獻(xiàn)Han JW, Kambr M. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers. 2002.韓家煒, 孟小峰, 王靜. Web挖掘研究. 計(jì)算機(jī)研究與進(jìn)展. 2001. 4. 405-414.Appelt DE, I

56、srael DJ. Introduction to Information Extraction Technology. A Communications. 1999. Hu M, Liu B. Mining Opinion Features in Customer Reviews. Proceedings of 19th National Conference on Artificial Intelligence (AAAI-2004). 2004.Pang B, Lee L, Vaithyanathan S: Thumbs up? Sentiment Classification usin

57、g Machine Learning Techniques. In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing, University of Pennsylvania. 2002.Pang B, Lee L. A sentimental education: sentiment analysis using subjectivity summarization based on minimum cuts. In Proc. of the 42nd Meeting o

58、f the Assocication for Computation Languages. 2004. 271-278.Goldberg AB, Zhu X. Seeing stars when there arent many stars: Graph-based semi-supervised learning for sentiment categorization. In Proc. of HLT-NAACL 2006 Workshop on Textgraphs: Graph-based Algorithms for Natural Language Processing. 2006

59、. 45-52.NI X, Xue G, Ling X. Exploring in the Weblog space by detecting informative and affective articles. In Proc. of the 16th Int. Conf. on World Wide Web. 2007. 281-290.Whitelaw C, Garg N, Argamon S. Using appraisal groups for sentiment analysis. In Proc. of the 14th ACM Int. Conf. on Informatio

60、n and Knowledge Management. 2005. 625-631.Bruce R, Wiebe J. Recognizing subjectivity: a case study in manual tagging. Natural Language Engineering. 1999. 5(2). 1-16.Wiebe J, Riloff E. Greating subjective and objective sentence classifiers from unannotated texts. In Proc. of the 6th Int. Conf. on Com

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論