文本觀點挖掘和情感分析的研究_第1頁
文本觀點挖掘和情感分析的研究_第2頁
文本觀點挖掘和情感分析的研究_第3頁
文本觀點挖掘和情感分析的研究_第4頁
文本觀點挖掘和情感分析的研究_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、    文本觀點挖掘和情感分析的研究    涂慧明摘要:觀點挖掘和情感分析是分析用戶觀點,反饋,情感,評估,態(tài)度和個人情感的一個研究領(lǐng)域。這是自然語言處理中最活躍的一個研究領(lǐng)域,在數(shù)據(jù)挖掘,web挖掘和文本挖掘領(lǐng)域中同樣也被廣泛研究。隨著社交媒體、web2.0技術(shù)(如新聞、論壇、博客、微博和社交網(wǎng)絡)的發(fā)展,情感分析的重要性相應增長。首次在人類歷史上,我們有了大量的數(shù)字形式的觀點意見需要進行分析。在本文中,我們對文本觀點挖掘、情感分析以及相關(guān)技術(shù)進行了研究。關(guān)鍵詞:觀點抽?。挥^點挖掘;情感分析;文本挖掘:tp311 :a :1009-3044(2016)

2、05-0235-03abstract: opinion mining and sentiment analysis is the field to analyzes the user point of view, feedback, emotion, sentiment, evaluations, attitudes, and emotions. this is one of the most active research areas in natural language processing. data mining, web mining and text mining have al

3、so been widely studied. with the development of social media, web2.0 technology (such as news, forum, blog, micro-blog and social network), the importance of sentiment analysis growth. for the first time in human history, we have to analyze a large number of opinions in digital form. in this paper,

4、we research on text opinion mining, sentiment analysis and related technology.key words: opinion extraction; opinion mining;sentiment analysis;text mining1 概述在過去的十五年里,作為情感計算和自然語言處理(nlp)的子任務,關(guān)于主觀性和情感分析(ssa)的自動化處理研究已經(jīng)有了蓬勃的發(fā)展。社交網(wǎng)絡的誕生并飛速發(fā)展使得在世界各地的人們可以隨時分享、評論或討論任何話題成為了可能。在這種情況下,社會媒體文本中表達的意見、情緒和情感已被證明是有一個

5、對全球社會和經(jīng)濟具有較高影響力的行為。ssa系統(tǒng)對許多現(xiàn)實世界的應用高度相關(guān)(如市場營銷,電子管理,商業(yè)智能,社會分析),并在自然語言處理(nlp)的許多領(lǐng)域,例如信息抽取、問答、文本含義等。近十年來,已經(jīng)有大量的相關(guān)研究方法和成果,以及由這項技術(shù)創(chuàng)建的應用,這些都足以證明這一領(lǐng)域的重要性。盡管已經(jīng)有大量的資源和方法去處理情感分析1,但ssa依然是一個亟待解決的問題。2 情感分析研究的難點情感分析文本可以看作是積極的,消極的或者其他客觀的分類,因此它能夠作為文本分類任務。由于文本有很多不同主題,因此它也可以被分為多種種類,但是情感分析只有三種分類。然而,有很多因素使得情感分析比傳統(tǒng)的文本分類要

6、難的多。1)域依賴:觀點挖掘和情感分析2面臨的最大的挑戰(zhàn)是情感詞的從屬域的性質(zhì)。一個特征集可能在一個領(lǐng)域會有很好的性能,同時它在其他一些領(lǐng)域性能又非常差。2)限制分類過濾:在決定最受歡迎的想法或概念時,分類過濾中有一個限制。為了得到更好的情感分類結(jié)果這個限制應該減少。這存在過濾器給無關(guān)的意見的風險并且它能夠?qū)е虑楦蟹诸惖呐袛噱e誤。3)觀點挖掘軟件可用性不對稱:觀點挖掘軟件非常昂貴,并且當前只有大型企業(yè)和政府能夠負擔得起。它超出了普遍公民的預期,這本應該是所有小到中型企業(yè)都可以承受的價格,這樣才能讓每個人都能從中受益。4)合并隱式觀點和行為數(shù)據(jù):對于成功的情感分析,觀點詞應該和隱式數(shù)據(jù)結(jié)合。隱式

7、數(shù)據(jù)決定情感詞的真實行為。5)自然語言處理限制:自然語言處理技術(shù)在處理一些模棱兩可的句子時結(jié)果往往不準確。這些也給情感分析造成阻礙。3 情感分析技術(shù)研究3.1 文章級別的情感分類這種方法將整個文檔作為一個單一的實體,將情感分為積極或消極的或中性的。文章級別的情感分類3假定文章對單一目標表達一個單一的情感,這個情感歸屬于某個人或某個產(chǎn)品或某個服務。很顯然,這種假設(shè)在一個產(chǎn)品說明文檔中才成立。但是在論壇或者博客等中,對比的語句就會出現(xiàn),評論者對比兩個產(chǎn)品有類似的特征。因此,文章級別的情感分析在論壇和博客中是不可取的。文章級別的情感分類主要有兩種分類技術(shù):有監(jiān)督學習和無監(jiān)督學習。3.1.1 有監(jiān)督學

8、習方法情感分類作業(yè)可以被配置為有兩個類別的有監(jiān)督學習,積極的類別和消極的類別。產(chǎn)品評論大多被用作訓練和測試數(shù)據(jù)。分別對每一條評論進行1至5分的評分,評分決定了他們是積極的類別還是消極的類別。例如,4分或者5分的評價就認定為一個積極的評價,1分或2分就認定為一個消極的評價。大多數(shù)研究論文為了簡便沒有使用中性分類,我們把3分的評價認定為一個中性的評價。現(xiàn)有的一些有監(jiān)督學習技術(shù)都可以用于情感分類,例如樸素貝葉斯和支持向量機(svm)。在大多數(shù)情況下,支持向量機比樸素貝葉斯分類器有更好的邊際改善。當訓練數(shù)據(jù)集很小,樸素貝葉斯分類可能更合適,因為支持向量機需要大量的數(shù)據(jù)集才能建立高可靠的分類器。研究人員

9、在機器學習中使用了許多技術(shù)和特征,在情感分類中最重要的步驟是選擇一個適當?shù)奶卣骷楦蟹诸愔凶畛S玫奶卣饔校?1)術(shù)語及其頻率:單個的詞被稱為一元模型以及包含相應詞頻的多元模型。這些特征已經(jīng)被證明對情感分類非常有效。2)詞性(pos):pos信息是情緒表達的一個非常重要的指標。例如形容詞包含大量關(guān)于文章情感的信息。3)情感詞和短語:情感詞和短語表達積極或消極的情感。例如優(yōu)秀的、聰明的、出色的是積極情感詞匯,糟糕的、枯燥的、不好的是消極情感詞匯。雖然大多數(shù)情感詞匯都是形容詞或副詞,但名詞和動詞同樣也可以表達觀點。例如在一些文章中垃圾、喜歡、討厭等都可以表達觀點。4)否定詞:顯然,否定詞是評價一個

10、句子的極性非常重要,因為他們可以改變情感傾向。例如,“我不喜歡這輛車”就有消極的意思。在此方法研究中,本文使用了三種機器學習技術(shù),樸素貝葉斯、最大熵分類和svm技術(shù)對影評文章進行分類。測試了多種特征(一元模型、二元模型、pos、詞語的位置)去尋找最優(yōu)特征集。結(jié)果表明,在svm分類器中使用一元模型性能達到最佳。有監(jiān)督學習最大的限制在于訓練數(shù)據(jù)的質(zhì)量和數(shù)量,當訓練數(shù)據(jù)存在偏頗或不充分結(jié)果可能會失敗?;谟斜O(jiān)督學習的子文檔的情感分類難度更大,因為可用的信息量比較少。3.1.2 無監(jiān)督學習方法顯然,情感詞和短語是情感分類的主要指標。一些研究已經(jīng)實現(xiàn)了利用這些情感詞和短語的無監(jiān)督學習方法的情感分類。文章

11、4提出了一個簡單無監(jiān)督學習算法對評論進行分類,通過計算詞語的評分來判斷詞語是積極的還是消極的以及情感強度。這種方法掃描整個短文匹配pos模式,計算出這些短語的情感傾向,然后統(tǒng)計所有短語從而得出整體的傾向??傊恼录墑e的情感分類最大的好處在于提取一個主題或事件的主要觀點。不過,他并不能提供人們的詳細情感。3.2 句子級別的情感分類在這種方法中,每個句子的極性被確定。這種方法假設(shè)每個句子是由一個人寫的,并表示一個單一的正面或負面的情緒。這種方法主要分為兩個步驟。第一,判斷哪些句子具有主觀意見。第二,對每個句子進行分類,判斷是積極的還是消極的。這種方法存在的困難在于,一些客觀語句隱含了情感,一些主

12、題語句卻不包含情感,或者一句話包含多種情感。3.2.1 情感詞庫構(gòu)建情感詞在許多情感分類任務中使用。根據(jù)他們的傾向,情感詞通常被分為兩類,積極的和消極的。構(gòu)建情感詞庫主要有三種方法:手動構(gòu)建、基于語料庫5的構(gòu)建方法和基于字典的構(gòu)建方法。手動構(gòu)建方法難度較大,并且耗時比較長,常常與其他兩種方法結(jié)合起來使用。3.2.2 基于語料庫的方法使用一個已知極性的情感詞種子集合,利用語法模式或共生模式,以推斷一個新的更大的情感詞庫?;谡Z料庫的方法可以產(chǎn)生一個精度相對較高的語料庫。大多數(shù)這些方法需要非常大的已標記的訓練數(shù)據(jù),以實現(xiàn)其完整的功能。3.2.3 基于字典的方法基于字典的方法,情感詞匯建設(shè)不需要大型

13、語料庫或搜索引擎具有特殊功能。相反,可以利用可用資源wordnet詞典。這個方法的主要策略是收集情感詞匯的初始種子集,然后在字典中尋找近義詞和反義詞來擴展種子集,這個新的種子集再用來迭代生成新的種子集合?;谧值涞姆椒ㄖ饕秉c是在特殊領(lǐng)域很難找到相應的情感詞匯,同一個情感詞在某個領(lǐng)域可能表達積極情感,在另一個領(lǐng)域則表達消極情感。4 情感分類評估準確度是所有正確預測的實例和所有實例的比值,準確度為100%表示全部預測正確。精度是正確預測的積極實例和所有預測的積極實例的比值。命中率是正確預測的積極實例和所有積極實例的比值。最終得分是精度和命中率的調(diào)和平均數(shù)。5 結(jié)語本文對不同級別(如文章級別、句子

14、級別)的情感分類問題進行了研究,并對現(xiàn)有的一些方法和技術(shù)做了分析和總結(jié)。目前一些觀點挖掘技術(shù)已經(jīng)被用于解決這類實際問題。例如,觀點挖掘能夠幫助企業(yè)了解用戶對于他們產(chǎn)品的看法。公司可以基于用戶對產(chǎn)品的反饋信息做決策。公司也能夠修改他們產(chǎn)品的特性并且根據(jù)用戶意見以更好更快的方式引出新的產(chǎn)品。公司通過更加準確提供用戶想要的,而不是公司想出售的,以此提高用戶體驗。幫助公司發(fā)現(xiàn),吸引和留住顧客,節(jié)省生產(chǎn)成本。在今后的工作中,更多的研究將集中在改善方法和性能指標。參考文獻:1 周立柱, 賀宇凱, 王建勇.情感分析研究綜述j. 計算機應用,2008,28(11):2725-2728.2 楊卉. web文本觀點挖掘及隱含情感傾向的研究d. 吉林大學, 2011.3 張冬梅. 文本情感分類及觀點摘要關(guān)鍵問題研究d. 山東大學, 2012.4 p. d. turney, "thumbs up or thumbs down: semantic orientation applied to unsuper

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論