基于改進情感詞域識別的輿情情感分析研究_第1頁
基于改進情感詞域識別的輿情情感分析研究_第2頁
基于改進情感詞域識別的輿情情感分析研究_第3頁
基于改進情感詞域識別的輿情情感分析研究_第4頁
基于改進情感詞域識別的輿情情感分析研究_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第第頁基于改進情感詞域識別的輿情情感分析研究摘要網絡作為人們發(fā)表其觀點和看法的新載體早已成為一個重要的情感抒發(fā)與交流平臺。對網絡中人們所發(fā)表的文章、言論進行分析,其中不僅限于包括觀點及情感分析,對于有效掌握輿論話題情報、研究網民心里以及預測話題走向就有著重要幫助。本文探討了目前關于輿情文本情感分析技術現(xiàn)狀,使用一種根據情感詞識別的優(yōu)化方法,利用情感詞修飾域的判別同時結合語法分析,以提高對于文本情感傾向分析的準確性。

【關鍵詞】輿情分析情感詞識別語法分析

1情感分析算法現(xiàn)狀

情感分析,又叫做文本情感傾向性分析,即對文本進行在情感上的分析,分析其屬于“正面”、“負面”或是“中性”態(tài)度。對于中文文本的情感傾向性分析大體可以分為兩類方向:一是基于機器學習的方法,二是基于詞典識別的方法。本文在現(xiàn)有基于情感詞典方法的基礎上,引入對中文語言的語法分析,將文本從整體拆分為個體,即將文本視為各個單句的集合。在每一單句中,首先通過情感詞庫識別出語句中的情感詞,結合語法分析樹將語句中情感詞的前后修飾域確定,后計算出整個情感域的情感分值,最后通過加權平均的方法,得出語句的情感分值,最后計算出通篇文本的情感強度,最終確定文本的情感傾向。

2情感詞庫的構建

情感詞識別的方法首先要依靠情感詞典,情感詞典是進行情感傾向分析的基礎,情感詞典的質量直接影響著情感分析的效果。目前國內用于研究的中文情感詞典資源包括如《知網》(HowNet),其以漢語和英語詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內容的常識知識庫。2007年10月22日,《知網》官網發(fā)布了“情感分析用詞語集(beta版)”,共有12個文件,包含17887個詞語。其中“中文情感分析用詞語集”和“英文情感分析用詞語集”各6個文件,中文詞9193個,為中文情感傾向性分析奠定了基礎。該詞語集最大的特點是將褒、貶兩類細化為了“正面情感詞”、“負面情感詞”、“正面評價詞”、“負面評價詞”、“主張詞”及“程度詞”。

其它的還有臺灣大學自然語言處理實驗室總結出的中文情感詞典NTUSD,以及大連理工大學整理出的中文情感詞典等資源。

本改進分析方法中的情感詞庫的建立,以知網Hownet提供的情感詞集為主,結合網絡與社會中出現(xiàn)的新詞匯,進行去重與人工標注,人工標注則需要對情感詞典中情感詞強度進行量化,具體方法是根據Hownet知網提供的情感詞集選取若干情感義原作為情感詞典的基準詞集,通過各情感詞與情感基準詞集進行詞語相似度計算,得出情感詞的強度(分值)。情感強度為一個正負區(qū)間[-1,1],若強度為負,則該情感詞表達的是負面消極的傾向,反之若某詞的強度為正,則其表達的是正面積極的傾向,而數(shù)值大小則代表了其傾向的強度大小,若強度為0,則說明該詞為中性詞。根據語義相似度計算公式,則有情感強度公式計算出某詞語word的情感強度O(word),如式2.1:

式中,N代表正向情感基準詞集中詞語數(shù)量,M代表負向情感基準詞集中詞語數(shù)量,而Pos、Neg分別代表了正向、負向情感基準詞集。

3語義情感傾向計算

構建完善的情感詞庫之后,便可以進行對文本的情感傾向分析及強度計算。一般情感詞識別的方法,僅僅是根據情感詞庫對識別文本中的情感詞匯進行識別,僅以“詞”作為情感傾向的主要因素,而忽略了“域”的概念。文本中的情感詞在其它修飾詞的作用下,與其他詞聯(lián)合形成了“情感修飾域”。而具體輿情情感分析具體算法邏輯如下:

輸入中文輿情文本S,則有O(S)為文本的情感強度。

步驟1.輸入文本S,對S進行分詞及詞性標注。

步驟2.遍歷分此后所得詞集合,查找連詞與標點,將搜索結果按照標點劃分為語句的子句詞集SS={s1,s2,…,sn},sn表示S經分詞后拆分所得的各子句。

步驟3.對于每個子句詞集sn,獲取各子句中情感詞,并根據設定好的基準情感詞集,根據Hownet提供的語義相似度計算方法計算語義相似度,并以此作為識別道到的情感詞的情感分值O(w)。

步驟4.對于每個情感詞w,利用語法分析,分析出詞w在句中成分。

步驟5.利用語法分析,按順序抽取用于修飾該情感詞w的修飾詞,包括例如形容詞、程度副詞、否定詞以及短語等,以此建立對于某一情感詞的修飾域D(w)。

步驟6.由各個修飾域D(w)中所有修飾詞共同作用,對該域內的情感詞w的情感強度進行修正。

步驟7.根據識別到的連詞,對其所對應的子句進行系數(shù)修正,在同一連詞影響下的各情感域會進行相同的系數(shù)調整。

步驟8.檢測正常語句結尾符號是否為情感符號,若為情感符號,則對修飾域做符號系數(shù)修正。

步驟9.將子句詞集SS中各子句的情感強度進行加權平均處理,輸出最后的文本S的情感分值。

步驟10.根據分值對文本S的情感進行傾向和強度的判斷,所得分值的符號決定情感傾向,所得分值的數(shù)值決定情感強度。

4小結

本文將對文本基于情感詞識別的方法進行優(yōu)化,在綜合考慮了程度副詞、否定詞以及情感符號對于文本中情感詞的影響時,通過添加對文中語句的語法分析,建立以情感詞為主的修飾域,對各修飾域進行關于相關因素的情感強度修正,以達到輿情文本情感傾向分析的精確化,從實驗也可以看出此種方法比較有效,對于輿情監(jiān)測、輿情分析系統(tǒng)是具有使用價值的。但是基于詞典的方法還有很多可以值得深入研究的地方,相信還有更多拓展的空間。

參考文獻

[1]魏|,向陽,陳千.中文文本情感分析綜述[J].計算機應用,2011,12:3321-3323.

[2]朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德.基于HowNet的詞匯語義傾向計算[J].中文信息學報,2006,01:14-20.

[3]陳錦禾,范新,沈聞,沈潔.基于情感詞識別的BBS情感分類研究[J].計算機技術與發(fā)展,2009,07:120-123.

[4]柳位平,朱艷輝

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論