《基于互聯(lián)網(wǎng)+大數(shù)據(jù)的輿情分析》課件-第5章_第1頁
《基于互聯(lián)網(wǎng)+大數(shù)據(jù)的輿情分析》課件-第5章_第2頁
《基于互聯(lián)網(wǎng)+大數(shù)據(jù)的輿情分析》課件-第5章_第3頁
《基于互聯(lián)網(wǎng)+大數(shù)據(jù)的輿情分析》課件-第5章_第4頁
《基于互聯(lián)網(wǎng)+大數(shù)據(jù)的輿情分析》課件-第5章_第5頁
已閱讀5頁,還剩40頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第5章基于社會熱點事件的用戶情感挖掘與傾向性分析5.1情感可視化5.2情感極性強度和類型統(tǒng)計5.3情感時序變化分析

5.1情感可視化

5.1.1情感可視化的方法與步驟

信息可視化技術(shù)能夠?qū)?shù)據(jù)以直觀的形式展示出來,以往的數(shù)據(jù)可視化主要針對數(shù)值型數(shù)據(jù),通過曲線或直方圖等形式來直觀地刻畫數(shù)據(jù),而現(xiàn)如今的信息可視化技術(shù)更加關(guān)注抽象數(shù)據(jù)的可視化,可以將各種二維或三維的屬性或數(shù)值進行圖形描述,更加有利于信息的表示和傳達。情感可視化建立在情感特征識別的基礎(chǔ)上。

1.文本預處理和分詞

首先,將文本中表情符號進行特殊標記,然后將無關(guān)的Html代碼去除。其次,有轉(zhuǎn)播的微博廣播在據(jù)收集時會將被轉(zhuǎn)播的內(nèi)容收集為一條文本,廣播與被轉(zhuǎn)播文本之間會用“//”符號進行分割,并且“//”符號之后會接被轉(zhuǎn)播的用戶名和賬號,所以本文根據(jù)此特征對有轉(zhuǎn)播的廣播與被轉(zhuǎn)播對象進行分割,確保單條微博中的所有內(nèi)容是單個用戶所發(fā)布的。最后,對處理后的文本進行分詞,

本文使用的分詞工具為IK

Analyzer分詞器,分詞之前將已構(gòu)建的情感詞表加入到分詞器的詞表中,避免已有情感詞被分割。

2.情感詞提取

情感詞的提取過程主要利用已構(gòu)建的情感詞表,在文本中對詞表中含有的情感詞進行查找并加入已定義的情感詞編碼標簽。

3.統(tǒng)計情感詞并定義詞語之間的關(guān)系

對已標記的情感詞進行統(tǒng)計,通過情感詞列表和各情感詞的詞頻可看出熱點事件情境下用戶情感表達所使用的詞語,高頻情感詞通常是整個事件的主導情感,詞頻極高的情感詞通常是某一或某幾條關(guān)于事件的描述微博被其他用戶粘貼到自己的博文中進行轉(zhuǎn)發(fā)和評論。

4.情感詞可視化

情感詞可視化主要是對情感詞之間的關(guān)系進行可視化,根據(jù)詞語之間的共現(xiàn)關(guān)系權(quán)重,采用位置算法,將詞語安排在圖形中的特定位置,通過圖形位置展示詞語之間的關(guān)聯(lián)。

5.1.2情感可視化的結(jié)果與發(fā)現(xiàn)

首先對情感詞詞頻分布進行分析,設(shè)情感詞Wi的詞頻為r,n為詞頻為r的情感詞個數(shù),圖5-1和圖5-2分別為“和頤酒店女生遇襲”“成都女司機被打”事件文本中情感詞的詞頻分布情況。

圖5-1有關(guān)“和頤酒店女生遇襲”事件微博文本中的情感詞詞頻分布

圖5-2有關(guān)“羅一笑”事件網(wǎng)絡(luò)輿情文本中的情感詞詞頻分布

圖5-3和圖5-4分別為“和頤酒店女生遇襲”事件、“羅一笑”事件中頻次在200次以上的情感詞的可視化效果??梢暬瘓D沒有考慮否定詞、句型和表情等特征,圖形展示僅僅針對微博文本中的情感詞。

圖5-3“和頤酒店女生遇襲”事件中頻次在200以上的高頻情感詞可視化圖

圖5-4“羅一笑”事件中頻次在200以上的高頻情感詞可視化圖

圖5-5、圖5-6分別為“和頤酒店女生遇襲”事件、

“羅一笑”事件中頻數(shù)在5-50的低頻情感詞可視化圖,由這些低頻詞可見用戶自身情感表達用詞更加隨意,如“麻木不仁”“節(jié)操”“一本正經(jīng)”“好不容易”“人人自危”等。

圖5-5“和頤酒店女生遇襲”事件中頻次在5-50的低頻情感詞可視化圖

圖5-6“羅一笑”事件中頻次在5-50的低頻情感詞可視化圖

5.2情感極性強度和類型統(tǒng)計

5.2.1情感極性強度統(tǒng)計

依據(jù)第3章對單條微博文本情感強度的計算規(guī)則,分別對“和頤酒店女生遇襲”事件中164907條微博文本、“成都女司機被打”事件中43586條微博文本和“羅一笑”事件中74025條微博文本進行情感值計算,以單條微博文本為單位對文本極性強度進行統(tǒng)計,得到“和頤酒店女生遇襲”事件正面微博(強度>0)和負面微博(強度<0)的比例,如圖5-7所示。

圖5-7“和頤酒店女生遇襲”事件微博極性統(tǒng)計

“羅一笑”事件正面微博(強度>0)和負面微博(強度<0)的比例如圖5-8所示。在“羅一笑”事件相關(guān)微博中,正面微博數(shù)量最多,達4809條,占總數(shù)量的65%,甚至超過負面微博(17661條)和中性微博(8271條)總量的一倍??梢?,雖然“羅一笑”事件對社會造成了較大的負面影響,但總體來說,網(wǎng)民對該事件的情感較為正面,態(tài)度較為積極。

圖5-8“羅一笑”事件微博極性統(tǒng)計

依據(jù)極性強度可以將用戶情感分為一般、中度、高度三個不同的程度,對于正面微博,強度0~10為一般,10~20為中度,20以上為高度;對于負面微博,強度-10~0為一般,-20~-10為中度,-20以下為高度。在“和頤酒店女生遇襲”事件、“羅一笑”事件中,各程

度正面微博和負面微博發(fā)布數(shù)量分別如圖5-9和圖5-10所示。可見,兩個事件中“一般”程度微博數(shù)量占據(jù)極大比例,任一程度的積極情緒微博數(shù)量均多于消極情緒微博數(shù)量。

圖5-9“和頤酒店女生遇襲”事件微博極性強度統(tǒng)計

圖5-10“羅一笑”事件微博極性強度統(tǒng)計

5.2.2情感類型統(tǒng)計

依據(jù)第3章對情感詞的極性和強度的標記,在“和頤酒店女生遇襲”事件中,對8439個情感詞的極性強度進行了統(tǒng)計,得到正面情感詞2990個,負面情感詞3307個,中性情感詞2142個。對“和頤酒店女生遇襲”事件微博文本中排名前30的情感詞進行統(tǒng)計,結(jié)果如表5-1所示,這些高頻情感詞可以反映出整個事件中用戶的主要情感以及對該事件的主要關(guān)注點,由“強奸”“安全”“犯罪”等高頻詞可以看出,用戶在面對“和頤酒店女生遇襲”這一社會事件時表達最多的情緒是譴責。

事件所涉及的情感詞數(shù)量繁多、分布雜亂,且有些詞語呈中性,看不出具體的情感,也有很多詞語表達了同種情感。所以本節(jié)按照第3章建立的情感分類體系對情感類型進行統(tǒng)計和整理,將匹配到的8439個情感詞劃分到相應的情感類別下,最終得到的各類型情感圖5-11“和頤酒店女生遇襲”事件中二級情感類型所含情感詞頻次的統(tǒng)計結(jié)果如圖5-11所示。

圖5-11“和頤酒店女生遇襲”事件中二級情感類型所含情感詞頻次

將圖5-11中的二級情感歸類到一級情感類型下,得到的情感類型統(tǒng)計結(jié)果如圖5-12所示,在“和頤酒店女生遇襲”事件中,主導情感為“惡”。通過分析微博文本內(nèi)容可以發(fā)現(xiàn),網(wǎng)絡(luò)上充斥著對和頤酒店管理層疏于管理的譴責,對涉案男子暴力行為的憎惡,甚至還包括部分用戶對圍觀群眾不作為的批評。

圖5-12“和頤酒店女生遇襲”事件中一級情感類型所含情感詞頻次

對“羅一笑”事件微博文本中排名前30的情感詞進行統(tǒng)計,結(jié)果如表5-2所示,這些高頻情感詞可以反映出整個事件中用戶的主要情感,并表現(xiàn)了線上用戶對該事件的主要關(guān)注點,如“愛心”“善良”“幫助”等,可以看出用戶在面對“羅一笑”這一社會事件時表達最多的情緒是關(guān)愛。

基于本節(jié)建立的情感分類詞典對從74025條微博文本中提取到的6876個情感詞進行分類統(tǒng)計,統(tǒng)計結(jié)果如圖5-13所示,縱坐標為二級情感類型,橫坐標為情感類型對應的情感詞總頻數(shù)。

圖5-13“羅一笑”事件情感類型統(tǒng)計(基于21小類)

將小類情感合并匯總至大類情感下,得到的情感類型統(tǒng)計結(jié)果如圖5-14所示,網(wǎng)民的分布主要集中于“好”和“惡”。通過分析微博文本內(nèi)容可以發(fā)現(xiàn),大部分網(wǎng)民對遭遇不幸的羅一笑表示支持、關(guān)心與幫助,另一方面,多數(shù)網(wǎng)民對羅一笑父親羅爾的不恥行為極其厭惡并給以批判,也有部分網(wǎng)民對“羅一笑”事件表示悲哀和冷漠。

圖5-14“羅一笑”事件中網(wǎng)民情感類型統(tǒng)計(基于7大類)

5.3情感時序變化分析

在“和頤酒店女生遇襲”事件中,以“小時”為單位對67393條正面微博和47085條負面微博的情感極性進行統(tǒng)計,得到正、負面微博發(fā)布數(shù)量隨時間的變化情況,如圖5-15所示。

圖5-15“和頤酒店女生遇襲”事件中情感極性的時序變化

以上從宏觀角度統(tǒng)計了“和頤酒店女生遇襲”事件相關(guān)微博的正負極性強度,能夠體現(xiàn)出用戶情感極性強度的總體水平,但難以從微觀角度來描述用戶情感極性強度的變化情況,因此本節(jié)進一步對單條微博文本的極性強度進行分析,以“小時”為單位統(tǒng)計用戶平均微博極性強度隨時間的變化情況,如圖5-16所示。

結(jié)合圖5-17所示的平均微博極性強度日時序變化,可以發(fā)現(xiàn),4月10日用戶發(fā)布的負面微博數(shù)量最多,社交網(wǎng)絡(luò)中的用戶情緒最低落,平均微博極性強度最低。經(jīng)分析發(fā)現(xiàn),4月10日和頤酒店經(jīng)理受訪視頻爆發(fā),其“三無評論”(即“一沒死人、二沒著火、三沒強奸”)引起了網(wǎng)絡(luò)上的軒然大波,一時間網(wǎng)絡(luò)上充斥著對和頤酒店及該經(jīng)理的謾罵、憤怒和譴責。

圖5-16平均微博極性強度時時序變化

圖5-17平均微博極性強度日時序變化

以“小時”為單位統(tǒng)計正、負面微博的平均情感極性強度,結(jié)果如圖5-18所示。

圖5-18正、負微博極性強度的時序變化

除了對正負面情緒的時間序列進行分析,也有必要對各類型情感

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論