版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
互聯(lián)網(wǎng)用戶的情緒表達方法研究
摘要:網(wǎng)絡(luò)信息技術(shù)的飛躍發(fā)展正在全方位、深層次地改變著我們的生產(chǎn)與生活方式。信息發(fā)布均傳輸?shù)姆绞秸?jīng)歷著巨大變革。互聯(lián)網(wǎng)等新興信息載體的出現(xiàn)一方而為社會大眾提供了的所未有的海量信息資源;另一方面也為民眾提供了便捷地表達各自觀點的平臺?;ヂ?lián)網(wǎng)逐步成為網(wǎng)絡(luò)信息時代主流傳輸載體,不僅改變?nèi)藗儗τ诖蟊娒襟w的傳統(tǒng)認識,而且也極大地改變了傳統(tǒng)的信息傳播程式。與此同時,網(wǎng)絡(luò)輿論以交互的自由性和方式的多樣性,已經(jīng)成為關(guān)乎社會穩(wěn)定的一股不可忽視的力量。如何做到在龐大的互聯(lián)網(wǎng)網(wǎng)絡(luò)中對互聯(lián)網(wǎng)用戶表達信息的甄別以及大部分網(wǎng)民對某些事件的情緒的大致輪廓的了解,利用計算機等技術(shù)進行包括互聯(lián)網(wǎng)用戶情緒表達分析在內(nèi)的輿情監(jiān)督是近幾年計算機人工智能研究的熱點。本文征對信息傳播動力學(xué)、輿論演化模型提出了一種互聯(lián)網(wǎng)用戶的情緒表達方法。
關(guān)鍵詞:情緒表達;輿情分析;互聯(lián)網(wǎng)用戶;互聯(lián)網(wǎng)
Abstract
Therapiddevelopmentofinformationtechnologynetworksarecomprehensive,in-depthchangingourproductionandlifestyle.Informationdisseminationbothtransmissionmodeisundergoingtremendouschange.Internetandothernewinformationappearsonecarrierwhichprovidesforunprecedentedmassivepublicinformationresources;italsoprovidesaplatformforpeopletoexpresstheirideaseasily.InternetNetworkInformationAgehasgraduallybecomethemainstreamtransportcarrier,hasnotonlychangedpeopleforthetraditionalunderstandingofthemassmedia,butalsogreatlychangedthetraditionalinformationdisseminationprogram.Atthesametime,thenetworkofpublicopinionthewaytofreedomanddiversityofinteractionhasbecomeaforcetobereckonedwithinrelationtosocialstability.HowdothevastInternetnetworkforInternetuserstoexpressandunderstandscreeninginformationformostusersmoodofthebroadcontoursofcertainevents,theuseofcomputersandothertechnology,includingpublicopinionsupervisionofInternetusers,includingemotionalexpressionanalysisisnearlyyearsofcomputerartificialintelligenceresearchhotspot.Thisarticlelevydynamicsofinformationdissemination,publicemotionalexpressionevolutionmodelproposedmethodforInternetusers.
Keywords:emotionalexpression;publicopinionanalysis;Internetusers;Internet
目錄
第一章緒論
第一章緒論
1.1研究背景
隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為報紙等傳統(tǒng)大眾媒介之外的第四輿論傳播新勢力,網(wǎng)絡(luò)用戶量和信息量已經(jīng)超過了傳統(tǒng)媒介。互聯(lián)網(wǎng)的發(fā)展不僅革新了信息傳播技術(shù),也改變了人們的生活方式及人際交往方式,極大影響著人們社會生活的多個領(lǐng)域。網(wǎng)絡(luò)已經(jīng)成為人們每天獲取信息、相互交流必不可少的方式。特別是進入到Web2.0時代之后,網(wǎng)絡(luò)用戶既是網(wǎng)絡(luò)信息的消費者,也是網(wǎng)絡(luò)內(nèi)容的締造者。網(wǎng)絡(luò)是現(xiàn)實社會的鏡像,現(xiàn)實生活中局部的問題,在網(wǎng)絡(luò)中可能被放大而引發(fā)大量的討論,直接反作用于真實社會,影響著人們的生活。而一些負面和極端的言論,可能危害網(wǎng)絡(luò)內(nèi)容安全及社會的穩(wěn)定。
2012年7月19日,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在京發(fā)布的《第30次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》中指出,截至2012年6月底,中國網(wǎng)民數(shù)量達到5.38億。報告中顯示,用戶數(shù)量增長達到一個穩(wěn)定的水平,互聯(lián)網(wǎng)的普及率大大地提高。更加引人注目的是,手機用戶急速增加,手機上網(wǎng)用戶數(shù)超過臺式機接入網(wǎng)絡(luò)用戶數(shù)0.08億,這是由于移動終端上網(wǎng)方便快捷,成本較低,且能夠隨時隨地。同時,我國的網(wǎng)絡(luò)技術(shù)也日新月異,網(wǎng)絡(luò)國際出口帶寬到達1,548,811Mbps,IPv6地址數(shù)爆發(fā)增長,已經(jīng)躍居全球前三位。各種網(wǎng)絡(luò)應(yīng)用的增幅明顯,即時通信增長提速,微博和博客的數(shù)量較2011年底增長了近10%,信息傳播方式更加多元化。網(wǎng)絡(luò)輿論以交互的自由性和方式的多樣性,已經(jīng)成為關(guān)乎社會穩(wěn)定的一股不可忽視的力量。如何做到在龐大的互聯(lián)網(wǎng)網(wǎng)絡(luò)中對互聯(lián)網(wǎng)用戶表達信息的甄別以及大部分網(wǎng)民對某些事件的情緒的大致輪廓的了解,利用計算機等技術(shù)進行包括互聯(lián)網(wǎng)用戶情緒表達分析在內(nèi)的輿情監(jiān)督是近幾年計算機人工智能研究的熱點。
1.2國內(nèi)外研究現(xiàn)狀
互聯(lián)網(wǎng)和通信技術(shù)的發(fā)展使得網(wǎng)絡(luò)成為人們獲取信息分享信息的主要渠道,越來越多的用戶參與到網(wǎng)絡(luò)活動中。用戶創(chuàng)造了海量的網(wǎng)絡(luò)信息,且互聯(lián)網(wǎng)是一個開放的平臺,通過網(wǎng)絡(luò)信息采集工具可以獲取大量的網(wǎng)絡(luò)數(shù)據(jù),從而為互聯(lián)網(wǎng)的實證分析提供了豐富可靠的數(shù)據(jù)來源。高性能處理器的出現(xiàn)及并行計算能力的提高,使得對大數(shù)據(jù)的處理有了可能,因此對互聯(lián)網(wǎng)海量數(shù)據(jù)的分析逐漸被提上日程。目前實證分析的研究不斷涌現(xiàn),挖掘用戶情緒表達特點,分析網(wǎng)絡(luò)人際關(guān)系,發(fā)現(xiàn)潛在的客觀規(guī)律,有助于互聯(lián)網(wǎng)理論模型的有效性驗證及參數(shù)調(diào)整。
文獻[1]對博客及社交網(wǎng)絡(luò)服務(wù)等Web2.0網(wǎng)絡(luò)的用戶拓撲關(guān)系進行了分析。作者分別抓取了人人網(wǎng)及新浪博客數(shù)據(jù),新浪博客是單向網(wǎng)絡(luò),而人人網(wǎng)是無向網(wǎng)絡(luò)。研究發(fā)現(xiàn),新浪博客的入度及出度均服從幕律分布,但出度分布的具有更大的冪指數(shù),這表示博客用戶并未添加很多好友,甚至有32.6%的人未添加任何好友?;钴S用戶喜歡連接名人或其他活躍用戶,因此網(wǎng)絡(luò)的入鏈--出鏈及出鏈--出鏈的度相關(guān)系數(shù)為正。而新浪博客的出鏈--入鏈及入鏈--入鏈的度相關(guān)系數(shù)為負。人人網(wǎng)的度服從雙尺度的冪律分布,平均最短路徑長度更短,節(jié)點簇系數(shù)按節(jié)點度呈冪律減小,且節(jié)點度正相關(guān)。
文獻[2]分析了Twitter用戶的地域分布、用戶的好友粉絲數(shù)及用戶的度相關(guān)系數(shù),并將Twitter的用戶進行了分類。文獻[3]計算了Twitter微博的平均最短距離長度、最大轉(zhuǎn)帖深度、帖子生存時間、用戶排序等特征。作者將Twitter中的用戶按粉絲數(shù)及PageRank值排序,發(fā)現(xiàn)兩種方法的排序結(jié)果近似一致,而將用戶按轉(zhuǎn)發(fā)數(shù)排序則得到的結(jié)果有明顯區(qū)別,這表示用戶的轉(zhuǎn)發(fā)數(shù)與粉絲數(shù)之間并非呈嚴格的依賴關(guān)系。97.6%的轉(zhuǎn)帖深度在6跳之內(nèi),而轉(zhuǎn)帖深度不會超過11跳。文獻[4]比較了Twitter用戶的帖子轉(zhuǎn)發(fā)數(shù)、回復(fù)數(shù)與好友數(shù)的相關(guān)性,分析了信息傳播過程中用戶的影響力特征。文獻[5]進一步分析了Twitter中與帖子獲得轉(zhuǎn)發(fā)相關(guān)的因素。根據(jù)帖子作者的好友數(shù)、賬號創(chuàng)建時間等9個因素對Twitter數(shù)據(jù)進行主分量分析,發(fā)現(xiàn)帖子的內(nèi)容特征及作者特征都具有較強的區(qū)分度,是影響帖子轉(zhuǎn)發(fā)的重要因素。通過對大量實際數(shù)據(jù)的驗證,描繪出了帖子被轉(zhuǎn)發(fā)的概率近似隨著帖子作者的好友數(shù)、粉絲數(shù)、用戶創(chuàng)建時間呈上升趨勢。
文獻[6]對某經(jīng)濟物理學(xué)網(wǎng)站的文章下載量進行了統(tǒng)計分析,發(fā)現(xiàn)論文的下載次數(shù)以Zipf律遞減,且冪指數(shù)隨著時間的推移而降低,這意味著用戶并不總是下載排名靠前的文章,而會翻頁去查看其它非推薦的文章。不同文章的單位時間下載率按指數(shù)衰減,且文章的平均下載率及方差近似滿足指數(shù)分布,其中a位于0.6到0.9之間,不同于之前的研究,早先的研究認為序參數(shù)的方差與平均值的分布指數(shù)a為0.5或1。
目前的研究主要針對用戶關(guān)系的宏觀結(jié)構(gòu)或用戶個體的微觀交互單獨建模,未能分析驅(qū)動網(wǎng)絡(luò)用戶情緒表達的本質(zhì)因素,也未能解釋參與人群情緒表達偏好及用戶性格習(xí)慣的異質(zhì)性對群體結(jié)構(gòu)演化的作用,對網(wǎng)絡(luò)宏觀結(jié)構(gòu)的產(chǎn)生原因未達成共識,因此,這些研究在理解網(wǎng)絡(luò)用戶客觀規(guī)律上面臨著諸多的挑戰(zhàn)。
1.3研究意義
互聯(lián)網(wǎng)用戶情緒表達分析及信息演化機制研究,借助社會物理學(xué)、計算機科學(xué)、信息科學(xué)、系統(tǒng)科學(xué)及復(fù)雜網(wǎng)絡(luò)等理論,通過計算機建模和數(shù)據(jù)挖掘的方法,分析用戶情緒表達的內(nèi)在動機,建立用戶參與情緒表達模型,建模網(wǎng)絡(luò)個體觀點交互過程,揭示宏觀輿論與微觀個體情緒表達的聯(lián)系,探索群體性意見的出現(xiàn)條件,預(yù)測信息傳播趨勢及用戶的傳播行動,這些研究具有重要的理論意義和應(yīng)用價值?;ヂ?lián)網(wǎng)用戶情緒表達分析及信息演化機制研究,有助于生物群體情緒表達及群落結(jié)構(gòu)演化的研究,為社會學(xué)等學(xué)科的研究提供數(shù)據(jù)獲取和處理方法。網(wǎng)絡(luò)用戶的發(fā)帖、轉(zhuǎn)帖、回帖及用戶之間的交流等情緒表達,反映了用戶的生活習(xí)慣和個體特性,通過對用戶情緒表達的分析能夠掌握大眾的情緒表達特性分布,從而有助于網(wǎng)絡(luò)異常情緒表達檢測,防患于未然。分析網(wǎng)絡(luò)用戶情緒表達與群體結(jié)構(gòu)的關(guān)系,理解個體的內(nèi)在動機,掌握群體結(jié)構(gòu)演化規(guī)律,對研究其他復(fù)雜群體情緒表達具有借鑒意義。
互聯(lián)網(wǎng)用戶情緒表達分析及信息演化機制研究,有助于把握輿論動態(tài),發(fā)現(xiàn)潛在的熱點話題,是實現(xiàn)輿情監(jiān)測的重要手段。對網(wǎng)絡(luò)用戶關(guān)系的研究能夠幫助人們理解互聯(lián)網(wǎng)特殊的拓撲對信息傳播的加速和催化作用,提高對信息傳播機制的認識,進一步研究如何促進或阻礙信息的流動。對用戶傳播情緒表達及話題增長趨勢的預(yù)測,有助于盡可能早地發(fā)現(xiàn)潛在的引發(fā)大量關(guān)注的話題,從而為輿論監(jiān)測和突發(fā)事件預(yù)警提供了依據(jù)和參考。
互聯(lián)網(wǎng)用戶情緒表達分析及信息演化機制研究,是認識網(wǎng)絡(luò)輿論本質(zhì)演化規(guī)律的必要條件,也是研究網(wǎng)絡(luò)輿論引導(dǎo)策略的前提和基礎(chǔ),對構(gòu)建健康良好的網(wǎng)絡(luò)環(huán)境、維護社會和諧具有積極的意義?;ヂ?lián)網(wǎng)的動態(tài)性、內(nèi)容開放性、匿名性造成了輿論形成的突發(fā)性及演變環(huán)境的復(fù)雜性,而一些負面的情緒能夠在短時間內(nèi)產(chǎn)生較大的影響。對互聯(lián)網(wǎng)信息演化機制的研究,有利于理解宏觀輿論的形成及相變條件,分析互聯(lián)網(wǎng)的多種特異性對輿論演化方向的影響,掌握微觀特性的作用機制,有助于針對性地研究引導(dǎo)輿情發(fā)展趨勢的方法和手段,恰當(dāng)構(gòu)建和諧的網(wǎng)絡(luò)環(huán)境。
第二章主要理論
2.1社會物理學(xué)及三大理論
2.1.1社會物理學(xué)研究概述
社會物理學(xué)的發(fā)展歷程稍加追溯就會發(fā)現(xiàn),這是一門淵源久遠、根基深厚、內(nèi)容廣泛、實用價值很高的交叉學(xué)科。自17世紀威廉·配第對“政治算術(shù)”的呼吁和其后拉普拉斯的人口性別“誤差曲線”的提出,開啟了人們尋求用像物理學(xué)的定律一樣去研究社會問題。其后,法國政治哲學(xué)家奧古斯特·孔德認為“社會秩序”是“自然秩序”的簡單延伸,首次在1830年左右使用“社會物理學(xué)”名稱,并將其劃分為“社會靜力學(xué)”和“社會動力學(xué)”,從而成為古典社會物理學(xué)的奠基者。
近200多年來,社會物理學(xué)相繼經(jīng)歷了以孔德為代表的古典社會物理學(xué)以及其后的近代社會物理學(xué)和現(xiàn)代社會物理學(xué)三個發(fā)展階段。社會物理學(xué)研究者正在嘗試對“為什么人類行為如同粒子運動那樣”進行正確詮釋,企圖從社會微觀行為的隨機與無序中揭示出社會宏觀行為的識別特征,從而對于網(wǎng)絡(luò)傳播、輿論形成、經(jīng)濟運行和社會安全所遵循的普適性規(guī)律,進行深入的挖掘并最終實現(xiàn)對于社會行為規(guī)律的認知、模擬和調(diào)控。
中國現(xiàn)代社會物理學(xué)派代表人物牛文元教授逐步構(gòu)建了“社會燃燒理論”、“社會激波理論”和“社會行為熵理論”三大理論體系,并對社會物理學(xué)研究的本質(zhì)進行了理論論述?,F(xiàn)代社會物理學(xué)的實質(zhì)總是建立在:統(tǒng)一承認物理世界和人文世界隨處呈現(xiàn)出的廣義“差異”;統(tǒng)一承認廣義的“差異”和“非均衡”必然導(dǎo)致的廣義的“梯度”;統(tǒng)一承認廣義的“梯度”必然要產(chǎn)生廣義的“力”;統(tǒng)一承認廣義的“力”的作用下所必然產(chǎn)生的廣義“運動”和廣義“流”。而探索廣義的“運動”和廣義的“流”,是自然科學(xué)和社會科學(xué)共同面對的一致要求,現(xiàn)代社會物理學(xué)就是為適應(yīng)這種統(tǒng)一要求而存在的。并對于現(xiàn)代社會物理學(xué)的一般定義作如下的表述:“在網(wǎng)絡(luò)世界的虛擬情景中,應(yīng)用自然科學(xué)的思路和原理,經(jīng)過有效的融合和理性的修正,用來識別、模擬、解析和尋求在現(xiàn)實世界中社會行為規(guī)律和社會結(jié)構(gòu)分布的充分交叉性學(xué)科?!?/p>
2.1.2社會燃燒理論
“社會燃燒理論”于2001年提出,是將社會的無序、失穩(wěn)及動亂與自然界的燃燒現(xiàn)象進行合理類比的理論。自然界中的燃燒現(xiàn)象,既有物理過程,也有化學(xué)過程。物理過程中主要指物質(zhì)的平衡和能量的守衡,化學(xué)過程中主要指物質(zhì)的變化以及變化所依賴的基本條件。加以總結(jié),燃燒發(fā)生必須具備三個基本條件,即“燃燒物質(zhì)”、“助燃劑”和“點火溫度”,三者缺一不可。其中,“燃燒物質(zhì)”是燃燒發(fā)生的前提性基本條件;“助燃劑”對燃燒過程進行加速,因此在燃燒過程中起催化作用;“點火溫度”除了直接使燃燒物質(zhì)發(fā)生燃燒外,不僅激活助燃劑的助燃功能,而起加速了著火溫度閾值突破過程。
把自然界燃燒過程的這一原理引入社會穩(wěn)定領(lǐng)域,則可將引起社會無序的基本動因,即隨時隨地發(fā)生的“人與自然”關(guān)系不協(xié)調(diào)和“人與人”關(guān)系不和諧視為社會不穩(wěn)定的“燃燒物質(zhì)”;將非理性的判斷、敵對勢力的惡意攻擊和片面利益的刻意追逐等看做燃燒的“助燃劑”;當(dāng)上述二者都具備的時候,一個小的突發(fā)事件的發(fā)生作為動亂的導(dǎo)火線或“點火溫度”必將引發(fā)具有一定規(guī)模和影響的群體性突發(fā)事件,最終導(dǎo)致社會的不穩(wěn)定與不和諧。
“社會燃燒理論”的機理認為:當(dāng)“人與自然”之間的關(guān)系達到充分平衡、“人與人”之間的關(guān)系達到完全和諧時,整個社會處于“理論意義”上絕對穩(wěn)定的極限狀態(tài),只要發(fā)生任何背離上述兩大關(guān)系的平衡與和諧,都會給社會穩(wěn)定狀態(tài)以不同程度的“負貢獻”(即形成社會動亂的“燃燒物質(zhì)”),當(dāng)此類“負貢獻的量與質(zhì)”積累到一定程度,并在錯誤的輿論導(dǎo)向煽動下(即相當(dāng)于增加社會動亂的“助燃劑”),將會形成一定的人口數(shù)量密度和地理空間規(guī)模,使社會穩(wěn)定程度逐漸降低并逼近于發(fā)生動亂的I臨界閾值。此時,只要在某一“突發(fā)導(dǎo)火線”(即出現(xiàn)了社會動亂的“點火溫度”)的刺激下,即可發(fā)生“社會失衡(不穩(wěn))、社會失序(動亂)或社會失控(暴亂)”直至“社會崩潰”。
2.1.3社會激波理論
激波是氣體高速運動過程中最重要的現(xiàn)象之一。它是氣體受到強烈壓縮后產(chǎn)生的強壓縮波,也叫強間斷面,這種很薄的間斷稱之為激波(支啟軍,2003)。在這一薄層中,速度、溫度和壓強等物理量迅速地從波前值變化到波后值,速度梯度、壓強梯度和溫度梯度都很大。因此,激波理論中并不十分關(guān)注于波內(nèi)流動情況,而只需知道物理量通過激波后的變化即可。
目前,多有借用激波理論的思想以解決社會問題,特別是具有波動現(xiàn)象的復(fù)雜問題,如在車流、人群流動等方面的應(yīng)用。在人群擁擠時,可將其視為一連續(xù)介質(zhì),人群中產(chǎn)生的任何擾動(直接表現(xiàn)為密度的變化)都將以波的形式在人群中傳播,同時由于人群中個體間的差異,導(dǎo)致波發(fā)生非線性畸變,最后可能導(dǎo)致激波的產(chǎn)生,即擁擠事故。
“社會激波理論”作為社會物理學(xué)中三大理論之一,用以描述社會動亂的時空形式,常用的仿真建模的方法和技術(shù)有Ising(鐵磁)模型、Sznajd(傳教士、Deffuant(談判者)和Krarise&Hegselmann(機會主義者)模型,以及謠言擴散模型、銀行破產(chǎn)模型和蒙特卡洛模型等。
本文則基于“社會激波理論”來說明輿論的演化模型,即在時空耦合系統(tǒng)中探尋輿論演化機理,包括時間上的傳播演化態(tài)勢以及空間上的擴散和分布規(guī)律,尋求多變動態(tài)的輿論趨勢和波幅擴散的內(nèi)在規(guī)律。
2.1.4社會行為熵理論
社會行為熵是社會動亂的本源。借用物理上學(xué)的“熵”的理論來解釋人組成群體的行為。這一理論有如下六大規(guī)則:
人類普適的“最小努力”原則
每個人都想出很小的力氣換取最大的效益,個人行為如此,國家的經(jīng)濟發(fā)展也是如此,都是想花最少的錢來換取最大的收益,天性自發(fā),無法違背。
自發(fā)追尋“熵最小”原則
每個人一直處于平靜狀態(tài)是辦不到的,如同好地方住久了也不感覺好。今天,社會主義改革開放帶來這么大的成果,有的人卻不滿意,得到的時候偏不說好,得不到時就一味地叫囂謾罵,實際上就是不滿足于現(xiàn)狀。這是因為人有些時候不愿意理性、平靜地思考,而總是感到不滿足。這也是自然人的一個天性。
自覺維系“心理平衡”原則
假如個人遭受了打擊,經(jīng)過別人的勸說,經(jīng)過自我的反思,慢慢平靜了,這將對構(gòu)建和諧社會有很大的幫助。也就是說,通過說服工作能使對象自我接受、自我認知、自我體驗、自我控制。
持續(xù)激發(fā)“情商共鳴”原則
“情商共鳴”是一個人只愿意接受他最為尊敬、最為崇拜或最為認可的人開導(dǎo)自己的某種不如意。小到社會公眾、大到政府領(lǐng)袖,樹立起榜樣,其力量和作用就是無窮的。
⑸社會取向“倒u型走勢”原則
多數(shù)人總是認為過去好,一直推到三皇五帝,那個時候的人好像是最好的;再者就是未來好,像共產(chǎn)主義、大同世界這個大家也都認同,于是乎,就是覺得現(xiàn)在所處的社會有點不大對頭,且覺得別人都好而自己不好。這是社會整體走勢,這種現(xiàn)象就是“倒U型走勢”。
⑹都希望有讓別人遵守而自己可以例外的社會公約
每個人的行為,包括群體的行為都有著自己的規(guī)則。這些不同規(guī)則的共同組合,造成了希望有讓別人遵守而自己可以例外的社會公約。
2.2信息傳播動力學(xué)
信息傳播是真實世界的普遍現(xiàn)象,對信息傳播過程的研究,有助于分析信息流動的內(nèi)在機制,預(yù)測信息的擴散范圍,并進一步找到促進或抑制信息傳播的措施。信息傳播模型能使用平均場進行分析,從而得到解析的表達式。信息傳播的研究方法和手段同樣也能應(yīng)用到互聯(lián)網(wǎng)的輿論傳播研究工作中。
社會物理學(xué)包含了社會科學(xué)的多個內(nèi)容,闡述了社會網(wǎng)絡(luò)、語言進化、人口動力學(xué)、疾病傳播、恐怖主義、票選和聯(lián)盟形成等許多不同問題。而信息傳播動力學(xué)在所有研究主題中漸漸成為主流。此外,輿論如今成為現(xiàn)代社會的一個重要焦點,了解它的內(nèi)在機制是我們面對的重大挑戰(zhàn)。關(guān)于該領(lǐng)域的任何進展都可以對全球面臨的敏感問題的處理方法產(chǎn)生巨大影響。征對信息傳播動力學(xué)模型舉出下面的一個例子。
研究輿論現(xiàn)象的方法依賴于一些簡單假設(shè),并發(fā)現(xiàn)了一系列令人震驚和強有力的結(jié)論。特別地,我們發(fā)現(xiàn)信息傳播形成的動力學(xué)機制遵循一些流,這些流的方向由相互對立觀點的初始支持和閾值所決定。大多數(shù)模型都會服從這樣的閾值動力學(xué)。事實上,這些都屬于單一概率序列機制的范疇。
值得一提的是,在2005年,使用社會物理學(xué)模型首次預(yù)測了一個令人難以置信的政治票選結(jié)果。不同于其他民意調(diào)查的分析預(yù)測,得出的結(jié)論比實際的票選結(jié)果公布13期提前了好幾個月。該模型處理少數(shù)人觀點在公眾討論中傳播的動力學(xué)機制時使用了兩狀態(tài)變量系統(tǒng)。它可以應(yīng)用于許多大范圍的議題,這其中包括如法國票選的全民投票、吸煙與禁煙的行為改變、伊拉克戰(zhàn)爭這種對軍事行動的支持或反對、法國關(guān)于“9·11”事件的謠言,以及改革建議等。
兩狀態(tài)變量模型研究公眾觀點如何從公眾討論中形成。agents是活動的,根據(jù)每個agents都只持一個觀點的原則在小組中進行討論,每次討論結(jié)束后根據(jù)局部多數(shù)規(guī)則來改變自己的觀點。相關(guān)的動力學(xué)機制就是由這些局部觀點的反復(fù)更新而驅(qū)動。小組人數(shù)為偶數(shù)時可能會出現(xiàn)平局,即持相對觀點的人數(shù)各占50%。根據(jù)agents的共同信念來選擇要支持的觀點可以解決該問題。最終輿論形成是帶有分隔值口。ac,r的閾值動力學(xué)過程,ac,r決定了朝吸引子aA或者aB的流動方向,并能夠保證觀點A或觀點B分別取得可以獲勝的多數(shù)優(yōu)勢。當(dāng)所有的agents都是流動的,兩個吸引子都只持一個觀點且aA=1,aB=0,通過公眾討論后在所有人中只會產(chǎn)生一種觀點。
如果對觀點A的初始支持at>ac,r,那么存在朝向觀點A的n次連續(xù)更新,使得at+1<at+2<?<at+n≈aA。相反地,如果at<ac,r,那么就會產(chǎn)生一個遞減序列,使得at+1>at+2>?>at+n≈aB,并且m≠n。m,n都是可以通過計算求得的整數(shù)。取任意小的值,將在閾值ac,r處分叉。
對于奇數(shù)大小的討論組,ac,r=1/2,偶數(shù)大小的討論組允許在疑問中達成平局。針對疑問,集體信念被激發(fā),從而產(chǎn)生支持其中某個觀點的局部偏見。這個偏見使得ac,r的取值介于0和1之間,它依賴于持兩類觀點人群的群體信念分布和局部更新組的大小。當(dāng)ac,r<1/2時,相關(guān)動力學(xué)機制使得少數(shù)人意見得到傳播。
在ac,r=1/2,不存在平局的情況下,我們研究異構(gòu)agents,如持相反意見的agents和信念的堅定agents,而不是意見流動agents所產(chǎn)生的效果。研究發(fā)現(xiàn),它們都對輿論動力學(xué)理論有重要影響。
持相反意見者指改變自己的立場故意反對局部多數(shù)人的意見,而從不考慮多數(shù)人的意見的agents。他們使得多數(shù)人意見和少數(shù)人意見在很低密度下能夠穩(wěn)定共存,即aA≠1,aB≠0,ac,r保持1/2不變。然而,除了一些關(guān)鍵值外,這將會減小動力學(xué)閾值。一種唯一的情況是血aA=aB=ac,r=12會驅(qū)動動力學(xué)機制。無論初始條件是什么,通過公眾討論都會使群體意見穩(wěn)定在50%支持觀點A和50%支持觀點B上。閾值消除這種出人意料的機制被用于解釋著名的2000年布什—戈爾的美國總統(tǒng)大選。隨后,它又預(yù)測各自擁有50%選民的情況會再次發(fā)生,而且經(jīng)常發(fā)生在民主制國家選舉中,比如德國、意大利、墨西哥。民意調(diào)查的結(jié)果顯示,大多數(shù)層次上,持相反意見者能控制全局而非局部。在50%附近,這就引起了混亂行為。
信念堅定的agents在小組討論中是絕不改變立場的,他們產(chǎn)生的效果和持相反意見的agents產(chǎn)生的效果相似,但是由于堅持觀點A和觀點B意見者的密度不同,于是產(chǎn)生的效果也是不對稱的。特別地,當(dāng)堅持己見者持有一種觀點時,他們讓其觀點變得確信無疑,從而贏得全部人的支持。相對于擁有絕大多數(shù)支持者的另一種觀點,即使只有密度很低的堅持己見者支持這種觀點,通過討論將會扭轉(zhuǎn)該比例,最終使得所有人都接受只有少部分堅持己見者所持有的觀點。
因此,自由公開討論所期待的民主特色也許會成為一臺“獨裁”機器,用于傳播少部分人的觀點而不是傳播初始時絕大多數(shù)人所持有的觀點。它也許能夠為全球變暖現(xiàn)象的一些社會觀點帶來全新的和反直覺的想法。
2.3輿論演化模型
輿論演進模型是社會物理學(xué)家在社會學(xué)研究成果的基礎(chǔ)上,使用統(tǒng)計物理的方法對觀點交互過程的建模。輿論演進過程的研究致力于回答兩個主要問題:觀點交互過程將最終導(dǎo)致怎樣的系統(tǒng)狀態(tài);群體中的觀點將在何時出現(xiàn)重大相變或轉(zhuǎn)折,何種條件將導(dǎo)致這些突變的出現(xiàn)。第一個問題試圖描述輿論演化過程中的宏觀狀態(tài),是研究輿論演進趨勢預(yù)測的基礎(chǔ)。第二個問題挖掘觀點演化過程中的關(guān)鍵因素,找到這些因素對輿論演化過程及演進速度的影響,研究結(jié)果有助于輿論引導(dǎo)策略的分析。輿論演進模型假定在有限尺度的群體中,個體持有對某一社會、經(jīng)濟事件等話題的觀點。個體就該話題與鄰居進行交互,努力勸說對方采納自己的意見。個體的觀點在初始時混合均勻,在更新進程中個體依據(jù)預(yù)先定義的規(guī)則交換意見。動力學(xué)模型使用統(tǒng)計物理方法來建立微觀個體交互情緒表達與系統(tǒng)宏觀狀態(tài)之間的橋梁。最終,群體觀點可能演化到一致意見、極化或者破碎狀態(tài)。
2.3.1輿論波及其波動律
輿論是一種表層意識的傳播,呈現(xiàn)上下起伏狀態(tài),由于人們接受意見的快慢和能力等區(qū)別,出現(xiàn)了不同的反應(yīng)強度,這種因傳播強弱造成的落差,可以感受到如同一種波狀的起伏,這種動勢就被稱為“輿論波”。
輿論波以非線性形式向四周擴展,使一定范圍的公眾卷入輿論。輿論傳播的強弱落差可以被感知和測度,反應(yīng)強烈的地區(qū)處于輿論的波峰,反應(yīng)微弱的地區(qū)則處于輿論的波谷。輿論波是民心波動的再現(xiàn),由輿論中心向外震蕩起伏地擴展。輿論波通常以連續(xù)的沖擊方式蔓延,在一定社會環(huán)境中回旋、共振,不同的輿論波之間相互抵消或疊加,最終形成一種合力。輿論波表現(xiàn)為社會的沖擊力,在時空中時急時緩、忽高忽低地波動,使輿論定勢更曲折、更復(fù)雜(劉建明等,2009)。j
輿論波包括意見波和行為波兩種,表現(xiàn)為集合意識高漲的不同程度和不同方式。在通常情況下,人們運用語言,通過議論、講演、游說、新聞報道等表達意見。當(dāng)人們由于強烈的憤恨或過度不滿時,便采取各種行動來表達意向,構(gòu)成行為輿論波。本文的第四節(jié),在闡述輿論形成的過程中,亦表達了在輿論形成的臨界閾值點,行為輿論波的形成,即群體性突發(fā)事件的發(fā)生,是輿論演化的更高級形式。
我國多位學(xué)者對輿論波有著或多或少的研究,.認為這為追尋輿論流動源頭與流向提供了思路。其中,清華大學(xué)劉建明教授根據(jù)輿論產(chǎn)生后的波動方向提出了輿論波動律,包括“中心輻射律”、“遍地涌動律”、“兩點呼應(yīng)律”和“多波振蕩律”四種,具體論述如下:
(1)“中心輻射律”:輿論的傳播以輿論中心為軸,向四面八方傳遞,圍繞輿論中心形成由近及遠的波濤氣勢,稱為輿論中心輻射律。輻射律打破了信息傳遞的線性模式,是輿論傳播的普遍規(guī)律。
(2)“遍地涌動律”:輿論不是受中心地帶的意見刺激,而是各地公眾由于同一種輿論客體(某一社會現(xiàn)象或問題)形成的,構(gòu)成了輿論的遍地涌動律。社會問題一般具有普遍性,所以由這一現(xiàn)象或問題所引發(fā)的輿論波往往遵循著遍地涌動律。
(3)“兩點呼應(yīng)律”:一些輿論的客體僅涉及兩個(或限于幾個)輿論主體的關(guān)系或利益,更在這兩點或幾點范圍內(nèi)產(chǎn)生呼應(yīng)性的輿論,他們之間進行著輿論的立動。
(4)“多波振蕩律”:輿論傳播的多渠道互補性和其性質(zhì)的不斷改變構(gòu)成了多波振蕩律。當(dāng)人們的利益、興趣和志向等相近時,在各種輿論傳播渠道的相互借助下產(chǎn)生明顯、快速的激蕩效果,以致引起輿論激化的態(tài)勢。
2.3.2輿論演化過程中的“三從”行為
從輿論形成及其演化過程中梳理和剖析社會公眾的行為特點,可歸納為“從眾”、“從上”和“從利”。“從眾”行為多取決于人的心理層面,即懼怕孤獨、愿意“少數(shù)服從多數(shù)”;“從上”行為涉及人的道德觀,無論是從權(quán)(權(quán)力)還是從望(威望),人們,特別是中國人,受到幾千年文化遺留下來的思想,不愿意沖破道德的束縛且“官本位”思想嚴重,容易“從上”;“從利”行為則受人的價值觀驅(qū)動,在利益面前,人們的言行往往會朝著自己受益的方向擺動。因此,“三從”行為是建立輿論形成及其演化仿真規(guī)則的重要依據(jù)。
(1)“從眾”行為
從眾,是指他人從事某一活動時自己也去從事這一活動,按群體中多數(shù)人的意見行事,自己不另搞一套。社會心理學(xué)指出,個體在群體中常常會不知不覺地受到群體的壓力,從而在知覺、判斷、信仰以及行為方面,表現(xiàn)出與群體中多數(shù)人一致的行為傾向,這就是從眾現(xiàn)象,或稱為從眾行為。
輿論在形成和演化過程中具有整合功能,暗示了“共識”和“一致”的意義?;诖耍聡鐣W(xué)家諾爾紐曼提出了“沉默的螺旋”(thespiralofsilence)理論,認為人具有社會天性,為防止交往中的孤立,總是尋求與周圍關(guān)系的和諧。這樣就形成一種“沉默的螺旋”現(xiàn)象:當(dāng)人們感覺到自己的意見屬于“多數(shù)”或“優(yōu)勢”時,便傾向于積極發(fā)表言論;反之,則會因防止自己被孤立而保持“沉默”。這種過程會激發(fā)出人的從眾行為,結(jié)果則是原有優(yōu)勢的一方越來越強大,而沉默方會越來越無生氣。
(2)“從上”行為
從上,又叫遵從,是指在他人的要求或權(quán)威影響下的服從行為。從上行為包括“從權(quán)”和“從望”兩種類型。從權(quán)多指分布著等級性的“輿論場”中,輿論的主體,即社會公眾受到的權(quán)力制約。它不以被控者的接受為前提,不論被控者情愿與否(當(dāng)然思想上自愿接受更好),都必須接受這種制約,遵從這種約束,并在其約束下行使自己的權(quán)力。這種接受和遵從一般是無條件的,即使被控者有所不愿,甚至持相反的意見,也只能依從其制約,否則就會受到權(quán)力的制裁。從望行為與從權(quán)行為的不同之處在于,社會民眾不具有強制的服從性。從望多指那些有威望的人自覺地吸引著社會大眾的行為選擇,在輿論演化過程中,這些人被稱為“輿論領(lǐng)袖”,具有榜樣的力量。
(3)“從利”行為
從利,是指人們外在的利益驅(qū)動及偏好選擇和內(nèi)在的價值取向與認知情感。由于輿論客體的多樣性,涉及社會輿論主體的層次廣泛,其主動性,即趨利傾向往往在輿論演化過程中扮演著主導(dǎo)作用。
“從利”行為之所以重要,是因為針對同一個輿論客體(社會現(xiàn)象或問題),其輿論主體(社會公眾)由國家管理者的沖突所決定的。所謂和諧,是指各種力量在交互作用的運動中,形成的一種相互制約、相互促進、相互牽制的平衡狀態(tài)。針對于輿論主體和國家管理者之間,基于“從利”行為的輿論就是一把雙刃劍。從國家管理者角度,輿論的監(jiān)督和調(diào)控可多從社會公眾的利益導(dǎo)向人手;而新聞媒體作為國家管理者的輿論宣傳工具,若謀取或包庇當(dāng)權(quán)者的非正當(dāng)利益,或觸及和不顧社會民眾的正常利益必將引起民眾的輿論或過激行為。
2.3.4輿論演化的概念建模
假設(shè):有N個輿論主體,個體i的意見表達為σi,其中i=1,2,?,N。
定義1:輿論演化的三要素涉及{σi:社會公眾的行為選擇;E:輿論的環(huán)境;t:輿論演化的時間},表達如下:
Y=Fσ,E;t
其中,Y是圍繞著發(fā)生的社會現(xiàn)象或事件的輿論演化度。
定義2:社會公眾的行為選擇包括{S:個體偏好選擇;S‘:個體間的相互影響},表達如下:
σ=f(S,S‘)
定義3:社會個體行為偏好選擇基于{c:“從眾”行為;p:“從上”行為;r:“從理”行為;l:“從利”行為},表達如下:
S=ψc,p,r,l
其中,個體i在上述幾種行為的影響下,t時刻和t+1時刻之問會形成自己在輿論演化過程中堅持原有意見的能力。
輿論演化或傳播是每個個體的不斷選擇或(被)說服的過程,最終表現(xiàn)形式是群體(或部分群體)行為的一致性。因此,可借用萬有引力定律的思想,以體現(xiàn)個體間在t時刻和t+l時刻的交互影響下的行為變化。具體表達如下:
S'=j=1Nkσi?σjdijα
其中,k是常系數(shù);dijα表示個體i和個體j的距離;σi?σj描述個體i和個體j之間的一致性。,
若σi?σj>0則個體i和個體j意見一致,個體i持有原有意見;
若σi?σj<0則個體i和個體j意見相左,則:
當(dāng)S+S'>0時,個體i仍能持有原有意見;
當(dāng)S+S'<0時,個體i改變原有意見。
定義4:輿論的環(huán)境有{E。:外部環(huán)境;E,:內(nèi)部環(huán)境},表達如下:
E=φEE,EI
其中,外部環(huán)境包括相關(guān)的法律法規(guī)、媒體導(dǎo)向等;內(nèi)部環(huán)境涉及已有的約定俗成或宗教信仰等。
輿論的內(nèi)外在環(huán)境在輿論的形成及其演化過程中起著至關(guān)重要的作用。2003年的SARS事件,初期由于信息渠道的不統(tǒng)一、不暢通、不確定,致使社會公眾對自己的生存環(huán)境表示擔(dān)憂、焦慮,甚至恐慌。據(jù)嚴三九、徐暉明等的調(diào)查結(jié)果顯示:SARS初期,廣州市民對該疾病的傳言,有56.1%的人半信半疑,有20.3%的人確信不疑,基本不信和毫不相信的人分別占10%和7.9%,兩者之和低于確信不疑的人。人們基本盲目地“從眾”跟風(fēng),發(fā)布謠言,被謠言所迷惑,在此期間的人際互動過程中,謠言壓倒性地占據(jù)了多數(shù)意見,人們更加堅信謠言。之后經(jīng)有關(guān)部門的多方努力和主流媒體的多次辟謠的報道,逐步樹立了良好的輿論環(huán)境,糾正了輿論的導(dǎo)向,社會公眾漸漸趨于理性,可以“從理”、“從上”的看待問題,使謠言最終破滅。
2.3.5輿論演化的建模仿真
輿論的演化過程是基于個體在意見“場”中的不斷選擇,最終表征為群體行為的涌現(xiàn)。研究這類復(fù)雜問題或者非結(jié)構(gòu)問題,建模是一種基本的手段。綜合集成方法強調(diào)復(fù)雜問題求解或者復(fù)雜系統(tǒng)建模需要有多種視角,力求形成對問題的較為完整的想定。根據(jù)R.L.Aekoff等(1968)所提出的建?;驹瓌t,以及近年來復(fù)雜系統(tǒng)研究所采用的各種方法,顧基發(fā)等(2007)總結(jié)了以下6種建模策略和方法:
(1)基于機理的建模,如計量經(jīng)濟模型和投入產(chǎn)出模型。
(2)基于類比的建模,如基于案例的推理分析等。
(3)基于規(guī)則的建模,典型的如復(fù)雜適應(yīng)系統(tǒng)理論中的基于主體的建模。
(4)基于數(shù)據(jù)的建模,如各種統(tǒng)計模型、系統(tǒng)重構(gòu)模型等。
(5)基于演化的建模,如系統(tǒng)演化模型等。
(6)基于學(xué)習(xí)的建模(modelingbylearning),如基于數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的各種模型、人工神經(jīng)網(wǎng)絡(luò)模型等。
第三章關(guān)鍵技術(shù)
互聯(lián)網(wǎng)用戶情緒表達研究的主要目標是在主題發(fā)現(xiàn)和追蹤技術(shù)的基礎(chǔ)上,通過自動發(fā)現(xiàn)和深入分析的方式綜合展現(xiàn)當(dāng)前的互聯(lián)網(wǎng)用戶的情緒傾向,其主要研究內(nèi)容包括:特點輿情熱點的自動發(fā)現(xiàn)、關(guān)鍵詞和摘要提取、互聯(lián)網(wǎng)用戶對特定輿情情緒的傾向性分析、傳播分析、互聯(lián)網(wǎng)用戶情緒趨勢分析和關(guān)聯(lián)分析等。
3.1輿情熱點的自動發(fā)現(xiàn)
輿情熱點自動發(fā)現(xiàn)是基于主題檢測技術(shù)幫助人們應(yīng)對信息過載問題的研究,以新聞、論壇、博客等媒體網(wǎng)頁作為處理對象,自動發(fā)現(xiàn)新出現(xiàn)的輿情熱點,并將涉及某個熱點的報道組織起來以某種方式呈現(xiàn)給用戶。其目標是要實現(xiàn)按熱點查找、組織和利用來自多種信息源的多語言信息。本技術(shù)可以提高輿情監(jiān)測的綜合性,實現(xiàn)對多種來源、多種形式輿情的綜合性分析和監(jiān)測能力,為全面掌握新聞、論壇、博客等各種網(wǎng)絡(luò)傳播媒介的輿情熱點、傳播動向、趨勢分析等提供基礎(chǔ),從而提高輿情監(jiān)測的全面性和精確性。
世界各國普遍重視網(wǎng)絡(luò)熱點信息發(fā)現(xiàn)、網(wǎng)絡(luò)信息形成傳播機制等方面研究的關(guān)鍵技術(shù)。目前關(guān)于網(wǎng)絡(luò)輿情熱點的研究主要如下兩個方向:
一是基于自然語言處理技術(shù)——詞頻統(tǒng)計方式的研究,涉及的技術(shù)有未登錄詞的識別、中英文分詞。針對快速發(fā)現(xiàn)熱點話題的問題,參考文獻[8]對日本最大的BBS系統(tǒng)進行了分類研究,基于BBS的共享目標(SharedGoals)、信息互惠(Reciprocity)、共享環(huán)境(SharedContext)等多種度量指標,提出了使用多維向量來度量話題活性的話題活性測量方法。這種研究方法無法對大量的話題在不基于歷史信息的情況下,快速發(fā)現(xiàn)討論熱點,均具有較長的時間滯后性或較高的計算復(fù)雜度。
二是從數(shù)據(jù)挖掘的角度考慮熱點信息的發(fā)現(xiàn),利用復(fù)雜網(wǎng)絡(luò)的特性對信息進行分類和聚類。熱點發(fā)現(xiàn)算法本質(zhì)上來說是屬于數(shù)據(jù)挖掘中的文本聚類算法,發(fā)現(xiàn)熱點的質(zhì)量與文本聚類算法本身的特性以及算法應(yīng)用中的各種閾值的設(shè)置是密切相關(guān)的。因為傳統(tǒng)的文檔聚類需要很多的參數(shù),而沒有有效的方法調(diào)整這些參數(shù),并且在熱點話題的識別中沒有先驗知識來構(gòu)造一個好的排序函數(shù)來對話題排序,且還很難決定話題熱的階段,中國香港中文大學(xué)的GabrielPui和CheongFung提出了參數(shù)自由的熱點話題識別方法。這種方法通過特征分布確定某一個時間單元熱的特征單元,然后把這些特征分組成熱的話題,并根據(jù)特征的時間窗口確定話題熱的階段。北京郵電大學(xué)的羅亞平、王樅等認為傳統(tǒng)的網(wǎng)絡(luò)熱點話題發(fā)現(xiàn)方法僅僅考慮了媒體關(guān)注度對形成熱點話題的影響,忽視了熱點話題的產(chǎn)生與社會大眾的關(guān)注有密切關(guān)系,進而提出基于話題關(guān)注度和用戶瀏覽行為的熱點話題發(fā)現(xiàn)模型,但這種模型中的相關(guān)參數(shù)很難獲取。
另外,識別出熱點話題后,如何對它們進行描述也是熱點話題發(fā)現(xiàn)的一個研究重點。在話題的顯示方面,國內(nèi)外沒有相關(guān)的研究,但是可以改進TDT和信息提取中的相關(guān)研究方法。
3.2輿情熱點的關(guān)鍵詞和摘要提取
輿情熱點的關(guān)鍵詞和摘要提取就是自動對輿情熱點的文檔集合摘取精要或要點,其目的是通過對原文本進行壓縮、提煉,為用戶提供簡明扼要的內(nèi)容描述。而關(guān)鍵詞和摘要都是描述一篇文章或一個文章集主要內(nèi)容的重要部分,不同之處在于摘要中提供的是語義連貫的句子,而關(guān)鍵詞抽取的是彼此獨立的詞匯。本技術(shù)可以為文檔或文檔集生成高質(zhì)量的關(guān)鍵詞或摘要,方便用戶瀏覽檢索結(jié)果或文檔集合,了解文檔或文檔集內(nèi)容。人們希望從海量文本中快速準確地獲得自己感興趣的內(nèi)容,這是信息檢索領(lǐng)域目前迫切需要解決的問題。然而現(xiàn)在的信息檢索系統(tǒng)只能提供給用戶檢索到的文檔全文,因此,人們提出了通過關(guān)鍵詞和摘要為用戶提供簡明扼要的內(nèi)容描述。關(guān)鍵詞是簡要描述一篇文檔內(nèi)容的重要元數(shù)據(jù),用戶可以通過關(guān)鍵詞迅速了解文檔的內(nèi)容,從而判斷文檔是否是自己感興趣的話題。自動關(guān)鍵詞技術(shù)不但可以滿足應(yīng)用需求,而且是其他方向研究的基礎(chǔ),為改進其他工作的質(zhì)量起到了很大的作用。例如關(guān)鍵詞提取是文本信息檢索技術(shù)的基礎(chǔ),文本信息檢索技術(shù)利用每篇文檔中的關(guān)鍵詞形成對文檔的索引,然后根據(jù)這些索引檢索出滿足條件的文檔。因此,形成一個有效、正確描述文檔的索引是文本信息檢索的關(guān)鍵,而這些索引的來源正是從文檔中提取出來的關(guān)鍵詞。
同關(guān)鍵詞一樣,摘要也是描述一篇文檔主要內(nèi)容的重要部分,不同的是摘要中提供的是語義連貫的句子,而不是彼此獨立的詞匯。根據(jù)處理的文檔的維度(Dimension),摘要可以分為單文檔摘要和多文檔摘要:單文檔摘要只對單篇文檔生成摘要,而多文檔摘要則對一個文檔集生成摘要。根據(jù)摘要所采用的方法,一般情況下,自動摘要技術(shù)大致可分為基于統(tǒng)計的摘錄式摘要和基于意義的理解式摘要兩類方法。其中這兩類方法的處理對象都可以是單文檔或是多文檔,實現(xiàn)技術(shù)也可以是有指導(dǎo)的或是無指導(dǎo)的?;诮y(tǒng)計的摘錄式摘要,也稱機械摘要,最終摘要的內(nèi)容完全是原文檔內(nèi)容的部分拷貝。基于統(tǒng)計的機械文摘是將文本看作句子的線性序列而將句子視為詞的線性序列,通過利用一些統(tǒng)計學(xué)方法和語言學(xué)特征進行文摘的生成,主要是根據(jù)線索詞詞典、詞頻、詞和句子的啟發(fā)函數(shù)進行模式匹配提取摘要。目前,摘錄式摘要基本上是以句子為提取單元的,因為基于句子的提取方法盡管可能會使句間存在不連貫,但句子本身是保持一致性和連貫性的;基于段落的提取會造成提取出的摘要冗余度較大,并且摘要的長度難以控制?;谝饬x的理解式摘要,主要是利用自然語言處理技術(shù)對文檔進行淺層或深層的理解,用句法和語義知識、一階謂詞邏輯等理論對文章的內(nèi)容在理解的基礎(chǔ)上,對其中的詞項、句子進行重組或替代來形成摘要?;谝饬x的理解文摘在過程中模仿了人工摘要的過程,應(yīng)用了詞、句、段及篇章的知識,因而使生成的文摘具有一定的連貫性和語句完整性,可讀性高。但它需要較成熟的人工智能技術(shù)和大型的專家知識庫,對文章進行深層的句法和語義分析,因而只能應(yīng)用到某些特定題材的、文體和內(nèi)容具有相當(dāng)可預(yù)見性的文章中,文摘質(zhì)量并不十分令人滿意。
3.3互聯(lián)網(wǎng)用戶情緒的傾向性分析
由于網(wǎng)絡(luò)的虛擬性和匿名性,使得網(wǎng)絡(luò)文本內(nèi)容在大多數(shù)情況下真實地表達出了民眾的態(tài)度或情緒,通過傾向性分析可以明確網(wǎng)絡(luò)傳播者的意圖和傾向。通俗地說,文本輿情描述的是文本所傳遞的情感。對文本輿情進行分析,實際上就是試圖根據(jù)文本的內(nèi)容提煉出作者的情感方向。輿情熱點的傾向性分析是指對熱點內(nèi)的文檔或回復(fù)信息進行傾向性分析,通過分析文本內(nèi)的褒義詞和貶義詞并結(jié)合上下文進行語境分析,或者通過基于機器學(xué)習(xí)的傾向性分析算法,從而計算出文檔或回復(fù)的傾向性因素。在得到傾向性因素的同時,可以加權(quán)給出每篇文檔的傾向性因素度量值,再按時間統(tǒng)計出該熱點的傾向性指標的總體變化以及某一段時間范圍內(nèi)的傾向性指標增量。當(dāng)傾向性指標超出某一安全范圍時可以給出提示信息,用于輿情信息的提前預(yù)警。
近幾年,基于文本的互聯(lián)網(wǎng)用戶情緒傾向性分析的研究逐漸成為國內(nèi)外研究者的一個熱點?;ヂ?lián)網(wǎng)用戶情緒傾向性分析指通過計算機技術(shù)自動分析文本信息所包含的情感因素,傾向性分析是一門交叉學(xué)科,涉及自然語言處理、機器學(xué)習(xí)、文本挖掘、人工智能、語言學(xué)等諸多領(lǐng)域。與以前傳統(tǒng)的人工處理方式相比,通過計算機自動提取大眾對某一問題的看法或輿論傾向是一個新的實時收集和分析信息的方法。它的優(yōu)勢如下:可以高效的處理信息,從而能夠應(yīng)對互聯(lián)網(wǎng)上日益泛濫的海量數(shù)據(jù);可以處理非結(jié)構(gòu)化的文本數(shù)據(jù),拓展了數(shù)據(jù)挖掘的處理對象。正是由于情感自動分析的這些優(yōu)勢,它有著眾多的潛在應(yīng)用領(lǐng)域。
至今為止,國內(nèi)外所從事的網(wǎng)絡(luò)文本傾向性分析研究工作可歸納為以下幾個方面:
(1)客觀性分類:從Web上獲取的評論文檔按照類型和風(fēng)格的不同區(qū)分為主觀和客觀兩類,這類工作以Finn等人為代表,其結(jié)論是基于詞性標注的特征選擇方法比詞袋方法效果好。Wiebe等人對人工標注的語料從短語、句子和篇章層次進行研究,發(fā)現(xiàn)對于不同的標注者,其主觀性的判別有較大差異。
(2)詞的極性判別:即通過分析帶有語氣淵的特征來判斷詞的極性。Hatzivassiloglou和McKeown使用關(guān)聯(lián)詞(如公平并合法,簡單卻受歡迎)來區(qū)分含義相近或相反的詞。Turney和Littman提出了一種方法,他們使用AltaVista中的NEAR運算從Web上搜索得到兩個詞同時出現(xiàn)的次數(shù),以此來決定兩個詞的相似程度,一個新詞歸屬于正面語氣還是負面語氣,取決于它和手工選擇的正面(或負面)種子詞集合中所有詞的關(guān)系,這類工作和常規(guī)的詞聚類問題有一定的關(guān)聯(lián)。Lin和Pereira等人使用語言學(xué)同位關(guān)系把用法和意義相似的詞進行了歸類。
(3)語氣分類:
①基于語氣標注的方法:加拿大渥太華大學(xué)的Kennedy、加拿大國家研究委員會的Turney等提出語氣詞標注方法,對常用詞匯進行語氣標注,如(“好”標為正面,“壞”標為負面)。分類時直接統(tǒng)計一篇評論中的正面與負面語氣詞的個數(shù),正面語氣詞多則判為正面,負面語氣詞多則判為負面,相等則判為客觀。
②基于語義模式分析的方法:TetsuyaNasukawa和JeongheeYi等通過識別特定主題詞和語氣表達式之間的語義關(guān)系進行傾向性分析。JeongheeYi等人采用自然語言處理技術(shù)分析特定主題和語氣詞之間的語義關(guān)聯(lián)。
③基于機器學(xué)習(xí)的方法:其思想是直接利用傳統(tǒng)的機器學(xué)習(xí)方法來訓(xùn)練語氣分類器??的螤柎髮W(xué)的LillianLee和PangBo等人以Usenet上的電影評論作為語料進行了研究,采用了不同的特征選擇方法和機器學(xué)習(xí)方法。其實驗結(jié)果顯示,基于presence--basedfrequency模型選擇UniGrams的方法,并采用SupportVectorMachine(SVM)進行分類,能取得最好的分類結(jié)果,其準確率為82.9%。
傾向性分析面臨的主要問題是目前的大部分方法和技術(shù)都和領(lǐng)域或話題相關(guān),局限在某個特定領(lǐng)域或者關(guān)聯(lián)于某個話題下進行傾向性的分析,缺乏一般性的通用技術(shù)?;谡Z氣詞標注的方法嚴重依賴于標注專家且不利用訓(xùn)練樣本,其分類精度往往不如基于機器學(xué)習(xí)的方法。而基于機器學(xué)習(xí)的傾向性分析方法又取決于訓(xùn)練集的大小與質(zhì)量,同時具有很強的領(lǐng)域或主題依賴性,由于已有的標注語料庫的規(guī)模都很小,因而這類有監(jiān)督的語氣分析方法的效果仍然難以保證?;谡Z義模式分析的方法則受限于自然語言處理技術(shù)的不夠成熟而很難實用。中文傾向性分析方面的情況則更加突出,一些基本問題尚未得到圓滿的解決:
(1)各種有監(jiān)督的機器學(xué)習(xí)方法在中文數(shù)據(jù)集上的語氣分類效果孰優(yōu)孰劣;
(2)文本特征表示方法和特征選擇機制等因素對中文語氣分類的性能將產(chǎn)生什么影響;
(3)文檔集的哪些語氣特征對語氣分類的精度具有決定性影響等。
因此,為解決上述問題,應(yīng)著重研究傾向性主客觀過濾技術(shù)和觀點極性、強度、情感分析判別技術(shù):研究網(wǎng)絡(luò)環(huán)境下傾向性特征詞的特點和類型,并進行語氣極性判別和標注,從而構(gòu)建一個面向互聯(lián)網(wǎng)的傾向性語氣詞典,建沒一定規(guī)模的標準數(shù)據(jù)集,為中文傾向性分析的深入研究和公開評測提供支持。
3.4輿情熱點傳播動態(tài)分析
輿情熱點傳播動態(tài)分析的目標是利用新聞、論壇、博客等關(guān)聯(lián)分析技術(shù),實現(xiàn)對某個熱點的傳播趨勢進行分析,用動態(tài)傳播圖的形式展現(xiàn)輿情傳播的線索。輿情傳播動態(tài)模塊對同一熱點的論壇帖文、博客文章、網(wǎng)站新聞進行基于時間的罰分策略計算關(guān)聯(lián)程度分析,以傳播網(wǎng)的形式給出同一主題在不同媒介之間的傳播關(guān)系,結(jié)合關(guān)注程度分析得出熱點的轉(zhuǎn)移趨勢,并以平面圖、傳播動畫示意圖展現(xiàn)給用戶。
3.5輿情熱點的趨勢分析和關(guān)聯(lián)分析
輿情熱點的趨勢分析和關(guān)聯(lián)分析是通過三維圖形下的信息挖掘模型,以波譜圖的方式展現(xiàn)一定時間周期內(nèi)的輿情變化以及輿情重點和相關(guān)關(guān)系等信息。該模塊通過粗細、亮暗、分叉的方式來表達同一時期的報道信息數(shù)量、關(guān)注度、趨勢等,為輿情變化判斷提供一定的參考。
第四章互聯(lián)網(wǎng)用戶情緒表達設(shè)計
在網(wǎng)絡(luò)時代,互聯(lián)網(wǎng)不僅成為人們發(fā)布信息的重要媒介,而且也是人們表達觀點、情緒情感的重要工具。對于相同的事物或事件,不同的人從不同視角出發(fā),往往對其持有不同的觀點和態(tài)度。例如,對于某件產(chǎn)品,一些用戶可能因喜歡其某方面的功能或特點而對之做正面(即褒義)評價;與此同時,另一些用戶也可能因為不喜歡其某方面的功能或特點而對之做負面(即貶義)評價。這些網(wǎng)上產(chǎn)品評價信息對于產(chǎn)品的潛在用戶和商家來說,有著巨大的實用價值。一方面,用戶可以通過閱讀這些產(chǎn)品評價信息來指導(dǎo)自己的購物行為;另一方面,產(chǎn)品的商家也可以通過了解這些用戶評價來改進自己的產(chǎn)品和服務(wù)。
然而,用戶想要全面了解互聯(lián)網(wǎng)上對于某種事物或事件的評價無疑是一項艱難的任務(wù)。這些海量評價信息不僅在數(shù)量上難以逐一瀏覽,而且這些信息由于受到用戶主觀認識的影響,往往表現(xiàn)出復(fù)雜多樣的特點。互聯(lián)網(wǎng)用戶情緒表達中的情感傾向分析技術(shù)正是通過讓計算機自動識別海量文檔集合中的主觀褒貶態(tài)度,以使用戶從繁重的網(wǎng)頁瀏覽和信息融合工作中解脫出來。
情感傾向分析技術(shù)使計算機通過對文本內(nèi)容的處理,幫助區(qū)分文本內(nèi)容是否為主觀評價性內(nèi)容,進而識別這種主觀評價是褒義還是貶義。在近年來的情感傾向分析研究中,也開始關(guān)注如何識別情感評價的主體及評價對象?;跈C器學(xué)習(xí)的文本分類、聚類等技術(shù)在情感傾向分析研究中得到了廣泛的運用。
4.1中文信息的特征抽取
4.1.1文本信息的特征抽取和選擇
文本的表示及其特征項的選取是互聯(lián)網(wǎng)用戶情緒傾向分析的一個基本問題,它把從文本中抽取山的特征詞進打造化來表示文本信息。將它們從—個無結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計算機可識別處理的信息,即對文本進行科學(xué)的抽象,建立它的數(shù)學(xué)模型,用來描述和替代文木,使計算機能夠通過對這種模型的計算和操作來實現(xiàn)對文本的識別。由于文本是非結(jié)構(gòu)化的數(shù)據(jù),要想從大量的文本中挖掘有用的信息,就必須首先將文木轉(zhuǎn)化為可處理的結(jié)構(gòu)化形式。
目前,人們通常采用向量空間模型來描述文本向量,但是如果直接用由分詞算法和詞頻統(tǒng)計方法得到的特征項來表示文本向量中的各個維,那么這個向量的維度將是非常的大。這種未經(jīng)處理的文本向量不僅給后續(xù)工作帶來了巨大的計算開銷,使整個處理過程的效率非常低下,而且會損害分類、聚類算法的精確性,從而使所得到的結(jié)果難以令人滿意。因此,必須對文本向量做進一步凈化處理,在保證原文含義的基礎(chǔ)廣,找出對文本特征類別最且代表性的文本特征。為了解決這個問題,最有效的辦法就是通過特征選擇來降維。
有關(guān)文本表示的研究主要集中丁文本表不模型的選撣和特征詞算法的選取上。用于表示文本的基本單位通常成為文本的特征或特征項。特征項必須具備以下幾種一定的特征:
①特征項要能夠準確標識文本內(nèi)容;
②特征項具行將目標文本與其他文本相區(qū)分的能力
③特征項的個數(shù)不能太多。
④持征項分離要比較容易實現(xiàn)。
在中文文本中可以采用宇、詞或短語作為表示文本的特征項。相對而言,詞比字具有更強的表達能力:而詞和短語相比,詞的區(qū)分難度比短語的區(qū)分難度小得多。因此,日前大多數(shù)中文文本分類系統(tǒng)都采用詞作為特征項,稱為特征詞。
特征詞作為文檔的中間表示形式,用來實現(xiàn)文檔與文檔、文檔與用戶目標之間的相似度計算。如果把所有的詞都作為特征項,那么特征向量的維數(shù)將過于巨大,從而導(dǎo)致計算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特征抽取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),以此來降低向量空間維數(shù),人們簡化計算,提高文本處理的速度和效率。
文本特征選擇對文本內(nèi)容的過濾和分類、聚類處理、自動摘要,以及用戶興趣模式發(fā)現(xiàn)、知識發(fā)現(xiàn)等相關(guān)方而的研究有著非常重要的影響。通常根據(jù)某個特征評估函數(shù)計算各個特征的評分值,然后按評分值對這些特征進行排序,選取教干個評分值最高的作為特征詞,這就是特征抽取。
特征選取的方式有以下4種:
①映射或變換的方法把原始特征變換為較少的新特征。
②從原始特征中挑選出一些最具代表性的特征。
③根據(jù)專家的知識挑選最有影響的特征。
④用數(shù)學(xué)的方法進行選取,找出最具分類信息的特征,這種方法是一種比較精確的方法,其受人為因素的干擾較少,尤其適合于文本自動分類挖掘系統(tǒng)。
4.1.2中文的語義特征抽取
(1)漢語分詞
漢語是一種孤立語,不同于印歐語系的很多具有曲折變化的語言,漢語的詞匯只有一種形式而沒有諸如復(fù)數(shù)等變化。另一方面,漢語不存在顯式(類似空格)的詞邊界標志,因此需要研究中文(漢語和中文對應(yīng)的概念不完全一致,在不引起混淆的情況下,文本未進行明確區(qū)分而依照常用習(xí)慣選擇使用)文本自動切分為詞序列的中文分詞技術(shù)。中文分詞方法最早采用了最大匹配法,即與詞表中最長的詞優(yōu)先匹配的方法。根據(jù)掃描語句的方向,可以分為正向最大匹配以及雙向最大匹配等多種形式。
梁南元的研究結(jié)果表明,在詞典完備、不借助其他知識的條件下,最大匹配法的錯誤切分率為169字/次~245字/次。該研究實現(xiàn)于1987年,以現(xiàn)在的條件來看當(dāng)時的實驗規(guī)模可能偏小,另外如何判定分詞結(jié)果是否正確,也有較大的主觀性。最大匹配法由于思路直觀、實現(xiàn)簡單、切分速度快等優(yōu)點,所以應(yīng)用較為廣泛。采用最大匹配法進行分詞遇到的基本問題是切分歧義的消除問題和未登錄詞(新詞)的識別問題。
為了消除歧義,研究人員嘗試了多種人工智能領(lǐng)域的方法:如松弛法、擴充轉(zhuǎn)移網(wǎng)絡(luò)法、短語結(jié)構(gòu)文法、專家系統(tǒng)法、神經(jīng)網(wǎng)絡(luò)法、有限狀態(tài)機方法、隱馬爾科夫模型、Brill式轉(zhuǎn)換法。這些分詞方法從不同角度總結(jié)歧義產(chǎn)生的可能原因,并嘗試建立歧義消除模型,也達到了一定的準確程度。然而由于這些方法未能實現(xiàn)對中文詞的真正理解,也沒有找到一個可以妥善處理各種分詞相關(guān)語言現(xiàn)象的機制,因此目前尚沒有廣泛認可的完善歧義消除方法。
未登錄詞識別是中文分詞時遇到的另一個難題,未登錄詞也稱為新詞,是指分詞時所用詞典中未包含的詞,常見有人名、地名、機構(gòu)名稱等專有名詞,以及相關(guān)領(lǐng)域的專業(yè)術(shù)語。這些詞不包含在分詞詞典中又對分類有貢獻,就需要考慮如何進行有效識別。
未登錄詞識別可以從統(tǒng)計和專家系統(tǒng)兩個角度進行:統(tǒng)計方法從大規(guī)模語料中獲取高頻連續(xù)漢字串,作為可能的新詞;專家系統(tǒng)方法則是從各類專有名詞庫中總結(jié)相關(guān)類別新詞的構(gòu)建特征、上下文特點等規(guī)則。當(dāng)前對未登錄詞的識別研究,相對于歧義消除來說更不成熟。
(2)漢語亞詞
在亞詞級別,漢語處理也與英語存在一些不同之處,一方面,漢語中比詞級別更低的文字組成部分是字,與英文中單詞含有的字母數(shù)量相比偏少,詞長度以2~4個字為主。對搜狗輸入法中34萬條詞表進行統(tǒng)計,不同長度詞所占詞表比例分別為兩字詞35.57%,三字詞33.98%,四字詞27.37%,其余長度共3.08%。
另一方面,漢語包含的漢字數(shù)量遠遠多于英文字母數(shù)量,GB2312一1980標準共收錄6763個常用漢字(GB2312—1980另有682個其他符號,GB18030—2005標準收錄了27484個漢字,同時還收錄了藏文、蒙文、維吾爾文等主要的少數(shù)民族文字),該標準還是屬于收錄漢字較少的編碼標準。在實際計算中,漢語的二元模型已超過了英文中5元模型的組合數(shù)量,即67632(45738169)>265(11881376)。
因此,漢語采用n元模型就陷入了一個兩難境地:n較小時(n=1),缺乏足夠的語義表達能力;n較大時(n=2或3),則不僅計算困難,而且n的取值已經(jīng)使得n元模型的長度達到甚至超過詞的長度,又失去了英語中用于彌補錯誤拼寫的功能。因此漢語的n元模型往往用于其他用途,在中文信息處理中,可以利用二元或三元漢字模型來進行詞的統(tǒng)計識別,這種做法基于一個假使,即詞內(nèi)字串高頻同現(xiàn),但并不組止詞的字串低頻出現(xiàn)。
在網(wǎng)絡(luò)內(nèi)容安全中,n元模型也有重要的應(yīng)用,對于不可信來源的文本可以采用二元分詞方法(即二元漢字模型),例如“一二三四”的二:元分詞結(jié)果為“一二”、“二三”和“三四”。這種表示方法,可以在一定程度上消除信息發(fā)布者故意利用常用分詞的切分結(jié)果來躲避過濾的情況。
4.1.3特征子集選擇
特征子集選擇從原有輸入空間,即抽取出的所有特征項的集合,選擇一個子集合組成新的輸入空間。輸入空間也稱為特征集合。選擇的標準是要求這個子集盡可能完整的保留文本類別區(qū)分能力,而舍棄那些對文本分類無貢獻的特征項。
機器學(xué)習(xí)領(lǐng)域存在多種特征選擇方法,Guyon等人對特征子集選擇進行了詳盡討論,分析比較了目前常用的3種特征選擇方式:過濾(filter)、組合(wrappers)與嵌入(embedded)。文本分類問題由于訓(xùn)練樣本多、特征維數(shù)高等特點,決定了在實際應(yīng)用中以過濾方式為主,并且采用評級方式(SingleFeatureRanking),即對每個特征項進行單獨的判斷,以決定該特征項是否會保留下來,而沒有考慮其他更全面的搜索方式,以降低運算量。在對所有特征項進行單獨評價后,可以選擇給定評價函數(shù)大于某個閾值的子集組成新的特征集合,也可以評價函數(shù)值最大的特定數(shù)量特征項來組成特征集。
特征子集選擇涉及文本中的定量信息,一些相關(guān)參數(shù)定義如表4-1所示。
表4-1文檔及特征項各參數(shù)含義
N
訓(xùn)練樣本數(shù)
nci
ci類別包含的訓(xùn)練樣本數(shù)
n(t)
包含特征項t至少一次的訓(xùn)練樣本數(shù)
n(t)
不包含特征項t的訓(xùn)練樣本數(shù)
nci(t)
ci類別包含特征項t至少一次的訓(xùn)練樣本數(shù)
nci(t)
ci類別不包含特征項t的訓(xùn)練樣本數(shù)
tf
所有訓(xùn)練樣本中所有特征項出現(xiàn)的總次數(shù)
tf(t)
特征項t在所有訓(xùn)練樣本中出現(xiàn)的次數(shù)
tfdj(t)
特征項t在文檔dj中出現(xiàn)的次數(shù)
很容易可知,參數(shù)間滿足如下關(guān)系:
n=i=1knci
表示樣本總數(shù)等于各類別樣本數(shù)之和。
nt=i=1knci(t)
表示只包含任一特征項t的樣本集合,也滿足類似關(guān)系。
n=nt+n(t)
表示nt和nt互補。
nci=ncit+nci(t)
表示這種關(guān)系也適用于任意給定文本類別。
tf=i=1mtfti
tft=j=1ntfdjt
分別表示tf和tf(t)的計算方法。
利用這些參數(shù),結(jié)合統(tǒng)計、信息論等學(xué)科,即可進行特征子集選擇。
4.1.4特征重構(gòu)
特征重構(gòu)以特征項集合為輸入,利用對特征項的組合或轉(zhuǎn)換生成新的特征集合作為輸出。一方面,特征重構(gòu)要求輸出的特/征數(shù)量要遠遠少于輸入的數(shù)量,以達到降維目的;另一方面,轉(zhuǎn)換后的特征集合應(yīng)當(dāng)盡可能的保留原有類別區(qū)分能力,以實現(xiàn)有效分類。與特征子集選擇相比較,特征重構(gòu)生成的新特征項不要求對應(yīng)原有的特征項,新特征頂可以是內(nèi)原米單個或多個特征項經(jīng)某種映射關(guān)系轉(zhuǎn)換而成的。這種轉(zhuǎn)換規(guī)則需要保存下來,以便于對新的樣本也進行同樣的轉(zhuǎn)換,以得到這樣本所對應(yīng)特征重構(gòu)情況的表木形式。
特征重構(gòu)有基于語義的方法,如詞干與知識庫方法:也有基于統(tǒng)計等數(shù)學(xué)方法,如潛在語義索引。
4.1.5向量生成
向量生成將給文字特征項賦予合適的權(quán)重,與向量生成相關(guān)的一些參數(shù)定義:設(shè)共有m項t1,?tm特征,對給定樣本d,有每一個特征出現(xiàn)的頻率次數(shù)組成特征頻率向量DTF=TFDt1,?,TFDtmT,其中TFDti表示ti在樣本d中出現(xiàn)的次數(shù),向量生成環(huán)節(jié)在此基礎(chǔ)上的權(quán)重向量d=wd,t1,?,wd,tmT
一個樣本中某些特征項的權(quán)重由局部系數(shù)、全局系數(shù)和正規(guī)化系數(shù)3部分組成。
wd,t=w1(d,t)wgtwnd
4.2基于粒網(wǎng)絡(luò)生成規(guī)則的文本情感識別
基于粒計算的文本情感識別模型分為以下兩個模塊:
4.2.1文本預(yù)處理模塊
用于對情感文本訓(xùn)練集進行預(yù)處理,包括提取情感候選詞、特征詞提取、文本向量表示。首先將260篇訓(xùn)練文本用中科院中文分詞系統(tǒng)ICT—CLAS分詞。
(1)提取情感候選詞。傳統(tǒng)的基于主題的文本分類是以文本訓(xùn)練集作為輸入,由于在文本情感分類中具有情感傾向的詞具有主導(dǎo)作用,所以GRCSC模型加入了知網(wǎng)的HowNet正面情感詞庫、負面情感詞庫、正面評價詞庫、負面評價詞庫作為輸入,提取情感文本訓(xùn)練集中的情感詞和評價詞作為特征選擇的候選特征詞。
本文用譚松波公開的文本情感分類的語料中隨機選取了260篇作為訓(xùn)練集。首先提取候選特征詞211個。
表4-2和表4-3是部分候選詞。
表4-2部分正面候選詞
候選詞
條件閾值
候選詞
條件閾值
候選詞
條件閾值
便利
0
是
0.9575
星級
1
喜歡
0
優(yōu)雅
0
便宜
0.9183
好
0.8708
需要
0.9709
熱情
0.6500
滿意
0.7982
周到
0
快捷
0
要
0.7982
實惠
0
一流
0
免費
0.9457
花
1
驚喜
0
禮貌
0
大
0.994
整潔
0
舒適
0
高
0.9886
簡單
0.7219
高級
0
豪華
1
齊全
0.8112
貴
1
清潔
0
合適
0
表4-3部分負面候選詞
候選詞
條件閾值
候選詞
條件閾值
候選詞
條件閾值
冷冰冰
0
差
0.5983
小氣
0
虛假
0
次
0.8116
破舊
0
陳舊
0.4537
失望
0.8812
簡陋
0
骯臟
0
濫
0
老
0.9877
反
0.8823
后悔
0
亂
0.6500
慘痛
0
后怕
0
氣憤
0
投訴
0
不行
0.9183
鬧
1
舊
0.9984
勉強
1
冷淡
0
糟糕
0
蠻橫
0
非
0.997
豈有此理
0
簡單
0.7219
臟兮兮
0
一塌糊涂
0
慘不忍睹
0
擔(dān)心
1
(2)在候選詞中提取特征詞。相對目前的文本情感分類在訓(xùn)練集中進中提取到候選特征詞后,會有一些對文本分類不重要的特征詞被提取出來。如“便宜”這個詞,如兩個評論文本:
句1:這個酒店環(huán)境差、位置偏、設(shè)備陳舊,所以價格便宜。
句2:這個酒店的服務(wù)態(tài)度好,而且價格便宜。
在句1中有特征詞“便宜”,文本的極性是“neg”;句2中特征詞也有“便宜”,而文本的極性是“pos”。
HowNet是一個情感詞傾向性標注的標準,具有分布面廣、收錄全的優(yōu)點,不過根據(jù)它提取的特征詞并一定適用專業(yè)領(lǐng)域的評價文本,如“便宜”、“要”,“想”,“老”,“鬧”,“免費”等這些詞,這些提取出來的特征詞對分類的影響不大。所以要對這些候選特征詞做二次提取。
《基于多重標記CRF的句子情感分析研究》中指出,總體上,對于文本情感傾向分類,信息增益優(yōu)于其他特征選擇方法。所以本書用信息增益的方法對候選特征進行二次提取,得到最終的分類特征集。
信息增益(InformationGain)是其包含信息量的度量,是一種比較好的特征項抽取方法,一般用熵來表示。對沒有先驗知識的待聚類文本進行特征項抽取,詞條tk。對待聚類文本的信息增益為IGtk為:
IGtk=HD-HD|tk
其中文本集合D的信息熵為:
HD=-di∈DPdi×log2Pdi
詞條tk的條件熵:
HD|tk=-di∈D(Pdi|tk×log2Pdi|tk)
IGtk反映了tk所包含的信息量。將IGtk由大到小排序,由排序的結(jié)果我們可以設(shè)置閾值,做截斷處理,排在前面對應(yīng)的上下文候選特征詞最終取得列選特征的資格。Pdi|tk分布越均勻,它提供的不確定信息越大;相反,如果概率分布越集中,它提供的不確定性信息越小。對于分類或聚類來說,這種不確定性的信息還是越小越好。即IGtk的取值越大,這個詞所包含的信息量也越大,對分類或聚類能夠提供的信息也越多,選擇這個詞作為特征詞,對分類或聚類的不確定性就越小。
本文中我們選擇信息增益(InformationGain)的特征項抽取方法。
表4-4是按信息增益特征詞排序結(jié)果,設(shè)置截斷,選擇85個特征詞最終生成文本向量表示。
表4-4特征詞信息增益排序
特征詞
信息增益
特征詞
信息增益
差
0.1057
表揚
0.0195
不錯
0.0736
整潔
0.0195
周到
0.0341
投訴
0.0195
溫馨
0.0235
滿意
0.0195
簡陋
0.0235
滿意
0.1822
臟
0.0235
實惠
0.1556
糟糕
0.0235
便利
0.1556
陳舊
0.0475
一流
0.1556
(3)文本的向量表示。B.Pang在文獻指出布爾型概率估算在文本情感分類中優(yōu)于詞頻型特征概率估算。本文用布爾型向量表示訓(xùn)練文本集。
Vd=ωt1,ωt2,ωt3,?,ωtn
Wtn=0,1
4.2.2粒網(wǎng)絡(luò)生成規(guī)則模塊
(1)粒網(wǎng)絡(luò)建立模塊。根據(jù)文本向量逐層建立粒網(wǎng)絡(luò),直到產(chǎn)生全部粒網(wǎng)絡(luò)。
(2)根據(jù)粒網(wǎng)絡(luò)提取規(guī)則。圖4—4是粒網(wǎng)絡(luò)生成規(guī)則的文本情感分類模型。
圖4—4粒網(wǎng)絡(luò)生成規(guī)則的文本情感分類模型
圖4-5是陳舊=1的基本粒引出的粒網(wǎng)絡(luò)的分支。因為語料都是短小的一兩句話的評價,并且算法是基于覆蓋的,所以產(chǎn)生的規(guī)則都是四個公式以內(nèi)的短規(guī)則。
圖4-5陳舊=1的基本粒引出的粒網(wǎng)絡(luò)的分支
4.2.3對測試集應(yīng)用規(guī)則得到分類結(jié)果并評價
正確率定義如下:
Accuracy=A+DA+D+B+C
其中,A正面文本正確分類情況;D代表了負面文本正確分類的情況;B代表正面文本錯誤分類情況;C則代表了負面文本錯誤分類的情況。
通過對78個測試集應(yīng)用規(guī)則實驗,分類結(jié)果如下:
A=23
D=29
第五章互聯(lián)網(wǎng)用戶情緒表達實現(xiàn)
互聯(lián)網(wǎng)用戶情緒的體現(xiàn),最基本的要做到分析互聯(lián)網(wǎng)文本信息,對互聯(lián)網(wǎng)用戶用文本表達情感識別又叫做文本傾向性分析,基本的目標就是實現(xiàn)區(qū)分出正面、負面或者中性,這叫做極性分類??梢园春脨撼潭确殖龈嗟募墑e,例如,1~5星級,這叫做星級評分。
對互聯(lián)網(wǎng)用戶情緒的識別,例如對某個電影或酒店的評論自動分類出極性或者星級,這樣區(qū)分出好評和差評。也許想進一步對好在哪里、差在何處做更細致的分析,所以出現(xiàn)了更細粒度的基于特征的情感識別,例如區(qū)分出對手機屏幕或者照相機畫質(zhì)的評價。為了準確地識別級性,可以考慮對文本的主客觀語句分類,提取出n個最主觀的句子來概括整個評論的褒貶傾向。從技術(shù)上來說,就是從主客觀混合文本語料中抽取表示主觀性的文本。
為了實現(xiàn)基于特征的情感識別,需要從上下文提取出評價的對象。需要提取描述對象的特征,然后判斷傾向性描述在每個特征上的極性?!疤卣鳌币辉~在這里既表示描述對象的組成也表示屬性。
特征抽取是獲得關(guān)于主題某一方面的具體描述,如汽車的油耗與操控性、數(shù)碼相機的電池壽命口和信息抽取相比,情感分析中的特征抽取更加自由,因為獲得的結(jié)果不要求是結(jié)構(gòu)化的。在某些應(yīng)用中,特征抽取比情感取向判斷更加重要,因為需要關(guān)注用戶的具體意見。例如對某款照相機的評價統(tǒng)計:
照相機:
褒義:125<獨立的評價句子>
貶義:7<獨立的評價句子>
特征:畫質(zhì)
衰義:123<獨立的評價句子>
貶義:6<獨立的評價句子>
特征:大小
褒義:82<獨立的評價句子>
貶義:10獨立的評價句子>
對事物的觀點有直接觀點和對比觀點兩種。
直接觀點:例如,這款相機的畫質(zhì)的確有點爛。
對比觀點:例如,這款相機的畫質(zhì)比camera-x好。進行這類情感分析時,首先要確定觀點的目標對象是誰。在這個例子中需要用到指代消解確定這款相機指哪款照相機。
有時候,作者將情緒和事實一起來表達,如“3寸的液晶顯示屏取景非常細致清晰”。用戶的所表達的情緒和具體的特征是分不開的。
除了這些經(jīng)典的問題外,在針對社會媒體的情感分析中,我們面臨更多的挑戰(zhàn)。例如,并非所有的與主題相關(guān)的用戶為中心的內(nèi)容都是重要的,只有其中少部分引起關(guān)注和討論,甚至進而影響其他用戶的觀念和行為。因此,評估它們的影響力和預(yù)測它們是否
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 4牧業(yè)行政辦公室年終工作總結(jié)和某年工作計劃
- 淺析網(wǎng)絡(luò)計劃技術(shù)在施工項目管理中的問題計算機
- 大學(xué)生學(xué)期計劃
- 安全管理部的培訓(xùn)計劃
- 2025年銷售人員月工作計劃范文
- 春季學(xué)期教導(dǎo)處工作計劃范文教學(xué)
- 數(shù)學(xué)備課組教學(xué)工作計劃
- 2020版 滬教版 高中音樂 必修6音樂與戲劇 上篇《第二單元 粉墨春秋》大單元整體教學(xué)設(shè)計2020課標
- 合同保留期限的規(guī)定
- 停車場收費系統(tǒng)網(wǎng)絡(luò)接入合同條款
- 全球半導(dǎo)體制造類eda行業(yè)發(fā)展白皮書-沙利文-2024120
- 噴涂工程合同范本
- 01685《動漫藝術(shù)概論》自考必背考試題庫(含答案)
- 《THPJC-2型機床電氣技能實訓(xùn)考核鑒定裝置》-X62W萬能銑床電氣線路分析及故障排除與分析
- 2024年廣東省高中學(xué)業(yè)水平合格性考試語文試卷真題(含答案解析)
- CJ/T 83-2016 水處理用斜管
- CJJ181-2012 城鎮(zhèn)排水管道檢測與評估技術(shù)規(guī)程
- 勞動勞務(wù)合同模板
- 2024南寧學(xué)院教師招聘考試筆試試題
- 醫(yī)師定期考核業(yè)務(wù)水平測試題庫(5000題可查找)
- 部編版五年級上冊道德與法治期末測試卷附參考答案【綜合題】
評論
0/150
提交評論