復(fù)雜網(wǎng)絡(luò)與可視化研究所_第1頁(yè)
復(fù)雜網(wǎng)絡(luò)與可視化研究所_第2頁(yè)
復(fù)雜網(wǎng)絡(luò)與可視化研究所_第3頁(yè)
復(fù)雜網(wǎng)絡(luò)與可視化研究所_第4頁(yè)
復(fù)雜網(wǎng)絡(luò)與可視化研究所_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第復(fù)雜網(wǎng)絡(luò)與可視化研究所基于復(fù)雜網(wǎng)絡(luò)可視化模型的專題新聞演化研究

[摘要]本文是基于復(fù)雜網(wǎng)絡(luò)的思想,根據(jù)card(1999)提出的信息可視化參考模型構(gòu)建的專題新聞文本集信息可視化的概念模型和形式化模型,以溫州動(dòng)車事故專題新聞文本集為例,對(duì)專題新聞按照時(shí)間段分為三個(gè)時(shí)期,并對(duì)不同時(shí)期進(jìn)行信息可視化分析,分析總結(jié)新聞演化過(guò)程。分析得出,隨著時(shí)間的變化,新聞集中的關(guān)注點(diǎn)發(fā)生變化,而且關(guān)注點(diǎn)會(huì)逐漸變得分散,新聞的關(guān)注度也逐漸減少。

[關(guān)鍵詞]專題新聞;信息可視化;演化

doi:10.3969/j.issn.1673-0194.2012.24.047

[中圖分類號(hào)]G203[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2012)24-0077-02

1引言

隨著計(jì)算機(jī)網(wǎng)絡(luò)的出現(xiàn),信息技術(shù)迅速發(fā)展,人類進(jìn)入了信息爆炸的時(shí)代。信息爆炸的一個(gè)重要表現(xiàn)就是新聞信息飛速增加。新聞傳播的更新速度和傳播效率不斷加快,這種加快導(dǎo)致新聞數(shù)量不斷增大,各種信息非常分散。為了能快捷地了解新聞的演化過(guò)程,直觀地觀察信息之間的復(fù)雜關(guān)系,需要一門結(jié)合科學(xué)可視化、數(shù)據(jù)挖掘、圖像技術(shù)、圖形學(xué)、人機(jī)交互和認(rèn)知科學(xué)等諸多學(xué)科理論或方法的新學(xué)科,這就是20世紀(jì)80年代末誕生的可視化技術(shù)。

復(fù)雜網(wǎng)絡(luò)的主要思想是將真實(shí)系統(tǒng)中各部分之間的聯(lián)系看作一個(gè)復(fù)雜網(wǎng)絡(luò),以網(wǎng)絡(luò)的形式來(lái)抽象地描述真實(shí)系統(tǒng)中各部分之間的關(guān)系,強(qiáng)調(diào)系統(tǒng)結(jié)構(gòu)的拓?fù)涮卣?,從而使人們更好地了解現(xiàn)實(shí)世界系統(tǒng)的本質(zhì)特征。一個(gè)典型的網(wǎng)絡(luò)是由許多節(jié)點(diǎn)與連接節(jié)點(diǎn)之間的邊組成的。節(jié)點(diǎn)代表系統(tǒng)中的實(shí)體,邊則表示節(jié)點(diǎn)之間的作用關(guān)系。

2復(fù)雜網(wǎng)絡(luò)可視化模型

2.1信息實(shí)體的提取

本文采用人工方式選擇及提取新聞文本信息實(shí)體,按照專題新聞文本信息實(shí)體的定義和選擇新聞文本信息實(shí)體的原則與方法可以將專題新聞文本中不同要素的信息實(shí)體按不同粒度提取出來(lái),形成信息實(shí)體庫(kù)。新聞文本信息實(shí)體之間的存在的各種關(guān)系,即信息實(shí)體之間形成的有意義的系統(tǒng)的聯(lián)系,即為信息實(shí)體之間的聯(lián)系。本文中兩個(gè)信息實(shí)體出現(xiàn)在相同新聞文本中的新聞文本數(shù)量即為這兩個(gè)信息實(shí)體之間的關(guān)聯(lián)權(quán)重。

2.2模型構(gòu)建

可視化模型包含3個(gè)要素:信息實(shí)體、信息實(shí)體關(guān)聯(lián)和信息實(shí)體網(wǎng)絡(luò)。新聞文本信息實(shí)體的實(shí)質(zhì)就是能代表新聞文本內(nèi)容的基本信息單位。新聞文本信息實(shí)體關(guān)聯(lián)也就是新聞文本信息實(shí)體之間形成的有意義的系統(tǒng)的聯(lián)系。信息實(shí)體網(wǎng)絡(luò)是由用戶信息需求、信息實(shí)體和信息實(shí)體關(guān)聯(lián)構(gòu)成的。

通過(guò)數(shù)據(jù)變換從專題新聞文本集中提取信息實(shí)體,經(jīng)過(guò)可視化映射過(guò)程,信息實(shí)體及信息實(shí)體關(guān)聯(lián)轉(zhuǎn)換為可視化的結(jié)構(gòu)。最后進(jìn)行視圖變換利用可視化顯示技術(shù)將所得的信息實(shí)體網(wǎng)絡(luò)用直觀的、易于理解的圖形方式顯示出來(lái)。

2.3復(fù)雜網(wǎng)絡(luò)可視化模型的分析

網(wǎng)絡(luò)度是描述網(wǎng)絡(luò)中某一節(jié)點(diǎn)連接其他節(jié)點(diǎn)程度的概念,定義文本網(wǎng)絡(luò)中的度是與某個(gè)節(jié)點(diǎn)有聯(lián)系的節(jié)點(diǎn)的總數(shù),通過(guò)可視化結(jié)果分析,度大的節(jié)點(diǎn)出現(xiàn)在句子中的次數(shù)越多,則該詞的重要程度越高,是文中的關(guān)鍵實(shí)體。

最短路徑是用來(lái)測(cè)量網(wǎng)絡(luò)結(jié)構(gòu)中距離最好的方法,路徑是由從一個(gè)節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)的不重復(fù)邊構(gòu)成,與網(wǎng)絡(luò)度和網(wǎng)絡(luò)節(jié)點(diǎn)強(qiáng)度不同的是,它不僅考慮了節(jié)點(diǎn)的近鄰節(jié)點(diǎn),還考慮了間接節(jié)點(diǎn)。最短路徑是衡量實(shí)體連通性好壞的標(biāo)準(zhǔn),最短路徑越短,實(shí)體節(jié)點(diǎn)在文章中起到的作用越重要。

聚類系數(shù)反映網(wǎng)絡(luò)的緊密程度,整個(gè)網(wǎng)絡(luò)的聚類系數(shù)是所有節(jié)點(diǎn)的聚類系數(shù)的平均值,聚類系數(shù)則反映文章內(nèi)容的緊密程度。這項(xiàng)特征值的分析主要是對(duì)文本的內(nèi)容進(jìn)行評(píng)價(jià),聚類系數(shù)越大,文本復(fù)雜網(wǎng)絡(luò)的緊密程度越好,也就是文本內(nèi)容在表述上更緊密與緊湊。

3實(shí)證分析

本次收集的新聞文本報(bào)道時(shí)間從2011年7月23日20:34分至2012年4月13日8:05。本文利用谷歌快訊推送含有“溫州”、“動(dòng)車”關(guān)鍵詞的新聞,共搜集到新聞總量為892條。由于樣本量太大,進(jìn)行了抽取。依照不同新聞時(shí)間抽取不同數(shù)量的新聞文本。本次抽取新聞共100條。

3.1總體網(wǎng)絡(luò)分析

利用UCINET將動(dòng)車事故新聞文本集信息實(shí)體網(wǎng)絡(luò)的關(guān)聯(lián)矩陣轉(zhuǎn)化為直觀的信息實(shí)體網(wǎng)絡(luò)圖,如圖1所示。災(zāi)后重建新聞文本集信息實(shí)體網(wǎng)絡(luò)圖直觀地展示了所收集的100個(gè)災(zāi)后重建新聞文本中的主要信息。

在全局網(wǎng)中,度數(shù)排名前五的非時(shí)間關(guān)鍵詞為:“溫州”、“北京”、“國(guó)務(wù)院”、“溫家寶”、“召開(kāi)記者會(huì)”。

在全局網(wǎng)中,平均最短路徑為1.019。表明全局網(wǎng)各節(jié)點(diǎn)之間的連貫性和凝聚力較好。

在全局網(wǎng)中,基于距離的聚類系數(shù)為0.990。聚類系數(shù)非常大,證明復(fù)雜網(wǎng)絡(luò)的緊密程度較好。

3.2演化分析

按照溫州動(dòng)車事故新聞文本數(shù)量的變化,把此事件分為3個(gè)部分,如圖2所示,可是分為爆發(fā)期、轉(zhuǎn)折期與平穩(wěn)期3個(gè)階段。

第一階段新聞爆發(fā)時(shí)期,從2011年7月23日開(kāi)始到7月28日,共抽取76條新聞,87個(gè)信息實(shí)體。爆發(fā)期網(wǎng)絡(luò)中,度數(shù)排名前五的非時(shí)間節(jié)點(diǎn)為“溫州”、“溫家寶”、“召開(kāi)記者會(huì)”、“動(dòng)車”、“北京”。此網(wǎng)絡(luò)的平均最短路徑為1.033,基于距離的聚類系數(shù)為0.983。表明此網(wǎng)絡(luò)的連貫性和凝聚力較好,緊密程度較好。

第二階段新聞轉(zhuǎn)折時(shí)期,從2011年7月29日開(kāi)始到7月31日,共抽取11條新聞,22個(gè)信息實(shí)體。轉(zhuǎn)折期網(wǎng)絡(luò)中,度數(shù)排名前五的非時(shí)間節(jié)點(diǎn)為“溫州”、“北京”、“簽訂賠償協(xié)議”、“家屬”、“國(guó)務(wù)院”。此網(wǎng)絡(luò)的平均路徑為1.905,較爆發(fā)期網(wǎng)絡(luò)有所增長(zhǎng),表明網(wǎng)絡(luò)的連通性和凝聚力變?nèi)??;诰嚯x的聚類系數(shù)為0.591,較網(wǎng)絡(luò)一減少,表明網(wǎng)絡(luò)變得比較分散。

第三階段新聞平穩(wěn)期,從2011年8月1日開(kāi)始到2012年4月13日,共抽取13條新聞,33個(gè)信息實(shí)體。平穩(wěn)期網(wǎng)絡(luò)中,度數(shù)排名前五的非時(shí)間節(jié)點(diǎn)為“北京”、“國(guó)務(wù)院”、“事故處理”、“安監(jiān)局”、“調(diào)查結(jié)束”。平穩(wěn)期網(wǎng)絡(luò)的平均最短路徑為2.313,基于距離的聚類系數(shù)為0.504。3.3結(jié)果與討論

通過(guò)對(duì)新聞事件按時(shí)間分成不同時(shí)期,對(duì)不同時(shí)期的信息實(shí)體建立可視化模型,對(duì)不同時(shí)期的網(wǎng)絡(luò)圖進(jìn)行對(duì)比研究,可以從網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)、節(jié)點(diǎn)的度、平均最短路徑以及基于距離的聚類系數(shù)方面分析出新聞演化的過(guò)程。

專題新聞不同時(shí)期的關(guān)注點(diǎn)不同。通過(guò)對(duì)溫州動(dòng)車事故的實(shí)證研究可以看出,不同時(shí)期的節(jié)點(diǎn)度數(shù)排名有很大不同。爆發(fā)期關(guān)注點(diǎn)集中在“溫州”,即事件的發(fā)生地。平穩(wěn)期關(guān)注點(diǎn)集中在“北京”,即事件的處理中心。

專題新聞不同時(shí)期的關(guān)注度不同。通過(guò)對(duì)溫州動(dòng)車事故的實(shí)證研究可以看出,不同時(shí)期的網(wǎng)絡(luò)平均最短路徑與聚類系數(shù)不同,由爆發(fā)期到轉(zhuǎn)折期再到平穩(wěn)期,網(wǎng)絡(luò)的平均最短路徑不斷增大,基于距離的聚類系數(shù)不斷減小。意味著網(wǎng)絡(luò)的凝聚性越來(lái)越小,網(wǎng)絡(luò)逐漸變得分散。這一方面是由于新聞的關(guān)注點(diǎn)逐漸變得分散,另一方面是由于新聞的數(shù)量逐漸變少,表明新聞的關(guān)注度逐漸變少。

4結(jié)語(yǔ)

新聞是人們獲取各種各樣信息的主要方式,也是最容易獲得的公共信息。通過(guò)信息可視化構(gòu)建專題新聞演化的信息實(shí)體網(wǎng)絡(luò),展示新聞演化過(guò)程,不僅能節(jié)省人們的大量的閱讀時(shí)間而且能提高人們的信息獲取能力,發(fā)現(xiàn)隱藏在新聞中的潛藏信息,有利于為管理決策提供依據(jù)。本文從網(wǎng)絡(luò)構(gòu)建的角度出發(fā),構(gòu)建了專題新聞演化信息可視化模型,并對(duì)溫州動(dòng)車事故專題新聞文本集進(jìn)行了實(shí)證研究,利用復(fù)雜網(wǎng)絡(luò)展示專題新聞演化過(guò)程。

但是仍然存在以下不足需要進(jìn)一步研究:

(1)信息實(shí)體的選取方法。本文主要根據(jù)新聞要素說(shuō)提出從時(shí)間、地點(diǎn)、主體、事件4個(gè)方面提取信息實(shí)體以代表專題新聞文本中的主要信息。但是這4個(gè)方面只是代表了新聞文本中的主要信息,而新聞文本中的其他信息則丟失了,無(wú)法在專題新聞文本集可視化視圖中展示出來(lái)。因此需要進(jìn)一步研究如何選擇信息實(shí)體以代表專題新聞文本集中的全部信息,減少信息的丟失。

(2)信息實(shí)體的提取方法。本文采取的手工提取信息實(shí)體的方法,由于不同信息處理者對(duì)信息的獲取、處理的能力不同,或者由于新聞文本寫作的不規(guī)范導(dǎo)致新聞要素的缺失,會(huì)造成對(duì)于同一篇新聞文本不同信息處理者提取的信息實(shí)體不同的結(jié)果,特別是對(duì)于語(yǔ)義描述性信息實(shí)體(事件)的影響更大。所以需要進(jìn)一步探討如何客觀地提取信息實(shí)體,使信息實(shí)體的提取結(jié)果更能準(zhǔn)確地表示新聞文本集中的信息。

(3)深入分析新聞演化可視化結(jié)果。本文只是對(duì)演化的結(jié)果進(jìn)行了簡(jiǎn)單分析,沒(méi)有利用網(wǎng)絡(luò)分析方法深入研究所構(gòu)建的不同時(shí)期信息實(shí)體網(wǎng)絡(luò)的特性。有必要對(duì)專題新聞不同時(shí)期信息實(shí)體網(wǎng)絡(luò)的特性進(jìn)行深入研究以期發(fā)現(xiàn)新的不同時(shí)期網(wǎng)絡(luò)特性,進(jìn)一步分析新聞的演化過(guò)程。

主要參考文獻(xiàn)

[1]SHStrogatz.ExploringComplexNetworks[J].Nature,2001(41

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論