大數(shù)據(jù)可視化技術(shù)-文本數(shù)據(jù)可視化拓展_第1頁
大數(shù)據(jù)可視化技術(shù)-文本數(shù)據(jù)可視化拓展_第2頁
大數(shù)據(jù)可視化技術(shù)-文本數(shù)據(jù)可視化拓展_第3頁
大數(shù)據(jù)可視化技術(shù)-文本數(shù)據(jù)可視化拓展_第4頁
大數(shù)據(jù)可視化技術(shù)-文本數(shù)據(jù)可視化拓展_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

文本數(shù)據(jù)可視化本章要點1、文本可視化的定義2、文本可視化的基本流程3、文本數(shù)據(jù)的提取4、文本內(nèi)容的可視化5、文本關(guān)系的可視化1什么是文本數(shù)據(jù)可視化

文本數(shù)據(jù)可視化就是將一篇文本尤其是數(shù)據(jù)信息密度較低的文本進行一定的處理,從中提取出最能代表文本所表達內(nèi)容的信息,并將這些信息進行可視化的處理,簡而言之就是:將復(fù)雜的文本數(shù)據(jù)轉(zhuǎn)化為直觀的圖形,以方便人們洞悉。2.1文本數(shù)據(jù)可視化的基本流程原始文本文本預(yù)處理文本特征抽取文本特征度量圖元設(shè)計圖元布局交互設(shè)計2.2.1文本可視化的分類根據(jù)對文本的理解需求分類詞匯級(LexicalLevel)

詞匯級使用各類分詞算法語法級(SyntacticLevel)

語法級使用一些句法分析算法語義級(SemanticLevel)

語義級則使用主題提取算法2.2.2文本可視化的分類根據(jù)文本數(shù)據(jù)分類單文本——文本內(nèi)容的可視化

文本內(nèi)容可視化是對文本內(nèi)的關(guān)鍵信息分析后的展示文檔集合——文本關(guān)系的可視化

文本關(guān)系的可視化既可以對單個文本進行內(nèi)部的關(guān)系展示,也可以對多個文本進行文本之間的關(guān)系展示時序文本數(shù)據(jù)——文本多層面信息的可視化

文本多特征信息的可視化,是結(jié)合文本的多個特征進行全方位的可視化展示。3文本數(shù)據(jù)的提取

——網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲(WebCrawler)是指一類能夠自動化訪問網(wǎng)絡(luò)并抓取某些信息的程序,有時候也被稱為“網(wǎng)絡(luò)機器人”。它們最早被應(yīng)用于互聯(lián)網(wǎng)搜索引擎及各種門戶網(wǎng)站的開發(fā)中,現(xiàn)在也是大數(shù)據(jù)和數(shù)據(jù)分析領(lǐng)域中的重要角色。爬蟲可以按一定邏輯大批量采集目標頁面內(nèi)容,并對數(shù)據(jù)做進一步的處理。大部分編程語言都可以實現(xiàn)爬蟲程序的編寫,也有部分商業(yè)軟件提供爬蟲服務(wù)。目前比較流行的就是用Python編寫爬蟲,有大量的第三方庫可以使用,常見的有Request、urlib、Scrapy等。其中Scrapy庫提供了比較完善的爬蟲框架,可以省去很多麻煩。4.1關(guān)鍵詞可視化一個詞語若在一個文本中出現(xiàn)頻率較高,那么這個詞語可能就是這個文本的關(guān)鍵詞。在實際應(yīng)用當中還要考慮到這些詞是否在其他文本中也經(jīng)常出現(xiàn),例如“的”等詞語。一般做法是構(gòu)建一個停用詞表,在分詞階段就將這些詞去除。還可以進一步采用TF-IDF(TermFrequency-InverseDocumentFrequency)方法來計算詞語對表達文本信息的重要程度。4.1.1關(guān)鍵詞可視化——標簽云

1、統(tǒng)計文本中詞語出現(xiàn)頻率、TF-IDF等指標來衡量詞語的重要程度,提取出權(quán)重較高關(guān)鍵詞;2、按照一定規(guī)律將這些詞展示出來,可以用顏色透明度的高低、字體的大小來區(qū)分關(guān)鍵詞的重要程度,要遵循權(quán)重越高越能吸引注意力的原則。一般權(quán)重越大字體越大,顏色越鮮艷,透明度越低。4.1.2關(guān)鍵詞可視化——文檔散文檔散使用詞匯庫中的結(jié)構(gòu)關(guān)系來布局關(guān)鍵詞,同時使用詞語關(guān)系網(wǎng)中具有上下語義關(guān)系的詞語來布局關(guān)鍵詞,從而揭示文本內(nèi)容。1、將一個單詞作為中心點。中心點的詞匯可以由用戶指定,選擇不同的中心點詞匯呈現(xiàn)出的可視化結(jié)果將大不相同;2、將整個文章內(nèi)的詞語呈現(xiàn)在一個放射式層次圓環(huán)中,外層的詞是內(nèi)層詞的下義詞。顏色飽和度的深淺用來體現(xiàn)詞頻的高低。標簽云文檔散4.2時序文本可視化時序文本具有時間性和順序性,比如,新聞會隨著時間變化,小說的故事情節(jié)會隨著時間變化,網(wǎng)絡(luò)上對某一新聞事件的評論會隨著真相的逐步揭露而變化。對具有明顯時序信息的文本進行可視化時,需要在結(jié)果中體現(xiàn)這種變化。我們主要通過以下三種“流圖來”來滿足這種可視化需求。主題河流文本流故事流經(jīng)典的主題河流模型包括以下兩個屬性。(1)顏色。顏色用以區(qū)分主題的類型,相同主題用相同顏色的涌流表示。主題過多時顏色可能無法滿足需求,因為容易區(qū)分的顏色種類并不是很多。一個解決方法是將主題也進行分類,一種顏色表示某一大類主題;(2)寬度,表示主題的數(shù)量(或強度),涌流的狀態(tài)隨著主題的變化,可能擴展、收縮或者保持不變。文本流是主題河流的又一種變形,可以表達主題變化,以及隨著時間流動,各個主題之間的分裂和合并信息。故事流則可以表達文本的情節(jié)或者電影中的情節(jié)。

通過使用主題河流圖,時序文本內(nèi)容整體的變化趨勢就能很容易地被用戶獲取。可以看出,主題河流存在一定局限性,該做法將每個時間刻度上的主題高度概括為一個數(shù)值,省略了主題的特性,無法滿足用戶再進一步的信息需求。一個較好的做法是為主題引入標簽云,每個主題用一組關(guān)鍵詞描述,讓用戶更好理解主題內(nèi)容。

圖所示的主題河流可視化示例,橫軸表示時間,河流中的不同顏色的涌流表示不同的主題,涌流的流動表示主題的變化。在任意時間點上,涌流的垂直寬度表示主題的強弱。4.3文本分布可視化文本分布可視化實際上是引入了詞語在文本當中的位置、句子長度等信息,這些信息常被制作成文本弧。文本弧特性如下:(1)用一條螺旋線表示一篇文章,螺旋線的首尾對應(yīng)著文章的首尾,文章的詞語有序地分布在螺旋線上;(2)若詞語在整篇文章中出現(xiàn)得比較頻繁,則靠近畫布的中心區(qū)域分布;(3)若詞語只是在局部出現(xiàn)得比較頻繁,則靠近螺旋線分布;(4)字體的大小和顏色深度代表著詞語的出現(xiàn)頻率。4文本關(guān)系可視化文本關(guān)系包括文本內(nèi)或者文本間的關(guān)系,以及文本集合之間的關(guān)系,文本關(guān)系可視化的目的就是呈現(xiàn)這些關(guān)系。文本內(nèi)的關(guān)系有詞語的前后關(guān)系;文本間的關(guān)系有網(wǎng)頁之間的超鏈接關(guān)系,文本之間內(nèi)容的相似性,文本之間的引用等;文本集合之間的關(guān)系是指文本集合內(nèi)容的層次性等關(guān)系。4.1.1基于圖的文本關(guān)系可視化

——詞語樹

詞語樹(WordTree)使用樹形圖展示詞語在文本中的出現(xiàn)情況,可以直觀地呈現(xiàn)出一個詞語和其前后的詞語。用戶可自定義感興趣的詞語作為中心節(jié)點。中心節(jié)點向前擴展,就是文本中處于該詞語前面的詞語;中心節(jié)點向后擴展,就是文本中處于該詞語后面的詞語。字號大小代表了詞語在文本中出現(xiàn)的頻率。4.1.2基于圖的文本關(guān)系可視化

——短語網(wǎng)絡(luò)

節(jié)點是從文本中挖掘出的詞匯級或語法級的語義單元,邊代表語義單元的聯(lián)系,邊的方向即短語的方向,邊的寬度是短語在文本中出現(xiàn)的頻率。4.2文檔間關(guān)系可視化當對多個文檔進行可視化展示時,針對文本內(nèi)容進行可視化的方法就不適合了。此時可以引人向量空間模型來計算出各個文檔之間的相似性,單個文檔被定義成單個特征向量,最終以投影等方式來呈現(xiàn)各文檔之間的關(guān)系。4.2.1星系視圖星系視圖(GalaxyView)可用于表征多個文檔之間的相似性。假設(shè)一篇文檔是一顆星星,每篇文檔都有其主題,將所有文檔按照主題投影到二維平面上,就如同星星在星系中一樣。文檔的主題越相似,星星之間的距離就越近;文檔的主題相差越大,星星之間的距離就越遠。星星聚集得越多,就表示這些文檔

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論