大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第6章 文本數(shù)據(jù)可視化、拓展_第1頁
大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第6章 文本數(shù)據(jù)可視化、拓展_第2頁
大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第6章 文本數(shù)據(jù)可視化、拓展_第3頁
大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第6章 文本數(shù)據(jù)可視化、拓展_第4頁
大數(shù)據(jù)可視化技術(shù)與應(yīng)用 課件 第6章 文本數(shù)據(jù)可視化、拓展_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第6章文本數(shù)據(jù)可視化文本數(shù)據(jù)可視化概述

綜合多種學(xué)科,幫助人們理解復(fù)雜文本內(nèi)容、結(jié)構(gòu)、和內(nèi)在規(guī)律,提取出最能代表文本的信息,并進行可視化。本章要點文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取使用網(wǎng)絡(luò)爬蟲提取文本數(shù)據(jù)關(guān)鍵詞可視化時序文本可視化文本分布可視化文本關(guān)系可視化未來文本可視化主題文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取海量的文本數(shù)據(jù)

人類社會不斷積累文本信息,在計算機時代大量數(shù)據(jù)可以存儲在一塊很小的硬盤中。在互聯(lián)網(wǎng)上,每天都有海量的“用戶生成內(nèi)容”。文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取面臨的難題人們接收信息的速度已經(jīng)小于信息產(chǎn)生的速度,尤其是文本信息海量信息使人們處理和理解的難度日益增大傳統(tǒng)的文本分析技術(shù)提取的信息仍然無法滿足人們利用瀏覽及篩選等方式對其進行合理的分析理解和應(yīng)用。簡單實用的文本可視化文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本可視化的重要作用通過視覺符號的形式表達文本內(nèi)容,便于人們快速理解文本信息將無結(jié)構(gòu)的文本信息自動轉(zhuǎn)換為可視的有結(jié)構(gòu)信息。使人類視覺認知、關(guān)聯(lián)、推理的能力得到充分的發(fā)揮。結(jié)合機器智能和人工智能,為人們更好的理解文本和發(fā)現(xiàn)知識聽過了新的有效途徑。文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本可視化的應(yīng)用從人文研究到政府決策,從精準醫(yī)療到量化金融,從客戶管理到市場營銷,這些海量的文本作為最重要的信息載體之一,處處發(fā)揮著舉足輕重的作用情報分析人員、網(wǎng)絡(luò)內(nèi)容分析人員、情感分析或文學(xué)研究者等相關(guān)職業(yè)更需要文本可視化。文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取大數(shù)據(jù)中文本可視化基本流程原始文本文本分析文本預(yù)處理文本特征抽取文本特征度量可視化呈現(xiàn)圖元設(shè)計圖元布局用戶認知交互設(shè)計文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本分析內(nèi)容文本可視化依賴于自然語言處理,因此詞袋模型、命名實體識別、關(guān)鍵詞抽取、主題分析、情感分析等是較常用的文本分析技術(shù)。過程主要包括:文本數(shù)據(jù)預(yù)處理,過濾無效信息特征提取,提取出文本詞匯及的內(nèi)容以靈活有文本特征的度量,分析分本間相似性、文本聚類等表示這些過程處理過的數(shù)據(jù)文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取可視化呈現(xiàn)及用戶感知(1)信息圖

1.文本內(nèi)容的視覺編碼主要涉及尺寸、顏色、形狀、方位、文理等

2.文本間關(guān)系的視覺編碼主要涉及網(wǎng)絡(luò)圖、維恩圖、樹狀圖、坐標軸等。 3.選擇合適的視覺編碼呈現(xiàn)文本信息的各種特征(2)交互

高亮、縮放、動態(tài)轉(zhuǎn)換、關(guān)聯(lián)更新等文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本理解需求等級及對應(yīng)挖掘方法詞匯級(LexicalLevel)——各類分詞算法語法級(SyntacticLevel)——語句分析算法語義級(SemanticLevel)——主題提取算法文本數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用及提取文本數(shù)據(jù)單文本文檔集合時序文本數(shù)據(jù)文本可視化文本內(nèi)容的可視化文本關(guān)系的可視化文本多層面信息的可視化文本數(shù)據(jù)大致可分為三種:單文本、文檔集合和時序文本數(shù)據(jù)。對應(yīng)的文本可視化也可分為三類:文本內(nèi)容可視化文本關(guān)系可視化文本多層面信息的可視化使用網(wǎng)絡(luò)爬蟲提取文本數(shù)據(jù)網(wǎng)絡(luò)爬蟲(WebCrawler)是指一類能夠自動化訪問網(wǎng)絡(luò)并抓取某些信息的程序,有時候也被稱為“網(wǎng)絡(luò)機器人”。它們最早被應(yīng)用于互聯(lián)網(wǎng)搜索引擎及各種門戶網(wǎng)站的開發(fā)中,現(xiàn)在也是大數(shù)據(jù)和數(shù)據(jù)分析領(lǐng)域中的重要角色。爬蟲可以按一定邏輯大批量采集目標頁面內(nèi)容,并對數(shù)據(jù)做進一步的處理,人們借此能夠更好更快的獲得并使用他們感興趣的信息,從而方便地完成很多有價值的工作。使用網(wǎng)絡(luò)爬蟲提取文本數(shù)據(jù)大部分編程語言都可以實現(xiàn)爬蟲程序的編寫,也有部分商業(yè)軟件提供爬蟲服務(wù)。目前比較流行的就是用Python編寫爬蟲,有大量的第三方庫可以使用,常見的有Request、urlib、Scrapy等。其中Scrapy庫提供了比較完善的爬蟲框架,如圖所示,可以省去很多麻煩。文本內(nèi)容可視化一段文本的內(nèi)容可以用高頻詞、短語、句子、主題等代表,但是文本可視化遇到的任務(wù)通常是對有海量文本的集合進行可視化分析,針對不同類型的文本集合,我們有不同的方法來進行可視化分析。關(guān)鍵詞可視化

關(guān)鍵詞可視化標簽云按照一定規(guī)律將這些詞展示出來,可以用顏色透明度的高低、字體的大小來區(qū)分關(guān)鍵詞的重要程度,要遵循權(quán)重越高越能吸引注意力的原則。一般權(quán)重越大字體越大,顏色越鮮艷,透明度越低關(guān)鍵詞可視化文檔散文檔散使用詞匯庫中的結(jié)構(gòu)關(guān)系來布局關(guān)鍵詞,同時使用詞語關(guān)系網(wǎng)中具有上下語義關(guān)系的詞語來布局關(guān)鍵詞,從而揭示文本內(nèi)容。上下語義關(guān)系是指詞語之間往往存在語義層級的關(guān)系,也就是說,一些詞語是某些詞語的下義詞。而在一篇文章中,具有上下語義關(guān)系的詞語一般是同時存在的。時序文本可視化

時序文本具有時間性和順序性,比如,新聞會隨著時間變化,小說的故事情節(jié)會隨著時間變化,網(wǎng)絡(luò)上對某一新聞事件的評論會隨著真相的逐步揭露而變化。對具有明顯時序信息的文本進行可視化時,需要在結(jié)果中體現(xiàn)這種變化。時序文本可視化主題河流法主題河流(Themeriver)是由SusanHavre等學(xué)者于2000年提出的一種時序數(shù)據(jù)可視化方法,主要用于反映文本主題強弱變化的過程。右圖所示的主題河流可視化示例,橫軸表示時間,河流中的不同顏色的涌流表示不同的主題,涌流的流動表示主題的變化。在任意時間點上,涌流的垂直寬度表示主題的強弱。文本關(guān)系可視化文本關(guān)系包括文本內(nèi)或者文本間的關(guān)系,以及文本集合之間的關(guān)系,文本關(guān)系可視化的目的就是呈現(xiàn)這些關(guān)系。文本內(nèi)的關(guān)系有詞語的前后關(guān)系;文本間的關(guān)系有網(wǎng)頁之間的超鏈接關(guān)系,文本之間內(nèi)容的相似性,文本之間的引用等;文本集合之間的關(guān)系是指文本集合內(nèi)容的層次性等關(guān)系。文本關(guān)系可視化基于圖的文本關(guān)系可視化詞語樹是使用樹形圖展示詞語在文本中的出現(xiàn)情況,可以直觀地呈現(xiàn)出一個詞語和其前后的詞語。用戶可自定義感興趣的詞語作為中心節(jié)點。中心節(jié)點向前擴展,就是文本中處于該詞語前面的詞語;中心節(jié)點向后擴展,就是文本中處于該詞語后面的詞語。字號大小代表了詞語在文本中出現(xiàn)的頻率。如圖所示,圖中采用了詞語樹的方法來呈現(xiàn)一個文本中Child這個詞與其相連的前后所有的詞語。文本關(guān)系可視化基于圖的文本關(guān)系可視化短語網(wǎng)絡(luò)包括以下兩種屬性。節(jié)點,代表一個詞語或短語。帶箭頭的連線,表示節(jié)點與節(jié)點之間的關(guān)系,這個關(guān)系需要用戶定義,比如,“AisB“,其中的is用連線表示,A和B是is前后的兩個節(jié)點詞語。A在is前面,B在is后面,那么箭頭就由A指向B。連線的寬度越寬,就說明這個短語在文中出現(xiàn)的頻率越高。圖中使用短語網(wǎng)絡(luò)對某小說中的“*the*”關(guān)系進行可視化。文本關(guān)系可視化文檔間關(guān)系可視化

當對多個文檔進行可視化展示時,針對文本內(nèi)容進行可視化的方法就不適合了。此時可以引人向量空間模型來計算出各個文檔之間的相似性,單個文檔被定義成單個特征向量,最終以投影等方式來呈現(xiàn)各文檔之間的關(guān)系。文檔間關(guān)系可視化星系視圖星系視圖(GalaxyView)可用于表征多個文檔之間的相似性。假設(shè)一篇文檔是一顆星星,每篇文檔都有其主題,將所有文檔按照主題投影到二維平面上,就如同星星在星系中一樣。文檔的主題越相似,星星之間的距離就越近;文檔的主題相差越大,星星之間的距離就越遠。星星聚集得越多,就表示這些文檔的主題越相近,并且數(shù)量較多;若存在多個聚集點則說明文檔集合中包含多種主題的文檔。文檔間關(guān)系可視化文檔集抽樣投影當一個文檔集中包含的文檔數(shù)量過大時,投影出來的星系視圖中就會產(chǎn)生很多重疊的星星。為了避免這種重疊情況的出現(xiàn),用戶可以對文檔集進行抽樣,有選擇性地抽取部分文檔進行投影,這樣可以更加清晰地顯示每個樣本。未來文本可視化主題交互式增量文本分析多層次可視文本總結(jié)(關(guān)鍵詞+句子)多方面的文本分析(例如,總結(jié)+情感分析)多媒體文檔摘要(文本+圖像+視頻)

互動、可視的社交媒體分析第6章文本數(shù)據(jù)可視化本章要點1、文本可視化的定義2、文本可視化的基本流程3、文本數(shù)據(jù)的提取4、文本內(nèi)容的可視化5、文本關(guān)系的可視化1什么是文本數(shù)據(jù)可視化

文本數(shù)據(jù)可視化就是將一篇文本尤其是數(shù)據(jù)信息密度較低的文本進行一定的處理,從中提取出最能代表文本所表達內(nèi)容的信息,并將這些信息進行可視化的處理,簡而言之就是:將復(fù)雜的文本數(shù)據(jù)轉(zhuǎn)化為直觀的圖形,以方便人們洞悉。2.1文本數(shù)據(jù)可視化的基本流程原始文本文本預(yù)處理文本特征抽取文本特征度量圖元設(shè)計圖元布局交互設(shè)計2.2.1文本可視化的分類根據(jù)對文本的理解需求分類詞匯級(LexicalLevel)

詞匯級使用各類分詞算法語法級(SyntacticLevel)

語法級使用一些句法分析算法語義級(SemanticLevel)

語義級則使用主題提取算法2.2.2文本可視化的分類根據(jù)文本數(shù)據(jù)分類單文本——文本內(nèi)容的可視化

文本內(nèi)容可視化是對文本內(nèi)的關(guān)鍵信息分析后的展示文檔集合——文本關(guān)系的可視化

文本關(guān)系的可視化既可以對單個文本進行內(nèi)部的關(guān)系展示,也可以對多個文本進行文本之間的關(guān)系展示時序文本數(shù)據(jù)——文本多層面信息的可視化

文本多特征信息的可視化,是結(jié)合文本的多個特征進行全方位的可視化展示。3文本數(shù)據(jù)的提取

——網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲(WebCrawler)是指一類能夠自動化訪問網(wǎng)絡(luò)并抓取某些信息的程序,有時候也被稱為“網(wǎng)絡(luò)機器人”。它們最早被應(yīng)用于互聯(lián)網(wǎng)搜索引擎及各種門戶網(wǎng)站的開發(fā)中,現(xiàn)在也是大數(shù)據(jù)和數(shù)據(jù)分析領(lǐng)域中的重要角色。爬蟲可以按一定邏輯大批量采集目標頁面內(nèi)容,并對數(shù)據(jù)做進一步的處理。大部分編程語言都可以實現(xiàn)爬蟲程序的編寫,也有部分商業(yè)軟件提供爬蟲服務(wù)。目前比較流行的就是用Python編寫爬蟲,有大量的第三方庫可以使用,常見的有Request、urlib、Scrapy等。其中Scrapy庫提供了比較完善的爬蟲框架,可以省去很多麻煩。4.1關(guān)鍵詞可視化一個詞語若在一個文本中出現(xiàn)頻率較高,那么這個詞語可能就是這個文本的關(guān)鍵詞。在實際應(yīng)用當中還要考慮到這些詞是否在其他文本中也經(jīng)常出現(xiàn),例如“的”等詞語。一般做法是構(gòu)建一個停用詞表,在分詞階段就將這些詞去除。還可以進一步采用TF-IDF(TermFrequency-InverseDocumentFrequency)方法來計算詞語對表達文本信息的重要程度。4.1.1關(guān)鍵詞可視化——標簽云

1、統(tǒng)計文本中詞語出現(xiàn)頻率、TF-IDF等指標來衡量詞語的重要程度,提取出權(quán)重較高關(guān)鍵詞;2、按照一定規(guī)律將這些詞展示出來,可以用顏色透明度的高低、字體的大小來區(qū)分關(guān)鍵詞的重要程度,要遵循權(quán)重越高越能吸引注意力的原則。一般權(quán)重越大字體越大,顏色越鮮艷,透明度越低。4.1.2關(guān)鍵詞可視化——文檔散文檔散使用詞匯庫中的結(jié)構(gòu)關(guān)系來布局關(guān)鍵詞,同時使用詞語關(guān)系網(wǎng)中具有上下語義關(guān)系的詞語來布局關(guān)鍵詞,從而揭示文本內(nèi)容。1、將一個單詞作為中心點。中心點的詞匯可以由用戶指定,選擇不同的中心點詞匯呈現(xiàn)出的可視化結(jié)果將大不相同;2、將整個文章內(nèi)的詞語呈現(xiàn)在一個放射式層次圓環(huán)中,外層的詞是內(nèi)層詞的下義詞。顏色飽和度的深淺用來體現(xiàn)詞頻的高低。標簽云文檔散4.2時序文本可視化時序文本具有時間性和順序性,比如,新聞會隨著時間變化,小說的故事情節(jié)會隨著時間變化,網(wǎng)絡(luò)上對某一新聞事件的評論會隨著真相的逐步揭露而變化。對具有明顯時序信息的文本進行可視化時,需要在結(jié)果中體現(xiàn)這種變化。我們主要通過以下三種“流圖來”來滿足這種可視化需求。主題河流文本流故事流經(jīng)典的主題河流模型包括以下兩個屬性。(1)顏色。顏色用以區(qū)分主題的類型,相同主題用相同顏色的涌流表示。主題過多時顏色可能無法滿足需求,因為容易區(qū)分的顏色種類并不是很多。一個解決方法是將主題也進行分類,一種顏色表示某一大類主題;(2)寬度,表示主題的數(shù)量(或強度),涌流的狀態(tài)隨著主題的變化,可能擴展、收縮或者保持不變。文本流是主題河流的又一種變形,可以表達主題變化,以及隨著時間流動,各個主題之間的分裂和合并信息。故事流則可以表達文本的情節(jié)或者電影中的情節(jié)。

通過使用主題河流圖,時序文本內(nèi)容整體的變化趨勢就能很容易地被用戶獲取??梢钥闯?,主題河流存在一定局限性,該做法將每個時間刻度上的主題高度概括為一個數(shù)值,省略了主題的特性,無法滿足用戶再進一步的信息需求。一個較好的做法是為主題引入標簽云,每個主題用一組關(guān)鍵詞描述,讓用戶更好理解主題內(nèi)容。

圖所示的主題河流可視化示例,橫軸表示時間,河流中的不同顏色的涌流表示不同的主題,涌流的流動表示主題的變化。在任意時間點上,涌流的垂直寬度表示主題的強弱。4.3文本分布可視化文本分布可視化實際上是引入了詞語在文本當中的位置、句子長度等信息,這些信息常被制作成文本弧。文本弧特性如下:(1)用一條螺旋線表示一篇文章,螺旋線的首尾對應(yīng)著文章的首尾,文章的詞語有序地分布在螺旋線上;(2)若詞語在整篇文章中出現(xiàn)得比較頻繁,則靠近畫布的中心區(qū)域分布;(3)若詞語只是在局部出現(xiàn)得比較頻繁,則靠近螺旋線分布;(4)字體的大小和顏色深度代表著詞語的出現(xiàn)頻率。4文本關(guān)系可視化文本關(guān)系包括文本內(nèi)或者文本間的關(guān)系,以及文本集合之間的關(guān)系,文本關(guān)系可視化的目的就是呈現(xiàn)這些關(guān)系。文本內(nèi)的關(guān)系有詞語的前后關(guān)系;文本間的關(guān)系有網(wǎng)頁之間的超鏈接關(guān)系,文本之間內(nèi)容的相似性,文本之間的引用等;文本集合之間的關(guān)系是指文本集合內(nèi)容的層次性等關(guān)系。4.1.1基于圖的文本關(guān)系可視化

——詞語樹

詞語樹(WordTree)使用樹

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論