大數(shù)據(jù)可視化技術第7章-復雜數(shù)據(jù)可視化課件

上傳人：世*** IP屬地：貴州上傳時間：2022-07-19 格式：PPTX 頁數(shù)：56 大小：12.35MB 積分：25 舉報 版權申訴

大數(shù)據(jù)可視化技術第7章-復雜數(shù)據(jù)可視化課件_第2頁

大數(shù)據(jù)可視化技術第7章-復雜數(shù)據(jù)可視化課件_第3頁

大數(shù)據(jù)可視化技術第7章-復雜數(shù)據(jù)可視化課件_第4頁

大數(shù)據(jù)可視化技術第7章-復雜數(shù)據(jù)可視化課件_第5頁

已閱讀5頁，還剩51頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、第7章復雜數(shù)據(jù)可視化復雜數(shù)據(jù)可視化背景IDC全球大數(shù)據(jù)支出指南龐大的產(chǎn)業(yè)推動著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等領域信息的產(chǎn)生和流動，越來越多復雜且瞬息萬變的數(shù)據(jù)被記錄和研究，如視頻影像數(shù)據(jù)、傳感器網(wǎng)絡數(shù)據(jù)、社交網(wǎng)絡數(shù)據(jù)的時空數(shù)據(jù)等。對此類具有高復雜度的高維多元數(shù)據(jù)進行解析、呈現(xiàn)和應用是數(shù)據(jù)可視化面臨的新挑戰(zhàn)。面臨的困難數(shù)據(jù)復雜度大大增加。數(shù)據(jù)的量級大大增加。數(shù)據(jù)質(zhì)量的問題。實時分析與可視化技術存在一定問題常規(guī)的可視化方法散點圖：將各屬性的值映射到不同的坐標軸，并確定數(shù)據(jù)點在坐標系中的位置。當維度超過三維后，就需要增加更多視覺編碼來表示其他維度的數(shù)據(jù)，如顏色、大小、形狀等。視覺編碼的增多會使可視化的效果

2、變差，而且能增加的表示維度有限，這種方法還是有局限性。高維多元數(shù)據(jù)在大數(shù)據(jù)中的應用高維多元數(shù)據(jù)指每個數(shù)據(jù)對象有兩個或兩個以上獨立或者有相關屬性的數(shù)據(jù)。高維（ Multidimensional）指數(shù)據(jù)具有多個獨立屬性，多元（ Multivariate）指數(shù)據(jù)具有多個相關屬性。若要科學、準確地描述高維多元數(shù)據(jù)，則需要數(shù)據(jù)同時具備獨立性和相關性。在很多情況，數(shù)據(jù)的獨立性很難判斷，所以一般簡單的稱之為多元數(shù)據(jù)。例如：筆記本電腦的屏幕、CPU、內(nèi)存、顯卡等配置信息就是一個多元數(shù)據(jù)，每個數(shù)據(jù)都描述了筆記本電腦的一方面的屬性?？梢暬夹g常被用于多元數(shù)據(jù)的理解，進而輔助分析和決策。高維多元數(shù)據(jù)在大數(shù)據(jù)中的可視

3、化方法空間映射法散點圖表格透鏡平行坐標降維圖標法空間映射法散點圖散點圖：本質(zhì)是將抽象的數(shù)據(jù)對象映射到二維坐標表示的空間。若處理的是多元數(shù)據(jù)，散點圖的概念可理解成：在二維的平面空間中，采用不同的空間映射方法對高維數(shù)據(jù)進行布局，這些數(shù)據(jù)的關聯(lián)以及數(shù)據(jù)自身的屬性在不同位置得到了展示，而整個數(shù)據(jù)集在空間中的分布則反映了各維度間的關系及數(shù)據(jù)集的整體特性?？臻g映射法散點圖散點圖矩陣是散點圖的擴展。對于N維數(shù)據(jù)，采用N2個散點圖逐一表示N個屬性之間的兩兩關系，這些散點圖根據(jù)它們所表示的屬性，沿橫軸和縱軸按一定順序排列，進而組成一個NxN的矩陣?？臻g映射法散點圖隨著數(shù)據(jù)維度的不斷擴展，所需散點圖的數(shù)量將呈幾何

4、級數(shù)的增長，而將過多的散點圖顯示在有限的屏幕空間中則會極大地降低可視化圖表的可讀性。目前比較常見的方法就是交互式地選取用戶關注的屬性數(shù)據(jù)進行分析和可視化。通過歸納散點圖特征，優(yōu)先顯示重要性較高的散點圖，也可以在一定程度上緩解空間的局限。空間映射法表格透鏡表格透鏡（ Table Lens）是對使用表格呈現(xiàn)多元數(shù)據(jù)（如 Excel等軟件）方法的擴展。該方法并不直接列出數(shù)據(jù)在每個維度上的值，而是將這些數(shù)值用水平橫條或者點表示?？臻g映射法表格透鏡表格透鏡允許用戶對行（數(shù)據(jù)對象）和列（屬性）進行排序，用戶也可以選擇某一個數(shù)據(jù)對象的實際數(shù)值。如圖所示，表格透鏡清晰地呈現(xiàn)了數(shù)據(jù)在每個屬性上的分布和屬性之間的

5、相互關系。空間映射法平行坐標平行坐標能夠在二維空間中顯示更高維度的數(shù)據(jù)、它以平行坐標替代垂直坐標，是一種重要的多元數(shù)據(jù)可視化分析工具。平行坐標不僅能夠揭示數(shù)據(jù)在每個屬性上的分布，還可描述相鄰兩個屬性之間的關系。平行坐標很難同時表現(xiàn)多個維度間的關系，因為其坐標軸是順序排列的，不適合于表現(xiàn)非相鄰屬性之間的關系。空間映射法平行坐標一般地，交互地選取部分感興趣的數(shù)據(jù)對象并將其高亮顯示，是一種常見的解決方法。另外，為了便于用戶理解各數(shù)據(jù)維度間的關系，也可更改坐標軸的排列順序?？臻g映射法降維當數(shù)據(jù)維度非常高時（如超過50維），目前的各類可視方法都無法將所有的數(shù)據(jù)細節(jié)清晰地呈現(xiàn)出來。在這種情況下，我們可通過

6、線性/非線性變換將多元數(shù)據(jù)投影或嵌入低維空間（通常為二維或三維）中，并保持數(shù)據(jù)在多元空間中的特征，這種方法被稱為降維（ Dimension Reduction）。降維后得到的數(shù)據(jù)即可用常規(guī)的可視化方法進行信息呈現(xiàn)。圖標法圖標法的典型代表是星形圖（ Starplots)，也稱雷達圖（ Radar Chart）星形圖可以看成平行坐標的極坐標形式，數(shù)據(jù)對象的各屬性值與各屬性最大值的比例決定了每個坐標軸上點的位置，將這些坐標軸上的點折線連接圍成一個星形區(qū)域，其大小形狀則反映了數(shù)據(jù)對象的屬性。圖標法非結構化數(shù)據(jù)可視化基于并行的大尺度數(shù)據(jù)高分辨率可視化分而治之的大尺度數(shù)據(jù)分析與可視化統(tǒng)計分析層的分而重組條

7、件變量分割法重復分割法數(shù)據(jù)挖掘?qū)拥姆侄沃當?shù)據(jù)可視化的分而治之基于并行的大尺度數(shù)據(jù)高分辨率可視化復雜數(shù)據(jù)并不只有高維度數(shù)據(jù)。還包括異構數(shù)據(jù)等。異構數(shù)據(jù)是指在同一個數(shù)據(jù)集中存在的如結構或者屬性不同的數(shù)據(jù)。存在多個不同種類節(jié)點和連接的網(wǎng)絡被稱為異構網(wǎng)絡。異構數(shù)據(jù)通常可采用網(wǎng)絡結構進行表達。基于并行的大尺度數(shù)據(jù)高分辨率可視化基于異構社交網(wǎng)絡的本體拓撲結構表達了某組織網(wǎng)絡中的多種不同類別的節(jié)點。由于數(shù)據(jù)量大并且復雜度高，不能直接使用網(wǎng)絡點線圖進行可視化。我們可以采用從異構網(wǎng)絡中提煉出本體拓撲結構的策略，其中的節(jié)點是原來網(wǎng)絡內(nèi)的節(jié)點類型，連接相互之間存在關聯(lián)的類別?；诓⑿械拇蟪叨葦?shù)據(jù)高分辨率可視化產(chǎn)生

8、數(shù)據(jù)的異構性的主要原因是數(shù)據(jù)源的獲取方式的不同。合理地整合底層的數(shù)據(jù)至關重要?；炯夹g路線就是構建大規(guī)模計算集群。例如，美國的馬里蘭大學構建了一個GPU和CPU混合式高性能計算和可視化集群分而治之的大尺度數(shù)據(jù)分析與可視化可視化領域以及計算機圖形學有一種標準方法叫作分治（ Divide and Conquer）法，如二叉樹、四叉樹等空間管理結構等。本節(jié)將從統(tǒng)計、數(shù)據(jù)挖掘和可視化等幾個領域介紹分而治之的概念。統(tǒng)計分析層的分而重組R語言面向統(tǒng)計分析的底層，是一門開源語言。將數(shù)據(jù)劃分為多個子集，對這些子集使用相應的方法來進行可視化的操作，最后再合并總體結果，這種方式就稱為分而重組。分而重組的核心思想包

9、含拆分（ Divide）和重合（ Recombine）。統(tǒng)計分析層的分而重組拆分條件變量分割法：一部分變量被選為條件變量，并且被分配到每個子集里。BSV( Between Subset- Variables）在不同子集中的取值各異，且一個子集在同一時間只能有一個BSV變量：WSV( Within- Subset Variables）則在同一個子集里取值。技術人員通過分析WSV伴隨BSV的變化以及WSV之間的關系來確保分割的準確性。統(tǒng)計分析層的分而重組拆分重復分割法：重復分割法中的數(shù)據(jù)被看作是包含r個変量的n個觀察值，被認為是重復數(shù)。如果采用隨機重復分割法對隨機觀察值不替換地產(chǎn)生子集，這種做法雖

10、然處理速度快，但是各子集缺乏代表性。如果采用近鄰別除重復分割法，則n個觀察值將被分割成擁有近乎相同觀測值的鄰居集合。統(tǒng)計分析層的分而重組重合統(tǒng)計重合法：合成各個子集的統(tǒng)計值，通常，我們根據(jù)不同的分割算法如近鄰剔除重復分割法等方法的效果對比，選擇最優(yōu)的重合方案分析重合法：觀察、分析和評估計算結果可視化重合法：以小粒度觀察數(shù)據(jù)的方法，并使用了多種抽樣策略，包括聚焦抽樣和代表性抽樣。數(shù)據(jù)挖掘?qū)拥姆侄沃褂梅侄蠛系姆椒▽?shù)據(jù)進行分類大體分為三個步驟：首先，輸入數(shù)據(jù)或者文本信息，將輸入數(shù)據(jù)等份成n份或者按規(guī)則劃分；然后，對每份數(shù)據(jù)使用最適合的分類器進行分類，并將分類結果融合；最后，通過一個強分類器計

11、算獲取最終結果。數(shù)據(jù)可視化的分而治之大規(guī)?？茖W計算的結果之所以適合采用多核并行模式和分而治之法進行處理，是因其通常體現(xiàn)為規(guī)則的空間型數(shù)據(jù)。標準的科學計算數(shù)據(jù)的并行可視化可采用計算密集型的超級計算機、計算集群和GPU集群等模式。目前比較流行的 Hadoop和 Mapreduce等處理框架通常被用來處理非空間型數(shù)據(jù)， Mapreduce框架應用于科學計算的空間型數(shù)據(jù)，這就意味著使用統(tǒng)一的分而治之的框架可以處理科學計算的空間型數(shù)據(jù)和非結構化數(shù)據(jù)。第7章復雜數(shù)據(jù)可視化拓展主要內(nèi)容：什么是數(shù)據(jù)可視化數(shù)據(jù)可視化流程數(shù)據(jù)的可視化呈現(xiàn)用戶交互什么是數(shù)據(jù)可視化“可視化”或它的全稱“科學計算可視化”（Visua

12、lization in ScientificComputing,ViSC）一詞是在1987年根據(jù)美國國家科學基金會召開的“科學計算可視化研討會”內(nèi)容撰寫的一份報告中正式提出的。在短短20余年歷史中，科學計算可視化發(fā)展成為一個十分活躍的研究領域，新的研究分支不斷涌現(xiàn)，如出現(xiàn)了用于表示海量數(shù)據(jù)不同類型及其邏輯關系的信息可視化技術，以及將可視化與分析相結合的可視分析學研究方向?，F(xiàn)在又有了把“科學計算可視化”、“信息可視化”和“可視分析學”這三個分支整合在一起的新學科“數(shù)據(jù)可視化”。石教英浙江大學計算機輔助設計與圖形學國家重點實驗室在計算機學科的分類中，利用人眼的感知能力對數(shù)據(jù)進行交互的可視表達以

13、增強認知的技術，稱為可視化。它將不可見或難以直接顯示的數(shù)據(jù)轉(zhuǎn)化為可感知的圖形、符號、顏色、紋理等，增強數(shù)據(jù)識別效率，傳遞有效信息。唐澤圣、陳為.可視化條目.中國計算機大百科全書，2011年修訂版可視化通常被理解為一個生成圖形圖像的過程。更深刻的認識是，可視化是認知的過程，即形成某個物體的感知圖像，強化認知理解。因此，可視化的終極目的是對事物規(guī)律的洞悉，而非所繪制的可視化結果本身。這包含多重含義：發(fā)現(xiàn)、決策、解釋、分析、探索和學習。因此，可視化可簡明地定義為“通過可視表達增強人們完成某些任務的效率”。Matthew Ward,Georges Grinstein,Daniel Keim.Int

14、eractive DataVisualization:Foundations,Techniques,and Applications.May,2010什么是數(shù)據(jù)可視化科學可視化、信息可視化和可視分析三者之間沒有清晰邊界?？茖W可視化的研究重點是帶有空間坐標和幾何信息的醫(yī)學影像數(shù)據(jù)、三維空間信息測量數(shù)據(jù)、流體計算模擬數(shù)據(jù)等。信息可視化的核心問題主要有高維數(shù)據(jù)的可視化、數(shù)據(jù)間各種抽象關系的可視化、用戶的敏捷交互和可視化有效性的評斷等?？梢暦治銎赜趶母黝悢?shù)據(jù)綜合、意會和推理出知識，其實質(zhì)是可視地完成機器智能和人腦智能的雙向轉(zhuǎn)換，整個探索過程是迭代的、螺旋式上升的過程。左圖：詮釋了可視分析學包含的研究

15、內(nèi)容右圖：綜合了圖形學、數(shù)據(jù)挖掘和人機交互等技術圖3 歐洲學者Daniel Keim等人提出的可視分析學標準流程數(shù)據(jù)可視化流程數(shù)據(jù)可視化不僅是一門包含各種算法的技術，還是一個具有方法論的學科。因此，在實際應用中需要采用系統(tǒng)化的思維設計數(shù)據(jù)可視化方法與工具。圖1 科學可視化的早期可視化流水線圖2 由Card,Mackinlay和Shneiderman等人提出的信息可視化參考流程數(shù)據(jù)可視化流程數(shù)據(jù)可視化流程中的核心要素包括三個方面。數(shù)據(jù)表示與變換數(shù)據(jù)可視化的基礎是數(shù)據(jù)表示和變換。為了允許有效的可視化、分析和記錄，輸入數(shù)據(jù)必須從原始狀態(tài)變換到一種便于計算機處理的結構化數(shù)據(jù)表示形式。數(shù)據(jù)的可視化呈現(xiàn)數(shù)

16、據(jù)可視化向用戶傳播了信息，而同一個數(shù)據(jù)集可能對應多種視覺呈現(xiàn)形式，即視覺編碼。數(shù)據(jù)可視化的核心內(nèi)容是從巨大的呈現(xiàn)多樣性空間中選擇最合適的編碼形式。大量的數(shù)據(jù)采集通常是以流的形式實時獲取的，針對靜態(tài)數(shù)據(jù)發(fā)展起來的可視化顯示方法不能直接拓展到動態(tài)數(shù)據(jù)。這不僅要求可視化結果有一定的時間連貫性，還要求可視化方法達到高效以便給出實時反饋。因此不僅需要研究新的軟件算法，還需要更強大的計算平臺（如分布式計算或云計算）、顯示平臺（如一億像素顯示器或大屏幕拼接）和交互模式（如體感交互、可穿戴式交互）。用戶交互交互是通過可視的手段輔助分析決策的直接推動力。有關人機交互的探索已經(jīng)持續(xù)很長時間，但智能、適用于海量數(shù)據(jù)

17、可視化的交互技術，如任務導向的、基于假設的方法還是一個未解難題，其核心挑戰(zhàn)是新型的可支持用戶分析決策的交互方法。這些交互方法涵蓋底層的交互方式與硬件、復雜的交互理念與流程，更需要克服不同類型的顯示環(huán)境和不同任務帶來的可擴充性難點。數(shù)據(jù)可視化設計數(shù)據(jù)可視化的設計簡化為四個級聯(lián)的層次（見圖1）。簡而言之，最外層（第一層）是刻畫真實用戶的問題，稱為問題刻畫層。第二層是抽象層，將特定領域的任務和數(shù)據(jù)映射到抽象且通用的任務及數(shù)據(jù)類型。第三層是編碼層，設計與數(shù)據(jù)類型相關的視覺編碼及交互方法。最內(nèi)層（第四層）的任務是創(chuàng)建正確完成系統(tǒng)設計的算法。圖1 可視化設計的層次嵌套模型數(shù)據(jù)的可視化呈現(xiàn)（基本圖表）統(tǒng)計圖

18、表是最早的數(shù)據(jù)可視化形式之一，作為基本的可視化元素仍然被非常廣泛地使用。對于很多復雜的大型可視化系統(tǒng)來說，這類圖表更是作為基本的組成元素而不可缺少。圖1 單變量數(shù)據(jù)軌跡。股票K線圖，時間是自變量，股指是因變量圖2 左：標準的柱狀圖（Bar Chart）；右：增強版柱狀圖（也稱堆疊圖），編碼對比了幾個國家不同年齡段人口數(shù)量。圖3 不同的直方圖（Histogram）分布形態(tài)。直方圖的各個部分之和等于單位整體，而柱狀圖的各個部分之和沒有限制，這是兩者的主要區(qū)別。圖4 餅圖（Pie Chart）實例，展示了某產(chǎn)品在各省的銷售比例情況數(shù)據(jù)的可視化呈現(xiàn)（基本圖表）散點圖（Scatter Plot）和散點

19、圖矩陣（Scatter Plot Matrix）散點圖是表示二維數(shù)據(jù)的標準方法。在散點圖中，所有數(shù)據(jù)以點的形式出現(xiàn)在笛卡爾坐標系中，每個點所對應的橫縱坐標即代表該數(shù)據(jù)在坐標軸所表示維度上的屬性值大小。散點圖矩陣是散點圖的高維擴展，用來展現(xiàn)高維（大于二維）數(shù)據(jù)屬性分布。可以通過采用尺寸、形狀和顏色等來編碼數(shù)據(jù)點的其他信息。對不同屬性進行兩兩組合，生成一組散點圖，來緊湊地表達屬性對之間的關系，如圖1所示。圖1 四維數(shù)據(jù)的散點圖矩陣表示。左圖為單個散點圖區(qū)域的放大效果。熱力圖（Heat Map）熱力圖使用顏色來表達位置相關的二維數(shù)值數(shù)據(jù)大小。這些數(shù)據(jù)常以矩陣或方格形式整齊排列，或在地圖上按一定的位置

20、關系排列，每個數(shù)據(jù)點的顏色編碼數(shù)值大小，如圖2所示。圖2 使用熱力圖展示出租車的繁忙程度數(shù)據(jù)的可視化呈現(xiàn)（基本圖表）多視圖協(xié)調(diào)關聯(lián)（Multiple Coordinated Views）將不同種類的繪圖組合起來，每個繪圖單元可以展現(xiàn)數(shù)據(jù)某個方面的屬性，并且通常允許用戶進行交互分析，提升用戶對數(shù)據(jù)的模式識別能力。圖2 用于比較多尺度線粒體的基因數(shù)據(jù)的可視化系統(tǒng)MizBee的界面盒須圖它的基本形式是用一個長方形盒子表示數(shù)據(jù)的大致范圍（數(shù)據(jù)值范圍的25%75%），并在盒子中用橫線標明均值的位置。同時，在盒子上部和下部分別用兩根橫線標注最大值和最小值。圖1 盒須圖的標準表示（左圖）及其若干變種數(shù)據(jù)的可

21、視化呈現(xiàn)（時變數(shù)據(jù)可視化）線性和周期時間可視化不同類別的時變型數(shù)據(jù)需采用不同的可視方法來表達。標準的顯示方法將時間數(shù)據(jù)作為二維的線圖顯示，x軸表示時間，y軸表示其他的變量，如圖1。為了體現(xiàn)時變型數(shù)據(jù)的周期結構，可以采用環(huán)狀表示某時間段內(nèi)的時間結構，如圖2所示。圖2 采用環(huán)狀表示一周（左）和一天（右）中手機用戶活動的時間分布圖1 時序數(shù)據(jù)的線性表達-標準的單軸序列圖數(shù)據(jù)的可視化呈現(xiàn)（時變數(shù)據(jù)可視化）時變型數(shù)據(jù)中的其他屬性可以采用不同的可視化通道表達。例如，圖中華盛頓郵報發(fā)布的可視化作品展現(xiàn)了過去的30年里，電子產(chǎn)品的價格變化趨勢。其中，使用圓點的大小和顏色來分別表示電子產(chǎn)品的價格和類別。圖部分

22、電子產(chǎn)品在19802010年價格和銷量的變化趨勢。橫軸表示年份，縱軸表示銷量。圓點的大小表示價格，顏色表示產(chǎn)品類別。數(shù)據(jù)的可視化呈現(xiàn)（時變數(shù)據(jù)可視化）日歷時間可視化對于日歷時間的可視化，在表達維度上一般采用表格映射的方式對時間軸進行處理。圖1和圖2分別展示了三種日歷視圖。圖2 采用d3.js軟件可視化20062009年美國道瓊斯股票指數(shù)?？梢暬Y果清晰地展現(xiàn)了2008年10月金融危機爆發(fā)前后美國股市的激烈狀況。圖1 不同的日歷視圖。左：12邊形日歷，右：螺旋形日歷。數(shù)據(jù)的可視化呈現(xiàn)（時變數(shù)據(jù)可視化）流數(shù)據(jù)可視化-文本流數(shù)據(jù)- FluxFlowFluxFlow是一個分析社交媒體中異常信息擴散的可

23、視分析系統(tǒng)。該系統(tǒng)首先對時序文本進行聚類，然后利用類似于文本流的可視化設計對每個聚類中的帖子進行可視化。如圖所示，每個圓點都代表一個帖子以及這個帖子的所有回復，圓點的大小編碼了參與這個帖子的用戶數(shù)量，圓點的顏色則編碼了異常分數(shù)，顏色越偏紫則帖子的內(nèi)容越異常。利用這樣的可視化設計，人們在社交媒體上的討論內(nèi)容隨時間的變化便被直觀地展現(xiàn)出來。圖 FluxFlow系統(tǒng)主要視圖，對一個聚類中的所有帖子進行可視化數(shù)據(jù)的可視化呈現(xiàn)（時變數(shù)據(jù)可視化）流數(shù)據(jù)可視化-文本流數(shù)據(jù)- D-Map利用地圖的隱喻來對時序文本進行可視化。如圖所示為D-Map系統(tǒng)概覽。這個系統(tǒng)主要是為了展示信息擴散模式以及重要社交媒體用戶在

24、信息擴散過程中發(fā)揮的作用。在信息擴散地圖中，用戶被抽象為六邊形節(jié)點，核心用戶用黑色框進行高亮顯示。顏色用來編碼用戶所屬的社團。用戶可以通過選擇不同的時刻來對某個時刻的信息擴散進行分析，同時系統(tǒng)還支持對多個不同時刻的地圖進行比較。圖 D-Map系統(tǒng)概覽數(shù)據(jù)的可視化呈現(xiàn)（層次和網(wǎng)絡數(shù)據(jù)可視化）層次數(shù)據(jù)層次數(shù)據(jù)是一種常見的數(shù)據(jù)類型，著重表達個體之間的層次關系。這種關系主要表現(xiàn)為兩類：包含和從屬1. 節(jié)點-鏈接（Node-link）法：將單個個體繪制成一個節(jié)點，節(jié)點之間的連線表示個體之間的層次關系。這種方法直觀清晰，特別擅長于表示承接的層次關系。但是，當個體數(shù)目太多，特別是廣度和深度相差較大時，節(jié)點-

25、鏈接方法的可讀性較差大量數(shù)據(jù)點聚集在屏幕局部范圍，難以高效地利用有限的屏幕空間。圖1 單詞樹可視化設計數(shù)據(jù)的可視化呈現(xiàn)（層次和網(wǎng)絡數(shù)據(jù)可視化）2. 空間填充（Space-filling）法：用空間中的分塊區(qū)域表示數(shù)據(jù)中的個體，并用外層區(qū)域?qū)?nèi)層區(qū)域的包圍表示彼此之間的層次關系。其中的代表方法是樹圖。和節(jié)點-鏈接法相比，這種方法更適合于顯示包含和從屬的關系，且具有高效的屏幕空間利用率，可呈現(xiàn)更多的數(shù)據(jù)。此方法的缺點在于數(shù)據(jù)中的層次信息表達不如節(jié)點-鏈接法清晰。樹圖由Johnson和Schneiderman在20世紀90年代初發(fā)明的樹圖（Treemap）從空間填充的角度實現(xiàn)層次數(shù)據(jù)的可視化。樹圖

26、法采用矩形表示層次結構里的節(jié)點，父子節(jié)點之間的層次關系用矩形之間的相互嵌套隱喻來表達。此方法可以充分利用所有的屏幕空間。圖1 基于樹圖法的新聞分類可視化系統(tǒng)Newsmap數(shù)據(jù)的可視化呈現(xiàn)（層次和網(wǎng)絡數(shù)據(jù)可視化）網(wǎng)絡（Network）數(shù)據(jù)與樹型數(shù)據(jù)中明顯的層次結構不同，網(wǎng)絡數(shù)據(jù)并不具有自底向上或自頂向下的層次結構，表達的關系更加自由和復雜。網(wǎng)絡通常用圖（Graph）表示。圖的繪制包括三個方面：網(wǎng)絡布局、網(wǎng)絡屬性可視化和用戶交互，其中布局確定圖的結構關系，是最核心要素。最常用的布局方法有節(jié)點-鏈接法和相鄰矩陣兩類。兩者之間沒有絕對的優(yōu)劣，在實際應用中針對不同的數(shù)據(jù)特征以及可視化需求選擇不同的可視化

27、表達方式，或采用混合表達方式。數(shù)據(jù)的可視化呈現(xiàn)（層次和網(wǎng)絡數(shù)據(jù)可視化）1. 節(jié)點-鏈接法力引導布局（Force-directed Layout）節(jié)點-鏈接布局方法主要有力引導布局（Force-directed Layout）。力引導布局可廣泛地應用于各類無方向圖，很多可視化工具包都實現(xiàn)了這個算法，只要在調(diào)用工具包中的布局之前定義好點、邊和權重，就能快速地實現(xiàn)一個力引導布局圖1 力引導布局算法實例。法國作家維克多雨果的小說悲慘世界的人物圖譜。節(jié)點顏色編碼了通過子群劃分算法計算的人物分類類別，邊的粗細編碼了兩個節(jié)點代表的人物之間共同出現(xiàn)的頻率。數(shù)據(jù)的可視化呈現(xiàn)（層次和網(wǎng)絡數(shù)據(jù)可視化）2. 相鄰矩陣

28、法與節(jié)點-鏈接法相比，相鄰矩陣能很好地表達一個兩兩關聯(lián)的網(wǎng)絡數(shù)據(jù)（即完全圖），而節(jié)點-鏈接圖不可避免地會造成極大的邊交叉，造成視覺混亂3. 混合布局方法如果單獨采用任何一種布局都不能很好地表達數(shù)據(jù)，可混合兩者的布局設計。圖1 相鄰矩陣法的排序?qū)嵗?。法國作家維克多雨果的小說悲慘世界的人物圖譜。圖例中，采用子群聚類算法獲得的人物分類結果對相鄰矩陣的行和列進行排序。用戶交互（七類基本交互技術）1. 選擇：標記感興趣的數(shù)據(jù)對象、區(qū)域或特征。根據(jù)交互目的和交互延時的不同，選擇方式大致可以分為（1）鼠標懸浮選擇（2）鼠標點擊選擇（3）刷選/框選圖1 彈出標簽示意圖。當鼠標懸浮選擇代表交易的某一個元

29、素時，該次交易的地點、內(nèi)容和交易時間將會以彈出標簽的方式顯示。當鼠標移出該元素時，該標簽也會隨之消失。圖2 刷選示意圖。（a）用鼠標刷選一條道路；（b）刷選對應車輛的速度統(tǒng)計圖；（c）刷選對應路口的車流量統(tǒng)計圖；（d）刷選對應道路的通行情況統(tǒng)計圖。用戶交互（七類基本交互技術）2. 導航：展示不同的數(shù)據(jù)部分或?qū)傩詫Ш剑∟avigation）是可視化系統(tǒng)中最常見的交互手段之一。在可視化領域，縮放、平移和旋轉(zhuǎn)是導航中三個最基本的動作，換言之，是調(diào)整視點位置、控制視圖內(nèi)容的三個最基本手段。用戶交互（七類基本交互技術）3. 重配：展示一個不同的可視化配置重配（Reconfigure）旨在通過改變數(shù)據(jù)元

30、素在空間中的排列，為用戶提供觀察數(shù)據(jù)的不同視角。圖1 在Smartadp系統(tǒng)中對圖標的重排列方法示意圖。用戶選擇了除第一列的所有屬性，系統(tǒng)根據(jù)選中列的數(shù)據(jù)的加權和對數(shù)據(jù)進行了重排列。矩形代表數(shù)據(jù)的大小。用戶交互（七類基本交互技術）4. 編碼：展示一個不同的視覺表現(xiàn)視覺編碼是可視化的核心要素之一，交互式地改變數(shù)據(jù)元素的可視化編碼，如改變顏色編碼、更改大小、改變方向、更改字體、改變形狀等，或者使用不同的表達方式以改變視覺外觀，可以直接影響用戶對數(shù)據(jù)的認知。、圖1 MacEachren總結了11種可視化編碼元素，包括位置、大小、顏色、深淺、飽和度、紋理方向、紋理密度、紋理排列方法、形狀、邊緣模糊程度和透明度用戶交互（七類基本交互技術）5. 抽象/具象：展示數(shù)據(jù)概覽或更多細節(jié)抽象/具象（Abstraction/Elaboration）交互技術可以為用戶提供不同細節(jié)等級的信息，用戶可以通過交互控制顯示更多或更少的數(shù)據(jù)細節(jié)。在可視化系統(tǒng)中，抽象往往能展示更多的數(shù)據(jù)對象，方便用戶對數(shù)據(jù)整體的理解；而具象往往能展示對象更多的屬性和細節(jié)，使得用戶可以直觀地探索數(shù)據(jù)。在實際應用中，抽象 /具象技術往往體現(xiàn)為概覽+細節(jié)這樣的交互模式如圖1所示的Sunburst布局允許用戶自行控制顯示的層次，以達到瀏覽各個層次級別細節(jié)信息的目的。圖1 抽象/具象示例之Sunburst布局。左

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)可視化技術第7章-復雜數(shù)據(jù)可視化課件

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)可視化技術第7章-復雜數(shù)據(jù)可視化課件

文檔簡介

溫馨提示

最新文檔

評論

相關文檔