(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用.pdf_第1頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用.pdf_第2頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用.pdf_第3頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用.pdf_第4頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用.pdf_第5頁
已閱讀5頁,還剩61頁未讀 繼續(xù)免費(fèi)閱讀

(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用.pdf.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

沈陽工業(yè)大學(xué)碩士學(xué)位論文 摘要 隨著科技的不斷發(fā)展,在科學(xué)研究和日常工作中人們經(jīng)常會(huì)遇到大量的高維數(shù)據(jù), 它們蘊(yùn)含了極為豐富和相近的客觀信息。如何直觀的表示這些海量數(shù)據(jù),或者從中獲取 用戶感興趣的隱藏的信息與規(guī)律,一直是學(xué)者們不斷追求的目標(biāo)??梢暬夹g(shù)能將數(shù)據(jù) 信息轉(zhuǎn)變?yōu)橹庇^的、以圖形或圖像形式表示的、隨時(shí)間空間變化的物理現(xiàn)象或物理量呈 現(xiàn)在用戶面前,使用戶能觀測(cè)到傳統(tǒng)意義上不可見的事物或現(xiàn)象,可視化方面的研究迅 速發(fā)展。 本文首先對(duì)信息可視化技術(shù)和多維可視化的常用方法進(jìn)行研究,對(duì)各種技術(shù)的原 理、特點(diǎn)以及交互手段進(jìn)行了描述。其中在可視化過程中對(duì)于在數(shù)據(jù)可視化維度控制顯 示方面往往缺乏良好的指導(dǎo),需要用戶根據(jù)經(jīng)驗(yàn)逐步試探性的對(duì)維度的排列順序以及用 于可視化顯示的維數(shù)進(jìn)行控制,這樣一些重要規(guī)律可能被忽略。本文利用維相似度算法 對(duì)數(shù)據(jù)維的排列順序進(jìn)行規(guī)劃;采用屬性相關(guān)分析算法對(duì)參與顯示的維數(shù)進(jìn)行控制。通 過實(shí)驗(yàn)驗(yàn)證上述算法提高了可視化的顯示效果。 文章最后給出了一個(gè)籃球運(yùn)動(dòng)員技術(shù)指標(biāo)分析系統(tǒng)的設(shè)計(jì)和重點(diǎn)部分的實(shí)現(xiàn)?;@球運(yùn) 動(dòng)員的技術(shù)指標(biāo)分析的內(nèi)容具有多維性,并且多維數(shù)據(jù)存在一定的關(guān)系,用戶需要?jiǎng)討B(tài)地 改變對(duì)比分析的內(nèi)容,要求能夠從多角度地展示數(shù)據(jù),快速、準(zhǔn)確地得到結(jié)果。本系統(tǒng)實(shí) 現(xiàn)了多種可視化方法,可以使用戶從不同側(cè)面分析理解數(shù)據(jù),通過簡(jiǎn)單的交互過程得到所 需的可視化結(jié)果,并進(jìn)一步驗(yàn)證維相似度算法和屬性相關(guān)分析算法對(duì)多維數(shù)據(jù)可視化顯示 效果的提升,使用戶更為便捷的對(duì)數(shù)據(jù)進(jìn)行觀察與分析,獲得有效的信息。 關(guān)鍵詞:多維數(shù)據(jù)可視化,維數(shù)控制,維相似度,信息增益,圖表 數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用 t h er e s e a r c ha n da p p l i c a t i o no fm u l t i d i m e n s i o n a ld a t av i s u a l i z a t i o ni n d a t am i n i n g a b s t r a c t w i t l lt h ed e v e l o p m e n to fd a t a b a s et e c h n o l o g ya n dt h ep o p u l a r i z a t i o no fd a t a b a s e a p p l i c a t i o n , t h eq u a n t i t yo fd a t at h a t i ss t o r e di n c o m p u t e ri sb e i n gh u g e ra n dh u g e r i n c r e a s i n g l y ,p e o p l ew a n tt oa n a l y z et h ed a t as ot h e yc a no b t a i nk n o w l e d g eo ri n f o r m a t i o n , i n s t e a do fj u s tm a n a g i n gt h e m i n f o r m a t i o nv i s u a l i z a t i o nt e c h n o l o g yi so n eo fi m p o r t a n t i m p l e m e n t st od i s p l a yd a t a , w h i c hc a nd i s c o v e rt h er e l a t i o nb e t w e e ni n f o r m a t i o na n dl a t e n t c h a r a c t e r i s t i c m u l t i d i m e n s i o nd a t av i s u a l i z a t i o ni saf o c u sc o n t e n to fi n f o r m a t i o n v i s u a l i z a t i o nf i e l d f i r s t t h i sp a p e rm a k eas u m m a r yo fi n f o r m a t i o nv i s u a l i z a t i o nt e c h n o l o g ya n ds o m e c o n v e n t i o n a lm e t h o d sf o rv i s u a l i z i n gm u l t i d i m e n s i o nd a t a , h a v i n ga ni n t r o d u c t i o na b o u tt h e p r i n c i p l ea n dc h a r a c t e r i s t i co fv a r i o u st e c h n i q u e i np r o c e s so fv i s u a l i z a t i o nt h ea r r a n g e m e n t o fd i m e n s i o n sa r el a c k so fg u i d i n g ;s om a n yk n o w l e d g ea n di n f o r m a t i o nw i l lb eo v e r l o o k e d i nt h i sp a p e raa r i t h m e t i co f d i m e n s i o ns i m i l a r i t yi sa p p l i e d i nt h ef i r s ts t e p ,t h es i m i l a r i t i e so f a l lt h ed i m e n s i o n sa r ec a l c u l a t e d ,a n dt h e nas i m i l a r i t ym a t r i xi sb u i l tw i t ht h e s ev a l u e so f d i m e n s i o ns i m i l a r i t v a tl a s ta i la r r a n g e m e n to fd i m e n s i o ni sg a i n e dw i t ht h em a t r i xa n d o p t i m i z a t i o na r i t h m e t i c w h e nt h eq u a n t i t yo fd i m e n s i o ni st o ol a r g e ,i ti sh a r df o ru s e rt o w a t c ha n du n d e r s t a n dt h ed a t a s ot h ei n f o r m a t i o ng a i na r i t h m e t i ci su s e d e n t r o p yi sa p p l i e d t oa c c o u n tt h ei n f o r m a t i o ng a i n a n dt h e ns e r i e sd i m e n s i o n st h a th a v eal o wi n f o r m a t i o ng a i n a r ed e l e t e df r o mt h ev i s u a l i z a t i o n t h u st h eu s e r sc a l lf i n dt h ek n o w l e d g ea n dr u l e sm o r e e a s i l y b o t ht h e s er e s e a r c h e sg e tg o o de x p e r i m e n tr e s u l t s ,s ot h e ya r ea p p l i c a b l e i nt h el a s tp a r to ft h ea r t i c l et h e r ei sap r a c t i c eo nb a s k e t b a l lp l a y e rd a t ai n v e s t i g a t i o n s t a t i s t i c sa n a l y s i ss y s t e m 1 1 1 ec o n t e n t so fa n a l y s i sa r em u l t i d i m e n s i o n a la n du s e rw a n tt o c h a n g et h ec o n t r a s ti t e m sd y n a m i c a l l y ,d e m a n d i n gd i s p l a yt h ed a t af r o md i f f e r e n ta s p e c t sa n d g e t t i n ga c c u r a t er e s u l tr a p i d l y n l i ss y s t e mc o m b i n e dc o n v e n t i o n a ld a t av i s u a l i z a t i o nm e t h o d w i t hp a r a l l e lc o o r d i n a t et e c h n o l o g yt od e a lw i t hd a t aa v a i l a b l y u s e rc a ng e tt h ev i s u a lr e s u l t b yo p e r a t i n gi n t e r a c t i v e l ya n da n a l y z et h er e s u l t so fm a n yk i n d so fs i t u a t i o n su n d e rp a r a l l e l c o o r d i n a t e s ,r e d u c i n gt h e i rw o r k l o a dg r e a t l y k e yw o r d s :m u l t i - d i m e n s i o nd a t av i s u a l i z a t i o n ,c o n t r o l i n go fd i m e n s i o nq u a n t i t y , d i m e n s i o ns i m l a r i t y ,i n f o r m a t i o ng a i ,c h a r t 獨(dú)創(chuàng)性說明 本人鄭重聲明:所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工 作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方 外,論文中不包含其他人已經(jīng)發(fā)表或撰寫的研究成果,也不包含為獲得 沈陽工業(yè)大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書所使用過的材料。與我一同 工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中做了明確的說明并表 示了謝意。 關(guān)于論文使用授權(quán)的說明 本人完全了解沈陽工業(yè)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即: 學(xué)校有權(quán)保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)校可以公 布論文的全部或部分內(nèi)容,可以采用影印、縮印或其他復(fù)制手段保存論 文。 ( 保密的論文在解密后應(yīng)遵循此規(guī)定) 簽名:燃 導(dǎo)師簽名:窖。查縫 日期: 絲塑:! :蘭 沈陽工業(yè)大學(xué)碩十學(xué)位論文 1 引言 1 1 研究背景及意義 計(jì)算機(jī)應(yīng)用于數(shù)據(jù)處理已經(jīng)有4 0 多年的歷史,由于受到計(jì)算機(jī)發(fā)展水平的制約, 數(shù)據(jù)只能以批量處理卻不能進(jìn)行復(fù)雜的交互,更不能對(duì)信息進(jìn)行干預(yù)及導(dǎo)引。人們已經(jīng) 不能滿足于等待計(jì)算機(jī)結(jié)果的輸出。用戶希望能依靠計(jì)算機(jī)強(qiáng)大的計(jì)算能力獲取蘊(yùn)含在 海量數(shù)據(jù)中的信息與模式。這種方式不僅不能得到有關(guān)數(shù)據(jù)的直觀、形象的整體概念, 還可能丟失大量信息。 由于缺乏有效分析手段,常常不得不割舍龐大數(shù)據(jù)群中的大部分有用數(shù)據(jù),導(dǎo)致 應(yīng)用的信息處理精度降低。海量數(shù)據(jù)的產(chǎn)生與不能有效解釋這些數(shù)據(jù)的矛盾日益尖銳。 因而,迫切要求提供一種能夠處理和解釋這些海量數(shù)據(jù)的技術(shù),科學(xué)計(jì)算可視化就是順 應(yīng)這一要求而產(chǎn)生的。 隨著社會(huì)信息化的推進(jìn)和網(wǎng)絡(luò)應(yīng)用的日益廣泛,信息源越來越龐大。除了需求對(duì) 海量數(shù)據(jù)進(jìn)行存儲(chǔ)、傳輸、檢索以及分類等外,更迫切需求了解數(shù)據(jù)之間的相互關(guān)系及 發(fā)展趨勢(shì)。實(shí)際上,在激增的數(shù)據(jù)背后,隱藏著許多重要的信息和模式,人們希望能夠 對(duì)其進(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。這一需求促成了數(shù)據(jù)挖掘技術(shù)的 發(fā)展。它是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中 的、人們事先不知道的、又是潛在有用的信息和認(rèn)識(shí)的過程【1 一。 為了使數(shù)據(jù)挖掘系統(tǒng)發(fā)現(xiàn)知識(shí)的過程和結(jié)果展示易于理解和在發(fā)現(xiàn)知識(shí)過程中進(jìn) 行人機(jī)交互,要發(fā)展發(fā)現(xiàn)知識(shí)的可視化方法。為了了解數(shù)據(jù)之間的相互關(guān)系及發(fā)展趨勢(shì), 人們可以求助于可視化技術(shù)。在這種背景下,數(shù)據(jù)可視化技術(shù)獲得人們?cè)絹碓礁叩闹匾?和高速的發(fā)展。它憑借著計(jì)算機(jī)強(qiáng)大的計(jì)算能力和圖形圖像處理能力,將大型的數(shù)據(jù)記 錄集轉(zhuǎn)化為靜態(tài)或動(dòng)態(tài)的圖形或圖像呈現(xiàn)在用戶面前,并允許通過交互手段控制數(shù)據(jù)的 抽取和畫面的顯示,使隱含在數(shù)據(jù)中的不可見的規(guī)律和模式在用戶面前加以呈現(xiàn),為人 類分析數(shù)據(jù)、理解數(shù)據(jù)和尋找規(guī)律做出決策提供了有力的手段。 數(shù)據(jù)可視化涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)視覺、計(jì)算機(jī)輔助設(shè)計(jì)等多個(gè)領(lǐng) 域 2 , 3 1 ,成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù)。近一些年以來, 數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用 可視化技術(shù)受到越來越多的重視,成為數(shù)據(jù)分析較為有效的方法之一。通過本課題的研究, 深入了解目前較為普及的數(shù)據(jù)可視化技術(shù)的原理以及相關(guān)的技術(shù),掌握它們?cè)诳梢暬^程 中的一些尚待解決的問題以及些較為成熟的實(shí)施方法。在實(shí)際應(yīng)用中利用本課題的成果, 更加有效的對(duì)多維數(shù)據(jù)進(jìn)行合理分析和處理,生成符合人類認(rèn)知系統(tǒng)的直觀圖形,從而使 人從圖形中高效的獲取有用的知識(shí)和信息。因此在信息時(shí)代的大潮中,對(duì)數(shù)據(jù)可視化技術(shù) 進(jìn)行深入研究并進(jìn)行相應(yīng)的改進(jìn)與實(shí)踐,可以大大簡(jiǎn)化相關(guān)系統(tǒng)開發(fā)過程,提高數(shù)據(jù)分析 處理的效能,提升決策支持的準(zhǔn)確性。 1 2 研究對(duì)象及內(nèi)容 科技的迅速發(fā)展,人們對(duì)于基礎(chǔ)科學(xué)的研究越來越深入,如醫(yī)學(xué)、氣象學(xué)和流體力 學(xué)等 5 , 6 1 。信息獲取技術(shù)和數(shù)據(jù)存儲(chǔ)技術(shù)的不斷提高,也使人們研究和分析這種大型復(fù)雜 數(shù)據(jù)成為可能。例如:在醫(yī)學(xué)或生物學(xué)中經(jīng)常需要分析被觀測(cè)者的身高、體重、身體內(nèi) 各微量元素的含量以及身體各臟器的狀況等變量。這些由多個(gè)變量描述現(xiàn)象的數(shù)據(jù),抽 象出來就是一種高維數(shù)據(jù)。多維數(shù)據(jù)的廣泛使用為用戶掌握豐富的客觀現(xiàn)象、獲取詳細(xì) 的信息提供了有利的途徑,但是隨著數(shù)據(jù)維度的大幅度提高也給后續(xù)的數(shù)據(jù)處理工作帶 來了巨大的困難。本課題的研究對(duì)象就是高維數(shù)據(jù),旨在對(duì)目前已有的可視化技術(shù)進(jìn)行 深入研究,找出各種方法存在的一些不足與困難并加以改進(jìn),從而使可視化技術(shù)更加充 分的應(yīng)用于多維數(shù)據(jù)顯示領(lǐng)域,為用戶對(duì)多維數(shù)據(jù)進(jìn)行處理和分析通過更有力的幫助。 我們的研究?jī)?nèi)容主要包括:在數(shù)據(jù)可視化過程中采用與聚類算法相似的方法計(jì)算各 個(gè)維度之間的相似關(guān)系,并通過優(yōu)化算法找到信息增益最大的規(guī)劃方法對(duì)維度的排列進(jìn) 行合理的排列;在圖標(biāo)以及幾何變換過程中,對(duì)圖形圖線的顏色采用與主題相關(guān)的映射 方式;在信息技術(shù)迅速發(fā)展的今天如何利用已有的技術(shù)便捷的實(shí)現(xiàn)支持多維數(shù)據(jù)可視化 系統(tǒng)一些方法和技術(shù)。 1 3 國(guó)內(nèi)外研究現(xiàn)狀 國(guó)外從2 0 世紀(jì)8 0 年代末提出可視化技術(shù)以來,對(duì)它的研究已經(jīng)取得了相當(dāng)大的進(jìn) 展??梢暬膽?yīng)用范圍不斷擴(kuò)大,除了眾多的科學(xué)和工程領(lǐng)域,在商業(yè)和日常生活中也 得到越來越多的應(yīng)用。研究者已經(jīng)建立了可視化實(shí)驗(yàn)室、可視化專題討論、可視化國(guó)際 2 沈陽工業(yè)大學(xué)碩士學(xué)位論文 會(huì)議以及可視化教育來促進(jìn)可視化的教育和發(fā)展。許多大學(xué)、研究機(jī)構(gòu)和國(guó)家實(shí)驗(yàn)室對(duì) 可視化工具、環(huán)境和應(yīng)用等方面展開了廣泛而深入的研究。目前可視化技術(shù)的發(fā)展還結(jié) 合了超級(jí)計(jì)算機(jī)、高速網(wǎng)絡(luò)、高性能圖形工作站和虛擬現(xiàn)實(shí)技術(shù),同時(shí)在市場(chǎng)上也推出 了許多可視化軟件產(chǎn)品。 我國(guó)科學(xué)計(jì)算可視化技術(shù)的研究始于9 0 年代初。由于數(shù)據(jù)可視化所處理的數(shù)據(jù)量 十分龐大,生成圖像的算法又比較復(fù)雜,過去常常需要使用巨型計(jì)算機(jī)和高檔圖形工作 站等。因此,數(shù)據(jù)可視化開始都在國(guó)家級(jí)研究中心、高水平的大學(xué)、大公司的研究開發(fā) 中心進(jìn)行研究和應(yīng)用。近年來,隨著p c 功能的提高、各種圖形顯卡以及可視化軟件的 發(fā)展,可視化技術(shù)己擴(kuò)展到科學(xué)研究、工程、軍事、醫(yī)學(xué)、經(jīng)濟(jì)等各個(gè)領(lǐng)域1 6 , 7 l 。比如, 我國(guó)“8 6 3 ”高技術(shù)發(fā)展研究課題數(shù)字化虛擬中國(guó)人數(shù)據(jù)集構(gòu)建與海量數(shù)據(jù)庫系統(tǒng), 它運(yùn)用人體信息和計(jì)算機(jī)技術(shù),將真實(shí)的人體斷層數(shù)據(jù)進(jìn)行處理,為不同行業(yè)提供后續(xù) 開發(fā)虛擬人體的數(shù)據(jù)參數(shù)。它使用計(jì)算機(jī)在三維空間來模擬真實(shí)人體的所有特征,這就 是可視化技術(shù)的一個(gè)典型應(yīng)用。隨著i n t e r a c t 的興起,信息可視化技術(shù)更是方興未艾。 雖然國(guó)內(nèi)部分大學(xué)和科研機(jī)構(gòu)正在研究可視化算法、移植或開發(fā)各種可視化工具,且在 油氣勘探、氣象、醫(yī)學(xué)、流體力學(xué)等領(lǐng)域的應(yīng)用方面取得了一大批可喜的成果。但從總 體上來說,國(guó)內(nèi)不僅在硬件上,同時(shí)在應(yīng)用方面與i 訇# t - 先進(jìn)水平差距較大眇】,特別是在 商業(yè)軟件方面還基本處于空白1 0 4 2 j 。因此,組織力量開發(fā)可視化商業(yè)軟件,并通過市場(chǎng) 競(jìng)爭(zhēng),促使其逐步成熟,已成為當(dāng)務(wù)之急。這也給我們對(duì)該技術(shù)的研究提供了廣闊的發(fā) 展空間。 1 4 論文組織結(jié)構(gòu) 本文的結(jié)構(gòu)安排如下: 第1 章為引言部分,主要介紹研究的背景及意義,分析了國(guó)內(nèi)外關(guān)于多維數(shù)據(jù)可視 化的發(fā)展動(dòng)態(tài),確定了研究的對(duì)象和內(nèi)容。 第2 章詳細(xì)闡述了可視化的一些基本概念,并對(duì)可視化模型的框架進(jìn)行研究,提出 了在可視化系統(tǒng)設(shè)計(jì)中需要考慮一些心理學(xué)方法著重利用計(jì)算機(jī)來模仿人的認(rèn)知系統(tǒng) 去設(shè)計(jì)數(shù)據(jù)的顯示方式,可以避免信息的歪曲,適應(yīng)人的感知系統(tǒng)。最后介紹數(shù)據(jù)挖掘 數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用 系統(tǒng)中所研究的多維數(shù)據(jù)模型,澄清了一些數(shù)據(jù)挖掘系統(tǒng)與普通信息管理系統(tǒng)之間的概 念差別,為在數(shù)據(jù)挖掘系統(tǒng)中應(yīng)用多維數(shù)據(jù)可視化技術(shù)打下良好的基礎(chǔ)。 第3 章針對(duì)多維數(shù)據(jù)可視化技術(shù)進(jìn)行深入研究,首先逐一介紹目前較為成熟的多維 數(shù)據(jù)可視化技術(shù),并從多個(gè)角度對(duì)這些算法迸行比較,分別指出在針對(duì)不同數(shù)據(jù)時(shí),這 些算法的優(yōu)缺點(diǎn);然后介紹了可視化過程中的一些交互技術(shù),并指出多維數(shù)據(jù)可視化過 程中維數(shù)控制問題提出一些觀點(diǎn)。 第4 章更加深入的研究多維數(shù)據(jù)可視化時(shí)維數(shù)控制算法,提出以維相似度算法來指 導(dǎo)多維數(shù)據(jù)在可視化時(shí),維度排列的問題;提出結(jié)合數(shù)據(jù)挖掘過程中,針對(duì)概念描述和 分類問題的a o i 算法對(duì)多維數(shù)據(jù)進(jìn)行維度數(shù)量及內(nèi)容的控制。 第5 章通過介紹了一個(gè)籃球運(yùn)動(dòng)員技術(shù)指標(biāo)分析系統(tǒng)實(shí)現(xiàn)方法,對(duì)可視化方法中的 幾何變化法和圖標(biāo)法進(jìn)行實(shí)踐,驗(yàn)證了多維數(shù)據(jù)可視化中維度控制的可行性。 第6 章是全文的結(jié)論部分,對(duì)全文進(jìn)行總結(jié)。 沈陽工業(yè)大學(xué)碩士學(xué)位論文 2 多維數(shù)據(jù)可視化的基本概念 2 1 可視化的概念 可視化是一系列的轉(zhuǎn)換,這種轉(zhuǎn)換將原始模擬數(shù)據(jù)轉(zhuǎn)換成可顯示的圖像,這種轉(zhuǎn)換 的目的在于將信息轉(zhuǎn)換成可被人類感應(yīng)系統(tǒng)領(lǐng)悟的格式,用于利用計(jì)算機(jī)圖形來加強(qiáng)信 息的傳遞和理解。 可視化的基礎(chǔ)是計(jì)算機(jī)圖形學(xué),目前它已經(jīng)發(fā)展成為研究用戶界面、數(shù)據(jù)表示、處 理算法和顯示方式等一系列問題的一個(gè)綜合性學(xué)科。根據(jù)側(cè)重面的不同,可視化可以分 成三個(gè)分支:科學(xué)計(jì)算可視化、數(shù)據(jù)可視化和信息可視化。 科學(xué)計(jì)算可視化是把計(jì)算中涉及的和空間變化的物理現(xiàn)象或物理量呈現(xiàn)在研究者 面前,是他們能夠觀察到模擬和計(jì)算的過程,使其看到傳統(tǒng)意義上不可見的事物或現(xiàn)象; 同時(shí)還提供與模擬和計(jì)算的視覺交互手段;數(shù)據(jù)可視化比科學(xué)計(jì)算可視化具有更加廣泛 的內(nèi)容,它不僅包含工程領(lǐng)域數(shù)據(jù)的可視化,還包含其他領(lǐng)域( 如經(jīng)濟(jì)、金融、商業(yè)等) 中數(shù)據(jù)的可視化。在科學(xué)研究過程中,科學(xué)家們不僅需要通過圖形圖像來分析由計(jì)算機(jī) 產(chǎn)生和獲取的數(shù)據(jù),而且還需要了解計(jì)算過程中數(shù)據(jù)的變化??茖W(xué)計(jì)算可視化可以實(shí)現(xiàn) 對(duì)計(jì)算和編程過程的引導(dǎo)和控制,通過交互手段改變過程所依據(jù)的條件,并觀察其影響。 數(shù)據(jù)可視化技術(shù)指的是運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形和圖像在 屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)。它涉及到計(jì)算機(jī)圖形學(xué)、圖像 處理、計(jì)算機(jī)輔助設(shè)計(jì)、多媒體技術(shù)、虛擬現(xiàn)實(shí)技術(shù)、計(jì)算機(jī)視覺以及人機(jī)交互等多個(gè) 領(lǐng)域的知識(shí);隨著互聯(lián)網(wǎng)絡(luò)技術(shù)和電子商務(wù)的發(fā)展,數(shù)據(jù)的規(guī)模一再增大,為了獲取在 數(shù)據(jù)中隱含的大量信息與知識(shí),人們對(duì)信息可視化的需求愈發(fā)強(qiáng)烈。信息可視化的本源 仍然是數(shù)據(jù)可視化,人們可以通過數(shù)據(jù)可視化技術(shù)來發(fā)現(xiàn)大量金融、通信和商業(yè)信息數(shù) 據(jù)中的隱含規(guī)律,從而為決策提供依據(jù)與支持。在科學(xué)計(jì)算可視化中,顯示的對(duì)象涉及 標(biāo)量、矢量等不同類別的空間數(shù)據(jù)研究重點(diǎn)放在真實(shí)快速顯示三維數(shù)據(jù)場(chǎng),而在信息可 視化中,顯示的對(duì)象主要是多維的標(biāo)量數(shù)據(jù)。 科學(xué)技術(shù)在不斷發(fā)展,計(jì)算機(jī)在各個(gè)領(lǐng)域的應(yīng)用也在不斷深入。無論是科學(xué)計(jì)算、 企業(yè)生產(chǎn)運(yùn)作、公司的商業(yè)活動(dòng)都是以海量的數(shù)據(jù)操作為基礎(chǔ)的?,F(xiàn)有的大部分信息管 數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用 理系統(tǒng)雖然可以為用戶提供基于海量數(shù)據(jù)的各式各樣的查詢報(bào)表,但這僅僅停留在對(duì)數(shù) 據(jù)的重組層面,并沒有從根本解決數(shù)據(jù)的表現(xiàn),很難進(jìn)行決策分析。實(shí)際上用戶需要的 不僅是擁有數(shù)據(jù),更重要的是“看到”數(shù)據(jù),即數(shù)據(jù)的“可視”1 1 3 3 q 。為了實(shí)現(xiàn)數(shù)據(jù)的 可視以支持決策分析,眾多科學(xué)家做出了努力也取得了很多成果。 2 2 數(shù)據(jù)可視化的框架與模型 數(shù)據(jù)可視化技術(shù)宗旨是幫助用戶精確的發(fā)現(xiàn)蘊(yùn)含在海量數(shù)據(jù)中的信息,并降低些 客觀因素對(duì)于數(shù)據(jù)的影響。理想的可視化方法可以幫助用戶在觀察數(shù)據(jù)的同時(shí)獲得具有 洞察力的推論。由于數(shù)據(jù)可視化具有這種潛力,因此在數(shù)據(jù)挖掘與探索、信息重獲、策 略分析以及戰(zhàn)略智能領(lǐng)域都得到廣泛的應(yīng)用h s o 圖2 1 數(shù)據(jù)可視化心理學(xué)框架,基于l e e 和v i c k e r s 理論 f i g 2 1ap s y c h o l o g i c a lf r a m e w o r kf o rd a t av i s u a l i z a t i o n b a s eo nl e ea n dv i c k c r s 感知是人類認(rèn)識(shí)和了解世界的主要手段,圖像是由理解產(chǎn)生的腦海中的畫面。感知 是由各個(gè)部分彼此間的關(guān)系的建立起來的一個(gè)有意義的整體。人類在事物中找出模式的 能力和把各個(gè)部分整合為一個(gè)有意義的整體的能力是人類思考和感知的重要手段。當(dāng)人 觀察環(huán)境時(shí),實(shí)際上是在進(jìn)行一項(xiàng)非常復(fù)雜的任務(wù):從獨(dú)立的、不同的感官元素得出本 質(zhì)上的意義。人類的眼睛不像照相機(jī),它不是一個(gè)專門捕捉圖像的機(jī)器,而是一個(gè)能檢 沈日1j 業(yè)人學(xué)碩十學(xué)位論文 測(cè)到變化、模式、特征的復(fù)雜的處理單元。當(dāng)人觀察周圍的三維環(huán)境時(shí),一些屬性如輪 廓、質(zhì)地和些規(guī)律特征能讓人區(qū)別對(duì)待物體。人類一般情況下不會(huì)根據(jù)這些屬性的值 進(jìn)行推理,他們往往需要利用圖形圖像來完成從感知系統(tǒng)獲耿數(shù)據(jù)特征到認(rèn)知系統(tǒng)獲取 有趣信息的過程,這種框架就是一種心理學(xué)框架,如圖2 1 所示。 在數(shù)據(jù)可視化過程中,考慮一些心理學(xué)方法著重利用計(jì)算機(jī)束模仿人的認(rèn)知系統(tǒng)去設(shè) 計(jì)數(shù)據(jù)的展示己被廣泛認(rèn)可。為了產(chǎn)生精確高效的理解,避免信息的歪曲,可視化技術(shù)必 須適合人的感知系統(tǒng)。然而問題在于開發(fā)數(shù)據(jù)可視化系統(tǒng)時(shí)更為抽象的感知過程與認(rèn)知 過程沒有直接的聯(lián)系,為了使數(shù)據(jù)的分析與操作更為有效,系統(tǒng)所轉(zhuǎn)達(dá)的信息結(jié)構(gòu)必須要 兼容數(shù)據(jù)表示的需求以及a 類- a 2 _ _ 過程的偏好。 在圖2 1 中顯示了一個(gè)符合心理學(xué)框架的可視化系統(tǒng)需要包括:感知組件和認(rèn)知部 件。這種框架產(chǎn)生的目的是為了使用戶以一種類似頻道的方式來觀測(cè)人工系統(tǒng)中的數(shù)據(jù) 信息,并充分調(diào)動(dòng)用戶的主觀認(rèn)知過程。人工系統(tǒng)主要反映客觀事實(shí),對(duì)于自然現(xiàn)象進(jìn) 行純客觀的展示,從這種意義上說它與人的感知系統(tǒng)具有良好的兼容性,兩者都是通過 對(duì)客觀事實(shí)出發(fā)對(duì)事實(shí)進(jìn)行處理和計(jì)算,最終得出結(jié)果;而人的認(rèn)知系統(tǒng)與上述過程不 盡相同,它是根據(jù)人的感知系統(tǒng)獲取的信息在大腦中形成的影響或認(rèn)識(shí)為基礎(chǔ),對(duì)事實(shí) 進(jìn)行歪現(xiàn)并根掘腦海中的印象對(duì)抽象的數(shù)掘進(jìn)行理解分折,抽耿出有用信息與知識(shí)的過 程。由于人工系統(tǒng)與人的認(rèn)知過程存在差異,因此需要充分區(qū)別兩者不同,在系統(tǒng)中合 理安排對(duì)數(shù)據(jù)的顯示方式,使之充分適應(yīng)人的認(rèn)知過程,從而在知識(shí)發(fā)現(xiàn)與決策支持過 程中獲取更高的效能1 1 5 】。 數(shù)字信息時(shí)代,網(wǎng)絡(luò)和各種現(xiàn)代化的電子通信設(shè)備的飛速發(fā)展造成數(shù)據(jù)流呈指數(shù)倍 數(shù)增長(zhǎng)。這些激增的數(shù)據(jù)背后隱藏了大量潛在有用的知識(shí)。數(shù)據(jù)的走向有兩種:一種是由 數(shù)據(jù)最終變成數(shù)據(jù)垃圾,另一種則是由數(shù)據(jù)變成信息,最終變成知識(shí)指導(dǎo)人們做出決策。 決定數(shù)據(jù)最終出口的關(guān)鍵在于有效的信息抽取方法和知識(shí)發(fā)現(xiàn)手段。 然而,信息大潮的沖擊,使人們?cè)诤芏鄳?yīng)用中需要用到很大規(guī)模的數(shù)據(jù)庫系統(tǒng),這 些數(shù)據(jù)庫的數(shù)掘量動(dòng)輒幾百萬條,維度達(dá)n j l 十甚至幾百。在面對(duì)這些龐大而且復(fù)雜的 數(shù)據(jù)時(shí),領(lǐng)域?qū)<乙恢敝铝τ诮鉀Q諸如:應(yīng)該從哪里入手,什么看上去是有趣的,是否 數(shù)據(jù)挖捌過樣中多維數(shù)據(jù)可視化技術(shù)研究1 0 麻j j 還有其他i r 用的數(shù)掘等問題。事實(shí)證明,在這些大型數(shù)據(jù)集和數(shù)掘庫基礎(chǔ)上獲取有用信 息的過程中,采用可視化計(jì)算和操作是比較理想的選擇。一些數(shù)據(jù)挖掘技術(shù)和算法在使 用中難j 二彼決策者理解和使用,而可視化可以使數(shù)據(jù)和挖掘結(jié)果更容易理解并允許對(duì)結(jié) 果進(jìn)行比較和檢驗(yàn),兇此在知識(shí)發(fā)現(xiàn)、決策支持系統(tǒng)中采用符合人類認(rèn)知過程可視化技 術(shù)r 盯以加強(qiáng)數(shù)掘挖掘處理的效能,對(duì)數(shù)據(jù)挖掘系統(tǒng)是非常有幫助的;另外可視化模掣還 可以兼容數(shù)據(jù)挖掘算法,并指導(dǎo)數(shù)據(jù)挖掘過程。 2 3 多維數(shù)據(jù)模型 日f 撕較為流行的數(shù)掘倉庫與o l a p 工具大多基于多維數(shù)據(jù)模型。該模型將數(shù)據(jù)看作 數(shù)據(jù)l 1 l 方體( d a t ac u b e ) 形式,如圖2 _ 2 所示。采用此種方式組織數(shù)掘可以使數(shù)據(jù)倉庫系 統(tǒng)高效管理人量歷史數(shù)掘,提供匯總和聚集機(jī)制,并在,1 i 同粒度級(jí)別上存儲(chǔ)和竹理信息, 便7 :系統(tǒng)利月j 數(shù)捌做 j 合理的決策。 細(xì)腳* w h 蝴彈赫。鼉耵彬御_ 料t i s u 拶 家庭嫂樂 電潘家縫簸樂電話家糜爛樂電話 i m m ( 燮瓔,秘哪i 炭凝 l 瞬m t 婁期 幽2 2 數(shù)據(jù)立方體實(shí)例,幽中是一個(gè)銷售數(shù)據(jù)的4 d 數(shù)據(jù)芷方體表示,維是t i m e ,i t e m ,l o c a t i o n 和 s u p p l i e r ,所顯示的度量為d o l l a r ss o l d ( 單位:$ 1 0 0 0 ) f i g ,2 2a ni n s t a n c eo f d a t ac u b e ,t h e r ei sa4 - dd a t ac u b ew h o s ed i m e n s i o n sa r et i m e ,i t e m ,l o c a t i o na n d s u p p l i e r t h em e a s u r e m e n ti s $ 1 0 0 0 數(shù)據(jù)電方體模型允許以多維塒數(shù)掘建模和觀察,它足由維和事實(shí)所定義。一般地, 繃足關(guān)_ f 二+ 個(gè)斜i 織想要記求的透視或?qū)嶓w。每一個(gè)維郜宵。個(gè)表或肯農(nóng)f 】產(chǎn)段2 j 之相天 沈日l1 。業(yè)人學(xué)碩十學(xué)位論文 聯(lián),可以利用它對(duì)于數(shù)據(jù)維進(jìn)行進(jìn)一步描述。該維表或者維字段可由用戶或?qū)<以O(shè)定, 或者根據(jù)數(shù)據(jù)分布自動(dòng)產(chǎn)生和調(diào)整。 通常,多維數(shù)據(jù)模型圍繞中心主題組織。該主題用事實(shí)表示。事實(shí)一般采用數(shù)值度 量。把它們看作數(shù)量,是因?yàn)橛脩衾盟鼈兎治鼍S之間的關(guān)系。事實(shí)表包括事實(shí)的名稱 或度量,以及每個(gè)相關(guān)維表的關(guān)鍵字。 實(shí)體關(guān)系數(shù)據(jù)模型廣泛用于關(guān)系數(shù)據(jù)庫的設(shè)計(jì)。在那罩,數(shù)據(jù)庫模式由實(shí)體的集 合和它們之間的聯(lián)系組成。這種數(shù)據(jù)模型適用于聯(lián)機(jī)事務(wù)處理( o l t p ) 。然而,數(shù)據(jù)倉庫 需要簡(jiǎn)明的、面向主題的模式,便于聯(lián)機(jī)數(shù)據(jù)分析6 】。目前較為流行的數(shù)據(jù)倉庫模型是 多維數(shù)掘模型。這種模型可以以星形模式、雪花模式和事實(shí)星座模式存在。 星形模式( s t a rs c h e m a ) :最常見的模型范例是星形模式,其中數(shù)據(jù)倉庫包括:( 1 ) 一 個(gè)大的包含大批數(shù)據(jù)和不含冗余的中心事實(shí)表,( 2 ) 一組小的附屬維表,每維一個(gè)。這種 模式很像星星爆發(fā),維表圍繞中心表顯示在射線上,如圖2 3 所示。 圖2 3 昂型模式數(shù)據(jù)模型 f i g ,2 3s t a rs c h e m a 數(shù)據(jù)挖掘過稃中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用 雪花模式( s n o w f l a k es c h e m a ) :雪花模式是星形模式的變種,其中某喧維表是規(guī)范化 的,因而把數(shù)據(jù)進(jìn)步分解到附加的表中。模式圖形成類似于雪花的形狀如圖2 4 所示。 事實(shí)星座( f a c tc o n s t e l l a t i o n ) :復(fù)雜的應(yīng)用可能需要多個(gè)事實(shí)表共享維表。這種模式 可以看作足形模式集,因此成為星系模型( g a l a x ys c h e m a ) ,或事實(shí)暈座,如圖2 5 所示。 幽2 - 4 雪花模式數(shù)據(jù)模型 f i g 2 4s n o w f l a k es c h e m a 幽2 - 5 事實(shí)星庫數(shù)鋸模型 f i g 2 5f a c tc o n s t e l l a t i o n 沈陽工業(yè)大學(xué)碩士學(xué)位論文 采用上述的數(shù)據(jù)模型,使數(shù)據(jù)組織成多維的形式,每個(gè)維度還可以根據(jù)所表示的事 實(shí)抽象為多個(gè)層次,這種組織數(shù)據(jù)的方式可以使用戶從不同角度靈活的觀察數(shù)據(jù),用戶 可以從數(shù)據(jù)立方體的各個(gè)方向獲取視圖,并進(jìn)行交互查詢和相關(guān)操作。對(duì)于數(shù)據(jù)模型的 常用操作包括:上卷( r 0 1 1 - u p ) 、下鉆( d r i l l d o w n ) 、切片( s l i c e ) 、切塊( d i c e ) 以及轉(zhuǎn)軸( p i v o o 等,可以參見文獻(xiàn)【1 】。上卷操作是通過一個(gè)維的概念分層向上攀升,以得到更加籠統(tǒng)或 綜合的事實(shí);下鉆操作是上卷的逆操作,它由不太詳細(xì)的數(shù)據(jù)轉(zhuǎn)換到更加詳細(xì)的數(shù)據(jù)信 息,它沿維的概念分層向下或引入新的維來實(shí)現(xiàn);切片操作在給定的數(shù)據(jù)立方體的一個(gè) 維上進(jìn)行選擇,產(chǎn)生一個(gè)二維的平面;切塊操作通過對(duì)兩個(gè)或多個(gè)維執(zhí)行選擇定義子立 方體;轉(zhuǎn)軸是一種目視操作,它轉(zhuǎn)動(dòng)數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示。以這種方式組 織數(shù)據(jù)不僅對(duì)數(shù)據(jù)挖掘中概念描述和比較有很大好處,同時(shí)對(duì)數(shù)據(jù)的可視化操作同樣大 有裨益的。在可視化過程中,采用這種多維數(shù)據(jù)模型,使數(shù)據(jù)都能夠按照主題進(jìn)行分類 分層,不僅可以降低顯示與挖掘的復(fù)雜性,而且更加符合人認(rèn)知系統(tǒng)的特點(diǎn),更便于用 戶對(duì)數(shù)據(jù)挖掘及可視化結(jié)果的理解。 需要指出的是數(shù)據(jù)挖掘應(yīng)當(dāng)是以人為中心的過程。用戶將經(jīng)常與系統(tǒng)交互,進(jìn)行探 測(cè)式數(shù)據(jù)挖掘,而并不特別要求數(shù)據(jù)挖掘系統(tǒng)自動(dòng)產(chǎn)生模式與知識(shí),因此采用數(shù)據(jù)立方 體數(shù)據(jù)模型指導(dǎo)數(shù)據(jù)挖掘過程是具有很強(qiáng)實(shí)用性的。 數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用 3 數(shù)據(jù)可視化技術(shù)常用方法 3 1 數(shù)據(jù)可視化的分類 數(shù)據(jù)的可視化會(huì)涉及到數(shù)據(jù)類型、可視化技術(shù)及數(shù)據(jù)進(jìn)行交互和變形的技術(shù)。所有 的三個(gè)要素構(gòu)成了對(duì)數(shù)據(jù)的可視化。圖3 1 描述了三個(gè)要素各自所包含的內(nèi)容。 一維披據(jù) = 維數(shù)據(jù) 多維數(shù)據(jù) 文本哪m 層次囝形數(shù)據(jù) 算法軟件 膏夏可視化的鼓據(jù)莢壁 圖3 1 數(shù)據(jù)可視化的三要素 f i g 3 1t h r g ef a c t o r so f v i s u a l i z a t i o n 可視化數(shù)據(jù)類型( d a t at ob ev i s u a l i z e d ) ( 1 ) 一維數(shù)據(jù)只有一個(gè)維度。典型的一維數(shù)據(jù)的實(shí)例是時(shí)序數(shù)據(jù)。在每一個(gè)時(shí)間點(diǎn)有 一個(gè)或多個(gè)數(shù)據(jù)值相關(guān)聯(lián)可以參見文獻(xiàn)【1 2 】。 ( 2 ) - - 維數(shù)據(jù)有兩個(gè)不同維。典型的實(shí)例是地理數(shù)據(jù),有經(jīng)度和維度兩個(gè)不同的維。 可以采用二維坐標(biāo)系進(jìn)行顯示。盡管表面上處理時(shí)序或地理數(shù)據(jù)等一維- - 維數(shù)據(jù),但是 當(dāng)數(shù)據(jù)良很大時(shí),這種方法不是和容易理解數(shù)據(jù)。 ( 3 ) 多維數(shù)據(jù)集包括超過三個(gè)的屬性,這樣不能簡(jiǎn)單的作為二維或三維數(shù)據(jù)來顯示。 多維數(shù)據(jù)模型的實(shí)例是關(guān)系數(shù)據(jù)庫中的表,表的每一列都表示一個(gè)屬性。采用平行坐標(biāo)、 象素顯示、散點(diǎn)圖矩陣技術(shù)等方法對(duì)數(shù)據(jù)集進(jìn)行顯示和描述,參見文獻(xiàn)【1 6 】。 沈陽工業(yè)大學(xué)碩士學(xué)位論文 ( 4 ) 文本和超文本數(shù)據(jù)是網(wǎng)絡(luò)時(shí)代的一種重要的數(shù)據(jù)類型【17 l ,這些數(shù)據(jù)不能輕易的被 描述為數(shù)字,因此許多標(biāo)準(zhǔn)的可視化技術(shù)不能被應(yīng)用。一般情況下,首先要把數(shù)據(jù)轉(zhuǎn)化 為向量描述,然后再應(yīng)用可視化技術(shù)。 另外,還有一些數(shù)據(jù)類型,如圖形、層次數(shù)據(jù)、算法和軟件等都有專門的一些可視 化方法,如:圖形可以表示一般數(shù)據(jù)之間的內(nèi)部依賴關(guān)系;算法和軟件的可視化目的是 為了幫助對(duì)算法的理解,以此來支持軟件的開發(fā),如流程圖、代碼結(jié)構(gòu)圖等。 3 2 多維數(shù)據(jù)可視化技術(shù) 如圖3 1 所示,數(shù)據(jù)可視化技術(shù)( d a t av i s u a l i z a t i o nt e c h n i q u e ) 包括幾個(gè)方面,以下 將會(huì)逐個(gè)介紹每種可視化技術(shù)。 圖3 2 采用條狀圖對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行可視化顯示 f 培3 2t h ev i s u a l i z a t i o no f b a rc h a r t s 數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用 圖3 3 采用線條圖對(duì)數(shù)據(jù)進(jìn)行可視化顯示 f i g 3 3t h ev i s u a l i z a t i o no f l i n ec h a r t s 標(biāo)準(zhǔn)的2 d 3 d 可視化技術(shù),如二維坐標(biāo)三維坐標(biāo),條形圖( b a rc h a r t s ) ,線條圖( l i n e g r a p h s ) 等等,這些也是用戶較為經(jīng)常使用的數(shù)據(jù)可視化表達(dá)方式,如圖3 2 ,3 3 所示。 3 2 1 幾何轉(zhuǎn)化顯示技術(shù)( g e o m e t r i c a l l y t r a n s f o r m e dd i s p l a y s ) 幾何轉(zhuǎn)化顯示技術(shù)旨在發(fā)現(xiàn)多維數(shù)據(jù)集的有趣的轉(zhuǎn)化。目前主流的幾何顯示技術(shù)研 究主要包括三種: ( 1 ) 散點(diǎn)圖矩陣( s c a t t e r p l o t sm a t r i c e s ) :散點(diǎn)圖可能是最流行的數(shù)據(jù)挖掘可視化工 具,它可以幫助用戶發(fā)現(xiàn)簇及其外層,趨勢(shì)和關(guān)系p ”。掠過的點(diǎn)和分類著色的點(diǎn)被用來 獲得對(duì)數(shù)據(jù)的額外的洞察。當(dāng)數(shù)據(jù)點(diǎn)過多,彼此交迭或數(shù)據(jù)的分解使大量的數(shù)據(jù)點(diǎn)位于 同一個(gè)坐標(biāo)系,放大,掃視全景,抖動(dòng)就可被用來提高視圖效果。當(dāng)要顯示的維數(shù)較多 時(shí),散點(diǎn)圖就很難表現(xiàn)出好的效果了。散列圖矩陣解決了這個(gè)問題。它使散點(diǎn)圖用矩陣 的方式排列以表達(dá)多維數(shù)據(jù)集屬性彼此間的關(guān)系。圖3 4 顯示了一個(gè)數(shù)據(jù)集的散列圖矩 陣。 沈陽工業(yè)大學(xué)碩士學(xué)位論文 圖3 4 數(shù)據(jù)集的散列圖矩陣 f i g 3 4d a t as e to f s c a t t e r p l o t sm a t r i c e s ( 2 ) 解剖視圖( p r o s e c t i o nv i e w s ) :把截面( s e c t i o n ) 和投影( p r o j e c t i o n s ) 組合 起來稱為解剖( p r o s e c t i o n s ) ,這樣就可以顯示中間維的結(jié)構(gòu)面貌 1 8 , 1 9 1 。投影能夠容易 的顯示低維的結(jié)構(gòu)。截面能夠容易的顯示較低的余維數(shù),例如具有高維對(duì)象的子空間的 交集。圖3 5 顯示了一個(gè)解剖視圖的例子。 數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用 圖3 5 對(duì)超度量的空間軌跡二維投影的解剖視圖。在右下角上顯示了坐標(biāo)系單元向量的投影 f i g 3 5t w o2 - p r o j e c t i o n so f t h eu l t r a m e t r i cl o c u s ( t h ep r o j e c t i o n so f t h ec o o r d i n a t eu n i tv e c t o r sa l e s h o w ni nt h eb o t t o ml e gc o r n e r ) 圖3 6 平行坐標(biāo)法進(jìn)行多維數(shù)據(jù)可視化 f i g 3 6t h ev i s u a l i z a t i o no f p a r a l l e lc o o r d i n a t et e c h n o l o g y ( 3 ) 平行坐標(biāo)法( p a r a l l e lc o o r d i n a t e s ) :平行坐標(biāo)法是最早提出的在二維平面上 顯示n 維空間的數(shù)據(jù)可視化技術(shù)之一,參見圖3 6 。它的基本思想是將n 維數(shù)據(jù)屬性 空間用n 條等距離的平行軸映射到二維平面上,每條軸線對(duì)應(yīng)一個(gè)屬性維,坐標(biāo)軸的 取值范圍從對(duì)應(yīng)屬性的最小值到最大值均勻分布h 2 0 2 2 l 。這樣,每一個(gè)數(shù)據(jù)項(xiàng)都可以用 一條折線表示在n 條平行軸上。這個(gè)視圖能夠使用戶對(duì)每個(gè)屬性的數(shù)據(jù)分布有一個(gè)粗 沈陽工業(yè)大學(xué)碩士學(xué)位論文 略的認(rèn)識(shí),尤其,不同類型數(shù)據(jù)以不同顏色顯示能夠更清晰的表示不同類型數(shù)據(jù)之間的 差異 2 6 1 。 3 2 2 圖標(biāo)顯示技術(shù)( i c o n i cd i s p l a y s ) 圖標(biāo)顯示技術(shù)是基于圖標(biāo)的技術(shù),其核心思想是把每個(gè)多維數(shù)據(jù)項(xiàng)畫做一個(gè)圖標(biāo)。 圖標(biāo)可以被任意定義,它們可以是“c h c m o f f 臉譜圖”、“針圖標(biāo)”、“星圖標(biāo)”、“棍 圖標(biāo)”,這些都是曾經(jīng)被人們用過的圖標(biāo)形狀,參見文獻(xiàn)1 1 5 ,2 3 2 5 。例如,在星圖標(biāo)顯 示技術(shù)中,每一維數(shù)據(jù)用一條射線表示,數(shù)據(jù)的大小由射線的長(zhǎng)短來表示,屬性的個(gè)數(shù) 就是射線的條數(shù),所有射線起點(diǎn)相同,彼此夾角也相同,射線的端點(diǎn)由折線段彼此相連。 圖3 7 分別顯示了一個(gè)星圖標(biāo)和一個(gè)臉譜圖標(biāo)的例子,圖中顯示的是2 0 個(gè)具有1 4 維度 的數(shù)據(jù)。實(shí)踐表明采用圖標(biāo)技術(shù)對(duì)數(shù)據(jù)進(jìn)行可視化,可以充分的將數(shù)據(jù)各個(gè)維度的信息 加以顯示,使用戶可以非常便捷的比較數(shù)據(jù)間的差異,發(fā)現(xiàn)有趣的數(shù)據(jù)關(guān)系。不僅如此, 曾有專家對(duì)可視化效果進(jìn)行實(shí)驗(yàn),相同的用戶群體對(duì)圖標(biāo)可視化結(jié)果與其他可視化結(jié)果 進(jìn)行觀察,結(jié)果用戶投放在圖標(biāo)可視化結(jié)果上的時(shí)間超過其他可視化結(jié)果的5 0 以上。 由此可見,采用圖標(biāo)技術(shù)進(jìn)行多維數(shù)據(jù)可視化可以大幅提升用戶的關(guān)注度,進(jìn)而提升系 統(tǒng)的可用性。 圖3 7 對(duì)于同一組數(shù)據(jù)集進(jìn)行圖標(biāo)可視化。( a ) 星形圖標(biāo)可視化。( b ) c h e r n o f f 臉譜圖標(biāo)可視化 f i g 3 7i c o n i cd i s p l a y sw i t ht h es a m es e to f d a t as e t ,( a ) i ss t a rf i s u a l i z a t i o na n d ( ”i sc h e m o f f f a c e 尊茂尊囂辮 ,蟄鬈赫赫一篙 翁趣蟄g孕一 堂o聶邕蓄磐丞一蒼警暑丞 矛善 一么苔卜一盧醬一乒丟謄 數(shù)據(jù)挖掘過程中多維數(shù)據(jù)可視化技術(shù)研究與應(yīng)用 3 2 3 密集象素顯示技術(shù)( d e n s ep i x e ld i s p l a y s ) 密集象素技術(shù)的基本思想是把每一維數(shù)據(jù)值映射到一個(gè)彩色的象素上,并把屬于每 一維的象素歸納入臨近的區(qū)域。因?yàn)槊芗笏仫@示技術(shù)用每一個(gè)象素相應(yīng)的顯示每一個(gè) 數(shù)據(jù)值,所以此技術(shù)允許可視化大量的數(shù)據(jù),目前大概能夠在同一屏幕上顯示超過l , 0 0 0 ,0 0 0 個(gè)數(shù)據(jù)值。如果每個(gè)數(shù)據(jù)值由一個(gè)象素表示,那么主要的問題就是如何在屏幕 上安排這些象素。密集象素技術(shù)針對(duì)不同目的采取不同的方式安排象素,顯示的結(jié)果可 以對(duì)局部關(guān)系,依賴性和熱點(diǎn)提供詳細(xì)的信息。著名的例子是遞歸模式技術(shù)( r e c u r s i v e p a t t e mt e c h n i q u e ) 和圓周分段技術(shù)( c i r c l es e g m e n t st e c h n i q u e ) 。遞歸模式技術(shù)基于普通 的遞歸來回地安排象素,其目標(biāo)尤其在于按照一個(gè)屬性以自然的順序表示數(shù)據(jù)集,用戶 可以為每個(gè)遞歸層指定參數(shù),隨之可以控制象素的安排,以形成語義上有意義的子結(jié)構(gòu)。 圓周分段技術(shù)的思想是將圓周分成若干部分,每部分對(duì)應(yīng)一個(gè)屬性。在每部分中,每個(gè) 屬性值由一個(gè)有顏色的象素顯示,參見文獻(xiàn) 2 7 ,2 8 。圖3 8 分別顯示了遞歸模式技術(shù)與 圓周分段技術(shù)的數(shù)據(jù)可視化結(jié)果。 ( a )( b ) 圖3 8 密集象素?cái)?shù)據(jù)可視化技術(shù)。( a ) 遞歸模式技術(shù)可視化,( b ) 圓周分段技術(shù)可視化。 f i g 3 8t h ev i s u a l i z a t i o no f t h ep i x e l o r i e n t e dt e c h n i q u e ( a ) i sr e c u r s i v ep a t t e r nt e c h n i q u ea n d ( b ) i s c i r c l es e g m e n t st e c h n i q u e 沈啊ll 業(yè)人學(xué)碩 一學(xué)侍論文 圖3 9 基于層次式顯示技術(shù)的可視化結(jié)果 f i g 3 9s t a c k e dd i s p l a y s 3 2 4 層疊式顯示技術(shù)( s t a c k e dd i s p l a y s l 層疊式顯示技術(shù)以分層的方式將數(shù)據(jù)分開表示在子空問中。將n 維屬性空問劃分 成二維平匝上的子區(qū)域,子區(qū)域彼此嵌套,基本思想是將一個(gè)坐標(biāo)系統(tǒng)嵌入到另外的坐 標(biāo)系統(tǒng)中,屬性數(shù)值被劃分成幾個(gè)類。視圖的產(chǎn)生是通過將最外層坐標(biāo)系統(tǒng)分成矩形單 元,在這些單幾中,接下來的兩個(gè)屬性通常會(huì)橫跨第二層坐標(biāo)系統(tǒng)。結(jié)果視圖的有效性 很大程度上依賴于外層坐標(biāo)上數(shù)據(jù)的分布。因此,用來定義外層坐標(biāo)系統(tǒng)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論