數(shù)據(jù)挖掘-課件_第1頁
數(shù)據(jù)挖掘-課件_第2頁
數(shù)據(jù)挖掘-課件_第3頁
數(shù)據(jù)挖掘-課件_第4頁
數(shù)據(jù)挖掘-課件_第5頁
已閱讀5頁,還剩86頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘與商務智能

DataMining&BusinessIntelligence

第二章數(shù)據(jù)及數(shù)據(jù)預處理西安電子科技大學軟件學院主講人:黃健斌數(shù)據(jù)挖掘與商務智能

DataMining&Busine1內容提綱2.1數(shù)據(jù)類型2.2數(shù)據(jù)質量2.3數(shù)據(jù)預處理2.4數(shù)據(jù)相似性和相異性度量2.5數(shù)據(jù)統(tǒng)計匯總2.6數(shù)據(jù)可視化內容提綱2.1數(shù)據(jù)類型2

記錄數(shù)據(jù)關系記錄數(shù)據(jù)矩陣,例如,數(shù)值矩陣,交叉文檔數(shù)據(jù):文本文件:詞頻向量交易數(shù)據(jù)圖形和網絡萬維網社會或信息網絡分子結構有序時間數(shù)據(jù):時間序列順序數(shù)據(jù):交易序列基因序列數(shù)據(jù)視頻數(shù)據(jù)的圖像序列空間,圖像和多媒體:空間數(shù)據(jù):地圖2.1數(shù)據(jù)類型

記錄數(shù)據(jù)2.1數(shù)據(jù)類型3數(shù)據(jù)對象數(shù)據(jù)集由數(shù)據(jù)對象組成一個數(shù)據(jù)對象代表一個實體例子銷售數(shù)據(jù)庫:客戶,商店物品,銷售額醫(yī)療數(shù)據(jù)庫:患者,治療信息大學數(shù)據(jù)庫:學生,教授,課程信息稱為樣品,示例,實例,數(shù)據(jù)點,對象,元組(tuple)。數(shù)據(jù)對象所描述的屬性。數(shù)據(jù)庫中的行->數(shù)據(jù)對象;列->“屬性”。數(shù)據(jù)對象數(shù)據(jù)集由數(shù)據(jù)對象組成4屬性屬性(或尺寸,特征,變量):一個數(shù)據(jù)字段,代表一個數(shù)據(jù)對象的特征或功能。例如,客戶_ID,姓名,地址類型:標稱二進制數(shù)字:定量規(guī)模區(qū)間縮放比率屬性屬性(或尺寸,特征,變量):一個數(shù)據(jù)字段,代表一個數(shù)據(jù)對5屬性類型標稱:類別,狀態(tài),或“名字的東西”Hair_color={黑色,棕色,金色,紅色,紅褐色,灰色,白色}婚姻狀況,職業(yè),身份證號碼,郵政編碼二進制只有2個狀態(tài)(0和1)的屬性對稱二進制兩種結果重要例如,性別不對稱的二進制結果同樣重要。例如,醫(yī)療測試(正面與負面)公約:將1至最重要的成果(例如,HIV陽性)序數(shù)詞價值觀有一個有意義的順序(排名),但不知道連續(xù)值之間的大小。大小={小,中,大},等級,軍隊排名屬性類型標稱:類別,狀態(tài),或“名字的東西”62.2數(shù)據(jù)質量被廣泛接受的數(shù)據(jù)質量測量標準準確性完整性一致性合時性可信度解釋性2.2數(shù)據(jù)質量被廣泛接受的數(shù)據(jù)質量測量標準72.3數(shù)據(jù)預處理數(shù)據(jù)預處理:概述數(shù)據(jù)預處理主要任務數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)縮減數(shù)據(jù)轉換和數(shù)據(jù)離散化總結2.3數(shù)據(jù)預處理數(shù)據(jù)預處理:概述82.3數(shù)據(jù)預處理主要任務數(shù)據(jù)清理填寫缺失值,平滑噪聲數(shù)據(jù),識別或刪除離群,并解決不一致問題數(shù)據(jù)集成整合多個數(shù)據(jù)庫,多維數(shù)據(jù)集或文件數(shù)據(jù)縮減降維Numerosityreduction數(shù)據(jù)壓縮數(shù)據(jù)轉換和數(shù)據(jù)離散化正常化生成概念層次結構2.3數(shù)據(jù)預處理主要任務數(shù)據(jù)清理9數(shù)據(jù)清洗在現(xiàn)實世界中的數(shù)據(jù)是“臟”的:不完整的:缺少屬性值,缺乏某些屬性值,或只包含總數(shù)據(jù)例如,職業(yè)=“”(丟失的數(shù)據(jù))含嘈雜的噪音,錯誤或離群例如,工資=“-10”(錯誤)不一致的代碼或不符的名稱年齡=“42”生日=“03/07/1997”曾經評級“1,2,3”,現(xiàn)在評級“A,B,C”重復的記錄之間的差異數(shù)據(jù)清洗在現(xiàn)實世界中的數(shù)據(jù)是“臟”的:10不完整(缺少)數(shù)據(jù)數(shù)據(jù)并不總是可用的例如,許多元組沒有屬性,如客戶收入、銷售數(shù)據(jù)的記錄值丟失的數(shù)據(jù),可能是由于設備故障與其他記錄的數(shù)據(jù)不一致,從而刪除因誤會而未讀入在讀入的時候,某些數(shù)據(jù)可能不會被認為是重要的不是歷史或更改的數(shù)據(jù)注冊丟失的數(shù)據(jù)可能需要被推斷不完整(缺少)數(shù)據(jù)數(shù)據(jù)并不總是可用的11如何處理丟失數(shù)據(jù)?忽略元組:通常是類標簽丟失時(這樣做分類),每個屬性的缺失值有很大的差別手動填寫遺漏值自動填寫全局常量屬性含義屬性意味著所有樣本屬于同一類最有可能的值:基于諸如貝葉斯公式或決策樹推理如何處理丟失數(shù)據(jù)?忽略元組:通常是類標簽丟失時(這樣做分類)12噪聲數(shù)據(jù)噪聲:一個測量變量中的隨機錯誤或方差原因收集工具故障數(shù)據(jù)錄入問題數(shù)據(jù)傳輸問題技術限制命名約定不一致其他數(shù)據(jù)問題需要數(shù)據(jù)清理如重復記錄數(shù)據(jù)不完整不一致的數(shù)據(jù)噪聲數(shù)據(jù)噪聲:一個測量變量中的隨機錯誤或方差13如何處理噪聲數(shù)據(jù)?回歸數(shù)據(jù)擬合聚類檢測和刪除離群結合計算機和人工檢查檢測可疑的數(shù)據(jù)(例如人工處理可能的異常值)如何處理噪聲數(shù)據(jù)?回歸14數(shù)據(jù)清洗數(shù)據(jù)的誤差檢測使用元數(shù)據(jù)(例如,領域,范圍,依賴,分銷)檢查是否溢出檢查唯一性規(guī)則,連續(xù)統(tǒng)治和空的規(guī)則使用商業(yè)工具數(shù)據(jù)清理:使用領域知識(例如,郵政編碼,拼寫檢查),檢測錯誤并改正數(shù)據(jù)審計:通過分析數(shù)據(jù)檢測違規(guī)者(例如,關聯(lián)和聚類規(guī)則和關系,尋找離群)數(shù)據(jù)遷移和整合數(shù)據(jù)遷移工具:允許指定的轉換ETL(提取/轉換/加載)工具:通過圖形用戶界面允許用戶指定轉換兩個過程的集成迭代和交互數(shù)據(jù)清洗數(shù)據(jù)的誤差檢測15數(shù)據(jù)集成數(shù)據(jù)集成將來自多個數(shù)據(jù)源的數(shù)據(jù)組合成一個連貫的數(shù)據(jù)源模式集成:例如,A.cust-idB.cust-#整合來自不同來源的元數(shù)據(jù)實體識別問題:識別來自多個數(shù)據(jù)源的真實世界的實體,例如,BillClinton=WilliamClinton數(shù)據(jù)沖突檢測和解決對于同一個真實世界的實體,來自不同源的屬性值可能的原因:不同的表述,不同的尺度,例如,公制與英制單位數(shù)據(jù)集成數(shù)據(jù)集成16數(shù)據(jù)集成中的冗余信息的處理整合多個數(shù)據(jù)庫經常發(fā)生數(shù)據(jù)冗余Objectidentification:相同的屬性或對象可能有不同的名字在不同的數(shù)據(jù)庫中Derivabledata:一個屬性可能是“派生”的另一個表中的屬性,例如,年收入通過相關性分析和協(xié)方差分析可以檢測到冗余的屬性仔細集成來自多個數(shù)據(jù)源,可能有助于減少/避免冗余和不一致的地方,并提高讀取速度和質量數(shù)據(jù)集成中的冗余信息的處理整合多個數(shù)據(jù)庫經常發(fā)生數(shù)據(jù)冗余17相關分析Χ2(chi-square)testΧ2值越大,越有可能變量是相關的ThecellsthatcontributethemosttotheΧ2valuearethosewhoseactualcountisverydifferentfromtheexpectedcount相關性并不意味著因果關系#ofhospitalsand#ofcar-theftinacity是相關的兩者都因果聯(lián)系的第三個變量為人口相關分析Χ2(chi-square)test18Χ2(chi-square)test舉例Χ2(卡方)計算(括號中的數(shù)字是預計計數(shù)基于兩個類別中的數(shù)據(jù)分布計算)這表明,組中的like_science_fiction和play_chess相關Χ2(chi-square)test舉例Χ2(卡方)計算19相關分析數(shù)據(jù)(數(shù)字數(shù)據(jù))相關系數(shù)(也稱為皮爾遜積矩系數(shù))其中n是元組的數(shù)目,而p和q是各自的具體值,σp和σq是各自的標準偏差,如果R(p,q)>0,p和q是正相關的(p的值增加為q的),較高的相關性。R(p,q)=0:獨立;R(p,q)<0負相關相關分析數(shù)據(jù)(數(shù)字數(shù)據(jù))相關系數(shù)(也稱為皮爾遜積矩系數(shù))20視覺評估相關散點圖顯示的相似性,從-1到1。視覺評估相關散點圖顯示的相似性,從-1到1。21相關(視為線性關系)相關測量對象之間的線性關系為了計算相關性,將數(shù)據(jù)對象標準化,p和q,然后計算他們的點積相關(視為線性關系)相關測量對象之間的線性關系22協(xié)方差(數(shù)字數(shù)據(jù))類似相關協(xié)方差其中n是元組的數(shù)目,p和q是各自的平均值或期望值,σp和σq是各自的標準偏差。正的協(xié)方差:如果COV(p,q)>0,則p和q都傾向于是大于它們的預期值。負的協(xié)方差:如果在COV(p,q)<0,則如果p是大于它的預期值,q是可能要小于它的預期值。獨立性:COVP(p,q)=0可具有某些對隨機變量的協(xié)方差為0,但不是獨立的。一些額外的假設(例如,數(shù)據(jù)是否服從多元正態(tài)分布)做了協(xié)方差為0意味著獨立協(xié)方差(數(shù)字數(shù)據(jù))類似相關協(xié)方差23協(xié)方差:舉例它可以簡化計算假設兩只股票A和B具有在1個星期的以下值:(2,5),(3,8),(5,10),(4,11),(6,14)。問題:如果股票都受到同行業(yè)的趨勢,他們的價格一起上升或下降?E(A)=(2+3+5+4+6)/5=20/5=4E(B)=(5+8+10+11+14)/5=48/5=9.6COV(A,B)=(2×5+3×8+5×10+4×11+6×14)/5-4×9.6=4結論:A和B在一起上升,因為Cov(A,B)>0。協(xié)方差:舉例它可以簡化計算24數(shù)據(jù)縮減策略數(shù)據(jù)還原:還原面積更小、體積減少的數(shù)據(jù)集,但尚未產生相同(或幾乎相同)的分析結果為什么數(shù)據(jù)縮減?-由于數(shù)據(jù)倉庫可以存儲TB的數(shù)據(jù),因此在一個完整的數(shù)據(jù)集上運行時,復雜的數(shù)據(jù)分析可能需要一個很長的時間數(shù)據(jù)縮減戰(zhàn)略降維,例如,刪除不重要的屬性小波變換主成分分析(PCA)特征選擇,特征創(chuàng)建Numerosityreduction回歸和對數(shù)線性模型直方圖,聚類,取樣數(shù)據(jù)立方體聚集數(shù)據(jù)壓縮數(shù)據(jù)縮減策略數(shù)據(jù)還原:還原面積更小、體積減少的數(shù)據(jù)集,但尚未25降維原因隨著維數(shù)的增加,數(shù)據(jù)變得越來越稀疏對孤立點分析使得密度和距離變得意義不大子空間的可能的組合將成倍增長降維作用避免維數(shù)災難幫助消除無關緊要的屬性,并降低噪音減少數(shù)據(jù)挖掘所需的時間和空間更容易的可視化降維技術小波變換主成分分析監(jiān)督和非線性技術(例如,特征選擇)降維原因26將數(shù)據(jù)映射到一個新的空間傅里葉變換小波變換TwoSineWavesTwoSineWaves+NoiseFrequency將數(shù)據(jù)映射到一個新的空間傅里葉變換TwoSineWave27小波變換是什么?分解成不同的頻率子帶的信號適用于n維信號轉化的數(shù)據(jù)是在不同級別的分辨率中保存用于圖像壓縮小波變換是什么?分解成不同的頻率子帶的信號28小波變換離散小波變換(DWT)的線性信號處理壓縮近似:只有一小部分的小波系數(shù)最強離散傅里葉變換(DFT)類似,但在空間中有更好的壓縮效果方法:長度L,必須是2的整數(shù)次冪(0填充,必要時)每個變換具有2個功能:平滑,差異適用于雙數(shù)據(jù),在兩個集得到的長度為L/2的數(shù)據(jù)施加兩個遞歸函數(shù),直到達到所需要的長度小波變換離散小波變換(DWT)的線性信號處理29小波變換小波:空間高效分解的數(shù)學工具[2,2,0,2,3,5,4,4]可轉化為S=S^=[23/4,-11/4,1/2,0,0,-1,0]壓縮:許多小細節(jié)系數(shù)可以替換為0的,只有顯示的系數(shù)被保留小波變換小波:空間高效分解的數(shù)學工具30為什么小波變換?使用hat-shape濾波器強調區(qū)域點聚集的地方在邊界禁止較弱的信息有效去除離群值對噪聲不敏感多分辨率在不同尺度檢測任意形狀的集群高效復雜度為O(N)只適用于低維數(shù)據(jù)為什么小波變換?使用hat-shape濾波器31主成分分析(PCA)原始數(shù)據(jù)投影到一個更小的空間,從而查找投影來捕獲最大的變化量數(shù)據(jù)的,從而維數(shù)降低。發(fā)現(xiàn)協(xié)方差矩陣的特征向量,用這些特征向量定義新的空間x2x1e主成分分析(PCA)原始數(shù)據(jù)投影到一個更小的空間,從而查找投32主成分分析(步驟)從n維向量中的N個數(shù)據(jù)中,求k≤N個正交向量(主成分)能用來表示數(shù)據(jù)歸一輸入數(shù)據(jù):每個屬性落在相同的范圍內(單元)計算K:正交向量,即,主成分每個輸入的數(shù)據(jù)(矢量)是k個主分量矢量的線性組合通過排序減少“意義”或強度的組成部分由于這些組件的排序方式,消除了弱的元件,即具有低方差(即,使用最強的主成分,也能夠重建原始數(shù)據(jù)的一個很好的近似,可以減少數(shù)據(jù)的大?。┲鞒煞址治觯ú襟E)從n維向量中的N個數(shù)據(jù)中,求k≤N個正交向33屬性子集選擇通過屬性子集選擇以減少數(shù)據(jù)的維多余的屬性復制所有的信息中包含一個或多個其他屬性例如,購買一個產品的價格和支付額兩個屬性相同,是多余的屬性不相關的屬性不包含任何信息的屬性例如,學生的ID往往在預測學生的GPA是不相關的屬性子集選擇通過屬性子集選擇以減少數(shù)據(jù)的維34啟發(fā)式搜索屬性選擇d的屬性有可能是2d屬性組合典型的啟發(fā)式屬性選擇方法:Bestsingleattribute屬性獨立性假設:選擇進行檢驗分步進行的功能選擇:分步進行屬性消除:反復淘汰不需要的屬性最佳組合的屬性選擇和淘汰優(yōu)化分支和綁定:使用屬性消除和回溯啟發(fā)式搜索屬性選擇d的屬性有可能是2d屬性組合35創(chuàng)建屬性(特征生成)創(chuàng)建新的屬性(特征),可以更有效地比原來的數(shù)據(jù)捕捉重要的信息三個一般方法屬性提取

domain-specific將數(shù)據(jù)映射到新的空間(見:數(shù)據(jù)縮減)例如,傅立葉變換,小波變換,歧管的方法(未覆蓋)Attributeconstruction數(shù)據(jù)離散化創(chuàng)建屬性(特征生成)創(chuàng)建新的屬性(特征),可以更有效地比原來36NumerosityReduction通過選擇更小的數(shù)據(jù)來替代從而減少數(shù)據(jù)量參數(shù)方法(例如,回歸)假設數(shù)據(jù)適合一些模型,估計模型參數(shù),只存儲參數(shù),并丟棄數(shù)據(jù)(可能的異常值除外)例如:對數(shù)線性模型在一個點在MD的空間作為產品上獲得價值,適當?shù)倪呺H子空間非參數(shù)方法不要假設模型主要方法:直方圖,聚類,取樣,...NumerosityReduction通過選擇更小的數(shù)據(jù)來37參數(shù)數(shù)據(jù)還原:回歸和對數(shù)線性模型線性回歸:一次函數(shù)通常使用最小二乘法來擬合線多元回歸:允許多維特征向量的線性函數(shù)建模為變量Y對數(shù)線性模型:近似離散的多維概率分布參數(shù)數(shù)據(jù)還原:回歸和對數(shù)線性模型線性回歸:一次函數(shù)38回歸分析回歸分析:組成的一個因變量(也稱為響應變量)和一個或多個獨立變量(亦稱解釋變量或預測變量的值的數(shù)值數(shù)據(jù)建模和分析技術的統(tǒng)稱)參數(shù)估計,以便使數(shù)據(jù)“最適合”最常用的是通過使用最小二乘法來進行評估,但也被用于其他標準用于時間序列數(shù)據(jù)預測等的預測,推斷,假設檢驗,因果關系的建模xy=x+1X1Y1Y1’回歸分析回歸分析:組成的一個因變量(也稱為響應變量)和一個或39回歸分析和對數(shù)線性模型線性回歸:Y=WX+B兩個回歸系數(shù),w和b,指定行,并且要使用手工的數(shù)據(jù)估計使用最小二乘準則已知的值,Y1,Y2,...,X1,X2,....多元回歸:Y=b0+b1X1+b2X2.。許多非線性函數(shù),可轉化為上述線性模型:多路表的聯(lián)合概率近似為低階表概率:p(a,b,c,d)=

ab

ac

ad

bcd回歸分析和對數(shù)線性模型線性回歸:Y=WX+B40直方圖分析將數(shù)據(jù)劃分為buckets,然后存儲buckets的均值分區(qū)規(guī)則:等寬:等于buckets范圍相等的頻率(或等于深度直方圖分析將數(shù)據(jù)劃分為buckets,然后存儲buckets41聚類分區(qū)數(shù)據(jù)基于相似性進行存儲,只能設置成集群(例如,質心和直徑)如果數(shù)據(jù)是集群則非常有效,否則效果較差可以在多維索引樹結構有層次聚類和存儲聚類定義和聚類算法有很多選擇聚類分析在后續(xù)將進行深入研究聚類分區(qū)數(shù)據(jù)基于相似性進行存儲,只能設置成集群(例如,質心和42采樣采樣:獲得一個小樣本代表整個數(shù)據(jù)N主要原則:選擇有代表性的數(shù)據(jù)子集簡單隨機抽樣開發(fā)的自適應采樣方法,例如分層抽樣注:采樣不得減少數(shù)據(jù)庫I/O(第一次)采樣采樣:獲得一個小樣本代表整個數(shù)據(jù)N43采樣類型簡單隨機抽樣相等的概率選擇不放回抽樣一旦對象被選中,則將其刪除更換采樣選擇對象不會被刪除分層抽樣對每個分區(qū)進行數(shù)據(jù)集的分區(qū)抽樣(也就是說,大約相同比例的數(shù)據(jù)進行抽取樣本)用于偏斜數(shù)據(jù)采樣類型簡單隨機抽樣44取樣:用或不用更換SRSWOR(simplerandomsamplewithoutreplacement)SRSWRRawData取樣:用或不用更換SRSWORSRSWRRawData45采樣:群集或分層抽樣RawDataCluster/StratifiedSample采樣:群集或分層抽樣RawDataCluster/Str46數(shù)據(jù)壓縮字符串壓縮有豐富的理論和壓縮算法通常無損音頻/視頻壓縮通常有損壓縮,需要逐步細化時間序列壓縮典型的短期和隨時間變化緩慢數(shù)據(jù)壓縮字符串壓縮47數(shù)據(jù)壓縮OriginalDataCompressedDatalosslessOriginalDataApproximatedlossy數(shù)據(jù)壓縮OriginalDataCompressedlo48數(shù)據(jù)轉換函數(shù)映射指給定的屬性值更換了一個新的表示方法,每個舊值與新的值可以被識別方法平滑:從數(shù)據(jù)中去除噪聲屬性/重新構造從給定的構造的新的屬性聚合:匯總數(shù)據(jù)計算規(guī)范化:指定范圍內縮放屬于較小的最小-最大規(guī)范化Z-得分正?;?shù)定標規(guī)范化離散化:概念層次數(shù)據(jù)轉換函數(shù)映射指給定的屬性值更換了一個新的表示方法,每個舊49Discretization

離散三種類型的屬性從一個無序的設置,例如,顏色,專業(yè)的值從一個有序的集合,例如,軍事或學術排名次序值數(shù)字,真實的數(shù)字,例如,整數(shù)或實數(shù)離散化:除以間隔連續(xù)屬性的范圍區(qū)間的標簽可以被用來代替實際的數(shù)據(jù)值減少數(shù)據(jù)大小離散監(jiān)督與無監(jiān)督分割(自頂向下)與合并(自下而上)離散化,可以進行遞歸屬性準備作進一步的分析,例如,分類Discretization離散三種類型的屬性50數(shù)據(jù)離散化方法典型的方法:所有的方法可應用于遞歸Binning

自頂向下的分割直方圖分析自頂向下的分割其他方法聚類分析(無監(jiān)督,自上而下裂開或自底向上的合并)決策樹分析(監(jiān)督,自上而下的分割)相關性分析(無監(jiān)督,自下而上合并)數(shù)據(jù)離散化方法典型的方法:所有的方法可應用于遞歸51離散不使用類標簽(分級與集群)Equalfrequency(binning)K-meansclusteringleadstobetterresults離散不使用類標簽(分級與集群)Equalfrequency52離散使用類標簽決策樹方法(基于信息熵)3categoriesforbothxandy5categoriesforbothxandy離散使用類標簽決策樹方法(基于信息熵)3categorie53概念層次生成概念層次組織層次概念(即屬性值)通常指數(shù)據(jù)倉庫中的每個維度概念層次通過滾動來查看數(shù)據(jù)在數(shù)據(jù)倉庫中多粒度形成概念層次:遞歸減少數(shù)據(jù)收集和更換低層次的概念(如年齡的數(shù)值)到更高層次的概念(如青年,成年,或高級)由領域專家和/或數(shù)據(jù)倉庫設計概念分層可以顯式指定概念層次可以自動形成數(shù)字和標稱數(shù)據(jù)。對于數(shù)字數(shù)據(jù),使用所示的離散化方法。概念層次生成概念層次組織層次概念(即屬性值)通常指數(shù)據(jù)倉庫中54總結數(shù)據(jù)質量的準確性,完整性,一致性,時效性,可信性,解釋性數(shù)據(jù)清洗:如缺少/高噪音值,離群值來自多個來源的數(shù)據(jù)集成實體識別問題刪除冗余檢測不一致數(shù)據(jù)縮減降維Numerosityreduction數(shù)據(jù)壓縮數(shù)據(jù)轉換和數(shù)據(jù)離散化正常化生成概念層次總結數(shù)據(jù)質量的準確性,完整性,一致性,時效性,可信性,解釋性552.4數(shù)據(jù)相似性和相異性度量相似數(shù)值衡量兩個數(shù)據(jù)對象值越高對象時更相似往往屬于在區(qū)間[0,1]相異(例如,距離)兩個不同的數(shù)據(jù)對象的數(shù)值衡量值越低對象時更相異最低相異往往是0上限各不相同接近指的相似性或不相似2.4數(shù)據(jù)相似性和相異性度量相似56數(shù)據(jù)矩陣和相異矩陣數(shù)據(jù)矩陣n個數(shù)據(jù)兩種模式相異矩陣n個數(shù)據(jù)點三角矩陣單模數(shù)據(jù)矩陣和相異矩陣數(shù)據(jù)矩陣57舉例:數(shù)據(jù)矩陣和相異矩陣DissimilarityMatrix(withEuclideanDistance)DataMatrix舉例:數(shù)據(jù)矩陣和相異矩陣DissimilarityMatr58總結數(shù)據(jù)屬性類型:名義,二進制,順序,間隔縮放比例,縮放許多類型的數(shù)據(jù)集,例如,數(shù)值,文字,圖形,網頁,圖像等。洞察數(shù)據(jù)通過以下幾種方式:基本的統(tǒng)計數(shù)據(jù)說明:集中趨勢,分散,圖形顯示數(shù)據(jù)可視化:mapdataontographicalprimitives測量數(shù)據(jù)相似上述步驟是數(shù)據(jù)預處理的開始。許多方法已經開發(fā),但現(xiàn)在其仍然是一個活躍的研究領域總結數(shù)據(jù)屬性類型:名義,二進制,順序,間隔縮放比例,縮放592.5數(shù)據(jù)統(tǒng)計匯總動機為了更好地理解數(shù)據(jù):集中趨勢,變異和傳播數(shù)據(jù)的分散特性最大值,最小值,中位數(shù),位數(shù),離群值,方差等。尺寸數(shù)值對應排序的時間間隔數(shù)據(jù)分散性:多粒度的精確分析箱形圖或位數(shù)排序的時間間隔分析2.5數(shù)據(jù)統(tǒng)計匯總動機60測量集中趨勢平均(代數(shù)措施)(樣品與人口):注:n為樣本大小和N是人口規(guī)模。加權算術平均值:修剪意味著:去掉極端值中位數(shù):中間值,如果值,奇數(shù)或平均中間的兩個值,否則估計插補(分組數(shù)據(jù)):模式最頻繁出現(xiàn)的值,該值在數(shù)據(jù)單峰,雙峰,三峰經驗公式:測量集中趨勢平均(代數(shù)措施)(樣品與人口):61對稱VS偏斜數(shù)據(jù),中位數(shù),均值和對稱模式,正面和負面的偏斜數(shù)據(jù)對稱VS偏斜數(shù)據(jù),中位數(shù),均值和對稱模式,62測量數(shù)據(jù)的分散性四分位數(shù),離群和盒狀圖四分位數(shù)(第25百分位):Q1,Q3(第75百分位)四分位數(shù)間距:IQR=Q3-Q1箱形圖:盒子的兩端是四分位數(shù)明顯;單獨添加胡須,情節(jié)離群離群:通常情況下,一個值高于/低于1.5×IQR方差和標準差(樣本:,人口:σ)方差:(代數(shù),可擴展的計算)標準差s(或σ)是方差的平方根2(或σ2)測量數(shù)據(jù)的分散性四分位數(shù),離群和盒狀圖63箱線圖分析五號碼分布摘要最小,Q1,中位數(shù),Q3,最大箱形圖數(shù)據(jù)表示與一個框框的端部上面的第一個和第三個四分位數(shù),即,框的高度是四分位數(shù)間距方框內的中位數(shù)的帶標記的線兩線最小和最大擴展到外箱箱線圖分析五號碼分布摘要64可視化數(shù)據(jù)分散:3-D箱圖可視化數(shù)據(jù)分散:3-D箱圖65正態(tài)分布曲線的屬性正常分布曲線從μ-σμ+σ:含有約68%的測量(μ:均值,σ:標準偏差)從μ-2σμ+2σ:包含約95%的從μ-3σ,μ+3σ:包含約99.7%正態(tài)分布曲線的屬性正常分布曲線66圖形顯示的基本統(tǒng)計描述箱形圖:圖形顯示直方圖:x軸值,y軸頻率位數(shù):每個值x位數(shù)-分位數(shù)(QQ):一個單變量分布的分位數(shù)對相應位數(shù)的另一個圖表散點圖:每個值對是一對坐標,其繪制在平面上圖形顯示的基本統(tǒng)計描述箱形圖:圖形顯示67相比盒形圖直方圖往往告訴更多兩個在右側的直方圖顯示其可以具有相同的盒形圖表示效果相同的values:最小,Q1,Q3,中位數(shù),最大但是他們有相當不同的數(shù)據(jù)分布相比盒形圖直方圖往往告訴更多68位數(shù)圖顯示的所有數(shù)據(jù)(允許用戶評估整體行為和不尋常的事件)位數(shù)信息對于數(shù)據(jù)x進行遞增的順序排序,F(xiàn)I表示,約一定比例的數(shù)據(jù)網絡連接均低于或等于值xi位數(shù)圖顯示的所有數(shù)據(jù)(允許用戶評估整體行為和不尋常的事件)69散點圖二元數(shù)據(jù)顯示點的分布,離群點等被視為一對坐標值的每對點在平面上繪制成散點圖二元數(shù)據(jù)顯示點的分布,離群點等70正面和負面的相關數(shù)據(jù)左半片段是正相關的右半邊是負相關正面和負面的相關數(shù)據(jù)左半片段是正相關的71不相關的數(shù)據(jù)不相關的數(shù)據(jù)722.6數(shù)據(jù)可視化為什么數(shù)據(jù)可視化?將圖元數(shù)據(jù)映射到信息空間提供大型數(shù)據(jù)集的定性瀏覽搜索數(shù)據(jù)之間的關系如模式,趨勢,結構,規(guī)則,幫助進一步定量分析,通過合適的參數(shù)找到有趣的地區(qū)提供可視化的陳述典型的可視化方法:幾何技術基于圖標的技術分層技術2.6數(shù)據(jù)可視化為什么數(shù)據(jù)可視化?73幾何技術幾何變換和預測的數(shù)據(jù)可視化方法直接的數(shù)據(jù)可視化散點圖矩陣Landscapes投影尋蹤技術尋找有意義的多維數(shù)據(jù)預測Hyperslice平行坐標幾何技術幾何變換和預測的數(shù)據(jù)可視化方法74直接數(shù)據(jù)可視化基于Vorticity的色帶直接數(shù)據(jù)可視化基于Vorticity的色帶75散點圖矩陣散點圖矩陣76Landscapes可視化的數(shù)據(jù)透視Landscapes這些數(shù)據(jù)需要轉化成一個(可能是人工的)二維空間表示,其中保存的數(shù)據(jù)的特征Landscapes可視化的數(shù)據(jù)透視Landscapes77平行坐標將一個軸劃分為N等距離,每一個距離對應一個屬性軸縮放在[最小,最大]之間:對應屬性范圍每一個數(shù)據(jù)項目(折線)對應的各軸相交的點表示相對應的屬性值平行坐標將一個軸劃分為N等距離,每一個距離對應一個屬性78平行坐標數(shù)據(jù)集平行坐標數(shù)據(jù)集79基于圖標的技術將數(shù)據(jù)值作為可視化功能的圖標典型的可視化方法:ChernoffFacesStickFigures一般技術形狀編碼:使用形狀來表示一定的信息編碼彩色圖標:使用彩色圖標的信息編碼TileBars:使用小圖標代表文件檢索的特征向量基于圖標的技術將數(shù)據(jù)值作為可視化功能的圖標80ChernoffFaces一種來顯示二維表面上的變量的方法,例如,讓x是眉毛傾斜,y是眼睛的大小,z是鼻子長度等該組圖顯示了人臉部的10個特征-眼睛的大小,眼間距,偏心眼,瞳孔大小,眉毛傾斜,鼻子的大小,嘴的形狀,嘴巴大小,張口等參考文獻:Gonick,L.andSmith,W.TheCartoonGuidetoStatistics.NewYork:HarperPerennial,p.212,1993Weisstein,EricW."ChernoffFace."FromMathWorld--AWolframWebResource./ChernoffFace.html

ChernoffFaces一種來顯示二維表面上的變量的方法81StickFigures普查數(shù)據(jù)顯示,年齡,收入,性別,教育等等。StickFigures普查數(shù)據(jù)顯示,年齡,收入,性別,教82分層技術使用子空間分層分區(qū)的數(shù)據(jù)可視化。方法DimensionalStackingWorlds-within-WorldsTree-MapConeTreesInfoCube分層技術使用子空間分層分區(qū)的數(shù)據(jù)可視化。83DimensionalStacking在2-D的子空間中分配的n維屬性空間,'堆疊'相互轉化劃分成類的屬性值范圍時,重要屬性使用在theouterlevels上。低基數(shù)與序屬性數(shù)據(jù)超過九個維度難以顯示重要的地圖尺寸適當DimensionalStacking在2-D的子空間中分84Worlds-within-Worlds指定兩個最重要的參數(shù)修復所有其他參數(shù)(1或2或3維世界選擇這些軸)軟件使用此范例,N–vision:通過datagloveandstereo立體顯示,包括旋轉,縮放(內環(huán))和翻譯(內/外動力相互作用)AutoVisual:通過查詢靜態(tài)互動Worlds-within-Worlds指定兩個最重要的參數(shù)85Tree-Map屏幕填充方法具體指根據(jù)屬性值采用了分層方法將屏幕分割成區(qū)域x和y維度的畫面交替地進行分區(qū)的屬性值(類)MSRNetScan的圖片Tree-Map屏幕填充方法具體指根據(jù)屬性值采用了分層方法將86文件系統(tǒng)的Tree-Map文件系統(tǒng)的Tree-Map87Three-DConeTreesThree-DConeTrees的可視化技術的工作原理首先建立一個二維的圓,安排節(jié)點在根節(jié)點上的同心圓,然后逐漸形成樹預計到2D時無法避免重疊G.Robertson,J.Mackinlay,S.Card.“ConeTrees:Animated3DVisualizationsofHierarchicalInfo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論