版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘與商務(wù)智能
DataMining&BusinessIntelligence
第二章數(shù)據(jù)及數(shù)據(jù)預(yù)處理西安電子科技大學(xué)軟件學(xué)院主講人:黃健斌內(nèi)容提綱2.1數(shù)據(jù)類型2.2數(shù)據(jù)質(zhì)量2.3數(shù)據(jù)預(yù)處理2.4數(shù)據(jù)相似性和相異性度量2.5數(shù)據(jù)統(tǒng)計匯總2.6數(shù)據(jù)可視化
記錄數(shù)據(jù)關(guān)系記錄數(shù)據(jù)矩陣,例如,數(shù)值矩陣,交叉文檔數(shù)據(jù):文本文件:詞頻向量交易數(shù)據(jù)圖形和網(wǎng)絡(luò)萬維網(wǎng)社會或信息網(wǎng)絡(luò)分子結(jié)構(gòu)有序時間數(shù)據(jù):時間序列順序數(shù)據(jù):交易序列基因序列數(shù)據(jù)視頻數(shù)據(jù)的圖像序列空間,圖像和多媒體:空間數(shù)據(jù):地圖2.1數(shù)據(jù)類型數(shù)據(jù)對象數(shù)據(jù)集由數(shù)據(jù)對象組成一個數(shù)據(jù)對象代表一個實體例子銷售數(shù)據(jù)庫:客戶,商店物品,銷售額醫(yī)療數(shù)據(jù)庫:患者,治療信息大學(xué)數(shù)據(jù)庫:學(xué)生,教授,課程信息稱為樣品,示例,實例,數(shù)據(jù)點(diǎn),對象,元組(tuple)。數(shù)據(jù)對象所描述的屬性。數(shù)據(jù)庫中的行->數(shù)據(jù)對象;列->“屬性”。屬性屬性(或尺寸,特征,變量):一個數(shù)據(jù)字段,代表一個數(shù)據(jù)對象的特征或功能。例如,客戶_ID,姓名,地址類型:標(biāo)稱二進(jìn)制數(shù)字:定量規(guī)模區(qū)間縮放比率屬性類型標(biāo)稱:類別,狀態(tài),或“名字的東西”Hair_color={黑色,棕色,金色,紅色,紅褐色,灰色,白色}婚姻狀況,職業(yè),身份證號碼,郵政編碼二進(jìn)制只有2個狀態(tài)(0和1)的屬性對稱二進(jìn)制兩種結(jié)果重要例如,性別不對稱的二進(jìn)制結(jié)果同樣重要。例如,醫(yī)療測試(正面與負(fù)面)公約:將1至最重要的成果(例如,HIV陽性)序數(shù)詞價值觀有一個有意義的順序(排名),但不知道連續(xù)值之間的大小。大小={小,中,大},等級,軍隊排名2.2數(shù)據(jù)質(zhì)量被廣泛接受的數(shù)據(jù)質(zhì)量測量標(biāo)準(zhǔn)準(zhǔn)確性完整性一致性合時性可信度解釋性2.3數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理:概述數(shù)據(jù)預(yù)處理主要任務(wù)數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)縮減數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)離散化總結(jié)2.3數(shù)據(jù)預(yù)處理主要任務(wù)數(shù)據(jù)清理填寫缺失值,平滑噪聲數(shù)據(jù),識別或刪除離群,并解決不一致問題數(shù)據(jù)集成整合多個數(shù)據(jù)庫,多維數(shù)據(jù)集或文件數(shù)據(jù)縮減降維Numerosityreduction數(shù)據(jù)壓縮數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)離散化正?;筛拍顚哟谓Y(jié)構(gòu)數(shù)據(jù)清洗在現(xiàn)實世界中的數(shù)據(jù)是“臟”的:不完整的:缺少屬性值,缺乏某些屬性值,或只包含總數(shù)據(jù)例如,職業(yè)=“”(丟失的數(shù)據(jù))含嘈雜的噪音,錯誤或離群例如,工資=“-10”(錯誤)不一致的代碼或不符的名稱年齡=“42”生日=“03/07/1997”曾經(jīng)評級“1,2,3”,現(xiàn)在評級“A,B,C”重復(fù)的記錄之間的差異不完整(缺少)數(shù)據(jù)數(shù)據(jù)并不總是可用的例如,許多元組沒有屬性,如客戶收入、銷售數(shù)據(jù)的記錄值丟失的數(shù)據(jù),可能是由于設(shè)備故障與其他記錄的數(shù)據(jù)不一致,從而刪除因誤會而未讀入在讀入的時候,某些數(shù)據(jù)可能不會被認(rèn)為是重要的不是歷史或更改的數(shù)據(jù)注冊丟失的數(shù)據(jù)可能需要被推斷如何處理丟失數(shù)據(jù)?忽略元組:通常是類標(biāo)簽丟失時(這樣做分類),每個屬性的缺失值有很大的差別手動填寫遺漏值自動填寫全局常量屬性含義屬性意味著所有樣本屬于同一類最有可能的值:基于諸如貝葉斯公式或決策樹推理噪聲數(shù)據(jù)噪聲:一個測量變量中的隨機(jī)錯誤或方差原因收集工具故障數(shù)據(jù)錄入問題數(shù)據(jù)傳輸問題技術(shù)限制命名約定不一致其他數(shù)據(jù)問題需要數(shù)據(jù)清理如重復(fù)記錄數(shù)據(jù)不完整不一致的數(shù)據(jù)如何處理噪聲數(shù)據(jù)?回歸數(shù)據(jù)擬合聚類檢測和刪除離群結(jié)合計算機(jī)和人工檢查檢測可疑的數(shù)據(jù)(例如人工處理可能的異常值)數(shù)據(jù)清洗數(shù)據(jù)的誤差檢測使用元數(shù)據(jù)(例如,領(lǐng)域,范圍,依賴,分銷)檢查是否溢出檢查唯一性規(guī)則,連續(xù)統(tǒng)治和空的規(guī)則使用商業(yè)工具數(shù)據(jù)清理:使用領(lǐng)域知識(例如,郵政編碼,拼寫檢查),檢測錯誤并改正數(shù)據(jù)審計:通過分析數(shù)據(jù)檢測違規(guī)者(例如,關(guān)聯(lián)和聚類規(guī)則和關(guān)系,尋找離群)數(shù)據(jù)遷移和整合數(shù)據(jù)遷移工具:允許指定的轉(zhuǎn)換ETL(提取/轉(zhuǎn)換/加載)工具:通過圖形用戶界面允許用戶指定轉(zhuǎn)換兩個過程的集成迭代和交互數(shù)據(jù)集成數(shù)據(jù)集成將來自多個數(shù)據(jù)源的數(shù)據(jù)組合成一個連貫的數(shù)據(jù)源模式集成:例如,A.cust-idB.cust-#整合來自不同來源的元數(shù)據(jù)實體識別問題:識別來自多個數(shù)據(jù)源的真實世界的實體,例如,BillClinton=WilliamClinton數(shù)據(jù)沖突檢測和解決對于同一個真實世界的實體,來自不同源的屬性值可能的原因:不同的表述,不同的尺度,例如,公制與英制單位數(shù)據(jù)集成中的冗余信息的處理整合多個數(shù)據(jù)庫經(jīng)常發(fā)生數(shù)據(jù)冗余Objectidentification:相同的屬性或?qū)ο罂赡苡胁煌拿衷诓煌臄?shù)據(jù)庫中Derivabledata:一個屬性可能是“派生”的另一個表中的屬性,例如,年收入通過相關(guān)性分析和協(xié)方差分析可以檢測到冗余的屬性仔細(xì)集成來自多個數(shù)據(jù)源,可能有助于減少/避免冗余和不一致的地方,并提高讀取速度和質(zhì)量相關(guān)分析Χ2(chi-square)testΧ2值越大,越有可能變量是相關(guān)的ThecellsthatcontributethemosttotheΧ2valuearethosewhoseactualcountisverydifferentfromtheexpectedcount相關(guān)性并不意味著因果關(guān)系#ofhospitalsand#ofcar-theftinacity是相關(guān)的兩者都因果聯(lián)系的第三個變量為人口Χ2(chi-square)test舉例Χ2(卡方)計算(括號中的數(shù)字是預(yù)計計數(shù)基于兩個類別中的數(shù)據(jù)分布計算)這表明,組中的like_science_fiction和play_chess相關(guān)相關(guān)分析數(shù)據(jù)(數(shù)字?jǐn)?shù)據(jù))相關(guān)系數(shù)(也稱為皮爾遜積矩系數(shù))其中n是元組的數(shù)目,而p和q是各自的具體值,σp和σq是各自的標(biāo)準(zhǔn)偏差,如果R(p,q)>0,p和q是正相關(guān)的(p的值增加為q的),較高的相關(guān)性。R(p,q)=0:獨(dú)立;R(p,q)<0負(fù)相關(guān)視覺評估相關(guān)散點(diǎn)圖顯示的相似性,從-1到1。相關(guān)(視為線性關(guān)系)相關(guān)測量對象之間的線性關(guān)系為了計算相關(guān)性,將數(shù)據(jù)對象標(biāo)準(zhǔn)化,p和q,然后計算他們的點(diǎn)積協(xié)方差(數(shù)字?jǐn)?shù)據(jù))類似相關(guān)協(xié)方差其中n是元組的數(shù)目,p和q是各自的平均值或期望值,σp和σq是各自的標(biāo)準(zhǔn)偏差。正的協(xié)方差:如果COV(p,q)>0,則p和q都傾向于是大于它們的預(yù)期值。負(fù)的協(xié)方差:如果在COV(p,q)<0,則如果p是大于它的預(yù)期值,q是可能要小于它的預(yù)期值。獨(dú)立性:COVP(p,q)=0可具有某些對隨機(jī)變量的協(xié)方差為0,但不是獨(dú)立的。一些額外的假設(shè)(例如,數(shù)據(jù)是否服從多元正態(tài)分布)做了協(xié)方差為0意味著獨(dú)立協(xié)方差:舉例它可以簡化計算假設(shè)兩只股票A和B具有在1個星期的以下值:(2,5),(3,8),(5,10),(4,11),(6,14)。問題:如果股票都受到同行業(yè)的趨勢,他們的價格一起上升或下降?E(A)=(2+3+5+4+6)/5=20/5=4E(B)=(5+8+10+11+14)/5=48/5=9.6COV(A,B)=(2×5+3×8+5×10+4×11+6×14)/5-4×9.6=4結(jié)論:A和B在一起上升,因為Cov(A,B)>0。數(shù)據(jù)縮減策略數(shù)據(jù)還原:還原面積更小、體積減少的數(shù)據(jù)集,但尚未產(chǎn)生相同(或幾乎相同)的分析結(jié)果為什么數(shù)據(jù)縮減?-由于數(shù)據(jù)倉庫可以存儲TB的數(shù)據(jù),因此在一個完整的數(shù)據(jù)集上運(yùn)行時,復(fù)雜的數(shù)據(jù)分析可能需要一個很長的時間數(shù)據(jù)縮減戰(zhàn)略降維,例如,刪除不重要的屬性小波變換主成分分析(PCA)特征選擇,特征創(chuàng)建Numerosityreduction回歸和對數(shù)線性模型直方圖,聚類,取樣數(shù)據(jù)立方體聚集數(shù)據(jù)壓縮降維原因隨著維數(shù)的增加,數(shù)據(jù)變得越來越稀疏對孤立點(diǎn)分析使得密度和距離變得意義不大子空間的可能的組合將成倍增長降維作用避免維數(shù)災(zāi)難幫助消除無關(guān)緊要的屬性,并降低噪音減少數(shù)據(jù)挖掘所需的時間和空間更容易的可視化降維技術(shù)小波變換主成分分析監(jiān)督和非線性技術(shù)(例如,特征選擇)將數(shù)據(jù)映射到一個新的空間傅里葉變換小波變換TwoSineWavesTwoSineWaves+NoiseFrequency小波變換是什么?分解成不同的頻率子帶的信號適用于n維信號轉(zhuǎn)化的數(shù)據(jù)是在不同級別的分辨率中保存用于圖像壓縮小波變換離散小波變換(DWT)的線性信號處理壓縮近似:只有一小部分的小波系數(shù)最強(qiáng)離散傅里葉變換(DFT)類似,但在空間中有更好的壓縮效果方法:長度L,必須是2的整數(shù)次冪(0填充,必要時)每個變換具有2個功能:平滑,差異適用于雙數(shù)據(jù),在兩個集得到的長度為L/2的數(shù)據(jù)施加兩個遞歸函數(shù),直到達(dá)到所需要的長度小波變換小波:空間高效分解的數(shù)學(xué)工具[2,2,0,2,3,5,4,4]可轉(zhuǎn)化為S=S^=[23/4,-11/4,1/2,0,0,-1,0]壓縮:許多小細(xì)節(jié)系數(shù)可以替換為0的,只有顯示的系數(shù)被保留為什么小波變換?使用hat-shape濾波器強(qiáng)調(diào)區(qū)域點(diǎn)聚集的地方在邊界禁止較弱的信息有效去除離群值對噪聲不敏感多分辨率在不同尺度檢測任意形狀的集群高效復(fù)雜度為O(N)只適用于低維數(shù)據(jù)主成分分析(PCA)原始數(shù)據(jù)投影到一個更小的空間,從而查找投影來捕獲最大的變化量數(shù)據(jù)的,從而維數(shù)降低。發(fā)現(xiàn)協(xié)方差矩陣的特征向量,用這些特征向量定義新的空間x2x1e主成分分析(步驟)從n維向量中的N個數(shù)據(jù)中,求k≤N個正交向量(主成分)能用來表示數(shù)據(jù)歸一輸入數(shù)據(jù):每個屬性落在相同的范圍內(nèi)(單元)計算K:正交向量,即,主成分每個輸入的數(shù)據(jù)(矢量)是k個主分量矢量的線性組合通過排序減少“意義”或強(qiáng)度的組成部分由于這些組件的排序方式,消除了弱的元件,即具有低方差(即,使用最強(qiáng)的主成分,也能夠重建原始數(shù)據(jù)的一個很好的近似,可以減少數(shù)據(jù)的大?。傩宰蛹x擇通過屬性子集選擇以減少數(shù)據(jù)的維多余的屬性復(fù)制所有的信息中包含一個或多個其他屬性例如,購買一個產(chǎn)品的價格和支付額兩個屬性相同,是多余的屬性不相關(guān)的屬性不包含任何信息的屬性例如,學(xué)生的ID往往在預(yù)測學(xué)生的GPA是不相關(guān)的啟發(fā)式搜索屬性選擇d的屬性有可能是2d屬性組合典型的啟發(fā)式屬性選擇方法:Bestsingleattribute屬性獨(dú)立性假設(shè):選擇進(jìn)行檢驗分步進(jìn)行的功能選擇:分步進(jìn)行屬性消除:反復(fù)淘汰不需要的屬性最佳組合的屬性選擇和淘汰優(yōu)化分支和綁定:使用屬性消除和回溯創(chuàng)建屬性(特征生成)創(chuàng)建新的屬性(特征),可以更有效地比原來的數(shù)據(jù)捕捉重要的信息三個一般方法屬性提取
domain-specific將數(shù)據(jù)映射到新的空間(見:數(shù)據(jù)縮減)例如,傅立葉變換,小波變換,歧管的方法(未覆蓋)Attributeconstruction數(shù)據(jù)離散化NumerosityReduction通過選擇更小的數(shù)據(jù)來替代從而減少數(shù)據(jù)量參數(shù)方法(例如,回歸)假設(shè)數(shù)據(jù)適合一些模型,估計模型參數(shù),只存儲參數(shù),并丟棄數(shù)據(jù)(可能的異常值除外)例如:對數(shù)線性模型在一個點(diǎn)在MD的空間作為產(chǎn)品上獲得價值,適當(dāng)?shù)倪呺H子空間非參數(shù)方法不要假設(shè)模型主要方法:直方圖,聚類,取樣,...參數(shù)數(shù)據(jù)還原:回歸和對數(shù)線性模型線性回歸:一次函數(shù)通常使用最小二乘法來擬合線多元回歸:允許多維特征向量的線性函數(shù)建模為變量Y對數(shù)線性模型:近似離散的多維概率分布回歸分析回歸分析:組成的一個因變量(也稱為響應(yīng)變量)和一個或多個獨(dú)立變量(亦稱解釋變量或預(yù)測變量的值的數(shù)值數(shù)據(jù)建模和分析技術(shù)的統(tǒng)稱)參數(shù)估計,以便使數(shù)據(jù)“最適合”最常用的是通過使用最小二乘法來進(jìn)行評估,但也被用于其他標(biāo)準(zhǔn)用于時間序列數(shù)據(jù)預(yù)測等的預(yù)測,推斷,假設(shè)檢驗,因果關(guān)系的建模xy=x+1X1Y1Y1’回歸分析和對數(shù)線性模型線性回歸:Y=WX+B兩個回歸系數(shù),w和b,指定行,并且要使用手工的數(shù)據(jù)估計使用最小二乘準(zhǔn)則已知的值,Y1,Y2,...,X1,X2,....多元回歸:Y=b0+b1X1+b2X2.。許多非線性函數(shù),可轉(zhuǎn)化為上述線性模型:多路表的聯(lián)合概率近似為低階表概率:p(a,b,c,d)=ab
acadbcd直方圖分析將數(shù)據(jù)劃分為buckets,然后存儲buckets的均值分區(qū)規(guī)則:等寬:等于buckets范圍相等的頻率(或等于深度聚類分區(qū)數(shù)據(jù)基于相似性進(jìn)行存儲,只能設(shè)置成集群(例如,質(zhì)心和直徑)如果數(shù)據(jù)是集群則非常有效,否則效果較差可以在多維索引樹結(jié)構(gòu)有層次聚類和存儲聚類定義和聚類算法有很多選擇聚類分析在后續(xù)將進(jìn)行深入研究采樣采樣:獲得一個小樣本代表整個數(shù)據(jù)N主要原則:選擇有代表性的數(shù)據(jù)子集簡單隨機(jī)抽樣開發(fā)的自適應(yīng)采樣方法,例如分層抽樣注:采樣不得減少數(shù)據(jù)庫I/O(第一次)采樣類型簡單隨機(jī)抽樣相等的概率選擇不放回抽樣一旦對象被選中,則將其刪除更換采樣選擇對象不會被刪除分層抽樣對每個分區(qū)進(jìn)行數(shù)據(jù)集的分區(qū)抽樣(也就是說,大約相同比例的數(shù)據(jù)進(jìn)行抽取樣本)用于偏斜數(shù)據(jù)取樣:用或不用更換SRSWOR(simplerandomsamplewithoutreplacement)SRSWRRawData采樣:群集或分層抽樣RawDataCluster/StratifiedSample數(shù)據(jù)壓縮字符串壓縮有豐富的理論和壓縮算法通常無損音頻/視頻壓縮通常有損壓縮,需要逐步細(xì)化時間序列壓縮典型的短期和隨時間變化緩慢數(shù)據(jù)壓縮OriginalDataCompressedDatalosslessOriginalDataApproximatedlossy數(shù)據(jù)轉(zhuǎn)換函數(shù)映射指給定的屬性值更換了一個新的表示方法,每個舊值與新的值可以被識別方法平滑:從數(shù)據(jù)中去除噪聲屬性/重新構(gòu)造從給定的構(gòu)造的新的屬性聚合:匯總數(shù)據(jù)計算規(guī)范化:指定范圍內(nèi)縮放屬于較小的最小-最大規(guī)范化Z-得分正常化小數(shù)定標(biāo)規(guī)范化離散化:概念層次Discretization
離散三種類型的屬性從一個無序的設(shè)置,例如,顏色,專業(yè)的值從一個有序的集合,例如,軍事或?qū)W術(shù)排名次序值數(shù)字,真實的數(shù)字,例如,整數(shù)或?qū)崝?shù)離散化:除以間隔連續(xù)屬性的范圍區(qū)間的標(biāo)簽可以被用來代替實際的數(shù)據(jù)值減少數(shù)據(jù)大小離散監(jiān)督與無監(jiān)督分割(自頂向下)與合并(自下而上)離散化,可以進(jìn)行遞歸屬性準(zhǔn)備作進(jìn)一步的分析,例如,分類數(shù)據(jù)離散化方法典型的方法:所有的方法可應(yīng)用于遞歸Binning
自頂向下的分割直方圖分析自頂向下的分割其他方法聚類分析(無監(jiān)督,自上而下裂開或自底向上的合并)決策樹分析(監(jiān)督,自上而下的分割)相關(guān)性分析(無監(jiān)督,自下而上合并)離散不使用類標(biāo)簽(分級與集群)Equalfrequency(binning)K-meansclusteringleadstobetterresults離散使用類標(biāo)簽決策樹方法(基于信息熵)3categoriesforbothxandy5categoriesforbothxandy概念層次生成概念層次組織層次概念(即屬性值)通常指數(shù)據(jù)倉庫中的每個維度概念層次通過滾動來查看數(shù)據(jù)在數(shù)據(jù)倉庫中多粒度形成概念層次:遞歸減少數(shù)據(jù)收集和更換低層次的概念(如年齡的數(shù)值)到更高層次的概念(如青年,成年,或高級)由領(lǐng)域?qū)<液?或數(shù)據(jù)倉庫設(shè)計概念分層可以顯式指定概念層次可以自動形成數(shù)字和標(biāo)稱數(shù)據(jù)。對于數(shù)字?jǐn)?shù)據(jù),使用所示的離散化方法??偨Y(jié)數(shù)據(jù)質(zhì)量的準(zhǔn)確性,完整性,一致性,時效性,可信性,解釋性數(shù)據(jù)清洗:如缺少/高噪音值,離群值來自多個來源的數(shù)據(jù)集成實體識別問題刪除冗余檢測不一致數(shù)據(jù)縮減降維Numerosityreduction數(shù)據(jù)壓縮數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)離散化正?;筛拍顚哟?.4數(shù)據(jù)相似性和相異性度量相似數(shù)值衡量兩個數(shù)據(jù)對象值越高對象時更相似往往屬于在區(qū)間[0,1]相異(例如,距離)兩個不同的數(shù)據(jù)對象的數(shù)值衡量值越低對象時更相異最低相異往往是0上限各不相同接近指的相似性或不相似數(shù)據(jù)矩陣和相異矩陣數(shù)據(jù)矩陣n個數(shù)據(jù)兩種模式相異矩陣n個數(shù)據(jù)點(diǎn)三角矩陣單模舉例:數(shù)據(jù)矩陣和相異矩陣DissimilarityMatrix(withEuclideanDistance)DataMatrix總結(jié)數(shù)據(jù)屬性類型:名義,二進(jìn)制,順序,間隔縮放比例,縮放許多類型的數(shù)據(jù)集,例如,數(shù)值,文字,圖形,網(wǎng)頁,圖像等。洞察數(shù)據(jù)通過以下幾種方式:基本的統(tǒng)計數(shù)據(jù)說明:集中趨勢,分散,圖形顯示數(shù)據(jù)可視化:mapdataontographicalprimitives測量數(shù)據(jù)相似上述步驟是數(shù)據(jù)預(yù)處理的開始。許多方法已經(jīng)開發(fā),但現(xiàn)在其仍然是一個活躍的研究領(lǐng)域2.5數(shù)據(jù)統(tǒng)計匯總動機(jī)為了更好地理解數(shù)據(jù):集中趨勢,變異和傳播數(shù)據(jù)的分散特性最大值,最小值,中位數(shù),位數(shù),離群值,方差等。尺寸數(shù)值對應(yīng)排序的時間間隔數(shù)據(jù)分散性:多粒度的精確分析箱形圖或位數(shù)排序的時間間隔分析測量集中趨勢平均(代數(shù)措施)(樣品與人口):注:n為樣本大小和N是人口規(guī)模。加權(quán)算術(shù)平均值:修剪意味著:去掉極端值中位數(shù):中間值,如果值,奇數(shù)或平均中間的兩個值,否則估計插補(bǔ)(分組數(shù)據(jù)):模式最頻繁出現(xiàn)的值,該值在數(shù)據(jù)單峰,雙峰,三峰經(jīng)驗公式:對稱VS偏斜數(shù)據(jù),中位數(shù),均值和對稱模式,正面和負(fù)面的偏斜數(shù)據(jù)測量數(shù)據(jù)的分散性四分位數(shù),離群和盒狀圖四分位數(shù)(第25百分位):Q1,Q3(第75百分位)四分位數(shù)間距:IQR=Q3-Q1箱形圖:盒子的兩端是四分位數(shù)明顯;單獨(dú)添加胡須,情節(jié)離群離群:通常情況下,一個值高于/低于1.5×IQR方差和標(biāo)準(zhǔn)差(樣本:,人口:σ)方差:(代數(shù),可擴(kuò)展的計算)標(biāo)準(zhǔn)差s(或σ)是方差的平方根2(或σ2)箱線圖分析五號碼分布摘要最小,Q1,中位數(shù),Q3,最大箱形圖數(shù)據(jù)表示與一個框框的端部上面的第一個和第三個四分位數(shù),即,框的高度是四分位數(shù)間距方框內(nèi)的中位數(shù)的帶標(biāo)記的線兩線最小和最大擴(kuò)展到外箱可視化數(shù)據(jù)分散:3-D箱圖正態(tài)分布曲線的屬性正常分布曲線從μ-σμ+σ:含有約68%的測量(μ:均值,σ:標(biāo)準(zhǔn)偏差)從μ-2σμ+2σ:包含約95%的從μ-3σ,μ+3σ:包含約99.7%圖形顯示的基本統(tǒng)計描述箱形圖:圖形顯示直方圖:x軸值,y軸頻率位數(shù):每個值x位數(shù)-分位數(shù)(QQ):一個單變量分布的分位數(shù)對相應(yīng)位數(shù)的另一個圖表散點(diǎn)圖:每個值對是一對坐標(biāo),其繪制在平面上相比盒形圖直方圖往往告訴更多兩個在右側(cè)的直方圖顯示其可以具有相同的盒形圖表示效果相同的values:最小,Q1,Q3,中位數(shù),最大但是他們有相當(dāng)不同的數(shù)據(jù)分布位數(shù)圖顯示的所有數(shù)據(jù)(允許用戶評估整體行為和不尋常的事件)位數(shù)信息對于數(shù)據(jù)x進(jìn)行遞增的順序排序,F(xiàn)I表示,約一定比例的數(shù)據(jù)網(wǎng)絡(luò)連接均低于或等于值xi散點(diǎn)圖二元數(shù)據(jù)顯示點(diǎn)的分布,離群點(diǎn)等被視為一對坐標(biāo)值的每對點(diǎn)在平面上繪制成正面和負(fù)面的相關(guān)數(shù)據(jù)左半片段是正相關(guān)的右半邊是負(fù)相關(guān)不相關(guān)的數(shù)據(jù)2.6數(shù)據(jù)可視化為什么數(shù)據(jù)可視化?將圖元數(shù)據(jù)映射到信息空間提供大型數(shù)據(jù)集的定性瀏覽搜索數(shù)據(jù)之間的關(guān)系如模式,趨勢,結(jié)構(gòu),規(guī)則,幫助進(jìn)一步定量分析,通過合適的參數(shù)找到有趣的地區(qū)提供可視化的陳述典型的可視化方法:幾何技術(shù)基于圖標(biāo)的技術(shù)分層技術(shù)幾何技術(shù)幾何變換和預(yù)測的數(shù)據(jù)可視化方法直接的數(shù)據(jù)可視化散點(diǎn)圖矩陣Landscapes投影尋蹤技術(shù)尋找有意義的多維數(shù)據(jù)預(yù)測Hyperslice平行坐標(biāo)直接數(shù)據(jù)可視化基于Vorticity的色帶散點(diǎn)圖矩陣Landscapes可視化的數(shù)據(jù)透視Landscapes這些數(shù)據(jù)需要轉(zhuǎn)化成一個(可能是人工的)二維空間表示,其中保存的數(shù)據(jù)的特征平行坐標(biāo)將一個軸劃分為N等距離,每一個距離對應(yīng)一個屬性軸縮放在[最小,最大]之間:對應(yīng)屬性范圍每一個數(shù)據(jù)項目(折線)對應(yīng)的各軸相交的點(diǎn)表示相對應(yīng)的屬性值平行坐標(biāo)數(shù)據(jù)集基于圖標(biāo)的技術(shù)將數(shù)據(jù)值作為可視化功能的圖標(biāo)典型的可視化方法:ChernoffFacesStickFigures一般技術(shù)形狀編碼:使用形狀來表示一定的信息編碼彩色圖標(biāo):使用彩色圖標(biāo)的信息編碼TileBars:使用小圖標(biāo)代表文件檢索的特征向量ChernoffFaces一種來顯示二維表面上的變量的方法,例如,讓x是眉毛傾斜,y是眼睛的大小,z是鼻子長度等該組圖顯示了人臉部的10個特征-眼睛的大小,眼間距,偏心眼,瞳孔大小,眉毛傾斜,鼻子的大小,嘴的形狀,嘴巴大小,張口等參考文獻(xiàn):Gonick,L.andSmith,W.TheCartoonGuidetoStatistics.NewYork:HarperPerennial,p.212,1993Weisstein,EricW."ChernoffFace."FromMathWorld--AWolframWebResource./ChernoffFace.html
StickFigures普查數(shù)據(jù)顯示,年齡,收入,性別,教育等等。分層技術(shù)使用子空間分層分區(qū)的數(shù)據(jù)可視化。方法DimensionalStackingWorlds-within-WorldsTree-MapConeTreesInfoCubeDimensionalStacking在2-D的子空間中分配的n維屬性空間,'堆疊'相互轉(zhuǎn)化劃分成類的屬性值范圍時,重要屬性使用在theouterlevels上。低基數(shù)與序?qū)傩詳?shù)據(jù)超過九個維度難以顯示重要的地圖尺寸適當(dāng)Worlds-within-Worlds指定兩個最重要的參數(shù)修復(fù)所有其他參數(shù)(1或2或3維世界選擇這些軸)軟件使用此范例,N–vision:通過datagloveandstereo立體顯示,包括旋轉(zhuǎn),縮放(內(nèi)環(huán))和翻譯(內(nèi)/外動力相互作用)AutoVisual:通過查詢靜態(tài)互動Tree-Map屏幕填充方法具體指根據(jù)屬性值采用了分層方法將屏幕分割成區(qū)域x和y維度的畫面交替地進(jìn)行分區(qū)的屬性值(類)MSRNetScan的圖片文件系統(tǒng)的Tree-MapThree-DConeTreesThree-DConeTrees的可視化技術(shù)的工作原理首先建立一個二維的圓,安排節(jié)點(diǎn)在根節(jié)點(diǎn)上的同心圓,然后逐漸形成樹預(yù)計到2D時無法避免重疊G.Robertson,J.Mackinlay,S.Card.“ConeTrees:Animated3DVisualizationsofHierarchicalInformation”,ACMSIGCHI'91InfoCube3-D可視化技術(shù),分層信息顯示嵌套的半透明立方體最外層的多維數(shù)據(jù)集對應(yīng)數(shù)據(jù),里面的smmaller立方體表示的子節(jié)點(diǎn)或底層數(shù)據(jù)等參考文獻(xiàn)D.P.BallouandG.K.T
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《家樂福模式分析》課件
- 管理顧問工作總結(jié)
- 房地產(chǎn)行業(yè)客服經(jīng)驗分享
- 服裝行業(yè)的保安工作總結(jié)
- 中央財經(jīng)大學(xué)財務(wù)管理課件-風(fēng)險與報酬
- 銀行求職自我介紹(15篇)
- 2023-2024年項目部治理人員安全培訓(xùn)考試題(原創(chuàng)題)
- 《電子政務(wù)》課件
- 2024年公司項目部負(fù)責(zé)人安全教育培訓(xùn)試題含答案(模擬題)
- 銷售個人年度工作總結(jié)(7篇)
- 創(chuàng)意寫作與文學(xué)欣賞
- 高空伐樹作業(yè)施工方案
- 新媒體用戶行為研究-洞察分析
- 醫(yī)療器械考試題及答案
- 初三家長會數(shù)學(xué)老師發(fā)言稿
- 2025版國家開放大學(xué)法學(xué)本科《知識產(chǎn)權(quán)法》期末紙質(zhì)考試總題庫
- 醫(yī)藥銷售培訓(xùn)課程
- 2022-2023學(xué)年北京市海淀區(qū)七年級(上)期末語文試卷
- 膝關(guān)節(jié)炎階梯治療
- 設(shè)備日常維護(hù)及保養(yǎng)培訓(xùn)
- 行業(yè)背景、經(jīng)濟(jì)運(yùn)行情況及產(chǎn)業(yè)未來發(fā)展趨勢分析
評論
0/150
提交評論