數(shù)據(jù)挖掘-概念與技術:lecture 2 數(shù)據(jù)預處理_第1頁
數(shù)據(jù)挖掘-概念與技術:lecture 2 數(shù)據(jù)預處理_第2頁
數(shù)據(jù)挖掘-概念與技術:lecture 2 數(shù)據(jù)預處理_第3頁
數(shù)據(jù)挖掘-概念與技術:lecture 2 數(shù)據(jù)預處理_第4頁
數(shù)據(jù)挖掘-概念與技術:lecture 2 數(shù)據(jù)預處理_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、11 八月 2022Data Mining: Concepts and Techniques1Lecture 2: 數(shù)據(jù)預處理為什么要進行預處理?數(shù)據(jù)清洗數(shù)據(jù)集成與變換數(shù)據(jù)約簡離散化總結11 八月 2022Data Mining: Concepts and Techniques2為何要進行預處理?現(xiàn)實世界的數(shù)據(jù)很“臟”不完整的: 缺少屬性值, 感興趣的屬性缺少屬性值, 或僅包含聚集數(shù)據(jù)如, occupation=“ ”含噪聲的: 包含錯誤或存在孤立點如, Salary=“-10”不一致的: 在名稱或代碼之間存在著差異如, Age=“42” Birthday=“03/07/1997”如, 原來排

2、序 “1,2,3”, 現(xiàn)在排序 “A, B, C”11 八月 2022Data Mining: Concepts and Techniques3數(shù)據(jù)為何會變臟?不完整性來源于收集數(shù)據(jù)時,在不同的階段具有不同的考慮人/硬件/軟件的問題等噪聲數(shù)據(jù)來源于收集階段數(shù)據(jù)傳輸階段等不一致性來源于不同的數(shù)據(jù)源功能依賴沖突(Functional dependency violation)11 八月 2022Data Mining: Concepts and Techniques4數(shù)據(jù)預處理的主要任務數(shù)據(jù)清洗(Data cleaning)填充遺失的數(shù)據(jù), 平滑噪聲數(shù)據(jù), 辨識或刪除孤立點, 解決不一致性問題數(shù)據(jù)

3、集成(Data integration)對多個數(shù)據(jù)庫,數(shù)據(jù)立方或文件進行集成數(shù)據(jù)變換(Data transformation)規(guī)范化與聚集(Normalization and aggregation)數(shù)據(jù)約簡(Data reduction)得到數(shù)據(jù)集的壓縮表示,它小的多,但能夠產(chǎn)生同樣的(或幾乎同樣的)分析結果數(shù)據(jù)離散化(Data discretization)特別對數(shù)字值而言非常重要11 八月 2022Data Mining: Concepts and Techniques5第二章: 數(shù)據(jù)預處理為什么要進行預處理?數(shù)據(jù)清洗數(shù)據(jù)集成與變換數(shù)據(jù)約簡離散化總結11 八月 2022Data Mini

4、ng: Concepts and Techniques6數(shù)據(jù)清洗重要性“數(shù)據(jù)清洗是數(shù)據(jù)倉庫的三個主要問題之一”Ralph Kimball“數(shù)據(jù)清洗是數(shù)據(jù)倉庫的首要問題”DCI survey數(shù)據(jù)清洗的任務填充遺失數(shù)據(jù)辨識孤立點、平滑噪聲數(shù)據(jù)修正不一致性數(shù)據(jù)解決數(shù)據(jù)集成時帶來的數(shù)據(jù)冗余問題11 八月 2022Data Mining: Concepts and Techniques7怎樣處理遺失的數(shù)據(jù)?忽略元組: 除非元組有多個屬性缺少值,否則該方法不是很有效人工填充: 費時費力自動填充使用一個全局常量填充: 如, “unknown”, 會誤認為是一個新的、有意義的類?! 該屬性的平均值使用與給定元

5、組屬同一類的所有樣本的該屬性的平均值使用最可能的值: 使用基于推導的方法,如Bayesian公式或決策樹11 八月 2022Data Mining: Concepts and Techniques8怎樣處理噪聲數(shù)據(jù)?噪聲: 是一個策略變量中的隨即錯誤或偏差分箱方法:先對數(shù)據(jù)進行排序,然后把它們劃分到箱然后通過箱平均值,箱中值等進行平滑.聚類探測并去除孤立點計算機和人工檢查相結合回歸分析(Regression)讓數(shù)據(jù)適合一個函數(shù)(如回歸函數(shù))來平滑數(shù)據(jù)11 八月 2022Data Mining: Concepts and Techniques9簡單的平滑方法: 分箱等寬 (距離)劃分:根據(jù)屬性值

6、的范圍劃分成N等寬的區(qū)間如果A和B 屬性值的最大與最小值,則區(qū)間寬度為: W = (B A)/N.很直接,但孤立點將會對此方法有很大的影響等深 (頻率) 劃分:劃分成N個區(qū)間,每個區(qū)間含有大約相等地樣本數(shù)具有較好的數(shù)據(jù)擴展性11 八月 2022Data Mining: Concepts and Techniques10分箱方法示例* 價格排序: 4, 8, 9, 11, 15, 21, 21, 22, 24, 25, 26, 28, 29, 30, 40* 劃分成箱 (等深) : - Bin 1: 4, 8, 9, 11, 15 - Bin 2: 21, 21, 22, 24, 25 - Bi

7、n 3: 26, 28, 29, 30, 40* 用箱平均值平滑數(shù)據(jù): - Bin 1: 9.4, 9.4, 9.4, 9.4, 9.4 - Bin 2: 22.6, 22.6, 22.6, 22.6, 22.6 - Bin 3: 30.6, 30.6, 30.6, 30.6, 30.6* 用箱中值平滑數(shù)據(jù): - Bin 1: 9, 9, 9, 9, 9 - Bin 2: 22, 22, 22, 22, 22 - Bin 3: 29, 29, 29, 29, 2911 八月 2022Data Mining: Concepts and Techniques11聚類分析示例圖11 八月 2022D

8、ata Mining: Concepts and Techniques12回歸示例圖xyy = x + 1X1Y1Y111 八月 2022Data Mining: Concepts and Techniques13第二章: 數(shù)據(jù)預處理為什么要進行預處理?數(shù)據(jù)清洗數(shù)據(jù)集成與變換數(shù)據(jù)約簡離散化總結11 八月 2022Data Mining: Concepts and Techniques14數(shù)據(jù)集成數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)結合起來存放在一個一致的數(shù)據(jù)存儲中(如數(shù)據(jù)倉庫)。實體識別問題 (EI): 從不同的數(shù)據(jù)源辨識實體,如, A.cust-id B.cust-#。檢測與解決值沖突問題對客觀世

9、界的同一實體, 不同數(shù)據(jù)源可能具有不同的值可能原因: 不同的表示方式, 不同的刻度,如公制與英制(metric vs. British units)等數(shù)據(jù)冗余問題冗余屬性可以通過相關分析檢測出來11 八月 2022Data Mining: Concepts and Techniques15數(shù)據(jù)變換平滑(Smoothing): 去除噪聲數(shù)據(jù)聚集(Aggregation): 匯總,數(shù)據(jù)立方構造概化(Generalization): 沿概念層次上升規(guī)范化(Normalization): 刻度變換最小最大規(guī)范化z-score規(guī)范化小數(shù)定標規(guī)范化11 八月 2022Data Mining: Concep

10、ts and Techniques16數(shù)據(jù)變換: 規(guī)范化最小最大規(guī)范化z-score規(guī)范化小數(shù)定標規(guī)范化其中j是使得Max(| |)規(guī)約后的屬性集: A1, A4, A611 八月 2022Data Mining: Concepts and Techniques21降維啟發(fā)式特征選擇方法對于d個特征,共有 2d 個可能的子特征集合幾個啟發(fā)式特征選擇方法:在特征獨立的假設下,選擇最佳的單個特征: 根據(jù)重要性的測試進行選擇.最佳單步特征選擇: 最佳的單個特征首先被選擇然后選擇第二個最好的特征, .單步特征排除:重復排除最壞的特征最佳單步特征選擇與排除的綜合11 八月 2022Data Mining

11、: Concepts and Techniques22數(shù)據(jù)壓縮原始數(shù)據(jù)壓縮后數(shù)據(jù)無損近似原始數(shù)據(jù) 有損11 八月 2022Data Mining: Concepts and Techniques23數(shù)值規(guī)約參數(shù)化方法(Parametric methods)假設數(shù)據(jù)適合某個模型,然后估計模型參數(shù),僅僅存儲這些模型參數(shù),而不再存儲原有數(shù)據(jù)(除了可能的孤立點)對數(shù)線性模型(Log-linear models)近似離散的多維概率分布?;谳^小方體形成數(shù)據(jù)立方體的格,該方法可以用于估計具有離散屬性集的基本方體中每個單元的概率,這允許由較低階的數(shù)據(jù)立方體構造較高階的數(shù)據(jù)立方體非參數(shù)化方法不假設模型有: 直

12、方圖(histograms)、聚類, 采樣(sampling)等11 八月 2022Data Mining: Concepts and Techniques24回歸與對數(shù)線性模型線性回歸: 把數(shù)據(jù)擬合成一條直線分布常常用最小平方法擬合直線,Y = + X多元線性回歸: 把響應變量Y建模為幾個特征向量的線性函數(shù),Y = b0 + b1 X1 + b2 X2對數(shù)線性模型11 八月 2022Data Mining: Concepts and Techniques25直方圖(Histograms)常用的規(guī)約技術。把數(shù)據(jù)劃分成若干個桶(buckets)并存儲每個桶的平均值或和。常用于定量問題。11 八月

13、 2022Data Mining: Concepts and Techniques26聚類把數(shù)據(jù)集合劃分成類(clusters), 然后僅僅存儲這些類的表示有多種聚類的定義以及聚類算法,將在后續(xù)介紹11 八月 2022Data Mining: Concepts and Techniques27采樣(Sampling)允許挖掘算法以線性時間的復雜性甚至O(1)時間運行選擇原有數(shù)據(jù)集的具有代表性的一個子集自適應采樣方法分層采樣(Stratified sampling)11 八月 2022Data Mining: Concepts and Techniques28采樣示例SRSWOR(簡單隨機采樣,

14、不回放)SRSWRRaw Data11 八月 2022Data Mining: Concepts and Techniques29采樣原始數(shù)據(jù) 聚類/分層采樣11 八月 2022Data Mining: Concepts and Techniques30第二章: 數(shù)據(jù)預處理為什么要進行預處理?數(shù)據(jù)清洗數(shù)據(jù)集成與變換數(shù)據(jù)約簡離散化總結11 八月 2022Data Mining: Concepts and Techniques31離散化(Discretization)屬性的三種類型:標稱性的 取自于無序集合(unordered set)的值有序的(Ordinal) 取自于有序集合(ordered

15、set)的值連續(xù)的 實數(shù)離散化: 把連續(xù)型屬性的取值范圍劃分成區(qū)間通過離散化減少數(shù)據(jù)集大小為進一步分析做好準備11 八月 2022Data Mining: Concepts and Techniques32數(shù)值數(shù)據(jù)的離散化分箱 直方圖分析 聚類分析 基于熵的離散化11 八月 2022Data Mining: Concepts and Techniques33基于熵的離散化給定一個樣本集合 S, 如果用邊界值T把 S劃分成2個區(qū)間 S1與S2,則劃分后的熵為:選擇某一邊界T的準則是:它使其后劃分得到的信息增益(Information Gain,見上式)最大.上述過程遞歸地用于所得到的劃分,直到滿足某個終止條件。實驗表明這種劃分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論