第8章為挖掘準備數(shù)據(jù)_第1頁
第8章為挖掘準備數(shù)據(jù)_第2頁
第8章為挖掘準備數(shù)據(jù)_第3頁
第8章為挖掘準備數(shù)據(jù)_第4頁
第8章為挖掘準備數(shù)據(jù)_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析第8章為數(shù)據(jù)挖掘準備數(shù)據(jù)

8.1數(shù)據(jù)統(tǒng)計特征>>

8.2數(shù)據(jù)預(yù)處理>>

2/32每個公司都會存在有類似于冗余數(shù)據(jù)、錯誤數(shù)據(jù)、失效數(shù)據(jù)以及編碼錯誤數(shù)據(jù)的情況,只是可能存在于IT隱蔽處秘而不宣。這雖然不是新問題,但是現(xiàn)在這種數(shù)據(jù)混亂卻在一些知名項目里變得更加突出,如在實施企業(yè)資源規(guī)劃軟件或供應(yīng)鏈管理軟件(SCM)時,一位工作于波士頓AMR研究機構(gòu)的分析師約翰·哈格蒂(JohnHagerty)指出:往往當公司把注意力集中在業(yè)務(wù)流程而非數(shù)據(jù)的形式和一致性上時,這種問題就出現(xiàn)了。當這種情況發(fā)生后,這個公司的IT部門就不得不重新從公司的各個數(shù)據(jù)庫中凈化、一致化以及集成化數(shù)據(jù),然后再存入數(shù)據(jù)倉庫。殼牌勘探有限公司(ShellExploration)正在吃這樣的苦頭。這家燃料公司希望整合其企業(yè)資源,規(guī)劃財務(wù)數(shù)據(jù)和若干容量系統(tǒng)產(chǎn)生的數(shù)據(jù),后者是處理該公司發(fā)現(xiàn)并開采了多少天然氣和石油的計量信息系統(tǒng)。“每個不同的系統(tǒng)都有自己的一系列編碼,”殼牌勘探有限公司位于蘇格蘭Aberdeen的數(shù)據(jù)倉庫項目經(jīng)理SteveMutch解釋說,“如果推翻重來,在這些系統(tǒng)里再重新凈化和集成數(shù)據(jù)并非良策,可能會占用太多的時間,而且花費昂貴?!盡utch換了一種辦法,他找到了Kalido公司的一個軟件工具。在倫敦用這個工具從各個系統(tǒng)里分析和映射數(shù)據(jù),然后把這些數(shù)據(jù)集成到數(shù)據(jù)倉庫里。在經(jīng)過了近7個月的數(shù)據(jù)分析和數(shù)據(jù)映射工作后,27個數(shù)據(jù)源被整合在了一個450GB的數(shù)據(jù)倉庫中。SteveMutch說,其實合作的策略并不賴,每個子公司也不會因此而失去對自身數(shù)據(jù)的控制權(quán)?,F(xiàn)在,他們更加理解了公司作為一個整體進行信息處理的意義。“一旦建立了這種概念,我們就感到了來自高層領(lǐng)導的壓力,要求我們從其他一些應(yīng)用中集成數(shù)據(jù),”他說,“他們自己就可以看到現(xiàn)在能從數(shù)據(jù)倉庫中得到什么信息,而且看到它的功能是多么強大?!辟Y料來源:JameA.O’Brien.IntroductiontoInformationSystem,12thedition,Copyright@2005bytheMcGrawHillCompanies,Inc.開篇案例——殼牌勘探有限公司數(shù)據(jù)倉庫的商業(yè)價值8.1數(shù)據(jù)統(tǒng)計特征(1)8.1.1頻數(shù)和眾數(shù)8.1.2百分位數(shù)8.1.3中心度量8.1.4散布程度度量8.1數(shù)據(jù)統(tǒng)計特性(2)4數(shù)據(jù)統(tǒng)計又稱為匯總統(tǒng)計,用單個數(shù)或數(shù)的小集合來捕獲大的數(shù)據(jù)集的各種屬性特征。通常需要數(shù)據(jù)的中心趨勢和離散程度特征。中心趨勢度量包括均值(mean)、中位數(shù)(median)、眾數(shù)(mode)和中列數(shù)(midrange);而數(shù)據(jù)離散程度度量包括四分位數(shù)(quartiles)、四分位數(shù)極差(InterQuartilesRange,IQR)和方差(variance)等。設(shè)一個在上取值的分類屬性x和m對象的取值,值的頻率定義為眾數(shù)是集合中出現(xiàn)頻率最高的值。對分類屬性來說,眾數(shù)可以看成中心趨勢度量;對于連續(xù)屬性來說,眾數(shù)通常沒有意義。8.1.1頻率和眾數(shù)8.1.2百分位數(shù)對于有序數(shù)據(jù),有時考慮值集的百分位(percentile)更有意義。給定一個有序的或連續(xù)的屬性x和0與100之間的數(shù)p,數(shù)據(jù)集合的第p個百分位數(shù)一個x值,使得x的p%的觀測值小于。最常用的百分位數(shù)是四分位數(shù)(quartile)。第一個四分位數(shù)記作Q1,是第25個百分位數(shù);第三個四分位數(shù)記作Q3,是第75個百分位數(shù)。第一個和第三個四分位數(shù)之間的距離是分布的一種簡單度量,它給出被數(shù)據(jù)的中間一半所覆蓋的范圍。該距離稱為中間四分位數(shù)極差,定義為IQR=Q3-Q1。8.1.3中心度量(1)數(shù)據(jù)集“中心”的最常用、最有效的數(shù)值度量是均值和中位數(shù)。設(shè)x1,x2,…,xm是m個值的集合,則該值集的均值和中位數(shù)分別定義為:78.1.3中心度量(2)集合中每個值與一個權(quán)值相關(guān)聯(lián)。權(quán)值反映對應(yīng)值的顯著性、重要性或出現(xiàn)頻率。在這種情況下,使用加權(quán)算術(shù)均值(weightedarithmeticmean):88.1.3中心度量(3)截斷均值:指定0和100間的百分位數(shù)p,丟棄高端和低端(p/2)%的數(shù)據(jù),然后用常規(guī)方法計算均值,所得的結(jié)果即是截斷均值。中位數(shù)是p=100%時的截斷均值,而標準均值是對應(yīng)于p=0%的截斷均值。例:計算{1,2,3,4,5,90}值集的均值,中位數(shù)和p=40%的截斷均值.解:均值是17.5,中位數(shù)是3.5,p=40%時的截斷均值也是3.598.1.4散布程度度量(1)極差和方差是值集的散布度量,表明屬性值是否散布很寬,或者是否相對集中在單個點(如均值)附近。最簡單的散布度量是極差,即最大值和最小值之差假設(shè)屬性x具有m個值,其極差定義為:

range(x)=max(x)-min(x)=x(m)-x(1)方差(variance)定義如下:108.1.4散布程度度量(2)因為方差用到了均值,而均值容易被離群值扭曲,所以方差對離群值很敏感。更加穩(wěn)健的值集散布估計方法:絕對平均偏差(AbsoluteAverageDeviation,AAD)中位數(shù)絕對偏差(MedianAbsoluteDeviation,MAD)四分位數(shù)極差(InterquartileRange,IQR)118.2數(shù)據(jù)預(yù)處理(1)8.2.1數(shù)據(jù)清理8.2.2數(shù)據(jù)集成8.2.3數(shù)據(jù)變換8.2.4數(shù)據(jù)歸約128.2數(shù)據(jù)預(yù)處理(2)數(shù)據(jù)挖掘的目的是在大量的、潛在有用的數(shù)據(jù)中挖掘出有用的模式或信息,挖掘的效果直接受到源數(shù)據(jù)質(zhì)量的影響。高質(zhì)量的數(shù)據(jù)是進行有效挖掘的前提,高質(zhì)量的決定必須建立在高質(zhì)量的數(shù)據(jù)上。138.2數(shù)據(jù)預(yù)處理(3)數(shù)據(jù)清理填寫空缺數(shù)據(jù),平滑噪聲數(shù)據(jù),識別、刪除離群點,解決不一致性數(shù)據(jù)集成集成多個數(shù)據(jù)庫,數(shù)據(jù)立方體或文件數(shù)據(jù)變換規(guī)范化和數(shù)據(jù)泛化特征提取和特征構(gòu)造數(shù)據(jù)離散化數(shù)據(jù)歸約得到數(shù)據(jù)集的壓縮表示及特征選擇通過概念分層和數(shù)據(jù)離散化來規(guī)約數(shù)據(jù),對數(shù)值數(shù)據(jù)特別重要148.2數(shù)據(jù)預(yù)處理(4)15數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約臟數(shù)據(jù)“干凈”數(shù)據(jù)-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48T1T2…T2000A1A2A3…A126T1T3…T1456A1A3…A115為什么要清理數(shù)據(jù)?現(xiàn)實世界的數(shù)據(jù)是“骯臟的”不完整的:有感興趣的屬性缺少屬性值含噪聲的:包含錯誤的或是“孤立點”意義:數(shù)據(jù)清理的目的就是試圖填充缺失值、去除噪聲并識別離群點168.2.1數(shù)據(jù)清洗(1)存在缺失值數(shù)據(jù)并不總是完整的引起空缺值的原因有些信息暫時無法獲取某些屬性并不能用于所有對象有些信息是被遺漏的有些信息(被認為)是不重要的要求統(tǒng)計的時間窗口并非對所有數(shù)據(jù)都適合178.2.1數(shù)據(jù)清洗(2)缺失值的處理方法忽略元組:當缺少類標號時通常這樣處理(在分類任務(wù)中)。除非同一記錄中有多個屬性缺失值,否則該方法不是很有效。忽略屬性列:如果該屬性的缺失值太多,如超過80%,則在整個數(shù)據(jù)集中忽略該屬性。數(shù)據(jù)填充:是用一定的值去填充缺失值,如用其余屬性的平均值或最常見值來進行補充等。人工填寫缺失值:通常情況下,該方法費時費力,并且當數(shù)據(jù)集很大或缺少很多值時,該方法可能行不通。自動填充缺失值:有三種不同的策略。使用一個全局常量填充缺失值,將缺失的屬性值用同一個常數(shù)替換。使用與給定記錄屬同一類的所有樣本的均值或眾數(shù)填充缺省值。用可能值來代替缺失值:可以用回歸、基于推理的工具或決策樹歸納確定。188.2.1數(shù)據(jù)清洗(3)噪聲數(shù)據(jù)的平滑方法噪聲是測量變量的隨機錯誤或偏差。噪聲是測量誤差的隨機部分,包含錯誤或孤立點值。導致噪聲產(chǎn)生的原因有:數(shù)據(jù)收集的設(shè)備故障

數(shù)據(jù)錄入過程中人的疏忽數(shù)據(jù)傳輸過程中的錯誤噪聲數(shù)據(jù)常用分箱的方法平滑:分箱:分箱方法通過考察“鄰居”(即周圍的值)來平滑有序數(shù)據(jù)的值。198.2.1數(shù)據(jù)清洗(4)數(shù)據(jù)平滑實例一組排序后的數(shù)據(jù)(單位:元):4,8,15,21,21,24,25,31,34,36劃分為等深的箱箱1:4,8,15箱2:21,21,24箱3:25,31,34,36用箱平均值進行平滑箱1:9,9,9箱2:22,22,22箱3:31.5,31.5,31.5,31.5用箱的邊界進行平滑箱1:4,4,15箱2:21,21,24箱3:25,36,36,36208.2.1數(shù)據(jù)清洗(5)特殊字段的處理有兩種極端的字段需要特殊處理:取值幾乎相同和幾乎都不同的字段。8.2.1數(shù)據(jù)清洗(5)8.2.2數(shù)據(jù)集成將兩個或多個數(shù)據(jù)源中的數(shù)據(jù),存放在一個一致的數(shù)據(jù)存儲設(shè)備中。在數(shù)據(jù)集成時,有許多問題需要考慮,數(shù)據(jù)一致性和冗余是兩個重要問題。不同表中可能使用不同名稱來指示同一屬性,正如一個人有多個不同的別名或不同的人擁有相同的名字,這樣將導致數(shù)據(jù)的不一致或沖突。一個屬性是冗余的,如果它能由另一個表“導出”;屬性或維命名的不一致也可能導致數(shù)據(jù)集中的冗余。228.2.3數(shù)據(jù)變換(1)聚集:匯總,數(shù)據(jù)立方體的構(gòu)建數(shù)據(jù)泛化:沿概念分層高上匯總規(guī)范化:將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間(消除量綱的影響)最小-最大規(guī)范化Z-score規(guī)范化小數(shù)定標規(guī)范化特征構(gòu)造通過現(xiàn)有屬性構(gòu)造新的特征,并添加到數(shù)據(jù)集中數(shù)據(jù)離散化23(1)數(shù)據(jù)泛化概念分層通過使用高層的概念(比如:老年,中年,青年)來替代底層的屬性值(比如:實際的年齡數(shù)據(jù)值)來規(guī)約數(shù)據(jù)概念分層可以用樹來表示,樹的每一個節(jié)點代表一個概念(比如:按地區(qū)劃分世界)對于數(shù)值屬性,概念分層可以根據(jù)數(shù)據(jù)的分布自動地構(gòu)造,如用分箱、直方圖分析、聚類分析、基于熵的離散化和自然劃分分段等技術(shù)生成數(shù)據(jù)概念分層。對于分類屬性,有時可能具有很多個不同值。減少大量分類值的一個方法是使用代碼屬性而不是代碼本身。這時領(lǐng)域知識通常會有幫助,如果領(lǐng)域知識不能提供有用的指導,或者這樣的方法會導致很差的性能,則需要使用更為經(jīng)驗性的方法,僅當分組結(jié)果能提高分類準確率或達到某種其它數(shù)據(jù)挖掘目標時,才將值聚集到一起。8.2.3數(shù)據(jù)變換(2)(2)規(guī)范化最小-最大規(guī)范化Z-score規(guī)范化小數(shù)定標規(guī)范化258.2.3數(shù)據(jù)變換(3)(3)特征構(gòu)造特征提取(FeatureExtraction):由原始數(shù)據(jù)創(chuàng)建新的特征集特征構(gòu)造:由一個或多個原始特征共同構(gòu)造新的特征提取來自單個屬性的特征在記錄內(nèi)合并數(shù)值轉(zhuǎn)軸正則時間序列匯總交易記錄基于行為變量268.2.3數(shù)據(jù)變換(4)(4)離散化通過將屬性域劃分為區(qū)間,減少給定連續(xù)屬性值的個數(shù)。區(qū)間標號可以代替實際的數(shù)據(jù)值。等寬離散化方法、等頻離散化方法、近似等頻離散化方法。278.2.3數(shù)據(jù)變換(5)8.2.4數(shù)據(jù)歸約(1)從記錄和維度兩個方面減少數(shù)據(jù)量維歸約特征變換與特征選擇

維規(guī)約的好處如果維度較低,許多數(shù)據(jù)挖掘算法效果會更好。維歸約使模型涉及更少的特征,因而可以產(chǎn)生更容易理解的模型。使用維歸約可以降低數(shù)據(jù)挖掘算法的時間和空間復(fù)雜度。2829(1)特征選擇概念:從一組已知特征集合中選擇最具代表性的特征子集,使其保留原有數(shù)據(jù)的大部分信息,即所選特征子集可以像原來的特征全集一樣用來正確區(qū)分數(shù)據(jù)集的每個數(shù)據(jù)對象。通過特征選擇,一些和任務(wù)無關(guān)或是冗余的特征被刪除,從而提高數(shù)據(jù)處理的效率。目的:去除不相關(guān)和冗余的特征,降低時間空間復(fù)雜度,提高數(shù)據(jù)質(zhì)量及數(shù)據(jù)泛化能力。理想的特征

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論