第6章-數(shù)據(jù)預(yù)處理

上傳人：9*** IP屬地：湖北上傳時間：2021-12-24 格式：PPT 頁數(shù)：75 大?。?05KB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩70頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、第6章數(shù)據(jù)預(yù)處理宋杰鯤宋杰鯤中國石油大學（華東）中國石油大學（華東）管理科學與工程系管理科學與工程系數(shù)據(jù)預(yù)處理n 由于數(shù)據(jù)庫系統(tǒng)所獲數(shù)據(jù)量的迅速膨脹由于數(shù)據(jù)庫系統(tǒng)所獲數(shù)據(jù)量的迅速膨脹（已達（已達GBGB或或TBTB數(shù)量級），從而導致了現(xiàn)實世數(shù)量級），從而導致了現(xiàn)實世界數(shù)據(jù)庫中常常包含許多含有噪聲、不完整、界數(shù)據(jù)庫中常常包含許多含有噪聲、不完整、甚至是不一致的數(shù)據(jù)。顯然對數(shù)據(jù)挖掘所涉及甚至是不一致的數(shù)據(jù)。顯然對數(shù)據(jù)挖掘所涉及的數(shù)據(jù)對象必須進行預(yù)處理。數(shù)據(jù)預(yù)處理主要的數(shù)據(jù)對象必須進行預(yù)處理。數(shù)據(jù)預(yù)處理主要包括：數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)包括：數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)歸

2、約等。變換、數(shù)據(jù)歸約等。數(shù)據(jù)預(yù)處理n本章目標：本章目標：了解并掌握數(shù)據(jù)預(yù)處理的幾種方了解并掌握數(shù)據(jù)預(yù)處理的幾種方法，特別是分箱方法、數(shù)據(jù)規(guī)格化方法，特別是分箱方法、數(shù)據(jù)規(guī)格化方法。法。數(shù)據(jù)預(yù)處理n6.1數(shù)據(jù)預(yù)處理的必要性數(shù)據(jù)預(yù)處理的必要性n6.2數(shù)據(jù)清理數(shù)據(jù)清理n6.3數(shù)據(jù)集成數(shù)據(jù)集成n6.4數(shù)據(jù)變換數(shù)據(jù)變換n6.5數(shù)據(jù)歸約數(shù)據(jù)歸約6.1數(shù)據(jù)預(yù)處理的必要性n 數(shù)據(jù)挖掘的效果和數(shù)據(jù)質(zhì)量之間有著緊密的數(shù)據(jù)挖掘的效果和數(shù)據(jù)質(zhì)量之間有著緊密的聯(lián)系，所謂聯(lián)系，所謂“垃圾入，垃圾出垃圾入，垃圾出”，即數(shù)據(jù)的質(zhì)量，即數(shù)據(jù)的質(zhì)量越好，則挖掘的結(jié)果就越精確，反之則不可能取越好，則挖掘的結(jié)果就越精確，反之則不可

3、能取得好的挖掘結(jié)果。尤其是在對包含有噪聲、不完得好的挖掘結(jié)果。尤其是在對包含有噪聲、不完整、不一致數(shù)據(jù)進行數(shù)據(jù)挖掘時，更需要進行數(shù)整、不一致數(shù)據(jù)進行數(shù)據(jù)挖掘時，更需要進行數(shù)據(jù)的預(yù)處理，以提高數(shù)據(jù)挖掘?qū)ο蟮馁|(zhì)量，并最據(jù)的預(yù)處理，以提高數(shù)據(jù)挖掘?qū)ο蟮馁|(zhì)量，并最終提高數(shù)據(jù)挖掘所獲模式知識的質(zhì)量。終提高數(shù)據(jù)挖掘所獲模式知識的質(zhì)量。6.1數(shù)據(jù)預(yù)處理的必要性n 噪聲數(shù)據(jù)：噪聲是指一個測量變量中的隨機錯誤或噪聲數(shù)據(jù)：噪聲是指一個測量變量中的隨機錯誤或偏離期望的孤立點值，產(chǎn)生噪聲的原因很多，人為的、偏離期望的孤立點值，產(chǎn)生噪聲的原因很多，人為的、設(shè)備的和技術(shù)的等，如數(shù)據(jù)輸入時的人為錯誤或計算機設(shè)備的和技術(shù)的等

4、，如數(shù)據(jù)輸入時的人為錯誤或計算機錯誤，網(wǎng)絡(luò)傳輸中的錯誤，數(shù)據(jù)收集設(shè)備的故障等。錯誤，網(wǎng)絡(luò)傳輸中的錯誤，數(shù)據(jù)收集設(shè)備的故障等。n 不完整數(shù)據(jù)：實際應(yīng)用系統(tǒng)中，由于系統(tǒng)設(shè)計的不不完整數(shù)據(jù)：實際應(yīng)用系統(tǒng)中，由于系統(tǒng)設(shè)計的不合理或者使用過程中的某些因素，某些屬性值可能會缺合理或者使用過程中的某些因素，某些屬性值可能會缺失或者值不確定。失或者值不確定。6.1數(shù)據(jù)預(yù)處理的必要性n 不一致數(shù)據(jù)：由于原始數(shù)據(jù)來源于多個不同的應(yīng)用不一致數(shù)據(jù)：由于原始數(shù)據(jù)來源于多個不同的應(yīng)用系統(tǒng)或數(shù)據(jù)庫，信息龐雜，采集和加工的方法有別，數(shù)系統(tǒng)或數(shù)據(jù)庫，信息龐雜，采集和加工的方法有別，數(shù)據(jù)描述的格式也各不相同，缺乏統(tǒng)一的分類標準和

5、信息據(jù)描述的格式也各不相同，缺乏統(tǒng)一的分類標準和信息的編碼方案，難以實現(xiàn)信息的集成共享，很難直接用于的編碼方案，難以實現(xiàn)信息的集成共享，很難直接用于數(shù)據(jù)挖掘。數(shù)據(jù)挖掘。n 重復數(shù)據(jù)：同一事物在數(shù)據(jù)庫中存在兩條或多條完重復數(shù)據(jù)：同一事物在數(shù)據(jù)庫中存在兩條或多條完全相同的記錄，或者相同的信息冗余的存在于多個數(shù)據(jù)全相同的記錄，或者相同的信息冗余的存在于多個數(shù)據(jù)源中。源中。6.1數(shù)據(jù)預(yù)處理的必要性n 維度高數(shù)據(jù)：原始數(shù)據(jù)中通常記錄事物的較為全面維度高數(shù)據(jù)：原始數(shù)據(jù)中通常記錄事物的較為全面的屬性，而在一次挖掘中，這些屬性并不是都有用，只的屬性，而在一次挖掘中，這些屬性并不是都有用，只需要一部分屬性即可得

6、到希望知道的知識，而且無用屬需要一部分屬性即可得到希望知道的知識，而且無用屬性的增加還會導致無效歸納，把挖掘結(jié)果引向錯誤的結(jié)性的增加還會導致無效歸納，把挖掘結(jié)果引向錯誤的結(jié)論。論。6.2數(shù)據(jù)清理n 數(shù)據(jù)預(yù)處理的方法主要包括：數(shù)據(jù)清理（數(shù)據(jù)預(yù)處理的方法主要包括：數(shù)據(jù)清理（data cleaning）、數(shù)據(jù)集成（）、數(shù)據(jù)集成（data integration）、數(shù)據(jù)）、數(shù)據(jù)變換（變換（data transformation）、數(shù)據(jù)歸約（）、數(shù)據(jù)歸約（data reduction）。）。 n 數(shù)據(jù)清理通過填補遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平數(shù)據(jù)清理通過填補遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù)，以及糾正不一

7、致的數(shù)據(jù)?；肼晹?shù)據(jù)，以及糾正不一致的數(shù)據(jù)。6.2數(shù)據(jù)清理6.2.16.2.1遺漏數(shù)據(jù)處理遺漏數(shù)據(jù)處理n 假設(shè)在分析一個商場銷售數(shù)據(jù)時，發(fā)現(xiàn)有多個記錄假設(shè)在分析一個商場銷售數(shù)據(jù)時，發(fā)現(xiàn)有多個記錄中的屬性值為空，如：顧客的收入屬性，對于為空的屬中的屬性值為空，如：顧客的收入屬性，對于為空的屬性值，可以采用以下方法進行遺漏數(shù)據(jù)處理：性值，可以采用以下方法進行遺漏數(shù)據(jù)處理：（1）忽略該條記錄。當一個記錄中有多個屬性值）忽略該條記錄。當一個記錄中有多個屬性值空缺，特別是關(guān)鍵信息丟失時，即使是采用某些方法把空缺，特別是關(guān)鍵信息丟失時，即使是采用某些方法把所有缺失的屬性值填充好，該記錄也不能反映真實情況

8、，所有缺失的屬性值填充好，該記錄也不能反映真實情況，對于數(shù)據(jù)挖掘算法來說，這樣的數(shù)據(jù)性質(zhì)很差，應(yīng)該忽對于數(shù)據(jù)挖掘算法來說，這樣的數(shù)據(jù)性質(zhì)很差，應(yīng)該忽略該條記錄。略該條記錄。6.2數(shù)據(jù)清理6.2.16.2.1遺漏數(shù)據(jù)處理遺漏數(shù)據(jù)處理n （2）去掉屬性。如果所有記錄中的某一個屬性值）去掉屬性。如果所有記錄中的某一個屬性值缺失嚴重，可以認為該屬性對知識發(fā)現(xiàn)來說已經(jīng)沒有意缺失嚴重，可以認為該屬性對知識發(fā)現(xiàn)來說已經(jīng)沒有意義，將其直接去掉。義，將其直接去掉。n （3）手工填補遺漏值。以某些背景資料為依據(jù)，）手工填補遺漏值。以某些背景資料為依據(jù)，手工填寫空缺值，一般講這種方法比較耗時，而且對于手工填寫空缺值

9、，一般講這種方法比較耗時，而且對于存在許多遺漏情況的大規(guī)模數(shù)據(jù)集而言，顯然可行較差。存在許多遺漏情況的大規(guī)模數(shù)據(jù)集而言，顯然可行較差。6.2數(shù)據(jù)清理6.2.16.2.1遺漏數(shù)據(jù)處理遺漏數(shù)據(jù)處理n （4）利用缺省值填補遺漏值。對一個離散屬性的）利用缺省值填補遺漏值。對一個離散屬性的所有遺漏的值均利用一個事先確定好的值來填補。如：所有遺漏的值均利用一個事先確定好的值來填補。如：都用都用OK來填補。但當一個屬性遺漏值較多值，若采用這來填補。但當一個屬性遺漏值較多值，若采用這種方法，就可能誤導挖掘進程。因此這種方法雖然簡單，種方法，就可能誤導挖掘進程。因此這種方法雖然簡單，但并不推薦使用，或使用時需要

10、仔細分析填補后的情況，但并不推薦使用，或使用時需要仔細分析填補后的情況，以盡量避免對最終挖掘結(jié)果產(chǎn)生較大誤差。以盡量避免對最終挖掘結(jié)果產(chǎn)生較大誤差。n （5）利用均值填補遺漏值。計算一個屬性（值）利用均值填補遺漏值。計算一個屬性（值）的平均值，并用此值填補該屬性所有遺漏的值。如：若的平均值，并用此值填補該屬性所有遺漏的值。如：若一個顧客的平均收入一個顧客的平均收入(income)為為12000元，則用此值元，則用此值填補屬性中所有被遺漏的值。填補屬性中所有被遺漏的值。6.2數(shù)據(jù)清理6.2.16.2.1遺漏數(shù)據(jù)處理遺漏數(shù)據(jù)處理n （6）利用同類別均值填補遺漏值。計算同類樣本）利用同類別均值填補遺

11、漏值。計算同類樣本記錄的該屬性平均值，用來填充空缺值。如：若要對商記錄的該屬性平均值，用來填充空缺值。如：若要對商場顧客按信用風險進行分類挖掘時，就可以用在同一信場顧客按信用風險進行分類挖掘時，就可以用在同一信用風險類別下（如良好）的用風險類別下（如良好）的income屬性的平均值，來填屬性的平均值，來填補所有在同一信用風險類別下屬性補所有在同一信用風險類別下屬性income的遺漏值。的遺漏值。6.2數(shù)據(jù)清理6.2.16.2.1遺漏數(shù)據(jù)處理遺漏數(shù)據(jù)處理n （7）利用最可能的值填補遺漏值。可以利用回歸）利用最可能的值填補遺漏值。可以利用回歸分析、貝葉斯計算公式或決策樹推斷出該條記錄特定屬分析、貝

12、葉斯計算公式或決策樹推斷出該條記錄特定屬性的最大可能的取值。例如：利用數(shù)據(jù)集中其它顧客的性的最大可能的取值。例如：利用數(shù)據(jù)集中其它顧客的屬性值，可以構(gòu)造一個決策樹來預(yù)測屬性屬性值，可以構(gòu)造一個決策樹來預(yù)測屬性income的遺漏的遺漏值。與其他方法相比，該方法最大程度地利用了當前數(shù)值。與其他方法相比，該方法最大程度地利用了當前數(shù)據(jù)所包含的信息來幫助預(yù)測所遺漏的數(shù)據(jù)，是目前最為據(jù)所包含的信息來幫助預(yù)測所遺漏的數(shù)據(jù)，是目前最為常用的方法。常用的方法。n （1）分箱方法。通過考察相鄰數(shù)據(jù)來確定最終）分箱方法。通過考察相鄰數(shù)據(jù)來確定最終值。把待處理的數(shù)據(jù)（某列屬性值）按照一定的規(guī)則值。把待處理的數(shù)據(jù)（某

13、列屬性值）按照一定的規(guī)則放進一些箱子中，考察每一個箱子的數(shù)據(jù)，采用某種放進一些箱子中，考察每一個箱子的數(shù)據(jù)，采用某種方法分別對各個箱子中的數(shù)據(jù)進行處理。常用的方法方法分別對各個箱子中的數(shù)據(jù)進行處理。常用的方法包括等深分箱法、等寬分箱法以及自定義分箱法。包括等深分箱法、等寬分箱法以及自定義分箱法。n 完成分箱之后，就要選擇一種方法對數(shù)據(jù)進行平完成分箱之后，就要選擇一種方法對數(shù)據(jù)進行平滑，使得數(shù)據(jù)盡可能接近。常用的方法包括：滑，使得數(shù)據(jù)盡可能接近。常用的方法包括：6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理n 按平均值平滑：對同一箱值中的數(shù)據(jù)求平均值，按平均值平滑：對同一箱值中的數(shù)據(jù)

14、求平均值，然后用這個平均值替代該箱子中的所有數(shù)據(jù)。然后用這個平均值替代該箱子中的所有數(shù)據(jù)。n 按邊界值平滑：對于箱子中的每一個數(shù)據(jù)，觀察按邊界值平滑：對于箱子中的每一個數(shù)據(jù)，觀察它和箱子兩個邊界值的距離，用距離較小的那個邊界值它和箱子兩個邊界值的距離，用距離較小的那個邊界值替代該數(shù)據(jù)。替代該數(shù)據(jù)。n 按中值平滑：取箱子的中值，用來替代箱子中的按中值平滑：取箱子的中值，用來替代箱子中的所有數(shù)據(jù)。中值也稱中數(shù)，將數(shù)據(jù)排序之后，如果這些所有數(shù)據(jù)。中值也稱中數(shù)，將數(shù)據(jù)排序之后，如果這些數(shù)據(jù)是奇數(shù)個，中值就是最中間位置的那個數(shù)；如果是數(shù)據(jù)是奇數(shù)個，中值就是最中間位置的那個數(shù)；如果是偶數(shù)個，中值應(yīng)該是中間

15、兩個數(shù)的平均值。偶數(shù)個，中值應(yīng)該是中間兩個數(shù)的平均值。6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理price 的排序后數(shù)據(jù)（元）：的排序后數(shù)據(jù)（元）：4, 8, 15, 21, 21, 24, 25, 28, 34等深分箱（箱深為等深分箱（箱深為3）：）：箱箱1：4, 8, 15箱箱2：21, 21, 24箱箱3：25, 28, 34等寬分箱（箱寬為等寬分箱（箱寬為10）：）：箱箱1：4, 8箱箱2：15, 21, 21,24,25箱箱3：28, 34自定義分箱（自定義分箱（10以下，以下，1020，2030，3040）：）：箱箱1：4, 8 箱箱2：15 箱箱3：21, 21,

16、 24,25,28 箱箱4：34 6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理price 的排序等深后數(shù)據(jù)：的排序等深后數(shù)據(jù)：4, 8, 15;21, 21, 24;25, 28, 34用平均值平滑：用平均值平滑：箱箱1：9, 9, 9箱箱2：22, 22, 22箱箱3：29, 29, 29用邊界平滑：用邊界平滑：箱箱1：4, 4, 15箱箱2：21, 21, 24箱箱3：25, 25, 34 用中值平滑：用中值平滑：箱箱1：8, 8, 8箱箱2：21, 21, 21箱箱3：28, 28, 286.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理課堂練習：課堂練習：假

17、定用于分析的數(shù)據(jù)包含屬性假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中。數(shù)據(jù)元組中age 的值的值如下（按遞增序）：如下（按遞增序）：13, 15, 16, 16, 19, 20, 20, 21, 22。 1）使用按箱平均值（保留整數(shù)，四舍五入）平滑對以上）使用按箱平均值（保留整數(shù)，四舍五入）平滑對以上數(shù)據(jù)進行平滑，箱的深度為數(shù)據(jù)進行平滑，箱的深度為3。說明你的步驟。說明你的步驟。 2）使用按箱邊界平滑對以上數(shù)據(jù)進行平滑，箱的深度為）使用按箱邊界平滑對以上數(shù)據(jù)進行平滑，箱的深度為3。說明你的步驟。說明你的步驟。6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理n （2）聚類方法。通過聚類

18、分析可幫助發(fā)現(xiàn)異常數(shù)）聚類方法。通過聚類分析可幫助發(fā)現(xiàn)異常數(shù)據(jù)，相似或相鄰近的數(shù)據(jù)聚合在一起形成各個聚類集合，據(jù)，相似或相鄰近的數(shù)據(jù)聚合在一起形成各個聚類集合，而那些位于這些聚類集合之外的數(shù)據(jù)對象被認為是異常而那些位于這些聚類集合之外的數(shù)據(jù)對象被認為是異常數(shù)據(jù)。聚類方法不需要任何先驗知識。數(shù)據(jù)。聚類方法不需要任何先驗知識。6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理n （3）回歸方法?？梢岳脭M合函數(shù)對數(shù)據(jù)進行）回歸方法?？梢岳脭M合函數(shù)對數(shù)據(jù)進行平滑。如：借助線性回歸（平滑。如：借助線性回歸（linear regression）方法，）方法，包括多變量回歸方法，就可以獲得的多個

19、變量之間的一包括多變量回歸方法，就可以獲得的多個變量之間的一個擬合關(guān)系，從而達到利用一個（或一組）變量值來幫個擬合關(guān)系，從而達到利用一個（或一組）變量值來幫助預(yù)測另一個變量取值的目的。利用回歸分析方法所獲助預(yù)測另一個變量取值的目的。利用回歸分析方法所獲得的擬合函數(shù)，能夠幫助平滑數(shù)據(jù)及除去其中的噪聲。得的擬合函數(shù)，能夠幫助平滑數(shù)據(jù)及除去其中的噪聲。 6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理n （4）人機結(jié)合檢查方法。通過人與計算機檢查相結(jié)）人機結(jié)合檢查方法。通過人與計算機檢查相結(jié)合方法，可以幫助發(fā)現(xiàn)異常數(shù)據(jù)。如：利用基于信息論合方法，可以幫助發(fā)現(xiàn)異常數(shù)據(jù)。如：利用基于信息論方法

20、可幫助識別用于分類識別手寫符號庫中的異常模式；方法可幫助識別用于分類識別手寫符號庫中的異常模式；所識別出的異常模式可輸出到一個列表中；然后由人對所識別出的異常模式可輸出到一個列表中；然后由人對這一列表中的各異常模式進行檢查，并最終確認無用的這一列表中的各異常模式進行檢查，并最終確認無用的模式（真正異常的模式）。這種人機結(jié)合檢查方法比單模式（真正異常的模式）。這種人機結(jié)合檢查方法比單純利用手工方法手寫符號庫進行檢查要快許多。純利用手工方法手寫符號庫進行檢查要快許多。6.2數(shù)據(jù)清理6.2.26.2.2噪聲數(shù)據(jù)處理噪聲數(shù)據(jù)處理n （1）多個取名或不規(guī)范取名的清理問題。數(shù)據(jù)清理）多個取名或不規(guī)范取名的

21、清理問題。數(shù)據(jù)清理將數(shù)據(jù)值進行一致化，即相同含義的值應(yīng)具有統(tǒng)一的形將數(shù)據(jù)值進行一致化，即相同含義的值應(yīng)具有統(tǒng)一的形式。如人員的出生地在不同的數(shù)據(jù)源中可能分別使用式。如人員的出生地在不同的數(shù)據(jù)源中可能分別使用“上海上海”、“滬滬”、“上海市上海市”、“滬市、滬市、“申申”、“申城申城”、“Shanghai ”，、，、“SH”等表示上海市出生等表示上海市出生的人員，應(yīng)將這類值統(tǒng)一表示。在不同的數(shù)據(jù)源中，相的人員，應(yīng)將這類值統(tǒng)一表示。在不同的數(shù)據(jù)源中，相同類型的信息可能表現(xiàn)為不同的格式，例如，電話號碼同類型的信息可能表現(xiàn)為不同的格式，例如，電話號碼通常定義為字符型數(shù)據(jù)，但在有些數(shù)據(jù)源中可能將其定通常

22、定義為字符型數(shù)據(jù)，但在有些數(shù)據(jù)源中可能將其定義為數(shù)值型數(shù)據(jù)，因此應(yīng)將其一致化。義為數(shù)值型數(shù)據(jù)，因此應(yīng)將其一致化。6.2數(shù)據(jù)清理6.2.36.2.3不一致數(shù)據(jù)處理不一致數(shù)據(jù)處理n （2）錯誤數(shù)據(jù)的清理問題。數(shù)據(jù)清洗包括數(shù)據(jù)的一）錯誤數(shù)據(jù)的清理問題。數(shù)據(jù)清洗包括數(shù)據(jù)的一致性確認，如人員的聯(lián)系信息在地址域的值為致性確認，如人員的聯(lián)系信息在地址域的值為“中國石中國石油大學（華東）油大學（華東）”，而在相應(yīng)的郵政編碼域值為，而在相應(yīng)的郵政編碼域值為“257000”，則記錄的數(shù)據(jù)存在不一致。在本例中，假，則記錄的數(shù)據(jù)存在不一致。在本例中，假如存在一個標準的地址和郵政編碼的對應(yīng)表，則可對記如存在一個標準的地

23、址和郵政編碼的對應(yīng)表，則可對記錄中的郵政編碼值自動更正。當然，這需要結(jié)合一定的錄中的郵政編碼值自動更正。當然，這需要結(jié)合一定的業(yè)務(wù)規(guī)則，因為也有可能郵政編碼的值正確，而地址域業(yè)務(wù)規(guī)則，因為也有可能郵政編碼的值正確，而地址域的值不正確。的值不正確。6.2數(shù)據(jù)清理6.2.36.2.3不一致數(shù)據(jù)處理不一致數(shù)據(jù)處理n （3）失效數(shù)據(jù)或過期數(shù)據(jù)的清理問題。）失效數(shù)據(jù)或過期數(shù)據(jù)的清理問題。地址是一個地址是一個經(jīng)常出現(xiàn)過時數(shù)據(jù)的典型例子。在當今社會中，人們常經(jīng)常出現(xiàn)過時數(shù)據(jù)的典型例子。在當今社會中，人們常常改變他們的地址，所以一年以上的住址變得不再可靠。常改變他們的地址，所以一年以上的住址變得不再可靠。體

24、現(xiàn)在有的客戶概況信息已超過兩年以上，而且客戶已體現(xiàn)在有的客戶概況信息已超過兩年以上，而且客戶已經(jīng)搬家，但新的地址并沒有在地址表中反映出來。郵寄經(jīng)搬家，但新的地址并沒有在地址表中反映出來。郵寄清單必須經(jīng)常更新，因為人們的工作會發(fā)生變化，他們清單必須經(jīng)常更新，因為人們的工作會發(fā)生變化，他們的住址也隨之改變。我們將這種不再正確的老地址稱為的住址也隨之改變。我們將這種不再正確的老地址稱為失效數(shù)據(jù)。失效數(shù)據(jù)。 6.2數(shù)據(jù)清理6.2.36.2.3不一致數(shù)據(jù)處理不一致數(shù)據(jù)處理n （4）印刷錯誤的清理問題。英文單詞會經(jīng)常性地被印刷錯誤的清理問題。英文單詞會經(jīng)常性地被誤拼或誤打，漢語詞組也同樣如此。誤拼或誤打，

25、漢語詞組也同樣如此。6.2數(shù)據(jù)清理6.2.36.2.3不一致數(shù)據(jù)處理不一致數(shù)據(jù)處理6.3數(shù)據(jù)集成n 數(shù)據(jù)挖掘任務(wù)常常涉及數(shù)據(jù)集成操作，即將來自多數(shù)據(jù)挖掘任務(wù)常常涉及數(shù)據(jù)集成操作，即將來自多個數(shù)據(jù)源的數(shù)據(jù)，如：數(shù)據(jù)庫、數(shù)據(jù)立方、普通文件等，個數(shù)據(jù)源的數(shù)據(jù)，如：數(shù)據(jù)庫、數(shù)據(jù)立方、普通文件等，結(jié)合在一起并形成一個統(tǒng)一數(shù)據(jù)集合，以便為數(shù)據(jù)挖掘結(jié)合在一起并形成一個統(tǒng)一數(shù)據(jù)集合，以便為數(shù)據(jù)挖掘工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)集成（工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)集成（data integration）將多數(shù)據(jù)源中的數(shù)據(jù)進行合并處理，解）將多數(shù)據(jù)源中的數(shù)據(jù)進行合并處理，解決語義模糊性并整合成一致

26、的數(shù)據(jù)存儲。數(shù)據(jù)集成涉及決語義模糊性并整合成一致的數(shù)據(jù)存儲。數(shù)據(jù)集成涉及模式集成、屬性冗余、數(shù)據(jù)值沖突檢測與消除這三個方模式集成、屬性冗余、數(shù)據(jù)值沖突檢測與消除這三個方面的問題。面的問題。n 模式集成從多個異構(gòu)數(shù)據(jù)庫、文件或遺留系統(tǒng)提取并模式集成從多個異構(gòu)數(shù)據(jù)庫、文件或遺留系統(tǒng)提取并集成數(shù)據(jù)，解決語義二義性，統(tǒng)一不同格式的數(shù)據(jù)。因此，集成數(shù)據(jù)，解決語義二義性，統(tǒng)一不同格式的數(shù)據(jù)。因此，模式集成涉及實體識別模式集成涉及實體識別(entity identification)，即如何，即如何表示不同數(shù)據(jù)庫中的字段是同一個實體，如何將不同信息表示不同數(shù)據(jù)庫中的字段是同一個實體，如何將不同信息源中的實體

27、匹配來進行模式集成。例如：如何確定一個數(shù)源中的實體匹配來進行模式集成。例如：如何確定一個數(shù)據(jù)庫中的據(jù)庫中的“customer-id”與另一個數(shù)據(jù)庫中的與另一個數(shù)據(jù)庫中的“custom-id”是否表示同一實體。數(shù)據(jù)庫與數(shù)據(jù)倉庫通常是否表示同一實體。數(shù)據(jù)庫與數(shù)據(jù)倉庫通常包含元數(shù)據(jù)，所謂元數(shù)據(jù)就是關(guān)于數(shù)據(jù)的數(shù)據(jù)，這些元數(shù)包含元數(shù)據(jù)，所謂元數(shù)據(jù)就是關(guān)于數(shù)據(jù)的數(shù)據(jù)，這些元數(shù)據(jù)可以幫助避免在模式集成時發(fā)生錯誤。據(jù)可以幫助避免在模式集成時發(fā)生錯誤。 6.3數(shù)據(jù)集成6.3.16.3.1模式集成問題模式集成問題n 若一個屬性可以從其它屬性中推演出來，那這個屬性若一個屬性可以從其它屬性中推演出來，那這個屬性就是冗

28、余屬性。如：一個顧客數(shù)據(jù)表中的平均月收入屬性，就是冗余屬性。如：一個顧客數(shù)據(jù)表中的平均月收入屬性，就是冗余屬性，顯然它可以根據(jù)月收入屬性計算出來。利用就是冗余屬性，顯然它可以根據(jù)月收入屬性計算出來。利用相關(guān)分析可以幫助發(fā)現(xiàn)一些比較隱蔽的數(shù)據(jù)冗余情況。例如：相關(guān)分析可以幫助發(fā)現(xiàn)一些比較隱蔽的數(shù)據(jù)冗余情況。例如：給定兩個屬性，則根據(jù)這兩個屬性的數(shù)值分析出這兩個屬性給定兩個屬性，則根據(jù)這兩個屬性的數(shù)值分析出這兩個屬性間的相互關(guān)系。屬性間的相互關(guān)系。屬性A，B之間的相互關(guān)系可以根據(jù)以下計之間的相互關(guān)系可以根據(jù)以下計算公式分析獲得。算公式分析獲得。 6.3數(shù)據(jù)集成6.3.26.3.2冗余問題冗余問題n記

29、錄行冗余同步進行。記錄行冗余同步進行。n 對于一個現(xiàn)實世界實體，其來自不同數(shù)據(jù)源的屬性對于一個現(xiàn)實世界實體，其來自不同數(shù)據(jù)源的屬性值或許不同。產(chǎn)生這樣問題原因可能是表示的差異、比例值或許不同。產(chǎn)生這樣問題原因可能是表示的差異、比例尺度不同或編碼的差異等。例如：重量屬性在一個系統(tǒng)中尺度不同或編碼的差異等。例如：重量屬性在一個系統(tǒng)中采用公制，而在另一個系統(tǒng)中卻采用英制。同樣價格屬性采用公制，而在另一個系統(tǒng)中卻采用英制。同樣價格屬性在不同地點采用不同貨幣單位，而且可能涉及不同的服務(wù)在不同地點采用不同貨幣單位，而且可能涉及不同的服務(wù)（如免費早餐）或稅。這些語義的差異為數(shù)據(jù)集成提出許（如免費早餐）或稅。

30、這些語義的差異為數(shù)據(jù)集成提出許多問題。多問題。 6.3數(shù)據(jù)集成6.3.36.3.3數(shù)據(jù)值沖突檢測與消除問題數(shù)據(jù)值沖突檢測與消除問題6.4數(shù)據(jù)變換n 數(shù)據(jù)變換（數(shù)據(jù)變換（data transformation）就是將數(shù)據(jù)進行）就是將數(shù)據(jù)進行規(guī)范化和聚集。規(guī)范化和聚集。n （1）平滑。幫助除去數(shù)據(jù)中的噪聲，還可以將連續(xù)的）平滑。幫助除去數(shù)據(jù)中的噪聲，還可以將連續(xù)的數(shù)據(jù)離散化。主要技術(shù)方法有：分箱方法、聚類方法和回數(shù)據(jù)離散化。主要技術(shù)方法有：分箱方法、聚類方法和回歸方法。歸方法。n （2）聚集。對數(shù)據(jù)進行總結(jié)或合計操作。例如：每）聚集。對數(shù)據(jù)進行總結(jié)或合計操作。例如：每天銷售額（數(shù)據(jù)）可以進行合計操

31、作以獲得每月或每年的天銷售額（數(shù)據(jù)）可以進行合計操作以獲得每月或每年的總額。這一操作常用于構(gòu)造數(shù)據(jù)立方或?qū)?shù)據(jù)進行多維度總額。這一操作常用于構(gòu)造數(shù)據(jù)立方或?qū)?shù)據(jù)進行多維度的分析。的分析。6.4數(shù)據(jù)變換n （3）數(shù)據(jù)泛化（）數(shù)據(jù)泛化（generation）。所謂泛化處理就是）。所謂泛化處理就是用更抽象（更高層次）的概念來取代低層次或數(shù)據(jù)層的數(shù)用更抽象（更高層次）的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象。例如：街道屬性，就可以泛化到更高層次的概念，據(jù)對象。例如：街道屬性，就可以泛化到更高層次的概念，諸如：城市、國家。同樣對于數(shù)值型的屬性，如年齡屬性，諸如：城市、國家。同樣對于數(shù)值型的屬性，如年齡屬性，

32、就可以映射到更高層次概念，如：年輕、中年和老年。就可以映射到更高層次概念，如：年輕、中年和老年。6.4數(shù)據(jù)變換n （4）規(guī)格化。規(guī)格化就是將有關(guān)屬性數(shù)據(jù)按比例投）規(guī)格化。規(guī)格化就是將有關(guān)屬性數(shù)據(jù)按比例投射到特定小范圍之中，如將工資收入屬性值映射到射到特定小范圍之中，如將工資收入屬性值映射到-1.0到到1.0范圍內(nèi)，以消除數(shù)值型屬性因大小不一而造成挖范圍內(nèi)，以消除數(shù)值型屬性因大小不一而造成挖掘結(jié)果的偏差。規(guī)格化處理常常用于神經(jīng)網(wǎng)絡(luò)、聚類挖掘結(jié)果的偏差。規(guī)格化處理常常用于神經(jīng)網(wǎng)絡(luò)、聚類挖掘的數(shù)據(jù)預(yù)處理等等。下面介紹三種規(guī)格化方法：掘的數(shù)據(jù)預(yù)處理等等。下面介紹三種規(guī)格化方法：最小最小-最大規(guī)范化、最

33、大規(guī)范化、z-score 規(guī)范化和按小數(shù)定標規(guī)范化。規(guī)范化和按小數(shù)定標規(guī)范化。6.4數(shù)據(jù)變換最小最小-最大規(guī)范化最大規(guī)范化假定假定minA和和maxA分別為屬性分別為屬性A的最小和最大值。最的最小和最大值。最小小-最大規(guī)范化通過計算最大規(guī)范化通過計算：例例1 假定屬性假定屬性income的最小與最大值分別為的最小與最大值分別為$12,000和和$98,000。我們想映射。我們想映射income到區(qū)間到區(qū)間0.0,0.1。根據(jù)最小。根據(jù)最小-最最大規(guī)范化，大規(guī)范化，income值值$73,600將變換為：將變換為：6.4數(shù)據(jù)變換z-score規(guī)范化規(guī)范化屬性屬性A的值基于的值基于A的平均值和

34、標準差規(guī)范化。的平均值和標準差規(guī)范化。A的值的值v被被規(guī)范化為規(guī)范化為v，由下式計算：，由下式計算：例例2 假定屬性假定屬性income的平均值和標準差分別為的平均值和標準差分別為$54,000和和$16,000。使用。使用z-score規(guī)范化，值規(guī)范化，值$73,600被轉(zhuǎn)換為被轉(zhuǎn)換為6.4數(shù)據(jù)變換小數(shù)定標規(guī)范化小數(shù)定標規(guī)范化通過移動屬性通過移動屬性A的小數(shù)點位置進行規(guī)范化。小數(shù)點的移的小數(shù)點位置進行規(guī)范化。小數(shù)點的移動位數(shù)依賴于動位數(shù)依賴于A的最大絕對值。的最大絕對值。A的值的值v被規(guī)范化為被規(guī)范化為v，由，由下式計算。其中下式計算。其中j是使是使Max(|v|)1的最小整數(shù)。的最小整數(shù)

35、。例例3 假定假定A的值由的值由-986到到917。A的最大絕對值為的最大絕對值為986。為使。為使用小數(shù)定標規(guī)范化，我們用用小數(shù)定標規(guī)范化，我們用1,000（即（即j=3）除每個值。這）除每個值。這樣，樣，-986被規(guī)范化為被規(guī)范化為-0.986。6.4數(shù)據(jù)變換注意，規(guī)范化將原來的數(shù)據(jù)改變很多，特注意，規(guī)范化將原來的數(shù)據(jù)改變很多，特別是上述的后兩種方法。有必要保留規(guī)范化參別是上述的后兩種方法。有必要保留規(guī)范化參數(shù)（如平均值和標準差，如果使用數(shù)（如平均值和標準差，如果使用z-score規(guī)范規(guī)范化），以便將來的數(shù)據(jù)可以用一致的方式規(guī)范化），以便將來的數(shù)據(jù)可以用一致的方式規(guī)范化?；?.4數(shù)據(jù)變

36、換課堂練習：課堂練習：假定用于分析的數(shù)據(jù)包含屬性假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中。數(shù)據(jù)元組中age 的值如的值如下（按遞增序）：下（按遞增序）：13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70(a) 使用使用min-max 規(guī)范化，將規(guī)范化，將age 值值35 轉(zhuǎn)換到轉(zhuǎn)換到0.0,1.0區(qū)間。區(qū)間。(b) 使用使用z-score 規(guī)范化轉(zhuǎn)換規(guī)范化轉(zhuǎn)換age 值值35，其中，其中，age 的標準偏的標準偏差為差為

37、12.94 年。年。(c) 使用小數(shù)定標規(guī)范化轉(zhuǎn)換使用小數(shù)定標規(guī)范化轉(zhuǎn)換age 值值35。6.4數(shù)據(jù)變換n （5）屬性構(gòu)造。根據(jù)已有屬性集構(gòu)造新的屬性，以）屬性構(gòu)造。根據(jù)已有屬性集構(gòu)造新的屬性，以幫助數(shù)據(jù)挖掘過程。對于屬性構(gòu)造方法，它可以利用已有幫助數(shù)據(jù)挖掘過程。對于屬性構(gòu)造方法，它可以利用已有屬性集構(gòu)造出新的屬性，并加入到現(xiàn)有屬性集合中以幫助屬性集構(gòu)造出新的屬性，并加入到現(xiàn)有屬性集合中以幫助挖掘更深層次的模式知識，提高挖掘結(jié)果準確性。例如，挖掘更深層次的模式知識，提高挖掘結(jié)果準確性。例如，在客戶背景數(shù)據(jù)表中，根據(jù)客戶月收入，構(gòu)造在客戶背景數(shù)據(jù)表中，根據(jù)客戶月收入，構(gòu)造“收入水平收入水平”屬性

38、，取值為低、中、高；再如：根據(jù)寬、高屬性，可以屬性，取值為低、中、高；再如：根據(jù)寬、高屬性，可以構(gòu)造一個新屬性：面積。構(gòu)造合適的屬性能夠幫助減少學構(gòu)造一個新屬性：面積。構(gòu)造合適的屬性能夠幫助減少學習構(gòu)造決策樹時所出現(xiàn)的碎塊情況。此外通過屬性結(jié)合可習構(gòu)造決策樹時所出現(xiàn)的碎塊情況。此外通過屬性結(jié)合可以幫助發(fā)現(xiàn)所遺漏的屬性間相互聯(lián)系，而這常常對于數(shù)據(jù)以幫助發(fā)現(xiàn)所遺漏的屬性間相互聯(lián)系，而這常常對于數(shù)據(jù)挖掘過程是十分重要的。挖掘過程是十分重要的。 6.5數(shù)據(jù)歸約n 對大規(guī)模數(shù)據(jù)庫內(nèi)容進行復雜的數(shù)據(jù)分析通常需要耗對大規(guī)模數(shù)據(jù)庫內(nèi)容進行復雜的數(shù)據(jù)分析通常需要耗費大量的時間，這就常常使得這樣的分析變得不現(xiàn)實和

39、不費大量的時間，這就常常使得這樣的分析變得不現(xiàn)實和不可行，尤其是需要交互式數(shù)據(jù)挖掘時。數(shù)據(jù)歸約技術(shù)正是可行，尤其是需要交互式數(shù)據(jù)挖掘時。數(shù)據(jù)歸約技術(shù)正是用于幫助從原有龐大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集合，用于幫助從原有龐大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集合，并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性，這樣在精并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性，這樣在精簡數(shù)據(jù)集上進行數(shù)據(jù)挖掘顯然效率更高，并且挖掘出來的簡數(shù)據(jù)集上進行數(shù)據(jù)挖掘顯然效率更高，并且挖掘出來的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。n 數(shù)據(jù)歸約的主要策略有數(shù)據(jù)立方合計、維歸約、數(shù)據(jù)數(shù)據(jù)歸約的主要策略

40、有數(shù)據(jù)立方合計、維歸約、數(shù)據(jù)壓縮、數(shù)值歸約、離散化和概念分層產(chǎn)生等。壓縮、數(shù)值歸約、離散化和概念分層產(chǎn)生等。 n 數(shù)據(jù)立方體是數(shù)據(jù)的多維建模和表示。數(shù)據(jù)立方體數(shù)據(jù)立方體是數(shù)據(jù)的多維建模和表示。數(shù)據(jù)立方體的維數(shù)可以是任意的的維數(shù)可以是任意的n維。維。n 在最低層次所建立的數(shù)據(jù)立方稱為基立方，而最高在最低層次所建立的數(shù)據(jù)立方稱為基立方，而最高抽象層次的數(shù)據(jù)立方稱為頂立方。抽象層次的數(shù)據(jù)立方稱為頂立方。6.5數(shù)據(jù)歸約6.5.16.5.1數(shù)據(jù)立方合計數(shù)據(jù)立方合計n 頂立方代表整個公司三年、所有分支、所有類型商品頂立方代表整個公司三年、所有分支、所有類型商品的銷售總額。顯然每一層次的數(shù)據(jù)立方都是對其低一

41、層數(shù)的銷售總額。顯然每一層次的數(shù)據(jù)立方都是對其低一層數(shù)據(jù)的進一步抽象。據(jù)的進一步抽象。 6.5數(shù)據(jù)歸約6.5.16.5.1數(shù)據(jù)立方合計數(shù)據(jù)立方合計n 維歸約主要用于檢測和消除無關(guān)、弱相關(guān)、或冗余維歸約主要用于檢測和消除無關(guān)、弱相關(guān)、或冗余的屬性或維。由于數(shù)據(jù)集或許包含成百上千的屬性，這的屬性或維。由于數(shù)據(jù)集或許包含成百上千的屬性，這些屬性中的許多屬性是與挖掘任務(wù)無關(guān)的或冗余的。例些屬性中的許多屬性是與挖掘任務(wù)無關(guān)的或冗余的。例如：挖掘顧客是否會在商場購買如：挖掘顧客是否會在商場購買CD播放機的分類規(guī)則時，播放機的分類規(guī)則時，顧客的電話號碼很可能與挖掘任務(wù)無關(guān)。但如果利用人顧客的電話號碼很可能與

42、挖掘任務(wù)無關(guān)。但如果利用人類專家來幫助挑選有用的屬性，則是一件困難和費時費類專家來幫助挑選有用的屬性，則是一件困難和費時費力的工作，特別是當數(shù)據(jù)內(nèi)涵并十分清楚的時候。力的工作，特別是當數(shù)據(jù)內(nèi)涵并十分清楚的時候。6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約n 維歸約就是通過消除多余和無關(guān)的屬性而有效消減維歸約就是通過消除多余和無關(guān)的屬性而有效消減數(shù)據(jù)集的規(guī)模。通常采用屬性子集的選擇方法。屬性子數(shù)據(jù)集的規(guī)模。通常采用屬性子集的選擇方法。屬性子集選擇方法的目標就是尋找出最小的屬性子集并確保新集選擇方法的目標就是尋找出最小的屬性子集并確保新數(shù)據(jù)子集的概率分布盡可能接近原來數(shù)據(jù)集的概率分布。數(shù)據(jù)子集的

43、概率分布盡可能接近原來數(shù)據(jù)集的概率分布。利用篩選后的屬性集進行數(shù)據(jù)挖掘所獲結(jié)果，由于使用利用篩選后的屬性集進行數(shù)據(jù)挖掘所獲結(jié)果，由于使用了較少的屬性，從而使得用戶更加容易理解挖掘結(jié)果。了較少的屬性，從而使得用戶更加容易理解挖掘結(jié)果。 6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約n 包含包含d個屬性的集合共有個屬性的集合共有2d個不同子集，從初始屬性個不同子集，從初始屬性集中發(fā)現(xiàn)較好的屬性子集的過程就是一個最優(yōu)窮盡搜索集中發(fā)現(xiàn)較好的屬性子集的過程就是一個最優(yōu)窮盡搜索的過程，顯然隨著的過程，顯然隨著d不斷增加，搜索的可能將會增加到難不斷增加，搜索的可能將會增加到難以實現(xiàn)的地步。因此一般利用啟發(fā)知

44、識來幫助有效縮小以實現(xiàn)的地步。因此一般利用啟發(fā)知識來幫助有效縮小搜索空間。這類啟發(fā)式搜索通常都是基于可能獲得全局搜索空間。這類啟發(fā)式搜索通常都是基于可能獲得全局最優(yōu)的局部最優(yōu)來指導并幫助獲得相應(yīng)的屬性子集。最優(yōu)的局部最優(yōu)來指導并幫助獲得相應(yīng)的屬性子集。n 構(gòu)造屬性子集的基本啟發(fā)式方法有以下幾種：逐步構(gòu)造屬性子集的基本啟發(fā)式方法有以下幾種：逐步向前選擇、逐步向后刪除、向前選擇和向后刪除結(jié)合、向前選擇、逐步向后刪除、向前選擇和向后刪除結(jié)合、決策樹歸納。決策樹歸納。6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約n （1）逐步向前選擇。從一個空屬性集（作為屬性子）逐步向前選擇。從一個空屬性集（作為屬性

45、子集初始值）開始，每次從原來屬性集合中選擇一個當前集初始值）開始，每次從原來屬性集合中選擇一個當前最優(yōu)的屬性添加到當前屬性子集中。直到無法選擇出最最優(yōu)的屬性添加到當前屬性子集中。直到無法選擇出最優(yōu)屬性或滿足一定閾值約束為止。優(yōu)屬性或滿足一定閾值約束為止。（2）逐步向后刪除。從一個全屬性集（作為屬性子）逐步向后刪除。從一個全屬性集（作為屬性子集初始值）開始，每次從當前屬性子集中選擇一個當前集初始值）開始，每次從當前屬性子集中選擇一個當前最差的屬性并將其從當前屬性子集中消去。直到無法選最差的屬性并將其從當前屬性子集中消去。直到無法選擇出最差屬性為止或滿足一定閾值約束為止。擇出最差屬性為止或滿足一

46、定閾值約束為止。6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約n （3）向前選擇和向后刪除相結(jié)合。將逐步向前選擇）向前選擇和向后刪除相結(jié)合。將逐步向前選擇方法與逐步向后刪除結(jié)合在一起，每次從當前屬性子集方法與逐步向后刪除結(jié)合在一起，每次從當前屬性子集中選擇一個當前最差的屬性并將其從當前屬性子集中消中選擇一個當前最差的屬性并將其從當前屬性子集中消去，以及從原來屬性集合中選擇一個當前最優(yōu)的屬性添去，以及從原來屬性集合中選擇一個當前最優(yōu)的屬性添加到當前屬性子集中。直到無法選擇出最優(yōu)屬性且無法加到當前屬性子集中。直到無法選擇出最優(yōu)屬性且無法選擇出最差屬性為止，或滿足一定閾值約束為止。選擇出最差屬性為止

47、，或滿足一定閾值約束為止。6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約n （4）決策樹歸納方法。通常用于分類的決策樹算）決策樹歸納方法。通常用于分類的決策樹算法也可以用于構(gòu)造屬性子集。具體方法就是：利用決策法也可以用于構(gòu)造屬性子集。具體方法就是：利用決策樹的歸納方法對初始數(shù)據(jù)進行分類歸納學習，獲得一個樹的歸納方法對初始數(shù)據(jù)進行分類歸納學習，獲得一個初始決策樹，所有沒有出現(xiàn)這個決策樹上的屬性均認為初始決策樹，所有沒有出現(xiàn)這個決策樹上的屬性均認為是無關(guān)屬性，因此將這些屬性從初始屬性集合刪除掉，是無關(guān)屬性，因此將這些屬性從初始屬性集合刪除掉，就可以獲得一個較優(yōu)的屬性子集。就可以獲得一個較優(yōu)的屬性子

48、集。6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約6.5數(shù)據(jù)歸約6.5.26.5.2維歸約維歸約n 數(shù)據(jù)壓縮就是利用數(shù)據(jù)編碼或數(shù)據(jù)轉(zhuǎn)換將原來的數(shù)據(jù)數(shù)據(jù)壓縮就是利用數(shù)據(jù)編碼或數(shù)據(jù)轉(zhuǎn)換將原來的數(shù)據(jù)集合壓縮為一個較小規(guī)模的數(shù)據(jù)集合。若僅根據(jù)壓縮后的集合壓縮為一個較小規(guī)模的數(shù)據(jù)集合。若僅根據(jù)壓縮后的數(shù)據(jù)集就可以恢復原來的數(shù)據(jù)集，那么就認為這一壓縮是數(shù)據(jù)集就可以恢復原來的數(shù)據(jù)集，那么就認為這一壓縮是無損的，如基于熵的編碼方法；否則就稱為有損的。在數(shù)無損的，如基于熵的編碼方法；否則就稱為有損的。在數(shù)據(jù)挖掘領(lǐng)域通常使用的三種數(shù)據(jù)壓縮方法均是有損的，分據(jù)挖掘領(lǐng)域通常使用的三種數(shù)據(jù)壓縮方法均是有損的，分別是小波

49、轉(zhuǎn)換、分形技術(shù)和主成分分析。別是小波轉(zhuǎn)換、分形技術(shù)和主成分分析。6.5數(shù)據(jù)歸約6.5.36.5.3數(shù)據(jù)壓縮數(shù)據(jù)壓縮n 主成分分析法具有變差最優(yōu)性、信息損失最小性、主成分分析法具有變差最優(yōu)性、信息損失最小性、相關(guān)最優(yōu)性和回歸最優(yōu)性，是數(shù)據(jù)壓縮和多元降維的重相關(guān)最優(yōu)性和回歸最優(yōu)性，是數(shù)據(jù)壓縮和多元降維的重要工具。利用主成分分析法可以把多個相關(guān)的變量（指要工具。利用主成分分析法可以把多個相關(guān)的變量（指標）變換成少數(shù)幾個互相無關(guān)的綜合變量（主成分），標）變換成少數(shù)幾個互相無關(guān)的綜合變量（主成分），這些綜合變量中包含了原來所有變量的大部分信息，且這些綜合變量中包含了原來所有變量的大部分信息，且每個綜合變

50、量只反映了經(jīng)濟系統(tǒng)一個獨立方向上的信息。每個綜合變量只反映了經(jīng)濟系統(tǒng)一個獨立方向上的信息。 6.5數(shù)據(jù)歸約6.5.36.5.3數(shù)據(jù)壓縮數(shù)據(jù)壓縮n 數(shù)值或數(shù)據(jù)塊歸約是指通過選擇替代的、較小的數(shù)數(shù)值或數(shù)據(jù)塊歸約是指通過選擇替代的、較小的數(shù)據(jù)表示形式減少數(shù)量，主要包含參數(shù)與非參數(shù)兩種基本據(jù)表示形式減少數(shù)量，主要包含參數(shù)與非參數(shù)兩種基本方法。所謂參數(shù)方法就是利用一個模型來幫助通過計算方法。所謂參數(shù)方法就是利用一個模型來幫助通過計算獲得原來的數(shù)據(jù)，因此只需要存儲模型的參數(shù)即可（當獲得原來的數(shù)據(jù)，因此只需要存儲模型的參數(shù)即可（當然異常數(shù)據(jù)也需要存儲）。例如：線性和非線性回歸模然異常數(shù)據(jù)也需要存儲）。例如：

51、線性和非線性回歸模型就可以根據(jù)一組變量預(yù)測計算另一個變量。而非參數(shù)型就可以根據(jù)一組變量預(yù)測計算另一個變量。而非參數(shù)方法則是存儲利用直方圖、聚類或取樣而獲得的消減后方法則是存儲利用直方圖、聚類或取樣而獲得的消減后數(shù)據(jù)集。數(shù)據(jù)集。6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n（1）直方圖）直方圖n 直方圖使用分箱近似數(shù)據(jù)分布，是一種流行的數(shù)據(jù)直方圖使用分箱近似數(shù)據(jù)分布，是一種流行的數(shù)據(jù)歸約形式。屬性歸約形式。屬性A的直方圖將的直方圖將A的數(shù)據(jù)分布劃分為不相的數(shù)據(jù)分布劃分為不相交的子集交的子集(buckets)，或桶。桶安放在水平軸上，而桶的，或桶。桶安放在水平軸上，而桶的高度（和面積）是該桶

52、所代表的值的平均頻率。如果每高度（和面積）是該桶所代表的值的平均頻率。如果每個桶只代表單個屬性值個桶只代表單個屬性值/頻率對，則該桶稱為單桶。通頻率對，則該桶稱為單桶。通常，桶表示給定屬性的一個連續(xù)區(qū)間。常，桶表示給定屬性的一個連續(xù)區(qū)間。6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n例例4 下面的數(shù)據(jù)是下面的數(shù)據(jù)是AllElectronics 通常銷售的商品的單價表通常銷售的商品的單價表（按（按$取整）。已對數(shù)據(jù)進行了排序：取整）。已對數(shù)據(jù)進行了排序：1（2）、）、5（5）、）、8（2）、）、10（4）、）、12、14（3）、）、15（5）、）、18（8）、）、20（7）、）、21（4）

53、、）、25（5）、）、28、30（3）6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n等寬：在等寬的直方圖中，每個桶的寬度區(qū)間是一個常數(shù)。等寬：在等寬的直方圖中，每個桶的寬度區(qū)間是一個常數(shù)。n等深（或等高）：每個桶的頻率粗略地為常數(shù)。等深（或等高）：每個桶的頻率粗略地為常數(shù)。6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n課堂練習：課堂練習：n 假定用于分析的數(shù)據(jù)包含屬性假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中。數(shù)據(jù)元組中age 的值的值如下（按遞增序）：如下（按遞增序）：13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25,

54、 30, 33, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70。n畫一個長度為畫一個長度為10（按照年齡原本定義，最小值從（按照年齡原本定義，最小值從0開始，開始，一直到數(shù)據(jù)最大值一直到數(shù)據(jù)最大值70）的等寬直方圖。）的等寬直方圖。 6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n（2）聚類聚類n 聚類技術(shù)將數(shù)據(jù)行視為對象。對于聚類分析所獲得聚類技術(shù)將數(shù)據(jù)行視為對象。對于聚類分析所獲得的組或類則有性質(zhì)：同一組或類中的對象彼此相似而不的組或類則有性質(zhì)：同一組或類中的對象彼此相似而不同組或類中的對象彼此不相似。同組或類中的對象彼此不相似。n 在數(shù)

55、據(jù)歸約中，數(shù)據(jù)的聚類表示用于替換原來的數(shù)據(jù)。在數(shù)據(jù)歸約中，數(shù)據(jù)的聚類表示用于替換原來的數(shù)據(jù)。當然這一技術(shù)的有效性依賴于實際數(shù)據(jù)內(nèi)在規(guī)律。在處當然這一技術(shù)的有效性依賴于實際數(shù)據(jù)內(nèi)在規(guī)律。在處理帶有較強噪聲數(shù)據(jù)采用數(shù)據(jù)聚類方法常常是非常有效理帶有較強噪聲數(shù)據(jù)采用數(shù)據(jù)聚類方法常常是非常有效的。的。 6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n（3）數(shù)據(jù)抽樣數(shù)據(jù)抽樣n 數(shù)據(jù)抽樣用數(shù)據(jù)的較小的樣本表示大的數(shù)數(shù)據(jù)抽樣用數(shù)據(jù)的較小的樣本表示大的數(shù)據(jù)集。它主要利用統(tǒng)計學中的抽樣方法，如據(jù)集。它主要利用統(tǒng)計學中的抽樣方法，如不不放回簡單隨機抽樣、放回簡單隨機抽樣、聚類放回簡單隨機抽樣、放回簡單隨機抽樣、

56、聚類抽樣、分層抽樣等。抽樣、分層抽樣等。6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約不放回簡單隨機抽樣：不放回簡單隨機抽樣：由由D 的的N 個元組中不回放抽取個元組中不回放抽取n 個樣本（個樣本（n N）；其中，）；其中， D中任何元組被抽取的概率中任何元組被抽取的概率均為均為1/N。即，所有元組是等可能的。即，所有元組是等可能的。放回簡單隨機抽樣：該方法類似于不放回簡單隨機抽放回簡單隨機抽樣：該方法類似于不放回簡單隨機抽樣，不同在于當一個元組被抽取后，記錄它，然后放回樣，不同在于當一個元組被抽取后，記錄它，然后放回去。這樣，一個元組被抽取后，它又被放回去。這樣，一個元組被抽取后，它

57、又被放回D，以便它，以便它可以再次被抽取。可以再次被抽取。 6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n聚類選樣：如果聚類選樣：如果D 中的元組被分組放入中的元組被分組放入M 個互不相交個互不相交的的“聚類聚類”，則可以得到聚類的，則可以得到聚類的m 個簡單隨機選樣；這個簡單隨機選樣；這里，里，m M。例如，數(shù)據(jù)庫中元組通常一次取一頁，這樣。例如，數(shù)據(jù)庫中元組通常一次取一頁，這樣每頁就可以視為一個聚類。每頁就可以視為一個聚類。 6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n分層選樣：如果分層選樣：如果D 被劃分成互不相交的部分，稱

58、作被劃分成互不相交的部分，稱作“層層”，則通過對每一層的簡單隨機選樣就可以得到，則通過對每一層的簡單隨機選樣就可以得到D 的分層選樣。的分層選樣。6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n（4）離散化和概念分層產(chǎn)生離散化和概念分層產(chǎn)生n 離散化技術(shù)方法可以通過將屬性（連續(xù)取值）域值離散化技術(shù)方法可以通過將屬性（連續(xù)取值）域值范圍分為若干區(qū)間，來幫助消減一個連續(xù)（取值）屬性范圍分為若干區(qū)間，來幫助消減一個連續(xù)（取值）屬性的取值個數(shù)。可以用一個標簽來表示一個區(qū)間內(nèi)的實際的取值個數(shù)?？梢杂靡粋€標簽來表示一個區(qū)間內(nèi)的實際數(shù)據(jù)值，這樣就形成了數(shù)據(jù)集的概念分層。數(shù)據(jù)值，這樣就形成了數(shù)據(jù)集的概念分

59、層。n 如對數(shù)據(jù)集如對數(shù)據(jù)集D遞歸的使用等寬分箱技術(shù)，形成概念分遞歸的使用等寬分箱技術(shù)，形成概念分層。層。6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n1）數(shù)值數(shù)據(jù)的離散化與概念分層）數(shù)值數(shù)據(jù)的離散化與概念分層n 數(shù)值數(shù)據(jù)的概念分層可以通過數(shù)據(jù)分析自動產(chǎn)生，這數(shù)值數(shù)據(jù)的概念分層可以通過數(shù)據(jù)分析自動產(chǎn)生，這些方法包括前面介紹過的分箱、直方圖、聚類等。它們些方法包括前面介紹過的分箱、直方圖、聚類等。它們能夠無干預(yù)的完成對屬性的概念分層，但是這些方法劃能夠無干預(yù)的完成對屬性的概念分層，但是這些方法劃分出來的層并不考慮邊界值是否直觀或自然。分出來

60、的層并不考慮邊界值是否直觀或自然。n 通常，用戶更希望分層具有自然的，易于記憶的、符通常，用戶更希望分層具有自然的，易于記憶的、符合人類思維習慣的邊界。例如人們希望看到合人類思維習慣的邊界。例如人們希望看到20-30、30-40，而不愿意看到，而不愿意看到23.333-36.97之類的分層。之類的分層。 6.5數(shù)據(jù)歸約6.5.46.5.4數(shù)值歸約數(shù)值歸約n 介紹一種通過自然劃分分段的方法進行概念分層的過程。介紹一種通過自然劃分分段的方法進行概念分層的過程。該方法應(yīng)用該方法應(yīng)用3-4-5規(guī)則，遞歸地將給定數(shù)據(jù)區(qū)域劃分為規(guī)則，遞歸地將給定數(shù)據(jù)區(qū)域劃分為3、4、或、或5個等寬的區(qū)間，具體描述如下：個

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第6章-數(shù)據(jù)預(yù)處理

文檔簡介

溫馨提示

最新文檔

評論

第6章-數(shù)據(jù)預(yù)處理

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔