數(shù)據(jù)清洗與數(shù)據(jù)預(yù)處理

上傳人：石*** IP屬地：廣東上傳時(shí)間：2023-02-25 格式：PPT 頁(yè)數(shù)：64 大?。?.97MB 積分：18 舉報(bào) 版權(quán)申訴

數(shù)據(jù)清洗與數(shù)據(jù)預(yù)處理_第2頁(yè)

數(shù)據(jù)清洗與數(shù)據(jù)預(yù)處理_第3頁(yè)

數(shù)據(jù)清洗與數(shù)據(jù)預(yù)處理_第4頁(yè)

數(shù)據(jù)清洗與數(shù)據(jù)預(yù)處理_第5頁(yè)

已閱讀5頁(yè)，還剩59頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)清洗與數(shù)據(jù)預(yù)處理第一頁(yè)，共六十四頁(yè)，2022年，8月28日教學(xué)目標(biāo)認(rèn)識(shí)數(shù)據(jù)挖掘前數(shù)據(jù)進(jìn)行適當(dāng)處理的必要性掌握常用數(shù)據(jù)預(yù)處理的方法。第二頁(yè)，共六十四頁(yè)，2022年，8月28日教學(xué)要求知識(shí)要點(diǎn)能力要求相關(guān)知識(shí)點(diǎn)數(shù)據(jù)預(yù)處理的原因(1)了解原始數(shù)據(jù)存在的主要問(wèn)題(2)明白數(shù)據(jù)預(yù)處理的作用和工作任務(wù)(1)數(shù)據(jù)的一致性問(wèn)題(2)數(shù)據(jù)的噪聲問(wèn)題(3)原始數(shù)據(jù)的不完整和高維度問(wèn)題數(shù)據(jù)預(yù)處理的方法(1)掌握數(shù)據(jù)清洗的主要任務(wù)與常用方法(2)掌握數(shù)據(jù)集成的主要內(nèi)容和常用方法(3)掌握數(shù)據(jù)變換的主要內(nèi)容和常用方法(4)掌握數(shù)據(jù)歸約的主要內(nèi)容和常用方法(1)數(shù)據(jù)清洗(2)數(shù)據(jù)集成(3)數(shù)據(jù)變換(4)數(shù)據(jù)歸約第三頁(yè)，共六十四頁(yè)，2022年，8月28日為什么要預(yù)處理數(shù)據(jù)？現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”不完整的含噪聲的不一致的沒(méi)有高質(zhì)量的數(shù)據(jù)，就沒(méi)有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須依賴(lài)高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)需要對(duì)高質(zhì)量的數(shù)據(jù)進(jìn)行一致地集成第四頁(yè)，共六十四頁(yè)，2022年，8月28日原始數(shù)據(jù)中存在的問(wèn)題1.不一致——數(shù)據(jù)內(nèi)涵出現(xiàn)不一致情況2.重復(fù)3.不完整——感興趣的屬性沒(méi)有值4.含噪聲——數(shù)據(jù)中存在著錯(cuò)誤、或異常（偏離期望值）的數(shù)據(jù)5.高維度

第五頁(yè)，共六十四頁(yè)，2022年，8月28日

數(shù)據(jù)預(yù)處理的方法1.數(shù)據(jù)清洗去掉噪聲和無(wú)關(guān)數(shù)據(jù)2.數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中3.數(shù)據(jù)變換把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式4.數(shù)據(jù)歸約主要方法包括：數(shù)據(jù)立方體聚集，維歸約，數(shù)據(jù)壓縮，數(shù)值歸約，離散化和概念分層等

第六頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)清洗數(shù)據(jù)選取參考原則：1.盡可能賦予屬性名和屬性值明確的含義2.統(tǒng)一多數(shù)據(jù)源的屬性值編碼3.去除惟一屬性4.去除重復(fù)屬性5.去除可忽略字段6.合理選擇關(guān)聯(lián)字段進(jìn)一步處理：通過(guò)填補(bǔ)遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù)，以及糾正不一致的數(shù)據(jù),去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)

第七頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)清洗——處理空缺值數(shù)據(jù)并不總是完整的在分析一個(gè)商場(chǎng)銷(xiāo)售數(shù)據(jù)時(shí)，發(fā)現(xiàn)有多個(gè)記錄中的屬性值為空，如：顧客的收入屬性對(duì)于為空的屬性值引起空缺值的原因設(shè)備異常與其他已有數(shù)據(jù)不一致而被刪除因?yàn)檎`解而沒(méi)有被輸入的數(shù)據(jù)在輸入時(shí)，有些數(shù)據(jù)應(yīng)為得不到重視而沒(méi)有被輸入對(duì)數(shù)據(jù)的改變沒(méi)有進(jìn)行日志記載第八頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)清洗——處理空缺值空缺值要經(jīng)過(guò)推斷而補(bǔ)上1.忽略該記錄2.去掉屬性3.手工填寫(xiě)空缺值4.使用默認(rèn)值5.使用屬性平均值6.使用同類(lèi)樣本平均值7.預(yù)測(cè)最可能的值第九頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)清洗——噪聲數(shù)據(jù)的處理噪聲：在測(cè)量一個(gè)變量時(shí)可能出現(xiàn)的測(cè)量值相對(duì)于真實(shí)值的偏差或者錯(cuò)誤。第十頁(yè)，共六十四頁(yè)，2022年，8月28日噪聲數(shù)據(jù)的處理——分箱分箱：把待處理的數(shù)據(jù)按照一定的規(guī)則放進(jìn)一些箱子中，考察每一個(gè)箱子中的數(shù)據(jù)，采用某種方法分別對(duì)各個(gè)箱子中的數(shù)據(jù)進(jìn)行處理。箱子：按照屬性值劃分的子區(qū)間，如果一個(gè)屬性值處于某個(gè)子區(qū)間范圍內(nèi)，就稱(chēng)把該屬性值放進(jìn)這個(gè)子區(qū)間代表的“箱子”里。分箱技術(shù)需要確定的主要問(wèn)題：分箱方法，即如何分箱數(shù)據(jù)平滑方法，即如何對(duì)每個(gè)箱子中的數(shù)據(jù)進(jìn)行平滑處理第十一頁(yè)，共六十四頁(yè)，2022年，8月28日噪聲數(shù)據(jù)的處理——分箱分箱的方法：分箱前對(duì)記錄集按目標(biāo)屬性值的大小進(jìn)行排序。等深分箱法等寬分箱法用戶(hù)自定義區(qū)間最小熵例：客戶(hù)收入屬性income排序后的值（人民幣元）：800100012001500150018002000230025002800300035004000450048005000第十二頁(yè)，共六十四頁(yè)，2022年，8月28日噪聲數(shù)據(jù)的處理——分箱等深分箱法（統(tǒng)一權(quán)重）按記錄行數(shù)分箱，每箱具有相同的記錄數(shù)，每箱記錄數(shù)稱(chēng)為箱的權(quán)重，也稱(chēng)箱子的深度。設(shè)定權(quán)重（箱子深度）為4，上述例子分箱后的結(jié)果如下。

箱1：800100012001500

箱2：1500180020002300

箱3：2500280030003500

箱4：4000450048005000第十三頁(yè)，共六十四頁(yè)，2022年，8月28日噪聲數(shù)據(jù)的處理——分箱等寬分箱法（統(tǒng)一區(qū)間）在整個(gè)屬性值的區(qū)間上平均分布，即每個(gè)箱的區(qū)間范圍是一個(gè)常量，稱(chēng)為箱子寬度。設(shè)定區(qū)間范圍（箱子寬度）為1000元人民幣，分箱后

箱1：80010001200150015001800

箱2：20002300250028003000

箱3：350040004500

箱4：48005000第十四頁(yè)，共六十四頁(yè)，2022年，8月28日噪聲數(shù)據(jù)的處理——分箱最小熵使在各區(qū)間分組內(nèi)的記錄具有最小的熵。信息是信號(hào)、符號(hào)或消息所表示的內(nèi)容，用以消除對(duì)客觀事物認(rèn)識(shí)的不確定性信息量的直觀定義：信息量的大小取決于信息內(nèi)容消除人們認(rèn)識(shí)的“不確定程度”，所消除的不確定程度越大，則所包含的信息量就越大。

第十五頁(yè)，共六十四頁(yè)，2022年，8月28日熵——信息的度量（利用概率來(lái)度量）A到1000人的學(xué)校去找B。傳達(dá)室人告訴他，“B是信息管理系”，而管理系有100人。他獲得的信息是100/1000＝0.1，也就是將可能性空間縮小到原來(lái)的1/10.用概率來(lái)表示：－log(1/10)=log10又有人告訴他：B在信息管理與信息系統(tǒng)教研室（10人），則第2個(gè)信息的確定性又縮小到原來(lái)的100/1000*10/100=10/1000，其信息量為

-log100/1000+(-log10/1000)=-log10/1000=log100只要可能性范圍縮小了，獲得的信息量總是正的。如果為0，獲得的信息為○。如果為負(fù)，反而擴(kuò)大了其可能性范圍。第十六頁(yè)，共六十四頁(yè)，2022年，8月28日熵——信息的度量信息量大小的單位用比特來(lái)衡量。1比特的信息量是指含有兩個(gè)獨(dú)立均等概率狀態(tài)的事件所具有的不確定性能被全部消除所需要的信息。信息量：

H(x)=-∑P(Xi)log2P(Xi)i=1,2,3,…,n

其中Xi表示第i個(gè)狀態(tài)(共n個(gè)狀態(tài))；

P(Xi)代表出現(xiàn)第i個(gè)狀態(tài)時(shí)的概率；

H(x)為消除不確定性所需的信息量，單位為比特(bit)。例如:幣下落可能有正反兩種狀態(tài)，出現(xiàn)這兩種狀態(tài)的概率都是1/2，即：則，H(x)=-[P(X1)log2P(X1)+P(X2)log2P(X2)]=-(-0.5-0.5)=1比特。同理可得，投擲均勻正六面體骰子的H(X)＝2.6比特。第十七頁(yè)，共六十四頁(yè)，2022年，8月28日例子硬幣下落：硬幣下落可能有正反兩種狀態(tài)，出現(xiàn)這兩種狀態(tài)的概率都是1/2。如果需要消除其不確定性，則就需要信息量：H(x)=-[P(X1)log2P(X1)+P(X2)log2P(X2)]

=-(-0.5-0.5)=1比特為1比特的信息。例2:張三到4000人的企業(yè)去找李四。當(dāng)企業(yè)人事部門(mén)告訴張三：“李四是第四車(chē)間的”，而第四車(chē)間有1000人，如果第四車(chē)間的人告訴張三，李四在第三班，第三班共有125位員工，計(jì)算張三所獲得的信息量？第十八頁(yè)，共六十四頁(yè)，2022年，8月28日噪聲數(shù)據(jù)的處理——分箱用戶(hù)自定義區(qū)間

用戶(hù)根據(jù)需要自定義區(qū)間。用戶(hù)自定義：如將客戶(hù)收入劃分為1000元以下、1000~2000、2000~3000、3000~4000和4000元以上幾組，分箱后

箱1：800

箱2：100012001500150018002000

箱3：2300250028003000

箱4：35004000

箱5：450048005000第十九頁(yè)，共六十四頁(yè)，2022年，8月28日噪聲數(shù)據(jù)的處理——平滑處理分箱后對(duì)數(shù)據(jù)進(jìn)行平滑處理3種進(jìn)行數(shù)據(jù)平滑方法：①按平均值平滑對(duì)同一箱值中的數(shù)據(jù)求平均值，用平均值替代該箱子中的所有數(shù)據(jù)。②按邊界值平滑用距離較小的邊界值替代箱中每一數(shù)據(jù)。③按中值平滑

取箱子的中值，用來(lái)替代箱子中的所有數(shù)據(jù)。

第二十頁(yè)，共六十四頁(yè)，2022年，8月28日噪聲數(shù)據(jù)的處理——聚類(lèi)簇：一組數(shù)據(jù)對(duì)象集合。同一簇內(nèi)的所有對(duì)象具有相似性，不同簇間對(duì)象具有較大差異性。聚類(lèi)：將物理的或抽象對(duì)象的集合分組為由不同簇，找出并清除那些落在簇之外的值（孤立點(diǎn)），這些孤立點(diǎn)被視為噪聲。通過(guò)聚類(lèi)分析發(fā)現(xiàn)異常數(shù)據(jù)：相似或相鄰近的數(shù)據(jù)聚合在一起形成了各個(gè)聚類(lèi)集合，而那些位于這些聚類(lèi)集合之外的數(shù)據(jù)對(duì)象，自然而然就被認(rèn)為是異常數(shù)據(jù)。特點(diǎn)：直接形成簇并對(duì)簇進(jìn)行描述，不需要任何先驗(yàn)知識(shí)。第二十一頁(yè)，共六十四頁(yè)，2022年，8月28日噪聲數(shù)據(jù)的處理——聚類(lèi)第二十二頁(yè)，共六十四頁(yè)，2022年，8月28日噪聲數(shù)據(jù)的處理——回歸回歸：發(fā)現(xiàn)兩個(gè)相關(guān)的變量之間的變化模式，通過(guò)使數(shù)據(jù)適合一個(gè)函數(shù)來(lái)平滑數(shù)據(jù)，即利用擬合函數(shù)對(duì)數(shù)據(jù)進(jìn)行平滑。方法：線性回歸（簡(jiǎn)單回歸）：利用直線建模，將一個(gè)變量看作另一個(gè)變量的線性函數(shù)。

如：Y=aX+b，其中a、b稱(chēng)為回歸系數(shù)，可用最小二乘法求得a、b系數(shù)。非線性回歸

第二十三頁(yè)，共六十四頁(yè)，2022年，8月28日噪聲數(shù)據(jù)的處理——回歸xyy=x+1X1Y2Y1’第二十四頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)集成數(shù)據(jù)集成：將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)整合到一個(gè)一致的存儲(chǔ)中1.模式匹配2.數(shù)據(jù)冗余3.數(shù)據(jù)值沖突第二十五頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)集成——模式匹配整合不同數(shù)據(jù)源中的元數(shù)據(jù)。實(shí)體識(shí)別問(wèn)題：匹配來(lái)自不同數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體，比如：A.cust-id=B.customer_no

。第二十六頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)集成——數(shù)據(jù)冗余同一屬性在不同的數(shù)據(jù)庫(kù)中會(huì)有不同的字段名。一個(gè)屬性可以由另外一個(gè)表導(dǎo)出。如：一個(gè)顧客數(shù)據(jù)表中的平均月收入屬性，它可以根據(jù)月收入屬性計(jì)算出來(lái)。有些冗余可以被相關(guān)分析檢測(cè)到第二十七頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)集成——數(shù)據(jù)值沖突對(duì)于一個(gè)現(xiàn)實(shí)世界實(shí)體，其來(lái)自不同數(shù)據(jù)源的屬性值或許不同。產(chǎn)生的原因：表示的差異、比例尺度不同、或編碼的差異等。例如：重量屬性在一個(gè)系統(tǒng)中采用公制，而在另一個(gè)系統(tǒng)中卻采用英制。同樣價(jià)格屬性不同地點(diǎn)采用不同貨幣單位。第二十八頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)變換——平滑去除噪聲，將連續(xù)的數(shù)據(jù)離散化，增加粒度分箱聚類(lèi)回歸第二十九頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)變換——聚集對(duì)數(shù)據(jù)進(jìn)行匯總avg(),count(),sum(),min(),max()…例如：每天銷(xiāo)售額（數(shù)據(jù)）可以進(jìn)行合計(jì)操作以獲得每月或每年的總額?？梢杂脕?lái)構(gòu)造數(shù)據(jù)立方體第三十頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)變換——數(shù)據(jù)概化用更抽象（更高層次）的概念來(lái)取代低層次或數(shù)據(jù)層的數(shù)據(jù)對(duì)象例如：街道屬性，就可以泛化到更高層次的概念，諸如：城市、國(guó)家。同樣對(duì)于數(shù)值型的屬性，如年齡屬性，就可以映射到更高層次概念，如：年輕、中年和老年。第三十一頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)變換——規(guī)范化將數(shù)據(jù)按比例進(jìn)行縮放，使之落入一個(gè)特定的區(qū)域，以消除數(shù)值型屬性因大小不一而造成挖掘結(jié)果的偏差。如將工資收入屬性值映射到[-1.0,1.0]范圍內(nèi)。方法：（1）最小-最大規(guī)范化（2）零-均值規(guī)范化（z-score規(guī)范化）（3）小數(shù)定標(biāo)規(guī)范化第三十二頁(yè)，共六十四頁(yè)，2022年，8月28日最小-最大規(guī)范化已知屬性的取值范圍，將原取值區(qū)間[old_min,old_max]映射到new_min,new_max]保留了原來(lái)數(shù)據(jù)中存在的關(guān)系。但若將來(lái)遇到超過(guò)目前屬性[old_min,old_max]取值范圍的數(shù)值，將會(huì)引起系統(tǒng)出錯(cuò)第三十三頁(yè)，共六十四頁(yè)，2022年，8月28日最小-最大規(guī)范化第三十四頁(yè)，共六十四頁(yè)，2022年，8月28日零-均值規(guī)范化（z-score規(guī)范化）根據(jù)屬性A的均值和偏差來(lái)對(duì)A進(jìn)行規(guī)格化,常用于屬性最大值與最小值未知；或使用最大最小規(guī)格化方法時(shí)會(huì)出現(xiàn)異常數(shù)據(jù)的情況。第三十五頁(yè)，共六十四頁(yè)，2022年，8月28日零-均值規(guī)范化（z-score規(guī)范化）第三十六頁(yè)，共六十四頁(yè)，2022年，8月28日小數(shù)定標(biāo)規(guī)范化通過(guò)移動(dòng)屬性A值的小數(shù)位置，將屬性A的值映射到[0，1]之間，用小數(shù)的科學(xué)表示法來(lái)達(dá)到規(guī)格化的目的。移動(dòng)的小數(shù)位數(shù)取決于屬性A絕對(duì)值的最大值。第三十七頁(yè)，共六十四頁(yè)，2022年，8月28日小數(shù)定標(biāo)規(guī)范化第三十八頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)變換——屬性構(gòu)造利用已有屬性集構(gòu)造出新的屬性，并加入到現(xiàn)有屬性集合中以幫助挖掘更深層次的模式知識(shí)，提高挖掘結(jié)果準(zhǔn)確性。例如：根據(jù)寬、高屬性，可以構(gòu)造一個(gè)新屬性：面積。第三十九頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)歸約（數(shù)據(jù)消減）

對(duì)大規(guī)模數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行復(fù)雜的數(shù)據(jù)分析通常需要耗費(fèi)大量的時(shí)間。數(shù)據(jù)歸約（消減）技術(shù)用于幫助從原有龐大數(shù)據(jù)集中獲得一個(gè)精簡(jiǎn)的數(shù)據(jù)集合，并使這一精簡(jiǎn)數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性，這樣在精簡(jiǎn)數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘顯然效率更高，并且挖掘出來(lái)的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。第四十頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)歸約標(biāo)準(zhǔn)用于數(shù)據(jù)歸約的時(shí)間不應(yīng)當(dāng)超過(guò)或“抵消”在歸約后的數(shù)據(jù)上挖掘節(jié)省的時(shí)間歸約得到的數(shù)據(jù)比原數(shù)據(jù)小得多，但可以產(chǎn)生相同或幾乎相同的分析結(jié)果第四十一頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)歸約的方法1.數(shù)據(jù)立方體聚集：2.維歸約3.數(shù)據(jù)壓縮4.數(shù)值歸約5.離散化和概念分層生成第四十二頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)歸約——數(shù)據(jù)立方體聚集數(shù)據(jù)立方體基本概念：數(shù)據(jù)立方體是數(shù)據(jù)的多維建模和表示，由維和事實(shí)組成。維——屬性事實(shí)——數(shù)據(jù)數(shù)據(jù)立方體聚集定義——將n維數(shù)據(jù)立方體聚集為n-1維的數(shù)據(jù)立方體。第四十三頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)歸約——數(shù)據(jù)立方體聚集第四十四頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)歸約——數(shù)據(jù)立方體聚集聚集后的銷(xiāo)售數(shù)據(jù)立方體

第四十五頁(yè)，共六十四頁(yè)，2022年，8月28日下圖數(shù)據(jù)是某商場(chǎng)2000～2002年每季度的銷(xiāo)售數(shù)據(jù)，對(duì)這種數(shù)據(jù)進(jìn)行聚集，使結(jié)果數(shù)據(jù)匯總每年的總銷(xiāo)售額，而不是每季度的總銷(xiāo)售額。聚集后數(shù)據(jù)量明顯減少，

但沒(méi)有丟失分析任務(wù)所需的信息。對(duì)年度內(nèi)的

各季度數(shù)據(jù)進(jìn)行

sum（求和）聚集數(shù)據(jù)歸約——數(shù)據(jù)立方體聚集第四十六頁(yè)，共六十四頁(yè)，2022年，8月28日下圖所示數(shù)據(jù)立方體用于某銷(xiāo)售企業(yè)每類(lèi)商品在各分公司年銷(xiāo)售多維數(shù)據(jù)分析。每個(gè)單元存放一個(gè)聚集值，對(duì)應(yīng)于多維空間的一個(gè)數(shù)據(jù)點(diǎn)。每個(gè)屬性可能存在概念分層，允許在多個(gè)抽象層進(jìn)行數(shù)據(jù)分析。

2001年

568

750

150

四川河南湖北上海分公司

辦公用品

電話

計(jì)算機(jī)

打印機(jī)

2000年

2002年

商

品

類(lèi)

型分公司西南華中華東四川河南湖北上海數(shù)據(jù)歸約——數(shù)據(jù)立方體聚集第四十七頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)歸約——維歸約維歸約——去掉無(wú)關(guān)的屬性，減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量。例如：挖掘顧客是否會(huì)在商場(chǎng)購(gòu)買(mǎi)Mp3播放機(jī)的分類(lèi)規(guī)則時(shí)，顧客的電話號(hào)碼很可能與挖掘任務(wù)無(wú)關(guān)，應(yīng)該可以去掉。目標(biāo)：尋找出最小的屬性子集并確保新數(shù)據(jù)子集的概率分布盡可能接近原來(lái)數(shù)據(jù)集的概率分布。第四十八頁(yè)，共六十四頁(yè)，2022年，8月28日維歸約——選擇相關(guān)屬性子集1.逐步向前選擇從一個(gè)空屬性集（作為屬性子集初始值）開(kāi)始，每次從原來(lái)屬性集合中選擇一個(gè)當(dāng)前最優(yōu)的屬性添加到當(dāng)前屬性子集中。直到無(wú)法選擇出最優(yōu)屬性或滿(mǎn)足一定閾值約束為止。2.逐步向后刪除

從一個(gè)全屬性集（作為屬性子集初始值）開(kāi)始，每次從當(dāng)前屬性子集中選擇一個(gè)當(dāng)前最差的屬性并將其從當(dāng)前屬性子集中消去。直到無(wú)法選擇出最差屬性為止或滿(mǎn)足一定閾值約束為止。3.向前選擇和向后刪除結(jié)合4.判定樹(shù)（決策樹(shù)）歸納利用決策樹(shù)的歸納方法對(duì)初始數(shù)據(jù)進(jìn)行分類(lèi)歸納學(xué)習(xí)，獲得一個(gè)初始決策樹(shù)，所有沒(méi)有出現(xiàn)這個(gè)決策樹(shù)上的屬性均認(rèn)為是無(wú)關(guān)屬性，因此將這些屬性從初始屬性集合刪除掉，就可以獲得一個(gè)較優(yōu)的屬性子集。5.基于統(tǒng)計(jì)分析的歸約

第四十九頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)歸約——數(shù)據(jù)壓縮數(shù)據(jù)壓縮——用數(shù)據(jù)編碼或者變換，得到原始數(shù)據(jù)的壓縮表示。在數(shù)據(jù)挖掘領(lǐng)域通常使用的兩種數(shù)據(jù)壓縮方法均是有損的：主成分分析法（PCA）

假定待壓縮的數(shù)據(jù)由N個(gè)取自k個(gè)維的元組或數(shù)據(jù)向量組成。主要成分分析并搜索得到c個(gè)最能代表數(shù)據(jù)的k維正交向量，這里

c≤k。這樣就可以把原數(shù)據(jù)投影到一個(gè)較小的空間，實(shí)現(xiàn)數(shù)據(jù)壓縮小波轉(zhuǎn)換第五十頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)歸約——數(shù)據(jù)壓縮壓縮算法分類(lèi)：無(wú)損(loseless)壓縮：可以不丟失任何信息地還原壓縮數(shù)據(jù)。例如：字符串壓縮有廣泛的理論基礎(chǔ)和精妙的算法有損(lossy)壓縮：只能重新構(gòu)造原數(shù)據(jù)的近似表示。例如：音頻/視頻壓縮有時(shí)可以在不解壓整體數(shù)據(jù)的情況下，重構(gòu)某個(gè)片斷第五十一頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)據(jù)歸約——數(shù)值歸約數(shù)值歸約——用較小的數(shù)據(jù)表示數(shù)據(jù)，或采用較短的數(shù)據(jù)單位，或者用數(shù)據(jù)模型代表數(shù)據(jù)，減少數(shù)據(jù)量。常用的方法直方圖用聚類(lèi)數(shù)據(jù)表示實(shí)際數(shù)據(jù)抽樣（采樣）4.參數(shù)回歸法第五十二頁(yè)，共六十四頁(yè)，2022年，8月28日利用分箱方法對(duì)數(shù)據(jù)分布情況進(jìn)行近似數(shù)值歸約——直方圖（“頻率－值”對(duì)應(yīng)關(guān)系圖）第五十三頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)值歸約——用聚類(lèi)數(shù)據(jù)表示實(shí)際數(shù)據(jù)第五十四頁(yè)，共六十四頁(yè)，2022年，8月28日優(yōu)點(diǎn)：獲取樣本的時(shí)間僅與樣本規(guī)模成正比方法：不放回簡(jiǎn)單隨機(jī)抽樣放回簡(jiǎn)單隨機(jī)抽樣聚類(lèi)抽樣：先聚類(lèi)，再抽樣分層抽樣：先分層，再抽樣數(shù)值歸約——抽樣（采樣）第五十五頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)值歸約——參數(shù)回歸法

通常采用一個(gè)模型來(lái)評(píng)估數(shù)據(jù)，該方法只需要存放參數(shù)，而不是實(shí)際數(shù)據(jù)。能大大簡(jiǎn)少數(shù)據(jù)量，但只對(duì)數(shù)值型數(shù)據(jù)有效。方法：線性回歸非線性回歸第五十六頁(yè)，共六十四頁(yè)，2022年，8月28日不放回簡(jiǎn)單隨機(jī)抽樣放回簡(jiǎn)單隨機(jī)抽樣聚類(lèi)抽樣分層抽樣第五十七頁(yè)，共六十四頁(yè)，2022年，8月28日

數(shù)據(jù)歸約——離散化與概念分層生成三種類(lèi)型的屬性值：名稱(chēng)型——e.g.無(wú)序集合中的值序數(shù)——e.g.有序集合中的值連續(xù)值——e.g.實(shí)數(shù)離散化技術(shù)以通過(guò)將屬性（連續(xù)取值）域值范圍分為若干區(qū)間，來(lái)幫助消減一個(gè)連續(xù)（取值）屬性的取值個(gè)數(shù)。概念分層概念分層定義了一組由低層概念集到高層概念集的映射。它允許在各種抽象級(jí)別上處理數(shù)據(jù)，從而在多個(gè)抽象層上發(fā)現(xiàn)知識(shí)。用較高層次的概念替換低層次（如年齡的數(shù)值）的概念，以此來(lái)減少取值個(gè)數(shù)。雖然一些細(xì)節(jié)在數(shù)據(jù)泛化過(guò)程中消失了，但這樣所獲得的泛化數(shù)據(jù)或許會(huì)更易于理解、更有意義。在消減后的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘顯然效率更高。概念分層結(jié)構(gòu)可以用樹(shù)來(lái)表示，樹(shù)的每個(gè)節(jié)點(diǎn)代表一個(gè)概念。第五十八頁(yè)，共六十四頁(yè)，2022年，8月28日

數(shù)據(jù)歸約——概念分層生成第五十九頁(yè)，共六十四頁(yè)，2022年，8月28日數(shù)值數(shù)據(jù)的概念分層生成方法a.分箱屬性的值可以通過(guò)將其分配到各分箱中而將其離散化。利用每個(gè)分箱的均值和中數(shù)替換每個(gè)分箱中的值（利用均值或中數(shù)進(jìn)行平滑）。循環(huán)應(yīng)用這些操作處理每次操作結(jié)果，就可以獲得一個(gè)概念層次樹(shù)。b.直方圖循環(huán)應(yīng)用直方圖分析方法處理每次劃分結(jié)果，從而最終自動(dòng)獲得多層次概念樹(shù)，而當(dāng)達(dá)到用戶(hù)指定層次水平后劃分結(jié)束。最小間隔大小也可以幫助控制循環(huán)過(guò)程，其中包括指定一個(gè)劃分的最小

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)清洗與數(shù)據(jù)預(yù)處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)據(jù)清洗與數(shù)據(jù)預(yù)處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔