數(shù)據(jù)清洗與數(shù)據(jù)預處理_第1頁
數(shù)據(jù)清洗與數(shù)據(jù)預處理_第2頁
數(shù)據(jù)清洗與數(shù)據(jù)預處理_第3頁
數(shù)據(jù)清洗與數(shù)據(jù)預處理_第4頁
數(shù)據(jù)清洗與數(shù)據(jù)預處理_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

數(shù)據(jù)清洗與數(shù)據(jù)預處理第一頁,共六十四頁,2022年,8月28日教學目標認識數(shù)據(jù)挖掘前數(shù)據(jù)進行適當處理的必要性掌握常用數(shù)據(jù)預處理的方法。第二頁,共六十四頁,2022年,8月28日教學要求知識要點能力要求相關知識點數(shù)據(jù)預處理的原因(1)了解原始數(shù)據(jù)存在的主要問題(2)明白數(shù)據(jù)預處理的作用和工作任務(1)數(shù)據(jù)的一致性問題(2)數(shù)據(jù)的噪聲問題(3)原始數(shù)據(jù)的不完整和高維度問題數(shù)據(jù)預處理的方法(1)掌握數(shù)據(jù)清洗的主要任務與常用方法(2)掌握數(shù)據(jù)集成的主要內(nèi)容和常用方法(3)掌握數(shù)據(jù)變換的主要內(nèi)容和常用方法(4)掌握數(shù)據(jù)歸約的主要內(nèi)容和常用方法(1)數(shù)據(jù)清洗(2)數(shù)據(jù)集成(3)數(shù)據(jù)變換(4)數(shù)據(jù)歸約第三頁,共六十四頁,2022年,8月28日為什么要預處理數(shù)據(jù)?現(xiàn)實世界的數(shù)據(jù)是“骯臟的”不完整的含噪聲的不一致的沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果高質(zhì)量的決策必須依賴高質(zhì)量的數(shù)據(jù)數(shù)據(jù)倉庫需要對高質(zhì)量的數(shù)據(jù)進行一致地集成第四頁,共六十四頁,2022年,8月28日原始數(shù)據(jù)中存在的問題1.不一致——數(shù)據(jù)內(nèi)涵出現(xiàn)不一致情況2.重復3.不完整——感興趣的屬性沒有值4.含噪聲——數(shù)據(jù)中存在著錯誤、或異常(偏離期望值)的數(shù)據(jù)5.高維度

第五頁,共六十四頁,2022年,8月28日

數(shù)據(jù)預處理的方法1.數(shù)據(jù)清洗去掉噪聲和無關數(shù)據(jù)2.數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中3.數(shù)據(jù)變換把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式4.數(shù)據(jù)歸約主要方法包括:數(shù)據(jù)立方體聚集,維歸約,數(shù)據(jù)壓縮,數(shù)值歸約,離散化和概念分層等

第六頁,共六十四頁,2022年,8月28日數(shù)據(jù)清洗數(shù)據(jù)選取參考原則:1.盡可能賦予屬性名和屬性值明確的含義2.統(tǒng)一多數(shù)據(jù)源的屬性值編碼3.去除惟一屬性4.去除重復屬性5.去除可忽略字段6.合理選擇關聯(lián)字段進一步處理:通過填補遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù),以及糾正不一致的數(shù)據(jù),去掉數(shù)據(jù)中的噪音、填充空值、丟失值和處理不一致數(shù)據(jù)

第七頁,共六十四頁,2022年,8月28日數(shù)據(jù)清洗——處理空缺值數(shù)據(jù)并不總是完整的在分析一個商場銷售數(shù)據(jù)時,發(fā)現(xiàn)有多個記錄中的屬性值為空,如:顧客的收入屬性對于為空的屬性值引起空缺值的原因設備異常與其他已有數(shù)據(jù)不一致而被刪除因為誤解而沒有被輸入的數(shù)據(jù)在輸入時,有些數(shù)據(jù)應為得不到重視而沒有被輸入對數(shù)據(jù)的改變沒有進行日志記載第八頁,共六十四頁,2022年,8月28日數(shù)據(jù)清洗——處理空缺值空缺值要經(jīng)過推斷而補上1.忽略該記錄2.去掉屬性3.手工填寫空缺值4.使用默認值5.使用屬性平均值6.使用同類樣本平均值7.預測最可能的值第九頁,共六十四頁,2022年,8月28日數(shù)據(jù)清洗——噪聲數(shù)據(jù)的處理噪聲:在測量一個變量時可能出現(xiàn)的測量值相對于真實值的偏差或者錯誤。第十頁,共六十四頁,2022年,8月28日噪聲數(shù)據(jù)的處理——分箱分箱:把待處理的數(shù)據(jù)按照一定的規(guī)則放進一些箱子中,考察每一個箱子中的數(shù)據(jù),采用某種方法分別對各個箱子中的數(shù)據(jù)進行處理。箱子:按照屬性值劃分的子區(qū)間,如果一個屬性值處于某個子區(qū)間范圍內(nèi),就稱把該屬性值放進這個子區(qū)間代表的“箱子”里。分箱技術(shù)需要確定的主要問題:分箱方法,即如何分箱數(shù)據(jù)平滑方法,即如何對每個箱子中的數(shù)據(jù)進行平滑處理第十一頁,共六十四頁,2022年,8月28日噪聲數(shù)據(jù)的處理——分箱分箱的方法:分箱前對記錄集按目標屬性值的大小進行排序。等深分箱法等寬分箱法用戶自定義區(qū)間最小熵例:客戶收入屬性income排序后的值(人民幣元):800100012001500150018002000230025002800300035004000450048005000第十二頁,共六十四頁,2022年,8月28日噪聲數(shù)據(jù)的處理——分箱等深分箱法(統(tǒng)一權(quán)重)按記錄行數(shù)分箱,每箱具有相同的記錄數(shù),每箱記錄數(shù)稱為箱的權(quán)重,也稱箱子的深度。設定權(quán)重(箱子深度)為4,上述例子分箱后的結(jié)果如下。

箱1:800100012001500

箱2:1500180020002300

箱3:2500280030003500

箱4:4000450048005000第十三頁,共六十四頁,2022年,8月28日噪聲數(shù)據(jù)的處理——分箱等寬分箱法(統(tǒng)一區(qū)間)在整個屬性值的區(qū)間上平均分布,即每個箱的區(qū)間范圍是一個常量,稱為箱子寬度。設定區(qū)間范圍(箱子寬度)為1000元人民幣,分箱后

箱1:80010001200150015001800

箱2:20002300250028003000

箱3:350040004500

箱4:48005000第十四頁,共六十四頁,2022年,8月28日噪聲數(shù)據(jù)的處理——分箱最小熵使在各區(qū)間分組內(nèi)的記錄具有最小的熵。信息是信號、符號或消息所表示的內(nèi)容,用以消除對客觀事物認識的不確定性信息量的直觀定義:信息量的大小取決于信息內(nèi)容消除人們認識的“不確定程度”,所消除的不確定程度越大,則所包含的信息量就越大。

第十五頁,共六十四頁,2022年,8月28日熵——信息的度量(利用概率來度量)A到1000人的學校去找B。傳達室人告訴他,“B是信息管理系”,而管理系有100人。他獲得的信息是100/1000=0.1,也就是將可能性空間縮小到原來的1/10.用概率來表示:-log(1/10)=log10又有人告訴他:B在信息管理與信息系統(tǒng)教研室(10人),則第2個信息的確定性又縮小到原來的100/1000*10/100=10/1000,其信息量為

-log100/1000+(-log10/1000)=-log10/1000=log100只要可能性范圍縮小了,獲得的信息量總是正的。如果為0,獲得的信息為○。如果為負,反而擴大了其可能性范圍。第十六頁,共六十四頁,2022年,8月28日熵——信息的度量信息量大小的單位用比特來衡量。1比特的信息量是指含有兩個獨立均等概率狀態(tài)的事件所具有的不確定性能被全部消除所需要的信息。信息量:

H(x)=-∑P(Xi)log2P(Xi)i=1,2,3,…,n

其中Xi表示第i個狀態(tài)(共n個狀態(tài));

P(Xi)代表出現(xiàn)第i個狀態(tài)時的概率;

H(x)為消除不確定性所需的信息量,單位為比特(bit)。例如:幣下落可能有正反兩種狀態(tài),出現(xiàn)這兩種狀態(tài)的概率都是1/2,即:則,H(x)=-[P(X1)log2P(X1)+P(X2)log2P(X2)]=-(-0.5-0.5)=1比特。同理可得,投擲均勻正六面體骰子的H(X)=2.6比特。第十七頁,共六十四頁,2022年,8月28日例子硬幣下落:硬幣下落可能有正反兩種狀態(tài),出現(xiàn)這兩種狀態(tài)的概率都是1/2。如果需要消除其不確定性,則就需要信息量:H(x)=-[P(X1)log2P(X1)+P(X2)log2P(X2)]

=-(-0.5-0.5)=1比特為1比特的信息。例2:張三到4000人的企業(yè)去找李四。當企業(yè)人事部門告訴張三:“李四是第四車間的”,而第四車間有1000人,如果第四車間的人告訴張三,李四在第三班,第三班共有125位員工,計算張三所獲得的信息量?第十八頁,共六十四頁,2022年,8月28日噪聲數(shù)據(jù)的處理——分箱用戶自定義區(qū)間

用戶根據(jù)需要自定義區(qū)間。用戶自定義:如將客戶收入劃分為1000元以下、1000~2000、2000~3000、3000~4000和4000元以上幾組,分箱后

箱1:800

箱2:100012001500150018002000

箱3:2300250028003000

箱4:35004000

箱5:450048005000第十九頁,共六十四頁,2022年,8月28日噪聲數(shù)據(jù)的處理——平滑處理分箱后對數(shù)據(jù)進行平滑處理3種進行數(shù)據(jù)平滑方法:①按平均值平滑對同一箱值中的數(shù)據(jù)求平均值,用平均值替代該箱子中的所有數(shù)據(jù)。②按邊界值平滑用距離較小的邊界值替代箱中每一數(shù)據(jù)。③按中值平滑

取箱子的中值,用來替代箱子中的所有數(shù)據(jù)。

第二十頁,共六十四頁,2022年,8月28日噪聲數(shù)據(jù)的處理——聚類簇:一組數(shù)據(jù)對象集合。同一簇內(nèi)的所有對象具有相似性,不同簇間對象具有較大差異性。聚類:將物理的或抽象對象的集合分組為由不同簇,找出并清除那些落在簇之外的值(孤立點),這些孤立點被視為噪聲。通過聚類分析發(fā)現(xiàn)異常數(shù)據(jù):相似或相鄰近的數(shù)據(jù)聚合在一起形成了各個聚類集合,而那些位于這些聚類集合之外的數(shù)據(jù)對象,自然而然就被認為是異常數(shù)據(jù)。特點:直接形成簇并對簇進行描述,不需要任何先驗知識。第二十一頁,共六十四頁,2022年,8月28日噪聲數(shù)據(jù)的處理——聚類第二十二頁,共六十四頁,2022年,8月28日噪聲數(shù)據(jù)的處理——回歸回歸:發(fā)現(xiàn)兩個相關的變量之間的變化模式,通過使數(shù)據(jù)適合一個函數(shù)來平滑數(shù)據(jù),即利用擬合函數(shù)對數(shù)據(jù)進行平滑。方法:線性回歸(簡單回歸):利用直線建模,將一個變量看作另一個變量的線性函數(shù)。

如:Y=aX+b,其中a、b稱為回歸系數(shù),可用最小二乘法求得a、b系數(shù)。非線性回歸

第二十三頁,共六十四頁,2022年,8月28日噪聲數(shù)據(jù)的處理——回歸xyy=x+1X1Y2Y1’第二十四頁,共六十四頁,2022年,8月28日數(shù)據(jù)集成數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)整合到一個一致的存儲中1.模式匹配2.數(shù)據(jù)冗余3.數(shù)據(jù)值沖突第二十五頁,共六十四頁,2022年,8月28日數(shù)據(jù)集成——模式匹配整合不同數(shù)據(jù)源中的元數(shù)據(jù)。實體識別問題:匹配來自不同數(shù)據(jù)源的現(xiàn)實世界的實體,比如:A.cust-id=B.customer_no

。第二十六頁,共六十四頁,2022年,8月28日數(shù)據(jù)集成——數(shù)據(jù)冗余同一屬性在不同的數(shù)據(jù)庫中會有不同的字段名。一個屬性可以由另外一個表導出。如:一個顧客數(shù)據(jù)表中的平均月收入屬性,它可以根據(jù)月收入屬性計算出來。有些冗余可以被相關分析檢測到第二十七頁,共六十四頁,2022年,8月28日數(shù)據(jù)集成——數(shù)據(jù)值沖突對于一個現(xiàn)實世界實體,其來自不同數(shù)據(jù)源的屬性值或許不同。產(chǎn)生的原因:表示的差異、比例尺度不同、或編碼的差異等。例如:重量屬性在一個系統(tǒng)中采用公制,而在另一個系統(tǒng)中卻采用英制。同樣價格屬性不同地點采用不同貨幣單位。第二十八頁,共六十四頁,2022年,8月28日數(shù)據(jù)變換——平滑去除噪聲,將連續(xù)的數(shù)據(jù)離散化,增加粒度分箱聚類回歸第二十九頁,共六十四頁,2022年,8月28日數(shù)據(jù)變換——聚集對數(shù)據(jù)進行匯總avg(),count(),sum(),min(),max()…例如:每天銷售額(數(shù)據(jù))可以進行合計操作以獲得每月或每年的總額??梢杂脕順?gòu)造數(shù)據(jù)立方體第三十頁,共六十四頁,2022年,8月28日數(shù)據(jù)變換——數(shù)據(jù)概化用更抽象(更高層次)的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象例如:街道屬性,就可以泛化到更高層次的概念,諸如:城市、國家。同樣對于數(shù)值型的屬性,如年齡屬性,就可以映射到更高層次概念,如:年輕、中年和老年。第三十一頁,共六十四頁,2022年,8月28日數(shù)據(jù)變換——規(guī)范化將數(shù)據(jù)按比例進行縮放,使之落入一個特定的區(qū)域,以消除數(shù)值型屬性因大小不一而造成挖掘結(jié)果的偏差。如將工資收入屬性值映射到[-1.0,1.0]范圍內(nèi)。方法:(1)最小-最大規(guī)范化(2)零-均值規(guī)范化(z-score規(guī)范化)(3)小數(shù)定標規(guī)范化第三十二頁,共六十四頁,2022年,8月28日最小-最大規(guī)范化已知屬性的取值范圍,將原取值區(qū)間[old_min,old_max]映射到new_min,new_max]保留了原來數(shù)據(jù)中存在的關系。但若將來遇到超過目前屬性[old_min,old_max]取值范圍的數(shù)值,將會引起系統(tǒng)出錯第三十三頁,共六十四頁,2022年,8月28日最小-最大規(guī)范化第三十四頁,共六十四頁,2022年,8月28日零-均值規(guī)范化(z-score規(guī)范化)根據(jù)屬性A的均值和偏差來對A進行規(guī)格化,常用于屬性最大值與最小值未知;或使用最大最小規(guī)格化方法時會出現(xiàn)異常數(shù)據(jù)的情況。第三十五頁,共六十四頁,2022年,8月28日零-均值規(guī)范化(z-score規(guī)范化)第三十六頁,共六十四頁,2022年,8月28日小數(shù)定標規(guī)范化通過移動屬性A值的小數(shù)位置,將屬性A的值映射到[0,1]之間,用小數(shù)的科學表示法來達到規(guī)格化的目的。移動的小數(shù)位數(shù)取決于屬性A絕對值的最大值。第三十七頁,共六十四頁,2022年,8月28日小數(shù)定標規(guī)范化第三十八頁,共六十四頁,2022年,8月28日數(shù)據(jù)變換——屬性構(gòu)造利用已有屬性集構(gòu)造出新的屬性,并加入到現(xiàn)有屬性集合中以幫助挖掘更深層次的模式知識,提高挖掘結(jié)果準確性。例如:根據(jù)寬、高屬性,可以構(gòu)造一個新屬性:面積。第三十九頁,共六十四頁,2022年,8月28日數(shù)據(jù)歸約(數(shù)據(jù)消減)

對大規(guī)模數(shù)據(jù)庫內(nèi)容進行復雜的數(shù)據(jù)分析通常需要耗費大量的時間。數(shù)據(jù)歸約(消減)技術(shù)用于幫助從原有龐大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集合,并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡數(shù)據(jù)集上進行數(shù)據(jù)挖掘顯然效率更高,并且挖掘出來的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。第四十頁,共六十四頁,2022年,8月28日數(shù)據(jù)歸約標準用于數(shù)據(jù)歸約的時間不應當超過或“抵消”在歸約后的數(shù)據(jù)上挖掘節(jié)省的時間歸約得到的數(shù)據(jù)比原數(shù)據(jù)小得多,但可以產(chǎn)生相同或幾乎相同的分析結(jié)果第四十一頁,共六十四頁,2022年,8月28日數(shù)據(jù)歸約的方法1.數(shù)據(jù)立方體聚集:2.維歸約3.數(shù)據(jù)壓縮4.數(shù)值歸約5.離散化和概念分層生成第四十二頁,共六十四頁,2022年,8月28日數(shù)據(jù)歸約——數(shù)據(jù)立方體聚集數(shù)據(jù)立方體基本概念:數(shù)據(jù)立方體是數(shù)據(jù)的多維建模和表示,由維和事實組成。維——屬性事實——數(shù)據(jù)數(shù)據(jù)立方體聚集定義——將n維數(shù)據(jù)立方體聚集為n-1維的數(shù)據(jù)立方體。第四十三頁,共六十四頁,2022年,8月28日數(shù)據(jù)歸約——數(shù)據(jù)立方體聚集第四十四頁,共六十四頁,2022年,8月28日數(shù)據(jù)歸約——數(shù)據(jù)立方體聚集聚集后的銷售數(shù)據(jù)立方體

第四十五頁,共六十四頁,2022年,8月28日下圖數(shù)據(jù)是某商場2000~2002年每季度的銷售數(shù)據(jù),對這種數(shù)據(jù)進行聚集,使結(jié)果數(shù)據(jù)匯總每年的總銷售額,而不是每季度的總銷售額。聚集后數(shù)據(jù)量明顯減少,

但沒有丟失分析任務所需的信息。對年度內(nèi)的

各季度數(shù)據(jù)進行

sum(求和)聚集數(shù)據(jù)歸約——數(shù)據(jù)立方體聚集第四十六頁,共六十四頁,2022年,8月28日下圖所示數(shù)據(jù)立方體用于某銷售企業(yè)每類商品在各分公司年銷售多維數(shù)據(jù)分析。每個單元存放一個聚集值,對應于多維空間的一個數(shù)據(jù)點。每個屬性可能存在概念分層,允許在多個抽象層進行數(shù)據(jù)分析。

2001年

568

750

150

50

四川河南湖北上海分公司

辦公用品

電話

計算機

打印機

2000年

2002年

型分公司西南華中華東四川河南湖北上海數(shù)據(jù)歸約——數(shù)據(jù)立方體聚集第四十七頁,共六十四頁,2022年,8月28日數(shù)據(jù)歸約——維歸約維歸約——去掉無關的屬性,減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量。例如:挖掘顧客是否會在商場購買Mp3播放機的分類規(guī)則時,顧客的電話號碼很可能與挖掘任務無關,應該可以去掉。目標:尋找出最小的屬性子集并確保新數(shù)據(jù)子集的概率分布盡可能接近原來數(shù)據(jù)集的概率分布。第四十八頁,共六十四頁,2022年,8月28日維歸約——選擇相關屬性子集1.逐步向前選擇從一個空屬性集(作為屬性子集初始值)開始,每次從原來屬性集合中選擇一個當前最優(yōu)的屬性添加到當前屬性子集中。直到無法選擇出最優(yōu)屬性或滿足一定閾值約束為止。2.逐步向后刪除

從一個全屬性集(作為屬性子集初始值)開始,每次從當前屬性子集中選擇一個當前最差的屬性并將其從當前屬性子集中消去。直到無法選擇出最差屬性為止或滿足一定閾值約束為止。3.向前選擇和向后刪除結(jié)合4.判定樹(決策樹)歸納利用決策樹的歸納方法對初始數(shù)據(jù)進行分類歸納學習,獲得一個初始決策樹,所有沒有出現(xiàn)這個決策樹上的屬性均認為是無關屬性,因此將這些屬性從初始屬性集合刪除掉,就可以獲得一個較優(yōu)的屬性子集。5.基于統(tǒng)計分析的歸約

第四十九頁,共六十四頁,2022年,8月28日數(shù)據(jù)歸約——數(shù)據(jù)壓縮數(shù)據(jù)壓縮——用數(shù)據(jù)編碼或者變換,得到原始數(shù)據(jù)的壓縮表示。在數(shù)據(jù)挖掘領域通常使用的兩種數(shù)據(jù)壓縮方法均是有損的:主成分分析法(PCA)

假定待壓縮的數(shù)據(jù)由N個取自k個維的元組或數(shù)據(jù)向量組成。主要成分分析并搜索得到c個最能代表數(shù)據(jù)的k維正交向量,這里

c≤k。這樣就可以把原數(shù)據(jù)投影到一個較小的空間,實現(xiàn)數(shù)據(jù)壓縮小波轉(zhuǎn)換第五十頁,共六十四頁,2022年,8月28日數(shù)據(jù)歸約——數(shù)據(jù)壓縮壓縮算法分類:無損(loseless)壓縮:可以不丟失任何信息地還原壓縮數(shù)據(jù)。例如:字符串壓縮有廣泛的理論基礎和精妙的算法有損(lossy)壓縮:只能重新構(gòu)造原數(shù)據(jù)的近似表示。例如:音頻/視頻壓縮有時可以在不解壓整體數(shù)據(jù)的情況下,重構(gòu)某個片斷第五十一頁,共六十四頁,2022年,8月28日數(shù)據(jù)歸約——數(shù)值歸約數(shù)值歸約——用較小的數(shù)據(jù)表示數(shù)據(jù),或采用較短的數(shù)據(jù)單位,或者用數(shù)據(jù)模型代表數(shù)據(jù),減少數(shù)據(jù)量。常用的方法直方圖用聚類數(shù)據(jù)表示實際數(shù)據(jù)抽樣(采樣)4.參數(shù)回歸法第五十二頁,共六十四頁,2022年,8月28日利用分箱方法對數(shù)據(jù)分布情況進行近似數(shù)值歸約——直方圖(“頻率-值”對應關系圖)第五十三頁,共六十四頁,2022年,8月28日數(shù)值歸約——用聚類數(shù)據(jù)表示實際數(shù)據(jù)第五十四頁,共六十四頁,2022年,8月28日優(yōu)點:獲取樣本的時間僅與樣本規(guī)模成正比方法:不放回簡單隨機抽樣放回簡單隨機抽樣聚類抽樣:先聚類,再抽樣分層抽樣:先分層,再抽樣數(shù)值歸約——抽樣(采樣)第五十五頁,共六十四頁,2022年,8月28日數(shù)值歸約——參數(shù)回歸法

通常采用一個模型來評估數(shù)據(jù),該方法只需要存放參數(shù),而不是實際數(shù)據(jù)。能大大簡少數(shù)據(jù)量,但只對數(shù)值型數(shù)據(jù)有效。方法:線性回歸非線性回歸第五十六頁,共六十四頁,2022年,8月28日不放回簡單隨機抽樣放回簡單隨機抽樣聚類抽樣分層抽樣第五十七頁,共六十四頁,2022年,8月28日

數(shù)據(jù)歸約——離散化與概念分層生成三種類型的屬性值:名稱型——e.g.無序集合中的值序數(shù)——e.g.有序集合中的值連續(xù)值——e.g.實數(shù)離散化技術(shù)以通過將屬性(連續(xù)取值)域值范圍分為若干區(qū)間,來幫助消減一個連續(xù)(取值)屬性的取值個數(shù)。概念分層概念分層定義了一組由低層概念集到高層概念集的映射。它允許在各種抽象級別上處理數(shù)據(jù),從而在多個抽象層上發(fā)現(xiàn)知識。用較高層次的概念替換低層次(如年齡的數(shù)值)的概念,以此來減少取值個數(shù)。雖然一些細節(jié)在數(shù)據(jù)泛化過程中消失了,但這樣所獲得的泛化數(shù)據(jù)或許會更易于理解、更有意義。在消減后的數(shù)據(jù)集上進行數(shù)據(jù)挖掘顯然效率更高。概念分層結(jié)構(gòu)可以用樹來表示,樹的每個節(jié)點代表一個概念。第五十八頁,共六十四頁,2022年,8月28日

數(shù)據(jù)歸約——概念分層生成第五十九頁,共六十四頁,2022年,8月28日數(shù)值數(shù)據(jù)的概念分層生成方法a.分箱屬性的值可以通過將其分配到各分箱中而將其離散化。利用每個分箱的均值和中數(shù)替換每個分箱中的值(利用均值或中數(shù)進行平滑)。循環(huán)應用這些操作處理每次操作結(jié)果,就可以獲得一個概念層次樹。b.直方圖循環(huán)應用直方圖分析方法處理每次劃分結(jié)果,從而最終自動獲得多層次概念樹,而當達到用戶指定層次水平后劃分結(jié)束。最小間隔大小也可以幫助控制循環(huán)過程,其中包括指定一個劃分的最小

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論