數(shù)據(jù)預(yù)處理方法與改進的建議PPT課件_第1頁
數(shù)據(jù)預(yù)處理方法與改進的建議PPT課件_第2頁
數(shù)據(jù)預(yù)處理方法與改進的建議PPT課件_第3頁
數(shù)據(jù)預(yù)處理方法與改進的建議PPT課件_第4頁
數(shù)據(jù)預(yù)處理方法與改進的建議PPT課件_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)預(yù)處理的必要性 數(shù)據(jù)預(yù)處理是整個數(shù)據(jù)挖掘與知識發(fā)現(xiàn)過程中的一個重要步驟。 不完整、含噪聲的和不一致的數(shù)據(jù)是現(xiàn)實世界大型數(shù)據(jù)庫或數(shù)據(jù)倉庫的共同特點。 數(shù)據(jù)的預(yù)處理能有效的提高數(shù)據(jù)質(zhì)量,節(jié)約大量的時間和空間。 一些比較成熟的算法對其處理的數(shù)據(jù)集合一般有一定的要求。第1頁/共55頁 數(shù)據(jù)預(yù)處理的常規(guī)方法 1.數(shù)據(jù)清洗 去掉噪聲和無關(guān)數(shù)據(jù) 2.數(shù)據(jù)集成 將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一致的數(shù)據(jù)存儲中 3.數(shù)據(jù)變換 把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式 4.數(shù)據(jù)歸約 主要方法包括:數(shù)據(jù)立方體聚集,維歸約,數(shù)據(jù)壓縮,數(shù)值歸約,離散化和概念分層等 第2頁/共55頁第3頁/共55頁數(shù)據(jù)清洗處理空缺

2、值 數(shù)據(jù)并不總是完整的 在分析一個商場銷售數(shù)據(jù)時,發(fā)現(xiàn)有多個記錄中的屬性值為空,如:顧客的收入屬性對于為空的屬性值 引起空缺值的原因 設(shè)備異常 與其他已有數(shù)據(jù)不一致而被刪除 因為誤解而沒有被輸入的數(shù)據(jù) 在輸入時,有些數(shù)據(jù)應(yīng)為得不到重視而沒有被輸入第4頁/共55頁數(shù)據(jù)清洗處理空缺值 空缺值要經(jīng)過推斷而補上 1.忽略該記錄 2.去掉屬性 3.手工填寫空缺值 4.使用默認值 5.使用屬性平均值 6.使用同類樣本平均值 7.預(yù)測最可能的值第5頁/共55頁噪聲數(shù)據(jù)的處理分箱 分箱:把待處理的數(shù)據(jù)按照一定的規(guī)則放進一些箱子中,考察每一個箱子中的數(shù)據(jù),采用某種方法分別對各個箱子中的數(shù)據(jù)進行處理。 箱子:按照

3、屬性值劃分的子區(qū)間,如果一個屬性值處于某個子區(qū)間范圍內(nèi),就稱把該屬性值放進這個子區(qū)間代表的“箱子”里。 分箱技術(shù)需要確定的主要問題: 分箱方法,即如何分箱 數(shù)據(jù)平滑方法,即如何對每個箱子中的數(shù)據(jù)進行平滑處理第6頁/共55頁噪聲數(shù)據(jù)的處理分箱 分箱的方法:分箱前對記錄集按目標屬性值的大小進行排序。 等深分箱法 等寬分箱法 用戶自定義區(qū)間 最小熵 例:客戶收入屬性income排序后的值(人民幣元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000第7頁/共55頁噪聲數(shù)據(jù)的處理分箱 等深分箱法

4、(統(tǒng)一權(quán)重 ) 按記錄行數(shù)分箱,每箱具有相同的記錄數(shù),每箱記錄數(shù)稱為箱的權(quán)重,也稱箱子的深度。 設(shè)定權(quán)重(箱子深度)為4,上述例子分箱后的結(jié)果如下。箱1:800 1000 1200 1500箱2:1500 1800 2000 2300 箱3:2500 2800 3000 3500箱4:4000 4500 4800 5000第8頁/共55頁噪聲數(shù)據(jù)的處理分箱 等寬分箱法(統(tǒng)一區(qū)間) 在整個屬性值的區(qū)間上平均分布,即每個箱的區(qū)間范圍是一個常量,稱為箱子寬度。 設(shè)定區(qū)間范圍(箱子寬度)為1000元人民幣,分箱后箱1:800 1000 1200 1500 1500 1800箱2:2000 2300 2

5、500 2800 3000箱3:3500 4000 4500箱4:4800 5000 第9頁/共55頁噪聲數(shù)據(jù)的處理分箱 最小熵 使在各區(qū)間分組內(nèi)的記錄具有最小的熵。 信息是信號、符號或消息所表示的內(nèi)容,用以消除對客觀事物認識的不確定性 信息量的直觀定義:信息量的大小取決于信息內(nèi)容消除人們認識的“所消除的不確定程度越大,則所包含的信息量就越大。 第10頁/共55頁熵信息的度量(利用概率來度量)A到1000人的學(xué)校去找B。傳達室人告訴他,“B是信息管理系”,而管理系有100人。他獲得的信息是100/10000.1,也就是將可能性空間縮小到原來的1/10.又有人告訴他:B在信息管理與信息系統(tǒng)教研室

6、(10人),則第2個信息的確定性又縮小到原來的100/1000*10/100=10/1000,也就是將可能性的空間縮短到原來的1100.第11頁/共55頁熵信息的度量 信息量大小的單位用比特來衡量。1比特的信息量是指含有兩個獨立均等概率狀態(tài)的事件所具有的不確定性能被全部消除所需要的信息。 信息量:H(x)=-H(x)=- P(Xi)log2P(Xi) P(Xi)log2P(Xi) i i=1,2,3,=1,2,3,n ,n 其中Xi表示第i個狀態(tài)(共n個狀態(tài));P(Xi)代表出現(xiàn)第i個狀態(tài)時的概率;H(x)為消除不確定性所需的信息量,單位為比特(bit)。 例如:幣下落可能有正反兩種狀態(tài),出現(xiàn)

7、這兩種狀態(tài)的概率都是1/2,即:則, H(x)=-P(X1)log2P(X1)+P(X2)log2P(X2)=-(-0.5-0.5) =1比特。 同理可得,投擲均勻正六面體骰子的H(X)2.6比特。第12頁/共55頁噪聲數(shù)據(jù)的處理分箱 用戶自定義區(qū)間 用戶根據(jù)需要自定義區(qū)間。 用戶自定義:如將客戶收入劃分為1000元以下、10002000、20003000、30004000和4000元以上幾組,分箱后箱1:800 箱2:1000 1200 1500 1500 1800 2000 箱3:2300 2500 2800 3000 箱4:3500 4000 箱5:4500 4800 5000 第13頁

8、/共55頁噪聲數(shù)據(jù)的處理聚類 簇:一組數(shù)據(jù)對象集合。同一簇內(nèi)的所有對象具有相似性,不同簇間對象具有較大差異性。 聚類:將物理的或抽象對象的集合分組為由不同簇,找出并清除那些落在簇之外的值(孤立點),這些孤立點被視為噪聲。 通過聚類分析發(fā)現(xiàn)異常數(shù)據(jù):相似或相鄰近的數(shù)據(jù)聚合在一起形成了各個聚類集合,而那些位于這些聚類集合之外的數(shù)據(jù)對象,自然而然就被認為是異常數(shù)據(jù)。 特點:直接形成簇并對簇進行描述,不需要任何先驗知識。第14頁/共55頁噪聲數(shù)據(jù)的處理聚類第15頁/共55頁噪聲數(shù)據(jù)的處理回歸 回歸:發(fā)現(xiàn)兩個相關(guān)的變量之間的變化模式,通過使數(shù)據(jù)適合一個函數(shù)來平滑數(shù)據(jù),即利用擬合函數(shù)對數(shù)據(jù)進行平滑。 方法

9、: 線性回歸(簡單回歸):利用直線建模,將一個變量看作另一個變量的線性函數(shù)。如:Y=aX+b,其中a、b稱為回歸系數(shù),可用最小二乘法求得a、b系數(shù)。 非線性回歸 第16頁/共55頁噪聲數(shù)據(jù)的處理回歸xyy = x + 1X1Y2Y1第17頁/共55頁數(shù)據(jù)集成 數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)整合到一個一致的存儲中 1.模式匹配 2.數(shù)據(jù)冗余 3.數(shù)據(jù)值沖突第18頁/共55頁數(shù)據(jù)集成模式匹配 整合不同數(shù)據(jù)源中的元數(shù)據(jù)。 實體識別問題:匹配來自不同數(shù)據(jù)源的現(xiàn)實世界的實體,比如:A.cust-id=B.customer_no 。第19頁/共55頁數(shù)據(jù)集成數(shù)據(jù)冗余 同一屬性在不同的數(shù)據(jù)庫中會有不同的字段

10、名。 一個屬性可以由另外一個表導(dǎo)出。如:一個顧客數(shù)據(jù)表中的平均月收入屬性,它可以根據(jù)月收入屬性計算出來。 有些冗余可以被相關(guān)分析檢測到第20頁/共55頁數(shù)據(jù)集成數(shù)據(jù)值沖突 對于一個現(xiàn)實世界實體,其來自不同數(shù)據(jù)源的屬性值或許不同。 產(chǎn)生的原因:表示的差異、比例尺度不同、或編碼的差異等。例如:重量屬性在一個系統(tǒng)中采用公制,而在另一個系統(tǒng)中卻采用英制。同樣價格屬性不同地點采用不同貨幣單位。第21頁/共55頁數(shù)據(jù)變換聚集 對數(shù)據(jù)進行匯總 avg(), count(), sum(), min(), max() 例如:每天銷售額(數(shù)據(jù))可以進行合計操作以獲得每月或每年的總額。 可以用來構(gòu)造數(shù)據(jù)立方體第22

11、頁/共55頁數(shù)據(jù)變換數(shù)據(jù)概化 用更抽象(更高層次)的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象 例如:街道屬性,就可以泛化到更高層次的概念,諸如:城市、國家。同樣對于數(shù)值型的屬性,如年齡屬性,就可以映射到更高層次概念,如:年輕、中年和老年。第23頁/共55頁數(shù)據(jù)變換規(guī)范化 將數(shù)據(jù)按比例進行縮放,使之落入一個特定的區(qū)域,以消除數(shù)值型屬性因大小不一而造成挖掘結(jié)果的偏差。如將工資收入屬性值映射到-1.0,1.0范圍內(nèi)。 方法:(1)最小-最大規(guī)范化(2)零-均值規(guī)范化(z-score規(guī)范化)(3)小數(shù)定標規(guī)范化第24頁/共55頁最小- -最大規(guī)范化 已知屬性的取值范圍,將原取值區(qū)間old_min,old_m

12、ax映射到new_min,new_max 保留了原來數(shù)據(jù)中存在的關(guān)系。但若將來遇到超過目前屬性old_min,old_max取值范圍的數(shù)值,將會引起系統(tǒng)出錯第25頁/共55頁最小- -最大規(guī)范化第26頁/共55頁零- -均值規(guī)范化(z-scorez-score規(guī)范化) 根據(jù)屬性A的均值和偏差來對A進行規(guī)格化,常用于屬性最大值與最小值未知;或使用最大最小規(guī)格化方法時會出現(xiàn)異常數(shù)據(jù)的情況。第27頁/共55頁零- -均值規(guī)范化(z-scorez-score規(guī)范化)第28頁/共55頁小數(shù)定標規(guī)范化 通過移動屬性A值的小數(shù)位置,將屬性A的值映射到0,1之間,用小數(shù)的科學(xué)表示法來達到規(guī)格化的目的。 移動的

13、小數(shù)位數(shù)取決于屬性A絕對值的最大值。第29頁/共55頁小數(shù)定標規(guī)范化第30頁/共55頁數(shù)據(jù)變換屬性構(gòu)造 利用已有屬性集構(gòu)造出新的屬性,并加入到現(xiàn)有屬性集合中以幫助挖掘更深層次的模式知識,提高挖掘結(jié)果準確性。 例如:根據(jù)寬、高屬性,可以構(gòu)造一個新屬性:面積。第31頁/共55頁數(shù)據(jù)歸約的方法1.數(shù)據(jù)立方體聚集:2.維歸約3.數(shù)據(jù)壓縮4.數(shù)值歸約5.離散化和概念分層生成第32頁/共55頁數(shù)據(jù)歸約數(shù)據(jù)立方體聚集 數(shù)據(jù)立方體基本概念: 數(shù)據(jù)立方體是數(shù)據(jù)的多維建模和表示,由維和事實組成。 維屬性 事實數(shù)據(jù) 數(shù)據(jù)立方體聚集定義將n維數(shù)據(jù)立方體聚集為n-1維的數(shù)據(jù)立方體。第33頁/共55頁數(shù)據(jù)歸約數(shù)據(jù)立方體聚

14、集2000200120022003天津河北江蘇廣東體育廚房家裝文具年份商品類型省份10425208071720412323247505841170299731542140114015005004銷售金額第34頁/共55頁數(shù)據(jù)歸約數(shù)據(jù)立方體聚集聚集后的銷售數(shù)據(jù)立方體 第35頁/共55頁 2002 年 2001 年 季度 銷售額 一季度 224 000 元 二季度 408 000 元 三季度 350 000 元 四季度 586 000 元 2000 年 季度 銷售額 一季度 224 000 元 二季度 408 000 元 三季度 350 000 元 四季度 586 000 元 2000 1 568

15、 000 元 2001 2 356 000 元 2002 3 594 000 元 年 銷售額 下圖數(shù)據(jù)是某商場20002002年每季度的銷售數(shù)據(jù),對這種數(shù)據(jù)進行聚集,使結(jié)果數(shù)據(jù)匯總每年的總銷售額,而不是每季度的總銷售額。聚集后數(shù)據(jù)量明顯減少,但沒有丟失分析任務(wù)所需的信息。對年度內(nèi)的各季度數(shù)據(jù)進行sum(求和)聚集數(shù)據(jù)歸約數(shù)據(jù)立方體聚集第36頁/共55頁數(shù)據(jù)歸約維歸約 維歸約去掉無關(guān)的屬性,減少數(shù)據(jù)挖掘處理的數(shù)據(jù)量。 例如:挖掘顧客是否會在商場購買Mp3 播放機的分類規(guī)則時,顧客的電話號碼很可能與挖掘任務(wù)無關(guān),應(yīng)該可以去掉。 目標:尋找出最小的屬性子集并確保新數(shù)據(jù)子集的概率分布盡可能接近原來數(shù)據(jù)

16、集的概率分布。第37頁/共55頁維歸約選擇相關(guān)屬性子集 1.逐步向前選擇 從一個空屬性集(作為屬性子集初始值)開始,每次從原來屬性集合中選擇一個當前最優(yōu)的屬性添加到當前屬性子集中。直到無法選擇出最優(yōu)屬性為止。 2.逐步向后刪除 從一個全屬性集(作為屬性子集初始值)開始,每次從當前屬性子集中選擇一個當前最差的屬性并將其從當前屬性子集中消去。直到無法選擇出最差屬性為止。 3.向前選擇和向后刪除結(jié)合 4.判定樹(決策樹)歸納 利用決策樹的歸納方法對初始數(shù)據(jù)進行分類歸納學(xué)習(xí),獲得一個初始決策樹,所有沒有出現(xiàn)這個決策樹上的屬性均認為是無關(guān)屬性,因此將這些屬性從初始屬性集合刪除掉,就可以獲得一個較優(yōu)的屬性

17、子集。 第38頁/共55頁數(shù)據(jù)歸約數(shù)據(jù)壓縮數(shù)據(jù)壓縮用數(shù)據(jù)編碼或者變換,得到原始數(shù)據(jù)的壓縮表示。 在數(shù)據(jù)挖掘領(lǐng)域通常使用的兩種數(shù)據(jù)壓縮方法均是有損的: 主成分分析法(PCA)假定待壓縮的數(shù)據(jù)由N個取自k個維的元組或數(shù)據(jù)向量組成。主要成分分析并搜索得到c個最能代表數(shù)據(jù)的k維正交向量,這里 ck。這樣就可以把原數(shù)據(jù)投影到一個較小的空間,實現(xiàn)數(shù)據(jù)壓縮 小波轉(zhuǎn)換第39頁/共55頁 利用分箱方法對數(shù)據(jù)分布情況進行近似數(shù)值歸約直方圖(“頻率值”對應(yīng)關(guān)系圖)第40頁/共55頁 優(yōu)點:獲取樣本的時間僅與樣本規(guī)模成正比 方法: 不放回簡單隨機抽樣 放回簡單隨機抽樣 聚類抽樣:先聚類,再抽樣 分層抽樣:先分層,再抽

18、樣數(shù)值歸約抽樣(采樣)第41頁/共55頁 數(shù)據(jù)歸約離散化與概念分層生成 三種類型的屬性值: 名稱型e.g. 無序集合中的值 序數(shù)e.g. 有序集合中的值 連續(xù)值e.g. 實數(shù) 離散化技術(shù) 以通過將屬性(連續(xù)取值)域值范圍分為若干區(qū)間,來幫助消減一個連續(xù)(取值)屬性的取值個數(shù)。 概念分層 概念分層定義了一組由低層概念集到高層概念集的映射。它允許在各種抽象級別上處理數(shù)據(jù),從而在多個抽象層上發(fā)現(xiàn)知識。用較高層次的概念替換低層次(如年齡的數(shù)值)的概念,以此來減少取值個數(shù)。雖然一些細節(jié)在數(shù)據(jù)泛化過程中消失了,但這樣所獲得的泛化數(shù)據(jù)或許會更易于理解、更有意義。在消減后的數(shù)據(jù)集上進行數(shù)據(jù)挖掘顯然效率更高。

19、概念分層結(jié)構(gòu)可以用樹來表示,樹的每個節(jié)點代表一個概念。第42頁/共55頁 數(shù)據(jù)歸約概念分層生成第43頁/共55頁數(shù)據(jù)預(yù)處理方法的一些改進第44頁/共55頁對數(shù)據(jù)預(yù)處理方法的分析與思考 數(shù)據(jù)預(yù)處理的每一個步驟都有著多種不同的方法。 某些不同的處理方法在不同的階段可分別使用。 預(yù)處理方法中有較多的統(tǒng)計方法。第45頁/共55頁不同階段中相同的預(yù)處理方法 分箱:可以選用箱均值或箱中位數(shù)來平滑噪聲,也可以用做數(shù)值歸約和概念分層產(chǎn)生的離散方法。 回歸:在數(shù)據(jù)清理階段,既可以用來填充缺失值,又可以平滑噪聲,同時在數(shù)據(jù)歸約階段還可以實現(xiàn)數(shù)值歸約。 聚類:在平滑噪聲時可以使用這種方法,聚類分析可以通過離散化數(shù)值屬性來達到離散和概念分層,從而實現(xiàn)數(shù)值歸約。第46頁/共55頁不同階段中相同的預(yù)處理辦法 決策樹:可以通過構(gòu)造決策樹預(yù)測屬性的值來填充缺失值,也可以用決策樹進行屬性子集選擇,實現(xiàn)數(shù)值歸約。 卡方檢驗:用來檢測兩個屬性之間的相關(guān)性,在數(shù)據(jù)集成時可以識別冗余屬性,數(shù)據(jù)歸約中的數(shù)值歸約第47頁/共55頁歸納 大部分方法可以在數(shù)據(jù)清理和數(shù)據(jù)歸約中使用。 數(shù)據(jù)清理和數(shù)據(jù)歸約在整個數(shù)據(jù)預(yù)處理中相對更重要,特別是數(shù)據(jù)歸約。第48頁/共55頁預(yù)處理中的統(tǒng)計方法第49頁/共55頁思考

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論