第四章數(shù)據(jù)預(yù)處理_第1頁
第四章數(shù)據(jù)預(yù)處理_第2頁
第四章數(shù)據(jù)預(yù)處理_第3頁
第四章數(shù)據(jù)預(yù)處理_第4頁
第四章數(shù)據(jù)預(yù)處理_第5頁
已閱讀5頁,還剩109頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》主講:王名揚(yáng)信息與計(jì)算機(jī)工程學(xué)院目前一頁\總數(shù)一百一十七頁\編于十八點(diǎn)引言目前,數(shù)據(jù)挖掘的研究工作大都集中在算法的探討而忽視對(duì)數(shù)據(jù)處理的研究。事實(shí)上,數(shù)據(jù)預(yù)處理對(duì)數(shù)據(jù)挖掘十分重要,一些成熟的算法都對(duì)其處理的數(shù)據(jù)集合有一定的要求:比如數(shù)據(jù)的完整性好,冗余性小,屬性的相關(guān)性小等。高質(zhì)量的決策來自高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預(yù)處理是整個(gè)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)過程中的一個(gè)重要步驟。2目前二頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)挖掘:數(shù)據(jù)庫(kù)中的知識(shí)挖掘(KDD)數(shù)據(jù)挖掘——知識(shí)挖掘的核心數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)Knowledge任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評(píng)估目前三頁\總數(shù)一百一十七頁\編于十八點(diǎn)

第4章數(shù)據(jù)預(yù)處理目前四頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)預(yù)處理的重要性數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的重要一環(huán),而且必不可少。要使挖掘算法挖掘出有效的知識(shí),必須為其提供干凈,準(zhǔn)確,簡(jiǎn)潔的數(shù)據(jù)。然而,當(dāng)今現(xiàn)實(shí)世界中的數(shù)據(jù)庫(kù)極易受到噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致性數(shù)據(jù)的侵?jǐn)_,多數(shù)為“臟”數(shù)據(jù)。5目前五頁\總數(shù)一百一十七頁\編于十八點(diǎn)1)雜亂性:如命名規(guī)則的不同如性別:

A數(shù)據(jù)庫(kù)male=1,female=2B數(shù)據(jù)庫(kù)male=‘男’,female=‘女’

C數(shù)據(jù)庫(kù)male=‘M’,female=‘F’數(shù)據(jù)預(yù)處理的重要性目前六頁\總數(shù)一百一十七頁\編于十八點(diǎn)2)重復(fù)性:同一客觀事物在數(shù)據(jù)庫(kù)中存在兩個(gè)以上相同的物理描述。

假設(shè)某周刊有100000個(gè)訂戶,郵件列表中0.1%的記錄是重復(fù)的,主要是因?yàn)橥粋€(gè)客戶的名字可能有不同的寫法,如:JonDoe和JohnDoe。

因此,每周需要印刷和郵寄100份額外的刊物,假設(shè)每份刊物每周的郵寄和印刷費(fèi)用是兩美元,公司每年將至少浪費(fèi)1萬美元以上。數(shù)據(jù)預(yù)處理的重要性目前七頁\總數(shù)一百一十七頁\編于十八點(diǎn)3)不完整性:由于實(shí)際系統(tǒng)設(shè)計(jì)時(shí)存在的缺陷以及使用過程中的一些人為因素,數(shù)據(jù)記錄可能會(huì)出現(xiàn)數(shù)據(jù)值的丟失或不確定。原因可能有:(1)有些屬性的內(nèi)容有時(shí)沒有(家庭收入,參與銷售事務(wù)數(shù)據(jù)中的顧客信息)(2)有些數(shù)據(jù)當(dāng)時(shí)被認(rèn)為是不必要的(3)由于誤解或檢測(cè)設(shè)備失靈導(dǎo)致相關(guān)數(shù)據(jù)沒有記錄下來(4)與其它記錄內(nèi)容不一致而被刪除(5)忽略了歷史數(shù)據(jù)或?qū)?shù)據(jù)的修改數(shù)據(jù)預(yù)處理的重要性目前八頁\總數(shù)一百一十七頁\編于十八點(diǎn)4)噪聲數(shù)據(jù):數(shù)據(jù)中存在著錯(cuò)誤或異常(偏離期望值)如:血壓和身高為0就是明顯的錯(cuò)誤噪聲數(shù)據(jù)的產(chǎn)生原因:數(shù)據(jù)采集設(shè)備有問題;在數(shù)據(jù)錄入過程發(fā)生人為或計(jì)算機(jī)錯(cuò)誤;數(shù)據(jù)傳輸過程中出現(xiàn)錯(cuò)誤;由于命名規(guī)則或數(shù)據(jù)代碼不同而引起的不一致。數(shù)據(jù)預(yù)處理的重要性目前九頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)清理(清洗)

----去掉數(shù)據(jù)中的噪聲,糾正不一致數(shù)據(jù)集成

-----將多個(gè)數(shù)據(jù)源合并成一致的數(shù)據(jù)存儲(chǔ),構(gòu)成一個(gè)完整的數(shù)據(jù)集,如數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)變換(轉(zhuǎn)換)-----將一種格式的數(shù)據(jù)轉(zhuǎn)換為另一格式的數(shù)據(jù)(如規(guī)范化)數(shù)據(jù)歸約(消減)----通過聚集、刪除冗余屬性或聚類等方法來壓縮數(shù)據(jù)。數(shù)據(jù)預(yù)處理的常見方法目前十頁\總數(shù)一百一十七頁\編于十八點(diǎn)11目前十一頁\總數(shù)一百一十七頁\編于十八點(diǎn)注意:

上述的各種數(shù)據(jù)預(yù)處理方法,并不是相互獨(dú)立的,而是相互關(guān)聯(lián)的,如消除數(shù)據(jù)冗余既可以看成是一種形式的數(shù)據(jù)清洗,也可以看成是一種數(shù)據(jù)歸約(消減)。目前十二頁\總數(shù)一百一十七頁\編于十八點(diǎn)4.1數(shù)據(jù)清洗4.2

數(shù)據(jù)集成和變換4.3

數(shù)據(jù)歸約4.4數(shù)據(jù)離散化和概念分層*

第4章目前十三頁\總數(shù)一百一十七頁\編于十八點(diǎn)學(xué)習(xí)目的掌握數(shù)據(jù)清洗的處理方法(空缺、噪聲、不一致);

掌握各種數(shù)據(jù)歸約的方法;

理解數(shù)據(jù)離散化的方法。14目前十四頁\總數(shù)一百一十七頁\編于十八點(diǎn)4.1數(shù)據(jù)清洗現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。而數(shù)據(jù)清洗試圖填充空缺的值、識(shí)別孤立點(diǎn)、消除噪聲,并糾正數(shù)據(jù)中的不一致性。因此,從如下幾個(gè)方面介紹:(1)空缺值;(2)噪聲數(shù)據(jù);(3)不一致數(shù)據(jù)。目前十五頁\總數(shù)一百一十七頁\編于十八點(diǎn)1.空缺值的處理?目前十六頁\總數(shù)一百一十七頁\編于十八點(diǎn)空缺值數(shù)據(jù)并不總是完整的數(shù)據(jù)庫(kù)表中,很多條記錄的對(duì)應(yīng)字段可能沒有相應(yīng)值,比如銷售表中的顧客收入引起空缺值的原因設(shè)備異常與其他已有數(shù)據(jù)不一致而被刪除因?yàn)檎`解而沒有被輸入的數(shù)據(jù)在輸入時(shí),有些數(shù)據(jù)因?yàn)榈貌坏街匾暥鴽]有被輸入對(duì)數(shù)據(jù)的改變沒有進(jìn)行日志記載空缺值要經(jīng)過推斷而補(bǔ)上。17目前十七頁\總數(shù)一百一十七頁\編于十八點(diǎn)如何處理空缺值1)忽略該元組:

若一條記錄中有屬性值被遺漏了,則將該記錄排除在數(shù)據(jù)挖掘之外;尤其當(dāng)類標(biāo)號(hào)缺少時(shí)通常這樣做(假定挖掘任務(wù)涉及分類或描述);但是,當(dāng)某類屬性的空缺值所占百分比很大時(shí),直接忽略元組會(huì)使挖掘性能變得非常差。目前十八頁\總數(shù)一百一十七頁\編于十八點(diǎn)如何處理空缺值2)人工填寫空缺值:工作量大,可行性低3)使用屬性的平均值填充空缺值:如所有顧客的平均收入為$1000,則使用該值替換income中的空缺值。目前十九頁\總數(shù)一百一十七頁\編于十八點(diǎn)如何處理空缺值4)使用一個(gè)全局變量填充空缺值:如:將空缺的屬性值用同一個(gè)常數(shù)(如“Unknown”)替換。如果空缺值都用“Unknown”替換,當(dāng)空缺值較多時(shí),挖掘程序可能誤以為它們形成了一個(gè)有趣的概念,因?yàn)樗鼈兌季哂邢嗤闹怠癠nknown”。因此,盡管該方法簡(jiǎn)單,我們并不推薦它。目前二十頁\總數(shù)一百一十七頁\編于十八點(diǎn)如何處理空缺值5)使用與給定元組屬同一類的所有樣本的平均值:適用于分類數(shù)據(jù)挖掘;如將顧客按信用度分類,則用具有相同信用度的顧客的平均收入替換income中的空缺值。6)使用最可能的值填充空缺值(最常用):可以利用回歸、貝葉斯計(jì)算公式或判定樹歸納確定,推斷出該條記錄特定屬性最大可能的取值;如,利用數(shù)據(jù)集中其他顧客的屬性,構(gòu)造一棵判定樹,預(yù)測(cè)income的空缺值。

目前二十一頁\總數(shù)一百一十七頁\編于十八點(diǎn)2.噪聲數(shù)據(jù)的處理?目前二十二頁\總數(shù)一百一十七頁\編于十八點(diǎn)噪聲數(shù)據(jù)噪聲(noise):是一個(gè)測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差引起噪聲數(shù)據(jù)的原因數(shù)據(jù)收集工具的問題數(shù)據(jù)輸入錯(cuò)誤數(shù)據(jù)傳輸錯(cuò)誤技術(shù)限制命名規(guī)則的不一致目前二十三頁\總數(shù)一百一十七頁\編于十八點(diǎn)如何處理噪聲數(shù)據(jù)1)分箱(binning):分箱方法通過考察“鄰居”(即周圍的值)來平滑存儲(chǔ)數(shù)據(jù)的值。存儲(chǔ)的值被分布到一些“桶”或箱中。由于分箱方法參考相鄰的值,因此它進(jìn)行局部平滑。目前二十四頁\總數(shù)一百一十七頁\編于十八點(diǎn)如何處理噪聲數(shù)據(jù)分箱的步驟:首先排序數(shù)據(jù),并將它們分到等深(等寬)的箱中;然后可以按箱的平均值、按箱中值或者按箱的邊界等進(jìn)行平滑。按箱的平均值平滑:箱中每一個(gè)值被箱中的平均值替換按箱的中值平滑:箱中的每一個(gè)值被箱中的中值替換按箱的邊界平滑:箱中的最大和最小值被視為箱邊界,箱中的每一個(gè)值被最近的邊界值替換。目前二十五頁\總數(shù)一百一十七頁\編于十八點(diǎn)如何處理噪聲數(shù)據(jù)①等深分箱(binning):按記錄數(shù)進(jìn)行分箱,每箱具有相同的記錄數(shù),每箱的記錄數(shù)稱為箱的權(quán)重,也稱箱子的深度。目前二十六頁\總數(shù)一百一十七頁\編于十八點(diǎn)示例:已知一組價(jià)格數(shù)據(jù):15,21,24,21,25,4,8,34,28現(xiàn)用等深(深度為3)分箱方法對(duì)其進(jìn)行平滑,以對(duì)數(shù)據(jù)中的噪聲進(jìn)行處理。思考:根據(jù)bin中值進(jìn)行平滑的結(jié)果?結(jié)果:Bin1:8、8、8;Bin2:21、21、21;Bin3:28、28、28目前二十七頁\總數(shù)一百一十七頁\編于十八點(diǎn)

在該例中,price數(shù)據(jù)首先被劃分并存人等深的箱中(深度3)。對(duì)于按箱平均值平滑,箱中每一個(gè)值被箱中的平均值替換。例如,箱1中的值4,8和15的平均值是9;這樣,該箱中的每一個(gè)值被替換為9。對(duì)于按箱邊界平滑,箱中的最大和最小值被視為箱邊界。箱中的每一個(gè)值被最近的邊界值替換。類似地,可以使用按箱中值平滑。此時(shí),箱中的每一個(gè)值被箱中的中值替換。目前二十八頁\總數(shù)一百一十七頁\編于十八點(diǎn)如何處理噪聲數(shù)據(jù)②等寬分箱(binning):

在整個(gè)屬性值的區(qū)間上平均分布,即每個(gè)箱的區(qū)間范圍設(shè)定為一個(gè)常量,稱為箱子的寬度。目前二十九頁\總數(shù)一百一十七頁\編于十八點(diǎn)示例:已知一組價(jià)格數(shù)據(jù):15,21,24,21,25,4,8,34,28現(xiàn)用等寬(寬度為10)分箱方法對(duì)其進(jìn)行平滑,以對(duì)數(shù)據(jù)中的噪聲進(jìn)行處理。結(jié)果:先排序:4,8,15,21,21,24,25,28,341)劃分為等寬度箱子Bin1:4、8;Bin2:15、21、21、24、25;Bin3:28、342)根據(jù)均值進(jìn)行平滑Bin1:6、6;Bin2:21、21、21、21、21;Bin3:31、313)根據(jù)中值進(jìn)行平滑Bin1:6、6;Bin2:21、21、21、21、21;Bin3:31、314)根據(jù)邊界進(jìn)行平滑:Bin1:4、8;Bin2:15、25、25、25、25;Bin3:28、34目前三十頁\總數(shù)一百一十七頁\編于十八點(diǎn)練習(xí):已知客戶收入屬性income排序后的值(人民幣元):800,1000,1200,1500,1500,1800,2000,2300,2500,2800,3000,3500,4000,4500,4800,5000要求:分別用等深分箱方法(箱深為4)、等寬分箱方法(寬度為1000)對(duì)其進(jìn)行平滑,以對(duì)數(shù)據(jù)中的噪聲進(jìn)行處理。目前三十一頁\總數(shù)一百一十七頁\編于十八點(diǎn)(1)等深分箱結(jié)果:(1)首先,劃分為等深的箱:箱1(800,1000,1200,1500);箱2(1500,1800,2000,2300);箱3(2500,2800,3000,3500);箱4(4000,4500,4800,5000)(2)按箱的平均值平滑,結(jié)果為:箱1(1125,1125,1125,1125);箱2(1900,1900,1900,1900);箱3(2950,2950,2950,2950);箱4(4575,4575,4575,4575)目前三十二頁\總數(shù)一百一十七頁\編于十八點(diǎn)(1)等深分箱結(jié)果:(2)按箱的中值平滑,結(jié)果為:箱1(1100,1100,1100,1100);箱2(1900,1900,1900,1900);箱3(2900,2900,2900,2900);箱4(4650,4650,4650,4650)(2)按箱的邊界值平滑,結(jié)果為:箱1(800,800,1500,1500);箱2(1500,1500,2300,2300);箱3(2500,2500,3500,3500);箱4(4000,4000,5000,5000)目前三十三頁\總數(shù)一百一十七頁\編于十八點(diǎn)(2)等寬分箱結(jié)果:(1)首先,劃分為等寬的箱:箱1(800,1000,1200,1500,1500,1800);箱2(2000,2300,2500,2800,3000);箱3(3500,4000,4500);箱4(4800,5000)(2)按箱的平均值平滑,結(jié)果為:箱1(1300,1300,1300,1300,1300,1300);箱2(2520,2520,2520,2520,2520);箱3(4000,4000,4000);箱4(4900,4900)目前三十四頁\總數(shù)一百一十七頁\編于十八點(diǎn)(2)等寬分箱結(jié)果:(1)按箱的中值平滑,結(jié)果為:箱1(1350,1350,1350,1350,1350,1350);箱2(2500,2500,2500,2500,2500);箱3(4000,4000,4000);箱4(4900,4900)(2)按箱的邊界值平滑,結(jié)果為:箱1(800,800,800,1800,1800,1800);箱2(2000,2000,3000,3000,3000);箱3(3500,3500,4000);箱4(4800,5000)目前三十五頁\總數(shù)一百一十七頁\編于十八點(diǎn)如何處理噪聲數(shù)據(jù)2)聚類(Clustering):相似或相鄰近的數(shù)據(jù)聚合在一起形成各個(gè)聚類集合,而那些位于聚類集合之外的數(shù)據(jù)對(duì)象,被視為孤立點(diǎn)。特點(diǎn):直接形成簇并對(duì)簇進(jìn)行描述,不需要任何先驗(yàn)知識(shí)。通過聚類分析查找孤立點(diǎn),消除噪聲目前三十六頁\總數(shù)一百一十七頁\編于十八點(diǎn)如何處理噪聲數(shù)據(jù)3)計(jì)算機(jī)和人工檢查結(jié)合計(jì)算機(jī)檢測(cè)可疑數(shù)據(jù),然后對(duì)它們進(jìn)行人工判斷4)回歸發(fā)現(xiàn)兩個(gè)相關(guān)的變量之間的變化模式,利用回歸分析方法所獲得的擬合函數(shù),幫助平滑數(shù)據(jù)及除去噪聲。xyy=x+1X1Y1Y1’目前三十七頁\總數(shù)一百一十七頁\編于十八點(diǎn)

許多數(shù)據(jù)平滑的方法也是涉及離散化的數(shù)據(jù)歸約方法。例如,上面介紹的分箱技術(shù)減少了每個(gè)屬性的不同值的數(shù)量。另外,概念分層是一種數(shù)據(jù)離散化形式,也可以用于數(shù)據(jù)平滑。例如,price的概念分層可以把price的值映射到inexpensive,moderately_priced和expensive,從而減少了挖掘過程所處理的值的數(shù)量。注意:目前三十八頁\總數(shù)一百一十七頁\編于十八點(diǎn)3.不一致數(shù)據(jù)的處理?目前三十九頁\總數(shù)一百一十七頁\編于十八點(diǎn)不一致數(shù)據(jù)處理不一致數(shù)據(jù)的方式:人工更正利用知識(shí)工程工具:如,如果知道屬性間的函數(shù)依賴關(guān)系,可以據(jù)此查找違反函數(shù)依賴的值。

數(shù)據(jù)字典:在將不同操作性數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行集成時(shí),也會(huì)帶來數(shù)據(jù)的不一致。如:一個(gè)給定的屬性在不同的數(shù)據(jù)庫(kù)中可能具有不同的名字,如姓名在一個(gè)數(shù)據(jù)庫(kù)中為Bill,在另一個(gè)數(shù)據(jù)庫(kù)中可能為B。對(duì)此,可根據(jù)數(shù)據(jù)字典中提供的信息,消除不一致。40目前四十頁\總數(shù)一百一十七頁\編于十八點(diǎn)4.2數(shù)據(jù)集成和變換數(shù)據(jù)挖掘所需要的海量數(shù)據(jù)集往往涉及多個(gè)數(shù)據(jù)源,因此,在信息處理之前需要合并這些數(shù)據(jù)源存儲(chǔ)的數(shù)據(jù)。如果原始數(shù)據(jù)的形式不適合信息處理算法的需要,就要進(jìn)行數(shù)據(jù)變換。1)數(shù)據(jù)集成:將來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)合并到一起:2)數(shù)據(jù)變換:對(duì)數(shù)據(jù)進(jìn)行規(guī)范化操作,將其轉(zhuǎn)換成適合于數(shù)據(jù)挖掘的形式。目前四十一頁\總數(shù)一百一十七頁\編于十八點(diǎn)1.數(shù)據(jù)集成?目前四十二頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)集成數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)整合到一個(gè)一致的存儲(chǔ)中。這些源可以是關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或一般文件。它需要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的:同名異義;異名同義;單位不統(tǒng)一;字長(zhǎng)不一致等。43目前四十三頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)集成集成過程中需要注意的問題模式集成問題;冗余問題;數(shù)據(jù)值沖突檢測(cè)與消除。44目前四十四頁\總數(shù)一百一十七頁\編于十八點(diǎn)(1)模式集成問題模式集成:整合不同數(shù)據(jù)源中的元數(shù)據(jù);進(jìn)行實(shí)體識(shí)別:匹配來自不同數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體如:如何確信一個(gè)數(shù)據(jù)庫(kù)中的customer_id和另一個(gè)數(shù)據(jù)庫(kù)中的cust_number是同一實(shí)體。通常,數(shù)據(jù)庫(kù)的數(shù)據(jù)字典和數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù),可幫助避免模式集成中的錯(cuò)誤。45目前四十五頁\總數(shù)一百一十七頁\編于十八點(diǎn)(2)數(shù)據(jù)冗余問題數(shù)據(jù)冗余問題:同一屬性值不同的數(shù)據(jù)庫(kù)中會(huì)有不同的字段名;一個(gè)屬性可以由另外一個(gè)表導(dǎo)出,如:一個(gè)顧客數(shù)據(jù)表中的平均月收入屬性,可以根據(jù)月收入屬性計(jì)算出來。46目前四十六頁\總數(shù)一百一十七頁\編于十八點(diǎn)(2)數(shù)據(jù)冗余問題數(shù)據(jù)冗余問題:有些冗余可以被相關(guān)分析檢測(cè)到:如果變量A、B間具有較高的相關(guān)系數(shù),表明A或B可以作為冗余而去掉。除了檢查屬性是否冗余外,還要檢查記錄行的冗余。47目前四十七頁\總數(shù)一百一十七頁\編于十八點(diǎn)(3)數(shù)據(jù)值沖突問題數(shù)據(jù)值沖突對(duì)現(xiàn)實(shí)世界的同一實(shí)體,來自不同數(shù)據(jù)源的屬性值可能不同。產(chǎn)生的原因:表示、比例或編碼不同。如:重量屬性在一個(gè)系統(tǒng)中可能以公制單位存放,而在另一系統(tǒng)中可能以英制單位存放;同一商品的價(jià)格屬性值不同地域采用不同價(jià)格單位;不同學(xué)校的成績(jī)單可能以百分制、五分制及其他等級(jí)制來存放等等。48目前四十八頁\總數(shù)一百一十七頁\編于十八點(diǎn)2.數(shù)據(jù)變換?目前四十九頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)變換數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式。涉及內(nèi)容:(1)平滑:去掉數(shù)據(jù)中的噪聲,將連續(xù)的數(shù)據(jù)離散化:分箱聚類回歸。(2)聚集:對(duì)數(shù)據(jù)進(jìn)行匯總和聚集Avg(),count(),sum(),min(),max(),…如,每天銷售額(數(shù)據(jù))可以進(jìn)行聚集操作以獲得每月或每年的總額。可用來構(gòu)造數(shù)據(jù)立方體。50目前五十頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)變換數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式。涉及內(nèi)容:(3)數(shù)據(jù)概化:使用概念分層,用更抽象(更高層次)的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對(duì)象如,街道屬性,可以泛化到更高層次的概念,如城市、國(guó)家;同樣,對(duì)于數(shù)值型的屬性,如年齡屬性,可以映射到更高層次的概念,如年輕、中年和老年。51目前五十一頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)變換數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式。涉及內(nèi)容:(4)規(guī)范化:將數(shù)據(jù)按比例進(jìn)行縮放,使之落入一個(gè)特定的區(qū)域,以消除數(shù)值型屬性因大小不一而造成的挖掘結(jié)果的偏差。如將工資收入屬性值映射到[-1.0,1.0]的范圍內(nèi)。常用的方法:最小-最大規(guī)范化;零-均值規(guī)范化(z-score規(guī)范化);小數(shù)定標(biāo)規(guī)范化。52目前五十二頁\總數(shù)一百一十七頁\編于十八點(diǎn)規(guī)格化的目的:

是將一個(gè)屬性取值范圍影射到一個(gè)特定范圍之內(nèi),以消除數(shù)值性屬性因大小不一而造成挖掘結(jié)果的偏差。數(shù)據(jù)變換—規(guī)范化目前五十三頁\總數(shù)一百一十七頁\編于十八點(diǎn)在正式進(jìn)行數(shù)據(jù)挖掘之前,尤其是使用基于對(duì)象距離的挖掘算法時(shí),必須進(jìn)行數(shù)據(jù)的規(guī)格化。

如對(duì)于一個(gè)顧客信息數(shù)據(jù)庫(kù)中年齡屬性或工資屬性,由于工資屬性的取值比年齡屬性的取值要大得多,若不進(jìn)行規(guī)格化處理,基于工資屬性的距離計(jì)算值將遠(yuǎn)遠(yuǎn)超過基于年齡屬性的計(jì)算值,這就意味著工資屬性的作用在整個(gè)數(shù)據(jù)對(duì)象的距離計(jì)算中被錯(cuò)誤放大了。數(shù)據(jù)變換—規(guī)范化目前五十四頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)變換—規(guī)范化數(shù)據(jù)規(guī)范化:將數(shù)據(jù)按比例縮放至一個(gè)小的特定區(qū)間:1)最小—最大規(guī)范化:假定minA和maxA分別為屬性A的最小和最大值,則通過下面公式將A的值映射到區(qū)間[new_min,new_max]中的v’:例:假定屬性income的最小與最大值分別為$12000和$98000,可根據(jù)最小—最大規(guī)范化方法將其范圍映射到[0,1]:如:屬性值$73600將變換為:[(73600-12000)/(98000-12000)]*(1-0)+0=0.71655目前五十五頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)變換—規(guī)范化2)z-score規(guī)范化(零均值規(guī)范化):將屬性A的值根據(jù)其平均值和標(biāo)準(zhǔn)差進(jìn)行規(guī)范化;常用于屬性最大值與最小值未知,或使用最小最大規(guī)范化方法會(huì)出現(xiàn)異常數(shù)據(jù)的情況。其中,meanA、standard-devA分別為屬性A取值的均值和標(biāo)準(zhǔn)差。例:假定屬性income的平均值與標(biāo)準(zhǔn)差分別為$54000和$16000,使用z-score規(guī)范化,則屬性值$73600將變換為:(73600-54000)/16000=1.22556目前五十六頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)變換—規(guī)范化3)小數(shù)定標(biāo)規(guī)范化:通過移動(dòng)屬性A的小數(shù)點(diǎn)位置進(jìn)行規(guī)范化,小數(shù)點(diǎn)的移動(dòng)依賴于A的最大絕對(duì)值:例:假定A的取值范圍[-986,917],則A的最大絕對(duì)值為986,為使用小數(shù)定標(biāo)規(guī)范化,用1000(即j=3)除每個(gè)值,這樣-986被規(guī)范化為-0.986。其中,j是使Max(|v’|)<1的最小整數(shù)57目前五十七頁\總數(shù)一百一十七頁\編于十八點(diǎn)規(guī)范化將原來的數(shù)據(jù)改變很多,特別是上述的后兩種方法。有必要保留規(guī)范化參數(shù)(如平均值和標(biāo)準(zhǔn)差,如果使用z-score規(guī)范化),以便將來的數(shù)據(jù)可以用一致的方式規(guī)范化。注意:目前五十八頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)變換數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式。涉及內(nèi)容:(5)屬性構(gòu)造:利用已有屬性集構(gòu)造出新的屬性,并加入到現(xiàn)有屬性集中以幫助挖掘更深層次的模式知識(shí),提高挖掘結(jié)果的準(zhǔn)確性;如,根據(jù)寬、高屬性,可以構(gòu)造一個(gè)新屬性:面積。59目前五十九頁\總數(shù)一百一十七頁\編于十八點(diǎn)4.3數(shù)據(jù)歸約對(duì)大規(guī)模數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行復(fù)雜的數(shù)據(jù)分析常需要消耗大量的時(shí)間,使得這樣的分析變得不現(xiàn)實(shí)和不可行;數(shù)據(jù)歸約(datareduction):數(shù)據(jù)消減或約簡(jiǎn),是在不影響最終挖掘結(jié)果的前提下,縮小所挖掘數(shù)據(jù)的規(guī)模。數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍接近保持原數(shù)據(jù)的完整性。對(duì)歸約后的數(shù)據(jù)集進(jìn)行挖掘可提高挖掘的效率,并產(chǎn)生相同(或幾乎相同)的結(jié)果。目前六十頁\總數(shù)一百一十七頁\編于十八點(diǎn)4.3數(shù)據(jù)歸約數(shù)據(jù)歸約的標(biāo)準(zhǔn):用于數(shù)據(jù)歸約的時(shí)間不應(yīng)當(dāng)超過或“抵消”在歸約后的數(shù)據(jù)集上挖掘節(jié)省的時(shí)間。歸約得到的數(shù)據(jù)比原數(shù)據(jù)小得多,但可以產(chǎn)生相同或幾乎相同的分析結(jié)果。目前六十一頁\總數(shù)一百一十七頁\編于十八點(diǎn)4.3數(shù)據(jù)歸約數(shù)據(jù)歸約的策略如下:數(shù)據(jù)立方體聚集;維歸約;數(shù)據(jù)壓縮;數(shù)值歸約;離散化和概念分層生成。目前六十二頁\總數(shù)一百一十七頁\編于十八點(diǎn)1.數(shù)據(jù)立方體聚集?目前六十三頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)立方體聚集64目前六十四頁\總數(shù)一百一十七頁\編于十八點(diǎn)2.維歸約?目前六十五頁\總數(shù)一百一十七頁\編于十八點(diǎn)維歸約維歸約:主要用于檢測(cè)并刪除不相關(guān)、弱相關(guān)或冗余的屬性維用于數(shù)據(jù)分析的數(shù)據(jù)可能包含數(shù)以百計(jì)的屬性,其中大部分可能與挖掘任務(wù)不相關(guān),是冗余的。如,分析顧客是否會(huì)在商場(chǎng)購(gòu)買mp3播放器,諸如顧客的電話號(hào)碼等屬性多半是不相關(guān)的。維歸約通過刪除不相關(guān)的屬性(或維),而有效減少數(shù)據(jù)庫(kù)的規(guī)模。最常用的方法:屬性子集選擇。66目前六十六頁\總數(shù)一百一十七頁\編于十八點(diǎn)維歸約—屬性子集選擇目標(biāo):找出最小屬性集,確保新數(shù)據(jù)集的概率分布盡可能接近原數(shù)據(jù)集的概率分布。如何找出原屬性的一個(gè)‘好的’子集d個(gè)屬性有2d個(gè)可能的子集。窮舉搜索找出屬性的最佳子集可能是不現(xiàn)實(shí)的,特別是當(dāng)d的數(shù)目很大時(shí)。67目前六十七頁\總數(shù)一百一十七頁\編于十八點(diǎn)維歸約—屬性子集選擇啟發(fā)式算法:對(duì)于屬性子集選擇,通常使用壓縮搜索空間的啟發(fā)式算法。它們的策略是做局部最優(yōu)選擇,期望由此導(dǎo)致全局最優(yōu)解。68目前六十八頁\總數(shù)一百一十七頁\編于十八點(diǎn)維歸約—屬性子集選擇常用的啟發(fā)式方法:1)逐步向前選擇:

該過程由空屬性集開始,選擇原屬性集中最好的屬性,并將它添加到該集合中。在其后的每一次迭代,將原屬性集剩下的屬性中的最好的屬性添加到該集合中。

如:遺傳算法是一種基于生物進(jìn)化論和分子遺傳學(xué)的全局隨機(jī)搜索算法。69目前六十九頁\總數(shù)一百一十七頁\編于十八點(diǎn)維歸約—屬性子集選擇常用的啟發(fā)式方法:2)逐步向后刪除:由整個(gè)屬性集開始,每一步都刪除尚在屬性集中的最壞屬性。直到無法選擇出最壞屬性或滿足一定的閾值為止。如:粗糙集理論,

利用定義的數(shù)據(jù)集合U上的等價(jià)關(guān)系對(duì)U進(jìn)行劃分,對(duì)于數(shù)據(jù)表來說,這種等價(jià)關(guān)系可以是某個(gè)屬性,或者是幾個(gè)屬性的集合。因此,按照不同屬性的組合就把數(shù)據(jù)表劃分成不同的基本類,在這些基本類的基礎(chǔ)上進(jìn)一步求得最小約簡(jiǎn)集。70目前七十頁\總數(shù)一百一十七頁\編于十八點(diǎn)維歸約—屬性子集選擇常用的啟發(fā)式方法:3)向前選擇和向后刪除的結(jié)合:將向前選擇和向后刪除方法結(jié)合在一起;每一步選擇一個(gè)最好的屬性,并在剩余屬性中刪除一個(gè)最壞的屬性。71目前七十一頁\總數(shù)一百一十七頁\編于十八點(diǎn)維歸約—屬性子集選擇常用的啟發(fā)式方法:4)判定樹歸納:在判定樹的每個(gè)節(jié)點(diǎn),算法選擇“最好”的屬性,將數(shù)據(jù)劃分成類。當(dāng)判定樹歸納用于屬性子集選擇時(shí),不出現(xiàn)在樹中的所有屬性假定是不相關(guān)的;出現(xiàn)在判定樹中的屬性形成歸約后的屬性子集。72目前七十二頁\總數(shù)一百一十七頁\編于十八點(diǎn)目前七十三頁\總數(shù)一百一十七頁\編于十八點(diǎn)3.數(shù)據(jù)壓縮?目前七十四頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)壓縮數(shù)據(jù)壓縮就是利用數(shù)據(jù)編碼或數(shù)據(jù)轉(zhuǎn)換將原來的數(shù)據(jù)集合壓縮為一個(gè)較小規(guī)模的數(shù)據(jù)集合。壓縮算法分為兩類:無損壓縮(loseless):可以不丟失任何信息地還原壓縮數(shù)據(jù);如:字符串壓縮有損壓縮(lossy):只能重新構(gòu)造原數(shù)據(jù)的近似表示;如:音頻/視頻壓縮。75目前七十五頁\總數(shù)一百一十七頁\編于十八點(diǎn)76目前七十六頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)壓縮兩類:1)無損壓縮:指使用壓縮后的數(shù)據(jù)進(jìn)行重構(gòu)(或者叫做還原,解壓縮),重構(gòu)后的數(shù)據(jù)與原來的數(shù)據(jù)完全相同。即:數(shù)據(jù)經(jīng)過壓縮后,信息不受損失,還能完全恢復(fù)到壓縮前的原樣。壓縮軟件:Zip或RAR。77目前七十七頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)據(jù)壓縮兩類:2)有損壓縮:又稱破壞型壓縮,即將次要的信息數(shù)據(jù)壓縮掉,犧牲一些質(zhì)量來減少數(shù)據(jù)量,使壓縮比提高。常用于壓縮聲音、圖像以及視頻。音頻能夠在沒有察覺的質(zhì)量下降情況下實(shí)現(xiàn)10:1的壓縮比,視頻能夠在稍微觀察質(zhì)量下降的情況下實(shí)現(xiàn)如300:1這樣非常大的壓縮比。常見算法:JPEG、MPEG、MP3等。

算法機(jī)理:小波變換或主成份分析78目前七十八頁\總數(shù)一百一十七頁\編于十八點(diǎn)4.數(shù)值歸約?目前七十九頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)值歸約數(shù)值歸約:通過選擇替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量。(1)有參方法:通常使用一個(gè)參數(shù)模型來評(píng)估數(shù)據(jù),該方法只需要存儲(chǔ)參數(shù),而不是實(shí)際數(shù)據(jù),能大大減少數(shù)據(jù)量,但只對(duì)數(shù)值型數(shù)據(jù)有效。如:線性回歸方法(最小二乘法):Y=α+βX80目前八十頁\總數(shù)一百一十七頁\編于十八點(diǎn)數(shù)值歸約數(shù)值歸約:通過選擇替代的、較小的數(shù)據(jù)表示形式來減少數(shù)據(jù)量。(2)無參方法:常見的有:直方圖;聚類;取樣。81目前八十一頁\總數(shù)一百一十七頁\編于十八點(diǎn)1)直方圖直方圖:根據(jù)屬性的數(shù)據(jù)分布將其分成若干不相交的區(qū)間,每個(gè)區(qū)間的高度與其出現(xiàn)的頻率成正比。例:下面的數(shù)據(jù)是AllElectronics通常銷售的商品的單價(jià)表(已排序):1,1,5,5,5,5,5,8,8,10,10,10,10,12,14,14,14,15,15,15,15,15,15,18,18,18,18,18,18,18,18,20,20,20,20,20,20,20,21,21,21,21,25,25,25,25,25,28,28,30,30,30。試用直方圖表示,以壓縮數(shù)據(jù)。82目前八十二頁\總數(shù)一百一十七頁\編于十八點(diǎn)1)直方圖頻率-值對(duì)應(yīng)關(guān)系圖83目前八十三頁\總數(shù)一百一十七頁\編于十八點(diǎn)2)聚類聚類:將原數(shù)據(jù)集劃分成多個(gè)群或聚類。原則:同類中的數(shù)據(jù)彼此相似;不同類中的數(shù)據(jù)彼此不相似。相似:通常用空間距離度量

聚類的有效性依賴于實(shí)際數(shù)據(jù)的內(nèi)在規(guī)律。84目前八十四頁\總數(shù)一百一十七頁\編于十八點(diǎn)3)取樣取樣(抽樣):允許用數(shù)據(jù)的較小隨機(jī)樣本(子集)表示大的數(shù)據(jù)集。取樣方法:

不放回簡(jiǎn)單隨機(jī)取樣(SimpleRandomSamplingWithoutReplacement,SRSWOR)放回簡(jiǎn)單隨機(jī)取樣(SimpleRandomSamplingWithReplacement,SRSWR)

聚類取樣:先聚類,后取樣

分層取樣:先分層,后取樣。85目前八十五頁\總數(shù)一百一十七頁\編于十八點(diǎn)取樣——SRSSRSWOR(簡(jiǎn)單隨機(jī)選樣,不回放)SRSWR(簡(jiǎn)單隨機(jī)選樣,回放)原始數(shù)據(jù)目前八十六頁\總數(shù)一百一十七頁\編于十八點(diǎn)取樣聚類采樣:

首先將大數(shù)據(jù)集D劃分為M個(gè)互不相交的聚類,然后再?gòu)腗個(gè)類中的數(shù)據(jù)對(duì)象分別進(jìn)行隨機(jī)抽取,可最終獲得聚類采樣的數(shù)據(jù)子集。聚類采樣方法示意圖87目前八十七頁\總數(shù)一百一十七頁\編于十八點(diǎn)聚類取樣88目前八十八頁\總數(shù)一百一十七頁\編于十八點(diǎn)取樣分層取樣:

首先將大數(shù)據(jù)集D劃分為互不相交的層,然后對(duì)每一層簡(jiǎn)單隨機(jī)選樣得到D的分層選樣。

如,根據(jù)顧客的年齡組進(jìn)行分層,然后再在每個(gè)年齡組中進(jìn)行隨機(jī)選樣,從而確保了最終獲得分層采樣數(shù)據(jù)子集中的年齡分布具有代表性。89目前八十九頁\總數(shù)一百一十七頁\編于十八點(diǎn)分層取樣分層采樣方法示意圖90目前九十頁\總數(shù)一百一十七頁\編于十八點(diǎn)4.4數(shù)據(jù)離散化和概念分層*三種類型的屬性值:標(biāo)稱型(名稱型、名義型):數(shù)值來自于無序集合,如性別、地名、人名等。序數(shù)型:數(shù)值來自于有序集合,如獎(jiǎng)學(xué)金的等級(jí);職稱分布等。連續(xù)型:實(shí)數(shù)值,如溫度、體重等。離散化技術(shù):通過將屬性(連續(xù)取值)閾值范圍分為若干區(qū)間,來幫助消減一個(gè)連續(xù)(取值)屬性的取值個(gè)數(shù)。

如,將氣溫劃分為:冷、正常、熱。目前九十一頁\總數(shù)一百一十七頁\編于十八點(diǎn)4.4數(shù)據(jù)離散化和概念分層*概念分層:概念分層定義了一組由低層概念到高層概念集的映射。允許在各種抽象級(jí)別上處理數(shù)據(jù),從而在多個(gè)抽象層上發(fā)現(xiàn)知識(shí)。用較高層概念替換低層次(如年齡的數(shù)值)的概念,以此來減少取值個(gè)數(shù)。

雖然一些細(xì)節(jié)數(shù)據(jù)在泛化過程中消失了,但這樣所獲得的泛化數(shù)據(jù)或許更易于理解、更有意義。另外,在消減后的數(shù)據(jù)集上進(jìn)行信息處理顯然效率更高。

概念分層結(jié)構(gòu)可以用樹來表示,樹的每個(gè)節(jié)點(diǎn)代表一個(gè)概念。目前九十二頁\總數(shù)一百一十七頁\編于十八點(diǎn)概念分層93目前九十三頁\總數(shù)一百一十七頁\編于十八點(diǎn)離散化方法常用的離散化方法:1)分箱:屬性的值可以通過將其分配到各分箱中而將其離散化。利用每個(gè)分箱的均值或中數(shù)替換每個(gè)分箱中的值(利用均值或中數(shù)進(jìn)行平滑)。循環(huán)應(yīng)用這些操作處理每次操作結(jié)果,就可以獲得一個(gè)概念層次樹。目前九十四頁\總數(shù)一百一十七頁\編于十八點(diǎn)離散化方法常用的離散化方法:2)直方圖:等寬直方圖中,將數(shù)據(jù)劃分成相等的部分或區(qū)間,如(0,100$)、(100$,200$]、(200$,300$]….等深直方圖:值被劃分使得每一部分包括相同個(gè)數(shù)的樣本。目前九十五頁\總數(shù)一百一十七頁\編于十八點(diǎn)離散化方法常用的離散化方法:3)聚類分析:聚類算法可以將數(shù)據(jù)集劃分為若干類或組。每個(gè)類構(gòu)成了概念分層樹的一個(gè)節(jié)點(diǎn);每個(gè)類還可以進(jìn)一步分解為若干子類,從而構(gòu)造更低水平的層次。當(dāng)然類也可以合并起來構(gòu)成更高層次的概念水平。4)基于熵的離散化:熵是一種信息度量的方法5)通過自然劃分分段目前九十六頁\總數(shù)一百一十七頁\編于十八點(diǎn)基于熵的離散化思想:考慮類別信息,遞歸計(jì)算信息熵,產(chǎn)生分層的離散化。I(S)=初始不確定性:目前九十七頁\總數(shù)一百一十七頁\編于十八點(diǎn)基于熵的離散化思想:考慮類別信息,遞歸計(jì)算信息熵,產(chǎn)生分層的離散化。給定一個(gè)數(shù)據(jù)元組的集合S,基于熵對(duì)S離散化的方法如下:1)屬性A中的每個(gè)取值可被認(rèn)為是一個(gè)潛在的區(qū)間邊界或閾值T。例如,A的取值v可以將樣本S劃分為分別滿足A<v和A≥v兩個(gè)子集,這樣就創(chuàng)建了一個(gè)二元離散化。2)對(duì)于數(shù)據(jù)集S,根據(jù)所劃分子集而獲得的最大熵增益來選擇閾值,劃分后數(shù)據(jù)集S提供的信息如下:E(A)=學(xué)習(xí)屬性A之后的不確定性:目前九十八頁\總數(shù)一百一十七頁\編于十八點(diǎn)基于熵的離散化

其中S1和S2分別對(duì)應(yīng)于S中滿足條件:A<T與A≥T,的樣本。對(duì)給定的集合,熵函數(shù)Ent根據(jù)集合中樣本的類分布來計(jì)算。例如,給定m個(gè)不同類別,S1的熵就是:

其中pi為類i在S1中出現(xiàn)的概率,等于S1中類i的樣本除以S1中樣本的總行數(shù)。同理,計(jì)算Ent(S2)。3)確定閾值的過程遞歸的用于所得到的每個(gè)劃分,直到滿足某個(gè)終止條件,如:Ent(S)-I(S,T)≤δ信息增益不能低于δ:目前九十九頁\總數(shù)一百一十七頁\編于十八點(diǎn)基于熵的離散化

與迄今為止提到的其他方法不同,基于熵的離散化使用了類別信息。這使得它更有可能將區(qū)間邊界定義在準(zhǔn)確位置,有助于提高分類的準(zhǔn)確性。

此處用到的信息增益和信息熵也用于決策樹歸納。目前一百頁\總數(shù)一百一十七頁\編于十八點(diǎn)自然劃分分段思想:將數(shù)值區(qū)域劃分為相對(duì)一致的、易于閱讀的、看上去更直觀或自然的區(qū)間。聚類分析產(chǎn)生的概念分層可能會(huì)將一個(gè)工資區(qū)間劃分為:[51263.98,60872.34]而通常數(shù)據(jù)分析人員希望看到劃分的形式為[50000,60000]自然劃分的3-4-5規(guī)則常可以將數(shù)值數(shù)據(jù)劃分為相對(duì)一致和“自然”的區(qū)間。一般的,根據(jù)最重要的數(shù)字上的值區(qū)域,遞歸的和逐層的將給定的數(shù)據(jù)區(qū)域劃分為3、4或5個(gè)等寬區(qū)間。目前一百零一頁\總數(shù)一百一十七頁\編于十八點(diǎn)自然劃分的3-4-5規(guī)則規(guī)則的劃分步驟:如果一個(gè)區(qū)間最高有效位上跨越3,6,7或9個(gè)不同的值,就將該區(qū)間劃分為3個(gè)等寬子區(qū)間;(72,3,2)如果一個(gè)區(qū)間最高有效位上跨越2,4,或8個(gè)不同的值,就將該區(qū)間劃分為4個(gè)等寬子區(qū)間;如果一個(gè)區(qū)間最高有效位上跨越1,5,或10個(gè)不同的值,就將該區(qū)間劃分為5個(gè)等寬子區(qū)間;將該規(guī)則遞歸的應(yīng)用于每個(gè)子區(qū)間,產(chǎn)生給定數(shù)值屬性的概念分層;目前一百零二頁\總數(shù)一百一十七頁\編于十八點(diǎn)自然劃分的3-4-5規(guī)則規(guī)則的劃分步驟:對(duì)于數(shù)據(jù)集中出現(xiàn)的最大值和最小值的極端分布,為了避免上述方法出現(xiàn)的結(jié)果扭曲,可以在頂層分段時(shí),選用一個(gè)大部分的概率空間。e.g.5%-95%例如,在資產(chǎn)數(shù)據(jù)集中,少數(shù)人的資產(chǎn)可能比其他人高幾個(gè)數(shù)量級(jí)。如果按照最高資產(chǎn)值進(jìn)行分段,可能導(dǎo)致高度傾斜的分層。此時(shí),可以在頂層分段時(shí),選用一個(gè)大部分的概率空間。e.g.5%-95%。越出頂層分段的特別高和特別低的部分采用類似的規(guī)則劃分方法形成單獨(dú)的區(qū)間。目前一百零三頁\總數(shù)一百一十七頁\編于十八點(diǎn)示例:3-4-5規(guī)則假定AllElectronics所有分部1999年的利潤(rùn)覆蓋了一個(gè)很寬的區(qū)間,從-351.00$到4700$。要求利用3-4-5規(guī)則自動(dòng)構(gòu)造利潤(rùn)屬性的一個(gè)概念層次樹。目前一百零四頁\總數(shù)一百一十七頁\編于十八點(diǎn)示例:3-4-5規(guī)則思路:

設(shè)在上述范圍取值為5%至95%的區(qū)間為:-159$至1838$。應(yīng)用3-4-5規(guī)則的具體步驟如下:1)根據(jù)以上信息,在利潤(rùn)數(shù)據(jù)集中最小和最大值分別為:MIN=-351$,MAX=4700$。而根據(jù)以上分析,對(duì)于分段的頂層或第一層,要考慮的最低(5%)和最高(95%)的值是:LOW=-159$,HIGH=1838$。2)依據(jù)LOW和HIGH及其取值范圍,確定最高有效位為1000$,LOW按1000$美元向下取整,得到LOW’=-1000$;HIGH按1000$向上取整,得到:HIGH’=2000$。目前一百零五頁\總數(shù)一百一十七頁\編于十八點(diǎn)示例:3-4-5規(guī)則3)由于該區(qū)間在最高有效位上跨越了3個(gè)值,即(2000-(-1000))/1000=3,根據(jù)3-4-5規(guī)則,該區(qū)間被劃分成3個(gè)等寬區(qū)間:(-1000$,0],(0,1000$],(1000$,2000$]。這代表分層結(jié)構(gòu)的最頂層。目前一百零六頁\總數(shù)一百一十七頁\編于十八點(diǎn)示例:3-4-5規(guī)則4)現(xiàn)在,考察原數(shù)據(jù)集中MIN和MAX值與最高層區(qū)間的聯(lián)系。由于MIN值落在區(qū)間(-1000$,0],因此調(diào)整左邊界,對(duì)MIN取整后的-400$,所以第一個(gè)區(qū)間調(diào)整為(-400$,0]。

而由于MAX值不在最后一個(gè)區(qū)間(1000$,2000$]中,因此需新建一個(gè)區(qū)間(最右邊區(qū)間)。對(duì)MAX取整后得5000$,因此新區(qū)間為(2000$,5000]。因此最終,概念樹分層結(jié)構(gòu)的最頂層包含4個(gè)區(qū)間:(-400$,0],(0,1000$],(1000$,2000$],(2000$,5000$]。目前一百零七頁\總數(shù)一百一十七頁\編于十八點(diǎn)示例:3-4-5規(guī)則5)對(duì)上述每個(gè)區(qū)間遞歸應(yīng)用3-4-5規(guī)則,形成分層結(jié)構(gòu)的下一個(gè)較低層:第一個(gè)區(qū)間(-400$,0]:劃分為4個(gè)子區(qū)間(-400$,-300$],(-300$,-200$],(-200$,-100$],(-100$,0$].第二個(gè)區(qū)間(0$,1000$]:劃分為5個(gè)子區(qū)間(0$,200$],(200$,400$],400$,600$],(600$,800$],(800$,1000$].第三個(gè)區(qū)間(1000$,2000$]:劃分為5個(gè)子區(qū)間(1000$,1200$],(1200$,1400$],1400$,1600$],(1600$,1800$],(1800$,2000$].第四個(gè)區(qū)間(2000$,5000$]:劃分為3個(gè)子區(qū)間(2000$,3000$],(3000$,4000$],(4000$,5000$]。

類似的,如有必要,3-4-5規(guī)則可繼續(xù)在較低的層次上迭代。目前一百零八頁\總數(shù)一百一十七頁\編于十八點(diǎn)3-4-5規(guī)則——例子(-$4000-$5,000)(-$400-0)(-$400--$300)(-$300--$200)(-$200--$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論