數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)第章數(shù)據(jù)預(yù)處理技術(shù)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)第章數(shù)據(jù)預(yù)處理技術(shù)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)第章數(shù)據(jù)預(yù)處理技術(shù)_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)第章數(shù)據(jù)預(yù)處理技術(shù)_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)第章數(shù)據(jù)預(yù)處理技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)第6章數(shù)據(jù)預(yù)處理技術(shù)主講人:孫水華副教授信息科學(xué)與工程學(xué)院目錄數(shù)據(jù)預(yù)處理概述數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約小結(jié)數(shù)據(jù)預(yù)處理(datapreprocessing)是指在對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘主要的處理以前,先對(duì)原始數(shù)據(jù)進(jìn)行必要的清洗、集成、轉(zhuǎn)換、離散和歸約等等一系列的處理工作,以達(dá)到挖掘算法進(jìn)行知識(shí)獲取研究所要求的最低規(guī)范和標(biāo)準(zhǔn)?,F(xiàn)實(shí)世界的數(shù)據(jù)庫(kù)往往易受噪聲、丟失數(shù)據(jù)和不一致數(shù)據(jù)的侵?jǐn)_,因?yàn)閿?shù)據(jù)庫(kù)太大(常常多達(dá)數(shù)千兆字節(jié),甚至更多),并且多半來(lái)自多個(gè)異構(gòu)數(shù)據(jù)源。低質(zhì)量的數(shù)據(jù)將導(dǎo)致低質(zhì)量的挖掘結(jié)果。這就需要進(jìn)行數(shù)據(jù)預(yù)處理,從而提高數(shù)據(jù)質(zhì)量,進(jìn)而提高挖掘結(jié)果的質(zhì)量?,F(xiàn)在人們已經(jīng)積累了大量的數(shù)據(jù)預(yù)處理技術(shù)。如何恰當(dāng)選擇和應(yīng)用這些技術(shù)得到更有效的數(shù)據(jù),是一個(gè)值得探討的問(wèn)題。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的應(yīng)用產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)不一定是規(guī)范化的,它以不同的形式存儲(chǔ)在不同的地方。根據(jù)“垃圾進(jìn),垃圾出”原理,這些低質(zhì)量的數(shù)據(jù)進(jìn)入系統(tǒng)將會(huì)導(dǎo)致昂貴的操作費(fèi)用和系統(tǒng)漫長(zhǎng)的響應(yīng)時(shí)間,并且對(duì)從數(shù)據(jù)集中抽取的模式的正確性和導(dǎo)出規(guī)則的準(zhǔn)確性產(chǎn)生巨大的影響,更嚴(yán)重的是會(huì)使得決策支持系統(tǒng)產(chǎn)生錯(cuò)誤的分析結(jié)果,誤導(dǎo)決策。6.1數(shù)據(jù)預(yù)處理概述6.1.1數(shù)據(jù)預(yù)處理的必要性現(xiàn)實(shí)世界采集到的大量的各種各樣的數(shù)據(jù)是不符合挖掘算法進(jìn)行知識(shí)獲取研究所要求的規(guī)范和標(biāo)準(zhǔn)的。主要具有以下特征:(1)不完整性。指的是數(shù)據(jù)記錄中可能會(huì)出現(xiàn)有些數(shù)據(jù)屬性的值丟失或不確定的情況,還有可能缺失必需的數(shù)據(jù)。這是由于系統(tǒng)設(shè)計(jì)時(shí)存在的缺陷或者使用過(guò)程中一些人為因素所造成的,如有些數(shù)據(jù)缺失只是因?yàn)檩斎霑r(shí)認(rèn)為是不重要的;相關(guān)數(shù)據(jù)沒(méi)有記錄可能是由于理解錯(cuò)誤,或者因?yàn)樵O(shè)備故障;與其他記錄不一致的數(shù)據(jù)可能已經(jīng)刪除;歷史記錄或修改的數(shù)據(jù)可能被忽略等等。(2)含噪聲。指的是數(shù)據(jù)具有不正確的屬性值,包含錯(cuò)誤或存在偏離期望的離群值。產(chǎn)生的原因很多。比如收集數(shù)據(jù)的設(shè)備可能出故障;人或計(jì)算機(jī)的錯(cuò)誤可能在數(shù)據(jù)輸入時(shí)出現(xiàn);數(shù)據(jù)傳輸中也可能出現(xiàn)錯(cuò)誤。不正確的數(shù)據(jù)也可能是由命名約定或所用的數(shù)據(jù)代碼不一致,或輸入字段(如時(shí)間)的格式不一致而導(dǎo)致的。實(shí)際使用的系統(tǒng)中,還可能存在大量的模糊信息,有些數(shù)據(jù)其至還具有一定的隨機(jī)性。(3)雜亂性(不一致性)。原始數(shù)據(jù)是從各個(gè)實(shí)際應(yīng)用系統(tǒng)中獲取的,由于各應(yīng)用系統(tǒng)的數(shù)據(jù)缺乏統(tǒng)一標(biāo)準(zhǔn)的定義,數(shù)據(jù)結(jié)構(gòu)也有較大的差異,因此各系統(tǒng)間的數(shù)據(jù)存在較大的不一致性,往往不能直接拿來(lái)使用。同時(shí)來(lái)自不同的應(yīng)用系統(tǒng)中的數(shù)據(jù)由于合并而普遍存在數(shù)據(jù)的重復(fù)和信息的冗余現(xiàn)象。常見(jiàn)的數(shù)據(jù)預(yù)處理方法有:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。圖6.1給出了數(shù)據(jù)預(yù)處理的典型形式。6.1.2數(shù)據(jù)預(yù)處理的基本方法數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸納-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48屬性屬性圖6.1數(shù)據(jù)預(yù)處理的典型形式數(shù)據(jù)清理(datacleaning)處理例程通常包括:填補(bǔ)遺漏的數(shù)據(jù)值、平滑有噪聲數(shù)據(jù)、識(shí)別或除去異常值,以及解決不一致問(wèn)題。數(shù)據(jù)集成(dataintegration)就是將來(lái)至多個(gè)數(shù)據(jù)源的數(shù)據(jù)合并到一起,形成一致的數(shù)據(jù)存儲(chǔ),如將不同數(shù)據(jù)庫(kù)中的數(shù)據(jù)集成入一個(gè)數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)。之后,有時(shí)還需要進(jìn)行數(shù)據(jù)清理以便消除可能存在的數(shù)據(jù)冗余。數(shù)據(jù)變換(datatransformation)主要是將數(shù)據(jù)轉(zhuǎn)換成適合于挖掘的形式,如將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)比較小的特定區(qū)間。這一點(diǎn)對(duì)那些基于距離的挖掘算法尤為重要。包括平滑處理、聚集處理、數(shù)據(jù)泛化處理、規(guī)格化、屬性構(gòu)造。數(shù)據(jù)歸約(datareduction)在不影響挖掘結(jié)果的前提下,通過(guò)數(shù)值聚集、刪除冗余特性的辦法壓縮數(shù)據(jù),提高挖掘模式的質(zhì)量,降低時(shí)間復(fù)雜度。目前,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘在理論和應(yīng)用上都獲得了極大的發(fā)展,數(shù)據(jù)預(yù)處理作為其重要的、必不可少的組成部分,技術(shù)也隨之快速發(fā)展。現(xiàn)階段數(shù)據(jù)預(yù)處理技術(shù)中研究最多的是數(shù)據(jù)清洗和數(shù)據(jù)歸約技術(shù)。6.1.3數(shù)據(jù)預(yù)處理的研究現(xiàn)狀數(shù)據(jù)清洗研究?jī)?nèi)容主要涉及以下幾方面:(1)對(duì)數(shù)據(jù)集進(jìn)行檢測(cè)?,F(xiàn)階段主要有以下方法:可以采用統(tǒng)計(jì)學(xué)的方法來(lái)對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,計(jì)算屬性值的各種數(shù)值,如考慮屬性值之間差別大小,方差等。還有可以對(duì)與其他數(shù)據(jù)格式不一致的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,使之格式符合數(shù)據(jù)挖掘的需要。(2)對(duì)數(shù)據(jù)集中重復(fù)的對(duì)象進(jìn)行消除,也就是對(duì)重復(fù)記錄的清理。對(duì)重復(fù)數(shù)據(jù)的處理在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下特別重要,因?yàn)樵诰哂卸鄠€(gè)數(shù)據(jù)源的時(shí)候可能會(huì)產(chǎn)生大量的重復(fù)記錄。(3)對(duì)缺失數(shù)據(jù)的補(bǔ)齊,研究者大多采用可靠的算法將與缺失的值最相似的值替換缺失值的方法,包括貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、k-最臨近分類(lèi)、粗糙集理論等,這些方法大都需要判斷缺失記錄與完整記錄之間的記錄相似度,這是其核心問(wèn)題。數(shù)據(jù)歸約技術(shù)及其主要內(nèi)容為:(1)降維處理。主要采用刪除冗余屬性的方法,若用手工方法去除冗余屬性就需要用到專(zhuān)家知識(shí)。通常使用屬性子集選擇方法,包括逐步向前選擇法、逐步向后刪除法、判定樹(shù)歸納法等。(2)從數(shù)據(jù)集中選擇較小的數(shù)據(jù)表示形式來(lái)減少數(shù)據(jù)量,需要用到數(shù)值歸約技術(shù),主要采用直方圖、聚類(lèi)等技術(shù)。(3)對(duì)信息系統(tǒng)中與決策屬性沒(méi)有關(guān)聯(lián)或者關(guān)聯(lián)度不大的屬性進(jìn)行約簡(jiǎn)。通過(guò)屬性約簡(jiǎn)算法之后可以得到關(guān)鍵屬性,減少冗余屬性,從而減少得到?jīng)Q策結(jié)果所需要的時(shí)間。(4)離散化技術(shù)減少給定連續(xù)屬性值的個(gè)數(shù)。這種方法可以通過(guò)簡(jiǎn)化運(yùn)算量,但大多是遞歸的,需要花費(fèi)大量的時(shí)間在每一步的數(shù)據(jù)排序上。數(shù)據(jù)清洗可以分為有監(jiān)督和無(wú)監(jiān)督兩類(lèi)。有監(jiān)督過(guò)程是在領(lǐng)域?qū)<业闹笇?dǎo)下,分析收集的數(shù)據(jù),去除明顯錯(cuò)誤的噪聲數(shù)據(jù)和重復(fù)記錄,填補(bǔ)缺值數(shù)據(jù);無(wú)監(jiān)督過(guò)程是用樣本數(shù)據(jù)訓(xùn)練算法,使其獲得一定的經(jīng)驗(yàn),并在以后的處理過(guò)程中自動(dòng)采用這些經(jīng)驗(yàn)完成數(shù)據(jù)清洗工作。6.2數(shù)據(jù)清理6.2.1填充缺失值很多的數(shù)據(jù)都有缺失值。比如,銀行房屋貸款信用風(fēng)險(xiǎn)評(píng)估中的客戶數(shù)據(jù),其中的一些屬性可能沒(méi)有記錄值,如客戶的家庭月總收入。填充丟失的值,可以用下面的方法。(1)忽略元組。當(dāng)缺少類(lèi)標(biāo)號(hào)時(shí)通常這樣做(假定挖掘任務(wù)涉及分類(lèi))。除非元組有多個(gè)屬性缺少值,否則該方法不是很有效。當(dāng)每個(gè)屬性缺少值的百分比變化很大時(shí),它的性能特別差。(2)人工填寫(xiě)缺失值。此方法很費(fèi)時(shí),特別是當(dāng)數(shù)據(jù)集很大、缺少很多值時(shí),該方法可能不具有實(shí)際的可操作性。(3)使用一個(gè)全局常量填充缺失值。將缺失的屬性值用同一個(gè)常數(shù)(如“Unknown”或-∞)替換。但這種方法因?yàn)榇罅康牟捎猛粋€(gè)屬性值可能會(huì)誤導(dǎo)挖掘程序得出有偏差甚至錯(cuò)誤的結(jié)論,因此要小心使用。(4)用屬性的均值填充缺失值。例如,已知重慶市某銀行的貸款客戶的平均家庭月總收入為9000元,則使用該值替換客戶收入中的缺失值。(5)用同類(lèi)樣本的屬性均值填充缺失值。例如,將銀行客戶按信用度分類(lèi),就可以用具有信用度相同的貸款客戶的家庭月總收入替換家庭月總收入中的缺失值。(6)使用最可能的值填充缺失值。可以用回歸、使用貝葉斯形式化的基于推理的工具或決策樹(shù)歸納確定。例如,利用數(shù)據(jù)集中其他客戶顧客的屬性,可以構(gòu)造一棵決策樹(shù)來(lái)預(yù)測(cè)家庭月總收入的缺失值。(7)用最鄰近方法填充缺失值。方法3~6使數(shù)據(jù)偏置,填入的值可能不正確。然而,方法6是流行的策略,與其他方法相比,它使用已有數(shù)據(jù)的大部分信息來(lái)預(yù)測(cè)缺失值。在估計(jì)家庭月總收入的缺失值時(shí),通過(guò)考慮其他屬性的值,有更大的機(jī)會(huì)保持家庭月總收入和其他屬性之間的聯(lián)系。6.資2.恐2光滑蔥噪聲剖數(shù)據(jù)噪聲(n牌oi康se卡)是被求測(cè)量膠的變喚量的賽隨機(jī)澆誤差股或方跨差。錘給定更一個(gè)雁數(shù)值洪屬性麻,如pr矛ic建e,我腳們?cè)鹾皹硬欧夷堋袄饣颉睌?shù)怒據(jù),泛去掉士噪聲?我們季看看乖下面貞的數(shù)發(fā)據(jù)光思滑技可術(shù)。(1)分罪箱(b飯in庭ni逢ng苦)。分共箱方淺法通遵過(guò)考蹦察數(shù)榮據(jù)的即“近營(yíng)鄰”(即周?chē)妵墓胖?來(lái)光毫滑有候序數(shù)會(huì)據(jù)的物值。朗有序羅值分渴布到天一些頑“桶脾”或投箱中呆。由姐于分煙箱方犬法考并察近荷鄰的拳值,糕因此數(shù)進(jìn)行孫局部念光滑象。一燥般來(lái)面說(shuō),鄉(xiāng)豐寬度助越大煌光滑咬效果糕越大鑼。箱倉(cāng)也可礦以是量等寬傾的,潔每個(gè)齊箱值亞的區(qū)答間范勸闈是醫(yī)個(gè)常握量。(2)回憑歸。脊可以返用一拔個(gè)函撿數(shù)(如回維歸函攤數(shù))擬合海數(shù)據(jù)紅來(lái)光爆滑數(shù)話據(jù)?;@線性炭回歸泉涉及喂找出館擬合蘋(píng)兩個(gè)厲屬性(或變耍量)的“任最佳狀”線交,使額得一烘?zhèn)€屬僑性可樣以用貸來(lái)預(yù)槽測(cè)另峽一個(gè)冷。多夾元線捕性回稿歸是嬸線性舍回歸足的擴(kuò)吩展,改其中上涉及緩的屬槐性多榜于兩淚個(gè),死并且仇數(shù)據(jù)身擬合鑄到一火個(gè)多漲維曲益面。(3)聚意類(lèi)。期可以輩通過(guò)撈聚類(lèi)晨檢測(cè)隔離群免點(diǎn),至將類(lèi)耽似的元值組粉織成奏群或壤“簇己”。呼直觀宣地,黎落在早簇集礦合之侍外的拖值視這為離煙群點(diǎn)層。(4)人待工檢跑測(cè)。昆人工躲檢測(cè)束是由及專(zhuān)業(yè)誕人員新識(shí)別魂孤立喜點(diǎn)。啟通過(guò)壁人與盞計(jì)算兼機(jī)的幸結(jié)合婆,相脆比單化純手爹動(dòng)檢炮查整全個(gè)數(shù)救據(jù)庫(kù)眠可以跟提高伏效率肝。把數(shù)攤據(jù)清珍理作振為一朱個(gè)過(guò)恰程,湖該過(guò)旁程包侵括下膛列兩致個(gè)步諷驟:第一睜步是挪偏差保檢測(cè)(d厲is屑cr凱ep坊an再cy離d片et烏ec按ti細(xì)on叼)。發(fā)現(xiàn)在噪聲距、離荒群點(diǎn)瘡和需敗要考退察的浙不尋齡常的練值時(shí)憂,可圈以使曠用已俯有的蓄關(guān)于齊數(shù)據(jù)畫(huà)性質(zhì)石的知濁識(shí)??v這種渾知識(shí)果或“滅關(guān)于匆數(shù)據(jù)徹的數(shù)惕據(jù)”照稱(chēng)作長(zhǎng)元數(shù)植據(jù)。攏考察熊每個(gè)諒屬性腫的定驗(yàn)義域加和數(shù)藥據(jù)類(lèi)乘型、錘每個(gè)彩屬性蝦可接渣受的寫(xiě)值、繭值的清長(zhǎng)度睛范圍甩;考難察是碑否所拍有的企值都戴落在扎期望嫂的值懼域內(nèi)赤、屬倚性之丑間是秤否存忙在已塔知的鉤依賴(lài)狹;把碗握數(shù)嬌據(jù)趨骨勢(shì)和倡識(shí)別坡異常素,比胞如遠(yuǎn)淚離給頑定屬相性均妻值超斗過(guò)兩趴個(gè)標(biāo)組準(zhǔn)差濱的值苗可能聲標(biāo)記肌為潛軋?jiān)诘膬|離群悠點(diǎn)。秘另一直種錯(cuò)磁誤是奧源編漿碼使砌用的竿不一劑致問(wèn)霸題和梅數(shù)據(jù)囑表示糠的不拉一致還問(wèn)題(如日津期“20漸09/09/25喪”和“25/09/20婦09遞”)。而珍字段榜過(guò)載(f岸ie屯ld配o帖ve販rl席oa咸di恭ng覽)是另盡一類(lèi)筐錯(cuò)誤初源??疾炱麛?shù)據(jù)氧還要秒遵循悔唯一謠性規(guī)姐則、越連續(xù)逗性規(guī)普則和膏空值電規(guī)則里??删右允谷怯闷錉钏鈽?lè)部材資料人攪工地?cái)丶右缘旮龎承┍緮?shù)據(jù)騙不一鳳致。斥如數(shù)辰據(jù)輸各入時(shí)柿的錯(cuò)痰誤可錦以使榆用紙委上的圓記錄蜓加以閱更正哀。但液大部拴分錯(cuò)粒誤需每要數(shù)姐據(jù)變劫換。6.百2.才3數(shù)據(jù)伍清理垃過(guò)程第二侍步是腐糾正送偏差團(tuán)。也就付是說(shuō)嫂,一輩旦發(fā)仙現(xiàn)偏拋差,讓通常時(shí)我們更需要欲定義勻并使暫用(一系絡(luò)列)變換痕來(lái)糾芹正它妻們。昂商業(yè)盾工具統(tǒng)可以毀支持工數(shù)據(jù)枯變換似步驟槽。但相這些扇工具棚只支償持有繁限的勢(shì)變換掩,因網(wǎng)此,島我們象常常柏可能典選擇輝為數(shù)自據(jù)清歐理過(guò)供程的詞這一研步編籃寫(xiě)定球制的霸程序蹈。偏差瀉檢測(cè)耽和糾稻正偏茄差這雞兩步程過(guò)程避迭代段執(zhí)行璃。隨著鄙我們芬對(duì)數(shù)按據(jù)的狗了解朵增加舟,重容要的漁是要票不斷嫌更新坑元數(shù)毀據(jù)以妻反映違這種樂(lè)知識(shí)胳。這確有助哨于加惕快對(duì)摸相同殼數(shù)據(jù)疤存儲(chǔ)層的未揪來(lái)版諸本的領(lǐng)數(shù)據(jù)阻清理痕速度臟。6.盛3數(shù)據(jù)漠集成數(shù)據(jù)望集成功主要脹是將襲多文禍件或棗多數(shù)硬據(jù)庫(kù)捎運(yùn)行含環(huán)境各中的支異構(gòu)悶數(shù)據(jù)揉進(jìn)行胖合并笨處理往,解緣瑞決語(yǔ)夫義的六模型懶性問(wèn)扣題。該該部仇分主戀要涉執(zhí)及數(shù)再據(jù)的壤選擇己、數(shù)油據(jù)的肚沖突絹問(wèn)題布以及餓不一震致數(shù)扣據(jù)的苦處理晉問(wèn)題干。在數(shù)彎據(jù)集肚成時(shí)奪,首勝先需蛙要考阻慮的痛是模屆式集符成和貞對(duì)象唉匹配禍問(wèn)題息。來(lái)乏自多需個(gè)信腰息源頌的現(xiàn)岡實(shí)世勇界的吐等價(jià)盼實(shí)體罰的匹辰配涉解及實(shí)郵體識(shí)聞別問(wèn)類(lèi)題。覆例如躁,判騾斷一搜個(gè)數(shù)輛據(jù)庫(kù)票中的cu責(zé)st按om映er壯_i僅d與另興一個(gè)迫數(shù)據(jù)熱庫(kù)中蕉的cu務(wù)st肥_n蚊um朋be曉r是否膜是相晨同的堆屬性動(dòng)。每蜂個(gè)屬奪性的犁元數(shù)捧據(jù)可瓣以用臺(tái)來(lái)幫配助避穴免模住式集成成的眾錯(cuò)誤反,元長(zhǎng)數(shù)據(jù)林還可寄以用輝來(lái)幫學(xué)助變淘換數(shù)接據(jù)。冗余米是在女?dāng)?shù)據(jù)再集成場(chǎng)時(shí)另悉一個(gè)鐮需要匪考慮草的重騙要問(wèn)屑題。仿一個(gè)妄屬性調(diào)可能屠是冗撈余的頓,如竹果它扎能由普另一瀉個(gè)或晚另一至組屬定性“穿導(dǎo)出棉”。絹屬性興或維凍命名朽的不懼一致腸也可踢能導(dǎo)物致結(jié)退果數(shù)陣據(jù)集桐中的押冗余頸。有些扣冗余坦可以抖被相擾關(guān)分年析檢激測(cè)到館。給隸定兩渾個(gè)屬揚(yáng)性,叛這種遮分析浴可以孫根據(jù)部可用抄的數(shù)探據(jù)度高量(抽兩個(gè)杠屬性屬之間唱的相章關(guān)系姥數(shù))簡(jiǎn)估計(jì)悔一個(gè)椅屬性騰能在晉多大齊程度篩上蘊(yùn)抽涵另堂一個(gè)配屬性閑。對(duì)毀于數(shù)套值屬疊性a和b,之厭間的扁相關(guān)點(diǎn)系數(shù)rA槍B為其中住,n是數(shù)而據(jù)集岔的樣掀本個(gè)添數(shù),ai和bi分別繭是元基組i中a和b的值兵,和病分別性是a和b的均肅值,σA和σB分別胡是a和b的標(biāo)斃準(zhǔn)差拜,即-1產(chǎn)<ra滴b≤病+l。如塞果ra盟b大于0,則a和b是正黃相關(guān)執(zhí)的,泛該值財(cái)越大殿,相陶關(guān)性典越強(qiáng)(即每烤個(gè)屬老性蘊(yùn)慘涵另屑一個(gè)禿的可婚能性裕越大)。因墻此,江一個(gè)籍較高掃的ra教b值表嘉明a(或b)可以匙作為需冗余市而被厭去掉祥。如擋果結(jié)暴果值矮等于0,則a和b是獨(dú)巴立的矛,滴不存朵在相請(qǐng)關(guān)。仁如果用結(jié)果雷值小線于0,則a和b是負(fù)派相關(guān)勝的,土一個(gè)急值隨追另一或個(gè)的磨減少票而增少加。熊這意簽味每扁一個(gè)本屬性眾都阻捆止另慕一個(gè)弟屬性挺的出理現(xiàn)。數(shù)據(jù)昏集成凡的第池三個(gè)赤重要澆問(wèn)題飄是數(shù)餐據(jù)值錯(cuò)沖突釋的檢慰測(cè)與裙處理粘。例沈如,幅對(duì)于繭現(xiàn)實(shí)赴世界繭的同顆一實(shí)束體,詠來(lái)自績(jī)不同散數(shù)據(jù)椒源的沫屬性王值可芹能不木同。濫這可統(tǒng)能是旗因?yàn)橹硎究?、比竟例或蝴編碼吊不同跡。例左如,垂重量矩屬性戚可能技在一姐個(gè)系撈統(tǒng)中堡以公被制單養(yǎng)位存僚放,緣瑞而在特另一揉個(gè)系抱統(tǒng)中版以英伍制單陪位存竿放。敵對(duì)于芹連鎖葵旅館孫,不妖同城僚市的布房?jī)r(jià)押不僅毀可能臉涉及旦不同寸的貨若幣,漲而且敲可能委涉及兄不同駝的服濟(jì)務(wù)(如免水費(fèi)早拌餐)和稅帆。數(shù)據(jù)情變換浸把數(shù)粉據(jù)轉(zhuǎn)老換成旅適應(yīng)巨于挖廟掘的摩形式殿。通耽過(guò)對(duì)尺某些分屬性來(lái)按比臣例進(jìn)廳行縮釣放,但使屬益性取叔值落滲在較零小的連區(qū)間守,例線如數(shù)逃值型附屬性衰可以齊規(guī)范眾化到[0,1]區(qū)間述,這浙種變透換對(duì)辛聚類(lèi)喝、神慰經(jīng)網(wǎng)些絡(luò)等厚算法與都是盡必要建的。慮連續(xù)股屬性龍離散成化也券是決是策樹(shù)出等分竊類(lèi)分今析常珍用的叛預(yù)處夢(mèng)理。屬性稀規(guī)范瞎化會(huì)竊減少趣挖掘斃過(guò)程隔所用共的時(shí)河間,寸而且蜻規(guī)范淡化可柄以有跡效地那避免負(fù)較大難取值易的屬梅性對(duì)犁數(shù)據(jù)捏挖掘漸的過(guò)僵度影豬響。數(shù)據(jù)絮變換芹主要課涉及牛如下旨方法脖:光肝滑、鼓聚集之、箱數(shù)據(jù)以泛化座、規(guī)程范化朽。6.西4數(shù)據(jù)兔變換(1)光競(jìng)滑光滑幕:去掉肥數(shù)據(jù)礙中的鈴噪聲錫。這惱種技若術(shù)包摟括分園箱、龜回歸水和聚皺類(lèi)等滑?;刎Q歸和詞聚類(lèi)槐技術(shù)耐在后深面介績(jī)始,僚這里援簡(jiǎn)要煩介紹具一下沿分箱獨(dú)技術(shù)方。分念箱是籮通過(guò)桐分析魄鄰近違的值炭平滑納存儲(chǔ)惠數(shù)據(jù)糕的值漸,可策處理山連續(xù)績(jī)型和屯分類(lèi)導(dǎo)型變奪量,邁以得患到更專(zhuān)少的較變量料取值陪種類(lèi)麻以便耀于分蟲(chóng)析。溝數(shù)據(jù)緞被分聯(lián)布到搞箱中凝,分中箱的柿方法處是進(jìn)童行局偉部的炒平滑軍,也責(zé)可以幻玉作為孩一種拉離散欠化技卸術(shù)使孩用。欠在圖6.閑2中,膽學(xué)生娃的數(shù)蟻學(xué)成思績(jī)(爽已排棗序)告被劃畢分存足入到余等深匯的深送度為3的箱鉤中,呢然后殺采用若下面釋的方剝法之腫一平踩滑。1)按寒箱平液均值各平滑夜分箱嫁:箱跌中每佳一個(gè)沙值都饑按箱送中的恥平均映值替吊換,乓例如遭箱1中的傍值61、65、69的平荷均值熟是65,該臂箱中櫻的每翁一個(gè)罰值被藍(lán)箱中策的平哪均值65替換沸。2)按侄箱中劈燕值平杜滑:委箱中面的每共一個(gè)榨值,澤按箱株中的啟中值鏡替換綢。3)按恒箱邊弟界平謊滑:氧箱中吃的最繭大和備最小歇值被竄視為秧箱邊世界。疼箱中鑄的每赤一個(gè)講值被豆最近恩的邊俱界替寫(xiě)換。(2)聚蹄集聚集亞:對(duì)數(shù)疲據(jù)進(jìn)側(cè)行匯釀總或嶄聚集鉆。例兇如,欄可以運(yùn)聚集腹日銷(xiāo)解售數(shù)零據(jù),粘計(jì)算賀月和餓年銷(xiāo)風(fēng)售量售。通相常,徹這一版步用猛來(lái)為框多粒身度數(shù)策據(jù)分旱析構(gòu)納造數(shù)香據(jù)立逢方體并。聚脅集產(chǎn)彎生較墳小的娛數(shù)據(jù)盟集,賊使得即分析襪的數(shù)帆據(jù)更身穩(wěn)定紡,但守也應(yīng)聲注意汗可能援會(huì)丟宜失有池趣的鄉(xiāng)豐細(xì)節(jié)中。(3)數(shù)發(fā)據(jù)泛浸化數(shù)據(jù)茅泛化敢:使用僑概念趁分層性,用哨高層義概念楚替換耽低層歪或“店原始午”數(shù)縮慧據(jù)。遍例如漁,分舉類(lèi)的變屬性散,如釘街道江,可有以泛普化為買(mǎi)較高玻層的魂概念宜,如大城市街或國(guó)墊家。分類(lèi)似腿地,暖數(shù)值雅屬性律如年耕齡,凝可以閑映射秧到較屠高層勉概念陣如青液年、真中年怎和老告年。(4)規(guī)內(nèi)范化規(guī)范侵化:如果誓描述史樣本伸或記焰錄的蹈變量尺單位如不統(tǒng)雁一,薦數(shù)值奮差別異比較維大,怖就需含要把賞數(shù)據(jù)輪歸一以化、僻指數(shù)愧化或非標(biāo)準(zhǔn)然化,逗把不估同的登屬性認(rèn)進(jìn)行仍比例軌縮放誦,使耍它們納的值堤落在姑大致瓦相同市的范分圍內(nèi)舌,如-1華.O~1.售0或O.辰O~1.程0。有許終多數(shù)快據(jù)規(guī)對(duì)范化離的方江法,啊常用何的有彎三種援:最們小-最大將規(guī)范北化、z-遠(yuǎn)sc諷or守e規(guī)范兼化和饅按小牌數(shù)定狹標(biāo)規(guī)存范化永。1)最汪小-最大師規(guī)范香化。憶假定mA和MA分別吩為屬使性A的最章小值床和最盲大值役。最櫻小-最大脊規(guī)范譯化通繼過(guò)計(jì)瘦算將A的值v映射砌到區(qū)喬間[ne訊w_抄mA符,n算ew贊_M爆A]中的v’。最小-最大幕規(guī)范端化對(duì)臨原始傲數(shù)據(jù)匙進(jìn)行疊線性務(wù)變換或,保勸持原融始數(shù)魔據(jù)值蓬之間迷的聯(lián)寫(xiě)系。踢如果聚今后冰的輸息入落申在A的原貿(mào)始數(shù)掉據(jù)值顏域之鬼外,會(huì)該方腦法將妥面臨膀“越團(tuán)界”站錯(cuò)誤糖。2)z-帽sc下or牧e規(guī)范誼化(零均床值規(guī)某范化)。把滴屬性A的值v基于A的均滿值和還標(biāo)準(zhǔn)要差規(guī)莫范化艘為v’,通饅過(guò)下拿列公帶式計(jì)隱算:其中加,和σA分別拔為屬餡性A的均梯值和步標(biāo)準(zhǔn)易差。默當(dāng)屬婆性A的實(shí)危際最冒大和稿最小魚(yú)值未霸知,坑或離緒群點(diǎn)敘左右呀了最璃大-最小控規(guī)范拆化時(shí)齒,該掏方法航是有塊用的床。假定腰屬性認(rèn)平均螺家庭笑月總究收入冠的均繡值和富標(biāo)準(zhǔn)愉差分輪別為90罵00元和24鉆00元,交值12婆60浸0元使巷用z-晃sc終or穿e規(guī)范幼化轉(zhuǎn)乓換為決:3)小掃數(shù)定且標(biāo)規(guī)熱范化聾。通始過(guò)移么動(dòng)屬牌性A的小膊數(shù)點(diǎn)機(jī)位置戀進(jìn)行棗規(guī)范蓬化。尖小數(shù)睬點(diǎn)的閘移動(dòng)染位數(shù)漏依賴(lài)屢于A的最膜大絕績(jī)對(duì)值堤。A的值v規(guī)范遵化為v’,由煩下式撞計(jì)算禿:其中猶,j是使路得Ma塊x(厭|v’|污)<拿1的最歸小整案數(shù)。例如肌,假廉定A的取叔值是-9熊75~92勸3。A的最延大絕蜓對(duì)值溪為97杜5。使田用小丟數(shù)定喜標(biāo)規(guī)姥范化僑,用1晉00貞0(即j=鴨3)除每德個(gè)值峰,這姑樣,-9屑75規(guī)范猴化為-0捧.9劍75,而92痕3被規(guī)浙范化孤為0.卷92唯3。規(guī)范他化將烈原來(lái)獲的數(shù)底據(jù)改到變,陷特別銅是上友面的叮后兩下種方逢法。謊有必貼要保昏留規(guī)鞏范化祖參數(shù)(如均切值和環(huán)標(biāo)準(zhǔn)會(huì)差,辜如果預(yù)使用z-爺sc替or膝e規(guī)范責(zé)化),以啦便將逝來(lái)的造數(shù)據(jù)墊可以險(xiǎn)用一煩致的世方式累規(guī)范煤化。(5)屬納性構(gòu)益造屬性填構(gòu)造(或特勁征構(gòu)志造):屬性予構(gòu)造巖是由奇給定舒的屬擴(kuò)性構(gòu)寨造和茄添加幫新的廢屬性衰,幫雷助提花高準(zhǔn)址確率較和對(duì)悄高維凈數(shù)據(jù)患結(jié)構(gòu)鞠的理對(duì)解。挨可以兼構(gòu)造管新的艱屬性漲并添歉加到捎屬性濤集中腫,以焦幫助撤挖掘桂過(guò)程章。有些候數(shù)據(jù)算屬性嬸對(duì)發(fā)宇現(xiàn)任哲務(wù)是地沒(méi)有困影響黨的,筒這些憤屬性姨的加液入會(huì)姑大大菌影響巴挖掘椒效率其,甚科至還言可能餃導(dǎo)致丹挖掘紀(jì)結(jié)果匙的偏狂差。究數(shù)據(jù)喝簡(jiǎn)化券是在淘對(duì)發(fā)介現(xiàn)任輛務(wù)和規(guī)數(shù)據(jù)善本身腰內(nèi)容煮理解陜的基診礎(chǔ)上粘,尋騾找依固賴(lài)于耕發(fā)現(xiàn)病目標(biāo)飄的表昨達(dá)數(shù)議據(jù)的書(shū)有用輛特征途,以撓縮減籌數(shù)據(jù)吐模型黑,從族而在延盡可晶能保林持?jǐn)?shù)定據(jù)原塊貌的缸前提意下最煮大限得度地泉精簡(jiǎn)姻數(shù)據(jù)皮量。下面庸介紹遺幾種畏常見(jiàn)器的數(shù)報(bào)據(jù)歸各約技?xì)g術(shù)。6.生5數(shù)據(jù)沿歸約6.豪5.時(shí)1數(shù)據(jù)侍立方索體聚悟集數(shù)據(jù)次立方致體存汁儲(chǔ)多破維聚遙集信沫息。冤每個(gè)標(biāo)單元順存放淹一個(gè)繳聚集導(dǎo)值,缸對(duì)應(yīng)重于多選維空朝間的滴一個(gè)格數(shù)據(jù)樂(lè)點(diǎn),足每個(gè)街屬性塞可能撒存在寫(xiě)概念圓分層羅,允腎許在氏多個(gè)產(chǎn)抽象桌層進(jìn)非行數(shù)籮據(jù)分澤析。秀數(shù)據(jù)憐立方艘體提蘿供對(duì)遞預(yù)計(jì)示算的集匯總輔數(shù)據(jù)百進(jìn)行華快速虛訪問(wèn)籌,因?qū)幋?,寸適合痰聯(lián)機(jī)駛數(shù)據(jù)碌分析勾處理旦和數(shù)碧據(jù)挖橋掘。添例如島收集燭的數(shù)耀據(jù)是霞某公煉司過(guò)文去幾倍年間系每個(gè)漠季度廟的銷(xiāo)認(rèn)售數(shù)森據(jù),李而感叮興趣迷的數(shù)仙據(jù)是憂年銷(xiāo)聞售數(shù)狀據(jù),扁可以掘通過(guò)添對(duì)數(shù)曠據(jù)聚抗集匯泉總得呼到年柳總銷(xiāo)借售額紙。數(shù)襖據(jù)立龜方體也聚集裝為在怨線分至析處表理的械上鉆朗、下洽鉆等搭操作申提供搞了可住以快勁速訪善問(wèn)的頂匯總博數(shù)據(jù)筑。數(shù)據(jù)萌立方撒體聚惑集的忙基礎(chǔ)弟是概啞念分嶄層,廈用于牲處理化數(shù)據(jù)閉立方島體中汪的數(shù)舞據(jù)。坐在概郊念分瞎層的友最低提抽象勤層創(chuàng)趟建的捐立方溉體稱(chēng)臺(tái)為基唉本方思體(b懇as檔ecu烘bo爪id)?;璞痉狡阵w應(yīng)哈當(dāng)對(duì)悉應(yīng)于征感興攀趣的蕩個(gè)體白實(shí)體忘。即游最低仙層應(yīng)蛙當(dāng)是擋對(duì)應(yīng)當(dāng)于分塌析可萬(wàn)用的衫或有狹用的枯數(shù)據(jù)叨。最蒸高層在抽象掛的立春方體筐稱(chēng)為駁頂點(diǎn)驗(yàn)方體(a甘pe規(guī)xcu唐bo荒id)。對(duì)妥不同弟抽象摩層創(chuàng)圍建的依數(shù)據(jù)賊立方估體稱(chēng)茂為方個(gè)體(cu喘bo白id),因括此數(shù)艷據(jù)立壓方體索可以闖看作垮方體練的格(l若at逆ti歌ce賊o耍f次cu法bo六id昨s)。每么個(gè)較升高層榮抽象德將進(jìn)樸一步防減少胃結(jié)果統(tǒng)數(shù)據(jù)付的規(guī)蛛模。鄭當(dāng)回釣答數(shù)植據(jù)挖養(yǎng)掘查蹤蝶詢(xún)時(shí)襪,應(yīng)泡當(dāng)使聯(lián)用與朋給定瞞任務(wù)厚相關(guān)音的最輪小可巷用方擋體。6.袍5.勵(lì)2屬性值子集狐選擇用于姥分析泛的數(shù)蹈據(jù)集魯可能兄包含煩數(shù)以憂百計(jì)漲的屬定性,跪其中個(gè)大部菌分屬乘性與借挖掘煩任務(wù)啦不相遣關(guān)或約冗余惜。屬性慕子集雞選擇瓶的基負(fù)本啟蓋發(fā)式落方法無(wú)包括膨以下維幾種憤:(1)逐萄步向濟(jì)前選練擇。釀該過(guò)劫程由趟空屬視性集勻作為需歸約突集開(kāi)要始,芽確定爸原屬永性集物中最教好的澡屬性停,并味將它以添加濤到歸險(xiǎn)約集拉中。箱在其爭(zhēng)后的滾每一致次迭供代步膏,將皆剩下刷的原黨屬性累集中芒最好裕的屬曬性添裁加到之該集詠合中奇。(2)逐梢步向粥后刪君除。促該過(guò)愉程由派整個(gè)關(guān)屬性陽(yáng)集開(kāi)寒始。竄在每清一步醬,刪斤除尚雙在屬腐性集餐中最瘋差的燦屬性脂。(3)向筐前選竭擇和柿向后籮刪除峽的結(jié)睡合。釋可以芒將逐為步向皇前選撇擇和肯向后慰刪除顆方法汗結(jié)合巖在一通起,上每一根步選違擇一腎個(gè)最查好的寄屬性午,并羅在剩圖余屬伯性中冠刪除腎一個(gè)劑最差繼的屬叔性。(4)決叔策樹(shù)董歸納額。決遷策樹(shù)屠算法烘最初錯(cuò)是用折于分仇類(lèi)的歪。決炸策樹(shù)闖歸納喘構(gòu)造續(xù)一個(gè)拔類(lèi)似鋼于流輸程圖陷的結(jié)差構(gòu),查其中俊每個(gè)穴內(nèi)部(非樹(shù)慘葉)節(jié)點(diǎn)探表示葬一個(gè)述屬性項(xiàng)的測(cè)衰試,砌每個(gè)擾分枝范對(duì)應(yīng)涂于測(cè)饅試的聽(tīng)一個(gè)敬輸出閣;每晴個(gè)外蠟部(樹(shù)葉)節(jié)點(diǎn)尾表示票一個(gè)列類(lèi)預(yù)書(shū)測(cè)。博在每搏個(gè)節(jié)劍點(diǎn),延算法供選擇單“最鏈好”伸的屬擴(kuò)性,勤將數(shù)割據(jù)劃筆分成暴類(lèi)。當(dāng)決酸策樹(shù)砌歸納垃用于專(zhuān)屬性帆子集凝選擇命時(shí),北由給糟定的史數(shù)據(jù)遠(yuǎn)構(gòu)造哈決策抽樹(shù)。盯不出抽現(xiàn)在礦樹(shù)中系的所歷有屬方性假贊定是板不相身關(guān)的討。出觸現(xiàn)在沉樹(shù)中幟的屬挪性形絲式成歸那約后柏的屬鏈性子或集。林方法艦的結(jié)恒束標(biāo)果準(zhǔn)可府以不盼同。桑該過(guò)啞程可蜓以使靠用一歲個(gè)度倒量閾伏值來(lái)賢決定莊何時(shí)朱停止交屬性詳選擇侄過(guò)程長(zhǎng)。6.踐5.曉3維度們歸約維度按歸約館使用匙數(shù)據(jù)屬編碼欲或變遲換,獎(jiǎng)以便目得到凳原數(shù)歐據(jù)的墨歸約杰或“亞壓縮肚”表熄示。牢兩種睜流行貢、有慰效的爺有損港的維揪歸約銷(xiāo)方法飾是:拿小波噸變換秒和主侵成分蘆分析超。1.小波否變換小波輪變換夫可以袋用于寶多維損數(shù)據(jù)師,如橋數(shù)據(jù)危立方絲式體。霸可以歌按以恭下方底法做界:首疤先將盡變換趙用于蘿第一何個(gè)維裁,然倡后第黑二個(gè)自,如白此下障去。畏計(jì)算朵復(fù)雜勻性關(guān)歸于立占方體歷中單資元的雄個(gè)數(shù)刺是線蒼性的翅。對(duì)捉于稀藏疏或揮傾斜豬數(shù)據(jù)鵝和具劣有有俗序?qū)傺缘某閿?shù)據(jù)脾,小幅波變床換給粒出很趟好的箭結(jié)果代。小圣波變泛換有攻許多穿實(shí)際蒜應(yīng)用頌,包膽括指冬紋圖慰像壓派縮、用計(jì)算仇機(jī)視薯覺(jué)、況時(shí)間廚序列計(jì)數(shù)據(jù)嗚分析膜和數(shù)健據(jù)清棟理。2.主積成分烤分析主成脫分分伍析(P逗ri蜻nc薄ip生al戀C奇om揀po粉ne政nt評(píng)s讓An炕al鋸ys伏is,PC萬(wàn)A)搜索k個(gè)最艙能代困表數(shù)眉據(jù)的n維正昏交向濟(jì)量,邊其中k≤遵n。這春樣,典原來(lái)姐的數(shù)孕據(jù)投營(yíng)影到墾一個(gè)僻小得激多的??臻g掛,導(dǎo)泰致維慚度歸困約。PC井A通過(guò)寒創(chuàng)建班一個(gè)天替換終的、怠更小偉的變威量集靜“組村合”廳屬性她的基遺本要罰素。斗原數(shù)咸據(jù)可違以投黃影到仗該較常小的濫集合休中。PC勉A常常刑揭示凝先前劍未曾陽(yáng)察覺(jué)墊的聯(lián)廣系,冶并因蔑此允旗許解遺釋不逼尋常誘的結(jié)璃果。柳基本酬過(guò)程娘如下傳:(1)對(duì)遠(yuǎn)輸入才數(shù)據(jù)川規(guī)范敏化,障使得縱每個(gè)涉屬性任都落蔑入相裹同的澆區(qū)間科。此地步有忍助于藍(lán)確保既具有燙較大廟定義尾域的傲屬性差不會(huì)霞支配培具有蠢較小歪定義嗽域的復(fù)屬性胖。(2)PC版A計(jì)算k個(gè)標(biāo)禮準(zhǔn)正受交向仆量,五作為筒規(guī)范稍化輸秩入數(shù)午據(jù)的傍基。輕這些咐是單元位向謝量,渾每一屢個(gè)方配向都半垂直租于另沾一個(gè)以。這鈴些向柱量稱(chēng)卻為主涌成分頃。輸冬入數(shù)厚據(jù)是且主成彈分的饅線性席組合專(zhuān)。(3)對(duì)柄主成跑分按蓄“重副要性蝦”或購(gòu)強(qiáng)度貌降序貌排列壤。主茶成分慨基本吩上充辣當(dāng)數(shù)傾據(jù)的匹新坐驢標(biāo)軸污,提欲供關(guān)葡于方規(guī)差的朽重要斥信息件。也偶就是哀說(shuō),堤對(duì)坐謊標(biāo)軸禮進(jìn)行卡排序困,使呆得第波一個(gè)傷坐標(biāo)廁軸顯舒示數(shù)禾據(jù)的懂最大癥方差略,第烘二個(gè)匹顯示闊次大走方差帝,如攻此下結(jié)去。(4)主才成分座根據(jù)芽“重逐要性撐”降蘆序排退列,榮則可弱通過(guò)扁去掉蛛較弱責(zé)的成構(gòu)分(即方桿差較泊小)來(lái)歸娛約數(shù)阻據(jù)的劍規(guī)模擠。使左用最驗(yàn)強(qiáng)的榨主成旋分,惱應(yīng)當(dāng)檔能夠弄重構(gòu)懇原數(shù)綁據(jù)的善很好心的近務(wù)似。PC選A計(jì)算州開(kāi)銷(xiāo)趕低,蜜可以監(jiān)用于犬有序辱和無(wú)某序的正屬性阿,并炕且可屋以處調(diào)理稀瓣疏和政傾斜需數(shù)據(jù)極。多產(chǎn)于2維的彎多維楊數(shù)據(jù)喜可以曾通過(guò)趕將問(wèn)高題歸抬約為2維問(wèn)吸題來(lái)陪處理碌。主僑成分雨可以范用作惰多元絨回歸糠和聚永類(lèi)分芽析的芳輸入饒。與孝小波蛛變換它相比似,PC敏A能夠桿更好抵地處凍理稀抗疏數(shù)瓶據(jù),亂而小坦波變串換更刻適合合高維甩數(shù)據(jù)晚。6.嬸5.縮慧4數(shù)值吩歸約數(shù)值搞歸約異技術(shù)購(gòu)指的確是選侍擇替錫代的春、“鉗較小凳的”宜數(shù)據(jù)返表示狡形式布來(lái)減閥少數(shù)縮慧據(jù)量坑。幾壁種常嚼用數(shù)塊值歸香約技裳術(shù)如莖下:1.回裁歸和希對(duì)數(shù)啊線性盼模型回歸示和對(duì)牲數(shù)線緊性模狼型可勺以用的來(lái)近粗似給寬定的攤數(shù)據(jù)境。在(簡(jiǎn)單)線性楚回歸稍中,禮對(duì)數(shù)蛾據(jù)建莖模,羽使之榜擬合透到一飽條直絞線。鋤例如紗,可撓以用昨以下激公式兆,將擋隨機(jī)諷變量y(稱(chēng)作滑響應(yīng)耗變量)建模泉為另穗一隨迅機(jī)變臭量x(稱(chēng)為佩預(yù)測(cè)近變量)的線花性函撿數(shù)。y=wx侮+b其中栗,假狀定y的方忙差是湊常量漏。在佩數(shù)據(jù)祝挖掘業(yè)中,x和y是數(shù)俗值數(shù)懲據(jù)庫(kù)琴屬性惑。系爽數(shù)w和b(稱(chēng)作墳回歸像系數(shù))分別炎為直煩線的嗎斜率饑和Y軸截覺(jué)距。凝系數(shù)亡可以虹用最嫩小二悟乘方增法求勁解,笨它最甘小化開(kāi)分離且數(shù)據(jù)鋒的實(shí)惕際直丘線與錘直線門(mén)估計(jì)那之間亡的誤腫差。折多元妹線性戴回歸模是(簡(jiǎn)單)線性面回歸擴(kuò)的擴(kuò)瓶充,生允許卸響應(yīng)閣變量y建模額為兩塵個(gè)或珍多個(gè)巴預(yù)測(cè)東變量逝的線明性函浮數(shù)欣。2.直最方圖直方包圖使侵用分蒸箱來(lái)惜近似商數(shù)據(jù)疲分布下。屬日性A的直浪方圖柴將A的數(shù)暖據(jù)分蘿布劃男分為拖不相汗交的配子集套或桶番。如語(yǔ)果每慕個(gè)桶差只代被表單轟個(gè)屬壞性值架/頻壘率對(duì)糞,則房誠(chéng)稱(chēng)為叛單桶槳。通壁常,淚桶表羽示給那定屬魯性的碎一個(gè)抓連續(xù)詠區(qū)間者。確定喬桶和納屬性顧值的身劃分咽規(guī)則傳,包微括如掃下:(1)等膝寬。烏在等恨寬直獎(jiǎng)方圖司中,鞠每個(gè)嘆桶的再寬度皮區(qū)間紀(jì)是一微致的屬。(2)等谷頻(或等仔深)。在傾等頻南直方攝圖中萬(wàn),創(chuàng)找建桶丑,使培得每斜個(gè)桶威的頻院率粗鼓略地諒為常租數(shù)(即每嫁個(gè)桶賣(mài)大致斃包含伶相同瓣個(gè)數(shù)易的鄰惱近數(shù)恰據(jù)樣龍本)。(3)V最優(yōu)作。給騎定桶笑的個(gè)足數(shù),費(fèi)對(duì)于婚所有湊可能搜的直御方圖曲,則V最優(yōu)說(shuō)直方造圖是貧具有茄最小滾方差遼的直惰方圖妙。直至方圖索的方膜差是愉每個(gè)攪桶代皺表的罷原來(lái)昨值的鍛加權(quán)典和,帆其中線權(quán)等銹于桶忽中值樣的個(gè)槍數(shù)。(4)Ma皺xD餃if憐f:在Ma耳xD赴if逃f直方錯(cuò)圖中杏,考績(jī)慮每烏對(duì)相震鄰值忌之間遣的差喉。桶棋的邊增界是脫具有β-剖1個(gè)最膊大差室的對(duì)輩,其謹(jǐn)中β是用帥戶指掛定的弊桶數(shù)蒼。V最優(yōu)懷和Ma子xD始if落f直方薦圖看秩來(lái)是死最準(zhǔn)澇確和攻最實(shí)使用的融。對(duì)丈于近個(gè)似稀靈疏和巾稠密勸數(shù)據(jù)顯、高聽(tīng)傾斜腎和均稠勻的嶼數(shù)據(jù)盈,直蔥方圖澤是高籍度有雕效的吧。多影維直銹方圖獵可以賣(mài)表現(xiàn)梢屬性而間的擇依賴(lài)扛,這哭種直鴨方圖算能夠敢有效完地近戶似多脊達(dá)5個(gè)屬理性的欄數(shù)據(jù)策。但汽有效穩(wěn)性尚暗需進(jìn)敞一步讀研究今。對(duì)幸于存鍋放具逼有高燙頻率峰的離群群點(diǎn)騎,單寇桶是桃有用扁的。3.聚壩類(lèi)聚類(lèi)皮技術(shù)句將數(shù)梳據(jù)元喂組視夾為對(duì)罪象。譽(yù)它將屯對(duì)象誘劃分薦為群破或簇炒,使紋一個(gè)結(jié)簇中登的對(duì)忘象相步互“尋相似遙”,礙而與單其他哥簇中堪的對(duì)糧象“泡相異境”。皂通常歇,相患似性罩基于優(yōu)距離紛函數(shù)幸,用劃對(duì)象祖在空股間中筒的“酷接近倒”程研度定膠義。胸簇的遇“質(zhì)之量”躬可以多用直初徑表溪示,畝直徑率是簇叨中任椒意兩慣個(gè)對(duì)叛象的戲最大類(lèi)距離苦。質(zhì)跑心距享離是把簇質(zhì)借量的匹另一者種度袖量,牢定義棄為由舊簇質(zhì)負(fù)心(表示看“平制均對(duì)殖象”配,或肌簇空鎮(zhèn)間中低的平鋪均點(diǎn))到每浙個(gè)簇慨對(duì)象寇的平缸均距琴離。4.抽倆樣抽樣肅可以方作為協(xié)一種心數(shù)據(jù)件歸約并技術(shù)鐘使用蓄,因穿為它離允許清用數(shù)安據(jù)的厘小得堵多的垃隨機(jī)忘樣本(子集)表示賄大型嗚數(shù)據(jù)洞集。最常坐用的匙抽樣舌方法務(wù)有4種:(假定兔大型抗數(shù)據(jù)辦集D包含N個(gè)元勇組)(1)s個(gè)樣標(biāo)本無(wú)氣放回研簡(jiǎn)單強(qiáng)隨機(jī)絡(luò)抽樣(S炎R(shí)S剪WO門(mén)R)。(2)s個(gè)樣勻本有兇放回盈簡(jiǎn)單懸隨機(jī)逐抽樣(S鍛RS攔WR并)。(3)聚薪類(lèi)抽疤樣:餓如果D中的泉元組欣分組冰放入M個(gè)互擦不相旺交的書(shū)“簇姓”,囑則可碑以得唐到s個(gè)簇晌的簡(jiǎn)指單隨駁機(jī)抽客樣(S均RS冊(cè)),其衡中s<旱M。例怠如,犯數(shù)據(jù)哈庫(kù)中弟元組悠通常斤一次涉檢索鐵一頁(yè)制,這念樣每參頁(yè)就憑可以伴視為捷一個(gè)糖簇。庫(kù)也可厘以利袖用其幅他攜循帶更輕豐富瞞語(yǔ)義餃信息喊的聚賓類(lèi)標(biāo)傅準(zhǔn)。(4)分箱層抽毛樣:臂如果D劃分股成互測(cè)不相星交的心部分喬,稱(chēng)跪作層領(lǐng),則既通過(guò)停對(duì)每西一層胸的SR妄S就可較以得嗎到D的分附層樣品本。世特別觸是當(dāng)視數(shù)據(jù)騾傾斜魔時(shí),舊這可惡以幫憤助確碼保樣圾本的旗代表祖性。采用瘦抽樣技進(jìn)行賄數(shù)據(jù)筆歸約跡的優(yōu)頑點(diǎn)是證,得寨到樣華本的嶼花費(fèi)斑正比若于樣談本集朗的大柜小s,而顆不是菊數(shù)據(jù)右集的申大小N。因椒此,惹抽樣慰的復(fù)密雜度踩子線廁性(su布bl系in損ea衛(wèi)r)于數(shù)積據(jù)的厘大小宰。其鞋他數(shù)扎據(jù)歸隸約技疑術(shù)至似少需熱要完敘全掃腎描D。對(duì)巾于固勤定的便樣本曉大小蘋(píng),抽圾樣的崗復(fù)雜朱度僅另隨數(shù)塔據(jù)的西維數(shù)n線性濫地增次加;合而其童他技襯術(shù),勢(shì)如使咸用直框方圖挑,復(fù)尤雜度搬隨n指數(shù)怪增長(zhǎng)謝。用于陷數(shù)據(jù)殼歸約嗚時(shí),妻抽樣故最常女用來(lái)餡估計(jì)鳳聚集賓查詢(xún)廢的回直答。警在指霉定的懷誤差裁范圍榴內(nèi),甲可以豬確定(使用粘中心沃極限袖定理)估計(jì)稻一個(gè)臟給定取的函昆數(shù)所越需的繡樣本刷大小虎。樣續(xù)本的從大小s相對(duì)帖于N可能拼非常染小。隱對(duì)于霞?xì)w約掀數(shù)據(jù)愛(ài)集的摩逐步外求精識(shí),只端需要增簡(jiǎn)單騙地增墊加樣歸本大次小即肯可。6.催5.有5數(shù)據(jù)欺離散訪化與績(jī)概念楚分層通過(guò)聰將屬資性值伴域劃西分為退區(qū)間霧,數(shù)孩據(jù)離祖散化虹技術(shù)觀可以估用來(lái)當(dāng)減少階給定任連續(xù)盜屬性性值的茫個(gè)數(shù)釀。區(qū)憑間的綁標(biāo)記址可以神替代拌實(shí)際擊的數(shù)得據(jù)值享。用潤(rùn)少數(shù)索區(qū)間褲標(biāo)記夕替換測(cè)連續(xù)心屬性看的數(shù)籍值,地從而禾減少捧和簡(jiǎn)癥化了嚴(yán)原來(lái)勢(shì)的數(shù)撫據(jù)。揀這導(dǎo)眨致挖靜掘結(jié)較果的果簡(jiǎn)潔集、易宏于使限用的防、知孤識(shí)層球面的顫表示左。對(duì)于戶給定嗓的數(shù)答值屬邁性,兩概念繩分層規(guī)定義跪了該吼屬性桃的一俱個(gè)離蜜散化頭。通序過(guò)收去集較爭(zhēng)高層卡的概課念(如青倘年、肺中年位或老彩年)并用店它們亞替換堆較低宵層的偷概念(如年主齡的堡數(shù)值),概膠念分吳層可擔(dān)以用蹤蝶來(lái)歸讀約數(shù)頂據(jù)。邀通過(guò)港這種爺數(shù)據(jù)類(lèi)泛化捕,盡腐管細(xì)疊節(jié)丟醉失了茫,但灘是泛砌化后錢(qián)的數(shù)喊據(jù)更獻(xiàn)有意郊義、挽更容何易解自釋。這有竹助于頂通常胸需要暈的多晨種挖吵掘任騰務(wù)的災(zāi)數(shù)據(jù)潑挖掘奔結(jié)果寬的一槳致表陣示。穴此外歐,與簽對(duì)大翼型未梅泛化再的數(shù)算據(jù)集蔽挖掘批相比墾,對(duì)作歸約繭的數(shù)吹據(jù)進(jìn)利行挖策掘所贈(zèng)需的I/臨O操作暑更少棚,并李且更尼有效肌。正概因?yàn)槿跞绱舜x當(dāng)散化傲技術(shù)屆和概友念分桶層作喚為預(yù)袋處理劫步驟竟,在成數(shù)據(jù)纖挖掘常之前木而不您是在訂挖掘乞過(guò)程太進(jìn)行繼。1.?dāng)?shù)身值數(shù)樸據(jù)的犬離散序化和圾概念浪分層決產(chǎn)生數(shù)值侵屬性啄的概路念分嚷層可殘以根左據(jù)數(shù)被據(jù)離協(xié)散化點(diǎn)自動(dòng)落構(gòu)造急。通雪常,針每種培方法省都假珍定待枕離散方化的您值已擁經(jīng)按戰(zhàn)遞增惡序排個(gè)序。(1)分壯箱分箱賀是一甘種基棚于箱悅的指吸定個(gè)惹數(shù)自練項(xiàng)向輕下的擔(dān)分裂客技術(shù)照。通素過(guò)使鬼用等罷寬或暖等頻筍分箱掩,然挺后用懂箱均斧值或桿中位鍛數(shù)替捷換箱沒(méi)中的摘每個(gè)睡值,各可以醉將屬葬性值使離散離化,諒就像而分別水用箱販的均臟值或窗箱的擔(dān)中位耳數(shù)光問(wèn)滑一瞎樣。蘆這些葵技術(shù)笨可以層遞歸錫地作懇用于賀結(jié)果專(zhuān)劃分哲,產(chǎn)籍生概意念分循層。負(fù)分箱武并不臟使用腫類(lèi)信侮息,漸因此飯是一罷種非貴監(jiān)督掘的離撕散化濱技術(shù)形。它駐對(duì)用殘戶指盯定的園箱個(gè)擱數(shù)很販敏感拔,也廚容易陜受離士群點(diǎn)吐的影熟響。(2)直襖方圖作分析像分仿箱一圓樣,洗直方種圖分版析也牙是一塑種非文監(jiān)督臂離散泳化技繞術(shù),節(jié)因?yàn)榻q它也抗不使猜用類(lèi)襲信息灘。使覺(jué)用等顛頻直駛方圖悄,理守想地做分割再值使屋得每唉個(gè)劃期分包靜括相承同個(gè)歡數(shù)的暫數(shù)據(jù)挑元組頁(yè)。直斑方圖荒分析美算法冠可以尋遞歸夫地用文于每腐個(gè)劃蜜分,姨自動(dòng)登地產(chǎn)裁生多講級(jí)概筍念分依層,歡直到辮達(dá)到符預(yù)先是設(shè)定貫的概秧念層窩數(shù)過(guò)餐程終毀止。爐也可譜以對(duì)趨每一我層使螺用最翁小區(qū)硬間長(zhǎng)倒度來(lái)矛控制竭遞歸賞過(guò)程趁。最巡壽小區(qū)乒間長(zhǎng)唯度設(shè)瘡定每酸層每貸個(gè)劃笨分的槳最小碗寬度暢,或呼每層穗每個(gè)鄭劃分距中值春的最貼少數(shù)拍目。勺直方姿圖也顆可以蟻根據(jù)座數(shù)據(jù)此分布嗚的聚釘類(lèi)分遇析進(jìn)趣行劃責(zé)分。(3)基思于熵醬的離慚散化熵(e哪nt銀ro交py鉆)是最紗常用幅的離腰散化州度量棉之一愈?;W(wǎng)于熵途的離啊散化壘是一扁種監(jiān)蹄督的咸、自靈頂向稍下的盤(pán)分裂慚技術(shù)惕。它經(jīng)在計(jì)遞算和輸確定掉分裂斑點(diǎn)(劃分升屬性沖區(qū)間幣的數(shù)臘據(jù)值)時(shí)利航用類(lèi)種分布幅信息氧。對(duì)田離散狹數(shù)值鑰屬性A,選捐擇A的具循有最艱小熵用的值濁作為槍分裂氏點(diǎn),抱并遞余歸地尤劃分盈結(jié)果板區(qū)間折,得稍到分季層離鋸散化術(shù)。這乳種離羞散化各形成A的概婚念分嗎層。(4)基財(cái)于x2分析局的區(qū)第間合礦并采用御自底誼向上循的策書(shū)略,撲遞歸腥地找得出最構(gòu)佳鄰驗(yàn)近區(qū)形間,殿然后雙合并粱它們偵,形溉成較烈大的斑區(qū)間蛋。這獎(jiǎng)種方亭法是丈監(jiān)督摸的,黨它使錘用類(lèi)蝕信息遲。其噸基本鄙思想熱是,踏對(duì)于號(hào)精確警的離須散化榆,相陰對(duì)類(lèi)格頻率仁在一令個(gè)區(qū)凍間內(nèi)逢應(yīng)當(dāng)恥相當(dāng)金一致請(qǐng)。因腸此,罷如果躬兩個(gè)板鄰近吩的區(qū)甜間具史有非傾常類(lèi)章似的醬類(lèi)分屢布,堡則這遵兩個(gè)右區(qū)間漂可以墾合并款。否拳則,嫂它們頸應(yīng)當(dāng)售保持共分開(kāi)截。初始代,將懼?jǐn)?shù)值騙屬性A的每機(jī)個(gè)不偏同值東看作街一個(gè)間區(qū)間皮。對(duì)副每對(duì)許相鄰洞區(qū)間結(jié)進(jìn)行x2檢驗(yàn)街。具啄有最潤(rùn)小x2值的換相鄰特區(qū)間欠合并烏在一捏起,劇因?yàn)檫w低x2值表治明它衫們具辭有相梁似的印類(lèi)分嘩布。壺該合隱并過(guò)濤程遞污歸地控進(jìn)行蕉,直考到滿曉足預(yù)發(fā)先定帆義的院終止衰標(biāo)準(zhǔn)紅。(5)聚外類(lèi)分幸析聚類(lèi)巖分析因是一累種流聞行的必?cái)?shù)據(jù)李離散錄化方烈法。南將屬奧性A的值若劃分抵成簇磨或組援,聚勞類(lèi)考祥慮A的分惰布以灘及數(shù)楊據(jù)點(diǎn)懇的鄰功近性味,可觀以產(chǎn)綁生高炸質(zhì)量袍的離膽散化虧結(jié)果怎。遵掌循自觀頂向素下的消劃分蝕策略俗或自防底向足上的萌合并意策略騰,聚乏類(lèi)可逝以用濫來(lái)產(chǎn)貞生A的概池念分類(lèi)層,紙其中芝每個(gè)廳簇形樂(lè)成概摧念分井層的明一個(gè)劣節(jié)點(diǎn)案。在炒前者班,每沫一個(gè)驕

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論