數(shù)據(jù)預(yù)處理任務(wù)及方法_第1頁(yè)
數(shù)據(jù)預(yù)處理任務(wù)及方法_第2頁(yè)
數(shù)據(jù)預(yù)處理任務(wù)及方法_第3頁(yè)
數(shù)據(jù)預(yù)處理任務(wù)及方法_第4頁(yè)
數(shù)據(jù)預(yù)處理任務(wù)及方法_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)預(yù)處理任務(wù)及方法聚類(Aggregation)抽樣(Sample)維數(shù)約減(Dimensionalityreduction)特征子集選擇(Featuresubsetselection)特征創(chuàng)造(Featurecreation)離散化和二進(jìn)制化(Discretizationandbinarization)變量轉(zhuǎn)換(Variabletransformation)總的來(lái)說(shuō),這些內(nèi)容可以分為兩類:為分析數(shù)據(jù)選擇數(shù)據(jù)對(duì)象和屬性;為分析數(shù)據(jù)創(chuàng)造或改變屬性。所有這些內(nèi)容都是考慮到時(shí)間、成本和質(zhì)量,提高數(shù)據(jù)挖掘分析質(zhì)量。(屬性、特征、變量都是近義詞,不做具體區(qū)分)一、聚類考慮到有時(shí)候“l(fā)essismore”,將兩個(gè)或多個(gè)對(duì)象合并成一個(gè)就是聚類的思想。舉個(gè)例子,下表是由交易記錄(數(shù)據(jù)對(duì)象)構(gòu)成的一個(gè)數(shù)據(jù)集,它是不同地點(diǎn)的商店在一年內(nèi)的時(shí)間的產(chǎn)品日常銷(xiāo)售數(shù)據(jù)(Minneapolis,Chicago,Paris,……)。聚合這樣的數(shù)據(jù)集的一種方法是將一個(gè)商店的所有的交易記錄用一個(gè)單獨(dú)的商店范圍的交易代替。這樣就可以減少上千條交易記錄了。TransactionIDItemStoreLocationDataPrice…101123WatchChicago09/06/04$25.99…101123BatteryChicago09/06/04$5.99…101124ShoesMinneapolis09/06/04$75.00…但是這樣的方法有一個(gè)非常明顯的問(wèn)題:如何創(chuàng)造一個(gè)聚類的交易記錄,即應(yīng)該如何根據(jù)一個(gè)指定地點(diǎn)的記錄來(lái)合并屬性的值,創(chuàng)造聚類交易,使其能代表一個(gè)商店或者一個(gè)時(shí)間的交易。數(shù)值型屬性如價(jià)格,可以采用加和或者平均值的方式代替。質(zhì)量型屬性如項(xiàng)目,則可以采用省略或者某個(gè)地點(diǎn)的項(xiàng)目和的方法。該表格的數(shù)據(jù)可以看成是多維的列,每個(gè)屬性即是一個(gè)維度。根據(jù)這種思想,聚類可以看成是消除屬性,如刪除項(xiàng)目列,或者減少某個(gè)屬性的值的數(shù)量,如將日期可能的值從365天改成12個(gè)月的記錄方式。這種聚類經(jīng)常出現(xiàn)在在線分析處理中(OnlineAnalyticalProcessing,OLAP)中。聚類的動(dòng)機(jī):1、小的數(shù)據(jù)集可以節(jié)省內(nèi)存,提高處理效率。2、聚類可以提供更高層的數(shù)據(jù)視圖。3、群體對(duì)象的行為要比個(gè)體更加穩(wěn)定。但是聚類有一個(gè)缺點(diǎn)就是可能會(huì)丟失有趣的細(xì)節(jié)。二、抽樣數(shù)據(jù)挖掘中的抽樣動(dòng)機(jī)與統(tǒng)計(jì)學(xué)中的抽樣有所不同。統(tǒng)計(jì)學(xué)的抽樣是因?yàn)楂@得全體的成本花費(fèi)太高,而數(shù)據(jù)挖掘的抽樣是因?yàn)樘幚硭械臄?shù)據(jù)代價(jià)太高。抽樣就要使樣本具有代表性,即樣本與總體有近似的屬性。抽樣的方法:最簡(jiǎn)單的抽樣方法是隨機(jī)抽樣。隨即抽樣分成兩種(其它抽樣方法類似):不帶重復(fù)的抽樣和帶重復(fù)的抽樣。當(dāng)樣本與總體數(shù)據(jù)相比很小時(shí),兩種方法沒(méi)有大的區(qū)別,但是帶重復(fù)的抽樣在分析時(shí)相對(duì)簡(jiǎn)單,因?yàn)樵跇颖咎幚碇?,選取任何對(duì)象的概率是一樣的。當(dāng)總體有很多不同類型的對(duì)象,且對(duì)象的數(shù)量有很大不同時(shí),簡(jiǎn)單隨機(jī)抽樣并不適合。這就要使用分層抽樣。維數(shù)約減(DimensionalityReduction)數(shù)據(jù)集可以有很多的特征。對(duì)維數(shù)進(jìn)行約減可以有很多好處。其中一個(gè)關(guān)鍵的有點(diǎn)是很多數(shù)據(jù)挖掘算法在低維度的情況下有很好的表現(xiàn)。這是因?yàn)榫S數(shù)約減可以消除無(wú)關(guān)的特征并降低噪音數(shù)據(jù),也可能是因?yàn)榫S數(shù)災(zāi)難(thecurseofdimensionality)。維數(shù)約減的另一個(gè)好處是可以建立一個(gè)容易被理解的模型。維數(shù)約減通??梢圆捎媒⑿聦傩缘姆绞?,將幾個(gè)舊屬性合并在一起。也可以選擇舊屬性集中的子集,這種方法通常稱為特征子集選擇或者特征選擇。維數(shù)災(zāi)難(TheCurseofDimensionality)維數(shù)災(zāi)難是指很多情況下的數(shù)據(jù)分析在數(shù)據(jù)維度增加的情況下會(huì)變得非常困難的現(xiàn)象。特別地,當(dāng)數(shù)據(jù)維度增加時(shí),數(shù)據(jù)會(huì)變得非常稀疏。與維數(shù)約減有關(guān)的線性代數(shù)技術(shù)維數(shù)約減中最常用的方法(尤其是針對(duì)連續(xù)性數(shù)據(jù)來(lái)說(shuō))是使用線性代數(shù)的相關(guān)技術(shù)。取(featureextraction),將數(shù)據(jù)映射到新的空間中(mappingthedatatoanewspace),特征構(gòu)造(featureconstruction)。特征抽?。‵eatureExtraction)從原始數(shù)據(jù)源中構(gòu)造新的特征集合叫做特征抽取。例如,圖片的分類可以根據(jù)它是否包含人臉來(lái)進(jìn)行。源數(shù)據(jù)是像素的集合,這并不適合大多數(shù)的分類算法。然而,如果數(shù)據(jù)被處理后可以提供更高級(jí)別的特征,如與人臉相關(guān)的某些邊界和區(qū)域是否存在。那么,很多的分類技術(shù)就可以在這個(gè)問(wèn)題上使用了。不幸的是,通常情況下,特征抽取都是高度領(lǐng)域化的。某個(gè)特定的領(lǐng)域,如圖片處理中,需要很長(zhǎng)時(shí)間來(lái)建立特征和技術(shù)來(lái)從眾抽取,同時(shí),這些技術(shù)很少可以使用到其它領(lǐng)域。因此,當(dāng)數(shù)據(jù)挖掘應(yīng)用到一個(gè)新的領(lǐng)域時(shí),就需要發(fā)展一些新的特征抽取方法了。數(shù)據(jù)映射到新的空間(MappingtheDatatoaNewSpace)舉個(gè)例子,時(shí)間序列數(shù)據(jù)經(jīng)常包含周期模式。如果只有一種周期模式并且沒(méi)有噪音,這樣的周期模式就很容易被偵測(cè)。相反,如果有很多周期模式且存在大量噪音數(shù)據(jù),這就很難偵測(cè)。這樣的情況下,通常對(duì)時(shí)間序列使用傅立葉變換(Fouriertransform)轉(zhuǎn)換表示方法。特征構(gòu)造(FeatureConstruction)源數(shù)據(jù)中的某些特征有必要的信息,但其并不適合數(shù)據(jù)挖掘算法。這種情況通常需要從原始特征中構(gòu)造一個(gè)或多個(gè)新特征使用。四、離散化和二進(jìn)制化一些數(shù)據(jù)挖掘算法,尤其是某些分類算法,需要數(shù)據(jù)的屬性是類別屬性(categoricalattributes)格式的。關(guān)聯(lián)規(guī)則算法需要數(shù)據(jù)的屬性是二進(jìn)制形式的(binaryattributes)。因此常常需要將連續(xù)屬性(continuousattributes)轉(zhuǎn)變成類別屬性(categoricalattributes),即離散化(discretization)。而連續(xù)屬性或者類別屬性則可能需要變成二進(jìn)制化(binarization)。此外,如果類別屬性有太多的值,或者一些值出現(xiàn)的頻率很小,通過(guò)把一些值聯(lián)合起來(lái)可以減少類別的屬性。類似于特征選擇,離散化和二進(jìn)制化最好的方法是“對(duì)分析數(shù)據(jù)的數(shù)據(jù)挖掘算法來(lái)說(shuō),會(huì)產(chǎn)生最好的結(jié)果”。通常這并不實(shí)際,因此,離散化和二進(jìn)制化都只是需要滿足一些標(biāo)準(zhǔn),以期能獲得好點(diǎn)的數(shù)據(jù)挖掘結(jié)果。二進(jìn)制化(Binarization)類別屬性的二進(jìn)制化的一個(gè)簡(jiǎn)單的例子如下:如果類別有m個(gè)值,給每個(gè)原始的值賦予唯一的整數(shù),其區(qū)間在[0,m-1]。如果屬性是順序的,則賦值也是順序的(注意,即便原始屬性值是整數(shù)類型的,這一步也是必須的,因?yàn)樵嫉膶傩灾悼赡懿辉赱0,m-1]之間)。下一步,將每個(gè)整數(shù)值變成二進(jìn)制的形式。由于n=「log2(m)」個(gè)CategoricalValueIntegerValuexxxawful0000poor1001OK2010good3011great4100表1CategoricalValueIntegerValuexxxxxawful010000poor101000OK200100good300010great400001表2但是,這種轉(zhuǎn)變會(huì)帶來(lái)復(fù)雜性。如屬性x2和x3會(huì)產(chǎn)生聯(lián)系,因?yàn)間ood這個(gè)屬性的編碼同時(shí)用到了這兩個(gè)屬性。此外,關(guān)聯(lián)分析需要非對(duì)稱的二進(jìn)制屬性,只有那些值為1的屬性才是重要的。因此,對(duì)于關(guān)聯(lián)問(wèn)題,有必要給每個(gè)類別值引入一個(gè)二進(jìn)制屬性,如表2同樣的,對(duì)于關(guān)聯(lián)問(wèn)題,將一個(gè)二進(jìn)制屬性用兩個(gè)非對(duì)稱二進(jìn)制屬性代替是有必要的??紤]一個(gè)二進(jìn)制屬性代表了一個(gè)人的性別,男性或者女性。對(duì)于傳統(tǒng)的關(guān)聯(lián)規(guī)則算法,這樣的信息要轉(zhuǎn)變成兩個(gè)非對(duì)稱二進(jìn)制屬性,一個(gè)是其中一個(gè)1代表女性,一個(gè)是其中一個(gè)1是代表男性。連續(xù)屬性的離散化(DiscretizationofContinuousAttributes)離散化通常在分類和關(guān)聯(lián)分析中使用。一般情況下,最好的離散化依賴于使用的算法,也要考慮到其他的屬性。然而,一個(gè)屬性的離散化通常是單獨(dú)考慮的。連續(xù)屬性轉(zhuǎn)變成類別屬性通常涉及到兩個(gè)子任務(wù):確定類別數(shù)量,確定多少連續(xù)屬性映射到這些類別中。第一步中,連續(xù)屬性值分類后,通過(guò)指定的n-1個(gè)分割點(diǎn)(splitpoints)將它們分成n個(gè)區(qū)間。第二步,所有一個(gè)區(qū)間內(nèi)的值映射到相同的類別值上。因此,離散化的問(wèn)題主要是確定選擇多少個(gè)分割點(diǎn)并在哪里分割。結(jié)果可以表示成一個(gè)區(qū)間的集合{(x0,x1],(x1,x2],…,(xn-1非監(jiān)督式的離散化(UnsupervisedDiscretization)分類中離散化方法的一個(gè)很大的區(qū)別是是否使用類別信息。使用了類別信息的成為監(jiān)督式的離散化(supervised),沒(méi)有使用類別信息的成為非監(jiān)督式的方法(Unsupervised)。等寬方法(equalwidth)將范圍內(nèi)的屬性劃分成一個(gè)用戶指定的區(qū)間數(shù)量,每個(gè)區(qū)間都有相同的寬度(width)。這樣的方法受離群值影響很大。因此,等頻方法(等深方法)(equalfrequency,equaldepth),是將相同數(shù)量的對(duì)象分到每個(gè)區(qū)間中,這也很常用。監(jiān)督式的離散化(SupervisedDiscretization)使用額外的信息(類標(biāo)簽)通常會(huì)產(chǎn)生更好的結(jié)果。無(wú)類標(biāo)簽知識(shí)構(gòu)造的區(qū)間通常會(huì)包含混合的類標(biāo)簽。從概念上講,分割的簡(jiǎn)單的方法是最大化區(qū)間純度(purity)。實(shí)際中,這樣的方法需要人工選擇區(qū)間的純度和最小的區(qū)間大小。為了克服這樣的困難,一些統(tǒng)計(jì)的方法被用來(lái)解決這些問(wèn)題。先將每個(gè)類的值都作為單獨(dú)的區(qū)間,再根據(jù)統(tǒng)計(jì)測(cè)試,合并臨近的相似區(qū)間(adjacentintervals)獲取更大的區(qū)間?;陟兀╡ntropy)的方法是很好的。有太多值得類別屬性(CategoricalAttributeswithTooManyValues)類別屬性有時(shí)候會(huì)產(chǎn)生很多的值。如果類別屬性的是順序的,可以利用類似連續(xù)屬性離散化的方法。如果類別屬性是分類的,則要利用一些領(lǐng)域知識(shí)。如一個(gè)大學(xué)可以有很多學(xué)院。學(xué)院名稱可能有很多的值,這種情況我們可以將很多的學(xué)院聯(lián)合在一起組成更大的組,如工程類,社會(huì)科學(xué)類,生物科學(xué)類等。如果領(lǐng)域知識(shí)無(wú)法使用就要根據(jù)實(shí)際情況進(jìn)行操作。只有在類別合并時(shí)會(huì)提高分類精確度時(shí)我們才可以合并。五、變量轉(zhuǎn)換變量轉(zhuǎn)換是將一個(gè)變量下的值作統(tǒng)一變換。也就是,對(duì)于每一個(gè)對(duì)象,轉(zhuǎn)換是針對(duì)對(duì)象中變量的所有的值進(jìn)行的。例如,如果一個(gè)變量的值的數(shù)量級(jí)是重要的,我們就可以取變量值的絕對(duì)值。在這里我們只討論兩種重要的變量轉(zhuǎn)換:簡(jiǎn)單函數(shù)轉(zhuǎn)換(simplefunctionaltransformations)和正規(guī)化(normalization)。簡(jiǎn)單函數(shù)法這種方法就是針對(duì)每個(gè)值做單獨(dú)的函數(shù)處理

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論