數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理方法_彭高輝_第1頁
數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理方法_彭高輝_第2頁
數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理方法_彭高輝_第3頁
數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理方法_彭高輝_第4頁
數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理方法_彭高輝_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 第29卷第6期2008年12月華北水利水電學(xué)院學(xué)報Journal of North China I nstitute of W ater Conservancy and Hydr oelectric PowerVol 129No 16Dec . 2008文章編號:1002-5634(2008 06-0061-03數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理方法彭高輝, 王志良(華北水利水電學(xué)院, 河南摘要:從初始數(shù)據(jù)源出發(fā), , 提出應(yīng)把源數(shù)據(jù)的獲取作為數(shù)據(jù)預(yù)處理的一個步驟, , 提出了數(shù)據(jù)的循環(huán)預(yù)處理模式, , 保證了預(yù)測結(jié)果的質(zhì)量, 為進一步研究挖掘提供了較好的參考模式.關(guān)鍵詞:數(shù)據(jù)挖掘; 數(shù)據(jù)預(yù)處理; 數(shù)據(jù)

2、分析中圖分類號:TP311文獻標識碼:A統(tǒng)計發(fā)現(xiàn):在整個數(shù)據(jù)挖掘過程中, 數(shù)據(jù)預(yù)處理 要花費60%左右的時間, 而后的挖掘工作僅占總工1作量的10%左右. 對數(shù)據(jù)進行預(yù)處理, 不但可以節(jié)約大量的空間和時間, 而且得到的挖掘結(jié)果能更好地起到?jīng)Q策和預(yù)測作用.一般將數(shù)據(jù)預(yù)處理分為4個步驟. 筆者把對初始數(shù)據(jù)源的選擇作為數(shù)據(jù)預(yù)處理過程中的一個步驟, 即共分為5個步驟. 因為, 如果在數(shù)據(jù)獲得初期就有一定的指導(dǎo), 則可以減少數(shù)據(jù)獲取的盲目性以及不必要的噪聲引入, 且為后期的工作節(jié)約大量的時間和空間. 整個預(yù)處理過程如圖1所示.數(shù)據(jù)源的質(zhì)量引起的. 因此, 原始數(shù)據(jù)的獲取應(yīng)從源頭盡量減少錯誤和誤差, 減少

3、人為誤差尤為重要. 首先應(yīng)了解任務(wù)所涉及到的原始數(shù)據(jù)的屬性和數(shù)據(jù)結(jié)構(gòu)及其代表的意義, 確定所需要的數(shù)據(jù)項和數(shù)據(jù)提取原則, 使用合適的手段和嚴格的操作規(guī)范來完成相關(guān)數(shù)據(jù)的獲取. 由于這一步驟涉及較多相關(guān)專業(yè)知識, 可以結(jié)合專家和用戶論證的方式盡量獲取有較高含金量(預(yù)測能力 的變量因子. 獲取過程中若涉及到多源數(shù)據(jù)的抽取, 由于運行的軟硬件平臺不同, 對這些異質(zhì)異構(gòu)數(shù)據(jù)庫要注意數(shù)據(jù)源的連接和數(shù)據(jù)格式的轉(zhuǎn)換. 若涉及到數(shù)據(jù)的保密, 則在處理時應(yīng)多注意此類相關(guān)數(shù)據(jù)的操作, 對相關(guān)數(shù)據(jù)作備注說明以備查用.2數(shù)據(jù)清理數(shù)據(jù)清理是數(shù)據(jù)準備過程中最花費時間、最乏味的, 但也是最重要的一步. 該步驟可以有效地減少

4、學(xué)習(xí)過程中可能出現(xiàn)相互矛盾的情況. 初始獲得的數(shù)據(jù)主要有以下幾種情況需要處理.1. 含噪聲數(shù)據(jù). 處理此類數(shù)據(jù), 目前最廣泛的是應(yīng)用數(shù)據(jù)平滑技術(shù). 1999年, Pyle 系統(tǒng)歸納了利用數(shù)據(jù)平滑技術(shù)處理噪聲數(shù)據(jù)的方法, 主要有:分圖1數(shù)據(jù)預(yù)處理流程1初始數(shù)據(jù)源的獲取研究發(fā)現(xiàn)數(shù)據(jù)挖掘得到錯誤的結(jié)果, 多半是由收稿日期:2008-04-21基金項目:華北水利水電學(xué)院青年科研基金項目(HS QJ2005015 ; 河南省高校新世紀優(yōu)秀人才支持計劃(2006HANCET -03 ;省社科聯(lián)調(diào)研項目(SK L -2008-1041 .作者簡介:彭高輝(1978 , 男, 河南新鄉(xiāng)人, 講師, 碩士, 主

5、要從事數(shù)據(jù)挖掘算法的設(shè)計及應(yīng)用軟件開發(fā)方面的研究. 62華北水利水電學(xué)院學(xué)報2008年12月箱技術(shù), 檢測周圍相應(yīng)屬性值進行局部數(shù)據(jù)平滑; 聚類技術(shù), 根據(jù)要求選擇模糊聚類分析或灰色聚類分析技術(shù)檢測孤立點數(shù)據(jù), 并進行修正, 還可結(jié)合使用灰色數(shù)學(xué)或粗糙集等數(shù)學(xué)方法進行相應(yīng)檢測; 利用回歸函數(shù)或時間序列分析的方法進行修正; 計算機和人工相結(jié)合的方式等.對此類數(shù)據(jù), 尤其對于孤立點或異常數(shù)據(jù), 是不可以隨便以刪除方式進行處理的. 如文獻2通過分析四川木里縣地區(qū)彎隆體中錳鐵鋁榴石帶在內(nèi)核通化組不同層位中呈零星孤立點狀或不規(guī)則帶狀產(chǎn)出, 表明深部存在不規(guī)則熱隆, 推測出隱伏巖體的存在. 因此, 對于孤

6、立點應(yīng)先進入數(shù)據(jù)庫, 何處理. 當(dāng)然, , 可進行刪除處理.2. , 結(jié)合數(shù)據(jù), 、更改或刪除或忽略. 同時也可結(jié)合模糊數(shù)學(xué)的隸屬函數(shù)尋找約束函數(shù), 根據(jù)前一段歷史數(shù)據(jù)趨勢對當(dāng)前數(shù)據(jù)進行修正.3. 缺失數(shù)據(jù). 若數(shù)據(jù)屬于時間局部性缺失, 則可采用近階段數(shù)據(jù)的線性插值法進行補缺; 若時間段較長, 則應(yīng)該采用該時間段的歷史數(shù)據(jù)恢復(fù)丟失數(shù)據(jù); 若屬于數(shù)據(jù)的空間缺損, 則用其周圍數(shù)據(jù)點的信息來代替, 且對相關(guān)數(shù)據(jù)作備注說明, 以備查用; 使用一個全局常量或?qū)傩缘钠骄堤畛淇杖敝? 使用回歸的方法或使用基于推導(dǎo)的貝葉斯方法或判定樹等來對數(shù)據(jù)的部分屬性進行修復(fù); 忽略元組.4. 冗余數(shù)據(jù). 包括屬性冗余和

7、屬性數(shù)據(jù)的冗余. 若通過因子分析或經(jīng)驗等方法確信部分屬性的相關(guān)數(shù)據(jù)足以對信息進行挖掘和決策, 可通過用相關(guān)數(shù)學(xué)方法找出具有最大影響屬性因子的屬性數(shù)據(jù)即可, 其余屬性則可刪除. 若某屬性的部分數(shù)據(jù)足以反映該問題的信息, 則其余的可刪除. 若經(jīng)過分析, 這部分冗余數(shù)據(jù)可能還有他用則先保留并作備注說明.和地理信息系統(tǒng)的相關(guān)功能對地學(xué)數(shù)據(jù)進行集成, 構(gòu)建了相關(guān)概念模型, 并對地學(xué)數(shù)據(jù)集成過程中涉及到的問題進行了說明. 文獻5討論了在多種數(shù)據(jù)庫中如何處理屬性和元組的冗余并提出了較好的解決方法. 文獻6對地圖學(xué)中常見的3種類型數(shù)據(jù)的集成和檢索進行了詳細闡述. 可見此部分應(yīng)更多地結(jié)合數(shù)據(jù)所涉及到的專業(yè)問題的

8、特點來分析, 需要特殊處理對策, . 3. 2”一詞(又稱信息. 1991年美. 但到, 數(shù)據(jù)融合尚未有一個統(tǒng)一的定義. 該文所講的融合僅限于數(shù)據(jù)層的數(shù)據(jù)融合, 即把數(shù)據(jù)融合的思想引入到數(shù)據(jù)預(yù)處理的過程中, 加入數(shù)據(jù)的智能化合成, 產(chǎn)生比單一信息源更準確、更完全、更可靠的數(shù)據(jù)進行估計和判斷, 然后存入到數(shù)據(jù)倉庫或數(shù)據(jù)挖掘模塊中. 常見的數(shù)據(jù)融合方法見表1.表1常見數(shù)據(jù)融合方法數(shù)據(jù)融合方法分類靜態(tài)的融合方法動態(tài)的融合方法基于統(tǒng)計的融合方法信息論算法模糊集理論/灰色理論具體方法貝葉斯估值, 加權(quán)最小平方等遞歸加權(quán)最小平方, 卡爾曼濾波、小波變換的分布式濾波等. 馬爾可夫隨機場、最大似然法、貝葉斯估

9、值等.聚集分析、自適應(yīng)神經(jīng)網(wǎng)絡(luò)、表決邏輯、信息熵等灰色關(guān)聯(lián)分析、灰色聚類等4數(shù)據(jù)變換數(shù)據(jù)變換是采用線性或非線性的數(shù)學(xué)變換方法將多維數(shù)據(jù)壓縮成較少維數(shù)的數(shù)據(jù), 消除它們在時間、空間、屬性及精度等特征表現(xiàn)方面的差異. 這類方法雖然對原始數(shù)據(jù)都有一定的損害, 但其結(jié)果往往具有更大的實用性. 常見數(shù)據(jù)變換方法見表2.表2數(shù)據(jù)變換方法分類數(shù)據(jù)變換方法分類數(shù)據(jù)平滑數(shù)據(jù)聚集數(shù)據(jù)概化數(shù)據(jù)規(guī)范化屬性構(gòu)造作用去噪, 將連續(xù)數(shù)據(jù)離散化, 增加粒度對數(shù)據(jù)進行匯總減少數(shù)據(jù)復(fù)雜度, 用高層概念替換使數(shù)據(jù)按比例縮放, 落入特定區(qū)域構(gòu)造出新的屬性3數(shù)據(jù)集成和數(shù)據(jù)融合3. 1數(shù)據(jù)集成數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)(數(shù)據(jù)庫、數(shù)據(jù)

10、立方體或一般文件 結(jié)合起來存放到一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫 中的一種技術(shù)和過程.由于不同學(xué)科方面的數(shù)據(jù)集成涉及到不同的理論依據(jù)和規(guī)則, 因此, 數(shù)據(jù)集成可以說是數(shù)據(jù)預(yù)處理中比較困難的一個步驟. 文獻3在重大自然災(zāi)害集成項目中利用對多種地學(xué)數(shù)據(jù)及非地學(xué)數(shù)據(jù)的集成取得了較好的預(yù)測結(jié)果. 文獻4基于地學(xué)知識常用的規(guī)范化方法有最小最大規(guī)范化、Z score 規(guī)范化(零均值規(guī)范化 、小數(shù)定標規(guī)范化等. 文獻7提出了一個通用的數(shù)據(jù)變換維數(shù)消減 第29卷第6期彭高輝等:數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理方法63模型, 給出了應(yīng)用主成分分析方法計算模型中的數(shù)據(jù)變換矩陣的方法. 應(yīng)用實例表明, 通過數(shù)據(jù)變換可用相當(dāng)少的

11、變量來捕獲原始數(shù)據(jù)的最大變化. 具體采用哪種變換方法應(yīng)根據(jù)涉及的相關(guān)數(shù)據(jù)的屬性特點而定, 根據(jù)研究目的可把定性問題定量化, 也可把定量問題定性化.時并不是完全分開的. 另外, 應(yīng)該針對具體所要研究的問題通過詳細分析后再進行預(yù)處理方法的選擇, 整個預(yù)處理過程要盡量人機結(jié)合, 尤其要注重和客戶以及專家多交流. 預(yù)處理后, 若挖掘結(jié)果顯示和實際差異較大, 在排除源數(shù)據(jù)的問題后則有必要需要考慮數(shù)據(jù)的二次預(yù)處理, 以修正初次數(shù)據(jù)預(yù)處理中引入的誤差或方法的不當(dāng), 若二次挖掘結(jié)果仍然異常則需要另行斟酌. , . 另外, 對, , 有待于以后參考文獻1Han,M icheline Ka mber . Data

12、 M ining:Concep ts and Tech 2niquesM.US A:MorganKauf mann Publishers, 2001. 2劉俊思, 闡澤忠, 秦華中, 等. 四川木里長槍彎隆石英流5數(shù)據(jù)歸約數(shù)據(jù)經(jīng)過去噪處理后, 需根據(jù)相關(guān)要求對數(shù)據(jù)的屬性進行相應(yīng)處理. 數(shù)據(jù)規(guī)約就是在減少數(shù)據(jù)存儲空間的同時盡可能保證數(shù)據(jù)的完整性, 始數(shù)據(jù)小得多的數(shù)據(jù), 表示. 3.數(shù)據(jù)立方體聚集維規(guī)約數(shù)據(jù)壓縮數(shù)值壓縮離散化和概念分層具體方法數(shù)據(jù)立方體聚集等屬性子集選擇方法等小波變換、主成分分析、分形技術(shù)等回歸、直方圖、聚類等分箱技術(shù)、直方圖、基于熵的離散化等體包裹體特征及其地質(zhì)意義J .四川地質(zhì)

13、學(xué)報, 2005,25(4 :201-202.3池天河. 重大自然災(zāi)害遙感監(jiān)測與評估集成系統(tǒng)M.文獻9使用S AS 中稱為Pr oc Logistic 的過程對每個變量進行單變量的邏輯回歸達到壓縮數(shù)據(jù)的目的. 文獻7通過對高維數(shù)據(jù)集合的研究, 提出了兩類維數(shù)消減方法:其中一種是從有關(guān)變量中消除無關(guān)、弱相關(guān)或冗余的維, 尋找一個變量子集來構(gòu)建模型, 即子集選擇法. 而對諸如粗糙集這種無法處理連續(xù)屬性值的數(shù)據(jù)挖掘方法, 需對數(shù)據(jù)中包含的連續(xù)屬性取值進行離散化, 可利用概念層次樹, 將數(shù)據(jù)泛化到更高的層次, 從而可以幫助有效減少地學(xué)習(xí)過程所涉及的輸入、輸出操作.北京:中國科學(xué)技術(shù)出版社, 1995.

14、4李軍, 莊大方. 地學(xué)數(shù)據(jù)集成的理論基礎(chǔ)與集成體系J .地理科學(xué)進展, 2001, 20(2 :137-145.5章建國, 施敏. 利用高分子結(jié)構(gòu)對數(shù)據(jù)集成的研究J .石家莊職業(yè)技術(shù)學(xué)院學(xué)報, 2005, 17(2 :45-50.6鄒逸江, 吳金華. 空間數(shù)據(jù)倉庫的結(jié)構(gòu)設(shè)計J .長安大學(xué)學(xué)報(地球科學(xué)版 , 2003, 25(1 :66-69.7吳新玲, 毋國慶. 基于數(shù)據(jù)變換的維數(shù)消減方法J .武漢大學(xué)學(xué)報(理學(xué)版 , 2006, 52(1 :73-76.8安淑芝. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘M.北京:清華大學(xué)出版社, 2005.9David W Hos mer . App lied l ogis

15、tic regressi on M.US A:W iley 2I nterscience Publicati on, 2000.6結(jié)語在數(shù)據(jù)預(yù)處理的實際應(yīng)用過程中, 上述步驟有Research on Da t a Preprocess i n Da t a M i n i n gPENG Gao 2hui, WANG Zhi 2liang(North China I nstitute of W ater Conservancy and Hydr oelectric Power, Zhengzhou 450011, China Abstract:Beginning fr om the initi

16、al data s ource, data p rep r ocess r outine technol ogical p r ocess method is su mmed up, and at the same ti m e, it is put f or ward that, gaining s ource data should be as a step of data p rep r ocess . Datafusi on is br ought int o data p rep r ocess, and the data circulati on p rep r ocess pattern is p r oposed; it is a fairly

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論