數(shù)據(jù)挖掘中的數(shù)據(jù)預處理方法_彭高輝_第1頁
數(shù)據(jù)挖掘中的數(shù)據(jù)預處理方法_彭高輝_第2頁
數(shù)據(jù)挖掘中的數(shù)據(jù)預處理方法_彭高輝_第3頁
數(shù)據(jù)挖掘中的數(shù)據(jù)預處理方法_彭高輝_第4頁
數(shù)據(jù)挖掘中的數(shù)據(jù)預處理方法_彭高輝_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、 第29卷第6期2008年12月華北水利水電學院學報Journal of North China I nstitute of W ater Conservancy and Hydr oelectric PowerVol 129No 16Dec . 2008文章編號:1002-5634(2008 06-0061-03數(shù)據(jù)挖掘中的數(shù)據(jù)預處理方法彭高輝, 王志良(華北水利水電學院, 河南摘要:從初始數(shù)據(jù)源出發(fā), , 提出應把源數(shù)據(jù)的獲取作為數(shù)據(jù)預處理的一個步驟, , 提出了數(shù)據(jù)的循環(huán)預處理模式, , 保證了預測結(jié)果的質(zhì)量, 為進一步研究挖掘提供了較好的參考模式.關(guān)鍵詞:數(shù)據(jù)挖掘; 數(shù)據(jù)預處理; 數(shù)據(jù)

2、分析中圖分類號:TP311文獻標識碼:A統(tǒng)計發(fā)現(xiàn):在整個數(shù)據(jù)挖掘過程中, 數(shù)據(jù)預處理 要花費60%左右的時間, 而后的挖掘工作僅占總工1作量的10%左右. 對數(shù)據(jù)進行預處理, 不但可以節(jié)約大量的空間和時間, 而且得到的挖掘結(jié)果能更好地起到?jīng)Q策和預測作用.一般將數(shù)據(jù)預處理分為4個步驟. 筆者把對初始數(shù)據(jù)源的選擇作為數(shù)據(jù)預處理過程中的一個步驟, 即共分為5個步驟. 因為, 如果在數(shù)據(jù)獲得初期就有一定的指導, 則可以減少數(shù)據(jù)獲取的盲目性以及不必要的噪聲引入, 且為后期的工作節(jié)約大量的時間和空間. 整個預處理過程如圖1所示.數(shù)據(jù)源的質(zhì)量引起的. 因此, 原始數(shù)據(jù)的獲取應從源頭盡量減少錯誤和誤差, 減少

3、人為誤差尤為重要. 首先應了解任務所涉及到的原始數(shù)據(jù)的屬性和數(shù)據(jù)結(jié)構(gòu)及其代表的意義, 確定所需要的數(shù)據(jù)項和數(shù)據(jù)提取原則, 使用合適的手段和嚴格的操作規(guī)范來完成相關(guān)數(shù)據(jù)的獲取. 由于這一步驟涉及較多相關(guān)專業(yè)知識, 可以結(jié)合專家和用戶論證的方式盡量獲取有較高含金量(預測能力 的變量因子. 獲取過程中若涉及到多源數(shù)據(jù)的抽取, 由于運行的軟硬件平臺不同, 對這些異質(zhì)異構(gòu)數(shù)據(jù)庫要注意數(shù)據(jù)源的連接和數(shù)據(jù)格式的轉(zhuǎn)換. 若涉及到數(shù)據(jù)的保密, 則在處理時應多注意此類相關(guān)數(shù)據(jù)的操作, 對相關(guān)數(shù)據(jù)作備注說明以備查用.2數(shù)據(jù)清理數(shù)據(jù)清理是數(shù)據(jù)準備過程中最花費時間、最乏味的, 但也是最重要的一步. 該步驟可以有效地減少

4、學習過程中可能出現(xiàn)相互矛盾的情況. 初始獲得的數(shù)據(jù)主要有以下幾種情況需要處理.1. 含噪聲數(shù)據(jù). 處理此類數(shù)據(jù), 目前最廣泛的是應用數(shù)據(jù)平滑技術(shù). 1999年, Pyle 系統(tǒng)歸納了利用數(shù)據(jù)平滑技術(shù)處理噪聲數(shù)據(jù)的方法, 主要有:分圖1數(shù)據(jù)預處理流程1初始數(shù)據(jù)源的獲取研究發(fā)現(xiàn)數(shù)據(jù)挖掘得到錯誤的結(jié)果, 多半是由收稿日期:2008-04-21基金項目:華北水利水電學院青年科研基金項目(HS QJ2005015 ; 河南省高校新世紀優(yōu)秀人才支持計劃(2006HANCET -03 ;省社科聯(lián)調(diào)研項目(SK L -2008-1041 .作者簡介:彭高輝(1978 , 男, 河南新鄉(xiāng)人, 講師, 碩士, 主

5、要從事數(shù)據(jù)挖掘算法的設計及應用軟件開發(fā)方面的研究. 62華北水利水電學院學報2008年12月箱技術(shù), 檢測周圍相應屬性值進行局部數(shù)據(jù)平滑; 聚類技術(shù), 根據(jù)要求選擇模糊聚類分析或灰色聚類分析技術(shù)檢測孤立點數(shù)據(jù), 并進行修正, 還可結(jié)合使用灰色數(shù)學或粗糙集等數(shù)學方法進行相應檢測; 利用回歸函數(shù)或時間序列分析的方法進行修正; 計算機和人工相結(jié)合的方式等.對此類數(shù)據(jù), 尤其對于孤立點或異常數(shù)據(jù), 是不可以隨便以刪除方式進行處理的. 如文獻2通過分析四川木里縣地區(qū)彎隆體中錳鐵鋁榴石帶在內(nèi)核通化組不同層位中呈零星孤立點狀或不規(guī)則帶狀產(chǎn)出, 表明深部存在不規(guī)則熱隆, 推測出隱伏巖體的存在. 因此, 對于孤

6、立點應先進入數(shù)據(jù)庫, 何處理. 當然, , 可進行刪除處理.2. , 結(jié)合數(shù)據(jù), 、更改或刪除或忽略. 同時也可結(jié)合模糊數(shù)學的隸屬函數(shù)尋找約束函數(shù), 根據(jù)前一段歷史數(shù)據(jù)趨勢對當前數(shù)據(jù)進行修正.3. 缺失數(shù)據(jù). 若數(shù)據(jù)屬于時間局部性缺失, 則可采用近階段數(shù)據(jù)的線性插值法進行補缺; 若時間段較長, 則應該采用該時間段的歷史數(shù)據(jù)恢復丟失數(shù)據(jù); 若屬于數(shù)據(jù)的空間缺損, 則用其周圍數(shù)據(jù)點的信息來代替, 且對相關(guān)數(shù)據(jù)作備注說明, 以備查用; 使用一個全局常量或?qū)傩缘钠骄堤畛淇杖敝? 使用回歸的方法或使用基于推導的貝葉斯方法或判定樹等來對數(shù)據(jù)的部分屬性進行修復; 忽略元組.4. 冗余數(shù)據(jù). 包括屬性冗余和

7、屬性數(shù)據(jù)的冗余. 若通過因子分析或經(jīng)驗等方法確信部分屬性的相關(guān)數(shù)據(jù)足以對信息進行挖掘和決策, 可通過用相關(guān)數(shù)學方法找出具有最大影響屬性因子的屬性數(shù)據(jù)即可, 其余屬性則可刪除. 若某屬性的部分數(shù)據(jù)足以反映該問題的信息, 則其余的可刪除. 若經(jīng)過分析, 這部分冗余數(shù)據(jù)可能還有他用則先保留并作備注說明.和地理信息系統(tǒng)的相關(guān)功能對地學數(shù)據(jù)進行集成, 構(gòu)建了相關(guān)概念模型, 并對地學數(shù)據(jù)集成過程中涉及到的問題進行了說明. 文獻5討論了在多種數(shù)據(jù)庫中如何處理屬性和元組的冗余并提出了較好的解決方法. 文獻6對地圖學中常見的3種類型數(shù)據(jù)的集成和檢索進行了詳細闡述. 可見此部分應更多地結(jié)合數(shù)據(jù)所涉及到的專業(yè)問題的

8、特點來分析, 需要特殊處理對策, . 3. 2”一詞(又稱信息. 1991年美. 但到, 數(shù)據(jù)融合尚未有一個統(tǒng)一的定義. 該文所講的融合僅限于數(shù)據(jù)層的數(shù)據(jù)融合, 即把數(shù)據(jù)融合的思想引入到數(shù)據(jù)預處理的過程中, 加入數(shù)據(jù)的智能化合成, 產(chǎn)生比單一信息源更準確、更完全、更可靠的數(shù)據(jù)進行估計和判斷, 然后存入到數(shù)據(jù)倉庫或數(shù)據(jù)挖掘模塊中. 常見的數(shù)據(jù)融合方法見表1.表1常見數(shù)據(jù)融合方法數(shù)據(jù)融合方法分類靜態(tài)的融合方法動態(tài)的融合方法基于統(tǒng)計的融合方法信息論算法模糊集理論/灰色理論具體方法貝葉斯估值, 加權(quán)最小平方等遞歸加權(quán)最小平方, 卡爾曼濾波、小波變換的分布式濾波等. 馬爾可夫隨機場、最大似然法、貝葉斯估

9、值等.聚集分析、自適應神經(jīng)網(wǎng)絡、表決邏輯、信息熵等灰色關(guān)聯(lián)分析、灰色聚類等4數(shù)據(jù)變換數(shù)據(jù)變換是采用線性或非線性的數(shù)學變換方法將多維數(shù)據(jù)壓縮成較少維數(shù)的數(shù)據(jù), 消除它們在時間、空間、屬性及精度等特征表現(xiàn)方面的差異. 這類方法雖然對原始數(shù)據(jù)都有一定的損害, 但其結(jié)果往往具有更大的實用性. 常見數(shù)據(jù)變換方法見表2.表2數(shù)據(jù)變換方法分類數(shù)據(jù)變換方法分類數(shù)據(jù)平滑數(shù)據(jù)聚集數(shù)據(jù)概化數(shù)據(jù)規(guī)范化屬性構(gòu)造作用去噪, 將連續(xù)數(shù)據(jù)離散化, 增加粒度對數(shù)據(jù)進行匯總減少數(shù)據(jù)復雜度, 用高層概念替換使數(shù)據(jù)按比例縮放, 落入特定區(qū)域構(gòu)造出新的屬性3數(shù)據(jù)集成和數(shù)據(jù)融合3. 1數(shù)據(jù)集成數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)(數(shù)據(jù)庫、數(shù)據(jù)

10、立方體或一般文件 結(jié)合起來存放到一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫 中的一種技術(shù)和過程.由于不同學科方面的數(shù)據(jù)集成涉及到不同的理論依據(jù)和規(guī)則, 因此, 數(shù)據(jù)集成可以說是數(shù)據(jù)預處理中比較困難的一個步驟. 文獻3在重大自然災害集成項目中利用對多種地學數(shù)據(jù)及非地學數(shù)據(jù)的集成取得了較好的預測結(jié)果. 文獻4基于地學知識常用的規(guī)范化方法有最小最大規(guī)范化、Z score 規(guī)范化(零均值規(guī)范化 、小數(shù)定標規(guī)范化等. 文獻7提出了一個通用的數(shù)據(jù)變換維數(shù)消減 第29卷第6期彭高輝等:數(shù)據(jù)挖掘中的數(shù)據(jù)預處理方法63模型, 給出了應用主成分分析方法計算模型中的數(shù)據(jù)變換矩陣的方法. 應用實例表明, 通過數(shù)據(jù)變換可用相當少的

11、變量來捕獲原始數(shù)據(jù)的最大變化. 具體采用哪種變換方法應根據(jù)涉及的相關(guān)數(shù)據(jù)的屬性特點而定, 根據(jù)研究目的可把定性問題定量化, 也可把定量問題定性化.時并不是完全分開的. 另外, 應該針對具體所要研究的問題通過詳細分析后再進行預處理方法的選擇, 整個預處理過程要盡量人機結(jié)合, 尤其要注重和客戶以及專家多交流. 預處理后, 若挖掘結(jié)果顯示和實際差異較大, 在排除源數(shù)據(jù)的問題后則有必要需要考慮數(shù)據(jù)的二次預處理, 以修正初次數(shù)據(jù)預處理中引入的誤差或方法的不當, 若二次挖掘結(jié)果仍然異常則需要另行斟酌. , . 另外, 對, , 有待于以后參考文獻1Han,M icheline Ka mber . Data

12、 M ining:Concep ts and Tech 2niquesM.US A:MorganKauf mann Publishers, 2001. 2劉俊思, 闡澤忠, 秦華中, 等. 四川木里長槍彎隆石英流5數(shù)據(jù)歸約數(shù)據(jù)經(jīng)過去噪處理后, 需根據(jù)相關(guān)要求對數(shù)據(jù)的屬性進行相應處理. 數(shù)據(jù)規(guī)約就是在減少數(shù)據(jù)存儲空間的同時盡可能保證數(shù)據(jù)的完整性, 始數(shù)據(jù)小得多的數(shù)據(jù), 表示. 3.數(shù)據(jù)立方體聚集維規(guī)約數(shù)據(jù)壓縮數(shù)值壓縮離散化和概念分層具體方法數(shù)據(jù)立方體聚集等屬性子集選擇方法等小波變換、主成分分析、分形技術(shù)等回歸、直方圖、聚類等分箱技術(shù)、直方圖、基于熵的離散化等體包裹體特征及其地質(zhì)意義J .四川地質(zhì)

13、學報, 2005,25(4 :201-202.3池天河. 重大自然災害遙感監(jiān)測與評估集成系統(tǒng)M.文獻9使用S AS 中稱為Pr oc Logistic 的過程對每個變量進行單變量的邏輯回歸達到壓縮數(shù)據(jù)的目的. 文獻7通過對高維數(shù)據(jù)集合的研究, 提出了兩類維數(shù)消減方法:其中一種是從有關(guān)變量中消除無關(guān)、弱相關(guān)或冗余的維, 尋找一個變量子集來構(gòu)建模型, 即子集選擇法. 而對諸如粗糙集這種無法處理連續(xù)屬性值的數(shù)據(jù)挖掘方法, 需對數(shù)據(jù)中包含的連續(xù)屬性取值進行離散化, 可利用概念層次樹, 將數(shù)據(jù)泛化到更高的層次, 從而可以幫助有效減少地學習過程所涉及的輸入、輸出操作.北京:中國科學技術(shù)出版社, 1995.

14、4李軍, 莊大方. 地學數(shù)據(jù)集成的理論基礎與集成體系J .地理科學進展, 2001, 20(2 :137-145.5章建國, 施敏. 利用高分子結(jié)構(gòu)對數(shù)據(jù)集成的研究J .石家莊職業(yè)技術(shù)學院學報, 2005, 17(2 :45-50.6鄒逸江, 吳金華. 空間數(shù)據(jù)倉庫的結(jié)構(gòu)設計J .長安大學學報(地球科學版 , 2003, 25(1 :66-69.7吳新玲, 毋國慶. 基于數(shù)據(jù)變換的維數(shù)消減方法J .武漢大學學報(理學版 , 2006, 52(1 :73-76.8安淑芝. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘M.北京:清華大學出版社, 2005.9David W Hos mer . App lied l ogis

15、tic regressi on M.US A:W iley 2I nterscience Publicati on, 2000.6結(jié)語在數(shù)據(jù)預處理的實際應用過程中, 上述步驟有Research on Da t a Preprocess i n Da t a M i n i n gPENG Gao 2hui, WANG Zhi 2liang(North China I nstitute of W ater Conservancy and Hydr oelectric Power, Zhengzhou 450011, China Abstract:Beginning fr om the initi

16、al data s ource, data p rep r ocess r outine technol ogical p r ocess method is su mmed up, and at the same ti m e, it is put f or ward that, gaining s ource data should be as a step of data p rep r ocess . Datafusi on is br ought int o data p rep r ocess, and the data circulati on p rep r ocess pattern is p r oposed; it is a fairly

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論