數(shù)據(jù)挖掘過程中的預(yù)處理階段_第1頁
數(shù)據(jù)挖掘過程中的預(yù)處理階段_第2頁
數(shù)據(jù)挖掘過程中的預(yù)處理階段_第3頁
數(shù)據(jù)挖掘過程中的預(yù)處理階段_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘過程中的預(yù)處理階段整個數(shù)據(jù)挖掘過程中,數(shù)據(jù)預(yù)處理要花費(fèi)60%左右的時間,而后的挖掘工作 僅占總工作量的10%左右1。經(jīng)過預(yù)處理的數(shù)據(jù),不但可以節(jié)約大量的空間和 時間,而且得到的挖掘結(jié)果能更好地起到?jīng)Q策和預(yù)測作用。一般的,數(shù)據(jù)預(yù)處理分為4個步驟,本文把對初始數(shù)據(jù)源的選擇作為數(shù)據(jù)預(yù) 處理過程中的一個步驟,即共分為5個步驟。因?yàn)?,如果在?shù)據(jù)獲得初期就有一 定的指導(dǎo),則可以減少數(shù)據(jù)獲取的盲目性以及不必要噪聲的引入且對后期的工作 也可節(jié)約大量的時間和空間。整個預(yù)處理過程見下圖:二次預(yù)處理數(shù)據(jù)挖掘 知識 評價 等等挖 掘 結(jié)果1初始源數(shù)據(jù)的獲取研究發(fā)現(xiàn),通過對挖掘的錯誤結(jié)果去尋找原因,多半是由數(shù)據(jù)

2、源的質(zhì)量引起 的。因此,原始數(shù)據(jù)的獲取,從源頭盡量減少錯誤和誤差,尤其是減少人為誤差, 尤為重要。首先應(yīng)了解任務(wù)所涉及到的原始數(shù)據(jù)的屬性和數(shù)據(jù)結(jié)構(gòu)及所代表的意 義,確定所需要的數(shù)據(jù)項(xiàng)和數(shù)據(jù)提取原則,使用合適的手段和嚴(yán)格的操作規(guī)范來 完成相關(guān)數(shù)據(jù)的獲取,由于這一步驟涉及較多相關(guān)專業(yè)知識,可以結(jié)合專家和用 戶論證的方式盡量獲取有較高含金量(預(yù)測能力)的變量因子。獲取過程中若涉 及到多源數(shù)據(jù)的抽取,由于運(yùn)行的軟硬件平臺不同,對這些異質(zhì)異構(gòu)數(shù)據(jù)庫要注 意數(shù)據(jù)源的連接和數(shù)據(jù)格式的轉(zhuǎn)換。若涉及到數(shù)據(jù)的保密,則在處理時應(yīng)多注意 此類相關(guān)數(shù)據(jù)的操作且對相關(guān)數(shù)據(jù)作備注說明以備查用。2數(shù)據(jù)清理數(shù)據(jù)清理數(shù)據(jù)清理是數(shù)

3、據(jù)準(zhǔn)備過程中最花費(fèi)時間、最乏味,但也是最重要的步驟。該 步驟可以有效減少學(xué)習(xí)過程中可能出現(xiàn)相互矛盾情況的問題。初始獲得的數(shù)據(jù)主 要有以下幾種情況需要處理:1)含噪聲數(shù)據(jù)。處理此類數(shù)據(jù),目前最廣泛的是應(yīng)用數(shù)據(jù)平滑技術(shù)。1999 年,Pyle系統(tǒng)歸納了利用數(shù)據(jù)平滑技術(shù)處理噪聲數(shù)據(jù)的方法,主要有:分箱 技術(shù),檢測周圍相應(yīng)屬性值進(jìn)行局部數(shù)據(jù)平滑。利用聚類技術(shù),根據(jù)要求選擇 包括模糊聚類分析或灰色聚類分析技術(shù)檢測孤立點(diǎn)數(shù)據(jù),并進(jìn)行修正,還可結(jié)合 使用灰色數(shù)學(xué)或粗糙集等數(shù)學(xué)方法進(jìn)行相應(yīng)檢測。利用回歸函數(shù)或時間序列分 析的方法進(jìn)行修正。計算機(jī)和人工相結(jié)合的方式等。對此類數(shù)據(jù),尤其對于孤立點(diǎn)或異常數(shù)據(jù),是不可

4、以隨便以刪除方式進(jìn)行處 理的。很可能孤立點(diǎn)的數(shù)據(jù)正是實(shí)驗(yàn)要找出的異常數(shù)據(jù)。因此,對于孤立點(diǎn)應(yīng)先 進(jìn)入數(shù)據(jù)庫,而不進(jìn)行任何處理。當(dāng)然,如果結(jié)合專業(yè)知識分析,確信無用則可 進(jìn)行刪除處理。2)錯誤數(shù)據(jù)。對有些帶有錯誤的數(shù)據(jù)元組,結(jié)合數(shù)據(jù)所反映的實(shí)際問題進(jìn) 行分析進(jìn)行更改或刪除或忽略。同時也可以結(jié)合模糊數(shù)學(xué)的隸屬函數(shù)尋找約束函 數(shù),根據(jù)前一段歷史趨勢數(shù)據(jù)對當(dāng)前數(shù)據(jù)進(jìn)行修正。3)缺失數(shù)據(jù)。若數(shù)據(jù)屬于時間局部性的缺失,則可采用近階段數(shù)據(jù)的線 性插值法進(jìn)行補(bǔ)缺;若時間段較長,則應(yīng)該采用該時間段的歷史數(shù)據(jù)恢復(fù)丟失數(shù) 據(jù)。若屬于數(shù)據(jù)的空間缺損則用其周圍數(shù)據(jù)點(diǎn)的信息來代替,且對相關(guān)數(shù)據(jù)作備 注說明,以備查用。使用

5、一個全局常量或?qū)傩缘钠骄堤畛淇杖敝?。使用?歸的方法或使用基于推導(dǎo)的貝葉斯方法或判定樹等來對數(shù)據(jù)的部分屬性進(jìn)行修 復(fù)忽略元組。4)冗余數(shù)據(jù)。包括屬性冗余和屬性數(shù)據(jù)的冗余。若通過因子分析或經(jīng)驗(yàn)等 方法確信部分屬性的相關(guān)數(shù)據(jù)足以對信息進(jìn)行挖掘和決策,可通過用相關(guān)數(shù)學(xué)方 法找出具有最大影響屬性因子的屬性數(shù)據(jù)即可,其余屬性則可刪除。若某屬性的 部分?jǐn)?shù)據(jù)足以反映該問題的信息,則其余的可刪除。若經(jīng)過分析,這部分冗余數(shù) 據(jù)可能還有他用則先保留并作備注說明。3數(shù)據(jù)集成和數(shù)據(jù)融合3.1數(shù)據(jù)集成數(shù)據(jù)集成是一種將多個數(shù)據(jù)源中的數(shù)據(jù)(數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件) 結(jié)合起來存放到一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中的

6、一種技術(shù)和過程。由于不同學(xué)科方面的數(shù)據(jù)集成涉及到不同的理論依據(jù)和規(guī)則,因此,數(shù)據(jù)集 成可以說是數(shù)據(jù)預(yù)處理中比較困難的一個步驟。每個數(shù)據(jù)源的命名規(guī)則和要求都 可能不一致,將多個數(shù)據(jù)源的數(shù)據(jù)抽取到一個數(shù)據(jù)倉庫中為了保證實(shí)驗(yàn)結(jié)果的準(zhǔn) 確性必須要求所有數(shù)據(jù)的格式統(tǒng)一。實(shí)現(xiàn)格式統(tǒng)一的方法大致分為兩類,一類是 在各數(shù)據(jù)源中先進(jìn)行修改,后統(tǒng)一抽取至數(shù)據(jù)倉庫中;二是先抽取到數(shù)據(jù)倉庫中, 再進(jìn)行統(tǒng)一修改。3.2數(shù)據(jù)融合本文所講的融合僅限于數(shù)據(jù)層的數(shù)據(jù)融合,即把數(shù)據(jù)融合的思想引入到數(shù)據(jù) 預(yù)處理的過程中,加入數(shù)據(jù)的智能化合成,產(chǎn)生比單一信息源更準(zhǔn)確、更完全、 更可靠的數(shù)據(jù)進(jìn)行估計和判斷,然后存入到數(shù)據(jù)倉庫或數(shù)據(jù)挖掘

7、模塊中。如:用 主成分分析法將多個指標(biāo)數(shù)據(jù)融合成一個新的指標(biāo),實(shí)驗(yàn)時只拿融合后的新指標(biāo) 進(jìn)行計算即可,一個新指標(biāo)包含了原始多個指標(biāo)的信息,既節(jié)省了存儲空間,又 提升了計算速度。4數(shù)據(jù)變換數(shù)據(jù)變換是采用線性或非線性的數(shù)學(xué)變換方法將多維數(shù)據(jù)壓縮成較少維數(shù) 的數(shù)據(jù),消除它們在空間、屬性、時間及精度等特征表現(xiàn)的差異。這類方法雖然 對原始數(shù)據(jù)通常都是有損的,但其結(jié)果往往具有更大的實(shí)用性。常用的規(guī)范化方法有最小一最大規(guī)范化、Zscore規(guī)范化(零一均值規(guī)范化)、 小數(shù)定標(biāo)規(guī)范化等。吳新玲等提出了一個通用的數(shù)據(jù)變換維數(shù)消減模型,給出了 應(yīng)用主成分分析方法計算模型中的數(shù)據(jù)變換矩陣的方法,應(yīng)用實(shí)例表明,通過數(shù) 據(jù)變換可用相當(dāng)少的變量來捕獲原始數(shù)據(jù)的最大變化。具體采用哪種變換方法 應(yīng)根據(jù)涉及的相關(guān)數(shù)據(jù)的屬性特點(diǎn),根據(jù)研究目的可把定性問題定量化,也可把 定量問題定性化進(jìn)行數(shù)據(jù)的操作變換。5數(shù)據(jù)歸約數(shù)據(jù)經(jīng)過去噪處理后,需根據(jù)相關(guān)要求對數(shù)據(jù)的屬性進(jìn)行相應(yīng)處理。數(shù)據(jù)規(guī) 約就是在減少數(shù)據(jù)存儲空間的同時盡可能保證數(shù)據(jù)的完整性,獲得比原始數(shù)據(jù)小 得多的數(shù)據(jù),并將數(shù)據(jù)以合乎要求的方式表示。如:利用數(shù)據(jù)倉庫的降維技術(shù)將 小顆粒數(shù)據(jù)整合成大顆粒數(shù)據(jù),方便數(shù)據(jù)的使用,節(jié)省存儲空間。6結(jié)語在數(shù)據(jù)預(yù)處理的實(shí)際應(yīng)用過程中,上述步驟有時并不是完全分開的。另外, 應(yīng)該針對具體所要研究的問題通過詳細(xì)分析后再進(jìn)行預(yù)處理方法的選擇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論