



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘過(guò)程中的預(yù)處理階段整個(gè)數(shù)據(jù)挖掘過(guò)程中,數(shù)據(jù)預(yù)處理要花費(fèi)60%左右的時(shí)間,而后的挖掘工作 僅占總工作量的10%左右1。經(jīng)過(guò)預(yù)處理的數(shù)據(jù),不但可以節(jié)約大量的空間和 時(shí)間,而且得到的挖掘結(jié)果能更好地起到?jīng)Q策和預(yù)測(cè)作用。一般的,數(shù)據(jù)預(yù)處理分為4個(gè)步驟,本文把對(duì)初始數(shù)據(jù)源的選擇作為數(shù)據(jù)預(yù) 處理過(guò)程中的一個(gè)步驟,即共分為5個(gè)步驟。因?yàn)?,如果在?shù)據(jù)獲得初期就有一 定的指導(dǎo),則可以減少數(shù)據(jù)獲取的盲目性以及不必要噪聲的引入且對(duì)后期的工作 也可節(jié)約大量的時(shí)間和空間。整個(gè)預(yù)處理過(guò)程見(jiàn)下圖:二次預(yù)處理數(shù)據(jù)挖掘 知識(shí) 評(píng)價(jià) 等等挖 掘 結(jié)果1初始源數(shù)據(jù)的獲取研究發(fā)現(xiàn),通過(guò)對(duì)挖掘的錯(cuò)誤結(jié)果去尋找原因,多半是由數(shù)據(jù)
2、源的質(zhì)量引起 的。因此,原始數(shù)據(jù)的獲取,從源頭盡量減少錯(cuò)誤和誤差,尤其是減少人為誤差, 尤為重要。首先應(yīng)了解任務(wù)所涉及到的原始數(shù)據(jù)的屬性和數(shù)據(jù)結(jié)構(gòu)及所代表的意 義,確定所需要的數(shù)據(jù)項(xiàng)和數(shù)據(jù)提取原則,使用合適的手段和嚴(yán)格的操作規(guī)范來(lái) 完成相關(guān)數(shù)據(jù)的獲取,由于這一步驟涉及較多相關(guān)專業(yè)知識(shí),可以結(jié)合專家和用 戶論證的方式盡量獲取有較高含金量(預(yù)測(cè)能力)的變量因子。獲取過(guò)程中若涉 及到多源數(shù)據(jù)的抽取,由于運(yùn)行的軟硬件平臺(tái)不同,對(duì)這些異質(zhì)異構(gòu)數(shù)據(jù)庫(kù)要注 意數(shù)據(jù)源的連接和數(shù)據(jù)格式的轉(zhuǎn)換。若涉及到數(shù)據(jù)的保密,則在處理時(shí)應(yīng)多注意 此類相關(guān)數(shù)據(jù)的操作且對(duì)相關(guān)數(shù)據(jù)作備注說(shuō)明以備查用。2數(shù)據(jù)清理數(shù)據(jù)清理數(shù)據(jù)清理是數(shù)
3、據(jù)準(zhǔn)備過(guò)程中最花費(fèi)時(shí)間、最乏味,但也是最重要的步驟。該 步驟可以有效減少學(xué)習(xí)過(guò)程中可能出現(xiàn)相互矛盾情況的問(wèn)題。初始獲得的數(shù)據(jù)主 要有以下幾種情況需要處理:1)含噪聲數(shù)據(jù)。處理此類數(shù)據(jù),目前最廣泛的是應(yīng)用數(shù)據(jù)平滑技術(shù)。1999 年,Pyle系統(tǒng)歸納了利用數(shù)據(jù)平滑技術(shù)處理噪聲數(shù)據(jù)的方法,主要有:分箱 技術(shù),檢測(cè)周圍相應(yīng)屬性值進(jìn)行局部數(shù)據(jù)平滑。利用聚類技術(shù),根據(jù)要求選擇 包括模糊聚類分析或灰色聚類分析技術(shù)檢測(cè)孤立點(diǎn)數(shù)據(jù),并進(jìn)行修正,還可結(jié)合 使用灰色數(shù)學(xué)或粗糙集等數(shù)學(xué)方法進(jìn)行相應(yīng)檢測(cè)。利用回歸函數(shù)或時(shí)間序列分 析的方法進(jìn)行修正。計(jì)算機(jī)和人工相結(jié)合的方式等。對(duì)此類數(shù)據(jù),尤其對(duì)于孤立點(diǎn)或異常數(shù)據(jù),是不可
4、以隨便以刪除方式進(jìn)行處 理的。很可能孤立點(diǎn)的數(shù)據(jù)正是實(shí)驗(yàn)要找出的異常數(shù)據(jù)。因此,對(duì)于孤立點(diǎn)應(yīng)先 進(jìn)入數(shù)據(jù)庫(kù),而不進(jìn)行任何處理。當(dāng)然,如果結(jié)合專業(yè)知識(shí)分析,確信無(wú)用則可 進(jìn)行刪除處理。2)錯(cuò)誤數(shù)據(jù)。對(duì)有些帶有錯(cuò)誤的數(shù)據(jù)元組,結(jié)合數(shù)據(jù)所反映的實(shí)際問(wèn)題進(jìn) 行分析進(jìn)行更改或刪除或忽略。同時(shí)也可以結(jié)合模糊數(shù)學(xué)的隸屬函數(shù)尋找約束函 數(shù),根據(jù)前一段歷史趨勢(shì)數(shù)據(jù)對(duì)當(dāng)前數(shù)據(jù)進(jìn)行修正。3)缺失數(shù)據(jù)。若數(shù)據(jù)屬于時(shí)間局部性的缺失,則可采用近階段數(shù)據(jù)的線 性插值法進(jìn)行補(bǔ)缺;若時(shí)間段較長(zhǎng),則應(yīng)該采用該時(shí)間段的歷史數(shù)據(jù)恢復(fù)丟失數(shù) 據(jù)。若屬于數(shù)據(jù)的空間缺損則用其周圍數(shù)據(jù)點(diǎn)的信息來(lái)代替,且對(duì)相關(guān)數(shù)據(jù)作備 注說(shuō)明,以備查用。使用
5、一個(gè)全局常量或?qū)傩缘钠骄堤畛淇杖敝?。使用?歸的方法或使用基于推導(dǎo)的貝葉斯方法或判定樹(shù)等來(lái)對(duì)數(shù)據(jù)的部分屬性進(jìn)行修 復(fù)忽略元組。4)冗余數(shù)據(jù)。包括屬性冗余和屬性數(shù)據(jù)的冗余。若通過(guò)因子分析或經(jīng)驗(yàn)等 方法確信部分屬性的相關(guān)數(shù)據(jù)足以對(duì)信息進(jìn)行挖掘和決策,可通過(guò)用相關(guān)數(shù)學(xué)方 法找出具有最大影響屬性因子的屬性數(shù)據(jù)即可,其余屬性則可刪除。若某屬性的 部分?jǐn)?shù)據(jù)足以反映該問(wèn)題的信息,則其余的可刪除。若經(jīng)過(guò)分析,這部分冗余數(shù) 據(jù)可能還有他用則先保留并作備注說(shuō)明。3數(shù)據(jù)集成和數(shù)據(jù)融合3.1數(shù)據(jù)集成數(shù)據(jù)集成是一種將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)(數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或一般文件) 結(jié)合起來(lái)存放到一個(gè)一致的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù))中的
6、一種技術(shù)和過(guò)程。由于不同學(xué)科方面的數(shù)據(jù)集成涉及到不同的理論依據(jù)和規(guī)則,因此,數(shù)據(jù)集 成可以說(shuō)是數(shù)據(jù)預(yù)處理中比較困難的一個(gè)步驟。每個(gè)數(shù)據(jù)源的命名規(guī)則和要求都 可能不一致,將多個(gè)數(shù)據(jù)源的數(shù)據(jù)抽取到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)中為了保證實(shí)驗(yàn)結(jié)果的準(zhǔn) 確性必須要求所有數(shù)據(jù)的格式統(tǒng)一。實(shí)現(xiàn)格式統(tǒng)一的方法大致分為兩類,一類是 在各數(shù)據(jù)源中先進(jìn)行修改,后統(tǒng)一抽取至數(shù)據(jù)倉(cāng)庫(kù)中;二是先抽取到數(shù)據(jù)倉(cāng)庫(kù)中, 再進(jìn)行統(tǒng)一修改。3.2數(shù)據(jù)融合本文所講的融合僅限于數(shù)據(jù)層的數(shù)據(jù)融合,即把數(shù)據(jù)融合的思想引入到數(shù)據(jù) 預(yù)處理的過(guò)程中,加入數(shù)據(jù)的智能化合成,產(chǎn)生比單一信息源更準(zhǔn)確、更完全、 更可靠的數(shù)據(jù)進(jìn)行估計(jì)和判斷,然后存入到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)挖掘
7、模塊中。如:用 主成分分析法將多個(gè)指標(biāo)數(shù)據(jù)融合成一個(gè)新的指標(biāo),實(shí)驗(yàn)時(shí)只拿融合后的新指標(biāo) 進(jìn)行計(jì)算即可,一個(gè)新指標(biāo)包含了原始多個(gè)指標(biāo)的信息,既節(jié)省了存儲(chǔ)空間,又 提升了計(jì)算速度。4數(shù)據(jù)變換數(shù)據(jù)變換是采用線性或非線性的數(shù)學(xué)變換方法將多維數(shù)據(jù)壓縮成較少維數(shù) 的數(shù)據(jù),消除它們?cè)诳臻g、屬性、時(shí)間及精度等特征表現(xiàn)的差異。這類方法雖然 對(duì)原始數(shù)據(jù)通常都是有損的,但其結(jié)果往往具有更大的實(shí)用性。常用的規(guī)范化方法有最小一最大規(guī)范化、Zscore規(guī)范化(零一均值規(guī)范化)、 小數(shù)定標(biāo)規(guī)范化等。吳新玲等提出了一個(gè)通用的數(shù)據(jù)變換維數(shù)消減模型,給出了 應(yīng)用主成分分析方法計(jì)算模型中的數(shù)據(jù)變換矩陣的方法,應(yīng)用實(shí)例表明,通過(guò)數(shù) 據(jù)變換可用相當(dāng)少的變量來(lái)捕獲原始數(shù)據(jù)的最大變化。具體采用哪種變換方法 應(yīng)根據(jù)涉及的相關(guān)數(shù)據(jù)的屬性特點(diǎn),根據(jù)研究目的可把定性問(wèn)題定量化,也可把 定量問(wèn)題定性化進(jìn)行數(shù)據(jù)的操作變換。5數(shù)據(jù)歸約數(shù)據(jù)經(jīng)過(guò)去噪處理后,需根據(jù)相關(guān)要求對(duì)數(shù)據(jù)的屬性進(jìn)行相應(yīng)處理。數(shù)據(jù)規(guī) 約就是在減少數(shù)據(jù)存儲(chǔ)空間的同時(shí)盡可能保證數(shù)據(jù)的完整性,獲得比原始數(shù)據(jù)小 得多的數(shù)據(jù),并將數(shù)據(jù)以合乎要求的方式表示。如:利用數(shù)據(jù)倉(cāng)庫(kù)的降維技術(shù)將 小顆粒數(shù)據(jù)整合成大顆粒數(shù)據(jù),方便數(shù)據(jù)的使用,節(jié)省存儲(chǔ)空間。6結(jié)語(yǔ)在數(shù)據(jù)預(yù)處理的實(shí)際應(yīng)用過(guò)程中,上述步驟有時(shí)并不是完全分開(kāi)的。另外, 應(yīng)該針對(duì)具體所要研究的問(wèn)題通過(guò)詳細(xì)分析后再進(jìn)行預(yù)處理方法的選擇
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- arcgis軟件的認(rèn)識(shí)與使用實(shí)驗(yàn)報(bào)告
- 橋梁設(shè)計(jì)施工方案
- 高軌星載北斗GNSS接收機(jī)規(guī)范 編制說(shuō)明
- 2025年哈爾濱電力職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)參考答案
- 2025年信陽(yáng)藝術(shù)職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)新版
- 2025年廣安職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)附答案
- 2025年畢節(jié)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)新版
- 2023一年級(jí)數(shù)學(xué)上冊(cè) 2 位置教學(xué)實(shí)錄 新人教版
- 提高辦公效率的智能化管理策略
- 9生活離不開(kāi)他們(教學(xué)設(shè)計(jì))-2023-2024學(xué)年道德與法治四年級(jí)下冊(cè)統(tǒng)編版
- 內(nèi)分泌科護(hù)理常規(guī)的課件
- 疼痛科營(yíng)銷方案
- 中醫(yī)藥在關(guān)節(jié)病變治療中的價(jià)值
- 《香水知識(shí)》課件
- 公務(wù)員獎(jiǎng)勵(lì)審批表(表格)
- 倉(cāng)庫(kù)6s檢查標(biāo)準(zhǔn)
- 申請(qǐng)撤銷協(xié)助執(zhí)行通知書(shū)范本
- 拉伸法測(cè)彈性模量
- 裝修項(xiàng)目經(jīng)理的簡(jiǎn)歷樣板
- 班級(jí)文化建設(shè)一等獎(jiǎng)-完整版課件
- 現(xiàn)代農(nóng)業(yè)物聯(lián)網(wǎng)培訓(xùn)課程
評(píng)論
0/150
提交評(píng)論