(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)清洗方法在電力企業(yè)數(shù)據(jù)中心的應(yīng)用研究.pdf_第1頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)清洗方法在電力企業(yè)數(shù)據(jù)中心的應(yīng)用研究.pdf_第2頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)清洗方法在電力企業(yè)數(shù)據(jù)中心的應(yīng)用研究.pdf_第3頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)清洗方法在電力企業(yè)數(shù)據(jù)中心的應(yīng)用研究.pdf_第4頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)清洗方法在電力企業(yè)數(shù)據(jù)中心的應(yīng)用研究.pdf_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費(fèi)閱讀

(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)數(shù)據(jù)清洗方法在電力企業(yè)數(shù)據(jù)中心的應(yīng)用研究.pdf.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

a p p l i c a t i o no fd a t ac l e a n i n gm e t h o di nd a t ac e n t e ro fe l e c t r i c c o m p a n y b y z h a n gx i n g h u a b e ( h e x iu n i v e r s i t y ) 2 0 0 2 at h e s i ss u b m i t t e di np a r t i a ls a t i s f a c t i o no ft h e r e q u i r e m e n t sf o rt h ed e g r e eo f m a s t e ro fe n g i n e e r i n g 1 n c o m p u t e ra p p l i c a t i o nt e c h n o l o g y i nt h e g r a d u a t es c h o o l o f l a n z h o u u n i v e r s i t yo ft e c h n o l o g y s u p e r v i s o r p r o f e s s o rc h e nx u h u i m a y , 2 0 1 1 蘭州理工大學(xué)學(xué)位論文原創(chuàng)性聲明和使用授權(quán)說明 原創(chuàng)性聲明 本人鄭重聲明:所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所 取得的研究成果。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文不包含任 何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。對本文的研究做出重要貢 獻(xiàn)的個人和集體,均已在文中以明確方式標(biāo)明。本人完全意識到本聲明的 法律后果由本人承擔(dān)。 作者簽名:張乏華 日期:矽f j 年多月io 日 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即: 學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許 論文被查閱和借閱。本人授權(quán)蘭州理工大學(xué)可以將本學(xué)位論文的全部或部 分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段 保存和匯編本學(xué)位論文。同時授權(quán)中國科學(xué)技術(shù)信息研究所將本學(xué)位論文 收錄到中國學(xué)位論文全文數(shù)據(jù)庫,并通過網(wǎng)絡(luò)向社會公眾提供信息服務(wù)。 作者簽名 導(dǎo)師簽名 日期:功ij 年 日期:p i1 年 j 6 只lo 日 6 只f db 碩卜引? i 淪之 目錄 目錄i 摘要i a b s t i 認(rèn)c t i i 插圖索引i v 附表索引v 第l 章緒論1 1 1 研究背景與意義1 1 1 1 研究背景1 1 1 2 研究意義3 1 2 國內(nèi)外研究現(xiàn)狀4 1 2 1 數(shù)據(jù)清洗的研究現(xiàn)狀5 1 2 2 “噪音數(shù)據(jù) 清洗的研究現(xiàn)狀6 1 3 本文的主要工作7 1 4 本文的內(nèi)容安排工作8 第2 章數(shù)據(jù)清洗技術(shù)9 2 1 數(shù)據(jù)清洗概述9 2 1 1 數(shù)據(jù)清洗的概念9 2 1 2 數(shù)據(jù)清洗的基本原理1 l 2 1 3 數(shù)據(jù)清洗的步驟1 2 2 2 數(shù)據(jù)清洗的方法技術(shù)1 3 2 2 1 數(shù)據(jù)預(yù)處理1 3 2 2 2 屬性值級別的清洗1 5 2 2 3 重復(fù)數(shù)據(jù)的清洗1 6 2 3e t l 過程應(yīng)用1 7 2 3 1e t l 過程概述1 7 2 3 2e t l 過程架構(gòu)1 7 2 3 3e t l 功能定義1 8 2 3 4e t l 過程中數(shù)據(jù)的清洗1 9 2 4 本章小結(jié)2 1 數(shù)薯( i 雨沉方;上i l uj j 企、數(shù)j ec 1 心的阿f f h j f 7 e 第3 章數(shù)據(jù)中心的建設(shè)2 2 3 1 電力企業(yè)數(shù)據(jù)中心建設(shè)背景2 2 3 1 1 “s g l 8 6 工程”簡介2 2 3 1 2 數(shù)據(jù)中心建設(shè)目標(biāo)2 5 3 1 3 數(shù)據(jù)中心建設(shè)理論依據(jù)2 6 3 2 數(shù)據(jù)中心系統(tǒng)架構(gòu)設(shè)計(jì)2 8 3 2 1 邏輯架構(gòu)2 8 3 2 2 數(shù)據(jù)架構(gòu)2 9 3 2 3 數(shù)據(jù)倉庫執(zhí)行架構(gòu)3 0 3 3 本章小結(jié)3 2 第4 章電量數(shù)據(jù)清洗技術(shù)3 3 4 1 應(yīng)用背景3 3 4 2 數(shù)據(jù)中心臟數(shù)據(jù)的處理方案3 3 4 2 1 數(shù)據(jù)抽取3 4 4 2 2w e b 界面臟數(shù)據(jù)處理3 5 4 2 3 數(shù)據(jù)重抽3 5 4 2 4 相關(guān)的數(shù)據(jù)字典3 6 4 3 電量數(shù)據(jù)的對象模型3 8 4 3 1 電量底度值對象模型3 8 4 3 2 小時電量對象模型3 8 4 4 電量數(shù)據(jù)的清洗技術(shù)3 9 4 4 1 電量數(shù)據(jù)檢測方法3 9 4 4 2 空缺值處理技術(shù)4 0 4 5 遺傳神經(jīng)網(wǎng)絡(luò)算法概述4 1 4 6 實(shí)驗(yàn)分析4 4 4 7 本章小結(jié)4 6 結(jié)論4 7 參考文獻(xiàn)4 8 致謝5 2 附錄a 攻讀學(xué)位期間所發(fā)表的學(xué)術(shù)論文5 3 順f 學(xué)f ? i 論文 摘要 數(shù)據(jù)中心建設(shè)是國家電網(wǎng)“十一五”期間“s g l8 6 工程”重點(diǎn)實(shí)施項(xiàng)目之一, 旨在利用數(shù)據(jù)倉庫整合電力企業(yè)內(nèi)部分散的業(yè)務(wù)數(shù)據(jù),并通過便捷有效的數(shù)據(jù)訪 問手段,可以支持電力企業(yè)內(nèi)部不同部門、不同需求、不同層次的用戶隨時獲得 自己所需的信息,并能將網(wǎng)絡(luò)中分布的行業(yè)數(shù)據(jù)集成到一起,為決策者提供各種 類型的數(shù)據(jù)分析。數(shù)據(jù)中心的主要特點(diǎn)是通過統(tǒng)一的數(shù)據(jù)定義和命名規(guī)范,保證 數(shù)據(jù)的唯一性、準(zhǔn)確性、完整性、規(guī)范性和時效性,提供一個標(biāo)準(zhǔn)的、一致的數(shù) 據(jù)共享和訪問平臺。 本文主要研究對象是電力營銷計(jì)費(fèi)系統(tǒng)所需的底度電量數(shù)據(jù)值,針對在數(shù)據(jù) 抽取過程中對電量數(shù)據(jù)中產(chǎn)生的“噪音數(shù)據(jù) 進(jìn)行清洗,在文章中的對“噪音數(shù) 據(jù)的清洗過程是:首先利用切比雪夫原理設(shè)定一個判斷區(qū)間來檢測“噪音數(shù)據(jù) , 然后將這些“噪音數(shù)據(jù) 中的異常的屬性值刪除,然后對這些被刪除的屬性值當(dāng) 空缺值來處理。而對空缺值的處理,文中利用了基于遺傳神經(jīng)網(wǎng)絡(luò)預(yù)測模型的填 補(bǔ)空缺值的方法,該方法分利用了遺傳算法的全局搜索能力和神經(jīng)網(wǎng)絡(luò)的非線性 映射能力,在很大程度上提高了數(shù)據(jù)的預(yù)測精度。并驗(yàn)證了該方法的可行性以及 在提高數(shù)據(jù)預(yù)測精度方面的有效性。 本文主要研究重點(diǎn)是數(shù)據(jù)中心在e t l 過程中的數(shù)據(jù)清洗過程。根據(jù)國家電網(wǎng) “s g l8 6 工程”規(guī)劃中關(guān)于數(shù)據(jù)中心的建設(shè)要求和數(shù)據(jù)中一已, e t l 功能架構(gòu),數(shù)據(jù) 中心的e t l 過程主要分為抽取、清洗、轉(zhuǎn)換和加載四個主要部分( 較之通常的e t l 過程,將清洗過程從原有的抽取過程中剝離出來單獨(dú)研究) ,根據(jù)電力系統(tǒng)實(shí)際 生產(chǎn)業(yè)務(wù)需要,本文又將數(shù)據(jù)抽取中的“清洗”過程劃分為兩個子流程:即先通過 檢測異常數(shù)據(jù)并將其值置為“n u l l ”,然后根據(jù)其余有效值對已置“n u l l ”的數(shù)據(jù) 進(jìn)行預(yù)測填充。 簡而言之,隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展和企業(yè)決策與輔助分析系統(tǒng)對數(shù) 據(jù)質(zhì)量要求的不斷提高,數(shù)據(jù)抽取過程遇到的“噪音數(shù)據(jù) 或“臟數(shù)據(jù) 不能再 做簡單的刪除處理,因?yàn)樵趧h除這些數(shù)據(jù)時有可能丟失大量的可用的“關(guān)鍵數(shù) 據(jù) ,因此數(shù)據(jù)清洗正在逐漸的演變?yōu)閿?shù)據(jù)抽取中一個重要的環(huán)節(jié),其理論研究 與實(shí)踐就顯得非常具有實(shí)用價值。 關(guān)鍵詞:e t l ;數(shù)據(jù)中心;數(shù)據(jù)清洗;遺傳神經(jīng)網(wǎng)絡(luò);空缺值;電量數(shù)據(jù);噪音 數(shù)據(jù): a bs t r a c t d a t ac e n t e ri so n eo f ”s g l8 6p r o j e c t ”o ft h en a t i o n a lg r i dd u r i n gt h ee l e v e n t h f i v e y e a r t h ep u r p o s eo ft h ed a t ac e n t e ri st h eu s eo fe l e c t r i cp o w e r e n t e r p r i s ed a t a w a r e h o u s et e c h n o l o g y i n t e g r a t i o nw i t h i nt h ef r a g m e n t e db u s i n e s sd a t a a n d i t s u p p o r t st h ep o w e ro fd i f f e r e n td e p a r t m e n t sw i t h i nt h ee n t e r p r i s e ,d i f f e r e n tn e e d s d i f f e r e n tl e v e l so fu s e r st oa c c e s st h ei n f o r m a t i o nt h e yn e e da c c e s st od a t ab v m e a n s 0 ic o n v e n i e n ta n d e f f e c t i v e ,a n di tp r o v i d e sv a r i o u st y p e so fd a t a a n a l y s i s f o r d e c ls l o n - m a k e r sb yaw a yt h a tt h ed a t ao f t h ei n d u s t r yd i s t r i b u t i o ni nt h en e t w o r kt o b ei n t e g r a t e d t h em a i nf e a t u r e so ft h ed a t a c e n t e ra r et o p r o v i d eas t a n d a r d c o n s i s t e n tw i t ht h ed a t as h a r i n ga n da c c e s sp l a t f o r m sf o rt h ee n t e r p r i s e t h r o u 2 ha u n i f i e dd a t ad e f i n i t i o n sa n dn a m i n g c o n v e n t i o n s ,t oe n s u r et h eu n i q u e n e s so ft h ed a t a 。 a c c u r a c y ,c o m p l e t e n e s s ,s t a n d a r d i z a t i o na n dt i m e l i n e s s t h em a i nf o c u so ft h i sp a p e ri sd a t ac l e a n i n gp r o c e s so f t h ed a t ac e n t e ri nt h e e t l ( e x t r a c tt r a n s f o r ml o a d ) a c c o r d i n gt ot h en a t i o n a l g r i d ”s g18 6p r o j e c t ” p l a n n i n gr e q m r e m e n t so nt h ec o n s t r u c t i o no fd a t ac e n t e r sa n de t lf u n c t i o n a l a r c h l t e 講u r eo fd a t ac e n t e r ,e t lp r o c e s so fd a t a c e n t e ri s m a i n l yd i v i d e di n t o e x t r a c t i o n ,c l e a n s i n g ,t r a n s f o r m a t i o na n dl o a d i n go ff o u rm a i np a r t s i na c c o r d a n c e w l t ht h ea c t u a lp r o d u c t i o no fe l e c t r i cp o w e r e n t e r p r i s eb u s i n e s sn e e d s ,i nt h i sp a p e r , d a t ae x t r a c t i o ni nt h e “c l e a n s i n g p r o c e s s i sd i v i d e di n t ot w os u b p r o c e s s e s :w h i c h l st od e t e c ta b n o r m a ld a t aa n di t sv a l u ei ss e t t o ”n u l l ”,a n dt h e nt op r e d i c tt h e v a l u eo ft h e s ev a c a n c i e sf i l l e db yo t h e rv a l i dv a l u e s i nt h i sp a p e r ,o u rm a i no b je c to fs t u d yi st h ed a t av a l u eo ft h ee l e c t r i c e n e r g y b l l l i n gs y s t e mi nt h ep o w e rm a r k e t i n g i na d d i t i o n ,t h ea r t i c l ea l s oi n t r o d u c e dt h e o b j e c tm o d e lo fe l e c t r i c a ld a t aa n dt h er e a s o no fg e n e r a t i n ga b n o m a ld a t a a tt h e s a m et i m e ,p r o p o s e dt h ew a yo ft h eg e n e t i cn e u r a ln e t w o r kp r e d i c t i o nm o d e l st of i l l t h ev a c a n c yv a l u e t h ee f f e c t i v e n e s so ft h i sm e t h o dw a sv e r i f i e d a n d t h ed a t a c l e a n i n gm e t h o dm e n t i o n e di nt h et e x tw a sa p p l i e dt ot h ec o n s t r u c t i o no fe l e c t r i c p o w e re n t e r p r i s ed a t ac e n t e r s ,t oi m p r o v ed a t aq u a l i t yd i m e n s i o n so fi n f o 瑚a t i o n s l l o si nt h ep a s tt h ep r o b l e mo fd a t af o rm a n a g e m e n t d e c i s i o n m a k i n gd a t as e r v i c e s t op r o v i d ee f f e c t i v ea n da p p r o p r i a t ed e c i s i o ns u p p o r t i ns h o r t ,w i t ht h ec o n t i n u o u sd e v e l o p m e n to f c o m p u t e ri n f o m a t i o nt e c h n 0 1 0 9 y a n dt h eb u s i n e s s r e q u i r e m e n t so ft h eq u a l i t yo ft h ed a t aa r ec o n s t a n t l yb e i n g l i 碩 。f _ 論文 i m p r o v e di nt h ea n a l y s i ss y s t e m so fd e c i s i o n - m a k i n ga n da s s i s t ,n o i s ed a t ao rd i r t y d a t ai nt h ed a t ae x t r a c t i o np r o c e s so ft h ee n c o u n t e ri sg r a d u a l l yt r a n s f o r m e di n t o d a t ae x t r a c t i o ni sa ni m p o r t a n tp a r t t of u r t h e ri m p r o v et h eq u a l i t yo fd a t a ,w e a p p l i e dam e t h o dw h i c hb a s e do ng e n e t i cn e u r a ln e t w o r kt oh a n d l et h em i s s i n g v a l u e s t h i sm e t h o df u l l yu s e dt h eg l o b a ls e a r c ha b i l i t yo fg e n e t i ca l g o r i t h ma n dt h e n o n l i n e a rm a p p i n ga b i l i t yo fn e u r a ln e t w o r k ,s ot h a tt h ep r e d i c t i o na c c u r a c yo ft h e d a t aw a sg r e a t l yi m p r o v e d t h ee x p e r i m e n ts h o w st h a tt h i sm e t h o di sf e a s i b l ea n d e f f e c t i v ei ni m p r o v i n gt h ep r e d i c t i o np r e c i s i o no fd a t a k e yw o r d s :e t l ;d a t ac l e a n i n g ;d a t ac e n t e r ;g e n e t i cn e u r a ln e t w o r k a l g o r i t h m ;p o w e rd a t a ;v a c a n c i e sv a l u e ; i i i 數(shù)州清沈方 :仃i u ,j 企、i i ,數(shù)州巾心的f j j 用研究 插圖索引 圖1 1 “噪音數(shù)據(jù)”清洗方法模型6 圖2 1 基于數(shù)據(jù)倉庫的數(shù)據(jù)清洗1 0 圖2 2 數(shù)據(jù)清洗的基本原理1 2 圖2 3 數(shù)據(jù)e t l 批處理抽取架構(gòu)圖1 8 圖2 4e t l 中的數(shù)據(jù)清洗模型2 0 圖2 5e t l 過程中混合清洗策略2 1 圖3 1 邏輯架構(gòu)2 8 圖3 2 分布式業(yè)務(wù)部署模式數(shù)據(jù)架構(gòu)圖2 9 圖3 3 典型模式i 數(shù)據(jù)架構(gòu)圖3 0 圖3 4 總體架構(gòu)設(shè)計(jì)圖3 1 圖4 1 電量數(shù)據(jù)采集過程3 3 圖4 2 臟數(shù)據(jù)處理流程3 4 圖4 3e t l 抽取臟數(shù)據(jù)處理流程3 5 圖4 4e t l 臟數(shù)據(jù)重抽流程3 6 圖4 5 電量數(shù)據(jù)清洗流程3 9 圖4 6 基于前饋型神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)預(yù)測模型4 2 圖4 7 對2 2 0 k v 線路上數(shù)據(jù)預(yù)測結(jié)果對比4 6 i v 碩i f _ ,:淪上 附表索引 表3 1 典型模式ii 和典型模式i 數(shù)據(jù)架構(gòu)間主要區(qū)別3 0 表4 1 代碼映射表3 6 表4 2e t l 臟數(shù)據(jù)表3 7 表4 3e t ls e s s i o n 表3 7 表4 4 臟數(shù)據(jù)參數(shù)文件3 8 表4 5 電量數(shù)據(jù)樣表4 4 表4 6 預(yù)測結(jié)果對比4 5 v 壩r 引論之 1 1 研究背景與意義 1 1 1 研究背景 第1 章緒論 目前伴隨著信息技術(shù)的迅速發(fā)展,商務(wù)智能技術(shù)廣泛的應(yīng)用在i t 的各個領(lǐng)域 當(dāng)中。尤其是在以網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)為支撐的商業(yè)企業(yè)當(dāng)中,規(guī)范的、系統(tǒng) 的計(jì)算機(jī)應(yīng)用建設(shè)已成為迫切的需要和發(fā)展的趨勢。從總體上看信息管理的現(xiàn) 狀,絕大部分的機(jī)構(gòu)及其組織都存在著多個異構(gòu)系統(tǒng),因此數(shù)據(jù)的組織結(jié)構(gòu)和存 儲結(jié)構(gòu)就存在著各不相同的情況,從而就形成了數(shù)據(jù)的多樣性和異構(gòu)型等“信息 孤島 的問題。針對這些大量存在的“信息孤島 現(xiàn)象,某電力系統(tǒng)利用數(shù)據(jù)倉 庫技術(shù),通過便捷有效的數(shù)據(jù)訪問手段,來支持企業(yè)內(nèi)部不同部門、不同層次、 不同需求的用戶隨時獲得自己所需的信息,來整合電力企業(yè)內(nèi)部所有分散的原始 的業(yè)務(wù)數(shù)據(jù),并能將網(wǎng)絡(luò)中分布的行業(yè)中的不同的數(shù)據(jù)源集成到一起,以便于為 各應(yīng)用系統(tǒng)提供集中的數(shù)據(jù)服務(wù)環(huán)境,并為決策者提供各種類型的數(shù)據(jù)分析。因 此就要求行業(yè)內(nèi)部對數(shù)據(jù)集中存儲統(tǒng)一管理,通過統(tǒng)一的數(shù)據(jù)定義和命名規(guī)范, 保證數(shù)據(jù)的唯一性、準(zhǔn)確性、完整性、時效性以及規(guī)范性,提供一個標(biāo)準(zhǔn)一致的 共享共用數(shù)據(jù)的平臺一一這就是文章中要介紹的數(shù)據(jù)中心。數(shù)據(jù)中心是解決異構(gòu) 環(huán)境中信息的正確性及實(shí)現(xiàn)信息的高效共享和交換的重要手段,而解決這些問題 的有效方法就是數(shù)據(jù)倉庫技術(shù)。數(shù)據(jù)清洗從字面上也看的出就是把存在問題的數(shù) 據(jù)清洗成為干凈的數(shù)據(jù)。因?yàn)閿?shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合, 這些數(shù)據(jù)從多個業(yè)務(wù)系統(tǒng)中抽取而來的,而且包含歷史數(shù)據(jù),這樣就避免不了有 的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然 是影響我們正確使用的數(shù)據(jù),稱為“噪音數(shù)據(jù)”。我們要按照一定的規(guī)則把“噪 音數(shù)據(jù)中的“噪音”給“洗掉”,這就是數(shù)據(jù)清洗。不符合要求的數(shù)據(jù)主要包 括錯誤的數(shù)據(jù)、不完整的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類。數(shù)據(jù)清洗的任務(wù)是過濾那些 不符合要求的數(shù)據(jù),將過濾的結(jié)果交給業(yè)務(wù)主管部門。然后有專門的業(yè)務(wù)部門來 確認(rèn)是否過濾掉,還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取。要了解數(shù)據(jù)清洗我們的 先知要清楚數(shù)據(jù)倉庫,他們的聯(lián)系是分不開的,著名的數(shù)據(jù)倉庫專家w h i n m o n 在2 0 世紀(jì)9 0 年代初期,在他的著作b u i l d i n gt h ed a t aw a r e h o u s e 一書中給出了數(shù) 據(jù)倉庫的概念,對數(shù)據(jù)倉庫的描述如下【l 】:數(shù)據(jù)倉庫是一個面向主題的、集成 的、不可更新相對穩(wěn)定的、來反映歷史的時間變化的數(shù)據(jù)集合,用于支持管理決 策。主題是與傳統(tǒng)數(shù)據(jù)庫的面向應(yīng)用相對應(yīng)的,是一個抽象概念。面向主題的數(shù) 數(shù)荊滑;尤萬江仃l u ,j 食、 ,數(shù)州中一t 5 的膨用f j l 究 據(jù)倉庫不但為綜合數(shù)據(jù)、歷史數(shù)據(jù)的處理提供了一種行之有效的解決辦法,也為 有效地支持組織機(jī)構(gòu)經(jīng)營管理決策提供了全局一致的數(shù)據(jù)環(huán)境,也是在較高層次 上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。每一個主題對應(yīng) 一個宏觀的分析領(lǐng)域。數(shù)據(jù)倉庫處理對于決策無用的數(shù)據(jù),提供特定主題的簡明 視圖。并最終為各級決策管理者提供科學(xué)、及時、準(zhǔn)確、有效地輔助決策依據(jù)。 而數(shù)據(jù)的缺失、冗余、不一致、不確定等諸多情況的存在是不可避免的。我 們稱這些數(shù)據(jù)為“噪音數(shù)據(jù)”,而“噪音數(shù)據(jù) 又是數(shù)據(jù)挖掘或數(shù)據(jù)倉庫以及數(shù) 據(jù)質(zhì)量管理中數(shù)據(jù)處理的重要環(huán)節(jié)?!霸胍魯?shù)據(jù)”會影響著數(shù)據(jù)集中導(dǎo)出規(guī)則 是否準(zhǔn)確,以及抽取模式是否正確。依照“垃圾進(jìn),垃圾出 的原理【2 】,利用 還有“噪音”的數(shù)據(jù)進(jìn)行決策分析就會得到錯誤的分析結(jié)果,從而誤導(dǎo)了企業(yè)領(lǐng) 導(dǎo)作出的決策。當(dāng)一些企業(yè)針對一些歷史的或現(xiàn)存的數(shù)據(jù)為對象為將來的企業(yè)發(fā) 展作決策或預(yù)測時,這些“噪音數(shù)據(jù)的清洗工作就變得非常關(guān)鍵了。同時,這 些“噪音數(shù)據(jù)還會造成大量時間都花費(fèi)在數(shù)據(jù)的e t l 階段。因?yàn)樵跀?shù)據(jù)倉庫建 立階段有大量的實(shí)踐證明大部分時間都花在數(shù)據(jù)的e t l 階段,而數(shù)據(jù)清洗又在數(shù) 據(jù)的e t l 階段占有相當(dāng)一部分工作時間。隨著計(jì)算機(jī)信息技術(shù)的不斷發(fā)展和企業(yè) 決策與輔助分析系統(tǒng)對數(shù)據(jù)質(zhì)量要求的不斷提高,數(shù)據(jù)抽取過程遇到的“噪音數(shù) 據(jù) 或“臟數(shù)據(jù) 不能在做簡單地刪除處理,因?yàn)樵趧h除這些數(shù)據(jù)時有可能丟失 大量的可用的“關(guān)鍵數(shù)據(jù)”,因此數(shù)據(jù)清洗正在逐漸的演變?yōu)閿?shù)據(jù)抽取中一個重 要的環(huán)節(jié),其理論研究與關(guān)鍵實(shí)踐就顯得非常具有實(shí)用價值。 數(shù)據(jù)的e t l 階段主要針對的是數(shù)據(jù)源,不同的數(shù)據(jù)源可能會有不同的抽取流 程。抽取的數(shù)據(jù)源中可能存在質(zhì)量問題如【3 】: 1 ) 數(shù)據(jù)的不完整,這一類數(shù)據(jù)主要是由于一些應(yīng)該有的信息缺失造成的數(shù) 據(jù)不完整,如供應(yīng)商的名稱、客戶的區(qū)域信息、分公司的名稱等屬性的缺失,還 有業(yè)務(wù)系統(tǒng)中主表與明細(xì)表不匹配等的問題。對于這一類不完整的數(shù)據(jù),要把他 們過濾出來,把缺失的內(nèi)容通過相應(yīng)的技術(shù)手段按照要求補(bǔ)齊,補(bǔ)齊后的完整數(shù) 據(jù)才能寫入數(shù)據(jù)倉庫。 2 ) 錯誤的數(shù)據(jù),這一類問題產(chǎn)生的主要原因是企業(yè)的業(yè)務(wù)系統(tǒng)不夠完整和 健全造成的,這類錯誤又被認(rèn)為是計(jì)算機(jī)造成的,是在接收輸入后沒有進(jìn)行判斷 直接寫入后臺數(shù)據(jù)庫造成的。這一類數(shù)據(jù)也要分類,對日期格式不正確的或者是 日期越界或打了一個回車、數(shù)值數(shù)據(jù)輸成全角數(shù)字字符等的這一類錯誤會導(dǎo)致 e t l 運(yùn)行失敗,這一類錯誤需要去業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫利用一定的技術(shù)手段挑出來, 然后通過相應(yīng)得方式方法修正,修正之后再進(jìn)行抽取。對于一些簡單的錯誤,如 數(shù)據(jù)前后有不可見字符等的問題,只能通過寫s q l 語句的方式就可以找出來,然 后要求客戶在業(yè)務(wù)系統(tǒng)修正之后抽取。 3 ) 重復(fù)的數(shù)據(jù),是在實(shí)際的數(shù)據(jù)處理中常見的問題,在數(shù)據(jù)倉庫環(huán)境下特 2 順f 。? 。f ? ,淪之 別重要,因?yàn)樵诩刹煌南到y(tǒng)時會產(chǎn)生大量的重復(fù)記錄。這類問題可以是針對 一個數(shù)據(jù)集的也可能是兩個數(shù)據(jù)集或者一個合并后的數(shù)據(jù)集。通常情況下,指向 同一個現(xiàn)實(shí)實(shí)體的兩條記錄的信息足部分冗余的,它們的數(shù)據(jù)互為補(bǔ)充。對于這 一類數(shù)據(jù)的處理一一特別是如將表中的重復(fù)數(shù)據(jù)記錄的所有字段導(dǎo)出來,并通過 判斷之后確認(rèn)并整理。數(shù)據(jù)清洗是一個反復(fù)的過程,一個長期的、系統(tǒng)的過程, 不能一蹴而就,不可能在幾天內(nèi)完成,只有不斷的發(fā)現(xiàn)問題,解決問題。對于是 否過濾,是否修正一般要根據(jù)實(shí)際需要來確認(rèn),對于過濾掉的數(shù)據(jù)或者將過濾數(shù) 據(jù)寫入數(shù)據(jù)表,在e t l 開發(fā)的初期將會不斷地出現(xiàn)不同的錯誤數(shù)據(jù),促使他們盡 快地修正錯誤,同時也可以作為將來驗(yàn)證數(shù)據(jù)的依據(jù)。數(shù)據(jù)清洗需要注意的是不 要將有用的數(shù)據(jù)過濾掉,對于每個過濾規(guī)則認(rèn)真進(jìn)行驗(yàn)證,并要用戶來不斷進(jìn)行 確認(rèn)。 總之,對來自不同數(shù)據(jù)源的數(shù)據(jù),對同一個概念有不同的表示方法。在集成 多個數(shù)據(jù)源時,需要解決模式?jīng)_突的問題,主要就是為了解決數(shù)據(jù)的錯誤和不一 致等情況。對相似或重復(fù)記錄的處理問題,其主要任務(wù)是需要檢測出并且合并這 些記錄。數(shù)據(jù)清洗過程就是我們解決上述問題的過程。數(shù)據(jù)清洗的目的是檢測數(shù) 據(jù)中存在的錯誤和不一致,剔除或者改正它們,以提高數(shù)據(jù)質(zhì)量。 基本上絕大多數(shù)企業(yè)中都使用了數(shù)據(jù)倉庫技術(shù)進(jìn)行信息輔助決策。而數(shù)據(jù)的 抽取、轉(zhuǎn)換、裝入( e x t r a c tt r a n s f o r ml o a d ,e t l ) 又是創(chuàng)建數(shù)據(jù)倉庫系統(tǒng)的重要環(huán) 節(jié),它從所有異構(gòu)系統(tǒng)中采集數(shù)據(jù),并對其進(jìn)行高效的轉(zhuǎn)換,它能夠很好地解決 組織機(jī)構(gòu)內(nèi)部的數(shù)據(jù)一致性與信息集成化問題,在一個數(shù)據(jù)倉庫項(xiàng)目中,大量的 工作都花費(fèi)在e t l 階段。而數(shù)據(jù)清洗是保證信息源的數(shù)據(jù)質(zhì)量,從而保證了輔助 決策的原始數(shù)據(jù)的正確性和準(zhǔn)確性?!霸胍魯?shù)據(jù),【6 】是e t l ( 抽取、轉(zhuǎn)換、裝入) 過程中不可規(guī)避的問題,同時它也是衡量企業(yè)級數(shù)據(jù)倉庫優(yōu)劣的基礎(chǔ)指標(biāo)之一。 因此數(shù)據(jù)清洗就是提高數(shù)據(jù)質(zhì)量的有效方法,選擇一個高效、便捷的數(shù)據(jù)清洗算 法是具有重要意義的。 1 1 2 研究意義 本課題的研究主要有以下三個方面的意義: 保證數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量 e t l 是數(shù)據(jù)倉庫技術(shù)包括的內(nèi)容之一,在e t l 數(shù)據(jù)抽取過程中,“噪音數(shù)據(jù) 的存在是無法避免的,而數(shù)據(jù)質(zhì)量問題是制約數(shù)據(jù)倉庫應(yīng)用的障礙之一。如果數(shù) 據(jù)質(zhì)量達(dá)不到要求,將直接導(dǎo)致數(shù)據(jù)倉庫技術(shù)不能產(chǎn)生理想的結(jié)果,甚至?xí)a(chǎn)生 錯誤的分析結(jié)果,從而誤導(dǎo)決策。e t l “噪音數(shù)據(jù) 清洗的任務(wù)就是通過各種措 施從準(zhǔn)確性、一致性、無冗余等方面提高數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量。 3 數(shù)掘清洗方法 。i u ,j 企、i k 數(shù)掘中心的j 妙用研究 提高e t l 的工作效率 在數(shù)據(jù)倉庫建設(shè)中,約7 0 的工作量都花費(fèi)在e t l 階段,e t l 程序經(jīng)常會面 對數(shù)據(jù)缺失、數(shù)據(jù)異常等眾多“噪音數(shù)據(jù)”的情況,e t l 程序算法不得不占用更 多得系統(tǒng)軟硬件資源去處理這些問題,從而導(dǎo)致整個e t l 處理工作量大、運(yùn)行 時間長等問題,因此,改進(jìn)、優(yōu)化e t l 過程中對“噪音數(shù)據(jù) 處理算法,必定會 大大的降低系統(tǒng)資源的占用率,從而提高整個e t l i 作效率。 降低企業(yè)硬件投入 e t l 程序算法的優(yōu)劣,直接受益的另一個方面就是企業(yè)對系統(tǒng)硬件的投入, 如果算法復(fù)雜,則需要占用較高的c p u 資源,有可能還會消耗更多的內(nèi)存資源, 企業(yè)就必須不斷的更新系統(tǒng)硬件滿足越來越多的數(shù)據(jù)處理( 在最初的數(shù)據(jù)處理過 程中可能不明顯,然而隨著數(shù)據(jù)量的不斷增加,這種現(xiàn)象會越來越明顯) ,并且 會明顯的感覺到投入產(chǎn)出比的不和諧。 1 2 國內(nèi)外研究現(xiàn)狀 數(shù)據(jù)倉庫的領(lǐng)頭設(shè)計(jì)師w h i n m o n 提出了數(shù)據(jù)倉庫概念,數(shù)據(jù)倉庫是一個 面向主題的、集成的、隨時間而變化的、不容易丟失的數(shù)據(jù)集合,支持管理部門 的決策過程【1 】【2 1 。數(shù)據(jù)倉庫的四個重要特征就是【1 】:面向主題的、集成的、與 時間相關(guān)的、不可修改的數(shù)據(jù)集合等。所謂主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策 時所關(guān)心的重點(diǎn)方面。面向主題性表示數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉 庫中的所有數(shù)據(jù)都是圍繞著某一主題組織、展開的。 其中e t l ( 數(shù)據(jù)抽取( e x t r a c t ) 、轉(zhuǎn)換( t r a n s f o r m ) 、清洗( c l e a n s i n g ) 、裝載 ( l o a d ) ) 過程又是數(shù)據(jù)倉庫建立過程中的重要環(huán)節(jié)。在數(shù)據(jù)倉庫項(xiàng)目中,大約7 0 的工作量在e t l 階段,因此在此過程中難免出現(xiàn)大量的臟數(shù)據(jù),為了保證高質(zhì)量 的數(shù)據(jù),所以在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前必須清洗。 數(shù)據(jù)清洗是一個較新的研究領(lǐng)域,對大數(shù)據(jù)集的清洗是很費(fèi)時的工作,清洗 過程計(jì)算量較大,很難用傳統(tǒng)的算法操作。目前,數(shù)據(jù)清洗還沒有公認(rèn)的定義, 不同的應(yīng)用領(lǐng)域?qū)ζ溆胁煌慕忉?。為了保證應(yīng)用于數(shù)據(jù)倉庫前端的決策支持系 統(tǒng)產(chǎn)生正確的決策分析結(jié)果,就要提高數(shù)據(jù)的質(zhì)量。數(shù)據(jù)清洗技術(shù)提高數(shù)據(jù)質(zhì)量 方法之一,數(shù)據(jù)清洗的目的是檢測數(shù)據(jù)中存在的錯誤、不一致數(shù)據(jù)和重復(fù)記錄, 并消除或改正它們,從而提高數(shù)據(jù)質(zhì)量。數(shù)據(jù)清洗過程被定義為下面三個步驟 h 】:( 1 ) 定義和確定錯誤的類型( 2 ) 搜尋并識別錯誤的實(shí)例( 3 ) 糾正所發(fā)現(xiàn)的錯 誤。數(shù)據(jù)清洗主要應(yīng)用于三個領(lǐng)域【5 】:數(shù)據(jù)倉庫( d w ) 、數(shù)據(jù)庫中的知識發(fā)現(xiàn) ( k d d ,又稱為數(shù)據(jù)挖掘) 和數(shù)據(jù)信息質(zhì)量管理( 如全面數(shù)據(jù)質(zhì)量管理t d q m ) 。 4 壩卜f i i 論文 1 2 1 數(shù)據(jù)清洗的研究現(xiàn)狀 從總體上看國內(nèi)外的相關(guān)研究主要有以下幾個方面【l2 j :在對數(shù)據(jù)集進(jìn)行 異常檢測和清洗處理的過程中增加人工判斷,來防止正確數(shù)據(jù)的錯誤處理。對 大型數(shù)據(jù)集的處理時提出高效的數(shù)據(jù)異常檢測算法,來避免掃描整個龐大的數(shù)據(jù) 集,例如針對大型數(shù)據(jù)集進(jìn)行增量處理的數(shù)據(jù)清洗算法;數(shù)據(jù)集中的重復(fù)數(shù) 據(jù)的清洗;數(shù)據(jù)清洗時對數(shù)據(jù)集中文件的處理通用的與領(lǐng)域無關(guān)的數(shù)據(jù)清 洗框架的建立。 針對具體的應(yīng)用領(lǐng)域和方法主要作了如下的分類概括: ( 1 ) 對數(shù)據(jù)集進(jìn)行異常檢測【l4 1 ,是指對數(shù)據(jù)集中記錄的屬性值的清洗過程。 對屬性值的清洗主要有方法如下: 文獻(xiàn)中【2 9 】提出了采用基于距離的聚類方法來識別異常記錄;采用關(guān)聯(lián)規(guī)則 的方法來發(fā)現(xiàn)數(shù)據(jù)集中不符合具有支持度的規(guī)則和高置信度的異常數(shù)據(jù)。采用基 于模式的方法來發(fā)現(xiàn)和數(shù)據(jù)集中現(xiàn)有的模式不符合的異常記錄;在文獻(xiàn)【l9 】采用 統(tǒng)計(jì)學(xué)方法檢測數(shù)值型的屬性值,其方法是計(jì)算字段值的均值和標(biāo)準(zhǔn)差,考慮每 一個字段的置信區(qū)間來識別異常字段和記錄。屬性清洗可以針對具體問題具體分 析,也可針對某類問題提供解決方案。對其值為字符型的屬性利用了屬性間的約 束關(guān)系、模式識別技術(shù)等,難度較大。如果清洗方案能自動發(fā)掘規(guī)則,則屬于自 適應(yīng)性屬性清洗,實(shí)現(xiàn)難度很大,這種方案不常見【3 1 1 。 ( 2 ) 針對大型數(shù)據(jù)集進(jìn)行增量處理的數(shù)據(jù)清洗算法 對于大型數(shù)據(jù)集進(jìn)行并行,增量處理的研究。目前對其的己有研究成果主要 集中在數(shù)據(jù)e t l 工具上,正對某些商業(yè)e t l 工包括轉(zhuǎn)換工具和清洗工具,已經(jīng)具有 的利用多進(jìn)程、多線程、流水、多處理器等技術(shù)來進(jìn)行數(shù)據(jù)的并行集成與清洗, 并再次基礎(chǔ)上提供數(shù)據(jù)的增量復(fù)制功能口引,但它缺少姓名、地址等信息的清洗、 也缺少模糊匹配和合并的功能。 ( 3 ) 識別并消除數(shù)據(jù)集中的近似重復(fù)對象,也就是重復(fù)記錄的清洗。因?yàn)樵?集成不同的系統(tǒng)時會產(chǎn)生大量的重復(fù)記錄,消除數(shù)據(jù)集中的近似重復(fù)記錄問題是 目前數(shù)據(jù)清洗領(lǐng)域研究的最多的內(nèi)容【3 1 1 。 ( 4 ) 建立通用可擴(kuò)展的數(shù)據(jù)清洗框架 不少數(shù)據(jù)清洗方案和算法都是針對特定應(yīng)用問題的,只適用于較小的范圍。 而通用的與應(yīng)用領(lǐng)域無關(guān)的、可擴(kuò)展的算法和方案較少。數(shù)據(jù)清洗工具有e t l 工 具和專用的清洗工具。但是商業(yè)的e t l 工具中雖然提供了一些數(shù)據(jù)清洗功能,但 是這些清洗功能都缺乏擴(kuò)展性。因此,有不少的研究人員提出了通用的數(shù)據(jù)清洗 系統(tǒng)的框架。并且根據(jù)這些框架的要求的功能,又提出了數(shù)據(jù)清洗的模型和語言。 因此在通用s q l 語言基礎(chǔ)上擴(kuò)展了新的數(shù)據(jù)清洗操作。 數(shù)槲清沈方法n :i u j 氽、業(yè)數(shù)據(jù)中心的j j j 用研究 1 2 2 “噪音數(shù)據(jù) 清洗的研究現(xiàn)狀 目前對數(shù)據(jù)的清洗主要還是“噪音數(shù)據(jù)”的清洗。而“噪音數(shù)據(jù)”清洗是數(shù) 據(jù)的e t l 過程中數(shù)據(jù)清洗的重要組成部分?!霸胍魯?shù)據(jù) 數(shù)據(jù)產(chǎn)生的常見原因主 要有:1 在數(shù)據(jù)的采集過程中數(shù)據(jù)的采集設(shè)備有問題造成的;2 在數(shù)據(jù)的傳輸過 程中發(fā)生錯誤;3 在對數(shù)據(jù)進(jìn)行錄入的過程中發(fā)生了人為或計(jì)算機(jī)的錯誤;4 由于命名規(guī)則或數(shù)據(jù)代碼不一致而引起的不一致。因此噪聲數(shù)據(jù)【6 】就是指數(shù)據(jù) 中存在著錯誤或異常( 偏離期望值) 的數(shù)據(jù)。 將目前對“噪音數(shù)據(jù)”的相關(guān)研究綜合起來,可以將“噪音數(shù)據(jù) 的方法模 型與過程模型組合起來,從而構(gòu)建出一個清晰的多維度的過程方法的鏈接。在每 一階段的任務(wù)處理中都會對應(yīng)相應(yīng)的一種或多種方法為之服務(wù)。下面將方法模 型、過程模型和構(gòu)件模型都組合起來,可以得到多維度的綜合映射,從而得到作 “噪音數(shù)據(jù)”清洗方法模型心引。 s q l 穹演卜一- 麓萇紫化 _ 一鼴體s 吼瀟 坊 纓太定坳 麓 、 圖1 1 “噪音數(shù)據(jù)”清洗方法模型 文獻(xiàn)陋3 提出了基于統(tǒng)計(jì)的“噪音數(shù)據(jù)”處理方法,這種方法稱為基于平均 值的“噪音 識別,它是根據(jù)統(tǒng)計(jì)學(xué)原理( 切比雪夫定理) ,使用數(shù)據(jù)的平均值、 標(biāo)準(zhǔn)差、置信區(qū)間可以識別異常數(shù)據(jù)。有時用中值取代平均值,也稱為基于中值 的“噪音 識別法。基于統(tǒng)計(jì)的數(shù)據(jù)清洗方法比較適合數(shù)值型數(shù)據(jù)的清洗,在日 常生活中被廣泛使用( 如奧運(yùn)會上體操、跳水等比賽項(xiàng)目的打分制度) 。該方法的 缺點(diǎn)是在計(jì)算字段值的均值和標(biāo)準(zhǔn)差時,需要用每一個字段的置信區(qū)間來識別異 常字段和記錄,所以在對“噪音數(shù)據(jù) 進(jìn)行處理前需要了解數(shù)據(jù)集中的“噪音 規(guī)模。 在文獻(xiàn)乜鍆中提乜們出的基于聚類分析的在屬性級別上處理噪聲數(shù)據(jù)的算法。 這個模型還可以為“噪音數(shù)據(jù)”的產(chǎn)生過程建模,這是一種在屬性級別上識別噪 6 螂! f 7 f j 論遷 聲數(shù)據(jù)并進(jìn)行清洗的算法模型。這種方法主要用于數(shù)據(jù)質(zhì)量方面的數(shù)據(jù)清洗任 務(wù)。此方法是統(tǒng)計(jì)噪聲在屬性上的分布規(guī)律,并在屬性級別上識別“噪音數(shù)據(jù)”, 并根據(jù)其他的干凈數(shù)據(jù)對其進(jìn)行矯正。同時,該方法也是有缺點(diǎn)的,其缺點(diǎn)是用 干凈數(shù)據(jù)中的( 期望) 值矯正“噪音數(shù)據(jù)”的,這樣的話對數(shù)值型數(shù)據(jù)來說精確 度就有一定的問題。 大多數(shù)文獻(xiàn)中提出的對于關(guān)系型數(shù)據(jù)庫中“噪音數(shù)據(jù)”的處理,大量的工作 集中在記錄級別上發(fā)現(xiàn)“噪音數(shù)據(jù) 點(diǎn)并刪除掉這些記錄。這種方法有很高的執(zhí) 行效率,但它的缺點(diǎn)是一旦認(rèn)定一條記錄是“噪音數(shù)據(jù) ,那么這條記錄中關(guān)鍵 的干凈的數(shù)據(jù)信息也將丟失。例如文獻(xiàn)口糾中提出了一種在大型數(shù)據(jù)庫中檢測異 常數(shù)據(jù)的線性方法,這種方法是在記錄的級別上識別噪聲數(shù)據(jù),即假定整條記錄 要么是噪聲,要么是干凈的數(shù)據(jù)。因此在一些噪聲數(shù)據(jù)單元很多的數(shù)據(jù)庫中,要 想有效地提高數(shù)據(jù)的質(zhì)量來實(shí)現(xiàn)信息的最大化價值,這種方法顯然不可行。 對于聚類分析法在噪聲數(shù)據(jù)清洗中的算法還是比較多,聚類【2 9 】【4 4 】是按某種 標(biāo)準(zhǔn)將數(shù)據(jù)集分組為多個組或簇,同一簇中的數(shù)據(jù)具有高度相似性,而不同簇的 數(shù)據(jù)差別較大。目前已有大量聚類算法,算法的選擇取決于數(shù)據(jù)自身的特征和聚 、 類應(yīng)用的目的,典型的聚類算法如k - m e a n s ( k 平均值) 【4 4 1 、k m e d o i d s ( k 中心點(diǎn)) 4 5 1 算法。聚類可以根據(jù)大多數(shù)原則,把被分組在較小簇中的數(shù)據(jù)視為“噪音數(shù) 據(jù)”來實(shí)現(xiàn)“噪音數(shù)據(jù)”清洗。用于“噪音”識別的聚類方法主要指基于距離的噪 一 聲識別:該方法是以數(shù)據(jù)集中兩兩數(shù)據(jù)間的距離為分組依據(jù),對數(shù)據(jù)集進(jìn)行聚類 分析。而聚類方法的缺點(diǎn)是在對“噪音數(shù)據(jù)”處理之前需要了解數(shù)據(jù)集中“噪音 數(shù)據(jù)”的分布情況,否則難以確定聚類分組的次數(shù)。 文獻(xiàn)h “該文所提出的基于遺傳神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)清洗模型在預(yù)測待填補(bǔ)值。 該方法預(yù)測精度比較高,大大提高了數(shù)據(jù)的干凈程度,因?yàn)榇朔椒ǔ浞掷昧诉z 傳算法的全局尋優(yōu)特性和神經(jīng)網(wǎng)絡(luò)的非線性映射能力。遺傳神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)清洗 是進(jìn)行數(shù)據(jù)清洗的有效方法。但此方法的缺點(diǎn)是缺少對噪聲數(shù)據(jù)的識別。 總的來說目前對數(shù)據(jù)的清洗還沒有獨(dú)立出來作為一個課題,因此關(guān)于數(shù)據(jù)清 洗的相關(guān)書籍還是比較少,大都是在數(shù)據(jù)倉庫技術(shù)或數(shù)據(jù)挖掘技術(shù)中僅有很少的 篇幅來介紹,而對數(shù)據(jù)清洗的文章只能在期刊論文和學(xué)術(shù)會議論文中看到,對“噪 音數(shù)據(jù) 清洗的論文也不多。因此,要完成此項(xiàng)任務(wù)還是很有挑戰(zhàn)性的。 1 3 本文的主要工作 本文根據(jù)某電力“s g l8 6 i 程數(shù)據(jù)中心建設(shè)過程中對其所需的電量數(shù)據(jù)中 產(chǎn)生的“噪音數(shù)據(jù)在e t l 過程中的清洗技術(shù)作為主要內(nèi)容。本文的主要思路: 對數(shù)據(jù)中心中遇到的一些電量噪音數(shù)據(jù)如何進(jìn)行處理,在文章中先是對“噪音數(shù) 據(jù) 進(jìn)行識別,并對識別過程中的異常數(shù)據(jù)進(jìn)行刪除,然后再對缺失數(shù)據(jù)進(jìn)行平 7 教掘清沈方法仃f u j 介、i k 數(shù)婀中心的f 用f i j 宄 滑( 預(yù)測填補(bǔ)) 。在本課題中采用統(tǒng)計(jì)和前饋型遺傳神經(jīng)網(wǎng)絡(luò)算法相結(jié)合的數(shù)據(jù) 清洗方法模型,即在噪音識別階段采用基于統(tǒng)計(jì)( 根據(jù)切比雪夫定理) 的中值識 別,在噪音平滑階段采用基于遺傳神經(jīng)網(wǎng)絡(luò)的預(yù)測模型進(jìn)行缺失數(shù)據(jù)的預(yù)測填 補(bǔ)。這樣既可以有效地解決了空缺值的問題也可以用同樣的方法來解決“噪音數(shù) 據(jù)”的問題。 1 4 本文的內(nèi)容安排工作 本文主要講述了某電力系統(tǒng)在數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論