數(shù)據(jù)清洗綜述_第1頁(yè)
數(shù)據(jù)清洗綜述_第2頁(yè)
數(shù)據(jù)清洗綜述_第3頁(yè)
數(shù)據(jù)清洗綜述_第4頁(yè)
數(shù)據(jù)清洗綜述_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)清洗研究綜述隨著信息處理技術(shù)的不斷發(fā)展,各行各業(yè)已建立了很多計(jì)算機(jī)信息系統(tǒng),積累了大量的數(shù)據(jù)。為了使數(shù)據(jù)能夠有效地支持組織的日常運(yùn)作和決策,要求數(shù)據(jù)可靠無(wú)誤,能夠準(zhǔn)確地反映現(xiàn)實(shí)世界的狀況。數(shù)據(jù)是信息的基礎(chǔ),好的數(shù)據(jù)質(zhì)量是各種數(shù)據(jù)分析如OLAP、數(shù)據(jù)挖掘等有效應(yīng)用的基本條件。人們常常抱怨“數(shù)據(jù)豐富,信息貧乏”,究其原因,一是缺乏有效的數(shù)據(jù)分析技術(shù),二是數(shù)據(jù)質(zhì)量不高,如數(shù)據(jù)輸入錯(cuò)誤、不同來(lái)源數(shù)據(jù)引起的不同表示方法,數(shù)據(jù)間的不一致等,導(dǎo)致現(xiàn)有的數(shù)據(jù)中存在這樣或那樣的臟數(shù)據(jù)。它們主要表現(xiàn)為:拼寫(xiě)問(wèn)題、打印錯(cuò)誤、不合法值、空值、不一致值、簡(jiǎn)寫(xiě)、同一實(shí)體的多種表示(重復(fù))、不遵循引用完整性等。數(shù)據(jù)清洗

2、(Data Cleaning,Data Cleansing或者Data Scrubbing)的目的是檢測(cè)數(shù)據(jù)中存在的錯(cuò)誤和不一致,剔除或者改正它們,以提高數(shù)據(jù)的質(zhì)量1。1數(shù)據(jù)清洗國(guó)內(nèi)外研究現(xiàn)狀數(shù)據(jù)清洗主要在數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(也稱(chēng)數(shù)據(jù)挖掘)和總體數(shù)據(jù)質(zhì)量管理這3個(gè)領(lǐng)域研究較多。在數(shù)據(jù)倉(cāng)庫(kù)研究和應(yīng)用領(lǐng)域,數(shù)據(jù)清洗處理是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的第一步,由于數(shù)據(jù)量巨大,不可能進(jìn)行人工處理,因此自動(dòng)化數(shù)據(jù)清洗受到工商業(yè)界的廣泛關(guān)注。1.1國(guó)外研究現(xiàn)狀國(guó)外對(duì)數(shù)據(jù)清洗的研究最早出現(xiàn)在美國(guó),是從對(duì)全美的社會(huì)保險(xiǎn)號(hào)錯(cuò)誤的糾正開(kāi)始2。美國(guó)信息業(yè)和商業(yè)的發(fā)展,極大地刺激了對(duì)數(shù)據(jù)清洗技術(shù)的研究,主要集中在以下4個(gè)方面。

3、(1)檢測(cè)并消除數(shù)據(jù)異常采用統(tǒng)計(jì)方法來(lái)檢測(cè)數(shù)值型屬性,計(jì)算字段值的均值和標(biāo)準(zhǔn)差,考慮每個(gè)字段的置信區(qū)間來(lái)識(shí)別異常字段和記錄。將數(shù)據(jù)挖掘方法引入數(shù)據(jù)清理,如聚類(lèi)方法用于檢測(cè)異常記錄、模型方法發(fā)現(xiàn)不符合現(xiàn)有模式的異常記錄、關(guān)聯(lián)規(guī)則方法發(fā)現(xiàn)數(shù)據(jù)集中不符合具有高置信度和支持度規(guī)則的異常數(shù)據(jù)。(2)檢測(cè)并消除近似重復(fù)記錄即對(duì)重復(fù)記錄進(jìn)行清洗。消除數(shù)據(jù)集中的近似重復(fù)記錄問(wèn)題是目前數(shù)據(jù)清洗領(lǐng)域中研究最多的內(nèi)容。為了從數(shù)據(jù)集中消除重復(fù)記錄,首要的問(wèn)題就是如何判斷兩條記錄是否近似重復(fù)。(3)數(shù)據(jù)的集成在數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中,數(shù)據(jù)清洗首先必須考慮數(shù)據(jù)集成,主要是將數(shù)據(jù)源中的結(jié)構(gòu)和數(shù)據(jù)映射到目標(biāo)結(jié)構(gòu)與域中。在這方面已經(jīng)開(kāi)

4、展了大量的研究工作。(4)特定領(lǐng)域的數(shù)據(jù)清洗不少數(shù)據(jù)清洗方案和算法都是針對(duì)特定應(yīng)用問(wèn)題的,只適用于較小的范圍。通用的、與應(yīng)用領(lǐng)域無(wú)關(guān)的算法和方案較少。近年來(lái),國(guó)外的數(shù)據(jù)清洗技術(shù)發(fā)展得很快,從市場(chǎng)上存在的數(shù)據(jù)清洗軟件可以看出,其中包括商業(yè)上的數(shù)據(jù)清洗軟件,也有大學(xué)和研究機(jī)構(gòu)開(kāi)發(fā)的數(shù)據(jù)清洗軟件。1.2國(guó)內(nèi)研究現(xiàn)狀目前,國(guó)內(nèi)對(duì)數(shù)據(jù)清洗技術(shù)的研究還處于初級(jí)階段。直接針對(duì)數(shù)據(jù)清洗,特別是針對(duì)中文數(shù)據(jù)清洗的研究成果并不多。大多是在數(shù)據(jù)倉(cāng)庫(kù)、決策支持、數(shù)據(jù)挖掘研究中,對(duì)其做一些比較簡(jiǎn)單的闡述。銀行、保險(xiǎn)和證券等對(duì)客戶(hù)數(shù)據(jù)的準(zhǔn)確性要求很高的行業(yè),都在做各自的客戶(hù)數(shù)據(jù)的清洗工作,針對(duì)各自具體應(yīng)用而開(kāi)發(fā)軟件,而很

5、少有理論性的成果見(jiàn)諸于報(bào)道。2數(shù)據(jù)清洗的定義與對(duì)象2.1數(shù)據(jù)清洗定義迄今為止,數(shù)據(jù)清洗還沒(méi)有公認(rèn)的定義,不同的應(yīng)用領(lǐng)域?qū)ζ溆胁煌慕忉尅?1)數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域中的數(shù)據(jù)清洗在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域,數(shù)據(jù)清洗定義為清除錯(cuò)誤和不一致數(shù)據(jù)的過(guò)程,并需要解決元組重復(fù)問(wèn)題。當(dāng)然,數(shù)據(jù)清洗并不是簡(jiǎn)單地用優(yōu)質(zhì)數(shù)據(jù)更新記錄,它還涉及數(shù)據(jù)的分解與重組。(2)數(shù)據(jù)挖掘領(lǐng)域中的數(shù)據(jù)清洗數(shù)據(jù)挖掘(早期又稱(chēng)為數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn))過(guò)程中,數(shù)據(jù)清洗是第一個(gè)步驟,即對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的過(guò)程。各種不同的KDD和DW系統(tǒng)都是針對(duì)特定的應(yīng)用領(lǐng)域進(jìn)行數(shù)據(jù)清洗的。文獻(xiàn)3認(rèn)為,信息的模式被用于發(fā)現(xiàn)“垃圾模式”,即沒(méi)有意義的或錯(cuò)誤的模式,這屬于數(shù)據(jù)清洗的一種

6、。(3)數(shù)據(jù)質(zhì)量管理領(lǐng)域中的數(shù)據(jù)清洗數(shù)據(jù)質(zhì)量管理是一個(gè)學(xué)術(shù)界和商業(yè)界都感興趣的領(lǐng)域。全面數(shù)據(jù)質(zhì)量管理解決整個(gè)信息業(yè)務(wù)過(guò)程中的數(shù)據(jù)質(zhì)量及集成問(wèn)題。在該領(lǐng)域中,沒(méi)有直接定義數(shù)據(jù)清洗過(guò)程。有些文章從數(shù)據(jù)質(zhì)量的角度,將數(shù)據(jù)清洗過(guò)程定義為一個(gè)評(píng)價(jià)數(shù)據(jù)正確性并改善其質(zhì)量的過(guò)程。2.2數(shù)據(jù)清洗的對(duì)象數(shù)據(jù)清洗的對(duì)象可以按照數(shù)據(jù)清洗對(duì)象的來(lái)源領(lǐng)域與產(chǎn)生原因進(jìn)行分類(lèi)。前者屬于宏觀層面的劃分,后者屬于微觀層面的劃分。(1)來(lái)源領(lǐng)域很多領(lǐng)域都涉及到數(shù)據(jù)清洗,如數(shù)字化文獻(xiàn)服務(wù)、搜索引擎、金融領(lǐng)域、政府機(jī)構(gòu)等,數(shù)據(jù)清洗的目的是為信息系統(tǒng)提供準(zhǔn)確而有效的數(shù)據(jù)。數(shù)字化文獻(xiàn)服務(wù)領(lǐng)域,在進(jìn)行數(shù)字化文獻(xiàn)資源加工時(shí),OCR軟件有時(shí)會(huì)

7、造成字符識(shí)別錯(cuò)誤,或由于標(biāo)引人員的疏忽而導(dǎo)致標(biāo)引詞的錯(cuò)誤等,是數(shù)據(jù)清洗需要完成的任務(wù)。搜索引擎為用戶(hù)在互聯(lián)網(wǎng)上查找具體的網(wǎng)頁(yè)提供了方便,它是通過(guò)為某一網(wǎng)頁(yè)的內(nèi)容進(jìn)行索引而實(shí)現(xiàn)的。而一個(gè)網(wǎng)頁(yè)上到底哪些部分需要索引,則是數(shù)據(jù)清洗需要關(guān)注的問(wèn)題。例如,網(wǎng)頁(yè)中的廣告部分,通常是不需要索引的。按照網(wǎng)絡(luò)數(shù)據(jù)清洗的粒度不同,可以將網(wǎng)絡(luò)數(shù)據(jù)清洗分為兩類(lèi),即Web頁(yè)面級(jí)別的數(shù)據(jù)清洗和基于頁(yè)面內(nèi)部元素級(jí)別的數(shù)據(jù)清洗,前者以Google公司提出的PageRank算法和IBM公司Clever系統(tǒng)的HITS算法為代表;而后者的思路則集中體現(xiàn)在作為MSN搜索引擎核心技術(shù)之一的VIPS算法上4。在金融系統(tǒng)中,也存在很多“臟

8、數(shù)據(jù)”。主要表現(xiàn)為:數(shù)據(jù)格式錯(cuò)誤,數(shù)據(jù)不一致,數(shù)據(jù)重復(fù)、錯(cuò)誤,業(yè)務(wù)邏輯的不合理,違反業(yè)務(wù)規(guī)則等。例如,未經(jīng)驗(yàn)證的身份證號(hào)碼、未經(jīng)驗(yàn)證的日期字段等,還有賬戶(hù)開(kāi)戶(hù)日期晚于用戶(hù)銷(xiāo)戶(hù)日期、交易處理的操作員號(hào)不存在、性別超過(guò)取值范圍等。此外,也有因?yàn)樵聪到y(tǒng)基于性能的考慮,放棄了外鍵約束,從而導(dǎo)致數(shù)據(jù)不一致的結(jié)果。電子政務(wù)系統(tǒng)也存在“臟數(shù)據(jù)”。為了能夠更好地對(duì)公民負(fù)責(zé)并且能夠與全國(guó)的其他警察局共享數(shù)據(jù),英國(guó)Hum-berside州警察局使用數(shù)據(jù)清洗軟件清洗大范圍的嫌疑犯和犯罪分子的數(shù)據(jù)。這次清洗的范圍龐大,跨越不同的系統(tǒng),不僅有該警察局內(nèi)部系統(tǒng)的數(shù)據(jù),還有外部的數(shù)據(jù)庫(kù)包括本地的和整個(gè)英國(guó)范圍內(nèi)的。其中有些

9、數(shù)據(jù)庫(kù)能夠相連和整合,而有些則不能。例如,“指令部級(jí)控制”的犯罪記錄數(shù)據(jù)庫(kù)是用來(lái)記錄犯罪事件的,該數(shù)據(jù)庫(kù)是和嫌疑犯數(shù)據(jù)庫(kù)分開(kāi)的。而嫌疑犯數(shù)據(jù)庫(kù)也許和家庭犯罪或孩童犯罪數(shù)據(jù)庫(kù)是分開(kāi)的5。(2)產(chǎn)生原因在微觀方面,數(shù)據(jù)清洗的對(duì)象分為模式層數(shù)據(jù)清洗與實(shí)例層數(shù)據(jù)清洗6。數(shù)據(jù)清洗的任務(wù)是過(guò)濾或者修改那些不符合要求的數(shù)據(jù)。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù)3大類(lèi)。不完整數(shù)據(jù)的特征是一些應(yīng)該有的信息缺失,如機(jī)構(gòu)名稱(chēng)、分公司的名稱(chēng)、區(qū)域信息缺失等.錯(cuò)誤數(shù)據(jù)產(chǎn)生的原因是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒(méi)有進(jìn)行判斷而直接寫(xiě)入后臺(tái)數(shù)據(jù)庫(kù)造成的,比如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后有一個(gè)

10、回車(chē)、日期格式不正確、日期越界等。錯(cuò)誤值包括輸入錯(cuò)誤和錯(cuò)誤數(shù)據(jù),輸入錯(cuò)誤是由原始數(shù)據(jù)錄入人員疏忽而造成的,而錯(cuò)誤數(shù)據(jù)大多是由一些客觀原因引起的,例如人員填寫(xiě)的所屬單位的不同和人員的升遷等。異常數(shù)據(jù)是指所有記錄中如果一個(gè)或幾個(gè)字段間絕大部分遵循某種模式,其它不遵循該模式的記錄,如年齡字段超過(guò)歷史上的最高記錄年齡等。重復(fù)數(shù)據(jù)也就是“相似重復(fù)記錄”,指同一個(gè)現(xiàn)實(shí)實(shí)體在數(shù)據(jù)集合中用多條不完全相同的記錄來(lái)表示,由于它們?cè)诟袷?、拼?xiě)上的差異,導(dǎo)致數(shù)據(jù)庫(kù)管理系統(tǒng)不能正確識(shí)別。從狹義的角度看,如果兩條記錄在某些字段的值相等或足夠相似,則認(rèn)為這兩條記錄互為相似重復(fù)。識(shí)別相似重復(fù)記錄是數(shù)據(jù)清洗活動(dòng)的核心。此外,由

11、于法人或作者更換單位造成數(shù)據(jù)的不一致情況、不同的計(jì)量單位、過(guò)時(shí)的地址、郵編等其他情況也是數(shù)據(jù)清洗的對(duì)象。3數(shù)據(jù)清洗基本原理與框架模型3.1基本原理數(shù)據(jù)清洗的原理為:利用有關(guān)技術(shù),如統(tǒng)計(jì)方法、數(shù)據(jù)挖掘方法、模式規(guī)則方法等將臟數(shù)據(jù)轉(zhuǎn)換為滿(mǎn)足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。數(shù)據(jù)清洗按照實(shí)現(xiàn)方式與范圍,可分為以下4種。(1)手工實(shí)現(xiàn)通過(guò)人工檢查,只要投入足夠的人力、物力與財(cái)力,也能發(fā)現(xiàn)所有錯(cuò)誤,但效率低下。在大數(shù)據(jù)量的情況下,手工操作幾乎是不可能的。(2)編寫(xiě)專(zhuān)門(mén)的應(yīng)用程序這種方法能解決某個(gè)特定的問(wèn)題,但不夠靈活,特別是在清洗過(guò)程需要反復(fù)進(jìn)行(一般來(lái)說(shuō),數(shù)據(jù)清洗一遍就達(dá)到要求的很少)時(shí),導(dǎo)致程序復(fù)雜,清洗過(guò)程變化

12、時(shí),工作量大。而且這種方法也沒(méi)有充分利用目前數(shù)據(jù)庫(kù)提供的強(qiáng)大數(shù)據(jù)處理能力。(3)解決某類(lèi)特定應(yīng)用域的問(wèn)題如根據(jù)概率統(tǒng)計(jì)學(xué)原理查找數(shù)值異常的記錄,對(duì)姓名、地址、郵政編碼等進(jìn)行清洗,這是目前研究較多的領(lǐng)域,也是應(yīng)用最成功的一類(lèi)。(4)與特定應(yīng)用領(lǐng)域無(wú)關(guān)的數(shù)據(jù)清洗這一部分的研究主要集中在清洗重復(fù)記錄上。在以上4種實(shí)現(xiàn)方法中,后兩種具有某種通用性及其較大的實(shí)用性,引起了越來(lái)越多的關(guān)注。但是不管哪種方法,都由3個(gè)階段組成:數(shù)據(jù)分析、定義;搜索、識(shí)別錯(cuò)誤記錄;修正錯(cuò)誤。3.2數(shù)據(jù)清洗的框架模型目前已經(jīng)研究出很多數(shù)據(jù)清洗的框架模型,下面介紹3個(gè)有代表性的框架模型。(1)Trillium的模型Trillium

13、7是由Harte Hanks Data Technologies的Trillium Software Systems部門(mén)創(chuàng)建的企業(yè)范圍的數(shù)據(jù)清洗軟件。Trillium將數(shù)據(jù)清洗的過(guò)程分成5個(gè)步驟,分別由5個(gè)模塊來(lái)完成。Converson Workbench提供了一整套數(shù)據(jù)審計(jì)、分析和重組工具;Parser對(duì)遺產(chǎn)數(shù)據(jù)和操作型系統(tǒng)的數(shù)據(jù)作解析、驗(yàn)證和標(biāo)準(zhǔn)化;Matcher地提供一套標(biāo)準(zhǔn)規(guī)則用于記錄連接和匹配,使得用戶(hù)可以方便地調(diào)整和定制以滿(mǎn)足其特殊的業(yè)務(wù)要求;Geocoder驗(yàn)證、糾正和增強(qiáng)物理數(shù)據(jù);Utilties提供聯(lián)機(jī)數(shù)據(jù)瀏覽,域級(jí)頻率統(tǒng)計(jì),詞的計(jì)數(shù)和分布。另外,合并、選擇和格式重組工具提供

14、數(shù)據(jù)重組能力。(2)Bohn模型Bohn數(shù)據(jù)清洗模型8將數(shù)據(jù)清洗分為以下4個(gè)主要部分:數(shù)據(jù)檢查:確認(rèn)數(shù)據(jù)質(zhì)量,內(nèi)部模式和主要字段(使用的不同字段);數(shù)據(jù)詞法分析:確定每個(gè)字段內(nèi)的各個(gè)元素的上下文和目的地;數(shù)據(jù)校正:將數(shù)據(jù)與已知清單(通常為地址)匹配并保證所有的字段被標(biāo)明為好、壞或可自動(dòng)校正。但是,這并不表示在軟件設(shè)計(jì)的時(shí)候需要有許多值的判斷。只要可能,技術(shù)人員就應(yīng)該與客戶(hù)一起校正源中的數(shù)據(jù);記錄匹配:決定兩個(gè)記錄(可能是不同類(lèi)型的)是否代表同一個(gè)對(duì)象。該過(guò)程涉及許多值判斷和復(fù)雜的軟件工具。(3)AJAX模型AJAX9模型由Helena Galhardas提出,該模型是邏輯層面的模型(Logic

15、 Level),將數(shù)據(jù)清洗過(guò)程分為5個(gè)操作步驟:源數(shù)據(jù)的映射(Mapping);對(duì)映射后的記錄進(jìn)行匹配(Matching);對(duì)記錄做聚集操作(Clustering);對(duì)聚集進(jìn)行合并(Merging);對(duì)合并后的數(shù)據(jù)做視圖顯示(Viewing)。4數(shù)據(jù)清洗算法與工具4.1數(shù)據(jù)清洗算法在臟數(shù)據(jù)清洗算法上,一些研究機(jī)構(gòu)提出了臟數(shù)據(jù)預(yù)處理、排序鄰居方法、多次遍歷數(shù)據(jù)清洗方法、采用領(lǐng)域知識(shí)進(jìn)行清洗、采用數(shù)據(jù)庫(kù)管理系統(tǒng)的集成數(shù)據(jù)清洗等算法。本文將針對(duì)屬性和重復(fù)記錄的清洗分別從檢測(cè)和清洗兩個(gè)角度對(duì)相關(guān)算法展開(kāi)論述,如圖1所示。圖1數(shù)據(jù)清洗方法分類(lèi)(1)自動(dòng)檢測(cè)屬性錯(cuò)誤的方法人工檢測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤,需要花

16、費(fèi)大量的人力、物力和時(shí)間,而且這個(gè)過(guò)程本身很容易出錯(cuò),所以需要利用高效的方法自動(dòng)檢測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤,方法主要有:基于統(tǒng)計(jì)的方法10,聚類(lèi)方法11,關(guān)聯(lián)規(guī)則的方法10等。表1給出自動(dòng)檢測(cè)屬性錯(cuò)誤的方法比較。(2)屬性清洗的方法空缺值的清洗方法主要有:忽略元組;人工填寫(xiě)空缺值;使用一個(gè)全局變量填充空缺值;使用屬性的平均值、中間值、最大值、最小值或更為復(fù)雜的概率統(tǒng)計(jì)函數(shù)值填充空缺值。噪聲數(shù)據(jù)的清洗方法主要有:分箱(Binning),通過(guò)考察屬性值的周?chē)祦?lái)平滑屬性的值。屬性值被分布到一些等深或等寬的“箱”中,用箱中屬性值的平均值或中值來(lái)替換“箱”中的屬性值;計(jì)算機(jī)和人工檢查相結(jié)合,計(jì)算機(jī)檢測(cè)可疑

17、數(shù)據(jù),然后對(duì)它們進(jìn)行人工判斷;使用簡(jiǎn)單規(guī)則庫(kù)檢測(cè)和修正錯(cuò)誤;使用不同屬性間的約束檢測(cè)和修正錯(cuò)誤;使用外部數(shù)據(jù)源檢測(cè)和修正錯(cuò)誤。不一致數(shù)據(jù)的清洗方法。對(duì)于有些事務(wù),所記錄的數(shù)據(jù)可能存在不一致。有些數(shù)據(jù)不一致,可以使用其他材料人工加以更正。例如,數(shù)據(jù)輸入時(shí)的錯(cuò)誤可以使用紙上的記錄加以更正。知識(shí)工程工具也可以用來(lái)檢測(cè)違反限制的數(shù)據(jù)。例如,知道屬性間的函數(shù)依賴(lài),可以查找違反函數(shù)依賴(lài)的值11。此外,數(shù)據(jù)集成也可能產(chǎn)生數(shù)據(jù)不一致。表2給出屬性清洗的方法比較情況。(3)檢測(cè)重復(fù)記錄的算法消除重復(fù)記錄可以針對(duì)兩個(gè)數(shù)據(jù)集或者一個(gè)合并后的數(shù)據(jù)集,首先需要檢測(cè)出標(biāo)識(shí)同一個(gè)現(xiàn)實(shí)實(shí)體的重復(fù)記錄,即匹配過(guò)程。檢測(cè)重復(fù)記錄

18、的算法主要有:基本的字段匹配算法10,遞歸的字段匹配算法10,Smith-Waterman算法10,12,編輯距離13,14、Cosine相似度函數(shù)14,15。表3給出檢測(cè)重復(fù)記錄算法的比較情況。(4)重復(fù)記錄清洗的算法目前消除重復(fù)記錄的基本思想是“排序和合并”,先將數(shù)據(jù)庫(kù)中的記錄排序,然后通過(guò)比較鄰近記錄是否相似來(lái)檢測(cè)記錄是否重復(fù)。消除重復(fù)記錄的算法主要有:優(yōu)先隊(duì)列算法14,16,近鄰排序算法(Sorted-Neighborhood Method, SNM)14,17,多趟近鄰排序(Multi-Pass Sorted-Neighborhood, MPN)14,17。表4給出重復(fù)記錄清洗算法的

19、比較情況。4.2數(shù)據(jù)清洗工具從特定功能的清洗工具、ETL工具以及其他工具3個(gè)方面來(lái)對(duì)數(shù)據(jù)清洗工具進(jìn)行介紹。(1)特定功能的清洗工具特定的清洗工具主要處理特殊的領(lǐng)域問(wèn)題,基本上是姓名和地址數(shù)據(jù)的清洗,或者消除重復(fù)。轉(zhuǎn)換是由預(yù)先定義的規(guī)則庫(kù)或者和用戶(hù)交互來(lái)完成的。在特殊領(lǐng)域的清洗中,姓名和地址在很多數(shù)據(jù)庫(kù)中都有記錄而且有很大的基數(shù)。特定的清洗工具提供抽取和轉(zhuǎn)換姓名及地址信息到標(biāo)準(zhǔn)元素的功能,與在基于清洗過(guò)的數(shù)據(jù)工具相結(jié)合來(lái)確認(rèn)街道名稱(chēng)、城市和郵政編碼。特殊領(lǐng)域的清洗工具現(xiàn)有IDCENTRIC、PUREINTEGRATE、QUICKADDRESS、REUNION、TRILLIUM等14。消除重復(fù)的一

20、類(lèi)工具根據(jù)匹配的要求探測(cè)和去除數(shù)據(jù)集中相似重復(fù)記錄。有些工具還允許用戶(hù)指定匹配的規(guī)則。目前已有的用于消除重復(fù)記錄的清洗工具有DATACLEANSER、MERGE/PURGE LIBRARY、MATCHIT、ASTERMERGE等14。(2)ETL工具現(xiàn)有大量的工具支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的ETL處理,如COPYMANAGER、DATASTAGE、EXTRACT、WERMART等。它們使用建立在DBMS上的知識(shí)庫(kù)以統(tǒng)一的方式來(lái)管理所有關(guān)于數(shù)據(jù)源、目標(biāo)模式、映射、教本程序等的原數(shù)據(jù)。模式和數(shù)據(jù)通過(guò)本地文件和DBMS網(wǎng)關(guān)、ODBC等標(biāo)準(zhǔn)接口從操作型數(shù)據(jù)源收取數(shù)據(jù)。這些工具提供規(guī)則語(yǔ)言和預(yù)定義的轉(zhuǎn)換函數(shù)庫(kù)來(lái)指定映

21、射步驟14。ETL工具很少內(nèi)置數(shù)據(jù)清洗的功能,但是允許用戶(hù)通過(guò)API指定清洗功能。通常這些工具沒(méi)有用數(shù)據(jù)分析來(lái)支持自動(dòng)探測(cè)錯(cuò)誤數(shù)據(jù)和數(shù)據(jù)不一致。然而,用戶(hù)可以通過(guò)維護(hù)原數(shù)據(jù)和運(yùn)用集合函數(shù)(Sum、Count、Min、Max等)決定內(nèi)容的特征等辦法來(lái)完成這些工作。這些工具提供的轉(zhuǎn)換工具庫(kù)包含了許多數(shù)據(jù)轉(zhuǎn)換和清洗所需的函數(shù),例如數(shù)據(jù)類(lèi)轉(zhuǎn)變,字符串函數(shù),數(shù)學(xué)、科學(xué)和統(tǒng)計(jì)的函數(shù)等。規(guī)則語(yǔ)言包含If-then和Case結(jié)構(gòu)來(lái)處理例外情況,例如,錯(cuò)誤拼寫(xiě)、縮寫(xiě),丟失或者含糊的值和超出范圍的值14。而在我國(guó),對(duì)數(shù)據(jù)清洗的研究甚少,還沒(méi)有一個(gè)成型的完善的ETL工具應(yīng)用于數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)中18。(3)其他工具其他

22、與數(shù)據(jù)清洗相關(guān)的工具包括:基于引擎的工具(COPYMANAGER、DECISIONBASE、POWERMART、DATASTAGE、WAREHOUSEADMINISTRATOR)、數(shù)據(jù)分析工具(MIGRATIONARCHITECT、WIZRULE、DATAMININGSUITE)和業(yè)務(wù)流程再設(shè)計(jì)工具(INTEGRITY)、數(shù)據(jù)輪廓分析工具(如MIGRATIONARCHITECT Cevoke Software等)、數(shù)據(jù)挖掘工具(如WIZRULE等)19。4.3數(shù)據(jù)清洗工具功能簡(jiǎn)介表5是對(duì)各種典型數(shù)據(jù)清洗工具功能的描述。5數(shù)據(jù)清洗評(píng)估數(shù)據(jù)清洗的評(píng)估實(shí)質(zhì)上是對(duì)清洗后的數(shù)據(jù)的質(zhì)量進(jìn)行評(píng)估,而數(shù)據(jù)質(zhì)量的評(píng)估過(guò)程是一種通過(guò)測(cè)量和改善數(shù)據(jù)綜合特征來(lái)優(yōu)化數(shù)據(jù)價(jià)值的過(guò)程。數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)和方法研究的難點(diǎn)在于數(shù)據(jù)質(zhì)量的含義、內(nèi)容、分類(lèi)、分級(jí)、質(zhì)量的評(píng)價(jià)指標(biāo)等。文獻(xiàn)20和文獻(xiàn)21提出了一些數(shù)據(jù)質(zhì)量的評(píng)估指標(biāo)。在進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估時(shí),要根據(jù)具體的數(shù)據(jù)質(zhì)量評(píng)估需求對(duì)數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)進(jìn)行相應(yīng)的取舍。但是,數(shù)據(jù)質(zhì)量評(píng)估至少應(yīng)該包含以下兩方面的基本評(píng)估指標(biāo)18。(1)數(shù)據(jù)對(duì)用戶(hù)必須是可信的可信性包括精確

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論