數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的建立和實(shí)現(xiàn)重點(diǎn)_第1頁(yè)
數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的建立和實(shí)現(xiàn)重點(diǎn)_第2頁(yè)
數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的建立和實(shí)現(xiàn)重點(diǎn)_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的建立和實(shí)現(xiàn) 摘 要 本文提出了數(shù)據(jù)質(zhì)量評(píng)價(jià)模型、質(zhì)量校驗(yàn)與評(píng)價(jià)方法,論述了 “數(shù)據(jù)質(zhì)量分析評(píng)價(jià)系統(tǒng)”的程序?qū)崿F(xiàn)流程、總體結(jié)構(gòu)及功能,介紹了系統(tǒng)的 關(guān)鍵技術(shù)及進(jìn)一步的研究方向。 關(guān)鍵詞 質(zhì)量模型 質(zhì)量檢驗(yàn) 質(zhì)量評(píng)價(jià)數(shù)據(jù)作為一種資源,是支撐信息化建設(shè)和應(yīng)用的主體,根據(jù)“進(jìn)去的是垃 圾,出來(lái)的也是垃圾”這條原理 , 為了支持正確決策 , 就要求我們所管理的數(shù)據(jù)可 靠,沒(méi)有錯(cuò)誤 ,能夠準(zhǔn)確地反映采油廠的實(shí)際情況。勝利采油廠數(shù)據(jù)中心存放了 5 千萬(wàn)條的數(shù)據(jù),還在以每天 2 萬(wàn)條的速度加載,如何使這些海量數(shù)據(jù)在生產(chǎn) 管理、科學(xué)研究、企業(yè)決策中發(fā)揮應(yīng)有作用,使用戶能用、敢用、愿用,使數(shù) 據(jù)

2、真正為企業(yè)服務(wù),這是幾乎所有信息化企業(yè)亟需迫切解決的問(wèn)題。為解決數(shù) 據(jù)質(zhì)量問(wèn)題,各種管理手段、技術(shù)手段和新的數(shù)據(jù)評(píng)價(jià)體系不斷被應(yīng)用在數(shù)據(jù) 的采集和加工過(guò)程中。一、數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的提出背景 采油廠的數(shù)據(jù)資源具有 : 橫跨專(zhuān)業(yè)多,數(shù)據(jù)采集密度大、頻度高,數(shù)據(jù)處理 流程復(fù)雜等特點(diǎn),為了保證數(shù)據(jù)的可用性,數(shù)據(jù)管理人員在客戶端、服務(wù)器端 均設(shè)置了數(shù)據(jù)質(zhì)量審核規(guī)則,但是依然不可避免存在比例較高的數(shù)據(jù)質(zhì)量問(wèn)題, 典型的有記錄不全、數(shù)據(jù)遺漏、數(shù)據(jù)錯(cuò)誤、多義字段、矛盾值、違背業(yè)務(wù)規(guī)則、 無(wú)法關(guān)聯(lián)等。產(chǎn)生數(shù)據(jù)問(wèn)題的根本原因可以歸結(jié)為以下幾個(gè)方面 :1. 沒(méi)有從數(shù)據(jù)資源的戰(zhàn)略高度對(duì)數(shù)據(jù)質(zhì)量進(jìn)行統(tǒng)一完整的定義,導(dǎo)致

3、數(shù)據(jù) 的分析評(píng)估沒(méi)有統(tǒng)一可靠的標(biāo)準(zhǔn);2. 數(shù)據(jù)質(zhì)量還停留在定性評(píng)價(jià) , 不能實(shí)現(xiàn)精確的量化評(píng)價(jià),只是在業(yè)務(wù)需要 某個(gè)數(shù)據(jù)時(shí) , 才到庫(kù)里去手動(dòng)統(tǒng)計(jì) ,無(wú)法動(dòng)態(tài)記錄某個(gè)單位、某個(gè)月的真實(shí)數(shù)據(jù) 質(zhì)量發(fā)生情況 , 導(dǎo)致數(shù)據(jù)質(zhì)量考核缺乏可信的數(shù)據(jù)依據(jù) ,大大影響考核力度 ;3. 沒(méi)有一個(gè)能同時(shí)面對(duì)用戶、專(zhuān)業(yè)部門(mén)、數(shù)據(jù)管理人員的可視化的數(shù)據(jù)質(zhì) 量監(jiān)控評(píng)價(jià)平臺(tái) , 三方無(wú)法共享一個(gè)平臺(tái) , 共同實(shí)行數(shù)據(jù)管控一體化 , 導(dǎo)致業(yè)務(wù)規(guī) 則的變更滯后 , 問(wèn)題數(shù)據(jù)在庫(kù)中的長(zhǎng)期滯留 ;4. 也許有了 N個(gè)業(yè)務(wù)模型,但是沒(méi)有把它放到時(shí)間軸上去控制流程,導(dǎo)致實(shí) 際生產(chǎn)中應(yīng)該發(fā)生的活動(dòng)的部分生產(chǎn)數(shù)據(jù)遺漏;雖然影響采油廠數(shù)

4、據(jù)質(zhì)量的原因是多方面的,但主要的原因還是集中在管 理、制度和數(shù)據(jù)采集加工規(guī)范化方面。對(duì)于如何通過(guò)管理、制度、標(biāo)準(zhǔn)和流程 來(lái)控制數(shù)據(jù)質(zhì)量 , 提高數(shù)據(jù)可信度 , 我們提出建立采油廠統(tǒng)一的數(shù)據(jù)質(zhì)量分析評(píng) 價(jià)模型,使用管理手段和技術(shù)手段相結(jié)合的辦法 , 建立一套完善的數(shù)據(jù)定義、控 制、評(píng)估流程,依托科學(xué)嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)監(jiān)督和質(zhì)量控制體系持續(xù)地改進(jìn)數(shù)據(jù)質(zhì)量。二、數(shù)據(jù)質(zhì)量分析評(píng)價(jià)模型構(gòu)成 構(gòu)成數(shù)據(jù)質(zhì)量分析評(píng)估模型的要素分別為 : 基礎(chǔ)模型、數(shù)據(jù)質(zhì)量輔助模型、 數(shù)據(jù)質(zhì)量定義模型、數(shù)據(jù)質(zhì)量控制模型、數(shù)據(jù)質(zhì)量評(píng)價(jià)模型。1. 基礎(chǔ)模型。基礎(chǔ)模型部分是整個(gè)模型框架的支撐核心部分,其他質(zhì)量模 型的定義和控制必須以基礎(chǔ)模型

5、中的計(jì)劃和標(biāo)準(zhǔn)為依據(jù)。基礎(chǔ)模型主要是映射、 定義數(shù)據(jù)采集標(biāo)準(zhǔn) , 上載分單位的采集計(jì)劃 , 同時(shí)納入了約束規(guī)則定義規(guī)范、控 制規(guī)則定義規(guī)范、模板定義規(guī)范。數(shù)據(jù)標(biāo)準(zhǔn) : 分兩部分 , 一部分是直接映射應(yīng)用中的標(biāo)準(zhǔn),例如源數(shù)據(jù)庫(kù)標(biāo)準(zhǔn) ; 另一部分是針對(duì)新增應(yīng)用庫(kù)和項(xiàng)目庫(kù)標(biāo)準(zhǔn)的定義規(guī)范 , 包括代碼定義標(biāo)準(zhǔn)、數(shù)據(jù) 項(xiàng)定義標(biāo)準(zhǔn) (例如是取英文還是漢語(yǔ)拼音 , 取幾個(gè)字符)、值域定義標(biāo)準(zhǔn)等等新 增表準(zhǔn)的建立規(guī)范;采集計(jì)劃: 采集單位的每月上載的日度、月度、年度的采集計(jì)劃 ;約束規(guī)則定義規(guī)范 : 主要描述質(zhì)量定義模型中的語(yǔ)法構(gòu)成; 控制規(guī)則定義規(guī)范 : 針對(duì)服務(wù)器負(fù)載和采集表的及時(shí)性要求建立的后臺(tái)執(zhí)行 過(guò)

6、程的控制方式的使用說(shuō)明 ;2. 數(shù)據(jù)質(zhì)量定義模型。數(shù)據(jù)質(zhì)量定義模型的建立實(shí)現(xiàn)了以基礎(chǔ)模型為前提 對(duì)數(shù)據(jù)質(zhì)量的統(tǒng)一規(guī)范的定義 , 是數(shù)據(jù)質(zhì)量分析評(píng)價(jià)的依據(jù)和基礎(chǔ)。數(shù)據(jù)質(zhì)量定 義模型可以使用質(zhì)量特性描述。數(shù)據(jù)質(zhì)量特性歸納為數(shù)據(jù)的一致性、數(shù)據(jù)的準(zhǔn) 確性、數(shù)據(jù)的完整性、數(shù)據(jù)的及時(shí)性 4 個(gè)關(guān)鍵特性。(1) 數(shù)據(jù)的一致性。數(shù)據(jù)一致性 ,包括源系統(tǒng)之間同一數(shù)據(jù)是否一致 , 源數(shù)據(jù) 與抽取的數(shù)據(jù)是否一致,數(shù)據(jù)中心內(nèi)部各處理環(huán)節(jié)數(shù)據(jù)是否一致等。例如 : 單井 基礎(chǔ)信息、油井日數(shù)據(jù)中的單元代碼應(yīng)該和本年度的單元代碼表保持一致 ;05 應(yīng)用庫(kù)中抽取的數(shù)據(jù)項(xiàng)要與源頭庫(kù)保持一致等等。一致性的量化評(píng)價(jià)指標(biāo) : 字段一致

7、率、表間字段一致率、表間記錄一致率。(2) 數(shù)據(jù)的準(zhǔn)確性。數(shù)據(jù)準(zhǔn)確性 , 包括數(shù)據(jù)源是否準(zhǔn)確、數(shù)據(jù)值域是否符合 業(yè)務(wù)規(guī)則和客觀事實(shí)、編碼映射關(guān)系是否準(zhǔn)確、處理邏輯是否準(zhǔn)確等。例如 : 作 業(yè)日記的數(shù)據(jù)應(yīng)該來(lái)源于作業(yè)隊(duì)而不是采油隊(duì) ; 一天的生產(chǎn)時(shí)間最大不可能超過(guò) 24小時(shí);水井干線壓力要介于040兆帕之間。準(zhǔn)確性的量化評(píng)價(jià)指標(biāo):準(zhǔn)確率、差錯(cuò)率、問(wèn)題字段個(gè)數(shù)、問(wèn)題記錄覆蓋 率(3) 數(shù)據(jù)的及時(shí)性。數(shù)據(jù)及時(shí)性,包括數(shù)據(jù)處理 (獲取、整理、加載等 ) 的及 時(shí)性,數(shù)據(jù)異常檢測(cè)的及時(shí)性,數(shù)據(jù)處理更新的及時(shí)性等 , 例如: 一口井油轉(zhuǎn)水 了,采集單位沒(méi)有及時(shí)更改數(shù)據(jù) , 不僅會(huì)影響隊(duì)到礦 , 礦到廠的產(chǎn)

8、量,更會(huì)影響廠 到局的產(chǎn)量和油水井?dāng)?shù) , 而且取自于該源數(shù)據(jù)的所有應(yīng)用系統(tǒng)今天的診斷決策都 會(huì)發(fā)生偏差。數(shù)據(jù)滯后的更新將嚴(yán)重影響生產(chǎn)的正?;?。及時(shí)性的量化評(píng)價(jià)指標(biāo) : 采集項(xiàng)目及時(shí)率 ; 單位入庫(kù)及時(shí)率(4) 數(shù)據(jù)的完整性。數(shù)據(jù)的完整性,包括數(shù)據(jù)源是否完整、數(shù)據(jù)取值是否完 整、實(shí)體類(lèi)型、屬性特征、維度取值是否完整等。例如 : 要完成井筒的計(jì)算機(jī)屏 幕再現(xiàn), 它所包含的數(shù)據(jù)包括鉆井?dāng)?shù)據(jù)、固井?dāng)?shù)據(jù)、套管數(shù)據(jù)、井徑測(cè)井?dāng)?shù)據(jù)、 井斜數(shù)據(jù)等等 , 這里邊存在多個(gè)數(shù)據(jù)源情況 ,如果數(shù)據(jù)源不完整 ,或者套管數(shù)據(jù)中 缺失數(shù)據(jù)項(xiàng)下深或者壁厚 , 井筒就不可能完整成像。完整性的量化評(píng)價(jià)指標(biāo):字段缺失數(shù)、缺失記錄覆

9、蓋率、計(jì)劃完成率。3. 數(shù)據(jù)質(zhì)量控制模型。數(shù)據(jù)質(zhì)量控制模型以數(shù)據(jù)質(zhì)量定義模型為基礎(chǔ),按 照定義的檢查范圍和時(shí)間以自動(dòng)或手工方式完成對(duì)數(shù)據(jù)質(zhì)量的檢查工作。在質(zhì) 量控制過(guò)程中違反了數(shù)據(jù)質(zhì)量定義的,視為數(shù)據(jù)質(zhì)量問(wèn)題,數(shù)據(jù)質(zhì)量問(wèn)題直接 通過(guò)數(shù)據(jù)質(zhì)量的關(guān)鍵特性和指標(biāo)反映出來(lái)。數(shù)據(jù)質(zhì)量控制模型的控制內(nèi)容表現(xiàn) 在: 對(duì)數(shù)據(jù)檢查對(duì)象、數(shù)據(jù)檢查頻度、數(shù)據(jù)檢查時(shí)間、數(shù)據(jù)檢查方式等方面進(jìn)行 控制。(1) 數(shù)據(jù)檢查對(duì)象 : 是指根據(jù)采集計(jì)劃設(shè)定需要檢查的用戶、專(zhuān)業(yè)數(shù)據(jù)表、 數(shù)據(jù)庫(kù)實(shí)體。(2) 數(shù)據(jù)檢查頻度 ; 是指根據(jù)數(shù)據(jù)表的采集計(jì)劃和實(shí)際發(fā)生的頻度,設(shè)定存儲(chǔ)過(guò)程的檢查執(zhí)行頻率。(3) 數(shù)據(jù)檢查時(shí)間:是指根據(jù)每日生產(chǎn)

10、應(yīng)用的密集時(shí)間以及數(shù)據(jù)發(fā)生到采集 入庫(kù)的密集時(shí)間,綜合設(shè)定一個(gè)檢查開(kāi)始執(zhí)行的時(shí)刻。(4) 數(shù)據(jù)檢查方式:是指執(zhí)行檢查過(guò)程的方式可以由后臺(tái)過(guò)程自動(dòng)控制,每 間隔2小時(shí)自動(dòng)檢查一次;也可以由人工干預(yù)手動(dòng)檢查,任意時(shí)刻都可以執(zhí)行檢 查(當(dāng)然盡量選擇數(shù)據(jù)庫(kù)流量比較低的時(shí)候)。4. 數(shù)據(jù)質(zhì)量評(píng)價(jià)模型數(shù)據(jù)質(zhì)量評(píng)價(jià)模型,是以數(shù)據(jù)質(zhì)量定義模型為依據(jù),由數(shù)據(jù)質(zhì)量控制模型 操控執(zhí)行,根據(jù)反饋的質(zhì)量檢查結(jié)果表,評(píng)議出數(shù)據(jù)質(zhì)量的關(guān)鍵指標(biāo),實(shí)現(xiàn)對(duì) 數(shù)據(jù)質(zhì)量的量化診斷和評(píng)價(jià)。數(shù)據(jù)質(zhì)量分析評(píng)價(jià)模型功能核心是,通過(guò)對(duì)基礎(chǔ)模型中的采集計(jì)劃和質(zhì)量定 義模型中的約束規(guī)則的處理,由控制模型調(diào)用可以實(shí)現(xiàn)檢查分析的后臺(tái)存儲(chǔ)過(guò)程 在實(shí)體庫(kù)

11、中執(zhí)行檢查,形成查詢結(jié)果,再由分析程序進(jìn)行分析、計(jì)算、分類(lèi)、匯 總,生成反映采集計(jì)劃完成情況和數(shù)據(jù)質(zhì)量量化指標(biāo)的結(jié)果,存儲(chǔ)到分析結(jié)果表中,從前臺(tái)調(diào)用這個(gè)分析結(jié)果表,就可以生成一份詳盡的反映數(shù)據(jù)質(zhì)量問(wèn)題各類(lèi) 量化指標(biāo)的數(shù)據(jù)質(zhì)量分析評(píng)估報(bào)告,展現(xiàn)所評(píng)估實(shí)體庫(kù)的數(shù)據(jù)入庫(kù)的及時(shí)率、數(shù) 據(jù)上報(bào)的完整性、數(shù)據(jù)采集的一致性、數(shù)據(jù)入庫(kù)的準(zhǔn)確率。5. 數(shù)據(jù)質(zhì)量輔助管理模型數(shù)據(jù)質(zhì)量輔助管理包括報(bào)告模版管理、權(quán)限管理、數(shù)據(jù)庫(kù)資源占用情況等 等。三、數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的在數(shù)據(jù)質(zhì)量評(píng)價(jià)系統(tǒng)中的實(shí)現(xiàn)1. 系統(tǒng)模塊構(gòu)成圖數(shù)據(jù)庫(kù)采用三層框架結(jié)構(gòu),數(shù)據(jù)層用于存儲(chǔ)各種質(zhì)量標(biāo)準(zhǔn)數(shù)據(jù)、檢查與評(píng) 價(jià)過(guò)程數(shù)據(jù)及結(jié)果數(shù)據(jù),邏輯層用于質(zhì)量檢查的各種邏輯處理,表現(xiàn)層是通過(guò) 用戶界面將檢驗(yàn)與評(píng)價(jià)結(jié)果以用戶易懂的可視化方式表達(dá)出來(lái)。2. 程序?qū)崿F(xiàn)流程圖四

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論