數據質量管理_第1頁
數據質量管理_第2頁
數據質量管理_第3頁
數據質量管理_第4頁
數據質量管理_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據管理,演講人,部門,職務,數據管理,1,數據管理的目標,2,數據管理的難點與重點,3,數據質量控制方法論,4,案例介紹,數據管理的目標,目標一:安全,訪問安全,存儲安全,目標二:正確,數據精確,數據正確,目標三:效率,常規(guī)加載的效率,非常規(guī)加載的效率,數據管理,1,數據管理的目標,2,數據管理的難點與重點,3,數據質量控制方法論,4,案例介紹,數據質量管理的難點與重點,1,數據質量概念,2,數據質量的重要性,3,數據質量不高的主要原因,4,數據質量歸類,5,數據質量示例,6,數據質量管理方法,數據質量概念,數據本身的數據質量,數據的真實性,數據必須真實準確的反映實際發(fā)生的業(yè)務,數據的完備性

2、,數據的完備性是說數據是充分的,任何有關操作的數據都沒有被遺漏,數據的自治性,數據并不是孤立存在的,數據之間往往存在著各種各樣的約束,這種約,束描述了數據的關聯(lián)關系。數據必須能夠滿足這種數據之間的關聯(lián)關系,而,不能夠相互矛盾,數據的真實性、完備性、自洽性是數據本身應具有的屬性,稱為數據的絕對質量,是保證數據質量的基礎。除了數據的,絕對質量外,還有我們在利用和存貯數據的過程中所產生的,數據質量,包括使用質量、存貯質量和傳輸質量,稱之為過,程質量,數據質量概念,數據的過程質量,數據的使用質量,數據的使用質量是指數據被正確的使用。再正確的數據,如果被錯誤的,使用,就不可能得出正確的結論,數據的存貯質

3、量,指數據被安全的存貯在適當的介質上。所謂安全是指采用了適當的方案,和技術來抵制外來的因素,使數據免受破壞,備份是我們常使用的技術,如,異地備份和雙機備份等,所謂存貯在適當的介質上是指當需要數據的時候能,及時方便的取出,數據的傳輸質量,數據的傳輸質量是指數據在傳輸過程中的效率和正確性。在現(xiàn)代信息社,會中,數據在異地之間的傳輸越來越多,保證傳輸過程中的高效率和正確性,非常重要,數據質量重要性,關系建設系統(tǒng)成敗,很多數據倉庫應用程度不高或最后失敗,歸根結底都是數據質量不高造成,的,數據質量好壞關系到結果與預期是否一致,低下的數據質量往往造成開發(fā)出來的系統(tǒng)與用戶的預期大相徑庭,數據質量是決策正確的保

4、障,數據信息是企業(yè)重要的戰(zhàn)略資源,合理有效的使用正確的數據能指導企業(yè),領導作出正確的決策,提高企業(yè)的競爭力。不合理的使用不正確的數據(即差的,數據質量)可導致決策的失敗,正可謂差之毫厘、謬以千里,數據質量是長期困擾開發(fā)的難題,數據質量不高已經成為困擾此類項目的開發(fā)人員與用戶的一個嚴重問題,數據質量不高的主要原因,數據質量歸類,數據質量示例,數據質量管理方法,數據管理,1,數據管理的目標,2,數據管理的難點與重點,3,數據質量控制方法論,4,案例介紹,數據質量控制方法論,1,數據源檢驗方法,2,數據源檢驗適用規(guī)則,3,數據檢驗方法,4,數據檢驗適用規(guī)則,5,數據質量檢驗的順序,數據源檢驗方法,數

5、據源檢驗是對,HDS,中的源表進行的數據質量檢查。數據源檢驗分為時效性,檢驗和正確性檢驗兩個大類,其中正確性檢驗又分為完整性檢驗、原則性檢驗,邏輯性檢驗,分類,檢驗方法,檢查范疇,異常處,理方式,說明,時效性,時效性檢驗,數據是否,按時到達,代碼一致性,記錄條數檢查,數據值檢查,報警,正確性,完整性檢驗,停止,ETL,原則性檢驗,停止,ETL,對單字段的數值檢查。不符合,原則性檢驗時該數據一定是錯,誤的,對單表或多個表內字段間邏輯,關系的檢查,邏輯性檢驗,數據值檢查,報警,數據源檢驗方法,時效性檢驗,判斷在約定的時間內,數據源的數據是否按時到達,完整性檢驗,HDS,數據表與代碼表的一致性檢查,

6、HDS,數據表記錄數檢查,原則性檢驗,HDS,數據表中字段的數值是否在合法的區(qū)間內,邏輯性檢驗,單表或多個表內字段間邏輯關系的檢查,數據源檢驗適用的規(guī)則,時效性檢驗,規(guī)則一:時效性檢驗適用于,HDS,中所有的代碼表和數據表,完整性檢驗,規(guī)則二:包含外鍵字段的,HDS,數據表必須進行代碼一致性檢驗,規(guī)則三:包含日期型字段且可以確定記錄數范圍的,HDS,數據表必須進行記,錄條數檢驗,原則性檢驗,規(guī)則四,HDS,數據表中可以確定取值范圍的字段必須進行原則性檢驗,邏輯性檢驗,規(guī)則五:單表或多個表內的字段具有相同的業(yè)務含義,不同的統(tǒng)計口徑,且,存在匯總關系。滿足此條件時必須進行邏輯性檢驗,規(guī)則六:本表的

7、字段與其他表中的字段的業(yè)務含義、統(tǒng)計口徑相同。滿足此,條件時必須進行邏輯性檢驗,規(guī)則七:單表或多個表內的字段具有不同的業(yè)務含義,相同的統(tǒng)計口徑,在業(yè)務上有邏輯公式成立。滿足此條件時必須進行邏輯性檢驗,數據檢驗方法,數據校驗是對,DDS,數據庫中前臺應用直接使用的相關表的檢驗。數據校驗分為時,效性檢驗和正確性檢驗兩個大類,其中正確性檢驗又分為完整性檢驗、原則性檢驗,模糊性檢驗、邏輯性檢驗,分類,時效性,正確性,檢驗方法,時效性檢驗,完整性檢驗,原則性檢驗,檢查范疇,數據是否,按時到達,代碼一致性,記錄條數檢查,數據值檢查,異常處理方式,報警,停止,ETL,停止,ETL,對單字段的數值檢查和單表內

8、邏輯,關系的檢查。不符合原則性檢驗時,該數據一定是錯誤的,對單字段的數值、同比值的檢查,不符合模糊性檢驗時只能懷疑此數,據有問題,對不同數據源加工得到的多個表內,字段間邏輯關系的檢查,不符合邏輯性檢驗時只能懷疑此數,據有問題,說明,模糊性檢驗,數據值檢查,報警,邏輯性檢驗,數據值檢查,報警,數據檢驗方法,時效性檢驗,判斷在約定的時間內,前臺應用直接使用的相關表是否按時加載,完整性檢驗,DDS,事實表與維度表的一致性檢查,DDS,事實表記錄數檢查,原則性檢驗,DDS,事實表中單字段的數值是否在合法的區(qū)間內,同一表內字段間邏輯關系的檢查,模糊性檢驗,判斷字段的數值及其同比值是否在合理的區(qū)間內,邏輯

9、性檢驗,由不同數據源加工得到的多個表內字段間邏輯關系的檢查,數據檢驗適用的規(guī)則,時效性檢驗,規(guī)則一:時效性檢驗適用于,DDS,中所有的維度表和事實表,完整性檢驗,規(guī)則二:包含外鍵字段的,DDS,中事實表必須進行代碼一致性檢驗,規(guī)則三:包含日期型字段且可以確定記錄數范圍的,DDS,事實表必須進行記,錄條數檢驗,原則性檢驗,規(guī)則四:表中的字段可以確定取值范圍,同時可以判定不在此范,圍內的數據必定是錯誤的。滿足此條件必須進行原則性檢驗,規(guī)則五:同表內多個字段間具有相同的業(yè)務含義,不同的統(tǒng)計口徑,存,在匯總關系時,必須進行原則性檢驗,規(guī)則六:同表內多個字段間具有不同的業(yè)務含義,相同的統(tǒng)計口徑,在,業(yè)務

10、上有邏輯公式成立時,必須進行原則性檢驗,數據檢驗適用的規(guī)則,模糊性檢驗,規(guī)則七:不能進行完整性、原則性檢驗的情況下,必須進行模糊性檢驗,規(guī)則八:規(guī)則七不成立時,根據系統(tǒng)的重要程度決定是否進行模糊性檢驗,系統(tǒng)的重要程度及哪些系統(tǒng)要進行模糊性檢驗由客戶方確定,邏輯性檢驗,規(guī)則九:本表的字段與其它表中的字段具有相同的業(yè)務含義,不同的統(tǒng),計口徑,存在匯總關系,且兩張表的數據不是經同一數據源加工得到。滿足此條,件時必須進行邏輯性檢驗,規(guī)則十:本表的字段與其他表中的字段的業(yè)務含義、統(tǒng)計口徑相同,且兩張,表的數據不是經同一數據源加工得到。滿足此條件時必須進行邏輯性檢驗,規(guī)則十一:本表的字段與其他表中的字段具

11、有不同的業(yè)務含義,相同的統(tǒng)計,口徑,在業(yè)務上有邏輯公式成立,且兩張表的數據不是經同一數據源加工得到,滿足此條件時必須進行邏輯性檢驗,數據質量檢驗的順序,1,數據源完整性檢驗,數據源的完整性檢驗報異常時應停止,ETL,加載過程,不需要再進行后續(xù)的,檢驗,2,數據源原則性檢驗,數據源的原則性檢驗報異常時應停止,ETL,加載過程。不需要再進行后續(xù)的,檢驗,3,數據校驗完整性檢驗,數據校驗的完整性檢驗報異常時應停止,ETL,加載過程,不需要再進行后續(xù),的檢驗,4,數據校驗原則性檢驗,數據校驗的原則性檢驗報異常時應停止,ETL,加載過程,不需要再進行后續(xù),的檢驗,5,數據源時效性檢驗、數據源邏輯性檢驗、

12、數據校驗時效性檢驗,數據校驗模糊性檢驗、數據校驗邏輯性檢驗,這五類檢驗方法報異常時,ETL,加載正常進行,但需要給出預警提示,數據管理,1,數據管理的目標,2,數據管理的難點與重點,3,數據質量控制方法論,4,案例介紹,數據質量檢驗的案例,下面以行業(yè)對比報表中的全國卷煙市場分類銷量情況表(分價類)為,例來介紹如何根據數據質量管理方案進行各類規(guī)則的制定實施過程,步驟一確定相關的表,全國卷煙市場分類銷售情況表(分價類,在,DDS,中直接使用的表為,APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL,對應的,HDS,中的源表為,EIIRECV,EIIRECV_TZ_BS_Y_Q_M_S

13、ELLDETAIL,因此下面的檢驗規(guī)則主要針對這兩張表來制定,步驟二確定數據源的時效性檢驗規(guī)則,根據表,EIIRECV,EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL,的數據到達規(guī)律,定義該表每月最晚到達日期為,8,日,步驟三,確定數據源的完整性檢驗規(guī)則,根據數據源檢驗適用規(guī)則的規(guī)則二、三,1,EIIRECV,EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL,中包含有外鍵字段,I_Provinc,e,省份代碼,I_Org,機構代碼,C_Brand,規(guī)格,I_Province,省份代碼)對應代碼表,DM.T_DM_GJJ_QGSF,中的,QGSFDM,I_,Org,機構

14、代碼,對應代碼表,DM.T_DM_GJJ_ZZJG,中的,ZZJGDM,C_Brand,規(guī)格,對應代碼表,T_DM_GJJ_JY,中的,THTXBS,該表符合規(guī)則二的檢驗條件,需要進行代碼一致性檢查,2,該表包含有日期型字段,Y,M,但記錄條數每月不確定,因此不滿足規(guī)則三,無法進行記錄條數檢查,步驟四,確定數據源的原則性檢驗規(guī)則,根據數據源檢驗適用規(guī)則的規(guī)則四,1,EIIRECV,EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL,中包含有數據字段,sell,系統(tǒng)外,總銷量,Out_Sell_Retail_Amount,系統(tǒng)外零售量,Out_Sell_Amount,系統(tǒng)外批發(fā)銷量,E

15、nd_Store_Amount,期末庫存,根據業(yè)務經驗確定,sell=0,Out_Sell_Retail_Amount=0,Out_Sell_Amount=0,End_Store_Amount=0,步驟五,確定數據源的邏輯性檢驗規(guī)則,根據數據源檢驗適用規(guī)則五,1,EIIRECV,EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL,表包含字段,Out_Sell_Retail_,Amount,Out_Sell_Amount,End_Store_Amount,2,EIIRECV,EIIRECV_TZ_BS_Y_Q_M_BASIC,表也包含字段,Out_Sell_Retail_Amo,unt

16、,Out_Sell_Amount,End_Store_Amount,3,這兩張表對應字段具有相同業(yè)務含義、不同的統(tǒng)計口徑,存在以下匯總關系,EIIRECV,EIIRECV_TZ_BS_Y_Q_M_BASIC,表統(tǒng)計商業(yè)企業(yè)的系統(tǒng)外批發(fā)銷售量,系統(tǒng)外零售量、期末商業(yè)庫存數據,EIIRECV,EIIRECV_TZ_BS_Y_Q_M_SELL,DETAIL,表統(tǒng)計商業(yè)企業(yè)分卷煙規(guī)格的系統(tǒng)外批發(fā)銷售量、系統(tǒng)外零售量、期,末商業(yè)庫存數據。因此,EIIRECV,EIIRECV_TZ_BS_Y_Q_M_SELLDETAIL,表中某,商業(yè)企業(yè)分規(guī)格的匯總數據應該等于表,EIIRECV,EIIRECV_TZ_B

17、S_Y_Q_M_BA,SIC,中對應的商業(yè)企業(yè)的數據,步驟五,確定數據源的邏輯性檢驗規(guī)則,根據數據源檢驗適用規(guī)則的規(guī)則六、七,1,EIIRECV,EIIRECV_TZ_BS_Y_Q_M_SELLDETAILL,表中不包含字段與其,他表中,的字段具有相同的業(yè)務含義、統(tǒng)計口徑。因此不滿足規(guī)則六邏輯檢,驗,2,EIIRECV,EIIRECV_TZ_BS_Y_Q_M_SELLDETAILL,表中包含有字段,sell,系統(tǒng)外總銷量,Out_Sell_Retail_Amount,系統(tǒng)外零售,量,Out_Sell,_Amount,系統(tǒng)外批發(fā)銷量,End_Store_Amount,期,末庫存,ratio_st

18、oc,k_sell,存銷比,具有不同的業(yè)務含義、相同的統(tǒng)計口徑,存在業(yè)務邏輯關系,ratio_stock_sell= End_Store_Amount/sell,sell= Out_Sell_Retail_Amount+ Out_Sell_Amount,步驟六,確定數據的時效性檢驗規(guī)則,根據表,APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL,使,用的源表的最晚到達時間,加上后臺數據加工處,理的時間,定義該表的最晚加載日期為每月,12,日,步驟七,確定數據的完整性檢驗規(guī)則,根據數據檢驗適用規(guī)則的規(guī)則二、三,1,APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL,不

19、包含外鍵字段,因此不符,合規(guī)則二,不需要進行代碼一致性檢查,2,該表包含有日期型字段,DQRQ,記錄條數每月確定,因此滿足規(guī)則三,需要,進行記錄條數檢查,此表每月加載量為,35,行,步驟八,確定數據的原則性檢驗規(guī)則,根據數據檢驗適用規(guī)則的規(guī)則四,1,APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL,表中包含有字段,BY_SYXL,BY_HCY,BY_JL1,BY_JL2,BY_JL3,BY_JL4,BY_JL5,LJ_SYXL,LJ_HCY,LJ_JL1,LJ_JL2,LJ_JL3,LJ_JL4,LJ_JL5,可以確定取值范圍,根據業(yè)務經驗確定,BY_SYXL,BY_HCY,L

20、J_SYXL,LJ_SYXL 0,BY_JL1,BY_JL2,BY_JL3,BY_JL4,BY_JL50,LJ_JL1,LJ_JL2,LJ_JL3,LJ_JL4,LJ_JL50,步驟八,確定數據的原則性檢驗規(guī)則,根據數據檢驗適用規(guī)則的規(guī)則五、六,1,APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL,中包含有字段,SCLXMC,BY_SYXL,BY_HCY,BY_JL1,BY_JL2,BY_JL3,BY_JL4,BY_JL5,LJ_SYXL,LJ_HC,Y,LJ_JL1,LJ_JL2,LJ_JL3,LJ_JL4,LJ_JL5,存在有相同業(yè)務含義,不同,的統(tǒng)計口徑,其中市場類型為全

21、國的數據對應于市場類型為本土市場、重點,市場和其他市場的匯總數據,2,APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL,中不包含字段具有不同的業(yè)務含義,相同的統(tǒng)計口徑,在業(yè)務上存在業(yè)務邏輯公式的。因此不滿足數據檢驗的規(guī),則六,步驟九,確定數據的模糊性檢驗規(guī)則,根據數據檢驗適用規(guī)則的規(guī)則七、八,1,APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL,表中包含有字段,BY_SYXL,BY_HCY,LJ_SYXL,LJ_HCY,BY_JL1_BL,BY_JL2_BL,BY_JL3_BL,BY_JL4_BL,BY,_JL5_BL,LJ_JL1_BL,LJ_JL2_BL,L

22、J_JL3_BL,LJ_JL4_BL,LJ_JL5_BL,不,滿足規(guī)則七,滿足規(guī)定八,2,其中字段,BY_SYXL,BY_HCY,LJ_SYXL,LJ_HCY,的數據根據業(yè)務經驗確定,數據審核規(guī)范如下:市場類型為全國的對應以上字段數據同比的合理區(qū)間在,0,10,市場類型除全國外其他類型的同比合理區(qū)間在,10,20,步驟九,確定數據的模糊性檢驗規(guī)則,根據數據檢驗適用規(guī)則的規(guī)則七、八,3,其中字段,BY_JL1_BL,BY_JL2_BL,BY_JL3_BL,BY_JL4_BL,BY_JL5_BL,LJ_JL1_BL,LJ_JL2_BL,LJ_JL3_BL,LJ_JL4_BL,LJ_JL5_BL,的

23、數據根據統(tǒng)計,學公式確定,數據審核規(guī)范如下:區(qū)分市場類型使用,99,置信區(qū)間;合理區(qū),間在歷史數據平均值,3,歷史數據標準差,歷史數據記錄數的平方根,歷史,數據平均值,3,歷史數據標準差,歷史數據記錄數的平方根,步驟十,確定數據的邏輯性檢驗規(guī)則,根據數據檢驗適用規(guī)則的規(guī)則九,1,APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL,表包含有字段,SCLXMC,BY_JL1,B,Y_JL2,BY_JL3,BY_JL4,BY_JL5,2,ZHGL.L_T_ZHGL_JYFLSPDXYBBLJ,表,煙草系統(tǒng)卷煙分類商品電訊月報表累,計,包含有字段,DQ,YLYNCLJ,ELYNCLJ,S

24、LYNCLJ,SILYNCLJ,WLYNCL,J,3,這兩張表對應字段具有相同業(yè)務含義,不同的統(tǒng)計口徑,存在匯總,關系,APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL,表中為各省份的分價類銷量的分月的數,據,ZHGL.T_ZHGL_JYFLSPDXYBBLJ,表表中各省份、分價類商業(yè)銷量的累計數,據,因此,APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL,表各省份的分價類銷量的分月的匯,總數據等于該電訊月報,ZHGL.T_ZHGL_JYFLSPDXYBBLJ,表對應省份、對應價,類商業(yè)銷量的累計數據,步驟十,確定數據的邏輯性檢驗規(guī)則,根據數據檢驗適用規(guī)則的規(guī)則九,4,APP_JJYX.T_FT_JJYX_JYSCFLXLQK_JL,表包含有字段,SCLXMC,BY_SYXL,5,ZHGL.T_ZHGL_JYXTSPDXYBBLJ,表,煙草系統(tǒng)卷煙商品電訊

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論