數(shù)據(jù)倉庫的數(shù)據(jù)標準化思路x_第1頁
數(shù)據(jù)倉庫的數(shù)據(jù)標準化思路x_第2頁
數(shù)據(jù)倉庫的數(shù)據(jù)標準化思路x_第3頁
數(shù)據(jù)倉庫的數(shù)據(jù)標準化思路x_第4頁
免費預覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫的數(shù)據(jù)標準化思路數(shù)據(jù)標準化對于大型公司而言,各個下層子公司都使用自己本地的業(yè)務系統(tǒng),當這些子公司數(shù)據(jù)往上匯總到總公司時,常常出現(xiàn)代碼不一致,數(shù)據(jù)歧義等等各種各樣的問題,在這種情況下,數(shù)據(jù)標準化就變得不得不行了。典型的例子,比如醫(yī)院,大型醫(yī)院往往包含多個分院,而分院都是用自己的業(yè)務系統(tǒng)。業(yè)務數(shù)據(jù)采集匯總后,發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)本身出現(xiàn)歧義,無法直接使用。因此,就不得不對本院及分院的業(yè)務數(shù)據(jù)進行標準化處理,避免歧義,使數(shù)據(jù)更真實可用,簡單易理解。數(shù)據(jù)標準化處理應當注意兩個關(guān)鍵點:1 .一號對應一對象。以病人為例,病人可能在各分院及本院都注冊建檔,因此同一病人可能在各分院都有不同的ID號,但數(shù)

2、據(jù)采集到本院,與本院數(shù)據(jù)合并后,進行標準化處理,應保證此病人具有新的唯一ID號。同時需保留病人曾經(jīng)的各分院及本院ID號,便于其他分院數(shù)據(jù)的關(guān)聯(lián)(如分院的病人繳費數(shù)據(jù)需要關(guān)聯(lián)原始分院號碼,之后以標準化后唯一ID號,進入本院系統(tǒng))。2 .事實數(shù)據(jù)標明數(shù)據(jù)來源。如病人繳費信息,因為繳費事實產(chǎn)生的位置不同,需要進行來源標注,分清本院及各分院,便于數(shù)據(jù)理解及之后的查詢和統(tǒng)計。在構(gòu)建DW6寸的數(shù)據(jù)標準化處理流程上,可以考慮通過以下方式來完成。標準化準備在標準化處理之前,需要對DW麥格結(jié)構(gòu)進行一些處理,使得標準化過程易于實施,也保證標準化的結(jié)果更易于理解。對于不同的表格上,所需新增的字段也不盡相同。下面分類

3、進行說明:維表比如病人信息,科室信息,員工信息,設備信息等,新加字段如下:字段名類型說明備注ID數(shù)字代理鍵,主鍵由序列生成,新的唯一ID號HISTORY_IDLIST文本曾經(jīng)使用的編號列表對應分院+分院ID號,以;分隔START_DATE日期記錄生效時間拉鏈使用,可選END_DATE日期記錄失效時間拉鏈使用,可選事實表如病人繳費,醫(yī)生處方,手術(shù)記錄等,新加字段如下:字段名類型說明備注表示數(shù)據(jù)來源;SOURCE_ID數(shù)字數(shù)據(jù)來源,本院、分院應新增本院/分院信息維表,記錄source_id對應的分院名,地址,熱線等信息對于已處理完成的信息,如病人已出院,進行可歸ARCHIVE_FLAG文本記錄是否

4、可歸檔(Y/N)檔標記;DW保留一段時間后,可考慮部分歸檔數(shù)據(jù)遷移到二級存儲,減輕壓力START_TIME日期記錄生效時間拉鏈使用,可選END_DATE日期記錄失效時間拉鏈使用,可選數(shù)據(jù)標準化處理在數(shù)據(jù)標準化的處理過程中,也應分為兩步進行處理,先進行維表的代碼(如ID號)標準化,然后將事實表中的記錄以標準化后的代碼配合原來的事實信息(如繳費)及數(shù)據(jù)來源標記(哪個分院)采集到DW標準事實表中。維表標準化1.維表標準化以病人維表為例進行說明2,將本院及各分院的維表數(shù)據(jù)采集到DW標準庫的緩沖區(qū)(可將本院及各分院數(shù)據(jù)放置于緩沖區(qū)的不同用戶下)3 .首先標準化本院數(shù)據(jù),標準化后的數(shù)據(jù)寫入標準表格。以病人

5、身份證號進行區(qū)分,身份證號第一次出現(xiàn)時,取新的序列值為病人的標準化ID號,并將病人的原始信息(本院編號+原始ID號)記入history_idlist字段;同一身份證號之后重復出現(xiàn)時,將病人的原始信息添加到history_idlist字段即可。4 .之后標準化分院數(shù)據(jù),對于本院中未出現(xiàn)的身份證號,取新的序列值為病人的標準化ID號,并將病人的原始信息(分院編號+原始ID號)記入history_idlist字段;同一身份證號之后重復出現(xiàn)時,將病人的原始信息添加到history_idlist字段即可。注:在病人的原始信息記入history_idlist字段時,可選擇同時將標準化的病人ID號和原始ID號

6、寫入一個代碼轉(zhuǎn)換表,便于之后分院事實表通過此代碼轉(zhuǎn)換表,根據(jù)原始ID號,找到新的標準化ID號。當然,分院事實表也可通過對標準化病人維表的history_idlist字段的全文搜索,找到對應的標準化ID號。實際實施中,以實施效率進行靈活調(diào)整即可。事實表標準化1 .將本院及分院的事實表數(shù)據(jù)采集到DW標準庫的緩沖區(qū)2 .本院及分院事實表需與上一步生成的代碼轉(zhuǎn)換表關(guān)聯(lián)(或搜索history_idlist字段),根據(jù)原始病人ID號,找到新生成的標準化ID號,聯(lián)合其它的事實數(shù)據(jù)(如繳費),寫入到新的標準化事實表3 .本院及分院事實表數(shù)據(jù)寫入DW標準庫的同時,在標準化事實表的source_id字段中標注事實數(shù)據(jù)來源(本院或分院的編號)DW數(shù)據(jù)標準化實施在實施標準化時,可分為標準化初始化-增量標準化來實施,標準化初始化處理數(shù)據(jù)量最大,之后增量標準化,只要采集增量數(shù)據(jù)到緩沖區(qū)即可。標準化初始化標準化初始化示意圖如下:DW標準庫初始化主要完成以下工作:1 .以某個時間點為界,采集本院、分院數(shù)據(jù)到DW標準庫緩沖區(qū)2 .在緩沖區(qū)進行數(shù)據(jù)標準化后,寫入DW標準庫3 .寫入完成后,清理緩沖區(qū),但建立了代碼轉(zhuǎn)換表的話,代碼轉(zhuǎn)換表可保留標準化增量標準化增量示意圖如下:DW標準庫標準化增量主要完成以下工作:1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論