



付費(fèi)下載
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫學(xué)習(xí)筆記1、維度表的特征(1 維度表鍵。維度表的主鍵可以唯一確定表的一行。(2 維度表很寬。一個(gè)典型的維度表會(huì)有相當(dāng)多的屬性/列。(3 文本屬性。維度表中的屬性一般是文本格式的。(4 非直接相關(guān)屬性。維度表中的某些屬性經(jīng)常不會(huì)與其中的其他屬性直接相關(guān)。(5 非規(guī)范化。規(guī)范化會(huì)導(dǎo)致維度表增多,查詢效率降低。(6 上鉆 /下鉆。維度表中的屬性提供了獲取從高層次的匯總信息到低層次細(xì)節(jié)信息的能力。(7 多級層次結(jié)構(gòu)。維度表通常會(huì)有多種多級層次結(jié)構(gòu),從而使鉆取可以沿著這些多級層次結(jié)構(gòu)中的任何一個(gè)進(jìn)行。(8 更少的記錄。維度表中的記錄通常會(huì)比事實(shí)表中的記錄數(shù)更少。2、事實(shí)表的特征(1 連接的事實(shí)表
2、主鍵。事實(shí)表中的一行記錄與所有維度表中的相應(yīng)記錄相關(guān)。事實(shí)表中的主鍵必須是所有維度表主鍵連接起來的組合鍵。(2 數(shù)據(jù)顆粒。數(shù)據(jù)粒度是指標(biāo)的細(xì)節(jié)程度。(3 完全加和指標(biāo)。(4 半加和指標(biāo)。如百分比。(5 表很長 ,但是不寬。通常事實(shí)表包含的屬性比維度表更少。(6 稀疏的數(shù)據(jù)。并不是所有維度屬性的組合都會(huì)出現(xiàn)在事實(shí)表中,沒有對應(yīng)的事實(shí)就不會(huì)出現(xiàn)在事實(shí)表中。(7 退化的維度。有些數(shù)字屬性不是指標(biāo)也不是事實(shí),這種屬性有些是參考數(shù)字,如訂單數(shù)、發(fā)票號、訂單流水號等,在某些類型的分析中是有用的。(8 不含事實(shí)的事實(shí)表。當(dāng)事實(shí)表表示事件的時(shí)候會(huì)出現(xiàn)這種情況。3、星型模式的鍵(1 維度表的鍵要用代理鍵。(2
3、維度表的主鍵必須是事實(shí)表的外鍵。(3 事實(shí)表的主鍵有 3 中選擇 :a 一個(gè)單獨(dú)的復(fù)合主鍵 ,長度是維度表鍵長度的總和。這種情況下,除了復(fù)合主鍵外 ,外鍵必須作為附加的屬性保存在事實(shí)表中。這種情況增加了事實(shí)表的大小。b 連接的主鍵 ,由維度表的主鍵連接而成。這樣,就不需要將維度表的主鍵作為附加的屬性以外鍵的形式存放在事實(shí)表中了。主鍵的每一個(gè)獨(dú)立的部分都可以充當(dāng)外鍵。c 一個(gè)生成的主鍵 ,與維度表的鍵無關(guān)。除了生成的主鍵外,所有外鍵都必須作為附加屬性存放在事實(shí)表中。這種方式同樣增加了事實(shí)表的大小。ETL 學(xué)習(xí)筆記1、ETL 工具能做什么 ?從領(lǐng)先廠商的多種關(guān)系型數(shù)據(jù)庫中抽取數(shù)據(jù)從舊數(shù)據(jù)庫、索引文
4、件和平面文件中抽取數(shù)據(jù)源字段和目標(biāo)字段從一種格式向另一種格式進(jìn)行的數(shù)據(jù)轉(zhuǎn)換執(zhí)行標(biāo)準(zhǔn)轉(zhuǎn)換、重定義鍵和結(jié)構(gòu)性變化提供從數(shù)據(jù)源到目標(biāo)的檢查軌跡抽取和轉(zhuǎn)換中商業(yè)規(guī)則的應(yīng)用將源系統(tǒng)中的幾個(gè)記錄組合成一個(gè)整合的目標(biāo)記錄元數(shù)據(jù)的記錄和管理2、ETL 處理過程的主要步驟(1 決定數(shù)據(jù)倉庫中需要的所有目標(biāo)數(shù)據(jù)(2 決定所有的數(shù)據(jù)源 ,包括內(nèi)部和外部(3 準(zhǔn)備從源到目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)映像關(guān)系(4 建立全面的數(shù)據(jù)抽取規(guī)則(5 決定數(shù)據(jù)轉(zhuǎn)換和清洗規(guī)則(6 為聚集表制定計(jì)劃(7 組織數(shù)據(jù)緩存區(qū)域和檢查工具(8 為所有的數(shù)據(jù)裝載編寫規(guī)程(9 維度表的 ETL(10 事實(shí)表的 ETL3、數(shù)據(jù)抽取的要點(diǎn)數(shù)據(jù)源確認(rèn) 確認(rèn)數(shù)據(jù)的
5、源系統(tǒng)和結(jié)構(gòu)抽取方法 針對每個(gè)數(shù)據(jù)源 ,定義抽取過程是人工抽取還是基于工具抽取 抽取頻率 對于每個(gè)數(shù)據(jù)源 ,確定數(shù)據(jù)抽取的頻率 ,每天、每星期、每季度,等等。時(shí)間窗口 對于每個(gè)數(shù)據(jù)源 ,表示抽取過程進(jìn)行的時(shí)間窗口。工作順序 決定抽取任務(wù)中某項(xiàng)工作是否必須等到前面的工作成功完成才能開始。異常處理 決定如何處理無法抽取的輸入記錄。4、數(shù)據(jù)轉(zhuǎn)換基本任務(wù)(1 選擇 ,選擇數(shù)據(jù)源 ,發(fā)生在整個(gè)數(shù)據(jù)轉(zhuǎn)換過程的開始部分,通常構(gòu)成了抽取功能本身的一部分。(2 分離 /合并 ,在數(shù)據(jù)轉(zhuǎn)換過程中對部分源記錄進(jìn)行進(jìn)一步分離操作。在數(shù)據(jù)倉庫環(huán)境中 ,對很多源系統(tǒng)中選中部分的合并操作時(shí)更加普遍的現(xiàn)象。(3 轉(zhuǎn)化 ,這是
6、一項(xiàng)包含一切的任務(wù) ,它包括多種對單獨(dú)字段的基本轉(zhuǎn)化。(4 匯總 ,把低粒度的數(shù)據(jù)匯總。(5 豐富 ,對單個(gè)字段數(shù)據(jù)進(jìn)行重新分配和簡化的過程,使他們對數(shù)據(jù)倉庫環(huán)境更有用。5、數(shù)據(jù)轉(zhuǎn)換的主要類型(1 格式修正。如數(shù)據(jù)類型和字段長度。(2 字段解碼。解決相同數(shù)據(jù)項(xiàng)用過多字段值描述的問題。如性別有的遠(yuǎn)系統(tǒng)用 1、2 表示 ,有的用 M 、F 表示。(3 計(jì)算值和導(dǎo)出值。(4 單個(gè)字段的分離。字段拆分。(5 信息的合并。將來自不同數(shù)據(jù)源的對同一實(shí)體的描述信息合并,成為一個(gè)新的實(shí)體。(6 特征集合轉(zhuǎn)化(7 度量單位的轉(zhuǎn)化。將不同標(biāo)準(zhǔn)的度量單位轉(zhuǎn)換成相同的標(biāo)準(zhǔn)度量單位。(8 日期 /時(shí)間轉(zhuǎn)化。將日期和時(shí)間
7、轉(zhuǎn)換成統(tǒng)一格式。(9 匯總。創(chuàng)建裝載數(shù)據(jù)倉庫的匯總,而不是載入大部分的低粒度數(shù)據(jù)。(10 鍵的重新構(gòu)造6、高質(zhì)量數(shù)據(jù)的特征(1 準(zhǔn)確性。存儲(chǔ)在系統(tǒng)中的關(guān)于一個(gè)數(shù)據(jù)元素的值是這個(gè)數(shù)據(jù)元素的正確值。(2 域完整性。一個(gè)屬性的數(shù)值在合理且預(yù)定義的范圍之內(nèi)。(3 數(shù)據(jù)類型。一個(gè)數(shù)據(jù)類型的值通常是根據(jù)這個(gè)屬性所定義的數(shù)據(jù)類型來存儲(chǔ)的。(4 一致性。一個(gè)數(shù)據(jù)字段的形式和內(nèi)容在多個(gè)源系統(tǒng)之間是相同的。(5 冗余性。相同的數(shù)據(jù)在一個(gè)系統(tǒng)中不能存儲(chǔ)在超過一個(gè)的地方。(6 完整性。系統(tǒng)中的屬性不應(yīng)該有缺失的值。(7 重復(fù)性。完全解決一個(gè)系統(tǒng)中記錄的重復(fù)性的問題。(8 結(jié)構(gòu)明確。在數(shù)據(jù)項(xiàng)的結(jié)構(gòu)可以分成不同部分的任何
8、地方,這個(gè)數(shù)據(jù)項(xiàng)都必須包含定義好的結(jié)構(gòu)。(9 數(shù)據(jù)異常。一個(gè)字段必須根據(jù)預(yù)先定義的目的來使用。(10 清晰。一個(gè)數(shù)據(jù)元素可能擁有數(shù)據(jù)質(zhì)量的所有其他特征,但是如果用戶不能清楚地了解它的含義 ,那么元數(shù)據(jù)對于用戶就毫無含義。正確的命名習(xí)慣可以幫助用戶更好地理解數(shù)據(jù)元素。(11 時(shí)效性。用戶決定了數(shù)據(jù)的時(shí)效性。如果用戶希望客戶維度數(shù)據(jù)不要超過一天 ,那么源系統(tǒng)中的客戶數(shù)據(jù)的變化就必須每天都應(yīng)用到數(shù)據(jù)倉庫中。(12 有用性。數(shù)據(jù)倉庫中的每一個(gè)數(shù)據(jù)元素必須滿足用戶的一些需求。數(shù)據(jù)元素可能是正確的、高質(zhì)量的 ,但是如果對于用戶沒有價(jià)值 ,那么數(shù)據(jù)倉庫中的這個(gè)數(shù)據(jù)元素就是完全沒用的。(13 符合數(shù)據(jù)完整性的
9、規(guī)則。源系統(tǒng)中的關(guān)系數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)必須符合實(shí)體完整性和及參照完整性。允許使用空值作為主鍵的任何數(shù)據(jù)表都不具備實(shí)體完整性。參照完整性迫使正確地建立父子關(guān)系。在一個(gè)客戶和訂單的關(guān)系中,參照完整性保證了數(shù)據(jù)庫中一個(gè)客戶所有訂單的存在。7、數(shù)據(jù)質(zhì)量問題類型列表(1 字段中的虛假值(2 數(shù)據(jù)值缺失(3 對字段的非正規(guī)使用。姓名字段不能放性別。(4 晦澀的值(5 互相沖突的值。源系統(tǒng)中有一些相關(guān)字段的值必須是兼容的。如地區(qū)和郵政編碼必須匹配。(6 違反商業(yè)規(guī)則。如一年不能超過365 或 366 天。(7 主鍵重用。(8 標(biāo)志不唯一。如同一個(gè)產(chǎn)品在銷售系統(tǒng)和庫存系統(tǒng)產(chǎn)品代碼不一樣。(9 不一致的值。如性別在不同的系統(tǒng)中編碼不一樣。(10 不正確的值(11 一個(gè)字段多種用途(12 錯(cuò)誤的集成8、數(shù)據(jù)污染的來源(1 系統(tǒng)轉(zhuǎn)換(2) 數(shù)據(jù)老化 (3) 復(fù)雜的系統(tǒng)集成 (4) 拙劣的數(shù)據(jù)庫設(shè)計(jì) ( 5)數(shù)據(jù)輸入的不完整信息(6) 輸入錯(cuò)誤 (7) 國際化 /本地化 (8) 欺詐 ( 9)缺乏相關(guān)政策 9、數(shù)據(jù)清洗工具所能完成的一些典型的錯(cuò)誤發(fā)現(xiàn)功能方便快捷地識(shí)別重復(fù)記錄辨認(rèn)出那些超出合法域值范圍的數(shù)據(jù)項(xiàng)找出不一致的數(shù)據(jù) 檢查允許值的范圍檢查不同來源的數(shù)據(jù)項(xiàng)的不一致
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 項(xiàng)目工程造價(jià)培訓(xùn)課件
- 兒童多動(dòng)癥的健康教育
- 部隊(duì)反邪教課件
- 高效節(jié)能電機(jī)項(xiàng)目經(jīng)濟(jì)效益和社會(huì)效益分析報(bào)告(范文)
- 2025年會(huì)計(jì)、審計(jì)及稅務(wù)服務(wù)項(xiàng)目發(fā)展計(jì)劃
- 新解讀《建筑信息模型(BIM)應(yīng)用標(biāo)準(zhǔn) DBJ-T 36-069-2021》解讀
- 2025年壬基酚聚氧乙烯醚項(xiàng)目建議書
- 細(xì)胞生物學(xué)總結(jié)
- 2025年霍爾汽車點(diǎn)火系統(tǒng)項(xiàng)目合作計(jì)劃書
- 2025年花畫工藝品合作協(xié)議書
- 教師進(jìn)企業(yè)實(shí)踐三方協(xié)議書
- 施工現(xiàn)場隱患圖片識(shí)別合集
- 山西省建設(shè)工程計(jì)價(jià)依據(jù)
- 煤礦在用安全設(shè)備檢測檢驗(yàn)制度
- GB/T 24632.2-2009產(chǎn)品幾何技術(shù)規(guī)范(GPS)圓度第2部分:規(guī)范操作集
- GB/T 20428-2006巖石平板
- GB/T 11363-1989釬焊接頭強(qiáng)度試驗(yàn)方法
- 內(nèi)調(diào)焦準(zhǔn)距式望遠(yuǎn)系統(tǒng)光學(xué)設(shè)計(jì)2022年
- 核磁共振的發(fā)展史課件
- 切紙機(jī)安全操作規(guī)程標(biāo)準(zhǔn)范本
- 國家開放大學(xué)2022秋法理學(xué)形考1-4參考答案
評論
0/150
提交評論