


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、1. What are the primary goals of the data discovery phase of the data warehouse project?在數(shù)據(jù)倉庫項目中,數(shù)據(jù)探索階段的主要目的是什么?答:在邏輯數(shù)據(jù)映射進行之前, 需要首先對所有的源系統(tǒng)進行分析。 對源系統(tǒng)的分析 通常包括兩個階段,一個是數(shù)據(jù)探索階段( Data Discovery Phase ),另一個 是異常數(shù)據(jù)檢測階段。數(shù)據(jù)探索階段包括以下內(nèi)容:1收集所有的源系統(tǒng)的文檔、數(shù)據(jù)字典等內(nèi)容。2收集源系統(tǒng)的使用情況,如誰在用、每天多少人用、占多少存儲空間等內(nèi)容。3判斷出數(shù)據(jù)的起始來源( System-of
2、-Record )。4通過數(shù)據(jù)概況( Data Profiling )來對源系統(tǒng)的數(shù)據(jù)關(guān)系進行分析。數(shù)據(jù)探索階段的主要目的是理解源系統(tǒng)的情況, 為后續(xù)的數(shù)據(jù)建模和邏輯數(shù)據(jù)映 射打下堅實的基礎(chǔ)。2. What are the four basic Data Flow steps of an ETL process?在 ETL 過程中四個基本的過程分別是什么?答:主要comforKimball 數(shù)據(jù)倉庫構(gòu)建方法中, ETL 的過程和傳統(tǒng)的實現(xiàn)方法有一些不同, 分為四個階段,分別是抽取( extract )、清洗( clean )、一致性處理(m)和交付(delivery ),簡稱為ECCD。1抽取
3、階段的主要任務(wù)是:讀取源系統(tǒng)的數(shù)據(jù)模型。連接并訪問源系統(tǒng)的數(shù)據(jù)。變化數(shù)據(jù)捕獲。抽取數(shù)據(jù)到數(shù)據(jù)準備區(qū)。2清洗階段的主要任務(wù)是:清洗并增補列的屬性。清洗并增補數(shù)據(jù)結(jié)構(gòu)。清洗并增補數(shù)據(jù)規(guī)則。增補復(fù)雜的業(yè)務(wù)規(guī)則。建立元數(shù)據(jù)庫描述數(shù)據(jù)質(zhì)量。將清洗后的數(shù)據(jù)保存到數(shù)據(jù)準備區(qū)。3一致性處理階段的主要任務(wù)是:一致性處理業(yè)務(wù)標簽,即維度表中的描述屬性。 一致性處理業(yè)務(wù)度量及性能指標,通常是事實表中的事實 去除重復(fù)數(shù)據(jù)。國際化處理。將一致性處理后的數(shù)據(jù)保存到數(shù)據(jù)準備區(qū)。4交付階段的主要任務(wù)是:加載星型的和經(jīng)過雪花處理的維度表數(shù)據(jù)。產(chǎn)生日期維度。加載退化維度。加載子維度。加載 1、2、3 型的緩慢變化維度。處理遲到的
4、維度和遲到的事實。加載多值維度。加載有復(fù)雜層級結(jié)構(gòu)的維度。加載文本事實到維度表。處理事實表的代理鍵。加載三個基本類型的事實表數(shù)據(jù)。加載和更新聚集。將處理好的數(shù)據(jù)加載到數(shù)據(jù)倉庫。從這個任務(wù)列表中可以看出, ETL 的過程和數(shù)據(jù)倉庫建模的過程結(jié)合的非常緊 密。換句話說, ETL 系統(tǒng)的設(shè)計應(yīng)該和目標表的設(shè)計同時開始。通常來說,數(shù)據(jù) 倉庫架構(gòu)師和 ETL 系統(tǒng)設(shè)計師是同一個人。3. Describe the different types of ETL metadata and provide examples of each.舉例說明各種 ETL 過程中的元數(shù)據(jù)。答:元數(shù)據(jù)是 ETL 項目組面對的
5、一個非常重要的主題,對于整個數(shù)據(jù)倉庫項目 也是非常重要的一部分。對于元數(shù)據(jù)的分類和使用沒有很確定的定義。通常來說,我們可以把元數(shù)據(jù)分為三類,分別為業(yè)務(wù)元數(shù)據(jù)( Business Metad ata ),技術(shù)元數(shù)據(jù)( Technical Metadata )和過程處理元數(shù)據(jù)( Process Exec ution Metadata )。業(yè)務(wù)元數(shù)據(jù), 是從業(yè)務(wù)的角度對數(shù)據(jù)的描述。 通常是用來給報表工具和前端用戶 對數(shù)據(jù)進行分析和使用提供幫助。技術(shù)元數(shù)據(jù), 是從技術(shù)的角度對數(shù)據(jù)的描述。 通常包括數(shù)據(jù)的一些屬性, 如數(shù)據(jù) 類型、長度、或者數(shù)據(jù)概況分析后一些結(jié)果。過程處理元數(shù)據(jù),是 ETL 處理過程中的
6、一些統(tǒng)計數(shù)據(jù),通常包括有多少條記錄 被加載,多少條記錄被拒絕接受等數(shù)據(jù)4. What steps do you take to determine the bottleneck of a slow runnin g ETL process?如果 ETL 進程運行較慢,需要分哪幾步去找到 ETL 系統(tǒng)的瓶頸問題。答:ETL系統(tǒng)遇到性能問題,運行很慢是一件較常見的事情, 這時要做的是逐步 找到系統(tǒng)的瓶頸在哪里。首先要確定是由 CPU 、內(nèi)存、 I/O 和網(wǎng)絡(luò)等產(chǎn)生的瓶頸,還是由 ETL 處理過程 產(chǎn)生的瓶頸。如果環(huán)境沒有瓶頸,那么需要分析 ETL 的代碼。這時,我們可以采用排除的方 法,需要隔離不
7、同的操作, 并分別對它們進行測試。 如果是采用純手工編碼方式 的 ETL 處理,隔離不同的操作要麻煩一些,這時需要根據(jù)編碼的實際情況來處 理。如果是采用 ETL 工具的話,目前的 ETL 工具應(yīng)該都有隔離不同處理的功能, 隔離起來相對容易一些。分析最好從抽取操作開始,然后依次分析各種計算、查找表、聚集、過濾等轉(zhuǎn)換環(huán)節(jié)的處理操作,最后分析加載操作。實際的處理中,可以按照下面的七個步驟來查找瓶頸。1隔離并執(zhí)行抽取查詢語句。先將抽取部分隔離出來, 去掉轉(zhuǎn)換和交付, 可以將數(shù)據(jù)直接抽取到文件中。 如果 這一步效率很差,基本確定是抽取 SQL 的問題。從經(jīng)驗來看,未經(jīng)調(diào)優(yōu)的 SQL 是一個最常見的導(dǎo)致
8、ETL 效率差的原因。如果這步?jīng)]有問題進入第二步。2去掉過濾條件。這一條是針對全抽取,然后在 ETL 處理中進行過濾的處理方式而言。在 ETL 處 理中做過濾處理有時會產(chǎn)生瓶頸。 可以先將過濾去掉, 如果確定為這個原因, 可 以考慮在抽取時進行數(shù)據(jù)過濾。3排除查找表的問題。參照數(shù)據(jù)在 ETL 處理過程中通常會加載到內(nèi)存中,目的是做代碼和名稱的查找 替換,也稱查找表。 有時查找表的數(shù)據(jù)量過大也會產(chǎn)生瓶頸。 可以逐個隔離查找 表,來確定是否是這里出現(xiàn)問題。 注意要將查找表的數(shù)據(jù)量降到最低, 通常一個 自然鍵一個代理鍵就可以,這樣可以減少不必要的數(shù)據(jù) I/O 。4分析排序和聚集操作。排序和聚集操作都是非常費資源的操作。 對這部分隔離, 來判斷是否因為它們引 起性能問題。 如果確定是因為這個, 需要考慮是否可以將排序和聚集處理移出數(shù) 據(jù)庫和 ETL 工具,移到操作系統(tǒng)中來處理。5隔離并分析每一個計算和轉(zhuǎn)換處理。有時轉(zhuǎn)換過程中的處理操作也會引起 ETL 工作的性能。逐步隔離移除它們來判 斷哪里出了問題。要注意觀察像默認值、數(shù)據(jù)類型轉(zhuǎn)換等操作。6隔離更新策略。更新操作在數(shù)據(jù)量非常大時是性能非常差的。 隔離這部分, 看看是否這里出了問 題。如果確定是因為大批量更新出了性能問題。應(yīng)該考慮將 insert 、update 和 d elete 分開處理。7檢測加載數(shù)據(jù)的數(shù)據(jù)庫 I/O
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 金屬餐具的供應(yīng)鏈管理優(yōu)化考核試卷
- 紡織行業(yè)的經(jīng)濟價值考核試卷
- 計算機網(wǎng)絡(luò)設(shè)計與實施相關(guān)試題及答案
- 公路施工決策分析試題及答案
- 數(shù)據(jù)庫安全策略與用戶管理試題及答案
- 鉆探設(shè)備在寶石礦勘查中的技術(shù)要求考核試卷
- 液體乳品物流與供應(yīng)鏈優(yōu)化策略考核試卷
- 計算機三級考試中心知識回顧與試題及答案
- 計算機在多媒體信息處理與內(nèi)容分發(fā)考核試卷
- 行政管理理論基礎(chǔ)知識試題及答案
- 復(fù)合片鉆頭技術(shù)協(xié)議
- 機械制圖國家標準解析
- 人防工程質(zhì)量監(jiān)督要點及常見問題培訓(xùn)手冊
- 國家開放大學(xué)《電工電子技術(shù)》章節(jié)自測題參考答案
- NEFAB整體包裝解決方案全球性合作伙伴
- 20172018年江蘇A類資料分析真題解析
- 醫(yī)院體檢中心應(yīng)急預(yù)案
- 美能達DIMAGE A1相機中文說明書
- 各層次護理管理崗位職責(zé)及考核標準Word 文檔
- 環(huán)境監(jiān)測實驗室管理制度大全
- KTV開業(yè)活動策劃方案
評論
0/150
提交評論