數(shù)據(jù)倉(cāng)庫(kù)商業(yè)智能相關(guān)面試題帶答案_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)商業(yè)智能相關(guān)面試題帶答案_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)商業(yè)智能相關(guān)面試題帶答案_第3頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1 商務(wù)智能1.1 數(shù)據(jù)倉(cāng)庫(kù)1.1.1 數(shù)據(jù)倉(cāng)庫(kù)的 4 大特點(diǎn)(特征)?面向主題的,集成的,相對(duì)穩(wěn)定的,反映歷史變化的。1.1.2 數(shù)據(jù)倉(cāng)庫(kù)的四個(gè)層次體系結(jié)構(gòu)?1. 數(shù)據(jù)源 是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi) 部信息包括存放于 RDBMS 中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法 律法規(guī)、市場(chǎng)信息和競(jìng)爭(zhēng)對(duì)手的信息等等;2. 數(shù)據(jù)的存儲(chǔ)與管理 是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的核心。數(shù)據(jù)倉(cāng)庫(kù)的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫(kù)的組織 管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù),同時(shí)也決定了其對(duì)外部數(shù)據(jù)的表現(xiàn)形式。要決定采 用什么產(chǎn)品和技術(shù)來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)的核心,

2、則需要從數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)特點(diǎn)著手分析。針對(duì) 現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉(cāng)庫(kù)按 照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)(通常稱為數(shù)據(jù)集市)3. OLAP服務(wù)器對(duì)分析需要的數(shù)據(jù)進(jìn)行有效集成, 按多維模型予以組織, 以便進(jìn)行多角度、 多層次的分析, 并發(fā)現(xiàn)趨勢(shì)。其具體實(shí)現(xiàn)可以分為:ROLAP (關(guān)系型在線分析處理)、MOLAP (多維在線分析處理)和HOLAP (混合型線上分析處理)。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫(kù)中;HOLAP基本數(shù)據(jù)存放于 RDBMS之中,聚合數(shù)據(jù)存放于

3、多維數(shù)據(jù)庫(kù)中。4. 前端工具主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以數(shù)據(jù)挖掘及各種基于 數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的應(yīng)用開(kāi)發(fā)工具。其中數(shù)據(jù)分析工具主要針對(duì)OLAP 服務(wù)器,報(bào)表工具、數(shù)據(jù)挖掘工具主要針對(duì)數(shù)據(jù)倉(cāng)庫(kù)。1.1.3描述一下聯(lián)機(jī)分析處理OLAP?(維的概念,基本多維操作,層次結(jié)構(gòu),與OLTP的區(qū)別)OLAP(聯(lián)機(jī)分析處理 On-Line Analytical Processing)也叫多維 DBMS。OLAP是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。OLAP 的目標(biāo)是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報(bào)表需求,它的技術(shù)核

4、心是 " 維"這個(gè)概念?!熬S”是人們觀察客觀世界的角度 ,是一種高層次的類型劃分。 “維”一般包含著層次關(guān)系 ,這種 層次關(guān)系有時(shí)會(huì)相當(dāng)復(fù)雜。通過(guò)把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維 (dimension) ,使用戶能 對(duì)不同維上的數(shù)據(jù)進(jìn)行比較。因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合。 也叫做多維數(shù)據(jù)集。 一般一個(gè)多維數(shù)據(jù)集可以用一個(gè)立方體的方式進(jìn)行描述。多維數(shù)據(jù)集是聯(lián)機(jī)分析處理 (OLAP) 中的主要對(duì)象,是一項(xiàng)可對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行快速訪 問(wèn)的技術(shù)。多維數(shù)據(jù)集是一個(gè)數(shù)據(jù)集合,通常從數(shù)據(jù)倉(cāng)庫(kù)的子集構(gòu)造,并組織和匯總成一個(gè)由一組 維度和度量值定義的多維結(jié)構(gòu)。每個(gè)多

5、維數(shù)據(jù)集都有一個(gè)架構(gòu),架構(gòu)是數(shù)據(jù)倉(cāng)庫(kù)中已聯(lián)接的各表的集合,多維數(shù)據(jù)集從數(shù)據(jù)倉(cāng) 庫(kù)提取其源數(shù)據(jù)。架構(gòu)中的核心表是事實(shí)數(shù)據(jù)表,事實(shí)數(shù)據(jù)表是多維數(shù)據(jù)集度量值的源。OLAP的基本多維分析操作有鉆取(roll up和drill down )、切片(slice)和切塊(dice )、以及旋 轉(zhuǎn)(pivot )、drill across、drill through等。鉆取是改變維的層次,變換分析的粒度。它包括向上鉆 取( roll up )和向下鉆取( drill down )。 roll up 是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯 總數(shù)據(jù),或者減少維數(shù);而drill down則相反,它從匯總數(shù)據(jù)

6、深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個(gè),則 是切片;如果有三個(gè),則是切塊。旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。1.1.4 多維數(shù)據(jù)集為什么顯示有些表即是事實(shí)表又是維度表?退化維度。1.1.5 描述一下粒度?維度? Cube?粒度反映了數(shù)據(jù)倉(cāng)庫(kù)按照不同的層次組織數(shù)據(jù),根據(jù)不同的查詢需要,存儲(chǔ)不同細(xì)節(jié)的數(shù)據(jù)。 在數(shù)據(jù)倉(cāng)庫(kù)中,粒度越小,數(shù)據(jù)越細(xì),查詢范圍就越廣泛。相反,粒度級(jí)別越高,表示細(xì)節(jié)程度越 低,查詢范圍越小。1.1.6描述一下ODS,統(tǒng)一數(shù)據(jù)視圖運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)(The operatio

7、nal data store, ODS)或稱操作型數(shù)據(jù)存儲(chǔ)是一個(gè)面向主題的、集成 的、當(dāng)前的并且是可 "揮發(fā) "的數(shù)據(jù)集合,它反映了在某一個(gè)時(shí)間切片瞬間,經(jīng)營(yíng)分析系統(tǒng)和外圍系 統(tǒng)( BOSS、 MIS.)用以相互交換數(shù)據(jù)的集合,主要用于經(jīng)營(yíng)分析系統(tǒng)與外圍系統(tǒng)關(guān)鍵數(shù)據(jù)一致性 校驗(yàn)、以及經(jīng)營(yíng)分析系統(tǒng)對(duì)其它外圍系統(tǒng)的決策支持?jǐn)?shù)據(jù)的回饋,回饋數(shù)據(jù)包括以客戶擴(kuò)展屬性為 主體的詳細(xì)資料等。運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)扮演的是用于數(shù)據(jù)稽核與交互的角色。ODS 的存儲(chǔ)結(jié)構(gòu)是以企業(yè)范圍所有相關(guān)業(yè)務(wù)系統(tǒng)的數(shù)據(jù), 以全面、 統(tǒng)一進(jìn)行關(guān)系型實(shí)體來(lái)體現(xiàn) 的,ODS中的數(shù)據(jù)是基于分析主題進(jìn)行組織,而不是基于業(yè)務(wù)系統(tǒng)的

8、功能進(jìn)行組織。ODS只是存儲(chǔ)了當(dāng)前的數(shù)據(jù)且數(shù)據(jù)是“揮發(fā)”性的,因此其數(shù)據(jù)的刷新是很快,過(guò)期的數(shù)據(jù)將要被揮發(fā)掉。因此 ODS的存儲(chǔ)量取決于業(yè)務(wù)接口數(shù)據(jù)的抽取與刷新頻率,取決于企業(yè)的服務(wù)客戶的數(shù)量。從ODS的作用和實(shí)現(xiàn)來(lái)說(shuō),ODS將各個(gè)孤立的業(yè)務(wù)系統(tǒng)的運(yùn)營(yíng)數(shù)據(jù)集成起來(lái),現(xiàn)成全企業(yè)的統(tǒng)一數(shù)據(jù)視圖,同時(shí)可實(shí)現(xiàn) ODS的數(shù)據(jù)共享。1.1.7 描述一下企業(yè)信息工廠數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域里,有一種構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu),叫 Corporate Information Factory ,中文一般翻 譯為“企業(yè)信息工廠” 。企業(yè)信息工廠的創(chuàng)始人是數(shù)據(jù)倉(cāng)庫(kù)之父 Inmon 。企業(yè)信息工廠主要包括集成轉(zhuǎn)換層( I&T )

9、、操作數(shù)據(jù)存儲(chǔ)(ODS)、數(shù)據(jù)倉(cāng)庫(kù)(EDW)、數(shù)據(jù)集 市(DM)、探索倉(cāng)庫(kù)(EW)等部件。這些部件有機(jī)的結(jié)合在一起,為企業(yè)提供信息服務(wù)。集成轉(zhuǎn)換層的目的是將來(lái)自操作型源系統(tǒng)的數(shù)據(jù)集成轉(zhuǎn)換到數(shù)據(jù)倉(cāng)庫(kù)中,它通常由一組程序組 成,而其它部件如數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市等則主要由數(shù)據(jù)組成。當(dāng)業(yè)務(wù)數(shù)據(jù)來(lái)源多,業(yè)務(wù)復(fù)雜時(shí),集成轉(zhuǎn)換層會(huì)建立一些臨時(shí)表,為數(shù)據(jù)處理提供方便。這時(shí),集成轉(zhuǎn)換層包括程序和數(shù)據(jù),也稱數(shù) 據(jù)準(zhǔn)備區(qū)(Data Staging Area)。通常中等規(guī)模及以上的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)都會(huì)建立數(shù)據(jù)準(zhǔn)備區(qū)。操作數(shù)據(jù)存儲(chǔ)(ODS)是建立在數(shù)據(jù)準(zhǔn)備區(qū)和數(shù)據(jù)倉(cāng)庫(kù)之間的一個(gè)部件。用來(lái)滿足企業(yè)集成的、綜合的操作型處理需要。

10、例如,出盡可能實(shí)時(shí)的集成的操作報(bào)表等需求。一般,也稱操作數(shù)據(jù)存儲(chǔ) 是用來(lái)滿足企業(yè)戰(zhàn)術(shù)決策的需要。操作數(shù)據(jù)存儲(chǔ)是個(gè)可選的部件。數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)信息工廠的核心部件,用來(lái)保存整個(gè)企業(yè)的數(shù)據(jù)。一般,也稱數(shù)據(jù)倉(cāng)庫(kù)是用來(lái) 滿足企業(yè)戰(zhàn)略決策的需要。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)自數(shù)據(jù)準(zhǔn)備區(qū)和操作數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)集市是為了滿足企業(yè)特定部門的分析需求而專門建立的數(shù)據(jù)的集合。數(shù)據(jù)集市的數(shù)據(jù)來(lái)源 是數(shù)據(jù)倉(cāng)庫(kù)。企業(yè)信息工廠中的數(shù)據(jù)集市一般來(lái)說(shuō)是非規(guī)范化的、定制的和匯總的。而多維體系架 構(gòu)中的數(shù)據(jù)集市分為兩種,分別是原子數(shù)據(jù)集市和聚集數(shù)據(jù)集市。一般來(lái)說(shuō),企業(yè)信息工廠中的數(shù) 據(jù)集市相當(dāng)于多維體系架構(gòu)中的聚集數(shù)據(jù)集市。1.1.8 數(shù)據(jù)是數(shù)據(jù)

11、集市?數(shù)據(jù)集市中的數(shù)據(jù)具有數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的特點(diǎn),只不過(guò)數(shù)據(jù)集市專為某一部門或某個(gè)特定商業(yè) 需求定制,而不是根據(jù)數(shù)據(jù)容量命名。數(shù)據(jù)集市面向部門、業(yè)務(wù)單元或特定應(yīng)用,因而規(guī)模較小,便于快速實(shí)現(xiàn),且成本較低,短期 內(nèi)即可獲得明顯效果。數(shù)據(jù)集市的應(yīng)用不僅滿足了部門的數(shù)據(jù)處理需求,而且作為數(shù)據(jù)倉(cāng)庫(kù)的子集 有助于構(gòu)建完整的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)。1.1.9 元數(shù)據(jù)的定義,元數(shù)據(jù)管理,元數(shù)據(jù)的作用用?數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)是關(guān)于數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的數(shù)據(jù)。 它的作用類似于數(shù)據(jù)庫(kù)管理系統(tǒng)的數(shù)據(jù)字典, 保存了邏輯數(shù)據(jù)結(jié)構(gòu)、文件、地址和索引等信息 。廣義上講,在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)描述了數(shù)據(jù)倉(cāng) 庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。元數(shù)據(jù)是

12、數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)的重要組成部分,元數(shù)據(jù)管理器是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵組件, 貫穿數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建的整個(gè)過(guò)程,直接影響著數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建、使用和維護(hù)。(1)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的主要步驟之一是 ETL這時(shí)元數(shù)據(jù)將發(fā)揮重要的作用,它定義了源數(shù)據(jù)系 統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)的映射、數(shù)據(jù)轉(zhuǎn)換的規(guī)則、數(shù)據(jù)倉(cāng)庫(kù)的邏輯結(jié)構(gòu)、數(shù)據(jù)更新的規(guī)則、數(shù)據(jù)導(dǎo)入歷史記 錄以及裝載周期等相關(guān)內(nèi)容。數(shù)據(jù)抽取和轉(zhuǎn)換的專家以及數(shù)據(jù)倉(cāng)庫(kù)管理員正是通過(guò)元數(shù)據(jù)高效地構(gòu) 建數(shù)據(jù)倉(cāng)庫(kù)。( 2)用戶在使用數(shù)據(jù)倉(cāng)庫(kù)時(shí),通過(guò)元數(shù)據(jù)訪問(wèn)數(shù)據(jù),明確數(shù)據(jù)項(xiàng)的含義以及定制報(bào)表。( 3)數(shù)據(jù)倉(cāng)庫(kù)的規(guī)模及其復(fù)雜性離不開(kāi)正確的元數(shù)據(jù)管理,包括增加或移除外部數(shù)據(jù)源,改 變數(shù)據(jù)清洗方法,

13、控制出錯(cuò)的查詢以及安排備份等。元數(shù)據(jù)可分為技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù) 。技術(shù)元數(shù)據(jù)為開(kāi)發(fā)和管理數(shù)據(jù)倉(cāng)庫(kù)的 IT 人員使用, 它描述了與數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)、管理和維護(hù)相關(guān)的數(shù)據(jù),包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換描述、數(shù)據(jù)倉(cāng)庫(kù)模 型、數(shù)據(jù)清洗與更新規(guī)則、數(shù)據(jù)映射和訪問(wèn)權(quán)限等。而業(yè)務(wù)元數(shù)據(jù)為管理層和業(yè)務(wù)分析人員服務(wù), 從業(yè)務(wù)角度描述數(shù)據(jù),包括商務(wù)術(shù)語(yǔ)、數(shù)據(jù)倉(cāng)庫(kù)中有什么數(shù)據(jù)、數(shù)據(jù)的位置和數(shù)據(jù)的可用性等,幫 助業(yè)務(wù)人員更好地理解數(shù)據(jù)倉(cāng)庫(kù)中哪些數(shù)據(jù)是可用的以及如何使用。在數(shù)據(jù)倉(cāng)庫(kù)中, 元數(shù)據(jù)的主要 作用如下。( 1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中,幫助決策分析者對(duì)數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)容定位。( 2)定義數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的方式,作為數(shù)據(jù)匯

14、總、映射和清洗的指南。( 3)記錄業(yè)務(wù)事件發(fā)生而隨之進(jìn)行的數(shù)據(jù)抽取工作時(shí)間安排。( 4)記錄并檢測(cè)系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況。( 5)評(píng)估數(shù)據(jù)質(zhì)量。1.1.10 什么是主數(shù)據(jù) ,主數(shù)據(jù)管理?和元數(shù)據(jù)有什么區(qū)別?主數(shù)據(jù) 管理和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別?主數(shù)據(jù)是指在整個(gè)企業(yè)范圍內(nèi)各個(gè)系統(tǒng)(操作 / 事務(wù)型應(yīng)用系統(tǒng)以及分析型系統(tǒng))間要共享的數(shù)據(jù), 比如, 可以是與客戶 (customers), 供應(yīng)商 (suppliers), 帳戶 (accounts) 以及組織單位 (organizational units)相關(guān)的數(shù)據(jù)。主數(shù)據(jù)通常需要在整個(gè)企業(yè)范圍內(nèi)保持一致性(consistent)、完整性(co

15、mplete)、可控性 (controlled) ,為了達(dá)成這一目標(biāo), 就需要進(jìn)行主數(shù)據(jù)管理 (Master Data Management ,MDM) 。 主數(shù)據(jù)不是企業(yè)內(nèi)所有的業(yè)務(wù)數(shù)據(jù),只是有必要在各個(gè)系統(tǒng)間共享的數(shù)據(jù)才是主數(shù)據(jù),比如大部分 的交易數(shù)據(jù)、 帳單數(shù)據(jù)等都不是主數(shù)據(jù), 而像描述核心業(yè)務(wù)實(shí)體的數(shù)據(jù), 而像客戶、 供應(yīng)商、 帳戶、 組織單位、員工、合作伙伴、位置信息等都是主數(shù)據(jù)。主數(shù)據(jù)是企業(yè)內(nèi)能夠跨業(yè)務(wù)重復(fù)使用的高價(jià) 值的數(shù)據(jù)。主數(shù)據(jù)管理 (Master Data Management ,MDM) 是指 一組約束和方法 用來(lái)保證一個(gè)企業(yè)內(nèi)主題域 和系統(tǒng)內(nèi)相關(guān)數(shù)據(jù)和跨主題域和系統(tǒng)的相

16、關(guān)數(shù)據(jù)的 實(shí)時(shí)性、含義和質(zhì)量 。這是從深層次來(lái)說(shuō)來(lái)說(shuō)明 主數(shù)據(jù)管理(MDM)的深度和復(fù)雜性,簡(jiǎn)單的說(shuō),主數(shù)據(jù)管理(MDM)保證你的系統(tǒng)協(xié)調(diào)和重用通用、正確的業(yè)務(wù)數(shù)據(jù) (主數(shù)據(jù))。通常,我們會(huì)把主數(shù)據(jù)管理作為應(yīng)用流程的補(bǔ)充,通過(guò)從各個(gè)操作/事務(wù)型應(yīng)用以及分析型應(yīng)用中分離出主要的信息,使其成為一個(gè)集中的、獨(dú)立于企業(yè)中各種其他應(yīng)用核 心資源,從而使得企業(yè)的核心信息得以重用并確保各個(gè)操作/ 事務(wù)型應(yīng)用以及分析型應(yīng)用間的核心數(shù)據(jù)的一致性 。通過(guò)主數(shù)據(jù)管理, 改變企業(yè)數(shù)據(jù)利用的現(xiàn)狀, 從而更好地為企業(yè)信息集成做好鋪墊。主數(shù)據(jù)管理(MDM)可以幫助我們創(chuàng)建并維護(hù)整個(gè)企業(yè)內(nèi)主數(shù)據(jù)的單一視圖(Single Vi

17、ew),保證單一視圖的準(zhǔn)確性、一致性以及完整性,從而提供數(shù)據(jù)質(zhì)量,統(tǒng)一商業(yè)實(shí)體的定義,簡(jiǎn)化改進(jìn)商業(yè)流 程并提供業(yè)務(wù)的響應(yīng)速度。 從變化的頻率來(lái)看,主數(shù)據(jù)和日常交易數(shù)據(jù)不一樣,變化相對(duì)緩慢,另 外,主數(shù)據(jù)由于跨各個(gè)系統(tǒng),所以對(duì)數(shù)據(jù)的一致性、實(shí)時(shí)性以及版本控制要求很高。主數(shù)據(jù)(Master Data)和元數(shù)據(jù)(Meta Data)是兩個(gè)完全不同的概念。元數(shù)據(jù)是指表示數(shù)據(jù)的相關(guān)信息,比如數(shù)據(jù)定義等,而主數(shù)據(jù)是指實(shí)例數(shù)據(jù),比如產(chǎn)品目錄信息等。主數(shù)據(jù)管理和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)解決方案不是一個(gè)概念,數(shù)據(jù)倉(cāng)庫(kù)會(huì)將各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)集中在 一起在進(jìn)行業(yè)務(wù)的分析,而主數(shù)據(jù)管理系統(tǒng)不會(huì)把所有數(shù)據(jù)都管理起來(lái),只是把需要在各

18、個(gè)系統(tǒng)間 共享的主數(shù)據(jù)進(jìn)行采集和發(fā)布。相對(duì)于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)解決方案的單向集成,主數(shù)據(jù)管理正注重將主 數(shù)據(jù)的變化同步發(fā)布到各個(gè)關(guān)聯(lián)的業(yè)務(wù)系統(tǒng)中 (主數(shù)據(jù)管理數(shù)據(jù)是雙向的 )。1.1.11描述一下ETL過(guò)程中需要處理的內(nèi)容三個(gè)簡(jiǎn)單的字母,E-T-L,很容易忽視38個(gè)ETL子系統(tǒng)在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中的重要性。抽取-轉(zhuǎn)換-加載(ETL)系統(tǒng),或者非正式的稱為“后臺(tái)系統(tǒng)”,在建立整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中占據(jù)了 70的工作量和時(shí)間。但是這還不足以說(shuō)明 ETL系統(tǒng)的復(fù)雜性。每個(gè)人都理解這三個(gè)字母的含義, E,從源系統(tǒng)中將數(shù)據(jù)取出來(lái); T,對(duì)這些數(shù)據(jù)做處理;L,加載到最終用戶訪問(wèn)的表中。1. 抽取系統(tǒng)( Extract

19、System)主要功能包括源數(shù)據(jù)的適配器,推 /拖/ 搬運(yùn)數(shù)據(jù)的工作調(diào)度,對(duì)源數(shù)據(jù)的過(guò)濾和排序功能,數(shù) 據(jù)格式的轉(zhuǎn)換,遷移到ETL環(huán)境后的數(shù)據(jù)暫存功能。2. 變化數(shù)據(jù)捕獲系統(tǒng)( Change Data Capture System)主要功能包括對(duì)源數(shù)據(jù)日志文件的閱讀功能,源數(shù)據(jù)日期和序列號(hào)的過(guò)濾功能,基于CRC算法的記錄比較功能。3. 數(shù)據(jù)概況分析系統(tǒng)( Data Profiling System )主要功能包括字段屬性分析, 如參照域的分析; 結(jié)構(gòu)分析, 如主外鍵關(guān)系分析; 數(shù)據(jù)規(guī)則分析; 值規(guī)則分析等。4. 數(shù)據(jù)清洗系統(tǒng)( Data Cleansing System) 主要功能包括一個(gè)典型

20、的數(shù)據(jù)字典驅(qū)動(dòng)的系統(tǒng),用于解析個(gè)體和組織的名稱、地址等信息,也用來(lái)解析產(chǎn)品、場(chǎng)所等內(nèi)容;一個(gè)“ De-duplication ”系統(tǒng),用于鑒別和移除個(gè)體和組織信息,也用 于產(chǎn)品和場(chǎng)所;一個(gè)“ Survivi ng ”系統(tǒng),使用特定的數(shù)據(jù)合并邏輯,用來(lái)保存特定數(shù)據(jù)源的指定字 段,這個(gè)特定數(shù)據(jù)源的數(shù)據(jù)將成為數(shù)據(jù)倉(cāng)庫(kù)的最終版本; 為所有的數(shù)據(jù)源維護(hù)后臺(tái)數(shù)據(jù)的對(duì)應(yīng)關(guān)系, 如自然鍵和代理鍵對(duì)應(yīng)關(guān)系等內(nèi)容。5. 數(shù)據(jù)一致性處理系統(tǒng)( Data Conformer System) 主要功能包括標(biāo)識(shí)和生成專用的一致性維度屬性、一致性事實(shí)的度量屬性,這兩組屬性作為數(shù)據(jù)整合工作的基礎(chǔ),用來(lái)支持跨多個(gè)數(shù)據(jù)源的數(shù)據(jù)集

21、成工作。6. 審計(jì)維度生成系統(tǒng)( Audit Dimension Assembler System ) 主要功能是將與事實(shí)表相關(guān)的元數(shù)據(jù)內(nèi)容加載到一張審計(jì)維度表中,這樣最終用戶可以像查看普通維度一樣查看與事實(shí)表相關(guān)的元數(shù)據(jù)。7. 數(shù)據(jù)質(zhì)量過(guò)濾系統(tǒng)( Quality Screen Handler System)主要功能是在 ETL的處理過(guò)程中自動(dòng)的檢測(cè)所有的數(shù)據(jù)質(zhì)量問(wèn)題。檢測(cè)的結(jié)果將進(jìn)入錯(cuò)誤事件 處理系統(tǒng)(詳見(jiàn)子系統(tǒng)8)。8. 錯(cuò)誤事件處理系統(tǒng)( Error Event Hander System)主要功能是全面的記錄和報(bào)告在ETL處理中的所有的錯(cuò)誤事件。包括各類錯(cuò)誤的分枝處理邏輯,還包括對(duì)ET

22、L處理中數(shù)據(jù)質(zhì)量的實(shí)時(shí)監(jiān)控。9. 代理鍵生成系統(tǒng)( Surrogate Key Create System) 主要功能是以一種魯棒的機(jī)制生成流水的代理鍵,生成規(guī)則不依賴與任何維度,也不依賴與任何數(shù)據(jù)庫(kù)實(shí)例,可以支持分布式系統(tǒng)。10. 緩慢變化維處理系統(tǒng)( Slowly Changing Dimension Processor, SCD) 主要功能是處理維度表的屬性隨時(shí)間變化的情況, 處理方式為: 類型 1 (直接覆蓋),類型 2(生成新行),類型 3(添加新列) 。11遲到維度處理系統(tǒng)( Late Arriving Dimension Handler ) 主要功能是當(dāng)維度數(shù)據(jù)的變化情況到達(dá)數(shù)據(jù)

23、準(zhǔn)備區(qū)的時(shí)間晚于對(duì)應(yīng)的事實(shí)數(shù)據(jù)時(shí),對(duì)維度數(shù)據(jù) 的插入和更新策略。12固定層級(jí)結(jié)構(gòu)生成系統(tǒng)(Fixed Hierarchy Dimension Builder )主要功能是對(duì)維度表中各類多對(duì)一關(guān)系的層級(jí)結(jié)構(gòu)進(jìn)行數(shù)據(jù)有效性檢查和維護(hù)。13 可變層級(jí)結(jié)構(gòu)生成系統(tǒng)( Variable Hierarchy Dimension Builder ) 主要功能是對(duì)維度表中所有的層深可變的層級(jí)結(jié)構(gòu)的的數(shù)據(jù)有效性檢查和維度,例如組織的層 級(jí)結(jié)構(gòu),零件的層級(jí)結(jié)構(gòu)等。14 多值維度橋接表生成系統(tǒng)( Multivalued Dimension Bridge Table Builder ) 主要功能是建立和維護(hù)橋接表,用

24、來(lái)描述維度間的多對(duì)多關(guān)系。15 雜項(xiàng)維度生成系統(tǒng)( Junk Dimension Builder ) 主要功能是將來(lái)自多個(gè)數(shù)據(jù)源的多個(gè)低基數(shù)的標(biāo)志字段、狀態(tài)字段等小型維度建立成一個(gè)雜項(xiàng) 維度,并對(duì)之進(jìn)行維護(hù)。16 交易粒度事實(shí)表加載系統(tǒng)( Transaction grain fact table loader ) 主要功能是更新交易粒度事實(shí)表, 包括對(duì)數(shù)據(jù)、 索引和分區(qū)的處理。 通常是用來(lái)處理增量數(shù)據(jù), 即最新的數(shù)據(jù)。需要使用代理鍵替換管道系統(tǒng)(詳見(jiàn)子系統(tǒng)19)。17 周期快照事實(shí)表加載系統(tǒng)( Periodic snapshot grain fact table loader ) 主要功能是更

25、新周期快照事實(shí)表,包括對(duì)數(shù)據(jù)、索引和分區(qū)的處理。包括對(duì)當(dāng)期數(shù)據(jù)的增量更 新策略。需要使用代理鍵替換管道系統(tǒng)(詳見(jiàn)子系統(tǒng)19)。18 累計(jì)快照事實(shí)表加載系統(tǒng)( Accumulating snapshot grain fact table loader ) 主要功能是更新累積快照事實(shí)表,包括對(duì)數(shù)據(jù)、索引和分區(qū)的處理,同時(shí)更新維度外鍵和累積 事實(shí)。需要使用代理鍵替換管道系統(tǒng)(詳見(jiàn)子系統(tǒng)19)。19 代理鍵替換管道系統(tǒng)( Surrogate key pipeline ) 主要功能是使用多線程技術(shù)將來(lái)到數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的自然鍵替換為代理鍵。20 遲到事實(shí)處理系統(tǒng)( Late arriving fact ha

26、ndler ) 主要功能是處理對(duì)遲到事實(shí)記錄的插入和更新策略。21. 聚合生成系統(tǒng)( Aggregate builder ) 主要功能是創(chuàng)建和維護(hù)數(shù)據(jù)庫(kù)物理結(jié)構(gòu), 比如說(shuō)聚合表, 用于和 query -rewrite 技術(shù)配合使用, 以提高數(shù)據(jù)庫(kù)查詢性能。也包括獨(dú)立的聚合表和物化表。22. 多維 cube 生成系統(tǒng)( Multidimensional cube builder )主要功能是創(chuàng)建和維護(hù)星型架構(gòu)用于裝載多維cube,包括cube技術(shù)的一些專有工作,比如維度層次結(jié)構(gòu)的維護(hù)。23. 實(shí)時(shí)分區(qū)生成系統(tǒng)( Real-time partition builder )三種事實(shí)表類型(參照子系統(tǒng)

27、 16, 17, 18)的特殊邏輯在內(nèi)存中維護(hù)著一個(gè)“熱分區(qū)” ,它只 包含最近一次已經(jīng)統(tǒng)計(jì)到數(shù)據(jù)倉(cāng)庫(kù)表中以后的部分增量數(shù)據(jù)。24. 維度管理子系統(tǒng)( Dimension manager system )顧名思義, 它是一個(gè)管理維度表的系統(tǒng)。 它負(fù)責(zé)從集中存放維度表和事實(shí)表之間的維度一致性, 請(qǐng)參照子系統(tǒng) 25.25. 事實(shí)管理系統(tǒng)( Fact table provider system ) 對(duì)應(yīng)于維度表管理系統(tǒng),它是一個(gè)事實(shí)表的管理系統(tǒng),它接收從維度管理系統(tǒng)發(fā)過(guò)來(lái)的一致性維度。包括本地鍵替換,維度版本檢查,和聚合表等維護(hù)系列工作。26. 任務(wù)調(diào)度系統(tǒng)( Job scheduler)它負(fù)責(zé)ET

28、L任務(wù)的安排和啟動(dòng)。它能夠等待各種系統(tǒng)條件包括對(duì)優(yōu)先級(jí)高的任務(wù)完成的依賴。 能夠針對(duì)異常情況發(fā)送警告。27. 工作流程監(jiān)視系統(tǒng)( Workflow monitor )它的主要功能是有控制臺(tái)和報(bào)表系統(tǒng)用以監(jiān)控ETL任務(wù)被任務(wù)調(diào)度系統(tǒng)啟動(dòng)以后的執(zhí)行狀況。包括處理的記錄條數(shù),錯(cuò)誤摘要,和執(zhí)行的活動(dòng)。28. 恢復(fù)和重做系統(tǒng)( Recovery and restart system )當(dāng)任務(wù)執(zhí)行過(guò)程中任務(wù)暫停后的重新啟動(dòng),或者是恢復(fù)到任務(wù)執(zhí)行前的狀態(tài)重新執(zhí)行。這個(gè)子 系統(tǒng)嚴(yán)重依賴于備份子系統(tǒng)(參考子系統(tǒng)38)29. 并行處理和管道處理系統(tǒng)( Parallelizing/pipelining system

29、 ) 它的主要功能是利用多處理器,網(wǎng)格計(jì)算資源以提高性能,和實(shí)現(xiàn)數(shù)據(jù)流處理。當(dāng)不是寫硬盤 操作或者是執(zhí)行過(guò)程中等待一個(gè)條件的發(fā)生的ETL的情況,是有必要采用并行化和管道化的。30. 異常放大系統(tǒng)( Problem escalation system ) 它的主要功能是負(fù)責(zé)在一定的條件下提高錯(cuò)誤的級(jí)別以跟蹤和解決問(wèn)題。包括簡(jiǎn)單錯(cuò)誤日志記 錄,操作者通知,管理員通知和系統(tǒng)開(kāi)發(fā)人員通知。31. 版本控制系統(tǒng)( Version control system ) 使得元數(shù)據(jù)的歸檔能夠有堅(jiān)固的快照功能,可以查閱某一時(shí)刻改變前后的狀態(tài)。能夠遷入和遷 出所有ETL模塊和任務(wù)。源代碼對(duì)比功能以快速展示改變前后的

30、不同。32. 版本移植系統(tǒng)( Version migration system ) 讓程序可以在開(kāi)發(fā)環(huán)境,測(cè)試環(huán)境,正式環(huán)境快速切換。版本控制系統(tǒng)的用于恢復(fù)移植的一個(gè) 接口,也是配置完整數(shù)據(jù)庫(kù)連接信息的一個(gè)接口。使得代理鍵生成不依賴于數(shù)據(jù)庫(kù)的位置。33. 體系和依賴分析系統(tǒng)( Lineage and dependency analyzer )對(duì)任何選中的數(shù)據(jù)組件,都要展示它的物理數(shù)據(jù)源和所有的后來(lái)的轉(zhuǎn)換,不管是選中ETL管道中間的組件,或者是選中最終的數(shù)據(jù)結(jié)果,都一樣展示。對(duì)任何選中的數(shù)據(jù)組件,都要展示它的下 游的數(shù)據(jù)組件和可能會(huì)造成改變的最終數(shù)據(jù)結(jié)果的字段結(jié)構(gòu),不管是選中ETL管道中間的組件

31、,或者是選中數(shù)據(jù)源,都一樣展示。34. 符合規(guī)定報(bào)告系統(tǒng)( Compliance reporter ) 符合規(guī)定的規(guī)則以證明系統(tǒng)報(bào)告的可信度。證明數(shù)據(jù)和轉(zhuǎn)換沒(méi)有改變。展示誰(shuí)訪問(wèn)過(guò)或者改變過(guò)任何數(shù)據(jù)。35. 安全控制系統(tǒng)( Security system) 在ETL的管道中,實(shí)現(xiàn)對(duì)所有數(shù)據(jù)和元數(shù)據(jù)基于角色的權(quán)限控制。證明模塊的版本沒(méi)有改變。 展示誰(shuí)做過(guò)任何更改。36. 備份系統(tǒng)( Backup system) 對(duì)數(shù)據(jù)和元數(shù)據(jù)的備份,用于以后的數(shù)據(jù)的恢復(fù),重啟,安全,和符合規(guī)定的要求。37. 元數(shù)據(jù)管理系統(tǒng)( Metadata repository manager )用于捕獲和維護(hù)所有 ETL的元

32、數(shù)據(jù)的系統(tǒng),包括所有轉(zhuǎn)換邏輯。包括處理元數(shù)據(jù),技術(shù)元數(shù)據(jù) 和業(yè)務(wù)邏輯元數(shù)據(jù)。38. 項(xiàng)目管理系統(tǒng)( Project management system )對(duì)所有ETL任務(wù)進(jìn)行開(kāi)發(fā)的跟蹤系統(tǒng)。1.1.12數(shù)據(jù)庫(kù)及數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)的三個(gè)主要步驟?1. 概念數(shù)據(jù)模型( conceptual data model ) 概念數(shù)據(jù)模型設(shè)計(jì)與邏輯數(shù)據(jù)模型設(shè)計(jì)、物理數(shù)據(jù)模型設(shè)計(jì)是數(shù)據(jù)庫(kù)及數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)的三 個(gè)主要步驟。概念數(shù)據(jù)模型是最終用戶對(duì)數(shù)據(jù)存儲(chǔ)的看法,反映了最終用戶綜合性的信息需求,它以數(shù)據(jù)類 的方式描述企業(yè)級(jí)的數(shù)據(jù)需求,數(shù)據(jù)類代表了在業(yè)務(wù)環(huán)境中自然聚集成的幾個(gè)主要類別數(shù)據(jù)。概念數(shù)據(jù)模型的內(nèi)容包括重要

33、的實(shí)體及實(shí)體之間的關(guān)系。在概念數(shù)據(jù)模型中不包括實(shí)體的屬性, 也不用定義實(shí)體的主鍵。這是概念數(shù)據(jù)模型和邏輯數(shù)據(jù)模型的主要區(qū)別。概念數(shù)據(jù)模型的目標(biāo)是統(tǒng)一業(yè)務(wù)概念,作為業(yè)務(wù)人員和技術(shù)人員之間溝通的橋梁,確定不同實(shí)體之間的最高層次的關(guān)系。在有些數(shù)據(jù)模型的設(shè)計(jì)過(guò)程中,概念數(shù)據(jù)模型是和邏輯數(shù)據(jù)模型合在一起進(jìn)行設(shè)計(jì)的。2. 邏輯數(shù)據(jù)模型( logical data model ) 邏輯數(shù)據(jù)模型反映的是系統(tǒng)分析設(shè)計(jì)人員對(duì)數(shù)據(jù)存儲(chǔ)的觀點(diǎn),是對(duì)概念數(shù)據(jù)模型進(jìn)一步的分解 和細(xì)化。邏輯數(shù)據(jù)模型是根據(jù)業(yè)務(wù)規(guī)則確定的,關(guān)于業(yè)務(wù)對(duì)象、業(yè)務(wù)對(duì)象的數(shù)據(jù)項(xiàng)及業(yè)務(wù)對(duì)象之間 關(guān)系的基本藍(lán)圖。邏輯數(shù)據(jù)模型的內(nèi)容包括所有的實(shí)體和關(guān)系,確

34、定每個(gè)實(shí)體的屬性,定義每個(gè)實(shí)體的主鍵,指 定實(shí)體的外鍵,需要進(jìn)行范式化處理。邏輯數(shù)據(jù)模型的目標(biāo)是盡可能詳細(xì)的描述數(shù)據(jù),但并不考慮數(shù)據(jù)在物理上如何來(lái)實(shí)現(xiàn)。 邏輯數(shù)據(jù)建模不僅會(huì)影響數(shù)據(jù)庫(kù)設(shè)計(jì)的方向,還間接影響最終數(shù)據(jù)庫(kù)的性能和管理。如果在實(shí) 現(xiàn)邏輯數(shù)據(jù)模型時(shí)投入得足夠多,那么在物理數(shù)據(jù)模型設(shè)計(jì)時(shí)就可以有許多可供選擇的方法。3. 物理數(shù)據(jù)模型 (physical data model) 物理數(shù)據(jù)模型設(shè)計(jì)與概念數(shù)據(jù)模型設(shè)計(jì)、邏輯數(shù)據(jù)模型設(shè)計(jì)是數(shù)據(jù)庫(kù)及數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)的三 個(gè)主要步驟。物理數(shù)據(jù)模型是在邏輯數(shù)據(jù)模型的基礎(chǔ)上,考慮各種具體的技術(shù)實(shí)現(xiàn)因素,進(jìn)行數(shù)據(jù)庫(kù)體系結(jié) 構(gòu)設(shè)計(jì),真正實(shí)現(xiàn)數(shù)據(jù)在數(shù)據(jù)庫(kù)中的存放。物理數(shù)據(jù)模型的內(nèi)容包括確定所有的表和列,定義外鍵用于確定表之間的關(guān)系,基于用戶的需 求可能進(jìn)行發(fā)范式化等內(nèi)容。在物理實(shí)現(xiàn)上的考慮,可能會(huì)導(dǎo)致物理數(shù)據(jù)模型和邏輯數(shù)據(jù)模型有較 大的不同。物理數(shù)據(jù)模型的目標(biāo)是指定如何用數(shù)據(jù)庫(kù)模式來(lái)實(shí)現(xiàn)邏輯數(shù)據(jù)模型,以及真正的保存數(shù)據(jù)。1.1.13什么是多值維度,怎么處理多值維度?在維度建模的數(shù)據(jù)倉(cāng)庫(kù)中,有一種維度表叫多值維度 (multivalue dimension) 。 多值維度有兩種情況, 第一種情況是指維度表中的某個(gè)屬性字段同時(shí)有多個(gè)值,第二種情況是事實(shí)表在某個(gè)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論