數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘培訓(xùn)(共69頁(yè)).ppt_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘培訓(xùn)(共69頁(yè)).ppt_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘培訓(xùn)(共69頁(yè)).ppt_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘培訓(xùn)(共69頁(yè)).ppt_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘培訓(xùn)(共69頁(yè)).ppt_第5頁(yè)
已閱讀5頁(yè),還剩63頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程簡(jiǎn)介:1. 為什么出現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?為什么出現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘? 啤酒與尿布啤酒與尿布 7-112. 研究?jī)?nèi)容研究?jī)?nèi)容 從海量數(shù)據(jù)中找到規(guī)律與聯(lián)系,為決策提從海量數(shù)據(jù)中找到規(guī)律與聯(lián)系,為決策提供支持供支持3. 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的不同數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的不同數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)主要學(xué)習(xí)內(nèi)容:第一篇第一篇 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)與OLAP數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)聯(lián)機(jī)分析處理技術(shù)聯(lián)機(jī)分析處理技術(shù)OLAP數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)預(yù)處理技術(shù)數(shù)據(jù)清洗數(shù)據(jù)清洗數(shù)據(jù)集成和變換數(shù)據(jù)集成和變換數(shù)據(jù)約簡(jiǎn)數(shù)據(jù)約簡(jiǎn)第二篇第二篇 數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)規(guī)那么挖掘、分類、聚類

2、分析關(guān)聯(lián)規(guī)那么挖掘、分類、聚類分析數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用等。數(shù)據(jù)挖掘在各領(lǐng)域的應(yīng)用等。主要參考書(shū)主要參考書(shū): 1 1? ?數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)? Inmon W.H ? Inmon W.H 著著 機(jī)械工業(yè)出版社機(jī)械工業(yè)出版社 2 2? ?數(shù)據(jù)挖掘數(shù)據(jù)挖掘 概念與技術(shù)概念與技術(shù)? Jiawei Han & Micheline Kamber ? Jiawei Han & Micheline Kamber 著著 機(jī)械工業(yè)出版社機(jī)械工業(yè)出版社 3 3? ?數(shù)據(jù)挖掘數(shù)據(jù)挖掘 ? ? 朱明朱明 著著 中國(guó)科學(xué)技術(shù)大學(xué)出版社中國(guó)科學(xué)技術(shù)大學(xué)出版社 4 4? ?數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)

3、分析處理? ? 王珊等王珊等 著著 科學(xué)出版社科學(xué)出版社考核方法考核方法:考核采取筆試結(jié)合實(shí)驗(yàn)的方法:考核采取筆試結(jié)合實(shí)驗(yàn)的方法:實(shí)驗(yàn)成績(jī)實(shí)驗(yàn)成績(jī) 30%筆試成績(jī)筆試成績(jī) 70%第一章第一章 數(shù)據(jù)倉(cāng)庫(kù)概述數(shù)據(jù)倉(cāng)庫(kù)概述 本章介紹了數(shù)據(jù)倉(cāng)庫(kù)技術(shù)產(chǎn)生的背景、數(shù)據(jù)倉(cāng)庫(kù)的含義與特征、數(shù)據(jù)倉(cāng)庫(kù)與操作型數(shù)據(jù)庫(kù)系統(tǒng)的區(qū)別和數(shù)據(jù)倉(cāng)庫(kù)的根本體系結(jié)構(gòu)。 1.1 數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生 1.2 數(shù)據(jù)倉(cāng)庫(kù)的含義 1.3 數(shù)據(jù)倉(cāng)庫(kù)的特征 1.4 數(shù)據(jù)庫(kù)系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù) 1.5 數(shù)據(jù)倉(cāng)庫(kù)的根本結(jié)構(gòu) 1.6 數(shù)據(jù)倉(cāng)庫(kù)的根本概念 1.7 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織11 數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生 1. 數(shù)據(jù)處理分為兩類:事物處理分析處理 2. 傳統(tǒng)數(shù)據(jù)庫(kù)較

4、難滿足分析處理的要求:歷史數(shù)據(jù)需求量大不同系統(tǒng)的數(shù)據(jù)難以集成蜘蛛網(wǎng)問(wèn)題對(duì)大量數(shù)據(jù)的訪問(wèn)性能缺乏事務(wù)處理和分析處理數(shù)據(jù)環(huán)境的別離 1.2 1.2 數(shù)據(jù)倉(cāng)庫(kù)的含義數(shù)據(jù)倉(cāng)庫(kù)的含義對(duì)于什么是數(shù)據(jù)倉(cāng)庫(kù),還有許多不同的定義,如: “數(shù)據(jù)倉(cāng)庫(kù)是融合方法、技術(shù)和工具以在完整的平臺(tái)上將數(shù)據(jù)提交給終端用戶的一種手段。 “數(shù)據(jù)倉(cāng)庫(kù)是對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過(guò)程。 “數(shù)據(jù)倉(cāng)庫(kù)是一種具有集成性、穩(wěn)定性和提供決策支持的處理。 “為查詢和分析不是事務(wù)處理而設(shè)計(jì)的關(guān)系數(shù)據(jù)庫(kù) 20世紀(jì)80年代中期,“數(shù)據(jù)倉(cāng)庫(kù)這個(gè)名詞首次出現(xiàn)在號(hào)稱“數(shù)據(jù)倉(cāng)庫(kù)之父W.H.Inmon的?Building Data Ware

5、house?一書(shū)中,在該書(shū)中,W.H.Inmon把數(shù)據(jù)倉(cāng)庫(kù)定義為“一個(gè)面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)的集合,以用于支持管理決策過(guò)程?!癆 data warehouse is a subject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions.William H.Inmon:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題面向主題的的、集成的集成的、非易失的非易失的且隨時(shí)間變化的隨時(shí)間變化的數(shù)據(jù)集合,用于支持管理人員的決策。數(shù)據(jù)倉(cāng)庫(kù)之父數(shù)據(jù)倉(cāng)庫(kù)之父-B

6、ill Inmon William H. Inmon: William H. Inmon是世界公認(rèn)的是世界公認(rèn)的“數(shù)據(jù)倉(cāng)庫(kù)之父,數(shù)據(jù)倉(cāng)庫(kù)之父,是 數(shù) 據(jù) 倉(cāng) 庫(kù) 及 其 相 關(guān) 技 術(shù) 網(wǎng) 站是 數(shù) 據(jù) 倉(cāng) 庫(kù) 及 其 相 關(guān) 技 術(shù) 網(wǎng) 站 billinmon 的合作伙伴,是的合作伙伴,是“企業(yè)信息企業(yè)信息工廠的創(chuàng)造者之一。他一直致力于數(shù)據(jù)庫(kù)工廠的創(chuàng)造者之一。他一直致力于數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)方面的研究,在數(shù)據(jù)管理和和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)方面的研究,在數(shù)據(jù)管理和數(shù)據(jù)倉(cāng)庫(kù)技術(shù)方面以及數(shù)據(jù)處理的管理方面數(shù)據(jù)倉(cāng)庫(kù)技術(shù)方面以及數(shù)據(jù)處理的管理方面撰寫(xiě)了撰寫(xiě)了40多本著作,發(fā)表過(guò)多本著作,發(fā)表過(guò)600多篇學(xué)術(shù)多篇

7、學(xué)術(shù)論文,并且經(jīng)常應(yīng)邀在技術(shù)和學(xué)術(shù)會(huì)議上演論文,并且經(jīng)常應(yīng)邀在技術(shù)和學(xué)術(shù)會(huì)議上演講。講。1.3 數(shù)據(jù)倉(cāng)庫(kù)的特征 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是面向主題的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是面向主題的 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是集成的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是集成的 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是非易失的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是非易失的 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是隨時(shí)間不斷變化的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是隨時(shí)間不斷變化的面向主題面向主題主題主題Subject:特定的數(shù)據(jù)分析領(lǐng)域與目標(biāo)。:特定的數(shù)據(jù)分析領(lǐng)域與目標(biāo)。面向主題:為特定的數(shù)據(jù)分析領(lǐng)域提供數(shù)據(jù)支持。面向主題:為特定的數(shù)據(jù)分析領(lǐng)域提供數(shù)據(jù)支持。數(shù)據(jù)倉(cāng)庫(kù)是面向分析、決策人員的主觀要求的,不數(shù)據(jù)倉(cāng)庫(kù)是面向分析、決策人員的主觀要求的,不同的

8、用戶有不同的要求,同一個(gè)用戶的要求也會(huì)隨同的用戶有不同的要求,同一個(gè)用戶的要求也會(huì)隨時(shí)間而經(jīng)常變化,因此,數(shù)據(jù)倉(cāng)庫(kù)中的主題有時(shí)會(huì)時(shí)間而經(jīng)常變化,因此,數(shù)據(jù)倉(cāng)庫(kù)中的主題有時(shí)會(huì)因用戶主觀要求的變化而變化的。因用戶主觀要求的變化而變化的。面向主題面向主題為特定數(shù)據(jù)分析領(lǐng)域提供的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)中的為特定數(shù)據(jù)分析領(lǐng)域提供的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)是有不同的。傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)是原始的、數(shù)據(jù)是有不同的。傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)是原始的、根底的數(shù)據(jù),而特定分析領(lǐng)域數(shù)據(jù)那么是需要對(duì)它根底的數(shù)據(jù),而特定分析領(lǐng)域數(shù)據(jù)那么是需要對(duì)它們作必要的抽取、加工與總結(jié)而形成。們作必要的抽取、加工與總結(jié)而形成。面向主題例如面向主題

9、例如例:一個(gè)面向事務(wù)處理的例:一個(gè)面向事務(wù)處理的“商場(chǎng)數(shù)據(jù)庫(kù)系統(tǒng),其數(shù)據(jù)商場(chǎng)數(shù)據(jù)庫(kù)系統(tǒng),其數(shù)據(jù)模式如下模式如下采購(gòu)子系統(tǒng):采購(gòu)子系統(tǒng):訂單訂單號(hào),供給商號(hào),總金額,日期訂單訂單號(hào),供給商號(hào),總金額,日期訂單細(xì)那么訂單號(hào),商品號(hào),類別,單價(jià),數(shù)量訂單細(xì)那么訂單號(hào),商品號(hào),類別,單價(jià),數(shù)量供給商供給商號(hào),供給商名,地址,供給商供給商號(hào),供給商名,地址, 銷售子系統(tǒng):銷售子系統(tǒng):顧客顧客號(hào),姓名,性別,年齡,文化程度,地址,顧客顧客號(hào),姓名,性別,年齡,文化程度,地址, 銷售員工號(hào),顧客號(hào),商品號(hào),數(shù)量,單價(jià),日期銷售員工號(hào),顧客號(hào),商品號(hào),數(shù)量,單價(jià),日期面向主題例如庫(kù)存管理子系統(tǒng):庫(kù)存管理子系統(tǒng)

10、:領(lǐng)料單領(lǐng)料單號(hào),領(lǐng)料人,商品號(hào),數(shù)量,日期領(lǐng)料單領(lǐng)料單號(hào),領(lǐng)料人,商品號(hào),數(shù)量,日期進(jìn)料單進(jìn)料單號(hào),訂單號(hào),進(jìn)料人,收料人,日期進(jìn)料單進(jìn)料單號(hào),訂單號(hào),進(jìn)料人,收料人,日期庫(kù)存商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期庫(kù)存商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期庫(kù)房庫(kù)房號(hào),倉(cāng)庫(kù)管理員,地點(diǎn),庫(kù)存商品描述庫(kù)房庫(kù)房號(hào),倉(cāng)庫(kù)管理員,地點(diǎn),庫(kù)存商品描述人事管理子系統(tǒng):人事管理子系統(tǒng):?jiǎn)T工員工號(hào),姓名,性別,年齡,文化程度,部門號(hào)員工員工號(hào),姓名,性別,年齡,文化程度,部門號(hào)部門部門號(hào),部門名稱,部門主管,部門部門號(hào),部門名稱,部門主管, 面向主題例如面向主題例如如果按照面向主題的方式進(jìn)行數(shù)據(jù)組織,首先應(yīng)該如果按照面向主題的方

11、式進(jìn)行數(shù)據(jù)組織,首先應(yīng)該抽取主題,即按照管理人員的分析要求來(lái)確定主題,抽取主題,即按照管理人員的分析要求來(lái)確定主題,而與每個(gè)主題相關(guān)的數(shù)據(jù)又與有關(guān)的事務(wù)處理所需而與每個(gè)主題相關(guān)的數(shù)據(jù)又與有關(guān)的事務(wù)處理所需的數(shù)據(jù)不盡相同。的數(shù)據(jù)不盡相同。在每個(gè)主題中,都包含了有關(guān)該主題的所有信息,在每個(gè)主題中,都包含了有關(guān)該主題的所有信息,同時(shí)又拋棄了與分析處理無(wú)關(guān)或不需要的數(shù)據(jù),從同時(shí)又拋棄了與分析處理無(wú)關(guān)或不需要的數(shù)據(jù),從而將原本分散在各個(gè)子系統(tǒng)中的有關(guān)信息集中在一而將原本分散在各個(gè)子系統(tǒng)中的有關(guān)信息集中在一個(gè)主題中,形成有關(guān)該主題的一個(gè)完整一致的描述。個(gè)主題中,形成有關(guān)該主題的一個(gè)完整一致的描述。面向主題

12、的數(shù)據(jù)組織方式所強(qiáng)調(diào)的就是要形成一個(gè)面向主題的數(shù)據(jù)組織方式所強(qiáng)調(diào)的就是要形成一個(gè)這樣一致的信息集合這樣一致的信息集合主題一:主題一:商品商品p商品固有信息:商品號(hào),商品名,類別,顏色等商品固有信息:商品號(hào),商品名,類別,顏色等p商品采購(gòu)信息:商品號(hào),供給商號(hào),供給價(jià),供給日期,商品采購(gòu)信息:商品號(hào),供給商號(hào),供給價(jià),供給日期,供給量等供給量等p商品銷售信息:商品號(hào),顧客號(hào),售價(jià),銷售日期,銷商品銷售信息:商品號(hào),顧客號(hào),售價(jià),銷售日期,銷售量等售量等p商品庫(kù)存信息:商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期等商品庫(kù)存信息:商品號(hào),庫(kù)房號(hào),庫(kù)存量,日期等主題二:供給商主題二:供給商p供給商固有信息:供給商號(hào),

13、供給商名,地址,供給商固有信息:供給商號(hào),供給商名,地址, 等等p供給商品信息:供給商號(hào),商品號(hào),供給價(jià),供給日期,供給商品信息:供給商號(hào),商品號(hào),供給價(jià),供給日期,供給量等供給量等主題三:主題三:顧客顧客p顧客固有信息:顧客號(hào),顧客名,性別,年齡,文化程顧客固有信息:顧客號(hào),顧客名,性別,年齡,文化程度,住址,度,住址, 等等p顧客購(gòu)物信息:顧客號(hào),商品號(hào),售價(jià),購(gòu)置日期,購(gòu)顧客購(gòu)物信息:顧客號(hào),商品號(hào),售價(jià),購(gòu)置日期,購(gòu)置量等置量等 例如了一個(gè)電信企業(yè)的情況。 計(jì)費(fèi)數(shù)據(jù)庫(kù):計(jì)費(fèi)數(shù)據(jù)庫(kù)記錄了客戶的消費(fèi)情況 財(cái)務(wù)數(shù)據(jù)庫(kù):財(cái)務(wù)數(shù)據(jù)庫(kù)記錄了客戶的繳費(fèi)情況 客戶效勞數(shù)據(jù)庫(kù):客戶的咨詢和投訴情況如果直

14、接基于傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行“客戶和“收益信息的分析,那么需要訪問(wèn)多個(gè)數(shù)據(jù)庫(kù)才能獲得客戶或收益各個(gè)側(cè)面的信息收益主題需從計(jì)費(fèi)數(shù)據(jù)庫(kù)和財(cái)務(wù)數(shù)據(jù)庫(kù)中了解公司各項(xiàng)業(yè)務(wù)的收入情況;客戶主題那么要從計(jì)費(fèi)數(shù)據(jù)庫(kù)、財(cái)務(wù)數(shù)據(jù)庫(kù)、客戶效勞數(shù)據(jù)庫(kù)中獲得客戶消費(fèi)、交費(fèi)、咨詢等全方位的信息。,這樣將極大的影響系統(tǒng)處理的時(shí)間和效率,并且數(shù)據(jù)之間的不一致性和不同步等問(wèn)題將影響決策的可靠性。而以“客戶和“收益主題組織的數(shù)據(jù)倉(cāng)庫(kù),將某個(gè)主題的全部相關(guān)數(shù)據(jù)集中于一個(gè)地方,這樣決策者可以非常方便地在數(shù)據(jù)倉(cāng)庫(kù)中的一個(gè)位置檢索包含某個(gè)主題的所有數(shù)據(jù)。 面向主題每個(gè)主題所需數(shù)據(jù)的物理存儲(chǔ):每個(gè)主題所需數(shù)據(jù)的物理存儲(chǔ):多維數(shù)據(jù)庫(kù)多維數(shù)據(jù)庫(kù)M

15、DDBMulti-Dimensional DataBase用多維數(shù)組形式存儲(chǔ)數(shù)據(jù)。用多維數(shù)組形式存儲(chǔ)數(shù)據(jù)。關(guān)系數(shù)據(jù)庫(kù)。用一組關(guān)系來(lái)組織數(shù)據(jù)的存儲(chǔ),同一關(guān)系數(shù)據(jù)庫(kù)。用一組關(guān)系來(lái)組織數(shù)據(jù)的存儲(chǔ),同一主題的一組關(guān)系都有一個(gè)公共的關(guān)鍵字,存放的也主題的一組關(guān)系都有一個(gè)公共的關(guān)鍵字,存放的也不是細(xì)節(jié)性的業(yè)務(wù)數(shù)據(jù),而是經(jīng)過(guò)一定程度的綜合不是細(xì)節(jié)性的業(yè)務(wù)數(shù)據(jù),而是經(jīng)過(guò)一定程度的綜合形成的綜合性數(shù)據(jù)。形成的綜合性數(shù)據(jù)。集成的集成的數(shù)據(jù)是分散的;由于事務(wù)處理應(yīng)用分散、蜘蛛數(shù)據(jù)是分散的;由于事務(wù)處理應(yīng)用分散、蜘蛛網(wǎng)問(wèn)題、數(shù)據(jù)不一致問(wèn)題、外部數(shù)據(jù)和非結(jié)構(gòu)網(wǎng)問(wèn)題、數(shù)據(jù)不一致問(wèn)題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)?;瘮?shù)據(jù)。數(shù)據(jù)倉(cāng)

16、庫(kù)中的數(shù)據(jù)是為分析效勞的,而分析需數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是為分析效勞的,而分析需要多種廣泛的不同數(shù)據(jù)源以便進(jìn)行比較、鑒別,要多種廣泛的不同數(shù)據(jù)源以便進(jìn)行比較、鑒別,因此數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)必須從多個(gè)數(shù)據(jù)源中獲因此數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)必須從多個(gè)數(shù)據(jù)源中獲取,這些數(shù)據(jù)源包括多種類型數(shù)據(jù)庫(kù)、文件系取,這些數(shù)據(jù)源包括多種類型數(shù)據(jù)庫(kù)、文件系統(tǒng)以及統(tǒng)以及Internet網(wǎng)上數(shù)據(jù)等,它們通過(guò)數(shù)據(jù)集成網(wǎng)上數(shù)據(jù)等,它們通過(guò)數(shù)據(jù)集成而形成數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。而形成數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。 數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)一般從企業(yè)原來(lái)已建立的數(shù)據(jù)庫(kù)系統(tǒng)中提取出來(lái),但并不是原有數(shù)據(jù)的簡(jiǎn)單拷貝,而是經(jīng)過(guò)了抽取、篩選、清理、綜合等工作。這是因?yàn)椋?1

17、原有數(shù)據(jù)庫(kù)系統(tǒng)記錄的是每一項(xiàng)業(yè)務(wù)處理的流水帳,這些數(shù)據(jù)不適合于分析處理。在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前必須經(jīng)過(guò)綜合、計(jì)算,同時(shí)拋棄一些分析處理不需要的數(shù)據(jù)項(xiàng),必要時(shí)還要增加一些可能涉及的外部數(shù)據(jù)。 2 數(shù)據(jù)倉(cāng)庫(kù)每一個(gè)主題所對(duì)應(yīng)的源數(shù)據(jù)在源分散數(shù)據(jù)庫(kù)中有許多重復(fù)或不一致之處,必須將這些數(shù)據(jù)轉(zhuǎn)換成全局統(tǒng)一的定義,消除不一致和錯(cuò)誤之處,以保證數(shù)據(jù)的質(zhì)量;顯然,對(duì)不準(zhǔn)確,甚至不正確的數(shù)據(jù)分析得出的結(jié)果將不能用于指導(dǎo)企業(yè)做出科學(xué)的決策。 3 源數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)后,還要根據(jù)決策分析的需要對(duì)這些數(shù)據(jù)進(jìn)行概括、聚集處理。 事實(shí)上,決策支持系統(tǒng)需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效地分析和決策的首要前提,相關(guān)數(shù)據(jù)收集得越

18、完整,得到的結(jié)果就越可靠。因此,對(duì)源數(shù)據(jù)的集成是數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中最關(guān)鍵,也是最復(fù)雜的一步。集成的集成的集成的集成的方法:集成的方法: 統(tǒng)一:消除不一致的現(xiàn)象統(tǒng)一:消除不一致的現(xiàn)象 綜合:對(duì)原有數(shù)據(jù)進(jìn)行綜合和計(jì)算綜合:對(duì)原有數(shù)據(jù)進(jìn)行綜合和計(jì)算需要考慮的問(wèn)題:數(shù)據(jù)格式計(jì)量單位數(shù)據(jù)代碼含義混亂數(shù)據(jù)名稱混亂非易失的非易失的數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是經(jīng)過(guò)抽取而形成的分析型數(shù)據(jù),不具有數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是經(jīng)過(guò)抽取而形成的分析型數(shù)據(jù),不具有原始性,主要供企業(yè)決策分析之用,執(zhí)行的主要是原始性,主要供企業(yè)決策分析之用,執(zhí)行的主要是查詢查詢操作,一般情況下不執(zhí)行操作,一般情況下不執(zhí)行更新更新操作。同時(shí),一個(gè)穩(wěn)定的操作。同時(shí),

19、一個(gè)穩(wěn)定的數(shù)據(jù)環(huán)境也有利于數(shù)據(jù)分析操作和決策的制訂。數(shù)據(jù)環(huán)境也有利于數(shù)據(jù)分析操作和決策的制訂。但這也不等于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不需要但這也不等于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不需要更新更新操作。操作。在需要進(jìn)行新的分析決策時(shí),可能需要進(jìn)行新的數(shù)據(jù)抽在需要進(jìn)行新的分析決策時(shí),可能需要進(jìn)行新的數(shù)據(jù)抽取和取和更新更新操作操作數(shù)據(jù)倉(cāng)庫(kù)中的一些過(guò)時(shí)的數(shù)據(jù),也可以通過(guò)數(shù)據(jù)倉(cāng)庫(kù)中的一些過(guò)時(shí)的數(shù)據(jù),也可以通過(guò)刪除刪除操操作丟棄掉。作丟棄掉。因此數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)管理相對(duì)于因此數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)管理相對(duì)于DBMSDBMS來(lái)說(shuō)要簡(jiǎn)單得多。來(lái)說(shuō)要簡(jiǎn)單得多。隨時(shí)間不斷變化隨時(shí)間不斷變化數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)必須以一定時(shí)間段為單位進(jìn)行統(tǒng)一更數(shù)據(jù)倉(cāng)庫(kù)中

20、的數(shù)據(jù)必須以一定時(shí)間段為單位進(jìn)行統(tǒng)一更新。新。不斷增加新的數(shù)據(jù)內(nèi)容不斷增加新的數(shù)據(jù)內(nèi)容不斷刪去舊的數(shù)據(jù)內(nèi)容不斷刪去舊的數(shù)據(jù)內(nèi)容更新與時(shí)間有關(guān)的綜合數(shù)據(jù)更新與時(shí)間有關(guān)的綜合數(shù)據(jù) 1.4 數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)的比較1. 兩個(gè)系統(tǒng)的主要區(qū)別兩個(gè)系統(tǒng)的主要區(qū)別 2. 兩個(gè)系統(tǒng)的查詢支持不同兩個(gè)系統(tǒng)的查詢支持不同3. 兩個(gè)系統(tǒng)數(shù)據(jù)組織模式不同兩個(gè)系統(tǒng)數(shù)據(jù)組織模式不同1 兩個(gè)系統(tǒng)的主要區(qū)別 傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)和查詢處理。這種系統(tǒng)稱為聯(lián)機(jī)事務(wù)處理OLTP系統(tǒng)。它們涵蓋了一個(gè)組織的大局部日常操作,如購(gòu)置、庫(kù)存、制造、銀行、工資、注冊(cè)、記帳等。另一方面,數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)在數(shù)據(jù)分析和決策支持方面提

21、供效勞。這種系統(tǒng)稱為聯(lián)機(jī)分析處理OLAP系統(tǒng)。 兩個(gè)系統(tǒng)的主要區(qū)別概括如下: 數(shù)據(jù)內(nèi)容:數(shù)據(jù)庫(kù)系統(tǒng)管理當(dāng)前數(shù)據(jù)。通常,這種數(shù)據(jù)太瑣碎,難以用于決策。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)管理大量歷史的、存檔的、歸納的、計(jì)算的數(shù)據(jù),提供匯總和聚集機(jī)制,并在不同的粒度級(jí)別上存儲(chǔ)和管理信息。這種特點(diǎn)使得系統(tǒng)容易用于“見(jiàn)多識(shí)廣的決策。 數(shù)據(jù)目標(biāo):數(shù)據(jù)庫(kù)系統(tǒng)是面向業(yè)務(wù)操作,數(shù)據(jù)目標(biāo):數(shù)據(jù)庫(kù)系統(tǒng)是面向業(yè)務(wù)操作,用于辦事員、客戶和信息技術(shù)專業(yè)人員的事用于辦事員、客戶和信息技術(shù)專業(yè)人員的事務(wù)和查詢處理。數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,用務(wù)和查詢處理。數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,用于知識(shí)工人包括經(jīng)理、主管和分析人員于知識(shí)工人包括經(jīng)理、主管和分析人員的決

22、策分析。的決策分析。 數(shù)據(jù)特性:數(shù)據(jù)庫(kù)系統(tǒng)存儲(chǔ)的是當(dāng)前數(shù)數(shù)據(jù)特性:數(shù)據(jù)庫(kù)系統(tǒng)存儲(chǔ)的是當(dāng)前數(shù)據(jù),數(shù)據(jù)是動(dòng)態(tài)變化的,按字段進(jìn)行更新操據(jù),數(shù)據(jù)是動(dòng)態(tài)變化的,按字段進(jìn)行更新操作。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)是批量載入的、靜態(tài)的,作。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)是批量載入的、靜態(tài)的,系統(tǒng)定期執(zhí)行提取過(guò)程為數(shù)據(jù)倉(cāng)庫(kù)增加數(shù)據(jù),系統(tǒng)定期執(zhí)行提取過(guò)程為數(shù)據(jù)倉(cāng)庫(kù)增加數(shù)據(jù),這些數(shù)據(jù)一旦參加,一般不再?gòu)南到y(tǒng)中刪除。這些數(shù)據(jù)一旦參加,一般不再?gòu)南到y(tǒng)中刪除。 數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)庫(kù)系統(tǒng)采用面向應(yīng)用的數(shù)據(jù)結(jié)構(gòu):數(shù)據(jù)庫(kù)系統(tǒng)采用面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì),以高度結(jié)構(gòu)化和復(fù)雜的形式組數(shù)據(jù)庫(kù)設(shè)計(jì),以高度結(jié)構(gòu)化和復(fù)雜的形式組織數(shù)據(jù),以適應(yīng)復(fù)雜的事務(wù)操作計(jì)算的需求。織數(shù)據(jù),

23、以適應(yīng)復(fù)雜的事務(wù)操作計(jì)算的需求。數(shù)據(jù)倉(cāng)庫(kù)通常采用面向主題的星型或雪花數(shù)數(shù)據(jù)倉(cāng)庫(kù)通常采用面向主題的星型或雪花數(shù)據(jù)組織模式,以適應(yīng)分析決策,數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)據(jù)組織模式,以適應(yīng)分析決策,數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單。單。 。 2 兩個(gè)系統(tǒng)的查詢支持不同兩個(gè)系統(tǒng)的查詢支持不同 OLTP系統(tǒng)是為了快速答復(fù)簡(jiǎn)單查詢,而系統(tǒng)是為了快速答復(fù)簡(jiǎn)單查詢,而不是為了存儲(chǔ)分析趨勢(shì)的歷史數(shù)據(jù)而創(chuàng)立的。不是為了存儲(chǔ)分析趨勢(shì)的歷史數(shù)據(jù)而創(chuàng)立的。一般的,一般的,OLTP提供了大量的原始數(shù)據(jù),這些提供了大量的原始數(shù)據(jù),這些數(shù)據(jù)不易被分析。數(shù)據(jù)不易被分析。 數(shù)據(jù)倉(cāng)庫(kù)需要答復(fù)更復(fù)雜的查詢,而不數(shù)據(jù)倉(cāng)庫(kù)需要答復(fù)更復(fù)雜的查詢,而不僅僅是一些像僅僅是一些像“

24、英國(guó)主要城市的商品平均銷英國(guó)主要城市的商品平均銷售價(jià)格是多少之類的簡(jiǎn)單聚集數(shù)據(jù)查詢。售價(jià)格是多少之類的簡(jiǎn)單聚集數(shù)據(jù)查詢。數(shù)據(jù)倉(cāng)庫(kù)需要答復(fù)的查詢類型可以是簡(jiǎn)單的數(shù)據(jù)倉(cāng)庫(kù)需要答復(fù)的查詢類型可以是簡(jiǎn)單的查詢,也可以是高度復(fù)雜的,且還與終端用查詢,也可以是高度復(fù)雜的,且還與終端用戶使用的查詢工具相關(guān)。戶使用的查詢工具相關(guān)。 以下是某數(shù)據(jù)倉(cāng)庫(kù)支持的一些查詢例如以下是某數(shù)據(jù)倉(cāng)庫(kù)支持的一些查詢例如: 2021年第三季度,整個(gè)英格蘭的總收入年第三季度,整個(gè)英格蘭的總收入是多少?是多少? 2007年英國(guó)每一類房產(chǎn)銷售的總收入是年英國(guó)每一類房產(chǎn)銷售的總收入是多少?多少? 2021年租借房產(chǎn)業(yè)務(wù)中每個(gè)城市哪個(gè)地年租

25、借房產(chǎn)業(yè)務(wù)中每個(gè)城市哪個(gè)地域最受歡送?與過(guò)去的兩年相比有何不同?域最受歡送?與過(guò)去的兩年相比有何不同? 每個(gè)分支機(jī)構(gòu)本月的房產(chǎn)銷售月收入是多每個(gè)分支機(jī)構(gòu)本月的房產(chǎn)銷售月收入是多少,并與剛過(guò)去的少,并與剛過(guò)去的12個(gè)月相比較。個(gè)月相比較。 如果對(duì)于如果對(duì)于10萬(wàn)英鎊以上的房產(chǎn),法定價(jià)萬(wàn)英鎊以上的房產(chǎn),法定價(jià)格上升格上升3.5%而政府稅收下降而政府稅收下降1.5%,對(duì)英國(guó)不,對(duì)英國(guó)不同區(qū)域的銷售會(huì)產(chǎn)生什么影響?同區(qū)域的銷售會(huì)產(chǎn)生什么影響? 在英國(guó)主要城市中,哪種類型的房產(chǎn)銷售價(jià)在英國(guó)主要城市中,哪種類型的房產(chǎn)銷售價(jià)格高于平均房產(chǎn)銷售價(jià)格?這與人口統(tǒng)計(jì)數(shù)格高于平均房產(chǎn)銷售價(jià)格?這與人口統(tǒng)計(jì)數(shù)據(jù)有何聯(lián)

26、系?據(jù)有何聯(lián)系?3 兩個(gè)系統(tǒng)數(shù)據(jù)組織模式例如比較兩個(gè)系統(tǒng)數(shù)據(jù)組織模式例如比較從上述實(shí)例,不難看出:1在從面向應(yīng)用到面向主題的轉(zhuǎn)變過(guò)程中,丟棄了原來(lái)有的但不必要的、不適于分析的信息;2在原有的數(shù)據(jù)庫(kù)模式中,有關(guān)商品的信息分散在各個(gè)子系統(tǒng)之中;面向主題的數(shù)據(jù)組織方式所強(qiáng)調(diào)的就是要形成關(guān)于主題一致的信息集合;3不同主題之間有重疊內(nèi)容。 1.5 數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu) 1. 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)效勞器OLAP效勞器前端工具 2. 數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行結(jié)構(gòu)兩層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)多層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)1. 三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu) 原那么上,數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)結(jié)構(gòu)被劃分為三層:數(shù)據(jù)倉(cāng)庫(kù)效勞器、OLAP效勞器和前端工具。 1 底層是數(shù)據(jù)

27、倉(cāng)庫(kù)效勞器,它幾乎總是一個(gè)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)使用后端工具和實(shí)用程序從操作數(shù)據(jù)庫(kù)和外部信息源加載和刷新它的數(shù)據(jù),這些機(jī)制統(tǒng)稱ETL Extract/Transformation/Load工具,它們具有數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載和數(shù)據(jù)刷新等功能。此外,這一層還包含一個(gè)元數(shù)據(jù)存儲(chǔ),它是關(guān)于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的信息。 2 中間層是OLAP效勞器,其典型的實(shí)現(xiàn)有:關(guān)系OLAPROLAP模型,即擴(kuò)展的關(guān)系DBMS,它將多維數(shù)據(jù)上的操作映射為標(biāo)準(zhǔn)的關(guān)系操作;多維OLAPMOALP模型,一種特殊的效勞器,它直接實(shí)現(xiàn)多維數(shù)據(jù)操作。 3 頂層是客戶,它包括查詢和報(bào)告工具、分析工具和/或

28、數(shù)據(jù)挖掘工具例如關(guān)聯(lián)分析、分類分析、預(yù)測(cè)等。過(guò)程模型數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)元數(shù)據(jù)元數(shù)據(jù)多維關(guān)系多維關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)多維多維數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)外部操作型外部操作型數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)抽取數(shù)據(jù)抽取數(shù)據(jù)清潔數(shù)據(jù)清潔數(shù)據(jù)裝載數(shù)據(jù)裝載管理平臺(tái)管理平臺(tái)報(bào)表查詢工具報(bào)表查詢工具數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘工具OLAP工具工具倉(cāng)庫(kù)管理數(shù)據(jù)建模倉(cāng)庫(kù)管理數(shù)據(jù)建模數(shù)據(jù)建模是建立數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型。數(shù)據(jù)建模是建立數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型不同于數(shù)據(jù)庫(kù)的數(shù)據(jù)模數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型不同于數(shù)據(jù)庫(kù)的數(shù)據(jù)模型在于:型在于:數(shù)據(jù)倉(cāng)庫(kù)只為決策分析用,不包含事務(wù)處理的數(shù)據(jù)倉(cāng)庫(kù)只為決策分析用,不包含事務(wù)處理的數(shù)據(jù)。數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)的增加了

29、時(shí)間屬性數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)的增加了時(shí)間屬性數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)增加了一些綜合數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)增加了一些綜合數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)建模是適應(yīng)決策用戶使用的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)建模是適應(yīng)決策用戶使用的邏輯數(shù)據(jù)模型。邏輯數(shù)據(jù)模型。倉(cāng)庫(kù)管理元數(shù)據(jù)管理倉(cāng)庫(kù)管理元數(shù)據(jù)管理最根本的元數(shù)據(jù)相當(dāng)于數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)字典。最根本的元數(shù)據(jù)相當(dāng)于數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)字典。元數(shù)據(jù)定義了數(shù)據(jù)倉(cāng)庫(kù)有什么,指明了數(shù)據(jù)倉(cāng)庫(kù)中元數(shù)據(jù)定義了數(shù)據(jù)倉(cāng)庫(kù)有什么,指明了數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的內(nèi)容和位置,刻畫(huà)了數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)那數(shù)據(jù)的內(nèi)容和位置,刻畫(huà)了數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)那么,存儲(chǔ)了與數(shù)據(jù)倉(cāng)庫(kù)主題有關(guān)的各種商業(yè)信息,么,存儲(chǔ)了與數(shù)據(jù)倉(cāng)庫(kù)主題有關(guān)的各種商業(yè)信息,而且整個(gè)

30、數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行都是基于元數(shù)據(jù)的。而且整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的運(yùn)行都是基于元數(shù)據(jù)的。數(shù)據(jù)源的元數(shù)據(jù)數(shù)據(jù)源的元數(shù)據(jù)數(shù)據(jù)模型的元數(shù)據(jù)數(shù)據(jù)模型的元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)映射的元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)映射的元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)使用的元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)使用的元數(shù)據(jù)倉(cāng)庫(kù)管理數(shù)據(jù)處理倉(cāng)庫(kù)管理數(shù)據(jù)處理異構(gòu)數(shù)據(jù)源:異構(gòu)數(shù)據(jù)源:企業(yè)內(nèi)部數(shù)據(jù)企業(yè)內(nèi)部數(shù)據(jù)存檔的歷史數(shù)據(jù)存檔的歷史數(shù)據(jù)企業(yè)的外部數(shù)據(jù)。企業(yè)的外部數(shù)據(jù)。軟硬件平臺(tái)不一致軟硬件平臺(tái)不一致ETL過(guò)程過(guò)程抽取抽取Extraction 轉(zhuǎn)換轉(zhuǎn)換Transform裝載裝載Load分析工具查詢工具查詢工具數(shù)據(jù)倉(cāng)庫(kù)的查詢不是指對(duì)記錄級(jí)數(shù)據(jù)的查詢,數(shù)據(jù)倉(cāng)庫(kù)的查詢不是指對(duì)記錄級(jí)數(shù)據(jù)的查詢,而是指對(duì)分析要求的查詢。而

31、是指對(duì)分析要求的查詢。 分析工具多維分析工具多維分析工具 通過(guò)對(duì)信息的多種可能的觀察形式進(jìn)行快通過(guò)對(duì)信息的多種可能的觀察形式進(jìn)行快速、一致和交互性的存取,這樣便利用戶對(duì)速、一致和交互性的存取,這樣便利用戶對(duì)數(shù)據(jù)進(jìn)行深入的分析和觀察。數(shù)據(jù)進(jìn)行深入的分析和觀察。多維數(shù)據(jù)的每一維代表對(duì)數(shù)據(jù)的一個(gè)特定的多維數(shù)據(jù)的每一維代表對(duì)數(shù)據(jù)的一個(gè)特定的觀察視角,如時(shí)間、地域、業(yè)務(wù)等。觀察視角,如時(shí)間、地域、業(yè)務(wù)等。分析工具數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘工具從大量數(shù)據(jù)中挖掘具有規(guī)律性知識(shí),需要利從大量數(shù)據(jù)中挖掘具有規(guī)律性知識(shí),需要利用數(shù)據(jù)挖掘用數(shù)據(jù)挖掘Data MiningData Mining工具。工具。48 數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用

32、是一個(gè)典型的客戶數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用是一個(gè)典型的客戶/ /效勞器效勞器C/SC/S結(jié)構(gòu)形結(jié)構(gòu)形式:式: 客戶端所做的工作:客戶交互、格式化查詢、結(jié)果顯示、客戶端所做的工作:客戶交互、格式化查詢、結(jié)果顯示、報(bào)表生成等。報(bào)表生成等。 效勞器端完成各種輔助決策的效勞器端完成各種輔助決策的SQLSQL查詢、復(fù)雜的計(jì)算和各查詢、復(fù)雜的計(jì)算和各類綜合功能等。類綜合功能等。 客 戶 端 數(shù) 據(jù) 倉(cāng) 庫(kù) 服 務(wù) 器 兩層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)兩層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)元數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)效勞器數(shù)據(jù)倉(cāng)庫(kù)效勞器數(shù)據(jù)邏輯數(shù)據(jù)邏輯數(shù)據(jù)效勞數(shù)據(jù)效勞元數(shù)據(jù)元數(shù)據(jù)文件效勞文件效勞客戶端客戶端圖形用戶接口圖形用戶接口/表示邏輯表

33、示邏輯查詢標(biāo)準(zhǔn)查詢標(biāo)準(zhǔn)數(shù)據(jù)分析數(shù)據(jù)分析報(bào)表格式報(bào)表格式總結(jié)總結(jié)數(shù)據(jù)訪問(wèn)數(shù)據(jù)訪問(wèn)50解解 釋釋 客戶客戶/效勞器效勞器C/S是網(wǎng)絡(luò)上一種重要的組是網(wǎng)絡(luò)上一種重要的組織形式??椥问?。 數(shù)據(jù)倉(cāng)庫(kù)在網(wǎng)絡(luò)上都是以效勞器數(shù)據(jù)倉(cāng)庫(kù)在網(wǎng)絡(luò)上都是以效勞器Server形式提供效勞,能對(duì)網(wǎng)絡(luò)上多個(gè)客戶形式提供效勞,能對(duì)網(wǎng)絡(luò)上多個(gè)客戶Client同時(shí)提供效勞。同時(shí)提供效勞。多層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)多層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)多維數(shù)據(jù)效勞器多維數(shù)據(jù)效勞器數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)元數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)邏輯數(shù)據(jù)邏輯數(shù)據(jù)效勞數(shù)據(jù)效勞元數(shù)據(jù)元數(shù)據(jù)文件效勞文件效勞數(shù)據(jù)倉(cāng)庫(kù)效勞器數(shù)據(jù)倉(cāng)庫(kù)效勞器應(yīng)用效勞器應(yīng)用效勞器圖形用戶接口圖形用戶接口查詢標(biāo)準(zhǔn)查詢標(biāo)準(zhǔn)數(shù)據(jù)

34、分析數(shù)據(jù)分析報(bào)表格式報(bào)表格式數(shù)據(jù)訪問(wèn)數(shù)據(jù)訪問(wèn)客戶端客戶端過(guò)濾過(guò)濾總結(jié)總結(jié)元數(shù)據(jù)元數(shù)據(jù)多維視圖多維視圖數(shù)據(jù)訪問(wèn)數(shù)據(jù)訪問(wèn)52客 戶 端OLAP 服 務(wù) 器數(shù) 據(jù) 倉(cāng) 庫(kù)服 務(wù) 器 OLAP效勞器將加強(qiáng)和標(biāo)準(zhǔn)化決策支持的效勞工作,集中和簡(jiǎn)化了原客戶端和數(shù)據(jù)倉(cāng)庫(kù)效勞器的局部工作,降低了系統(tǒng)數(shù)據(jù)傳輸量。 這種結(jié)構(gòu)形式工作效率更高。1.6 數(shù)據(jù)倉(cāng)庫(kù)的根本概念1. ETL2. 元數(shù)據(jù)MetaData3. 數(shù)據(jù)集市Data Market4. OLAP1. ETLExtract/Transformation/Load數(shù)據(jù)抽取、轉(zhuǎn)換、加載工具 ETL工具就是進(jìn)行數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。具體來(lái)講,ETL工具包括:數(shù)

35、據(jù)提取data extract、數(shù)據(jù)轉(zhuǎn)換data transform、數(shù)據(jù)清洗data cleaning和數(shù)據(jù)加載data loading。 1 數(shù)據(jù)提取Data Extract 從數(shù)據(jù)倉(cāng)庫(kù)的角度來(lái)看,并不是業(yè)務(wù)數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)都是決策支持所必需的。通常,數(shù)據(jù)倉(cāng)庫(kù)按照分析的主題來(lái)組織數(shù)據(jù),我們只需提取出系統(tǒng)分析必需的那一局部數(shù)據(jù)。例如,某超市確定以分析客戶的購(gòu)置行為為主題建立數(shù)據(jù)倉(cāng)庫(kù),那么我們只需將與客戶購(gòu)置行為相關(guān)的數(shù)據(jù)提取出來(lái),而超市效勞員工的數(shù)據(jù)就沒(méi)有必要放進(jìn)數(shù)據(jù)倉(cāng)庫(kù)。 現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品幾乎都提供各種關(guān)系型數(shù)據(jù)接口,提供提取引擎,從關(guān)系型數(shù)據(jù)中提取數(shù)據(jù)。 2 數(shù)據(jù)轉(zhuǎn)換Data Tra

36、nsform 由于業(yè)務(wù)系統(tǒng)可能使用不同的數(shù)據(jù)庫(kù)廠商的產(chǎn)品,比方IBM DB2、Oracle、Informix、Sybase、 NCR Teradata、 SQL Server等,各種數(shù)據(jù)庫(kù)產(chǎn)品提供的數(shù)據(jù)類型可能不同,因此,需要將不同格式的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的數(shù)據(jù)格式。如時(shí)間格式“年/月/日,“月/日/年、“日-月-年的不一致問(wèn)題等。 3 數(shù)據(jù)清洗Data Clean 對(duì)于決策支持系統(tǒng)來(lái)說(shuō),最重要的是決策的準(zhǔn)確性,因此確保數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的準(zhǔn)確性是極其重要的。從多個(gè)業(yè)務(wù)系統(tǒng)中獲取數(shù)據(jù)時(shí),必須對(duì)數(shù)據(jù)進(jìn)行必要的清洗,從而得到準(zhǔn)確的數(shù)據(jù)。 所謂“清洗就是將錯(cuò)誤的、不一致的數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前予以更正或刪除

37、,以免影響決策支持系統(tǒng)決策的正確性。 4 數(shù)據(jù)加載Data Load 數(shù)據(jù)加載部件負(fù)責(zé)將數(shù)據(jù)按照物理數(shù)據(jù)模型定義的表結(jié)構(gòu)裝入數(shù)據(jù)倉(cāng)庫(kù),包括清空數(shù)據(jù)域、填充空格、有效性檢查等步驟。2. 元數(shù)據(jù)MetaData 元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù)。 元數(shù)據(jù)通常包括: 數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的描述信息,包括倉(cāng)庫(kù)模式、視圖、維、層次結(jié)構(gòu)和導(dǎo)出數(shù)據(jù)的定義,以及數(shù)據(jù)集市的位置和內(nèi)容。 操作元數(shù)據(jù),包括數(shù)據(jù)血統(tǒng)信息來(lái)自何處以及如何轉(zhuǎn)換的,數(shù)據(jù)流通信息主動(dòng)的、檔案的或凈化的以及監(jiān)視信息倉(cāng)庫(kù)使用統(tǒng)計(jì)、錯(cuò)誤報(bào)告、審計(jì)跟蹤。 匯總用的算法,包括度量與維定義算法,數(shù)據(jù)粒度、分割、主題域、聚集、匯總、預(yù)定義查詢與報(bào)告的算法。 由操作環(huán)境到數(shù)

38、據(jù)倉(cāng)庫(kù)的映射信息,包由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射信息,包括源數(shù)據(jù)庫(kù)和它們的內(nèi)容,括源數(shù)據(jù)庫(kù)和它們的內(nèi)容,ETL程序描述,程序描述,數(shù)據(jù)分割、提取、清理和轉(zhuǎn)換的規(guī)那么和缺數(shù)據(jù)分割、提取、清理和轉(zhuǎn)換的規(guī)那么和缺省,數(shù)據(jù)刷新和裁減的規(guī)那么以及數(shù)據(jù)平安省,數(shù)據(jù)刷新和裁減的規(guī)那么以及數(shù)據(jù)平安信息用戶授權(quán)和存取控制。信息用戶授權(quán)和存取控制。 關(guān)于系統(tǒng)性能的數(shù)據(jù)信息,除刷新、更關(guān)于系統(tǒng)性能的數(shù)據(jù)信息,除刷新、更新和復(fù)制周期的定時(shí)和調(diào)度的規(guī)那么外,還新和復(fù)制周期的定時(shí)和調(diào)度的規(guī)那么外,還包括改善數(shù)據(jù)存取和檢索性能的索引和配置。包括改善數(shù)據(jù)存取和檢索性能的索引和配置。 商務(wù)元數(shù)據(jù),包括商務(wù)術(shù)語(yǔ)和定義,數(shù)商務(wù)元數(shù)據(jù)

39、,包括商務(wù)術(shù)語(yǔ)和定義,數(shù)據(jù)擁有者信息和收費(fèi)策略。據(jù)擁有者信息和收費(fèi)策略。 數(shù)據(jù)倉(cāng)庫(kù)包括不同級(jí)別的綜合,元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)包括不同級(jí)別的綜合,元數(shù)據(jù)是其中一種類型。其它類型包括當(dāng)前的細(xì)節(jié)是其中一種類型。其它類型包括當(dāng)前的細(xì)節(jié)數(shù)據(jù)幾乎總是在磁盤上,老的細(xì)節(jié)數(shù)據(jù)數(shù)據(jù)幾乎總是在磁盤上,老的細(xì)節(jié)數(shù)據(jù)通常在三級(jí)存儲(chǔ)器上,稍加綜合的數(shù)據(jù),通常在三級(jí)存儲(chǔ)器上,稍加綜合的數(shù)據(jù),以及高度綜合的數(shù)據(jù)可以存入倉(cāng)庫(kù)也可以以及高度綜合的數(shù)據(jù)可以存入倉(cāng)庫(kù)也可以不存入。不存入。3. 數(shù)據(jù)集市Data Market建立數(shù)據(jù)集市的原因數(shù)據(jù)倉(cāng)庫(kù)是一種反映主題的全局性數(shù)據(jù)組織。但是,全局性數(shù)據(jù)倉(cāng)庫(kù)往往太大,在實(shí)際應(yīng)用中將它們按部門或個(gè)人分別建立反映各個(gè)子主題的局部性數(shù)據(jù)組織,它們即是數(shù)據(jù)集市。因此,有時(shí)我們也稱它為部門數(shù)據(jù)倉(cāng)庫(kù)。例:在有關(guān)商品銷售的數(shù)據(jù)倉(cāng)庫(kù)中可以建立多個(gè)不同

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論