數(shù)據倉庫與數(shù)據挖掘培訓_第1頁
數(shù)據倉庫與數(shù)據挖掘培訓_第2頁
數(shù)據倉庫與數(shù)據挖掘培訓_第3頁
數(shù)據倉庫與數(shù)據挖掘培訓_第4頁
數(shù)據倉庫與數(shù)據挖掘培訓_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 數(shù)據倉庫與數(shù)據挖掘課程簡介介:1.為為什么出出現(xiàn)數(shù)據據倉庫與與數(shù)據挖挖掘?啤酒與尿尿布7-112.研研究內容容從海量數(shù)數(shù)據中找找到規(guī)律律與聯(lián)系系,為決決策提供供支持3.數(shù)據倉庫庫與數(shù)據據庫的不不同數(shù)據庫與與數(shù)據倉倉庫主要學習習內容:第一篇數(shù)數(shù)據據倉庫與與OLAP數(shù)據倉庫庫聯(lián)機分析析處理技技術(OLAP)數(shù)據預處處理技術術數(shù)據清洗洗數(shù)據集成成和變換換數(shù)據約簡簡第二篇數(shù)數(shù)據挖挖掘數(shù)據挖掘掘技術關聯(lián)規(guī)則則挖掘、分類、聚類分分析數(shù)據挖掘掘在各領領域的應應用等。主要參考考書:1數(shù)數(shù)據倉庫庫Inmon W.H著著機機械工業(yè)業(yè)出版社社2數(shù)數(shù)據挖掘掘 概概念與與技術Jiawei Han& Micheline

2、Kamber著著機機械工業(yè)業(yè)出版社社3數(shù)數(shù)據挖掘掘 朱朱明著著中中國國科學技技術大學學出版社社4數(shù)數(shù)據倉庫庫與聯(lián)機機分析處處理王王珊珊等著著科科學出版版社考核方法法:考核采取取筆試結結合實驗驗的方法法:實驗成績績 30%筆試成績績 70%第一章數(shù)數(shù)據倉倉庫概述述本章介紹紹了數(shù)據據倉庫技技術產生生的背景景、數(shù)據據倉庫的的含義與與特征、數(shù)據倉倉庫與操操作型數(shù)數(shù)據庫系系統(tǒng)的區(qū)區(qū)別和數(shù)數(shù)據倉庫庫的基本本體系結結構。1.1數(shù)數(shù)據倉倉庫的產產生1.2數(shù)數(shù)據倉倉庫的含含義1.3數(shù)數(shù)據倉倉庫的特特征1.4數(shù)數(shù)據庫庫系統(tǒng)與與數(shù)據倉倉庫1.5數(shù)數(shù)據倉倉庫的基基本結構構1.6數(shù)數(shù)據倉倉庫的基基本概念念1.7數(shù)數(shù)據倉

3、倉庫的數(shù)數(shù)據組織織11數(shù)數(shù)據倉倉庫的產產生1.數(shù)數(shù)據處理理分為兩兩類:事物處理理分析處理理2.傳傳統(tǒng)數(shù)據據庫較難難滿足分分析處理理的要求求:歷史數(shù)據據需求量量大不同系統(tǒng)統(tǒng)的數(shù)據據難以集集成(蜘蜘蛛網問問題)對大量數(shù)數(shù)據的訪訪問性能能不足事務處理理和分析析處理數(shù)數(shù)據環(huán)境境的分離離1.2數(shù)數(shù)據據倉庫的的含義對于什么么是數(shù)據據倉庫,還有許許多不同同的定義義,如:“數(shù)據倉倉庫是融融合方法法、技術術和工具具以在完完整的平平臺上將將數(shù)據提提交給終終端用戶戶的一種種手段”?!皵?shù)據倉倉庫是對對分布在在企業(yè)內內部各處處的業(yè)務務數(shù)據的的整合、加工和和分析的的過程”?!皵?shù)據倉倉庫是一一種具有有集成性性、穩(wěn)定定性和提

4、提供決策策支持的的處理”?!盀椴樵冊兒头治鑫觯ú皇鞘鞘聞仗幪幚恚┒O計的的關系數(shù)數(shù)據庫”20世紀紀80年年代中期期,“數(shù)數(shù)據倉庫庫”這個個名詞首首次出現(xiàn)現(xiàn)在號稱稱“數(shù)據據倉庫之之父”W.H.Inmon的的Building DataWarehouse一書書中,在在該書中中,W.H.Inmon把數(shù)數(shù)據倉庫庫定義為為“一個個面向主主題的、集成的的、穩(wěn)定定的、隨隨時間變變化的數(shù)數(shù)據的集集合,以以用于支支持管理理決策過過程?!保ā癆 datawarehouse is asubject-oriented,integrated,non-volatile, time-variantcollection of

5、 datainsupportofmanagement decisions.”)William H.Inmon:數(shù)據倉倉庫是一一個面向主題題的、集成的、非易失的的且隨時間變變化的數(shù)據集合合,用于于支持管管理人員員的決策。數(shù)據倉庫庫之父-BillInmon1.3數(shù)數(shù)據倉倉庫的特特征數(shù)據倉庫庫的數(shù)據據是面向向主題的的數(shù)據倉庫庫的數(shù)據據是集成成的數(shù)據倉庫庫的數(shù)據據是非易易失的數(shù)據倉庫庫的數(shù)據據是隨時時間不斷斷變化的的面向主題題主題(Subject):特特定的數(shù)數(shù)據分析析領域與與目標。面向主題題:為特特定的數(shù)數(shù)據分析析領域提提供數(shù)據據支持。數(shù)據倉庫庫是面向向分析、決策人人員的主主觀要求求的,不不同的用用

6、戶有不不同的要要求,同同一個用用戶的要要求也會會隨時間間而經常常變化,因此,數(shù)據倉倉庫中的的主題有有時會因因用戶主主觀要求求的變化化而變化化的。面向主題題為特定數(shù)數(shù)據分析析領域提提供的數(shù)數(shù)據與傳傳統(tǒng)數(shù)據據庫中的的數(shù)據是是有不同同的。傳傳統(tǒng)數(shù)據據庫中的的數(shù)據是是原始的的、基礎礎的數(shù)據據,而特特定分析析領域數(shù)數(shù)據則是是需要對對它們作作必要的的抽取、加工與與總結而而形成。面向主題題示例例:一個個面向事事務處理理的“商場”數(shù)據庫系系統(tǒng),其其數(shù)據模模式如下下采購子系系統(tǒng):訂單(訂訂單號,供應商商號,總總金額,日期)訂單細則則(訂單單號,商商品號,類別,單價,數(shù)量)供應商(供應商商號,供供應商名名,地址址

7、,電話話)銷售子系系統(tǒng):顧客(顧顧客號,姓名,性別,年齡,文化程程度,地地址,電電話)銷售(員員工號,顧客號號,商品品號,數(shù)數(shù)量,單單價,日日期)面向主題題示例庫存管理理子系統(tǒng)統(tǒng):領料單(領料單單號,領領料人,商品號號,數(shù)量量,日期期)進料單(進料單單號,訂訂單號,進料人人,收料料人,日日期)庫存(商商品號,庫房號號,庫存存量,日日期)庫房(庫庫房號,倉庫管管理員,地點,庫存商商品描述述)人事管理理子系統(tǒng)統(tǒng):員工(員員工號,姓名,性別,年齡,文化程程度,部部門號)部門(部部門號,部門名名稱,部部門主管管,電話話)面向主題題示例如果按照照面向主主題的方方式進行行數(shù)據組組織,首首先應該該抽取主主題

8、,即即按照管管理人員員的分析析要求來來確定主主題,而而與每個個主題相相關的數(shù)數(shù)據又與與有關的的事務處處理所需需的數(shù)據據不盡相相同。在每個主主題中,都包含含了有關關該主題題的所有有信息,同時又又拋棄了了與分析析處理無無關或不不需要的的數(shù)據,從而將將原本分分散在各各個子系系統(tǒng)中的的有關信信息集中中在一個個主題中中,形成成有關該該主題的的一個完完整一致致的描述述。面向向主題的的數(shù)據組組織方式式所強調調的就是是要形成成一個這這樣一致致的信息息集合主題一:商品商品固有有信息:商品號號,商品品名,類類別,顏顏色等商品采購購信息:商品號號,供應應商號,供應價價,供應應日期,供應量量等商品銷售售信息:商品號號

9、,顧客客號,售售價,銷銷售日期期,銷售售量等商品庫存存信息:商品號號,庫房房號,庫庫存量,日期等等主題二:供應商供應商固固有信息息:供應應商號,供應商商名,地地址,電電話等供應商品品信息:供應商商號,商商品號,供應價價,供應應日期,供應量量等主題三:顧客顧客固有有信息:顧客號號,顧客客名,性性別,年年齡,文文化程度度,住址址,電話話等顧客購物物信息:顧客號號,商品品號,售售價,購購買日期期,購買買量等)示例了一一個電信信企業(yè)的的情況。計費數(shù)據據庫:計計費數(shù)據據庫記錄錄了客戶戶的消費費情況財務數(shù)據據庫:財財務數(shù)據據庫記錄錄了客戶戶的繳費費情況客戶服務務數(shù)據庫庫:客戶戶的咨詢詢和投訴訴情況如果直接

10、接基于傳傳統(tǒng)數(shù)據據庫系統(tǒng)統(tǒng)進行“客戶”和“收收益”信信息的分分析,則則需要訪訪問多個個數(shù)據庫庫才能獲獲得客戶戶或收益益各個側側面的信信息(收收益主題題需從計計費數(shù)據據庫和財財務數(shù)據據庫中了了解公司司各項業(yè)業(yè)務的收收入情況況;客戶戶主題則則要從計計費數(shù)據據庫、財財務數(shù)據據庫、客客戶服務務數(shù)據庫庫中獲得得客戶消消費、交交費、咨咨詢等全全方位的的信息。),這這樣將極極大的影影響系統(tǒng)統(tǒng)處理的的時間和和效率,并且數(shù)數(shù)據之間間的不一一致性和和不同步步等問題題將影響響決策的的可靠性性。而以以“客戶戶”和“收益”主題組組織的數(shù)數(shù)據倉庫庫,將某某個主題題的全部部相關數(shù)數(shù)據集中中于一個個地方,這樣決決策者可可以非

11、常常方便地地在數(shù)據據倉庫中中的一個個位置檢檢索包含含某個主主題的所所有數(shù)據據。面向主題題每個主題題所需數(shù)數(shù)據的物物理存儲儲:多維數(shù)據據庫(MDDBMulti-DimensionalDataBase)用用多維數(shù)數(shù)組形式式存儲數(shù)數(shù)據。關系數(shù)據據庫。用一組關關系來組組織數(shù)據據的存儲儲,同一一主題的的一組關關系都有有一個公共的關關鍵字,存放的的也不是是細節(jié)性性的業(yè)務務數(shù)據,而是經經過一定定程度的的綜合形形成的綜綜合性數(shù)數(shù)據。集成的數(shù)據是分分散的;由于事事務處理理應用分分散、蜘蜘蛛網問問題、數(shù)數(shù)據不一一致問題題、外部部數(shù)據和和非結構構化數(shù)據據。數(shù)據倉庫庫中的數(shù)數(shù)據是為為分析服服務的,而分析析需要多多種廣

12、泛泛的不同同數(shù)據源源以便進進行比較較、鑒別別,因此此數(shù)據倉倉庫中的的數(shù)據必必須從多多個數(shù)據據源中獲獲取,這這些數(shù)據據源包括括多種類類型數(shù)據據庫、文文件系統(tǒng)統(tǒng)以及Internet網上上數(shù)據等等,它們們通過數(shù)數(shù)據集成成而形成成數(shù)據倉倉庫中的的數(shù)據。數(shù)據倉庫庫中存儲儲的數(shù)據據一般從從企業(yè)原原來已建建立的數(shù)數(shù)據庫系系統(tǒng)中提提取出來來,但并并不是原原有數(shù)據據的簡單單拷貝,而是經經過了抽抽取、篩篩選、清清理、綜綜合等工工作。這這是因為為:1)原原有數(shù)據據庫系統(tǒng)統(tǒng)記錄的的是每一一項業(yè)務務處理的的流水帳帳,這些些數(shù)據不不適合于于分析處處理。在在進入數(shù)數(shù)據倉庫庫之前必必須經過過綜合、計算,同時拋拋棄一些些分析處

13、處理不需需要的數(shù)數(shù)據項,必要時時還要增增加一些些可能涉涉及的外外部數(shù)據據。2)數(shù)數(shù)據倉庫庫每一個個主題所所對應的的源數(shù)據據在源分分散數(shù)據據庫中有有許多重重復或不不一致之之處,必必須將這這些數(shù)據據轉換成成全局統(tǒng)統(tǒng)一的定定義,消消除不一一致和錯錯誤之處處,以保保證數(shù)據據的質量量;顯然然,對不不準確,甚至不不正確的的數(shù)據分分析得出出的結果果將不能能用于指指導企業(yè)業(yè)做出科科學的決決策。3)源源數(shù)據加加載到數(shù)數(shù)據倉庫庫后,還還要根據據決策分分析的需需要對這這些數(shù)據據進行概概括、聚聚集處理理。事實上,決策支支持系統(tǒng)統(tǒng)需要集集成的數(shù)數(shù)據。全全面而正正確的數(shù)數(shù)據是有有效地分分析和決決策的首首要前提提,相關關數(shù)

14、據收收集得越越完整,得到的的結果就就越可靠靠。因此此,對源源數(shù)據的的集成是是數(shù)據倉倉庫建設設中最關關鍵,也也是最復復雜的一一步。集成的集成的集成的方方法:統(tǒng)一:消消除不一一致的現(xiàn)現(xiàn)象綜合:對對原有數(shù)數(shù)據進行行綜合和和計算需要考慮慮的問題題:數(shù)據格式式計量單位位數(shù)據代碼碼含義混混亂數(shù)據名稱稱混亂非易失的的數(shù)據倉庫庫中的數(shù)數(shù)據是經經過抽取取而形成成的分析析型數(shù)據據,不具具有原始始性,主主要供企企業(yè)決策策分析之之用,執(zhí)執(zhí)行的主主要是查詢操作,一一般情況況下不執(zhí)執(zhí)行更新操作。同同時,一一個穩(wěn)定定的數(shù)據據環(huán)境也也有利于于數(shù)據分分析操作作和決策策的制訂訂。但這也不不等于數(shù)數(shù)據倉庫庫中的數(shù)數(shù)據不需需要更新操

15、作。在需要進進行新的的分析決決策時,可能需需要進行行新的數(shù)數(shù)據抽取取和更新操作數(shù)據倉庫庫中的一一些過時時的數(shù)據據,也可可以通過過刪除操作丟棄棄掉。因此數(shù)據據倉庫的的存儲管管理相對對于DBMS來來說要簡簡單得多多。隨時間不不斷變化化數(shù)據倉庫庫中的數(shù)數(shù)據必須須以一定定時間段段為單位位進行統(tǒng)統(tǒng)一更新新。不斷增加加新的數(shù)數(shù)據內容容不斷刪去去舊的數(shù)數(shù)據內容容更新與時時間有關關的綜合合數(shù)據1.4數(shù)數(shù)據據倉庫與與傳統(tǒng)數(shù)數(shù)據庫的的比較1.兩兩個系系統(tǒng)的主主要區(qū)別別2.兩兩個系系統(tǒng)的查查詢支持持不同3.兩兩個系系統(tǒng)數(shù)據據組織模模式不同同1兩兩個系統(tǒng)統(tǒng)的主要要區(qū)別傳統(tǒng)數(shù)據據庫系統(tǒng)統(tǒng)的主要要任務是是執(zhí)行聯(lián)聯(lián)機事務務

16、和查詢詢處理。這種系系統(tǒng)稱為為聯(lián)機事事務處理理(OLTP)系統(tǒng)。它們涵涵蓋了一一個組織織的大部部分日常常操作,如購買買、庫存存、制造造、銀行行、工資資、注冊冊、記帳帳等。另另一方面面,數(shù)據據倉庫系系統(tǒng)在數(shù)數(shù)據分析析和決策策支持方方面提供供服務。這種系系統(tǒng)稱為為聯(lián)機分分析處理理(OLAP)系統(tǒng)。兩個系統(tǒng)統(tǒng)的主要要區(qū)別概概括如下下:數(shù)據內容容:數(shù)據庫庫系統(tǒng)管管理當前前數(shù)據。通常,這種數(shù)數(shù)據太瑣瑣碎,難難以用于于決策。數(shù)據倉倉庫系統(tǒng)統(tǒng)管理大大量歷史史的、存存檔的、歸納的的、計算算的數(shù)據據,提供供匯總和和聚集機機制,并并在不同同的粒度度級別上上存儲和和管理信信息。這這種特點點使得系系統(tǒng)容易易用于“見多

17、識識廣”的的決策。數(shù)據目標標:數(shù)據庫庫系統(tǒng)是是面向業(yè)業(yè)務操作作,用于于辦事員員、客戶戶和信息息技術專專業(yè)人員員的事務務和查詢詢處理。數(shù)據倉倉庫是面面向主題題的,用用于知識識工人(包括經經理、主主管和分分析人員員)的決決策分析析。數(shù)據特性性:數(shù)據庫庫系統(tǒng)存存儲的是是當前數(shù)數(shù)據,數(shù)數(shù)據是動動態(tài)變化化的,按按字段進進行更新新操作。數(shù)據倉倉庫中數(shù)數(shù)據是批批量載入入的、靜靜態(tài)的,系統(tǒng)定定期執(zhí)行行提取過過程為數(shù)數(shù)據倉庫庫增加數(shù)數(shù)據,這這些數(shù)據據一旦加加入,一一般不再再從系統(tǒng)統(tǒng)中刪除除。數(shù)據結構構:數(shù)據庫庫系統(tǒng)采采用面向向應用的的數(shù)據庫庫設計,以高度度結構化化和復雜雜的形式式組織數(shù)數(shù)據,以以適應復復雜的事事

18、務操作作計算的的需求。數(shù)據倉倉庫通常常采用面面向主題題的星型型或雪花花數(shù)據組組織模式式,以適適應分析析決策,數(shù)據結結構簡單單。2兩兩個系統(tǒng)統(tǒng)的查詢詢支持不不同OLTP系統(tǒng)是是為了快快速回答答簡單查查詢,而而不是為為了存儲儲分析趨趨勢的歷歷史數(shù)據據而創(chuàng)建建的。一一般的,OLTP提供供了大量量的原始始數(shù)據,這些數(shù)數(shù)據不易易被分析析。數(shù)據倉庫庫需要回回答更復復雜的查查詢,而而不僅僅僅是一些些像“英英國主要要城市的的商品平平均銷售售價格是是多少”之類的的簡單聚聚集數(shù)據據查詢。數(shù)據倉倉庫需要要回答的的查詢類類型可以以是簡單單的查詢詢,也可可以是高高度復雜雜的,且且還與終終端用戶戶使用的的查詢工工具相關關

19、。以下是某某數(shù)據倉倉庫支持持的一些些查詢示示例:2008年第三三季度,整個英英格蘭的的總收入入是多少少?2007年英國國每一類類房產銷銷售的總總收入是是多少?2008年租借借房產業(yè)業(yè)務中每每個城市市哪個地地域最受受歡迎?與過去去的兩年年相比有有何不同同?每個分支支機構本本月的房房產銷售售月收入入是多少少,并與與剛過去去的12個月相相比較。如果對于于10萬萬英鎊以以上的房房產,法法定價格格上升3.5%而政府府稅收下下降1.5%,對英國國不同區(qū)區(qū)域的銷銷售會產產生什么么影響?在英國主主要城市市中,哪哪種類型型的房產產銷售價價格高于于平均房房產銷售售價格?這與人人口統(tǒng)計計數(shù)據有有何聯(lián)系系?3兩兩個系

20、統(tǒng)統(tǒng)數(shù)據組組織模式式示例比比較從上述實實例,不不難看出出:1)在從從面向應應用到面面向主題題的轉變變過程中中,丟棄棄了原來來有的但但不必要要的、不不適于分分析的信信息;2)在原原有的數(shù)數(shù)據庫模模式中,有關商商品的信信息分散散在各個個子系統(tǒng)統(tǒng)之中;面向主主題的數(shù)數(shù)據組織織方式所所強調的的就是要要形成關關于主題題一致的的信息集集合;3)不同同主題之之間有重重疊內容容。1.5數(shù)數(shù)據據倉庫的的系統(tǒng)結結構1.三三層數(shù)數(shù)據倉庫庫結構數(shù)據倉庫庫服務器器OLAP服務器器前端工具具2.數(shù)數(shù)據倉倉庫的運運行結構構兩層數(shù)據據倉庫結結構多層數(shù)據據倉庫結結構1.三層數(shù)據據倉庫結結構原則上,數(shù)據倉倉庫的系系統(tǒng)結構構被劃分

21、分為三層層:數(shù)據據倉庫服服務器、OLAP服務務器和前前端工具具。1)底底層是數(shù)數(shù)據倉庫庫服務器器,它幾幾乎總是是一個關關系數(shù)據據庫系統(tǒng)統(tǒng)。數(shù)據據倉庫系系統(tǒng)使用用后端工工具和實實用程序序從操作作數(shù)據庫庫和外部部信息源源加載和和刷新它它的數(shù)據據,這些些機制統(tǒng)統(tǒng)稱ETL(Extract/Transformation/Load)工具具,它們們具有數(shù)數(shù)據抽取取、數(shù)據據清洗、數(shù)據轉轉換、數(shù)數(shù)據加載載和數(shù)據據刷新等等功能。此外,這一層層還包含含一個元元數(shù)據存存儲,它它是關于于數(shù)據倉倉庫和數(shù)數(shù)據倉庫庫中數(shù)據據的信息息。2)中中間層是是OLAP服務務器,其其典型的的實現(xiàn)有有:()關系系OLAP(ROLAP)模模

22、型,即即擴展的的關系DBMS,它將將多維數(shù)數(shù)據上的的操作映映射為標標準的關關系操作作;()多維維OLAP(MOALP)模模型,一一種特殊殊的服務務器,它它直接實實現(xiàn)多維維數(shù)據操操作。3)頂頂層是客客戶,它它包括查查詢和報報告工具具、分析析工具和和/或數(shù)數(shù)據挖掘掘工具(例如關關聯(lián)分析析、分類類分析、預測等等)。過程模型型數(shù)據倉庫庫管理系系統(tǒng)元數(shù)據多維關系系數(shù)據庫多維數(shù)據庫外部操作作型數(shù)據數(shù)據抽取取數(shù)據清潔潔數(shù)據裝載載管理平臺臺報表查詢詢工具數(shù)據挖掘掘工具OLAP工具倉庫管理理數(shù)據據建模數(shù)據建模模是建立立數(shù)據倉倉庫的數(shù)數(shù)據模型型。數(shù)據倉庫庫的數(shù)據據模型不不同于數(shù)數(shù)據庫的的數(shù)據模模型在于于:數(shù)據倉庫

23、庫只為決決策分析析用,不不包含事事務處理理的數(shù)據據。數(shù)據倉庫庫的增加加了時間間屬性數(shù)數(shù)據。數(shù)據倉庫庫增加了了一些綜綜合數(shù)據據。數(shù)據倉庫庫的數(shù)據據建模是是適應決決策用戶戶使用的的邏輯數(shù)數(shù)據模型型。倉庫管理理元數(shù)數(shù)據管理理最基本的的元數(shù)據據相當于于數(shù)據庫庫系統(tǒng)中中的數(shù)據據字典。元數(shù)據定定義了數(shù)數(shù)據倉庫庫有什么么,指明明了數(shù)據據倉庫中中數(shù)據的的內容和和位置,刻畫了了數(shù)據的的抽取和和轉換規(guī)規(guī)則,存存儲了與與數(shù)據倉倉庫主題題有關的的各種商商業(yè)信息息,而且且整個數(shù)數(shù)據倉庫庫的運行行都是基基于元數(shù)數(shù)據的。數(shù)據源的的元數(shù)據據數(shù)據模型型的元數(shù)數(shù)據數(shù)據倉庫庫映射的的元數(shù)據據數(shù)據倉庫庫使用的的元數(shù)據據倉庫管理理數(shù)據

24、據處理異構數(shù)據據源:企業(yè)內部部數(shù)據存檔的歷歷史數(shù)據據企業(yè)的外外部數(shù)據據。軟硬件平平臺不一一致ETL過過程抽?。‥xtraction)轉換(Transform)裝載(Load)分析工具具查詢工具具數(shù)據倉庫庫的查詢詢不是指指對記錄錄級數(shù)據據的查詢詢,而是是指對分分析要求求的查詢詢。 分析工具具多維分析析工具通過對信信息的多多種可能能的觀察察形式進進行快速速、一致致和交互互性的存存取,這這樣便利利用戶對對數(shù)據進進行深入入的分析析和觀察察。多維數(shù)據據的每一一維代表表對數(shù)據據的一個個特定的的觀察視視角,如如時間、地域、業(yè)務等等。分析工具具數(shù)據挖掘掘工具從大量數(shù)數(shù)據中挖挖掘具有有規(guī)律性性知識,需要利利用數(shù)

25、據據挖掘(DataMining)工具。482.數(shù)據據倉庫的的運行結結構數(shù)據倉庫庫應用是是一個典典型的客客戶/服服務器(C/S)結構構形式:客戶端所所做的工工作:客客戶交互互、格式式化查詢詢、結果果顯示、報表生生成等。服務器端端完成各各種輔助助決策的的SQL查詢、復雜的的計算和和各類綜綜合功能能等。數(shù)據倉庫庫的運行行結構兩層數(shù)據據倉庫結結構數(shù)據倉庫庫數(shù)據元數(shù)據數(shù)據倉庫庫服務器器數(shù)據邏輯輯數(shù)據服務務元數(shù)據文件服務務客戶端圖形用戶戶接口/表示邏邏輯查詢規(guī)范范數(shù)據分析析報表格式式總結數(shù)據訪問問50解釋釋客戶/服服務器(C/S)是網網絡上一一種重要要的組織織形式。數(shù)據倉庫庫在網絡絡上都是是以服務務器(S

26、erver)形式提提供服務務,能對對網絡上上多個客客戶(Client)同時提提供服務務。數(shù)據倉庫庫的運行行結構多層數(shù)據據倉庫結結構多維數(shù)據據服務器器數(shù)據倉庫庫數(shù)據元數(shù)據數(shù)據邏輯輯數(shù)據服務務元數(shù)據文件服務務數(shù)據倉庫庫服務器器應用服務務器圖形用戶戶接口查詢規(guī)范范數(shù)據分析析報表格式式數(shù)據訪問問客戶端過濾總結元數(shù)據多維視圖圖數(shù)據訪問問52OLAP服務器器將加強強和規(guī)范范化決策策支持的的服務工工作,集集中和簡簡化了原原客戶端端和數(shù)據據倉庫服服務器的的部分工工作,降降低了系系統(tǒng)數(shù)據據傳輸量量。這種結構構形式工工作效率率更高。OLAP的三層層C/S結構1.6數(shù)數(shù)據倉倉庫的基基本概念念1.ETL2.元元數(shù)據(

27、MetaData)3.數(shù)數(shù)據集市市(DataMarket)4.OLAP)1.ETL(Extract/Transformation/Load)數(shù)數(shù)據抽取取、轉換換、加載載工具ETL工工具就是是進行數(shù)數(shù)據的抽抽取、轉轉換和加加載。具具體來講講,ETL工具具包括:數(shù)據提提取(data extract)、數(shù)據據轉換(datatransform)、數(shù)據據清洗(datacleaning)和和數(shù)據加加載(data loading)。(1)數(shù)據提取取(DataExtract)從數(shù)據倉倉庫的角角度來看看,并不不是業(yè)務務數(shù)據庫庫中的所所有數(shù)據據都是決決策支持持所必需需的。通通常,數(shù)數(shù)據倉庫庫按照分分析的主主題來組

28、組織數(shù)據據,我們們只需提提取出系系統(tǒng)分析析必需的的那一部部分數(shù)據據。例如如,某超超市確定定以分析析客戶的的購買行行為為主主題建立立數(shù)據倉倉庫,則則我們只只需將與與客戶購購買行為為相關的的數(shù)據提提取出來來,而超超市服務務員工的的數(shù)據就就沒有必必要放進進數(shù)據倉倉庫?,F(xiàn)有的數(shù)數(shù)據倉庫庫產品幾幾乎都提提供各種種關系型型數(shù)據接接口,提提供提取取引擎,從關系系型數(shù)據據中提取取數(shù)據。(2)數(shù)數(shù)據轉轉換(Data Transform)由于業(yè)務務系統(tǒng)可可能使用用不同的的數(shù)據庫庫廠商的的產品,比如IBMDB2、Oracle、Informix、Sybase、 NCRTeradata、SQL Server等,各種數(shù)數(shù)

29、據庫產產品提供供的數(shù)據據類型可可能不同同,因此此,需要要將不同同格式的的數(shù)據轉轉換成統(tǒng)統(tǒng)一的數(shù)數(shù)據格式式。如時時間格式式“年/月/日日”,“月/日日/年”、“日日-月-年”的的不一致致問題等等。(3)數(shù)數(shù)據清清洗(Data Clean)對于決策策支持系系統(tǒng)來說說,最重重要的是是決策的的準確性性,因此此確保數(shù)數(shù)據倉庫庫中數(shù)據據的準確確性是極極其重要要的。從從多個業(yè)業(yè)務系統(tǒng)統(tǒng)中獲取取數(shù)據時時,必須須對數(shù)據據進行必必要的清清洗,從從而得到到準確的的數(shù)據。所謂“清清洗”就就是將錯錯誤的、不一致致的數(shù)據據在進入入數(shù)據倉倉庫之前前予以更更正或刪刪除,以以免影響響決策支支持系統(tǒng)統(tǒng)決策的的正確性性。(4)數(shù)數(shù)

30、據加加載(Data Load)數(shù)據加載載部件負負責將數(shù)數(shù)據按照照物理數(shù)數(shù)據模型型定義的的表結構構裝入數(shù)數(shù)據倉庫庫,包括括清空數(shù)數(shù)據域、填充空空格、有有效性檢檢查等步步驟。2.元元數(shù)據(MetaData)元數(shù)據是描述數(shù)數(shù)據的數(shù)數(shù)據。元數(shù)據通通常包括括:數(shù)據倉庫庫結構的的描述信信息,包括倉倉庫模式式、視圖圖、維、層次結結構和導導出數(shù)據據的定義義,以及及數(shù)據集集市的位位置和內內容。操作元數(shù)數(shù)據,包括數(shù)數(shù)據血統(tǒng)統(tǒng)信息(來自何何處以及及如何轉轉換的),數(shù)據據流通信信息(主主動的、檔案的的或凈化化的)以以及監(jiān)視視信息(倉庫使使用統(tǒng)計計、錯誤誤報告、審計跟跟蹤)。匯總用的的算法,包括度度量與維維定義算算法,

31、數(shù)數(shù)據粒度度、分割割、主題題域、聚聚集、匯匯總、預預定義查查詢與報報告的算算法。由操作環(huán)環(huán)境到數(shù)數(shù)據倉庫庫的映射射信息,包括源源數(shù)據庫庫和它們們的內容容,ETL程序序描述,數(shù)據分分割、提提取、清清理和轉轉換的規(guī)規(guī)則和缺缺省,數(shù)數(shù)據刷新新和裁減減的規(guī)則則以及數(shù)數(shù)據安全全信息(用戶授授權和存存取控制制)。關于系統(tǒng)統(tǒng)性能的的數(shù)據信信息,除刷新新、更新新和復制制周期的的定時和和調度的的規(guī)則外外,還包包括改善善數(shù)據存存取和檢檢索性能能的索引引和配置置。商務元數(shù)數(shù)據,包括商商務術語語和定義義,數(shù)據據擁有者者信息和和收費策策略。數(shù)據倉庫庫包括不不同級別別的綜合合,元數(shù)數(shù)據是其其中一種種類型。其它類類型包括括

32、當前的的細節(jié)數(shù)數(shù)據(幾幾乎總是是在磁盤盤上),老的細細節(jié)數(shù)據據(通常常在三級級存儲器器上),稍加綜綜合的數(shù)數(shù)據,以以及高度度綜合的的數(shù)據(可以存存入倉庫庫也可以以不存入入)。3.數(shù)數(shù)據集市市(DataMarket)建立數(shù)據據集市的的原因數(shù)據倉庫庫是一種種反映主主題的全全局性數(shù)數(shù)據組織織。但是是,全局局性數(shù)據據倉庫往往往太大大,在實實際應用用中將它它們按部部門或個個人分別別建立反反映各個個子主題題的局部部性數(shù)據據組織,它們即即是數(shù)據集市市。因此,有時我我們也稱稱它為部門數(shù)據據倉庫。例:在有有關商品品銷售的的數(shù)據倉倉庫中可可以建立立多個不不同主題題的數(shù)據據集市:商品采購購數(shù)據集集市庫房使用用數(shù)據集

33、集市商品銷售售數(shù)據集集市60數(shù)據集市市(DataMarts)是一種種更小、更集中中的數(shù)據據倉庫,為公司司提供分分析商業(yè)業(yè)數(shù)據的的一條廉廉價途徑徑。Data Marts是指具具有特定定應用的的數(shù)據倉倉庫,主主要針對對某個應應用或者者具體部部門級的的應用,支持用用戶獲得得競爭優(yōu)優(yōu)勢或者者找到進進入新市市場的具具體解決決方案。數(shù)據集市市概念數(shù)據集市市類型按照數(shù)據據獲取來來源:獨立型:直接從從操作型型環(huán)境獲獲取數(shù)據據。從屬型:從企業(yè)業(yè)級數(shù)據據倉庫獲獲取數(shù)據據。獨立數(shù)據據集市(IndependentDataMart)從屬數(shù)據據集市(Dependent DataMart)4.OLAPOLAP(On-lineAnalytical Processing,在線分分析處理理或聯(lián)機機分析處處理)就是一個個應用廣廣泛的數(shù)數(shù)據倉庫庫使用技技術。它它可以根根據分析析人員的的要求,迅速靈靈活地對對大量的的數(shù)據進進行復雜雜的查詢詢處理,并以直直觀的容容易理解解的形式式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論