數(shù)據(jù)倉庫專題講義_第1頁
數(shù)據(jù)倉庫專題講義_第2頁
數(shù)據(jù)倉庫專題講義_第3頁
數(shù)據(jù)倉庫專題講義_第4頁
數(shù)據(jù)倉庫專題講義_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第四講數(shù)據(jù)倉庫數(shù)據(jù)庫與數(shù)據(jù)倉庫數(shù)據(jù)不一致可頻繁刪除數(shù)據(jù)存放短期數(shù)據(jù)(3個月內(nèi))存在數(shù)據(jù)冗余數(shù)據(jù)倉庫概述數(shù)據(jù)倉庫與CRM有著難以割舍的密切關(guān)系,客戶關(guān)系管理的很多工作都是以數(shù)據(jù)倉庫為基礎(chǔ)展開的。利用數(shù)據(jù)倉庫,企業(yè)可以對客戶行為進行分析和預測,從而制定準確的市場策略、發(fā)現(xiàn)重點客戶和評價市場性能。對于客戶量大、市場策略對企業(yè)影響較大的企業(yè)來說,必須在客戶關(guān)系管理系統(tǒng)中包含數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的產(chǎn)生早期的數(shù)據(jù)庫主要支持聯(lián)機事務處理傳統(tǒng)數(shù)據(jù)庫不能滿足決策支持對數(shù)據(jù)庫的要求(1)事務處理和分析處理的性能特性不同(2)數(shù)據(jù)集成問題(3)歷史數(shù)據(jù)問題(1)事務處理和分析處理的性能特性不同所有聯(lián)機事務處理強調(diào)的是數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性。在事務處理環(huán)境中,用戶的行為特點是數(shù)據(jù)的存取操作頻率高,每次操作處理的時間短。在分析處理環(huán)境中,用戶的行為模式與此完全不同,強調(diào)的是數(shù)據(jù)處理和分析的能力。在傳統(tǒng)數(shù)據(jù)庫系統(tǒng)基礎(chǔ)上的決策支持(DSS)應用程序可能需要連續(xù)幾個小時,從而消耗大量的系統(tǒng)資源。聯(lián)機分析和事務處理對系統(tǒng)的要求不同,同一個數(shù)據(jù)庫在理論上難以做到兩全,將具有如此不同處理性能的兩種應用放在同一個環(huán)境中運行顯然是不適當?shù)?。?)數(shù)據(jù)集成問題DSS需要集成的數(shù)據(jù)。全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提,相關(guān)數(shù)據(jù)收集得越完整,得到的結(jié)果就越可靠。當前絕大多數(shù)企業(yè)內(nèi)數(shù)據(jù)的真正狀況是分散而非集成的。造成這種分散的原因有多種,主要有事務處理應用分散、“蜘蛛網(wǎng)”問題、數(shù)據(jù)不一致問題、外部數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(3)歷史數(shù)據(jù)問題事務處理一般只需要當前數(shù)據(jù),在數(shù)據(jù)庫中一般也是存儲短期數(shù)據(jù),且不同數(shù)據(jù)的保存期限也不一樣,即使有一些歷史數(shù)據(jù)保存下來了,也被束之高閣,未得到充分利用。但對于決策分析而言,歷史數(shù)據(jù)是相當重要的,許多分析方法必須以大量的歷史數(shù)據(jù)為依托。沒有歷史數(shù)據(jù)的詳細分析,是難以把握企業(yè)的發(fā)展趨勢的。DSS對數(shù)據(jù)在空間和時間上都有了更高的要求,而事務處理環(huán)境難以滿足這些要求。要提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與操作型處理及其數(shù)據(jù)相分離。必須把分析型數(shù)據(jù)從事務處理環(huán)境中提取出來,按照DSS處理的需要進行重新組織,建立單獨的分析處理環(huán)境,數(shù)據(jù)倉庫正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。數(shù)據(jù)倉庫的數(shù)據(jù)從聯(lián)機的事務處理系統(tǒng)、異構(gòu)的外部數(shù)據(jù)源、脫機的歷史業(yè)務數(shù)據(jù)中得到。它是一個聯(lián)機的系統(tǒng),專門為分析統(tǒng)計和決策支持應用服務,通過它可滿足決策支持和聯(lián)機分析應用所要求的一切。數(shù)據(jù)倉庫的概念和特征著名的數(shù)據(jù)倉庫專家在其著作《BuildingtheDataWarehouse》一書中給予如下描述:數(shù)據(jù)倉庫(DataWarehouse)是一個面向主題的(SubjectOriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉庫概念的兩個層次功能上:數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;內(nèi)容和特征上:數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。數(shù)據(jù)倉倉庫特特點-面向主主題數(shù)據(jù)倉倉庫是是面向向主題題而進進行數(shù)數(shù)據(jù)組組織的的。主主題是是一個個在較較高層層次上上對數(shù)數(shù)據(jù)的的抽象象,在邏輯輯意義義上,它是對對企業(yè)業(yè)中某某一宏宏觀領(lǐng)領(lǐng)域所所涉及及的分分析對對象,,即將數(shù)據(jù)據(jù)組織織成主主題域域。數(shù)據(jù)倉倉庫特特點-集成數(shù)據(jù)倉倉庫中中的數(shù)數(shù)據(jù)是是集成成的。。數(shù)據(jù)據(jù)倉庫庫中的的數(shù)據(jù)據(jù)是在在對原原有分分散的的數(shù)據(jù)據(jù)庫數(shù)數(shù)據(jù)抽抽取、、清理理的基基礎(chǔ)上上經(jīng)過過系統(tǒng)統(tǒng)加工工、匯匯總和和整理理得到到的,,必須須消除源源數(shù)據(jù)據(jù)中的的不一一致性性,以保保證數(shù)數(shù)據(jù)倉倉庫內(nèi)內(nèi)的信信息是是關(guān)于于整個個企業(yè)業(yè)的一一致的的全局局信息息。在在數(shù)據(jù)據(jù)倉庫庫建設設中,,這是是最關(guān)關(guān)鍵最最復雜雜的一一個步步驟,,主要要工作作有::一是是,進進行數(shù)數(shù)據(jù)的的綜合合和計計算;;二是是,統(tǒng)統(tǒng)一源源數(shù)據(jù)據(jù)中所所有不不一致致和矛矛盾的的地方方(如同名異異義、異異名同義義、字長長不一致致、單位位不一致致等)。數(shù)據(jù)倉庫庫四個特特點-相對穩(wěn)定定操作型數(shù)數(shù)據(jù)庫中中的數(shù)據(jù)據(jù)通常實實時更新新,數(shù)據(jù)據(jù)根據(jù)需需要及時時發(fā)生變變化。數(shù)數(shù)據(jù)倉庫庫的數(shù)據(jù)據(jù)主要供供企業(yè)決決策分析析之用,,所涉及及的數(shù)據(jù)據(jù)操作主主要是數(shù)數(shù)據(jù)查詢詢,一旦旦某個數(shù)數(shù)據(jù)進入入數(shù)據(jù)倉倉庫以后后,一般般情況下下將被長長期保留留,也就就是數(shù)據(jù)據(jù)倉庫中中一般有大量的的查詢操操作,但修改和刪刪除操作作很少,通常只只需要定期的加加載、刷刷新。數(shù)據(jù)倉庫庫四個特特點-相對穩(wěn)定定的數(shù)據(jù)倉庫庫四個特特點-反映歷史史變化數(shù)據(jù)倉庫庫中的數(shù)數(shù)據(jù)通常常包含歷歷史信息息,系統(tǒng)統(tǒng)記錄了了企業(yè)從從過去某某一時點點(如開始應應用數(shù)據(jù)據(jù)倉庫的的時點)到目前的的各個階階段的信信息,通通過這些些信息,,可以對對企業(yè)的的發(fā)展歷歷程和未未來趨勢勢做出定定量分析析和預測測。數(shù)據(jù)據(jù)倉庫中中的數(shù)據(jù)據(jù)時間期期限要遠遠遠長于于操作型型系統(tǒng)中中的數(shù)據(jù)據(jù)時間期期限。操操作型系系統(tǒng)的時時間期限限一般是是60~90天,而數(shù)據(jù)據(jù)倉庫中中數(shù)據(jù)的的時間期期限通常常是5~10年。數(shù)據(jù)倉庫庫四個特特點-反映歷史史變化數(shù)據(jù)倉庫庫本質(zhì)如果說傳傳統(tǒng)數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)的要求求是快速速、準確確、安全全、可靠靠地將數(shù)數(shù)據(jù)存進進數(shù)據(jù)庫庫中的話話,那么么數(shù)據(jù)倉倉庫的要要求就是是能夠準準確、安安全、可可靠地從從數(shù)據(jù)庫庫中取出出數(shù)據(jù),,經(jīng)過加加工轉(zhuǎn)換換成有規(guī)規(guī)律信息息之后,,再供管管理人員員進行分分析使用用。數(shù)據(jù)倉庫庫所要研研究和解解決的問問題就是是從數(shù)據(jù)據(jù)庫中獲獲取信息息。數(shù)據(jù)倉庫庫系統(tǒng)體體系結(jié)構(gòu)構(gòu)數(shù)據(jù)源數(shù)據(jù)源是是數(shù)據(jù)倉倉庫系統(tǒng)統(tǒng)的基礎(chǔ)礎(chǔ),是整整個系統(tǒng)統(tǒng)的數(shù)據(jù)據(jù)源泉。。通常包包括企業(yè)業(yè)內(nèi)部信信息和外外部信息息。內(nèi)部部信息包包括各種種業(yè)務處處理數(shù)據(jù)據(jù)和各類類文檔數(shù)數(shù)據(jù)。外外部信息息包括各各類法律律法規(guī)、、市場信信息和競競爭對手手的信息息等等。。數(shù)據(jù)的存存儲與管管理數(shù)據(jù)的存存儲與管管理是整整個數(shù)據(jù)據(jù)倉庫系系統(tǒng)的核核心。針針對現(xiàn)有有各業(yè)務務系統(tǒng)的的數(shù)據(jù),,進行抽抽取、清清理,并并有效集集成,按按照主題題進行組組織。數(shù)數(shù)據(jù)倉庫庫按照數(shù)數(shù)據(jù)的覆覆蓋范圍圍可以分分為企業(yè)業(yè)級數(shù)據(jù)據(jù)倉庫和和部門級級數(shù)據(jù)倉倉庫(通通常稱為為數(shù)據(jù)集集市)。。OLAP服務器OLAP服務器對對分析需需要的數(shù)數(shù)據(jù)進行行有效集集成,按按多維模模型予以以組織,,以便進進行多角角度、多多層次的的分析,,并發(fā)現(xiàn)現(xiàn)趨勢。。前端工具具前端工具具主要包包括各種種報表工工具、查查詢工具具、數(shù)據(jù)據(jù)分析工工具、數(shù)數(shù)據(jù)挖掘掘工具以以及各種種基于數(shù)數(shù)據(jù)倉庫庫或數(shù)據(jù)據(jù)集市的的應用開開發(fā)工具具。聯(lián)機分析析處理((OLAP)聯(lián)機分析析處理((OLAP)的概念念最早是是由關(guān)系系數(shù)據(jù)庫庫之父于1993年提出的的。當時時,Codd認為聯(lián)機事務務處理(OLTP)已不能滿足足終端用戶對對數(shù)據(jù)庫查詢詢分析的需要要,SQL對大量數(shù)據(jù)庫庫進行的簡單單查詢也不能能滿足用戶分分析的需求。。用戶的決策策分析需要對對關(guān)系數(shù)據(jù)庫庫進行大量計計算才能得到到結(jié)果,而查查詢的結(jié)果并并不能滿足決決策者提出的的需求。因此此Codd提出了多維數(shù)數(shù)據(jù)分析的概概念即OLAP。聯(lián)機分析處理理(OLAP)OLAP是一種軟件技技術(shù),它使分分析人員能夠夠迅速、一致致、交互地從從各個方面觀觀察信息,以以達到深入理理解數(shù)據(jù)的目目的,這些信信息是從原始始數(shù)據(jù)直接轉(zhuǎn)轉(zhuǎn)換過來的,,它們以用戶戶容易理解的的方式反映企企業(yè)的真實情情況。OLAP大部分策略都都是將關(guān)系型的或或普通的數(shù)據(jù)據(jù)進行多維數(shù)數(shù)據(jù)存貯,以便于進行行分析,從而而達到聯(lián)機分分析處理的目目的。這種多多維DB也被看作一個個超立方體,,沿著各個維維方向存貯數(shù)數(shù)據(jù)。OLAP的多維數(shù)據(jù)概概念維是人們觀察察問題的特定定角度,例如如:時間維、、地理維、產(chǎn)產(chǎn)品維。假定某某是個個百貨零售商商,有一些因因素會影響他他的銷售業(yè)務務,如商品、、時間、商店店。這里,商商品、時間和和商店都是維維。各個商店店的集合是一一維,時間的的集合是一維維,商品的集集合是一維。。維就是相同同類數(shù)據(jù)的集集合,也可以以理解為變量量。而每個商商店、每段時時間、每種商商品都是某一一維的一個成成員。每個銷銷售事實由一一個特定的商商店、特定的的時間和特定定的商品組成成。OLAP的多維數(shù)據(jù)概概念數(shù)據(jù)單元。多多維數(shù)據(jù)集的的取值稱為數(shù)數(shù)據(jù)單元。當在多維數(shù)據(jù)據(jù)集的每個維維都選中一個個維成員以后后,這些維成成員的組合就就惟一確定了了觀察變量的的值。OLAP多維數(shù)據(jù)分析析1.切片和切塊(SliceandDice)在多維數(shù)據(jù)據(jù)結(jié)構(gòu)中,按二維進行行切片,按三維進行行切塊,可得到所需需要的數(shù)據(jù)據(jù)。如在““城市、產(chǎn)產(chǎn)品、時間間”三維立立方體中進進行切塊和和切片,可得到各城城市、各產(chǎn)產(chǎn)品的銷售售情況。2.鉆取(Drill)鉆取包含向向下鉆取(Drill-down)和向上鉆取取(Drill-up)/上卷(Roll-up)操作,鉆鉆取的深度度與維所劃劃分的層次次相對應。。3.旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)通過旋轉(zhuǎn)可可以得到不不同視角的的數(shù)據(jù)。案例說明現(xiàn)有某企業(yè)業(yè)1995和1996兩年,,在廣州和和上海兩個個城市的各各類電器產(chǎn)產(chǎn)品的銷售售數(shù)據(jù)。該組數(shù)據(jù)就就是典型的的多維數(shù)據(jù)據(jù),其維度度分別為時時間、城市市、產(chǎn)品。。OLAP的分析方法法(一)切切片、切塊塊OLAP的分析方法法(二)鉆鉆取按時間維向向下鉆取按時間維向向上鉆取60OLAP的分析方法法(三)旋旋轉(zhuǎn)如果需要比比較同一個個季度中不不同年份的的部門銷售售數(shù)據(jù),那那么應該如如何調(diào)整上上表的數(shù)據(jù)據(jù)組織方式式?OLAP的的分析方法法(三)旋旋轉(zhuǎn)練習一已有2000至2009年間間全國省會會城市的中中心城區(qū)和和郊區(qū)的平平均房價數(shù)數(shù)據(jù),請問問該數(shù)據(jù)應應如何用三三維數(shù)據(jù)立立方來表示示?如果想抽取取廣州地區(qū)區(qū)2000至2009年中心心城區(qū)和郊郊區(qū)的平均均房價數(shù)據(jù)據(jù)應如何對對數(shù)據(jù)立方方進行切片片?如果想抽取取2005年全國省省會城市的的中心城區(qū)區(qū)和郊區(qū)的的平均房價價數(shù)據(jù)應如如何對數(shù)據(jù)據(jù)立方進行行切片?年份城市地段000905廣州南京……中心城區(qū)郊區(qū)…………廣州05練習二已知南京廣廣州武漢三三個省會城城市的2008年平平均房價和和季度平均均房價,請請畫出數(shù)據(jù)據(jù)鉆取的表表格。2008年平均房價南京廣州武漢2008年平均房價第一季度第二季度第三季度第四季度南京廣州武漢練習三已知南京廣廣州武漢三三個省會城城市2008年和2009年每個季度度的平均房房價。如果要比較較同一年不不同季度的的房價,那那么應該如如何列出數(shù)數(shù)據(jù)?如果要比較較不同年同同一季度的的房價,那那么應該如如何列出數(shù)數(shù)據(jù)?2008年2009年第一季度第二季度第三季度第四季度第一季度第二季度第三季度第四季度廣州南京武漢第一季度第二季度第三季度第四季度20082009200820092008200920082009廣州南京武漢課堂練習習已有2005至2009年間全國國各大區(qū)區(qū)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論