




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)倉庫Data Warehouse數(shù)據(jù)倉庫從數(shù)據(jù)庫到數(shù)據(jù)倉庫數(shù)據(jù)倉庫及其四大特征數(shù)據(jù)倉庫的基本結構數(shù)據(jù)集市與數(shù)據(jù)倉庫數(shù)據(jù)倉庫的應用2事務處理應用中的數(shù)據(jù)庫技術數(shù)據(jù)庫技術的進步關系數(shù)據(jù)模型的出現(xiàn)極大地促進了數(shù)據(jù)庫技術的發(fā)展和聯(lián)機事務處理(OLTP) 技術的發(fā)展,數(shù)據(jù)庫技術被廣泛應用于商業(yè)管理、政府辦公、科學研究和工程開發(fā)等領域數(shù)據(jù)量的變化數(shù)據(jù)庫中的數(shù)據(jù)量已經(jīng)從過去的兆(M)/千兆(G)字節(jié)過渡到現(xiàn)在的兆兆(T)/千兆兆(P)字節(jié)3操作型/分析型隨著市場競爭的加劇、企業(yè)需求的發(fā)展以及數(shù)據(jù)量的不斷增大,數(shù)據(jù)處理被劃分為兩大類:操作型處理分析型處理所面向的數(shù)據(jù)被劃分為兩大類:操作型數(shù)據(jù)分析型數(shù)據(jù)4操
2、作型處理也叫事務處理,是指對數(shù)據(jù)庫的日常聯(lián)機訪問操作,通常是對一個或一組記錄的查詢和修改,主要是為企業(yè)特定的應用服務的,所以也叫聯(lián)機事務處理。On-Line Transaction Processing,(OLTP)通常僅僅是對一個或一組記錄的查詢或修改;查詢簡單,但執(zhí)行頻率高;人們關心的是處理的響應時間、數(shù)據(jù)的安全性和完整性等指標。5分析型處理也叫做信息型處理,主要用于企業(yè)管理人員的決策分析,為制訂企業(yè)的未來經(jīng)營管理計劃提供輔助決策信息。需要對大量的事務型數(shù)據(jù)進行統(tǒng)計、歸納和分析;需要訪問大量的歷史數(shù)據(jù);執(zhí)行頻率和對響應時間的要求都不高。典型的的分析型處理決策支持系統(tǒng) ( DSS -Deci
3、sion Support System )6操作型/分析型數(shù)據(jù)(1/2)在現(xiàn)代計算機信息系統(tǒng)中,數(shù)據(jù)的作用有兩個方面:事務處理和分析處理(數(shù)據(jù)分析),不同的用戶(處理)需要不同的數(shù)據(jù)信息。操作型數(shù)據(jù)事務處理所需要的細節(jié)性的數(shù)據(jù),是面向企業(yè)員工的日常業(yè)務處理過程的,通常由數(shù)據(jù)庫管理系統(tǒng)來負責其存儲與管理。分析型數(shù)據(jù)分析處理所需的綜合性數(shù)據(jù),是面向企業(yè)管理人員的決策需要的。7操作型/分析型數(shù)據(jù)(2/2)8特 性操 作 型 數(shù) 據(jù)(DB)分 析 型 數(shù) 據(jù)(DW)定位面向應用的事務處理面向主題的數(shù)據(jù)分析DB設計E-R模型星型/雪花模型,數(shù)據(jù)立方體數(shù)據(jù)當前的、最新的歷史的,具有時間跨度匯總原始的,細節(jié)
4、的集成的,一致的視圖詳細的,關系的總體的,多維的操作類型讀/寫(可變的)讀(穩(wěn)定的)存取請求可預知的事先未知的訪問記錄一次操作少量記錄一次操作大量記錄DB規(guī)模100MB GBTB工作單位短的,簡單事務復雜查詢性能要求對性能要求高對性能要求較寬松信息系統(tǒng)的發(fā)展歷史(1/2)9事務處理系統(tǒng)(TPS)數(shù) 據(jù) 庫管理信息系統(tǒng)(MIS)統(tǒng) 計 報 表主管信息系統(tǒng)(EIS)外 部 數(shù) 據(jù)決策支持系統(tǒng)(DSS)算 法OLAP/DM數(shù)據(jù)倉庫信息系統(tǒng)的發(fā)展歷史(2/2)1090年代之前90年代之后數(shù)據(jù)庫方式數(shù)據(jù)倉庫方式數(shù)據(jù)與應用分離,以實現(xiàn)數(shù)據(jù)高度共享、支持日常業(yè)務處理過程為目的(OLTP)以支持經(jīng)營管理過程中
5、的決策制定為目的(DSS,OLAP, DM)決策支持系統(tǒng)決策支持系統(tǒng)是上世紀70年代興起的一種計算機應用技術,用于幫助企業(yè)領導作輔助性決策。傳統(tǒng)的決策支持系統(tǒng)由三個組成部分數(shù)據(jù)算法與模型展示11展 示模 型 庫數(shù) 據(jù) 庫方 法 庫事務處理環(huán)境和分析處理(1/2)數(shù)據(jù)庫技術一直力圖使自己能夠勝任從事務處理、批處理到分析處理的各種類型的處理任務為了進行分析型數(shù)據(jù)的處理,人們在關系數(shù)據(jù)庫中放寬了對冗余的限制,引入了統(tǒng)計及綜合數(shù)據(jù),在事務處理環(huán)境下建立了傳統(tǒng)的DSS12事務處理環(huán)境和分析處理(2/2)作為數(shù)據(jù)管理手段的數(shù)據(jù)庫技術盡管在事務處理方面取得了巨大的成功,但它對分析處理的支持卻一直不能令人滿意
6、。統(tǒng)計、綜合數(shù)據(jù)的應用邏輯卻是分散雜亂的、非系統(tǒng)化的,因此分析功能有限,不靈活,響應慢,維護困難。以業(yè)務處理為主的OLTP和分析處理為主的DSS應用,在同一個數(shù)據(jù)庫系統(tǒng)中有明顯沖突。數(shù)據(jù)只為職員服務,不為老板服務。13事務處理環(huán)境不適宜.的原因在傳統(tǒng)的以數(shù)據(jù)庫為核心的事務處理環(huán)境中不適宜建立DSS等分析型應用,其原因主要有以下六條:事務處理和分析處理的性能特性不同數(shù)據(jù)集成問題數(shù)據(jù)的動態(tài)集成問題歷史數(shù)據(jù)問題數(shù)據(jù)的綜合問題數(shù)據(jù)的訪問問題141. 性能特性不同事務處理用戶每次操作處理的時間短,存取數(shù)據(jù)量小,但操作頻率高,并發(fā)程度大允許多個用戶按分時方式使用資源分析處理每次分析可能需要連續(xù)運行很長的時
7、間,存取數(shù)據(jù)量大,但很少做這樣的分析處理,也沒有并發(fā)執(zhí)行的要求占用大量的資源152.數(shù)據(jù)集成問題(1/3)分析處理全面而正確的數(shù)據(jù)是有效的分析和決策的首要前提DSS需要集成的數(shù)據(jù),包括整個企業(yè)內部各部門的相關數(shù)據(jù),以及企業(yè)外部、競爭對手等處的相關數(shù)據(jù)因此,用于分析處理的數(shù)據(jù)可能來自多種不同的數(shù)據(jù)源:同構/異構數(shù)據(jù)庫文件系統(tǒng)Internet外部的用戶數(shù)據(jù)162.數(shù)據(jù)集成問題(2/3)事務處理一般只需要與本部門業(yè)務有關的當前細節(jié)數(shù)據(jù),而對整個企業(yè)范圍內的集成應用考慮很少,這就造成大部分企業(yè)內部的數(shù)據(jù)是分散而非集成的事務處理應用的分散性“蜘蛛網(wǎng)”問題數(shù)據(jù)不一致問題數(shù)據(jù)類型、單位的不一致性同名異義、同
8、義異名現(xiàn)象因數(shù)據(jù)的重復抽取而帶來的數(shù)據(jù)不一致性缺少分析所需要的外部、非結構化數(shù)據(jù)172.數(shù)據(jù)集成問題(3/3)對于需要集成數(shù)據(jù)的DSS應用來說,在應用程序中對事務處理環(huán)境中的這些紛繁復雜的數(shù)據(jù)進行集成將帶來下述問題:大大加重程序員的負擔重復計算極低的分析處理效率183. 數(shù)據(jù)的動態(tài)集成問題靜態(tài)集成對所需數(shù)據(jù)進行一次集成,以后就不再發(fā)生變化動態(tài)集成對集成后的數(shù)據(jù)進行周期性刷新在采用靜態(tài)集成策略時,如果數(shù)據(jù)源中的數(shù)據(jù)發(fā)生了變化,那么這些變化就不能反映給決策者,導致決策使用的是過時的數(shù)據(jù)。因此集成數(shù)據(jù)必須以一定的周期進行刷新(即采用動態(tài)集成策略),但傳統(tǒng)的事務處理環(huán)境并不具備動態(tài)集成的能力194.
9、歷史數(shù)據(jù)問題(1/2)事務處理一般只需要當前數(shù)據(jù),在數(shù)據(jù)庫中一般也只存儲短期數(shù)據(jù) (3-6個月),且不同數(shù)據(jù)的保存期限也不一樣數(shù)據(jù)庫中的過時數(shù)據(jù)(即歷史數(shù)據(jù))雖然也能通過數(shù)據(jù)轉儲等方式保存下來,但往往被束之高閣,未能得到充分利用分析處理更看重歷史數(shù)據(jù) (5-10年),可以通過對大量歷史數(shù)據(jù)的詳細分析來把握企業(yè)的發(fā)展趨勢歷史數(shù)據(jù)對于事務處理作用不大,但對于決策分析而言,如果沒有歷史數(shù)據(jù)的支撐,就變成了“無源之水”、“無本之木”204. 歷史數(shù)據(jù)問題(2/2)215. 數(shù)據(jù)的綜合問題事務處理需要的是當前的細節(jié)性操作數(shù)據(jù),而分析處理需要的往往是大量的總結性分析型數(shù)據(jù)事務處理系統(tǒng)中積累的是大量的細節(jié)數(shù)
10、據(jù),而分析處理并不對這些細節(jié)數(shù)據(jù)進行分析,其原因是:細節(jié)數(shù)據(jù)量太大,影響處理效率不利于分析人員將注意力集中于有用的信息上這就是常說的數(shù)據(jù)庫中“數(shù)據(jù)豐富、信息貧困”現(xiàn)象因此,在分析前往往需要對細節(jié)數(shù)據(jù)進行不同程度的綜合,傳統(tǒng)的事務處理系統(tǒng)不具備這種綜合能力,而且在數(shù)據(jù)庫系統(tǒng)中,這種綜合還往往因為是一種數(shù)據(jù)冗余而被限制226. 數(shù)據(jù)的訪問問題事務處理需要提供多種不同類型的數(shù)據(jù)訪問操作對于需要修改的數(shù)據(jù)必須實時“更新”數(shù)據(jù)庫分析處理數(shù)據(jù)的訪問操作以“讀”操作為主不需要實時的“更新”操作,但需要定時“刷新”23綜上所述在事務處理環(huán)境中直接構建分析處理應用是不合適的,要提高分析處理和決策支持的效率和有效
11、性,必須將分析型處理及其所需的綜合性分析數(shù)據(jù)從傳統(tǒng)的事務型處理和細節(jié)性操作數(shù)據(jù)中分離出來按照分析型處理的需要重新進行組織,建立單獨的分析處理環(huán)境數(shù)據(jù)倉庫正是為建立這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術24數(shù)據(jù)倉庫出現(xiàn)的原因將數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫分離開來,從而:提高兩個系統(tǒng)的性能提高操作型數(shù)據(jù)庫的事務吞吐量兩個系統(tǒng)中數(shù)據(jù)的結構、內容和用法的不同建立數(shù)據(jù)倉庫的目的并不是要代替?zhèn)鹘y(tǒng)的事務處理系統(tǒng)/數(shù)據(jù)庫,而是為了適應因市場商業(yè)經(jīng)營行為的改變和市場競爭程度的加劇而進行的分析型處理的需要數(shù)據(jù)倉庫技術正成為企業(yè)信息集成和輔助決策應用的關鍵技術之一25數(shù)據(jù)倉庫從數(shù)據(jù)庫到數(shù)據(jù)倉庫數(shù)據(jù)倉庫及其四大
12、特征數(shù)據(jù)倉庫的基本結構數(shù)據(jù)集市與數(shù)據(jù)倉庫數(shù)據(jù)倉庫的應用26數(shù)據(jù)倉庫W.H.Inmon 在建立數(shù)據(jù)倉庫一書中,對數(shù)據(jù)倉庫的定義為:數(shù)據(jù)倉庫就是一個面向主題的、集成的、非易失的(穩(wěn)定的)、時變的(隨時間不斷變化的)數(shù)據(jù)集合,用于支持經(jīng)營管理過程中的決策制定Tim.Shelter(Informix公司負責研究與開發(fā)的副總裁)數(shù)據(jù)倉庫將分布在企業(yè)網(wǎng)絡中不同信息島上的商業(yè)數(shù)據(jù)集成到一起,存貯在一個單一的集成關系型數(shù)據(jù)庫中。利用這種集成信息,可方便用戶對信息的訪問,更可使決策人員對一段時間內的歷史數(shù)據(jù)進行分析,研究事物發(fā)展走勢27數(shù)據(jù)倉庫的特征面向主題集成非易失(穩(wěn)定的)時變的(隨時間不斷變化)281.
13、面向主題(1/15)面向應用的數(shù)據(jù)組織(數(shù)據(jù)庫)29采購子系統(tǒng):訂單(訂單號,供應商號,總金額,日期)訂單細則(訂單號,商品號,類別,單價,數(shù)量)供應商(供應商號,供應商名,地址,電話)銷售子系統(tǒng):顧客(顧客號,姓名,性別,年齡,文化程度,地址,電話)銷售(員工號,顧客號,商品號,數(shù)量,單價,日期)1. 面向主題(2/15)30庫存管理子系統(tǒng):領料單(領料單號,領料人,商品號,數(shù)量,日期)進料單(進料單號,訂單號,進料人,收料人,日期)庫存(商品號,庫房號,庫存量,日期)庫房(庫房號,倉庫管理員,地點,庫存商品描述)人事管理子系統(tǒng):員工(員工號,姓名,性別,年齡,文化程度,部門號)部門(部門號
14、,部門名稱,部門主管,電話)面向應用的數(shù)據(jù)組織(數(shù)據(jù)庫)1. 面向主題(3/15)面向應用的數(shù)據(jù)組織特點表達數(shù)據(jù)流程和業(yè)務中的單據(jù)或文檔對應邏輯、數(shù)據(jù)不完全分離和部門、組織相關面向應用的數(shù)據(jù)組織基本上是按照企業(yè)內部的業(yè)務活動及其需要的相關數(shù)據(jù)來組織數(shù)據(jù)的存儲的,雖然能夠方便高效的支持OLTP,但沒有實現(xiàn)真正的數(shù)據(jù)與應用分離,其抽象程度也不夠高311. 面向主題(4/15)主題(Subject)主題是較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。在邏輯意義上,是對應企業(yè)中某一宏觀分析領域涉及的分析對象例如:CRM,客戶關系管理優(yōu)質客戶的挖掘新客戶的發(fā)現(xiàn)ERP,企業(yè)資源計劃銷售管
15、理產(chǎn)品質量控制庫存管理321. 面向主題(5/15)面向主題面向主題是指數(shù)據(jù)倉庫內的信息是按主題進行組織的,為按主題進行決策的過程提供信息傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)是原始、基礎數(shù)據(jù)而特定分析領域數(shù)據(jù)則是需要對它們作必要的抽取、加工與總結而形成數(shù)據(jù)倉庫是面向分析、決策人員的主觀要求的,不同的用戶有不同的要求,同一個用戶的要求也會隨時間而經(jīng)常變化,因此,數(shù)據(jù)倉庫中的主題有時會因用戶主觀要求的變化而變化331. 面向主題(6/15)如果按照面向主題的方式進行數(shù)據(jù)組織,首先應該抽取主題,即按照管理人員的分析要求來確定主題,而與每個主題相關的數(shù)據(jù)又與有關的事務處理所需的數(shù)據(jù)不盡相同。在該例中,我們可以抽取出三個
16、不同的主題(即分析對象)及其相關的數(shù)據(jù):商品供應商顧客341. 面向主題(7/15)主題一:商品商品固有信息商品號,商品名,類別,顏色等商品采購信息商品號,供應商號,供應價,供應日期,供應量等商品銷售信息商品號,顧客號,售價,銷售日期,銷售量等商品庫存信息商品號,庫房號,庫存量,日期等351. 面向主題(8/15)主題二:供應商供應商固有信息供應商號,供應商名,地址,電話等供應商品信息供應商號,商品號,供應價,供應日期,供應量等主題三:顧客顧客固有信息顧客號,顧客名,性別,年齡,文化程度,住址,電話等顧客購物信息顧客號,商品號,售價,購買日期,購買量等361. 面向主題(9/15)在每個主題中
17、,都包含了有關該主題的所有信息,同時又拋棄了與分析處理無關或不需要的數(shù)據(jù),從而將原本分散在各個操作性處理系統(tǒng)中的有關信息集中在一個主題中,形成有關該主題的一個完整一致的描述面向主題的數(shù)據(jù)組織方式所強調的就是要形成一個這樣一致的信息集合37商品固有信息庫存信息銷售信息采購信息面向主題的數(shù)據(jù)組織方法1. 面向主題(10/15)不同的主題之間也有重疊的內容,但這種重疊的特點是:是邏輯上的,而不是物理存儲上的重疊是部分細節(jié)的重疊,而不是統(tǒng)計信息的重疊可以反映不同主題之間的直接和間接的聯(lián)系38商 品供應商顧 客主題之間的重疊關系示意圖1. 面向主題(11/15)每個主題所需數(shù)據(jù)的物理存儲:多維數(shù)據(jù)庫(M
18、DDB,Multi-Dimensional Database)用多維數(shù)組形式存儲數(shù)據(jù)關系數(shù)據(jù)庫用一組關系來組織數(shù)據(jù)的存儲,同一主題的一組關系都有一個公共的關鍵字在關系中存放的不是細節(jié)性的業(yè)務數(shù)據(jù),而是經(jīng)過一定程度的綜合形成的綜合性數(shù)據(jù)這是目前實現(xiàn)數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲的常用方法391. 面向主題(12/15)以“商品”這個主題為例,其公共碼鍵是“商品號”,其關系存儲如下:商品的固有信息細節(jié)數(shù)據(jù)商品表(商品號,商品名,類型,顏色,)綜合數(shù)據(jù)商品表1(商品類別,商品顏色)商品表2(價格,商品種類)401. 面向主題(13/15)采購信息細節(jié)數(shù)據(jù)采購表(商品號,供應商號,供應日期,供應價,)綜合數(shù)據(jù):根據(jù)不同的時間段(月、季度、年)來統(tǒng)計商品的采購總量采購表H1(商品號,時間段1,采購總量,)采購表Hn(商品號,時間段n,采購總量,)411. 面向主題(14/15)銷售信息細節(jié)數(shù)據(jù)銷售表(商品號,顧客號,銷售日期,售價,銷售量,)綜合數(shù)據(jù):根據(jù)不同的時間段(日、周、月、年)統(tǒng)計得到的銷售總量銷售表1(商品號,時間段1,銷售總量,)銷售表n(商品號,時間段n,銷售總量,)421. 面向主題(15/15)庫存信息細節(jié)數(shù)據(jù)庫存表(商品號,庫房號,庫存量,日期,)綜合數(shù)據(jù):根據(jù)不同的時間點抽樣得到的商品庫存數(shù)量庫存表1(商品號,庫房號,庫存量,星期,)庫存表n(商品號,庫房號
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年廣東廣州番禺區(qū)中醫(yī)院招聘編外人員筆試備考題庫及參考答案詳解
- 2024年海南三亞市海棠區(qū)村(社區(qū))工作者儲備庫招聘100人筆試備考題庫含答案詳解
- 2023年中國歷史研究院非事業(yè)編制人員招聘5人筆試高頻難、易錯點備考題庫參考答案詳解
- 2024年河北交通職業(yè)技術學院第三次選聘7人筆試備考題庫及參考答案詳解一套
- 2025河南新鄉(xiāng)某國有企業(yè)招聘人力資源部經(jīng)理1名考前自測高頻考點模擬試題及答案詳解一套
- 中國厄貝沙坦膠囊行業(yè)發(fā)展趨勢及發(fā)展前景研究報告2025-2028版
- 中國醫(yī)用高分子制品行業(yè)發(fā)展分析及發(fā)展前景與投資研究報告2025-2028版
- 中國制造裝備行業(yè)競爭分析及發(fā)展前景預測報告2025-2028版
- 中國保溫飯盒市場發(fā)展分析及市場趨勢與投資方向研究報告2025-2028版
- 2025年中國高壓系統(tǒng)超能節(jié)電裝置行業(yè)市場調查、投資前景及策略咨詢報告
- 敦煌學智慧樹知到期末考試答案章節(jié)答案2024年西北師范大學
- YYT 0698.5-2009 最終滅菌醫(yī)療器械包裝材料 第5部分:透氣材料與塑料膜組成的可密封組合袋和卷材 要求和試驗方法
- 廣東省佛山市南海區(qū)2021-2022學年八年級下學期期末數(shù)學試題
- JT-T-1302.1-2019機動車駕駛員計時培訓系統(tǒng)第1部分:計時終端技術要求
- 糖尿病家庭醫(yī)生:簽約講座計劃
- 報關部報關員崗位月度KPI績效考核表
- 呼吸衰竭診療規(guī)范
- MOOC 化工熱力學-鹽城師范學院 中國大學慕課答案
- (高清版)DZT 0064.88-2021 地下水質分析方法第88部分:14C的測定合成苯-液體閃爍計數(shù)法
- 《農村小學生自主閱讀能力培養(yǎng)的策略研究》課題結題報告
- 2024年汽車駕駛員(技師)理論考試題及答案
評論
0/150
提交評論