UIT2數(shù)據(jù)倉庫的環(huán)境_第1頁
UIT2數(shù)據(jù)倉庫的環(huán)境_第2頁
UIT2數(shù)據(jù)倉庫的環(huán)境_第3頁
UIT2數(shù)據(jù)倉庫的環(huán)境_第4頁
UIT2數(shù)據(jù)倉庫的環(huán)境_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1unit twounit two數(shù)據(jù)倉庫環(huán)境數(shù)據(jù)倉庫環(huán)境 2學(xué)完本講后,你應(yīng)該能夠了解:1.數(shù)據(jù)倉庫的定義;2.數(shù)據(jù)倉庫的特點(diǎn)是:面向主題的、集成的、非易失的和隨時(shí)間變化的;3.數(shù)據(jù)倉庫的多粒度數(shù)據(jù)結(jié)構(gòu)可滿足不同層次的需求,且粒度與分割技術(shù)是提高數(shù)據(jù)倉庫性能的兩個(gè)關(guān)鍵技術(shù);4.建立數(shù)據(jù)倉庫的典型過程是由核心逐步擴(kuò)展的過程,隨著擴(kuò)展,數(shù)據(jù)倉庫面臨著性能下降的問題;5.數(shù)據(jù)倉庫中的數(shù)據(jù)不是多數(shù)據(jù)庫數(shù)據(jù)的簡單堆積,而是通過多種主要方式來組織:簡單堆積文件、輪轉(zhuǎn)綜合文件、簡單直接文件和連續(xù)文件;6.數(shù)據(jù)倉庫中的數(shù)據(jù)是有生命周期的,需要定期做數(shù)據(jù)清理。本 講 主 要 目 標(biāo)3一數(shù)據(jù)倉庫的定義一數(shù)據(jù)倉庫

2、的定義二數(shù)據(jù)倉庫的特點(diǎn)二數(shù)據(jù)倉庫的特點(diǎn)三數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)三數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)四建立數(shù)據(jù)倉庫的典型過程四建立數(shù)據(jù)倉庫的典型過程五數(shù)據(jù)倉庫的數(shù)據(jù)組織形式五數(shù)據(jù)倉庫的數(shù)據(jù)組織形式六六. . 清理數(shù)據(jù)倉庫清理數(shù)據(jù)倉庫4數(shù)據(jù)倉庫數(shù)據(jù)倉庫的定義的定義5世 界 公 認(rèn) 的 數(shù) 據(jù) 倉 庫 概 念 創(chuàng) 始 人w.h.inmon在數(shù)據(jù)倉庫(building the data warehouse)一書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫就是面向主題的、集成的、非易失的(穩(wěn)定性)、隨時(shí)間變化(不同時(shí)間)的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。6數(shù)據(jù)倉庫數(shù)據(jù)倉庫的特點(diǎn)的特點(diǎn)71.數(shù)據(jù)倉庫的特點(diǎn)面向主題的面向主題的集

3、成的集成的隨時(shí)間變化的隨時(shí)間變化的非易失的非易失的數(shù)據(jù)倉庫數(shù)據(jù)倉庫82.面向主題的什么是主題? 主題是一個(gè)抽象的概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。在邏輯意義上,它是對應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象。92.面向主題的客戶財(cái)務(wù)信息客戶財(cái)務(wù)信息資產(chǎn)資產(chǎn)股票股票保險(xiǎn)保險(xiǎn)貸款貸款儲(chǔ)蓄儲(chǔ)蓄102.面向主題的傳統(tǒng)的操作型系統(tǒng)是圍繞公司的應(yīng)用進(jìn)行組織的.對一個(gè)保險(xiǎn)公司來說,應(yīng)用問題可能是汽車保險(xiǎn)、人壽保險(xiǎn)與意外傷亡保險(xiǎn)。公司的主要主題范圍可能是顧客、保險(xiǎn)單、保險(xiǎn)費(fèi)與索賠。112.面向主題的122.面向主題的什么是面向主題的數(shù)據(jù)組織方式?就是在較高層次上對分析對

4、象的數(shù)據(jù)的一個(gè)完整、一致的描述,能完整、統(tǒng)一地刻畫各個(gè)分析對象所涉及的企業(yè)的各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。 所謂較高層次是相對面向應(yīng)用的數(shù)據(jù)組織方式而言的,是指按照主題進(jìn)行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級別。132.面向主題的 主題以一組相關(guān)的表來具體實(shí)現(xiàn)142.面向主題的 主題的表通過一個(gè)公共鍵值聯(lián)系起來152.面向主題的 一個(gè)主題的數(shù)據(jù)可存儲(chǔ)在不同介質(zhì)上162.面向主題的 相同的數(shù)據(jù)既有綜合級,又有細(xì)節(jié)級,每個(gè)鍵碼都有一個(gè)時(shí)間元素173.集成的指數(shù)據(jù)由面向應(yīng)用的操作型環(huán)境向數(shù)據(jù)倉庫傳送時(shí)所進(jìn)行的集成183.集成的savingscurrent accountsloanscustomer19

5、3.集成的應(yīng)用問題的設(shè)計(jì)人員歷經(jīng)多年制定出來的不同的設(shè)計(jì)決策有很多種不同的表示方法,沒有什么應(yīng)用在編碼、命名習(xí)慣、屬性度量等方面是一致的,各個(gè)應(yīng)用問題設(shè)計(jì)員自由地做出他或她自己的設(shè)計(jì)決策。203.集成的214.非易失的操作型數(shù)據(jù)u一次訪問和處理一個(gè)記錄u可以對操作型環(huán)境中的數(shù)據(jù)進(jìn)行更新數(shù)據(jù)倉庫u一起載入與訪問大量數(shù)據(jù)u不進(jìn)行一般意義上的數(shù)據(jù)更新224.非易失的234.非易失的245.隨時(shí)間變化的u數(shù)據(jù)倉庫中的數(shù)據(jù)時(shí)間期限要遠(yuǎn)遠(yuǎn)長于操作型系統(tǒng)中的時(shí)間期限u操作型數(shù)據(jù)庫含有“當(dāng)前值”的數(shù)據(jù),這些數(shù)據(jù)的準(zhǔn)確性在訪問時(shí)是有效的,并且是可更新的;數(shù)據(jù)倉庫中的數(shù)據(jù)僅僅是一系列某一時(shí)刻生成的復(fù)雜的快照u操作

6、型數(shù)據(jù)的鍵結(jié)構(gòu)可能包含也可能不包含時(shí)間元素,而數(shù)據(jù)倉庫的鍵結(jié)構(gòu)總是包含某時(shí)間元素255.隨時(shí)間變化的01/9702/9703/97januaryfebruarymarchtimedata199719971997265.隨時(shí)間變化的27數(shù)據(jù)倉庫數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)281.數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)在數(shù)據(jù)倉庫中,數(shù)據(jù)存在著不同的細(xì)節(jié)級:u早期細(xì)節(jié)級(通常是備用的、批量的存儲(chǔ))u當(dāng)前細(xì)節(jié)級u輕度綜合數(shù)據(jù)級(數(shù)據(jù)集市)u高度數(shù)據(jù)綜合級291.數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)高度綜合級輕度綜合級當(dāng)前細(xì)節(jié)級早期細(xì)節(jié)級集成轉(zhuǎn)換dss映射元數(shù)據(jù)db分析工具數(shù)據(jù)倉庫的多粒度數(shù)據(jù)組織301.數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)312.粒度問題u

7、粒度 是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級別。細(xì)化程度越高,粒度級別越小u粒度問題是設(shè)計(jì)數(shù)據(jù)倉庫的一個(gè)最重要的方面322.粒度問題u粒度的設(shè)計(jì)問題:粒度的大小影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,同時(shí),影響數(shù)據(jù)倉庫所能回答的查詢類型332.粒度問題 粒度大小影響數(shù)據(jù)量342.粒度問題 粒度大小影響回答查詢的能力352.粒度問題 粒度的權(quán)衡很重要,但很難363.樣本數(shù)據(jù)庫樣本數(shù)據(jù)庫是真實(shí)檔案數(shù)據(jù)或輕度綜合數(shù)據(jù)的子集373.樣本數(shù)據(jù)庫u樣本數(shù)據(jù)庫是另一種在數(shù)據(jù)倉庫中改變粒度的方法u樣本數(shù)據(jù)庫不是通用的數(shù)據(jù)庫,只適用于作統(tǒng)計(jì)分析和觀察發(fā)展趨勢u樣本數(shù)據(jù)庫的最大好處是存取效率非常高384

8、.數(shù)據(jù)分割 u數(shù)據(jù)分割是把結(jié)構(gòu)相同的數(shù)據(jù)劃分成小的、不重疊的物理單元,它們能夠獨(dú)立地被處理u在數(shù)據(jù)倉庫中,圍繞分割問題的焦點(diǎn)不是該不該分割,而是如何分割u數(shù)據(jù)分割是數(shù)據(jù)倉庫中數(shù)據(jù)的第二個(gè)主要的設(shè)計(jì)問題394.數(shù)據(jù)分割 - 把結(jié)構(gòu)相同的數(shù)據(jù)劃分成小的、不重疊的物理單元404.數(shù)據(jù)分割 分割標(biāo)準(zhǔn)u時(shí)間u商業(yè)u地理位置u組織單位u所有上述標(biāo)準(zhǔn)414.數(shù)據(jù)分割 在應(yīng)用層對數(shù)據(jù)分割u系統(tǒng)層上分割 - 是某些dbms和操作系統(tǒng)的一種功能;u應(yīng)用層上分割 - 是由設(shè)計(jì)的應(yīng)用程序代碼完成,只由開發(fā)者和程序員嚴(yán)格地控制u分割的數(shù)據(jù)可以有不同的定義u能從一個(gè)處理集無損地轉(zhuǎn)移到另一個(gè)處理集42建立數(shù)據(jù)倉庫建立數(shù)據(jù)倉

9、庫的典型過程的典型過程43u建立數(shù)據(jù)倉庫只能采用有序地反復(fù)和一次一步的方式,進(jìn)行設(shè)計(jì)和載入數(shù)據(jù),即它是進(jìn)化性的,而非革命性的。u突然建立一個(gè)數(shù)據(jù)倉庫的費(fèi)用、需要的資源和對環(huán)境的破壞,都表明數(shù)據(jù)倉庫的建立要采用有序地反復(fù)和一次一步的方式44建立數(shù)據(jù)倉庫要采用有序地反復(fù)和一次一步的方式45數(shù)據(jù)倉庫的數(shù)據(jù)倉庫的數(shù)據(jù)組織形式數(shù)據(jù)組織形式461.數(shù)據(jù)倉庫的數(shù)據(jù)組織形式u簡單堆積文件u輪轉(zhuǎn)綜合文件u簡單直接文件u連續(xù)文件472.簡單堆積文件u最簡單、最常用的數(shù)據(jù)組織形式u從操作型環(huán)境中取出每天的事務(wù)處理(更新操作),然后綜合成數(shù)據(jù)倉庫記錄,這個(gè)綜合可根據(jù)任何組織到數(shù)據(jù)倉庫的主題領(lǐng)域來進(jìn)行,這里的事務(wù)處理是

10、以天來進(jìn)行綜合u例:對一個(gè)顧客的一個(gè)帳號的每天的所有活動(dòng)進(jìn)行合計(jì),并在一天一天的基礎(chǔ)上輸入數(shù)據(jù)倉庫482.簡單堆積文件493.輪轉(zhuǎn)綜合文件a.是簡單逐日堆積數(shù)據(jù)的一個(gè)變種b.數(shù)據(jù)用與前面相同的處理方法從操作型環(huán)境輸入到數(shù)據(jù)倉庫環(huán)境中,只是輸入到不同的結(jié)構(gòu)形式中。c.第一周的七天中的活動(dòng)被逐一綜合到七個(gè)每日相應(yīng)的位置,到第八天,將七個(gè)每日位置的數(shù)據(jù)加到一起,并放入第一周的數(shù)據(jù)位置中。d.月底將每周位置的數(shù)據(jù)加到一起,并放入當(dāng)月相應(yīng)的數(shù)據(jù)位置處503.輪轉(zhuǎn)綜合文件514.輪轉(zhuǎn)綜合文件與簡單堆積文件的比較525.簡單直接文件u是間隔一定時(shí)間的操作型數(shù)據(jù)的一個(gè)快照u不是在每天的基礎(chǔ)上組織數(shù)據(jù),而是以較

11、長時(shí)間為單位的,比如,一個(gè)星期或者一個(gè)月535.簡單直接文件546.連續(xù)文件a.依據(jù)兩個(gè)或更多的簡單直接文件能生成一種連續(xù)文件a.將兩個(gè)快照合并,創(chuàng)建一個(gè)連續(xù)文件b.把一個(gè)快照追加到一個(gè)以前生成的連續(xù)文件556.連續(xù)文件566.連續(xù)文件57清理數(shù)據(jù)倉庫清理數(shù)據(jù)倉庫581.數(shù)據(jù)是有生命周期的2.休眠數(shù)據(jù)u休眠數(shù)據(jù)休眠數(shù)據(jù)是那些存在于數(shù)據(jù)倉庫中的、當(dāng)前并不使用、將來也很少使用或者根本就不會(huì)使用的數(shù)據(jù)u造成休眠數(shù)據(jù)的原因u由于概括表格的創(chuàng)建u由于錯(cuò)誤估計(jì)實(shí)際上所需要的歷史數(shù)據(jù)的年限u由于時(shí)間的推移,需求的現(xiàn)實(shí)性逐漸明顯u由于堅(jiān)持讓詳細(xì)數(shù)據(jù)駐留在數(shù)據(jù)倉庫中592.休眠數(shù)據(jù)u休眠數(shù)據(jù)的處理1)查找休眠數(shù)據(jù)2)選擇刪除的數(shù)據(jù)數(shù)據(jù)倉庫管理員查看已訪問或不訪問的數(shù)據(jù),確定哪些數(shù)據(jù)應(yīng)該從數(shù)據(jù)倉庫中刪除??梢允褂靡粋€(gè)活動(dòng)監(jiān)視器跟蹤數(shù)據(jù)倉庫用戶過去的活動(dòng)。3)確定訪問的可能性根據(jù)數(shù)據(jù)的訪問可能性來安全地從數(shù)據(jù)倉庫中刪除數(shù)據(jù)4)刪除休眠數(shù)據(jù)603.清理數(shù)據(jù)的方法u將數(shù)據(jù)加入到一個(gè)輪轉(zhuǎn)綜合文件中u將數(shù)據(jù)從高性能介質(zhì)轉(zhuǎn)移到大容量介質(zhì)上u將數(shù)據(jù)從系統(tǒng)中實(shí)際清除u將數(shù)據(jù)從一個(gè)體系結(jié)構(gòu)層次轉(zhuǎn)到另一個(gè)層次61學(xué)完本講后,你應(yīng)該能夠了解:1.數(shù)據(jù)倉庫的定義;2.數(shù)據(jù)倉庫的特點(diǎn)是:面向主題的、集成的、非易失的和隨時(shí)間變化的;3.數(shù)據(jù)倉庫的多粒度數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論