數(shù)據(jù)倉庫理論學(xué)習(xí)筆記_第1頁
數(shù)據(jù)倉庫理論學(xué)習(xí)筆記_第2頁
數(shù)據(jù)倉庫理論學(xué)習(xí)筆記_第3頁
數(shù)據(jù)倉庫理論學(xué)習(xí)筆記_第4頁
數(shù)據(jù)倉庫理論學(xué)習(xí)筆記_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)倉庫理論學(xué)習(xí)筆記2024/3/11數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)庫處理的兩大應(yīng)用聯(lián)機(jī)事務(wù)處理(OLTP)決策支持系統(tǒng)(DSS)數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)庫處理的兩大應(yīng)用聯(lián)機(jī)事務(wù)處理(OLTP)操作型處理,為企業(yè)的特定應(yīng)用服務(wù)是對(duì)數(shù)據(jù)庫的聯(lián)機(jī)的日常操作,通常是對(duì)一個(gè)或一組記錄的查詢和修改人們關(guān)心的是響應(yīng)時(shí)間、數(shù)據(jù)的安全性和完整性決策支持系統(tǒng)(DSS)數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的特點(diǎn)面向主題集成的數(shù)據(jù)倉庫的數(shù)據(jù)是從原有的分散數(shù)據(jù)庫數(shù)據(jù)中抽取來的消除數(shù)據(jù)表述的不一致性(數(shù)據(jù)的清洗)數(shù)據(jù)的綜合數(shù)據(jù)不可更改隨時(shí)間變化的數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的特點(diǎn)——集成數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的特點(diǎn)面向主題集成的數(shù)據(jù)不可更改數(shù)據(jù)倉庫的主要數(shù)據(jù)操作是查詢、分析不進(jìn)行一般意義上的數(shù)據(jù)更新(過期數(shù)據(jù)可能被刪除)數(shù)據(jù)倉庫強(qiáng)化查詢、淡化并發(fā)控制和完整性保護(hù)等技術(shù)隨時(shí)間變化的數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的特點(diǎn)——數(shù)據(jù)不可更改數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的特點(diǎn)面向主題集成的數(shù)據(jù)不可更改隨時(shí)間變化的不斷增加新的數(shù)據(jù)內(nèi)容不斷刪除舊的數(shù)據(jù)內(nèi)容定時(shí)綜合數(shù)據(jù)倉庫中數(shù)據(jù)表的鍵碼都包含時(shí)間項(xiàng),以標(biāo)明數(shù)據(jù)的歷史時(shí)期數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的特點(diǎn)——隨時(shí)間變化數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的結(jié)構(gòu)OLTP系統(tǒng)RDBMSSybaseVSAMSAP/ERP5-10年過去詳細(xì)數(shù)據(jù)當(dāng)前詳細(xì)數(shù)據(jù)輕度匯總數(shù)據(jù)高度匯總數(shù)據(jù)數(shù)據(jù)集市分析型CRM業(yè)務(wù)指標(biāo)分析數(shù)據(jù)倉庫數(shù)據(jù)倉庫/決策分析系統(tǒng)EXCEL數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)由操作型環(huán)境(綜合)導(dǎo)入數(shù)據(jù)倉庫數(shù)據(jù)具有不同的細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)(過期數(shù)據(jù))當(dāng)前細(xì)節(jié)級(jí)輕度綜合數(shù)據(jù)級(jí)(數(shù)據(jù)集市)高度綜合數(shù)據(jù)級(jí)數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫建立的過程數(shù)據(jù)倉庫理論學(xué)習(xí)筆記粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別粒度級(jí)越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類越多粒度影響數(shù)據(jù)倉庫中數(shù)據(jù)量的大小粒度問題是設(shè)計(jì)數(shù)據(jù)倉庫的一個(gè)重要方面雙重粒度在數(shù)據(jù)倉庫的細(xì)節(jié)級(jí)上創(chuàng)建兩種粒度短期儲(chǔ)存的低粒度(真實(shí)檔案),滿足細(xì)節(jié)查詢具有綜合的高粒度(輕度綜合),做分析數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫理論學(xué)習(xí)筆記分割是指把數(shù)據(jù)分散到各自的物理單元中去,以便能分別獨(dú)立處理,提高數(shù)據(jù)處理效率是粒度之后的第二個(gè)主要設(shè)計(jì)問題兩個(gè)層次的分割系統(tǒng)層:DBMS,一種定義應(yīng)用層:開發(fā)者,多種定義多種分割的標(biāo)準(zhǔn)日期:最常用的地理位置組織單位…...數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積輪轉(zhuǎn)綜合數(shù)據(jù)按一定的格式進(jìn)行輪轉(zhuǎn)的累加簡化直接按一定的時(shí)間間隔,對(duì)數(shù)據(jù)進(jìn)行提取,是操作型數(shù)據(jù)的一個(gè)快照連續(xù)把新的快照追加到以前的連續(xù)數(shù)據(jù)上去數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積每日由數(shù)據(jù)庫中提取并加工的數(shù)據(jù)逐天積累堆積數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式輪轉(zhuǎn)綜合數(shù)據(jù)按一定的格式進(jìn)行輪轉(zhuǎn)的累加數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡單堆積與輪轉(zhuǎn)綜合的比較數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式簡化直接按一定的時(shí)間間隔,對(duì)數(shù)據(jù)進(jìn)行提取,是操作型數(shù)據(jù)的一個(gè)快照數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫中的數(shù)據(jù)組織形式連續(xù)把新的快照追加到以前的連續(xù)數(shù)據(jù)上去數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的數(shù)據(jù)追加數(shù)據(jù)追加數(shù)據(jù)倉庫的數(shù)據(jù)初裝完成以后,再向數(shù)據(jù)倉庫輸入數(shù)據(jù)的過程稱為數(shù)據(jù)追加變化數(shù)據(jù)的捕獲時(shí)標(biāo)法:加標(biāo)識(shí)DELTA法:對(duì)更新作記錄前后映象法:兩次快照的對(duì)比日志法:利用DBMS的日志,需改進(jìn)數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)庫的體系化環(huán)境是在一個(gè)企業(yè)或組織內(nèi)部,由各面向應(yīng)用的OLTP數(shù)據(jù)庫及各級(jí)面向主題的數(shù)據(jù)倉庫所組成的完整的數(shù)據(jù)環(huán)境操作型環(huán)境、分析型環(huán)境四層體系化環(huán)境操作型環(huán)境——OLTP全局級(jí)——數(shù)據(jù)倉庫部門級(jí)——局部倉庫個(gè)人級(jí)——個(gè)人倉庫,用于啟發(fā)式的分析數(shù)據(jù)集市(DataMart)特定的、面向部門的小型數(shù)據(jù)倉庫是為滿足用戶特定需求而創(chuàng)建的數(shù)據(jù)倉庫是數(shù)據(jù)倉庫的子集數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)庫的體系化環(huán)境數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)庫的體系化環(huán)境數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的開發(fā)生命周期數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的基本數(shù)據(jù)模式星型模式(StarSchema)事實(shí)表(facttable),存放基本數(shù)據(jù),相關(guān)主題的數(shù)據(jù)主體(BCNF)維(dimension),影響、分析主體數(shù)據(jù)的因素量(measure),事實(shí)表中的數(shù)據(jù)屬性維表(dimensiontable),表示維的各種表維是量的取值條件,維用外鍵表示以事實(shí)表為中心,加上若干維表,組成星型數(shù)據(jù)模式例:產(chǎn)品-商店-銷售額數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的基本數(shù)據(jù)模式CustSalesLocationSalesProdSalesTimeSalesSalestimeid<pk,fk>productid<pk,fk>locationid<pk,fk>customerid<pk,fk>salesrevenueunitssoldProductproductid<pk>makemodelTimetimeid<pk>dateyearquartermonthweekLocationlocationid<pk>regiondistrictstoreCustomercustomerid<pk>categorygroupSalesfactSalesmeasuresTimedimensionAttributesofthe

timedimension數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的基本數(shù)據(jù)模式雪花模式(SnowflakeSchema)維一般是由若干層次組成把維按其層次結(jié)構(gòu)表示成若干個(gè)表規(guī)范化、節(jié)省存儲(chǔ)空間但需多做連接操作數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫的解決方案通用的關(guān)系數(shù)據(jù)庫系統(tǒng)專門的數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉庫層數(shù)據(jù)倉庫工具層最終用戶數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)倉庫居系統(tǒng)的核心地位是信息挖掘的基礎(chǔ)數(shù)據(jù)倉庫管理系統(tǒng)是整個(gè)系統(tǒng)的引擎負(fù)責(zé)管理整個(gè)系統(tǒng)的運(yùn)轉(zhuǎn)數(shù)據(jù)倉庫工具一般的查詢工具、功能強(qiáng)大的分析工具是整個(gè)系統(tǒng)發(fā)揮作用的關(guān)鍵數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫系統(tǒng)一個(gè)集成化的產(chǎn)品集數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫系統(tǒng)DesignWarehouseArchitectManageSybaseASIQIntegrateInformaticaEnterpriseConnectReplicationServerPowerMartVisualizeBrioCognosAdministerWarehouseControlCenterWarehouseControlCentre數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)分析模型早期靜態(tài)數(shù)據(jù)值的相互比較需求從多個(gè)不同的數(shù)據(jù)源中綜合數(shù)據(jù)從不同的角度觀察數(shù)據(jù)多變的主題、多維數(shù)據(jù)E-R不能完全支持?jǐn)?shù)據(jù)倉庫理論學(xué)習(xí)筆記四種分析模型(Codd)絕對(duì)模型靜態(tài)數(shù)據(jù)分析只能對(duì)歷史數(shù)據(jù)進(jìn)行值的比較,描述基本事實(shí)用戶交互少解釋模型思考模型公式模型數(shù)據(jù)倉庫理論學(xué)習(xí)筆記四種分析模型(Codd)絕對(duì)模型解釋模型靜態(tài)數(shù)據(jù)分析在當(dāng)前多維視圖的基礎(chǔ)上找出事件發(fā)生的原因思考模型公式模型數(shù)據(jù)倉庫理論學(xué)習(xí)筆記四種分析模型(Codd)絕對(duì)模型解釋模型思考模型動(dòng)態(tài)數(shù)據(jù)分析多維分析在決策者的參與下,找出關(guān)鍵變量需要高級(jí)數(shù)據(jù)分析人員的介入公式模型數(shù)據(jù)倉庫理論學(xué)習(xí)筆記四種分析模型(Codd)絕對(duì)模型解釋模型思考模型公式模型動(dòng)態(tài)性最高的一類自動(dòng)完成變量的引入工作數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)倉庫系統(tǒng)的工具層查詢工具主要是對(duì)分析結(jié)果的查詢很少有對(duì)記錄級(jí)數(shù)據(jù)的查詢驗(yàn)證型工具多維分析工具用戶首先提出假設(shè),然后利用各種工具通過反復(fù)、遞歸的檢索查詢以驗(yàn)證或否定假設(shè)發(fā)掘型工具從大量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)模式預(yù)測趨勢和行為數(shù)據(jù)倉庫理論學(xué)習(xí)筆記聯(lián)機(jī)分析處理——OLAP是針對(duì)特定問題的聯(lián)機(jī)訪問和分析。通過對(duì)信息的很多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許分析人員對(duì)數(shù)據(jù)進(jìn)行深入觀察數(shù)據(jù)倉庫理論學(xué)習(xí)筆記一些概念變量是數(shù)據(jù)的實(shí)際意義,描述數(shù)據(jù)是什么維是人們觀察數(shù)據(jù)的特定角度維的層次是維在不同細(xì)節(jié)程度的描述維成員是維的一個(gè)取值多層次維的維成員是各層次取值的組合對(duì)應(yīng)一個(gè)數(shù)據(jù)項(xiàng),維成員是該數(shù)據(jù)項(xiàng)在該維中位置的描述多維數(shù)組可以表示為(維1,維2,……,變量),如(地區(qū),時(shí)間,銷售渠道,銷售額)多維數(shù)組的取值稱為數(shù)據(jù)單元(單元格)可以理解為交叉表的數(shù)據(jù)格數(shù)據(jù)倉庫理論學(xué)習(xí)筆記一些基本操作在多維數(shù)組的某一維選定一個(gè)維成員的動(dòng)作稱為切片。舍棄一些觀察角度在多維數(shù)組的某一維上選定某一區(qū)間的維成員切塊多個(gè)切片的疊加旋轉(zhuǎn)是改變一個(gè)報(bào)告或頁面顯示的維方向以用戶容易理解的角度來觀察數(shù)據(jù)數(shù)據(jù)倉庫理論學(xué)習(xí)筆記基于多維數(shù)據(jù)庫的OLAP——MOLAP以多維方式組織數(shù)據(jù)(綜合數(shù)據(jù))以多維方式顯示(觀察)數(shù)據(jù)多維數(shù)據(jù)庫的形式類似于交叉表,可直觀地表述一對(duì)多、多對(duì)多的關(guān)系如:產(chǎn)品、地區(qū)、銷售額關(guān)系多維多維數(shù)據(jù)庫由許多經(jīng)壓縮的、類似于數(shù)組的對(duì)象構(gòu)成,帶有高度壓縮的索引及指針結(jié)構(gòu)以關(guān)系數(shù)據(jù)庫存放細(xì)節(jié)數(shù)據(jù)、以多維數(shù)據(jù)庫存放綜合數(shù)據(jù)數(shù)據(jù)倉庫理論學(xué)習(xí)筆記基于關(guān)系數(shù)據(jù)庫的OLAP——ROLAP以二維表與多維聯(lián)系來表達(dá)多維數(shù)據(jù)(綜合數(shù)據(jù))星型結(jié)構(gòu)事實(shí)表,存儲(chǔ)事實(shí)的量及各維的碼值(BCNF)維表,對(duì)每一個(gè)維,至少有一個(gè)表用來保存該維的元數(shù)據(jù)(多層次、冗余)事實(shí)表通過外鍵與每個(gè)維表相聯(lián)系雪花、星座、雪暴模擬多維方式顯示(觀察)數(shù)據(jù)數(shù)據(jù)倉庫理論學(xué)習(xí)筆記MOLAP與ROLAPMOLAP計(jì)算速度較快支持的數(shù)據(jù)容量較小缺乏細(xì)節(jié)數(shù)據(jù)的OLAPROLAP結(jié)構(gòu)較復(fù)雜以關(guān)系模擬多維支持適當(dāng)細(xì)節(jié)的OLAP較成熟HOLAP是以上兩種的綜合數(shù)據(jù)倉庫理論學(xué)習(xí)筆記桌面級(jí)工具BrioQuery(ROLAP)BusinessObjects(ROLAP)CognosImpromptu(ROLAP)CognosPowerPlay(MOLAP)服務(wù)器級(jí)OLAPArborSoftwareEssbase(MOLAP)MicroStrategyDSSAgent(ROLAP)Oracle’sExpress(hybridMOLAP/ROLAP)數(shù)據(jù)倉庫理論學(xué)習(xí)筆記SQL3對(duì)聚集的擴(kuò)展(在GroupBy中擴(kuò)展)SP(S#,P#,QTY)S# P# QTYS1 P1 300S1 P2 200S2 P1 300S2 P2 400S3 P2 200S4 P2 200Select sum(QTY)asTOTQTYFrom SP;Select S#,Sum(QTY)asTOTQTYFrom SPGroupByS#;…...數(shù)據(jù)倉庫理論學(xué)習(xí)筆記SQL3對(duì)聚集的擴(kuò)展(在GroupBy中擴(kuò)展)GroupingSets:支持多個(gè)分組同時(shí)運(yùn)算SelectS#,P#,SUN(QTY)asTOTQTYFromSPGroupByGroupingSets((S#),(P#))S# P# TOTQTYS1 Null 500S2 Null 700S3 Null 200S4 Null 200Null P1 600Null P2 1000數(shù)據(jù)倉庫理論學(xué)習(xí)筆記SQL3對(duì)聚集的擴(kuò)展(在GroupBy中擴(kuò)展)Rollup:上卷SelectS#,P#,SUN(QTY)asTOTQTYFromSPGroupByRollup(S#,P#)等同于GroupByGroupingSets((S#,P#),(S#),())S# P# TOTQTYS1 P1 300S1 P2 200S2 P1 300S2 P2 400S3 P2 200S4 P2 200S1 Null 500S2 Null 700S3 Null 200S4 Null 200Null Null 1600數(shù)據(jù)倉庫理論學(xué)習(xí)筆記SQL3對(duì)聚集的擴(kuò)展(在GroupBy中擴(kuò)展)Cube:立方體(交叉表)SelectS#,P#, SUN(QTY)asTOTQTYFromSPGroupByCube(S#,P#)等同于GroupByGroupingSets((S#,P#),(S#),(P#),())S# P# TOTQTYS1 P1 300S1 P2 200S2 P1 300S2 P2 400S3 P2 200S4 P2 200S1 Null 500S2 Null 700S3 Null 200S4 Null 200Null P1 600Null P2 1000Null Null 1600數(shù)據(jù)倉庫理論學(xué)習(xí)筆記數(shù)據(jù)挖掘(DataM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論