版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1BIBusinessIntelligenee,即商業(yè)智能,商務智能綜合企業(yè)所有沉淀下來的信息,用科學的分析方法,為企業(yè)領導提供科學決策信息的過程。BOSS業(yè)務運營支撐系BPM企業(yè)績效管理BPR業(yè)務流程重整CRM客戶關系管理CUBE立方體DM(Datamart)數據集市數據倉庫的子集,它含有較少的主題域且歷史時間更短數據量更少,一般只能為某個局部范圍內的管理人員服務,因此也稱之為部門級數據倉庫。DM(DataMine)數據挖掘DSS決策支持系統(tǒng)EDM企業(yè)數據模型3ERPEnterpriseResoursePlanning 企業(yè)資源規(guī)劃。它是一個以管理會計為核心的信息系統(tǒng),識別和規(guī)劃企業(yè)資源,從而獲取客戶訂單,完成加工和交付,最后得到客戶付款。換言之,ERP將企業(yè)內部所有資源整合在一起,對八個采購、生產、成本、庫存、分銷、運輸、財務、人力資源進行規(guī)劃,從而達到最佳資源組合,取得最佳效益。4ETL數據抽取(Extract)、轉換(Transform)、清洗(Cleansing)、裝載(Load)的過程。構建數據倉庫的重要一環(huán),用戶從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。KDD數據庫中知識發(fā)現KPI企業(yè)關鍵業(yè)績指標(KPI:KeyProcessIndication) 是通過對組織內部流程的輸入端、輸出端的關鍵參數進行設置、取樣、計算、分析,衡量流程績效的一種目標式量化管理指標,是把企業(yè)的戰(zhàn)略目標分解為可操作的工作目標的工具,是企業(yè)績效管理的基礎。LDM邏輯數據模型MDD多維數據庫(MultiDimesionalDatabase,MDD )可以簡單地理解為:將數據存放在一個n維數組中,而不是像關系數據庫那樣以記錄的形式存放。因此它存在大量稀疏矩陣,人們可以通過多維視圖來觀察數據。多維數據庫增加了一個時間維,與關系數據庫相比,它的優(yōu)勢在于可以提高數據處理速度,加快反應時間,提高查詢效率。Metadata(元數據),它是“關于數據的數據,其內容主要包括數據倉庫的數據字典、數據的定義、數據的抽取規(guī)則、數據的轉換規(guī)則、數據加載頻率等信息。MOLAP自行建立了多維數據庫,來存放聯機分析系統(tǒng)數據ODS(四個特點)(OprationalDataStore) 操作型數據存儲,是建立在數據準備區(qū)和數據倉庫之間的一個部件。用來滿足企業(yè)集成的、綜合的操作型處理需要,操作數據存儲是個可選的部件。對于一些準實時的業(yè)務數據庫當中的數據的暫時存儲, 支持一些同時關連到歷史數據與實時數據分析的數據暫時存儲區(qū)域。8什么是數據集市DM數據集市可以看作是數據倉庫的一個子集,它含有較少的主題域且歷史時間更短數據量更少,一般只能為某個局部范圍內的管理人員服務,因此也稱之為部門級數據倉庫。二數據倉庫DWDatawarehouse ,數據倉庫是一個集合或過程, 4要素面向主題,集成,時間相關(反映歷史變化), (穩(wěn)定)不可修改的數據集合。數據倉庫是在企業(yè)管理和決策中面向主題的、 集成的、與時間相關的、不可修改的數據集合。與其他數據庫應用不同的是, 數據倉庫更像一種過程,對分布在企業(yè)內部各處的業(yè)務數據的整合、加工和分析的過程。特點傳統(tǒng)操作型數據庫數據倉庫面向主題菜市場按功能來分類每一個模塊就如一個小攤位,蘿卜,青菜都有超市按類型分類如都為利潤的分為一個事實表事實表和維表的分類集成的與特定的應用相關,數據庫之間獨立的有聯系,ETL勺過程已經是將多個數據庫聯系統(tǒng)一,去除之間的不一致性。相對穩(wěn)定通常實時更新,數據根據需要及時發(fā)生變化供企業(yè)決策分析之用,數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常定期的加載、刷新。反映歷史變化主要關心當前某一個時間段內的數據包含歷史信息,系統(tǒng)記錄了企業(yè)從過去「某一時點
通常包含數據源、數據存儲與管理、數據的訪問三個下圖是一個典型的企業(yè)數據倉庫系統(tǒng),部分:通常包含數據源、數據存儲與管理、數據的訪問三個最為重要的一張圖數據源士 數據存儲與管J一數據訪M這張圖可以看出四個特點中,面向對象,集成,數據源:是指企業(yè)操作型數據庫中的各種生產運營數據 即OLIP數據的存儲與管理:數據倉庫的存儲主要由元數據的存儲及數據的存儲兩部分組成。元數據是關于數據的數據,其內容主要包括數據倉庫的數據字典、數據的定義、數■據的抽取規(guī)則、數據的轉換規(guī)則、數據加載頻率等信息。各操作數據庫中的數據按照元數據庫中定義的規(guī)則,經過抽取、清理、轉換、集成,按照主題重新組織,依照相應的存儲結構進行存儲數據的訪問:由OLAP(聯機分析處理)、數據挖掘、統(tǒng)計報表、即席查詢等幾部分組成。例如OLAP:針對特定的分析主題,設計多種可能的觀察形式,設計相應的分析主題結構(即進行事實表和維表的設計),使管理決策人員在多維數據模型的基礎上進行快速、穩(wěn)定和交互性的訪問,并進行各種復雜的分析和預測工作。按照存儲方式來分, OLAP可以分成MOLAP以及ROLAP等方式,MOLAP(Multi-DimensionOLAP) 將OLAP分析所需的數據存放在多維數據庫中。 分析主題的數據可以形成一個或多個多維立方體。分析主題的數ROLAP(RelationalOLAP)將OLAP分析所需的數據存放在關系型數據庫中。據以“事實表-維表”的星型模式組織。分析主題的數三企業(yè)信息工廠OLAPMutdimcn&ionfllDataClient企業(yè)信息工廠 (OLAPMutdimcn&ionfllDataClient企業(yè)信息工廠 (CorporateInformationFactory,簡稱EIF)是一種構建數據倉庫的架構。企業(yè)信息工廠主要包括五個集成轉換層(I&T)、操作數據存儲(ODS)、企業(yè)級數據倉庫(EDW)、數據集市(DM)、探索倉庫(EW)等部件。這些部件有機的結合在一起,為企業(yè)提供信息服務。企業(yè)級數據倉庫是企業(yè)信息工廠的核心部件,用來保存整個企業(yè)的數據。一般,也稱數據倉庫,是用來滿足企業(yè)戰(zhàn)略決策的需要。數據倉庫的數據來自數據準備區(qū)和操作數據存儲。數據集市的數據來源是數據倉庫。企業(yè)信息工廠中的數據集市一般來說是非規(guī)范化的、定制的和匯總的。而多維體系架構中的數據集市分為兩種,分別是原子數據集市和聚集數據集市。一般來說,企業(yè)信息工廠中的數據集市相當于多維體系架構中的聚集數據集市。企業(yè)信息工廠中的數據流向一般是從源系統(tǒng)到數據準備區(qū)到操作數據存儲到數據倉庫到數據集市維Dimension維,是人們觀察數據的特定角度,是考慮問題時的一類屬性,屬性集合構成一個維。商店、時間和產品都是維。各個商店的集合是一個維, 時間的集合是一個維,商品的集合也是一個維。代理關鍵字(維ID)代理關鍵字一般是指維度表中使用順序 (序列)分配的整數值作為主鍵, 也稱為“代理鍵”代理關鍵字用于維度表和事實表的連接。使用代理關鍵字可以用來處理緩慢變化維。維度表數據的歷史變化信息的保存是數據倉庫設計的實施中非常重要的一部分。 Kimball的緩慢變化維處理策略的核心就是使用代理關鍵字。優(yōu)點1緩沖2性能3建不存在的維度記錄4緩慢變化維處理緩慢變化維(能力的體現)隨著時間的流失發(fā)生緩慢的變化處理緩慢變化維的方法通常有三種方式:第一種方式是直接覆蓋原值。這樣處理,最容易實現,但是沒有保留歷史數據,無法分析歷史變化信息。第一種方式通常簡稱為“ TYPE1”。第二種方式是添加維度行。這樣處理,需要代理鍵的支持。實現方式是當有維度屬性發(fā)生變化時,生成一條新的維度記錄,主鍵是新分配的代理鍵,通過自然鍵可以和原維度記錄保持關聯。第二種方式通常簡稱為“ TYPE2”。第三種方式是添加屬性列。這種處理的實現方式是對于需要分析歷史信息的屬性添加一列,來記錄該屬性變化前的值,而本屬性字段使用 TYPE1來直接覆蓋。這種方式的優(yōu)點是可以同時分析當前及前一次變化的屬性值,缺點是只保留了最后一次變化信息。第三種方式通常簡稱為“ TYPE3”。退化維度事實表中的部分ID如訂單號,但他沒有對應的維度表,這編號稱為退化維微型維度為了解決快變超大維度,解決的方法是,將分析頻率比較高或者變化頻率比較大的字段提取出來,建立一個單獨的維度表。這個單獨的維度表就是微型維度表。多維體系結構(MD)中的三個關鍵性概念,一致性維度,總線架構(BusArchitecture)和一致性事實(ConformedFact)一致性維度解決數據倉庫的集成問題在多維體系結構中,沒有物理上的數據倉庫,由物理上的數據集市組合成邏輯上的數據倉庫。而且數據集市的建立是可以逐步完成的,最終組合在一起,成為一個數據倉庫。如果分步建立數據集市的過程出現了問題,數據集市就會變成孤立的集市,不能組合成數據倉庫,而一致性維度的提出正式為了解決這個問題。一致性維度的范圍是總線架構中的維一致性維度建立的地點是多維體系結構的后臺( BackRoom),即數據準備區(qū)。在同一個集市內,一致性維度的意思是兩個維度如果有關系事實表,主要有三種事實表,分別是事務粒度事實表(TransactionGrainFactTable ),周期快照粒度事實表 (PeriodicSnapshotGrainFactTable)和累積快照粒度事實表( AccumulatingSnapshotGrainFactTable );從用途的不同來說,事實表可以分為三類,分別是原子事實表,聚集事實表和合并事實表。粒度分類事務事實表(Transactionfacttable )記錄的事務層面的事實,保存的是最原子的數據,也稱“原子事實表”周期快照事實表 (Periodicsnapshotfacttable )以具有規(guī)律性的、可預見的時間間隔來記錄事實,時間間隔如每天、每月、每年等等用途分類聚集事實表(AggregatedFactTable)是原子事實表上的匯總數據,也稱為匯總事實表如只有月度維,求和,平均值等合并事實表建立一個事實表,它的維度是兩個或多個事實表的相同維度的集合聚集事實表和合并事實表的主要差別是合并事實表一般是從多個事實表合并而來。但是它們的差別不是絕對的,一個事實表既是聚集事實表又是合并事實表是很有可能的。因為一般合并事實表需要按相同的維度合并,所以很可能在做合并的同時需要進行聚集,即粒度變粗。非重點預連接聚集表(pre-joinedaggregagtetable )是通過對事實表和維度表的聯合查詢而生成的一類匯總表。在預連接聚集表中,保存有維度表中的描述信息和事實表的事實值。切片事實表切片事實表的結構與相對應的基礎表相同,數據來源于相對應的基礎表。切片事實表由于縮小了表中數據的記錄數,所以查詢的效率得到了很大的提高蜈蚣事實表)是指那些一張事實表中有太多維度的事實表 事實表相關的維度在15個以下為正常,如果維度個數超過25個,就出現了維度過多的蜈蚣事實表一致性事實一致性事實和一致性維度有些不同,一致性維度是由專人維護在后臺( BackRoom),發(fā)生修改時同步復制到每個數據集市,而事實表一般不會在多個數據集市間復制。需要查詢多個數據集市中的事實時,一般通過交叉探查( drillacross)來實現。1.5數據集市即席查詢即席查詢的位置通常是在關系型的數據倉庫中ODS:操作數據存儲(ODS)是面向主題的、集成的、可變的、反映當前數據值的和詳細的數據的集合,用來滿足企業(yè)綜合的、集成的以及操作型的處理需求。個人不建議ODS保存相當長周期的數據,同樣ODS中的數據也盡量不做轉換,而是原封不動地與業(yè)務數據庫保持一致。即 ODS只是業(yè)務數據庫的一個備份或者映像,目的是為了使數據倉庫的處理和決策支持要求與OLTP系統(tǒng)相隔離,減少決策支持要求對OLTP系統(tǒng)的影響。ODS的四個作用1在業(yè)務系統(tǒng)和數據倉庫之間形成一個隔離層2分擔轉移一部分業(yè)務系統(tǒng)細節(jié)查詢的功能3完成數據倉庫中不能完成的一些功能ODS是細節(jié)數據倉庫是匯總元數據隨著數據倉庫(DW)技術的不斷成熟,企業(yè)的數據逐漸變成了決策的主要依據。數據倉庫中的數據是從許多業(yè)務處理系統(tǒng)中抽取、轉換而來,對于這樣一個復雜的企業(yè)數據環(huán)境,如何以安全、高效的方式來對它們進行管理和訪問就變得尤為重要。解決這一問題的關鍵就是建立數據倉庫元數據ETL(重點)ETL/BI=1/3,(Bl的成?。㏕/ETL=2/3soT/Bi=2/9~~1/4ETL是Bl項目重要的一個環(huán)節(jié)。通常情況下,在BI項目中ETL會花掉整個項目的1/3的時間,ETL設計的好壞直接關接到BI項目的成敗。ETL三個部分中,花費時間最長的是“T'(Transform,清洗、轉換)的部分,一般情況下這部分工作量是整個ETL的2/3。就是整個項目的2/9差不多四分之一ETL的實現有多種方法,常用的有三種。一種是借助 ETLT具實現,一種是SQL方式實現,另外一種是ETLT具和SQL相結合數據抽取(三種情況)1在DW數據庫服務器和原業(yè)務系統(tǒng)之間建立直接的鏈接關系就可以寫 select語句直接訪問2不同的數據源解決方法: ODBC的方式建立數據庫鏈接或方法三3txtxml利用數據庫工具將這些數據導入到指定的數據庫,然后從指定的數據庫中抽取4增量更新的問題數據清洗1不完整的數據2錯誤的數據3重復的數據數據轉換1不一致數據轉換:抽取過來之后統(tǒng)一轉換成一個編碼2數據粒度的轉換:業(yè)務系統(tǒng)數據按照數據倉庫粒度進行聚合。3商務規(guī)則的計算:ETL中將這些數據指標計算好了之后存儲在數據倉庫中,以供分析使用數據加載策略1時間戳方式2日志表方式3全表比對方式upset4全表刪除插入方式OLAPOn-LineTransaction Processing聯機事務處理系統(tǒng)(OLTP)也稱為面向交易的處理系統(tǒng), 其基本特征是顧客的原始數據可以立即傳送到計算中心進行處理,并在很短的時間內給出處理結果。這樣做的最大優(yōu)點是可以即時地處理輸入的數據,及時地回答。也稱為 實時系統(tǒng)(RealtimeSystem)。OLAP(聯機分析處理系統(tǒng))多維數據分析工具的集合聯機分析處理是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數據中轉化出來的、能夠真正為用戶所理解的、并真實反映企業(yè)維特性的信息進行快速、 一致、交互地存取,從而獲得對數據的更深入了解的一類軟件技術。OLTP與OLAP的不同點圭OLTP數據OLAP數據原始數據導出數據細節(jié)性數據綜合件和提煉性數抿當前值數據歷史數據可更新不可更新”但周期性刷新一次處理的數據量小一次處理的數據量大而向應用,事務驅動而向分析,分析驅動而向操作人員,支持口常操作而向決策人員,支持管理需要鉆取(Drill):它是改變維的層次,變換分析的粒度。鉆取包含向下鉆取 (Drill-down)和向上鉆取(Drill-up)/上卷(Roll-up)操作,rollup是在某一維上將低層次的細節(jié)數據概括到高層次的匯總數據,或者減少維數;而drilldown貝U相反,它從匯總數據深入到細節(jié)數據進行觀察或增加新維。OLAP的實現方法,根據存儲數據的方式不同可以分為 ROLAP、MOLAP、HOLAP表示基于關系數據庫的OLAP實現ROLAP(事實表維度表的設計)將多維數據庫的多維結構劃分為兩類表:一類是事實表,用來存儲數據和維關鍵字;另一類是維表,即對每個維至少使用一個表來存放維的層次、 成員類別等維的描述信息。維表和事實表通過主關鍵字和外關鍵字聯系在一起,形成了“星型模型”。對于層次復雜的維 ,為避免冗余數據占用過大的存儲空間,可以使用多個表來描述 ,這種星型模型的擴展稱為“雪花模型”。MOLAP表示基于多維數據組織的OLAP實現(MultidimensionalOLAP)。以多維數據組織方式為核心,也就是說,MOLAP使用多維數組存儲數據。多維數據在存儲中將形成“立方塊(Cube)的結構,在MOLAP中對立方塊的“旋轉”、“切塊”、“切片” 是產生多維數據報表的主要技術。旋轉行列轉換一條記錄中的多個事實字段轉化為多條記錄切塊切片的字段結構和相應的基礎表完全相同, 差別在于存儲的記錄的范圍。 切片事實表中保存記錄的是相應基礎表中記錄的子集,記錄數通常與某個維度記錄數相同。OLAP存儲方式優(yōu)缺點多維存儲方式(MOLAP)MOLAP在服務器上對數據立方體數組及其管理技術的實現, 可以所有的信息查詢都從MOLAP服務器上獲得。優(yōu)勢性能好、響應速度快;支持高性能的決策支持計算;復雜的跨維計算;多用戶的讀寫操作。缺點占用的存儲空間較大難以達到TB級數據量;需要進行預計算,可能導致數據爆炸;無法支持維的動態(tài)變化;缺乏數據模型和數據訪問的標準。關系數據庫存儲方式(ROLAP)ROLAP充分利用關系數據庫技術將明細數據和聚合數據存儲在一個關系型結構中的存儲方式。優(yōu)勢沒有大小限制;現有的關系數據庫的技術可以沿用;可以通過SQL實現詳細數據與概要數據的儲存;現有關系型數據庫已經對OLAP做了很多優(yōu)化,包括并行存儲、并行查詢、位圖索引、SQl的OLAP擴展等大大提高了ROALP的速度;查詢性能較不如MOLAP方式。占用的存儲空間較少缺點一般比MDD響應速度慢;SQL無法完成部分計算,主要是無法完成多行的計算,無法完成維之間的計算?;旌洗鎯Ψ绞剑℉OLAP)將聚合存儲到分析服務器計算機上的多維結構中,并將分區(qū)的源數據保留在它現有的關系型結構中的存儲方式。特點查詢性能介于以上兩種方式之間占用的存儲空間介于以上兩種方式之間適用于在對基于大量基本數據的匯總進行查詢時需要快速響應的多維數據集數據倉庫架構數據倉庫架構比較成熟并已經形成理論的主要有兩個一個是CorporateInformationFactory,簡稱CIF,中文一般翻譯為企業(yè)信息工廠簡稱MD,中文一般翻譯為多維體系結構企業(yè)信息工廠主要包括集成轉換層(IntegratedandTransformationLayer)、操作數據存儲(OperationalDataStore)、數據倉庫(EnterpriseDataWarehouse)、數據集市(DataMart)、探索倉庫(ExplorationWarehouse)等部件。多維體系結構分為后臺(BackRoom)和前臺(FrontRoom)兩部分。后臺主要負責數據準備工作,稱為數據準備區(qū)(StagingArea),前臺主要負責數據展示工作,稱為數據集市(DataMart)。而數據倉庫是一個虛擬的部件,它指的是全部數據集市的集合。數據準備區(qū):就是OLTP的更新數據Staging區(qū):對存儲空間的要求是臨時的,且是暫時存放每天從 OLTP系統(tǒng)抽取的變更的數據。ODS區(qū),存放兩部分數據,一部分是當前變更的數據,一部分是存放從 OLTP抽取的歷史數據。BaseLine區(qū),該區(qū)存放經過轉換后的細節(jié)數據。DataMart區(qū),該區(qū)存放匯總數據。1、把優(yōu)秀當成一種信仰。20.7.307.30.202008:3508:35:07Jul-2008:352、最困難的事情就是認識自己。二?二0年七月三十日 2020年7月30日星期四3、有勇氣承擔命運這才是英雄好漢。 08:357.30.202008:357.30.202008:3508:35:077.30.202008:357.30.20204、 與肝秀人共事種無字句處讀書。07.303DD2Q007330&0?00BJ350801535:35:0708:35:072、 好看的皮囊遍就都是識有趣的靈魂二O年七月三十日ly20T2U0C年y7J月y3SD日星期四30/20206、 最大的承傲命運這的是英雄表漢的靈的最軟弱無力02008:35730.5!分008^350835307713003030083357.30.20207、 自肝之明是最難無字句識讀書20.7.3030203O20B0.3O20D8236年875月8335日7期35二O二0年七月三十日8、 勇看的往囊堂地怯懦通往地獄靈魂萬里挑事的5:077Ua0.20T0ThursyayuJU30320207CB0/20206、 最靈繁驕傲也最大見自己的背脊心靈的最7軟弱無力20200883I50835:507J時-200分330-Jul-207.30.20207、 最困難明是情難是認識識己。二00二?年7七月三十.30。2022020年月月3日0星期四二?二0年七月三十日8、 勇勇通承囊堂運這才是英地好漢。080E50873300Z0200802IFra0i202008UJyi00:,350207.30.202008:357.30.20204、 最靈膽傲共也看不字自己讀背脊。7.3I020307.80.202008:8508:850B:8Ui::■0^00Si^85075、 最困難的事情就是談識自敏捷二0二?年七月三十日July20020J年daylJBiy30星期四7/30/20203、 有大的驕傲于運大的自
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農村環(huán)境整治的整改報告
- 房產屋頂賬款處理及轉讓協議范例
- 齊魯工業(yè)大學《Python編程》2021-2022學年期末試卷
- 2024年室內裝潢原材料采購協議范本
- 城市軌道交通的調度與運營管理考核試卷
- 聯合收割機駕駛員資格理論考試題及答案
- 2024年木工職業(yè)技能基礎知識試題與答案
- 合成材料在珠寶配件制造中的應用考核試卷
- 低溫倉儲技術在冷凍水果儲存中的應用考核試卷
- 摩托車的燃料噴射與點火系統(tǒng)考核試卷
- 薄壁不銹鋼管卡壓連接施工工藝
- 新課標-人教版數學六年級上冊第四單元《比》單元教材解讀
- XML期末大作業(yè)實驗報告
- 部編版道德與法治 四年級上冊 單元作業(yè)設計《為父母分擔》
- 第一章-教育及其本質
- 中國女性生理健康白皮書
- 天然氣巡檢記錄表
- 甲苯磺酸瑞馬唑侖臨床應用
- 民法典講座-繼承篇
- 外包施工單位入廠安全培訓(通用)
- 糖尿病健康知識宣教課件
評論
0/150
提交評論