




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1BIBusinessIntelligenee,即商業(yè)智能,商務(wù)智能綜合企業(yè)所有沉淀下來(lái)的信息,用科學(xué)的分析方法,為企業(yè)領(lǐng)導(dǎo)提供科學(xué)決策信息的過(guò)程。BOSS業(yè)務(wù)運(yùn)營(yíng)支撐系BPM企業(yè)績(jī)效管理BPR業(yè)務(wù)流程重整CRM客戶(hù)關(guān)系管理CUBE立方體DM(Datamart)數(shù)據(jù)集市數(shù)據(jù)倉(cāng)庫(kù)的子集,它含有較少的主題域且歷史時(shí)間更短數(shù)據(jù)量更少,一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù),因此也稱(chēng)之為部門(mén)級(jí)數(shù)據(jù)倉(cāng)庫(kù)。DM(DataMine)數(shù)據(jù)挖掘DSS決策支持系統(tǒng)EDM企業(yè)數(shù)據(jù)模型3ERPEnterpriseResoursePlanning 企業(yè)資源規(guī)劃。它是一個(gè)以管理會(huì)計(jì)為核心的信息系統(tǒng),識(shí)別和規(guī)劃企業(yè)資源,從而獲取客戶(hù)訂單,完成加工和交付,最后得到客戶(hù)付款。換言之,ERP將企業(yè)內(nèi)部所有資源整合在一起,對(duì)八個(gè)采購(gòu)、生產(chǎn)、成本、庫(kù)存、分銷(xiāo)、運(yùn)輸、財(cái)務(wù)、人力資源進(jìn)行規(guī)劃,從而達(dá)到最佳資源組合,取得最佳效益。4ETL數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、清洗(Cleansing)、裝載(Load)的過(guò)程。構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),用戶(hù)從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。KDD數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)KPI企業(yè)關(guān)鍵業(yè)績(jī)指標(biāo)(KPI:KeyProcessIndication) 是通過(guò)對(duì)組織內(nèi)部流程的輸入端、輸出端的關(guān)鍵參數(shù)進(jìn)行設(shè)置、取樣、計(jì)算、分析,衡量流程績(jī)效的一種目標(biāo)式量化管理指標(biāo),是把企業(yè)的戰(zhàn)略目標(biāo)分解為可操作的工作目標(biāo)的工具,是企業(yè)績(jī)效管理的基礎(chǔ)。LDM邏輯數(shù)據(jù)模型MDD多維數(shù)據(jù)庫(kù)(MultiDimesionalDatabase,MDD )可以簡(jiǎn)單地理解為:將數(shù)據(jù)存放在一個(gè)n維數(shù)組中,而不是像關(guān)系數(shù)據(jù)庫(kù)那樣以記錄的形式存放。因此它存在大量稀疏矩陣,人們可以通過(guò)多維視圖來(lái)觀察數(shù)據(jù)。多維數(shù)據(jù)庫(kù)增加了一個(gè)時(shí)間維,與關(guān)系數(shù)據(jù)庫(kù)相比,它的優(yōu)勢(shì)在于可以提高數(shù)據(jù)處理速度,加快反應(yīng)時(shí)間,提高查詢(xún)效率。Metadata(元數(shù)據(jù)),它是“關(guān)于數(shù)據(jù)的數(shù)據(jù),其內(nèi)容主要包括數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)字典、數(shù)據(jù)的定義、數(shù)據(jù)的抽取規(guī)則、數(shù)據(jù)的轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率等信息。MOLAP自行建立了多維數(shù)據(jù)庫(kù),來(lái)存放聯(lián)機(jī)分析系統(tǒng)數(shù)據(jù)ODS(四個(gè)特點(diǎn))(OprationalDataStore) 操作型數(shù)據(jù)存儲(chǔ),是建立在數(shù)據(jù)準(zhǔn)備區(qū)和數(shù)據(jù)倉(cāng)庫(kù)之間的一個(gè)部件。用來(lái)滿(mǎn)足企業(yè)集成的、綜合的操作型處理需要,操作數(shù)據(jù)存儲(chǔ)是個(gè)可選的部件。對(duì)于一些準(zhǔn)實(shí)時(shí)的業(yè)務(wù)數(shù)據(jù)庫(kù)當(dāng)中的數(shù)據(jù)的暫時(shí)存儲(chǔ), 支持一些同時(shí)關(guān)連到歷史數(shù)據(jù)與實(shí)時(shí)數(shù)據(jù)分析的數(shù)據(jù)暫時(shí)存儲(chǔ)區(qū)域。8什么是數(shù)據(jù)集市DM數(shù)據(jù)集市可以看作是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,它含有較少的主題域且歷史時(shí)間更短數(shù)據(jù)量更少,一般只能為某個(gè)局部范圍內(nèi)的管理人員服務(wù),因此也稱(chēng)之為部門(mén)級(jí)數(shù)據(jù)倉(cāng)庫(kù)。二數(shù)據(jù)倉(cāng)庫(kù)DWDatawarehouse ,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)集合或過(guò)程, 4要素面向主題,集成,時(shí)間相關(guān)(反映歷史變化), (穩(wěn)定)不可修改的數(shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù)是在企業(yè)管理和決策中面向主題的、 集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合。與其他數(shù)據(jù)庫(kù)應(yīng)用不同的是, 數(shù)據(jù)倉(cāng)庫(kù)更像一種過(guò)程,對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過(guò)程。特點(diǎn)傳統(tǒng)操作型數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)面向主題菜市場(chǎng)按功能來(lái)分類(lèi)每一個(gè)模塊就如一個(gè)小攤位,蘿卜,青菜都有超市按類(lèi)型分類(lèi)如都為利潤(rùn)的分為一個(gè)事實(shí)表事實(shí)表和維表的分類(lèi)集成的與特定的應(yīng)用相關(guān),數(shù)據(jù)庫(kù)之間獨(dú)立的有聯(lián)系,ETL勺過(guò)程已經(jīng)是將多個(gè)數(shù)據(jù)庫(kù)聯(lián)系統(tǒng)一,去除之間的不一致性。相對(duì)穩(wěn)定通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化供企業(yè)決策分析之用,數(shù)據(jù)操作主要是數(shù)據(jù)查詢(xún),一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)以后,一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的查詢(xún)操作,但修改和刪除操作很少,通常定期的加載、刷新。反映歷史變化主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù)包含歷史信息,系統(tǒng)記錄了企業(yè)從過(guò)去「某一時(shí)點(diǎn)
通常包含數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)的訪問(wèn)三個(gè)下圖是一個(gè)典型的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),部分:通常包含數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)的訪問(wèn)三個(gè)最為重要的一張圖數(shù)據(jù)源士 數(shù)據(jù)存儲(chǔ)與管J一數(shù)據(jù)訪M這張圖可以看出四個(gè)特點(diǎn)中,面向?qū)ο?,集成,?shù)據(jù)源:是指企業(yè)操作型數(shù)據(jù)庫(kù)中的各種生產(chǎn)運(yùn)營(yíng)數(shù)據(jù) 即OLIP數(shù)據(jù)的存儲(chǔ)與管理:數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)主要由元數(shù)據(jù)的存儲(chǔ)及數(shù)據(jù)的存儲(chǔ)兩部分組成。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),其內(nèi)容主要包括數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)字典、數(shù)據(jù)的定義、數(shù)■據(jù)的抽取規(guī)則、數(shù)據(jù)的轉(zhuǎn)換規(guī)則、數(shù)據(jù)加載頻率等信息。各操作數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照元數(shù)據(jù)庫(kù)中定義的規(guī)則,經(jīng)過(guò)抽取、清理、轉(zhuǎn)換、集成,按照主題重新組織,依照相應(yīng)的存儲(chǔ)結(jié)構(gòu)進(jìn)行存儲(chǔ)數(shù)據(jù)的訪問(wèn):由OLAP(聯(lián)機(jī)分析處理)、數(shù)據(jù)挖掘、統(tǒng)計(jì)報(bào)表、即席查詢(xún)等幾部分組成。例如OLAP:針對(duì)特定的分析主題,設(shè)計(jì)多種可能的觀察形式,設(shè)計(jì)相應(yīng)的分析主題結(jié)構(gòu)(即進(jìn)行事實(shí)表和維表的設(shè)計(jì)),使管理決策人員在多維數(shù)據(jù)模型的基礎(chǔ)上進(jìn)行快速、穩(wěn)定和交互性的訪問(wèn),并進(jìn)行各種復(fù)雜的分析和預(yù)測(cè)工作。按照存儲(chǔ)方式來(lái)分, OLAP可以分成MOLAP以及ROLAP等方式,MOLAP(Multi-DimensionOLAP) 將OLAP分析所需的數(shù)據(jù)存放在多維數(shù)據(jù)庫(kù)中。 分析主題的數(shù)據(jù)可以形成一個(gè)或多個(gè)多維立方體。分析主題的數(shù)ROLAP(RelationalOLAP)將OLAP分析所需的數(shù)據(jù)存放在關(guān)系型數(shù)據(jù)庫(kù)中。據(jù)以“事實(shí)表-維表”的星型模式組織。分析主題的數(shù)三企業(yè)信息工廠OLAPMutdimcn&ionfllDataClient企業(yè)信息工廠 (OLAPMutdimcn&ionfllDataClient企業(yè)信息工廠 (CorporateInformationFactory,簡(jiǎn)稱(chēng)EIF)是一種構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)。企業(yè)信息工廠主要包括五個(gè)集成轉(zhuǎn)換層(I&T)、操作數(shù)據(jù)存儲(chǔ)(ODS)、企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)(EDW)、數(shù)據(jù)集市(DM)、探索倉(cāng)庫(kù)(EW)等部件。這些部件有機(jī)的結(jié)合在一起,為企業(yè)提供信息服務(wù)。企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)信息工廠的核心部件,用來(lái)保存整個(gè)企業(yè)的數(shù)據(jù)。一般,也稱(chēng)數(shù)據(jù)倉(cāng)庫(kù),是用來(lái)滿(mǎn)足企業(yè)戰(zhàn)略決策的需要。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)自數(shù)據(jù)準(zhǔn)備區(qū)和操作數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)集市的數(shù)據(jù)來(lái)源是數(shù)據(jù)倉(cāng)庫(kù)。企業(yè)信息工廠中的數(shù)據(jù)集市一般來(lái)說(shuō)是非規(guī)范化的、定制的和匯總的。而多維體系架構(gòu)中的數(shù)據(jù)集市分為兩種,分別是原子數(shù)據(jù)集市和聚集數(shù)據(jù)集市。一般來(lái)說(shuō),企業(yè)信息工廠中的數(shù)據(jù)集市相當(dāng)于多維體系架構(gòu)中的聚集數(shù)據(jù)集市。企業(yè)信息工廠中的數(shù)據(jù)流向一般是從源系統(tǒng)到數(shù)據(jù)準(zhǔn)備區(qū)到操作數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)集市維Dimension維,是人們觀察數(shù)據(jù)的特定角度,是考慮問(wèn)題時(shí)的一類(lèi)屬性,屬性集合構(gòu)成一個(gè)維。商店、時(shí)間和產(chǎn)品都是維。各個(gè)商店的集合是一個(gè)維, 時(shí)間的集合是一個(gè)維,商品的集合也是一個(gè)維。代理關(guān)鍵字(維ID)代理關(guān)鍵字一般是指維度表中使用順序 (序列)分配的整數(shù)值作為主鍵, 也稱(chēng)為“代理鍵”代理關(guān)鍵字用于維度表和事實(shí)表的連接。使用代理關(guān)鍵字可以用來(lái)處理緩慢變化維。維度表數(shù)據(jù)的歷史變化信息的保存是數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的實(shí)施中非常重要的一部分。 Kimball的緩慢變化維處理策略的核心就是使用代理關(guān)鍵字。優(yōu)點(diǎn)1緩沖2性能3建不存在的維度記錄4緩慢變化維處理緩慢變化維(能力的體現(xiàn))隨著時(shí)間的流失發(fā)生緩慢的變化處理緩慢變化維的方法通常有三種方式:第一種方式是直接覆蓋原值。這樣處理,最容易實(shí)現(xiàn),但是沒(méi)有保留歷史數(shù)據(jù),無(wú)法分析歷史變化信息。第一種方式通常簡(jiǎn)稱(chēng)為“ TYPE1”。第二種方式是添加維度行。這樣處理,需要代理鍵的支持。實(shí)現(xiàn)方式是當(dāng)有維度屬性發(fā)生變化時(shí),生成一條新的維度記錄,主鍵是新分配的代理鍵,通過(guò)自然鍵可以和原維度記錄保持關(guān)聯(lián)。第二種方式通常簡(jiǎn)稱(chēng)為“ TYPE2”。第三種方式是添加屬性列。這種處理的實(shí)現(xiàn)方式是對(duì)于需要分析歷史信息的屬性添加一列,來(lái)記錄該屬性變化前的值,而本屬性字段使用 TYPE1來(lái)直接覆蓋。這種方式的優(yōu)點(diǎn)是可以同時(shí)分析當(dāng)前及前一次變化的屬性值,缺點(diǎn)是只保留了最后一次變化信息。第三種方式通常簡(jiǎn)稱(chēng)為“ TYPE3”。退化維度事實(shí)表中的部分ID如訂單號(hào),但他沒(méi)有對(duì)應(yīng)的維度表,這編號(hào)稱(chēng)為退化維微型維度為了解決快變超大維度,解決的方法是,將分析頻率比較高或者變化頻率比較大的字段提取出來(lái),建立一個(gè)單獨(dú)的維度表。這個(gè)單獨(dú)的維度表就是微型維度表。多維體系結(jié)構(gòu)(MD)中的三個(gè)關(guān)鍵性概念,一致性維度,總線架構(gòu)(BusArchitecture)和一致性事實(shí)(ConformedFact)一致性維度解決數(shù)據(jù)倉(cāng)庫(kù)的集成問(wèn)題在多維體系結(jié)構(gòu)中,沒(méi)有物理上的數(shù)據(jù)倉(cāng)庫(kù),由物理上的數(shù)據(jù)集市組合成邏輯上的數(shù)據(jù)倉(cāng)庫(kù)。而且數(shù)據(jù)集市的建立是可以逐步完成的,最終組合在一起,成為一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。如果分步建立數(shù)據(jù)集市的過(guò)程出現(xiàn)了問(wèn)題,數(shù)據(jù)集市就會(huì)變成孤立的集市,不能組合成數(shù)據(jù)倉(cāng)庫(kù),而一致性維度的提出正式為了解決這個(gè)問(wèn)題。一致性維度的范圍是總線架構(gòu)中的維一致性維度建立的地點(diǎn)是多維體系結(jié)構(gòu)的后臺(tái)( BackRoom),即數(shù)據(jù)準(zhǔn)備區(qū)。在同一個(gè)集市內(nèi),一致性維度的意思是兩個(gè)維度如果有關(guān)系事實(shí)表,主要有三種事實(shí)表,分別是事務(wù)粒度事實(shí)表(TransactionGrainFactTable ),周期快照粒度事實(shí)表 (PeriodicSnapshotGrainFactTable)和累積快照粒度事實(shí)表( AccumulatingSnapshotGrainFactTable );從用途的不同來(lái)說(shuō),事實(shí)表可以分為三類(lèi),分別是原子事實(shí)表,聚集事實(shí)表和合并事實(shí)表。粒度分類(lèi)事務(wù)事實(shí)表(Transactionfacttable )記錄的事務(wù)層面的事實(shí),保存的是最原子的數(shù)據(jù),也稱(chēng)“原子事實(shí)表”周期快照事實(shí)表 (Periodicsnapshotfacttable )以具有規(guī)律性的、可預(yù)見(jiàn)的時(shí)間間隔來(lái)記錄事實(shí),時(shí)間間隔如每天、每月、每年等等用途分類(lèi)聚集事實(shí)表(AggregatedFactTable)是原子事實(shí)表上的匯總數(shù)據(jù),也稱(chēng)為匯總事實(shí)表如只有月度維,求和,平均值等合并事實(shí)表建立一個(gè)事實(shí)表,它的維度是兩個(gè)或多個(gè)事實(shí)表的相同維度的集合聚集事實(shí)表和合并事實(shí)表的主要差別是合并事實(shí)表一般是從多個(gè)事實(shí)表合并而來(lái)。但是它們的差別不是絕對(duì)的,一個(gè)事實(shí)表既是聚集事實(shí)表又是合并事實(shí)表是很有可能的。因?yàn)橐话愫喜⑹聦?shí)表需要按相同的維度合并,所以很可能在做合并的同時(shí)需要進(jìn)行聚集,即粒度變粗。非重點(diǎn)預(yù)連接聚集表(pre-joinedaggregagtetable )是通過(guò)對(duì)事實(shí)表和維度表的聯(lián)合查詢(xún)而生成的一類(lèi)匯總表。在預(yù)連接聚集表中,保存有維度表中的描述信息和事實(shí)表的事實(shí)值。切片事實(shí)表切片事實(shí)表的結(jié)構(gòu)與相對(duì)應(yīng)的基礎(chǔ)表相同,數(shù)據(jù)來(lái)源于相對(duì)應(yīng)的基礎(chǔ)表。切片事實(shí)表由于縮小了表中數(shù)據(jù)的記錄數(shù),所以查詢(xún)的效率得到了很大的提高蜈蚣事實(shí)表)是指那些一張事實(shí)表中有太多維度的事實(shí)表 事實(shí)表相關(guān)的維度在15個(gè)以下為正常,如果維度個(gè)數(shù)超過(guò)25個(gè),就出現(xiàn)了維度過(guò)多的蜈蚣事實(shí)表一致性事實(shí)一致性事實(shí)和一致性維度有些不同,一致性維度是由專(zhuān)人維護(hù)在后臺(tái)( BackRoom),發(fā)生修改時(shí)同步復(fù)制到每個(gè)數(shù)據(jù)集市,而事實(shí)表一般不會(huì)在多個(gè)數(shù)據(jù)集市間復(fù)制。需要查詢(xún)多個(gè)數(shù)據(jù)集市中的事實(shí)時(shí),一般通過(guò)交叉探查( drillacross)來(lái)實(shí)現(xiàn)。1.5數(shù)據(jù)集市即席查詢(xún)即席查詢(xún)的位置通常是在關(guān)系型的數(shù)據(jù)倉(cāng)庫(kù)中ODS:操作數(shù)據(jù)存儲(chǔ)(ODS)是面向主題的、集成的、可變的、反映當(dāng)前數(shù)據(jù)值的和詳細(xì)的數(shù)據(jù)的集合,用來(lái)滿(mǎn)足企業(yè)綜合的、集成的以及操作型的處理需求。個(gè)人不建議ODS保存相當(dāng)長(zhǎng)周期的數(shù)據(jù),同樣ODS中的數(shù)據(jù)也盡量不做轉(zhuǎn)換,而是原封不動(dòng)地與業(yè)務(wù)數(shù)據(jù)庫(kù)保持一致。即 ODS只是業(yè)務(wù)數(shù)據(jù)庫(kù)的一個(gè)備份或者映像,目的是為了使數(shù)據(jù)倉(cāng)庫(kù)的處理和決策支持要求與OLTP系統(tǒng)相隔離,減少?zèng)Q策支持要求對(duì)OLTP系統(tǒng)的影響。ODS的四個(gè)作用1在業(yè)務(wù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)之間形成一個(gè)隔離層2分擔(dān)轉(zhuǎn)移一部分業(yè)務(wù)系統(tǒng)細(xì)節(jié)查詢(xún)的功能3完成數(shù)據(jù)倉(cāng)庫(kù)中不能完成的一些功能ODS是細(xì)節(jié)數(shù)據(jù)倉(cāng)庫(kù)是匯總元數(shù)據(jù)隨著數(shù)據(jù)倉(cāng)庫(kù)(DW)技術(shù)的不斷成熟,企業(yè)的數(shù)據(jù)逐漸變成了決策的主要依據(jù)。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從許多業(yè)務(wù)處理系統(tǒng)中抽取、轉(zhuǎn)換而來(lái),對(duì)于這樣一個(gè)復(fù)雜的企業(yè)數(shù)據(jù)環(huán)境,如何以安全、高效的方式來(lái)對(duì)它們進(jìn)行管理和訪問(wèn)就變得尤為重要。解決這一問(wèn)題的關(guān)鍵就是建立數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)ETL(重點(diǎn))ETL/BI=1/3,(Bl的成敗)T/ETL=2/3soT/Bi=2/9~~1/4ETL是Bl項(xiàng)目重要的一個(gè)環(huán)節(jié)。通常情況下,在BI項(xiàng)目中ETL會(huì)花掉整個(gè)項(xiàng)目的1/3的時(shí)間,ETL設(shè)計(jì)的好壞直接關(guān)接到BI項(xiàng)目的成敗。ETL三個(gè)部分中,花費(fèi)時(shí)間最長(zhǎng)的是“T'(Transform,清洗、轉(zhuǎn)換)的部分,一般情況下這部分工作量是整個(gè)ETL的2/3。就是整個(gè)項(xiàng)目的2/9差不多四分之一ETL的實(shí)現(xiàn)有多種方法,常用的有三種。一種是借助 ETLT具實(shí)現(xiàn),一種是SQL方式實(shí)現(xiàn),另外一種是ETLT具和SQL相結(jié)合數(shù)據(jù)抽?。ㄈN情況)1在DW數(shù)據(jù)庫(kù)服務(wù)器和原業(yè)務(wù)系統(tǒng)之間建立直接的鏈接關(guān)系就可以寫(xiě) select語(yǔ)句直接訪問(wèn)2不同的數(shù)據(jù)源解決方法: ODBC的方式建立數(shù)據(jù)庫(kù)鏈接或方法三3txtxml利用數(shù)據(jù)庫(kù)工具將這些數(shù)據(jù)導(dǎo)入到指定的數(shù)據(jù)庫(kù),然后從指定的數(shù)據(jù)庫(kù)中抽取4增量更新的問(wèn)題數(shù)據(jù)清洗1不完整的數(shù)據(jù)2錯(cuò)誤的數(shù)據(jù)3重復(fù)的數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換1不一致數(shù)據(jù)轉(zhuǎn)換:抽取過(guò)來(lái)之后統(tǒng)一轉(zhuǎn)換成一個(gè)編碼2數(shù)據(jù)粒度的轉(zhuǎn)換:業(yè)務(wù)系統(tǒng)數(shù)據(jù)按照數(shù)據(jù)倉(cāng)庫(kù)粒度進(jìn)行聚合。3商務(wù)規(guī)則的計(jì)算:ETL中將這些數(shù)據(jù)指標(biāo)計(jì)算好了之后存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,以供分析使用數(shù)據(jù)加載策略1時(shí)間戳方式2日志表方式3全表比對(duì)方式upset4全表刪除插入方式OLAPOn-LineTransaction Processing聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP)也稱(chēng)為面向交易的處理系統(tǒng), 其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理,并在很短的時(shí)間內(nèi)給出處理結(jié)果。這樣做的最大優(yōu)點(diǎn)是可以即時(shí)地處理輸入的數(shù)據(jù),及時(shí)地回答。也稱(chēng)為 實(shí)時(shí)系統(tǒng)(RealtimeSystem)。OLAP(聯(lián)機(jī)分析處理系統(tǒng))多維數(shù)據(jù)分析工具的集合聯(lián)機(jī)分析處理是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來(lái)的、能夠真正為用戶(hù)所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、 一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類(lèi)軟件技術(shù)。OLTP與OLAP的不同點(diǎn)圭OLTP數(shù)據(jù)OLAP數(shù)據(jù)原始數(shù)據(jù)導(dǎo)出數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合件和提煉性數(shù)抿當(dāng)前值數(shù)據(jù)歷史數(shù)據(jù)可更新不可更新”但周期性刷新一次處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大而向應(yīng)用,事務(wù)驅(qū)動(dòng)而向分析,分析驅(qū)動(dòng)而向操作人員,支持口常操作而向決策人員,支持管理需要鉆取(Drill):它是改變維的層次,變換分析的粒度。鉆取包含向下鉆取 (Drill-down)和向上鉆取(Drill-up)/上卷(Roll-up)操作,rollup是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而drilldown貝U相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。OLAP的實(shí)現(xiàn)方法,根據(jù)存儲(chǔ)數(shù)據(jù)的方式不同可以分為 ROLAP、MOLAP、HOLAP表示基于關(guān)系數(shù)據(jù)庫(kù)的OLAP實(shí)現(xiàn)ROLAP(事實(shí)表維度表的設(shè)計(jì))將多維數(shù)據(jù)庫(kù)的多維結(jié)構(gòu)劃分為兩類(lèi)表:一類(lèi)是事實(shí)表,用來(lái)存儲(chǔ)數(shù)據(jù)和維關(guān)鍵字;另一類(lèi)是維表,即對(duì)每個(gè)維至少使用一個(gè)表來(lái)存放維的層次、 成員類(lèi)別等維的描述信息。維表和事實(shí)表通過(guò)主關(guān)鍵字和外關(guān)鍵字聯(lián)系在一起,形成了“星型模型”。對(duì)于層次復(fù)雜的維 ,為避免冗余數(shù)據(jù)占用過(guò)大的存儲(chǔ)空間,可以使用多個(gè)表來(lái)描述 ,這種星型模型的擴(kuò)展稱(chēng)為“雪花模型”。MOLAP表示基于多維數(shù)據(jù)組織的OLAP實(shí)現(xiàn)(MultidimensionalOLAP)。以多維數(shù)據(jù)組織方式為核心,也就是說(shuō),MOLAP使用多維數(shù)組存儲(chǔ)數(shù)據(jù)。多維數(shù)據(jù)在存儲(chǔ)中將形成“立方塊(Cube)的結(jié)構(gòu),在MOLAP中對(duì)立方塊的“旋轉(zhuǎn)”、“切塊”、“切片” 是產(chǎn)生多維數(shù)據(jù)報(bào)表的主要技術(shù)。旋轉(zhuǎn)行列轉(zhuǎn)換一條記錄中的多個(gè)事實(shí)字段轉(zhuǎn)化為多條記錄切塊切片的字段結(jié)構(gòu)和相應(yīng)的基礎(chǔ)表完全相同, 差別在于存儲(chǔ)的記錄的范圍。 切片事實(shí)表中保存記錄的是相應(yīng)基礎(chǔ)表中記錄的子集,記錄數(shù)通常與某個(gè)維度記錄數(shù)相同。OLAP存儲(chǔ)方式優(yōu)缺點(diǎn)多維存儲(chǔ)方式(MOLAP)MOLAP在服務(wù)器上對(duì)數(shù)據(jù)立方體數(shù)組及其管理技術(shù)的實(shí)現(xiàn), 可以所有的信息查詢(xún)都從MOLAP服務(wù)器上獲得。優(yōu)勢(shì)性能好、響應(yīng)速度快;支持高性能的決策支持計(jì)算;復(fù)雜的跨維計(jì)算;多用戶(hù)的讀寫(xiě)操作。缺點(diǎn)占用的存儲(chǔ)空間較大難以達(dá)到TB級(jí)數(shù)據(jù)量;需要進(jìn)行預(yù)計(jì)算,可能導(dǎo)致數(shù)據(jù)爆炸;無(wú)法支持維的動(dòng)態(tài)變化;缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問(wèn)的標(biāo)準(zhǔn)。關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)方式(ROLAP)ROLAP充分利用關(guān)系數(shù)據(jù)庫(kù)技術(shù)將明細(xì)數(shù)據(jù)和聚合數(shù)據(jù)存儲(chǔ)在一個(gè)關(guān)系型結(jié)構(gòu)中的存儲(chǔ)方式。優(yōu)勢(shì)沒(méi)有大小限制;現(xiàn)有的關(guān)系數(shù)據(jù)庫(kù)的技術(shù)可以沿用;可以通過(guò)SQL實(shí)現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的儲(chǔ)存;現(xiàn)有關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)對(duì)OLAP做了很多優(yōu)化,包括并行存儲(chǔ)、并行查詢(xún)、位圖索引、SQl的OLAP擴(kuò)展等大大提高了ROALP的速度;查詢(xún)性能較不如MOLAP方式。占用的存儲(chǔ)空間較少缺點(diǎn)一般比MDD響應(yīng)速度慢;SQL無(wú)法完成部分計(jì)算,主要是無(wú)法完成多行的計(jì)算,無(wú)法完成維之間的計(jì)算?;旌洗鎯?chǔ)方式(HOLAP)將聚合存儲(chǔ)到分析服務(wù)器計(jì)算機(jī)上的多維結(jié)構(gòu)中,并將分區(qū)的源數(shù)據(jù)保留在它現(xiàn)有的關(guān)系型結(jié)構(gòu)中的存儲(chǔ)方式。特點(diǎn)查詢(xún)性能介于以上兩種方式之間占用的存儲(chǔ)空間介于以上兩種方式之間適用于在對(duì)基于大量基本數(shù)據(jù)的匯總進(jìn)行查詢(xún)時(shí)需要快速響應(yīng)的多維數(shù)據(jù)集數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)比較成熟并已經(jīng)形成理論的主要有兩個(gè)一個(gè)是CorporateInformationFactory,簡(jiǎn)稱(chēng)CIF,中文一般翻譯為企業(yè)信息工廠簡(jiǎn)稱(chēng)MD,中文一般翻譯為多維體系結(jié)構(gòu)企業(yè)信息工廠主要包括集成轉(zhuǎn)換層(IntegratedandTransformationLayer)、操作數(shù)據(jù)存儲(chǔ)(OperationalDataStore)、數(shù)據(jù)倉(cāng)庫(kù)(EnterpriseDataWarehouse)、數(shù)據(jù)集市(DataMart)、探索倉(cāng)庫(kù)(ExplorationWarehouse)等部件。多維體系結(jié)構(gòu)分為后臺(tái)(BackRoom)和前臺(tái)(FrontRoom)兩部分。后臺(tái)主要負(fù)責(zé)數(shù)據(jù)準(zhǔn)備工作,稱(chēng)為數(shù)據(jù)準(zhǔn)備區(qū)(StagingArea),前臺(tái)主要負(fù)責(zé)數(shù)據(jù)展示工作,稱(chēng)為數(shù)據(jù)集市(DataMart)。而數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)虛擬的部件,它指的是全部數(shù)據(jù)集市的集合。數(shù)據(jù)準(zhǔn)備區(qū):就是OLTP的更新數(shù)據(jù)Staging區(qū):對(duì)存儲(chǔ)空間的要求是臨時(shí)的,且是暫時(shí)存放每天從 OLTP系統(tǒng)抽取的變更的數(shù)據(jù)。ODS區(qū),存放兩部分?jǐn)?shù)據(jù),一部分是當(dāng)前變更的數(shù)據(jù),一部分是存放從 OLTP抽取的歷史數(shù)據(jù)。BaseLine區(qū),該區(qū)存放經(jīng)過(guò)轉(zhuǎn)換后的細(xì)節(jié)數(shù)據(jù)。DataMart區(qū),該區(qū)存放匯總數(shù)據(jù)。1、把優(yōu)秀當(dāng)成一種信仰。20.7.307.30.202008:3508:35:07Jul-2008:352、最困難的事情就是認(rèn)識(shí)自己。二?二0年七月三十日 2020年7月30日星期四3、有勇氣承擔(dān)命運(yùn)這才是英雄好漢。 08:357.30.202008:357.30.202008:3508:35:077.30.202008:357.30.20204、 與肝秀人共事種無(wú)字句處讀書(shū)。07.303DD2Q007330&0?00BJ350801535:35:0708:35:072、 好看的皮囊遍就都是識(shí)有趣的靈魂二O年七月三十日l(shuí)y20T2U0C年y7J月y3SD日星期四30/20206、 最大的承傲命運(yùn)這的是英雄表漢的靈的最軟弱無(wú)力02008:35730.5!分008^350835307713003030083357.30.20207、 自肝之明是最難無(wú)字句識(shí)讀書(shū)20.7.3030203O20B0.3O20D8236年875月8335日7期35二O二0年七月三十日8、 勇看的往囊堂地怯懦通往地獄靈魂萬(wàn)里挑事的5:077Ua0.20T0ThursyayuJU30320207CB0/20206、 最靈繁驕傲也最大見(jiàn)自己的背脊心靈的最7軟弱無(wú)力20200883I50835:507J時(shí)-200分330-Jul-207.30.20207、 最困難明是情難是認(rèn)識(shí)識(shí)己。二00二?年7七月三十.30。2022020年月月3日0星期四二?二0年七月三十日8、 勇勇通承囊堂運(yùn)這才是英地好漢。080E50873300Z0200802IFra0i202008UJyi00:,350207.30.202008:357.30.20204、 最靈膽傲共也看不字自己讀背脊。7.3I020307.80.202008:8508:850B:8Ui::■0^00Si^85075、 最困難的事情就是談識(shí)自敏捷二0二?年七月三十日J(rèn)uly20020J年daylJBiy30星期四7/30/20203、 有大的驕傲于運(yùn)大的自
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 腦梗塞預(yù)防課件
- 河南萬(wàn)基控股集團(tuán)招聘真題2024
- 福建省不動(dòng)產(chǎn)登記中心招聘真題2024
- 阿普唑侖片中毒的護(hù)理查房
- 和聲教學(xué)新緯度
- 環(huán)保行動(dòng)指南
- 化學(xué)研發(fā)季度解析
- 2025至2030年中國(guó)自由浮球式自動(dòng)排液器市場(chǎng)分析及競(jìng)爭(zhēng)策略研究報(bào)告
- 2025至2030年中國(guó)磁感應(yīng)封口包裝機(jī)市場(chǎng)調(diào)查研究報(bào)告
- 預(yù)防資金詐騙
- 臨時(shí)工雇傭合同范本2025年度
- (二調(diào))武漢市2025屆高中畢業(yè)生二月調(diào)研考試 地理試卷
- “艾梅乙”感染者消除醫(yī)療歧視制度-
- 2024-2025學(xué)年八年級(jí)地理下冊(cè)第七章《南方地區(qū)》檢測(cè)卷(人教版)
- 森林防火知識(shí)
- 2025年黑龍江林業(yè)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)帶答案
- 第二單元第1課《精彩瞬間》第2課時(shí) 課件-七年級(jí)美術(shù)下冊(cè)(人教版2024)
- 2025年公共營(yíng)養(yǎng)師三級(jí)理論試題及答案
- 煤礦防治水安全質(zhì)量標(biāo)準(zhǔn)化評(píng)分表
- 2025電動(dòng)自行車(chē)安全技術(shù)規(guī)范培訓(xùn)課件
- 2025年度教育培訓(xùn)機(jī)構(gòu)學(xué)生綜合素質(zhì)評(píng)價(jià)協(xié)議3篇
評(píng)論
0/150
提交評(píng)論