下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于數(shù)據(jù)倉(cāng)庫(kù)的企業(yè)管理決策支持應(yīng)用摘要:隨著計(jì)算機(jī)在管理中的應(yīng)用,大量的數(shù)據(jù)可以被充分的利用,以輔助管理和決策。 20世紀(jì)80年代,在管理信息系統(tǒng)的基礎(chǔ)上,發(fā)展了決策支持系統(tǒng)。決策支持系統(tǒng)的基礎(chǔ)是 大量被良好管理的數(shù)據(jù)。為了管理好這些數(shù)據(jù),產(chǎn)生和發(fā)展了數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),它是數(shù)據(jù)庫(kù)技 術(shù)發(fā)展及應(yīng)用驅(qū)動(dòng)的結(jié)果。數(shù)據(jù)倉(cāng)庫(kù)提供了一個(gè)數(shù)據(jù)平臺(tái),在此基礎(chǔ)上可以進(jìn)行強(qiáng)有力的數(shù) 據(jù)分析、數(shù)據(jù)挖掘和報(bào)表,從而支持決策。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)從提出開始,就受到學(xué)術(shù)界、工業(yè) 界和用戶的重視。關(guān)鍵字:數(shù)據(jù)倉(cāng)庫(kù)olap數(shù)據(jù)挖掘決策支持?jǐn)?shù)據(jù)立方1引言隨著計(jì)算機(jī)技術(shù)的發(fā)展,越來(lái)越多的企業(yè)建立了各種各樣的應(yīng)用子系統(tǒng),它們能鮫好地 滿足企業(yè)
2、oltp的應(yīng)用需求。但在市場(chǎng)競(jìng)爭(zhēng)的推動(dòng)卜;企業(yè)需耍利用現(xiàn)有的數(shù)據(jù)進(jìn)行分析、推 理,為企業(yè)的決策提供依據(jù)。但當(dāng)數(shù)據(jù)量迅速增長(zhǎng),口企業(yè)需求向深度和廣度發(fā)展時(shí),這種建 立在oltp基礎(chǔ)上的dss已不能很好地滿足決策的需耍。同時(shí)企業(yè)要保陽(yáng)大量的歷史數(shù)據(jù), 從歷史數(shù)據(jù)中獲取信息,為企業(yè)提供決策依據(jù)。因此盅耍重新組織企業(yè)數(shù)據(jù),建立基于數(shù)據(jù) 倉(cāng)庫(kù)的強(qiáng)有力的決策支持系統(tǒng)。目前,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的運(yùn)用正在向廣度和深度兩個(gè)方向擴(kuò)展。 廣度擴(kuò)展指的是數(shù)據(jù)源的廣泛化。不僅可以從各種異構(gòu)的數(shù)據(jù)庫(kù)屮獲取數(shù)據(jù),還包括面向 internet從互聯(lián)網(wǎng)上獲取數(shù)據(jù)。而深度方向的研究指的是基于已有信息,面向數(shù)據(jù)分析的應(yīng) 用。包括數(shù)據(jù)倉(cāng)庫(kù)
3、技術(shù)和聯(lián)機(jī)分析處理技術(shù)(olap) o關(guān)系數(shù)據(jù)庫(kù)之父e f codd于1993 年提出olap的概念。當(dāng)時(shí),codd認(rèn)為聯(lián)機(jī)事務(wù)處理己不能滿足終端用戶對(duì)數(shù)據(jù)庫(kù)查詢分析 的需要,用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行大量計(jì)算才能得到結(jié)果,因此需耍有一種而 向分析的技術(shù),olap技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的提出,使得olap技術(shù)能夠真正有效地提 供分析服務(wù)。2數(shù)據(jù)倉(cāng)庫(kù)技術(shù)概述2-1數(shù)據(jù)倉(cāng)庫(kù)技術(shù)策過(guò)程的、集成的、與時(shí)間有關(guān)、持久的數(shù)據(jù)集和。數(shù)據(jù)倉(cāng)庫(kù)為不同來(lái)源的數(shù)據(jù)提供了 一致的數(shù)據(jù)視圖,與數(shù)據(jù)挖掘、聯(lián)機(jī)分析處理等數(shù)據(jù)分析技術(shù)相結(jié)合,對(duì)為用戶提供靈活口主 的信息訪問和豐富的數(shù)據(jù)分析與報(bào)表功能,使企業(yè)數(shù)據(jù)得
4、到充分利用。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是多種 技術(shù)的綜合體,由數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)、數(shù)據(jù)倉(cāng)棄工具三部分組成:dbms負(fù)責(zé)管理 整個(gè)系統(tǒng)的運(yùn)轉(zhuǎn),是整個(gè)系統(tǒng)的引擎;數(shù)據(jù)倉(cāng)庫(kù)包括遠(yuǎn)期基本數(shù)據(jù)、近期基本數(shù)據(jù)、輕度綜 合數(shù)據(jù)和高度綜合數(shù)據(jù),是整個(gè)系統(tǒng)的核心;數(shù)據(jù)倉(cāng)庫(kù)工具則是通過(guò)olap、dm等工具發(fā)揮數(shù) 據(jù)倉(cāng)庫(kù)真止的作用。2-2聯(lián)機(jī)分析處理聯(lián)機(jī)分析處理是針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。通過(guò)對(duì)轉(zhuǎn)換后信息的很多種可能 的觀察形式進(jìn)行快速、一致和交互地存取,實(shí)現(xiàn)對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的觀察。2-3數(shù)據(jù)挖掘數(shù)據(jù)挖掘是一個(gè)決策支持過(guò)程,主要基于ai、統(tǒng)計(jì)學(xué)等技術(shù),自動(dòng)分析企業(yè)原有數(shù)據(jù),作 出歸納性推理,挖掘潛在模式,預(yù)測(cè)客八
5、行為,幫助決策者調(diào)整市場(chǎng)策略,正確決策。數(shù)據(jù)倉(cāng)庫(kù) 技術(shù),olap和數(shù)據(jù)挖掘作為三種獨(dú)立的信息處理技術(shù)都是以解決決策支持問題為驅(qū)動(dòng)的,三 者結(jié)合的木身就是一種基于數(shù)據(jù)庫(kù)技術(shù)的決策支持系統(tǒng)解決方案,數(shù)據(jù)倉(cāng)庫(kù)用于數(shù)據(jù)的存儲(chǔ) 和組織;olap集中于數(shù)據(jù)的分析;數(shù)據(jù)挖掘則致力于知識(shí)的自動(dòng)發(fā)現(xiàn)。3基于數(shù)據(jù)倉(cāng)庫(kù)的企業(yè)管理決策支持系統(tǒng)的構(gòu)架方案在企業(yè)管理決策支持系統(tǒng)的構(gòu)架方案屮,olap應(yīng)用系統(tǒng)屮的數(shù)據(jù)庫(kù),可分為不同的類型, 它是dss的數(shù)據(jù)來(lái)源。人量不同事務(wù)的、可靠的、歷史性的數(shù)據(jù)是建立dw的基礎(chǔ)。olap 從dw屮的可集成數(shù)據(jù)出發(fā),構(gòu)建面向分析的多維數(shù)據(jù)模型,白動(dòng)地發(fā)現(xiàn)數(shù)據(jù)屮的潛在模式, 并以這些模式為基
6、礎(chǔ)白動(dòng)作出預(yù)測(cè),dm屮挖掘的知識(shí)可以肓接用于指導(dǎo)olap的分析處理。 而olap分析得出的新知識(shí)又可以補(bǔ)充到系統(tǒng)的知識(shí)庫(kù)屮。傳統(tǒng)的dss將數(shù)據(jù)庫(kù)、模型庫(kù)、 知識(shí)庫(kù)往往被獨(dú)立地設(shè)計(jì)和實(shí)現(xiàn),缺乏內(nèi)在的統(tǒng)一性。而數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析和數(shù)據(jù)挖掘組 成的新的dss將三庫(kù)有利地結(jié)合在一個(gè)多維的數(shù)據(jù)庫(kù)中,利用多維分析工貝,通過(guò)可視化工 具將分析結(jié)果呈現(xiàn)給用戶。圖1數(shù)據(jù)倉(cāng)庫(kù)化決策分析系統(tǒng)的體系結(jié)構(gòu)如圖1所示的結(jié)構(gòu),首先從各類異構(gòu)的數(shù)據(jù)庫(kù)中通過(guò)數(shù)據(jù)復(fù)制技術(shù),將數(shù)據(jù)復(fù)制到數(shù)據(jù) 倉(cāng)庫(kù)屮,然后,在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上建立數(shù)據(jù)立方體,實(shí)現(xiàn)olap。最后,客戶端訪問服務(wù)器采 川了三層結(jié)構(gòu),通過(guò)http方式直接訪問數(shù)據(jù)庫(kù)。而傳統(tǒng)
7、的數(shù)據(jù)倉(cāng)庫(kù)一般采用c/s結(jié)構(gòu)。對(duì)于 c/s結(jié)構(gòu),一般說(shuō)來(lái)客戶端維護(hù)比較因難,而應(yīng)用局限在局域網(wǎng)內(nèi)。對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,訪 問需要經(jīng)過(guò)防火墻的情況,難以處理,采川三層結(jié)構(gòu)冇效地解決了這一問題。4建立決策分析系統(tǒng)的幾個(gè)關(guān)鍵技術(shù)在構(gòu)建決策分析系統(tǒng)過(guò)程中,主要難點(diǎn)集中在數(shù)據(jù)的復(fù)制清洗過(guò)程中。此外,選擇合理的 存儲(chǔ)模式對(duì)決策分析系統(tǒng)的構(gòu)建有著非常大的影響。4 1數(shù)據(jù)的變換、清洗數(shù)據(jù)倉(cāng)庫(kù)的基本觀念z是,當(dāng)數(shù)據(jù)從業(yè)務(wù)系統(tǒng)或其他數(shù)據(jù)來(lái)源提取出來(lái)時(shí),應(yīng)該首先 經(jīng)過(guò)變換或清洗,才能將它加載到數(shù)據(jù)倉(cāng)庫(kù)屮。實(shí)現(xiàn)數(shù)據(jù)變換的方法可分為手工編制程序和 使用專用數(shù)據(jù)變換工具。使用專用的數(shù)據(jù)變換輔助工具,操作相對(duì)簡(jiǎn)單,人力資源使
8、用較少。 缺點(diǎn)是,往往靈活性較差。而手工編制程序相對(duì)靈活。在實(shí)際使用小往往結(jié)合這兩種方法, 在使用專用數(shù)據(jù)轉(zhuǎn)換工具的同時(shí),潛入手工編制的代碼。但這兩種方法都是在數(shù)據(jù)傳送過(guò)程 屮完成數(shù)據(jù)的轉(zhuǎn)換和清洗,一般可以將這-過(guò)程放在晩間完成。那時(shí),業(yè)務(wù)相對(duì)不繁忙,各服 務(wù)器壓力較輕。但是對(duì)于一些大型的olap系統(tǒng),數(shù)據(jù)屋比較大,業(yè)務(wù)處理時(shí)間比較反,業(yè)務(wù)空 閑吋間本來(lái)就不多。而在有限的業(yè)務(wù)空閑吋間內(nèi)還耍完成數(shù)據(jù)的一些匯總計(jì)算,數(shù)據(jù)備份以 及數(shù)據(jù)傳送。這樣分配給數(shù)據(jù)傳送的時(shí)間非常有限。在數(shù)據(jù)傳送過(guò)程小完成清洗會(huì)比較大的 影響數(shù)據(jù)傳送的效率??梢酝ㄟ^(guò)在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)吋記錄一些額外的信息,而推遲數(shù)據(jù)的清洗 和變換。
9、主要有以下方法:(1) 計(jì)算列方法 該方法主要針對(duì)簡(jiǎn)單變換,在傳送過(guò)程中直接將原始數(shù)據(jù)導(dǎo)入,在數(shù)據(jù) 倉(cāng)庫(kù)中,建立計(jì)算列進(jìn)行透明轉(zhuǎn)換,而不影響數(shù)據(jù)傳送的效率。(2) 視圖法 該方法主要針對(duì)清潔和集成。視圖法同樣是在傳送時(shí)直接導(dǎo)入。對(duì)于淸潔, 可以再建立一張額外的表,建立原始數(shù)據(jù)和清潔數(shù)據(jù)的對(duì)應(yīng)關(guān)系。對(duì)于集成,可以將原始數(shù)據(jù) 通過(guò)視圖集成,然后在視圖上建立數(shù)據(jù)立方體。理論上對(duì)聚集和概括也有效,可以在傳送時(shí)不 考慮過(guò)渡的情況,但這樣反而能夠增加傳送的數(shù)量。4-2存儲(chǔ)格式的選擇數(shù)據(jù)立方體的存儲(chǔ)有三種方式,多維oi.ap(molap)、關(guān)系olap(rolap)、混合 olap(holap)。日前,不同
10、的存儲(chǔ)格式對(duì)于性能的影響在各種文獻(xiàn)中,一般只有相對(duì)定性的標(biāo) 準(zhǔn),而缺乏定最的標(biāo)準(zhǔn)。這里我們根據(jù)實(shí)際應(yīng)用中的經(jīng)驗(yàn),給出各種情況下的各種存儲(chǔ)格式人 概的性能指標(biāo)。聚合是預(yù)先計(jì)算好的數(shù)據(jù)匯總,聚合可以改進(jìn)杏詢響應(yīng)時(shí)間。聚合需要額外 的存儲(chǔ)空間。對(duì)于各維度各層次的單元值,全部都預(yù)先計(jì)算的話,杳詢時(shí)間最短,聚合空間最 大,定義此時(shí)的聚合空間為100%,相對(duì)的查詢時(shí)間為最短;全部不預(yù)先計(jì)算的查詢時(shí)間為最 長(zhǎng)查詢時(shí)間。我們通過(guò)定義性能的提升來(lái)定義聚合冇分比。聚合冇分比=100x (max-cur) /(max-mtn)這里max為最長(zhǎng)查詢時(shí)間,min為最短查詢時(shí)間,cur為目標(biāo)查詢時(shí)間。molap存 儲(chǔ)模式
11、使得分區(qū)的聚合和英源數(shù)據(jù)的復(fù)本以多維結(jié)構(gòu)存儲(chǔ)在分析服務(wù)器計(jì)算上。rolap存儲(chǔ) 模式使得分區(qū)的聚合存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)的衣(在分區(qū)數(shù)據(jù)源中指定)中。在rolap存儲(chǔ)模式下,查詢響應(yīng)一般較其他兩種存儲(chǔ)模式下要慢。hoi.ap存儲(chǔ)模式結(jié)合了 moi.ap和rolap兩者的特 性??傮w來(lái)講,molap通過(guò)犧牲存儲(chǔ)空間換取查詢時(shí)間的縮短,rolap通過(guò)犧牲查詢時(shí)間換取 更少的存儲(chǔ)空間。而ho-lap在兩者z中取折中。實(shí)際上兩者的性能在量化指標(biāo)上的差別, 并沒冇明確捉出。這里,結(jié)合實(shí)際的經(jīng)驗(yàn),給出一個(gè)近似的量化指標(biāo)。圖2中可以直觀地看到 molap的平均查詢時(shí)間最短。而隨著聚合百分比的增加,性能的提高不明顯
12、。rolap的查詢時(shí) 間相對(duì)多得多,而且隨著聚合百分比的增加捉高明顯。i1olap和rolap基本相同。圖3屮,我 們選擇的是一個(gè)人小約為2g的表。整體來(lái)說(shuō),molap所需要的存儲(chǔ)空間要多于holap和 rolapo但當(dāng)聚合數(shù)增高的時(shí)候,rolap所需要的空間驟升。作者推斷,這是由于rolap本來(lái) 就是適合于查詢時(shí)間要求不高的情況。當(dāng)對(duì)性能要求比較高的時(shí)候,存儲(chǔ)額外信息所需要的 空間棊木接近molapo圖2三種格式的平均査詢時(shí)間比較圖3三種格式所需的空間houf處理是指數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)計(jì)算聚合,并r將原始數(shù)據(jù)計(jì)篦后填入聚合的過(guò)程。這里同樣選 擇的是一個(gè)大小為2g的表進(jìn)行的測(cè)試omolap因?yàn)閷⒃?/p>
13、數(shù)據(jù)讀入木地,處理時(shí)間相對(duì)較短, 而ro lap的處理時(shí)間在聚合小于30%的時(shí)候比molap短,但隨著聚合數(shù)的增加,處理時(shí)間也 隨z上升。5總結(jié)決策支持系統(tǒng)的建立是一項(xiàng)復(fù)朵的系統(tǒng)工程。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)不是一種單一的技術(shù)和軟件, 它融合了數(shù)據(jù)庫(kù)理論,聯(lián)機(jī)分析處理,數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)可視化,人工智能和統(tǒng)計(jì)學(xué)等多項(xiàng) 研究領(lǐng)域,在人量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的知識(shí),用于決策支持和預(yù)測(cè)未來(lái)。因此這種基于數(shù)據(jù)倉(cāng) 庫(kù)技術(shù)的企業(yè)管理決策支持系統(tǒng)為決策人員捉供了強(qiáng)有力的支持工具,有力地推動(dòng)了決策的 現(xiàn)代化進(jìn)程。參考文獻(xiàn)1 王珊,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與聯(lián)機(jī)分析處理,北京:科學(xué)出版社,1998 2 codd e. f. codd s. b. sal lyc. t., beyonddecis ion support, usa: com-puterwor id, 1993.3 inmon, w. h., wei eh, j. d., glassey, k. l., managing the dataware-house. new york, johnw iley&sons.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度釣場(chǎng)租賃與生態(tài)保護(hù)合同3篇
- 2025年玩具公司玩具研發(fā)中心合作開發(fā)合同3篇
- 2025版商業(yè)地產(chǎn)租賃合同樣本及注意事項(xiàng)4篇
- 二零二五年度翻譯行業(yè)人才培養(yǎng)與職業(yè)發(fā)展規(guī)劃合同2篇
- 二零二五年度二手房買賣合同房地產(chǎn)權(quán)屬登記與過(guò)戶合同4篇
- 二零二五年度自助餐連鎖店經(jīng)營(yíng)權(quán)轉(zhuǎn)讓合同3篇
- 二零二五年文化活動(dòng)組織授權(quán)委托合同3篇
- 物業(yè)公司財(cái)務(wù)管理及合同制度二零二五年度修訂版3篇
- 2025年度影視項(xiàng)目臨時(shí)制片助理聘用合同4篇
- 二零二五年新能源儲(chǔ)能設(shè)備采購(gòu)代理委托合同2篇
- 第二章 運(yùn)營(yíng)管理戰(zhàn)略
- 《三本白皮書》全文內(nèi)容及應(yīng)知應(yīng)會(huì)知識(shí)點(diǎn)
- 專題14 思想方法專題:線段與角計(jì)算中的思想方法壓軸題四種模型全攻略(解析版)
- 醫(yī)院外來(lái)器械及植入物管理制度(4篇)
- 新概念英語(yǔ)第二冊(cè)考評(píng)試卷含答案(第49-56課)
- 商業(yè)倫理與企業(yè)社會(huì)責(zé)任(山東財(cái)經(jīng)大學(xué))智慧樹知到期末考試答案章節(jié)答案2024年山東財(cái)經(jīng)大學(xué)
- 【奧運(yùn)會(huì)獎(jiǎng)牌榜預(yù)測(cè)建模實(shí)證探析12000字(論文)】
- (完整版)譯林版英語(yǔ)詞匯表(四年級(jí)下)
- (高清正版)T_CAGHP 066—2019危巖落石柔性防護(hù)網(wǎng)工程技術(shù)規(guī)范(試行)
- 支票票樣-樣版
- 標(biāo)準(zhǔn)活動(dòng)板房設(shè)計(jì)說(shuō)明(共7頁(yè))
評(píng)論
0/150
提交評(píng)論