構(gòu)建基于數(shù)據(jù)倉庫的DSS_第1頁
構(gòu)建基于數(shù)據(jù)倉庫的DSS_第2頁
構(gòu)建基于數(shù)據(jù)倉庫的DSS_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、構(gòu)建基于數(shù)據(jù)倉庫的DSS         由于DSS(決策支持系統(tǒng))的先天不足,它的橫空出世并沒有給業(yè)界帶來多大的驚喜。然而,隨著數(shù)據(jù)倉庫的加入,DSS系統(tǒng)的尷尬處境正在逐步好轉(zhuǎn)。     一DSS的先天不足    二DSS因數(shù)據(jù)倉庫而實現(xiàn)了突破     進入90年代后,信息技術(shù)界悄然掀起數(shù)據(jù)倉庫和OLAP技術(shù)及數(shù)據(jù)采掘技術(shù)的研究和開發(fā)熱潮,這為克服傳統(tǒng)DDS存在的問題提供了技術(shù)上的支持,使DDS的發(fā)展躍上一個新的臺階,也為D

2、DS開辟了一條新的途徑。目前開發(fā)的綜合DDS是以數(shù)據(jù)倉庫(DataWarehouse)技術(shù)為基礎(chǔ),以聯(lián)機分析處理(OLAP)和數(shù)據(jù)采掘(DataMining)工具為手段進行實施的一整套解決方案。     一般決策所需的數(shù)據(jù)總是與一些維數(shù)(每一維代表對數(shù)據(jù)的一個特定的觀察視角,如地區(qū)、時間等)和不同級別(如部門、單位、地區(qū)和國家)的統(tǒng)計和計算有關(guān)。以多維數(shù)據(jù)為核心的多維數(shù)據(jù)分析是決策的主要內(nèi)容,數(shù)據(jù)倉庫的多維特征滿足DDS對數(shù)據(jù)的分析要求,并且克服數(shù)據(jù)庫的數(shù)據(jù)組織性差、利用率低的缺點。數(shù)據(jù)庫不具有多維特征,但卻是DW構(gòu)建的基礎(chǔ)。在數(shù)據(jù)庫多年的應(yīng)用中已經(jīng)積累

3、大量數(shù)據(jù),而且目前數(shù)據(jù)庫的數(shù)量和規(guī)模還在迅速增加和擴大,從而出現(xiàn)“數(shù)據(jù)豐富、知識貧乏”的問題。因此,從龐大的數(shù)據(jù)庫中抽出有用的信息已是當務(wù)之急,要成功地進行信息抽取首先要建立數(shù)據(jù)倉庫。     三如何建立數(shù)據(jù)倉庫 (1)數(shù)據(jù)倉庫設(shè)計     (2)數(shù)據(jù)抽取模塊     該模塊是根據(jù)元數(shù)據(jù)庫中的主題表定義、數(shù)據(jù)源定義、數(shù)據(jù)抽取規(guī)則定義對異地異構(gòu)數(shù)據(jù)源(包括各平臺的數(shù)據(jù)庫、文本文件、HTML文件、知識庫等)進行清理、轉(zhuǎn)換,對數(shù)據(jù)進行重新組織和加工,裝載到數(shù)據(jù)倉庫的目標庫中。在組織不同來源的

4、數(shù)據(jù)過程中,先將數(shù)據(jù)轉(zhuǎn)換成一種中間模式,再把它移至臨時工作區(qū)。加工數(shù)據(jù)是保證目標數(shù)據(jù)庫中數(shù)據(jù)的完整性、一致性。例如,有兩個數(shù)據(jù)源存儲與人員有關(guān)的信息,在定義數(shù)據(jù)組成的人員編碼類型時,可能一個是字符型,一個是整型;在定義人員性別這一屬性的類型時,一個可能是char(2),存儲的數(shù)據(jù)值為“男”和“女”,而另一個屬性類型為char(1),數(shù)據(jù)值為“F”和“M”。這兩個數(shù)據(jù)源的值都是正確的,但對于目標數(shù)據(jù)來說,必須加工為一種統(tǒng)一的方法來表示該屬性值,然后交由最終用戶進行驗證,這樣才能保證數(shù)據(jù)的質(zhì)量。在數(shù)據(jù)抽取過程中,必須在最終用戶的密切配合下,才能實現(xiàn)數(shù)據(jù)的真正統(tǒng)一。早期數(shù)據(jù)抽取是依靠手工編程和程序生

5、成器實現(xiàn),現(xiàn)在則通過高效的工具來實現(xiàn),如Ardent公司的Infomoter產(chǎn)品、SAS的數(shù)據(jù)倉庫產(chǎn)品SAS/WA(WarehouseAdministrator)及各大數(shù)據(jù)倉庫廠商推出的、完整的數(shù)據(jù)倉庫解決方案。     (3)數(shù)據(jù)維護模塊     四數(shù)據(jù)倉庫的DDS的支持     DDS對數(shù)據(jù)的使用是非結(jié)構(gòu)化的,它的一次查詢操作要涉及上百張表的上千行數(shù)據(jù),復(fù)雜的表連接會嚴重影響系統(tǒng)的性能,而且用戶僅僅在分析的時候才查找有關(guān)數(shù)據(jù),查找條件是隨機的,因此基于事務(wù)型數(shù)據(jù)庫的DDS的數(shù)據(jù)分析

6、能力很有限。目前,基于數(shù)據(jù)倉庫的DDS的決策技術(shù)包括聯(lián)機分析處理(OLAP)和數(shù)據(jù)挖掘(DataMining),在DDS環(huán)境中數(shù)據(jù)倉庫直接為聯(lián)機分析處理和數(shù)據(jù)挖掘提供數(shù)據(jù)能力。     1聯(lián)機分析處理(OLAP)     2數(shù)據(jù)挖掘     數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價值的及未知的關(guān)系、模式和趨勢,并以易被理解的方式表示出來。在DDS中通過進行數(shù)據(jù)挖掘用以發(fā)現(xiàn)數(shù)據(jù)之間的復(fù)雜聯(lián)系以及這種聯(lián)系對決策的影響。    在數(shù)據(jù)倉庫基礎(chǔ)上挖掘的知識通常以圖

7、表、可視化、類自然語言等形式表示出來,但所挖掘的知識并不都是有意義的,必須進行評價、篩選和驗證,把有意義的知識放到知識庫中,隨著時間的推移將積累更多的知識。知識庫根據(jù)挖掘的知識類型包括總結(jié)性知識、關(guān)聯(lián)性知識、分類模型知識、聚類模型知識,這些知識通過相應(yīng)挖掘算法得到。     五基于數(shù)據(jù)倉庫的DDS決策可以解決哪些類型的問題     DDS可以解決4個類型的問題:     (1)查詢一組數(shù)據(jù),可回答的問題如產(chǎn)品A的價格是多少?    (2)采用數(shù)理統(tǒng)計模型、運籌模型進行定量分析,預(yù)測趨勢,可回答的問題如:某產(chǎn)品明年銷售形勢如何?    (3)采用OLAP方法,通過代數(shù)運算將有關(guān)信息抽取出來作為問題的答案,如:某月某公司的銷售怎樣?    (4)采用數(shù)據(jù)挖掘技術(shù),通過對數(shù)據(jù)進行邏輯運算,找出它們之間內(nèi)在聯(lián)系,可回答的問題如:在某地影響某產(chǎn)品銷售的因素是什么?     第1類和第2類問題在過去傳統(tǒng)DDS中得到一定解決,現(xiàn)在的DDS重點解決第3類和第4類問題。這些問題的提出與回答通過可視化工具在問題綜合與交互系統(tǒng)中實現(xiàn),可視化工具提高人機接口開

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論