碩士論文-OLAP技術(shù)研究及其在移動通信運營中的應(yīng)用.pdf_第1頁
碩士論文-OLAP技術(shù)研究及其在移動通信運營中的應(yīng)用.pdf_第2頁
碩士論文-OLAP技術(shù)研究及其在移動通信運營中的應(yīng)用.pdf_第3頁
碩士論文-OLAP技術(shù)研究及其在移動通信運營中的應(yīng)用.pdf_第4頁
碩士論文-OLAP技術(shù)研究及其在移動通信運營中的應(yīng)用.pdf_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

碩士論文-OLAP技術(shù)研究及其在移動通信運營中的應(yīng)用.pdf.pdf 免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

長春工業(yè)大學(xué) 碩士學(xué)位論文 OLAP技術(shù)研究及其在移動通信運營中的應(yīng)用 姓名 李哲琦 申請學(xué)位級別 碩士 專業(yè) 計算機應(yīng)用技術(shù) 指導(dǎo)教師 逄煥利 20070301 長春工業(yè)大學(xué)碩士學(xué)位論文 摘要 目前 數(shù)據(jù)倉庫技術(shù)正處于快速發(fā)展時期 基于數(shù)據(jù)倉庫的聯(lián)機分析處理系統(tǒng)也 正在成為I T 行業(yè)新的增長點 數(shù)據(jù)倉庫技術(shù)起源于對大量數(shù)據(jù)迸行處理的需要 是 隨著業(yè)務(wù)應(yīng)用的需要而產(chǎn)生的 與傳統(tǒng)的數(shù)據(jù)庫技術(shù)相比 數(shù)據(jù)倉庫為決策分析提供 了更好的支持 超出了傳統(tǒng)聯(lián)機事務(wù)處理的范疇 因此近幾年來 數(shù)據(jù)倉庫技術(shù)發(fā)展 很快 并在各個行業(yè)都得到了很多的應(yīng)用 相對于國外大中型企業(yè) 我國企業(yè)的數(shù)據(jù) 倉庫建設(shè)目前還處于起步和探索階段 在電信企業(yè)這樣大型的信息化產(chǎn)業(yè)內(nèi)部建設(shè)數(shù) 據(jù)倉庫應(yīng)用 對技術(shù)更是提出了更高的要求 現(xiàn)在介紹數(shù)據(jù)倉庫和O L A P 技術(shù)的書籍和資料在概念和結(jié)構(gòu)方面討論較多 本文 希望通過討論在設(shè)計和具體實現(xiàn)數(shù)據(jù)倉庫 以及基于數(shù)據(jù)倉庫的O L A P 的過程中遇到 的一些比較實用和細節(jié)的問題 達到從實際出發(fā) 突出實用性和集成性的特點 本文首先闡述了數(shù)據(jù)倉庫的和聯(lián)機分析處理的概念和發(fā)展歷史 以及當前我國電 信行業(yè)對傳統(tǒng)數(shù)據(jù)庫豹應(yīng)用情況 接下來從理論上分折了數(shù)據(jù)倉庫和多維分析與傳統(tǒng) 數(shù)據(jù)庫應(yīng)用的不同之處 重點闡述了對數(shù)據(jù)進行多維分析的概念和方法 在應(yīng)用分析 部分 針對數(shù)據(jù)倉庫建設(shè)的各個重點環(huán)節(jié)進行分析和討論 結(jié)合理論知識和實際經(jīng)驗 得出最適合當前電信行業(yè)應(yīng)用的處理方案或建議 并討論了當前可應(yīng)用數(shù)據(jù)倉庫和聯(lián) 機分析處理技術(shù)的領(lǐng)域 最后給出了一個數(shù)據(jù)倉庫的應(yīng)用實例一電信話單分析系統(tǒng) 通過該系統(tǒng)的從建模到數(shù)據(jù)抽取 到多維分析應(yīng)用 展示了如何從現(xiàn)有業(yè)務(wù)系統(tǒng)上建 立數(shù)據(jù)倉庫應(yīng)用和多維分析方法 建設(shè)數(shù)據(jù)倉庫系統(tǒng)能夠極大地提高國內(nèi)電信企業(yè)的業(yè)務(wù)支撐能力 豐富企業(yè)的業(yè) 務(wù)應(yīng)用內(nèi)容 提高企業(yè)的市場競爭力 縮短與國際電信企業(yè)在運營管理能力方面的差 距 為迎接將來更開放的 競爭更激烈的電信市場做好技術(shù)準備 關(guān)鍵詞 數(shù)據(jù)倉庫 多維分析 聯(lián)機分析處理 決策支持系統(tǒng) 關(guān)系數(shù)據(jù)庫 長春工業(yè)大學(xué)碩士學(xué)位論文 A b s t r a c t A tp r e s e n t t h ed a t aw a r e h o u s et e c h n o l o g yi sb e i n gi nt h ef a s td e v e l o p m e n tt i m e a n d o n l i n ea n a l y s i sp r o c e s s i n gs y s t e mb a s e do nt h ed a t aw a r e h o u s et e c h n o l o g yi sb e c o m i n ga f l e wg r o w i n gp o i n to ft h eI Tp r o f e s s i o n T h ed a t aw a r e h o u s et e c h n o l o g yo r i g i n si nc a r r i e s o np r o c e s s i n gt ot h en l a s sd a t a i ti sa l o n gw i t ht h es e r v i c ea p p l i c a t i o nn e e d C o m p a r e sw i t l l t h et r a d i t i o n a ld a t a b a s et e c h n o l o g y t h ed a t aw a r e h o u s eh a sp r o v i d e dab e t t e rs u p p o r tf o r t h ed e c i s i o na n a l y s i sa n d j u m p e do u tt h ec a t e g o r i e si nt r a d i t i o n a lo n l i n eb u s i n e s sp r o c e s s e s T h e r e f o r e d a t aw a r e h o u s e st e c h n o l o g i e a ld e v e l o p m e n ti sv e r yq u i c ki nt h el a s tf e wy e a r s a n dp e o p l e sh a v ed e v e l o p e dm a n ya p p l i c a t i o n si ne a c hp r o f e s s i o n C o m p a r et ot h e o v e r s e a sm i d d l eo r l a r g es c a l ee n t e r p r i s e so u rc o u n t r ye n t e r p r i s e Sd a t aw a r e h o u s e c o n s t r u c t i o ni ss t i l li nt h ee x p l o r a t i o ns t a g ea tp r e s e n t I nl a r g e s c a l ea n di n f o r m a t i o nb a s e d e n t e r p r i s e sl i k et h et e l e c o m m u n i c a t i o nc o m p a n i e si nC h i n a b u i l d i n gd a t aw a r e h o u s e a p p l i c a t i o ni sah i g h l e v e lr e q u e s tt o t h et e c h n o l o g yn s e r s N o w b o o k sa n dt h ea r t i c l e sw h i c hi n t r o d u c e dt h ed a t aw a r e h o u s ea n dt h eO L A P t e c h n o l o g yd i s c u s sm a n yi nt h ec o n c e p ta n dt h es t r u c t u r ea s p e c t t h i sa r t i c l eh o p e dt h r o u g h t h ed i s c u s s i o ni nt h ed e s i g na n dt h es p e c i f i ci m p l e m e n t a t i o nd a t aw a r e h o u s e a n dO L A P b a s e do nd a t aw a r e h o u s ei np r a c t i c a la n dd e t a i lw a y a c h i e v e de m b a r k s p r o m i n e n tu s a b l e f r o mt h er e a l i t ya n dt h ei n t e g r a t i o nc h a r a c t e r i s t i c T h i sa r t i c l ef i r s te l a b o r a t e dt h ed a t a w a r e h o u s ea n dt h eo n l i n ea n a l y s i sp r o c e s s i n gc o n c e p ta n dt h e i rd e v e l o p m e n th i s t o r i e s a n d t h e nD e s c r i b e dt h es i t u a t i o no ft h et r a d i t i o n a ld a t a b a s ea p p l i c a t i o ni no u rc u r r e n tc o u n t r y t e l e c o m m u n i c a t i o n p r o f e s s i o n M e td o w n t h i sa r t i c l et h e o r e t i c a l l ya n a l y z e dt h ed e f e r e n c e b e t w e e nt h ed a t aw a r e h o u s ea n dt h em u l t i d i m e n s i o n a l a n a l y s i st e c h n o l o g yt o t h e t r a d i t i o n a ld a t a b a s ea p p l i c a t i o n s a n de l a b o r a t e dw i t he m p h a s i st h ec o n c e p ta n dt h em e t h o d o f t h em u l t i d i m e n s i o n a la n a l y s i st ot h ed a t a I nt h ea p p l i c a t i o na n a l y s i sp a r t c a r r i e do nt h e a n a l y s i sa n dt h ed i s c u s s i o ni nv i e wo fd a t aw a r e h o u s ec o n s t r u c t i o ni ne a c hk e yp o i n t t r yt o o b t a i n st h ew a yw h i c hm o s ts u i t st h ec u r r e n tt e l e c o m m u n i c a t i o np r o f e s s i o na p p l i c a t i o n w i t ht h e o r y k n o w l e d g ea n dt h ep r a c t i c a le x p e r i e n c e t h e nd i s c u s s e ds e v e r a lp o s s i b l e d o m a i nw h i c ht h ed a t aw a r e h o u s ea n dt h eo n l i n ea n a l y t i c a lp r o c e s s i n gt e c h n o l o g yC a nb e u s e d F i n a l l yi n t h i s a r t i c l eh a sp r o d u c e dad a t aw a r e h o u s ea p p l i c a t i o ne x a m p l e t e l e c o m m u n i c a t i o nt e l e p h o n er e c o r d sa n a l y s i ss y s t e m t h r o u g ht h eM o d e l i n gp r o c e s s d a t a e x t r a c t t ot h em u l t i d i m e n s i o n a la n a l y s i sa p p l i c a t i o n h a dd e m o n s t r a t e dh o w t oe s t a b l i s ha d a t aw a r e h o u s ea p p l i c a t i o na n dt h em u l t i d i m e n s i o n a la n a l y s i sb a s e do nt h ee x i s t i n g 一蘭量三些查蘭堡主蘭壁笙蘭 b u s i n e s sp r o c e s s i n gs y s t e m s B u i l dd a t aw a r e h o u s es y s t e mC a l le n o r m o u s l ye n h a n c et h es e r v i c ea b i l i t yo fd o m e s t i c t e l e c o m m u n i c a t i o ne n t e r p r i s ea n de n r i c he n t e r p r i s e ss e r v i c ea p p l i c a t i o nc o n t e n t i ta l s oc a l l e n h a n c e st h ec o m p e t i t i v ep o w e ri n m a r k e t r e d u c e st h ed i s t a n c ew i t hi n t e r n a t i o n a l t e l e c o m m u n i c a t i o ne n t e r p r i s e U s i n gd a t aw a r e h o u s ef o rt 1 1 em a r k e tw h i c hm o r eo p e n i n g a n dt h ec o m p e t i t i o n sw h i c hm o r ei n t e n s i o n si nt h ef u t u r e K e y w o r d s D a t aW a r e h o u s e M u l t i d i m e n s i o n a lA n a l y s i s O n l i n eA n a l y s i sP r o c e s s i n g D e c i s i o nS u p p o r tS y s t e m R e l a t i o n a lD a t a b a s e 長春工業(yè)大學(xué)碩士學(xué)位論文 原創(chuàng)性聲明 本人鄭重聲明 所呈交的碩士學(xué)位論文 是本人在指導(dǎo)教師的指導(dǎo)下 獨立進行 研究工作所取得的成果 除文中已經(jīng)注明引用的內(nèi)容外 本論文不包含任何其他個人 或集體已經(jīng)發(fā)表或撰寫過的作品成果 對本文的研究做出重要貢獻的個人和集體 均 已在文中以明確方式標明 本人完全意識到本聲明的法律結(jié)果由本人承擔 學(xué)位論文作者簽名 移墻 V J 5 2 日期 d 一7年弓月 1 1 研究背景 第一章緒論 1 1 1 數(shù)據(jù)倉庫和O L A P 技術(shù)的發(fā)展 隨著以服務(wù)為中心的第三產(chǎn)業(yè)在現(xiàn)代社會經(jīng)濟中所占比重的日益增大 傳統(tǒng)的面 向工業(yè)制造業(yè)的管理模式已不再適合人們的需要 管理學(xué)家P e t e r D R u c k e r 提出了 知識管理的革命概念 指出企業(yè)成功的關(guān)鍵在于能否有效地獲取和管理知識 企業(yè)從 本質(zhì)上說是利用知識為用戶解決問題的機構(gòu) 有用的知識存在于大量的原始數(shù)據(jù)中 計算機的使用使得數(shù)據(jù)得以有效的保存和組織 計算機系統(tǒng)的功能從數(shù)值計算擴展到 數(shù)據(jù)管理距今已有三十多年 最初的數(shù)據(jù)管理形式主要是文件系統(tǒng) 少量的以數(shù)據(jù)片 段之間增加 些關(guān)聯(lián)和語義而構(gòu)成層次型或網(wǎng)狀數(shù)據(jù)庫 但數(shù)據(jù)的訪問必須依賴于特 定的程序 數(shù)據(jù)的存取方式是固定的 死板的 到了1 9 6 9 年 E F C o d d 博士發(fā)表了他著名的關(guān)系數(shù)據(jù)模型的論文 此后 關(guān)系 數(shù)據(jù)庫的出現(xiàn)開創(chuàng)了數(shù)據(jù)管理的一個新時代 近二十多年 大量新技術(shù) 新思路涌現(xiàn) 出來并被用于關(guān)系數(shù)據(jù)庫系統(tǒng)的開發(fā)和實現(xiàn) 客戶 服務(wù)器體系結(jié)構(gòu) 存儲過程 多 線索并發(fā)內(nèi)核 異步I 0 和代價優(yōu)化 等等 這使得關(guān)系數(shù)據(jù)庫系統(tǒng)的處理能力毫不 遜色于傳統(tǒng)封閉的數(shù)據(jù)庫系統(tǒng) 而關(guān)系數(shù)據(jù)庫在訪問邏輯和應(yīng)用上所帶來的好處則遠 遠不止這些 數(shù)據(jù)庫查詢語言 S Q L 的使用己成為一個不可阻擋的潮流 加上近些年 來計算機硬件的處理能力呈數(shù)量級的遞增 關(guān)系數(shù)據(jù)庫最終成為聯(lián)機事務(wù)處理系統(tǒng)的 主宰 整個8 0 年代自到9 0 年代初 聯(lián)機事務(wù)處理 O L T P 一直是數(shù)據(jù)庫應(yīng)用的主流 然而 應(yīng)用在不斷地進步 當聯(lián)機事務(wù)處理系統(tǒng)應(yīng)用到一定階段的時候 企業(yè)家們便 發(fā)現(xiàn)單靠擁有聯(lián)機事務(wù)處理系統(tǒng)己經(jīng)不足以獲得市場競爭的優(yōu)勢 他們需要對其自身 業(yè)務(wù)的運作以及整個市場相關(guān)行業(yè)的態(tài)勢進行分析 而做出有利的決策 這種決策需 要對大量的業(yè)務(wù)數(shù)據(jù)包括歷史業(yè)務(wù)數(shù)據(jù)進行分析才能得到 2 1 世紀后 隨著計算機上 數(shù)據(jù)庫技術(shù)的成熟和廣泛應(yīng)用 類似電信 銀行和保險等公共服務(wù)企業(yè)內(nèi)部積累了大 量的數(shù)據(jù) 這些數(shù)據(jù)包括以往的業(yè)務(wù)歷史記錄以及用戶資料等 長期以來 在主要進 行聯(lián)機事務(wù)處理 O L T P 的操作型數(shù)據(jù)庫環(huán)境下 上述數(shù)據(jù)僅用于業(yè)務(wù)流程的支持和歷 史數(shù)據(jù)的保存 無疑是對資源的一種浪費 著名的數(shù)據(jù)倉庫專家R a l p hK i m b a l l 寫道 我們花了二十多年的時間將數(shù)據(jù)放入數(shù)據(jù)庫 如今是該將它們拿出來使用的時候 了 長春工業(yè)大學(xué)碩士學(xué)位論文 事實上 將大量的業(yè)務(wù)數(shù)據(jù)應(yīng)用于分析和統(tǒng)計原本是一個非常簡單和自然的想 法a 但在實際的操作中 人們卻發(fā)現(xiàn)要獲得有用的信息并非如想象的那么容易 第一 所有聯(lián)機事務(wù)處理強調(diào)的是密集的數(shù)據(jù)更新處理性能和系統(tǒng)的可靠性 并不關(guān)心數(shù)據(jù) 查詢的方便與快捷 聯(lián)機分析和事務(wù)處理對系統(tǒng)的要求不同 同一個數(shù)據(jù)庫在理論上 都難以做到兩全 第二 業(yè)務(wù)數(shù)據(jù)往往被存放于分散的異構(gòu)環(huán)境中 不易統(tǒng)一查詢訪 問 而且還有大量的歷史數(shù)據(jù)處于脫機狀態(tài) 形同虛設(shè) 第三 業(yè)務(wù)數(shù)據(jù)的模式針對 事務(wù)處理系統(tǒng)而設(shè)計 數(shù)據(jù)的格式和描述方式并不適合非計算機專業(yè)人員進行業(yè)務(wù)上 的分析和統(tǒng)計 因此有人感嘆 2 0 年前查詢不到數(shù)據(jù)是因為數(shù)據(jù)太少了 而今天查詢 不到數(shù)據(jù)是因為數(shù)據(jù)太多了 針對這一問題 人們設(shè)想專門為業(yè)務(wù)的統(tǒng)計分析建立一 個數(shù)據(jù)中心 它的數(shù)據(jù)從聯(lián)機的事務(wù)處理系統(tǒng)中來 從異構(gòu)的外部數(shù)據(jù)源來 從脫機 的歷史業(yè)務(wù)數(shù)據(jù)中來 這個數(shù)據(jù)中心是一個聯(lián)機的系統(tǒng) 它是專門為分析統(tǒng)計和決 策支持應(yīng)用服務(wù)的 通過它滿足決策支持和聯(lián)機分析應(yīng)用所要求的一切 這個數(shù)據(jù)中 心就叫做數(shù)據(jù)倉庫 D a t aW a r e h o u s e 這個概念在9 0 年代初被提出來 并在信息領(lǐng) 域迅速興起 對于數(shù)據(jù)倉庫的具體定義 目前還存在較大爭議 數(shù)據(jù)倉庫之父w H I n m o n 指出 數(shù)據(jù)倉庫是支持企業(yè)或組織的決策分析處理的 面向主題的 集成的 不可更新的 隨時間不斷變化的數(shù)據(jù)集合 1 在實際應(yīng)用中 也存在另一種更加明 晰的闡述了數(shù)據(jù)倉庫和事務(wù)處理型數(shù)據(jù)庫之間的關(guān)系的定義 數(shù)據(jù)倉庫是為了查詢 Q u e r y i n g 和報告 R e p o r t i n g 而專門構(gòu)造的事務(wù)處理型數(shù)據(jù)的副本 數(shù)據(jù)倉庫定義 的核心就是要支持面向主題的決策分析 數(shù)據(jù)倉庫所要研究和解決的問題就是如何從 數(shù)據(jù)庫中獲取更多 更有用的信息 聯(lián)機分析處理 O L A P 是專門設(shè)計用于對儲存在數(shù)據(jù)倉庫中的數(shù)據(jù)進行復(fù)雜操作 的技術(shù) 它是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析 通過對信息的多個角度 維 進行 快速 一致 穩(wěn)定地交互訪問 使決策分析人員可以深入地進行觀察 聯(lián)機分析處理 O L A P 的概念最早是由關(guān)系數(shù)據(jù)庫之父E F C o d d 于1 9 9 3 年提出的 他同時提出了 關(guān)于O L A P 的1 2 條準則 O L A P 的目標是滿足決策支持或者滿足在多維環(huán)境下特定的查 詢和報表需求 它的技術(shù)核心是 維 這個概念 維是人們觀察客觀世界的角度 是 一種高層次的類型劃分 維 一般包含著層次關(guān)系 這種層次關(guān)系有時會相當復(fù)雜 通過把一個實體的多項重要的屬性定義為多個維 d i m e n s i o n 使用戶能對不同維上 的數(shù)據(jù)進行比較 因此O L A P 也可以說是多維數(shù)據(jù)分析工具的集合 1 1 2 國內(nèi)電信行業(yè)的背景情況 從上世紀八十年代開始 我國電信企業(yè)開始進行大規(guī)模的信息化建設(shè) 在近二十 年的時間中 電信企業(yè)已全面實現(xiàn)了生產(chǎn)及服務(wù)過程信息化 隨著業(yè)務(wù)不斷趨于多樣 2 長春工業(yè)大學(xué)碩士學(xué)位論文 化 各電信企業(yè)都針對不同業(yè)務(wù)建立了多個生產(chǎn)管理系統(tǒng) 如中國電信建設(shè)的生產(chǎn)系 統(tǒng)就包括了進行業(yè)務(wù)受理 配線配號系統(tǒng) 進行計費 賬務(wù)及欠費處理的計費系統(tǒng) 1 1 4 1 1 2 1 8 0 1 8 9 等專業(yè)系統(tǒng) 2 0 1 I C 等卡類管理系統(tǒng) 基于互聯(lián)網(wǎng)信息管理的 數(shù)據(jù)業(yè)務(wù)管理系統(tǒng)以及交換 傳輸 網(wǎng)管系統(tǒng)等 中國移動也建設(shè)了綜合業(yè)務(wù)支撐 R O S S 系統(tǒng) 用于夢網(wǎng)短信接入的短信網(wǎng)關(guān) 彩信網(wǎng)關(guān) G P R S 網(wǎng)關(guān)等各專業(yè)管理系統(tǒng) 刪 目前 電信企業(yè)建設(shè)的項目仍然以生產(chǎn)支撐系統(tǒng)為主 通過這些支撐系統(tǒng)的建設(shè) 規(guī)范了電信企業(yè)內(nèi)部管理流程 大大提高了電信企業(yè)的上作效率 增強了業(yè)務(wù)水平 提高了企業(yè)的競爭力 但是在進入2 1 世紀以后 面l 臨迅速膨脹的業(yè)務(wù)量 電信行業(yè)在信息管理方面面 臨新的挑戰(zhàn) 一方面 業(yè)務(wù)支撐系統(tǒng)日益復(fù)雜化 并且不斷地劃分為各個生產(chǎn)子系統(tǒng) 使得業(yè)務(wù)分析人員獲取有效數(shù)據(jù)的難度加大 另一方面 由于業(yè)務(wù)量的迅速發(fā)展 支 撐系統(tǒng)的各生產(chǎn)子系統(tǒng)處理負擔日益加重 而統(tǒng)計日益復(fù)雜 仍以傳統(tǒng)的方式 在生 產(chǎn)系統(tǒng)中進行統(tǒng)計分析 向市場營銷人員及時提供充足 準確的經(jīng)營信息而又不影響 生產(chǎn)系統(tǒng)的處理效率己不現(xiàn)實 此外 由于硬件設(shè)施的差距在縮小 競爭將最終體現(xiàn) 在對客戶的價值取向和消費心理為導(dǎo)向 經(jīng)營模式和服務(wù)體系也從 以業(yè)務(wù)為中心 轉(zhuǎn)變?yōu)?以客戶為中心 叫 基于以上幾點 有必要實現(xiàn)操作數(shù)據(jù)與經(jīng)營數(shù)據(jù)的分離 形成統(tǒng)一的經(jīng)營信息數(shù)據(jù)源 在服務(wù)支撐系統(tǒng)中為統(tǒng)計分析等經(jīng)營信息服務(wù)建設(shè)專門 的處理子系統(tǒng) 生產(chǎn)予系統(tǒng)視本身情況 周期地備份并清理歷史數(shù)據(jù) 而經(jīng)營信息服 務(wù)子系統(tǒng)所需的大量歷史數(shù)據(jù)不能自接依賴于生產(chǎn)子系統(tǒng) 必須周期性地從生產(chǎn)子系 統(tǒng)中抽取 獨立積累 獨立存儲 獨立管理 隨著市場競爭的不斷加劇 對客戶資源 的爭奪也進入了白熱化的階段 如何發(fā)展新用戶 擴大自己的用戶群 如何設(shè)計出更 適合用戶需要的業(yè)務(wù) 將用戶綁定在自己的網(wǎng)絡(luò)上 如何合理地設(shè)定資費在用戶可以 接受的水平 一個個新問題擺在了電信運營商的面前 在激烈的市場競爭面前 要想科學(xué)的決策 離不開數(shù)據(jù)的支持 從企業(yè)對于數(shù)據(jù) 分析的應(yīng)用己經(jīng)從簡單的營業(yè)報表走向了經(jīng)營分析系統(tǒng)并進一步提出了對決策支持 系統(tǒng) D S S 經(jīng)理信息系統(tǒng) E I S 的需求 從簡單的客戶資料統(tǒng)計走向了客戶關(guān)系管 理 C R M 這些新一代的分析決策系統(tǒng)都需要一個穩(wěn)定可靠的 獨立于生產(chǎn)系統(tǒng)數(shù)據(jù) 的信息平臺 基于以上需求 電信行業(yè)建立基于數(shù)據(jù)倉庫的分析平臺己是勢在必行 1 2 研究的目的和意義 基于上述研究背景 本文的研究目的主要是以下幾點 1 對數(shù)據(jù)倉庫和O L A P 技術(shù)在理論上同傳統(tǒng)數(shù)據(jù)庫技術(shù)的不同之處和技術(shù)難點 進行探討和分析 3 長春工業(yè)大學(xué)碩士學(xué)位論文 2 對于多維查詢的概念和方法進行深入分析 對技術(shù)難點提出理論解決方案 3 對電信企業(yè)如何實施數(shù)據(jù)倉庫和運用O L A P 技術(shù)進行分析的方法要素進行闡 述和分析 并提出建議 4 對數(shù)據(jù)倉庫和O L A P 應(yīng)用系統(tǒng)的實現(xiàn)過程和應(yīng)用方式進行實踐 1 3 研究工作及論文結(jié)構(gòu) 1 3 1 構(gòu)建數(shù)據(jù)倉庫 數(shù)據(jù)倉庫構(gòu)建的具體步驟如下 1 確定數(shù)據(jù)倉庫分析主題 目標 維度和維層次 2 定義元數(shù)據(jù)并設(shè)計數(shù)據(jù)倉庫的總體結(jié)構(gòu) 確定存儲方式 3 數(shù)據(jù)的抽取 凈化和驗證 1 3 2O L A P 前端展現(xiàn)工具的開發(fā) 前端展現(xiàn)工具的開發(fā)具體步驟如下 1 把已有數(shù)據(jù)倉庫架構(gòu)映射到多維模型 2 設(shè)計用戶圖形界面 提供向?qū)Чδ?以方便決策者操作 3 根據(jù)決策者提出的分析目標 提供的相關(guān)數(shù)據(jù)及約束條件自動處理分析請求 并將處理的最終結(jié)果顯示在用戶界面 以供決策者參考 1 B B 論文結(jié)構(gòu) 本文共分六章 其中第四 五兩章是核心部分 第一章 緒論 在緒論中 介紹了數(shù)據(jù)倉庫和O L A P 技術(shù)發(fā)展的背景 電信行業(yè) 的應(yīng)用情況及本文的研究目的和內(nèi)容 第二章 數(shù)據(jù)倉庫理論及應(yīng)用 介紹了數(shù)據(jù)倉庫的相關(guān)概念 分析了數(shù)據(jù)倉庫的 數(shù)據(jù)組織結(jié)構(gòu)和體系結(jié)構(gòu) 并指出了數(shù)據(jù)倉庫的技術(shù)要求 第三章 基于數(shù)據(jù)倉庫的聯(lián)機分析技術(shù) 重點介紹了O L A P 相關(guān)技術(shù) 包括基本 概念 與O L T P 的關(guān)系以及O L A P 的數(shù)據(jù)組織和多維分析結(jié)構(gòu) 第四章 電信話單分析系統(tǒng)設(shè)計 以電信運營中話單業(yè)務(wù)為實現(xiàn)背景 構(gòu)建適合 通信業(yè)數(shù)據(jù)倉庫模型和體系架構(gòu) 第五章 電信話單分析系統(tǒng)實現(xiàn) 介紹了事實表與維度表的生成 及基于O p e n S o u r c e 開源引擎構(gòu)建符合J 2 E E 規(guī)范的O L A P 分析實現(xiàn)系統(tǒng) 4 長春工業(yè)大學(xué)碩士學(xué)位論文 第六章 論文總結(jié) 總結(jié)了研究進展 并指出有待改進和優(yōu)化之處 5 長春工業(yè)大學(xué)碩士學(xué)位論文 第二章數(shù)據(jù)倉庫理論及應(yīng)用 2 1 數(shù)據(jù)倉庫的定義及用戶 2 1 1 數(shù)據(jù)倉庫的定義 提到數(shù)據(jù)倉庫 D a t aW a r e h o u s e 常常有人將其與數(shù)據(jù)庫混為一談 或者將它當 作一個可以從 貨架 上買到的產(chǎn)品 其實 數(shù)據(jù)倉庫既非數(shù)據(jù)庫 也不是一個實實 在在的產(chǎn)品 數(shù)據(jù)倉庫技術(shù)是近年來出現(xiàn)的 發(fā)展迅速的一種技術(shù) 它通過把企業(yè)大量的歷史 數(shù)據(jù)整理集中到一個中央倉庫中 將數(shù)據(jù)加以分析并呈現(xiàn)給用戶來支持管理者的決 策 數(shù)據(jù)倉庫是一個整合式的 面向主題的 歷史性的以及只讀性的數(shù)據(jù)集合 這一 定義清楚地揭示了數(shù)據(jù)倉庫和傳統(tǒng)關(guān)系數(shù)據(jù)庫的不同應(yīng)用目標 傳統(tǒng)的關(guān)系型數(shù)據(jù)庫 技術(shù)主要為O L T P 提供支持 如訂票系統(tǒng) 儲蓄系統(tǒng)等 而數(shù)據(jù)倉庫技術(shù)應(yīng)決策支持 需求而生 數(shù)據(jù)倉庫整合來自企業(yè)各個業(yè)務(wù)系統(tǒng)的各種類型和格式的數(shù)據(jù) 進行系統(tǒng)加工 匯總和整理 形成一個完整而一致的企業(yè)全局信息庫 數(shù)據(jù)倉庫的數(shù)據(jù)按照有利于決 策過程的主題進行組織 其中包含了數(shù)據(jù)的信息涵義 如銷售情況 利潤狀況及信貸 風(fēng)險程度等 這樣的數(shù)據(jù)集合便于信息分析和信息挖掘 除此之外 數(shù)據(jù)倉庫系統(tǒng)中 存儲的數(shù)據(jù)記錄了企業(yè)從過去某一時點 如開始應(yīng)用數(shù)據(jù)倉庫的時點 到目前的各個 階段的信息 數(shù)據(jù)倉庫之父B i l lI n m o n 對數(shù)據(jù)倉庫所下的定義是 數(shù)據(jù)倉庫是面向主題的 集成的 穩(wěn)定的 隨時間變化的數(shù)據(jù)集合 用以支持管理決策的過程 著名的D B S 和 M I S 專家R o bM a t t i s i o n e l 在1 9 9 6 年出版的 D a t aW a r e h o u s e 一書中也做如下的定 義 數(shù)據(jù)倉庫是一種新型的數(shù)據(jù)庫 數(shù)據(jù)倉庫被組織用作一個中性存儲區(qū) 被D a t a M i n i n g 和其它應(yīng)用程序所使用 使用這些數(shù)據(jù)將滿足一組預(yù)定義的商業(yè)評判 由此可 見 數(shù)據(jù)倉庫是一個綜合的解決方案 一個數(shù)據(jù)倉庫通常是一個分散的數(shù)據(jù)存儲 在其中信息是存為這樣的一種形式 它適合于業(yè)務(wù)智能化和決策支持系統(tǒng) 數(shù)據(jù)可能是以不同形式存儲的 它并不影響 O L T P 系統(tǒng)的運作 數(shù)據(jù)倉庫的建立是用一種循環(huán)的逐步完善的過程而不是一步完善 的 數(shù)據(jù)倉庫通常是與解決企業(yè)不斷改變的組織問題的全過程有關(guān) 6 長春工業(yè)大學(xué)碩士學(xué)位論文 數(shù)據(jù)倉庫通常是圍繞主題建立的 主題就是企業(yè)感興趣的論題 比如部門 活動 和操作結(jié)果 數(shù)據(jù)倉庫的結(jié)構(gòu)是由數(shù)據(jù)倉庫應(yīng)滿足的應(yīng)用決定的 快速提交信息是成 功實施數(shù)據(jù)倉庫的關(guān)鍵 由于這一點 就引入了數(shù)據(jù)集市和信息集市這些概念 數(shù)據(jù) 集市是數(shù)據(jù)倉庫的一個子集 它通常更為概括 以滿足對關(guān)心數(shù)據(jù)的查詢有比數(shù)據(jù)倉 庫本身更快的速度 信息集市存儲可用視窗器 v i e w e r 顯示的預(yù)處理的信息 2 1 2 數(shù)據(jù)倉庫的用戶 數(shù)據(jù)倉庫的用戶可以分為信息人員和信息使用人員 信息人員在創(chuàng)建分析的時候并不知道需求 在創(chuàng)建數(shù)據(jù)倉庫的過程中 信息人員 要完成四種類型的工作 概況分析 抽取 建模和分類 信息人員要從當前成功運行 的關(guān)系型數(shù)據(jù)庫中查看大量的數(shù)據(jù) 要考慮數(shù)據(jù)之間的關(guān)系 關(guān)聯(lián)和數(shù)據(jù)模型 信息使用人員是數(shù)據(jù)倉庫的大量用戶 他們在使用數(shù)據(jù)倉庫的時候 知道自己所 需求 用一種可以預(yù)測的 重復(fù)性的方式來使用數(shù)據(jù)倉庫平臺 信息使用人員實際上 是從戰(zhàn)術(shù)上監(jiān)控決策的效果 例如 醫(yī)院系統(tǒng)中藥費收入的比例問題 根據(jù)信息使用 人員的報告 在一段時期內(nèi) 醫(yī)院的藥費收入在醫(yī)院的總收入中的比例過高 此時 信息人員應(yīng)開始調(diào)查為什么在這段時期內(nèi) 藥費的收入比例會增大 得出結(jié)論后將信 息提交給領(lǐng)導(dǎo) 以便領(lǐng)導(dǎo)采取相應(yīng)的管理措施 2 2 數(shù)據(jù)倉庫的特征及其作用 2 2 1 數(shù)據(jù)倉庫的特征 1 面向主題的 數(shù)據(jù)庫是面向應(yīng)用設(shè)計的 它的數(shù)據(jù)只是為處理具體應(yīng)用而組織在一起的 反映 了一個單位數(shù)據(jù)的動態(tài)特征 即各個部門間的數(shù)據(jù)處理流程 這種數(shù)據(jù)組織方式具有 較強的操作性 但它對于數(shù)據(jù)內(nèi)容的劃分不適用于分析 主題是一個在較高層次將信 息系統(tǒng)中的數(shù)據(jù)綜合 歸類并進行分析利用的抽象 每一個主題基本對應(yīng)某一宏觀分 析領(lǐng)域所涉及的分析對象 即主題是一個在較高層次將數(shù)據(jù)歸類的標準 每一個主題 基本對應(yīng)一個宏觀的領(lǐng)域 每個領(lǐng)域有自己的邏輯內(nèi)涵互不交叉 面向主題的數(shù)據(jù)組 織方式 就是在較高層次上對分析對象的數(shù)據(jù)的一個完整性 一致性的描述 能完整 統(tǒng)一地刻畫各個分析對象所設(shè)計的各項數(shù)據(jù) 以及數(shù)據(jù)之間的聯(lián)系 數(shù)據(jù)進入數(shù)據(jù)倉 庫之前 必然要經(jīng)過加工與集成 將原始的數(shù)據(jù)結(jié)構(gòu)做一個從面向應(yīng)用到面向主題的 轉(zhuǎn)變 7 長春工業(yè)大學(xué)碩士學(xué)位論文 2 集成的 數(shù)據(jù)倉庫中的數(shù)據(jù)來自多個外專業(yè)應(yīng)用系統(tǒng) 但并不是對這些數(shù)據(jù)的簡單歸類與 拷貝 它應(yīng)該是對源數(shù)據(jù)的增值和統(tǒng)一 經(jīng)必要的變換以最適合使用的方式存儲起來 支持聯(lián)機分析處理 3 非易失的 相對穩(wěn)定的 數(shù)據(jù)倉庫主要是為信息分析提供綜合的 集成的 面向主題的數(shù)據(jù) 這些數(shù)據(jù)原 則上不允許信息分析人員直接對數(shù)據(jù)執(zhí)行修改或刪除操作 進入數(shù)據(jù)倉庫的數(shù)據(jù)則是 相對穩(wěn)定的 4 反映歷史變化的 操作型數(shù)據(jù)庫主要關(guān)心當前某一個時間段內(nèi)的數(shù)據(jù) 而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包 含歷史信息 系統(tǒng)記錄了企業(yè)從過去某一時點 如開始應(yīng)用數(shù)據(jù)倉庫的時點 到目前的 各個階段的信息 通過這些信息 可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和 預(yù)測 企業(yè)數(shù)據(jù)倉庫的建設(shè) 是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ) 數(shù) 據(jù)倉庫不是靜態(tài)的概念 只有把信息及時交給需要這些信息的使用者 供他們做出改 善其業(yè)務(wù)經(jīng)營的決策 信息才能發(fā)揮作用和意義 而把信息加以整理歸納和重組 并 及時提供給相應(yīng)的管理決策人員 就是數(shù)據(jù)倉庫的根本任務(wù) 因此 從產(chǎn)業(yè)界的角度 看 數(shù)據(jù)倉庫建設(shè)是一個工程 2 2 2 數(shù)據(jù)倉庫的作用 數(shù)據(jù)倉庫主要有以下幾方面的作用 1 首先 數(shù)據(jù)倉庫支持多維分析 多維分析是通過把一個實體的多項重要的屬性定 義為多個維度 使得用戶能方便地匯總數(shù)據(jù)集 簡化了數(shù)據(jù)的分析處理邏輯 并能對 不同維度的值的數(shù)據(jù)進行比較 而維度則表示了對信息 的不同理解角度 應(yīng)用多維 分析可以在一個查詢中對不同階段的數(shù)據(jù)進行縱向或橫向比較 這在決策過程中非常 有用 其次 數(shù)據(jù)倉庫是數(shù)據(jù)挖掘技術(shù)的關(guān)鍵基礎(chǔ) 數(shù)據(jù)挖掘技術(shù)要在己有數(shù)據(jù)中識別 數(shù)據(jù)的模式 以幫助用戶理解現(xiàn)有的信息 并在己有信息的基礎(chǔ)上 對未來的狀況做 出預(yù)測 在數(shù)據(jù)倉庫的基礎(chǔ)上進行數(shù)據(jù)挖掘 就可以針對整個企業(yè)的狀況和未來發(fā)展 做出較完整 合理 準確的分析和預(yù)測 8 長春工業(yè)大學(xué)碩士學(xué)位論文 2 3 數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫分析 傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)由于主要用于企業(yè)的商務(wù)日常事務(wù)處理工作 主要執(zhí)行的是聯(lián) 機事務(wù)和查詢處理 是為企業(yè)的特定的應(yīng)用需求而服務(wù)的 用戶關(guān)心的是響應(yīng)時間 數(shù)據(jù)安全性和完整性 1 存放在數(shù)據(jù)庫中的數(shù)據(jù)也就遵循了操作型數(shù)據(jù)的特點 而為 適應(yīng)數(shù)據(jù)分析處理需求而產(chǎn)生的數(shù)據(jù)倉庫中所存放的數(shù)據(jù)就應(yīng)該是分析型的數(shù)據(jù) 具 體差異比較如下 表2 1 數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別 0 L T P 系統(tǒng)數(shù)據(jù)模型與數(shù)據(jù)倉庫0 1 A P 數(shù)據(jù)模型的特點比較 O L T P 系統(tǒng)數(shù)據(jù)倉庫O L A P 系統(tǒng) 規(guī)范化的非規(guī)范化的 無派生數(shù)據(jù)有派生數(shù)據(jù) 使用許多不易理解的代碼 有完整的數(shù)據(jù)描述 記錄中不一定有時間字段一定要有作為關(guān)鍵字的時間字段 以保證 歷史數(shù)據(jù)的唯一性 秒級以下的響應(yīng)時間秒級到分鐘級的查詢響應(yīng)時間 業(yè)務(wù)數(shù)據(jù)沒有 純 業(yè)務(wù)數(shù)據(jù) 2 3 1 基本任務(wù)差異 數(shù)據(jù)倉庫的基本任務(wù)與傳統(tǒng)的數(shù)據(jù)庫基本任務(wù)有很大的區(qū)別 由于數(shù)據(jù)倉庫的數(shù) 據(jù)源可以來自于不同的D B M S 的數(shù)據(jù)庫 內(nèi)部數(shù)據(jù)源 也可以來自于不同格式的文件 中 外部數(shù)據(jù)源 這些數(shù)據(jù)源可以看作數(shù)據(jù)倉庫中輸送數(shù)據(jù)的管道 在輸送數(shù)據(jù)的過 程中 數(shù)據(jù)倉庫的設(shè)計者必須考慮如下任務(wù) 1 將這些數(shù)據(jù)源的模型轉(zhuǎn)換成通用的描述形式 2 將同義的數(shù)據(jù)元素的名稱 數(shù)據(jù)類型 尺寸進行統(tǒng)一的規(guī)范一一即凈化數(shù)據(jù) 元素 3 必須從各數(shù)據(jù)源中抽取子集 為形成數(shù)據(jù)倉庫的整體模型奠定基礎(chǔ) 4 把相似的數(shù)據(jù)源集成為統(tǒng)一的資源模型 5 通過增加時間戳 來源戳 分割 衍生元素 提供擴展的模型用于存儲聚集 概括值 從而獲得數(shù)據(jù)倉庫模型 9 長春工業(yè)大學(xué)碩士學(xué)位論文 2 3 2 數(shù)據(jù)主要特征差異 數(shù)據(jù)倉庫和操作型數(shù)據(jù)庫在數(shù)據(jù)來源 數(shù)據(jù)內(nèi)容 數(shù)據(jù)模式 服務(wù)對象 訪問方 式 事務(wù)管理和模型構(gòu)建等方面都有不同的特點和要求 不管是在性能上 還是在功 能上都存在較大的區(qū)別 事務(wù)處理通常只是針對當前和短期存儲的數(shù)據(jù) 且不同數(shù)據(jù) 的保存期限也不盡相同 即使有一些歷史數(shù)據(jù)保存下來了 也很難得到充分利用 但 對于決策分析而言 歷史數(shù)據(jù)是相當重要的 許多分析方法必須以大量的歷史數(shù)據(jù)為 依托 沒有歷史數(shù)據(jù)的詳細分析 難以把握未來發(fā)展趨勢 數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫 的數(shù)據(jù)特征的比較如下 1 面向主題的結(jié)構(gòu)設(shè)計 數(shù)據(jù)倉庫是以最終用戶的觀點組織和管理數(shù)據(jù) 數(shù)據(jù) 庫是為了提高應(yīng)用程序查詢數(shù)據(jù)的效率 因而是以應(yīng)用的觀點設(shè)計數(shù)據(jù)庫結(jié) 構(gòu) 2 管理大量的信息 由于數(shù)據(jù)倉庫的設(shè)計目標是在眾多的數(shù)據(jù)庫中獲得決策信 息 因而它含有大量的歷史數(shù)據(jù) 而傳統(tǒng)的數(shù)據(jù)庫為了提高系統(tǒng)的運行效率 通常會對歷史數(shù)據(jù)進行必要的備份后 將其從運行庫中清除 例如 在醫(yī)院管理信息系統(tǒng)中 當一個病人住院 聯(lián)機業(yè)務(wù)處理系統(tǒng)就要產(chǎn) 生關(guān)于這個病人的記錄 隨著對病人治療的不斷進行 記錄不斷的被加工 當這個病人治愈出院完成手續(xù)后 病人的信息將從運行庫中清除并轉(zhuǎn)移到歷 史庫中去 不能再修改 3 異質(zhì)的數(shù)據(jù)源 由于數(shù)據(jù)倉庫的數(shù)據(jù)源來自于不同種類的文件 數(shù)據(jù)存儲的 介質(zhì)和格式會有很大的不同 因而數(shù)據(jù)倉庫不僅要處理不同數(shù)據(jù)庫中的信息 還必須處理不同格式的數(shù)據(jù)文件 4 高度概括的信息 傳統(tǒng)的數(shù)據(jù)庫存儲的信息具體而且詳細 但不利于用戶理 解 數(shù)據(jù)倉庫必須從大量具體的數(shù)據(jù)中進行高度概括 并從中挖掘出準確的 信息 2 3 3 數(shù)據(jù)操作方式差異 1 數(shù)據(jù)庫支持用戶對大量數(shù)據(jù)進行更新操作 由很多的短小的事務(wù)處理組成 注重于事務(wù)速率 而數(shù)據(jù)倉庫中則主要是查詢操作 與數(shù)據(jù)庫相比 數(shù)據(jù)倉 庫中的數(shù)據(jù)更加穩(wěn)定 2 數(shù)據(jù)庫為用戶和開發(fā)者提供的是非常龐大和復(fù)雜的結(jié)果 但是數(shù)據(jù)倉庫中提 供的是用于分析決策 易于理解的結(jié)果 3 數(shù)據(jù)庫主要保存的是當前的數(shù)據(jù) 歷史的數(shù)據(jù)被及時的歸檔后立即刪除 以 1 0 長春工業(yè)大學(xué)碩士學(xué)位論文 提高系統(tǒng)的運行效率 數(shù)據(jù)倉庫中則存儲了大量的衍生數(shù)據(jù) 目的是為了節(jié) 省工作量和提高系統(tǒng)的運行效率 由于以上種種的原因 傳統(tǒng)的數(shù)據(jù)庫和數(shù)據(jù)倉庫的建模方法有很大的區(qū)別 2 3 4 數(shù)據(jù)模型與構(gòu)建方法 1 傳統(tǒng)的數(shù)據(jù)庫模型有三種 層次型 網(wǎng)絡(luò)型和關(guān)系型 目前主要流行使用的 數(shù)據(jù)庫產(chǎn)品是關(guān)系型數(shù)據(jù)庫 2 數(shù)據(jù)倉庫的模型也有三種 星型模型 雪花模型和混合模型 2 4 數(shù)據(jù)倉庫的基本組成 2 4 1 數(shù)據(jù)倉庫的基本結(jié)構(gòu) 一個完整的數(shù)據(jù)倉庫系統(tǒng)應(yīng)當具備建立 管理和使用等功能 w H I n m o n 認為 數(shù)據(jù)倉庫系統(tǒng)可以分為三個組成部分川 1 數(shù)據(jù)源 提供源數(shù)據(jù) 2 數(shù)據(jù)的存儲與管理 包括來自數(shù)據(jù)源數(shù)據(jù)的接收 析取 匯總 變換和儲 存 3 前端服務(wù) 面向用戶的數(shù)據(jù)需求 完成數(shù)據(jù)提取和計算分析等功能 1 1 長春工業(yè)大學(xué)碩士學(xué)位論文 凈 渤 盯L 擻務(wù)鬻 圖2 1 數(shù)據(jù)倉庫構(gòu)建體系結(jié)構(gòu)圖 如圖2 1 所示 數(shù)據(jù)倉庫應(yīng)具有多種工具 從多個操作型數(shù)據(jù)庫和外部數(shù)據(jù)源中 抽取數(shù)據(jù)的工具 清洗 轉(zhuǎn)化和整合數(shù)據(jù)的工具 將數(shù)據(jù)裝載到數(shù)據(jù)倉庫中的工具 定期刷新數(shù)據(jù)倉庫以反映數(shù)據(jù)源中的更新和從數(shù)據(jù)倉庫中清除數(shù)據(jù)的工具 除了主數(shù) 據(jù)倉庫外 還有存在很多部門性的數(shù)據(jù)集市 數(shù)據(jù)集市實際上就是為了滿足企業(yè)內(nèi)各 部門的分析需求而建立的微型數(shù)據(jù)倉庫 數(shù)據(jù)倉庫和數(shù)據(jù)集市中的數(shù)據(jù)由一個或幾個 數(shù)據(jù)倉庫服務(wù)器存儲和管理 數(shù)據(jù)倉庫服務(wù)器通過前端工具將這些數(shù)據(jù)從多維角度展 現(xiàn)出來 前端的工具包括 查詢工具 報表生成器 分析工具和數(shù)據(jù)挖掘工具 最后 還有一個存儲和管理元數(shù)據(jù)的元數(shù)據(jù)庫以及監(jiān)視和管理數(shù)據(jù)倉庫系統(tǒng)的工具 為了裝載的平衡 較好的可測量性和較高的獲取能力 數(shù)據(jù)倉庫可以是分布式的 在分布式結(jié)構(gòu)中 元數(shù)據(jù)庫通常和數(shù)據(jù)倉庫的各個片段重復(fù)并且整個數(shù)據(jù)倉庫是集中 1 2 長春工業(yè)大學(xué)碩士學(xué)位論文 管理的 如果花費太大而不能創(chuàng)建一個單一的邏輯性的整合的企業(yè)級數(shù)據(jù)倉庫 為了 方便的實現(xiàn)可以構(gòu)建聯(lián)合的數(shù)據(jù)倉庫或者數(shù)據(jù)集市 這些數(shù)據(jù)倉庫和數(shù)據(jù)集市都有自 己的倉庫結(jié)構(gòu)和各自分散化的管理 設(shè)計和實現(xiàn)一個數(shù)據(jù)倉庫是個復(fù)雜的過程 通常包括以下幾個步驟 1 定義結(jié)構(gòu) 選擇存儲的服務(wù)器 數(shù)據(jù)庫和O L A P 服務(wù)器以及工具 2 設(shè)計數(shù)據(jù)倉庫體系結(jié)構(gòu)和視圖 3 定義數(shù)據(jù)倉庫的物理組織 數(shù)據(jù)的放置 劃分和獲取方法 4 利用網(wǎng)關(guān) O D B C 驅(qū)動等連接數(shù)據(jù)源 5 設(shè)計和實現(xiàn)數(shù)據(jù)抽取 清洗 轉(zhuǎn)化 裝載和刷新的程序腳本 6 利用計劃和視圖的定義 腳本以及其他元數(shù)據(jù)控制數(shù)據(jù)倉庫 7 設(shè)計和實現(xiàn)用戶端的應(yīng)用程序 8 整理展現(xiàn)數(shù)據(jù)倉庫和所有應(yīng)用 2 4 2 數(shù)據(jù)集市的概念 數(shù)據(jù)倉庫系統(tǒng)中另一個重要的組件是數(shù)據(jù)集市 原始數(shù)據(jù)從數(shù)據(jù)倉庫流入到不同 的部門中以支持這些部門的定制化使用 這些部門級別的數(shù)據(jù)庫就稱為數(shù)據(jù)集市 數(shù)據(jù)集市中包含部門決策支持處理所需要的任何數(shù)據(jù) 在數(shù)據(jù)集市中包含有多種 多樣的數(shù)據(jù) 即包含很多動態(tài)的概括數(shù)據(jù)也包含很多準備好的詳細數(shù)據(jù) 這兩類數(shù)據(jù) 構(gòu)成了數(shù)據(jù)集市環(huán)境中的大部分數(shù)據(jù) 數(shù)據(jù)集市提供了一種企業(yè)視圖 因為它貼近特定的財務(wù)和營銷部門的重要用戶 數(shù)據(jù)集市可以通過用戶群來組織 物理上位于用戶部門 或者按主題域來組織即以邏 輯形式組織存在數(shù)據(jù)倉庫內(nèi)的另外空間 數(shù)據(jù)復(fù)制和傳播會在數(shù)據(jù)倉庫和從屬型數(shù)據(jù) 集市之間實現(xiàn)數(shù)據(jù)同步 數(shù)據(jù)集市是數(shù)據(jù)倉庫有效的和自然的補充 數(shù)據(jù)集市延伸決策支持到部門級環(huán)境 中 數(shù)據(jù)倉庫提供粒狀數(shù)據(jù)并且不同數(shù)據(jù)集市應(yīng)用不同的方法來解釋和構(gòu)造這種粒狀 數(shù)據(jù)以滿足部門決策的需要 對數(shù)據(jù)集市來說最適當?shù)臄?shù)據(jù)源是數(shù)據(jù)倉庫 業(yè)務(wù)數(shù)據(jù) 庫不是數(shù)據(jù)集市的合適的數(shù)據(jù)源 數(shù)據(jù)集市還可以包括外部數(shù)據(jù) 除了數(shù)據(jù)庫之外 數(shù)據(jù)集市所使用的軟件還有 訪問和分析工具 自動接口生成 系統(tǒng)管理 凈化 歸檔 元數(shù)據(jù)管理等 1 3 長春工業(yè)大學(xué)碩士學(xué)位論文 2 5 數(shù)據(jù)倉庫的建模技術(shù) 2 5 1 數(shù)據(jù)倉庫建模的原則 模型是對現(xiàn)實事物的反映和抽象 它可以幫助我們更加清晰的了解客觀世界 數(shù) 據(jù)倉庫建模是數(shù)據(jù)倉庫構(gòu)造工作正式開始的第一步 正確而完備的數(shù)據(jù)模型是用戶業(yè) 務(wù)需求的體現(xiàn) 是數(shù)據(jù)倉庫項目成功與否最重要的技術(shù)因素 大型企業(yè)的信息系統(tǒng)一 般具有業(yè)務(wù)復(fù)雜 機構(gòu)復(fù)雜 數(shù)據(jù)龐大的特點 數(shù)據(jù)倉庫建模必須注意以下幾個方面 1 滿足不同用戶的需要 大型企業(yè)的業(yè)務(wù)流程十分復(fù)雜 數(shù)據(jù)倉庫系統(tǒng)涉及的業(yè)務(wù)用戶眾多 在進行數(shù)據(jù) 模型設(shè)計的時候必須兼顧不同業(yè)務(wù)產(chǎn)品 不同業(yè)務(wù)部門 不同層次 不同級別用戶的 信息需求 2 兼顧效率與數(shù)據(jù)粒度的需要 數(shù)據(jù)粒度和查詢效率從來都是矛盾的 細小的數(shù)據(jù)粒度可以保證信息訪問的靈活 性 但同時卻降低了查詢的效率并占用大量的存儲空間 數(shù)據(jù)模型的設(shè)計必須在這矛 盾的兩者中取得平衡 優(yōu)秀的數(shù)據(jù)模型設(shè)計既可以提供足夠詳細的數(shù)據(jù)支持又能夠保 證查詢的效率 3 支持需求的變化 用戶的信息需求隨著市場的變化而變化 所以需求的變化只有在市場競爭停頓的 時候才會停止 而且隨著競爭的激化 需求變化會越來越頻繁 數(shù)據(jù)模型的設(shè)計必須 考慮如何適應(yīng)和滿足需求的變化 4 避免對業(yè)務(wù)運營系統(tǒng)造成影響 大型企業(yè)的數(shù)據(jù)倉庫是一個每天都在成長的龐然大物 它的運行很容易占用很多 的資源 比如網(wǎng)絡(luò)資源 系統(tǒng)資源 在進行數(shù)據(jù)模型設(shè)計的時候也需要考慮如何減少 對業(yè)務(wù)系統(tǒng)性能的影響 5 考慮未來的可擴展性 數(shù)據(jù)倉庫系統(tǒng)是一個與企業(yè)同步發(fā)展的有機體 數(shù)據(jù)模型作為數(shù)據(jù)倉庫的靈魂必 須提供可擴展的能力 在進行數(shù)據(jù)模型設(shè)計時必須考慮未來的發(fā)展 更多的非核心業(yè) 務(wù)數(shù)據(jù)必須可以方便的加入到數(shù)據(jù)倉庫 而不需要對數(shù)據(jù)倉庫中原有的系統(tǒng)進行大規(guī) 模的修改 2 5 2 數(shù)據(jù)倉庫的數(shù)據(jù)模型層次 在創(chuàng)建數(shù)據(jù)倉庫時 需要使用各種數(shù)據(jù)模型對數(shù)據(jù)倉庫進行描述 數(shù)據(jù)倉庫的開 1 4 長春T 業(yè)丈學(xué)碩上學(xué)位論文 發(fā)人員依據(jù)這些數(shù)據(jù)模型 才能開發(fā)一個滿足用戶需求的數(shù)據(jù)倉庫 數(shù)據(jù)倉庫的各種 數(shù)據(jù)模型在數(shù)據(jù)倉庫的開發(fā)中作用十分明顯 主要體現(xiàn)在模型中只含有與設(shè)計有關(guān)的 屬性 這樣就排除了無關(guān)的信息 突出與任務(wù)相關(guān)的重要信息 使開發(fā)人員能夠?qū)⒆?意力集中在數(shù)據(jù)倉庫開發(fā)的主要部分 模型有更好的適應(yīng)性 更易于修改 當用戶的 需求改變時 僅對模型做出相應(yīng)的變化就能反映這個改變 數(shù)據(jù)模型是對現(xiàn)實世界進行抽象的工具 在信息管理中需要將現(xiàn)實世界的事物及 其有關(guān)特征轉(zhuǎn)換為信息世界的數(shù)據(jù) 才能對信息進行處理與管理 這就需要依靠數(shù)據(jù) 模型作為轉(zhuǎn)換的橋梁 這種轉(zhuǎn)換經(jīng)歷了從現(xiàn)實到概念模型 從概念模型到邏輯模型 從邏輯模型到物理模型的轉(zhuǎn)換 在數(shù)據(jù)倉庫建模的過程中同樣也要經(jīng)歷概念模型 邏 輯模型與物理模型的三級模型開發(fā) 因此 數(shù)據(jù)建模可以分為三個層次 高層建模 實 體關(guān)系層 概念模型 中間層建模 數(shù)據(jù)項集 邏輯模型 底層建模 物理模型 概念世界是現(xiàn)實情況在人們頭腦中的反映 人們需要利用一種模式將現(xiàn)實世界在 自己的頭腦中表達出來 邏輯世界是人們?yōu)閷⒋嬖谟谧约侯^腦中的概念模型轉(zhuǎn)換到計算機中的實際物理 存儲過程中的一個計算機邏輯表示模式 通過這個模式 人們可以容易地將概念模型 轉(zhuǎn)換成計算機世界的物理模型 物理世界是指現(xiàn)實世界中的事物在計算機系統(tǒng)中的實際存儲模式 只有依靠這個 物理存儲模式 人們才能實現(xiàn)利用計算機對現(xiàn)實世界的信息管理 2 5 3 維度建模理論及方法 圖2 2 數(shù)據(jù)模型層次 維度建模是一種邏輯設(shè)計技術(shù) 該技術(shù)試圖采用某種直觀的標準框架結(jié)構(gòu)來表現(xiàn) 數(shù)據(jù) 并且允許進行高性能存取 它必然會遵循維度方面的規(guī)范 并且堅持帶有某些 重要限制條件的關(guān)系模型模范 維度模型由事實和維度表構(gòu)成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論