環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫方案書_第1頁
環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫方案書_第2頁
環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫方案書_第3頁
環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫方案書_第4頁
環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫方案書_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫方案書第一章.公司介紹7第二章.環(huán)保局信息系統(tǒng)分析82.1 環(huán)保局信息系統(tǒng)現(xiàn)狀82.1.1產(chǎn)生的問題82.1.2 問題產(chǎn)生的原因92.1.3結(jié)論102.2 需求分析102.2.1“統(tǒng)一污染源數(shù)據(jù)庫”定義102.2.2統(tǒng)一污染源數(shù)據(jù)庫的數(shù)據(jù)102.2.3處室-系統(tǒng)-數(shù)據(jù)對應關(guān)系112.2.4各處室與統(tǒng)一污染源數(shù)據(jù)的關(guān)系122.2.5數(shù)據(jù)整合和集成需求122.3 統(tǒng)一污染源數(shù)據(jù)庫實質(zhì)上是一個部門級數(shù)據(jù)倉庫.142.4 統(tǒng)一污染源數(shù)據(jù)庫是環(huán)保局信息門戶的先鋒.152.5 需求的總結(jié)16統(tǒng)一數(shù)據(jù)16統(tǒng)一操作界面16統(tǒng)一認證17統(tǒng)一接口.17第三章.系統(tǒng)解決方案183.1 系統(tǒng)解決

2、方案原則183.1.1可擴充性183.1.2易維護性183.1.3安全性183.1.4合理性183.1.5開放性183.2 技術(shù)路線183.3業(yè)務體系結(jié)構(gòu)193.3.1污染源數(shù)據(jù)內(nèi)容233.3.2基礎數(shù)據(jù)庫243.3.3數(shù)據(jù)倉庫243.3.4地理信息系統(tǒng)243.3.5信息門戶綜合發(fā)布系統(tǒng)253.3.6綜合辦公系統(tǒng)253.4技術(shù)體系結(jié)構(gòu)25第四章 污染源統(tǒng)一數(shù)據(jù)庫274.1 數(shù)據(jù)庫設計274.1.1 數(shù)據(jù)庫設計主線274.1.2 數(shù)據(jù)庫規(guī)范化設計304.1.3 粒度設計324.1.4 元數(shù)據(jù)管理。324.1.5 性能優(yōu)化344.2 etl(抽取.轉(zhuǎn)換.裝載)354.2.1 抽取374.2.2 轉(zhuǎn)

3、換和清洗384.2.3 裝載384.2.4 自動調(diào)度394.3 olap(聯(lián)機在線分析)394.4 表現(xiàn)層404.4.1 表現(xiàn)層結(jié)構(gòu)404.4.2 表現(xiàn)層功能41第五章 信息門戶設計435.1 信息門戶的概念435.2 athene信息門戶系統(tǒng).435.2.1底層數(shù)據(jù)信息存儲445.2.2內(nèi)容管理整合445.3 athene信息門戶特點.45第六章 其他功能設計476.1 外圍接口設計476.1.2 接口分類.486.2 備份設計486.2.1日常備份486.2.2 計劃內(nèi)下線496.2.3 數(shù)據(jù)恢復49第七章 系統(tǒng)特點49第八章 項目的組織和實施508.1 組織機構(gòu)及職責508.1.1項目經(jīng)

4、理508.1.2專家顧問組508.1.3項目執(zhí)行組508.1.4業(yè)務組508.1.5軟件開發(fā)組518.1.6測試驗收組518.1.7 文檔組518.1.8支持組518.2 實施方法528.3 項目實施計劃538.4培訓計劃538.4.1培訓對象與目標:538.4.2培訓內(nèi)容54第九章 技術(shù)支持和服務55共同制訂明確的服務和支持計劃55系統(tǒng)維護的承諾55熱線服務系統(tǒng)55客戶檔案管理55常規(guī)性維護服務55應用軟件服務的承諾56技術(shù)轉(zhuǎn)移56技術(shù)文檔移交56第一章.公司介紹第二章.環(huán)保局信息系統(tǒng)分析2.1 環(huán)保局信息系統(tǒng)現(xiàn)狀隨著數(shù)據(jù)庫技術(shù)的廣泛運用,環(huán)保局信息系統(tǒng)的運營環(huán)境逐漸轉(zhuǎn)化為以數(shù)據(jù)庫為中心的運

5、營環(huán)境。同時因為環(huán)保局內(nèi)部對數(shù)據(jù)的需求是多方面的,所以根據(jù)工作職能的不同而建立了部門級的數(shù)據(jù)庫。比如監(jiān)督處關(guān)注環(huán)保局環(huán)境監(jiān)督管理,許可證的管理,因此建立了環(huán)保業(yè)務系統(tǒng);監(jiān)理所關(guān)注排污收費,現(xiàn)場檢查,接受投訴糾紛等內(nèi)容,因此建立了排污收費系統(tǒng),監(jiān)控中心系統(tǒng);監(jiān)測站關(guān)注監(jiān)測數(shù)據(jù)所以有了監(jiān)測系統(tǒng);而由于根據(jù)不同環(huán)保局不同部門管理的現(xiàn)狀,在監(jiān)督處、監(jiān)理所,各區(qū)分局內(nèi)部都是用了同一套排污申報系統(tǒng).隨著環(huán)保局信息化建設的深入以及各部門的業(yè)務聯(lián)系的需求,部門與部門之間的數(shù)據(jù)交互日益增多,比如在監(jiān)理所的業(yè)務流程中需要監(jiān)測站的監(jiān)測數(shù)據(jù),需要監(jiān)督處的許可證數(shù)據(jù);監(jiān)督處需要察看監(jiān)理所監(jiān)測到的環(huán)保局違規(guī)數(shù)據(jù);信息中心

6、需要將各部門的排污申報數(shù)據(jù)進行匯總,以供上層領導參考。于是環(huán)保局內(nèi)部系統(tǒng)也都做出了數(shù)據(jù)抽取的努力和嘗試,例如監(jiān)理所系統(tǒng)中增加監(jiān)測數(shù)據(jù)的接口、審批資料接口;結(jié)合gis系統(tǒng)建立了污染源信息匯總的一套查詢系統(tǒng)以供內(nèi)部使用等等。2.1.1產(chǎn)生的問題可以看出,隨著數(shù)據(jù)的交互抽取,很可能會形成“蜘蛛網(wǎng)”現(xiàn)象,使得數(shù)據(jù)的抽取和訪問顯得錯綜復雜。這種演變不是人為制造的,而是自然演變的結(jié)果,如果不在體系結(jié)構(gòu)上進行調(diào)整,“蜘蛛網(wǎng)”問題將會越來越嚴重。因為錯綜復雜的抽取與訪問將會產(chǎn)生很多問題:2.1.1.1、數(shù)據(jù)分析的結(jié)果缺乏可靠性例如在環(huán)保局內(nèi)部存在著多套排污申報系統(tǒng),不同部門各自進行匯總的信息與統(tǒng)一匯總的信息經(jīng)

7、常會不一致,這樣在領導面前就會出現(xiàn)不一致,缺乏可靠性的數(shù)據(jù)。2.1.1.2、數(shù)據(jù)處理的效率低下在錯綜復雜的體系結(jié)構(gòu)中,不同級別的數(shù)據(jù)庫可能使用不同類型的數(shù)據(jù)庫系統(tǒng),環(huán)保局內(nèi)部就存在了sqlserver,sybase,foxpro等等數(shù)據(jù)庫,根據(jù)各種不同數(shù)據(jù)庫的開發(fā)工具的不同,抽取程序應用的技術(shù)不同,因而難以集成。2.1.1.3、數(shù)據(jù)共享困難對于大量的數(shù)據(jù)不能提供一個統(tǒng)一的數(shù)據(jù)接口,不能采用一種通用的標準和規(guī)范(如使用不同的指標代碼體系和編碼體系),共享通用的數(shù)據(jù)源。隨著業(yè)務的增加,管理人員的操作越來越復雜,操作越來越多,用戶分散,相互聯(lián)系程度低,信息相對封閉,共享程度低2.1.1.4、難以將數(shù)

8、據(jù)轉(zhuǎn)化為信息此外,“蜘蛛網(wǎng)”式的結(jié)構(gòu)還難以將數(shù)據(jù)轉(zhuǎn)化為決策信息。因為每個數(shù)據(jù)庫由于其數(shù)據(jù)量和業(yè)務處理的需求不同,同時對歷史數(shù)據(jù)的存儲時間也不同,因此以現(xiàn)有的數(shù)據(jù)庫系統(tǒng)難以提供完整的歷史數(shù)據(jù)。鑒于這樣的原因,用戶根本不可能從這些數(shù)據(jù)中提取出完整的信息。例如污染源執(zhí)法系統(tǒng)所提供的數(shù)據(jù)就不能夠滿足統(tǒng)一污染源的需求。2.1.2 問題產(chǎn)生的原因最根本的原因是由于各業(yè)務系統(tǒng)建設和實施數(shù)據(jù)管理系統(tǒng)的階段性、技術(shù)性以及其它經(jīng)濟和人為因素等因素影響,導致在發(fā)展過程中積累了大量采用不同存儲方式的業(yè)務數(shù)據(jù),包括采用的數(shù)據(jù)管理系統(tǒng)也大不相同,從簡單的文件數(shù)據(jù)庫到復雜的網(wǎng)絡數(shù)據(jù)庫,它們構(gòu)成了環(huán)保局的異構(gòu)數(shù)據(jù)源。這些分散

9、的不同業(yè)務的數(shù)據(jù)管理系統(tǒng)雖然能夠滿足業(yè)務數(shù)據(jù)存儲和管理要求,但在許多情況下,為作出一個決策,可能需要訪問分布在網(wǎng)絡不同位置上的多個業(yè)務數(shù)據(jù)管理系統(tǒng)中的數(shù)據(jù)。環(huán)保局數(shù)據(jù)源異構(gòu)性主要表現(xiàn)在兩方面:2.1.2.1、系統(tǒng)異構(gòu)即數(shù)據(jù)源所依賴的業(yè)務應用系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)乃至操作系統(tǒng)之間的不同構(gòu)成了系統(tǒng)異構(gòu)。2.1.2.2、模式異構(gòu)即數(shù)據(jù)源在存儲模式上的不同。存儲模式主要包括關(guān)系模式、對象模式、對象關(guān)系模式和文檔嵌套模式等幾種,其中關(guān)系模式(關(guān)系數(shù)據(jù)庫)為主流存儲模式。同時,即便是同一類存儲模式,它們的模式結(jié)構(gòu)可能也存在著差異。例如不同的關(guān)系數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)類型等方面并不是完全一致的,如db2、orac

10、le、sybase、informix、sqlserver、foxpro等。2.1.2.3、來源異構(gòu)即環(huán)保局內(nèi)部數(shù)據(jù)源和外部數(shù)據(jù)源之間的異構(gòu)。2.1.3結(jié)論異構(gòu)數(shù)據(jù)源的整和、集成是環(huán)保局信息化建設過程經(jīng)常遇到的一個現(xiàn)實問題。也是制約環(huán)保局各種應用信息系統(tǒng)建設和數(shù)據(jù)共享程度,以及信息化建設投資重復或負擔重的一個重要因素。由此可知,解決好現(xiàn)階段環(huán)保局信息系統(tǒng)整合的問題,必須要建立一套基于整體、集成各個業(yè)務異構(gòu)數(shù)據(jù)源的綜合信息倉庫,包括信息基礎數(shù)據(jù)庫和一個強大的分布式應用系統(tǒng)。2.2 需求分析針對環(huán)保局現(xiàn)有整體系統(tǒng)結(jié)構(gòu)比較復雜,業(yè)務系統(tǒng)多的情況,建立環(huán)境基礎數(shù)據(jù)庫及在該基礎數(shù)據(jù)庫上開展的分布式應用系統(tǒng)

11、需要對現(xiàn)有業(yè)務系統(tǒng)需求進行詳細地分析。2.2.1“統(tǒng)一污染源數(shù)據(jù)庫”定義“統(tǒng)一污染源數(shù)據(jù)庫”可以從兩方面來理解。首先,該系統(tǒng)是一“數(shù)據(jù)庫”,其存儲的數(shù)據(jù)包括了污染源的所有相關(guān)信息。將原有各個系統(tǒng)的數(shù)據(jù)進行收集和格式轉(zhuǎn)化,實現(xiàn)數(shù)據(jù)的統(tǒng)一集中管理,以改善目前環(huán)境信息存在的利用率低、共享程度差等問題。其次,該系統(tǒng)注重的是“統(tǒng)一”,因為現(xiàn)有污染源相關(guān)的數(shù)據(jù)來源比較多,多處存在數(shù)據(jù)不一致的情況,因此有必要通過數(shù)據(jù)的抽取、過濾、轉(zhuǎn)換成為統(tǒng)一的,標準的數(shù)據(jù),并把原來面向事務的數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)化為面向分析和決策的結(jié)構(gòu),這樣才能夠使得數(shù)據(jù)共享變得有意義,同時也便于利用統(tǒng)一后的數(shù)據(jù)進行分析,統(tǒng)計,決策。從這一立場來看,

12、“統(tǒng)一污染源數(shù)據(jù)庫”可以看成是面向“污染源”主題的數(shù)據(jù)倉庫的建立。2.2.2統(tǒng)一污染源數(shù)據(jù)庫的數(shù)據(jù)統(tǒng)一污染源數(shù)據(jù)庫的數(shù)據(jù)是原有業(yè)務系統(tǒng)中涉及到污染源信息的主要業(yè)務流程產(chǎn)生的數(shù)據(jù),換句話說就是確定哪些信息內(nèi)容需要納入到統(tǒng)一污染源數(shù)據(jù)庫,也就是在統(tǒng)一污染源數(shù)據(jù)庫上集中管理的內(nèi)容。通過對環(huán)保局內(nèi)部系統(tǒng)的詳細了解,我們初步確定了以下業(yè)務流程數(shù)據(jù):從上圖中可以看到統(tǒng)一污染源數(shù)據(jù)庫應該包括的信息數(shù)據(jù),這些數(shù)據(jù)分散在各個處室,不同處室不僅使用不同的系統(tǒng),也有可能使用相同的系統(tǒng)單機版(比如排污申報軟件)。2.2.3處室-系統(tǒng)-數(shù)據(jù)對應關(guān)系下圖表明了上述污染源相關(guān)數(shù)據(jù)與環(huán)保局內(nèi)各處室、業(yè)務系統(tǒng)的對應關(guān)系:上圖每

13、一縱列中的綠色模塊表示處室部門,黃色模塊表示該部門該部門使用的業(yè)務系統(tǒng),白色模塊表示該業(yè)務系統(tǒng)中包含的與污染源相關(guān)的信息數(shù)據(jù)。由上面兩張圖可以大致歸納出統(tǒng)一污染源數(shù)據(jù)庫需要集中管理的內(nèi)容包括:1、污染源審批信息(審批清單、環(huán)保設施、產(chǎn)品原材料、驗收信息)2、排污申報(水氣聲渣申報、水氣聲渣統(tǒng)計)3、排污許可證(排放量、年審信息)4、排污收費(每月每年排污費統(tǒng)計)5、現(xiàn)場檢查(統(tǒng)計信息、投訴信息)6、污染源監(jiān)測信息(監(jiān)測報告)7、環(huán)境統(tǒng)計信息8、固體廢物處理信息9、環(huán)境執(zhí)法信息(限期整改、整治、罰款、停業(yè) 立案-審議-處罰決定)2.2.4各處室與統(tǒng)一污染源數(shù)據(jù)的關(guān)系當統(tǒng)一污染源數(shù)據(jù)庫之后,各處室

14、可以:向統(tǒng)一污染源數(shù)據(jù)庫提供其自身擁有的相關(guān)數(shù)據(jù)從統(tǒng)一數(shù)據(jù)庫中得到更為一致性,全面的業(yè)務數(shù)據(jù)從統(tǒng)一數(shù)據(jù)庫中得到其他處室提供的業(yè)務數(shù)據(jù)因此,從信息共享的角度來看,各處室對上述不同信息的關(guān)注程度是不一樣的。下圖中大致表明了各處室關(guān)注統(tǒng)一污染源數(shù)據(jù)庫中的那些數(shù)據(jù):2.2.5數(shù)據(jù)整合和集成需求對各處室的異構(gòu)數(shù)據(jù)源數(shù)據(jù)進行整合、集成成為統(tǒng)一污染源數(shù)據(jù)庫的目的是為環(huán)保局提供綜合的、統(tǒng)一的、安全的、快捷的信息查詢、數(shù)據(jù)挖掘和決策支持服務。為了滿足這個需求條件,各處室整合、集成后的數(shù)據(jù)必須保證一定的集成性、完整性、一致性和訪問安全性。2.2.5.1、集成性各種原先孤立的業(yè)務信息系統(tǒng)數(shù)據(jù)經(jīng)過整合、集成后,應該達

15、到查詢一個綜合信息不必再到各個處室業(yè)務系統(tǒng)中進行分別查詢和人工處理,只要在整合、集成后的數(shù)據(jù)信息倉庫中就可以直接訪問到,即整合、集成后的綜合信息倉庫的數(shù)據(jù)是各異構(gòu)業(yè)務數(shù)據(jù)的有機集成和關(guān)聯(lián)存儲(整合、發(fā)掘出各業(yè)務數(shù)據(jù)間的內(nèi)在關(guān)聯(lián)關(guān)系),而不是簡單、孤立的堆放在一個數(shù)據(jù)庫系統(tǒng)里。2.2.5.2、完整性包括數(shù)據(jù)完整性和約束完整性兩方面。數(shù)據(jù)完整性是指完整提取數(shù)據(jù)本身,約束完整性,約束是指數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,是唯一表征數(shù)據(jù)間邏輯的特征。保證約束的完整性是良好的數(shù)據(jù)發(fā)布和交換的前提,可以方便數(shù)據(jù)處理過程,提高效率。2.2.5.3、一致性不同業(yè)務信息資源之間存在著語義上的區(qū)別。這些語義上的不同會引起

16、各種不完整甚至錯誤信息的產(chǎn)生,從簡單的名字語義沖突(不同的名字代表相同的概念),到復雜的結(jié)構(gòu)語義沖突(不同的模型表達同樣的信息)。語義沖突會帶來數(shù)據(jù)集成結(jié)果的冗余,干擾數(shù)據(jù)處理、發(fā)布和交換。整合、集成后的數(shù)據(jù)應該根據(jù)一定的數(shù)據(jù)轉(zhuǎn)換模式和商業(yè)規(guī)則進行統(tǒng)一數(shù)據(jù)結(jié)構(gòu)和字段語義編碼轉(zhuǎn)換。2.2.5.4、訪問安全性由于數(shù)據(jù)庫資源可能歸屬不同的單位,各業(yè)務數(shù)據(jù)系統(tǒng)有著各自的用戶權(quán)限管理模式,訪問和安全管理很不方便,不能集中、統(tǒng)一管理,所以保證在訪問異構(gòu)數(shù)據(jù)源數(shù)據(jù)基礎上保障原有數(shù)據(jù)庫的權(quán)限不被侵犯,實現(xiàn)對原有數(shù)據(jù)源訪問權(quán)限的隔離和控制,就需要設計基于整合、集成后的綜合信息倉庫的統(tǒng)一的用戶安全管理模式來解決此

17、問題。 綜上所述,異構(gòu)數(shù)據(jù)源的整合與集成如下圖所示:2.3 統(tǒng)一污染源數(shù)據(jù)庫實質(zhì)上是一個部門級數(shù)據(jù)倉庫.在分析過程中,我們發(fā)現(xiàn)污染源統(tǒng)一數(shù)據(jù)庫有以下的特點.1 面向決策分析的.2 污染源信息的集成性.3 面向污染源主題的4 相對穩(wěn)定5 反映歷史變化同時,我們注意到美國著名信息工程學家w.h.inmon在建立數(shù)據(jù)倉庫一書中對數(shù)據(jù)倉庫做了如下定義:“數(shù)據(jù)倉庫(data warehouse)是一個面向主題的、集成的、穩(wěn)定的、包含歷史數(shù)據(jù)的數(shù)據(jù)集合,它用于支持管理中的決策制定過程?!彼^主題,它是數(shù)據(jù)歸類的標準,每個主題對應一個客觀分析領域,如銷售狀況、人事狀況、整個企業(yè)的利潤狀況等。它可以輔助決策集

18、成多個部門不同系統(tǒng)的大量數(shù)據(jù)。所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進行組織的,為按主題進行決策的過程提供信息。 所謂集成,是指數(shù)據(jù)倉庫中的信息不是從各個業(yè)務處理系統(tǒng)中簡單抽取出來的,而是經(jīng)過系統(tǒng)加工、匯總和整理,以確保數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。 所謂穩(wěn)定,是指一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的插入和查詢操作,但修改和刪除操作很少。 所謂包含歷史數(shù)據(jù),是指數(shù)據(jù)倉庫內(nèi)的信息并不只是關(guān)于企業(yè)當時或某一時點的信息,而是系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程

19、和未來趨勢做出定量分析和預測。這樣,我們有理由認為,統(tǒng)一污染源數(shù)據(jù)庫在應用的實質(zhì)意義上就是基于污染源管理的部門級數(shù)據(jù)倉庫.污染源數(shù)據(jù)倉庫的建立主要是針對污染源的管理進行一系列的分析,以便于局領導作出有效的決策.將統(tǒng)一污染源數(shù)據(jù)庫上升為污染源數(shù)據(jù)倉庫的概念,有利于指導統(tǒng)一污染源數(shù)據(jù)庫在整體上的規(guī)劃,同時,利用數(shù)據(jù)倉庫現(xiàn)有的開發(fā)技術(shù),可以有效的確定用戶需求,快速的開發(fā)出高效,穩(wěn)定的產(chǎn)品.第一, 數(shù)據(jù)倉庫有效集成了企業(yè)的業(yè)務數(shù)據(jù),提供了標準的報表和圖表的功能。數(shù)據(jù)倉庫的報表和圖表是關(guān)于整個企業(yè)集成信息的報表和圖表,其中的數(shù)據(jù)可來源于不同的多個事務處理系統(tǒng)。從而為企業(yè)提供了按照主題的多方位的決策支持。

20、 第二, 數(shù)據(jù)倉庫可以對分布在不同系統(tǒng)的業(yè)務數(shù)據(jù)進行清洗和加工。數(shù)據(jù)倉庫的源數(shù)據(jù)可能來自許多異構(gòu)的事務處理系統(tǒng),它們具有不同的數(shù)據(jù)格式和數(shù)據(jù)存儲管理組織,數(shù)據(jù)倉庫可以按照面向主題的原則對這些數(shù)據(jù)進行清洗和加工,使它們成為統(tǒng)一格式的易于使用的支持決策的數(shù)據(jù)。 第三, 數(shù)據(jù)倉庫支持多維分析。多維分析是通過把一個實體的多項重要的屬性定義為多個維度,使得用戶能方便地匯總數(shù)據(jù)集,簡化了數(shù)據(jù)的分析處理邏輯,并能對不同維度值的數(shù)據(jù)進行比較,而維度則表示了對信息的不同理解角度,例如,時間和地理區(qū)域是經(jīng)常采用的維度。應用多維分析可以在一個查詢中對不同階段的數(shù)據(jù)進行縱向或橫向比較,這在決策過程中非常有用。 第四,

21、 數(shù)據(jù)倉庫技術(shù)可以幫助企業(yè)決策者對企業(yè)未來狀況作出預測。數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)倉庫表現(xiàn)的關(guān)鍵技術(shù)。數(shù)據(jù)挖掘技術(shù)可以在已有數(shù)據(jù)中識別數(shù)據(jù)的模式,以幫助用戶理解現(xiàn)有的信息,并在已有信息的基礎上,對未來的狀況作出預測。在數(shù)據(jù)倉庫的基礎上進行數(shù)據(jù)挖掘,就可以針對整個企業(yè)的狀況和未來發(fā)展作出比較完整、合理、準確的分析和預測。 第五, 成功的數(shù)據(jù)倉庫系統(tǒng)可以為企業(yè)帶來高的投資回報。結(jié)合企業(yè)業(yè)務現(xiàn)狀,數(shù)據(jù)倉庫可以建立在原有運行系統(tǒng)之上,企業(yè)可以在以分主題方式對原來運行數(shù)據(jù)重組的基礎之上,為了某種支持特定決策的需要,再跨主題進行數(shù)據(jù)重組,這就需要數(shù)據(jù)集市(data marts)了。數(shù)據(jù)集市是聚集的、面向主題的數(shù)據(jù)

22、倉庫,它簡單、靈活,并且建立速度更快,花費也更低廉。通常情況下,企業(yè)將建立一系列數(shù)據(jù)集市,用來處理一定范疇的問題,快速決策意味著企業(yè)可以對市場機會做出快速反應,這將為企業(yè)帶來巨大的商業(yè)利益。2.4 統(tǒng)一污染源數(shù)據(jù)庫是環(huán)保局信息門戶的先鋒.為了將污染源數(shù)據(jù)及其分析決策信息能夠方便的讓環(huán)保局內(nèi)部所有相關(guān)人員訪問使用,必須要一種大家都易于接受的方式來表現(xiàn)這些數(shù)據(jù),在這點上,信息中心建議采用b/s結(jié)構(gòu),用瀏覽器作為系統(tǒng)的統(tǒng)一表達方式。同時,將來建設的系統(tǒng)在表現(xiàn)層上也都準備采用同樣的表現(xiàn)形式,所以,一個綜合的門戶發(fā)布系統(tǒng)對于整體環(huán)境信息系統(tǒng)而言是必備的。而在統(tǒng)一污染源項目中將門戶的概念提出是有利于整體系

23、統(tǒng)規(guī)劃的,可以說污染源的門戶發(fā)布系統(tǒng)就是整體環(huán)境信息系統(tǒng)的先鋒。這樣,我們可以知道,其實, 統(tǒng)一污染源數(shù)據(jù)庫是環(huán)保局信息門戶的先鋒.環(huán)保局信息門戶(enterprise information portal),就是采用標準瀏覽器,如internet explorer,提供對環(huán)保局的intranet和extranet的單點訪問,使每個人能通過統(tǒng)一界面訪問經(jīng)授權(quán)的環(huán)保局內(nèi)部和外部信息,從而提高決策水平。環(huán)保局信息門戶為環(huán)保局的各種使用者提供了一個統(tǒng)一的應用界面,使環(huán)保局的使用者可以根據(jù)自己的需要獲得想要的信息,它是通過提供全面的信息和應用來支持決策和客戶選擇的,主要作用體現(xiàn)在: 第一, 環(huán)保局信息

24、門戶(eip)是將web技術(shù)與環(huán)保局的運作過程相集成的解決方案,它提供了一個單獨的網(wǎng)關(guān)來訪問信息和應用。環(huán)保局門戶可以對未組織的信息進行編目和跟蹤,也可以訪問國際互連網(wǎng)上的內(nèi)容,并根據(jù)用戶的需求和在環(huán)保局中的角色來過濾這些內(nèi)容。一個門戶通過開放和封閉的網(wǎng)絡,提供了數(shù)據(jù)和信息的傳遞,使用戶更方便地來了解有關(guān)的信息。 第二, 環(huán)保局信息門戶能夠?qū)⒋鎯υ跀?shù)據(jù)庫、數(shù)據(jù)倉庫和文件中的數(shù)據(jù)轉(zhuǎn)換為可用的信息。它可以使你在環(huán)保局內(nèi)和環(huán)保局外快速地改變信息,并通過瀏覽器傳送信息。分散的公司通過網(wǎng)絡連接在一起,加上最新型的信息傳遞方式,這就意味著在很短的時間內(nèi),獲取正確的信息,傳送給正確的用戶,從而提高生產(chǎn)率。

25、第三, 環(huán)保局信息門戶提供了一個對傳統(tǒng)的個人桌面工作模式的改進方法,可以在通過簡便的方法定制出的圖形化的用戶界面下進行工作(就像目前的商業(yè)門戶,如netcenter),能夠?qū)崿F(xiàn)信息的有效處理和系統(tǒng)的穩(wěn)定性,就如同在原來的應用和信息系統(tǒng)下獨立工作一樣可以這么說,數(shù)據(jù)倉庫為環(huán)保局提供了一個統(tǒng)一的數(shù)據(jù)視圖,而環(huán)保局信息門戶則為環(huán)保局提供了一個統(tǒng)一的應用界面,使他們方便快捷地訪問數(shù)據(jù)倉庫,進一步加速決策速度,提高決策水平。環(huán)保局信息門戶的貢獻不只在于幫助環(huán)保局了解手中大量信息的意義,更重要的是使他們能夠應付那些由于分散的信息資源和處理過程維護能力下降而產(chǎn)生的問題。環(huán)保局信息門戶能夠通過超越現(xiàn)在的分散的

26、應用環(huán)境實現(xiàn)這個目標,把原來不同的相互關(guān)系連接到一起,形成廣泛的、相互關(guān)聯(lián)的應用環(huán)境,從而縮短環(huán)保局響應時間。環(huán)保局數(shù)據(jù)倉庫系統(tǒng)是環(huán)保局信息門戶的基石,為環(huán)保局信息門戶的建立提供了一個完整的基礎框架和統(tǒng)一的數(shù)據(jù)視圖;而環(huán)保局信息門戶的建立是對環(huán)保局數(shù)據(jù)倉庫系統(tǒng)查詢、檢索、集成等功能的優(yōu)化,二者是相輔相成的、統(tǒng)一的、都是為環(huán)保局的決策信息系統(tǒng)服務的,也是環(huán)保局實現(xiàn)電子政務關(guān)鍵因素。 綜上所訴,統(tǒng)一污染源數(shù)據(jù)庫項目的建設是基于污染源數(shù)據(jù)倉庫的環(huán)保局信息門戶的建設.我們將站在數(shù)據(jù)倉庫的高度,利用數(shù)據(jù)倉庫的技術(shù),結(jié)合當前環(huán)保局當前的狀況,對環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫作出規(guī)劃2.5 需求的總結(jié)我們可以把環(huán)保

27、局的需求分為四個統(tǒng)一統(tǒng)一數(shù)據(jù)關(guān)于污染源的統(tǒng)一數(shù)據(jù)庫.統(tǒng)一操作界面要求以后統(tǒng)一的操作界面.統(tǒng)一認證用戶,外部應用程序有統(tǒng)一的認證機制,實現(xiàn)單點認證.統(tǒng)一接口.外部應用程序有統(tǒng)一的調(diào)用接口第三章.系統(tǒng)解決方案3.1 系統(tǒng)解決方案原則3.1.1可擴充性可擴充原則能夠最大限度地保護原有資源,就是原來已經(jīng)建設好的業(yè)務系統(tǒng)。統(tǒng)一污染源數(shù)據(jù)庫平臺將最大限度地兼容其他業(yè)務系統(tǒng)的數(shù)據(jù),但并不干涉原有系統(tǒng)的業(yè)務數(shù)據(jù)。同時將來新開展的業(yè)務系統(tǒng)也可以將其相關(guān)信息數(shù)據(jù)納入其中,而不改動其業(yè)務流程。3.1.2易維護性由信息中心統(tǒng)一管理的集中數(shù)據(jù)庫可以根據(jù)各處室需求統(tǒng)一的開發(fā)報表,分析數(shù)據(jù)等操作,通過靈活的數(shù)據(jù)庫維護工具,

28、數(shù)據(jù)分析工具能夠做到統(tǒng)一數(shù)據(jù)庫的易維護效果。3.1.3安全性利用工業(yè)強度級別的關(guān)系型數(shù)據(jù)庫建設統(tǒng)一污染源數(shù)據(jù)庫,在污染源數(shù)據(jù)庫的應用系統(tǒng)中根據(jù)實際情況設置用戶權(quán)限以達到數(shù)據(jù)級別的安全性。3.1.4合理性根據(jù)環(huán)保局現(xiàn)有業(yè)務系統(tǒng)的現(xiàn)實狀況進行分析,對數(shù)據(jù)的不一致性作出合理判斷,提供用戶自我判斷數(shù)據(jù)合理性功能。3.1.5開放性系統(tǒng)著眼于環(huán)保局環(huán)境信息系統(tǒng)的整體規(guī)劃角度來看待污染源項目,提出多個嶄新觀念,其開放性便于將來整體平臺的深入建設。3.2 技術(shù)路線.為了充分的保證環(huán)保局現(xiàn)有系統(tǒng)的投資,以及以后系統(tǒng)的擴充能力,在綜合考慮了環(huán)保局的現(xiàn)狀以后,我們確定了以統(tǒng)一的平臺為基本的集成平臺,以信息門戶的構(gòu)建

29、為基本框架.整合已有的業(yè)務系統(tǒng),同時,要考慮到各種系統(tǒng)以后的接口,充分保證系統(tǒng)的擴充性.同時,為了保證環(huán)保局系統(tǒng)的先進型和穩(wěn)定性,我們采用當今先進的j2ee結(jié)構(gòu), 3.3業(yè)務體系結(jié)構(gòu)根據(jù)對環(huán)保局內(nèi)部信息系統(tǒng)的信息調(diào)研,我們將在統(tǒng)一污染源數(shù)據(jù)庫項目中采用以下的系統(tǒng)體系結(jié)構(gòu):3.3.1污染源數(shù)據(jù)內(nèi)容從環(huán)保局原有業(yè)務系統(tǒng)中提取的數(shù)據(jù)來源大致有兩處:一是國家環(huán)??偩窒掳l(fā)的一系列環(huán)境軟件,更污染源相關(guān)的有排污申報系統(tǒng),環(huán)境統(tǒng)計系統(tǒng),城考系統(tǒng)等;二是環(huán)保局針對自身業(yè)務特點細節(jié)開發(fā)的業(yè)務系統(tǒng),主要有監(jiān)督處的環(huán)保業(yè)務系統(tǒng),監(jiān)理所的監(jiān)控中心系統(tǒng),排污收費系統(tǒng),監(jiān)測站的監(jiān)測系統(tǒng)等等。在上圖中描述了這些業(yè)務系統(tǒng)分別

30、提供了那些與污染源相關(guān)的信息數(shù)據(jù),這些數(shù)據(jù)就是統(tǒng)一污染源數(shù)據(jù)庫需要抽取的業(yè)務數(shù)據(jù)。3.3.2基礎數(shù)據(jù)庫基礎數(shù)據(jù)庫是環(huán)保局整體環(huán)境信息系統(tǒng)的重要基礎,主要包括“統(tǒng)一污染源”和“環(huán)境質(zhì)量”,這里提到的基礎數(shù)據(jù)庫指的都是統(tǒng)一污染源數(shù)據(jù)庫,數(shù)據(jù)也是與污染源相關(guān)的數(shù)據(jù)。根據(jù)環(huán)保局信息化建設的安排,將來可將“環(huán)境質(zhì)量”也納入到其中?;A數(shù)據(jù)庫為各處室提供了共享的、全面的、權(quán)威的污染源信息。3.3.3數(shù)據(jù)倉庫前面提到,隨著環(huán)保局總體電子政務應用需求的發(fā)展,產(chǎn)生了信息“蜘蛛網(wǎng)”的問題,要解決這樣的問題,必須將用于事務處理的數(shù)據(jù)環(huán)境和用于數(shù)據(jù)分析的數(shù)據(jù)環(huán)境分離開,所以我們在統(tǒng)一污染源數(shù)據(jù)庫基礎上建立了數(shù)據(jù)倉庫應

31、用。從圖中我們可以看出,數(shù)據(jù)處理被分為操作型處理和分析型處理(或信息型處理)兩大類。操作型處理以各個業(yè)務系統(tǒng)的數(shù)據(jù)庫為中心進行環(huán)保局日常的業(yè)務處理;分析型處理以統(tǒng)一污染源數(shù)據(jù)庫、數(shù)據(jù)倉庫為中心分析數(shù)據(jù)背后的關(guān)聯(lián)和規(guī)律,為環(huán)保局的決策提供可靠有效的數(shù)據(jù)。所以操作型系統(tǒng)的使用人員通常是具體操作的部門人員,比如監(jiān)督處、監(jiān)理所等,處理的數(shù)據(jù)通常是業(yè)務的細節(jié)信息,其目標是實現(xiàn)環(huán)保局的業(yè)務運營;而分析型系統(tǒng)的使用人員通常是中高層的管理者或者從事數(shù)據(jù)分析的工作人員。分析型系統(tǒng)包含了環(huán)保局宏觀信息而非具體細節(jié),其目的是為環(huán)保局的決策者提供支持信息。操作型處理和分析型處理的分離,劃清了數(shù)據(jù)處理的分析型環(huán)境與操作

32、型環(huán)境之間的界限,從而由原來數(shù)據(jù)庫為中心的數(shù)據(jù)環(huán)境發(fā)展成為以數(shù)據(jù)庫為中心的業(yè)務處理系統(tǒng)和以數(shù)據(jù)倉庫為基礎的分析系統(tǒng)。以數(shù)據(jù)庫為中心的業(yè)務處理系統(tǒng)和以數(shù)據(jù)倉庫為基礎的分析系統(tǒng)的基礎上,就可以建立商業(yè)智能(business intelligence)bi系統(tǒng)作為商業(yè)智能系統(tǒng)中的核心部分,決策支持系統(tǒng)具備下列功能:1、多維信息查詢2、olap在線分析處理3、數(shù)據(jù)挖掘4、趨勢預測3.3.4地理信息系統(tǒng)統(tǒng)一污染源數(shù)據(jù)庫的上層應用之一是與gis系統(tǒng)結(jié)合進行開發(fā),把污染源的各種完整信息同地理位置和有關(guān)的視圖結(jié)合起來,并可根據(jù)各處室需要對這些信息進行分析,把結(jié)果交由有關(guān)領導和部門作為決策的參考。gis的空間分

33、析功能需要有大量的基礎數(shù)據(jù),其中工業(yè)污染源數(shù)據(jù)是必備數(shù)據(jù)之一,在污染源數(shù)據(jù)庫設計中,我們強調(diào)了數(shù)據(jù)庫系統(tǒng)與現(xiàn)有arc/info、mapobject等gis系統(tǒng)的結(jié)合,污染源數(shù)據(jù)庫將環(huán)保局內(nèi)部各部門積累的大量數(shù)據(jù)進行統(tǒng)一,并對這些屬性數(shù)據(jù)進行處理和加工從而實現(xiàn)了數(shù)據(jù)的查詢、統(tǒng)計和分析,gis系統(tǒng)在此基礎上利用其自身的空間方式就可以很好把污染源排放、治理、達標狀況表現(xiàn)出來。3.3.5信息門戶綜合發(fā)布系統(tǒng)全面的內(nèi)容整合環(huán)保局門戶平臺可以集成現(xiàn)有的應用系統(tǒng),包括環(huán)保局的各種業(yè)務系統(tǒng)、一站式單點登錄可使得用戶一次登錄自動訪問所有授權(quán)的企業(yè)級應用軟件系統(tǒng),無需記憶多種登錄過程、id或口令。并作為環(huán)保局統(tǒng)一

34、的工作和溝通平臺.3.3.6綜合辦公系統(tǒng)統(tǒng)一污染源數(shù)據(jù)庫項目中產(chǎn)生的應用信息,如數(shù)據(jù)的查詢,分析結(jié)果,報表等內(nèi)容可以便利、無縫的與athene環(huán)保局整體電子政務方案中的綜合辦公系統(tǒng)交換數(shù)據(jù),為將來環(huán)保局的建設提供了可擴展性。3.4技術(shù)體系結(jié)構(gòu)根據(jù)上述業(yè)務體系結(jié)構(gòu)的特點,我們設計了下圖所示的技術(shù)體系結(jié)構(gòu):我們在統(tǒng)一污染軟數(shù)據(jù)庫上進行數(shù)據(jù)挖掘及olap分析,得到查詢結(jié)果或者統(tǒng)計報表數(shù)據(jù),然后配合xml中間件技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化為標準xml格式信息, 通過xslt(可擴展樣式表轉(zhuǎn)換)將xml數(shù)據(jù)轉(zhuǎn)換成為系統(tǒng)中的處理格式信息,這些信息通過安全認證后,以servlet,jsp的形式生成網(wǎng)頁表現(xiàn)出來。第四章

35、 污染源統(tǒng)一數(shù)據(jù)庫4.1 數(shù)據(jù)庫設計在本系統(tǒng)中中.污染源數(shù)據(jù)庫的設計是整個系統(tǒng)的重點和難點,如何保證高效的,準確的對現(xiàn)有數(shù)據(jù)的集成,是直接影響到?jīng)Q策圖標是否正確,以后新的業(yè)務系統(tǒng)是否穩(wěn)定和準確的關(guān)鍵,同時, 污染源數(shù)據(jù)庫的高效在線處理能力也是對以后新的業(yè)務系統(tǒng)性能上起著至關(guān)重要的影響.下面從以下幾個方面來論述污染源統(tǒng)一數(shù)據(jù)庫的建設.4.1.1 數(shù)據(jù)庫設計主線在污染源統(tǒng)一數(shù)據(jù)庫中,我們發(fā)現(xiàn),貫穿整個污染源統(tǒng)一數(shù)據(jù)庫業(yè)務點有兩個,污染源和排污單位,利用這兩點.可以完整的理解現(xiàn)在污染源統(tǒng)一數(shù)據(jù)庫中的業(yè)務行為,對整個數(shù)據(jù)庫設計起到關(guān)鍵的統(tǒng)領作用.4.1.1.1概念模型設計進行概念模型設計所要完成的工作

36、是: 界定統(tǒng)一污染源數(shù)據(jù)庫系統(tǒng)邊界 確定統(tǒng)一污染源數(shù)據(jù)庫主要的主題域及其內(nèi)容 概念模型設計的成果是,在原有的業(yè)務數(shù)據(jù)庫的基礎上建立了一個較為穩(wěn)固的概念模型。因為統(tǒng)一污染源數(shù)據(jù)庫是對原有業(yè)務數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)進行集成和重組而形成的數(shù)據(jù)集合,所以統(tǒng)一污染源數(shù)據(jù)庫的概念模型設計,首先要對原有業(yè)務數(shù)據(jù)庫系統(tǒng)加以分析理解,看在原有的業(yè)務數(shù)據(jù)庫系統(tǒng)中“有什么”、“怎樣組織的”和“如何分布的”等,然后再來考慮應當如何建立統(tǒng)一污染源數(shù)據(jù)庫的概念模型。一方面,通過原有的業(yè)務數(shù)據(jù)庫的設計文檔以及在數(shù)據(jù)字典中的數(shù)據(jù)庫關(guān)系模式,可以對現(xiàn)有的業(yè)務數(shù)據(jù)庫中的內(nèi)容有一個完整而清晰的認識;另一方面,統(tǒng)一污染源數(shù)據(jù)庫的概念模型

37、是面向全局建立的,它為集成來自各個面向業(yè)務的數(shù)據(jù)庫的數(shù)據(jù)提供了統(tǒng)一的概念視圖。 概念模型的設計是在較高的抽象層次上的設計,因此建立概念模型時不用考慮具體技術(shù)條件的限制。 1. 界定系統(tǒng)的邊界 統(tǒng)一污染源數(shù)據(jù)庫是面向決策分析的數(shù)據(jù)庫,我們無法在統(tǒng)一污染源數(shù)據(jù)庫設計的最初就得到詳細而明確的需求,但是一些基本的方向性的需求還是擺在了我們的面前: l 要做的決策類型有哪些? l 各個處室需要的數(shù)據(jù)是什么?l 以后可能會有怎么樣的業(yè)務系統(tǒng)接入到本統(tǒng)一污染源數(shù)據(jù)庫?l 可能需要怎么樣的數(shù)據(jù)接口?l 決策者感興趣的是什么問題? l 這些問題需要什么樣的信息? l 要得到這些信息需要包含原有數(shù)據(jù)庫系統(tǒng)的哪些部

38、分的數(shù)據(jù)? 這樣,我們可以劃定一個當前的大致的系統(tǒng)邊界,集中精力進行最需要的部分的開發(fā)。因而,從某種意義上講,界定系統(tǒng)邊界的工作也可以看作是統(tǒng)一污染源數(shù)據(jù)庫系統(tǒng)設計的需求分析.2. 確定主要的主題域 在這一步中,要確定系統(tǒng)所包含的主題域,然后對每個主題域的內(nèi)容進行較明確的描述,描述的內(nèi)容包括: l 主題域的公共碼鍵; l 主題域之間的聯(lián)系; l 充分代表主題的屬性組。 4.1.1.2 邏輯模型設計 在這一步里進行的工作主要有: l 分析主題域,確定當前要裝載的主題; l 確定粒度層次劃分; l 確定數(shù)據(jù)分割策略; l 關(guān)系模式定義; l 記錄系統(tǒng)定義 邏輯模型設計的成果是,對每個當前要裝載的主

39、題的邏輯實現(xiàn)進行定義,并將相關(guān)內(nèi)容記錄在數(shù)據(jù)倉庫的元數(shù)據(jù)中,包括: l 適當?shù)牧6葎澐郑?l 合理的數(shù)據(jù)分割策略; l 適當?shù)谋韯澐郑?l 定義合適的數(shù)據(jù)來源等。 1. 分析主題域 在概念模型設計中,我們確定了幾個基本的主題域,但是,統(tǒng)一污染源的設計方法是一個逐步求精的過程,在進行設計時,一般是一次一個主題或一次若干個主題地逐步完成的。所以,我們必須對概念模型設計步驟中確定的幾個基本主題域進行分析,并選擇首先要實施的主題域。選擇第一個主題域所要考慮的是它要足夠大,以便使得該主題域能建設成為一個可應用的系統(tǒng);它還要足夠小,以便于開發(fā)和較快地實施。如果所選擇的主題域很大并且很復雜,我們甚至可以針對

40、它的一個有意義的子集來進行開發(fā)。在每一次的反饋過程中,都要進行主題域的分析。 2. 粒度層次劃分 數(shù)據(jù)倉庫邏輯設計中要解決的一個重要問題是決定統(tǒng)一污染源的粒度劃分層次,粒度層次劃分適當與否直接影響到統(tǒng)一污染源中的數(shù)據(jù)量和所適合的查詢類型。確定統(tǒng)一污染源的粒度劃分,可以通過估算數(shù)據(jù)行數(shù)和所需的dasd數(shù),來確定是采用單一粒度還是多重粒度,以及粒度劃分的層次。 3. 確定數(shù)據(jù)分割策略 在這一步里,要選擇適當?shù)臄?shù)據(jù)分割的標準,一般要考慮以下幾方面因素:數(shù)據(jù)量(而非記錄行數(shù))、數(shù)據(jù)分析處理的實際情況、簡單易行以及粒度劃分策略等。數(shù)據(jù)量的大小是決定是否進行數(shù)據(jù)分割和如何分割的主要因素;數(shù)據(jù)分析處理的要求

41、是選擇數(shù)據(jù)分割標準的一個主要依據(jù),因為數(shù)據(jù)分割是跟數(shù)據(jù)分析處理的對象緊密聯(lián)系的;我們還要考慮到所選擇的數(shù)據(jù)分割標準應是自然的、易于實施的:同時也要考慮數(shù)據(jù)分割的標準與粒度劃分層次是適應的。 4. 關(guān)系模式定義 統(tǒng)一污染源的每個主題都是由多個表來實現(xiàn)的,這些表之間依靠主題的公共碼鍵聯(lián)系在一起,形成一個完整的主題。在概念模型設計時,我們就確定了統(tǒng)一污染源的基本主題,并對每個主題的公共碼鍵、基本內(nèi)容等做了描述在這一步里,我們將要對選定的當前實施的主題進行模式劃分,形成多個表,并確定各個表的關(guān)系模式。 4.1.1.3 物理模型設計 這一步所做的工作是確定數(shù)據(jù)的存儲結(jié)構(gòu),確定索引策略,確定數(shù)據(jù)存放位置,

42、確定存儲分配。 確定統(tǒng)一污染源實現(xiàn)的物理模型,我們必須做到以下幾方面: l 要全面了解所選用的數(shù)據(jù)庫管理系統(tǒng),特別是存儲結(jié)構(gòu)和存取方法。 l 了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻度、使用方式、數(shù)據(jù)規(guī)模以及響應時間要求等,這些是對時間和空間效率進行平衡和優(yōu)化的重要依據(jù)。 l 了解外部存儲設備的特性,如分塊原則,塊大小的規(guī)定,設備的io特性等。 1. 確定數(shù)據(jù)的存儲結(jié)構(gòu) 一個數(shù)據(jù)庫管理系統(tǒng)往往都提供多種存儲結(jié)構(gòu)供設計人員選用,不同的存儲結(jié)構(gòu)有不同的實現(xiàn)方式,各有各的適用范圍和優(yōu)缺點,我們在選擇合適的存儲結(jié)構(gòu)時應該權(quán)衡三個方面的主要因素:存取時間、存儲空間利用率和維護代價。 2. 確定索引策略 統(tǒng)一污染源的數(shù)

43、據(jù)量很大,因而需要對數(shù)據(jù)的存取路徑進行仔細的設計和選擇。由于數(shù)據(jù)倉庫的數(shù)據(jù)都是不常更新的,因而可以設計多種多樣的索引結(jié)構(gòu)來提高數(shù)據(jù)存取效率。 在數(shù)據(jù)倉庫中,設計人員可以考慮對各個數(shù)據(jù)存儲建立專用的、復雜的索引,以獲得最高的存取效率,因為在數(shù)據(jù)倉庫中的數(shù)據(jù)是不常更新的,也就是說每個數(shù)據(jù)存儲是穩(wěn)定的,因而雖然建立專用的、復雜的索引有一定的代價,但一旦建立就幾乎不需維護索引的代價。 3. 確定數(shù)據(jù)存放位置 在物理設計時,我們常常要按數(shù)據(jù)的重要程度、使用頻率以及對響應時間的要求進行分類,并將不同類的數(shù)據(jù)分別存儲在不同的存儲設備中。重要程度高、經(jīng)常存取并對響應時間要求高的數(shù)據(jù)就存放在高速存儲設備上,如硬

44、盤;存取頻率低或?qū)Υ嫒№憫獣r間要求低的數(shù)據(jù)則可以放在低速存儲設備上,如磁盤或磁帶。 數(shù)據(jù)存放位置的確定還要考慮到其它一些方法,如:決定是否進行合并表;是否對一些經(jīng)常性的應用建立數(shù)據(jù)序列;對常用的、不常修改的表或?qū)傩允欠袢哂啻鎯ΑH绻捎昧诉@些技術(shù),就要記入元數(shù)據(jù)。 4. 確定存儲分配 許多數(shù)據(jù)庫管理系統(tǒng)提供了一些存儲分配的參數(shù)供設計者進行物理優(yōu)化處理,如:塊的尺寸、緩沖區(qū)的大小和個數(shù)等等,它們都要在物理設計時確定。這同創(chuàng)建數(shù)據(jù)庫系統(tǒng)時的考慮是一樣的。 4.1.1.4 統(tǒng)一污染源數(shù)據(jù)庫的生成 在這一步里所要做的工作是接口編程,數(shù)據(jù)裝入。 這一步工作的成果是,數(shù)據(jù)已經(jīng)裝入到數(shù)據(jù)倉庫中,可以在其上建

45、立統(tǒng)一污染源的應用,即dss應用。 1. 設計接口 將操作型環(huán)境下的數(shù)據(jù)裝載進入數(shù)據(jù)倉庫環(huán)境,需要在兩個不同環(huán)境的記錄系統(tǒng)之間建立一個接口。乍一看,建立和設計這個接口,似乎只要編制一個抽取程序就可以了,事實上,在這一階段的工作中,的確對數(shù)據(jù)進行了抽取,但抽取并不是全部的工作,這一接口還應具有以下的功能: l 從面向應用和操作的環(huán)境生成完整的數(shù)據(jù); l 數(shù)據(jù)的基于時間的轉(zhuǎn)換; l 數(shù)據(jù)的凝聚; l 對現(xiàn)有記錄系統(tǒng)的有效掃描,以便以后進行追加。 當然,考慮這些因素的同時,還要考慮到物理設計的一些因素和技術(shù)條件限制,根據(jù)這些內(nèi)容,嚴格地制定規(guī)格說明,然后根據(jù)規(guī)格說明,進行接口編程。從操作型環(huán)境到數(shù)據(jù)

46、倉庫環(huán)境的數(shù)據(jù)接口編程的過程和一般的編程過程并無區(qū)別,它也包括偽碼開發(fā)、編碼、編譯、檢錯、測試等步驟。 在接口編程中,要注意: l 保持高效性,這也是一般的編程所要求的; l 要保存完整的文檔記錄; l 要靈活,易于改動; l 要能完整、準確地完成從操作型環(huán)境到數(shù)據(jù)倉庫環(huán)境的數(shù)據(jù)抽取、轉(zhuǎn)換與集成。 2. 數(shù)據(jù)裝入 在這一步里所進行的就是運行接口程序,將數(shù)據(jù)裝入到數(shù)據(jù)倉庫中。主要的工作是: l 確定數(shù)據(jù)裝入的次序; l 清除無效或錯誤數(shù)據(jù); l 數(shù)據(jù)“老化” ; l 數(shù)據(jù)粒度管理; l 數(shù)據(jù)刷新等。最初只使用一部分數(shù)據(jù)來生成第一個主題域,使得設計人員能夠輕易且迅速地對已做工作進行調(diào)整,而且能夠盡

47、早地提交到下一步驟,即數(shù)據(jù)倉庫的使用和維護。這樣既可以在經(jīng)濟上最快地得到回報,又能夠通過最終用戶的使用、盡早發(fā)現(xiàn)一些問題并提出新的需求,然后反饋給設計人員,設計人員繼續(xù)對系統(tǒng)改進、擴展。4.1.2 數(shù)據(jù)庫規(guī)范化設計數(shù)據(jù)倉庫的建模方法 邏輯建模是數(shù)據(jù)倉庫實施中的重要一環(huán),因為它能直接反映出業(yè)務部門的需求,同時對系統(tǒng)的物理實施有著重要的指導作用。目前較常用的兩種建模方法是所謂的第三范式 (3nf,即 third normal form)和星型模式 (star-schema)。什么是第三范式 范式是數(shù)據(jù)庫邏輯模型設計的基本理論,一個關(guān)系模型可以從第一范式到第五范式進行無損分解,這個過程也稱為規(guī)范化

48、(normalize)。在數(shù)據(jù)倉庫的模型設計中目前一般采用第三范式,它有非常嚴格的數(shù)學定義。如果從其表達的含義來看,一個符合第三范式的關(guān)系必須具有以下三個條件: 1. 每個屬性的值唯一,不具有多義性; 2. 每個非主屬性必須完全依賴于整個主鍵,而非主鍵的一部分; 3. 每個非主屬性不能依賴于其他關(guān)系中的屬性,因為這樣的話,這種屬性應該歸到其他關(guān)系中去。 可以看到,第三范式的定義基本上是圍繞主鍵與非主屬性之間的關(guān)系而作出的。如果只滿足第一個條件,則稱為第一范式;如果滿足前面兩個條件,則稱為第二范式,依此類推。因此,各級范式是向下兼容的。 什么是星型模式 星型模式是一種多維的數(shù)據(jù)關(guān)系,它由一個事實

49、表(fact table)和一組維表(dimens ion table)組成。每個維表都有一個維作為主鍵,所有這些維則組合成事實表的主鍵,換言之,事實表主鍵的每個元素都是維表的外鍵。事實表的非主屬性稱為事實 (fact),它們一般都是數(shù)值或其他可以進行計算的數(shù)據(jù);而維大都是文字、時間等類型的數(shù)據(jù)。 第三范式和星型模式在統(tǒng)一污染源數(shù)據(jù)庫中的應用 大多數(shù)人在設計中央數(shù)據(jù)倉庫的邏輯模型時,都按照第三范式來設計;而在進行物理實施時,則由于數(shù)據(jù)庫引擎的限制,不得不對邏輯模型進行不規(guī)范處理 (de-normalize), 以提高系統(tǒng)的響應速度,這當然是以增加系統(tǒng)的復雜度、維護工作量、磁盤使用比率 (指原始

50、數(shù)據(jù)與磁盤大小的比率)并降低系統(tǒng)執(zhí)行動態(tài)查詢能力為代價的。 根據(jù)數(shù)據(jù)倉庫的測試標準 tpc-d規(guī)范,在數(shù)據(jù)倉庫系統(tǒng)中,對數(shù)據(jù)庫引擎最大的挑戰(zhàn)主要是這樣幾種操作:多表連接、表的累計、數(shù)據(jù)排序、大量數(shù)據(jù)的掃描。下面列出了一些 dbms在實際系統(tǒng)中針對這些困難所采用的折衷處理辦法: 1、 如何避免多表連接:在設計模型時對表進行合并,即所謂的預連接 (pre-join)。當數(shù)據(jù)規(guī)模小時,也可以采用星型模式, 這樣能提高系統(tǒng)速度,但增加了數(shù)據(jù)冗余量。 2、 如何避免表的累計:在模型中增加有關(guān)小計數(shù)據(jù) (summarized data)的項。這樣也增加了數(shù)據(jù)冗余,而且如果某項問題不在預建的累計項內(nèi),需臨時

51、調(diào)整。 3、 如何避免數(shù)據(jù)排序:對數(shù)據(jù)事先排序。但隨著數(shù)據(jù)倉庫系統(tǒng)的運行,不斷有新的數(shù)據(jù)加入,數(shù)據(jù)庫管理員的工作將大大增加。大量的時間將用于對系統(tǒng)的整理,系統(tǒng)的可用性隨之降低。 4、 如何避免大表掃描:通過使用大量的索引,可以避免對大量數(shù)據(jù)進行掃描。但這也將增加系統(tǒng)的復雜程度,降低系統(tǒng)進行動態(tài)查詢的能力。 這些措施大都屬于不規(guī)范處理。根據(jù)上面的討論,當把規(guī)范的系統(tǒng)邏輯模型進行物理實施時,由于數(shù)據(jù)庫引擎的限制,常常需要進行不規(guī)范處理。舉例來說,當系統(tǒng)數(shù)據(jù)量很小 ,比如只有幾個 gb時,進行多表連接之類復雜查詢的響應時間是可以忍受的。但是設想一下,如果數(shù)據(jù)量擴展到很大,到幾百 gb,甚至上 tb,

52、一個表中的記錄往往有幾百萬、幾千萬,甚至更多,這時進行多表連接這樣的復雜查詢,響應時間長得不可忍受。這時就有必要把幾個表合并,盡量減少表的連接操作。當然,不規(guī)范處理的程度取決于數(shù)據(jù)庫引擎的并行處理能力。不規(guī)范處理的階段 現(xiàn)在來討論一下,當不得不選擇不規(guī)范處理時,應在哪個階段進行。由于中央數(shù)據(jù)倉庫的數(shù)據(jù)模型反映了整個企業(yè)的業(yè)務運行規(guī)律,在這里進行不規(guī)范處理容易影響整個系統(tǒng),不利于今后的擴展。 而且不規(guī)范處理產(chǎn)生的數(shù)據(jù)冗余將使整個系統(tǒng)的數(shù)據(jù)量迅速增加,這將增加 dba的工作量和系統(tǒng)投資。因此,當系統(tǒng)性能下降而進行不規(guī)范處理時,比較好的辦法是選擇問題較集中的部門數(shù)據(jù)集市實施這種措施。這樣既能有效地改

53、善系統(tǒng)性能,又不至于影響整個系統(tǒng)。在國外一些成功的大型企業(yè)級數(shù)據(jù)倉庫案例中,基本上都是采用這種方法。 那么,在中央數(shù)據(jù)倉庫中是否可以采用星型模式來進行模型設計呢?我們知道,星型模式中有一個事實表和一組維表,我們可以把事實看成是各個維交叉點上的值。例如,一個汽車廠在研究其銷售情況時可以考察汽車的型號、顏色、代理商等多種因素,這些因素就是維,而銷售量就是事實。這種多維模型能迅速給出基于各個維的報表,這些維必須事先確定。 星型模式之所以速度快,在于針對各個維作了大量的預處理,如按照維進行預先的統(tǒng)計、分類、排序等。在上面的例子中,就是按照汽車的型號、顏色、代理商進行預先的銷售量統(tǒng)計。因此,在星型模式設

54、計的數(shù)據(jù)倉庫中,作報表的速度雖然很快,但由于存在大量的預處理,其建模過程相對來說就比較慢。當業(yè)務問題發(fā)生變化,原來的維不能滿足要求時,需要增加新的維。由于事實表的主鍵由所有維表的主鍵組成,這種維的變動將是非常復雜、非常耗時的。星型模式另一個顯著的缺點是數(shù)據(jù)的冗余量很大。綜合這些討論,不難得出結(jié)論,星型模式比較適合于預先定義好的問題,如需要產(chǎn)生大量報表的場合;而不適合于動態(tài)查詢多、系統(tǒng)可擴展能力要求高或者數(shù)據(jù)量很大的場合。因此,星型模式在一些要求大量報表的部門數(shù)據(jù)集市中有較多的應用。 上面討論了數(shù)據(jù)倉庫模型設計中常用的兩種方法。在數(shù)據(jù)倉庫的應用環(huán)境中,主要有兩種負載:一種是回答重復性的問題;另一

55、種是回答交互性的問題。動態(tài)查詢具有較明顯的交互性特征,即在一個問題答案的基礎上進行進一步的探索,這種交互過程常稱為數(shù)據(jù)挖掘 (data mining)或者知識探索 (knowledge discovery)。對于以第一種負載為主的部門數(shù)據(jù)集市,當數(shù)據(jù)量不大、報表較固定時可以采用星型模式;對于中央數(shù)據(jù)倉庫,考慮到系統(tǒng)的可擴展能力、投資成本和易于管理等多種因素,最好采用第三范式。根據(jù)我們對環(huán)保局的業(yè)務的分析,我們知道,在統(tǒng)一污染源數(shù)據(jù)庫中,大量的查詢是基于固定的,重復性質(zhì)的查詢和報表工作,同樣的,也會具有少量的即席查詢,所以,我們對統(tǒng)一污染源的建模方面,將以第三范式為主,同時,在可以預見的查詢和分

56、析主題上,采取適當?shù)臄?shù)據(jù)冗余。使用星型模式,增加系統(tǒng)的處理能力和反映能力。4.1.3 粒度設計數(shù)據(jù)倉庫中的數(shù)據(jù)分為四個級別:早期細節(jié)級、當前細節(jié)級、輕度綜合級、高度綜合級。源數(shù)據(jù)經(jīng)過綜合后,首先進入當前細節(jié)級,并根據(jù)具體需要進行進一步的綜合,從而進入輕度綜合級乃至高度綜合級,老化的數(shù)據(jù)將進入早期細節(jié)級由此可見,數(shù)據(jù)倉庫中存在著不同的綜合級別,一般稱之為粒度。粒度越大,表示細節(jié)程度越低,綜合程度越高.粒度是數(shù)據(jù)倉庫的重要概念。粒度是對數(shù)據(jù)倉庫中的數(shù)據(jù)的綜合程度高低的一個度量,它既影響數(shù)據(jù)倉庫中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉庫所能回答詢問的種類。在數(shù)據(jù)倉庫中,多維粒度是必不可少的。由于數(shù)據(jù)倉庫的主要作用是dss分析,因而絕大多數(shù)查詢都基于一定程度的綜合數(shù)據(jù)之上的,只有極少數(shù)查詢涉及到細節(jié)。所以應該將大粒度數(shù)據(jù)存儲于快速設備如磁盤上,小粒度數(shù)據(jù)存于低速設備如磁帶上。 在統(tǒng)一污染源的分析中,我們發(fā)現(xiàn),統(tǒng)一污染源既要保存當前業(yè)務系統(tǒng)的細節(jié),也要保存深度處理后的數(shù)據(jù),所以,我們決定,在統(tǒng)一污染源的粒度設計中,我們采取兩重標準,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論