國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展核心數(shù)據(jù)庫(kù)建設(shè)模式探討_第1頁(yè)
國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展核心數(shù)據(jù)庫(kù)建設(shè)模式探討_第2頁(yè)
國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展核心數(shù)據(jù)庫(kù)建設(shè)模式探討_第3頁(yè)
國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展核心數(shù)據(jù)庫(kù)建設(shè)模式探討_第4頁(yè)
國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展核心數(shù)據(jù)庫(kù)建設(shè)模式探討_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展核心數(shù)據(jù)庫(kù)建設(shè)模式探討數(shù)據(jù)倉(cāng)庫(kù)在統(tǒng)計(jì)領(lǐng)域的應(yīng)用楊靖怡包志軍周紅縷浦東新區(qū)發(fā)展計(jì)劃局信息中心摘要:近年來(lái),隨著計(jì)算機(jī)數(shù)據(jù)處理技術(shù)在統(tǒng)計(jì)行業(yè)的廣泛應(yīng)用,產(chǎn)生了大 量分散在各個(gè)統(tǒng)計(jì)單位的數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的產(chǎn)生和發(fā)展,為這些大量的 煩雜而分散的數(shù)據(jù)資源提供了有效的理論和解決方法指導(dǎo)。本文分析了浦東 新區(qū)統(tǒng)計(jì)數(shù)據(jù)的現(xiàn)狀,提出了核心數(shù)據(jù)庫(kù)的建設(shè)目標(biāo)和功能,是在現(xiàn)存數(shù)據(jù) 系統(tǒng)上進(jìn)行有效的抽取、綜合、繼承和挖掘,產(chǎn)生最有價(jià)值的信息,為政府 和社會(huì)提供有效的決策支持。本文重點(diǎn)提出了浦東新區(qū)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展 核心數(shù)據(jù)庫(kù)的建設(shè)模型。要遵循“總體規(guī)劃,分步實(shí)施”的方針,分成三個(gè) 階段來(lái)實(shí)施.最后

2、提出了建立核心數(shù)據(jù)庫(kù)的若干保障機(jī)制,及其對(duì)促進(jìn)新區(qū) 國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展所產(chǎn)生的重大意義。1.前言在社會(huì)信息化加速發(fā)展的大背景下,現(xiàn)代管理模式強(qiáng)調(diào)以信息資 源管理為中心。對(duì)于各類管理信息系統(tǒng)在管理運(yùn)作中產(chǎn)生、存儲(chǔ)與 集成的大規(guī)模數(shù)據(jù),僅僅進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)報(bào)表、檢索查詢等淺層面 處理已遠(yuǎn)遠(yuǎn)不能滿足需要。如何對(duì)急劇增長(zhǎng)的數(shù)據(jù)集合進(jìn)行實(shí)時(shí)和 深層分析,將深潛其中的有用信息提取升華;如何按管理控制的需 要有效地組織眾多相關(guān)部門(mén)的數(shù)據(jù)支持決策,是信息管理面臨的新 課題。數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)等都是近些年發(fā)展起來(lái)的信 息處理技術(shù),是新技術(shù)環(huán)境下開(kāi)發(fā)利用信息資源的有力工具。數(shù)據(jù)倉(cāng)庫(kù)(Data Wareho

3、use)的提出是二十世紀(jì)90年代,它首 先被用于金融、電信、保險(xiǎn)等主要傳統(tǒng)數(shù)據(jù)處理密集型行業(yè),國(guó)外 許多大型的數(shù)據(jù)倉(cāng)庫(kù)先后建立于1996和1997年。如今在國(guó)外數(shù)據(jù) 倉(cāng)庫(kù)方面的發(fā)展非常迅速,呈雷霆萬(wàn)鈞之勢(shì),在技術(shù)和應(yīng)用上也趨 向成熟。與國(guó)外相比,我國(guó)在這方面起步較晚,因而尚存差距,但 是通過(guò)鑒借國(guó)外的經(jīng)驗(yàn)教訓(xùn)I,并且隨著基礎(chǔ)設(shè)施和聯(lián)機(jī)事務(wù)處理系 統(tǒng)的逐步完善,我國(guó)的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)正在蓬勃興起,并將逐步縮短 與國(guó)外的差距。目前,數(shù)據(jù)倉(cāng)庫(kù)在國(guó)內(nèi)的應(yīng)用領(lǐng)域日益廣泛,越來(lái) 越多的企業(yè)開(kāi)始意識(shí)到它的重要性,并逐漸采用數(shù)據(jù)倉(cāng)庫(kù)來(lái)提高管 理能力和決策分析能力,在實(shí)際應(yīng)用中將發(fā)揮著巨大的作用。在統(tǒng)計(jì)領(lǐng)域,近年來(lái)

4、由于計(jì)算機(jī)數(shù)據(jù)處理技術(shù)的廣泛應(yīng)用,因而 產(chǎn)生了大量分散在各個(gè)統(tǒng)計(jì)部門(mén)的國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展數(shù)據(jù)。面對(duì)大量繁雜而分散的數(shù)據(jù)資源,如何安全有效地管理和重組數(shù)據(jù),提 煉出綜合數(shù)據(jù)信息,以供政府部門(mén)和社會(huì)各界利用,成為目前我國(guó) 統(tǒng)計(jì)領(lǐng)域所面臨的一個(gè)比較難于解決而乂亟待解決的問(wèn)題。數(shù)據(jù) 倉(cāng)庫(kù)技術(shù)的產(chǎn)生和發(fā)展,為這個(gè)問(wèn)題的解決提供了有效的理論和方 法指導(dǎo)。2 .現(xiàn)狀與需求2.1. 統(tǒng)計(jì)數(shù)據(jù)現(xiàn)狀分析(1)數(shù)據(jù)格式多種多樣,一致性較差,并存在數(shù)據(jù)冗余目前浦東新區(qū)各個(gè)統(tǒng)計(jì)專業(yè)所使用的系統(tǒng)主要有兩種:一種是由 市統(tǒng)計(jì)局下發(fā)的系統(tǒng);另一種是自主開(kāi)發(fā)的系統(tǒng)。產(chǎn)生的數(shù)據(jù)格式 均不相同,且各個(gè)系統(tǒng)相對(duì)獨(dú)立。在系統(tǒng)單獨(dú)使用的

5、情況下,一般 都沒(méi)有問(wèn)題,但要將這些不同專業(yè)或不同時(shí)期的數(shù)據(jù)集中起來(lái)加以 綜合利用,就可能出現(xiàn)數(shù)據(jù)不齊全、不一致或重復(fù)的現(xiàn)象。例如, 不同專業(yè)系統(tǒng)對(duì)同一項(xiàng)數(shù)據(jù)的缺省值的處理方式可能不一樣,有的 專業(yè)系統(tǒng)以無(wú)效值NULL來(lái)代表,而有的專業(yè)系統(tǒng)則以空格代表; 乂如,一家企業(yè)從私營(yíng)公司變?yōu)楣煞葜乒荆m然名稱變了,但業(yè) 務(wù)上還是一家公司,在不同時(shí)期的數(shù)據(jù)中,就可能以不同的名字出 現(xiàn)。(2)數(shù)據(jù)來(lái)源多,但存放相對(duì)分散,缺乏統(tǒng)一管理浦東新區(qū)的統(tǒng)計(jì)數(shù)據(jù)不僅來(lái)源于各統(tǒng)計(jì)調(diào)查所,還來(lái)源于直報(bào)企 業(yè)和其他相關(guān)部門(mén),但這些統(tǒng)計(jì)數(shù)據(jù)一般分別存放在各個(gè)統(tǒng)計(jì)專業(yè) 的FoxPro數(shù)據(jù)庫(kù)中,而且大多只保存了近期數(shù)據(jù),缺乏集

6、中存放 和管理不同專業(yè)、不同時(shí)期統(tǒng)計(jì)數(shù)據(jù)的有效手段,因此不利于統(tǒng)計(jì) 數(shù)據(jù)的進(jìn)一步加工利用。(3)統(tǒng)計(jì)業(yè)務(wù)涉及到各行各業(yè)和眾多企業(yè),指標(biāo)多、數(shù)據(jù)量大 目前,除了能將這些數(shù)據(jù)匯總成為統(tǒng)計(jì)報(bào)表、統(tǒng)計(jì)年鑒、月度 手冊(cè)、市情手冊(cè)或經(jīng)濟(jì)卡片之外,還缺乏對(duì)專業(yè)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行各種 深層次分析、綜合、提煉、挖掘和展現(xiàn)的應(yīng)用軟件,因此很難對(duì)豐 富的統(tǒng)計(jì)數(shù)據(jù)資源進(jìn)行二次開(kāi)發(fā)利用,最終用戶可利用的分析、預(yù) 測(cè)數(shù)據(jù)不多,能輔助決策的有效信息就更少。(4)偏重于上報(bào)統(tǒng)計(jì)報(bào)表,忽視了政府宏觀決策支持和企業(yè)微 觀決策支持在計(jì)劃經(jīng)濟(jì)時(shí).期,統(tǒng)計(jì)部門(mén)的主要職能是為了上級(jí)統(tǒng)計(jì)機(jī)關(guān)報(bào)送 統(tǒng)計(jì)報(bào)表;在市場(chǎng)經(jīng)濟(jì)時(shí)期,統(tǒng)計(jì)部門(mén)不僅要為上級(jí)統(tǒng)

7、計(jì)機(jī)關(guān)報(bào)送 統(tǒng)計(jì)報(bào)表,而且還要更多地為輔助新區(qū)政府宏觀決策和企業(yè)微觀決 策及時(shí)提供各種信息和情報(bào)。2.2. 新時(shí)期對(duì)統(tǒng)計(jì)信息的需求在世界走向信息化的今天,尤其是隨著Internet的飛速發(fā)展, 信息的產(chǎn)生、更新、傳播、利用的節(jié)奏大大加快,快速獲取信息, 通過(guò)分析把信息變成有價(jià)值的情報(bào),成為一個(gè)單位提高競(jìng)爭(zhēng)力的重 要手段,有關(guān)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展的統(tǒng)計(jì)信息資源也隨之成為社會(huì) 需求的熱點(diǎn)。為了對(duì)復(fù)雜的動(dòng)態(tài)環(huán)境作出及時(shí)響應(yīng),現(xiàn)代管理要求在大量的統(tǒng) 計(jì)數(shù)據(jù)中找出有價(jià)值的信息和情報(bào)作為決策時(shí)的參考依據(jù)。在決策 過(guò)程中,一旦需要,決策人員可以很快得到方方面面詳盡的信息和 情報(bào)支持,包括歷史的、當(dāng)前的和未來(lái)的

8、各種信息。支持對(duì)分布在不同地點(diǎn)的數(shù)據(jù)或信息進(jìn)行操作,包括內(nèi)部的,外 部的或遠(yuǎn)程的數(shù)據(jù)及信息。支持對(duì)不同類型和模式的數(shù)據(jù)或信息進(jìn) 行操作,要求圖文并茂。包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的信息 類型及文本、數(shù)字、聲音、圖形圖象、視頻、動(dòng)畫(huà)、地圖GIS等數(shù) 據(jù)格式。中國(guó)即將加入WTO,面對(duì)市場(chǎng)的挑戰(zhàn)和機(jī)遇,企業(yè)更需科學(xué)化的 決策支持。因而越來(lái)越多的社會(huì)用戶希望統(tǒng)計(jì)信息資源能夠?qū)崿F(xiàn)充 分共享與快速交流,尤其是企業(yè)的微觀決策需要統(tǒng)計(jì)信息的支持。2.3. 核心數(shù)據(jù)庫(kù)的開(kāi)發(fā)建設(shè)是“十五”期間浦東 統(tǒng)計(jì)信息建設(shè)的重點(diǎn)之一浦東新區(qū)是一個(gè)改革開(kāi)放的前沿地區(qū),其信息化工作顯得尤為重 要。為了配合國(guó)家統(tǒng)計(jì)信息工程和XX

9、市信息化“十五”規(guī)劃,實(shí) 現(xiàn)XX信息港建設(shè)目標(biāo),以科學(xué)、規(guī)X的統(tǒng)計(jì)指標(biāo)體系和統(tǒng)計(jì)標(biāo)準(zhǔn) 體系為基礎(chǔ),充分利用現(xiàn)代計(jì)算機(jī)技術(shù),網(wǎng)絡(luò)技術(shù),數(shù)據(jù)倉(cāng)庫(kù)技術(shù) 和數(shù)據(jù)挖掘工具,構(gòu)筑數(shù)據(jù)庫(kù)模型,建立一體化統(tǒng)計(jì)信息采集、處 理、存儲(chǔ)、服務(wù)系統(tǒng),建立政府“電子統(tǒng)計(jì)”,努力推進(jìn)新區(qū)統(tǒng)計(jì) 信息化進(jìn)程。3 .目標(biāo)和功能核心數(shù)據(jù)庫(kù)的建設(shè)不同于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),是基于數(shù)據(jù)倉(cāng)庫(kù) 的統(tǒng)計(jì)信息應(yīng)用系統(tǒng),是在現(xiàn)存數(shù)據(jù)系統(tǒng)上進(jìn)行的開(kāi)發(fā),它著眼于 有效的抽取、綜合、繼承和挖掘已有數(shù)據(jù)資源,以及最有價(jià)值的信 息,為政府和社會(huì)提供有效的決策支持。采用數(shù)據(jù)倉(cāng)庫(kù)的好處可概括如下:可統(tǒng)一各種數(shù)據(jù)存儲(chǔ)格式,保 證全部數(shù)據(jù)的準(zhǔn)確性、一致性、完整性

10、和共享性;可集中存儲(chǔ)和管 理各專業(yè)不同時(shí)期的統(tǒng)計(jì)數(shù)據(jù),提高檢索速度,便于統(tǒng)計(jì)數(shù)據(jù)資源 的綜合利用;可根據(jù)決策需要對(duì)各種統(tǒng)計(jì)數(shù)據(jù)進(jìn)行組織和分析處理 而乂不會(huì)降低業(yè)務(wù)系統(tǒng)的運(yùn)行性能;可充分利用現(xiàn)有和歷史的大量 統(tǒng)計(jì)數(shù)據(jù)資源進(jìn)行二次開(kāi)發(fā),從中提取有價(jià)值的信息;決策者可以 查詢到他們需要的、一致的、形象直觀的分析預(yù)算信息,以輔助其 決策分析。3.1. 核心數(shù)據(jù)庫(kù)的建設(shè)目標(biāo)基于數(shù)據(jù)倉(cāng)庫(kù)的核心數(shù)據(jù)庫(kù)需要實(shí)現(xiàn)數(shù)據(jù)抽取、清洗、轉(zhuǎn)換和裝 載自動(dòng)化,統(tǒng)一數(shù)據(jù)格式,充分利用各種數(shù)據(jù)資源;建立適應(yīng)統(tǒng)計(jì) 信息應(yīng)用系統(tǒng)要求的數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)體系,集中存儲(chǔ)和管理決策所需 數(shù)據(jù),保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的完整性、一致性和可用性;建立綜

11、合 信息服務(wù)平臺(tái),為政府部門(mén)提供決策信息查詢服務(wù),為社會(huì)用戶提 供統(tǒng)計(jì)信息發(fā)布服務(wù);為統(tǒng)計(jì)專業(yè)分析人員提供統(tǒng)計(jì)數(shù)據(jù)的綜合應(yīng) 用系統(tǒng),完成統(tǒng)計(jì)數(shù)據(jù)的組織管理、分析預(yù)測(cè)和綜合查詢等工作。3.2. 核心數(shù)據(jù)庫(kù)的建設(shè)功能基于數(shù)據(jù)倉(cāng)庫(kù)的核心數(shù)據(jù)庫(kù)主要包括數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)的規(guī)劃 和設(shè)計(jì)、源數(shù)據(jù)的抽取和裝載、目標(biāo)數(shù)據(jù)的組織和管理、統(tǒng)計(jì)分析 預(yù)測(cè)、統(tǒng)計(jì)信息查詢、統(tǒng)計(jì)信息發(fā)布等統(tǒng)計(jì)信息應(yīng)用系統(tǒng)。目標(biāo)數(shù)據(jù)的組織工作主要包括:根據(jù)建立數(shù)據(jù)倉(cāng)庫(kù)和用戶信息的 需要,按照確定的主題、粒度、指標(biāo)X圍組織分割數(shù)據(jù);建立數(shù)據(jù) 視圖、索引或數(shù)據(jù)模型,優(yōu)化系統(tǒng)配置,提高查詢和分析處理性能; 對(duì)于重要的綜合性統(tǒng)計(jì)數(shù)據(jù),按照指標(biāo)的口徑

12、X圍和行政區(qū)劃的變 化進(jìn)行調(diào)整等。組織與管理的數(shù)據(jù)X圍包括:常規(guī)統(tǒng)計(jì)數(shù)據(jù),如:統(tǒng)計(jì)年報(bào)、季 報(bào)、月報(bào)數(shù)據(jù);各種普查數(shù)據(jù);抽樣調(diào)查和專項(xiàng)調(diào)查數(shù)據(jù);相關(guān)單 位提供數(shù)據(jù);外部公布數(shù)據(jù)摘錄;分析預(yù)測(cè)數(shù)據(jù);地理信息數(shù)據(jù); 其他數(shù)據(jù)等。統(tǒng)計(jì)分析預(yù)測(cè)主要有多維分析、數(shù)據(jù)挖掘和經(jīng)濟(jì)計(jì)量分析、數(shù)理 統(tǒng)計(jì)分析等數(shù)學(xué)模型。經(jīng)濟(jì)計(jì)量分析包括時(shí)間序列、線性分析等分 析方法;數(shù)據(jù)挖掘包括決策樹(shù)、人工神經(jīng)元網(wǎng)絡(luò)、粗糙集、貝葉斯 和關(guān)聯(lián)規(guī)則等方法;數(shù)理統(tǒng)計(jì)分析包括回歸分析、方差分析、相關(guān) 分析、判別分析、聚類分析等。4 .模型設(shè)計(jì)4.1. 設(shè)計(jì)思想針對(duì)新區(qū)統(tǒng)計(jì)信息的基礎(chǔ)和建設(shè)該數(shù)據(jù)庫(kù)的投入資金大、周期長(zhǎng) 等特點(diǎn),應(yīng)該遵循總體

13、規(guī)劃,分步實(shí)施的方針。第一階段:建立基礎(chǔ)數(shù)據(jù)庫(kù)。統(tǒng)計(jì)各專業(yè)產(chǎn)生的數(shù)據(jù)目前仍分散存放在不同的單機(jī)上,彼此相 對(duì)獨(dú)立。建立基礎(chǔ)數(shù)據(jù)庫(kù)不僅是為了集中存放和管理這些原始數(shù) 據(jù),實(shí)現(xiàn)數(shù)據(jù)共享,而且也是為數(shù)據(jù)倉(cāng)庫(kù)的建立打下基礎(chǔ)。因?yàn)閿?shù) 據(jù)倉(cāng)庫(kù)是以大量的傳統(tǒng)數(shù)據(jù)庫(kù)為數(shù)據(jù)源獲取原始數(shù)據(jù),再根據(jù)決策 目標(biāo)加工、整合、轉(zhuǎn)換為新的存儲(chǔ)格式存入數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)部數(shù)據(jù)庫(kù) 中。數(shù)據(jù)倉(cāng)庫(kù)的建立并不是要取代傳統(tǒng)數(shù)據(jù)庫(kù),它要建立在一個(gè)較 全面和完善的信息應(yīng)用的基礎(chǔ)上,用于支持高層決策分析。數(shù)據(jù)倉(cāng) 庫(kù)是數(shù)據(jù)庫(kù)技術(shù)的一種新的應(yīng)用,而且到目前為止,數(shù)據(jù)倉(cāng)庫(kù)還是 依賴于傳統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)來(lái)管理其中的數(shù)據(jù)。第二階段:建立數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)必

14、須遵循:(1)系統(tǒng)擴(kuò)充性好能夠支持不同的數(shù)據(jù)源裝載,數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)不同類型的數(shù)據(jù),根 據(jù)用戶需求能夠分階段的實(shí)現(xiàn)更多的應(yīng)用功能;能夠根據(jù)系統(tǒng)的運(yùn) 行瓶頸調(diào)整硬件和軟件的結(jié)構(gòu),局部結(jié)構(gòu)的改變和擴(kuò)充不影響系統(tǒng) 整體的運(yùn)行。(2)完善的數(shù)據(jù)管理由于數(shù)據(jù)源之間存在數(shù)據(jù)類型和數(shù)據(jù)描述的不一致,及數(shù)據(jù)的不 完整性等現(xiàn)象,需要系統(tǒng)對(duì)數(shù)據(jù)源采取有效地過(guò)濾、轉(zhuǎn)換手段,使 之成為有效的、一致的形式便于在其上進(jìn)行全局應(yīng)用;同時(shí)隨著時(shí) 間的推移,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量不斷增大,必須根據(jù)其特點(diǎn)采用適當(dāng)?shù)姆椒ㄟM(jìn)行組織和管理。(3)能夠?qū)崿F(xiàn)高性能的復(fù)雜分析使用數(shù)據(jù)進(jìn)行各種復(fù)雜分析,如多維分析長(zhǎng)期趨勢(shì)分析和數(shù)據(jù)挖 掘等。(4)完善

15、的最終用戶界面如果沒(méi)有各種分析工具,數(shù)據(jù)倉(cāng)庫(kù)的存在是沒(méi)有意義的,系統(tǒng)必 須提供各種靈活完整的分析應(yīng)用工具。第三階段:數(shù)據(jù)倉(cāng)庫(kù)在統(tǒng)計(jì)信息上的應(yīng)用。(1)統(tǒng)計(jì)分析預(yù)測(cè)系統(tǒng);(2)統(tǒng)計(jì)信息查詢、咨詢服務(wù)系統(tǒng);(3)統(tǒng)計(jì)信息發(fā)布系統(tǒng);(4)宏觀管理決策支持系統(tǒng)。4.2. 設(shè)計(jì)方案基于數(shù)據(jù)倉(cāng)庫(kù)的核心數(shù)據(jù)庫(kù)體系結(jié)構(gòu)可分為數(shù)據(jù)源、數(shù)據(jù)抽取轉(zhuǎn) 換和、中心數(shù)據(jù)倉(cāng)庫(kù)、結(jié)構(gòu)化數(shù)據(jù)集市和數(shù)據(jù)訪問(wèn)數(shù)據(jù)分析。它們 之間相互作用,共同構(gòu)成了數(shù)據(jù)倉(cāng)庫(kù)信息環(huán)境。數(shù)據(jù)源主要是存儲(chǔ)在基礎(chǔ)數(shù)據(jù)庫(kù)中的國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì) 數(shù)據(jù),基礎(chǔ)數(shù)據(jù)庫(kù)可采用關(guān)系型數(shù)據(jù)庫(kù);數(shù)據(jù)抽取轉(zhuǎn)換和通過(guò)對(duì)系 統(tǒng)的建模后,采用元數(shù)據(jù)管理按照一定的規(guī)則將數(shù)據(jù)源中的

16、數(shù)據(jù)到 中心數(shù)據(jù)倉(cāng)庫(kù)中;中心數(shù)據(jù)倉(cāng)庫(kù)根據(jù)信息分析需求重新定義和組織 各專業(yè)處理系統(tǒng)中的數(shù)據(jù);數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)中某一個(gè)主題的體 現(xiàn);用戶終端工具通過(guò)應(yīng)用服務(wù)器等中間層對(duì)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市 中的信息進(jìn)行訪問(wèn)和分析,用戶界面為定制的Web界面,同時(shí)可以 打印報(bào)表,可以滿足用戶的所有需求,從對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的簡(jiǎn)單 查詢,到復(fù)雜的分析、預(yù)測(cè)和建模。4.3. 關(guān)鍵技術(shù)(1)數(shù)據(jù)的抽取數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口。由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的 數(shù)據(jù)環(huán)境,它需要通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部 數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)抽取在技術(shù) 上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等

17、幾個(gè)方面。數(shù) 據(jù)倉(cāng)庫(kù)的數(shù)據(jù)并不要求與聯(lián)機(jī)事務(wù)處理系統(tǒng)保持實(shí)時(shí)的同步,因此 數(shù)據(jù)抽取可以定時(shí)進(jìn)行,但多個(gè)抽取操作執(zhí)行的時(shí)間、相互的順序、 成敗對(duì)數(shù)據(jù)倉(cāng)庫(kù)XX息的有效性則至關(guān)重要。(2)數(shù)據(jù)的存儲(chǔ)和管理數(shù)據(jù)倉(cāng)庫(kù)的真正關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理。數(shù)據(jù)倉(cāng)庫(kù)的組織管理 方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性,同時(shí)也決定了其對(duì)外部數(shù) 據(jù)表現(xiàn)形式。這里所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而 累積。從現(xiàn)有技術(shù)和產(chǎn)品來(lái)看,只有關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)能夠擔(dān)當(dāng)此任。 關(guān)系數(shù)據(jù)庫(kù)經(jīng)過(guò)近30年的發(fā)展,在數(shù)據(jù)存儲(chǔ)和管理方面已經(jīng)非常 成熟,非其它數(shù)據(jù)管理系統(tǒng)可比。目前不少關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)已支持 數(shù)據(jù)分割技術(shù),能夠?qū)⒁粋€(gè)大的數(shù)據(jù)

18、庫(kù)表分散在多個(gè)物理存儲(chǔ)設(shè)備 中,進(jìn)一步增強(qiáng)了系統(tǒng)管理大數(shù)據(jù)量的擴(kuò)展能力。采用關(guān)系數(shù)據(jù)庫(kù) 管理數(shù)百個(gè)GB甚至到TB的數(shù)據(jù)已是一件平常的事情。(3)數(shù)據(jù)的表現(xiàn)數(shù)據(jù)表現(xiàn)是數(shù)據(jù)倉(cāng)庫(kù)的門(mén)面。它們主要集中在多維分析、數(shù)理統(tǒng) 計(jì)和數(shù)據(jù)挖掘方面。多維分析是數(shù)據(jù)倉(cāng)庫(kù)的重要表現(xiàn)形式,由于M0LAP系統(tǒng)是專用 的,因此,關(guān)于多維分析領(lǐng)域的工具和產(chǎn)品大多是R0LAP工具。這 些產(chǎn)品近兩年來(lái)更加注重提供基于Web的前端聯(lián)機(jī)分析界面,而不 僅僅是網(wǎng)上數(shù)據(jù)的發(fā)布。數(shù)理統(tǒng)計(jì)原本與數(shù)據(jù)倉(cāng)庫(kù)沒(méi)有直接的聯(lián)系,但在實(shí)際的應(yīng)用中, 客戶需要通過(guò)對(duì)數(shù)據(jù)的統(tǒng)計(jì)來(lái)驗(yàn)證他們對(duì)某些事物的假設(shè),以進(jìn)行 決策。與數(shù)理統(tǒng)計(jì)相似,數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)也沒(méi)

19、有直接的聯(lián)系。 而且這個(gè)概念在現(xiàn)實(shí)中有些含混。數(shù)據(jù)挖掘強(qiáng)調(diào)的不僅僅是驗(yàn)證人 們對(duì)數(shù)據(jù)特性的假設(shè),而且它更要主動(dòng)地尋找并發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)之 中的規(guī)律。這聽(tīng)起來(lái)雖然很吸引人,但在實(shí)現(xiàn)上卻有很大的出入。 市場(chǎng)上許多數(shù)據(jù)挖掘工具其實(shí)不過(guò)是數(shù)理統(tǒng)計(jì)的應(yīng)用。它們并不是 真正尋找出數(shù)據(jù)的規(guī)律,而是驗(yàn)證盡可能多的假設(shè),其中包括許多 亳無(wú)意義的組合,最后由人來(lái)判斷其合理性。因此,在當(dāng)前的數(shù)據(jù) 倉(cāng)庫(kù)應(yīng)用中,有效地利用數(shù)理統(tǒng)計(jì)就已經(jīng)能夠獲得可觀的效益。4.4. 開(kāi)發(fā)工具(1) Warehouse BuilderOracle數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)和建立工具Oracle Warehouse Builder (簡(jiǎn)稱OWB)將從前各自

20、分離的產(chǎn) 品提供的功能集成到一個(gè)公共的環(huán)境。這些功能包括:數(shù)據(jù)模型 構(gòu)造和設(shè)計(jì)、數(shù)據(jù)提取、移動(dòng)和裝載(ETT)、元數(shù)據(jù)管理、分析工 具的整合以及數(shù)據(jù)倉(cāng)庫(kù)的管理。OWB提供了一個(gè)框架將數(shù)據(jù)倉(cāng)庫(kù)的 各個(gè)部分包括關(guān)系數(shù)據(jù)庫(kù)服務(wù)器、多維數(shù)據(jù)庫(kù)服務(wù)器和前端分析 工具相結(jié)合,從而產(chǎn)生了一個(gè)緊密集成、全面的數(shù)據(jù)倉(cāng)庫(kù)。(2) Oracle ExpressOracle 的聯(lián)機(jī)分析處理(OLAP)工具Oracle Express系列OLAP產(chǎn)品為企業(yè)提供了將數(shù)據(jù)轉(zhuǎn)化為信息 的通用的數(shù)據(jù)分析平臺(tái)。(3) OracleExpress 服務(wù)器Oracle Express工具和應(yīng)用的強(qiáng)大功能來(lái)自O(shè)racle Expres

21、s Server,這是一個(gè)先進(jìn)的計(jì)算引擎和數(shù)據(jù)高速緩存。Oracle Express Server的多維數(shù)據(jù)模型擁有分析、預(yù)測(cè)、建模, 以及對(duì)數(shù)據(jù)進(jìn)行如果會(huì)怎么樣(what-if)詢問(wèn)等功能。(4) Oracle DiscovererOracle 即席查詢分析工具用戶對(duì)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中的大量數(shù)據(jù)的分析要求依賴于很多的 因素,包括從需要訪問(wèn)的數(shù)據(jù)的數(shù)量,到所進(jìn)行的查詢的復(fù)雜程度 等。這就要求數(shù)據(jù)倉(cāng)庫(kù)前端的數(shù)據(jù)查詢分析系統(tǒng)能夠滿足多種多樣 需求。許多的用戶希望使用具有圖形用戶界面的工具軟件,它們能 夠提供對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的交互查詢,生成圖形及表格式的報(bào)告的 功能。由于這類聯(lián)機(jī)分析處理(OLAP)工具直接基于數(shù)據(jù)倉(cāng)庫(kù)關(guān)系 型數(shù)據(jù)庫(kù)進(jìn)行分析,通常稱這類工具為ROLAP工具。Oracle Discoverer就是幫助用戶將數(shù)據(jù)轉(zhuǎn)化為信息的ROLAP工具。(5) Data Mining Op

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論