數(shù)據(jù)倉庫設計文檔模板_第1頁
數(shù)據(jù)倉庫設計文檔模板_第2頁
數(shù)據(jù)倉庫設計文檔模板_第3頁
數(shù)據(jù)倉庫設計文檔模板_第4頁
數(shù)據(jù)倉庫設計文檔模板_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)倉庫設計與實現(xiàn)128302106張丹平學號姓名成績教師二O一五年四月 數(shù)據(jù)倉庫建設方案設計與實現(xiàn)摘要:本文以博士學位調(diào)查為基礎,創(chuàng)建方案,設計與實現(xiàn)數(shù)據(jù)倉庫,通過對當前各種主流數(shù)據(jù)倉庫軟件在性能、價格等方面的對比,充分考慮統(tǒng)計業(yè)務、單位數(shù)量等實際情況,本系統(tǒng)決定采用SQLSeiver2005數(shù)據(jù)倉庫軟件來構建綜合信息分析系統(tǒng)的數(shù)據(jù)倉庫。關鍵詞:數(shù)據(jù)倉庫;聯(lián)機分析;數(shù)據(jù)挖掘;博士學位、概述數(shù)據(jù)倉庫的設計一般從操作型數(shù)據(jù)開始,通常需要經(jīng)過以下兒個處理過程;數(shù)據(jù)倉庫設計一一數(shù)據(jù)抽取一一數(shù)據(jù)管理。數(shù)據(jù)倉庫設計根據(jù)決策主題設計數(shù)據(jù)倉庫結構,一般采用星型和雪花模型設計其數(shù)據(jù)模型,在設計過程中應保證數(shù)據(jù)

2、倉庫的規(guī)范化和體系各元素的必要聯(lián)系。數(shù)據(jù)抽取根據(jù)元數(shù)據(jù)庫中的主題表定義、數(shù)據(jù)源定義、數(shù)據(jù)抽取規(guī)則定義對異地異構數(shù)據(jù)源進行清理、轉換、對數(shù)據(jù)進行重新組織和加工,裝載到數(shù)據(jù)倉庫的目標庫中。數(shù)據(jù)管理數(shù)據(jù)管理分為目標數(shù)據(jù)維護和元數(shù)據(jù)維護兩方面。目標數(shù)據(jù)維護是根據(jù)元數(shù)據(jù)為所定義的更新頻率、更新數(shù)據(jù)項等更新計劃任務來刷新數(shù)據(jù)倉庫,以反映數(shù)據(jù)源的變化,且對時間相關性進行處理。元數(shù)據(jù)是數(shù)據(jù)倉庫的組成部分,元數(shù)據(jù)的質(zhì)量決定整個數(shù)據(jù)倉庫的質(zhì)量。當數(shù)據(jù)源的運行環(huán)境、結構及目標數(shù)據(jù)的維護計劃發(fā)生變化時,需要修改元數(shù)據(jù)。二、博士學位授予信息年度數(shù)據(jù)統(tǒng)計分析1按主管部門統(tǒng)計從主管部門的角度,分析在一個時間段(年)內(nèi),各主

3、管部門所授予的博士學位信息統(tǒng)計??苫卮鹑纭?008,由某部門主管的,博士學位授予一共有多少,其平均學習年限是多少,脫產(chǎn)學習的有多少人?”等問題。具有表格和圖形兩種方式來展示分析結果。典型報表格式如表1所示系統(tǒng)體系結構設計表1200_年度授于博士學位情況統(tǒng)計表(按圭管部門統(tǒng)計)主言部門予人數(shù)其中學歷博士苴中同等學歷博士其中女平均年齡少數(shù)民族平均學習年限其中一圾學科授予在學期間成果論文成果專利合計中國科學院財政剖表2續(xù)200_年度授予博士學位情況統(tǒng)計表(按主管部門統(tǒng)計)學習方式錄取類別就業(yè)單位類別脫產(chǎn)半脫產(chǎn)業(yè)余定向非罡向機關科研、設計單位金融單位部隊待就業(yè)錄取研究生其他通過對當前各種主流數(shù)據(jù)倉庫軟

4、件在性能、價格等方面的對比,充分考慮統(tǒng)計業(yè)務、單位數(shù)量等實際情況,本系統(tǒng)決定采用SQLServer2005數(shù)據(jù)倉庫軟件來構建綜合信息分析系統(tǒng)的數(shù)據(jù)倉庫。本系統(tǒng)服務器端要求運行平臺為Windows2003Server企業(yè)版,客戶端要求WindowsXP,瀏覽器為IE6.0;采用SQLServer2005數(shù)據(jù)倉庫構建方案構建數(shù)據(jù)倉庫,選用VisualStudio.NET2003/SQLServer2005RosePowerDesigner等開發(fā)匸具進行系統(tǒng)開發(fā)。我們設計的綜合信息分析系統(tǒng)構架在統(tǒng)計綜合信息平臺中,其核心功能表現(xiàn)為通過數(shù)據(jù)轉換技術,將直報數(shù)據(jù)庫及其他數(shù)據(jù)源的數(shù)據(jù)庫生成利于進行分析的、

5、不同于關系數(shù)據(jù)庫的數(shù)據(jù)倉庫,根據(jù)不同的分析需求建立不同的專題分析數(shù)據(jù)庫(多維數(shù)據(jù)庫),最后對多維數(shù)據(jù)庫進行利用聯(lián)機分析處理、數(shù)據(jù)挖掘,其架構如圖所示。分析數(shù)據(jù)挖掘前瑞展示工具300操作型數(shù)據(jù)外部數(shù)據(jù)序數(shù)據(jù)源貝:他數(shù)據(jù)圖1學位授予信息統(tǒng)計系統(tǒng)架構在這個體系結構中,存放于系統(tǒng)數(shù)據(jù)庫中的業(yè)務數(shù)據(jù)及外部數(shù)據(jù)源數(shù)據(jù)按照主題通過ETL工具被抽取到ETL數(shù)據(jù)庫(數(shù)據(jù)準備區(qū)),數(shù)據(jù)在ETL數(shù)據(jù)庫中完成預處理工作(清洗和轉換),再通過ETL工具加載到數(shù)據(jù)倉庫。數(shù)據(jù)進入數(shù)據(jù)倉庫后按照維度和事實存放,釆用MSAnalysisServiees作為OLAP服務器,AnalysisServiees可以方便的定義維度和構建

6、OLAP立方體。用戶使用前端的查詢工具、報表工具、分析工具,就可以訪問決策支持系統(tǒng)并分析瀏覽數(shù)據(jù)了。由于數(shù)據(jù)預處理本身的復雜性,直接從外部數(shù)據(jù)源把數(shù)據(jù)整合到數(shù)據(jù)倉庫必將導致該過程即占用許多外部操作型數(shù)據(jù)庫的資源和時間,也會影響數(shù)據(jù)倉庫裝載數(shù)據(jù)的效率。借鑒算法研究中“以空間換時間”的思想,再結合目前硬件成本的下降,本系統(tǒng)中,我們在數(shù)據(jù)倉庫的體系結構中添加一個專門進行數(shù)據(jù)預處理的存儲區(qū)域以提高數(shù)據(jù)倉庫系統(tǒng)整體性能。系統(tǒng)數(shù)據(jù)邏輯結構設計1基礎層模型設計基礎層數(shù)據(jù)用于存放從學歷教育博士學位、同等學力人員申請t専士學位、博士專業(yè)學位、學歷教育碩士學位、同等學力人員申請碩士學位、碩士專業(yè)學位、普通高等教育

7、本科畢業(yè)生學士學位、成人高等教育本科畢業(yè)生學士學位、來華留學本科畢業(yè)生學士學位、學士專業(yè)學位等數(shù)據(jù)源ETL過來的數(shù)據(jù),這些業(yè)務數(shù)據(jù)將進行整合、組織、重構和存放。根據(jù)學位銀行授予統(tǒng)計系統(tǒng)需求,基礎層模型包含博士學位信息主題域、碩士學位信息主題域、學士學位信息主題域。博士學位授予信息是指主題域存放所授予的博士學位信息,分為學歷教育t専士學位、同等學力人員申請博士學位、t専士專業(yè)學位。主要的信息有:個人基本獲學位后去向信息信息、學科信息、學位信息、學位論文信息、前置學位信息、等。個人基本信息姓名姓名拼音性別碼國家或地區(qū)碼民族碼政治面貌碼岀生日期身份證件類型碼身份證件號碼學歷教肓博士學位授予信息個人基

8、本信息學科信息學位信息學位論文信息前置學位信息獲學位后去向信息其他信息其他信息照片文件名稱備注獲學位后去向信息去向碼就業(yè)單位性質(zhì)類J碼就業(yè)單位省市碼學位論文信息論文題目論文關鍵詞論文卿碼論文asw碼前置學位信息碩士學位授予信息是指主題域存放所授予的碩士學位信息,分為學歷教育碩士學位、同等學力人員申請碩士學位、碩士專業(yè)學位。主要的信息有:個人基本信息、學科信息、學位信息、學位論文信息、前置學位信息、獲學位后去向信息等。學士學位授予信息是指主題域存放所授予的學士學位信息,分為普通高等教育本科畢業(yè)生學士學位、成人高等教育本科畢業(yè)生學士學位、來華留學本科畢業(yè)生學士學位、學士專業(yè)學位。主要的信息有:個人

9、基本信息、學科信息、學位信息等。2匯總層模型設計匯總層模型的設計需要考慮匯總的粒度問題,匯總的粒度不同,能夠回答的業(yè)務問題也不一樣,由于系統(tǒng)數(shù)據(jù)龐大繁雜,學位授予時間相對比較固定,本模型將匯總層模型設計為年。該層的設計主要考慮數(shù)據(jù)向年度級別的匯總,解答如某年某主管單位所授予的博士學位人數(shù)等業(yè)務問題。根據(jù)博士學位信息授予主題的需求分析,即分析的角度(也叫維度)、指標、查詢的內(nèi)容,以t専士學位信息授予主題為例,其匯總層的數(shù)據(jù)模型如圖所示。授予學歷教肓博士學位情況統(tǒng)計表(按王管部門統(tǒng)計)PK千管部門其中學歷博士其中同等學歷博士其中專業(yè)學位博士其中女按予博士學位情淀充計表(按主管部門統(tǒng)計)歹IJ1平均

10、年齡少數(shù)民族平均學習年限其中一級學科授予在學期間成果(論文)期間成果減果)期間成果(專利)學習方式購產(chǎn))學習方式(半脫產(chǎn))學習方式C1E余)錄取類別徒向)錄取類別GE定向)就業(yè)單位炯CtJ咲)就業(yè)卑位獰IJ(邯隊)就業(yè)單位類待就業(yè))就業(yè)單位類保取硏究生)就業(yè)單位類J(其他)學歷教有博士學位授予1言息FK1個人基本信息學和言息學位信息學位論文信息前直學位信息、獲學位后去向信息其他信息王管部門圖3學歷教育博士學位授予信息匯總層模型3報表層模型設計報表層數(shù)據(jù)是用于存放學位授予信息統(tǒng)計系統(tǒng)中固定報表統(tǒng)計數(shù)據(jù),同時也是靈活查詢的數(shù)據(jù)源。這些數(shù)據(jù)是根據(jù)報表業(yè)務規(guī)則,從基礎層和匯總層統(tǒng)計而出,本模型主要包括

11、內(nèi)容有:授予傅士學位信息統(tǒng)計表、授予碩士學位信息統(tǒng)計表、授予學士學位信息統(tǒng)計表。以傅士學位信息統(tǒng)計主題為例,其傅士學位信息報表層的數(shù)據(jù)模型如圖所示。授予傅士學位情祝統(tǒng)計表(按主管部門統(tǒng)計)PK其中學歷博士其中同等學歷陣士其中專業(yè)學位博士其中女菽予胡士學位情況統(tǒng)計表(按王管郃門統(tǒng)計)列1平均年齡少數(shù)民族平均學習年限其中一級字科授予在學期間成果論文)卵間成果成果)期囘成杲傳利)學習方式(脫產(chǎn))學習方式(半脫產(chǎn))學歷斂育博士學位匯總(按王管部門統(tǒng)計)FK1王菅部門同等學力人員申請博士學位按王管部門統(tǒng)計)FK1主管部門圖4學歷教育博十學位授予信息(按主管部門統(tǒng)計)報表層模型五、數(shù)據(jù)倉庫模型設計為滿足決

12、策分析的需要,系統(tǒng)需要將各種數(shù)據(jù)源來的數(shù)據(jù)圍繞決策主題存儲到數(shù)據(jù)倉庫中,以提高數(shù)據(jù)查詢、聚集的效率。數(shù)據(jù)倉庫建模釆用自上而下的三級建模方式,即概念建模、邏輯建模、物理建模。概念建??刹捎眯畔⒋虬ǎ壿嫿R孕切徒7椒ê脱┗ń7椒橹?,物理建模以3NF和星型建模方式為主。圖5數(shù)據(jù)倉庫建模方法 在數(shù)據(jù)倉庫的3級數(shù)據(jù)模型中,概念模型表示現(xiàn)實世界的“業(yè)務信息”構成關系,用業(yè)務數(shù)據(jù)庫設計中的“實體一關系”方法(E-R方法)來設計這一級的數(shù)據(jù)模型,但需要用分析主題代替?zhèn)鹘y(tǒng)E-R方法中的實體。在傳統(tǒng)業(yè)務數(shù)據(jù)庫設計中的邏輯模型一般釆用范式規(guī)范的表及其關系,數(shù)據(jù)倉庫設計中的邏輯模型也采用表來存儲數(shù)據(jù),因此

13、也數(shù)據(jù)倉庫中使用的也是關系模型,不過表與表之間不再通過3大范式的規(guī)范,而是以星形結構、雪花形結構和星座型結構等方式組成。物理模型則屬于這些表的物理存儲結構,比如表的索引設計等。數(shù)據(jù)倉庫的設計就是在概念模型、邏輯模型和物理模型的依次轉換過程中實現(xiàn)的。作為數(shù)據(jù)倉庫的靈魂一一元數(shù)據(jù)模型則自始至終伴隨著數(shù)據(jù)倉庫的開發(fā)、實施與使用。數(shù)據(jù)粒度和聚合模型也在數(shù)據(jù)倉庫的創(chuàng)建中發(fā)揮著指導的作用,指導著數(shù)據(jù)倉庫的具體實現(xiàn)。圖4表達了微觀數(shù)據(jù)倉庫設計中各種概念之間的關系。圖6微觀數(shù)據(jù)倉庫設計中各種概念之間的關系1概念模型設計概念建模主要表達決策的主題、分析主題的角度、各個角度需要分析的屬性信息,決策中層次的信息一粒

14、度,及決策主題的評估等。1997年Hammergren提出的信息打包方法,要求從一個決策者的角度去將焦點集中在兒個主題上,著重分析所涉及的數(shù)據(jù)多維性。信息打包方法首先需要確定分析的主題,然后圍繞這個主題填入指標、維度、粒度等信息。1定義關鍵性指標:定義分析主題的評估指標;定義維度:維度是用戶訪問評估信息的途徑,每一個維度只表示一個主要的訪問途徑。定義粒度:粒度是維度中信息的詳細程度。2邏輯模型設計概念邏輯建模中將分析模型描述成一個可以實現(xiàn)的模式,根據(jù)這個模式可以實現(xiàn)存儲到實際的數(shù)據(jù)存儲器里。星型模型比較適合數(shù)據(jù)倉庫的要求,在星型模型的基礎上擴展出雪花模型。a、星型模型星型模型中使用事實、維、維

15、屬性、事實度量來描述。星型模型以事實為中心,各個維為角的星型結構,事實使用度量來評估,維中使用屬性來描述維中的類別信息和描述信息。b、雪花模型雪花模型是在星型模型的基礎上增加了粒度層次的描述。根據(jù)以上對星型模型中維我們分析對象為對學位授予信息的統(tǒng)計分析。下面以瞎士學位授予信息統(tǒng)計作為分析主題為例,為學位信息分析系統(tǒng)數(shù)據(jù)倉庫建立概念模型。屬性的分析可知,同一種星型模型可以轉化成不同的雪花模型,轉的根據(jù)是屬性層次的確定。不同的屬性層次結構可以展現(xiàn)成不同的雪花圖。c、邏輯模型中聚集操作的需求和表示為加快分析速度,可以將分析頻繁的層次預先進行聚集操作,即將信息按照屬性粒度層次來進行聚集,當需要進一步分

16、析時再到原有的基本信息中進行搜索。本系統(tǒng)采用的是星型模型。六、數(shù)據(jù)預處理過程模型設計建立數(shù)據(jù)倉庫不僅僅要考慮到聯(lián)機分析(OLAP)的需要,更重要的是要考慮到數(shù)據(jù)挖掘的需要。由于數(shù)據(jù)倉庫中的數(shù)據(jù)量可能以兒何級數(shù)迅速增長,這就導致數(shù)據(jù)倉庫中常常包含許多含有噪聲、不完整、英至不一致的數(shù)據(jù),這嚴重影響數(shù)據(jù)處理的效率和效果,影響決策者的決策。目前數(shù)據(jù)挖掘的研究主要著眼于數(shù)據(jù)挖掘算法的探討,而忽視了對數(shù)據(jù)預處理的研究。但事實上,數(shù)據(jù)挖掘中的預處理工作量常常占到整個數(shù)據(jù)挖掘工作量的60%左右,可見數(shù)據(jù)預處理工作是相當基礎和重要的步驟。在本系統(tǒng)的構建中,釆用了如下數(shù)據(jù)預處理策略。1.系統(tǒng)ETL結構設計本系統(tǒng)數(shù)

17、據(jù)分為業(yè)務基礎數(shù)據(jù)模型層、匯總數(shù)據(jù)模型層、報表層和參數(shù)層。如圖所示。博士學位授予信息碩士學位授予信息學士學位授予信息(I)各度總按角匯參數(shù)層圖8ETL數(shù)據(jù)架構設計2將數(shù)據(jù)預處理集成在數(shù)據(jù)倉庫構建過程中基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘一般的步驟是:建立數(shù)據(jù)倉庫一進行數(shù)據(jù)預處理一數(shù)據(jù)挖掘。實際上,數(shù)據(jù)預處理完全可以在構建數(shù)據(jù)倉庫的同時進行??梢詫?shù)據(jù)預處理融人數(shù)據(jù)倉庫的構建過程中,并將數(shù)據(jù)倉庫的構建作為數(shù)據(jù)挖掘的一個重要預處理步驟,將兩者有機結合起來。下圖說明了基于數(shù)據(jù)倉庫的數(shù)據(jù)預處理過程模型。構建數(shù)據(jù)倉庫過程圖9數(shù)據(jù)預處理過程模型數(shù)據(jù)預處理過程 七、學位授予信息分析應用系統(tǒng)的實現(xiàn)1創(chuàng)建數(shù)據(jù)倉庫當數(shù)據(jù)倉庫完

18、成物理模型設計以后,就需要進行數(shù)據(jù)倉庫的物理創(chuàng)建。此時,需要完成這樣一些工作:創(chuàng)建數(shù)據(jù)準備區(qū)、創(chuàng)建數(shù)據(jù)倉庫、從業(yè)務系統(tǒng)提取數(shù)據(jù)、清理和轉換數(shù)據(jù)、將數(shù)據(jù)加載進入數(shù)據(jù)倉庫。在創(chuàng)建了數(shù)據(jù)倉庫后,用SQL查詢、OLAP應用、數(shù)據(jù)挖掘等工具對數(shù)據(jù)倉庫進行操作和訪問。用戶企業(yè)現(xiàn)行業(yè)務處理系統(tǒng)的數(shù)據(jù)大部分存儲在SQLServer數(shù)據(jù)庫中,這也為我們選用SQLServer數(shù)據(jù)倉庫開發(fā)應用工具提供了便利。學位信息授予統(tǒng)計系統(tǒng)構建于現(xiàn)有業(yè)務系統(tǒng)的數(shù)據(jù)基礎之上,通過對大量數(shù)據(jù)進行抽取、清洗、轉換、整理,將這些歷史數(shù)據(jù)按照決策者的意圖從不同角度(維度)層層展現(xiàn)開來,以達到經(jīng)營分析決策的最終目的。建立起數(shù)據(jù)倉庫,就能對所存儲的多維數(shù)據(jù)開展OLAP分析和數(shù)據(jù)挖掘工作,得到所需要的分析結果。按照實施的層次從總體上規(guī)劃應用是以整合的數(shù)據(jù)為基礎,提供了多維分析,專題分析和固定報表,具體應用功能列表如下表分析主題分析角度分析描述號士學位授按主管部門統(tǒng)計、按性質(zhì)各角度統(tǒng)計授予人數(shù)、其中學歷博士、其中同子信息統(tǒng)計類別統(tǒng)計、按地區(qū)統(tǒng)計、等學仿溥士、其中專業(yè)學付博士、平均年齡、按單位統(tǒng)計、按學科門類少數(shù)民族、平均學習年限、其中一級學科授予統(tǒng)計、按一級學科統(tǒng)計、在學期間成果、學習方式、錄取類別、就按二級學科統(tǒng)計業(yè)單位類別等C碩士學位授按主管部門統(tǒng)計、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論