版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫建模類型、過程和工具 數(shù)據(jù)倉庫建模概述數(shù)據(jù)倉庫建模類型數(shù)據(jù)倉庫建模過程數(shù)據(jù)倉庫建模工具內(nèi)容數(shù)據(jù)倉庫建模概述引言數(shù)據(jù)模型、數(shù)據(jù)倉庫模型數(shù)據(jù)建模及模型架構(gòu)數(shù)據(jù)倉庫建模特點(diǎn)數(shù)據(jù)模型作用數(shù)據(jù)倉庫解決方案數(shù)據(jù)倉庫數(shù)據(jù)處理流程ETL服務(wù)器數(shù)據(jù)清洗轉(zhuǎn)換加載文本文件登記稽核征收其他數(shù)據(jù)源面向業(yè)務(wù)應(yīng)用最終用戶稅務(wù)邏輯數(shù)據(jù)模型面向關(guān)鍵主題域3NF接口數(shù)據(jù)應(yīng)用數(shù)據(jù)匯總數(shù)據(jù)、加工數(shù)據(jù)臨時(shí)數(shù)據(jù)區(qū)保留源系統(tǒng)數(shù)據(jù)數(shù)據(jù)倉庫OLAP應(yīng)用物理數(shù)據(jù)集市其他應(yīng)用數(shù)據(jù)接口數(shù)據(jù)模型(Data Model)數(shù)據(jù)是所有業(yè)務(wù)活動(dòng)、資源以及企業(yè)結(jié)果的記錄。數(shù)據(jù)模型是一種運(yùn)用一般業(yè)務(wù)知識(shí)來表現(xiàn)業(yè)務(wù)需求的一種數(shù)據(jù)結(jié)構(gòu)規(guī)則數(shù)據(jù)模型通過抽象的實(shí)
2、體及實(shí)體之間聯(lián)系的形式,來表示現(xiàn)實(shí)世界中事務(wù)的相互關(guān)系的一種映射。Student IDStudent Last NameStudent First NameStudent Dormitory Student Major學(xué)生Course IDCourse TitleCourse Number of CreditsCourse Location Course Instructor Name課程參與/授課給數(shù)據(jù)倉庫模型(Data Warehouse Model)數(shù)據(jù)倉庫模型是數(shù)據(jù)模型中針對特定的數(shù)據(jù)倉庫應(yīng)用系統(tǒng)的一種特定的數(shù)據(jù)模型數(shù)據(jù)倉庫模型起到了指導(dǎo)或計(jì)劃數(shù)據(jù)倉庫實(shí)現(xiàn)的作用。在真正的實(shí)現(xiàn)開始之前,
3、聯(lián)合每個(gè)業(yè)務(wù)領(lǐng)域的數(shù)據(jù)模型可以幫助確保其結(jié)果是有效的數(shù)據(jù)倉庫,并且可以幫助減少實(shí)現(xiàn)的成本。不同層次模型間的關(guān)系數(shù)據(jù)建模(Data Modeling)建模是將實(shí)際問題簡化、抽象為合理的數(shù)學(xué)結(jié)構(gòu)的過程建模是一個(gè)系統(tǒng)工程,不是幾天或者是幾周就能夠完成的,任何一個(gè)模塊都可能需要幾個(gè)月的時(shí)間來建設(shè)建模的方法和技巧很多,都是為業(yè)務(wù)需求服務(wù)的業(yè)務(wù)+技術(shù)才能完成建模過程數(shù)據(jù)倉庫數(shù)據(jù)模型架構(gòu)業(yè)務(wù)數(shù)據(jù)存儲(chǔ)區(qū),數(shù)據(jù)模型在這里保證了數(shù)據(jù)的一致性內(nèi)部管理的元數(shù)據(jù),數(shù)據(jù)模型幫助進(jìn)行統(tǒng)一的元數(shù)據(jù)的管理系統(tǒng)記錄域的匯總,數(shù)據(jù)模型保證了分析域的主題分析的性能,滿足了部分的報(bào)表查詢。具體的主題業(yè)務(wù)分析,數(shù)據(jù)模型可以單獨(dú)存儲(chǔ)在相應(yīng)
4、的數(shù)據(jù)集市中??蛇x項(xiàng),這部分?jǐn)?shù)據(jù)模型主要用于相應(yīng)前端的反饋數(shù)據(jù),數(shù)據(jù)倉庫可以視業(yè)務(wù)的需要設(shè)置這一區(qū)域數(shù)據(jù)倉庫建模特點(diǎn)數(shù)據(jù)倉庫是面向終端用戶的在數(shù)據(jù)庫操作中,用戶不直接與數(shù)據(jù)庫進(jìn)行交互。他們使用應(yīng)用程序,這些應(yīng)用程序具有預(yù)先定義的或固定的查詢。數(shù)據(jù)倉庫的數(shù)據(jù)庫特別是數(shù)據(jù)集市與終端用戶非常接近,它通常不具有固定的查詢。因此,它必須更易于理解。數(shù)據(jù)倉庫是為數(shù)據(jù)分析而設(shè)計(jì)的終端用戶幾乎直接處理數(shù)據(jù),而且沒有固定的工作流。終端用戶對在倉庫中記錄數(shù)據(jù)不感興趣,但他們需要從中獲得信息。他們向倉庫提出問題,通過所提取的信息測試并驗(yàn)證假設(shè),重新構(gòu)造事件鏈,分析那些事件以檢測可能的模式或季節(jié)性的趨勢,以及為將來做
5、出推斷和設(shè)計(jì)終端用戶的需求可能是模糊或不完整的這些不完整的需求需要靈活的建模過程和適合于進(jìn)化開發(fā)的技術(shù)。靈活的進(jìn)化軟件開發(fā)的風(fēng)險(xiǎn)是不連貫和不一致的終端結(jié)果。在開發(fā)數(shù)據(jù)模型時(shí),肯定需要注意這些問題。數(shù)據(jù)倉庫建模特點(diǎn)(續(xù))數(shù)據(jù)倉庫是集成的數(shù)據(jù)庫集合,而非單個(gè)數(shù)據(jù)庫應(yīng)將它構(gòu)想為單個(gè)信息源,用于整個(gè)企業(yè)中所有的決策支持處理和所有的信息應(yīng)用程序。數(shù)據(jù)倉庫是一個(gè)“有機(jī)”物,如果在開始時(shí)還不夠大,就還會(huì)趨于變大。數(shù)據(jù)倉庫包含屬于不同信息主題領(lǐng)域的數(shù)據(jù)這些主題領(lǐng)域可以是將數(shù)據(jù)倉庫邏輯劃分成幾個(gè)不同(概念的,甚至或者是物理的)數(shù)據(jù)庫的基礎(chǔ)。數(shù)據(jù)倉庫還可以包含不同類別的數(shù)據(jù)。 數(shù)據(jù)倉庫通常包含歷史數(shù)據(jù),而不是日常
6、操作數(shù)據(jù)的快照必要的遺留數(shù)據(jù)庫可能不可用,或者可能無法在足夠細(xì)的層次上捕獲,除非花費(fèi)金錢并付出努力來改變遺留輸入環(huán)境。因此,數(shù)據(jù)倉庫啟用項(xiàng)目通常涉及業(yè)務(wù)過程和源應(yīng)用程序的重組數(shù)據(jù)模型的作用進(jìn)行全面的業(yè)務(wù)梳理,改進(jìn)業(yè)務(wù)流程在業(yè)務(wù)模型建設(shè)的階段,能夠幫助我們對本單位的業(yè)務(wù)進(jìn)行全面的梳理。同時(shí),幫助進(jìn)一步的改進(jìn)業(yè)務(wù)流程,提高業(yè)務(wù)效率。建立全方位的數(shù)據(jù)視角,消滅信息孤島和數(shù)據(jù)差異能夠?yàn)槠髽I(yè)提供一個(gè)整體的數(shù)據(jù)視角,不再是各個(gè)部門只是關(guān)注自己的數(shù)據(jù),而且通過模型的建設(shè),勾勒出了部門之間內(nèi)在的聯(lián)系,幫助消滅各個(gè)部門之間的信息孤島的問題,更為重要的是,通過數(shù)據(jù)模型的建設(shè),能夠保證整個(gè)企業(yè)的數(shù)據(jù)的一致性,各個(gè)部
7、門之間數(shù)據(jù)的差異將會(huì)得到有效解決。 解決業(yè)務(wù)的變動(dòng)和數(shù)據(jù)倉庫的靈活性能夠很好的分離出底層技術(shù)的實(shí)現(xiàn)和上層業(yè)務(wù)的展現(xiàn)。當(dāng)上層業(yè)務(wù)發(fā)生變化時(shí),通過數(shù)據(jù)模型,底層的技術(shù)實(shí)現(xiàn)可以非常輕松的完成業(yè)務(wù)的變動(dòng)。幫助數(shù)據(jù)倉庫系統(tǒng)本身的建設(shè)開發(fā)人員和業(yè)務(wù)人員能夠很容易的達(dá)成系統(tǒng)建設(shè)范圍的界定,以及長期目標(biāo)的規(guī)劃,從而能夠使整個(gè)項(xiàng)目組明確當(dāng)前的任務(wù),加快整個(gè)系統(tǒng)建設(shè)的速度。 數(shù)據(jù)模型的必要性與重要性數(shù)據(jù)倉庫的基礎(chǔ)建設(shè)的導(dǎo)航圖數(shù)據(jù)整合的依據(jù)消除數(shù)據(jù)的差異及冗余支撐業(yè)務(wù)及數(shù)據(jù)的擴(kuò)展數(shù)據(jù)模型是數(shù)據(jù)倉庫建設(shè)的基礎(chǔ),一個(gè)完整、靈活、穩(wěn)定的數(shù)據(jù)模型對于數(shù)據(jù)倉庫項(xiàng)目的成功起著重要的作用。數(shù)據(jù)模型是整個(gè)系統(tǒng)建設(shè)過程的導(dǎo)航圖。通過
8、數(shù)據(jù)模型可以清楚地表達(dá)企業(yè)內(nèi)部各種業(yè)務(wù)主體之間的相關(guān)性,使不同部門的業(yè)務(wù)人員、應(yīng)用開發(fā)人員和系統(tǒng)管理人員獲得關(guān)于系統(tǒng)的統(tǒng)一完整的視圖。數(shù)據(jù)模型是整合各種數(shù)據(jù)源的重要手段,通過數(shù)據(jù)模型,可以建立起各個(gè)業(yè)務(wù)系統(tǒng)與數(shù)據(jù)倉庫之間的映射關(guān)系,實(shí)現(xiàn)源數(shù)據(jù)的有效采集通過數(shù)據(jù)模型的建立,可以排除數(shù)據(jù)描述的不一致性。如:同名異義、同物異名,等等??梢韵龜?shù)據(jù)倉庫中的冗余數(shù)據(jù)。數(shù)據(jù)模型的建立可以使開發(fā)人員清楚地了解數(shù)據(jù)之間的關(guān)系,以及數(shù)據(jù)的作用。由于數(shù)據(jù)模型對現(xiàn)有的信息以及信息之間的關(guān)系從邏輯層進(jìn)行了全面的描述,當(dāng)未來業(yè)務(wù)發(fā)生變化或系統(tǒng)需求發(fā)生變化時(shí),可以很容易地實(shí)現(xiàn)系統(tǒng)的擴(kuò)展。數(shù)據(jù)結(jié)構(gòu)的變化不會(huì)偏離原有的設(shè)計(jì)思
9、想??偨Y(jié)什么是數(shù)據(jù)模型、數(shù)據(jù)倉庫模型數(shù)據(jù)建模的定義和數(shù)據(jù)模型架構(gòu)數(shù)據(jù)倉庫建模的特點(diǎn)數(shù)據(jù)模型的作用數(shù)據(jù)倉庫建模概述數(shù)據(jù)倉庫建模類型數(shù)據(jù)倉庫建模過程數(shù)據(jù)倉庫建模工具內(nèi)容數(shù)據(jù)倉庫建模類型常用的數(shù)據(jù)倉庫架構(gòu)類型基于不同數(shù)據(jù)倉庫架構(gòu)下的數(shù)據(jù)倉庫建模數(shù)據(jù)倉庫模型分類常用的數(shù)據(jù)倉庫架構(gòu)類型三范式的原子層數(shù)據(jù)集市(Bill Inmon)星型結(jié)構(gòu)的原子層HOLAP(Kimball)三范式的原子層ROLAP三范式的原子層數(shù)據(jù)集市三范式原子層數(shù)據(jù)集市特點(diǎn)通過“面向主題”表示應(yīng)該圍繞主題來組織數(shù)據(jù)倉庫中的數(shù)據(jù),例如客戶、供應(yīng)商、產(chǎn)品等等。每個(gè)主題區(qū)域僅僅包含該主題相關(guān)的信息。數(shù)據(jù)倉庫應(yīng)該一次增加一個(gè)主題,并且當(dāng)需要容
10、易地訪問多個(gè)主題時(shí),應(yīng)該創(chuàng)建以數(shù)據(jù)倉庫為來源的數(shù)據(jù)集市。換言之,某個(gè)特定數(shù)據(jù)集市中的所有數(shù)據(jù)都應(yīng)該來自于面向主題的數(shù)據(jù)存儲(chǔ)。 集中式的體系結(jié)構(gòu)持續(xù)下去將提供更強(qiáng)的一致性和靈活性,并且從長遠(yuǎn)來看將真正節(jié)省資源和工作。 三范式的原子層給建立OLAP帶來一定的復(fù)雜性,但是對于建立更復(fù)雜的應(yīng)用,如挖掘倉庫、探索倉庫提供了更好的支持。這類架構(gòu)的建設(shè)周期比較長,相應(yīng)的成本也比較高。星型結(jié)構(gòu)的原子層HOLAP星型結(jié)構(gòu)的原子層HOLAP特點(diǎn)實(shí)現(xiàn)方式:首先在數(shù)據(jù)準(zhǔn)備區(qū)中建立一致性維度、建立一致性事實(shí)的計(jì)算方法;其次在一致性維度、一致性事實(shí)的基礎(chǔ)上逐步建立數(shù)據(jù)集市。每次增加數(shù)據(jù)集市,都會(huì)在數(shù)據(jù)準(zhǔn)備區(qū)整合一致性維度
11、,并將整合好的一致性維度同步更新到所有的數(shù)據(jù)集市。這樣,建立的所有數(shù)據(jù)集市合在一起就是一個(gè)整合好的數(shù)據(jù)倉庫因?yàn)樵摷軜?gòu)可以逐步建立的特點(diǎn),它的開發(fā)周期比其他架構(gòu)方式的開發(fā)周期要短,相應(yīng)的成本也要低在星型結(jié)構(gòu)的原子層上可以直接建立聚集,也可以建立HOLAP三范式原子層ROLAP該數(shù)據(jù)倉庫架構(gòu)也稱為集中式架構(gòu)(Centralized Architecture),思路是在三范式的原子層上直接建立ROLAP。在三范式的原子層上定義ROLAP比在星型結(jié)構(gòu)的原子層上定義ROLAP要復(fù)雜很多。采用這種架構(gòu)需要在定義ROLAP是多下些功夫,而且ROLAP的元數(shù)據(jù)不一定是通用的格式,所以對ROLAP做展現(xiàn)很可能會(huì)
12、受到工具的局限。這類架構(gòu)和第一類很相似,只是少了原子層上的數(shù)據(jù)集市選擇合適的數(shù)據(jù)倉庫架構(gòu)實(shí)際上,方法的選擇取決于項(xiàng)目的主要商業(yè)驅(qū)動(dòng)。如果某個(gè)企業(yè)或者組織數(shù)據(jù)管理不理想,或者希望為今后打下良好的基礎(chǔ),那么第一種或者第三種方法就更好一些。如果迫切需要給用戶提供信息,那么第二種方法將滿足該需求。而一旦滿足了迫切的信息需求后,就應(yīng)該考慮包含獨(dú)立數(shù)據(jù)倉庫的數(shù)據(jù)體系結(jié)構(gòu)的轉(zhuǎn)換計(jì)劃??偨Y(jié)三種常用的數(shù)據(jù)倉庫架構(gòu)各自的特點(diǎn)及優(yōu)缺點(diǎn)基于不同數(shù)據(jù)倉庫架構(gòu)下的數(shù)據(jù)倉庫建模三范式建模(Inmon)星型結(jié)構(gòu)建模( Kimball )數(shù)據(jù)準(zhǔn)備區(qū)建模三范式建模( Inmon )高層建模(ERD,實(shí)體關(guān)系層)中間層建模(DIS
13、,數(shù)據(jù)項(xiàng)集)底層模型(物理模型)高層建模實(shí)體和關(guān)系實(shí)體:人,地點(diǎn),物,事件以及任何包含業(yè)務(wù)活動(dòng)數(shù)據(jù)的概念。關(guān)系:兩實(shí)體間關(guān)聯(lián)性的表示集成范圍決定哪些實(shí)體屬于模型的范圍,由系統(tǒng)的建模者、管理人員和最終用戶共同決定集成范圍企業(yè)ERD由很多反映了整個(gè)企業(yè)不同人員的不同觀點(diǎn)的單個(gè)的ERD合成的中間層建模高層模型中的每個(gè)實(shí)體,都要建一個(gè)中間層模型四個(gè)基本構(gòu)造初始數(shù)據(jù)組二次數(shù)據(jù)組連接件,表明主要主題域間的數(shù)據(jù)關(guān)系數(shù)據(jù)“類型”中間層建模示例金融機(jī)構(gòu)賬戶底層模型根據(jù)中間層模型創(chuàng)建考慮性能特性數(shù)據(jù)粒度與分割歸并表選擇冗余進(jìn)一步分離數(shù)據(jù)導(dǎo)出數(shù)據(jù)預(yù)格式化,預(yù)分配人工關(guān)系預(yù)連接表三范式建模優(yōu)缺點(diǎn)優(yōu)點(diǎn)從關(guān)系型數(shù)據(jù)庫的角
14、度出發(fā),結(jié)合了業(yè)務(wù)系統(tǒng)的數(shù)據(jù)模型,能夠比較方便的實(shí)現(xiàn)數(shù)據(jù)倉庫的建模。缺點(diǎn)建模方法限定在關(guān)系型數(shù)據(jù)庫之上,在某些時(shí)候反而限制了整個(gè)數(shù)據(jù)倉庫模型的靈活性,性能等,特別是考慮到數(shù)據(jù)倉庫的底層數(shù)據(jù)向數(shù)據(jù)集市的數(shù)據(jù)進(jìn)行匯總時(shí),需要進(jìn)行一定的變通才能滿足相應(yīng)的需求。星型結(jié)構(gòu)建模( Kimball )核心:所分析的內(nèi)容以及用于分析內(nèi)容的評(píng)估標(biāo)準(zhǔn)測度、維和事實(shí)測度,即評(píng)估標(biāo)準(zhǔn),是事實(shí)的數(shù)字屬性維,即所分析的內(nèi)容,是事實(shí)的描述屬性事實(shí),一組維度及其相關(guān)的測度共同組成星型結(jié)構(gòu)示例星型結(jié)構(gòu)建模優(yōu)缺點(diǎn)優(yōu)點(diǎn)性能優(yōu)勢維度建模非常直觀,緊緊圍繞著業(yè)務(wù)模型,可以直觀的反映出業(yè)務(wù)模型中的業(yè)務(wù)問題。缺點(diǎn)數(shù)據(jù)處理工作較大較多的數(shù)據(jù)
15、冗余不能保證數(shù)據(jù)來源的一致性和準(zhǔn)確性數(shù)據(jù)準(zhǔn)備區(qū)建模建模的方式不拘一格,以能滿足需要為目的,建好的表不對用戶提供接口,多為臨時(shí)表。主要使用人員為ETL工程師 數(shù)據(jù)倉庫模型分類OLAP模型(多維建模)星型/雪花結(jié)構(gòu)模型(分析模型)底層模型(原子模型)總結(jié)三種常用的建模方法實(shí)現(xiàn)過程和優(yōu)缺點(diǎn)數(shù)據(jù)倉庫模型分類數(shù)據(jù)倉庫建模概述數(shù)據(jù)倉庫建模類型數(shù)據(jù)倉庫建模過程數(shù)據(jù)倉庫建模工具內(nèi)容數(shù)據(jù)倉庫建模過程底層模型設(shè)計(jì)分析模型設(shè)計(jì)OLAP模型設(shè)計(jì)底層模型設(shè)計(jì)數(shù)據(jù)倉庫建模方法論底層模型設(shè)計(jì)過程數(shù)據(jù)倉庫建模方法論數(shù)據(jù)倉庫三級(jí)數(shù)據(jù)模型數(shù)據(jù)倉庫建模方法論數(shù)據(jù)倉庫概念模型建模方法數(shù)據(jù)倉庫數(shù)據(jù)模型生命周期數(shù)據(jù)倉庫三級(jí)數(shù)據(jù)模型將高級(jí)
16、的業(yè)務(wù)概念以數(shù)據(jù)實(shí)體/屬性的形態(tài)在邏輯層面上更詳細(xì)的表達(dá)出來,邏輯模型對每個(gè)概念模型中所包含的具體實(shí)體和實(shí)體的屬性進(jìn)行定義,邏輯模型通過主題域中的實(shí)體和屬性來反映即業(yè)務(wù)模型,可以清晰的描述業(yè)務(wù)邏輯及其之間的關(guān)系,為邏輯模型的設(shè)計(jì)奠定基礎(chǔ),概念模型應(yīng)該能夠涵蓋項(xiàng)目所定義的目標(biāo)范圍內(nèi)的所有數(shù)據(jù),概念模型通過主題域的形式反映。在邏輯模型的基礎(chǔ)上,根據(jù)具體項(xiàng)目的軟硬件環(huán)境、數(shù)據(jù)狀況等進(jìn)行優(yōu)化和設(shè)置后的模型,是最終定型的物理模型。概念模型邏輯模型物理模型數(shù)據(jù)倉庫概念模型建模方法數(shù)據(jù)源分析,了解每個(gè)數(shù)據(jù)源的建設(shè)目標(biāo)和定位,關(guān)鍵的業(yè)務(wù)流程及包含的數(shù)據(jù)元素;數(shù)據(jù)實(shí)體之間的關(guān)聯(lián)關(guān)系;分析樣本數(shù)據(jù),驗(yàn)證業(yè)務(wù)規(guī)則;
17、對數(shù)據(jù)內(nèi)容和業(yè)務(wù)概念模型進(jìn)行映射,驗(yàn)證概念模型。了解企業(yè)經(jīng)營管理中的主要活動(dòng),建立其活動(dòng)列表,描述業(yè)務(wù)規(guī)則;尋找活動(dòng)中的重要元素并定義;訪談業(yè)務(wù)部門,與相關(guān)人員驗(yàn)證這些活動(dòng);歸納初步的業(yè)務(wù)概念,產(chǎn)生業(yè)務(wù)概念的清單;定義概念并將他們關(guān)聯(lián)在一起;分析業(yè)務(wù)需求,驗(yàn)證業(yè)務(wù)概念模型。自頂向下自底向上數(shù)據(jù)倉庫數(shù)據(jù)模型生命周期數(shù)據(jù)倉庫業(yè)務(wù)需求概念數(shù)據(jù)模型邏輯數(shù)據(jù)模型物理數(shù)據(jù)模型部署數(shù)據(jù)倉庫數(shù)據(jù)倉庫模型總結(jié)數(shù)據(jù)倉庫三級(jí)數(shù)據(jù)模型數(shù)據(jù)倉庫建模方法論數(shù)據(jù)倉庫概念模型建模方法數(shù)據(jù)倉庫數(shù)據(jù)模型生命周期底層模型設(shè)計(jì)數(shù)據(jù)倉庫建模方法論底層模型設(shè)計(jì)過程底層模型的特征是分析模型的數(shù)據(jù)源基于三范式構(gòu)建建設(shè)過程需要相關(guān)業(yè)務(wù)人員全程
18、參與分析設(shè)計(jì)工作量非常大需要對整個(gè)業(yè)務(wù)內(nèi)容重新抽象和模型化為滿足業(yè)務(wù)需求(非交易)而設(shè)計(jì)不是為解決所有的業(yè)務(wù)問題而設(shè)計(jì)的,能夠滿足最需要最常用的80%以上的需求就非常不錯(cuò)了是一個(gè)迭代開發(fā)過程底層模型設(shè)計(jì)步驟需要非常清楚的了解整個(gè)業(yè)務(wù)領(lǐng)域的時(shí)間、地域、對象、事件通過研究行業(yè)規(guī)范、學(xué)習(xí)行業(yè)先進(jìn)經(jīng)驗(yàn)、走訪管理人員、與目標(biāo)用戶討論,實(shí)地參觀學(xué)習(xí)等去發(fā)現(xiàn)和收集概念模型;需要發(fā)現(xiàn)并收集所要涉及或者說涵蓋的領(lǐng)域下可能出現(xiàn)的實(shí)體,就是整個(gè)稅收征管體系中需要用到的概念事物對一堆堆繁雜無章的概念進(jìn)行整理分組,該合并的合并,該舍棄的舍棄,發(fā)現(xiàn)和抽象出來幾個(gè)核心概念出來然后將其他的概念和這些核心概念靠攏,并爭取能夠劃
19、清結(jié)線,并結(jié)合現(xiàn)實(shí)世界,分析概念劃分和抽取的合理性發(fā)現(xiàn)并描述組內(nèi)概念之間的依賴關(guān)系抽象出業(yè)務(wù)模型,定義實(shí)體、實(shí)體屬性及實(shí)體間的關(guān)系需要去考慮實(shí)體的生命周期,每個(gè)實(shí)體的由何而生,又由何而止的生命周期進(jìn)行描述。并通過對生命周期的描述,修正你上面一個(gè)步驟分析出來的關(guān)系信息設(shè)計(jì)概念模型概念模型是所有業(yè)務(wù)主題領(lǐng)域以及業(yè)務(wù)的公共數(shù)據(jù)元素的一致性定義 主要工作如下:抽取關(guān)鍵業(yè)務(wù)概念,并將之抽象化。 將業(yè)務(wù)概念分組,按照業(yè)務(wù)主線聚合類似的分組概念。 細(xì)化分組概念,理清分組概念內(nèi)的業(yè)務(wù)流程并抽象化。 理清分組概念之間的關(guān)聯(lián),形成完整的主題概念模型。概念模型設(shè)計(jì)示例項(xiàng)目目標(biāo)某基金公司需要建設(shè)一個(gè)投資數(shù)據(jù)平臺(tái),整合
20、天相、wind、財(cái)華、北方之星、金手指等系統(tǒng)的數(shù)據(jù),為股票投資分析提供數(shù)據(jù)服務(wù)實(shí)現(xiàn)過程概念模型設(shè)計(jì)目標(biāo)定義活動(dòng)及業(yè)務(wù)規(guī)則列表重要元素的歸納和關(guān)系業(yè)務(wù)概念歸納概念模型驗(yàn)證業(yè)務(wù)人員訪談數(shù)據(jù)映射驗(yàn)證目標(biāo)定義 項(xiàng)目目標(biāo)定義為建設(shè)一個(gè)投資數(shù)據(jù)平臺(tái) ,因此概念模型的設(shè)計(jì)以“投資”為主題活動(dòng)及業(yè)務(wù)規(guī)則列表基金公司發(fā)行基金產(chǎn)品,通過銀行、證券公司等渠道推向市場,允許投資者進(jìn)行買賣;一個(gè)基金公司可以發(fā)行多個(gè)基金產(chǎn)品,每個(gè)基金產(chǎn)品至少有一個(gè)基金經(jīng)理來管理;基金產(chǎn)品分多種類型,有股票型,貨幣型、債券型、保本型、混合型等,每個(gè)大類下又細(xì)分為多個(gè)小類;基金產(chǎn)品在基金公司內(nèi)部管理可能是分盤管理的,即一個(gè)基金產(chǎn)品對外公布是
21、一個(gè)基金產(chǎn)品,在內(nèi)部管理上可能分為幾個(gè)基金產(chǎn)品來管理;基金公司除了管理基金產(chǎn)品外,還代理企業(yè)年金和社?;鸬耐顿Y活動(dòng);根據(jù)基金產(chǎn)品的不同的風(fēng)險(xiǎn)偏好,基金目前在投資市場可買賣的產(chǎn)品包括股票、權(quán)證、債券、基金,未來還包括股指等,其中,企業(yè)年金和社?;疬€可以投資市場上的基金產(chǎn)品;籌資公司既可以通過發(fā)行股票來融資,也可以通過發(fā)行債券來融資,可以同時(shí)發(fā)行股票和債券,債券在一定條件的約束下可以轉(zhuǎn)換成股票;投資市場的行情和宏觀經(jīng)濟(jì)信息息息相關(guān),基金公司需要研究宏觀經(jīng)濟(jì)指數(shù)/行業(yè)指數(shù),選擇投資產(chǎn)品的類型以及行業(yè)板塊;籌資公司自身的經(jīng)營管理水平、產(chǎn)業(yè)結(jié)構(gòu),重大事項(xiàng)等將對自身發(fā)行的股票、權(quán)證、債券等產(chǎn)生影響,因
22、此,基金公司在投資時(shí)除了考慮宏觀經(jīng)濟(jì)數(shù)據(jù)外,還需要研究籌資公司本身,來決定是否買賣該公司的股票/債券等。重要元素的歸納和關(guān)系業(yè)務(wù)概念歸納業(yè)務(wù)概念歸納的重要原則是確定邊界,使得每個(gè)業(yè)務(wù)概念之間的邊界是清晰,業(yè)務(wù)概念之間的連接用關(guān)系來表示,業(yè)務(wù)概念是對業(yè)務(wù)模型中的重要元素的高度抽象,各個(gè)業(yè)務(wù)概念的連接可以描述企業(yè)日常經(jīng)營活動(dòng)的各個(gè)業(yè)務(wù)活動(dòng)。業(yè)務(wù)概念名稱重要元素內(nèi)容投資產(chǎn)品股票、權(quán)證、債券、基金籌資主體籌資公司宏觀及市場信息宏觀經(jīng)濟(jì)/行業(yè)數(shù)據(jù)、指數(shù)信息投資主體(指基金公司本身)基金公司、基金產(chǎn)品、基金經(jīng)理業(yè)務(wù)人員訪談通過和業(yè)務(wù)人員的訪談,來對概念模型進(jìn)行驗(yàn)證。這是個(gè)反復(fù)交互的過程數(shù)據(jù)映射驗(yàn)證數(shù)據(jù)源調(diào)
23、研的目的,一方面是對數(shù)據(jù)內(nèi)容的梳理,并將數(shù)據(jù)內(nèi)容向業(yè)務(wù)概念模型進(jìn)行映射,以便驗(yàn)證是否有些數(shù)據(jù)源內(nèi)容超出了業(yè)務(wù)概念模型的范疇,另一方面,為邏輯模型的設(shè)計(jì)奠定基礎(chǔ)設(shè)計(jì)邏輯模型抽象實(shí)體的一些細(xì)致的屬性。通過邏輯建模階段,才能夠?qū)⒄麄€(gè)概念模型完整串聯(lián)成一個(gè)有機(jī)的實(shí)體,才能夠完整的表達(dá)出業(yè)務(wù)之間的關(guān)聯(lián)性 主要工作如下:確定所有實(shí)體及其之間的關(guān)系確定每個(gè)實(shí)體的屬性確定所有主鍵和外鍵規(guī)范化(Normalization)和聚集設(shè)計(jì)物理模型物理建模階段是整個(gè)數(shù)據(jù)建模的最后一個(gè)過程,這個(gè)過程其實(shí)是將前面的邏輯數(shù)據(jù)模型落地的一個(gè)過程 主要工作如下:生成創(chuàng)建表的腳本。不同的數(shù)據(jù)倉庫平臺(tái)可能生成不同的腳本。 針對不同的
24、數(shù)據(jù)倉庫平臺(tái),進(jìn)行一些相應(yīng)的優(yōu)化工作。 針對數(shù)據(jù)集市的需要,按照維度建模的方法,生成一些事實(shí)表,維表等工作。 針對數(shù)據(jù)倉庫的ETL和元數(shù)據(jù)管理的需要,生成一些數(shù)據(jù)倉庫維護(hù)的表,例如:日志表等。邏輯建模與物理建模分離良好的邏輯建模實(shí)踐關(guān)注問題域的本質(zhì),解決“什么”之類的問題 物理建模為模型解決“如何”之類的問題,這表示給定的計(jì)算環(huán)境中實(shí)現(xiàn)的真實(shí)性。將兩者分離,可保證邏輯模型的延續(xù)性,不會(huì)因?yàn)閷?shí)際環(huán)境的變化而進(jìn)行調(diào)整。 菲奈特稅務(wù)底層模型示例需要注意的幾點(diǎn)搭建整個(gè)綜合平臺(tái) or 基于需求來定義 ?所有信息都抽取過來 or 選擇性的抽取 ? 平衡點(diǎn)?維護(hù)成本投入人力成本投入經(jīng)費(fèi)底層模型建設(shè)是一個(gè)不斷
25、發(fā)展和完善的過程總結(jié)底層模型特征底層模型設(shè)計(jì)步驟概念、邏輯和物理模型的設(shè)計(jì)需要注意的幾點(diǎn)內(nèi)容數(shù)據(jù)倉庫建模過程底層模型設(shè)計(jì)分析模型設(shè)計(jì)OLAP模型設(shè)計(jì)分析模型設(shè)計(jì)分析模型分類分析模型基本元素維表與事實(shí)表的設(shè)計(jì)星型模型是由單個(gè)事實(shí)數(shù)據(jù)表和一些維度表組成的構(gòu)架模型。在這種模型中每個(gè)維度表均聯(lián)接到事實(shí)數(shù)據(jù)表上。事實(shí)表稅務(wù)機(jī)關(guān)維表行業(yè)維表經(jīng)濟(jì)性質(zhì)維表時(shí)間維表稅種維表星型模型雪花型架構(gòu)比星型模型增加了次要維表,有一個(gè)或多個(gè)維表是聯(lián)接到其它維表上,而非事實(shí)數(shù)據(jù)表上。事實(shí)表機(jī)構(gòu)維表行業(yè)維表地市維表時(shí)間維表省份維表地區(qū)維雪花型模型分析模型設(shè)計(jì)分析模型分類分析模型基本元素維表與事實(shí)表的設(shè)計(jì)事實(shí)表事實(shí)表是用于存放經(jīng)
26、過匯總的歷史信息,也就是事實(shí)數(shù)據(jù)的表,是星型架構(gòu)或雪花型架構(gòu)的中心。每個(gè)數(shù)據(jù)倉庫或數(shù)據(jù)集市都包括一個(gè)或多個(gè)事實(shí)表。事實(shí)表一般不包含描述性信息,具有可以聚合的特點(diǎn)。維表維度表是存儲(chǔ)描述事實(shí)表中事實(shí)數(shù)據(jù)特性的表,每個(gè)維表都是獨(dú)立于其它維表的,并且包含了事實(shí)特性的層次結(jié)構(gòu)信息。分析模型基本元素分析模型設(shè)計(jì)分析模型分類分析模型基本元素維表與事實(shí)表的設(shè)計(jì)每個(gè)事實(shí)數(shù)據(jù)表都應(yīng)該由兩個(gè)部分組成,一個(gè)由多個(gè)部分組成的索引和一些由這些索引所描述的數(shù)據(jù)。索引部分索引部分包含著與描述事實(shí)數(shù)據(jù)特征的維表相關(guān)聯(lián)的外鍵信息。數(shù)據(jù)部分?jǐn)?shù)據(jù)部分是事實(shí)表中真正要存放的事實(shí)數(shù)據(jù),即指標(biāo)。事實(shí)表設(shè)計(jì)前五列為索引部分,后三列是事實(shí)數(shù)據(jù)
27、部分列描述time _id時(shí)間維表 Dim_time 的外鍵swbm _id稅務(wù)機(jī)關(guān)維表 Dim_swbm 的外鍵jjxz _id注冊類型維表 Dim_jjxz 的外鍵szsm _id稅種維表 Dim_szsm 的外鍵hy_id行業(yè)維表 Dim_hy 的外鍵Yzsj正常申報(bào)稅款Djs正常申報(bào)入庫Zch正常戶事實(shí)表示例設(shè)計(jì)事實(shí)表應(yīng)注意問題事實(shí)表中一般不應(yīng)包含描述性信息,也不應(yīng)包含除事實(shí)表與維表中間對應(yīng)的關(guān)聯(lián)字段之外的任何數(shù)據(jù)。事實(shí)表中的數(shù)據(jù)應(yīng)該是經(jīng)過適當(dāng)聚合的數(shù)據(jù)事實(shí)表中數(shù)據(jù)的粒度應(yīng)該是一致的事實(shí)表的設(shè)計(jì)應(yīng)該考慮增量數(shù)據(jù)更新的需要,例如是否需要增加時(shí)間戳字段等。維表設(shè)計(jì)中由于維度類型的不同,其維
28、表結(jié)構(gòu)也會(huì)相應(yīng)有不同特點(diǎn)。維度分類普通維普通維是基于一個(gè)維表的維度,由維表中的不同列來表示維度中的不同級(jí)別。雪花維雪花維是基于多個(gè)維表的維度,各個(gè)維表間以外鍵關(guān)聯(lián),分別存儲(chǔ)同一維度中不同級(jí)別的成員列值。父子維父子維是基于兩個(gè)維表列的維度,由維表中的兩列來共同定義各個(gè)成員的隸屬關(guān)系。一列稱為成員鍵列,標(biāo)識(shí)每個(gè)成員;另一列稱為父鍵列,標(biāo)識(shí)每個(gè)成員的父代。維表設(shè)計(jì)普通維普通維中的層次是根據(jù)維表的列而定義的,所以維表中列的定義會(huì)直接影響到維度中層次的定義。設(shè)計(jì)普通維度的維表必須充分考慮維度的擴(kuò)展性。示例: 例如下圖中典型的時(shí)間維度如左圖所示,則每一個(gè)層次在維表中均應(yīng)有對應(yīng)的列。第1季度2000年第2季
29、度1月份2月份3月份第3季度4季度月份列值季度列值時(shí)間維表年季度月份普通維雪花維由于雪花維是基于不同維表建立的,所以針對雪花維而設(shè)計(jì)的維表必然有多個(gè),各維表分別存儲(chǔ)維度中不同級(jí)別的成員值,維表間以外鍵關(guān)聯(lián)。示例:例如,典型的地區(qū)維中地市維表可以存儲(chǔ)全國所有的城市名稱和編碼,以及所屬省份的編碼,而在省份維表中則只存儲(chǔ)省份名稱和編碼,兩維表以省份編碼關(guān)聯(lián)。地市維表City_idProvince_idCity_Name省份維表Province_NameProvince_Id雪花維父子維由于父子維中的層次關(guān)系是由維表中的兩個(gè)列來共同定義的,所以其維度層次結(jié)構(gòu)是由維表中的列值決定的,且維度層次分布是不均
30、衡的。示例:例如,典型的機(jī)構(gòu)維中除了最上層的機(jī)構(gòu)外其它機(jī)構(gòu)都具有其本身機(jī)構(gòu)信息和上級(jí)機(jī)構(gòu)信息兩項(xiàng)屬性。由此,維表中也必須包含此兩項(xiàng)信息的設(shè)計(jì)。機(jī)構(gòu)維表機(jī)構(gòu)編碼機(jī)構(gòu)名稱上級(jí)機(jī)構(gòu)編碼父子維模型構(gòu)架盡量使用星型架構(gòu),使用雪花架構(gòu)的目的是使事實(shí)表第一級(jí)的維表數(shù)量達(dá)到最小。維表設(shè)計(jì)設(shè)計(jì)維表應(yīng)包含需要分析的有關(guān)事實(shí)的有意義信息,例如行業(yè)門類大類小類。事實(shí)表設(shè)計(jì)不要在事實(shí)數(shù)據(jù)表中進(jìn)行過度的匯總,以保證在必要時(shí)可以進(jìn)行所需粒度的數(shù)據(jù)訪問。分析模型設(shè)計(jì)建議總結(jié)分析模型分類分析模型基本元素維表與事實(shí)表的設(shè)計(jì)分析模型設(shè)計(jì)建議數(shù)據(jù)倉庫建模過程底層模型設(shè)計(jì)分析模型設(shè)計(jì)OLAP模型設(shè)計(jì)OLAP模型設(shè)計(jì)概要設(shè)計(jì)概要設(shè)計(jì)是在
31、需求整理、討論中進(jìn)行的,需求分析的成果最終要在OLAP設(shè)計(jì)中體現(xiàn)。較好的需求分析,既能完成業(yè)務(wù)部門提出的需求,又能減輕設(shè)計(jì)上的壓力和反復(fù)修改的次數(shù)。物理設(shè)計(jì)物理設(shè)計(jì)決定數(shù)據(jù)的計(jì)算方式和存儲(chǔ)方式。較好的物理設(shè)計(jì),充分利用硬件的性能,能極大提高數(shù)據(jù)的計(jì)算速度和存儲(chǔ)空間,卻又不會(huì)影響到查詢速度。優(yōu)化設(shè)計(jì)最重要的優(yōu)化工作體現(xiàn)在概要設(shè)計(jì)和物理設(shè)計(jì)中概要設(shè)計(jì)確定分析主題確定分析指標(biāo)確定分析維度確定維度層次確定分析主題從業(yè)務(wù)上確定分析主題的大類、小類例如:稅款分析,可以有入庫稅款分析、應(yīng)征稅款分析等。確定分析指標(biāo)確定各分析主題需要分析哪些指標(biāo)確定哪些指標(biāo)在關(guān)系數(shù)據(jù)庫中計(jì)算、哪些指標(biāo)在多維模型中計(jì)算例如:在關(guān)系數(shù)據(jù)庫中實(shí)現(xiàn)的指標(biāo):能做聚合的重要指標(biāo),稱之為“元指標(biāo)”,例如:余額、發(fā)生額;具有復(fù)雜計(jì)算邏輯的指標(biāo)。在多維模型中實(shí)現(xiàn)的指標(biāo):跨維度指標(biāo),例如:同期比、前期比、占比。其它能建立在“元指標(biāo)”基礎(chǔ)之上,能做簡單加減的指標(biāo),例如:優(yōu)惠金額=優(yōu)惠前金額-優(yōu)惠后金額。確定分析維度確定哪些維度是用戶真正關(guān)心的;哪些維度是用戶經(jīng)常使用的、哪些維度是維度組合式用戶經(jīng)常使用的;哪些維度在業(yè)務(wù)上具有較高的分析價(jià)值
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023-2024學(xué)年廣東省廣州市海珠區(qū)九年級(jí)(上)期末英語試卷
- 2024年廣東省深圳市龍華區(qū)中考英語二模試卷
- 人教版九年級(jí)語文上冊教案
- 第四單元《三國兩晉南北朝時(shí)期:政權(quán)分立與民族交融》-2024-2025學(xué)年七年級(jí)歷史上冊單元測試卷(統(tǒng)編版2024新教材)
- 消防檢查要點(diǎn)二十條
- 職業(yè)學(xué)院機(jī)電一體化技術(shù)專業(yè)人才培養(yǎng)方案
- 半導(dǎo)體芯片制造設(shè)備市場需求與消費(fèi)特點(diǎn)分析
- 擱物架家具市場需求與消費(fèi)特點(diǎn)分析
- 外科用肩繃帶市場需求與消費(fèi)特點(diǎn)分析
- 人教版英語八年級(jí)上冊寫作專題訓(xùn)練
- GA/T 947.4-2015單警執(zhí)法視音頻記錄系統(tǒng)第4部分:數(shù)據(jù)接口
- 污染土壤的修復(fù)課件
- 《外科學(xué)》闌尾疾病-課件
- 氣動(dòng)三通閥門使用說明書及維修手冊
- 狐貍和公山羊課件
- 北京旅行4天3夜課件
- DB3311T 56-2016 森林消防蓄水池建設(shè)技術(shù)規(guī)程
- 3伯努利方程課件
- 海外派遣人員管理辦法
- 諫太宗十思疏(高中語文PPT課件)
- 少兒美術(shù)畫畫課件6-8歲《一盆生機(jī)盎然的綠籮》
評(píng)論
0/150
提交評(píng)論