數(shù)據(jù)倉庫及數(shù)據(jù)挖掘-數(shù)據(jù)模型及元數(shù)據(jù)課件_第1頁
數(shù)據(jù)倉庫及數(shù)據(jù)挖掘-數(shù)據(jù)模型及元數(shù)據(jù)課件_第2頁
數(shù)據(jù)倉庫及數(shù)據(jù)挖掘-數(shù)據(jù)模型及元數(shù)據(jù)課件_第3頁
數(shù)據(jù)倉庫及數(shù)據(jù)挖掘-數(shù)據(jù)模型及元數(shù)據(jù)課件_第4頁
數(shù)據(jù)倉庫及數(shù)據(jù)挖掘-數(shù)據(jù)模型及元數(shù)據(jù)課件_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

作業(yè)4理解數(shù)據(jù)倉庫的數(shù)據(jù)組織要求和方法掌握數(shù)據(jù)倉庫的星型模型、雪化模型的設計方法理解元數(shù)據(jù)的類型及其作用1/1/20231作業(yè)4理解數(shù)據(jù)倉庫的數(shù)據(jù)組織要求和方法12/28/2022數(shù)據(jù)倉庫與數(shù)據(jù)挖掘內(nèi)容提要數(shù)據(jù)模型元數(shù)據(jù)數(shù)據(jù)的粒度數(shù)據(jù)倉庫與數(shù)據(jù)挖掘內(nèi)容提要數(shù)據(jù)模型傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)模型數(shù)據(jù)倉庫的數(shù)據(jù)模型不同于數(shù)據(jù)庫的數(shù)據(jù)模型在于數(shù)據(jù)倉庫只為決策分析用,數(shù)據(jù)倉庫的增加了時間屬性數(shù)據(jù)。數(shù)據(jù)倉庫增加了一些綜合數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)建模是適應決策用戶使用的邏輯數(shù)據(jù)模型。1/1/20233數(shù)據(jù)模型傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)模型12/28/20223數(shù)據(jù)倉庫概念模型1.數(shù)據(jù)倉庫模型的概念數(shù)據(jù)倉庫概念模型的設計需要給出一個數(shù)據(jù)倉庫的粗略藍本,以此為工具來確認數(shù)據(jù)倉庫的設計者是否已經(jīng)正確的了解數(shù)據(jù)倉庫最終用戶的信息需求。(1)概念數(shù)據(jù)模型

在構建數(shù)據(jù)倉庫的概念模型時,可以采用在業(yè)務數(shù)據(jù)處理系統(tǒng)中經(jīng)常應用的企業(yè)數(shù)據(jù)模型——ER圖。這是一種描述組織業(yè)務概況的藍圖,包括整個組織系統(tǒng)中各個部門的業(yè)務處理及其業(yè)務處理數(shù)據(jù)。數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫一樣,也存在高層模型(ERD,實體關系層)、中層模型(DIS,邏輯層)和低層模型(物理層)3個層次數(shù)據(jù)模型。1/1/20234數(shù)據(jù)倉庫概念模型1.數(shù)據(jù)倉庫模型的概念12/28/20224企業(yè)數(shù)據(jù)模型(舉例)財務部門銷售收入帳應收帳應付帳成本帳銷售部門銷售計劃銷售合同銷售統(tǒng)計人事部門員工業(yè)績記錄員工技能情況員工薪酬表財務人事銷售…….……..…..企業(yè)數(shù)據(jù)模型1/1/20235企業(yè)數(shù)據(jù)模型(舉例)財務部門銷售收入帳應收帳銷售部門銷售計劃數(shù)據(jù)倉庫的數(shù)據(jù)模型數(shù)據(jù)倉庫存儲采用多維數(shù)據(jù)模型。果汁可樂牛奶商品維奶油浴巾香皂北京上海長沙1234567城市維日期維維就是相同類數(shù)據(jù)的集合,商店、時間和產(chǎn)品都是維。各個商店的集合是一維,時間的集合是一維,商品的集合是一維。每一個商店、每一段時間、每一種商品就是某一維的一個成員。每一個銷售事實由一個特定的商品、一個特定的時間、一個特定的商品組成。兩維表,如通常的電子表格。三維構成立方體,若再增加一維,則圖形很難想象,也不容易在屏幕上畫出來。1/1/20236數(shù)據(jù)倉庫的數(shù)據(jù)模型數(shù)據(jù)倉庫存儲采用多維數(shù)據(jù)模型。果汁可樂牛奶星型數(shù)據(jù)模型大多數(shù)的數(shù)據(jù)倉庫都采用“星型模型”。星型模型是由“事實表”(大表)及多個“維表”(小表)所組成。“事實表”中存放大量關于企業(yè)的事實數(shù)據(jù)(數(shù)量數(shù)據(jù))。例如:多個時期的數(shù)據(jù)可能會出現(xiàn)在同一個“事實表”中?!熬S表”中存放描述性數(shù)據(jù),維表是圍繞事實表建立的較小的表。維度表維度表維度表維度表事實表維度表1/1/20237星型數(shù)據(jù)模型大多數(shù)的數(shù)據(jù)倉庫都采用“星型模型”。星型模型是由星型模型舉例1/1/20238星型模型舉例12/28/20228訂貨表客戶表銷售員表事實表產(chǎn)品表日期表地區(qū)表星型模型數(shù)據(jù)存儲情況示意圖1/1/20239訂貨表客戶表銷售員表事實表產(chǎn)品表日期表地區(qū)表星型模型數(shù)據(jù)存儲星型模型模型的核心是事實表,維表通過主鍵與事實表和其他維表鏈接事實表中的數(shù)據(jù)不允許修改,新數(shù)據(jù)只是簡單的增加非規(guī)范化程度高,如不同時期的同類數(shù)據(jù)可能出現(xiàn)在同一維表中,數(shù)據(jù)冗余大存取速度快,以增加空間換取較快的訪問速度難于適應業(yè)務需求的變化1/1/202310星型模型模型的核心是事實表,維表通過主鍵與事實表和其他維表鏈雪花數(shù)據(jù)模型雪花模型是對星型模型的維表進一步層次化,原來的各維表可能被擴展為小的事實表,形成一些局部的“層次”區(qū)域在上面星型模型的數(shù)據(jù)中,對“產(chǎn)品表”“日期表”“地區(qū)表”進行擴展形成雪花模型數(shù)據(jù)見下圖。維度表維度表維度表維度表維度表事實表詳細類別表詳細類別表1/1/202311雪花數(shù)據(jù)模型雪花模型是對星型模型的維表進一步層次化,原來的各雪花模型舉例1/1/202312雪花模型舉例12/28/202212星網(wǎng)模型星網(wǎng)模型是將多個星型模型連接起來形成網(wǎng)狀結(jié)構。多個星型模型通過相同的維,如時間維,連接多個事實表。1/1/202313星網(wǎng)模型星網(wǎng)模型是將多個星型模型連接起來形成網(wǎng)狀結(jié)構。多個星數(shù)據(jù)倉庫的邏輯模型與物理模型數(shù)據(jù)倉庫(中間層)邏輯模型中間層數(shù)據(jù)模型亦可稱為邏輯模型,它是對高層數(shù)據(jù)概念模型的細分,在高層數(shù)據(jù)模型中所標識的每個主題域或指標實體都需要與一個邏輯模型相對應。物理數(shù)據(jù)模型是依據(jù)中間層的邏輯數(shù)據(jù)模型而創(chuàng)建的,它通過確定模型的鍵碼屬性和模型的物理特性,擴展中間層數(shù)據(jù)模型而建立。此時,物理數(shù)據(jù)模型就由一系列表所構成,其中最主要的是事實表模型和維表模型。物理模型中的事實表來源于邏輯模型,它依據(jù)數(shù)據(jù)倉庫具體的應用而建立。事實表是星型模型結(jié)構的核心。1/1/202314數(shù)據(jù)倉庫的邏輯模型與物理模型數(shù)據(jù)倉庫(中間層)邏輯模型12/維模型維度表模型也需要根據(jù)邏輯模型設計,在設計過程中考慮維度表模型是用戶分析數(shù)據(jù)的窗口。維度表應該含有商業(yè)項目的文字描述,維度的設計提供了維度屬性的定義。這些屬性應具有這樣一些特征:A.可用文字描述。B.離散值。C.有規(guī)定的限制。D.在分析過程中可以提供行標題。1/1/202315維模型12/28/2022151.元數(shù)據(jù)的定義元數(shù)據(jù)在數(shù)據(jù)倉庫的設計、運行中有著重要的作用,它表述了數(shù)據(jù)倉庫中的各對象,遍及數(shù)據(jù)倉庫的所有方面,是數(shù)據(jù)倉庫中所有管理、操作、數(shù)據(jù)的數(shù)據(jù),是整個數(shù)據(jù)倉庫的核心。元數(shù)據(jù)是關于數(shù)據(jù)、操縱數(shù)據(jù)的進程和應用程序的結(jié)構和意義的描述信息,其主要目標是提供數(shù)據(jù)資源的全面指南。其范圍可以是某個特別的數(shù)據(jù)庫管理系統(tǒng)中從現(xiàn)實世界的概念上的一般概括,到詳細的物理說明。

元數(shù)據(jù)及其作用1/1/2023161.元數(shù)據(jù)的定義元數(shù)據(jù)及其作用12/28/202216在數(shù)據(jù)庫中,元數(shù)據(jù)是對數(shù)據(jù)庫中各個對象的描述。關系數(shù)據(jù)庫中,這種描述就是對表、列、數(shù)據(jù)庫和其他對象的定義。從廣義上講,元數(shù)據(jù)代表定義數(shù)據(jù)倉庫的任何對象,無論它是一個表、一個列、一個查詢、一個業(yè)務規(guī)則,或者是數(shù)據(jù)倉庫內(nèi)部的數(shù)據(jù)轉(zhuǎn)移等等。1/1/202317在數(shù)據(jù)庫中,元數(shù)據(jù)是對數(shù)據(jù)庫中各個對象的描述。關系數(shù)據(jù)元數(shù)據(jù)舉例1/1/202318元數(shù)據(jù)舉例12/28/202218舉例:全國文化信息資源共享工程中的元數(shù)據(jù)疾病描述:

顯示器件:

縮寫:ILLNE

名字空間URI:

/ndcnc/elements/ILLNE附屬標記:

20030729135551疾病名稱

疾病分類

疾病簡介

癥狀

病因及發(fā)病機制

病理變化

診斷

治療

預防

預后

主題詞或關鍵詞

相關藥物

相關疾病

相關文獻

相關指標

相關書目

相關專家

相關機構

圖片

視頻

音頻

1/1/202319舉例:全國文化信息資源共享工程中的元數(shù)據(jù)疾病預防12/28舉例:全國文化信息資源共享工程中的元數(shù)據(jù)1/1/202320舉例:全國文化信息資源共享工程中的元數(shù)據(jù)12/28/2022舉例:全國文化信息資源共享工程中的元數(shù)據(jù)描述:

顯示器件:

縮寫:

WEAPO名字空間URI:

/ndcnc/elements/WEAPO附屬標記:

20030729135519兵器名稱

研制國別

研制機構

研制時間

分類

關鍵詞

簡介

圖片

視頻

音頻

相關書目

1/1/202321舉例:全國文化信息資源共享工程中的元數(shù)據(jù)描述:

顯示器件:元數(shù)據(jù)的作用(1)元數(shù)據(jù)是進行數(shù)據(jù)集成所必需的(2)元數(shù)據(jù)定義的語義層可以幫助最終用戶理解數(shù)據(jù)倉庫中的數(shù)據(jù)(3)元數(shù)據(jù)是保證數(shù)據(jù)質(zhì)量的關鍵(4)元數(shù)據(jù)可以支持需求變化1/1/202322元數(shù)據(jù)的作用(1)元數(shù)據(jù)是進行數(shù)據(jù)集成所必需的12/28元數(shù)據(jù)的分類1.按元數(shù)據(jù)的類型分類關于基本數(shù)據(jù)的元數(shù)據(jù):包括數(shù)據(jù)源、數(shù)據(jù)倉庫、數(shù)據(jù)集市和應用程序管理的所有數(shù)據(jù)。用于數(shù)據(jù)處理的元數(shù)據(jù)關于企業(yè)的組織結(jié)構的元數(shù)據(jù)2.按對象級別分類(1)概念級(2)邏輯級(3)物理級1/1/202323元數(shù)據(jù)的分類1.按元數(shù)據(jù)的類型分類12/28/2022233.從用戶的角度分類(1)業(yè)務元數(shù)據(jù),具體包括以下內(nèi)容:A.企業(yè)概念模型B.多維數(shù)據(jù)模型C.業(yè)務概念模型和物理數(shù)據(jù)之間的依賴關系D.支持面向業(yè)務概念的瀏覽、導航E.支持動態(tài)立即查詢F.數(shù)據(jù)挖掘(2)技術元數(shù)據(jù)1/1/2023243.從用戶的角度分類(1)業(yè)務元數(shù)據(jù),具體包括以下內(nèi)容:124.從來源的角度分類(1)工具產(chǎn)生的元數(shù)據(jù)(2)源提供的元數(shù)據(jù)(3)企業(yè)模型(4)系統(tǒng)導入的元數(shù)據(jù)(5)特定的用戶產(chǎn)生的元數(shù)據(jù)1/1/2023254.從來源的角度分類(1)工具產(chǎn)生的元數(shù)據(jù)12/285.從元數(shù)據(jù)的目的角度分類一般可以通過一種更粗的方法來區(qū)分元數(shù)據(jù):(1)用于信息的元數(shù)據(jù)(2)用于控制的元數(shù)據(jù)1/1/2023265.從元數(shù)據(jù)的目的角度分類一般可以通過一種更粗的方法來區(qū)分6.按照產(chǎn)生/使用的時間分類根據(jù)獲取或生成的時間,可以分為:A.設計時收集的元數(shù)據(jù)B.構建時生成的元數(shù)據(jù)C.運行時生成的元數(shù)據(jù)根據(jù)使用的時間,可以分為:A.設計時使用的元數(shù)據(jù)B.構建使使用的元數(shù)據(jù)C.運行時使用的元數(shù)據(jù)1/1/2023276.按照產(chǎn)生/使用的時間分類根據(jù)獲取或生成的時間,可以分元數(shù)據(jù)管理的現(xiàn)狀數(shù)據(jù)共享領域的某些趨勢說明數(shù)據(jù)倉庫中的元數(shù)據(jù)需求正逐步增加,這些趨勢包括:A.數(shù)據(jù)模型處理的對象由傳統(tǒng)的字符型和數(shù)值型擴展到多種媒體類型。B.支持一家企業(yè)的數(shù)據(jù)倉庫擴展到支持多個組織多個企業(yè)共享的數(shù)據(jù)倉庫。C.信息流控制由過去的從源系統(tǒng)到數(shù)據(jù)倉庫的單向流動擴展到由數(shù)據(jù)倉庫向源系統(tǒng)的反饋。D.各個廠家的專用數(shù)據(jù)格式向公共開放標準元數(shù)據(jù)交換格式轉(zhuǎn)換,以提高其信息捕獲能力。元數(shù)據(jù)管理之所以困難,一個很重要的原因就是缺乏統(tǒng)一的標準。在這種情況下,各公司的元數(shù)據(jù)管理解決方案各不相同。近幾年,隨著元數(shù)據(jù)聯(lián)盟MDC(MetaDataCoalition)的開放信息模型OIM(OpenInformationModel)和OMG組織的公共倉庫模型CWM(CommonWarehouseModel)標準的逐漸完善,以及MDC和OMG組織的合并,為數(shù)據(jù)倉庫廠商提供了統(tǒng)一的標準,從而為元數(shù)據(jù)管理鋪平了道路。1/1/202328元數(shù)據(jù)管理的現(xiàn)狀數(shù)據(jù)共享領域的某些趨勢說明數(shù)據(jù)倉庫中的元數(shù)據(jù)元數(shù)據(jù)管理標準數(shù)據(jù)倉庫領域中兩個最主要的元數(shù)據(jù)標準:MDC的OIM標準和OMG的CWM標準。元數(shù)據(jù)聯(lián)合會MDC建于1995年,是一個致力于建立與廠商無關的、不依賴于具體技術的企業(yè)元數(shù)據(jù)管理標準的非贏利技術聯(lián)盟,目的是提供標準化的元數(shù)據(jù)交互。該聯(lián)盟有150多個會員,其中包括微軟和IBM等著名軟件廠商。1999年7月MDC接受了微軟的建議,將OIM作為元數(shù)據(jù)標準。MDC于1996年開發(fā)了MDIS(MetaDataInterchangeSpecification)并完成了MDC-OIM的技術評審,MDC-OIM基于微軟的開放信息模型OIM,是一個獨立于技術的、以廠商為核心的信息模型。OIM是微軟的元數(shù)據(jù)管理產(chǎn)品MicrosoftRepository的一部分。由微軟和其它20多家公司共同開發(fā)的,作為微軟開放過程的一部分,經(jīng)過了300多個公司的評審。1/1/202329元數(shù)據(jù)管理標準數(shù)據(jù)倉庫領域中兩個最主要的元數(shù)據(jù)標準:MDC的元數(shù)據(jù)管理標準OMG是一個擁有500多會員的國際標準化組織。在1995年采用了MOF(MetaObjectFacility),并不斷完善之。1997年采用了UML,2000年,OMG又采用了CWM。公共倉庫元模型(CommonWarehouseMetamodel)的主要目的是在異構環(huán)境下,幫助不同的數(shù)據(jù)倉庫工具、平臺和元數(shù)據(jù)知識庫進行元數(shù)據(jù)交換。2001年3月,OMG頒布了CWM1.0標準。CWM模型既包括元數(shù)據(jù)存儲,也包括元數(shù)據(jù)交換,它是基于以下三個工業(yè)標準制定的:

(1)UML:它對CWM模型進行建模。

(2)MOF(元對象設施):它是OMG元模型和元數(shù)據(jù)的存儲標準,提供在異構環(huán)境下對元數(shù)據(jù)知識庫的訪問接口。

(3)XMI(XML元數(shù)據(jù)交換):它可以使元數(shù)據(jù)以XML文件流的方式進行交換。OMG的UML、MOF和CWM形成了OMG建模和元數(shù)據(jù)管理、交換結(jié)構的基礎,推動了元數(shù)據(jù)標準化的快速發(fā)展。為了推動元數(shù)據(jù)標準化的發(fā)展,MDC和OMG在元數(shù)據(jù)標準的制定上協(xié)同工作。1999年4月,MDC成為OMG的成員,而OMG也同時成為MDC的成員。MDC中使用了OMG的UML,而MDC-OIM中的數(shù)據(jù)倉庫部分被用來作為OMG的公共倉庫元數(shù)據(jù)交互(CWMI:CommonWarehouseMetadataInterchange)的設計參考。在兩個組織的技術力量的合作努力下,元數(shù)據(jù)標準將逐步一致化。

1/1/202330元數(shù)據(jù)管理標準OMG是一個擁有500多會員的國際標準化組織。數(shù)據(jù)粒度粒度問題是設計數(shù)據(jù)倉庫的一個最重要方面。粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級就越小;相反,細化程度越低,粒度級就越大。數(shù)據(jù)的粒度一直是一個設計問題。在早期建立的操作型應用系統(tǒng)中,當詳細的數(shù)據(jù)被更新時,幾乎總是把它存放在最低粒度級上。但在數(shù)據(jù)倉庫環(huán)境中,對粒度不作假設。數(shù)據(jù)倉庫環(huán)境中粒度的設計要在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小、查詢的效率及詳細程度之間要作出權衡。1/1/202331數(shù)據(jù)粒度粒度問題是設計數(shù)據(jù)倉庫的一個最重要方面。12/28/數(shù)據(jù)粒度1/1/202332數(shù)據(jù)粒度12/28/202232數(shù)據(jù)粒度1.數(shù)據(jù)粒度的劃分適當劃分粒度的第一步是估算數(shù)據(jù)倉庫中將來使用的數(shù)據(jù)行數(shù)和所需的直接存取存儲設備數(shù)在計算出數(shù)據(jù)倉庫所需要占用的存儲空間以后,需要根據(jù)所需要的存儲空間大小確定是否劃分粒度,如果需要劃分,又應該怎樣劃分。1/1/202333數(shù)據(jù)粒度1.數(shù)據(jù)粒度的劃分12/28/2022332.確定粒度的級別在數(shù)據(jù)倉庫中確定粒度時,需要考慮這樣一些因素:要接受的分析類型可接受的數(shù)據(jù)最低粒度能夠存儲的數(shù)據(jù)量。計劃在數(shù)據(jù)倉庫中進行的分析類型將直接影響數(shù)據(jù)倉庫的粒度劃分。數(shù)據(jù)倉庫通常在同一模式中使用多重粒度。1/1/2023342.確定粒度的級別在數(shù)據(jù)倉庫中確定粒度時,需要考慮這樣一確定數(shù)據(jù)倉庫粒度的另外一個要素是數(shù)據(jù)倉庫可以使用多種存儲介質(zhì)的空間量。選擇合適的粒度是數(shù)據(jù)倉庫設計過程中所要解決的一個復雜的問題,因為粒度的確定實質(zhì)上是對業(yè)務決策分析、硬件、軟件和數(shù)據(jù)倉庫使用方法的一個折衷。還有一種可以大幅降低數(shù)據(jù)倉庫容量的方法,就是只采用概括數(shù)據(jù)。1/1/202335確定數(shù)據(jù)倉庫粒度的另外一個要素是數(shù)據(jù)倉庫可以使用多種存儲介質(zhì)作業(yè)4理解數(shù)據(jù)倉庫的數(shù)據(jù)組織要求和方法掌握數(shù)據(jù)倉庫的星型模型、雪化模型的設計方法理解元數(shù)據(jù)的類型及其作用1/1/202336作業(yè)4理解數(shù)據(jù)倉庫的數(shù)據(jù)組織要求和方法12/28/2022數(shù)據(jù)倉庫與數(shù)據(jù)挖掘內(nèi)容提要數(shù)據(jù)模型元數(shù)據(jù)數(shù)據(jù)的粒度數(shù)據(jù)倉庫與數(shù)據(jù)挖掘內(nèi)容提要數(shù)據(jù)模型傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)模型數(shù)據(jù)倉庫的數(shù)據(jù)模型不同于數(shù)據(jù)庫的數(shù)據(jù)模型在于數(shù)據(jù)倉庫只為決策分析用,數(shù)據(jù)倉庫的增加了時間屬性數(shù)據(jù)。數(shù)據(jù)倉庫增加了一些綜合數(shù)據(jù)。數(shù)據(jù)倉庫的數(shù)據(jù)建模是適應決策用戶使用的邏輯數(shù)據(jù)模型。1/1/202338數(shù)據(jù)模型傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)模型12/28/20223數(shù)據(jù)倉庫概念模型1.數(shù)據(jù)倉庫模型的概念數(shù)據(jù)倉庫概念模型的設計需要給出一個數(shù)據(jù)倉庫的粗略藍本,以此為工具來確認數(shù)據(jù)倉庫的設計者是否已經(jīng)正確的了解數(shù)據(jù)倉庫最終用戶的信息需求。(1)概念數(shù)據(jù)模型

在構建數(shù)據(jù)倉庫的概念模型時,可以采用在業(yè)務數(shù)據(jù)處理系統(tǒng)中經(jīng)常應用的企業(yè)數(shù)據(jù)模型——ER圖。這是一種描述組織業(yè)務概況的藍圖,包括整個組織系統(tǒng)中各個部門的業(yè)務處理及其業(yè)務處理數(shù)據(jù)。數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫一樣,也存在高層模型(ERD,實體關系層)、中層模型(DIS,邏輯層)和低層模型(物理層)3個層次數(shù)據(jù)模型。1/1/202339數(shù)據(jù)倉庫概念模型1.數(shù)據(jù)倉庫模型的概念12/28/20224企業(yè)數(shù)據(jù)模型(舉例)財務部門銷售收入帳應收帳應付帳成本帳銷售部門銷售計劃銷售合同銷售統(tǒng)計人事部門員工業(yè)績記錄員工技能情況員工薪酬表財務人事銷售…….……..…..企業(yè)數(shù)據(jù)模型1/1/202340企業(yè)數(shù)據(jù)模型(舉例)財務部門銷售收入帳應收帳銷售部門銷售計劃數(shù)據(jù)倉庫的數(shù)據(jù)模型數(shù)據(jù)倉庫存儲采用多維數(shù)據(jù)模型。果汁可樂牛奶商品維奶油浴巾香皂北京上海長沙1234567城市維日期維維就是相同類數(shù)據(jù)的集合,商店、時間和產(chǎn)品都是維。各個商店的集合是一維,時間的集合是一維,商品的集合是一維。每一個商店、每一段時間、每一種商品就是某一維的一個成員。每一個銷售事實由一個特定的商品、一個特定的時間、一個特定的商品組成。兩維表,如通常的電子表格。三維構成立方體,若再增加一維,則圖形很難想象,也不容易在屏幕上畫出來。1/1/202341數(shù)據(jù)倉庫的數(shù)據(jù)模型數(shù)據(jù)倉庫存儲采用多維數(shù)據(jù)模型。果汁可樂牛奶星型數(shù)據(jù)模型大多數(shù)的數(shù)據(jù)倉庫都采用“星型模型”。星型模型是由“事實表”(大表)及多個“維表”(小表)所組成?!笆聦嵄怼敝写娣糯罅筷P于企業(yè)的事實數(shù)據(jù)(數(shù)量數(shù)據(jù))。例如:多個時期的數(shù)據(jù)可能會出現(xiàn)在同一個“事實表”中。“維表”中存放描述性數(shù)據(jù),維表是圍繞事實表建立的較小的表。維度表維度表維度表維度表事實表維度表1/1/202342星型數(shù)據(jù)模型大多數(shù)的數(shù)據(jù)倉庫都采用“星型模型”。星型模型是由星型模型舉例1/1/202343星型模型舉例12/28/20228訂貨表客戶表銷售員表事實表產(chǎn)品表日期表地區(qū)表星型模型數(shù)據(jù)存儲情況示意圖1/1/202344訂貨表客戶表銷售員表事實表產(chǎn)品表日期表地區(qū)表星型模型數(shù)據(jù)存儲星型模型模型的核心是事實表,維表通過主鍵與事實表和其他維表鏈接事實表中的數(shù)據(jù)不允許修改,新數(shù)據(jù)只是簡單的增加非規(guī)范化程度高,如不同時期的同類數(shù)據(jù)可能出現(xiàn)在同一維表中,數(shù)據(jù)冗余大存取速度快,以增加空間換取較快的訪問速度難于適應業(yè)務需求的變化1/1/202345星型模型模型的核心是事實表,維表通過主鍵與事實表和其他維表鏈雪花數(shù)據(jù)模型雪花模型是對星型模型的維表進一步層次化,原來的各維表可能被擴展為小的事實表,形成一些局部的“層次”區(qū)域在上面星型模型的數(shù)據(jù)中,對“產(chǎn)品表”“日期表”“地區(qū)表”進行擴展形成雪花模型數(shù)據(jù)見下圖。維度表維度表維度表維度表維度表事實表詳細類別表詳細類別表1/1/202346雪花數(shù)據(jù)模型雪花模型是對星型模型的維表進一步層次化,原來的各雪花模型舉例1/1/202347雪花模型舉例12/28/202212星網(wǎng)模型星網(wǎng)模型是將多個星型模型連接起來形成網(wǎng)狀結(jié)構。多個星型模型通過相同的維,如時間維,連接多個事實表。1/1/202348星網(wǎng)模型星網(wǎng)模型是將多個星型模型連接起來形成網(wǎng)狀結(jié)構。多個星數(shù)據(jù)倉庫的邏輯模型與物理模型數(shù)據(jù)倉庫(中間層)邏輯模型中間層數(shù)據(jù)模型亦可稱為邏輯模型,它是對高層數(shù)據(jù)概念模型的細分,在高層數(shù)據(jù)模型中所標識的每個主題域或指標實體都需要與一個邏輯模型相對應。物理數(shù)據(jù)模型是依據(jù)中間層的邏輯數(shù)據(jù)模型而創(chuàng)建的,它通過確定模型的鍵碼屬性和模型的物理特性,擴展中間層數(shù)據(jù)模型而建立。此時,物理數(shù)據(jù)模型就由一系列表所構成,其中最主要的是事實表模型和維表模型。物理模型中的事實表來源于邏輯模型,它依據(jù)數(shù)據(jù)倉庫具體的應用而建立。事實表是星型模型結(jié)構的核心。1/1/202349數(shù)據(jù)倉庫的邏輯模型與物理模型數(shù)據(jù)倉庫(中間層)邏輯模型12/維模型維度表模型也需要根據(jù)邏輯模型設計,在設計過程中考慮維度表模型是用戶分析數(shù)據(jù)的窗口。維度表應該含有商業(yè)項目的文字描述,維度的設計提供了維度屬性的定義。這些屬性應具有這樣一些特征:A.可用文字描述。B.離散值。C.有規(guī)定的限制。D.在分析過程中可以提供行標題。1/1/202350維模型12/28/2022151.元數(shù)據(jù)的定義元數(shù)據(jù)在數(shù)據(jù)倉庫的設計、運行中有著重要的作用,它表述了數(shù)據(jù)倉庫中的各對象,遍及數(shù)據(jù)倉庫的所有方面,是數(shù)據(jù)倉庫中所有管理、操作、數(shù)據(jù)的數(shù)據(jù),是整個數(shù)據(jù)倉庫的核心。元數(shù)據(jù)是關于數(shù)據(jù)、操縱數(shù)據(jù)的進程和應用程序的結(jié)構和意義的描述信息,其主要目標是提供數(shù)據(jù)資源的全面指南。其范圍可以是某個特別的數(shù)據(jù)庫管理系統(tǒng)中從現(xiàn)實世界的概念上的一般概括,到詳細的物理說明。

元數(shù)據(jù)及其作用1/1/2023511.元數(shù)據(jù)的定義元數(shù)據(jù)及其作用12/28/202216在數(shù)據(jù)庫中,元數(shù)據(jù)是對數(shù)據(jù)庫中各個對象的描述。關系數(shù)據(jù)庫中,這種描述就是對表、列、數(shù)據(jù)庫和其他對象的定義。從廣義上講,元數(shù)據(jù)代表定義數(shù)據(jù)倉庫的任何對象,無論它是一個表、一個列、一個查詢、一個業(yè)務規(guī)則,或者是數(shù)據(jù)倉庫內(nèi)部的數(shù)據(jù)轉(zhuǎn)移等等。1/1/202352在數(shù)據(jù)庫中,元數(shù)據(jù)是對數(shù)據(jù)庫中各個對象的描述。關系數(shù)據(jù)元數(shù)據(jù)舉例1/1/202353元數(shù)據(jù)舉例12/28/202218舉例:全國文化信息資源共享工程中的元數(shù)據(jù)疾病描述:

顯示器件:

縮寫:ILLNE

名字空間URI:

/ndcnc/elements/ILLNE附屬標記:

20030729135551疾病名稱

疾病分類

疾病簡介

癥狀

病因及發(fā)病機制

病理變化

診斷

治療

預防

預后

主題詞或關鍵詞

相關藥物

相關疾病

相關文獻

相關指標

相關書目

相關專家

相關機構

圖片

視頻

音頻

1/1/202354舉例:全國文化信息資源共享工程中的元數(shù)據(jù)疾病預防12/28舉例:全國文化信息資源共享工程中的元數(shù)據(jù)1/1/202355舉例:全國文化信息資源共享工程中的元數(shù)據(jù)12/28/2022舉例:全國文化信息資源共享工程中的元數(shù)據(jù)描述:

顯示器件:

縮寫:

WEAPO名字空間URI:

/ndcnc/elements/WEAPO附屬標記:

20030729135519兵器名稱

研制國別

研制機構

研制時間

分類

關鍵詞

簡介

圖片

視頻

音頻

相關書目

1/1/202356舉例:全國文化信息資源共享工程中的元數(shù)據(jù)描述:

顯示器件:元數(shù)據(jù)的作用(1)元數(shù)據(jù)是進行數(shù)據(jù)集成所必需的(2)元數(shù)據(jù)定義的語義層可以幫助最終用戶理解數(shù)據(jù)倉庫中的數(shù)據(jù)(3)元數(shù)據(jù)是保證數(shù)據(jù)質(zhì)量的關鍵(4)元數(shù)據(jù)可以支持需求變化1/1/202357元數(shù)據(jù)的作用(1)元數(shù)據(jù)是進行數(shù)據(jù)集成所必需的12/28元數(shù)據(jù)的分類1.按元數(shù)據(jù)的類型分類關于基本數(shù)據(jù)的元數(shù)據(jù):包括數(shù)據(jù)源、數(shù)據(jù)倉庫、數(shù)據(jù)集市和應用程序管理的所有數(shù)據(jù)。用于數(shù)據(jù)處理的元數(shù)據(jù)關于企業(yè)的組織結(jié)構的元數(shù)據(jù)2.按對象級別分類(1)概念級(2)邏輯級(3)物理級1/1/202358元數(shù)據(jù)的分類1.按元數(shù)據(jù)的類型分類12/28/2022233.從用戶的角度分類(1)業(yè)務元數(shù)據(jù),具體包括以下內(nèi)容:A.企業(yè)概念模型B.多維數(shù)據(jù)模型C.業(yè)務概念模型和物理數(shù)據(jù)之間的依賴關系D.支持面向業(yè)務概念的瀏覽、導航E.支持動態(tài)立即查詢F.數(shù)據(jù)挖掘(2)技術元數(shù)據(jù)1/1/2023593.從用戶的角度分類(1)業(yè)務元數(shù)據(jù),具體包括以下內(nèi)容:124.從來源的角度分類(1)工具產(chǎn)生的元數(shù)據(jù)(2)源提供的元數(shù)據(jù)(3)企業(yè)模型(4)系統(tǒng)導入的元數(shù)據(jù)(5)特定的用戶產(chǎn)生的元數(shù)據(jù)1/1/2023604.從來源的角度分類(1)工具產(chǎn)生的元數(shù)據(jù)12/285.從元數(shù)據(jù)的目的角度分類一般可以通過一種更粗的方法來區(qū)分元數(shù)據(jù):(1)用于信息的元數(shù)據(jù)(2)用于控制的元數(shù)據(jù)1/1/2023615.從元數(shù)據(jù)的目的角度分類一般可以通過一種更粗的方法來區(qū)分6.按照產(chǎn)生/使用的時間分類根據(jù)獲取或生成的時間,可以分為:A.設計時收集的元數(shù)據(jù)B.構建時生成的元數(shù)據(jù)C.運行時生成的元數(shù)據(jù)根據(jù)使用的時間,可以分為:A.設計時使用的元數(shù)據(jù)B.構建使使用的元數(shù)據(jù)C.運行時使用的元數(shù)據(jù)1/1/2023626.按照產(chǎn)生/使用的時間分類根據(jù)獲取或生成的時間,可以分元數(shù)據(jù)管理的現(xiàn)狀數(shù)據(jù)共享領域的某些趨勢說明數(shù)據(jù)倉庫中的元數(shù)據(jù)需求正逐步增加,這些趨勢包括:A.數(shù)據(jù)模型處理的對象由傳統(tǒng)的字符型和數(shù)值型擴展到多種媒體類型。B.支持一家企業(yè)的數(shù)據(jù)倉庫擴展到支持多個組織多個企業(yè)共享的數(shù)據(jù)倉庫。C.信息流控制由過去的從源系統(tǒng)到數(shù)據(jù)倉庫的單向流動擴展到由數(shù)據(jù)倉庫向源系統(tǒng)的反饋。D.各個廠家的專用數(shù)據(jù)格式向公共開放標準元數(shù)據(jù)交換格式轉(zhuǎn)換,以提高其信息捕獲能力。元數(shù)據(jù)管理之所以困難,一個很重要的原因就是缺乏統(tǒng)一的標準。在這種情況下,各公司的元數(shù)據(jù)管理解決方案各不相同。近幾年,隨著元數(shù)據(jù)聯(lián)盟MDC(MetaDataCoalition)的開放信息模型OIM(OpenInformationModel)和OMG組織的公共倉庫模型CWM(CommonWarehouseModel)標準的逐漸完善,以及MDC和OMG組織的合并,為數(shù)據(jù)倉庫廠商提供了統(tǒng)一的標準,從而為元數(shù)據(jù)管理鋪平了道路。1/1/202363元數(shù)據(jù)管理的現(xiàn)狀數(shù)據(jù)共享領域的某些趨勢說明數(shù)據(jù)倉庫中的元數(shù)據(jù)元數(shù)據(jù)管理標準數(shù)據(jù)倉庫領域中兩個最主要的元數(shù)據(jù)標準:MDC的OIM標準和OMG的CWM標準。元數(shù)據(jù)聯(lián)合會MDC建于1995年,是一個致力于建立與廠商無關的、不依賴于具體技術的企業(yè)元數(shù)據(jù)管理標準的非贏利技術聯(lián)盟,目的是提供標準化的元數(shù)據(jù)交互。該聯(lián)盟有150多個會員,其中包括微軟和IBM等著名軟件廠商。1999年7月MDC接受了微軟的建議,將OIM作為元數(shù)據(jù)標準。MDC于1996年開發(fā)了MDIS(MetaDataInterchangeSpecification)并完成了MDC-OIM的技術評審,MDC-OIM基于微軟的開放信息模型OIM,是一個獨立于技術的、以廠商為核心的信息模型。OIM是微軟的元數(shù)據(jù)管理產(chǎn)品MicrosoftRepository的一部分。由微軟和其它20多家公司共同開發(fā)的,作為微軟開放過程的一部分,經(jīng)過了300多個公司的評審。1/1/202364元數(shù)據(jù)管理標準數(shù)據(jù)倉庫領域中兩個最主要的元數(shù)據(jù)標準:MDC的元數(shù)據(jù)管理標準OMG是一個擁有500多會員的國際標準化組織。在1995年采用了MOF(MetaObjectFacility),并不斷完善之。1997年采用了UML,2000年,OMG又采用了CWM。公共倉庫元模型(CommonWarehouseMetamodel)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論