




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第二章 數(shù)據(jù)倉庫體系結(jié)構(gòu)一、數(shù)據(jù)倉庫的定義 沒有一個公認(rèn)的、標(biāo)準(zhǔn)的定義 William :數(shù)據(jù)倉庫是一個面向主題的、集成的、不同時間的、穩(wěn)定的數(shù)據(jù)集合,它支持管理決策。1、面向主題主題Subject:特定的數(shù)據(jù)分析領(lǐng)域與目標(biāo)。面向主題:為特定的數(shù)據(jù)分析領(lǐng)域提供數(shù)據(jù)支持。 為特定數(shù)據(jù)分析領(lǐng)域提供的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)是有不同的。傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)是原始的、根底的數(shù)據(jù),而特定分析領(lǐng)域數(shù)據(jù)那么是需要對它們作必要的抽取、加工與總結(jié)而形成。 數(shù)據(jù)倉庫是面向分析、決策人員的主觀要求的,不同的用戶有不同的要求,同一個用戶的要求也會隨時間而經(jīng)常變化,因此,數(shù)據(jù)倉庫中的主題有時會因用戶主觀要求的變化而變化的
2、。例:一個面向事務(wù)處理的“商場數(shù)據(jù)庫系統(tǒng),其數(shù)據(jù)模式如下采購子系統(tǒng):訂單訂單號,供給商號,總金額,日期訂單細(xì)那么訂單號,商品號,類別,單價,數(shù)量供給商供給商號,供給商名,地址, 銷售子系統(tǒng):顧客顧客號,姓名,性別,年齡,文化程度,地址, 銷售員工號,顧客號,商品號,數(shù)量,單價,日期庫存管理子系統(tǒng):領(lǐng)料單領(lǐng)料單號,領(lǐng)料人,商品號,數(shù)量,日期進(jìn)料單進(jìn)料單號,訂單號,進(jìn)料人,收料人,日期庫存商品號,庫房號,庫存量,日期庫房庫房號,倉庫管理員,地點,庫存商品描述人事管理子系統(tǒng):員工員工號,姓名,性別,年齡,文化程度,部門號部門部門號,部門名稱,部門主管, 上述數(shù)據(jù)模式根本上是按照企業(yè)內(nèi)部的業(yè)務(wù)活動及其
3、需要的相關(guān)數(shù)據(jù)來組織數(shù)據(jù)的存儲的,沒有實現(xiàn)真正的數(shù)據(jù)與應(yīng)用別離,其抽象程度也不夠高。如果按照面向主題的方式進(jìn)行數(shù)據(jù)組織,首先應(yīng)該抽取主題,即按照管理人員的分析要求來確定主題,而與每個主題相關(guān)的數(shù)據(jù)又與有關(guān)的事務(wù)處理所需的數(shù)據(jù)不盡相同。商品固有信息:商品號,商品名,類別,顏色等商品采購信息:商品號,供給商號,供給價,供給日期,供給量等商品銷售信息:商品號,顧客號,售價,銷售日期,銷售量等商品庫存信息:商品號,庫房號,庫存量,日期等主題一:商品供給商固有信息:供給商號,供給商名,地址, 等供給商品信息:供給商號,商品號,供給價,供給日期,供給量等主題二:供給商顧客固有信息:顧客號,顧客名,性別,年
4、齡,文化程度,住址, 等顧客購物信息:顧客號,商品號,售價,購置日期,購置量等主題三:顧客在每個主題中,都包含了有關(guān)該主題的所有信息,同時又拋棄了與分析處理無關(guān)或不需要的數(shù)據(jù),從而將原本分散在各個子系統(tǒng)中的有關(guān)信息集中在一個主題中,形成有關(guān)該主題的一個完整一致的描述。面向主題的數(shù)據(jù)組織方式所強(qiáng)調(diào)的就是要形成一個這樣一致的信息集合。不同的主題之間也有重疊的內(nèi)容,但這種重疊是邏輯上的,而不是物理存儲上的重疊;是局部細(xì)節(jié)的重疊,而不是完全的重疊。每個主題所需數(shù)據(jù)的物理存儲:多維數(shù)據(jù)庫MDDBMulti-Dimensional DataBase用多維數(shù)組形式存儲數(shù)據(jù)。關(guān)系數(shù)據(jù)庫用一組關(guān)系來組織數(shù)據(jù)的存
5、儲,同一主題的一組關(guān)系都有一個公共的關(guān)鍵字,存放的也不是細(xì)節(jié)性的業(yè)務(wù)數(shù)據(jù),而是經(jīng)過一定程度的綜合形成的綜合性數(shù)據(jù)。數(shù)據(jù)倉庫中的數(shù)據(jù)是為分析效勞的,而分析需要多種廣泛的不同數(shù)據(jù)源以便進(jìn)行比較、鑒別,因此數(shù)據(jù)倉庫中的數(shù)據(jù)必須從多個數(shù)據(jù)源中獲取,這些數(shù)據(jù)源包括多種類型數(shù)據(jù)庫、文件系統(tǒng)以及Internet網(wǎng)上數(shù)據(jù)等,它們通過數(shù)據(jù)集成而形成數(shù)據(jù)倉庫中的數(shù)據(jù)。集成的方法:2、集成統(tǒng)一:消除不一致的現(xiàn)象綜合:對原有數(shù)據(jù)進(jìn)行綜合和計算數(shù)據(jù)倉庫中的數(shù)據(jù)是經(jīng)過抽取而形成的分析型數(shù)據(jù),不具有原始性,主要供企業(yè)決策分析之用,執(zhí)行的主要是查詢操作,一般情況下不執(zhí)行更新操作。同時,一個穩(wěn)定的數(shù)據(jù)環(huán)境也有利于數(shù)據(jù)分析操作和
6、決策的制訂。但這也不等于數(shù)據(jù)倉庫中的數(shù)據(jù)不需要更新操作。在需要進(jìn)行新的分析決策時,可能需要進(jìn)行新的數(shù)據(jù)抽取和更新操作數(shù)據(jù)倉庫中的一些過時的數(shù)據(jù),也可以通過刪除操作丟棄掉。因此數(shù)據(jù)倉庫的存儲管理相對于DBMS來說要簡單得多。3、不可更新 數(shù)據(jù)倉庫中的數(shù)據(jù)必須以一定時間段為單位進(jìn)行統(tǒng)一更新。4、隨時間不斷變化不斷增加新的數(shù)據(jù)內(nèi)容不斷刪去舊的數(shù)據(jù)內(nèi)容更新與時間有關(guān)的綜合數(shù)據(jù)建立數(shù)據(jù)集市的原因數(shù)據(jù)倉庫是一種反映主題的全局性數(shù)據(jù)組織。但是,全局性數(shù)據(jù)倉庫往往太大,在實際應(yīng)用中將它們按部門或個人分別建立反映各個子主題的局部性數(shù)據(jù)組織,它們即是數(shù)據(jù)集市。因此,有時我們也稱它為部門數(shù)據(jù)倉庫。例:在有關(guān)商品銷售
7、的數(shù)據(jù)倉庫中可以建立多個不同主題的數(shù)據(jù)集市:二、數(shù)據(jù)集市Data Mart商品采購數(shù)據(jù)集市庫房使用數(shù)據(jù)集市商品銷售數(shù)據(jù)集市數(shù)據(jù)倉庫與數(shù)據(jù)集市的關(guān)系類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)中的基表與視圖的關(guān)系。數(shù)據(jù)集市的數(shù)據(jù)來自數(shù)據(jù)倉庫,它是數(shù)據(jù)倉庫中數(shù)據(jù)的一個局部與局部,是一個數(shù)據(jù)的再抽取與組織的過程。建立數(shù)據(jù)倉庫與數(shù)據(jù)集市的過程可以有兩條途徑:從 全局?jǐn)?shù)據(jù)倉庫 到 數(shù)據(jù)集市從 數(shù)據(jù)集市 到 全局?jǐn)?shù)據(jù)倉庫 三、數(shù)據(jù)倉庫的體系結(jié)構(gòu)ORACLESYBASESQL Server文 件數(shù)據(jù)集市數(shù)據(jù)集市數(shù)據(jù)集市建 模數(shù)據(jù)倉庫元數(shù)據(jù)管理抽 取數(shù)據(jù)倉庫系統(tǒng)示意圖數(shù)據(jù)倉庫管理系統(tǒng)元數(shù)據(jù)多維關(guān)系數(shù)據(jù)庫多維數(shù)據(jù)庫外部操作型數(shù)據(jù)數(shù)
8、據(jù)抽取數(shù)據(jù)清潔數(shù)據(jù)裝載管理平臺報表查詢工具數(shù)據(jù)挖掘工具OLAP工具兩層數(shù)據(jù)倉庫結(jié)構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)邏輯數(shù)據(jù)服務(wù)元數(shù)據(jù)文件服務(wù)客戶端圖形用戶接口/表示邏輯查詢標(biāo)準(zhǔn)數(shù)據(jù)分析報表格式總結(jié)數(shù)據(jù)訪問多層數(shù)據(jù)倉庫結(jié)構(gòu)多維數(shù)據(jù)效勞器數(shù)據(jù)倉庫數(shù)據(jù)元數(shù)據(jù)數(shù)據(jù)邏輯數(shù)據(jù)服務(wù)元數(shù)據(jù)文件服務(wù)數(shù)據(jù)倉庫服務(wù)器應(yīng)用效勞器圖形用戶接口/表示邏輯查詢標(biāo)準(zhǔn)數(shù)據(jù)分析報表格式數(shù)據(jù)訪問客戶端過濾總結(jié)元數(shù)據(jù)多維視圖數(shù)據(jù)訪問四、數(shù)據(jù)組織方式和數(shù)據(jù)抽取一、數(shù)據(jù)邏輯組織1、簡單堆積 每日從數(shù)據(jù)庫中提取并加工數(shù)據(jù)逐天積累。2、輪轉(zhuǎn)綜合 數(shù)據(jù)存儲單位被分別按日、周、月及年等幾個級別。每日事物處理每日綜合天周月年 1 2 3 4
9、5 6 7 1 2 3 4 5。3、簡單直接文件 在一段時間如一周,一月后,將數(shù)據(jù)直接從操作型環(huán)境拖入數(shù)據(jù)倉庫環(huán)境4、連續(xù)文件 通過兩個連續(xù)的簡單直接文件,可以生成另一個連續(xù)文件二、數(shù)據(jù)倉庫的數(shù)據(jù)組織1、虛擬存儲方式 沒有專門的數(shù)據(jù)倉庫數(shù)據(jù)存儲,數(shù)據(jù)倉庫中的數(shù)據(jù)仍然在源數(shù)據(jù)庫中。只是根據(jù)用戶的多維需求及形成的多維視圖臨時在源數(shù)據(jù)庫中找出所需要的數(shù)據(jù),完成多維分析。優(yōu)點:組織方式簡單、花費少、使用靈活;缺點:只有當(dāng)源數(shù)據(jù)庫的數(shù)據(jù)組織比較標(biāo)準(zhǔn)、沒有數(shù)據(jù)不完備及冗余,同時又比較接近多維數(shù)據(jù)模型時,虛擬數(shù)據(jù)倉庫的多維語義才容易定義。而在一般的數(shù)據(jù)庫應(yīng)用中,這很難做到。2、基于關(guān)系表的存儲方式 將數(shù)據(jù)倉
10、庫的數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)中,在元數(shù)據(jù)的管理下完成數(shù)據(jù)倉庫的功能。3、多維數(shù)據(jù)庫組織 直接面向OLAP分析操作的數(shù)據(jù)組織形式。這種數(shù)據(jù)庫產(chǎn)品比較多,其實現(xiàn)方法不盡相同。其數(shù)據(jù)組織采用多維數(shù)組結(jié)構(gòu)文件進(jìn)行數(shù)據(jù)存儲,并有維索引及相應(yīng)的元數(shù)據(jù)管理文件與數(shù)據(jù)相對應(yīng)。三、數(shù)據(jù)倉庫的數(shù)據(jù)追加 如何定期在數(shù)據(jù)倉庫追加數(shù)據(jù)?1時標(biāo):如果數(shù)據(jù)含有時標(biāo),對新插入或更新的數(shù)據(jù)記錄,在其上添加更新時的時標(biāo),那么只需根據(jù)時標(biāo)判斷即可。但并非所有數(shù)據(jù)庫中的數(shù)據(jù)都含有時標(biāo)。2DELTA文件:它由應(yīng)用生成,記錄了應(yīng)用所改變的所有內(nèi)容。利用DELTA文件效率很高,它防止掃描整個數(shù)據(jù)庫,但生成DELTA文件的應(yīng)用并不普遍。
11、3前后映像文件方法:在抽取數(shù)據(jù)前后對數(shù)據(jù)庫各做一次快照,然后比較兩幅快照從而確定新數(shù)據(jù)。它占用大量資源,對性能影響極大,因此無實際意義。4日志文件:日志是DB固有機(jī)制,不影響OLTP性能。它還具有DELTA文件的優(yōu)越性質(zhì),提取數(shù)據(jù)只要局限日志文件即可,不用掃描整個數(shù)據(jù)庫。2、元數(shù)據(jù)的使用者:系統(tǒng)管理員和終端用戶3、元數(shù)據(jù)的管理功能1數(shù)據(jù)倉庫內(nèi)容的描述2定義數(shù)據(jù)抽取和轉(zhuǎn)換占整個數(shù)據(jù)倉庫開發(fā)的80%)3) 抽取調(diào)度,什么時候抽???4描述同步需求四、元數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù),提供有關(guān)數(shù)據(jù)的環(huán)境 1、元數(shù)據(jù)描述數(shù)據(jù)倉庫的數(shù)據(jù)和環(huán)境,分為:為了從操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù):源數(shù)據(jù)項的名稱、屬
12、性及其在數(shù)據(jù)倉庫中轉(zhuǎn)化。用來建立與最終用戶的多維商業(yè)模型和前端工具之間建立映射的:數(shù)據(jù)倉庫中信息的種類、存儲位置、存儲格式;信息之間的關(guān)系、信息與業(yè)務(wù)的關(guān)系、數(shù)據(jù)使用的業(yè)務(wù)規(guī)那么;數(shù)據(jù)模型;數(shù)據(jù)模型與數(shù)據(jù)倉庫的關(guān)系。4、元數(shù)據(jù)的標(biāo)準(zhǔn)化和商品化 需要一種元數(shù)據(jù)標(biāo)準(zhǔn)來幫助管理制造商進(jìn)行元數(shù)據(jù)信息交換。元數(shù)據(jù)標(biāo)準(zhǔn)可以保證共享數(shù)據(jù)的一致性。 美國技術(shù)支持小組SC14、ANSI委員會的X3L8等組織都涉及到了數(shù)據(jù)倉庫的元數(shù)據(jù)標(biāo)準(zhǔn)。 X3L8已試圖獨立開發(fā)管理共享數(shù)據(jù)的元模型。 由Arbor軟件公司、Cognos公司、Business Object 開展技術(shù)公司、Platinum技術(shù)公司和德州儀器公司聯(lián)合
13、發(fā)起組成的“元數(shù)據(jù)委員會的制造商集團(tuán)正在進(jìn)行數(shù)據(jù)倉庫領(lǐng)域內(nèi)各種產(chǎn)品間元數(shù)據(jù)交換的標(biāo)準(zhǔn)化工作。 SAS正致力于數(shù)據(jù)倉庫元數(shù)據(jù)的商品開發(fā)五、多維數(shù)據(jù)庫模式 實體關(guān)系ER模型一般用于關(guān)系型數(shù)據(jù)庫設(shè)計,而數(shù)據(jù)倉庫采用的是星型、雪片型或事實星座。1、星型模式 數(shù)據(jù)倉庫中包含1一個大的包含大批數(shù)據(jù)和不冗余的事實表中心表; 2一組小的附屬表,稱為維表。每維一個。 事實表中每條元組都含有指向各個維表的外鍵和一些相應(yīng)的測量數(shù)據(jù),事實表的記錄數(shù)量很多,維表中記錄的是有關(guān)這一維的屬性。例:時間鍵產(chǎn)品鍵地區(qū)鍵sales(事實表)銷售量銷售價time時間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型號itemlocation地區(qū)
14、鍵國家省市維表2、雪花模式 星型模式的變種,其中某些維表是標(biāo)準(zhǔn)化的。time時間鍵年季度月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型號item時間鍵產(chǎn)品鍵地區(qū)鍵sales(事實表)銷售量銷售價location地區(qū)鍵國家省鍵省鍵省名市鍵市鍵市名provincecity星型模式與雪花模式的差異: 雪花模式的維表可能是標(biāo)準(zhǔn)化的,以便減少冗余。這種表易于維護(hù),并節(jié)省存儲空間。 實際上,與巨大的事實表相比,這種空間的節(jié)省可以忽略。此外,由于執(zhí)行查詢需要更多的連接操作,雪花結(jié)構(gòu)可能降低瀏覽的性能。所以,在數(shù)據(jù)倉庫設(shè)計中,雪花模式不如星型模式流行。3、事實星座模式 復(fù)雜的應(yīng)用可能需要多個事實表共享維表。time時間鍵年季度
15、月星期天產(chǎn)品鍵產(chǎn)品類產(chǎn)品名型號item時間鍵產(chǎn)品鍵地區(qū)鍵sales(事實表)銷售量銷售價location地區(qū)鍵國家省市ship(事實表)產(chǎn)品鍵時間鍵起運點終止點運價六、數(shù)據(jù)抽取1、一個抽取要經(jīng)過許多步驟獲?。簭耐獠炕騼?nèi)部源數(shù)據(jù)系統(tǒng)中獲取對決策支持系統(tǒng)用戶有用的數(shù)據(jù)。過濾:過濾掉不需要的內(nèi)容如上次抽取后一直沒有改變的數(shù)據(jù)。驗證:從DSS用戶的角度驗證數(shù)據(jù)的質(zhì)量。融合:將本次抽取的數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行融合。綜合:對數(shù)據(jù)進(jìn)行綜合,生成概要級數(shù)據(jù)。裝載:把新數(shù)據(jù)裝入到數(shù)據(jù)倉庫中。存檔:把新裝入的數(shù)據(jù)單獨寸為一個文件,以減少更新操作的數(shù)據(jù)量。2、現(xiàn)有的數(shù)據(jù)倉庫方案中都有數(shù)據(jù)提取功能,但抽取和轉(zhuǎn)換過分復(fù)雜
16、時,需要用戶自己編寫抽取程序。SQL 2000中能接受第三方的抽取程序程序按OLE DB規(guī)定格式編寫3、有關(guān)抽取問題的討論1)數(shù)據(jù)庫中的空缺值 空缺的數(shù)據(jù)會影響數(shù)據(jù)挖掘的質(zhì)量,所以應(yīng)該處理忽略該元組 問題:假設(shè)缺少的數(shù)據(jù)的元組太多,那么性能非常差人工填寫空缺值問題:缺很多值時不可行使用一個全局常量填空問題:但由于該常量太多,數(shù)據(jù)挖掘程序可能會錯誤的認(rèn)為是一個有趣的概念。使用屬性的平均值填充空缺值使用與給定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值2)不一致的數(shù)據(jù) 由于某種原因的不一致需統(tǒng)一比方英制與公制3)樣本空間的大小 如抽取一局部數(shù)據(jù)進(jìn)行分析同在整個數(shù)據(jù)集合上進(jìn)行分析的結(jié)果是一樣的,那么取一局部數(shù)據(jù)進(jìn)行分析時空效率就高得多。采用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 無人機(jī)操控與航拍技術(shù)考核試卷
- 圖書館數(shù)字資源長期保存策略考核試卷
- 家電產(chǎn)品品質(zhì)監(jiān)控與質(zhì)量改進(jìn)考核試卷
- 整年運輸合同范本
- 大板委托加工合同范本
- 修剪綠化直營合同范本
- 工地個人水電合同范本
- 小學(xué)生美術(shù)課件制作教學(xué)
- 名片合同范本
- 財務(wù)支出季度計劃工作的分解與執(zhí)行要點
- GB/T 18601-2009天然花崗石建筑板材
- 畢業(yè)設(shè)計論文-貝類脫殼機(jī)設(shè)計
- 八項規(guī)定學(xué)習(xí)課件
- 《工程電磁場》配套教學(xué)課件
- 《過零丁洋》公開課件
- 從生產(chǎn)工藝角度詳解磷酸鐵鋰
- 全套橋梁施工技術(shù)交底記錄
- 《教師職業(yè)道德》全書word版
- 城市定制型商業(yè)醫(yī)療保險(惠民保)知識圖譜
- GB∕T 3836.31-2021 爆炸性環(huán)境 第31部分:由防粉塵點燃外殼“t”保護(hù)的設(shè)備
- AMDAR資料的分析和應(yīng)用
評論
0/150
提交評論