數(shù)據(jù)倉庫-數(shù)據(jù)挖掘-XML_第1頁
數(shù)據(jù)倉庫-數(shù)據(jù)挖掘-XML_第2頁
數(shù)據(jù)倉庫-數(shù)據(jù)挖掘-XML_第3頁
數(shù)據(jù)倉庫-數(shù)據(jù)挖掘-XML_第4頁
數(shù)據(jù)倉庫-數(shù)據(jù)挖掘-XML_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、補充知識數(shù)據(jù)倉庫設(shè)計與使用 教學(xué)要點本章內(nèi)容主要包括數(shù)據(jù)倉庫的概念,數(shù)據(jù)倉庫的設(shè)計方法,數(shù)據(jù)倉庫的數(shù)據(jù)提取與加載方法,在SQL Server平臺中創(chuàng)建、訪問與操縱數(shù)據(jù)倉庫,以及SQL Server 中的數(shù)據(jù)挖掘工具與應(yīng)用等內(nèi)容。本章既強(qiáng)調(diào)了必要的基礎(chǔ)知識,又結(jié)合具體的系統(tǒng)平臺,闡述了在SQL Server 的分析服務(wù)器中創(chuàng)建和分析數(shù)據(jù)倉庫的實際技術(shù),做到理論和實際相結(jié)合。 要求了解數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的概念,了解數(shù)據(jù)倉庫的數(shù)據(jù)提取與加載方法;掌握數(shù)據(jù)倉庫的設(shè)計方法,掌握SQL Server 數(shù)據(jù)倉庫開發(fā)工具及數(shù)據(jù)倉庫創(chuàng)建技術(shù),掌握SQL Server的決策樹分析和聚類分析數(shù)據(jù)挖掘工具與應(yīng)用的方法

2、。 建議教學(xué)安排:13.1節(jié)2學(xué)時,13.2節(jié)6學(xué)時,13.3節(jié)4學(xué)時,13.4節(jié)4學(xué)時,13.5節(jié)4學(xué)時。(資料來源于 SQL SSERVERR2000實實用教程,陳陳旭東主編, 教學(xué)要點本章內(nèi)容主要包括數(shù)據(jù)倉庫的概念,數(shù)據(jù)倉庫的設(shè)計方法,數(shù)據(jù)倉庫的數(shù)據(jù)提取與加載方法,在SQL Server平臺中創(chuàng)建、訪問與操縱數(shù)據(jù)倉庫,以及SQL Server 中的數(shù)據(jù)挖掘工具與應(yīng)用等內(nèi)容。本章既強(qiáng)調(diào)了必要的基礎(chǔ)知識,又結(jié)合具體的系統(tǒng)平臺,闡述了在SQL Server 的分析服務(wù)器中創(chuàng)建和分析數(shù)據(jù)倉庫的實際技術(shù),做到理論和實際相結(jié)合。 要求了解數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的概念,了解數(shù)據(jù)倉庫的數(shù)據(jù)提取與加載方法;掌

3、握數(shù)據(jù)倉庫的設(shè)計方法,掌握SQL Server 數(shù)據(jù)倉庫開發(fā)工具及數(shù)據(jù)倉庫創(chuàng)建技術(shù),掌握SQL Server的決策樹分析和聚類分析數(shù)據(jù)挖掘工具與應(yīng)用的方法。 建議教學(xué)安排:13.1節(jié)2學(xué)時,13.2節(jié)6學(xué)時,13.3節(jié)4學(xué)時,13.4節(jié)4學(xué)時,13.5節(jié)4學(xué)時。進(jìn)入21世紀(jì),商商業(yè)活動變得得越來越復(fù)雜雜,并且越來來越全球化,企企業(yè)迫切需要要大量的信息息來支持戰(zhàn)略略決策。但是是傳統(tǒng)的數(shù)據(jù)據(jù)庫技術(shù)不能能有效地將企企業(yè)內(nèi)海量數(shù)數(shù)據(jù)轉(zhuǎn)化為有有用的戰(zhàn)略信信息,數(shù)據(jù)倉倉庫為企業(yè)提提供了戰(zhàn)略信信息的系統(tǒng)環(huán)環(huán)境,為商業(yè)業(yè)智能化打下下了基礎(chǔ)。數(shù)數(shù)據(jù)倉庫已經(jīng)經(jīng)成為信息技技術(shù)的熱門領(lǐng)領(lǐng)域。SQLL Servver提

4、供了了一套比較完完整的創(chuàng)建數(shù)數(shù)據(jù)倉庫和數(shù)數(shù)據(jù)挖掘的解解決方案。 13.11 SQL Serveer 數(shù)據(jù)倉倉庫開發(fā)工具具及應(yīng)用13.1.1 數(shù)據(jù)倉庫的的基本概念I(lǐng)nmon(11993)給給數(shù)據(jù)倉庫下下了如下定義:“數(shù)據(jù)倉庫是是面向主題的的、綜合的、以以時間為變量量的、非易變變性的數(shù)據(jù)集集合,用來支支持管理決策策”。數(shù)據(jù)倉庫庫不同于操作作型的數(shù)據(jù)庫庫,操作型的的數(shù)據(jù)庫主要要用在聯(lián)機(jī)事事務(wù)處理(OOLTP),而而數(shù)據(jù)倉庫主主要用在聯(lián)機(jī)機(jī)分析處理(OOLAP)和和信息分析處處理。數(shù)據(jù)倉倉庫是一種信信息系統(tǒng)環(huán)境境,可以提供供企業(yè)綜合完完整的概括,使使企業(yè)的信息息保持一致性性,并且能夠夠支持決策處處理。

5、13.1.2 數(shù)據(jù)倉庫架架構(gòu)典型的數(shù)據(jù)倉庫庫架構(gòu)由一些些基本的功能能模塊組成(參參考圖13.1 數(shù)數(shù)據(jù)倉庫的架架構(gòu)圖):最最左邊是數(shù)據(jù)據(jù)源部分;然然后是數(shù)據(jù)提提取轉(zhuǎn)換層;中間是數(shù)據(jù)據(jù)存儲部分,它它管理數(shù)據(jù)倉倉庫的全部數(shù)數(shù)據(jù),并且保保存元數(shù)據(jù)信信息;最右邊邊是信息傳遞遞部分,包括括各種數(shù)據(jù)倉倉庫信息的顯顯示和分析工工具。其中,外外部數(shù)據(jù)源是是準(zhǔn)備裝載到到數(shù)據(jù)倉庫的的各種各樣的的數(shù)據(jù),包括括關(guān)系數(shù)據(jù)庫庫、電子表格格、文檔等。數(shù)數(shù)據(jù)提取轉(zhuǎn)換換層(Exttractiion Trransfoormatiion Laayer, ETL)是是從數(shù)據(jù)源中中提取數(shù)據(jù)并并將其轉(zhuǎn)換到到倉庫服務(wù)器器中的過程,主主要包

6、括數(shù)據(jù)據(jù)提取、轉(zhuǎn)換換和加載三部部分的內(nèi)容。元元數(shù)據(jù)描述了了數(shù)據(jù)的結(jié)構(gòu)構(gòu)和意義,元元數(shù)據(jù)連接了了數(shù)據(jù)倉庫的的所有部分,能能夠為開發(fā)者者提供數(shù)據(jù)倉倉庫內(nèi)容和結(jié)結(jié)構(gòu)的所有信信息,SQLL Servver提供了了比較完善的的元數(shù)據(jù)服務(wù)務(wù),元數(shù)據(jù)服服務(wù)將系統(tǒng)數(shù)數(shù)據(jù)庫msddb 用作默默認(rèn)知識庫(Repository)數(shù)據(jù)庫。數(shù)據(jù)倉庫存儲提供分析用的大量歷史數(shù)據(jù),這些數(shù)據(jù)的結(jié)構(gòu)和格式適合于各種分析方法。信息傳遞部分,主要包括報告、查詢工具, OLAP分析工具和數(shù)據(jù)挖掘工具,SQL Server的分析服務(wù)提供了比較完善的信息傳遞工具。圖13.1 數(shù)數(shù)據(jù)倉庫的架架構(gòu)圖13.1.3 SQL SServerr數(shù)據(jù)

7、倉庫開開發(fā)工具SQL Serrver有許許多應(yīng)用于數(shù)數(shù)據(jù)倉庫的工工具,為數(shù)據(jù)據(jù)倉庫的設(shè)計計、創(chuàng)建、分分析和應(yīng)用提提供了完整的的解決方案。1. 關(guān)系數(shù)據(jù)據(jù)庫關(guān)系數(shù)據(jù)庫不同同于數(shù)據(jù)倉庫庫,關(guān)系數(shù)據(jù)據(jù)庫主要應(yīng)用用于聯(lián)機(jī)事務(wù)務(wù)處理(OLLTP),而而數(shù)據(jù)倉庫主主要應(yīng)用于聯(lián)聯(lián)機(jī)分析處理理(OLAPP)和多種分分析功能,但但是關(guān)系數(shù)據(jù)據(jù)庫是數(shù)據(jù)倉倉庫最主要的的數(shù)據(jù)源,關(guān)關(guān)系數(shù)據(jù)庫技技術(shù)是數(shù)據(jù)倉倉庫設(shè)計、結(jié)結(jié)構(gòu)和維護(hù)的的基礎(chǔ)。 2. 數(shù)據(jù)轉(zhuǎn)換換服務(wù)數(shù)據(jù)倉庫應(yīng)用程程序需要將來來自許多源的的數(shù)據(jù)轉(zhuǎn)換為為聚合在一起起的、一致的的數(shù)據(jù)集,這這些數(shù)據(jù)集經(jīng)經(jīng)過了適當(dāng)配配置可用于數(shù)數(shù)據(jù)倉庫操作作。SQL Serveer

8、為這類類任務(wù)提供了了一個強(qiáng)大的的工具,即數(shù)數(shù)據(jù)轉(zhuǎn)換服務(wù)務(wù) (DTSS)。DTSS 可以訪問問來自各種不不同源的數(shù)據(jù)據(jù),并使用內(nèi)內(nèi)置的自定義義轉(zhuǎn)換規(guī)范轉(zhuǎn)轉(zhuǎn)換這些數(shù)據(jù)據(jù)。 3. 復(fù)制數(shù)據(jù)庫復(fù)制是具具有許多用途途的強(qiáng)大工具具。復(fù)制通常常用于分發(fā)數(shù)數(shù)據(jù)和協(xié)調(diào)聯(lián)聯(lián)機(jī)事務(wù)處理理系統(tǒng) (OOLTP) 中分布式數(shù)數(shù)據(jù)的更新,還還可用于數(shù)據(jù)據(jù)倉庫。一些些潛在的數(shù)據(jù)據(jù)倉庫的復(fù)制制應(yīng)用是將數(shù)數(shù)據(jù)從中央數(shù)數(shù)據(jù)倉庫分發(fā)發(fā)到數(shù)據(jù)集市市,以及從數(shù)數(shù)據(jù)準(zhǔn)備區(qū)更更新數(shù)據(jù)倉庫庫數(shù)據(jù)。4. 分析服務(wù)務(wù)(Anallysis Serviices)數(shù)據(jù)倉庫收集和和組織企業(yè)數(shù)數(shù)據(jù)以支持組組織通過分析析做出決策。分分析服務(wù)提供供聯(lián)機(jī)分析處處

9、理 (OLLAP) 技技術(shù),用以組組織大量的數(shù)數(shù)據(jù)倉庫數(shù)據(jù)據(jù)供客戶端工工具進(jìn)行快速速分析,并提提供先進(jìn)的數(shù)數(shù)據(jù)挖掘技術(shù)術(shù)以分析和發(fā)發(fā)現(xiàn)數(shù)據(jù)倉庫庫數(shù)據(jù)內(nèi)的信信息。5. Engllish QQueryEnglishh Querry 通過用用英語進(jìn)行查查詢,提供對對數(shù)據(jù)倉庫數(shù)數(shù)據(jù)的訪問。EEnglissh Queery 是用用于創(chuàng)建客戶戶端應(yīng)用程序序的開發(fā)工具具,使客戶端端應(yīng)用程序可可以將英語轉(zhuǎn)轉(zhuǎn)換為 SQQL 語法以以查詢關(guān)系數(shù)數(shù)據(jù)庫,或者者轉(zhuǎn)換為多維維表達(dá)式 (MDX) 語法以查詢詢 OLAPP 多維數(shù)據(jù)據(jù)集。 6. 元數(shù)據(jù)服服務(wù)(Metta Datta Serrvicess)在 SQL SSe

10、rverr的多種不同同工具中,有有許多可將中中央知識庫的的元數(shù)據(jù)存儲儲在 msddb 系統(tǒng)數(shù)數(shù)據(jù)庫中。SSQL Seerver 元數(shù)據(jù)服務(wù)務(wù)提供用于查查看這些元數(shù)數(shù)據(jù)的瀏覽器器,并提供用用于開發(fā)自定定義元數(shù)據(jù)應(yīng)應(yīng)用程序的應(yīng)應(yīng)用程序接口口。對于每個個分析服務(wù)器器,有一個稱稱作Anaalysiss Servvices 知識庫的的知識庫,以以便為分析服服務(wù)器的對象象(多維數(shù)據(jù)據(jù)集、維度等等)存儲元數(shù)數(shù)據(jù)??墒褂糜眠w移知識庫庫向?qū)⒃撝R庫遷移到到同一或不同同服務(wù)器計算算機(jī)上的 SSQL Seerver (.mdff) 數(shù)據(jù)庫庫,并可以通通過元數(shù)據(jù)服服的元數(shù)據(jù)瀏瀏覽器瀏覽數(shù)數(shù)據(jù)倉庫的元元數(shù)據(jù)。13.

11、2 SQQL Serrver 數(shù)數(shù)據(jù)倉庫的創(chuàng)創(chuàng)建在著手進(jìn)行數(shù)據(jù)據(jù)倉庫的創(chuàng)建建前,首先要要根據(jù)用戶的的需求和業(yè)務(wù)務(wù)流程對目標(biāo)標(biāo)數(shù)據(jù)倉庫進(jìn)進(jìn)行精心設(shè)計計,明確設(shè)計計的數(shù)據(jù)倉庫庫目標(biāo)必須滿滿足用戶的最最終需求。設(shè)設(shè)計完成后,便便可以借助SSQL Seerver的的強(qiáng)大的平臺臺創(chuàng)建數(shù)據(jù)倉倉庫。13.2.1 數(shù)據(jù)倉庫的的設(shè)計數(shù)據(jù)倉庫的設(shè)計計必須滿足下下列要求:綜綜合表達(dá)大量量用戶的經(jīng)驗驗,不能干擾擾現(xiàn)有的聯(lián)機(jī)機(jī)處理系統(tǒng)(OOLTP),提提供與數(shù)據(jù)協(xié)協(xié)調(diào)一致的中中心知識庫,快快速響應(yīng)復(fù)雜雜的查詢,提提供多種多樣樣的強(qiáng)大的分分析工具,例例如:聯(lián)機(jī)分分析處理(OOLAP)和和數(shù)據(jù)挖掘。大大部分成功的的數(shù)據(jù)倉庫

12、都都具有下列共共同的特征:基于維度模模型,保存有有歷史數(shù)據(jù),包包括有具體和和總攬的數(shù)據(jù)據(jù),能從多種種多樣的數(shù)據(jù)據(jù)來源中提取取數(shù)據(jù),并且且能夠保持一一致,致力于于單一的主題題。Ralph KKimballl根據(jù)數(shù)據(jù)據(jù)倉庫設(shè)計的的一般規(guī)律,提提出了數(shù)據(jù)倉倉庫設(shè)計的九九個步驟: 第一步:選擇擇主題的內(nèi)容容 第二步:確定定如何表達(dá)事事實表第三步:識別并并確認(rèn)維度第四步:選擇事事實第五步:在事實實表中存儲事事先計算的公公式第六步:修飾維維度表第七步:選擇數(shù)數(shù)據(jù)庫的持續(xù)續(xù)時間第八步:跟蹤變變化緩慢的維維度第九步:決定查查詢優(yōu)先級別別和查詢方式式下面根據(jù)Rallph Kiimballl的思想,闡闡述數(shù)據(jù)倉庫

13、庫設(shè)計的基本本要點。構(gòu)造數(shù)據(jù)倉庫模模型對于OLTP系系統(tǒng)的邏輯設(shè)設(shè)計一般采用用E-R建模模方法,而對對于數(shù)據(jù)倉庫庫的邏輯設(shè)計計需要維度建建模方法。維維度建模顯示示出事實表和和維度表之間間的相互關(guān)系系,并且允許許沿維度的層層次結(jié)構(gòu)下鉆鉆和上鉆。維維度模型主要要分為星型模模型和雪花模模型兩類,在在星型模型中中,每個維度度表都與中間間的事實表有有直接聯(lián)系,這這樣的模型架架構(gòu)像星形,事事實表位于星星形的中間,而而各個維度表表分布在星形形的各個角上上。在雪花模模型中,一個個或多個維度度表分解為多多個表,每個個表都有聯(lián)接接到主維度表表而不是事實實數(shù)據(jù)表的相相關(guān)性維度表表。雪花模型型是一種將星星型模型維度度

14、表規(guī)范化的的方法,如果果將所有維度度表完全規(guī)范范化,那么將將得到一個以以事實為中心心的雪花模型型結(jié)構(gòu)。以銷售信息為例例,包括一個個名為銷售的的事實數(shù)據(jù)表表,有關(guān)銷售售記錄的各種種信息可能包包括客戶、銷銷售人員、銷銷售的時間、銷銷售的產(chǎn)品和和產(chǎn)品的產(chǎn)地地。這些信息息中的每一類類都可組織為為自己的維度度表。客戶信信息放在客戶戶維度表中,產(chǎn)產(chǎn)地信息放在在產(chǎn)地維度表表中,時間信信息放在時間間的維度表中中,產(chǎn)品信息息放在產(chǎn)品維維度表中,銷銷售人員信息息放在銷售人人員維度表中中。圖13.2 星星型模型圖圖13.3雪花花模型圖星型模型和雪花花模型的差異異在于它們的的物理實現(xiàn)上上,由于雪花花模型更為規(guī)規(guī)范化,

15、所以以更容易維護(hù)護(hù)維度。而星星型模型通常常簡單而有效效的查詢,因因此則更加方方便于用戶的的直接訪問。選選擇何種模型型取決于維度度自身的特性性,雪花模型型一般用來構(gòu)構(gòu)造復(fù)雜的維維度。最好的的方案是為雪雪花模型構(gòu)造造星型模型的的視圖。 2. 確定主題根據(jù)用戶的需求求選定數(shù)據(jù)倉倉庫的主題是是非常關(guān)鍵的的。在數(shù)據(jù)倉倉庫中,數(shù)據(jù)據(jù)是按主題存存儲的。例如如對于一般的的制造企業(yè),銷銷售、發(fā)貨和和存貨都是非非常重要的商商業(yè)主題。3. 確定事實實表事實表是存儲指指標(biāo)的地方。每每個數(shù)據(jù)倉庫庫都包括一個個或多個事實實數(shù)據(jù)表。事事實表的主要要特點是包含含數(shù)字?jǐn)?shù)據(jù)(事事實),而這這些數(shù)字?jǐn)?shù)據(jù)據(jù)可以匯總以以提供有關(guān)單單位

16、運作歷史史的信息。每每個事實表還還包括一個由由多個部分組組成的索引,該該索引包含作作為外鍵的相相關(guān)性維度表表的主鍵,而而維度表包含含事實記錄的的特性。事實實表不應(yīng)包含含描述性信息息,也不應(yīng)包包含數(shù)字度量量字段以及使使事實與維度度表中的對應(yīng)應(yīng)項相關(guān)的索索引字段之外外的任何數(shù)據(jù)據(jù)。事實表的的列往往就是是以之關(guān)聯(lián)的的維度表的外外鍵。例如銷銷售事實表的的列prodduct_iid, cuustomeer_id分分別是產(chǎn)品維維度表和客戶戶維度表的外外鍵。4. 識別并確確認(rèn)維度維度是分類的有有組織的層次次結(jié)構(gòu),稱為為級別,它描描述數(shù)據(jù)倉庫庫事實表中的的數(shù)據(jù)。維度度一般描述一一個成員的相相似集合,用用戶將基

17、于該該集合進(jìn)行分分析,并且維維度是多維數(shù)數(shù)據(jù)集的基本本組件。一般般將維度劃分分為常規(guī)維度度、虛擬維度度、父子維度度和數(shù)據(jù)挖掘掘維度。從維維度表或聯(lián)接接維度表中選選擇一列或多多列。如果選選擇多列,應(yīng)應(yīng)使所有列內(nèi)內(nèi)部相關(guān)以便便可以將它們們的值組織到到一個層次結(jié)結(jié)構(gòu)中。若要要定義層次結(jié)結(jié)構(gòu),請按照照從最常規(guī)到到最具體的順順序排序列。例例如,時間間維度是由由年、季度、月和日日列創(chuàng)建的的。這種方法法將產(chǎn)生一個個常規(guī)維度。從從單個維度表表中選擇兩列列。其中一列列標(biāo)識維度層層次結(jié)構(gòu)的每每個組件,另另一列標(biāo)識每每個組件的父父代。這兩列列為表中的每每一行標(biāo)識一一個父子鏈接接。所有鏈接接組合起來便便可確定維度度的

18、層次結(jié)構(gòu)構(gòu)。例如,家族維度度由個人列和父輩輩列創(chuàng)建。這這種方法將產(chǎn)產(chǎn)生一個父子子維度。選擇擇另一個維度度中的一個或或多個成員屬屬性。每個成成員屬性都基基于另一個維維度表中的一一列。該列包包含的值是另另一列值的特特性。這種方方法將產(chǎn)生一一個虛擬維度度。定義虛擬擬維度的另一一種方法是直直接選擇另一一個維度表中中的列。使用用這種方法不不需要成員屬屬性。選擇當(dāng)當(dāng)在挖掘模型型向?qū)е袆?chuàng)建建 OLAPP 挖掘模型型時創(chuàng)建維度度??梢杂赏谕诰蚰P头治鑫龅慕Y(jié)果創(chuàng)建建維度,并可可創(chuàng)建包含該該維度及挖掘掘模型的源多多維數(shù)據(jù)集的的虛擬多維數(shù)數(shù)據(jù)集。5. 選擇事實實事實是包含在事事實表中的數(shù)數(shù)字?jǐn)?shù)據(jù),這這些數(shù)字?jǐn)?shù)據(jù)據(jù)可

19、以匯總以以提供有關(guān)單單位運作歷史史的信息,需需要選擇合適適的計量單位位或指標(biāo)。星星型模型或雪雪花模型的中中心是一個事事實表,因此此合理地選擇擇事實是數(shù)據(jù)據(jù)倉庫建模的的基礎(chǔ)。6. 在事實表表中存儲事先先計算的公式式在數(shù)據(jù)倉庫環(huán)境境中,當(dāng)數(shù)據(jù)據(jù)倉庫事實數(shù)數(shù)據(jù)表中包含含有數(shù)十萬行行時,如果不不得不掃描事事實數(shù)據(jù)表以以計算答案,則則請求某個特特定產(chǎn)品系列列每周銷售總總額的查詢需需花費很長時時間。但是,如如果用于回答答此查詢的匯匯總數(shù)據(jù)已經(jīng)經(jīng)預(yù)先計算好好,則幾乎可可以立即響應(yīng)應(yīng)。事先對事事實表中的指指標(biāo)做處理,是是非常必要的的。事實表的的指標(biāo)操作可可能是簡單的的加法,或者者計算平均值值,甚至是復(fù)復(fù)雜的算

20、法。在在事實表中存存儲事先計算算的公式,根根據(jù)需求預(yù)先先計算好數(shù)據(jù)據(jù)匯總,可以以快速響應(yīng)查查詢,改進(jìn)性性能。 7. 修修飾維度表維度表包含描述述事實數(shù)據(jù)表表中的事實記記錄的特性。在在維度表中,每每個表都包含含獨立于其它它維度的事實實特性。例如如,客戶維度度表包含有關(guān)關(guān)客戶的數(shù)據(jù)據(jù),產(chǎn)品維度度表包含有關(guān)關(guān)產(chǎn)品的信息息,而商店維維度表包含有有關(guān)商店的信信息。通過維維度建模產(chǎn)生生維度表架構(gòu)構(gòu),在系統(tǒng)中中創(chuàng)建維度表表需要注意下下列事項: (1)創(chuàng)建建代理鍵 維度表表的主鍵保持持穩(wěn)定很重要要。代理鍵是是在數(shù)據(jù)倉庫庫內(nèi)部維護(hù)的的鍵,而不是是從源數(shù)據(jù)系系統(tǒng)中獲得的的鍵。為所有有維度表的主主鍵創(chuàng)建代理理鍵并使

21、用它它們是非常重重要的。 (2)保持持引用完整性性 必須在所所有維度表和和事實表之間間維護(hù)引用完完整性。每個個事實記錄都都包含與維度度表中的主鍵鍵相關(guān)的外鍵鍵。每個事實實記錄都必須須在與事實表表一起使用的的每個維度表表中有相關(guān)記記錄。 (3)共享享維度 數(shù)據(jù)倉庫必須須為相似的查查詢提供一致致的信息。保保持一致性的的一種方法是是創(chuàng)建由數(shù)據(jù)據(jù)倉庫中的所所有組件和數(shù)數(shù)據(jù)集市共享享和使用的維維度表。8. 選擇數(shù)據(jù)據(jù)庫的持續(xù)時時間數(shù)據(jù)倉庫的數(shù)據(jù)據(jù)不是用來進(jìn)進(jìn)行每天的商商業(yè)交易的,這這一點是與OOLTP數(shù)據(jù)據(jù)的本質(zhì)區(qū)別別,數(shù)據(jù)倉庫庫中的數(shù)據(jù)是是供分析和決決策用的。數(shù)數(shù)據(jù)倉庫中的的數(shù)據(jù)是和時時間變化相關(guān)關(guān)的

22、數(shù)據(jù),因因此可以對過過去數(shù)據(jù)進(jìn)行行分析,也可可以對未來進(jìn)進(jìn)行預(yù)測。 OLTP的的數(shù)據(jù)每隔一一段時間被存存儲到數(shù)據(jù)倉倉庫中,必須須根據(jù)實際的的需要選擇存存儲轉(zhuǎn)移的時時間和頻率,此此外不同類型型數(shù)據(jù)的存儲儲轉(zhuǎn)移的時間間和頻率也可可能不同。例例如銷售數(shù)據(jù)據(jù)每天更新一一次,產(chǎn)品屬屬性的變化通通常每個星期期更新一次。決決定數(shù)據(jù)庫應(yīng)應(yīng)該保留多久久的歷史數(shù)據(jù)據(jù)是數(shù)據(jù)倉庫庫設(shè)計的一個個重要環(huán)節(jié)。9. 跟蹤變化化緩慢的維度度一般情況下,維維度表是相當(dāng)當(dāng)穩(wěn)定的,絕絕大部分維度度都是不變的的,很多維度度雖然會變化化,但是變化化很緩慢,需需要對跟蹤變變化緩慢的維維度,并且對對維度作修改改。針對變化化緩慢的維度度表有三

23、類修修改方法,分分別稱為第11類修改,第第2類修改和和第3類修改改。第1類修修改的方法是是用新的值覆覆蓋維度表中中的舊數(shù)值;屬性的舊數(shù)數(shù)值不需要保保留;維度表表中的鍵不受受影響。第22類修改的方方法是在維度度表中增加一一條新的記錄錄,該記錄存存有修改后的的數(shù)值;維度度表中可以包包含一個有效效日期字段;插入新的記記錄,該記錄錄有一個新的的替代鍵;原原來記錄的鍵鍵不受影響。第第3類修改的的方法是對受受影響的屬性性,維度表中中加入“舊的”字段;將“現(xiàn)有”字段值賦值值給“舊的”字段;將新新的值賦值給給“現(xiàn)有”字段;加入入一個“現(xiàn)有”有效日期。大大多數(shù)修改都都屬于第1類類和第2類修修改,第1類類修改最常

24、見見,第2類修修改保留了歷歷史數(shù)據(jù),第第3類修改屬屬于臨時性修修改。10. 決定查查詢優(yōu)先級別別和查詢方式式在數(shù)據(jù)倉庫設(shè)計計的最后一個個階段是制定定數(shù)據(jù)倉庫的的信息傳遞策策略,根據(jù)用用戶的需要和和用戶的水平平制定合理的的信息傳遞策策略。例如是是否需要為用用戶定制查詢詢和報表?查查詢頻率的估估計和查詢的的優(yōu)先級別,一一般盡量為用用戶提供多樣樣化的查詢/報表和分析析工具,以滿滿足多種多樣樣的用戶需求求。13.2.2 創(chuàng)建數(shù)據(jù)倉倉庫一旦完成了數(shù)據(jù)據(jù)倉庫設(shè)計后后,就可以在在分析服務(wù)器器上建立一個個數(shù)據(jù)庫,該該數(shù)據(jù)庫充當(dāng)當(dāng)著定義了想想要創(chuàng)建的數(shù)數(shù)據(jù)倉庫的對對象的邏輯存存儲空間。在在SQL SServer

25、r上創(chuàng)建數(shù)據(jù)據(jù)倉庫,主要要包括下列重重要步驟:建建立數(shù)據(jù)庫和和數(shù)據(jù)源,創(chuàng)創(chuàng)建維,創(chuàng)建建多維數(shù)據(jù)集集,創(chuàng)建虛擬擬多維數(shù)據(jù)集集。下面以SQL Serveer隨機(jī)帶的的數(shù)據(jù)庫范例例(FooddMart 2000)為為例,闡述創(chuàng)創(chuàng)建數(shù)據(jù)倉庫庫的基本過程程。1. 建立數(shù)據(jù)據(jù)庫和數(shù)據(jù)源源首先為要導(dǎo)入的的數(shù)據(jù)庫建立立ODBC的的系統(tǒng)DSNN數(shù)據(jù)源,然然后啟動Miicrosooft SQQL Serrver- Analyysis SServicces- Analyysis MManageer, 在服服務(wù)器上單擊擊右鍵,并選選擇新數(shù)據(jù)庫庫,在提示欄欄輸入新建數(shù)數(shù)據(jù)庫名字(例例如FooddMart 2000),完

26、完成后,在數(shù)數(shù)據(jù)庫的目錄錄有數(shù)據(jù)源、多多維數(shù)據(jù)集、共共享維度,挖挖掘模型和數(shù)數(shù)據(jù)庫角色等等項目(如下下圖13.4的左左上部分的控控制臺根目錄錄)。在數(shù)據(jù)據(jù)源的項目上上單擊右鍵,選選擇新數(shù)據(jù)源源,出現(xiàn)數(shù)據(jù)據(jù)鏈接屬性的的向?qū)Вㄈ缦孪聢D13.4所示示),按照向向?qū)?,選擇建建立的系統(tǒng)DDSN,建立立數(shù)據(jù)源。 圖13.4 建建立數(shù)據(jù)源2. 創(chuàng)建維創(chuàng)建維時,需要要決定它是共共享的還是私私有的,私有有維不能脫離離多維數(shù)據(jù)集集來處理,通通常建立的是是共享維。維維是創(chuàng)建一個個維有4個基基本步驟:(1). 在在數(shù)據(jù)源中選選擇一個或多多個維表(見見圖13.5 選選擇維度)。(2). 指指定維的類型型。(3). 選擇

27、級別別。(4). 命名維。對對于單表維選選擇星型結(jié)構(gòu)構(gòu),多表維選選擇雪花型結(jié)結(jié)構(gòu)。建立時時間維度,在在“選擇維度類類型”步驟中,選選擇“時間維度”選項,其他他維度,在“選擇維度類類型”步驟中,選選擇“標(biāo)準(zhǔn)維度”選項。具體體的方法是,在在共享維的項項目上單擊右右鍵,選擇新新建維度,按按向?qū)瓿山ńňS。圖13.5 選選擇維度3 創(chuàng)建多維數(shù)數(shù)據(jù)集多維數(shù)據(jù)集是數(shù)數(shù)據(jù)的一種多多維結(jié)構(gòu)。創(chuàng)創(chuàng)建多維數(shù)據(jù)據(jù)集主要包含含下列5個步步驟:選擇事實表、量量度列和維編輯改進(jìn)多維數(shù)數(shù)據(jù)集的定義義創(chuàng)建計算成員(單單元)設(shè)計聚合添加分區(qū)選擇事實表、量量度列和維選擇事實表:事實表中含有多多維數(shù)據(jù)集,用用戶要進(jìn)行分分析的數(shù)字?jǐn)?shù)

28、數(shù)據(jù)。數(shù)據(jù)源源中的一個表表內(nèi),為多維維數(shù)據(jù)集選擇擇主事實表(見見圖13.6 選選擇事實表)。圖13.6 選選擇事實表選擇數(shù)字列:選擇要用作多維維數(shù)據(jù)集度量量值的數(shù)字列列(見圖133.7 選擇擇數(shù)字列)。圖13.7 選選擇數(shù)字列選擇維度:為多維數(shù)據(jù)集選選擇維度??煽梢詮囊郧岸ǘx的共享維維度(即可供供其它多維數(shù)數(shù)據(jù)集使用的的維度)中選選擇(見圖113.8 選選擇維度),也也可以啟動維維度向?qū)?chuàng)建建新維度。圖13.8 選選擇維度(2)編輯改進(jìn)進(jìn)多維數(shù)據(jù)集集的定義如果要編輯改進(jìn)進(jìn)多維數(shù)據(jù)集集的定義,在在 Anallysis Managger 樹窗窗格中右擊一一個要修改的的多維數(shù)據(jù)集集,然后單擊擊“編

29、輯”命令,進(jìn)入入編輯器對話話框(見圖113.9 多多維數(shù)據(jù)集編編輯器)。除除可以編輯基基本的共享維維和量度外,還還可以添加計計算成員、計計算單元和私私有維。圖13.9 多多維數(shù)據(jù)集編編輯器(3) 創(chuàng)建計計算成員、計計算單元可以將多維數(shù)據(jù)據(jù)集數(shù)據(jù)、算算術(shù)運算符、數(shù)數(shù)字和/或函函數(shù)組合起來來創(chuàng)建自定義義度量值或維維度成員,這這些度量值和和維度成員稱稱為計算成員員。例如,通通過將匯率和和現(xiàn)有美元度度量值相乘,可可以創(chuàng)建將美美元轉(zhuǎn)換成馬馬克的計算成成員 Marrks。然后后 Markks 會在一一個單獨的行行或列中顯示示給最終用戶戶。計算成員員的定義將存存儲起來,而而它們的值則則只存在于內(nèi)內(nèi)存中??梢?/p>

30、以使用計算成成員生成器創(chuàng)創(chuàng)建計算成員員。使用計算單元可可以定義一個個多維表達(dá)式式 (MDXX) 公式,用用來為特定單單元組中的每每個單元提供供一個值??煽蛇x擇根據(jù)邏邏輯 MDXX 語句對單單元組中的每每個單元進(jìn)行行評估,以決決定該公式是是否適用于該該單元組中的的特定單元。與與計算成員一一樣,計算單單元的定義也也被存儲起來來。只有當(dāng)客客戶端應(yīng)用程程序查詢多維維數(shù)據(jù)集時,才才評估計算單單元的值。例例如,可以創(chuàng)創(chuàng)建計算單元元定義,它從從基于當(dāng)前年年份實際值的的計算結(jié)果提提供下一年的的預(yù)測值,但但是僅針對特特定的客戶和和產(chǎn)品。與計計算成員不同同,計算單元元可能影響多多維數(shù)據(jù)集的的特定單元而而不是一個整

31、整個成員;可可以只為整個個多維數(shù)據(jù)集集中的單個單單元創(chuàng)建計算算單元定義??煽梢允褂糜嬎闼銌卧?qū)?chuàng)創(chuàng)建計算單元元定義。(4)設(shè)計存儲儲選項和聚合合 聚合是是預(yù)先計算好好的數(shù)據(jù)匯總總,由于在問問題提出之前前已經(jīng)準(zhǔn)備了了答案,聚合合可以改進(jìn)查查詢響應(yīng)時間間。例如,當(dāng)當(dāng)數(shù)據(jù)倉庫事事實數(shù)據(jù)表中中包含有數(shù)十十萬行時,如如果不得不掃掃描事實數(shù)據(jù)據(jù)表以計算答答案,則請求求某個特定產(chǎn)產(chǎn)品系列每周周銷售總額的的查詢需花費費很長時間。但但是,如果用用于回答此查查詢的匯總數(shù)數(shù)據(jù)已經(jīng)預(yù)先先計算好,則則幾乎可以立立即響應(yīng)。預(yù)預(yù)先計算匯總總數(shù)據(jù)是 OOLAP 技技術(shù)快速響應(yīng)應(yīng)時間的基礎(chǔ)礎(chǔ)。使用存儲設(shè)計向向?qū)Э梢匝杆偎俸啽?/p>

32、地為分分區(qū)設(shè)置存儲儲選項和設(shè)計計聚合。有三三類存儲選項項:MOLAAP,ROLLAP,HOOLAP。MMOLAP是是多維 OLLAP (MMOLAP) 將聚合和和分區(qū)源數(shù)據(jù)據(jù)的一個復(fù)本本存儲到分析析服務(wù)器計算算機(jī)中的多維維結(jié)構(gòu)中。RROLAP是是關(guān)系 OLLAP (RROLAP) 將聚合存存儲在一個關(guān)關(guān)系型結(jié)構(gòu)中中,并把分區(qū)區(qū)的源數(shù)據(jù)保保留在它現(xiàn)有有的關(guān)系型結(jié)結(jié)構(gòu)中。HOOLAP是混混合 OLAAP (HOOLAP) 將聚合存儲儲到分析服務(wù)務(wù)器計算機(jī)上上的多維結(jié)構(gòu)構(gòu)中,并將分分區(qū)的源數(shù)據(jù)據(jù)保留在它現(xiàn)現(xiàn)有的關(guān)系型型結(jié)構(gòu)中。 在設(shè)計多多維數(shù)據(jù)集時時,必須保持持聚合表的存存儲需要與查查詢速度和查查詢

33、性能之間間的平衡。能能達(dá)到此平衡衡關(guān)系的方法法有三種: (1). 設(shè)置存儲空空間大小并確確定存儲哪個個聚合。該方方法在存儲空空間有限時十十分有效。(22). 設(shè)置置所需的性能能提升百分比比,使必要的的聚合表可以以按其所需占占用存儲空間間。(3). 觀察性性能與大小圖表的增長長,手工確定定最佳平衡關(guān)關(guān)系。(5) 設(shè)計分分區(qū)分區(qū)即是進(jìn)行管管理大的多維維數(shù)據(jù)集的強(qiáng)強(qiáng)大而靈活的的工具。例如如,某個包含含銷售信息的的多維數(shù)據(jù)集集可以含有一一個存儲過去去每一年數(shù)據(jù)據(jù)的分區(qū)和四四個針對當(dāng)年年每一季度的的分區(qū)。在年年末這四個針針對季度的分分區(qū)可以合并并成一個單獨獨的針對全年年的分區(qū)。 每個多維維數(shù)據(jù)集都至至少

34、有一個用用于包含該多多維數(shù)據(jù)集數(shù)數(shù)據(jù)的分區(qū);當(dāng)定義多維維數(shù)據(jù)集時,將將自動為其創(chuàng)創(chuàng)建一個分區(qū)區(qū)。為多維數(shù)數(shù)據(jù)集創(chuàng)建新新分區(qū)時,該該新分區(qū)就添添加到多維數(shù)數(shù)據(jù)集已有的的分區(qū)集合中中。多維數(shù)據(jù)據(jù)集反映了其其所有分區(qū)所所包含的組合合數(shù)據(jù)。 可可以使用不同同的選項組合合方式存儲分分區(qū),這些選選項涉及源數(shù)數(shù)據(jù)位置、聚聚合、數(shù)據(jù)位位置、存儲模模式和聚合設(shè)設(shè)計。這種靈靈活性使您得得以按照需要要設(shè)計多維數(shù)數(shù)據(jù)集的存儲儲策略??梢酝ㄟ^多維數(shù)數(shù)據(jù)集下的分分區(qū)項目,按按照向?qū)гO(shè)計計分區(qū)。圖13.10 存儲設(shè)計向向?qū)? 創(chuàng)建虛擬多多維數(shù)據(jù)集 虛擬多多維數(shù)據(jù)集是是一個邏輯多多維數(shù)據(jù)集內(nèi)內(nèi)多個多維數(shù)數(shù)據(jù)集的組合合,為多維

35、數(shù)數(shù)據(jù)集提供了了一個視圖,通通過限制部分分用戶查看基基礎(chǔ)多維數(shù)據(jù)據(jù)集時的訪問問權(quán)限,虛擬擬多維數(shù)據(jù)集集可以提供很很有意義的安安全性功能。 由于虛擬多多維數(shù)據(jù)集只只存儲其定義義,而不存儲儲其組件多維維數(shù)據(jù)集的數(shù)數(shù)據(jù),因此,它它們實際上不不需要物理存存儲空間。 在創(chuàng)建虛擬擬多維數(shù)據(jù)集集時,需從基基礎(chǔ)組件多維維數(shù)據(jù)集的維維度和度量值值的合并集合合內(nèi)選擇度量量值和維度。最最終用戶所看看到的該虛擬擬多維數(shù)據(jù)集集是一個多維維數(shù)據(jù)集。 可以通過過向?qū)?chuàng)建虛虛擬多維數(shù)據(jù)據(jù)集,在創(chuàng)建建虛擬多維數(shù)數(shù)據(jù)集后,必必須首先對其其進(jìn)行處理,然然后才能通過過客戶端應(yīng)用用程序進(jìn)行瀏瀏覽。處理虛虛擬多維數(shù)據(jù)據(jù)集將建立起起指向其

36、基礎(chǔ)礎(chǔ)多維數(shù)據(jù)集集內(nèi)所指定的的維度和度量量值的內(nèi)部鏈鏈接。13.3 SQQL Serrver 數(shù)數(shù)據(jù)倉庫訪問問與操縱13.3.1 多維數(shù)據(jù)集集瀏覽器 Analysiis Mannager 提供多維數(shù)數(shù)據(jù)集瀏覽器器,使用這個個工具可以查查看多維數(shù)據(jù)據(jù)集中的數(shù)據(jù)據(jù),使您能方方便、快捷地地訪問多維數(shù)數(shù)據(jù)集數(shù)據(jù)。多多維數(shù)據(jù)集瀏瀏覽器使您得得以快速地以以平面二維網(wǎng)網(wǎng)格格式瀏覽覽多維數(shù)據(jù)。右擊已處理過的的多維數(shù)據(jù)集集,然后單擊擊瀏覽數(shù)據(jù)據(jù)命令,即即可顯示多維維數(shù)據(jù)集瀏覽覽器(見圖113.11 多維數(shù)據(jù)集集瀏覽器)。在在瀏覽多維數(shù)數(shù)據(jù)集數(shù)據(jù)時時,可以查看看不同的維度度,深化到各各個成員,以以及對維度進(jìn)進(jìn)行切

37、片。圖13.11 多維數(shù)據(jù)集集瀏覽器13.3.2遠(yuǎn)遠(yuǎn)程連接訪問問多維數(shù)據(jù)集集使用該工具使遠(yuǎn)遠(yuǎn)程客戶通過過OFFICCE20000的EXCEEL或ACCCESS訪問問服務(wù)器中的的多維數(shù)據(jù)集集。在使用之之前要求OFFFICE加加裝Micrrosoftt Querry工具。以以Excell為例,啟動動 Micrrosoftt Exceel, 在“數(shù)據(jù)”菜單中,單單擊“數(shù)據(jù)透視表表和數(shù)據(jù)透視視圖報表”命令。 單單擊“外部數(shù)據(jù)源源”,然后單擊擊“下一步”按鈕。在向向?qū)У牡诙讲?,單擊“獲取數(shù)據(jù)”。 “選擇數(shù)據(jù)源源”對話框打開開。單擊“OLAP 多維數(shù)據(jù)集集”選項卡。確確保選中“”,然后單擊擊“確定”按鈕

38、?!皠?chuàng)建新數(shù)據(jù)據(jù)源”對話框打開開,在“請輸入數(shù)據(jù)據(jù)源名稱:” 框中,輸輸入任意名稱稱。在“為您要訪問問的數(shù)據(jù)庫選選定一個 OOLAP 供供應(yīng)者”框中,單擊擊“Microosoft OLE DDB Prooviderr for OLAP Serviices 88.0”,單擊“連接”。 “多維連接”對話框打開開,選擇分析析服務(wù)器,在在服務(wù)器欄中中輸入服務(wù)器器名。這時顯顯示分析服務(wù)務(wù)器中可用的的數(shù)據(jù)庫列表表。選擇需要要分析的數(shù)據(jù)據(jù)庫,然后單單擊“完成”按鈕。 在“創(chuàng)建新數(shù)據(jù)據(jù)源”對話框中(見見圖13.12. 創(chuàng)建新數(shù)數(shù)據(jù)源),在在“選定包含所所需數(shù)據(jù)的多多維數(shù)據(jù)集:”框中,從清清單中選擇需需要分析的

39、多多維數(shù)據(jù)集,然然后單擊“確定”按鈕。圖13.12 創(chuàng)建新數(shù)據(jù)據(jù)源返回 Exceel 電子表表格,在 EExcel 電子表格中中,可以通過過數(shù)據(jù)透視表表方便地分析析和展示數(shù)據(jù)據(jù)(見圖133.13. Exceel 電子表表格中數(shù)據(jù)透透視表)。圖13.13 Exceel 電子表表格中數(shù)據(jù)透透視表13.3.3 ENGLIISH QUUERYEnglishh Querry以英語作作為自然語言言用于訪問由由SQL SServerr 分析服務(wù)務(wù)創(chuàng)建的數(shù)據(jù)據(jù)倉庫數(shù)據(jù)庫庫或多維數(shù)據(jù)據(jù)集中的數(shù)據(jù)據(jù)。Engllish QQuery是是與SQL Serveer集成的工工具,需要獨獨立安裝。具具體分析過程程如下:1.

40、 啟動Miicrosooft Ennglishh Querry, 選擇擇OLAP Projeect Wiizard(見圖13.14. 建立項目目向?qū)?,命命名項目名,打打開,2. 進(jìn)入選擇分分析服務(wù)器的的對話框,輸輸入服務(wù)器名名和選擇需要要分析的數(shù)據(jù)據(jù)庫。3. 從數(shù)據(jù)倉庫庫的列表中選選擇多維數(shù)據(jù)據(jù)集(例如SSales).4.創(chuàng)建查查詢模型, 模型是Ennglishh Querry應(yīng)用的所所有信息的集集合,包括特特定的數(shù)據(jù)庫庫對象(例如如表,域和聯(lián)聯(lián)結(jié))和語意意對象(實體體和它們的關(guān)關(guān)系)??梢砸酝ㄟ^Prooject Wizarrd創(chuàng)建(見見圖13.15. 項目的實實體OLAPP對象)。55.執(zhí)

41、行Ennglishh Querry。在菜單單欄選擇Deebug-SStart, 出現(xiàn)“Modell Testt”對話框,在在Queryy條目中輸入入Engliish Quuery語句句,按執(zhí)行按按鈕,便可顯顯示查詢結(jié)果果。例如需要要查詢多維數(shù)數(shù)據(jù)集中國家家的清單,可可在Querry條目中輸輸入英語句子子:listt the counttry,便可可顯示相關(guān)的的查詢結(jié)果(見見圖13.16 Engliish Quuery查詢詢結(jié)果),非非常簡單自然然。圖13.14 建立項目向向?qū)D13.15 項目的實體體OLAP對對象圖13.16 Engliish Quuery查詢詢結(jié)果13.3.4 其它1. S

42、QL 查詢分析 SQL 查詢很復(fù)雜雜,必須具有有數(shù)據(jù)庫專業(yè)業(yè)知識才能正正確創(chuàng)建。最最終用戶很少少使用結(jié)構(gòu)化化查詢語言 (SQL) 查詢直接接訪問數(shù)據(jù)倉倉庫數(shù)據(jù)。2. 鉆取 (drilll throough) 檢索詳細(xì)數(shù)據(jù),多多維數(shù)據(jù)集單單元中的數(shù)據(jù)據(jù)根據(jù)它們進(jìn)進(jìn)行匯總。3. 自定義應(yīng)應(yīng)用程序SQL Serrver及其其組件提供了了一套豐富的的應(yīng)用程序接接口 (APPI),可用用于開發(fā)自定定義應(yīng)用程序序以增強(qiáng)和自自動化數(shù)據(jù)倉倉庫管理,或或創(chuàng)建適合業(yè)業(yè)務(wù)需要的客客戶端應(yīng)用程程序。13.4 SQQL Serrver 中中的數(shù)據(jù)提取取與加載13.4.1數(shù)數(shù)據(jù)提取轉(zhuǎn)換換層(ETLL)數(shù)據(jù)提取轉(zhuǎn)換層層(E

43、xtrractioon Traansforrmatioon Layyer, EETL)是從從數(shù)據(jù)源中提提取數(shù)據(jù)并將將其轉(zhuǎn)換到倉倉庫服務(wù)器中中的過程,主主要包括數(shù)據(jù)據(jù)提取、轉(zhuǎn)換換和加載三部部分的內(nèi)容。具具體實施時應(yīng)應(yīng)該包括下列列步驟:1. 創(chuàng)建數(shù)據(jù)據(jù)準(zhǔn)備區(qū)由于實施數(shù)據(jù)提提取轉(zhuǎn)換工作作需要創(chuàng)建表表和其它數(shù)據(jù)據(jù)庫對象,因因此為了不影影響OLTPP數(shù)據(jù)庫,一一般要建立數(shù)數(shù)據(jù)準(zhǔn)備區(qū),并并可以為數(shù)據(jù)據(jù)準(zhǔn)備區(qū)創(chuàng)建建單獨的數(shù)據(jù)據(jù)庫。數(shù)據(jù)準(zhǔn)備區(qū)包括括傳入數(shù)據(jù)的的表、幫助實實現(xiàn)代理鍵的的表以及容納納轉(zhuǎn)換數(shù)據(jù)的的表??赡苄栊枰渌韰f(xié)協(xié)調(diào)來自不同同數(shù)據(jù)源的數(shù)數(shù)據(jù);這些表表可能包含標(biāo)標(biāo)識常用實體體的交叉引用用信息???/p>

44、能能還需要各種種臨時表執(zhí)行行中間轉(zhuǎn)換。數(shù)數(shù)據(jù)準(zhǔn)備區(qū)的的特定設(shè)計取取決于數(shù)據(jù)源源的多樣性、組組織數(shù)據(jù)以裝裝入數(shù)據(jù)倉庫庫時所需的轉(zhuǎn)轉(zhuǎn)換程度以及及傳入數(shù)據(jù)的的一致性。準(zhǔn)準(zhǔn)備裝入數(shù)據(jù)據(jù)倉庫的數(shù)據(jù)據(jù)所在的表與與數(shù)據(jù)倉庫中中的目標(biāo)表應(yīng)應(yīng)具有相同的的架構(gòu)。2. 提取數(shù)據(jù)據(jù)數(shù)據(jù)提取過程的的目的是使所所有的源數(shù)據(jù)據(jù)都具有通用用的、一致的的格式,以便便準(zhǔn)備裝入數(shù)數(shù)據(jù)倉庫。提提取數(shù)據(jù)是成成功創(chuàng)建數(shù)據(jù)據(jù)倉庫的關(guān)鍵鍵,需要指定定合理的數(shù)據(jù)據(jù)提取策略,一一般需要事先先確認(rèn)數(shù)據(jù)的的源系統(tǒng)和結(jié)結(jié)構(gòu),確定針針對每個數(shù)據(jù)據(jù)源的提取方方法、提取頻頻率、時間序序列上的表示示方法和異常常處理的措施施。對于數(shù)據(jù)倉庫,可可能需要從不不同的

45、系統(tǒng)源源提取數(shù)據(jù)。數(shù)數(shù)據(jù)最初在數(shù)數(shù)據(jù)倉庫創(chuàng)建建過程中提取取,并且在更更新數(shù)據(jù)倉庫庫的過程中不不斷地定期提提取。如果源源數(shù)據(jù)駐留在在單個關(guān)系數(shù)數(shù)據(jù)庫中,則則數(shù)據(jù)提取是是簡單的操作作,但如果源源數(shù)據(jù)駐留在在多個異類可可操作系統(tǒng)中中,則數(shù)據(jù)提提取是復(fù)雜的的操作。在協(xié)協(xié)調(diào)很多格式式、數(shù)據(jù)編碼碼和其它不一一致的提取過過程中,可以以使用 SQQL Serrver 數(shù)數(shù)據(jù)轉(zhuǎn)換服務(wù)務(wù) (DTSS) 的強(qiáng)大大功能處理復(fù)復(fù)雜的操作。3.數(shù)據(jù)轉(zhuǎn)換 從源系統(tǒng)統(tǒng)提取后,數(shù)數(shù)據(jù)應(yīng)駐留在在數(shù)據(jù)準(zhǔn)備區(qū)區(qū),在這里可可以在數(shù)據(jù)裝裝入數(shù)據(jù)倉庫庫前完成清理理和轉(zhuǎn)換。提提取得到的數(shù)數(shù)據(jù)是沒有經(jīng)經(jīng)過加工的數(shù)數(shù)據(jù),不能直直接裝入數(shù)據(jù)據(jù)倉庫

46、,為了了保證數(shù)據(jù)質(zhì)質(zhì)量,數(shù)據(jù)必必須要經(jīng)過清清理和轉(zhuǎn)換。 典型的數(shù)數(shù)據(jù)轉(zhuǎn)換包括括下列步驟: (1). 合并數(shù)據(jù)據(jù) 必須能能夠?qū)⑻囟楉椖浚ɡ绠a(chǎn)產(chǎn)品、顧客、職職員)的全部部相關(guān)信息從從多個 OLLTP 系統(tǒng)統(tǒng)合并到一個個 OLAPP 系統(tǒng)。合合并過程必須須解決不同 OLTP 系統(tǒng)間的編編碼差別問題題。合并過程程還必須能夠夠?qū)⒏?OLLTP 系統(tǒng)統(tǒng)中使用不同同數(shù)據(jù)類型存存儲的數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換成在某個個 OLAPP 系統(tǒng)中使使用的單一數(shù)數(shù)據(jù)類型。您您也必須選擇擇 OLTPP 系統(tǒng)中的的哪些列與 OLAP 系統(tǒng)無關(guān),并并將這些列排排除在合并過過程外。 (2). 清理數(shù)據(jù)據(jù) 清理數(shù)數(shù)據(jù)的目的是是消除數(shù)據(jù)的的不

47、一致。不不同的 OLLTP 系統(tǒng)統(tǒng)以不同的方方式拼寫項目目,或者合并并過程可能沒沒有覆蓋以前前不知道的拼拼寫錯誤。 (3). 聚合數(shù)據(jù)據(jù) OLAAP 查詢通通常需要匯總總數(shù)據(jù)或是已已以某種方式式聚合的數(shù)據(jù)據(jù)。對數(shù)據(jù)倉倉庫內(nèi)數(shù)據(jù)的的聚合程度取取決于許多設(shè)設(shè)計因素,如如 OLAPP 查詢的速速度要求和分分析所要求的的粒度級。數(shù)據(jù)轉(zhuǎn)換過程常常常包括下列列內(nèi)容: 將多個名稱字段段組合成一個個字段。將日日期字段劃分分成單獨的年年、月、日字字段。將數(shù)據(jù)據(jù)從一個表示示法映射到另另一個,如從從 TRUEE 到 1 和 FALLSE 到 0 或者郵郵編從數(shù)字到到文本。將數(shù)數(shù)據(jù)從多個表表示法映射到到單個表示法法,

48、如電話號號碼的常用格格式,或不同同的信用等級級代碼到常用用的好、一一般、不好表示法。創(chuàng)創(chuàng)建并應(yīng)用維維度表記錄的的代理鍵。加載數(shù)據(jù) 清理數(shù)據(jù)據(jù)并將其轉(zhuǎn)換換成與數(shù)據(jù)倉倉庫要求一致致的結(jié)構(gòu)后,數(shù)數(shù)據(jù)即準(zhǔn)備裝裝入數(shù)據(jù)倉庫庫。將數(shù)據(jù)裝裝入數(shù)據(jù)倉庫庫就是在填充充將由顯示應(yīng)應(yīng)用程序使用用的表。裝載載數(shù)據(jù)通常涉涉及從源可操操作系統(tǒng)、數(shù)數(shù)據(jù)準(zhǔn)備區(qū)數(shù)數(shù)據(jù)庫或數(shù)據(jù)據(jù)倉庫數(shù)據(jù)庫庫中的準(zhǔn)備區(qū)區(qū)表傳輸大量量的數(shù)據(jù)。數(shù)數(shù)據(jù)裝入數(shù)據(jù)據(jù)倉庫數(shù)據(jù)庫庫后,驗證維維度和事實數(shù)數(shù)據(jù)表之間的的引用完整性性,確保所有有的記錄都與與其它表中的的適當(dāng)記錄相相關(guān)。初始裝裝載數(shù)據(jù)倉庫庫時要填充數(shù)數(shù)據(jù)倉庫架構(gòu)構(gòu)中的表,然然后驗證數(shù)據(jù)據(jù)是否準(zhǔn)備用用于

49、裝載。 可以用不同同的方法裝載載數(shù)據(jù)倉庫表表,如Traansactt-SQL、DTS和bccp 實用工工具。13.4.2數(shù)數(shù)據(jù)提取轉(zhuǎn)換換層的應(yīng)用工工具數(shù)據(jù)轉(zhuǎn)換服務(wù)(DDTS)是數(shù)數(shù)據(jù)提取轉(zhuǎn)換換層工作流的的最重要的工工具,它主要要包括下列一一些重要的應(yīng)應(yīng)用:1. 作為提取取數(shù)據(jù)源的重重要工具DTS 能從文文本文件或 OLE DDB 數(shù)據(jù)源源(例如,OORACLEE、INFOORMIX、SSYSBASSE、ACCCESS、DDBASE等等其它異質(zhì)數(shù)數(shù)據(jù)庫)將數(shù)數(shù)據(jù)導(dǎo)入到 SQL SServerr 中。2. 作為數(shù)據(jù)據(jù)轉(zhuǎn)換的重要要工具轉(zhuǎn)換數(shù)據(jù)任務(wù)用用于在源和目目的之間復(fù)制制數(shù)據(jù),并將將列級轉(zhuǎn)換選選擇

50、性地應(yīng)用用于數(shù)據(jù)。轉(zhuǎn)轉(zhuǎn)換數(shù)據(jù)任務(wù)務(wù)是數(shù)據(jù)轉(zhuǎn)換換服務(wù) (DDTS) 中中數(shù)據(jù)抽取引引擎的最基本本實現(xiàn)。 轉(zhuǎn)轉(zhuǎn)換使得在導(dǎo)導(dǎo)入和導(dǎo)出進(jìn)進(jìn)程期間執(zhí)行行復(fù)雜的數(shù)據(jù)據(jù)驗證、數(shù)據(jù)據(jù)清理和變換換更加容易。對對于列數(shù)據(jù),可可以更改列的的類型、大小小、小數(shù)位數(shù)數(shù)、精度或為為空性。3. 作為數(shù)據(jù)據(jù)加載的重要要工具在數(shù)據(jù)準(zhǔn)備區(qū)完完成數(shù)據(jù)提取取、清理、轉(zhuǎn)轉(zhuǎn)換工作后,通通過DTS將將數(shù)據(jù)準(zhǔn)備區(qū)區(qū)的數(shù)據(jù)庫遷遷移到數(shù)據(jù)倉倉庫。數(shù)據(jù)提取轉(zhuǎn)換層層的應(yīng)用工具具除了數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換服務(wù) (DTS)工工具外,還有有SQL SServerr提供的其它它工具,例如如復(fù)制,Trransacct-SQLL和bcp 實用工具等等。 13.5 SQQL

51、 Serrver 中中的數(shù)據(jù)挖掘掘工具與應(yīng)用用13.5.1 數(shù)據(jù)挖掘的的基本概念數(shù)據(jù)挖掘(Daata Miining, DM)是是從大量的、不不完全的、有有噪聲的、模模糊的、隨機(jī)機(jī)的數(shù)據(jù)中提提取其中有用用信息和知識識的過程。簡簡單來說,數(shù)數(shù)據(jù)挖掘是幫幫助終端用戶戶從大量數(shù)據(jù)據(jù)中提取有用用信息的過程程。數(shù)據(jù)挖掘掘的數(shù)據(jù)源主主要是數(shù)據(jù)倉倉庫和關(guān)系數(shù)數(shù)據(jù)庫。數(shù)據(jù)據(jù)挖掘是一門門交叉學(xué)科涉涉及數(shù)據(jù)庫、人人工智能、數(shù)數(shù)理統(tǒng)計等多多學(xué)科知識。數(shù)據(jù)挖掘常用的的分析方法有有:決策樹、分分類分析、聚聚類分析、神神經(jīng)網(wǎng)絡(luò)、遺遺傳算法、規(guī)規(guī)則推導(dǎo)、關(guān)關(guān)聯(lián)分析和時時間序列分析析等多種方法法。SQL Serveer的分析

52、服服務(wù)提供了建建立在數(shù)據(jù)倉倉庫基礎(chǔ)上的的數(shù)據(jù)挖掘應(yīng)應(yīng)用的接口和和常用的數(shù)據(jù)據(jù)挖掘技術(shù)工工具。13.5.2 SQL SServerr的數(shù)據(jù)挖掘掘模型數(shù)據(jù)挖掘模型是是數(shù)據(jù)挖掘的的中央對象。數(shù)數(shù)據(jù)挖掘模型型是一個虛擬擬結(jié)構(gòu),它表表示關(guān)系或多多維數(shù)據(jù)的分分組和預(yù)測分分析。數(shù)據(jù)挖挖掘模型的結(jié)結(jié)構(gòu)在許多方方面與數(shù)據(jù)庫庫表的結(jié)構(gòu)相相似。但是,數(shù)數(shù)據(jù)庫表代表表的是記錄的的集合(或記記錄集),而而數(shù)據(jù)挖掘模模型將記錄的的解釋表示為為規(guī)則和模式式時,這些統(tǒng)統(tǒng)計信息的組組成稱為事例例。數(shù)據(jù)挖掘掘模型的結(jié)構(gòu)構(gòu)表示定義數(shù)數(shù)據(jù)挖掘模型型的事例集,而而所存儲的數(shù)數(shù)據(jù)則表示來來自處理事例例數(shù)據(jù)的規(guī)則則和模式。若要確定數(shù)據(jù)挖挖

53、掘模型中每每個特性的相相對重要性,該該模型需經(jīng)歷歷稱為挖掘模模型培訓(xùn)的過過程。在培訓(xùn)訓(xùn)過程中,將將向模型提供供數(shù)據(jù)以便進(jìn)進(jìn)行分析。然然后,模型所所用的數(shù)據(jù)挖挖掘算法以各各種方式檢查查這些培訓(xùn)數(shù)數(shù)據(jù)集并進(jìn)行行測試,以便便在數(shù)據(jù)的分分類和預(yù)測方方面得到一些些結(jié)論,數(shù)據(jù)據(jù)挖掘模型可可以使用 OOLAP 多多維數(shù)據(jù)集或或關(guān)系數(shù)據(jù)庫庫的數(shù)據(jù)進(jìn)行行培訓(xùn)。作為數(shù)據(jù)挖掘進(jìn)進(jìn)程的中心,數(shù)數(shù)據(jù)挖掘模型型算法決定如如何分析數(shù)據(jù)據(jù)挖掘模型的的事例。數(shù)據(jù)據(jù)挖掘模型算算法提供了用用于處理數(shù)據(jù)據(jù)挖掘列的分分類、分割、關(guān)關(guān)聯(lián)和分析數(shù)數(shù)據(jù)所需的決決策制定能力力,這些數(shù)據(jù)據(jù)挖掘列提供供有關(guān)事例集集的預(yù)測、變變化或可能性性的信息。

54、目前,在SQLL Servver的分析析服務(wù)中提供供了兩類數(shù)據(jù)據(jù)挖掘模型,即即Microosoft決決策樹模型和和Microosoft聚聚集模型。13.5.3 決策樹分析析決策樹算法是基基于分類概念念的算法構(gòu)造造樹,此樹將將基于培訓(xùn)集集中的剩余列列預(yù)測列值。因因此,樹中的的每個節(jié)點代代表一列的特特定事例。具具體方法如下下: 1.選擇需要要分析的多維維數(shù)據(jù)集 在 Annalysiis Mannager 樹視圖中,展展開“多維數(shù)據(jù)集集”文件夾,例例如在示例數(shù)數(shù)據(jù)倉庫中選選擇“Saless”多維數(shù)據(jù)集集。2.建立挖掘模模型 執(zhí)行“新新建挖掘模型型”命令,選擇擇“Microosoft 決策樹”。3.選

55、擇事例 確定維度度和級別。本本例,維度選選擇Custtomerss 級別選擇擇name。4.選擇被預(yù)測測實體有“源多維數(shù)據(jù)據(jù)集的度量值值”、“事例級別的的成員屬性”和其它維度度的成員三項項選擇,在此此例,以“事例級別的的成員屬性”選項,成員員屬性選擇MMemberr Cardd。5. 選擇培訓(xùn)訓(xùn)數(shù)據(jù)在“Custoomer”維度上,清清除“Counttry”、“Statee Provvince”和“City”框(見圖133.17 數(shù)數(shù)據(jù)挖掘模型型向?qū)ВD13.17 數(shù)據(jù)挖掘模模型向?qū)?. 創(chuàng)建維度度和虛擬多維維數(shù)據(jù)集可以用OLAPP數(shù)據(jù)的挖掘掘模型分析結(jié)結(jié)果創(chuàng)建一個個新維度,也也可以創(chuàng)建一一個

56、新的虛擬擬多維數(shù)據(jù)集集,瀏覽此虛虛擬多維數(shù)據(jù)據(jù)集以查看數(shù)數(shù)據(jù)挖掘分析析的結(jié)果。7. 命名“模模型名稱”命名“模型名稱稱”,并且選擇“保存并開始始處理”,處理完畢畢后就可以瀏瀏覽分析結(jié)果果(見圖133.18 決決策樹分析結(jié)結(jié)果)。圖13.18 決策樹分析析結(jié)果13.5.4 聚類分析聚類是按特定的的標(biāo)準(zhǔn)將數(shù)據(jù)據(jù)歸類成組。聚聚類算法是一一種期望方法法,它使用迭迭代完善技術(shù)術(shù)將相似的記記錄分組到附附近區(qū)域。具具體方法如下下:1. 選擇需要要分析的多維維數(shù)據(jù)集在 Analyysis MManageer 樹視圖圖中,展開“多維數(shù)據(jù)集集”文件夾,例例如在示例數(shù)數(shù)據(jù)倉庫中選選擇“Saless”多維數(shù)據(jù)集集。2

57、. 建立挖掘掘模型執(zhí)行“新建挖掘掘模型”命令,選擇擇Microosoft 聚集”。3. 選擇事例例確定維度和級別別。本例,維維度選擇Cuustomeers 級別別選擇namme。4. 選擇培訓(xùn)訓(xùn)數(shù)據(jù)在“Custoomer”維度上,清清除“Counttry”、“Statee Provvince”和“City”框。命名“模型名稱稱”命名“模型名稱稱”,并且選擇擇“保存并開始始處理”,處理完畢畢后就可以瀏瀏覽分析結(jié)果果。可以通過過在基本屬性性窗格中,修修改“Clustter Coount”框中的值,得得到希望的聚聚類數(shù)目(見見圖13.19聚聚類數(shù)目為44的分析結(jié)果果)。圖13.19 聚類數(shù)目為為4的

58、分析結(jié)結(jié)果本章小結(jié) 數(shù)據(jù)倉倉庫是一種信信息系統(tǒng)環(huán)境境,能夠支持持決策處理。數(shù)數(shù)據(jù)倉庫不同同于操作型的的數(shù)據(jù)庫,操操作型的數(shù)據(jù)據(jù)庫主要用在在聯(lián)機(jī)事務(wù)處處理(OLTTP),而數(shù)數(shù)據(jù)倉庫主要要用在聯(lián)機(jī)分分析處理(OOLAP)和和信息分析處處理。數(shù)據(jù)倉倉庫的設(shè)計一一般包括:構(gòu)構(gòu)造數(shù)據(jù)倉庫庫模型,確定定主題,確定定事實表,識識別并確認(rèn)維維度,選擇事事實,在事實實表中存儲事事先計算的公公式,修飾維維度表,選擇擇數(shù)據(jù)庫的持持續(xù)時間,跟跟蹤變化緩慢慢的維度以及及決定查詢優(yōu)優(yōu)先級別和查查詢方式等內(nèi)內(nèi)容。SQLL Servver的分析析服務(wù)為數(shù)據(jù)據(jù)倉庫的創(chuàng)建建、分析和數(shù)數(shù)據(jù)挖掘提供供了強(qiáng)大的技技術(shù)支撐,并并且能夠

59、與SSQL Seerver的的關(guān)系數(shù)據(jù)庫庫高度集成。通通過數(shù)據(jù)轉(zhuǎn)換換服務(wù)、復(fù)制制技術(shù)將外部部的數(shù)據(jù)源轉(zhuǎn)轉(zhuǎn)換為數(shù)據(jù)倉倉庫的數(shù)據(jù)存存儲,在分析析服務(wù)器中建建立數(shù)據(jù)庫、創(chuàng)創(chuàng)建維、多維維數(shù)據(jù)集和虛虛擬多維數(shù)據(jù)據(jù)集,通過多多維數(shù)據(jù)集瀏瀏覽器、數(shù)據(jù)據(jù)透視表和EENGLISSH QUEERY等技術(shù)術(shù)訪問和操縱縱數(shù)據(jù)倉庫,應(yīng)應(yīng)用SQL Serveer提供的決決策樹分析和和聚類分析數(shù)數(shù)據(jù)挖掘工具具對數(shù)據(jù)倉庫庫進(jìn)行決策分分析處理。習(xí)題十三1. 什么是數(shù)數(shù)據(jù)倉庫。2. 什么是數(shù)數(shù)據(jù)挖掘。3. 闡述數(shù)據(jù)據(jù)倉庫設(shè)計的的一般方法。4. 在隨機(jī)數(shù)數(shù)據(jù)倉庫FooodMarrt 20000中,求美美國三個州(CCA,OR和和W

60、A)19997年度四四個季度的飲飲料平均銷售售額。5. 在隨機(jī)數(shù)數(shù)據(jù)倉庫FooodMarrt 20000中,選擇擇多維數(shù)據(jù)集集Saless進(jìn)行決策樹樹分析,分析析消費者年收收入在700000至900000美元元之間的色彩彩(Bronnze,Goolden,Normaal,Sillver)偏偏好。6. 在隨機(jī)數(shù)數(shù)據(jù)倉庫FooodMarrt 20000中,選擇擇多維數(shù)據(jù)集集Saless進(jìn)行聚類分分析,聚類數(shù)數(shù)目確定為44,分析4類類消費群教育育程度(Baacheloors Deegree,GGraduaate Deegree,HHigh SSchooll Degrree,Paartiall Col

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論