


版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 有關(guān)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)的幾個(gè)基本問(wèn)題:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)由兩種存儲(chǔ)方式:一種是存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,另一種是按多維的 方式存儲(chǔ),也就是多維數(shù)組。數(shù)據(jù)倉(cāng)庫(kù)中存在不同的綜合級(jí)別的數(shù)據(jù)。一般把數(shù)據(jù)分成四個(gè)級(jí)別,早期細(xì)節(jié)級(jí)數(shù) 據(jù),當(dāng)前細(xì)節(jié)級(jí)數(shù)據(jù),輕度綜合級(jí),高度綜合級(jí)。不同的綜合級(jí)別一般稱為粒度。粒度越大, 表示細(xì)節(jié)程度越低,綜合程度越高。級(jí)別的劃分是根據(jù)粒度進(jìn)行的。數(shù)據(jù)倉(cāng)庫(kù)中還有一種是元數(shù)據(jù),也就是關(guān)于數(shù)據(jù)的數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)字典 向數(shù)據(jù)倉(cāng)庫(kù)環(huán)境轉(zhuǎn)換而建立的元數(shù)據(jù),它包含了數(shù)據(jù)源的各種屬性以及轉(zhuǎn)換時(shí)的各種屬性; 另一種元數(shù)據(jù)是用來(lái)與多維模型和前端工具建立映射用的。 綜合程度越低,回答查詢的種類越多
2、;反之粒度越大,細(xì)節(jié)程度越低,綜合程度越高,回答 分割是將數(shù)據(jù)分散到各自的物理單元中去以便能分別獨(dú)立處理,以提高數(shù)據(jù)處理的 效率。數(shù)據(jù)分割后的數(shù)據(jù)單元成為分片。數(shù)據(jù)分割的標(biāo)準(zhǔn)可以根據(jù)實(shí)際情況來(lái)確定,通???選擇按日期、地域或者業(yè)務(wù)領(lǐng)域等進(jìn)行分割,也可以按照多個(gè)標(biāo)準(zhǔn)組合分割。4、追加時(shí)數(shù)據(jù)的組織方式這里說(shuō)一種比較簡(jiǎn)單的情況,輪轉(zhuǎn)綜合文件。比如:數(shù)據(jù)存儲(chǔ)單位被分為日、周、 季度、年等幾個(gè)級(jí)別。每天將數(shù)據(jù)記錄在日記錄集中;然后七天的數(shù)據(jù)被綜合存放在周記錄 集中,每隔一季度周記錄集中的數(shù)據(jù)被存放到季度記錄集中,依此類推.這種方法把越 早期的記錄存放的綜合程度越高,也就是粒度越大。B數(shù)據(jù)倉(cāng)庫(kù)的實(shí)現(xiàn)步驟:
3、一般地,設(shè)計(jì)和創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的步驟是:1.確定用戶需求確定終端用戶的需要,為數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)建立模型。通過(guò)數(shù)據(jù)模型,可以得 到企業(yè)完整而清晰的描述信息。數(shù)據(jù)模型是面向主題建立的,同時(shí)又為多個(gè)面向應(yīng)用的數(shù)據(jù) 源的集成提供了統(tǒng)一的標(biāo)準(zhǔn)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型一般包括:企業(yè)的各個(gè)主題域、主題域之 間的聯(lián)系、描述主題的碼和屬性組。深入地分析企業(yè)的數(shù)據(jù)源,記錄數(shù)據(jù)源系統(tǒng)的功能與處理過(guò)程。一般地,設(shè)計(jì)數(shù)據(jù) 倉(cāng)庫(kù)最重要的一步便是要理解商業(yè)動(dòng)作的規(guī)律,只有了解數(shù)據(jù)是如何被處理的,才能分解商 業(yè)處理過(guò)程,從中獲取數(shù)據(jù)元素。利用現(xiàn)有系統(tǒng)的信息,確定從源數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型所必須的轉(zhuǎn)化/綜合邏 輯。這涉及到應(yīng)該合
4、并轉(zhuǎn)化多少數(shù)據(jù);是綜合所有的數(shù)據(jù)文件還是綜合發(fā)生變化的操作系統(tǒng) 事件。無(wú)論數(shù)據(jù)倉(cāng)庫(kù)的更新是采用事件驅(qū)動(dòng)還是時(shí)間驅(qū)動(dòng),都必須讓數(shù)據(jù)倉(cāng)庫(kù)知道當(dāng)某種事 件發(fā)生時(shí)就需要更新數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)建立之前,應(yīng)該寫(xiě)一個(gè)詳細(xì)的方案和實(shí)現(xiàn)規(guī)劃。這種方案和實(shí)現(xiàn)規(guī)劃包 括:建立商業(yè)案例、收集用戶需求、確定技術(shù)需求。建立商業(yè)案例包括由該方案解決的商業(yè) 需求、方案的成本和投資的收益。收集用戶需求主要是調(diào)查用戶建立數(shù)據(jù)倉(cāng)庫(kù)的意圖。用戶 業(yè)規(guī)則、需要提供給用戶的查詢、用戶需要的標(biāo)準(zhǔn)報(bào)告、將要使用的客戶應(yīng)用程序工具。確 備份和恢復(fù)機(jī)制、安全性限制、從經(jīng)營(yíng)系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)加載數(shù)據(jù)和轉(zhuǎn)換數(shù)據(jù)的方法。2.設(shè)計(jì)和建立數(shù)據(jù)庫(kù)設(shè)計(jì)和建立數(shù)據(jù)庫(kù)
5、是成功地創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)關(guān)鍵步驟。這一步通常由有經(jīng)驗(yàn)的 數(shù)據(jù)庫(kù)設(shè)計(jì)人員使用,因?yàn)檫@一步涉及的數(shù)據(jù)來(lái)自多種數(shù)據(jù)源并且要把它們合并成一個(gè)單獨(dú) 種非常非正規(guī)化的形式存儲(chǔ)數(shù)據(jù)以便提高查詢的性能。數(shù)據(jù)倉(cāng)庫(kù)常常使用星型模式和雪花型 模式來(lái)存儲(chǔ)數(shù)據(jù),作為OLAP工具管理的合計(jì)基礎(chǔ),以便盡可能快地響應(yīng)復(fù)雜查詢。星型模式是最流行的實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)結(jié)構(gòu)。星型模式通過(guò)使用一個(gè)包含主題的 事實(shí)表和多個(gè)包含事實(shí)的非正規(guī)化描述的維度表來(lái)執(zhí)行典型的決策支持查詢。一旦創(chuàng)建了事 在該模式的中間是事實(shí)表,周圍是次要的表,數(shù)據(jù)在事實(shí)表中維護(hù),維度數(shù)據(jù)在維度表中維 例如時(shí)間、地理位置、組織等等。維度用于父層和子層這類分層結(jié)構(gòu)。例
6、如,地理位置維度 可以包含國(guó)家、城市等數(shù)據(jù)。因此,在該維度表中,緯度由所有的國(guó)家、所有的城市組成。 為了支持這種分層結(jié)構(gòu),在維度表中需要包括每一個(gè)成員與更高層次上緯度的關(guān)系。維度關(guān) 鍵字是用于查詢中心事實(shí)表數(shù)據(jù)的標(biāo)識(shí)符。維度關(guān)鍵字就像主鍵一樣,把一個(gè)維度表與事實(shí) 表中的一行鏈接起來(lái)。這種結(jié)構(gòu)使得很容易構(gòu)造復(fù)雜的查詢語(yǔ)句并且支持決策支持系統(tǒng)中向 下挖掘式的分析。事實(shí)表包含了描述商業(yè)特定事件的數(shù)據(jù)。例如銀行業(yè)務(wù)或者產(chǎn)品銷售。事 實(shí)表還包含了任何數(shù)據(jù)合計(jì),例如每一個(gè)地區(qū)每月的銷售情況。一般地,事實(shí)表中的數(shù)據(jù)是 不允許修改的,新數(shù)據(jù)只是簡(jiǎn)單地增加進(jìn)去。維度表包含了用于參考存儲(chǔ)在事實(shí)表中數(shù)據(jù)的 數(shù)據(jù),例
7、如產(chǎn)品描述、客戶姓名和地址、供應(yīng)商信息等。把特征信息和特定的事件分開(kāi),可 以通過(guò)減少在事實(shí)表中掃描的數(shù)據(jù)量提高查詢性能。維度表不包含與事實(shí)表同樣多的數(shù)據(jù), 維度數(shù)據(jù)可以改變,例如客戶的地址或者電話號(hào)碼改變了。通過(guò)降低需要從磁盤(pán)讀取數(shù)據(jù)的數(shù)據(jù)量,星型模式設(shè)計(jì)有助于提高查詢性能。查詢 語(yǔ)句分析比較小的維度表中的數(shù)據(jù)來(lái)獲取維度關(guān)鍵字以便在中心的事實(shí)表中索引,可以降低 在轉(zhuǎn)換OLTP數(shù)據(jù)庫(kù)模式到星型模式時(shí),涉及的步驟如下:確定事實(shí)表和維度表設(shè)計(jì)事實(shí)表設(shè)計(jì)維度表實(shí)現(xiàn)數(shù)據(jù)庫(kù)設(shè)計(jì)(1)確定事實(shí)表和維度表 常重要的。如果確認(rèn)不正確,那么數(shù)據(jù)倉(cāng)庫(kù)的性能就比較差,在以后可能需要重新設(shè)計(jì)。重 新設(shè)計(jì)一個(gè)可能包含了大
8、量數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù)是一項(xiàng)耗費(fèi)很大的任務(wù)。確定事實(shí)表和維度表的 結(jié)構(gòu)和組成的過(guò)程比較難,特別是當(dāng)涉及多個(gè)OLTP系統(tǒng)時(shí)。(2)設(shè)計(jì)事實(shí)表設(shè)計(jì)事實(shí)表的主要目標(biāo)是最小化表的大小。事實(shí)表是數(shù)據(jù)庫(kù)中的表,因?yàn)樗鼈儼?了基本的商業(yè)事務(wù)的詳細(xì)信息。然而,一定要考慮存儲(chǔ)和維護(hù)這些大表的成本。例如,大表的處理時(shí)間比較長(zhǎng)、備份和恢復(fù)的時(shí)間比較長(zhǎng)、執(zhí)行查詢的時(shí)間也比較長(zhǎng)。降低事實(shí)表大小 的最簡(jiǎn)單方法如下:降低列的數(shù)量、盡可能地降低每一個(gè)列的大小、把歷史數(shù)據(jù)歸檔到單獨(dú) (3)設(shè)計(jì)維度表設(shè)計(jì)維度表的主要目標(biāo)是非正規(guī)化那么參考事實(shí)表的數(shù)據(jù)到一個(gè)單獨(dú)的表。最常用 的維度數(shù)據(jù)應(yīng)該直接參考事實(shí)表,而不是通過(guò)其他維度表間接參考維
9、度表。這種方法可以最 小化表連接的數(shù)量,提高系統(tǒng)的性能。(4)實(shí)現(xiàn)數(shù)據(jù)庫(kù)設(shè)計(jì)當(dāng)事實(shí)表和維度表設(shè)計(jì)之后,最后一步是在MicrosoftSQLServer中物理地實(shí)現(xiàn)數(shù) 據(jù)庫(kù)。當(dāng)創(chuàng)建數(shù)據(jù)庫(kù)時(shí),考慮分區(qū)策略,可以使用由SQLServer提供的可以并行處理數(shù)據(jù)的 文件組。當(dāng)創(chuàng)建用于存儲(chǔ)事實(shí)和維度的表時(shí),應(yīng)該盡可能地考慮數(shù)據(jù)庫(kù)的分區(qū)策略,把事實(shí) 表分別存儲(chǔ)在不同的文件組上。索引可以加速數(shù)據(jù)倉(cāng)庫(kù)的檢索,應(yīng)該在每一個(gè)維度表的關(guān)鍵 字列上創(chuàng)建一個(gè)索引。3.提取和加載數(shù)據(jù)把經(jīng)營(yíng)系統(tǒng)中數(shù)據(jù)提取出來(lái)然后加載到數(shù)據(jù)倉(cāng)庫(kù)中,隨著復(fù)雜性的變化而變化。如 果在數(shù)據(jù)源中的數(shù)據(jù)和將要出現(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是直接關(guān)聯(lián),那么這個(gè)進(jìn)
10、程非常簡(jiǎn)單。 這個(gè)進(jìn)程也可能非常地復(fù)雜,例如數(shù)據(jù)源的數(shù)據(jù)駐留在多個(gè)異構(gòu)系統(tǒng)中,并且在加載數(shù)據(jù)之 前需要大量的轉(zhuǎn)變格式和修改。提取和加載數(shù)據(jù)的進(jìn)程如下:校驗(yàn)經(jīng)營(yíng)系統(tǒng)中的數(shù)據(jù)從經(jīng)營(yíng)系統(tǒng)中提取數(shù)據(jù)凈化數(shù)據(jù)把數(shù)據(jù)轉(zhuǎn)換和遷移到數(shù)據(jù)倉(cāng)庫(kù)中 析人員在數(shù)據(jù)源確定是有效的。對(duì)數(shù)據(jù)的任何變化應(yīng)該在經(jīng)營(yíng)系統(tǒng)中改變,而不是在數(shù)據(jù)倉(cāng) 庫(kù)中。校驗(yàn)數(shù)據(jù)是非常耗時(shí)的,通過(guò)寫(xiě)存儲(chǔ)過(guò)程來(lái)檢查數(shù)據(jù)的域完整性來(lái)自動(dòng)化校驗(yàn)進(jìn)程。 然而,手工校驗(yàn)數(shù)據(jù)也是必要的。如果發(fā)現(xiàn)了無(wú)效的數(shù)據(jù),應(yīng)該盡力找到錯(cuò)誤發(fā)生的原因和 從經(jīng)營(yíng)系統(tǒng)中遷移數(shù)據(jù)一般是在數(shù)據(jù)拷貝到數(shù)據(jù)倉(cāng)庫(kù)之前,把數(shù)據(jù)拷貝到一個(gè)中間 中活動(dòng)比較低的時(shí)候拷貝數(shù)據(jù),否則會(huì)降低系統(tǒng)的性能。另
11、外,如果該數(shù)據(jù)倉(cāng)庫(kù)是由來(lái)自多 個(gè)相關(guān)經(jīng)營(yíng)系統(tǒng)中的數(shù)據(jù)構(gòu)成,應(yīng)該確保數(shù)據(jù)遷移發(fā)生在系統(tǒng)同步的時(shí)候。如果經(jīng)營(yíng)系統(tǒng)不 同步,那么數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)可能會(huì)產(chǎn)生預(yù)想不到的錯(cuò)誤。在Microsoft SQL Server 7中, Microsoft SQL Server Data Transformation Services Import and Export wizards可以 用來(lái)創(chuàng)建一系列任務(wù), 可以把數(shù)據(jù)從異構(gòu)經(jīng)營(yíng)系統(tǒng)中拷貝到一個(gè)運(yùn)行SQLServer的中間數(shù)據(jù) (3)數(shù)據(jù)凈化數(shù)據(jù)凈化就是使數(shù)據(jù)達(dá)到一致性。在多個(gè)經(jīng)營(yíng)系統(tǒng)中,可能有相同的數(shù)據(jù)。例如, 一個(gè)名稱為ABCCooperation的公司可能
12、被寫(xiě)成ABCCo、ABC、ABCCooperation等。如果這 些名稱不一致,那么在查詢的時(shí)候就會(huì)將這個(gè)公司作為兩個(gè)不同的公司處理。如果在數(shù)據(jù)倉(cāng) 庫(kù)中的數(shù)據(jù)生成一致的信息,那么該公司的名稱必須完全一致。數(shù)據(jù)凈化可以通過(guò)下面幾種方法得到:在從OLTP系統(tǒng)拷貝到中間數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)時(shí),使用SQL Server的數(shù)據(jù)轉(zhuǎn)換服 務(wù)的數(shù)據(jù)引入引出向?qū)薷臄?shù)據(jù)寫(xiě)一個(gè)連接數(shù)據(jù)源的Microsoft ActiveX腳本或者Visual C+程序,由DTS API程 序執(zhí)行,來(lái)凈化數(shù)據(jù) 程序可以保證產(chǎn)品的名稱為完整的名稱。一旦數(shù)據(jù)凈化之后,就可以把數(shù)據(jù)移動(dòng)到數(shù)據(jù)倉(cāng)庫(kù) 在數(shù)據(jù)的遷移進(jìn)程中,一般地,經(jīng)常需要把經(jīng)營(yíng)數(shù)據(jù)轉(zhuǎn)換成一種單獨(dú)的格式,以便 適應(yīng)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)。例
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 車輛租賃合同終止及車輛租賃服務(wù)評(píng)價(jià)協(xié)議
- 教育機(jī)構(gòu)場(chǎng)地租賃行政合同
- 成品油運(yùn)輸車輛保險(xiǎn)及救援服務(wù)合同
- 車輛掛靠與品牌推廣一體化合同
- 智能交通系統(tǒng)承包開(kāi)發(fā)合同范本三
- 廠房租賃與節(jié)能環(huán)保技術(shù)改造合同
- AbMole:Z-VAD-FMK讓凋亡焦亡壞死性凋亡機(jī)制研究更上一層樓
- 車輛轉(zhuǎn)讓與保險(xiǎn)權(quán)益轉(zhuǎn)移合同范本
- LC術(shù)后并發(fā)癥及護(hù)理
- 基于財(cái)產(chǎn)分配及子女監(jiān)護(hù)權(quán)的個(gè)性化夫妻離異協(xié)議
- 張雙樓煤礦安全評(píng)價(jià)報(bào)告(出版稿10.14)
- 關(guān)于贛州市登革熱病例疫情的初步調(diào)查報(bào)告
- 網(wǎng)絡(luò)輿論監(jiān)督存在的問(wèn)題及對(duì)策分析研究行政管理專業(yè)
- 普佑克四期臨床方案
- (蘇教版)二年級(jí)科學(xué)(下冊(cè))第四單元課件全套
- 深圳實(shí)驗(yàn)學(xué)校小學(xué)畢業(yè)班數(shù)學(xué)試卷
- 工業(yè)產(chǎn)品質(zhì)量監(jiān)督抽查復(fù)查復(fù)檢樣品確認(rèn)書(shū)(模板)
- 掛牌上鎖及維修管理程序文件
- 上海初中地理會(huì)考知識(shí)點(diǎn)匯總(上海鄉(xiāng)土地理
- 模糊層次分析法講解
- 《合成生物學(xué)》課件.ppt
評(píng)論
0/150
提交評(píng)論