數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22課件_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22課件_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22課件_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22課件_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22課件_第5頁(yè)
已閱讀5頁(yè),還剩131頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2-22022/12/16數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2-22022/12/13數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖1第二章數(shù)據(jù)倉(cāng)庫(kù)原理2.1數(shù)據(jù)倉(cāng)庫(kù)定義2.2數(shù)據(jù)倉(cāng)庫(kù)特征

2.3數(shù)據(jù)庫(kù)體系化環(huán)境2.4數(shù)據(jù)倉(cāng)構(gòu)造模式2.5數(shù)據(jù)倉(cāng)庫(kù)概念結(jié)構(gòu)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織小節(jié)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22第二章數(shù)據(jù)倉(cāng)庫(kù)原理2.1數(shù)據(jù)倉(cāng)庫(kù)定義數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖2

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織粒度分區(qū)維度元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)3

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織

粒度分割維度元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)42.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織為了提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與事務(wù)型處理及其數(shù)據(jù)相分離,把分析型處理所需要的數(shù)據(jù)從事務(wù)型處理環(huán)境中提取出來(lái),按照分析型處理的要求進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)正是構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織為了提高分析和決策的效率和有效52.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)不同于一般的數(shù)據(jù)庫(kù)系統(tǒng),需要將從原有的業(yè)務(wù)數(shù)據(jù)庫(kù)中獲得的基本數(shù)據(jù)和綜合數(shù)據(jù)分成一些不同的級(jí)別。在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)按照粒度從小到大可分為四個(gè)級(jí)別:早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度細(xì)節(jié)級(jí)和高度細(xì)節(jié)級(jí)。從事務(wù)型處理環(huán)境中提取的源數(shù)據(jù)經(jīng)過(guò)綜合后,首先進(jìn)入當(dāng)前細(xì)節(jié)級(jí),并根據(jù)需要進(jìn)行進(jìn)一步的綜合進(jìn)入輕度綜合級(jí)或高度數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)不同于一6

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)元數(shù)據(jù)高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)元高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期7數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別早期細(xì)節(jié)級(jí)一般而言,當(dāng)前細(xì)節(jié)級(jí)的數(shù)據(jù)對(duì)于決策的支持程度隨數(shù)據(jù)發(fā)生時(shí)間的久遠(yuǎn)而降低。為了有效控制數(shù)據(jù)倉(cāng)庫(kù)中當(dāng)前細(xì)節(jié)級(jí)數(shù)據(jù)的規(guī)模,保證系統(tǒng)的運(yùn)行效率,在設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)時(shí),通常應(yīng)結(jié)合業(yè)務(wù)的特點(diǎn)和系統(tǒng)硬件的水平,設(shè)定一個(gè)合理的時(shí)間閥值,將老化的數(shù)據(jù)轉(zhuǎn)為早期細(xì)節(jié)級(jí)的數(shù)據(jù),并以合適的方式進(jìn)行存儲(chǔ)。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)8數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別當(dāng)前細(xì)節(jié)級(jí)來(lái)自數(shù)據(jù)源的數(shù)據(jù),所反映的都是當(dāng)前的業(yè)務(wù)情況,因此在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)之后,首先做為當(dāng)前細(xì)節(jié)級(jí)數(shù)據(jù)進(jìn)行存儲(chǔ)。這些數(shù)據(jù)規(guī)模較大,實(shí)時(shí)性強(qiáng),是數(shù)據(jù)倉(cāng)庫(kù)用戶感興趣的部分。當(dāng)前細(xì)節(jié)級(jí)的數(shù)據(jù)一方面依據(jù)數(shù)據(jù)倉(cāng)庫(kù)的既定規(guī)則,經(jīng)過(guò)處理,得到情況度綜合級(jí)和高度綜合級(jí)的數(shù)據(jù),另一方面,隨時(shí)間的推移,逐漸老化,成為歷史細(xì)節(jié)級(jí)數(shù)據(jù)。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)9數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別輕度綜合級(jí)為了有效控制數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策支持時(shí)的系統(tǒng)開(kāi)銷(xiāo),對(duì)當(dāng)前細(xì)節(jié)級(jí)的數(shù)據(jù),通常以一定的時(shí)間段為單位進(jìn)行綜合。這一設(shè)定的時(shí)間段參數(shù)又稱為“粒度”。以較小的粒度生成的綜合數(shù)據(jù),稱為“輕度綜合級(jí)數(shù)據(jù)”,其規(guī)模要遠(yuǎn)遠(yuǎn)小于當(dāng)前細(xì)節(jié)級(jí)數(shù)據(jù),因此,可以明顯提高決策運(yùn)算的效率。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)10數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別高度綜合級(jí)以較長(zhǎng)的時(shí)間段,即較大的粒度,對(duì)當(dāng)前細(xì)節(jié)級(jí)的數(shù)據(jù)進(jìn)行綜合而形成的結(jié)果,稱為“高度綜合級(jí)數(shù)據(jù)”。高度綜合級(jí)的數(shù)據(jù)內(nèi)容十分精練,可以認(rèn)為是一種“準(zhǔn)決策數(shù)據(jù)”。這里,“高度”和“輕度”只是一種相對(duì)的概念沒(méi)有絕對(duì)的界限。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)11

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)的一個(gè)例子高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)1990-2004年每月銷(xiāo)售表1996-2004年每周銷(xiāo)售表1996-2004年銷(xiāo)售情況表1990-1995年銷(xiāo)售明細(xì)表數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)的一個(gè)例子高度綜合級(jí)輕度12

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織

粒度分割維度元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)13粒度

對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)綜合程度高低的一個(gè)度量。例如:一個(gè)簡(jiǎn)單的交易處于低粒度級(jí),而每月所有交易的匯總和處于一個(gè)高粒度級(jí)。粒度會(huì)深刻地影響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小以及數(shù)據(jù)倉(cāng)庫(kù)所能夠回答的查詢類型。在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量大小與所能回答查詢的細(xì)節(jié)級(jí)別之間要做出權(quán)衡。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22粒度2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2214粒度一個(gè)顧客一個(gè)月中每次通話的細(xì)節(jié)一個(gè)顧客一個(gè)月中通話的綜合CassSquire上星期給他在波士頓的女友打過(guò)電話沒(méi)有?能回答,盡管需要一定數(shù)量的檢索根本不能回答,細(xì)節(jié)已經(jīng)丟失“上個(gè)月,華盛頓人平均打出多少個(gè)電話?”由此可見(jiàn),粒度級(jí)別對(duì)于能回答什么問(wèn)題和問(wèn)答問(wèn)題所需資源多少有深刻的影響。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22粒度一個(gè)顧客一個(gè)月中每次通話的細(xì)節(jié)一個(gè)顧客一個(gè)月中通話的15粒度粒度的權(quán)衡是固有的,所以大多數(shù)企業(yè)的最佳解決方法是采用多重粒度的形式低粒度高粒度能回答任何問(wèn)題效率低數(shù)據(jù)量大不能回答所有問(wèn)題效率高數(shù)據(jù)量小2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22粒度粒度的權(quán)衡是固有的,所以大多數(shù)企業(yè)的最佳解決方法是采16

粒度分為兩種形式:對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的綜合程度高低的一個(gè)度量粒度越小,細(xì)節(jié)程度越高,綜合程度越低粒度大小影響數(shù)據(jù)倉(cāng)庫(kù)效率、能回答詢問(wèn)的種類“張三在某時(shí)某地是否給李四打過(guò)電話?”“張三去年共打了幾次長(zhǎng)途電話”“某地區(qū)今年長(zhǎng)途與普通電話費(fèi)用之比”“今年長(zhǎng)途/普通電話費(fèi)用增長(zhǎng)率”“預(yù)測(cè)未來(lái)長(zhǎng)途/普通電話費(fèi)用變化趨勢(shì)”數(shù)據(jù)倉(cāng)庫(kù)是多粒度的,不同的粒度回答不同的查詢2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22粒度分為兩種形式:2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與17粒度分為兩種形式:樣本數(shù)據(jù)庫(kù)在分析過(guò)程中,有許多探索的過(guò)程有時(shí)分析的目的并不要求精確的結(jié)果,只需要得到相對(duì)準(zhǔn)確、能反映趨勢(shì)的數(shù)據(jù),所以可以提取出樣本數(shù)據(jù)庫(kù)。樣本數(shù)據(jù)庫(kù)的粒度:是根據(jù)采樣率的高低來(lái)劃分的,采樣粒度不同的樣本數(shù)據(jù)庫(kù)可以具有相同的綜合級(jí)別,它是按一定的采樣率從細(xì)節(jié)數(shù)據(jù)庫(kù)或輕度綜合數(shù)據(jù)庫(kù)中提取的一個(gè)子集。樣本數(shù)據(jù)庫(kù)的抽取按照數(shù)據(jù)的重要程度不同進(jìn)行,利用樣本數(shù)據(jù)庫(kù)采集重要數(shù)據(jù)進(jìn)行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22粒度分為兩種形式:2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)18

樣本數(shù)據(jù)庫(kù)

用處:代替源數(shù)據(jù)進(jìn)行模擬分析,適用于趨勢(shì)分析和預(yù)測(cè)分析抽樣的方法:隨機(jī)抽取,必要時(shí)可采用“判斷樣本”優(yōu)點(diǎn):高效率,在啟發(fā)式分析中,源數(shù)據(jù)量很大的情況下,抽樣數(shù)據(jù)可以大大下降,分析結(jié)果誤差極小有助于抓住主要因素和主要矛盾2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22樣本數(shù)據(jù)庫(kù)

2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖19

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織粒度

分區(qū)維度數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)20分區(qū)

數(shù)據(jù)分區(qū)是指把數(shù)據(jù)分散到可獨(dú)立處理的分離物理單元中去。數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片。在數(shù)據(jù)倉(cāng)庫(kù)中圍繞分區(qū)的問(wèn)題的焦點(diǎn)不是該不該分區(qū)而是如何去分區(qū)的問(wèn)題。因?yàn)檫\(yùn)行維護(hù)人員和設(shè)計(jì)者在管理小的物理單元時(shí)比管理大的享有更大的靈活性。恰當(dāng)進(jìn)行分區(qū)的好處:數(shù)據(jù)裝載、數(shù)據(jù)訪問(wèn)、數(shù)據(jù)存檔、數(shù)據(jù)刪除、數(shù)據(jù)監(jiān)控、數(shù)據(jù)存儲(chǔ)、當(dāng)結(jié)構(gòu)相似的數(shù)據(jù)被分到多個(gè)數(shù)據(jù)的物理單元時(shí),數(shù)據(jù)便被分區(qū)了。任何給定的數(shù)據(jù)單元屬于且僅屬于一個(gè)分區(qū)。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22分區(qū)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2221分區(qū)數(shù)據(jù)分區(qū)小的數(shù)據(jù)單元易于:重構(gòu)索引順序掃描重組恢復(fù)監(jiān)控19891990198719911988獨(dú)立管理的數(shù)據(jù)單元可以有不同的定義處理設(shè)備A處理設(shè)備B2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22分區(qū)數(shù)據(jù)分區(qū)小的數(shù)據(jù)單元易于:19891990198719922分區(qū)

有多種數(shù)據(jù)分區(qū)的標(biāo)準(zhǔn):時(shí)間業(yè)務(wù)范圍地理位置組織單位所有上述標(biāo)準(zhǔn)數(shù)據(jù)分區(qū)的標(biāo)準(zhǔn)是完全由開(kāi)發(fā)人員來(lái)決定的。然而,在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,日期幾乎總是分區(qū)標(biāo)準(zhǔn)中的一個(gè)必然組成部分。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22分區(qū)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2223分區(qū)

人壽保險(xiǎn)公司選擇時(shí)間和保險(xiǎn)種類,將數(shù)據(jù)分區(qū)為以下物理單元:2000年健康索賠2001年健康索賠2002年健康索賠1999年人壽保險(xiǎn)索賠2000年人壽保險(xiǎn)索賠2001年人壽保險(xiǎn)索賠2002年人壽保險(xiǎn)索賠2000年意外傷亡索賠2001年意外傷亡索賠2002年意外傷亡索賠2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22分區(qū)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2224分區(qū)數(shù)據(jù)分區(qū)優(yōu)點(diǎn):

提高系統(tǒng)性能“1996年家電類商品銷(xiāo)售的季節(jié)分布如何?”“每年的第一季度商品銷(xiāo)售在各類商品上的分布情況是怎樣的?”

提高靈活性修改數(shù)據(jù)定義容易不同年份的險(xiǎn)種的定義描述是相互獨(dú)立2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22分區(qū)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2225

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織粒度分區(qū)維度數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)26維度管理人員可以從客戶的角度、產(chǎn)品的角度或者從供應(yīng)商、地點(diǎn)、渠道、發(fā)生的時(shí)間等角度來(lái)分析決策問(wèn)題。用戶的這些決策分析角度或決策分析出發(fā)點(diǎn)就是數(shù)據(jù)倉(cāng)庫(kù)中的維。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)就按照這些維來(lái)組織,維也就成了數(shù)據(jù)倉(cāng)庫(kù)中識(shí)別數(shù)據(jù)的索引。同時(shí),數(shù)據(jù)倉(cāng)庫(kù)中的維還可以作為數(shù)據(jù)倉(cāng)庫(kù)操作過(guò)程的路經(jīng),這些路徑通常位于維的不同層次結(jié)構(gòu)中。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22維度2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2227維度是一個(gè)物理特性(如時(shí)間、地點(diǎn)、產(chǎn)品等),它是表達(dá)數(shù)據(jù)倉(cāng)庫(kù)中信息的一個(gè)基本途徑,可作為標(biāo)識(shí)數(shù)據(jù)的索引。通常的報(bào)表只包含有行和列兩維,但在數(shù)據(jù)倉(cāng)庫(kù)中所存儲(chǔ)的數(shù)據(jù)大多是用多維(三維或三維以上)視圖表示的。例如:一個(gè)銷(xiāo)售系統(tǒng)中的數(shù)據(jù)可分為時(shí)間維、產(chǎn)品維和地理位置維等;2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22維度2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2228一個(gè)數(shù)據(jù)立方體,比如數(shù)據(jù)倉(cāng)庫(kù)sales,允許以多維對(duì)數(shù)據(jù)進(jìn)行建模和觀察?!祭戒N(xiāo)售分析:

數(shù)據(jù)倉(cāng)庫(kù)sales圍繞商品銷(xiāo)售量這個(gè)主題。同時(shí),銷(xiāo)售量涉及以下幾個(gè)方面:time,item,location,branch。有了這些方面的信息,能夠記錄商品的月銷(xiāo)售,銷(xiāo)售商品的地點(diǎn)。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22一個(gè)數(shù)據(jù)立方體,比如數(shù)據(jù)倉(cāng)庫(kù)sales,允許以多維對(duì)數(shù)據(jù)進(jìn)行29LocationVancouverChicagoTorontoNewYorkTime(季度)ItemQ1Q2Q3Q4605680812927825952102310381431303840051250158085410878188829687468938436238725916829256987281002789784984870家庭娛樂(lè)計(jì)算機(jī)電話安全2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22LocationVancouverChicagoToront30維:人們觀察數(shù)據(jù)的特定角度。本例中涉及time,item,location。每一個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為維表。事實(shí):數(shù)據(jù)倉(cāng)庫(kù)的主題,數(shù)值度量的。本例中指銷(xiāo)售量。事實(shí)對(duì)應(yīng)事實(shí)表。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2231ASampleDataCubeTotalannualsalesofTVinU.S.A.DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22ASampleDataCubeTotalannual32基于維的常見(jiàn)操作上卷:用戶在數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用中,從較低層次的數(shù)據(jù)開(kāi)始逐步將數(shù)據(jù)按照不同的層次進(jìn)行概括處理下鉆:從數(shù)據(jù)倉(cāng)庫(kù)中的高層數(shù)據(jù)開(kāi)始逐步向低層數(shù)據(jù)探索,了解組成概括數(shù)據(jù)的具體細(xì)節(jié)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22基于維的常見(jiàn)操作2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)33

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織粒度分區(qū)維度

元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)34數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)與數(shù)據(jù)庫(kù)管理系統(tǒng)中的數(shù)據(jù)字典或數(shù)據(jù)目錄相似。數(shù)據(jù)字典中保存了邏輯數(shù)據(jù)結(jié)構(gòu),文件和地址、索引等信息。數(shù)據(jù)字典包含的是關(guān)于數(shù)據(jù)庫(kù)中數(shù)據(jù)本身信息的數(shù)據(jù)。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)與數(shù)據(jù)庫(kù)管理系統(tǒng)中的數(shù)據(jù)字典或數(shù)據(jù)目錄相似。352.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22362.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22372.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織將元數(shù)據(jù)看作是電話黃頁(yè)。你需要當(dāng)?shù)厣痰甑男畔??他們?cè)谀睦铮麄兊拿质鞘裁?,他們的專營(yíng)是什么?去查電話黃頁(yè)吧。電話黃頁(yè)是當(dāng)?shù)夭块T(mén)信息的一本字典。元數(shù)據(jù)部分與電話黃頁(yè)的作用類似,它是數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容的一本字典。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織將元數(shù)據(jù)看作是電話黃頁(yè)。數(shù)據(jù)倉(cāng)38什么是元數(shù)據(jù)?假設(shè),用戶希望在運(yùn)行查詢之前,了解數(shù)據(jù)倉(cāng)庫(kù)中名叫CUSTOMER的表或?qū)嶓w。在元素?fù)?jù)存儲(chǔ)庫(kù)中與CUSTOMER相關(guān)的信息內(nèi)容是什么?2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22什么是元數(shù)據(jù)?2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖39定義:從公司購(gòu)買(mǎi)產(chǎn)品或服務(wù)的一個(gè)人或者一個(gè)機(jī)構(gòu)。備注:客戶實(shí)體包含了常規(guī)的、當(dāng)前以及過(guò)去的客戶;源系統(tǒng):已經(jīng)完成的產(chǎn)品訂單,維護(hù)合同,在線銷(xiāo)售

建立日期:1999年1月15日

最后更新日期:2001年1月21日

更新周期:每周

最后的完全刷新日期:2000年12月29日

完全刷新周期:每6個(gè)月

數(shù)據(jù)質(zhì)量回顧:2001年1月25日

最后的副本:2001年1月10日

計(jì)劃歸檔:每6個(gè)月

負(fù)責(zé)人:janebrown2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織實(shí)體名稱:customer別名:Account,Client數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22定義:從公司購(gòu)買(mǎi)產(chǎn)品或服務(wù)的一個(gè)人或者一個(gè)機(jī)構(gòu)。2.6數(shù)402.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵需求:對(duì)數(shù)據(jù)倉(cāng)庫(kù)使用的必要性在訂單處理程序中,用戶通過(guò)系統(tǒng)提供的圖形界面及預(yù)定義的報(bào)表進(jìn)行信息訪問(wèn);使用數(shù)據(jù)倉(cāng)庫(kù)時(shí),自己從數(shù)據(jù)倉(cāng)庫(kù)中獲取信息。需要使用元數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵需求:數(shù)據(jù)倉(cāng)庫(kù)與412.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織對(duì)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的必要性數(shù)據(jù)抽取和數(shù)據(jù)轉(zhuǎn)換源系統(tǒng)及其數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)及數(shù)據(jù)內(nèi)容數(shù)據(jù)映射及數(shù)據(jù)轉(zhuǎn)換我們需要源系統(tǒng)的元數(shù)據(jù),源系統(tǒng)到目標(biāo)系統(tǒng)的映射,以及數(shù)據(jù)轉(zhuǎn)換的規(guī)則。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)管理員物理設(shè)計(jì)和初始裝載定期的增量裝載需要知道數(shù)據(jù)庫(kù)邏輯結(jié)構(gòu)的元數(shù)據(jù),數(shù)據(jù)刷新及裝載周期元數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織對(duì)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的必要性數(shù)據(jù)倉(cāng)庫(kù)422.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織對(duì)管理數(shù)據(jù)倉(cāng)庫(kù)的必要性數(shù)據(jù)抽取/轉(zhuǎn)換/裝載如何處理數(shù)據(jù)的變化?如何納入新的源系統(tǒng)?外部系統(tǒng)的數(shù)據(jù)如何增加新的外部數(shù)據(jù)源?如何去掉某些外部數(shù)據(jù)源?數(shù)據(jù)倉(cāng)庫(kù)如何增加新的匯總表?如何控制查詢?數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織對(duì)管理數(shù)據(jù)倉(cāng)庫(kù)的必要性數(shù)據(jù)倉(cāng)庫(kù)432.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織想象一下,一個(gè)沒(méi)有標(biāo)簽和文件夾的文件柜。如果沒(méi)有元數(shù)據(jù),那么數(shù)據(jù)倉(cāng)庫(kù)就像這個(gè)文件柜;可能裝滿了很多對(duì)你的用戶、開(kāi)發(fā)者及管理者很有用的信息,但是,卻沒(méi)有任何簡(jiǎn)便的方法知道這些信息在哪里,這樣一來(lái),數(shù)據(jù)倉(cāng)庫(kù)的價(jià)值就很有限。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織想象一下,一個(gè)沒(méi)有標(biāo)簽和文件夾442.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織元數(shù)據(jù)就像一個(gè)神經(jīng)中樞,是關(guān)于數(shù)據(jù)的數(shù)據(jù);在構(gòu)建和管理數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中,不同的過(guò)程都會(huì)產(chǎn)生一部分元數(shù)據(jù)。一個(gè)過(guò)程創(chuàng)建的元數(shù)據(jù)可以被其他過(guò)程使用。在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)處于一個(gè)關(guān)鍵的位置,使不同的過(guò)程能夠相互通信,是數(shù)據(jù)倉(cāng)庫(kù)的中樞。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織元數(shù)據(jù)就像一個(gè)神經(jīng)中樞,是關(guān)于452.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)元素查詢工具報(bào)表工具OLAP工具數(shù)據(jù)挖掘應(yīng)用程序外部數(shù)據(jù)數(shù)據(jù)裝載功能轉(zhuǎn)換工具清晰工具抽取工具源系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)元素查詢工具報(bào)表工具O462.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織元數(shù)據(jù)扮演了一個(gè)活躍的角色,輔助數(shù)據(jù)倉(cāng)庫(kù)處理過(guò)程的自動(dòng)化。以下是按順序排列的后端處理過(guò)程的列表數(shù)據(jù)源結(jié)構(gòu)定義;數(shù)據(jù)抽??;初始重格式化/合并初步數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換/合并有效性和質(zhì)量檢查數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)定義創(chuàng)建裝載映像數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織元數(shù)據(jù)扮演了一個(gè)活躍的角色,輔472.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)據(jù)類型數(shù)據(jù)源數(shù)據(jù)數(shù)據(jù)源存儲(chǔ)平臺(tái)數(shù)據(jù)源的數(shù)據(jù)格式數(shù)據(jù)源的業(yè)務(wù)內(nèi)容說(shuō)明;數(shù)據(jù)源的所有者數(shù)據(jù)源的訪問(wèn)方法及使用限制;實(shí)施數(shù)據(jù)抽取的工具和其他方法,及相應(yīng)的參數(shù)設(shè)置;數(shù)據(jù)抽取的進(jìn)度安排;實(shí)際數(shù)據(jù)抽取的時(shí)間、內(nèi)容及完成情況記錄;數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)482.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)據(jù)類型數(shù)據(jù)的預(yù)處理數(shù)據(jù)抽取、轉(zhuǎn)換、裝載過(guò)程中用到的各種文件定義;從數(shù)據(jù)源到主題數(shù)據(jù)實(shí)際視圖之間的數(shù)據(jù)對(duì)應(yīng)關(guān)系,有關(guān)數(shù)據(jù)凈化的詳細(xì)規(guī)則;為了滿足數(shù)據(jù)挖掘需要進(jìn)行的數(shù)據(jù)處理的詳細(xì)說(shuō)明;維表各屬性的更新策略選擇;代理碼的分配情況;數(shù)據(jù)聚集的定義;預(yù)處理數(shù)據(jù)的備份方法;數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)492.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)據(jù)類型數(shù)據(jù)倉(cāng)庫(kù)主題各種數(shù)據(jù)庫(kù)表或視圖的定義數(shù)據(jù)庫(kù)分區(qū)的設(shè)置;索引的建立方法;數(shù)據(jù)庫(kù)訪問(wèn)權(quán)限分配;數(shù)據(jù)庫(kù)備份方案;數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)502.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)據(jù)類型查詢服務(wù)數(shù)據(jù)庫(kù)表及表中數(shù)據(jù)項(xiàng)的業(yè)務(wù)含義說(shuō)明;可視化查詢結(jié)果格式的定義;用戶及其訪問(wèn)權(quán)限的定義;數(shù)據(jù)倉(cāng)庫(kù)使用情況的監(jiān)控與統(tǒng)計(jì);數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)512.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織也可以將原數(shù)據(jù)分為管理元數(shù)據(jù)和用戶元數(shù)據(jù);管理元數(shù)據(jù)用于創(chuàng)建和維護(hù)數(shù)據(jù)倉(cāng)庫(kù)。它包括數(shù)據(jù)源元數(shù)據(jù)、預(yù)處理數(shù)據(jù)元數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)主題數(shù)據(jù)源數(shù)據(jù)等;用戶元數(shù)據(jù)幫助用戶進(jìn)行查詢、理解查詢結(jié)果,了解數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)和組織,其中主要內(nèi)容是查詢服務(wù)元數(shù)據(jù);數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織也可以將原數(shù)據(jù)分為管理元數(shù)據(jù)和52

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織粒度分區(qū)維度元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)53數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式簡(jiǎn)單堆積文件它將由數(shù)據(jù)庫(kù)中提取并加工的數(shù)據(jù)逐一積累存儲(chǔ)輪轉(zhuǎn)綜合文件數(shù)據(jù)存儲(chǔ)單位被分為若干個(gè)級(jí)別輪轉(zhuǎn)記錄--綜合優(yōu)點(diǎn):結(jié)構(gòu)簡(jiǎn)捷,數(shù)據(jù)量較簡(jiǎn)單堆積結(jié)構(gòu)減少缺點(diǎn):損失數(shù)據(jù)細(xì)節(jié)。越久遠(yuǎn)的數(shù)據(jù),細(xì)節(jié)損失越多2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)54簡(jiǎn)單堆積結(jié)構(gòu)它將每天從數(shù)據(jù)庫(kù)中提取加工后的數(shù)據(jù)逐日積累的存儲(chǔ)起來(lái)。按這種方式存儲(chǔ)的數(shù)據(jù)細(xì)節(jié)化程度很高,可以應(yīng)付多種細(xì)節(jié)查詢,但分析時(shí)查詢的效率較低。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織面向應(yīng)用數(shù)據(jù)庫(kù)每天數(shù)據(jù)每天綜合1月1日1月2日1月3日2月1日2月2日2月3日…………3月1日3月2日3月3日…………………………需要許多存儲(chǔ)空間無(wú)細(xì)節(jié)丟失許多處理與數(shù)據(jù)有關(guān)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22簡(jiǎn)單堆積結(jié)構(gòu)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織面向應(yīng)用數(shù)據(jù)庫(kù)55輪轉(zhuǎn)綜合結(jié)構(gòu)它將數(shù)據(jù)按不同的期限輪轉(zhuǎn)地存儲(chǔ)。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織非常緊湊一些細(xì)節(jié)丟失提取越久的數(shù)據(jù),越不詳細(xì)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22輪轉(zhuǎn)綜合結(jié)構(gòu)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織非常緊湊數(shù)據(jù)倉(cāng)庫(kù)與56簡(jiǎn)單直接數(shù)據(jù)是從操作型環(huán)境直接裝入數(shù)據(jù)倉(cāng)庫(kù)中,并沒(méi)有任何積累,只不過(guò)這種文件不是在每天的基礎(chǔ)上組織的,而是以較長(zhǎng)時(shí)間(如一個(gè)星期、一個(gè)月)為單位的。因此,簡(jiǎn)單直接文件是按一定時(shí)間操作型數(shù)據(jù)庫(kù)的一個(gè)快照,即按一定時(shí)間間隔對(duì)數(shù)據(jù)庫(kù)的采樣。JAdamsMain大街PAndersonHigh大街456號(hào)KApplebyA大街10號(hào)LAzimoff被農(nóng)場(chǎng)路64號(hào)面向應(yīng)用數(shù)據(jù)庫(kù)1月份數(shù)據(jù)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22簡(jiǎn)單直接JAdamsMain大街面向應(yīng)用數(shù)據(jù)庫(kù)1月份數(shù)57連續(xù)結(jié)構(gòu)它是通過(guò)比較兩個(gè)連續(xù)的簡(jiǎn)單直接文件的不同而生成的另一種連續(xù)文件,生成的連續(xù)文件又可以和新的簡(jiǎn)單直接文件一起生成新的連續(xù)文件。JAdamsMain大街PAndersonHigh大街456號(hào)KApplebyA大街10號(hào)LAzimoff被農(nóng)場(chǎng)路64號(hào)JAdamsMain大街WAbraham9號(hào)公路12號(hào)PAndersonTincup郡14號(hào)KApplebyA大街10號(hào)JAdamsMain大街1月—今WAbraham9號(hào)公路12號(hào)2月—今PAndersonHigh大街456號(hào)1月—1月PAndersonTincup郡14號(hào)2月—今KApplebyA大街10號(hào)1月—今2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22連續(xù)結(jié)構(gòu)JAdamsMain大街JAdamsMa58

連續(xù)文件1)兩個(gè)連續(xù)的簡(jiǎn)單直接文件比較他們的不同連續(xù)文件2)連續(xù)文件+新的簡(jiǎn)單文件新的連續(xù)文件數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22連續(xù)文件數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組59

一月份顧客表數(shù)據(jù)庫(kù)快照操作型數(shù)據(jù)圖1-5生成簡(jiǎn)化直接文件姓名顧客號(hào)地址張平C960100北京王英C960101天津王賓C960102上海李強(qiáng)C960103重慶………………2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22一月份顧客表數(shù)據(jù)庫(kù)快照操作型數(shù)據(jù)圖1-5生成簡(jiǎn)化直接60連續(xù)文件─兩個(gè)連續(xù)的簡(jiǎn)化直接文件比較他們的不同連續(xù)文件姓名顧客號(hào)地址張平C960100北京王英C960101天津王賓C960102上海劉仲C960104重慶姓名顧客號(hào)地址張平C960100北京王英C960101沈陽(yáng)王賓C960102上海劉仲C960104大連姓名顧客號(hào)時(shí)間地址張平C9601001-2月北京王英C9601011-1月天津王英C9601012-2月沈陽(yáng)王賓C9601021-2月上海劉仲C9601041-1月重慶劉仲C9601042-2月大連1-2月份顧客表比較不同

2月份顧客表1月份顧客表數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22連續(xù)文件─兩個(gè)連續(xù)的簡(jiǎn)化直接文件61連續(xù)文件+新的簡(jiǎn)單文件新的連續(xù)文件姓名顧客號(hào)地址

張平C960100北京

王賓C960102上海

劉仲C960104大連

姓名顧客號(hào)時(shí)間地址張平C9601001-2月北京王英C9601011-1月天津王英C9601012-2月沈陽(yáng)王賓C9601021-2月上海劉仲C9601041-1月重慶劉仲C9601042-2月大連姓名顧客號(hào)時(shí)間地址張平C9601001-3月北京王英C9601011-1月天津王英C9601012-2月沈陽(yáng)王賓C9601021-3月上海劉仲C9601041-1月重慶劉仲C9601042-3月大連1-2月份顧客表3月份顧客表1-3月份顧客表比較不同

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22連續(xù)文件+新的簡(jiǎn)單文件新的連續(xù)文件姓名顧62

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織粒度分區(qū)維度元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)63

數(shù)據(jù)追加:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)初裝完成后,再向數(shù)據(jù)倉(cāng)庫(kù)輸入數(shù)據(jù)的過(guò)程追加內(nèi)容:上次數(shù)據(jù)追加后在OLTP數(shù)據(jù)庫(kù)中變化了的數(shù)據(jù)變化數(shù)據(jù)的捕捉途徑:時(shí)標(biāo)方法DELTA文件前后映象文件日志文件數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)追加:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)初裝完成后,再向數(shù)據(jù)倉(cāng)庫(kù)輸入數(shù)據(jù)64時(shí)標(biāo)方法時(shí)標(biāo)方法如果數(shù)據(jù)含有時(shí)標(biāo),對(duì)新插入或更新的數(shù)據(jù)記錄,加更新時(shí)的時(shí)標(biāo)問(wèn)題許多數(shù)據(jù)庫(kù)中的數(shù)據(jù)并不含有時(shí)標(biāo)

1.時(shí)標(biāo)方法2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22時(shí)標(biāo)方法1.時(shí)標(biāo)方法2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)65DELTA文件方法由應(yīng)用生成DELTA文件,記錄應(yīng)用所改變的所有內(nèi)容優(yōu)點(diǎn)避免了掃描整個(gè)數(shù)據(jù)庫(kù),效率比較高問(wèn)題生成DELTA文件的應(yīng)用不普遍更改應(yīng)用代碼,應(yīng)用在生成新數(shù)據(jù)時(shí)可自動(dòng)將其記錄下來(lái)應(yīng)用成千上萬(wàn),且修改代碼十分繁瑣,很難實(shí)現(xiàn)1.時(shí)標(biāo)方法2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22DELTA文件方法1.時(shí)標(biāo)方法2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)66

3.前后映象文件前后映象文件的方法抽取數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)之后,本次將抽取數(shù)據(jù)之前,對(duì)數(shù)據(jù)庫(kù)分別作一次快照,比較兩幅快照的不同,確定追加的數(shù)據(jù)問(wèn)題占用大量資源,影響系統(tǒng)性能2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘223.前后映象文件2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與67演講完畢,謝謝聽(tīng)講!再見(jiàn),seeyouagain3rew2022/12/16數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22演講完畢,謝謝聽(tīng)講!再見(jiàn),seeyouagain3rew68數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2-22022/12/16數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2-22022/12/13數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖69第二章數(shù)據(jù)倉(cāng)庫(kù)原理2.1數(shù)據(jù)倉(cāng)庫(kù)定義2.2數(shù)據(jù)倉(cāng)庫(kù)特征

2.3數(shù)據(jù)庫(kù)體系化環(huán)境2.4數(shù)據(jù)倉(cāng)構(gòu)造模式2.5數(shù)據(jù)倉(cāng)庫(kù)概念結(jié)構(gòu)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織小節(jié)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22第二章數(shù)據(jù)倉(cāng)庫(kù)原理2.1數(shù)據(jù)倉(cāng)庫(kù)定義數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖70

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織粒度分區(qū)維度元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)71

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織

粒度分割維度元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)722.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織為了提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與事務(wù)型處理及其數(shù)據(jù)相分離,把分析型處理所需要的數(shù)據(jù)從事務(wù)型處理環(huán)境中提取出來(lái),按照分析型處理的要求進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)正是構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織為了提高分析和決策的效率和有效732.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)不同于一般的數(shù)據(jù)庫(kù)系統(tǒng),需要將從原有的業(yè)務(wù)數(shù)據(jù)庫(kù)中獲得的基本數(shù)據(jù)和綜合數(shù)據(jù)分成一些不同的級(jí)別。在數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)按照粒度從小到大可分為四個(gè)級(jí)別:早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度細(xì)節(jié)級(jí)和高度細(xì)節(jié)級(jí)。從事務(wù)型處理環(huán)境中提取的源數(shù)據(jù)經(jīng)過(guò)綜合后,首先進(jìn)入當(dāng)前細(xì)節(jié)級(jí),并根據(jù)需要進(jìn)行進(jìn)一步的綜合進(jìn)入輕度綜合級(jí)或高度數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)不同于一74

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)元數(shù)據(jù)高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)元高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期75數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別早期細(xì)節(jié)級(jí)一般而言,當(dāng)前細(xì)節(jié)級(jí)的數(shù)據(jù)對(duì)于決策的支持程度隨數(shù)據(jù)發(fā)生時(shí)間的久遠(yuǎn)而降低。為了有效控制數(shù)據(jù)倉(cāng)庫(kù)中當(dāng)前細(xì)節(jié)級(jí)數(shù)據(jù)的規(guī)模,保證系統(tǒng)的運(yùn)行效率,在設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)時(shí),通常應(yīng)結(jié)合業(yè)務(wù)的特點(diǎn)和系統(tǒng)硬件的水平,設(shè)定一個(gè)合理的時(shí)間閥值,將老化的數(shù)據(jù)轉(zhuǎn)為早期細(xì)節(jié)級(jí)的數(shù)據(jù),并以合適的方式進(jìn)行存儲(chǔ)。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)76數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別當(dāng)前細(xì)節(jié)級(jí)來(lái)自數(shù)據(jù)源的數(shù)據(jù),所反映的都是當(dāng)前的業(yè)務(wù)情況,因此在導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù)之后,首先做為當(dāng)前細(xì)節(jié)級(jí)數(shù)據(jù)進(jìn)行存儲(chǔ)。這些數(shù)據(jù)規(guī)模較大,實(shí)時(shí)性強(qiáng),是數(shù)據(jù)倉(cāng)庫(kù)用戶感興趣的部分。當(dāng)前細(xì)節(jié)級(jí)的數(shù)據(jù)一方面依據(jù)數(shù)據(jù)倉(cāng)庫(kù)的既定規(guī)則,經(jīng)過(guò)處理,得到情況度綜合級(jí)和高度綜合級(jí)的數(shù)據(jù),另一方面,隨時(shí)間的推移,逐漸老化,成為歷史細(xì)節(jié)級(jí)數(shù)據(jù)。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)77數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別輕度綜合級(jí)為了有效控制數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行決策支持時(shí)的系統(tǒng)開(kāi)銷(xiāo),對(duì)當(dāng)前細(xì)節(jié)級(jí)的數(shù)據(jù),通常以一定的時(shí)間段為單位進(jìn)行綜合。這一設(shè)定的時(shí)間段參數(shù)又稱為“粒度”。以較小的粒度生成的綜合數(shù)據(jù),稱為“輕度綜合級(jí)數(shù)據(jù)”,其規(guī)模要遠(yuǎn)遠(yuǎn)小于當(dāng)前細(xì)節(jié)級(jí)數(shù)據(jù),因此,可以明顯提高決策運(yùn)算的效率。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)78數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別高度綜合級(jí)以較長(zhǎng)的時(shí)間段,即較大的粒度,對(duì)當(dāng)前細(xì)節(jié)級(jí)的數(shù)據(jù)進(jìn)行綜合而形成的結(jié)果,稱為“高度綜合級(jí)數(shù)據(jù)”。高度綜合級(jí)的數(shù)據(jù)內(nèi)容十分精練,可以認(rèn)為是一種“準(zhǔn)決策數(shù)據(jù)”。這里,“高度”和“輕度”只是一種相對(duì)的概念沒(méi)有絕對(duì)的界限。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在著不同的綜合級(jí)別2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)79

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)的一個(gè)例子高度綜合級(jí)輕度綜合級(jí)當(dāng)前細(xì)節(jié)級(jí)早期細(xì)節(jié)級(jí)1990-2004年每月銷(xiāo)售表1996-2004年每周銷(xiāo)售表1996-2004年銷(xiāo)售情況表1990-1995年銷(xiāo)售明細(xì)表數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)的一個(gè)例子高度綜合級(jí)輕度80

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織

粒度分割維度元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)81粒度

對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)綜合程度高低的一個(gè)度量。例如:一個(gè)簡(jiǎn)單的交易處于低粒度級(jí),而每月所有交易的匯總和處于一個(gè)高粒度級(jí)。粒度會(huì)深刻地影響存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的大小以及數(shù)據(jù)倉(cāng)庫(kù)所能夠回答的查詢類型。在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量大小與所能回答查詢的細(xì)節(jié)級(jí)別之間要做出權(quán)衡。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22粒度2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2282粒度一個(gè)顧客一個(gè)月中每次通話的細(xì)節(jié)一個(gè)顧客一個(gè)月中通話的綜合CassSquire上星期給他在波士頓的女友打過(guò)電話沒(méi)有?能回答,盡管需要一定數(shù)量的檢索根本不能回答,細(xì)節(jié)已經(jīng)丟失“上個(gè)月,華盛頓人平均打出多少個(gè)電話?”由此可見(jiàn),粒度級(jí)別對(duì)于能回答什么問(wèn)題和問(wèn)答問(wèn)題所需資源多少有深刻的影響。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22粒度一個(gè)顧客一個(gè)月中每次通話的細(xì)節(jié)一個(gè)顧客一個(gè)月中通話的83粒度粒度的權(quán)衡是固有的,所以大多數(shù)企業(yè)的最佳解決方法是采用多重粒度的形式低粒度高粒度能回答任何問(wèn)題效率低數(shù)據(jù)量大不能回答所有問(wèn)題效率高數(shù)據(jù)量小2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22粒度粒度的權(quán)衡是固有的,所以大多數(shù)企業(yè)的最佳解決方法是采84

粒度分為兩種形式:對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的綜合程度高低的一個(gè)度量粒度越小,細(xì)節(jié)程度越高,綜合程度越低粒度大小影響數(shù)據(jù)倉(cāng)庫(kù)效率、能回答詢問(wèn)的種類“張三在某時(shí)某地是否給李四打過(guò)電話?”“張三去年共打了幾次長(zhǎng)途電話”“某地區(qū)今年長(zhǎng)途與普通電話費(fèi)用之比”“今年長(zhǎng)途/普通電話費(fèi)用增長(zhǎng)率”“預(yù)測(cè)未來(lái)長(zhǎng)途/普通電話費(fèi)用變化趨勢(shì)”數(shù)據(jù)倉(cāng)庫(kù)是多粒度的,不同的粒度回答不同的查詢2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22粒度分為兩種形式:2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與85粒度分為兩種形式:樣本數(shù)據(jù)庫(kù)在分析過(guò)程中,有許多探索的過(guò)程有時(shí)分析的目的并不要求精確的結(jié)果,只需要得到相對(duì)準(zhǔn)確、能反映趨勢(shì)的數(shù)據(jù),所以可以提取出樣本數(shù)據(jù)庫(kù)。樣本數(shù)據(jù)庫(kù)的粒度:是根據(jù)采樣率的高低來(lái)劃分的,采樣粒度不同的樣本數(shù)據(jù)庫(kù)可以具有相同的綜合級(jí)別,它是按一定的采樣率從細(xì)節(jié)數(shù)據(jù)庫(kù)或輕度綜合數(shù)據(jù)庫(kù)中提取的一個(gè)子集。樣本數(shù)據(jù)庫(kù)的抽取按照數(shù)據(jù)的重要程度不同進(jìn)行,利用樣本數(shù)據(jù)庫(kù)采集重要數(shù)據(jù)進(jìn)行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22粒度分為兩種形式:2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)86

樣本數(shù)據(jù)庫(kù)

用處:代替源數(shù)據(jù)進(jìn)行模擬分析,適用于趨勢(shì)分析和預(yù)測(cè)分析抽樣的方法:隨機(jī)抽取,必要時(shí)可采用“判斷樣本”優(yōu)點(diǎn):高效率,在啟發(fā)式分析中,源數(shù)據(jù)量很大的情況下,抽樣數(shù)據(jù)可以大大下降,分析結(jié)果誤差極小有助于抓住主要因素和主要矛盾2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22樣本數(shù)據(jù)庫(kù)

2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖87

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織粒度

分區(qū)維度數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)88分區(qū)

數(shù)據(jù)分區(qū)是指把數(shù)據(jù)分散到可獨(dú)立處理的分離物理單元中去。數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片。在數(shù)據(jù)倉(cāng)庫(kù)中圍繞分區(qū)的問(wèn)題的焦點(diǎn)不是該不該分區(qū)而是如何去分區(qū)的問(wèn)題。因?yàn)檫\(yùn)行維護(hù)人員和設(shè)計(jì)者在管理小的物理單元時(shí)比管理大的享有更大的靈活性。恰當(dāng)進(jìn)行分區(qū)的好處:數(shù)據(jù)裝載、數(shù)據(jù)訪問(wèn)、數(shù)據(jù)存檔、數(shù)據(jù)刪除、數(shù)據(jù)監(jiān)控、數(shù)據(jù)存儲(chǔ)、當(dāng)結(jié)構(gòu)相似的數(shù)據(jù)被分到多個(gè)數(shù)據(jù)的物理單元時(shí),數(shù)據(jù)便被分區(qū)了。任何給定的數(shù)據(jù)單元屬于且僅屬于一個(gè)分區(qū)。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22分區(qū)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2289分區(qū)數(shù)據(jù)分區(qū)小的數(shù)據(jù)單元易于:重構(gòu)索引順序掃描重組恢復(fù)監(jiān)控19891990198719911988獨(dú)立管理的數(shù)據(jù)單元可以有不同的定義處理設(shè)備A處理設(shè)備B2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22分區(qū)數(shù)據(jù)分區(qū)小的數(shù)據(jù)單元易于:19891990198719990分區(qū)

有多種數(shù)據(jù)分區(qū)的標(biāo)準(zhǔn):時(shí)間業(yè)務(wù)范圍地理位置組織單位所有上述標(biāo)準(zhǔn)數(shù)據(jù)分區(qū)的標(biāo)準(zhǔn)是完全由開(kāi)發(fā)人員來(lái)決定的。然而,在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,日期幾乎總是分區(qū)標(biāo)準(zhǔn)中的一個(gè)必然組成部分。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22分區(qū)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2291分區(qū)

人壽保險(xiǎn)公司選擇時(shí)間和保險(xiǎn)種類,將數(shù)據(jù)分區(qū)為以下物理單元:2000年健康索賠2001年健康索賠2002年健康索賠1999年人壽保險(xiǎn)索賠2000年人壽保險(xiǎn)索賠2001年人壽保險(xiǎn)索賠2002年人壽保險(xiǎn)索賠2000年意外傷亡索賠2001年意外傷亡索賠2002年意外傷亡索賠2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22分區(qū)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2292分區(qū)數(shù)據(jù)分區(qū)優(yōu)點(diǎn):

提高系統(tǒng)性能“1996年家電類商品銷(xiāo)售的季節(jié)分布如何?”“每年的第一季度商品銷(xiāo)售在各類商品上的分布情況是怎樣的?”

提高靈活性修改數(shù)據(jù)定義容易不同年份的險(xiǎn)種的定義描述是相互獨(dú)立2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22分區(qū)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2293

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織粒度分區(qū)維度數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)94維度管理人員可以從客戶的角度、產(chǎn)品的角度或者從供應(yīng)商、地點(diǎn)、渠道、發(fā)生的時(shí)間等角度來(lái)分析決策問(wèn)題。用戶的這些決策分析角度或決策分析出發(fā)點(diǎn)就是數(shù)據(jù)倉(cāng)庫(kù)中的維。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)就按照這些維來(lái)組織,維也就成了數(shù)據(jù)倉(cāng)庫(kù)中識(shí)別數(shù)據(jù)的索引。同時(shí),數(shù)據(jù)倉(cāng)庫(kù)中的維還可以作為數(shù)據(jù)倉(cāng)庫(kù)操作過(guò)程的路經(jīng),這些路徑通常位于維的不同層次結(jié)構(gòu)中。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22維度2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2295維度是一個(gè)物理特性(如時(shí)間、地點(diǎn)、產(chǎn)品等),它是表達(dá)數(shù)據(jù)倉(cāng)庫(kù)中信息的一個(gè)基本途徑,可作為標(biāo)識(shí)數(shù)據(jù)的索引。通常的報(bào)表只包含有行和列兩維,但在數(shù)據(jù)倉(cāng)庫(kù)中所存儲(chǔ)的數(shù)據(jù)大多是用多維(三維或三維以上)視圖表示的。例如:一個(gè)銷(xiāo)售系統(tǒng)中的數(shù)據(jù)可分為時(shí)間維、產(chǎn)品維和地理位置維等;2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22維度2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2296一個(gè)數(shù)據(jù)立方體,比如數(shù)據(jù)倉(cāng)庫(kù)sales,允許以多維對(duì)數(shù)據(jù)進(jìn)行建模和觀察。〖例〗銷(xiāo)售分析:

數(shù)據(jù)倉(cāng)庫(kù)sales圍繞商品銷(xiāo)售量這個(gè)主題。同時(shí),銷(xiāo)售量涉及以下幾個(gè)方面:time,item,location,branch。有了這些方面的信息,能夠記錄商品的月銷(xiāo)售,銷(xiāo)售商品的地點(diǎn)。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22一個(gè)數(shù)據(jù)立方體,比如數(shù)據(jù)倉(cāng)庫(kù)sales,允許以多維對(duì)數(shù)據(jù)進(jìn)行97LocationVancouverChicagoTorontoNewYorkTime(季度)ItemQ1Q2Q3Q4605680812927825952102310381431303840051250158085410878188829687468938436238725916829256987281002789784984870家庭娛樂(lè)計(jì)算機(jī)電話安全2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22LocationVancouverChicagoToront98維:人們觀察數(shù)據(jù)的特定角度。本例中涉及time,item,location。每一個(gè)維都有一個(gè)表與之相關(guān)聯(lián),稱為維表。事實(shí):數(shù)據(jù)倉(cāng)庫(kù)的主題,數(shù)值度量的。本例中指銷(xiāo)售量。事實(shí)對(duì)應(yīng)事實(shí)表。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘2299ASampleDataCubeTotalannualsalesofTVinU.S.A.DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22ASampleDataCubeTotalannual100基于維的常見(jiàn)操作上卷:用戶在數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用中,從較低層次的數(shù)據(jù)開(kāi)始逐步將數(shù)據(jù)按照不同的層次進(jìn)行概括處理下鉆:從數(shù)據(jù)倉(cāng)庫(kù)中的高層數(shù)據(jù)開(kāi)始逐步向低層數(shù)據(jù)探索,了解組成概括數(shù)據(jù)的具體細(xì)節(jié)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22基于維的常見(jiàn)操作2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)101

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織粒度分區(qū)維度

元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)102數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)與數(shù)據(jù)庫(kù)管理系統(tǒng)中的數(shù)據(jù)字典或數(shù)據(jù)目錄相似。數(shù)據(jù)字典中保存了邏輯數(shù)據(jù)結(jié)構(gòu),文件和地址、索引等信息。數(shù)據(jù)字典包含的是關(guān)于數(shù)據(jù)庫(kù)中數(shù)據(jù)本身信息的數(shù)據(jù)。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)與數(shù)據(jù)庫(kù)管理系統(tǒng)中的數(shù)據(jù)字典或數(shù)據(jù)目錄相似。1032.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘221042.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘221052.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織將元數(shù)據(jù)看作是電話黃頁(yè)。你需要當(dāng)?shù)厣痰甑男畔??他們?cè)谀睦?,他們的名字是什么,他們的專營(yíng)是什么?去查電話黃頁(yè)吧。電話黃頁(yè)是當(dāng)?shù)夭块T(mén)信息的一本字典。元數(shù)據(jù)部分與電話黃頁(yè)的作用類似,它是數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容的一本字典。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織將元數(shù)據(jù)看作是電話黃頁(yè)。數(shù)據(jù)倉(cāng)106什么是元數(shù)據(jù)?假設(shè),用戶希望在運(yùn)行查詢之前,了解數(shù)據(jù)倉(cāng)庫(kù)中名叫CUSTOMER的表或?qū)嶓w。在元素?fù)?jù)存儲(chǔ)庫(kù)中與CUSTOMER相關(guān)的信息內(nèi)容是什么?2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22什么是元數(shù)據(jù)?2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖107定義:從公司購(gòu)買(mǎi)產(chǎn)品或服務(wù)的一個(gè)人或者一個(gè)機(jī)構(gòu)。備注:客戶實(shí)體包含了常規(guī)的、當(dāng)前以及過(guò)去的客戶;源系統(tǒng):已經(jīng)完成的產(chǎn)品訂單,維護(hù)合同,在線銷(xiāo)售

建立日期:1999年1月15日

最后更新日期:2001年1月21日

更新周期:每周

最后的完全刷新日期:2000年12月29日

完全刷新周期:每6個(gè)月

數(shù)據(jù)質(zhì)量回顧:2001年1月25日

最后的副本:2001年1月10日

計(jì)劃歸檔:每6個(gè)月

負(fù)責(zé)人:janebrown2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織實(shí)體名稱:customer別名:Account,Client數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22定義:從公司購(gòu)買(mǎi)產(chǎn)品或服務(wù)的一個(gè)人或者一個(gè)機(jī)構(gòu)。2.6數(shù)1082.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵需求:對(duì)數(shù)據(jù)倉(cāng)庫(kù)使用的必要性在訂單處理程序中,用戶通過(guò)系統(tǒng)提供的圖形界面及預(yù)定義的報(bào)表進(jìn)行信息訪問(wèn);使用數(shù)據(jù)倉(cāng)庫(kù)時(shí),自己從數(shù)據(jù)倉(cāng)庫(kù)中獲取信息。需要使用元數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵需求:數(shù)據(jù)倉(cāng)庫(kù)與1092.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織對(duì)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的必要性數(shù)據(jù)抽取和數(shù)據(jù)轉(zhuǎn)換源系統(tǒng)及其數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)及數(shù)據(jù)內(nèi)容數(shù)據(jù)映射及數(shù)據(jù)轉(zhuǎn)換我們需要源系統(tǒng)的元數(shù)據(jù),源系統(tǒng)到目標(biāo)系統(tǒng)的映射,以及數(shù)據(jù)轉(zhuǎn)換的規(guī)則。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)管理員物理設(shè)計(jì)和初始裝載定期的增量裝載需要知道數(shù)據(jù)庫(kù)邏輯結(jié)構(gòu)的元數(shù)據(jù),數(shù)據(jù)刷新及裝載周期元數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織對(duì)構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的必要性數(shù)據(jù)倉(cāng)庫(kù)1102.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織對(duì)管理數(shù)據(jù)倉(cāng)庫(kù)的必要性數(shù)據(jù)抽取/轉(zhuǎn)換/裝載如何處理數(shù)據(jù)的變化?如何納入新的源系統(tǒng)?外部系統(tǒng)的數(shù)據(jù)如何增加新的外部數(shù)據(jù)源?如何去掉某些外部數(shù)據(jù)源?數(shù)據(jù)倉(cāng)庫(kù)如何增加新的匯總表?如何控制查詢?數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織對(duì)管理數(shù)據(jù)倉(cāng)庫(kù)的必要性數(shù)據(jù)倉(cāng)庫(kù)1112.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織想象一下,一個(gè)沒(méi)有標(biāo)簽和文件夾的文件柜。如果沒(méi)有元數(shù)據(jù),那么數(shù)據(jù)倉(cāng)庫(kù)就像這個(gè)文件柜;可能裝滿了很多對(duì)你的用戶、開(kāi)發(fā)者及管理者很有用的信息,但是,卻沒(méi)有任何簡(jiǎn)便的方法知道這些信息在哪里,這樣一來(lái),數(shù)據(jù)倉(cāng)庫(kù)的價(jià)值就很有限。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織想象一下,一個(gè)沒(méi)有標(biāo)簽和文件夾1122.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織元數(shù)據(jù)就像一個(gè)神經(jīng)中樞,是關(guān)于數(shù)據(jù)的數(shù)據(jù);在構(gòu)建和管理數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中,不同的過(guò)程都會(huì)產(chǎn)生一部分元數(shù)據(jù)。一個(gè)過(guò)程創(chuàng)建的元數(shù)據(jù)可以被其他過(guò)程使用。在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)處于一個(gè)關(guān)鍵的位置,使不同的過(guò)程能夠相互通信,是數(shù)據(jù)倉(cāng)庫(kù)的中樞。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織元數(shù)據(jù)就像一個(gè)神經(jīng)中樞,是關(guān)于1132.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)元素查詢工具報(bào)表工具OLAP工具數(shù)據(jù)挖掘應(yīng)用程序外部數(shù)據(jù)數(shù)據(jù)裝載功能轉(zhuǎn)換工具清晰工具抽取工具源系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)元素查詢工具報(bào)表工具O1142.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織元數(shù)據(jù)扮演了一個(gè)活躍的角色,輔助數(shù)據(jù)倉(cāng)庫(kù)處理過(guò)程的自動(dòng)化。以下是按順序排列的后端處理過(guò)程的列表數(shù)據(jù)源結(jié)構(gòu)定義;數(shù)據(jù)抽取;初始重格式化/合并初步數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換/合并有效性和質(zhì)量檢查數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)定義創(chuàng)建裝載映像數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織元數(shù)據(jù)扮演了一個(gè)活躍的角色,輔1152.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)據(jù)類型數(shù)據(jù)源數(shù)據(jù)數(shù)據(jù)源存儲(chǔ)平臺(tái)數(shù)據(jù)源的數(shù)據(jù)格式數(shù)據(jù)源的業(yè)務(wù)內(nèi)容說(shuō)明;數(shù)據(jù)源的所有者數(shù)據(jù)源的訪問(wèn)方法及使用限制;實(shí)施數(shù)據(jù)抽取的工具和其他方法,及相應(yīng)的參數(shù)設(shè)置;數(shù)據(jù)抽取的進(jìn)度安排;實(shí)際數(shù)據(jù)抽取的時(shí)間、內(nèi)容及完成情況記錄;數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)1162.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)據(jù)類型數(shù)據(jù)的預(yù)處理數(shù)據(jù)抽取、轉(zhuǎn)換、裝載過(guò)程中用到的各種文件定義;從數(shù)據(jù)源到主題數(shù)據(jù)實(shí)際視圖之間的數(shù)據(jù)對(duì)應(yīng)關(guān)系,有關(guān)數(shù)據(jù)凈化的詳細(xì)規(guī)則;為了滿足數(shù)據(jù)挖掘需要進(jìn)行的數(shù)據(jù)處理的詳細(xì)說(shuō)明;維表各屬性的更新策略選擇;代理碼的分配情況;數(shù)據(jù)聚集的定義;預(yù)處理數(shù)據(jù)的備份方法;數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)1172.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)據(jù)類型數(shù)據(jù)倉(cāng)庫(kù)主題各種數(shù)據(jù)庫(kù)表或視圖的定義數(shù)據(jù)庫(kù)分區(qū)的設(shè)置;索引的建立方法;數(shù)據(jù)庫(kù)訪問(wèn)權(quán)限分配;數(shù)據(jù)庫(kù)備份方案;數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)1182.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)據(jù)類型查詢服務(wù)數(shù)據(jù)庫(kù)表及表中數(shù)據(jù)項(xiàng)的業(yè)務(wù)含義說(shuō)明;可視化查詢結(jié)果格式的定義;用戶及其訪問(wèn)權(quán)限的定義;數(shù)據(jù)倉(cāng)庫(kù)使用情況的監(jiān)控與統(tǒng)計(jì);數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織按照數(shù)據(jù)倉(cāng)庫(kù)功能區(qū)域劃分的元數(shù)1192.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織也可以將原數(shù)據(jù)分為管理元數(shù)據(jù)和用戶元數(shù)據(jù);管理元數(shù)據(jù)用于創(chuàng)建和維護(hù)數(shù)據(jù)倉(cāng)庫(kù)。它包括數(shù)據(jù)源元數(shù)據(jù)、預(yù)處理數(shù)據(jù)元數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)主題數(shù)據(jù)源數(shù)據(jù)等;用戶元數(shù)據(jù)幫助用戶進(jìn)行查詢、理解查詢結(jié)果,了解數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)和組織,其中主要內(nèi)容是查詢服務(wù)元數(shù)據(jù);數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘222.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織也可以將原數(shù)據(jù)分為管理元數(shù)據(jù)和120

數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織粒度分區(qū)維度元數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)追加2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)121數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式簡(jiǎn)單堆積文件它將由數(shù)據(jù)庫(kù)中提取并加工的數(shù)據(jù)逐一積累存儲(chǔ)輪轉(zhuǎn)綜合文件數(shù)據(jù)存儲(chǔ)單位被分為若干個(gè)級(jí)別輪轉(zhuǎn)記錄--綜合優(yōu)點(diǎn):結(jié)構(gòu)簡(jiǎn)捷,數(shù)據(jù)量較簡(jiǎn)單堆積結(jié)構(gòu)減少缺點(diǎn):損失數(shù)據(jù)細(xì)節(jié)。越久遠(yuǎn)的數(shù)據(jù),細(xì)節(jié)損失越多2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)組織形式2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)122簡(jiǎn)單堆積結(jié)構(gòu)它將每天從數(shù)據(jù)庫(kù)中提取加工后的數(shù)據(jù)逐日積累的存儲(chǔ)起來(lái)。按這種方式存儲(chǔ)的數(shù)據(jù)細(xì)節(jié)化程度很高,可以應(yīng)付多種細(xì)節(jié)查詢,但分析時(shí)查詢的效率較低。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織面向應(yīng)用數(shù)據(jù)庫(kù)每天數(shù)據(jù)每天綜合1月1日1月2日1月3日2月1日2月2日2月3日…………3月1日3月2日3月3日…………………………需要許多存儲(chǔ)空間無(wú)細(xì)節(jié)丟失許多處理與數(shù)據(jù)有關(guān)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22簡(jiǎn)單堆積結(jié)構(gòu)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織面向應(yīng)用數(shù)據(jù)庫(kù)123輪轉(zhuǎn)綜合結(jié)構(gòu)它將數(shù)據(jù)按不同的期限輪轉(zhuǎn)地存儲(chǔ)。2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織非常緊湊一些細(xì)節(jié)丟失提取越久的數(shù)據(jù),越不詳細(xì)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22輪轉(zhuǎn)綜合結(jié)構(gòu)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織非常緊湊數(shù)據(jù)倉(cāng)庫(kù)與124簡(jiǎn)單直接數(shù)據(jù)是從操作型環(huán)境直接裝入數(shù)據(jù)倉(cāng)庫(kù)中,并沒(méi)有任何積累,只不過(guò)這種文件不是在每天的基礎(chǔ)上組織的,而是以較長(zhǎng)時(shí)間(如一個(gè)星期、一個(gè)月)為單位的。因此,簡(jiǎn)單直接文件是按一定時(shí)間操作型數(shù)據(jù)庫(kù)的一個(gè)快照,即按一定時(shí)間間隔對(duì)數(shù)據(jù)庫(kù)的采樣。JAdamsMain大街PAndersonHigh大街456號(hào)KApplebyA大街10號(hào)LAzimoff被農(nóng)場(chǎng)路64號(hào)面向應(yīng)用數(shù)據(jù)庫(kù)1月份數(shù)據(jù)2.6數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)組織數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘22簡(jiǎn)單直接JAdamsMain大街面向應(yīng)用數(shù)據(jù)庫(kù)1月份數(shù)125連續(xù)結(jié)構(gòu)它是通過(guò)比較兩個(gè)連續(xù)的簡(jiǎn)單直接文件的不同而生成的另一種連續(xù)文件,生成的連續(xù)文件又可以和新的簡(jiǎn)單直接文件一起生成新的連續(xù)文件。JAdamsMain大街PAndersonHigh大街456號(hào)KApplebyA大街10號(hào)LAzimoff被農(nóng)場(chǎng)路64號(hào)JAdams

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論