![商務(wù)智能復(fù)習(xí)資料_第1頁](http://file4.renrendoc.com/view/112649f1a736dbd15b92ccc684b32b39/112649f1a736dbd15b92ccc684b32b391.gif)
![商務(wù)智能復(fù)習(xí)資料_第2頁](http://file4.renrendoc.com/view/112649f1a736dbd15b92ccc684b32b39/112649f1a736dbd15b92ccc684b32b392.gif)
![商務(wù)智能復(fù)習(xí)資料_第3頁](http://file4.renrendoc.com/view/112649f1a736dbd15b92ccc684b32b39/112649f1a736dbd15b92ccc684b32b393.gif)
![商務(wù)智能復(fù)習(xí)資料_第4頁](http://file4.renrendoc.com/view/112649f1a736dbd15b92ccc684b32b39/112649f1a736dbd15b92ccc684b32b394.gif)
![商務(wù)智能復(fù)習(xí)資料_第5頁](http://file4.renrendoc.com/view/112649f1a736dbd15b92ccc684b32b39/112649f1a736dbd15b92ccc684b32b395.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、商務(wù)智能構(gòu)造數(shù)據(jù)倉庫明確需求用戶的主觀分析需求選擇工具數(shù)據(jù)抽?。╠ata extract)工具數(shù)據(jù)清洗(data cleaning)工具元數(shù)據(jù)(metadata)管理工具數(shù)據(jù)分析工具 ( look for patterns )數(shù)據(jù)挖掘工具 ( look for hidden patterns )數(shù)據(jù)展現(xiàn)工具構(gòu)建數(shù)據(jù)倉庫操作型處理也叫事務(wù)處理,是指對數(shù)據(jù)庫的日常聯(lián)機(jī)訪問操作,通常是對一個或一組記錄的查詢和修改,主要是為企業(yè)特定的應(yīng)用服務(wù)的,所以也叫聯(lián)機(jī)事務(wù)處理。On-Line Transaction Processing(OLTP)通常僅僅是對一個或一組記錄的查詢或修改;查詢簡單,但執(zhí)行頻率高;
2、人們關(guān)心的是處理的響應(yīng)時間、數(shù)據(jù)的安全性和完整性等指標(biāo)。分析型處理也叫做信息型處理,主要用于企業(yè)管理人員的決策分析,為制訂企業(yè)的未來經(jīng)營管理計(jì)劃提供輔助決策信息。 需要對大量的事務(wù)型數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、歸納和分析;需要訪問大量的歷史數(shù)據(jù);執(zhí)行頻率和對響應(yīng)時間的要求都不高。-典型的的分析型處理決策支持系統(tǒng) ( DSS -Decision Support System ) 事務(wù)處理環(huán)境不適宜DSS應(yīng)用的原因在傳統(tǒng)的以數(shù)據(jù)庫為核心的事務(wù)處理環(huán)境中不適宜建立DSS等分析型應(yīng)用,其原因主要有以下六條: 事務(wù)處理和分析處理的性能特性不同:用戶每次操作處理的時間短,存取數(shù)據(jù)量小,但操作頻率高,并發(fā)程度大。每次分析
3、可能需要連續(xù)運(yùn)行很長的時間,存取數(shù)據(jù)量大,但很少做這樣的分析處理,也沒有并發(fā)執(zhí)行的要求。數(shù)據(jù)集成問題:事務(wù)處理一般只需要與本部門業(yè)務(wù)有關(guān)的當(dāng)前細(xì)節(jié)數(shù)據(jù)分析處理的數(shù)據(jù)可能來自多種不同的數(shù)據(jù)源對于需要集成數(shù)據(jù)的DSS應(yīng)用來說,在應(yīng)用程序中對事務(wù)處理環(huán)境中的這些紛繁復(fù)雜的數(shù)據(jù)進(jìn)行集成,將帶來下述問題:大大加重程序員的負(fù)擔(dān)重復(fù)計(jì)算極低的分析處理效率數(shù)據(jù)的動態(tài)集成問題:集成數(shù)據(jù)必須以一定的周期進(jìn)行刷新(即采用動態(tài)集成策略),但傳統(tǒng)的事務(wù)處理環(huán)境并不具備動態(tài)集成的能力。歷史數(shù)據(jù)問題事務(wù)處理一般只需要當(dāng)前數(shù)據(jù)分析處理更看重歷史數(shù)據(jù)數(shù)據(jù)的綜合問題事務(wù)處理需要的是當(dāng)前的細(xì)節(jié)性操作數(shù)據(jù),而分析處理需要的往往是大量
4、的總結(jié)性分析型數(shù)據(jù),而非數(shù)據(jù)庫中的細(xì)節(jié)性操作型數(shù)據(jù)。在分析前往往需要對細(xì)節(jié)數(shù)據(jù)進(jìn)行不同程度的綜合,傳統(tǒng)的事務(wù)處理系統(tǒng)不具備這種綜合能力數(shù)據(jù)的訪問問題事務(wù)處理對于需要修改的數(shù)據(jù)必須實(shí)時更新數(shù)據(jù)庫 分析處理不需要實(shí)時的更新操作,但需要定時刷新 操作型數(shù)據(jù)和分析型數(shù)據(jù)特 性操 作 型 數(shù) 據(jù)(DB)分 析 型 數(shù) 據(jù)(DW)定位面向應(yīng)用的事務(wù)處理面向主題的數(shù)據(jù)分析DB設(shè)計(jì)E-R模型星型/雪花模型,數(shù)據(jù)立方體數(shù)據(jù)當(dāng)前的、最新的歷史的,具有時間跨度匯總原始的,細(xì)節(jié)的集成的,一致的視圖詳細(xì)的,關(guān)系的總體的,多維的操作類型讀/寫(可變的)讀(穩(wěn)定的)存取請求可預(yù)知的事先未知的訪問記錄一次操作少量記錄一次操作
5、大量記錄DB規(guī)模100MB GBTB工作單位短的,簡單事務(wù)復(fù)雜查詢性能要求對性能要求高對性能要求較寬松數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫就是一個面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合,用于支持經(jīng)營管理過程中的決策制定。 數(shù)據(jù)倉庫的四個特征:面向主題主題是較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。在邏輯意義上,是對應(yīng)企業(yè)中某一宏觀分析領(lǐng)域涉及的分析對象。 面向主題是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,為按主題進(jìn)行決策的過程提供信息。 如果按照面向主題的方式進(jìn)行數(shù)據(jù)組織,首先應(yīng)該抽取主題,即按照管理人員的分析要求來確定主題,而與每個主題相關(guān)的數(shù)據(jù)又與有關(guān)的事務(wù)處理所需的
6、數(shù)據(jù)不盡相同。在該例中,我們可以抽取出三個不同的主題(即分析對象)及其相關(guān)的數(shù)據(jù):集成數(shù)據(jù)倉庫中的數(shù)據(jù)是為分析服務(wù)的,而分析需要多種廣泛的不同數(shù)據(jù)源以便進(jìn)行比較、鑒別,因此數(shù)據(jù)倉庫中的數(shù)據(jù)必須從多個數(shù)據(jù)源中獲取,這些數(shù)據(jù)源包括多種類型數(shù)據(jù)庫、文件系統(tǒng)以及Internet網(wǎng)上數(shù)據(jù)等,它們通過數(shù)據(jù)集成而形成數(shù)據(jù)倉庫中的數(shù)據(jù)。 不可更新數(shù)據(jù)倉庫中的數(shù)據(jù)是經(jīng)過抽取而形成的分析型數(shù)據(jù),不具有原始性,主要供企業(yè)決策分析之用,執(zhí)行的主要是查詢操作,一般情況下不執(zhí)行更新操作。同時,一個穩(wěn)定的數(shù)據(jù)環(huán)境也有利于數(shù)據(jù)分析操作和決策的制訂隨時間不斷變化數(shù)據(jù)倉庫內(nèi)的信息并不只是關(guān)于企業(yè)當(dāng)時或某一時點(diǎn)的信息,而是系統(tǒng)記錄
7、了企業(yè)從過去某一時點(diǎn)到目前的各個階段的信息,通過這些信息可以對企業(yè)的發(fā)展歷程和未來趨勢作出定量分析和預(yù)測。 因此數(shù)據(jù)倉庫中的數(shù)據(jù)通常都帶有時間屬性,同時必須以一定時間段為單位進(jìn)行統(tǒng)一更新。數(shù)據(jù)倉庫的關(guān)鍵技術(shù)數(shù)據(jù)的ETL(抽取、轉(zhuǎn)換、裝載)存儲和管理數(shù)據(jù)的訪問和表現(xiàn)元數(shù)據(jù) 數(shù)據(jù)抽取數(shù)據(jù)倉庫中的數(shù)據(jù)來源于數(shù)據(jù)源,將數(shù)據(jù)源中數(shù)據(jù)通過網(wǎng)絡(luò)進(jìn)行抽取,并經(jīng)加工、轉(zhuǎn)換、綜合后形成數(shù)據(jù)倉庫中的數(shù)據(jù),這就是數(shù)據(jù)倉庫的數(shù)據(jù)抽取。數(shù)據(jù)刷新經(jīng)過抽取進(jìn)入數(shù)據(jù)倉庫的數(shù)據(jù),在經(jīng)過一段時間后要重新修正,修改那些過時的數(shù)據(jù),保存那些不變的數(shù)據(jù),此種動作稱為數(shù)據(jù)倉庫的數(shù)據(jù)刷新。數(shù)據(jù)刷新的過程與抽取類似,但刷新的數(shù)據(jù)量往往小于抽取
8、的數(shù)據(jù)量。由于僅需要對修改過的數(shù)據(jù)進(jìn)行刷新,因而其實(shí)現(xiàn)難度與復(fù)雜性要大于數(shù)據(jù)抽取。一般數(shù)據(jù)刷新的方法包括: 時間戳適用情況若數(shù)據(jù)庫中的記錄有時間屬性,則可根據(jù)OLTP數(shù)據(jù)庫中的數(shù)據(jù)有無更新,以及在執(zhí)行更新操作時數(shù)據(jù)的修改時間標(biāo)志來實(shí)現(xiàn)數(shù)據(jù)倉庫中數(shù)據(jù)的動態(tài)刷新。 缺點(diǎn):大多數(shù)數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)并不含有時間屬性。 DELTA文件適用情況有些OLTP數(shù)據(jù)庫的應(yīng)用程序在工作過程中會形成一些DELTA文件以記錄該應(yīng)用所作的數(shù)據(jù)修改操作,可根據(jù)該DELTA文件進(jìn)行數(shù)據(jù)刷新。優(yōu)點(diǎn):采用此方法可避免對整個數(shù)據(jù)庫的對比掃描,具有較高的刷新效率。缺點(diǎn):這樣的應(yīng)用程序并不普遍,修改現(xiàn)有的應(yīng)用程序的工作量又太大。 建
9、立映象文件實(shí)現(xiàn)方法在上一次數(shù)據(jù)刷新后對數(shù)據(jù)庫作一次快照在本次刷新之前再對數(shù)據(jù)庫作一次快照比較兩個快照的不同,從而確定數(shù)據(jù)倉庫的數(shù)據(jù)刷新操作。缺點(diǎn):需要占用大量的系統(tǒng)資源,可能較大地影響原有數(shù)據(jù)庫系統(tǒng)的性能 日志文件實(shí)現(xiàn)方法一般OLTP數(shù)據(jù)庫都有日志文件,可根據(jù)OLTP數(shù)據(jù)庫的日志信息來實(shí)現(xiàn)數(shù)據(jù)倉庫的數(shù)據(jù)刷新。優(yōu)點(diǎn):日志是OLTP數(shù)據(jù)庫的固有機(jī)制,不會影響原有OLTP數(shù)據(jù)庫的性能,具有比DELTA文件和建立映象文件更高的刷新效率歷史完整性?數(shù)據(jù)倉庫是多維度多層次的維度是觀察數(shù)據(jù)對象的角度層次是數(shù)據(jù)對象的綜合程度數(shù)據(jù)倉庫的數(shù)據(jù)組織形式簡單堆積文件輪轉(zhuǎn)綜合文件簡化直接文件連續(xù)文件元數(shù)據(jù)? 一個完整的
10、數(shù)據(jù)倉庫/數(shù)據(jù)集市體系結(jié)構(gòu)一般由三個層次組成,它們是:數(shù)據(jù)源數(shù)據(jù)倉庫數(shù)據(jù)集市(Data Mart)數(shù)據(jù)倉庫與數(shù)據(jù)集市的關(guān)系類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)中的 基表 與 視圖 的關(guān)系。數(shù)據(jù)集市的數(shù)據(jù)來自數(shù)據(jù)倉庫,它是數(shù)據(jù)倉庫中數(shù)據(jù)的一個部分與局部,是一個數(shù)據(jù)的再抽取與組織的過程。數(shù)據(jù)倉庫與數(shù)據(jù)集市的關(guān)系自頂向下的結(jié)構(gòu)自底向上的結(jié)構(gòu)總線結(jié)構(gòu)的數(shù)據(jù)集市企業(yè)級數(shù)據(jù)集市結(jié)構(gòu)自頂向下的結(jié)構(gòu)構(gòu)建企業(yè)數(shù)據(jù)倉庫基于企業(yè)數(shù)據(jù)倉庫構(gòu)建數(shù)據(jù)集市優(yōu)點(diǎn)建立數(shù)據(jù)集市能夠減輕DW訪問負(fù)載各部門可以任意處理數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換和整合在DW階段統(tǒng)一完成數(shù)據(jù)緩沖功能 缺點(diǎn)成本高、見效慢、數(shù)據(jù)集市間不共享資源自底向上的結(jié)構(gòu)構(gòu)建數(shù)據(jù)集市基于數(shù)據(jù)集市
11、構(gòu)建企業(yè)數(shù)據(jù)倉庫優(yōu)點(diǎn)見效快、啟動資金少 缺點(diǎn)各個部門都要進(jìn)行數(shù)據(jù)清理整合可能造成“蜘蛛網(wǎng)”、數(shù)據(jù)不一致等問題并且總體上沒有節(jié)約資金總線結(jié)構(gòu)的數(shù)據(jù)集市不建立數(shù)據(jù)倉庫而直接建立數(shù)據(jù)集市各個數(shù)據(jù)集市不是孤立的,相互之間通過一種共享維表和事實(shí)表的“總線結(jié)構(gòu)”緊密聯(lián)系在一起。優(yōu)點(diǎn)共享維表和事實(shí)表,解決了建立數(shù)據(jù)集市的許多問題缺點(diǎn)這種結(jié)構(gòu)基于多維模型,應(yīng)用限制于OLAP多個數(shù)據(jù)源直接影響多個集市造成結(jié)構(gòu)不十分穩(wěn)定數(shù)據(jù)倉庫數(shù)據(jù)的間接訪問參加ppt 4 26比較項(xiàng)目OLAPOLTP應(yīng)用基礎(chǔ)數(shù)據(jù)倉庫DBMS用戶決策者(高級管理人員)一般操作員(管理人員)目的為決策和管理提供支持為日常工作服務(wù)數(shù)據(jù)特征導(dǎo)出數(shù)據(jù)原始
12、數(shù)據(jù)數(shù)據(jù)細(xì)節(jié)綜合性數(shù)據(jù),細(xì)節(jié)程度低細(xì)節(jié)程度高時間特征歷史數(shù)據(jù),橫跨一個時段當(dāng)前數(shù)據(jù)更新方法周期性刷新可實(shí)時更新數(shù)據(jù)量需求一次處理需大量數(shù)據(jù)一次處理需少量數(shù)據(jù)OLAP中的幾個基本概念 維(Dimension)觀察分析對象的角度例如:可以從三個維角度觀察銷售金額這個對象時間維可從時間角度統(tǒng)計(jì)(所有)商品在不同時間段內(nèi)的銷售(總)金額,以便于分析其與時間之間的關(guān)系商品維根據(jù)商品的分類情況統(tǒng)計(jì)每一類商品的銷售金額,以便于分析其與商品類型之間的關(guān)系地域維可根據(jù)每個連鎖店所在的地域統(tǒng)計(jì)其銷售(總)金額,以便于分析其與地域之間的關(guān)系層(Layer)在分析型應(yīng)用中,對分析對象可以在不同的深度層面上進(jìn)行分析與觀
13、察,并可能得到不同的分析結(jié)果。因此,層 反映了對分析對象的觀察深度。按如下的方法進(jìn)行層次劃分按商品的價格分為高檔,中檔,低檔按商品的供應(yīng)商分為外資,合資,國營,私營,個體按購買商品的顧客信息分為按照年齡層次來劃分:老年,中年,青年,少年兒童,嬰兒按照所從事的職業(yè)來劃分:.維成員維的一個取值稱為該維的一個維成員如果一個維是多層次的,則該維的維成員可以是在不同維層次上的取值的組合 例如:對具有日,月,年三個層次的時間維來說,某年某月某日、某年某月、某月某日、某年都是其維成員,如:1998年,1月,1998年1月,1998年1月1日,1月1日在某個維層次上的取值例如:地域維中的江蘇,南京,.例如:商
14、品維中的電視機(jī),服裝,.對一個數(shù)據(jù)項(xiàng)(分析對象)來說,維成員是該數(shù)據(jù)項(xiàng)在某維中位置的描述。 數(shù)據(jù)單元(單元格)當(dāng)多維數(shù)組的每一維都選中一個維成員,這些維成員的組合就唯一確定了一個觀察對象的值,即:(維成員1,維成員2,維成員n,對象值)這樣一個值或存放該值的地方我們稱其為一個數(shù)據(jù)單元OLAP的基本數(shù)據(jù)模型 OLAP中的數(shù)據(jù)構(gòu)造方式 ?星型模式星型模式是一種多維表結(jié)構(gòu),它一般由兩種不同性質(zhì)的二維表組成:事實(shí)表(fact table)它存放多維表中的主要事實(shí),我們稱其為量(Measure)維表(Dimension Table)用以存放多維表中的維成員的取值一般一個n維的多維表往往有n個維表和一個事
15、實(shí)表,它們構(gòu)成了一個星形結(jié)構(gòu),因而稱其為星型模式。在星型模式中主體是事實(shí)表,而有關(guān)維的細(xì)節(jié)則構(gòu)作于維表內(nèi)以達(dá)到簡化事實(shí)表的目的,事實(shí)表與維表間有公共屬性相連以使它們構(gòu)成一個整體。 雪花模式雪花模型是對星型模型的擴(kuò)展雪花模型對星型模型的維表進(jìn)一步層次化,原來的各維表可能被擴(kuò)展為小的事實(shí)表,形成一些局部的“層次”區(qū)域。優(yōu)點(diǎn)最大限度地減少數(shù)據(jù)存儲量,使維表盡可能地規(guī)范化。缺點(diǎn)執(zhí)行查詢需要更多的連接操作,可能會影響查詢性能。切片,切塊,上鉆,下鉆(參見書)切片(Slice)根據(jù)某一維上的某個維成員值選擇統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析切塊(Dice)根據(jù)某一維上的某個維成員取值的區(qū)間選擇統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析根據(jù)多個維度上
16、的維成員取值的區(qū)間選擇統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析數(shù)據(jù)概括(roll_up)將多維下標(biāo)的取值提升到較高的概念層次上,從而形成新的統(tǒng)計(jì)查詢結(jié)果,并進(jìn)行分析。數(shù)據(jù)細(xì)化(drill_down)將多維下標(biāo)的取值降低到較低的概念層次上,從而形成更細(xì)致的統(tǒng)計(jì)查詢結(jié)果,并進(jìn)行分析。數(shù)據(jù)倉庫設(shè)計(jì)的原則面向主題原則數(shù)據(jù)驅(qū)動原則原型法設(shè)計(jì)原則面向主題原則建立數(shù)據(jù)倉庫的目的構(gòu)建數(shù)據(jù)倉庫的目的是面向企業(yè)的管理人員,為經(jīng)營管理提供決策支持信息。因此數(shù)據(jù)倉庫的組織設(shè)計(jì)必須以用戶決策的需要來確定,即從用戶決策的主觀需求(主題)開始。數(shù)據(jù)倉庫中數(shù)據(jù)的組織方法為了進(jìn)行數(shù)據(jù)分析首先要有分析的主題,以主題為起始點(diǎn),進(jìn)行相關(guān)數(shù)據(jù)的設(shè)計(jì),最終建立
17、起一個面向主題的分析型環(huán)境。在數(shù)據(jù)庫設(shè)計(jì)中則是以客體(Object)為起始點(diǎn),即以客觀操作需求為設(shè)計(jì)依據(jù)。例如:商品銷售主題建立目的管理人員能夠在適當(dāng)?shù)臅r候,訂購適當(dāng)?shù)纳唐?,并把它們分發(fā)到適當(dāng)?shù)纳痰曛腥ヤN售,以提高商品的銷售總金額。需要執(zhí)行的分析操作分析什么樣的商品,在什么樣的時間和商店內(nèi)暢銷即分析商品的銷售額與商品類型、銷售時間及商店位置之間的變化關(guān)系管理人員將據(jù)此決定他們的經(jīng)營策略數(shù)據(jù)驅(qū)動原則在數(shù)據(jù)倉庫設(shè)計(jì)中,由于其所有數(shù)據(jù)均應(yīng)建立在已有的數(shù)據(jù)庫基礎(chǔ)上,即是從已經(jīng)存在于操作型環(huán)境中的數(shù)據(jù)出發(fā)進(jìn)行數(shù)據(jù)倉庫的設(shè)計(jì),這種設(shè)計(jì)方法被稱為 “數(shù)據(jù)驅(qū)動” 方法原型法設(shè)計(jì)原則數(shù)據(jù)倉庫系統(tǒng)的原始需求不明確
18、,且不斷變化與增加,開發(fā)者最初并不能確切了解到用戶的明確而詳細(xì)的需求,用戶所能提供的無非是需求的大方向或部分需求,更不能較準(zhǔn)確地預(yù)見到以后的需求。因此,采用原型法來進(jìn)行數(shù)據(jù)倉庫的開發(fā)是比較合適的,即從構(gòu)建系統(tǒng)的基本框架著手,不斷豐富與完善整個系統(tǒng)。數(shù)據(jù)倉庫設(shè)計(jì)的三級數(shù)據(jù)模型概念模型為一定目標(biāo)設(shè)計(jì)系統(tǒng)、收集信息而服務(wù)的概念型工具,是客觀世界到機(jī)器世界的一個中間層次E-R法邏輯模型描述了數(shù)據(jù)倉庫的主題的邏輯實(shí)現(xiàn)關(guān)系模型物理模型邏輯模型在數(shù)據(jù)倉庫中的實(shí)現(xiàn)數(shù)據(jù)倉庫的設(shè)計(jì)步驟數(shù)據(jù)倉庫設(shè)計(jì)大致有如下幾個步驟:系統(tǒng)規(guī)劃明確主題在數(shù)據(jù)倉庫設(shè)計(jì)的開始,首先要做的事是有關(guān)分析人員需要確定具體領(lǐng)域的分析對象,這個對
19、象就是主題。主題是一種較高層次的抽象,對它的認(rèn)識與表示是一個逐步完善的過程。因此,在開始時不妨先確定一個初步的主題概念以利于設(shè)計(jì)工作的開始,此后隨著設(shè)計(jì)工作的進(jìn)一步開展,再逐步擴(kuò)充與完善。(原型設(shè)計(jì)法)技術(shù)準(zhǔn)備概念設(shè)計(jì)確定系統(tǒng)邊界確定主要的主題及其內(nèi)容OLAP等分析應(yīng)用的設(shè)計(jì)一般將數(shù)據(jù)劃分為:詳細(xì)數(shù)據(jù)、輕度總結(jié)、高度總結(jié)三種粒度,或者采用更多級的粒度劃分方法邏輯設(shè)計(jì)將ER圖轉(zhuǎn)換成關(guān)系數(shù)據(jù)庫的二維表定義數(shù)據(jù)源和數(shù)據(jù)抽取規(guī)則在邏輯模型的設(shè)計(jì)過程中,需要考慮以下一些問題:適當(dāng)?shù)牧6葎澐趾侠淼臄?shù)據(jù)分割策略定義合適的數(shù)據(jù)來源物理設(shè)計(jì)數(shù)據(jù)倉庫生成數(shù)據(jù)倉庫的運(yùn)行與維護(hù)物理模型設(shè)計(jì)在邏輯模型設(shè)計(jì)基礎(chǔ)上確定數(shù)據(jù)
20、的存儲結(jié)構(gòu)、確定索引策略、確定存儲分配及數(shù)據(jù)存放位置等與物理有關(guān)的內(nèi)容,物理模型設(shè)計(jì)的具體方法與數(shù)據(jù)庫設(shè)計(jì)中的大致相似。其目的是為了提高數(shù)據(jù)倉庫系統(tǒng)的訪問性能。常用的一些技術(shù)有:合并表建立數(shù)據(jù)序列引入冗余表的物理分割生成導(dǎo)出數(shù)據(jù)建立廣義索引規(guī)范化/反規(guī)范化物理模型設(shè)計(jì) 合并表在常見的一些分析處理操作中,可能需要執(zhí)行多表連接操作。為了節(jié)省I/O開銷,可以把這些表中的記錄混合存放在一起,以減低表的連接操作的代價。這樣的技術(shù)我們稱為 合并表 ??紤]創(chuàng)建一個數(shù)據(jù)數(shù)組,這樣如果數(shù)據(jù)存放在一行中,那么一次I/O就足以檢索到了。通常當(dāng)數(shù)列中值的數(shù)量穩(wěn)定、數(shù)據(jù)是按順序訪問的、數(shù)據(jù)的創(chuàng)建與修改在統(tǒng)計(jì)上是以非常有
21、規(guī)律的方式進(jìn)行等條件都滿足時,創(chuàng)建一個數(shù)組才是有意義的。在面向某個主題的分析過程中,通常需要訪問不同表中的多個屬性,而每個屬性又可能參與多個不同主題的分析過程。因此可以通過修改關(guān)系模式把某些屬性復(fù)制到多個不同的主題表中去,從而減少一次分析過程需要訪問的表的數(shù)量。對于訪問頻率較高的屬性,可以單獨(dú)考慮其物理存儲組織,以便選擇合適的索引策略和特定的物理組織方式。對于需要頻繁更新的屬性,也可以單獨(dú)組織其物理存儲,以免因數(shù)據(jù)更新而帶來的空間重組、重構(gòu)等工作。在原始、細(xì)節(jié)數(shù)據(jù)的基礎(chǔ)上進(jìn)行一些統(tǒng)計(jì)和計(jì)算,生成導(dǎo)出數(shù)據(jù),并保存在數(shù)據(jù)倉庫中。優(yōu)點(diǎn)避免在分析過程中執(zhí)行過多的統(tǒng)計(jì)或計(jì)算操作,減少輸入/出的次數(shù),提高
22、分析操作的性能避免了不同用戶進(jìn)行重復(fù)統(tǒng)計(jì)操作可能產(chǎn)生的偏差這樣的廣義索引的數(shù)據(jù)量是非常小的,可以在每次進(jìn)行數(shù)據(jù)倉庫數(shù)據(jù)加載工作時生成或刷新這樣的廣義索引。用戶可以從已經(jīng)建立的廣義索引里直接獲取這些統(tǒng)計(jì)信息,而不必對整個數(shù)據(jù)倉庫進(jìn)行掃描。事實(shí)表是維度建模的核心和基本表 每一事實(shí)表都對應(yīng)著一個或若干個度量值度量值是事實(shí)表的核心,也是趨勢分析的對象通過事實(shí)表來記錄維度值與度量值之間的關(guān)系 事實(shí)表中的一行對應(yīng)一個度量值事實(shí)表中的所有度量值必須具有相同的粒度粒度劃分:事務(wù),周期快照,累積快照最常用的度量值:數(shù)值類型三種類型的度量值可做加法運(yùn)算可沿著某些維度做加法運(yùn)算不能做加法運(yùn)算計(jì)數(shù)統(tǒng)計(jì)計(jì)算平均值取樣統(tǒng)
23、計(jì)很少采用文本形式的度量值度量值通常是一個可以連續(xù)取值的量每個事實(shí)表都有兩個或兩個以上的外關(guān)鍵字(Foreign Key)通過外關(guān)鍵字建立事實(shí)表與維表之間的聯(lián)系,從而可以通過維度表來存取事實(shí)表中的度量值可以由外關(guān)鍵字的組合構(gòu)成事實(shí)表的主關(guān)鍵字(Primary Key) 維度表的定義通常包括 ? 什么是行 什么是列盡可能多的列盡可能少的行(相對于事實(shí)表)維度建模的設(shè)計(jì)過程選取要建模的業(yè)務(wù)處理過程分析需要定義業(yè)務(wù)處理的粒度事實(shí)表中每一行的度量值的取值粒度選擇事實(shí)表中的維度選擇事實(shí)表中的度量值分析對象可以有多個度量值通過計(jì)算而獲得的可加性度量值也應(yīng)該物理存儲在事實(shí)表中,如:毛利潤金額不具有可加性的計(jì)
24、算結(jié)果則應(yīng)該由數(shù)據(jù)存取工具在訪問過程中進(jìn)行計(jì)算,如:毛利潤率,單價, 退化維度維度表為空,具體的維度值直接存放在事實(shí)表中維度的規(guī)范化處理規(guī)范化非規(guī)范化雪花模型星型模型復(fù)雜的表關(guān)系簡單的表關(guān)系節(jié)省存儲空間記錄之間存在數(shù)據(jù)冗余連接的復(fù)雜,高開銷連接簡單,低開銷低維度瀏覽能力高維度瀏覽能力不支持物理加速技術(shù)支持物理加速技術(shù)代理關(guān)鍵字,避免直接使用操作型數(shù)據(jù)作為維度表和事實(shí)表的主關(guān)鍵字和外關(guān)鍵字 可以緩沖操作型數(shù)據(jù)的變化對數(shù)據(jù)倉庫數(shù)據(jù)的影響性能優(yōu)勢操作型數(shù)據(jù)可能無法作為關(guān)鍵字日期維度的特殊要求歷史一致性歷史一致性 07 47?值鏈由企業(yè)的關(guān)鍵業(yè)務(wù)組成值鏈確定了企業(yè)主體活動的自然邏輯流程 三種互補(bǔ)的庫存
25、模型周期庫存快照定期生成每種商品的庫存水平(數(shù)量)庫存事務(wù)記錄影響庫存水平的主要因素商品的進(jìn)/出倉庫等事務(wù)庫存累積快照記錄每件商品的分發(fā)歷史,直至其離開倉庫為止商品的庫存事實(shí)表與銷售事實(shí)表的區(qū)別銷售事實(shí)表是稀疏的,而庫存事實(shí)表則是稠密的在銷售事實(shí)表中記錄每天實(shí)際發(fā)生的商品銷售情況而庫存事實(shí)表則需要記錄每天、每種商品、在每個商場的庫存情況(不管是否發(fā)生了實(shí)際的銷售事實(shí))解決辦法隨著時間的推移可降低周期快照的頻度最近60天內(nèi)的以天為粒度單位的周期快照最近 3年內(nèi)的以周為粒度單位的周期快照半加型事實(shí) (Semiadditive Facts)只在部分維度上具有可加性的度量值被稱為半加型事實(shí)在商品營銷中
26、,絕大部分的度量值在所有的維度范圍內(nèi)都具有極好的可加性。 在庫存快照模型中,庫存量可以跨產(chǎn)品或商場進(jìn)行匯總(具有可加性),但不具有跨日期的可加性。幾種常見的半加型事實(shí)庫存數(shù)量,銀行帳戶余額,溫度,水位,含量,用于記錄靜態(tài)水平的度量值在跨日期維度以及可能的其它維度范圍內(nèi)都是不可加的。對于不可加的度量值,可用的聚集方法如:平均統(tǒng)計(jì)不能簡單地利用SQL中的AVG函數(shù)來完成這樣的平均統(tǒng)計(jì)計(jì)算工作AVG_DATE_SUM數(shù)據(jù)倉庫總線結(jié)構(gòu)一種可以按增量開發(fā)方式分步建造企業(yè)數(shù)據(jù)倉庫的方法計(jì)算機(jī)中的總線通過為數(shù)據(jù)倉庫環(huán)境定義標(biāo)準(zhǔn)的總線接口,獨(dú)立的數(shù)據(jù)集市就可以由不同的開發(fā)小組在不同的時間進(jìn)行實(shí)現(xiàn)。只要遵循這個
27、標(biāo)準(zhǔn),獨(dú)立的數(shù)據(jù)集市就可以插入到一起并有效地共享。數(shù)據(jù)集市數(shù)據(jù)倉庫總線矩陣(2/2)矩陣的行:對應(yīng)著數(shù)據(jù)集市如果數(shù)據(jù)來源不同,處理功能不同,或者矩陣行代表的內(nèi)容無法在單個迭代過程中合理完成,就應(yīng)當(dāng)創(chuàng)建獨(dú)立的矩陣行矩陣的列:對應(yīng)著共享的公共維度一致性維度一致性維度是進(jìn)一步開發(fā)總線結(jié)構(gòu)數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ)一致性維度要么是同一的,要么是具有最佳粒度與細(xì)節(jié)性的維度在嚴(yán)格數(shù)學(xué)意義上的子集一致的維度具有如下特征一致的維度關(guān)鍵字一致的屬性列名字一致的屬性定義一致的屬性值一致的維度可能意味著是相同的維度表與它們相連的事實(shí)表具有完全相同的內(nèi)容(不同的度量值)。例如:連接到銷售事實(shí)表與庫存事實(shí)表上的日期維度表是同一
28、的,意味著銷售事實(shí)表和庫存事實(shí)表中的內(nèi)容是相同的這樣的維度表在物理上可能是同一張表,也可能是不同的表,但它們應(yīng)該具有相同數(shù)目的行、相同的關(guān)鍵字值、相同的屬性標(biāo)簽、相同的屬性定義與相同的屬性值。原子型維度在最佳粒度層次上的維度定義(最小的粒度)堆積維度 (roll-up dimensions)在較高層次上的維度定義(較大的粒度)每日快照 vs. 每周快照如果堆積維度是基本層次上原子型維度嚴(yán)格意義上的子集,則堆積維度與原子型維度保持一致。一致性事實(shí)同樣的事實(shí)在不同的數(shù)據(jù)集市進(jìn)行存儲的一致性取值單位的一致性值的一致性自然關(guān)鍵字的一致性一般說來,事實(shí)表數(shù)據(jù)不在多個數(shù)據(jù)集市明確的進(jìn)行拷貝。如果事實(shí)表存在
29、于多個數(shù)據(jù)集市,那么支撐這些事實(shí)的定義和方程必須都是相同的如果無法使事實(shí)完全保持一致,那么應(yīng)該對不同的解釋給與不同的名稱日期維度的角色模仿后臺只維持一個單一的日期維度表為事實(shí)表中的每一個日期外關(guān)鍵字建立一個日期維表上的視圖優(yōu)點(diǎn):降低存儲空間開銷,方便使用三種類型事實(shí)表的比較三種不同類型的實(shí)時分區(qū)事務(wù)粒度 當(dāng)天的記錄(并非統(tǒng)計(jì)結(jié)果) 周期快照 最近一個周期內(nèi)的統(tǒng)計(jì)結(jié)果對非/半加性事實(shí)的考慮 累積快照 只記錄最近被更新的項(xiàng)支架維度將一組低基數(shù)屬性單獨(dú)構(gòu)成客戶維度的一個維度(稱為支架維度),從而使整個模型呈雪花狀支架維度中的數(shù)據(jù)一般是從外部數(shù)據(jù)提供者那里獲得的。如:縣人口統(tǒng)計(jì)支架維度使用維度支架的好
30、處客戶維度與支架維度具有相差懸殊的粒度具有不同的管理與加載次數(shù)可以節(jié)省客戶維度表的存儲空間如果用戶的查詢工具堅(jiān)持使用星型結(jié)構(gòu),那么可以通過視圖定義來隱藏維度支架在數(shù)據(jù)倉庫的維度模型中,部分維度屬性是會隨時間而發(fā)生變化的,若只是將這些變化的維度屬性值作簡單的修正,即在維度表中只保留該維度屬性的當(dāng)前值,這會直接影響到對事實(shí)表中該維度屬性所對應(yīng)的事實(shí)數(shù)據(jù)元組的訪問,特別是無法根據(jù)維度屬性值的變化情況來進(jìn)行分析處理。維度表的劃分穩(wěn)定維度漸變維度快變維度漸變維度的處理辦法類型1:改寫屬性值類型2:添加維度行在新的元組上記錄修改后的屬性值,同時系統(tǒng)將為該元組生成新的代理關(guān)鍵字其它維度屬性上的值不變可以考慮
31、在維度表中增加兩個日期屬性:維度的 生效日期 和 截止日期類型3:添加維度列在新增加的屬性列上記錄修改后的屬性值 什么是數(shù)據(jù)挖掘?定義一:數(shù)據(jù)挖掘就是對數(shù)據(jù)庫(數(shù)據(jù)倉庫)中蘊(yùn)涵的、未知的、非平凡的、有潛在應(yīng)用價值的模式(規(guī)則)的提取。定義二:數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫(數(shù)據(jù)倉庫)的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的潛在有用信息。數(shù)據(jù)挖掘中的幾個基本概念模式(pattern)知識(discovered knowledge)置信度(confidence)興趣度(interestingness)非平凡性(nontrivial)有效性(effectiveness) 模式用高級語言表
32、示的表達(dá)一定邏輯含義的信息,這里通常指數(shù)據(jù)庫中數(shù)據(jù)與數(shù)據(jù)之間的邏輯關(guān)系。例如:在某超市的商品銷售數(shù)據(jù)庫中,我們可以找到以下信息:男性顧客在購買嬰兒尿布時也往往同時購買啤酒 在購買面包和黃油的顧客中,大部分的人同時也買了牛奶知識滿足用戶對興趣度和置信度的要求的模式。置信度模式在某一數(shù)據(jù)集上成立的程度。例如:模式R1:在購買面包和黃油的顧客中,大部分的人同時也買了牛奶該模式的置信度為:同時購買面包、黃油、牛奶的顧客人數(shù)占同時購買面包、黃油的顧客人數(shù)的百分比,即:通過數(shù)據(jù)挖掘所發(fā)現(xiàn)的模式的置信度的大小涉及到許多因素,如數(shù)據(jù)的完整性、樣本數(shù)據(jù)的大小、領(lǐng)域知識的支持程度等。如果沒有足夠的置信度,模式不能
33、成為知識。因此在數(shù)據(jù)挖掘過程中,通常要規(guī)定模式的最小置信度興趣度在一定數(shù)據(jù)集上為真的知識被用戶關(guān)注的程度。用戶對知識感興趣的程度也可以用知識的支持度(support)來表示。例如:模式R1的支持度為“同時購買面包,黃油和牛奶的顧客人數(shù)占總顧客人數(shù)的百分比”,即:只有當(dāng)一個模式的興趣度達(dá)到一定的程度時,那么該模式才是一個有意義的模式,才能引起用戶的注意,有助于用戶的決策制訂過程。因此,在數(shù)據(jù)挖掘過程中也要規(guī)定模式的最小支持度,以淘汰哪些在極少情況下才會出現(xiàn)的模式。非平凡性平凡知識能夠以確定的計(jì)算過程提取的模式稱為平凡知識。例如:根據(jù)數(shù)據(jù)庫中的薪水字段求得職員的平均薪水平凡的知識不是數(shù)據(jù)挖掘的目標(biāo)
34、。在數(shù)據(jù)挖掘中,知識的發(fā)現(xiàn)過程都應(yīng)具有某種不確定性和一定的自由度,也就是要發(fā)現(xiàn)不平凡的知識。有效性知識的發(fā)現(xiàn)過程必須能夠有效地在計(jì)算機(jī)上實(shí)現(xiàn)。常用的數(shù)據(jù)挖掘方法特征規(guī)則挖掘面向?qū)傩詺w約方法數(shù)據(jù)立方方法關(guān)聯(lián)規(guī)則挖掘序列模式分析分類分析聚類分析面向?qū)傩詺w約方法這是一種常用的特征規(guī)則的挖掘方法。它通過對屬性值間概念的層次結(jié)構(gòu)進(jìn)行歸約,以獲得相關(guān)數(shù)據(jù)的概括性知識,通常又稱為普化知識。在實(shí)際情況中,許多屬性都可以進(jìn)行數(shù)據(jù)歸類,形成概念匯聚點(diǎn)。這些概念依抽象程度的不同可構(gòu)成描述它們層次結(jié)構(gòu)的概念層次樹。根據(jù)概念層次樹可以對供挖掘用的數(shù)據(jù)進(jìn)行預(yù)處理,以生成一個適合于進(jìn)行數(shù)據(jù)挖掘工作的數(shù)據(jù)集。因此面向?qū)傩缘臄?shù)
35、據(jù)規(guī)約過程實(shí)際上是為進(jìn)行數(shù)據(jù)挖掘工作而進(jìn)行的數(shù)據(jù)預(yù)處理。數(shù)據(jù)立方方法(2/2)在數(shù)據(jù)立方方法中,常用的分析方法有:數(shù)據(jù)概括(roll_up上翻)將屬性值提升到較高的概念層次上如:從基本關(guān)系表 到 概括關(guān)系表一, 再到概括關(guān)系表二的分析過程。 數(shù)據(jù)細(xì)化(drill_down下翻)將屬性值減低一些層次如:從概括關(guān)系表二 到 概括關(guān)系表一, 再到基本關(guān)系表的分析過程。要降低屬性值的概念層次,通常需要在最初的基本關(guān)系表中重新進(jìn)行統(tǒng)計(jì)計(jì)算。除非在多維數(shù)據(jù)庫中已經(jīng)保存有所需要的概念層次上的統(tǒng)計(jì)結(jié)果。支持度(Support)同時購買A和B的客戶人數(shù)占總客戶數(shù)的百分比稱為規(guī)則R1的支持度。Support(AB) =
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 60條合同規(guī)定:如何實(shí)現(xiàn)一次性產(chǎn)品零使用
- 上市公司廣告策劃與執(zhí)行合同范本
- 二手房訂房合同條款解析
- 中歐技術(shù)合作合同
- 個人運(yùn)輸代理合同范例
- 不銹鋼制品購銷合同模板
- 臨設(shè)買賣合同正規(guī)范本
- 臨時攤位租賃合同書
- 專業(yè)合作社股權(quán)轉(zhuǎn)讓合同
- 自然人借款合同集錦
- 《中國心力衰竭診斷和治療指南(2024)》解讀完整版
- 《檔案管理課件》課件
- 2024年度中國共產(chǎn)主義共青團(tuán)團(tuán)課課件版
- 2025年中考物理終極押題猜想(新疆卷)(全解全析)
- 脛骨骨折的護(hù)理查房
- 抽水蓄能電站項(xiàng)目建設(shè)管理方案
- 電動工具培訓(xùn)課件
- 《智能網(wǎng)聯(lián)汽車智能傳感器測試與裝調(diào)》電子教案
- 視頻會議室改造方案
- 【中考真題】廣東省2024年中考語文真題試卷
- GB/T 32399-2024信息技術(shù)云計(jì)算參考架構(gòu)
評論
0/150
提交評論