數(shù)據(jù)倉(cāng)庫(kù)概念設(shè)計(jì)及應(yīng)用(ppt 30)_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)概念設(shè)計(jì)及應(yīng)用(ppt 30)_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)概念設(shè)計(jì)及應(yīng)用(ppt 30)_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)概念設(shè)計(jì)及應(yīng)用(ppt 30)_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)概念設(shè)計(jì)及應(yīng)用(ppt 30)_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Data Warehouse,數(shù)據(jù)倉(cāng)庫(kù),概念、設(shè)計(jì)及應(yīng)用,提綱,1.為什么要建立數(shù)據(jù)倉(cāng)庫(kù) 2. 數(shù)據(jù)倉(cāng)庫(kù)的概念及特性 3. 數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu) 4. 數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì) 5. 數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)過(guò)程 6. 數(shù)據(jù)倉(cāng)庫(kù)的典型應(yīng)用,事務(wù)處理環(huán)境不適宜DSS應(yīng)用的原因,事務(wù)處理和分析處理的性能特性不同 操作型處理對(duì)數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短; 在分析處理環(huán)境中,某個(gè)DSS應(yīng)用程序可能需要連續(xù)幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。 數(shù)據(jù)集成問題 數(shù)據(jù)動(dòng)態(tài)集成問題 歷史數(shù)據(jù)問題 數(shù)據(jù)的綜合問題,抽取程序,用抽取程序能將數(shù)據(jù)從高性能聯(lián)機(jī)事務(wù)處理方式中轉(zhuǎn)移出來(lái),在需要總體分析數(shù)據(jù)時(shí)就與聯(lián)機(jī)事務(wù)處理性能不發(fā)生沖

2、突。 用抽取程序能將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理范圍內(nèi)移出時(shí),數(shù)據(jù)的控制方式就發(fā)生了轉(zhuǎn)變,蜘蛛網(wǎng)問題,數(shù)據(jù)缺乏可信性 數(shù)據(jù)無(wú)時(shí)基 數(shù)據(jù)算法上的差異 抽取的多層次 外部數(shù)據(jù)問題 無(wú)起始的公共數(shù)據(jù)源 生產(chǎn)率低 根據(jù)全部數(shù)據(jù)生成企業(yè)報(bào)表 定位數(shù)據(jù)需要瀏覽大量文件 抽取程序很多,并且每個(gè)都是定制的,不得不克服很多技術(shù)上的障礙。 數(shù)據(jù)轉(zhuǎn)化為信息的不可行性 數(shù)據(jù)沒有集成化 缺乏將數(shù)據(jù)轉(zhuǎn)化為信息所需的歷史數(shù)據(jù),體系結(jié)構(gòu)設(shè)計(jì)環(huán)境的層次,數(shù)據(jù)操作層只保存原始數(shù)據(jù)并且服務(wù)于高性能事務(wù)處理領(lǐng)域; 數(shù)據(jù)倉(cāng)庫(kù)層存儲(chǔ)不更新的原始數(shù)據(jù),此外一些導(dǎo)出數(shù)據(jù)也在此存在; 數(shù)據(jù)的部門層幾乎只存放導(dǎo)出數(shù)據(jù); 在數(shù)據(jù)個(gè)體層中完成大多數(shù)啟發(fā)式分析

3、,操作層,原子/數(shù)據(jù)倉(cāng)庫(kù)層,部門層,個(gè)體層,數(shù)據(jù)倉(cāng)庫(kù)的概念,數(shù)據(jù)倉(cāng)庫(kù)是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合。 William H.Inmon 與其他數(shù)據(jù)庫(kù)應(yīng)用不同的是,數(shù)據(jù)倉(cāng)庫(kù)更像一種過(guò)程,對(duì)分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過(guò)程,數(shù)據(jù)倉(cāng)庫(kù)的特性,面向主題 典型的主題領(lǐng)域:客戶;產(chǎn)品;交易;帳目 集成的 數(shù)據(jù)提取、凈化、轉(zhuǎn)換、裝載 非易失的 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)通常是一起載入和訪問的,但并不進(jìn)行一般意義上的數(shù)據(jù)更新 隨時(shí)間的變化性 數(shù)據(jù)倉(cāng)庫(kù)中的時(shí)間期限要遠(yuǎn)遠(yuǎn)長(zhǎng)于操作型系統(tǒng)中的時(shí)間期限(510年); 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是一系列某一時(shí)刻生成的復(fù)雜的快照; 數(shù)

4、據(jù)倉(cāng)庫(kù)的鍵碼結(jié)構(gòu)總是包含某時(shí)間元素,數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu),早期細(xì)節(jié)級(jí),當(dāng)前細(xì)節(jié)級(jí),輕度綜合級(jí) 數(shù)據(jù)集市,高度綜合級(jí),元數(shù)據(jù),操作型轉(zhuǎn)換,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中的幾個(gè)重要概念,ETL ETL(Extract/Transformation/Load)用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。 元數(shù)據(jù) 關(guān)于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)過(guò)程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義,目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時(shí)元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息。 粒度 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級(jí)別。細(xì)化程度越高,粒度級(jí)就越??;相反,細(xì)化程度越低,粒

5、度級(jí)就越大。 分割 結(jié)構(gòu)相同的數(shù)據(jù)被分成多個(gè)數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個(gè)分割,典型的元數(shù)據(jù)包括,數(shù)據(jù)倉(cāng)庫(kù)表的結(jié)構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)表的屬性 數(shù)據(jù)倉(cāng)庫(kù)的源數(shù)據(jù)(記錄系統(tǒng)) 從記錄系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)的映射 數(shù)據(jù)模型的規(guī)格說(shuō)明 抽取日志 訪問數(shù)據(jù)的公用例行程序,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中的幾個(gè)重要概念 (續(xù),Data Mart 數(shù)據(jù)集市 - 小型的,面向部門或工作組級(jí)數(shù)據(jù)倉(cāng)庫(kù)。 Operation Data Store 操作數(shù)據(jù)存儲(chǔ) ODS是能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境, 是DW 擴(kuò)展后得到的一個(gè)混合形式。四個(gè)基本特點(diǎn):面向主題的(Subject -Oriented

6、)、集成的、可變的、 當(dāng)前或接近當(dāng)前的。 data model 數(shù)據(jù)模型 - (1)邏輯數(shù)據(jù)結(jié)構(gòu),包括由DBMS為有效進(jìn)行數(shù)據(jù)庫(kù)處理提供的操作和約束;(2)用于表示數(shù)據(jù)的系統(tǒng)(例如,ERD或關(guān)系型模型)。 artifact 人工關(guān)系 -在DSS環(huán)境中用于表示參照完整性的一種設(shè)計(jì)技術(shù),企業(yè)數(shù)據(jù)模型到數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型的轉(zhuǎn)換,除去純粹用于操作型環(huán)境的數(shù)據(jù) 在企業(yè)鍵碼結(jié)構(gòu)中增加時(shí)間元素 增加導(dǎo)出數(shù)據(jù) 創(chuàng)建人工關(guān)系,數(shù)據(jù)模型的規(guī)范化/反規(guī)范化,為了減少程序在表中的跳轉(zhuǎn)、節(jié)省I/O,需將多個(gè)相關(guān)的表合并; 引入冗余數(shù)據(jù); 當(dāng)訪問概率有很大懸殊時(shí),要對(duì)數(shù)據(jù)做進(jìn)一步分離; 在物理數(shù)據(jù)庫(kù)的設(shè)計(jì)中引入導(dǎo)出數(shù)據(jù)可以

7、減少I/O; 建立所謂的“創(chuàng)造的”索引或創(chuàng)造的簡(jiǎn)要記錄(如卷中的前十名顧客是,從操作型的現(xiàn)存系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)轉(zhuǎn)換工作的難點(diǎn),現(xiàn)有系統(tǒng)缺乏數(shù)據(jù)集成,跨越不同應(yīng)用的數(shù)據(jù)集成性很差 存取現(xiàn)存系統(tǒng)的效率,掃描已有文件成了數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)設(shè)計(jì)者主要面對(duì)的問題 時(shí)基的變化 數(shù)據(jù)要濃縮,概念:數(shù)據(jù)周期、簡(jiǎn)要記錄,數(shù)據(jù)周期:是指從操作型數(shù)據(jù)發(fā)生改變起,到這個(gè)變化反映到數(shù)據(jù)倉(cāng)庫(kù)中所用的時(shí)間。 從操作型環(huán)境知道數(shù)據(jù)的改變到這個(gè)變化反映到數(shù)據(jù)倉(cāng)庫(kù)中至少應(yīng)該經(jīng)歷24小時(shí)。 簡(jiǎn)要記錄:或聚集記錄,是把不同操作型數(shù)據(jù)的詳細(xì)信息聚集在一個(gè)記錄中而形成的記錄。 好處:減少數(shù)據(jù)量; 為用戶的訪問和分析提供了一種緊湊的方便的

8、數(shù)據(jù)組織形式; 缺點(diǎn):信息的詳細(xì)程度將會(huì)降低,數(shù)據(jù)倉(cāng)庫(kù)的建模,數(shù)據(jù)模型 所有的實(shí)體都是平等關(guān)系。 僅僅從數(shù)據(jù)模型的角度來(lái)著手設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)會(huì)產(chǎn)生一種“平面”效應(yīng)。 星型連接 事實(shí)表:位于星型連接的中央,它是被大量載入數(shù)據(jù)的實(shí)體。 維表:周圍的其它實(shí)體。 在很多情況下:文本數(shù)據(jù)與數(shù)值數(shù)據(jù)是分離開的。 通過(guò)數(shù)據(jù)預(yù)連接和建立有選擇的數(shù)據(jù)冗余,設(shè)計(jì)者為訪問和分析過(guò)程大大簡(jiǎn)化了數(shù)據(jù)。 星型連接應(yīng)用于設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)中很大的實(shí)體,而數(shù)據(jù)模型則應(yīng)用于數(shù)據(jù)倉(cāng)庫(kù)中較小的實(shí)體,數(shù)據(jù)建模的十條戒律,必須回答緊迫的問題; 必須有正確的事實(shí)表; 將有正確的維表,描述必須按最終用戶的業(yè)務(wù)術(shù)語(yǔ)表達(dá); 必須理解數(shù)據(jù)倉(cāng)庫(kù)所影響的公司

9、過(guò)程或影響數(shù)據(jù)倉(cāng)庫(kù)的公司過(guò)程; 對(duì)于事實(shí)表,應(yīng)該有正確的“粒度”; 根據(jù)需要存儲(chǔ)正確長(zhǎng)度的公司歷史數(shù)據(jù); 以一種對(duì)于公司有意義的方式來(lái)集成所有必要的數(shù)據(jù); 創(chuàng)建必要的總結(jié)表; 創(chuàng)建必要的索引; 能夠加載數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)并使它以一種適宜的方式可用,數(shù)據(jù)集市,外部數(shù)據(jù),用自頂向下的方法構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)集市,建造企業(yè)數(shù)據(jù)倉(cāng)庫(kù) 建設(shè)中心數(shù)據(jù)模型 一次性的完成數(shù)據(jù)的重構(gòu)工作 最小化數(shù)據(jù)冗余度和不一致性 存儲(chǔ)詳細(xì)的歷史數(shù)據(jù) 從企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中建造數(shù)據(jù)集市 得到大部分的集成數(shù)據(jù) 直接依賴于數(shù)據(jù)倉(cāng)庫(kù)的可用性,操作數(shù)據(jù),問題 投資效益的時(shí)間? 建設(shè)中心數(shù)據(jù)模型的必要性和可能性? 初始費(fèi)用 ,用自底向上的方法構(gòu)建數(shù)

10、據(jù)倉(cāng)庫(kù),數(shù)據(jù)集市,建立部門數(shù)據(jù)集市 限制在一個(gè)主題區(qū)域 快速投資收益 區(qū)域自治 設(shè)計(jì)的可伸縮性強(qiáng) 對(duì)相關(guān)部門的應(yīng)用容易復(fù)制 對(duì)每個(gè)數(shù)據(jù)集市需要數(shù)據(jù)重構(gòu) 存在一定的冗余及不一直性 逐步擴(kuò)展到企業(yè)數(shù)據(jù)倉(cāng)庫(kù) (EDW) 把建造EDW作為一個(gè)長(zhǎng)期的目標(biāo),存在的問題: 數(shù)據(jù)集市的數(shù)據(jù)都是可用的嗎? 能生成數(shù)據(jù)模型嗎? 如何解決不一致性,操作數(shù)據(jù) (局部,數(shù)據(jù)集市,企業(yè)數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)的開發(fā)過(guò)程,建立或獲得企業(yè)的數(shù)據(jù)模型; 定義記錄系統(tǒng); 設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)并按主題領(lǐng)域進(jìn)行組織; 設(shè)計(jì)和建立操作型環(huán)境中的記錄系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)之間的接口,這些接口能保證數(shù)據(jù)倉(cāng)庫(kù)的載入工作能有序的進(jìn)行; 開始載入第一個(gè)主題領(lǐng)域,進(jìn)入

11、載入和反饋過(guò)程,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)在此過(guò)程中也在不斷地改變,數(shù)據(jù)模型的內(nèi)容,標(biāo)識(shí)主要主題領(lǐng)域。 各個(gè)主要主題之間的各種關(guān)系。 清晰地定義模型的邊界。 把原始數(shù)據(jù)和導(dǎo)出數(shù)據(jù)分離。 每個(gè)主題領(lǐng)域需要標(biāo)識(shí) 鍵碼 屬性 屬性分組之間的關(guān)系 多重出現(xiàn)的數(shù)據(jù) 數(shù)據(jù)的類型,表達(dá)數(shù)據(jù)模型的最好數(shù)據(jù),最實(shí)時(shí) 最準(zhǔn)確 最完備 與外部數(shù)據(jù)源最近 最具結(jié)構(gòu)兼容性 定義記錄系統(tǒng)就是找出現(xiàn)存系統(tǒng)所具有的最好的數(shù)據(jù),將數(shù)據(jù)模型變?yōu)閿?shù)據(jù)倉(cāng)庫(kù)要做的主要工作,如果原先沒有時(shí)間元素的話,時(shí)間元素必須加入到鍵碼結(jié)構(gòu)中 必須清除所有的純操作型數(shù)據(jù) 需要將參照完整性關(guān)系轉(zhuǎn)換成“人工關(guān)系” 將經(jīng)常需要用到的到處數(shù)據(jù)假如到設(shè)計(jì)中 對(duì)數(shù)據(jù)的結(jié)構(gòu)

12、進(jìn)行調(diào)整 增加數(shù)據(jù)陣列 增加數(shù)據(jù)冗余 在合適的情況下進(jìn)一步分離數(shù)據(jù) 在合適的時(shí)候合并數(shù)據(jù)表 需要做數(shù)據(jù)的穩(wěn)定性分析,在接口中需完成的工作,數(shù)據(jù)抽取 對(duì)來(lái)自操作型、面向應(yīng)用型環(huán)境的數(shù)據(jù)的集成 數(shù)據(jù)時(shí)基的變更 數(shù)據(jù)壓縮 對(duì)現(xiàn)存系統(tǒng)環(huán)境的有效掃描,數(shù)據(jù)倉(cāng)庫(kù)開發(fā)成功的關(guān)鍵,關(guān)鍵:是數(shù)據(jù)體系結(jié)構(gòu)設(shè)計(jì)者和DSS分析者之間的反饋循環(huán)。 有幾點(diǎn)觀察結(jié)果對(duì)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的成功建立是至關(guān)重要的問題: DSS分析人員一定要嚴(yán)格遵循“給我我所要的東西,然后我能告訴你我真正需要的東西”的工作模式; 反饋循環(huán)的周期越短,越有可能成功; 需要調(diào)整的數(shù)據(jù)量越大,反饋循環(huán)所需要的周期就越長(zhǎng),數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用,在證券業(yè)的應(yīng)用 :可處理客戶分析、帳戶分析、證券交易數(shù)據(jù)分析、非資金交易分析等多個(gè)業(yè)界關(guān)心的主題,為客戶提供針對(duì)其個(gè)人習(xí)慣、投資組合的投資建議,從而真正作到對(duì)客戶的貼心服務(wù)。 在銀行領(lǐng)域的應(yīng)用:防范銀行的經(jīng)營(yíng)風(fēng)險(xiǎn)、實(shí)現(xiàn)科學(xué)管理以及進(jìn)行決策 . 在稅務(wù)領(lǐng)域的應(yīng)用:可以解決三個(gè)方面的問題:一是查出應(yīng)稅未報(bào)者和瞞稅漏稅者,并對(duì)其進(jìn)行跟蹤;二是對(duì)不同行業(yè)、產(chǎn)品和市場(chǎng)中納稅人的行為特性進(jìn)行描述,找出普遍規(guī)律,謀求因勢(shì)利導(dǎo)的稅務(wù)征稽策略;三是對(duì)不同行業(yè)、產(chǎn)品和市場(chǎng)應(yīng)收稅款進(jìn)行預(yù)測(cè),制定最有效的征收計(jì)劃。 在保

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論