第一講數(shù)據(jù)倉(cāng)庫(kù)概述_第1頁(yè)
第一講數(shù)據(jù)倉(cāng)庫(kù)概述_第2頁(yè)
第一講數(shù)據(jù)倉(cāng)庫(kù)概述_第3頁(yè)
第一講數(shù)據(jù)倉(cāng)庫(kù)概述_第4頁(yè)
第一講數(shù)據(jù)倉(cāng)庫(kù)概述_第5頁(yè)
已閱讀5頁(yè),還剩62頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘(DATAWAREHOUSINGANDDATAMINING)廈門(mén)大學(xué)軟件學(xué)院2教學(xué)方式教學(xué)方式課堂教學(xué)+實(shí)驗(yàn)(15->13=10+3)無(wú)指定教材,以電子教案的內(nèi)容為主線廈門(mén)大學(xué)軟件學(xué)院3主要參考書(shū)數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ),[美]PaulrajPonniah著,段云峰等譯,電子工業(yè)出版社,2004數(shù)據(jù)倉(cāng)庫(kù),[美]WilliamH.Inmon著王志海等譯,機(jī)械工業(yè)出版社,2006,原書(shū)第4版數(shù)據(jù)挖掘概念與技術(shù),[加]JiaweiHan,MichelineKamber著,范明等譯,機(jī)械工業(yè)出版社,2007廈門(mén)大學(xué)軟件學(xué)院4課程考核方法課程作業(yè) 2-3次作業(yè) 比例:20%平時(shí)10%期末考試70%廈門(mén)大學(xué)軟件學(xué)院5教學(xué)內(nèi)容——章節(jié)安排數(shù)據(jù)倉(cāng)庫(kù)概述維度分析與維度建模數(shù)據(jù)抽取、轉(zhuǎn)換與轉(zhuǎn)載聯(lián)機(jī)分析處理數(shù)據(jù)挖掘概述數(shù)據(jù)預(yù)處理挖掘頻繁模式、關(guān)聯(lián)與相關(guān)分類與預(yù)測(cè)聚類分析廈門(mén)大學(xué)軟件學(xué)院6第一講數(shù)據(jù)倉(cāng)庫(kù)概述WhyDataWarehousing?DW’sDefinitionDW’sComponentNowandFuture廈門(mén)大學(xué)軟件學(xué)院7§1.WhyDW對(duì)戰(zhàn)略信息的不斷增長(zhǎng)的需要

以往的決策支持系統(tǒng)的失敗操作型系統(tǒng)和決策支持系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù):唯一可行的解決方案

數(shù)據(jù)倉(cāng)庫(kù)的功能性定義廈門(mén)大學(xué)軟件學(xué)院81960年開(kāi)始的TPS,MIS,DSS20世紀(jì)90年代復(fù)雜的商業(yè)活動(dòng)零售業(yè)

制造業(yè)客戶忠誠(chéng)度成本消減市場(chǎng)策劃后勤管理金融行業(yè)

公益事業(yè)風(fēng)險(xiǎn)管理資產(chǎn)管理欺詐檢測(cè)資源管理航空業(yè)

政府機(jī)關(guān)航線收益率人力計(jì)劃區(qū)域管理成本控制獲得競(jìng)爭(zhēng)優(yōu)勢(shì)的行業(yè)廈門(mén)大學(xué)軟件學(xué)院9一、對(duì)戰(zhàn)略信息的不斷增長(zhǎng)的需要戰(zhàn)略信息(決策信息,strategicinformation)不為企業(yè)日常運(yùn)作所用商業(yè)決策有賴于正確的戰(zhàn)略信息戰(zhàn)略信息的特點(diǎn)綜合性必須有一個(gè)獨(dú)立的、從企業(yè)整體來(lái)看的視角數(shù)據(jù)完整性信息必須是準(zhǔn)確的、必須符合商業(yè)規(guī)則可用性必須通過(guò)直觀方法容易獲得的、對(duì)于分析是有用的可靠性每個(gè)商業(yè)因素都必須有且僅有一個(gè)值及時(shí)性信息必須是在規(guī)定時(shí)間內(nèi)準(zhǔn)備好的、待用廈門(mén)大學(xué)軟件學(xué)院10二、以往的決策支持系統(tǒng)的失敗IT部門(mén)一直努力為公司關(guān)鍵人物提供用于戰(zhàn)略決策的信息忙受不到應(yīng)有的尊重個(gè)人價(jià)值無(wú)法真正的體現(xiàn)IT部門(mén)所作的大部分工作以失敗告終從不同的系統(tǒng)查詢數(shù)據(jù)費(fèi)了九牛二虎之力得到的報(bào)表生命如此短暫數(shù)據(jù)的不一致性數(shù)據(jù)完整性差用戶不能明確的告訴我們他們到底想要什么給了第一張報(bào)表,他要另外一張報(bào)表廈門(mén)大學(xué)軟件學(xué)院11決策支持系統(tǒng)的歷史決策支持系統(tǒng)的歷史即席查詢報(bào)表特殊抽取程序小應(yīng)用程序信息中心決策支持系統(tǒng)主管信息系統(tǒng)廈門(mén)大學(xué)軟件學(xué)院12缺乏提供戰(zhàn)略信息的能力過(guò)去,每個(gè)試圖提供戰(zhàn)略信息的系統(tǒng)都不能令人滿意IT部門(mén)接到了太多的特別查詢要求,負(fù)荷過(guò)重這些請(qǐng)求不僅量大,而且總在變用戶需要越來(lái)越多的補(bǔ)充報(bào)表,例如各種可能的組合用戶只能依賴IT部門(mén),不能直接訪問(wèn)信息IT部門(mén)不能提供適合制定戰(zhàn)略決策信息靈活、對(duì)分析有指導(dǎo)作用的環(huán)境廈門(mén)大學(xué)軟件學(xué)院13三、

操作型系統(tǒng)和決策支持系統(tǒng)IT部門(mén)試圖提供決策的戰(zhàn)略信息的嘗試大都以失敗告終!Why???我們一致試圖從操作型系統(tǒng)中提供戰(zhàn)略信息我們必須構(gòu)建能提供戰(zhàn)略信息的決策支持系統(tǒng)或者信息系統(tǒng)廈門(mén)大學(xué)軟件學(xué)院14操作型系統(tǒng)vs.信息型系統(tǒng)操作型系統(tǒng),OLTP取訂單處理呼叫裝貨開(kāi)發(fā)貨單收取現(xiàn)金預(yù)定座位信息型系統(tǒng)給我銷售量最好的產(chǎn)品名單告訴我出問(wèn)題的地區(qū)告訴我為什么(向下鉆?。┳屛铱纯雌渌臄?shù)據(jù)(橫向鉆取)顯示最大利潤(rùn)當(dāng)一個(gè)地區(qū)的銷售低于目標(biāo)值時(shí),提醒我將數(shù)據(jù)寫(xiě)入數(shù)據(jù)庫(kù)從數(shù)據(jù)庫(kù)中讀取戰(zhàn)略信息廈門(mén)大學(xué)軟件學(xué)院15操作型系統(tǒng)vs.信息型系統(tǒng)操作型信息型數(shù)據(jù)內(nèi)容當(dāng)前值存檔的,推導(dǎo)出來(lái)的,總結(jié)的值數(shù)據(jù)結(jié)構(gòu)適于事務(wù)處理適于復(fù)雜查詢?cè)L問(wèn)頻率高中、低訪問(wèn)連接類型讀取、更新、刪除讀取使用方法可預(yù)知的、反復(fù)性的特別查詢、隨機(jī)的、啟發(fā)式的應(yīng)用響應(yīng)時(shí)間快一般用戶大量較少數(shù)廈門(mén)大學(xué)軟件學(xué)院16四、數(shù)據(jù)倉(cāng)庫(kù):唯一可行的解決方案一種新類型的系統(tǒng)環(huán)境為分析任務(wù)而設(shè)計(jì)的數(shù)據(jù)庫(kù)從多種應(yīng)用程序獲取的數(shù)據(jù)使用方便,有益于用戶的長(zhǎng)時(shí)間交互式操作大量讀取的數(shù)據(jù)使用用戶可以與系統(tǒng)直接交互內(nèi)容可靠,定期更新數(shù)據(jù)包括當(dāng)前的和歷史的用戶可以查詢,并在線得到結(jié)果用戶可以創(chuàng)建報(bào)表廈門(mén)大學(xué)軟件學(xué)院17新環(huán)境下的需求處理:分析性的處理需求。分為四個(gè)層次對(duì)當(dāng)前和歷史數(shù)據(jù)簡(jiǎn)單查詢和報(bào)表處理可以用很多不同的方法進(jìn)行“WhatIf”分析可以查詢、后退、分析認(rèn)清過(guò)去的發(fā)展趨勢(shì),并將其應(yīng)用于對(duì)未來(lái)結(jié)果的分析廈門(mén)大學(xué)軟件學(xué)院18數(shù)據(jù)倉(cāng)庫(kù)的商業(yè)智能

BI:BusinessIntelligence操作型系統(tǒng)基本商業(yè)處理抽取、清洗、聚合數(shù)據(jù)轉(zhuǎn)換關(guān)鍵度量,商業(yè)維度廈門(mén)大學(xué)軟件學(xué)院19五、數(shù)據(jù)倉(cāng)庫(kù)的功能性定義數(shù)據(jù)倉(cāng)庫(kù)是提供戰(zhàn)略信息的唯一可行的解決方案數(shù)據(jù)倉(cāng)庫(kù)功能性的定義數(shù)據(jù)倉(cāng)庫(kù)是一種信息環(huán)境,它能夠:提供對(duì)企業(yè)綜合、完整的概括使決策者所需要的當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)都方便易得無(wú)需妨礙操作型系統(tǒng),也能使支持決策的處理成為可能使企業(yè)的信息保持一致性提供了一個(gè)靈活的、交互的戰(zhàn)略信息來(lái)源廈門(mén)大學(xué)軟件學(xué)院20數(shù)據(jù)倉(cāng)庫(kù)是信息傳遞的一種簡(jiǎn)單概念數(shù)據(jù)倉(cāng)庫(kù)的來(lái)源在于對(duì)戰(zhàn)略信息的需求和對(duì)操作型計(jì)算環(huán)境的不滿數(shù)據(jù)倉(cāng)庫(kù)不“創(chuàng)造”新的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)概念簡(jiǎn)單使用所有現(xiàn)存的數(shù)據(jù)通過(guò)清洗、轉(zhuǎn)換提供有用的決策信息廈門(mén)大學(xué)軟件學(xué)院21數(shù)據(jù)倉(cāng)庫(kù)是一種環(huán)境,而不是產(chǎn)品你不可能買到數(shù)據(jù)倉(cāng)庫(kù)但你可以構(gòu)建自己的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)新型計(jì)算環(huán)境的特點(diǎn)數(shù)據(jù)分析和決策支持的理想環(huán)境不固定,靈活、交互式操作100%用戶驅(qū)動(dòng)適合”提問(wèn)-回答-再提問(wèn)”的模式廈門(mén)大學(xué)軟件學(xué)院22數(shù)據(jù)倉(cāng)庫(kù)是多種技術(shù)的混合體數(shù)據(jù)倉(cāng)庫(kù)的基本概念從操作型系統(tǒng)中提取所有數(shù)據(jù)在需要的時(shí)候可以將外部數(shù)據(jù)包含其中將多種數(shù)據(jù)源的所有數(shù)據(jù)進(jìn)行整合轉(zhuǎn)換數(shù)據(jù),去掉不一致性用適合決策的易于存取的格式存儲(chǔ)數(shù)據(jù)數(shù)據(jù)建模數(shù)據(jù)管理數(shù)據(jù)獲取元數(shù)據(jù)管理分析開(kāi)發(fā)工具應(yīng)用存儲(chǔ)管理數(shù)據(jù)質(zhì)量管理§廈門(mén)大學(xué)軟件學(xué)院23第一講數(shù)據(jù)倉(cāng)庫(kù)概述WhyDataWarehousing?DW’sDefinitionDWvs.

DataMartDW’sComponentNowandFuture廈門(mén)大學(xué)軟件學(xué)院24數(shù)據(jù)倉(cāng)庫(kù)的創(chuàng)始者BillInmon

:

“ADataWarehouseisasubjectoriented,integrated,nonvolatile,andtimevariantcollectionofdatainsupportofmanagement’sdecisions.”“數(shù)據(jù)倉(cāng)庫(kù)是為支持管理決策建立的,面向主題的,綜合的,穩(wěn)定的,隨時(shí)間變化的數(shù)據(jù)集合”數(shù)據(jù)倉(cāng)庫(kù)的開(kāi)拓者SeanKelly,認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是:彼此分離可利用的綜合的§2.數(shù)據(jù)倉(cāng)庫(kù)定義包含時(shí)間標(biāo)記的面向主題的非易失性的能訪問(wèn)的能訪問(wèn)的廈門(mén)大學(xué)軟件學(xué)院25“面向主題”的數(shù)據(jù)在操作型系統(tǒng)中,各行業(yè)的數(shù)據(jù)集合都是圍繞單獨(dú)的應(yīng)用程序進(jìn)行組織的在數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)是按主題而不是按照應(yīng)用程序存儲(chǔ)的。數(shù)據(jù)是跨應(yīng)用程序的訂單處理客戶貸款顧客帳單可接收帳款索賠處理儲(chǔ)蓄帳目銷售產(chǎn)品客戶帳戶索賠政策操作型應(yīng)用程序數(shù)據(jù)倉(cāng)庫(kù)主題廈門(mén)大學(xué)軟件學(xué)院26主題:宏觀分析領(lǐng)域所涉及的分析對(duì)象 面向主題的數(shù)據(jù)組織方式:在較高的層次上對(duì)分析對(duì)象的數(shù)據(jù)的一個(gè)完整、一致的描述。采用面向事務(wù)進(jìn)行數(shù)據(jù)組織,其特點(diǎn)為:充分考慮企業(yè)的部門(mén)組織結(jié)構(gòu)和業(yè)務(wù)活動(dòng)反映企業(yè)內(nèi)部數(shù)據(jù)流動(dòng)情況,業(yè)務(wù)處理的數(shù)據(jù)流程與業(yè)務(wù)處理流程中的單據(jù)、票證、文檔有良好的對(duì)應(yīng)數(shù)據(jù)與應(yīng)用(數(shù)據(jù)的處理)有一定的對(duì)應(yīng)例:保險(xiǎn)公司:面向應(yīng)用(操作):財(cái)產(chǎn)險(xiǎn)、壽險(xiǎn)、健康險(xiǎn)、意外險(xiǎn)。面向主題:客戶、保單、保費(fèi)、理賠(賠款)。廈門(mén)大學(xué)軟件學(xué)院27儲(chǔ)蓄帳戶支票帳戶貸款帳戶主題=帳戶來(lái)自應(yīng)用程序的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)主題“綜合”的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自不同的數(shù)據(jù)庫(kù)、文件、數(shù)據(jù)段。(內(nèi)部或者外部,不同的平臺(tái))數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)前,需要進(jìn)行的標(biāo)準(zhǔn)化工作:命名規(guī)則編碼數(shù)據(jù)特性度量單位廈門(mén)大學(xué)軟件學(xué)院28數(shù)據(jù)的“時(shí)間特性”數(shù)據(jù)倉(cāng)庫(kù)中的每一個(gè)數(shù)據(jù)結(jié)構(gòu)都包含了時(shí)間要素。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是和時(shí)間變化相關(guān)的數(shù)據(jù)可以對(duì)過(guò)去進(jìn)行分析與當(dāng)前的信息相關(guān)可以對(duì)未來(lái)進(jìn)行預(yù)測(cè)廈門(mén)大學(xué)軟件學(xué)院29數(shù)據(jù)的非易變性(相對(duì)穩(wěn)定)操作型系統(tǒng)的數(shù)據(jù)實(shí)時(shí)地進(jìn)行更新,每次交易發(fā)生都要更新;數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)非實(shí)時(shí)性更新數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)用來(lái)進(jìn)行查詢和分析的不能在數(shù)據(jù)倉(cāng)庫(kù)中實(shí)時(shí)地刪除數(shù)據(jù)不能在數(shù)據(jù)倉(cāng)庫(kù)中修改數(shù)據(jù)決策支持系統(tǒng)操作型系統(tǒng)OLTP數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)讀取增加修改刪除讀取廈門(mén)大學(xué)軟件學(xué)院30數(shù)據(jù)粒度(DataGranularity)數(shù)據(jù)粒度:數(shù)據(jù)的細(xì)節(jié)程度在操作型系統(tǒng)中,數(shù)據(jù)粒度一般都很細(xì)。一般不保存加和的數(shù)據(jù)。在數(shù)據(jù)倉(cāng)庫(kù)中,保存加和這一個(gè)數(shù)據(jù)項(xiàng)。一般來(lái)說(shuō),按不同層次組織數(shù)據(jù),用戶是從高層次向低層次的細(xì)節(jié)過(guò)渡。根據(jù)需求的不同,需要不同層次的數(shù)據(jù)細(xì)節(jié)。每日數(shù)據(jù)帳戶交易日期數(shù)額存款取款月匯總帳戶月份交易數(shù)取款存款期初結(jié)余期末結(jié)余季度匯總帳戶月份交易數(shù)取款存款期初結(jié)余期末結(jié)余銀行數(shù)據(jù)倉(cāng)庫(kù)三個(gè)層次的數(shù)據(jù)粒度廈門(mén)大學(xué)軟件學(xué)院31第一講數(shù)據(jù)倉(cāng)庫(kù)概述WhyDataWarehousing?DW’sDefinitionDW’sComponentsNowandFuture廈門(mén)大學(xué)軟件學(xué)院32§3.數(shù)據(jù)倉(cāng)庫(kù)的組成部分?jǐn)?shù)據(jù)倉(cāng)庫(kù):各個(gè)功能塊或組件廈門(mén)大學(xué)軟件學(xué)院33一、源數(shù)據(jù)部分主要類別生產(chǎn)數(shù)據(jù):多個(gè)系統(tǒng)多種數(shù)據(jù)的標(biāo)準(zhǔn)化、轉(zhuǎn)換、整合內(nèi)部數(shù)據(jù):表格、文檔存檔數(shù)據(jù):舊的歷史的數(shù)據(jù)外部數(shù)據(jù):社會(huì)的企業(yè),社會(huì)的人廈門(mén)大學(xué)軟件學(xué)院34二、數(shù)據(jù)準(zhǔn)備部分ETL(ETCL)數(shù)據(jù)抽取(Extract):多源、異構(gòu)數(shù)據(jù)的抽取數(shù)據(jù)轉(zhuǎn)換(Transform):清洗(Clean)、標(biāo)準(zhǔn)化等過(guò)程數(shù)據(jù)裝載(Load)這個(gè)過(guò)程需要很多的時(shí)間最初的裝載工作需要載入大量的數(shù)據(jù)更新周期的決定(年、季、月、日)廈門(mén)大學(xué)軟件學(xué)院35三、數(shù)據(jù)存儲(chǔ)部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)存儲(chǔ)器是一個(gè)獨(dú)立的部分與操作型的數(shù)據(jù)庫(kù)分開(kāi)存儲(chǔ)大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)都采用關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)廈門(mén)大學(xué)軟件學(xué)院36四、信息傳遞部分多種信息傳遞方式特別的報(bào)表復(fù)雜的查詢多維分析統(tǒng)計(jì)分析主管信息系統(tǒng)的需求數(shù)據(jù)挖掘廈門(mén)大學(xué)軟件學(xué)院37五、元數(shù)據(jù)MetaData描述數(shù)據(jù)的數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容的一本字典元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)本身信息的數(shù)據(jù)元數(shù)據(jù)的類型操作型元數(shù)據(jù)包含了所有操作型數(shù)據(jù)源的信息抽取和轉(zhuǎn)換元數(shù)據(jù)包含了源數(shù)據(jù)系統(tǒng)的數(shù)據(jù)抽取信息(抽取方法、抽取商業(yè)規(guī)則)最終用戶元數(shù)據(jù)允許最終用戶使用自己的商業(yè)術(shù)語(yǔ)和自己一般認(rèn)可的方式來(lái)找尋信息元數(shù)據(jù)對(duì)于數(shù)據(jù)倉(cāng)庫(kù)極其重要廈門(mén)大學(xué)軟件學(xué)院38第一講數(shù)據(jù)倉(cāng)庫(kù)概述WhyDataWarehousing?DW’sDefinitionDW’sComponentsNowandFuture廈門(mén)大學(xué)軟件學(xué)院39§4.數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展趨勢(shì)數(shù)據(jù)倉(cāng)庫(kù)的持續(xù)增長(zhǎng)

重要趨勢(shì)

標(biāo)準(zhǔn)的出現(xiàn)

支持Web的數(shù)據(jù)倉(cāng)庫(kù)廈門(mén)大學(xué)軟件學(xué)院40一、數(shù)據(jù)倉(cāng)庫(kù)正在成為主流最初,有4個(gè)主要因素促使大量的公司使用數(shù)據(jù)倉(cāng)庫(kù)激烈的競(jìng)爭(zhēng)環(huán)境政府減少管制重構(gòu)內(nèi)部流程的需要急需為用戶定制的市場(chǎng)銷售策略目前,DW存在于可以想象得出的所有行業(yè)公益事業(yè)、媒體/出版業(yè)、航空業(yè)、咨詢業(yè)、零售業(yè)、高科技產(chǎn)業(yè)、金融服務(wù)、制藥業(yè)、軟硬件業(yè)、商業(yè)服務(wù)、制造業(yè)、消費(fèi)者服務(wù)業(yè)、電信業(yè)、保險(xiǎn)業(yè)、運(yùn)輸業(yè)、政府部門(mén)、醫(yī)療衛(wèi)生、其他、銀行業(yè)、法律業(yè)、教育、石油化工今天電信和銀行業(yè)繼續(xù)在DW投入上保持領(lǐng)先的地位,這兩個(gè)行業(yè)的15%預(yù)算都用在了DW的建設(shè)上在DW發(fā)展初期,建造DW非常昂貴,今天完整的解決方案越來(lái)越便宜。廈門(mén)大學(xué)軟件學(xué)院41數(shù)據(jù)倉(cāng)庫(kù)的擴(kuò)張各行各業(yè)開(kāi)始有能力獲取、清洗、維護(hù)和使用商業(yè)交易而產(chǎn)生的大量數(shù)據(jù),構(gòu)建自己的DW電信呼叫交易數(shù)量銀行消費(fèi)數(shù)量連鎖零售業(yè)etc.廈門(mén)大學(xué)軟件學(xué)院42解決方案和產(chǎn)品最初非常多、而且亂、概念不統(tǒng)一DW供應(yīng)商>OS、數(shù)據(jù)庫(kù)提供商?市場(chǎng)慢慢的成熟起來(lái)了數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品數(shù)據(jù)整合和清洗數(shù)據(jù)建模抽取轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)移信息服務(wù)器關(guān)系數(shù)據(jù)庫(kù)專用索引數(shù)據(jù)庫(kù)多維數(shù)據(jù)庫(kù)決策支持OLAP查詢和報(bào)表數(shù)據(jù)挖掘管理控制數(shù)據(jù)倉(cāng)庫(kù)支持的應(yīng)用模塊監(jiān)管系統(tǒng)廈門(mén)大學(xué)軟件學(xué)院43二、重要趨勢(shì)多種數(shù)據(jù)類型數(shù)據(jù)可視化并行處理查詢工具瀏覽工具數(shù)據(jù)融合多維分析代理技術(shù)企業(yè)組合數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)和ERP數(shù)據(jù)倉(cāng)庫(kù)和知識(shí)管理數(shù)據(jù)倉(cāng)庫(kù)和CRM廈門(mén)大學(xué)軟件學(xué)院44多種數(shù)據(jù)類型增加非結(jié)構(gòu)化數(shù)據(jù)查詢非結(jié)構(gòu)化數(shù)據(jù)空間數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)儲(chǔ)存庫(kù)非結(jié)構(gòu)化文檔結(jié)構(gòu)化數(shù)字?jǐn)?shù)據(jù)音頻視頻空間數(shù)據(jù)圖像結(jié)構(gòu)化文檔廈門(mén)大學(xué)軟件學(xué)院45數(shù)據(jù)可視化可視化趨勢(shì)更多的圖表類型交互可視化龐雜結(jié)果的可視化高級(jí)可視化技術(shù)表格的操作向下鉆取高級(jí)互動(dòng)打印報(bào)表在線顯示基本交互下鉆高級(jí)交互可視查詢基本視圖演示圖表嵌入報(bào)表科學(xué)圖標(biāo)類型多連接圖表企業(yè)圖表系統(tǒng)簡(jiǎn)單數(shù)字序列多維數(shù)據(jù)序列實(shí)時(shí)數(shù)據(jù)提供大量數(shù)據(jù)集非結(jié)構(gòu)化文本數(shù)據(jù)神經(jīng)數(shù)據(jù)從小數(shù)據(jù)集到大型、復(fù)雜的結(jié)構(gòu)從靜態(tài)到動(dòng)態(tài)的可視化廈門(mén)大學(xué)軟件學(xué)院46并行處理并行處理的硬件(共享存儲(chǔ)、非共享存儲(chǔ))并行處理軟件(數(shù)據(jù)庫(kù)產(chǎn)品供應(yīng)商通常提供)數(shù)據(jù)倉(cāng)庫(kù)中實(shí)施并行提高查詢處理、數(shù)據(jù)裝載和索引創(chuàng)建的性能規(guī)??蓴U(kuò)展(CPU、內(nèi)存數(shù))容錯(cuò)能力廈門(mén)大學(xué)軟件學(xué)院47查詢工具:DW成敗依賴于查詢工具靈活的展現(xiàn)方式跨主題區(qū)域整合性:整合不同的查詢工具克服SQL的局限性廈門(mén)大學(xué)軟件學(xué)院48瀏覽工具一個(gè)廣泛、普遍的概念,瀏覽工具的趨勢(shì)允許定義任何類型的數(shù)據(jù)或者對(duì)象區(qū)別不同用戶群體的瀏覽功能能夠?yàn)g覽數(shù)據(jù)字典或者元數(shù)據(jù)提供Web瀏覽和查找技術(shù)來(lái)瀏覽信息目錄廈門(mén)大學(xué)軟件學(xué)院49數(shù)據(jù)融合合并不同數(shù)據(jù)源數(shù)據(jù)的技術(shù)DW中數(shù)據(jù)量巨大,因而就更難在合適的時(shí)間找到準(zhǔn)確的信息,數(shù)據(jù)融合技術(shù)有望解決這一問(wèn)題。處于研究階段,我們目前所能做的就是關(guān)注與研究廈門(mén)大學(xué)軟件學(xué)院50多維分析每個(gè)DW環(huán)境都提供的功能是個(gè)產(chǎn)品也可稱作聯(lián)機(jī)分析處理OLAP廈門(mén)大學(xué)軟件學(xué)院51代理技術(shù)軟件代理就是能夠代表用戶完成預(yù)定義的程序。數(shù)據(jù)倉(cāng)庫(kù)的規(guī)模持續(xù)增長(zhǎng),代理技術(shù)應(yīng)用得越來(lái)越多。風(fēng)險(xiǎn)識(shí)別(規(guī)則識(shí)別、表示代理程序預(yù)警OneORAll)廈門(mén)大學(xué)軟件學(xué)院52企業(yè)組合數(shù)據(jù)DW需要豐富的數(shù)據(jù)內(nèi)容DW數(shù)據(jù)來(lái)源操作型數(shù)據(jù)庫(kù)外部數(shù)據(jù)(更大、更多的周遭環(huán)境數(shù)據(jù))企業(yè)組合數(shù)據(jù)正在成為一個(gè)巨大的商機(jī)數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)者們正在尋找新的供應(yīng)商來(lái)提供其他類型的企業(yè)組合數(shù)據(jù)廈門(mén)大學(xué)軟件學(xué)院53數(shù)據(jù)倉(cāng)庫(kù)和ERP(EnterpriseResourcePlanning)ERP(20世紀(jì)90年代興起)大量獨(dú)立的應(yīng)用,缺乏整體概覽分析從各種系統(tǒng)獲取信息的不可行性ERP軟件包中的數(shù)據(jù):軟件包屬于專賣品,數(shù)據(jù)格式獨(dú)特整合ERP和數(shù)據(jù)倉(cāng)庫(kù)ERP中大量的數(shù)據(jù)庫(kù)表單并不適合提供戰(zhàn)略信息ERP中缺乏外部數(shù)據(jù)和公司中其他操作型系統(tǒng)的數(shù)據(jù)整合選擇ERP供應(yīng)商將DW思想融入其中建立DW,從ERP中抽取數(shù)據(jù)廈門(mén)大學(xué)軟件學(xué)院54數(shù)據(jù)倉(cāng)庫(kù)和知識(shí)管理(KnowledgeManagement)KM操作型系統(tǒng)處理數(shù)據(jù)信息型系統(tǒng)提供戰(zhàn)略決策信息KM讓用戶在正確的時(shí)間、地點(diǎn)使用正確的信息。知識(shí)存在于公司的各個(gè)角落。從知識(shí)管理系統(tǒng)中得的知識(shí)可以為從數(shù)據(jù)倉(cāng)庫(kù)中得到的信息提供隱含在數(shù)據(jù)背后的線索??匆?jiàn)銷售額下降了,Why?問(wèn)題清楚了:看到了分析人員的文檔資料整合知識(shí)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)廈門(mén)大學(xué)軟件學(xué)院55知識(shí)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的整合廈門(mén)大學(xué)軟件學(xué)院56數(shù)據(jù)倉(cāng)庫(kù)和CRM激烈的市場(chǎng)競(jìng)爭(zhēng)環(huán)境使得越來(lái)越多的企業(yè)關(guān)注如何挽留客戶和贏得新的客戶。問(wèn)題建設(shè)DW時(shí),能為CRM做些什么?如果已有DW,如何調(diào)整以提高服務(wù)客戶水平?能夠進(jìn)行客戶關(guān)系管理的數(shù)據(jù)倉(cāng)庫(kù)大量的數(shù)據(jù)為更好的進(jìn)行CRM提供了數(shù)據(jù)基礎(chǔ)傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)工具對(duì)于從CRM中ETCL數(shù)據(jù)到DW支持的不夠廈門(mén)大學(xué)軟件學(xué)院57三、標(biāo)準(zhǔn)的出現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境是多種技術(shù)的混合數(shù)據(jù)建模數(shù)據(jù)抽取數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)庫(kù)管理系統(tǒng)DW熱門(mén)的行業(yè)以及支持眾多技術(shù)方面,都有大量可供選擇的供應(yīng)商和產(chǎn)品有多個(gè)供應(yīng)商和產(chǎn)品關(guān)注DW是好消息但,當(dāng)我們?cè)噲D使用多個(gè)供應(yīng)商的產(chǎn)品時(shí),結(jié)果可能一團(tuán)糟兩個(gè)領(lǐng)域的標(biāo)準(zhǔn)至關(guān)重要:元數(shù)據(jù)OLAP控制模塊報(bào)警系統(tǒng)代理查詢工具分析工具報(bào)表工具etc廈門(mén)大學(xué)軟件學(xué)院58元數(shù)據(jù)每個(gè)產(chǎn)品都會(huì)增加自己的元數(shù)據(jù)每個(gè)產(chǎn)品都會(huì)用到別的產(chǎn)品產(chǎn)生的元數(shù)據(jù)元數(shù)據(jù)是數(shù)據(jù)倉(cāng)庫(kù)的信息地圖元數(shù)據(jù)像膠水一樣將所有的功能模塊連接在一起OLAP每個(gè)DW都有OLAP的功能OLAP提供多維分析、多視角的信息和復(fù)雜計(jì)算廈門(mén)大學(xué)軟件學(xué)院59元數(shù)據(jù):有兩個(gè)組織致力于該標(biāo)準(zhǔn)的制定元數(shù)據(jù)聯(lián)盟1995年10月成立供應(yīng)商、團(tuán)體組成微軟1998年12月加入該組織1999年7月將“開(kāi)放式信息模型(OIM)”

作為元數(shù)據(jù)標(biāo)準(zhǔn)對(duì)象管理小組(ObjectManagementGroup:OMG)由Oracle、IBM、HP、Sun等公司組成2000年月,OMG將“通用數(shù)據(jù)倉(cāng)庫(kù)元模型(CWM)”作為數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)交換的標(biāo)準(zhǔn)2000年4月,元數(shù)據(jù)聯(lián)盟和OMG組織都表示他們將會(huì)一起合作制定一個(gè)統(tǒng)一的標(biāo)準(zhǔn),但到現(xiàn)在還是一個(gè)難以達(dá)到的目標(biāo)。廈門(mén)大學(xué)軟件學(xué)院60OLAPOLAP委員會(huì)于1995年1月成立成員主要有OLAP產(chǎn)品供應(yīng)商興趣小組、個(gè)人NCR、IBM、BusinessObjects等致力于多維應(yīng)用程序接口(MDAPI)的OLAP標(biāo)準(zhǔn)的工作NewVersion:MDAPI2.0各OLAP、平臺(tái)供應(yīng)商、咨詢顧問(wèn)、系統(tǒng)集成商宣布支持MDAPI2.0廈門(mén)大學(xué)軟件學(xué)院61四、支持Web的數(shù)據(jù)倉(cāng)庫(kù)Internet的發(fā)展、再發(fā)展Web已經(jīng)成為全世界的信息傳遞系統(tǒng)EC的迅猛發(fā)展Internet給DW的啟示利用Internet和Web技術(shù)的潛力提高DW的價(jià)值將DW的信息發(fā)布到Web上從Web上汲取信息DW的建設(shè)要考慮到對(duì)電子商務(wù)的支持廈門(mén)大學(xué)軟件學(xué)院62將數(shù)據(jù)倉(cāng)庫(kù)放入Web中早期的應(yīng)用中,DW是用來(lái)幫助高層員工、管理者進(jìn)行分析和決

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論