數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章.ppt_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章.ppt_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章.ppt_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章.ppt_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章.ppt_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2019/7/11,1,第二章 數(shù)據(jù)倉庫的分析,主要內(nèi)容 如何建立數(shù)據(jù)倉庫的需求模型? 影響數(shù)據(jù)倉庫成功的因素有哪些? 數(shù)據(jù)倉庫開發(fā)各階段的任務(wù)是什么? 數(shù)據(jù)倉庫的基本體系結(jié)構(gòu)是怎樣的? 數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)是怎樣的?,2019/7/11,2,1、如何建立數(shù)據(jù)倉庫的需求模型?,是數(shù)據(jù)倉庫的分析中首要解決的問題,2019/7/11,3,圖2.1 數(shù)據(jù)倉庫的需求分析模型,2019/7/11,4,2、影響數(shù)據(jù)倉庫成功的因素有哪些?,2019/7/11,5,影響因素,數(shù)據(jù)存儲(chǔ)的組織方式,決定了數(shù)據(jù)的可獲取性與有用性,進(jìn)而決定了數(shù)據(jù)的價(jià)值。 數(shù)據(jù)倉庫的數(shù)據(jù)庫結(jié)構(gòu)有以下要求:(P44表2.1) 反映靜態(tài)數(shù)據(jù) 存儲(chǔ)歷史數(shù)據(jù) 在時(shí)間上是可見的、明確的 數(shù)據(jù)的粒度是詳細(xì)的可導(dǎo)出的匯總 定期的、計(jì)劃的更新 支持的任務(wù)是不可預(yù)期的 對數(shù)據(jù)庫的靈活性要求高,2019/7/11,6,2019/7/11,7,2019/7/11,8,3、數(shù)據(jù)倉庫開發(fā)各階段的任務(wù)是什么?,2019/7/11,9,傳統(tǒng)的操作型系統(tǒng)的生命周期,System Development Life Cycle SDLC系統(tǒng)開發(fā)生命周期 需求驅(qū)動(dòng)的開發(fā)生命周期,2019/7/11,10,數(shù)據(jù)倉庫的生命周期CLDS,CLDS數(shù)據(jù)驅(qū)動(dòng)的開發(fā)生命周期(SDLC的逆序) 實(shí)現(xiàn)數(shù)據(jù)倉庫 集成數(shù)據(jù) 檢驗(yàn)偏差 針對數(shù)據(jù)編程 設(shè)計(jì)DSS系統(tǒng) 分析結(jié)果和 理解需求 參見P45圖2.5,2019/7/11,11,2019/7/11,12,1.數(shù)據(jù)倉庫計(jì)劃與準(zhǔn)備階段,用戶需求分析 可行性研究 用戶的認(rèn)可 建設(shè)數(shù)據(jù)倉庫的協(xié)調(diào)與阻力分析 開發(fā)項(xiàng)目計(jì)劃制定 關(guān)鍵資源管理,2019/7/11,13,(1)用戶需求分析內(nèi)容,用戶如何處理其事務(wù) 如何衡量用戶的工作表現(xiàn) 用戶需要什么屬性(在信息方面) 應(yīng)用于這些屬性的業(yè)務(wù)層次結(jié)構(gòu)是什么 用戶現(xiàn)在使用什么數(shù)據(jù),以及需要什么數(shù)據(jù) 用戶需要什么水平的細(xì)節(jié)或匯總數(shù)據(jù),2019/7/11,14,2019/7/11,15,(2)可行性研究,三個(gè)重要分析 技術(shù)可行性 操作可行性 經(jīng)濟(jì)可行性,2019/7/11,16,(3)用戶認(rèn)可(User buy in),重要因素 用戶大力支持不可少,其與上層的支持是不同的 不能完全改變決策方式,只能改變決策信息的獲取方法,改進(jìn)用戶獲取信息的方法 數(shù)據(jù)倉庫必須經(jīng)常集成其中應(yīng)用軟件的數(shù)據(jù),理解用戶的看法,2019/7/11,17,(4)建設(shè)數(shù)據(jù)倉庫的協(xié)調(diào)與阻力分析,2019/7/11,18,(5)開發(fā)項(xiàng)目計(jì)劃制定,2019/7/11,19,(6)創(chuàng)建數(shù)據(jù)倉庫所使用的關(guān)鍵資源,人才 業(yè)務(wù)分析員 確定和定義目的和目標(biāo)用戶群 確定滿足組織戰(zhàn)略性商業(yè)目標(biāo) 數(shù)據(jù)體系結(jié)構(gòu)設(shè)計(jì)師 數(shù)據(jù)的采集、轉(zhuǎn)換、分配和加載 定義數(shù)據(jù)模型 信息系統(tǒng)服務(wù)人員 最終用戶支持人員 領(lǐng)導(dǎo)和管理人員 項(xiàng)目領(lǐng)導(dǎo) 項(xiàng)目經(jīng)理 硬件 軟件,2019/7/11,20,2.數(shù)據(jù)倉庫的其他階段,2019/7/11,21,數(shù)據(jù)倉庫的系統(tǒng)分析,系統(tǒng)分析的目標(biāo)是了解當(dāng)前實(shí)際是如何工作的,以使得系統(tǒng)的操作可在將來得到改善。 原型法 注意:不能與其所有可操作數(shù)據(jù)源相連,數(shù)據(jù)仍然需要做數(shù)據(jù)凈化、傳送等工作 開發(fā)方法 數(shù)據(jù)驅(qū)動(dòng)法 應(yīng)用驅(qū)動(dòng)法,2019/7/11,22,數(shù)據(jù)驅(qū)動(dòng)方法,數(shù)據(jù)源:連續(xù)的數(shù)據(jù)源 次序:自頂向下 優(yōu)點(diǎn):每一個(gè)階段在技術(shù)上都很簡單,只涉及一個(gè)文件或數(shù)據(jù)庫類型映射到數(shù)據(jù)倉庫數(shù)據(jù)庫之中,每個(gè)附加數(shù)據(jù)源只有在其前面的附加數(shù)據(jù)源處理完之后才添加。 缺點(diǎn):數(shù)據(jù)資源不能利落地映射到商業(yè)查詢中。,2019/7/11,23,應(yīng)用驅(qū)動(dòng)方法,數(shù)據(jù)源:來自幾個(gè)操作系統(tǒng)的數(shù)據(jù) 次序:自頂向下 優(yōu)點(diǎn):在第一階段就提供有用的信息 缺點(diǎn):到達(dá)這一階段要花費(fèi)較長的時(shí)間、并且需要的活動(dòng)很多很復(fù)雜,2019/7/11,24,數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì),重點(diǎn):設(shè)計(jì)數(shù)據(jù)倉庫的元素,即數(shù)據(jù)庫和數(shù)據(jù)分析 如何選擇數(shù)據(jù)庫體系結(jié)構(gòu) 按照哪種系統(tǒng)結(jié)構(gòu)設(shè)計(jì) 如何安排數(shù)據(jù)庫 定義數(shù)據(jù)如何使用所有的數(shù)據(jù)源都被映射傳送到數(shù)據(jù)倉庫 描述數(shù)據(jù)倉庫何時(shí)及時(shí)如何更新并回答程序員遇到的無數(shù)多個(gè)”我該怎么辦”,2019/7/11,25,數(shù)據(jù)倉庫的測試,適用于順序測試 確保對源文件提取記錄及字段的正確性 證明傳送和凈化工作正常,對比元數(shù)據(jù),檢查數(shù)據(jù)倉庫內(nèi)容以確保整個(gè)加載過程有效,可能要測試有關(guān)已知誰的回答的分析。 增強(qiáng)維護(hù),增強(qiáng)用戶支持,2019/7/11,26,思考,查閱賽迪網(wǎng),閱讀和比較不同的數(shù)據(jù)倉庫的解決方案。明確數(shù)據(jù)驅(qū)動(dòng)法與應(yīng)用驅(qū)動(dòng)法兩種方法在數(shù)據(jù)倉庫實(shí)施中的不同表現(xiàn)。,2019/7/11,27,4、數(shù)據(jù)倉庫的基本體系結(jié)構(gòu)是怎樣的?,2019/7/11,28,數(shù)據(jù)倉庫基本體系結(jié)構(gòu),2019/7/11,29,數(shù)據(jù)倉庫體系結(jié)構(gòu),數(shù)據(jù)倉庫,2019/7/11,30,數(shù)據(jù)倉庫體系結(jié)構(gòu),2019/7/11,31,數(shù)據(jù)分級,Data Staging 提取,轉(zhuǎn)化,凈化,加載 數(shù)據(jù)倉庫不直接存儲(chǔ)事務(wù)數(shù)據(jù),提取時(shí)必須將事務(wù)數(shù)據(jù)進(jìn)行轉(zhuǎn)換成數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)和內(nèi)部格式,為了保證數(shù)據(jù)的品質(zhì),還要對數(shù)據(jù)進(jìn)行凈化,將凈化后的數(shù)據(jù)加載到數(shù)據(jù)倉庫中。,2019/7/11,32,ETL(提取轉(zhuǎn)換加載),數(shù)據(jù)的提取轉(zhuǎn)換加載(ETL)是用來實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)集成,即完成數(shù)據(jù)的抓取/抽取、清洗、轉(zhuǎn)換、加載與索引等數(shù)據(jù)調(diào)和工作。 ETL是數(shù)據(jù)倉庫系統(tǒng)中最重要的處理工具之一,它的主要任務(wù)是建立、維護(hù)數(shù)據(jù)倉庫,通過與操作型數(shù)據(jù)源的映像關(guān)系執(zhí)行數(shù)據(jù)提取轉(zhuǎn)換加載的任務(wù)。其中涉及各種各樣的技術(shù)和處理,比如,數(shù)據(jù)清洗及其準(zhǔn)備結(jié)構(gòu)的設(shè)計(jì)和處理、映像技術(shù)和方法、粒度的考慮,以及數(shù)據(jù)的提取、轉(zhuǎn)換、追加、加載作業(yè)控制等一系列問題。,操作型系統(tǒng),數(shù)據(jù)倉庫,提取,集結(jié)地,清洗,轉(zhuǎn)換,加載與索引,拒絕數(shù)據(jù)的信息,有關(guān)拒絕數(shù)據(jù)的信息,2019/7/11,33,元數(shù)據(jù),元數(shù)據(jù)Metadata “有關(guān)數(shù)據(jù)的數(shù)據(jù)” “數(shù)據(jù)倉庫的元數(shù)據(jù)是要解決何人在何時(shí)何地為了什么原因及怎樣使用數(shù)據(jù)倉庫的問題”。 可對數(shù)據(jù)倉庫中的各種數(shù)據(jù)進(jìn)行詳細(xì)的描述與說明,說明每個(gè)數(shù)據(jù)的上下文關(guān)系,使每個(gè)數(shù)據(jù)具有符合現(xiàn)實(shí)的真實(shí)含義,使最終用戶了解這些數(shù)據(jù)之間的關(guān)系。 作用: 通過元數(shù)據(jù)進(jìn)行數(shù)據(jù)倉庫的管理; 通過元數(shù)據(jù)來使用數(shù)據(jù)倉庫。,2019/7/11,34,技術(shù)元數(shù)據(jù):用于對數(shù)據(jù)倉庫進(jìn)行管理的元數(shù)據(jù) 是數(shù)據(jù)倉庫的設(shè)計(jì)和管理人員用于數(shù)據(jù)倉庫開發(fā)和日常管理數(shù)據(jù)倉庫時(shí)使用的元數(shù)據(jù)。它包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換的描述、數(shù)據(jù)倉庫對象和數(shù)據(jù)結(jié)構(gòu)的定義、數(shù)據(jù)清理和數(shù)據(jù)更新時(shí)采用的規(guī)則、源數(shù)據(jù)到目的數(shù)據(jù)的映射、用戶訪問權(quán)限、數(shù)據(jù)備份歷史紀(jì)錄、數(shù)據(jù)導(dǎo)入歷史紀(jì)錄、信息發(fā)布?xì)v史紀(jì)錄等。 商業(yè)元數(shù)據(jù):幫助使用數(shù)據(jù)倉庫的元數(shù)據(jù) 從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù)。它包括業(yè)務(wù)主題的描述,以及對所包含的數(shù)據(jù)、查詢、報(bào)表的描述,等等。,2019/7/11,35,元數(shù)據(jù)為訪問數(shù)據(jù)倉庫提供了一個(gè)信息目錄 數(shù)據(jù)倉庫中都有些什么數(shù)據(jù) 這些數(shù)據(jù)是怎么得到的 誰在管轄 怎么訪問這些數(shù)據(jù) 其他更多的信息 可通過查詢工具得知元數(shù)據(jù)的有關(guān)資料 元數(shù)據(jù)是數(shù)據(jù)倉庫運(yùn)行和維護(hù)的中心,數(shù)據(jù)倉庫服務(wù)器必須利用元數(shù)據(jù)來存儲(chǔ)和更新數(shù)據(jù),用戶必須通過元數(shù)據(jù)來了解和訪問數(shù)據(jù)。,2019/7/11,36,數(shù)據(jù)倉庫數(shù)據(jù)庫,是整個(gè)數(shù)據(jù)倉庫環(huán)境的核心,是數(shù)據(jù)存放的地方,提供對數(shù)據(jù)的支持和快速檢索的支持 相對于操縱型數(shù)據(jù)庫來說,其突出的特點(diǎn)是對海量數(shù)據(jù)的支持和快速的檢索技術(shù)。 包含 明細(xì)數(shù)據(jù)和匯總數(shù)據(jù),2019/7/11,37,查詢工具,查詢工具通常包括一個(gè)用于向數(shù)據(jù)庫提出問題的最終用戶接口,此接口位于聯(lián)機(jī)分析處理OLAP的程序中。,2019/7/11,38,4、數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)是怎樣的?,2019/7/11,39,數(shù)據(jù)倉庫的粒度,粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細(xì)化或綜合程度的級別。,2019/7/11,40,數(shù)據(jù)倉庫的粒度,粒度 粒度越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類就越多反之,粒度的增大將會(huì)提高查詢效率,但同時(shí)也造成回答細(xì)節(jié)問題能力的下降。 低粒度級(高細(xì)節(jié)級) 高粒度級(低細(xì)節(jié)級) 例如:電訊公司數(shù)據(jù)倉庫中,保存一個(gè)顧客一個(gè)月內(nèi)每個(gè)電話的細(xì)節(jié)高細(xì)節(jié)級,低粒度級,假設(shè)有200個(gè)記錄,包含本月內(nèi)200個(gè)電話的任何信息;保存一個(gè)顧客一個(gè)月內(nèi)每天電話的匯總輕度綜合,較高粒度級,只有30或31條記錄,只能回答匯總查詢的問題。保存一個(gè)顧客一個(gè)月內(nèi)的電話的綜合低細(xì)節(jié)級,高粒度級,只有一條記錄。,2019/7/11,41,輕度綜合數(shù)據(jù),2019/7/11,42,數(shù)據(jù)倉庫的粒度,雙重粒度 指輕度綜合數(shù)據(jù)和真實(shí)細(xì)節(jié)數(shù)據(jù)級(最低粒度級) 大部分的分析數(shù)據(jù)是針對被壓縮的、存取效率高的輕度粒度級數(shù)據(jù)進(jìn)行的。 需要分析更低的細(xì)節(jié)數(shù)據(jù)時(shí)才訪問最低粒度級數(shù)據(jù)。,2019/7/11,43,2019/7/11,44,數(shù)據(jù)倉庫中的數(shù)據(jù)分割,把數(shù)據(jù)分散到各自小的物理單元中去 任何給定的單元屬于一個(gè)分割 數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片 分割后的單元具有靈活性,能夠?qū)崿F(xiàn)重構(gòu)、索引、順序掃描、重組、恢復(fù)、監(jiān)控等,2019/7/11,45,數(shù)據(jù)分割,2019/7/11,46,2019/7/11,47,數(shù)據(jù)倉庫中數(shù)據(jù)組織,簡單堆積結(jié)構(gòu) 輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ) 簡單直接文件 連續(xù)組織,2019/7/11,48,簡單堆積結(jié)構(gòu),從操作型環(huán)境中取出每天的事務(wù)數(shù)據(jù) 根據(jù)主題來綜合成數(shù)據(jù)倉庫記錄,2019/7/11,49,輪轉(zhuǎn)綜合數(shù)據(jù)存儲(chǔ),只有在輪轉(zhuǎn)綜合文件中的數(shù)據(jù)才能被輸入到不同的結(jié)構(gòu)形式中,而操作型數(shù)據(jù)到數(shù)據(jù)倉庫環(huán)境中的數(shù)據(jù)處理方法簡單的堆積結(jié)構(gòu)相同。,方式:每天進(jìn)行數(shù)據(jù)綜合,每周累加,月底將每周的數(shù)據(jù)加到一起,并放于第一個(gè)每月響應(yīng)的數(shù)據(jù)位置處,然后每周數(shù)據(jù)位置清零。到了年底,將每月數(shù)據(jù)累加,放入第一個(gè)年度響應(yīng)的數(shù)據(jù)位置處,然后每月數(shù)據(jù)位置清零。,2019/7/11,50,簡單堆積與輪轉(zhuǎn)綜合的比較,2019/7/11,51,簡單直接文件組織,把數(shù)據(jù)從操作型環(huán)境拖入數(shù)據(jù)倉庫環(huán)境中,無任何累積,以較長時(shí)間為單位的 它是間隔一定時(shí)間的操作型數(shù)據(jù)的一個(gè)快照,2019/7/11,52,連續(xù)數(shù)據(jù)組織,依據(jù)兩個(gè)或更多的簡單

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論