



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘復(fù)習(xí)內(nèi)容第一章4.說明OLTP概念和OLAO既念答:OLTP(On Line Transaction Processing,聯(lián)機(jī)事物處理)是在網(wǎng)絡(luò)環(huán)境下的事務(wù)處理工件以快速的響應(yīng)和頻繁的數(shù)據(jù)修改為特征,使用戶利用數(shù)據(jù)庫能夠快速地處理具怵的業(yè)務(wù)。OLAP (On Line An alytical Process ing)聯(lián)機(jī)分析處理,是使用多維數(shù)據(jù)庫和多維分析的方法,對多個關(guān)系數(shù)據(jù)庫共同進(jìn)行大量的綜合計算來得到結(jié)果的方法。6. 說明OLTP與OLAP的主要區(qū)別。答:OLTP針對的是細(xì)節(jié)性數(shù)據(jù)、當(dāng)前數(shù)據(jù)、經(jīng)常更新、一次性處理的數(shù)據(jù)量小、對響應(yīng)時 間要求高且面向應(yīng)用,事務(wù)驅(qū)動;OL
2、AP針對的是綜合性數(shù)據(jù)、歷史數(shù)據(jù)、不更新,但周期性刷新、一次處理的數(shù)據(jù)量大、響應(yīng)時間合理且面向分析,分析驅(qū)動。9.二汀丁対詰知mA上.答:在數(shù)據(jù)倉庫中引入了 “元數(shù)據(jù)”的概念,它不僅僅是數(shù)據(jù)倉庫的字典,而且還是數(shù)據(jù)倉 庫本身信息的數(shù)據(jù)。15 .數(shù)據(jù)挖掘與OLAP有什么不同答:OLAP是在帶層次的維度和跨維度進(jìn)行多維數(shù)據(jù)分析的。數(shù)據(jù)挖掘則不同,它是以變量 和記錄為基礎(chǔ)進(jìn)行分析的。第二章3. 說明數(shù)據(jù)集市與數(shù)據(jù)倉庫的區(qū)別與聯(lián)系。答:聯(lián)系:數(shù)據(jù)集市是一種更小,更集中的數(shù)據(jù)倉庫,為公司提供了一條分析商業(yè)數(shù)據(jù)的 廉價途徑。數(shù)據(jù)集市是指具有特定應(yīng)用的數(shù)據(jù)倉庫,主要針對某個具有戰(zhàn)略意義的應(yīng)用或者具體部門級的
3、應(yīng)用 支持用戶利用已有的數(shù)據(jù)獲得重要的競爭優(yōu)勢或者找到進(jìn)入新市場的具體解決方案。區(qū)別:(1) 數(shù)據(jù)倉庫是基于整個企業(yè)的數(shù)據(jù)模型建立的,它面向企業(yè)范圍內(nèi)的主題。而數(shù)據(jù)集市是按照某一半(2 )(3) 數(shù)據(jù)集市的數(shù)據(jù)組織一般采用星型模型。(4) 畫出數(shù)據(jù)集市的兩種結(jié)構(gòu)圖,說明它們的不同點.獨立型數(shù)據(jù)集市直接從操作型環(huán)境獲取數(shù)據(jù) 據(jù),帶有從屬型數(shù)據(jù)集市的體系結(jié)構(gòu)。17.簡單說明ETL過程的主要步驟.ETL過程的主要步驟概括為:(1),從屬型數(shù)據(jù)集市從企業(yè)級數(shù)據(jù)倉庫獲取數(shù)(2) 決定所有的數(shù)據(jù)源,包括內(nèi)部和外部的數(shù)據(jù)源(3)(8)(9)(10)事實表的抽取、轉(zhuǎn)換和裝載22.說明數(shù)據(jù)庫中的元數(shù)據(jù)以及數(shù)據(jù)倉
4、庫中元數(shù)據(jù)的不同。答:關(guān)于數(shù)據(jù)源的元數(shù)據(jù)是現(xiàn)有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息,是對不同平臺上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為:(1)數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項及數(shù)據(jù)類型。(2)所有數(shù)據(jù)項的業(yè)務(wù)定義。(3 )(4 )每個數(shù)據(jù)項的有效值。(5)其他系統(tǒng)中具有相同業(yè)務(wù)含義的數(shù)據(jù)項的清單。p24數(shù)據(jù)倉庫的四種數(shù)據(jù)模型。答:星形模型。大多數(shù)數(shù)據(jù)倉庫都采用星型模型,是事實表(大表)以及多個維表(小表) 所組成。事實表存放著大量關(guān)于企業(yè)事實數(shù)據(jù)(數(shù)字實際值),對象(元組)個數(shù)通常都很大,而且非規(guī)范化程度很高。事實表有大量的行(元組),維表相對來說有較少的行。優(yōu)點:存取速度快,主要針對各個維
5、做了大量處理,做報表時速度很快。與規(guī)范化關(guān)系數(shù)據(jù)庫相比,以增加存儲空間為代價, 提高了多維數(shù)據(jù)的查詢速度,而規(guī)范化的關(guān)系數(shù)據(jù)庫設(shè)計是使數(shù)據(jù)的冗余保持在最少并減少當(dāng)數(shù)據(jù)改變時系統(tǒng)必須執(zhí)行的動作。缺點:當(dāng)業(yè)務(wù)問題發(fā)生變化,原來的維不能滿足要求時需要增加新的維,維的變化非常復(fù)雜耗時,數(shù)據(jù)冗余量很大。雪花模型。對星型模型的維表進(jìn)一步的層次化,原來的各維表可能被擴(kuò)展為小的事實表,形成一些局部的“層次”區(qū)域,優(yōu)點是最大限度地減少數(shù)據(jù)存儲量,以及把較小的維表聯(lián)合 在一起來改善查詢信息。 缺點:增加了用戶必須處理的表的數(shù)量,增加了某些查詢的復(fù)雜性。星網(wǎng)模型。多個相關(guān)的星型模型通過相同的維表連接起來形成網(wǎng)狀結(jié)構(gòu)
6、,各個事實共享 的維表是時間維。第三范式。3NF解決數(shù)據(jù)冗余,數(shù)據(jù)被分割為多個實體,實體在數(shù)據(jù)庫中用表來表示,使用3NF會形成比較復(fù)雜的關(guān)系表,但適合于操作型處理。星型模型的設(shè)計模式適用于決策分析應(yīng)用。第三章3.2節(jié)OLAP的三種數(shù)據(jù)模型及其比較;答:MOLA數(shù)據(jù)模型:MOLA數(shù)據(jù)模型是基于多維數(shù)據(jù)庫的OLAP簡稱多維 OLARROLAP數(shù)據(jù)模型:ROLAP是基于關(guān)系數(shù)據(jù)庫的 OLAR簡稱關(guān)系OLAPHOLAP即混合 OLAP介于MOLAR和ROLAP之間。MOLAP ROLAP比較技術(shù)MOLAP詳沏數(shù)撓用關(guān)至熹序闊在 隸舞魚庫中:2,各料匯意數(shù) 娠原存在歩維鼓揑中:3. A 數(shù)坯售庫申世訶訐
7、細(xì)盔.扌壬,從1由髒攀引建;2預(yù)先屯 立龜搖立方體;3多維規(guī)禹夸 赭在陳列中,為不是裊松中;兩 祥贓鉅陣搖 杞卓爸理匯意約1詞m響應(yīng)遒摩共;嵌.飪松:i 應(yīng)歩維分桁:2有廣迫韻下牯 務(wù)歩送7 Jt/茅祝兩的童詢袒力ROLAP1金部就據(jù)艮輕關(guān)系再緒止戟春肚意的就據(jù);3有非常天的 就總?cè)萘?;斗從魏鴨金洋中?淒赴址凈訊L久載撼譽彈申罠 致號據(jù):初嘰“釘擘產(chǎn)分靳申 創(chuàng)建就舞至方*: 3義示丟能1在岌韋分新捕也上肓局瞋tir第妥殺朗空.吧的OLAP; 2 向下站琨較容嘉,但產(chǎn)跨甦向 下鮎取比較因珠*在HOLAP的多維數(shù)據(jù)庫中的數(shù)據(jù)維度少于MOLAP中的維度庫,數(shù)據(jù)儲存容量也少于MOLA方式。但是,HO
8、LAP在數(shù)據(jù)存取速度上又低于 MOLAP第四章數(shù)據(jù)倉庫概念模型將需求分析過程中得到的用戶抽象為計算機(jī)表示的信息結(jié)構(gòu)。它是從客觀世界(用戶)到計算機(jī)世界的一個中間層次,即用戶需求的數(shù)據(jù)模型。常用E-R圖特點:1、能真實反映現(xiàn)實世界,能滿足用戶對數(shù)據(jù)的分析,達(dá)到?jīng)Q策支持的要求,它是現(xiàn)實世界 的一個真實模型。2、易于理解,有利于和用戶交換意見,在用戶的參與下,能有效地完成對數(shù)據(jù)倉庫的成功 設(shè)計。3、易于更改,當(dāng)用戶需求發(fā)生變化時,容易對概念模型進(jìn)行修改和擴(kuò)充。4、易于向數(shù)據(jù)倉庫的數(shù)據(jù)模型(星型模型)轉(zhuǎn)換。邏輯模型設(shè)計把概念模型設(shè)計好的 E-R圖轉(zhuǎn)換成計算機(jī)所支持的數(shù)據(jù)模型。主要工作為:1、 主要域進(jìn)
9、行概念模型(E-R圖)到邏輯模型(星型模型)的轉(zhuǎn)換;2、顆粒層次劃分;3、關(guān)系模式定義;4、定義記錄系統(tǒng);物理模型設(shè)計為了邏輯模型設(shè)計的數(shù)據(jù)模型確定一個最合適應(yīng)用要求的物理結(jié)構(gòu)(包括存儲結(jié)構(gòu)和存取方法)。數(shù)據(jù)存儲的數(shù)據(jù)模型。工作主要是:1、估計存儲容量;2、確定數(shù)據(jù)的存儲結(jié)構(gòu);3、確定索引;4、確定數(shù)據(jù)存放位置;5、確定存儲分配;時間維度概念:以時間作為描述、表達(dá)變量的度量尺度。是在分析經(jīng)濟(jì)變量時加上時間要素 的角度而形成的。對于經(jīng)濟(jì)變量的考察, 凡能用時間單位來表達(dá)的,就必須在分析中加上時間這一維度,才能使經(jīng)濟(jì)變量準(zhǔn)確的表達(dá)出來??梢杂脕肀硎窘?jīng)濟(jì)變量中存量和流量的區(qū)別。存量是在某一時點測定的
10、,其大小沒有時間維度, 而流量則必須用時間單位宋表示 (年、月、日小時、分、秒等),即時間維度。不說明時間單位,流量的計量便沒有意義。數(shù)據(jù)粒度概念:數(shù)據(jù)倉庫的數(shù)據(jù)中保存數(shù)據(jù)的細(xì)化程度或綜合程度的級別。細(xì)化程度越高, 粒度級別就越??;相反,細(xì)化程度越低,粒度級別就越高。影響存放在數(shù)據(jù)庫中的數(shù)據(jù)量大小和所能回答的查詢類型。注意雪花模型和綜合事實表的區(qū)別?。?8990、4.11和4.12)雪花模型:減少各維度的記錄數(shù),使查詢過程中搜索記錄數(shù)目減少。綜合事實表:是由基礎(chǔ)事實表衍生出來的。特別地看一下上次做過的數(shù)據(jù)倉庫的實驗及其實驗文檔,涉及到實驗的具體步驟和內(nèi)容 第八章數(shù)據(jù)挖掘,看關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘的算
11、法思想,分析課本上P177的例子,要看它的分析步驟 和處理辦法,特別是如何畫對應(yīng)的圖 8.4;【1】基本概念:關(guān)聯(lián)規(guī)則挖掘是發(fā)現(xiàn)大量數(shù)據(jù)庫中項集之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則模式屬于描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法。原理:(1) 關(guān)聯(lián)規(guī)則是形如 At B的蘊涵式,這里 Acl,Bcl,且AA BM ?。(2) 規(guī)則的支持度:規(guī)則At B在數(shù)據(jù)庫D中具有支持度S,表示S是D中事務(wù)同時包含AB的百分比,它是概率P(AB),即:S(AtB)=P(AB)=|AB|/|A|,其中|D|表示事務(wù)數(shù)據(jù)庫 D的個數(shù),|AB|表示A、B兩個項集同時發(fā)生的事務(wù)個數(shù)。(3) 規(guī)則的可信度,規(guī)則AtB具有
12、可信度C,表示C是包含A項集的同時也包含B項集,相對于包含 A項集的百分比,這是條件概率P(B|A),即C (At B)=P(B|A)=|AB|/|A|,A表示數(shù)據(jù)庫中包含項集A的事務(wù)個數(shù)。(4) 閾值:為了在事務(wù)數(shù)據(jù)庫中找出有用的關(guān)聯(lián)規(guī)則,需要由用戶確定兩個 閾值:最小支持度(min_sup)和最小可信度(min_conf ).(5) 項的集合稱為項集,包含k個項的項集稱之為 K-項集。若項集滿足最小 支持度,則它稱為 頻繁項集。(6) 關(guān)聯(lián)規(guī)則:同時滿足最小支持度和最小可信度的規(guī)則稱為關(guān)聯(lián)規(guī)則,即S(At B)min_sup,且C ( At B) min_conf成立時,規(guī)則 At b稱為
13、關(guān)聯(lián)規(guī)則, 也可以稱為強關(guān)聯(lián)規(guī)則。(7) 興趣度(不小于 0): I ( At B) =P(AB)/P(A)P(B),反映了項集 A與項集B的相關(guān)程度,若I ( At B) =1,即P(AB)=P(A)P(B),表示項集A出現(xiàn)和項集是 相互獨立的。若I ( At B)v 1,表示a出現(xiàn)和B出現(xiàn)是負(fù)相關(guān)。若I ( At B) 1,表示A出現(xiàn)和B出現(xiàn)是正相關(guān),意味著A的出現(xiàn)蘊含B出現(xiàn)。算法基本思想:找到所有支持度大于最小支持度的項集,這些項集稱為頻繁項集。使用一種稱作逐層搜索的迭代方法,“K-項集”用于搜索“ K+1- ”項集,直到不能找到“ K-項集”為止,找每個 Lk需要一次數(shù)據(jù)庫掃描。性質(zhì):
14、頻繁項集的所有非空子集都必須也是頻繁的。設(shè)K-項集Lk, K+1-項集Lk=1,產(chǎn)生Lk=1的候選集Cc+1.有公式:C+1=Lk*Lk=X U Y,其中X,Y Lk,|XY|=K+1,其中C1是1-項集的集合,取自所有事 務(wù)中的單項元素。如 L仁A,B,C2=A U B=A,B,且|AB|=2 丄2=A,B,A,C, C3=A,B U A,C=A,B,C,且|ABC|=3.【2】Apriori算法中候選集與頻繁項集產(chǎn)生實例對表8.6所示的事物數(shù)據(jù)庫,Apriori算法步驟如下:表8.6車物IJID事物的項目集事物ID事柳的噴目集T1T6T2E, DT7A, CT3E, CT8A. E,ET綣
15、仏E, 口TS E,匚T5A, C1、在算法的第一次迭代,每個項都是候選1-項集的集合C1的成員。算法掃描所有的事務(wù),對每個項的出現(xiàn)次數(shù)計數(shù),圖8.4中第一列。2、假定最小事務(wù)支持計數(shù)為2 (即min-sup=2/9=22% )??梢源_定頻繁 1-項集的集合L1.它由具有最小支持度的候選1-項集組成,見圖8.4第二列。3、為發(fā)現(xiàn)頻繁2-項集的集合L2,算法使用L1*L1,來產(chǎn)生候選集 C2,見 圖第3列。4、掃描D中事務(wù),計算C2中每個候選集的支持度計數(shù),如圖8.4第4列。5、確定頻繁2-項集的集合L2,它由具有最小支持度的C2中候選2-項集組成,見圖第5列。6、候選3-項集C3產(chǎn)生,仍按3步
16、驟進(jìn)行。得到候選集。 C3=A,B,C,A,B,E,A,C,E,B,C,D,B,C,E,B,D,E按Apriori性質(zhì),頻繁項集的所有子集必須是頻繁的。由于A,D,C,D.C,E,D,E不是頻繁項集,故 C3后4個候選不可能是頻繁的,在C3中刪除它們,見圖第6列。掃描D中事務(wù),對C3中的候選集計數(shù)支持度計數(shù),圖第7列。7、確定L3,它由具有最小支持度的C3中候選3-項集組成,見圖第 8列。8、按公式產(chǎn)生候選4-項集的集合C4,產(chǎn)生結(jié)果A,B,C,E,這個項集被剪 去,因為它的子集B,C,E不是頻繁的。這樣 L4M ?,此算法終止。L3是最 大的頻繁項集,即A,B,C和A,B,E.圖8.4候選集
17、與頻繁項集的產(chǎn)生6候選雄Li麵舷:L-項隼支:持度 計範(fàn)頊華支持度 計敷頂集頃集支持度 計馳AS比籤A6A. E計尊A, E4:ETE7F-血Ci-A, C4:C5G6民DA, D10一 NJJZ九EEE::耳2鼠CE. C硝B, DB.D2B, E氐E2G DC. D0G EC. E1D. ED, E0L2頻繁A項集嵌選集C3假選吏U3頻幫37頁集Jnffi支持度 計斟1項辜支持虞 計數(shù)換京持康 計撤At B4產(chǎn)生乩爲(wèi)計耳扎Bt C2L爲(wèi)C2A.C4為E,E-a3b.e2JL B. E2A. E2C3B,C4E, D2B, E2【3】 課本P184習(xí)題八:18, 25 題(Apriori性質(zhì))18、數(shù)據(jù)庫有4個事務(wù),設(shè)最小支持度為50%使用Apriori 、算法找出所有數(shù)據(jù)頻繁項目TID項TID頂T1Ar C DT3A, E. CJ ET2B, C. ET1E ET.!小幼勢丸計編丸2 Min-sup=2/4 =0,5ClA屯持蛀2 B3,匚克炳喪3,卩支持及1,E支苻權(quán)3D不是
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 3《 我們班 他們班》(教學(xué)設(shè)計)部編版道德與法治四年級上冊
- 2024-2025學(xué)年高中歷史 專題二 近代中國資本主義的曲折發(fā)展 一 近代中國民族工業(yè)的興起(3)教學(xué)教學(xué)實錄 人民版必修2
- 2024年八年級物理上冊 1.1 走進(jìn)實驗室 學(xué)習(xí)科學(xué)探究教學(xué)實錄 (新版)教科版
- 某小區(qū)景觀工程施工組織設(shè)計
- 某治理建設(shè)工程施工組織設(shè)計
- 10日月潭 第2課時教學(xué)設(shè)計-2024-2025學(xué)年二年級上冊語文統(tǒng)編版
- 26 好的故事 (教學(xué)設(shè)計)2024-2025學(xué)年統(tǒng)編版語文六年級上冊
- 10《父母多愛我》第一課時 教學(xué)設(shè)計-2024-2025學(xué)年道德與法治三年級上冊統(tǒng)編版
- 2024年春九年級歷史下冊 第2單元 第3課 凡爾賽-華盛頓體系的建立教學(xué)實錄 岳麓版
- 《汽車保險與理賠理實一體化教程》全套教學(xué)課件
- 2024年公開招聘社區(qū)工作者報名表
- 安徽省蕪湖市2024-2025學(xué)年第一學(xué)期期末考試七年級語文試卷(含答案)
- 《家庭護(hù)士》課件
- 護(hù)士電子化注冊信息系統(tǒng)(醫(yī)療機(jī)構(gòu)版)醫(yī)療機(jī)構(gòu)快速閱讀手冊
- 2024年04月江蘇蘇州銀行春招信息科技類崗位第一批開始筆啦筆試歷年參考題庫附帶答案詳解
- 煤化工設(shè)備設(shè)計與制造技術(shù)進(jìn)展分析考核試卷
- 中國多發(fā)性骨髓瘤診治指南(2024 年修訂)
- 【MOOC】實驗室安全學(xué)-武漢理工大學(xué) 中國大學(xué)慕課MOOC答案
- DB32T 2836-2015 雙孢蘑菇工廠化生產(chǎn)技術(shù)規(guī)程
- 蘋果種植養(yǎng)護(hù)培訓(xùn)課件
- 化妝步驟課件教學(xué)課件
評論
0/150
提交評論