電子科大數(shù)據(jù)挖掘作業(yè)1-6_第1頁
電子科大數(shù)據(jù)挖掘作業(yè)1-6_第2頁
電子科大數(shù)據(jù)挖掘作業(yè)1-6_第3頁
電子科大數(shù)據(jù)挖掘作業(yè)1-6_第4頁
電子科大數(shù)據(jù)挖掘作業(yè)1-6_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘課后習題數(shù)據(jù)挖掘作業(yè)16第一章 緒論1) 數(shù)據(jù)挖掘處理的對象有哪些?請從實際生活中舉出至少三種。1、關(guān)系數(shù)據(jù)庫2、數(shù)據(jù)倉庫3、事務(wù)數(shù)據(jù)庫4、高級數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)庫應(yīng)用如空間數(shù)據(jù)庫、 時序數(shù)據(jù)庫、 文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫等,還可以是 Web 數(shù)據(jù)信息。實際生活的例子:電信行業(yè)中利用數(shù)據(jù)挖掘技術(shù)進行客戶行為分析, 包含客戶通話記錄、 通話時間、 所開通的服務(wù)等, 據(jù)此進行客戶群體劃分以及客戶流失性分析。天文領(lǐng)域中利用決策樹等數(shù)據(jù)挖掘方法對上百萬天體數(shù)據(jù)進行分類與分析, 幫助天文學家發(fā)現(xiàn)其他未知星體。市場業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進行市場定位、 消費者分析、 輔助制定市場營銷策略等。2) 給出一

2、個例子,說明數(shù)據(jù)挖掘?qū)ι虅?wù)的成功是至關(guān)重要的。該商務(wù)需要什么樣的數(shù)據(jù)挖掘功能?它們能夠由數(shù)據(jù)查詢處理或簡單的統(tǒng)計分析來實現(xiàn)嗎?以一個百貨公司為例,它可以應(yīng)用數(shù)據(jù)挖掘來幫助其進行目標市場營銷。運用數(shù)據(jù)挖掘功能例如關(guān)聯(lián)規(guī)則挖掘,百貨公司可以根據(jù)銷售記錄挖掘出強關(guān)聯(lián)規(guī)則,來訣定哪一類商品是消費者在購買某一類商品的同時,很有可能去購買的,從而促使百貨公司進行目標市場營銷。數(shù)據(jù)查詢處理主要用于數(shù)據(jù)或信息檢索,沒有發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的方法。同樣地,簡單的統(tǒng)計分析沒有能力處理像百貨公司銷售記錄這樣的大規(guī)模數(shù)據(jù)。第二章 數(shù)據(jù)倉庫和OLAP技術(shù)1) 簡述數(shù)據(jù)立方體的概念、多維數(shù)據(jù)模型上的OLAP操作。l 數(shù)據(jù)立方體

3、數(shù)據(jù)立方體是二維表格的多維擴展,如同幾何學中立方體是正方形的三維擴展一樣,是一類多維矩陣,讓用戶從多個角度探索和分析數(shù)據(jù)集,通常是一次同時考慮三個維度。數(shù)據(jù)立方體提供數(shù)據(jù)的多維視圖,并允許預計算和快速訪問匯總數(shù)據(jù)。l 多維數(shù)據(jù)模型上的OLAP操作a) 上卷(roll-up):匯總數(shù)據(jù) 通過一個維的概念分層向上攀升或者通過維規(guī)約b) 下卷(drill-down):上卷的逆操作 由不太詳細的數(shù)據(jù)到更詳細的數(shù)據(jù),可以通過沿維的概念分層向下或引入新的維來實現(xiàn)c) 切片和切塊(slice and dice)投影和選擇操作d) 轉(zhuǎn)軸(pivot) 立方體的重定位,可視化,或?qū)⒁粋€3維立方體轉(zhuǎn)化為一個2維平

4、面序列2) OLAP多維分析如何輔助決策?舉例說明。 OLAP是在多維數(shù)據(jù)結(jié)構(gòu)上進行數(shù)據(jù)分析的,一般在多維數(shù)據(jù)上切片、切塊成簡單數(shù)據(jù)來進行分析,或是上卷、下卷來分析。OLAP要查詢大量的日常商業(yè)信息,以及大量的商業(yè)活動變化情況,如每周購買量的變化值,經(jīng)理通過查詢變化值來做決策。例如經(jīng)理看到利潤小于預計值是,就會去深入到各地區(qū)去查看產(chǎn)品利潤情況,這樣他會發(fā)現(xiàn)一些比較異常的數(shù)據(jù)。經(jīng)過進一步的分析和追蹤查詢可以發(fā)現(xiàn)問題并解決3) 舉例說明OLAP的多維數(shù)據(jù)分析的切片操作。切片就是在某兩個維上取一定區(qū)間的維成員或全部維成員。如用三維數(shù)組表示為(地區(qū),時間,產(chǎn)品,銷售額),如果在地區(qū)維度上選定一個維成員

5、,就可以得到在該地區(qū)的一個切片(關(guān)于時間和產(chǎn)品的切片)。第三章 數(shù)據(jù)預處理1) 假定用于分析的數(shù)據(jù)包含屬性 age,數(shù)據(jù)元組中 age 的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。(a) 使用按箱平均值平滑對以上數(shù)據(jù)進行平滑,箱的深度為 3。解釋你的步驟。評論對于給定的數(shù)據(jù),該技術(shù)的效果。已知數(shù)據(jù)元組中 age 的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35

6、,35,35,36,40,45,46,52,70,且箱的深度為 3, 劃分為(等頻)箱:箱 1: 13,15,16箱 2: 16,19,20箱 3: 20,21,22箱 4: 22,25,25箱 5: 25,25,30箱 6: 33,33,33箱 7: 35,35,35箱 8: 35,36,40箱 9: 45,46,52箱 10: 70用箱均值光滑:箱 1: 15,15,15箱 2: 18,18,18箱 3: 21,21,21箱 4: 24,24,24箱 5: 27,27,37箱 6: 33,33,33箱 7: 35,35,35箱 8: 37,37,37箱 9: 48,48,48箱 10: 7

7、0(b) 對于數(shù)據(jù)平滑,還有哪些其它方法?(1)回歸:可以用一個函數(shù)(如回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù);(2)聚類: 可以通過聚類檢測離群點, 將類似的值組織成群或簇。 直觀地, 落在簇集合之外的值視為離群點。2) 使用習題1)給出的 age 數(shù)據(jù),回答以下問題:(a) 使用 min-max 規(guī)范化,將 age 值 35 轉(zhuǎn)換到0.0, 1.0區(qū)間。已知最大值為 70, 最小值為 13, 則可將 35 規(guī)范化為: |35-13|70-13 =0.386(b) 使用z-score規(guī)范化轉(zhuǎn)換age值35,其中,age的標準偏差為12.94 年。已知均值為 30, 標準差為 12.94, 則可將 35

8、 規(guī)范化為: 35-3012.94 =0.386(c) 使用小數(shù)定標規(guī)范化轉(zhuǎn)換 age 值 35。 使用小數(shù)定標規(guī)范化可將 35 規(guī)范化為: 35100 =0.35(d) 指出對于給定的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。 對于給定的數(shù)據(jù), 你愿意使用 min-max 規(guī)范化。 理由是計算簡單。3) 以下是一個商場所銷售商品的價格清單(按遞增順序排列,括號中的數(shù)表示前面數(shù)字出現(xiàn)次數(shù))1(2)、 5(5)、 8(2)、 10(4)、 12、 14(3)、 15(5)、 18(8)、 20(7)、 21(4)、 25(5)、 28、 30(3)。請分別用等寬的方法和等高的方法對上面的數(shù)據(jù)集進行

9、劃分。(1) 等寬方法: 劃分為3個數(shù)據(jù)集,每個數(shù)據(jù)集的寬度為價格10。價格在110之間出現(xiàn)次數(shù)為13;價格在1120之間出現(xiàn)的次數(shù)為24;價格在2130之間出現(xiàn)的次數(shù)為13。(2) 等高方法: 劃分為2個數(shù)據(jù)集,每個數(shù)據(jù)集的高度為出現(xiàn)的次數(shù) 4。出現(xiàn)次數(shù)14之間的價格為1、8、10、12、14、21、28、 30, 共 8 個數(shù)據(jù);出現(xiàn)次數(shù)58之間的價格為5、15、18、20、25,共5個數(shù)據(jù)。第四章 關(guān)聯(lián)規(guī)則1)考慮如下的頻繁3-項集: 1, 2, 3, 1, 2, 4, 1, 2, 5, 1, 3, 4, 1, 3, 5, 2, 3, 4,2, 3, 5, 3, 4, 5。 (a)根據(jù)

10、Apriori 算法的候選項集生成方法,寫出利用頻繁 3-項集生成的所有候選 4-項集。 1,2,3,4; 1,2,3,5; 1,2,4,5; 1,3,4,5; 2,3,4,5(b)寫出經(jīng)過剪枝后的所有候選 4-項集. 1,2,3,4; 1,2,3,5;2)一個數(shù)據(jù)庫有5個事務(wù),如下表所示。設(shè) min_sup=60%, min_conf = 80%。事務(wù)ID 購買的商品T100T200T300T400T500M, O, N, K, E, YD, O, N, K, E, YM, A, K, EM, U, C, K, YC, O, O, K, I ,E (a) 分別用 Apriori 算法和 FP

11、-growth 算法找出所有頻繁項集。比較兩種挖掘方法的效率。 Apriori 算法FP-growth 算法效率比較:Apriori需多次掃描數(shù)據(jù)庫而FP增長建立FP樹只需一次的掃描。在Apriori算法中產(chǎn)生候選是昂貴的(由于聯(lián)接),而FP增長不產(chǎn)生任何候選,但是FP消耗了大量的內(nèi)存,當數(shù)據(jù)量很大時。(b)比較窮舉法和 Apriori 算法生成的候選項集的數(shù)量。 窮舉法:M=2k -1=211 - 1=2047Apriori 算法: 23(c) 利用(a)所找出的頻繁項集,生成所有的強關(guān)聯(lián)規(guī)則和對應(yīng)的支持度和置信度。 O,K >E , 支持度 0.6 , 置信度 1O,E >k

12、, 支持度 0.6 , 置信度 13)如下表所示的相依表匯總了超級市場的事務(wù)數(shù)據(jù)。其中 hot dogs 指包含熱狗的事務(wù),hot dogs 指不包含熱狗的事務(wù)。 hamburgers 指包含漢堡的事務(wù), hamburgers 指不包含漢堡的事務(wù)。hot dogs hot dogs rowHamburgers 2,000 500 2,500hamburgers 1,000 1,500 2,500col 3,000 2,000 5,000假設(shè)挖掘出的關(guān)聯(lián)規(guī)則是“hot dogs hamburgers”。給定最小支持度閾值25%和最小置信度閾值 50%,這個關(guān)聯(lián)規(guī)則是強規(guī)則嗎?s(hot dogs

13、)=3000/5000=60%; s(hot dogs, hamburgers)=2000/5000=40%C(hot dogs hamburgers)=40%/60%=66.7%故這個關(guān)聯(lián)規(guī)則是強規(guī)則。計算關(guān)聯(lián)規(guī)則“hot dogs hamburgers”的提升度, 能夠說明什么問題?購買熱狗和購買漢堡是獨立的嗎?如果不是,兩者間存在哪種相關(guān)關(guān)系?S(hamburgers)=2500/5000=50%提升度 lift(hot dogshamburgers) = C(hot dogs hamburgers)/S(hamburgers)=1.334 提升度大于1,表明hot dogs和 hamb

14、urgers不是互相獨立的,二者之間存在正相關(guān)關(guān)系。第五章 分類和預測1)簡述決策樹分類的主要步驟。 決策樹生成的過程如下:(1)對數(shù)據(jù)源進行數(shù)據(jù)預處理, 得到訓練集和測試集;(2)對訓練集進行訓練;(3)對初始決策樹進行樹剪枝;(4)由所得到的決策樹提取分類規(guī)則;(5)使用測試數(shù)據(jù)集進行預測, 評估決策樹模型;2)考慮下表所示二元分類問題的數(shù)據(jù)集。A B 類標號T F +T T +T T +T F -T T +F F -F F -F F -T T -T F -(a) 計算按照屬性 A 和 B 劃分時的信息增益。決策樹歸納算法將會選擇那個屬性? 按照屬性 A 和 B 劃分時, 數(shù)據(jù)集可分為如下

15、兩種情況:A = TA = F+40-33 B = TB = F+31-15劃分前樣本集的信息熵為 E=-0.4log20.4 - 0.6log20.6 = 0.9710按照屬性 A 劃分樣本集分別得到的兩個子集(A 取值 T 和 A 取值 F)的信息熵分別為: 按照屬性 B 劃分樣本集分別得到的兩個子集(B 取值 T 和 B 取值 F)的信息熵分別為: 因此,決策樹歸納算法將會選擇屬性A。(b)計算按照屬性 A 和 B 劃分時 Gini 系數(shù)。決策樹歸納算法將會選擇那個屬性?3)考慮下表數(shù)據(jù)集,請完成以下問題:記錄號 A B C 類1 0 0 0 +2 0 0 1 -3 0 1 1 -4 0

16、 1 1 -5 0 0 1 +6 1 0 1 +7 1 0 1 -8 1 0 1 -9 1 1 1 +10 1 0 1 +(a) 估計條件概率 P(A | +), P(B | +), P(C | +), P(A | -), P(B | -), P(C | -)。 P(A | +) = 3/5P(B | +) = 1/5P(C | +) = 4/5P(A | -) = 2/5P(B | -) = 2/5P(C | -) = 1(b) 根據(jù)(1)中的條件概率,使用樸素貝葉斯方法預測測試樣本(A=0, B=1, C=0)的類標號;假設(shè) P(A=0,B=1,C=0)=K則 K 屬于兩個類的概率為:P(

17、+|A=0,B=1,C=0) = P(A=0,B=1,C=0)*P(+)/K= P(A=0|+)P(B|+)P(C=0|+)×P(+)/K= 0.4*0.2*0.2*0.5/K=0.008/KP(-|A=0,B=1,C=0) = P(A=0,B=1,C=0)×P(-)/K= P(A=0|-)P(B|-)P(C=0|-)×P(-)/K= 0.4*0.2*0*0.5/K= 0/K則得到, 此樣本的類標號是+(c) 使用 Laplace 估計方法, 其中 p=1/2, l=4, 估計條件概率 P(A | +) , P(B | +) , P(C | +),P(A | -)

18、 , P(B | -) , P(C | -) 。P(A|+)=(3+2)/(5+4)=5/9P(A|-)=(2+2)/(5+4)=4/9P(B|+)=(1+2)/(5+4)=1/3P(B|-)=(2+2)/(5+4)=4/9P(C|-)=(0+2)/(5+4)=2/9(d) 同(2),使用(3)中的條件概率假設(shè) P(A=0,B=1,C=0)=K則 K 屬于兩個類的概率為:P(+|A=0,B=1,C=0) = P(A=0,B=1,C=0)*P(+)/K= P(A=0|+)P(B|+)P(C=0|+)*P(+)/K= (4/9)*(1/3)*(1/3)*0.5/K= 0.0247/KP(-|A=0

19、,B=1,C=0) = P(A=0,B=1,C=0)*P(-)/K= P(A=0|-)P(B|-)P(C=0|-)*P(-)/K= (5/9)*(4/9)*(2/9)*0.5/K= 0.0274/K則得到, 此樣本的類標號是-。(e) 比較估計概率的兩種方法,哪一種更好,為什么? 當條件概率為0的時候,條件概率的預測用Laplace估計方法比較好,因為我們不想整個條件概率計算結(jié)果為0.第六章 聚類分析1) 什么是聚類?簡單描述如下聚類方法:劃分方法、層次方法、基于密度的方法,并為每一類方法給出例子。聚類是將數(shù)據(jù)劃分為相似對象組的過程, 使得同一組中對象相似度最大而不同組中對象相似度最小。(1)

20、 劃分方法給定一個有N個元組或者記錄的數(shù)據(jù)集,分裂法將構(gòu)造K個分組,每一個分組就代表一個聚類,K<N。而且這K個分組滿足下列條件:第一,每一個分組至少包含一條記錄;第二,每一條記錄屬于且僅屬于一個分組(注意:這個要求在某些模糊聚類算法中可以放寬);對于給定的K,算法首先給出一個初始的分組方法,以后通過反復迭代的方法改變分組,使得每一次改進之后的分組方案都較前一次好,而所謂好的標準就是:同一分組中的記錄越近越好,而不同分組中的記錄越遠越好。使用這個基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。(2)層次方法這種方法對給定的數(shù)據(jù)集進行層次似的分解,直到某種

21、條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。例如在“自底向上”方案中,初始時每一個數(shù)據(jù)記錄都組成一個單獨的組,在接下來的迭代中,它把那些相互鄰近的組合并成一個組,直到所有的記錄組成一個分組或者某個條件滿足為止。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。(3)基于密度的方法基于密度的方法與其它方法的一個根本區(qū)別是:它不是基于各種各樣的距離,而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點。這個方法的指導思想就是:只要一個區(qū)域中的點的密度大過某個閾值,就把它加到與之相近的聚類中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。(4)基于模型的方法基于模型的方法給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。它的一個潛在假定就是:目標數(shù)據(jù)集是由一系列的概率分布所決定的。基于模型的方法主要有兩類:統(tǒng)計學方法和神經(jīng)網(wǎng)絡(luò)方法(SOM)。2) 聚類被廣泛的認為是一種重要的數(shù)據(jù)挖掘方法,有著廣泛的應(yīng)用,對如下每種情況給出一個應(yīng)用的例子:a) 采用聚類作為主要數(shù)據(jù)挖掘方法的應(yīng)用;如電子商務(wù)網(wǎng)站中的客戶群劃分。根據(jù)客戶的個人信息、消費習慣、瀏覽行為等信息,計算客戶之間的相似度,然后采用合適的聚類算法對所有客戶進行類劃分;基于得到的客戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論