12《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》復(fù)習(xí)題_第1頁
12《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》復(fù)習(xí)題_第2頁
12《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》復(fù)習(xí)題_第3頁
12《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》復(fù)習(xí)題_第4頁
12《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》復(fù)習(xí)題_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

#/30三、 問答題1、 分類知識的發(fā)現(xiàn)方法主要有哪些?分類過程通常包括哪兩個(gè)步驟?答:分類規(guī)則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集法和遺傳算法。分類的過程包括2步:首先在已知訓(xùn)練數(shù)據(jù)集上,根據(jù)屬性特征,為每一種類別找到一個(gè)合理的描述或模型,即分類規(guī)則;然后根據(jù)規(guī)則對新數(shù)據(jù)進(jìn)行分類。2、 什么是決策樹?如何用決策樹進(jìn)行分類?答:決策樹是用樣本的屬性作為結(jié)點(diǎn),用屬性的取值作為分支的樹結(jié)構(gòu)。它是利用信息論原理對大量樣本的屬性進(jìn)行分析和歸納而產(chǎn)生的。決策樹的根結(jié)點(diǎn)是所有樣本中信息量最大的屬性。樹的中間結(jié)點(diǎn)是以該結(jié)點(diǎn)為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結(jié)點(diǎn)是樣本的類別值。決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結(jié)點(diǎn)開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結(jié)點(diǎn),該葉結(jié)點(diǎn)表示的類別就是新樣本的類別。決策樹方法是數(shù)據(jù)挖掘中非常有效的分類方法。3、 在判定樹歸納中,為什么樹剪枝是有用的?答:當(dāng)判定樹創(chuàng)建時(shí),由于數(shù)據(jù)中的噪聲和孤立點(diǎn),許多分枝反應(yīng)的是訓(xùn)練數(shù)據(jù)中的異常。剪枝方法處理這種過分適應(yīng)數(shù)據(jù)的問題。通常這種方法使用統(tǒng)計(jì)度量,剪去最不可靠的分枝,這將導(dǎo)致較快的分類,提高樹獨(dú)立于測試數(shù)據(jù)正確分類的可靠性。四、 分析題1、根據(jù)以下訓(xùn)練樣本,計(jì)算年齡屬性的信息增益值年齢性別家庭

所得麟買RV席軍否杏否否否否否是是否否否否否杏否否否否否是是否否否否<35Female但所得<35Female高所得蘭35「Mate,小康<35Male高所得Female小康<35Male但所得M35Female小康<35 Male 小康整35 Female 小康M35 Femafe 小康M35 Female 低所得<35 Male 高所得蘭35ZEiemaLe低所得>35Male但所得S>35Male小康S35Female低所得否JI(16,4=-((4/16*log2(4/16+(12/16*log2(12/16=0.8113E(年齡=(6/16*1(6,1+(10/16*1(10,3=0.7946Gain(年齡=I(16,4-E(年齡=0.0167第六講聚類分析考點(diǎn):1、 什么的聚類?它和分類的區(qū)別在哪?2、 聚類的主要算法中K-平均算法(k-means的輸入、輸出及聚類過程是如何實(shí)現(xiàn)的?復(fù)習(xí)參考題:―、填空題(1在數(shù)據(jù)挖掘中,常用的聚類算法包括:劃分方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。(2聚類分析常作為一個(gè)獨(dú)立的工具來獲得數(shù)據(jù)分布的情況。(3一個(gè)好的聚類分析方法會產(chǎn)生高質(zhì)量的聚類,具有兩個(gè)特征:高類內(nèi)相似度、低類間相似度。(4許多基于內(nèi)存的聚類算法所常用的兩種數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)矩陣、相異度矩陣。(5基于網(wǎng)格的聚類方法的優(yōu)點(diǎn)是:處理數(shù)度快。(6孤立點(diǎn)產(chǎn)生的主要原因包括:度量或執(zhí)行錯(cuò)誤、數(shù)據(jù)變異的結(jié)果。(7在基于統(tǒng)計(jì)的孤立點(diǎn)檢測中,常用于不一致性檢驗(yàn)的參數(shù)包括:數(shù)據(jù)分布、分布參數(shù)、預(yù)期的孤立點(diǎn)數(shù)。二、單選題(1下面那種數(shù)據(jù)挖掘方法可以用來檢測孤立點(diǎn)?C。概念描述分類和預(yù)測聚類分析演變分析(2以下哪個(gè)指標(biāo)不是表示對象間的相似度和相異度C。A、Euclidean距離B、Manhattan距離C、 Eula距離D、 Minkowski距離(3以下哪種聚類方法可以發(fā)現(xiàn)任意形狀的聚類?CA、 劃分的方法B、 基于模型的方法C、 基于密度的方法D、 層次的方法三、問答題1、 何謂聚類?它與分類有什么異同?答:聚類是將物理或抽象對象的集合分組成為多個(gè)類或簇(cluster的過程,使得在同一個(gè)簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。聚類與分類不同,聚類要?jiǎng)澐值念愂俏粗?,分類則可按已知規(guī)則進(jìn)行;聚類是一種無指導(dǎo)學(xué)習(xí),它不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實(shí)例,屬于觀察式學(xué)習(xí),分類則屬于有指導(dǎo)的學(xué)習(xí),是示例式學(xué)習(xí)。2、 簡述ID3算法的基本思想及其主算法的基本步驟。答:首先找出最有判別力的因素,然后把數(shù)據(jù)分成多個(gè)子集,每個(gè)子集又選擇最有判別力的因素進(jìn)一步劃分,一直進(jìn)行到所有子集僅包含同一類型的數(shù)據(jù)為止。最后得到一棵決策樹,可以用它來對新的樣例進(jìn)行分類。主算法包括如下幾步:29/3029/3030/3030/30從訓(xùn)練集中隨機(jī)選擇一個(gè)既含正例又含反例的子集(稱為窗口;用“建樹算法”對當(dāng)前窗口形成一棵決策樹;對訓(xùn)練集(窗口除外中例子用所得決策樹進(jìn)行類別判定,找出錯(cuò)判的例子;若存在錯(cuò)判的例子,把它們插入窗口,重復(fù)步驟②,否則結(jié)束。四、分析計(jì)算1、 給定兩個(gè)向量對象,分別表示為pl(22,l,42,10,p2(20,0,36,8:(a計(jì)算兩個(gè)對象之間的歐幾里得距離;(b計(jì)算兩個(gè)對象之間的曼哈頓距離;(c計(jì)算兩個(gè)對象之間的切比雪夫距離;(d計(jì)算兩個(gè)對象之間的閔可夫斯基距離,用x=3。答:(a計(jì)算兩個(gè)對象之間的歐幾里得距離:苗二二^(22-20/-/I-()/-M2-36?-(10-8?二屁(b計(jì)算兩個(gè)對象之間的曼哈頓距離:cli 己己一21廣一fI—” 142—3&廠T丨U—(d計(jì)算兩個(gè)對象之間的閔可夫斯基距離,其中參數(shù)r=3:2、 假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的八個(gè)點(diǎn)(用(x,y代表位置)聚類為三個(gè)類。A1(2,10,A2(2,5,A3(8,4,B1(5,8,B2(7,5,B3(6,4,C1(1,2,C2(4,9距離函數(shù)是Euclidean(歐幾里得)函數(shù)。假設(shè)初始我們選擇A1,B1,和C1為每個(gè)簇的中心,用k-means(K-平均算法)算法來給出:(a)在第一次循環(huán)執(zhí)行后的三個(gè)簇中心(b)最后的三個(gè)簇思路:K均值算法的過程為(1)選擇K個(gè)點(diǎn)作為初始質(zhì)點(diǎn)。(2)repeat(3)每個(gè)點(diǎn)指派到最近的質(zhì)心,形成K個(gè)簇。(4)重新計(jì)算每個(gè)簇的質(zhì)心、(5)until質(zhì)心不發(fā)生變化。A1,B1,C作為初始質(zhì)點(diǎn),距離函數(shù)是Euclidean函數(shù),指派點(diǎn)到最近的質(zhì)心,方法為計(jì)算其他點(diǎn)到質(zhì)點(diǎn)的歐幾里得距離。計(jì)算距離如下:A1-A2:dist=(2-22+(5-102=25;A1-A3:dist=(8-22+(4-102=72;A1-B2:dist=(7-22+(5-102=50;A1-B3:dist=(6-22+(4-102=52;A1-C2:dist=(4-22+(9-102=5;B1-A2:dist=(2-52+(5-82=18;B1-A3:dist=(8-52+(4-82=25;B1-B2:dist=(7-52+(5-82=13B1-B3:dist=(6-52+(4-82=17B1-C2:dist=(4-52+(9-82=2C1-A2:dist=(2-12+(5-22=10C1-A3:dist=(8-12+(4-22=532222C1-B2:dist=(7-1+(5-2=45C1-B3:dist=(6-1+(4-2=29C1-C2:dist=(4-12+(9-22=58其他五個(gè)結(jié)點(diǎn)選擇與其最近的質(zhì)心,三個(gè)簇分別為:{B1,C2,B3,B2,A3}{C1,A2}{A1}計(jì)算這三個(gè)簇的質(zhì)心:{B1,C2,B3,B2,A3}的質(zhì)心為:((8+5+7+6+4)/5,(4+8+5+4+9/5艮卩(6,6);{C1,A2}的質(zhì)心為:((2+1)/2, (5+2)/2)即為(1.5,3.5);{A1}的質(zhì)心為(2,10)。 (a)在第一次循環(huán)執(zhí)行后的三個(gè)簇中心分別為(6,6),(1.5,3.5), (2,10)重新指派各個(gè)對象到離其最近的質(zhì)心,與上面方面相同,形成的三個(gè)簇為{A3,B1,B2,B3}, {C1,A2}, {A1,C2}三個(gè)簇的質(zhì)心分別為(6.5,5.25), (1.5,3.5), (3,9.5);重新指派各個(gè)對象到離其最近的質(zhì)心,形成的三個(gè)簇為:{A3,B2,B3}{C1,A2}{A1,B1,C2}三個(gè)簇的質(zhì)心分別為: (7, 4.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論