數(shù)據(jù)挖掘離線作業(yè)2016_第1頁(yè)
數(shù)據(jù)挖掘離線作業(yè)2016_第2頁(yè)
數(shù)據(jù)挖掘離線作業(yè)2016_第3頁(yè)
數(shù)據(jù)挖掘離線作業(yè)2016_第4頁(yè)
數(shù)據(jù)挖掘離線作業(yè)2016_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、浙江大學(xué)遠(yuǎn)程教育學(xué)院數(shù)據(jù)挖掘課程作業(yè)姓名:學(xué) 號(hào):年級(jí):學(xué)習(xí)中心:第一章 引言一、填空題(1)數(shù)據(jù)庫(kù)中的知識(shí)挖掘(KDD)包括以下七個(gè)步驟: 數(shù)據(jù)清理 、 數(shù)據(jù)集成 、 數(shù)據(jù)選擇 、 數(shù)據(jù)變換 、 數(shù)據(jù)挖掘 、 模式評(píng)估 和 知識(shí)表示 (2) 數(shù)據(jù)挖掘的性能問(wèn)題主要包括:算法的效率、可擴(kuò)展性和并行處理 (3) 當(dāng)前的數(shù)據(jù)挖掘研究中,最主要的三個(gè)研究方向是:統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和 機(jī)器學(xué)習(xí)(4) 孤立點(diǎn)是指: 些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù) 二、簡(jiǎn)答題(1)什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘指的是從大量的數(shù)據(jù)中挖掘出那些令人感興趣的、有用的、隱含的、先前未知的和可能有用的模式或知識(shí)。(2)一個(gè)典型

2、的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括哪些組成部分?答:一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括以下部分:1數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)2數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器3知識(shí)庫(kù)4數(shù)據(jù)挖掘引擎5模式評(píng)估模塊6圖形用戶界面(3)Web挖掘包括哪些步驟?答:數(shù)據(jù)清理: (這個(gè)可能要占全過(guò)程60的工作量)、數(shù)據(jù)集成、將數(shù)據(jù)存入數(shù)據(jù)倉(cāng)庫(kù)、建立數(shù)據(jù)立方體、選擇用來(lái)進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)、數(shù)據(jù)挖掘(選擇適當(dāng)?shù)乃惴▉?lái)找到感興趣的模式)、展現(xiàn)挖掘結(jié)果、將模式或者知識(shí)應(yīng)用或者存入知識(shí)庫(kù)。(4)請(qǐng)列舉數(shù)據(jù)挖掘應(yīng)用常見(jiàn)的數(shù)據(jù)源。答:常見(jiàn)的數(shù)據(jù)源包括關(guān)系數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)和高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)。其中高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)包括:空間數(shù)據(jù)庫(kù)、時(shí)間數(shù)

3、據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù)、流數(shù)據(jù)、多媒體數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)、異種數(shù)據(jù)庫(kù)和遺產(chǎn)(legacy)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)和萬(wàn)維網(wǎng)(WWW)等。 第二章 認(rèn)識(shí)數(shù)據(jù)一、填空題(1)兩個(gè)文檔向量d1和d2的值為:d1 = (1, 0, 3, 0, 2),d2 = (3, 2, 0, 0, 1),則它們的余弦相似度為: 5/13 (2)數(shù)據(jù)離散度的常用度量包括極差、分位、百分位數(shù)、四分位數(shù)極差和標(biāo)準(zhǔn)差。 (3)一種常用的確定離群點(diǎn)的簡(jiǎn)單方法是: 出落在至少高于第三個(gè)四分位數(shù)或低于第一個(gè)四分位 數(shù)1.5×IQR處的值 。二、單選題(1)對(duì)于下圖所示的正傾斜數(shù)據(jù),中位數(shù)、平均值、眾數(shù)三者

4、之間的關(guān)系是:C A、中位數(shù)=平均值=眾數(shù);B中位數(shù)>平均值>眾數(shù);C、平均值>中位數(shù)>眾數(shù);D;眾數(shù)>中位數(shù)>平均值(2)下面的散點(diǎn)圖顯示哪種屬性相關(guān)性?CA不相關(guān);B正相關(guān);C負(fù)相關(guān);D先正相關(guān)然后負(fù)相關(guān);三、簡(jiǎn)答題(1)什么是基于像素的可視化技術(shù)?它有什么缺點(diǎn)?答:對(duì)于一個(gè)m維數(shù)據(jù)集,基于像素的可視化技術(shù)在屏幕上創(chuàng)建m個(gè)窗口,每維一個(gè)。記錄的m個(gè)維值映射到這些窗口對(duì)應(yīng)位置上的m個(gè)像素。像素的顏色反映對(duì)應(yīng)的值?;谙袼氐目梢暬夹g(shù)的缺點(diǎn):難以呈現(xiàn)多維空間的數(shù)據(jù)分布,不顯示數(shù)據(jù)子空間中是否存在稠密區(qū)域。(2)對(duì)稱的和不對(duì)稱的二元屬性有什么區(qū)別?答:對(duì)稱的二

5、元屬性指變量的兩個(gè)狀態(tài)具有同等價(jià)值或相同權(quán)重;而不對(duì)稱的二元屬性中,變量的兩個(gè)狀態(tài)的重要性是不同的。對(duì)稱的二元屬性可以使用簡(jiǎn)單匹配系數(shù)評(píng)估它們的相異度;不對(duì)稱的二元屬性使用Jaccard系數(shù)評(píng)估它們的相異度。第三章 數(shù)據(jù)預(yù)處理一、 填空題(1)進(jìn)行數(shù)據(jù)預(yù)處理時(shí)所使用的主要方法包括:數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成和數(shù)據(jù)規(guī)約。(2)數(shù)據(jù)概化是指: 沿概念分層向上概化 (3)數(shù)據(jù)壓縮可分為:有損壓縮 和無(wú)損壓縮 兩種類型。(4)進(jìn)行數(shù)值歸約時(shí),三種常用的有參方法是: 線性回歸方法 、 多元回歸 和 對(duì)數(shù)線性模型 二、簡(jiǎn)答題(1)常用的數(shù)值屬性概念分層的方法有哪些? 常用的數(shù)值屬性概念分層的方法有分箱、

6、直方圖分析、聚類分析、基于熵的離散化和通過(guò)自然劃分分段。(2)請(qǐng)描述主成份分析(PCA)算法步驟主成份分析步驟為: a、規(guī)范化輸入的數(shù)據(jù):所有屬性落在相同的區(qū)間內(nèi);b、計(jì)算k個(gè)標(biāo)準(zhǔn)正交向量,即主成分;c、每個(gè)輸入數(shù)據(jù)的向量都是這k個(gè)主成分向量的線性組合;d、主成分按照重要程度降序排序。(3)在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺少值是常有的。描述處理該問(wèn)題的各種方法。處理空缺值的方法有: 1)忽略元組。當(dāng)類標(biāo)號(hào)缺少時(shí)通常這么做(假定挖掘任務(wù)設(shè)計(jì)分類或描述),當(dāng)每個(gè)屬性缺少值的百分比變化很大時(shí),它的效果非常差。2)人工填寫(xiě)空缺值。這種方法工作量大,可行性低3) 使用一個(gè)全局變量填充空缺值:比如使

7、用unknown或4)使用屬性的平均值填充空缺值5)使用與給定元組屬同一類的所有樣本的平均值6)使用最可能的值填充空缺值。如使用像Bayesian公式或判定樹(shù)這樣的基于推斷的方法。(4)常見(jiàn)的數(shù)據(jù)歸約策略包括哪些?數(shù)據(jù)歸約策略包括:1) 數(shù)據(jù)立方體聚集2)維歸約3)數(shù)據(jù)壓縮4)數(shù)值歸約5)離散化和概念分層產(chǎn)生第六七章 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)一、填空題(1)關(guān)聯(lián)規(guī)則挖掘中,兩個(gè)主要的興趣度度量是:支持度 和 置信度 (2)Aprior算法包括 連接 和 剪枝 兩個(gè)基本步驟(3)項(xiàng)集的頻率是指 包含項(xiàng)集的事務(wù)數(shù) (4)大型數(shù)據(jù)庫(kù)中的關(guān)聯(lián)規(guī)則挖掘包含兩個(gè)過(guò)程: 找出所有頻繁項(xiàng)集 和 由頻繁項(xiàng)集產(chǎn)生

8、強(qiáng)關(guān)聯(lián)規(guī)則(5)根據(jù)規(guī)則中所處理的值類型,關(guān)聯(lián)規(guī)則可分為:布爾關(guān)聯(lián)規(guī)則 和 量化關(guān)聯(lián)規(guī)則 (6)Apriori性質(zhì)是指: 頻繁項(xiàng)集的所有非空子集也必須是頻繁的 (7)在多維關(guān)聯(lián)規(guī)則挖掘中,我們搜索的不是頻繁項(xiàng)集,而是頻繁謂詞集 二、簡(jiǎn)答題(1)簡(jiǎn)述在多層關(guān)聯(lián)規(guī)則挖掘中,在不同的層使用一致的支持度的優(yōu)缺點(diǎn)。答:對(duì)所有層都使用一致的最小支持度,優(yōu)點(diǎn)在于:搜索時(shí)容易采用優(yōu)化策略,即一個(gè)項(xiàng)如果不滿足最小支持度,它的所有子項(xiàng)都可以不用搜索;缺點(diǎn)在于:最小支持度值設(shè)置困難,如果設(shè)置太高,將丟掉出現(xiàn)在較低抽象層中有意義的關(guān)聯(lián)規(guī)則,如果設(shè)置太低,會(huì)在較高層產(chǎn)生太多的無(wú)興趣的規(guī)則。(2)如何提高Apriori算

9、法的有效性?有哪些常見(jiàn)方法?減少系統(tǒng)1/O開(kāi)銷的更為快捷的算法。方法1:基于hash表的項(xiàng)集計(jì)數(shù):將每個(gè)項(xiàng)集通過(guò)相應(yīng)的hash函數(shù)映射到hash表中的不同的桶中,這樣可以通過(guò)將桶中的項(xiàng)集技術(shù)跟最小支持計(jì)數(shù)相比較先淘汰一部分項(xiàng)集。方法2:事務(wù)壓縮(壓縮進(jìn)一步迭代的事務(wù)數(shù))不包含任何k-項(xiàng)集的事務(wù)不可能包含任何(k+1)-項(xiàng)集,這種事務(wù)在下一步的計(jì)算中可以加上標(biāo)記或刪除方法3:劃分,挖掘頻繁項(xiàng)集只需要兩次數(shù)據(jù)掃描D中的任何頻繁項(xiàng)集必須作為局部頻繁項(xiàng)集至少出現(xiàn)在一個(gè)部分中。第一次掃描:將數(shù)據(jù)劃分為多個(gè)部分并找到局部頻繁項(xiàng)集第二次掃描:評(píng)估每個(gè)候選項(xiàng)集的實(shí)際支持度,以確定全局頻繁項(xiàng)集。方法4:選樣(在

10、給定數(shù)據(jù)的一個(gè)子集挖掘)基本思想:選擇原始數(shù)據(jù)的一個(gè)樣本,在這個(gè)樣本上用Apriori算法挖掘頻繁模式通過(guò)犧牲精確度來(lái)減少算法開(kāi)銷,為了提高效率,樣本大小應(yīng)該以可以放在內(nèi)存中為宜,可以適當(dāng)降低最小支持度來(lái)減少遺漏的頻繁模式可以通過(guò)一次全局掃描來(lái)驗(yàn)證從樣本中發(fā)現(xiàn)的模式可以通過(guò)第二此全局掃描來(lái)找到遺漏的模式方法5:動(dòng)態(tài)項(xiàng)集計(jì)數(shù)在掃描的不同點(diǎn)添加候選項(xiàng)集,這樣,如果一個(gè)候選項(xiàng)集已經(jīng)滿足最少支持度,則在可以直接將它添加到頻繁項(xiàng)集,而不必在這次掃描的以后對(duì)比中繼續(xù)計(jì)算。第八章 分類一、填空題(1)數(shù)據(jù)分類模型的常用表示形式包括 、 和 等。(2)樸素貝葉斯分類是基于 假設(shè)。二、簡(jiǎn)答題(1)在判定樹(shù)歸納中

11、,為什么樹(shù)剪枝是有用的?(2)為什么樸素貝葉斯分類稱為“樸素”的?簡(jiǎn)述樸素貝葉斯分類優(yōu)缺點(diǎn)。(3)分類方法的常用評(píng)估度量都有哪些?(4)簡(jiǎn)述數(shù)據(jù)分類的兩步過(guò)程。三、算法題(1)使用判定樹(shù)歸納算法,根據(jù)顧客年齡age(分為3個(gè)年齡段:<18,18.23,>23),收入income(取值為high,medium,low),是否為student(取值為yes和no),信用credit_rating等級(jí)(取值為fair和excellent)來(lái)判定用戶是否會(huì)購(gòu)買PC Game,即構(gòu)建判定樹(shù)buys_PCGame,假設(shè)現(xiàn)有的數(shù)據(jù)經(jīng)過(guò)第一次劃分之后得到如下圖所示結(jié)果,并根據(jù)該結(jié)果對(duì)每一個(gè)劃分中的

12、各個(gè)屬性計(jì)算信息增益對(duì)age<18的顧客:Gain(income)=0.022,Gain(student)=0.162,Gain(credit_rating)=0.323對(duì)age>23的顧客:Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155請(qǐng)根據(jù)以上結(jié)果繪制出判定樹(shù)buys_PCGame,來(lái)判定用戶是否會(huì)購(gòu)買PC Game。age <18 1823 >23incomestudentcredit_ratingclassIncomestudentcredit_ratingclasshighnof

13、airnohighnofairnomediumyesfairnohighyesexcellentyeshighnofairnomediumyesfairyesmediumyesexcellentyeslowyesfairyeslownoexcellentyeslownoexcellentnoincomestudentcredit_ratingclasshighnofairyesmediumyesfairyeshighnofairyesmediumyesexcellentyes第十章 聚類分析一、填空題(1)在數(shù)據(jù)挖掘中,常用的聚類算法包括: 、 、 、基于網(wǎng)格的方法和基于模型的方法。(2)聚類

14、分析常作為一個(gè)獨(dú)立的工具來(lái)獲得 (3)一個(gè)好的聚類分析方法會(huì)產(chǎn)生高質(zhì)量的聚類,具有兩個(gè)特征: 和 (4)許多基于內(nèi)存的聚類算法所常用的兩種數(shù)據(jù)結(jié)構(gòu)是 和 (5)基于網(wǎng)格的聚類方法的優(yōu)點(diǎn)是: 二、簡(jiǎn)答題(1)簡(jiǎn)述基于劃分的聚類方法。劃分的準(zhǔn)則是什么?(2)列舉離群點(diǎn)挖掘的常見(jiàn)應(yīng)用。第四章 數(shù)據(jù)倉(cāng)庫(kù)和OLAP技術(shù)一、 填空題(1)數(shù)據(jù)倉(cāng)庫(kù)的多維數(shù)據(jù)模型可以有三種不同的形式,分別是: 、 和 (2)給定基本方體,方體的物化有三種選擇: 、 和 (3)著名的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)師W. H. Inmon認(rèn)為,數(shù)據(jù)倉(cāng)庫(kù)與其他數(shù)據(jù)存儲(chǔ)系統(tǒng)的區(qū)別的四個(gè)特征是: 、 、 和 (4)在數(shù)據(jù)訪問(wèn)模式上,數(shù)據(jù)倉(cāng)庫(kù)以 為主,而日常應(yīng)用數(shù)據(jù)庫(kù)則以 為主。(5)數(shù)據(jù)立方體度量可以根據(jù)其所使用的聚集函數(shù)分為三類,分別是: 、 和 (6)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì),四種不同的視圖必須考慮,分別是: 、 、 、 (7)OLAP服務(wù)器的類型主要包括: 、 和 (8)求和函數(shù)sum()是一個(gè) 的函數(shù)。(9)方體計(jì)算的主要挑戰(zhàn)是 和 之間的矛盾。二、簡(jiǎn)答題(1)為什么在進(jìn)行聯(lián)機(jī)分析處理(OLAP)時(shí),我們需

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論