數(shù)據(jù)挖掘離線作業(yè)

上傳人：5*** IP屬地：湖北上傳時間：2021-11-04 格式：DOC 頁數(shù)：9 大小：101KB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、浙江大學(xué)遠(yuǎn)程教育學(xué)院數(shù)據(jù)挖掘課程作業(yè)姓名：李東學(xué) 號：714030242005年級：14年秋信息管理學(xué)習(xí)中心：合肥學(xué)習(xí)中心第一章引言一、填空題（1）數(shù)據(jù)庫中的知識挖掘(KDD)包括以下七個步驟：數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估和知識表示（2）數(shù)據(jù)挖掘的性能問題主要包括：算法的效率、可擴(kuò)展性和并行處理（3）當(dāng)前的數(shù)據(jù)挖掘研究中，最主要的三個研究方向是：統(tǒng)計(jì)學(xué) 、數(shù)據(jù)路技術(shù) 和機(jī)器學(xué)習(xí) （4）孤立點(diǎn)是指：一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù) 二、簡答題（1）什么是數(shù)據(jù)挖掘？答：數(shù)據(jù)挖掘指的是從大量的數(shù)據(jù)中挖掘出那

2、些令人感興趣的，有用的，隱含的，先前未知的和可能有用的模式或知識。（2）一個典型的數(shù)據(jù)挖掘系統(tǒng)應(yīng)該包括哪些組成部分？答：1，數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫；2，數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器；3，知識庫；4，數(shù)據(jù)挖掘引擎；5，模式評估模塊；6.圖形用戶界面。（3）Web挖掘包括哪些步驟？答：數(shù)據(jù)清理（可能有占全過程的60%的工作量）；將數(shù)據(jù)存入數(shù)據(jù)倉庫；建立數(shù)據(jù)立方體；選擇用來進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)；數(shù)據(jù)挖掘（選擇適當(dāng)?shù)乃惴▉碚业礁信d趣的模式）；展現(xiàn)挖掘結(jié)果；將模式或者知識應(yīng)用或者存入知識庫。（4）請列舉數(shù)據(jù)挖掘應(yīng)用常見的數(shù)據(jù)源。（或者說，我們都在什么樣的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘）答：常見的數(shù)據(jù)源包括關(guān)系數(shù)據(jù)

3、路、數(shù)據(jù)倉庫、事務(wù)數(shù)據(jù)庫和高舉數(shù)據(jù)庫系統(tǒng)和信息庫。其中國際數(shù)據(jù)庫系統(tǒng)和信息庫包括：空間數(shù)據(jù)庫、時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫、流數(shù)據(jù)、多媒體數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫和對象關(guān)系數(shù)據(jù)庫、異種數(shù)據(jù)庫和遺產(chǎn)數(shù)據(jù)庫、文本數(shù)據(jù)庫和萬維網(wǎng)等。第二章認(rèn)識數(shù)據(jù)一、填空題（1）兩個文檔向量d1和d2的值為：d1 = (1, 0, 3, 0, 2)，d2 = (3, 2, 0, 0, 1)，則它們的余弦相似度為： 5/13 （2）數(shù)據(jù)離散度的常用度量包括極差、分位數(shù) 、四分位數(shù) 、百分位數(shù) 四分位數(shù)極差和標(biāo)準(zhǔn)差（3）一種常用的確定離群點(diǎn)的簡單方法是：出落在至少高于第三個四分位數(shù)或低于第一個四分位數(shù)1.

4、5*IQR處的值。二、單選題（1）對于下圖所示的正傾斜數(shù)據(jù)，中位數(shù)、平均值、眾數(shù)三者之間的關(guān)系是：A、中位數(shù)=平均值=眾數(shù)；B中位數(shù)>平均值>眾數(shù)；C、平均值>中位數(shù)>眾數(shù)；D；眾數(shù)>中位數(shù)>平均值選C（2）下面的散點(diǎn)圖顯示哪種屬性相關(guān)性？A不相關(guān)；B正相關(guān)；C負(fù)相關(guān)；D先正相關(guān)然后負(fù)相關(guān)；選C三、簡答題（1）什么是基于像素的可視化技術(shù)？它有什么缺點(diǎn)？答：對于一個M維數(shù)據(jù)集，基于像素的可視化技術(shù)在屏幕上創(chuàng)建m個窗口，每維一個。記錄的m個維值映射到這些窗口對應(yīng)位置上的m個像素。像素的顏色反映對應(yīng)的值?；谙袼氐目梢暬夹g(shù)的缺點(diǎn)；難以呈現(xiàn)對維空間的數(shù)據(jù)分布，

5、不顯示數(shù)據(jù)子空間是否存在稠密區(qū)域。（2）對稱的和不對稱的二元屬性有什么區(qū)別？答：對稱的二元屬性指變量的兩個狀態(tài)具有同等價值或相同權(quán)重；而對不對稱的二元屬性中，變量的兩個狀態(tài)的重要性是不同的，對稱的二元屬性可以使用簡單匹配系數(shù)蘋果它們的相異度；不對稱的二元屬性使用jaccard系數(shù)評估它們的相異度。第三章數(shù)據(jù)預(yù)處理一、填空題（1）進(jìn)行數(shù)據(jù)預(yù)處理時所使用的主要方法包括：數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約（2）數(shù)據(jù)概化是指：沿概念分層向上概化（3）數(shù)據(jù)壓縮可分為：有損壓縮和無損壓縮兩種類型。（4）進(jìn)行數(shù)值歸約時，三種常用的有參方法是：線性回歸方法、多元回歸

6、和對數(shù)線性模型二、簡答題（1）常用的數(shù)值屬性概念分層的方法有哪些？答：分箱、直方圖分析，聚類分析，基于熵的離散化和通過自然劃分分段。（2）請描述主成份分析（PCA）算法步驟答：1.規(guī)范化輸入的數(shù)據(jù)：所有屬性落在相同的區(qū)間內(nèi)；2，計(jì)算k個標(biāo)準(zhǔn)正交向量，即主成分；3，每個數(shù)據(jù)數(shù)據(jù)的向量都是這k主成分向量的線性組合；4，主成分按照重要程度降序排序。（3）在現(xiàn)實(shí)世界的數(shù)據(jù)中，元組在某些屬性上缺少值是常有的。描述處理該問題的各種方法。答：1，忽略元組。當(dāng)類標(biāo)號缺少是通常這么做，當(dāng)每個屬性缺省值的百分比變化很大時，他的效果非常差。2，人工填寫空缺值。這種方法工作量大，可行性低。3，使用一個全局變

7、量填充空缺值。4，使用屬性的平均值填充空缺值。5，使用與給定元組屬同一類的所有樣本的平均值。6，使用最可能的值填充空缺值。（4）常見的數(shù)據(jù)歸約策略包括哪些？答1，數(shù)據(jù)立方聚集，2，維歸約；3，數(shù)據(jù)壓縮；4，數(shù)據(jù)歸約；5，離散化和概念分層產(chǎn)生；第六七章挖掘頻繁模式、關(guān)聯(lián)和相關(guān)一、填空題（1）關(guān)聯(lián)規(guī)則挖掘中，兩個主要的興趣度度量是：支持度和置信度（2）Aprior算法包括連接和剪枝兩個基本步驟（3）項(xiàng)集的頻率是指包含項(xiàng)集的事務(wù)數(shù) （4）大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘包含兩個過程：找出所有頻繁項(xiàng)集和由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則（5）根據(jù)規(guī)則中所處理的值類型，關(guān)聯(lián)規(guī)則可分為：布爾

8、關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則（6）Apriori性質(zhì)是指：頻繁項(xiàng)集的所有非空子集也必須是頻繁的（7）在多維關(guān)聯(lián)規(guī)則挖掘中，我們搜索的不是頻繁項(xiàng)集，而是頻繁謂詞集二、簡答題（1）簡述在多層關(guān)聯(lián)規(guī)則挖掘中，在不同的層使用一致的支持度的優(yōu)缺點(diǎn)。答：優(yōu)點(diǎn)：搜索是容易采用優(yōu)化策略，即一個項(xiàng)如果不滿足最小支持度，它的所有子項(xiàng)都可以不用搜索。缺點(diǎn)：最小支持度設(shè)置困難，太高則將丟掉出現(xiàn)在較低抽象層中有意義的關(guān)聯(lián)規(guī)則；太低則會在較高層產(chǎn)生太多的無興趣的規(guī)則。（2）如何提高Apriori算法的有效性？有哪些常見方法？答：可以使用一下幾個思路來提升Apriori算法：減少對數(shù)據(jù)的掃描次數(shù)；縮小產(chǎn)生的候選項(xiàng)

9、集；改進(jìn)對候選項(xiàng)集的支持度計(jì)算方法。常見方法包括：1，基于hash表的項(xiàng)集計(jì)數(shù)；2，事務(wù)壓縮；3，劃分；4，選樣；5，動態(tài)項(xiàng)集計(jì)數(shù)。第八章分類一、填空題（1）數(shù)據(jù)分類模型的常用表示形式包括分類規(guī)則、決策樹和數(shù)學(xué)公式等。（2）樸素貝葉斯分類是基于類條件獨(dú)立假設(shè)。二、簡答題（1）在判定樹歸納中，為什么樹剪枝是有用的？答：決策樹建立時，血多分析反映的是訓(xùn)練數(shù)據(jù)中的噪聲和離群點(diǎn)點(diǎn)，樹剪枝可以識別并剪去這種分枝，以提高對未知數(shù)據(jù)分類的準(zhǔn)確性。（2）為什么樸素貝葉斯分類稱為“樸素”的？簡述樸素貝葉斯分類優(yōu)缺點(diǎn)。答：基于貝葉斯定理的推斷需要大量訓(xùn)練數(shù)據(jù)以覆蓋類條件概率空間，引入了很大開銷。樸

10、素貝葉斯分類做了類條件獨(dú)立假設(shè)，大幅降低了計(jì)算開銷。他的優(yōu)點(diǎn)是容易實(shí)現(xiàn)并在大多數(shù)情況下可以取得較好的結(jié)果；他的缺陷是類條件獨(dú)立在實(shí)際應(yīng)用缺乏準(zhǔn)確性，因?yàn)樽兞恐g經(jīng)常存在依賴關(guān)系，這種依賴關(guān)系影響了樸素貝葉斯分類器的準(zhǔn)確性。（3）分類方法的常用評估度量都有哪些？答：精度（precision）：標(biāo)記為正類的元組實(shí)際為正類所占的百分比。召回率：正元組標(biāo)記為正的百分比。F量度：精度和召回率的調(diào)和評估指標(biāo)。準(zhǔn)確率，識別率：測試數(shù)據(jù)中正被正確分類的元組所占的百分比。5，靈敏度：真正例（識別）率。6，特效性：真負(fù)例率。（4）簡述數(shù)據(jù)分類的兩步過程。答：第一步，建立模型：建立描述預(yù)先定義的數(shù)據(jù)類或概念集的

11、分類器；第二步，在獨(dú)立測試集上評估模型的預(yù)測準(zhǔn)確率，通過測試后再使用模型，對新的數(shù)據(jù)進(jìn)行分類。三、算法題（1）使用判定樹歸納算法，根據(jù)顧客年齡age（分為3個年齡段：<18，18.23，>23），收入income（取值為high，medium，low），是否為student（取值為yes和no），信用credit_rating等級（取值為fair和excellent）來判定用戶是否會購買PC Game，即構(gòu)建判定樹buys_PCGame，假設(shè)現(xiàn)有的數(shù)據(jù)經(jīng)過第一次劃分之后得到如下圖所示結(jié)果，并根據(jù)該結(jié)果對每一個劃分中的各個屬性計(jì)算信息增益對age<18的顧客：Gain(inco

12、me)=0.022，Gain(student)=0.162，Gain(credit_rating)=0.323對age>23的顧客：Gain(income)=0.042，Gain(student)=0.462，Gain(credit_rating)=0.155請根據(jù)以上結(jié)果繪制出判定樹buys_PCGame，來判定用戶是否會購買PC Game。age <18 1823 >23incomestudentcredit_ratingclassIncomestudentcredit_ratingclasshighnofairnohighnofairnomediumyesfairnoh

13、ighyesexcellentyeshighnofairnomediumyesfairyesmediumyesexcellentyeslowyesfairyeslownoexcellentyeslownoexcellentnoincomestudentcredit_ratingclasshighnofairyesmediumyesfairyeshighnofairyesmediumyesexcellentyes答：Age？Credit ratingyesStudent?yesnoyesnoExcellent fairyesno第十章聚類分析一、填空題（1）在數(shù)據(jù)挖掘中，常用的聚類算法包括：

14、劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。（2）聚類分析常作為一個獨(dú)立的工具來獲得數(shù)據(jù)分布的情況（3）一個好的聚類分析方法會產(chǎn)生高質(zhì)量的聚類，具有兩個特征：高類內(nèi)相似度和低類間相似度（4）許多基于內(nèi)存的聚類算法所常用的兩種數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)矩陣和相似度矩陣（5）基于網(wǎng)格的聚類方法的優(yōu)點(diǎn)是：處理速度快二、簡答題（1）簡述基于劃分的聚類方法。劃分的準(zhǔn)則是什么？答：基于劃分的聚類方法：給頂一個n個對象或元組的數(shù)據(jù)庫，一個劃分方法構(gòu)建數(shù)據(jù)的k個劃分，每個劃分表示一個簇，丙炔k=n。劃分方法要求每個組至少包含一個對象并且每個對象屬于且僅數(shù)以一個組

15、。聚類目標(biāo)可以是最優(yōu)化某種量度，比如最小化數(shù)據(jù)點(diǎn)與類中心的距離平方和等。劃分準(zhǔn)則是同一個聚類中的對象盡可能的接近或相關(guān)，不同聚類中的對象盡可能的遠(yuǎn)離或不同。（2）列舉離群點(diǎn)挖掘的常見應(yīng)用。答：1，欺詐檢測；2，網(wǎng)絡(luò)入侵；3，故障診斷；4，可疑金融交易監(jiān)控；第四章數(shù)據(jù)倉庫和OLAP技術(shù)一、填空題（1）數(shù)據(jù)倉庫的多維數(shù)據(jù)模型可以有三種不同的形式，分別是：星形模式、雪花模式和事實(shí)星座模式（2）給定基本方體，方體的物化有三種選擇：不物化、部分物化和全物化（3）著名的數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì)師W. H. Inmon認(rèn)為，數(shù)據(jù)倉庫與其他數(shù)據(jù)存儲系統(tǒng)的區(qū)別的四個特征是：面向主題、

16、數(shù)據(jù)集成、隨時間而變化和數(shù)據(jù)不易丟失（4）在數(shù)據(jù)訪問模式上，數(shù)據(jù)倉庫以事務(wù)操作為主，而日常應(yīng)用數(shù)據(jù)庫則以只讀查詢為主。（5）數(shù)據(jù)立方體度量可以根據(jù)其所使用的聚集函數(shù)分為三類，分別是：分布的、代數(shù)的和整體的（6）關(guān)于數(shù)據(jù)倉庫的設(shè)計(jì)，四種不同的視圖必須考慮，分別是：自上向下視圖、數(shù)據(jù)源視圖、數(shù)據(jù)倉庫視圖、商務(wù)查詢視圖（7）OLAP服務(wù)器的類型主要包括：關(guān)系OLAP服務(wù)器、多維OLAP服務(wù)器和混合OLAP服務(wù)器（8）求和函數(shù)sum()是一個分布的函數(shù)。（9）方體計(jì)算的主要挑戰(zhàn)是海量數(shù)據(jù) 和有限的內(nèi)存和時間之間的矛盾。二、簡答題（1）

17、為什么在進(jìn)行聯(lián)機(jī)分析處理(OLAP)時，我們需要一個獨(dú)立的數(shù)據(jù)倉庫，而不是直接在日常操作的數(shù)據(jù)庫上進(jìn)行。答：使用一個獨(dú)立的數(shù)據(jù)倉庫進(jìn)行OLAP處理為了以下的目的：1提高兩個系統(tǒng)的性能：操作數(shù)據(jù)庫是為了OLTP而設(shè)計(jì)的，沒有為OLAP操作優(yōu)化，同時在錯啊做數(shù)據(jù)庫上處理OLAP查詢，會打打降低操作任務(wù)的性能；而數(shù)據(jù)倉庫是為了OLAP而設(shè)計(jì)，為復(fù)雜的OLAP查詢，多維視圖，匯總等OLAP功能提供了優(yōu)化。2，兩者有著不同的功能：操作數(shù)據(jù)庫支持多事務(wù)的并行處理，而數(shù)據(jù)倉庫往往只是對數(shù)據(jù)記錄進(jìn)行只讀訪問，這是如果將事務(wù)處理的并行機(jī)制和回復(fù)機(jī)制用于這種OLAP操作，就會顯著降低OLAP的性能。3，兩者有著

18、不同的數(shù)據(jù)：數(shù)據(jù)倉庫中存放歷史數(shù)據(jù)；日常操作數(shù)據(jù)庫中存放的往往只是最新的數(shù)據(jù)。（2）為什么說數(shù)據(jù)倉庫具有隨時間而變化的特征？答：1，數(shù)據(jù)倉庫的時間范圍比操作數(shù)據(jù)庫系統(tǒng)要長的多。操作數(shù)據(jù)庫系統(tǒng)主要保存當(dāng)前數(shù)據(jù)，而數(shù)據(jù)倉庫從歷史的角度提供信息。2，數(shù)據(jù)倉庫中的每一個關(guān)鍵結(jié)構(gòu)都隱式或顯式的包含時間元素，而操作數(shù)據(jù)庫中的關(guān)鍵結(jié)構(gòu)可能就不包含時間元素。（2）試述對于多個異種信息源的集成，為什么許多公司寧愿使用更新驅(qū)動的方法（update-driven），而不愿使用查詢驅(qū)動（query-driven）的方法？答：因?yàn)閷τ诙鄠€異種信息源的集成慢查詢驅(qū)動方法需要負(fù)責(zé)的信息過濾盒集成處理，并且與局部數(shù)據(jù)源上的處理競爭資源，是一種低效的方法，并且對于頻繁的查詢，特別是需要聚集操作的查詢，開銷很大，而更新驅(qū)動方法為集成的異種數(shù)據(jù)庫系統(tǒng)帶來了高性能，因?yàn)閿?shù)據(jù)被處理和重新組織到一個語義一致的數(shù)據(jù)存儲中，進(jìn)行查詢的同時并不影響局部數(shù)據(jù)源上進(jìn)行的處理。此外，數(shù)據(jù)倉庫存儲并集成歷史信息，支持復(fù)雜的多維查詢。（3）請簡述幾種典型的多維數(shù)據(jù)的OLAP操作答：上卷：通過一個維的概念分層向上攀升或者通過位規(guī)約，在數(shù)

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘離線作業(yè)

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘離線作業(yè)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔