數(shù)據(jù)挖掘原理與實踐蔣盛益答案

上傳人：v*** IP屬地：湖北上傳時間：2022-03-07 格式：DOC 頁數(shù)：33 大?。?7.29KB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩28頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、習(xí)題參考答案第 1 章緒論1.1 數(shù)據(jù)挖掘處理的對象有哪些？請從實際生活中舉出至少三種。答：數(shù)據(jù)挖掘處理的對象是某一專業(yè)領(lǐng)域中積累的數(shù)據(jù)，對象既可以來自社會科學(xué),又可以來自自然科學(xué)產(chǎn)生的數(shù)據(jù),還可以是衛(wèi)星觀測得到的數(shù)據(jù)。數(shù)據(jù)形式和結(jié)構(gòu)也各不相同,可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫,可以是面向?qū)ο蟮母呒墧?shù)據(jù)庫系統(tǒng),也可以是面向特殊應(yīng)用的數(shù)據(jù)庫,如空間數(shù)據(jù)庫、時序數(shù)據(jù)庫、文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫等,還可以是 Web 數(shù)據(jù)信息。實際生活的例子：電信行業(yè)中利用數(shù)據(jù)挖掘技術(shù)進行客戶行為分析，包含客戶通話記錄、通話時間、所開通的服務(wù)等，據(jù)此進行客戶群體劃分以及客戶流失性分析。天文領(lǐng)域中利用決策樹等數(shù)據(jù)挖掘方法對上百萬

2、天體數(shù)據(jù)進行分類與分析，幫助天文學(xué)家發(fā)現(xiàn)其他未知星體。制造業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進行零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。市場業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進行市場定位、消費者分析、輔助制定市場營銷策略等。1.2 給出一個例子，說明數(shù)據(jù)挖掘?qū)ι虅?wù)的成功是至關(guān)重要的。該商務(wù)需要什么樣的數(shù)據(jù)挖掘功能？它們能夠由數(shù)據(jù)查詢處理或簡單的統(tǒng)計分析來實現(xiàn)嗎？答：例如，數(shù)據(jù)挖掘在電子商務(wù)中的客戶關(guān)系管理起到了非常重要的作用。隨著各個電子商務(wù)網(wǎng)站的建立，企業(yè)紛紛地從“產(chǎn)品導(dǎo)向”轉(zhuǎn)向“客戶導(dǎo)向”，如何在保持現(xiàn)有的客戶同時吸引更多的客戶、如何在客戶群中發(fā)現(xiàn)潛在價值，一直都是電子商務(wù)企業(yè)重要任務(wù)。但是，傳統(tǒng)的數(shù)據(jù)分析處理，如

3、數(shù)據(jù)查詢處理或簡單的統(tǒng)計分析，只能在數(shù)據(jù)庫中進行一些簡單的數(shù)據(jù)查詢和更新以及一些簡單的數(shù)據(jù)計算操作，卻無法從現(xiàn)有的大量數(shù)據(jù)中挖掘潛在的價值。而數(shù)據(jù)挖掘技術(shù)卻能使用如聚類、關(guān)聯(lián)分析、決策樹和神經(jīng)網(wǎng)絡(luò)等多種方法，對數(shù)據(jù)庫中龐大的數(shù)據(jù)進行挖掘分析，然后可以進行客戶細分而提供個性化服務(wù)、可以利用挖掘到的歷史流失客戶的特征來防止客戶流失、可以進行產(chǎn)品捆綁推薦等，從而使電子商務(wù)更好地進行客戶關(guān)系管理，提高客戶的忠誠度和滿意度。1.3 假定你是 Big-University 的軟件工程師，任務(wù)是設(shè)計一個數(shù)據(jù)挖掘系統(tǒng)，分析學(xué)校課程數(shù)據(jù)庫。該數(shù)據(jù)庫包括如下信息：每個學(xué)生的姓名、地址和狀態(tài)(例如，本科生或研究生)

4、、所修課程，以及他們的 GPA。描述你要選取的結(jié)構(gòu)，該結(jié)構(gòu)的每個成分的作用是什么？答：任務(wù)目的是分析課程數(shù)據(jù)庫，那么首先需要有包含信息的關(guān)系型數(shù)據(jù)庫系統(tǒng)，以便查找、提取每個屬性的值；在取得數(shù)據(jù)后，需要有特征選擇模塊，通過特征選擇，找出要分析的屬性；接下來需要一個數(shù)據(jù)挖掘算法，或者數(shù)據(jù)挖掘軟件，它應(yīng)該包含像分類、聚類、關(guān)聯(lián)分析這樣的分析模塊，對選擇出來的特征值進行分析處理；在得到結(jié)果后，可以用可視化軟件進行顯示。1.4 假定你作為一個數(shù)據(jù)挖掘顧問，受雇于一家因特網(wǎng)搜索引擎公司。通過特定的例子說明，數(shù)據(jù)挖掘可以為公司提供哪些幫助，如何使用聚類、分類、關(guān)聯(lián)規(guī)則挖掘和離群點檢測等技術(shù)為企業(yè)服務(wù)。答：(

5、1) 使用聚類發(fā)現(xiàn)互聯(lián)網(wǎng)中的不同群體，用于網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)；第 2 頁共 27 頁(2) 使用分類對客戶進行等級劃分，從而實施不同的服務(wù)；(3) 使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)大型數(shù)據(jù)集中間存在的關(guān)系，用于推薦搜索。如大部分搜索了“廣外”的人都會繼續(xù)搜索“信息學(xué)院”，那么在搜索“廣外”后會提示是否進進一步搜索“信息學(xué)院”。(4) 使用離群點挖掘發(fā)現(xiàn)與大部分對象不同的對象，用于分析針對網(wǎng)絡(luò)的秘密收集信息的攻擊。1.5 定義下列數(shù)據(jù)挖掘功能：關(guān)聯(lián)、分類、聚類、演變分析、離群點檢測。使用你熟悉的生活中的數(shù)據(jù)，給出每種數(shù)據(jù)挖掘功能的例子。答：關(guān)聯(lián)是指發(fā)現(xiàn)樣本間或樣本不同屬性間的關(guān)聯(lián)。例如，一個數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)

6、聯(lián)規(guī)則為：maj or(X, “comput i ng sci ence”)owns(X, “personal comput er”) support =12%, conf i dence=98% 其中，X是一個表示學(xué)生的變量。該規(guī)則指出主修計算機科學(xué)并且擁有一臺個人計算機的學(xué)生所占比例為 12%，同時，主修計算機專業(yè)的學(xué)生有 98%擁有個人計算機。分類是構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型(或功能)，分類被用作預(yù)測目標(biāo)數(shù)據(jù)的類的標(biāo)簽。例如，通過對過去銀行客戶流失與未流失客戶數(shù)據(jù)的分析，得到一個預(yù)測模型，預(yù)測新客戶是否可能會流失。聚類是將數(shù)據(jù)劃分為相似對象組的過程，使得同一組中對象相似度

7、最大而不同組中對象相似度最小。例如，通過對某大型超市客戶購物數(shù)據(jù)進行聚類，將客戶聚類細分為低值客戶、高值客戶以及普通客戶等。數(shù)據(jù)演變分析描述和模型化隨時間變化的對象的規(guī)律或趨勢，盡管這可能包括時間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測，這種分析的明確特征包括時間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析。離群點檢測就是發(fā)現(xiàn)與眾不同的數(shù)據(jù)。可用于發(fā)現(xiàn)金融領(lǐng)域的欺詐檢測。1.6 根據(jù)你的觀察，描述一個可能的知識類型，它需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn)，但本章未列出。它需要一種不同于本章列舉的數(shù)據(jù)挖掘技術(shù)嗎？答：建立一個局部的周期性作為一種新的知識類型，只要經(jīng)過一段時間的偏移量在

8、時間序列中重復(fù)發(fā)生，那么在這個知識類型中的模式是局部周期性的。需要一種新的數(shù)據(jù)挖掘技術(shù)解決這類問題。1.7 討論下列每項活動是否是數(shù)據(jù)挖掘任務(wù)：(1)根據(jù)性別劃分公司的顧客。(2)根據(jù)可贏利性劃分公司的顧客。(3)計算公司的總銷售額。(4)按學(xué)生的標(biāo)識號對學(xué)生數(shù)據(jù)庫排序。(5)預(yù)測擲一對骰子的結(jié)果。(6)使用歷史記錄預(yù)測某公司未來的股票價格。(7)監(jiān)視病人心率的異常變化。(8)監(jiān)視地震活動的地震波。(9)提取聲波的頻率。答： (1) 不是，這屬于簡單的數(shù)據(jù)庫查詢。(2) 不是，這個簡單的會計計算；但是新客戶的利潤預(yù)測則屬于數(shù)據(jù)挖掘任務(wù)。(3) 不是，還是簡單的會計計算。第 3 頁共 27 頁

9、(4) 不是，這是簡單的數(shù)據(jù)庫查詢。(5) 不是，由于每一面都是同等概率，則屬于概率計算；如概率是不同等的，根據(jù)歷史數(shù)據(jù)預(yù)測結(jié)果則更類似于數(shù)據(jù)挖掘任務(wù)。(6) 是，需要建立模型來預(yù)測股票價格，屬于數(shù)據(jù)挖掘領(lǐng)域中的預(yù)測模型?？梢允褂没貧w來建模，或使用時間序列分析。(7) 是，需要建立正常心率行為模型，并預(yù)警非正常心率行為。這屬于數(shù)據(jù)挖掘領(lǐng)域的異常檢測。若有正常和非正常心率行為樣本，則可以看作一個分類問題。(8) 是，需要建立與地震活動相關(guān)的不同波形的模型，并預(yù)警波形活動。屬于數(shù)據(jù)挖掘領(lǐng)域的分類。(9) 不是，屬于信號處理。第 2 章數(shù)據(jù)處理基礎(chǔ)2.1 將下列屬性分類成二元的、分類的或連續(xù)的，并將

10、它們分類成定性的(標(biāo)稱的或序數(shù)的)或定量的(區(qū)間的或比率的)。例子：年齡。回答：分類的、定量的、比率的。(a)用 AM 和 PM 表示的時間。(b)根據(jù)曝光表測出的亮度。(c)根據(jù)人的判斷測出的亮度。(d)醫(yī)院中的病人數(shù)。(e)書的 ISBN 號。(f)用每立方厘米表示的物質(zhì)密度。答：(a)二元，定量，比率；(b)連續(xù)，定量，比率；(c)分類，定性，標(biāo)稱；(d)連續(xù)，定量，比率；(e)分類，定性，標(biāo)稱；(f)連續(xù)，定量，比率。2.2 你能想象一種情況，標(biāo)識號對于預(yù)測是有用的嗎？答：學(xué)生的 I D號可以預(yù)測該學(xué)生的畢業(yè)日期。2.3 在現(xiàn)實世界的數(shù)據(jù)中，元組在某些屬性上缺失值是常有的。請描述處理

11、該問題的各種方法。答：處理遺漏值問題的策略有如下幾種。(1) 刪除數(shù)據(jù)對象或?qū)傩浴Ｒ环N簡單而有效的策略是刪除具有遺漏值的數(shù)據(jù)對象。然而，即使部分給定的數(shù)據(jù)對象也包含一些信息，并且，如果許多對象都有遺漏值，則很難甚至不可能進行可靠的分析。盡管如此，如果一個數(shù)據(jù)集只有少量的對象具有遺漏值，則忽略他們可能是合算的。一種相關(guān)的策略是刪除具有遺漏值的屬性。然而，做這件事要小心，因為被刪除的屬性可能對分析是至關(guān)重要的。(2) 估計遺漏值。有時，遺漏值可以可靠地估計。例如，在考慮以較平滑的方式變化的具有少量但大大分散的遺漏值的時間序列，遺漏值可以使用其他值來估計(插值)。作為另一個例子，考慮一個具有許多相似

12、數(shù)據(jù)點的數(shù)據(jù)集。在這種情況下，與具有遺漏值的點鄰近的點的屬性值常?？梢杂脕砉烙嬤z漏的值。如果屬性是連續(xù)的，則可以使用最近鄰的平均屬性值；如果屬性是分類的，則可以取最近鄰中最常出現(xiàn)的第 4 頁共 27 頁屬性值。(3) 在分析時忽略遺漏值。許多數(shù)據(jù)挖掘方法都可以修改，忽略遺漏值。例如。假定正在對數(shù)據(jù)對象聚類，需要計算數(shù)據(jù)對象間的相似性；如果對于某屬性，兩個對象之一或兩個對象都有遺漏值，則可以僅使用沒有遺漏值的屬性來計算相似性。當(dāng)然，這種相似性只是緊鄰的，但是除非整個屬性數(shù)目很少，或者遺漏值的數(shù)量很大，否則這種誤差影響不大。同樣的，許多分類方法都可以修改，處理遺漏值。2.4 以下規(guī)范方法的值域是

13、什么？(a) min-max 規(guī)范化。(b) z-score 規(guī)范化。(c) 小數(shù)定標(biāo)規(guī)范化。答：(a) new_mi n, new_max ；(b)(-, + )；(c)(-1. 0，1. 0)。2.5 假定用于分析的數(shù)據(jù)包含屬性 age，數(shù)據(jù)元組中 age 的值如下(按遞增序)：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。(a) 使用按箱平均值平滑對以上數(shù)據(jù)進行平滑，箱的深度為 3。解釋你的步驟。評論對于給定的數(shù)據(jù)，該技術(shù)的效果。(b) 對于數(shù)據(jù)平滑，還有哪些其它方法

14、？答：(a)已知數(shù)據(jù)元組中 age 的值如下(按遞增序)：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70，且箱的深度為 3，劃分為(等頻)箱：箱 1：13,15,16箱 2：16,19,20箱 3：20,21,22箱 4：22,25,25箱 5：25,25,30箱 6：33,33,33箱 7：35,35,35箱 8：35,36,40箱 9：45,46,52箱 10：70用箱均值光滑：箱 1：15,15,15箱 2：18,18,18箱 3：21,21,21箱 4：24,24,2

15、4箱 5：27,27,37箱 6：33,33,33箱 7：35,35,35箱 8：37,37,37箱 9：48,48,48箱 10：70；第 5 頁共 27 頁(b)對于數(shù)據(jù)平滑，其它方法有：(1)回歸：可以用一個函數(shù)(如回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù)；(2)聚類：可以通過聚類檢測離群點，將類似的值組織成群或簇。直觀地，落在簇集合之外的值視為離群點。2.6 使用習(xí)題 2.5 給出的 age 數(shù)據(jù)，回答以下問題：(a) 使用 min-max 規(guī)范化，將 age 值 35 轉(zhuǎn)換到0.0，1.0區(qū)間。(b) 使用 z-score 規(guī)范化轉(zhuǎn)換 age 值 35，其中，age 的標(biāo)準(zhǔn)偏差為 12.94

16、年。(c) 使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換 age 值 35。(d) 指出對于給定的數(shù)據(jù)，你愿意使用哪種方法。陳述你的理由。答：(a)已知最大值為 70，最小值為 13，則可將 35 規(guī)范化為： 386. 013 - 7013 - 35= ；(b)已知均值為 30，標(biāo)準(zhǔn)差為 12.94，則可將 35 規(guī)范化為： 386 . 04 .9 1230 - 35= ；(c)使用小數(shù)定標(biāo)規(guī)范化可將 35 規(guī)范化為： 35 . 010035= ；(d)對于給定的數(shù)據(jù)，你愿意使用 min-max 規(guī)范化。理由是計算簡單。2.7 使用習(xí)題 2.5 給出的 age 數(shù)據(jù)(a) 畫一個寬度為 10 的等寬的直方圖。(b)

17、為以下每種抽樣技術(shù)勾畫例子：有放回簡單隨機抽樣，無放回簡單隨機抽樣，聚類抽樣，分層抽樣。使用大小為 5 的樣本和層“青年”,“中年”和“老年”。答：(a)如下為寬度為 10 的等寬的直方圖：(b)已知樣本大小為 5 和層“青年”，“中年”和“老年”，(1)有放回簡單隨機抽樣：30,33,30,25,30(2)無放回簡單隨機抽樣：30,33,33,35,25(3)聚類抽樣：16,25,33,35,46(4)分層抽樣：25,35,522.8 以下是一個商場所銷售商品的價格清單(按遞增順序排列，括號中的數(shù)表示前面數(shù)字出現(xiàn)次數(shù))1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、

18、18(8)、20(7)、21(4)、25(5)、28、30(3)。請分別用等寬的方法和等高的方法對上面的數(shù)據(jù)集進行劃分。答：(1)等寬方法：劃分為 3個數(shù)據(jù)集，每個數(shù)據(jù)集的寬度為價格 10。價格在 110之間出現(xiàn)次數(shù)為 13；價格在 1120之間出現(xiàn)的次數(shù)為 24；價格在 2130之間出現(xiàn)的次數(shù)為 13。(2)等高方法：劃分為 2 個數(shù)據(jù)集，每個數(shù)據(jù)集的高度為出現(xiàn)的次數(shù) 4。出現(xiàn)次數(shù) 14第 6 頁共 27 頁之間的價格為 1、8、10、12、14、21、28、30，共 8 個數(shù)據(jù)；出現(xiàn)次數(shù) 58 之間的價格為 5、15、18、20、25，共 5個數(shù)據(jù)。2.9 討論數(shù)據(jù)聚合需要考慮的問題。答

19、：數(shù)據(jù)聚合需要考慮的問題有：(1)模式識別：這主要是實體識別問題；(2)冗余：一個屬性是冗余的，即它能由另一個表導(dǎo)出，如果屬性或維的命名不一致，也可能導(dǎo)致冗余，可以用相關(guān)分析來檢測；(3)數(shù)據(jù)值沖突的檢測與處理：有些屬性因表示比例或編碼不同，會導(dǎo)致屬性不同。2.10 假定我們對一個比率屬性 x 使用平方根變換，得到一個新屬性 x*。作為分析的一部分，你識別出區(qū)間(a, b)，在該區(qū)間內(nèi)，x*與另一個屬性 y 具有線性關(guān)系。(a)換算成 x, (a, b)的對應(yīng)區(qū)間是什么？(b)給出 y 關(guān)聯(lián) x 的方程。答：(a)(a2，b2)；(b)Y=kx0.5 +C (k, C 是常數(shù))。2.11 討論

20、使用抽樣減少需要顯示的數(shù)據(jù)對象個數(shù)的優(yōu)缺點。簡單隨機抽樣(無放回)是一種好的抽樣方法嗎？為什么是，為什么不是？答：抽樣減少需要顯示的數(shù)據(jù)對象個數(shù)的優(yōu)點是減少處理數(shù)據(jù)的費用和時間。缺點是不能利用總體的已知信息和代表總體數(shù)據(jù)的信息。簡單隨機抽樣(無放回)不是一種好的抽樣方法，不能充分地代表不太頻繁出現(xiàn)的對象類型和每個對象被選中的概率不一樣。2.12 給定 m 個對象的集合，這些對象劃分成 K 組，其中第 i 組的大小為 m i 。如果目標(biāo)是得到容量為 n<m 的樣本，下面兩種抽樣方案有什么區(qū)別？(假定使用有放回抽樣)(a)從每組隨機地選擇 n×m i /m 個元素。(b)從數(shù)據(jù)集中

21、隨機地選擇 n 個元素，而不管對象屬于哪個組。答：(a)組保證了可以在每個組里面得到等比例的樣本，而(b)組在每個組里面抽取的樣本的個數(shù)是隨機的，不能保證每個組都能抽到樣本。2. 13 一個地方公司的銷售主管與你聯(lián)系，他相信他已經(jīng)設(shè)計出了一種評估顧客滿意度的方法。他這樣解釋他的方案：“這太簡單了，我簡直不敢相信，以前竟然沒有人想到，我只是記錄顧客對每種產(chǎn)品的抱怨次數(shù)，我在數(shù)據(jù)挖掘的書中讀到計數(shù)具有比率屬性，因此，我的產(chǎn)品滿意度度量必定具有比率屬性。但是，當(dāng)我根據(jù)我的顧客滿意度度量評估產(chǎn)品并拿給老板看時，他說我忽略了顯而易見的東西，說我的度量毫無價值。我想，他簡直是瘋了，因為我們的暢銷產(chǎn)品滿意度

22、最差，因為對它的抱怨最多。你能幫助我擺平他嗎？”(a)誰是對的，銷售主管還是他的老板？如果你的答案是他的老板，你做些什么來修正滿意度度量？(b)對于原來的產(chǎn)品滿意度度量的屬性類型，你能說些什么？答: (a) 老板是對的。更好的衡量方法應(yīng)該如下：不滿意率(產(chǎn)品)=每種產(chǎn)品的抱怨次數(shù)/ 該產(chǎn)品的總銷售量(b) 原來衡量方法的屬性類型是沒有意義的。例如，兩件商品有相同的顧客滿意度可能會有不同的抱怨次數(shù)，反之亦然。第 7 頁共 27 頁2.14 考慮一個文檔-詞矩陣，其中ijtf 是第 i 個詞(術(shù)語)出現(xiàn)在第 j 個文檔中的頻率，而 m 是文檔數(shù)?？紤]由下式定義的變量變換：iij ijdfmtf

23、tf log' =其中，idf 是出現(xiàn) i 個詞的文檔數(shù)，稱作詞的文檔頻率(document frequency)。該變換稱作逆文檔頻率變換(inverse document frequency)。(a)如果出現(xiàn)在一個文檔中，該變換的結(jié)果是什么？如果術(shù)語出現(xiàn)在每個文檔中呢？(b)該變換的目的可能是什么？答： (a) 如果該詞出現(xiàn)在每一個文檔中，它的詞權(quán)就會為 0，但是如果這個詞僅僅出現(xiàn)在一個文檔中，它就有最大的詞權(quán)，例如，log m 。(b) 這個變換反映了以下一個現(xiàn)象：當(dāng)一個詞出現(xiàn)在每一個文檔中，對于文檔與文檔之間，該詞沒有區(qū)分能力，但是那些只是某一兩篇文檔出現(xiàn)的詞，其區(qū)分文檔的能力

24、就較強。2.15 對于下面的向量 x 和 y，計算指定的相似性或距離度量。(a)x=(1，1，1，1)，y=(2，2，2，2) 余弦相似度、相關(guān)系數(shù)、歐幾里得。(b) x=(0，1，0，1)，y=(1，0，1，0) 余弦相似度、相關(guān)系數(shù)、歐幾里得、Jaccard 系數(shù)。(c) x=(2，-1,0，2，0，-3)，y=(-1，1，-1，0，0，-1) 余弦相似度、相關(guān)系數(shù)。答：(a) 余弦相似度、相關(guān)系數(shù)、歐幾里得分別是 0.5，0，2；(b) 余弦相似度、相關(guān)系數(shù)、歐幾里得、Jaccard 系數(shù)分別是 0，1，2，0；(c) 余弦相似度、相關(guān)系數(shù)分別是 0，0。2.16 簡單地描述如何計算由以

25、下類型的變量描述的對象間的相異度：(a) 不對稱的二元變量(b) 分類變量(c) 比例標(biāo)度型(ratio-scaled)變量(d) 數(shù)值型變量答：(a) 使用 Jaccard 系數(shù)計算不對稱的二元變量的相異度；(b) 采用屬性值匹配的方法(屬性值匹配，相似度為 1，否則為 0)可以計算用分類變量描述的對象間的相異度；(c) 對比例標(biāo)度變量進行對數(shù)變換，對變換得到的值采用與處理區(qū)間標(biāo)度變量相同的方法來計算相異度；(d) 可采用歐幾里得距離公式或曼哈頓距離公式計算。2.17 給定兩個向量對象，分別表示為 p1(22，1，42，10)，p2(20，0，36，8)：(a) 計算兩個對象之間的歐幾里得距

26、離(b) 計算兩個對象之間的曼哈頓距離(c) 計算兩個對象之間的切比雪夫距離(d) 計算兩個對象之間的閔可夫斯基距離，用 x=3答：(a) 計算兩個對象之間的歐幾里得距離45 8 10 36 42 0 1 20 222 2 2 212= + + + = ) ( ) ( ) ( ) ( d第 8 頁共 27 頁(b) 計算兩個對象之間的曼哈頓距離11 8 10 36 42 0 1 20 2212= + + + = | | | | | | | | d(c) 計算兩個對象之間的閔可夫斯基距離，其中參數(shù) r=33 3 3 3 3 312233 8 10 36 42 0 1 20 22 = + + +

27、 = | | | | | | | | d2.18 以下表格包含了屬性 name，gender，trait-1，trait-2，trait-3，及 trait-4，這里的 name 是對象的 id，gender 是一個對稱的屬性，剩余的 trait 屬性是不對稱的，描述了希望找到的筆友的個人特點。假設(shè)有一個服務(wù)是試圖發(fā)現(xiàn)合適的筆友。name gender trait-1 trait-2 trait-3 trait-4Keavn M N P P NCaroline F N P P NErik M P N N P對不對稱的屬性的值，值 P 被設(shè)為 1，值 N 被設(shè)為 0。假設(shè)對象(潛在的筆友)間的距

28、離是基于不對稱變量來計算的。(a) 計算對象間的簡單匹配系數(shù)；(b) 計算對象間的 Jaccard 系數(shù)；(c) 你認為哪兩個人將成為最佳筆友？哪兩個會是最不能相容的？(d) 假設(shè)我們將對稱變量 gender 包含在我們的分析中?；?Jaccard 系數(shù)，誰將是最和諧的一對？為什么？答：(a) 計算對象間的簡單匹配系數(shù)SMC (Keavn, Caroline) = (2+2)/( 0+0+2+2) = 1SMC(Keavn, Erik) = (0+0)/( 2+2+0+0) = 0SMC(Caroline,Erik) = (0+0)/( 2+2+0+0) = 0(b) 計算對象間的 Jacc

29、ard 系數(shù)Jaccard (Keavn, Caroline) = 2/(2+0+0) = 1Jaccard (Keavn, Erik) = 0/(0+2+2) = 0Jaccard (Caroline,Erik) = 0/(0+2+2) = 0(c) 根據(jù)屬性的匹配程度，Keavn 和 Caroline 將成為最佳筆友，Caroline 和 Erik 會是最不能相容的。(d) 若將對稱變量 gender 包含在分析中，設(shè)值 M 被設(shè)為 1，值 F 被設(shè)為 0，Jaccard (Keavn, Caroline) = 2/(2+1+0) = 2/3Jaccard (Keavn, Erik) =

30、1/(1+2+2) = 1/5Jaccard (Caroline,Erik) = 0/(0+2+3) = 0因為 Jaccard (Keavn, Caroline)最大，因此，Keavn 和 Caroline 是最和諧的一對。2.19 給定一個在區(qū)間0，1取值的相似性度量，描述兩種將該相似度變換成區(qū)間0，中的相異度的方法。答：取倒數(shù)減一： 1) , (1) , ( =q p sq p d第 9 頁共 27 頁取對數(shù)： ) , ( log( ) , ( q p s q p d =第 3 章分類與回歸3.1 簡述決策樹分類的主要步驟。答：決策樹生成的過程如下：(1)對數(shù)據(jù)源進行數(shù)據(jù)預(yù)處理, 得到

31、訓(xùn)練集和測試集；(2)對訓(xùn)練集進行訓(xùn)練；(3)對初始決策樹進行樹剪枝；(4)由所得到的決策樹提取分類規(guī)則；(5)使用測試數(shù)據(jù)集進行預(yù)測，評估決策樹模型；3.2 給定決策樹，選項有：(1)將決策樹轉(zhuǎn)換成規(guī)則，然后對結(jié)果規(guī)則剪枝，或(2)對決策樹剪枝，然后將剪枝后的樹轉(zhuǎn)換成規(guī)則。相對于(2)，(1)的優(yōu)點是什么？答：相對于(2)，(1)的優(yōu)點是：由于第一種方法已經(jīng)將決策樹轉(zhuǎn)換成規(guī)則，通過規(guī)則，可以很快速的評估決策樹以及其子樹緊湊程度，不能提高規(guī)則的估計準(zhǔn)確率的任何條件都可以減掉，從而泛化規(guī)則；3.3 計算決策樹算法在最壞情況下的時間復(fù)雜度是重要的。給定數(shù)據(jù)集 D，具有 m 個屬性和|D|個訓(xùn)練記錄

32、，證明決策樹生長的計算時間最多為 ) log( D D m × × 。答：假設(shè)訓(xùn)練集擁有|D|實例以及 m 個屬性。我們需要對樹的尺寸做一個假設(shè)，假設(shè)樹的深度是由 log |D| 決定，即 O(log |D|)?？紤]一個屬性在樹的所有節(jié)點上所要做的工作量。當(dāng)然不必在每一個節(jié)點上考慮所有的實例。但在樹的每一層，必須考慮含有|D|個實例的整個數(shù)據(jù)集。由于樹有 log |D|個不同的層，處理一個屬性需要的工作量是) log(D D ×。在每個節(jié)點上所有屬性都要被考慮，因此總的工作量為) log(D D m × ×。3.4 考慮表 3-23所示二元分類

33、問題的數(shù)據(jù)集。表 3-23 習(xí)題 3. 4數(shù)據(jù)集A B 類標(biāo)號T F +T T +T T +T F -T T +F F -F F -F F -T T -T F -(1) 計算按照屬性 A 和 B 劃分時的信息增益。決策樹歸納算法將會選擇那個屬性？(2) 計算按照屬性 A 和 B 劃分時 Gini 系數(shù)。決策樹歸納算法將會選擇那個屬性？第 10 頁共 27 頁答：按照屬性 A 和 B 劃分時，數(shù)據(jù)集可分為如下兩種情況：A=T A=F+ 4 0- 3 3(1)劃分前樣本集的信息熵為 E=-0.4log 2 0.4-0.6log 2 0.6=0.9710按照屬性 A 劃分樣本集分別得到的兩個子集(

34、A 取值 T 和 A 取值 F)的信息熵分別為:0.985273log7374log74E2 2 T A= =030log3033log33E2 2 F A= =按照屬性 A 劃分樣本集得到的信息增益為： 2813 . 0103107= = = = F A T AE E E按照屬性 B 劃分樣本集分別得到的兩個子集(B 取值 T 和 B 取值 F)的信息熵分別為:0.811341log4143log43E2 2 T B= =0.650065log6561log61E2 2 F B= =按照屬性 B 劃分樣本集得到的信息增益為： 0.2565106104= = = = F B T BE E E因

35、此，決策樹歸納算法將會選擇屬性 A。(2)劃分前的 Gini 值為 G=1-0.4 2 -0.6 2 =0.48按照屬性 A 劃分時 Gini 指標(biāo):0.489873741 G2 2T A= =030331 G2 2F A= =Gini 增益 0.1371103107= = = = F A T AG G G按照屬性 B 劃分時 Gini 指標(biāo):0.375043411 G2 2T B= =0.2778656112 2= =F BGGini 增益 0.1633106104= = = = F B T BG G G因此，決策樹歸納算法將會選擇屬性 B。3.5 證明：將結(jié)點劃分為更小的后續(xù)結(jié)點之后，結(jié)點

36、熵不會增加。證明：根據(jù)定義可知，熵值越大，類分布越均勻；熵值越小，類分布越不平衡。假設(shè)原有的結(jié)點屬于各個類的概率都相等，熵值為 1，則分出來的后續(xù)結(jié)點在各個類上均勻分布，此時熵值為 1，即熵值不變。假設(shè)原有的結(jié)點屬于個各類的概率不等，因而分出來的B=T B=F+ 3 1- 1 5第 11 頁共 27 頁后續(xù)結(jié)點不均勻地分布在各個類上，則此時的分類比原有的分類更不均勻，故熵值減少。3.6 為什么樸素貝葉斯稱為“樸素”？簡述樸素貝葉斯分類的主要思想。答：樸素貝葉斯之所以稱之為樸素是因為，它假設(shè)屬性之間是相互獨立的。樸素貝葉斯分類的主要思想為：利用貝葉斯定理，計算未知樣本屬于某個類標(biāo)號值的概率，根

37、據(jù)概率值的大小來決定未知樣本的分類結(jié)果。(通過某對象的先驗概率，利用貝葉斯公式計算出其后驗概率，即該對象屬于某一類的概率，選擇具有最大后驗概率的類作為該對象所屬的類。)3.7 考慮表 3-24數(shù)據(jù)集，請完成以下問題：表 3-24 習(xí)題 3. 7數(shù)據(jù)集記錄號 A B C 類1 0 0 0 +2 0 0 1 -3 0 1 1 -4 0 1 1 -5 0 0 1 +6 1 0 1 +7 1 0 1 -8 1 0 1 -9 1 1 1 +10 1 0 1 +(1) 估計條件概率 ) | ( + A P ， ) | ( + B P ， ) | ( + C P ， ) | ( A P ， ) | ( B

38、P ， ) | ( C P 。(2) 根據(jù)(1)中的條件概率，使用樸素貝葉斯方法預(yù)測測試樣本(A=0，B=1，C=0)的類標(biāo)號；(3) 使用 Laplace 估計方法，其中 p=1/2，l=4，估計條件概率 ) | ( + A P ， ) | ( + B P ， ) | ( + C P ，) | ( A P ， ) | ( B P ， ) | ( C P 。(4) 同(2)，使用(3)中的條件概率(5) 比較估計概率的兩種方法，哪一種更好，為什么？答：(1) ) | ( + A P =3/5) | ( + B P =1/5) | ( A P =2/5) | ( B P =2/5) | ( C

39、P =1(2) 假設(shè) P(A=0,B=1,C=0)=K則 K 屬于兩個類的概率為：P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=0.4×0.2×0.2×0.5/K=0.008/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=0.4×0.2×0×0.5/K=0/K則得到，此樣本的類標(biāo)號是+。第 12 頁共 27 頁

40、(3) P(A|+)=(3+2)/(5+4)=5/9P(A|-)=(2+2)/(5+4)=4/9P(B|+)=(1+2)/(5+4)=1/3P(B|-)=(2+2)/(5+4)=4/9P(C|-)=(0+2)/(5+4)=2/9(4) 假設(shè) P(A=0,B=1,C=0)=K則 K 屬于兩個類的概率為：P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=(4/9) ×(1/3) ×(1/3) ×0.5/K=0.0247/KP(-|A=0,B=1,C=0)=P(A

41、=0,B=1,C=0)×P(-)/K=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=(5/9) ×(4/9) ×(2/9) ×0.5/K=0.0274/K則得到，此樣本的類標(biāo)號是-。(5) 當(dāng)條件概率為 0 的時候，條件概率的預(yù)測用 Laplace 估計方法比較好，因為我們不想整個條件概率計算結(jié)果為 0.3.8 考慮表 3-25 中的一維數(shù)據(jù)集。表 3-25 習(xí)題 3.8 數(shù)據(jù)集X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5Y - - + + + - - + - -根據(jù) 1-最近鄰、3-最近鄰、

42、5-最近鄰、9-最近鄰，對數(shù)據(jù)點 x=5.0 分類，使用多數(shù)表決。答： 1-最近鄰：+3-最近鄰：-5-最近鄰：+9-最近鄰：-3.9 表 3-26 的數(shù)據(jù)集包含兩個屬性 X 與 Y，兩個類標(biāo)號“+”和“-”。每個屬性取三個不同值策略：0,1 或 2?！?”類的概念是 Y=1，“-”類的概念是 X=0 and X=2。表 3-26 習(xí)題 3.9 數(shù)據(jù)集實例數(shù)X Y+ -0 0 0 1001 0 0 02 0 0 1001 1 10 02 1 10 1000 2 0 1001 2 0 02 2 0 100第 13 頁共 27 頁(1) 建立該數(shù)據(jù)集的決策樹。該決策樹能捕捉到“+”和“-”的概念

43、嗎？(2) 決策樹的準(zhǔn)確率、精度、召回率和 F1 各是多少？(注意，精度、召回率和 F1 量均是對“+”類定義)(3) 使用下面的代價函數(shù)建立新的決策樹，新決策樹能捕捉到“+”的概念么？+ = =+ = + =j ij ij ij i C, 10) , (如果實例個數(shù)實例個數(shù)如果如果(提示：只需改變原決策樹的結(jié)點。)答：(1)在數(shù)據(jù)集中有 20 個正樣本和 500 個負樣本，因此在根節(jié)點處錯誤率為52020)520500,52020max( 1 = = E如果按照屬性 X 劃分，則：X=0 X=1 X=2+ 0 10 10- 200 0 300E X=0 =0/310=0E X=1 =0/10

44、=0E X=2 =10/31052010310105203100520100520200= × × × = EX如果按照屬性 Y 劃分，則：Y=0 Y=1 Y=2+ 0 20 0- 200 100 200E Y=0 =0/200=0E Y=1 =20/120E Y=2 =0/200=0012020520120= × = EX因此 X 被選為第一個分裂屬性，因為 X=0 和 X=1 都是純節(jié)點，所以使用 Y 屬性去分割不純節(jié)點 X=2。Y=0 節(jié)點包含 100 個負樣本，Y=1 節(jié)點包含 10 個正樣本和 100 個負樣本，Y=2 節(jié)點包含 100 個負樣

45、本，所以子節(jié)點被標(biāo)記為“”。整個結(jié)果為：類標(biāo)記= +其他 ,1 , X(2)預(yù)測類 + -+ 10 10 實際類- 0 500第 14 頁共 27 頁accuracy:520510=0.9808，precision:1010=1.0recall:2010=0.5 ， F-measure:5 . 0 0 . 10 . 1 5 . 0 2+ =0.6666(3)由題可得代價矩陣為預(yù)測類 + -+ 0 500/20=25 實際類- 1 0決策樹在(1)之后還有 3 個葉節(jié)點，X=2Y=0，X=2Y=1，X=2Y=2。其中X=2Y=1 是不純節(jié)點，誤分類該節(jié)點為“+”類的代價為：10 0+100 1

46、=100，誤分該節(jié)點為“”類的代價為：10 25+100 0=250。所以這些節(jié)點被標(biāo)記為“+”類。分類結(jié)果為：( )= = = +=其他類標(biāo)記1 2 1 Y X X3.10 什么是提升？陳述它為何能提高決策樹歸納的準(zhǔn)確性？答：提升是指給每個訓(xùn)練元組賦予權(quán)重，迭代地學(xué)習(xí) k 個分類器序列，學(xué)習(xí)得到分類器 M i之后，更新權(quán)重，使得其后的分類器 M i+1 “更關(guān)注”M i 誤分的訓(xùn)練元組，最終提升的分類器 M*組合每個個體分類器，其中每個分類器投票的權(quán)重是其準(zhǔn)確率的函數(shù)。在提升的過程中，訓(xùn)練元組的權(quán)重根據(jù)它們的分類情況調(diào)整，如果元組不正確地分類，則它的權(quán)重增加，如果元組正確分類，則它的權(quán)重減少

47、。元組的權(quán)重反映對它們分類的困難程度，權(quán)重越高，越可能錯誤的分類。根據(jù)每個分類器的投票，如果一個分類器的誤差率越低，提升就賦予它越高的表決權(quán)重。在建立分類器的時候，讓具有更高表決權(quán)重的分類器對具有更高權(quán)重的元組進行分類，這樣，建立了一個互補的分類器系列。所以能夠提高分類的準(zhǔn)確性。3.11 表 3-27 給出課程數(shù)據(jù)庫中學(xué)生的期中和期末考試成績。表 3-27 習(xí)題 3.11 數(shù)據(jù)集期中考試期末考試X Y72 8450 6381 7774 7894 9086 7559 4983 7965 7733 5288 74第 15 頁共 27 頁81 90(1) 繪制數(shù)據(jù)的散點圖。X 和 Y 看上去具有

48、線性聯(lián)系嗎？(2) 使用最小二乘法，由學(xué)生課程中成績預(yù)測學(xué)生的期末成績的方程式。(3) 預(yù)測期中成績?yōu)?86 分的學(xué)生的期末成績。答：(1)數(shù)據(jù)圖如下所示：01020304050607080901000 20 40 60 80 100系列1X 和 Y 具有線性聯(lián)系。(2)Y = a + b*Xa = Y 0 + b*X 0b = (x i y i -nX 0 Y 0 )/(x i 2 -nX 0 2 )X 0 = (x i )/nY 0 = (y i )/n求得 a = 32.0279，b = 0.5816。(3) 由(2)中表可得，預(yù)測成績?yōu)?86 分的學(xué)生的期末成績?yōu)?82.0455。3.

49、12 通過對預(yù)測變量變換，有些非線性回歸模型可以轉(zhuǎn)換成線性模型。指出如何將非線性回歸方程ax y = 轉(zhuǎn)換成可以用最小二乘法求解的線性回歸方程。X Y X*Y X2 預(yù)測 Y1 72 84 6048 5184 73. 90312 50 63 3150 2500 61. 10793 81 77 6237 6561 79. 13754 74 78 5772 5476 75. 06635 94 90 8460 8836 86. 69836 86 75 6450 7396 82. 04557 59 49 2891 3481 66. 34238 83 79 6557 6889 80. 30079 65

50、77 5005 4225 69. 831910 33 52 1716 1089 51. 220711 88 74 6512 7744 83. 208712 81 90 7290 6561 79. 1375SUM 866 888 66088 65942 第 16 頁共 27 頁答：令x w= ，對樣本數(shù)據(jù)做變換 ) ,., 2 , 1 ( n i x wi i= =，利用 (w i ， Y i )(i=1 ， 2 ， n)解出 y = aw 中的 a ，再代入ax y = 即得到 y 對 x 的回歸方程。第第 4 章聚類分析4.1 什么是聚類？簡單描述如下的聚類方法：劃分方法，層次方法，基于

51、密度的方法，基于模型的方法。為每類方法給出例子。答：聚類是將數(shù)據(jù)劃分為相似對象組的過程，使得同一組中對象相似度最大而不同組中對象相似度最小。主要有以下幾種類型方法：(1) 劃分方法給定一個有 N 個元組或者記錄的數(shù)據(jù)集，分裂法將構(gòu)造 K 個分組，每一個分組就代表一個聚類， K<N 。而且這 K 個分組滿足下列條件：第一，每一個分組至少包含一條記錄；第二，每一條記錄屬于且僅屬于一個分組 ( 注意：這個要求在某些模糊聚類算法中可以放寬 ) ；對于給定的 K ，算法首先給出一個初始的分組方法，以后通過反復(fù)迭代的方法改變分組，使得每一次改進之后的分組方案都較前一次好，而所謂好的標(biāo)準(zhǔn)就是：同一分組

52、中的記錄越近越好，而不同分組中的記錄越遠越好。使用這個基本思想的算法有： K-MEANS 算法、 K-MEDOIDS 算法、 CLARANS 算法。(2) 層次方法這種方法對給定的數(shù)據(jù)集進行層次似的分解，直到某種條件滿足為止。具體又可分為 “ 自底向上 ” 和 “ 自頂向下 ” 兩種方案。例如在 “ 自底向上 ” 方案中，初始時每一個數(shù)據(jù)記錄都組成一個單獨的組，在接下來的迭代中，它把那些相互鄰近的組合并成一個組，直到所有的記錄組成一個分組或者某個條件滿足為止。代表算法有： BIRCH 算法、 CURE 算法、 CHAMELEON 算法等。(3) 基于密度的方法基于密度的方法與其它方法的一個根本

53、區(qū)別是：它不是基于各種各樣的距離，而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn) “ 類圓形 ” 的聚類的缺點。這個方法的指導(dǎo)思想就是：只要一個區(qū)域中的點的密度大過某個閾值，就把它加到與之相近的聚類中去。代表算法有： DBSCAN 算法、 OPTICS 算法、 DENCLUE 算法等。(4) 基于模型的方法基于模型的方法給每一個聚類假定一個模型，然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。它的一個潛在假定就是：目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的?；谀Ｐ偷姆椒ㄖ饕袃深悾航y(tǒng)計學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法 (SOM) 。4.2 假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的 8 個點 ( 用 (x,y) 代表位置 ) 聚類為三個簇。A1(2,1

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘原理與實踐 蔣盛益 答案

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

數(shù)據(jù)挖掘原理與實踐蔣盛益答案