數(shù)據(jù)挖掘原理與實(shí)踐 蔣盛益 答案_第1頁
數(shù)據(jù)挖掘原理與實(shí)踐 蔣盛益 答案_第2頁
數(shù)據(jù)挖掘原理與實(shí)踐 蔣盛益 答案_第3頁
數(shù)據(jù)挖掘原理與實(shí)踐 蔣盛益 答案_第4頁
數(shù)據(jù)挖掘原理與實(shí)踐 蔣盛益 答案_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、習(xí)題參考答案第 1 章緒論1.1 數(shù)據(jù)挖掘處理的對(duì)象有哪些?請(qǐng)從實(shí)際生活中舉出至少三種。答:數(shù)據(jù)挖掘處理的對(duì)象是某一專業(yè)領(lǐng)域中積累的數(shù)據(jù),對(duì)象既可以來自社會(huì)科學(xué),又可以來自自然科學(xué)產(chǎn)生的數(shù)據(jù),還可以是衛(wèi)星觀測(cè)得到的數(shù)據(jù)。數(shù)據(jù)形式和結(jié)構(gòu)也各不相同,可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫,可以是面向?qū)ο蟮母呒?jí)數(shù)據(jù)庫系統(tǒng),也可以是面向特殊應(yīng)用的數(shù)據(jù)庫,如空間數(shù)據(jù)庫、時(shí)序數(shù)據(jù)庫、文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫等,還可以是 Web 數(shù)據(jù)信息。實(shí)際生活的例子:電信行業(yè)中利用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶行為分析,包含客戶通話記錄、通話時(shí)間、所開通的服務(wù)等,據(jù)此進(jìn)行客戶群體劃分以及客戶流失性分析。天文領(lǐng)域中利用決策樹等數(shù)據(jù)挖掘方法對(duì)上百萬

2、天體數(shù)據(jù)進(jìn)行分類與分析,幫助天文學(xué)家發(fā)現(xiàn)其他未知星體。制造業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。市場(chǎng)業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行市場(chǎng)定位、消費(fèi)者分析、輔助制定市場(chǎng)營銷策略等。1.2 給出一個(gè)例子,說明數(shù)據(jù)挖掘?qū)ι虅?wù)的成功是至關(guān)重要的。該商務(wù)需要什么樣的數(shù)據(jù)挖掘功能?它們能夠由數(shù)據(jù)查詢處理或簡單的統(tǒng)計(jì)分析來實(shí)現(xiàn)嗎?答:例如,數(shù)據(jù)挖掘在電子商務(wù)中的客戶關(guān)系管理起到了非常重要的作用。隨著各個(gè)電子商務(wù)網(wǎng)站的建立,企業(yè)紛紛地從“產(chǎn)品導(dǎo)向”轉(zhuǎn)向“客戶導(dǎo)向”,如何在保持現(xiàn)有的客戶同時(shí)吸引更多的客戶、如何在客戶群中發(fā)現(xiàn)潛在價(jià)值,一直都是電子商務(wù)企業(yè)重要任務(wù)。但是,傳統(tǒng)的數(shù)據(jù)分析處理,如

3、數(shù)據(jù)查詢處理或簡單的統(tǒng)計(jì)分析,只能在數(shù)據(jù)庫中進(jìn)行一些簡單的數(shù)據(jù)查詢和更新以及一些簡單的數(shù)據(jù)計(jì)算操作,卻無法從現(xiàn)有的大量數(shù)據(jù)中挖掘潛在的價(jià)值。而數(shù)據(jù)挖掘技術(shù)卻能使用如聚類、關(guān)聯(lián)分析、決策樹和神經(jīng)網(wǎng)絡(luò)等多種方法,對(duì)數(shù)據(jù)庫中龐大的數(shù)據(jù)進(jìn)行挖掘分析,然后可以進(jìn)行客戶細(xì)分而提供個(gè)性化服務(wù)、可以利用挖掘到的歷史流失客戶的特征來防止客戶流失、可以進(jìn)行產(chǎn)品捆綁推薦等,從而使電子商務(wù)更好地進(jìn)行客戶關(guān)系管理,提高客戶的忠誠度和滿意度。1.3 假定你是 Big-University 的軟件工程師,任務(wù)是設(shè)計(jì)一個(gè)數(shù)據(jù)挖掘系統(tǒng),分析學(xué)校課程數(shù)據(jù)庫。該數(shù)據(jù)庫包括如下信息:每個(gè)學(xué)生的姓名、地址和狀態(tài)(例如,本科生或研究生)

4、、所修課程,以及他們的 GPA。描述你要選取的結(jié)構(gòu),該結(jié)構(gòu)的每個(gè)成分的作用是什么?答:任務(wù)目的是分析課程數(shù)據(jù)庫,那么首先需要有包含信息的關(guān)系型數(shù)據(jù)庫系統(tǒng),以便查找、提取每個(gè)屬性的值;在取得數(shù)據(jù)后,需要有特征選擇模塊,通過特征選擇,找出要分析的屬性;接下來需要一個(gè)數(shù)據(jù)挖掘算法,或者數(shù)據(jù)挖掘軟件,它應(yīng)該包含像分類、聚類、關(guān)聯(lián)分析這樣的分析模塊,對(duì)選擇出來的特征值進(jìn)行分析處理;在得到結(jié)果后,可以用可視化軟件進(jìn)行顯示。1.4 假定你作為一個(gè)數(shù)據(jù)挖掘顧問,受雇于一家因特網(wǎng)搜索引擎公司。通過特定的例子說明,數(shù)據(jù)挖掘可以為公司提供哪些幫助,如何使用聚類、分類、關(guān)聯(lián)規(guī)則挖掘和離群點(diǎn)檢測(cè)等技術(shù)為企業(yè)服務(wù)。答:(

5、1) 使用聚類發(fā)現(xiàn)互聯(lián)網(wǎng)中的不同群體,用于網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn);第 2 頁 共 27 頁(2) 使用分類對(duì)客戶進(jìn)行等級(jí)劃分,從而實(shí)施不同的服務(wù);(3) 使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)大型數(shù)據(jù)集中間存在的關(guān)系,用于推薦搜索。如大部分搜索了“廣外”的人都會(huì)繼續(xù)搜索“信息學(xué)院”,那么在搜索“廣外”后會(huì)提示是否進(jìn)進(jìn)一步搜索“信息學(xué)院”。(4) 使用離群點(diǎn)挖掘發(fā)現(xiàn)與大部分對(duì)象不同的對(duì)象,用于分析針對(duì)網(wǎng)絡(luò)的秘密收集信息的攻擊。1.5 定義下列數(shù)據(jù)挖掘功能:關(guān)聯(lián)、分類、聚類、演變分析、離群點(diǎn)檢測(cè)。使用你熟悉的生活中的數(shù)據(jù),給出每種數(shù)據(jù)挖掘功能的例子。答:關(guān)聯(lián)是指發(fā)現(xiàn)樣本間或樣本不同屬性間的關(guān)聯(lián)。例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)

6、聯(lián)規(guī)則為:maj or(X, “comput i ng sci ence”)owns(X, “personal comput er”) support =12%, conf i dence=98% 其中,X是一個(gè)表示學(xué)生的變量。該規(guī)則指出主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī)的學(xué)生所占比例為 12%,同時(shí),主修計(jì)算機(jī)專業(yè)的學(xué)生有 98%擁有個(gè)人計(jì)算機(jī)。分類是構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型(或功能),分類被用作預(yù)測(cè)目標(biāo)數(shù)據(jù)的類的標(biāo)簽。例如,通過對(duì)過去銀行客戶流失與未流失客戶數(shù)據(jù)的分析,得到一個(gè)預(yù)測(cè)模型,預(yù)測(cè)新客戶是否可能會(huì)流失。聚類是將數(shù)據(jù)劃分為相似對(duì)象組的過程,使得同一組中對(duì)象相似度

7、最大而不同組中對(duì)象相似度最小。例如,通過對(duì)某大型超市客戶購物數(shù)據(jù)進(jìn)行聚類,將客戶聚類細(xì)分為低值客戶、高值客戶以及普通客戶等。數(shù)據(jù)演變分析描述和模型化隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì),盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測(cè),這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析 。離群點(diǎn)檢測(cè)就是發(fā)現(xiàn)與眾不同的數(shù)據(jù)??捎糜诎l(fā)現(xiàn)金融領(lǐng)域的欺詐檢測(cè)。1.6 根據(jù)你的觀察,描述一個(gè)可能的知識(shí)類型,它需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn),但本章未列出。它需要一種不同于本章列舉的數(shù)據(jù)挖掘技術(shù)嗎?答:建立一個(gè)局部的周期性作為一種新的知識(shí)類型,只要經(jīng)過一段時(shí)間的偏移量在

8、時(shí)間序列中重復(fù)發(fā)生,那么在這個(gè)知識(shí)類型中的模式是局部周期性的。需要一種新的數(shù)據(jù)挖掘技術(shù)解決這類問題。1.7 討論下列每項(xiàng)活動(dòng)是否是數(shù)據(jù)挖掘任務(wù):(1)根據(jù)性別劃分公司的顧客。(2)根據(jù)可贏利性劃分公司的顧客。(3)計(jì)算公司的總銷售額。(4)按學(xué)生的標(biāo)識(shí)號(hào)對(duì)學(xué)生數(shù)據(jù)庫排序。(5)預(yù)測(cè)擲一對(duì)骰子的結(jié)果。(6)使用歷史記錄預(yù)測(cè)某公司未來的股票價(jià)格。(7)監(jiān)視病人心率的異常變化。(8)監(jiān)視地震活動(dòng)的地震波。(9)提取聲波的頻率。答: (1) 不是,這屬于簡單的數(shù)據(jù)庫查詢。(2) 不是,這個(gè)簡單的會(huì)計(jì)計(jì)算;但是新客戶的利潤預(yù)測(cè)則屬于數(shù)據(jù)挖掘任務(wù)。(3) 不是,還是簡單的會(huì)計(jì)計(jì)算。第 3 頁 共 27 頁

9、(4) 不是,這是簡單的數(shù)據(jù)庫查詢。(5) 不是,由于每一面都是同等概率,則屬于概率計(jì)算;如概率是不同等的,根據(jù)歷史數(shù)據(jù)預(yù)測(cè)結(jié)果則更類似于數(shù)據(jù)挖掘任務(wù)。(6) 是,需要建立模型來預(yù)測(cè)股票價(jià)格,屬于數(shù)據(jù)挖掘領(lǐng)域中的預(yù)測(cè)模型??梢允褂没貧w來建模,或使用時(shí)間序列分析。(7) 是,需要建立正常心率行為模型,并預(yù)警非正常心率行為。這屬于數(shù)據(jù)挖掘領(lǐng)域的異常檢測(cè)。若有正常和非正常心率行為樣本,則可以看作一個(gè)分類問題。(8) 是,需要建立與地震活動(dòng)相關(guān)的不同波形的模型,并預(yù)警波形活動(dòng)。屬于數(shù)據(jù)挖掘領(lǐng)域的分類。(9) 不是,屬于信號(hào)處理。第 2 章數(shù)據(jù)處理基礎(chǔ)2.1 將下列屬性分類成二元的、分類的或連續(xù)的,并將

10、它們分類成定性的(標(biāo)稱的或序數(shù)的)或定量的(區(qū)間的或比率的)。例子:年齡?;卮穑悍诸惖摹⒍康?、比率的。(a)用 AM 和 PM 表示的時(shí)間。(b)根據(jù)曝光表測(cè)出的亮度。(c)根據(jù)人的判斷測(cè)出的亮度。(d)醫(yī)院中的病人數(shù)。(e)書的 ISBN 號(hào)。(f)用每立方厘米表示的物質(zhì)密度。答:(a)二元,定量,比率;(b)連續(xù),定量 ,比率;(c)分類,定性,標(biāo)稱;(d)連續(xù),定量,比率;(e)分類,定性,標(biāo)稱;(f)連續(xù),定量,比率。2.2 你能想象一種情況,標(biāo)識(shí)號(hào)對(duì)于預(yù)測(cè)是有用的嗎?答:學(xué)生的 I D號(hào)可以預(yù)測(cè)該學(xué)生的畢業(yè)日期。2.3 在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺失值是常有的。請(qǐng)描述處理

11、該問題的各種方法。答:處理遺漏值問題的策略有如下幾種。(1) 刪除數(shù)據(jù)對(duì)象或?qū)傩?。一種簡單而有效的策略是刪除具有遺漏值的數(shù)據(jù)對(duì)象。然而,即使部分給定的數(shù)據(jù)對(duì)象也包含一些信息,并且,如果許多對(duì)象都有遺漏值,則很難甚至不可能進(jìn)行可靠的分析。盡管如此,如果一個(gè)數(shù)據(jù)集只有少量的對(duì)象具有遺漏值,則忽略他們可能是合算的。一種相關(guān)的策略是刪除具有遺漏值的屬性。然而,做這件事要小心,因?yàn)楸粍h除的屬性可能對(duì)分析是至關(guān)重要的。(2) 估計(jì)遺漏值。有時(shí),遺漏值可以可靠地估計(jì)。例如,在考慮以較平滑的方式變化的具有少量但大大分散的遺漏值的時(shí)間序列,遺漏值可以使用其他值來估計(jì)(插值)。作為另一個(gè)例子,考慮一個(gè)具有許多相似

12、數(shù)據(jù)點(diǎn)的數(shù)據(jù)集。在這種情況下,與具有遺漏值的點(diǎn)鄰近的點(diǎn)的屬性值常常可以用來估計(jì)遺漏的值。如果屬性是連續(xù)的,則可以使用最近鄰的平均屬性值;如果屬性是分類的,則可以取最近鄰中最常出現(xiàn)的第 4 頁 共 27 頁屬性值。(3) 在分析時(shí)忽略遺漏值。許多數(shù)據(jù)挖掘方法都可以修改,忽略遺漏值。例如。假定正在對(duì)數(shù)據(jù)對(duì)象聚類,需要計(jì)算數(shù)據(jù)對(duì)象間的相似性;如果對(duì)于某屬性,兩個(gè)對(duì)象之一或兩個(gè)對(duì)象都有遺漏值,則可以僅使用沒有遺漏值的屬性來計(jì)算相似性。當(dāng)然,這種相似性只是緊鄰的,但是除非整個(gè)屬性數(shù)目很少,或者遺漏值的數(shù)量很大,否則這種誤差影響不大。同樣的,許多分類方法都可以修改,處理遺漏值。2.4 以下規(guī)范方法的值域是

13、什么?(a) min-max 規(guī)范化。(b) z-score 規(guī)范化。(c) 小數(shù)定標(biāo)規(guī)范化。答:(a) new_mi n, new_max ;(b)(-, + );(c)(-1. 0,1. 0)。2.5 假定用于分析的數(shù)據(jù)包含屬性 age,數(shù)據(jù)元組中 age 的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。(a) 使用按箱平均值平滑對(duì)以上數(shù)據(jù)進(jìn)行平滑,箱的深度為 3。解釋你的步驟。評(píng)論對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。(b) 對(duì)于數(shù)據(jù)平滑,還有哪些其它方法

14、?答:(a)已知數(shù)據(jù)元組中 age 的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,且箱的深度為 3,劃分為(等頻)箱:箱 1:13,15,16箱 2:16,19,20箱 3:20,21,22箱 4:22,25,25箱 5:25,25,30箱 6:33,33,33箱 7:35,35,35箱 8:35,36,40箱 9:45,46,52箱 10:70用箱均值光滑:箱 1:15,15,15箱 2:18,18,18箱 3:21,21,21箱 4:24,24,2

15、4箱 5:27,27,37箱 6:33,33,33箱 7:35,35,35箱 8:37,37,37箱 9:48,48,48箱 10:70;第 5 頁 共 27 頁(b)對(duì)于數(shù)據(jù)平滑,其它方法有:(1)回歸:可以用一個(gè)函數(shù)(如回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù);(2)聚類:可以通過聚類檢測(cè)離群點(diǎn),將類似的值組織成群或簇。直觀地,落在簇集合之外的值視為離群點(diǎn)。2.6 使用習(xí)題 2.5 給出的 age 數(shù)據(jù),回答以下問題:(a) 使用 min-max 規(guī)范化,將 age 值 35 轉(zhuǎn)換到0.0,1.0區(qū)間。(b) 使用 z-score 規(guī)范化轉(zhuǎn)換 age 值 35,其中,age 的標(biāo)準(zhǔn)偏差為 12.94

16、年。(c) 使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換 age 值 35。(d) 指出對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。答:(a)已知最大值為 70,最小值為 13,則可將 35 規(guī)范化為: 386. 013 - 7013 - 35= ;(b)已知均值為 30,標(biāo)準(zhǔn)差為 12.94,則可將 35 規(guī)范化為: 386 . 04 .9 1230 - 35= ;(c)使用小數(shù)定標(biāo)規(guī)范化可將 35 規(guī)范化為: 35 . 010035= ;(d)對(duì)于給定的數(shù)據(jù),你愿意使用 min-max 規(guī)范化。理由是計(jì)算簡單。2.7 使用習(xí)題 2.5 給出的 age 數(shù)據(jù)(a) 畫一個(gè)寬度為 10 的等寬的直方圖。(b)

17、 為以下每種抽樣技術(shù)勾畫例子:有放回簡單隨機(jī)抽樣,無放回簡單隨機(jī)抽樣,聚類抽樣,分層抽樣。使用大小為 5 的樣本和層“青年”,“中年”和“老年”。答:(a)如下為寬度為 10 的等寬的直方圖:(b)已知樣本大小為 5 和層“青年”,“中年”和“老年”,(1)有放回簡單隨機(jī)抽樣:30,33,30,25,30(2)無放回簡單隨機(jī)抽樣:30,33,33,35,25(3)聚類抽樣:16,25,33,35,46(4)分層抽樣:25,35,522.8 以下是一個(gè)商場(chǎng)所銷售商品的價(jià)格清單(按遞增順序排列,括號(hào)中的數(shù)表示前面數(shù)字出現(xiàn)次數(shù))1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、

18、18(8)、20(7)、21(4)、25(5)、28、30(3)。請(qǐng)分別用等寬的方法和等高的方法對(duì)上面的數(shù)據(jù)集進(jìn)行劃分。答:(1)等寬方法:劃分為 3個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的寬度為價(jià)格 10。價(jià)格在 110之間出現(xiàn)次數(shù)為 13;價(jià)格在 1120之間出現(xiàn)的次數(shù)為 24;價(jià)格在 2130之間出現(xiàn)的次數(shù)為 13。(2)等高方法:劃分為 2 個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的高度為出現(xiàn)的次數(shù) 4。出現(xiàn)次數(shù) 14第 6 頁 共 27 頁之間的價(jià)格為 1、8、10、12、14、21、28、30,共 8 個(gè)數(shù)據(jù);出現(xiàn)次數(shù) 58 之間的價(jià)格為 5、15、18、20、25,共 5個(gè)數(shù)據(jù)。2.9 討論數(shù)據(jù)聚合需要考慮的問題。答

19、:數(shù)據(jù)聚合需要考慮的問題有:(1)模式識(shí)別:這主要是實(shí)體識(shí)別問題;(2)冗余:一個(gè)屬性是冗余的,即它能由另一個(gè)表導(dǎo)出,如果屬性或維的命名不一致,也可能導(dǎo)致冗余,可以用相關(guān)分析來檢測(cè);(3)數(shù)據(jù)值沖突的檢測(cè)與處理:有些屬性因表示比例或編碼不同,會(huì)導(dǎo)致屬性不同。2.10 假定我們對(duì)一個(gè)比率屬性 x 使用平方根變換,得到一個(gè)新屬性 x*。作為分析的一部分,你識(shí)別出區(qū)間(a, b),在該區(qū)間內(nèi),x*與另一個(gè)屬性 y 具有線性關(guān)系。(a)換算成 x, (a, b)的對(duì)應(yīng)區(qū)間是什么?(b)給出 y 關(guān)聯(lián) x 的方程。答:(a)(a2,b2);(b)Y=kx0.5 +C (k, C 是常數(shù))。2.11 討論

20、使用抽樣減少需要顯示的數(shù)據(jù)對(duì)象個(gè)數(shù)的優(yōu)缺點(diǎn)。簡單隨機(jī)抽樣(無放回)是一種好的抽樣方法嗎?為什么是,為什么不是?答:抽樣減少需要顯示的數(shù)據(jù)對(duì)象個(gè)數(shù)的優(yōu)點(diǎn)是減少處理數(shù)據(jù)的費(fèi)用和時(shí)間。缺點(diǎn)是不能利用總體的已知信息和代表總體數(shù)據(jù)的信息。簡單隨機(jī)抽樣(無放回)不是一種好的抽樣方法,不能充分地代表不太頻繁出現(xiàn)的對(duì)象類型和每個(gè)對(duì)象被選中的概率不一樣。2.12 給定 m 個(gè)對(duì)象的集合,這些對(duì)象劃分成 K 組,其中第 i 組的大小為 m i 。如果目標(biāo)是得到容量為 n<m 的樣本,下面兩種抽樣方案有什么區(qū)別?(假定使用有放回抽樣)(a)從每組隨機(jī)地選擇 n×m i /m 個(gè)元素。(b)從數(shù)據(jù)集中

21、隨機(jī)地選擇 n 個(gè)元素,而不管對(duì)象屬于哪個(gè)組。答:(a)組保證了可以在每個(gè)組里面得到等比例的樣本,而(b)組在每個(gè)組里面抽取的樣本的個(gè)數(shù)是隨機(jī)的,不能保證每個(gè)組都能抽到樣本。2. 13 一個(gè)地方公司的銷售主管與你聯(lián)系,他相信他已經(jīng)設(shè)計(jì)出了一種評(píng)估顧客滿意度的方法。他這樣解釋他的方案:“這太簡單了,我簡直不敢相信,以前竟然沒有人想到,我只是記錄顧客對(duì)每種產(chǎn)品的抱怨次數(shù),我在數(shù)據(jù)挖掘的書中讀到計(jì)數(shù)具有比率屬性,因此,我的產(chǎn)品滿意度度量必定具有比率屬性。但是,當(dāng)我根據(jù)我的顧客滿意度度量評(píng)估產(chǎn)品并拿給老板看時(shí),他說我忽略了顯而易見的東西,說我的度量毫無價(jià)值。我想,他簡直是瘋了,因?yàn)槲覀兊臅充N產(chǎn)品滿意度

22、最差,因?yàn)閷?duì)它的抱怨最多。你能幫助我擺平他嗎?”(a)誰是對(duì)的,銷售主管還是他的老板?如果你的答案是他的老板,你做些什么來修正滿意度度量?(b)對(duì)于原來的產(chǎn)品滿意度度量的屬性類型,你能說些什么?答: (a) 老板是對(duì)的。更好的衡量方法應(yīng)該如下:不滿意率(產(chǎn)品)=每種產(chǎn)品的抱怨次數(shù)/ 該產(chǎn)品的總銷售量(b) 原來衡量方法的屬性類型是沒有意義的。例如,兩件商品有相同的顧客滿意度可能會(huì)有不同的抱怨次數(shù),反之亦然。第 7 頁 共 27 頁2.14 考慮一個(gè)文檔-詞矩陣,其中ijtf 是第 i 個(gè)詞(術(shù)語)出現(xiàn)在第 j 個(gè)文檔中的頻率,而 m 是文檔數(shù)。考慮由下式定義的變量變換:iij ijdfmtf

23、tf log' =其中,idf 是出現(xiàn) i 個(gè)詞的文檔數(shù),稱作詞的文檔頻率(document frequency)。該變換稱作逆文檔頻率變換(inverse document frequency)。(a)如果出現(xiàn)在一個(gè)文檔中,該變換的結(jié)果是什么?如果術(shù)語出現(xiàn)在每個(gè)文檔中呢?(b)該變換的目的可能是什么?答: (a) 如果該詞出現(xiàn)在每一個(gè)文檔中,它的詞權(quán)就會(huì)為 0,但是如果這個(gè)詞僅僅出現(xiàn)在一個(gè)文檔中,它就有最大的詞權(quán),例如,log m 。(b) 這個(gè)變換反映了以下一個(gè)現(xiàn)象:當(dāng)一個(gè)詞出現(xiàn)在每一個(gè)文檔中,對(duì)于文檔與文檔之間,該詞沒有區(qū)分能力,但是那些只是某一兩篇文檔出現(xiàn)的詞,其區(qū)分文檔的能力

24、就較強(qiáng)。2.15 對(duì)于下面的向量 x 和 y,計(jì)算指定的相似性或距離度量。(a)x=(1,1,1,1),y=(2,2,2,2) 余弦相似度、相關(guān)系數(shù)、歐幾里得。(b) x=(0,1,0,1),y=(1,0,1,0) 余弦相似度、相關(guān)系數(shù)、歐幾里得、Jaccard 系數(shù)。(c) x=(2,-1,0,2,0,-3),y=(-1,1,-1,0,0,-1) 余弦相似度、相關(guān)系數(shù)。答:(a) 余弦相似度、相關(guān)系數(shù)、歐幾里得分別是 0.5,0,2;(b) 余弦相似度、相關(guān)系數(shù)、歐幾里得、Jaccard 系數(shù)分別是 0,1,2,0;(c) 余弦相似度、相關(guān)系數(shù)分別是 0,0。2.16 簡單地描述如何計(jì)算由以

25、下類型的變量描述的對(duì)象間的相異度:(a) 不對(duì)稱的二元變量(b) 分類變量(c) 比例標(biāo)度型(ratio-scaled)變量(d) 數(shù)值型變量答:(a) 使用 Jaccard 系數(shù)計(jì)算不對(duì)稱的二元變量的相異度;(b) 采用屬性值匹配的方法(屬性值匹配,相似度為 1,否則為 0)可以計(jì)算用分類變量描述的對(duì)象間的相異度;(c) 對(duì)比例標(biāo)度變量進(jìn)行對(duì)數(shù)變換,對(duì)變換得到的值采用與處理區(qū)間標(biāo)度變量相同的方法來計(jì)算相異度;(d) 可采用歐幾里得距離公式或曼哈頓距離公式計(jì)算。2.17 給定兩個(gè)向量對(duì)象,分別表示為 p1(22,1,42,10),p2(20,0,36,8):(a) 計(jì)算兩個(gè)對(duì)象之間的歐幾里得距

26、離(b) 計(jì)算兩個(gè)對(duì)象之間的曼哈頓距離(c) 計(jì)算兩個(gè)對(duì)象之間的切比雪夫距離(d) 計(jì)算兩個(gè)對(duì)象之間的閔可夫斯基距離,用 x=3答:(a) 計(jì)算兩個(gè)對(duì)象之間的歐幾里得距離45 8 10 36 42 0 1 20 222 2 2 212= + + + = ) ( ) ( ) ( ) ( d第 8 頁 共 27 頁(b) 計(jì)算兩個(gè)對(duì)象之間的曼哈頓距離11 8 10 36 42 0 1 20 2212= + + + = | | | | | | | | d(c) 計(jì)算兩個(gè)對(duì)象之間的閔可夫斯基距離,其中參數(shù) r=33 3 3 3 3 312233 8 10 36 42 0 1 20 22 = + + +

27、 = | | | | | | | | d2.18 以下表格包含了屬性 name,gender,trait-1,trait-2,trait-3,及 trait-4,這里的 name 是對(duì)象的 id,gender 是一個(gè)對(duì)稱的屬性,剩余的 trait 屬性是不對(duì)稱的,描述了希望找到的筆友的個(gè)人特點(diǎn)。假設(shè)有一個(gè)服務(wù)是試圖發(fā)現(xiàn)合適的筆友。name gender trait-1 trait-2 trait-3 trait-4Keavn M N P P NCaroline F N P P NErik M P N N P對(duì)不對(duì)稱的屬性的值,值 P 被設(shè)為 1,值 N 被設(shè)為 0。假設(shè)對(duì)象(潛在的筆友)間的距

28、離是基于不對(duì)稱變量來計(jì)算的。(a) 計(jì)算對(duì)象間的簡單匹配系數(shù);(b) 計(jì)算對(duì)象間的 Jaccard 系數(shù);(c) 你認(rèn)為哪兩個(gè)人將成為最佳筆友?哪兩個(gè)會(huì)是最不能相容的?(d) 假設(shè)我們將對(duì)稱變量 gender 包含在我們的分析中?;?Jaccard 系數(shù),誰將是最和諧的一對(duì)?為什么?答:(a) 計(jì)算對(duì)象間的簡單匹配系數(shù)SMC (Keavn, Caroline) = (2+2)/( 0+0+2+2) = 1SMC(Keavn, Erik) = (0+0)/( 2+2+0+0) = 0SMC(Caroline,Erik) = (0+0)/( 2+2+0+0) = 0(b) 計(jì)算對(duì)象間的 Jacc

29、ard 系數(shù)Jaccard (Keavn, Caroline) = 2/(2+0+0) = 1Jaccard (Keavn, Erik) = 0/(0+2+2) = 0Jaccard (Caroline,Erik) = 0/(0+2+2) = 0(c) 根據(jù)屬性的匹配程度,Keavn 和 Caroline 將成為最佳筆友,Caroline 和 Erik 會(huì)是最不能相容的。(d) 若將對(duì)稱變量 gender 包含在分析中,設(shè)值 M 被設(shè)為 1,值 F 被設(shè)為 0,Jaccard (Keavn, Caroline) = 2/(2+1+0) = 2/3Jaccard (Keavn, Erik) =

30、1/(1+2+2) = 1/5Jaccard (Caroline,Erik) = 0/(0+2+3) = 0因?yàn)?Jaccard (Keavn, Caroline)最大,因此,Keavn 和 Caroline 是最和諧的一對(duì)。2.19 給定一個(gè)在區(qū)間0,1取值的相似性度量,描述兩種將該相似度變換成區(qū)間0,中的相異度的方法。答:取倒數(shù)減一: 1) , (1) , ( =q p sq p d第 9 頁 共 27 頁取對(duì)數(shù): ) , ( log( ) , ( q p s q p d =第 3 章分類與回歸3.1 簡述決策樹分類的主要步驟。答:決策樹生成的過程如下:(1)對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)預(yù)處理, 得到

31、訓(xùn)練集和測(cè)試集;(2)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練;(3)對(duì)初始決策樹進(jìn)行樹剪枝;(4)由所得到的決策樹提取分類規(guī)則;(5)使用測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè),評(píng)估決策樹模型;3.2 給定決策樹,選項(xiàng)有:(1)將決策樹轉(zhuǎn)換成規(guī)則,然后對(duì)結(jié)果規(guī)則剪枝,或(2)對(duì)決策樹剪枝,然后將剪枝后的樹轉(zhuǎn)換成規(guī)則。相對(duì)于(2),(1)的優(yōu)點(diǎn)是什么?答:相對(duì)于(2),(1)的優(yōu)點(diǎn)是:由于第一種方法已經(jīng)將決策樹轉(zhuǎn)換成規(guī)則,通過規(guī)則,可以很快速的評(píng)估決策樹以及其子樹緊湊程度,不能提高規(guī)則的估計(jì)準(zhǔn)確率的任何條件都可以減掉,從而泛化規(guī)則;3.3 計(jì)算決策樹算法在最壞情況下的時(shí)間復(fù)雜度是重要的。給定數(shù)據(jù)集 D,具有 m 個(gè)屬性和|D|個(gè)訓(xùn)練記錄

32、,證明決策樹生長的計(jì)算時(shí)間最多為 ) log( D D m × × 。答:假設(shè)訓(xùn)練集擁有|D|實(shí)例以及 m 個(gè)屬性。我們需要對(duì)樹的尺寸做一個(gè)假設(shè),假設(shè)樹的深度是由 log |D| 決定,即 O(log |D|)??紤]一個(gè)屬性在樹的所有節(jié)點(diǎn)上所要做的工作量。當(dāng)然不必在每一個(gè)節(jié)點(diǎn)上考慮所有的實(shí)例。但在樹的每一層,必須考慮含有|D|個(gè)實(shí)例的整個(gè)數(shù)據(jù)集。由于樹有 log |D|個(gè)不同的層,處理一個(gè)屬性需要的工作量是) log(D D ×。在每個(gè)節(jié)點(diǎn)上所有屬性都要被考慮,因此總的工作量為) log(D D m × ×。3.4 考慮表 3-23所示二元分類

33、問題的數(shù)據(jù)集。表 3-23 習(xí)題 3. 4數(shù)據(jù)集A B 類標(biāo)號(hào)T F +T T +T T +T F -T T +F F -F F -F F -T T -T F -(1) 計(jì)算按照屬性 A 和 B 劃分時(shí)的信息增益。決策樹歸納算法將會(huì)選擇那個(gè)屬性?(2) 計(jì)算按照屬性 A 和 B 劃分時(shí) Gini 系數(shù)。決策樹歸納算法將會(huì)選擇那個(gè)屬性?第 10 頁 共 27 頁答:按照屬性 A 和 B 劃分時(shí),數(shù)據(jù)集可分為如下兩種情況:A=T A=F+ 4 0- 3 3(1)劃分前樣本集的信息熵為 E=-0.4log 2 0.4-0.6log 2 0.6=0.9710按照屬性 A 劃分樣本集分別得到的兩個(gè)子集(

34、A 取值 T 和 A 取值 F)的信息熵分別為:0.985273log7374log74E2 2 T A= =030log3033log33E2 2 F A= =按照屬性 A 劃分樣本集得到的信息增益為: 2813 . 0103107= = = = F A T AE E E按照屬性 B 劃分樣本集分別得到的兩個(gè)子集(B 取值 T 和 B 取值 F)的信息熵分別為:0.811341log4143log43E2 2 T B= =0.650065log6561log61E2 2 F B= =按照屬性 B 劃分樣本集得到的信息增益為: 0.2565106104= = = = F B T BE E E因

35、此,決策樹歸納算法將會(huì)選擇屬性 A。(2)劃分前的 Gini 值為 G=1-0.4 2 -0.6 2 =0.48按照屬性 A 劃分時(shí) Gini 指標(biāo):0.489873741 G2 2T A= =030331 G2 2F A= =Gini 增益 0.1371103107= = = = F A T AG G G按照屬性 B 劃分時(shí) Gini 指標(biāo):0.375043411 G2 2T B= =0.2778656112 2= =F BGGini 增益 0.1633106104= = = = F B T BG G G因此,決策樹歸納算法將會(huì)選擇屬性 B。3.5 證明:將結(jié)點(diǎn)劃分為更小的后續(xù)結(jié)點(diǎn)之后,結(jié)點(diǎn)

36、熵不會(huì)增加。證明:根據(jù)定義可知,熵值越大,類分布越均勻;熵值越小,類分布越不平衡。假設(shè)原有的結(jié)點(diǎn)屬于各個(gè)類的概率都相等,熵值為 1,則分出來的后續(xù)結(jié)點(diǎn)在各個(gè)類上均勻分布,此時(shí)熵值為 1,即熵值不變。假設(shè)原有的結(jié)點(diǎn)屬于個(gè)各類的概率不等,因而分出來的B=T B=F+ 3 1- 1 5第 11 頁 共 27 頁后續(xù)結(jié)點(diǎn)不均勻地分布在各個(gè)類上,則此時(shí)的分類比原有的分類更不均勻,故熵值減少。3.6 為什么樸素貝葉斯稱為“樸素”?簡述樸素貝葉斯分類的主要思想。答:樸素貝葉斯之所以稱之為樸素是因?yàn)?,它假設(shè)屬性之間是相互獨(dú)立的。樸素貝葉斯分類的主要思想為:利用貝葉斯定理,計(jì)算未知樣本屬于某個(gè)類標(biāo)號(hào)值的概率,根

37、據(jù)概率值的大小來決定未知樣本的分類結(jié)果。(通過某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類。)3.7 考慮表 3-24數(shù)據(jù)集,請(qǐng)完成以下問題:表 3-24 習(xí)題 3. 7數(shù)據(jù)集記錄號(hào) A B C 類1 0 0 0 +2 0 0 1 -3 0 1 1 -4 0 1 1 -5 0 0 1 +6 1 0 1 +7 1 0 1 -8 1 0 1 -9 1 1 1 +10 1 0 1 +(1) 估計(jì)條件概率 ) | ( + A P , ) | ( + B P , ) | ( + C P , ) | ( A P , ) | ( B

38、P , ) | ( C P 。(2) 根據(jù)(1)中的條件概率,使用樸素貝葉斯方法預(yù)測(cè)測(cè)試樣本(A=0,B=1,C=0)的類標(biāo)號(hào);(3) 使用 Laplace 估計(jì)方法,其中 p=1/2,l=4,估計(jì)條件概率 ) | ( + A P , ) | ( + B P , ) | ( + C P ,) | ( A P , ) | ( B P , ) | ( C P 。(4) 同(2),使用(3)中的條件概率(5) 比較估計(jì)概率的兩種方法,哪一種更好,為什么?答:(1) ) | ( + A P =3/5) | ( + B P =1/5) | ( A P =2/5) | ( B P =2/5) | ( C

39、P =1(2) 假設(shè) P(A=0,B=1,C=0)=K則 K 屬于兩個(gè)類的概率為:P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=0.4×0.2×0.2×0.5/K=0.008/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=0.4×0.2×0×0.5/K=0/K則得到,此樣本的類標(biāo)號(hào)是+。第 12 頁 共 27 頁

40、(3) P(A|+)=(3+2)/(5+4)=5/9P(A|-)=(2+2)/(5+4)=4/9P(B|+)=(1+2)/(5+4)=1/3P(B|-)=(2+2)/(5+4)=4/9P(C|-)=(0+2)/(5+4)=2/9(4) 假設(shè) P(A=0,B=1,C=0)=K則 K 屬于兩個(gè)類的概率為:P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=(4/9) ×(1/3) ×(1/3) ×0.5/K=0.0247/KP(-|A=0,B=1,C=0)=P(A

41、=0,B=1,C=0)×P(-)/K=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=(5/9) ×(4/9) ×(2/9) ×0.5/K=0.0274/K則得到,此樣本的類標(biāo)號(hào)是-。(5) 當(dāng)條件概率為 0 的時(shí)候,條件概率的預(yù)測(cè)用 Laplace 估計(jì)方法比較好,因?yàn)槲覀儾幌胝麄€(gè)條件概率計(jì)算結(jié)果為 0.3.8 考慮表 3-25 中的一維數(shù)據(jù)集。表 3-25 習(xí)題 3.8 數(shù)據(jù)集X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5Y - - + + + - - + - -根據(jù) 1-最近鄰、3-最近鄰、

42、5-最近鄰、9-最近鄰,對(duì)數(shù)據(jù)點(diǎn) x=5.0 分類,使用多數(shù)表決。答: 1-最近鄰:+3-最近鄰:-5-最近鄰:+9-最近鄰:-3.9 表 3-26 的數(shù)據(jù)集包含兩個(gè)屬性 X 與 Y,兩個(gè)類標(biāo)號(hào)“+”和“-”。每個(gè)屬性取三個(gè)不同值策略:0,1 或 2?!?”類的概念是 Y=1,“-”類的概念是 X=0 and X=2。表 3-26 習(xí)題 3.9 數(shù)據(jù)集實(shí)例數(shù)X Y+ -0 0 0 1001 0 0 02 0 0 1001 1 10 02 1 10 1000 2 0 1001 2 0 02 2 0 100第 13 頁 共 27 頁(1) 建立該數(shù)據(jù)集的決策樹。該決策樹能捕捉到“+”和“-”的概念

43、嗎?(2) 決策樹的準(zhǔn)確率、精度、召回率和 F1 各是多少?(注意,精度、召回率和 F1 量均是對(duì)“+”類定義)(3) 使用下面的代價(jià)函數(shù)建立新的決策樹,新決策樹能捕捉到“+”的概念么?+ = =+ = + =j ij ij ij i C, 10) , (如果實(shí)例個(gè)數(shù)實(shí)例個(gè)數(shù)如果如果(提示:只需改變?cè)瓫Q策樹的結(jié)點(diǎn)。)答:(1)在數(shù)據(jù)集中有 20 個(gè)正樣本和 500 個(gè)負(fù)樣本,因此在根節(jié)點(diǎn)處錯(cuò)誤率為52020)520500,52020max( 1 = = E如果按照屬性 X 劃分,則:X=0 X=1 X=2+ 0 10 10- 200 0 300E X=0 =0/310=0E X=1 =0/10

44、=0E X=2 =10/31052010310105203100520100520200= × × × = EX如果按照屬性 Y 劃分,則:Y=0 Y=1 Y=2+ 0 20 0- 200 100 200E Y=0 =0/200=0E Y=1 =20/120E Y=2 =0/200=0012020520120= × = EX因此 X 被選為第一個(gè)分裂屬性,因?yàn)?X=0 和 X=1 都是純節(jié)點(diǎn),所以使用 Y 屬性去分割不純節(jié)點(diǎn) X=2。Y=0 節(jié)點(diǎn)包含 100 個(gè)負(fù)樣本,Y=1 節(jié)點(diǎn)包含 10 個(gè)正樣本和 100 個(gè)負(fù)樣本,Y=2 節(jié)點(diǎn)包含 100 個(gè)負(fù)樣

45、本,所以子節(jié)點(diǎn)被標(biāo)記為“”。整個(gè)結(jié)果為:類標(biāo)記= +其他 ,1 , X(2)預(yù)測(cè)類 + -+ 10 10 實(shí)際類- 0 500第 14 頁 共 27 頁accuracy:520510=0.9808,precision:1010=1.0recall:2010=0.5 , F-measure:5 . 0 0 . 10 . 1 5 . 0 2+ =0.6666(3)由題可得代價(jià)矩陣為預(yù)測(cè)類 + -+ 0 500/20=25 實(shí)際類- 1 0決策樹在(1)之后還有 3 個(gè)葉節(jié)點(diǎn),X=2Y=0,X=2Y=1,X=2Y=2。其中X=2Y=1 是不純節(jié)點(diǎn),誤分類該節(jié)點(diǎn)為“+”類的代價(jià)為:10 0+100 1

46、=100,誤分該節(jié)點(diǎn)為“”類的代價(jià)為:10 25+100 0=250。所以這些節(jié)點(diǎn)被標(biāo)記為“+”類。分類結(jié)果為:( )= = = +=其他類標(biāo)記1 2 1 Y X X3.10 什么是提升?陳述它為何能提高決策樹歸納的準(zhǔn)確性?答:提升是指給每個(gè)訓(xùn)練元組賦予權(quán)重,迭代地學(xué)習(xí) k 個(gè)分類器序列,學(xué)習(xí)得到分類器 M i之后,更新權(quán)重,使得其后的分類器 M i+1 “更關(guān)注”M i 誤分的訓(xùn)練元組,最終提升的分類器 M*組合每個(gè)個(gè)體分類器,其中每個(gè)分類器投票的權(quán)重是其準(zhǔn)確率的函數(shù)。在提升的過程中,訓(xùn)練元組的權(quán)重根據(jù)它們的分類情況調(diào)整,如果元組不正確地分類,則它的權(quán)重增加,如果元組正確分類,則它的權(quán)重減少

47、。元組的權(quán)重反映對(duì)它們分類的困難程度,權(quán)重越高,越可能錯(cuò)誤的分類。根據(jù)每個(gè)分類器的投票,如果一個(gè)分類器的誤差率越低,提升就賦予它越高的表決權(quán)重。在建立分類器的時(shí)候,讓具有更高表決權(quán)重的分類器對(duì)具有更高權(quán)重的元組進(jìn)行分類,這樣,建立了一個(gè)互補(bǔ)的分類器系列。所以能夠提高分類的準(zhǔn)確性。3.11 表 3-27 給出課程數(shù)據(jù)庫中學(xué)生的期中和期末考試成績。表 3-27 習(xí)題 3.11 數(shù)據(jù)集期中考試 期末考試X Y72 8450 6381 7774 7894 9086 7559 4983 7965 7733 5288 74第 15 頁 共 27 頁81 90(1) 繪制數(shù)據(jù)的散點(diǎn)圖。X 和 Y 看上去具有

48、線性聯(lián)系嗎?(2) 使用最小二乘法,由學(xué)生課程中成績預(yù)測(cè)學(xué)生的期末成績的方程式。(3) 預(yù)測(cè)期中成績?yōu)?86 分的學(xué)生的期末成績。答:(1)數(shù)據(jù)圖如下所示:01020304050607080901000 20 40 60 80 100系列1X 和 Y 具有線性聯(lián)系。(2)Y = a + b*Xa = Y 0 + b*X 0b = (x i y i -nX 0 Y 0 )/(x i 2 -nX 0 2 )X 0 = (x i )/nY 0 = (y i )/n求得 a = 32.0279,b = 0.5816。(3) 由(2)中表可得,預(yù)測(cè)成績?yōu)?86 分的學(xué)生的期末成績?yōu)?82.0455。3.

49、12 通過對(duì)預(yù)測(cè)變量變換,有些非線性回歸模型可以轉(zhuǎn)換成線性模型。指出如何將非線性回歸方程ax y = 轉(zhuǎn)換成可以用最小二乘法求解的線性回歸方程。X Y X*Y X2 預(yù)測(cè) Y1 72 84 6048 5184 73. 90312 50 63 3150 2500 61. 10793 81 77 6237 6561 79. 13754 74 78 5772 5476 75. 06635 94 90 8460 8836 86. 69836 86 75 6450 7396 82. 04557 59 49 2891 3481 66. 34238 83 79 6557 6889 80. 30079 65

50、77 5005 4225 69. 831910 33 52 1716 1089 51. 220711 88 74 6512 7744 83. 208712 81 90 7290 6561 79. 1375SUM 866 888 66088 65942 第 16 頁 共 27 頁答:令x w= ,對(duì)樣本數(shù)據(jù)做變換 ) ,., 2 , 1 ( n i x wi i= =,利用 (w i , Y i )(i=1 , 2 , n)解出 y = aw 中的 a ,再代入ax y = 即得到 y 對(duì) x 的回歸方程。第 第 4 章聚類分析4.1 什么是聚類?簡單描述如下的聚類方法:劃分方法,層次方法,基于

51、密度的方法,基于模型的方法。為每類方法給出例子。答:聚類是將數(shù)據(jù)劃分為相似對(duì)象組的過程,使得同一組中對(duì)象相似度最大而不同組中對(duì)象相似度最小。主要有以下幾種類型方法:(1) 劃分方法給定一個(gè)有 N 個(gè)元組或者記錄的數(shù)據(jù)集,分裂法將構(gòu)造 K 個(gè)分組,每一個(gè)分組就代表一個(gè)聚類, K<N 。而且這 K 個(gè)分組滿足下列條件:第一,每一個(gè)分組至少包含一條記錄;第二,每一條記錄屬于且僅屬于一個(gè)分組 ( 注意:這個(gè)要求在某些模糊聚類算法中可以放寬 ) ;對(duì)于給定的 K ,算法首先給出一個(gè)初始的分組方法,以后通過反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好,而所謂好的標(biāo)準(zhǔn)就是:同一分組

52、中的記錄越近越好,而不同分組中的記錄越遠(yuǎn)越好。使用這個(gè)基本思想的算法有: K-MEANS 算法、 K-MEDOIDS 算法、 CLARANS 算法。(2) 層次方法這種方法對(duì)給定的數(shù)據(jù)集進(jìn)行層次似的分解,直到某種條件滿足為止。具體又可分為 “ 自底向上 ” 和 “ 自頂向下 ” 兩種方案。例如在 “ 自底向上 ” 方案中,初始時(shí)每一個(gè)數(shù)據(jù)記錄都組成一個(gè)單獨(dú)的組,在接下來的迭代中,它把那些相互鄰近的組合并成一個(gè)組,直到所有的記錄組成一個(gè)分組或者某個(gè)條件滿足為止。代表算法有: BIRCH 算法、 CURE 算法、 CHAMELEON 算法等。(3) 基于密度的方法基于密度的方法與其它方法的一個(gè)根本

53、區(qū)別是:它不是基于各種各樣的距離,而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn) “ 類圓形 ” 的聚類的缺點(diǎn)。這個(gè)方法的指導(dǎo)思想就是:只要一個(gè)區(qū)域中的點(diǎn)的密度大過某個(gè)閾值,就把它加到與之相近的聚類中去。代表算法有: DBSCAN 算法、 OPTICS 算法、 DENCLUE 算法等。(4) 基于模型的方法基于模型的方法給每一個(gè)聚類假定一個(gè)模型,然后去尋找能夠很好的滿足這個(gè)模型的數(shù)據(jù)。這樣一個(gè)模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其它。它的一個(gè)潛在假定就是:目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的?;谀P偷姆椒ㄖ饕袃深悾航y(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法 (SOM) 。4.2 假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的 8 個(gè)點(diǎn) ( 用 (x,y) 代表位置 ) 聚類為三個(gè)簇。A1(2,1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論