習(xí)題及參考答案_第1頁
習(xí)題及參考答案_第2頁
習(xí)題及參考答案_第3頁
習(xí)題及參考答案_第4頁
習(xí)題及參考答案_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、習(xí)題參考答案第1章緒論1.1 數(shù)據(jù)挖掘處理的對象有哪些?請從實(shí)際生活中舉出至少三種。答:數(shù)據(jù)挖掘處理的對象是某一專業(yè)領(lǐng)域中積累的數(shù)據(jù),對象既可以來自社會(huì)科學(xué),又可以來自自然科學(xué)產(chǎn)生的數(shù)據(jù),還可以是衛(wèi)星觀測得到的數(shù)據(jù)。數(shù)據(jù)形式和結(jié)構(gòu)也各不相同,可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫,可以是面向?qū)ο蟮母呒墧?shù)據(jù)庫系統(tǒng),也可以是面向特殊應(yīng)用的數(shù)據(jù)庫,如空間數(shù)據(jù)庫、時(shí)序數(shù)據(jù)庫、文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫等,還可以是Web數(shù)據(jù)信息。 實(shí)際生活的例子:電信行業(yè)中利用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶行為分析,包含客戶通話記錄、通話時(shí)間、所開通的服務(wù)等,據(jù)此進(jìn)行客戶群體劃分以及客戶流失性分析。天文領(lǐng)域中利用決策樹等數(shù)據(jù)挖掘方法對上百萬天體數(shù)

2、據(jù)進(jìn)行分類與分析,幫助天文學(xué)家發(fā)現(xiàn)其他未知星體。制造業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。市場業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行市場定位、消費(fèi)者分析、輔助制定市場營銷策略等。1.2 給出一個(gè)例子,說明數(shù)據(jù)挖掘?qū)ι虅?wù)的成功是至關(guān)重要的。該商務(wù)需要什么樣的數(shù)據(jù)挖掘功能?它們能夠由數(shù)據(jù)查詢處理或簡單的統(tǒng)計(jì)分析來實(shí)現(xiàn)嗎? 答:例如,數(shù)據(jù)挖掘在電子商務(wù)中的客戶關(guān)系管理起到了非常重要的作用。隨著各個(gè)電子商務(wù)網(wǎng)站的建立,企業(yè)紛紛地從“產(chǎn)品導(dǎo)向”轉(zhuǎn)向“客戶導(dǎo)向”,如何在保持現(xiàn)有的客戶同時(shí)吸引更多的客戶、如何在客戶群中發(fā)現(xiàn)潛在價(jià)值,一直都是電子商務(wù)企業(yè)重要任務(wù)。但是,傳統(tǒng)的數(shù)據(jù)分析處理,如數(shù)據(jù)

3、查詢處理或簡單的統(tǒng)計(jì)分析,只能在數(shù)據(jù)庫中進(jìn)行一些簡單的數(shù)據(jù)查詢和更新以及一些簡單的數(shù)據(jù)計(jì)算操作,卻無法從現(xiàn)有的大量數(shù)據(jù)中挖掘潛在的價(jià)值。而數(shù)據(jù)挖掘技術(shù)卻能使用如聚類、關(guān)聯(lián)分析、決策樹和神經(jīng)網(wǎng)絡(luò)等多種方法,對數(shù)據(jù)庫中龐大的數(shù)據(jù)進(jìn)行挖掘分析,然后可以進(jìn)行客戶細(xì)分而提供個(gè)性化服務(wù)、可以利用挖掘到的歷史流失客戶的特征來防止客戶流失、可以進(jìn)行產(chǎn)品捆綁推薦等,從而使電子商務(wù)更好地進(jìn)行客戶關(guān)系管理,提高客戶的忠誠度和滿意度。1.3 假定你是Big-University 的軟件工程師,任務(wù)是設(shè)計(jì)一個(gè)數(shù)據(jù)挖掘系統(tǒng),分析學(xué)校課程數(shù)據(jù)庫。該數(shù)據(jù)庫包括如下信息:每個(gè)學(xué)生的姓名、地址和狀態(tài)(例如,本科生或研究生)、所修

4、課程,以及他們的GPA。描述你要選取的結(jié)構(gòu),該結(jié)構(gòu)的每個(gè)成分的作用是什么? 答:任務(wù)目的是分析課程數(shù)據(jù)庫,那么首先需要有包含信息的關(guān)系型數(shù)據(jù)庫系統(tǒng),以便查找、提取每個(gè)屬性的值;在取得數(shù)據(jù)后,需要有特征選擇模塊,通過特征選擇,找出要分析的屬性;接下來需要一個(gè)數(shù)據(jù)挖掘算法,或者數(shù)據(jù)挖掘軟件,它應(yīng)該包含像分類、聚類、關(guān)聯(lián)分析這樣的分析模塊,對選擇出來的特征值進(jìn)行分析處理;在得到結(jié)果后,可以用可視化軟件進(jìn)行顯示。1.4 假定你作為一個(gè)數(shù)據(jù)挖掘顧問,受雇于一家因特網(wǎng)搜索引擎公司。通過特定的例子說明,數(shù)據(jù)挖掘可以為公司提供哪些幫助,如何使用聚類、分類、關(guān)聯(lián)規(guī)則挖掘和離群點(diǎn)檢測等技術(shù)為企業(yè)服務(wù)。答:(1)

5、使用聚類發(fā)現(xiàn)互聯(lián)網(wǎng)中的不同群體,用于網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn);(2) 使用分類對客戶進(jìn)行等級劃分,從而實(shí)施不同的服務(wù);(3) 使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)大型數(shù)據(jù)集中間存在的關(guān)系,用于推薦搜索。如大部分搜索了“廣外”的人都會(huì)繼續(xù)搜索“信息學(xué)院”,那么在搜索“廣外”后會(huì)提示是否進(jìn)進(jìn)一步搜索“信息學(xué)院”。(4) 使用離群點(diǎn)挖掘發(fā)現(xiàn)與大部分對象不同的對象,用于分析針對網(wǎng)絡(luò)的秘密收集信息的攻擊。1.5 定義下列數(shù)據(jù)挖掘功能:關(guān)聯(lián)、分類、聚類、演變分析、離群點(diǎn)檢測。使用你熟悉的生活中的數(shù)據(jù),給出每種數(shù)據(jù)挖掘功能的例子。 答:關(guān)聯(lián)是指發(fā)現(xiàn)樣本間或樣本不同屬性間的關(guān)聯(lián)。例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:major(X,

6、“computing science”)owns(X, “personal computer”) support=12%, confidence=98% 其中,X是一個(gè)表示學(xué)生的變量。該規(guī)則指出主修計(jì)算機(jī)科學(xué)并且擁有一臺個(gè)人計(jì)算機(jī)的學(xué)生所占比例為12%,同時(shí),主修計(jì)算機(jī)專業(yè)的學(xué)生有98%擁有個(gè)人計(jì)算機(jī)。分類是構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型(或功能),分類被用作預(yù)測目標(biāo)數(shù)據(jù)的類的標(biāo)簽。例如,通過對過去銀行客戶流失與未流失客戶數(shù)據(jù)的分析,得到一個(gè)預(yù)測模型,預(yù)測新客戶是否可能會(huì)流失。聚類是將數(shù)據(jù)劃分為相似對象組的過程,使得同一組中對象相似度最大而不同組中對象相似度最小。例如,通過對某大型

7、超市客戶購物數(shù)據(jù)進(jìn)行聚類,將客戶聚類細(xì)分為低值客戶、高值客戶以及普通客戶等。數(shù)據(jù)演變分析描述和模型化隨時(shí)間變化的對象的規(guī)律或趨勢,盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測,這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析 。離群點(diǎn)檢測就是發(fā)現(xiàn)與眾不同的數(shù)據(jù)??捎糜诎l(fā)現(xiàn)金融領(lǐng)域的欺詐檢測。1.6 根據(jù)你的觀察,描述一個(gè)可能的知識類型,它需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn),但本章未列出。它需要一種不同于本章列舉的數(shù)據(jù)挖掘技術(shù)嗎? 答:建立一個(gè)局部的周期性作為一種新的知識類型,只要經(jīng)過一段時(shí)間的偏移量在時(shí)間序列中重復(fù)發(fā)生,那么在這個(gè)知識類型中的模式

8、是局部周期性的。需要一種新的數(shù)據(jù)挖掘技術(shù)解決這類問題。1.7 討論下列每項(xiàng)活動(dòng)是否是數(shù)據(jù)挖掘任務(wù):(1)根據(jù)性別劃分公司的顧客。(2)根據(jù)可贏利性劃分公司的顧客。(3)計(jì)算公司的總銷售額。(4)按學(xué)生的標(biāo)識號對學(xué)生數(shù)據(jù)庫排序。(5)預(yù)測擲一對骰子的結(jié)果。(6)使用歷史記錄預(yù)測某公司未來的股票價(jià)格。(7)監(jiān)視病人心率的異常變化。(8)監(jiān)視地震活動(dòng)的地震波。(9)提取聲波的頻率。答: (1) 不是,這屬于簡單的數(shù)據(jù)庫查詢。(2) 不是,這個(gè)簡單的會(huì)計(jì)計(jì)算;但是新客戶的利潤預(yù)測則屬于數(shù)據(jù)挖掘任務(wù)。(3) 不是,還是簡單的會(huì)計(jì)計(jì)算。(4) 不是,這是簡單的數(shù)據(jù)庫查詢。(5) 不是,由于每一面都是同等概

9、率,則屬于概率計(jì)算;如概率是不同等的,根據(jù)歷史數(shù)據(jù)預(yù)測結(jié)果則更類似于數(shù)據(jù)挖掘任務(wù)。(6) 是,需要建立模型來預(yù)測股票價(jià)格,屬于數(shù)據(jù)挖掘領(lǐng)域中的預(yù)測模型。可以使用回歸來建模,或使用時(shí)間序列分析。(7) 是,需要建立正常心率行為模型,并預(yù)警非正常心率行為。這屬于數(shù)據(jù)挖掘領(lǐng)域的異常檢測。若有正常和非正常心率行為樣本,則可以看作一個(gè)分類問題。(8) 是,需要建立與地震活動(dòng)相關(guān)的不同波形的模型,并預(yù)警波形活動(dòng)。屬于數(shù)據(jù)挖掘領(lǐng)域的分類。(9) 不是,屬于信號處理。第2章數(shù)據(jù)處理基礎(chǔ)2.1 將下列屬性分類成二元的、分類的或連續(xù)的,并將它們分類成定性的(標(biāo)稱的或序數(shù)的)或定量的(區(qū)間的或比率的)。例子:年齡。

10、回答:分類的、定量的、比率的。(a)用AM和PM表示的時(shí)間。(b)根據(jù)曝光表測出的亮度。(c)根據(jù)人的判斷測出的亮度。(d)醫(yī)院中的病人數(shù)。(e)書的ISBN號。(f)用每立方厘米表示的物質(zhì)密度。答:(a)二元,定量,比率;(b)連續(xù),定量 ,比率;(c)分類,定性,標(biāo)稱;(d)連續(xù),定量,比率;(e)分類,定性,標(biāo)稱;(f)連續(xù),定量,比率。2.2 你能想象一種情況,標(biāo)識號對于預(yù)測是有用的嗎?答:學(xué)生的ID號可以預(yù)測該學(xué)生的畢業(yè)日期。2.3 在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺失值是常有的。請描述處理該問題的各種方法。 答:處理遺漏值問題的策略有如下幾種。(1) 刪除數(shù)據(jù)對象或?qū)傩?。一種簡

11、單而有效的策略是刪除具有遺漏值的數(shù)據(jù)對象。然而,即使部分給定的數(shù)據(jù)對象也包含一些信息,并且,如果許多對象都有遺漏值,則很難甚至不可能進(jìn)行可靠的分析。盡管如此,如果一個(gè)數(shù)據(jù)集只有少量的對象具有遺漏值,則忽略他們可能是合算的。一種相關(guān)的策略是刪除具有遺漏值的屬性。然而,做這件事要小心,因?yàn)楸粍h除的屬性可能對分析是至關(guān)重要的。(2) 估計(jì)遺漏值。有時(shí),遺漏值可以可靠地估計(jì)。例如,在考慮以較平滑的方式變化的具有少量但大大分散的遺漏值的時(shí)間序列,遺漏值可以使用其他值來估計(jì)(插值)。作為另一個(gè)例子,考慮一個(gè)具有許多相似數(shù)據(jù)點(diǎn)的數(shù)據(jù)集。在這種情況下,與具有遺漏值的點(diǎn)鄰近的點(diǎn)的屬性值常常可以用來估計(jì)遺漏的值。

12、如果屬性是連續(xù)的,則可以使用最近鄰的平均屬性值;如果屬性是分類的,則可以取最近鄰中最常出現(xiàn)的屬性值。(3) 在分析時(shí)忽略遺漏值。許多數(shù)據(jù)挖掘方法都可以修改,忽略遺漏值。例如。假定正在對數(shù)據(jù)對象聚類,需要計(jì)算數(shù)據(jù)對象間的相似性;如果對于某屬性,兩個(gè)對象之一或兩個(gè)對象都有遺漏值,則可以僅使用沒有遺漏值的屬性來計(jì)算相似性。當(dāng)然,這種相似性只是緊鄰的,但是除非整個(gè)屬性數(shù)目很少,或者遺漏值的數(shù)量很大,否則這種誤差影響不大。同樣的,許多分類方法都可以修改,處理遺漏值。2.4 以下規(guī)范方法的值域是什么?(a) min-max規(guī)范化。(b) z-score 規(guī)范化。(c) 小數(shù)定標(biāo)規(guī)范化。答:(a)new_m

13、in,new_max;(b)(-,+ );(c)(-1.0,1.0)。2.5 假定用于分析的數(shù)據(jù)包含屬性age,數(shù)據(jù)元組中age 的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。(a) 使用按箱平均值平滑對以上數(shù)據(jù)進(jìn)行平滑,箱的深度為3。解釋你的步驟。評論對于給定的數(shù)據(jù),該技術(shù)的效果。 (b) 對于數(shù)據(jù)平滑,還有哪些其它方法? 答:(a)已知數(shù)據(jù)元組中age 的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,2

14、5,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,且箱的深度為3,劃分為(等頻)箱:箱1:13,15,16箱2:16,19,20箱3:20,21,22箱4:22,25,25箱5:25,25,30箱6:33,33,33箱7:35,35,35箱8:35,36,40箱9:45,46,52箱10:70用箱均值光滑:箱1:15,15,15箱2:18,18,18箱3:21,21,21箱4:24,24,24箱5:27,27,37箱6:33,33,33箱7:35,35,35箱8:37,37,37箱9:48,48,48箱10:70;(b)對于數(shù)據(jù)平滑,其它方法有:(1

15、)回歸:可以用一個(gè)函數(shù)(如回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù);(2)聚類:可以通過聚類檢測離群點(diǎn),將類似的值組織成群或簇。直觀地,落在簇集合之外的值視為離群點(diǎn)。2.6 使用習(xí)題2.5 給出的age數(shù)據(jù),回答以下問題: (a) 使用min-max 規(guī)范化,將age 值35 轉(zhuǎn)換到0.0,1.0區(qū)間。 (b) 使用z-score 規(guī)范化轉(zhuǎn)換age 值35,其中,age 的標(biāo)準(zhǔn)偏差為12.94 年。 (c) 使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換age 值35。 (d) 指出對于給定的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。 答:(a)已知最大值為70,最小值為13,則可將35規(guī)范化為:;(b)已知均值為30,標(biāo)準(zhǔn)差為1

16、2.94,則可將35規(guī)范化為:;(c)使用小數(shù)定標(biāo)規(guī)范化可將35規(guī)范化為:;(d)對于給定的數(shù)據(jù),你愿意使用min-max 規(guī)范化。理由是計(jì)算簡單。2.7 使用習(xí)題2.5 給出的age 數(shù)據(jù) (a) 畫一個(gè)寬度為10 的等寬的直方圖。 (b) 為以下每種抽樣技術(shù)勾畫例子:有放回簡單隨機(jī)抽樣,無放回簡單隨機(jī)抽樣,聚類抽樣,分層抽樣。使用大小為5的樣本和層“青年”,“中年”和“老年”。答:(a)如下為寬度為10 的等寬的直方圖:(b)已知樣本大小為5和層“青年”,“中年”和“老年”,(1)有放回簡單隨機(jī)抽樣:30,33,30,25,30(2)無放回簡單隨機(jī)抽樣:30,33,33,35,25(3)聚

17、類抽樣:16,25,33,35,46(4)分層抽樣:25,35,522.8以下是一個(gè)商場所銷售商品的價(jià)格清單(按遞增順序排列,括號中的數(shù)表示前面數(shù)字出現(xiàn)次數(shù))1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。請分別用等寬的方法和等高的方法對上面的數(shù)據(jù)集進(jìn)行劃分。答:(1)等寬方法:劃分為3個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的寬度為價(jià)格10。價(jià)格在110之間出現(xiàn)次數(shù)為13;價(jià)格在1120之間出現(xiàn)的次數(shù)為24;價(jià)格在2130之間出現(xiàn)的次數(shù)為13。(2)等高方法:劃分為2個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的高度為出現(xiàn)的次數(shù)4。出現(xiàn)次數(shù)14之

18、間的價(jià)格為1、8、10、12、14、21、28、30,共8個(gè)數(shù)據(jù);出現(xiàn)次數(shù)58之間的價(jià)格為5、15、18、20、25,共5個(gè)數(shù)據(jù)。2.9 討論數(shù)據(jù)聚合需要考慮的問題。 答:數(shù)據(jù)聚合需要考慮的問題有:(1)模式識別:這主要是實(shí)體識別問題;(2)冗余:一個(gè)屬性是冗余的,即它能由另一個(gè)表導(dǎo)出,如果屬性或維的命名不一致,也可能導(dǎo)致冗余,可以用相關(guān)分析來檢測;(3)數(shù)據(jù)值沖突的檢測與處理:有些屬性因表示比例或編碼不同,會(huì)導(dǎo)致屬性不同。2.10 假定我們對一個(gè)比率屬性x使用平方根變換,得到一個(gè)新屬性x*。作為分析的一部分,你識別出區(qū)間(a, b),在該區(qū)間內(nèi),x*與另一個(gè)屬性y具有線性關(guān)系。(a)換算成x

19、, (a, b)的對應(yīng)區(qū)間是什么?(b)給出y關(guān)聯(lián)x的方程。答:(a)(a2,b2);(b)Y=kx0.5 +C (k, C是常數(shù))。2.11 討論使用抽樣減少需要顯示的數(shù)據(jù)對象個(gè)數(shù)的優(yōu)缺點(diǎn)。簡單隨機(jī)抽樣(無放回)是一種好的抽樣方法嗎?為什么是,為什么不是?答:抽樣減少需要顯示的數(shù)據(jù)對象個(gè)數(shù)的優(yōu)點(diǎn)是減少處理數(shù)據(jù)的費(fèi)用和時(shí)間。缺點(diǎn)是不能利用總體的已知信息和代表總體數(shù)據(jù)的信息。簡單隨機(jī)抽樣(無放回)不是一種好的抽樣方法,不能充分地代表不太頻繁出現(xiàn)的對象類型和每個(gè)對象被選中的概率不一樣。2.12 給定m個(gè)對象的集合,這些對象劃分成K組,其中第i組的大小為mi。如果目標(biāo)是得到容量為nm的樣本,下面兩種

20、抽樣方案有什么區(qū)別?(假定使用有放回抽樣)(a)從每組隨機(jī)地選擇nmi/m個(gè)元素。(b)從數(shù)據(jù)集中隨機(jī)地選擇n個(gè)元素,而不管對象屬于哪個(gè)組。答:(a)組保證了可以在每個(gè)組里面得到等比例的樣本,而(b)組在每個(gè)組里面抽取的樣本的個(gè)數(shù)是隨機(jī)的,不能保證每個(gè)組都能抽到樣本。2.13 一個(gè)地方公司的銷售主管與你聯(lián)系,他相信他已經(jīng)設(shè)計(jì)出了一種評估顧客滿意度的方法。他這樣解釋他的方案:“這太簡單了,我簡直不敢相信,以前竟然沒有人想到,我只是記錄顧客對每種產(chǎn)品的抱怨次數(shù),我在數(shù)據(jù)挖掘的書中讀到計(jì)數(shù)具有比率屬性,因此,我的產(chǎn)品滿意度度量必定具有比率屬性。但是,當(dāng)我根據(jù)我的顧客滿意度度量評估產(chǎn)品并拿給老板看時(shí),

21、他說我忽略了顯而易見的東西,說我的度量毫無價(jià)值。我想,他簡直是瘋了,因?yàn)槲覀兊臅充N產(chǎn)品滿意度最差,因?yàn)閷λ谋г棺疃?。你能幫助我擺平他嗎?”(a)誰是對的,銷售主管還是他的老板?如果你的答案是他的老板,你做些什么來修正滿意度度量?(b)對于原來的產(chǎn)品滿意度度量的屬性類型,你能說些什么?答: (a) 老板是對的。更好的衡量方法應(yīng)該如下:不滿意率(產(chǎn)品)=每種產(chǎn)品的抱怨次數(shù)/該產(chǎn)品的總銷售量(b) 原來衡量方法的屬性類型是沒有意義的。例如,兩件商品有相同的顧客滿意度可能會(huì)有不同的抱怨次數(shù),反之亦然。2.14 考慮一個(gè)文檔-詞矩陣,其中是第i個(gè)詞(術(shù)語)出現(xiàn)在第j個(gè)文檔中的頻率,而m是文檔數(shù)??紤]由

22、下式定義的變量變換:其中,是出現(xiàn)i個(gè)詞的文檔數(shù),稱作詞的文檔頻率(document frequency)。該變換稱作逆文檔頻率變換(inverse document frequency)。(a)如果出現(xiàn)在一個(gè)文檔中,該變換的結(jié)果是什么?如果術(shù)語出現(xiàn)在每個(gè)文檔中呢?(b)該變換的目的可能是什么?答:(a) 如果該詞出現(xiàn)在每一個(gè)文檔中,它的詞權(quán)就會(huì)為0,但是如果這個(gè)詞僅僅出現(xiàn)在一個(gè)文檔中,它就有最大的詞權(quán),例如,log m 。(b) 這個(gè)變換反映了以下一個(gè)現(xiàn)象:當(dāng)一個(gè)詞出現(xiàn)在每一個(gè)文檔中,對于文檔與文檔之間,該詞沒有區(qū)分能力,但是那些只是某一兩篇文檔出現(xiàn)的詞,其區(qū)分文檔的能力就較強(qiáng)。2.15 對于

23、下面的向量x和y,計(jì)算指定的相似性或距離度量。(a)x=(1,1,1,1),y=(2,2,2,2) 余弦相似度、相關(guān)系數(shù)、歐幾里得。(b) x=(0,1,0,1),y=(1,0,1,0) 余弦相似度、相關(guān)系數(shù)、歐幾里得、Jaccard系數(shù)。(c) x=(2,-1,0,2,0,-3),y=(-1,1,-1,0,0,-1) 余弦相似度、相關(guān)系數(shù)。答:(a) 余弦相似度、相關(guān)系數(shù)、歐幾里得分別是0.5,0,2;(b) 余弦相似度、相關(guān)系數(shù)、歐幾里得、Jaccard系數(shù)分別是0,1,2,0;(c) 余弦相似度、相關(guān)系數(shù)分別是0,0。2.16 簡單地描述如何計(jì)算由以下類型的變量描述的對象間的相異度: (

24、a) 不對稱的二元變量 (b) 分類變量 (c) 比例標(biāo)度型(ratio-scaled)變量 (d) 數(shù)值型變量 答:(a) 使用Jaccard系數(shù)計(jì)算不對稱的二元變量的相異度;(b) 采用屬性值匹配的方法(屬性值匹配,相似度為1,否則為0)可以計(jì)算用分類變量描述的對象間的相異度;(c) 對比例標(biāo)度變量進(jìn)行對數(shù)變換,對變換得到的值采用與處理區(qū)間標(biāo)度變量相同的方法來計(jì)算相異度;(d) 可采用歐幾里得距離公式或曼哈頓距離公式計(jì)算。2.17 給定兩個(gè)向量對象,分別表示為p1(22,1,42,10),p2(20,0,36,8): (a) 計(jì)算兩個(gè)對象之間的歐幾里得距離 (b) 計(jì)算兩個(gè)對象之間的曼哈頓

25、距離 (c) 計(jì)算兩個(gè)對象之間的切比雪夫距離(d) 計(jì)算兩個(gè)對象之間的閔可夫斯基距離,用x=3答:(a) 計(jì)算兩個(gè)對象之間的歐幾里得距離(b) 計(jì)算兩個(gè)對象之間的曼哈頓距離(c) 計(jì)算兩個(gè)對象之間的閔可夫斯基距離,其中參數(shù)r=32.18 以下表格包含了屬性name,gender,trait-1,trait-2,trait-3,及trait-4,這里的name 是對象的id,gender 是一個(gè)對稱的屬性,剩余的trait 屬性是不對稱的,描述了希望找到的筆友的個(gè)人特點(diǎn)。假設(shè)有一個(gè)服務(wù)是試圖發(fā)現(xiàn)合適的筆友。 namegendertrait-1trait-2trait-3trait-4KeavnM

26、NPPNCarolineFNPPNErikMPNNP對不對稱的屬性的值,值P 被設(shè)為1,值N 被設(shè)為0。 假設(shè)對象(潛在的筆友)間的距離是基于不對稱變量來計(jì)算的。 (a) 計(jì)算對象間的簡單匹配系數(shù);(b) 計(jì)算對象間的Jaccard 系數(shù); (c) 你認(rèn)為哪兩個(gè)人將成為最佳筆友?哪兩個(gè)會(huì)是最不能相容的? (d) 假設(shè)我們將對稱變量gender 包含在我們的分析中?;贘accard 系數(shù),誰將是最和諧的一對?為什么? 答:(a) 計(jì)算對象間的簡單匹配系數(shù)SMC (Keavn, Caroline) = (2+2)/( 0+0+2+2) = 1SMC(Keavn, Erik) = (0+0)/(

27、2+2+0+0) = 0SMC(Caroline,Erik) = (0+0)/( 2+2+0+0) = 0(b) 計(jì)算對象間的Jaccard 系數(shù)Jaccard (Keavn, Caroline) = 2/(2+0+0) = 1Jaccard (Keavn, Erik) = 0/(0+2+2) = 0Jaccard (Caroline,Erik) = 0/(0+2+2) = 0(c) 根據(jù)屬性的匹配程度,Keavn和Caroline將成為最佳筆友,Caroline和Erik會(huì)是最不能相容的。(d) 若將對稱變量gender 包含在分析中,設(shè)值M被設(shè)為1,值F被設(shè)為0,Jaccard (Keav

28、n, Caroline) = 2/(2+1+0) = 2/3Jaccard (Keavn, Erik) = 1/(1+2+2) = 1/5Jaccard (Caroline,Erik) = 0/(0+2+3) = 0因?yàn)镴accard (Keavn, Caroline)最大,因此,Keavn和 Caroline是最和諧的一對。2.19 給定一個(gè)在區(qū)間0,1取值的相似性度量,描述兩種將該相似度變換成區(qū)間0,中的相異度的方法。答:取倒數(shù)減一:取對數(shù):第3章分類與回歸3.1 簡述決策樹分類的主要步驟。答:決策樹生成的過程如下:(1)對數(shù)據(jù)源進(jìn)行數(shù)據(jù)預(yù)處理, 得到訓(xùn)練集和測試集;(2)對訓(xùn)練集進(jìn)行訓(xùn)練

29、;(3)對初始決策樹進(jìn)行樹剪枝;(4)由所得到的決策樹提取分類規(guī)則;(5)使用測試數(shù)據(jù)集進(jìn)行預(yù)測,評估決策樹模型;3.2 給定決策樹,選項(xiàng)有:(1)將決策樹轉(zhuǎn)換成規(guī)則,然后對結(jié)果規(guī)則剪枝,或(2)對決策樹剪枝,然后將剪枝后的樹轉(zhuǎn)換成規(guī)則。相對于(2),(1)的優(yōu)點(diǎn)是什么?答:相對于(2),(1)的優(yōu)點(diǎn)是:由于第一種方法已經(jīng)將決策樹轉(zhuǎn)換成規(guī)則,通過規(guī)則,可以很快速的評估決策樹以及其子樹緊湊程度,不能提高規(guī)則的估計(jì)準(zhǔn)確率的任何條件都可以減掉,從而泛化規(guī)則; 3.3 計(jì)算決策樹算法在最壞情況下的時(shí)間復(fù)雜度是重要的。給定數(shù)據(jù)集D,具有m個(gè)屬性和|D|個(gè)訓(xùn)練記錄,證明決策樹生長的計(jì)算時(shí)間最多為。答:假設(shè)

30、訓(xùn)練集擁有|D|實(shí)例以及m個(gè)屬性。我們需要對樹的尺寸做一個(gè)假設(shè),假設(shè)樹的深度是由log |D| 決定,即O(log |D|)??紤]一個(gè)屬性在樹的所有節(jié)點(diǎn)上所要做的工作量。當(dāng)然不必在每一個(gè)節(jié)點(diǎn)上考慮所有的實(shí)例。但在樹的每一層,必須考慮含有|D|個(gè)實(shí)例的整個(gè)數(shù)據(jù)集。由于樹有l(wèi)og |D|個(gè)不同的層,處理一個(gè)屬性需要的工作量是。在每個(gè)節(jié)點(diǎn)上所有屬性都要被考慮,因此總的工作量為。3.4 考慮表3-23所示二元分類問題的數(shù)據(jù)集。表3-23 習(xí)題3.4數(shù)據(jù)集AB類標(biāo)號TF+TT+TT+TF-TT+FF-FF-FF-TT-TF-(1) 計(jì)算按照屬性A和B劃分時(shí)的信息增益。決策樹歸納算法將會(huì)選擇那個(gè)屬性?(2

31、) 計(jì)算按照屬性A和B劃分時(shí)Gini系數(shù)。決策樹歸納算法將會(huì)選擇那個(gè)屬性?答:按照屬性A和B劃分時(shí),數(shù)據(jù)集可分為如下兩種情況:A=TA=F+40-33B=TB=F+31-15(1)劃分前樣本集的信息熵為 E=-0.4log20.4-0.6log20.6=0.9710按照屬性A劃分樣本集分別得到的兩個(gè)子集(A取值T和A取值F)的信息熵分別為: 按照屬性A劃分樣本集得到的信息增益為:按照屬性B劃分樣本集分別得到的兩個(gè)子集(B取值T和B取值F)的信息熵分別為: 按照屬性B劃分樣本集得到的信息增益為:因此,決策樹歸納算法將會(huì)選擇屬性A。(2) 劃分前的Gini值為G=1-0.42-0.62=0.48按

32、照屬性A劃分時(shí)Gini指標(biāo):Gini增益按照屬性B劃分時(shí)Gini指標(biāo):Gini增益因此,決策樹歸納算法將會(huì)選擇屬性B。3.5 證明:將結(jié)點(diǎn)劃分為更小的后續(xù)結(jié)點(diǎn)之后,結(jié)點(diǎn)熵不會(huì)增加。證明:根據(jù)定義可知,熵值越大,類分布越均勻;熵值越小,類分布越不平衡。假設(shè)原有的結(jié)點(diǎn)屬于各個(gè)類的概率都相等,熵值為1,則分出來的后續(xù)結(jié)點(diǎn)在各個(gè)類上均勻分布,此時(shí)熵值為1,即熵值不變。假設(shè)原有的結(jié)點(diǎn)屬于個(gè)各類的概率不等,因而分出來的后續(xù)結(jié)點(diǎn)不均勻地分布在各個(gè)類上,則此時(shí)的分類比原有的分類更不均勻,故熵值減少。3.6 為什么樸素貝葉斯稱為“樸素”?簡述樸素貝葉斯分類的主要思想。答:樸素貝葉斯之所以稱之為樸素是因?yàn)?,它假設(shè)

33、屬性之間是相互獨(dú)立的。樸素貝葉斯分類的主要思想為:利用貝葉斯定理,計(jì)算未知樣本屬于某個(gè)類標(biāo)號值的概率,根據(jù)概率值的大小來決定未知樣本的分類結(jié)果。(通過某對象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對象所屬的類。)3.7 考慮表3-24數(shù)據(jù)集,請完成以下問題:表3-24 習(xí)題3.7數(shù)據(jù)集記錄號ABC類1000+2001-3011-4011-5001+6101+7101-8101-9111+10101+(1) 估計(jì)條件概率,。(2) 根據(jù)(1)中的條件概率,使用樸素貝葉斯方法預(yù)測測試樣本(A=0,B=1,C=0)的類標(biāo)號;(3) 使用La

34、place估計(jì)方法,其中p=1/2,l=4,估計(jì)條件概率,。(4) 同(2),使用(3)中的條件概率(5) 比較估計(jì)概率的兩種方法,哪一種更好,為什么?答:(1) =3/5=1/5=2/5=2/5=1(2) 假設(shè)P(A=0,B=1,C=0)=K則K屬于兩個(gè)類的概率為:P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)P(+)/K=P(A=0|+)P(B|+)P(C=0|+)P(+)/K=0.40.20.20.5/K=0.008/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)P(-)/K=P(A=0|-)P(B|-)P(C=0|-)P(-)/K=0.40.200.5

35、/K=0/K則得到,此樣本的類標(biāo)號是+。(3) P(A|+)=(3+2)/(5+4)=5/9P(A|-)=(2+2)/(5+4)=4/9P(B|+)=(1+2)/(5+4)=1/3P(B|-)=(2+2)/(5+4)=4/9P(C|-)=(0+2)/(5+4)=2/9(4) 假設(shè)P(A=0,B=1,C=0)=K則K屬于兩個(gè)類的概率為:P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)P(+)/K=P(A=0|+)P(B|+)P(C=0|+)P(+)/K=(4/9) (1/3) (1/3) 0.5/K=0.0247/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)P(

36、-)/K=P(A=0|-)P(B|-)P(C=0|-)P(-)/K=(5/9) (4/9) (2/9) 0.5/K=0.0274/K則得到,此樣本的類標(biāo)號是-。(5) 當(dāng)條件概率為0的時(shí)候,條件概率的預(yù)測用Laplace估計(jì)方法比較好,因?yàn)槲覀儾幌胝麄€(gè)條件概率計(jì)算結(jié)果為0.3.8 考慮表3-25中的一維數(shù)據(jù)集。 表3-25 習(xí)題3.8數(shù)據(jù)集X0.53.04.54.64.95.25.35.57.09.5Y-+-+-根據(jù)1-最近鄰、3-最近鄰、5-最近鄰、9-最近鄰,對數(shù)據(jù)點(diǎn)x=5.0分類,使用多數(shù)表決。答: 1-最近鄰:+3-最近鄰:-5-最近鄰:+9-最近鄰:-3.9 表3-26的數(shù)據(jù)集包含兩

37、個(gè)屬性X與Y,兩個(gè)類標(biāo)號“+”和“-”。每個(gè)屬性取三個(gè)不同值策略:0,1或2?!?”類的概念是Y=1,“-”類的概念是X=0 and X=2。表3-26 習(xí)題3.9數(shù)據(jù)集XY實(shí)例數(shù)+-00010010002001001110021101000201001200220100(1) 建立該數(shù)據(jù)集的決策樹。該決策樹能捕捉到“+”和“-”的概念嗎?(2) 決策樹的準(zhǔn)確率、精度、召回率和F1各是多少?(注意,精度、召回率和F1量均是對“+”類定義)(3) 使用下面的代價(jià)函數(shù)建立新的決策樹,新決策樹能捕捉到“+”的概念么?(提示:只需改變原決策樹的結(jié)點(diǎn)。)答:(1)在數(shù)據(jù)集中有20個(gè)正樣本和500個(gè)負(fù)樣本

38、,因此在根節(jié)點(diǎn)處錯(cuò)誤率為 如果按照屬性X劃分,則:X=0X=1X=2+01010-2000300 EX=0=0/310=0 EX=1=0/10=0 EX=2=10/310 如果按照屬性Y劃分,則:Y=0Y=1Y=2+0200-200100200 EY=0=0/200=0 EY=1=20/120 EY=2=0/200=0因此X被選為第一個(gè)分裂屬性,因?yàn)閄=0和X=1都是純節(jié)點(diǎn),所以使用Y屬性去分割不純節(jié)點(diǎn)X=2。Y=0節(jié)點(diǎn)包含100個(gè)負(fù)樣本,Y=1節(jié)點(diǎn)包含10個(gè)正樣本和100個(gè)負(fù)樣本,Y=2節(jié)點(diǎn)包含100個(gè)負(fù)樣本,所以子節(jié)點(diǎn)被標(biāo)記為“”。整個(gè)結(jié)果為:類標(biāo)記=(2)預(yù)測類+-實(shí)際類+1010-05

39、00accuracy:=0.9808,precision:=1.0 recall: =0.5 , F-measure:=0.6666(3)由題可得代價(jià)矩陣為預(yù)測類+-實(shí)際類+0500/20=25-10決策樹在(1)之后還有3個(gè)葉節(jié)點(diǎn),X=2Y=0,X=2Y=1,X=2Y=2。其中X=2Y=1是不純節(jié)點(diǎn),誤分類該節(jié)點(diǎn)為“+”類的代價(jià)為:100+1001=100,誤分該節(jié)點(diǎn)為“”類的代價(jià)為:1025+1000=250。所以這些節(jié)點(diǎn)被標(biāo)記為“+”類。分類結(jié)果為: 3.10 什么是提升?陳述它為何能提高決策樹歸納的準(zhǔn)確性?答:提升是指給每個(gè)訓(xùn)練元組賦予權(quán)重,迭代地學(xué)習(xí)k個(gè)分類器序列,學(xué)習(xí)得到分類器Mi

40、之后,更新權(quán)重,使得其后的分類器Mi+1“更關(guān)注”Mi誤分的訓(xùn)練元組,最終提升的分類器M*組合每個(gè)個(gè)體分類器,其中每個(gè)分類器投票的權(quán)重是其準(zhǔn)確率的函數(shù)。在提升的過程中,訓(xùn)練元組的權(quán)重根據(jù)它們的分類情況調(diào)整,如果元組不正確地分類,則它的權(quán)重增加,如果元組正確分類,則它的權(quán)重減少。元組的權(quán)重反映對它們分類的困難程度,權(quán)重越高,越可能錯(cuò)誤的分類。根據(jù)每個(gè)分類器的投票,如果一個(gè)分類器的誤差率越低,提升就賦予它越高的表決權(quán)重。在建立分類器的時(shí)候,讓具有更高表決權(quán)重的分類器對具有更高權(quán)重的元組進(jìn)行分類,這樣,建立了一個(gè)互補(bǔ)的分類器系列。所以能夠提高分類的準(zhǔn)確性。3.11 表3-27給出課程數(shù)據(jù)庫中學(xué)生的期

41、中和期末考試成績。表3-27 習(xí)題3.11數(shù)據(jù)集期中考試期末考試XY728450638177747894908675594983796577335288748190(1) 繪制數(shù)據(jù)的散點(diǎn)圖。X和Y看上去具有線性聯(lián)系嗎?(2) 使用最小二乘法,由學(xué)生課程中成績預(yù)測學(xué)生的期末成績的方程式。(3) 預(yù)測期中成績?yōu)?6分的學(xué)生的期末成績。答:(1)數(shù)據(jù)圖如下所示:X和Y具有線性聯(lián)系。(2)XYX*YX2預(yù)測Y172846048518473.9031250633150250061.1079381776237656179.1375474785772547675.0663594908460883686.69

42、83686756450739682.0455759492891348166.3423883796557688980.3007965775005422569.83191033521716108951.22071188746512774483.20871281907290656179.1375SUM8668886608865942Y = a + b*Xa = Y0 + b*X0b = (xiyi-nX0Y0)/(xi2-nX02)X0 = (xi)/nY0 = (yi)/n求得 a = 32.0279,b = 0.5816。(3)由(2)中表可得,預(yù)測成績?yōu)?6分的學(xué)生的期末成績?yōu)?2.0455。

43、3.12 通過對預(yù)測變量變換,有些非線性回歸模型可以轉(zhuǎn)換成線性模型。指出如何將非線性回歸方程轉(zhuǎn)換成可以用最小二乘法求解的線性回歸方程。答:令,對樣本數(shù)據(jù)做變換,利用(wi,Yi)(i=1,2,n)解出y = aw中的a,再代入即得到y(tǒng)對x的回歸方程。第4章聚類分析4.1 什么是聚類?簡單描述如下的聚類方法:劃分方法,層次方法,基于密度的方法,基于模型的方法。為每類方法給出例子。 答:聚類是將數(shù)據(jù)劃分為相似對象組的過程,使得同一組中對象相似度最大而不同組中對象相似度最小。主要有以下幾種類型方法:(1)劃分方法給定一個(gè)有N個(gè)元組或者記錄的數(shù)據(jù)集,分裂法將構(gòu)造K個(gè)分組,每一個(gè)分組就代表一個(gè)聚類,KN

44、。而且這K個(gè)分組滿足下列條件:第一,每一個(gè)分組至少包含一條記錄;第二,每一條記錄屬于且僅屬于一個(gè)分組(注意:這個(gè)要求在某些模糊聚類算法中可以放寬);對于給定的K,算法首先給出一個(gè)初始的分組方法,以后通過反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好,而所謂好的標(biāo)準(zhǔn)就是:同一分組中的記錄越近越好,而不同分組中的記錄越遠(yuǎn)越好。使用這個(gè)基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。(2)層次方法這種方法對給定的數(shù)據(jù)集進(jìn)行層次似的分解,直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。例如在“自底向上”方案中,初始時(shí)每一個(gè)數(shù)據(jù)記

45、錄都組成一個(gè)單獨(dú)的組,在接下來的迭代中,它把那些相互鄰近的組合并成一個(gè)組,直到所有的記錄組成一個(gè)分組或者某個(gè)條件滿足為止。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。(3)基于密度的方法基于密度的方法與其它方法的一個(gè)根本區(qū)別是:它不是基于各種各樣的距離,而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點(diǎn)。這個(gè)方法的指導(dǎo)思想就是:只要一個(gè)區(qū)域中的點(diǎn)的密度大過某個(gè)閾值,就把它加到與之相近的聚類中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。(4)基于模型的方法基于模型的方法給每一個(gè)聚類假定一個(gè)模型,然后去尋找能夠很好的滿足這

46、個(gè)模型的數(shù)據(jù)。這樣一個(gè)模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其它。它的一個(gè)潛在假定就是:目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的?;谀P偷姆椒ㄖ饕袃深悾航y(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法(SOM)。4.2 假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的8個(gè)點(diǎn)(用(x,y)代表位置)聚類為三個(gè)簇。 A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)。距離函數(shù)是Euclidean 函數(shù)。假設(shè)初始我們選擇A1,B1和C1為每個(gè)簇的中心,用k-means 算法來給出 (a) 在第一次循環(huán)執(zhí)行后的三個(gè)簇中心;(b) 最后的三個(gè)簇中心及簇包含的對象。

47、答:(a)如圖,(b)如圖,4.3 聚類被廣泛地認(rèn)為是一種重要的數(shù)據(jù)挖掘方法,有著廣泛的應(yīng)用。對如下的每種情況給出一個(gè)應(yīng)用例子: (a) 采用聚類作為主要的數(shù)據(jù)挖掘方法的應(yīng)用;(b) 采用聚類作為預(yù)處理工具,為其它數(shù)據(jù)挖掘任務(wù)作數(shù)據(jù)準(zhǔn)備的應(yīng)用。答:(a) 如電子商務(wù)網(wǎng)站中的客戶群劃分。根據(jù)客戶的個(gè)人信息、消費(fèi)習(xí)慣、瀏覽行為等信息,計(jì)算客戶之間的相似度,然后采用合適的聚類算法對所有客戶進(jìn)行類劃分;基于得到的客戶群信息,相關(guān)的店主可以制定相應(yīng)的營銷策略,如交叉銷售,根據(jù)某個(gè)客戶群中的其中一個(gè)客戶的購買商品推薦給另外一個(gè)未曾購買此商品的客戶。(b) 如電子商務(wù)網(wǎng)站中的推薦系統(tǒng)。電子商務(wù)網(wǎng)站可以根據(jù)得

48、到的客戶群,采用關(guān)聯(lián)規(guī)則或者隱馬爾科夫模型對每個(gè)客戶群生成消費(fèi)習(xí)慣規(guī)則,檢測客戶的消費(fèi)模式,這些規(guī)則或模式可以用于商品推薦。其中客戶群可以通過聚類算法來預(yù)先處理獲取得到。4.4 假設(shè)你將在一個(gè)給定的區(qū)域分配一些自動(dòng)取款機(jī)以滿足需求。住宅區(qū)或工作區(qū)可以被聚類以便每個(gè)簇被分配一個(gè)ATM。但是,這個(gè)聚類可能被一些因素所約束,包括可能影響ATM 可達(dá)性的橋梁,河流和公路的位置。其它的約束可能包括對形成一個(gè)區(qū)域的每個(gè)地域的ATM 數(shù)目的限制。給定這些約束,怎樣修改聚類算法來實(shí)現(xiàn)基于約束的聚類?答:約束的存在會(huì)使得原來被定義在同一個(gè)簇的對象之間的距離發(fā)生變化。這時(shí)可以考慮將這些約束因素融入到距離的計(jì)算公式

49、中,如在存在橋梁、河流和公路的區(qū)域中,可通過對象之間的連通性以及路徑來計(jì)算距離;而地域ATM數(shù)目的限制問題則可在聚類的初始化階段解決,如在K-MEANS的初始化時(shí),可根據(jù)區(qū)域的個(gè)數(shù)來確定簇個(gè)數(shù)K的值,然后所選擇的初始化種子盡可能分布在距離各個(gè)ATM附近的地方。4.5 給出一個(gè)數(shù)據(jù)集的例子,它包含三個(gè)自然簇。對于該數(shù)據(jù)集,k-means(幾乎總是)能夠發(fā)現(xiàn)正確的簇,但二分k-means不能。答:有三個(gè)完全一樣的球型簇,三個(gè)簇的點(diǎn)的個(gè)數(shù)和分布密度以及位置均完全相同。其中兩個(gè)簇關(guān)于第三個(gè)簇完全對稱,則在k-means方法中可以很輕易找出這三個(gè)簇,但用二分k-means則會(huì)把處于對稱中心的那個(gè)簇分成兩

50、半。4.6 總SSE是每個(gè)屬性的SSE之和。如果對于所有的簇,某變量的SSE都很低,這意味什么?如果只對一個(gè)簇很低呢?如果對所有的簇都很高?如果僅對一個(gè)簇高呢?如何使用每個(gè)變量的SSE信息改進(jìn)聚類?答: (a) 如果對于所有的簇,某屬性的SSE都很低,那么該屬性值變化不大,本質(zhì)上等于常量,對數(shù)據(jù)的分組沒什么用處。(b) 如果某屬性的SSE只對一個(gè)簇很低,那么該屬性有助于該簇的定義。(c) 如果對于所有的簇,某屬性的SSE都很高,那么意味著該屬性是噪聲屬性。(d) 如果某屬性的SSE僅對一個(gè)簇很高,那么該屬性與定義該簇的屬性提供的信息不一致。在少數(shù)情況下,由該屬性定義的簇不同于由其他屬性定義的簇

51、,但是在某些情況下,這也意味著該屬性不利于簇的定義。(e) 消除簇之間具有小分辨力的屬性,比如對于所有簇都是低或高SSE的屬性,因?yàn)樗麄儗垲悰]有幫助。對于所有簇的SSE都高且相對其他屬性來說SSE也很高的屬性特別麻煩,因?yàn)檫@些屬性在SSE的總和計(jì)算中引入了很多的噪聲。4.7 使用基于中心、鄰近性和密度的方法,識別圖4-19中的簇。對于每種情況指出簇個(gè)數(shù),并簡要給出你的理由。注意,明暗度或點(diǎn)數(shù)指明密度。如果有幫助的話,假定基于中心即K均值,基于鄰近性即單鏈,而基于密度為DBSCAN。圖4-19 題4.7圖答:(a) 基于中心的方法有2個(gè)簇。矩形區(qū)域被分成兩半,同時(shí)2個(gè)簇里都包含了噪聲數(shù)據(jù);基于

52、鄰近性的方法有1個(gè)簇。因?yàn)閮蓚€(gè)圓圈區(qū)域受噪聲數(shù)據(jù)影響而形成一個(gè)簇;基于密度的方法有2個(gè)簇,每個(gè)圓圈區(qū)域代表一個(gè)簇,而噪聲數(shù)據(jù)會(huì)被忽略。(b) 基于中心的方法有1個(gè)簇,該簇包含圖中的一個(gè)圓環(huán)和一個(gè)圓盤;基于鄰近性的方法有2個(gè)簇,外部圓環(huán)代表一個(gè)簇,內(nèi)層圓盤代表一個(gè)簇;基于密度的方法有2個(gè)簇,外部圓環(huán)代表一個(gè)簇,內(nèi)層圓盤代表一個(gè)簇。(c) 基于中心的方法有3個(gè)簇,每個(gè)三角形代表一個(gè)簇;基于鄰近性的方法有1個(gè)簇,三個(gè)三角形區(qū)域會(huì)聯(lián)合起來因?yàn)楸舜讼嗷ソ佑|;基于密度的方法有3個(gè)簇,每個(gè)三角形區(qū)域代表一個(gè)簇。即使三個(gè)三角形相互接觸,但是所接觸的區(qū)域的密度比三角形內(nèi)的密度小。(d) 基于中心的方法有2個(gè)簇。

53、兩組線被分到兩個(gè)簇里;基于鄰近性的方法有5個(gè)簇。相互纏繞的線被分到一個(gè)簇中;基于密度的方法有2個(gè)簇。這兩組線定義了被低密度區(qū)域所分割的兩個(gè)高密度的區(qū)域。4.8 傳統(tǒng)的凝聚層次聚類過程每步合并兩個(gè)簇。這樣的方法能夠正確地捕獲數(shù)據(jù)點(diǎn)集的(嵌套的)簇結(jié)構(gòu)嗎?如果不能,解釋如何對結(jié)果進(jìn)行后處理,以得到簇結(jié)構(gòu)更正確的視圖。答:傳統(tǒng)的凝聚層次聚類過程關(guān)鍵是每步合并兩個(gè)最相似的簇,直至只剩下一個(gè)簇才停止聚類。該聚類方法并不能產(chǎn)生嵌套的簇結(jié)構(gòu)。但我們可以采用樹結(jié)構(gòu)的方法來捕捉形成的層次結(jié)構(gòu),每次合并都記錄父子簇之間的關(guān)系,最后形成一個(gè)清晰的樹狀層次簇結(jié)構(gòu)。4.9 我們可以將一個(gè)數(shù)據(jù)集表示成對象節(jié)點(diǎn)的集合和屬性

54、節(jié)點(diǎn)的集合,其中每個(gè)對象與每個(gè)屬性之間有一條邊,該邊的權(quán)值是對象在該屬性上的值。對于稀疏數(shù)據(jù),如果權(quán)值為0,則忽略該邊。雙劃分聚類(Bipartite)試圖將該圖劃分成不相交的簇,其中每個(gè)簇由一個(gè)對象節(jié)點(diǎn)集和一個(gè)屬性節(jié)點(diǎn)集組成。目標(biāo)是最大化簇中對象節(jié)點(diǎn)和屬性節(jié)點(diǎn)之間的邊的權(quán)值,并且最小化不同簇的對象節(jié)點(diǎn)和屬性節(jié)點(diǎn)之間的邊的權(quán)值。這種聚類稱作協(xié)同聚類(co-clustering),因?yàn)閷ο蠛蛯傩灾g同時(shí)聚類。 (a) 雙劃分聚類(協(xié)同聚類)與對象和屬性集分別聚類有何不同? (b) 是否存在某些情況,這些方法產(chǎn)生相同的結(jié)果? (c) 與一般聚類相比,協(xié)同聚類的優(yōu)點(diǎn)和缺點(diǎn)是什么?答:(a) 對于普通聚類,只有一組約束條件被運(yùn)用,要么與對象相關(guān),要么與屬性相關(guān)。對于協(xié)同聚類,兩組約束條件同時(shí)被運(yùn)用。因此,單獨(dú)地劃分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論