




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、習(xí)題參考答案第 1 章緒論1.1 數(shù)據(jù)挖掘處理的對(duì)象有哪些?請(qǐng)從實(shí)際生活中舉出至少三種。答:數(shù)據(jù)挖掘處理的對(duì)象是某一專(zhuān)業(yè)領(lǐng)域中積累的數(shù)據(jù),對(duì)象既可以來(lái)自社會(huì)科學(xué),又可以來(lái)自自然科學(xué)產(chǎn)生的數(shù)據(jù),還可以是衛(wèi)星觀測(cè)得到的數(shù)據(jù)。數(shù)據(jù)形式和結(jié)構(gòu)也各不相同,可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù),可以是面向?qū)ο蟮母呒?jí)數(shù)據(jù)庫(kù)系統(tǒng),也可以是面向特殊應(yīng)用的數(shù)據(jù)庫(kù),如空間數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)和多媒體數(shù)據(jù)庫(kù)等,還可以是 Web 數(shù)據(jù)信息。實(shí)際生活的例子:電信行業(yè)中利用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶(hù)行為分析,包含客戶(hù)通話記錄、通話時(shí)間、所開(kāi)通的服務(wù)等,據(jù)此進(jìn)行客戶(hù)群體劃分以及客戶(hù)流失性分析。天文領(lǐng)域中利用決策樹(shù)等數(shù)據(jù)挖掘方法對(duì)上百萬(wàn)
2、天體數(shù)據(jù)進(jìn)行分類(lèi)與分析,幫助天文學(xué)家發(fā)現(xiàn)其他未知星體。制造業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行零部件故障診斷、資源優(yōu)化、生產(chǎn)過(guò)程分析等。市場(chǎng)業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行市場(chǎng)定位、消費(fèi)者分析、輔助制定市場(chǎng)營(yíng)銷(xiāo)策略等。1.2 給出一個(gè)例子,說(shuō)明數(shù)據(jù)挖掘?qū)ι虅?wù)的成功是至關(guān)重要的。該商務(wù)需要什么樣的數(shù)據(jù)挖掘功能?它們能夠由數(shù)據(jù)查詢(xún)處理或簡(jiǎn)單的統(tǒng)計(jì)分析來(lái)實(shí)現(xiàn)嗎?答:例如,數(shù)據(jù)挖掘在電子商務(wù)中的客戶(hù)關(guān)系管理起到了非常重要的作用。隨著各個(gè)電子商務(wù)網(wǎng)站的建立,企業(yè)紛紛地從“產(chǎn)品導(dǎo)向”轉(zhuǎn)向“客戶(hù)導(dǎo)向”,如何在保持現(xiàn)有的客戶(hù)同時(shí)吸引更多的客戶(hù)、如何在客戶(hù)群中發(fā)現(xiàn)潛在價(jià)值,一直都是電子商務(wù)企業(yè)重要任務(wù)。但是,傳統(tǒng)的數(shù)據(jù)分析處理,如
3、數(shù)據(jù)查詢(xún)處理或簡(jiǎn)單的統(tǒng)計(jì)分析,只能在數(shù)據(jù)庫(kù)中進(jìn)行一些簡(jiǎn)單的數(shù)據(jù)查詢(xún)和更新以及一些簡(jiǎn)單的數(shù)據(jù)計(jì)算操作,卻無(wú)法從現(xiàn)有的大量數(shù)據(jù)中挖掘潛在的價(jià)值。而數(shù)據(jù)挖掘技術(shù)卻能使用如聚類(lèi)、關(guān)聯(lián)分析、決策樹(shù)和神經(jīng)網(wǎng)絡(luò)等多種方法,對(duì)數(shù)據(jù)庫(kù)中龐大的數(shù)據(jù)進(jìn)行挖掘分析,然后可以進(jìn)行客戶(hù)細(xì)分而提供個(gè)性化服務(wù)、可以利用挖掘到的歷史流失客戶(hù)的特征來(lái)防止客戶(hù)流失、可以進(jìn)行產(chǎn)品捆綁推薦等,從而使電子商務(wù)更好地進(jìn)行客戶(hù)關(guān)系管理,提高客戶(hù)的忠誠(chéng)度和滿(mǎn)意度。1.3 假定你是 Big-University 的軟件工程師,任務(wù)是設(shè)計(jì)一個(gè)數(shù)據(jù)挖掘系統(tǒng),分析學(xué)校課程數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包括如下信息:每個(gè)學(xué)生的姓名、地址和狀態(tài)(例如,本科生或研究生)
4、、所修課程,以及他們的 GPA。描述你要選取的結(jié)構(gòu),該結(jié)構(gòu)的每個(gè)成分的作用是什么?答:任務(wù)目的是分析課程數(shù)據(jù)庫(kù),那么首先需要有包含信息的關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng),以便查找、提取每個(gè)屬性的值;在取得數(shù)據(jù)后,需要有特征選擇模塊,通過(guò)特征選擇,找出要分析的屬性;接下來(lái)需要一個(gè)數(shù)據(jù)挖掘算法,或者數(shù)據(jù)挖掘軟件,它應(yīng)該包含像分類(lèi)、聚類(lèi)、關(guān)聯(lián)分析這樣的分析模塊,對(duì)選擇出來(lái)的特征值進(jìn)行分析處理;在得到結(jié)果后,可以用可視化軟件進(jìn)行顯示。1.4 假定你作為一個(gè)數(shù)據(jù)挖掘顧問(wèn),受雇于一家因特網(wǎng)搜索引擎公司。通過(guò)特定的例子說(shuō)明,數(shù)據(jù)挖掘可以為公司提供哪些幫助,如何使用聚類(lèi)、分類(lèi)、關(guān)聯(lián)規(guī)則挖掘和離群點(diǎn)檢測(cè)等技術(shù)為企業(yè)服務(wù)。答:(
5、1) 使用聚類(lèi)發(fā)現(xiàn)互聯(lián)網(wǎng)中的不同群體,用于網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn);第 2 頁(yè) 共 27 頁(yè)(2) 使用分類(lèi)對(duì)客戶(hù)進(jìn)行等級(jí)劃分,從而實(shí)施不同的服務(wù);(3) 使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)大型數(shù)據(jù)集中間存在的關(guān)系,用于推薦搜索。如大部分搜索了“廣外”的人都會(huì)繼續(xù)搜索“信息學(xué)院”,那么在搜索“廣外”后會(huì)提示是否進(jìn)進(jìn)一步搜索“信息學(xué)院”。(4) 使用離群點(diǎn)挖掘發(fā)現(xiàn)與大部分對(duì)象不同的對(duì)象,用于分析針對(duì)網(wǎng)絡(luò)的秘密收集信息的攻擊。1.5 定義下列數(shù)據(jù)挖掘功能:關(guān)聯(lián)、分類(lèi)、聚類(lèi)、演變分析、離群點(diǎn)檢測(cè)。使用你熟悉的生活中的數(shù)據(jù),給出每種數(shù)據(jù)挖掘功能的例子。答:關(guān)聯(lián)是指發(fā)現(xiàn)樣本間或樣本不同屬性間的關(guān)聯(lián)。例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)
6、聯(lián)規(guī)則為:maj or(X, “comput i ng sci ence”)owns(X, “personal comput er”) support =12%, conf i dence=98% 其中,X是一個(gè)表示學(xué)生的變量。該規(guī)則指出主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī)的學(xué)生所占比例為 12%,同時(shí),主修計(jì)算機(jī)專(zhuān)業(yè)的學(xué)生有 98%擁有個(gè)人計(jì)算機(jī)。分類(lèi)是構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類(lèi)型或概念的模型(或功能),分類(lèi)被用作預(yù)測(cè)目標(biāo)數(shù)據(jù)的類(lèi)的標(biāo)簽。例如,通過(guò)對(duì)過(guò)去銀行客戶(hù)流失與未流失客戶(hù)數(shù)據(jù)的分析,得到一個(gè)預(yù)測(cè)模型,預(yù)測(cè)新客戶(hù)是否可能會(huì)流失。聚類(lèi)是將數(shù)據(jù)劃分為相似對(duì)象組的過(guò)程,使得同一組中對(duì)象相似度
7、最大而不同組中對(duì)象相似度最小。例如,通過(guò)對(duì)某大型超市客戶(hù)購(gòu)物數(shù)據(jù)進(jìn)行聚類(lèi),將客戶(hù)聚類(lèi)細(xì)分為低值客戶(hù)、高值客戶(hù)以及普通客戶(hù)等。數(shù)據(jù)演變分析描述和模型化隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì),盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類(lèi)、或預(yù)測(cè),這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析 。離群點(diǎn)檢測(cè)就是發(fā)現(xiàn)與眾不同的數(shù)據(jù)??捎糜诎l(fā)現(xiàn)金融領(lǐng)域的欺詐檢測(cè)。1.6 根據(jù)你的觀察,描述一個(gè)可能的知識(shí)類(lèi)型,它需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn),但本章未列出。它需要一種不同于本章列舉的數(shù)據(jù)挖掘技術(shù)嗎?答:建立一個(gè)局部的周期性作為一種新的知識(shí)類(lèi)型,只要經(jīng)過(guò)一段時(shí)間的偏移量在
8、時(shí)間序列中重復(fù)發(fā)生,那么在這個(gè)知識(shí)類(lèi)型中的模式是局部周期性的。需要一種新的數(shù)據(jù)挖掘技術(shù)解決這類(lèi)問(wèn)題。1.7 討論下列每項(xiàng)活動(dòng)是否是數(shù)據(jù)挖掘任務(wù):(1)根據(jù)性別劃分公司的顧客。(2)根據(jù)可贏利性劃分公司的顧客。(3)計(jì)算公司的總銷(xiāo)售額。(4)按學(xué)生的標(biāo)識(shí)號(hào)對(duì)學(xué)生數(shù)據(jù)庫(kù)排序。(5)預(yù)測(cè)擲一對(duì)骰子的結(jié)果。(6)使用歷史記錄預(yù)測(cè)某公司未來(lái)的股票價(jià)格。(7)監(jiān)視病人心率的異常變化。(8)監(jiān)視地震活動(dòng)的地震波。(9)提取聲波的頻率。答: (1) 不是,這屬于簡(jiǎn)單的數(shù)據(jù)庫(kù)查詢(xún)。(2) 不是,這個(gè)簡(jiǎn)單的會(huì)計(jì)計(jì)算;但是新客戶(hù)的利潤(rùn)預(yù)測(cè)則屬于數(shù)據(jù)挖掘任務(wù)。(3) 不是,還是簡(jiǎn)單的會(huì)計(jì)計(jì)算。第 3 頁(yè) 共 27 頁(yè)
9、(4) 不是,這是簡(jiǎn)單的數(shù)據(jù)庫(kù)查詢(xún)。(5) 不是,由于每一面都是同等概率,則屬于概率計(jì)算;如概率是不同等的,根據(jù)歷史數(shù)據(jù)預(yù)測(cè)結(jié)果則更類(lèi)似于數(shù)據(jù)挖掘任務(wù)。(6) 是,需要建立模型來(lái)預(yù)測(cè)股票價(jià)格,屬于數(shù)據(jù)挖掘領(lǐng)域中的預(yù)測(cè)模型。可以使用回歸來(lái)建模,或使用時(shí)間序列分析。(7) 是,需要建立正常心率行為模型,并預(yù)警非正常心率行為。這屬于數(shù)據(jù)挖掘領(lǐng)域的異常檢測(cè)。若有正常和非正常心率行為樣本,則可以看作一個(gè)分類(lèi)問(wèn)題。(8) 是,需要建立與地震活動(dòng)相關(guān)的不同波形的模型,并預(yù)警波形活動(dòng)。屬于數(shù)據(jù)挖掘領(lǐng)域的分類(lèi)。(9) 不是,屬于信號(hào)處理。第 2 章數(shù)據(jù)處理基礎(chǔ)2.1 將下列屬性分類(lèi)成二元的、分類(lèi)的或連續(xù)的,并將
10、它們分類(lèi)成定性的(標(biāo)稱(chēng)的或序數(shù)的)或定量的(區(qū)間的或比率的)。例子:年齡?;卮穑悍诸?lèi)的、定量的、比率的。(a)用 AM 和 PM 表示的時(shí)間。(b)根據(jù)曝光表測(cè)出的亮度。(c)根據(jù)人的判斷測(cè)出的亮度。(d)醫(yī)院中的病人數(shù)。(e)書(shū)的 ISBN 號(hào)。(f)用每立方厘米表示的物質(zhì)密度。答:(a)二元,定量,比率;(b)連續(xù),定量 ,比率;(c)分類(lèi),定性,標(biāo)稱(chēng);(d)連續(xù),定量,比率;(e)分類(lèi),定性,標(biāo)稱(chēng);(f)連續(xù),定量,比率。2.2 你能想象一種情況,標(biāo)識(shí)號(hào)對(duì)于預(yù)測(cè)是有用的嗎?答:學(xué)生的 I D號(hào)可以預(yù)測(cè)該學(xué)生的畢業(yè)日期。2.3 在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在某些屬性上缺失值是常有的。請(qǐng)描述處理
11、該問(wèn)題的各種方法。答:處理遺漏值問(wèn)題的策略有如下幾種。(1) 刪除數(shù)據(jù)對(duì)象或?qū)傩?。一種簡(jiǎn)單而有效的策略是刪除具有遺漏值的數(shù)據(jù)對(duì)象。然而,即使部分給定的數(shù)據(jù)對(duì)象也包含一些信息,并且,如果許多對(duì)象都有遺漏值,則很難甚至不可能進(jìn)行可靠的分析。盡管如此,如果一個(gè)數(shù)據(jù)集只有少量的對(duì)象具有遺漏值,則忽略他們可能是合算的。一種相關(guān)的策略是刪除具有遺漏值的屬性。然而,做這件事要小心,因?yàn)楸粍h除的屬性可能對(duì)分析是至關(guān)重要的。(2) 估計(jì)遺漏值。有時(shí),遺漏值可以可靠地估計(jì)。例如,在考慮以較平滑的方式變化的具有少量但大大分散的遺漏值的時(shí)間序列,遺漏值可以使用其他值來(lái)估計(jì)(插值)。作為另一個(gè)例子,考慮一個(gè)具有許多相似
12、數(shù)據(jù)點(diǎn)的數(shù)據(jù)集。在這種情況下,與具有遺漏值的點(diǎn)鄰近的點(diǎn)的屬性值常常可以用來(lái)估計(jì)遺漏的值。如果屬性是連續(xù)的,則可以使用最近鄰的平均屬性值;如果屬性是分類(lèi)的,則可以取最近鄰中最常出現(xiàn)的第 4 頁(yè) 共 27 頁(yè)屬性值。(3) 在分析時(shí)忽略遺漏值。許多數(shù)據(jù)挖掘方法都可以修改,忽略遺漏值。例如。假定正在對(duì)數(shù)據(jù)對(duì)象聚類(lèi),需要計(jì)算數(shù)據(jù)對(duì)象間的相似性;如果對(duì)于某屬性,兩個(gè)對(duì)象之一或兩個(gè)對(duì)象都有遺漏值,則可以?xún)H使用沒(méi)有遺漏值的屬性來(lái)計(jì)算相似性。當(dāng)然,這種相似性只是緊鄰的,但是除非整個(gè)屬性數(shù)目很少,或者遺漏值的數(shù)量很大,否則這種誤差影響不大。同樣的,許多分類(lèi)方法都可以修改,處理遺漏值。2.4 以下規(guī)范方法的值域是
13、什么?(a) min-max 規(guī)范化。(b) z-score 規(guī)范化。(c) 小數(shù)定標(biāo)規(guī)范化。答:(a) new_mi n, new_max ;(b)(-, + );(c)(-1. 0,1. 0)。2.5 假定用于分析的數(shù)據(jù)包含屬性 age,數(shù)據(jù)元組中 age 的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。(a) 使用按箱平均值平滑對(duì)以上數(shù)據(jù)進(jìn)行平滑,箱的深度為 3。解釋你的步驟。評(píng)論對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。(b) 對(duì)于數(shù)據(jù)平滑,還有哪些其它方法
14、?答:(a)已知數(shù)據(jù)元組中 age 的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,且箱的深度為 3,劃分為(等頻)箱:箱 1:13,15,16箱 2:16,19,20箱 3:20,21,22箱 4:22,25,25箱 5:25,25,30箱 6:33,33,33箱 7:35,35,35箱 8:35,36,40箱 9:45,46,52箱 10:70用箱均值光滑:箱 1:15,15,15箱 2:18,18,18箱 3:21,21,21箱 4:24,24,2
15、4箱 5:27,27,37箱 6:33,33,33箱 7:35,35,35箱 8:37,37,37箱 9:48,48,48箱 10:70;第 5 頁(yè) 共 27 頁(yè)(b)對(duì)于數(shù)據(jù)平滑,其它方法有:(1)回歸:可以用一個(gè)函數(shù)(如回歸函數(shù))擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù);(2)聚類(lèi):可以通過(guò)聚類(lèi)檢測(cè)離群點(diǎn),將類(lèi)似的值組織成群或簇。直觀地,落在簇集合之外的值視為離群點(diǎn)。2.6 使用習(xí)題 2.5 給出的 age 數(shù)據(jù),回答以下問(wèn)題:(a) 使用 min-max 規(guī)范化,將 age 值 35 轉(zhuǎn)換到0.0,1.0區(qū)間。(b) 使用 z-score 規(guī)范化轉(zhuǎn)換 age 值 35,其中,age 的標(biāo)準(zhǔn)偏差為 12.94
16、年。(c) 使用小數(shù)定標(biāo)規(guī)范化轉(zhuǎn)換 age 值 35。(d) 指出對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。答:(a)已知最大值為 70,最小值為 13,則可將 35 規(guī)范化為: 386. 013 - 7013 - 35= ;(b)已知均值為 30,標(biāo)準(zhǔn)差為 12.94,則可將 35 規(guī)范化為: 386 . 04 .9 1230 - 35= ;(c)使用小數(shù)定標(biāo)規(guī)范化可將 35 規(guī)范化為: 35 . 010035= ;(d)對(duì)于給定的數(shù)據(jù),你愿意使用 min-max 規(guī)范化。理由是計(jì)算簡(jiǎn)單。2.7 使用習(xí)題 2.5 給出的 age 數(shù)據(jù)(a) 畫(huà)一個(gè)寬度為 10 的等寬的直方圖。(b)
17、 為以下每種抽樣技術(shù)勾畫(huà)例子:有放回簡(jiǎn)單隨機(jī)抽樣,無(wú)放回簡(jiǎn)單隨機(jī)抽樣,聚類(lèi)抽樣,分層抽樣。使用大小為 5 的樣本和層“青年”,“中年”和“老年”。答:(a)如下為寬度為 10 的等寬的直方圖:(b)已知樣本大小為 5 和層“青年”,“中年”和“老年”,(1)有放回簡(jiǎn)單隨機(jī)抽樣:30,33,30,25,30(2)無(wú)放回簡(jiǎn)單隨機(jī)抽樣:30,33,33,35,25(3)聚類(lèi)抽樣:16,25,33,35,46(4)分層抽樣:25,35,522.8 以下是一個(gè)商場(chǎng)所銷(xiāo)售商品的價(jià)格清單(按遞增順序排列,括號(hào)中的數(shù)表示前面數(shù)字出現(xiàn)次數(shù))1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、
18、18(8)、20(7)、21(4)、25(5)、28、30(3)。請(qǐng)分別用等寬的方法和等高的方法對(duì)上面的數(shù)據(jù)集進(jìn)行劃分。答:(1)等寬方法:劃分為 3個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的寬度為價(jià)格 10。價(jià)格在 110之間出現(xiàn)次數(shù)為 13;價(jià)格在 1120之間出現(xiàn)的次數(shù)為 24;價(jià)格在 2130之間出現(xiàn)的次數(shù)為 13。(2)等高方法:劃分為 2 個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的高度為出現(xiàn)的次數(shù) 4。出現(xiàn)次數(shù) 14第 6 頁(yè) 共 27 頁(yè)之間的價(jià)格為 1、8、10、12、14、21、28、30,共 8 個(gè)數(shù)據(jù);出現(xiàn)次數(shù) 58 之間的價(jià)格為 5、15、18、20、25,共 5個(gè)數(shù)據(jù)。2.9 討論數(shù)據(jù)聚合需要考慮的問(wèn)題。答
19、:數(shù)據(jù)聚合需要考慮的問(wèn)題有:(1)模式識(shí)別:這主要是實(shí)體識(shí)別問(wèn)題;(2)冗余:一個(gè)屬性是冗余的,即它能由另一個(gè)表導(dǎo)出,如果屬性或維的命名不一致,也可能導(dǎo)致冗余,可以用相關(guān)分析來(lái)檢測(cè);(3)數(shù)據(jù)值沖突的檢測(cè)與處理:有些屬性因表示比例或編碼不同,會(huì)導(dǎo)致屬性不同。2.10 假定我們對(duì)一個(gè)比率屬性 x 使用平方根變換,得到一個(gè)新屬性 x*。作為分析的一部分,你識(shí)別出區(qū)間(a, b),在該區(qū)間內(nèi),x*與另一個(gè)屬性 y 具有線性關(guān)系。(a)換算成 x, (a, b)的對(duì)應(yīng)區(qū)間是什么?(b)給出 y 關(guān)聯(lián) x 的方程。答:(a)(a2,b2);(b)Y=kx0.5 +C (k, C 是常數(shù))。2.11 討論
20、使用抽樣減少需要顯示的數(shù)據(jù)對(duì)象個(gè)數(shù)的優(yōu)缺點(diǎn)。簡(jiǎn)單隨機(jī)抽樣(無(wú)放回)是一種好的抽樣方法嗎?為什么是,為什么不是?答:抽樣減少需要顯示的數(shù)據(jù)對(duì)象個(gè)數(shù)的優(yōu)點(diǎn)是減少處理數(shù)據(jù)的費(fèi)用和時(shí)間。缺點(diǎn)是不能利用總體的已知信息和代表總體數(shù)據(jù)的信息。簡(jiǎn)單隨機(jī)抽樣(無(wú)放回)不是一種好的抽樣方法,不能充分地代表不太頻繁出現(xiàn)的對(duì)象類(lèi)型和每個(gè)對(duì)象被選中的概率不一樣。2.12 給定 m 個(gè)對(duì)象的集合,這些對(duì)象劃分成 K 組,其中第 i 組的大小為 m i 。如果目標(biāo)是得到容量為 n<m 的樣本,下面兩種抽樣方案有什么區(qū)別?(假定使用有放回抽樣)(a)從每組隨機(jī)地選擇 n×m i /m 個(gè)元素。(b)從數(shù)據(jù)集中
21、隨機(jī)地選擇 n 個(gè)元素,而不管對(duì)象屬于哪個(gè)組。答:(a)組保證了可以在每個(gè)組里面得到等比例的樣本,而(b)組在每個(gè)組里面抽取的樣本的個(gè)數(shù)是隨機(jī)的,不能保證每個(gè)組都能抽到樣本。2. 13 一個(gè)地方公司的銷(xiāo)售主管與你聯(lián)系,他相信他已經(jīng)設(shè)計(jì)出了一種評(píng)估顧客滿(mǎn)意度的方法。他這樣解釋他的方案:“這太簡(jiǎn)單了,我簡(jiǎn)直不敢相信,以前竟然沒(méi)有人想到,我只是記錄顧客對(duì)每種產(chǎn)品的抱怨次數(shù),我在數(shù)據(jù)挖掘的書(shū)中讀到計(jì)數(shù)具有比率屬性,因此,我的產(chǎn)品滿(mǎn)意度度量必定具有比率屬性。但是,當(dāng)我根據(jù)我的顧客滿(mǎn)意度度量評(píng)估產(chǎn)品并拿給老板看時(shí),他說(shuō)我忽略了顯而易見(jiàn)的東西,說(shuō)我的度量毫無(wú)價(jià)值。我想,他簡(jiǎn)直是瘋了,因?yàn)槲覀兊臅充N(xiāo)產(chǎn)品滿(mǎn)意度
22、最差,因?yàn)閷?duì)它的抱怨最多。你能幫助我擺平他嗎?”(a)誰(shuí)是對(duì)的,銷(xiāo)售主管還是他的老板?如果你的答案是他的老板,你做些什么來(lái)修正滿(mǎn)意度度量?(b)對(duì)于原來(lái)的產(chǎn)品滿(mǎn)意度度量的屬性類(lèi)型,你能說(shuō)些什么?答: (a) 老板是對(duì)的。更好的衡量方法應(yīng)該如下:不滿(mǎn)意率(產(chǎn)品)=每種產(chǎn)品的抱怨次數(shù)/ 該產(chǎn)品的總銷(xiāo)售量(b) 原來(lái)衡量方法的屬性類(lèi)型是沒(méi)有意義的。例如,兩件商品有相同的顧客滿(mǎn)意度可能會(huì)有不同的抱怨次數(shù),反之亦然。第 7 頁(yè) 共 27 頁(yè)2.14 考慮一個(gè)文檔-詞矩陣,其中ijtf 是第 i 個(gè)詞(術(shù)語(yǔ))出現(xiàn)在第 j 個(gè)文檔中的頻率,而 m 是文檔數(shù)。考慮由下式定義的變量變換:iij ijdfmtf
23、tf log' =其中,idf 是出現(xiàn) i 個(gè)詞的文檔數(shù),稱(chēng)作詞的文檔頻率(document frequency)。該變換稱(chēng)作逆文檔頻率變換(inverse document frequency)。(a)如果出現(xiàn)在一個(gè)文檔中,該變換的結(jié)果是什么?如果術(shù)語(yǔ)出現(xiàn)在每個(gè)文檔中呢?(b)該變換的目的可能是什么?答: (a) 如果該詞出現(xiàn)在每一個(gè)文檔中,它的詞權(quán)就會(huì)為 0,但是如果這個(gè)詞僅僅出現(xiàn)在一個(gè)文檔中,它就有最大的詞權(quán),例如,log m 。(b) 這個(gè)變換反映了以下一個(gè)現(xiàn)象:當(dāng)一個(gè)詞出現(xiàn)在每一個(gè)文檔中,對(duì)于文檔與文檔之間,該詞沒(méi)有區(qū)分能力,但是那些只是某一兩篇文檔出現(xiàn)的詞,其區(qū)分文檔的能力
24、就較強(qiáng)。2.15 對(duì)于下面的向量 x 和 y,計(jì)算指定的相似性或距離度量。(a)x=(1,1,1,1),y=(2,2,2,2) 余弦相似度、相關(guān)系數(shù)、歐幾里得。(b) x=(0,1,0,1),y=(1,0,1,0) 余弦相似度、相關(guān)系數(shù)、歐幾里得、Jaccard 系數(shù)。(c) x=(2,-1,0,2,0,-3),y=(-1,1,-1,0,0,-1) 余弦相似度、相關(guān)系數(shù)。答:(a) 余弦相似度、相關(guān)系數(shù)、歐幾里得分別是 0.5,0,2;(b) 余弦相似度、相關(guān)系數(shù)、歐幾里得、Jaccard 系數(shù)分別是 0,1,2,0;(c) 余弦相似度、相關(guān)系數(shù)分別是 0,0。2.16 簡(jiǎn)單地描述如何計(jì)算由以
25、下類(lèi)型的變量描述的對(duì)象間的相異度:(a) 不對(duì)稱(chēng)的二元變量(b) 分類(lèi)變量(c) 比例標(biāo)度型(ratio-scaled)變量(d) 數(shù)值型變量答:(a) 使用 Jaccard 系數(shù)計(jì)算不對(duì)稱(chēng)的二元變量的相異度;(b) 采用屬性值匹配的方法(屬性值匹配,相似度為 1,否則為 0)可以計(jì)算用分類(lèi)變量描述的對(duì)象間的相異度;(c) 對(duì)比例標(biāo)度變量進(jìn)行對(duì)數(shù)變換,對(duì)變換得到的值采用與處理區(qū)間標(biāo)度變量相同的方法來(lái)計(jì)算相異度;(d) 可采用歐幾里得距離公式或曼哈頓距離公式計(jì)算。2.17 給定兩個(gè)向量對(duì)象,分別表示為 p1(22,1,42,10),p2(20,0,36,8):(a) 計(jì)算兩個(gè)對(duì)象之間的歐幾里得距
26、離(b) 計(jì)算兩個(gè)對(duì)象之間的曼哈頓距離(c) 計(jì)算兩個(gè)對(duì)象之間的切比雪夫距離(d) 計(jì)算兩個(gè)對(duì)象之間的閔可夫斯基距離,用 x=3答:(a) 計(jì)算兩個(gè)對(duì)象之間的歐幾里得距離45 8 10 36 42 0 1 20 222 2 2 212= + + + = ) ( ) ( ) ( ) ( d第 8 頁(yè) 共 27 頁(yè)(b) 計(jì)算兩個(gè)對(duì)象之間的曼哈頓距離11 8 10 36 42 0 1 20 2212= + + + = | | | | | | | | d(c) 計(jì)算兩個(gè)對(duì)象之間的閔可夫斯基距離,其中參數(shù) r=33 3 3 3 3 312233 8 10 36 42 0 1 20 22 = + + +
27、 = | | | | | | | | d2.18 以下表格包含了屬性 name,gender,trait-1,trait-2,trait-3,及 trait-4,這里的 name 是對(duì)象的 id,gender 是一個(gè)對(duì)稱(chēng)的屬性,剩余的 trait 屬性是不對(duì)稱(chēng)的,描述了希望找到的筆友的個(gè)人特點(diǎn)。假設(shè)有一個(gè)服務(wù)是試圖發(fā)現(xiàn)合適的筆友。name gender trait-1 trait-2 trait-3 trait-4Keavn M N P P NCaroline F N P P NErik M P N N P對(duì)不對(duì)稱(chēng)的屬性的值,值 P 被設(shè)為 1,值 N 被設(shè)為 0。假設(shè)對(duì)象(潛在的筆友)間的距
28、離是基于不對(duì)稱(chēng)變量來(lái)計(jì)算的。(a) 計(jì)算對(duì)象間的簡(jiǎn)單匹配系數(shù);(b) 計(jì)算對(duì)象間的 Jaccard 系數(shù);(c) 你認(rèn)為哪兩個(gè)人將成為最佳筆友?哪兩個(gè)會(huì)是最不能相容的?(d) 假設(shè)我們將對(duì)稱(chēng)變量 gender 包含在我們的分析中?;?Jaccard 系數(shù),誰(shuí)將是最和諧的一對(duì)?為什么?答:(a) 計(jì)算對(duì)象間的簡(jiǎn)單匹配系數(shù)SMC (Keavn, Caroline) = (2+2)/( 0+0+2+2) = 1SMC(Keavn, Erik) = (0+0)/( 2+2+0+0) = 0SMC(Caroline,Erik) = (0+0)/( 2+2+0+0) = 0(b) 計(jì)算對(duì)象間的 Jacc
29、ard 系數(shù)Jaccard (Keavn, Caroline) = 2/(2+0+0) = 1Jaccard (Keavn, Erik) = 0/(0+2+2) = 0Jaccard (Caroline,Erik) = 0/(0+2+2) = 0(c) 根據(jù)屬性的匹配程度,Keavn 和 Caroline 將成為最佳筆友,Caroline 和 Erik 會(huì)是最不能相容的。(d) 若將對(duì)稱(chēng)變量 gender 包含在分析中,設(shè)值 M 被設(shè)為 1,值 F 被設(shè)為 0,Jaccard (Keavn, Caroline) = 2/(2+1+0) = 2/3Jaccard (Keavn, Erik) =
30、1/(1+2+2) = 1/5Jaccard (Caroline,Erik) = 0/(0+2+3) = 0因?yàn)?Jaccard (Keavn, Caroline)最大,因此,Keavn 和 Caroline 是最和諧的一對(duì)。2.19 給定一個(gè)在區(qū)間0,1取值的相似性度量,描述兩種將該相似度變換成區(qū)間0,中的相異度的方法。答:取倒數(shù)減一: 1) , (1) , ( =q p sq p d第 9 頁(yè) 共 27 頁(yè)取對(duì)數(shù): ) , ( log( ) , ( q p s q p d =第 3 章分類(lèi)與回歸3.1 簡(jiǎn)述決策樹(shù)分類(lèi)的主要步驟。答:決策樹(shù)生成的過(guò)程如下:(1)對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)預(yù)處理, 得到
31、訓(xùn)練集和測(cè)試集;(2)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練;(3)對(duì)初始決策樹(shù)進(jìn)行樹(shù)剪枝;(4)由所得到的決策樹(shù)提取分類(lèi)規(guī)則;(5)使用測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè),評(píng)估決策樹(shù)模型;3.2 給定決策樹(shù),選項(xiàng)有:(1)將決策樹(shù)轉(zhuǎn)換成規(guī)則,然后對(duì)結(jié)果規(guī)則剪枝,或(2)對(duì)決策樹(shù)剪枝,然后將剪枝后的樹(shù)轉(zhuǎn)換成規(guī)則。相對(duì)于(2),(1)的優(yōu)點(diǎn)是什么?答:相對(duì)于(2),(1)的優(yōu)點(diǎn)是:由于第一種方法已經(jīng)將決策樹(shù)轉(zhuǎn)換成規(guī)則,通過(guò)規(guī)則,可以很快速的評(píng)估決策樹(shù)以及其子樹(shù)緊湊程度,不能提高規(guī)則的估計(jì)準(zhǔn)確率的任何條件都可以減掉,從而泛化規(guī)則;3.3 計(jì)算決策樹(shù)算法在最壞情況下的時(shí)間復(fù)雜度是重要的。給定數(shù)據(jù)集 D,具有 m 個(gè)屬性和|D|個(gè)訓(xùn)練記錄
32、,證明決策樹(shù)生長(zhǎng)的計(jì)算時(shí)間最多為 ) log( D D m × × 。答:假設(shè)訓(xùn)練集擁有|D|實(shí)例以及 m 個(gè)屬性。我們需要對(duì)樹(shù)的尺寸做一個(gè)假設(shè),假設(shè)樹(shù)的深度是由 log |D| 決定,即 O(log |D|)??紤]一個(gè)屬性在樹(shù)的所有節(jié)點(diǎn)上所要做的工作量。當(dāng)然不必在每一個(gè)節(jié)點(diǎn)上考慮所有的實(shí)例。但在樹(shù)的每一層,必須考慮含有|D|個(gè)實(shí)例的整個(gè)數(shù)據(jù)集。由于樹(shù)有 log |D|個(gè)不同的層,處理一個(gè)屬性需要的工作量是) log(D D ×。在每個(gè)節(jié)點(diǎn)上所有屬性都要被考慮,因此總的工作量為) log(D D m × ×。3.4 考慮表 3-23所示二元分類(lèi)
33、問(wèn)題的數(shù)據(jù)集。表 3-23 習(xí)題 3. 4數(shù)據(jù)集A B 類(lèi)標(biāo)號(hào)T F +T T +T T +T F -T T +F F -F F -F F -T T -T F -(1) 計(jì)算按照屬性 A 和 B 劃分時(shí)的信息增益。決策樹(shù)歸納算法將會(huì)選擇那個(gè)屬性?(2) 計(jì)算按照屬性 A 和 B 劃分時(shí) Gini 系數(shù)。決策樹(shù)歸納算法將會(huì)選擇那個(gè)屬性?第 10 頁(yè) 共 27 頁(yè)答:按照屬性 A 和 B 劃分時(shí),數(shù)據(jù)集可分為如下兩種情況:A=T A=F+ 4 0- 3 3(1)劃分前樣本集的信息熵為 E=-0.4log 2 0.4-0.6log 2 0.6=0.9710按照屬性 A 劃分樣本集分別得到的兩個(gè)子集(
34、A 取值 T 和 A 取值 F)的信息熵分別為:0.985273log7374log74E2 2 T A= =030log3033log33E2 2 F A= =按照屬性 A 劃分樣本集得到的信息增益為: 2813 . 0103107= = = = F A T AE E E按照屬性 B 劃分樣本集分別得到的兩個(gè)子集(B 取值 T 和 B 取值 F)的信息熵分別為:0.811341log4143log43E2 2 T B= =0.650065log6561log61E2 2 F B= =按照屬性 B 劃分樣本集得到的信息增益為: 0.2565106104= = = = F B T BE E E因
35、此,決策樹(shù)歸納算法將會(huì)選擇屬性 A。(2)劃分前的 Gini 值為 G=1-0.4 2 -0.6 2 =0.48按照屬性 A 劃分時(shí) Gini 指標(biāo):0.489873741 G2 2T A= =030331 G2 2F A= =Gini 增益 0.1371103107= = = = F A T AG G G按照屬性 B 劃分時(shí) Gini 指標(biāo):0.375043411 G2 2T B= =0.2778656112 2= =F BGGini 增益 0.1633106104= = = = F B T BG G G因此,決策樹(shù)歸納算法將會(huì)選擇屬性 B。3.5 證明:將結(jié)點(diǎn)劃分為更小的后續(xù)結(jié)點(diǎn)之后,結(jié)點(diǎn)
36、熵不會(huì)增加。證明:根據(jù)定義可知,熵值越大,類(lèi)分布越均勻;熵值越小,類(lèi)分布越不平衡。假設(shè)原有的結(jié)點(diǎn)屬于各個(gè)類(lèi)的概率都相等,熵值為 1,則分出來(lái)的后續(xù)結(jié)點(diǎn)在各個(gè)類(lèi)上均勻分布,此時(shí)熵值為 1,即熵值不變。假設(shè)原有的結(jié)點(diǎn)屬于個(gè)各類(lèi)的概率不等,因而分出來(lái)的B=T B=F+ 3 1- 1 5第 11 頁(yè) 共 27 頁(yè)后續(xù)結(jié)點(diǎn)不均勻地分布在各個(gè)類(lèi)上,則此時(shí)的分類(lèi)比原有的分類(lèi)更不均勻,故熵值減少。3.6 為什么樸素貝葉斯稱(chēng)為“樸素”?簡(jiǎn)述樸素貝葉斯分類(lèi)的主要思想。答:樸素貝葉斯之所以稱(chēng)之為樸素是因?yàn)?,它假設(shè)屬性之間是相互獨(dú)立的。樸素貝葉斯分類(lèi)的主要思想為:利用貝葉斯定理,計(jì)算未知樣本屬于某個(gè)類(lèi)標(biāo)號(hào)值的概率,根
37、據(jù)概率值的大小來(lái)決定未知樣本的分類(lèi)結(jié)果。(通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類(lèi)的概率,選擇具有最大后驗(yàn)概率的類(lèi)作為該對(duì)象所屬的類(lèi)。)3.7 考慮表 3-24數(shù)據(jù)集,請(qǐng)完成以下問(wèn)題:表 3-24 習(xí)題 3. 7數(shù)據(jù)集記錄號(hào) A B C 類(lèi)1 0 0 0 +2 0 0 1 -3 0 1 1 -4 0 1 1 -5 0 0 1 +6 1 0 1 +7 1 0 1 -8 1 0 1 -9 1 1 1 +10 1 0 1 +(1) 估計(jì)條件概率 ) | ( + A P , ) | ( + B P , ) | ( + C P , ) | ( A P , ) | ( B
38、P , ) | ( C P 。(2) 根據(jù)(1)中的條件概率,使用樸素貝葉斯方法預(yù)測(cè)測(cè)試樣本(A=0,B=1,C=0)的類(lèi)標(biāo)號(hào);(3) 使用 Laplace 估計(jì)方法,其中 p=1/2,l=4,估計(jì)條件概率 ) | ( + A P , ) | ( + B P , ) | ( + C P ,) | ( A P , ) | ( B P , ) | ( C P 。(4) 同(2),使用(3)中的條件概率(5) 比較估計(jì)概率的兩種方法,哪一種更好,為什么?答:(1) ) | ( + A P =3/5) | ( + B P =1/5) | ( A P =2/5) | ( B P =2/5) | ( C
39、P =1(2) 假設(shè) P(A=0,B=1,C=0)=K則 K 屬于兩個(gè)類(lèi)的概率為:P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=0.4×0.2×0.2×0.5/K=0.008/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=0.4×0.2×0×0.5/K=0/K則得到,此樣本的類(lèi)標(biāo)號(hào)是+。第 12 頁(yè) 共 27 頁(yè)
40、(3) P(A|+)=(3+2)/(5+4)=5/9P(A|-)=(2+2)/(5+4)=4/9P(B|+)=(1+2)/(5+4)=1/3P(B|-)=(2+2)/(5+4)=4/9P(C|-)=(0+2)/(5+4)=2/9(4) 假設(shè) P(A=0,B=1,C=0)=K則 K 屬于兩個(gè)類(lèi)的概率為:P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=(4/9) ×(1/3) ×(1/3) ×0.5/K=0.0247/KP(-|A=0,B=1,C=0)=P(A
41、=0,B=1,C=0)×P(-)/K=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=(5/9) ×(4/9) ×(2/9) ×0.5/K=0.0274/K則得到,此樣本的類(lèi)標(biāo)號(hào)是-。(5) 當(dāng)條件概率為 0 的時(shí)候,條件概率的預(yù)測(cè)用 Laplace 估計(jì)方法比較好,因?yàn)槲覀儾幌胝麄€(gè)條件概率計(jì)算結(jié)果為 0.3.8 考慮表 3-25 中的一維數(shù)據(jù)集。表 3-25 習(xí)題 3.8 數(shù)據(jù)集X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5Y - - + + + - - + - -根據(jù) 1-最近鄰、3-最近鄰、
42、5-最近鄰、9-最近鄰,對(duì)數(shù)據(jù)點(diǎn) x=5.0 分類(lèi),使用多數(shù)表決。答: 1-最近鄰:+3-最近鄰:-5-最近鄰:+9-最近鄰:-3.9 表 3-26 的數(shù)據(jù)集包含兩個(gè)屬性 X 與 Y,兩個(gè)類(lèi)標(biāo)號(hào)“+”和“-”。每個(gè)屬性取三個(gè)不同值策略:0,1 或 2?!?”類(lèi)的概念是 Y=1,“-”類(lèi)的概念是 X=0 and X=2。表 3-26 習(xí)題 3.9 數(shù)據(jù)集實(shí)例數(shù)X Y+ -0 0 0 1001 0 0 02 0 0 1001 1 10 02 1 10 1000 2 0 1001 2 0 02 2 0 100第 13 頁(yè) 共 27 頁(yè)(1) 建立該數(shù)據(jù)集的決策樹(shù)。該決策樹(shù)能捕捉到“+”和“-”的概念
43、嗎?(2) 決策樹(shù)的準(zhǔn)確率、精度、召回率和 F1 各是多少?(注意,精度、召回率和 F1 量均是對(duì)“+”類(lèi)定義)(3) 使用下面的代價(jià)函數(shù)建立新的決策樹(shù),新決策樹(shù)能捕捉到“+”的概念么?+ = =+ = + =j ij ij ij i C, 10) , (如果實(shí)例個(gè)數(shù)實(shí)例個(gè)數(shù)如果如果(提示:只需改變?cè)瓫Q策樹(shù)的結(jié)點(diǎn)。)答:(1)在數(shù)據(jù)集中有 20 個(gè)正樣本和 500 個(gè)負(fù)樣本,因此在根節(jié)點(diǎn)處錯(cuò)誤率為52020)520500,52020max( 1 = = E如果按照屬性 X 劃分,則:X=0 X=1 X=2+ 0 10 10- 200 0 300E X=0 =0/310=0E X=1 =0/10
44、=0E X=2 =10/31052010310105203100520100520200= × × × = EX如果按照屬性 Y 劃分,則:Y=0 Y=1 Y=2+ 0 20 0- 200 100 200E Y=0 =0/200=0E Y=1 =20/120E Y=2 =0/200=0012020520120= × = EX因此 X 被選為第一個(gè)分裂屬性,因?yàn)?X=0 和 X=1 都是純節(jié)點(diǎn),所以使用 Y 屬性去分割不純節(jié)點(diǎn) X=2。Y=0 節(jié)點(diǎn)包含 100 個(gè)負(fù)樣本,Y=1 節(jié)點(diǎn)包含 10 個(gè)正樣本和 100 個(gè)負(fù)樣本,Y=2 節(jié)點(diǎn)包含 100 個(gè)負(fù)樣
45、本,所以子節(jié)點(diǎn)被標(biāo)記為“”。整個(gè)結(jié)果為:類(lèi)標(biāo)記= +其他 ,1 , X(2)預(yù)測(cè)類(lèi) + -+ 10 10 實(shí)際類(lèi)- 0 500第 14 頁(yè) 共 27 頁(yè)accuracy:520510=0.9808,precision:1010=1.0recall:2010=0.5 , F-measure:5 . 0 0 . 10 . 1 5 . 0 2+ =0.6666(3)由題可得代價(jià)矩陣為預(yù)測(cè)類(lèi) + -+ 0 500/20=25 實(shí)際類(lèi)- 1 0決策樹(shù)在(1)之后還有 3 個(gè)葉節(jié)點(diǎn),X=2Y=0,X=2Y=1,X=2Y=2。其中X=2Y=1 是不純節(jié)點(diǎn),誤分類(lèi)該節(jié)點(diǎn)為“+”類(lèi)的代價(jià)為:10 0+100 1
46、=100,誤分該節(jié)點(diǎn)為“”類(lèi)的代價(jià)為:10 25+100 0=250。所以這些節(jié)點(diǎn)被標(biāo)記為“+”類(lèi)。分類(lèi)結(jié)果為:( )= = = +=其他類(lèi)標(biāo)記1 2 1 Y X X3.10 什么是提升?陳述它為何能提高決策樹(shù)歸納的準(zhǔn)確性?答:提升是指給每個(gè)訓(xùn)練元組賦予權(quán)重,迭代地學(xué)習(xí) k 個(gè)分類(lèi)器序列,學(xué)習(xí)得到分類(lèi)器 M i之后,更新權(quán)重,使得其后的分類(lèi)器 M i+1 “更關(guān)注”M i 誤分的訓(xùn)練元組,最終提升的分類(lèi)器 M*組合每個(gè)個(gè)體分類(lèi)器,其中每個(gè)分類(lèi)器投票的權(quán)重是其準(zhǔn)確率的函數(shù)。在提升的過(guò)程中,訓(xùn)練元組的權(quán)重根據(jù)它們的分類(lèi)情況調(diào)整,如果元組不正確地分類(lèi),則它的權(quán)重增加,如果元組正確分類(lèi),則它的權(quán)重減少
47、。元組的權(quán)重反映對(duì)它們分類(lèi)的困難程度,權(quán)重越高,越可能錯(cuò)誤的分類(lèi)。根據(jù)每個(gè)分類(lèi)器的投票,如果一個(gè)分類(lèi)器的誤差率越低,提升就賦予它越高的表決權(quán)重。在建立分類(lèi)器的時(shí)候,讓具有更高表決權(quán)重的分類(lèi)器對(duì)具有更高權(quán)重的元組進(jìn)行分類(lèi),這樣,建立了一個(gè)互補(bǔ)的分類(lèi)器系列。所以能夠提高分類(lèi)的準(zhǔn)確性。3.11 表 3-27 給出課程數(shù)據(jù)庫(kù)中學(xué)生的期中和期末考試成績(jī)。表 3-27 習(xí)題 3.11 數(shù)據(jù)集期中考試 期末考試X Y72 8450 6381 7774 7894 9086 7559 4983 7965 7733 5288 74第 15 頁(yè) 共 27 頁(yè)81 90(1) 繪制數(shù)據(jù)的散點(diǎn)圖。X 和 Y 看上去具有
48、線性聯(lián)系嗎?(2) 使用最小二乘法,由學(xué)生課程中成績(jī)預(yù)測(cè)學(xué)生的期末成績(jī)的方程式。(3) 預(yù)測(cè)期中成績(jī)?yōu)?86 分的學(xué)生的期末成績(jī)。答:(1)數(shù)據(jù)圖如下所示:01020304050607080901000 20 40 60 80 100系列1X 和 Y 具有線性聯(lián)系。(2)Y = a + b*Xa = Y 0 + b*X 0b = (x i y i -nX 0 Y 0 )/(x i 2 -nX 0 2 )X 0 = (x i )/nY 0 = (y i )/n求得 a = 32.0279,b = 0.5816。(3) 由(2)中表可得,預(yù)測(cè)成績(jī)?yōu)?86 分的學(xué)生的期末成績(jī)?yōu)?82.0455。3.
49、12 通過(guò)對(duì)預(yù)測(cè)變量變換,有些非線性回歸模型可以轉(zhuǎn)換成線性模型。指出如何將非線性回歸方程ax y = 轉(zhuǎn)換成可以用最小二乘法求解的線性回歸方程。X Y X*Y X2 預(yù)測(cè) Y1 72 84 6048 5184 73. 90312 50 63 3150 2500 61. 10793 81 77 6237 6561 79. 13754 74 78 5772 5476 75. 06635 94 90 8460 8836 86. 69836 86 75 6450 7396 82. 04557 59 49 2891 3481 66. 34238 83 79 6557 6889 80. 30079 65
50、77 5005 4225 69. 831910 33 52 1716 1089 51. 220711 88 74 6512 7744 83. 208712 81 90 7290 6561 79. 1375SUM 866 888 66088 65942 第 16 頁(yè) 共 27 頁(yè)答:令x w= ,對(duì)樣本數(shù)據(jù)做變換 ) ,., 2 , 1 ( n i x wi i= =,利用 (w i , Y i )(i=1 , 2 , n)解出 y = aw 中的 a ,再代入ax y = 即得到 y 對(duì) x 的回歸方程。第 第 4 章聚類(lèi)分析4.1 什么是聚類(lèi)?簡(jiǎn)單描述如下的聚類(lèi)方法:劃分方法,層次方法,基于
51、密度的方法,基于模型的方法。為每類(lèi)方法給出例子。答:聚類(lèi)是將數(shù)據(jù)劃分為相似對(duì)象組的過(guò)程,使得同一組中對(duì)象相似度最大而不同組中對(duì)象相似度最小。主要有以下幾種類(lèi)型方法:(1) 劃分方法給定一個(gè)有 N 個(gè)元組或者記錄的數(shù)據(jù)集,分裂法將構(gòu)造 K 個(gè)分組,每一個(gè)分組就代表一個(gè)聚類(lèi), K<N 。而且這 K 個(gè)分組滿(mǎn)足下列條件:第一,每一個(gè)分組至少包含一條記錄;第二,每一條記錄屬于且僅屬于一個(gè)分組 ( 注意:這個(gè)要求在某些模糊聚類(lèi)算法中可以放寬 ) ;對(duì)于給定的 K ,算法首先給出一個(gè)初始的分組方法,以后通過(guò)反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好,而所謂好的標(biāo)準(zhǔn)就是:同一分組
52、中的記錄越近越好,而不同分組中的記錄越遠(yuǎn)越好。使用這個(gè)基本思想的算法有: K-MEANS 算法、 K-MEDOIDS 算法、 CLARANS 算法。(2) 層次方法這種方法對(duì)給定的數(shù)據(jù)集進(jìn)行層次似的分解,直到某種條件滿(mǎn)足為止。具體又可分為 “ 自底向上 ” 和 “ 自頂向下 ” 兩種方案。例如在 “ 自底向上 ” 方案中,初始時(shí)每一個(gè)數(shù)據(jù)記錄都組成一個(gè)單獨(dú)的組,在接下來(lái)的迭代中,它把那些相互鄰近的組合并成一個(gè)組,直到所有的記錄組成一個(gè)分組或者某個(gè)條件滿(mǎn)足為止。代表算法有: BIRCH 算法、 CURE 算法、 CHAMELEON 算法等。(3) 基于密度的方法基于密度的方法與其它方法的一個(gè)根本
53、區(qū)別是:它不是基于各種各樣的距離,而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn) “ 類(lèi)圓形 ” 的聚類(lèi)的缺點(diǎn)。這個(gè)方法的指導(dǎo)思想就是:只要一個(gè)區(qū)域中的點(diǎn)的密度大過(guò)某個(gè)閾值,就把它加到與之相近的聚類(lèi)中去。代表算法有: DBSCAN 算法、 OPTICS 算法、 DENCLUE 算法等。(4) 基于模型的方法基于模型的方法給每一個(gè)聚類(lèi)假定一個(gè)模型,然后去尋找能夠很好的滿(mǎn)足這個(gè)模型的數(shù)據(jù)。這樣一個(gè)模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其它。它的一個(gè)潛在假定就是:目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的。基于模型的方法主要有兩類(lèi):統(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法 (SOM) 。4.2 假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的 8 個(gè)點(diǎn) ( 用 (x,y) 代表位置 ) 聚類(lèi)為三個(gè)簇。A1(2,1
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 微生物檢驗(yàn)未來(lái)職業(yè)路徑展望試題及答案
- 感染性疾病微生物檢驗(yàn)試題及答案
- 合同風(fēng)險(xiǎn)防控協(xié)議
- 克服難關(guān)2025年注冊(cè)會(huì)計(jì)師考試策略試題及答案
- 提高幼兒園學(xué)生閱讀與寫(xiě)作能力的工作計(jì)劃
- 2025年特許金融分析師考試心理準(zhǔn)備方法試題及答案
- 2025年注冊(cè)會(huì)計(jì)師求職技能培養(yǎng)試題及答案
- 強(qiáng)化倉(cāng)庫(kù)裝卸作業(yè)的安全管理計(jì)劃
- 分析崗位勝任力模型計(jì)劃
- 國(guó)家級(jí)課題申報(bào)書(shū)
- 畢業(yè)論文工程量計(jì)算與造價(jià)控制
- 人機(jī)料安全等方面應(yīng)急措施及處理方法
- DL-T 748.8-2021 火力發(fā)電廠鍋爐機(jī)組檢修導(dǎo)則 第8部分:空氣預(yù)熱器檢修
- 麻醉學(xué)課件:多器官功能障礙綜合征
- 2023年中石油職稱(chēng)英語(yǔ)考試通用選讀
- GB/T 24128-2018塑料塑料防霉劑的防霉效果評(píng)估
- GB/T 22864-2009毛巾
- GB/T 21403-2008噴灌設(shè)備文丘里式差壓液體添加射流器
- GB/T 15923-2010鎳礦石化學(xué)分析方法鎳量測(cè)定
- 30電導(dǎo)率儀作業(yè)指導(dǎo)書(shū)
- 給水廠畢業(yè)設(shè)計(jì)正文(全)
評(píng)論
0/150
提交評(píng)論