習(xí)題及參考答案_第1頁
習(xí)題及參考答案_第2頁
習(xí)題及參考答案_第3頁
習(xí)題及參考答案_第4頁
習(xí)題及參考答案_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

.z.習(xí)題參考答案第1章緒論1.1數(shù)據(jù)挖掘處理的對(duì)象有哪些?請(qǐng)從實(shí)際生活中舉出至少三種。答:數(shù)據(jù)挖掘處理的對(duì)象是*一專業(yè)領(lǐng)域中積累的數(shù)據(jù),對(duì)象既可以來自社會(huì)科學(xué),又可以來自自然科學(xué)產(chǎn)生的數(shù)據(jù),還可以是衛(wèi)星觀測(cè)得到的數(shù)據(jù)。數(shù)據(jù)形式和構(gòu)造也各不一樣,可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫,可以是面向?qū)ο蟮母呒?jí)數(shù)據(jù)庫系統(tǒng),也可以是面向特殊應(yīng)用的數(shù)據(jù)庫,如空間數(shù)據(jù)庫、時(shí)序數(shù)據(jù)庫、文本數(shù)據(jù)庫和多媒體數(shù)據(jù)庫等,還可以是Web數(shù)據(jù)信息。實(shí)際生活的例子:①電信行業(yè)中利用數(shù)據(jù)挖掘技術(shù)進(jìn)展客戶行為分析,包含客戶通話記錄、通話時(shí)間、所開通的效勞等,據(jù)此進(jìn)展客戶群體劃分以及客戶流失性分析。②天文領(lǐng)域中利用決策樹等數(shù)據(jù)挖掘方法對(duì)上百萬天體數(shù)據(jù)進(jìn)展分類與分析,幫助天文學(xué)家發(fā)現(xiàn)其他未知星體。③制造業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)展零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。④市場(chǎng)業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)展市場(chǎng)定位、消費(fèi)者分析、輔助制定市場(chǎng)營銷策略等。1.2給出一個(gè)例子,說明數(shù)據(jù)挖掘?qū)ι虅?wù)的成功是至關(guān)重要的。該商務(wù)需要什么樣的數(shù)據(jù)挖掘功能?它們能夠由數(shù)據(jù)查詢處理或簡單的統(tǒng)計(jì)分析來實(shí)現(xiàn)嗎?答:例如,數(shù)據(jù)挖掘在電子商務(wù)中的客戶關(guān)系管理起到了非常重要的作用。隨著各個(gè)電子商務(wù)的建立,企業(yè)紛紛地從"產(chǎn)品導(dǎo)向〞轉(zhuǎn)向"客戶導(dǎo)向〞,如何在保持現(xiàn)有的客戶同時(shí)吸引更多的客戶、如何在客戶群中發(fā)現(xiàn)潛在價(jià)值,一直都是電子商務(wù)企業(yè)重要任務(wù)。但是,傳統(tǒng)的數(shù)據(jù)分析處理,如數(shù)據(jù)查詢處理或簡單的統(tǒng)計(jì)分析,只能在數(shù)據(jù)庫中進(jìn)展一些簡單的數(shù)據(jù)查詢和更新以及一些簡單的數(shù)據(jù)計(jì)算操作,卻無法從現(xiàn)有的大量數(shù)據(jù)中挖掘潛在的價(jià)值。而數(shù)據(jù)挖掘技術(shù)卻能使用如聚類、關(guān)聯(lián)分析、決策樹和神經(jīng)網(wǎng)絡(luò)等多種方法,對(duì)數(shù)據(jù)庫中龐大的數(shù)據(jù)進(jìn)展挖掘分析,然后可以進(jìn)展客戶細(xì)分而提供個(gè)性化效勞、可以利用挖掘到的歷史流失客戶的特征來防止客戶流失、可以進(jìn)展產(chǎn)品捆綁推薦等,從而使電子商務(wù)更好地進(jìn)展客戶關(guān)系管理,提高客戶的忠誠度和滿意度。1.3假定你是Big-University的軟件工程師,任務(wù)是設(shè)計(jì)一個(gè)數(shù)據(jù)挖掘系統(tǒng),分析學(xué)校課程數(shù)據(jù)庫。該數(shù)據(jù)庫包括如下信息:每個(gè)學(xué)生的**、地址和狀態(tài)(例如,本科生或研究生)、所修課程,以及他們的GPA。描述你要選取的構(gòu)造,該構(gòu)造的每個(gè)成分的作用是什么?答:任務(wù)目的是分析課程數(shù)據(jù)庫,則首先需要有包含信息的關(guān)系型數(shù)據(jù)庫系統(tǒng),以便查找、提取每個(gè)屬性的值;在取得數(shù)據(jù)后,需要有特征選擇模塊,通過特征選擇,找出要分析的屬性;接下來需要一個(gè)數(shù)據(jù)挖掘算法,或者數(shù)據(jù)挖掘軟件,它應(yīng)該包含像分類、聚類、關(guān)聯(lián)分析這樣的分析模塊,對(duì)選擇出來的特征值進(jìn)展分析處理;在得到結(jié)果后,可以用可視化軟件進(jìn)展顯示。1.4假定你作為一個(gè)數(shù)據(jù)挖掘參謀,受雇于一家因特網(wǎng)搜索引擎公司。通過特定的例子說明,數(shù)據(jù)挖掘可以為公司提供哪些幫助,如何使用聚類、分類、關(guān)聯(lián)規(guī)則挖掘和離群點(diǎn)檢測(cè)等技術(shù)為企業(yè)效勞。答:使用聚類發(fā)現(xiàn)互聯(lián)網(wǎng)中的不同群體,用于網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn);使用分類對(duì)客戶進(jìn)展等級(jí)劃分,從而實(shí)施不同的效勞;使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)大型數(shù)據(jù)集中間存在的關(guān)系,用于推薦搜索。如大局部搜索了"廣外〞的人都會(huì)繼續(xù)搜索"信息學(xué)院〞,則在搜索"廣外〞后會(huì)提示是否進(jìn)進(jìn)一步搜索"信息學(xué)院〞。使用離群點(diǎn)挖掘發(fā)現(xiàn)與大局部對(duì)象不同的對(duì)象,用于分析針對(duì)網(wǎng)絡(luò)的秘密收集信息的攻擊。1.5定義以下數(shù)據(jù)挖掘功能:關(guān)聯(lián)、分類、聚類、演變分析、離群點(diǎn)檢測(cè)。使用你熟悉的生活中的數(shù)據(jù),給出每種數(shù)據(jù)挖掘功能的例子。答:關(guān)聯(lián)是指發(fā)現(xiàn)樣本間或樣本不同屬性間的關(guān)聯(lián)。例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:major(*,"putingscience〞)?owns(*,"personalputer〞)[support=12%,confidence=98%]其中,*是一個(gè)表示學(xué)生的變量。該規(guī)則指出主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī)的學(xué)生所占比例為12%,同時(shí),主修計(jì)算機(jī)專業(yè)的學(xué)生有98%擁有個(gè)人計(jì)算機(jī)。分類是構(gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型(或功能),分類被用作預(yù)測(cè)目標(biāo)數(shù)據(jù)的類的標(biāo)簽。例如,通過對(duì)過去銀行客戶流失與未流失客戶數(shù)據(jù)的分析,得到一個(gè)預(yù)測(cè)模型,預(yù)測(cè)新客戶是否可能會(huì)流失。聚類是將數(shù)據(jù)劃分為相似對(duì)象組的過程,使得同一組中對(duì)象相似度最大而不同組中對(duì)象相似度最小。例如,通過對(duì)*大型超市客戶購物數(shù)據(jù)進(jìn)展聚類,將客戶聚類細(xì)分為低值客戶、高值客戶以及普通客戶等。數(shù)據(jù)演變分析描述和模型化隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì),盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測(cè),這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析。離群點(diǎn)檢測(cè)就是發(fā)現(xiàn)與眾不同的數(shù)據(jù)。可用于發(fā)現(xiàn)金融領(lǐng)域的欺詐檢測(cè)。1.6根據(jù)你的觀察,描述一個(gè)可能的知識(shí)類型,它需要由數(shù)據(jù)挖掘方法發(fā)現(xiàn),但本章未列出。它需要一種不同于本章列舉的數(shù)據(jù)挖掘技術(shù)嗎?答:建立一個(gè)局部的周期性作為一種新的知識(shí)類型,只要經(jīng)過一段時(shí)間的偏移量在時(shí)間序列中重復(fù)發(fā)生,則在這個(gè)知識(shí)類型中的模式是局部周期性的。需要一種新的數(shù)據(jù)挖掘技術(shù)解決這類問題。1.7討論以下每項(xiàng)活動(dòng)是否是數(shù)據(jù)挖掘任務(wù):(1)根據(jù)性別劃分公司的顧客。(2)根據(jù)可贏利性劃分公司的顧客。(3)計(jì)算公司的總銷售額。(4)按學(xué)生的標(biāo)識(shí)號(hào)對(duì)學(xué)生數(shù)據(jù)庫排序。(5)預(yù)測(cè)擲一對(duì)骰子的結(jié)果。(6)使用歷史記錄預(yù)測(cè)*公司未來的股票價(jià)格。(7)監(jiān)視病人心率的異常變化。(8)監(jiān)視地震活動(dòng)的地震波。(9)提取聲波的頻率。答:(1)不是,這屬于簡單的數(shù)據(jù)庫查詢。(2) 不是,這個(gè)簡單的會(huì)計(jì)計(jì)算;但是新客戶的利潤預(yù)測(cè)則屬于數(shù)據(jù)挖掘任務(wù)。(3) 不是,還是簡單的會(huì)計(jì)計(jì)算。(4) 不是,這是簡單的數(shù)據(jù)庫查詢。(5) 不是,由于每一面都是同等概率,則屬于概率計(jì)算;如概率是不同等的,根據(jù)歷史數(shù)據(jù)預(yù)測(cè)結(jié)果則更類似于數(shù)據(jù)挖掘任務(wù)。(6) 是,需要建立模型來預(yù)測(cè)股票價(jià)格,屬于數(shù)據(jù)挖掘領(lǐng)域中的預(yù)測(cè)模型。可以使用回歸來建模,或使用時(shí)間序列分析。(7)是,需要建立正常心率行為模型,并預(yù)警非正常心率行為。這屬于數(shù)據(jù)挖掘領(lǐng)域的異常檢測(cè)。假設(shè)有正常和非正常心率行為樣本,則可以看作一個(gè)分類問題。(8) 是,需要建立與地震活動(dòng)相關(guān)的不同波形的模型,并預(yù)警波形活動(dòng)。屬于數(shù)據(jù)挖掘領(lǐng)域的分類。(9) 不是,屬于信號(hào)處理。第2章數(shù)據(jù)處理根底2.1將以下屬性分類成二元的、分類的或連續(xù)的,并將它們分類成定性的(標(biāo)稱的或序數(shù)的)或定量的(區(qū)間的或比率的)。例子:年齡。答復(fù):分類的、定量的、比率的。(a)用AM和PM表示的時(shí)間。(b)根據(jù)曝光表測(cè)出的亮度。(c)根據(jù)人的判斷測(cè)出的亮度。(d)醫(yī)院中的病人數(shù)。(e)書的ISBN號(hào)。(f)用每立方厘米表示的物質(zhì)密度。答:(a)二元,定量,比率;(b)連續(xù),定量,比率;(c)分類,定性,標(biāo)稱;(d)連續(xù),定量,比率;(e)分類,定性,標(biāo)稱;(f)連續(xù),定量,比率。2.2你能想象一種情況,標(biāo)識(shí)號(hào)對(duì)于預(yù)測(cè)是有用的嗎?答:學(xué)生的ID號(hào)可以預(yù)測(cè)該學(xué)生的畢業(yè)日期。2.3在現(xiàn)實(shí)世界的數(shù)據(jù)中,元組在*些屬性上缺失值是常有的。請(qǐng)描述處理該問題的各種方法。答:處理遺漏值問題的策略有如下幾種。(1)刪除數(shù)據(jù)對(duì)象或?qū)傩?。一種簡單而有效的策略是刪除具有遺漏值的數(shù)據(jù)對(duì)象。然而,即使局部給定的數(shù)據(jù)對(duì)象也包含一些信息,并且,如果許多對(duì)象都有遺漏值,則很難甚至不可能進(jìn)展可靠的分析。盡管如此,如果一個(gè)數(shù)據(jù)集只有少量的對(duì)象具有遺漏值,則忽略他們可能是合算的。一種相關(guān)的策略是刪除具有遺漏值的屬性。然而,做這件事要小心,因?yàn)楸粍h除的屬性可能對(duì)分析是至關(guān)重要的。(2)估計(jì)遺漏值。有時(shí),遺漏值可以可靠地估計(jì)。例如,在考慮以較平滑的方式變化的具有少量但大大分散的遺漏值的時(shí)間序列,遺漏值可以使用其他值來估計(jì)(插值)。作為另一個(gè)例子,考慮一個(gè)具有許多相似數(shù)據(jù)點(diǎn)的數(shù)據(jù)集。在這種情況下,與具有遺漏值的點(diǎn)鄰近的點(diǎn)的屬性值常??梢杂脕砉烙?jì)遺漏的值。如果屬性是連續(xù)的,則可以使用最近鄰的平均屬性值;如果屬性是分類的,則可以取最近鄰中最常出現(xiàn)的屬性值。(3)在分析時(shí)忽略遺漏值。許多數(shù)據(jù)挖掘方法都可以修改,忽略遺漏值。例如。假定正在對(duì)數(shù)據(jù)對(duì)象聚類,需要計(jì)算數(shù)據(jù)對(duì)象間的相似性;如果對(duì)于*屬性,兩個(gè)對(duì)象之一或兩個(gè)對(duì)象都有遺漏值,則可以僅使用沒有遺漏值的屬性來計(jì)算相似性。當(dāng)然,這種相似性只是緊鄰的,但是除非整個(gè)屬性數(shù)目很少,或者遺漏值的數(shù)量很大,否則這種誤差影響不大。同樣的,許多分類方法都可以修改,處理遺漏值。2.4以下規(guī)*方法的值域是什么?(a)min-ma*規(guī)*化。(b)z-score規(guī)*化。(c)小數(shù)定標(biāo)規(guī)*化。答:(a)[new_min,new_ma*];(b)(-∞,+∞);(c)(-1.0,1.0)。2.5假定用于分析的數(shù)據(jù)包含屬性age,數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。(a)使用按箱平均值平滑對(duì)以上數(shù)據(jù)進(jìn)展平滑,箱的深度為3。解釋你的步驟。評(píng)論對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。(b)對(duì)于數(shù)據(jù)平滑,還有哪些其它方法?答:(a)數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70,且箱的深度為3,劃分為(等頻)箱:箱1:13,15,16箱2:16,19,20箱3:20,21,22箱4:22,25,25箱5:25,25,30箱6:33,33,33箱7:35,35,35箱8:35,36,40箱9:45,46,52箱10:70用箱均值光滑:箱1:15,15,15箱2:18,18,18箱3:21,21,21箱4:24,24,24箱5:27,27,37箱6:33,33,33箱7:35,35,35箱8:37,37,37箱9:48,48,48箱10:70;(b)對(duì)于數(shù)據(jù)平滑,其它方法有:(1)回歸:可以用一個(gè)函數(shù)(如回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù);(2)聚類:可以通過聚類檢測(cè)離群點(diǎn),將類似的值組織成群或簇。直觀地,落在簇集合之外的值視為離群點(diǎn)。2.6使用習(xí)題2.5給出的age數(shù)據(jù),答復(fù)以下問題:(a)使用min-ma*規(guī)*化,將age值35轉(zhuǎn)換到[0.0,1.0]區(qū)間。(b)使用z-score規(guī)*化轉(zhuǎn)換age值35,其中,age的標(biāo)準(zhǔn)偏差為12.94年。(c)使用小數(shù)定標(biāo)規(guī)*化轉(zhuǎn)換age值35。(d)指出對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法。陳述你的理由。答:(a)最大值為70,最小值為13,則可將35規(guī)*化為:;(b)均值為30,標(biāo)準(zhǔn)差為12.94,則可將35規(guī)*化為:;(c)使用小數(shù)定標(biāo)規(guī)*化可將35規(guī)*化為:;(d)對(duì)于給定的數(shù)據(jù),你愿意使用min-ma*規(guī)*化。理由是計(jì)算簡單。2.7使用習(xí)題2.5給出的age數(shù)據(jù)(a)畫一個(gè)寬度為10的等寬的直方圖。(b)為以下每種抽樣技術(shù)勾畫例子:有放回簡單隨機(jī)抽樣,無放回簡單隨機(jī)抽樣,聚類抽樣,分層抽樣。使用大小為5的樣本和層"青年〞,"中年〞和"老年〞。答:(a)如下為寬度為10的等寬的直方圖:(b)樣本大小為5和層"青年〞,"中年〞和"老年〞,(1)有放回簡單隨機(jī)抽樣:30,33,30,25,30(2)無放回簡單隨機(jī)抽樣:30,33,33,35,25(3)聚類抽樣:16,25,33,35,46(4)分層抽樣:25,35,522.8以下是一個(gè)商場(chǎng)所銷售商品的價(jià)格清單(按遞增順序排列,括號(hào)中的數(shù)表示前面數(shù)字出現(xiàn)次數(shù))1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。請(qǐng)分別用等寬的方法和等高的方法對(duì)上面的數(shù)據(jù)集進(jìn)展劃分。答:(1)等寬方法:劃分為3個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的寬度為價(jià)格10。價(jià)格在1—10之間出現(xiàn)次數(shù)為13;價(jià)格在11—20之間出現(xiàn)的次數(shù)為24;價(jià)格在21—30之間出現(xiàn)的次數(shù)為13。(2)等高方法:劃分為2個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集的高度為出現(xiàn)的次數(shù)4。出現(xiàn)次數(shù)1—4之間的價(jià)格為1、8、10、12、14、21、28、30,共8個(gè)數(shù)據(jù);出現(xiàn)次數(shù)5—8之間的價(jià)格為5、15、18、20、25,共5個(gè)數(shù)據(jù)。2.9討論數(shù)據(jù)聚合需要考慮的問題。答:數(shù)據(jù)聚合需要考慮的問題有:(1)模式識(shí)別:這主要是實(shí)體識(shí)別問題;(2)冗余:一個(gè)屬性是冗余的,即它能由另一個(gè)表導(dǎo)出,如果屬性或維的命名不一致,也可能導(dǎo)致冗余,可以用相關(guān)分析來檢測(cè);(3)數(shù)據(jù)值沖突的檢測(cè)與處理:有些屬性因表示比例或編碼不同,會(huì)導(dǎo)致屬性不同。2.10假定我們對(duì)一個(gè)比率屬性*使用平方根變換,得到一個(gè)新屬性**。作為分析的一局部,你識(shí)別出區(qū)間(a,b),在該區(qū)間內(nèi),**與另一個(gè)屬性y具有線性關(guān)系。(a)換算成*,(a,b)的對(duì)應(yīng)區(qū)間是什么?(b)給出y關(guān)聯(lián)*的方程。答:(a)(a^2,b^2);(b)Y=k*^0.5+C(k,C是常數(shù))。2.11討論使用抽樣減少需要顯示的數(shù)據(jù)對(duì)象個(gè)數(shù)的優(yōu)缺點(diǎn)。簡單隨機(jī)抽樣(無放回)是一種好的抽樣方法嗎?為什么是,為什么不是?答:抽樣減少需要顯示的數(shù)據(jù)對(duì)象個(gè)數(shù)的優(yōu)點(diǎn)是減少處理數(shù)據(jù)的費(fèi)用和時(shí)間。缺點(diǎn)是不能利用總體的信息和代表總體數(shù)據(jù)的信息。簡單隨機(jī)抽樣(無放回)不是一種好的抽樣方法,不能充分地代表不太頻繁出現(xiàn)的對(duì)象類型和每個(gè)對(duì)象被選中的概率不一樣。2.12給定m個(gè)對(duì)象的集合,這些對(duì)象劃分成K組,其中第i組的大小為mi。如果目標(biāo)是得到容量為n<m的樣本,下面兩種抽樣方案有什么區(qū)別?(假定使用有放回抽樣)(a)從每組隨機(jī)地選擇n×mi/m個(gè)元素。(b)從數(shù)據(jù)集中隨機(jī)地選擇n個(gè)元素,而不管對(duì)象屬于哪個(gè)組。答:(a)組保證了可以在每個(gè)組里面得到等比例的樣本,而(b)組在每個(gè)組里面抽取的樣本的個(gè)數(shù)是隨機(jī)的,不能保證每個(gè)組都能抽到樣本。2.13一個(gè)地方公司的銷售主管與你聯(lián)系,他相信他已經(jīng)設(shè)計(jì)出了一種評(píng)估顧客滿意度的方法。他這樣解釋他的方案:"這太簡單了,我簡直不敢相信,以前竟然沒有人想到,我只是記錄顧客對(duì)每種產(chǎn)品的抱怨次數(shù),我在數(shù)據(jù)挖掘的書中讀到計(jì)數(shù)具有比率屬性,因此,我的產(chǎn)品滿意度度量必定具有比率屬性。但是,當(dāng)我根據(jù)我的顧客滿意度度量評(píng)估產(chǎn)品并拿給老板看時(shí),他說我忽略了顯而易見的東西,說我的度量毫無價(jià)值。我想,他簡直是瘋了,因?yàn)槲覀兊臅充N產(chǎn)品滿意度最差,因?yàn)閷?duì)它的抱怨最多。你能幫助我擺平他嗎?〞(a)誰是對(duì)的,銷售主管還是他的老板?如果你的答案是他的老板,你做些什么來修正滿意度度量?(b)對(duì)于原來的產(chǎn)品滿意度度量的屬性類型,你能說些什么?答:(a)老板是對(duì)的。更好的衡量方法應(yīng)該如下:不滿意率(產(chǎn)品)=每種產(chǎn)品的抱怨次數(shù)/該產(chǎn)品的總銷售量(b)原來衡量方法的屬性類型是沒有意義的。例如,兩件商品有一樣的顧客滿意度可能會(huì)有不同的抱怨次數(shù),反之亦然。2.14考慮一個(gè)文檔-詞矩陣,其中是第i個(gè)詞(術(shù)語)出現(xiàn)在第j個(gè)文檔中的頻率,而m是文檔數(shù)??紤]由下式定義的變量變換:其中,是出現(xiàn)i個(gè)詞的文檔數(shù),稱作詞的文檔頻率(documentfrequency)。該變換稱作逆文檔頻率變換(inversedocumentfrequency)。(a)如果出現(xiàn)在一個(gè)文檔中,該變換的結(jié)果是什么?如果術(shù)語出現(xiàn)在每個(gè)文檔中呢?(b)該變換的目的可能是什么?答:(a)如果該詞出現(xiàn)在每一個(gè)文檔中,它的詞權(quán)就會(huì)為0,但是如果這個(gè)詞僅僅出現(xiàn)在一個(gè)文檔中,它就有最大的詞權(quán),例如,logm。(b)這個(gè)變換反映了以下一個(gè)現(xiàn)象:當(dāng)一個(gè)詞出現(xiàn)在每一個(gè)文檔中,對(duì)于文檔與文檔之間,該詞沒有區(qū)分能力,但是那些只是*一兩篇文檔出現(xiàn)的詞,其區(qū)分文檔的能力就較強(qiáng)。2.15對(duì)于下面的向量*和y,計(jì)算指定的相似性或距離度量。(a)*=(1,1,1,1),y=(2,2,2,2)余弦相似度、相關(guān)系數(shù)、歐幾里得。(b)*=(0,1,0,1),y=(1,0,1,0)余弦相似度、相關(guān)系數(shù)、歐幾里得、Jaccard系數(shù)。(c)*=(2,-1,0,2,0,-3),y=(-1,1,-1,0,0,-1)余弦相似度、相關(guān)系數(shù)。答:(a)余弦相似度、相關(guān)系數(shù)、歐幾里得分別是0.5,0,2;(b)余弦相似度、相關(guān)系數(shù)、歐幾里得、Jaccard系數(shù)分別是0,1,2,0;(c)余弦相似度、相關(guān)系數(shù)分別是0,0。2.16簡單地描述如何計(jì)算由以下類型的變量描述的對(duì)象間的相異度:(a)不對(duì)稱的二元變量(b)分類變量(c)比例標(biāo)度型(ratio-scaled)變量(d)數(shù)值型變量答:使用Jaccard系數(shù)計(jì)算不對(duì)稱的二元變量的相異度;采用屬性值匹配的方法(屬性值匹配,相似度為1,否則為0)可以計(jì)算用分類變量描述的對(duì)象間的相異度;比照例標(biāo)度變量進(jìn)展對(duì)數(shù)變換,對(duì)變換得到的值采用與處理區(qū)間標(biāo)度變量一樣的方法來計(jì)算相異度;可采用歐幾里得距離公式或曼哈頓距離公式計(jì)算。2.17給定兩個(gè)向量對(duì)象,分別表示為p1(22,1,42,10),p2(20,0,36,8):(a)計(jì)算兩個(gè)對(duì)象之間的歐幾里得距離(b)計(jì)算兩個(gè)對(duì)象之間的曼哈頓距離(c)計(jì)算兩個(gè)對(duì)象之間的切比雪夫距離(d)計(jì)算兩個(gè)對(duì)象之間的閔可夫斯基距離,用*=3答:(a)計(jì)算兩個(gè)對(duì)象之間的歐幾里得距離(b)計(jì)算兩個(gè)對(duì)象之間的曼哈頓距離(c)計(jì)算兩個(gè)對(duì)象之間的閔可夫斯基距離,其中參數(shù)r=32.18以下表格包含了屬性name,gender,trait-1,trait-2,trait-3,及trait-4,這里的name是對(duì)象的id,gender是一個(gè)對(duì)稱的屬性,剩余的trait屬性是不對(duì)稱的,描述了希望找到的筆友的個(gè)人特點(diǎn)。假設(shè)有一個(gè)效勞是試圖發(fā)現(xiàn)適宜的筆友。namegendertrait-1trait-2trait-3trait-4KeavnMNPPNCarolineFNPPNErikMPNNP對(duì)不對(duì)稱的屬性的值,值P被設(shè)為1,值N被設(shè)為0。假設(shè)對(duì)象(潛在的筆友)間的距離是基于不對(duì)稱變量來計(jì)算的。(a)計(jì)算對(duì)象間的簡單匹配系數(shù);(b)計(jì)算對(duì)象間的Jaccard系數(shù);(c)你認(rèn)為哪兩個(gè)人將成為最正確筆友?哪兩個(gè)會(huì)是最不能相容的?(d)假設(shè)我們將對(duì)稱變量gender包含在我們的分析中。基于Jaccard系數(shù),誰將是最和諧的一對(duì)?為什么?答:(a)計(jì)算對(duì)象間的簡單匹配系數(shù)SMC(Keavn,Caroline)=(2+2)/(0+0+2+2)=1SMC(Keavn,Erik)=(0+0)/(2+2+0+0)=0SMC(Caroline,Erik)=(0+0)/(2+2+0+0)=0(b)計(jì)算對(duì)象間的Jaccard系數(shù)Jaccard(Keavn,Caroline)=2/(2+0+0)=1Jaccard(Keavn,Erik)=0/(0+2+2)=0Jaccard(Caroline,Erik)=0/(0+2+2)=0(c)根據(jù)屬性的匹配程度,Keavn和Caroline將成為最正確筆友,Caroline和Erik會(huì)是最不能相容的。(d)假設(shè)將對(duì)稱變量gender包含在分析中,設(shè)值M被設(shè)為1,值F被設(shè)為0,Jaccard(Keavn,Caroline)=2/(2+1+0)=2/3Jaccard(Keavn,Erik)=1/(1+2+2)=1/5Jaccard(Caroline,Erik)=0/(0+2+3)=0因?yàn)镴accard(Keavn,Caroline)最大,因此,Keavn和Caroline是最和諧的一對(duì)。2.19給定一個(gè)在區(qū)間[0,1]取值的相似性度量,描述兩種將該相似度變換成區(qū)間[0,∞]中的相異度的方法。答:取倒數(shù)減一:取對(duì)數(shù):第3章分類與回歸簡述決策樹分類的主要步驟。答:決策樹生成的過程如下:(1)對(duì)數(shù)據(jù)源進(jìn)展數(shù)據(jù)預(yù)處理,得到訓(xùn)練集和測(cè)試集;(2)對(duì)訓(xùn)練集進(jìn)展訓(xùn)練;(3)對(duì)初始決策樹進(jìn)展樹剪枝;(4)由所得到的決策樹提取分類規(guī)則;(5)使用測(cè)試數(shù)據(jù)集進(jìn)展預(yù)測(cè),評(píng)估決策樹模型;給定決策樹,選項(xiàng)有:(1)將決策樹轉(zhuǎn)換成規(guī)則,然后對(duì)結(jié)果規(guī)則剪枝,或(2)對(duì)決策樹剪枝,然后將剪枝后的樹轉(zhuǎn)換成規(guī)則。相對(duì)于(2),(1)的優(yōu)點(diǎn)是什么?答:相對(duì)于(2),(1)的優(yōu)點(diǎn)是:由于第一種方法已經(jīng)將決策樹轉(zhuǎn)換成規(guī)則,通過規(guī)則,可以很快速的評(píng)估決策樹以及其子樹緊湊程度,不能提高規(guī)則的估計(jì)準(zhǔn)確率的任何條件都可以減掉,從而泛化規(guī)則;計(jì)算決策樹算法在最壞情況下的時(shí)間復(fù)雜度是重要的。給定數(shù)據(jù)集D,具有m個(gè)屬性和|D|個(gè)訓(xùn)練記錄,證明決策樹生長的計(jì)算時(shí)間最多為。答:假設(shè)訓(xùn)練集擁有|D|實(shí)例以及m個(gè)屬性。我們需要對(duì)樹的尺寸做一個(gè)假設(shè),假設(shè)樹的深度是由log|D|決定,即O(log|D|)??紤]一個(gè)屬性在樹的所有節(jié)點(diǎn)上所要做的工作量。當(dāng)然不必在每一個(gè)節(jié)點(diǎn)上考慮所有的實(shí)例。但在樹的每一層,必須考慮含有|D|個(gè)實(shí)例的整個(gè)數(shù)據(jù)集。由于樹有l(wèi)og|D|個(gè)不同的層,處理一個(gè)屬性需要的工作量是。在每個(gè)節(jié)點(diǎn)上所有屬性都要被考慮,因此總的工作量為??紤]表3-23所示二元分類問題的數(shù)據(jù)集。表3-23習(xí)題3.4數(shù)據(jù)集AB類標(biāo)號(hào)TF+TT+TT+TF-TT+FF-FF-FF-TT-TF-計(jì)算按照屬性A和B劃分時(shí)的信息增益。決策樹歸納算法將會(huì)選擇那個(gè)屬性?計(jì)算按照屬性A和B劃分時(shí)Gini系數(shù)。決策樹歸納算法將會(huì)選擇那個(gè)屬性?答:按照屬性A和B劃分時(shí),數(shù)據(jù)集可分為如下兩種情況:A=TA=F+40-33B=TB=F+31-15劃分前樣本集的信息熵為E=-0.4log220.6=0.9710按照屬性A劃分樣本集分別得到的兩個(gè)子集(A取值T和A取值F)的信息熵分別為:按照屬性A劃分樣本集得到的信息增益為:按照屬性B劃分樣本集分別得到的兩個(gè)子集(B取值T和B取值F)的信息熵分別為:按照屬性B劃分樣本集得到的信息增益為:因此,決策樹歸納算法將會(huì)選擇屬性A。(2)劃分前的Gini值為G=1-0.42-0.62=0.48按照屬性A劃分時(shí)Gini指標(biāo):Gini增益按照屬性B劃分時(shí)Gini指標(biāo):Gini增益因此,決策樹歸納算法將會(huì)選擇屬性B。證明:將結(jié)點(diǎn)劃分為更小的后續(xù)結(jié)點(diǎn)之后,結(jié)點(diǎn)熵不會(huì)增加。證明:根據(jù)定義可知,熵值越大,類分布越均勻;熵值越小,類分布越不平衡。假設(shè)原有的結(jié)點(diǎn)屬于各個(gè)類的概率都相等,熵值為1,則分出來的后續(xù)結(jié)點(diǎn)在各個(gè)類上均勻分布,此時(shí)熵值為1,即熵值不變。假設(shè)原有的結(jié)點(diǎn)屬于個(gè)各類的概率不等,因而分出來的后續(xù)結(jié)點(diǎn)不均勻地分布在各個(gè)類上,則此時(shí)的分類比原有的分類更不均勻,故熵值減少。為什么樸素貝葉斯稱為"樸素〞?簡述樸素貝葉斯分類的主要思想。答:樸素貝葉斯之所以稱之為樸素是因?yàn)?,它假設(shè)屬性之間是相互獨(dú)立的。樸素貝葉斯分類的主要思想為:利用貝葉斯定理,計(jì)算未知樣本屬于*個(gè)類標(biāo)號(hào)值的概率,根據(jù)概率值的大小來決定未知樣本的分類結(jié)果。(通過*對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于*一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類。)考慮表3-24數(shù)據(jù)集,請(qǐng)完成以下問題:表3-24習(xí)題3.7數(shù)據(jù)集記錄號(hào)ABC類1000+2001-3011-4011-5001+6101+7101-8101-9111+10101+估計(jì)條件概率,,,,,。根據(jù)(1)中的條件概率,使用樸素貝葉斯方法預(yù)測(cè)測(cè)試樣本(A=0,B=1,C=0)的類標(biāo)號(hào);使用Laplace估計(jì)方法,其中p=1/2,l=4,估計(jì)條件概率,,,,,。同(2),使用(3)中的條件概率比擬估計(jì)概率的兩種方法,哪一種更好,為什么?答:(1)=3/5=1/5=2/5=2/5=1(2)假設(shè)P(A=0,B=1,C=0)=K則K屬于兩個(gè)類的概率為:P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=0.4×0.2×0.2×0.5/K=0.008/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=0.4×0.2×0×0.5/K=0/K則得到,此樣本的類標(biāo)號(hào)是+。(3)P(A|+)=(3+2)/(5+4)=5/9P(A|-)=(2+2)/(5+4)=4/9P(B|+)=(1+2)/(5+4)=1/3P(B|-)=(2+2)/(5+4)=4/9P(C|-)=(0+2)/(5+4)=2/9(4)假設(shè)P(A=0,B=1,C=0)=K則K屬于兩個(gè)類的概率為:P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=(4/9)×(1/3)×(1/3)×0.5/K=0.0247/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=(5/9)×(4/9)×(2/9)×0.5/K=0.0274/K則得到,此樣本的類標(biāo)號(hào)是-。(5)當(dāng)條件概率為0的時(shí)候,條件概率的預(yù)測(cè)用Laplace估計(jì)方法比擬好,因?yàn)槲覀儾幌胝麄€(gè)條件概率計(jì)算結(jié)果為0.考慮表3-25中的一維數(shù)據(jù)集。表3-25習(xí)題3.8數(shù)據(jù)集*0.53.04.54.64.95.25.35.57.09.5Y--+++--+--根據(jù)1-最近鄰、3-最近鄰、5-最近鄰、9-最近鄰,對(duì)數(shù)據(jù)點(diǎn)*=5.0分類,使用多數(shù)表決。答:1-最近鄰:+3-最近鄰:-5-最近鄰:+9-最近鄰:-表3-26的數(shù)據(jù)集包含兩個(gè)屬性*與Y,兩個(gè)類標(biāo)號(hào)"+〞和"-〞。每個(gè)屬性取三個(gè)不同值策略:0,1或2。"+〞類的概念是Y=1,"-〞類的概念是*=0and*=2。表3-26習(xí)題3.9數(shù)據(jù)集*Y實(shí)例數(shù)+-00010010002001001110021101000201001200220100建立該數(shù)據(jù)集的決策樹。該決策樹能捕捉到"+〞和"-〞的概念嗎?決策樹的準(zhǔn)確率、精度、召回率和F1各是多少?(注意,精度、召回率和F1量均是對(duì)"+〞類定義)使用下面的代價(jià)函數(shù)建立新的決策樹,新決策樹能捕捉到"+〞的概念么?(提示:只需改變?cè)瓫Q策樹的結(jié)點(diǎn)。)答:(1)在數(shù)據(jù)集中有20個(gè)正樣本和500個(gè)負(fù)樣本,因此在根節(jié)點(diǎn)處錯(cuò)誤率為如果按照屬性*劃分,則:*=0*=1*=2+01010-2000300E*=0=0/310=0E*=1=0/10=0E*=2=10/310如果按照屬性Y劃分,則:Y=0Y=1Y=2+0200-200100200EY=0=0/200=0EY=1=20/120EY=2=0/200=0因此*被選為第一個(gè)分裂屬性,因?yàn)?=0和*=1都是純節(jié)點(diǎn),所以使用Y屬性去分割不純節(jié)點(diǎn)*=2。Y=0節(jié)點(diǎn)包含100個(gè)負(fù)樣本,Y=1節(jié)點(diǎn)包含10個(gè)正樣本和100個(gè)負(fù)樣本,Y=2節(jié)點(diǎn)包含100個(gè)負(fù)樣本,所以子節(jié)點(diǎn)被標(biāo)記為"—〞。整個(gè)結(jié)果為:類標(biāo)記=(2)預(yù)測(cè)類+-實(shí)際類+1010-0500accuracy:=0.9808,precision:=1.0recall:=0.5,F(xiàn)-measure:=0.6666(3)由題可得代價(jià)矩陣為預(yù)測(cè)類+-實(shí)際類+0500/20=25-10決策樹在(1)之后還有3個(gè)葉節(jié)點(diǎn),*=2∧Y=0,*=2∧Y=1,*=2∧Y=2。其中*=2∧Y=1是不純節(jié)點(diǎn),誤分類該節(jié)點(diǎn)為"+〞類的代價(jià)為:100+1001=100,誤分該節(jié)點(diǎn)為"—〞類的代價(jià)為:1025+1000=250。所以這些節(jié)點(diǎn)被標(biāo)記為"+〞類。分類結(jié)果為:什么是提升?陳述它為何能提高決策樹歸納的準(zhǔn)確性?答:提升是指給每個(gè)訓(xùn)練元組賦予權(quán)重,迭代地學(xué)習(xí)k個(gè)分類器序列,學(xué)習(xí)得到分類器Mi之后,更新權(quán)重,使得其后的分類器Mi+1"更關(guān)注〞Mi誤分的訓(xùn)練元組,最終提升的分類器M*組合每個(gè)個(gè)體分類器,其中每個(gè)分類器投票的權(quán)重是其準(zhǔn)確率的函數(shù)。在提升的過程中,訓(xùn)練元組的權(quán)重根據(jù)它們的分類情況調(diào)整,如果元組不正確地分類,則它的權(quán)重增加,如果元組正確分類,則它的權(quán)重減少。元組的權(quán)重反映對(duì)它們分類的困難程度,權(quán)重越高,越可能錯(cuò)誤的分類。根據(jù)每個(gè)分類器的投票,如果一個(gè)分類器的誤差率越低,提升就賦予它越高的表決權(quán)重。在建立分類器的時(shí)候,讓具有更高表決權(quán)重的分類器對(duì)具有更高權(quán)重的元組進(jìn)展分類,這樣,建立了一個(gè)互補(bǔ)的分類器系列。所以能夠提高分類的準(zhǔn)確性。表3-27給出課程數(shù)據(jù)庫中學(xué)生的期中和期末考試成績。表3-27習(xí)題3.11數(shù)據(jù)集期中考試期末考試*Y728450638177747894908675594983796577335288748190繪制數(shù)據(jù)的散點(diǎn)圖。*和Y看上去具有線性聯(lián)系嗎?使用最小二乘法,由學(xué)生課程中成績預(yù)測(cè)學(xué)生的期末成績的方程式。預(yù)測(cè)期中成績?yōu)?6分的學(xué)生的期末成績。答:(1)數(shù)據(jù)圖如下所示:*和Y具有線性聯(lián)系。(2)*Y**Y*^2預(yù)測(cè)Y172846048518473.9031250633150250061.1079381776237656179.1375474785772547675.0663594908460883686.6983686756450739682.0455759492891348166.3423883796557688980.3007965775005422569.83191033521716108951.22071188746512774483.20871281907290656179.1375SUM8668886608865942Y=a+b**a=Y0+b**0 b=(∑*iyi-n*0Y0)/(∑*i2-n*02) *0=(∑*i)/nY0=(∑yi)/n求得a=32.0279,b=0.5816。(3) 由(2)中表可得,預(yù)測(cè)成績?yōu)?6分的學(xué)生的期末成績?yōu)?2.0455。通過對(duì)預(yù)測(cè)變量變換,有些非線性回歸模型可以轉(zhuǎn)換成線性模型。指出如何將非線性回歸方程轉(zhuǎn)換成可以用最小二乘法求解的線性回歸方程。答:令,對(duì)樣本數(shù)據(jù)做變換,利用(wi,Yi)(i=1,2,…,n)解出y=aw中的a,再代入即得到y(tǒng)對(duì)*的回歸方程。第4章聚類分析4.1什么是聚類?簡單描述如下的聚類方法:劃分方法,層次方法,基于密度的方法,基于模型的方法。為每類方法給出例子。答:聚類是將數(shù)據(jù)劃分為相似對(duì)象組的過程,使得同一組中對(duì)象相似度最大而不同組中對(duì)象相似度最小。主要有以下幾種類型方法:(1)劃分方法給定一個(gè)有N個(gè)元組或者記錄的數(shù)據(jù)集,分裂法將構(gòu)造K個(gè)分組,每一個(gè)分組就代表一個(gè)聚類,K<N。而且這K個(gè)分組滿足以下條件:第一,每一個(gè)分組至少包含一條記錄;第二,每一條記錄屬于且僅屬于一個(gè)分組(注意:這個(gè)要求在*些模糊聚類算法中可以放寬);對(duì)于給定的K,算法首先給出一個(gè)初始的分組方法,以后通過反復(fù)迭代的方法改變分組,使得每一次改良之后的分組方案都較前一次好,而所謂好的標(biāo)準(zhǔn)就是:同一分組中的記錄越近越好,而不同分組中的記錄越遠(yuǎn)越好。使用這個(gè)根本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。(2)層次方法這種方法對(duì)給定的數(shù)據(jù)集進(jìn)展層次似的分解,直到*種條件滿足為止。具體又可分為"自底向上〞和"自頂向下〞兩種方案。例如在"自底向上〞方案中,初始時(shí)每一個(gè)數(shù)據(jù)記錄都組成一個(gè)單獨(dú)的組,在接下來的迭代中,它把那些相互鄰近的組合并成一個(gè)組,直到所有的記錄組成一個(gè)分組或者*個(gè)條件滿足為止。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。(3)基于密度的方法基于密度的方法與其它方法的一個(gè)根本區(qū)別是:它不是基于各種各樣的距離,而是基于密度的。這樣就能克制基于距離的算法只能發(fā)現(xiàn)"類圓形〞的聚類的缺點(diǎn)。這個(gè)方法的指導(dǎo)思想就是:只要一個(gè)區(qū)域中的點(diǎn)的密度大過*個(gè)閾值,就把它加到與之相近的聚類中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。(4)基于模型的方法基于模型的方法給每一個(gè)聚類假定一個(gè)模型,然后去尋找能夠很好的滿足這個(gè)模型的數(shù)據(jù)。這樣一個(gè)模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其它。它的一個(gè)潛在假定就是:目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的?;谀P偷姆椒ㄖ饕袃深悾航y(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法(SOM)。4.2假設(shè)數(shù)據(jù)挖掘的任務(wù)是將如下的8個(gè)點(diǎn)(用(*,y)代表位置)聚類為三個(gè)簇。A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)。距離函數(shù)是Euclidean函數(shù)。假設(shè)初始我們選擇A1,B1和C1為每個(gè)簇的中心,用k-means算法來給出(a)在第一次循環(huán)執(zhí)行后的三個(gè)簇中心;(b)最后的三個(gè)簇中心及簇包含的對(duì)象。答:(a)如圖,(b)如圖,4.3聚類被廣泛地認(rèn)為是一種重要的數(shù)據(jù)挖掘方法,有著廣泛的應(yīng)用。對(duì)如下的每種情況給出一個(gè)應(yīng)用例子:(a)采用聚類作為主要的數(shù)據(jù)挖掘方法的應(yīng)用;(b)采用聚類作為預(yù)處理工具,為其它數(shù)據(jù)挖掘任務(wù)作數(shù)據(jù)準(zhǔn)備的應(yīng)用。答:(a)如電子商務(wù)中的客戶群劃分。根據(jù)客戶的個(gè)人信息、消費(fèi)習(xí)慣、瀏覽行為等信息,計(jì)算客戶之間的相似度,然后采用適宜的聚類算法對(duì)所有客戶進(jìn)展類劃分;基于得到的客戶群信息,相關(guān)的店主可以制定相應(yīng)的營銷策略,如穿插銷售,根據(jù)*個(gè)客戶群中的其中一個(gè)客戶的購置商品推薦給另外一個(gè)未曾購置此商品的客戶。(b)如電子商務(wù)中的推薦系統(tǒng)。電子商務(wù)可以根據(jù)得到的客戶群,采用關(guān)聯(lián)規(guī)則或者隱馬爾科夫模型對(duì)每個(gè)客戶群生成消費(fèi)習(xí)慣規(guī)則,檢測(cè)客戶的消費(fèi)模式,這些規(guī)則或模式可以用于商品推薦。其中客戶群可以通過聚類算法來預(yù)先處理獲取得到。4.4假設(shè)你將在一個(gè)給定的區(qū)域分配一些自動(dòng)取款機(jī)以滿足需求。住宅區(qū)或工作區(qū)可以被聚類以便每個(gè)簇被分配一個(gè)ATM。但是,這個(gè)聚類可能被一些因素所約束,包括可能影響ATM可達(dá)性的橋梁,河流和公路的位置。其它的約束可能包括對(duì)形成一個(gè)區(qū)域的每個(gè)地域的ATM數(shù)目的限制。給定這些約束,怎樣修改聚類算法來實(shí)現(xiàn)基于約束的聚類?答:約束的存在會(huì)使得原來被定義在同一個(gè)簇的對(duì)象之間的距離發(fā)生變化。這時(shí)可以考慮將這些約束因素融入到距離的計(jì)算公式中,如在存在橋梁、河流和公路的區(qū)域中,可通過對(duì)象之間的連通性以及路徑來計(jì)算距離;而地域ATM數(shù)目的限制問題則可在聚類的初始化階段解決,如在K-MEANS的初始化時(shí),可根據(jù)區(qū)域的個(gè)數(shù)來確定簇個(gè)數(shù)K的值,然后所選擇的初始化種子盡可能分布在距離各個(gè)ATM附近的地方。4.5給出一個(gè)數(shù)據(jù)集的例子,它包含三個(gè)自然簇。對(duì)于該數(shù)據(jù)集,k-means(幾乎總是)能夠發(fā)現(xiàn)正確的簇,但二分k-means不能。答:有三個(gè)完全一樣的球型簇,三個(gè)簇的點(diǎn)的個(gè)數(shù)和分布密度以及位置均完全一樣。其中兩個(gè)簇關(guān)于第三個(gè)簇完全對(duì)稱,則在k-means方法中可以很輕易找出這三個(gè)簇,但用二分k-means則會(huì)把處于對(duì)稱中心的那個(gè)簇分成兩半。4.6總SSE是每個(gè)屬性的SSE之和。如果對(duì)于所有的簇,*變量的SSE都很低,這意味什么?如果只對(duì)一個(gè)簇很低呢?如果對(duì)所有的簇都很高?如果僅對(duì)一個(gè)簇高呢?如何使用每個(gè)變量的SSE信息改良聚類?答:如果對(duì)于所有的簇,*屬性的SSE都很低,則該屬性值變化不大,本質(zhì)上等于常量,對(duì)數(shù)據(jù)的分組沒什么用處。如果*屬性的SSE只對(duì)一個(gè)簇很低,則該屬性有助于該簇的定義。如果對(duì)于所有的簇,*屬性的SSE都很高,則意味著該屬性是噪聲屬性。如果*屬性的SSE僅對(duì)一個(gè)簇很高,則該屬性與定義該簇的屬性提供的信息不一致。在少數(shù)情況下,由該屬性定義的簇不同于由其他屬性定義的簇,但是在*些情況下,這也意味著該屬性不利于簇的定義。消除簇之間具有小分辨力的屬性,比方對(duì)于所有簇都是低或高SSE的屬性,因?yàn)樗麄儗?duì)聚類沒有幫助。對(duì)于所有簇的SSE都高且相對(duì)其他屬性來說SSE也很高的屬性特別麻煩,因?yàn)檫@些屬性在SSE的總和計(jì)算中引入了很多的噪聲。4.7使用基于中心、鄰近性和密度的方法,識(shí)別圖4-19中的簇。對(duì)于每種情況指出簇個(gè)數(shù),并簡要給出你的理由。注意,明暗度或點(diǎn)數(shù)指明密度。如果有幫助的話,假定基于中心即K均值,基于鄰近性即單鏈,而基于密度為DBSCAN。圖4-19題4.7圖答:基于中心的方法有2個(gè)簇。矩形區(qū)域被分成兩半,同時(shí)2個(gè)簇里都包含了噪聲數(shù)據(jù);基于鄰近性的方法有1個(gè)簇。因?yàn)閮蓚€(gè)圓圈區(qū)域受噪聲數(shù)據(jù)影響而形成一個(gè)簇;基于密度的方法有2個(gè)簇,每個(gè)圓圈區(qū)域代表一個(gè)簇,而噪聲數(shù)據(jù)會(huì)被忽略?;谥行牡姆椒ㄓ?個(gè)簇,該簇包含圖中的一個(gè)圓環(huán)和一個(gè)圓盤;基于鄰近性的方法有2個(gè)簇,外部圓環(huán)代表一個(gè)簇,內(nèi)層圓盤代表一個(gè)簇;基于密度的方法有2個(gè)簇,外部圓環(huán)代表一個(gè)簇,內(nèi)層圓盤代表一個(gè)簇?;谥行牡姆椒ㄓ?個(gè)簇,每個(gè)三角形代表一個(gè)簇;基于鄰近性的方法有1個(gè)簇,三個(gè)三角形區(qū)域會(huì)聯(lián)合起來因?yàn)楸舜讼嗷ソ佑|;基于密度的方法有3個(gè)簇,每個(gè)三角形區(qū)域代表一個(gè)簇。即使三個(gè)三角形相互接觸,但是所接觸的區(qū)域的密度比三角形內(nèi)的密度小。基于中心的方法有2個(gè)簇。兩組線被分到兩個(gè)簇里;基于鄰近性的方法有5個(gè)簇。相互纏繞的線被分到一個(gè)簇中;基于密度的方法有2個(gè)簇。這兩組線定義了被低密度區(qū)域所分割的兩個(gè)高密度的區(qū)域。4.8傳統(tǒng)的凝聚層次聚類過程每步合并兩個(gè)簇。這樣的方法能夠正確地捕獲數(shù)據(jù)點(diǎn)集的(嵌套的)簇構(gòu)造嗎?如果不能,解釋如何對(duì)結(jié)果進(jìn)展后處理,以得到簇構(gòu)造更正確的視圖。答:傳統(tǒng)的凝聚層次聚類過程關(guān)鍵是每步合并兩個(gè)最相似的簇,直至只剩下一個(gè)簇才停頓聚類。該聚類方法并不能產(chǎn)生嵌套的簇構(gòu)造。但我們可以采用樹構(gòu)造的方法來捕捉形成的層次構(gòu)造,每次合并都記錄父子簇之間的關(guān)系,最后形成一個(gè)清晰的樹狀層次簇構(gòu)造。4.9我們可以將一個(gè)數(shù)據(jù)集表示成對(duì)象節(jié)點(diǎn)的集合和屬性節(jié)點(diǎn)的集合,其中每個(gè)對(duì)象與每個(gè)屬性之間有一條邊,該邊的權(quán)值是對(duì)象在該屬性上的值。對(duì)于稀疏數(shù)據(jù),如果權(quán)值為0,則忽略該邊。雙劃分聚類(Bipartite)試圖將該圖劃分成不相交的簇,其中每個(gè)簇由一個(gè)對(duì)象節(jié)點(diǎn)集和一個(gè)屬性節(jié)點(diǎn)集組成。目標(biāo)是最大化簇中對(duì)象節(jié)點(diǎn)和屬性節(jié)點(diǎn)之間的邊的權(quán)值,并且最小化不同簇的對(duì)象節(jié)點(diǎn)和屬性節(jié)點(diǎn)之間的邊的權(quán)值。這種聚類稱作協(xié)同聚類(co-clustering),因?yàn)閷?duì)象和屬性之間同時(shí)聚類。(a)雙劃分聚類(協(xié)同聚類)與對(duì)象和屬性集分別聚類有何不同?(b)是否存在*些情況,這些方法產(chǎn)生一樣的結(jié)果?(c)與一般聚類相比,協(xié)同聚類的優(yōu)點(diǎn)和缺點(diǎn)是什么?答:對(duì)于普通聚類,只有一組約束條件被運(yùn)用,要么與對(duì)象相關(guān),要么與屬性相關(guān)。對(duì)于協(xié)同聚類,兩組約束條件同時(shí)被運(yùn)用。因此,單獨(dú)地劃分對(duì)象和屬性無法產(chǎn)生一樣的結(jié)果。是的。例如,如果一組屬性只與一個(gè)特定的簇對(duì)象相關(guān),如在所有其他簇中的對(duì)象權(quán)值為0;相反地,這組對(duì)象在一個(gè)簇中對(duì)所有其他屬性的權(quán)值為0,則由協(xié)同聚類發(fā)現(xiàn)的簇會(huì)與分別通過對(duì)象和屬性聚類的結(jié)果一樣。以文本聚類作為例子,有一組文本組成的簇僅包含了*局部的詞或短語,相反地,*些詞或短語也僅出現(xiàn)在局部文本里。(c)協(xié)同聚類的優(yōu)點(diǎn)是能自動(dòng)產(chǎn)生由屬性描述的簇,這種描述信息帶有更強(qiáng)的表達(dá)能力,在現(xiàn)實(shí)應(yīng)用中,較由對(duì)象描述的簇更有用(如在客戶細(xì)分中,有屬性描述的簇能為營銷戰(zhàn)略決策提供更為直接的輔助作用)。但具有強(qiáng)區(qū)分能力的屬性有時(shí)候出現(xiàn)嚴(yán)重的重疊現(xiàn)象,這種情況下協(xié)同聚類產(chǎn)生的結(jié)果并不理想,如出現(xiàn)重疊率很高的聚類結(jié)果。4.10下表中列出了4個(gè)點(diǎn)的兩個(gè)最近鄰。使用SNN相似度定義,計(jì)算每對(duì)點(diǎn)之間的SNN相似度。點(diǎn)第一個(gè)近鄰第二個(gè)近鄰143234342431答:SNN即共享最近鄰個(gè)數(shù)為其相似度。點(diǎn)1和點(diǎn)2的SNN相似度:0〔沒有共享最近鄰〕點(diǎn)1和點(diǎn)3的SNN相似度:1〔共享點(diǎn)4這個(gè)最近鄰〕點(diǎn)1和點(diǎn)4的SNN相似度:1〔共享點(diǎn)3這個(gè)最近鄰〕點(diǎn)2和點(diǎn)3的SNN相似度:1〔共享點(diǎn)4這個(gè)最近鄰〕點(diǎn)2和點(diǎn)4的SNN相似度:1〔共享點(diǎn)3這個(gè)最近鄰〕點(diǎn)3和點(diǎn)4的SNN相似度:0〔沒有共享最近鄰〕4.11對(duì)于SNN相似度定義,SNN距離的計(jì)算沒有考慮兩個(gè)最近鄰表中共享近鄰的位置。換言之,可能希望基于以一樣或粗略一樣的次序共享最近鄰的兩個(gè)點(diǎn)以更高的相似度。(a)描述如何修改SNN相似度定義,基于以粗略一樣的次序共享近鄰的兩個(gè)點(diǎn)以更高的相似度;(b)討論這種修改的優(yōu)點(diǎn)和缺點(diǎn)。答:(a)i)把兩個(gè)最近鄰表中共享近鄰按照距離從小達(dá)大排列,然后以一個(gè)最近鄰表為基準(zhǔn),調(diào)整另一個(gè)最近鄰表中近鄰的位置,總共調(diào)整步數(shù)為r,其中共享的最近鄰個(gè)數(shù)為n,則相似度可以簡單定義為或,其中為平滑參數(shù),可以簡單設(shè)置為。ii) 找出兩個(gè)最近鄰表中的最長子序列,最長子序列長度為L,共享的最近鄰個(gè)數(shù)為N,則相似度為。(b)以上相似度計(jì)算方法更好地表達(dá)了共享近鄰在最近鄰表中位置的因素對(duì)相似度評(píng)價(jià)的影響,增大了略同次序共享近鄰的相似度;缺點(diǎn)是計(jì)算復(fù)雜度增大。4.12一種稀疏化鄰近度矩陣的方法如下:對(duì)于每個(gè)對(duì)象,除對(duì)應(yīng)于對(duì)象的k-最近鄰的項(xiàng)之外,所有的項(xiàng)都設(shè)置為0。然而,稀疏化之后的鄰近度矩陣一般是不對(duì)稱的。(a)如果對(duì)象a在對(duì)象b的k-最近鄰中,為什么不能保證b在對(duì)象a的k-最近鄰中?(b)至少建議兩種方法,可以用來使稀疏化的矩陣是對(duì)稱的。答:(a)可能出現(xiàn)對(duì)象a的密度較大而對(duì)象b的密度小的情況。另一種典型情況是:在一個(gè)只包含k+1個(gè)正常對(duì)象和一個(gè)異常對(duì)象的數(shù)據(jù)區(qū)域中,異常對(duì)象b的k個(gè)最近鄰為k+1個(gè)正常對(duì)象中距離其最近的k個(gè)對(duì)象,但正常對(duì)象a的k個(gè)最近鄰不可能包含異常對(duì)象〔這是因?yàn)楫惓?duì)象b本來就是距離正常對(duì)象最遠(yuǎn)的點(diǎn),因此,它與正常對(duì)象a的距離會(huì)大于任何其它正常對(duì)象與a之間的距離〕(b)i)在兩個(gè)對(duì)象a和b中,只要其中一個(gè)對(duì)象在另一個(gè)對(duì)象的最近另列表中,我們就設(shè)置Mba=Mab=1〔Mab是指鄰近度矩陣中a行和b列穿插項(xiàng)的值〕;ii)當(dāng)*個(gè)對(duì)象a不在另一對(duì)象b的k最近鄰中時(shí),不管另一對(duì)象b是否在該對(duì)象a的最近鄰中,我們?cè)O(shè)置Mba=Mab=0。4.13給出一個(gè)簇集合的例子,其中基于簇的接近性的合并得到的簇集合比基于簇的連接強(qiáng)度(互連性)的合并得到的簇集合更自然。答:簇集合例子如以下圖所示:圖(a)圖(b)圖(a)兩個(gè)簇合并后的接近性顯然較圖(b)要差,因此,如果是基于簇的接近性來合并圖中的簇,則會(huì)合并圖(b)的兩個(gè)簇,合并得到的簇構(gòu)造幾乎與原來的每個(gè)簇一樣。第5章關(guān)聯(lián)分析5.1列舉關(guān)聯(lián)規(guī)則在不同領(lǐng)域中應(yīng)用的實(shí)例。答:在醫(yī)學(xué)領(lǐng)域:發(fā)現(xiàn)*些病癥與*種疾病之間的關(guān)聯(lián),為醫(yī)生進(jìn)展疾病診斷和治療提供線索;在商業(yè)領(lǐng)域:發(fā)現(xiàn)商品間的聯(lián)系,為商場(chǎng)進(jìn)展商品促銷及擺放貨架提供輔助決策信息;在地球科學(xué)領(lǐng)域:提醒海洋、陸地和大氣過程之間的關(guān)系。5.2給出如下幾種類型的關(guān)聯(lián)規(guī)則的例子,并說明它們是否是有價(jià)值的。(a)高支持度和高置信度的規(guī)則;(b)高支持度和低置信度的規(guī)則;(c)低支持度和低置信度的規(guī)則;(d)低支持度和高置信度的規(guī)則。答:(a)如牛奶->面包,由于這個(gè)規(guī)則很明顯,所以不具有價(jià)值。(b)如牛奶->大米,由于牛奶、大米銷售量都比擬高,所以有高支持度。但是很多事務(wù)不同時(shí)包括牛奶和大米,所以置信度很低,不具有價(jià)值。(c)如可樂->洗衣粉,由于置信度低,所以不具有價(jià)值。(d)如尿布->啤酒,雖然支持度低,不過置信度高,具有價(jià)值。5.3數(shù)據(jù)集如表5-14所示:表5-14習(xí)題5.3數(shù)據(jù)集CustomerIDTransactionIDItemsBought11223344550001002400120031001500220029004000330038{a,d,e}{a,b,c,e}{a,b,d,e}{a,c,d,e}{b,c,e}{b,d,e}{c,d}{a,b,c}{a,d,e}{a,b,e}(a)把每一個(gè)事務(wù)作為一個(gè)購物籃,計(jì)算項(xiàng)集{e},{b,d}和{b,d,e}的支持度。(b)利用(a)中結(jié)果計(jì)算關(guān)聯(lián)規(guī)則{b,d}→{e}和{e}→{b,d}的置信度。置信度是一個(gè)對(duì)稱的度量嗎?(c)把每一個(gè)用戶購置的所有商品作為一個(gè)購物籃,計(jì)算項(xiàng)集{e},{b,d}和{b,d,e}的支持度。(d)利用(b)中結(jié)果計(jì)算關(guān)聯(lián)規(guī)則{b,d}→{e}和{e}→{b,d}的置信度。置信度是一個(gè)對(duì)稱的度量嗎?答:(a)s({e})=8/10=0.8;s({b,d})=2/10=0.2;s({b,d,e})=2/10=0.2.(b)c({b,d}->{e})=s({b,d,e})/s({b,d})=0.2/0.2=1;c({e}->{b,d})=s({b,d,e})/s({e})=0.2/0.8=0.25.由于c({b,d}->{e})≠c({e}->{b,d}),所以置信度不是一個(gè)對(duì)稱的度量。(c)如果把每一個(gè)用戶購置所有的所有商品作為一個(gè)購物籃,則s({e})=4/5=0.8;s({b,d})=5/5=1;s({b,d,e})=4/5=0.8.(d)利用c中結(jié)果計(jì)算關(guān)聯(lián)規(guī)則{b,d}→{e}和{e}→{b,d}的置信度,則c({b,d}->{e})=0.8/1=0.8c({e}->{b,d})=0.8/0.8=1置信度不是一個(gè)對(duì)稱的度量5.4關(guān)聯(lián)規(guī)則是否滿足傳遞性和對(duì)稱性的性質(zhì)?舉例說明。答:關(guān)聯(lián)規(guī)則不滿足傳遞性和對(duì)稱性!例如:s(A,B)=50%s(A)=70%s(A,C)=20%s(B)=90%s(B,C)=70%s(C)=60%設(shè)最小置信度minconf=60%,則:c(A→B)=s(A,B)/s(A)=71%>minconfc(B→C)=s(B,C)/s(B)=66%>minconf但是c(A→C)=s(A,C)/S(A)=28%<minconf,不滿足傳遞性c(B→A)=s(A,B)/s(B)=55%<minconf,不滿足對(duì)稱性5.5Apriori算法使用先驗(yàn)性質(zhì)剪枝,試討論如下類似的性質(zhì)(a)證明頻繁項(xiàng)集的所有非空子集也是頻繁的(b)證明項(xiàng)集s的任何非空子集s’的支持度不小于s的支持度(c)給定頻繁項(xiàng)集l和它的子集s,證明規(guī)則"s’→(l–s’)〞的置信度不高于s→(l–s)的置信度,其中s’是s的子集(d)Apriori算法的一個(gè)變形是采用劃分方法將數(shù)據(jù)集D中的事務(wù)分為n個(gè)不相交的子數(shù)據(jù)集。證明D中的任何一個(gè)頻繁項(xiàng)集至少在D的*一個(gè)子數(shù)據(jù)集中是頻繁的。證明:(a)設(shè)s為頻繁項(xiàng)集,s’為s的子集,min_supp_count為最小支持度計(jì)數(shù)。由于包含s的事務(wù)也一定包含s’,所以support_count(s’)≥support_count(s)≥min_support_count,s’也是頻繁的。(b)設(shè)數(shù)據(jù)集為D,|D|為數(shù)據(jù)集中的事務(wù)數(shù)。由于support_count(s’)≥support_count(s),所以support_count(s’)/|D|≥support_count(s)/|D|,即support(s’)≥support(s)。(c)規(guī)則"s→(l–s’)〞的置信度confidence(s→(l–s))=support(l)/support(s),規(guī)則"s’→(l–s’)〞的置信度confidence(s’→(l–s’))=support(l)/support(s’)。由于support(s’)≥support(s),故"s’→(l–s’)〞的置信度不高于s→(l–s)的置信度。(d)反證法證明。設(shè)min_support為最小支持度。D劃分為d1d2…dn個(gè)子數(shù)據(jù)集,包含的事務(wù)數(shù)分別為a1a2…an。如果D中的*一個(gè)頻繁項(xiàng)集s在D的所有子數(shù)據(jù)集中是非頻繁的,在每個(gè)子數(shù)據(jù)集中包含s的事務(wù)數(shù)為c1c2c1≤a1*min_support,c2≤a2*min_support,…,/≤an*min_support。(c1+c2+…+)≤(a1+a2+…an)*min_support。由于(c1+c2+…+)為數(shù)據(jù)集D中包含s的事務(wù)數(shù),a1+a2+…an為數(shù)據(jù)集D的事務(wù)數(shù),所以s是非頻繁的,與s在D中是頻繁的矛盾。命題得證。5.6考慮如下的頻繁3-項(xiàng)集:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}。(a)根據(jù)Apriori算法的候選項(xiàng)集生成方法,寫出利用頻繁3-項(xiàng)集生成的所有候選4-項(xiàng)集。(b)寫出經(jīng)過剪枝后的所有候選4-項(xiàng)集答:(a)利用頻繁3-項(xiàng)集生成的所有候選4-項(xiàng)集:{1,2,3,4}{1,2,3,5}{1,2,4,5}{1,3,4,5}{2,3,4,5}(b)經(jīng)過剪枝后的所有候選4-項(xiàng)集:{1,2,3,4}{1,2,3,5}5.7一個(gè)數(shù)據(jù)庫有5個(gè)事務(wù),如表5-15所示。設(shè)min_sup=60%,min_conf=80%。表5-15習(xí)題5.7數(shù)據(jù)集事務(wù)ID購置的商品T100T200T300T400T500{M,O,N,K,E,Y}{D,O,N,K,E,Y}{M,A,K,E}{M,U,C,K,Y}{C,O,O,K,I,E}(a)分別用Apriori算法和FP-growth算法找出所有頻繁項(xiàng)集。比擬兩種挖掘方法的效率。(b)比擬窮舉法和Apriori算法生成的候選項(xiàng)集的數(shù)量。(c)利用(1)所找出的頻繁項(xiàng)集,生成所有的強(qiáng)關(guān)聯(lián)規(guī)則和對(duì)應(yīng)的支持度和置信度。答:(1)頻繁1-項(xiàng)集:M,O,K,E,Y頻繁2-項(xiàng)集:{M,O},{O,K},{O,E},{K,Y},{K,E}頻繁3-項(xiàng)集:{O,K,E}(2)窮舉法:M=2k-1=211-1=2047Apriori算法:23(3){O,K}—>{E},支持度0.6,置信度1{O,E}—>{k},支持度0.6,置信度15.8購物籃分析只針對(duì)所有屬性為二元布爾類型的數(shù)據(jù)集。如果數(shù)據(jù)集中的*個(gè)屬性為連續(xù)型變量時(shí),說明如何利用離散化的方法將連續(xù)屬性轉(zhuǎn)換為二元布爾屬性。比擬不同的離散方法對(duì)購物籃分析的影響。答:首先利用等頻、等寬等方法將連續(xù)屬性離散化,然后將離散化后的每個(gè)區(qū)間映射為一個(gè)二元屬性。離散化時(shí),如果區(qū)間太寬,可能因?yàn)槿狈χ眯哦榷?些模式;如果區(qū)間太窄,則可能因?yàn)槿狈χС侄榷?些模式。5.9分別說明利用支持度、置信度和提升度評(píng)價(jià)關(guān)聯(lián)規(guī)則的優(yōu)缺點(diǎn)。答:支持度優(yōu)點(diǎn):支持度高說明這條規(guī)則可能適用于數(shù)據(jù)集中的大局部事務(wù)。缺點(diǎn):假設(shè)支持度閾值過高,則許多潛在的有意義的模式由于包含支持度小的項(xiàng)而被刪去;假設(shè)支持度閾值過低,則計(jì)算代價(jià)很高而且產(chǎn)生大量的關(guān)聯(lián)模式。置信度優(yōu)點(diǎn):置信度高說明如果滿足了關(guān)聯(lián)規(guī)則的前件,同時(shí)滿足后件的可能性也非常大。缺點(diǎn):找到負(fù)相關(guān)的關(guān)聯(lián)規(guī)則。提升度:優(yōu)點(diǎn):提升度可以評(píng)估項(xiàng)集A的出現(xiàn)是否能夠促進(jìn)項(xiàng)集B的出現(xiàn)缺點(diǎn):會(huì)產(chǎn)生出現(xiàn)偽相互獨(dú)立的規(guī)則。5.10表5-16所示的相依表匯總了超級(jí)市場(chǎng)的事務(wù)數(shù)據(jù)。其中hotdogs指包含熱狗的事務(wù),eq\*\to(hotdogs)指不包含熱狗的事務(wù)。hamburgers指包含漢堡的事務(wù),eq\*\to(hamburgers)指不包含漢堡的事務(wù)。表5-16習(xí)題5.10相依表hotdogseq\*\to(hotdogs)rowHamburgers2,0005002,500eq\*\to(hamburgers)1,0001,5002,500col3,0002,0005,000假設(shè)挖掘出的關(guān)聯(lián)規(guī)則是"hotdogshamburgers〞。給定最小支持度閾值25%和最小置信度閾值50%,這個(gè)關(guān)聯(lián)規(guī)則是強(qiáng)規(guī)則嗎?計(jì)算關(guān)聯(lián)規(guī)則"hotdogshamburgers〞的提升度,能夠說明什么問題?購置熱狗和購置漢堡是獨(dú)立的嗎?如果不是,兩者間存在哪種相關(guān)關(guān)系?答:s({hotdogs})=3000/5000=60%;s({hotdogs,hamburgers})=2000/5000=40%C({hotdogs}→{hamburgers})=40%/60%=66.7%故這個(gè)關(guān)聯(lián)規(guī)則是強(qiáng)規(guī)則。S({hamburgers})=2500/5000=50%提升度lift({hotdogs}→{hamb

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論