數(shù)據(jù)挖掘聚類分析第六章_第1頁(yè)
數(shù)據(jù)挖掘聚類分析第六章_第2頁(yè)
數(shù)據(jù)挖掘聚類分析第六章_第3頁(yè)
數(shù)據(jù)挖掘聚類分析第六章_第4頁(yè)
數(shù)據(jù)挖掘聚類分析第六章_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘聚類分析第六章第1頁(yè),共19頁(yè),2023年,2月20日,星期五例某公司下屬30個(gè)企業(yè),公司為了考核下屬企業(yè)的經(jīng)濟(jì)效益,設(shè)計(jì)了8個(gè)指標(biāo)。為了避免重復(fù),需要對(duì)這8個(gè)指標(biāo)進(jìn)行篩選,建立一個(gè)恰當(dāng)?shù)慕?jīng)濟(jì)效益指標(biāo)體系。通過(guò)計(jì)算30個(gè)企業(yè)8個(gè)指標(biāo)的相關(guān)系數(shù)距離,數(shù)據(jù)是1-r2。得如下表:

x1x2

x3

x4x5

x6

x7

x8

x10

0.600

0.430.460

0.470.450.120

0.570.450.230.220

0.380.400.210.290.220

0.310.790.650.700.800.660

0.450.450.270.230.140.190.770試用將它們聚類。x2

x3x4x5

x6

x7

x8第2頁(yè),共19頁(yè),2023年,2月20日,星期五第3頁(yè),共19頁(yè),2023年,2月20日,星期五確定類的個(gè)數(shù)

在聚類分析過(guò)程中類的個(gè)數(shù)如何來(lái)確定才合適呢?這是一個(gè)十分困難的問(wèn)題,人們至今仍未找到令人滿意的方法。但是這個(gè)問(wèn)題又是不可回避的。

給定閾值——通過(guò)觀測(cè)聚類圖,給出一個(gè)合適的閾值T。要求類與類之間的距離不要超過(guò)T值。例如我們給定T=2.2,當(dāng)聚類時(shí),類間的距離已經(jīng)超過(guò)了2.2,則聚類結(jié)束。第4頁(yè),共19頁(yè),2023年,2月20日,星期五什么是好的聚類方法?一個(gè)好的聚類方法可以產(chǎn)生高質(zhì)量的聚類:類的內(nèi)部具有較高的相似度類間具有較低的相似度聚類結(jié)果的質(zhì)量依賴于相似度評(píng)價(jià)方法以及它們的應(yīng)用;聚類結(jié)果的質(zhì)量也取決于它發(fā)現(xiàn)隱藏模式的能力。.第5頁(yè),共19頁(yè),2023年,2月20日,星期五K-均值聚類K-均值聚類方法是最簡(jiǎn)單、最常用的使用使用準(zhǔn)則的方法。K-均值聚類是屬于劃分方法中的基于質(zhì)心技術(shù)的一種方法。劃分的思路是以k為參數(shù),把n個(gè)對(duì)象分為k個(gè)類,以使類內(nèi)具有較高的相似度,而類間的相似度較低。相似度的計(jì)算根據(jù)一個(gè)類中對(duì)象的平均值(被看作類的重心)來(lái)進(jìn)行。第6頁(yè),共19頁(yè),2023年,2月20日,星期五

K-均值聚類的處理流程如下。首先,隨機(jī)選擇k個(gè)對(duì)象,每個(gè)對(duì)象都初始地代表一個(gè)類的平均值或中心。對(duì)剩余的對(duì)象,根據(jù)其與各自類中心的距離,將它賦給最近的類。然后重新計(jì)算每個(gè)類的平均值。這個(gè)過(guò)程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。

第7頁(yè),共19頁(yè),2023年,2月20日,星期五

注意:類均值的初始值是任意分配的,可以隨機(jī)分配也可以直接使用前K個(gè)成員的屬性值。第8頁(yè),共19頁(yè),2023年,2月20日,星期五K-均值聚類實(shí)例假設(shè)給定如下要進(jìn)行聚類的元組:{2,4,10,12,3,20,30,11,25},并假設(shè)k=2.初始時(shí)用前兩個(gè)數(shù)值作為類的均值;m=2和m=4.利用歐幾里德距離,可得K1={2,3}和K2={4,10,12,20,30,11,25}。數(shù)值3與兩個(gè)均值的距離相等,所以任意地選擇K1作為其所屬類。在這種情況下,可以進(jìn)行任意指派。計(jì)算均值可得m1=2.5和m2=16。重新對(duì)類中的成員進(jìn)行分配,不斷重復(fù)上述過(guò)程,直至均值不再變化。第9頁(yè),共19頁(yè),2023年,2月20日,星期五

具體過(guò)程如表:m1m2K1K224{2,3}{4,10,12,20,30,11,25}2.516{2,3,4}{10,12,20,30,11,25}318{2,3,4,10}{12,20,30,11,25}4.7519.6{2,3,4,10,11,12}{20,30,25}725{2,3,4,10,11,12}{20,30,25}第10頁(yè),共19頁(yè),2023年,2月20日,星期五

注意在最后兩步中類的成員是一致的,由于均值不再變化,所以均值已經(jīng)收斂了。因此,該問(wèn)題的答案為:K1={2,3,4,10,11,12}和K2={20,30,25}K-均值法要求定義的類均值存在,并且要以期望的類的數(shù)目k作為輸入。要求用戶必須事先給出k(要生成的類的數(shù)目)可以算是該方法的一個(gè)缺點(diǎn)。而且,它對(duì)于“噪聲”和孤立點(diǎn)數(shù)據(jù)是敏感的,少量的該類數(shù)據(jù)能夠?qū)ζ骄诞a(chǎn)生極大的影響。第11頁(yè),共19頁(yè),2023年,2月20日,星期五K-Means聚類示例

第12頁(yè),共19頁(yè),2023年,2月20日,星期五

增量聚類

在越來(lái)越多的應(yīng)用中,必須對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行聚類?!按罅俊钡亩x隨著技術(shù)的改變而不同。在六十年代,“大量”意味著幾千個(gè)聚類的樣本。現(xiàn)在,有些應(yīng)用涉及到成千上萬(wàn)個(gè)高維樣本的聚類。增量聚類方法是最流行的,我們將解釋它的基本原理,下面是增量聚類方法的所有步驟:第13頁(yè),共19頁(yè),2023年,2月20日,星期五

1、對(duì)樣本排序后,把第一個(gè)數(shù)據(jù)項(xiàng)分配到第一個(gè)類里。2、考慮下一個(gè)數(shù)據(jù)項(xiàng),把它分配到目前某個(gè)類中或一個(gè)新類中。給分配是基于一些準(zhǔn)則的,例如新數(shù)據(jù)項(xiàng)到目前類的重心的距離。在這種情況下,每次添加一個(gè)新數(shù)據(jù)項(xiàng)到一個(gè)目前的類中時(shí),需要重新計(jì)算重心的值。3、重復(fù)步驟2,直到所有的數(shù)據(jù)樣本都被聚類完畢。第14頁(yè),共19頁(yè),2023年,2月20日,星期五

例如:設(shè)x1=(0,2),x2=(0,0),x3=(1.5,0),x4=(5,0),X5=(5,2)

假定樣本的順序是:X1,X2,X3,X4,X5,類間相似度的閾值水平是s=3。1、第一個(gè)樣本X1將變成第一個(gè)類C1={x1}.x1的坐標(biāo)就是重心坐標(biāo)M1={0,2}。2、開(kāi)始分析其他樣本。a)把第2個(gè)樣本x2和M1比較,距離d為:

d(x2,M1)==2.0<3第15頁(yè),共19頁(yè),2023年,2月20日,星期五

因此,x2屬于類C1,新的重心是:

M1={(0,1)}b)第3個(gè)樣本x3和重心M1(仍是僅有的重心)比較:

d(x3,M1)=C)第4個(gè)樣本X4和重心M1比較:

第16頁(yè),共19頁(yè),2023年,2月20日,星期五

d(x4,M1)=因?yàn)闃颖镜街匦腗1的距離比閾值s大,因此該樣本將生成一個(gè)自己的類C2={X4},

其相應(yīng)的重心為M2={5,0}。d)第5個(gè)樣本和這兩個(gè)類的重心相比較:

d(x5,M1)=d(x5,M2)=第17頁(yè),共19頁(yè),2023年,2月20日,星期五

C2={X4,X5}得到M2={5,1}3、分析完所有的樣本,最終的聚類解決方案是

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論