第4講 聚類(lèi)分析_第1頁(yè)
第4講 聚類(lèi)分析_第2頁(yè)
第4講 聚類(lèi)分析_第3頁(yè)
第4講 聚類(lèi)分析_第4頁(yè)
第4講 聚類(lèi)分析_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類(lèi)分析分類(lèi)俗語(yǔ)說(shuō),物以類(lèi)聚、人以群分。但什么是分類(lèi)的根據(jù)呢?比如,要想把中國(guó)的縣分成若干類(lèi),就有很多種分類(lèi)法;可以按照自然條件來(lái)分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項(xiàng)來(lái)分類(lèi),也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類(lèi)。聚類(lèi)分析對(duì)于一個(gè)數(shù)據(jù),人們既可以對(duì)變量(指標(biāo))進(jìn)行分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的列分類(lèi)),也可以對(duì)觀測(cè)值(事件,樣品)來(lái)分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的行分類(lèi))。比如學(xué)生成績(jī)數(shù)據(jù)就可以對(duì)學(xué)生按照理科或文科成績(jī)(或者綜合考慮各科成績(jī))分類(lèi),當(dāng)然,并不一定事先假定有多少類(lèi),完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類(lèi)。本章要介紹的分類(lèi)的方法稱(chēng)為聚類(lèi)分析(clusteranalysis)。對(duì)變量的聚類(lèi)稱(chēng)為R型聚類(lèi),而對(duì)觀測(cè)值聚類(lèi)稱(chēng)為Q型聚類(lèi)。這兩種聚類(lèi)在數(shù)學(xué)上是對(duì)稱(chēng)的,沒(méi)有什么不同。飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量如何度量遠(yuǎn)近?如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類(lèi),如果僅僅知道他們的數(shù)學(xué)成績(jī),則只好按照數(shù)學(xué)成績(jī)來(lái)分類(lèi);這些成績(jī)?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類(lèi)。如果還知道他們的物理成績(jī),這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn),也可以按照距離遠(yuǎn)近來(lái)分類(lèi)。三維或者更高維的情況也是類(lèi)似;只不過(guò)三維以上的圖形無(wú)法直觀地畫(huà)出來(lái)而已。在飲料數(shù)據(jù)中,每種飲料都有四個(gè)變量值。這就是四維空間點(diǎn)的問(wèn)題了。兩個(gè)距離概念按照遠(yuǎn)近程度來(lái)聚類(lèi)需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)之間的距離,一個(gè)是類(lèi)和類(lèi)之間的距離。點(diǎn)間距離有很多定義方式。最簡(jiǎn)單的是歐氏距離,還有其他的距離。二、樣本距離用表示第i個(gè)樣本與第j個(gè)樣本之間的距離。一切距離應(yīng)滿(mǎn)足以下條件:每個(gè)樣本有p個(gè)指標(biāo),因此每個(gè)樣本可以看成p維空間中的一個(gè)點(diǎn),n個(gè)樣本就組成p維空間中的n個(gè)點(diǎn),這時(shí)很自然想到用距離來(lái)度量n個(gè)樣本間的接近程度。常見(jiàn)的距離有:minkowskidistance(明氏距離):當(dāng)q=1blockdistance絕對(duì)值距離:當(dāng)q=2squaredeuclideandistance平方歐式距離ú?ùê?é-?==ptqjtitxxdq11當(dāng)q=chebychevdistance切比雪夫距離明氏距離在實(shí)際中應(yīng)用的很多,

但也存在一些缺點(diǎn):處理辦法:標(biāo)準(zhǔn)化2、指標(biāo)間的相關(guān)問(wèn)題;1、量綱的問(wèn)題;Mahalanobis馬氏距離改進(jìn)的辦法,采用馬氏距離⒉相似系數(shù)夾角余弦相關(guān)系數(shù)①夾角余弦兩變量的夾角余弦定義為:

②相關(guān)系數(shù)兩變量的相關(guān)系數(shù)定義為:

14

三、類(lèi)間距離1、最短距離(NearestNeighbor)x21?x12?x22?x11?15最長(zhǎng)距離(FurthestNeighbor)???x11?x21????16??????組間平均連接(Between-groupLinkage)171、組內(nèi)平均連接法(Within-groupLinkage)x21?x12?x22?x11?18重心法(Centroidclustering):均值點(diǎn)的距離??19離差平方和法連接2,41,56,520紅綠(2,4,6,5)8.75離差平方和增加8.75-2.5=6.25黃綠(6,5,1,5)14.75離差平方和增加14.75-8.5=6.25黃紅(2,4,1,5)10-10=0故按該方法的連接和黃紅首先連接。類(lèi)的個(gè)數(shù)的確定由適當(dāng)?shù)拈撝荡_定;根據(jù)數(shù)據(jù)點(diǎn)的散布直觀地確定類(lèi)的個(gè)數(shù);根據(jù)統(tǒng)計(jì)量確定分類(lèi)個(gè)數(shù);類(lèi)的個(gè)數(shù)的確定根據(jù)譜系圖確定分類(lèi)個(gè)數(shù)的準(zhǔn)則:各類(lèi)重心間的距離必須很大;類(lèi)中保包含的元素不要太多;類(lèi)的個(gè)數(shù)必須符合實(shí)際應(yīng)用;如果采用幾種不同的聚類(lèi)方法處理,則在各種聚類(lèi)圖中應(yīng)該發(fā)現(xiàn)相同的類(lèi)。聚類(lèi)分析1、系統(tǒng)聚類(lèi)法------(分層聚類(lèi))系統(tǒng)聚類(lèi)法是應(yīng)用最廣泛的一種(HierarchicalCluster過(guò)程)1)、聚類(lèi)原則:都是相近的聚為一類(lèi),即距離最近或最相似的聚為一類(lèi)。2)、分層聚類(lèi)的方法可以用于樣本聚類(lèi)(Q)型,也可以用于變量聚類(lèi)(R型)。2、非系統(tǒng)聚類(lèi)法-----(快速聚類(lèi)法----K-均值聚類(lèi)法)(K-meansCluster)3、兩步聚類(lèi)法-----一種探索性的聚類(lèi)方法(TwoStepCluster)K-均值聚類(lèi)分析K-meansCluster

又稱(chēng)為快速樣本聚類(lèi)法,是非系統(tǒng)聚類(lèi)中最常用的聚類(lèi)法。優(yōu)點(diǎn):是占內(nèi)存少、計(jì)算量小、處理速度快,特別適合大樣本的聚類(lèi)分析。缺點(diǎn):應(yīng)用范圍有限,要求用戶(hù)制定分類(lèi)數(shù)目(要告知),只能對(duì)觀測(cè)量(樣本)聚類(lèi),而不能對(duì)變量聚類(lèi),且所使用的聚類(lèi)變量必須都是連續(xù)性變量。數(shù)據(jù)標(biāo)準(zhǔn)化處理:存儲(chǔ)中間過(guò)程數(shù)據(jù)數(shù)據(jù)標(biāo)準(zhǔn)化處理,并存儲(chǔ)。指定5類(lèi)收斂標(biāo)準(zhǔn)值存儲(chǔ)最終結(jié)果輸出情況,在數(shù)據(jù)文件中(QCL-1、QCL-2)初始聚心選項(xiàng),輸出方差分析表初始聚類(lèi)中心表具體城市看后表最終聚類(lèi)中心表聚類(lèi)結(jié)果:QCL-1說(shuō)明聚類(lèi)結(jié)果,QCL-2說(shuō)明聚類(lèi)的長(zhǎng)度情況系統(tǒng)聚類(lèi)法HierarchicalCluster系統(tǒng)聚類(lèi)法優(yōu)點(diǎn):既可以對(duì)觀測(cè)量(樣品)也可對(duì)變量進(jìn)行聚類(lèi),既可以連續(xù)變量也可以是分類(lèi)變量,提供的距離計(jì)算方法和結(jié)果顯示方法也很豐富。系統(tǒng)聚類(lèi)法基本步驟7.決定類(lèi)的個(gè)數(shù)和類(lèi)。1.選擇樣本間距離的定義及類(lèi)間距離的定義;2.計(jì)算n個(gè)樣本兩兩之間的距離,得到距離矩陣;3.構(gòu)造個(gè)類(lèi),每類(lèi)只含有一個(gè)樣本4.合并符合類(lèi)間距離定義要求的兩類(lèi)為一個(gè)新類(lèi);5.計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離。若類(lèi)的個(gè)數(shù)為1,則轉(zhuǎn)到步驟6,否則回到步驟4;6.畫(huà)出聚類(lèi)圖;系統(tǒng)聚類(lèi)分析的方法以下用dij表示樣品X(i)和X(j)之間的距離,當(dāng)樣品間的親疏關(guān)系采用相似系數(shù)Cij時(shí),令系統(tǒng)聚類(lèi)法的聚類(lèi)原則決定于樣品間的距離以及類(lèi)間距離的定義,類(lèi)間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類(lèi)分析方法。以下用D(p,q)表示類(lèi)Gp和Gq之間的距離例為了研究遼寧等5省1991年城鎮(zhèn)居民生活消費(fèi)情況的分布規(guī)律,根據(jù)調(diào)查資料做類(lèi)型分類(lèi),用最短距離做類(lèi)間分類(lèi)。數(shù)據(jù)如下:x1x2x3x4x5x6x7x8遼寧17.9039.778.4912.9419.2711.052.0413.29浙江27.6850.3711.3513.3019.2514.592.7514.87河南39.4227.938.208.1416.179.421.559.76甘肅49.1627.989.019.3215.999.101.8211.35青海510.0628.6410.5210.0516.188.391.9610.81將每一個(gè)省區(qū)視為一個(gè)樣本,先計(jì)算5個(gè)省區(qū)之間的歐式距離,用D0表示距離矩陣(對(duì)稱(chēng)陣,故給出下三角陣)因此將3.4合并為一類(lèi),為類(lèi)6,替代了3、4兩類(lèi)類(lèi)6與剩余的1、2、5之間的距離分別為:

d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21得到新矩陣合并類(lèi)6和類(lèi)5,得到新類(lèi)7類(lèi)7與剩余的1、2之間的距離分別為:

d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54得到新矩陣合并類(lèi)1和類(lèi)2,得到新類(lèi)8此時(shí),我們有兩個(gè)不同的類(lèi):類(lèi)7和類(lèi)8。它們的最近距離d(7,8)

=min(d71,d72)=min(12.80,23.54)=12.80得到矩陣最后合并為一個(gè)大類(lèi)。這就是按最短距離定義類(lèi)間距離的系統(tǒng)聚類(lèi)方法。最長(zhǎng)距離法類(lèi)似!主要城市日照時(shí)數(shù)注:連續(xù)變量SPSS提供不同類(lèi)間距離的測(cè)量方法1、組間連接法2、

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論