數(shù)學(xué)地質(zhì)系列______4聚類分析_第1頁
數(shù)學(xué)地質(zhì)系列______4聚類分析_第2頁
數(shù)學(xué)地質(zhì)系列______4聚類分析_第3頁
數(shù)學(xué)地質(zhì)系列______4聚類分析_第4頁
數(shù)學(xué)地質(zhì)系列______4聚類分析_第5頁
已閱讀5頁,還剩122頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、地質(zhì)與環(huán)境學(xué)院地質(zhì)與環(huán)境學(xué)院College of Geology & Environment 俗話說:俗話說:“物以類聚,人以群分物以類聚,人以群分”, 在社會、經(jīng)濟(jì)、管理、氣象、地質(zhì)、人口、在社會、經(jīng)濟(jì)、管理、氣象、地質(zhì)、人口、考古等眾多領(lǐng)域,都存在著大量的考古等眾多領(lǐng)域,都存在著大量的分類研究問題分類研究問題。分類是自然科學(xué)重要研究內(nèi)容之一第五章 聚類分析第一節(jié)第一節(jié) 概概 述述第二節(jié)第二節(jié) 數(shù)據(jù)的規(guī)格化處理數(shù)據(jù)的規(guī)格化處理第三節(jié)第三節(jié) 相似性度量相似性度量第四節(jié)第四節(jié) 系統(tǒng)聚類法系統(tǒng)聚類法第五節(jié)第五節(jié) 應(yīng)用實(shí)例應(yīng)用實(shí)例地質(zhì)與環(huán)境學(xué)院地質(zhì)與環(huán)境學(xué)院College of Geolog

2、y & Environment 合理的科學(xué)的分類,能夠反映某類事物的合理的科學(xué)的分類,能夠反映某類事物的最基本的特征最基本的特征以及以及同別類事物的區(qū)別同別類事物的區(qū)別,推動學(xué)科的發(fā)展和科學(xué)研究。,推動學(xué)科的發(fā)展和科學(xué)研究。第一節(jié) 概 述在地學(xué)領(lǐng)域:巖石、礦物、構(gòu)造、地層、古生物等在地學(xué)領(lǐng)域:巖石、礦物、構(gòu)造、地層、古生物等在環(huán)境領(lǐng)域:環(huán)境質(zhì)量在環(huán)境領(lǐng)域:環(huán)境質(zhì)量在經(jīng)濟(jì)領(lǐng)域:股市在經(jīng)濟(jì)領(lǐng)域:股市 聚類分析:聚類分析:是一種分類技術(shù),是一種分類技術(shù), 它是它是根據(jù)根據(jù)“物以類聚物以類聚”的道理,的道理,對對事物事物( (樣品或指標(biāo)樣品或指標(biāo)) )進(jìn)進(jìn)行分類的一種行分類的一種多元統(tǒng)計(jì)方法多

3、元統(tǒng)計(jì)方法, 又稱又稱“群分析、點(diǎn)群分析、簇群分析群分析、點(diǎn)群分析、簇群分析”。一、聚類分析的含義根據(jù)根據(jù)事物本身的特征事物本身的特征分類,分類, 即,即, 將事物將事物性質(zhì)相近性質(zhì)相近的歸為一類,的歸為一類, 將事物將事物性質(zhì)的差異較大性質(zhì)的差異較大的歸在不同的類。的歸在不同的類。所謂所謂“類類”,通俗地說就是,通俗地說就是相似元素的集合相似元素的集合。分類,是將一個(gè)觀測對象指定到某一類(組)。分類,是將一個(gè)觀測對象指定到某一類(組)。聚類分析特點(diǎn):將事物將事物性質(zhì)相近性質(zhì)相近的歸為一類,的歸為一類,將事物將事物性質(zhì)的差異較大性質(zhì)的差異較大的歸在不同的類。的歸在不同的類。 當(dāng)有當(dāng)有一個(gè)分類指

4、標(biāo)一個(gè)分類指標(biāo)時(shí),分類時(shí),分類比較容易比較容易。當(dāng)當(dāng)有有多個(gè)多個(gè)分類分類指標(biāo)指標(biāo)時(shí)時(shí),要進(jìn)行分類就,要進(jìn)行分類就不是很容易了不是很容易了。 由于不同的指標(biāo)項(xiàng)由于不同的指標(biāo)項(xiàng)對對重要程度重要程度或或依賴關(guān)系依賴關(guān)系是相互不同的,是相互不同的,所以也不能用所以也不能用平均的方法平均的方法,這樣會忽視相對,這樣會忽視相對重要程度重要程度的問題。的問題。 傳統(tǒng)的分類方法起源很早,在古老的分類學(xué)中,人們主要傳統(tǒng)的分類方法起源很早,在古老的分類學(xué)中,人們主要靠靠經(jīng)驗(yàn)經(jīng)驗(yàn)和和專業(yè)知識專業(yè)知識進(jìn)行定性的分析,進(jìn)行定性的分析, 許多分類往往帶有許多分類往往帶有主觀主觀性和任意性性和任意性,不能揭示客觀事物的內(nèi)在

5、本質(zhì)差別和聯(lián)系不能揭示客觀事物的內(nèi)在本質(zhì)差別和聯(lián)系。隨著人類科學(xué)技術(shù)的發(fā)展,對分類的要求越來越高,僅隨著人類科學(xué)技術(shù)的發(fā)展,對分類的要求越來越高,僅憑經(jīng)驗(yàn)和專業(yè)知識難以確切的進(jìn)行分類,特別是對于憑經(jīng)驗(yàn)和專業(yè)知識難以確切的進(jìn)行分類,特別是對于多因素、多因素、多指標(biāo)多指標(biāo)的分類問題。的分類問題。數(shù)學(xué)工具數(shù)學(xué)工具引用到分類學(xué)中,形成引用到分類學(xué)中,形成數(shù)值分類學(xué)數(shù)值分類學(xué), , 后來又將后來又將多元分析多元分析的技術(shù)引入到數(shù)值分類學(xué),逐步形成的技術(shù)引入到數(shù)值分類學(xué),逐步形成聚類分析聚類分析這一這一數(shù)值分類方法。數(shù)值分類方法。根據(jù)分類對象根據(jù)分類對象Q Q型:型:研究研究樣品之間樣品之間的關(guān)系,把不同

6、的物體歸類分群的關(guān)系,把不同的物體歸類分群R R型:型:研究同一物種不同研究同一物種不同變量之間變量之間的關(guān)系的關(guān)系 根據(jù)維數(shù):根據(jù)維數(shù):1 1、2 2、多、多 根據(jù)聚類的方法:根據(jù)聚類的方法:系統(tǒng)聚類、分解法系統(tǒng)聚類、分解法 系統(tǒng)聚類法:系統(tǒng)聚類法: 最短距離法(近鄰連接法)、最長距離法(遠(yuǎn)鄰連接法)最短距離法(近鄰連接法)、最長距離法(遠(yuǎn)鄰連接法) 類平均法、重心法、離差平方和增量法類平均法、重心法、離差平方和增量法二、聚類分析的對象類型 以分類對象為標(biāo)準(zhǔn),可以將變量(指標(biāo))分類R型聚類分析。 如城鎮(zhèn)居民消費(fèi)水平通常用八項(xiàng)指標(biāo)來描述,八項(xiàng)指標(biāo)間存在一定的線性相關(guān)。為研究城鎮(zhèn)居民的消費(fèi)結(jié)構(gòu),

7、需將相關(guān)性強(qiáng)的指標(biāo)歸并到一起,這實(shí)際上就是對指標(biāo)聚類等。 在生產(chǎn)活動中不乏有變量聚類的實(shí)例,如:衣服型號就是根據(jù)人體各部分尺寸數(shù)據(jù)找出最有代表性的指標(biāo)如身長、胸圍和褲長、腰圍作為上衣和褲子的代表性指標(biāo)。變量聚類使批量生產(chǎn)成為可能。 R R 型聚類是對型聚類是對變量進(jìn)行分類處理變量進(jìn)行分類處理。 一般來說,可以反映研究對象特點(diǎn)的一般來說,可以反映研究對象特點(diǎn)的變量有許多變量有許多,由于對,由于對客觀事物的認(rèn)識有限,往往難以找出彼此獨(dú)立且有客觀事物的認(rèn)識有限,往往難以找出彼此獨(dú)立且有代表性的變代表性的變量量,影響對問題進(jìn)一步的認(rèn)識和研究。,影響對問題進(jìn)一步的認(rèn)識和研究。 因此需要先進(jìn)行因此需要先進(jìn)

8、行變量聚類變量聚類,找出,找出相互獨(dú)立又有代表性的變相互獨(dú)立又有代表性的變量量,而又不丟失大部分信息。,而又不丟失大部分信息。 Q Q 型聚類是對型聚類是對樣品進(jìn)行分類樣品進(jìn)行分類,即,即對觀測進(jìn)行分類對觀測進(jìn)行分類。 根據(jù)觀測有關(guān)變量的特征,將根據(jù)觀測有關(guān)變量的特征,將特征相似的樣品特征相似的樣品歸為一類。歸為一類。它是聚類分析中用的最多的一種。它是聚類分析中用的最多的一種。Q 型、型、 R型這兩種聚類在數(shù)學(xué)上是對稱的,沒有什么不同。型這兩種聚類在數(shù)學(xué)上是對稱的,沒有什么不同。主要討論主要討論Q型聚類分析問題。型聚類分析問題。三、聚類分析的基本思想 我們所研究的樣品或指標(biāo)(變量)之間存在著程

9、度不同我們所研究的樣品或指標(biāo)(變量)之間存在著程度不同的的相似性相似性(親疏關(guān)系),于是:(親疏關(guān)系),于是: (1 1)根據(jù)一批樣品的多個(gè)觀測指標(biāo),具體找出一些能夠度)根據(jù)一批樣品的多個(gè)觀測指標(biāo),具體找出一些能夠度量量樣品或變量(指標(biāo))之間相似程度的統(tǒng)計(jì)量樣品或變量(指標(biāo))之間相似程度的統(tǒng)計(jì)量; 與多元分析的其它方法比,聚類分析方法較為粗糙,理與多元分析的其它方法比,聚類分析方法較為粗糙,理論上還不夠完善,但應(yīng)用方便、廣泛,論上還不夠完善,但應(yīng)用方便、廣泛,與回歸分析、判別分與回歸分析、判別分析一起被稱為多元分析的三大方法析一起被稱為多元分析的三大方法。(2 2)以這些統(tǒng)計(jì)量為)以這些統(tǒng)計(jì)量

10、為分類的依據(jù)分類的依據(jù),建立一種,建立一種分類方法分類方法,將一,將一批樣品或變量(指標(biāo)),按照它們在性質(zhì)上的批樣品或變量(指標(biāo)),按照它們在性質(zhì)上的親疏、相似程親疏、相似程度進(jìn)行分類度進(jìn)行分類。第二節(jié) 數(shù)據(jù)的規(guī)格化處理一、聚類分析的數(shù)據(jù)格式一、聚類分析的數(shù)據(jù)格式 設(shè)有設(shè)有n n個(gè)樣品個(gè)樣品單位,每個(gè)樣品測得單位,每個(gè)樣品測得 m m 項(xiàng)變量(指標(biāo)),項(xiàng)變量(指標(biāo)),原始資料陣為:原始資料陣為:nmnnmmijxxxxxxxxxxX212222111211)(第第i i個(gè)樣品個(gè)樣品X Xi i為矩陣為矩陣X X的第的第i i行所描述,行所描述, 任何兩個(gè)樣品任何兩個(gè)樣品X Xk k與與X XL

11、 L之間的之間的相似性相似性,可以通過矩陣,可以通過矩陣X X中中的第的第K K行與第行與第 L L 行的相似程度來刻劃;行的相似程度來刻劃;nmnnmmijxxxxxxxxxxX212222111211)(x xijij(i=1,n;j=1,mi=1,n;j=1,m)為第)為第i i個(gè)樣品的第個(gè)樣品的第j j個(gè)指標(biāo)的個(gè)指標(biāo)的觀測數(shù)據(jù)觀測數(shù)據(jù)。任何兩個(gè)變量任何兩個(gè)變量x xk k與與x xL L之間的相似性,之間的相似性,可以通過第可以通過第K K列與列與第第L L列的列的相似程度相似程度來刻劃。來刻劃。nmnnmmijxxxxxxxxxxX212222111211)(x xijij(i=1,

12、n;j=1,mi=1,n;j=1,m)為第)為第i i個(gè)樣品的第個(gè)樣品的第j j個(gè)指標(biāo)的個(gè)指標(biāo)的觀測數(shù)據(jù)觀測數(shù)據(jù)。 為了將為了將樣本進(jìn)行分類樣本進(jìn)行分類,就需要研究,就需要研究樣品之間樣品之間的關(guān)系;的關(guān)系; 為了將為了將變量進(jìn)行分類變量進(jìn)行分類,就需要研究,就需要研究變量之間變量之間的關(guān)系。的關(guān)系。 無論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是無論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是用用變量來描述變量來描述的,的,變量的類型不同,描述方法也就不同變量的類型不同,描述方法也就不同。二、變量測量尺度的類型二、變量測量尺度的類型通常,變量按照通常,變量按照測量的尺度測量的尺度不同,可以分為

13、三類:不同,可以分為三類:二、變量測量尺度的類型二、變量測量尺度的類型 間隔尺度間隔尺度(定距尺度、定量變量):(定距尺度、定量變量): 變量用變量用連續(xù)的量連續(xù)的量表示,由表示,由測量、計(jì)數(shù)測量、計(jì)數(shù)或或統(tǒng)計(jì)統(tǒng)計(jì)所得到的量。所得到的量。 如,長度、重量、經(jīng)濟(jì)統(tǒng)計(jì)數(shù)字、抽樣調(diào)查數(shù)據(jù)等;如,長度、重量、經(jīng)濟(jì)統(tǒng)計(jì)數(shù)字、抽樣調(diào)查數(shù)據(jù)等;間隔尺度、有序尺度、間隔尺度、有序尺度、 名義尺度名義尺度有序尺度有序尺度(定序變量、定性變量):(定序變量、定性變量): 用該變量度量時(shí)用該變量度量時(shí)沒有明確的數(shù)量表示沒有明確的數(shù)量表示,只有次序只有次序(等級)(等級)關(guān)系。如,產(chǎn)品質(zhì)量,分為一等品、二等品等。關(guān)系

14、。如,產(chǎn)品質(zhì)量,分為一等品、二等品等。名義尺度名義尺度(定類變量、定性變量):(定類變量、定性變量): 具有該種特性的變量在度量時(shí)既沒有數(shù)量表示,也沒有具有該種特性的變量在度量時(shí)既沒有數(shù)量表示,也沒有次序關(guān)系,而次序關(guān)系,而只有性質(zhì)上的差異只有性質(zhì)上的差異(用一些類表示)。(用一些類表示)。 如,性別、職業(yè)等。如,性別、職業(yè)等。 不同類型的變量,在定義距離和相似系數(shù)時(shí),其方法不同類型的變量,在定義距離和相似系數(shù)時(shí),其方法有很大差異。有很大差異。 在實(shí)際應(yīng)用中,研究比較多的是在實(shí)際應(yīng)用中,研究比較多的是間隔尺度間隔尺度,本章主要討,本章主要討論具有間隔尺度變量的樣品聚類分析方法。論具有間隔尺度變

15、量的樣品聚類分析方法。 為了使為了使不同量綱不同量綱、不同取值范圍不同取值范圍的數(shù)據(jù)能放在一起進(jìn)行比的數(shù)據(jù)能放在一起進(jìn)行比較,通常需要對數(shù)據(jù)進(jìn)行規(guī)格化處理,較,通常需要對數(shù)據(jù)進(jìn)行規(guī)格化處理, 即將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種即將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算,特定的運(yùn)算,把它變?yōu)榘阉優(yōu)橐粋€(gè)新值,一個(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。其它數(shù)據(jù)的新值。第二節(jié) 數(shù)據(jù)的規(guī)格化處理nmnnmmijxxxxxxxxxxX212222111211)(nijijniijijjjijijxxnxnxsxxz121)(1111 1、

16、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)標(biāo)準(zhǔn)化nmnnmmijzzzzzzzzzzZ212222111211)(第二節(jié) 數(shù)據(jù)的規(guī)格化處理nijijjxxnS12)(11nmnnmmijxxxxxxxxxxX212222111211)( jjjijijxxxxzminmaxmin2 2、數(shù)據(jù)正規(guī)化、數(shù)據(jù)正規(guī)化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX212222111211)(niijijjijijxnxxxz113 3、中心化、中心化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX2122221112

17、11)()log(ijijxz 4 4、對數(shù)化、對數(shù)化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX212222111211)(jxzxniijijmax15 5、極大值規(guī)格化、極大值規(guī)格化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX212222111211)(jijijxxz6 6、均值規(guī)格化、均值規(guī)格化nmnnmmijzzzzzzzzzzZ212222111211)(nmnnmmijxxxxxxxxxxX212222111211)(nijijijjijijxxnxSxz12

18、)(117 7、標(biāo)準(zhǔn)差規(guī)格化、標(biāo)準(zhǔn)差規(guī)格化nmnnmmijzzzzzzzzzzZ212222111211)(第三節(jié) 相似性度量聚類分析用于系統(tǒng)類群聚類分析用于系統(tǒng)類群相似性相似性的研究的實(shí)質(zhì),的研究的實(shí)質(zhì), 尋找尋找一種能客觀反映事物(樣品或變量)之間一種能客觀反映事物(樣品或變量)之間親疏親疏( (相近或相近或相似)相似)關(guān)系的統(tǒng)計(jì)量關(guān)系的統(tǒng)計(jì)量, 根據(jù)這種根據(jù)這種統(tǒng)計(jì)量統(tǒng)計(jì)量把事物(樣品或變量)把事物(樣品或變量)分成若干類分成若干類。相似性度量:相似性度量:能夠能夠度量度量變量(或樣品)之間變量(或樣品)之間相似相似性程度性程度的數(shù)量指標(biāo)。的數(shù)量指標(biāo)。常用的有常用的有相似系數(shù)相似系數(shù)、相

19、關(guān)系數(shù)相關(guān)系數(shù)、歐氏距離歐氏距離、 斜交距離斜交距離、 離差(誤差)平方和增量離差(誤差)平方和增量等。等。 描述樣品(或變量)間相近(親疏)、相似程度描述樣品(或變量)間相近(親疏)、相似程度的統(tǒng)計(jì)量很多,目前用得最多的聚類統(tǒng)計(jì)量是的統(tǒng)計(jì)量很多,目前用得最多的聚類統(tǒng)計(jì)量是距離距離和和相似系數(shù)相似系數(shù),距離系數(shù)距離系數(shù)一般用于對一般用于對樣品分類樣品分類,相似系數(shù)相似系數(shù)一般用于對一般用于對變量聚類變量聚類。 假使每個(gè)樣品有假使每個(gè)樣品有p p個(gè)變量個(gè)變量,則每個(gè)樣品都可以看成,則每個(gè)樣品都可以看成p p維空間維空間中的一個(gè)點(diǎn),中的一個(gè)點(diǎn),n n個(gè)樣品個(gè)樣品就是就是p p維空間中的維空間中的n

20、 n個(gè)點(diǎn),個(gè)點(diǎn), 用距離來度量樣品之間接近的程度用距離來度量樣品之間接近的程度, , 即即兩個(gè)樣品間接近程度用兩個(gè)樣品間接近程度用p p維空間中兩點(diǎn)的距離來度量維空間中兩點(diǎn)的距離來度量。 在聚類過程中,在聚類過程中,距離較近的點(diǎn)傾向于歸為一距離較近的點(diǎn)傾向于歸為一類類,距離較遠(yuǎn)的點(diǎn)應(yīng)歸屬不同的類。,距離較遠(yuǎn)的點(diǎn)應(yīng)歸屬不同的類。樣品間相近性(親疏程度)的測度樣品間相近性(親疏程度)的測度 首先我們看樣本數(shù)據(jù):首先我們看樣本數(shù)據(jù):個(gè)樣品之間的距離個(gè)樣品與第表示第設(shè):jijidnmnnmmijxxxxxxxxxxX212222111211)( 1 1、定義距離的準(zhǔn)則、定義距離的準(zhǔn)則 定義距離要求滿足

21、第i個(gè)和第j個(gè)樣品之間的距離如下四個(gè)條件(距離可以自己定義,只要滿足距離的條件);0成立和對一切的jidij;0成立當(dāng)且僅當(dāng)jidij;成立和對一切的jiddjiij.成立和對于一切的jidddkjikij(樣品(樣品 i 和樣品和樣品 j 的各指標(biāo)相同的各指標(biāo)相同)(對稱性)對稱性)(三角不等式)三角不等式)2、常用距離的算法、常用距離的算法 通常我們定義的距離一般是指通常我們定義的距離一般是指歐氏距離歐氏距離(直線距離),(直線距離),幾何平面上的點(diǎn)幾何平面上的點(diǎn)P P(x x1 1,x,x2 2) )到原點(diǎn)到原點(diǎn)o o(0 0,0 0)的歐氏距離,依的歐氏距離,依勾股定理勾股定理xxpo

22、d2221),( R Rp p 中兩點(diǎn)中兩點(diǎn) X X (x x1 1,x,x2 2,x xp p) )和和 Y (yY (y1 1,y,y2 2,y yp p) )之間的之間的歐歐氏距離氏距離為:為:)()()()(,(2112)yxyxyxyxDpp2、常用距離的算法、常用距離的算法 常用距離常用距離明氏距離明氏距離MinkowskiMinkowski距離):距離):11( ) qpqijikjkkdqxx (通用的距離測度公式)(通用的距離測度公式)2、常用距離的算法、常用距離的算法2、常用距離的算法、常用距離的算法1(1)pijikjkkdxx 1 221(2)pijikjkkdxx (

23、最直觀的距離)(最直觀的距離) 當(dāng)當(dāng)q=2q=2時(shí):時(shí):歐氏距離歐氏距離(Euclidean)(Euclidean) 當(dāng)當(dāng)q=1q=1時(shí):時(shí):絕對值距離絕對值距離1( )max ijikjkkpdxx 當(dāng)當(dāng)q=q=時(shí)時(shí):切比雪夫距離切比雪夫距離( (ChebychevChebychev) )當(dāng)當(dāng)量綱不一致時(shí)量綱不一致時(shí),往往突出,往往突出數(shù)量級高的變量數(shù)量級高的變量的作用,的作用,壓低數(shù)量級低的變量作用壓低數(shù)量級低的變量作用結(jié)果與實(shí)際有較大偏差結(jié)果與實(shí)際有較大偏差維數(shù)維數(shù)m m增加使增加使D Dikik變大,其變化無規(guī)律可循變大,其變化無規(guī)律可循解決解決: :原始數(shù)據(jù)預(yù)處理原始數(shù)據(jù)預(yù)處理修正公

24、式修正公式 歐氏距離系數(shù)歐氏距離系數(shù)D Dikik大小受變量觀測值大小受變量觀測值量綱量綱影響和影響和變量個(gè)數(shù)變量個(gè)數(shù)(維數(shù))的影響。(維數(shù))的影響。量綱量綱原始數(shù)據(jù)預(yù)處理原始數(shù)據(jù)預(yù)處理 統(tǒng)一量綱變換:統(tǒng)一量綱變換: 成為成為無量綱的無量綱的、具有統(tǒng)一尺度具有統(tǒng)一尺度的數(shù)據(jù),的數(shù)據(jù), 使每個(gè)變量在使每個(gè)變量在同一水平上同一水平上顯示顯示各自的作用各自的作用。維數(shù)維數(shù)修正公式修正公式 消除維數(shù)影響,并將歐氏距離系數(shù)的消除維數(shù)影響,并將歐氏距離系數(shù)的變化范圍變化范圍限制在限制在(0 0,1 1)之間。之間。當(dāng)兩點(diǎn)距離越小當(dāng)兩點(diǎn)距離越小,d dikik越大越大,兩樣品相似性愈大,兩樣品相似性愈大;反

25、之,距離反之,距離,d dikik,相似性,相似性變量樣品,mjnkixxmdmjkjijik, 2 , 1, 2 , 1,1112例如:對體重和身高進(jìn)行測量,采用不同單位,其距離測量例如:對體重和身高進(jìn)行測量,采用不同單位,其距離測量的結(jié)果不同。的結(jié)果不同。 當(dāng)長度為當(dāng)長度為cmcm時(shí):時(shí):CDAB22CD22ABdd1250)(105)(0d1010)(110)(0d當(dāng)長度為當(dāng)長度為mmmm時(shí):時(shí):CDAB22CD22ABdd26000)(1050)(0d100010)(1100)(0d通常改進(jìn)辦法有兩個(gè):通常改進(jìn)辦法有兩個(gè):(1 1)當(dāng)各指標(biāo)的)當(dāng)各指標(biāo)的測量值相差懸殊時(shí)測量值相差懸殊時(shí)

26、,先對數(shù)據(jù),先對數(shù)據(jù)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化,用,用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。 標(biāo)準(zhǔn)化后的數(shù)據(jù),每個(gè)變量的樣本均值為標(biāo)準(zhǔn)化后的數(shù)據(jù),每個(gè)變量的樣本均值為0 0,標(biāo)準(zhǔn)差為,標(biāo)準(zhǔn)差為1 1,與變量的量綱無關(guān);與變量的量綱無關(guān);常用的聚類分析軟件中都有這項(xiàng)功能,可以自動完成。常用的聚類分析軟件中都有這項(xiàng)功能,可以自動完成。(2 2)為)為克服變量之間的相關(guān)性影響克服變量之間的相關(guān)性影響,可以采用,可以采用馬氏距離馬氏距離。 下面用一個(gè)一維的例子說明歐氏距離與馬氏距離在概率上下面用一個(gè)一維的例子說明歐氏距離與馬氏距離在概率上的差異。的差異。 設(shè)有兩個(gè)正態(tài)總體,設(shè)有兩個(gè)正態(tài)總體, 給定一個(gè)樣品

27、位于給定一個(gè)樣品位于A A處,試問處,試問A A處的樣品離哪一個(gè)總體較近。處的樣品離哪一個(gè)總體較近。 按按歐氏距離歐氏距離來度量,來度量,A A點(diǎn)離點(diǎn)離 的中心的中心 , 要比離要比離 的中心的中心 “ “近一些近一些”, 從概率論的角度來看,從概率論的角度來看,A A點(diǎn)位于點(diǎn)位于 右側(cè)約右側(cè)約 處,處, 而位于而位于 左側(cè)約左側(cè)約 處,處, 用標(biāo)準(zhǔn)差來度量,那么用標(biāo)準(zhǔn)差來度量,那么A A點(diǎn)離點(diǎn)離 要比離要比離 “ “近一些近一些”。25 . 2 從圖上看,從圖上看, 顯然,顯然,概率論的角度概率論的角度的度量更為合理。的度量更為合理。 它是用它是用坐標(biāo)差平方除以方差坐標(biāo)差平方除以方差(或乘以

28、方差的倒數(shù)),從而(或乘以方差的倒數(shù)),從而化為化為無量綱數(shù)無量綱數(shù), 推廣到多維就要乘以協(xié)方差陣推廣到多維就要乘以協(xié)方差陣 的逆矩陣的逆矩陣 , 這就是這就是是是馬氏距離馬氏距離的概念。的概念。1 馬氏距離是由印度統(tǒng)計(jì)學(xué)家馬氏距離是由印度統(tǒng)計(jì)學(xué)家馬哈拉諾比斯馬哈拉諾比斯于于19361936年引入的,年引入的,故稱為故稱為馬氏距離馬氏距離。這一距離在多元統(tǒng)計(jì)分析中起著十分重要的。這一距離在多元統(tǒng)計(jì)分析中起著十分重要的作用。作用。2、常用距離的算法、常用距離的算法,考慮點(diǎn)考慮點(diǎn) X X 到到),(),(22222111NNGGG G1 1、G G2 2的相對距離:的相對距離:2222221212

29、21),(xGdxGdxx),(設(shè)設(shè)2222221)()(),(1)(1)(),(21GPGGpijGddmmP時(shí),當(dāng)?shù)鸟R氏距離定義為:與總體則樣品,協(xié)差陣為),(為的均值向量總體,najajiaiijxxxxn1p,1,ji, )(11naajjnaaiixnxnx111x 11)()()(12jijiijXXXXMd其中其中如果如果存在,則兩個(gè)樣品之間的存在,則兩個(gè)樣品之間的馬氏距離馬氏距離為為: 馬氏距離雖然考慮了觀測變量之間的馬氏距離雖然考慮了觀測變量之間的相關(guān)性相關(guān)性,并且也,并且也不受不受觀測變量量綱觀測變量量綱不同的影響,不同的影響, 在聚類分析之前,如果用全部數(shù)據(jù)計(jì)算的在聚類分

30、析之前,如果用全部數(shù)據(jù)計(jì)算的均值向量均值向量和和協(xié)方協(xié)方差矩陣差矩陣來計(jì)算馬氏距離,效果并不是很好。來計(jì)算馬氏距離,效果并不是很好。馬氏距離馬氏距離2、常用距離的算法、常用距離的算法 比較合理的辦法是用比較合理的辦法是用各個(gè)類的樣本各個(gè)類的樣本來計(jì)算來計(jì)算各自的協(xié)方差矩陣各自的協(xié)方差矩陣, 同一類樣本同一類樣本的馬氏距離應(yīng)當(dāng)用這一類的協(xié)方差矩陣來計(jì)算。的馬氏距離應(yīng)當(dāng)用這一類的協(xié)方差矩陣來計(jì)算。 然而,然而,類的形成要依賴于樣品之間的距離類的形成要依賴于樣品之間的距離,反過來樣品間合理的,反過來樣品間合理的馬氏距離又依賴于類,這就形成了一個(gè)惡性循環(huán)。馬氏距離又依賴于類,這就形成了一個(gè)惡性循環(huán)。馬

31、氏距離馬氏距離2、常用距離的算法、常用距離的算法因此,在實(shí)際聚類分析處理中,馬氏距離也不是理想的距離。因此,在實(shí)際聚類分析處理中,馬氏距離也不是理想的距離。蘭氏距離蘭氏距離(CanberraCanberra) pajaiajaiaijxxxxpLd1n,1,ji, 1)( 僅適用于一切僅適用于一切0ijx的情況,的情況, 這個(gè)距離有助于這個(gè)距離有助于克服各指標(biāo)之間量綱的影響克服各指標(biāo)之間量綱的影響, 沒有考慮指標(biāo)之間的相關(guān)性。沒有考慮指標(biāo)之間的相關(guān)性。2、常用距離的算法、常用距離的算法3、歐氏距離系數(shù)、歐氏距離系數(shù) 一維:一維:DAB=|xAxB| 二維:勾股定理二維:勾股定理 M維(歐氏距離

32、系數(shù)):維(歐氏距離系數(shù)):21j2BA2BA2BA2x2xAB)x(x)x(x)x(xDDDjj221121m1j2kjijik)x(xD4 4、斜交距離、斜交距離變量樣品,mjnkimxxxxPmjmljlklilkjijDIK, 2 , 1, 2 , 1, 211離差平方和增量離差平方和增量21)(jqmjjpqpqppqxxnnnnE)(qptpqEEEE組內(nèi)離差平方和:組內(nèi)離差平方和: 先計(jì)算組內(nèi)每個(gè)變量的平均值,先計(jì)算組內(nèi)每個(gè)變量的平均值, 再用每個(gè)變量與該平均值相減再用每個(gè)變量與該平均值相減后的平方和相加得此值。后的平方和相加得此值?!鞍戳杏?jì)算按列計(jì)算”組內(nèi)平均值計(jì)算:組內(nèi)平均值

33、計(jì)算:組內(nèi)每個(gè)樣品的某個(gè)變量(列)求和再除組內(nèi)每個(gè)樣品的某個(gè)變量(列)求和再除以樣品數(shù)以樣品數(shù)pqrqrrqprrprttrEnEnnEnnnnE12、常用距離的算法、常用距離的算法 以上幾種距離的定義均要求變量是間隔尺度的,以上幾種距離的定義均要求變量是間隔尺度的, 如果使用的變量是如果使用的變量是有序尺度有序尺度或名義尺度的,則或名義尺度的,則有相應(yīng)的有相應(yīng)的一些定義距離的方法。一些定義距離的方法。歐氏距離是聚類分析中用得最廣泛的距離。歐氏距離是聚類分析中用得最廣泛的距離。2、常用距離的算法、常用距離的算法 兩兩樣品的距離都算出來后,形成距離陣兩兩樣品的距離都算出來后,形成距離陣D D,其

34、中:,其中: ,D D是一個(gè)實(shí)對稱陣是一個(gè)實(shí)對稱陣, 只須計(jì)算上(或下)三角形部分,根據(jù)只須計(jì)算上(或下)三角形部分,根據(jù) D D可對可對 n n 個(gè)點(diǎn)進(jìn)個(gè)點(diǎn)進(jìn)行分類,行分類,距離近的點(diǎn)歸為一類,距離遠(yuǎn)的點(diǎn)歸為不同的類距離近的點(diǎn)歸為一類,距離遠(yuǎn)的點(diǎn)歸為不同的類。02211nndddnpn2n12p22211p1211ddddddddd)(Dijd距離矩陣:距離矩陣: 有些事物的相似,并非要求數(shù)值上的一致或相近,有些事物的相似,并非要求數(shù)值上的一致或相近,例如:例如: 三角形的相似、盡管尺寸、大小相差懸殊,卻非常相似,三角形的相似、盡管尺寸、大小相差懸殊,卻非常相似,又如:又如:兩形象平行,也可

35、為非常相似,兩形象平行,也可為非常相似, 為此,必須引入另外一個(gè)聚類分析的統(tǒng)計(jì)量為此,必須引入另外一個(gè)聚類分析的統(tǒng)計(jì)量相似系數(shù)相似系數(shù)。 在對變量在對變量進(jìn)行分類時(shí)進(jìn)行分類時(shí),常常采用,常常采用相似系數(shù)相似系數(shù)來度量變量之間來度量變量之間的相似性,的相似性, 變量之間的關(guān)系越是變量之間的關(guān)系越是密切密切,其相似系數(shù)越,其相似系數(shù)越接近于接近于1 1(或(或-1-1);); 變量之間的關(guān)系越是變量之間的關(guān)系越是疏遠(yuǎn)疏遠(yuǎn),其相似系數(shù)越,其相似系數(shù)越接近于接近于0 0。 在聚類過程中,在聚類過程中, 變量間相似性的測度變量間相似性的測度 比較相似的變量比較相似的變量傾向于歸為一類,傾向于歸為一類,

36、不怎么相似的變量不怎么相似的變量歸屬不同的類。歸屬不同的類。 變量變量X Xi i 與與 X Xj j的的相似系數(shù)相似系數(shù)用用C Cijij來表示。來表示。 對于間隔尺度,對于間隔尺度,最常用的相似系數(shù)最常用的相似系數(shù)有兩種:有兩種: 夾角余弦夾角余弦和和相關(guān)系數(shù)相關(guān)系數(shù)。1.1.夾角余弦夾角余弦cosinecosine 盡管圖中盡管圖中ABAB和和CDCD長度不一樣,長度不一樣,但但形狀相似形狀相似。 當(dāng)長度不是主要矛盾時(shí),就可當(dāng)長度不是主要矛盾時(shí),就可利用利用夾角余弦夾角余弦這樣的相似系數(shù)。這樣的相似系數(shù)。 變量變量X Xi i的的n n次觀測值(次觀測值(X X1i1i,X,X2i2i,

37、 ,X Xnini) )看成看成n n維空間的向量,維空間的向量,則則X Xi i和和X Xj j夾角夾角a aijij的余弦的余弦稱為稱為兩向量的相似系數(shù)。兩向量的相似系數(shù)。 ( 它是它是P P維空間中維空間中變量變量X Xi i的觀測向量的觀測向量與與變量變量X Xj j的觀測向量的觀測向量之間夾角的余弦函數(shù))。之間夾角的余弦函數(shù))。1.1.夾角余弦夾角余弦 : 將任何兩個(gè)樣品將任何兩個(gè)樣品 與與 看成看成 p 維空間的兩個(gè)向量,這兩個(gè)維空間的兩個(gè)向量,這兩個(gè)iXjXijcos向量的向量的夾角余弦夾角余弦 用表示。則:用表示。則:kkkjkkikkkjkikijxxxx12121cos1.

38、1.夾角余弦夾角余弦 : 由于由于-1 -1 coscos ijij 1 1 ,其值越接近于,其值越接近于 1 1 ,說明二樣品的相似程度越高。說明二樣品的相似程度越高。求出兩兩樣品的相似系數(shù),得到求出兩兩樣品的相似系數(shù),得到相似系數(shù)矩陣相似系數(shù)矩陣:它是一個(gè)它是一個(gè) n n 階實(shí)對稱矩陣,其主對角元素為階實(shí)對稱矩陣,其主對角元素為 1 1 。nnnnnnHcos,cos,coscos,cos,coscos,cos,cos2122221112111.1.夾角余弦夾角余弦 : mkjSSxxxxxxxxxxxxrkkjjnikikjijninikikjijnikikjijjk, 2 , 1,11

39、1221愈大表示關(guān)系愈密切, rr12.2.相關(guān)系數(shù):相關(guān)系數(shù): 相關(guān)系數(shù)常用相關(guān)系數(shù)常用r rijij表示,表示, 把兩兩樣品的相關(guān)系數(shù)都計(jì)算出來,可形成樣品把兩兩樣品的相關(guān)系數(shù)都計(jì)算出來,可形成樣品相關(guān)系數(shù)矩陣相關(guān)系數(shù)矩陣。其中其中 ,可根據(jù),可根據(jù)R R可對可對n n個(gè)樣品進(jìn)行分類。個(gè)樣品進(jìn)行分類。12211nnrrr2.2.相關(guān)系數(shù):相關(guān)系數(shù): 第四節(jié) 系統(tǒng)聚類法 系統(tǒng)聚類法系統(tǒng)聚類法(分層聚類)(分層聚類): : 是諸聚類分析方法中是諸聚類分析方法中使用最多使用最多的一種,的一種, 它是將類它是將類由多變到少由多變到少的一種方法。的一種方法。系統(tǒng)聚類分析的基本思想:系統(tǒng)聚類分析的基本

40、思想:首先將所研究的首先將所研究的每個(gè)樣品各自看成一類每個(gè)樣品各自看成一類,然后然后根據(jù)樣品間的相似程度根據(jù)樣品間的相似程度,每次將最相似的兩類合并每次將最相似的兩類合并。計(jì)算新類與其他類之間的相似程度,計(jì)算新類與其他類之間的相似程度,再選擇最相似者加以合并,這樣每合并一次,就減少一類,再選擇最相似者加以合并,這樣每合并一次,就減少一類,繼續(xù)這一過程,繼續(xù)這一過程,直到將所有樣品合并成一類直到將所有樣品合并成一類為止。為止。計(jì)算計(jì)算新類與其他類之間的新類與其他類之間的相似程度相似程度,再選擇再選擇最相似類合并最相似類合并,這樣每合并一次,就減少一類,這樣每合并一次,就減少一類,( (一一) )

41、 類間距離類間距離 根據(jù)問題和數(shù)據(jù)的實(shí)際情況,根據(jù)問題和數(shù)據(jù)的實(shí)際情況, 樣品之間的距離:樣品之間的距離:可從介紹過的幾種可從介紹過的幾種聚類統(tǒng)計(jì)量聚類統(tǒng)計(jì)量中選取最中選取最合適的一種。合適的一種。 類與類之間的距離:類與類之間的距離:主要解決以誰來代表全類主要解決以誰來代表全類, 由此產(chǎn)生不同的由此產(chǎn)生不同的類間距離類間距離和不同的和不同的系統(tǒng)聚類過程系統(tǒng)聚類過程。 以下用以下用 表示表示樣品樣品 與與 之間距離,之間距離, 用用 表示表示類類 與與ijdiXjXijDiGjG之間的距離。之間的距離。( (一一) )類間距離類間距離1.1.最短距離法最短距離法(single linkage,

42、nearest neighbor)樣品間:樣品間:歐氏距離歐氏距離類類間:類類間:兩類間兩兩樣品距離最短。兩類間兩兩樣品距離最短。 即,下圖中樣品即,下圖中樣品A A1 1和和B B2 2之間的距離之間的距離. . 類間距離類間距離B1B3B2A1A2最短距離最短距離(single linkage)(single linkage)聚類算法:聚類算法:把把兩個(gè)類之間的距離兩個(gè)類之間的距離定義為一個(gè)類的所有樣品與另定義為一個(gè)類的所有樣品與另一個(gè)類的一個(gè)類的所有樣品之間距離所有樣品之間距離的的最小者最小者。 定義類定義類G Gi i與與G Gj j之間的距離為之間的距離為兩類最近樣品的距離兩類最近樣

43、品的距離,即,即dDijijGxGxjjii,min 將將G GK K和和G GL L合并成一個(gè)合并成一個(gè)新類新類,記為,記為G GM M,則任一類則任一類G GJ J 與與G GM M的距離:的距離:),min()(JLJkkLJJMDDDD (1)規(guī)定樣品之間的距離,計(jì)算)規(guī)定樣品之間的距離,計(jì)算n個(gè)樣品的個(gè)樣品的距離矩陣距離矩陣D(0),它是一個(gè)對稱矩陣,它是一個(gè)對稱矩陣,開始每個(gè)樣品自成一類開始每個(gè)樣品自成一類, 。 ijijdD (2)選擇)選擇D(0)中非對角線的最小元素中非對角線的最小元素,設(shè)為,設(shè)為DKL,將將GK和和GL合并成一個(gè)合并成一個(gè)新類新類,記為,記為GM, 即即GM

44、=GK,GL。1.1.最短距離法最短距離法聚類步驟:聚類步驟: (3)計(jì)算新類與任一類之間的距離計(jì)算新類與任一類之間的距離為為 DJM=minDJK,DJL 將將D(0)中中K、L行,行,K、L列用上式列用上式并成一個(gè)新行新列并成一個(gè)新行新列,新行新列新行新列對應(yīng)對應(yīng)GM,所得矩陣記作,所得矩陣記作D(1)。 (4) (4)對對D D(1 1)重復(fù)上述重復(fù)上述對對D D(0 0)的兩步得的兩步得D D(2 2),直至,直至如果某一步如果某一步D(m)D(m)中中最小的元素不止一個(gè)最小的元素不止一個(gè), 則對應(yīng)這些最小元素的類可以則對應(yīng)這些最小元素的類可以同時(shí)合并同時(shí)合并。所有元素合并成一類為止。

45、所有元素合并成一類為止。 例:例:5個(gè)樣品,每個(gè)樣品只有一個(gè)指標(biāo),分別為:個(gè)樣品,每個(gè)樣品只有一個(gè)指標(biāo),分別為: 1.0,2.0,3.5,7.0,9.0,試用最短距離進(jìn)行聚類分析。,試用最短距離進(jìn)行聚類分析。),min()(JLJkkLJJMDDDDG1 G2 G3 G4 G5G1G2G3G4G50 1 02.5 1.5 06 5 3.5 0 8 7 5.5 2 0解解: (1)樣品間的距離采用絕對距離,計(jì)算樣品兩兩距離,樣品間的距離采用絕對距離,計(jì)算樣品兩兩距離,得得距離矩陣距離矩陣D(0):G6 G3 G4 G5G6G3G4G50 1.5 05 3.5 07 5. 5 2.0 0 G1 G

46、2 G3 G4 G5G1G2G3G4G50 1 02.5 1.5 06 5 3.5 0 8 7 5.5 2 0(2 2)D D(0 0)樣中非對角線最小元素為樣中非對角線最小元素為1 1,即,即D D1212=1=1,根據(jù)最短距,根據(jù)最短距離準(zhǔn)則將離準(zhǔn)則將G1G1、G2G2合并為一新類合并為一新類,記為,記為G6=G1,G2G6=G1,G2;(3 3)計(jì)算)計(jì)算G6G6與剩余其他類的距離,按照公式:與剩余其他類的距離,按照公式: D=min D=min(D Di1i1,D Di2i2),),即即D D(0 0)的前兩列中取較小者,得的前兩列中取較小者,得距離矩陣距離矩陣D D(1 1) :G6

47、 G3 G4 G5G6G3G4G50 1.5 05 3.5 07 5. 5 2.0 0 G1 G2 G3 G4 G5G1G2G3G4G50 1 02.5 1.5 06 5 3.5 0 8 7 5.5 2 0(2 2)D D(0 0)樣中非對角線最小元素為樣中非對角線最小元素為1 1,即,即D D1212=1=1,根據(jù)最短距,根據(jù)最短距離準(zhǔn)則將離準(zhǔn)則將G1G1、G2G2合并為一新類合并為一新類,記為,記為G6=G1,G2G6=G1,G2;(3 3)計(jì)算)計(jì)算G6G6與剩余其他類的距離,按照公式:與剩余其他類的距離,按照公式: D=min D=min(D Di1i1,D Di2i2),),即即D

48、D(0 0)的前兩列中取較小者,得的前兩列中取較小者,得距離矩陣距離矩陣D D(1 1) :G6 G3 G4 G5G6G3G4G50 1.5 05 3.5 07 5. 5 2.0 0 (4 4)D D(1 1)樣中非對角線最小元素為樣中非對角線最小元素為1.51.5,即,即D D3636=1.5=1.5,根據(jù)最,根據(jù)最短距離準(zhǔn)則將短距離準(zhǔn)則將G3G3、G6G6合并為一新類合并為一新類,記為,記為G7=G1,G2,G3G7=G1,G2,G3;即即,D,D(1 1)的前兩列中取較小者,得的前兩列中取較小者,得距離矩陣距離矩陣D D(2 2) :G3 G4 G5G3G4G503.5 05. 5 2.

49、0 0 G6 G3 G4 G5G6G3G4G50 1.5 05 3.5 07 5. 5 2.0 0 (4 4)D D(1 1)樣中非對角線最小元素為樣中非對角線最小元素為1.51.5,即,即D D3636=1.5=1.5,根據(jù)最,根據(jù)最短距離準(zhǔn)則將短距離準(zhǔn)則將G3G3、G6G6合并為一新類合并為一新類,記為,記為G7=G1,G2,G3G7=G1,G2,G3;即即,D,D(1 1)的前兩列中取較小者,得的前兩列中取較小者,得距離矩陣距離矩陣D D(2 2) :G3 G4 G5G3G4G503.5 05. 5 2.0 0 (5 5)D D(2 2)樣中非對角線最小元素為樣中非對角線最小元素為2.0

50、2.0,即,即D D4545=2.0=2.0,根據(jù)最,根據(jù)最短距離準(zhǔn)則將短距離準(zhǔn)則將G4G4、G5G5合并為一新類合并為一新類,記為,記為G8=G4,G5G8=G4,G5;即即,D,D(2 2)的前兩列中取較小者,得的前兩列中取較小者,得距離矩陣距離矩陣D D(3 3) :G7 G4 G5G7G4G503.5 05. 5 2.0 0 G7 G8 G7G803.5 0(5 5)D D(2 2)樣中非對角線最小元素為樣中非對角線最小元素為2.02.0,即,即D D4545=2.0=2.0,根據(jù)最,根據(jù)最短距離準(zhǔn)則將短距離準(zhǔn)則將G4G4、G5G5合并為一新類合并為一新類,記為,記為G8=G4,G5G

51、8=G4,G5;即即,D,D(2 2)的前兩列中取較小者,得的前兩列中取較小者,得距離矩陣距離矩陣D D(3 3) :G7 G4 G5G7G4G503.5 05. 5 2.0 0 G7 G8 G7G803.5 0X X1 1X X5 5X X4 4X X3 3X X2 2G G6 6G G7 7G G8 8G G9 9系統(tǒng)聚類譜系圖系統(tǒng)聚類譜系圖2.2.最最長長距離法距離法(complete linkage,furthest neighbor)樣品間:樣品間:歐氏距離歐氏距離類類間:類類間:兩類間樣品兩兩距離最長。兩類間樣品兩兩距離最長。 即下圖中樣品即下圖中樣品A A2 2和和B B3 3之

52、間的距離之間的距離 ),max(JLJKJMDDD最長距離最長距離(complete linkage)(complete linkage)類間距離類間距離B1B3A1A2B2聚類算法:聚類算法:(1)(1)把把兩個(gè)類之間的距離兩個(gè)類之間的距離定義為一個(gè)類的所有樣品與另一個(gè)類定義為一個(gè)類的所有樣品與另一個(gè)類 的的所有樣品之間的所有樣品之間的距離最大者距離最大者,(2)(2)并類的標(biāo)準(zhǔn)并類的標(biāo)準(zhǔn)仍采用它與仍采用它與其它類的最小距離其它類的最小距離。 例:例:5個(gè)樣品,每個(gè)樣品只有一個(gè)指標(biāo),分別為:個(gè)樣品,每個(gè)樣品只有一個(gè)指標(biāo),分別為: 1.0,2.0,3.5,7.0,9.0,試用最,試用最長長距離

53、進(jìn)行聚類分析。距離進(jìn)行聚類分析。解解: (1)樣品間的距離采用絕對距離,計(jì)算樣品兩兩距離,樣品間的距離采用絕對距離,計(jì)算樣品兩兩距離,得得距離矩陣距離矩陣D(0):),max(JLJKJMDDDG1 G2 G3 G4 G5G1G2G3G4G50 1 02.5 1.5 06 5 3.5 0 8 7 5.5 2.0 0G1 G2 G3 G4 G5G1G2G3G4G50 1 02.5 1.5 06 5 3.5 0 8 7 5.5 2.0 0(2 2)D D(0 0)樣中非對角線最小元素為樣中非對角線最小元素為1 1,即,即D D1212=1=1,根據(jù)最短距,根據(jù)最短距離準(zhǔn)則將離準(zhǔn)則將G1G1、G2G

54、2合并為一新類合并為一新類,記為,記為G6=G1,G2G6=G1,G2;(3 3)計(jì)算)計(jì)算G6G6與剩余其他類的距離,按照公式:與剩余其他類的距離,按照公式: D=max D=max(D Di1i1,D Di2i2),),即即D D(0 0)的前兩列中取較小者,得的前兩列中取較小者,得距離矩陣距離矩陣D D(1 1) :(2 2)D D(0 0)樣中非對角線最小元素為樣中非對角線最小元素為1 1,即,即D D1212=1=1,根據(jù)最短距,根據(jù)最短距離準(zhǔn)則將離準(zhǔn)則將G1G1、G2G2合并為一新類合并為一新類,記為,記為G6=G1,G2G6=G1,G2;(3 3)計(jì)算)計(jì)算G6G6與剩余其他類的

55、距離,按照公式:與剩余其他類的距離,按照公式: D=max D=max(D Di1i1,D Di2i2),),即即D D(0 0)的前兩列中取較小者,得的前兩列中取較小者,得距離矩陣距離矩陣D D(1 1) :G6 G3 G4 G5G6G3G4G50 2.5 06 3.5 08 5. 5 2.0 0 G1 G2 G3 G4 G5G1G2G3G4G50 1 02.5 1.5 06 5 3.5 0 8 7 5.5 2 0(4 4)D D(1 1)樣中非對角線最小元素為樣中非對角線最小元素為2.02.0,即,即D D4545=2.0=2.0,根據(jù)最,根據(jù)最短距離準(zhǔn)則將短距離準(zhǔn)則將G4G4、G5G5合

56、并為一新類合并為一新類,記為,記為G7=G4,G5G7=G4,G5;即即,D,D(1 1)的前兩列中取較小者,得的前兩列中取較小者,得距離矩陣距離矩陣D D(2 2) :G6 G3 G4 G5G6G3G4G50 2.5 06 3.5 08 5. 5 2.0 0 G6 G3 G4 G5G6G3G4G50 2.5 06 3.5 08 5. 5 2.0 0 G6 G3 G7 G6G3G70 2.5 08 5. 5 0 (4 4)D D(1 1)樣中非對角線最小元素為樣中非對角線最小元素為2.02.0,即,即D D4545=2.0=2.0,根據(jù)最,根據(jù)最短距離準(zhǔn)則將短距離準(zhǔn)則將G4G4、G5G5合并為

57、一新類合并為一新類,記為,記為G7=G4,G5G7=G4,G5;即即,D,D(1 1)的前兩列中取較小者,得的前兩列中取較小者,得距離矩陣距離矩陣D D(2 2) :(5 5)D D(2 2)樣中非對角線最小元素為樣中非對角線最小元素為2.52.5,即,即D D3636=2.5=2.5,根據(jù)最,根據(jù)最短距離準(zhǔn)則將短距離準(zhǔn)則將G3G3、G6G6合并為一新類合并為一新類,記為,記為G8=G3,G6G8=G3,G6;即即,D,D(2 2)的前兩列中取較小者,得的前兩列中取較小者,得距離矩陣距離矩陣D D(3 3) :G8 G7 G8G708 0G6 G3 G7 G6G3G70 2.5 08 5. 5

58、 0 X X1 1X X5 5X X4 4X X3 3X X2 2G G6 6G G8 8G G7 7G G9 9系統(tǒng)聚類譜系圖系統(tǒng)聚類譜系圖有兩種形式:有兩種形式: 一種是一種是組間聯(lián)結(jié)法組間聯(lián)結(jié)法,組間聯(lián)結(jié)法在計(jì)算距離時(shí),只考慮兩類,組間聯(lián)結(jié)法在計(jì)算距離時(shí),只考慮兩類之間樣品之間的之間樣品之間的距離的平均距離的平均, 另一種是另一種是組內(nèi)聯(lián)結(jié)法組內(nèi)聯(lián)結(jié)法,組內(nèi)聯(lián)結(jié)法在計(jì)算距離時(shí)把兩組所有,組內(nèi)聯(lián)結(jié)法在計(jì)算距離時(shí)把兩組所有樣品之間的距離都考慮在內(nèi)樣品之間的距離都考慮在內(nèi)。3.3.類平均法類平均法(average linkage between group)類間距離類間距離B1B3B2A1A2

59、平均距離平均距離(average)(average)(61235234225224215214212ddddddD 4.4. 重心法重心法(centroid method)樣品間:樣品間:歐氏距離歐氏距離 類類間:類類間:兩類重心(即該類樣品的均值)之間的距離兩類重心(即該類樣品的均值)之間的距離 重心重心法法類的重心之間的距離類的重心之間的距離 從物理觀點(diǎn)來看,一類即一組質(zhì)點(diǎn),用它的重心從物理觀點(diǎn)來看,一類即一組質(zhì)點(diǎn),用它的重心(質(zhì)量的中心質(zhì)量的中心)做為代表比較合理,由此產(chǎn)生重心法。)做為代表比較合理,由此產(chǎn)生重心法。 類與類之間的距離:類與類之間的距離:定義為它們的重心(均值)之間的定義

60、為它們的重心(均值)之間的( (平方)歐氏距離。平方)歐氏距離。 設(shè)設(shè)G GK K和和G GL L的重心分別為的重心分別為x xk k和和x xL L, 則則G GK K與與G GL L之間的平方距離之間的平方距離為:為:LkDKL22(centroid method)4.4. 重心法重心法)(222222KLMLKKLMLKJLMLJKMKJMDnnnDnnnDnnDnnD比中間距離多設(shè)某一步將設(shè)某一步將G GK K和和G GL L合并的合并的新類新類為為G GM M,它們的它們的重心重心分別是分別是X Xk k、X XL L、X Xm m,它們各有它們各有n nk k、n nL L、n nm m(n(nm

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論