第六章 聚類(lèi)分析_第1頁(yè)
第六章 聚類(lèi)分析_第2頁(yè)
第六章 聚類(lèi)分析_第3頁(yè)
第六章 聚類(lèi)分析_第4頁(yè)
第六章 聚類(lèi)分析_第5頁(yè)
已閱讀5頁(yè),還剩79頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一節(jié)距離和相似系數(shù)

在對(duì)樣本(或變量)進(jìn)行分類(lèi)時(shí),樣品(或變量)之間的相似性度量工具——距離和相似系數(shù)。前者常用來(lái)度量樣本之間的相似性,后者常用來(lái)度量變量之間的相似性。樣本之間的距離和相似系數(shù)有著各種不同的定義,而這些定義與變量的類(lèi)型有非常密切的關(guān)系。第六章聚類(lèi)分析(1)間隔尺度變量:變量有連續(xù)的量來(lái)表示,如長(zhǎng)度,重量,速度,溫度等。(2)有序尺度變量:變量度量時(shí)不用明確的數(shù)量表示,而是用等級(jí)來(lái)表示,如某產(chǎn)品分為一等品,二等品,三等品等有次序關(guān)系。(3)名義尺度變量:變量用一些類(lèi)表示,這些類(lèi)之間既無(wú)等級(jí)關(guān)系也無(wú)數(shù)量關(guān)系。如性別,職業(yè),產(chǎn)品的型號(hào)等。通常變量按測(cè)量尺度的不同可以分為以下三類(lèi):表6.1.1數(shù)據(jù)矩陣變量樣品

12

n

一、距離設(shè)為第個(gè)樣品的第個(gè)指標(biāo),數(shù)據(jù)矩陣列于表6.1.1在表6.1.1中,每個(gè)樣品有個(gè)變量,故每個(gè)樣品都可以看成是中的一個(gè)點(diǎn),個(gè)樣品就是中的個(gè)點(diǎn)。在中需定義某種距離,第個(gè)樣品與第個(gè)樣品之間的距離記為,在聚類(lèi)過(guò)程中,相距較近的點(diǎn)傾向于歸為一類(lèi),相距較遠(yuǎn)的點(diǎn)應(yīng)歸屬不同的類(lèi)。距離的定義一般滿(mǎn)足如下四個(gè)條件:第個(gè)樣品與第個(gè)樣品間的明考夫斯基距離(簡(jiǎn)稱(chēng)明氏距離)定義為這里為某一自然數(shù)。明氏距離有以下三種特殊形式:常用的距離有如下幾種:1.明考夫斯基(Minkowski)距離其中為第個(gè)變量的樣本均值,為第個(gè)變量的樣本方差。當(dāng)各變量的單位不同或測(cè)量值范圍相差很大時(shí),不應(yīng)直接采用明氏距離,而應(yīng)先對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。最常用的標(biāo)準(zhǔn)化處理是,令當(dāng)時(shí),可以定義第個(gè)樣品與第個(gè)樣品間的蘭氏距離為2.蘭氏(Lance和Williams)距離其中為樣本協(xié)方差矩陣。使用馬氏距離的好處是考慮到了各變量之間的相關(guān)性,并且與各變量的單位無(wú)關(guān)。但馬氏距離有一個(gè)很大的缺陷,就是馬氏距離公式中的難以確定。3.馬氏(Mahalanobis)距離第個(gè)樣品與第個(gè)樣品之間的馬氏距離為其中是變量與變量間的相關(guān)系數(shù)。當(dāng)個(gè)變量互不相關(guān)時(shí),,即斜交空間距離退化為歐氏距離(除相差一個(gè)常數(shù)倍外)。

4.斜交空間距離第個(gè)樣品與第個(gè)樣品間的斜交空間距離定義為例6.2.1某高校舉辦一個(gè)培訓(xùn)班,從學(xué)員的資料中得到這樣六個(gè)變量:性別,取值為男和女;外語(yǔ)語(yǔ)種,取值為英,日和俄;專(zhuān)業(yè),取值為統(tǒng)計(jì),會(huì)計(jì)和金融;職業(yè),取值為教師和非教師;居住處,取值為校內(nèi)和校外;學(xué)歷,取值為本科和本科以下?,F(xiàn)有兩名學(xué)員:這兩名學(xué)員的第二個(gè)變量都取值“英”,稱(chēng)為配合的,第一個(gè)變量一個(gè)取值為“男”,另一個(gè)取值為“女”,稱(chēng)為不配合的。一般的,若記配合的變量數(shù)為,不配合的變量數(shù)為,則它們之間的距離可定義為故按此定義本例中與之間的距離為。二相似系數(shù)變量與的相似系數(shù)用來(lái)表示,它一般應(yīng)滿(mǎn)足如下三個(gè)條件:最常用的相似系數(shù)有如下兩種1.夾角余弦變量與的夾角余弦定義為它是中變量的觀(guān)察向量與變量的觀(guān)察向量之間的夾角的余弦函數(shù),即。變量與的相關(guān)系數(shù)為2.相關(guān)系數(shù)常量之間常常借助于相似系數(shù)來(lái)定義距離,如令第二節(jié)系統(tǒng)聚類(lèi)法系統(tǒng)聚類(lèi)法(hierarchicalclusteringmethod)的基本思想是:開(kāi)始將個(gè)樣本各自作為一類(lèi),并規(guī)定樣本之間距離和類(lèi)與類(lèi)之間的距離,然后將距離最近的合并成一個(gè)新類(lèi),計(jì)算新類(lèi)與其他類(lèi)的距離;重復(fù)進(jìn)行兩個(gè)最近類(lèi)的合并,每次減少一類(lèi),直至所有的樣品合并為一類(lèi)。用表示第個(gè)樣品與第個(gè)樣品的距離,表示類(lèi),表示與的距離。本節(jié)介紹的系統(tǒng)聚類(lèi)方法中,所有的方法一開(kāi)始每個(gè)樣品自成一類(lèi),類(lèi)與類(lèi)之間的距離與樣本之間的距離相同(除離差平方和法之外),即,所以起初距離矩陣全部相同,記為一最短距離法類(lèi)與類(lèi)之間的距離為兩類(lèi)最近樣本之間的距離,即稱(chēng)這種系統(tǒng)聚類(lèi)法為最短距離法(singlelinkagemethod)。(一)定義(二)最短距離法的聚類(lèi)步驟如下;(1)規(guī)定樣本之間的距離,計(jì)算個(gè)樣本距離矩陣,它是一個(gè)對(duì)稱(chēng)矩陣。(2)選定中的最小元素,設(shè)為,則將和合并成一個(gè)新類(lèi),記為,即。(3)計(jì)算新類(lèi)與任一類(lèi)之間距離的遞推公式在中,和所在的行與列合并成一個(gè)新行新列,對(duì)應(yīng),該行列上的新距離值由(6.3.2)式求得,其余行列上的距離值不變,這樣就得到新的距離矩陣,記為。(4)對(duì)重復(fù)上述對(duì)的兩步得,如此下去直至所有元素合并成一類(lèi)為止。如果某一步中最小的元素不止一個(gè),則稱(chēng)此現(xiàn)象為結(jié)(tie),對(duì)應(yīng)這些最小元素的類(lèi)可以任選一類(lèi)合并或同時(shí)合并。

(1)樣品間采用絕對(duì)值距離(這時(shí)它與其它明氏距離完全相同),計(jì)算樣品間的距離矩陣,列于表6.2.1。例6.2.1設(shè)有五個(gè)樣品,每個(gè)只測(cè)量了一個(gè)指標(biāo),分別是1,2,6,8,11,試用最短距離法將它們分類(lèi)。

0105407620109530表6.2.1

(2)中最小元素是,于是將和合并成,并利用(6.3.2)式計(jì)算與其他類(lèi)的距離,列于表6.2.2

0406209530表6.2.2

(3)的最小元素是,合并和成,與其他類(lèi)之間的距離計(jì)算為表6.2.3表6.2.3

040930(4)中的最小元素是,將和合并為,新的距離矩陣列于表6.2.4

040表6.2.4(5)最后將和合并為,這時(shí)所有五個(gè)樣品聚為一類(lèi),過(guò)程終止。

將上述聚類(lèi)過(guò)程畫(huà)成一張樹(shù)形圖(或稱(chēng)譜系圖,dendrogram),如圖6.2.1所示。圖6.2.1最短距離法樹(shù)形圖類(lèi)與類(lèi)之間的距離定義為兩類(lèi)最遠(yuǎn)樣品間的距離,即

稱(chēng)這種系統(tǒng)聚類(lèi)法為最長(zhǎng)距離法(completelinkagemethod)。二最長(zhǎng)距離法最長(zhǎng)距離法與最短距離法并類(lèi)步驟完全相同,只是類(lèi)間距離的遞推公式有所不同。設(shè)某步將類(lèi)和合并成新類(lèi),則與任一類(lèi)的距離為圖6.2.2最長(zhǎng)距離法樹(shù)形圖對(duì)例6.2.1采用最長(zhǎng)距離法,其樹(shù)形圖如圖6.2.2所示例6.2.2

對(duì)305名女中學(xué)生測(cè)量八個(gè)體型指標(biāo):相關(guān)矩陣列于表6.2.5,我們用相似系數(shù)來(lái)度量各變量之間的相似性。表6.2.5各變量之間的相關(guān)系數(shù)

1.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000圖6.2.3八個(gè)體型變量的最長(zhǎng)距離法樹(shù)形圖

類(lèi)與類(lèi)之間的距離既不取兩類(lèi)最近樣品間的距離,也不取兩類(lèi)最遠(yuǎn)距離間的距離,而是取介于兩者之間的距離,稱(chēng)為中間距離法(medianmethod)。中間距離法設(shè)某一步將和合并為,對(duì)于任一類(lèi),考慮由為邊長(zhǎng)組成的三角形(如圖6.2.4所示),取邊的中線(xiàn)作為,由初等平面幾何可知,的計(jì)算公式為圖6.2.4中間距離法的幾何表示中間距離法可推廣為更一般的情形,將(6.2.5)式三項(xiàng)的系數(shù)依賴(lài)于某個(gè)參數(shù),即這里,這種方法稱(chēng)為可變法。其中和分別為類(lèi)和的樣品個(gè)數(shù),為中的樣品與中的樣品之間的距離。類(lèi)平均法類(lèi)平均法(gveragelinkagemethod)有兩種定義,一種定義方法是類(lèi)與類(lèi)之間距離定義為所有樣品對(duì)之間的平均距離,即定義和之間的距離為遞推公式為:另一種定義方法是定義類(lèi)與類(lèi)之間的平方距離為樣品對(duì)之間的平方距離的平均值,即它的遞推公式類(lèi)似于(6.2.8)式,即

在遞推公式(6.2.10)式中,的影響沒(méi)有被反映出來(lái),為此可將該遞推公式進(jìn)一步推廣為其中,稱(chēng)這種系統(tǒng)聚類(lèi)方法為可變類(lèi)平均法。

對(duì)例6.2.1采用(6.2.9)式的類(lèi)平均法進(jìn)行聚類(lèi)。對(duì)的每個(gè)元素都平方,則使用遞推公式會(huì)比較方便。(1)計(jì)算,見(jiàn)表6.2.6。表6.2.6

01025160493640100812590(2)找中的最小元素,它是,將和合并為,計(jì)算與的距離。這時(shí),由(6.2.9)式計(jì)算得同樣可算得和,列于表6.2.7。020.5042.54090.52590表6.2.7(3)對(duì)重復(fù)上述步驟,將和并為,得平方距離矩陣(見(jiàn)表6.2.8),再將和合并成得(見(jiàn)表6.2.9),最后將和合并為,聚類(lèi)過(guò)程終止。051.170表6.2.9

表6.2.8

031.5090.5170樹(shù)形圖如圖6.2.5所示。圖6.2.5類(lèi)平均法樹(shù)形圖

類(lèi)與類(lèi)之間的距離定義為它們的重心(均值)之間的歐氏距離。設(shè)和之間的重心分別為和,則與之間的平均距離為這種系統(tǒng)聚類(lèi)法成為重心法。五重心法它的推遞公式為類(lèi)中各樣品到類(lèi)重心(均值)的平方歐氏距離之和稱(chēng)為(類(lèi)內(nèi))離差平方和。設(shè)和合并成新類(lèi),則和的離差平方和分別是離差平方和法(Ward方法)如果和這兩類(lèi)相距較近,則合并后所增加的離差平方和應(yīng)較??;否則應(yīng)較大。于是和之間的平方距離定義為這種系統(tǒng)聚類(lèi)法稱(chēng)為離差平方和法或Ward法(Ward’sminimunvariancemethod)。

也可以表達(dá)為離差平方和法的平方距離推導(dǎo)公式為對(duì)例6.2.1采用離差平方和法進(jìn)行聚類(lèi),聚類(lèi)過(guò)程中的平方距離矩陣列于表6.2.10至表6.2.13,樹(shù)形圖如圖6.2.6所示。并類(lèi)的次序?yàn)楹秃喜⒊桑秃喜⒊?,和合并成,最后和合并成?0.5012.58024.518205040.512.54.50表6.2.10表6.2.11

013.5028.172060.1712.54.50表6.2.12

030.25060.1710.670表6.2.13

056.030圖6.2.6離差平方和法樹(shù)形圖

例6.2.3表6.2.14列出了1999年全國(guó)31個(gè)省、市和自治區(qū)的城鎮(zhèn)居民家庭平均每人全年消費(fèi)性支出的八個(gè)主要變量依據(jù)。這八個(gè)變量是

表6.2.14消費(fèi)性支出數(shù)據(jù)單位:元地區(qū)北京天津河北山西內(nèi)蒙古遼寧黑龍江上海江蘇浙江安徽福建江西2959.19730.79749.41513.34467.871141.82478.42457.642459.77495.47697.33302.87284.19735.97570.84305.081495.63515.90362.37285.32272.95540.58364.91188.631406.33477.77290.15208.57501.50414.72281.84212.101303.97524.29254.83192.17249.81463.09287.87192.961730.84553.90246.91279.81239.18445.20330.24163.861410.11510.71211.88277.11224.65376.82317.61152.853712.31550.74893.37346.93527.001034.98720.33462.032207.58449.37572.40211.92302.09585.23429.77252.542629.16557.32629.73435.69514.66795.87575.76323.361844.78303.65233.81107.90209.70393.99509.39160.122709.46428.11334.12160.77405.14461.67535.13232.291563.78303.65233.81107.90209.70393.99503.39160.12地區(qū)山東河南湖北湖南廣東廣西海南重慶四川貴州云南西藏陜西甘肅青海寧夏新疆1675.75613.32550.71219.79272.59599.43371.62211.841427.65431.79288.55208.14217.00337.76421.31165.321783.43511.88282.84201.01237.60617.74523.52182.521942.23512.27401.39206.06321.29697.22492.60226.453055.17353.23564.56356.27811.88873.061082.82420.812033.87300.82338.65157.78329.06621.74523.52182.522057.86186.44202.72171.79329.65477.17312.93279.192303.29589.99516.21236.55403.92730.05438.41225.801974.28507.76344.79203.21240.24575.10430.36223.461673.82437.75461.61153.32254.66445.59346.11191.482194.25537.01369.07249.54290.84561.91407.70330.952646.61839.70204.44209.11379.30371.04269.59389.331472.95390.89447395259.51230.61490.90469.10191.341525.57472.98328.90219.86206.65449.69249.66228.191654.69437.77258.78303.00244.93479.53288.56236.511375.46480.89273.84317.32251.08424.75228.73195.931608.82536.05423.46235.8250.28541.30344.85214.40圖6.2.7和圖6.2.8中的聚類(lèi)距離是經(jīng)正規(guī)化之后的距離(見(jiàn)附錄6-1中的說(shuō)明(5)和(8)),圖6.2.9中的聚類(lèi)“距離”是半偏(見(jiàn)(6.2.23)式)。從這三個(gè)樹(shù)形圖來(lái)看,Ward方法似乎更符合我們的聚類(lèi)要求,它將31個(gè)地區(qū)分為以下三類(lèi):第Ⅰ類(lèi):北京、浙江、上海和廣東。這些都是我國(guó)經(jīng)濟(jì)最發(fā)達(dá)、城鎮(zhèn)居民消費(fèi)水平最高的沿海地區(qū)。第Ⅱ類(lèi):天津、江蘇、云南、重慶、河北、新疆、山東、湖北、四川、湖南、福建、廣西、海南和西藏。這些地區(qū)在我國(guó)基本上屬于經(jīng)濟(jì)發(fā)展水平和城鎮(zhèn)居民消費(fèi)水平中等的地區(qū)。第Ⅲ類(lèi):山西、甘肅、內(nèi)蒙古、遼寧、黑龍江、吉林、青海、寧夏、安徽、貴州、河南、陜西和江西。這些地區(qū)在握國(guó)基本上屬于經(jīng)濟(jì)較落后地區(qū),城鎮(zhèn)居民消費(fèi)水平也是較低的。如果分為五類(lèi),則廣東和西藏各自為一類(lèi)。

Lance和Williams與1967年將這些遞推公式統(tǒng)一為:

其中、、和是參數(shù),不同的系統(tǒng)聚類(lèi)法,它們有不同的取值。表6.2.15列出了上述八種方法和四個(gè)參數(shù)的取值。七、系統(tǒng)聚類(lèi)法的統(tǒng)一表6.2.15系統(tǒng)聚類(lèi)法參數(shù)表方法最短距法法最長(zhǎng)距離法中間距離法可變法類(lèi)平均法可變類(lèi)平均法重心法離差平方和法八系統(tǒng)聚類(lèi)法的兩個(gè)性質(zhì)。(一)單調(diào)性令是系統(tǒng)聚類(lèi)法中第次并類(lèi)時(shí)的距離,如例6.3.1中,用最短距離法時(shí),有,且有。如果一種系統(tǒng)聚類(lèi)法能滿(mǎn)足,則稱(chēng)它具有單調(diào)性。

設(shè)和是兩個(gè)元素非負(fù)的同階矩陣,若,則記作。(二)空間的濃縮與擴(kuò)張?jiān)O(shè)有兩種系統(tǒng)聚類(lèi)法,它們?cè)诘诓降木嚯x矩陣分別為和若則稱(chēng)第一種方法比第二種方法更使空間擴(kuò)張,或第二種方法比第一種方法更使空間濃縮。以類(lèi)平均法為基準(zhǔn),其他方法都與它作比較有如下一些結(jié)論:

即最短距離法和重心法比類(lèi)平均法更使空間濃縮。

即最長(zhǎng)距離法比類(lèi)平均法更使空間擴(kuò)張。

即這時(shí)可變類(lèi)平均法比類(lèi)平均法更使空間濃縮;當(dāng)即此時(shí)可變類(lèi)平均法比類(lèi)平均法更使空間擴(kuò)張。九類(lèi)的個(gè)數(shù)通過(guò)觀(guān)察樹(shù)型圖,給出一個(gè)你認(rèn)為適合的閾值T,要求類(lèi)與類(lèi)之間的距離要大于T,有些樣品可能會(huì)因此而歸不了類(lèi)或只能自成一類(lèi)。這種方法有比較強(qiáng)的主觀(guān)性,這是它的不足之處。(一)給定一個(gè)閾值T如果樣品只有兩個(gè)或三個(gè)變量,則可通過(guò)觀(guān)測(cè)這些數(shù)據(jù)的散點(diǎn)圖來(lái)確認(rèn)類(lèi)的個(gè)數(shù)。對(duì)于三個(gè)變量,可使用SAS軟件通過(guò)旋轉(zhuǎn)三維坐標(biāo)軸從各個(gè)角度來(lái)觀(guān)測(cè)散點(diǎn)圖。如果變量個(gè)數(shù)超過(guò)三個(gè),則可使原來(lái)變量綜合成兩個(gè)或三個(gè)綜合變量,然后再觀(guān)測(cè)這些綜合變量的散點(diǎn)圖。(二)觀(guān)察樣品的散點(diǎn)圖設(shè)總樣品數(shù)為,聚類(lèi)時(shí)把所有樣品合并為個(gè)類(lèi),類(lèi)的樣品數(shù)和重心分別是和,則,所有樣品的總重心,令所有樣品的總離差平方和為(三)使用統(tǒng)計(jì)量1統(tǒng)計(jì)量類(lèi)中樣品的類(lèi)內(nèi)離差平方和為個(gè)類(lèi)的類(lèi)內(nèi)離差平方和之和為可作如下分解再令

值越?。丛酱螅砻黝?lèi)內(nèi)離差平方和之和在總離差平方和中所占的比例越小,也就說(shuō)明個(gè)類(lèi)分得越開(kāi)。因此,統(tǒng)計(jì)量可用于評(píng)價(jià)合并成個(gè)類(lèi)時(shí)的聚類(lèi)效果,值越大,聚類(lèi)效果越好。2半偏統(tǒng)計(jì)量其中,半偏值是上一步值與該步值之間差,因此半偏值越大,說(shuō)明上一次聚類(lèi)的效果越好。3偽F統(tǒng)計(jì)量(6.2.23)式也可寫(xiě)成

與的作用一樣,它也隨分類(lèi)個(gè)數(shù)的減少而變小??煽醋饕粋€(gè)調(diào)整系數(shù),能夠使得偽F值不隨的減少而變小,并且可以直接根據(jù)偽F值的大小作出分幾類(lèi)為合適的判斷。偽F值越大,表明此時(shí)的分類(lèi)效果越好。偽F統(tǒng)計(jì)量不具有F分布。偽值大表明和合并成新類(lèi)后,類(lèi)內(nèi)離差平方和的增量相對(duì)于原和兩類(lèi)的類(lèi)內(nèi)離差平方和是大的,這說(shuō)明被合并的兩個(gè)類(lèi)和是很分開(kāi)的,也即上一次聚類(lèi)的效果是好的。偽

統(tǒng)計(jì)量是確定類(lèi)個(gè)數(shù)的有用指標(biāo),但不具有象隨機(jī)變量那樣的分布。4偽統(tǒng)計(jì)量第四節(jié)動(dòng)態(tài)聚類(lèi)法

基本思想:選擇一批凝聚點(diǎn)或給出初始的分類(lèi),讓樣品按某種原則向凝聚點(diǎn)凝聚,對(duì)凝聚點(diǎn)進(jìn)行不斷的修改和

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論