《應(yīng)用多元分析》第四版(第六章)_第1頁
《應(yīng)用多元分析》第四版(第六章)_第2頁
《應(yīng)用多元分析》第四版(第六章)_第3頁
《應(yīng)用多元分析》第四版(第六章)_第4頁
《應(yīng)用多元分析》第四版(第六章)_第5頁
已閱讀5頁,還剩106頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第六章聚類分析§6.1引言§6.2距離和相似系數(shù)§6.3系統(tǒng)聚類法§6.4動態(tài)聚類法1§6.1引言聚類分析:將分類對象分成若干類,相似的歸為同一類,不相似的歸為不同的類。聚類分析和判別歸類有著不同的分類目的,彼此之間既有區(qū)別又有聯(lián)系。聚類分析分為Q型(分類對象為樣品)和R型(分類對象為變量)兩種。2相似性的不同定義3§6.2距離和相似系數(shù)相似性度量:距離和相似系數(shù)。樣品之間的距離和相似系數(shù)有著各種不同的定義,而這些定義與變量的類型有著非常密切的關(guān)系。變量的測量尺度:間隔、有序和名義尺度。間隔變量:變量用連續(xù)的量來表示,如長度、重量、速度、溫度等。有序變量:變量度量時不用明確的數(shù)量表示,而是用等級來表示,如某產(chǎn)品分為一等品、二等品、三等品等有次序關(guān)系。名義變量:變量用一些類表示,這些類之間既無等級關(guān)系也無數(shù)量關(guān)系,如性別、職業(yè)、產(chǎn)品的型號等。4對于間隔變量,距離常用來度量樣品之間的相似性,相似系數(shù)常用來度量變量之間的相似性。本章主要討論具有間隔尺度變量的樣品聚類分析方法。一、距離二、相似系數(shù)5一、距離設(shè)x=(x1,x2,?,xp)′和y=(y1,y2,?,yp)′為兩個樣品,則所定義的距離一般應(yīng)滿足如下三個條件:(i)非負性:d(x,y)≥0,d(x,y)=0當(dāng)且僅當(dāng)x=y;(ii)對稱性:d(x,y)=d(y,x);(iii)三角不等式:d(x,y)≤d(x,z)+d(z,y)。6常用的距離1.明考夫斯基(Minkowski)距離2.蘭氏(Lance和Williams)距離3.馬氏距離4.斜交空間距離71.明考夫斯基距離明考夫斯基距離(簡稱明氏距離):

這里q>0。明氏距離的三種特殊形式:(i)當(dāng)q=1時,

,稱為絕對值距離,常被形象地稱作“城市街區(qū)”距離;(ii)當(dāng)q=2時,

,這是歐氏距離,它是聚類分析中最常用的一個距離;(iii)當(dāng)q=∞時,

,稱為切比雪夫距離。8絕對值距離圖示9對各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理當(dāng)各變量的單位不同或測量值范圍相差很大時,應(yīng)先對各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理。最常用的標(biāo)準(zhǔn)化處理是,令

其中和sii分別為xi的樣本均值和樣本方差。102.蘭氏距離當(dāng)所有的數(shù)據(jù)皆為正時,可以定義x與y之間的蘭氏距離為該距離與各變量的單位無關(guān),且適用于高度偏斜或含異常值的數(shù)據(jù)。113.馬氏距離x和y之間的馬氏距離為

其中S為樣本協(xié)差陣。124.斜交空間距離x和y之間的斜交空間距離定義為

其中rij是第i個變量與第j個變量間的相關(guān)系數(shù)。當(dāng)p個變量互不相關(guān)時,該距離即為歐氏距離的1/p倍。13名義尺度變量的一種距離定義例6.2.1某高校舉辦一個培訓(xùn)班,從學(xué)員的資料中得到這樣六個變量:性別(x1),取值為男和女;外語語種(x2),取值為英、日和俄;專業(yè)(x3),取值為統(tǒng)計、會計和金融;職業(yè)(x4),取值為教師和非教師;居住處(x5),取值為校內(nèi)和校外;學(xué)歷(x6),取值為本科和本科以下。現(xiàn)有兩名學(xué)員: x=(男,英,統(tǒng)計,非教師,校外,本科)′y=(女,英,金融,教師,校外,本科以下)′一般地,若記配合的變量數(shù)為m1,不配合的變量數(shù)為m2,則它們之間的距離可定義為故按此定義,本例中x

與y

之間的距離為2/3。14二、相似系數(shù)變量之間的相似性度量,在一些應(yīng)用中要看相似系數(shù)的大小,而在另一些應(yīng)用中要看相似系數(shù)絕對值的大小。相似系數(shù)(或其絕對值)越大,認(rèn)為變量之間的相似性程度就越高;反之,則越低。聚類時,比較相似的變量傾向于歸為一類,不太相似的變量歸屬不同的類。15相似系數(shù)一般需滿足的條件(1)cij=±1,當(dāng)且僅當(dāng)xi=axj+b,a(≠0)和b是常數(shù);

(2)|cij|≤1,對一切i,j;

(3)cij=cji,對一切i,j。16兩個向量的夾角余弦171.夾角余弦變量xi與xj的夾角余弦定義為

它是Rn中變量xi的觀測向量(x1i,x2i,?,xni)′與變量xj的觀測向量(x1j,x2j,?,xnj)′之間夾角θij的余弦函數(shù),即cij(1)=cosθij。182.相關(guān)系數(shù)變量xi與xj的相關(guān)系數(shù)為如果變量xi與xj是已標(biāo)準(zhǔn)化了的,則它們間的夾角余弦就是相關(guān)系數(shù)。19相似系數(shù)除常用來度量變量之間的相似性外有時也用來度量樣品之間的相似性,同樣,距離有時也用來度量變量之間的相似性。由距離來構(gòu)造相似系數(shù)總是可能的,如令這里dij為第i個樣品與第j個樣品的距離,顯然cij滿足定義相似系數(shù)的三個條件,故可作為相似系數(shù)。距離必須滿足定義距離的三個條件,所以不是總能由相似系數(shù)構(gòu)造。高爾(Gower)證明,當(dāng)相似系數(shù)矩陣(cij)為非負定時,如令則dij滿足距離定義的三個條件。20§6.3系統(tǒng)聚類法系統(tǒng)聚類法(或?qū)哟尉垲惙ǎ琱ierarchicalclusteringmethod)是通過一系列相繼的合并或相繼的分割來進行的,分為聚集的(agglomerative)和分割的(divisive)兩種,適用于樣品數(shù)目n不是很大的情形。聚集系統(tǒng)法的基本思想是:開始時將n個樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個新類,計算新類與其他類的距離;重復(fù)進行兩個最近類的合并,每次減少一類,直至所有的樣品合并為一類。21一開始每個樣品各自作為一類22分割系統(tǒng)法的聚類步驟與聚集系統(tǒng)法正相反。由n個樣品組成一類開始,按某種最優(yōu)準(zhǔn)則將它分割成兩個盡可能遠離的子類,再用同樣準(zhǔn)則將每一子類進一步地分割成兩類,從中選一個分割最優(yōu)的子類,這樣類數(shù)將由兩類增加到三類。如此下去,直至所有n個樣品各自為一類或采用某種停止規(guī)則。聚集系統(tǒng)法最為常用,本節(jié)集中介紹其中常用的八種方法,所有這些聚類方法的區(qū)別在于類與類之間距離的定義不同。23§6.3系統(tǒng)聚類法一、最短距離法二、最長距離法三、類平均法四、重心法*五、中間距離法六、離差平方和法(Ward方法)

七、系統(tǒng)聚類法的統(tǒng)一八、類的個數(shù)24一、最短距離法定義類與類之間的距離為兩類最近樣品間的距離,即圖6.3.1最短距離法:DKL=d2325最短距離法的聚類步驟(1)規(guī)定樣品之間的距離,計算n個樣品的距離矩陣D(0),它是一個對稱矩陣。(2)選擇D(0)中的最小元素,設(shè)為DKL,則將GK和GL合并成一個新類,記為GM,即GM=

GK∪GL。

(3)計算新類GM與任一類GJ之間距離的遞推公式為26遞推公式的圖示理解27最短距離法的聚類步驟

在D(0)中,GK和GL所在的行和列合并成一個新行新列,對應(yīng)GM,該行列上的新距離值由上述遞推公式求得,其余行列上的距離值不變,這樣就得到新的距離矩陣,記作D(1)。(4)對D(1)重復(fù)上述對D(0)的兩步得D(2),如此下去直至所有元素合并成一類為止。28如果某一步D(m)中最小的元素不止一個,則稱此現(xiàn)象為結(jié)(tie),對應(yīng)這些最小元素的類可以任選一對合并或同時合并。最短距離法最容易產(chǎn)生結(jié),且有一種挑選長鏈狀聚類的傾向,稱為鏈接(chaining)傾向。由于最短距離法是用兩類之間最近樣本點的距離來聚的,因此該方法不適合對分離得很差的群體進行聚類。29例6.3.1設(shè)有五個樣品,每個只測量了一個指標(biāo),分別是1,2,6,8,11,試用最短距離法將它們分類。記G1={1},G2={2},G3={6},G4={8},G5={11},樣品間采用絕對值距離。G1G2G3G4G5G10G210G3540G47620G5109530表6.3.1

D(0)30其中G6=G1∪G2其中G7=G3∪G4G6G3G4G5G60G340G4620G59530表6.3.2

D(1)表6.3.3

D(2)G6G7G5G60G740G593031其中G6=G1∪G2表6.3.4

D(3)G6G8G60G840圖6.3.2最短距離法樹形圖32Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=sinnonorm;Proctreehorizontal;Run;33

TheSASSystem00:25Wednesday,November10,20061TheCLUSTERProcedureSingleLinkageClusterAnalysisEigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative117.30000001.00001.0000Root-Mean-SquareTotal-SampleStandardDeviation=4.159327MeanDistanceBetweenObservations=5.2ClusterHistoryNormTMiniNCL--ClustersJoined---FREQDiste4OB1OB220.19233OB3OB420.38462CL3OB530.57691CL4CL250.76923435二、最長距離法類與類之間的距離定義為兩類最遠樣品間的距離,即圖6.3.3最長距離法:DKL=d1536最長距離法與最短距離法的并類步驟完全相同,只是類間距離的遞推公式有所不同。遞推公式:37對例6.3.1采用最長距離法,其樹形圖如圖6.3.4所示,它與圖6.3.2有相似的形狀,但并類的距離要比圖6.3.2大一些,仍分成兩類為宜。圖6.3.4最長距離法樹形圖38Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=complete;Proctreehorizontal;Run;39TheSASSystem00:25Wednesday,November10,20062TheCLUSTERProcedureCompleteLinkageClusterAnalysisEigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative117.30000001.00001.0000Root-Mean-SquareTotal-SampleStandardDeviation=4.159327MeanDistanceBetweenObservations=5.2ClusterHistoryNormTMaxiNCL--ClustersJoined---FREQDiste4OB1OB220.19233OB3OB420.38462CL3OB530.96151CL4CL251.92314041異常值的影響最長距離法容易被異常值嚴(yán)重地扭曲。42例6.3.2對305名女中學(xué)生測量八個體型指標(biāo): x1:身高

x5:體重 x2:手臂長

x6:頸圍 x3:上肢長

x7:胸圍 x4:下肢長

x8:胸寬表6.3.5 各對變量之間的相關(guān)系數(shù)

x1x2x3x4x5x6x7x8x11.000

x20.8461.000

x30.8050.8811.000

x40.8590.8260.8011.000

x50.4730.3760.3800.4361.000

x60.3980.3260.3190.3290.7621.000

x70.3010.2770.2370.3270.7300.5831.000

x80.3820.4150.3450.3650.6290.5770.5391.00043表6.3.5各對變量間的相關(guān)系數(shù)1.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000441.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000451.0000.8051.0000.3010.2370.3270.7300.5831.0000.8590.8011.0000.4730.37604361.0000.3980.3190.3290.7621.0000.3820.3450.3650.6290.5770.5391.000460.3650.3450.6290.5770.5391.0001.0000.8011.0000.3010.2370.7300.5831.0000.4360.3761.0000.3290.3190.7621.000471.0000.2370.7300.5831.0000.3761.0000.3190.7621.0000.3450.6290.5770.5391.000481.0000.2370.5831.0000.3191.0000.3450.5770.5391.000490.3450.5391.0001.0000.2371.000501.0000.2371.00051Dataexample632(type=distance);Arrayx(8)x1-x8;Inputv$x1-x8;Doi=1to8;x(i)=1-x(i);End;DropI;cards;X11.0000.8460.8050.8590.4730.3980.3010.382X20.8461.000......X30.8050.8811.000.....X40.8590.8260.8011.000....X50.4730.3760.3800.4361.000...X60.3980.3260.3190.3290.7621.000..X70.3010.2770.2370.3270.7300.5831.000.X80.3820.4150.3450.3650.6290.5770.5391.000;Procprintdata=example632;52Procclusterdata=example632method=com;varx1-x8;Idv;Proctreehorizontal;Idv;Run;5354圖6.3.5八個體型變量的最長距離法樹形圖55三、類平均法有兩種定義。一種定義方法是把類與類之間的距離定義為所有樣品對之間的平均距離,即定義GK和GL之間的距離為

圖6.3.6類平均法56遞推公式:57另一種定義方法是定義類與類之間的平方距離為樣品對之間平方距離的平均值,即它的遞推公式為類平均法較好地利用了所有樣品之間的信息,在很多情況下它被認(rèn)為是一種比較好的系統(tǒng)聚類法。58對例6.3.1采用(使用平方距離的)類平均法進行聚類。一開始將D(0)的每個元素都平方,并記作

。G1G2G3G4G5G10G210G325160G4493640G5100812590表6.3.659G6G3G4G5G60G320.50G442.540G590.52590表6.3.7G6G7G5G60G731.50G590.5170表6.3.860G6G8G60G851.170G6G8G60G851.170表6.3.9圖6.3.7類平均法樹形圖61Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=average;Proctreehorizontal;Run;6263四、重心法類與類之間的距離定義為它們的重心(均值)之間的歐氏距離。設(shè)GK和GL的重心分別為

,則GK與GL之間的平方距離為圖6.3.8重心法64合并GK和GL之后的新類GM的重心是

其中nM=nK+nL為GM的樣品個數(shù)。重心法的遞推公式為與其他系統(tǒng)聚類法相比,重心法在處理異常值方面更穩(wěn)健,但是在別的方面一般不如類平均法或離差平方和法的效果好。65*五、中間距離法設(shè)某一步將GK和GL合并為GM,對于任一類GJ,考慮由DKJ,DLJ和DKL為邊長組成的三角形,取DKL邊的中線作為DMJ。DMJ的計算公式為圖6.3.9中間距離法的幾何表示66六、離差平方和法(Ward方法)(類內(nèi))離差平方和:類中各樣品到類重心(均值)的平方歐氏距離之和。設(shè)類GK和GL合并成新類GM,則GK,GL和GM的離差平方和分別是

對固定的類內(nèi)樣品數(shù),它們反映了各自類內(nèi)樣品的分散程度。67類內(nèi)離差平方和的幾何解釋類內(nèi)離差平方和WK是類GK內(nèi)各點到類重心點的直線距離之平方和。68定義GK和GL之間的平方距離為

也可表達為

離差平方和法使得兩個大的類傾向于有較大的距離,因而不易合并;相反,兩個小的類卻因傾向于有較小的距離而易于合并。這往往符合我們對聚類的實際要求。69圖6.3.10離差平方和法與重心法的聚類比較70離差平方和法的平方距離遞推公式為對例6.3.1采用離差平方和法進行聚類。圖6.3.11離差平方和法樹形圖71最短距離法、最長距離法和類平均法都屬于連接方法,它們既可以用于樣品的聚類,也能夠用于變量的聚類。本章介紹的其他聚類方法都將只能用于樣品的聚類。例6.3.3表6.3.10列出了1999年全國31個省、直轄市和自治區(qū)的城鎮(zhèn)居民家庭平均每人全年消費性支出的八個主要變量數(shù)據(jù)。這八個變量是 x1:食品

x5:交通和通訊 x2:衣著

x6:娛樂教育文化服務(wù) x3:家庭設(shè)備用品及服務(wù)

x7:居住 x4:醫(yī)療保健

x8:雜項商品和服務(wù)分別用最短距離法、重心法和Ward方法對各地區(qū)作聚類分析。為同等地對待每一變量,在作聚類前,先對各變量作標(biāo)準(zhǔn)化變換。72表6.3.10 消費性支出數(shù)據(jù)

單位:元地區(qū)x1x2x3x4x5x6x7x8北京2959.19730.79749.41513.34467.871141.82478.42457.64天津2459.77495.47697.33302.87284.19735.97570.84305.08河北1495.63515.9362.37285.32272.95540.58364.91188.63山西1406.33477.77290.15208.57201.5414.72281.84212.1內(nèi)蒙古1303.97524.29254.83192.17249.81463.09287.87192.96遼寧1730.84553.9246.91279.81239.18445.2330.24163.86吉林1561.86492.42200.49218.36220.69459.62360.48147.76黑龍江1410.11510.71211.88277.11224.65376.82317.61152.85上海3712.31550.74893.37346.935271034.98720.33462.03江蘇2207.58449.37572.4211.92302.09585.23429.77252.54浙江2629.16557.32689.73435.69514.66795.87575.76323.36安徽1844.78430.29271.28126.33250.56513.18314151.39福建2709.46428.11334.12160.77405.14461.67535.13232.29江西1563.78303.65233.81107.9209.7393.99509.39160.12山東1675.75613.32550.71219.79272.59599.43371.62211.8473河南1427.65431.79288.55208.14217337.76421.31165.32湖北1783.43511.88282.84201.01237.6617.74523.52182.52湖南1942.23512.27401.39206.06321.29697.22492.6226.45廣東3055.17353.23564.56356.27811.88873.061082.82420.81廣西2033.87300.82338.65157.78329.06621.74587.02218.27海南2057.86186.44202.72171.79329.65477.17312.93279.19重慶2303.29589.99516.21236.55403.92730.05438.41225.8四川1974.28507.76344.79203.21240.24575.1430.36223.46貴州1673.82437.75461.61153.32254.66445.59346.11191.48云南2194.25537.01369.07249.54290.84561.91407.7330.95西藏2646.61839.7204.44209.11379.3371.04269.59389.33陜西1472.95390.89447.95259.51230.61490.9469.1191.34甘肅1525.57472.98328.9219.86206.65449.69249.66228.19青海1654.69437.77258.78303244.93479.53288.56236.51寧夏1375.46480.89273.84317.32251.08424.75228.73195.93新疆1608.82536.05432.46235.82250.28541.3344.85214.474dataexample633;inputregion$x1-x8;cards;

bj2959.19730.79749.41513.34467.871141.82478.42457.64tj2459.77495.47697.33302.87284.19735.97570.84305.08hb1495.63515.90362.37285.32272.95540.58364.91188.63sx1406.33477.77290.15208.57201.50414.72281.84212.10nmg1303.97524.29254.83192.17249.81463.09287.87192.96ln1730.84553.90246.91279.81239.18445.20330.24163.86jl1561.86492.42200.49218.36220.69459.62360.48147.76hlj1410.11510.71211.88277.11224.65376.82317.61152.85sh3712.31550.74893.37346.93527.001034.98720.33462.03js2207.58449.37572.40211.92302.09585.23429.77252.54zj2629.16557.32689.73435.69514.66795.87575.76323.36ah1844.78430.29271.28126.33250.56513.18314.00151.39fj2709.46428.11334.12160.77405.14461.67535.13232.29jx1563.78303.65233.81107.90209.70393.99509.39160.12sd1675.75613.32550.71219.79272.59599.43371.62211.84hn1427.65431.79288.55208.14217.00337.76421.31165.32hub1783.43511.88282.84201.01237.60617.74523.52182.52hun1942.23512.27401.39206.06321.29697.22492.60226.45gd3055.17353.23564.56356.27811.88873.061082.82420.81gx2033.87300.82338.65157.78329.06621.74587.02218.27hin2057.86186.44202.72171.79329.65477.17312.93279.19cq2303.29589.99516.21236.55403.92730.05438.41225.80sc1974.28507.76344.97203.21240.24575.10430.36223.46gz1673.82437.75461.61153.32254.66445.59346.11191.48yn2194.25537.01369.07249.54290.84561.91407.70330.95xz2646.61839.70204.44209.11379.30371.04269.59389.33shx1472.95390.89447.95259.51230.61490.90469.10191.34gs1525.57472.98328.90219.86206.65449.69249.66228.19qh1654.69437.77258.78303.00244.93479.53288.56236.51nx1375.46480.89273.84317.32251.08424.75228.73195.93xj1608.82536.05432.46235.82250.28541.30344.85214.40;run;

75procclusterdata=example633method=sinstdpesudo;idregion;proctreehorizontal;idregion;procclusterdata=example633method=censtdpesudo;idregion;proctreehorizontal;idregion;procclusterdata=example633method=wstdpesudo;idregion;proctreehorizontal;idregion;run;76

根據(jù)信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r,對世界20個國家和地區(qū)進行分類。這里選取了發(fā)達國家,新興工業(yè)化國家、拉美國家、亞洲開發(fā)國家、轉(zhuǎn)型國家等不同類型的20個國家的資料:

call-每千人擁有的電話線數(shù);

callmove—每千戶居民擁有的蜂窩移動電話數(shù)

fee—高峰時期每三分鐘國際電話成本

computer—每千人擁有的計算機(每秒百萬指令)

mips—每千人中的計算機功率(每秒百萬指令)

net-每千人互聯(lián)網(wǎng)戶主數(shù)77datainfor;inputcountry$callmovefeecompmipsnet;cards;meiguo631.6161.90.364032607335.34riben498.4143.23.57176102236.26deguo557.670.60284ruidian684.1281.81.42461666029.39ruishi64493.51.982341362122.68xinjiapo498.4147.52.52841357813.49taiwan469.456.13.6811969111.72hanguo434.5733.369957951.66baxi81.916.33.02198760.52zhili138.68.201.43114111.28moxige92.29.82.613117510.35eluosi174.955.122411010.48bolan1696.53.684017961.45xiongyali262.249.42.666830673.09malaixiya195.588.44.195327341.25taiguo78.627.84.952216620.11yindu13.60.306.2821010.01faguo559.142.91.27201117024.76yingguo521.10122.50.982481446111.91;78procclusterdata=informethod=singlepseudostandardouttree=c;varcallmovefeecompmipsnet;idcountry;proctreegraphicshorizontal;79datab;setc;where_ncl_<=15;run;procsortdata=b;by_ncl_;procgplotdata=b;plot_psf_*_ncl__pst2_*_ncl__sprsq_*_ncl__rsq_*_ncl_;run;80其中method=single選項指出用最短距離法聚類。除此之外在SAS中可供選擇的方法還有:最長距離法complete)類平均法(average)最小方差法(ward)重心法(centroid)離差平方和法(ward)中間距離法(median)可變類平均法flexible)outtree=b選項要求生成一個輸出數(shù)據(jù)集,用于畫樹狀圖的proctree可使用該數(shù)據(jù),可省略。Id語句指出聚類時的標(biāo)識變量,如果缺省,系統(tǒng)采用obn個案序號作為觀測的標(biāo)識。81pseudo選項要求計算偽F統(tǒng)計量和偽Std選項要求對數(shù)據(jù)進行零均值及方差為1的標(biāo)準(zhǔn)化處理proctree是畫樹狀譜系圖的過程步,它是使用CLUSTER

過程的輸出數(shù)據(jù)來畫譜系圖。graphics指定畫譜系圖時使用高分辨率圖形。horizontal指定畫譜系圖時用水平橫畫。制聚類之前的數(shù)據(jù)處理,主要有noonrm—防止將數(shù)據(jù)規(guī)范化為單位均值和單位均方;standard—將變量進行標(biāo)準(zhǔn)化,均值為零,標(biāo)準(zhǔn)差為1。統(tǒng)計量。82圖6.3.12最短距離法83圖6.3.13重心法84圖6.3.14離差平方和法85從這三個樹形圖來看,只有Ward方法較好地符合了我們的實際聚類要求,它將31個地區(qū)分為以下三類:第Ⅰ類:北京、浙江、上海和廣東。這些都是我國經(jīng)濟最發(fā)達、城鎮(zhèn)居民消費水平最高的沿海地區(qū)。

第Ⅱ類:天津、江蘇、云南、重慶、河北、新疆、山東、湖北、四川、湖南、福建、廣西、海南和西藏。這些地區(qū)在我國基本上屬于經(jīng)濟發(fā)展水平和城鎮(zhèn)居民消費水平中等的地區(qū)。

第Ⅲ類:山西、甘肅、內(nèi)蒙古、遼寧、黑龍江、吉林、青海、寧夏、安徽、貴州、河南、陜西和江西。這些地區(qū)在我國基本上屬于經(jīng)濟較落后地區(qū),城鎮(zhèn)居民的消費水平也是較低的。如果分為五類,則廣東和西藏將各自為一類。86圖6.3.15離差平方和法所分三類的平行圖87七、系統(tǒng)聚類法的統(tǒng)一Lance和Williams于1967年將(書中介紹的)八種系統(tǒng)聚類法的遞推公式統(tǒng)一為:其中αK,αL,β,γ是參數(shù),不同的系統(tǒng)聚類法,它們有不同的取值。表6.3.11列出了上述八種方法四個參數(shù)的取值。1.單調(diào)性2.空間的濃縮與擴張

88表6.3.11 系統(tǒng)聚類法參數(shù)表891.單調(diào)性令Di是系統(tǒng)聚類法中第i次并類時的距離,如果一種系統(tǒng)聚類法能滿足D1≤D2≤D3≤?,則稱它具有單調(diào)性。這種單調(diào)性符合系統(tǒng)聚類法的思想,先合并較相似的類,后合并較疏遠的類。最短距離法、最長距離法、可變法、類平均法、可變類平均法和離差平方和法都具有單調(diào)性,但中間距離法和重心法不具有單調(diào)性。902.空間的濃縮與擴張設(shè)A=(aij)和B=(bij)是兩個元素非負的同階矩陣,若aij≥bij(對一切i,j),則記作A≥B。該記號僅在本節(jié)中使用。設(shè)有兩種系統(tǒng)聚類法,它們在第i步的距離矩陣分別為Ai和Bi,i=0,1,?,n?1,若Ai≥Bi,i=1,?,n?1,則稱第一種方法比第二種方法使空間擴張,或第二種方法比第一種方法使空間濃縮。以類平均法為基準(zhǔn),有如下一些結(jié)論:(1)D(短)≤D(平),D(重)≤D(平)。(2)D(長)≥D(平)。(3)當(dāng)0<β<1時,D(變平)≤D(平);當(dāng)β<0時,D(變平)≥D(平)。91例6.3.4

(最短距離法的鏈接傾向)92(1)采用最短距離法??梢运愕?,當(dāng)聚成兩類時,C1和C11組成一類,其余所有的點組成另一類,這里出現(xiàn)了鏈接現(xiàn)象;當(dāng)聚成三類時,C1和C11組成第Ⅰ類,其余的C點組成第Ⅱ類,所有的A點和B點組成第Ⅲ類。(2)采用類平均法。經(jīng)算得,當(dāng)聚成兩類時,一類由所有C點構(gòu)成,另一類由所有A點和所有B點構(gòu)成;當(dāng)聚成三類時,A點群、B點群和C點群各自作為一類。93從直觀的圖形中進行主觀聚類當(dāng)p=2時,可通過目測散點圖從直覺上來判斷所采用的正規(guī)聚類方法是否合理。我們甚至可以直接在散點圖上進行主觀的聚類,其效果未必遜于正規(guī)的聚類方法,特別是在尋找“自然的”類和符合我們實際需要的類方面。當(dāng)p=3時,我們可使用SAS軟件的交互式數(shù)據(jù)分析菜單系統(tǒng)產(chǎn)生三維旋轉(zhuǎn)圖,通過旋轉(zhuǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論