




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、六章聚類分析六章聚類分析6.1 引言聚類分析:將分類對(duì)象分成若干類,相似的歸為同一類,不相似的歸為不同的類。聚類分析和判別歸類有著不同的分類目的,彼此之間既有區(qū)別又有聯(lián)系。聚類分析分為Q型(分類對(duì)象為樣品)和R型(分類對(duì)象為變量)兩種。26.1 引言聚類分析:將分類對(duì)象分成若干類,相似的歸為同六章聚類分析課件六章聚類分析課件對(duì)于間隔變量,距離常用來度量樣品之間的相似性,相似系數(shù)常用來度量變量之間的相似性。本章主要討論具有間隔尺度變量的樣品聚類分析方法。一、距離二、相似系數(shù)5對(duì)于間隔變量,距離常用來度量樣品之間的相似性,相似系數(shù)常用來一、距離設(shè)x =(x1,x2,xp) 和y =(y1,y2,y
2、p)為兩個(gè)樣品,則所定義的距離一般應(yīng)滿足如下三個(gè)條件:(i)非負(fù)性:d(x, y)0,d(x, y)=0當(dāng)且僅當(dāng)x=y;(ii)對(duì)稱性:d(x, y) = d(y, x);(iii)三角不等式:d(x, y)d(x,z) + d(z, y)。6一、距離設(shè)x =(x1,x2,xp) 和y =(y1,常用的距離1.明考夫斯基(Minkowski)距離2.蘭氏(Lance和Williams)距離3.馬氏距離4.斜交空間距離7常用的距離1.明考夫斯基(Minkowski)距離71.明考夫斯基距離明考夫斯基距離(簡稱明氏距離):這里q0。明氏距離的三種特殊形式:(i)當(dāng)q=1時(shí), ,稱為絕對(duì)值距離,常被
3、形象地稱作“城市街區(qū)”距離;(ii)當(dāng)q=2時(shí), ,這是歐氏距離,它是聚類分析中最常用的一個(gè)距離;(iii)當(dāng)q=時(shí), ,稱為切比雪夫距離。81.明考夫斯基距離明考夫斯基距離(簡稱明氏距離):8絕對(duì)值距離圖示9絕對(duì)值距離圖示9對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理當(dāng)各變量的單位不同或測(cè)量值范圍相差很大時(shí),應(yīng)先對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理。最常用的標(biāo)準(zhǔn)化處理是,令 其中 和sii分別為xi的樣本均值和樣本方差。10對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理當(dāng)各變量的單位不同或測(cè)量值范圍相差2.蘭氏距離當(dāng)所有的數(shù)據(jù)皆為正時(shí),可以定義x與y之間的蘭氏距離為該距離與各變量的單位無關(guān),且適用于高度偏斜或含異常值的數(shù)據(jù)。112.蘭氏距
4、離當(dāng)所有的數(shù)據(jù)皆為正時(shí),可以定義x與y之間的蘭氏距3.馬氏距離x和y之間的馬氏距離為其中S為樣本協(xié)差陣。123.馬氏距離x和y之間的馬氏距離為124.斜交空間距離x和y之間的斜交空間距離定義為 其中rij是第i個(gè)變量與第j個(gè)變量間的相關(guān)系數(shù)。當(dāng)p個(gè)變量互不相關(guān)時(shí),該距離即為歐氏距離的1/p倍。134.斜交空間距離x和y之間的斜交空間距離定義為13名義尺度變量的一種距離定義例6.2.1 某高校舉辦一個(gè)培訓(xùn)班,從學(xué)員的資料中得到這樣六個(gè)變量:性別(x1),取值為男和女;外語語種(x2),取值為英、日和俄;專業(yè)(x3),取值為統(tǒng)計(jì)、會(huì)計(jì)和金融;職業(yè)(x4),取值為教師和非教師;居住處(x5),取值為
5、校內(nèi)和校外;學(xué)歷(x6),取值為本科和本科以下?,F(xiàn)有兩名學(xué)員: x=(男,英,統(tǒng)計(jì),非教師,校外,本科)y=(女,英,金融,教師,校外,本科以下)一般地,若記配合的變量數(shù)為m1,不配合的變量數(shù)為m2,則它們之間的距離可定義為故按此定義,本例中x 與y 之間的距離為2/3。14名義尺度變量的一種距離定義例6.2.1 某高校舉辦一個(gè)培二、相似系數(shù)變量之間的相似性度量,在一些應(yīng)用中要看相似系數(shù)的大小,而在另一些應(yīng)用中要看相似系數(shù)絕對(duì)值的大小。相似系數(shù)(或其絕對(duì)值)越大,認(rèn)為變量之間的相似性程度就越高;反之,則越低。聚類時(shí),比較相似的變量傾向于歸為一類,不太相似的變量歸屬不同的類。 15二、相似系數(shù)變
6、量之間的相似性度量,在一些應(yīng)用中要看相似系數(shù)的相似系數(shù)一般需滿足的條件(1)cij=1,當(dāng)且僅當(dāng)xi=axj+b,a(0) 和b是常數(shù); (2)|cij|1,對(duì)一切i,j; (3)cij=cji,對(duì)一切i,j。 16相似系數(shù)一般需滿足的條件(1)cij=1,當(dāng)且僅當(dāng)xi=a兩個(gè)向量的夾角余弦17兩個(gè)向量的夾角余弦171.夾角余弦變量xi與xj的夾角余弦定義為它是Rn中變量xi的觀測(cè)向量(x1i,x2i,xni)與變量xj的觀測(cè)向量(x1j,x2j,xnj)之間夾角ij的余弦函數(shù),即cij(1)=cosij。181.夾角余弦變量xi與xj的夾角余弦定義為182.相關(guān)系數(shù)變量xi與xj的相關(guān)系數(shù)為
7、如果變量xi與xj是已標(biāo)準(zhǔn)化了的,則它們間的夾角余弦就是相關(guān)系數(shù)。192.相關(guān)系數(shù)變量xi與xj的相關(guān)系數(shù)為19相似系數(shù)除常用來度量變量之間的相似性外有時(shí)也用來度量樣品之間的相似性,同樣,距離有時(shí)也用來度量變量之間的相似性。由距離來構(gòu)造相似系數(shù)總是可能的,如令 這里dij為第i個(gè)樣品與第j個(gè)樣品的距離,顯然cij滿足定義相似系數(shù)的三個(gè)條件,故可作為相似系數(shù)。距離必須滿足定義距離的三個(gè)條件,所以不是總能由相似系數(shù)構(gòu)造。高爾(Gower)證明,當(dāng)相似系數(shù)矩陣(cij)為非負(fù)定時(shí),如令 則dij滿足距離定義的三個(gè)條件。20相似系數(shù)除常用來度量變量之間的相似性外有時(shí)也用來度量樣品之間6.3 系統(tǒng)聚類法
8、系統(tǒng)聚類法(或?qū)哟尉垲惙ǎ琱ierarchical clustering method)是通過一系列相繼的合并或相繼的分割來進(jìn)行的,分為聚集的(agglomerative)和分割的(divisive)兩種,適用于樣品數(shù)目n不是很大的情形。聚集系統(tǒng)法的基本思想是:開始時(shí)將n個(gè)樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個(gè)新類,計(jì)算新類與其他類的距離;重復(fù)進(jìn)行兩個(gè)最近類的合并,每次減少一類,直至所有的樣品合并為一類。216.3 系統(tǒng)聚類法系統(tǒng)聚類法(或?qū)哟尉垲惙ǎ琱ierar一開始每個(gè)樣品各自作為一類22一開始每個(gè)樣品各自作為一類22分割系統(tǒng)法的聚類步驟與
9、聚集系統(tǒng)法正相反。由n個(gè)樣品組成一類開始,按某種最優(yōu)準(zhǔn)則將它分割成兩個(gè)盡可能遠(yuǎn)離的子類,再用同樣準(zhǔn)則將每一子類進(jìn)一步地分割成兩類,從中選一個(gè)分割最優(yōu)的子類,這樣類數(shù)將由兩類增加到三類。如此下去,直至所有n個(gè)樣品各自為一類或采用某種停止規(guī)則。聚集系統(tǒng)法最為常用,本節(jié)集中介紹其中常用的八種方法,所有這些聚類方法的區(qū)別在于類與類之間距離的定義不同。23分割系統(tǒng)法的聚類步驟與聚集系統(tǒng)法正相反。由n個(gè)樣品組成一類開6.3 系統(tǒng)聚類法一、最短距離法 二、最長距離法三、類平均法四、重心法*五、中間距離法六、離差平方和法(Ward方法) 七、系統(tǒng)聚類法的統(tǒng)一八、類的個(gè)數(shù)246.3 系統(tǒng)聚類法一、最短距離法 2
10、4一、最短距離法定義類與類之間的距離為兩類最近樣品間的距離,即圖6.3.1 最短距離法:DKL=d2325一、最短距離法定義類與類之間的距離為兩類最近樣品間的距離,即最短距離法的聚類步驟(1)規(guī)定樣品之間的距離,計(jì)算n個(gè)樣品的距離矩陣D(0),它是一個(gè)對(duì)稱矩陣。(2)選擇D(0)中的最小元素,設(shè)為DKL,則將GK和GL合并成一個(gè)新類,記為GM,即GM= GKGL。 (3)計(jì)算新類GM與任一類GJ之間距離的遞推公式為26最短距離法的聚類步驟(1)規(guī)定樣品之間的距離,計(jì)算n個(gè)樣品的遞推公式的圖示理解27遞推公式的圖示理解27最短距離法的聚類步驟 在D(0)中,GK和GL所在的行和列合并成一個(gè)新行新
11、列,對(duì)應(yīng)GM ,該行列上的新距離值由上述遞推公式求得,其余行列上的距離值不變,這樣就得到新的距離矩陣,記作D(1) 。(4)對(duì)D(1)重復(fù)上述對(duì)D(0)的兩步得D(2) ,如此下去直至所有元素合并成一類為止。28最短距離法的聚類步驟 在D(0)中,GK和GL所在的行和如果某一步D(m)中最小的元素不止一個(gè),則稱此現(xiàn)象為結(jié)(tie),對(duì)應(yīng)這些最小元素的類可以任選一對(duì)合并或同時(shí)合并。最短距離法最容易產(chǎn)生結(jié),且有一種挑選長鏈狀聚類的傾向,稱為鏈接(chaining)傾向。由于最短距離法是用兩類之間最近樣本點(diǎn)的距離來聚的,因此該方法不適合對(duì)分離得很差的群體進(jìn)行聚類。29如果某一步D(m)中最小的元素不
12、止一個(gè),則稱此現(xiàn)象為結(jié)(ti例6.3.1 設(shè)有五個(gè)樣品,每個(gè)只測(cè)量了一個(gè)指標(biāo),分別是1,2,6,8,11,試用最短距離法將它們分類。記G1=1,G2=2,G3=6,G4=8,G5=11,樣品間采用絕對(duì)值距離。G1G2G3G4G5G10G210G3540G47620G5109530表6.3.1 D(0)30例6.3.1 設(shè)有五個(gè)樣品,每個(gè)只測(cè)量了一個(gè)指標(biāo),分別是其中G6= G1G2其中G7= G3G4G6G3G4G5G60G340G4620G59530表6.3.2 D(1)表6.3.3 D(2)G6G7G5G60G740G593031其中G6= G1G2其中G7= G3G4G6G3G4G5其中G
13、6= G1G2表6.3.4 D(3)G6G8G60G840圖6.3.2 最短距離法樹形圖32其中G6= G1G2表6.3.4 D(3二、最長距離法類與類之間的距離定義為兩類最遠(yuǎn)樣品間的距離,即圖6.3.3 最長距離法:DKL=d1533二、最長距離法類與類之間的距離定義為兩類最遠(yuǎn)樣品間的距離,即最長距離法與最短距離法的并類步驟完全相同,只是類間距離的遞推公式有所不同。遞推公式:34最長距離法與最短距離法的并類步驟完全相同,只是類間距離的遞推對(duì)例6.3.1采用最長距離法,其樹形圖如圖6.3.4所示,它與圖6.3.2有相似的形狀,但并類的距離要比圖6.3.2大一些,仍分成兩類為宜。圖6.3.4 最
14、長距離法樹形圖35對(duì)例6.3.1采用最長距離法,其樹形圖如圖6.3.4所示,它異常值的影響最長距離法容易被異常值嚴(yán)重地扭曲。36異常值的影響最長距離法容易被異常值嚴(yán)重地扭曲。36例6.3.2 對(duì)305名女中學(xué)生測(cè)量八個(gè)體型指標(biāo):x1:身高x5:體重x2:手臂長x6:頸圍x3:上肢長x7:胸圍x4:下肢長x8:胸寬表6.3.5各對(duì)變量之間的相關(guān)系數(shù)x1x2x3x4x5x6x7x8x11.000 x20.8461.000 x30.8050.8811.000 x40.8590.8260.8011.000 x50.4730.3760.3800.4361.000 x60.3980.3260.3190.3
15、290.7621.000 x70.3010.2770.2370.3270.7300.5831.000 x80.3820.4150.3450.3650.6290.5770.5391.00037例6.3.2 對(duì)305名女中學(xué)生測(cè)量八個(gè)體型指標(biāo):表6.圖6.3.5 八個(gè)體型變量的最長距離法樹形圖38圖6.3.5 八個(gè)體型變量的最長距離法樹形圖38三、類平均法有兩種定義。一種定義方法是把類與類之間的距離定義為所有樣品對(duì)之間的平均距離,即定義GK和GL之間的距離為圖6.3.6 類平均法39三、類平均法有兩種定義。一種定義方法是把類與類之間的距離定義遞推公式:40遞推公式:40另一種定義方法是定義類與類之
16、間的平方距離為樣品對(duì)之間平方距離的平均值,即它的遞推公式為類平均法較好地利用了所有樣品之間的信息,在很多情況下它被認(rèn)為是一種比較好的系統(tǒng)聚類法。41另一種定義方法是定義類與類之間的平方距離為樣品對(duì)之間平方距離對(duì)例6.3.1采用(使用平方距離的)類平均法進(jìn)行聚類。一開始將D(0)的每個(gè)元素都平方,并記作 。G1G2G3G4G5G10G210G325160G4493640G5100812590表6.3.642對(duì)例6.3.1采用(使用平方距離的)類平均法進(jìn)行聚類。一開始G6G3G4G5G60G320.50G442.540G590.52590表6.3.7G6G7G5G60G731.50G590.517
17、0表6.3.843G6G3G4G5G60G320.50G442.540G590G6G8G60G851.170G6G8G60G851.170表6.3.9圖6.3.7 類平均法樹形圖44G6G8G60G851.170G6G8G60G851.170四、重心法類與類之間的距離定義為它們的重心(均值)之間的歐氏距離。設(shè)GK和GL的重心分別為 ,則GK與GL之間的平方距離為圖6.3.8 重心法45四、重心法類與類之間的距離定義為它們的重心(均值)之間的歐氏合并GK和GL之后的新類GM的重心是 其中nM=nK+nL為GM的樣品個(gè)數(shù)。重心法的遞推公式為與其他系統(tǒng)聚類法相比,重心法在處理異常值方面更穩(wěn)健,但是在
18、別的方面一般不如類平均法或離差平方和法的效果好。46合并GK和GL之后的新類GM的重心是46*五、中間距離法設(shè)某一步將GK和GL合并為GM,對(duì)于任一類GJ,考慮由DKJ,DLJ和DKL為邊長組成的三角形,取DKL邊的中線作為DMJ。DMJ的計(jì)算公式為圖6.3.9 中間距離法的幾何表示47*五、中間距離法設(shè)某一步將GK和GL合并為GM,對(duì)于任一類G六、離差平方和法(Ward方法)(類內(nèi))離差平方和:類中各樣品到類重心(均值)的平方歐氏距離之和。設(shè)類GK和GL合并成新類GM,則GK, GL和GM的離差平方和分別是對(duì)固定的類內(nèi)樣品數(shù),它們反映了各自類內(nèi)樣品的分散程度。48六、離差平方和法(Ward方
19、法)(類內(nèi))離差平方和:類中各樣類內(nèi)離差平方和的幾何解釋類內(nèi)離差平方和WK是類GK內(nèi)各點(diǎn)到類重心點(diǎn) 的直線距離之平方和。49類內(nèi)離差平方和的幾何解釋類內(nèi)離差平方和WK是類GK內(nèi)各點(diǎn)到類定義GK和GL之間的平方距離為 也可表達(dá)為 離差平方和法使得兩個(gè)大的類傾向于有較大的距離,因而不易合并;相反,兩個(gè)小的類卻因傾向于有較小的距離而易于合并。這往往符合我們對(duì)聚類的實(shí)際要求。50定義GK和GL之間的平方距離為50圖6.3.10 離差平方和法與重心法的聚類比較51圖6.3.10 離差平方和法與重心法的聚類比較51離差平方和法的平方距離遞推公式為對(duì)例6.3.1采用離差平方和法進(jìn)行聚類。圖6.3.11 離差
20、平方和法樹形圖52離差平方和法的平方距離遞推公式為圖6.3.11 離差平方和最短距離法、最長距離法和類平均法都屬于連接方法,它們既可以用于樣品的聚類,也能夠用于變量的聚類。本章介紹的其他聚類方法都將只能用于樣品的聚類。例6.3.3 表6.3.10列出了1999年全國31個(gè)省、直轄市和自治區(qū)的城鎮(zhèn)居民家庭平均每人全年消費(fèi)性支出的八個(gè)主要變量數(shù)據(jù)。這八個(gè)變量是 x1:食品x5:交通和通訊 x2:衣著x6:娛樂教育文化服務(wù) x3:家庭設(shè)備用品及服務(wù)x7:居住x4:醫(yī)療保健x8:雜項(xiàng)商品和服務(wù)分別用最短距離法、重心法和Ward方法對(duì)各地區(qū)作聚類分析。為同等地對(duì)待每一變量,在作聚類前,先對(duì)各變量作標(biāo)準(zhǔn)化
21、變換。53最短距離法、最長距離法和類平均法都屬于連接方法,它們既可以用表6.3.10 消費(fèi)性支出數(shù)據(jù) 單位:元地區(qū)x1x2x3x4x5x6x7x8北京2959.19730.79749.41513.34467.871141.82478.42457.64天津2459.77495.47697.33302.87284.19735.97570.84305.08河北1495.63515.9362.37285.32272.95540.58364.91188.63山西1406.33477.77290.15208.57201.5414.72281.84212.1內(nèi)蒙古1303.97524.29254.83192
22、.17249.81463.09287.87192.96遼寧1730.84553.9246.91279.81239.18445.2330.24163.86吉林1561.86492.42200.49218.36220.69459.62360.48147.76黑龍江1410.11510.71211.88277.11224.65376.82317.61152.85上海3712.31550.74893.37346.935271034.98720.33462.03江蘇2207.58449.37572.4211.92302.09585.23429.77252.54浙江2629.16557.32689.734
23、35.69514.66795.87575.76323.36安徽1844.78430.29271.28126.33250.56513.18314151.39福建2709.46428.11334.12160.77405.14461.67535.13232.29江西1563.78303.65233.81107.9209.7393.99509.39160.12山東1675.75613.32550.71219.79272.59599.43371.62211.8454表6.3.10 消費(fèi)性支出數(shù)據(jù) 河南1427.65431.79288.55208.14217337.76421.31165.32湖北1783
24、.43511.88282.84201.01237.6617.74523.52182.52湖南1942.23512.27401.39206.06321.29697.22492.6226.45廣東3055.17353.23564.56356.27811.88873.061082.82420.81廣西2033.87300.82338.65157.78329.06621.74587.02218.27海南2057.86186.44202.72171.79329.65477.17312.93279.19重慶2303.29589.99516.21236.55403.92730.05438.41225.8四川
25、1974.28507.76344.79203.21240.24575.1430.36223.46貴州1673.82437.75461.61153.32254.66445.59346.11191.48云南2194.25537.01369.07249.54290.84561.91407.7330.95西藏2646.61839.7204.44209.11379.3371.04269.59389.33陜西1472.95390.89447.95259.51230.61490.9469.1191.34甘肅1525.57472.98328.9219.86206.65449.69249.66228.19青海1
26、654.69437.77258.78303244.93479.53288.56236.51寧夏1375.46480.89273.84317.32251.08424.75228.73195.93新疆1608.82536.05432.46235.82250.28541.3344.85214.455河南1427.65431.79288.55208.14217圖6.3.12 最短距離法56圖6.3.12 最短距離法56圖6.3.13 重心法57圖6.3.13 重心法57圖6.3.14 離差平方和法58圖6.3.14 離差平方和法58從這三個(gè)樹形圖來看,只有Ward方法較好地符合了我們的實(shí)際聚類要求,它
27、將31個(gè)地區(qū)分為以下三類:第類:北京、浙江、上海和廣東。這些都是我國經(jīng)濟(jì)最發(fā)達(dá)、城鎮(zhèn)居民消費(fèi)水平最高的沿海地區(qū)。第類:天津、江蘇、云南、重慶、河北、新疆、山東、湖北、四川、湖南、福建、廣西、海南和西藏。這些地區(qū)在我國基本上屬于經(jīng)濟(jì)發(fā)展水平和城鎮(zhèn)居民消費(fèi)水平中等的地區(qū)。第類:山西、甘肅、內(nèi)蒙古、遼寧、黑龍江、吉林、青海、寧夏、安徽、貴州、河南、陜西和江西。這些地區(qū)在我國基本上屬于經(jīng)濟(jì)較落后地區(qū),城鎮(zhèn)居民的消費(fèi)水平也是較低的。如果分為五類,則廣東和西藏將各自為一類。59從這三個(gè)樹形圖來看,只有Ward方法較好地符合了我們的實(shí)際聚圖6.3.15 離差平方和法所分三類的平行圖60圖6.3.15 離差平
28、方和法所分三類的平行圖60七、系統(tǒng)聚類法的統(tǒng)一Lance和Williams于1967年將(書中介紹的)八種系統(tǒng)聚類法的遞推公式統(tǒng)一為:其中K, L, , 是參數(shù),不同的系統(tǒng)聚類法,它們有不同的取值。表6.3.11列出了上述八種方法四個(gè)參數(shù)的取值。1.單調(diào)性2.空間的濃縮與擴(kuò)張 61七、系統(tǒng)聚類法的統(tǒng)一Lance和Williams于1967年表6.3.11 系統(tǒng)聚類法參數(shù)表62表6.3.11 系統(tǒng)聚類法參數(shù)表621.單調(diào)性令Di是系統(tǒng)聚類法中第i次并類時(shí)的距離,如果一種系統(tǒng)聚類法能滿足D1D2D3 ,則稱它具有單調(diào)性。這種單調(diào)性符合系統(tǒng)聚類法的思想,先合并較相似的類,后合并較疏遠(yuǎn)的類。最短距離法
29、、最長距離法、可變法、類平均法、可變類平均法和離差平方和法都具有單調(diào)性,但中間距離法和重心法不具有單調(diào)性。631.單調(diào)性令Di是系統(tǒng)聚類法中第i次并類時(shí)的距離,如果一種系2.空間的濃縮與擴(kuò)張?jiān)O(shè)A=(aij)和B=(bij)是兩個(gè)元素非負(fù)的同階矩陣,若aijbij(對(duì)一切i, j),則記作AB。該記號(hào)僅在本節(jié)中使用。設(shè)有兩種系統(tǒng)聚類法,它們?cè)诘趇步的距離矩陣分別為Ai和Bi,i=0,1,n1,若AiBi,i=1,n1,則稱第一種方法比第二種方法使空間擴(kuò)張,或第二種方法比第一種方法使空間濃縮。以類平均法為基準(zhǔn),有如下一些結(jié)論:(1) D(短)D(平),D(重)D(平)。(2) D(長)D(平)。(
30、3) 當(dāng)01時(shí),D(變平)D(平);當(dāng)0時(shí),D(變平)D(平)。642.空間的濃縮與擴(kuò)張?jiān)O(shè)A=(aij)和B=(bij)是兩個(gè)元例6.3.4(最短距離法的鏈接傾向)65例6.3.4(最短距離法的鏈接傾向)65(1)采用最短距離法。可以算得,當(dāng)聚成兩類時(shí),C1和C11組成一類,其余所有的點(diǎn)組成另一類,這里出現(xiàn)了鏈接現(xiàn)象;當(dāng)聚成三類時(shí),C1和C11組成第類,其余的C點(diǎn)組成第類,所有的A點(diǎn)和B點(diǎn)組成第類。(2)采用類平均法。經(jīng)算得,當(dāng)聚成兩類時(shí),一類由所有C點(diǎn)構(gòu)成,另一類由所有A點(diǎn)和所有B點(diǎn)構(gòu)成;當(dāng)聚成三類時(shí),A點(diǎn)群、B點(diǎn)群和C點(diǎn)群各自作為一類。66(1)采用最短距離法??梢运愕茫?dāng)聚成兩類時(shí),C1
31、和C11組從直觀的圖形中進(jìn)行主觀聚類當(dāng)p=2時(shí),可通過目測(cè)散點(diǎn)圖從直覺上來判斷所采用的正規(guī)聚類方法是否合理。我們甚至可以直接在散點(diǎn)圖上進(jìn)行主觀的聚類,其效果未必遜于正規(guī)的聚類方法,特別是在尋找“自然的”類和符合我們實(shí)際需要的類方面。當(dāng)p=3時(shí),我們可使用SAS軟件的交互式數(shù)據(jù)分析菜單系統(tǒng)產(chǎn)生三維旋轉(zhuǎn)圖,通過旋轉(zhuǎn)三維坐標(biāo)軸從各個(gè)角度來觀測(cè)散點(diǎn)圖,以直觀評(píng)估所作聚類的效果如何,不過觀測(cè)效果一般明顯不如平面散點(diǎn)圖清楚。當(dāng)p3時(shí),有時(shí)我們可采用主成分分析(見第七章)或因子分析(見第八章)的技術(shù)將維數(shù)降至2或3維,然后再生成散點(diǎn)圖或旋轉(zhuǎn)圖,從直覺上進(jìn)行主觀的聚類。67從直觀的圖形中進(jìn)行主觀聚類當(dāng)p=2時(shí)
32、,可通過目測(cè)散點(diǎn)圖從直覺尋找“自然的”類68尋找“自然的”類68八、類的個(gè)數(shù)如果能夠分成若干個(gè)很分開的類,則類的個(gè)數(shù)就比較容易確定;反之,如果無論怎樣分都很難分成明顯分開的若干類,則類個(gè)數(shù)的確定就比較困難了。確定類個(gè)數(shù)的常用方法有: 1.給定一個(gè)閾值T。 2.觀測(cè)樣品的散點(diǎn)圖。 3.使用統(tǒng)計(jì)量。69八、類的個(gè)數(shù)如果能夠分成若干個(gè)很分開的類,則類的個(gè)數(shù)就比較容1.給定一個(gè)閾值T通過觀測(cè)樹形圖,給出一個(gè)你認(rèn)為合適的閾值T,要求類與類之間的距離要大于T,有些樣品可能會(huì)因此而歸不了類或只能自成一類。這種方法有較強(qiáng)的主觀性,這是它的不足之處。701.給定一個(gè)閾值T通過觀測(cè)樹形圖,給出一個(gè)你認(rèn)為合適的閾值
33、T2.觀測(cè)樣品的散點(diǎn)圖如果樣品只有兩個(gè)(或三個(gè))變量,則可通過觀測(cè)數(shù)據(jù)的散點(diǎn)圖(或旋轉(zhuǎn)圖)來主觀確定類的個(gè)數(shù)。如果變量個(gè)數(shù)超過三個(gè),則可對(duì)每一可能考慮的聚類結(jié)果,將所有樣品的前兩個(gè)(或三個(gè))費(fèi)希爾判別函數(shù)得分制作成散點(diǎn)圖(或旋轉(zhuǎn)圖),目測(cè)類之間是否分離得較好。該圖既能幫助我們?cè)u(píng)估聚類效果的好壞,也能幫助我們判斷所定的類數(shù)目是否恰當(dāng)。712.觀測(cè)樣品的散點(diǎn)圖如果樣品只有兩個(gè)(或三個(gè))變量,則可通過圖6.3.17 按圖6.3.14分三類的兩個(gè)判別函數(shù)得分的散點(diǎn)圖72圖6.3.17 按圖6.3.14分三類的兩個(gè)判別函數(shù)得分的圖6.3.18 按圖6.3.14分五類的兩個(gè)判別函數(shù)得分的散點(diǎn)圖73圖6.3
34、.18 按圖6.3.14分五類的兩個(gè)判別函數(shù)得分的3.使用統(tǒng)計(jì)量(1)R2統(tǒng)計(jì)量。(2)半偏R2統(tǒng)計(jì)量。(3)偽F統(tǒng)計(jì)量。(4)偽t統(tǒng)計(jì)量。743.使用統(tǒng)計(jì)量(1)R2統(tǒng)計(jì)量。746.4 動(dòng)態(tài)聚類法在系統(tǒng)聚類法中,對(duì)于那些先前已被“錯(cuò)誤”分類的樣品不再提供重新分類的機(jī)會(huì),而動(dòng)態(tài)聚類法(或稱逐步聚類法)卻允許樣品從一個(gè)類移動(dòng)到另一個(gè)類中。動(dòng)態(tài)聚類法的計(jì)算量要比建立在距離矩陣基礎(chǔ)上的系統(tǒng)聚類法小得多。因此,使用動(dòng)態(tài)聚類法計(jì)算機(jī)所能承受的樣品數(shù)目n要遠(yuǎn)遠(yuǎn)超過使用系統(tǒng)聚類法所能承受的n。756.4 動(dòng)態(tài)聚類法在系統(tǒng)聚類法中,對(duì)于那些先前已被“錯(cuò)誤動(dòng)態(tài)聚類法的基本思想是,選擇一批凝聚點(diǎn)或給出一個(gè)初始的分類,讓樣品按某種原則向凝聚點(diǎn)凝聚,對(duì)凝聚點(diǎn)進(jìn)行不斷的修改或迭代,直至分類比較合理或迭代穩(wěn)定為止。類的個(gè)數(shù)k需先指定一個(gè)。選擇初始凝聚點(diǎn)(或給出初始分類)的一種簡單方法是采用隨機(jī)抽選(或隨機(jī)分割)樣品的方法,可以要求凝聚點(diǎn)之間至少應(yīng)間隔某個(gè)距離值。動(dòng)態(tài)聚類法只能用于對(duì)樣品的聚類,而不能用于對(duì)變量的聚類。動(dòng)態(tài)聚類法有許多種方法,在這一節(jié)中,我們將討論
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 司機(jī)擔(dān)保協(xié)議合同
- 零售連鎖店經(jīng)營模式創(chuàng)新與數(shù)字化升級(jí)解決方案
- 園林綠化工程設(shè)計(jì)合同
- 匯流箱施工方案
- 委托物業(yè)管理電梯協(xié)議書
- 解決方案優(yōu)化提案書
- 個(gè)人民間借貸合同書
- 咨詢服務(wù)委托合同協(xié)議書
- 外墻保溫吊籃施工方案
- 特色廊架施工方案
- 不良資產(chǎn)項(xiàng)目律師法律盡調(diào)報(bào)告(模板)
- 2023年人力資源和社會(huì)保障部公開招聘工作人員筆試參考題庫(共500題)答案詳解版
- 高級(jí)技校電氣自動(dòng)化設(shè)備安裝與維修教學(xué)計(jì)劃
- 《長征之戰(zhàn)役》課件
- 心電監(jiān)護(hù)操作評(píng)分標(biāo)準(zhǔn)
- 保健品概念及分類
- 水土保持監(jiān)理實(shí)施細(xì)則
- 自體血液回收機(jī)使用(精京3000P型)課件
- 非法捕撈水產(chǎn)品罪
- 中鋁中州礦業(yè)有限公司禹州市方山鋁土礦礦山地質(zhì)環(huán)境保護(hù)和土地復(fù)墾方案
- 漿渣自分離立式磨漿機(jī)設(shè)計(jì)-畢業(yè)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論