版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、學(xué)海無涯第十二章聚類分析聚類分析(CLUSTER是將樣本或變量進(jìn)行分類的一種方法。通常用相似性指標(biāo)“距離”和“相似系數(shù)”來衡量研究對(duì)象的聯(lián)系緊密程度, 從而進(jìn)行合理分類?!熬嚯x”常用來對(duì)樣本分類,即把每一個(gè)樣本看作是m維空間(若樣本被m個(gè)變量所描述)的一個(gè)點(diǎn),把距離較近的點(diǎn)歸為一類,距離較遠(yuǎn) 的點(diǎn)歸為不同的類。“相似系數(shù)”用來對(duì)變量分類,將變量間相似系數(shù)較大的歸 為一類,較小的歸為不同類。第一節(jié)距離和相似系數(shù)一、距離1、“歐幾里得”距離A和B兩點(diǎn)由m個(gè)變量所描述,其坐標(biāo)分別是(xi,X2,xj和(yi,y2,yd,那么 d(A,B)=,yj2。例如:某次收視率調(diào)查中的部分?jǐn)?shù)據(jù)如表1,則1號(hào)被訪
2、者和2號(hào)被訪者的“距離”為:d(A,B)=、.(25 60)2 (16 6)2 (40 120)2 .表1 :原始數(shù)據(jù)被訪者年齡(歲)文化程度(年)日收看電視時(shí)間(分)XX2X31251640260612034212906003414150X1 =41, S=20X2=12,S2=5X3 =90, S3=40上述測(cè)量的距離存在問題:(1)同一個(gè)變量單位不同會(huì)導(dǎo)致不同的距離;(2) 不同變量的度量不一致,無法判斷變量值大小和變量的重要程度, 從而無法判斷 距離的意義。因而需要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。表2:標(biāo)準(zhǔn)化數(shù)據(jù)被訪者年齡(歲)文化程度(年)日收看電視時(shí)間(分)XX2X31-0.80.81.25
3、20.95-1.20.7530.050.00.00600-0.350.41.50X1 =0, S1=1X2 =0, S?=1X3 =0, S3=12、SPSS聚類分析中提供的距離(1)歐式距離(EUCLID,等于(2) 歐式距離的平方(SEUCLID,等于變量差2+變量差2+(3) 曼哈頓距離(BLOC)等于變量差的絕對(duì)值之和(4) 切比雪夫距離(CHEBYCHEV等于變量差中絕對(duì)值最大者(5) 幕距離POWER(p,r)等于變量差的絕對(duì)值的p次方之和,再求r方根。2、相似系數(shù)(1) 變量間的相關(guān)系數(shù)即皮爾遜相關(guān)系數(shù);(2) 變量間的夾角余弦,即將兩變量分別看成n維空間的向量時(shí)的夾角余弦值。
4、相關(guān)系數(shù)一般針對(duì)定距變量,對(duì)于定類變量特別是二項(xiàng)變量也可引入虛擬變量后計(jì)算相關(guān)系數(shù)。身高(cm)體重(公斤)眼睛形狀鼻子形狀習(xí)慣用手性別個(gè)體1166120單高右女個(gè)體2175145雙低右男個(gè)體3168135單高右男個(gè)體4167100雙低右女個(gè)體5174150雙低左男表3:五個(gè)人的六種身體特征指標(biāo);X2= *;X3=1,雙眼皮0,單眼皮可以全部變成虛擬變量(也可將后四個(gè)虛擬),1,體重1300,體重v 130解:變量中包含定距和定類變量,X4=,表3可轉(zhuǎn)化為表4:X1茨X4X5X個(gè)體1000101個(gè)體2111000個(gè)體3010100個(gè)體4001001卜;%=S卜;Xs=1,用左手0,用右手1,女
5、0,男令X1= J 1,身咼170卜I 0,身高 V 170L V飛J 1,高鼻梁0,低鼻梁例1:假定5個(gè)樣本(人)具有如下指標(biāo):(1)請(qǐng)對(duì)個(gè)體進(jìn)行分類;(2)對(duì)變量 進(jìn)行分類。個(gè)體5111010(1)根據(jù)兩個(gè)個(gè)體共同特征的多少來對(duì)個(gè)體分類,以歐式距離的平方來進(jìn)行聚 類,個(gè)體之間的距離越小越相似,可求得:d2(1,2)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-0)2+(1-0)2=5;2222222d (1,3)=(0-0)+(0-1) +(0-0)+(1-1)+(0-0)+(1-0)=2 ;2222222d (1,4)=(0-0)+(0-0) +(0-1)+(1-0)+
6、(0-0)+(1-1)=2 ;d2(1,5)=(0-1) 2+(0-1) 2+(0-1) 2+(1-0) 2+(0-1) 2+(1-0) 2=6;同理計(jì)算其他距離,得 到下表:表5: 5個(gè)體間距離(2)對(duì)特征變量進(jìn)行分類,先計(jì)算兩個(gè)變量間的相似系數(shù):% Xz X2).(X1 XJ2 : (X2 X2)2(X10.4)( X2 0.6)r 12= (X10.4)2., (X20.6)2=0.6667同理計(jì)算其它相關(guān)系數(shù):表6:六個(gè)變量間的相關(guān)系數(shù)12345611.000020.66671.000030.66670.16671.00004-0.6667-0.1667-1.00001.000050.
7、61240.40820.4082-0.40821.00006-0.6667-1.0000-0.16670.1667-0.40821.0000表6中出現(xiàn)負(fù)相關(guān)系數(shù),不予考慮符號(hào),僅以絕對(duì)值來表示相關(guān)程度。夫與X6, X3與X4兩對(duì)變量最相似,同時(shí)X2和X3、, X6和、X4之間相關(guān)系數(shù)很小, 所以 X2,X6和 X 3,X4是幾乎不相交的兩類。X、X5和其它5個(gè)變量的相關(guān)關(guān)系 都適中,所以二者都不宜于其它變量合并,將 X1和單獨(dú)歸為一類。幾個(gè)注意問題:(1)對(duì)個(gè)體進(jìn)行聚類時(shí),1-1匹配和0-0匹配是完全同等看 待,實(shí)際上不太合理。如兩個(gè)左撇子比兩個(gè)同用右手的人更相似一些。因此有時(shí)對(duì)1-1匹配和0
8、-0匹配區(qū)別處理,或給予不同權(quán)數(shù)。(2)此法聚類較為主觀,對(duì)Xi和X2處理較粗糙第二節(jié)譜系聚類法譜系聚類法中常用的聚集法是先將所有研究對(duì)象都各自視為一類, 將最靠近 的首先聚類,再將這個(gè)類和其它類中最靠近的對(duì)象結(jié)合, 一直合并到所有對(duì)象都 綜合成一類。譜系聚類法的聚集或分割過程可以用“譜系圖”直觀表示出來。一、最短距離法兩個(gè)類之間的距離定義為:兩類中兩兩元素之間距離最小者,并依此逐次選 擇最靠近的類聚集的方法。例如d1,2,3,45,6,7= mind 佝 d 佝 d 仃,d 25, d 26, d 27, d 35, d 36, d 37, d 45, d 46, d 47 =d37例2:假
9、定5個(gè)對(duì)象間的距離如表9所示,用最短距離法聚類,并畫出譜系圖。表7: 5個(gè)對(duì)象間距離其次再求出2,5和1, 3, 4的距離:d2,5i =min d 21, d 51 = min 6, 7=6d2,53 =min d 23, d 53 = min 4,5=4d2,54 =min d 24, d 54 = min 4,5=4于是可以將2,5,1,3, 4這四類的距離重新做出表10(1):表8(1) : 4個(gè)類間的距離2,51342,50160342044350在這4類中,1和3最靠近,它們具有最小類間距離di3=min 6, 4,2,3,5=2 將1和3合并成新類 1,3,再求出 1,3和 2,
10、5 ,4的距離:d 1,32,5 =min d 吃目,d 32旬= min 6, 4=4d 1,34 =min d 14, d 34 = min 3,5=3將 1,3 , 2,5 ,4這三類的距離作出表10(2):表8(2) : 3個(gè)類間的距離2,52,50 1,3444 1,34030在這三類中,最靠近的類是 1,3和4, d 1,34=min 4, 3 =3。因此可將 1,3 和4合并成為一個(gè)新類 1,3,4,這時(shí)只有兩個(gè)不同的類 2,5和 1,3,4,它 們的距離為 d2,5 1,3,4 = min d 啊 1,3 , d 阿= min 4, 4=4。最后再將 2,5和 1,3,4合并為
11、一類,由此完成整個(gè)聚類過程。相應(yīng)譜系圖如圖1:圖1:最短距離法譜系圖1234距離25134對(duì)象2、最長(zhǎng)距離法與最短距離法聚類方式相同,不同的是類與類之間的距離定義為兩類中元素 之間距離最大者。例如:d1,2,3,45,6,7= maxd15,d 16, d 17, d25, d26,d 27, d35, d36,d 37, d45,d 佝 d 47 =d16例3:對(duì)例3中的相同數(shù)據(jù)用最長(zhǎng)距離法聚類并畫處譜系圖:解:首先將最靠近的2和5合并為一類,并計(jì)算2,5和1,3,4的距離:d2,51 = max d 21, d 51 = max 6, 7=7d2,53 = max d 23, d 53 =
12、 max 4,5=5d2,54 = max d 24, d 54 = max 4,5=5由此可以寫出新的四個(gè)類間的距離如表9(1)所示。其中最靠近的是1和3,將其合并為新類 1,3,并計(jì)算 1,3和 2,5 ,4的距離:d 1,32,5 = max d 吃旬,d 32問= max 7,5=7d 1,34 = max d 14, d 34 = max 3,5=5新的三類間的距離如表9(2)所示,由于兩個(gè)距離都是5,因此可以合并 1,3 和4為一個(gè)新類,也可以合并2,5和4為一個(gè)新類。不管何種合并,最后新的 兩類間的距離都是7,如表9(3)和表9。2,51342,50170352045350表9(
13、1) : 4個(gè)類間的距離2,5 1,342,50 1,3704550表9(2) : 3個(gè)類間的距離2,5 1,3,42,50 1,3,470表9(3):兩個(gè)類間的距離2,5,4 1,32,5,40 1,370表9:兩個(gè)類間的距離兩種聚類過程的譜系圖如圖3,第一種聚類結(jié)果和圖1的結(jié)果一致圖3:最長(zhǎng)距離法譜系圖(兩種可能聚類結(jié)果)3、中間距離法類與類之間的距離即不取最短距離也不取最長(zhǎng)距離,而是取某個(gè)中間的距離,即中間距離法GN例如由G和G組成的新類 方:dGN d用歐式距離的平方。G,其與G的距離為三角形的中線 舟d2¥2)。采用中間距離法進(jìn)行聚類時(shí)一般使d的平最短距離法和最長(zhǎng)距離法的優(yōu)
14、點(diǎn):聚類過程是單調(diào)的,即每一步聚類時(shí)的距 離都大于前一步,所以譜系圖一目了然。中間距離法的優(yōu)點(diǎn):空間守恒,即兩個(gè)類之間的距離基本上都取中間的, 即 不取最短(空間收縮),也不取最長(zhǎng)(空間擴(kuò)張)。最短距離法和最長(zhǎng)距離法的缺點(diǎn):空間不守恒。中間距離法的缺點(diǎn):非單調(diào),有時(shí)聚類的距離小于前一步聚類時(shí)的距離, 所 以譜系圖有時(shí)不易理解。共同的缺點(diǎn):沒有考慮各類中研究對(duì)象的數(shù)量以及各樣本的信息。4、重心法兩個(gè)類之間的距離定義為兩類的重心間的距離,聚類過程同前。5、類平均法一一兩個(gè)類之間的距離(平方)定義為兩類中的元素兩兩之間的平 均(平方)距離。6變差平方和法一一分類思想類似方差分析,使類內(nèi)元素間的變差平
15、方和盡可 能小,類與類之間的變差平方和盡可能大。表10: 六種譜系聚類法的比較方法SPSS命令空間性質(zhì)單調(diào)性對(duì)距離 的要求適用形結(jié)果的 唯一性備注最短距離法SINGLE壓縮單調(diào)條形,S形唯一太壓縮,不夠靈敏最長(zhǎng)距離法COMPLETE擴(kuò)張單調(diào)適用于 橢球形距離表 中有相 同元素 時(shí),可能 不唯一 結(jié)果太擴(kuò)張,樣本大時(shí)失真中間距 離法MEDIAN守恒非單調(diào)歐式距 離平方重心法CENTROID守恒非單調(diào)同上類平均 法WAVERAGE守恒單調(diào)不太壓縮也不 太擴(kuò)張,效果 較好,較常用變差平方和法WARD擴(kuò)張單調(diào)歐式距 離平方效果較好,較常用譜系聚類法在距離的選擇以及各種聚類法的選擇仍帶有一定主觀性,因而
16、在聚類時(shí),可多用幾種距離和方法,最后根據(jù)實(shí)際問題性質(zhì)確定合適的聚類結(jié)果。 除譜系聚類法外,還有非譜系聚類法和模糊聚類法等。如果對(duì)變量進(jìn)行聚類,一般先求出變量間的相似系數(shù),按照相似系數(shù)越大變 量越相似的原則,聚類過程類似樣本聚類。也可將相似系數(shù)轉(zhuǎn)化為距離,然后再 聚類,d2(TC)2, C表示兩個(gè)變量間的某種相似系數(shù),d為某種距離。例5: 24名優(yōu)秀運(yùn)動(dòng)員的七項(xiàng)全能項(xiàng)目得分間的相關(guān)系數(shù)如表14,對(duì)這七項(xiàng)指標(biāo)進(jìn)行聚類分析。表11: 七個(gè)體育項(xiàng)目的相關(guān)系數(shù)變量100米欄X1跳高X2鉛球X3200 米 X跳遠(yuǎn)X5標(biāo)槍X6800 米 X100米欄X1.000跳高X0.44981.000鉛球X30.683
17、80.46661.000200 米 Xi0.84660.32980.56751.000跳遠(yuǎn)X0.81130.54200.59430.81121.000標(biāo)槍X60.32140.21540.68960.31430.32761.000800 米 Xz0.57060.14980.37620.67900.49570.05561.000解:變量Xi和簡(jiǎn)稱1和4)的相關(guān)系數(shù)最大,先將1和4聚成一個(gè)新類 1,4, 然后計(jì)算 1,4和變量2、3、5、6、7的相關(guān)系數(shù):51,4 = max r 21, r 24 = max 0.4498,0.3298=0.4498r 31,4 = max r 31, r 34 =
18、 max 0.6838,0.5675=0.6838這些相關(guān)系數(shù)繪成新表12(1),其中最大的相關(guān)系數(shù)是0.8113,所以將變量 5歸入 1,4中形成 1,4,5,然后求出 1,4,5與變量2、3、6、7的相關(guān)系 數(shù)。繼續(xù)下去直到全部變量都并為一類為止(見表14(1)至14(5) )0最后的譜系圖(圖5)說明,7個(gè)變量可分為四類: 1,4,5, 3,6 , 7和 2,即速度型項(xiàng)目 100米欄,200米,跳遠(yuǎn),投擲型項(xiàng)目鉛球,標(biāo)槍,耐力型項(xiàng)目 800 米和彈跳型項(xiàng)目跳高 o表12(1)變量 1,423567 1,41.00020.44981.00030.68380.46661.00050.81130.54200.59431.00060.32140.21540.68960.32761.00070.67900.14980.37620.49570.05561.000表 12(2)變量 1,4,523671,4,51.00020.54201.00030.68380.46661.00060.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆廣東省廣州市越秀區(qū)荔灣區(qū)聯(lián)考高一物理第一學(xué)期期中教學(xué)質(zhì)量檢測(cè)試題含解析
- 2025屆福建省漳州市華安縣第一中學(xué)高二物理第一學(xué)期期末綜合測(cè)試試題含解析
- 2025屆安徽省安師大附中物理高二上期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)試題含解析
- 甘肅省天水市秦安縣二中2025屆物理高一上期中經(jīng)典試題含解析
- 甘肅省玉門一中2025屆物理高三上期末教學(xué)質(zhì)量檢測(cè)試題含解析
- 2025屆黃岡市啟黃中學(xué)物理高一上期中質(zhì)量檢測(cè)試題含解析
- 2025屆廣東省汕頭市名校高一物理第一學(xué)期期中學(xué)業(yè)水平測(cè)試試題含解析
- 2025屆上海市虹口區(qū)復(fù)興高級(jí)中學(xué)物理高二第一學(xué)期期中質(zhì)量檢測(cè)試題含解析
- 恒鼎新都匯城市綜合體推廣策劃銷執(zhí)策略課件
- 2024裝修木工清包工合同(陳工長(zhǎng))
- 第8講+隋唐的文化
- 醫(yī)學(xué)專題-4雙相障礙
- 中醫(yī)生活起居護(hù)理-疏仁麗
- 管網(wǎng)設(shè)計(jì)分析報(bào)告
- 珍愛生命拒絕危險(xiǎn)游戲
- 高中數(shù)學(xué)教師的專業(yè)發(fā)展路徑
- 莊園推廣策劃方案
- 《地球是怎樣形成的》課件
- 子路曾皙冉有公西華侍坐教案
- 建筑機(jī)電系統(tǒng)全過程調(diào)試技術(shù)及工藝
- 六西格瑪之控制階段詳解
評(píng)論
0/150
提交評(píng)論