教育多元統(tǒng)計學(xué)與SPSS軟件8聚類分析_第1頁
教育多元統(tǒng)計學(xué)與SPSS軟件8聚類分析_第2頁
教育多元統(tǒng)計學(xué)與SPSS軟件8聚類分析_第3頁
教育多元統(tǒng)計學(xué)與SPSS軟件8聚類分析_第4頁
教育多元統(tǒng)計學(xué)與SPSS軟件8聚類分析_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

PAGEPAGE155第八章聚類分析聚類分析是一種研究“物以類聚”問題的多元統(tǒng)計方法,按照一定的分類原則,將指標(biāo)或樣品聚為一類。第一節(jié)概述聚類分析根據(jù)分類對象的不同,分為R型聚類分析與Q型類分析兩種。用于指標(biāo)的分類用R型聚類分析,用于樣品的分類用Q型聚類分析。聚類分析的基本思想:先將分類對象(指標(biāo)或樣品)各自看成一類,然后選擇一個統(tǒng)計量來衡量分類對象的相似程度,根據(jù)其大小先將兩兩對象聚成一類,如此下去,直至所有對象都聚成一類(或預(yù)分的類)為止。將聚類的整個過程作成一張譜系圖,然后根據(jù)實際問題的需要,選擇一個合適的分類標(biāo)準(zhǔn),便能得到所要分的類。聚類方法可單獨使用,也可與其它多元統(tǒng)計方法結(jié)合使用,如可先進行聚類分析,再進行多元回歸分析或判別分析。對于R型聚類結(jié)果,需要選出各類的代表性指標(biāo),稱為典型指標(biāo)。當(dāng)一類中只有兩個指標(biāo)時,可以任選一個作為典型指標(biāo)。當(dāng)一類中多于兩個指標(biāo)時,需要計算相關(guān)指數(shù)R2(相關(guān)系數(shù)的平方,也稱判定系數(shù))的平均數(shù)R2,將其值最大的指標(biāo)作為典型指標(biāo)。Σr2R2=k-1其中,r為類內(nèi)指標(biāo)之間的相關(guān)系數(shù),k為類內(nèi)的指標(biāo)個數(shù)。1.聚類方法一般多元統(tǒng)計書上介紹8種方法:最短距離法:將兩類樣本間的最短距離作為類與類之間的距離,具有單調(diào)性,空間收縮很快。最長距離法:與最短距離法相反,將兩類樣本間的最長距離作為類與類之間的距離,也具有單調(diào)性,聚類空間呈擴張狀態(tài)。中間距離法:類間距離介于以上兩種方法之間,聚類空間處于守衡狀態(tài),不能保證類距離總是單調(diào)的。重心法:上述3種方法在定義類間距離時均未考慮新類中所含樣本點的多少,存在不合理之處,該方法可以糾正上述問題。與中間距離法類似,聚類空間守衡,不能保證類距離總是單調(diào)的。類平均法:為了更多地吸取類內(nèi)樣本點信息,定義類間距離為兩類中樣本點間距離平方的平均。該法空間守衡,又是單調(diào)的,是較為理想的系統(tǒng)聚類方法。可變類平均法:在計算類間距離的公式中引入了聚集強度系數(shù)β(β<1),β取不同的值可能會得到不同的聚類結(jié)果,選擇合適的β值,以達(dá)到最佳聚類效果,一般認(rèn)為取-1/4時效果較好。該方法仍具有單調(diào)性,比類平均法更為合理一些。可變法:將可變類平均法中的聚集強度系數(shù)β引進中間距離法就形成了該方法。離差平方和法:又稱Ward法,利用方差分析原理進行聚類。2.常用的數(shù)據(jù)變換方法中心化變換、標(biāo)準(zhǔn)化變換、極差正規(guī)化變換、對數(shù)變換3.距離絕對值、歐氏、切比雪夫、蘭氏、馬氏、斜交空間4.相似系數(shù)積差相關(guān)系數(shù)、夾角余弦、指數(shù)相似系數(shù)第二節(jié)系統(tǒng)聚類法聚類方法有多種,如系統(tǒng)聚類、動態(tài)聚類、有序樣品聚類及模糊聚類等,下面進行簡要介紹。系統(tǒng)聚類方法(也稱分層聚類方法):將p個指標(biāo)(樣品)看成p類,將性質(zhì)最接近的兩類聚成一個新類,得到p-1類,再從中將性質(zhì)最接近的兩類聚成一個新類,得到p-2類,依此類推,直至所有的指標(biāo)(樣品)均聚為一類。動態(tài)聚類方法:先將指標(biāo)(樣品)粗略的分成若干類,然后根據(jù)某種最優(yōu)原則進行調(diào)整,反復(fù)多次,直至不能調(diào)整時為止。有序樣品聚類方法:先將指標(biāo)(樣品)根據(jù)某種原因排成次序,要求次序相鄰的指標(biāo)(樣品)聚成一類。模糊聚類方法:將模糊數(shù)學(xué)理論用于聚類分析中產(chǎn)生的方法。本節(jié)結(jié)合SPSS軟件介紹系統(tǒng)聚類方法。1.SPSS軟件計算步驟選擇“Analyze”→“Classify”→“HierarchicalCluster”項。彈出如圖8.2.1所示的對話框。1.1Variables欄存放聚類變量。1.2LabelCasesby欄存放標(biāo)識變量,如用指標(biāo)名稱、編號、姓名來標(biāo)明各指標(biāo)或樣品最后聚到哪一類,不指定時,系統(tǒng)自動將序號作為標(biāo)識變量。1.3Cluster選項①Cases對樣品進行聚類,Q型聚類。②Variables圖8.2.1分層聚類分析主對話框?qū)χ笜?biāo)進行聚類,R型聚類。1.4Display選項①Statistics輸出統(tǒng)計量。②Plots輸出圖形。1.5Statistics按鈕圖8.2.2Statistics對話框①Agglomerationschedule復(fù)選項凝聚狀態(tài)表,顯示聚類過程中每一步合并的類或觀測值,根據(jù)該表跟蹤聚類的合并過程。②ProximityMatrix復(fù)選項各項間的距離(R型聚類為相關(guān)系數(shù))矩陣。③ClusterMembership類成員欄顯示每個觀測值被分到的類或顯示若干步聚類過程。None:不顯示類成員表。Singlesolution:輸入數(shù)值n,顯示聚為n類時各觀測值的歸屬情況。Rangeofsolutions:要求列出某個范圍中每一步各觀測值所屬的類,如輸入3、5,則輸出結(jié)果中列出3類、4類與5類所包括的觀測值。1.6Plots按鈕圖8.2.3Plots對話框①Dendrogram選項樹形圖。②Icicle選項冰柱圖欄。Allclusters:聚類的每一步都顯示在圖中。Specifiedrangeofclusters:輸入起始、中止及增量數(shù)。None:不生成冰柱圖。③Orientation選項Vertical:縱向顯示冰柱圖。Horizontal:水平顯示冰柱圖。1.7Method按鈕①ClusterMethod聚類方法選項Between-groupslinkage:類間平均法,合并兩類的結(jié)果使所有的兩兩項對之間的平均距離最小,項對的兩個成員分別屬于不同的類。方法中的各對之間的距離既非最大距離,也非最小距離。圖8.2.4Method對話框Within-groupslinkage:類內(nèi)平均法,當(dāng)兩類合并為一類后,合并后的類中的所有項之間的平均距離最小,兩類間的距離是合并后的類中所有可能的觀測值對之間的距離平方。Nearestneighbor:最近鄰居法(也稱最短距離法),合并最近的或最相似的兩項,用兩類間最近點的距離代表兩類間的距。Furthestneighbor:最遠(yuǎn)鄰居法(也稱最長距離法或稱完全連接法),合并最遠(yuǎn)的兩項,兩類間最遠(yuǎn)點的距離代表兩類間的距離。Centroidclustering:重心法,以兩類重心(均值)之間的距離代表兩類間的距離,與歐氏距離平方法一起使用(也可與歐氏距離一起使用,主要看聚類效果)。Medianclustering:中間距離法,以最短距離與最長距離的中間距離代表兩類間的距離;與歐氏距離平方法一起使用。Ward’smethod:離差平方和法,根據(jù)方差分析的原理得到,若分類較為合理,則同類之間離差平方和較小,類與類之間的離差平方和較大,與歐氏距離平方法一起使用。②Measure距離測度選項有3項供選擇:“Count”項用于計數(shù)變量、“Binary”項用于二值變量,暫略。下面介紹用于連續(xù)變量的“Interval”項。Euclideandistance:歐氏距離,用于Q型聚類。SquaredEuclideandistance:歐氏距離平方,用于Q型聚類。Cosine:變量矢量的余弦,是模型相似性的度量。Pearsoncorrelation:相關(guān)系數(shù),用于R型聚類。Chebychev:Chebychev(切貝雪夫)距離,兩觀察單位間的距離為指標(biāo)的差值中絕對值最大者,用于Q型聚類。Block:City-Block或Manhattan(絕對值或布洛克)距離,即兩觀察單位間的距離為其值之差的絕對值和,用于Q型聚類。Minkowski:(明考斯基)距離是一個絕對冪的度量,即變量絕對值的第p次冪之和的p次根,p由用戶指定。Customized:(用戶自定義距離)距離是一個絕對冪的度量,即變量絕對值的第p次冪之和的第r次根,p、r由用戶指定。③TransformValues標(biāo)準(zhǔn)化方法選項None:不進行標(biāo)準(zhǔn)化。Zscores:標(biāo)準(zhǔn)化Z分?jǐn)?shù)(均值為0,標(biāo)準(zhǔn)差為1)。Range–1to1:將數(shù)值標(biāo)準(zhǔn)化到-1到+1范圍內(nèi),對每個值用正在被標(biāo)準(zhǔn)化的變量值的范圍去除。Maximummagnitude:將數(shù)值標(biāo)準(zhǔn)化到最大值1,對正在標(biāo)準(zhǔn)化的變量的值用最大值去除。Range0to1:將數(shù)值標(biāo)準(zhǔn)化到0到1的范圍內(nèi),對正在被標(biāo)準(zhǔn)化變量的值減去正在被標(biāo)準(zhǔn)化變量的最小值,然后除以范圍。Meanof1:將數(shù)值標(biāo)準(zhǔn)化到一個均值的范圍,對正在被標(biāo)準(zhǔn)化變量的值除以正在被標(biāo)準(zhǔn)化變量的值的均值。Standarddeviationof1:將數(shù)值標(biāo)準(zhǔn)化到單位標(biāo)準(zhǔn)差,對每個值除以正在被標(biāo)準(zhǔn)化變量的標(biāo)準(zhǔn)差。Byvariable:對指標(biāo)進行標(biāo)準(zhǔn)化。Bycase:對樣品進行標(biāo)準(zhǔn)化。④TransformMeasures測度轉(zhuǎn)換方法選項AbsoluteValues:將距離取絕對值,當(dāng)數(shù)值符號表示相關(guān)方向,且只關(guān)心數(shù)值大小時使用該方法。Changesign:將相似性值變?yōu)椴幌嗨菩灾祷蛳喾矗们蠓吹姆椒ㄊ咕嚯x順序顛倒。Rescaleto0~1range:使距離取值于0~1之間,首先減去最小值,然后除以范圍,使距離標(biāo)準(zhǔn)化。1.8Save按鈕圖8.2.5Save對話框①None:不建立新變量。②Singlesolution:生成一個新變量,標(biāo)明每個樣品最后所屬的類,在該項后面的矩形框中指定類數(shù)。③Rangeofsolutions:指定范圍內(nèi)的結(jié)果,生成若干個新變量,標(biāo)明聚為若干類時,每個樣品最后所屬的類。2.應(yīng)用舉例例8.2.1某學(xué)校為了了解教育專業(yè)的課程結(jié)構(gòu),隨機抽取30人,試對這30人的16門主要課程成績進行R型聚類分析。([1]P363)表8.2.130人16門課成績序x1x2x3x4x5x6x7x8x9x10x11x12x13x14x15x16186838683809075879085848682758870277908979787275849078828584658376360748772788660888564677282508360473788788859470899086799085828790570778590818175889073827183777574662808771877760878481828175628280767648373838167858363567584838057873757579789077888084756581548170977758990867983919077797981627485108490908585877293848691758486908011758590788185869094798493916785801264719076928078909081788486889084137575857481786483869273768469748514867790898090738692888887908890811569748077807774878484816980647365166076878781758282866170758160786617747592818280707281817481864683801864758382747966858486788078727860196891899385938291908483868179878220758083788582657882727974906073732172808683748270808260686773507760227175858576835079908169758454818823748280748076638281796880826184802478738378858060847472758480368877258282898585858080878683788363767226679089918087759083838085816790582769838966857770898880828273547073288482878086926289898281889073868429838785848587809192818587906376943063768082768684857666738083628170其中:x1:英語,x2:外教史,x3:中教史,x4:教育概論,x5:教學(xué)論,x6:小教法,x7:馬列論作,x8:德育,x9:教育心理,x10:發(fā)展心理,x11:普通心理,x12:心理學(xué)流派,x13:實驗心理,x14:人體解剖,x15:教育測驗,x16:教育統(tǒng)計選擇“Analyze”→“Classify”→“HierarchicalCluster”項,將16個變量放入“Variables”框,選擇“Variables”項,對指標(biāo)進行聚類;保留“Display”中的選項,輸出統(tǒng)計量與圖形;按“Statistics”按鈕,保留默認(rèn)項“Agglomerationschedule”,顯示聚類過程中每一步合并的類,再選擇“Proximtymatrix”,輸出相關(guān)系數(shù)矩陣;在“Rangeofsolutions”中輸入3、5,給出3、4、5類的結(jié)果;按“Plots”按鈕,選擇“Dendrogram”,輸出聚類譜系圖,保留默認(rèn)項“Allclusters”與“Vertical”,圖中顯示聚類的每一步,縱向顯示冰柱圖;按“Method”按鈕,在“Interval”框中選擇相關(guān)系數(shù)項“Pearsoncorrelation”,在“ClusterMethod”中先用默認(rèn)項類間平均法“Between-groupsLinkage”進行試聚,數(shù)據(jù)不進行標(biāo)準(zhǔn)化,結(jié)果如下。表8.2.2相關(guān)系數(shù)CaseX2X3X4X5X6X7X8X9X10X11X12X13X14X15X16X1.358.175.240.171.351.058.038.277.461.509.306.461.158.180.450X21.365.302.055.242.283.307.305.329.645.401.057.111.224.214X31.238.389.050.175.093.542.166.397.511.164.249.291.266X41-.092.458.419.127.276.135.327.143.210.302.251.148X51.072.121.332.233.225.335.371.236.288.137.500X61.151.373.209.268.288.285.368.345.480.183X71.351.266-.005.372.193.144.276-.021-.015X81.387.230.454.295.013.495.263.146X91.357.448.440.373.522.034.451X101.629.368.208.369.208.490X111.437.218.345.184.404X121.409.304.508.480X131.360.285.464X141.351.164X151.150X161表8.2.3聚類凝聚過程表(1)AgglomerationScheduleStageClusterCombinedCoefficients(相關(guān)系數(shù))StageClusterFirstAppearsNextStageCluster1Cluster2Cluster1Cluster21211.645006239.54200931215.50800124516.50000105814.4950011表8.2.3聚類凝聚過程表(2)AgglomerationScheduleStageClusterCombinedCoefficients(相關(guān)系數(shù))StageClusterFirstAppearsNextStageCluster1Cluster2Cluster1Cluster26210.4791097113.4610010846.4580014923.3406(“2”2(“3”121015.33074131178.314051412212.31093131312.2921012151447.286811151514.22413140表中“Stage”為聚類的步驟,“ClusterCombined”標(biāo)明哪一步哪兩類合并,新類序號取兩類中較小的,如在第1步中,第2類與第11類合并,相關(guān)系數(shù)為0.645最大,新類取“2”?!癝tageClusterFirstAppears”表示合并的類首次出現(xiàn)的步數(shù),如在第6步中“Cluster1”的值為1,表示合并的兩項中第1項是在第1步首次生成的新類。“NextStage”表示合并的類又被合并為新類的步驟數(shù),如第1行的數(shù)字6表示第1步生成的新類將在第6步再次合并。表8.2.4分類結(jié)果ClusterMembershipCase5Clusters4Clusters3ClustersX1111X2221X3221X4332X5111X6332X7443X8443X9221X10221X11221X12521X13111X14443X15521X16111表中為聚為5、4、3類分別包括的變量。如變量x1、x5、x13與x16合并為第1類;變量x12與x15合并為第5類。下面給出聚類譜系圖,選擇合適的分類標(biāo)準(zhǔn)進行分類?;蚴歉鶕?jù)表8.2.4取分為5類的結(jié)果。X2X11X10X3X9X12X15X5X16X1X13X4X6X8X14X7圖8.2.6分類標(biāo)準(zhǔn)取為0.311,則分為5類:第1類:x1,x5,x13,x16第2類:x2,x3,x9,x10,x11第3類:x4,x6第4類:x7,x8,x14第5類:x12,x15下面是用重心法“CentroidClustering”聚類的結(jié)果。表8.2.5ClusterMembershipCase5Clusters4Clusters3ClustersX1111X2222X3331X4443X5111X6443X7543X8543表8.2.5ClusterMembershipCase5Clusters4Clusters3ClustersX9331X10222X11222X12331X13111X14543X15331X16111分為5類的結(jié)果:第1類:x1,x5,x13,x16第2類:x2,x10,x11第3類:x3,x9,x12,x15第4類:x4,x6第5類:x7,x8,x14下面是用最遠(yuǎn)鄰居法“Furthestneighbor”聚類的結(jié)果。表8.2.6ClusterMembershipCase5Clusters4Clusters3ClustersX1111X2221X3332X4111X5332X6111X7443X8443X9332X10221X11221X12521X13111X14443X15521X16332分為5類的結(jié)果:第1類:x1,x4,x6,x13第2類:x2,x10,x11第3類:x3,x5,x9,x16第4類:x7,x8,x14第5類:x12,x15分為4類的結(jié)果:第1類:x2,x11,x10,x12,x15第2類:x1,x13,x4,x6第3類:x7,x8,x14第4類:x3,x9,x5,x16根據(jù)專業(yè)知識分析,確定一種聚類結(jié)果。我們以最遠(yuǎn)鄰居法分為4類的結(jié)果為例進行計算,確定典型指標(biāo)。為了說明計算步驟,以第2類為例,根據(jù)公式:Σr2R2=k-1 r1132+r142+r1620.4612+0.242+0.3512x1:R2===0.1314-13r1312+r1342+r13620.4612+0.212+0.3682x13:R2===0.1314-13r412+r4132+r4620.242+0.212+0.4582x4:R2===0.1044-13r612+r6132+r6420.3512+0.3682+0.4582x6:R2===0.1564-13其中,x6的R2=0.156最大,故選x6作為該類的典型指標(biāo)。其它類的計算留給讀者。上述聚類結(jié)果將16項指標(biāo)聚成了4類,損失的信息較多,下面重新聚類。選用最遠(yuǎn)鄰居法,對數(shù)據(jù)進行Z分?jǐn)?shù)變換,即在“Method”→“TransformValues”中選擇“Zscores”項,再選擇“Byvariable”項,在“Statistics”→”Rangeofsolutions”中輸入8、12,結(jié)果如下。表8.2.7ClusterMembershipCase12Clusters11Clusters10Clusters9Clusters8ClustersX111111X222222X333333X444444X555555表8.2.7ClusterMembershipCase12Clusters11Clusters10Clusters9Clusters8ClustersX666644X777766X888877X933333X1099982X1122222X1210101098X131111111X14128877X1510101098X1655555取8類的結(jié)果:第1類:x1英語,x13實驗心理第2類:x2外教史,x10發(fā)展心理,x11普通心理第3類:x3中教史,x9教育心理第4類:x4教育概論,x6小教法第5類:x5教學(xué)論,x16教育統(tǒng)計第6類:x7馬列論作第7類:x8德育,x14人體解剖第8類:x12心理學(xué)流派,x15教育測驗除了第2類包含3個指標(biāo)需要計算典型指標(biāo)外,其余可根據(jù)專業(yè)知識任選一個作為典型指標(biāo),最后確定出8個指標(biāo)。我們先給出一個分類結(jié)果,讀者也可根據(jù)專業(yè)知識進行調(diào)整。先計算第2類的典型指標(biāo):x2:R2=0.2621,x10:R2=0.2519,x11:R2=0.4058最大,故取x11作為典型指標(biāo)。第1類:x1英語第2類:x11普通心理第3類:x9教育心理第4類:x4教育概論第5類:x16教育統(tǒng)計第6類:x7馬列論作第7類:x14人體解剖第8類:x15教育測驗以上是對指標(biāo)進行的分類,下面對樣品進行分類。例8.2.2對上例進行Q型聚類分析,即對樣品分類,要求聚為3類。對樣品的分類,一般是分為3類:“好、中、差”,或是分為5類:“好、較好、中等、較差、差”。對指標(biāo)的分類,分類數(shù)要視指標(biāo)個數(shù)的多少并結(jié)合專業(yè)知識確定。選擇“Analyze”→“Classify”→“HierarchicalCluster”項,將16個變量放入“Variables”框,選擇“Cases”項,對樣品進行聚類;保留“Display”中的選項,輸出統(tǒng)計量與圖形;按“Statistics”按鈕,保留默認(rèn)項“Agglomerationschedule”,顯示聚類過程中每一步合并的類,再選擇“Proximtymatrix”,輸出距離矩陣;在“Singlesolution”中輸入3,聚為3類;按“Plots”按鈕,選擇“Dendrogram”,輸出聚類譜系圖,保留默認(rèn)項“Allclusters”與“Vertical”,圖中顯示聚類的每一步,縱向顯示冰柱圖;按“Method”按鈕,在“Interval”框中選擇歐氏距離“Euclideandistance”,在“ClusterMethod”中先用最近鄰居法“Nearestneighbor”進行試聚;按“Save”按鈕,在“Singlesolution”中輸入3,標(biāo)明每個樣品所屬的類,結(jié)果如下。表8.2.8AgglomerationScheduleStageClusterCombinedCoefficients(歐氏距離)StageClusterFirstAppearsNextStageCluster1Cluster2Cluster1Cluster21151820.4940062163020.8330025342820.928007462721.7720016511421.932007681522.068011971422.091538811922.29370109132322.58300151012522.84780131121122.89100121222922.913110171311023.13010014141923.4731301715132023.51690161661323.53741520171224.021141218181524.71817019191825.45618620201625.5151916232132125.807002522172425.94200242312226.153200242411726.3442322262531626.62721228表8.2.8AgglomerationScheduleStageClusterCombinedCoefficients(歐氏距離)StageClusterFirstAppearsNextStageCluster1Cluster2Cluster1Cluster22611227.148240272712627.89326028281329.155272529291738.8072800根據(jù)歐氏距離的大小,第15、18號樣品首先聚為一類,其次是第16、30號樣品,…,最后是第1、7號樣品聚為一類。表8.2.9ClusterMembershipCase3ClustersCase3Clusters111622117132181411915120161212732218123191241101251111261121271131281141291151302由上表中知,第1類人數(shù)太多,第3類只有1人,效果不理想。將數(shù)據(jù)進行標(biāo)準(zhǔn)化變換后試聚,即在“Method”→“TransformValues”中選擇“Zscores”項,再選擇“Bycase”項,第3類仍只有1人,效果也不理想。用最長距離法(Furthestneighbor)試聚,保留歐氏距離“Euclideandistance”,對數(shù)據(jù)進行標(biāo)準(zhǔn)化,結(jié)果如下。表8.2.10ClusterMembershipCase3ClustersCase3Clusters1:Case1116:Case1632:Case2217:Case172表8.2.10ClusterMembershipCase3ClustersCase3Clusters3:Case3318:Case1814:Case4119:Case1935:Case5320:Case2026:Case6221:Case2137:Case7122:Case2228:Case8123:Case2329:Case9224:Case24210:Case10125:Case25211:Case11226:Case26112:Case12127:Case27213:Case13228:Case28214:Case14129:Case29215:Case15130:Case303第1類有10人,第2類有14人,第3類有6人,每類所含的人數(shù)不太均勻。用離差平方和法(Ward’smethod)試聚,保留歐氏距離“Euclideandistance”,對數(shù)據(jù)進行標(biāo)準(zhǔn)化,結(jié)果見表8.2.11表8.2.11ClusterMembershipCase3ClustersCase3Clusters1:Case1116:Case1612:Case2217:Case1723:Case3118:Case1814:Case4319:Case1915:Case5120:Case2026:Case6221:Case2117:Case7322:Case2238:Case8123:Case2339:Case9224:Case24210:Case10125:Case25211:Case11226:Case26112:Case12327:Case27213:Case13328:Case28314:Case14329:Case29215:Case15130:Case301第1類有12人:16,30,3,21,5,19,8,15,18,26,1,10第2類有10人:17,24,20,25,9,29,6,27,2,11第3類有8人:7,12,22,23,28,13,4,14下面是聚類譜系圖。172420259296272111630321519815182611071222232813414圖8.2.7該結(jié)果較為合理,讀者還可用其它方法試聚。雖聚類結(jié)果已出,但還有兩個問題需要解決:①計算結(jié)果速度較慢,特別是樣本含量大時尤為突出。②Q型聚類分析的目的,不僅僅是知道每類所含的人數(shù),還要對類進行評價,即分出“好”、“中”、“差”等級。下面先解決第②個問題,下一節(jié)解決第①個問題。下面對分類的結(jié)果進行評價:先計算各指標(biāo)的平均數(shù)。選擇“Analyze”→“Reports”→“CaseSummaries”,將16個變量移至“Variables”框,分組變量Clu3_1移至“GroupingVariables”框。不選中“Displaycases”,按“Statistics”按鈕,將“Mean”移至“CellStatistics”框,不選擇“Options”按鈕中的各項。計算結(jié)果見表8.2.1表8.2.1216個指標(biāo)的平均數(shù)及排序結(jié)果類別nx1x2x3x4x5x6x7x811269.780.184.883.779.384.474.387.0③②③①③①①①21075.281.087.679.083.980.472.984.6①①①③①③②③3874.375.585.979.982.984.365.985.4②③②②②②③②類別nx9x10x11x12x13x14x15x1611284.576.377.775.980.866.381.867.9③③②③③②②③21086.278.780.582.483.357.879.079.0②②①①②③③②3887.681.574.081.985.674.884.081.1①①③②①①①①本例指標(biāo)為各門課的成績,數(shù)字愈大愈好,將上述3類排序,統(tǒng)計“第①”等的個數(shù),根據(jù)其結(jié)果,第3類6個“第①”等,第2類也是6個“第①”等,第1類4個“第①”等,劃分為“差”等。對于第3與第2類,參考“第③”等的個數(shù),第3類3個“第③”等,第2類5個“第③”等,故將第3類劃分為“上”等,將第2類劃分為“中”等。本例等級的劃分根據(jù)的是“第①”等與“第③”等的個數(shù),還應(yīng)結(jié)合其它的方法進行劃分,使結(jié)果盡量合理。這里推薦幾種方法供參考:①將這3類的平均數(shù)排序,按“第①”等的個數(shù)的多少進行劃分。②將這3類的平均數(shù)作為原始數(shù)據(jù)進行標(biāo)準(zhǔn)化,對標(biāo)準(zhǔn)化的和數(shù)進行排序。③本例難于劃分等級的原因之一是指標(biāo)較多,可用R型聚類分析或因子分析先將指標(biāo)減少,然后再用本方法。④對已經(jīng)聚好的3類,可用判別分析進行判別,結(jié)合散點圖進行評價。⑤探討、研究其它的方法。下面對第②種方法進行計算說明:將表8.2.12的平均數(shù)建立SPSS文件,選擇“Analyze”→“DescriptiveStatistics”→“Descriptives”項,計算3類平均數(shù)的平均數(shù)、標(biāo)準(zhǔn)差,見表8.2.13。再選擇“Transform”→“Compute”第1類:-4.36,第2類:0.94,第3類:3.42。根據(jù)該結(jié)果,將第3類劃分為“上”等,第2類劃分為“中”等,第1類劃分為“差”等,與上面的結(jié)果是一致的。表8.2.1CaseSummaries指標(biāo)X1X2X3X4X5X6X7X8平均數(shù)73.066778.866786.100080.866782.033383.033371.033385.6667標(biāo)準(zhǔn)差2.95012.95011.41072.49472.41942.28114.50041.2220指標(biāo)X9X10X11X12X13X14X15X16平均數(shù)86.100078.833377.400080.066783.233366.300081.600076.0000標(biāo)準(zhǔn)差1.55242.60263.26043.61712.40078.50002.50607.0930第三節(jié)快速樣品聚類法用上一節(jié)的方法對樣品聚類時,若樣本較大,則速度較慢。當(dāng)所要聚的類數(shù)已知,并且易選定每類的代表性樣品時(不選時系統(tǒng)本身選定),可用快速樣品聚類法(K-MeansCluster)進行聚類,其特點是處理速度快,占用內(nèi)存少。聚類時,以事先選定的代表性樣品為聚類中心點,按照聚類原則將樣品聚到各類中去,形成第1次聚類結(jié)果,然后調(diào)整聚類中心點,形成第2次聚類結(jié)果,如此下去,直至聚類完畢或達(dá)到所指定的聚類(迭代)次數(shù)為止。1.SPSS軟件計算步驟選擇“Analyze”→“Classify”→“K-MeansCluster”項。彈出如圖8.3.1所示的對話框。圖8.3.1快速樣品聚類分析對話框1.1Variables欄存放聚類變量。1.2LabelCasesby欄存放標(biāo)識變量,如用指標(biāo)名稱、編號、姓名來標(biāo)明各樣品最后聚到哪一類,不指定時,系統(tǒng)自動將序號作為標(biāo)識變量。1.3NumberofClusters框輸入分類數(shù)。1.4Method方法Iterateandclassify:先指定初始類別中心點,而后按“K-means”算法作迭代分類,調(diào)整聚類中心點。Classifyonly:僅按初始類別中心點分類。1.5ClusterCenters選項Readinitialfrom:要求使用指定數(shù)據(jù)文件中的觀測值作為初始類中心。選擇該項,事先要建立一個數(shù)據(jù)文件,其中觀測值的個數(shù)要與聚的類數(shù)相等;還要增加一個聚類變量,指明觀測值是哪一類的中心點。Writefinalas:要求將聚類結(jié)果中的各類中心數(shù)據(jù)保存到指定的文件中。1.6Iterate按鈕圖8.3.2Iterate對話框設(shè)置迭代參數(shù)對話框。MaximumIterations:限定“K-means”算法的迭代次數(shù),選擇范圍為1~999。ConvergenceCriterion:限定“K-means”算法的收斂標(biāo)準(zhǔn),記為N,其值范圍為0~1,當(dāng)兩次迭代計算的最小的類中心的變化距離小于初始類中心距離的N%時,迭代停止。以上兩個參數(shù)只要在迭代過程中滿足了一個,迭代就停止,“ConvergenceCriterion”設(shè)置為0,則以“MaximumIterations”設(shè)置的迭代次數(shù)為停止的依據(jù)。Userunningmeans:每個觀測值被分配到一類后,接著計算新的分類中心,不選該項,在完成所有觀測值的一次分配后,再計算新的分類中心。選該項要多占用一些時間,尤其是樣本含量較大時。1.7Save按鈕ClusterMembership:建立一個新變量,默認(rèn)名為qcl_1,其值表示各觀測值被分配到的類別。Distancefromclustercenter:建立一個新變量,默認(rèn)名為qcl_2,其值表示各觀測值距所屬類中心的歐氏距離。圖8.3.3Save對話框1.8Options按鈕圖8.3.4Options對話框輸出統(tǒng)計量對話框。①Statistics選項Initialclustercenters:顯示聚類的初始類中心。ANOVAtable:方差分析表。Clusterinformationforeachcase:顯示每個觀測值所屬的類別與距所屬類中心點的距離。②MissingValues選項缺失值的處理方法。2.應(yīng)用舉例例8.3.1仍以例8.2.1選擇“Analyze”→“Classify”→“K-MeansCluster”項。將16個變量放入“Variables”框,在“Numberof”中輸入分類數(shù)3,在“Method”中選擇“Iterateandclassify”項,指定初始類別中心點,按“K-means”算法作迭代分類調(diào)整聚類中心點,在“Save”中選擇“ClusterMember”項,建立一個新變量,表示各觀測值被分配到的類別,在“Options”中選擇“Initialclustercenters”、“ANOVAtable”與“Clusterinformationforeachcase”項,顯示聚類的初始類中心、方差分析表與每個觀測值所屬的類別與距所屬類中心點的距離,聚類結(jié)果如下。表8.3.1InitialClusterCentersCluster1(14號樣品)2(7號樣品)3(24號樣品)X1866778X2776473X3908383X4897378X5808385X6908180X7736760X8868584X9928374X10886372X11885675X12877584X13908480X14888336X15908088X16815777該表是系統(tǒng)指定的初始類別中心點。表8.3.2IterationHistoryIterationChangeinClusterCenters123123.30428.56224.8502.000.000.000aConvergenceachievedduetonoorsmalldistancechange.Themaximumdistancebywhichanycenterhaschangedis.000.Thecurrentiterationis2.Theminimumdistancebetweeninitialcentersis59.775.本例迭代次數(shù)為2,第一次迭代后的類中心點與初始類中心點的距離分別為:23.304,28.562,24.850,第二次迭代后類中心點無發(fā)生變化或變化很小,初始中心點之間的最小距離為59.775。 表8.3.3ClusterMembershipCaseNumberClusterDistance1116.3902120.695 表8.3.3ClusterMembershipCaseNumberClusterDistance3325.5484120.2265122.4436322.1887228.5628324.6079122.99610123.28011119.86312127.69813127.50414123.30415219.42616219.82817320.29118219.98419120.44120317.42221327.65022325.39923316.61124324.85025119.85826128.91527324.14828119.42229123.18230218.697第1類含15個樣品,第2類含5個樣品,第3類含10個樣品,不是很均勻。第1類:1,2,4,5,9,10,11,12,13,14,19,25,26,28,29第2類:7,15,16,18,30第3類:3,6,8,17,20,21,22,23,24,27表中“Distance”為樣品離類中心點的距離。表8.3.4FinalClusterCentersCluster(不再是原樣品值)123X1776571X2827378X3888385X4848077X5837981X6858081X7757565X8888583X9898383X10837275X11827274X12837676X13858181X14746853X15837880X16806474 表8.3.DistancesbetweenFinalClusterCentersCluster123131.61731.716231.61723.748331.71623.748第一類中心點與第二類中心點、第三類中心點的距離分別為:31.617,31.716,第二類中心點與第三類中心點的距離為23.748。表8.3.6ANOVAClusterErrorFSig.MeanSquaredfMeanSquaredfX1304.067240.212277.562.002X2174.833230.241275.781.008X367.350210.863276.200.006X4177.233233.786275.246.012X543.333215.338272.825.077X684.167229.283272.874.074表8.3.6ANOVAClusterErrorFSig.MeanSquaredfMeanSquaredfX7379.083252.409277.233.003X891.367217.135275.332.011X9156.833213.3722711.729.000X10288.083255.309275.209.012X11312.567234.586279.037.001X12201.817237.075275.443.010X1366.750217.896273.730.037X141328.683278.9812716.823.000X1566.083232.859272.011.153X16492.017270.720276.957.004TheFtestsshouldbeusedonlyfordescriptivepurposesbecausetheclustershavebeenchosentomaximizethedifferencesamongcasesindifferentclusters.Theobservedsignificancelevelsarenotcorrectedforthisandthuscannotbeinterpretedastestsofthehypothesisthattheclustermeansareequal.對聚類結(jié)果類別間距離進行方差分析,P<0.05表明指標(biāo)在各類的均值不同;P>0.05表明指標(biāo)在各類的均值沒有不同。X9與X14的P=0.000<0.01,說明對這兩個指標(biāo),3類之間的差異高度顯著;X5、X6與X15的P>0.05,說明對這三個指標(biāo),3類之間的差異不顯著。各類的樣品數(shù)見表8.3.表8.3.7NumberofCasesineachClusterCluster115.00025.000310.000Valid30.000Missing.000在計算過程中,選擇了“Save”按鈕中的“ClusterMember”項,因此,在數(shù)據(jù)文件中建立了一個新變量,表示各觀測值被分配到的類別,見數(shù)據(jù)文件。下面指定初始類中心,選第1、2、3號樣品作為3類的初始類中心,重新聚類。首先建立一個初始類中心文件,格式與內(nèi)容見表8.3.8表8.3Cluster_x1x2x3x4x5x6x7x8x9x10x11x12x13x14x15x16186838683809075879085848682758870277908979787275849078828584658376360748772788660888564677282508360“Cluster_”為聚類變量名,注意只能用該名。選擇“Analyze”→“Classify”→“K-MeansCluster”項。將16個變量放入“Variables”框,在“Numberof”中輸入分類數(shù)3,在“Method”中選擇“Iterateandclassify”項,指定初始類別中心點,按“K-means”算法作迭代分類調(diào)整聚類中心點,在“ClusterCenters”中選擇“Readinitialfrom”項后,按“File”按鈕,打開指定的文件,在“Save”中選擇“C

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論