




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
聚類分析主講人:陳建紅通信地址:青海省西寧市寧張路97號經(jīng)濟系聯(lián)系電話類學(xué)是人類認(rèn)識世界的基礎(chǔ)科學(xué)。聚類分析是研究事物分類的基本方法,廣泛地應(yīng)用于自然科學(xué)、社會科學(xué)、工農(nóng)業(yè)生產(chǎn)的各個領(lǐng)域。分類俗語說,物以類聚、人以群分。但什么是分類的根據(jù)呢?比如,要想把中國的縣分成若干類,就有很多種分類法;可以按照自然條件來分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項來分類,也可以同時考慮多項指標(biāo)來分類。聚類分析1什么是聚類分析聚類分析起源于分類學(xué),在考古的分類學(xué)中,人們主要依靠經(jīng)驗和專業(yè)知識事項分類。形成數(shù)值分類學(xué)。大量的例子:對我國30個省市自治區(qū)獨立核算工業(yè)企業(yè)經(jīng)濟效益的分析;對某些大城市物價指數(shù)考核等。值得提出的是將聚類分析和其他方法聯(lián)系起來使用,如判別分析、主成分分析、回歸分析等效果更好。聚類分析有系統(tǒng)聚類法、有序樣品聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報法等。一般用的是系統(tǒng)聚類法。1什么是聚類分析根據(jù)事物本身的特性研究個體分類的方法,原則是同一類中的個體有較大的相似性,不同類中的個體差異很大。根據(jù)分類對象的不同,分為樣品(觀測量)聚類和變量聚類兩種:樣品聚類:對觀測量(Case)進行聚類(不同的目的選用不同的指標(biāo)作為分類的依據(jù),如選拔運動員與分課外活動小組)變量聚類:找出彼此獨立且有代表性的自變量,而又不丟失大部分信息。在生產(chǎn)活動中不乏有變量聚類的實例,如:衣服號碼(身長、胸圍、褲長、腰圍)、鞋的號碼。變量聚類使批量生產(chǎn)成為可能。1什么是聚類分析比如學(xué)生成績數(shù)據(jù)就可以對學(xué)生按照理科或文科成績(或者綜合考慮各科成績)分類,當(dāng)然,并不一定事先假定有多少類,完全可以按照數(shù)據(jù)本身的規(guī)律來分類。本部分主要介紹的分類的方法稱為聚類分析(clusteranalysis)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對稱的,沒有什么不同。如何度量遠(yuǎn)近?如果想要對100個學(xué)生進行分類,如果僅僅知道他們的數(shù)學(xué)成績,則只好按照數(shù)學(xué)成績來分類;這些成績在直線上形成100個點。這樣就可以把接近的點放到一類。如果還知道他們的物理成績,這樣數(shù)學(xué)和物理成績就形成二維平面上的100個點,也可以按照距離遠(yuǎn)近來分類。三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數(shù)據(jù)中,每種飲料都有四個變量值。這就是四維空間點的問題了。如何度量遠(yuǎn)近?判斷關(guān)系方法一種方法用相似系數(shù)另一種方法將一個樣本看作是P維空間的一個點,并在空間定義距離,距離越近的點歸為一類。變量類型:scale、nominal、0rdinal。兩個距離概念按照遠(yuǎn)近程度來聚類需要明確兩個概念:一個是點和點之間的距離,一個是類和類之間的距離。點間距離有很多定義方式。最簡單的是歐氏距離,還有其他的距離。當(dāng)然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點越相似度越大,就相當(dāng)于距離越短。由一個點組成的類是最基本的類;如果每一類都由一個點組成,那么點間的距離就是類間距離。但是如果某一類包含不止一個點,那么就要確定類間距離,類間距離是基于點間距離定義的:比如兩類之間最近點之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠(yuǎn)點之間的距離作為這兩類之間的距離;當(dāng)然也可以用各類的中心之間的距離來作為類間距離。在計算時,各種點間距離和類間距離的選擇是通過統(tǒng)計軟件的選項實現(xiàn)的。不同的選擇的結(jié)果會不同,但一般不會差太多。2距離與相似系數(shù)距離:
Minkowski距離
q=1,絕對距離;q=2,歐氏距離;q=∞,切比雪夫距離。
Mahalanobis距離
Canberra距離相似系數(shù):夾角余弦和相關(guān)系數(shù)向量x=(x1,…,xp)與y=(y1,…,yp)之間的距離或相似系數(shù):歐氏距離:Euclidean平方歐氏距離:SquaredEuclidean夾角余弦(相似系數(shù)1):cosinePearsoncorrelation(相似系數(shù)2):Chebychev:Maxi|xi-yi|Block(絕對距離):Si|xi-yi|Minkowski:當(dāng)變量的測量值相差懸殊時,要先進行標(biāo)準(zhǔn)化.如R為極差,s為標(biāo)準(zhǔn)差,則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個觀測值減去均值后再除以R或s.當(dāng)觀測值大于0時,有人采用Lance和Williams的距離類Gp與類Gq之間的距離Dpq
(d(xi,xj)表示點xi∈Gp和xj∈Gq之間的距離)最短距離法:最長距離法:重心法:離差平方和:(Wald)類平均法:(中間距離,可變平均法,可變法等可參考各書).在用歐氏距離時,有統(tǒng)一的遞推公式(假設(shè)Gr是從Gp和Gq合并而來):Lance和Williams給出(對歐氏距離)統(tǒng)一遞推公式:D2(k,r)=apD2(k,p)+aqD2(k,q)+bD2(p,q) +g|D2(k,p)-D2(k,q)|前面方法的遞推公式可選擇參數(shù)而得:方法 ai(i=p,q) b
g最短距離 ? 0 -1/2最長距離 ? 0 1/2重心 ni/nr -apaq 0類平均 ni/nr 0
0
離差平方和(ni+nk)/(nr+nk)
-nk/(nr+nk)
0
中間距離 1/2
-1/4
0
可變法 (1-b)/2
b(<1)
0
可變平均 (1-b)ni/nr
b(<1)
0
有了上面的點間距離和類間距離的概念,就可以介紹聚類的方法了。這里介紹兩個簡單的方法。3幾種系統(tǒng)聚類方法最短距離法最長距離法中間距離法重心法類平均法可變平均法可變法離差平方法最短距離法舉例設(shè)抽取五個樣品,每個樣品只測一個指標(biāo)。它們是1、2、3.5、7、9、現(xiàn)采用最短距離法對五個樣品進行分類。(1)定義樣品間距離采用絕對距離,計算樣品兩兩之間的距離,得距離矩陣D(0)表1G1={X1}G2={X2}G2={X2}G4={X4}G5={X5}G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520最短距離法舉例(2)找出中非對角線最小元素是1,即,則將并成一個新類,記為G6={X1,X2}。(3)計算新類G6與其它類之間的距離,按公式Di6=min(Di1,Di2)(i=3,4,5)
取前兩列較小的一列再計算樣品兩兩之間的距離,得距離矩陣D(1)表2G6G3G4G5G6={X1,X2}0G3={X3}1.50G4={X4}53.50G5={X5}75.520最短距離法舉例(4)找出D(1)中非對角線最小元素是1.5,則將G3和G6并成一個新類,記為G7={X1,X2,X3}。(3)計算新類G7與其它類之間的距離,按公式Di7=min(Di1,Di2,Di3)(i=4,5)
得距離矩陣D(2)表3G6G4G5G7={X1,X2,X3}0G4={X4}3.50G5={X5}5.520最短距離法舉例(5)找出D(2)中非對角線最小元素是2,則將G4和G5并成一個新類,記為G8={X4,X5}。(3)計算新類G8與其它類之間的距離,再按公式計算,
得距離矩陣D(3)表4G6G8G7={X1,X2,X3}0G8={X4
,X5}3.50結(jié)果圖01234x1x2x3x4x51.53.521G9G8G7G6由上圖可以看出分成兩類
{X1,X2
,X3}和{X4,X5}比較合適,在實際問題中有時回給出一個閥值T,要求類與類之間的距離小于T,因此有些樣品可能歸不到類中。4聚類分析的SPSS過程在AnalyzeClassify下:TwoStepCluster:兩步聚類是一個探索性的分析工具,可以確定最好的分析結(jié)果,可以分析次大數(shù)據(jù)文件。K-MeansCluster:觀測量快速聚類分析過程。HierarchicalCluster:分層聚類(進行觀測量聚類和變量聚類的過程。4.1快速樣本聚類過程(QuickCluster)使用k均值分類法對觀測量進行聚類可使用系統(tǒng)的默認(rèn)選項或自己設(shè)置選項,如分為幾類、指定初始類中心、是否將聚類結(jié)果或中間數(shù)據(jù)數(shù)據(jù)存入數(shù)據(jù)文件等??焖倬垲悓嵗?P342,data14-01a):使用系統(tǒng)的默認(rèn)值進行:對運動員的分類(分為4類)AnalyzeClassifyK-MeansClusterVariables:x1,x2,x3LabelCaseBy:noNumberofCluster:4比較有用的結(jié)果:聚類結(jié)果形成的最后四類中心點(FinalClusterCenters)和每類的觀測量數(shù)目(NumberofCasesineachCluster)但不知每個運動員究竟屬于哪一類?這就要用到Save選項4.1.1快速樣本聚類過程中的選項使用快速聚類的選擇項:類中心數(shù)據(jù)的輸入與輸出:Centers選項輸出數(shù)據(jù)選擇項:Save選項聚類方法選擇項:Method選項聚類何時停止選擇項:Iterate選項輸出統(tǒng)計量選擇項:Option選項4.1.2指定初始類中心的聚類方法數(shù)據(jù)同上(data14-01a):以四個四類成績突出者的數(shù)據(jù)為初始聚類中心(種子)進行聚類。類中心數(shù)據(jù)文件data14-01b(但缺一列Cluster_,不能直接使用,要修改)。對運動員的分類(還是分為4類)AnalyzeClassifyK-MeansClusterVariables:x1,x2,x3LabelCaseBy:noNumberofCluster:4Center:Readinitialfrom:data14-01bSave:Clustermembership和DistancefromClusterCenter比較有用的結(jié)果(可將結(jié)果與前面沒有初始類中心比較):聚類結(jié)果形成的最后四類中心點(FinalClusterCenters)每類的觀測量數(shù)目(NumberofCasesineachCluster)在數(shù)據(jù)文件中的兩個新變量qc1_1(每個觀測量最終被分配到哪一類)和qc1_2(觀測量與所屬類中心點的距離)4.2分層聚類(HierarchicalCluster)分層聚類方法:分解法:先視為一大類,再分成幾類凝聚法:先視每個為一類,再合并為幾大類可用于觀測量(樣本)聚類(Q型)和變量聚類(R型)一般分為兩步(自動,可從Paste的語句知道,P359):Proximities:先對數(shù)據(jù)進行的預(yù)處理(標(biāo)準(zhǔn)化和計算距離等)Cluster:然后進行聚類分析兩種統(tǒng)計圖:樹形圖(Dendrogram)和冰柱圖(Icicle)各類型數(shù)據(jù)的標(biāo)準(zhǔn)化、距離和相似性計算P348-354定距變量、分類變量、二值變量標(biāo)準(zhǔn)化方法p353:ZScores、Range-1to1、Range0to1等4.2.1用分層聚類法進行觀測量聚類對20種啤酒進行分類(啤酒數(shù)據(jù)),變量包括:Beername(啤酒名稱)、calorie(熱量)、sodium(鈉含量)、alcohol(酒精含量)、cost(價格)Analyze→Classify→HierarchicalCluster:Variables:calorie,sodium,alcohol,cost成分和價格LabelCaseBy:BeernameCluster:Case,Q聚類
Display:選中Statistics,單擊StatisticsAgglomerationSchedule凝聚狀態(tài)表Proximitymatrix:距離矩陣Clustermembership:Singlesolution:4顯示分為4類時,各觀測量所屬的類Method:
Cluster(FurthestNeighbor),Measure-Interval(SquaredEuclideandistance),TransformValue(Range0-1/Byvariable(值-最小值)/極差)Plots:(Dendrogram)
Icicle(Specifiedrangeofcluster,Start-1,Stop-4,by-1),Orientation(Vertical縱向作圖)Save:ClusterMembership(Singlesolution[4])比較有用的結(jié)果:根據(jù)需要進行分類,在數(shù)據(jù)文件中的分類新變量clu4_1等4.2.2用分層聚類法進行變量聚類變量聚類,是一種降維的方法,用于在變量眾多時尋找有代表性的變量,以便在用少量、有代表性的變量代替大變量集時,損失信息很少。與進行觀測量聚類雷同,不同點在于:選擇Variable而非CaseSave選項失效,不建立的新變量4.2.3變量聚類上面啤酒分類問題。Analyze→Classify→HierarchicalCluster:Variables:calorie,sodium,alcohol,cost成分和價格Cluster:Variable,R聚類
Method:ClusterMethod:FurthestNeighborMeasure-Interval:PearsonCorrelationTransformValues:ZScore(ByVariable)Plots:Dendrogram樹型圖Statistics:Proximitymatrix:相關(guān)矩陣比較有用的結(jié)果:根據(jù)相關(guān)矩陣和樹型圖,可知calorie(熱量)和alcohol(酒精含量)的相關(guān)系數(shù)最大,首先聚為一類。從整體上看,聚為三類是比較好的結(jié)果。至于熱量和酒精含量選擇哪個作為典型指標(biāo)代替原來的兩個變量,可以根據(jù)專業(yè)知識或測度的難易程度決定。14.3.6變量聚類實例有10個測試項目,分別用變量X1-X10表示,50名學(xué)生參加測試。想從10個變量中選擇幾個典型指標(biāo)。Analyze→Classify→HierarchicalCluster:Variables:
X1-X10Cluster:Variable,R聚類
Method:ClusterMethod:FurthestNeighborMeasure-Interval:PearsonCorrelationPlots:Dendrogram樹型圖Statistics:Proximitymatrix相關(guān)矩陣比較有用的結(jié)果:可以從樹型圖中看出聚類過程。具體聚為幾類最為合理,根據(jù)專業(yè)知識來定。而每類中的典型指標(biāo)的選擇,可用p370的相關(guān)指數(shù)公式的計算,然后比較類中各個變量間的相關(guān)指數(shù),哪個大,就選哪個變量作為此類的代表變量。飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉及價格四種變量事先要確定分多少類:k-均值聚類前面說過,聚類可以走著瞧,不一定事先確定有多少類;但是這里的k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求你先說好要分多少類。看起來有些主觀,是吧!假定你說分3類,這個方法還進一步要求你事先確定3個點為“聚類種子”(SPSS軟件自動為你選種子);也就是說,把這3個點作為三類中每一類的基石。然后,根據(jù)和這三個點的距離遠(yuǎn)近,把所有點分成三類。再把這三類的中心(均值)作為新的基石或種子(原來的“種子”就沒用了),重新按照距離分類。如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認(rèn)真,它們很可能最后還會分到同一類中呢。下面用飲料例的數(shù)據(jù)來做k-均值聚類。假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達(dá)到目標(biāo)了(計算機選的種子還可以)。這樣就可以得到最后的三類的中心以及每類有多少點
根據(jù)需要,可以輸出哪些點分在一起。結(jié)果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。SPSS實現(xiàn)(聚類分析)K-均值聚類以數(shù)據(jù)drink.sav為例,在SPSS中選擇Analyze-Classify-K-MenasCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入Variables,在NumberofClusters處選擇3(想要分的類數(shù)),如果想要知道哪種飲料分到哪類,則選Save,再選ClusterMembership等。注意k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數(shù)據(jù)陣進行轉(zhuǎn)置。事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統(tǒng)聚類(hierarchicalcluster)。開始時,有多少點就是多少類。它第一步先把最近的兩類(點)合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。顯然,越是后來合并的類,距離就越遠(yuǎn)。再對飲料例子來實施分層聚類。對于我們的數(shù)據(jù),SPSS輸出的樹型圖為聚類要注意的問題聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標(biāo)明確。
另外就分成多少類來說,也要有道理。只要你高興,從分層聚類的計算機結(jié)果可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各類距離盡可能的遠(yuǎn),而類中點的距離盡可能的近,而且分類結(jié)果還要有令人信服的解釋。這一點就不是數(shù)學(xué)可以解決的了。SPSS實現(xiàn)(聚類分析)分層聚類對drink.sav數(shù)據(jù)在SPSS中選擇Analyze-Classify-HierarchicalCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入Variables,在Cluster選Cases(這是Q型聚類:對觀測值聚類),如果要對變量聚類(R型聚類)則選Variables,為了畫出樹狀圖,選Plots,再點Dendrogram等。啤酒成分和價格數(shù)據(jù)(data14-02)啤酒名 熱量 鈉含量 酒精 價格Budweiser 144.00 19.00 4.70 .43Schlitz 181.00 19.00 4.90 .43Ionenbrau 157.00 15.00 4.90 .48Kronensourc 170.00 7.00 5.20 .73Heineken 152.00 11.00 5.00 .77Old-milnaukee 145.00 23.00 4.60 .26Aucsberger 175.00 24.00 5.50 .40Strchs-bohemi 149.00 27.00 4.70 .42Miller-lite 99.00 10.00 4.30 .43Sudeiser-lich 113.00 6.00 3.70 .44Coors 140.00 16.00 4.60 .44Coorslicht 102.00 15.00 4.10 .46Michelos-lich 135.00 11.00 4.20 .50Secrs 150.00 19.00 4.70 .76Kkirin 149.00 6.00 5.00 .79Pabst-extra-l 68.00 15.00 2.30 .36Hamms 136.00 19.00 4.40 .43Heilemans-old 144.00 24.00 4.90 .43Olympia-gold- 72.00 6.00 2.90 .46Schlite-light 97.00 7.00 4.20 .47Statistics→Classify→HierarchicalCluster:Variables:啤酒名和成分價格等C
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 墩身安全施工方案
- 永年冷庫施工方案
- 基礎(chǔ)回填土施工方案
- 化工廠施工方案
- 二零二五年度環(huán)??萍紗挝唤獬齽趧雍贤熬G色技術(shù)轉(zhuǎn)移協(xié)議
- 2025年度超市超市商品防損員勞動合同范本
- 二零二五年度蘇州市全日制勞動合同員工休息與休假規(guī)定合同
- 二零二五年度農(nóng)村土地占用與農(nóng)村文化傳承合同協(xié)議
- 二零二五年度婚姻忠誠保證協(xié)議:男方出軌責(zé)任書
- 二零二五年度個人車輛抵押汽車貸款合同續(xù)簽合同
- 第一課+追求向上向善的道德【中職專用】中職思想政治《職業(yè)道德與法治》高效課堂(高教版2023·基礎(chǔ)模塊)
- 浙江省杭州市2024年中考英語真題(含答案)
- 生豬屠宰獸醫(yī)衛(wèi)生檢驗人員理論考試題庫及答案
- 智慧醫(yī)院可行性研究報告
- ??怂箍等鴺?biāo)測量儀的使用課件
- 高血壓臨床路徑
- 鋁的陽極氧化和著色
- 《新媒體營銷》全套教學(xué)教案
- (新版)傳染病防治監(jiān)督試題庫(含答案)
- 信用社(銀行)清產(chǎn)核資實施方案
- 勾股定理求最短路徑問題
評論
0/150
提交評論