統(tǒng)計學從數據到結論-聚類分析_第1頁
統(tǒng)計學從數據到結論-聚類分析_第2頁
統(tǒng)計學從數據到結論-聚類分析_第3頁
統(tǒng)計學從數據到結論-聚類分析_第4頁
統(tǒng)計學從數據到結論-聚類分析_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統(tǒng)計學─從數據到結論第十一章聚類分析分類物以類聚、人以群分;但根據什么分類呢?如要想把中國的縣分類,就有多種方法可以按照自然條件來分,比如考慮降水、土地、日照、濕度等,也可考慮收入、教育水準、醫(yī)療條件、基礎設施等指標;既可以用某一項來分類,也可以同時考慮多項指標來分類。聚類分析對一個數據,既可以對變量(指標)進行分類(相當于對數據中的列分類),也可以對觀測值(事件,樣品)來分類(相當于對數據中的行分類)。當然,不一定事先假定有多少類,完全可以按照數據本身的規(guī)律來分類。本章要介紹的分類的方法稱為聚類分析(cluster

ysis)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為

Q型聚類。它們在數學上是無區(qū)別的。飲料數據(drink.txt

)16種飲料的熱量、

、鈉及價格四種變量如何度量距離遠近?如果想要對100個學生進行分類,而僅知道他們的數學成績,則只好按照數學成績分類;這些成績在直線上形成100個點。這樣就可以把接近的點放到一類。如果還知道他們的物理成績,這樣數學和物理成績就形成二維平面上的100個點,也可以按照距離遠近來分類。如何度量距離遠近?三維或者更的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。在飲料數據中,每種飲料都有四個變量值。這就是空間點的問題了。兩個距離概念按照遠近程度來聚類需要明確兩個概念:一個是點和點之間的距離,一個是類和類之間的距離。點間距離有很多定義方式。最簡單的是歐氏距離。當然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點越相似度越大,就相當于距離越短。兩個距離概念由一個點組成的類是最基本的類;如果每一類都由一個點組成,那么點間的距離就是類間距離。但是如果某一類包含不止一個點,那么就要確定類間距離,類間距離是基于點間距離定義的:比如兩類之間最近點之間的距離可以作為這兩類之間的距離,也可以用兩類中最遠點之間的距離或各類的中心之間的距離來作為類間距離。兩個距離概念在計算時,各種點間距離和類間距離的選擇是通過統(tǒng)計的選項實現的。不同的選擇的結果會不同,但一般不會差太多。2iii(x

y

)向量x=(x1,…,xp)與y=(y1,…,yp)之間的距離或相似系數:歐氏距離:Euclidean平方歐氏距離:Squared

Euclideani

ii(x

y

)2夾角余弦(相似系數1)

:cosine22iixyCxy(1)

cosxy

i

xi

yi

i

iChebychev:

Maxi|xi-yi|1(xi

yi

)

i

Minkowski:

當變量的測量值相差懸殊時,要先進行標準化.如R為極差,s

為標準差,則標準化的數據為每個觀測值減去均值后再除以R或s.當觀測值大于0時,有人采用Lance和Williams的距離1

|

xi

yi

|ip xi

yi2

2iii

iCxy(2)

rxy

i

(x

x

)(

y

y)Block(絕對距離):i|xi-yi|Pearsoncorrelation(相似系數2):(xi

x

)(

yi

y

)

類Gp與類Gq之間的距離Dpq(d(xi,xj)表示點xi∈Gp和xj

∈Gq之間的距離)最短距離法:

最長距離法:Dpq

min

d

(xi

,

xj

)重心法:離差平方和:(Wald)類平均法:(中間距離,可變平均法,可變法等可參考各書).在用歐氏距離時,

的遞推公式D1

(xixi

Gp

xp

)

'(xi

xp

),

D2

(xj

xq

)

'(x

j

xq

),x

j

Gq(xk

x

)

'(xi

x

)

Dpq

D12

D1

D2xk

Gp

GqD12

Dpq

max

d(xi

,

xj

)Dpq

min

d(xp

,

xq

)11pqD

n

n2

xi

Gp

x

j

Gq

d

(xi

,

xj

)最短距離(Nearest

Neighbor)x21?x12?x22?11x

?d13最長距離(Furthest

Neighbor

)???11x

?x21????d12??????d1

d99組間平均連接(Between-group

Linkage)組內平均連接法(Within-group

Linkage)d1

d2

d3

d4

d5

d66x21?x22?x11?x12?重心法(Centroid

clustering):均值點的距離??

x1,

y1

x2

,

y2

離差平方和法連接2,41,56,5(2

3)

((6

5.5)

(5(1

3)

(紅綠(2,4,6,5)8.75離差平方和增加8.75-2.5=6.25黃綠(6,5,1,5)14.75離差平方和增加14.75-8.5=6.25(2,4,1,5)10-10=0故按該方法的連接和

首先連接。有了上面的點間距離和類間距離的概念,就可以介紹聚類的方法了。這里介紹兩個簡單的方法。11.2

事先要確定分多少類:k-均值聚類前面,聚類可以走著瞧,不一定事先確定有多少類;但是這里的k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求你先說好要分多少類??雌饋碛行?,是吧假定你說分3類,這個方法還進一步要求你事先確定3

個點為“聚類種子”(SPSS

自動為你選);也就是說,把這3個點作為三類中每一類的基石。11.2

事先要確定分多少類:k-均值聚類然后,根據和這三個點的距離遠近,把所有點分成三類。再把這三類的中心(均值)作為新的基石或(原來“”就沒用了),再重新按照距離分類。如此疊代下去,直到達到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數太多了)。顯然,前面的聚類的選擇并不必太認真,它們很可能最后還會分到同一類中呢。下面用飲料例的數據來做k-均值聚類。假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達到目標了(計算機選的

還可以)。這樣就可以得到最后的三類的中心以及每類有多少點Final

Cluster

CentersCluster123CALORIE203.1033.71107.34CAFFEINE1.654.163.49SODIUM13.0510.068.76PRICE3.152.692.94Number

ofCasesin

each

ClusterCluster12.00027.00037.000Valid16.000Missing.000根據需要,可以輸出哪些點分在一起。結果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。SPSS實現(聚類分析)K-均值聚類以數據drink.sav

為例,在SPSS

中選擇yze-Classify-K-Menas

Cluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入Variables,在Number

of

Clusters處選擇3(想要分的類數),如果想要知道哪種飲料分到哪類,則選Save,再選Cluster

Membership等。注意k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數據陣進行轉置。11.2

事先不用確定分多少類:分層聚類另一種聚類稱為分層聚類或系統(tǒng)聚類(hierarchical cluster)。開始時,有多少點就是多少類。它第一步先把最近的兩類(點)合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。越是后來合并的類距離就越遠。對于飲料聚類。SPSS輸出為111231415891011131415“冰柱圖”(icicle)例:5個樣品距離陣令Dk為系統(tǒng)聚類法種第k次合并時的距離,如{Dk}為單調的,則稱具有單調性.前面只有重心和中間距離法不具有單調性.D0

198最短距離法最長距離法i步驟:階段D(0)D(1)D(2)D(3)D(4)bk(第k階段類的集合)DkDk(1)(2)(3)(4)(5)00(1,3)(2)(4)(5)11(1,3)(2,4)(5)33(1,3)(2,4,5)45(1,3,2,4,5)69注:最短和最長距離法結果一樣(一般不一定一樣)聚類要注意的問題聚類結果主要受所選擇的變量影響如果去掉一些變量,或者增加一些變量,結果會很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標明確。聚類要注意的問題另外就分成多少類來說,也要有道理。只要你高興,從分層聚類的計算機結果可以得到任何可能數量的類。但是,聚類的目的是要使各類之間的距離盡可能地遠,而類中點的距離盡可能的近,并且分類結果還要有令人信服的解釋。這一點就不是數學可以解決的了。yzeSPSS實現(聚類分析)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論