第九章SPSS的聚類分析_第1頁
第九章SPSS的聚類分析_第2頁
第九章SPSS的聚類分析_第3頁
第九章SPSS的聚類分析_第4頁
第九章SPSS的聚類分析_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第九章 SPSS的聚類分析聚類分析概述 概念:聚類分析是統(tǒng)計學(xué)中研究“物以類聚”的一種方法,屬多元統(tǒng)計分析方法. 例如:細(xì)分市場、消費行為劃分 聚類分析是建立一種分類,是將一批樣本(或變量)按照在性質(zhì)上的“親疏”程度,在沒有先驗知識的情況下自動進(jìn)行分類的方法.其中:類內(nèi)個體具有較高的相似性,類間的差異性較大.聚類分析概述編號編號 購物環(huán)境購物環(huán)境 服務(wù)質(zhì)量服務(wù)質(zhì)量 A 73 68 B 66 69 C 84 82 D 91 88 E 94 90 兩類兩類:(A B) (C D E) 三類三類:(A B) (C) (D E)l依據(jù)平均得分依據(jù)平均得分的差距的差距, ,差距較差距較小的為一類小的為一

2、類. .l分類過程中分類過程中, ,沒有事先指定沒有事先指定分類的標(biāo)準(zhǔn)分類的標(biāo)準(zhǔn). .完完全根據(jù)樣本數(shù)全根據(jù)樣本數(shù)據(jù)客觀產(chǎn)生分據(jù)客觀產(chǎn)生分類結(jié)果類結(jié)果. . 親疏遠(yuǎn)程度的衡量指標(biāo)親疏遠(yuǎn)程度的衡量指標(biāo)相似性相似性: :數(shù)據(jù)間相似程度的度量數(shù)據(jù)間相似程度的度量距離距離: : 數(shù)據(jù)間差異程度的度量數(shù)據(jù)間差異程度的度量. .距離越近距離越近, ,越越“親密親密”, ,聚成一類聚成一類; ;距離越遠(yuǎn)距離越遠(yuǎn), ,越越“疏疏遠(yuǎn)遠(yuǎn)”, ,分別屬于不同的類分別屬于不同的類 定距型個體間的距離:定距型個體間的距離: 把每個個案數(shù)據(jù)看成是把每個個案數(shù)據(jù)看成是n n維空間上的點維空間上的點, ,在點和點之間定義某種

3、距離在點和點之間定義某種距離. .一般適用于定距數(shù)一般適用于定距數(shù)據(jù)據(jù) 歐氏距離歐氏距離( (EUCLID)EUCLID) 平方歐氏距離平方歐氏距離( (SEUCLIDSEUCLID) )kiiiyxyxEUCLID12)(),(聚類分析概述個體距離矩陣l定距型個體間的距離聚類分析概述Proximity Matrix.0008.06217.80426.90730.4148.062.00025.45634.65538.21017.80425.456.0009.22012.80626.90734.6559.220.0003.60630.41438.21012.8063.606.000Case1:A

4、商廈2:B商廈3:C商廈4:D商廈5:E商廈1:A商廈2:B商廈3:C商廈4:D商廈5:E商廈 Euclidean DistanceThis is a dissimilarity matrixl品質(zhì)型個體間的距離姓名 授課方式 上機(jī)時間 選某門課程張三 1 1 1 李四 1 1 0王五 0 0 1聚類分析概述 品質(zhì)型個體間的距離品質(zhì)型個體間的距離簡單匹配簡單匹配( (simple matching)simple matching)系數(shù)系數(shù): :適用二值變量。適用二值變量。dcbacbjid),(個體j個體i 1 01 a b0 c d a為個體i與個體j在所有變量上同時取1的個數(shù);d為同時取0

5、的個數(shù)特點:排除同時擁有或同時不擁有某特征的情況;取0和1地位等價,編碼方案的變化不會引起系數(shù)的變化。聚類分析概述l品質(zhì)型個體間的距離l簡單匹配(simple matching)系數(shù):適用二值變量。姓名 授課方式 上機(jī)時間 選某門課程張三 1 1 1 李四 1 1 0王五 0 0 1(張三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(張三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3張三距李四近聚類分析概述 品質(zhì)型個體間的距離品質(zhì)型個體間的距離根據(jù)臨床表現(xiàn)研究病人是否有類似的病根據(jù)臨床表現(xiàn)研究病人是否有類似的病姓名 性別 發(fā)燒

6、咳嗽 檢查1 檢查2 檢查3 檢查4張三 男 1 0 1 0 0 0李四 女 1 0 1 0 1 0王五 男 1 1 0 0 0 0. 聚類分析概述 品質(zhì)型個體間的距離品質(zhì)型個體間的距離雅科比(雅科比(JaccardJaccard)系數(shù)系數(shù): :適用二值變量適用二值變量cbacbjiJ),(個體j個體i 1 01 a b0 c d a為個體i與個體j在所有變量上同時取1的個數(shù);d為同時取0的個數(shù)特點:排除同時不擁有某特征的情況;取1的狀態(tài)比取0更有意義(如:臨床檢驗中的陽性特征);編碼方案會引起系數(shù)的變化聚類分析概述l品質(zhì)型個體間的距離l雅科比(Jaccard)系數(shù):適用二值變量姓名 授課方式

7、 上機(jī)時間 選某門課程張三 1 (0) 1(0) 1(0) 李四 1 (0) 1(0) 0(1)王五 0 (1) 0(1) 1(0)(張三,李四) 1: a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3(張三,李四) 2: a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3 (相同) (張三,李四) 1: a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3(張三,李四) 2: a=0 b=0 c=1 d=2 J(x,y)=1/1=1 (不相同) 品質(zhì)型個體間的距離品質(zhì)型個體間的距離JaccardJaccard系數(shù)舉例系數(shù)舉例: :根據(jù)臨床

8、表現(xiàn)研究病人是否有類似的病根據(jù)臨床表現(xiàn)研究病人是否有類似的病姓名 性別 發(fā)燒 咳嗽 檢查1 檢查2 檢查3 檢查4張三 男 1 0 1 0 0 0李四 女 1 0 1 0 1 0王五 男 1 1 0 0 0 0. 33. 010210),(李四張三d67. 010111),(王五張三d75. 021121),(王五李四d結(jié)論:張三和李四最有可能得類似的病;李四和王五不太有可能聚類分析概述l品質(zhì)型個體間的距離卡方距離:計數(shù)變量姓名選修課門數(shù)(期望頻數(shù))專業(yè)課門數(shù)(期望頻數(shù))得優(yōu)門數(shù)(期望頻數(shù))合計張三9(8.5)6(6)4(4.5)19李四8(8.5)6(6)5(4.5)19合計17129381

9、2. 4)5 . 4)5 . 45(6)66(5 . 8)5 . 88()5 . 4)5 . 44(6)66(5 . 8)5 . 89(222222 說明說明 聚類過程中如果數(shù)據(jù)在數(shù)量級上存在差異時,應(yīng)進(jìn)行標(biāo)準(zhǔn)化處理。聚類過程中如果數(shù)據(jù)在數(shù)量級上存在差異時,應(yīng)進(jìn)行標(biāo)準(zhǔn)化處理。例如例如: : 樣本的歐氏距離 元 萬元(1,2) 26500081.623(1,3) 218000193.700(2,3) 47000254.897樣 本 號 社科活動人員 數(shù) (人 )研究與發(fā)展年投 入 經(jīng) 費 (元 )研 究 與 發(fā) 展課 題 數(shù) (項 )1410438000019233617300002134902

10、200008聚類分析概述聚類分析概述l說明l聚類分析中的變量選擇問題變量應(yīng)和聚類分析的目標(biāo)密切相關(guān)(如;學(xué)??蒲心芰Φ脑u價。如:科研經(jīng)費 項目 獲獎 人數(shù) 辦學(xué)性質(zhì))聚類結(jié)果僅是所選定變量所具數(shù)據(jù)特點的反應(yīng).變量之間不應(yīng)具有高度相關(guān)性,否則相當(dāng)于給這些變量進(jìn)行了加權(quán)l(xiāng)聚類分析包括:個案聚類和變量聚類兩種。l聚類分析包括:分層聚類和快速聚類分層聚類 思路:聚類過程具有一定的層次性 以合并(凝聚)的方式聚類(SPSS采用)首先,每個個體自成一類其次,將最“親密”的個體聚成一小類然后,將最“親密”的小類或個體再聚成一類重復(fù)上述過程,即:把所有的個體和小類聚集成越來越大的類,直到所有的個體都到一起(一

11、大類)為止可見,隨著聚類的進(jìn)行,類內(nèi)的“親密”性在逐漸減低分層聚類 思路思路 以分解的方式聚類以分解的方式聚類首先首先, ,所有個體都屬于一類所有個體都屬于一類其次其次, ,將大類中最將大類中最“疏遠(yuǎn)疏遠(yuǎn)”的小類或個體分離出去的小類或個體分離出去然后然后, ,分別將小類中最分別將小類中最“疏遠(yuǎn)疏遠(yuǎn)”的小類或個體再分離出去的小類或個體再分離出去重復(fù)上述過程重復(fù)上述過程, ,即:把類分解成越來越小的小類,直到所有的個體自成一類為止即:把類分解成越來越小的小類,直到所有的個體自成一類為止可見可見, ,隨著聚類的進(jìn)行隨著聚類的進(jìn)行, ,類內(nèi)的親密性在逐漸增強(qiáng)類內(nèi)的親密性在逐漸增強(qiáng)分層聚類 “親疏親疏”

12、程度的衡量對象程度的衡量對象個體間距離個體間距離個體和小類間、小類和小類間的距離個體和小類間、小類和小類間的距離分層聚類 個體和小類、類和類間的距離個體和小類、類和類間的距離最短距離法最短距離法( (nearest neighbor):nearest neighbor): 兩類間的距離定義為兩類中距離最近的兩個個案之間的距離兩類間的距離定義為兩類中距離最近的兩個個案之間的距離最長距離法最長距離法( (furthest neighbor)furthest neighbor): 兩類間的距離定義為兩類中距離最遠(yuǎn)的兩個個案之間的距離兩類間的距離定義為兩類中距離最遠(yuǎn)的兩個個案之間的距離平均鏈鎖法平均鏈

13、鎖法( (within-groups linkage)within-groups linkage) 兩類之間的距離定義為兩類個案之間距離的平均值。包括:兩類之間的距離定義為兩類個案之間距離的平均值。包括: 組間平均鏈鎖法組間平均鏈鎖法( (between-groups linkage):between-groups linkage):只考慮兩類間個案的距離只考慮兩類間個案的距離 組內(nèi)平均鏈鎖法(組內(nèi)平均鏈鎖法(With-groups linage)With-groups linage):考慮所有個案間的距離考慮所有個案間的距離分層聚類 基本操作步驟基本操作步驟1.1.基本操作基本操作A.A.菜

14、單選項菜單選項: : analyze-classify-hierachical clusteranalyze-classify-hierachical clusterB.B.選擇參與聚類分析的變量入選擇參與聚類分析的變量入variablesvariables框框C.C.選擇一字符型變量作為個案的標(biāo)記變量選擇一字符型變量作為個案的標(biāo)記變量( (label cases)label cases)D.D.選擇個案聚類還是變量聚類選擇個案聚類還是變量聚類分層聚類 基本操作步驟基本操作步驟2. 2. 選擇距離計算方法(選擇距離計算方法(methodmethod選項)選項) cluster method:c

15、luster method:計算類間距離的方法計算類間距離的方法 measure:measure:計算樣本距離的方法計算樣本距離的方法 transform values:transform values:對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理by variable:by variable:以以變量為單位標(biāo)準(zhǔn)化,適于個案聚類變量為單位標(biāo)準(zhǔn)化,適于個案聚類 by case:by case:對個案為單位標(biāo)準(zhǔn)化,適于變量聚類對個案為單位標(biāo)準(zhǔn)化,適于變量聚類分層聚類 進(jìn)一步的工作進(jìn)一步的工作1.1.數(shù)據(jù)輸出(數(shù)據(jù)輸出(statisticsstatistics選項)選項) agglomeration s

16、chedule:agglomeration schedule:凝聚狀態(tài)表(默認(rèn))凝聚狀態(tài)表(默認(rèn)) distance matrix:distance matrix:樣本的距離矩陣樣本的距離矩陣 cluster membership:cluster membership:類成員類成員none:none:不輸出類成員(默認(rèn))不輸出類成員(默認(rèn))single solutionsingle solution:聚成聚成n n類時各樣本的歸屬類時各樣本的歸屬range of solutions:range of solutions:聚成聚成mnmn類時各樣本的歸屬類時各樣本的歸屬( (mnmnclassi

17、fy-k means clusteranalyze-classify-k means clusterB.B.選定參加快速聚類分析的變量到選定參加快速聚類分析的變量到variablesvariables框框C.C.確定快速聚類的類數(shù)確定快速聚類的類數(shù)( (number of clusters).number of clusters).類數(shù)應(yīng)小類數(shù)應(yīng)小于個案總數(shù)于個案總數(shù)D.D.選擇聚類方法選擇聚類方法( (method)method):默認(rèn)默認(rèn)iterate and classifyiterate and classify,即:即:在聚類的每一步都重新計算新的類中心在聚類的每一步都重新計算新的類

18、中心E.E.確定聚類終止條件(確定聚類終止條件(iterate)iterate)K-means快速聚類( (四四) )其他其他1. 1. 保存快速聚類的結(jié)果保存快速聚類的結(jié)果( (save)save)cluster membership:cluster membership:將各個案所屬類的類號保存到將各個案所屬類的類號保存到qcl_qcl_1 1變量中變量中distance from cluster center:distance from cluster center:將各樣本距所屬類中心將各樣本距所屬類中心的距離保存到的距離保存到qcl_2qcl_2變量中變量中. .K-means快速聚類( (四四) )其他其他2.2.輸出選項輸出選項( (option)option)initial cluster centers:initial cluster centers:輸出輸出初始類中心點初始類中心點ANOVA table:ANOVA table:輸出各類的方差分析表輸出各類的方差分析表cluster information for each case:cluster information for each case:輸出每個樣本的分類輸出每個樣本的分類結(jié)果和距離結(jié)果和距離K-means快速聚類( (四四) )其他其他3. 3. us

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論