版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
統(tǒng)計分析聚類分析第1頁,共43頁,2023年,2月20日,星期六6.2SPSS的聚類分析第2頁,共43頁,2023年,2月20日,星期六聚類分析概述概念:聚類分析是統(tǒng)計學(xué)中研究“物以類聚”的一種方法,屬多元統(tǒng)計分析方法.例如:細分市場、消費行為劃分聚類分析是建立一種分類,是將一批樣本(或變量)按照在性質(zhì)上的“親疏”程度,在沒有先驗知識的情況下自動進行分類的方法.其中:類內(nèi)個體具有較高的相似性,類間的差異性較大.第3頁,共43頁,2023年,2月20日,星期六聚類分析概述兩類:(AB)(CDE)三類:(AB)(C)(DE)依據(jù)平均得分的差距,差距較小的為一類.分類過程中,沒有事先指定分類的標準.完全根據(jù)樣本數(shù)據(jù)客觀產(chǎn)生分類結(jié)果.第4頁,共43頁,2023年,2月20日,星期六親疏遠程度的衡量指標相似性:數(shù)據(jù)間相似程度的度量距離:數(shù)據(jù)間差異程度的度量.距離越近,越“親密”,聚成一類;距離越遠,越“疏遠”,分別屬于不同的類定距型個體間的距離:把每個個案數(shù)據(jù)看成是n維空間上的點,在點和點之間定義某種距離.一般適用于定距數(shù)據(jù)聚類分析概述第5頁,共43頁,2023年,2月20日,星期六(1)歐氏距離(EuclideanDistance)兩個樣本之間的歐氏距離是樣本各個變量值之差的平方和的平方根,計算公式為第6頁,共43頁,2023年,2月20日,星期六(2)歐氏距離平方(SquaredEuclideanDistance)兩個樣本之間的歐氏距離平方是各樣本每個變量值之差的平方和,計算公式為第7頁,共43頁,2023年,2月20日,星期六(3)Chebychev距離兩個樣本之間的Chebychev距離是各樣本所有變量值之差絕對值中的最大值,計算公式為第8頁,共43頁,2023年,2月20日,星期六(4)Block距離兩個樣本之間的Block距離是各樣本所有變量值之差絕對值的總和,計算公式為第9頁,共43頁,2023年,2月20日,星期六(5)Minkowski距離兩個樣本之間的Minkowski距離是各樣本所有變量值之差絕對值的p次方的總和,再求p次方根。計算公式為第10頁,共43頁,2023年,2月20日,星期六(6)Customized距離(用戶自定義距離)兩個樣本之間的Customized距離是各樣本所有變量值之差絕對值的p次方的總和,再求q次方根。計算公式為第11頁,共43頁,2023年,2月20日,星期六(7)夾角余弦CosineCOSINE(x,y)(8)卡方距離第12頁,共43頁,2023年,2月20日,星期六二值變量型個體間的距離姓名授課方式上機時間選某門課程張三111李四110王五001聚類分析概述第13頁,共43頁,2023年,2月20日,星期六二值變量型個體間的距離簡單匹配(simplematching)系數(shù):適用二值變量。個體j個體i101ab0cd
a為個體i與個體j在所有變量上同時取1的個數(shù);d為同時取0的個數(shù)特點:排除同時擁有或同時不擁有某特征的情況;取0和1地位等價,編碼方案的變化不會引起系數(shù)的變化。聚類分析概述第14頁,共43頁,2023年,2月20日,星期六二值變量型型個體間的距離簡單匹配(simplematching)系數(shù):適用二值變量。姓名授課方式上機時間選某門課程張三111李四110王五001(張三,李四):a=2b=1c=0d=0d(1,2)=1/(1+2)=1/3(張三,王五):a=1b=2c=0d=0d(1,3)=2/(1+2)=2/3張三距李四近聚類分析概述第15頁,共43頁,2023年,2月20日,星期六二值變量型個體間的距離根據(jù)臨床表現(xiàn)研究病人是否有類似的病姓名性別發(fā)燒咳嗽檢查1檢查2檢查3檢查4張三男101000李四女101010王五男110000……..聚類分析概述第16頁,共43頁,2023年,2月20日,星期六二值變量型個體間的距離雅科比(Jaccard)系數(shù):適用二值變量個體j個體i101ab0cd
a為個體i與個體j在所有變量上同時取1的個數(shù);d為同時取0的個數(shù)特點:排除同時不擁有某特征的情況;取1的狀態(tài)比取0更有意義(如:臨床檢驗中的陽性特征);編碼方案會引起系數(shù)的變化聚類分析概述第17頁,共43頁,2023年,2月20日,星期六雅科比(Jaccard)系數(shù):適用二值變量
(兩種編碼比較)姓名授課方式上機時間選某門課程張三1(0)1(0)1(0)李四1(0)1(0)0(1)王五0(1)0(1)1(0)(張三,李四)1:a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(張三,李四)2:a=0b=0c=1d=2d(x,y)=1/(1+2)=1/3(相同)(張三,李四)1:a=2b=1c=0d=0J(x,y)=1/(1+2)=1/3(張三,李四)2:a=0b=0c=1d=2J(x,y)=1/1=1(不相同)聚類分析概述第18頁,共43頁,2023年,2月20日,星期六品質(zhì)型個體間的距離Jaccard系數(shù)舉例:根據(jù)臨床表現(xiàn)研究病人是否有類似的病姓名性別發(fā)燒咳嗽檢查1檢查2檢查3檢查4張三男101000李四女101010王五男110000……..結(jié)論:張三和李四最有可能得類似的病;李四和王五最不太有可能得聚類分析概述第19頁,共43頁,2023年,2月20日,星期六二值變量型個體間的距離卡方距離:計數(shù)變量聚類分析概述姓名選修課門數(shù)(期望頻數(shù))專業(yè)課門數(shù)(期望頻數(shù))得優(yōu)門數(shù)(期望頻數(shù))合計張三9(8.5)6(6)4(4.5)19李四8(8.5)6(6)5(4.5)19合計1712938第20頁,共43頁,2023年,2月20日,星期六聚類過程中如果數(shù)據(jù)在數(shù)量級上存在差異時,應(yīng)進行標準化處理。例如:
樣本的歐氏距離 元 萬元 (1,2)265000 81.623 (1,3)218000 193.700 (2,3)47000 254.897 聚類分析概述第21頁,共43頁,2023年,2月20日,星期六聚類分析概述聚類分析中的變量選擇問題變量應(yīng)和聚類分析的目標密切相關(guān)聚類結(jié)果僅是所選定變量所具數(shù)據(jù)特點的反應(yīng).變量之間不應(yīng)具有高度相關(guān)性,否則相當(dāng)于給這些變量進行了加權(quán)聚類分析對象:個案聚類和變量聚類兩種。聚類分析方法:系統(tǒng)聚類和快速聚類第22頁,共43頁,2023年,2月20日,星期六系統(tǒng)聚類思路:聚類過程具有一定的層次性以合并(凝聚)的方式聚類(SPSS采用)首先,每個個體自成一類其次,將最“親密”的個體聚成一小類然后,將最“親密”的小類或個體再聚成一類重復(fù)上述過程,即:把所有的個體和小類聚集成越來越大的類,直到所有的個體都到一起(一大類)為止可見,隨著聚類的進行,類內(nèi)的“親密”性在逐漸減低第23頁,共43頁,2023年,2月20日,星期六“親疏”程度的衡量對象個體間距離個體和小類間、小類和小類間的距離系統(tǒng)聚類第24頁,共43頁,2023年,2月20日,星期六個體和小類、類和類間的距離最短距離法(nearestneighbor):兩類間的距離定義為兩類中距離最近的兩個個案之間的距離最長距離法(furthestneighbor):兩類間的距離定義為兩類中距離最遠的兩個個案之間的距離平均鏈鎖法(within-groupslinkage)兩類之間的距離定義為兩類個案之間距離的平均值。包括:組間平均鏈鎖法(between-groupslinkage):只考慮兩類間個案的距離組內(nèi)平均鏈鎖法(With-groupslinage):考慮所有個案間的距離系統(tǒng)聚類第25頁,共43頁,2023年,2月20日,星期六基本操作步驟1.基本操作A.菜單選項:分析->分類->系統(tǒng)聚類B.選擇參與聚類分析的變量入變量框C.選擇一字符型變量作為個案的標記變量D.選擇個案聚類還是變量聚類E.選擇輸出系統(tǒng)聚類第26頁,共43頁,2023年,2月20日,星期六第27頁,共43頁,2023年,2月20日,星期六基本操作步驟2.選擇距離計算方法第28頁,共43頁,2023年,2月20日,星期六聚類數(shù)目的確定聚類數(shù)目確定尚無統(tǒng)一標準,一般原則:各類所包含的元素都不應(yīng)過多分類數(shù)目應(yīng)符合分析的目的分層聚類中可以將類間距離作為確定類數(shù)目的輔助工具SPSS中,聚類過程中,類間距離呈增加趨勢類間距離小,類的相似性大;距離大,相似性小繪制碎石圖(X軸為類距離,Y軸為類數(shù))實例:裁判打分.sav層次聚類第29頁,共43頁,2023年,2月20日,星期六輸出第30頁,共43頁,2023年,2月20日,星期六第31頁,共43頁,2023年,2月20日,星期六樹形圖第32頁,共43頁,2023年,2月20日,星期六(K-均值)快速聚類(一)出發(fā)點希望:克服分層聚類在大樣本時產(chǎn)生的困難,提高聚類效率做法:通過用戶事先指定聚類數(shù)目的方式提高效率因此,分層聚類可以對不同的聚類數(shù)而產(chǎn)生一系列的聚類解,而快速聚類只能產(chǎn)生單一的聚類解第33頁,共43頁,2023年,2月20日,星期六K-means快速聚類(二)思路1.指定最后要聚成K類2.用戶指定k個樣本作為初始類中心或系統(tǒng)自動確定k個樣本作為初始類中心3.系統(tǒng)按照距k個中心距離最近的原則把每個樣本分派到各中心所在的類中去,形成一個新的k類,完成一次迭代4.重新計算k個類的類中心(計算每類各變量的均值,以均值點作為類中心)5.重復(fù)3步和4步,直到達到指定的迭代次數(shù)或達到終止迭代的條件第34頁,共43頁,2023年,2月20日,星期六K-means快速聚類(二)思路
SPSS中兩個判斷聚類是否結(jié)束的條件,滿足其中一個即可結(jié)束聚類過程.達到指定迭代次數(shù)(maximumiteration),默認10次。收斂標準(convergence),默認0.02,即:本次迭代產(chǎn)生的任意新類,各中心位置變化較小.其中最大的變化率小于2%.第35頁,共43頁,2023年,2月20日,星期六K-means快速聚類(三)基本操作步驟A.菜單選項:analyze->classify->kmeansclusterB.選定參加快速聚類分析的變量到variables框C.確定快速聚類的類數(shù)(numberofclusters).類數(shù)應(yīng)小于個案總數(shù)D.選擇聚類方法(method):默認iterateandclassify,即:在聚類的每一步都重新計算新的類中心E.確定聚類終止條件(iterate)第36頁,共43頁,2023年,2月20日,星期六K-means快速聚類(四)其他1.保存快速聚類的結(jié)果(save)clustermembership:將各個案所屬類的類號保存到qcl_1變量中distancefromclustercen
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024幼兒園保育員幼兒活動組織與實施合同2篇
- 2024年高端人才引進保密合同
- 2024年標準版土方工程車輛租賃合同版
- 2024年藝術(shù)品交易合作合同
- 2025年度文化創(chuàng)意產(chǎn)業(yè)廠房股權(quán)置換與合資經(jīng)營合同3篇
- 2024年度家庭財產(chǎn)贈與法律咨詢合同3篇
- 2024年綠色能源發(fā)電項目投資與合作合同
- 2024防火門供貨及安裝合同
- 2024正規(guī)企業(yè)資源規(guī)劃開發(fā)合同范本2篇
- 2024年餐飲項目三位股東權(quán)益分配合同版B版
- DL5168-2023年110KV-750KV架空輸電線路施工質(zhì)量檢驗及評定規(guī)程
- 門診發(fā)生火災(zāi)應(yīng)急預(yù)案演練建議5篇,門診發(fā)生火災(zāi)的應(yīng)急預(yù)案
- 醫(yī)療廢物轉(zhuǎn)運工作制度
- 新編建筑施工扣件式鋼管腳手架安全技術(shù)規(guī)范
- 三年級下冊小猿口算題1000道
- 《古蘭》中文譯文版
- 井下機電安裝安全教育培訓(xùn)試題及答案
- GB/T 4744-2013紡織品防水性能的檢測和評價靜水壓法
- GB/T 24267-2009建筑用阻燃密封膠
- 勞動仲裁追加申請申請書(標準版)
- 決策的藝術(shù)課件
評論
0/150
提交評論