SPSS作聚類分析標(biāo)準(zhǔn)化演示文稿

上傳人：美*** IP屬地：廣東上傳時間：2023-05-18 格式：PPT 頁數(shù)：29 大?。?.89MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩24頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

SPSS作聚類分析標(biāo)準(zhǔn)化演示文稿目前一頁\總數(shù)二十九頁\編于十六點

常言道：“物以類聚”，對事物分門別類進(jìn)行研究，有利于我們做出正確的判斷。日常生活中，我們不自覺地用定性方法將人分為“好人”、“壞人”；按熟悉程度分為“朋友”、“熟人”、“陌生人”等等。數(shù)理統(tǒng)計中的數(shù)值分類有兩種問題：

判別分析：已知分類情況，將未知個體歸入正確類別

聚類分析：分類情況未知，對數(shù)據(jù)結(jié)構(gòu)進(jìn)行分類

通過分類，有利于我們抓住重點，從總體上去把握事物，找出解決問題的方法。例如將股票進(jìn)行分類，可以為我們投資提供參考。一、聚類分析（ClusterAnalysis）簡介聚類分析是直接比較各事物之間的性質(zhì)，將性質(zhì)相近的歸為一類，將性質(zhì)差別較大的歸入不同的類的分析技術(shù)。目前二頁\總數(shù)二十九頁\編于十六點

要做聚類分析，首先得按照我們聚類的目的，從對象中提取出能表現(xiàn)這個目的的特征指標(biāo)；然后根據(jù)親疏程度進(jìn)行分類。聚類分析根據(jù)分類對象的不同可分為Q型和R型兩大類Q型是對樣本進(jìn)行分類處理，其作用在于:能利用多個變量對樣本進(jìn)行分類分類結(jié)果直觀，聚類譜系圖能明確、清楚地表達(dá)其數(shù)值分類結(jié)果所得結(jié)果比傳統(tǒng)的定性分類方法更細(xì)致、全面、合理二、聚類對象目前三頁\總數(shù)二十九頁\編于十六點R型是對變量進(jìn)行分類處理，其作用在于：可以了解變量間及變量組合間的親疏關(guān)系可以根據(jù)變量的聚類結(jié)果及它們之間的關(guān)系，選擇主要變量進(jìn)行回歸分析或Q型聚類分析聚類的主要過程一般可分為如下四個步驟：數(shù)據(jù)預(yù)處理（標(biāo)準(zhǔn)化）構(gòu)造關(guān)系矩陣（親疏關(guān)系的描述）聚類（根據(jù)不同方法進(jìn)行分類）確定最佳分類（類別數(shù)）

以下我們結(jié)合實際例子分步進(jìn)行討論。三、聚類過程與方法目前四頁\總數(shù)二十九頁\編于十六點為什么要做數(shù)據(jù)變換→指標(biāo)變量的量綱不同或數(shù)量級相差很大，為了使這些數(shù)據(jù)能放到一起加以比較，常需做變換。在SPSS中如何選擇標(biāo)準(zhǔn)化方法:→Analyze→Classify→HierachicalClusterAnalysis→Method然后從對話框中進(jìn)行如下選擇1.數(shù)據(jù)預(yù)處理（標(biāo)準(zhǔn)化）例、下表給出了1982年全國28個省、市、自治區(qū)農(nóng)民家庭收支情況，有六個指標(biāo)，是利用調(diào)查資料進(jìn)行聚類分析，為經(jīng)濟發(fā)展決策提供依據(jù)。（詳見文件1982“農(nóng)民生活消費聚類.sav”）目前五頁\總數(shù)二十九頁\編于十六點從TransformValues框中點擊向下箭頭，將出現(xiàn)如下可選項，從中選一即可：常用標(biāo)準(zhǔn)化方法（選項說明）：None：不進(jìn)行標(biāo)準(zhǔn)化，這是系統(tǒng)默認(rèn)值目前六頁\總數(shù)二十九頁\編于十六點ZScores：標(biāo)準(zhǔn)化變換為了便于后面的說明，作如下假設(shè)：均值表示為標(biāo)準(zhǔn)差表示為所有樣本表示為極差表示為目前七頁\總數(shù)二十九頁\編于十六點作用：變換后的數(shù)據(jù)均值為0，標(biāo)準(zhǔn)差為1，消去了量綱的影響；當(dāng)抽樣樣本改變時，它仍能保持相對穩(wěn)定性。Range–1to1：極差標(biāo)準(zhǔn)化變換作用：變換后的數(shù)據(jù)均值為0，極差為1，且|xij*|<1，消去了量綱的影響；在以后的分析計算中可以減少誤差的產(chǎn)生。目前八頁\總數(shù)二十九頁\編于十六點Maximummagnitudeof1作用：變換后的數(shù)據(jù)最大值為1。Range0to1（極差正規(guī)化變換/規(guī)格化變換）目前九頁\總數(shù)二十九頁\編于十六點作用：變換后的數(shù)據(jù)最小為0，最大為1，其余在區(qū)間[0，1]內(nèi)，極差為1，無量綱。Meanof1作用：變換后的數(shù)據(jù)均值為1。目前十頁\總數(shù)二十九頁\編于十六點Standarddeviationof1作用：變換后的數(shù)據(jù)標(biāo)準(zhǔn)差為1。目前十一頁\總數(shù)二十九頁\編于十六點在SPSS中如何選擇測度:→Analyze→Classify→HierachicalClusterAnalysis→Method然后從對話框中進(jìn)行如下選擇2.構(gòu)造關(guān)系矩陣描述變量或樣本的親疏程度的數(shù)量指標(biāo)有兩種：相似系數(shù)——性質(zhì)越接近的樣品，相似系數(shù)越接近于1或-1；彼此無關(guān)的樣品相似系數(shù)則接近于0，聚類時相似的樣品聚為一類距離——將每一個樣品看作m維空間的一個點，在這m維空間中定義距離，距離較近的點歸為一類。相似系數(shù)與距離有40多種，但常用的只是少數(shù)目前十二頁\總數(shù)二十九頁\編于十六點從Measure框中點擊Interval項的向下箭頭，將出現(xiàn)如左可選項，從中選一即可。常用測度（選項說明）：Euclideandistance：歐氏距離（二階Minkowski距離）目前十三頁\總數(shù)二十九頁\編于十六點SquaredEucideandistance：平方歐氏距離用途：聚類分析中用得最廣泛的距離但與各變量的量綱有關(guān)，未考慮指標(biāo)間的相關(guān)性，也未考慮各變量方差的不同用途：聚類分析中用得最廣泛的距離

目前十四頁\總數(shù)二十九頁\編于十六點Cosine：夾角余弦(相似性測度)用途：計算兩個向量在原點處的夾角余弦。當(dāng)兩夾角為0o時，取值為1，說明極相似；當(dāng)夾角為90o時，取值為0，說明兩者不相關(guān)。取值范圍：0~1 Pearsoncorrelation：皮爾遜相關(guān)系數(shù)目前十五頁\總數(shù)二十九頁\編于十六點Chebychev：切比雪夫距離用途：計算兩個向量的皮爾遜相關(guān)系數(shù)用途：計算兩個向量的切比雪夫距離Block：絕對值距離（一階Minkowski度量）（又稱Manhattan度量或網(wǎng)格度量）用途：計算兩個向量的絕對值距離目前十六頁\總數(shù)二十九頁\編于十六點Minkowski：明科夫斯基距離用途：計算兩個向量的明科夫斯基距離Customized：自定義距離用途：計算兩個向量的自定義距離目前十七頁\總數(shù)二十九頁\編于十六點

確定了樣品或變量間的距離或相似系數(shù)后，就要對樣品或變量進(jìn)行分類。分類的一種方法是系統(tǒng)聚類法（又稱譜系聚類）；另一種方法是調(diào)優(yōu)法（如動態(tài)聚類法就屬于這種類型）。此外還有模糊聚類、圖論聚類、聚類預(yù)報等多種方法。我們主要介紹系統(tǒng)聚類法(實際應(yīng)用中使用最多)。

系統(tǒng)聚類法的基本思想：令n個樣品自成一類，計算出相似性測度，此時類間距離與樣品間距離是等價的，把測度最小的兩個類合并；然后按照某種聚類方法計算類間的距離，再按最小距離準(zhǔn)則并類；這樣每次減少一類，持續(xù)下去直到所有樣品都?xì)w為一類為止。聚類過程可做成聚類譜系圖(Hierarchicaldiagram)。3.選擇聚類方法目前十八頁\總數(shù)二十九頁\編于十六點

系統(tǒng)聚類法的聚類原則決定于樣品間的距離（或相似系數(shù)）及類間距離的定義，類間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類分析方法。SPSS中如何選擇系統(tǒng)聚類法從ClusterMethod框中點擊向下箭頭，將出現(xiàn)如左可選項，從中選一即可。1)系統(tǒng)聚類法的產(chǎn)生目前十九頁\總數(shù)二十九頁\編于十六點Between-groupslinkage組間平均距離連接法特點：非最大距離，也非最小距離方法簡述：合并兩類的結(jié)果使所有的兩兩項對之間的平均距離最小。（項對的兩成員分屬不同類）Within-groupslinkage組內(nèi)平均連接法方法簡述：兩類合并為一類后，合并后的類中所有項之間的平均距離最小3)常用系統(tǒng)聚類方法目前二十頁\總數(shù)二十九頁\編于十六點Nearestneighbor最近鄰法（最短距離法）特點：樣品有鏈接聚合的趨勢，這是其缺點，不適合一般數(shù)據(jù)的分類處理，除去特殊數(shù)據(jù)外，不提倡用這種方法。方法簡述：首先合并最近或最相似的兩項Furthestneighbor最遠(yuǎn)鄰法（最長距離法）方法簡述：用兩類之間最遠(yuǎn)點的距離代表兩類之間的距離，也稱之為完全連接法目前二十一頁\總數(shù)二十九頁\編于十六點Centroidclustering重心聚類法特點：該距離隨聚類地進(jìn)行不斷縮小。該法的譜系樹狀圖很難跟蹤，且符號改變頻繁，計算較煩。方法簡述：兩類間的距離定義為兩類重心之間的距離，對樣品分類而言，每一類中心就是屬于該類樣品的均值Medianclustering中位數(shù)法特點：圖形將出現(xiàn)遞轉(zhuǎn)，譜系樹狀圖很難跟蹤，因而這個方法幾乎不被人們采用。方法簡述：兩類間的距離既不采用兩類間的最近距離，也不采用最遠(yuǎn)距離，而采用介于兩者間的距離目前二十二頁\總數(shù)二十九頁\編于十六點Ward’smethod離差平方和法特點：實際應(yīng)用中分類效果較好，應(yīng)用較廣；要求樣品間的距離必須是歐氏距離。方法簡述：基于方差分析思想，如果分類合理，則同類樣品間離差平方和應(yīng)當(dāng)較小，類與類間離差平方和應(yīng)當(dāng)較大目前二十三頁\總數(shù)二十九頁\編于十六點

經(jīng)過系統(tǒng)聚類法處理后，得到聚類樹狀譜系圖，Demirmen(1972)提出了應(yīng)根據(jù)研究的目的來確定適當(dāng)?shù)姆诸惙椒?，并提出了一些根?jù)譜系圖來分類的準(zhǔn)則：任何類都必須在臨近各類中是突出的，即各類重心間距離必須極大確定的類中，各類所包含的元素都不要過分地多分類的數(shù)目必須符合實用目的若采用幾種不同的聚類方法處理，則在各自的聚類圖中應(yīng)發(fā)現(xiàn)相同的類四、譜系分類的確定目前二十四頁\總數(shù)二十九頁\編于十六點SPSS中其他選項（通過實例演示）例、下表給出了1982年全國28個省、市、自治區(qū)農(nóng)民家庭收支情況，有六個指標(biāo)，是利用調(diào)查資料進(jìn)行聚類分析，為經(jīng)濟發(fā)展決策提供依據(jù)。（詳見文件1982“農(nóng)民生活消費聚類.sav”）目前二十五頁\總數(shù)二十九頁\編于十六點生成樹形圖生成冰柱圖凝聚狀態(tài)表，顯示聚類過程各項間的距離矩陣類成員欄目前二十六頁\總數(shù)二十九頁\編于十六點結(jié)果分析：（方法選擇如下）目前二十七頁\總數(shù)二十九頁\編于十六點通過比較，可知離差平方和法（Ward’smethod）分類結(jié)果較好，將28各樣本分為三類：第一類包含6個元素：2、15、10、11、6、7第二類包含10個元素：8、17、28、12、13、18、14、20、21、22

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

SPSS作聚類分析標(biāo)準(zhǔn)化演示文稿

文檔簡介

溫馨提示

最新文檔

評論

SPSS作聚類分析標(biāo)準(zhǔn)化演示文稿

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔