版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第十一章 SPSS軟件應(yīng)用(四)第二節(jié)第二節(jié) 聚類分析和判別分析聚類分析和判別分析聚類分析和判別分析聚類分析和判別分析 兩者都是解決分類問題的多元統(tǒng)計分析方法。兩者都是解決分類問題的多元統(tǒng)計分析方法。聚類分析聚類分析是根據(jù)事物特性,按性質(zhì)上的是根據(jù)事物特性,按性質(zhì)上的“親疏程度親疏程度”,在在沒有先驗知識沒有先驗知識情況下進行自動分類,使同類中個情況下進行自動分類,使同類中個體有較大相似性,不同類中個體有較大差異性。體有較大相似性,不同類中個體有較大差異性?!坝H疏程度親疏程度”的測度的測度有兩個角度:一是個體間的相似程有兩個角度:一是個體間的相似程度,應(yīng)用簡單相關(guān)系數(shù)和等級相關(guān)系數(shù)測度;度,應(yīng)
2、用簡單相關(guān)系數(shù)和等級相關(guān)系數(shù)測度; 二是二是個體間的差異程度,通過各種個體間的差異程度,通過各種“距離距離”來測度。來測度。 聚類分析中的聚類分析中的“距離距離”有兩種:一為有兩種:一為點和點之間點和點之間的距離,的距離,一是一是類和類之間類和類之間的距離。的距離。點間距離點間距離有很多定義方式:如最基本的歐氏距離。有很多定義方式:如最基本的歐氏距離。 由一個點組成的類是最基本的類;如果每一類都由一由一個點組成的類是最基本的類;如果每一類都由一個點組成,那么類間距離就是點間距離。但是如果某個點組成,那么類間距離就是點間距離。但是如果某一類包含不止一個點,那么就是類間距離。一類包含不止一個點,那
3、么就是類間距離。類間距離類間距離是基于點間距離定義的,有多種方式:如是基于點間距離定義的,有多種方式:如兩類兩類之間最近點之間的距離之間最近點之間的距離、兩類中最遠點之間的距離兩類中最遠點之間的距離、各類的中心之間的距離各類的中心之間的距離等都可作為兩類之間的距離。等都可作為兩類之間的距離。在計算時,各種點間距離和類間距離的計算方式的選擇在計算時,各種點間距離和類間距離的計算方式的選擇是通過統(tǒng)計軟件的選項實現(xiàn)的。不同的選擇結(jié)果會不是通過統(tǒng)計軟件的選項實現(xiàn)的。不同的選擇結(jié)果會不同,但一般不會差太多。同,但一般不會差太多。l說明說明l聚類分析中的變量選擇問題聚類分析中的變量選擇問題變量應(yīng)和聚類分析
4、的目標密切相關(guān)變量應(yīng)和聚類分析的目標密切相關(guān)( (如如; ;學(xué)??蒲心芰W(xué)校科研能力的評價。如的評價。如: :科研經(jīng)費科研經(jīng)費 項目項目 獲獎獲獎 人數(shù)人數(shù) 辦學(xué)性質(zhì)辦學(xué)性質(zhì)) )聚類結(jié)果僅是所選定變量所具數(shù)據(jù)特點的反應(yīng)聚類結(jié)果僅是所選定變量所具數(shù)據(jù)特點的反應(yīng). .變量之間不應(yīng)具有高度相關(guān)性變量之間不應(yīng)具有高度相關(guān)性, ,否則相當(dāng)于給這些變否則相當(dāng)于給這些變量進行了加權(quán)量進行了加權(quán)l(xiāng)聚類分析包括:樣品(個案)聚類和變量聚類兩種。聚類分析包括:樣品(個案)聚類和變量聚類兩種。l聚類分析包括:系統(tǒng)(分層)聚類和快速聚類聚類分析包括:系統(tǒng)(分層)聚類和快速聚類判別分析判別分析是根據(jù)已知類別的事物性質(zhì)
5、,建立函數(shù)式規(guī)則,是根據(jù)已知類別的事物性質(zhì),建立函數(shù)式規(guī)則,將未知類別的新事物判別歸入已知類中。將未知類別的新事物判別歸入已知類中。 兩者的區(qū)別兩者的區(qū)別:聚類分析是在無先驗知識條件下,按親疏:聚類分析是在無先驗知識條件下,按親疏程度進行的分類,而判別分析則是事先制定好已知類程度進行的分類,而判別分析則是事先制定好已知類的判別函數(shù)準則。的判別函數(shù)準則。實現(xiàn)聚類分析和判別分析功能在實現(xiàn)聚類分析和判別分析功能在 Analyze Classify 主要有五個模塊:主要有五個模塊: TwoStep Cluster : 二階聚類二階聚類 ; K-Means Cluster: 快速(逐步)聚類快速(逐步)
6、聚類 ; Hierarchical Cluster : 分層聚類分層聚類 ; Tree: 樹狀分析樹狀分析 ; Discriminant : 判別分析。判別分析。1.Hierarchical Cluster 系統(tǒng)(分層)聚類系統(tǒng)(分層)聚類 分層聚類分析就是通過對變量的測量,將比較接近的個案找出來歸為一類,進一步再將比較接近的類合并成為新的類,逐層合并直到最后合并成為一類,也稱系統(tǒng)聚類也稱系統(tǒng)聚類分層聚類產(chǎn)生的結(jié)果不在聚類的開始,也不在聚類的最終,而是在其過程中。研究者將根據(jù)聚類過程適當(dāng)截取聚類結(jié)論。分層聚類有兩種類型: “Q型聚類”(樣本聚類):將在聚類過程中發(fā)現(xiàn)具有共同屬性的樣本。 “R型
7、聚類”(變量聚類):可以在某些變量中選擇出具有代表性的變量。功能實現(xiàn):Analyze- Classify-Hierarchical Cluster。分層聚類基本操作步驟基本操作步驟1.1.基本操作基本操作A.A.菜單選項菜單選項: : analyze-classify-hierachical analyze-classify-hierachical clusterclusterB.B.選擇參與聚類分析的變量入選擇參與聚類分析的變量入variablesvariables框框C.C.選擇一字符型變量作為個案的標記變量選擇一字符型變量作為個案的標記變量( (label cases)label cas
8、es)D.D.選擇個案聚類還是變量聚類選擇個案聚類還是變量聚類Q型聚類R型聚類操作界面操作界面分層聚類基本操作步驟基本操作步驟2. 2. 選擇距離計算方法(選擇距離計算方法(methodmethod選項)選項)cluster method:cluster method:計算類間距離的方法計算類間距離的方法measure:measure:計算樣本距離的方法計算樣本距離的方法transform values:transform values:對數(shù)據(jù)進行標準化處理對數(shù)據(jù)進行標準化處理by variable:by variable:以以變量為單位標準化,適于個案聚類變量為單位標準化,適于個案聚類 by
9、 case:by case:對個案為單位標準化,適于變量聚類對個案為單位標準化,適于變量聚類7種聚類方法method按鈕:按鈕:定距、定序、二值資料測量方法計算前標準化計算前標準化方法選擇方法選擇計算后轉(zhuǎn)換計算后轉(zhuǎn)換方法選擇方法選擇分層聚類進一步的工作進一步的工作1.1.數(shù)據(jù)輸出(數(shù)據(jù)輸出(statisticsstatistics選項)選項)agglomeration schedule:agglomeration schedule:凝聚狀態(tài)表(默認)凝聚狀態(tài)表(默認)distance matrix:distance matrix:樣本的距離矩陣樣本的距離矩陣cluster membership
10、:cluster membership:類成員類成員none:none:不輸出類成員(默認)不輸出類成員(默認)single solutionsingle solution:聚成聚成n n類時各樣本的歸屬類時各樣本的歸屬range of solutions:range of solutions:聚成聚成mnmn類時各樣本的歸屬類時各樣本的歸屬( (mnmnclassify-k means clusteranalyze-classify-k means clusterB.B.選定參加快速聚類分析的變量到選定參加快速聚類分析的變量到variablesvariables框框C.C.確定快速聚類的類數(shù)
11、確定快速聚類的類數(shù)( (number of clusters).number of clusters).類數(shù)應(yīng)小類數(shù)應(yīng)小于個案總數(shù)于個案總數(shù)D.D.選擇聚類方法選擇聚類方法( (method)method):默認默認iterate and classifyiterate and classify,即:即:在聚類的每一步都重新計算新的類中心在聚類的每一步都重新計算新的類中心E.E.確定聚類終止條件(確定聚類終止條件(iterate)iterate)聚類變量標識變量聚類個數(shù)默認2每次迭代都重新定中心類,默認初始類中心點不變即只迭代一次【設(shè)置界面設(shè)置界面】K-means快速聚類其他其他1. 1. 保
12、存快速聚類的結(jié)果保存快速聚類的結(jié)果( (save)save)cluster membership:cluster membership:將各個案所屬類的類號保存到將各個案所屬類的類號保存到qcl_qcl_1 1變量中變量中distance from cluster center:distance from cluster center:將各樣本距所屬類將各樣本距所屬類中心中心的距離保存到的距離保存到qcl_2qcl_2變量中變量中. .存變量所屬類存樣本點到類中心距離【save按鈕按鈕】K-means快速聚類其他其他2.2.輸出選項輸出選項( (option)option)initial cl
13、uster centers:initial cluster centers:輸出輸出初始類中心點初始類中心點ANOVA table:ANOVA table:輸出各類的方差分析表輸出各類的方差分析表cluster information for each case:cluster information for each case:輸出每個樣輸出每個樣本的分類結(jié)果和距離本的分類結(jié)果和距離【option按鈕按鈕】以聚類分析得到的類為分類變量進行方差分析K-means快速聚類其他其他3. 3. useuse running means running means項項: :選中:表示每個樣本被分配到一
14、類后立即計算新的類選中:表示每個樣本被分配到一類后立即計算新的類中心。聚類結(jié)果與個案的先后次序有關(guān)中心。聚類結(jié)果與個案的先后次序有關(guān). .不選中:表示完成了所有個案的依次分配后再計算類不選中:表示完成了所有個案的依次分配后再計算類中心中心. .省時省時. .【iterate按鈕按鈕】最多迭代次數(shù)最多迭代次數(shù)類中心偏移量類中心偏移量0.02K-means快速聚類其他其他4.4.用戶指定類中心用戶指定類中心( (center)center)read initial from:read initial from:若不指定則系統(tǒng)自動確定初始若不指定則系統(tǒng)自動確定初始類中心。指定則從某類中心。指定則從某
15、. .savsav文件中讀入初始類中心數(shù)文件中讀入初始類中心數(shù)據(jù)(應(yīng)設(shè)一個名為據(jù)(應(yīng)設(shè)一個名為Cluster_Cluster_的變量名)的變量名)。Write final as:Write final as:在分析的最后將各類中心寫入在分析的最后將各類中心寫入某某. .savsav文件文件【結(jié)果形式結(jié)果形式】初始類中心點,3類中對應(yīng)1,4,7case每次迭代類中心的偏移量.本例中2次迭代后,偏移量都0.02,迭代結(jié)束最終聚類中心點每個類中case數(shù)各case進入各類情況3類分別反映了各指標的下、中、上水平例11-2-23. Discriminant 判別分析判別分析判別分析判別分析是根據(jù)觀測到
16、的若干自變量值,判斷研究對象如是根據(jù)觀測到的若干自變量值,判斷研究對象如何分類的方法。何分類的方法。前提假設(shè)前提假設(shè):自變量服從正態(tài)分布;預(yù)測變量間不顯著相關(guān);:自變量服從正態(tài)分布;預(yù)測變量間不顯著相關(guān);自變量是定距的,分類變量是定序的。自變量是定距的,分類變量是定序的。判別分析與聚類分析的區(qū)別在于判別分析要求已知一系列判別分析與聚類分析的區(qū)別在于判別分析要求已知一系列反映事物特征的自變量值,且至少有一個已經(jīng)明確知反映事物特征的自變量值,且至少有一個已經(jīng)明確知道類別的道類別的“訓(xùn)練樣本訓(xùn)練樣本”,利用其建立判別準則。,利用其建立判別準則。基本思路基本思路:先建判別函數(shù):先建判別函數(shù)( (可能多
17、個可能多個) Y=a) Y=a1 1x x1 1+.+a+.+an nx xn n,其中其中Y Y為判別分數(shù),為判別分數(shù),x x1 1,.,x,.,xn n為反映研究對象特征的變?yōu)榉从逞芯繉ο筇卣鞯淖兞?,量,a a1 1,.,a,.,an n為判別系數(shù);為判別系數(shù);再將每個再將每個casecase的自變量觀測值代入判別函數(shù),得出判別分的自變量觀測值代入判別函數(shù),得出判別分數(shù),從而確定其屬于哪一類,或計算屬于各類的概率。數(shù),從而確定其屬于哪一類,或計算屬于各類的概率。 對判別函數(shù)的優(yōu)劣需要進行評價對判別函數(shù)的優(yōu)劣需要進行評價. .常用的評價方法有回常用的評價方法有回代考核、前瞻性考核和刀切法。代
18、考核、前瞻性考核和刀切法。 回代考核采用建立的判別函數(shù)對訓(xùn)練樣本進行判別分回代考核采用建立的判別函數(shù)對訓(xùn)練樣本進行判別分類,根據(jù)判別分類結(jié)果與原始分類的符合率評價判別類,根據(jù)判別分類結(jié)果與原始分類的符合率評價判別函數(shù)的優(yōu)劣,如果符合率高,一般要求正確回代率高函數(shù)的優(yōu)劣,如果符合率高,一般要求正確回代率高于于80%,80%,則說明判別效果好。則說明判別效果好。 前瞧性考核對訓(xùn)練樣本以外的樣本前瞧性考核對訓(xùn)練樣本以外的樣本稱為外考核樣本稱為外考核樣本) )進行判別進行判別. .前瞻性考核的結(jié)果更能夠說明判別函數(shù)的好前瞻性考核的結(jié)果更能夠說明判別函數(shù)的好壞。壞。 刀切法的基木思想是刀切法的基木思想是: :每次擱置一個樣品,用其余的每次擱置一個樣品,用其余的n-n-1 1個樣品建立判別函數(shù),然后對被擱置的樣品進行判別個樣品建立判別函數(shù),然后對被擱置的樣品進行判別分類。從第一個樣品到最后一個樣品,每個樣品都被分類。從第一個樣品到最后一個樣品,每個樣品都被判別分類一次,通過判別分類一次
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 剃胡膏產(chǎn)業(yè)規(guī)劃專項研究報告
- 2024年度小學(xué)運動場地施工協(xié)議范本
- 2024年專業(yè)海運代理協(xié)議范本細則
- 人力資源服務(wù)員工合同
- 2024年工程設(shè)備銷售協(xié)議
- 基層醫(yī)保合同
- 2024債務(wù)履行第三方擔(dān)保協(xié)議
- 高鐵站房及站臺抗震設(shè)計方案
- 洗煤項目成果驗收合同
- 抵押回購協(xié)議
- 項目風(fēng)險記錄及跟蹤表
- 房地產(chǎn)市場報告 -2024年第二季度廣州寫字樓辦公樓出租租金市場分析報告與發(fā)展前景趨勢展望
- CJT 482-2015 城市軌道交通橋梁球型鋼支座
- 我國不銹鋼管行業(yè)現(xiàn)狀分析
- 2024年關(guān)于印發(fā)全國社會心理服務(wù)體系建設(shè)試點5篇
- 維修水池合同協(xié)議書
- 高效餐飲服務(wù)承諾
- DL-T5002-2021地區(qū)電網(wǎng)調(diào)度自動化設(shè)計規(guī)程
- DZ∕T 0338.1-2020 固體礦產(chǎn)資源量估算規(guī)程 第1部分 通則(正式版)
- FZ∕T 73037-2019 針織運動襪行業(yè)標準
- 食品風(fēng)味研究專題智慧樹知到期末考試答案章節(jié)答案2024年中國農(nóng)業(yè)大學(xué)
評論
0/150
提交評論