




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第十一章 SPSS軟件應(yīng)用(四)第二節(jié)第二節(jié) 聚類分析和判別分析聚類分析和判別分析聚類分析和判別分析聚類分析和判別分析 兩者都是解決分類問(wèn)題的多元統(tǒng)計(jì)分析方法。兩者都是解決分類問(wèn)題的多元統(tǒng)計(jì)分析方法。聚類分析聚類分析是根據(jù)事物特性,按性質(zhì)上的是根據(jù)事物特性,按性質(zhì)上的“親疏程度親疏程度”,在在沒(méi)有先驗(yàn)知識(shí)沒(méi)有先驗(yàn)知識(shí)情況下進(jìn)行自動(dòng)分類,使同類中個(gè)情況下進(jìn)行自動(dòng)分類,使同類中個(gè)體有較大相似性,不同類中個(gè)體有較大差異性。體有較大相似性,不同類中個(gè)體有較大差異性?!坝H疏程度親疏程度”的測(cè)度的測(cè)度有兩個(gè)角度:一是個(gè)體間的相似程有兩個(gè)角度:一是個(gè)體間的相似程度,應(yīng)用簡(jiǎn)單相關(guān)系數(shù)和等級(jí)相關(guān)系數(shù)測(cè)度;度,應(yīng)
2、用簡(jiǎn)單相關(guān)系數(shù)和等級(jí)相關(guān)系數(shù)測(cè)度; 二是二是個(gè)體間的差異程度,通過(guò)各種個(gè)體間的差異程度,通過(guò)各種“距離距離”來(lái)測(cè)度。來(lái)測(cè)度。 聚類分析中的聚類分析中的“距離距離”有兩種:一為有兩種:一為點(diǎn)和點(diǎn)之間點(diǎn)和點(diǎn)之間的距離,的距離,一是一是類和類之間類和類之間的距離。的距離。點(diǎn)間距離點(diǎn)間距離有很多定義方式:如最基本的歐氏距離。有很多定義方式:如最基本的歐氏距離。 由一個(gè)點(diǎn)組成的類是最基本的類;如果每一類都由一由一個(gè)點(diǎn)組成的類是最基本的類;如果每一類都由一個(gè)點(diǎn)組成,那么類間距離就是點(diǎn)間距離。但是如果某個(gè)點(diǎn)組成,那么類間距離就是點(diǎn)間距離。但是如果某一類包含不止一個(gè)點(diǎn),那么就是類間距離。一類包含不止一個(gè)點(diǎn),那
3、么就是類間距離。類間距離類間距離是基于點(diǎn)間距離定義的,有多種方式:如是基于點(diǎn)間距離定義的,有多種方式:如兩類兩類之間最近點(diǎn)之間的距離之間最近點(diǎn)之間的距離、兩類中最遠(yuǎn)點(diǎn)之間的距離兩類中最遠(yuǎn)點(diǎn)之間的距離、各類的中心之間的距離各類的中心之間的距離等都可作為兩類之間的距離。等都可作為兩類之間的距離。在計(jì)算時(shí),各種點(diǎn)間距離和類間距離的計(jì)算方式的選擇在計(jì)算時(shí),各種點(diǎn)間距離和類間距離的計(jì)算方式的選擇是通過(guò)統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的。不同的選擇結(jié)果會(huì)不是通過(guò)統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的。不同的選擇結(jié)果會(huì)不同,但一般不會(huì)差太多。同,但一般不會(huì)差太多。l說(shuō)明說(shuō)明l聚類分析中的變量選擇問(wèn)題聚類分析中的變量選擇問(wèn)題變量應(yīng)和聚類分析
4、的目標(biāo)密切相關(guān)變量應(yīng)和聚類分析的目標(biāo)密切相關(guān)( (如如; ;學(xué)??蒲心芰W(xué)校科研能力的評(píng)價(jià)。如的評(píng)價(jià)。如: :科研經(jīng)費(fèi)科研經(jīng)費(fèi) 項(xiàng)目項(xiàng)目 獲獎(jiǎng)獲獎(jiǎng) 人數(shù)人數(shù) 辦學(xué)性質(zhì)辦學(xué)性質(zhì)) )聚類結(jié)果僅是所選定變量所具數(shù)據(jù)特點(diǎn)的反應(yīng)聚類結(jié)果僅是所選定變量所具數(shù)據(jù)特點(diǎn)的反應(yīng). .變量之間不應(yīng)具有高度相關(guān)性變量之間不應(yīng)具有高度相關(guān)性, ,否則相當(dāng)于給這些變否則相當(dāng)于給這些變量進(jìn)行了加權(quán)量進(jìn)行了加權(quán)l(xiāng)聚類分析包括:樣品(個(gè)案)聚類和變量聚類兩種。聚類分析包括:樣品(個(gè)案)聚類和變量聚類兩種。l聚類分析包括:系統(tǒng)(分層)聚類和快速聚類聚類分析包括:系統(tǒng)(分層)聚類和快速聚類判別分析判別分析是根據(jù)已知類別的事物性質(zhì)
5、,建立函數(shù)式規(guī)則,是根據(jù)已知類別的事物性質(zhì),建立函數(shù)式規(guī)則,將未知類別的新事物判別歸入已知類中。將未知類別的新事物判別歸入已知類中。 兩者的區(qū)別兩者的區(qū)別:聚類分析是在無(wú)先驗(yàn)知識(shí)條件下,按親疏:聚類分析是在無(wú)先驗(yàn)知識(shí)條件下,按親疏程度進(jìn)行的分類,而判別分析則是事先制定好已知類程度進(jìn)行的分類,而判別分析則是事先制定好已知類的判別函數(shù)準(zhǔn)則。的判別函數(shù)準(zhǔn)則。實(shí)現(xiàn)聚類分析和判別分析功能在實(shí)現(xiàn)聚類分析和判別分析功能在 Analyze Classify 主要有五個(gè)模塊:主要有五個(gè)模塊: TwoStep Cluster : 二階聚類二階聚類 ; K-Means Cluster: 快速(逐步)聚類快速(逐步)
6、聚類 ; Hierarchical Cluster : 分層聚類分層聚類 ; Tree: 樹(shù)狀分析樹(shù)狀分析 ; Discriminant : 判別分析。判別分析。1.Hierarchical Cluster 系統(tǒng)(分層)聚類系統(tǒng)(分層)聚類 分層聚類分析就是通過(guò)對(duì)變量的測(cè)量,將比較接近的個(gè)案找出來(lái)歸為一類,進(jìn)一步再將比較接近的類合并成為新的類,逐層合并直到最后合并成為一類,也稱系統(tǒng)聚類也稱系統(tǒng)聚類分層聚類產(chǎn)生的結(jié)果不在聚類的開(kāi)始,也不在聚類的最終,而是在其過(guò)程中。研究者將根據(jù)聚類過(guò)程適當(dāng)截取聚類結(jié)論。分層聚類有兩種類型: “Q型聚類”(樣本聚類):將在聚類過(guò)程中發(fā)現(xiàn)具有共同屬性的樣本。 “R型
7、聚類”(變量聚類):可以在某些變量中選擇出具有代表性的變量。功能實(shí)現(xiàn):Analyze- Classify-Hierarchical Cluster。分層聚類基本操作步驟基本操作步驟1.1.基本操作基本操作A.A.菜單選項(xiàng)菜單選項(xiàng): : analyze-classify-hierachical analyze-classify-hierachical clusterclusterB.B.選擇參與聚類分析的變量入選擇參與聚類分析的變量入variablesvariables框框C.C.選擇一字符型變量作為個(gè)案的標(biāo)記變量選擇一字符型變量作為個(gè)案的標(biāo)記變量( (label cases)label cas
8、es)D.D.選擇個(gè)案聚類還是變量聚類選擇個(gè)案聚類還是變量聚類Q型聚類R型聚類操作界面操作界面分層聚類基本操作步驟基本操作步驟2. 2. 選擇距離計(jì)算方法(選擇距離計(jì)算方法(methodmethod選項(xiàng))選項(xiàng))cluster method:cluster method:計(jì)算類間距離的方法計(jì)算類間距離的方法measure:measure:計(jì)算樣本距離的方法計(jì)算樣本距離的方法transform values:transform values:對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理by variable:by variable:以以變量為單位標(biāo)準(zhǔn)化,適于個(gè)案聚類變量為單位標(biāo)準(zhǔn)化,適于個(gè)案聚類 by
9、 case:by case:對(duì)個(gè)案為單位標(biāo)準(zhǔn)化,適于變量聚類對(duì)個(gè)案為單位標(biāo)準(zhǔn)化,適于變量聚類7種聚類方法method按鈕:按鈕:定距、定序、二值資料測(cè)量方法計(jì)算前標(biāo)準(zhǔn)化計(jì)算前標(biāo)準(zhǔn)化方法選擇方法選擇計(jì)算后轉(zhuǎn)換計(jì)算后轉(zhuǎn)換方法選擇方法選擇分層聚類進(jìn)一步的工作進(jìn)一步的工作1.1.數(shù)據(jù)輸出(數(shù)據(jù)輸出(statisticsstatistics選項(xiàng))選項(xiàng))agglomeration schedule:agglomeration schedule:凝聚狀態(tài)表(默認(rèn))凝聚狀態(tài)表(默認(rèn))distance matrix:distance matrix:樣本的距離矩陣樣本的距離矩陣cluster membership
10、:cluster membership:類成員類成員none:none:不輸出類成員(默認(rèn))不輸出類成員(默認(rèn))single solutionsingle solution:聚成聚成n n類時(shí)各樣本的歸屬類時(shí)各樣本的歸屬range of solutions:range of solutions:聚成聚成mnmn類時(shí)各樣本的歸屬類時(shí)各樣本的歸屬( (mnmnclassify-k means clusteranalyze-classify-k means clusterB.B.選定參加快速聚類分析的變量到選定參加快速聚類分析的變量到variablesvariables框框C.C.確定快速聚類的類數(shù)
11、確定快速聚類的類數(shù)( (number of clusters).number of clusters).類數(shù)應(yīng)小類數(shù)應(yīng)小于個(gè)案總數(shù)于個(gè)案總數(shù)D.D.選擇聚類方法選擇聚類方法( (method)method):默認(rèn)默認(rèn)iterate and classifyiterate and classify,即:即:在聚類的每一步都重新計(jì)算新的類中心在聚類的每一步都重新計(jì)算新的類中心E.E.確定聚類終止條件(確定聚類終止條件(iterate)iterate)聚類變量標(biāo)識(shí)變量聚類個(gè)數(shù)默認(rèn)2每次迭代都重新定中心類,默認(rèn)初始類中心點(diǎn)不變即只迭代一次【設(shè)置界面設(shè)置界面】K-means快速聚類其他其他1. 1. 保
12、存快速聚類的結(jié)果保存快速聚類的結(jié)果( (save)save)cluster membership:cluster membership:將各個(gè)案所屬類的類號(hào)保存到將各個(gè)案所屬類的類號(hào)保存到qcl_qcl_1 1變量中變量中distance from cluster center:distance from cluster center:將各樣本距所屬類將各樣本距所屬類中心中心的距離保存到的距離保存到qcl_2qcl_2變量中變量中. .存變量所屬類存樣本點(diǎn)到類中心距離【save按鈕按鈕】K-means快速聚類其他其他2.2.輸出選項(xiàng)輸出選項(xiàng)( (option)option)initial cl
13、uster centers:initial cluster centers:輸出輸出初始類中心點(diǎn)初始類中心點(diǎn)ANOVA table:ANOVA table:輸出各類的方差分析表輸出各類的方差分析表cluster information for each case:cluster information for each case:輸出每個(gè)樣輸出每個(gè)樣本的分類結(jié)果和距離本的分類結(jié)果和距離【option按鈕按鈕】以聚類分析得到的類為分類變量進(jìn)行方差分析K-means快速聚類其他其他3. 3. useuse running means running means項(xiàng)項(xiàng): :選中:表示每個(gè)樣本被分配到一
14、類后立即計(jì)算新的類選中:表示每個(gè)樣本被分配到一類后立即計(jì)算新的類中心。聚類結(jié)果與個(gè)案的先后次序有關(guān)中心。聚類結(jié)果與個(gè)案的先后次序有關(guān). .不選中:表示完成了所有個(gè)案的依次分配后再計(jì)算類不選中:表示完成了所有個(gè)案的依次分配后再計(jì)算類中心中心. .省時(shí)省時(shí). .【iterate按鈕按鈕】最多迭代次數(shù)最多迭代次數(shù)類中心偏移量類中心偏移量0.02K-means快速聚類其他其他4.4.用戶指定類中心用戶指定類中心( (center)center)read initial from:read initial from:若不指定則系統(tǒng)自動(dòng)確定初始若不指定則系統(tǒng)自動(dòng)確定初始類中心。指定則從某類中心。指定則從某
15、. .savsav文件中讀入初始類中心數(shù)文件中讀入初始類中心數(shù)據(jù)(應(yīng)設(shè)一個(gè)名為據(jù)(應(yīng)設(shè)一個(gè)名為Cluster_Cluster_的變量名)的變量名)。Write final as:Write final as:在分析的最后將各類中心寫入在分析的最后將各類中心寫入某某. .savsav文件文件【結(jié)果形式結(jié)果形式】初始類中心點(diǎn),3類中對(duì)應(yīng)1,4,7case每次迭代類中心的偏移量.本例中2次迭代后,偏移量都0.02,迭代結(jié)束最終聚類中心點(diǎn)每個(gè)類中case數(shù)各case進(jìn)入各類情況3類分別反映了各指標(biāo)的下、中、上水平例11-2-23. Discriminant 判別分析判別分析判別分析判別分析是根據(jù)觀測(cè)到
16、的若干自變量值,判斷研究對(duì)象如是根據(jù)觀測(cè)到的若干自變量值,判斷研究對(duì)象如何分類的方法。何分類的方法。前提假設(shè)前提假設(shè):自變量服從正態(tài)分布;預(yù)測(cè)變量間不顯著相關(guān);:自變量服從正態(tài)分布;預(yù)測(cè)變量間不顯著相關(guān);自變量是定距的,分類變量是定序的。自變量是定距的,分類變量是定序的。判別分析與聚類分析的區(qū)別在于判別分析要求已知一系列判別分析與聚類分析的區(qū)別在于判別分析要求已知一系列反映事物特征的自變量值,且至少有一個(gè)已經(jīng)明確知反映事物特征的自變量值,且至少有一個(gè)已經(jīng)明確知道類別的道類別的“訓(xùn)練樣本訓(xùn)練樣本”,利用其建立判別準(zhǔn)則。,利用其建立判別準(zhǔn)則?;舅悸坊舅悸罚合冉ㄅ袆e函數(shù):先建判別函數(shù)( (可能多
17、個(gè)可能多個(gè)) Y=a) Y=a1 1x x1 1+.+a+.+an nx xn n,其中其中Y Y為判別分?jǐn)?shù),為判別分?jǐn)?shù),x x1 1,.,x,.,xn n為反映研究對(duì)象特征的變?yōu)榉从逞芯繉?duì)象特征的變量,量,a a1 1,.,a,.,an n為判別系數(shù);為判別系數(shù);再將每個(gè)再將每個(gè)casecase的自變量觀測(cè)值代入判別函數(shù),得出判別分的自變量觀測(cè)值代入判別函數(shù),得出判別分?jǐn)?shù),從而確定其屬于哪一類,或計(jì)算屬于各類的概率。數(shù),從而確定其屬于哪一類,或計(jì)算屬于各類的概率。 對(duì)判別函數(shù)的優(yōu)劣需要進(jìn)行評(píng)價(jià)對(duì)判別函數(shù)的優(yōu)劣需要進(jìn)行評(píng)價(jià). .常用的評(píng)價(jià)方法有回常用的評(píng)價(jià)方法有回代考核、前瞻性考核和刀切法。代
18、考核、前瞻性考核和刀切法。 回代考核采用建立的判別函數(shù)對(duì)訓(xùn)練樣本進(jìn)行判別分回代考核采用建立的判別函數(shù)對(duì)訓(xùn)練樣本進(jìn)行判別分類,根據(jù)判別分類結(jié)果與原始分類的符合率評(píng)價(jià)判別類,根據(jù)判別分類結(jié)果與原始分類的符合率評(píng)價(jià)判別函數(shù)的優(yōu)劣,如果符合率高,一般要求正確回代率高函數(shù)的優(yōu)劣,如果符合率高,一般要求正確回代率高于于80%,80%,則說(shuō)明判別效果好。則說(shuō)明判別效果好。 前瞧性考核對(duì)訓(xùn)練樣本以外的樣本前瞧性考核對(duì)訓(xùn)練樣本以外的樣本稱為外考核樣本稱為外考核樣本) )進(jìn)行判別進(jìn)行判別. .前瞻性考核的結(jié)果更能夠說(shuō)明判別函數(shù)的好前瞻性考核的結(jié)果更能夠說(shuō)明判別函數(shù)的好壞。壞。 刀切法的基木思想是刀切法的基木思想是: :每次擱置一個(gè)樣品,用其余的每次擱置一個(gè)樣品,用其余的n-n-1 1個(gè)樣品建立判別函數(shù),然后對(duì)被擱置的樣品進(jìn)行判別個(gè)樣品建立判別函數(shù),然后對(duì)被擱置的樣品進(jìn)行判別分類。從第一個(gè)樣品到最后一個(gè)樣品,每個(gè)樣品都被分類。從第一個(gè)樣品到最后一個(gè)樣品,每個(gè)樣品都被判別分類一次,通過(guò)判別分類一次
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川省駐重慶辦事處招聘真題2024
- 化學(xué)實(shí)驗(yàn)品質(zhì)提升
- 漢字演變之旅
- 寒露節(jié)氣與農(nóng)業(yè)循環(huán)
- 2025至2030年中國(guó)抑菌神強(qiáng)效漱口液市場(chǎng)分析及競(jìng)爭(zhēng)策略研究報(bào)告
- 2025━2030年精鑄不銹鋼管件行業(yè)深度研究報(bào)告
- 2025-2035年全球及中國(guó)甲基二硫代氨基甲酸鈉行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及發(fā)展前景研究報(bào)告
- 工業(yè)制造新挑戰(zhàn)與機(jī)遇
- 預(yù)防奧密克戎
- 食品質(zhì)量與安全管理
- 教師系列高、中級(jí)職稱申報(bào)人員民意測(cè)評(píng)表
- 社會(huì)穩(wěn)定風(fēng)險(xiǎn)評(píng)估報(bào)告-穩(wěn)評(píng)報(bào)告
- 2024屆高考英語(yǔ)作文:讀后續(xù)寫課件
- 小學(xué)班隊(duì)工作原理與實(shí)踐 全套課件
- 形式語(yǔ)言與自動(dòng)機(jī)理論-蔣宗禮-第一章參考答案
- 注塑生產(chǎn)過(guò)程控制流程
- 教科版六年級(jí)科學(xué)下冊(cè) (廚房里的物質(zhì)與變化)教學(xué)課件
- 腸造口術(shù)-課件
- 建設(shè)工程概算預(yù)算結(jié)算管理規(guī)定
- 消費(fèi)者心理與行為分析PPT(第四版)完整全套教學(xué)課件
- 2021年安徽省公務(wù)員考試《申論》真題A卷
評(píng)論
0/150
提交評(píng)論