第8章聚類分析與判別分析

上傳人：5*** IP屬地：湖北上傳時間：2022-06-29 格式：PPT 頁數(shù)：132 大小：2.87MB 積分：30 舉報 版權申訴

已閱讀5頁，還剩127頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、SPSS 16實用教程第第8章章聚類分析與判別分析聚類分析與判別分析聚類分析與判別分析的基本概念聚類分析與判別分析的基本概念8.1層次聚類分析中的層次聚類分析中的QQ型聚類型聚類8.2層次聚類分析中的層次聚類分析中的R R型聚類型聚類8.3快速聚類分析快速聚類分析8.4判判別別分分析析8.5 本章介紹統(tǒng)計學中經常使用的分類統(tǒng)計分本章介紹統(tǒng)計學中經常使用的分類統(tǒng)計分析方法析方法聚類分析與判別分析。主要內容有聚類分析與判別分析。主要內容有層次聚類分析、快速聚類分析和判別分析。其層次聚類分析、快速聚類分析和判別分析。其中層次聚類分析根據(jù)聚類的對象不同分成中層次聚類分析根據(jù)聚類的對象不同分成Q

2、 Q型型聚類和聚類和R R型聚類。型聚類。統(tǒng)計學研究這類問題的常用分類統(tǒng)計方法統(tǒng)計學研究這類問題的常用分類統(tǒng)計方法主要有聚類分析（主要有聚類分析（cluster analysiscluster analysis）與判）與判別分析（別分析（discriminantdiscriminant analysis analysis）。其中聚）。其中聚類分析是統(tǒng)計學中研究這種類分析是統(tǒng)計學中研究這種“物以類聚物以類聚”問題問題的一種有效方法，它屬于統(tǒng)計分析的范疇。聚的一種有效方法，它屬于統(tǒng)計分析的范疇。聚類分析的實質是建立一種分類方法，它能夠將類分析的實質是建立一種分類方法，它能夠將一批樣本數(shù)據(jù)按照他們

3、在性質上的親密程度在一批樣本數(shù)據(jù)按照他們在性質上的親密程度在沒有先驗知識的情況下自動進行分類。這里所沒有先驗知識的情況下自動進行分類。這里所說的類就是一個具有相似性的個體的集合，不說的類就是一個具有相似性的個體的集合，不同類之間具有明顯的區(qū)別。同類之間具有明顯的區(qū)別。聚類分析是一種探索性的分析，在分類的聚類分析是一種探索性的分析，在分類的過程中，人們不必事先給出一個分類的標準，過程中，人們不必事先給出一個分類的標準，聚類分析能夠從樣本數(shù)據(jù)出發(fā)，自動進行分類。聚類分析能夠從樣本數(shù)據(jù)出發(fā)，自動進行分類。聚類分析所使用方法的不同，常常會得到不同聚類分析所使用方法的不同，常常會得到不同的結論。不同研

4、究者對于同一組數(shù)據(jù)進行聚類的結論。不同研究者對于同一組數(shù)據(jù)進行聚類分析，所得到的聚類數(shù)未必一致。因此我們說分析，所得到的聚類數(shù)未必一致。因此我們說聚類分析是一種探索性的分析方法。聚類分析是一種探索性的分析方法。對個案的聚類分析類似于判別分析，都是對個案的聚類分析類似于判別分析，都是將一些觀察個案進行分類。聚類分析時，個案將一些觀察個案進行分類。聚類分析時，個案所屬的群組特點還未知。也就是說，在聚類分所屬的群組特點還未知。也就是說，在聚類分析之前，研究者還不知道獨立觀察組可以分成析之前，研究者還不知道獨立觀察組可以分成多少個類，類的特點也無所得知。多少個類，類的特點也無所得知。變量的聚類分析

5、類似于因素分析。兩者都變量的聚類分析類似于因素分析。兩者都可用于辨別變量的相關組別。不同在于，因素可用于辨別變量的相關組別。不同在于，因素分析在合并變量的時候，是同時考慮所有變量分析在合并變量的時候，是同時考慮所有變量之間的關系；而變量的聚類分析，則采用層次之間的關系；而變量的聚類分析，則采用層次式的判別方式，根據(jù)個別變量之間的親疏程度式的判別方式，根據(jù)個別變量之間的親疏程度逐次進行聚類。逐次進行聚類。聚類分析的方法，主要有兩種，一種是聚類分析的方法，主要有兩種，一種是“快速聚類分析方法快速聚類分析方法”（K KMeans Cluster Means Cluster AnalyAnaly-

6、sis- sis），另一種是），另一種是“層次聚類分析方層次聚類分析方法法”（Hierarchical Cluster AnalysisHierarchical Cluster Analysis）。）。如果觀察值的個數(shù)多或文件非常龐大（通常觀如果觀察值的個數(shù)多或文件非常龐大（通常觀察值在察值在200200個以上），則宜采用快速聚類分析個以上），則宜采用快速聚類分析方法。因為觀察值數(shù)目巨大，層次聚類分析的方法。因為觀察值數(shù)目巨大，層次聚類分析的兩種判別圖形會過于分散，不易解釋。兩種判別圖形會過于分散，不易解釋。判別分析是一種有效的對個案進行分類分判別分析是一種有效的對個案進行分類分析的方法。和

7、聚類分析不同的是，判別分析時，析的方法。和聚類分析不同的是，判別分析時，組別的特征已知。如銀行為了對貸款進行管理，組別的特征已知。如銀行為了對貸款進行管理，需要預測哪些類型的客戶可能不會按時歸還貸需要預測哪些類型的客戶可能不會按時歸還貸款。已知過去幾年中，款。已知過去幾年中，900900個客戶的貸款歸還個客戶的貸款歸還信譽度，據(jù)此可以將客戶分成兩組：可靠客戶信譽度，據(jù)此可以將客戶分成兩組：可靠客戶和不可靠客戶。和不可靠客戶。再通過收集客戶的一些資料，如年齡、工再通過收集客戶的一些資料，如年齡、工資收入、教育程度、存款等，將這些資料作為資收入、教育程度、存款等，將這些資料作為自變量。通過判別分

8、析，建立判別函數(shù)。那么，自變量。通過判別分析，建立判別函數(shù)。那么，如果有如果有150150個新的客戶提交貸款請求，就可以個新的客戶提交貸款請求，就可以利用創(chuàng)建好的判別函數(shù)，對新的客戶進行分析，利用創(chuàng)建好的判別函數(shù)，對新的客戶進行分析，從而判斷新的客戶是屬于可靠客戶類，還是不從而判斷新的客戶是屬于可靠客戶類，還是不可靠客戶類?？煽靠蛻纛悺?層次聚類分析是根據(jù)觀察值或變量之間的層次聚類分析是根據(jù)觀察值或變量之間的親疏程度，將最相似的對象結合在一起，以逐親疏程度，將最相似的對象結合在一起，以逐次聚合的方式（次聚合的方式（Agglomerative Agglomerative ClusteringCl

9、ustering），它將觀察值分類，直到最后），它將觀察值分類，直到最后所有樣本都聚成一類。所有樣本都聚成一類。層次聚類分析有兩種形式，一種是對樣層次聚類分析有兩種形式，一種是對樣本（個案）進行分類，稱為本（個案）進行分類，稱為Q Q型聚類，它使具型聚類，它使具有共同特點的樣本聚齊在一起，以便對不同類有共同特點的樣本聚齊在一起，以便對不同類的樣本進行分析；另一種是對研究對象的觀察的樣本進行分析；另一種是對研究對象的觀察變量進行分類，稱為變量進行分類，稱為R R型聚類。它使具有共同型聚類。它使具有共同特征的變量聚在一起，以便從不同類中分別選特征的變量聚在一起，以便從不同類中分別選出具有代表性的

10、變量作分析，從而減少分析變出具有代表性的變量作分析，從而減少分析變量的個數(shù)。量的個數(shù)。本節(jié)講述本節(jié)講述Q Q型聚類的原理和型聚類的原理和SPSSSPSS的實現(xiàn)過的實現(xiàn)過程，下一節(jié)將講述程，下一節(jié)將講述R R型聚類的實現(xiàn)過程。型聚類的實現(xiàn)過程。定義：層次聚類分析中的定義：層次聚類分析中的Q Q型聚類，它使型聚類，它使具有共同特點的樣本聚齊在一起，以便對不同具有共同特點的樣本聚齊在一起，以便對不同類的樣本進行分析。類的樣本進行分析。8.2.1 統(tǒng)計學上的定義和計算公式統(tǒng)計學上的定義和計算公式層次聚類分析中，測量樣本之間的親疏程層次聚類分析中，測量樣本之間的親疏程度是關鍵。聚類的時候會涉及到兩

11、種類型親疏度是關鍵。聚類的時候會涉及到兩種類型親疏程度的計算：一種是樣本數(shù)據(jù)之間的親疏程度，程度的計算：一種是樣本數(shù)據(jù)之間的親疏程度，一種是樣本數(shù)據(jù)與小類、小類與小類之間的親一種是樣本數(shù)據(jù)與小類、小類與小類之間的親疏程度。下面講述這兩種類型親疏程度的計算疏程度。下面講述這兩種類型親疏程度的計算方法和公式。方法和公式。計算公式如下。計算公式如下。樣本數(shù)據(jù)之間的親疏程度主要通過樣本之樣本數(shù)據(jù)之間的親疏程度主要通過樣本之間的距離、樣本間的相關系數(shù)來度量。間的距離、樣本間的相關系數(shù)來度量。SPSSSPSS根根據(jù)變量數(shù)據(jù)類型的不同，采用不同的測定親疏據(jù)變量數(shù)據(jù)類型的不同，采用不同的測定親疏程度的方法

12、。程度的方法。樣本若有樣本若有k k個變量，則可以將樣本看成是個變量，則可以將樣本看成是一個一個k k維的空間的一個點，樣本和樣本之間的維的空間的一個點，樣本和樣本之間的距離就是距離就是k k維空間點和點之間的距離，這反映維空間點和點之間的距離，這反映了樣本之間的親疏程度。聚類時，距離相近的了樣本之間的親疏程度。聚類時，距離相近的樣本屬于一個類，距離遠的樣本屬于不同類。樣本屬于一個類，距離遠的樣本屬于不同類。1連續(xù)變量的樣本距離測量方法連續(xù)變量的樣本距離測量方法（1 1）歐氏距離（）歐氏距離（Euclidean DistanceEuclidean Distance）兩個樣本之間的歐氏距離是

13、樣本各個變量值之兩個樣本之間的歐氏距離是樣本各個變量值之差的平方和的平方根，計算公式為差的平方和的平方根，計算公式為（2 2）歐氏距離平方（）歐氏距離平方（Squared Squared Euclidean DistanceEuclidean Distance）兩個樣本之間的歐氏距離平方是各樣本每兩個樣本之間的歐氏距離平方是各樣本每個變量值之差的平方和，計算公式為個變量值之差的平方和，計算公式為（3 3）ChebychevChebychev距離距離兩個樣本之間的兩個樣本之間的ChebychevChebychev距離是各樣距離是各樣本所有變量值之差絕對值中的最大值，計算公本所有變量值之差

14、絕對值中的最大值，計算公式為式為（4 4）BlockBlock距離距離兩個樣本之間的兩個樣本之間的BlockBlock距離是各樣本所距離是各樣本所有變量值之差絕對值的總和，計算公式為有變量值之差絕對值的總和，計算公式為（5 5）MinkowskiMinkowski距離距離兩個樣本之間的兩個樣本之間的MinkowskiMinkowski距離是各樣距離是各樣本所有變量值之差絕對值的本所有變量值之差絕對值的p p次方的總和，再次方的總和，再求求p p次方根。計算公式為次方根。計算公式為（6 6）CustomizedCustomized距離（用戶自定義距離）距離（用戶自定義距離）兩個樣本之

15、間的兩個樣本之間的CustomizedCustomized距離是各樣距離是各樣本所有變量值之差絕對值的本所有變量值之差絕對值的p p次方的總和，再次方的總和，再求求q q次方根。計算公式為次方根。計算公式為連續(xù)變量親疏程度的度量，除了上面的各連續(xù)變量親疏程度的度量，除了上面的各種距離外，還可以計算其他統(tǒng)計指標。如種距離外，還可以計算其他統(tǒng)計指標。如PearsonPearson相關系數(shù)、相關系數(shù)、SosineSosine相似度等。相似度等。2連續(xù)變量的樣本親疏程度的其他測量方法連續(xù)變量的樣本親疏程度的其他測量方法3順序或名義變量的樣本親疏程度測量順序或名義變量的樣本親疏程度測量方法方法對于此

16、類變量，可以計算一些有關相似性對于此類變量，可以計算一些有關相似性的統(tǒng)計指標來測定樣本間的親疏程度。也可以的統(tǒng)計指標來測定樣本間的親疏程度。也可以通過下面兩個計算公式來得到。通過下面兩個計算公式來得到。4樣本數(shù)據(jù)與小類、小類與小類之間的樣本數(shù)據(jù)與小類、小類與小類之間的親疏程度測量方法親疏程度測量方法 SPSS SPSS默認的變量為默認的變量為Var00001Var00001、Var00002Var00002等，用戶也可以根據(jù)自己的需要來命名變量。等，用戶也可以根據(jù)自己的需要來命名變量。SPSSSPSS變量的命名和一般的編程語言一樣，有一變量的命名和一般的編程語言一樣，有一定的命名規(guī)則，具體內容

17、如下。定的命名規(guī)則，具體內容如下。所謂小類，是在聚類過程中根據(jù)樣本之間所謂小類，是在聚類過程中根據(jù)樣本之間親疏程度形成的中間類，小類和樣本、小類與親疏程度形成的中間類，小類和樣本、小類與小類繼續(xù)聚合，最終將所有樣本都包括在一個小類繼續(xù)聚合，最終將所有樣本都包括在一個大類中。大類中。在在SPSSSPSS聚類運算過程中，需要計算樣本聚類運算過程中，需要計算樣本與小類、小類與小類之間的親疏程度。與小類、小類與小類之間的親疏程度。SPSSSPSS提提供了多種計算方法（計算規(guī)則）。供了多種計算方法（計算規(guī)則）。（1 1）最短距離法（）最短距離法（Nearest NeighborNearest Ne

18、ighbor）以當前某個樣本與已經形成小類中的各樣以當前某個樣本與已經形成小類中的各樣本距離的最小值作為當前樣本與該小類之間的本距離的最小值作為當前樣本與該小類之間的距離。距離。（2 2）最長距離法（）最長距離法（Furthest NeighborFurthest Neighbor）以當前某個樣本與已經形成小類中的各樣以當前某個樣本與已經形成小類中的各樣本距離的最大值作為當前樣本與該小類之間的本距離的最大值作為當前樣本與該小類之間的距離。距離。（3 3）類間平均鏈鎖法（）類間平均鏈鎖法（Between-groups Between-groups LinkageLinkage）兩個小類

19、之間的距離為兩個小類內所有樣兩個小類之間的距離為兩個小類內所有樣本間的平均距離。本間的平均距離。（4 4）類內平均鏈鎖法（）類內平均鏈鎖法（Within-groups Within-groups LinkageLinkage）與小類間平均鏈鎖法類似，這里的平均距與小類間平均鏈鎖法類似，這里的平均距離是對所有樣本對的距離求平均值，包括小類離是對所有樣本對的距離求平均值，包括小類之間的樣本對、小類內的樣本對。之間的樣本對、小類內的樣本對。（5 5）重心法（）重心法（CentroidCentroid Clustering Clustering）將兩小類間的距離定義成兩小類重心間的將兩小類間的

20、距離定義成兩小類重心間的距離。每一小類的重心就是該類中所有樣本在距離。每一小類的重心就是該類中所有樣本在各個變量上的均值代表點。各個變量上的均值代表點。（6 6）離差平方和法（）離差平方和法（Wards MethodWards Method）小類合并的方法：在聚類過程中，使小類小類合并的方法：在聚類過程中，使小類內各個樣本的歐氏距離總平方和增加最小的兩內各個樣本的歐氏距離總平方和增加最小的兩小類合并成一類。小類合并成一類。研究問題研究問題對一個班同學的數(shù)學水平進行聚類。聚類對一個班同學的數(shù)學水平進行聚類。聚類的依據(jù)是第一次數(shù)學考試的成績和入學考試的的依據(jù)是第一次數(shù)學考試的成績和入學考試

21、的成績。數(shù)據(jù)如表成績。數(shù)據(jù)如表8-18-1所示。所示。8.2.2 SPSS中實現(xiàn)過程中實現(xiàn)過程姓姓名名數(shù)數(shù) 學學入入學學成成績績hxh99.0098.00yaju88.0089.00yu79.0080.00shizg89.0078.00hah75.0078.00john60.0065.00watet79.0087.00jess75.0076.00wish60.0056.00Iiakii100.00100.00 實現(xiàn)步驟實現(xiàn)步驟由于本例中選中的選項較多，這里按照各由于本例中選中的選項較多，這里按照各個結果分別解釋。個結果分別解釋。（1 1）首先是層次聚類分析的概要結果，）首先是層次聚

22、類分析的概要結果，該結果是該結果是SPSSSPSS輸出結果文件中的第一個表格，輸出結果文件中的第一個表格，如下表所示。如下表所示。8.2.3 結果和討論結果和討論（2 2）輸出的結果文件中第二個表格如下表）輸出的結果文件中第二個表格如下表所示。所示。（3 3）輸出的結果文件中第三個表格為層）輸出的結果文件中第三個表格為層次聚類分析的凝聚狀態(tài)表，包括：次聚類分析的凝聚狀態(tài)表，包括：（4 4）輸出的結果文件中第四個表格如下）輸出的結果文件中第四個表格如下表所示。表所示。（5 5）輸出的結果文件中第五個表格如下）輸出的結果文件中第五個表格如下表所示。表所示。（6 6）輸出的結果文件中第六部

23、分如圖）輸出的結果文件中第六部分如圖8-8-7 7所示。所示。（7 7）由于對圖）由于對圖8-6“Hierarchical 8-6“Hierarchical Cluster Analysis: Save New VarCluster Analysis: Save New Var”對話框對話框進行了設置，將聚類成三類時，各個樣本的類進行了設置，將聚類成三類時，各個樣本的類歸屬情況保存為一個變量，因此在歸屬情況保存為一個變量，因此在SPSSSPSS數(shù)據(jù)編數(shù)據(jù)編輯窗口中就新增了一個變量的值，如圖輯窗口中就新增了一個變量的值，如圖8-88-8所所示。示。8.3.1 統(tǒng)計學上的定義和計算公式統(tǒng)計學上的

24、定義和計算公式定義：層次聚類分析中的定義：層次聚類分析中的R R型聚類是對研型聚類是對研究對象的觀察變量進行分類，它使具有共同特究對象的觀察變量進行分類，它使具有共同特征的變量聚在一起。以便可以從不同類中分別征的變量聚在一起。以便可以從不同類中分別選出具有代表性的變量作分析，從而減少分析選出具有代表性的變量作分析，從而減少分析變量的個數(shù)。變量的個數(shù)。計算公式：計算公式：R R型聚類的計算公式和型聚類的計算公式和Q Q型聚型聚類的計算公式是類似的，不同的是類的計算公式是類似的，不同的是R R型聚類是型聚類是對變量間進行距離的計算，對變量間進行距離的計算，Q Q型聚類則是對樣型聚類則是對樣本間

25、進行距離的計算。本間進行距離的計算。研究問題研究問題對一個班同學的各科成績進行聚類，分析對一個班同學的各科成績進行聚類，分析哪些課程是屬于一個類的。聚類的依據(jù)是哪些課程是屬于一個類的。聚類的依據(jù)是4 4門門功課的考試成績，數(shù)據(jù)如表功課的考試成績，數(shù)據(jù)如表8-28-2所示。所示。8.3.2 SPSS中實現(xiàn)過程中實現(xiàn)過程姓姓名名數(shù)數(shù) 學學物物理理語語文文政政治治hxh99.0098.0078.0080.00yaju88.0089.0089.0090.00yu79.0080.0095.0097.00shizg89.0078.0081.0082.00hah75.0078.0095.0096

26、.00john60.0065.0085.0088.00watet79.0087.0050.0051.00jess75.0076.0088.0089.00wish60.0056.0089.0090.00Iiakii100.00100.0085.0084.00 實現(xiàn)步驟實現(xiàn)步驟（1 1）首先是層次）首先是層次R R型聚類分析的結果，型聚類分析的結果，該結果是該結果是SPSSSPSS輸出結果文件中的第一個表格。輸出結果文件中的第一個表格。8.3.3 結果和討論結果和討論（2 2）輸出的結果文件中第二個表格如下）輸出的結果文件中第二個表格如下表所示。表所示。（3 3）輸出的結果文件中第三個表格如

27、下）輸出的結果文件中第三個表格如下表所示。表所示。（4 4）輸出的結果文件中第四個表格如下）輸出的結果文件中第四個表格如下表所示。表所示。（5 5）輸出的結果文件中第五個表格如）輸出的結果文件中第五個表格如下表所示。下表所示。（6 6）輸出的結果文件中第六部分如下：）輸出的結果文件中第六部分如下： SPSS SPSS層次聚類分析對計算機的要求比較層次聚類分析對計算機的要求比較高，在大樣本的情況下，可以采用快速聚類分高，在大樣本的情況下，可以采用快速聚類分析的方法。采用快速聚類分析，得到的結果比析的方法。采用快速聚類分析，得到的結果比較簡單易懂，對計算機的性能要求也不高，因較簡單易懂，對計

28、算機的性能要求也不高，因此應用也比較廣。此應用也比較廣。定義：快速聚類分析是由用戶指定類別數(shù)定義：快速聚類分析是由用戶指定類別數(shù)的大樣本資料的逐步聚類分析。它先對數(shù)據(jù)進的大樣本資料的逐步聚類分析。它先對數(shù)據(jù)進行初始分類，然后逐步調整，得到最終分類。行初始分類，然后逐步調整，得到最終分類?？焖倬垲惙治龅膶嵸|是快速聚類分析的實質是K-MeanK-Mean聚類。聚類。 8.4.1 統(tǒng)計學上的定義和計算公式統(tǒng)計學上的定義和計算公式和層次聚類分析一致，快速聚類分析也和層次聚類分析一致，快速聚類分析也以距離為樣本間親疏程度的標志。但兩者的不以距離為樣本間親疏程度的標志。但兩者的不同在于：層次聚類可以對

29、不同的聚類類數(shù)產生同在于：層次聚類可以對不同的聚類類數(shù)產生一系列的聚類解，而快速聚類只能產生固定類一系列的聚類解，而快速聚類只能產生固定類數(shù)的聚類解，類數(shù)需要用戶事先指定。數(shù)的聚類解，類數(shù)需要用戶事先指定。另外，在快速聚類分析中，用戶可以自己另外，在快速聚類分析中，用戶可以自己指定初始的類中心點。如果用戶的經驗比較豐指定初始的類中心點。如果用戶的經驗比較豐富，則可以指定比較合理的初始類中心點，否富，則可以指定比較合理的初始類中心點，否則，需要增加迭代的次數(shù)，以保證最終聚類結則，需要增加迭代的次數(shù)，以保證最終聚類結果的準確性。果的準確性。計算公式如下。計算公式如下。快速聚類分析計算過程如下

30、?？焖倬垲惙治鲇嬎氵^程如下。首先需要用戶指定聚類成多少類（比首先需要用戶指定聚類成多少類（比如如k k類）。類）。然后然后SPSSSPSS確定確定k k個類的初始類中心點。個類的初始類中心點。SPSSSPSS會根據(jù)樣本數(shù)據(jù)的實際情況，選擇會根據(jù)樣本數(shù)據(jù)的實際情況，選擇k k個由個由代表性的樣本數(shù)據(jù)作為初始類中心。初始類中代表性的樣本數(shù)據(jù)作為初始類中心。初始類中心也可以由用戶自行指定，需要指定心也可以由用戶自行指定，需要指定K K組樣本組樣本數(shù)據(jù)作為初始類中心點。數(shù)據(jù)作為初始類中心點。計算所有樣本數(shù)據(jù)點到計算所有樣本數(shù)據(jù)點到k k個類中心點的個類中心點的歐氏距離，歐氏距離，SPSSSPSS

31、按照距按照距k k個類中心點距離最短個類中心點距離最短原則，把所有樣本分派到各中心點所在的類中，原則，把所有樣本分派到各中心點所在的類中，形成一個新的形成一個新的k k類，完成一次迭代過程。其中類，完成一次迭代過程。其中歐氏距離（歐氏距離（Euclidean DistanceEuclidean Distance）的計算公）的計算公式為式為 SPSS SPSS重新確定重新確定k k個類的中心點。個類的中心點。SPSSSPSS計計算每個類中各個變量的變量值均值，并以均值算每個類中各個變量的變量值均值，并以均值點作為新的類中心點。點作為新的類中心點。重復上面的兩步計算過程，直到達到重復上面的兩步計

32、算過程，直到達到指定的迭代次數(shù)或終止迭代的判斷要求為止。指定的迭代次數(shù)或終止迭代的判斷要求為止。研究問題研究問題為研究不同公司的運營特點，調查了為研究不同公司的運營特點，調查了1515個公司的組織文化、組織氛圍、領導角色和員個公司的組織文化、組織氛圍、領導角色和員工發(fā)展工發(fā)展4 4方面的內容?，F(xiàn)要將這方面的內容?，F(xiàn)要將這1515個公司按照個公司按照其各自的特點分成其各自的特點分成4 4種類型，數(shù)據(jù)如表種類型，數(shù)據(jù)如表8-38-3所示。所示。8.4.2 SPSS中實現(xiàn)過程中實現(xiàn)過程公公司司組組織織文文化化組組織織氛氛圍圍領領導導角角色色員員工工發(fā)發(fā) 展展Microso

33、f80.0085.0075.0090.00IBM 85.0085.0090.0090.00Dell 85.0085.0085.0060.00Apple 90.0090.0075.0090.00聯(lián)想聯(lián)想 99.0098.0078.0080.00NPP 88.0089.0089.0090.00北京電子北京電子79.0080.0095.0097.00清華紫光清華紫光89.0078.0081.0082.00北大方正北大方正75.0078.0095.0096.00TCL 60.0065.0085.0088.00娃哈哈娃哈哈 79.0087.0050.0051.00Angel 75.0076.0088.0

34、089.00Hussar 60.0056.0089.0090.00世紀飛揚世紀飛揚100.00100.0085.0084.00Vinda 61.0064.0089.0060.00 實現(xiàn)步驟實現(xiàn)步驟本例中選中的選項較多，這里按照各個結本例中選中的選項較多，這里按照各個結果分別解釋。果分別解釋。（1 1）SPSSSPSS輸出結果文件中的第一部分如輸出結果文件中的第一部分如下表所示。下表所示。 8.4.3 結果和討論結果和討論（2 2）輸出的結果文件中第二部分如下表）輸出的結果文件中第二部分如下表所示。所示。（3 3）輸出的結果文件中第三部分是快速）輸出的結果文件中第三部分是快速聚類分析后的

35、各個類包含樣本的情況。聚類分析后的各個類包含樣本的情況。（4 4）輸出的結果文件中第四部分如下表）輸出的結果文件中第四部分如下表所示。所示。（5 5）輸出的結果文件中第五個部分如下）輸出的結果文件中第五個部分如下表所示。表所示。（6 6）輸出的結果文件中第六個部分如下）輸出的結果文件中第六個部分如下表所示。表所示。（7 7）輸出結果的最后一個表格列出了）輸出結果的最后一個表格列出了4 4個類中分別包括的樣本數(shù)，如下表所示。個類中分別包括的樣本數(shù)，如下表所示。（8 8）在步驟）在步驟5 5中曾指定了將樣本所屬類中曾指定了將樣本所屬類以及樣本和類中心點的距離，作為樣本的以及樣本和類中心點

36、的距離，作為樣本的2 2個個新變量保存到新變量保存到SPSSSPSS的數(shù)據(jù)編輯窗口中。的數(shù)據(jù)編輯窗口中。SPSSSPSS運行后，數(shù)據(jù)編輯窗口如圖運行后，數(shù)據(jù)編輯窗口如圖8-218-21所示，其中我所示，其中我們可以看到新增加了兩個變量（圖中加深的兩們可以看到新增加了兩個變量（圖中加深的兩列），分別表示樣本所屬類以及樣本和類中心列），分別表示樣本所屬類以及樣本和類中心點的距離。點的距離。前面前面3 3節(jié)講述了不同種聚類分析的方法，節(jié)講述了不同種聚類分析的方法，不論是哪種方法，聚類分析都是直接比較各事不論是哪種方法，聚類分析都是直接比較各事物之間的性質，將性質相近的歸為一類，將性物之間的性質，將

37、性質相近的歸為一類，將性質差別較大的歸入不同的類。質差別較大的歸入不同的類。本節(jié)講述的判別分析，也是一種比較常用本節(jié)講述的判別分析，也是一種比較常用的分類分析方法。判別分析先根據(jù)已知類別的的分類分析方法。判別分析先根據(jù)已知類別的事物的性質，利用某種技術建立函數(shù)式，然后事物的性質，利用某種技術建立函數(shù)式，然后對未知類別的新事物進行判斷以將之歸入已知對未知類別的新事物進行判斷以將之歸入已知的類別中。的類別中。有學者在研究中提出，可以利用判別分析有學者在研究中提出，可以利用判別分析來對聚類分析結果的準確性進行檢驗。聚類分來對聚類分析結果的準確性進行檢驗。聚類分析分成幾類后，即可以作為判別分析的類

38、別輸析分成幾類后，即可以作為判別分析的類別輸入，進行判斷。入，進行判斷。定義：判別分析先根據(jù)已知類別的事物的定義：判別分析先根據(jù)已知類別的事物的性質（自變量），建立函數(shù)式（自變量的線性性質（自變量），建立函數(shù)式（自變量的線性組合，即判別函數(shù)），然后對未知類別的新事組合，即判別函數(shù)），然后對未知類別的新事物進行判斷以將之歸入已知的類別中。物進行判斷以將之歸入已知的類別中。8.5.1 統(tǒng)計學上的定義和計算公式統(tǒng)計學上的定義和計算公式判別分析有如下的假定：判別分析有如下的假定：預測變量服從正態(tài)分布。預測變量服從正態(tài)分布。預測變量之間沒有顯著的相關。預測變量之間沒有顯著的相關。預測變量的平均

39、值和方差不相關。預測變量的平均值和方差不相關。預測變量應是連續(xù)變量，因變量（類預測變量應是連續(xù)變量，因變量（類別或組別）是間斷變量。別或組別）是間斷變量。兩個預測變量之間的相關性在不同類兩個預測變量之間的相關性在不同類中是一樣的。中是一樣的。在分析的各個階段應把握如下的原則：在分析的各個階段應把握如下的原則：事前組別（類）的分類標準（作為判事前組別（類）的分類標準（作為判別分析的因變量）要盡可能準確和可靠，否則別分析的因變量）要盡可能準確和可靠，否則會影響判別函數(shù)的準確性，從而影響判別分析會影響判別函數(shù)的準確性，從而影響判別分析的效果。的效果。所分析的自變量應是因變量的重要影所分析的

40、自變量應是因變量的重要影響因素，應該挑選既有重要特性又有區(qū)別能力響因素，應該挑選既有重要特性又有區(qū)別能力的變量，達到以最少變量而有高辨別能力的目的變量，達到以最少變量而有高辨別能力的目標。標。初始分析的數(shù)目不能太少。初始分析的數(shù)目不能太少。這些判別函數(shù)是各個獨立預測變量的線性這些判別函數(shù)是各個獨立預測變量的線性組合。程序自動選擇第一個判別函數(shù)，以盡可組合。程序自動選擇第一個判別函數(shù)，以盡可能多地區(qū)別各個類，然后再選擇和第一個判別能多地區(qū)別各個類，然后再選擇和第一個判別函數(shù)獨立的第二個判別函數(shù)，盡可能多地提供函數(shù)獨立的第二個判別函數(shù)，盡可能多地提供判別能力。程序將按照這種方式，提供剩下的判別

41、能力。程序將按照這種方式，提供剩下的判別函數(shù)。判別函數(shù)的個數(shù)為判別函數(shù)。判別函數(shù)的個數(shù)為k k。研究問題研究問題調查了調查了1515個公司的組織文化、領導角色個公司的組織文化、領導角色和員工發(fā)展和員工發(fā)展3 3個方面內容作為預測變量，因變個方面內容作為預測變量，因變量為公司對員工的吸引力。為符合研究問題，量為公司對員工的吸引力。為符合研究問題，將公司對員工的吸引力根據(jù)被測的實際填答情將公司對員工的吸引力根據(jù)被測的實際填答情形，劃分為高吸引力組（形，劃分為高吸引力組（group=1group=1）、中吸引）、中吸引力組（力組（group=2group=2）和低吸引力組（）和低吸引力組（gro

42、up=3group=3）。）。數(shù)據(jù)如表數(shù)據(jù)如表8-48-4所示。所示。8.5.2 SPSS中實現(xiàn)過程中實現(xiàn)過程公公司司組組織織文文化化領領導導角角色色員員工工發(fā)發(fā) 展展GroupMicrosoft80.0075.0090.001IBM85.0090.0090.001Dell85.0085.0060.001Apple90.0075.0090.001聯(lián)想聯(lián)想99.0078.0080.001NPP88.0089.0090.002北京電子北京電子79.0095.0097.003清華紫光清華紫光89.0081.0082.001北大方正北大方正75.0095.0096.001TCLE60

43、.0085.0088.003世紀成世紀成79.0050.0051.002Angel75.0088.0089.001Hussar160.0089.0090.003世紀飛揚世紀飛揚100.0085.0084.003Vinda61.0089.0060.003 實現(xiàn)步驟實現(xiàn)步驟（1 1）SPSSSPSS輸出結果文件中的第一部分如輸出結果文件中的第一部分如下表所示。下表所示。8.5.3 結果和討論結果和討論（2 2）輸出的結果文件中第二部分如下表所）輸出的結果文件中第二部分如下表所示。示。（3 3）輸出的結果文件中第三部分如下表所）輸出的結果文件中第三部分如下表所示。示。（4 4）輸出的結果文件中第四部分如下表）輸出的結果文件中第四部分如下表所示。所示。（5 5）輸出的結果文件

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第8章聚類分析與判別分析

文檔簡介

溫馨提示

最新文檔

評論

第8章 聚類分析與判別分析

文檔簡介

溫馨提示

最新文檔

評論

相關文檔

第8章聚類分析與判別分析