版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、聚類分析與判別分析的基本概念聚類分析與判別分析的基本概念8.1層次聚類分析中的層次聚類分析中的QQ型聚類型聚類8.2層次聚類分析中的層次聚類分析中的R R型聚類型聚類8.3快速聚類分析快速聚類分析8.4判判 別別 分分 析析8.5第1頁/共132頁第一頁,編輯于星期六:二十一點 四十九分。 本章介紹統(tǒng)計學中經常使用的分類統(tǒng)計分析方法聚類分析與判別分析。主要內容有層次聚類分析、快速聚類分析和判別分析。其中層次聚類分析根據聚類的對象不同分成Q Q型聚類和R R型聚類。第2頁/共132頁第二頁,編輯于星期六:二十一點 四十九分。 統(tǒng)計學研究這類問題的常用分類統(tǒng)計方法主要有聚類分析(cluster a
2、nalysiscluster analysis)與判別分析(discriminant analysisdiscriminant analysis)。其中聚類分析是統(tǒng)計學中研究這種“物以類聚”問題的一種有效方法,它屬于統(tǒng)計分析的范疇。聚類分析的實質是建立一種分類方法,它能夠將一批樣本數(shù)據按照他們在性質上的親密程度在沒有先驗知識的情況下自動進行分類。這里所說的類就是一個具有相似性的個體的集合,不同類之間具有明顯的區(qū)別。第3頁/共132頁第三頁,編輯于星期六:二十一點 四十九分。 聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據出發(fā),自動進行分類。聚
3、類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數(shù)據進行聚類分析,所得到的聚類數(shù)未必一致。因此我們說聚類分析是一種探索性的分析方法。第4頁/共132頁第四頁,編輯于星期六:二十一點 四十九分。 對個案的聚類分析類似于判別分析,都是將一些觀察個案進行分類。聚類分析時,個案所屬的群組特點還未知。也就是說,在聚類分析之前,研究者還不知道獨立觀察組可以分成多少個類,類的特點也無所得知。第5頁/共132頁第五頁,編輯于星期六:二十一點 四十九分。 變量的聚類分析類似于因素分析。兩者都可用于辨別變量的相關組別。不同在于,因素分析在合并變量的時候,是同時考慮所有變量之間的關系;而變量的聚類
4、分析,則采用層次式的判別方式,根據個別變量之間的親疏程度逐次進行聚類。第6頁/共132頁第六頁,編輯于星期六:二十一點 四十九分。 聚類分析的方法,主要有兩種,一種是“快速聚類分析方法”(K KMeans Cluster Means Cluster Analy- sisAnaly- sis),另一種是“層次聚類分析方法”(Hierarchical Cluster AnalysisHierarchical Cluster Analysis)。如果觀察值的個數(shù)多或文件非常龐大(通常觀察值在200200個以上),則宜采用快速聚類分析方法。因為觀察值數(shù)目巨大,層次聚類分析的兩種判別圖形會過于分散,不易
5、解釋。第7頁/共132頁第七頁,編輯于星期六:二十一點 四十九分。 判別分析是一種有效的對個案進行分類分析的方法。和聚類分析不同的是,判別分析時,組別的特征已知。如銀行為了對貸款進行管理,需要預測哪些類型的客戶可能不會按時歸還貸款。已知過去幾年中,900900個客戶的貸款歸還信譽度,據此可以將客戶分成兩組:可靠客戶和不可靠客戶。 第8頁/共132頁第八頁,編輯于星期六:二十一點 四十九分。 再通過收集客戶的一些資料,如年齡、工資收入、教育程度、存款等,將這些資料作為自變量。通過判別分析,建立判別函數(shù)。那么,如果有150150個新的客戶提交貸款請求,就可以利用創(chuàng)建好的判別函數(shù),對新的客戶進行分析
6、,從而判斷新的客戶是屬于可靠客戶類,還是不可靠客戶類。第9頁/共132頁第九頁,編輯于星期六:二十一點 四十九分。 層次聚類分析是根據觀察值或變量之間的親疏程度,將最相似的對象結合在一起,以逐次聚合的方式(Agglomerative ClusteringAgglomerative Clustering),它將觀察值分類,直到最后所有樣本都聚成一類。第10頁/共132頁第十頁,編輯于星期六:二十一點 四十九分。 層次聚類分析有兩種形式,一種是對樣本(個案)進行分類,稱為Q Q型聚類,它使具有共同特點的樣本聚齊在一起,以便對不同類的樣本進行分析;另一種是對研究對象的觀察變量進行分類,稱為R R型聚
7、類。它使具有共同特征的變量聚在一起,以便從不同類中分別選出具有代表性的變量作分析,從而減少分析變量的個數(shù)。 第11頁/共132頁第十一頁,編輯于星期六:二十一點 四十九分。 本節(jié)講述Q Q型聚類的原理和SPSSSPSS的實現(xiàn)過程,下一節(jié)將講述R R型聚類的實現(xiàn)過程。第12頁/共132頁第十二頁,編輯于星期六:二十一點 四十九分。 定義:層次聚類分析中的Q Q型聚類,它使具有共同特點的樣本聚齊在一起,以便對不同類的樣本進行分析。第13頁/共132頁第十三頁,編輯于星期六:二十一點 四十九分。 層次聚類分析中,測量樣本之間的親疏程度是關鍵。聚類的時候會涉及到兩種類型親疏程度的計算:一種是樣本數(shù)據之
8、間的親疏程度,一種是樣本數(shù)據與小類、小類與小類之間的親疏程度。下面講述這兩種類型親疏程度的計算方法和公式。第14頁/共132頁第十四頁,編輯于星期六:二十一點 四十九分。 計算公式如下。 樣本數(shù)據之間的親疏程度主要通過樣本之間的距離、樣本間的相關系數(shù)來度量。SPSSSPSS根據變量數(shù)據類型的不同,采用不同的測定親疏程度的方法。第15頁/共132頁第十五頁,編輯于星期六:二十一點 四十九分。 樣本若有k k個變量,則可以將樣本看成是一個k k維的空間的一個點,樣本和樣本之間的距離就是k k維空間點和點之間的距離,這反映了樣本之間的親疏程度。聚類時,距離相近的樣本屬于一個類,距離遠的樣本屬于不同類
9、。1連續(xù)變量的樣本距離測量方法連續(xù)變量的樣本距離測量方法第16頁/共132頁第十六頁,編輯于星期六:二十一點 四十九分。 (1 1)歐氏距離(Euclidean DistanceEuclidean Distance)兩個樣本之間的歐氏距離是樣本各個變量值之差的平方和的平方根,計算公式為第17頁/共132頁第十七頁,編輯于星期六:二十一點 四十九分。 (2 2)歐氏距離平方(Squared Euclidean Squared Euclidean DistanceDistance) 兩個樣本之間的歐氏距離平方是各樣本每個變量值之差的平方和,計算公式為第18頁/共132頁第十八頁,編輯于星期六:二十
10、一點 四十九分。 (3 3)ChebychevChebychev距離 兩個樣本之間的ChebychevChebychev距離是各樣本所有變量值之差絕對值中的最大值,計算公式為第19頁/共132頁第十九頁,編輯于星期六:二十一點 四十九分。 (4 4)BlockBlock距離 兩個樣本之間的BlockBlock距離是各樣本所有變量值之差絕對值的總和,計算公式為第20頁/共132頁第二十頁,編輯于星期六:二十一點 四十九分。 (5 5)MinkowskiMinkowski距離 兩個樣本之間的MinkowskiMinkowski距離是各樣本所有變量值之差絕對值的p p次方的總和,再求p p次方根。計
11、算公式為第21頁/共132頁第二十一頁,編輯于星期六:二十一點 四十九分。 (6 6)CustomizedCustomized距離(用戶自定義距離) 兩個樣本之間的CustomizedCustomized距離是各樣本所有變量值之差絕對值的p p次方的總和,再求q q次方根。計算公式為第22頁/共132頁第二十二頁,編輯于星期六:二十一點 四十九分。 連續(xù)變量親疏程度的度量,除了上面的各種距離外,還可以計算其他統(tǒng)計指標。如PearsonPearson相關系數(shù)、SosineSosine相似度等。2連續(xù)變量的樣本親疏程度的其他測量方法連續(xù)變量的樣本親疏程度的其他測量方法第23頁/共132頁第二十三頁
12、,編輯于星期六:二十一點 四十九分。第24頁/共132頁第二十四頁,編輯于星期六:二十一點 四十九分。3順序或名義變量的樣本親疏程度測量方順序或名義變量的樣本親疏程度測量方法法 對于此類變量,可以計算一些有關相似性的統(tǒng)計指標來測定樣本間的親疏程度。也可以通過下面兩個計算公式來得到。第25頁/共132頁第二十五頁,編輯于星期六:二十一點 四十九分。第26頁/共132頁第二十六頁,編輯于星期六:二十一點 四十九分。第27頁/共132頁第二十七頁,編輯于星期六:二十一點 四十九分。4樣本數(shù)據與小類、小類與小類之間的親樣本數(shù)據與小類、小類與小類之間的親疏程度測量方法疏程度測量方法 SPSS SPSS默
13、認的變量為Var00001Var00001、Var00002Var00002等,用戶也可以根據自己的需要來命名變量。SPSSSPSS變量的命名和一般的編程語言一樣,有一定的命名規(guī)則,具體內容如下。第28頁/共132頁第二十八頁,編輯于星期六:二十一點 四十九分。 所謂小類,是在聚類過程中根據樣本之間親疏程度形成的中間類,小類和樣本、小類與小類繼續(xù)聚合,最終將所有樣本都包括在一個大類中。 在SPSSSPSS聚類運算過程中,需要計算樣本與小類、小類與小類之間的親疏程度。SPSSSPSS提供了多種計算方法(計算規(guī)則)。 第29頁/共132頁第二十九頁,編輯于星期六:二十一點 四十九分。 (1 1)最
14、短距離法(Nearest NeighborNearest Neighbor) 以當前某個樣本與已經形成小類中的各樣本距離的最小值作為當前樣本與該小類之間的距離。第30頁/共132頁第三十頁,編輯于星期六:二十一點 四十九分。 (2 2)最長距離法(Furthest NeighborFurthest Neighbor) 以當前某個樣本與已經形成小類中的各樣本距離的最大值作為當前樣本與該小類之間的距離。第31頁/共132頁第三十一頁,編輯于星期六:二十一點 四十九分。 (3 3)類間平均鏈鎖法(Between-groups Between-groups LinkageLinkage) 兩個小類之間
15、的距離為兩個小類內所有樣本間的平均距離。第32頁/共132頁第三十二頁,編輯于星期六:二十一點 四十九分。 (4 4)類內平均鏈鎖法(Within-groups Within-groups LinkageLinkage) 與小類間平均鏈鎖法類似,這里的平均距離是對所有樣本對的距離求平均值,包括小類之間的樣本對、小類內的樣本對。第33頁/共132頁第三十三頁,編輯于星期六:二十一點 四十九分。 (5 5)重心法(Centroid ClusteringCentroid Clustering) 將兩小類間的距離定義成兩小類重心間的距離。每一小類的重心就是該類中所有樣本在各個變量上的均值代表點。第34
16、頁/共132頁第三十四頁,編輯于星期六:二十一點 四十九分。 (6 6)離差平方和法(WardWards Methods Method) 小類合并的方法:在聚類過程中,使小類內各個樣本的歐氏距離總平方和增加最小的兩小類合并成一類。第35頁/共132頁第三十五頁,編輯于星期六:二十一點 四十九分。 研究問題 對一個班同學的數(shù)學水平進行聚類。聚類的依據是第一次數(shù)學考試的成績和入學考試的成績。數(shù)據如表8-18-1所示。第36頁/共132頁第三十六頁,編輯于星期六:二十一點 四十九分。姓姓 名名數(shù)數(shù) 學學入入 學學 成成 績績hxh99.0098.00yaju88.0089.00yu79.0080.0
17、0shizg89.0078.00hah75.0078.00john60.0065.00watet79.0087.00jess75.0076.00wish60.0056.00Iiakii100.00100.00第37頁/共132頁第三十七頁,編輯于星期六:二十一點 四十九分。 實現(xiàn)步驟第38頁/共132頁第三十八頁,編輯于星期六:二十一點 四十九分。第39頁/共132頁第三十九頁,編輯于星期六:二十一點 四十九分。第40頁/共132頁第四十頁,編輯于星期六:二十一點 四十九分。第41頁/共132頁第四十一頁,編輯于星期六:二十一點 四十九分。第42頁/共132頁第四十二頁,編輯于星期六:二十一點
18、 四十九分。第43頁/共132頁第四十三頁,編輯于星期六:二十一點 四十九分。 由于本例中選中的選項較多,這里按照各個結果分別解釋。 (1 1)首先是層次聚類分析的概要結果,該結果是SPSSSPSS輸出結果文件中的第一個表格,如下表所示。第44頁/共132頁第四十四頁,編輯于星期六:二十一點 四十九分。 (2 2)輸出的結果文件中第二個表格如下表所示。第45頁/共132頁第四十五頁,編輯于星期六:二十一點 四十九分。 (3 3)輸出的結果文件中第三個表格為層次聚類分析的凝聚狀態(tài)表,包括:第46頁/共132頁第四十六頁,編輯于星期六:二十一點 四十九分。 (4 4)輸出的結果文件中第四個表格如下
19、表所示。第47頁/共132頁第四十七頁,編輯于星期六:二十一點 四十九分。 (5 5)輸出的結果文件中第五個表格如下表所示。第48頁/共132頁第四十八頁,編輯于星期六:二十一點 四十九分。 (6 6)輸出的結果文件中第六部分如圖8-78-7所示。第49頁/共132頁第四十九頁,編輯于星期六:二十一點 四十九分。 (7 7)由于對圖8-68-6“Hierarchical Hierarchical Cluster Analysis: Save New VarCluster Analysis: Save New Var”對話框進行了設置,將聚類成三類時,各個樣本的類歸屬情況保存為一個變量,因此在S
20、PSSSPSS數(shù)據編輯窗口中就新增了一個變量的值,如圖8-88-8所示。第50頁/共132頁第五十頁,編輯于星期六:二十一點 四十九分。第51頁/共132頁第五十一頁,編輯于星期六:二十一點 四十九分。 定義:層次聚類分析中的R R型聚類是對研究對象的觀察變量進行分類,它使具有共同特征的變量聚在一起。以便可以從不同類中分別選出具有代表性的變量作分析,從而減少分析變量的個數(shù)。第52頁/共132頁第五十二頁,編輯于星期六:二十一點 四十九分。 計算公式:R R型聚類的計算公式和Q Q型聚類的計算公式是類似的,不同的是R R型聚類是對變量間進行距離的計算,Q Q型聚類則是對樣本間進行距離的計算。第5
21、3頁/共132頁第五十三頁,編輯于星期六:二十一點 四十九分。 研究問題 對一個班同學的各科成績進行聚類,分析哪些課程是屬于一個類的。聚類的依據是4 4門功課的考試成績,數(shù)據如表8-28-2所示。第54頁/共132頁第五十四頁,編輯于星期六:二十一點 四十九分。姓姓 名名數(shù)數(shù) 學學物物 理理語語 文文政政 治治hxh99.0098.0078.0080.00yaju88.0089.0089.0090.00yu79.0080.0095.0097.00shizg89.0078.0081.0082.00hah75.0078.0095.0096.00john60.0065.0085.0088.00wat
22、et79.0087.0050.0051.00jess75.0076.0088.0089.00wish60.0056.0089.0090.00Iiakii100.00100.0085.0084.00第55頁/共132頁第五十五頁,編輯于星期六:二十一點 四十九分。 實現(xiàn)步驟第56頁/共132頁第五十六頁,編輯于星期六:二十一點 四十九分。第57頁/共132頁第五十七頁,編輯于星期六:二十一點 四十九分。第58頁/共132頁第五十八頁,編輯于星期六:二十一點 四十九分。第59頁/共132頁第五十九頁,編輯于星期六:二十一點 四十九分。第60頁/共132頁第六十頁,編輯于星期六:二十一點 四十九分。
23、 (1 1)首先是層次R R型聚類分析的結果,該結果是SPSSSPSS輸出結果文件中的第一個表格。第61頁/共132頁第六十一頁,編輯于星期六:二十一點 四十九分。 (2 2)輸出的結果文件中第二個表格如下表所示。第62頁/共132頁第六十二頁,編輯于星期六:二十一點 四十九分。 (3 3)輸出的結果文件中第三個表格如下表所示。第63頁/共132頁第六十三頁,編輯于星期六:二十一點 四十九分。 (4 4)輸出的結果文件中第四個表格如下表所示。第64頁/共132頁第六十四頁,編輯于星期六:二十一點 四十九分。 (5 5)輸出的結果文件中第五個表格如下表所示。第65頁/共132頁第六十五頁,編輯于
24、星期六:二十一點 四十九分。 (6 6)輸出的結果文件中第六部分如下:第66頁/共132頁第六十六頁,編輯于星期六:二十一點 四十九分。 SPSS SPSS層次聚類分析對計算機的要求比較高,在大樣本的情況下,可以采用快速聚類分析的方法。采用快速聚類分析,得到的結果比較簡單易懂,對計算機的性能要求也不高,因此應用也比較廣。第67頁/共132頁第六十七頁,編輯于星期六:二十一點 四十九分。 定義:快速聚類分析是由用戶指定類別數(shù)的大樣本資料的逐步聚類分析。它先對數(shù)據進行初始分類,然后逐步調整,得到最終分類??焖倬垲惙治龅膶嵸|是K-MeanK-Mean聚類。 第68頁/共132頁第六十八頁,編輯于星期
25、六:二十一點 四十九分。 和層次聚類分析一致,快速聚類分析也以距離為樣本間親疏程度的標志。但兩者的不同在于:層次聚類可以對不同的聚類類數(shù)產生一系列的聚類解,而快速聚類只能產生固定類數(shù)的聚類解,類數(shù)需要用戶事先指定。第69頁/共132頁第六十九頁,編輯于星期六:二十一點 四十九分。 另外,在快速聚類分析中,用戶可以自己指定初始的類中心點。如果用戶的經驗比較豐富,則可以指定比較合理的初始類中心點,否則,需要增加迭代的次數(shù),以保證最終聚類結果的準確性。第70頁/共132頁第七十頁,編輯于星期六:二十一點 四十九分。 計算公式如下。 快速聚類分析計算過程如下。 首先需要用戶指定聚類成多少類(比如k k
26、類)。 然后SPSSSPSS確定k k個類的初始類中心點。SPSSSPSS會根據樣本數(shù)據的實際情況,選擇k k個由代表性的樣本數(shù)據作為初始類中心。初始類中心也可以由用戶自行指定,需要指定K K組樣本數(shù)據作為初始類中心點。第71頁/共132頁第七十一頁,編輯于星期六:二十一點 四十九分。 計算所有樣本數(shù)據點到k k個類中心點的歐氏距離,SPSSSPSS按照距k k個類中心點距離最短原則,把所有樣本分派到各中心點所在的類中,形成一個新的k k類,完成一次迭代過程。其中歐氏距離(Euclidean DistanceEuclidean Distance)的計算公式為第72頁/共132頁第七十二頁,編輯
27、于星期六:二十一點 四十九分。第73頁/共132頁第七十三頁,編輯于星期六:二十一點 四十九分。 SPSS SPSS重新確定k k個類的中心點。SPSSSPSS計算每個類中各個變量的變量值均值,并以均值點作為新的類中心點。 重復上面的兩步計算過程,直到達到指定的迭代次數(shù)或終止迭代的判斷要求為止。第74頁/共132頁第七十四頁,編輯于星期六:二十一點 四十九分。 研究問題 為研究不同公司的運營特點,調查了1515個公司的組織文化、組織氛圍、領導角色和員工發(fā)展4 4方面的內容?,F(xiàn)要將這1515個公司按照其各自的特點分成4 4種類型,數(shù)據如表8-38-3所示。第75頁/共132頁第七十五頁,編輯于星
28、期六:二十一點 四十九分。公公 司司組組 織織 文文 化化組組 織織 氛氛 圍圍領領 導導 角角 色色員員 工工 發(fā)發(fā) 展展Microsof80.0085.0075.0090.00IBM 85.0085.0090.0090.00Dell 85.0085.0085.0060.00Apple 90.0090.0075.0090.00聯(lián)想聯(lián)想 99.0098.0078.0080.00NPP 88.0089.0089.0090.00北京電子北京電子79.0080.0095.0097.00清華紫光清華紫光89.0078.0081.0082.00北大方正北大方正75.0078.0095.0096.00TC
29、L 60.0065.0085.0088.00娃哈哈娃哈哈 79.0087.0050.0051.00Angel 75.0076.0088.0089.00Hussar 60.0056.0089.0090.00世紀飛揚世紀飛揚100.00100.0085.0084.00Vinda 61.0064.0089.0060.00第76頁/共132頁第七十六頁,編輯于星期六:二十一點 四十九分。 實現(xiàn)步驟第77頁/共132頁第七十七頁,編輯于星期六:二十一點 四十九分。第78頁/共132頁第七十八頁,編輯于星期六:二十一點 四十九分。第79頁/共132頁第七十九頁,編輯于星期六:二十一點 四十九分。第80頁/
30、共132頁第八十頁,編輯于星期六:二十一點 四十九分。第81頁/共132頁第八十一頁,編輯于星期六:二十一點 四十九分。第82頁/共132頁第八十二頁,編輯于星期六:二十一點 四十九分。 本例中選中的選項較多,這里按照各個結果分別解釋。 (1 1)SPSSSPSS輸出結果文件中的第一部分如下表所示。 第83頁/共132頁第八十三頁,編輯于星期六:二十一點 四十九分。 (2 2)輸出的結果文件中第二部分如下表所示。第84頁/共132頁第八十四頁,編輯于星期六:二十一點 四十九分。 (3 3)輸出的結果文件中第三部分是快速聚類分析后的各個類包含樣本的情況。 第85頁/共132頁第八十五頁,編輯于星
31、期六:二十一點 四十九分。 (4 4)輸出的結果文件中第四部分如下表所示。第86頁/共132頁第八十六頁,編輯于星期六:二十一點 四十九分。 (5 5)輸出的結果文件中第五個部分如下表所示。第87頁/共132頁第八十七頁,編輯于星期六:二十一點 四十九分。 (6 6)輸出的結果文件中第六個部分如下表所示。第88頁/共132頁第八十八頁,編輯于星期六:二十一點 四十九分。 (7 7)輸出結果的最后一個表格列出了4 4個類中分別包括的樣本數(shù),如下表所示。第89頁/共132頁第八十九頁,編輯于星期六:二十一點 四十九分。 (8 8)在步驟5 5中曾指定了將樣本所屬類以及樣本和類中心點的距離,作為樣本
32、的2 2個新變量保存到SPSSSPSS的數(shù)據編輯窗口中。SPSSSPSS運行后,數(shù)據編輯窗口如圖8-218-21所示,其中我們可以看到新增加了兩個變量(圖中加深的兩列),分別表示樣本所屬類以及樣本和類中心點的距離。第90頁/共132頁第九十頁,編輯于星期六:二十一點 四十九分。第91頁/共132頁第九十一頁,編輯于星期六:二十一點 四十九分。 前面3 3節(jié)講述了不同種聚類分析的方法,不論是哪種方法,聚類分析都是直接比較各事物之間的性質,將性質相近的歸為一類,將性質差別較大的歸入不同的類。第92頁/共132頁第九十二頁,編輯于星期六:二十一點 四十九分。 本節(jié)講述的判別分析,也是一種比較常用的分
33、類分析方法。判別分析先根據已知類別的事物的性質,利用某種技術建立函數(shù)式,然后對未知類別的新事物進行判斷以將之歸入已知的類別中。第93頁/共132頁第九十三頁,編輯于星期六:二十一點 四十九分。 有學者在研究中提出,可以利用判別分析來對聚類分析結果的準確性進行檢驗。聚類分析分成幾類后,即可以作為判別分析的類別輸入,進行判斷。第94頁/共132頁第九十四頁,編輯于星期六:二十一點 四十九分。 定義:判別分析先根據已知類別的事物的性質(自變量),建立函數(shù)式(自變量的線性組合,即判別函數(shù)),然后對未知類別的新事物進行判斷以將之歸入已知的類別中。第95頁/共132頁第九十五頁,編輯于星期六:二十一點 四
34、十九分。 判別分析有如下的假定: 預測變量服從正態(tài)分布。 預測變量之間沒有顯著的相關。 預測變量的平均值和方差不相關。 預測變量應是連續(xù)變量,因變量(類別或組別)是間斷變量。 兩個預測變量之間的相關性在不同類中是一樣的。第96頁/共132頁第九十六頁,編輯于星期六:二十一點 四十九分。 在分析的各個階段應把握如下的原則: 事前組別(類)的分類標準(作為判別分析的因變量)要盡可能準確和可靠,否則會影響判別函數(shù)的準確性,從而影響判別分析的效果。 所分析的自變量應是因變量的重要影響因素,應該挑選既有重要特性又有區(qū)別能力的變量,達到以最少變量而有高辨別能力的目標。 初始分析的數(shù)目不能太少。第97頁/共
35、132頁第九十七頁,編輯于星期六:二十一點 四十九分。第98頁/共132頁第九十八頁,編輯于星期六:二十一點 四十九分。第99頁/共132頁第九十九頁,編輯于星期六:二十一點 四十九分。第100頁/共132頁第一百頁,編輯于星期六:二十一點 四十九分。 這些判別函數(shù)是各個獨立預測變量的線性組合。程序自動選擇第一個判別函數(shù),以盡可能多地區(qū)別各個類,然后再選擇和第一個判別函數(shù)獨立的第二個判別函數(shù),盡可能多地提供判別能力。程序將按照這種方式,提供剩下的判別函數(shù)。判別函數(shù)的個數(shù)為k k。 第101頁/共132頁第一百零一頁,編輯于星期六:二十一點 四十九分。第102頁/共132頁第一百零二頁,編輯于星
36、期六:二十一點 四十九分。 研究問題 調查了1515個公司的組織文化、領導角色和員工發(fā)展3 3個方面內容作為預測變量,因變量為公司對員工的吸引力。為符合研究問題,將公司對員工的吸引力根據被測的實際填答情形,劃分為高吸引力組(group=1group=1)、中吸引力組(group=2group=2)和低吸引力組(group=3group=3)。數(shù)據如表8-48-4所示。第103頁/共132頁第一百零三頁,編輯于星期六:二十一點 四十九分。公公 司司組組 織織 文文 化化領領 導導 角角 色色員員 工工 發(fā)發(fā) 展展GroupMicrosoft80.0075.0090.001IBM85.0090.0
37、090.001Dell85.0085.0060.001Apple90.0075.0090.001聯(lián)想聯(lián)想99.0078.0080.001NPP88.0089.0090.002北京電子北京電子79.0095.0097.003清華紫光清華紫光89.0081.0082.001北大方正北大方正75.0095.0096.001TCLE60.0085.0088.003世紀成世紀成79.0050.0051.002Angel75.0088.0089.001Hussar160.0089.0090.003世紀飛揚世紀飛揚100.0085.0084.003Vinda61.0089.0060.003第104頁/共13
38、2頁第一百零四頁,編輯于星期六:二十一點 四十九分。 實現(xiàn)步驟第105頁/共132頁第一百零五頁,編輯于星期六:二十一點 四十九分。第106頁/共132頁第一百零六頁,編輯于星期六:二十一點 四十九分。第107頁/共132頁第一百零七頁,編輯于星期六:二十一點 四十九分。第108頁/共132頁第一百零八頁,編輯于星期六:二十一點 四十九分。第109頁/共132頁第一百零九頁,編輯于星期六:二十一點 四十九分。第110頁/共132頁第一百一十頁,編輯于星期六:二十一點 四十九分。第111頁/共132頁第一百一十一頁,編輯于星期六:二十一點 四十九分。 (1 1)SPSSSPSS輸出結果文件中的第
39、一部分如下表所示。第112頁/共132頁第一百一十二頁,編輯于星期六:二十一點 四十九分。 (2 2)輸出的結果文件中第二部分如下表所示。 第113頁/共132頁第一百一十三頁,編輯于星期六:二十一點 四十九分。 (3 3)輸出的結果文件中第三部分如下表所示。第114頁/共132頁第一百一十四頁,編輯于星期六:二十一點 四十九分。 (4 4)輸出的結果文件中第四部分如下表所示。第115頁/共132頁第一百一十五頁,編輯于星期六:二十一點 四十九分。 (5 5)輸出的結果文件中第五個部分為組間的協(xié)方差矩陣,如下表所示。第116頁/共132頁第一百一十六頁,編輯于星期六:二十一點 四十九分。 (6 6)輸出的結果文件中第六個部分如下兩個表格所示。第117頁/共132頁第一百一十七頁,編輯于星期六:二十一點 四十九分。 (7 7)輸出的結果文件中第七個部分如下表所示。第
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《翡翠培訓資料》課件
- 《證券買賣技巧教案》課件
- 《證券基金銷售培訓》課件
- 單位管理制度集粹匯編員工管理篇
- 單位管理制度分享大全【人力資源管理篇】
- 《社區(qū)工作實務》課件
- 單位管理制度范例選集【人力資源管理篇】十篇
- 單位管理制度范例合集職工管理十篇
- 單位管理制度呈現(xiàn)合集【人事管理】十篇
- 寒假自習課 25春初中地理八年級下冊人教版教學課件 第八章 第二節(jié) 干旱的寶地-塔里木盆地 第2課時 油氣資源的開發(fā)
- 老年病及老年綜合征中醫(yī)證治概要
- 三年級上冊數(shù)學說課稿- 2.2 看一看(二)-北師大版
- 超星爾雅學習通《西廂記》賞析(首都師范大學)網課章節(jié)測試答案
- 切削液的配方
- 塑料門窗及型材功能結構尺寸
- 2023-2024學年湖南省懷化市小學數(shù)學五年級上冊期末深度自測試卷
- GB 7101-2022食品安全國家標準飲料
- 超實用的發(fā)聲訓練方法
- 《第六課 從傳統(tǒng)到現(xiàn)代課件》高中美術湘美版美術鑒賞
- 英語四六級講座課件
- Unit 3 On the move Understanding ideas(Running into a better life)課件- 高一上學期英語外研版(2019)必修第二冊
評論
0/150
提交評論