版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 多元統(tǒng)計分析與SPSS實現(xiàn)第1頁,共71頁。一 在SPSS中利用系統(tǒng)聚類法進行聚類分析 二 在SPSS中利用K均值法進行聚類分析 三 利用SPSS進行判別分析 四 利用SPSS進行主成分分析 五 利用SPSS進行因子分析 第2頁,共71頁。設有20個土壤樣品分別對5個變量的觀測數(shù)據(jù)如表所示,試利用系統(tǒng)聚類法對其進行樣品聚類分析。表5.16 土壤樣本的觀測數(shù)據(jù)一 在SPSS中利用系統(tǒng)聚類法進行聚類分析 第3頁,共71頁。第4頁,共71頁。(一)操作步驟1. 在SPSS窗口中選擇AnalyzeClassifyHierachical Cluster,調(diào)出系統(tǒng)聚類分析主界面,并將變量X1X5移入Va
2、riables框中。在Cluster欄中選擇Cases單選按鈕,即對樣品進行聚類(若選擇Variables,則對變量進行聚類)。在Display欄中選擇Statistics和Plots復選框,這樣在結果輸出窗口中可以同時得到聚類結果統(tǒng)計量和統(tǒng)計圖。圖 系統(tǒng)聚類法主界面 第5頁,共71頁。2. 點擊Statistics按鈕,設置在結果輸出窗口中給出的聚類分析統(tǒng)計量。這里我們選擇系統(tǒng)默認值,點擊Continue按鈕,返回主界面。3. 點擊Plots按鈕,設置結果輸出窗口中給出的聚類分析統(tǒng)計圖。選中Dendrogram復選框和Icicle欄中的None單選按鈕,即只給出聚類樹形圖,而不給出冰柱圖。單
3、擊Continue按鈕,返回主界面。圖 Plots子對話框 第6頁,共71頁。4. 點擊Method按鈕,設置系統(tǒng)聚類的方法選項。Cluster Method下拉列表用于指定聚類的方法,包括組間連接法、組內(nèi)連接法、最近距離法、最遠距離法等;Measure欄用于選擇對距離和相似性的測度方法;剩下的Transform Values和Transform Measures欄用于選擇對原始數(shù)據(jù)進行標準化的方法。這里我們?nèi)匀痪赜孟到y(tǒng)默認選項。單擊Continue按鈕,返回主界面。圖 Method子對話框 第7頁,共71頁。5. 點擊Save按鈕,指定保存在數(shù)據(jù)文件中的用于表明聚類結果的新變量。None表
4、示不保存任何新變量;Single solution表示生成一個分類變量,在其后的矩形框中輸入要分成的類數(shù);Range of solutions表示生成多個分類變量。這里我們選擇Range of solutions,并在后面的兩個矩形框中分別輸入2和4,即生成三個新的分類變量,分別表明將樣品分為2類、3類和4類時的聚類結果。點擊Continue,返回主界面。圖 Save子對話框 6. 點擊OK按鈕,運行系統(tǒng)聚類過程。 第8頁,共71頁。(二)主要運行結果解釋1. 在結果輸出窗口中我們可以看到聚類樹形圖(Dendrogram)。從樹形圖5.12可以清楚地看到,若將20個樣品分為兩類, 則樣品2、6
5、、19、7、和樣品1為一類,其余的為另一類;若將樣品分為三類,則樣品8、9、4從第二類中分離出來,自成一類;依此類推。第9頁,共71頁。圖 系統(tǒng)聚類法樹形圖 第10頁,共71頁。2. 由于我們已經(jīng)在Save子對話框中設置了在數(shù)據(jù)文件中生成新的分類變量,所以,在數(shù)據(jù)編輯窗口中,我們可以看到生成的三個表示分類結果的新變量。變量名為clu4_1、clu3_1和clu2-1的三個分類變量分別表明了把樣品分成4類、3類和2類的分類情況。圖 生成三個新的分類變量第11頁,共71頁。我國各地區(qū)2003年三次產(chǎn)業(yè)產(chǎn)值如表所示,試根據(jù)三次產(chǎn)業(yè)產(chǎn)值利用K均值法對我國31個省、自治區(qū)和直轄市進行聚類分析。 二 在S
6、PSS中利用K均值法進行聚類分析 第12頁,共71頁。第13頁,共71頁。(一)操作步驟1. 在SPSS窗口中選擇AnalyzeClassifyK-Means Cluster,調(diào)出K均值聚類分析主界面,并將變量移入Variables框中,將標志變量Region移入Label Case by框中。在Method框中選擇Iterate classify,即使用K-means算法不斷計算新的類中心,并替換舊的類中心(若選擇Classify only,則根據(jù)初始類中心進行聚類,在聚類過程中不改變類中心)。 K均值聚類分析主界面第14頁,共71頁。(一)操作步驟1、AnalyzeClassifyK-Me
7、ans Cluster,調(diào)出K均值聚類分析主界面。在Number of Cluster后面的矩形框中輸入想要把樣品聚成的類數(shù),這里我們輸入3,即將31個地區(qū)分為3類。至于Centers按鈕,則用于設置迭代的初始類中心。如果不手工設置,則系統(tǒng)會自動設置初始類中心,這里我們不作設置。 K均值聚類分析主界面第15頁,共71頁。2. 點擊Iterate按鈕,對迭代參數(shù)進行設置。Maximum Iterations參數(shù)框用于設定K-means算法迭代的最大次數(shù),Convergence Criterion參數(shù)框用于設定算法的收斂判據(jù),其值應該介于0和1之間。例如判據(jù)設置為0.02,則當一次完整的迭代不能使
8、任何一個類中心距離的變動與原始類中心距離的比小于2時,迭代停止。設置完這兩個參數(shù)之后,只要在迭代的過程中先滿足了其中的參數(shù),則迭代過程就停止。這里我們選擇系統(tǒng)默認的標準。單擊Continue,返回主界面。圖Iterate子對話框第16頁,共71頁。3. 點擊Save按鈕,設置保存在數(shù)據(jù)文件中的表明聚類結果的新變量。其中Cluster membership選項用于建立一個代表聚類結果的變量,默認變量名為qcl_1;Distance from cluster center選項建立一個新變量,代表各觀測量與其所屬類中心的歐氏距離。我們將兩個復選框都選中,單擊Continue按鈕返回。圖 Save子對
9、話框第17頁,共71頁。4. 點擊Options按鈕,指定要計算的統(tǒng)計量。選中Initial cluster centers和Cluster information for each case復選框。這樣,在輸出窗口中將給出聚類的初始類中心和每個觀測量的分類信息,包括分配到哪一類和該觀測量距所屬類中心的距離。單擊Continue返回。5. 點擊OK按鈕,運行K均值聚類分析程序。圖 Options子對話框第18頁,共71頁。(二)主要運行結果解釋1. Initial Cluster Centers(給出初始類中心)2. Iteration History(給出每次迭代結束后類中心的變動)從表中可
10、以看到本次聚類過程共經(jīng)歷了三次迭代。由于我們在Iterate子對話框中使用系統(tǒng)默認的選項(最大迭代次數(shù)為10和收斂判據(jù)為0),所以在第三次迭代后,類中心的變化為0,從而迭代停止。 表 迭代過程中類中心的變化量第19頁,共71頁。3. Cluster Membership(給出各觀測量所屬的類及與所屬類中心的距離)表中Cluster列給出了觀測量所屬的類別,Distance列給出了觀測量與所屬類中心的距離。(出于排版要求,此表經(jīng)過加工,因此與原始輸出表形態(tài)有一定差異)。第20頁,共71頁。表 各觀測量所屬類成員表第21頁,共71頁。4. Final Cluster Centers(給出聚類結果形
11、成的類中心的各變量值)最終的類中心表結合上述兩表看出31個地區(qū)被分成3類。第一類包括:江蘇、浙江、山東和廣東4個省。這類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為1102.14億元、6423.01億元和4454.26億元,屬于三個產(chǎn)業(yè)都比較發(fā)達的地區(qū)。第二類包括:天津、山西、內(nèi)蒙古、吉林、江西、廣西、海南、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏和新疆16個地區(qū)。這一類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為307.61億元、795.41億元和673.63億元,屬于欠發(fā)達地區(qū)。剩下的11個地區(qū)為第三類。這一類的類中心三個產(chǎn)業(yè)的產(chǎn)值分別為713.28億元、2545.20億元和212.87億元,屬于中等發(fā)達地區(qū)。第2
12、2頁,共71頁。5. 由于我們已經(jīng)在Save子對話框中設置了在數(shù)據(jù)文件中生成新的分類變量,所以,在數(shù)據(jù)編輯窗口中,我們可以看到生成的兩個表示分類結果的新變量。變量qcl_1和變量qcl_2分別代表分類號和觀測量距所屬類中心的距離。第23頁,共71頁。利用SPSS對Fisher判別法和Bayes判別法進行計算機實現(xiàn)。為研究某地區(qū)人口死亡狀況,已按某種方法將15個已知地區(qū)樣品分為3類,指標含義及原始數(shù)據(jù)如下。試建立判別函數(shù),并判定另外4個待判地區(qū)屬于哪類? X1 : 0歲組死亡概率 X 4 : 55歲組死亡概率 X 2 :1歲組死亡概率 X5 : 80歲組死亡概率 X 3 : 10歲組死亡概率 X
13、6 : 平均預期壽命 三 利用SPSS進行判別分析 第24頁,共71頁。表3.1 各地區(qū)死亡概率表第25頁,共71頁。 (一) 操作步驟1. 在SPSS窗口中選擇AnalyzeClassifyDiscriminate,調(diào)出判別分析主界面,將左邊的變量列表中的“group”變量選入分組變量中,將變量選入自變量中,并選擇Enter independents together單選按鈕,即使用所有自變量進行判別分析。判別分析主界面第26頁,共71頁。2. 點擊Define Range按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。單擊Continue按
14、鈕,返回主界面。3. 單擊Statistics按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中Function Coefficients欄中的Fishers和Unstandardized。這兩個選項的含義如下:Fishers:給出Bayes判別函數(shù)的系數(shù)。(注意:這個選項不是要給出Fisher判別函數(shù)的系數(shù)。這個復選框的名字之所以為Fishers,是因為按判別函數(shù)值最大的一組進行歸類這種思想是由Fisher提出來的。這里極易混淆,請讀者注意辨別。)Unstandardized:給出未標準化的Fisher判別函數(shù)(即典型判別函數(shù))的系數(shù)(SPSS默認給出標準化的Fisher判別函數(shù)系數(shù))。第27頁
15、,共71頁。單擊Continue按鈕,返回主界面。 Statistics子對話框第28頁,共71頁。4. 單擊Classify按鈕,定義判別分組參數(shù)和選擇輸出結果。選擇Display欄中的Casewise results,輸出一個判別結果表,包括每個樣品的判別分數(shù)、后驗概率、實際組和預測組編號等。其余的均保留系統(tǒng)默認選項。單擊Continue按鈕。Classify子對話框第29頁,共71頁。5. 單擊Save按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結果和判別得分的新變量,生成的新變量的含義分別為:Predicted group membership:存放判別樣品所屬組別的值; Discrimin
16、ant scores:存放Fisher判別得分的值,有幾個典型判別函數(shù)就有幾個判別得分變量;Probabilities of group membership:存放樣品屬于各組的Bayes后驗概率值。將對話框中的三個復選框均選中,單擊Continue按鈕返回。第30頁,共71頁。6. 返回判別分析主界面,單擊OK按鈕,運行判別分析過程。Save子對話框第31頁,共71頁。(二) 主要運行結果解釋1. Standardized Canonical Discriminant Function Coefficients(給出標準化的典型判別函數(shù)系數(shù))標準化的典型判別函數(shù)是由標準化的自變量通過Fish
17、er判別法得到的,所以要得到標準化的典型判別得分,代入該函數(shù)的自變量必須是經(jīng)過標準化的。2. Canonical Discriminant Function Coefficients(給出未標準化的典型判別函數(shù)系數(shù))未標準化的典型判別函數(shù)系數(shù)由于可以將實測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標準化的系數(shù)要方便一些。見表3.2(a)。第32頁,共71頁。表3.2(a) 未標準化的典型判別函數(shù)系數(shù)第33頁,共71頁。由此表可知,兩個Fisher判別函數(shù)分別為:實際上兩個函數(shù)式計算的是各觀測值在各個維度上的坐標,這樣就可以通過這兩個函數(shù)式計算出各樣品觀測值的具體空間位置。第34頁,
18、共71頁。3. Functions at Group Centroids(給出組重心處的Fisher判別函數(shù)值)如表3.2 (b) 所示,實際上為各類別重心在空間中的坐標位置。這樣,只要在前面計算出各觀測值的具體坐標位置后,再計算出它們分別離各重心的距離,就可以得知它們的分類了。表3.2(b) 組重心處的Fisher判別函數(shù)值第35頁,共71頁。 4. Classification Function Coefficients(給出Bayes判別函數(shù)系數(shù))如表3.3所示,GROUP欄中的每一列表示樣品判入相應列的Bayes判別函數(shù)系數(shù)。在本例中,各類的Bayes判別函數(shù)如下:第一組:第二組:第三
19、組:第36頁,共71頁。表3.3 Bayes判別法的輸出結果第37頁,共71頁。將各樣品的自變量值代入上述三個Bayes判別函數(shù),得到三個函數(shù)值。比較這三個函數(shù)值,哪個函數(shù)值比較大就可以判斷該樣品判入哪一類。例如,將第一個待判樣品的自變量值分別代入函數(shù),得到: F1=3793.77, F2=3528.32, F3=3882.48比較三個值,可以看出最大,據(jù)此得出第一個待判樣品應該屬于第三組。第38頁,共71頁。5. Casewise Statistics(給出個案觀察結果)在Casewise Statistics輸出表針對每個樣品給出了了大部分的判別結果,其中包括:實際類(Actual Gro
20、up)、預測類(Predicted Group)、Bayes判別法的后驗概率、與組重心的馬氏距離(Squared Mahalanobis Distance to Centroid)以及Fisher判別法的每個典型判別函數(shù)的判別得分(Discriminant Scores)。出于排版要求,這里給出結果表的是經(jīng)過加工的,隱藏了其中的一些項目,如表4.4所示。從表中可以看出四個待判樣本依次被判別為第三組、第一組、第二組和第三組。第39頁,共71頁。表3.4 個案觀察結果表第40頁,共71頁。6. 由于我們在Save子對話框中選擇了生成表示判別結果的新變量,所以在數(shù)據(jù)編輯窗口中,可以觀察到產(chǎn)生的新變量
21、。其中,變量dis-1存放判別樣品所屬組別的值,變量dis1-1和dis2-1分別代表將樣品各變量值代入第一個和第二個判別函數(shù)所得的判別分數(shù),變量dis1-2、dis2-2和dis3-2分別代表樣品分別屬于第1組、第2組和第3組的Bayes后驗概率值。第41頁,共71頁。四 利用SPSS進行主成分分析 SPSS沒有提供主成分分析的專用功能,只有因子分析的功能。但是因子分析和主成分分析有著密切的聯(lián)系。因子分析的重要步驟因子的提取最常用的方法就是“主成分法”。利用因子分析的結果,可以很容易地實現(xiàn)主成分分析。具體來講,就是利用因子載荷陣和相關系數(shù)矩陣的特征根來計算特征向量。即:其中,zij為第j個特
22、征向量的第i個元素;aij為因子載荷陣第i行第j列的元素;j為第j個因子對應的特征根。然后再利用計算出的特征向量來計算主成分。第42頁,共71頁。 以下是我國2005年第1、2季度分地區(qū)城鎮(zhèn)居民家庭收支基本情況。通過這個例子,介紹如何利用SPSS軟件實現(xiàn)主成分分析。第43頁,共71頁。(一)利用SPSS進行因子分析將原始數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,將5個變量分別命名為X1X5。在SPSS窗口中選擇AnalyzeData ReductionFactor菜單項,調(diào)出因子分析主界面,并將變量X1X5移入Variables框中,其他均保持系統(tǒng)默認選項,單擊OK按鈕,執(zhí)行因子分析過程。 因子分析主界面
23、第44頁,共71頁。得到如表所示的特征根和方差貢獻率表 表中Total列為各因子對應的特征根,本例中共提取兩個公因子;% of Variance列為各因子的方差貢獻率;Cumulative %列為各因子累積方差貢獻率,由表中可以看出,前兩個因子已經(jīng)可以解釋79.31%的方差 特征根和方差貢獻率表第45頁,共71頁。得到如下表所示的因子載荷陣:因子載荷陣第46頁,共71頁。(二)利用因子分析結果進行主成分分析1. 將因子載荷陣中的數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,分別命名為a1和a2。第47頁,共71頁。2. 計算第一個特征向量:點擊菜單項中的TransformCompute,調(diào)出Compute v
24、ariable對話框,在對話框中輸入等式: z1=a1 / SQRT(2.576) 點擊OK按鈕,即可在數(shù)據(jù)編輯窗口中得到以z1為變量名的第一特征向量。再次調(diào)出Compute variable對話框,在對話框中輸入等式: z2=a2 / SQRT(1.389)點擊OK按鈕,得到以z2為變量名第二特征向量。Compute variable對話框第48頁,共71頁。根據(jù)上表可以得到主成分的表達式:3. 再次使用Compute命令,就可以計算得到兩個主成分。表 特征向量矩陣我們得到了如下表所示的特征向量矩陣:第49頁,共71頁。 五 利用SPSS進行因子分析 第50頁,共71頁。(一) 操作步驟1.
25、 在SPSS窗口中選擇AnalyzeData ReductionFactor,調(diào)出因子分析主界面,并將變量X1X13移入Variables框中。 因子分析主界面 2. 點擊Descriptives按鈕,展開相應對話框第51頁,共71頁。2. 點擊Descriptives按鈕,展開相應對話框。選擇Initial solution復選項。這個選項給出各因子的特征值、各因子特征值占總方差的百分比以及累計百分比。單擊Continue按鈕,返回主界面。 圖 Descriptives子對話框 第52頁,共71頁。3. 主界面中點擊Extraction按鈕,設置因子提取的選項。 在Method下拉列表中選擇
26、因子提取的方法,SPSS提供了七種提取方法可供選擇,一般選擇默認選項,即“主成分法”。在Analyze欄中指定用于提取因子的分析矩陣,分別為相關矩陣和協(xié)方差矩陣。在Display欄中指定與因子提取有關的輸出項,如未旋轉的因子載荷陣和因子的碎石圖。在Extract欄中指定因子提取的數(shù)目,有兩種設置方法:一種是在Eigenvalues over后的框中設置提取的因子對應的特征值的范圍,系統(tǒng)默認值為1,即要求提取那些特征值大于1的因子;第二種設置方法是直接在Number of factors后的矩形框中輸入要求提取的公因子的數(shù)目。這里我們均選擇系統(tǒng)默認選項,單擊Continue按鈕,返回主界面。 第
27、53頁,共71頁。Extraction子對話框 第54頁,共71頁。4.點擊Rotation按鈕,設置因子旋轉的方法。這里選擇Varimax(方差最大旋轉),并選擇Display欄中的Rotated solution復選框,在輸出窗口中顯示旋轉后的因子載荷陣。單擊Continue按鈕,返回主界面。 Rotation子對話框 第55頁,共71頁。5.點擊Scores按鈕,設置因子得分的選項。選中Save as variables復選框,將因子得分作為新變量保存在數(shù)據(jù)文件中。選中Display factor score coefficient matrix復選框,這樣在結果輸出窗口中會給出因子得分
28、系數(shù)矩陣。單擊Continue按鈕返回主界面。 6. 單擊OK按鈕,運行因子分析過程。 圖7.5 Scores子對話框 第56頁,共71頁。(二) 主要運行結果解釋1. Communalities(給出變量共同度)變量共同度反映每個變量對所提取的所有公共因子的依賴程度,此數(shù)值是因子載荷陣中每一行的因子載荷量的平方和,提取的因子個數(shù)不同,變量共同度也不同。2. Total Variance Explained(給出各公因子方差貢獻表)Initial Eigenvalues給出初始相關矩陣或協(xié)差陣矩陣的特征值,用于確定哪些因子應該被提取,共有三項: Total列為各因子對應的特征值,本例中共有四個因子對應的特征值大于1,因此應提取相應的四個公因子;% of Variance列為各因子的方差貢獻率;Cumulative %列為各因子的累積方差貢獻率,由表一可以看出,前四個因子已經(jīng)可以解釋89.651%的方差。Rotation Sums of Squared Loadings給出提取出的公因子經(jīng)過旋轉后的方差貢獻情況。 第57頁,共71頁。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權】 ISO 4254-20:2025 EN Agricultural machinery - Safety - Part 20: Grape,olives and coffee harvesters
- 2024年租賃合同中的維修責任
- 研究生復試課程設計問題
- 紅色課程設計思
- 幼兒園青蛙課程設計
- 步進式運輸機課程設計
- 舞蹈身材訓練課程設計
- 班主任工作中的困惑與解決之道
- 電子心率計數(shù)器課程設計
- 硬件課程設計 函數(shù)
- 國家醫(yī)療保障疾病診斷相關分組(CHS-DRG)分組與付費技術規(guī)范(可編輯)
- 特許經(jīng)銷合同
- 吉林大學藥學導論期末考試高分題庫全集含答案
- 2023-2024學年河北省唐山市灤州市數(shù)學七年級第一學期期末教學質(zhì)量檢測模擬試題含解析
- 數(shù)字油畫課件
- 2023年小學五年級數(shù)學上學期期末水平測試試卷(天河區(qū))
- 中考數(shù)學計算題100道
- 高壓變頻器整流變壓器
- 集團資產(chǎn)重組實施方案
- 《新唯識論》儒佛會通思想研究
- 《減法教育》讀書筆記思維導圖PPT模板下載
評論
0/150
提交評論