最新多元統(tǒng)計分析整理版_第1頁
最新多元統(tǒng)計分析整理版_第2頁
最新多元統(tǒng)計分析整理版_第3頁
最新多元統(tǒng)計分析整理版_第4頁
最新多元統(tǒng)計分析整理版_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精品文檔精品文檔1主成分分析的目的是什么?主成分分析是考慮各指標間的相互關系,利用降維的思想把多個指標轉換成較少的幾個相互獨立的、能夠解釋原始變量絕大部分信息的綜合指標,從而使進一步研究變得簡單的一種統(tǒng)計方法。它的目的是希望用較少的變量去解釋原始資料的大部分變異,即數據壓縮,數據的解釋。常被用來尋找判斷事物或現象的綜合指標,并對綜合指標所包含的信息進行適當的解釋。2、主成分分析基本思想?主成分分析就是設法將原來指標重新組合成一組新的互相無關的幾個綜合指標來代替原來 指標。同時根據實際需要從中選取幾個較少的綜合指標盡可能多地反映原來的指標的信息。設p個原始變量為Xi,X2,,X,新的變量(即主成

2、分)為 yi,; , y p ,砌為第i個主成分卅和原 棄的第j個變量旳之間的 線性相關系數,稱為載 荷(loading).比如,眄 表示第4主成分和原來的 第彳個變量之間的相關系 數,衍“表示第2主成分 和原來的第1個變量之間 的相關系數主成分和原始變量之間的關系表示為?Ji =訃+ eg +十形=角1石十如兀4h 口QpE + ap2x2 + + %主成分分析的數學模型3、在進行主成分分析時是否要對原來的p個指標進行標準化? SPSS軟件是否能對數據自動進行標準化?標準化的目的是什么?需要進行標準化,因為因素之間的數值或者數量級存在較大差距,導致較小的數被淹沒, 導致主成分偏差較大,所以要

3、進行數據標準化;進行主成分分析時 SPSS可以自動進行標準化; 標準化的目的是消除變量在水平和量綱上的差異造成的影響。求解步驟對原來的p個指標進行標準化,以消除變量在水平和量綱上的影響根據標準化后的數據矩陣求出相關系數矩陣求出協(xié)方差矩陣的特征根和特征向量確定主成分,并對各主成分所包含的信息給予適當的解釋版本二:根據我國31個省市自治區(qū)2006年的6項主要經濟指標數據,表二至表五,是SPSS 的輸出表,試解釋從每張表可以得出哪些結論,進行主成分分析,找出主成分并進行適當 的解釋:(下面是SPSS的輸出結果,請根據結果寫出結論)表一:數據輸入界面ABCDEFG1人均GDF(元)財取收入 萬兀)固定

4、資產投資(億元)年耒總人口 厲人)居民消費水平社合消費晶零騎額(5c/A)(低)二2北京50467111715143295. 41531167703275.2P天S4116341704791妙51075105641356.64河北16962620534054T0. 2639343453397.45山函1412358337522255.733T548431613.46內慕古20053343377433&3. 2239758001595.37遼寧217G891767185539. £427169293434.6表二:數據輸出界面a)均)p mgdn費資 定投 固產純An居費戕總

5、嗥PD 耶 人 on ati elF co00370263091w.967436706700o23 s56039692426323800387239910550387ji n-JI6067717 s9396.32766 n-J001424K 罰 s 費 BE 自 tt63A.92423977144200此表為相關系數矩陣,表示的是各個變量之間的相關關系,說明變量之間存在較強的相關系數,適合做主成分分析。觀察各相關系數,若相關矩陣中的大部分相關系數小于0.3,則不適合作因子分析。Totnl Variance ExplahedComponentInitial EigenvaluesExtracti

6、or Sums of Squared LoadingsTotal% of VarianceCumulative %Total% ofVarianceCumulative %3.96366.05266.0523.95366.05266.0522177129.51995.570177129.51895.5703/I 282.12697.6994.0951.59999.2975.026433997206017.290100.000Extraction Method: Principal Component Analysis.表三為各成分的總解釋方差表。comp on e nt為各成分的序號;ini

7、tial Eige nvalues是初始特征值,total是各成分的特征值,% of varianee是各成分的方差占總方差的百分比(貢獻率)。Cumulative%是累計貢獻率,表明前幾個成分可以解釋總方差的百分數。Extraction sums是因子提取結果。一般來說,當特征根需大于1,主成分的累計方差貢獻率達到80%以上的前幾個主成分,都可以選作最后的主成分。由表可知,第一個主成分的特征根為3.963,方差貢獻率為66.052%,這表示第一個主成分解釋了原始6個變量66.052%的信息,可以看出前兩個成分所解釋的方差占總方差的95.57%,僅丟失了 4.43%的信息。因此最后結果是提取兩

8、個主成分。在extraction sums of squared loadings 欄,自動提取了前兩個公因子,因為前兩個公因 子就可以解釋總方差的絕大部分95.6%。表四是表示各成分特征值的碎石圖??梢钥闯鲆蜃?與因子2,以及因子2與因子3之間的特征值之差值比較大。而因子 3、4、5之間的特征值差值都比較小,可以初步得出保留兩個因子將能概括絕大部分信息。明顯的拐點為 3,因此提取2個因子比較合適。證實了表 三中的結果。碎石圖(Scree Plot),從碎石圖可以看到 6個主軸長度變化的趨勢。 實踐中,通常選擇碎 石圖中變化趨勢出現拐點的前幾個主成分作為原先變量的代表,該例中選擇前兩個主成分即

9、可。Coniponent Mjfrix3Component12人均GDP.670.725財瑚攵入.976.055固定資產投資.896-.351年末總人口.633-.728居民消費水平.674.721社會消費品零售總額.950-.263Extraction Method: Principal ComponentAnaiysisa. 2 components extracted.表五是初始提取的成分矩陣,它顯示了原始變量與各主成分之間的相關系數,表中的每一列表示一個主成分作為原來變量線性組合的系數,也就是主成分分析模型中的系數aj。比如,第一主成分所在列的系數0.670表示第1個主成分和原來的第一

10、個變量(人均GDP)之間的線性相關系數。這個系數越大,說明主成分對該變量的代表性就越大。第一主成分(component 1)對財政收入,固定資產投資,社會消費品零售總額有絕對 值較大的相關系數;第二主成分(component 2)對人均gdp,年末總人口,居民消費水平有 絕對值較大的相關系數??梢苑至韾牌溥M行命名。« =0.670% +0.976X2 +0.896x3 +0.633X4 +0.674X5 +0.950x6y2 U0.725X! +0.055x2 0.351x3 -0.728x4 +0.721x5 0.263x6版本一:根據我國 31個省市自治區(qū)2006年的6項主要經濟

11、指標數據,進行因子分析,對 因子進行命名和解釋,并計算因子得分和排序。表一數據輸入界面:ABCDEFG1地區(qū)人均GDP元)財政收入 (萬兀)固定資產投資(億元)年末總人口 厲人)居民消費水平 阮從)社合消費品零昔總額億元)2北京5O45T111715143296.41581167703275.23:天it4116341704791020 5107510564139.84:河北1696262053405470.268934945339T,45山西1412358337522255.733754S431613.46:內螢古20D5334337743363.2239758001595.37:遼寧217

12、8881767185689.6427169293434.6表二因子分析SPSS輸出界面a)KMO and Bdifletl's TestKaiser-Meyer*Olkin Measure of Sampling Adequacy695Bartlett's Test ofApprox. Chi-Sciuare277 025Sphericitydf15Sig.000KMO統(tǒng)計量為0.695,接近0.7,表明6個變量之間有較強的相關關系。適合作因子分析。 Bartlett球度檢驗 統(tǒng)計量為277.025。檢驗的P值接近0,拒絕原假設,認為相關系數與單 位陣有顯著差異??梢砸蜃臃治觥?/p>

13、表三因子分析SPSS輸出界面b)CoiniininalitiesInitialExtraction人均GDP1.000.975財現攵入1.000.956固軽產投瓷1 000.927年末總人口1.000.930居民消費水平1 000.974社會消費品零售總額1 000.972Extraction Method: Principal Component Aralysis.表三為公因子提取前和提取后的共同度表,initial列提取因子前的各變量的共同度;extraction列是按特定條件(如特征值>1 )提取公因子時的共同度,表中的共同度都很高,說明提取的成分能很好的描述這些變量。所有變量的共

14、同度量都在80%以上,因此,提取出的公因子對原始變量的解釋能力應該是很強的。變量Xi的信息能夠被k個公因子解釋的程度 表四因子分析SPSS輸出界面c)nitial EigervaluesExtraction Sums of Squared LoadingsRotation Sums ot SquaredLoadingsComp QnentTotalV 講ionceCumlative %Total% of VarianceCumulative%Total% of VarianceCumulative %13 96366J05266.0523J96366.05266.0523d 9753.2945

15、328421.7712951B95.570'-129.518955702.53742.296S557031282.12897.6984.09515S999.2675.026.43399.7206017280IOOjOOOExlraction Method: Principal Component Analysis.表四為各成分的總解釋方差。 Component表示按特征值大小排序的因子編號。Initial下分別給出了相關系數矩陣的特征值、方差貢獻率和累計方差貢獻率。Extraction是所提取的公因子未經旋轉情況下的特征值,方差貢獻了和累計方差貢獻率。Rotation項下是旋轉后的?!?/p>

16、 Rotation Sums of Squared Loadings部分是因子旋轉后對原始變量方差的解釋情況。旋轉后 的累計方差沒有改變,只是兩個因子所解釋的原始變量的方差發(fā)生了一些變化。95.57%表明提取的兩個公共因子的方差可以解釋總方差的95.57%。第j個公因子對變量Xi的提供的方差總和,反映第 j個公因子的相對重要程度Rotated Component MJrtiix*Component12人均GDP112.931財政收入.755.622固宦資產投澆.931.247年末總人口.941-.213居民消費水平.117.380社會消費品零售總頷922349Extraction MetTio

17、d: Principal Component AnalysisRotati n Method: Varimaxwith Kaiser Normalization.Rotation converged in 3 Iterations.旋轉后成分矩陣。第一個因子與年末總人口、固定資產投資、社會消費品零售總額、財政收入這幾個載荷系數較大,主要解釋了這幾個變量。從實際意義上看,可以把因子1姑且命名 為“經濟水平”因子。而第二個因子與人均GDP、居民消水平這兩個變量的載荷系數較大,主要解釋了這兩個變量,從實際意義看,可以將因子2姑且命名為“消費水平”因子i=0.112£+ 0.981f.:=0

18、.755Z+ 0.6223 二 0.931/i+ 0.247A4 = 0.941-0.2135 二 0.117+ 0.9806 = 0.922z+ 0.349表達式中的Xj己經 不是原始變量,而 是標準化變量子分析的數學模型Scoi e Coefficieirt M<itn ixComponent12人坨GM-.1 05.430財政收入.1 80J 71固定澆產投資.300-.026年末穆人口.372-.237居民消贊水平-.1 04.429社會消費品零售怠顫.201.022Extraction Method!: FriniCiipal CorrnpOini©nt Analys

19、is.Roistion Metliotli varimax with Kaiser Normalization.表五是因子得分系數矩陣。根據因子得分和原始變量的標準化值可計算每個觀測量的各因子 的分數。 由因子得分系數矩陣,可以將公因子表示為a得到的因子得分函數為£ =-0J05 +0.180i2 +0.300可 +O.372x4 -0.104x5 +0.28 lx6 f2 =0A30x1 +0.171x2-0.026x3 -0237x4+0,429,r5 +0.022x6因子得分函數上面表達式中的為標淮代變量.根據這一表達式便可以計算每個地區(qū)對應 的第一個因子和第二個因子的取值也稱

20、為因子得分(factor score), 有了因子得分*就可以對每個地區(qū)分別按照前面命名的“經濟水平戶 因子和“消費水平刁因子進行評價和排序4、因子分析基本思想?因子分析是利用降維的思想,由研究原始變量相關矩陣內部的依賴關系出發(fā),把一些具 有錯綜復雜關系的變量歸結為少數幾個綜合因子的一種多變量統(tǒng)計分析方法。因子分析的基本思想是根據相關性的大小將原始變量分組,使得組內的變量之間相關性較高,而不同組的變量之間相關性較低。每組變量代表一個基本結構,并用一個不可觀測的綜合變量表示,這個基本結構就稱為公共因子。對于所研究的某一具體問題,原始變量可以分解為兩部分之和的形式,一部分是少數幾個不可測的所謂公共

21、因子的線性函數,另一部分是與公共因子無關的特殊因子。x x x設p個原始變量為2, k,要尋找的m個因子(mvk)為仃,f2,,fm ,因子和原始變量之間的關系表達式為?x!=叭人 州 f2 aim fm ' eiX2 = a21 f1 a22f2a2m fm e2xk _ ak1 f1ak2 f2akm fm em系數a為第個i變量與第k個因子之間的線性相關系數,反映變量與因子之間的相關程度,也稱為載荷(loading)。由于因子出現在每個原始變量與因子的線性組合中,因此也稱為公因子。為特殊因子,代表公因子以外的因素影響5、因子分析的目的是什么?因子分析是從多個變量指標中選擇出少數幾

22、個綜合變量指標,以較少的幾個因子反映原始資料的大部分信息的一種降維的多元統(tǒng)計方法。求解步驟1)對原始數據標準化2)建立相關系數矩陣 R (因子提?。?)求R的單位特征根 入與特征向量U ;4)因子旋轉求因子載荷矩陣 A ;5)寫出因子模型X=AF+E6)建立因子得分矩陣 P7)寫出因子得分模型 F=P'X(因子提取的方法:主成分法、不加權最小平方法、加權最小平方法、最大似然法、主軸因 子法;旋轉方法為:方差最大正交旋轉、四次方最大正交旋轉、平方最大正交旋轉、斜交旋 轉、Promax :該方法在方差最大正交旋轉的基礎上進行斜交旋轉)6、什么是變量共同度?寫出變量共同度的表達式。變量Xi的

23、信息能夠被k個公因子解釋的程度,用k個公因子對第i個變量人的方差貢獻率表示mp222222Di = ai! + ai2 + aim =無 aijhi =昱 aij (j =1,2, , k)j呂i7、什么是公共因子方差貢獻率?寫出公共因子方差貢獻率表達式。第j個公因子對變量Xi的提供的方差總和,反映第 j個公因子的相對重要程度kg:八 a2 (i =1,2,-, p)jm8因子分析中 KMO檢驗主要檢驗什么?KMO越接近1,變量間的相關性越強KMO在0.8以上,說明該問題適合做因子分析。KMO統(tǒng)計量在0.7以上時,因子分析效果較好;KMO統(tǒng)計量在0.5以下時,因子分析效果很差KMO ( Kai

24、ser-Meyer-Olkin) 檢驗統(tǒng)計量是用于比較原始變量間簡單相關系數和偏相 關系數的指標。當所有變量間的簡單相關系數平方和遠遠大于偏相關系數平方和時,KMO值接近1,KMO越接近1,變量間的相關性越強。當所有變量間的簡單相關系數平方和接 近0時,KMO值接近0.KMO值越接近于0,意味著變量間的相關性越弱,原有變量越不適 合作因子分析。Kaiser給出了常用的 kmo度量標準:0.9以上表示非常適合;0.8表示適合;0.7表示一般;0.6表示不太適合;0.5以下表示極不適合。Bartlett球度檢驗:以變量的相關系數矩陣為基礎,假設相關系數矩陣是單位陣(對角線元素 不為0,非對角線元素

25、均為 0)。如果相關矩陣是單位陣,則各變量是獨立的,無法進行因子 分析。9、因子分析中公因子個數確定的依據是什么?用公因子方差貢獻率提?。阂话憷塾嫹讲钬暙I率達到80%以上的前幾個因子可以作為最后的公因子用特征根提?。阂话阋笠蜃訉奶卣鞲笥?,因為特征根小于1說明該公因子的解釋力度太弱,還不如使用原始變量的解釋力度大碎石圖中變化趨勢出現拐點的前幾個主成分10、因子分析中因子旋轉(factor rotation)的目的是什么? 什么是因子得分(factor score)?因子旋轉的目的 使得因子載荷系數盡可能兩極分化,使因子載荷系數向_1或0靠近,使得某一個變量值在某一個因子上的載荷系數大

26、,從而更清楚地看出各因子與原始變量的相關性大小,使因子的含義更加清楚,以便于對因子的命名和解釋。因子得分 就是每個觀測量的共同因子的值。根據因子得分系數和原始變量的標準化值可以計算每個觀測量的各因子的分數,因子得分=x1*對應權重+x2*對應權重+xn*對應權重,根據因子得分我們可以寫出因子表達式。二32X2bpXpPiXi F22X2b2pXp-bkiXi - bk2X2 -bkpXp因子得分是各變量的線性組合11、簡述因子分析與主成分分析的區(qū)別。主成分分析和因子分析是兩種把變量維度降低以便于描述、理解和分析的方法。1在SPSS分析中,因子分析必須進行因子旋轉,主成分分析不一定要旋轉。故公共

27、因 子往往可以找到實際意義,而主成分一般不能解釋實際意義;2因子分析法是對你所分析的變量的抽取(因子),主成分分析法是對你所分析的變量的概括(指標);3因子模型中除了公共因子還有特殊因子,公共因子只解釋了原變量的部分方差,而主成分解釋了原變量全部方差;4因子分析是把變量表示成各因子的線性組合,而主成分則是把主成分表示成各變量的線性組合;5主成分分析中不需要有一些專門假設,因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子之間也不相關, 共同因子和特殊因子之間也不相關;6提取主因子的方法不僅有主成分法,還有極大似然法,基于這些不同算法得到的結果一般也不同。而主成分只能用

28、主成分法提?。?主成分分析中,當給定的協(xié)方差矩陣或者相關矩陣的特征值唯一時,主成分一般是固定的;而因子分析中,因子不是固定的,可以旋轉得到不同的因子;8在因子分析中,因子個數需要分析者指定 (spss根據一定的條件自動設定, 只要是特 征值大于1的因子進入分析),而指定的因子數量不同而結果不同。在主成分分析中,成分 的數量是一定的,一般有幾個變量就有幾個主成分。12、聚類分析基本思想及分類聚類分析就是按照對象之間的相似”程度把對象進行分類。聚類分析的對象”可以是所觀察的多個樣本,也可以是針對每個樣本測得的多個變量。對樣品的分類稱為 Q型聚類;對變量的分類,則稱為R型聚類Q聚類是根據被觀測對象的

29、各種特征,即反映被觀測對象的特征的各變量值進行分類。R聚類是根據所研究的問題選擇部分變量對事物的某一方面進行研究。按對象的相似”程度分類對變量進行聚類可以用夾角余弦、Pearson相關系數等工具,也稱為相似系數對樣本聚類則使用距離”求解步驟1)先對數據進行變換處理,消除量綱對數據的影響;2)認為各樣本點自成一類(即n個樣本點一共有n類),然后計算各樣本點之間的距離, 并將距離最近的兩個樣本點并成一類;3)選擇并計算類與類之間的距離,并將距離最近的兩類合并;4)重復上面作法直至所有樣本點歸為所需類數為止;5)最后繪制聚類圖。13、相似性的度量1)在對樣本進行分類時,度量樣本之間的相似性使用點間距

30、離。歐式距離p(Xi -yi)2V 7絕對值距離pzi 7xi - yj切比雪夫距離maxxi - yi明氏距離xi - Yiq蘭氏距離2)在對變量進行分類時,度量變量之間的相似性常用相似系數,測度方法有夾角余弦送Xj%cosxv = i |任忍y2Pearson相關系數遲(x -刃(Yi -Ysixy 店(x -刃2遲(yy)2夾角余弦,如果Xi與Xj比較相似,則他們的夾角接近0,從而COSxy接近1。Pearson相關系數,相關系數越接近于1或-1,越相似;彼此無關的變量,他們的相關系數接近0。15、系統(tǒng)聚類和快速聚類的特點分別是什么?(版本一)系統(tǒng)聚類事先不確定要分多少類,而是先把每一個

31、對象作為一類,然后一層一層進行分 類。根據運算的方向不同,層次聚類法又分為合并法和分解法,兩種方法的運算原理一樣, 只是方向相反??焖倬垲惙ㄊ歉鶕孪却_定的K個類別反復迭代直到把每個樣本分到指定的類別中。類別數目的確定具有一定的主觀性,究竟分多少類合適,取決于研究者對研究問題的了解程度、相關知識和經驗。快速聚類特點:處理速度快,占用內存少,適用于大樣本的聚類分析。16、七個樣品之間的相似系數矩陣如下,試對這七個樣品進行聚類,并畫出譜系圖。12345671廣120.51130.940.83140.810.910.86150.970.010.540.74160.200.670.920.150.52

32、170240.410.200.300.160.241答案:X1X5X3X2X4X6X717、層次聚類法(合并法和分解法)計算類間距離有多種方法,試寫出兩種方法。最短距離袪 (Nearest neighbor)Dki min </尤瀉巧£旳 7最長距離袪 (Furthest neighbor)Dtl = max普3盧g 7重心袪(Centroid clustering)-XfUlc 旳)組間平均距離(Between-groups linkage)離差平方和袪 (Ward's method)最短距離法(最近鄰法):首先合并最近的或最相似的兩類,用兩類間最近點的距離代 表兩類

33、之間的距離。最長距離法:用兩類間最遠點的距離代表兩類之間的距離。重心法:用兩類重心之間的距離表示兩類之間的距離。組間平均距離法:SPSS默認,是用兩類中間各個數據點之間的距離的平均來表示兩類 之間的距離,既不是最大距離也不是最小距離。離差平方和距離法:常用,使各類別中的離差平方和較小,而不同類別之間的離差平方 和較大。18、K-均值聚類是針對樣品(CASE )的聚類還是針對變量的聚類?K-均值聚類是針對樣品(case)的聚類,需要單獨做標準化處理,而后再進行聚類。19、判別分析簡述Fisher's判別的原理。建立 Fisher判別函數的準則是什么?再進行分類(Fisher判別,亦稱典則

34、判別,是將自變量投影到較低維度的空間,相當于將自變量先提取幾個主成分,只需根據主成分分類。Fisher準則:使得綜合指標Z在A類的均數ZA與在B類的均數ZB的差異ZA _ZB盡可能大,而兩類內綜合指標 Z的變異sA - sB盡可能小) 解讀spss輸出結果。判別分析是在已知研究對象分成若干類型并已取得各種類型的一批已知樣品的觀測數 據,在此基礎上根據某些準則建立判別式,然后對未知類型的樣品進行判別分類。求解步驟Step 01計算需要用到的一些反映樣品特征的值,比如均值、協(xié)方差 陣*等等.根據一定的原則建立判別函數V = C1.T|-K2,V3 + + 為 判別函數的一骰形式,建立判別函數就是要

35、確定這些系數.確定判別準則.有的判別準肌需要計算一些判別時用到的參 數,比如阿對噸判別需要計算臨界值.對待判樣昌判別歸類*20、常用判別方法1) 距離判別法:基本思想是,先根據已知分類的數據,分別計算各類的重心,然后計算待 判樣本與各類的距離,與哪一類距離最近,就判待判樣本x屬于哪一類。判別函數為:W(x)=D(x,G2)-D(x,G1)X G ,當 W(x) 0x G2 ,當 W(x) :0判別準則為:待判,當W(x)=°注意:距離一般采用馬氏距離; 適合對自變量均為連續(xù)變量的情況進行分類;對各類的分布無特定的要求。2) Fisher判別法:基本思想是通過將多維數據投影至某個方向上

36、,投影的原則是將總體與總體之間盡可能分開,然后再選擇合適的判別規(guī)則,將待判的樣本進行分類判別。所謂的投 影實際上是利用方差分析的思想構造也一個或幾個超平面,使得兩組間的差別最大, 每組內的差別最小。費歇爾判別函數為:y =(Xi -X2)跖xx:=Gyy2,yy°xG2yiy2,y:y。xG2%:y2, yy其判別準則是xGy:y2, y:y°Fisher判別對各類分布、方差都沒有限制。但當總體個數較多時,計算比較麻煩。建立Fisher判別函數的準則是:使得綜合指標Z在A類的均數ZA與在B類的均數 ZB的差異ZA -ZB盡可能大,而兩類內綜合指標Z的變異SA +SB盡可能小

37、3) Bayes判別法:基本思想是:設有兩個總體,它們的先驗概率分別為q1、q2,各總體的密度函數為f1(x)、f2(x),在觀測到一個樣本 x的情況下,可用貝葉斯公式計算它來自第k個P(Gk/x) = 2qkfk(x)k=1,2送 qkfk(x)總體的后驗概率為:k 4一種常用判別準則是:對于待判樣本X,如果在所有的 P(Gk/x)中P(Gh/x)是最大的,則判定x屬于第h總體。通常會以樣本的頻率作為各總體的先驗概率。Bayes判別主要用于多類判別,它要求總體呈多元正態(tài)分布4) 逐步判別法:逐步判別法與逐步回歸法的基本思想類似,都是逐步引入變量,每引入一個“最重要”的變量進入判別式,同時也考

38、慮較早引入判別式的某些變量,若其判別能力不顯著了,應及時從判別式中剔除去,直到判別式中沒有不重要的變量需要剔除,且也沒有重要的變量要引入為止。21、對Bayes判別法與Fisher判別法作比較(1) (2) (k)(1) 當k個總體的均值向量 x ,x ,x 共線性程度較高時,Fisher判別法可用較 少的判別函數進行判別,因而比Bayes判別法簡單。另外,Fisher判別法未對總體的分布提 出什么特定的要求。(2) Fisher判別法的不足是它不考慮各總體出現概率的大小,也給不出預報的后驗概率及錯判率的估計以及錯判之后造成的損失。而這不足恰是Bayes判別法的優(yōu)點,但值得指出的是,如果給定的

39、先驗概率不符合客觀實際時,Bayes判別法也可能會導致錯誤的結論。22、簡述判別分析與聚類分析的區(qū)別。判別分析 已知研究對象分為若干個類別,并且已經取得每一類別的若干觀測數據,在此基 礎上尋求出分類的規(guī)律性,建立判別準則,然后對未知類別的樣品進行判別分類。聚類分析一批樣品劃分為幾類事先并不知道,需要通過聚類分析來給以確定分幾種類型。 判別分析與聚類分析不同點在于,判別分析要求已知一系列反映事物特征的數值變量的值, 并且已知各個體的分類。28、K-均值聚類是否需要在聚類之前先做標準化處理?K-均值聚類是針對樣品(case)的聚類,需要單獨做標準化處理,而后再進行聚類。各變量的取值不應有數量級上的

40、過大差異,否則會對分類結果產生較大影響。這時需要對變量進行標準化處理(SPSS提供的層次聚類法中在聚類時可以選擇對變量做標準化處理,而K-均值聚類法則需要單獨做標準化處理,爾后再進行聚類)各變量間不應有較強的相關關系。若兩個強相關的變量同時參與聚類分析,在測度距離時, 就加大了它們的貢獻,而其他變量則相對被削弱33、簡述多元線性回歸中,寫出兩種多重共線性的診斷方法和解決方案。診斷方法:檢測多重共線性的最簡單的一種辦法是計算模型中各對自變量之間的相關系數,并對各相關系數進行顯著性檢驗。若有一個或多個相關系數顯著,就表示模型中所用的自變量之間相關,存在著多重共線性。如果出現下列情況,暗示存在多重共

41、線性模型中各對自變量之間顯著相關當模型的線性關系檢驗(F檢驗)顯著時,幾乎所有回歸系數的t檢驗卻不顯著 回歸系數的正負號與預期的相反。解決方案:將一個或多個相關的自變量從模型中剔除,使保留的自變量盡可能不相關;如果要在模型中保留所有的自變量,則應避免根據t統(tǒng)計量對單個參數進行檢驗;對因變量值的推斷(估計或預測)的限定在自變量樣本值的范圍內。34、一家大型商業(yè)銀行在多個地區(qū)設有分行,為弄清楚不良貸款形成的原因,抽取了該銀行所屬的25家分行2002年的有關業(yè)務數據。試建立不良貸款y與貸款余額x1、累計應收貸款x2、貸款項目個數 x3和固定資產投資額 x4的線性回歸方程,并解釋各回歸系數的含 義AB

42、cDEFG 11SUMMARY OUTPUT23回歸蛻計4Multiple R0. 09315R Squar e:0. 79766Adjusted R Sqmmre0.75717標唯俁差1 7TB88觀測值2S910方差分析11dfssMSFSiii f i cance F12回歸斗249 371262.342819 TWO1.O354E-0E13殘差2063.2T923.164014總計24312.&5041516Coeffi eients標準誤差t StatF-valueLower 95養(yǎng)Upptr 95%17Intsrcept-1 02160.7824-1.30580.2064-

43、2. EB3B0.S10418X Variable 10. 04000.01043.83750.00100,01330.061819X Variable 20. 1480o.oree1.8T670.0749-0.01630 312420X Vurible 30. OUS0.08300. LT500.3629-0.15870. 187721X Variable 4-0.02SE0.0151-1 3680 0&70-0.06060.0022上表是計算機輸出的結果。試寫出多元線性回歸模型,并進行統(tǒng)計學檢驗。概述表中,看到 R Square=0.7976, Adjusted R Square=

44、0.7571表示模型的擬合優(yōu)度很好。方差分析表中,對方程的顯著性檢驗F對應的sig=1.035E-06,小于0.05,說明回歸方程有統(tǒng)計意義。Coefficients是各個變量的系數,由P-value值可以判定,只有變量1的p-value小于0.05,說明變量1與因變量y有顯著相關關系?;貧w模型:Y=0.04*X Variable 1-1.0216.38、簡述logistic回歸的原理和適用條件。Logistic回歸,是指因變量為二級計分或二類評定的回歸分析。因變量Y是一個二值變量自變量X1 , X2 ,XmP表示在m個自變量作用下事件發(fā)生的概率。1P(y " xi,x2Xm) = i e”。1x7-冷適用條件:因變量只有兩個值,發(fā)生(是)或者不發(fā)生(不是)。自變量數據最好為多元正態(tài)分布,自變量間的共線性會導致估計偏差。實際上屬于判別分析,因擁有很差的判別效率而不常用。適用于流行病學資料的因素分析(驗室中藥物的劑量-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論