多元統(tǒng)計分析整理版.doc_第1頁
多元統(tǒng)計分析整理版.doc_第2頁
多元統(tǒng)計分析整理版.doc_第3頁
多元統(tǒng)計分析整理版.doc_第4頁
多元統(tǒng)計分析整理版.doc_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、.1、主成分分析的目的是什么?主成分分析是考慮各指標(biāo)間的相互關(guān)系,利用降維的思想把多個指標(biāo)轉(zhuǎn)換成較少的幾個相互獨(dú)立的、 能夠解釋原始變量絕大部分信息的綜合指標(biāo),從而使進(jìn)一步研究變得簡單的一種統(tǒng)計方法。 它的 目的是希望用較少的變量去解釋原始資料的大部分變異,即數(shù)據(jù)壓縮, 數(shù)據(jù)的解釋。常被用來尋找判斷事物或現(xiàn)象的綜合指標(biāo),并對綜合指標(biāo)所包含的信息進(jìn)行適當(dāng)?shù)慕忉尅?、主成分分析基本思想?主成分分析就是設(shè)法將原來指標(biāo)重新組合成一組新的互相無關(guān)的幾個綜合指標(biāo)來代替原來指標(biāo)。同時根據(jù)實(shí)際需要從中選取幾個較少的綜合指標(biāo)盡可能多地反映原來的指標(biāo)的信息。x1, x2, , x py1 , y 2 , y p1

2、2p12p設(shè) p 個原始變量為,新的變量 (即主成分 )為,主成分和原始變量之間的關(guān)系表示為?3、在進(jìn)行主成分分析時是否要對原來的p 個指標(biāo)進(jìn)行標(biāo)準(zhǔn)化?SPSS 軟件是否能對數(shù)據(jù)自動進(jìn)行標(biāo)準(zhǔn)化?標(biāo)準(zhǔn)化的目的是什么?需要進(jìn)行標(biāo)準(zhǔn)化,因為因素之間的數(shù)值或者數(shù)量級存在較大差距,導(dǎo)致較小的數(shù)被淹沒,導(dǎo)Word 資料.致主成分偏差較大,所以要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化;進(jìn)行主成分分析時SPSS 可以自動進(jìn)行標(biāo)準(zhǔn)化;標(biāo)準(zhǔn)化的目的是消除變量在水平和量綱上的差異造成的影響。求解步驟對原來的 p 個指標(biāo)進(jìn)行標(biāo)準(zhǔn)化,以消除變量在水平和量綱上的影響根據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣求出相關(guān)系數(shù)矩陣求出協(xié)方差矩陣的特征根和特征向量確定主成分

3、,并對各主成分所包含的信息給予適當(dāng)?shù)慕忉尠姹径焊鶕?jù)我國 31 個省市自治區(qū)2006 年的 6 項主要經(jīng)濟(jì)指標(biāo)數(shù)據(jù), 表二至表五,是 SPSS的輸出表, 試解釋從每張表可以得出哪些結(jié)論,進(jìn)行主成分分析,找出主成分并進(jìn)行適當(dāng)?shù)慕忉專海ㄏ旅媸荢PSS 的輸出結(jié)果,請根據(jù)結(jié)果寫出結(jié)論)表一: 數(shù)據(jù)輸入界面表二 :數(shù)據(jù)輸出界面a )Word 資料.此表為相關(guān)系數(shù)矩陣,表示的是各個變量之間的相關(guān)關(guān)系,說明變量之間存在較強(qiáng)的相關(guān)系數(shù),適合做主成分分析。觀察各相關(guān)系數(shù),若相關(guān)矩陣中的大部分相關(guān)系數(shù)小于0.3 ,則不適合作因子分析。表三 為各成分的總解釋方差表。component為各成分的序號;initial

4、 Eigenvalues是初始特征值,total 是各成分的特征值,% of variance是各成分的方差占總方差的百分比(貢獻(xiàn)率)。Cumulative% 是累計貢獻(xiàn)率, 表明前幾個成分可以解釋總方差的百分?jǐn)?shù)。Extraction sums是因子提取結(jié)果。一般來說,當(dāng)特征根需大于1 ,主成分的累計方差貢獻(xiàn)率達(dá)到80% 以上的前幾個主成分,都可以選作最后的主成分。由表可知,第一個主成分的特征根為3.963 ,方差貢獻(xiàn)率為66.052% ,這表示第一個主成分解釋了原始6 個變量66.052% 的信息,可以看出前兩個成分所解釋的方差占總方差的95.57% ,僅丟失了4.43% 的信息。因此最后結(jié)

5、果是提取兩個主成分。在extraction sums of squared loadings一欄,自動提取了前兩個公因子,因為前兩Word 資料.個公因子就可以解釋總方差的絕大部分95.6% 。表四是表示各成分特征值的碎石圖??梢钥闯鲆蜃? 與因子2 ,以及因子2 與因子3之間的特征值之差值比較大。而因子3、 4 、 5 之間的特征值差值都比較小,可以初步得出保留兩個因子將能概括絕大部分信息。明顯的拐點(diǎn)為3,因此提取2 個因子比較合適。證實(shí)了表三中的結(jié)果。碎石圖 (ScreePlot) ,從碎石圖可以看到6 個主軸長度變化的趨勢。實(shí)踐中,通常選擇碎石圖中變化趨勢出現(xiàn)拐點(diǎn)的前幾個主成分作為原先變

6、量的代表,該例中選擇前兩個主成分即可。表五是初始提取的成分矩陣,它顯示了原始變量與各主成分之間的相關(guān)系數(shù),表中的每一列表示一個主成分作為原來變量線性組合的系數(shù),也就是主成分分析模型中的系數(shù)a ij。Word 資料.比如,第一主成分所在列的系數(shù)0.670表示第1 個主成分和原來的第一個變量(人均GDP) 之間的線性相關(guān)系數(shù)。這個系數(shù)越大,說明主成分對該變量的代表性就越大。第一主成分( component 1 )對財政收入,固定資產(chǎn)投資,社會消費(fèi)品零售總額有絕對值較大的相關(guān)系數(shù);第二主成分(component 2)對人均 gdp ,年末總?cè)丝冢用裣M(fèi)水平y(tǒng)10.670x10.976x20.896

7、x30.633x40.674x50.950x6y20.725x10.055x20.351x30.728x40.721x50.263x6有絕對值較大的相關(guān)系數(shù)。可以分別對其進(jìn)行命名。版本一:根據(jù)我國31 個省市自治區(qū)2006 年的 6 項主要經(jīng)濟(jì)指標(biāo)數(shù)據(jù),進(jìn)行因子分析,對因子進(jìn)行命名和解釋,并計算因子得分和排序。表一數(shù)據(jù)輸入界面:表二因子分析SPSS 輸出界面a)KMO 統(tǒng)計量為0.695 ,接近 0.7 ,表明 6 個變量之間有較強(qiáng)的相關(guān)關(guān)系。適合作因子分析。Bartlett 球度檢驗統(tǒng)計量為277.025 。檢驗的 P 值接近 0,拒絕原假設(shè),認(rèn)為相關(guān)系數(shù)與單位陣有顯著差異??梢砸蜃臃治?。W

8、ord 資料95.57%.表三因子分析SPSS 輸出界面b)表三為公因子提取前和提取后的共同度表,initial列提取因子前的各變量的共同度;extraction列是按特定條件(如特征值1 )提取公因子時的共同度,表中的共同度都很高,說明提取的成分能很好的描述這些變量。所有變量的共同度量都在80% 以上,因此,提取出的公因子對原始變量的解釋能力應(yīng)該是很強(qiáng)的。變量 xi 的信息能夠被k 個公因子解釋的程度表四因子分析SPSS 輸出界面c)表四為各成分的總解釋方差。Component表示按特征值大小排序的因子編號。Initial 下分別給出了相關(guān)系數(shù)矩陣的特征值、方差貢獻(xiàn)率和累計方差貢獻(xiàn)率。Ext

9、raction是所提取的公因子未經(jīng)旋轉(zhuǎn)情況下的特征值,方差貢獻(xiàn)了和累計方差貢獻(xiàn)率。Rotation項下是旋轉(zhuǎn)后的?!癛otation Sums of Squared Loadings”部分是因子旋轉(zhuǎn)后對原始變量方差的解釋情況。旋轉(zhuǎn)后的累計方差沒有改變,只是兩個因子所解釋的原始變量的方差發(fā)生了一些變化。Word 資料.表明提取的兩個公共因子的方差可以解釋總方差的95.57% 。第 j 個公因子對變量xi 的提供的方差總和,反映第j 個公因子的相對重要程度旋轉(zhuǎn)后成分矩陣。第一個因子與年末總?cè)丝?、固定資產(chǎn)投資、社會消費(fèi)品零售總額、財政收入這幾個載荷系數(shù)較大,主要解釋了這幾個變量。從實(shí)際意義上看,可以

10、把因子1 姑且命名為“經(jīng)濟(jì)水平”因子。而第二個因子與人均GDP 、居民消水平這兩個變量的載荷系數(shù)較大,主要解釋了這兩個變量,從實(shí)際意義看,可以將因子2 姑且命名為“消費(fèi)水平”因子表五 是因子得分系數(shù)矩陣。根據(jù)因子得分和原始變量的標(biāo)準(zhǔn)化值可計算每個觀測量的各因子Word 資料.的分?jǐn)?shù)。4、因子分析基本思想?因子分析是利用降維的思想,由研究原始變量相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),把一些具有錯綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子的一種多變量統(tǒng)計分析方法。因子分析的基本思想是根據(jù)相關(guān)性的大小將原始變量分組,使得組內(nèi)的變量之間相關(guān)性較高, 而不同組的變量之間相關(guān)性較低。每組變量代表一個基本結(jié)構(gòu),并用一個不

11、可觀測的綜合變量表示, 這個基本結(jié)構(gòu)就稱為公共因子。對于所研究的某一具體問題,原始變量可以分解為兩部分之和的形式,一部分是少數(shù)幾個不可測的所謂公共因子的線性函數(shù),另一部分是與公共因子無關(guān)的特殊因子。x1, x 2, x k12k設(shè) p個原始變量為f 1, f2, f m12m為x1a11 f1a12 f 2a1m f mx2a21 f1a22 f 2a2 m f m, 要 尋 找 的m個 因 子 (m k),因子和原始變量之間的關(guān)系表達(dá)式為?e1e2xkak1 f1 ak2 f 2akm fm emWord 資料.系數(shù) a ij 為第個 i 變量與第k 個因子之間的線性相關(guān)系數(shù),反映變量與因子

12、之間的相關(guān)程度,也稱為載荷 (loading) 。由于因子出現(xiàn)在每個原始變量與因子的線性組合中,因此也稱為 公因子。為特殊因子,代表公因子以外的因素影響5、因子分析的目的是什么?因子分析是從多個變量指標(biāo)中選擇出少數(shù)幾個綜合變量指標(biāo),以較少的幾個因子反映原始資料的大部分信息的一種降維的多元統(tǒng)計方法。求解步驟1) 對原始數(shù)據(jù)標(biāo)準(zhǔn)化2) 建立相關(guān)系數(shù)矩陣 R(因子提取)3) 求 R 的單位特征根與特征向量 U ;4) 因子旋轉(zhuǎn)求因子載荷矩陣 A ;5) 寫出因子模型 X=AF+E6)建立因子得分矩陣P7)寫出因子得分模型F=P X(因子提取的方法:主成分法、不加權(quán)最小平方法、加權(quán)最小平方法、最大似然

13、法、主軸因子法 ;旋轉(zhuǎn)方法為:方差最大正交旋轉(zhuǎn)、四次方最大正交旋轉(zhuǎn)、平方最大正交旋轉(zhuǎn)、斜交旋轉(zhuǎn)、 Promax :該方法在方差最大正交旋轉(zhuǎn)的基礎(chǔ)上進(jìn)行斜交旋轉(zhuǎn))6、什么是變量共同度?寫出變量共同度的表達(dá)式。變量 xi 的信息能夠被k 個公因子解釋的程度,用k 個公因子對第i 個變量 xi 的方差貢獻(xiàn)率表示mp222222, , ,Diai1ai 2aimaijhik)aij ( j 1 2j 1i 17、什么是公共因子方差貢獻(xiàn)率?寫出公共因子方差貢獻(xiàn)率表達(dá)式。Word 資料.第 j 個公因子對變量xi 的提供的方差總和,反映第j 個公因子的相對重要程度k22, , ,p)g jaij(i 1

14、2j18、因子分析中KMO 檢驗主要檢驗什么?KMO 越接近 1,變量間的 相關(guān)性 越強(qiáng)KMO 在 0.8 以上,說明該問題適合做因子分析。KMO 統(tǒng)計量在0.7 以上時,因子分析效果較好;KMO 統(tǒng)計量在0.5 以下時,因子分析效果很差KMO( Kaiser-Meyer-Olkin)檢驗統(tǒng)計量是用于比較原始變量間簡單相關(guān)系數(shù)和偏相關(guān)系數(shù)的指標(biāo)。當(dāng)所有變量間的簡單相關(guān)系數(shù)平方和遠(yuǎn)遠(yuǎn)大于偏相關(guān)系數(shù)平方和時,KMO 值接近 1 ,KMO 越接近 1,變量間的相關(guān)性越強(qiáng)。當(dāng)所有變量間的簡單相關(guān)系數(shù)平方和接近0時, KMO 值接近 0.KMO 值越接近于0,意味著變量間的相關(guān)性越弱,原有變量越不適合作

15、因子分析。 Kaiser給出了常用的kmo 度量標(biāo)準(zhǔn):0.9 以上表示非常適合;0.8 表示適合; 0.7 表示一般;0.6 表示不太適合;0.5 以下表示極不適合。Bartlett 球度檢驗: 以變量的相關(guān)系數(shù)矩陣為基礎(chǔ),假設(shè)相關(guān)系數(shù)矩陣是單位陣(對角線元素不為 0 ,非對角線元素均為0) 。如果相關(guān)矩陣是單位陣,則各變量是獨(dú)立的,無法進(jìn)行因子分析。9、因子分析中公因子個數(shù)確定的依據(jù)是什么?用公因子方差貢獻(xiàn)率提?。阂话憷塾嫹讲钬暙I(xiàn)率達(dá)到80% 以上的前幾個因子可以作為最后的公因子用特征根提?。?一般要求因子對應(yīng)的特征根要大于1,因為特征根小于1 說明該公因子的解釋力度太弱,還不如使用原始變量

16、的解釋力度大Word 資料.碎石圖 中變化趨勢出現(xiàn)拐點(diǎn)的前幾個主成分10 、因子分析中因子旋轉(zhuǎn)(factor rotation)的目的是什么?什么是因子得分(factor score) ?因子旋轉(zhuǎn)的目的使得因子載荷系數(shù)盡可能兩極分化,使因子載荷系數(shù)向1 或 0 靠近,使得某一個變量值在某一個因子上的載荷系數(shù)大,從而更清楚地看出各因子與原始變量的相關(guān)性大小,使因子的含義更加清楚,以便于對因子的命名和解釋。因子得分 就是每個觀測量的共同因子的值。根據(jù)因子得分系數(shù)和原始變量的標(biāo)準(zhǔn)化值可以計算每個觀測量的各因子的分?jǐn)?shù),因子得分=x1* 對應(yīng)權(quán)重 +x2* 對應(yīng)權(quán)重 +xn* 對應(yīng)權(quán)重,根據(jù)因子得分我們

17、可以寫出因子表達(dá)式。f1b11x1 b12 x2b1 p xpf 2b21x1 b22 x2b2 p xpf kbk1 x1 bk2 x2bkp xp因子得分是各變量的線性組合11 、簡述因子分析與主成分分析的區(qū)別。主成分分析和因子分析是兩種把變量維度降低以便于描述、理解和分析的方法。1 在 SPSS 分析中,因子分析必須進(jìn)行因子旋轉(zhuǎn),主成分分析不一定要旋轉(zhuǎn)。故公共因子往往可以找到實(shí)際意義,而主成分一般不能解釋實(shí)際意義;2 因子分析法是對你所分析的變量的抽取(因子) ,主成分分析法是對你所分析的變量的概括(指標(biāo)) ;3 因子模型中除了公共因子還有特殊因子,公共因子只解釋了原變量的部分方差,而主

18、成分解釋了原變量全部方差;4 因子分析是把變量表示成各因子的線性組合,而主成分則是把主成分表示成各變量的線性組合;Word 資料.5 主成分分析中不需要有一些專門假設(shè),因子分析則需要一些假設(shè)。因子分析的假設(shè)包括: 各個共同因子之間不相關(guān), 特殊因子之間也不相關(guān), 共同因子和特殊因子之間也不相關(guān);6 提取主因子的方法不僅有主成分法,還有極大似然法,基于這些不同算法得到的結(jié)果一般也不同。而主成分只能用主成分法提??;7 主成分分析中,當(dāng)給定的協(xié)方差矩陣或者相關(guān)矩陣的特征值唯一時,主成分一般是固定的;而因子分析中,因子不是固定的,可以旋轉(zhuǎn)得到不同的因子;8 在因子分析中,因子個數(shù)需要分析者指定( sp

19、ss 根據(jù)一定的條件自動設(shè)定,只要是特征值大于 1 的因子進(jìn)入分析) ,而指定的因子數(shù)量不同而結(jié)果不同。在主成分分析中,成分的數(shù)量是一定的,一般有幾個變量就有幾個主成分。12 、聚類分析基本思想及分類聚類分析就是按照對象之間的“相似 ”程度把對象進(jìn)行分類。聚類分析的“對象 ”可以是所觀察的多個樣本,也可以是針對每個樣本測得的多個變量。對樣品的分類稱為Q 型聚類;對變量的分類,則稱為R 型聚類Q 聚類是根據(jù)被觀測對象的各種特征,即反映被觀測對象的特征的各變量值進(jìn)行分類。R 聚類是根據(jù)所研究的問題選擇部分變量對事物的某一方面進(jìn)行研究。按對象的 “相似 ”程度分類對變量進(jìn)行聚類可以用夾角余弦、Pea

20、rson相關(guān)系數(shù)等工具,也稱為相似系數(shù)對樣本聚類則使用“距離 ”求解步驟1)先對數(shù)據(jù)進(jìn)行變換處理,消除量綱對數(shù)據(jù)的影響;2 )認(rèn)為各樣本點(diǎn)自成一類( 即 n 個樣本點(diǎn)一共有n 類 ),然后計算各樣本點(diǎn)之間的距離,Word 資料.并將距離最近的兩個樣本點(diǎn)并成一類;3)選擇并計算類與類之間的距離,并將距離最近的兩類合并;4)重復(fù)上面作法直至所有樣本點(diǎn)歸為所需類數(shù)為止;5)最后繪制聚類圖。13 、相似性的度量1) 在對樣本進(jìn)行分類時,度量樣本之間的相似性使用點(diǎn)間距離。pyi ) 2歐式距離(xii1p絕對值距離x iy ii 1切比雪夫距離maxx iy ipqq明氏距離x iy ii1蘭氏距離2)

21、在對變量進(jìn)行分類時,度量變量之間的相似性常用相似系數(shù),測度方法有xi yi夾角余弦cosxyixi2yi2ii( xix )( yiy)Pearson相關(guān)系數(shù)rxyi( xix )2( yiy)2ii夾角余弦,如果i錯誤!未找到引用源。與 x j 錯誤!未找到引用源。比較相似,則他x們的夾角接近0,從而 cos xy 錯誤!未找到引用源。接近 1。Pearson 相關(guān)系數(shù),相關(guān)系數(shù)越接近于1 或 -1,越相似;彼此無關(guān)的變量,他們的相關(guān)系數(shù)接近0。Word 資料.15 、系統(tǒng)聚類和快速聚類的特點(diǎn)分別是什么?(版本一)系統(tǒng)聚類事先不確定要分多少類,而是先把每一個對象作為一類,然后一層一層進(jìn)行分類

22、。根據(jù)運(yùn)算的方向不同,層次聚類法又分為合并法和分解法,兩種方法的運(yùn)算原理一樣,只是方向相反。快速聚類法是根據(jù)事先確定的K 個類別反復(fù)迭代直到把每個樣本分到指定的類別中。類別數(shù)目的確定具有一定的主觀性,究竟分多少類合適, 取決于研究者對研究問題的了解程度、相關(guān)知識和經(jīng)驗??焖倬垲愄攸c(diǎn):處理速度快,占用內(nèi)存少,適用于大樣本的聚類分析。16 、七個樣品之間的相似系數(shù)矩陣如下,試對這七個樣品進(jìn)行聚類,并畫出譜系圖。12345671 120.51130.940.83140.810.910.86150.970.010.540.74160.200.670.920.150.52170.240.410.200.

23、300.160.241答案:X10.97X50.94X30.51X20.91X40.67X60.24X717 、層次聚類法(合并法和分解法)計算類間距離有多種方法,試寫出兩種方法。Word 資料.最短距離法(最近鄰法):首先合并最近的或最相似的兩類,用兩類間最近點(diǎn)的距離代表兩類之間的距離。最長距離法:用兩類間最遠(yuǎn)點(diǎn)的距離代表兩類之間的距離。重心法:用兩類重心之間的距離表示兩類之間的距離。組間平均距離法:SPSS 默認(rèn),是用兩類中間各個數(shù)據(jù)點(diǎn)之間的距離的平均來表示兩類之間的距離,既不是最大距離也不是最小距離。離差平方和距離法:常用,使各類別中的離差平方和較小,而不同類別之間的離差平方和較大。18

24、 、 K- 均值聚類是針對樣品(CASE )的聚類還是針對變量的聚類?K- 均值聚類是針對樣品(case )的聚類,需要單獨(dú)做標(biāo)準(zhǔn)化處理,而后再進(jìn)行聚類。19 、判別分析簡述 Fisher s 判別的原理。建立Fisher 判別函數(shù)的準(zhǔn)則是什么?( Fisher 判別,亦稱典則判別,是將自變量投影到較低維度的空間, 再進(jìn)行分類。相當(dāng)于將自變量先提取幾個主成分,只需根據(jù)主成分分類。Fisher 準(zhǔn)則:使得綜合指標(biāo) Z 在 A 類的均數(shù) ZA 與在 B 類的均數(shù)ZB 的差異ZA ZB 盡可能大,而兩類內(nèi)綜合指標(biāo) Z 的變異 SA2SB2盡可能小)Word 資料.解讀 spss 輸出結(jié)果。判別分析是

25、在已知研究對象分成若干類型并已取得各種類型的一批已知樣品的觀測數(shù)據(jù),在此基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式,然后對未知類型的樣品進(jìn)行判別分類。求解步驟20 、常用判別方法1)距離判別法 :基本思想是,先根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心,然后計算待判樣本與各類的距離,與哪一類距離最近,就判待判樣本x 屬于哪一類。判別函數(shù)為: W(x)=D(x,G2)-D(x,G1)xG1 , 當(dāng) W ( x)0xG2 , 當(dāng) W ( x)0判別準(zhǔn)則為:待判,當(dāng) W ( x)0注意: 距離一般采用馬氏距離;適合對自變量均為連續(xù)變量的情況進(jìn)行分類;對各類的分布無特定的要求。2) Fisher 判別法 :基本思想是通

26、過將多維數(shù)據(jù)投影至某個方向上,投影的原則是將總體與總體之間盡可能分開,然后再選擇合適的判別規(guī)則,將待判的樣本進(jìn)行分類判別。所謂的投影實(shí)際上是利用方差分析的思想構(gòu)造也一個或幾個超平面,使得兩組間的差別最大,每組內(nèi)Word 資料.的差別最小。費(fèi)歇爾判別函數(shù) 為:y ( X1 X 2 ) ? 1 Xx G1 y1 y2 , y y0xG2y1y2 , yy0xG2y1y2 , yy0其判別準(zhǔn)則是 :xG1y1y2 , yy0Fisher 判別對各類分布、方差都沒有限制。但當(dāng)總體個數(shù)較多時,計算比較麻煩。建立 Fisher 判別函數(shù)的準(zhǔn)則是:使得綜合指標(biāo)Z在A類的均數(shù) ZA與在 B 類的均數(shù) ZB 的

27、差異Z AZ B盡可能大,而兩類內(nèi)綜合指標(biāo)Z 的變異SA2SB2盡可能小3) Bayes判別法 :基本思想是:設(shè)有兩個總體,它們的先驗概率分別為q1 、q2 ,各總體的密度函數(shù)為f1(x) 、f2(x) ,在觀測到一個樣本x 的情況下, 可用貝葉斯公式計算它來自第kP(Gk / x)qk f k ( x)k 1,22qk f k ( x)個總體的后驗概率為:k 1一種常用判別準(zhǔn)則是:對于待判樣本x,如果在所有的P(Gk/x) 中 P(Gh/x) 是最大的,則判定 x 屬于第 h 總體。通常會以樣本的頻率作為各總體的先驗概率。Bayes 判別主要用于多類判別,它要求總體呈多元正態(tài)分布4)逐步判別

28、法 :逐步判別法與逐步回歸法的基本思想類似,都是逐步引入變量,每引入一個“最重要”的變量進(jìn)入判別式,同時也考慮較早引入判別式的某些變量,若其判別能力不顯著了, 應(yīng)及時從判別式中剔除去,直到判別式中沒有不重要的變量需要剔除,且也沒有重要的變量要引入為止。21 、對 Bayes 判別法與 Fisher判別法作比較( 1)當(dāng) k 個總體的均值向量(1)( 2)(k )x , x, x 共線性程度較高時, Fisher 判別法可用較少的判別函數(shù)進(jìn)行判別,因而比Bayes判別法簡單。另外,F(xiàn)isher 判別法未對總體的分布提出什么特定的要求。( 2)Fisher 判別法的不足是它不考慮各總體出現(xiàn)概率的大

29、小,也給不出預(yù)報的后驗概Word 資料.率及錯判率的估計以及錯判之后造成的損失。而這不足恰是Bayes 判別法的優(yōu)點(diǎn),但值得指出的是,如果給定的先驗概率不符合客觀實(shí)際時,Bayes 判別法也可能會導(dǎo)致錯誤的結(jié)論。22 、簡述判別分析與聚類分析的區(qū)別。判別分析已知研究對象分為若干個類別,并且已經(jīng)取得每一類別的若干觀測數(shù)據(jù),在此基礎(chǔ)上尋求出分類的規(guī)律性,建立判別準(zhǔn)則,然后對未知類別的樣品進(jìn)行判別分類。聚類分析一批樣品劃分為幾類事先并不知道,需要通過聚類分析來給以確定分幾種類型。判別分析與聚類分析不同點(diǎn)在于,判別分析要求已知一系列反映事物特征的數(shù)值變量的值,并且已知各個體的分類。28 、 K- 均值

30、聚類是否需要在聚類之前先做標(biāo)準(zhǔn)化處理?K-均值聚類是針對樣品(case )的聚類,需要單獨(dú)做標(biāo)準(zhǔn)化處理,而后再進(jìn)行聚類。各變量的取值不應(yīng)有數(shù)量級上的過大差異,否則會對分類結(jié)果產(chǎn)生較大影響。這時需要對變量進(jìn)行標(biāo)準(zhǔn)化處理(SPSS提供的層次聚類法中在聚類時可以選擇對變量做標(biāo)準(zhǔn)化處理,而K-均值聚類法則需要單獨(dú)做標(biāo)準(zhǔn)化處理,爾后再進(jìn)行聚類)各變量間不應(yīng)有較強(qiáng)的相關(guān)關(guān)系。若兩個強(qiáng)相關(guān)的變量同時參與聚類分析,在測度距離時,就加大了它們的貢獻(xiàn),而其他變量則相對被削弱33 、簡述多元線性回歸中,寫出兩種多重共線性的診斷方法和解決方案。診斷方法: 檢測多重共線性的最簡單的一種辦法是計算模型中各對自變量之間的相

31、關(guān)系數(shù),并對各相關(guān)系數(shù)進(jìn)行顯著性檢驗。若有一個或多個相關(guān)系數(shù)顯著,就表示模型中所用的自變量之間相關(guān),存在著多重共線性。如果出現(xiàn)下列情況,暗示存在多重共線性模型中各對自變量之間顯著相關(guān)當(dāng)模型的線性關(guān)系檢驗(F 檢驗 )顯著時,幾乎所有回歸系數(shù)的t 檢驗卻不顯著回歸系數(shù)的正負(fù)號與預(yù)期的相反。解決方案:Word 資料.將一個或多個相關(guān)的自變量從模型中剔除,使保留的自變量盡可能不相關(guān);如果要在模型中保留所有的自變量,則應(yīng)避免根據(jù)t 統(tǒng)計量對單個參數(shù)進(jìn)行檢驗;對因變量值的推斷(估計或預(yù)測 )的限定在自變量樣本值的范圍內(nèi)。34 、一家大型商業(yè)銀行在多個地區(qū)設(shè)有分行,為弄清楚不良貸款形成的原因,抽取了該銀行

32、所屬的25 家分行 2002 年的有關(guān)業(yè)務(wù)數(shù)據(jù)。試建立不良貸款y 與貸款余額x1 、累計應(yīng)收貸款 x2 、貸款項目個數(shù)x3 和固定資產(chǎn)投資額x4 的線性回歸方程,并解釋各回歸系數(shù)的含義上表是計算機(jī)輸出的結(jié)果。試寫出多元線性回歸模型,并進(jìn)行統(tǒng)計學(xué)檢驗。概述表中, 看到 R Square=0.7976,Adjusted R Square=0.7571表示模型的擬合優(yōu)度很好。方差分析表中, 對方程的顯著性檢驗F 對應(yīng)的 sig=1.035E-06,小于 0.05 ,說明回歸方程有統(tǒng)計意義。Coefficients是各個變量的系數(shù),由 P-value 值可以判定, 只有變量1 的 p-value 小于

33、 0.05 ,說明變量 1 與因變量y 有顯著相關(guān)關(guān)系。Word 資料.回歸模型: Y=0.04*X Variable 1-1.0216.38 、簡述 logistic 回歸的原理和適用條件。Logistic 回歸,是指因變量為二級計分或二類評定的回歸分析。因變量 Y 是一個二值變量自變量 X1 ,X2 , , XmP 表示在 m 個自變量作用下事件發(fā)生的概率。P( y 1/ x1, x2 .xm )1e( 0 1x1 . mxm )1適用條件:因變量只有兩個值,發(fā)生(是)或者不發(fā)生(不是)。自變量數(shù)據(jù)最好為多元正態(tài)分布,自變量間的共線性會導(dǎo)致估計偏差。實(shí)際上屬于判別分析,因擁有很差的判別效率

34、而不常用。適用于流行病學(xué)資料的因素分析(驗室中藥物的劑量-反應(yīng)關(guān)系、臨床試驗評價、病的預(yù)后因素分析。41 、(匯總歸納)聚類分析基本原理:將個體(樣品)或者對象(變量)按相似程度(距離遠(yuǎn)近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強(qiáng)。目的在于使類間元素的同質(zhì)性最大化和類與類間元素的異質(zhì)性最大化。常用聚類方法:系統(tǒng)聚類法,K- 均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。注意事項: 1. 系統(tǒng)聚類法可對變量或者記錄進(jìn)行分類,K- 均值法只能對記錄進(jìn)行分類;2. K- 均值法要求分析人員事先知道樣品分為多少類;3. 對變量的多元正態(tài)性,方差齊性等要求較高。Word 資料.應(yīng)用領(lǐng)域:細(xì)分市場,消費(fèi)行為劃分,設(shè)計抽樣方案等判別分析基本原理:從已知的各種分類情況中總結(jié)規(guī)律(訓(xùn)練出判別函數(shù)),當(dāng)新樣品進(jìn)入時,判斷其與判別函數(shù)之間的相似

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論