第11章-判別分析_第1頁
第11章-判別分析_第2頁
第11章-判別分析_第3頁
第11章-判別分析_第4頁
第11章-判別分析_第5頁
已閱讀5頁,還剩165頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十一章判別分析9/17/20232目錄上頁下頁返回結束回歸模型普及性的基礎在于用它去預測和解釋度量(metric)變量。但是對于非度量(nonmetric)變量,多元回歸不適合解決此類問題。本章介紹的判別分析來解決被解釋變量是非度量變量的情形。在這種情況下,人們對于預測和解釋影響一個對象所屬類別的關系感興趣,比如為什么某人是或者不是消費者,一家公司成功還是破產(chǎn)等。判別分析在主要目的是識別一個個體所屬類別的情況下有著廣泛的應用。潛在的應用包括預測新產(chǎn)品的成功或失敗、決定一個學生是否被錄取、按職業(yè)興趣對學生分組、確定某人信用風險的種類、或者預測一個公司是否成功。在每種情況下,將對象進行分組,并且要求使用這兩種方法中的一種可以通過人們選擇的解釋變量來預測或者解釋每個對象的所屬類別。

判別分析的基本思想判別分析是多元統(tǒng)計分析中用于判別樣品所屬類型的一種統(tǒng)計分析方法,是一種在已知研究對象用某種方法分成若干類的情況下,確定樣品所屬類別的方法。例如,在醫(yī)療診斷中,醫(yī)生根據(jù)體溫,脈搏,心率,白血球等多種指標,來判別此人患哪種病。判別分析的特點根據(jù)已掌握的,歷史上每個類別的若干樣本的數(shù)據(jù)信息,總結出客觀事物分類的規(guī)律性,建立判別公式和判別準則,然后,當遇到新樣本點時,只要根據(jù)總結出來的判別公式和判別準則,就能判別該樣本點所屬類別。Discriminantanalysis

Fisher判別法

距離判別法

Bayes判別法逐步判別法

……訓練樣本

訓練集檢測樣本

檢測集判別準則判別效率學習檢測評價判別分析的分類按判別準則的不同:距離判別貝葉斯判別費希爾判別在判別分析中,需要解決的問題判別準則和判別函數(shù)的確立。判別準則用于衡量樣品與各已知組別的接近程度。常用的有距離準則,費希爾準則,貝葉斯準則。判別函數(shù)是基于一定判別準則計算出的用于衡量樣品與各已知組別的接近程度的函數(shù)式或描述指標。判別分析法的基本要求:分組類型在兩組以上第一階段時每組的元素規(guī)模必須在一個以上解釋變量必須是可測量的。判別分析的假設前提:判別分析的假設之一,是每一個判別變量(解釋變量)不能是其他判別變量的線性組合。即不存在多重共線性問題。判別分析的假設之二,是各組變量的協(xié)方差矩陣相等。判別分析最簡單和最常用的形式是采用線性判別函數(shù),它們是判別變量的簡單線性組合。在各組協(xié)方差矩陣相等的假設條件下,可以使用很簡單的公式來計算判別函數(shù)和進行顯著性檢驗。

判別分析的假設之三,是各判別變量之間具有多元正態(tài)分布,即每個變量對于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計算顯著性檢驗值和分組歸屬的概率。當違背該假設時,計算的概率將非常不準確。第八章第一節(jié)機動目錄上頁下頁返回結束距離判別距離判別的最直觀的想法是計算樣品到第i類總體的距離,哪個距離最小就將它判歸哪個總體,所以,我們首先考慮的是是否能夠構造一個恰當?shù)木嚯x函數(shù),通過樣本與某類別之間距離的大小,判別其所屬類別。馬氏距離的定義:設總體G為m元總體(考察m個指標),均值向量為,協(xié)方差陣為,則樣品

(二)兩個總體距離判別法先考慮兩個總體的情況,設有兩個協(xié)差陣

相同的m維正態(tài)總體,對給定的樣本Y,判別一個樣本Y到底是來自哪一個總體,一個最直觀的想法是計算Y到兩個總體的距離。故我們用馬氏距離來指定判別規(guī)則,有:1、協(xié)方差陣相等則前面的判別法則表示為當和

已知時,

是一個已知的m維向量,W(y)是y的線性函數(shù),稱為線性判別函數(shù)。稱為判別系數(shù)。用線性判別函數(shù)進行判別分析非常直觀,使用起來最方便,在實際中的應用也最廣泛。

例在企業(yè)的考核種,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)??己似髽I(yè)經(jīng)營狀況的指標有:資金利潤率=利潤總額/資金占用總額勞動生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值

三個指標的均值向量和協(xié)方差矩陣如下?,F(xiàn)有二個企業(yè),觀測值分別為:

(7.8,39.1,9.6)和(8.1,34.2,6.9),問這兩個企業(yè)應該屬于哪一類?變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤率13.55.468.3940.2421.41勞動生產(chǎn)率40.729.840.2454.5811.67產(chǎn)品凈值率10.76.221.4111.677.90線性判別函數(shù):2、當總體的協(xié)方差已知,且不相等

當總體的方差未知時,應該用樣本的協(xié)方差矩陣代替。步驟如下(假如兩個總體):(1)分別計算各組的離差矩陣S1和S2;

(2)計算(3)計算類的均值(4)計算(5)計算(6)生成判別函數(shù),將檢驗樣本代入,得分,判類。隨著計算機計算能力的增強和計算機的普及,距離判別法的判別函數(shù)也在逐步改進,一種等價的距離判別為:設有個K總體,分別有均值向量μi(i=1,2,…,k)和協(xié)方差陣Σi=Σ,又設Y是一個待判樣品。則與的距離為(即判別函數(shù))(三)多總體的距離判別法上式中的第一項Y’Σ-1Y與i無關,則舍去,得一個等價的函數(shù)將上式中提-2,得則距離判別法的判別函數(shù)為:判別規(guī)則為注:這與前面所提出的距離判別是等價的.24距離判別

目錄上頁下頁返回結束25目錄上頁下頁返回結束2.協(xié)差陣不相同。9/17/2023中國人民大學六西格瑪質量管理研究中心26目錄上頁下頁返回結束(四)對判別效果做出檢驗

由上面的分析可以看出,馬氏距離判別法是合理的,但是這并不意謂著不會發(fā)生誤判。(四)對判別效果做出檢驗

1、錯判概率1、錯判概率第八章第二節(jié)機動目錄上頁下頁返回結束貝葉斯判別法距離判別只要求知道總體的數(shù)字特征,不涉及總體的分布函數(shù),當參數(shù)和協(xié)方差未知時,就用樣本的均值和協(xié)方差矩陣來估計。距離判別方法簡單實用,但沒有考慮到每個總體出現(xiàn)的機會大小,即先驗概率,沒有考慮到錯判的損失。貝葉斯判別法正是為了解決這兩個問題提出的判別分析方法。辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。。一、標準的Bayes判別距離判別簡單直觀,很實用,但是距離判別的方法把總體等同看待,沒有考慮到總體會以不同的概率(先驗概率)出現(xiàn),也沒有考慮誤判之后所造成的損失的差異。一個好的判別方法,既要考慮到各個總體出現(xiàn)的先驗概率,又要考慮到錯判造成的損失,Bayes判別就具有這些優(yōu)點,其判別效果更加理想,應用也更廣泛。貝葉斯公式是一個我們熟知的公式

設有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。即當樣本發(fā)生時,求他屬于某類的概率。由貝葉斯公式計算后驗概率,有:判別規(guī)則則判給。在正態(tài)的假定下,為正態(tài)分布的密度函數(shù)。則判給。上式兩邊取對數(shù)并去掉與i無關的項,則等價的判別函數(shù)為:下面討論總體服從正態(tài)分布的情形問題轉化為若,則判。則判別函數(shù)退化為令

問題轉化為若,則判。

完全成為距離判別法。令有問題轉化為若,則判。當先驗概率相等,二、考慮錯判損失的Bayes判別分析設有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。又D1,D2,┅,Dk是R(p)的一個分劃,判別法則為:當樣品X落入Di

,時,

這個分劃應該使平均損失最小。

【定義】(平均錯判損失)用P(j/i)表示將來自總體Gi的樣品錯判到總體Gj的條件概率。

C(j/i)表示相應錯判所造成的損失。則平均錯判損失為:

使ECM最小的分劃,是Bayes判別分析的解。

若總體G1,G2,,Gk的先驗概率為且相應的密度函數(shù)為,損失為時,則劃分的Bayes解為其中它表示把樣品X判歸的平均損失。

含義是:當抽取了一個未知總體的樣品值x,要判別它屬于那個總體,只要先計算出k個按先驗概率加權的誤判平均損失然后比較其大小,選取其中最小的,則判定樣品屬于該總體。第八章第三節(jié)機動目錄上頁下頁返回結束費希爾判別DiscriminantanalysisFisher線性判別法Fisher判別的基本思想將

m組n維的數(shù)據(jù)投影到某一個方向,使得投影后的組與組之間盡可能地分開。平面上兩類數(shù)據(jù)訓練樣本的散點圖(兩組數(shù)據(jù)樣本在平面上存在一個合理的分界線L)x1x2L:c1x1+c2x2-c=0令:F(x1,x2)=c1x1+c2x2F(x1,x2):判別函數(shù)

c:判別值G1G2Fisher線性判別法

一、兩個總體的費歇(Fisher)判別法

X不能使總體單位盡可能分開的方向u能使總體單位盡可能分開的方向

旋轉坐標軸至總體單位盡可能分開的方向,此時分類變量被簡化為一個Discriminantanalysis已知:數(shù)據(jù)屬性有n個,每個數(shù)據(jù)點為n維向量X:已知總體數(shù)據(jù)分為兩類:G1和G2

,總體G1有p個樣本點,總體G2有q個樣本點。屬性(分量)12…n總體G1(i=1,…,p)1X1(1)x11(1)x12(1)…x1n(1)……………iXi(1)xi1(1)xi2(1)…xin(1)……………pXp(1)xp1(1)xp2(1)…xpn(1)總體G2(i=1,…,q)1X1(2)x11(2)x12(2)…x1n(2)……………iXi(2)xi1(2)xi2(2)…xin(2)……………qXq(2)xq1(2)xq2(2)…xqn(2)目標:求解在n維空間中總體G1和總體G2的最優(yōu)分界平面。(一)費歇判別的基本思想從距離判別法,我們已經(jīng)看到判別規(guī)則是一個線性函數(shù),由于線性判別函數(shù)使用簡便,因此我們希望能在更一般的情況下,建立一種線性判別函數(shù)。Fisher判別法是根據(jù)方差分析的思想建立起來的一種能較好區(qū)分各個總體的線性判別法,F(xiàn)isher在1936年提出。該判別方法對總體的分布不做任何要求。從兩個總體中抽取具有P個指標的樣品觀測數(shù)據(jù),借助于方差分析的思想構造一個線性判別函數(shù).Discriminantanalysis定義線性判別函數(shù)為:其中Ci

(i=1,2,…,n)為常數(shù)(待定系數(shù))。若判別值為C

,對于任何未知數(shù)據(jù)點X(x1,x2,…,xn),代入判別函數(shù),依據(jù)F(x1,x2,…,xn)與C值的比較,可以判別點X屬于哪一類。1、確定待定系數(shù)Ci

(i=1,2,…,n)2、確定判別值CDiscriminantanalysis將類G1的p個點、類G2的q個點分別代入判別函數(shù):其中,確定待定系數(shù)CiDiscriminantanalysis令:

A與G1和G2兩類點的幾何中心的距離相關。顯然,判別函數(shù)F(x1,x2,…,xn)應該使

A值越大越好。令:

B與G1和G2兩類點的相對于各自幾何中心的離差相關。顯然,判別函數(shù)F(x1,x2,…,xn)應該使

B值越小越好。Discriminantanalysis構造函數(shù)I:選擇合適的待定系數(shù)Ci

(i=1,2,…,n),使得函數(shù)I(C1,C2,…,Cn)達到極大值。DiscriminantanalysisDiscriminantanalysisDiscriminantanalysis消去非零的因子,得到求解待定系數(shù)(C1,C2,…,Cn)的線性方程組:Discriminantanalysis確定判別值C判別函數(shù)已知,不妨寫成:將G1的p個點、G2的q個點分別代入判別函數(shù):對G1、G2的(p+q)個點的判別函數(shù)值取總體的平均值:顯然,

值是兩類點的判別函數(shù)值的加權平均,處于兩類判別函數(shù)平均值之間,也等價于兩類點的總體幾何中心的判別函數(shù)值。因此,將判別值C取為

值:DiscriminantanalysisFisher線性判別的基本步驟屬性(分量)12…nG1(i=1,…,p)1X1(1)x11(1)x12(1)…x1n(1)……………iXi(1)xi1(1)xi2(1)…xin(1)……………pXp(1)xp1(1)xp2(1)…xpn(1)G2(i=1,…,q)1X1(2)x11(2)x12(2)…x1n(2)……………iXi(2)xi1(2)xi2(2)…xin(2)……………qXq(2)xq1(2)xq2(2)…xqn(2)問題已知數(shù)據(jù)樣本點分為兩類:G1和G2,G1有p個點,G2有q個點。求出判別函數(shù)F(x1,x2,…,xn)和判別值C

。對于任何未知數(shù)據(jù)點X(x1,x2,…,xn),依據(jù)F(x1,x2,…,xn)與C值的比較,判別點X屬于哪一類。DiscriminantanalysisSTEP1先對樣本點數(shù)據(jù)Xi(1)(xi1(1),xi2(1),…,xin

(1))(i=1,…,p)、

Xi(2)(xi1(2),xi2(2),…,xin

(2))(i=1,…,q)分別計算以下求和以及平均值:DiscriminantanalysisSTEP2計算di和Sij,注意對稱性Sij=Sji

:DiscriminantanalysisSTEP3解線性代數(shù)方程組:若方程有解,得到判別函數(shù)F:DiscriminantanalysisSTEP4將平均值代入判別函數(shù),然后計算判別值C:DiscriminantanalysisSTEP5對未知數(shù)據(jù)X(x1,x2,…,xn)進行判別:將數(shù)據(jù)X(x1,x2,…,xn)代入判別函數(shù)F,與判別值進行比較,判別其屬于哪一類。DiscriminantanalysisFisher線性判別的應用舉例x1x2樣本序號x1x2類別157124323782486253616251766189629542DiscriminantanalysisDiscriminantanalysisDiscriminantanalysisDiscriminantanalysis判別效果的評價錯判損失錯判率N(G1|G2)N(G2|G1)Discriminantanalysisp(x)xG1:N(1,1)G2:N(2,2)

1

2*P(G1|G2)P(G2|G1)Discriminantanalysis檢驗判別效果的方法訓練集的回判

訓練集(Learningset):訓練樣本集檢測集(Testset):檢測樣本集(類別未知)利用訓練集作為檢測集:用判別方法對已知類型的樣本進行回判,統(tǒng)計判錯的個數(shù)以及占樣本總數(shù)的比例,作為錯判率的估計。特點:容易低估錯判率。

Discriminantanalysis其中系數(shù)確定的原則是使兩組間的組間離差最大,而每個組的組內離差最小。當建立了判別式以后,對一個新的樣品值,我們可以將他的P個指標值代入判別式中求出Y值,然后與某個臨界值比較,就可以將該樣品歸某類。假設我們可以得到一個線性判別函數(shù):我們可以把兩個總體的樣品代入上面的判別式分別對上面兩式左右相加,再除以樣品個數(shù),可得兩個總體的重心:最佳的線性判別函數(shù)應該是:兩個重心的距離越大越好,兩個組內的離差平方和越小越好。(三)判別準則如果由原始數(shù)據(jù)y求得判別函數(shù)得分為Y*,對與一個樣品代入判別函數(shù)中,若Y*>Y0,則判給G1,否則判給G2。二、多個總體的Fisher判別法(一)判別函數(shù)Fisher判別法實際上是致力于尋找一個最能反映組和組之間差異的投影方向,即尋找線性判別函數(shù),設有個總體,分別有均值向量,,…,和協(xié)方差陣,分別各總體中得到樣品:第i個總體的樣本均值向量

綜合的樣本均值向量

第i個總體樣本組內離差平方和

綜合的組內離差平方和組間離差平方和如果判別分析是有效的,則所有的樣品的線性組合滿足組內離差平方和小,而組間離差平方和大。則而所對應的特征向量即Fisher樣品判別函數(shù)是

然而,如果組數(shù)k太大,討論的指標太多,則一個判別函數(shù)是不夠的,這時需要尋找第二個,甚至第三個線性判別函數(shù)其特征向量構成第二個判別函數(shù)的系數(shù)。類推得到m(m<k)個線性函數(shù)。關于需要幾個判別函數(shù)得問題,需要累計判別效率達到85%以上,即有設為B相對于E得特征根,則以m個線性判別函數(shù)得到的函數(shù)值為新的變量,再進行距離判別。判別規(guī)則:設Yi(X)為第i個線性判別函數(shù),,則第八章第四節(jié)機動目錄上頁下頁返回結束判別效果的檢驗及各變量判別能力的檢驗以上介紹的判別準則,都是根據(jù)已知觀測值(即訓練樣本),建立判別函數(shù),并由判別函數(shù)給出空間的一個劃分D(即判別法)。建立在樣本基礎上的判別法則,其判別能力顯然與樣本是否來自不同的總體有關;也與考察的m個判別指標變量是否能區(qū)分k個不同的總體有關。

下面來介紹兩總體判別效果的檢驗當總體數(shù)k=2時,所謂判別效果的檢驗,就是檢驗兩總體的均值是否有顯著性差異。若兩總體的均值不相等,則建立的判別準則是有意義的,否則沒意義。除非考慮其它新的判別變量。其中是第i個總體的樣品個數(shù),在兩總體均值相等的假設成立下,F(xiàn)統(tǒng)計量服從分子自由度為m而分母自由度為的F分布,由此求出顯著性概率p,若p值小于給定的顯著性水平則否定兩總體均值相等的假設。反之,則兩總體的均值沒顯著性差異?,F(xiàn)在推廣到k個總體判別效果的檢驗具體做法是,首先檢驗k個類的均值向量是否全都相等,若不全相等,則進一步對K個總體兩兩配對,然后再檢驗這兩總體的判別效果是否顯著,具體方法與兩總體判別效果的檢驗相同。根據(jù)威爾克斯分布的定義,可知

對各變量判別能力的檢驗當檢驗K個類的均值向量是否全都相等時,若K個總體的均值向量之間有顯著性差異,也不能保證其個分量的均值向量之間有顯著性差異,若第i個分量之間沒有顯著性差異,說明相應的對判別分類不起作用,應該刪除。變量判別能力的度量;變量判別能力的檢驗;詳細過程見書第八章第五節(jié)機動目錄上頁下頁返回結束逐步判別法

基本思想:通常判別函數(shù)中會包含多個變量但這些在判別函數(shù)中所起的作用是不同的,有些變量重要,有些變量不重要。若將重要的變量忽略了,判別效果肯定不行。另一方面,若判別變量太多,計算量大,影響估計精度,對判別效果產(chǎn)生影響。因此,變量選擇是判別分析中的重要問題。

基本方法逐步判別法采用有進有出的算法,即每一步都進行檢驗。首先,將判別能力最強的變量引進判別函數(shù),而對較早進入判別函數(shù)的變量,隨著其他變量的進入,其顯著性可能發(fā)生變化,如果其判別能力不強了,則刪除。逐步判別法的基本原理根據(jù)多元方差分析的原理,定義A為樣本點的組內離差平方和,T為樣本點的總離差平方和,此時有要分析某一變量是否有顯著的判別能力,可按以下步驟來進行:

設判別函數(shù)中已有q個變量,記為這時考慮是否需要增加變量,此時可計算偏維爾克斯(Wilks)統(tǒng)計量可以證明記則表明變量判別能力顯著,在判別函數(shù)中應加入變量對于判別函數(shù)中已存在的q個變量X*中,是否有對判別能力不顯著的變量存在,若存在,應予以剔除??紤]變量是否從判別函數(shù)中剔除,記刪除掉的變量組為X*(K),則有此時,如果有

則表明變量的判別能力不顯著,需要將從X*中剔除。

重復上述變量引入和剔除的過程,直至既不能引入新變量,又不能剔除已有的變量,此時將已選中的變量來建立判別函數(shù)。第八章第六節(jié)機動目錄上頁下頁返回結束判別分析方法步驟及框圖102目錄上頁下頁返回結束使用判別分析可以看作是下面6個步驟的過程:第1步:判別分析的對象判別分析的研究目的:1.確定在兩個或者更多事先定義的組上的一組變量的平均得分剖面是否存在顯著性差異。2.確定哪些變量在兩個或更多組的平均得分剖面的差異中解釋最多。3.在一組變量得分的基礎上,建立將對象(個體、公司、產(chǎn)品等等)分類的步驟。4.建立由這組變量形成的組與組之間判別函數(shù)的數(shù)目及構成。103目錄上頁下頁返回結束第2步:判別分析的研究設計判別分析的成功應用需要考慮到幾個要點。這些要點包括解釋變量和被解釋變量的選擇、估計判別函數(shù)所需的樣本量和為了驗證目的對樣本的分割。(一)解釋變量和被解釋變量的選擇要應用判別分析,研究者必須首先指定解釋變量與被解釋變量。這里,解釋變量為定量變量,而被解釋變量為定性變量。104目錄上頁下頁返回結束研究者首先應該關注被解釋變量。被解釋變量的組數(shù)可以是兩個或更多,但這些組必須具有相互排斥性和完全性。被解釋變量有時確實是定性的變量。然而也有一些情況,即使被解釋變量不是真的定性變量,判別分析也是適用的。我們可能有一個被解釋變量是順序或者間隔尺度的變量,而要作為定性變量使用。這種情況下我們可以創(chuàng)建一個定性變量。當確定了被解釋變量后,研究者必須確定分析中應包括的解釋變量。解釋變量的選擇通常有兩種方法。第一種是從以前的研究中或者從該研究問題根本的理論模型中確定變量。第二種方法是直覺——運用研究者的知識,直觀地選擇沒有以前研究或理論存在但是邏輯上與預測解釋變量的組相關的變量。105目錄上頁下頁返回結束(二)樣本容量判別分析對樣本量與預測變量個數(shù)的比率很敏感。許多研究建議比率為每個預測變量20個觀測。盡管這個比率在實際中難以保持,但研究者應注意,當樣本量相對于解釋變量個數(shù)在減少時,結果是不穩(wěn)定的。建議最小的樣本量是每個變量有5個觀測。除總的樣本量以外,研究者還必須考慮每組的樣本容量。至少,最小的組的大小必須超過解釋變量的個數(shù)。作為實際的指導,每組應至少有20個觀測。但即使所有的組大小都超過了20,研究者還應注意組的相對大小。如果組的大小相差很大,這可能影響到判別函數(shù)的估計和觀測的分類。在分類階段,大的組有不相稱的高的分類機會。106目錄上頁下頁返回結束(三)樣本的分割很多時候樣本需要分割為兩個子樣本,一個用于估計判別函數(shù),另一個用于驗證。每個子樣本都有適當?shù)拇笮碇С纸Y論是很重要的。分割樣本有很多種方法,最常用的一種是通過一個子樣本來估計判別函數(shù),而用另一個子樣本來驗證。常用的過程是將整個樣本隨機地分為兩組。其中的一組,分析樣本是用來估計判別函數(shù)的。另一組保留樣本,是用來驗證結論的。這種驗證方法稱為分割樣本或者交叉驗證方法。107目錄上頁下頁返回結束如果劃分分析樣本和保留樣本沒有固定的原則。最常用的程序是分為兩半。當選擇分析組和保留組的個體時,通常遵循比例分層抽樣。也就是分析組和保留組的各組大小比率應與整個樣本的各組大小比率相同。如果研究者要劃分樣本,這個樣本應該充分的大。一般來講,研究者需要整個樣本至少為100,將它分為兩組。108目錄上頁下頁返回結束第3步:判別分析的假定推導判別函數(shù)的關鍵假定是解釋變量的多元正態(tài)性和由被解釋變量定義的各組的未知但相等的協(xié)方差結構。不滿足多元正態(tài)性假定在估計判別方程時可能會出現(xiàn)問題。因此,如果可能的話,建議使用Logistic回歸作為一種替代方法。不等的協(xié)方差矩陣可能會負面影響分類過程。如果樣本量小而協(xié)方差陣不等,那么估計過程的統(tǒng)計顯著性會受到負面影響。最可能的情況是在適當?shù)臉颖玖康慕M之間存在不等的協(xié)方差陣,那么觀測會被“過度歸類”到大的協(xié)方差陣的組中??梢酝ㄟ^增加樣本量和使用各組特定的協(xié)方差陣減小這種影響。9/17/2023109目錄上頁下頁返回結束最后,如果組間的協(xié)方差陣存在大的差異,沒有方法可以減小這種影響時,在許多統(tǒng)計問題中可以使用二次判別技術。另一個可能影響結果的是解釋變量的多重共線性。當使用逐步判別時這種考慮尤為重要。研究者在解釋判別方程時必須注意多重共線性的程度和它對哪些變量進入逐步解的影響。9/17/2023110目錄上頁下頁返回結束第4步:估計判別模型和評估整體擬合為了推導判別函數(shù),研究者必須確定估計的方法,然后確定保留的函數(shù)個數(shù)。隨著估計的函數(shù),可以用多種方法來評估模型擬合。首先,判別Z得分,可以為每一個觀測計算?;赯得分的各組均值的比較提供了組與組之間判別的一種測量。通過分到正確類中的觀測來測量預測精度。一系列準則可以用來評價判別過程是否達到了實際的或者統(tǒng)計的顯著性。最后,個體診斷可以分析每個觀測的分類精度和它對于整個模型估計的相對影響。111目錄上頁下頁返回結束第5步:結果的解釋9/17/2023112目錄上頁下頁返回結束解釋判別函數(shù)傳統(tǒng)的方法是觀察計算判別函數(shù)時賦予每個變量的標準化判別權重(有時也稱為判別系數(shù))的符號和大小。忽略符號時,較大權重的解釋變量意味著對判別函數(shù)的判別力貢獻更多。符號只是代表那個變量有正的還是負的貢獻。對判別權重的解釋也有一些批評。比如解釋變量存在多重共線性情況時,判別權重可能會出現(xiàn)問題。另一個問題是判別權重被認為不穩(wěn)定。近年來,由于判別權重的缺陷,判別載荷逐漸作為解釋的基礎。判別載荷,有時也稱為結構相關系數(shù),是每個解釋變量與判別函數(shù)的簡單相關系數(shù)。判別載荷反映的是每個解釋變量對判別函數(shù)的相對貢獻。判別載荷也可能存在不穩(wěn)定性。

9/17/2023113目錄上頁下頁返回結束判別分析的邏輯框圖如下:

第八章第七節(jié)機動目錄上頁下頁返回結束判別分析的上機實現(xiàn)

116目錄上頁下頁返回結束這里舉兩個例子,一個例子是分兩組的情況,一個是分多組的情況。我們分別用SPSS軟件中的Discriminant模塊來實現(xiàn)判別分析。

117目錄上頁下頁返回結束118目錄上頁下頁返回結束(一)二元變量的判別分析計算

119目錄上頁下頁返回結束另外,如果需要更深入的分析,可以選擇其他項。統(tǒng)計量(Statistics)選項中可以選擇描述統(tǒng)計量Mean,ANVOA,Box’M,函數(shù)可以選擇Fisher和非標準化函數(shù),同時還可以使用哪種矩陣。由于只有兩個自變量,我們不需要使用逐步判別法。分類(Classify)選項中可以選擇先驗概率(所有組相等或根據(jù)組的大小計算概率),子選項顯示(display)中可以選擇每個個體的結果(Casewiseresults),綜合表(SummeryTable)和“留一個在外”的驗證原則,還可以選擇使用哪種協(xié)方差矩陣以及作圖。保存(Save)選項中可以選擇預測的分類、判別得分以及所屬類別的概率。如果采用逐步判別法,我們還可以選擇判別的方法(Method)。得到分析結果如下:120目錄上頁下頁返回結束9/17/2023中國人民大學六西格瑪質量管理研究中心121目錄上頁下頁返回結束122目錄上頁下頁返回結束123目錄上頁下頁返回結束9/17/2023中國人民大學六西格瑪質量管理研究中心124目錄上頁下頁返回結束輸出結果4.3分析的是典型判別函數(shù)。第1張表反映判別函數(shù)的特征值、解釋方差的比例和典型相關系數(shù)。(注意我們僅選取了兩個解釋變量,所以判別函數(shù)解釋了全部的方差)第2張表是對第一個判別函數(shù)的顯著性檢驗。由Wilks’Lambda檢驗,認為判別函數(shù)在0.01的顯著性水平上是極顯著的。

9/17/2023中國人民大學六西格瑪質量管理研究中心125目錄上頁下頁返回結束輸出結果4.4顯示的是判別函數(shù)、判別載荷和各組的重心。126目錄上頁下頁返回結束第2張表是結構矩陣,即判別載荷。由判別權重和判別載荷可以看出兩個解釋變量對判別函數(shù)的貢獻較大。127目錄上頁下頁返回結束128目錄上頁下頁返回結束9/17/2023中國人民大學六西格瑪質量管理研究中心129目錄上頁下頁返回結束輸出結果4.5是分類的統(tǒng)計結果。第1張表概括了分類過程,說明24個觀測都參與分類。第2張表說明各組的先驗概率,我們在Classify選項中選擇的是所有組的先驗概率相等。第3張表是每組的分類函數(shù)(區(qū)別于判別函數(shù)),也稱費歇線性判別函數(shù),

130目錄上頁下頁返回結束第4張表是分類矩陣表。PredictedGroupMembership表示預測的所屬組關系,Original表示原始數(shù)據(jù)的所屬組關系,Cross-validated表示交叉驗證的所屬組關系,這里交叉驗證是采用“留一個在外”的原則,即每個觀測是通過除了這個觀測以外的其他觀測推導出來的判別函數(shù)來分類的。

131目錄上頁下頁返回結束下面我們看一個三總體判別的例子?!纠?.2】研究者希望能夠根據(jù)氣候、經(jīng)濟因素、人口等信息來判斷某國家或地區(qū)屬于哪一類型。這里國家country(因變量)有3種類別,OECD表示經(jīng)合組織的國家(包括美國、加拿大和西歐等發(fā)達國家),Pacific/Asia表示亞太地區(qū)的國家,Africa表示非洲地區(qū)的國家??紤]了以下幾個自變量,climate(氣候因素,包括沙漠氣候、干旱氣候、地中海氣候、海洋氣候、溫帶氣候和極地氣候等),urban(城市居民的比例),population(人口數(shù)),gdp_cap(人均GDP)。數(shù)據(jù)集來自SPSS10.0自帶的數(shù)據(jù)集World95.sav。

132目錄上頁下頁返回結束進入判別分析對話框以后,我們使用逐步判別分析,Method選擇馬氏距離。得到如下輸出結果:首先顯示有類的輸出結果4.1的3張表,第1張表是分析的樣本及其缺失情況。第2張表是各組變量的描述統(tǒng)計分析。第3張表是各組變量均值是否相等的統(tǒng)計檢驗,結果說明四個自變量各組的均值在0.05的顯著性水平上是不相等的。此處從略。

133目錄上頁下頁返回結束輸出結果4.6是對協(xié)方差陣是否相等的檢驗。由第2張表可以看出,原假設被拒絕,即認為各組的協(xié)方差陣不等。(注意這里違反了原假設)134目錄上頁下頁返回結束135目錄上頁下頁返回結束136目錄上頁下頁返回結束輸出結果4.7是說明逐步回歸的結果。第1,2張表說明變量進入判別函數(shù)的情況。第3張表說明不在判別函數(shù)的變量,結果反映城市居民的比例(urban)對判別函數(shù)的貢獻不顯著,其他三個自變量被選入判別方程。第4張表說明判別函數(shù)的顯著性,由Step3的結果說明判別函數(shù)在0.05的顯著性水平上是顯著的,模型擬合較好。137目錄上頁下頁返回結束138目錄上頁下頁返回結束輸出結果4.8分析的是典型判別函數(shù)。第1張表說明選取了兩個典型判別函數(shù),它們可以解釋全部的方差。第2張表是對兩個判別函數(shù)的Wilks’Lamada檢驗,檢驗結果說明兩個判別函數(shù)在0.05的顯著性水平上是顯著的。第3張表是標準化判別函數(shù),第4張表是結構矩陣(即判別載荷矩陣),第5張表是非標準化判別函數(shù),由這幾張表可以說明,第一判別函數(shù)主要反映一國的氣候和經(jīng)濟因素,第二判別函數(shù)主要反映人口因素。第6張表反映各組的重心,我們由此可以計算出臨界點,從而根據(jù)判別函數(shù)計算出判別Z得分,對各個觀測進行歸類。139目錄上頁下頁返回結束140目錄上頁下頁返回結束輸出結果4-9的第1張表是對觀測分類的總體概括,有一個觀測至少有1個自變量缺失。第2張表是各組的先驗概率,由于我們選擇先驗概率按各組大小計算,所以各組的先驗概率是與各組大小成比例的。第3張表說明分類函數(shù),也就是費歇線性判別函數(shù),我們可以根據(jù)這三組的函數(shù)計算每個觀測在各組的分類得分,然后將該觀測歸到得分最高的組中。第4張圖是根據(jù)典型判別函數(shù)作的所有組的散點圖,比較直觀地反映了各組觀測的分類情況和各組的重心。141目錄上頁下頁返回結束第5張表是分類結果的矩陣,這里我們也使用了“留一個在外”的原則進行交叉驗證,驗證的結果還是可以接受的,表明模型擬合還是不錯的。由分類矩陣可以看出,OECD國家和非洲國家的個體誤判概率很小,而亞太國家誤判概率很大。這說明了OECD國家經(jīng)濟比較發(fā)達,城市化水平較高,而且各成員國發(fā)展水平相差不大;非洲國家經(jīng)濟水平較低,城市化水平也較低,其成員國發(fā)展水平相差也不大;因此這兩類國家比較容易判別,而亞太國家和地區(qū)發(fā)展水平不均衡,沒有太多的共同點,導致其成員國不易判別。(根據(jù)輸出結果4.8第2張表的均值和協(xié)差陣可以說明)我們還可以在對話框中選擇Classify→Display→Casewiseresults,對每個觀測進行診斷分析。142目錄上頁下頁返回結束例4.3

為了研究2005年全國各地區(qū)農(nóng)村居民家庭人均消費支出情況,按標準化歐氏平方距離、離差平方和聚類方法將29個省、市、自治區(qū)(除廣東和西藏以外)分為三種類型,設置group變量取值分別為1、2、3。試建立判別函數(shù),判定廣東、西藏分別屬于哪個消費水平類型。判別指標及原始數(shù)據(jù)見表4-2。

143目錄上頁下頁返回結束144目錄上頁下頁返回結束145目錄上頁下頁返回結束將原29個樣品的回報結果列于表4-3,兩個待判樣品的判別結果列于表4-4。廣東省應判歸第二類消費水平,西藏自治區(qū)歸入第三類消費水平為宜。本例的回報準確率高,說明各地區(qū)農(nóng)村居民的消費水平劃分為三種類型是合適的。由于SPSS中的判別分析沒有距離判別這一方法,因此距離判別法無法在SPSS中直接實現(xiàn),但可以通過Excel等軟件來進行手工計算。146目錄上頁下頁返回結束這里順便指出,回報的誤判率并不是“誤判概率”,而且前者通常要小些,回判情況僅供使用時參考。

147目錄上頁下頁返回結束例4.4

為了研究2005年全國各地區(qū)國有及國有控股工業(yè)企業(yè)的經(jīng)營狀況,按標準化歐氏平方距離、離差平方和聚類方法將29個省、市、自治區(qū)(除廣東和西藏以外)分為三種類型,設置group變量取值分別為1、2、3。試建立判別函數(shù),判定廣東、西藏分別屬于哪個發(fā)展類型。判別指標及原始數(shù)據(jù)見表4-5。

148目錄上頁下頁返回結束149目錄上頁下頁返回結束150目錄上頁下頁返回結束將原29個樣品的回報結果列于表4-6,兩個待判樣品的判別結果列于表4-7。廣東省應判歸第一類,西藏自治區(qū)歸入第三類為宜。本例的回報準確率高,說明各地區(qū)國有及控股工業(yè)企業(yè)經(jīng)濟效益劃分為三種類型是合適的。這也可看成聚類分析與判別分析的結合應用。

151目錄上頁下頁返回結束例4.52005年全國城鎮(zhèn)居民月平均消費狀況可劃分為兩類,分類后的數(shù)據(jù)見表4-8。試建立費歇爾線性判別函數(shù),并將廣東、西藏兩個待判省區(qū)歸類。152目錄上頁下頁返回結束153目錄上頁下頁返回結束154目錄上頁下頁返回結束155目錄上頁下頁返回結束6.回判及待判樣品的歸類。156目錄上頁下頁返回結束157目錄上頁下頁返回結束158目錄上頁下頁返回結束SPSS中進行費歇爾判別分析是十分快捷的。首先按照表4-16把數(shù)據(jù)輸入SPSS數(shù)據(jù)表中,然后依次點擊“Analyze”→“Classify”→“Discrimi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論