版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心1多元統(tǒng)計(jì)分析何曉群中國(guó)人民大學(xué)出版社2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心1多2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2§4.1判別分析的基本理論
§4.2距離判別§4.3Bayes判別
§4.4Fisher判別
§4.5逐步判別
§4.6判別分析方法步驟及框圖
§4.7判別分析的上機(jī)實(shí)現(xiàn)
§4.8判別分析應(yīng)用的幾個(gè)例子
第四章判別分析
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2§2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心3目錄上頁(yè)下頁(yè)返回結(jié)束第四章判別分析
回歸模型普及性的基礎(chǔ)在于用它去預(yù)測(cè)和解釋度量(metric)變量。但是對(duì)于非度量(nonmetric)變量,多元回歸不適合解決此類問題。本章介紹的判別分析來解決被解釋變量是非度量變量的情形。在這種情況下,人們對(duì)于預(yù)測(cè)和解釋影響一個(gè)對(duì)象所屬類別的關(guān)系感興趣,比如為什么某人是或者不是消費(fèi)者,一家公司成功還是破產(chǎn)等。判別分析在主要目的是識(shí)別一個(gè)個(gè)體所屬類別的情況下有著廣泛的應(yīng)用。潛在的應(yīng)用包括預(yù)測(cè)新產(chǎn)品的成功或失敗、決定一個(gè)學(xué)生是否被錄取、按職業(yè)興趣對(duì)學(xué)生分組、確定某人信用風(fēng)險(xiǎn)的種類、或者預(yù)測(cè)一個(gè)公司是否成功。在每種情況下,將對(duì)象進(jìn)行分組,并且要求使用這兩種方法中的一種可以通過人們選擇的解釋變量來預(yù)測(cè)或者解釋每個(gè)對(duì)象的所屬類別。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心32022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心4目錄上頁(yè)下頁(yè)返回結(jié)束§4.1判別分析的基本理論
有時(shí)會(huì)遇到包含屬性被解釋變量和幾個(gè)度量解釋變量的問題,這時(shí)需要選擇一種合適的分析方法。比如,我們希望區(qū)分好和差的信用風(fēng)險(xiǎn)。如果有信用風(fēng)險(xiǎn)的度量指標(biāo),就可以使用多元回歸。但我們可能僅能判斷某人是在好的或者差的一類,這就不是多元回歸分析所要求的度量類型。當(dāng)被解釋變量是屬性變量而解釋變量是度量變量時(shí),判別分析是合適的統(tǒng)計(jì)分析方法。判別分析能夠解決兩組或者更多組的情況。當(dāng)包含兩組時(shí),稱作兩組判別分析。當(dāng)包含三組或者三組以上時(shí),稱作多組判別分析(Multiplediscriminantanalysis)。判別分析的假設(shè)條件判別分析最基本的要求是,分組類型在兩組以上;在第一階段工作是每組案例的規(guī)模必須至少在一個(gè)以上。解釋變量必須是可測(cè)量的,才能夠計(jì)算其平均值和方差,使其能合理地應(yīng)用于統(tǒng)計(jì)函數(shù)。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心42022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心5目錄上頁(yè)下頁(yè)返回結(jié)束§4.1判別分析的基本理論判別分析的假設(shè)之一,是每一個(gè)判別變量(解釋變量)不能是其他判別變量的線性組合。即不存在多重共線性問題。判別分析的假設(shè)之二,是各組變量的協(xié)方差矩陣相等。判別分析最簡(jiǎn)單和最常用的形式是采用線性判別函數(shù),它們是判別變量的簡(jiǎn)單線性組合。在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡(jiǎn)單的公式來計(jì)算判別函數(shù)和進(jìn)行顯著性檢驗(yàn)。
判別分析的假設(shè)之三,是各判別變量之間具有多元正態(tài)分布,即每個(gè)變量對(duì)于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計(jì)算顯著性檢驗(yàn)值和分組歸屬的概率。當(dāng)違背該假設(shè)時(shí),計(jì)算的概率將非常不準(zhǔn)確。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心52022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束4.2.1兩總體情況
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6§2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心7§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心7§2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心8§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心8§2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心9§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心9§2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心102022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心11§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束4.2.2多總體情況1.協(xié)差陣相同。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心112022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心12§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2.協(xié)差陣不相同。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心122022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心13§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心132022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心14§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心142022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心15§4.3Bayes判別
目錄上頁(yè)下頁(yè)返回結(jié)束貝葉斯(Bayes)統(tǒng)計(jì)的思想是:假定對(duì)研究的對(duì)象已有一定的認(rèn)識(shí),常用先驗(yàn)概率分布來描述這種認(rèn)識(shí),然后我們?nèi)〉靡粋€(gè)樣本,用樣本來修正已有的認(rèn)識(shí)(先驗(yàn)概率分布),得到后驗(yàn)概率分布,各種統(tǒng)計(jì)推斷都通過后驗(yàn)概率分布來進(jìn)行。將貝葉斯思想用于判別分析,就得到貝葉斯判別。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心152022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心16§4.3Bayes判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心162022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心17§4.4Fisher判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心172022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心18§4.4Fisher判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心182022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心19§4.4Fisher判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心192022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心20§4.4Fisher判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心202022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心21§4.4Fisher判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心212022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心22§4.5逐步判別
目錄上頁(yè)下頁(yè)返回結(jié)束在多元回歸中熟知,變量選擇的好壞直接影響回歸的效果,而在判別分析中也有類似的問題。如果在某個(gè)判別問題中,將其中最主要的指標(biāo)忽略了,由此建立的判別函數(shù)其效果一定不好。但是在許多問題中,事先并不十分清楚哪些指標(biāo)是主要的,這時(shí),是否將有關(guān)的指標(biāo)盡量收集加入計(jì)算才好呢?理論和實(shí)踐證明,指標(biāo)太多了,不僅帶來大量的計(jì)算,同時(shí)許多對(duì)判別無作用的指標(biāo)反而會(huì)干擾了我們的視線。因此適當(dāng)篩選變量的問題就成為一個(gè)很重要的事情。凡具有篩選變量能力的判別方法統(tǒng)稱為逐步判別法。和通常的判別分析一樣,逐步判別也有許多不同的原則,從而產(chǎn)生各種方法。有關(guān)逐步判別法的理論基礎(chǔ)詳見[1]所討論指標(biāo)的附加信息檢驗(yàn)。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心222022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心23§4.5逐步判別
目錄上頁(yè)下頁(yè)返回結(jié)束逐步判別的原則2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心232022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心24§4.5逐步判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心242022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心25§4.5逐步判別
目錄上頁(yè)下頁(yè)返回結(jié)束(ⅳ)這時(shí)既不能選進(jìn)新變量,又不能剔除已選進(jìn)的變量,將已選中的變量建立判別函數(shù)。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心252022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心26§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束使用判別分析可以看作是下面6個(gè)步驟的過程:第1步:判別分析的對(duì)象判別分析的研究目的:1.確定在兩個(gè)或者更多事先定義的組上的一組變量的平均得分剖面是否存在顯著性差異。2.確定哪些變量在兩個(gè)或更多組的平均得分剖面的差異中解釋最多。3.在一組變量得分的基礎(chǔ)上,建立將對(duì)象(個(gè)體、公司、產(chǎn)品等等)分類的步驟。4.建立由這組變量形成的組與組之間判別函數(shù)的數(shù)目及構(gòu)成。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心262022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心27§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束第2步:判別分析的研究設(shè)計(jì)判別分析的成功應(yīng)用需要考慮到幾個(gè)要點(diǎn)。這些要點(diǎn)包括解釋變量和被解釋變量的選擇、估計(jì)判別函數(shù)所需的樣本量和為了驗(yàn)證目的對(duì)樣本的分割。(一)解釋變量和被解釋變量的選擇要應(yīng)用判別分析,研究者必須首先指定解釋變量與被解釋變量。這里,解釋變量為定量變量,而被解釋變量為定性變量。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心272022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心28§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束研究者首先應(yīng)該關(guān)注被解釋變量。被解釋變量的組數(shù)可以是兩個(gè)或更多,但這些組必須具有相互排斥性和完全性。被解釋變量有時(shí)確實(shí)是定性的變量。然而也有一些情況,即使被解釋變量不是真的定性變量,判別分析也是適用的。我們可能有一個(gè)被解釋變量是順序或者間隔尺度的變量,而要作為定性變量使用。這種情況下我們可以創(chuàng)建一個(gè)定性變量。當(dāng)確定了被解釋變量后,研究者必須確定分析中應(yīng)包括的解釋變量。解釋變量的選擇通常有兩種方法。第一種是從以前的研究中或者從該研究問題根本的理論模型中確定變量。第二種方法是直覺——運(yùn)用研究者的知識(shí),直觀地選擇沒有以前研究或理論存在但是邏輯上與預(yù)測(cè)解釋變量的組相關(guān)的變量。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心282022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心29§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束(二)樣本容量判別分析對(duì)樣本量與預(yù)測(cè)變量個(gè)數(shù)的比率很敏感。許多研究建議比率為每個(gè)預(yù)測(cè)變量20個(gè)觀測(cè)。盡管這個(gè)比率在實(shí)際中難以保持,但研究者應(yīng)注意,當(dāng)樣本量相對(duì)于解釋變量個(gè)數(shù)在減少時(shí),結(jié)果是不穩(wěn)定的。建議最小的樣本量是每個(gè)變量有5個(gè)觀測(cè)。除總的樣本量以外,研究者還必須考慮每組的樣本容量。至少,最小的組的大小必須超過解釋變量的個(gè)數(shù)。作為實(shí)際的指導(dǎo),每組應(yīng)至少有20個(gè)觀測(cè)。但即使所有的組大小都超過了20,研究者還應(yīng)注意組的相對(duì)大小。如果組的大小相差很大,這可能影響到判別函數(shù)的估計(jì)和觀測(cè)的分類。在分類階段,大的組有不相稱的高的分類機(jī)會(huì)。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心292022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心30§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束(三)樣本的分割很多時(shí)候樣本需要分割為兩個(gè)子樣本,一個(gè)用于估計(jì)判別函數(shù),另一個(gè)用于驗(yàn)證。每個(gè)子樣本都有適當(dāng)?shù)拇笮碇С纸Y(jié)論是很重要的。分割樣本有很多種方法,最常用的一種是通過一個(gè)子樣本來估計(jì)判別函數(shù),而用另一個(gè)子樣本來驗(yàn)證。常用的過程是將整個(gè)樣本隨機(jī)地分為兩組。其中的一組,分析樣本是用來估計(jì)判別函數(shù)的。另一組保留樣本,是用來驗(yàn)證結(jié)論的。這種驗(yàn)證方法稱為分割樣本或者交叉驗(yàn)證方法。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心302022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心31§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束如果劃分分析樣本和保留樣本沒有固定的原則。最常用的程序是分為兩半。當(dāng)選擇分析組和保留組的個(gè)體時(shí),通常遵循比例分層抽樣。也就是分析組和保留組的各組大小比率應(yīng)與整個(gè)樣本的各組大小比率相同。如果研究者要?jiǎng)澐謽颖?,這個(gè)樣本應(yīng)該充分的大。一般來講,研究者需要整個(gè)樣本至少為100,將它分為兩組。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心312022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心32§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束第3步:判別分析的假定推導(dǎo)判別函數(shù)的關(guān)鍵假定是解釋變量的多元正態(tài)性和由被解釋變量定義的各組的未知但相等的協(xié)方差結(jié)構(gòu)。不滿足多元正態(tài)性假定在估計(jì)判別方程時(shí)可能會(huì)出現(xiàn)問題。因此,如果可能的話,建議使用Logistic回歸作為一種替代方法。不等的協(xié)方差矩陣可能會(huì)負(fù)面影響分類過程。如果樣本量小而協(xié)方差陣不等,那么估計(jì)過程的統(tǒng)計(jì)顯著性會(huì)受到負(fù)面影響。最可能的情況是在適當(dāng)?shù)臉颖玖康慕M之間存在不等的協(xié)方差陣,那么觀測(cè)會(huì)被“過度歸類”到大的協(xié)方差陣的組中??梢酝ㄟ^增加樣本量和使用各組特定的協(xié)方差陣減小這種影響。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心322022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心33§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束最后,如果組間的協(xié)方差陣存在大的差異,沒有方法可以減小這種影響時(shí),在許多統(tǒng)計(jì)問題中可以使用二次判別技術(shù)。另一個(gè)可能影響結(jié)果的是解釋變量的多重共線性。當(dāng)使用逐步判別時(shí)這種考慮尤為重要。研究者在解釋判別方程時(shí)必須注意多重共線性的程度和它對(duì)哪些變量進(jìn)入逐步解的影響。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心332022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心34§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束第4步:估計(jì)判別模型和評(píng)估整體擬合為了推導(dǎo)判別函數(shù),研究者必須確定估計(jì)的方法,然后確定保留的函數(shù)個(gè)數(shù)。隨著估計(jì)的函數(shù),可以用多種方法來評(píng)估模型擬合。首先,判別Z得分,可以為每一個(gè)觀測(cè)計(jì)算。基于Z得分的各組均值的比較提供了組與組之間判別的一種測(cè)量。通過分到正確類中的觀測(cè)來測(cè)量預(yù)測(cè)精度。一系列準(zhǔn)則可以用來評(píng)價(jià)判別過程是否達(dá)到了實(shí)際的或者統(tǒng)計(jì)的顯著性。最后,個(gè)體診斷可以分析每個(gè)觀測(cè)的分類精度和它對(duì)于整個(gè)模型估計(jì)的相對(duì)影響。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心342022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心35§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束(一)計(jì)算方法推導(dǎo)判別函數(shù)時(shí)可以使用兩種計(jì)算方法:聯(lián)立(直接)法和逐步法。聯(lián)立估計(jì)在計(jì)算判別函數(shù)時(shí)同時(shí)考慮所有的解釋變量。這樣,判別函數(shù)是基于解釋變量的整個(gè)集合來計(jì)算的,而不管每個(gè)解釋變量的判別力。逐步估計(jì)是另一種估計(jì)方法。它以解釋變量的判別力為基礎(chǔ),每次進(jìn)入一個(gè)變量到判別函數(shù)中。逐步估計(jì)開始是選取一個(gè)最有判別力的變量。然后這個(gè)變量與其他的解釋變量一一配對(duì),那么與第一個(gè)變量一起最能夠提高判別力的變量被選中。第三個(gè)及以后的用類似的方式選取。增加新的變量時(shí),如果一些前面選中的變量所包含的關(guān)于組差異信息可由后面選中的變量所包含,它們將被剔除。最后,既不能選進(jìn)新的變量,又不能剔除已有變量。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心352022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心36§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束(二)評(píng)估整體擬合一旦判別方程通過了顯著性檢驗(yàn),注意力轉(zhuǎn)向確定保留的判別函數(shù)的整體擬合。這個(gè)評(píng)估包括三個(gè)任務(wù):計(jì)算每個(gè)觀測(cè)的判別Z得分,檢驗(yàn)各組在判別Z得分上的差異和評(píng)估組的關(guān)系的預(yù)測(cè)精度。1.計(jì)算判別Z得分
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心362022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心37§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束這個(gè)得分是定量變量,提供了在每個(gè)函數(shù)上比較對(duì)象的直接手段。有類似的Z得分的觀測(cè)被認(rèn)為在構(gòu)成函數(shù)的變量上比得分懸殊的觀測(cè)更相似。判別函數(shù)既有用標(biāo)準(zhǔn)化的權(quán)重和值,也有用非標(biāo)準(zhǔn)化的權(quán)重和值。標(biāo)準(zhǔn)化形式更易于解釋,而非標(biāo)準(zhǔn)化形式更易于計(jì)算判別Z得分。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心372022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心38§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束應(yīng)當(dāng)注意判別函數(shù)不同于分類函數(shù),也稱為費(fèi)歇線性判別函數(shù)。分類函數(shù),可用于對(duì)觀測(cè)進(jìn)行分類。在這種分類方法中,一個(gè)觀測(cè)的解釋變量的值代入分類函數(shù)中,這個(gè)觀測(cè)針對(duì)每組可以計(jì)算一個(gè)分類得分。然后這個(gè)觀測(cè)被分到分類得分最高的組中。我們使用判別函數(shù)作為分類手段,是因?yàn)樗峁┝嗣總€(gè)判別函數(shù)的一個(gè)簡(jiǎn)潔表示,簡(jiǎn)化了解釋過程和對(duì)解釋變量貢獻(xiàn)的評(píng)估。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心382022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心39§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束2.檢驗(yàn)組的差異一種評(píng)估整體擬合的方法是根據(jù)判別Z得分,確定各組個(gè)體的差異大小。組差異的一種綜合測(cè)量是比較組的重心,即組中所有個(gè)體的平均判別Z得分。重心的差異是用馬氏距離來測(cè)量的,這樣檢驗(yàn)可用來確定差異是否在統(tǒng)計(jì)上顯著。研究者應(yīng)保證即使有顯著的判別函數(shù),組間應(yīng)存在顯著的差異。在每個(gè)判別函數(shù)上組的重心可以從球面的角度來繪圖顯示結(jié)果。通常用前兩個(gè)或者三個(gè)判別函數(shù)來作圖。每組的值顯示了它在降維的空間中的值(并非畫出所有的函數(shù))。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心392022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心40§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束3.評(píng)價(jià)組關(guān)系預(yù)測(cè)的精度判別分析中每個(gè)觀測(cè)是通過它是否被正確歸類來評(píng)價(jià)的。要這樣做,應(yīng)當(dāng)解決一些主要的考慮:利用分類矩陣的統(tǒng)計(jì)和實(shí)際的基本原理、分割點(diǎn)的確定、分類矩陣的構(gòu)造和評(píng)價(jià)分類精度的標(biāo)準(zhǔn)。判別函數(shù)的顯著性檢驗(yàn)并沒有說明函數(shù)擬合有多好。比如,假定兩個(gè)組在0.01的水平上有顯著性差異,如果樣本量足夠大,組的均值(重心)可能實(shí)際上相等。因此顯著性水平可能并不是反映判別函數(shù)判別能力的很好的指標(biāo)。為了確定一個(gè)判別函數(shù)的預(yù)測(cè)能力,研究者必須構(gòu)造分類矩陣。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心402022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心41§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束如果統(tǒng)計(jì)檢驗(yàn)顯示判別函數(shù)顯著,通常構(gòu)造分類矩陣來提供函數(shù)的判別效力的更精確的估計(jì)。然而,在分類矩陣構(gòu)造之前,研究者必須確定臨界得分。每個(gè)觀測(cè)的判別得分與臨界得分比較來確定個(gè)體應(yīng)分到哪一類中。在構(gòu)造分類矩陣時(shí),研究者希望確定最優(yōu)臨界得分(也稱臨界Z值)。最優(yōu)臨界得分會(huì)因各組大小是否相等而不同。如果兩組是相同的大小,最優(yōu)臨界得分是兩組重心的中點(diǎn)。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心412022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心42§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心422022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心43§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束所有計(jì)算最優(yōu)臨界得分的公式都假定正態(tài)分布和已知組的協(xié)方差結(jié)構(gòu)。為了用分類矩陣來驗(yàn)證判別分析的結(jié)果,樣本必須隨機(jī)地分割為分析樣本和保留樣本。保留樣本的每個(gè)觀測(cè)的判別得分可與臨界得分相比較,進(jìn)行分類。分類的結(jié)果用矩陣的形式表示出來。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心432022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心44§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心442022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心45§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束評(píng)估模型擬合的最后一個(gè)方法就是在每個(gè)觀測(cè)的基礎(chǔ)上研究預(yù)測(cè)結(jié)果。與回歸分析的殘差分析相似,目的是為了理解被錯(cuò)判的觀測(cè)和不是該組代表的觀測(cè)。研究者可以通過馬氏距離來評(píng)估一個(gè)觀測(cè)與該組其他個(gè)體的相似性??拷匦牡挠^測(cè)被認(rèn)為比遠(yuǎn)離重心的觀測(cè)更加代表該組。用圖形的方式表示觀測(cè)是研究觀測(cè)特征的另一種方法。尤其是錯(cuò)判的觀測(cè)。一種常用的方法是將觀測(cè)點(diǎn)根據(jù)判別Z得分繪圖,并且畫出各組重疊部分和錯(cuò)判的觀測(cè)。如果保留了兩個(gè)或兩個(gè)以上的判別函數(shù),可以用區(qū)域圖來表示各組所對(duì)應(yīng)的區(qū)域和最優(yōu)臨界點(diǎn)。將每個(gè)觀測(cè)與組的重心畫在一起,不僅可以用組的重心反映一般特征,還可以反映組中成員的變動(dòng)。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心452022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心46§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束第5步:結(jié)果的解釋2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心462022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心47§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束解釋判別函數(shù)傳統(tǒng)的方法是觀察計(jì)算判別函數(shù)時(shí)賦予每個(gè)變量的標(biāo)準(zhǔn)化判別權(quán)重(有時(shí)也稱為判別系數(shù))的符號(hào)和大小。忽略符號(hào)時(shí),較大權(quán)重的解釋變量意味著對(duì)判別函數(shù)的判別力貢獻(xiàn)更多。符號(hào)只是代表那個(gè)變量有正的還是負(fù)的貢獻(xiàn)。對(duì)判別權(quán)重的解釋也有一些批評(píng)。比如解釋變量存在多重共線性情況時(shí),判別權(quán)重可能會(huì)出現(xiàn)問題。另一個(gè)問題是判別權(quán)重被認(rèn)為不穩(wěn)定。近年來,由于判別權(quán)重的缺陷,判別載荷逐漸作為解釋的基礎(chǔ)。判別載荷,有時(shí)也稱為結(jié)構(gòu)相關(guān)系數(shù),是每個(gè)解釋變量與判別函數(shù)的簡(jiǎn)單相關(guān)系數(shù)。判別載荷反映的是每個(gè)解釋變量對(duì)判別函數(shù)的相對(duì)貢獻(xiàn)。判別載荷也可能存在不穩(wěn)定性。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心472022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心48§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束當(dāng)存在兩個(gè)或以上的判別函數(shù)的時(shí)候,我們面臨著其他的解釋問題。首先,我們能簡(jiǎn)化判別權(quán)重或載荷以利于刻畫判別函數(shù)嗎?再者,我們?nèi)绾伪硎窘忉屪兞繉?duì)判別函數(shù)的影響?我們介紹函數(shù)旋轉(zhuǎn)和能力指數(shù)的概念來解決這兩個(gè)問題。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心482022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心49§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束在推導(dǎo)出判別函數(shù)以后,它們可以旋轉(zhuǎn)來重新分配方差。旋轉(zhuǎn)保持了原始結(jié)構(gòu)和判別解的穩(wěn)定性,而且使方程更易于解釋。當(dāng)保留兩個(gè)或兩個(gè)以上的判別函數(shù)時(shí),需要一個(gè)綜合的量來描述一個(gè)變量對(duì)所有顯著函數(shù)的貢獻(xiàn)。能力指數(shù)(potencyindex)是反映每個(gè)變量判別能力的相對(duì)指標(biāo)。它既包含一個(gè)變量對(duì)判別函數(shù)的貢獻(xiàn)(判別載荷),又包含一個(gè)方程對(duì)整個(gè)解的相對(duì)貢獻(xiàn)(對(duì)方程特征值的相對(duì)測(cè)量)。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心492022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心50§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束綜合指數(shù)只是在所有顯著的判別函數(shù)上的個(gè)體能力指數(shù)之和。綜合指數(shù)僅當(dāng)描述每個(gè)變量的相對(duì)重要性時(shí)是有用的,其絕對(duì)數(shù)值沒有實(shí)際意義。能力指數(shù)通過兩步計(jì)算:2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心502022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心51§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束(2):計(jì)算在所有顯著的函數(shù)上的綜合能力指數(shù)。當(dāng)每個(gè)函數(shù)都計(jì)算了能力值后,綜合指數(shù)為每個(gè)顯著的判別函數(shù)上的能力值之和。這個(gè)能力指數(shù)表示該變量在所有顯著的判別函數(shù)上的全部判別效果。第6步:結(jié)果的驗(yàn)證判別分析的最后一個(gè)階段就是驗(yàn)證判別分析的結(jié)果,通常采用分割樣本或者交叉驗(yàn)證法。兩種廣泛使用的方法是法和小刀法。這兩種方法都是以“留一個(gè)觀測(cè)在外”的原則為基礎(chǔ)。(“留一個(gè)觀測(cè)在外”的原則是指在交叉驗(yàn)證時(shí),某個(gè)觀測(cè)不參與估計(jì)判別函數(shù),但是根據(jù)除這個(gè)觀測(cè)以外的其他觀測(cè)估計(jì)的判別函數(shù)來預(yù)測(cè)該觀測(cè)的所屬類,從而使每個(gè)觀測(cè)得到驗(yàn)證。)進(jìn)行兩者的主要區(qū)別在于法主要關(guān)注分類精度,而小刀法強(qiáng)調(diào)判別系數(shù)的穩(wěn)定性。兩種方法都對(duì)小樣本量非常敏感。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心512022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心52§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束判別分析的邏輯框圖如下:
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心522022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心53§4.6判別分析方法步驟及框圖
目錄上頁(yè)下頁(yè)返回結(jié)束圖4.1判別分析步驟框圖
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心532022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心54§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束這里舉兩個(gè)例子,一個(gè)例子是分兩組的情況,一個(gè)是分多組的情況。我們分別用SPSS軟件中的Discriminant模塊來實(shí)現(xiàn)判別分析。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心542022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心55§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心552022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心56§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束(一)二元變量的判別分析計(jì)算
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心562022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心57§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束另外,如果需要更深入的分析,可以選擇其他項(xiàng)。統(tǒng)計(jì)量(Statistics)選項(xiàng)中可以選擇描述統(tǒng)計(jì)量Mean,ANVOA,Box’M,函數(shù)可以選擇Fisher和非標(biāo)準(zhǔn)化函數(shù),同時(shí)還可以使用哪種矩陣。由于只有兩個(gè)自變量,我們不需要使用逐步判別法。分類(Classify)選項(xiàng)中可以選擇先驗(yàn)概率(所有組相等或根據(jù)組的大小計(jì)算概率),子選項(xiàng)顯示(display)中可以選擇每個(gè)個(gè)體的結(jié)果(Casewiseresults),綜合表(SummeryTable)和“留一個(gè)在外”的驗(yàn)證原則,還可以選擇使用哪種協(xié)方差矩陣以及作圖。保存(Save)選項(xiàng)中可以選擇預(yù)測(cè)的分類、判別得分以及所屬類別的概率。如果采用逐步判別法,我們還可以選擇判別的方法(Method)。得到分析結(jié)果如下:2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心572022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心58§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心582022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心59§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心592022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心60§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心602022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心61§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心612022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心62§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.3分析的是典型判別函數(shù)。第1張表反映判別函數(shù)的特征值、解釋方差的比例和典型相關(guān)系數(shù)。(注意我們僅選取了兩個(gè)解釋變量,所以判別函數(shù)解釋了全部的方差)第2張表是對(duì)第一個(gè)判別函數(shù)的顯著性檢驗(yàn)。由Wilks’Lambda檢驗(yàn),認(rèn)為判別函數(shù)在0.01的顯著性水平上是極顯著的。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心622022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心63§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.4顯示的是判別函數(shù)、判別載荷和各組的重心。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心632022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心64§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束第2張表是結(jié)構(gòu)矩陣,即判別載荷。由判別權(quán)重和判別載荷可以看出兩個(gè)解釋變量對(duì)判別函數(shù)的貢獻(xiàn)較大。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心642022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心65§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心652022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心66§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心662022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心67§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.5是分類的統(tǒng)計(jì)結(jié)果。第1張表概括了分類過程,說明24個(gè)觀測(cè)都參與分類。第2張表說明各組的先驗(yàn)概率,我們?cè)贑lassify選項(xiàng)中選擇的是所有組的先驗(yàn)概率相等。第3張表是每組的分類函數(shù)(區(qū)別于判別函數(shù)),也稱費(fèi)歇線性判別函數(shù),
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心672022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心68§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束第4張表是分類矩陣表。PredictedGroupMembership表示預(yù)測(cè)的所屬組關(guān)系,Original表示原始數(shù)據(jù)的所屬組關(guān)系,Cross-validated表示交叉驗(yàn)證的所屬組關(guān)系,這里交叉驗(yàn)證是采用“留一個(gè)在外”的原則,即每個(gè)觀測(cè)是通過除了這個(gè)觀測(cè)以外的其他觀測(cè)推導(dǎo)出來的判別函數(shù)來分類的。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心682022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心69§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束我們還可以通過保存(Save)選項(xiàng)選擇預(yù)測(cè)的類別關(guān)系和判別得分等,對(duì)觀測(cè)進(jìn)行診斷。下面我們看一個(gè)三總體判別的例子?!纠?.2】研究者希望能夠根據(jù)氣候、經(jīng)濟(jì)因素、人口等信息來判斷某國(guó)家或地區(qū)屬于哪一類型。這里國(guó)家country(因變量)有3種類別,OECD表示經(jīng)合組織的國(guó)家(包括美國(guó)、加拿大和西歐等發(fā)達(dá)國(guó)家),Pacific/Asia表示亞太地區(qū)的國(guó)家,Africa表示非洲地區(qū)的國(guó)家??紤]了以下幾個(gè)自變量,climate(氣候因素,包括沙漠氣候、干旱氣候、地中海氣候、海洋氣候、溫帶氣候和極地氣候等),urban(城市居民的比例),population(人口數(shù)),gdp_cap(人均GDP)。數(shù)據(jù)集來自SPSS10.0自帶的數(shù)據(jù)集World95.sav。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心692022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心70§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束進(jìn)入判別分析對(duì)話框以后,我們使用逐步判別分析,Method選擇馬氏距離。得到如下輸出結(jié)果:首先顯示有類的輸出結(jié)果4.1的3張表,第1張表是分析的樣本及其缺失情況。第2張表是各組變量的描述統(tǒng)計(jì)分析。第3張表是各組變量均值是否相等的統(tǒng)計(jì)檢驗(yàn),結(jié)果說明四個(gè)自變量各組的均值在0.05的顯著性水平上是不相等的。此處從略。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心702022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心71§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.6是對(duì)協(xié)方差陣是否相等的檢驗(yàn)。由第2張表可以看出,原假設(shè)被拒絕,即認(rèn)為各組的協(xié)方差陣不等。(注意這里違反了原假設(shè))2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心712022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心72§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心722022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心73§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心732022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心74§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.7是說明逐步回歸的結(jié)果。第1,2張表說明變量進(jìn)入判別函數(shù)的情況。第3張表說明不在判別函數(shù)的變量,結(jié)果反映城市居民的比例(urban)對(duì)判別函數(shù)的貢獻(xiàn)不顯著,其他三個(gè)自變量被選入判別方程。第4張表說明判別函數(shù)的顯著性,由Step3的結(jié)果說明判別函數(shù)在0.05的顯著性水平上是顯著的,模型擬合較好。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心742022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心75§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心752022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心76§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4.8分析的是典型判別函數(shù)。第1張表說明選取了兩個(gè)典型判別函數(shù),它們可以解釋全部的方差。第2張表是對(duì)兩個(gè)判別函數(shù)的Wilks’Lamada檢驗(yàn),檢驗(yàn)結(jié)果說明兩個(gè)判別函數(shù)在0.05的顯著性水平上是顯著的。第3張表是標(biāo)準(zhǔn)化判別函數(shù),第4張表是結(jié)構(gòu)矩陣(即判別載荷矩陣),第5張表是非標(biāo)準(zhǔn)化判別函數(shù),由這幾張表可以說明,第一判別函數(shù)主要反映一國(guó)的氣候和經(jīng)濟(jì)因素,第二判別函數(shù)主要反映人口因素。第6張表反映各組的重心,我們由此可以計(jì)算出臨界點(diǎn),從而根據(jù)判別函數(shù)計(jì)算出判別Z得分,對(duì)各個(gè)觀測(cè)進(jìn)行歸類。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心762022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心77§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心772022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心78§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束輸出結(jié)果4-9的第1張表是對(duì)觀測(cè)分類的總體概括,有一個(gè)觀測(cè)至少有1個(gè)自變量缺失。第2張表是各組的先驗(yàn)概率,由于我們選擇先驗(yàn)概率按各組大小計(jì)算,所以各組的先驗(yàn)概率是與各組大小成比例的。第3張表說明分類函數(shù),也就是費(fèi)歇線性判別函數(shù),我們可以根據(jù)這三組的函數(shù)計(jì)算每個(gè)觀測(cè)在各組的分類得分,然后將該觀測(cè)歸到得分最高的組中。第4張圖是根據(jù)典型判別函數(shù)作的所有組的散點(diǎn)圖,比較直觀地反映了各組觀測(cè)的分類情況和各組的重心。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心782022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心79§4.7判別分析的上機(jī)實(shí)現(xiàn)
目錄上頁(yè)下頁(yè)返回結(jié)束第5張表是分類結(jié)果的矩陣,這里我們也使用了“留一個(gè)在外”的原則進(jìn)行交叉驗(yàn)證,驗(yàn)證的結(jié)果還是可以接受的,表明模型擬合還是不錯(cuò)的。由分類矩陣可以看出,OECD國(guó)家和非洲國(guó)家的個(gè)體誤判概率很小,而亞太國(guó)家誤判概率很大。這說明了OECD國(guó)家經(jīng)濟(jì)比較發(fā)達(dá),城市化水平較高,而且各成員國(guó)發(fā)展水平相差不大;非洲國(guó)家經(jīng)濟(jì)水平較低,城市化水平也較低,其成員國(guó)發(fā)展水平相差也不大;因此這兩類國(guó)家比較容易判別,而亞太國(guó)家和地區(qū)發(fā)展水平不均衡,沒有太多的共同點(diǎn),導(dǎo)致其成員國(guó)不易判別。(根據(jù)輸出結(jié)果4.8第2張表的均值和協(xié)差陣可以說明)我們還可以在對(duì)話框中選擇Classify→Display→Casewiseresults,對(duì)每個(gè)觀測(cè)進(jìn)行診斷分析。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心792022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心80§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束下面用SPSS軟件中的Discriminant模塊來實(shí)現(xiàn)判別分析。例4.3為了研究2005年全國(guó)各地區(qū)農(nóng)村居民家庭人均消費(fèi)支出情況,按標(biāo)準(zhǔn)化歐氏平方距離、離差平方和聚類方法將29個(gè)省、市、自治區(qū)(除廣東和西藏以外)分為三種類型,設(shè)置group變量取值分別為1、2、3。試建立判別函數(shù),判定廣東、西藏分別屬于哪個(gè)消費(fèi)水平類型。判別指標(biāo)及原始數(shù)據(jù)見表4-2。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心802022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心81§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心812022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心82§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心822022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心83§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束將原29個(gè)樣品的回報(bào)結(jié)果列于表4-3,兩個(gè)待判樣品的判別結(jié)果列于表4-4。廣東省應(yīng)判歸第二類消費(fèi)水平,西藏自治區(qū)歸入第三類消費(fèi)水平為宜。本例的回報(bào)準(zhǔn)確率高,說明各地區(qū)農(nóng)村居民的消費(fèi)水平劃分為三種類型是合適的。由于SPSS中的判別分析沒有距離判別這一方法,因此距離判別法無法在SPSS中直接實(shí)現(xiàn),但可以通過Excel等軟件來進(jìn)行手工計(jì)算。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心832022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心84§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束這里順便指出,回報(bào)的誤判率并不是“誤判概率”,而且前者通常要小些,回判情況僅供使用時(shí)參考。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心842022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心85§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束例4.4為了研究2005年全國(guó)各地區(qū)國(guó)有及國(guó)有控股工業(yè)企業(yè)的經(jīng)營(yíng)狀況,按標(biāo)準(zhǔn)化歐氏平方距離、離差平方和聚類方法將29個(gè)省、市、自治區(qū)(除廣東和西藏以外)分為三種類型,設(shè)置group變量取值分別為1、2、3。試建立判別函數(shù),判定廣東、西藏分別屬于哪個(gè)發(fā)展類型。判別指標(biāo)及原始數(shù)據(jù)見表4-5。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心852022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心86§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心862022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心87§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心872022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心88§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束將原29個(gè)樣品的回報(bào)結(jié)果列于表4-6,兩個(gè)待判樣品的判別結(jié)果列于表4-7。廣東省應(yīng)判歸第一類,西藏自治區(qū)歸入第三類為宜。本例的回報(bào)準(zhǔn)確率高,說明各地區(qū)國(guó)有及控股工業(yè)企業(yè)經(jīng)濟(jì)效益劃分為三種類型是合適的。這也可看成聚類分析與判別分析的結(jié)合應(yīng)用。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心882022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心89§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束例4.52005年全國(guó)城鎮(zhèn)居民月平均消費(fèi)狀況可劃分為兩類,分類后的數(shù)據(jù)見表4-8。試建立費(fèi)歇爾線性判別函數(shù),并將廣東、西藏兩個(gè)待判省區(qū)歸類。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心892022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心90§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心902022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心91§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心912022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心92§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心922022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心93§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束6.回判及待判樣品的歸類。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心932022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心94§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心942022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心95§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心952022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心96§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束SPSS中進(jìn)行費(fèi)歇爾判別分析是十分快捷的。首先按照表4-16把數(shù)據(jù)輸入SPSS數(shù)據(jù)表中,然后依次點(diǎn)擊“Analyze”→“Classify”→“Discriminant”,打開DiscriminantAnalysis對(duì)話框,將對(duì)話框左側(cè)變量列表中的group選入GroupingVariable框,并點(diǎn)擊“DefineRange”鈕,在彈出的DiscriminantAnalysis:DefineRange對(duì)話框中,定義判別原始數(shù)據(jù)的類別區(qū)間,本例為兩類,故在Minimum處輸入1、在Maximum處輸入2,點(diǎn)擊Continue鈕返回DiscriminantAnalysis對(duì)話框。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心962022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心97§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束再?gòu)膶?duì)話框左側(cè)的變量列表中選將八個(gè)變量選Independents框,作為判別分析的基礎(chǔ)數(shù)據(jù)變量。點(diǎn)擊“Statistics”鈕,彈出DiscriminantAnalysis:Statistics對(duì)話框,在Descriptive欄中選Means項(xiàng),要求對(duì)各組的各變量作均數(shù)與標(biāo)準(zhǔn)差的描述;在FunctionCoefficients欄中選Unstandardized項(xiàng)(注意,不是Fisher’s項(xiàng)?。箫@示費(fèi)歇爾判別法建立的非標(biāo)準(zhǔn)化系數(shù)。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心972022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心98§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束之后,點(diǎn)擊“Continue”鈕返回DiscriminantAnalysis對(duì)話框。點(diǎn)擊“Save”鈕,彈出DiscriminantAnalysis:SaveNewVariables對(duì)話框,選Predictedgroupmembership項(xiàng)要求將回判的結(jié)果存入原始數(shù)據(jù)庫(kù)中。點(diǎn)擊“Continue”鈕返回DiscriminantAnalysis對(duì)話框,其他項(xiàng)目不變,點(diǎn)擊“OK”鈕即完成分析。在輸出結(jié)果中可以看到各組均值、標(biāo)準(zhǔn)差、協(xié)方差陣等描述統(tǒng)計(jì)結(jié)果以及判別函數(shù),返回?cái)?shù)據(jù)表中,可以看到判別結(jié)果已經(jīng)作為一個(gè)新的變量被保存,廣東和西藏均被劃分到第二大類,篇幅所限,各輸出結(jié)果在此不再列示。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心982022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心99§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束例4.62005年全國(guó)各地區(qū)農(nóng)村居民家庭人均消費(fèi)情況可劃分為三種類型,分類后的數(shù)據(jù)見表4-2。試用SPSS軟件建立Bayes判別函數(shù),并將待判樣品歸類。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心992022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心100§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心102022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心101§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心102022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心102§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束根據(jù)判別函數(shù),就可以對(duì)原各組樣品以及待判樣品進(jìn)行回判和判別,此時(shí)在SPSS中返回原數(shù)據(jù)表,可以看到一個(gè)新的變量名為Dis_1,其對(duì)應(yīng)的各值就是對(duì)各地區(qū)的回判和判別結(jié)果,可知廣東被劃分到第二類消費(fèi)水平地區(qū),西藏被劃分到第三類消費(fèi)水平地區(qū),并且原各組樣品的回報(bào)誤判率為零。以上判別結(jié)果綜合整理列于表4-10。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心102022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心103§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心102022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心104§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束在例4.5和4.6中,我們是將事先確定的所有八個(gè)指標(biāo)變量都選入來進(jìn)行判別分析,在實(shí)際應(yīng)用中,我們也大多是設(shè)計(jì)盡可能多的相關(guān)指標(biāo)來進(jìn)行聚類和判別分析,然而事實(shí)是,指標(biāo)太多不僅增大了計(jì)算量,而且那些對(duì)判別無用的指標(biāo)也會(huì)干擾我們的視線。因此對(duì)眾多指標(biāo)進(jìn)行篩選,找出對(duì)判別函數(shù)貢獻(xiàn)比較突出,具有較強(qiáng)判別能力的指標(biāo)成為一個(gè)很重要的事情。凡是具有篩選變量能力的判別方法統(tǒng)稱為逐步判別法,有關(guān)這些方法的具體論述可見參考文獻(xiàn)[2]。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心102022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心105§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束在此我們以例4.6為例介紹逐步判別法在SPSS中的實(shí)現(xiàn)。操作步驟仍與例4.5類似,不同之處在于點(diǎn)擊“Analyze”→“Classify”→“Discriminant”,打開DiscriminantAnalysis對(duì)話框后,將Independents欄下的“Enterindependentstogether”項(xiàng)改選為“Usestepwisemethod”,此時(shí)窗口最下面一行的“Method”按鈕被激活,點(diǎn)擊后進(jìn)入DiscriminantAnalysis:stepwisemethod對(duì)話框,在method欄中選中Mahalanobisdistance項(xiàng),即采用馬氏距離,其他選項(xiàng)保持不變,返回主對(duì)話框后,其他操作仍按例4.5進(jìn)行,點(diǎn)擊“OK”得到輸出結(jié)果,部分列舉如下:
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心102022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心106§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心102022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心107§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心102022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心108§4.8判別分析應(yīng)用的幾個(gè)例子
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心10Theend!Thanks!2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心109Theend!2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心110多元統(tǒng)計(jì)分析何曉群中國(guó)人民大學(xué)出版社2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心1多2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心111§4.1判別分析的基本理論
§4.2距離判別§4.3Bayes判別
§4.4Fisher判別
§4.5逐步判別
§4.6判別分析方法步驟及框圖
§4.7判別分析的上機(jī)實(shí)現(xiàn)
§4.8判別分析應(yīng)用的幾個(gè)例子
第四章判別分析
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心2§2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心112目錄上頁(yè)下頁(yè)返回結(jié)束第四章判別分析
回歸模型普及性的基礎(chǔ)在于用它去預(yù)測(cè)和解釋度量(metric)變量。但是對(duì)于非度量(nonmetric)變量,多元回歸不適合解決此類問題。本章介紹的判別分析來解決被解釋變量是非度量變量的情形。在這種情況下,人們對(duì)于預(yù)測(cè)和解釋影響一個(gè)對(duì)象所屬類別的關(guān)系感興趣,比如為什么某人是或者不是消費(fèi)者,一家公司成功還是破產(chǎn)等。判別分析在主要目的是識(shí)別一個(gè)個(gè)體所屬類別的情況下有著廣泛的應(yīng)用。潛在的應(yīng)用包括預(yù)測(cè)新產(chǎn)品的成功或失敗、決定一個(gè)學(xué)生是否被錄取、按職業(yè)興趣對(duì)學(xué)生分組、確定某人信用風(fēng)險(xiǎn)的種類、或者預(yù)測(cè)一個(gè)公司是否成功。在每種情況下,將對(duì)象進(jìn)行分組,并且要求使用這兩種方法中的一種可以通過人們選擇的解釋變量來預(yù)測(cè)或者解釋每個(gè)對(duì)象的所屬類別。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心32022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心113目錄上頁(yè)下頁(yè)返回結(jié)束§4.1判別分析的基本理論
有時(shí)會(huì)遇到包含屬性被解釋變量和幾個(gè)度量解釋變量的問題,這時(shí)需要選擇一種合適的分析方法。比如,我們希望區(qū)分好和差的信用風(fēng)險(xiǎn)。如果有信用風(fēng)險(xiǎn)的度量指標(biāo),就可以使用多元回歸。但我們可能僅能判斷某人是在好的或者差的一類,這就不是多元回歸分析所要求的度量類型。當(dāng)被解釋變量是屬性變量而解釋變量是度量變量時(shí),判別分析是合適的統(tǒng)計(jì)分析方法。判別分析能夠解決兩組或者更多組的情況。當(dāng)包含兩組時(shí),稱作兩組判別分析。當(dāng)包含三組或者三組以上時(shí),稱作多組判別分析(Multiplediscriminantanalysis)。判別分析的假設(shè)條件判別分析最基本的要求是,分組類型在兩組以上;在第一階段工作是每組案例的規(guī)模必須至少在一個(gè)以上。解釋變量必須是可測(cè)量的,才能夠計(jì)算其平均值和方差,使其能合理地應(yīng)用于統(tǒng)計(jì)函數(shù)。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心42022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心114目錄上頁(yè)下頁(yè)返回結(jié)束§4.1判別分析的基本理論判別分析的假設(shè)之一,是每一個(gè)判別變量(解釋變量)不能是其他判別變量的線性組合。即不存在多重共線性問題。判別分析的假設(shè)之二,是各組變量的協(xié)方差矩陣相等。判別分析最簡(jiǎn)單和最常用的形式是采用線性判別函數(shù),它們是判別變量的簡(jiǎn)單線性組合。在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡(jiǎn)單的公式來計(jì)算判別函數(shù)和進(jìn)行顯著性檢驗(yàn)。
判別分析的假設(shè)之三,是各判別變量之間具有多元正態(tài)分布,即每個(gè)變量對(duì)于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計(jì)算顯著性檢驗(yàn)值和分組歸屬的概率。當(dāng)違背該假設(shè)時(shí),計(jì)算的概率將非常不準(zhǔn)確。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心52022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心115§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束4.2.1兩總體情況
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心6§2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心116§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心7§2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心117§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心8§2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心118§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心9§2022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心119§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心102022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心120§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束4.2.2多總體情況1.協(xié)差陣相同。
2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心112022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心121§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2.協(xié)差陣不相同。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心122022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心122§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心132022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心123§4.2距離判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心142022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心124§4.3Bayes判別
目錄上頁(yè)下頁(yè)返回結(jié)束貝葉斯(Bayes)統(tǒng)計(jì)的思想是:假定對(duì)研究的對(duì)象已有一定的認(rèn)識(shí),常用先驗(yàn)概率分布來描述這種認(rèn)識(shí),然后我們?nèi)〉靡粋€(gè)樣本,用樣本來修正已有的認(rèn)識(shí)(先驗(yàn)概率分布),得到后驗(yàn)概率分布,各種統(tǒng)計(jì)推斷都通過后驗(yàn)概率分布來進(jìn)行。將貝葉斯思想用于判別分析,就得到貝葉斯判別。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心152022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心125§4.3Bayes判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心162022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心126§4.4Fisher判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心172022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心127§4.4Fisher判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心182022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心128§4.4Fisher判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心192022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心129§4.4Fisher判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心202022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心130§4.4Fisher判別
目錄上頁(yè)下頁(yè)返回結(jié)束2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心212022/12/12中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心131§4.5逐步判別
目錄上頁(yè)下頁(yè)返回結(jié)束在多元回歸中熟知,變量選擇的好壞直接影響回歸的效果,而在判別分析中也有類似的問題。如果在某個(gè)判別問題中,將其中最主要的指標(biāo)忽略了,由此建立的判別函數(shù)其效果一定不好。但是在許多問題中,事先并不十分清楚哪些指標(biāo)是主要的,這時(shí),是否將有關(guān)的指標(biāo)盡量收集加入計(jì)算才好呢?理論和實(shí)踐證明,指標(biāo)太多了,不僅帶來大量的計(jì)算,同時(shí)許多對(duì)判別無作用的指標(biāo)反而會(huì)干擾了我們的視線。因此適當(dāng)篩選變量的問題就成為一個(gè)很重要的事情。凡具有篩選變量能力的判別方法統(tǒng)稱為逐步判別法。和通常的判別分析一樣,逐步判別也有許多不同的原則,從而產(chǎn)生各種方法。有關(guān)逐步判別法的理論基礎(chǔ)詳見[1]所討論指標(biāo)的附加信息檢驗(yàn)。2022/12/11中國(guó)人民大學(xué)六西格瑪質(zhì)量管理研究中心222022/12/1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商業(yè)綜合體植物裝飾租賃合同樣本
- 職業(yè)教育校車安全員聘用合同
- 建筑安全改造合同樣本
- 機(jī)場(chǎng)跑道排水系統(tǒng)施工合同
- 農(nóng)業(yè)觀光混凝土施工合同
- 電力工程物料采購(gòu)員招聘協(xié)議
- 大型雕塑塔吊租賃合同
- 生態(tài)農(nóng)業(yè)建設(shè)協(xié)議
- 吉林省白山市(2024年-2025年小學(xué)五年級(jí)語(yǔ)文)人教版階段練習(xí)((上下)學(xué)期)試卷及答案
- 關(guān)于感恩老師+演講稿7篇
- 新課標(biāo)魯教版九年級(jí)化學(xué)上冊(cè)全套教案
- 易綱貨幣銀行學(xué)(第一、二章)
- 液壓與氣壓傳動(dòng)完整版課件
- DB44∕T 876-2011 物業(yè)服務(wù) 會(huì)務(wù)服務(wù)規(guī)范
- 湘教版數(shù)學(xué)八上2.5.4全等三角形的判定(AAS) 教案
- 動(dòng)靜脈內(nèi)瘺護(hù)理以及健康宣教
- 2022年無害化處理廢棄電子線路板項(xiàng)目可行性研究報(bào)告
- 粉色卡通課件PPT模板(同名1269)
- ★變壓器差動(dòng)保護(hù)PPT課件.ppt
- 中國(guó)缺血性腦卒中和短暫性腦缺血發(fā)作二級(jí)預(yù)防指南
- 中國(guó)歷史朝代歌(課堂PPT)
評(píng)論
0/150
提交評(píng)論