




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
例中小企業(yè)的破產(chǎn)模型為了研究中小企業(yè)的破產(chǎn)模型,選定4個經(jīng)濟指標(biāo):X1總負(fù)債率(現(xiàn)金收益/總負(fù)債)X2收益性指標(biāo)(純收入/總財產(chǎn))X3短期支付能力(流動資產(chǎn)/流動負(fù)債)X4生產(chǎn)效率性指標(biāo)(流動資產(chǎn)/純銷售額)對17個破產(chǎn)企業(yè)(1類)和21個正常運行企業(yè)(2類)進行了調(diào)查,得如下資料:§1什么是判別分析總負(fù)債率收益性指標(biāo)短期支付能力生產(chǎn)效率指標(biāo)類別-.45-.411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.031.68.951.01.001.26.601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.532.38.113.27.552.19.052.25.332.32.074.24.632.31.054.45.692.12.052.52.692-.02.022.05.352.22.082.35.402.17.071.80.522.15.052.17.552-.10-1.012.50.582.14-.03.46.262.14.072.61.522-.33-.093.01.472.48.091.24.182.56.114.29.452.20.081.99.302.47.142.92.452.17.042.45.142.58.045.06.132.04.011.50.71待判-.06-.061.37.40待判.07-.011.37.34待判-.13-.141.42.44待判.15.062.23.56待判.16.052.31.20待判.29.061.84.38待判.54.112.33.48待判企業(yè)序號判別類型判別函數(shù)得分判別為1的概率判別的為2概率11-.56509.69479.3052121-.89817.80234.1976631-.59642.70620.2938041-1.02182.83420.1658052.25719.35312.6468862.34253.32005.6799572.27925.34442.65558821.24010.09012.90988判別分析的基本思想
判別分析利用已知類別的樣本培訓(xùn)模型,為未知樣本判類的一種統(tǒng)計方法。它產(chǎn)生于本世紀(jì)30年代。近年來,在自然科學(xué)、社會學(xué)及經(jīng)濟管理學(xué)科中都有廣泛的應(yīng)用。
判別分析的特點是根據(jù)已掌握的、歷史上每個類別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準(zhǔn)則。然后,當(dāng)遇到新的樣本點時,只要根據(jù)總結(jié)出來的判別公式和判別準(zhǔn)則,就能判別該樣本點所屬的類別。判別分析與聚類分析的關(guān)系
區(qū)別:判別分析是在研究對象分類已知的情況下,根據(jù)樣本數(shù)據(jù)推導(dǎo)出一個或一組判別函數(shù),同時指定一種判別準(zhǔn)則,用于確定待判樣品的所屬類別,使錯判率最小。聚類分析預(yù)先不知道分類,它要解決的問題,正是對給定的未知分類的樣品進行分類,它是一種純統(tǒng)計技術(shù),只要有多指標(biāo)存在,就能根據(jù)各觀測的變量值近似程度排序,只是描述性的統(tǒng)計,而判別分析能對未知分類觀測判別分類,帶有預(yù)測性質(zhì)。聯(lián)系:兩者都是研究分類問題,兩種方法往往聯(lián)合起來使用。樣品聚類是進行判別分析之前的必要工作,根據(jù)樣品聚類的結(jié)果進行判別分析。
§2距離判別(一)馬氏距離距離判別的最直觀的想法是計算樣品到第i類總體的平均數(shù)的距離,哪個距離最小就將它判歸哪個總體,所以,我們首先考慮的是是否能夠構(gòu)造一個恰當(dāng)?shù)木嚯x函數(shù),通過樣本與某類別之間距離的大小,判別其所屬類別。
設(shè)是從期望μ=和方差陣Σ=的總體G抽得的兩個觀測值,則稱
樣本X和Gi類之間的馬氏距離定義為X與Gi類重心間的距離:
X與Y之間的Mahalanobis距離
馬氏距離和歐式距離之間的差別
馬氏距離歐氏距離馬氏距離有如下的特點:
2、馬氏距離是標(biāo)準(zhǔn)化后的變量的歐式距離1、馬氏距離不受計量單位的影響;
(二)兩個總體距離判別法先考慮兩個總體的情況,設(shè)有兩個協(xié)差陣相同的p維正態(tài)總體,對給定的樣本Y,判別一個樣本Y到底是來自哪一個總體,一個最直觀的想法是計算Y到兩個總體的距離。故我們用馬氏距離來給定判別規(guī)則,有:1、方差相等則前面的判別法則表示為當(dāng)和已知時,
是一個已知的p維向量,W(y)是y的線性函數(shù),稱為線性判別函數(shù)。稱為判別系數(shù)。用線性判別函數(shù)進行判別分析非常直觀,使用起來最方便,在實際中的應(yīng)用也最廣泛。例在企業(yè)的考核種,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)??己似髽I(yè)經(jīng)營狀況的指標(biāo)有:資金利潤率=利潤總額/資金占用總額勞動生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值三個指標(biāo)的均值向量和協(xié)方差矩陣如下?,F(xiàn)有二個企業(yè),觀測值分別為(7.8,39.1,9.6)和(8.1,34.2,6.9),問這兩個企業(yè)應(yīng)該屬于哪一類?變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤率13.55.468.3940.2421.41勞動生產(chǎn)率40.729.840.2454.5811.67產(chǎn)品凈值率10.76.221.4111.677.90線性判別函數(shù):
2、當(dāng)總體的協(xié)方差已知且不相等此判別函數(shù)是Y的二次函數(shù)多總體距離判別分為協(xié)方差陣相同和協(xié)方差陣不同兩種情況,它們的判別函數(shù)有差異,而判別準(zhǔn)則無差異。一般來說,用距離最近準(zhǔn)則判別是符合習(xí)慣的,但會發(fā)生誤判,各總體發(fā)生誤判的概率和閥值的選擇有關(guān)。當(dāng)總體靠得很近,無論用那種方法誤判概率都很大,作判別分析無意義。因此,判別分析的前提是各總體均值必須有顯著差異。隨著計算機計算能力的增強和計算機的普及,距離判別法的判別函數(shù)也在逐步改進,一種等價的距離判別為:設(shè)有個K總體,分別有均值向量μi(i=1,2,…,k)和協(xié)方差陣Σi=Σ,各總體出現(xiàn)的先驗概率相等。又設(shè)Y是一個待判樣品。則與的距離為(即判別函數(shù))多總體的距離判別法上式中的第一項Y’Σ-1Y與i無關(guān),則舍去,得一個等價的函數(shù)將上式中提-2,得則距離判別法的判別函數(shù)為:注:這與前面所提出的距離判別是等價的.判別規(guī)則為(四)對判別效果做出檢驗錯判概率
由上面的分析可以看出,馬氏距離判別法是合理的,但是這并不意謂著不會發(fā)生誤判。
兩總體分別服從
其判別函數(shù)為
距離判別只要求知道總體的數(shù)字特征,不涉及總體的分布函數(shù),當(dāng)參數(shù)和協(xié)方差未知時,就用樣本的均值和協(xié)方差矩陣來估計。距離判別方法簡單實用,但沒有考慮到每個總體出現(xiàn)的機會大小,即先驗概率,沒有考慮到錯判的損失。貝葉斯判別法正是為了解決這兩個問題提出的判別分析方法。二、Bayes判別法
基本思想:貝葉斯判別法是源于貝葉斯統(tǒng)計思想的一種判別分析法。這種方法先假定對研究對象已有一定的認(rèn)識,這種認(rèn)識以先驗概率來描述,然后取得一個樣本,用樣本來修正已有的認(rèn)識,得到后驗概率分布,比較這些概率的大小,將待判樣品判歸為來自概率最大的總體。對多個總體的判別考慮的不是建立判別式,而是比較后驗概率的大小。
辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。。(一)最大后驗準(zhǔn)則距離判別簡單直觀,很實用,但是距離判別的方法把總體等同看待,沒有考慮到總體會以不同的概率(先驗概率)出現(xiàn),也沒有考慮誤判之后所造成的損失的差異。一個好的判別方法,既要考慮到各個總體出現(xiàn)的先驗概率,又要考慮到錯判造成的損失,Bayes判別就具有這些優(yōu)點,其判別效果更加理想,應(yīng)用也更廣泛。貝葉斯公式是一個我們熟知的公式
設(shè)有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。即當(dāng)樣本發(fā)生時,求他屬于某類的概率。由貝葉斯公式計算后驗概率,有:判別規(guī)則則判給。
則判給。上式兩邊取對數(shù)并去掉與i無關(guān)的項,則等價的判別函數(shù)為:
特別,總體服從正態(tài)分布的情形問題轉(zhuǎn)化為若,則判。當(dāng)協(xié)方差陣相等
則判別函數(shù)退化為令
問題轉(zhuǎn)化為若,則判。
完全成為距離判別法。令有問題轉(zhuǎn)化為若,則判。當(dāng)先驗概率相等,二、最小平均誤判代價準(zhǔn)則在進行判別分析時難免會發(fā)生誤判,各種誤判的后果有所不同。我們可以根據(jù)誤判的代價來規(guī)定判別規(guī)則,最小平均誤判代價準(zhǔn)則。設(shè)有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計分析,知道出現(xiàn)的概率為。又D1,D2,┅,Dk是R(p)的一個分劃,判別法則為:當(dāng)樣品X落入Di時,則判
關(guān)鍵的問題是尋找D1,D2,┅,Dk分劃,這個分劃應(yīng)該使平均錯判率最小。
【定義】(平均錯判損失)用P(j/i)表示將來自總體Gi的樣品錯判到總體Gj的條件概率。
c(j/i)表示相應(yīng)錯判所造成的損失。則來于第i個總體被錯判到其它總體的錯判損失為:
使ECM最小的分劃,是Bayes判別分析解。
由于不同的總體有不同的先驗概率,則總平均損失ECM為【定理】若總體G1,G2,,Gk的先驗概率為且相應(yīng)的密度函數(shù)為,損失為則劃分的Bayes解為其中含義是:當(dāng)抽取了一個未知總體的樣品值x,要判別它屬于那個總體,只要先計算出k個按先驗概率加權(quán)的誤判平均損失為了直觀說明,作為例子,我們討論k=2的情形。然后比較其大小,選取其中最小的,則判定樣品屬于該總體。
由此可見,要使ECM最小,被積函數(shù)必須在D1是負(fù)數(shù),則有分劃
Bayes判別準(zhǔn)則為:
特別與標(biāo)準(zhǔn)Bayes判別等價三、典型判別法
一、兩個總體的費歇(Fisher)判別法
X不能使總體單位盡可能分開的方向u能使總體單位盡可能分開的方向
旋轉(zhuǎn)坐標(biāo)軸至總體單位盡可能分開的方向,此時分類變量被簡化為一個
(一)費歇判別的基本思想
從距離判別法,我們已經(jīng)看到判別規(guī)則是一個線性函數(shù),由于線性判別函數(shù)使用簡便,因此我們希望能在更一般的情況下,建立一種線性判別函數(shù)。Fisher判別法是根據(jù)方差分析的思想建立起來的一種能較好區(qū)分各個總體的線性判別法,F(xiàn)isher在1936年提出。該判別方法對總體的分布不做任何要求。從兩個總體中抽取具有P個指標(biāo)的樣品觀測數(shù)據(jù),借助于方差分析的思想構(gòu)造一個線性判別函數(shù):
其中系數(shù)確定的原則是使兩組間的組間離差最大,而每個組的組內(nèi)離差最小。當(dāng)建立了判別式以后,對一個新的樣品值,我們可以將他的P個指標(biāo)值代入判別式中求出Y值,然后與某個臨界值比較,就可以將該樣品歸某類。假設(shè)我們可以得到一個線性判別函數(shù):我們可以把兩個總體的樣品代入上面的判別式分別對上面兩式左右相加,再除以樣品個數(shù),可得兩個總體的重心:最佳的線性判別函數(shù)應(yīng)該是:兩個重心的距離越大越好,兩個組內(nèi)的離差平方和越小越好。判別分析與聚類分析的關(guān)系由于不同的總體有不同的先驗概率,則總平均損失ECM為注:這與前面所提出的距離判別是等價的.從兩個總體中抽取具有P個指標(biāo)的樣品觀測數(shù)據(jù),借助于方差分析的思想構(gòu)造一個線性判別函數(shù):在回歸分析中,變量的好壞直接影響回歸的效果。分為協(xié)方差陣相同和協(xié)方差陣不同兩種情況,它們的判別函數(shù)有差異,而判別準(zhǔn)則無差異。它產(chǎn)生于本世紀(jì)30年代。每一步,Wilks統(tǒng)計量最小者,進入模型。聯(lián)系:兩者都是研究分類問題,兩種方法往往聯(lián)合起來使用。最佳的線性判別函數(shù)應(yīng)該是:兩個重心的距離越大越好,兩個組內(nèi)的離差平方和越小越好。(四)對判別效果做出檢驗的總體G抽得的兩個觀測值,則稱當(dāng)比值很小,類內(nèi)的離差平方和在總離差平方和中所占比率小,否則類間的離差平方和所占比重大。則與的距離為(即判別函數(shù))向前選入開始時模型中沒有變量。若,則判給第一類,否則判給第二類。(三)判別準(zhǔn)則
如果由原始數(shù)據(jù)y求得判別函數(shù)得分為Y*,對與一個樣品代入判別函數(shù)中,若Y*>Y0,則判給G1,否則判給G2。二、多個總體的Fisher判別法
(一)判別函數(shù)Fisher判別法實際上是致力于尋找一個最能反映組和組之間差異的投影方向,即尋找線性判別函數(shù),設(shè)有個總體,分別有均值向量,,…,和協(xié)方差陣,分別各總體中得到樣品:第i個總體的樣本均值向量
綜合的樣本均值向量
第i個總體樣本組內(nèi)離差平方和
綜合的組內(nèi)離差平方和組間離差平方和因為對新變量Y的各離差平方和如果判別分析是有效的,則所有的樣品的線性組合滿足組內(nèi)離差平方和小,而組間離差平方和大。則而所對應(yīng)的特征向量即。Fisher樣品判別函數(shù)是
然而,如果組數(shù)k太大,討論的指標(biāo)太多,則一個判別函數(shù)是不夠的,這時需要尋找第二個,甚至第三個線性判別函數(shù)其特征向量構(gòu)成第二個判別函數(shù)的系數(shù)。類推得到m(m<k)個線性函數(shù)。關(guān)于需要幾個判別函數(shù)得問題,需要累計判別效率達到85%以上,即有設(shè)為B相對于E得特征根,則
以m個線性判別函數(shù)得到的函數(shù)值為新的變量,再進行判別。判別規(guī)則有3種。第一種(m=1)我們設(shè)第一個線性函數(shù)為Y。分別計算出各個總體y的均值,設(shè)計算出閾值待判的樣品為,計算若,則判給第一類,否則判給第二類。第一種(m=1)為了直觀說明,作為例子,我們討論k=2的情形。對17個破產(chǎn)企業(yè)(1類)和21個正常運行企業(yè)(2類)進行了調(diào)查,得如下資料:在回歸分析中,變量的好壞直接影響回歸的效果。(7.但是在許多問題中,事先并不知道那些是主要的指標(biāo)。向前選入開始時模型中沒有變量。向前選入開始時模型中沒有變量。Fisher判別法實際上是致力于尋找一個最能反映組和組之間差異的投影方向,即尋找線性判別函數(shù),設(shè)有個總體,分別有均值向量,,…,和協(xié)方差陣,分別各總體中得到樣品:勞動生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)如果樣本量很大,可將樣本平均地或隨機地分成兩部分。由上面的分析可以看出,馬氏距離判別法是合理的,但是這并不意謂著不會發(fā)生誤判。第三步:類推假設(shè)已經(jīng)有q+1個變量進入了模型,要考慮較早選入模型得變量得重要性是否有較大得變化,應(yīng)及時將其從模型中剔除。(一)費歇判別的基本思想逐步判別過程本身并不建立判別函數(shù),篩選出重要變量后,可用前面所講的方法建立判別函數(shù)和判別準(zhǔn)則,對新樣品進行判別歸類。設(shè)Yi(X)為第i個線性判別函數(shù),,則第二種(m大于1)或者說把新的變量作為判別分析的變量進行距離判別分析。第三種(r大于1)先取判別效率最大的,即1對應(yīng)的線性組合,用第一種方法進行判別。如果不存在唯一的Gi,則再用判別效率次大的,即2對應(yīng)的線性組合,用第一種方法進行判別。類推直至所有的個案被分類為止。這種方法叫序貫判別分析。四、變量選擇和逐步判別變量的選擇是判別分析中的一個重要的問題,變量選擇是否恰當(dāng),是判別分析效果有效的關(guān)鍵。如果在某個判別問題中,將起最重要的變量忽略了,相應(yīng)的判別函數(shù)的效果一定不好。而另一方面,如果判別變量個數(shù)太多,計算量必然大,會影響估計的精度。特別當(dāng)引入了一些判別能力不強的變量時,還會嚴(yán)重地影響判別的效果。設(shè)有n樣品,分別來自k個類G1,G2,┅,Gk其中ni個來自Gi,
(一)變量組間差異的顯著檢驗樣品分別為:即,p個指標(biāo)對G1,G2,┅,Gk無區(qū)別能力;p個指標(biāo)對G1,G2,┅,Gk有區(qū)別能力。當(dāng)比值很小,類內(nèi)的離差平方和在總離差平方和中所占比率小,否則類間的離差平方和所占比重大。在原假設(shè)為真的條件下,服從維爾克斯分布。當(dāng)接受原假設(shè);當(dāng)p個指標(biāo)至少有一個對G1,G2,┅,Gk有強的區(qū)別能力,拒絕原假設(shè)。(二)附加信息的檢驗在回歸分析中,變量的好壞直接影響回歸的效果。在判別分析中也有類似的問題。如果在某個判別分析問題中,將其中最主要的指標(biāo)忽略了。判別效果一定不會好。但是在許多問題中,事先并不知道那些是主要的指標(biāo)。因此篩選變量的問題就成了非常重要的了。從而產(chǎn)生了逐步判別法,而逐步判別法的基礎(chǔ)是附加信息的檢驗。xyY基本不提供分類的信息。xyX提供分類的信息。Y已經(jīng)不會做更多的貢獻。xy可能X和Y可以互補分類的信息。
逐步判別法采用有進有出的算法,即每一步都進行檢驗。首先,將判別能力最強的變量引進判別函數(shù),而對較早進入判別函數(shù)的變量,隨著其他變量的進入,其顯著性可能發(fā)生變化,如果其判別能力不強了,則刪除。向前選入開始時模型中沒有變量。每一步,Wilks統(tǒng)計量最小
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- AI智慧城市建設(shè)與城市管理優(yōu)化研究
- 辦公系統(tǒng)使用簡明教程與操作手冊
- 個人辦公用品采購合同規(guī)范
- 數(shù)字化圖書館建設(shè)協(xié)議
- 中醫(yī)藥兒童知識培訓(xùn)課件
- 馬匹買賣合同
- 豬場生產(chǎn)技術(shù)服務(wù)協(xié)議
- 汽車技術(shù)維護與管理考試題及詳解
- 產(chǎn)品召回與處理協(xié)議
- 雕塑制作合同協(xié)議書
- 部編版語文二年級下冊第三單元教材解讀大單元集體備課
- 七年級地理上冊期末試卷(可打印)
- ISO28000:2022供應(yīng)鏈安全管理體系
- 重癥監(jiān)測治療與復(fù)蘇
- 袁家村規(guī)劃方案
- 電力計量人員培訓(xùn)課件
- 富氫水完整課件
- 國家臨床版3.0手術(shù)操作編碼(ICD-9-CM3)
- A320飛機空調(diào)系統(tǒng)非正常操作A要點分析
- 我的家鄉(xiāng)湖北襄陽介紹
- 邏輯判斷課件
評論
0/150
提交評論