545第十八章 判別分析_第1頁
545第十八章 判別分析_第2頁
545第十八章 判別分析_第3頁
545第十八章 判別分析_第4頁
545第十八章 判別分析_第5頁
已閱讀5頁,還剩63頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第十八章第十八章 判別分析 discriminant analysiscontent fisher discriminant analysis maximum likelihood method bayes formula discriminant analysis bayes discriminant analysis stepwise discriminant analysis 講述內(nèi)容第一節(jié)第一節(jié) fisherfisher判別判別第二節(jié)第二節(jié) 最大似然判別法最大似然判別法第三節(jié)第三節(jié) bayesbayes公式判別法公式判別法第四節(jié)第四節(jié) bayesbayes判別判別第五節(jié)第五節(jié) 逐步判別

2、逐步判別第六節(jié)第六節(jié) 判別分析中應(yīng)注意的問題判別分析中應(yīng)注意的問題目的目的:作出以多個判別指標(biāo)判別個體分類的:作出以多個判別指標(biāo)判別個體分類的判別函數(shù)或概率公式。判別函數(shù)或概率公式。資料資料:個體分兩類或多類,判別指標(biāo)全部為:個體分兩類或多類,判別指標(biāo)全部為數(shù)值變量或全部為分類變量。數(shù)值變量或全部為分類變量。用途用途:解釋和預(yù)報(主要用于計(jì)量診斷)。:解釋和預(yù)報(主要用于計(jì)量診斷)。分類分類(經(jīng)典):(經(jīng)典): fisher判別和判別和bayes判別。判別。 1. 計(jì)量資料判別分析。目的是作出以定量指標(biāo)判別個體屬性分類或等級的判別函數(shù)。按資料類型分: 2. 計(jì)數(shù)資料判別分析。目的是作出以定性或

3、等 級指標(biāo)判別個體屬性分類或等級的概率公式概率公式。按方法名分1. fisher判別2. 最大似然判別法3. bayes公式判別法4. bayes判別5. 逐步判別第一節(jié) fisher判別適用于指標(biāo)為定量指標(biāo)的兩類判別(或多類判別)1. fisher判別的原理 已知 a、b 兩類觀察對象, a 類有an例,b 類有bn例,分別記錄了mxxx,21個觀察指標(biāo),稱為判別指標(biāo)或變量。fisher 判別法就是找出一個線性組合 1122 (18-1)mmzc xc xc x一、兩類判別fisher 準(zhǔn)則:使得綜合指標(biāo) z 在 a 類的 均 數(shù)az與 在b 類 的 均 數(shù) bz的 差 異abzz盡可能大,

4、而兩類內(nèi)綜合指標(biāo) z 的變異22abss盡可能小,即使得 達(dá)到最大。 ab22ab zzss (18-2)判別系數(shù) c 可通過對求導(dǎo),由下列方程組解出 11112211211222221122 (18-3)mmmmmmmmmms cs cs cds cs cs cds cs cscd 式中(a)(b)jjjdxx,(a)(b),jjxx分別是 a 類和 b 類第 j 個 指標(biāo)的均數(shù)), 2 , 1(mj; ijs是12,mxxx的合并協(xié)方差陣的元素。 (a)(a)(a)(a)(b)(b)(b)(b)ab()()()() (18-4)2iijjiijjijxxxxxxxxsnn 式中(a)(b)

5、(a)(b), , iijjxxxx分別為ijxx和于 a 類和 b 類的觀察值。 2 判別規(guī)則 建立判別函數(shù)后, 按公式 (18-1)逐例計(jì)算判別函數(shù)值iz,進(jìn)一步求iz的兩類均數(shù)az、bz與總均數(shù)z,按下式計(jì)算判別界值: ab 18-52czzz() 判別規(guī)則: , a , b 18-6 iciciczzzzzz判為 類判為 類(),判為任意一類 例18-1 收集了22例某病患者的三個指標(biāo)(x1,x2,x3)的資料列于表18-1,其中前期患者(a)類12例,晚期患者(b)類10例。試作判別分析。觀察值 類別 編號 x1 x2 x3 z fisher 判別結(jié)果 a 1 23 8 0 0.19

6、 a a 2 -1 9 -2 2.73 a a 3 -10 5 0 1.83 a a 4 -7 -2 1 -0.28 b a 5 -11 3 -4 2.72 a a 6 -10 3 -1 1.69 a a 7 25 9 -2 0.91 a a 8 -19 12 -3 4.98 a a 9 9 8 -2 1.81 a a 10 -25 -3 -1 1.39 a a 11 0 -2 2 -1.09 b a 12 -10 -2 0 0.25 a b 13 9 -5 1 -2.07 b b 14 2 -1 -1 -0.05 a b 15 17 -6 -1 -2.22 b b 16 8 -2 1 -1.

7、33 b b 17 17 -9 1 -3.53 b b 18 0 -11 3 -3.43 b b 19 -9 -20 3 -4.82 b b 20 -7 -2 3 -0.91 b b 21 -9 6 0 1.98 a b 22 12 0 0 -0.84 b 表表18-1 22例患者三項(xiàng)指標(biāo)觀察結(jié)果(例患者三項(xiàng)指標(biāo)觀察結(jié)果(zc=-0.147)類別 例數(shù) 1x 2x 3x a 12 3 4 1 b 10 4 5 1 類間均值差jd 7 9 2 表18-2 變量的均數(shù)及類間均值差 (1)計(jì)算變量的類均數(shù)及類間均值差dj,計(jì)算結(jié)果列于表18-2。(2)計(jì)算合并協(xié)方差矩陣: 按公式(18-4),例如:

8、3 .17521012) 412() 42 () 49() 310() 31() 323(22222211s 175.320.32.320.338.25.82.35.82.7s代入公式(18-3)得27 . 28 . 53 . 2 9 8 . 52 .383 .20 73 . 23 .203 .175321321321ccccccccc得到合并協(xié)方差陣 解此正規(guī)方程得 070. 01c,225. 02c,318. 03c 判別函數(shù)為 321318. 0225. 0070. 0xxxz。 逐例計(jì)算判別函數(shù)值iz列于表18-1 中的z 列,同 時計(jì)算出428. 1az、722. 1bz與總均數(shù)00

9、4. 0z。 (3)確定界值,進(jìn)行兩類判別: 按公式(18-5)計(jì)算147. 02)722. 1428. 1 (cz,將147. 0iz判為a類,147. 0iz判為b類。判別結(jié)果列于表18-1 的最后一列,有4 例錯判。 二、判別效果的評價 用誤判概率p衡量 回顧性誤判概率估計(jì)往往夸大判別效果?;仡櫺哉`判概率估計(jì)往往夸大判別效果。 第二節(jié) 最大似然判別法(優(yōu)度法)適用于指標(biāo)為定性指標(biāo)的兩類判別或多類判別。資料:個體分兩類或多類,判別指標(biāo)全部為定性或等級 資料。原理:用獨(dú)立事件的概率乘法定理得到判別對象歸屬某 類的概率。1122()|) ( ()|)()|), 1,2, (18-7)klklk

10、mlmkpp x syp xsyp xsykg 求1,max()kkgpp,如果0kpp ,即被判為第0k類。 2.判別規(guī)則 3.最大似然判別法的應(yīng)用 例18-2 有人試用7個指標(biāo)對4種類型的闌尾炎作鑒別診斷,收集的5668例完整、確診的病史資料歸納于表18-3。表表18-3 5668例不同型闌尾炎病例的癥狀發(fā)生頻率(例不同型闌尾炎病例的癥狀發(fā)生頻率(%) 00017. 008. 061. 008. 095. 072. 011. 057. 01p 0018. 028. 032. 039. 093. 045. 037. 034. 02p 30.35 0.55 0.35 0.81 0.79 0.1

11、8 0.610.0047p 00015. 057. 010. 096. 009. 022. 065. 021. 04p 如某病例昨晚開始出現(xiàn)右下腹痛、嘔吐等癥狀,大便正常。經(jīng)檢查,右下腹部壓痛,肌性防御(+)、壓跳痛(+),體溫36.6,白細(xì)胞23.7109/l。 p3最大,故診斷該病例為壞疽型闌尾炎。手術(shù)所見與判別分析結(jié)果一致。 根據(jù)表18-3得第三節(jié)第三節(jié) bayes公式判別法公式判別法適用于指標(biāo)為定性指標(biāo)的兩類判別或多類判別。資料:資料:個體分兩類或多類,判別指標(biāo)全部為定性個體分兩類或多類,判別指標(biāo)全部為定性 或等級資料。或等級資料。原理:原理:條件概率條件概率+ +事前概率(各病型或病

12、種的總事前概率(各病型或病種的總 體構(gòu)成比)體構(gòu)成比)112211221()()|) ()|)()|)(| ) (18-8)()()|) ()|)()|)klklkmlmkkgklklkmlmkkp yp x sy p xsyp xsyp yap yp x sy p xsyp xsy 求1,m ax()kkgpp, 如 果0kpp ,即 被 判 為 第0k類 。 判別規(guī)則:判別規(guī)則:舉例說明:舉例說明:例例18-3例例 18-3 資資料料見見表表 18-3,用用四四種種類類型型闌闌尾尾炎炎病病人人的的構(gòu)構(gòu)成成比比: 卡卡他他型型闌闌尾尾炎炎 20% 蜂蜂窩窩織織炎炎型型闌闌尾尾炎炎 50% 壞

13、壞疽疽型型闌闌尾尾炎炎 25% 腹腹膜膜型型闌闌尾尾炎炎 5% 作作為為先先驗(yàn)驗(yàn)概概率率)(kyp的的估估計(jì)計(jì)。 對例對例18-2中給出的待判病中給出的待判病有有11111232131314141515161617371( )()|) ()|) ()|) ()|) ()|) ()|)()|)0.20 0.57 0.11 0.72 0.95 0.08 0.61 0.080.000033p yp x sy p xsy p xsy p xsy p xsy p xsyp xsy2111223227372()()|) ()|)()|)0.000900p yp x sy p xsyp xsy3111323

14、237373()()|) ()|)()|)0.001175p yp x sy p xsyp xsy4111423247374()()|) ()|)()|)0.000075p yp x sy p xsyp xsy如其中32s表示變量2x取第三個狀態(tài),余同。 利用公式(利用公式(18-8)計(jì)算得)計(jì)算得1(| )p y a)=015. 0002183. 0000033. 0000075. 0001175. 0000900. 0000033. 0000033. 0 同樣的2(| )0.412p ya ,3(| )0.538p ya ,4(| )0.034p ya 。 3(| )p ya最大, 診斷為

15、壞疽型闌尾炎, 與最大似然判別法結(jié)果一致。 : bayes公式判別法: bayes公式判別法當(dāng)事前概當(dāng)事前概未知未知率率:最大:最大若判別指標(biāo)為定性或等級資若判別指標(biāo)為定性或等級資似然估計(jì)法似然估計(jì)法料,料,已知已知注意:第四節(jié)第四節(jié) bayes判別判別適用于指標(biāo)為定量指標(biāo)的多類判別(也可用于兩類判別)適用于指標(biāo)為定量指標(biāo)的多類判別(也可用于兩類判別)先驗(yàn)概率確定先驗(yàn)概率確定:1. 等概率(有選擇性偏倚);等概率(有選擇性偏倚); 2. 頻率估計(jì)。頻率估計(jì)。判別規(guī)則:歸屬最大判別規(guī)則:歸屬最大yg 類類。應(yīng)用:應(yīng)用:快速、正確。快速、正確。資料:資料:個體分個體分g類,判別指標(biāo)定量。類,判別指

16、標(biāo)定量。原理:原理:bayes準(zhǔn)則。準(zhǔn)則。結(jié)果:結(jié)果: g 個個判別函數(shù)判別函數(shù)12gyyy 例18-4 欲用4個指標(biāo)鑒別3類疾病,現(xiàn)收集17例完整、確診的資料,見表18-4。試建立判別bayes函數(shù)。 bayes判別函數(shù)判別函數(shù) 3366. 17202. 44568.170396. 00940.1904140. 16606. 40970.180448. 05311.1995822. 15492. 44112.190739. 05108.223432134321243211xxxxyxxxxyxxxxy判別效果評價:誤判概率 (回顧性估計(jì),見表18-6)。誤判概率的刀切法估計(jì)為 。 %76.1

17、1172%4 .29175判別分析的目的就是根據(jù)判別函數(shù)對其它的樣品進(jìn)行判別,如本例需用 4個指標(biāo)鑒別 3 類疾病,如某個編號的病人,x1、x2、x3、x4分別為:0.4,-13.6,21,34。試判別該病人患 3 類疾病中的哪類疾??? 一類疾病: y=-223.516-0.0739*0.4-19.412*-13.6+4.549*21+1.582*34=189.7746 二類疾?。?y=-199.536-0.0480*0.4-18.097*-13.6+4.661*21+1.414*34=192.4922 三類疾?。?y=-190.099+0.0396*0.4-17.457*-13.6+4.72

18、0*21+1.337*34=191.8148 該病人患 3 類疾病中的 2 類疾病。 第五節(jié)第五節(jié) 逐步判別逐步判別目的:目的:選取具有判別效果的指標(biāo)建立判別函數(shù)。選取具有判別效果的指標(biāo)建立判別函數(shù)。應(yīng)用:應(yīng)用: 只適用于只適用于bayes判別。判別。原理原理:wilks統(tǒng)計(jì)量統(tǒng)計(jì)量 ,f 檢驗(yàn)。檢驗(yàn)。 例18-5 利用表18-4的數(shù)據(jù)作逐步bayes判別。0.2 , 0.3bayes判別函數(shù):124224324101.48739.86520.953374.92608.47370.800962.76547.73970.7215yxxyxxyxx 判別效果評價,誤判概率為1/17=5.88%(回

19、顧性估計(jì),見表18-8)。誤判概率的刀切法估計(jì)17.6%。與例18-4比較,變量篩選后,盡管判別指標(biāo)由4個減為2個,判別效能卻提高了。由此可見,判別指標(biāo)并不是越多越好。 第六節(jié) 判別分析中應(yīng)注意的問題1判別分析中所用的樣本資料視為總體的估計(jì),所以要求樣本足夠大,有較好的代表性。樣本的原始分類必須正確無誤,否則得不到可靠的判別函數(shù)。判別指標(biāo)的選擇要適當(dāng),必要時應(yīng)對判別指標(biāo)進(jìn)行篩選。 2各類型先驗(yàn)概率可以由訓(xùn)練樣本中各類的構(gòu)成比作為估計(jì)值。此時要注意樣本構(gòu)成比是否具有代表性。如果取樣存在選擇性偏倚,就不能用構(gòu)成比來估計(jì)先驗(yàn)概率,不如把各類型的發(fā)生視為等概率事件,先驗(yàn)概率取g1更為妥當(dāng)。 3判判別別

20、函函數(shù)數(shù)的的判判別別能能力力不不能能只只由由訓(xùn)訓(xùn)練練樣樣本本的的回回代代情情況況得得出出結(jié)結(jié)論論。小小樣樣本本資資料料建建立立的的判判別別函函數(shù)數(shù)回回代代時時可可能能有有很很低低的的誤誤判判率率,但但訓(xùn)訓(xùn)練練樣樣本本以以外外的的樣樣品品誤誤判判率率不不一一定定低低,因因此此要要預(yù)預(yù)留留足足夠夠的的驗(yàn)驗(yàn)證證樣樣品品以以考考察察判判別別函函數(shù)數(shù)的的判判別別能能力力。 4判判別別函函數(shù)數(shù)建建立立后后,可可在在判判別別應(yīng)應(yīng)用用中中不不斷斷積積累累新新的的資資料料,不不斷斷進(jìn)進(jìn)行行修修正正,逐逐步步完完善善。臨臨界界值值型型多多用用于于兩兩類類判判別別,概概率率型型多多用用于于多多類類判判別別。 5fi

21、sher 兩類判別是線性判別。另外二分類 logistic 回歸也可以用于兩類判別,稱為 logistic 判別,是非線性的。用 y 表示類別,類屬于類屬于bay , 0 , 1 ,建立 logistic 回歸模型 011011exp1 18-171expmmmmxxp yxx()()()() 用 newton-raphson 迭代獲得m,10的最大似然估計(jì)。公式(18-17)就是 logistic 判別函數(shù)。判別規(guī)則如下 逐例計(jì)算判別函數(shù)值) 1(ypi,如果 類判為類判為bypaypii , 5 . 0) 1( , 5 . 0) 1(。 group statistics-14.42938.

22、261677.000-17.3434.103677.00012.7144.990577.00031.14344.039577.000.80078.107844.000-17.4253.085944.00017.5002.081744.000.00030.757144.000-6.65019.780266.000-17.3334.143366.00020.1676.493666.000-15.00035.832966.000-8.10043.04961717.000-17.3593.66961717.00016.4715.90681717.0007.52941.88541717.000x1x2x

23、3x4x1x2x3x4x1x2x3x4x1x2x3x4原分類123totalmeanstd. deviationunweightedweightedvalid n (listwise)covariance matrices1463.95267.31297.190821.90567.31216.84018.619174.12497.19018.61924.905204.381821.905174.124204.3811939.4766100.827149.58770.4671432.200149.5879.5226.21794.86770.4676.2174.33362.3331432.2009

24、4.86762.333946.000391.2559.670-75.050369.7209.67017.16712.667129.100-75.05012.66742.1674.400369.720129.1004.4001284.000x1x2x3x4x1x2x3x4x1x2x3x4原分類123x1x2x3x4eigenvalues3.116a99.699.6.870.012a.4100.0.111function12eigenvalue% of variancecumulative %canonicalcorrelationfirst 2 canonical discriminant fu

25、nctions were used in theanalysis.a. wilks lambda.24017.8408.022.988.1543.985test of function(s)1 through 22wilks lambdachi-squaredfsig.standardized canonicaldiscriminant function coefficients.4501.0402.130-.418.244-.125-2.642.039x1x2x3x412functionstructure matrix.398*-.258-.332*.053.060.891*-.001-.0

26、93*x3x4x1x212functionpooled within-groups correlations between discriminatingvariables and standardized canonical discriminant functions variables ordered by absolute size of correlation withinfunction.largest absolute correlation between each variableand any discriminant function*. functions at gro

27、up centroids-1.846-3.20e-02.616.1781.744-8.14e-02原分類12312functionunstandardized canonical discriminantfunctions evaluated at group meansprior probabilities for groups.33377.000.33344.000.33366.0001.0001717.000原分類123totalpriorunweightedweightedcases used in analysisclassification function coefficient

28、s-7.39e-02-4.48e-02-3.96e-02-19.412-18.097-17.4574.5494.6614.7201.5821.4141.337-223.516-199.536-190.099x1x2x3x4(constant)123原分類fishers linear discriminant functionsclassification resultsb,c61070404105685.714.3.0100.0.0100.0.0100.016.7.083.3100.061071214114685.714.3.0100.025.050.025.0100.016.716.766.7100.0原分類123123123123count%count%originalcross-validateda123predicted group membershiptotalc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論