判別分析培訓講解課件_第1頁
判別分析培訓講解課件_第2頁
判別分析培訓講解課件_第3頁
判別分析培訓講解課件_第4頁
判別分析培訓講解課件_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

判別分析實例1:某醫(yī)院對若干個健康人和心肌梗塞病人的心電圖作了對比分析,結(jié)合專業(yè)知識,找出了區(qū)分兩者的一些指標(X1、X2、X3)。隨機抽取10名健康人和6名病人(作為例子,僅抽取了16個樣品)。目的:通過心電圖指標,判斷某個體歸屬于健康人還是心肌梗塞病人實例1資料(g=1:健康人,g=2:病人gkx1x2x311436.7049.592.3212290.6730.022.46………19292.5626.072.16110276.8416.602.9121510.4767.641.7322510.4162.711.58……………26515.7084.591.75判別分析實例P51例1:根據(jù)X1-X7值判別某病人疾病類型:卡他性?蜂窩組織炎?壞疽性?腹膜炎?判別分析概念有N個分別屬于1、2、…G的不同類別樣品,每個樣品具有X1、X2、…Xm個指標,按照一定原則,擬合判別函數(shù),用以判別新樣品的類別的多元統(tǒng)計分析方法。1936年R.A.Fisher首次提出,隨著計算機的發(fā)展而被廣泛應用。判別分析遵循的原則隨機化對每一待判的個體X,建立一組概率函數(shù),λ1(X),λ2(X),…λg(X),λi(X)≥0,且∑λi(X)=1。將具有觀測值X(x1,x2,…xm)的個體以概率λi(X)化歸到第i個總體。非隨機化由個體X的一切可能值構(gòu)成樣本空間S,將S劃分為g個互相排斥的區(qū)域ω1、ω2…ωg,若某個體觀測值X(X1、X2、…Xm)落在ωi中,則將該個體判屬第i總體判別分析分類按個體屬性(歸屬類別)數(shù)量:兩類判別多類判別按判別指標(X)性質(zhì)計數(shù)資料判別計量資料判別:一般判別逐步判別判別分析資料預處理對于計量資料判別,需對少數(shù)計數(shù)資料進行量化。對于計數(shù)資料判別,需對少數(shù)計量資料轉(zhuǎn)換成等級資料判別分析本教學講解內(nèi)容計數(shù)資料最大似然法判別分析計量資料兩類Fisher判別分析計量資料多類Bayes判別分析計數(shù)資料最大似然法判別分析資料要求判別指標全部或大部分是定性和(或)等級指標,如有少量定量指標,則轉(zhuǎn)換成等級指標。M個判別指標X1、X2、…Xm彼此獨立。計數(shù)資料最大似然法判別分析步驟收集具有明確歸屬類別個體的一批判別指標,X1、X2…Xmg,判別指標符合最大似然法資料要求;求各個類別下各判別指標出現(xiàn)各種表現(xiàn)的條件概率,以相應頻率估計;建立似然函數(shù),判斷個體所屬類別(P513.1)判別效果評價計數(shù)資料最大似然法判別分析實例P51例1計數(shù)資料最大似然法判別分析注意事項最大似然法建立在獨立事件的概率乘法定理基礎(chǔ)上,各判別指標間必須相互獨立;歸屬類別g(1,2…g)間必須互斥;用頻率估計條件概率,因此,樣本量要足夠大;對歸屬類別的判斷具有相對性,當兩似然函數(shù)Li與Lj接近,結(jié)論需慎重。計量資料兩類Fisher判別分析設(shè)有N個樣品,分別歸屬于2個類別,N=n1+n2,m個判別指標為X1、X2…Xm,據(jù)此,按一定原則建立線性判別函數(shù),并對新樣品進行判別的多元統(tǒng)計分析方法。判別函數(shù):Z=C1X1+C2X2+…+CmXm,Ci:判別系數(shù),反映Xi對判別分類作用的方向和大小,Xi變化1個單位,Z變化Ci

個單位,Ci>0,Xi增加,Z增加,Ci<0,Xi增加,Z減少。計量資料兩類Fisher判別分析Fisher準則求Fisher判別函數(shù)的判別系數(shù)Vi的方法稱Fisher準則,即:

2個總體中每個個體的Z值在Z軸上相應于1點(也可理解為,X1、X2…Xm的m維空間中的1點,把它們投影到1個方向Z軸上),要使2個Z總體均數(shù)的差別盡可能大,而各Z總體內(nèi)的方差盡可能小,即不同總體的Z值點盡可能分開,相同總體的Z值點盡可能靠近。計量資料兩類Fisher判別分析內(nèi)容由n1個第1類樣品與n2個第2類樣品的m個判別指標的觀測值擬合Fisher判別函數(shù);確定第1類與第2類分界值Z分界;對擬合的Fisher判別函數(shù)進行假設(shè)檢驗;對于有統(tǒng)計學意義的判別函數(shù),計算各判別指標Xi對判別函數(shù)的貢獻率,計算標準化判別系數(shù)并對其進行假設(shè)檢驗。計量資料兩類Fisher判別分析---實例實例1資料(g=1:健康人,g=2:病人gkx1x2x311436.7049.592.3212290.6730.022.46………19292.5626.072.16110276.8416.602.9121510.4767.641.7322510.4162.711.58……………26515.7084.591.75第一步---求WijX1、X2、X3的類內(nèi)離均差平方和或積和

X1的類內(nèi)離均差平方為w11,X1與X2的類內(nèi)離均差積和為w12j=1J=2J=3i=139003.20757259.4848-91.3392i=21865.5859-17.9574i=30.6604第二步-----求判別系數(shù)∑mj=1.wijCj

=(N-2)(xi1-xi2)i=1,2,…m39003.2075C1+7259.4848C2-91.3392C3=(16-2)(337.0820-464.5117)7259.4848C1+1865.5859C2-17.9574C3=(16-2)(34.7990-60.1617)-91.3392C1-17.9574C2+0.6604C3=(16-2)(2.3860-1.7883)第二步-----求判別系數(shù)C1=-0.0188,C2=-0.0274,C3=9.3252判別函數(shù)為:

Z=-0.0188X1-0.0274X2+9.3252X3第二步-----2類的分界值

1、2類的均值分別為:Zg=∑mi=1CiXig,g=1,2Z1=-0.0188*337.0820-0.0274*34.7990+9.3252*2.3860=14.9593Z2=-0.0188*464.5117-0.0274*60.1617+9.3252*1.7883=6.2950第二步----2類的分界值

2、Z分界=(Z1+Z2)/2=(14.9593+6.2950)/2=10.6272Z分界可根據(jù)事前概率、據(jù)研究目的確定的兩類錯判的損失比值進行調(diào)整。調(diào)整的Z分界=(Z1+Z2)/2+ln(p1/p2)

Z2

Z分界Z1第三步----Fisher判別函數(shù)的F檢驗前提條件:2個總體符合多元正態(tài)分布且協(xié)方差相等H0:2個總體相同H1:2個總體不相同F(xiàn)~F(m,N-m-1)F>F0.05(3,12),P<0.05,所擬合的判別函數(shù)有統(tǒng)計學意義。第三步----Fisher判別函數(shù)的F檢驗

第三步----Fisher判別函數(shù)的F檢驗F~F(m,n1+n2-m-1)本例D2=8.6643,F(xiàn)=9.28F>F0.05(3,12),P<0.05,所擬合的判別函數(shù)有統(tǒng)計學意義。第四步各判別指標對判別函數(shù)的貢獻率Xi的貢獻率=Ci(Xi1-Xi2)/D2*100%x1的貢獻率=-0.0188(337.0820-464.5117)/8.6643*100%=27.65%x2的貢獻率=8.02%x3的貢獻率=64.33%第四步求標準化判別系數(shù):Ci‘=CiSiSi2:2類合并方差,

Si2=wii/(N-2),i=1,2,…,mC1‘=C1S1=-0.0188*39003.2075/14=-0.9923C2‘=-0.3163C3‘=2.0254第五步---檢驗判別函數(shù)的實際判別效果

回代檢驗交叉檢驗刀切法檢驗第五步---檢驗判別函數(shù)的實際判別效果回代檢驗:將擬合判別函數(shù)的所有樣品(訓練樣品)值代入判別函數(shù),得Z值,通過Z與Z分界比較判別樣品所屬類別;

Z2

Z分界Z1第五步---檢驗判別函數(shù)的實際判別效果Z≥Z分界,判為第1類Z<Z分界,判為第2類判別類別實際類別121ab2cd第五步---檢驗判別函數(shù)的實際判別效果回代檢驗缺點回代檢驗是針對訓練樣本進行的檢驗,因此,樣本的2個兩類錯判率是相應總體率的偏低估計。第五步---檢驗判別函數(shù)的實際判別效果交叉檢驗將收集的樣品隨機分成2份(2份樣品數(shù)最好相等),一份作訓練樣本用以擬合判別函數(shù);另一份作為檢驗判別效果的樣品。

2個兩類錯判率是相應總體率的無偏估計缺點:要求樣本含量大。第五步---檢驗判別函數(shù)的實際判別效果刀切法檢驗:也稱舍一法檢驗。當樣本含量小時,將N個訓練樣品編號1、2…N,按序號從1到N每次去掉一個樣品,以其余N-1個樣品擬和判別函數(shù),用以判別所去掉的那個樣品的類別。2個兩類錯判率是相應總體率的近似無偏估計第五步---判別新樣品類別預報新樣品類別將不知類別的新樣品X(X1、X2…Xm)代入判別函數(shù),求Z,Z≥Z分界,判為第1類Z<Z分界,判為第2類此外還可計算樣品X歸屬于第1類與第2類的概率。P(1/X)=1/(1+exp(z+z分界))P(2/X)=1-P(1/X)Fisher判別小結(jié)---關(guān)于總體分布的假設(shè)關(guān)于總體分布的假設(shè):Fisher在1936年導出兩類判別函數(shù)時,對總體分布未作任何假設(shè),因此就擬合Fisher判別函數(shù)、定分界值和判別分類,總體分布可任意。后來,發(fā)展到對Fisher判別函數(shù)作F檢驗,理論上導出樣品歸屬2類的概率,和總體的2個兩類錯判率,這就要求2個總體符合多元正態(tài)分布,且協(xié)方差矩陣相同。Fisher判別小結(jié)---判別函數(shù)與回歸方程應變量不同:回歸方程中Y是一個實測的正態(tài)隨機變量,判別函數(shù)中Z是m個判別指標Xi加權(quán)的綜合判別指標計量資料多類Bayes判別分析基本原理按非隨機化判別準則,由個體X的一切可能值構(gòu)成樣本空間S,將S劃分為g個互相排斥的區(qū)域ω1、ω2…ωg,若某個體觀測值X(X1、X2、…Xm)落在ωi中,則將該個體判屬第i總體計量資料多類Bayes判別分析判別原則錯分損失盡可能小計量資料多類Bayes判別分析判別函數(shù)Z(1)=C0(1)+C1(1)X1+C2(1)X2+…+Cm(1)XmZ(2)=C0(2)+C1(2)X1+C2(2)X2+…+Cm(2)Xm…………………..Z(g)=C0(g)+C1(g)X1+C2(g)X2+…+Cm(g)Xm將待判樣品X1、X2、…Xm帶入求出Z(1)、Z(2)、…Z(m),,,如Z(i)最大,則將新樣品判為第i類Bayes判別分析步驟計算類內(nèi)離差陣Wij:與Fisher判別類似計算類內(nèi)離差陣的逆矩陣Wij-1求解判別系數(shù):公式見教材P55--3.7、3.8判別函數(shù)的假設(shè)檢驗判別效果檢驗:回代、交叉、刀切新樣品類別判定Bayes判別分析步驟---判別函數(shù)的假設(shè)檢驗多個分類函數(shù)對多類判別效果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論