第11章_2_判別分析_第1頁
第11章_2_判別分析_第2頁
第11章_2_判別分析_第3頁
第11章_2_判別分析_第4頁
第11章_2_判別分析_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院,判別分析,引言 距離判別 Fisher判別 Bayes判別,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 2,引言,在我們的日常生活和工作實(shí)踐中,常常會遇到判別分析問題,即根據(jù)歷史上劃分類別的有關(guān)資料和某種最優(yōu)準(zhǔn)則,確定一種判別方法,判定一個新的樣本歸屬哪一類。 例如,某醫(yī)院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的資料,記錄了每個患者若干項(xiàng)癥狀指標(biāo)數(shù)據(jù)?,F(xiàn)在想利用現(xiàn)有的這些資料找出一種方法,使得對于一個新的病人,當(dāng)測得這些癥狀指標(biāo)數(shù)據(jù)時,能夠判定其患有哪種病。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 3,判別分析的適用場合,把這類問題用數(shù)學(xué)語言來表達(dá),可以敘述如下:設(shè)有n個樣品,對每個樣品測得p項(xiàng)指標(biāo)的數(shù)據(jù),已知每個樣品屬于k個類別(或總體)G1,G2, ,Gk中的某一類。 我們希望利用這些數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點(diǎn)盡可能地區(qū)別開來。 對測得同樣p項(xiàng)指標(biāo)(變量)數(shù)據(jù)的一個新樣品,能判定這個樣本歸屬于哪一類。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 4,判別分析方法的分類,兩個總體判別分析和多總體判別分析 常用的幾種判別分析方法:距離判別法、Fisher判別法、Bayes判別法和逐步判別法。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 5,距離判別的思想,兩個總體的距離判別問題:設(shè)兩個總體G1和G2,對于一個新的樣品X,要判斷它來自哪個總體。 方法:按就近原則歸類。求新樣品X到G1的距離與到G2的距離之差,如果其值為正,X屬于G2;否則X屬于G1。 根據(jù)上述準(zhǔn)則可以推導(dǎo)出一個判別函數(shù)W,把待判樣品的值代入判別函數(shù),根據(jù)計(jì)算結(jié)果是否大于0得出判別結(jié)論。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 6,Fisher判別,借助方差分析的思想構(gòu)造一個線性判別函數(shù): 確定判別函數(shù)系數(shù)時要求使得總體之間區(qū)別最大,而使每個總體內(nèi)部的離差最小。 從幾何的角度看,判別函數(shù)就是p維向量X在某種方向上的投影。使得變換后的數(shù)據(jù)同類別的點(diǎn)“盡可能聚在一起”,不同類別的點(diǎn)“盡可能分離”,以此達(dá)到分類的目的。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 7,兩類Fisher判別示意圖,Y,X,L=b1X+b2Y,G1,G2,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 8,Fisher判別的原理,如果有多個類別, Fisher判別可能需要兩個或者更多的判別函數(shù)才能完成分類。 一般來說判別函數(shù)的個數(shù)等于分類的個數(shù)減一。 得到判別函數(shù)后,計(jì)算待判樣品的判別函數(shù)值,根據(jù)判別函數(shù)的值計(jì)算待判樣品到各類的重心的距離,從而完成分類。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 9,Bayes判別的基本思想,設(shè)有K個總體,樣品來自各個總體的先驗(yàn)概率為pi,各總體的密度函數(shù)為fi(x),在觀測到一個樣品X的條件下,可以根據(jù)貝葉斯公式計(jì)算出它來自某個總體的后驗(yàn)概率。 待判樣品屬于哪一類的后驗(yàn)概率最大,就把它分入哪一類。 一般假設(shè)服從多元正態(tài)分布、各總體的協(xié)方差矩陣相等。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 10,后驗(yàn)概率的一個例子,隨機(jī)調(diào)查1000人,700有自有住房,其中20%為外地人;300人租房住,其中70%為外地人。 調(diào)查1人為外地人,應(yīng)歸入自有住房還是租房的類別? 先驗(yàn)概率:屬于自有住房的概率為70%,應(yīng)分為這一類。 根據(jù)貝葉斯公式,是租房戶的后驗(yàn)概率為(0.3*0.7)/(0.7*0.2+0.3*0.7)=0.6。因此應(yīng)分入租房戶這一類。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 11,逐步判別,讓統(tǒng)計(jì)軟件根據(jù)一定的規(guī)則自動篩選那些對分類有重要作用的變量進(jìn)行判別分析。 類似逐步回歸中變量的篩選過程。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 12,判別結(jié)果的評價,一般根據(jù)對原始數(shù)據(jù)、驗(yàn)證樣本的正確分類的比率來評價分類效果的好壞。 原樣本(訓(xùn)練樣本),組內(nèi)考核,組內(nèi)回代 驗(yàn)證樣本(test data set),組外考核 交叉驗(yàn)證(cross validate),棄一法,刀切法(jackknife):每次使用n-1個樣品對另一個樣品進(jìn)行分類,計(jì)算整體上分類正確的比例。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 13,判別分析的正確應(yīng)用,理論上,類間分得越開,判別效果越好,類間距離越近,判別效果就越差。 不同的判別方法間是個參照,大多情況下,效果近似。 關(guān)鍵是指標(biāo)是否具有判別價值。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 14,SPSS判別分析的實(shí)現(xiàn)和結(jié)果分析,例1 對國家類別的判別 例2 對鳶尾花數(shù)據(jù)的判別分析,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 15,例1 14個國家的出生時預(yù)期壽命和成人識字率,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 16,SPSS操作,分析分類判別 基本設(shè)定:,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 17,相關(guān)選項(xiàng),中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 18,相關(guān)選項(xiàng),刀切法的分類效果,原始數(shù)據(jù)的分類效果,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 19,保存分類結(jié)果,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 20,結(jié)果分析:方差分析,識字率在各組中差別很不顯著,對分類的作用可能不大。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 21,Fisher判別函數(shù),D=-16.661+0.342預(yù)期壽命-0.09識字率,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 22,兩類的重心,根據(jù)待判樣品的數(shù)據(jù)計(jì)算Fisher判別函數(shù)的值,離哪個組的重心近就歸入哪一類。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 23,分類函數(shù),實(shí)際是Bayes判別分析的結(jié)果。 把待判樣品的數(shù)據(jù)帶入分類函數(shù),哪個組的值最大就分入那個組。有幾個組就有幾個分類函數(shù)。,D1=-190+5.44預(yù)期壽命-0.362識字率 D2=-162+4.88預(yù)期壽命-0.214識字率,分類效果的評價,這里SPSS中使用的是Bayes判別的分類結(jié)果,分類正確,分類錯誤,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 25,待判樣品的分類結(jié)果,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 26,例2 鳶尾花的數(shù)據(jù),我們使用前100個樣品為訓(xùn)練樣本,后50為測試樣本。 變量:花萼長度x1、花萼寬度x2、花瓣長度x3、花瓣寬度x4,單位為mm。 構(gòu)造變量TRAIN_TEST,前100取值為1,后50取值為0,以區(qū)分訓(xùn)練和測試樣本。,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 27,軟件操作,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 28,結(jié)果分析,方差分析,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 29,判別函數(shù)和各組重心,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 30,分類函數(shù),分類結(jié)果,中央財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 32,對鳶尾花的數(shù)據(jù)使用逐步判別,中央財(cái)經(jīng)大學(xué)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論