判別分析-四種方法_第1頁(yè)
判別分析-四種方法_第2頁(yè)
判別分析-四種方法_第3頁(yè)
判別分析-四種方法_第4頁(yè)
判別分析-四種方法_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第六章判別分析§什么是判別分析判別分析是判別樣品所屬類(lèi)型的一種統(tǒng)計(jì)方法,其應(yīng)用之廣可與回歸分析媲美。在生產(chǎn)、科研和日常生活中經(jīng)常需要根據(jù)觀測(cè)到的數(shù)據(jù)資料,對(duì)所研究的對(duì)象進(jìn)行分類(lèi)。例如在經(jīng)濟(jì)學(xué)中,根據(jù)人均國(guó)民收入、人均工農(nóng)業(yè)產(chǎn)值、人均消費(fèi)水平等多種指標(biāo)來(lái)判定一個(gè)國(guó)家的經(jīng)濟(jì)發(fā)展程度所屬類(lèi)型;在市場(chǎng)預(yù)測(cè)中,根據(jù)以往調(diào)查所得的種種指標(biāo),判別下季度產(chǎn)品是暢銷(xiāo)、平常或滯銷(xiāo);在地質(zhì)勘探中,根據(jù)巖石標(biāo)本的多種特性來(lái)判別地層的地質(zhì)年代,由采樣分析出的多種成份來(lái)判別此地是有礦或無(wú)礦,是銅礦或鐵礦等;在油田開(kāi)發(fā)中,根據(jù)鉆井的電測(cè)或化驗(yàn)數(shù)據(jù),判別是否遇到油層、水層、干層或油水混合層;在農(nóng)林害蟲(chóng)預(yù)報(bào)中,根據(jù)以往的蟲(chóng)情、多種氣象因子來(lái)判別一個(gè)月后的蟲(chóng)情是大發(fā)生、中發(fā)生或正常;在體育運(yùn)動(dòng)中,判別某游泳運(yùn)動(dòng)員的“苗子”是適合練蛙泳、仰泳、還是自由泳等;在醫(yī)療診斷中,根據(jù)某人多種體驗(yàn)指標(biāo)(如體溫、血壓、白血球等)來(lái)判別此人是有病還是無(wú)病??傊?,在實(shí)際問(wèn)題中需要判別的問(wèn)題幾乎到處可見(jiàn)。判別分析與聚類(lèi)分析不同。判別分析是在已知研究對(duì)象分成若干類(lèi)型(或組別)并已取得各種類(lèi)型的一批已知樣品的觀測(cè)數(shù)據(jù),在此基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式,然后對(duì)未知類(lèi)型的樣品進(jìn)行判別分類(lèi)。對(duì)于聚類(lèi)分析來(lái)說(shuō),一批給定樣品要?jiǎng)澐值念?lèi)型事先并不知道,正需要通過(guò)聚類(lèi)分析來(lái)給以確定類(lèi)型的。正因?yàn)槿绱?,判別分析和聚類(lèi)分析往往聯(lián)合起來(lái)使用,例如判別分析是要求先知道各類(lèi)總體情況才能判斷新樣品的歸類(lèi),當(dāng)總體分類(lèi)不清楚時(shí),可先用聚類(lèi)分析對(duì)原來(lái)的一批樣品進(jìn)行分類(lèi),然后再用判別分析建立判別式以對(duì)新樣品進(jìn)行判別。判別分析內(nèi)容很豐富,方法很多。判別分析按判別的組數(shù)來(lái)區(qū)分,有兩組判別分析和多組判別分析;按區(qū)分不同總體的所用的數(shù)學(xué)模型來(lái)分,有線性判別和非線性判別;按判別時(shí)所處理的變量方法不同,有逐步判別和序貫判別等。判別分析可以從不同角度提出的問(wèn)題,因此有不同的判別準(zhǔn)則,如馬氏距離最小準(zhǔn)則、Fisher準(zhǔn)則、平均損失最小準(zhǔn)則、最小平方準(zhǔn)則、最大似然準(zhǔn)則、最大概率準(zhǔn)則等等,按判別準(zhǔn)則的不同又提出多種判別方法。本章僅介紹四種常用的判別方法即距離判別法、Fisher判別法、Bayes判別法和逐步判別法?!炀嚯x判別法基本思想:首先根據(jù)已知分類(lèi)的數(shù)據(jù),分別計(jì)算各類(lèi)的重心即分組(類(lèi))的均值,判別準(zhǔn)則是對(duì)任給的一次觀測(cè),若它與第i類(lèi)的重心距離最近,就認(rèn)為它來(lái)自第i類(lèi)。距離判別法,對(duì)各類(lèi)(或總體)的分布,并無(wú)特定的要求。1兩個(gè)總體的距離判別法設(shè)有兩個(gè)總體(或稱兩類(lèi))G1、G2,從第一個(gè)總體中抽取n1個(gè)樣品,從第二個(gè)總體中抽取n2個(gè)樣品,每個(gè)樣品測(cè)量p個(gè)指標(biāo)如下頁(yè)表。今任取一個(gè)樣品,實(shí)測(cè)指標(biāo)值為,問(wèn)X應(yīng)判歸為哪一類(lèi)首先計(jì)算X到G1、G2總體的距離,分別記為和,按距離最近準(zhǔn)則判別歸類(lèi),則可寫(xiě)成:G1總體:G2總體:變量樣品…變量樣品……………均值…均值…記如果距離定義采用歐氏距離,則可計(jì)算出然后比較和大小,按距離最近準(zhǔn)則判別歸類(lèi)。由于馬氏距離在多元統(tǒng)計(jì)分析中經(jīng)常用到,這里針對(duì)馬氏距離對(duì)上述準(zhǔn)則做較詳細(xì)的討論。設(shè)、,、分別為G1、G2的均值向量和協(xié)方差矩陣。如果距離定義采用馬氏距離即這時(shí)判別準(zhǔn)則可分以下兩種情況給出:(1)當(dāng)時(shí)考察及的差,就有:令則判別準(zhǔn)則可寫(xiě)成:當(dāng)已知時(shí),令則

顯然,W(X)是的線性函數(shù),稱W(X)為線性判別函數(shù),a為判別系數(shù)。當(dāng)未知時(shí),可通過(guò)樣本來(lái)估計(jì)。設(shè)來(lái)自Gi的樣本,i=1,2。其中

線性判別函數(shù)為:當(dāng)p=1時(shí),若兩個(gè)總體的分布分別為和,判別函數(shù),不妨設(shè),這時(shí)W(X)的符號(hào)取決于或。當(dāng)時(shí),判;當(dāng)時(shí),判。我們看到用距離判別所得到的準(zhǔn)則是頗為合理的。但從下圖又可以看出,用這個(gè)判別法有時(shí)也會(huì)得出錯(cuò)判。如X來(lái)自G1,但卻落入D2,被判為屬G2,錯(cuò)判的概率為圖中陰影的面積,記為,類(lèi)似有,顯然==。當(dāng)兩總體靠得很近(即||小),則無(wú)論用何種辦法,錯(cuò)判概率都很大,這時(shí)作判別分析是沒(méi)有意義的。因此只有當(dāng)兩個(gè)總體的均值有顯著差異時(shí),作判別分析才有意義。(2)當(dāng)時(shí)按距離最近準(zhǔn)則,類(lèi)似地有:仍然用作為判別函數(shù),它是X的二次函數(shù)。2多個(gè)總體的距離判別法類(lèi)似兩個(gè)總體的討論推廣到多個(gè)總體。設(shè)有k個(gè)總體G1,…,Gk,它們的均值和協(xié)方差陣分別為,從每個(gè)總體Gi中抽取ni個(gè)樣品,i

=1,…,k,每個(gè)樣品測(cè)p個(gè)指標(biāo)。今任取一個(gè)樣品,實(shí)測(cè)指標(biāo)值為,問(wèn)X應(yīng)判歸為哪一類(lèi)G1總體:…Gk總體:變量樣品…變量樣品……………均值…均值…記向量(1)當(dāng)時(shí)此時(shí)判別函數(shù)為:相應(yīng)的判別準(zhǔn)則為:當(dāng),未知時(shí)可用其估計(jì)量代替,設(shè)從Gi中抽取的樣本為,則,的估計(jì)分別為其中為Gi的樣本離差陣。(2)當(dāng)不相等時(shí)此時(shí)判別函數(shù)為:相應(yīng)的判別準(zhǔn)則為:當(dāng)未知時(shí),可用的估計(jì)量代替,即例1人文發(fā)展指數(shù)是聯(lián)合國(guó)開(kāi)發(fā)計(jì)劃署于1990年5月發(fā)表的第一份《人類(lèi)發(fā)展報(bào)告》中公布的。該報(bào)告建議,目前對(duì)人文發(fā)展的衡量應(yīng)當(dāng)以人生的三大要素為重點(diǎn),衡量人生三大要素的指示指標(biāo)分別要用出生時(shí)的預(yù)期壽命、成人識(shí)字率和實(shí)際人均GDP,將以上三個(gè)指示指標(biāo)的數(shù)值合成為一個(gè)復(fù)合指數(shù),即為人文發(fā)展指數(shù)。資料來(lái)源:UNDP《人類(lèi)發(fā)展報(bào)告》1995年。今從1995年世界各國(guó)人文發(fā)展指數(shù)的排序中,選取高發(fā)展水平、中等發(fā)展水平的國(guó)家各五個(gè)作為兩組樣品,另選四個(gè)國(guó)家作為待判樣品作距離判別分析。數(shù)據(jù)選自《世界經(jīng)濟(jì)統(tǒng)計(jì)研究》1996年第1期類(lèi)別序號(hào)國(guó)家名稱出生時(shí)的予期壽命(歲)x1成人識(shí)字率(%)1992x2調(diào)正后人均GDP1992x3第一類(lèi)(高發(fā)展水平國(guó)家)12345美國(guó)日本瑞士阿根廷阿聯(lián)酋767899999953745359537252425370第二類(lèi)(中等發(fā)展水平國(guó)家)678910保加利亞古巴巴拉圭格魯吉亞南非70939942503412339023003799待判樣品11121314中國(guó)羅馬尼亞希臘哥倫比亞1950284052335158本例中變量個(gè)數(shù)p=3,兩類(lèi)總體各有5個(gè)樣品,即,有4個(gè)待判樣品,假定兩總體協(xié)差陣相等。兩組線性判別的計(jì)算過(guò)程如下: (2)計(jì)算樣本協(xié)差陣,從而求出

類(lèi)似地

經(jīng)計(jì)算

(3)求線性判別函數(shù)W(X)解線性方程組得

(4)對(duì)已知類(lèi)別的樣品判別分類(lèi)對(duì)已知類(lèi)別的樣品(通常稱為訓(xùn)練樣品)用線性判別函數(shù)進(jìn)行判別歸類(lèi),結(jié)果如下,全部判對(duì)。

樣品號(hào)判別函數(shù)W(X)的值原類(lèi)號(hào)判歸類(lèi)別1234511111111116789102222222222(5對(duì)判別效果作檢驗(yàn)判別分析是假設(shè)兩組樣品取自不同總體,如果兩個(gè)總體的均值向量在統(tǒng)計(jì)上差異不顯著,作判別分析意義就不大。所謂判別效果的檢驗(yàn)就是檢驗(yàn)兩個(gè)正態(tài)總體的均值向量是否相等,根據(jù)第三章§可知檢驗(yàn)的統(tǒng)計(jì)量為:其中將上邊計(jì)算結(jié)果代入統(tǒng)計(jì)量后可得:故在檢驗(yàn)水平下,兩總體間差異顯著,即判別函數(shù)有效。(6)對(duì)待判樣品判別歸類(lèi)結(jié)果如下表:樣品號(hào)國(guó)家判別函數(shù)W(X)的值判別類(lèi)別11121314中國(guó)羅馬尼亞希臘哥倫比亞2211簡(jiǎn)短分析:回代率為百分之百,這與統(tǒng)計(jì)資料的結(jié)果相符,而待判的四個(gè)樣品的判別結(jié)果表明:中國(guó)、羅馬尼亞為中等發(fā)展水平國(guó)家即第二類(lèi),希臘、哥倫比亞為高發(fā)展水平國(guó)家即第一類(lèi),這是符合當(dāng)時(shí)實(shí)際的,即與當(dāng)時(shí)世界各國(guó)人文發(fā)展指數(shù)的水平相吻合。例2對(duì)全國(guó)30個(gè)省市自治區(qū)1994年影響各地區(qū)經(jīng)濟(jì)增長(zhǎng)差異的制度變量:x1—經(jīng)濟(jì)增長(zhǎng)率(%)、x2—非國(guó)有化水平(%)、x3—開(kāi)放度(%)、x4—市場(chǎng)化程度(%)作判別分析。

資料來(lái)源:《經(jīng)濟(jì)理論與經(jīng)濟(jì)管理》1998年第1期類(lèi)別序號(hào)地區(qū)x1x2x3x4第一組1遼寧2河北3天津4北京5山東6上海7浙江208福建9廣東1910廣西1611海南第二組12黑龍江13吉林14內(nèi)蒙古15山西16河南17湖北18湖南1119江西1820甘肅21寧夏22四川23云南24貴州25青海26新疆27西藏待判樣品28江蘇29安徽30陜西(1)兩類(lèi)地區(qū)各變量的均值(2)計(jì)算樣本協(xié)差陣,從而求出和(3)求線性判別函數(shù)解線性方程組

得經(jīng)計(jì)算

(4)對(duì)已知類(lèi)別的樣品回判由于為第一組,為第二組。樣品序號(hào)W(X)原類(lèi)號(hào)回歸組別111211311411511611711811911101211111222132214221522162217221822192220222122222223222422252226222722上述回判結(jié)果表明,第一組中只有第10個(gè)樣品判組號(hào)為2,與原組號(hào)不同,其余樣品與原分組號(hào)相同;第二組中的各樣品回判組號(hào)都是2,即與原組號(hào)完全相同。我們仔細(xì)研究第10號(hào)樣品廣西的指標(biāo)數(shù)據(jù),可以看到它有可能是屬于原分組時(shí)的錯(cuò)分樣品??偟幕卮袑?duì)率達(dá)%。(5)對(duì)待判樣品判別歸類(lèi),結(jié)果如下:樣品序號(hào)W(X)判歸類(lèi)別281291302待判樣品中江蘇和安徽被判屬第一組,陜西被判屬第二組,這與實(shí)際情況較吻合?!熨M(fèi)歇(Fisher)判別法Fisher判別法是1936年提出來(lái)的,該法對(duì)總體的分布并未提出什么特定的要求。1不等協(xié)差陣的兩總體Fisher判別法(1)基本思想:從兩個(gè)總體中抽取具有p個(gè)指標(biāo)的樣品觀測(cè)數(shù)據(jù),借助方差分析的思想造一個(gè)判別函數(shù)或稱判別式:,其中系數(shù)、…、確定的原則是使兩組間的區(qū)別最大,而使每個(gè)組內(nèi)部的離差最小。有了判別式后,對(duì)于一個(gè)新的樣品,將它的p個(gè)指標(biāo)值代入判別式中求出y值,然后與判別臨界值(或稱分界點(diǎn)后面給出)進(jìn)行比較,就可以判別它應(yīng)屬于哪一個(gè)總體。(2)判別函數(shù)的導(dǎo)出假設(shè)有兩個(gè)總體G1、G2,從第一個(gè)總體中抽取n1個(gè)樣品,從第二個(gè)總體中抽取n2個(gè)樣品,每個(gè)樣品觀測(cè)p個(gè)指標(biāo),列表如下:G1總體:G2總體:變量樣品…變量樣品……………均值…均值…假設(shè)新建立的判別式為,今將屬于不同兩總體的樣品觀測(cè)值代入判別式中去,則得:對(duì)上邊兩式分別左右相加,再乘以相應(yīng)的樣品個(gè)數(shù),則有:……第一組樣品的“重心”……第二組樣品的“重心”為了使判別函數(shù)能夠很好地區(qū)別來(lái)自不同總體的樣品,自然希望:i)來(lái)自不同總體的兩個(gè)平均值相差愈大愈好。ii)對(duì)于來(lái)自第一個(gè)總體的要求它們的離差平方和愈小愈好,同樣也要求愈小愈好。綜合以上兩點(diǎn),就是要求:愈大愈好。記為兩組間離差。為兩組內(nèi)的離差。則 利用微積分求極值的必要條件可求出使I達(dá)到最大值的。為此將上式兩邊取對(duì)數(shù):令則即 而其中而 其中從而 即 令 是常數(shù)因子,不依賴于k,它對(duì)方程組的解只起到共同擴(kuò)大倍的作用,不影響它的解之間的相對(duì)比例關(guān)系。對(duì)判別結(jié)果來(lái)說(shuō)沒(méi)有影響,所以取=1,于是方程組:即 寫(xiě)成矩陣形式為:所以

值得說(shuō)明的是:本書(shū)有幾處利用極值原理求極值時(shí),只給出必要條件的數(shù)學(xué)推導(dǎo),而有關(guān)充分條件的論證省略了,因?yàn)樵谕ǔS龅降膶?shí)際問(wèn)題中,根據(jù)問(wèn)題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點(diǎn)只有一個(gè),這時(shí)就不需要根據(jù)極值存在的充分條件判定它是極大還是極小而就能肯定這唯一的駐點(diǎn)就是所求的最大值(或最小值),為了避免用到較多的數(shù)學(xué)知識(shí)或數(shù)學(xué)上的推導(dǎo),這里不追求數(shù)學(xué)上的完整性。有了判別函數(shù)之后,欲建立判別準(zhǔn)則還要確定判別臨界值(分界點(diǎn))y0,在兩總體先驗(yàn)概率相等的假設(shè)下,一般常取y0為與的加權(quán)平均值即如果由原始數(shù)據(jù)求得與滿足>,則建立判別準(zhǔn)則為:對(duì)一個(gè)新樣品代入判別函數(shù)中去所得值記為y,若y>y0,則判定(見(jiàn)圖一);若y<y0,則判定。如果<,則建立判別準(zhǔn)則為:若y>y0,則判定(見(jiàn)圖二);若y<y0,則判定(注:為直觀起見(jiàn),給出兩個(gè)正態(tài)總體等方差情況下的圖形)。(3)計(jì)算步驟i)建立判別函數(shù)圖一圖二求的最大值點(diǎn),根據(jù)極值原理,需解方程組可得到,寫(xiě)出判別函數(shù)。ii)計(jì)算判別臨界值,然后根據(jù)判別準(zhǔn)則對(duì)新樣品判別分類(lèi)。iii)檢驗(yàn)判別效果(當(dāng)兩個(gè)總體協(xié)差陣相同且總體服從正態(tài)分布)。檢驗(yàn)統(tǒng)計(jì)量:其中給定檢驗(yàn)水平a,查F分布表,確定臨界值,若,則被否定,認(rèn)為判別有效。否則認(rèn)為判別無(wú)效。值得指出的是:參與構(gòu)造判別式的樣品個(gè)數(shù)不宜太少,否則會(huì)影響判別式的優(yōu)良性;其次判別式選用的指標(biāo)不宜過(guò)多,指標(biāo)過(guò)多不僅使用不方便,而且影響預(yù)報(bào)的穩(wěn)定性。所以建立判別式之前應(yīng)仔細(xì)挑選出幾個(gè)對(duì)分類(lèi)特別有關(guān)系的指標(biāo),要使兩類(lèi)平均值之間的差異盡量大些。例1利用距離判別法中例1的人文發(fā)展指數(shù)的數(shù)據(jù)作Fisher判別分析。(1)建立判別函數(shù)利用前例計(jì)算的結(jié)果,可得Fisher判別函數(shù)的系數(shù)、、為所以判別函數(shù)為(2)計(jì)算判別臨界值y0由于 所以(3)判別準(zhǔn)則∴判別準(zhǔn)則為(4)對(duì)已知類(lèi)別的樣品判別歸類(lèi)序號(hào)國(guó)家判別函數(shù)y的值原類(lèi)號(hào)判歸類(lèi)別1美國(guó)112日本113瑞士114阿根廷115阿聯(lián)酋116保加利亞227古巴228巴拉圭229格魯吉亞2210南非22上述回判結(jié)果表明:總的回代判對(duì)率為100%,這與統(tǒng)計(jì)資料的結(jié)果相符,而且與前面用距離判別法的結(jié)果也一致。(5)對(duì)判別效果作檢驗(yàn)由于 所以在檢驗(yàn)水平下判別有效。(6)待判樣品判別結(jié)果如下:序號(hào)國(guó)家判別函數(shù)y的值判屬類(lèi)別11中國(guó)212羅馬尼亞213希臘114哥倫比亞1判別結(jié)果與實(shí)際情況吻合。例2用距離判別法中例2的制度變量對(duì)30個(gè)省市自治區(qū)作Fisher判別分析。(1)建立判別式經(jīng)計(jì)算得:∴判別式為(2)求判別臨界值y0,對(duì)所給樣品判別分類(lèi)由于,當(dāng)樣品代入判別工后,若,則判為第一組;若,則判為第二組。回判結(jié)果如下:樣品序號(hào)y值原類(lèi)號(hào)回判組別111211311411511611711811911101211111222132214221522162117221822192220222122222223222422252226222722等判樣品判別結(jié)果樣品序號(hào)y值判屬組號(hào)281291303上述回判結(jié)果表明,第一組的第10號(hào)仍被回判為第2組,說(shuō)明第10號(hào)樣品確為誤分。而第二組的第16號(hào)被回判為第一組,仔細(xì)研究其指標(biāo),發(fā)現(xiàn)其數(shù)據(jù)介于第1組和第2組之間,差別不顯著造成的??偟幕卮袑?duì)率為25/27=%。關(guān)于待判的三個(gè)樣品的判別結(jié)果與用距離判別法的相同,說(shuō)明其判別結(jié)果是比較好的。2多總體Fisher判別法類(lèi)似兩總體Fisher判別法可給出多總體Fisher判別法。設(shè)有k個(gè)總體G1,…,Gk,抽取樣品數(shù)分別為,令。為第i個(gè)總體的第a個(gè)樣品的觀測(cè)向量。假定所建立的判別函數(shù)為其中記和分別是總體內(nèi)x的樣本均值向量和樣本協(xié)差陣,根據(jù)求隨機(jī)變量線性組合的均值和方差的性質(zhì)可知,在上的樣本均值和樣本方差為記為總的均值向量,則。在多總體情況下,F(xiàn)isher準(zhǔn)則就是要選取系數(shù)向量c,使達(dá)到最大,其中是人為的正的加權(quán)系數(shù),它可以取為先驗(yàn)概率。如果取,并將代入上式可化為:其中E為組內(nèi)離差陣,A為總體之間樣本協(xié)差陣,即

為求的最大值,根據(jù)極值存在的必要條件,令,利用對(duì)向量求導(dǎo)的公式:

因此這說(shuō)明及c恰好是A、E矩陣的廣義特征根及其對(duì)應(yīng)的特征向量。由于一般都要求加權(quán)協(xié)差陣E是正定的,因此由代數(shù)知識(shí)可知,上式非零特征根個(gè)數(shù)m不超過(guò)min(k-1,p),又因?yàn)锳為非負(fù)定的,所以非零特征根必為正根,記為,于是可構(gòu)造m個(gè)判別函數(shù):對(duì)于每一個(gè)判別函數(shù)必須給出一個(gè)用以衡量判別能力的指標(biāo)定義為:m0個(gè)判別函數(shù)的判別能力定義為:如果m0達(dá)到某個(gè)人定的值(比如85%)則就認(rèn)為m0個(gè)判別函數(shù)就夠了。有了判別函數(shù)之后,如何對(duì)待判的樣品進(jìn)行分類(lèi)Fisher判別法本身并未給出最合適的分類(lèi)法,在實(shí)際工作中可以選用下列分類(lèi)法之一去作分類(lèi)。(1)當(dāng)取m0=1時(shí)(即只取一個(gè)判別函數(shù)),此時(shí)有兩種可供選用的方法i)不加權(quán)法若則判ii)加權(quán)法將按大小次序排列,記為,相應(yīng)判別函數(shù)的標(biāo)準(zhǔn)差重排為。令則可作為與之間分界點(diǎn)。如果x使得,則判。(2)當(dāng)取時(shí),也有類(lèi)似兩種供選用的方法i)不加權(quán)法記對(duì)待判樣品,計(jì)算若則判。ii)加權(quán)法考慮到每個(gè)判別函數(shù)的判別能力不同,記其中是由求出的特征根。若則判?!熵惾~斯(Bayes)判別法從上節(jié)看到Fisher判別法隨著總體個(gè)數(shù)的增加,建立的判別式也增加,因而計(jì)算起來(lái)還是比較麻煩的。如果對(duì)多個(gè)總體的判別考慮的不是建立判別式,而是計(jì)算新給樣品屬于各總體的條件概率。比較這k個(gè)概率的大小,然后將新樣品判歸為來(lái)自概率最大的總體,這種判別法稱為Bayes判別法。1基本思想Bayes判別法的基本思想總是假定對(duì)所研究的對(duì)象已有一定的認(rèn)識(shí),常用先驗(yàn)概率來(lái)描述這種認(rèn)識(shí)。設(shè)有k個(gè)總體G1,G2,…,Gk,它們的先驗(yàn)概率分別為(它們可以由經(jīng)驗(yàn)給出也可以估出)。各總體的密度函數(shù)分別為:(在離散情形是概率函數(shù)),在觀測(cè)到一個(gè)樣品x的情況下,可用著名的Bayes公式計(jì)算它來(lái)自第g總體的后驗(yàn)概率(相對(duì)于先驗(yàn)概率來(lái)說(shuō),將它又稱為后驗(yàn)概率):并且當(dāng) 時(shí),則判X來(lái)自第h總體。有時(shí)還可以使用錯(cuò)判損失最小的概念作判決函數(shù)。這時(shí)把x錯(cuò)判歸第h總體的平均損失定義為其中稱為損失函數(shù)。它表示本來(lái)是第g總體的樣品錯(cuò)判為第h總體的損失。顯然上式是對(duì)損失函數(shù)依概率加權(quán)平均或稱為錯(cuò)判的平均損失。當(dāng)h

=

g時(shí),有;當(dāng)時(shí),有。建立判別準(zhǔn)則為如果則判定x來(lái)自第h總體。原則上說(shuō),考慮損失函數(shù)更為合理,但是在實(shí)際應(yīng)用中不容易確定,因此常常在數(shù)學(xué)模型中就假設(shè)各種錯(cuò)判的損失皆相等,即這樣一來(lái),尋找h使后驗(yàn)概率最大和使錯(cuò)判的平均損失最小是等價(jià)的,即2多元正態(tài)總體的Bayes判別法在實(shí)際問(wèn)題中遇到的許多總體往往服從正態(tài)分布,下面給出p元正態(tài)總體的Bayes判別法。(1)判別函數(shù)的導(dǎo)出由前面敘述已知,使用Bayes判別法作判別分析,首先需要知道待判總體的先驗(yàn)概率和密度函數(shù)(如果是離散情形則是概率函數(shù))。對(duì)于先驗(yàn)概率,如果沒(méi)有更好的辦法確定,可用樣品頻率代替,即令,其中為用于建立判別函數(shù)的已知分類(lèi)數(shù)據(jù)中來(lái)自第g總體樣品的數(shù)目,且,或者干脆令先檢概率相等,即,這時(shí)可以認(rèn)為先驗(yàn)概率不起作用。p元正態(tài)分布密度函數(shù)為:式中和分別是第g總體的均值向量(p維)和協(xié)差陣(p階)。把代入的表達(dá)式中,因?yàn)槲覀冎魂P(guān)心尋找使最大的g,而分式中的分母不論g為何值都是常數(shù),故可改令取對(duì)數(shù)并去掉與g無(wú)關(guān)的項(xiàng),記為

則問(wèn)題化為(2)假設(shè)協(xié)方差陣相等中含有k個(gè)總體的協(xié)方差陣(逆陣及行列式值),而且對(duì)于x還是二次函數(shù),實(shí)際計(jì)算時(shí)工作量很大。如果進(jìn)一步假定k個(gè)總體協(xié)方差陣相同,即,這時(shí)中和兩項(xiàng)與g無(wú)關(guān),求最大時(shí)可以去掉,最終得到如下形式的判別函數(shù)與判別準(zhǔn)則(如果協(xié)方差陣不等,則有非線性判別函數(shù));上式判別函數(shù)也可以寫(xiě)成多項(xiàng)式形式:此處

,(3)計(jì)算后驗(yàn)概率作計(jì)算分類(lèi)時(shí),主要根據(jù)判別式的大小,而它不是后驗(yàn)概率,但是有了之后,就可以根據(jù)下式算出:因?yàn)? 其中是中與g無(wú)關(guān)的部分。所以 由上式知使y為最大的h,其必為最大,因此我們只須把樣品x代入判別式中:分別計(jì)算,。若則把樣品x歸入第h總體。例1繼續(xù)用前面距離判別法例1的人文發(fā)展指數(shù)的數(shù)據(jù)作Bayes判別分析。這里組數(shù)k=2,指標(biāo)數(shù)p=3,n1=n2=5代入判別函數(shù):得兩組的判別函數(shù)分別為:將原各組樣品進(jìn)行回判結(jié)果如下:樣品序號(hào)原類(lèi)號(hào)判別函數(shù)值判別函數(shù)值回判類(lèi)別后驗(yàn)概率1112113114115116227228229221022回判結(jié)果表明,總的回代判對(duì)率為100%,這與統(tǒng)計(jì)資料的結(jié)果相符,并與前面的距離判別法、Fisher判別法的結(jié)果也相同。待判樣品判別結(jié)果如下:樣品序號(hào)國(guó)家判別函數(shù)值判別函數(shù)值后驗(yàn)概率判屬類(lèi)號(hào)11中國(guó)212羅馬尼亞213希臘114哥倫比亞1待判樣品的結(jié)果表明,判屬類(lèi)別與前面的判屬類(lèi)別完全相同,即中國(guó)、羅馬尼亞屬于第二類(lèi),希臘、哥倫經(jīng)亞屬于第一類(lèi)。繼續(xù)用前面距離判別法例2的制度變量的數(shù)據(jù)作Bayes判別分析。由前知:兩組的判別函數(shù)分別為:判別原則:若樣品的,則屬于第一組;若,則屬于第二組?;嘏薪Y(jié)果如下:

樣品序號(hào)原組號(hào)回判組號(hào)后驗(yàn)概率111211311411511611711811911101111111222132214221522162217221822192220222122222223222422252226222722Bayes法的回判結(jié)果與距離判別法的結(jié)果是一樣的,其判對(duì)率為%。待判樣品判別結(jié)果如下:樣品序號(hào)判屬組號(hào)后驗(yàn)概率281292302在Bayes法下,關(guān)于待判的三個(gè)樣品的判別結(jié)果:江蘇判屬于第一組,安徽和陜西判屬于第二組。其中,安徽的判屬組別與前兩種方法不一樣,這與方法本身有差異有關(guān),但也與安徽的數(shù)據(jù)有關(guān),其數(shù)據(jù)介于一組和二組之間,差別不顯著。§逐步判別法前面介紹的判別方法都是用已給的全部變量來(lái)建立判別式的,但這些變量在判別式中所起的作用,一般來(lái)說(shuō)是不同的,也就是說(shuō)各變量在判別式中判別能力不同,有些可能起重要作用,有些可能作用低微,如果將判別能力低微的變量保留在判別式中,不僅會(huì)增加計(jì)算量,而且會(huì)產(chǎn)生干擾影響判別效果,如果將其中重要變量忽略了,這時(shí)作出的判別效果也一定不好。如何篩選出具有顯著判別能力的變量來(lái)建立判別式呢由于篩選變量的重要性,近三十年來(lái)有大量的文章提出很多種方法,這里僅介紹一種常用的逐步判別法。1基本思想逐步判別法與逐步回歸法的基本思想類(lèi)似,都是采用“有進(jìn)有出”的算法,即逐步引入變量,每引入一個(gè)“最重要”的變量進(jìn)入判別式,同時(shí)也考慮較早引入判別式的某些變量,如果其判別能力隨新引入變量而變?yōu)椴伙@著了(例如其作用被后引入的某幾個(gè)變量的組合所代替),應(yīng)及時(shí)從判別式中把它剔除去,直到判別式中沒(méi)有不重要的變量需要剔除,而剩下來(lái)的變量也沒(méi)有重要的變量可引入判別式時(shí),逐步篩選結(jié)束。這個(gè)篩選過(guò)程實(shí)質(zhì)就是作假設(shè)檢驗(yàn),通過(guò)檢驗(yàn)找出顯著性變量,剔除不顯著變量。2引入剔除變量所用的檢驗(yàn)統(tǒng)計(jì)量設(shè)有k個(gè)正態(tài)總體,它們有相同的協(xié)方差陣。因此如果它們有產(chǎn)左別也只能表現(xiàn)在均值向量上,今從k個(gè)總體分別抽取個(gè)樣品,;,令。今作統(tǒng)計(jì)假設(shè)如果接受這個(gè)假設(shè),說(shuō)明這k個(gè)總體的統(tǒng)計(jì)差異不顯著,在此基礎(chǔ)上建立的判別函數(shù)效果肯定不好,除非增加新的變量。如果H0被否定,說(shuō)明這k個(gè)總體可以區(qū)分,建立判別函數(shù)是有意義的,根據(jù)第三章§檢驗(yàn)H0的似然比統(tǒng)計(jì)量為其中

由的定義可知:,而、的大小分別反映了同一總體樣本間的差異和k個(gè)總體所有樣本間的差異。因此,值越小,表明相同總體間的差異越小,相對(duì)地,樣本間總的差異越大,即各總體間有較大差異,因此對(duì)給定的檢驗(yàn)水平a,應(yīng)由分布確定臨界值,使當(dāng)時(shí)拒絕H0,否則H0相容。這里標(biāo)下角標(biāo)是強(qiáng)調(diào)有p個(gè)變量。由于Wilks分布的數(shù)值表,一般書(shū)上沒(méi)有,所以常用下面的近似公式:Bartlett近似式:Rao近似式這里根據(jù)Rao近似式給出引入變量和剔除變量的統(tǒng)計(jì)量。為此先復(fù)習(xí)線性代數(shù)的一個(gè)定理。設(shè)且將A剖分為:這里A11、A22是方陣且非奇異陣,則

另外在篩選變量過(guò)程中,要計(jì)算許多行列式,在建立判別函數(shù)時(shí)往往還要算逆矩陣,因此需要有一套方便的計(jì)算方法,這就是消去變換法(見(jiàn)后面附錄)。(1)引入變量的檢驗(yàn)統(tǒng)計(jì)量假定計(jì)算l步,并且變量已選入(L不一定等于l),今考察第l+1步添加一個(gè)新變量xr的判別能力,此時(shí)將變量分成兩組,第一組為前L個(gè)已選入的變量,第二組僅有一個(gè)變量xr,此時(shí)L+1個(gè)變量的組內(nèi)離差陣和總離差陣仍分別為E和T。其中其中由于其中 (注意:上式行列式里是一個(gè)數(shù),所以可去掉行列式符號(hào),又r相當(dāng)于2。)同理其中 于是 即 所以 將上式代入Rao近似式中得到引入變量的檢驗(yàn)統(tǒng)計(jì)量:若,則x1判別能力顯著,我們將判別能力顯著的變量中最大的變量(即使Ar為最小的變量)作為入選變量記為。值得強(qiáng)調(diào)的是:不管引入變量還是剔除變量,都需要對(duì)相應(yīng)的矩陣E和T作一次消去變換,比如說(shuō),不妨設(shè)第一個(gè)引入的變量是x1,這時(shí)就要對(duì)E和T同時(shí)進(jìn)行消去第一列的變換得到和,接著考慮引入第二個(gè)變量,經(jīng)過(guò)檢驗(yàn)認(rèn)為顯著的變量,不妨設(shè)是x2,這時(shí)就要對(duì)和同時(shí)進(jìn)行消去第二列的變換得到和,對(duì)剔除變量也如此。(2)剔除變量的檢驗(yàn)統(tǒng)計(jì)量考察對(duì)已入選變量xr的判別能力,可以設(shè)想已計(jì)算了l步,并引入了包括xr在內(nèi)的某L個(gè)為量(L不一定等于l)。今考察擬在第l+1步剔除變量xr的判別能力,為方便起見(jiàn),可以假設(shè)xr是在第l步引入的,也即前l(fā)-1步引進(jìn)了不包括xr在內(nèi)的l-1個(gè)變量。因此問(wèn)題轉(zhuǎn)化為考察第l步引入變量xr(在其它l-1個(gè)變量已給定時(shí))的判別能力,此時(shí)有對(duì)相應(yīng)的、,再作一次消去變換有:

于是 從而得到剔除變量的檢驗(yàn)統(tǒng)計(jì)量:在已入選的所有變量中,找出具有最大(即最?。┑囊粋€(gè)變量進(jìn)行檢驗(yàn)。若,則認(rèn)為判別能力不顯著,可把它從判別式中剔除。3具體計(jì)算步驟(1)準(zhǔn)備工作i)計(jì)算各總體中各變量的均值和總均值以及和ii)規(guī)定引入變量和剔除變量的臨界值F進(jìn)和F出(取臨界值,以保證逐步篩選變量過(guò)程必在有限步后停止)在利用電子計(jì)算機(jī)計(jì)算時(shí),通常臨界值的確定不是查分布表,而是根據(jù)具體問(wèn)題,事先給定。由于臨界值是隨著引入變量或剔除變量的個(gè)數(shù)而變化的,但是當(dāng)樣本容量n很大時(shí),它們的變化甚微,所以一般取,如果想少選入幾個(gè)變量可取,等等。如果想多選入變量可取,等等,顯然如果取則全部變量都被引入。(2)逐步計(jì)算假設(shè)已計(jì)算l步(包括l=0),在判別式中引入了某L個(gè)變量,不妨設(shè),則第l+1步計(jì)算內(nèi)容如下:i)計(jì)算全部變量的“判別能力”對(duì)未選入變量計(jì)算對(duì)已選入變量計(jì)算ii)在已入選變量中考慮剔除可能存在的最不顯著變量,取最大的(即最小的)。假設(shè),這里表示屬已入選變量。作F檢驗(yàn):剔除變量時(shí)統(tǒng)計(jì)量為:若,則剔除,然后對(duì)和作消去變換。若,則從未入選變量中選出最顯著變量,即要找出最小的(即最大的)。假設(shè),這里表示屬于未入選變量。作F檢驗(yàn):引入變量時(shí)統(tǒng)計(jì)量為若,則引入,然后對(duì)和作消去變換。在第l+1步計(jì)算結(jié)束后,再重復(fù)上面的i)、ii)直至不能剔除又不能引入新變量時(shí),逐步計(jì)算結(jié)束。(3)建立判別式,對(duì)樣品判別分類(lèi)經(jīng)過(guò)第二步選出重要變量后,可用各種方法建立判別函數(shù)和判別準(zhǔn)則,這里使用Bayes判別法建立判別式,假設(shè)共計(jì)算l+1步,最終選出L個(gè)變量,設(shè)判別式為:將每一個(gè)樣品(x可以是一個(gè)新樣品,也可以是原來(lái)n個(gè)樣品之一。)分別代入k個(gè)判別式y(tǒng)g中去。若,則第總體。順便指出兩點(diǎn):(1)在逐步計(jì)算中,每步都是先考慮剔除,后考慮引入,但開(kāi)頭幾步一般都是先引入,而后才開(kāi)始有剔除,實(shí)際問(wèn)題中引入后又剔除的情況不多,而剔除后再重新引入的情況更少見(jiàn)。(2)由算法中可知用逐步判別選出的L個(gè)變量,一般不是所有L個(gè)變量組合中最優(yōu)的組合(因?yàn)槊看我攵际窃诒A粢岩胱兞炕A(chǔ)上引入新變量)。但在L不大時(shí),往往是最優(yōu)的組合。例1再次利用人文發(fā)展指數(shù)的三項(xiàng)指標(biāo)作逐步判別分析。(1)計(jì)算兩類(lèi)各變量的均值、總均值、組內(nèi)離差陣、總離差陣如下:x1x2x3分類(lèi)均值第一類(lèi)第二類(lèi)總均值組內(nèi)離差陣為:總離差陣為:(2)逐步計(jì)算設(shè)引入變量的臨界值為F1,剔除變量的臨界值為F2,今取F1

=F2

=2。第一步:(L

=

0) (最?。┍静綗o(wú)剔除,考慮引進(jìn)

,故引進(jìn)變量x3。對(duì)矩陣W、T同時(shí)對(duì)x3作消去變換得及如下:x1x2x3x1x2x3x1x216464E-05x3第二步:(L=1)(最?。┍静綗o(wú)剔除(因只引進(jìn)一個(gè)變量x3),考慮引進(jìn)變量x1,

故引進(jìn)變量x1。對(duì)矩陣、同時(shí)對(duì)x1作消去變換得、如下:x1x2x3x1x2x3x1x2x3第三步,(L=2)對(duì)已入選的變量計(jì)算:(最大)對(duì)未入選的變量計(jì)算:考慮x1的剔除:故x1不能剔除??紤]x2的引進(jìn):故x2不能剔除。至此既無(wú)變量剔除,又無(wú)變量引入,故逐步計(jì)算結(jié)束,這時(shí)引入的重要變量為x1(出生時(shí)預(yù)期壽命)與x3(調(diào)整后人均GDP)。(3)計(jì)算結(jié)果(a)判別函數(shù)為

(b)檢驗(yàn)判別效果對(duì)參予選判別函數(shù)的已知分類(lèi)的10個(gè)樣品進(jìn)行回判結(jié)果如下:序號(hào)原分類(lèi)號(hào)判別函數(shù)的值判別函數(shù)的值計(jì)算分類(lèi)號(hào)后驗(yàn)概率1112113114115116227228229221022回判結(jié)果表明,第一類(lèi)、第二為的判對(duì)率均為100%。對(duì)未知分類(lèi)的4個(gè)待判樣品的判別結(jié)果如下:樣品序號(hào)國(guó)家值值后驗(yàn)概率判屬類(lèi)號(hào)11中國(guó)212羅馬尼亞213希臘114哥倫比亞1從待判樣品結(jié)果表明:判屬類(lèi)別與前面的結(jié)果完全一致,即中國(guó)、羅馬尼亞屬于第二類(lèi);希臘、哥倫比亞屬于第一類(lèi)。總之,從逐步判別法所得的結(jié)果可看出,盡管這里沒(méi)有利用變量(成人識(shí)字率),但所得的判別結(jié)果與利用全部變量所得的判別結(jié)果完全一致,這充分說(shuō)明了三個(gè)變量在判別式中所起的作用不同。例2再次對(duì)全國(guó)30個(gè)省市自治區(qū)1994年的影響各地區(qū)經(jīng)濟(jì)增長(zhǎng)差異的4項(xiàng)制度變量作逐步判別分析。(1)計(jì)算兩類(lèi)地區(qū)各變量的均值、組內(nèi)離差陣、總離差陣如下:

(2)逐步計(jì)算取F1=,F2=2第一步:(L=0)計(jì)算(最?。┍静綗o(wú)剔除,考慮引進(jìn)x4,故引進(jìn)x4。第二步:(L=1)計(jì)算(最小)本步無(wú)剔除(因只引進(jìn)一個(gè)x4),考慮引進(jìn)x3,故引進(jìn)x3。第三步:(L=2)對(duì)已入選的變量計(jì)算(最大)考慮x3的剔除故不能剔除對(duì)未入選變量計(jì)算(最小)考慮x2的引進(jìn),故x2不能引進(jìn)。至此既無(wú)變量剔除又無(wú)變量可引入,故逐步計(jì)算結(jié)束。(3)計(jì)算結(jié)果(a)判別函數(shù)為(b)檢驗(yàn)判別效果回判結(jié)果如下:樣品序號(hào)原組號(hào)回判組號(hào)后驗(yàn)概率111211311411511611711811911101211111222132214221522162217221822192220222122222223222422252226222722待判樣品的判別結(jié)果如下:樣品序號(hào)判屬組號(hào)后驗(yàn)概率281292303計(jì)算結(jié)果表明影響各地區(qū)經(jīng)濟(jì)增長(zhǎng)差異的制度變量主要是:市場(chǎng)化程度(x4)和開(kāi)放度(x3),其回判的結(jié)果與實(shí)際是相符的?!旄阶⑦@里不加證明的指出以下幾個(gè)結(jié)論:1判別函數(shù)中分界點(diǎn)的選取分界點(diǎn)的選取對(duì)判別效果的影響還是很大的,如果選取不當(dāng),很可能使一個(gè)好的判別函數(shù)變得毫無(wú)分類(lèi)的價(jià)值。對(duì)分界點(diǎn)的取法可以有各種不同的出發(fā)點(diǎn)。前邊曾給出的分界點(diǎn)為:但也可以人為地從經(jīng)驗(yàn)或問(wèn)題的實(shí)際背景出發(fā)指定y0值,也可以把個(gè)值從小到大排隊(duì),適當(dāng)?shù)厝∑渲幸稽c(diǎn)作分界點(diǎn)y0;或者可以取一個(gè)區(qū)間(),此處,然后規(guī)定如果想從數(shù)學(xué)上來(lái)討論還有平均錯(cuò)判率最小法即使達(dá)到最小值的解或最小最大錯(cuò)判率法即使兩個(gè)錯(cuò)判概率與中最大的一個(gè)盡可能地小,它們都是從不同的出發(fā)點(diǎn)確定分界點(diǎn),有興趣的讀者,可查看本書(shū)后面列出的參考書(shū)。2判別法則的評(píng)價(jià)無(wú)論用哪一種判別方法,去判斷樣品的歸屬問(wèn)題,均不可能永遠(yuǎn)作出正確的判斷,一般總會(huì)發(fā)生錯(cuò)判,用錯(cuò)判概率的大小來(lái)衡量判別效果是很自然的想法,那么如何來(lái)計(jì)算錯(cuò)判的概率呢比如只有兩個(gè)總體,要計(jì)算錯(cuò)判概率和就需要知道總體的分布以及判別函數(shù)的分布,從數(shù)學(xué)上是可以對(duì)它們進(jìn)行討論的,但實(shí)用起來(lái)總是不太方便。目前已研究出很多種估計(jì)錯(cuò)判概率的方法。除本章例子中所用的方法即用建立判別函數(shù)的訓(xùn)練樣品進(jìn)行回代,用錯(cuò)判的樣品數(shù)比上全體樣品數(shù)作為錯(cuò)判概率的估計(jì)。但是經(jīng)驗(yàn)證明這種方法估計(jì)錯(cuò)判概率往往偏低,于是產(chǎn)生一種改進(jìn)的方法即將已知類(lèi)別的樣品分成兩部份,用其中一大部份樣品(例如85%)的觀測(cè)數(shù)據(jù)去建立判別函數(shù)和判別準(zhǔn)則,用剩余的一小部份樣品(15%)的觀測(cè)數(shù)據(jù)進(jìn)行判斷,將錯(cuò)判的比例作為

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論