數(shù)據(jù)分析判別分析_第1頁
數(shù)據(jù)分析判別分析_第2頁
數(shù)據(jù)分析判別分析_第3頁
數(shù)據(jù)分析判別分析_第4頁
數(shù)據(jù)分析判別分析_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第五章鑒別分析1/84*2在日常生活和工作實踐中,常會遇到鑒別分析問題,即根據(jù)歷史上劃分類別有關(guān)資料和某種最優(yōu)準(zhǔn)則,確定一種鑒別辦法,判定一種新樣本歸屬哪一類。某醫(yī)院有部分患有肺炎、肝炎等病人資料,統(tǒng)計了每個患者若干項癥狀指標(biāo)數(shù)據(jù)。想利用現(xiàn)有這些資料找出一種辦法,使得對于一種新病人,當(dāng)測得這些癥狀指標(biāo)數(shù)據(jù)時,能夠判定其患有哪種病。在天氣預(yù)報中,有一段較長時間有關(guān)某地域每天氣象統(tǒng)計資料,現(xiàn)想建立用連續(xù)五天氣象資料來預(yù)報第六天是什么天氣辦法。這些問題都能夠應(yīng)用鑒別分析辦法給予處理。

2/84

根據(jù)經(jīng)驗,今天與昨天濕度差及今天壓差(氣壓與溫度之差)是預(yù)報明天下雨或不下雨兩個主要原因。今測得=8.1,

=2.0,試問應(yīng)預(yù)報明天下雨還是不下雨?

這個問題是兩總體鑒別問題,總體分為兩類,用G1表達(dá)下雨,G2表達(dá)不下雨。為進(jìn)行預(yù)報,應(yīng)先搜集一批資料,從已有資料中找出規(guī)律,再作預(yù)報。

3/84雨天非雨天-1.9-6.95.25.07.36.80.9-12.51.53.83.210.42.02.50.012.7-15.4-2.51.36.80.2-0.10.42.72.1-4.6-1.7-2.62.6-2.86.27.514.68.30.84.310.913.112.810.0我們搜集過去10個雨天和非雨天和數(shù)值

4/84-10-505X1-10010X2雨區(qū)G1非雨區(qū)G2⊙5/84*6判別分析模型如下:設(shè)有n個樣本,對每個樣本測得p項指標(biāo)(變量)數(shù)據(jù),已知每個樣本屬于k個類別(或總體)G1,G2,…,Gk中某一類,且它們分布函數(shù)分別為F1(x),F(xiàn)2(x),…,F(xiàn)k(x)。我們希望利用這些數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不一樣類別樣本點盡也許地區(qū)分開來,并對測得同樣p項指標(biāo)(變量)數(shù)據(jù)一個新樣本,能判定這個樣本歸屬于哪一類。

6/84

鑒別分析內(nèi)容很豐富,辦法很多。判斷分析按鑒別總體數(shù)來辨別,有兩個總體鑒別分析和多總體鑒別分析;按辨別不一樣總體所用數(shù)學(xué)模型來分,有線性鑒別和非線性鑒別;按鑒別時所處理變量辦法不一樣,有逐漸鑒別和序貫鑒別等。鑒別分析能夠從不一樣角度提出問題,因此有不一樣鑒別準(zhǔn)則,如馬氏距離最小準(zhǔn)則、Fisher準(zhǔn)則、平均損失最小準(zhǔn)則、最小平方準(zhǔn)則、最大似然準(zhǔn)則、最大約率準(zhǔn)則等等,按鑒別準(zhǔn)則不一樣又提出多種鑒別辦法。本章僅介紹常用幾個鑒別分析辦法:距離鑒別法、Bayes鑒別法。7/84*85.1距離鑒別5.1.1.兩個總體距離鑒別5.1.2.鑒別準(zhǔn)則評價5.1.3.多種總體距離鑒別8/841.馬氏距離概念

5.1.1.兩個總體距離鑒別歐氏距離即p維歐氏空間中兩點和之間平方距離度量為9/84圖5.1點離哪個總體“近某些”

設(shè)有兩個正態(tài)總體,

,

,目前有一種樣本位于如圖5.1所示

點,距總體中心遠(yuǎn),距總體中心遠(yuǎn),那么,

點處樣品到底離哪一種總體近呢?

10/84若按歐氏距離來度量,點離總體要比離總體“近某些”。不過,從概率論角度來看,點位于右側(cè)處,而位于左側(cè)處,應(yīng)當(dāng)以為點離總體“近某些”。顯然,后一種度量更合理些。11/8412/84為此,我們引進(jìn)一種由印度著名統(tǒng)計家馬哈拉諾比斯(Mahalanobis,1936年)提出“馬氏距離”概念。

13/842.馬氏距離

設(shè)x,y是從均值為μ,協(xié)方差矩陣為總體G中抽出兩個樣品,則總體內(nèi)兩點x與y之間馬氏距離定義為

定義點x到總體G馬氏距離為馬氏距離有如下某些特點:(1)馬氏距離不受變量單位影響,是一種無單位數(shù)值。14/84(2)馬氏距離滿足距離三性質(zhì):(3)馬氏距離是x和y經(jīng)“標(biāo)準(zhǔn)化”之后歐氏距離。令則有于是

當(dāng)且僅當(dāng)x=y,d(x,y)=0(4)若,則15/84*163.兩個總體距離鑒別準(zhǔn)則:

設(shè)G1,G2是兩個不一樣p維總體,均值分別為μ1,μ2,協(xié)方差矩陣分別是Σ1,Σ2,設(shè)x=(x1,…,xp)T是待判樣品,距離鑒別準(zhǔn)則為即當(dāng)x到G1馬氏距離不超出x到G2馬氏距離時,判定x來自G1;反之,判定x來自G2討論協(xié)方差矩陣相等時合理性!16/84*17

由似然比準(zhǔn)則,將x判歸在該樣品觀測值處其概率密度較大那個總體,即有下列鑒別準(zhǔn)則設(shè)G1~N(μ1,Σ),G2~N(μ1,Σ),G1,G2密度函數(shù)分別為17/84*18而“f1(x)/f2(x)≥1”等價于

(x-μ1)TΣ-1(x-μ1)≤(x-μ2)TΣ-1(x-μ2)即d(x,G1)≤d

(x,G2)1.時鑒別考慮x到兩總體馬氏平方距離差:18/84記a1=Σ-1μ1,b1=-1/2μ1TΣ-1μ1,a2=Σ-1μ2,b2=-1/2μ2TΣ-1μ2,且設(shè)則19/84

其中是兩個組均值平均值,令

則有

稱W1(x),W2(x),W(x)為線性鑒別函數(shù),a稱為鑒別系數(shù),W(x)=W1(x)-W2(x).則鑒別規(guī)則可表述為

20/84尤其地,當(dāng)p=1時,若兩個總體分別為和則鑒別函數(shù)為,其中不妨設(shè)則符號取決于還是因此鑒別規(guī)則可寫成:21/84我們看到用距離鑒別所得到準(zhǔn)則是頗為合理,但用這個鑒別法有時會錯判。如來自,但卻落入,被判為屬,錯判概率為圖中陰影部分面積,記為,類似地有顯然,。

22/84*23

在實際應(yīng)用中,總體均值μ1,μ2和協(xié)方差矩陣Σ一般是未知,只有來自總體樣本觀測值——訓(xùn)練樣本;此時需要根據(jù)搜集到樣本資料對參數(shù)作出估計,然后將其對應(yīng)估計值代入線性鑒別函數(shù)中用來自G1和G2訓(xùn)練樣本

均值和協(xié)方差

估計總體均值和方差.

23/84*24兩個訓(xùn)練樣本協(xié)方差矩陣各為

一種聯(lián)合無偏估計為24/84*25兩個總體距離鑒別規(guī)則為

兩組距離鑒別鑒別函數(shù)分別為

這里

25/84例1

在公司考評中,能夠根據(jù)公司生產(chǎn)經(jīng)營情況把公司分為優(yōu)秀公司和一般公司??荚u公司經(jīng)營情況指標(biāo)有:資金利潤率=利潤總額/資金占用總額勞動生產(chǎn)率=總產(chǎn)值/職員平均人數(shù)產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值三個指標(biāo)均值向量和協(xié)方差矩陣如下。現(xiàn)有二個公司,觀測值分別為(7.8,39.1,9.6)和(8.1,34.2,6.9),問這兩個公司應(yīng)當(dāng)屬于哪一類?變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤率13.55.468.3940.2421.41

勞動生產(chǎn)率40.729.840.2454.5811.67

產(chǎn)品凈值率10.76.221.4111.677.9026/84解:先求27/84線性鑒別函數(shù):鑒別準(zhǔn)則:28/84故屬于優(yōu)秀公司故屬于一般公司29/84某公司生產(chǎn)新式大衣,將新產(chǎn)品樣品分寄給九個都市百貨公司進(jìn)貨員,并附寄調(diào)查意見表征求對新產(chǎn)品評價,評價分質(zhì)量、款式、顏色三個方面,以十分制評分。成果五位喜歡,四位不喜歡。評價表如下:例2兩類鑒別在市場分析中應(yīng)用產(chǎn)品特性質(zhì)量

款式

顏色

喜歡組1234589.5798.5678.09107.58.586.57不喜歡組1234

635.5343.542535430/84(1)先求兩類樣本均值31/84(2)計算樣本協(xié)方差矩陣,從而求出及32/84(3)求線性鑒別函數(shù)33/84樣品鑒別函數(shù)值原類號判歸類別1234523.8422.7114.5723.5210.6911111111116789-13.09-21.24-25.36-16.5822222222(4)對已知類別樣品鑒別歸類對已知類別樣品(一般稱為訓(xùn)練樣本)用線性鑒別函數(shù)進(jìn)行鑒別歸類回代率為百之百,所有判對。34/84(5)看待判樣品鑒別歸類假如有一潛在顧客,他對新產(chǎn)品質(zhì)量、款式、顏色評價值為分別為6、8、8,則該顧客喜歡這款大衣嗎?故他屬喜歡組35/84設(shè)兩個總體G1和G2協(xié)方差陣為Σ1和Σ2

,所有參數(shù)均已知,這時就直接用樣品到總體馬氏平方距離來鑒別,即令2.時鑒別其鑒別規(guī)則為

36/84*37

在實際應(yīng)用中,總體均值μ1,μ2和協(xié)方差矩陣Σ1Σ2一般是未知,可用總體訓(xùn)練樣本作估計,即分別用估計μ1,μ2,以估計Σ1Σ2,得估計其鑒別規(guī)則為

37/84*38

5.1.2.鑒別準(zhǔn)則評價一種鑒別準(zhǔn)則,一般會將本屬于總體G1誤判給G2,或相反;需要理解誤判發(fā)生也許性大小。設(shè)G1和G2分別是兩個一維正態(tài)總體且對于新樣品x,鑒別準(zhǔn)則為雖然x≤1/2(μ1+μ2),x仍也許屬于G2,其概率為38/84*39雖然x>1/2(μ1+μ2),x仍也許屬于G1,其概率為但按如上鑒別準(zhǔn)則,卻判x∈G1,因此p(1|2)是將真正屬于G2樣品誤判為屬于G1概率但按如上鑒別準(zhǔn)則,卻判x∈G2,因此p(2|1)是將真正屬于G1樣品誤判為屬于G2概率在一定準(zhǔn)則下,將一種樣品判錯概率稱為該鑒別準(zhǔn)則誤判概率,簡稱誤判率39/84*40設(shè)兩個總體G1和G2,對于鑒別準(zhǔn)則R,以P(j|i,R)(i≠j)表達(dá)在鑒別準(zhǔn)則R下將屬于Gi樣品誤判為屬于Gj條件概率,以pi(i=1,2)表達(dá)一種樣品屬于Gi(i=1,2)概率。設(shè)x為任同樣品,則由全概率公式,鑒別準(zhǔn)則R誤判概率為p*=P(將x判錯)=P(x∈G1,但判x∈G2)+P(x∈G2,但判x∈G1)=P(x∈G1)P(判x∈G2|x∈G1)+P(x∈G2)P(判x∈G1|x∈G2)=p1P(2|1,R)+p2P(1|2,R)誤判概率大小為評價鑒別準(zhǔn)則優(yōu)劣標(biāo)準(zhǔn)40/84*41實用中,把一部分?jǐn)?shù)據(jù)作為訓(xùn)練樣本,估計出相應(yīng)均值和協(xié)方差,再對誤判率做估計:回代估計法和交叉確認(rèn)估計法(1)回代估計法設(shè)兩個總體G1和G2樣本逐一回代已建立鑒別準(zhǔn)則中鑒別其歸屬,稱為回判。其中nij是將屬于Gi誤判為屬于Gj個數(shù)

G1

回判情況G2實際G1歸類G2n11n12n21n2241/84*42誤判率回代估計為往往比真實誤判率小!(2)誤判率交叉確認(rèn)估計法思想辦法:每次剔除訓(xùn)練樣本中一種樣品,利用其他容量為n1+n2-1訓(xùn)練樣本建立對應(yīng)鑒別準(zhǔn)則,再用所建立鑒別準(zhǔn)則對剔除樣品作鑒別,對每個樣品作上述分析,以其誤判百分比作為誤判概率估計42/84*43詳細(xì)步驟:(1)從G1中剔除一種樣品,利用其他容量為n1-1訓(xùn)練樣本和總體G2容量為n2訓(xùn)練樣本建立對應(yīng)鑒別函數(shù);(2)用建立鑒別函數(shù)對剔除樣品作鑒別;(3)反復(fù)上兩步,直到G1每個樣品都被剔除,又依次進(jìn)行鑒別,其誤判樣品個數(shù)記為(4)對總體G2反復(fù)上面3步,并記其誤判樣品個數(shù)記為,如下式子作為誤判率估計43/84三、鑒別分析實質(zhì)我們知道,判別分析就是希望利用已經(jīng)測得變量數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不一樣類別樣本點盡也許地區(qū)分開來。為了更清楚結(jié)識判別分析實質(zhì),以便能靈活應(yīng)用判別分析方法解決實際問題,我們有必要了解“劃分”這樣概念。設(shè)R1,R2,…,Rk是p維空間Rpk個子集,如果它們互不相交,且它們和集為Rp,則稱R1,R2,…,Rk為Rp一個劃分。44/84-10-505X1-10010X2雨區(qū)G1非雨區(qū)G2⊙45/84這樣我們將會發(fā)覺,鑒別分析問題實質(zhì)上就是在某種意義上,以最優(yōu)性質(zhì)對p維空間Rp構(gòu)造一種“劃分”,這個“劃分”就組成了一種鑒別規(guī)則。在兩個總體距離鑒別問題中,利用能夠得到空間Rp一種劃分新樣品X落入R1推斷X∈G1,落入R2推斷X∈G246/842鑒別分析在SAS中實現(xiàn)在SAS/ASSIST模塊中沒有現(xiàn)成菜單操作,須通過編程來實現(xiàn)鑒別分析。SAS/STAT模塊中實現(xiàn)鑒別分析過程有:

Discrim:實現(xiàn)最基本鑒別分析,建立鑒別函數(shù),執(zhí)行分類功能;Candisc:將鑒別分析與典型有關(guān)分析相結(jié)合,找出數(shù)值變量線性組合,此線性組合可用來強(qiáng)調(diào)各類別之間不一樣;Stepdisc:逐漸鑒別分析,是一種變量篩選過程,找出能反應(yīng)類間差異變量子集。47/84

SAS/STATDISCRIM過程能夠使用參數(shù)鑒別分析辦法和非參數(shù)鑒別分析辦法進(jìn)行鑒別分析。參數(shù)辦法假定每個類觀測來自(多元)正態(tài)分布總體,各類分布均值(中心)能夠不一樣。非參數(shù)辦法不要求懂得各類所來自總體分布,它對每一類使用非參數(shù)辦法估計該類分布密度,然后據(jù)此建立鑒別準(zhǔn)則。

參數(shù)辦法鑒別準(zhǔn)則為:先決定是使用合并協(xié)方差陣還是單個類協(xié)方差陣,計算x到各組廣義距離,把x判入近來組;或者計算x屬于各組后驗概率,把x判入后驗概率最大組。48/84SAS/STATDISCRIM過程一般格式如下:

PROCDISCRIMDATA=輸入數(shù)據(jù)集選項;

CLASS分類變量;

VAR鑒別用自變量集合;

RUN;

其中,PROCDISCRIM語句選項中“輸入數(shù)據(jù)集”為訓(xùn)練數(shù)據(jù)數(shù)據(jù)集,包括一種分類變量(在CLASS語句中說明)和用來建立鑒別公式自變量集合(在VAR語句中說明)49/84能夠用“TESTDATA=數(shù)據(jù)集”選項指定一種檢查數(shù)據(jù)集,檢查數(shù)據(jù)集必須包括與訓(xùn)練數(shù)據(jù)集相同自變量集合,用訓(xùn)練數(shù)據(jù)集產(chǎn)生鑒別準(zhǔn)則后將對檢查數(shù)據(jù)集中每一種觀測給出分類值,假如這個檢查數(shù)據(jù)集中有表達(dá)真實分類變量能夠在過程中用“TESTCLASS分類變量”語句指定,這樣能夠檢查鑒別效果如何。用“OUTSTAT=數(shù)據(jù)集”指定輸出鑒別函數(shù)數(shù)據(jù)集,背面能夠再次用DISCRIM過程把輸出鑒別函數(shù)作為輸入數(shù)據(jù)集(DATA=)讀入并用它來鑒別檢查數(shù)據(jù)集(TESTDATA=)。50/84用“OUT=數(shù)據(jù)集”指定寄存訓(xùn)練樣本及后驗概率、交叉確認(rèn)分類數(shù)據(jù)集。用“OUTD=數(shù)據(jù)集”指定訓(xùn)練樣本及組密度估計數(shù)據(jù)集。用“TESTOUT=數(shù)據(jù)集”指定檢查數(shù)據(jù)后驗概率及分類成果。用“TESTOUTD=數(shù)據(jù)集”輸出檢查數(shù)據(jù)及組密度估計。51/84PROCDISCRIM語句尚有某些指定鑒別分析辦法選項。用METHOD=NORMAL或NPAR選擇參數(shù)辦法或非參數(shù)辦法。用POOL=NO或TEST或YES表達(dá)不用合并協(xié)方差陣、通過檢查決定是否使用合并協(xié)方差陣、用合并協(xié)方差陣。假如使用非參數(shù)辦法,需要指定“R=核估計半徑”選項來要求核估計辦法或者指定“K=近來鄰個數(shù)”來要求近來鄰估計辦法。52/84PROCDISCRIM語句有某些要求顯示成果選項。用LISTERR顯示訓(xùn)練樣本錯判觀測。用CROSSLISTERR顯示用刀切法對訓(xùn)練樣本鑒別錯判觀測。用LIST對每一觀測顯示成果。用NOCLASSIFY取消對訓(xùn)練樣本分類檢查。用CROSSLIST顯示對訓(xùn)練樣本刀切法鑒別成果。用CROSSVALIDATE要求進(jìn)行交叉核實。53/84當(dāng)有用“TESTDATA=”指定檢查數(shù)據(jù)集時用TESTLIST選項顯示檢查數(shù)據(jù)集檢查成果,當(dāng)有TESTCLASS語句時用TESTLISTERR能夠列出檢查樣本判錯觀測,用POSTERR選項能夠打印基于分類成果分類準(zhǔn)則后驗概率錯誤率估計。用NOPRINT選項能夠取消成果顯示。54/84在DISCRIM過程中還能夠使用PRIORS語句指定先驗概率取法?!癙RIORSEQUAL”指定先驗概率相等?!癙RIORSPROPORTIONAL”指定先驗概率與各類個數(shù)成正比。“PRIORS概率值表”能夠直接指定各組先驗概率值。55/84Procdiscrimdata=SAS數(shù)據(jù)集testdata=SAS數(shù)據(jù)集out=SAS數(shù)據(jù)集testout=SAS數(shù)據(jù)集outstat=SAS數(shù)據(jù)集pool=yes/no;Class變量名;Var變量名;Run;SAS

程序DATA中說明類別變量分類根據(jù)變量二次鑒別函數(shù)線性鑒別函數(shù),可缺省DATA=已分類數(shù)據(jù)集TESTDATA=要分類數(shù)據(jù)集OUT=已分類數(shù)據(jù)回判成果TESTOUT=要分類數(shù)據(jù)鑒別成果OUTSTAT=已分類數(shù)據(jù)某些統(tǒng)計量56/84*57SAS系統(tǒng)procdiscrim過程可進(jìn)行距離鑒別.procdiscrim過程P274例5.1研究心肌梗塞危險原因.

考查兩個指標(biāo)X1:總膽固醇X2:高密度脂蛋白膽固醇.兩個總體G1:心肌梗塞組,G2:正常組,各取23人測得有關(guān)數(shù)據(jù)如表5.1,在兩總體協(xié)方差矩陣相等假定下,建立距離鑒別準(zhǔn)則,并對其中5個待判樣品作鑒別。57/84*58dataexamp5_1;

/*建立鑒別函數(shù)數(shù)據(jù)集*/inputgroup$x1x2@@;cards;G124538G123640G123838G123331G124035G123540G120438G120043G129738G120043G116633G114428G123342G114324G122834G126441G124033G118027G123638G116836G117428G121538G126828G217447G210652G217353G217843G219853G218048G213436G220463G216852G218059G217775G217251G216640G221042G216633G222373G213667G215645G220145G213460G219551G226262G218344;run;58/84*59datatest5_1;/*建立待分類數(shù)據(jù)集*/inputx1x2

@@;

cards;21322

28539

19342

20058

17152;

run;procdiscrimdata=examp5_1testdata=test5_1

pool=yes

method=normallisterrcrosslisterrtestlistwcovpcov;classgroup;varx1x2;priorsequal;run;data=examp5_1指定建立鑒別函數(shù)數(shù)據(jù)集testdata=test5_1指定檢查鑒別準(zhǔn)則數(shù)據(jù)集59/84*60pool=yes或no用于指定各總體協(xié)方差矩陣是不相等及鑒別函數(shù)是線性還是二次鑒別函數(shù);method=normal指定建立鑒別函數(shù)數(shù)據(jù)集method=normal指定建立鑒別函數(shù)辦法:用訓(xùn)練樣本估計各總體均值向量和協(xié)方差矩陣,并視各總體協(xié)方差矩陣是不相等而分別建立線性或二次鑒別函數(shù)。Listerr僅打印出回判中判錯樣品信息crosslisterr僅打印出交叉確認(rèn)中判錯樣品信息60/84*61Testlist列出對檢查數(shù)據(jù)集各樣品鑒別成果Wcov打印各總體組內(nèi)訓(xùn)練樣本協(xié)方差矩陣pcov打印各總體協(xié)方差矩陣所得聯(lián)合協(xié)方差矩陣估計。classgroup;描述各類別變量名稱必需語句varx1x2;列出參與分析描述各樣品特性變量名稱priorsequal;指出總體先驗概率相等61/84*62

Within-ClassCovarianceMatrices

組內(nèi)協(xié)方差矩陣group=G1,DF=22Variablex1x2x11588.513834100.207510x2100.20751030.521739-group=G2,DF=22Variablex1x2x11081.26877581.974308x281.974308121.719368PooledWithin-ClassCovarianceMatrix,聯(lián)合協(xié)方差矩陣Variablex1x2x11334.89130491.090909x291.09090976.12055362/84*63GeneralizedSquaredDistancetogroup馬氏平方距離FromgroupG1G2G106.46224G26.462240兩總體馬氏平方距離是反應(yīng)了兩個總體分離程度63/84*64LinearDiscriminantFunctionforgroup線性鑒別函數(shù)VariableG1G2Constant-20.64344-23.10490x10.142330.09389x20.294620.56963線性鑒別函數(shù)為:W1(x)=-20.6434+0.1423x1+0.2946x2W2(x)=-23.1049+0.0939x1+0.5696x2W(x)=2.4615+0.0484x1-0.275x264/84*65

ResubstitutionResultsusingLinearDiscriminantFunction回代法PosteriorProbabilityofMembershipingroup

From

ClassifiedObsgroup

intogroupG1G237G2G1*0.74710.252938G2G1*0.80640.1936ErrorCountEstimatesforgroupG1G2TotalRate0.00000.08700.0435誤判率Priors0.50000.5000將G2中37號38號誤判為G1,誤判率0.043565/84*66Cross-validation

ResultsusingLinearDiscriminantFunction交叉確認(rèn)代法PosteriorProbabilityofMembershipingroup

From

ClassifiedObsgroup

intogroupG1G237G2G1*0.78290.217138G2G1*0.87470.1253

ErrorCountEstimatesforgroupG1G2TotalRate0.00000.08700.0435誤判率Priors0.50000.5000將G2中37號38號誤判為G1,誤判率0.043566/84*67分類成果PosteriorProbabilityofMembershipingroupClassifiedObsintogroupG1G21G10.99880.00122G10.99610.00393G10.56450.43554G20.02180.97825G20.02780.9722第1,2,3樣品屬于G1;第4,5樣品屬于G267/84*68設(shè)k個總體G1,…,Gk均值和協(xié)方差分別為5.1.3.多種總體距離鑒別(近來者)計算新樣品x到各總體馬氏距離,比較這k個距離,判定x屬于其馬氏距離最小總體;若最小距離不止一種總體達(dá)成,則可將x判屬具有最小距離總體任選一種。68/84*69任兩個總體Gi,Gj,計算x到Gi,Gj馬氏平方距離差(1)總體協(xié)方差矩陣相等其中(1)總體協(xié)方差矩陣相等顯然有鑒別準(zhǔn)則:若總體Gj0滿足則69/84*70

在實際應(yīng)用中,總體均值μi,μj和協(xié)方差矩陣Σ一般是未知,利用各總體訓(xùn)練樣本作估計,然后將其對應(yīng)估計值代入線性鑒別函數(shù)中來自Gi和Gj訓(xùn)練樣本為

記70/84*71

一種聯(lián)合無偏估計為得鑒別函數(shù)Wj(x)估計為多總體距離鑒別規(guī)則為:若則71/842.總體協(xié)方差矩陣不全等

是二次鑒別函數(shù),得到多總體距離鑒別法則:若

計算x到總體Gj馬氏平方距離:j=1,2,…,k則實用中,用樣本數(shù)據(jù)估計出對應(yīng)均值和協(xié)方差.對于多總體距離鑒別,也可同兩個總體情況同樣給出誤判概率并有類似誤判率回代估計及交叉確認(rèn)估計辦法.(略)72/84*73例5.2考查健康人群(10人)、硬化癥患者(6人)和冠心病患者(4人)心電圖5個不一樣指標(biāo)值如表5.2.假定各總體協(xié)方差矩陣均相等,由此訓(xùn)練樣本建立距離鑒別準(zhǔn)則,并對其中兩個待判樣品什鑒別.

73/84*74dataexamp5_2;

/*建立鑒別函數(shù)數(shù)據(jù)集*/inputgroup$x1-x5@@;cards;g18.11261.0113.235.467.36

g19.36185.399.025.665.99g19.85249.5815.616.066.11

g12.55137.139.216.114.35g16.01231.3414.275.218.79

g19.64231.3813.034.888.53g14.11260.2514.725.3610.02

g18.90259.5111.464.919.79g17.71273.8416.015.158.79

g17.51303.5919.145.708.53g26.80308.9015.115.528.49

g28.68258.6914.024.797.16g25.67355.5415.134.979.43

g28.10476.697.385.3211.32g23.71316.1217.126.048.17

g25.37274.5716.754.989.67g35.22330.3418.194.969.61

g34.71331.4721.264.3013.72g34.71352.5020.795.0711.00

g33.36347.3117.904.6511.19;run;74/84*75datatest5_2;/*建立待分類數(shù)據(jù)集*/inputx1-x5@@;

cards;8.06231.0314.415.726.159.89409.4219.475.1910.49;

run;procdiscrimdata=examp5_2testdata=test5_2

pool=yes

method=normallisterrcrosslisterrtestlistwcovpcov;classgroup;varx1-x5;priorsequal;run;75/84*76pool=yes或no用于指定各總體協(xié)方差矩陣是不相等及鑒別函數(shù)是線性還是二次鑒別函數(shù);method=normal指定建立鑒別函數(shù)數(shù)據(jù)集method=normal指定建立鑒別函數(shù)辦法:用訓(xùn)練樣本估計各總體均值向量和協(xié)方差矩陣,并視各總體協(xié)方差矩陣是不相等而分別建立線性或二次鑒別函數(shù)。Listerr僅打印出回判中判錯樣品信息crosslisterr僅打印出交叉確認(rèn)中判錯樣品信息76/84*77Testlist列出對檢查數(shù)據(jù)集各樣品鑒別成果Wcov打印各總體組內(nèi)訓(xùn)練樣本協(xié)方差矩陣pcov打印各總體協(xié)方差矩陣所得聯(lián)合協(xié)方差矩陣估計。classgroup;描述各類別變量名稱必需語句varx1x2;列出參與分析描述各樣品特性變量名稱priorsequal;指出總體先驗概率相等77/84*78PooledWithin-ClassCovarianceMatrix,聯(lián)合協(xié)方差矩陣Variablex1x2x3x4x5x14.292931.9267-0.7090-0.29620.3057x23032.0035-2.1515-1.989960.9155x39.4004-0.00270.8872x40.1828-0.4325x52.898078/84*79GeneralizedSquaredDistancetogroup馬氏平方距離Fromgroupg1g2g3g108.46662

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論