應用多元統(tǒng)計ch5.1課件_第1頁
應用多元統(tǒng)計ch5.1課件_第2頁
應用多元統(tǒng)計ch5.1課件_第3頁
應用多元統(tǒng)計ch5.1課件_第4頁
應用多元統(tǒng)計ch5.1課件_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 第五章 判別分析 判別分析是用于判斷樣品所屬類型的一種統(tǒng)計分析方法. 在生產(chǎn)、科研和日常生活中經(jīng)常遇到如何根據(jù)觀測到的數(shù)據(jù)資料對所研究的對象進行判別歸類的問題. 例如:在醫(yī)學診斷中,一個病人肺部有陰影,醫(yī)生要判斷他是肺結核、肺部良性腫瘤還是肺癌.這里肺結核病人、良性瘤病人、肺癌病人組成三個總體,病人來源于這三個總體之一,判別分析的目的是通過測得病人的指標(陰影的大小,邊緣是否光滑,體溫多少)來判斷他應該屬哪個總體(即判斷他生什么病).1 在氣象學中,由氣象資料判斷明天是陰天還是晴天, 是有雨還是無雨. 在市場預測中,由調查資料判斷下季度(或下個月)產(chǎn)品是暢銷、平?;驕N. 股票持有者根據(jù)某種

2、股票近期的變化情況判斷此種股票價格下一周是上升還是下跌. 在環(huán)境科學中,由氣象條件,污染濃度等判斷該地區(qū)是屬嚴重污染,一般污染還是無污染. 在地質勘探中,由巖石標本的多種特征判斷地層的地質年代,是有礦還是無礦,是富礦還是貧礦. 在體育運動中,由運動員的多項運動指標來判定游泳運動員的苗子是適合練蛙泳,仰泳還是自由泳等 第五章 判別分析2 判別分析是應用性很強的一種多元統(tǒng)計方法,已滲透到各個領域.但不管是哪個領域,判別分析問題都可以這樣描述: 設有k個m維總體G1,G2,Gk,其分布特征已知(如已知分布函數(shù)分別為F1(x),F2(x),Fk(x),或知道來自各個總體的訓練樣本).對給定的一個新樣品

3、X,我們要判斷它來自哪個總體. 在進行判別歸類時,由假設的前提,判別的依據(jù)及處理的手法不同,可得出不同判別方法.如距離判別,Bayes判別,Fisher判別或典型判別,逐步判別,序貫判別等. 本章介紹幾個常用的判別方法. 第五章 判別分析35.1 距離判別法 距離判別的基本思想是: 樣品和哪個總體距離最近,就判它屬哪個總體. 距離判別也稱為直觀判別法. 我們在具體討論距離判別法之前,應給出合理的距離的定義.45.1 距離判別法 馬氏距離 已知有兩個類G1和G2,比如G1是設備A生產(chǎn)的產(chǎn)品,G2是設備B生產(chǎn)的同類產(chǎn)品.設備A的產(chǎn)品質量高(如考察指標為耐磨度X),其平均耐磨度1=80,反映設備精度

4、的方差2(1)=0.25;設備B的產(chǎn)品質量稍差,其平均耐磨度2=75,反映設備精度的方差2(2)=4.今有一產(chǎn)品X0,測得耐磨度x0=78,試判斷該產(chǎn)品是哪一臺設備生產(chǎn)的? 直觀地看, x0 與1(設備A)的絕對距離近些,按距離最近的原則是否應把該產(chǎn)品X0 判斷為設備A生產(chǎn)的?55.1 距離判別法 馬氏距離 設備B生產(chǎn)的產(chǎn)品質量較分散,出現(xiàn)x0為78的可能性仍較大; 而設備A生產(chǎn)的產(chǎn)品質量較集中,出現(xiàn)x0為78的可能性較小. 判X0為設備B的產(chǎn)品更合理. 這種相對于分散性的距離就是本節(jié)介紹的馬氏距離.75.1 距離判別法馬氏距離 一般地,我們假設G1的分布為N(1),21),G2的分布為 N(

5、2),22),則利用相對距離的定義,可以找出分界點*(不妨設 (2)(1),當(2)x(1)時,令而按這種距離最近的判別準則為:85.1 距離判別法 馬氏距離 定義5.1.1(馬氏距離) 設總體G為m維總體(考察m個指標),均值向量為=(1,2 , ,m),協(xié)方差陣為=(ij),則樣品X=(x1,x2,xm)與總體G的馬氏距離定義為105.1 距離判別法 多總體樣本特征量 設有k個總體Gi(i=1,k),已知來自Gi (i=1,.,k) 的訓練樣本為:其中ni是取自Gi的樣品個數(shù),則均值向量i的估計量為115.1 距離判別法 多總體樣本特征量 總體Gi的協(xié)方差陣i的估計Si為并稱St為組內協(xié)差

6、陣.稱為組內離差陣,125.1 距離判別法 兩總體判別:1=2 時的判別方法 最直觀的想法是分別計算樣品X到兩個總體的距離d21(X)和d22(X) (或記為d2(X,G1)和d2(X,G2) ),并按距離最近準則判別歸類,即判別準則為: 判X G1 , 當d2(X,G1) d2(X,G2)時, 待判, 當d2(X,G1) = d2(X,G2)時. 這里的距離指馬氏距離.利用馬氏距離的定義及兩總體協(xié)差陣相等的假設,可以簡化馬氏距離的計算公式.145.1 距離判別法 兩總體判別: 1=2 時的判別方法 對給定樣品X,為比較X到各總體的馬氏距離,只須計算Yi(X ) :155.1 距離判別法兩總體

7、判別: 1=2 時的判別方法若考察這兩個馬氏距離之差,經(jīng)計算可得: 175.1 距離判別法兩總體判別: 1=2 時的判別方法即185.1 距離判別法兩總體判別: 1=2 時的判別方法則判別準則還可以寫為: 判XG1, 當W(X)0時, 判XG2, 當W(X)0時 待判, 當W(X)=0時. W(X)是X的線性函數(shù),即 W(X)=a(X-X*) =Y1(X)-Y2(X) ,其中a=S-1(X(1) - X(2) ),W(X)也稱為線性判別函數(shù),a為判別系數(shù).195.1 距離判別法 兩總體判別: 1=2 時的判別方法 W(X)把m維空間Rm劃分為叁部分: D1=X:W(X)0, D2 =X:W(X

8、)0, D0=X:W(X)=0.則D1 , D2 , D0 是Rm的一個劃分. 顯然,判別方法的最終結果是得到Rm中的一 個劃分.由判別函數(shù)W(X)得到劃分D1 , D2 , D0 當樣品X落入D1 時判XG1, 當樣品X落入D2時,判XG2 , 當樣品X落入D0時, 待判205.1 距離判別法 兩總體判別: 1=2 時的判別方法 例如m=2時,直線W(X)=0把平面分為兩個區(qū)域D1,和D2. W(X)=0D1=X =(x1 , x2 ) :W(X)0D2 =X =(x1 , x2 ) :W(X)0時, 或者 判XG2, 當W(X)0時, 待判, 當W(X)=0時. 判XG2, 當W(X)0時

9、.255.1 距離判別法 兩總體判別: 12 時的判別方法分界點*把區(qū)間(2,1)分為兩部分: D1=1 x *和 D2=2 x*時, 判XG2, 當2 x*時, 275.1 距離判別法 應用例子5.1.1 解一 A盆地和B盆地看作兩個不同的總體,并假定兩總體協(xié)差陣相等.本例中變量個數(shù)m=4, 兩類總體各有5個訓練樣品(n1= n2=5),另有8個待判樣品. 用SAS/STAT軟件中的DISCRIM過程進行判別歸類. (1)首先用DATA步生成SAS數(shù)據(jù)集D511. SAS程序如下:285.1 距離判別法 應用例子5.1.1 data d511; input x1-x4 group $; ca

10、rds;13.85 2.79 7.80 49.60 A22.31 4.67 12.31 47.80 A28.82 4.63 16.18 62.15 A15.29 3.54 7.50 43.20 A28.79 4.90 16.12 58.10 A 2.18 1.06 1.22 20.60 B 3.85 0.80 4.06 47.10 B11.40 0.00 3.50 0.00 B 3.66 2.42 2.14 15.10 B12.10 0.00 5.68 0.00 B 8.85 3.38 5.17 26.10 .28.60 2.40 1.20 127.0 .20.70 6.70 7.60 30.

11、20 . 7.90 2.40 4.30 33.20 . 3.19 3.20 1.43 9.90 .12.40 5.10 4.43 24.60 .16.80 3.40 2.31 31.30 .15.00 2.70 5.02 64.00 .;proc print data=d511;run;29(2) 調用DISCRIM過程對含鉀和不含鉀的A、B兩類盆地的10個樣品特征測量值用距離判別的方法,建立線性判別函數(shù),并對已知類別的樣品和待判樣品進行判別歸類.proc discrim data=d511 simple wcov pcov wsscp psscp distance list; class g

12、roup; var x1-x4; run;5.1 距離判別法 應用例子5.1.130方法2:data ds511; input x1-x4 group $; cards;13.85 2.79 7.80 49.60 A22.31 4.67 12.31 47.80 A28.82 4.63 16.18 62.15 A15.29 3.54 7.50 43.20 A28.79 4.90 16.12 58.10 A 2.18 1.06 1.22 20.60 B 3.85 0.80 4.06 47.10 B11.40 0.00 3.50 0.00 B 3.66 2.42 2.14 15.10 B12.10 0.00 5.68 0.00 B;5.1 距離判別法 應用例子5.1.131data d511test; input x1-x4 group $; cards; 8.85 3.38 5.17 26.10 .28.60 2.40 1.20 127.0 .20.70 6.70 7.60 30.20 . 7.90 2.40 4.30 33.20 . 3.19 3.20 1.43 9.90 .12.40 5.10 4.43 24

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論