統(tǒng)計(jì)軟件課程設(shè)計(jì)_第1頁
統(tǒng)計(jì)軟件課程設(shè)計(jì)_第2頁
統(tǒng)計(jì)軟件課程設(shè)計(jì)_第3頁
統(tǒng)計(jì)軟件課程設(shè)計(jì)_第4頁
統(tǒng)計(jì)軟件課程設(shè)計(jì)_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、東北大學(xué)秦皇島分校統(tǒng)計(jì)軟件課程設(shè)計(jì)報告鳶尾花亞屬類型的判別分析學(xué) 院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院專 業(yè)學(xué) 號5122121姓 名殷曉娟指導(dǎo)教師馬世美 張子選成 績教師評語:指導(dǎo)教師簽字: 2014年7月6日 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院課程設(shè)計(jì)報告 第 11 頁1 緒 論1.1 課題的背景鳶尾花為法國的國花,是一類具有較高觀賞價值的多年生草本植物。鳶尾屬花卉屬于鳶尾科,setosa、versicolor和virginica是三種有名的鳶尾花。1935年,埃德加·安德森(EdgarAnderson)從加拿大加斯帕半島上的鳶尾屬花朵中提取的地理變異數(shù)據(jù)(Anderson,E.,1935),并在統(tǒng)計(jì)學(xué)上形成了一類多重

2、變量分析的Fisher鳶尾花數(shù)據(jù)集。每個樣本含有四個特征,它們分別是花萼和花瓣的長度和寬度,這些特征可被用作樣本的定量分析?;谶@四個特征的集合,羅納德·費(fèi)雪(RonaldAylmerFisher)作為判別分析的一個例子,發(fā)展了一個線性判別分析以確定其屬種(Fisher,R.A,1936)。由此,該數(shù)據(jù)集被廣泛運(yùn)用到統(tǒng)計(jì)學(xué)中。1.2 SAS簡介SAS(Statistics Analysis System)是世界上最著名的統(tǒng)計(jì)分析系統(tǒng)之一,具有完備的數(shù)據(jù)訪問、管理、分析和呈現(xiàn)功能,被譽(yù)為國際標(biāo)準(zhǔn)統(tǒng)計(jì)分析系統(tǒng)。1966年它最初由美國北卡羅萊納州立大學(xué)(North

3、60;Carolina State University)的兩位生物統(tǒng)計(jì)學(xué)研究生編制而成。1976年正式成立SAS軟件研究所,開始SAS系統(tǒng)的開發(fā)、維護(hù)、銷售和培訓(xùn)工作,真正實(shí)現(xiàn)了這一軟件的商業(yè)化。SAS內(nèi)含30余個模塊,功能上覆蓋了包括醫(yī)藥、金融等各行各業(yè)數(shù)據(jù)管理和數(shù)據(jù)分析的各個應(yīng)用領(lǐng)域。就常見的統(tǒng)計(jì)分析任務(wù)而言備選的一個專門模塊是SAS/STAT。它主要包括:方差分析、回歸分析、屬性數(shù)據(jù)分析、非參數(shù)分析、多變量分析、判別分析、聚類分析、生存分析、得分方法等近70個過程,從而組成了一個龐大而完整的統(tǒng)計(jì)方法集2。1.3 判別分析法簡述 判別分析是用于判斷樣品所屬類型的一種統(tǒng)

4、計(jì)分析方法。在生產(chǎn)、科研和日常生活中經(jīng)常遇到如何根據(jù)觀測到的數(shù)據(jù)資料對所研究的對象進(jìn)行判別歸類的問題。判別分析是應(yīng)用性很強(qiáng)的一種多元統(tǒng)計(jì)方法,已滲透到各個領(lǐng)域。常用的判別分析方法有距離判別法、貝葉斯判別法和費(fèi)希爾判別法。1.3.1 距離判別法 馬氏距離:設(shè)總體G為m維總體(考察m個指標(biāo)),均值向量為,協(xié)方差陣為=(ij),則樣品X=(x1,x2,xm)與總體G的馬氏距離定義為 分別計(jì)算樣品X到兩個總體的距離d21(X)和d22(X) (或記為d2(X,G1)和d2(X,G2) ),并按距離最近準(zhǔn)則判別歸類,即判別準(zhǔn)則為:判X G1 , 當(dāng)d2(X,G1) < d2(X,G2) 時; 判X

5、 G2 , 當(dāng)d2(X,G1) > d2(X,G2)時;待判, 當(dāng)d2(X,G1) = d2(X,G2)時。1.3.2 貝葉斯判別法貝葉斯的統(tǒng)計(jì)思想總是假定對所研究的對象已有一定的認(rèn)識,常用先驗(yàn)概率分布來描述這種認(rèn)識 .然后我們抽取一個樣本,用樣本來修正已有的認(rèn)識(先驗(yàn)概率分布),得到后驗(yàn)概率分布。各種統(tǒng)計(jì)推斷都通過后驗(yàn)概率分布來進(jìn)行.將貝葉斯思想用于判別分析就得到貝葉斯判別法。貝葉斯判別準(zhǔn)則主要有兩種:1按后驗(yàn)概率最大進(jìn)行歸類:X屬于第t組的后驗(yàn)概率為 在正態(tài)假設(shè)下按后驗(yàn)概率最大進(jìn)行歸類的準(zhǔn)則,等價于按廣義平方距離最小準(zhǔn)則進(jìn)行歸類。2按錯判平均損失最小進(jìn)行歸類:設(shè)有k個總體: ,已知的

6、聯(lián)合密度函數(shù)為,先驗(yàn)概率為(i=1,k),錯判損失為L(j|i)。則貝葉斯判別的解為:,其中1.3.3 費(fèi)希爾判別法費(fèi)希爾判別的基本思想是投影.將k組m維數(shù)據(jù)投影到某一個方向,使得投影后組與組之間盡可能地分開。而衡量組與組之間是否分開的方法借助于一元方差分析的思想,利用方差分析的思想來導(dǎo)出判別函數(shù)。費(fèi)希爾判別準(zhǔn)則下線性判別函數(shù)u(X)=a'X的解a為特征方程的最大特征根所對應(yīng)的滿足的特征向量l1;且相應(yīng)的判別效率()=1。1.4 課題研究目的依據(jù)鳶尾花亞屬中典型個體的不同性狀特征(花萼和花瓣的長度和寬度),對未知鳶尾花個體進(jìn)行所屬類型的判別分析,以探究距離判別法在鳶尾屬的分類中應(yīng)用。2

7、鳶尾花亞屬類型的判別分析2.1 判別分析過程各取setosa、versicolor和virginica三種鳶尾花各45個,通過三種判別分析法分別建立判別準(zhǔn)則,然后對剩余的15個研究對象進(jìn)行判別歸類, 數(shù)據(jù)見參考文獻(xiàn)3。2.1.1 距離判別法的實(shí)現(xiàn)data dywh; input x1-x4 group $; cards;0.2Iris-setosa4.93.01.40.2Iris-setosa0.2Iris-setosa .4.83.0.73.0.32.55.03

8、.0...5.0.5.73.0.12.53.03.0..0.2.options ps=60 ls=75;proc print data=dywh;run;proc discrim data=dywh simple wcov pcov wsscp psscp distance list; class group; var x1-x4;run;2.1.2 貝葉斯判別法的實(shí)現(xiàn)data dywh; input x1-

9、x4 group $; cards;0.2Iris-setosa4.93.01.40.2Iris-setosa0.2Iris-setosa .4.83.0.73.0.32.55.03.0...5.0.5.73.0.12.53.03.0..0.2.proc discrim data

10、=dywh pool=no distance list; class group;* priors '1'=0.33333 '2'=0.33333 '3'=0.33333; var x1-x4;run;quit;2.1.3 費(fèi)希爾判別法的實(shí)現(xiàn)data dywh; input x1-x4 group $; cards;0.2Iris-setosa4.93.01.40.2Iris-setosa0.2Iris-setosa .4.83.0.73.05.

11、2.55.03.0...5.0.5.73.0.12.53.03.0..0.2.proc candisc data=dywh out=canywh1 ncan=2 distance simple; class group; var x1-x4;run;goptions ftext='宋體'symbol1 cv=red v=square h=2;symbol2 cv=

12、blue v=star h=2;symbol3 cv=green v=dot h=2;proc gplot data=canywh1; plot can2*can1 = group;run;proc print data=canywh1;run;proc discrim data=canywh1 distance list; class group; var can1 can2;run;proc discrim data=canywh1 pool=test distance list; class group; var can1 can2;run;quit;2.2 判別結(jié)果分析2.2.1 距離

13、判別法結(jié)果分析1合并樣本組內(nèi)離差陣和合并樣本協(xié)方差陣 Pooled Within-Class SSCP MatrixVariable x1 x2 x3 x4 x1 36.91333333 13.27444444 22.80244444 5.31577778 x2 13.27444444 16.00311111 7.53333333 4.75155556 x3 22.80244444 7.53333333 24.65911111 5.91200000 x4 5.31577778 4.75155556 5.91200000 5.87288889 Pooled Within-Class Covari

14、ance Matrix, DF = 132Variable x1 x2 x3 x4 x1 0.2796464646 0.1005639731 0.1727457912 0.0402710438 x2 0.1005639731 0.1212356902 0.0570707071 0.0359966330 x3 0.1727457912 0.0570707071 0.1868114478 0.0447878788 x4 0.0402710438 0.0359966330 0.0447878788 0.044491582 產(chǎn)生的合并樣本協(xié)方差陣用來計(jì)算馬氏距離。2三個亞屬間的馬氏距離Squared

15、Distance to groupFrom group Iris-set Iris-ver Iris-virIris-set 0 88.70237 175.34029 Iris-ver 88.70237 0 16.30151 Iris-vir 175.34029 16.30151 0從表中可以得出setosa和versicolor的馬氏距離為88.70237,setosa和virginica的馬氏距離為175.34029,versicolor和virginica的馬氏距離為16.30151。3線性判別函數(shù)的建立Linear Discriminant Function for groupVari

16、able Iris-set Iris-ver Iris-virConstant -79.15786 -68.87393 -99.95391x1 21.36109 14.16542 10.97183x2 22.51153 6.31900 3.16207x3 -14.65479 6.66409 14.40262x4 -17.25156 5.37554 18.46390 從表中可得線性判別函數(shù)為:4判別歸類結(jié)果From ClassifiedObs group into group Iris-set Iris-ver Iris-vir136 Iris-set * 1.0000 0.0000 0.000

17、0137 Iris-ver * 0.0000 0.9999 0.0001138 Iris-set * 1.0000 0.0000 0.0000139 Iris-vir * 0.0000 0.0002 0.9998140 Iris-vir * 0.0000 0.0113 0.9887141 Iris-vir * 0.0000 0.0060 0.9940142 Iris-set * 1.0000 0.0000 0.0000143 Iris-ver * 0.0000 0.9999 0.0001144 Iris-set * 1.0000 0.0000 0.0000145 Iris-set * 1.00

18、00 0.0000 0.0000146 Iris-ver * 0.0000 1.0000 0.0000147 Iris-ver * 0.0000 1.0000 0.0000148 Iris-vir * 0.0000 0.0258 0.9742149 Iris-vir * 0.0000 0.0000 1.0000150 Iris-set * 1.0000 0.0000 0.0000 回判結(jié)果給出來自三個亞屬的135個樣品中除第66,79和124外都判對了;對15個 待判樣品的判別結(jié)果為:第1,3,7,9,15五個鳶尾花為setosa,第2,8,10,11,12 五 個鳶尾花為versicolor

19、,第4,5,6,13,14五個鳶尾花為virginica。2.2.2 貝葉斯判別法結(jié)果分析1三個亞屬兩兩配對的組間廣義平方距離Generalized Squared Distance to groupFromgroup Iris-set Iris-ver Iris-virIris-set -12.78404 94.12685 149.85847Iris-ver 293.61733 -10.83147 4.06230Iris-vir 651.43513 5.79169 -8.86466 三個總體的協(xié)方差陣不等,故.2判別歸類結(jié)果From ClassifiedObs group into grou

20、p Iris-set Iris-ver Iris-vir136 Iris-set * 1.0000 0.0000 0.0000137 Iris-ver * 0.0000 0.9994 0.0006138 Iris-set * 1.0000 0.0000 0.0000139 Iris-vir * 0.0000 0.0000 1.0000140 Iris-vir * 0.0000 0.0004 0.9996141 Iris-vir * 0.0000 0.0022 0.9978142 Iris-set * 1.0000 0.0000 0.0000143 Iris-ver * 0.0000 0.999

21、9 0.0001144 Iris-set * 1.0000 0.0000 0.0000145 Iris-set * 1.0000 0.0000 0.0000146 Iris-ver * 0.0000 0.9995 0.0005147 Iris-ver * 0.0000 1.0000 0.0000148 Iris-vir * 0.0000 0.0965 0.9035149 Iris-vir * 0.0000 0.0000 1.0000150 Iris-set * 1.0000 0.0000 0.0000 回判結(jié)果給出來自三個亞屬的135個樣品中除第66,79和124外都判對了;對15個 待判樣品

22、的判別結(jié)果為:第1,3,7,9,15五個鳶尾花為setosa,第2,8,10,11,12 五 個鳶尾花為versicolor,第4,5,6,13,14五個鳶尾花為virginica。與距離判別法的判別 結(jié)果一致。 2.2.3 費(fèi)希爾判別法結(jié)果分析 1典型相關(guān)及兩個典型變量的A-1B的特征值 Adjusted Approximate SquaredCanonical Canonical Standard CanonicalCorrelation Correlation Error Correlation1 0.984544 0.984189 0.002650 0.9693262 0.451771

23、 0.440073 0.068756 0.204097Eigenvalues of Inv(E)*H = CanRsq/(1-CanRsq)Eigenvalue Difference Proportion Cumulative1 31.6009 31.3444 0.9920 0.99202 0.2564 0.0080 1.0000Likelihood ApproximateRatio F Value Num DF Den DF Pr > F1 0.02441355 174.15 8 258 <.00012 0.79590278 11.11 3 130 <.0001 首先從檢驗(yàn)

24、兩個典型變量的F統(tǒng)計(jì)量判別結(jié)果可以看出p值都小于顯著性水平所以這兩個典型變量存在顯著性差異,可以用來討論總體間的判別問題。 其次,從表中可以看出第一大特征值=31.6009的貢獻(xiàn)率達(dá)到99.20%,所以用地一個判別函數(shù)即可進(jìn)行很好的判斷了。 2Gplot生成的圖形圖2.1 費(fèi)希爾判別法Gplot生成圖由圖也可以看出第一個判別函數(shù)就已經(jīng)能很好的將這些點(diǎn)分類了,顯然第二個函數(shù)的區(qū)分度還很不夠。3判別歸類結(jié)果From ClassifiedObs group into group Iris-set Iris-ver Iris-vir136 ris-set * 1.0000 0.0000 0.00001

25、37 Iris-ver * 0.0000 0.9999 0.0001138 Iris-set * 1.0000 0.0000 0.0000139 Iris-vir * 0.0000 0.0002 0.9998140 Iris-vir * 0.0000 0.0113 0.9887141 Iris-vir * 0.0000 0.0060 0.9940142 Iris-set * 1.0000 0.0000 0.0000143 Iris-ver * 0.0000 0.9999 0.0001144 Iris-set * 1.0000 0.0000 0.0000145 Iris-set * 1.0000 0.0000 0.0000146 Iris-ver * 0.0000 1.0000 0.0000147 Iris-ver * 0.0000 1.0000 0.0000148 Iris-vir * 0.0000 0.0258 0.9742149 Iris-vir * 0.0000 0.0000 1.0000150 Iris-set

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論