實驗報告-判別分析(多元統(tǒng)計)_第1頁
實驗報告-判別分析(多元統(tǒng)計)_第2頁
實驗報告-判別分析(多元統(tǒng)計)_第3頁
實驗報告-判別分析(多元統(tǒng)計)_第4頁
實驗報告-判別分析(多元統(tǒng)計)_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

PAGEPAGE2實驗報告5判別分析(設計性實驗)(Discriminantanalysis)實驗原理:判別分析是判別樣品所屬類型的一種統(tǒng)計方法。判別分析是在已知研究對象分成若干類型(或組別)并已取得各種類型的一批已知樣品的觀測數(shù)目,在此基礎上根據(jù)某些準則建立判別式,然后對未知類型的樣品進行判別分類。本實驗要求學生應用距離判別準則(即,對任給的一次觀測,若它與第i類的重心距離最近,就認為它來自第i類),對兩總體和多總體情形下分別進行判別分析。實驗中需注意協(xié)方差矩陣相等時,選取線性判別函數(shù);協(xié)方差矩陣不相等時,應選取二次判別函數(shù)。實驗題目一:為了檢測潛在的血友病A攜帶者,下表中給出了兩組數(shù)據(jù):(t11a8)非攜帶者(∏1)被迫攜帶者(∏2)Groupx1x2Groupx1x21-0.0056-0.16572-0.34780.11511-0.1698-0.15852-0.3618-0.20081-0.3469-0.18792-0.4986-0.0861-0.08940.00642-0.5015-0.29841-0.16790.07132-0.13260.00971-0.08360.01062-0.6911-0.3391-0.1979-0.00052-0.36080.12371-0.07620.03922-0.4535-0.16821-0.1913-0.21232-0.3479-0.17211-0.1092-0.1192-0.35390.07221-0.5268-0.47732-0.4719-0.10791-0.08420.02482-0.361-0.03991-0.0225-0.0582-0.32260.16710.00840.07822-0.4319-0.06871-0.1827-0.11382-0.2734-0.00210.12370.2142-0.55730.05481-0.4702-0.30992-0.3755-0.18651-0.1519-0.06862-0.495-0.015310.0006-0.11532-0.5107-0.24831-0.2015-0.04982-0.16520.21321-0.1932-0.22932-0.2447-0.040710.15070.09332-0.4232-0.09981-0.1259-0.06692-0.23750.28761-0.1551-0.12322-0.22050.00461-0.1952-0.10072-0.2154-0.021910.02910.04422-0.34470.00971-0.228-0.1712-0.254-0.05731-0.0997-0.07332-0.3778-0.26821-0.1972-0.06072-0.4046-0.11621-0.0867-0.0562-0.06390.15692-0.3351-0.13682-0.01490.15392-0.03120.142-0.174-0.07762-0.14160.16422-0.15080.11372-0.09640.05312-0.26420.08672-0.02340.08042-0.33520.08752-0.18780.2512-0.17440.18922-0.4055-0.24182-0.24440.16142-0.47840.0282其中x1=log10(AHFactivity),x2=log10(AHFantigen)。下表給出了五個新的觀測,試對這些觀測判別歸類;(t11b8)觀測x1x21-.112-0.2792-.059-0.0683.0640.0124-.043-0.0525-.050-0.098實驗要求:(1)分別檢驗兩組數(shù)據(jù)是否大致滿足二元正態(tài)性;(2)分別計算兩組數(shù)據(jù)的協(xié)方差矩陣,是否可以認為兩者近似相等?(3)對訓練樣本和新觀測合并作散點圖,不同的類用不同顏色標識;(4)用lda函數(shù)做判別分析,即在協(xié)方差矩陣相等的情形下作判別分析;(5)用qda函數(shù)做判別分析,即在協(xié)方差矩陣不相等的情形下作判別分析;(6)比較方法(4)和方法(5)的誤判率。實驗題目二:某商學研究生院的招生官員利用指標――大學期間平均成績GPA和研究生管理能力考試GMAT的成績,將申請者分為三類:接受,不接受,待定。下表中給出了三類申請者的GPA與GMAT成績:(t11a6)GPA(x1)GMAT(x2)接受GPA(x1)GMAT(x2)不接受GPA(x1)GMAT(x2)待定2.9659612.5444622.8649433.1447312.4342522.8549633.2248212.247423.1441933.2952712.3653123.2837133.6950512.5754222.8944733.4669312.3540623.1531333.0362612.5141223.540233.1966312.5145822.8948533.6344712.3639922.844433.5958812.3648223.1341633.356312.6642023.0147133.455312.6841422.7949033.557212.4853322.8943133.7859112.4650922.9144633.4469212.6350422.7554633.4852812.4433622.7346733.4755212.1340823.1246333.3552012.4146923.0844033.3954312.5553823.0341933.2852312.315052350933.2153012.4148923.0343833.5856412.1941123.0539933.3356512.3532122.8548333.443112.639423.0145333.3860512.5552823.0341433.2666412.7239923.0444633.660912.8538123.3755912.938423.852113.7664613.244671實驗要求:(1)對上表中的數(shù)據(jù)作散點圖,不同的類用不同的顏色標識;(2)用lda函數(shù)做判別分析,即在協(xié)方差矩陣相等的情形下作判別分析;(3)用qda函數(shù)做判別分析,即在協(xié)方差矩陣不相等的情形下作判別分析;(4)比較方法(2)和方法(3)的誤判率;(5)現(xiàn)有一新申請者的GPA為3.21,GMAT成績?yōu)?97。請將該觀測在(1)的散點圖中標出,并分別用方法(2)和方法(3)將其歸類?你認為哪一種方法更合適?(6)觀察(1)的散點圖中第三類的觀測點有無異常值?若有,將該異常值剔除后再對新申請者判別歸類,結果有無變化?

實驗題目一分析報告:(1)分別檢驗兩組數(shù)據(jù)是否大致滿足二元正態(tài)性;>data1=read.csv("D:/data1.csv",head=T)>data2=read.csv("D:/data2.csv",head=T)>data1=data1[,-1]>data11=as.matrix(data1)>shapiro.test(data11) Shapiro-Wilknormalitytestdata:data11W=0.95354,p-value=0.02291非攜帶者數(shù)據(jù)滿足二元正態(tài)分布>data2=data2[,-1]>data22=as.matrix(data2)>shapiro.test(data22) Shapiro-Wilknormalitytestdata:data22W=0.98453,p-value=0.3643被迫攜帶者數(shù)據(jù)不滿足二元正態(tài)分布(2)分別計算兩組數(shù)據(jù)的協(xié)方差矩陣,是否可以認為兩者近似相等?>cov.data1=cov(data11)>cov.data2=cov(data22)>cov.data1整理得:0.0210.0160.0160.018>cov.data2整理得:0.0240.0150.0150.024以下對矩陣的相似性進行檢驗:>qr(cov.data1)$rank#計算矩陣的秩[1]2>qr(cov.data2)$rank[1]2>det(cov.data1)#計算矩陣的行列式的值[1]0.0001337663>det(cov.data2)[1]0.0003352181>eigen(cov.data1)#計算矩陣的特征值eigen()decomposition$`values`[1]0.0349948500.003822458$vectors[,1][,2][1,]-0.74010410.6724924[2,]-0.6724924-0.7401041>eigen(cov.data2)eigen()decomposition$`values`[1]0.0392861100.008532738$vectors[,1][,2][1,]0.7042124-0.7099894[2,]0.70998940.7042124由于兩個協(xié)方差矩陣的秩相同,行列式的值和特征值相差很小,可以認為兩者近似相等。(3)對訓練樣本和新觀測合并作散點圖,不同的類用不同顏色標識;用lda和qda判別新觀測數(shù)據(jù)的的類:>data3=read.csv("D:/data3.csv",head=T)>predict(data.lda,newdata=data3[,-1])$class[1]11111Levels:12>predict(data.qda,newdata=data3[,-1])$class[1]11111Levels:12兩種方法判別結果相同,即所有都是非攜帶者。>data4=read.csv("D:/data4.csv",head=T)#data4是訓練樣本和新觀測合并的數(shù)據(jù)>library(car)>scatterplotMatrix(~x1+x2|Group,data=data4,smooth=FALSE,reg.line=FALSE,ellipse=TRUE,levels=0.95,by.groups=TRUE,diagonal="none")

(4)用lda函數(shù)做判別分析,即在協(xié)方差矩陣相等的情形下作判別分析;>data=read.csv("D:/data.csv",head=T)>data.n=read.csv("D:/data3.csv",head=T)>data.n=data.n[,-1]>library(MASS)>data.lda=lda(data[,-1],factor(data$Group))#lda函數(shù)>data.ldaCall:lda(data[,-1],factor(data$Group))Priorprobabilitiesofgroups:120.40.6Groupmeans:x1x21-0.135-0.0782-0.308-0.006Coefficientsoflineardiscriminants:LD1x1-9.033x28.007>z2=predict(data.lda,dim=1)$class>table(z2)z2123342>c(3)/c(75)[1]0.04誤判率為0.04

(5)用qda函數(shù)做判別分析,即在協(xié)方差矩陣不相等的情形下作判別分析;>data.qda=qda(data[,-1],factor(data$Group))#qda函數(shù)>data.qdaCall:qda(data[,-1],factor(data$Group))Priorprobabilitiesofgroups:120.40.6Groupmeans:x1x21-0.1348700-0.0778566672-0.3079467-0.005991111>q2=predict(data.qda,dim=1)$class>table(q2)q2123144>c(1)/c(75)[1]0.01333333誤判率約為0.013(6)比較方法(4)和方法(5)的誤判率。此題中qda方法的誤判率更低。

實驗題目二分析報告:(1)對上表中的數(shù)據(jù)作散點圖,不同的類用不同的顏色標識;>data=read.csv("D:/data.csv",head=T)>head(data)GPAGMATaccept12.96596123.14473133.22482143.29527153.69505163.466931>library(car)>scatterplotMatrix(~GPA+GMAT|accept,data=data,smooth=FALSE,reg.line=FALSE,ellipse=TRUE,levels=0.95,by.groups=TRUE,diagonal="none")

(2)用lda函數(shù)做判別分析,即在協(xié)方差矩陣相等的情形下作判別分析;先計算原數(shù)據(jù)的各種類個數(shù):>sum(data$accept==1)[1]31>sum(data$accept==2)[1]28>sum(data$accept==3)[1]26>library(MASS)>data.lda=lda(data[,-3],factor(data$accept))>data.ldaCall:lda(data[,-3],factor(data$accept))Priorprobabilitiesofgroups:1230.36470590.32941180.3058824Groupmeans:GPAGMAT13.404561.22622.483447.07132.993446.231Coefficientsoflineardiscriminants:LD1LD2GPA-5.0091.877GMAT-0.009-0.014Proportionoftrace:LD1LD20

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論