版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
劉文/p>
應(yīng)用概率統(tǒng)計
課程內(nèi)容(針對教材)概率論基礎(chǔ)回顧與R統(tǒng)計軟件【熟悉】數(shù)理統(tǒng)計基本概念與抽樣分布【掌握】參數(shù)估計【掌握*】假設(shè)檢驗(yàn)【掌握*】含6.1非參數(shù)檢驗(yàn)回歸分析【掌握*】7.
方差分析與正交試驗(yàn)【掌握*】8.
多元統(tǒng)計分析【了解】課程目標(biāo)1.掌握數(shù)理統(tǒng)計的基本理論和具體方法2.結(jié)合R統(tǒng)計軟件應(yīng)用各種統(tǒng)計方法
3.提供一種解決實(shí)際問題的思路參考文獻(xiàn)1.教材:《應(yīng)用統(tǒng)計方法》,梁飛豹等編著,北京大學(xué)出版社2.高惠璇,統(tǒng)計計算,應(yīng)用多元統(tǒng)計分析,北京大學(xué)出版社3.薛毅,陳立萍,統(tǒng)計建模與R軟件,清華大學(xué)出版社4.吳喜之,復(fù)雜數(shù)據(jù)統(tǒng)計方法—基于R的應(yīng)用,中國人民大學(xué)出版社引例:生活中的問題1.彩票中獎能預(yù)測嗎?2.如果一對夫妻第一胎是女孩可再生一個小孩,但不能生育第三個小孩,這樣的政策是否會影響下一代男女比例?3.抽簽?zāi)筹嬃希淙萘渴欠衩黠@不合格?4.收入與學(xué)歷是否有關(guān)?近視與性別是否有關(guān)?5.能否預(yù)測今年第一次強(qiáng)冷空氣出現(xiàn)日期?6.紅樓夢后40回是否是高鶚續(xù)寫的?第一章概率論基礎(chǔ)及R軟件使用1、隨機(jī)事件及其概率2、一維隨機(jī)變量及分布3、多維隨機(jī)變量及分布4、數(shù)字特征5、大數(shù)定律及中心極限定理6、R軟件使用第一章概率論基礎(chǔ)布萊士·帕斯卡(1623-1662)雅各布·伯努利(?1654-1705)泊松(1781—1840)棣莫弗(1667-1754)拉普拉斯(1749-1827)高斯(1777-1855)第一章概率論基礎(chǔ)安德列·柯爾莫哥洛夫(1903-1987)1.1隨機(jī)事件及其概率樣本空間與隨機(jī)事件事件的概率條件概率與乘法公式事件的獨(dú)立性1.2隨機(jī)變量及其分布隨機(jī)變量及分布函數(shù)所謂隨機(jī)變量及其分布隨機(jī)變量函數(shù)的分布名稱概率分布數(shù)學(xué)期望方差兩點(diǎn)分布二項分布泊松分布正態(tài)分布均勻分布指數(shù)分布1.3隨機(jī)變量的數(shù)字特征數(shù)學(xué)期望方差協(xié)方差與相關(guān)系數(shù)多維隨機(jī)變量的數(shù)字特征多維隨機(jī)變量的數(shù)字特征多維隨機(jī)變量的數(shù)字特征1.4極限定理初步隨機(jī)變量序列的收斂性多維隨機(jī)變量的數(shù)字特征中心極限定理設(shè)X是n次獨(dú)立試驗(yàn)中事件A發(fā)生的次數(shù),p是事件A在每次試驗(yàn)中發(fā)生的概率,則對任給的ε>0,■伯努利大數(shù)定律1654-17051.4大數(shù)定律■切比雪夫大數(shù)定律設(shè){Xn}是兩兩不相關(guān)的隨機(jī)變量序列,它們的期望、方差均存在并且D(Xi)≤C,i=1,2,…,則對任意的ε>0,有1.4大數(shù)定律1821—18941.4大數(shù)定律設(shè){Xn}為獨(dú)立同分布隨機(jī)變量序列,若每個Xi的數(shù)學(xué)期望存在,即E(Xi)=μ,i=1,2,…,則{Xn}服從大數(shù)定律,即對任意的ε>0,有■辛欽大數(shù)定律(蘇)1894~19591.4中心極限定理設(shè)X1,X2,…是獨(dú)立同分布的隨機(jī)序列,且E(Xi)=,D(Xi)=,i=1,2,…,令■林德伯格-列維(獨(dú)立同分布)中心極限定理)則Yn的分布函數(shù)收斂到標(biāo)準(zhǔn)正態(tài)分布函數(shù),即當(dāng)n充分大時,n個具有期望和方差的獨(dú)立同分布的隨機(jī)變量之和近似服從正態(tài)分布.■棣莫弗-拉普拉斯(二項分布)中心極限定理設(shè)隨機(jī)變量 ,令則Yn的分布函數(shù)收斂到標(biāo)準(zhǔn)正態(tài)分布函數(shù),即棣莫弗1667-17541.4中心極限定理定理表明,當(dāng)n很大,0<p<1是一個定值時,服從二項分布的變量X近似服從正態(tài)分布N(np,np(1-p)).1.5R統(tǒng)計軟件
S語言(AT&TBell)RS-PlusRobertGentlemanRossIhaka奧克蘭大學(xué)MathSoft公司開源免費(fèi)…基本語法向量矩陣列表數(shù)據(jù)框與分布相關(guān)的函數(shù)數(shù)據(jù)的圖形表示1.5R統(tǒng)計軟件基本語法1.變量使用即定義:變量名區(qū)分大小寫,也可用中文命名變量賦值可采用4種形式:=,<-,->,assign()變量類型自動由變量賦值確定。a=10;b<-20;30->c;assign(“d”,40)中國=“中華人民共和國”#生成字符串變量2.注釋符號# 語句連接符;1.5R統(tǒng)計軟件3.查看幫助help(round)?abs向量向量的賦值(一維數(shù)組,下標(biāo)從1開始)a=c(d1,d2,d3,…)間隔為1的等差序列:a:b指定間隔的等差序列:seq(from,to,by)重復(fù)序列:rep(vec,times)
rep(vec,times,len,each)
a=c(3,5,8,10);b=1:10;c=seq(1,10,2);d=seq(-pi,pi,0.2)e=rep(a,3);f=rep(a,2,each=3)隨機(jī)向量rnorm(10)#10個服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù)1.5R統(tǒng)計軟件a=1:5a[2] #取出a中第二個元素a[c(2,4)]=c(4,8) #修改a中第2、4個元素分別為4、8a[-5] #扣除第5個元素取出來a=a[-c(1,3,5)]#去掉第1、3、5元素.a<3 #判斷a中元素是否小于3[1]TRUETRUEFALSEFALSEFALSEa[a<3] #取出a中小于3的元素2.向量的下標(biāo)運(yùn)算1.5R統(tǒng)計軟件matrix(data=NA,nrow=1,ncol=1,byrow=FALSE)
A=matrix(1:10,2,5)B=matrix(1:10,2,5,byrow=TRUE)#按行放置元素注意:默認(rèn)是按列放置元素[,1][,2][,3][,4][,5][1,]12345[2,]678910[,1][,2][,3][,4][,5][1,]13579[2,]246810
矩陣(二維數(shù)組)
1.5R統(tǒng)計軟件x=matrix(rnorm(24),4,6)#第2行第三列的元素x[2,4]#第1和第3列x[,c(1,3)]#除去第1、3列的數(shù)據(jù)
x[,-c(1,3)]
1.矩陣的元素訪問1.5R統(tǒng)計軟件2.矩陣的維數(shù)問題 dim(A)#獲得維數(shù),返回向量 nrow(A),ncol(A)#獲得行數(shù)和列數(shù)
rownames(A),colnames(A)#訪問各維名稱1.5R統(tǒng)計軟件3.矩陣運(yùn)算+,-,*,/分別是矩陣內(nèi)部元素的四則運(yùn)算向量矩陣間:向量按列匹配與矩陣運(yùn)算例如:A=matrix(1:6,nrow=3);B=matrix(10:15,nrow=3)C=c(100,200)則:A+BA*BA+C1117105210120413192270202105152136901032061.5R統(tǒng)計軟件A%*%B#乘法t(mat) #轉(zhuǎn)置det(mat) #行列式
solve(mat) #逆矩陣eigen(mat) #求特征值與特征向量cbind(A,B)#矩陣列拼合rbind(A,B)#矩陣行拼合
1.5R統(tǒng)計軟件列表列表是一種特殊的對象集合,各元素類型任意生成:list(name1=value1,…,namen=valuen)訪問/修改:對象名[[下標(biāo)]]或?qū)ο竺?nameistu=list(age=10,name=“Tom”,interests=c(“swimming”,”drawing”))stu[[2]]stu$namestu$name=“john”
names(stu)#得到所有的對象名1.5R統(tǒng)計軟件數(shù)據(jù)框是R的一種數(shù)據(jù)結(jié)構(gòu),以矩陣形式保存數(shù)據(jù)各列類型可以不同,每列為一變量,每行為樣品各列長度相等data.frame()stu=data.frame(name=c('Tom','Rose'),age=c(30,32))
names(stu)#得到所有的變量名colnames(stu) #列名rownames(stu)#得到行名x=as.data.frame(matrix(1:6,nrow=2))#矩陣轉(zhuǎn)化為數(shù)據(jù)框1.5R統(tǒng)計軟件數(shù)據(jù)框#從文件中獲取數(shù)據(jù)D1=read.table(“e:\\test1.txt”,header=TRUE)#從剪貼板中獲得文本數(shù)據(jù)D2=read.table(“clipboard”)#取出前兩行數(shù)據(jù)x[1:2,]#第一列的數(shù)據(jù)x[,1];#或x[[1]]1.5R統(tǒng)計軟件dnorm(x,mean=0,sd=1)#計算正態(tài)分布的密度函數(shù)pnorm(p,mean=0,sd=1)#計算正態(tài)分布的分布函數(shù)qnorm(q,mean=0,sd=1)#計算正態(tài)分布的分位數(shù)rnorm(n,mean=0,sd=1)#計算n個正態(tài)分布的隨機(jī)數(shù)其它分布的關(guān)鍵詞:unif,exp, chisq,t,f,binom, pois#得到參數(shù)為1的指數(shù)分布在2的密度函數(shù)值dexp(2,1)#產(chǎn)生5個均勻分布U(0,10)的隨機(jī)數(shù)runif(5,0,10)與分布相關(guān)的函數(shù)1.5R統(tǒng)計軟件數(shù)據(jù)的圖形表示1.5R統(tǒng)計軟件x=seq(-10,10,2);y=rnorm(11);plot(x,y)
plot(x,y,main="散點(diǎn)圖",xlab="橫坐標(biāo)x",ylab="縱坐標(biāo)y")plot(x,y,type="o",col="red",pch=2,lty=3)1.散點(diǎn)圖plot(x,y,…)type=“p”#散點(diǎn)圖,默認(rèn)type=“l(fā)’#繪實(shí)線type=“o”#實(shí)線通過所有的點(diǎn)type=“n”#不畫點(diǎn)參數(shù)lty表示線的類型0=blank,1=solid(default),2=dashed,3=dotted,4=dotdash,5=longdash,6=twodash
1.5R統(tǒng)計軟件低水平作圖函數(shù)有points(x=,y=) #增加點(diǎn)(x,y)lines(x=,y=)#增加(x,y)連成的線abline(a=,b=)#增加線y=a+bxtext(x=,y=,labels=)#增加文本legend(x,y=,legend,col)#增加標(biāo)注1.5R統(tǒng)計軟件1.5R統(tǒng)計軟件大數(shù)定律模擬mb=rep(0,400)for(iin1:400){x=rexp(50*i,0.5)mb[i]=mean(x)}plot(50*(1:400),mb,xlab="隨機(jī)數(shù)個數(shù)",ylab="平均值",col=rainbow(400))abline(h=2);1.5R統(tǒng)計軟件二項分布與正態(tài)分布的比較compare=function(N,p){plot(0:N,dbinom(0:N,N,p))x=seq(0,N,by=0.2);lines(x,dnorm(x,N*p,sqrt(N*p*(1-p))),col="red")}compare(30,0.2)第二章數(shù)理統(tǒng)計的基本概念與抽樣分布§2.1數(shù)理統(tǒng)計的基本概念§2.2經(jīng)驗(yàn)分布函數(shù)與直方圖§2.3統(tǒng)計中三個常見分布§2.4抽樣分布一個統(tǒng)計問題總有它明確的研究對象.■總體與樣本…研究某批燈泡的壽命研究對象的全體稱為總體,總體中每個成員稱為個體.總體2.1數(shù)理統(tǒng)計的基本概念為推斷總體分布及各種特征,隨機(jī)地從總體中抽取若干個體進(jìn)行觀察試驗(yàn),這一抽取過程稱為“抽樣”,所抽取的部分個體稱為樣本.樣本中所包含的個體數(shù)目稱為樣本容量.一旦取定一組樣本,得到的是n個數(shù)(x1,x2,…,xn),稱為樣本的一次觀察值,簡稱樣本觀測值.容量為n的樣本可以看作n維隨機(jī)變量(X1,X2,…,Xn)2.1數(shù)理統(tǒng)計的基本概念設(shè)X1,X2,…,Xn為總體X的一個容量為n的樣本。若它滿足獨(dú)立性,即X1,X2,…,Xn相互獨(dú)立;同分布性,即每個Xi都與總體X服從相同的分布.則稱這樣的樣本為簡單隨機(jī)樣本,簡稱為樣本。簡單隨機(jī)樣本2.1數(shù)理統(tǒng)計的基本概念總體、樣本、樣本值的關(guān)系總體(理論分布)?樣本樣本值統(tǒng)計是從手中已有的資料--樣本值,去推斷總體的情況---總體分布F(x)的性質(zhì).2.1數(shù)理統(tǒng)計的基本概念統(tǒng)計量設(shè)X1,X2,…,Xn是總體X的樣本,g(X1,X2,…,Xn)是樣本的實(shí)值函數(shù),且不包含任何未知參數(shù),則稱g(X1,X2,…,Xn)為統(tǒng)計量。2.1數(shù)理統(tǒng)計的基本概念樣本均值樣本方差常用統(tǒng)計量樣本k階原點(diǎn)矩樣本k階中心矩2.1數(shù)理統(tǒng)計的基本概念
2.1數(shù)理統(tǒng)計的基本概念樣本極差樣本中位數(shù)順序統(tǒng)計量將樣本按照其觀測值從小到大依次排序形成的有序變量稱為順序統(tǒng)計量。最小順序統(tǒng)計量 最大順序統(tǒng)計量R軟件中統(tǒng)計量的計算
mean(x) #樣本均值var(x);sd(x) #樣本方差和標(biāo)準(zhǔn)median(x)#樣本中位數(shù)range(x),min(x),max(x)#極差,最小,最大sort(x)#排序樣本
設(shè)X1,X2,…,Xn是取自總體X的樣本,對應(yīng)的次序統(tǒng)計量為X(1)
X(2)…X(n),當(dāng)給定次序統(tǒng)計量的觀測值x(1)
x(2)…x(n)時,對任意實(shí)數(shù)x,稱下面函數(shù)為總體X的經(jīng)驗(yàn)分布函數(shù)。經(jīng)驗(yàn)分布函數(shù)2.2經(jīng)驗(yàn)分布函數(shù)與直方圖
例1:從總體X中抽取容量為8的樣本,其觀測值為33,45,25,33,35,65,30,27。試求X的經(jīng)驗(yàn)分布函數(shù)。
解:將樣本觀測值由小到大排序得25<27<30<33=33<35<45<652.2經(jīng)驗(yàn)分布函數(shù)與直方圖2.2經(jīng)驗(yàn)分布函數(shù)與直方圖定理(Glivenko(格列文科)1933):設(shè)總體X的分布函數(shù)為F(x),經(jīng)驗(yàn)分布函數(shù)為Fn(x),則有
經(jīng)驗(yàn)分布函數(shù)圖形繪制n=c(20,50,100,500);x=seq(-4,4,0.2);op=par(mfrow=c(2,2));for(iin1:4){plot(x,pnorm(x),type='l',col='red',main=paste('n=',n[i]))xr=rnorm(n[i]);lines(ecdf(xr),verticals=T,do.points=FALSE)#畫經(jīng)驗(yàn)分布函數(shù)折線}par(op)2.2經(jīng)驗(yàn)分布函數(shù)與直方圖
直方圖某地區(qū)30名2000年某專業(yè)畢業(yè)實(shí)習(xí)生實(shí)習(xí)期滿后的月薪數(shù)據(jù)如下:9091091967123210961164108610711572950808971112010818257751224950999113091412031044866132013369921025871738頻數(shù)直方圖繪制:hist(X)2.2經(jīng)驗(yàn)分布函數(shù)與直方圖
2.2經(jīng)驗(yàn)分布函數(shù)與直方圖
hist(X,breaks=seq(700,1600,150))#改進(jìn)頻數(shù)直方圖,修改區(qū)間hist(Y,breaks=seq(700,1600,150),freq=F)#畫組距比例直方圖2.3統(tǒng)計中三個常見分布記為定義:設(shè)相互獨(dú)立,都服從正態(tài)分布N(0,1),則稱隨機(jī)變量:
所服從的分布為自由度為n
的分布的密度函數(shù)為來定義.其中伽瑪函數(shù)通過積分2.3統(tǒng)計中三個常見分布2.3統(tǒng)計中三個常見分布性質(zhì)1:獨(dú)立可加性性質(zhì)2:期望為n,方差為2n性質(zhì)3:n充分大時,近似服從正態(tài)分布N(n,2n)例1.設(shè)X1,X2,…,
Xn是來自總體N(μ,σ2)的簡單隨機(jī)樣本,求隨機(jī)變量2.3統(tǒng)計中三個常見分布2.3統(tǒng)計中三個常見分布T的密度函數(shù)為:記為T~t(n).
定義:設(shè)X~N(0,1),Y~,且X與Y相互獨(dú)立,則稱變量所服從的分布為自由度為n的t分布.2.t分布2.3統(tǒng)計中三個常見分布2.3統(tǒng)計中三個常見分布例2.設(shè)X1,X2,…,Xn是來自正態(tài)總體N(0,4)
的樣本,試問c=()統(tǒng)計量服從t分布?2.3統(tǒng)計中三個常見分布3.F分布服從自由度為n1及n2的F分布,n1稱為第一自由度,n2稱為第二自由度,記作F~F(n1,n2).定義:設(shè)X與Y相互獨(dú)立,則稱統(tǒng)計量2.3統(tǒng)計中三個常見分布2.3統(tǒng)計中三個常見分布F分布性質(zhì)1
若X~F(m,n),則1/X~F(n,m)F分布性質(zhì)2若X
~t(n),則X2~F(1,n)2.3統(tǒng)計中三個常見分布
例3.設(shè)X1,X2,…,Xn是來自正態(tài)總體N(0,1)
的樣本,試問c=()統(tǒng)計量服從F分布?■概率分布的分位點(diǎn)設(shè)隨機(jī)變量X的分布函數(shù)為F(x),α為給定的常數(shù),且0<α
<1.若存在xα,使2.3統(tǒng)計中三個常見分布則稱xα為隨機(jī)變量X關(guān)于α的上側(cè)分位點(diǎn)。常見分布的分位點(diǎn)標(biāo)準(zhǔn)正態(tài)分布卡方分布t(n)分布F(m,n)分布2.3統(tǒng)計中三個常見分布
分位點(diǎn)的性質(zhì)(1)(2)(3)2.3統(tǒng)計中三個常見分布R軟件中分位點(diǎn)的計算qnorm(p,mean,sd)qchisq(p,df)qt(p,df)qf(p,df1,df2)2.4抽樣分布定理1:設(shè)X1,X2,…,Xn是來自正態(tài)總體N(μ,σ2)的樣本,則定理2:設(shè)總體 且X與Y獨(dú)立,X1,X2,…,Xm是取自X的樣本,Y1,Y2,…,Yn是取自Y的樣本,則有2.4抽樣分布2.4抽樣分布非正態(tài)總體下,也有很多應(yīng)用廣泛的抽樣定理(1)來自指數(shù)分布的獨(dú)立隨機(jī)樣本,則有(2)對于二項分布,有近似的抽樣定理(3)利用中心極限定理,可以推出與上述類似的抽樣定理1、生成100個正態(tài)分布N(2,4)隨機(jī)數(shù)x,計算平均值、樣本方差、中位數(shù)以及x和x3的相關(guān)系數(shù)。2.在同一圖中繪制參數(shù)為3的t分布和標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)圖形,請分別以不同顏色顯示.作業(yè)3.若總體為參數(shù)為0.5的指數(shù)分布,多次抽樣,每次樣本量均為10,繪制統(tǒng)計量
的直方圖,觀察形態(tài),是否像正態(tài)分布,若樣本量均為300呢?第三章參數(shù)估計§3.1點(diǎn)估計§3.2估計量的評價標(biāo)準(zhǔn)§3.3區(qū)間估計§3.4正態(tài)總體參數(shù)的區(qū)間估計§3.5非正態(tài)總體參數(shù)的區(qū)間估計§3.6單側(cè)置信區(qū)間設(shè)總體X的分布函數(shù)為F(x;?),其中?為未知參數(shù)(?可以是向量).現(xiàn)從該總體抽樣,得到樣本X1,X2,…,Xn,從樣本出發(fā)構(gòu)造適當(dāng)?shù)慕y(tǒng)計量作為參數(shù)?的估計量,即點(diǎn)估計。將x1,…,xn
代入估計量,得到?的估計值3.1點(diǎn)估計矩估計樣本k階原點(diǎn)矩總體k階原點(diǎn)矩矩估計基本思想:用樣本矩估計總體矩.大數(shù)定律:K.皮爾遜3.1點(diǎn)估計設(shè)總體的分布函數(shù)中含有k個未知參數(shù)(1)它的前k階原點(diǎn)矩都是這k個參數(shù)的函數(shù),記為:(2)用樣本i階原點(diǎn)矩替換總體i階原點(diǎn)矩3.1點(diǎn)估計(3)解方程組,得
θi=hi(X1,X2,…,Xn)(i=1,2,…,k);3.1點(diǎn)估計則稱hi(X1,X2,…,Xn)為θi的矩法估計量,記而稱hi(x1,x2,…,xn)為θi的矩法估計值。總體期望、方差的矩估計量分別是樣本均值和樣本二階中心矩。例1.設(shè)總體X的數(shù)學(xué)期望和方差分別是μ,σ2
,求μ,σ2的矩估計量。3.1點(diǎn)估計例2:設(shè)電話總機(jī)在某段時間內(nèi)接到呼喚的次數(shù)服從參數(shù)λ未知的泊松分布,現(xiàn)在收集了如下42個數(shù)據(jù):接到呼喚次數(shù)012345出現(xiàn)的頻數(shù)71012832求未知參數(shù)λ的矩估計。3.1點(diǎn)估計(3)若樣本值為2.5、1、11、5.5,計算θ的矩估計值。例3.設(shè)X1,X2,…,Xn是來自總體的樣本,求(1)參數(shù)θ的矩估計量;
(2)若樣本值為2.5、7、11、5.5,計算θ的矩估計值。3.1點(diǎn)估計極大似然估計法引例:設(shè)甲、乙兩人投籃命中率分別為0.9和0.3,現(xiàn)兩人在一起輪流投籃,若某次球恰好投進(jìn),請推測誰投進(jìn)了這個球.R.A.Fisher(1890~1962)3.1點(diǎn)估計例1.設(shè)總體X服從參數(shù)為λ的泊松分布.x1,x2,…,xn是來自該總體的樣本,請估計參數(shù)λ.若總體分布中有未知參數(shù),當(dāng)已知一組樣本值,選取適當(dāng)?shù)膮?shù),使樣本值出現(xiàn)的概率最大,這種估計參數(shù)的方法就是極大似然估計法。3.1點(diǎn)估計◆似然函數(shù)設(shè)總體X的概率分布中有未知參數(shù),X1,X2,…,Xn是來自總體X的樣本,則稱樣本的聯(lián)合概率函數(shù)為樣本的似然函數(shù),簡記為.若X為離散型;若X為連續(xù)型,概率密度為3.1點(diǎn)估計對于固定的樣本觀測值x1,x2,…,xn。如果有(Θ是θ的取值范圍),使得◆極大似然估計量(MaximumLikelihoodEstimation)則稱為θ的極大似然估計值,而稱相應(yīng)的統(tǒng)計量為極大似然估計量.3.1點(diǎn)估計例1:設(shè)總體X服從參數(shù)為λ的泊松分布.x1,x2,…,xn是來自該總體的樣本值,求λ的極大似然估計值.3.1點(diǎn)估計解:令上式等于零,解得3.1點(diǎn)估計例2.
設(shè)總體X的概率密度為其中
>0是未知參數(shù).設(shè)X1,X2,…Xn是來自總體X的樣本,求的極大似然估計量.3.1點(diǎn)估計解:令上式等于零,解得3.1點(diǎn)估計附:矩估計解得令3.1點(diǎn)估計◆求極大似然估計量的一般步驟:(1)寫出似然函數(shù)(2)對似然函數(shù)取對數(shù)(3)求導(dǎo)數(shù),令其為零(4)求解方程,若方程有解3.1點(diǎn)估計例3.設(shè)總體X~N(μ,σ2),其中μ,σ2是
未知參數(shù)。求μ,σ2的極大似然估計。3.1點(diǎn)估計3.1點(diǎn)估計例4.設(shè)X1,X2,…,Xn為取自總體U[0,θ]的樣本,求θ的極大似然估計量。3.1點(diǎn)估計引例:設(shè)X1,X2,…,Xn是來自總體U[0,θ]的樣本,如何比較參數(shù)θ以下幾個估計量的優(yōu)良性。3.2點(diǎn)估計量的評價標(biāo)準(zhǔn)評價一個估計量的好壞,不能僅僅依據(jù)一次試驗(yàn)的結(jié)果,而必須由多次試驗(yàn)結(jié)果來衡量.即確定估計量好壞必須在大量觀察的基礎(chǔ)上從統(tǒng)計的意義來評價。常用的幾條標(biāo)準(zhǔn)是:1.無偏性2.有效性3.一致性3.2點(diǎn)估計量的評價標(biāo)準(zhǔn)一、無偏性則稱為的無偏估計.設(shè)是未知參數(shù)的估計量,若3.2點(diǎn)估計量的評價標(biāo)準(zhǔn)則稱較有效.都是參數(shù)
的無偏估計量,若有設(shè)和二、有效性3.2點(diǎn)估計量的評價標(biāo)準(zhǔn)例1:設(shè)X1,X2,X3是來自某總體X的樣本,且E(X)=μ,討論μ的以下估計量的無偏性和一致性。3.2點(diǎn)估計量的評價標(biāo)準(zhǔn)例2:設(shè)X1,X2,…,Xn是來自某總體X的樣本,且,判斷的矩估計量是否是無偏估計。3.2點(diǎn)估計量的評價標(biāo)準(zhǔn)三、一致性(相合性)是參數(shù)
的估計量,若有設(shè)則稱是參數(shù)
的一致估計量.3.2點(diǎn)估計量的評價標(biāo)準(zhǔn)則稱區(qū)間是θ
的置信度為
的置信區(qū)間.分別稱為置信下限和置信上限.滿足設(shè)θ
是一個待估參數(shù),給定若由樣本X1,X2,…Xn確定的兩個統(tǒng)計量3.3區(qū)間估計例1:隨機(jī)地從一批服從正態(tài)分布N(μ,0.022)的零件16個,分別測得其長度為:2.14 2.10 2.13 2.15 2.13 2.12 2.13 2.102.15 2.12 2.14 2.10 2.13 2.11 2.14 2.11估計該批零件的平均長度μ,并求μ的置信區(qū)間(α=0.05)3.3區(qū)間估計求置信區(qū)間的步驟(1)構(gòu)造僅與待估參數(shù)θ
有關(guān),但分布已知的函數(shù)U;(2)給定置信度1-α,得常數(shù)a,b,使
P{a<U<b}=1-α;(3)將a<U<b變形,使得:(4)結(jié)論3.3區(qū)間估計3.4正態(tài)總體參數(shù)的區(qū)間估計期望的區(qū)間估計
σ2已知時μ的置信區(qū)間
σ2未知時μ的置信區(qū)間2.求方差的區(qū)間估計
μ已知時σ2的置信區(qū)間
μ未知時σ2的置信區(qū)間單正態(tài)總體四種類型的區(qū)間估計例1:隨機(jī)從一批服從的零件中抽取9件,分別測得長度(單位:cm)為:2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.15,2.11試估計這批零件的平均長度,并求置信區(qū)間解:通常采用樣本均值估計總體均值,即由得故區(qū)間估計為3.4正態(tài)總體參數(shù)的區(qū)間估計3.4區(qū)間估計-單正態(tài)總體區(qū)間估計例2:隨機(jī)從一批服從的零件中抽取9件,分別測得長度(單位:cm)為:2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.15,2.11試估計這批零件的平均長度,并求置信區(qū)間例3:科學(xué)上的很多重大發(fā)現(xiàn)往往由年輕人提出,下表是16世紀(jì)中到20世紀(jì)的12項重大科學(xué)突破的情況:科學(xué)發(fā)現(xiàn)科學(xué)家時間年齡日心說哥白尼154340望遠(yuǎn)鏡、天文學(xué)基本定律伽利略160043動力學(xué)、萬有引力牛頓166523電的本質(zhì)富蘭克林174640燃燒即氧化拉瓦錫177431地球的演變?nèi)R爾1830333.4正態(tài)總體參數(shù)的區(qū)間估計進(jìn)化論達(dá)爾文185849光的電磁特性麥克斯韋186433放射性居里夫人189831量子力學(xué)普朗克190143狹義相對論愛因斯坦190526概率量子力學(xué)—波動力學(xué)
薛定諤192639假定年齡服從正態(tài)分布,問什么年齡段科學(xué)家們將可能做出重要的工作?3.4正態(tài)總體參數(shù)的區(qū)間估計3.4單正態(tài)總體區(qū)間估計——R軟件#問題1:已知方差,求期望的區(qū)間估計x=c(2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.15,2.11)n=length(x);level=0.05;xigma=0.02mx=mean(x)u_half=qnorm(1-level/2)left=mx-xigma*u_half/sqrt(n)right=mx+xigma*u_half/sqrt(n)data.frame(left=left,right=right)#問題2,方差未知,求期望的區(qū)間估計,
t.test(x)u_half=qt(1-level/2,n-1);xigma=sd(x)left=mx-xigma*u_half/sqrt(n)right=mx+xigma*u_half/sqrt(n)data.frame(left=left,right=right)#問題3,求方差的區(qū)間估計u_half1=qchisq(level/2,n-1);u_half2=qchisq(1-level/2,n-1)left=xigma^2*(n-1)/u_half2right=xigma^2*(n-1)/u_half1data.frame(left=left,right=right)雙總體設(shè)總體X~N(μ1,σ12),總體Y~N(μ2,σ22),X1,X2,…,Xm來自X,Y1,Y2,…,Yn來自Y,且兩樣本相互獨(dú)立。均值差μ1-μ2的區(qū)間估計方差比σ12/σ22的區(qū)間估計3.4正態(tài)總體參數(shù)的區(qū)間估計3.4正態(tài)總體參數(shù)的區(qū)間估計例1:今抽樣甲乙兩地區(qū)18~25歲女青年身高的數(shù)據(jù)如下:甲地區(qū)抽取50名,樣本均值為163cm,樣本標(biāo)準(zhǔn)差為4cm;乙地區(qū)抽取50名,樣本均值為159cm,樣本標(biāo)準(zhǔn)差為3cm。假設(shè)身高均服從正態(tài)分布(1)假設(shè)兩個總體具有公共方差,求的置信水平為90%的置信區(qū)間;(2)求兩總體方差比σ12/σ22的區(qū)間估計.3.4雙正態(tài)總體區(qū)間估計——R軟件x=c(86,87,56,93,84,93,75,79);
y=c(80,89,58,91,81,92,74,76)sxy=sd(x-y);n=length(x);
mx=mean(x);
my=mean(y)sx=var(x);sy=var(y);t_half=qt(1-level/2,2*n-2)sw=sqrt(((n-1)*sx+(n-1)*sy)/(2*n-2))data.frame(left=mx-my-t_half*sw*sqrt(2/n),right=mx-my+t_half*sw*sqrt(2/n))#方差相等改寫成R內(nèi)置的函數(shù):t.test(x-y)#t.test(x,y,paired=TRUE)配對t.test(x,y,var.equal=TRUE)#方差相等的3.4區(qū)間估計-雙正態(tài)總體區(qū)間估計R計算程序f_half1=qf(level/2,n-1,n-1)f_half2=qf(1-level/2,n-1,n-1)data.frame(left=sx/sy/f_half2,right=sx/sy/f_half1)R內(nèi)置函數(shù)var.test(x,y,conf.level=0.95)3.5非正態(tài)總體參數(shù)的區(qū)間估計(1)指數(shù)分布R計算程序n=length(x);mx=mean(x);base=2*n*mx;x_half1=qchisq(level/2,2*n)x_half2=qchisq(1-level/2,2*n)data.frame(left=x_half1/base,right=x_half2/base)3.5非正態(tài)總體參數(shù)的區(qū)間估計(2)0-1分布例:從某場生產(chǎn)的一批產(chǎn)品中抽查了100件,發(fā)現(xiàn)其中次品10件,求這批產(chǎn)品一級品率的置信度為95%的置信區(qū)間。3.5非正態(tài)總體參數(shù)的區(qū)間估計3.5非正態(tài)總體參數(shù)的區(qū)間估計第四章假設(shè)檢驗(yàn)基本概念單正態(tài)總體假設(shè)檢驗(yàn)雙正態(tài)總體假設(shè)檢驗(yàn)非正態(tài)總體假設(shè)檢驗(yàn)非參數(shù)-分布函數(shù)擬合檢驗(yàn)非參數(shù)-獨(dú)立性檢驗(yàn)4.1假設(shè)檢驗(yàn)的基本概念假設(shè)檢驗(yàn)參數(shù)假設(shè)檢驗(yàn)非參數(shù)假設(shè)檢驗(yàn)總體分布已知,檢驗(yàn)關(guān)于未知參數(shù)的某個假設(shè)總體分布未知時的假設(shè)檢驗(yàn)問題假設(shè)檢驗(yàn):根據(jù)樣本的信息檢驗(yàn)關(guān)于總體的某個假設(shè)是否正確.生產(chǎn)流水線上罐裝可樂不斷地封裝,然后裝箱外運(yùn).怎么知道這批罐裝可樂的容量是否合格呢?例1:罐裝可樂的標(biāo)準(zhǔn)容量是250毫升通常的辦法是每隔一段時間進(jìn)行抽樣檢查.4.1假設(shè)檢驗(yàn)的基本概念以上實(shí)際例子的解決都需要我們根據(jù)問題本身提出假設(shè),然后根據(jù)樣本的信息對假設(shè)進(jìn)行檢驗(yàn),并作出判斷。H0:檢驗(yàn)是否為真的假設(shè)稱為原假設(shè)/零假設(shè);H1:與H0對立的假設(shè)稱為備選假設(shè)。4.1假設(shè)檢驗(yàn)的基本概念小概率事件原理:概率很小的事件在一次試驗(yàn)中幾乎不可能發(fā)生。需預(yù)先指定一個很小的數(shù),一般地,取α=0.05或0.01,稱為檢驗(yàn)的顯著性水平。4.1假設(shè)檢驗(yàn)的基本概念1.提出假設(shè)2.3.設(shè)現(xiàn)在生產(chǎn)的容量X~ ,抽取了4罐,其容量分別為248,246,252,242,問能否依然認(rèn)為?4.1假設(shè)檢驗(yàn)的基本概念檢驗(yàn)統(tǒng)計量:接受域:拒絕域:4.1假設(shè)檢驗(yàn)的基本概念假設(shè)檢驗(yàn)中的兩類錯誤以真為假(棄真)以假為真(取偽)H0為真實(shí)際情況決定拒絕H0接受H0H0不真第一類錯誤正確正確第二類錯誤4.1假設(shè)檢驗(yàn)的基本概念提出假設(shè)H0作出決策建立檢驗(yàn)統(tǒng)計量確定拒絕域顯著性水平樣本值代入計算統(tǒng)計量的值顯著性檢驗(yàn)4.1假設(shè)檢驗(yàn)的基本概念雙側(cè)檢驗(yàn):4.1假設(shè)檢驗(yàn)的基本概念左側(cè)檢驗(yàn):設(shè)現(xiàn)在生產(chǎn)的容量X~ ,抽取了4罐,其容量分別為248,246,252,242,問是否明顯小于250?(α=0.05)4.1假設(shè)檢驗(yàn)的基本概念右側(cè)檢驗(yàn):設(shè)現(xiàn)在生產(chǎn)的容量X~ ,抽取了4罐,其容量分別為254,249,252,248,問是否明顯大于250?(α=0.05)4.1假設(shè)檢驗(yàn)的基本概念雙側(cè)檢驗(yàn):左側(cè)檢驗(yàn):右側(cè)檢驗(yàn):4.1假設(shè)檢驗(yàn)的基本概念拒絕域:拒絕域:4.2單正態(tài)總體假設(shè)檢驗(yàn)(1)關(guān)于正態(tài)總體均值的假設(shè)檢驗(yàn)(方差已知)(2)關(guān)于正態(tài)總體均值的假設(shè)檢驗(yàn)(方差未知)(3)關(guān)于正態(tài)總體方差的假設(shè)檢驗(yàn)(均值未知)(4)關(guān)于正態(tài)總體方差的假設(shè)檢驗(yàn)(均值已知)(實(shí)際上很少用)(1)(3)(2)(4)4.2單正態(tài)總體假設(shè)檢驗(yàn)例2:某部門對當(dāng)前市場的價格情況進(jìn)行調(diào)查。以雞蛋為例,所抽查的全省15個集市上,售價分別為(單位:元/500克)5.055.315.345.825.305.846.105.905.184.885.225.345.625.285.305.525.545.30已知往年的平均售價一直穩(wěn)定在5.25元/500克左右,能否認(rèn)為全省當(dāng)前的雞蛋售價明顯高于往年?(顯著水平α=0.05)?mean(D)[1]5.435556>sd(D)[1]0.31651084.2單正態(tài)總體假設(shè)檢驗(yàn)——R軟件t.test(x,alternative=c("two.sided","less","greater"),mu=0)#函數(shù)中的mu指定均值,alternative指定類型(雙側(cè),左側(cè),右側(cè))回顧:用傳統(tǒng)工藝加工的某種水果罐頭中,每瓶的平均維生素C的含量為19(mg).現(xiàn)改變了加工工藝,抽查了16瓶,測得維C含量的平均值為20.2,標(biāo)準(zhǔn)差為1.617.假定水果罐頭中維C含量服從正態(tài)分布。問使用新工藝后維C的含量是否有顯著改變(顯著水平α=0.05)?4.2單正態(tài)總體假設(shè)檢驗(yàn)4.3雙正態(tài)總體假設(shè)檢驗(yàn)問題:(1)均值差的假設(shè)檢驗(yàn)(方差已知)(2)均值差的假設(shè)檢驗(yàn)(方差未知,但相等)(3)均值差的假設(shè)檢驗(yàn)(方差未知,不相等)(4)均值差的假設(shè)檢驗(yàn)(方差未知,不相等,樣本容量較大)(5)方差比的假設(shè)檢驗(yàn)(均值未知)(1)(2)(5)4.3雙正態(tài)總體假設(shè)檢驗(yàn)例3:某連隊兩個班進(jìn)行快速打靶訓(xùn)練,假定命中環(huán)數(shù)服從正態(tài)分布,現(xiàn)測得兩個班的成績?nèi)缦?A:9,8,9.5,10,8.5,7,8.5,9,9.5,9,8.2,7.5,8,8.7,8.6B:8.8,9.2,7.8,6.8,7,8,9,10,9.5,8.5,7.8,8.1(1)兩個班的打靶成績的波動是否有顯著差異?(2)若兩班波動率一致,A班成績是否顯著高于B班的成績?例4.現(xiàn)要比較甲乙兩種橡膠制成的輪胎的耐磨性,從兩種輪胎中各隨機(jī)抽取8個,各取一個組成一對,再隨機(jī)選取八架飛機(jī),將八對輪胎隨機(jī)地搭配給八架飛機(jī),做耐磨性試驗(yàn),經(jīng)過了一定時間的起落后,測的輪胎磨損量數(shù)據(jù)如下,試問兩種輪胎的耐磨性又無顯著性的差異?序號12345678甲49005220550060206340766086504870乙49304900514057006110688079305010Z: -30 320 360 320 230780720-1404.3雙正態(tài)總體假設(shè)檢驗(yàn)4.3雙正態(tài)總體假設(shè)檢驗(yàn)4.3雙正態(tài)總體假設(shè)檢驗(yàn)——R軟件#均值差檢驗(yàn)t.test(x,y=NULL,alternative=c(“two.sided”,“l(fā)ess”,“greater”),mu=0,paired=FALSE,var.equal=FALSE)#方差檢驗(yàn)var.test(x,y,ratio=1,alternative=c(“two.sided”,“l(fā)ess”,“greater”))4.4非正態(tài)總體假設(shè)檢驗(yàn)0-1分布4.4非正態(tài)總體假設(shè)檢驗(yàn)例2:工商部分隨機(jī)抽查某工廠生產(chǎn)的一批產(chǎn)品,按規(guī)定次品率不大于3%才能出廠?,F(xiàn)從這批產(chǎn)品中隨機(jī)抽查100件,發(fā)現(xiàn)5件次品,問:這批產(chǎn)品能否依然出廠(顯著性水平0.05)?若6件呢?4.5非參數(shù)假設(shè)檢驗(yàn)在不假定總體分布的前提下,從數(shù)據(jù)本身出發(fā)獲取可靠的結(jié)論,隸屬非參數(shù)統(tǒng)計推斷(Nonparametricstatisticalinference)范疇。在這種情況下,非參數(shù)方法優(yōu)于參數(shù)方法,更符合實(shí)際情況;但在總體分布已知的前提下,參數(shù)方法就更為精確和有效。例1:在一小時內(nèi)用戶對電話中心的呼叫次數(shù)按每分鐘統(tǒng)計如下所示,問:每分鐘電話呼叫次數(shù)是否服從泊松分布?(顯著性水平=0.05)次數(shù)0123456>=7頻數(shù)81617106210(注:[次數(shù)1,頻數(shù)16]表示有16個分鐘,每分鐘只接到1個電話)4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)?zāi)车貐^(qū)30名2000年某專業(yè)畢業(yè)實(shí)習(xí)生實(shí)習(xí)期滿后的月薪數(shù)據(jù)如下:909109196712321096116410861071157295080897111201081825775122495099911309141203104486613369921025871738試問月薪是否服從正態(tài)分布?4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)再如,某工廠制造一批骰子,聲稱它是均勻的.骰子是否均勻?4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)K.皮爾遜4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)將總體X的取值范圍分成m個互不重迭的小區(qū)間,(ai-1,ai],i=1,…,m把落入第i個小區(qū)間的樣本值的個數(shù)記作ni,稱為觀察頻數(shù).1.抽取樣本2.作直方圖4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)根據(jù)所假設(shè)的理論分布,可以算出總體X的值落入第i個區(qū)間[ai-1,ai
)的概率pi=F0(ai)-F0
(ai-1)于是npi就是樣本落入第i個區(qū)間的理論頻數(shù).3.計算理論頻數(shù)標(biāo)志著經(jīng)驗(yàn)分布與理論分布之間的差異的大小.皮爾遜引進(jìn)如下統(tǒng)計量表示經(jīng)驗(yàn)分布與理論分布之間的差異:觀察頻數(shù)理論頻數(shù)4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)皮爾遜定理4.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)例1:指一顆骰子60次,結(jié)果如下:點(diǎn)數(shù)頻數(shù)ni172831241159613npi1010101010104.5.1非參數(shù)假設(shè)檢驗(yàn)-分布函數(shù)檢驗(yàn)4.5.1分布檢驗(yàn)-Pearson卡方檢驗(yàn)例2:在一小時內(nèi)用戶對電話中心的呼叫次數(shù)按每分鐘統(tǒng)計如下所示,問:每分鐘電話呼叫次數(shù)是否服從泊松分布?(顯著性水平=0.05)次數(shù)0123456>=7頻數(shù)81617106210(注:[次數(shù)1,頻數(shù)16]表示有16個分鐘,每分鐘只接到1個電話)注:離散型分布的擬合檢驗(yàn)。4.5.1分布檢驗(yàn)-Pearson卡方檢驗(yàn)次數(shù)0123456>=7頻數(shù)81617106210Pi0.1350.2710.2720.1800.0900.0360.0120.003n=60,m=8,k=1結(jié)論:接受原假設(shè),認(rèn)為數(shù)據(jù)分從泊松分布。4.5.1分布檢驗(yàn)-Pearson卡方檢驗(yàn)R檢驗(yàn)過程:x=c(0,1,2,3,4,5,6,7);ni=c(8,16,17,10,6,2,1,0)n=sum(ni);k=1;m=8;level=0.05;mx=sum(x*ni)/n;#估計參數(shù)pi=dpois(x,mx);pi[m]=1-sum(pi[1:(m-1)])#計算piY=sum(ni^2/(n*pi))-n#計算卡方統(tǒng)計量值w=qchisq(1-level,m-k-1);#計算檢驗(yàn)臨界值if(Y<w)print('接受原假設(shè)')elseprint('拒絕原假設(shè)')#或者使用chisq.test函數(shù)chisq.test(ni,p=pi)Chi-squaredtestforgivenprobabilitiesdata:niX-squared=0.5595,df=7,p-value=0.99924.5.1分布檢驗(yàn)-Pearson卡方檢驗(yàn)例3:檢驗(yàn)下面數(shù)據(jù)是否服從正態(tài)分布?(a=0.05)(176,172,170,175,167,167,172,180,178,172,173,170,168,175,171,166,170,175,176,176,176,177,165,172,172,168,167,165,160,165,173,163,160,162,168,178,172,170,169,175,165,168)4.5.1分布檢驗(yàn)-Pearson卡方檢驗(yàn)x=c(176,172,170,175,167,167,172,180,178,172,173,170,168,175,171,166,170,175,176,176,176,177,165,172,172,168,167,165,160,165,173,163,160,162,168,178,172,170,169,175,165,168)n=length(x);m=5;#區(qū)間個數(shù)a=c(150,160,165,170,175,185);ni=table(cut(x,br=a))qi=pnorm(a[-1],mean(x),sd(x));pi=qi;pi[2:(m-1)]=qi[2:(m-1)]-qi[1:(m-2)]pi[m]=1-qi[m-1]Y=sum(ni^2/(n*pi))-n#計算卡方統(tǒng)計量值p=1-pchisq(Y,m-3);#計算檢驗(yàn)臨界值4.5.1分布檢驗(yàn)--k-s檢驗(yàn)K-S檢驗(yàn)(Kolmogorov-Smirnov檢驗(yàn)):是利用經(jīng)驗(yàn)分布與假設(shè)分布偏差的上確界構(gòu)建統(tǒng)計量,并對假設(shè)分布進(jìn)行檢驗(yàn)的一種方法,適合于連續(xù)型隨機(jī)變量。注:該方法構(gòu)造了一個經(jīng)驗(yàn)分布與假設(shè)分布的偏差上確界統(tǒng)計量D.若兩個分布接近或相同,則D值應(yīng)較小,若D值太大則可否認(rèn)分布相等的原假設(shè)。
4.5.1分布檢驗(yàn)--k-s檢驗(yàn)用法:ks.test(x,F,p1,p2)x樣本,待檢驗(yàn)分布函數(shù)F,分布參數(shù)pi如正態(tài)性檢驗(yàn):ks.test(x,pnorm,mu,xigma)以例3數(shù)據(jù)為例:ks.test(x,pnorm,mean(x),sd(x))正態(tài)分布的檢驗(yàn)還有如下方法shapiro.test(x)4.5.1分布檢驗(yàn)–QQ圖Q-Q圖專門用來處理正態(tài)性檢驗(yàn)的一種直觀圖形方法。基本原理:經(jīng)驗(yàn)分布函數(shù)近似分布函數(shù)(頻率近似概率)4.5.1分布檢驗(yàn)–QQ圖直觀判斷:如果繪制的散點(diǎn)幾乎位于一條直線上,則可認(rèn)定數(shù)據(jù)服從正態(tài)分布。上圖的數(shù)據(jù)點(diǎn)兩端偏離直線較遠(yuǎn),中間數(shù)據(jù)較接近直線,基本上認(rèn)定服從“正態(tài)分布”。qqnorm(x)#plot(qnorm(ecdf(x)(x)),x)qqline(x)
4.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)問題背景:兩個隨機(jī)變量X,Y(都是離散定性取值),及其樣本頻數(shù)觀測值,研究這兩個變量是否有關(guān)系?(沒關(guān)系就是獨(dú)立),比如:吸煙與肺癌有關(guān)系嗎?學(xué)生課程通過與否與學(xué)生性別有關(guān)系嗎?學(xué)生課程通過與否與教師性別有關(guān)系嗎?4.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)考試通過未通過教師性別男女11247171498660年齡層兒童中青年老年療效顯著一般較差5537313043442318144.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)列聯(lián)表獨(dú)立性檢驗(yàn),數(shù)據(jù)形如Y∑12…sX1n11n12…n1sn1.2n21n22…n2sn2.………………rnr1nr2…nrsnr.∑n.1n.2…n.sn4.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)分析:若X,Y獨(dú)立則的偏差應(yīng)該較小,于是構(gòu)造:4.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)顯然該統(tǒng)計量值若太大則原假設(shè)不成立,即拒絕域?yàn)椋豪?:某治療感冒的藥在三個年齡層的臨床試驗(yàn)如下,試分析療效與年齡層是否有關(guān)?年齡層兒童中青年老年療效顯著一般較差5537313043442318144.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)?zāi)挲g層合計兒童中青年老年療效顯著一般較差55373112330434411723181455合計10898892954.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)輸出結(jié)果:
Pearson'sChi-squaredtestdata:xX-squared=10.8241,df=4,p-value=0.02861因?yàn)閜值較小,所以拒絕原假設(shè),認(rèn)為療效與年齡層有關(guān)系。#列聯(lián)表檢驗(yàn)程序:x=matrix(c(55,30,23,37,43,18,31,44,14),3,3)chisq.test(x)4.5.2獨(dú)立性檢驗(yàn)–列聯(lián)表檢驗(yàn)考試通過未通過教師性別男女11247171498660例1:學(xué)生課程通過與否與教師性別有關(guān)系嗎?考試合計通過未通過教師性別男女1124717184114986602158合計262213773999若r=2,s=2時,檢驗(yàn)統(tǒng)計量可簡化為第五章回歸分析相關(guān)分析線性回歸模型最小二乘估計及其性質(zhì)回歸方程和回歸系數(shù)的檢驗(yàn)因變量的預(yù)測自變量的選擇非線性回歸5.1相關(guān)分析設(shè)(xi,yi)(i=1,2,…,n)為一組樣本,則簡單相關(guān)系數(shù)(Pearson積矩相關(guān)系數(shù))定義為隨機(jī)變量之間的相關(guān)系數(shù):5.1相關(guān)分析相關(guān)系數(shù)r[1]1[1]-1[1]0.8270126[1]-0.5595056[1]0.1831816[1]0.1984835n=50;x=rnorm(n);y1=2*x+1;y2=-2*x+1;y3=2*x^3+rnorm(n,0,3);y4=-2*x+rnorm(n,0,3);y5=rnorm(n,0,4);y6=x^2;5.1相關(guān)分析直觀上看相關(guān)系數(shù)絕對值越接近1,則變量之間的線性關(guān)系越強(qiáng),相關(guān)系數(shù)絕對值越接近0,則變量之間的線性相關(guān)性越弱。由于樣本的隨機(jī)性,即使理論上相關(guān)系數(shù)為a,實(shí)際計算出來的相關(guān)系數(shù)b也不一定等于a。比如a=0,但是b不等于0是否就意味著變量之間相關(guān)呢?5.1相關(guān)分析一般對相關(guān)系數(shù)檢驗(yàn)的提法是構(gòu)造統(tǒng)計量:拒絕域cor.test(x,y5)5.2相關(guān)分析——R軟件R軟件中通過cor.test(x,y)軟件會給出檢驗(yàn)p值Pearson'sproduct-momentcorrelationdata:xandy5t=1.291,df=48,p-value=0.2029alternativehypothesis:truecorrelationisnotequalto095percentconfidenceinterval:-0.10027920.4391385sampleestimates:cor0.1831816Pearson'sproduct-momentcorrelationdata:xandy4t=-4.6769,df=48,p-value=2.4e-05alternativehypothesis:truecorrelationisnotequalto095percentconfidenceinterval:-0.7249515-0.3330218sampleestimates:cor-0.5595056cor.test(x,y4)5.2線性回歸模型例:為了研究3歲至8歲男孩身高與年齡的規(guī)律,在某地區(qū)在3歲至8歲男孩中隨機(jī)抽樣,共分6個年齡層抽樣:3歲,4歲,…,8歲,每個層抽10個男孩,共抽60個男孩。資料如下:年齡3歲4歲5歲6歲7歲8歲身高92.596.5106.0115.5125.5121.597.0101.0104.0115.5117.5128.596.0105.5107.0111.5118.0124.096.5102.0109.5110.0117.0125.597.0105.0111.0114.5122.0122.592.099.5107.5112.5119.0123.596.5102.0107.0116.5119.0120.591.0100.0111.5110.0125.5123.096.0106.5103.0114.5120.5124.099.0100.0109.0110.0122.0126.5平均身高95.4101.8107.6113.1120.6124.05.2線性回歸模型一元線性回歸模型隨機(jī)干擾:各種偶然因素、觀察誤差和其他被忽視因素的影響x對y的線性影響而形成的系統(tǒng)部分,反映兩變量的平均變動關(guān)系,即本質(zhì)特征。5.2線性回歸模型5.2線性回歸模型多元線性回歸模型5.2線性回歸模型高斯-馬爾可夫Gauss-Markov線性回歸模型定義5.3最小二乘法估計5.3最小二乘法估計經(jīng)驗(yàn)回歸方程:5.3最小二乘法估計例1:一元線性回歸5.3最小二乘法估計例2:某氣象站收集了15年關(guān)于年初的最高溫度出現(xiàn)日期X(從1月11日算起,連續(xù)三天氣溫高于20度)與秋季第一次強(qiáng)冷空氣出現(xiàn)日期Y(從9月11日算起,連續(xù)三天氣溫低于20度)的數(shù)據(jù),數(shù)據(jù)123456789101112131415x2517303132282930211181828614y22152630342527347111920199145.3最小二乘法估計回歸擬合值擬合向量殘差值殘差向量H,I-H均為對稱冪等矩陣,且X’(I-H)=0,(I-H)X=05.3最小二乘法估計5.3最小二乘法估計5.3最小二乘法估計——性質(zhì)例1(組合稱重法)在天平的兩個秤盤上分別放上這四個物體中的幾個,并在其中的一個秤盤上加上砝碼使之達(dá)到平衡。則有線性回歸模型其中y為使天平達(dá)到平衡所需的砝碼重量。約定,如果砝碼在左邊秤盤上則y為負(fù)值。xi的值為0,1或-1,0表示第i個物體沒有被稱,1和-1分別表示該物體放在左邊和右邊秤盤上?;貧w系數(shù)就是相應(yīng)物體的重量,我們總共稱了4次,如下:yx1x2x3x420.28.09.71.911111-11-111-1-11-1-115.3最小二乘法估計——性質(zhì)回顧.求下面模型中參數(shù)a,b的最小二乘估計已知5.3最小二乘法估計——性質(zhì)lm(y~x)#y為向量,x可為向量與矩陣lm(y~x+0)#回歸方程沒有常數(shù)項lm(y~x1+x2+I(x1^2))#自變量有三項x1,x2,x1^2lm(y~x1+x2,data=X)#X為數(shù)據(jù)框,y,x1,x2為其中變量名lm(y~.,data=X)#自變量為其它所有變量lm(y~.-x2,data=X)#自變量為除x2的其它所有變量5.3最小二乘法估計——R軟件lm() #建立線性回歸模型例1:某氣象站收集了15年關(guān)于年初的最高溫度出現(xiàn)日期X(從1月11日算起,連續(xù)三天氣溫高于20度)與秋季第一次強(qiáng)冷空氣出現(xiàn)日期Y(從9月11日算起,連續(xù)三天氣溫低于20度)的數(shù)據(jù),數(shù)據(jù)123456789101112131415x2517303132282930211181828614y22152630342527347111920199145.3最小二乘法估計flm=lm(y~x)summary(flm)plot(x,y,main="一元回歸圖")abline(flm)points(x,flm$fitted,col="red",pch=3)例2:民航客運(yùn)量數(shù)據(jù)和身高等調(diào)查數(shù)據(jù)5.3最小二乘法估計——性質(zhì)例3:一元線性回歸及性質(zhì)x取值越分散,系數(shù)波動越小5.3最小二乘法估計——性質(zhì)TotalSumofSquaresRegressionSumofSquaresErrorsumofsquares= +5.4回歸方程和回歸系數(shù)的檢驗(yàn)STSRSE復(fù)相關(guān)系數(shù)與決定系數(shù)決定系數(shù)R25.4回歸方程和回歸系數(shù)的檢驗(yàn)回歸模型的檢驗(yàn)5.4回歸方程和回歸系數(shù)的檢驗(yàn)方差來源平方和自由度F值回歸誤差總計pn-p-1n-15.4回歸方程和回歸系數(shù)的檢驗(yàn)回歸系數(shù)的檢驗(yàn)5.4回歸方程和回歸系數(shù)的檢驗(yàn)5.4回歸分析——R軟件#水泥放熱試驗(yàn)分析X=read.table('clipboard',header=TRUE)l=lm(y~.,data=X)summary(l)Residuals:Min1QMedian3QMax-3.1750-1.67090.25081.37833.9254Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)62.405470.07100.8910.3991x11.55110.74482.0830.0708.x20.51020.72380.7050.5009x30.10190.75470.1350.8959x4-0.14410.7091-0.2030.8441Residualstandarderror:2.446on8degreesoffreedomMultipleR-squared:0.9824,AdjustedR-squared:0.9736
F-statistic:111.5on4and8DF,p-value:4.756e-07點(diǎn)預(yù)測5.5因變量的預(yù)測區(qū)間預(yù)測5.5因變量的預(yù)測例:一元預(yù)測x0離平均值越近,預(yù)測區(qū)間長度越短5.5因變量的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 4年級上冊數(shù)學(xué)人教版說課稿7篇
- 網(wǎng)頁制作案例教程HTML5+CSS3課程設(shè)計
- 《數(shù)理經(jīng)濟(jì)學(xué)》課程教學(xué)大綱
- 復(fù)習(xí)真題卷04 第6-7單元(解析版)
- DBJ51-T 198-2022 四川省既有民用建筑結(jié)構(gòu)安全隱患排查技術(shù)標(biāo)準(zhǔn)
- 2009年高考語文試卷(全國Ⅱ卷)(解析卷)
- 建筑工程行業(yè)工程測量培訓(xùn)體會
- 通信行業(yè)客服工作總結(jié)
- 《色彩的漸變》課件
- 有關(guān)醫(yī)院的實(shí)習(xí)報告三篇
- 中央2025年全國人大機(jī)關(guān)直屬事業(yè)單位招聘18人筆試歷年典型考點(diǎn)(頻考版試卷)附帶答案詳解
- 2024至2030年四氯苯醌項目投資價值分析報告
- 北京市海淀區(qū)2024-2025學(xué)年七年級上學(xué)期期中考試英語試卷(含答案)
- 中資企業(yè)出海報告:潮涌浪闊四海揚(yáng)帆
- 房地產(chǎn)銷售主管崗位招聘筆試題及解答(某大型央企)2024年
- 2024-2025學(xué)年人教版八年級上冊地理期末測試卷(二)(含答案)
- 80、沈陽桃仙機(jī)場二平滑工程冬期施工方案
- 《STM32Cube嵌入式系統(tǒng)應(yīng)用》HAL庫版本習(xí)題及答案
- 一年級數(shù)學(xué)練習(xí)題-20以內(nèi)加減法口算題(4000道)直接打印版
- 2024年度無人機(jī)飛行培訓(xùn)合同
- 2025年中國細(xì)胞與基因治療行業(yè)深度分析、投資前景、趨勢預(yù)測報告(智研咨詢)
評論
0/150
提交評論