R數(shù)據(jù)處理、繪圖、編程與統(tǒng)計(jì)檢驗(yàn)_第1頁(yè)
R數(shù)據(jù)處理、繪圖、編程與統(tǒng)計(jì)檢驗(yàn)_第2頁(yè)
R數(shù)據(jù)處理、繪圖、編程與統(tǒng)計(jì)檢驗(yàn)_第3頁(yè)
R數(shù)據(jù)處理、繪圖、編程與統(tǒng)計(jì)檢驗(yàn)_第4頁(yè)
R數(shù)據(jù)處理、繪圖、編程與統(tǒng)計(jì)檢驗(yàn)_第5頁(yè)
已閱讀5頁(yè),還剩83頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1語言介紹 數(shù)據(jù)處理、繪圖、編程與統(tǒng)計(jì)檢驗(yàn)2什么是R ?The R Project for Statistical ComputingR是一種統(tǒng)計(jì)繪圖語言,也指實(shí)現(xiàn)該語言的軟件 1995年由新西蘭Auckland大學(xué)統(tǒng)計(jì)系的Robert Gentleman和Ross Ihaka,基于S語言的源代碼,編寫了一能執(zhí)行S語言的軟件,并將該軟件的源代碼全部公開,這就是R軟件,其命令統(tǒng)稱為R語言 從S統(tǒng)計(jì)繪圖語言演變而來,可看作S的“方言”!免費(fèi)、軟件本身及程序包的源代碼公開。3 R登陸界面(Windows版)路徑: 開始所有程序R 2.11.0菜單欄菜單欄快捷按鈕快捷按鈕控制臺(tái)控制臺(tái)光標(biāo)光標(biāo):等待輸入

2、等待輸入4R程序包(R Packages)程序包是什么?程序包是什么? R程序包是多個(gè)函數(shù)的集合,具有詳細(xì)的說明和示例。 Window下的R程序包是經(jīng)過編譯的zip包。每個(gè)程序包包含R函數(shù)、數(shù)據(jù)、幫助文件、描述文件等。為什么要安裝程序包?為什么要安裝程序包? R程序包是R功能擴(kuò)展,特定的分析功能,需要用相應(yīng)的程序包實(shí)現(xiàn)。 例如:系統(tǒng)發(fā)育分析,常用到ape程序包,群落生態(tài)學(xué)vegan包等。5常用R程序包(I)ade4利用歐幾里得方法進(jìn)行生態(tài)學(xué)數(shù)據(jù)分析adephylo系統(tǒng)進(jìn)化數(shù)據(jù)挖掘與比較方法ape系統(tǒng)發(fā)育與進(jìn)化分析apTreeshape 進(jìn)化樹分析bootBootstrap檢驗(yàn)cluster聚類

3、分析ecodist生態(tài)學(xué)數(shù)據(jù)相異性分析FD功能多樣性分析geiger物種形成速率與進(jìn)化分析6常用R程序包(II)picante群落系統(tǒng)發(fā)育多樣性分析raster柵格數(shù)據(jù)分析與處理seqinrDNA序列分析sp空間數(shù)據(jù)處理spatstat空間點(diǎn)格局分析,模型擬合與檢驗(yàn)splancs空間與時(shí)空點(diǎn)格局分析statsR統(tǒng)計(jì)學(xué)包Bioconductor生物學(xué)數(shù)據(jù)分析工具vegan植物與植物群落的排序,生物多樣性計(jì)算7安裝程序包的方法1 用函數(shù) install.packages(),如果已經(jīng)連接到互聯(lián)網(wǎng),在括號(hào)中輸入要安裝的程序包名稱,選擇鏡像后,程序?qū)⒆詣?dòng)下載并安裝程序包。例如: 要安裝picante包

4、,在控制臺(tái)中輸入 install.packages(picante)2 安裝本地zip包路徑:Packagesinstall packages from local files選擇本地磁盤上存儲(chǔ)zip包的文件夾。8程序包使用程序包的中函數(shù),都要先導(dǎo)入,再使用,因此導(dǎo)入程序包是第一步。在控制臺(tái)中輸入如下命令:library(affy)程序包內(nèi)的函數(shù)的用法與R內(nèi)置的基本函數(shù)用法一樣。library(affy)9查看函數(shù)的幫助文件函數(shù)的默認(rèn)值是什么?函數(shù)的默認(rèn)值是什么? 怎么使用?怎么使用? 使用時(shí)需要注意什么問題?使用時(shí)需要注意什么問題? 需要查詢函數(shù)的幫助。需要查詢函數(shù)的幫助。1 ?t.test

5、 2 RGuiHelpHtml help3 apropos(t.test)4 help(t.test)5 help.search(t.test)6 查看查看R包包pdf手冊(cè)手冊(cè)10二 函數(shù)與對(duì)象11R的函數(shù)R是一種解釋性語言,輸入后可直接給出結(jié)果。功能靠函數(shù)實(shí)現(xiàn)。函數(shù)形式: 函數(shù)(輸入數(shù)據(jù),參數(shù)= )如果沒有指定,則參數(shù)的以默認(rèn)值為準(zhǔn)。例如:平均值 mean(x, trim = 0, na.rm = FALSE, .) 線性模型 lm(yx, data=test)12R的函數(shù)每一個(gè)函數(shù)執(zhí)行特定的功能,后面緊跟括號(hào),例如:平均值 mean()求和 sum()繪圖 plot()排序 sort()

6、除了基本的運(yùn)算之外,R的函數(shù)又分為”高級(jí)”和”低級(jí)”函數(shù),高級(jí)函數(shù)可調(diào)用低級(jí)函數(shù),這里的”高級(jí)”函數(shù)習(xí)慣上稱為泛型函數(shù)。 如plot()就是泛型函數(shù),可以根據(jù)數(shù)據(jù)的類型,調(diào)用底層的函數(shù),應(yīng)用相應(yīng)的方法繪制相應(yīng)的圖形。這就是面向?qū)ο缶幊痰乃枷搿?3R有哪些函數(shù)?查詢的方法:查詢的方法:HelpHtml helppackageslog() log10() exp() sin()cos() tan() asin()acos()binom.test()fisher.test()chisq.test()glm(y x1+x2+x3, binomial)friedman.test()mean()sd()v

7、ar().14R函數(shù)調(diào)用及其選項(xiàng)箱線圖繪制函數(shù)的調(diào)用boxplot(daytype, data=bac, col=red, xlab=Virus, ylab=days)daytype,以type為橫軸,day為縱軸繪制箱線圖。data=bac 數(shù)據(jù)來源baccol=“red” 箱線圖為紅色xlab=“Virus” 橫軸名稱為Virusylab=“days” 縱軸名稱為days15賦值與注釋在控制臺(tái)中鍵入如下命令2 + 2a - 2代替b - 2c 1 + 11 2 1 + 1 * 71 8 (1 + 1) * 71 14 x x1 1 y = 2 y1 2 3 - z z1 3 (x + y)

8、 * z1 9Math:Variables:17 x x1 0 1 2 3 4 y y1 1 2 3 4 5 z z 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1516 16 17 18 19 20 21 22 23 24 25 26 27 28 29 3031 31 32 33 34 35 36 37 38 39 40 41 42 43 44 4546 46 47 48 49 50Arrays:18運(yùn)算符數(shù)學(xué)運(yùn)算 運(yùn)算后給出數(shù)值結(jié)果+, -, *, /, (冪冪)比較運(yùn)算 運(yùn)算后給出判別結(jié)果(TRUE FALSE), , =, =, !=邏輯運(yùn)算 與、或、非!,

9、&, &, |, |19外部數(shù)據(jù)讀取 最為常用的數(shù)據(jù)讀取方式是用read.table() 函數(shù)或read.csv()函數(shù)讀取外部txt或csv格式的文件。 txt文件,制表符間隔 csv文件,逗號(hào)間隔 一些R程序包(如foreign)也提供了直接讀取Excel, SAS, dbf, Matlab, spss, systat, Minitab文件的函數(shù)。例:test.data-read.csv(D:/R/test2.csv,header=T)header=T表示將數(shù)據(jù)的第一行作為標(biāo)題。read.table(file=file.choose(),header=T) 可以彈出對(duì)話框,選擇文件。20例

10、:從數(shù)據(jù)輸入到t檢驗(yàn)編號(hào)123456身高 m1.751.801.651.901.741.91體重kg607257909572表2 六名患者的身高和體重現(xiàn)有6名患者的身高和體重,檢驗(yàn)體重除以身高的平方是否等于22.5。21第一種方式:從控制臺(tái)輸入數(shù)據(jù)數(shù)據(jù)量較少時(shí)可以從控制臺(tái)直接輸入: height-c(1.75, 1.80, 1.65, 1.90, 1.74, 1.91) weight-c(60, 72, 57, 90, 95, 72) sq.height-height2 ratio-weight/sq.height t.test(ratio, mu=22.5) 22圖14 在Excel中將數(shù)據(jù)

11、存為txt文件23例:t檢驗(yàn)(續(xù))一般從txt文檔讀取數(shù)據(jù)。每一行作為一個(gè)觀測(cè)值。每一行的變量用制表符,空格或逗號(hào)間隔開。read.table(”位置位置”, header=T)read.csv(”位置位置”,header=T)#從外部讀取數(shù)據(jù)data1-read.table(d:/t.test.data.txt,header=T)bmi- data1$weight/data1$height2t.test(bmi, mu=22.5) #t檢驗(yàn)24向量的創(chuàng)建四種類型的向量字符型character-c(China, Korea, Japan, UK, USA, France, India, Rus

12、sia) 數(shù)值型numeric-c(1, 3, 6, 7, 3, 8, 6, 4)邏輯型logical-c(T, F, T, F, T, F, F, T)復(fù)數(shù)型 略25向量的創(chuàng)建生成向量的函數(shù) c(),rep(),seq(),”:”c(2,5,6,9) rep(2,times=4) seq(from=3, to=21, by=3 ) 1 3 6 9 12 15 18 21“:” 1:15 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15通過與向量的組合,產(chǎn)生更為復(fù)雜的向量。rep(1:2,c(10,15)26向量創(chuàng)建產(chǎn)生隨機(jī)數(shù)rfunc(n,p1,p2,.),其中fu

13、nc指概率分布函數(shù),n為生成數(shù)據(jù)的個(gè)數(shù),p1, p2, . . .是分布的參數(shù)數(shù)值。上面的表給出了每個(gè)分布的詳情和可能的缺省值(如果沒有給出缺省值,則意味著用戶必須指定參數(shù))。用01之間的均勻分布產(chǎn)生10個(gè)隨機(jī)點(diǎn):runif(10) or runif(10, min = 0, max= 1) rnorm(10, mean = 0, sd = 1)大多數(shù)這種統(tǒng)計(jì)函數(shù)都有相似的形式,只需用d、p或者q去替代r,比如概率密度 (dfunc(x, .)dunif(x, min=0, max=1, log = FALSE) 累積函數(shù) punif(q, min=0, max=1, )分位數(shù) qunif(p

14、, min=0, max=1, )顯著性水平為5%的正態(tài)分布的雙側(cè)臨界值是: qnorm(0.025) -1.959964 qnorm(0.975)= 1.9599642728矩陣的創(chuàng)建生成矩陣的函數(shù) dim()和和matrix()dim() 定義矩陣的行列數(shù),例如:定義矩陣的行列數(shù),例如: x - 1:12 dim(x) - c(3,4) ,1 ,2 ,3 ,4 1, 1 4 7 10 2, 2 5 8 11 3, 3 6 9 12 matrix.x - matrix(1:12,nrow=3,byrow=T)t(x)#轉(zhuǎn)置為行或列添加名稱:s()s()29數(shù)據(jù)

15、框的創(chuàng)建創(chuàng)建數(shù)據(jù)框的函數(shù):data.frame(), as.data.frame(), cbind(), rbind()cbind() # 按列組合成數(shù)據(jù)框rbind() # 按行組合成數(shù)據(jù)框data.frame() #生成數(shù)據(jù)框head() #默認(rèn)訪問數(shù)據(jù)的前6行30工作空間imageR的所有對(duì)象都在計(jì)算機(jī)內(nèi)存的工作空間中。ls() 列出工作空間中的對(duì)象rm() 刪除工作空間中的對(duì)象rm(list=ls() 刪除空間中所有對(duì)象save.image() 保存工作鏡像sink() 將運(yùn)行結(jié)果保存到指定文件中g(shù)etwd() 顯示當(dāng)前工作文件夾setwd() 設(shè)定工作文件夾可將結(jié)果保存在image中

16、,形式為.Rdata文件,里面保存了R當(dāng)前工作空間中的各種對(duì)象,包括函數(shù)。31三 腳本編程Scripting32例-線性回歸轉(zhuǎn)速rpm 202224262830323436384042雜質(zhì)率%8.49.511.810.413.314.813.214.716.416.518.918.5n對(duì)一批涂料進(jìn)行研究,確定攪拌速度對(duì)雜質(zhì)含量的影響,數(shù)據(jù)如下,試進(jìn)行回歸分析表3 攪拌速度對(duì)涂料中雜質(zhì)的影響33腳本舉例#將以下代碼粘貼到編輯器中,另存為regression.r文件。rate-c(20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42)impurity -c(

17、8.4, 9.5, 11.8, 10.4, 13.3, 14.8, 13.2, 14.7, 16.4, 16.5, 18.9, 18.5)plot(impurityrate)regFileOpen Script #Ctrl+R運(yùn)行3 直接粘貼到R控制臺(tái)ctrl+c, ctrl+v第三種最為簡(jiǎn)單直接35四 R繪圖36圖19 R繪制的圖形37高級(jí)繪圖函數(shù)plot() 繪制散點(diǎn)圖等多種圖形,根據(jù)數(shù)據(jù)的類,調(diào)用相應(yīng)的函數(shù)繪圖hist() 頻率直方圖boxplot() 箱線圖stripchart() 點(diǎn)圖barplot() 柱狀圖dotplot() 點(diǎn)圖piechart() 餅圖matplot()數(shù)學(xué)圖

18、形38圖23 散點(diǎn)圖與箱線圖39低級(jí)繪圖函數(shù)lines()添加線curve()添加曲線abline()添加給定斜率的線points()添加點(diǎn)segments()折線arrows()箭頭axis()坐標(biāo)軸box()外框title()標(biāo)題text()文字mtext()圖邊文字40繪圖參數(shù)參數(shù)用在函數(shù)內(nèi)部,在沒有設(shè)定值時(shí)使用默認(rèn)值。font = 字體lty = 線類型lwd = 線寬度pch = 點(diǎn)的類型,xlab = 橫坐標(biāo)ylab = 縱坐標(biāo)xlim = 橫坐標(biāo)范圍ylim = 縱坐標(biāo)范圍也可以對(duì)整個(gè)要繪制圖形的各種參數(shù)進(jìn)行設(shè)定參見 par()41舉例:繪圖生成0到2之間的50個(gè)隨機(jī)數(shù),分別命名

19、為x,yx - runif(50,0,2)y - runif(50,0,2)繪圖:將主標(biāo)題命名為“散點(diǎn)圖”, 橫軸命名為”橫坐標(biāo)”, 縱軸命名為“縱坐標(biāo)”plot(x, y, main=散點(diǎn)圖散點(diǎn)圖, xlab=橫坐標(biāo)橫坐標(biāo), ylab=縱坐標(biāo)縱坐標(biāo))text(0.6,0.6,text at (0.6,0.6)abline(h=.6,v=.6)42圖24 繪圖舉例43例:分步繪圖1.打開繪圖窗口,不繪制任何對(duì)象plot(x, y, type=n, xlab=, ylab=, axes=F)2.添加坐標(biāo)點(diǎn)points(x,y) 3.添加坐標(biāo)軸axis(1); axis(at=seq(0.2,1.

20、8,0.2), side=2)4.補(bǔ)齊散點(diǎn)圖的邊框box() 5.添加標(biāo)題、副標(biāo)題、橫軸說明、縱軸說明title(main=Main title, sub=subtitle, xlab=x-label, ylab=y-label)44圖25 分步繪圖12345645一頁(yè)多圖圖26 一頁(yè)多圖par()par(mfrow=c(2,2).46在原有圖形上添加元素舉例:舉例:x - rnorm(100) # 生成隨機(jī)數(shù)hist(x,freq=F) # 繪制直方圖curve(dnorm(x),add=T) # 添加曲線h - hist(x, plot=F) # 繪制直方圖ylim - range(0,

21、h$density, dnorm(0) #設(shè)定縱軸的取值范圍hist(x, freq=F, ylim=ylim) #繪制直方圖curve(dnorm(x),add=T,col=red) #添加曲線47圖27 在原有直方圖上添加曲線48五 編寫函數(shù)49編程基礎(chǔ) R可以靈活的編寫程序,用戶自己編寫的程序可以直接調(diào)用。編程時(shí)無需聲明變量的類型,這與C,C+等語言不同。基本格式 函數(shù)名函數(shù)名 - function(數(shù)據(jù)數(shù)據(jù),參數(shù)參數(shù)1= 默認(rèn)值默認(rèn)值,) 異常處理; 表達(dá)式(循環(huán)/判別); return(返回值); 函數(shù)內(nèi)部也可用#添加注釋50函數(shù)實(shí)例圖28 函數(shù)實(shí)例 data2mat()51程序流程

22、控制 ifif(條件) 表達(dá)式 if(條件) 表達(dá)式1 else 表達(dá)式2 舉例p = 0.03if(p=0.05) print(p 0.05!)52循環(huán)循環(huán) for, whilefor(變量 in 向量) 表達(dá)式用法: for(i in 1:10) print(i)while(條件) 表達(dá)式 用法:i - 1while(i10) print(i) i - i + 153返回值返回值表示函數(shù)輸出的結(jié)果。返回值必須是一個(gè)對(duì)象。R默認(rèn)將最后一行作為返回值。如果函數(shù)的結(jié)果需要有多個(gè)返回值,可以創(chuàng)建一個(gè)list(),并返回該對(duì)象。也可以用return()函數(shù),設(shè)定返回值。但是一個(gè)函數(shù)的返回的對(duì)象只有一

23、個(gè)。54異常處理如數(shù)據(jù)輸入不能滿足要求,或者參數(shù)設(shè)定錯(cuò)誤等等,可能造成函數(shù)給出錯(cuò)誤的結(jié)果,則需要對(duì)函數(shù)的運(yùn)行過程發(fā)出警告或終止,以提高程序的穩(wěn)健性。警告的寫法if(any(is.na(inputdata)inputdata - na.omit(inputdata)cat(“NAs are found in the input data, and has been removed.n)終止的寫法if(any(is.na(xx)stop(NAs are not allowed!n)55函數(shù)舉例問題:輸入直角三角形的兩個(gè)邊長(zhǎng),求其斜邊長(zhǎng)。定義函數(shù):rcal - function(x,y) z - x

24、2 + y2 result - sqrt(z) return(result)調(diào)用函數(shù):rcal(3,4)56write.table()write.csv()save.image()sink()unlink()若有LaTeX基礎(chǔ),可以用Sweave() 函數(shù)該函數(shù)能將腳本、程序說明和運(yùn)算結(jié)果直接保存成.tex文件,用LaTeX編譯成pdf文件。六數(shù)據(jù)保存常用概率分布常用概率分布重點(diǎn)回顧生物科學(xué)研究中常用的幾種隨機(jī)變量的概率分布重點(diǎn)回顧生物科學(xué)研究中常用的幾種隨機(jī)變量的概率分布正態(tài)分布、正態(tài)分布、二項(xiàng)分布、二項(xiàng)分布、波松分布波松分布 如果表示試驗(yàn)結(jié)果的變量如果表示試驗(yàn)結(jié)果的變量x,其可能取值至多為

25、可列個(gè),其可能取值至多為可列個(gè) ,且且 以各種確定的概率取這些不同的值以各種確定的概率取這些不同的值 , 則則 稱稱 x 為為 離離 散散 型型 隨隨 機(jī)機(jī) 變變 量量 ( discrete random variable); 如果表示試驗(yàn)結(jié)果的變量如果表示試驗(yàn)結(jié)果的變量x ,其可能取值為某范圍內(nèi)的任,其可能取值為某范圍內(nèi)的任何數(shù)值何數(shù)值 ,且,且x在其取值范圍內(nèi)的任一區(qū)間中取值時(shí),其概率在其取值范圍內(nèi)的任一區(qū)間中取值時(shí),其概率是確定的,則稱是確定的,則稱x為為 連續(xù)連續(xù) 型型 隨隨 機(jī)機(jī) 變變 量量 ( continuous random variable)。 59要了解離散型隨機(jī)變量要了解

26、離散型隨機(jī)變量x的統(tǒng)計(jì)規(guī)律,就必須的統(tǒng)計(jì)規(guī)律,就必須 知知 道它的一切道它的一切可能值可能值xi及取每種可能值的概率及取每種可能值的概率pi。 如果我們將離散型隨機(jī)變量如果我們將離散型隨機(jī)變量x的一切可能取值的一切可能取值xi ( i=1, 2 , ),及其對(duì)應(yīng)的概率及其對(duì)應(yīng)的概率pi,記作,記作 P(x=xi)=pi i=1,2, (43) 則稱則稱 (43)式為離散型隨機(jī)變量)式為離散型隨機(jī)變量x的概率分布或分布。的概率分布或分布。常用常用 分分 布布 列列 (distribution series)來表示離散型隨機(jī)變量:來表示離散型隨機(jī)變量: x1 x2 xn .p1 p2 pn 顯然離

27、散型隨機(jī)變量的概率分布具有顯然離散型隨機(jī)變量的概率分布具有pi0和和pi=1這兩個(gè)基本性質(zhì)。這兩個(gè)基本性質(zhì)。 連續(xù)型隨機(jī)變量的概率分布連續(xù)型隨機(jī)變量的概率分布 連續(xù)型隨機(jī)變量連續(xù)型隨機(jī)變量 (如體長(zhǎng)、體重、蛋重如體長(zhǎng)、體重、蛋重)的概率分布不的概率分布不能用分布列來表示,能用分布列來表示, 因?yàn)槠淇赡苋〉闹凳遣豢蓴?shù)的。我因?yàn)槠淇赡苋〉闹凳遣豢蓴?shù)的。我們改用隨機(jī)變量們改用隨機(jī)變量x在某個(gè)區(qū)間內(nèi)取值的概率在某個(gè)區(qū)間內(nèi)取值的概率P(axb)來表來表示。示。 下面通過頻率分布密度曲線予以說明。下面通過頻率分布密度曲線予以說明。 60若記概率分布密度函數(shù)為若記概率分布密度函數(shù)為f(x),則,則x取值于區(qū)

28、間取值于區(qū)間a,b)的概)的概率為圖中陰影部分的面積,即率為圖中陰影部分的面積,即 P(axb)= 式式 為為 連連 續(xù)續(xù) 型型 隨機(jī)變量隨機(jī)變量 x 在在 區(qū)間區(qū)間a,b)上取值概率的表達(dá)式。)上取值概率的表達(dá)式??梢?,連續(xù)型隨機(jī)變量的概率由概率分布密度函數(shù)確定。可見,連續(xù)型隨機(jī)變量的概率由概率分布密度函數(shù)確定。badxxf)( 連續(xù)型隨機(jī)變量概率分布的性質(zhì):連續(xù)型隨機(jī)變量概率分布的性質(zhì): 1、分布密度函數(shù)總是大于或等于、分布密度函數(shù)總是大于或等于0,即,即f(x)0; 2、當(dāng)隨機(jī)變量、當(dāng)隨機(jī)變量x取某一特定值時(shí),其概率等于取某一特定值時(shí),其概率等于0;即;即 (c為任意實(shí)數(shù)為任意實(shí)數(shù)) 因

29、而,對(duì)于連續(xù)型隨機(jī)變量,僅研究其在某一個(gè)區(qū)間內(nèi)取因而,對(duì)于連續(xù)型隨機(jī)變量,僅研究其在某一個(gè)區(qū)間內(nèi)取值的概率,而不去討論取某一個(gè)值的概率。值的概率,而不去討論取某一個(gè)值的概率。 ccdxxfcxP0)()(3、 在在 一次試驗(yàn)中一次試驗(yàn)中 隨機(jī)變量隨機(jī)變量x之取值之取值 必在必在 -x+范圍內(nèi),為一必然事件。所以范圍內(nèi),為一必然事件。所以 表示分布密度曲線下、橫軸上的全表示分布密度曲線下、橫軸上的全 部面積為部面積為1。 1)()(dxxfxP一、正態(tài)分布的定義及其特征一、正態(tài)分布的定義及其特征 (一)(一) 正態(tài)分布的定義正態(tài)分布的定義 若連續(xù)型隨機(jī)變量若連續(xù)型隨機(jī)變量x的概率分布密的概率分布

30、密度函數(shù)為度函數(shù)為 其中其中為平均數(shù),為平均數(shù),2為方差,則稱隨機(jī)變量為方差,則稱隨機(jī)變量x服從正態(tài)分布服從正態(tài)分布(normal distribution), 記為記為xN(,2)。相應(yīng)的概率分布函。相應(yīng)的概率分布函數(shù)為數(shù)為 222)(21)(xexfxxdxexF222)(21)( (二二) 正態(tài)分布的特征正態(tài)分布的特征 1、正態(tài)分布密度曲線是單峰、對(duì)稱的懸鐘形曲線,對(duì)稱軸、正態(tài)分布密度曲線是單峰、對(duì)稱的懸鐘形曲線,對(duì)稱軸為為x=; 2、f(x) 在在 x = 處達(dá)處達(dá) 到到 極極 大大 , 極大值極大值 ; 3、f(x)是非負(fù)函數(shù),以是非負(fù)函數(shù),以x軸為漸近線,分布從軸為漸近線,分布從-

31、至至+; 21)(f4、曲線在、曲線在x=處各有一個(gè)拐點(diǎn),即曲線在處各有一個(gè)拐點(diǎn),即曲線在(-,-)和和(+,+) 區(qū)區(qū)間上是下凸的,在間上是下凸的,在-,+區(qū)間內(nèi)是上凸的;區(qū)間內(nèi)是上凸的; 5、正態(tài)分布有兩個(gè)參數(shù),即平均數(shù)、正態(tài)分布有兩個(gè)參數(shù),即平均數(shù)和標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)差。 是位置參數(shù),當(dāng)是位置參數(shù),當(dāng)恒定時(shí),恒定時(shí),愈大,則曲線沿愈大,則曲線沿x軸愈向右移動(dòng);軸愈向右移動(dòng);反之,反之,愈小,曲線沿愈小,曲線沿x軸愈向左移動(dòng)。軸愈向左移動(dòng)。 是變異度參數(shù),是變異度參數(shù), 當(dāng)當(dāng)恒定時(shí),恒定時(shí), 愈大,表示愈大,表示 x 的取值愈分散,的取值愈分散, 曲線愈曲線愈“胖胖”;愈小,愈小,x的取值愈集中

32、在的取值愈集中在附近,曲線愈附近,曲線愈“瘦瘦”。 我們稱我們稱=0,2=1的正態(tài)分布為標(biāo)準(zhǔn)正態(tài)分布的正態(tài)分布為標(biāo)準(zhǔn)正態(tài)分布(standard normal distribution)。 標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)及分布函數(shù)分別記作標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)及分布函數(shù)分別記作(u)和和(u),由,由 (4-6)及及(4-7) 式得:式得: 隨機(jī)變量隨機(jī)變量u服從標(biāo)準(zhǔn)正態(tài)分布,記作服從標(biāo)準(zhǔn)正態(tài)分布,記作uN(0,1),2221)(ueudueuuu22121)( 對(duì)于任何一個(gè)服從正態(tài)分布對(duì)于任何一個(gè)服從正態(tài)分布N(,2)的隨機(jī)變量的隨機(jī)變量x,都可以通,都可以通過標(biāo)準(zhǔn)化變換:過標(biāo)準(zhǔn)化變換: u=

33、(x-) 將將 其變換為服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量其變換為服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量u。 u 稱稱 為為 標(biāo)標(biāo) 準(zhǔn)準(zhǔn) 正正 態(tài)變量或標(biāo)準(zhǔn)正態(tài)離差態(tài)變量或標(biāo)準(zhǔn)正態(tài)離差(standard normal deviate)。 三、正態(tài)分布的概率計(jì)算三、正態(tài)分布的概率計(jì)算 (一)標(biāo)準(zhǔn)正態(tài)分布的概率計(jì)算(一)標(biāo)準(zhǔn)正態(tài)分布的概率計(jì)算 設(shè)設(shè)u服從標(biāo)準(zhǔn)正態(tài)分布,則服從標(biāo)準(zhǔn)正態(tài)分布,則 u 在在u1,u2 )何內(nèi)取值的概率為)何內(nèi)取值的概率為: (u2)(u1)而而(u1)與與(u2)可由附表可由附表1查得。查得。 dueduedueuuuPuuuuuuu122221221212121212121)(U1 U2

34、例如,例如,u=1.75 ,1.7放在第一列放在第一列0.05放在第一行放在第一行 。 在附表在附表1中中 , 1.7所在行與所在行與 0.05 所在列相交處的數(shù)值為所在列相交處的數(shù)值為0.95994,即,即 (1.75)=0.95994 有有 時(shí)時(shí) 會(huì)會(huì) 遇遇 到到 給給 定定 (u) 值值 , 例例 如如 (u)=0.284, 反過反過來查來查u值。這只要在附表值。這只要在附表1中找到與中找到與 0.284 最接近的值最接近的值0.2843,對(duì)應(yīng)行的第一列數(shù)對(duì)應(yīng)行的第一列數(shù) -0.5, 對(duì)應(yīng)列的第一行數(shù)對(duì)應(yīng)列的第一行數(shù) 值值 0.07 ,即相應(yīng)的,即相應(yīng)的u值為值為 u = - 0.57,

35、即,即 (-0.57)=0.284 如果要求更精確的如果要求更精確的u值,可用線性插值法計(jì)算。值,可用線性插值法計(jì)算。 關(guān)于標(biāo)準(zhǔn)正態(tài)分布,以下幾種概率應(yīng)當(dāng)熟記:關(guān)于標(biāo)準(zhǔn)正態(tài)分布,以下幾種概率應(yīng)當(dāng)熟記: P(-1u1)=0.6826 P(-2u2)=0.9545 P(-3u3)=0.9973 P(-1.96u1.96)=0.95P (-2.58u2.58)=0.99 這表明服從正態(tài)分布這表明服從正態(tài)分布N(,2)的隨機(jī)變量的隨機(jī)變量x 在在 x1 ,x2 )內(nèi))內(nèi)取值的概率取值的概率 , 等等 于服于服 從從 標(biāo)標(biāo) 準(zhǔn)準(zhǔn) 正正 態(tài)態(tài) 分分 布布 的的 隨隨 機(jī)機(jī) 變變 量量 u 在在(x1-)/

36、, (x2-)/)內(nèi)取值的概率)內(nèi)取值的概率 。 因此,計(jì)算一般正態(tài)分布的概率時(shí),因此,計(jì)算一般正態(tài)分布的概率時(shí), 只要將區(qū)間的上下限只要將區(qū)間的上下限作適當(dāng)變換作適當(dāng)變換(標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化), 就可用查標(biāo)準(zhǔn)正態(tài)分布的概率表的方法就可用查標(biāo)準(zhǔn)正態(tài)分布的概率表的方法求得概率了。求得概率了。 設(shè)設(shè)x服從服從=30.26,2=5.102的正態(tài)分布,試求的正態(tài)分布,試求P(21.64x32.98)。 令令 則則u服從標(biāo)準(zhǔn)正態(tài)分布,故服從標(biāo)準(zhǔn)正態(tài)分布,故 =P(-1.69u0.53) =(0.53)-(-1.69) =0.7019-0.04551 =0.6564 )10. 526.3098.3210. 52

37、6.3010. 526.3064.21()98.3264.21(xPxP10.526.30 xu關(guān)于一般正態(tài)分布,以下幾個(gè)概率關(guān)于一般正態(tài)分布,以下幾個(gè)概率(即隨機(jī)變量即隨機(jī)變量x落在落在加減不同倍數(shù)加減不同倍數(shù)區(qū)間的概率區(qū)間的概率)是經(jīng)常用到的。是經(jīng)常用到的。 P(-x+)=0.6826 P(-2x+2) =0.9545 P (-3x+3) =0.9973 P (-1.96x+1.96) =0.95 P (-2.58x+2.58)=0.9971設(shè)X服從平均值為1,標(biāo)準(zhǔn)差為2的正態(tài)分布(高斯分布),即X N(1, 4),求P0X1.6解:這里X是一個(gè)連續(xù)型隨機(jī)變量。求X在某段區(qū)間上的概率,用X

38、的分布函數(shù)在區(qū)間兩端的值的差。方法一:P0 pnorm(1.6, 1, 2) - pnorm(0, 1, 2)1 0.3093739方法二:轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布。Px1 X x2=P(x1-)/ (X-)/(x1-)/=(x2-)/) -(x1-)/)即P0 pnorm(1.6-1)/2) - pnorm(0-1)/2) #pnorm函數(shù)的缺省參數(shù)mean=0,sd=1,即默認(rèn)標(biāo)準(zhǔn)正態(tài)分布1 0.3093739二項(xiàng)分布二項(xiàng)分布 一、貝努利試驗(yàn)及其概率公式一、貝努利試驗(yàn)及其概率公式 將某隨機(jī)試驗(yàn)重復(fù)進(jìn)行將某隨機(jī)試驗(yàn)重復(fù)進(jìn)行n次,若各次試驗(yàn)結(jié)果互不影響次,若各次試驗(yàn)結(jié)果互不影響 , 即即每次試驗(yàn)結(jié)果

39、出現(xiàn)的概率都不依賴于其它各次試驗(yàn)的結(jié)果,則每次試驗(yàn)結(jié)果出現(xiàn)的概率都不依賴于其它各次試驗(yàn)的結(jié)果,則稱這稱這n次試驗(yàn)是獨(dú)立的。次試驗(yàn)是獨(dú)立的。 對(duì)于對(duì)于n次獨(dú)立的試驗(yàn)次獨(dú)立的試驗(yàn) , 如果每次試驗(yàn)結(jié)果出現(xiàn)且只出現(xiàn)對(duì)立如果每次試驗(yàn)結(jié)果出現(xiàn)且只出現(xiàn)對(duì)立事件事件A與與 之一,之一, 在每次試驗(yàn)中出現(xiàn)在每次試驗(yàn)中出現(xiàn)A的概率是常數(shù)的概率是常數(shù)p(0p 1 - sum(pbinom(0:1, 400, 0.02)1 0.996856178二項(xiàng)分布記為X b(n,p),E(x)=np,Var(x)=np(1-p)pbinom(q,size,prob), q是特定取值,比如pbinom(8,20,0.2)指第8

40、次伯努利實(shí)驗(yàn)的累計(jì)概率。size指總的實(shí)驗(yàn)次數(shù),prob指每次實(shí)驗(yàn)成功發(fā)生的概率dbinom(x,size,prob), x同上面的q同含義。dfunction()對(duì)于離散分布來說結(jié)果是特定值的概率,對(duì)連續(xù)變量來說是密度(Density)rbinom(n, size, prob),產(chǎn)生n個(gè)b(size,prob)的二項(xiàng)分布隨機(jī)數(shù) 二項(xiàng)分布的應(yīng)用條件有三:二項(xiàng)分布的應(yīng)用條件有三: (1)各觀察單位)各觀察單位 只具有互相對(duì)立只具有互相對(duì)立 的一種結(jié)果,如陽性或陰性的一種結(jié)果,如陽性或陰性, 生存或死亡等,生存或死亡等, 屬于二項(xiàng)分類資料;屬于二項(xiàng)分類資料; (2)已知發(fā)生某一結(jié)果)已知發(fā)生某一結(jié)

41、果 (如死亡如死亡) 的概率為的概率為p,其對(duì)立結(jié)果的,其對(duì)立結(jié)果的概率則為概率則為1-P=q,實(shí)際中要求,實(shí)際中要求p 是從大量觀察中獲得的比較穩(wěn)定是從大量觀察中獲得的比較穩(wěn)定的數(shù)值;的數(shù)值; (3)n個(gè)觀察單位的觀察結(jié)果互相獨(dú)立,即每個(gè)觀察單位的觀個(gè)觀察單位的觀察結(jié)果互相獨(dú)立,即每個(gè)觀察單位的觀察結(jié)果不會(huì)影響到其它觀察單位的觀察結(jié)果。察結(jié)果不會(huì)影響到其它觀察單位的觀察結(jié)果。波松分布波松分布 波松分布是一種波松分布是一種 可以用來描述和分析隨機(jī)地發(fā)生在單位空可以用來描述和分析隨機(jī)地發(fā)生在單位空間或間或 時(shí)間里的稀有事件的概率分布。要觀察到這類事件,樣本時(shí)間里的稀有事件的概率分布。要觀察到這類

42、事件,樣本含量含量 n 必須很大必須很大 。 泊松分布的參數(shù)是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生率.泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。如某一服務(wù)設(shè)施在一定時(shí)間內(nèi)到達(dá)的人數(shù),電話交換機(jī)接到呼叫的次數(shù),汽車站臺(tái)的候客人數(shù),機(jī)器出現(xiàn)的故障數(shù),自然災(zāi)害發(fā)生的次數(shù)等等. 在生物、醫(yī)學(xué)研究中,服從波松分布的隨機(jī)變量是常見的。在生物、醫(yī)學(xué)研究中,服從波松分布的隨機(jī)變量是常見的。如,如, 一定畜群中某種患病率很低的非傳染性疾病患病數(shù)或死亡一定畜群中某種患病率很低的非傳染性疾病患病數(shù)或死亡數(shù),數(shù), 畜群中遺傳的畸形怪胎數(shù),畜群中遺傳的畸形怪胎數(shù), 每升飲水中大腸桿菌數(shù),計(jì)每升飲水中大腸桿菌

43、數(shù),計(jì)數(shù)器小方格中血球數(shù),數(shù)器小方格中血球數(shù), 單位空間中某些野生動(dòng)物或昆蟲數(shù)等,單位空間中某些野生動(dòng)物或昆蟲數(shù)等,都是服從波松分布的。都是服從波松分布的。 一、波松分布的意義一、波松分布的意義 若隨機(jī)變量若隨機(jī)變量x(x=k)只取零和正整數(shù)值只取零和正整數(shù)值0,1,2,且其概,且其概率分布為率分布為 , k=0,1, 其中其中0;e=2.7182 是自然對(duì)數(shù)的底數(shù),則是自然對(duì)數(shù)的底數(shù),則 稱稱 x 服服 從從 參參 數(shù)數(shù) 為為 的的 波波 松分布松分布(Poissons distribution),記,記 為為 xP()。 ekkxPk!)(波松分布重要的特征:波松分布重要的特征: 平均數(shù)和

44、方差相等,都等于常數(shù)平均數(shù)和方差相等,都等于常數(shù),即,即 =2=【例例】 調(diào)查某種豬場(chǎng)閉鎖育種群仔豬畸形數(shù),共記錄調(diào)查某種豬場(chǎng)閉鎖育種群仔豬畸形數(shù),共記錄200窩窩, 畸形仔豬數(shù)的分布情況如表所示。試判斷畸形仔豬數(shù)是否畸形仔豬數(shù)的分布情況如表所示。試判斷畸形仔豬數(shù)是否服從波松分布。服從波松分布。 樣本均數(shù)和方差樣本均數(shù)和方差S2計(jì)算結(jié)果如下:計(jì)算結(jié)果如下: =fk/n =(1200+62 +152+23+14)/200 =0.51 x83將將0.51代替公式中的代替公式中的得:得: (k=0,1,2,) 因?yàn)橐驗(yàn)閑-0.51=1.6653,所以畸形仔豬數(shù)各項(xiàng)的概率為:,所以畸形仔豬數(shù)各項(xiàng)的概率為: P(x=0)=0.510(0!1.6653)=0.6005P(x=1)=0.511(1!1.6653)=0.3063P(x=2)=0.512(2!1.6653)=0.0781 51.0!51.0)(ekkxPkP(x=3)=0.513(3!1.6653)=0.0133P(x=4)=0.514(4!1.6653)=0.0017 把上面各項(xiàng)概率乘以總觀察窩數(shù)把上面各項(xiàng)概率乘以總觀察窩數(shù)(n=200)即得各項(xiàng)按波

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論