概率與抽樣分布培訓課件.ppt_第1頁
概率與抽樣分布培訓課件.ppt_第2頁
概率與抽樣分布培訓課件.ppt_第3頁
概率與抽樣分布培訓課件.ppt_第4頁
概率與抽樣分布培訓課件.ppt_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第3章 概率與抽樣分布Probability and Sampling Distributions精品Section 3.1Random Variables隨機變量精品 事件的實際發(fā)生率稱為頻率。設在相同條件下,獨立重復進行n次試驗,事件A出現f 次,則事件A出現的頻率為f/n。 概率:隨機事件發(fā)生的可能性大小,用大寫的P 表示;取值0,1。 一、頻率與概率frequency and probability精品 1. 樣本頻率總是圍繞概率上下波動 2. 樣本含量n越大,波動幅度越小,頻率越接近概率。頻率與概率的關系:調查株數(n)52550100200500100015002000受害株數(a

2、) 21215 33 72177 351 525 704棉株受害頻率(a/n)0.400.480.300.330.360.3540.3510.3500.352表 在相同條件下盲蝽象在某棉田危害程度的調查結果一、頻率與概率frequency and probability精品一、頻率與概率frequency and probability 小概率原理 若事件A發(fā)生的概率較小,如小于0.05或0.01,則認為事件A在一次試驗中不太可能發(fā)生,這稱為小概率事件實際不可能性原理,簡稱小概率原理。這里的0.05或0.01稱為小概率標準,農業(yè)試驗研究中通常使用這兩個小概率標準。精品二、隨機變量用以記錄隨機試

3、驗結果(outcome)的變量,稱為隨機變量(random variable),用大寫英文字母X, Y 等代表。隨機變量X的概率分布,表達 X 的可能取值和取這些值的概率規(guī)則。精品離散型和連續(xù)型隨機變量隨機變量的可能取值是離散的數字,如計數型或分類型等,稱為離散型隨機變量(discrete random variable)。0, 1, 9 。20次實驗中成功的次數, 二項式分布。隨機變量的可能取值是某一實數的區(qū)間,如“大于0”或“-22之間”等,稱為連續(xù)型隨機變量(continuous random variable)。正態(tài)隨機變量二、隨機變量精品三、離散型隨機變量的概率分布X = xix1

4、,x2 , ,xnP(X =xi)=pip1 ,p2 , ,pn列出離散型隨機變量X的所有可能取值列出隨機變量取這些值的概率通常用下面的表格來表示P(X =xi)=pi稱為離散型隨機變量的概率函數精品四、連續(xù)型隨機變量的概率密度若觀察資料數量夠大,則直方圖(組數適當增加)的整體形態(tài)可用一近似的平滑曲線顯示。直方圖中縱軸改為次數比例,則該平滑曲線稱為密度曲線(density curve)。精品概率密度曲線精品密度曲線的性質曲線都在水平線上 (密度函數=0)。曲線下所涵蓋的全部面積正好為1(所有可能性為1)。曲線下任何范圍所涵蓋的面積,為觀察值落在該范圍的比例(概率)。密度曲線可視為是觀察變量的理

5、論分布圖形。 四、連續(xù)型隨機變量的概率密度精品隨機變量X的一切可能取值的完備組中,各可能取值xi與其相對應的概率pi乘積之和描述隨機變量取值的集中程度計算公式為五、隨機變量的數學期望精品隨機變量X的每一個取值與期望值的離差平方和的數學期望,記為D(X)描述離散型隨機變量取值的分散程度計算公式為六、隨機變量的方差精品Section 3.2The Binomial Distributions二項分布精品一、二項分布設定The Binomial Setting固定的觀察次數 n。n 次的觀察都獨立,每次的觀察都不會對其他觀察提供任何信息。每次的觀察都只有兩種可能的結果,多假設為“成功”或“失敗”兩種

6、。每次的觀察“成功”的概率都一樣,設定為 p。精品二、二項分布Binomial Distribution滿足二項分布設定的試驗,以 X 記錄 n次觀察中“成功”的次數,則稱 X 的分布為參數為 n 與 p 的二項分布(binomial),記為B(n, p)。X 的所有可能取值為0, 1, , n。對應的概率函數為 P(X = x) = P(x)。精品 例1 某種昆蟲在某地區(qū)的死亡率為40%,即p=0.4,現對這種害蟲用一種新藥進行治療試驗,每次抽樣10頭作為一組治療。試問如新藥無療效,則在10頭中死3頭、2頭、1頭,以及全部愈好的概率為多少?按上述二項分布概率函數式計算 7頭愈好,3頭死去概率

7、:8頭愈好,2頭死去概率:9頭愈好,1頭死去概率:10頭全部愈好的概率: 三、示例精品 若問10頭中不超過2頭死去的概率為多少?則應該應用累積函數,即三、示例精品四、二項分布的期望值與標準差期望值: E(X) = np方差: Var(X) = np(1-p)標準差:精品Section 3.3Normal Distributions正態(tài)分布精品一、特點正態(tài)曲線所有正態(tài)曲線都有相同的外型具有對稱、單峰及鐘形的特性。正態(tài)曲線所代表的分布即為正態(tài)分布(normal distribution)每一正態(tài)分布都有其平均值 與標準差精品ms一、特點精品正態(tài)曲線較大ms一、特點精品正態(tài)曲線的拐點拐點落在一個處拐

8、點落在-處一、特點精品二、為什么這么重要Good descriptions for some distributions of real data身高, 體重, 考試成績Good approximations to the results of many kinds of chance outcomesTossing a coin many timesMany statistical inference procedures are based on normal distributions精品三、68-95-99.7規(guī)則正態(tài)分布有其特定的數據分布規(guī)則:平均值為 , 標準差為 的正態(tài)分布68%

9、的觀察資料落在m 的 1 之內95%的觀察資料落在m 的 2 之內99.7%的觀察資料落在m 的 3 之內精品0123-1-2-3mm+sm+2sm+3sm-sm-2sm-3s68% 的資料95% 的資料99.7% 的資料三、68-95-99.7規(guī)則精品四、變量標準化(Standardization)令觀察值 x 服從平均值為 ,標準差為 的分布,則 x 的標準化值(standardized value)定義為標準化值又稱為 z-值(z-score)。精品標準化變量可以證明z的平均值為0z的標準差為1四、變量標準化(Standardization)精品五、標準正態(tài)分布變量 X 服從平均值為 ,

10、標準差為 的正態(tài)分布,簡記為 X N(, 2)。X 經過標準化后為 Z(=(X-)/ s ),則 Z 也服從正態(tài)分布,并且平均值為 0 ,標準差為 1,即Z N(0, 1)。我們稱 Z 服從標準正態(tài)(standard normal)。精品六、標準正態(tài)表z表列數字是z左邊的面積z = - 0.44z左邊的面積為0.33- 0.440.33精品z表列數字是z左邊的面積z = 0.44z左邊的面積為0.67六、標準正態(tài)表精品七、雙側臨界值在標準正態(tài)曲線圖下, 右方與 左方的面積和為 a ,則稱 為標準正態(tài)分布概率為 a 的雙側臨界值。可查表。m = 0面積為a/2面積為a/2精品八、單側臨界值在標準

11、正態(tài)曲線圖下, 右方的面積為 a ,則稱 為標準正態(tài)分布概率為 a 的單側臨界值。可查表。m = 0面積為a精品 例2 假定y是一隨機變數具有正態(tài)分布,平均數 =30,標準差 =5,試計算小于26,小于40的概率,介乎26和40區(qū)間的概率以及大于40的概率。首先計算:先將x轉換為u值 九、計算精品同理可得: FN(40)=0.9773 所以:P(26x40)=FN(40)FN(26)=0.97730.2119 = 0.7654 P(x40)=1P(x40)=10.9773 =0.0227 查附表,當u=0.8時,FN(26)=0.2119,說明這一分布從到26范圍內的變量數占全部變量數的21.

12、19%,或者說,x26概率為0.2119.九、計算精品 例3 在應用正態(tài)分布時,經常要討論隨機變數x離其平均數的差數大于或小于若干個值的概率。例如計算離均差絕對值等于小于和等于大于1 的概率為:也可以簡寫為 九、計算精品 相應地,離均差絕對值等于小于2 、等于大于2 、等于小于3 和等于大于3 的概率值為:九、計算精品 例4 計算正態(tài)分布曲線的中間概率為0.99時,其y或u值應等于多少? 因為正態(tài)分布是對稱的,故在曲線左邊從到 u的概率和在曲線右邊從u到的概率都應等于1/2(10.99)=0.005。 查表,u=2.58時, fN(x) =0.004940.005。 于是知,當 2.58時,在

13、其范圍內包括99%的變量,僅有1%變量在此范圍之外。上述結果寫作:九、計算精品同理可求得:九、計算精品同理, 亦可寫成: 以上 乃正態(tài)曲線下左邊一尾x從到 上的面積和右邊一尾y從 到上的面積之和,亦可寫成:九、計算精品Section 3.4Sampling Distributions抽樣分布精品一、總體與樣本 population and sample總體:根據研究目的確定的同質研究對象的全體(集合)。分有限總體與無限總體樣本:從總體中隨機抽取的部分研究對象 精品二、總體容量與樣本容量population size and sample size總體容量(N):總體中所包含的個體數目。根據N大

14、小,總體分有限總體和無限總體樣本(n):從總體中隨機抽取的部分研究對象 精品三、隨機抽樣 random sampling為了保證樣本的可靠性和代表性,需要采用隨機的方法抽取樣本(在總體中每個個體具有相同的機會被抽到)。精品四、參數與統(tǒng)計量parameter and statistic參數:總體的統(tǒng)計指標,如總體均數、標準差,采用希臘字母分別記為、。固定的常數 總體樣本抽取部分觀察單位 統(tǒng)計量 參 數 推斷inference統(tǒng)計量:樣本的統(tǒng)計指標,如樣本均數、標準差,采用英文字母分別記為 。 參數附近波動的隨機變量 。精品五、總體均值、方差與標準差總體均值總體方差總體標準差精品六、樣本均值、方差

15、與標準差總體均值總體方差總體標準差精品七、樣本的概率分布統(tǒng)計量(為樣本的函數),亦為隨機變量,其概率分布稱為抽樣分布(sampling distribution)。一般統(tǒng)計量的抽樣分布,則多根據重復抽樣(實驗)結果來了解其概率分布。 的抽樣分布大數法則,中心極限定理精品八、大數法則由具有有限(finite)平均數 m 的總體隨機抽樣,隨著樣本容量的增加,樣本平均數 越接近總體的均數 m 。樣本平均數的這種行為稱為大數法則(law of large numbers)。精品以 代表樣本容量為 n 的資料平均數,逐漸增加樣本容量,將 n 及對應的 圖示如后。八、大數法則精品Number of obs

16、ervations, n前 n個樣本的均數2223242526272829303132331510501005001000500010000八、大數法則精品九、樣本平均數的均數與標準差令 為樣本容量為 n 的一組SRS的平均數,其總體平均數為 m 與標準差為 s。則 的分布平均數為 m 與標準差為 。因為 的分布平均數也是 m,故 又稱為 m 的不偏估計。樣本容量越大,則樣本平均數 的變異越小。精品十、正態(tài)的樣本平均數的分布若總體服從正態(tài) N(m, s2) ,則SRS的平均數 也服從正態(tài) N(m, )。精品十一、中心極限定理(CLT)若總體平均數為 m 、標準差為 s ,當樣本容量夠大時,則SRS的平均數 的分布近似正態(tài) N(m, )。我們稱之為中心極限定理(Central Limit Theorem)???/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論