抽樣與抽樣分布課件_第1頁
抽樣與抽樣分布課件_第2頁
抽樣與抽樣分布課件_第3頁
抽樣與抽樣分布課件_第4頁
抽樣與抽樣分布課件_第5頁
已閱讀5頁,還剩66頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、你不必吃完整一頭牛,才知道它的肉是咬不動的。 Samel Johnson第 6 章 抽樣與抽樣分布作者:中國人民大學(xué)統(tǒng)計學(xué)院賈俊平PowerPoint統(tǒng)計學(xué)統(tǒng)計應(yīng)用“抓鬮”征兵計劃 在美國的對越戰(zhàn)爭中,為使前線有足夠的士兵,美國政府制定了一個“抓鬮”的征兵計劃。該計劃打算把1到366的號碼隨機(jī)地分配給一年中每一天,然后由軍事部門按分配的號碼順序把生日與之對應(yīng)的年輕人分批征召入伍。這種方法的目的是為了給大家相等的機(jī)會卷入這場不受歡迎的戰(zhàn)爭中,因此被征召的可能性應(yīng)該是隨機(jī)的在第一年的征兵計劃中,號碼1被分配給了9月14日,分配方法是隨機(jī)抽取一個大容器中的366個寫上了日子的乒乓球。結(jié)果所有年滿18

2、歲且生于9月14日的合格青年將作為第一批被征召入伍。生日被分配為號碼2的青年則在第二批被征召入伍,以此類推統(tǒng)計應(yīng)用“抓鬮”征兵計劃我們知道,并不是所有的人都被征召入伍,因此,生日被分配的號碼較大的人也許永遠(yuǎn)輪不上到軍隊服役這種抓鬮看起來對決定應(yīng)該被征召入伍是一個相當(dāng)不錯的方法。然而,在抓鬮的第二天,當(dāng)所有的日子和它們對應(yīng)的號碼公布以后,統(tǒng)計學(xué)家們開始研究這些數(shù)據(jù)。經(jīng)過觀察和計算,統(tǒng)計學(xué)家們發(fā)現(xiàn)了一些規(guī)律。例如,我們本應(yīng)期望應(yīng)該有差不多一半的較小的號碼(1到183)被分配給前半年的日子,即從1月份到6月份;另外一半較小的號碼被分配給后半年的日子,從7月到12月份。由于抓鬮的隨機(jī)性,前半年中可能不

3、會分到正好一半較小的號碼,但是應(yīng)當(dāng)接近一半統(tǒng)計應(yīng)用“抓鬮”征兵計劃然而結(jié)果是,有73個較小的號碼被分配給了前半年的日子,同時有110個較小的號碼被分配給了后半年的日子。換句話說,如果你生于后半年的某一天,那么,你因?yàn)楸环峙浣o一個較小號碼而去服兵役的機(jī)會要大于生于前半年的人在這種情況下,兩個數(shù)字之間只應(yīng)該有隨機(jī)誤差,而73和110之間的差別超出了隨機(jī)性所能解釋的范圍。這種非隨機(jī)性是由于乒乓球在被抽取之前沒有被充分?jǐn)嚢柙斐傻?。在第二年,主管這件事的部門在抓鬮之前去咨詢了統(tǒng)計學(xué)家(這可能使生于后半年的人感覺稍微舒服些)第 6 章 抽樣與抽樣分布6.1 概率抽樣方法6.2 三種不同性質(zhì)的分布 6.3

4、一個總體參數(shù)推斷時樣本統(tǒng)計量的抽樣 分布6.4 兩個總體參數(shù)推斷時樣本統(tǒng)計量的抽樣 分布學(xué)習(xí)目標(biāo)了解概率抽樣方法區(qū)分總體分布、樣本分布、抽樣分布理解抽樣分布與總體分布的關(guān)系掌握單總體參數(shù)推斷時樣本統(tǒng)計量的分布掌握雙總體參數(shù)推斷時樣本統(tǒng)計量的分布6.1 概率抽樣方法6.1.1 簡單隨機(jī)抽樣6.1.2 分層抽樣6.1.3 系統(tǒng)抽樣6.1.4 整群抽樣抽樣方法概率抽樣(probability sampling)根據(jù)一個已知的概率來抽取樣本單位,也稱隨機(jī)抽樣特點(diǎn)按一定的概率以隨機(jī)原則抽取樣本抽取樣本時使每個單位都有一定的機(jī)會被抽中每個單位被抽中的概率是已知的,或是可以計算出來的 當(dāng)用樣本對總體目標(biāo)量進(jìn)

5、行 估計時,要考慮到每個樣本 單位被抽中的概率簡單隨機(jī)抽樣(simple random sampling)從總體N個單位(元素)中隨機(jī)地抽取n個單位作為樣本,使得總體中每一個元素都有相同的機(jī)會(概率)被抽中 抽取元素的具體方法有重復(fù)抽樣和不重復(fù)抽樣特點(diǎn)簡單、直觀,在抽樣框完整時,可直接從中抽取樣本用樣本統(tǒng)計量對目標(biāo)量進(jìn)行估計比較方便局限性當(dāng)N很大時,不易構(gòu)造抽樣框抽出的單位很分散,給實(shí)施調(diào)查增加了困難沒有利用其他輔助信息以提高估計的效率簡單隨機(jī)樣本(simple random sample)由簡單隨機(jī)抽樣形成的樣本從總體N個單位中隨機(jī)地抽取n個單位作為樣本,使得每一個容量為n樣本都有相同的機(jī)會

6、(概率)被抽中 參數(shù)估計和假設(shè)檢驗(yàn)所依據(jù)的主要是簡單隨機(jī)樣本簡單隨機(jī)抽樣(用Excel對分類數(shù)據(jù)隨機(jī)抽樣)【例】某班級共有30名學(xué)生,他們的名單如右表。用Excel抽出一個由5個學(xué)生構(gòu)成的隨機(jī)樣本 簡單隨機(jī)抽樣(用Excel對分類數(shù)據(jù)隨機(jī)抽樣)第1步:將30個學(xué)生的名單錄入到Excel工作表中的一列第2步:給每個學(xué)生一個數(shù)字代碼,分別為1,2,30,并按 順序排列,將代碼錄入到Excel工作表中的一列,與 學(xué)生名單相對應(yīng)第3步:選擇【工具】下拉菜單,并選擇【數(shù)據(jù)分析】選項, 然后在【數(shù)據(jù)分析】選項中選擇【抽樣】第4步:在【抽樣】對話框中的【輸入?yún)^(qū)域】中輸入學(xué)生代碼 區(qū)域,在【抽樣方法】中單擊【

7、隨機(jī)】 。在【樣本 數(shù)】中輸入需要抽樣的學(xué)生個數(shù)。在【輸出區(qū)域】中 選擇抽樣結(jié)果放置的區(qū)域?!敬_定】后即得到要抽取 的樣本 用Excel對分類數(shù)據(jù)抽樣簡單隨機(jī)抽樣(用Excel對數(shù)值型數(shù)據(jù)隨機(jī)抽樣)第1步:將原始數(shù)據(jù)錄入到Excel工作表中的一列第2步:選擇【工具】下拉菜單,并選擇【數(shù)據(jù)分析 】選項 , 然后在【數(shù)據(jù)分析】選項中選擇【抽樣】第3步:在【抽樣】對話框中的【輸入?yún)^(qū)域】中輸入原始數(shù)據(jù) 區(qū)域,在【抽樣方法】中單擊【隨機(jī)】。在【樣本 數(shù)】中輸入需要抽樣的數(shù)據(jù)個數(shù)。在【輸出區(qū)域】 中選擇抽樣結(jié)果放置的區(qū)域。【確定】后即得到要 抽取的樣本數(shù)據(jù) 用Excel對數(shù)值型數(shù)據(jù)抽樣分層抽樣(strat

8、ified sampling)將總體單位按某種特征或某種規(guī)則劃分為不同的層,然后從不同的層中獨(dú)立、隨機(jī)地抽取樣本優(yōu)點(diǎn)保證樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較相近,從而提高估計的精度組織實(shí)施調(diào)查方便既可以對總體參數(shù)進(jìn)行估計,也可以對各層的目標(biāo)量進(jìn)行估計系統(tǒng)抽樣(systematic sampling)將總體中的所有單位(抽樣單位)按一定順序排列,在規(guī)定的范圍內(nèi)隨機(jī)地抽取一個單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其他樣本單位先從數(shù)字1到k之間隨機(jī)抽取一個數(shù)字r作為初始單位,以后依次取r+k,r+2k等單位優(yōu)點(diǎn):操作簡便,可提高估計的精度缺點(diǎn):對估計量方差的估計比較困難整群抽樣(cluster samp

9、ling)將總體中若干個單位合并為組(群),抽樣時直接抽取群,然后對中選群中的所有單位全部實(shí)施調(diào)查特點(diǎn)抽樣時只需群的抽樣框,可簡化工作量調(diào)查的地點(diǎn)相對集中,節(jié)省調(diào)查費(fèi)用,方便調(diào)查的實(shí)施缺點(diǎn)是估計的精度較差多階段抽樣(multi-stage sampling)先抽取群,但并不是調(diào)查群內(nèi)的所有單位,而是再進(jìn)行一步抽樣,從選中的群中抽取出若干個單位進(jìn)行調(diào)查群是初級抽樣單位,第二階段抽取的是最終抽樣單位。將該方法推廣,使抽樣的段數(shù)增多,就稱為多階段抽樣具有整群抽樣的優(yōu)點(diǎn),保證樣本相對集中,節(jié)約調(diào)查費(fèi)用需要包含所有低階段抽樣單位的抽樣框;同時由于實(shí)行了再抽樣,使調(diào)查單位在更廣泛的范圍內(nèi)展開在大規(guī)模的抽樣

10、調(diào)查中,經(jīng)常被采用的方法 6.2 三種不同性質(zhì)的分布6.2.1 總體分布6.2.2 樣本分布6.2.3 抽樣分布總體中各元素的觀察值所形成的分布 分布通常是未知的可以假定它服從某種分布 總體分布(population distribution)總體一個樣本中各觀察值的分布 也稱經(jīng)驗(yàn)分布 當(dāng)樣本容量n逐漸增大時,樣本分布逐漸接近總體的分布 樣本分布(sample distribution)樣本樣本統(tǒng)計量的概率分布,是一種理論分布在重復(fù)選取容量為n的樣本時,由該統(tǒng)計量的所有可能取值形成的相對頻數(shù)分布 隨機(jī)變量是 樣本統(tǒng)計量樣本均值, 樣本比例,樣本方差等結(jié)果來自容量相同的所有可能樣本提供了樣本統(tǒng)計

11、量長遠(yuǎn)而穩(wěn)定的信息,是進(jìn)行推斷的理論基礎(chǔ),也是抽樣推斷科學(xué)性的重要依據(jù) 抽樣分布 (sampling distribution)抽樣分布的形成過程 (sampling distribution)總體計算樣本統(tǒng)計量如:樣本均值、比例、方差樣本6.3 樣本統(tǒng)計量的抽樣分布 (一個總體參數(shù)推斷時)6.3.1 樣本均值的抽樣分布6.3.2 樣本比例的抽樣分布6.3.3 樣本方差的抽樣分布樣本均值的抽樣分布在重復(fù)選取容量為n的樣本時,由樣本均值的所有可能取值形成的相對頻數(shù)分布一種理論概率分布推斷總體均值的理論基礎(chǔ)樣本均值的抽樣分布樣本均值的抽樣分布(例題分析)【例】設(shè)一個總體,含有4個元素(個體) ,即

12、總體單位數(shù)N=4。4 個個體分別為x1=1,x2=2,x3=3,x4=4 。總體的均值、方差及分布如下總體分布14230.1.2.3均值和方差樣本均值的抽樣分布 (例題分析) 現(xiàn)從總體中抽取n2的簡單隨機(jī)樣本,在重復(fù)抽樣條件下,共有42=16個樣本。所有樣本的結(jié)果為3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個觀察值第一個觀察值所有可能的n = 2 的樣本(共16個)樣本均值的抽樣分布 (例題分析) 計算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53.02.52.033.02.52.01.524.03.53.02

13、.542.542.03211.51.01第二個觀察值第一個觀察值16個樣本的均值(x)x樣本均值的抽樣分布1.000.10.20.3P ( x )1.53.04.03.52.02.5樣本均值的分布與總體分布的比較 (例題分析) = 2.5 2 =1.25總體分布14230.1.2.3抽樣分布P ( x )1.00.1.2.31.53.04.03.52.02.5x樣本均值的抽樣分布與中心極限定理 = 50 =10X總體分布n = 4抽樣分布xn =16當(dāng)總體服從正態(tài)分布N(,2)時,來自該總體的所有容量為n的樣本的均值x也服從正態(tài)分布,x 的數(shù)學(xué)期望為,方差為2/n。即xN(,2/n)中心極限定

14、理(central limit theorem)當(dāng)樣本容量足夠大時(n 30) ,樣本均值的抽樣分布逐漸趨于正態(tài)分布從均值為,方差為 2的一個任意總體中抽取容量為n的樣本,當(dāng)n充分大時,樣本均值的抽樣分布近似服從均值為,方差為2/n的正態(tài)分布一個任意分布的總體x中心極限定理 (central limit theorem)x 的分布趨于正態(tài)分布的過程抽樣分布與總體分布的關(guān)系總體分布正態(tài)分布非正態(tài)分布大樣本小樣本樣本均值正態(tài)分布樣本均值正態(tài)分布樣本均值非正態(tài)分布樣本均值的數(shù)學(xué)期望樣本均值的方差重復(fù)抽樣不重復(fù)抽樣樣本均值的抽樣分布(數(shù)學(xué)期望與方差)樣本均值的抽樣分布(數(shù)學(xué)期望與方差)比較及結(jié)論:1.

15、 樣本均值的均值(數(shù)學(xué)期望) 等于總體均值 2. 樣本均值的方差等于總體方差的1/n統(tǒng)計量的標(biāo)準(zhǔn)誤 (standard error)樣本統(tǒng)計量的抽樣分布的標(biāo)準(zhǔn)差,稱為統(tǒng)計量的標(biāo)準(zhǔn)誤,也稱為標(biāo)準(zhǔn)誤差標(biāo)準(zhǔn)誤衡量的是統(tǒng)計量的離散程度,它測度了用樣本統(tǒng)計量估計總體參數(shù)的精確程度以樣本均值的抽樣分布為例,在重復(fù)抽樣條件下,樣本均值的標(biāo)準(zhǔn)誤為估計的標(biāo)準(zhǔn)誤 (standard error of estimation)當(dāng)計算標(biāo)準(zhǔn)誤時涉及的總體參數(shù)未知時,用樣本統(tǒng)計量代替計算的標(biāo)準(zhǔn)誤,稱為估計的標(biāo)準(zhǔn)誤以樣本均值的抽樣分布為例,當(dāng)總體標(biāo)準(zhǔn)差未知時,可用樣本標(biāo)準(zhǔn)差s代替,則在重復(fù)抽樣條件下,樣本均值的估計標(biāo)準(zhǔn)誤為樣

16、本比例的抽樣分布總體(或樣本)中具有某種屬性的單位與全部單位總數(shù)之比不同性別的人與全部人數(shù)之比合格品(或不合格品) 與全部產(chǎn)品總數(shù)之比總體比例可表示為樣本比例可表示為比例(proportion)在重復(fù)選取容量為n的樣本時,由樣本比例的所有可能取值形成的相對頻數(shù)分布一種理論概率分布當(dāng)樣本容量很大時,樣本比例的抽樣分布可用正態(tài)分布近似 推斷總體比例的理論基礎(chǔ)樣本比例的抽樣分布樣本比例的數(shù)學(xué)期望樣本比例的方差重復(fù)抽樣不重復(fù)抽樣樣本比例的抽樣分布(數(shù)學(xué)期望與方差)樣本方差的抽樣分布樣本方差的分布在重復(fù)選取容量為n的樣本時,由樣本方差的所有可能取值形成的相對頻數(shù)分布對于來自正態(tài)總體的簡單隨機(jī)樣本,則比值

17、 的抽樣分布服從自由度為 (n -1) 的2分布,即由阿貝(Abbe) 于1863年首先給出,后來由海爾墨特(Hermert)和卡皮爾遜(KPearson) 分別于1875年和1900年推導(dǎo)出來設(shè) ,則令 ,則 Y 服從自由度為1的2分布,即 當(dāng)總體 ,從中抽取容量為n的樣本,則2分布(2 distribution)分布的變量值始終為正 分布的形狀取決于其自由度n的大小,通常為不對稱的正偏分布,但隨著自由度的增大逐漸趨于對稱 期望為E(2)=n,方差為D(2)=2n(n為自由度) 可加性:若U和V為兩個獨(dú)立的服從2分布的隨機(jī)變量,U2(n1),V2(n2),則U+V這一隨機(jī)變量服從自由度為n1

18、+n2的2分布 2分布(性質(zhì)和特點(diǎn))c2分布(圖示) 選擇容量為n 的簡單隨機(jī)樣本計算樣本方差s2計算卡方值2 = (n-1)s2/2計算出所有的 2值不同容量樣本的抽樣分布c 2n=1n=4n=10n=20 ms總體c2分布(例題的圖示)16個樣本方差的分布樣本方差s2s2取值的概率0.04/160.56/1624/164.52/16c2分布(用Excel計算c2分布的概率)利用Excel提供的CHIDIST統(tǒng)計函數(shù),計算c2分布右單尾的概率值語法為CHIDIST(x,df),其中df為自由度,x是隨機(jī)變量的取值給定自由度和統(tǒng)計量取值的右尾概率,也可以利用“插入函數(shù)”命令來實(shí)現(xiàn)計算自由度為8

19、,統(tǒng)計量的取值大于10的概率 用Excel計算c2 分布的概率c2分布(用Excel計算c2分布的臨界值)利用Excel提供的CHIINV統(tǒng)計函數(shù),計算分布右單尾的概率值為的臨界值語法為CHIINV(,df),其中df為自由度給定自由度和分布右尾概率為的臨界值也可以利用“插入函數(shù)”命令來實(shí)現(xiàn)計算自由度為10,右尾概率為0.1的臨界值 用Excel計算c2 分布的臨界值c2分布(用Excel生成c2分布的臨界值表)第一步:將c2分布自由度df的值輸入到工作表的 A列,將右尾概率的取值輸入到第1行第二步:在B2單元格輸入公式 “=CHIINV(B$1,$A2)” 然后將其向下、向右復(fù)制即可得到分布

20、 的臨界值表 用Excel生成c2 分布的臨界值表c2分布 (用Excel繪制c2分布圖)第1步:在工作表的第1列A2:A62輸入應(yīng)一個等差數(shù)列,初始 值為“0”,步長為“1”,終值為“60”第2步:在單元格B1輸入c2分布自由度(如“15”) 第3步:在單元格B2輸入公式“=CHIDIST(A2,$B$1)”,并將其 復(fù)制到B3:B62區(qū)域第4步:在單元格C2輸入公“=B2-B3”,并將其復(fù)制到C3:C62 區(qū)域第5步:將A2:A62作為橫坐標(biāo)、C2:C62作為縱坐標(biāo),根據(jù)“ 圖表向?qū)А崩L制折線圖 用Excel繪制c2分布圖c2分布 (用Excel繪制c2分布圖)6.4 樣本統(tǒng)計量的抽樣分布

21、 (兩個總體參數(shù)推斷時)6.4.1 兩個樣本均值之差的抽樣分布6.4.2 兩個樣本比例之差的抽樣分布6.4.3 兩個樣本方差比的抽樣分布兩個樣本均值之差的抽樣分布兩個總體都為正態(tài)分布,即 , 兩個樣本均值之差 的抽樣分布服從正態(tài)分布,其分布的數(shù)學(xué)期望為兩個總體均值之差 方差為各自的方差之和 兩個樣本均值之差的抽樣分布兩個樣本均值之差的抽樣分布 m 1s 1總體1s 2 m 2總體2抽取簡單隨機(jī)樣樣本容量 n1計算x1抽取簡單隨機(jī)樣樣本容量 n2計算x2計算每一對樣本的x1-x2所有可能樣本的x1-x2m1 -m2抽樣分布兩個樣本比例之差的抽樣分布兩個總體都服從二項分布分別從兩個總體中抽取容量為

22、n1和n2的獨(dú)立樣本,當(dāng)兩個樣本都為大樣本時,兩個樣本比例之差的抽樣分布可用正態(tài)分布來近似分布的數(shù)學(xué)期望為 方差為各自的方差之和 兩個樣本比例之差的抽樣分布兩個樣本方差比的抽樣分布兩個樣本方差比的抽樣分布 兩個總體都為正態(tài)分布,即X1N(1 ,12),X2N(2 ,22 )從兩個總體中分別抽取容量為n1和n2的獨(dú)立樣本兩個樣本方差比的抽樣分布,服從分子自由度為(n1-1),分母自由度為(n2-1) 的F分布,即 由統(tǒng)計學(xué)家費(fèi)希爾(R.A.Fisher) 提出的,以其姓氏的第一個字母來命名設(shè)若U為服從自由度為n1的2分布,即U2(n1),V為服從自由度為n2的2分布,即V2(n2),且U和V相互獨(dú)立,則 稱F為服從自由度n1和n2的F分布,記為F分布(F distribution)F分布(圖示) 不同自由度的F分布F(1,10)(5,10)(10,10)F 分布(用Excel計算F分布的概率)利用Excel提供的FDIST統(tǒng)計函數(shù),計算分布右單尾的概率值其語法為FDIST(x,df1,df2),其中x是隨機(jī)變量的取值,df1為分子自由度,df2為分母自由度給定分子自由度df1、分母自由度df2和統(tǒng)計量取值的右尾概率,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論