第六章抽樣與抽樣分布_第1頁
第六章抽樣與抽樣分布_第2頁
第六章抽樣與抽樣分布_第3頁
第六章抽樣與抽樣分布_第4頁
第六章抽樣與抽樣分布_第5頁
已閱讀5頁,還剩130頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第3章抽樣與抽樣分布3.1常用的抽樣方法3.2抽樣誤差和置信度3.3抽樣分布3.4中心極限定理的應用(結(jié)合《概率數(shù)理統(tǒng)計》課程自學)3.1常用的抽樣方法

3.1.1概率抽樣與非概率抽樣3.1.2常用的概率抽樣方法3.1.1概率抽樣與非概率抽樣1.概率抽樣(1)概率抽樣的概念和種類(2)概率抽樣的特點(3)概率抽樣的適用范圍2.非概率抽樣(1)非概率抽樣的概念和種類(2)非概率抽樣的特點

概率抽樣的概念和種類“概率抽樣”(ProbabilitySampling):又稱為“隨機抽樣”(RandomSampling),它是按照“隨機原則”從被調(diào)查對象的“總體”抽取“樣本”的一種抽樣方式?!半S機原則”又稱為“等概率原則”或“等機會原則”,就是排除“人為主觀意愿”的干擾,使總體中的“每一個總體單位”都有“同等被抽中”為“樣本單位”的“機會”。即:“每個總體單位”入選“樣本”是隨機的。概率抽樣有簡單隨機抽樣、分層抽樣、系統(tǒng)抽樣、整群抽樣幾種常用的抽樣方法。概率抽樣的特點A.能有效避免“主觀選樣”帶來的“傾向性誤差(系統(tǒng)偏高或偏低的誤差)”?!獜亩沟谩皹颖举Y料”能夠用于估計和推斷“總體的數(shù)量特征”,而且這種估計和推斷得以建立在“概率論和數(shù)理統(tǒng)計”的科學理論基礎上。B.抽樣誤差可以預先計算和控制?!獜亩WC了調(diào)查結(jié)果的“可靠程度”和“可信程度”。概率抽樣的適用范圍

A.在不可能或不必要進行全面調(diào)查的場合,如:具有破壞性的產(chǎn)品質(zhì)量檢查,不能采用全面調(diào)查,只能采用“概率抽樣”。帶有預見性的調(diào)查,如:農(nóng)作物預計產(chǎn)量、森林蓄積量、牲畜增長的活體重調(diào)查等,不可能為了了解預計產(chǎn)量而收割、砍伐或涂在所有的“活產(chǎn)品”。B.對全面調(diào)查數(shù)據(jù)進行修正或補充的場合。如:人口抽樣調(diào)查可以彌補人口普查在“登記性誤差較大、時間間隔太長、調(diào)查內(nèi)容不夠詳細”等方面的局限性。非概率抽樣的概念和種類非概率抽樣(Un-probabilitySampling):又稱”非隨機抽樣”,它是從研究的目的出發(fā),根據(jù)調(diào)查者的“經(jīng)驗或判斷”,從總體中“有意識地”抽取“若干單位”構(gòu)成“樣本”的一種抽樣方式。它是“不完全”遵循“隨機原則”選取“樣本”的。非概率抽樣的類型:包括重點調(diào)查、典型調(diào)查、配額調(diào)查、隨意調(diào)查(方便調(diào)查)等。非概率抽樣的特點“非概率抽樣”在及時了解大致情況、總結(jié)經(jīng)驗教訓、進行大規(guī)模調(diào)查之前的試點等方面具有“概率抽樣”無法取代的優(yōu)越性?!胺歉怕食闃印钡男ЧQ于“調(diào)查的經(jīng)驗、主觀判斷”和“專業(yè)知識”,故難免摻雜調(diào)查的主觀偏見,出現(xiàn)“因人而異”的結(jié)果,容易產(chǎn)生“傾向性誤差”?!胺歉怕食闃印辈荒苡嬎愫涂刂破洹俺闃诱`差”,無法說明“調(diào)查結(jié)果”的“可靠或可信程度”?!菊轮攸c介紹“概率抽樣”。3.1.2常用的概率抽樣方法1.簡單隨機抽樣2.分層抽樣3.系統(tǒng)抽樣4.整群抽樣1.簡單隨機抽樣

簡單隨機抽樣的概念簡單隨機抽樣的抽樣框簡單隨機抽樣的具體方法簡單隨機抽樣的概念“簡單隨機抽樣”(simplerandomsampling)是“概率抽樣”的最基本的形式,它是指從總體中抽取n個單位作為樣本時,完全遵循“隨機原則”,使得“每一個總體單位”都有“相同的機會(概率)”被抽中的一種抽樣方式。故也稱之為“純隨機抽樣”。進行“簡單隨機抽樣”,要求有一個“完美的抽樣框”,或者有包含總體“每一個總體單位”的“詳盡名單”。為此,必須對總體中的“每一個總體單位”進行“編號”。故:“簡單隨機抽樣”民間習俗稱之為“抓鬮”。簡單隨機抽樣的抽樣框抽樣目標總體和抽樣單位抽樣框的概念

抽樣框的主要表現(xiàn)形式

編制抽樣框應注意的問題

抽樣目標總體和抽樣單位抽樣目標總體:是根據(jù)調(diào)查目的確定的、抽樣調(diào)查所要研究的對象全體。調(diào)查目的確定,目標總體也就隨之確定。確定了“目標總體”,則“理論上的抽樣范圍”也就確定了。但在實際抽樣過程中,“抽樣的總體范圍”與“目標總體”之間有時會不一致。抽樣單位:是指抽樣調(diào)查中“抽取樣本的基本單位”。它可以是“各個總體單位”,也可以是“若干總體單位的集合(群)”。例如:對云南財經(jīng)大學學生月均生活費情況進行調(diào)查,“目標總體”是“云南財大的所有學生”,“抽樣單位”可以是“財大的每一個學生”還可以是“財大各個院系或班”。所以,確定了“目標總體”還須明確實際抽樣時的“總體范圍”和“抽樣單位”。這就需要編制一個“抽樣框”。抽樣框的概念抽樣框是實施抽樣的基礎。抽樣框的好壞通常會影響到抽樣調(diào)查的隨機性和調(diào)查的效果。所謂“抽樣框(Samplingframe)”:是指抽取樣本的基本框架,它是由被抽樣總體中的“抽樣單位”構(gòu)成的。亦即:“抽樣框”是指包含“全部抽樣單位”的“名單框架”。抽樣框的主要表現(xiàn)形式名單抽樣框:簡稱“名單框”,它由抽樣單位的“名稱”或“代號”構(gòu)成。即列出被調(diào)查總體全部抽樣單位的“名錄一覽表”。如:在冊職工花名冊等。區(qū)域抽樣框:又稱“地圖框”或“區(qū)域框”,它是按照“地理位置”將“總體范圍”劃分成“若干小區(qū)域”,以“小區(qū)域”作為“抽樣單位”。如:農(nóng)產(chǎn)量調(diào)查中,將一大塊地劃分成“若干小塊”,并對“所有小塊地”編號。時間表抽樣框:又稱“時間框”,即全部總體單位按時間順序排列,把總體的時間過程劃分成“若干個小的時間單位”,用“小的時間單位”作為“抽樣單位”。如對流水線上24小時生產(chǎn)的產(chǎn)品進行質(zhì)量抽查,以5分鐘為一個單位,則有24×60÷5=288個抽樣單位,并按時間順序排列。編制抽樣框應注意的問題“抽樣框”應該與“目標總體”一致。即:一個理想的抽樣框,應該包括目標總體中的“全部總體單位”。亦即:目標總體中的任何一個“總體單位”,均應構(gòu)成抽樣框中的一個“抽樣單位”,不能有“重復”或“遺漏”,更不能包含“非目標總體單位”。(例參見后面)編制抽樣框應盡可能利用與所研究變量相關的輔助信息。抽樣實踐中,常常只能采用與“目標總體”相近似的“抽樣框”。例如:對昆明市居民進行抽樣調(diào)查如果以“昆明市電信局編制的電話號碼簿”作為“抽樣框”就很不科學。因為:有的居民住戶,并沒有安裝電話;有的居民住戶,則可能不止一個電話;或者電話號碼簿上的有的號碼,有可能不屬于“居民戶”,或者雖然屬于“居民戶”但早已變更。所以,從這樣一個不完善的“抽樣框”中抽出的“樣本”就難以代表和反映“總體”。簡單隨機抽樣的具體方法重復抽樣不重復抽樣重復抽樣

重復抽樣的概念

重復抽樣的特點重復抽樣的概念

重復抽樣(samplingwithreplacement)又稱為“回置抽樣”,是指從“總體N個單位”中抽取一個“樣本容量”為“n”的樣本,“每次抽取一個單位”,在登記起“序號”和“相應的變量值”后,再將其“放回總體”中,參加“下一次抽取”,這樣“連續(xù)抽取n次”,即得到“一個樣本”。重復抽樣的特點第一、“同一個總體單位”有可能被“重復抽中”;第二、每個樣本被抽中的“機會或概率”是“相同”的;第三、“n次抽取”就是“n次獨立的隨機試驗”;第四、重復抽樣的可能的樣本個數(shù)為個。不重復抽樣

不重復抽樣的概念不重復抽樣的特點不重復抽樣的概念不重復抽樣(samplingwithoutreplacement)是指先從“總體N個單位”中抽取“一個單位”,在登記其“序號”和“相應變量值”后“不在放回總體”,“下一個單本單位”只能從“N-1個總體單位”抽取,以此類推,“第n個樣本單位”只能從“(N-n+1)=N-(n-1)個總體單位”中抽取。從分布的角度看,它實際上等同于“一次性從總體N個單位”中抽取“n個單位”組成“一個樣本”。不重復抽樣的特點

第一、“同一總體單位”不可能“被重復抽中”;第二、“n次抽樣”不再是“n此獨立的隨機試驗”;第三、每抽選一次“總體單位隨之減少一個”且“每個單位”在各次抽樣中“被抽中的概率”不同;第四、”可能的樣本個數(shù)“為”N個中抽取n個的組合”。即:2.分層抽樣分層抽樣的概念分層抽樣的特點分層抽樣的優(yōu)點分層抽樣的概念分層抽樣:是指在抽樣之前先將“總體”劃分為“若干不同的層(類)”,然后再在“每一層”中采用“簡單隨機抽樣”的方法抽取一定數(shù)量的單位組成一個樣本的一種抽樣方式。分層抽樣可以防止“簡單隨機抽樣”造成的“樣本構(gòu)成”與“總體構(gòu)成”不成比例的現(xiàn)象。例如:樣本中的“性別比”遠遠高于總體中的“性別比”。故特別適用于:總體單位數(shù)較多且數(shù)據(jù)之間高低大小懸殊較大的調(diào)查對象。例如:居民收入情況調(diào)查中,將居民劃分為“高收入層”、“中等收入層”和“低收入層”。(請看教科書的例子P106)分層抽樣的特點

A.分層抽樣是將“統(tǒng)計分組”和“簡單隨機抽樣”有機結(jié)合起來的一種抽樣方式。B.在分層或分類時,應使“層內(nèi)差異盡可能小”,而使“層與層之間的差異盡可能大”。C.各層的劃分可根據(jù)研究者的判斷或研究的需要進行。例如:研究的對象是“人”時,可按“性別”、“年齡”等分層;研究“收入的差異”時,可按城鎮(zhèn)、農(nóng)村分層,等等。分層抽樣的優(yōu)點分層抽樣是一種常用的抽樣方式,它具有以下優(yōu)點:A.它既可以對總體進行估計,也可以對各層的“子總體”進行估計。B.它可以按自然區(qū)域或行政區(qū)域進行分層,使抽樣的組織和實施都比較方便。C.它的樣本分布在各層內(nèi),從而使樣本在總體中的分布比較均勻。D.如果分層抽樣做得好,可以提高估計的精度。3.系統(tǒng)抽樣

(1)系統(tǒng)抽樣的概念(2)系統(tǒng)抽樣的優(yōu)點系統(tǒng)抽樣的概念又稱為“等距抽樣”或“機械抽樣”,它是指先將總體各單位按照某種順序排列而成“抽樣框”,并按某種規(guī)則確定一個“隨機起點”,然后每隔“一段距離”抽取一個“調(diào)查單位”,直至抽夠一個“樣本容量”為n的“樣本”的一種抽樣方法。它必須先計算出“抽樣間隔K=N/n”,在確定“抽樣起點”,最后按“固定的順序和間隔”來抽取“樣本單位”。系統(tǒng)抽樣的隨機性體現(xiàn)在“第一個間隔內(nèi)抽樣起點”的選擇上。系統(tǒng)抽樣的優(yōu)點

A.簡便易行。當樣本容量(n)很大時,“簡單隨機抽樣”要逐個選用“隨機數(shù)字表”抽選也是相當麻煩的,而“系統(tǒng)抽樣”有了總體單位的排序,只要確定抽樣的“隨機起點“和“抽樣間隔”后,樣本單位也就隨之確定,而且可以用現(xiàn)有的排列順序。例如:抽選學生時用學校的學籍花名冊;抽選居民時可用居委會的戶口本,等等。因此,“系統(tǒng)抽樣”常常用來代替“簡單隨機抽樣”。B.系統(tǒng)抽樣的樣本在總體中的分布一般比較均勻,抽樣誤差通常總要小于簡單隨機誤差。如果掌握了總體的有關信息,將總體各單位按有關標志排列,就可以提高估計的精度。

舉例例如:我國農(nóng)產(chǎn)量調(diào)查,就是先對一個地區(qū)按照過去三年的“平均糧食產(chǎn)量”從高到低排隊,然后從“高產(chǎn)量地塊”隨機地找到一個起點,按照一定的距離由高到低抽取地塊作為樣本。這種方法能夠保證抽出的地塊產(chǎn)量由高到低“均勻分布”,因而對總體的估計與推斷的代表性較高。4.整群抽樣(1)整群抽樣的概念(2)整群抽樣的特點整群抽樣的概念“整群抽樣”:又稱為“集團抽樣”,它是指調(diào)查時將總體劃分成“若干群”,將“每一群”作為“一個抽樣單位”,然后采用“簡單隨機抽樣”的辦法抽取“部分群”作為“樣本”,并對抽中的各個群中所包含的所有個體單位進行調(diào)查或觀察的一種抽樣組織方式。例如:對昆明市五華區(qū)居民生活水平的調(diào)查,不是從“五華區(qū)居民住戶”中直接抽取“住戶”進行調(diào)查,而是從“五華區(qū)全部居委會”中隨機地抽取“若干居委會”,然后再對“被抽中的居委會”中的“所有住戶”都一一進行調(diào)查。

整群抽樣的特點

A.“整群抽樣”是將“簡單隨機抽樣”和“普查”有機結(jié)合起來的一種抽樣方法。B.“群”的劃分可以是按“自然的或行政的區(qū)域”進行,也可以是“人為地組成群”。C.不需要有總體單位的“具體名稱名單”,只需要有“群的名單”就可以進行抽樣,而“群的名單”比較容易得到。D.整群抽樣時群內(nèi)各單位比較集中,對樣本進行調(diào)查比較方便,節(jié)約費用。E.當群內(nèi)的各單位存在差異時,整群抽樣可以得到較好的效果?!硐氲那闆r是:“每一群”都是整個總體的一個縮影(即:“群的分布”與“總體分布”相像)。在這種理想情況下,只需抽取很少的群,就可得到有關總體特征的信息?!绻麑嶋H情況不是這種“理想情況”,則整群抽樣的誤差就會很大,效果也就會很差。3.2抽樣誤差和置信度

3.2.1抽樣誤差的概念和種類3.2.2實際抽樣誤差3.2.3抽樣平均誤差3.2.4抽樣極限誤差3.2.5置信度3.2.6抽樣極限誤差、置信度和抽樣估計精度三者之間的關系3.2.1抽樣誤差的概念和種類抽樣誤差是“抽樣調(diào)查誤差”之一,它僅指“隨機誤差”,即:由于抽樣的“隨機性”而產(chǎn)生的“樣本統(tǒng)計量(估計量)”與“總體參數(shù)”之間的“代表性誤差”。實際應用中,“抽樣誤差”又有“實際抽樣誤差”、“抽樣平均誤差”和“抽樣極限誤差”三種不同的概念。下面我們將依次分別介紹這三種抽樣誤差的概念。3.2.2實際抽樣誤差實際抽樣誤差:是指“某一具體樣本”的“樣本估計值”與“總體參數(shù)的真實數(shù)值”之間的差異。實際抽樣誤差=某一樣本的估計值(θ?)-總體參數(shù)的真實值(θ)在實際抽樣調(diào)查中,由于“總體參數(shù)θ”未知,故每一次抽樣的“實際抽樣誤差”是無法計算得到的。實際抽樣誤差隨著抽取的樣本不同而不同,故而它是一個“隨機變量”,它可正可負,可大可小。抽樣調(diào)查中,所謂“抽樣誤差可以計算和控制”并不是指某次實際抽樣的“實際抽樣誤差”,而是從“所有可能樣本”來考察的“抽樣平均誤差”和“抽樣極限誤差”。

3.2.3抽樣平均誤差1.抽樣平均誤差的理論含義和理論公式

2.抽樣平均誤差的作用3.對抽樣平均誤差理論公式的評價抽樣平均誤差的理論含義和理論公式

統(tǒng)計學中常用“標準差”來測定某一變量的所有變量值與其均值的平均差異程度,衡量“均值”的代表性大小。為此,可運用“樣本估計量的標準差”反映“所有可能樣本地估計值”與“樣本均值”的平均差異程度。對于既定的“總體”和“樣本容量”,“樣本估計量”是以相應“總體參數(shù)”為其“分布中心”,即:所有可能的樣本估計值均分布在“總體參數(shù)”周圍。故“樣本估計量的標準差”實際上反映的是“所有可能樣本的估計值”與“總體參數(shù)”的平均差異程度,反映了所有可能樣本的實際誤差的一般水平。故:統(tǒng)計上將“樣本估計量的標準差”定義為“抽樣平均誤差”。抽樣平均誤差的理論公式表示為:(式中:M表示“可能的樣本個數(shù)”。)抽樣平均誤差的作用“抽樣平均誤差”概括地反映了“所有可能樣本的估計值θ^”與“相應總體參數(shù)θ”的平均差異程度,可用來衡量“樣本”對“總體”的“代表性大小”。即:抽樣平均誤差越小,在“樣本統(tǒng)計量的分布”就越集中在“總體參數(shù)”的附近。平均說來,“樣本估計值θ?”與“總體參數(shù)θ”之間的抽樣誤差就越小,樣本對總體的代表性就越大。反之,則然。對抽樣平均誤差理論公式的評價在上述“抽樣平均誤差”理論公式中,實際上“總體參數(shù)θ”本身是“未知”的,(如果已知,那么抽樣調(diào)查也就失去了意義),我們也不可能列出“所有可能的樣本估計值θ^”。故:抽樣平均誤差的上述理論公式,僅僅是個“定義式”,實際上根本無法直接計算。因此,我們只能采用“概率與數(shù)理統(tǒng)計”的有關理論,來推導“抽樣平均誤差”的計算公式。(關于這個問題,我們將在“抽樣分布”一節(jié)介紹)3.2.4抽樣極限誤差1.抽樣極限誤差的概念2.與“抽樣極限誤差”有關的兩個概念抽樣極限誤差的概念抽樣極限誤差(Δ):又稱為“允許誤差”,它是指在一定的概率保證下,抽樣誤差“可以允許(或可以接受)”的“誤差范圍”。即:在一定的概率保證(或一定的置信度)下,|θ^-θ|≤Δ表明在一定的概率保證下,可以認為“樣本估計值θ^”與“相應總體參數(shù)θ”的“誤差的絕對值”不超過Δ?!俺闃訕O限誤差”是“抽樣誤差的可能范圍”,而非“完全肯定的范圍”。因此,這個“可能范圍”的大小,是與“估計的可能性大小(概率)”緊密聯(lián)系的。與“抽樣極限誤差”有關的兩個概念(1)抽樣誤差率:是指單位樣本估計量中所包含的抽樣極限誤差大小。文字公式為:抽樣誤差率=抽樣極限誤差/樣本估計量×100%(2)抽樣估計精度=1-抽樣誤差率3.2.5置信度在抽樣估計中,“估計的可能性大小”一般稱之為“置信度”或“置信概率”,習慣上也稱之為“可靠度”、“可信度”、“把握程度”或“概率保證程度”。亦即是指構(gòu)造置信區(qū)間的步驟重復多次,在置信區(qū)間中包含總體參數(shù)真值的可能性大小(次數(shù)所占的比率)。設:x1、x2、…..、xn是來自密度(x,θ)的一個樣本,對于給定的α,0<α<1,如果能夠找到“兩個統(tǒng)計量”:θ1和θ2,使得:概率P{θ1≤θ≤θ2}=1-α則稱“1-α”為“置信度”。顯然,在其他條件不變的情況下,抽樣極限誤差越大,則抽樣估計的置信度就越大,估計的精確度就越低,反之則抽樣估計的置信度就越小,估計的精確度就越高。附:置信度的定義圖示

0xμ-Zα/2Zα/23.2.6抽樣極限誤差、置信度和抽樣估計精度三者之間的關系抽樣估計時,通常總是希望“估計的誤差盡可能小”、“估計精度盡可能地高”且“估計的置信度要盡可能地大”。事實上,它們之間往往是矛盾的(魚與熊掌不可得兼)。在其他條件不變的情況下,提高置信度(1-α),就會增大抽樣極限誤差,是估計精度降低;縮小抽樣極限誤差,提高估計精度,則會降低估計的置信度??梢?,抽樣估計時,不能只顧“提高估計的置信度”或者“縮小抽樣極限誤差”。若抽樣極限誤差(允許誤差)范圍過大,則估計的精度降低,此時估計的“置信度”接近或等于100%,抽樣估計本身會失去意義。反之,置信度太低,盡管“估計精度”很高,但因“錯誤估計”的“可能性太大”,估計結(jié)果也無太大作用。所以,實際中應根據(jù)具體情況,可以先確定一個“合理的置信度(1-α)”,在求相應的“抽樣極限誤差(允許誤差Δ)”;或者,先確定一個“允許誤差”,在求“相應的置信度”。二者之間的具體聯(lián)系,可根據(jù)“樣本統(tǒng)計量”的抽樣分布來確定。3.3抽樣分布3.3.1抽樣分布的概念3.3.2抽樣分布的作用3.3.3尋求抽樣分布的方法3.3.4樣本均值的抽樣分布3.3.5樣本比率的抽樣分布3.3.6樣本方差的抽樣分布3.3.7兩個樣本統(tǒng)計量的抽樣分布3.3.1抽樣分布的概念每個“隨機變量”都有其“概率分布”。“樣本統(tǒng)計量”是一個“隨機變量”,它有“若干個可能的取值”,而且“每個可能的取值”都有“一定的概率(可能性)”,因此:所謂“抽樣分布”(samplingdistribution)就是將“樣本統(tǒng)計量的所有可能取值”及“每一個可能取值出現(xiàn)的概率”依次所作的排列而形成的“樣本統(tǒng)計量的概率分布”。抽樣分布的表現(xiàn)形式:“概率分布表”和“概率分布圖”。“樣本統(tǒng)計量”又是由“n個隨機變量”構(gòu)成的“樣本的函數(shù)”,故“抽樣分布”屬于“隨機變量函數(shù)”的“分布”。3.3.2抽樣分布的作用對于“抽樣分布”,同樣可以計算其“均值”、“方差”和“標準差”等數(shù)字特征,來反映它的“集中趨勢”和“離散程度”。由于“樣本”是“隨機抽取”的,事先并不可能確定會出現(xiàn)“哪個結(jié)果”,因此,“抽樣分布”反映“樣本統(tǒng)計量”的“分布特征”,是“抽樣推斷”的重要依據(jù)。根據(jù)“抽樣分布的規(guī)律”,可揭示“樣本統(tǒng)計量”與“總體參數(shù)”之間的關系,估計“抽樣誤差”,并說明“抽樣推斷”的“可靠度”。3.3.3尋求抽樣分布的方法1.小樣本法2.大樣本法1.小樣本法小樣本法的概念

小樣本法尋求抽樣分布舉例

小樣本法的概念“小樣本法”,又稱“精確方法”,當總體的分布已知時,如果對任一自然數(shù)n,均能推導出“樣本統(tǒng)計量分布的明顯表達式”,則這種方法就稱為“精確方法”,所得的分布,稱為“精確抽樣分布”。它對于樣本容量較小(n<30)的統(tǒng)計推斷問題特別有用,故稱為“小樣本法”。精確抽樣分布,目前大多是在“正態(tài)分布”條件下得到的。小樣本法尋求抽樣分布舉例我們通過下面的例子,利用“小樣本法”來考察“樣本均值抽樣分布”的形成過程。[例]:設一個箱中裝有紅色、黑色、藍色和黃色4種顏色的球各一個,即總體容量(總體單位個數(shù))N=4,取值分別為:紅色,黑色,藍色,黃色。則總體分布狀況如下圖所示:

P(x)0.30.20.101234x可以看到:總體呈“均勻分布”,即:取每一個值的概率都等于。于是可計算出:總體均值:若從該總體中,采用“不重復抽樣”的方法抽取樣本容量為的隨機樣本(即:先摸出一個球,記下它的號碼后不再放回箱中),則共有4個之中抽取2個的組合個可能的樣本,然后計算出每一個樣本的均值,結(jié)果如下表所示。6個可能的樣本及其均值樣本編號可能的樣本樣本單位的取值可能的樣本均值

123456紅,黑紅,藍紅,黃黑,藍黑,黃藍,黃

1,21,31,42,32,43,4

1.52.02.52.53.03.5

由于每個樣本被抽中的概率相同,均為1/6,將樣本均值整理后得出下表:樣本均值的取值樣本均值的個數(shù)樣本均值取值的概率

1.52.02.53.03.5

11211

1/6(0.167)1/6(0.167)2/6(0.332)1/6(0.167)1/6(0.167)

合計6

1(1.00)將“樣本均值的所有可能取值”及其相應的“概率”繪制而成的分布圖形,就是“樣本均值的抽樣分布”。

如下圖所示:……….

0.40.30.20.1

0

1.01.52.02.53.03.5

“樣本均值的抽樣分布”的形成過程可概括成下圖:總體N容量為n的所有樣本計算出每一個樣本均值并形成分布的抽樣分布0x2.大樣本法在大多數(shù)場合下,要么是“精確分布”不易求出,要么是其“表達式”難以應用,此時,根據(jù)“中心極限定理”可以求在“樣本容量n無限增大”時“樣本統(tǒng)計量”的“極限分布”,假如這種“極限分布”能求得,則當n較大時,可用此“極限分布”作為所求的“抽樣分布”的一種近似。這種方法稱為“大樣本法”,這種“極限分布”常常稱為“漸進分布”。許多現(xiàn)象的分布均服從或近似服從“正態(tài)分布”。——實際應用中,樣本統(tǒng)計量的“抽樣分布”,是通過“數(shù)學推導”或在計算機上利用程序進行模擬而得到的。3.3.4樣本均值的抽樣分布1.樣本均值的抽樣分布定理2.樣本均值的抽樣分布特征1.樣本均值的抽樣分布定理

(1)正態(tài)總體、總體方差已知時樣本均值的抽樣分布定理1(正態(tài)分布的再生定理):如果原有總體服從正態(tài)分布,且總體方差已知,那么無論樣本容量的大小如何,那么樣本均值的抽樣分布都服從“正態(tài)分布”。(2)非正態(tài)總體或總體分布未知時樣本均值的抽樣分布

定理2(中心極限定理):從“總體均值μ和總體方差σ2”的“任意一個總體”中隨機抽取“樣本容量為n”的樣本,當n充分大(一般要求n≥30)時,則樣本均值的抽樣分布”近似服從“正態(tài)分布”。(3)正態(tài)總體、總體方差未知時樣本均值的抽樣分布

定理3(小樣本定理):設樣本來自于X服從N(μ,σ2)的正態(tài)總體,總體方差未知,樣本容量n<30,樣本方差可以計算得到,則構(gòu)造統(tǒng)計量t服從自由度為(n-1)的t分布。樣本均值(抽樣均值)的抽樣分布與總體分布的關系可用下圖來描述總體分布正態(tài)分布非正態(tài)分布總體方差已知總體方差未知大樣本小樣本小樣本大樣本

正態(tài)分布t分布大樣本小樣本

正態(tài)分布

非正態(tài)分布(具體的分布形狀例題請看教科書P110-P111的圖4.4)2.樣本均值的抽樣分布特征(1)重復抽樣條件下的樣本均值的抽樣分布特征(2)不重復抽樣條件下的樣本均值的抽樣分布特征(3)特別注意兩點(1)重復抽樣條件下的樣本均值的抽樣分布特征根據(jù)定理1看樣本均值的抽樣分布特征根據(jù)定理2看樣本均值的抽樣分布特征根據(jù)定理3看樣本均值的抽樣分布特征根據(jù)定理1看樣本均值的抽樣分布特征根據(jù)定理1(正態(tài)分布的再生定理)可知:若樣本是抽自于X服從正態(tài)總體的簡單重復隨機樣本,則:樣本均值()服從正態(tài)分布。即:于是有以下分布特征:

a.樣本均值的數(shù)學期望=樣本均值的均值=總體均值即:b.樣本均值的方差=總體方差÷樣本容量即:表明:樣本均值的方差縮小為總體方差的“n分之一”。(續(xù)前)c.樣本均值的標準差=樣本均值的方差的平方根=抽樣平均誤差即:

d.構(gòu)造統(tǒng)計量Z服從均值為0、方差為1的標準正態(tài)分布。即:故稱Z為“標準正態(tài)統(tǒng)計量”。(下同。)根據(jù)定理2看樣本均值的抽樣分布特征根據(jù)定理2(中心極限定理)可知,在“大樣本”(通常要求n≥30)的情況下,無論原來的總體是否服從“正態(tài)分布”,樣本均值的抽樣分布都將趨近于“正態(tài)分布”。此時,又要區(qū)分為兩種情況:a.總體方差已知的情形,樣本均值的分布特征與前面相同。b.總體方差未知的情形,樣本均值的分布特征為:第一、樣本均值的數(shù)學期望=樣本均值的均值=總體均值即:(續(xù)前)第二、樣本均值的方差≈樣本方差÷樣本容量即:其中:樣本方差第三、樣本均值的標準差=樣本均值的方差的平方根=抽樣平均誤差即:第四、構(gòu)造統(tǒng)計量Z服從均值為0、方差為1的標準正態(tài)分布。

即:根據(jù)定理3看樣本均值的抽樣分布特征根據(jù)定理3(小樣本定理)可知:在正態(tài)總體、總體方差未知且小樣本(通常n<30)的情況下,樣本均值服從“t分布”。于是可得以下分布特征:a.樣本均值的數(shù)學期望=樣本均值的均值=總體均值即b.樣本均值的方差≈樣本方差÷樣本容量即:(續(xù)前)c.樣本均值的標準差=樣本均值的方差的平方根=抽樣平均誤差即:

d.構(gòu)造統(tǒng)計量t服從“自由度為n-1的t分布”。即:~(2)不重復抽樣條件下的樣本均值的抽樣分布特征根據(jù)定理1看樣本均值的抽樣分布特征根據(jù)定理2看樣本均值的抽樣分布特征根據(jù)定理3看樣本均值的抽樣分布特征根據(jù)定理1看樣本均值的抽樣分布特征根據(jù)定理1(正態(tài)分布的再生定理)可知:若樣本是抽自于X服從正態(tài)總體的簡單不重復隨機樣本,則:樣本均值()服從正態(tài)分布,即:樣本均值于是有以下分布特征:a.樣本均值的數(shù)學期望=樣本均值的均值=總體均值即:(續(xù)前)b.樣本均值的方差=總體方差÷樣本容量×修正系數(shù)即:c.樣本均值的標準差=樣本均值的方差的平方根=抽樣平均誤差

即:d.構(gòu)造統(tǒng)計量Z服從均值為0、方差為1的標準正態(tài)分布。

即:根據(jù)定理2看樣本均值的抽樣分布特征根據(jù)定理2(中心極限定理)可知,在“大樣本”(通常要求n≥30)的情況下,無論原來的總體是否服從“正態(tài)分布”,樣本均值的抽樣分布都將趨近于“正態(tài)分布”。即:此時,又要區(qū)分為兩種情況:a.總體方差已知的情形,樣本均值的分布特征與前面相同。b.總體方差未知的情形,樣本均值的分布特征為:第一、樣本均值的數(shù)學期望=樣本均值的均值=總體均值(續(xù)前)第二、樣本均值的方差≈樣本方差÷樣本容量×修正系數(shù)即:第三、樣本均值的標準差=樣本均值的方差的平方根=抽樣平均誤差即:第四、構(gòu)造統(tǒng)計量Z服從均值為0、方差為1的標準正態(tài)分布。即:根據(jù)定理3看樣本均值的抽樣分布特征根據(jù)定理3(小樣本定理)可知:在正態(tài)總體、總體方差未知且小樣本(通常n<30)的情況下,樣本均值服從“t分布”。于是可得以下分布特征:a.樣本均值的數(shù)學期望=樣本均值的均值=總體均值即:b.樣本均值的方差≈樣本方差÷樣本容量×修正系數(shù)即:(續(xù)前)c.樣本均值的標準差=樣本均值的方差的平方根=抽樣平均誤差即:

d.構(gòu)造統(tǒng)計量t服從“自由度為n-1的t分布”。即:(3)特別注意兩點A.對于“無限總體”進行不重復抽樣時,當總體容量時,其修正系數(shù)此時可以按“重復抽樣”處理。B.對于“有限總體”進行不重復抽樣時,當總體容量N很大而樣本容量n很小時,其修正系數(shù)故也可以按“重復抽樣”處理。[例1]:見教科書P113-114例4.2。(略)[例2]:一個具有n=64個觀察值的隨機樣本抽自于均值等于20,標準差等于16的總體。(1)給出的抽樣分布(重復抽樣)的均值和標準差。(2)描述的抽樣分布的形狀。你的回答依賴于樣本容量嗎?(3)計算標準正態(tài)統(tǒng)計量Z對應于的值。(4)計算標準正態(tài)統(tǒng)計量Z對應于的值。[解]:(1)樣本均值的抽樣分布的均值=樣本均值的數(shù)學期望=總體均值。即:在重復抽樣的情況下,樣本均值的方差為總體方差的1/n。即:(2)因為屬于大樣本,所以根據(jù)中心極限定理可知,樣本均值的抽樣分布近似服從均值為20,方差為4的正態(tài)分布。我的回答是依賴于樣本容量的。(3)當時,標準正態(tài)統(tǒng)計量的值:(4)當時,標準正態(tài)統(tǒng)計量的值:3.3.5樣本比率的抽樣分布1.比率的概念2.比率的種類3.比率的均值和方差的計算公式4.樣本比率的抽樣分布定理1.比率的概念所謂“比率”,是指總體(或樣本)中“具有某種屬性的單位數(shù)”與“總體容量(或樣本容量)”的比值,反映總體或樣本種單位數(shù)“是”與“非”的構(gòu)成。例如:男生人數(shù)與全班人數(shù)之比;廢品數(shù)與全部產(chǎn)品數(shù)之比,等等。“比率”問題適用于研究“分類或定性的變量”。2.比率的種類

比率總體比率樣本比率總體比率設總體容量為,其中具有“是”這種屬性的單位數(shù)為,具有“非”這種屬性的單位數(shù)為則:具有“是”這種屬性的單位數(shù)與總體容量之比,就稱之為“總體比率”,用表示,即總體比率而具有“非”這種屬性的單位數(shù)與總體容量之比,則為:樣本比率設總體容量為,其中具有“是”這種屬性的單位數(shù)為,具有“非”這種屬性的單位數(shù)為則:具有“是”這種屬性的單位數(shù)與總體容量之比,就稱之為“樣本比率”,用表示,即總體比率而具有“非”這種屬性的單位數(shù)與總體容量之比,則為:3.比率的均值和方差的計算公式

(1)比率的均值=比率本身即:總體比率(P)的均值=總體比率=P樣本比率(p)的均值=樣本比率=p(2)比率的方差=“是”的比率×(1-“非”的比率)即:總體比率(P)的方差=P(1-P)樣本比率(p)的方差=p(1-p)附:(總體比率的均值和方差)的證明因為比率P和(1-P)分別表示的是“是”與“非”這兩種屬性或品質(zhì)特征出現(xiàn)的比率(即頻率)。由于“是”或“非”的屬性,屬于品質(zhì)標志不是數(shù)量標志,無數(shù)值可言,故有必要將其進行數(shù)量化處理。一般地,令:“是”這種屬性的變量值為1,“非”這種屬性的變量值為0。則可得出頻數(shù)分布表如下:頻率

屬性變量值X是非10P1-P(1-P)2×P

(0-P)2×(1-P)∑——1P(1-P)故總體比率的均值:

總體比率的方差:4.樣本比率的抽樣分布定理(1)樣本比率的抽樣分布(2)重復抽樣的條件下樣本比率的抽樣分布定理(3)不重復抽樣的條件下樣本比率的抽樣分布定理

(4)需要特別注意兩點(1)樣本比率的抽樣分布樣本比率的抽樣分布,是指樣本比率的所有可能取值及其相應的概率形成的相對頻數(shù)分布,它是一種概率分布。(2)重復抽樣的條件下樣本比率的抽樣分布定理重復抽樣的條件下,當從總體中抽取一個“樣本容量”為n的樣本時,“具有某種屬性的單位數(shù)(n0)”服從“二項分布”,記為:n0~B(n,P),且有:E(n0)=nP,V(n0)=nP(1-P),則:樣本比率也服從“二項分布”,且有:亦即:樣本比率的均值(或數(shù)學期望)=總體比率樣本比率的方差(樣本比率的抽樣方差)=總體比率的方差÷樣本容量根據(jù)“中心極限定理”,當n→+∞時,二項分布趨近于正態(tài)分布。因此,在大樣本的條件下,如果和,那么“樣本比率”近似地服從“正態(tài)分布”,即:根據(jù)“抽樣平均誤差”的定義和前述可知,樣本比率的抽樣平均誤差公式如下:式中:總體比例P在實際計算中通常用“以前的總體比率”或“樣本比率”來代替。(2)不重復抽樣的條件下樣本比率的抽樣分布定理不重復抽樣的條件下,則用“修正系數(shù)”即以修正,即:從總體中抽取一個“樣本容量”為n的樣本時,“具有某種屬性的單位數(shù)(n0)”服從“二項分布”,記為:n0~B(n,P),且有:E(n0)=nP,V(n0)=nP(1-P),則:樣本比率也服從“二項分布”,且有:亦即:

樣本比率的均值(或數(shù)學期望)=總體比率樣本比率的方差=總體比率的方差÷樣本容量×修正系數(shù)根據(jù)“中心極限定理”,當n→+∞時,二項分布趨近于正態(tài)分布。因此,在大樣本的條件下,如果和,那么“樣本比率”近似地服從“正態(tài)分布”,即:根據(jù)“抽樣平均誤差”的定義和前述可知,樣本比率的抽樣平均誤差公式如下:式中:總體比例P在實際計算中通常用“以前的總體比率”或“樣本比率”來代替。(4)需要特別注意兩點A.當對“無限總體”(N不知道)進行“不重復抽樣”時,可以按“重復抽樣”處理。B.對“有限總體”進行“不重復抽樣”時,當N很大,而抽樣比率時,其修正系數(shù)趨近于1,也可以按“重復抽樣處理。3.3.6樣本方差的抽樣分布1.樣本方差抽樣分布的概念2.樣本方差的抽樣分布定理3.分布的性質(zhì)和特點4.分布的適用范圍1.樣本方差抽樣分布的概念要用“樣本方差”去估計和推斷“總體方差”,也必須知道“樣本方差的抽樣分布”。所謂“樣本方差的抽樣分布”,是指在重復選取樣本容量為n的隨機樣本時,由樣本方差的所有可能取值及其相應的概率形成的相對頻數(shù)分布,它同樣是一種概率分布。2.樣本方差的抽樣分布定理(1)統(tǒng)計證明:對于來自正態(tài)總體的簡單隨機樣本,構(gòu)造統(tǒng)計量(比值)的抽樣分布服從自由度為

的“分布”。即:這是由阿倍(Abbe)于1863年首先提出,后來由海爾墨特(Hermert)和卡爾.皮爾遜(K.Pearson)分別于1875年和1900年推導出的。

(2)設,則標準正態(tài)統(tǒng)計量為:將標準正態(tài)統(tǒng)計量Z兩邊平方,并令:則Y服從自由度為1的“分布”,即:進一步可推導出:當總體時,從中抽取容量為的樣本,則樣本統(tǒng)計量3.分布的性質(zhì)和特點

(1)分布的變量值始終為“正值”。(2)分布的形狀取決于其自由度的大小,通常為“不對稱的右偏分布”,但隨著自由度的增大逐漸趨于對稱。如下圖:f(x)0圖:不同自由度的分布xn=1n=4n=10n=20(3)分布的數(shù)學期望為,方差為(為自由度)。(4)分布具有“可加性”。即:若、是相互獨立的兩個隨機變量,且,,則。(5)分布屬于“漸進正態(tài)分布”。即:當n→∞時,“分布”漸漸地趨近于“正態(tài)分布”。即:4.分布的適用范圍——可用于總體方差的估計和非參數(shù)檢驗等,利用Excel函數(shù)功能中的分布很容易得到“給定顯著性水平”的臨界值。這樣可以利用分布來推斷總體方差的置信區(qū)間。附:單一總體參數(shù)推斷時樣本統(tǒng)計量的抽樣分布樣本統(tǒng)計量樣本比率p大樣本樣本均值非正態(tài)總體小樣本正態(tài)總體或非正態(tài)總體大樣本樣本方差正態(tài)分布t分布正態(tài)分布分布3.3.7兩個樣本統(tǒng)計量的抽樣分布1.引言2.兩個樣本均值之差的抽樣分布3.兩個樣本比率之差的抽樣分布4.兩個樣本方差比的抽樣分布1.引言在對實際問題的研究中,有時我們所研究的是“兩個總體”,即總體1和總體2,所關心的“總體參數(shù)”主要是:“兩個總體均值之差()”、“兩個總體比率只差()”、“兩個總體方差之比()”。相應地,用于推斷這些闡述的“樣本統(tǒng)計量”分別是∶“兩個樣本均值之差()”、“兩個樣本比率之差()”、“兩個樣本方差比()”等。因此,需要分別研究兩個總體參數(shù)推斷時“樣本統(tǒng)計量的抽樣分布”。2.兩個樣本均值之差的抽樣分布(1)兩個樣本均值差抽樣分布的概念(2)兩個樣本均值之差的抽樣分布定理(1)兩個樣本均值差抽樣分布的概念從兩個總體中分別獨立地重復選取抽取容量為和的樣本時,由兩個樣本均值之差的所有可能取值及其相應的概率形成的相對頻數(shù)分布(概率分布),就是兩個樣本均值之差的抽樣分布。(2)兩個樣本均值之差的抽樣分布定理為了推斷兩個總體的均值之差,需要獨立地從兩個總體中分別抽取樣本。假定從總體1中抽取容量為的樣本,其樣本均為,從總體2中抽取容量為的樣本,其樣本均值為。[定理1]:當總體1和總體2都服從“正態(tài)分布”時,即:,,則兩個樣本均值之差()的抽樣分布服從“正態(tài)分布”。于是可得:A.兩個樣本均值之差的數(shù)學期望(抽樣分布的均值)=兩個總體均值之差即:B.兩個樣本均值之差的方差(抽樣分布的方差)=兩個樣本的各自方差之和即:亦即:兩個樣本均之差的抽樣分布,可用下圖來表示

0[定理2]:當兩個總體為“非正態(tài)分布”,且和比較大,一般要求,,根據(jù)中心極限定理,兩個樣本均值之差的抽樣分布仍然可以用“正態(tài)分布”來近似。3.兩個樣本比率之差的抽樣分布

(1)兩個樣本比率之差抽樣分布的概念(2)兩個樣本比率之差的抽樣分布定理(1)兩個樣本比率之差抽樣分布的概念

從兩個服從“二項分布”總體中分別獨立地重復選取抽取容量為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論