版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、參 數(shù) 估 計統(tǒng)計資料的收集與整理通過本章的學習,我們應該知道:1. 統(tǒng)計抽樣推斷的常用術語2. 抽樣推斷基于什么樣的原理3. 點估計與區(qū)間估計的具體操作4. 抽樣組織方式及其相應的誤差計算5. 每次抽樣需要多大的樣本容量目 錄參數(shù)估計3第一節(jié)抽樣推斷的基本概念與原理3一、抽樣推斷的特點和作用3二、重復抽樣與不重復抽樣4三、抽樣誤差與抽樣平均誤差4四、抽樣推斷的理論基礎6五、參數(shù)估計的基本步驟7第二節(jié)參數(shù)估計中的點估計7一、總體參數(shù)的點估計7二、點估計量的優(yōu)良標準7第三節(jié)參數(shù)估計中的區(qū)間估計8一、參數(shù)估計的精度與抽樣平均誤差計算8二、參數(shù)估計的誤差范圍與概率度11三、總體參數(shù)的區(qū)間估計12第四
2、節(jié)抽樣組織方式及其參數(shù)估計13一、簡單隨機抽樣13二、分層抽樣14三、機械抽樣16四、整群抽樣16第五節(jié)必要樣本容量的確定17一、平均數(shù)的必要樣本容量17二、成數(shù)的必要樣本容量18三、影響必要樣本容量的因素19習題19第六章 參數(shù)估計統(tǒng)計抽樣推斷是統(tǒng)計學研究的重要內(nèi)容,它包括兩大核心內(nèi)容:參數(shù)估計(Parameter Estimation)和假設檢驗(Hypothesis Testing)。兩者都是根據(jù)樣本資料,運用科學的統(tǒng)計理論和方法,參數(shù)估計對所要研究的總體參數(shù),進行合乎數(shù)理邏輯的推斷;假設檢驗對先前提出的某個陳述,進行檢驗判斷真?zhèn)巍?005年中國消費者協(xié)會的主題是“健康·維權”
3、。想象你是中國消費者協(xié)會的官員,負責治理缺斤少兩的不法行為。假如你知道可口可樂公司,他們生產(chǎn)的一種瓶裝雪碧,包裝上標明其凈含量是500ml,在市場上隨機抽取了50瓶,測得到其平均含量為499.5ml,標準差為2.63ml。你拿著這些數(shù)據(jù)可能做兩件事:一是你做一個估計:該種包裝的雪碧平均含量在498.77-500.23ml之間,然后向消協(xié)寫份報告;二是你做一個裁決:說“可口可樂公司有欺騙消費者的行為”的證據(jù)不足。前者是參數(shù)估計;后者是假設檢驗。學習參數(shù)估計和假設檢驗要注意:(1)明確要研究的問題,并給出正確的提法;(2)確定合適的統(tǒng)計量,統(tǒng)計量也可以認為是統(tǒng)計推斷模型,不論是參數(shù)估計還是假設檢驗
4、,都要通過統(tǒng)計量來進行,構造的統(tǒng)計量是否可行,直接關系到統(tǒng)計推斷的效果,因此要仔細研究和比較統(tǒng)計量的性質;(3)統(tǒng)計參數(shù)估計和假設檢驗是根據(jù)樣本資料對總體進行認識的,這就要求樣本資料必須要有代表性,否則不可能客觀反映總體的情況;(4)參數(shù)統(tǒng)計與非參數(shù)統(tǒng)計方法的主要區(qū)別,在于前者在處理問題的時候總是從已確知的分布出發(fā),所以在進行統(tǒng)計參數(shù)推斷時,要能夠掌握統(tǒng)計量的精確分布即統(tǒng)計量的抽樣分布;(5)給出推斷結果的合理解釋。本章首先集中說明抽樣推斷中的常用術語,然后主要介紹參數(shù)估計的基本原理,點估計和區(qū)間估計的方法,以及必要樣本容量的測算。第一節(jié) 抽樣推斷的基本概念與原理 抽樣推斷是按照隨機性原則,從
5、研究對象中抽取一部分進行觀察,并根據(jù)所得到的觀察數(shù)據(jù),對研究對象的數(shù)量特征作出具有一定可靠程度的估計和推斷,以達到認識總體的一種統(tǒng)計方法。例如,要檢驗某種工業(yè)產(chǎn)品的質量,我們只需從中抽取一小部分產(chǎn)品進行檢驗,并用計算出來的合格率來估計全部產(chǎn)品的合格率,或是根據(jù)合格率的變化來判斷生產(chǎn)線是否出現(xiàn)了異常。一、抽樣推斷的特點和作用(一)抽樣推斷的特點抽樣推斷方法與其它統(tǒng)計調查方法相比,具有省時、省力、快捷的特點,從而能以較小的代價及時獲得總體的有關信息。1. 根據(jù)樣本資料對總體的數(shù)量特征作出具有一定可靠性的估計和推斷。我們可以用樣本的平均數(shù)或成數(shù)來估計總體的平均數(shù)或成數(shù)。抽樣調查與全面調查相比,雖然目
6、的一致,都是為了達到對總體數(shù)量的認識,但是達到目的的手段和途徑完全不同:抽樣推斷是通過科學的推斷達到目的的,全面調查是通過綜合匯總達到目的的。2. 按照隨機性原則從全部總體中抽取樣本單位。所謂隨機性原則,就是在抽選樣本單位時,總體中每一個單位都有相等被抽中的機會,樣本單位的抽中與否完全是偶然的。遵循隨機性原則抽取樣本是為了保證樣本對總體具有充分的代表性,避免人為的誤差。也只有按隨機性原則抽樣,才能根據(jù)樣本的數(shù)量特征對總體的數(shù)量特征進行科學的估計,從而達到推斷總體的目的。3. 抽樣推斷必然會產(chǎn)生抽樣誤差,這是抽樣推斷方法本身所決定的。抽樣誤差是可以事先通過一定的資料加以計算的,并在抽樣過程中可以
7、采取一定的措施來控制誤差的范圍,從而保證抽樣推斷的結果達到一定的可靠程度,但抽樣誤差是不可能消滅的。(二)抽樣推斷的作用1. 某些現(xiàn)象不可能進行全面調查,為了解其全面資料就必須采用抽樣推斷方法。如對那些有破壞性或消耗性的產(chǎn)品進行質量檢驗,象炮彈的殺傷半徑的檢驗、燈泡的使用壽命的檢驗、人體的白血球的檢驗等,都是不可能進行全面調查的,而只能采用抽樣推斷的方法。另外,對于無限總體或總體的范圍過大時,就很難進行全面調查了。例如,對江河湖海中的魚尾數(shù)、大氣或海洋的污染情況等,都屬于這種情況。2. 某些理論上可以進行全面調查的現(xiàn)象,采用抽樣推斷可以達到事半功倍的效果。如要了解全國城鄉(xiāng)居民的家庭收入狀況,從
8、理論上講可以挨門逐戶進行全面調查,但是調查范圍太大,調查單位太多,實際上難以辦到,也沒有必要。采用抽樣推斷既可以節(jié)省人力、物力、費用和時間,提高調查結果的時效性,又能達到和全面調查同樣的目的和效果。3. 抽樣推斷可以對全面調查的結果進行評價和修正。全面調查涉及范圍廣,調查單位多,工作量大,參加人員多,因而發(fā)生登記性和計算性的誤差就多。所以,在全面調查后,還可以再抽取一部分單位重新調查一次,計算其差錯比率,并以此為依據(jù)對全面調查的資料進行修正,這樣就可以進一步提高全面調查資料的準確性。由于抽樣推斷中調查的范圍小,可以多調查一些項目,或從事某項更深入的專題調查,以補充全面調查的不足。全國人口普查就
9、是有短表和長表之分,短表用于全面調查,長表用于抽樣調查。4. 抽樣推斷可用于工業(yè)生產(chǎn)過程中的質量控制。在工業(yè)產(chǎn)品成批或大量連續(xù)生產(chǎn)過程中,采用抽樣推斷方法可以檢驗生產(chǎn)工藝過程是否正常,及時提供有關信息,便于采取相應措施,進行質量控制,保證生產(chǎn)質量穩(wěn)定,防止損失。5. 利用抽樣推斷的原理,可以對某些總體的假設進行檢驗,來判斷假設的真?zhèn)?,為決策提供依據(jù)。如某地上一年度居民家庭年收入35000元,本年度抽樣調查結果顯示居民家庭年收入33000元,這是否意味著該地居民家庭收入水平下降了呢?我們還不能下這個結論,最好通過假設檢驗,檢驗這兩年居民家庭收入是否存在顯著性統(tǒng)計差異,才能判斷該地本年度居民家庭收
10、入是否低于上年度水平??傊?,抽樣推斷是一種科學實用的統(tǒng)計方法,在自然科學與社會科學領域都有著廣泛的應用。二、重復抽樣與不重復抽樣抽樣推斷首先要抽取樣本,就具體方法而言有重復抽樣與不重復抽樣之分。1. 重復抽樣 重復抽樣又叫有放還抽樣或重置抽樣。它是每抽出一個樣本單位后,把結果記錄下來,隨即將該單位放回到總體中去,使它和其余的單位在下一次抽選中具有同等被抽中的機會。在重復抽樣過程中,總體單位數(shù)始終保持不變,并且同一個單位有多次被抽中的可能性。2. 不重復抽樣不重復抽樣又叫無放還抽樣或不重置抽樣。它是每抽出一個樣本單位后,把結果記錄下來,該單位就不再放回到總體中去參加以后的抽選。在不重復抽樣過程中
11、,總體單位數(shù)逐漸減少,并且每個單位至多只有一次被抽中的可能性。不重復抽樣的結果,其精度要比重復抽樣高,因為它的樣本的代表性更好。三、抽樣誤差與抽樣平均誤差(一)抽樣誤差(sampling error)樣本指標具有隨機性,它的取值隨著樣本的變化而變化。例如,想要了解某校新生的身高情況,可以從入學新生這個總體中抽取一系列樣本進行觀察,如果計算出所抽取的各樣本的平均身高,就會發(fā)現(xiàn)各個樣本的平均數(shù)并不完全相等,彼此間存在著一定的差異。因此,當我們用樣本指標來代表總體指標時就會產(chǎn)生一定的誤差,這種誤差是抽樣推斷方法本身所固有的,所以叫抽樣誤差,也叫代表性誤差。抽樣誤差主要包括樣本平均數(shù)與總體平均數(shù)的差數(shù)
12、,樣本成數(shù)與總體成數(shù)的差數(shù)。抽樣誤差愈小,表示樣本的代表性愈高;反之,代表性就愈低。抽樣誤差的大小決定于以下幾個因素:1. 樣本容量n的多少。在其它條件不變的情況下,樣本容量愈大,抽樣誤差就愈??;反之,抽樣誤差就愈大??梢韵胂?,當把樣本容量n擴大到等于總體容量N時,抽樣調查也就等于全面調查,抽樣誤差也就隨之消失。2. 總體被研究標志的變異程度。在其它條件不變的情況下,標志變異程度愈大,抽樣誤差也愈大;反之,則抽樣誤差就愈小。如果標志之間沒有差異,每一個單位的標志都一樣,則抽出任何一個單位都可代表總體,這時也就不存在抽樣誤差了。學生:想象一下,如果每個學生考試成績都是一樣的話,那么只要抽一個學生
13、就可以了。3. 抽樣方法的選擇。在抽樣調查時,采用什么樣的方式和組織形式直接影響到抽樣誤差的大小。在相同的情況下,不重復抽樣比重復抽樣的誤差小,這是因為重復抽樣有可能使同一單位被多次抽中,因而產(chǎn)生的樣本對總體的代表性就較差。當然,這兩種方式產(chǎn)生的差別也僅在總體不很大時才有體現(xiàn),當總體很大時,這兩種抽樣的誤差也趨于相等。(二)抽樣平均誤差抽樣平均誤差就是抽樣平均數(shù)或成數(shù)的標準差。在抽樣推斷中,一個總體可以抽取很多個樣本,每個樣本都可以算出它的抽樣平均數(shù)或抽樣成數(shù),樣本的結構不同,這些數(shù)字也就各有不同,因而它們和總體平均數(shù)或總體成數(shù)之間就會有各種不同的誤差。抽樣平均誤差就是說明各個抽樣平均數(shù)或抽樣
14、成數(shù)與總體平均數(shù)或總體成數(shù)之間的平均誤差。它是我們用樣本指標來估計或推斷總體指標時,計算誤差范圍的基礎。設以分別代表抽樣平均數(shù)或抽樣成數(shù)的平均差,M表示樣本的可能數(shù)目,則抽樣平均誤差的理論公式為: (6.1) (6.2)樣本的可能數(shù)目M是指在固定樣本容量的前提下,從總體中抽取不同樣本總體的可能數(shù)目,這個數(shù)目與抽樣方式有關。如果從5個職工中抽取2個組成一個樣本,在重復抽樣條件下,一共可以組成5×5=25個樣本;在不重復抽樣條件下,一共可以組成5×4=20個樣本,顯然這兩種方式所得到的樣本總數(shù)是不同的。下圖是我們在Excel表格進行的數(shù)據(jù)模擬。圖6.1 數(shù)據(jù)模型不同的抽樣方式平
15、均誤差公式(6.1)和(6.2)只能用來解釋平均誤差的概念,在實際問題中要根據(jù)該公式來計算平均誤差是不可能的,首先,總體的平均數(shù)或成數(shù)通常未知;其次,也很難給出全部樣本的平均數(shù)或成數(shù)。四、抽樣推斷的理論基礎抽樣推斷是以概率論的基本理論之一的極限定理為基礎的,極限定理就是采用極限的方法得出隨機變量概率分布一系列定理的總稱,其內(nèi)容廣泛,其中的大數(shù)定律和中心極限定理為抽樣估計提供了主要的數(shù)學依據(jù)。1. 大數(shù)法則大數(shù)法則又叫大數(shù)定律,說明由大量相互獨立的隨機變量構成的總體,其中每個變量雖有各種不同的表現(xiàn),但對這些大量的變量加以綜合平均,就可以消除由偶然因素引起的個別差異,從而使總體單位的某一標志的規(guī)律
16、性及其共同特征能在一定的數(shù)量和質量上表現(xiàn)出來。大數(shù)法則的理論研究成果眾多,我們以切比雪夫大數(shù)定律的一特殊情況為例:設為獨立的隨機變量序列,服從同一分布,且具有相同的期望值以及方差,則對于任意的正數(shù),有:可見大數(shù)法則從數(shù)量關系角度闡明了樣本和總體之間的內(nèi)在聯(lián)系,證明了隨著抽樣容量n的增加,能夠以接近1的概率期望抽樣平均數(shù)與總體平均數(shù)的偏差為任意小。 2. 中心極限定理有些隨機變量表現(xiàn)為大量獨立隨機變量之和。例如,任意指定時刻城市用電量是大量用電量的總和,一個零件的實際尺寸與標準尺寸的偏差是原材料、設備、操作技術、經(jīng)營管理水平等多種因素綜合影響的結果,等等。中心極限定理就是研究隨機變量之和在什么條
17、件下漸近地服從正態(tài)分布。設是相互獨立同分布的隨機變量,且它們的數(shù)學期望為,方差為,則也是一個隨機變量,當n很大時,它的分布漸近服從數(shù)學期望和方差分別為和的正態(tài)分布N(,)。由上述定理,可以得到以下推論:不論總體是什么分布,只要數(shù)學期望和方差存在,從這個總體中隨機互相獨立地抽取容量為n的樣本,則這個樣本的平均數(shù)是個隨機變量,當n足夠大時(一般n30),樣本平均數(shù)近似服從數(shù)學期望為,方差為的正態(tài)分布N(,)。如果用X表示n次獨立試驗中事件A發(fā)生的次數(shù),p為每單一試驗中事件A發(fā)生的概率,則X服從二項分布B(n, p)。根據(jù)中心極限定理,當n很大,而p又不太接近0或1時,正態(tài)分布為二項分布提供了一個很
18、好的近似。只要n>50,且和都大于5時,我們把X看成近似服從正態(tài)分布N,,或者作變量代換得到,使其近似服從標準正態(tài)分布N(0,1)。中心極限定理是大樣本統(tǒng)計推斷的理論基礎。樣本平均數(shù)也是一種隨機變量之和的分布,根據(jù)中心極限定理,只要在樣本容量n充分大時,不論總體的變量分布是否屬于正態(tài)分布,其抽樣平均數(shù)也趨近于正態(tài)分布,即隨,。這就為抽樣推斷提供了重要的理論依據(jù)。正因為如此,在抽樣推斷中,正態(tài)分布得到了廣泛的應用。五、參數(shù)估計的基本步驟抽樣調查有多種組織方式,不論采用何種組織方式,抽樣推斷的基本原理都是相似的。抽樣推斷的基本步驟是:1. 按照一定的抽樣方式抽取適當?shù)臉颖具M行調查,針對該種抽
19、樣方式選擇總體參數(shù)的最優(yōu)樣本估計量,計算估計值,以此作為總體參數(shù)的點估計;2. 根據(jù)該種抽樣方式的抽樣平均誤差公式計算出抽樣誤差(或),這里,我們往往要先計算樣本標準差以替代未知的總體標準差;3. 根據(jù)所要求的置信水平,查正態(tài)分布表、t分布表或其他分布表獲得對應的概率度,然后再計算出抽樣極限誤差,最后對總體參數(shù)作出區(qū)間推斷。第二節(jié) 參數(shù)估計中的點估計一、總體參數(shù)的點估計點估計,也稱定值估計,就是以樣本估計量直接代替總體參數(shù)的一種推斷方法。當已知一個樣本的觀察值時,便可得到總體參數(shù)的一個估計值。如在某校學生體重的調查中,獲知抽取的400名學生的平均體重為58公斤,則我們說該校8000名學生的平均
20、體重也是58公斤。這種推斷就是對總體平均數(shù)作了點估計。點估計的優(yōu)點在于它能夠提供總體參數(shù)的具體估計值,可以作為行動決策的數(shù)量依據(jù)。例如,推銷部門對某種產(chǎn)品估計出全年銷售額數(shù)值,并分出每月銷售額,便可傳遞給生產(chǎn)部門作為制定生產(chǎn)計劃的依據(jù),而生產(chǎn)部門又可將每月產(chǎn)量計劃傳遞給采購部門作為制定原材料采購計劃的依據(jù)等。點估計也有不足之處,它不能提供誤差情況如何、誤差程度有多大的這類重要信息。點估計常用的方法有兩種:矩估計法和極大似然估計法。1. 矩估計法是英國統(tǒng)計學家K·Pearson提出的。其基本思想是:由于樣本來源于總體,樣本矩在一定程度上反映了總體矩,而且由大數(shù)定律可知,樣本矩依概率收斂
21、于總體矩。因此,只要總體的k階原點矩存在,就可以用樣本矩作為相應總體矩的估計量,用樣本矩的函數(shù)作為總體矩的函數(shù)的估計量。例如,用樣本均值來估計總體均值,用樣本方差來估計總體方差。矩估計法簡單、直觀,而且不必知道總體的分布類型,所以矩估計法得到了廣泛應用。但矩估計法也有局限性,它要求總體以k階原點矩存在,否則無法估計,它不考慮總體分布類型,因此也就沒有充分利用總體分布函數(shù)提供的信息。2. 極大似然估計法是由Fisher,提出的一種參數(shù)估計方法。其基本思想是:設總體分布的函數(shù)形式已知,但有未知參數(shù),可以取很多值,在的一切可能取值中選一個使樣本觀察值出現(xiàn)的概率為最大的值作為的估計值,記作,稱為的極大
22、似然估計值,這種求估計量的方法稱為極大似然估計法。抽樣誤差的存在是必然的,點估計不考慮誤差范圍,因此也就說明不了估計的準確性和可靠性。但區(qū)間估計可以彌補這一不足。二、點估計量的優(yōu)良標準用樣本估計量去推斷總體參數(shù),并非只能用一個樣本估計量,而可能有多個估計量可供選擇,我們總希望選定的估計量能夠推斷地好一點,那么“好一點”的標準是什么呢?一般來說有三個基本的標準,滿足了這三個標準就可以認為該估計量是優(yōu)良的。1. 無偏性。無偏性的直觀意義是沒有系統(tǒng)性誤差。雖然每個可能樣本的估計值不一定恰好等于未知總體參數(shù),但如果多次抽樣,應該要求各個估計值的平均數(shù)等于總體參數(shù),即從平均意義上,估計量的估計是沒有偏差
23、的。這一要求稱為無偏性。一般來說,這是一個優(yōu)良的估計量必須具備的性質。例如樣本平均數(shù)和樣本成數(shù)分別滿足: (6.3)式中,E表示數(shù)學期望,即算術平均數(shù),所以樣本平均數(shù)(成數(shù))是總體平均數(shù)(成數(shù))的無偏估計。學生:都是無偏估計哦。有沒有有偏估計量的呢?教師:有呀,你們記得不記得第四章我們提到樣本標準差的公式和總體標準差的公式是不一樣的?其實如果我們將樣本方差按著總體方差的公式算的話,那么它就是有偏估計量了,之所以要調整公式,就是將有偏估計量改變成無偏估計量的。大部分數(shù)理統(tǒng)計的書上都對此做了證明,有空去看看哦。2. 一致性。一致性要求用樣本估計量估計和推斷總體參數(shù)時要達到:樣本容量n充分大時,樣本
24、估計量充分靠近總體參數(shù),即隨著n的無限增大,樣本估計量與未知的總體參數(shù)之間的絕對離差任意小的可能性趨于實際的必然性。根據(jù)概率論中的大數(shù)定律可知:對于任意給定的正數(shù)有: (6.4)上式表明,當樣本容量越來越大時,樣本平均數(shù)(樣本成數(shù))與總體平均數(shù)(總體成數(shù))的偏差小于任意給定的正數(shù)的可能性趨近于1的概率,即幾乎是一定發(fā)生的。因此,樣本估計量是總體參數(shù)的一致估計量。3. 有效性。有效性要求樣本估計量估計和推斷總體參數(shù)時,作為估計量的標準差比其它估計量的標準差小。如果一個無偏估計量在所有無偏估計量中標準差最小,即: (6.5)式中,為任意一個無偏估計量,則是有效估計量,或稱該估計量具有有效性。顯然,
25、如果某總體參數(shù)具有兩個不同的無偏估計量,希望確定哪一個是更有效的估計量,自然應該選擇標準差小的那個。估計量的標準差愈小,根據(jù)它推導出接近于總體參數(shù)估計的值的機會愈大。我們可以證明:樣本平均數(shù)(成數(shù))推斷總體平均數(shù)(成數(shù))均能滿足優(yōu)良估計的三條標準。第三節(jié) 參數(shù)估計中的區(qū)間估計一、參數(shù)估計的精度與抽樣平均誤差計算參數(shù)估計的精度通常是指抽樣誤差的大小。抽樣誤差越大,參數(shù)估計的精度就越低;抽樣誤差越小,參數(shù)估計的精度就越高。參數(shù)估計的精度必須通過計算抽樣誤差才能反映,由于在抽樣過程中總體參數(shù)總是一個未知的常數(shù),所以,樣本估計值與總體參數(shù)的真實值之間究竟有多大的差距,實際上是無法得知的;同時,由于樣本
26、估計值是一個隨機變量,它隨著每次抽出的樣本不同而不同,某一次抽樣結果的誤差,僅僅是反復抽樣中一系列抽樣結果可能出現(xiàn)的誤差數(shù)值中的一個,直觀上看顯然不能用它來概括一系列可能抽樣結果所產(chǎn)生的所有實際誤差。所以,在抽樣調查理論中,我們采用抽樣平均誤差,即所有抽樣估計值的標準差作為參數(shù)估計的抽樣誤差大小的尺度。教師:這里所說的“所有抽樣估計值”根據(jù)不同的抽樣方式,是有不同的。再看圖6.1,對重復抽樣來說,共有25個抽樣估計值,計算其標準差為56.57;對不重復抽樣來說,共有20個抽樣估計值,計算其標準差為48.99。(一)抽樣平均數(shù)的抽樣平均誤差由于抽樣平均數(shù)是個隨機變量,由抽樣平均誤差的定義可知,抽
27、樣平均數(shù)的平均誤差就是的標準差。設以表示抽樣平均數(shù)的平均誤差,表示樣本的可能數(shù)目,如采取重復抽樣,用數(shù)理統(tǒng)計知識可以證明平均數(shù)的抽樣平均誤差公式為: (6.6)式中的代表總體的標準差。當總體標準差未知時,一般可用樣本標準差來代替。教師:看圖6.1,計算總體的標準差為80,再根據(jù)公式(6.6),計算得:56.57。公式(6.6)可以看出,在重復抽樣的情況下,抽樣平均數(shù)的抽樣平均誤差僅為總體標準差的,即樣本平均數(shù)的標準差比總體的標準差大大縮小。例如,當樣本的單位數(shù)為100時,則平均數(shù)的標準差僅為總體標準差的1/10。如采用不重復抽樣,用數(shù)理統(tǒng)計知識可以證明平均數(shù)的抽樣平均誤差公式為: (6.7)式
28、中的表示總體單位數(shù),教師:看圖6.1,計算總體的標準差為80,再根據(jù)公式(6.7),計算得:48.99。當很大時,上面的公式可以近似的表示為: (6.8)同理,當總體標準差未知時,我們也可以用樣本標準差來代替總體的標準差。上面不重復抽樣誤差的近似公式與重復抽樣誤差公式的區(qū)別是公式中多了一個。這是一個修正系數(shù),也稱為校正因子。由于修正系數(shù)是一個大于0而小于1的系數(shù),因此,在同樣情況下,不重復抽樣的平均誤差也總是小于重復抽樣的平均誤差。如果總體的單位數(shù)很大而樣本的單位數(shù)相對很小時,則接近于1,這時修正系數(shù)也就作用不大了。因此,實際工作中,按不重復抽樣方法進行抽樣時,也往往用重復抽樣的公式來計算抽樣
29、平均誤差?!纠?.1】 從某校8000名學生中隨機抽取400人,稱得其平均體重為58公斤,標準差為10公斤,計算抽樣平均誤差。【解】在重復抽樣條件下為:在不重復抽樣條件下為:(二)抽樣成數(shù)的抽樣平均誤差抽樣成數(shù)的抽樣平均誤差表明各樣本成數(shù)的絕對離差的平均水平。對于屬性總體我們可以把它化為變量總體。例如在個產(chǎn)品中,有件合格品,件不合格品,對合格品將其標志值記為1,不合格品標志值記為0,這時總體平均數(shù)為:可見,總體的成數(shù)可以表現(xiàn)為總體是(0、1)標志的平均數(shù),同理樣本的成數(shù)也就轉化為樣本的平均數(shù)。因而,成數(shù)的平均誤差也就成了平均數(shù)的平均誤差,只是這時總體的標準差是:,因此,當我們用來代替平均數(shù)的平
30、均誤差公式中時,即可得相應的抽樣成數(shù)的平均誤差計算公式。在重復抽樣條件下: (6.8)式中為總體成數(shù)。在不重復抽樣的條件下: (6.9)當總體單位數(shù)很大時,可近似表示為: (6.10)一般總體的成數(shù)是未知的,通常是用樣本的成數(shù)p來代替公式中的總體成數(shù)?!纠?.2】有一批食品罐頭共60 000瓶,從中隨機抽取300瓶,發(fā)現(xiàn)有6瓶不合格,求合格率的抽樣平均誤差?!窘狻吭谥貜统闃訔l件下為:(其中,合格率)在不重復抽樣條件下:二、參數(shù)估計的誤差范圍與概率度抽樣平均誤差只是衡量誤差可能范圍的一種尺度。它并不等同于抽樣指標與總體指標之間的真實誤差。由于總體參數(shù)是一個確定的常數(shù),而樣本估計量會隨抽取的樣本不
31、同而圍繞總體參數(shù)上下隨機取值。因此,樣本估計量與總體參數(shù)之間存在一個誤差范圍。所謂抽樣誤差范圍就是指變動的樣本估計值與確定的總體參數(shù)之間離差的可能范圍,它可用樣本估計值與總體參數(shù)的最大絕對誤差限來表達。統(tǒng)計上稱這一誤差限為抽樣極限誤差或抽樣允許誤差。設和分別表示樣本平均數(shù)和樣本成數(shù)的抽樣極限誤差,則有: (6.11)上式表明,抽樣平均數(shù)或抽樣成數(shù)在或之間變動。將上面的絕對值不等式展開可得: (6.12)這些不等式表明,樣本平均數(shù)是以總體平均數(shù)為中心,在之間變動的;樣本成數(shù)是以總體成數(shù)為中心,在之間變動的。抽樣誤差范圍是以或為中心的兩個的距離。這是抽樣極限誤差的原意。但是,由于總體參數(shù)是未知的常
32、數(shù),而樣本估計值是可以通過調查求得的,因此,我們也可以把上面的兩個不等式改寫成等價的另一種形式,即: (6.13)可見,抽樣極限誤差的實際意義就是希望總體平均數(shù)落在抽樣平均數(shù)的范圍之內(nèi);總體成數(shù)落在抽樣成數(shù)的范圍之內(nèi)。對于一個總體來說,當抽樣方式以及樣本的單位數(shù)確定后,抽樣誤差就是個確定的值,而抽樣極限誤差則是根據(jù)不同情況和精確程度,由人們來確定其大小的。因此,抽樣極限誤差常常以抽樣平均誤差(或)為單位來衡量,并且把抽樣極限誤差(或)除以抽樣平均誤差(或)所得的數(shù)值叫做概率度。若以z表示概率度,則有: (6.14)若事先確定概率度的大小,則可以得到抽樣極限誤差為: (6.15)由于抽樣平均數(shù)是
33、一個隨機變量,由中心極限定理可知:當充分大時,就服從正態(tài)分布,從而服從標準正態(tài)分布。這樣我們就可以在確定的誤差范圍下,求出相應的概率大小,而抽樣極限誤差的大小又可確定相應概率度的大小,這樣如先確定概率度為z,則可求得相應的概率為: (6.16)上式就是抽樣平均數(shù)落在之間的概率,如總體平均數(shù)未知,則上式也可以看作是落在之間的概率。上述的積分值要查標準正態(tài)分布表,在查表時要注意:有的表給出的是的值,也有的可給出的值。(標準正態(tài)分布表見附錄一)從前面的式子可以明顯地看到這樣的關系:當確定的抽樣極限誤差愈大,則概率度z也就愈大,相應的概率也愈大,即抽樣平均數(shù)(或抽樣成數(shù))落在指定范圍的可能性也愈大;反
34、之,則相應的概率就減少?,F(xiàn)將常用的概率度z與相應的概率的幾個數(shù)值對應列表如下(表6.1):表6.1 常用的概率度與概率對照表概率度z11.651.9622.583概率F(z)0.68270.90000.95000.95450.990.9973三、總體參數(shù)的區(qū)間估計總體參數(shù)的區(qū)間估計就是依照一定的概率保證程度,用樣本估計值估計總體參數(shù)取值范圍的方法。設總體參數(shù)為,、是由樣本確定的兩個統(tǒng)計量,對于給定的(),有:= 1- 則稱(、)為參數(shù)的置信度為1-的置信區(qū)間。該區(qū)間的兩個端點、分別稱為置信下限和置信上限。置信區(qū)間的直觀意義:若作為多次同樣的抽樣,將得到多個置信區(qū)間,其中有的區(qū)間包含了字體參數(shù)的
35、真值,有的區(qū)間沒有包含總體參數(shù)的真值。1-為置信度,亦稱為置信水平或置信概率,置信度表達了參數(shù)區(qū)間估計的可靠性。置信區(qū)間越小,說明估計的精確性越高;置信度越大,估計可靠性就越大。一般說來,在樣本容量一定的前提下,精確度與置信度往往是相互矛盾的:若置信度增加,則區(qū)間必然增大,降低了精確度;若精確度提高,則區(qū)間縮小,置信度必然減小。要同時提高估計的置信度和精確度,就要增加樣本容量。如果對總體的平均數(shù)與成數(shù)做區(qū)間估計,依據(jù)的計算公式就是(6.13)式。以平均數(shù)為例,這里的就等于;就等于?!纠?.3】某公司有職工3000人,從中隨機抽取60人調查其工資收入情況。調查結果表明,職工的月平均工資為2350
36、元,標準差為193元,月收入在2000元及以上職工40人。試以95.45%的置信水平推斷該公司職工月平均工資所在的范圍和月收入在2000元及以上職工在全部職工中所占的比重?!窘狻恳李}意計算如下:F(z)=95.45%, z=2 計算結果表明,有95.45%的把握說該公司職工月平均工資在2300.66到2399.34元之間。 月收入在2000元及以上職工在全部職工中所占的比重為:計算結果表明,有95.45%的把握說該公司月收入在2000元及以上職工占全部職工的比重在54.63%到78.71%之間?;氐轿覀冮_頭的例子,你在市場上隨機抽取了50瓶雪,測得到其平均含量為499.5ml,標準差為2.63
37、ml,如果以95%的置信度,則可算出:,所以:第四節(jié) 抽樣組織方式及其參數(shù)估計抽樣有多種組織方式,不同的組織方式,計算抽樣平均誤差的公式也有所不同,本節(jié)介紹常用的四種抽樣組織方式,并舉例說明各種方式的參數(shù)估計。一、簡單隨機抽樣簡單隨機抽樣又叫純隨機抽樣,是最簡單、最普遍的抽樣組織方法。它是按照隨機性原則直接從總體的全部單位中,抽取若干個單位作為樣本單位,保證總體中每個單位在抽選中都有同等被抽中的機會。簡單隨機抽樣在理論上是最符合隨機抽樣原則的。前面我們所討論的有關抽樣誤差的計算公式都是在簡單隨機抽樣條件下得到的。隨機抽選樣本單位的具體做法有如下三種:1. 抽簽法根據(jù)抽樣框,每個單位都編有1至的
38、唯一的編號。我們可以做個完全一樣的分別標上1至的標簽,充分地拌勻后逐個地抽出個標簽,然后根據(jù)抽樣框找到相應的抽樣單位進行現(xiàn)場調查,從而得到一個簡單隨機樣本。如果總體比較大,抽簽法就顯得比較笨重,實施起來不太方便,甚至于根本無法實施,此時可利用隨機數(shù)字表法。2. 隨機數(shù)字表法隨機數(shù)字表,是供抽樣使用的,由0到9這十個數(shù)碼隨機排列組成的多位數(shù)字表。在使用前,先將總體的全部單位編號,并根據(jù)編號的位數(shù)確定使用表中數(shù)字的列數(shù);然后,從任意一行、任意一列、任意方向開始數(shù),遇到編號范圍內(nèi)的數(shù)字就作為樣本單位,超過編號范圍內(nèi)的數(shù)字就跳過去,直到抽夠樣本單位數(shù)目為止。(隨機數(shù)字表見附錄二)3. 計算機軟件中的隨
39、機函數(shù)產(chǎn)生隨機數(shù)的功能 Excel解決方案 將數(shù)據(jù)集03中的序號摘出,要求在這470個人員中隨機抽取10人 選擇菜單“工具”“數(shù)據(jù)分析”,打開“數(shù)據(jù)分析”對話框,見圖2.9 選擇其中的“抽樣”,打開對話框,見圖6.2 正確填寫相關信息后,點“確定”,結果將C列中見圖6.3,圖中E列是又一次運行的結果。圖6.2 “抽樣”分析工具對話框圖6.3 隨機抽樣的采集結果二、分層抽樣在抽樣調查實踐中,經(jīng)常遇到的情況是:在動手設計抽樣方案之前,我們對所要研究的總體構成已經(jīng)有了某種程度的了解。例如已知總體單位分屬于不同類型的子總體;已知與調查標志相關的一些輔助標志等等。此時,我們可以而且應該利用這種
40、事先獲得的有關信息來改進抽樣方案設計,以提高抽樣推斷的精度。分層抽樣就是這樣一種組織方法。分層抽樣又叫類型抽樣,它是先將總體各單位按某一有關標志分成若干個類型組,然后按照一定比例再從各類型組中隨機抽取樣本單位。例如,在職工家庭生活調查中,可先將全部職工按部門分為工業(yè)、商業(yè)、文教、衛(wèi)生等部門,然后再從這些部門中按一定比例抽選基本單位和職工戶。采用這種抽樣方法可以提高樣本的代表性,減少抽樣誤差。對于那些總體情況復雜、各單位之間差異較大、單位數(shù)量較多的抽樣調查問題,一般都可以采用分層抽樣的方法進行抽樣調查。由于各個類型組的單位數(shù)一般是不相等的,從各個類型組中抽取多少樣本單位有兩種不同的確定方法。一種
41、是按各組標志值變動的大小來確定,沒有統(tǒng)一的抽樣比例;另一種是按比例抽樣,即保持每組樣本單位數(shù)與樣本容量之比等于各組總體單位數(shù)與全及總體單位數(shù)之比。例如,設總體由個單位組成,把總體分成為k組,使,若樣本的總容量為,則從第組抽取的樣本單位數(shù)應滿足: (6.17)所以各組抽取的樣本單位數(shù)應為: (6.18)并且有: (6.19)即各組抽取的樣本單位數(shù)之和等于樣本總容量。在類型比例的條件下,可以給出抽樣平均數(shù)(或抽樣成數(shù))和抽樣誤差的計算公式。設從第組的抽取的樣本是:,于是,第組的抽樣平均數(shù)是: (6.20)樣本總體的平均數(shù)為: (6.21)同理,樣本總體方差的平均數(shù)為: (6.22)重復抽樣誤差公式
42、為: (6.23)不重復抽樣誤差公式為: (6.24)【例6.4】某地有10000名勞動力,其中:從事農(nóng)業(yè)勞動的有7000人,從事工業(yè)勞動的有3000人,現(xiàn)按兩類人數(shù)的比例抽取100人,計算各相關指標如表6.2,請以95%的置信水平推斷該地人均收入的區(qū)間。表6.2 各組平均收入與標準差類型全部人數(shù)抽樣人數(shù)樣本平均數(shù)樣本標準差從事農(nóng)業(yè) 7000 70 750 25從事工業(yè) 3000 30 1000 30【解】由于該例題中抽樣總體僅占全及總體的1%,故可采用重復抽樣公式來計算。具體計算如下:F(z)=95%, z=1.96 故有95%的把握說,該地人均收入在819.81元到830.19元之間。三、
43、機械抽樣機械抽樣又叫等距抽樣或系統(tǒng)抽樣。它是先把總體所有單位按某一標志排隊,并根據(jù)總體單位數(shù)與樣本單位數(shù)的比例計算出抽樣距離和間隔,隨機確定一個起始點作為第一個樣本單位,以后每隔相等的距離和間隔抽取樣本單位。對總體單位排隊時所采用的標志,可以是與調查項目有關的,也可以是與調查項目無關的,前者稱為有關標志排隊法;后者稱為無關標志排隊法。例如,對某校學生學習情況進行調查,如按身高排隊就是無關標志排隊;如按考試分數(shù)排隊就是有關標志排隊。按無關標志排隊的機械抽樣,其抽樣平均誤差與簡單隨機抽樣十分接近,一般都采用簡單隨機抽樣的平均抽樣誤差公式代替計算。而采用有關標志排隊時,其抽樣平均誤差一般要小于簡單隨
44、機抽樣的平均誤差。在實際進行抽樣時必須注意到,機械抽樣在排定順序,且第一個樣本單位的位置確定后,其余單位的位置也就隨之確定。因此,要避免抽樣間隔和現(xiàn)象本身的周期性節(jié)奏相重合引起系統(tǒng)性的影響,如工業(yè)產(chǎn)品質量抽查,產(chǎn)品抽查時間間隔不宜和上下班時間一致,防止發(fā)生系統(tǒng)性偏差。在圖6.2 抽樣分析工具對話框中的抽樣方法中的第一項“周期”,就是幫助我們進行機械抽樣的,只要輸入抽樣的間隔,計算機就會為你提供抽到的數(shù)據(jù)。四、整群抽樣整群抽樣是將總體所有單位劃分為若干個群(組),然后以群(組)為單位從中隨機抽取部分群(組),對抽中的群(組)內(nèi)所有單位進行全面調查的抽樣組織形式。如調查某縣小學教育情況,我們可以從該縣中隨機抽取若干個小學,然后對抽中的小學進行全面調查。整群抽樣與前面三種抽樣組織方法相比,是抽樣單位擴大了,即抽取的基本單位不再是總體單位而是群(組)。我們把整群抽樣與簡單隨機抽樣相比較,把群看作
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 互聯(lián)網(wǎng)游戲運營合同
- 交通行業(yè)勞動合同社保注意事項
- 互聯(lián)網(wǎng)行業(yè)就業(yè)協(xié)議書樣本
- 企業(yè)與大學生實習協(xié)議
- 二手房交易保險購買協(xié)議
- 臨海市咨詢公司顧問合同
- 北京市西城區(qū)北京師大附屬實驗中學2024年高三3月聯(lián)考數(shù)學試題理試題
- 二手車買賣批發(fā)商合同書
- 企業(yè)入駐戰(zhàn)略執(zhí)行官協(xié)議
- 會計服務合同
- 實現(xiàn)中國夢必須弘揚中國精神
- 2024年國能包神鐵路集團有限責任公司招聘筆試參考題庫含答案解析
- 2024年天翼云運維工程師認證考試復習題庫(含答案)
- 2023年煙臺工程職業(yè)技術學院輔導員招聘考試真題
- 設備確認函格式范文
- 大數(shù)據(jù)金融與風險管理的智能化應用與發(fā)展趨勢
- 學校體育場館運營方案
- 兒童海洋知識講座
- 高考數(shù)學培訓課件
- 駕照體檢表完整版本
- 初中九年級英語課件中考英語寫作My school life
評論
0/150
提交評論