數(shù)理統(tǒng)計第一章(2)剖析

上傳人：n*** IP屬地：天津上傳時間：2022-12-27 格式：DOC 頁數(shù)：26 大?。?.46MB 積分：36 舉報 版權(quán)申訴

已閱讀5頁，還剩21頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

第1章抽樣調(diào)查§1.1引言緒論中關(guān)于數(shù)理統(tǒng)計學(xué)的概念的闡述可以看出數(shù)理統(tǒng)計面對的就是數(shù)據(jù)，而數(shù)據(jù)的“質(zhì)量”對最終的得出的結(jié)論的可靠性有著重大影響 .對于普查的數(shù)據(jù)，數(shù)據(jù)的有效性、準(zhǔn)確性很重要（這類數(shù)據(jù)的研究不屬于數(shù)理統(tǒng)計學(xué)的范疇） .對于抽查數(shù)據(jù)，數(shù)據(jù)的概率性質(zhì)很重要.本章簡要地介紹抽樣調(diào)查的一些概念和技術(shù)以及相關(guān)理論 .在數(shù)理統(tǒng)計學(xué)中還有另一種獲取數(shù)據(jù)的方法 --試驗設(shè)計(將在后面介紹).抽樣調(diào)查是從總體中抽取一小部分個體以獲取總體的有關(guān)信息 .根據(jù)研究對象即總體的不同特點需要設(shè)計不同的抽樣方法以獲取高 “質(zhì)量”的數(shù)據(jù).抽樣技術(shù)在很多領(lǐng)域都有應(yīng)用 .隨機抽樣至少有以下的益處 :抽取個體的隨機性排除了調(diào)查者的偏見，即使是無意識的。與完全枚舉（即普查）相比，減少很多成本，調(diào)查更省時。隨機抽樣的結(jié)論實際上可能比完全枚舉更精確。小樣本的數(shù)據(jù)質(zhì)量更容易監(jiān)控，完全枚舉需要大量的調(diào)查人員去實施，由此可能帶來更多業(yè)務(wù)不精的職員。隨機抽樣技術(shù)使得抽樣誤差估計變得可能。在抽樣設(shè)計時，通?？梢源_定出滿足預(yù)設(shè)誤差水平的樣本容量。抽樣調(diào)查大多是指大規(guī)模抽樣調(diào)查，總體往往是具體的人或物且其中的個體數(shù)目很大，但我們總是假定個體數(shù)目是有限的、已知的，常用 N表示總體中的個體數(shù)目。在具體的抽樣調(diào)查問題中，我們總是調(diào)查個體的某項（或多項）指標(biāo) .這種指標(biāo)可以是數(shù)值的，也可以是非數(shù)值的.對于非數(shù)值的指標(biāo)我們總可以用數(shù)字表示。最常見的非數(shù)值的指標(biāo)是分類數(shù)據(jù)（或?qū)傩詳?shù)據(jù)），比如將總體中的成員依據(jù)某一屬性分成 r類，我們可以用數(shù)值 1, ,r（或0,1, ,r 1）分別代表各個類別，最常見的是分為二類（比如正品與次品，男性與女性），我們稱之為二分變量 .總體中的N個個體的數(shù)量指標(biāo)值記為 x1,x2, ,xN.這里x1,x2, ,xN中可以有相同的。例1.1 作為本章的第一個例子，我們利用 Herkson(1976)的研究來解釋一些思想 .總體由N 393個短期居留醫(yī)院組成 .我們關(guān)注于醫(yī)院一個月內(nèi)出院人數(shù) .令xi表示1968年1月份第i個醫(yī)院的出院人數(shù) ,那么總體為 x1,x2, ,x393.總體均值為814.6,總體標(biāo)準(zhǔn)差為 589.7.總體的數(shù)值都是知道的 ,我們可通過頻數(shù)直方圖顯示總體數(shù)值的分布 ,見P139圖7.1.-1-這里舉這個例子是為了教學(xué)目的 ,后面還會用這個例子來說明一些方法和思想 .實際中,我們往往是不知道總體中各個個體的數(shù)值 ,而是希望通過抽樣而獲得的數(shù)據(jù)去了解總體的信息,比如估計總體均值等 .在抽樣調(diào)查的統(tǒng)計問題中 ,我們關(guān)注的是總體的一些數(shù)值特征（也稱為參數(shù)） .（1）總體均值（ populationmean ）1N

Nxii1在分類數(shù)據(jù)中 ,各類別的比例.尤其是對于二分總體，我們用 0和1代表兩個類別，則常關(guān)注總體中取值為 1的個體所占的比例：1 Np xiNi1這里xi取0或12）總體總數(shù)(populationtotal)Nxi13）總體方差(populationvariance)21N)2，(xi-Ni1易見21Nxi22Ni1在二分總體情況下,總體方差為p(1p).總體標(biāo)準(zhǔn)差(populationstandarddeviation)2.一般地，總體中的個體的數(shù)量指標(biāo)值x1,x2,,xN是未知的，因而總體的特征數(shù)（或參數(shù)）也是未知的，而我們要做的工作就是通過調(diào)查到的結(jié)果即樣本來獲取總體參數(shù)的信息.§1.2簡單隨機抽樣抽樣技術(shù)本質(zhì)上具有概率性，即總體中每個個體都以特定的概率出現(xiàn)在樣本中(簡稱為入樣),并且樣本的實際構(gòu)成是隨機的.不同的抽樣方法決定了樣本的不同概率性質(zhì)（也與總體的概率結(jié)構(gòu)有關(guān)），或反過來說，不同的抽樣方法就是由樣本的不同概率性質(zhì)來定義的.最初級的抽樣方法是簡單隨機抽樣:每個個體都以相同的概率入樣.-2-簡單隨機抽樣可分為有放回的簡單隨機抽樣（也稱為有重復(fù)的簡單隨機抽樣）和不放回的簡單隨機抽樣（也稱為無重復(fù)的簡單隨機抽樣）兩種方式 .有放回的簡單隨機抽樣所得的樣本 (X1, ,Xn)的概率性質(zhì)有：各個Xi具有相同的分布;X1,,Xn相互獨立.不放回的簡單隨機抽樣所得的樣本 (X1, ,Xn)的概率性質(zhì)有：（1）各個Xi具有相同的分布 ;（2）X1,,Xn不相互獨立.任意指定的n個個體組成樣本的概率均為1。CNn兩種方式下的樣本的第一條概率性質(zhì)相同，這是由“每個個體都以相同的概率入樣”的緣故.一般而言，簡單隨機抽樣是指不放回的簡單隨機抽樣.這里引入有放回的隨機抽樣是因為（1）放回的隨機抽樣的樣本的概率性質(zhì)更為簡單；（2）給不放回的隨機抽樣提供一個比較對象.例如，若總體中N個個體的數(shù)量指標(biāo)值x1,x2,,xN各不相同，那么Xi的概率質(zhì)量函數(shù)為P(Xixj1,j,,,N)12N若總體中N個個體的數(shù)量指標(biāo)值有相同的，各個體的不同取值記為1，,m，且取值j的個體數(shù)為nj(j1,2,,m)，那么Xi的概率質(zhì)量函數(shù)為P(Xij)nj,j1,2,,mN若總體為二分變量，那么Xi～B(1,p)，其中p為總體中取值為1的個體的比例.我們往往關(guān)注總體均值、總體總數(shù)、總體方差等總體參數(shù)的估計，對于分類總體，則一般關(guān)注各類別的比例的估計。通常用樣本均值（ samplemean）1nXXini1-3-作為總體均值的估計.作為總體總數(shù)的一個估計，我們考慮TNX,由于樣本X1,,Xn是隨機的，所以樣本均值X也是隨機的，它的概率分布稱為抽樣分布.X的抽樣分布決定了X估計的精度，粗略地講，抽樣分布越緊密地集中在附近，估計越好.例1.2為了解釋抽樣分布的概念,我們再一次考慮393個醫(yī)院的總體.當(dāng)然,在實踐中,總體是未知的.出于教學(xué)的目的,我們考慮來自這個總體的樣本均值的抽樣分布.例如,假如我們想尋找容量為16的樣本均值的抽樣分布,原則上,我們可以得到所有的C39316個樣本,并計算每個樣本的均值.但是這樣的樣本個數(shù)是1028階,這顯然是不可行的.因此我們利用稱之為模擬的技術(shù).我們抽取很多個容量同為n的樣本,計算均值,然后繪制其直方圖,用以估計抽樣分布.圖7.2(見P141)顯示了樣本容量為8,16,32和64的500次模擬結(jié)果.值得注意的是該圖的三個特征:1.所有的直方圖集中在總體均值814.6上.隨著樣本容量的增加,直方圖發(fā)散程度降低.盡管總體直方圖(圖7.1)關(guān)于均值不對稱,但圖7.2的直方圖接近于對稱.一般而言,得出X的精確抽樣分布很困難 .下面計算 X的期望、方差,以了解該估計量的統(tǒng)計性質(zhì),并由此對該估計的優(yōu)良性作評估.首先在簡單隨機抽樣下,Xi的期望、方差分別為mjP(Xj1mE(Xi)j)njjj1Nj11m22Var(Xi)nj(j）Nj1以上性質(zhì)無論放回抽樣還是不放回抽樣都成立,但對于協(xié)方差Cov(Xi,Xj)(ij)會不一樣,在放回抽樣時Cov(Xi,Xj)0;而不放回抽樣時,2Cov（Xi,Xj)1,N-4-我們就各個體的數(shù)值全不相等的情形證明此結(jié)論:11NN證明：E(XiXj)xixj[(xi)2xi2]N(N1)ijN(N1)i1i1N211Nxi221(1Nxi22)N1N1Ni1N1Ni122，N12所以Cov（Xi,Xj)E(XiXj)E(Xi)E(Xj)N1。由以上討論易得性質(zhì)1.2.1 簡單隨機抽樣下 ,E(X)E(T)要注意的是,由于X是隨機的,結(jié)論E(X) 可以解釋“平均地” X

.一般地,利用樣本構(gòu)造的統(tǒng)計量 ?估計總體參數(shù) 時,如果無論取何值,總有E(?) ,我們稱 ?為的無偏估計.因此X是的無偏估計.但這并不意味著 X會恰好等于 ,X與總會有偏差的,為此還需考查該估計的精度 .我們可用均方誤差MSE(?, ) E(? )2’來衡量估計的精度 .稱 MSE(?, )為標(biāo)準(zhǔn)誤差.易得MSE(?, ) Var(?) (E? )2,E(?) 稱為偏差或偏倚 .若?為的無偏估計,那么MSE(?, ) Var(?).性質(zhì)1.2.2 在簡單隨機抽樣下 ,若放回抽樣,則2Var(X),Xn

n-5-Var(T)N22,TNnn若不放回抽樣,則2n1)Var(X)n(1N1Var(T)N22(1n1),nN11n1n證明：Var(X)Var(Xi)[Var(Xi)2Cov(Xi,Xj)]ni1ni11ijn2n(n1)22n1)n(N)n(1n21N1在二分情形下,E(X)p,Var(X)p(1-p)放回抽樣時)n,(Var(X)p(1-p)(1n1),(不放回抽樣時)nN1可以看出,樣本均值的精度與n和有關(guān),兩種抽樣方式X的方差相差一個因子n1Nn11N1N稱它為有限總體校正 .比值 n稱為抽樣比例,若抽樣比例非常小時Nn111N1兩種抽樣方式下樣本均值的方差差別不大 .注:不少抽樣調(diào)查的著作中 ,把總體方差義為21N)2(xiN1i12n)這樣在不放回抽樣下,Var(X)(1N例1.3如果無重復(fù)地抽取醫(yī)院總體，樣本容量為n32，那么樣本均值的標(biāo)準(zhǔn)差為-6-XVar(X)321n1589.7131N132392104.20.96100.0為了說明X100.0是精度合理的度量，再次審視圖7.2b,觀測到大部分樣本均值在總體均值(814)的2倍標(biāo)準(zhǔn)誤差之內(nèi),也就是說大部分樣本均值在(614,1014)內(nèi).例1.4在醫(yī)院總體中,小于1000個出院人數(shù)的比例是p0.654.如果利用樣本比例p?估計這個總體比例,可得該估計的標(biāo)準(zhǔn)誤差為?p

p(1p)1n10.6540.3460.960.08nN132總體方差2也是一個重要的總體參數(shù),也需要通過樣本對其作出估計,并且由上面的討論可看出樣本均值作為總體均值的估計時,其精度與總體方差有關(guān),在實現(xiàn)中總體方差未知,我們可由樣本對其作出估計,從而對樣本均值作為總體均值的估計時的精度作出評估.2下面是總體方差的一個常用估計量?2 1n(Xi-X)2ni1稱之樣本方差.性質(zhì)1.2.3 在簡單隨機抽樣下 ,若放回抽樣,則E(?2)(n1)2nnX)2nXi2nX2證明：(Xii1i12E(Xi2)Var(Xi)[E(Xi)]222，E(X2)Var(X)[E(X)]22，nnnE[(XiX)2]E(Xi2)nE(X2)(n1)2，i1i1故E(?2)(n1)2。n-7-若不放回抽樣,則E(?2)(n1)2(N)nN1nX)2nXi2nX2證明：(Xii1i1E(Xi2)Var(Xi)[E(Xi)]222，E(X2)[E(X)]22n1)2，Var(X)(1nN1nX)2]nE(Xi2)nE(X2)N(n1)2，E[(Xii1i1N1故E(?2)(n1)2(N)。nN1由此可見 ?2是 2的有偏估計,而且總有E(?2) 2也即該估計系統(tǒng)地偏小 ,為了具有無偏性 ,我們可對以上估計作適當(dāng)修正使之具有無偏性 ,為此引入修正樣本方差 :S21nX)2(Xin-1i1在放回抽樣時,修正樣本方差為總體方差的無偏估計,而不放回抽樣時,N1S2是總體N方差的無偏估計.以后如無特別聲,樣本方差是指修正樣本方差.從無偏性角度,S2優(yōu)于?2.但從均方誤差準(zhǔn)則角度,?2往往優(yōu)于S2.在實際中人們往往不希望把總體方差估計得偏小,因此總體方差的估計常用S2.我們易得下面結(jié)論性質(zhì)1.2.4樣本均值X的方差Var(X)的無偏估計為SX2S2,(放回抽樣時),n2S2n),（不放回抽樣時）SX(1Nn-8-性質(zhì)1.2.5在二分總體中,p的估計?X的方差?的無偏估計為pSp?2p?(1p?),(放回抽樣時),n1Sp2???n),(不放回抽樣時)p(1p)(1n1Ns，Sp?稱為估計標(biāo)準(zhǔn)誤差，如果我們知道實際的標(biāo)準(zhǔn)誤差X,p?就可利用它們度量估X計量X,p?的精度；如果它們未知，就用估計的標(biāo)準(zhǔn)誤差替它們。實際中，通常是后一種情況。例1.5從醫(yī)院總體中抽取一個樣本容量為50的樣本,并算得樣本均值為x938.5,標(biāo)準(zhǔn)差為s614.53.那么可得樣本均值X的方差的估計為2s2n)6592?X(1Nn的估計標(biāo)準(zhǔn)誤差是?X 81.19注意,真正的標(biāo)準(zhǔn)誤差是XVar(X)589.71497850392例1.6令p為出院人數(shù)少于1000人的醫(yī)院比例,從醫(yī)院總體中抽取一個樣本容量為50的樣本,其中有26個醫(yī)院出院人數(shù)少于1000.那么p的估計值為?260.52p50p?的方差的估計為2??n)0.0045?p?p(1p)(1nNp?的估計標(biāo)準(zhǔn)誤差為??p 0.067以上例子說明通過簡單隨機抽樣不僅可以得到未知的總體參數(shù)的估計 ,還可以利用樣本數(shù)據(jù)的估計的標(biāo)準(zhǔn)誤差刻畫估計的誤差水平 .總結(jié)如下表:（針對不放回抽樣）-9-總體參數(shù) 估計估計量的方差估計量方差的估計X22Nn2s2(1nX(N)sXn)n1Np樣本比例2p(1p)Nn2??np?sp?p(1p)n()n(1)N11NTNX2N222N22TXsTsX2(112)sN前面己經(jīng)討論了樣本均值X的期望與方差，在理想情況下，我們想知道X的抽樣分布，這樣做就可以告訴我們估計精度的一切特征 .然而，在沒有總體本身的信息時，我們是不能確定抽樣分布的.但由中心極限定理我們可以導(dǎo)出其近似分布----正態(tài)分布，這種近似可以用來計算估計誤差的概率限.若隨機變量序列X1,X2,,Xn,獨立同分布，且期望EXi,方差VarXi2,記1nXnXi,那么中心極限定理知ni1Xnn依分布收斂于標(biāo)準(zhǔn)正態(tài)分布N(0,1).也即當(dāng)n充分大時,Xn近似服從正態(tài)分布N(,2/n).由以上結(jié)論可知,若X1,X2,,Xn是從某總體中按放回的簡單隨機抽樣方法得到的樣本,總體均值和方差分別為和2n充分大時,X近似服從正態(tài)分布,那么當(dāng)樣本容量N(,2/n).若X1,X2,,Xn是從某總體中按不放回的簡單隨機抽樣方法得到的樣本,此時情況所有不同,諸Xi并不獨立,且讓樣本容量n趨于無窮是沒有意義的.但是當(dāng)樣本容量n很大,且相對于N仍很小時,X近似服從正態(tài)分布N(,X2).由以上的近似分布,我們可以近似地計算用X估計時誤差小于某常數(shù)的概率-10-P(|X|),P(|X|)2()1,X或P(|X|)2[1()]X例1.7再次考慮醫(yī)院總體,容量為64的樣本均值的標(biāo)準(zhǔn)差為XVar(X)589.716367.564392那么樣本均值X近似服從正態(tài)分布N(,67.52),這里814為總體均值.由此可近似地計算出樣本均值與總體均值的絕對偏差在100以上的概率P(|X|100)2[1(100)]0.13867.5例1.8續(xù)例1.6p的真實值為0.654,?0.52,兩者差距為p的估計值為p|pp|0.134,下面近似計算兩者的絕對偏差超過0.134的概率.?由于p?近似服從正態(tài)分布 N(p,0.0642),因而?0.134]0.040.064標(biāo)準(zhǔn)誤差是評估估計精度的最常用的指標(biāo),另外一個常用的指標(biāo)是區(qū)間估計(區(qū)間估計的一般概念在下一章給出 ).利用中心極限定理,Xn近似服從標(biāo)準(zhǔn)正態(tài)分布,從而可得的置信水平為1的近X似置信區(qū)間為XXU.在實用中,X一般未知,就用S代替X.總體總數(shù)的置信水1X2平為1的近似置信區(qū)間為N(XXU)12例(P150)以上介紹的簡單隨機抽樣對總體中的各單元是同等看待。實踐中常有總體，其各單元處于不同地位，各單元的“規(guī)?！庇泻艽蟛町?.例如調(diào)查城鎮(zhèn)居民經(jīng)濟狀況，以居委會為抽樣單位，各個居委會的規(guī)模有大有小，有的居委會有數(shù)萬居民，有的居委會只有幾千居民。這要求規(guī)模大的居委會有更大的概率進入樣本 .各個單元有正比于規(guī)模測度的入樣概率的抽樣方-11-法可能是合適的。這就產(chǎn)生了不等概抽樣方法。PPS抽樣.所謂PPS抽樣就是抽取概率正比于規(guī)模測度的抽樣方法.設(shè)總體有N個單元,記為Ui(i1,2,,N),第i個單元的指標(biāo)為Yi,規(guī)模測度為Xi,在抽取樣本單元時,各個單元被抽中的概率正比于規(guī)模測度Xi.有放回的PPS抽樣是常見的一種不等概抽樣方案,每次抽取,單元Ui被抽中的概率為piXi.NXii 1實現(xiàn)方法利用隨機數(shù)表或由計算機產(chǎn)生隨機數(shù)實現(xiàn)不等概抽樣 ,常用的方法有下列兩種 .累積和法.將各個單元的規(guī)模測度逐個累加,得N1NX1,X1X2,,Xi,Xii1i1N{1,2,,X}作有放回簡單隨機抽樣令XXi,對自然數(shù)號碼集合,記抽得的隨機數(shù)i1為k,則當(dāng)k{1,2,,X1}時,U1進入樣本,k{X11,,X1X2}時,U2進入樣本,N1Nk{Xi1,,Xi}時,UN進入樣本.i1i1最大規(guī)模法.在全部規(guī)模測度中找出最大值M max{X1,X2, ,XN}每次從{1,2, ,N}中抽取一個隨機數(shù) k,同時再獨立地從 {1,2, ,M}中抽取一個隨機數(shù)l.若l Xk,則單元Uk入樣,否則此次抽樣無單元入樣 .如此重復(fù)直至抽滿 n個單元.估值法-12-N如果我們要估計總體指標(biāo)的總數(shù) Y Yi,那么該參數(shù)的估計為i 1? 1Yn

yi,1pi其中y1,y2, ,yn是抽中的n個單元的指標(biāo) ,pi是樣本單元 yi的抽取概率.該估計有如下性質(zhì):?是Y的無偏估計;(1)YPPS(2) ? 的均方誤差即方差為YPPS?1NYi2V(YPPS)ni1pi(piY)? 的均方誤差的一個無偏估計為YPPS??1nyi?2(V(YPPS)YPPS).n(n1)i1pi在實際中,為提高PPS抽樣的估計的精度,應(yīng)選合適的規(guī)模測度,使規(guī)模測度Xi與指標(biāo)Yi近似于正比例關(guān)系.這樣可使不等概抽樣要比簡單隨機抽樣有高得多的估計精度.不放回的不等概抽樣常記為PS.從理論上講PS抽樣要比PPS抽樣有更高的估計精度,但實現(xiàn)起來比較麻煩.在此不再介紹.§1.3 比例估計上一節(jié)簡單隨機抽樣奠定了抽樣調(diào)查的理論基礎(chǔ) .在此基礎(chǔ)上，這一節(jié)和下一節(jié)介紹抽樣調(diào)查的一些更高深話題 .這一節(jié)，我們考慮比例的估計，假設(shè)觀察到總體成員的兩個數(shù)值 x和y.感興趣的是比例Nyiyri1Nxixi11N1這里yyi，xNi1N

Nxii 1-13-比例在抽樣調(diào)查中經(jīng)常出現(xiàn).例如如果y是周食品消費支出，x是家庭成員數(shù)，那么r是人均家庭周食品消費支出.在農(nóng)業(yè)調(diào)查中，y可能是種植小麥畝數(shù)，x是所有的畝數(shù).等等.下面考慮比例的估計問題，設(shè)有樣本X,Y),i,,,n，很自然地利用Y估計.i12Rr（iX我們希望能推導(dǎo)出該估計量的期望E(R)和方差Var(R)的表達(dá)式.但是由于R是X和Y的非線性函數(shù)，得出期望E(R)和方差Var(R)的顯式表達(dá)式行不通.但可以得到他們近似式，下面不加證明地給出結(jié)論.性質(zhì)1.3.1在簡單隨機抽樣下，RY的近似方差為XVar(R)1(r2222rXY)2XYx1(1n112222rxy)nN)2(rxy1x22Var(Y)，XYCov(X,Y)其中XVar(X)，Y2x

1Nx)22(xi-，yNi1

1N(yi-y)2，xy1N(xi-x)(yi-y)Ni1Ni1xy稱為x和y的總體協(xié)方差.而總體相關(guān)系數(shù)定義為xyx y以上Var(R)的近似式又可表示為1n11(r222y)Var(R)(1N)2xy2rxn1x由以上近似結(jié)果可以看出，R的方差取決于多種因素，其中的因素之一是x與y的相關(guān)性，x與y具有強的正相關(guān)性時，會減少方差.x是影響方差的另一因素，|x|越小，方差越大，這也好理解，因此|x|越小，比率RY的波動幅度會變大.X-14-性質(zhì)1.3.2在簡單隨機抽樣下，Y的近似期望為RXE(R)r1(1n1)12(r2xxy)nN1x由以上近似結(jié)果可以看出，R不是r的無偏估計，其偏差的階是1/n，所以它對均方誤差的貢獻的階是1/n2，而方差的階是 1/n，因此對于大樣本而言，估計的標(biāo)準(zhǔn)誤差主要取決于方差，而偏差可忽略不計 .在大樣本下，R近似服從正態(tài)分布 .利用近似分布，我們可以構(gòu)造 r的置信區(qū)間.也可以找出這種估計的誤差的概率限 .為了估計 R的標(biāo)準(zhǔn)誤差或者說為了具體地計算出 R的標(biāo)準(zhǔn)誤差 .還必須估計出 x，x2,y2以及r, .前三者分別用 X,Sx2和Sy2估計，r用R估計.為估計，我們先對總體協(xié)方差作如下估計：1nSxy(XiX)(Yi-Y)n1i1那么的估計為?SxySxSy因此R的方差的估計為S2R1(1n1)12(R2Sx2Sy22R?SxSy)nN1X總體比例r的近似1-的置信區(qū)間為RU1/2SR.例1.9假設(shè)調(diào)查了100個最近購房的居民，得到每個購房者的每月按揭付款額和月總收入。令y（單位：美元）表示月按揭付款額，x（單位：美元）表示月總收入。假設(shè)x3100，y868sx1200，sy250?0.85則R8680.28，3100若忽略有限總體校正， R的估計標(biāo)準(zhǔn)誤差是-15-sR110.28212002250220.280.8525012000.006103100r的近似的置信區(qū)間為0.281.960.0060.280.012。95%比例可以用于估計總體均值和總體總數(shù) .由比例Nyiri1yNxi xi 1立即可得rxN Ny yi r xi rxi 1 i 1如果指標(biāo)x的總數(shù) x或均值 x是知道的(這時稱x為輔助變量),那么就可以通過比例 r的估計R得到指標(biāo) y的均值 y或總數(shù) y的估計?y YR Rx?y Ty Rx,這樣的估計分別稱為總體均值的比例估計和總體總數(shù)的比例估計。我們在前面介紹過可直接利用樣本Y1,,Yn而得到估計:?y1nYyini1?y T NY那么比例估計與上面的估計 (稱為簡單估計 )相比,是否有改進?什么情況下會有改進 ?改進的程度如何?這是需要回答的問題 .下面先看幾個例子 .例1.10 從醫(yī)院總體中模擬容量為 64的樣本 500個，結(jié)果直方圖如 7.6a(P155)圖所示.我們再用出院人數(shù)與醫(yī)院床位數(shù)的比例來估計平均出院人數(shù) ,這500個樣本得出的平均出院人數(shù)的比例估計的直方圖如圖 7.6b(P155)所示.兩圖對比可清楚地顯示出比例估計非常有效地減少了估計的變異性 .-16-為了評估估計量 ?y YR,需要推導(dǎo)其均值和方差 ,精確推導(dǎo)難以進行 ,下面給出近似結(jié)果:性質(zhì)1.3.3y的比例估計的方差為1n1)(r2222rxy)Var(YR)(11xynN的比例估計的期望為E(YR)y1(1n1)1(rx2xy)nN1x由此可見,YR是有偏估計,但其偏差在均方誤差中的貢獻可以忽略不計,故比較均方誤差只需比較方差.為簡便起見，我們忽略有限總體校正，簡單估計Y的方差為2Var(Y)yn如果r222xy0x-r那么比例估計YR有較小的方差.在r0時，上式等價于2yrx即1(x)/(y)1Cx，2xy2Cy其Cxx/x，Cyy/y，Cx和Cy為變異系數(shù)(coefficientsofvariation).為了估計YR的精度，需要由樣本數(shù)據(jù)給出其方差的估計值.性質(zhì)1.3.5YR的方差的估計為S21(1n1)(R2Sx2Sy22R?SxSy)YRnN1y的近似1-的置信區(qū)間為YRU1/2SYR例1.11對于醫(yī)院總體,我們有274.8,x213.1-17-y814.6,y589.7r2.96,0.91這里x,y分別表示床位數(shù)和出院人數(shù).YR的方差近似為Var(YR)1(2.962213.22589.72-22.96213.2589.7)68697.4nn262.1YR.n包含有限總體校正,n64時YR262.116330.064392圖7.6顯示的500個樣本的比例估計值的標(biāo)準(zhǔn)差為29.9,兩者非常接近.而這500個估計值的平均值為816.2,與真實值814.6相比也非常接近.容量為n64的簡單隨機樣本下,Y的標(biāo)準(zhǔn)差為Y589.716366.38392比較Y與YR,可以看出y的比例估計大大減少了變異性.對不同的估計法的比較還有另一種方式：在相同的精度下，對所需的樣本容量作對比 .顯然在達(dá)到相同的精度條件下所需的樣本容量越小越優(yōu) .例1.12繼續(xù)分析上例.如果抽取容量為 n1的簡單隨機樣本 ,Y的方差為589.72Var(Y)n1如果抽取容量為 n2的簡單隨機樣本 ,YR的方差為262.12Var(YR)令

n2-18-262.12 589.72n2 n1則n20.195n1也就是說,要使兩個估計具有相同的精度 ,普通方法所需的樣本量是比例估計的 5倍多.利用輔助變量 x,還可構(gòu)造指標(biāo) y的另一種估計YD Y b(X x)其中b是一個確定的常數(shù) .這種估計稱為差估計 .在不放回簡單隨機抽樣下 ,差估計YD具有性質(zhì):(1) E(YD) y,即YD是 y的無編估計;(2)Var(YD)1(1-n-1)(nN-1

2b22yx-2bxy).當(dāng)常數(shù)b不能確定時,常用樣本回歸系數(shù)n(Xi X)(Yi Y)i 1b n(Xi X)2i1這樣構(gòu)造的估計稱為回歸估計 .記為YL.在不放回簡單隨機抽樣下,差估計YD具有性質(zhì):(1)YL是y的近似無編估計,偏差的階為1;n(2)Var(YL)1(1-n-1)2y(12).nN-1§1.4 分層抽樣在許多情況中，人們在擬訂抽樣方案前，往往對總體有一些了解 .比如在對企業(yè)作調(diào)查時，我們除了知道企業(yè)數(shù)，還對企業(yè)的規(guī)模有大概的了解.哪些企業(yè)屬大型企業(yè)，哪些企業(yè)屬中型企業(yè)，哪些企業(yè)屬小型企業(yè)等方面的信息事先就知道.并且就調(diào)查的指標(biāo)而言，不同規(guī)模的企業(yè)可能差異很大，而同等模型的企業(yè)可能差異較小.這種情況下，如果還用簡單隨機抽樣方法，就可能出現(xiàn)極端情況：抽查的企業(yè)大多是大型企業(yè)，或大多是小型企業(yè).如出現(xiàn)這種情況，調(diào)查結(jié)果的代表性就會很差，由此得出的統(tǒng)計結(jié)果可能與真實情況會有較大偏差，統(tǒng)計結(jié)論的可靠性值得懷疑.用分層抽樣方法能較好地克服以上弊端.-19-分層抽樣：將總體分成若干次級總體，即層（strata ）,然后在各層中獨立取樣 (采用簡單隨機抽樣或其他抽樣方法 ),最后將在各層中的抽樣結(jié)果組合在一起估計總體參數(shù) .層的劃分有時是“自然”形成,有時根據(jù)某些指標(biāo)及已有的信息劃分.下面給出幾個分層的例子.在審計金融交易時 ,可根據(jù)面值將交易分層 .在人群樣本中,經(jīng)常根據(jù)地理位置劃分自然層 .在對公司經(jīng)營狀況調(diào)查時 ,可根據(jù)公司規(guī)模分層 .也可根據(jù)公司所屬行業(yè)分層 .采用分層抽樣的原因有很多，采用分層抽樣主要是為了提高樣本的代表性，提升效果 .另外，如除了對總體的整體信息感興趣外，還希望得到自然次總體的信息，這時采用分層抽樣是自然的選擇.本節(jié)主要討論各層均采用簡單隨機抽樣時，分層樣本均值的性質(zhì)，以及如何在層間分配樣本容量,并比較不同的分配方案的效度.同時還與相同總?cè)萘康暮唵坞S機抽樣比較估計的精度.分層估計的性質(zhì)設(shè)總體分為L層，第l層中個體數(shù)為Nl，第l層的總體均值和方差分別為l和2,l1,2,,L.總體的個體總數(shù)為NN1N2NL.第l層的總體比例為lWlNl/N.總體均值為LWlll1設(shè)在第l層內(nèi)抽取了容量為nl的樣本X1l,X2l,,Xnl,第l層的樣本均值為l1nlXilXlnli1Xl可以是l的估計,而總體均值的估計為?XsLWlXll1該估計具有下面性質(zhì).性質(zhì)1.4.1Xs是總體均值的無偏估計,即-20-EXs性質(zhì)1.4.2 Xs的方差為L21nl-1Var(Xs)Wl(1-)l1nlNl-1

2l如果各層中樣本比例很小時 ,有LW22Var(Xs)ll.nll1例1.12我們再次考慮醫(yī)院總體.假設(shè)每個醫(yī)院的床位數(shù)是已知的,我們可利用這個信息,根據(jù)床位數(shù)對醫(yī)院進行分層處理.令層A由最小的98個醫(yī)院組成,層B是98個次大的,層C是98個再大的,層D是99個最大的.下表顯示了分層的結(jié)果層NlWlllA980.249182.9103.4B980.249526.5204.8C980.249956.3243.5D990.2511591.2419.2假設(shè)總樣本容量為n,令n1n2n3n4n4忽略有限總體校正,利用上面表格中的數(shù)據(jù),我們有Var(Xs)Wl272042.6nln和268.4Xs n與比例估計的標(biāo)準(zhǔn)誤差相差無幾 .比簡單隨機樣本估計的標(biāo)準(zhǔn)誤差少許多 .總體總數(shù) 的分層估計為Ts NXs.性質(zhì)1.4.3 總體總數(shù) 的分層估計Ts NXs,的期望和方差分別為-21-ETsLNl21(1-nl-1)Var(Ts)l1nlNl!-1

2.為得到估計Xs,Ts的標(biāo)準(zhǔn)誤差,我們需要先估計各層的方差,再代入以上公式中.l2的估計為Sl21nl(Xil-Xl)2nl-1i1從而Xs的方差的估計為L1(1-nl-1)Sl2S2Wl2Xsl1nlNl!-1例1.13從醫(yī)院總體中抽取總?cè)萘繛?0的樣本,每層抽取容量為10的樣本.由樣本數(shù)據(jù)算得X1240.6,s126827.6X2507.4,s2223790.7X3,242573.0865.1s3X41716.5,s42152099.6從而Xs832.5.分層樣本均值的方差估計如下SX2s14Wl2(1-nl-1)Sl21282.010l1Nl!-1因此SXs35.8出院人數(shù)總體均值的近似 95%的置信區(qū)間為 Xs 1.96SXs (762.4,902.7).總出院人數(shù)的估計為Ts393832.5327172.Ts的標(biāo)準(zhǔn)差為S14096.總體總數(shù)Ts的近似95%的置信區(qū)間為Ts1.96ST(299596,354748).s分配方法分層估計的精度與在層內(nèi)分配的樣本量n1,,nL有關(guān),那么在固定總樣本容量n的條-22-件下,該如何分配 n1, ,nL,使得Xs的方差最小.為簡便起見,我們忽略有限總體校正 .下面定理給出了結(jié)果 .定理(奈曼分配 ) 在n1 nL n的限制條件下 ,最小化Var(Xs)的樣本容量n1, ,nL是Wl lnl LWk kk 1

n,l 1,2, ,L.最優(yōu)分配得到的分層估計記為Xso,其方差為L)2(WllVar(Xso)l1n這個結(jié)論的證明并不困難,實際上就是條件極值問題.例1.14 對于醫(yī)院總體 ,利用例1.12中的數(shù)據(jù),最優(yōu)分配的權(quán)重為層 A B C D權(quán)重 0.106 0.210 0.250 0.434最優(yōu)分配依賴于分層方差 ,而這一般是不知道的 .此外,如果調(diào)查個體的多項指標(biāo)或多個屬性,通常不可能找到同時最優(yōu)的分配方案.一個簡單易行且使用廣泛的方案是等比例的分配方案,即n1n2nLN1N2NL這種方法稱為比例分配(proportionalallocation).基于比例分配的總體均值估計為Xsp

L nlXill 1i 1如果忽略有限總體校正 ,在基于比例分配的分層下 ,總體均值估計的方差為Var（Xsp）1LWll2nl1現(xiàn)在比較Var(Xso)和Var（Xsp），以找出最優(yōu)分配優(yōu)于比例分配的條件.當(dāng)然除非-23-12L，否則

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)理統(tǒng)計第一章(2)剖析

文檔簡介

溫馨提示

最新文檔

評論

數(shù)理統(tǒng)計第一章(2)剖析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔