《統(tǒng)計數(shù)的分布》PPT課件.ppt_第1頁
《統(tǒng)計數(shù)的分布》PPT課件.ppt_第2頁
《統(tǒng)計數(shù)的分布》PPT課件.ppt_第3頁
《統(tǒng)計數(shù)的分布》PPT課件.ppt_第4頁
《統(tǒng)計數(shù)的分布》PPT課件.ppt_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第四章 統(tǒng)計數(shù)的分布(抽樣分布),研究總體與從中抽取的樣本之間的關(guān)系是統(tǒng)計學的中心內(nèi)容。對這種關(guān)系的研究可從兩方面著手, 一是從總體到樣本,這就是研究抽樣分布(sampling distribution)的問題; 二是從樣本到總體,這就是統(tǒng)計推斷(statistical inference)問題。,由總體中隨機地抽取若干個體組成樣本,即使每次抽取的樣本含量相等,其統(tǒng)計量也將隨樣本的不同而有所不同。因而樣本統(tǒng)計量也是隨機變量,也有其概率分布,我們把統(tǒng)計量的概率分布稱為抽樣分布。,一、抽樣試驗與無偏估計,抽樣試驗 由總體隨機抽樣(random sampling)的方法可分為有返置抽樣和不返置抽樣兩

2、種。對于無限總體,返置與否都可保證各個體被抽到的機會相等。對于有限總體,就應該采取返置抽樣,否則各個體被抽到的機會就不相等。,100份樣本的均數(shù)和標準差,將這100份樣本的均數(shù)看成新變量值,按第二章的頻數(shù)分布方法,得到這100個樣本均數(shù)得直方圖見圖4-1。,隨機抽樣所得100個樣本均數(shù)的分布,100個樣本均數(shù)的抽樣分布特點: 100個樣本均數(shù)中,各樣本均數(shù)間存在差異,但各樣本均數(shù)在總體均數(shù)周圍波動。 樣本均數(shù)的分布曲線為中間高,兩邊低,左右對稱,近似服從正態(tài)分布。,無偏估計,在統(tǒng)計學上,如果所有可能樣本的某一統(tǒng)計數(shù)的平均數(shù)等于總體的相應參數(shù),則稱該統(tǒng)計數(shù)為總體相應參數(shù)的無偏估計值。,設(shè)有一N=

3、3的近似正態(tài)總體,具有變量3,4,5;求得=4,2=0.6667, =0.8165 現(xiàn)以n=2作獨立的有回放抽樣,總共得Nn=32=9個樣本。 抽樣結(jié)果列入下表:,N=3 n=2時抽樣的平均數(shù) 方差 標準差,從上表的資料可以求出: 樣本平均數(shù)的平均數(shù)x=4 樣本方差的平均數(shù)S2=0.6667=2 樣本標準差的平均數(shù)S=0.62850.8165= 所以,惟有樣本標準差s的平均數(shù)不是總體標準差的無偏差估計值。其余兩個參數(shù)為無偏差估計值。,二、樣本平均數(shù)抽樣分布,設(shè)有一個總體 ,總體平均數(shù)為,方差為2,總體中各變數(shù)為x,將 此總體稱為原總體。現(xiàn)從這個總體中隨機抽取含量為n的樣本,樣本平均數(shù)記為 ???/p>

4、以設(shè)想,從原總體中可抽出很多甚至無窮多個含量為n的樣本。,由這些樣本算得的平均數(shù)與原總體平均數(shù)相比往往表現(xiàn)出不同程度的差異。這種差異是由隨機抽樣造成的,稱為抽樣誤差(sampling error)。顯然,樣本平均數(shù)也是一個隨機變量,其概率分布叫做樣本平均數(shù)的抽樣分布。 由樣本平均數(shù)構(gòu)成的總體稱為樣本平均數(shù)的抽樣總體,其平均數(shù)和標準差分別記為 和 。,是樣本平均數(shù)抽樣總體的標準差,簡稱標準誤(standard error),它表示平均數(shù)抽樣誤差的大小。統(tǒng)計學上已證明總體的兩個參數(shù)與x 總體的兩個參數(shù)有如下關(guān)系:,即樣本均數(shù)的標準差,可用于衡量抽樣誤差的大小。 因通常未知,計算標準誤采用下式:,標

5、準誤(standard error, SE),通過增加樣本含量n來降低抽樣誤差。,設(shè)有一個N=4的有限總體,變數(shù)為2,3,3,4。根據(jù)=xN和2=(x-)2N求得該總體的、2、為: =3,2=12,=(1/2)1/2=0.707,從有限總體作返置隨機抽樣,所有可能的樣本數(shù)為Nn其中n為樣本含量 。以上述總體而論,如果從中抽取n=2的樣本,共可得 42=16 個樣本;如果樣本含量n為4,則一共可抽得44=256個樣本。分別求這些樣本的平均數(shù) ,其次數(shù)分布如下表所示。 在n=2的試驗中,樣本平均數(shù)抽樣總體的平均數(shù)、方差與標準差分別為:,因是返置式抽樣,因此抽樣4個個體組成一個樣本,這個樣本可能都為

6、A或B或這4個個體和任意組合。,=4/16=1/4=(1/2)/2= 2/n,表 N=4, n=2和n=4時的次數(shù)分布,同理,可得n=4時: 驗證了 的正確性。 也可以將表中兩個樣本平均數(shù)的抽樣總體作次數(shù)分布圖。,由以上模擬抽樣試驗可以看出,雖然原總體并非正態(tài)分布,但從中隨機抽取樣本,即使樣本含量很小,樣本平均數(shù)的分布卻趨向于正態(tài)分布形式。隨著樣本含量 n 的增大,樣本平均數(shù)的分布愈來愈從不連續(xù)趨向于連續(xù)的正態(tài)分布。當n30時, 的分布就近似正態(tài)分布了。X變量與 變量概率分布間的關(guān)系可由下列兩個定理說明:,1. 若隨機變量x服從正態(tài)分布N(,2);x1、x2、xn,是由x 總體得來的隨機樣本,

7、則統(tǒng)計量 =xn的概率分布也是正態(tài)分布,且有 , 即服從正態(tài)分布N(,2n)。 2. 若隨機變量x服從平均數(shù)是,方差是2的分布(不是正態(tài)分布); x1、x2、xn,是由此總體得來的隨機樣本,則統(tǒng)計量 =xn的概率分布,當n相當大時逼近正態(tài)分布N(,2n)。這就是中心極限定理。,中心極限定理告訴我們:不論x變量是連續(xù)型還是離散型,也無論x服從何種分布,一般只要n30,就可認為 的分布是正態(tài)分布。若x的分布不很偏倚,在n20時 , 的分布就近似于正態(tài)分布了。,注意:樣本標準差與樣本標準誤是既有聯(lián)系又有區(qū)別的兩個統(tǒng)計量。 二者的區(qū)別是樣本標準差S是反映樣本中各觀測值的變異程度,它的大小說明了 對該樣

8、本代表性的強弱。 樣本標準誤是樣本平均數(shù) 的標準差,它是抽樣誤差的估計值,其大小說明了樣本間變異程度的大小及抽樣精確性的高低。,對于大樣本資料,常將樣本標準差S與樣本平均數(shù) 配合使用,記為 S,用以說明所考察性狀或指標的優(yōu)良性與穩(wěn)定性。 對于小樣本資料,常將樣本標準誤 與樣本平均數(shù) 配合使用,記為 ,用以表示所考察性狀或指標的優(yōu)良性與抽樣誤差的大小。,三、t 分布,由樣本平均數(shù)抽樣分布的性質(zhì)知道: 若x-N(, 2), 則 -N(, 2/n)。 將隨機變量 標準化得: ,則u-N(0,1)。 當總體標準差未知時, 以樣本標準差S代替所得到的統(tǒng)計量 記為t。在計算 時,由于采用S來代替,使得t

9、變量不再服從標準正態(tài)分布,而是服從t分布(tdistribution)。它的概率分布密度函數(shù)如下:,式中,t的取值范圍是(-,+); df=n-1為自由度。 t 分布的平均數(shù)和標準差為: t0 (df1), t 分布密度曲線,其特點是:,T 分布密度曲線,t 分布,t分布是類似正態(tài)分布的一種對稱分布,它通常要比正態(tài)分布平坦和分散。一個特定的分布依賴于稱之為自由度的參數(shù)。隨著自由度的增大,分布也逐漸趨于正態(tài)分布。,1t 分布受自由度的制約,每一個自由度都有一條t分布密度曲線。 2、t分布密度曲線以縱軸為對稱軸,左右對稱,且在t0時,分布密度函數(shù)取得最大值。 3、與標準正態(tài)分布曲線相比,t分布曲線

10、頂部略低,兩尾部稍高而平。df越小這種趨勢越明顯。df越大,t分布越趨近于標準正態(tài)分布。,t分布的概率分布函數(shù)為: 因而t在區(qū)間(t1,+)取值的概率(右尾概率)為1-F t (df)。由于t分布左右對稱,t在區(qū)間(-,-t1)取值的概率也為1-F t (df)。于是t分布曲線下由-到- t 1和由t 1到+兩個相等的概率之和(兩尾概率)為2(1-F t (df)。對于不同自由度下t分布的兩尾概率及其對應的臨界t值已編制成附表4,即t分布表。,當df=15時,查附表4得兩尾概率等于0.05的臨界t值為 =2.131,其意義是: P(-t-2.131)=P(2.131t+) =0.025 P(-

11、t-2.131)+ (2.131t+)=0.05 由附表4可知,當df一定時,概率P越大,臨界t值越??;概率P越小,臨界t值越大。當概率P一定時,隨著df的增加,臨界t值在減小,當df=時,臨界t值與標準正態(tài)分布的臨界u值相等。,四、x2 分布,假設(shè)從正態(tài)總體中抽取k個獨立樣本u12 、u22 、u32 、uk2 ,則定義它們的和為x2 ,(u為標準正態(tài)離差) x2具有自由度df=n-1的連續(xù)型變量的分布,不同的自由度的x2分布曲線不同。 附表4列出了各種自由度下的x2分布的一尾(右尾)概率。例x0.052=5.99,x0.012=9.21。,x2分布的特征:,1x2分布于區(qū)間0,+); 2x

12、2分布的偏斜度隨自由度降低而增大,df=1時,曲線以縱軸為漸進線; 3隨自由度增大x2分布曲線趨于左右對稱,當df=30時,x2分布接近正態(tài)分布。 附表6為上側(cè)臨界值表。,x2 分布,總體方差的區(qū)間估計(圖示),對上側(cè)臨界值表而言,五、F 分布,設(shè)從一正態(tài)總體N(,2)中隨機抽取樣本容量為n1和 n2的兩個獨立樣本,其樣本方差為s12和s22,則定義s12和s22比值為F。即 F = s12/s22 此F值具有s12的自由度df1=n1-1和s22的自由度df2=n2-1 。如果對一個正態(tài)總體特定的df1和df2進行 一系列隨機抽樣,則可能的F值構(gòu)成一個F分布。,F 分布的特征:,1、F分布平均數(shù)F=1,F(xiàn)的取值區(qū)間0,); 2F分布曲線僅決定于df1和df2 。df1=1或2時,曲線為反J型;當df1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論