概率論與數(shù)理統(tǒng)計(jì) 第6章 數(shù)理統(tǒng)計(jì)基礎(chǔ)_第1頁
概率論與數(shù)理統(tǒng)計(jì) 第6章 數(shù)理統(tǒng)計(jì)基礎(chǔ)_第2頁
概率論與數(shù)理統(tǒng)計(jì) 第6章 數(shù)理統(tǒng)計(jì)基礎(chǔ)_第3頁
概率論與數(shù)理統(tǒng)計(jì) 第6章 數(shù)理統(tǒng)計(jì)基礎(chǔ)_第4頁
概率論與數(shù)理統(tǒng)計(jì) 第6章 數(shù)理統(tǒng)計(jì)基礎(chǔ)_第5頁
已閱讀5頁,還剩98頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第6章數(shù)理統(tǒng)計(jì)根底6.1總體和樣本6.2統(tǒng)計(jì)量與抽樣分布第6章數(shù)理統(tǒng)計(jì)根底前五章我們學(xué)習(xí)了概率論的根本知識,從本章開始將學(xué)習(xí)數(shù)理統(tǒng)計(jì)的根本知識、理論和方法.?dāng)?shù)理統(tǒng)計(jì)是以對隨機(jī)現(xiàn)象觀測所取得的資料〔數(shù)據(jù)〕為出發(fā)點(diǎn),以概率論為根底來研究隨機(jī)現(xiàn)象的一門學(xué)科.概率論中,往往是在隨機(jī)變量分布的條件下,去研究它的性質(zhì)、特點(diǎn)和規(guī)律性,比方求隨機(jī)變量取某些特定值的概率、求隨機(jī)變量的數(shù)字特征、研究多個(gè)隨機(jī)變量之間的關(guān)系等.第6章數(shù)理統(tǒng)計(jì)根底在數(shù)理統(tǒng)計(jì)中,我們所研究的隨機(jī)變量的分布往往是未知的,通過對隨機(jī)變量進(jìn)行屢次獨(dú)立重復(fù)的試驗(yàn)和觀測,獲取數(shù)據(jù),利用實(shí)際觀測數(shù)據(jù)研究隨機(jī)變量的分布,對其分布函數(shù)、數(shù)字特征等進(jìn)行估計(jì)和推斷.本章作為數(shù)理統(tǒng)計(jì)根底,學(xué)習(xí)總體、樣本、統(tǒng)計(jì)量與抽樣分布等有關(guān)概念,以及有關(guān)正態(tài)總體的重要的抽樣分布定理.第6章數(shù)理統(tǒng)計(jì)根底【數(shù)理統(tǒng)計(jì)簡史】相對于其它許多數(shù)學(xué)分支而言,數(shù)理統(tǒng)計(jì)是一個(gè)比較年輕的數(shù)學(xué)分支.多數(shù)人認(rèn)為20世紀(jì)40年代克拉美〔H.Carmer〕的著作?統(tǒng)計(jì)學(xué)的數(shù)學(xué)方法?,使得1945年以前25年間英、美統(tǒng)計(jì)學(xué)家在統(tǒng)計(jì)學(xué)方面的工作與法、俄數(shù)學(xué)家在概率論方面的工作結(jié)合起來,從而形成數(shù)理統(tǒng)計(jì)這門學(xué)科.?dāng)?shù)理統(tǒng)計(jì)有很多分支,但其根本內(nèi)容為采集樣本和統(tǒng)計(jì)推斷兩大局部.開展到今天的現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué),已經(jīng)歷了各種歷史變遷.1.近代統(tǒng)計(jì)學(xué)時(shí)期18世紀(jì)末到19世紀(jì),是近代統(tǒng)計(jì)學(xué)時(shí)期.這一時(shí)期的重大成就是大數(shù)定律和概率論被引入統(tǒng)計(jì)學(xué).之后最小二乘法、誤差理論和正態(tài)分布理論等相繼成為統(tǒng)計(jì)學(xué)的重要內(nèi)容.這一時(shí)期有兩大學(xué)派:數(shù)理統(tǒng)計(jì)學(xué)派和社會統(tǒng)計(jì)學(xué)派.【數(shù)理統(tǒng)計(jì)簡史】【數(shù)理統(tǒng)計(jì)簡史】數(shù)理統(tǒng)計(jì)學(xué)派始于19世紀(jì)中葉,代表人物是比利時(shí)的凱特萊〔A.Quetelet,1796-1874〕,著有?概率論書簡??社會物理學(xué)?等,他主張用研究自然科學(xué)的方法研究社會現(xiàn)象,正式把概率論引入統(tǒng)計(jì)學(xué),并最先用大數(shù)定律證明了社會生活中隨機(jī)現(xiàn)象的規(guī)律性,提出了誤差理論.凱特萊的奉獻(xiàn),使統(tǒng)計(jì)學(xué)的開展進(jìn)入個(gè)了一個(gè)新的階段.社會統(tǒng)計(jì)學(xué)派始于19世紀(jì)末,首創(chuàng)人物是德國的克尼斯〔K.G.A.Knies〕,他認(rèn)為統(tǒng)計(jì)學(xué)是一個(gè)社會科學(xué),是研究社會現(xiàn)象變動原因和規(guī)律性的實(shí)質(zhì)性科學(xué).各國專家學(xué)者在社會經(jīng)濟(jì)統(tǒng)計(jì)指標(biāo)的設(shè)定與計(jì)算、指數(shù)的編制、統(tǒng)計(jì)調(diào)查的組織和實(shí)施、經(jīng)濟(jì)社會開展評價(jià)和預(yù)測等方面取得了一系列的重要成果.德國統(tǒng)計(jì)學(xué)家恩格爾〔,1821-1896〕提出的“恩格爾〞系數(shù),美國經(jīng)濟(jì)學(xué)家?guī)炱澞暮陀?jīng)濟(jì)學(xué)家斯通等人研究的國民收入和國內(nèi)生產(chǎn)總值的核算方法等,都是偉大的奉獻(xiàn).【數(shù)理統(tǒng)計(jì)簡史】18世紀(jì)到19世紀(jì)初期,高斯從描述天文觀測的誤差而引進(jìn)正態(tài)分布,并使用最小二乘法作為估計(jì)方法,是近代數(shù)理統(tǒng)計(jì)學(xué)開展初期的重大事件,對社會開展有很大的影響.【數(shù)理統(tǒng)計(jì)簡史】用正態(tài)分布描述觀測數(shù)據(jù)的應(yīng)用是如此普遍,以至在19世紀(jì)相當(dāng)長的時(shí)期內(nèi),包括高爾頓〔Galton〕在內(nèi)的一些學(xué)者,認(rèn)為這個(gè)分布可用于描述幾乎是一切常見的數(shù)據(jù).直到現(xiàn)在,有關(guān)正態(tài)分布的統(tǒng)計(jì)方法,仍占據(jù)著常用統(tǒng)計(jì)方法中很重要的一局部.最小二乘法方面的工作,在20世紀(jì)初以來,經(jīng)過一些學(xué)者的開展,如今成了數(shù)理統(tǒng)計(jì)學(xué)中的主要方法.【數(shù)理統(tǒng)計(jì)簡史】【數(shù)理統(tǒng)計(jì)簡史】例如英國統(tǒng)計(jì)學(xué)家卡爾.皮爾遜〔K.Pearson,1857-1936〕的2分布理論,統(tǒng)計(jì)學(xué)家戈賽特〔,1876-1937〕的小樣本t分布理論,統(tǒng)計(jì)學(xué)家費(fèi)歇爾〔,1890-1962〕的F分布理論和試驗(yàn)設(shè)計(jì)方法,波蘭統(tǒng)計(jì)學(xué)家尼曼〔J.Neyman〕和英國統(tǒng)計(jì)學(xué)家皮爾遜〔,1895-1980〕的置信區(qū)間理論和假設(shè)檢驗(yàn)理論,以及非參數(shù)統(tǒng)計(jì)法、序貫抽樣法、多元統(tǒng)計(jì)分析法、時(shí)間序列跟蹤預(yù)測法都應(yīng)運(yùn)而生,并逐步成為現(xiàn)代統(tǒng)計(jì)學(xué)的主要內(nèi)容.【數(shù)理統(tǒng)計(jì)簡史】現(xiàn)代統(tǒng)計(jì)學(xué)時(shí)期是數(shù)理統(tǒng)計(jì)開展的輝煌時(shí)期,數(shù)理統(tǒng)計(jì)不僅在理論上取得重大進(jìn)展,其方法在生物、農(nóng)業(yè)、醫(yī)學(xué)、社會、經(jīng)濟(jì)、工業(yè)和科技等方面得到愈來愈廣泛的應(yīng)用.另外,計(jì)算機(jī)的應(yīng)用對統(tǒng)計(jì)學(xué)的產(chǎn)生了巨大的影響,需要大量計(jì)算的統(tǒng)計(jì)方法,有了計(jì)算機(jī),這一切都不成問題.【數(shù)理統(tǒng)計(jì)簡史】第6章數(shù)理統(tǒng)計(jì)根底【質(zhì)量控制問題】

某食鹽廠用包裝機(jī)包裝的食鹽,每袋重量500g,通常在包裝機(jī)正常的情況下,袋裝食鹽的重量X服從正態(tài)分布,均值為500g,標(biāo)準(zhǔn)差為25g.為進(jìn)行生產(chǎn)質(zhì)量控制,他們每天從當(dāng)天的產(chǎn)品中隨機(jī)抽出30袋進(jìn)行嚴(yán)格稱重,以檢驗(yàn)包裝機(jī)工作是否正常.某日,該廠隨機(jī)抽取30袋鹽的重量分別為:

從這些數(shù)據(jù)看,包裝機(jī)的工作正常嗎?4755004854545044394925014634614644945124514345115134905215144494674994845084784794995294806.1總體和樣本6.1.1總體與個(gè)體

總體或母體指我們研究對象的全體構(gòu)成的集合,個(gè)體指總體中包含的每個(gè)成員.例如,在研究某高校學(xué)生生活消費(fèi)狀況時(shí),該校全體學(xué)生就是一個(gè)總體,其中每一個(gè)學(xué)生是一個(gè)個(gè)體;在人口普查中,總體是某地區(qū)的全體人口,個(gè)體就是該地區(qū)的每一個(gè)人.第6章數(shù)理統(tǒng)計(jì)根底6.1.1總體與個(gè)體我們研究總體時(shí),所關(guān)心的往往是總體某方面的特性,這些特性又常??梢杂靡粋€(gè)或多個(gè)數(shù)量指標(biāo)來反映.例如,在研究某高校學(xué)生生活消費(fèi)狀況時(shí),關(guān)心的可能是學(xué)生們每月的生活消費(fèi)額,在研究某廠生產(chǎn)的燈泡的質(zhì)量時(shí),關(guān)心的可能是這些燈泡的壽命和光亮度等.這時(shí)總體指一個(gè)或多個(gè)數(shù)量指標(biāo),這些數(shù)量指標(biāo)對我們來說是不了解或者說是未知的,我們可以用一個(gè)或多個(gè)隨機(jī)變量來表示它們.

因此,總體可以是一維隨機(jī)變量,也可以是多維隨機(jī)變量.例如,在研究某高校學(xué)生生活消費(fèi)狀況時(shí),可以用X表示月生活消費(fèi)額,在研究某廠生產(chǎn)的燈泡的質(zhì)量時(shí),可以分別用X,Y表示燈泡的壽命和光亮度,那么,對上面兩個(gè)問題的研究就轉(zhuǎn)化為對總體X和總體(X,Y)的研究了.

6.1.1總體與個(gè)體根據(jù)總體中包含個(gè)體的數(shù)量,可以將總體分為有限總體和無限總體,當(dāng)總體中包含個(gè)體的數(shù)量很大時(shí),我們可以把有限總體看成是無限總體.例如,某廠某天生產(chǎn)的燈泡可以看作是有限總體,而該廠生產(chǎn)的全部燈泡就可以看作為無限總體,因?yàn)樗^去和將來生產(chǎn)的燈泡的全部.6.1.1總體與個(gè)體6.1.2樣本與抽樣實(shí)際應(yīng)用中,為了研究總體的特性,總是從總體中抽出局部個(gè)體進(jìn)行觀察和試驗(yàn),根據(jù)觀察或試驗(yàn)得到的數(shù)據(jù)推斷總體的性質(zhì).我們把從總體中抽出的局部個(gè)體稱為樣本,把樣本中包含個(gè)體的數(shù)量稱為樣本容量,把對樣本的觀察或試驗(yàn)的過程稱為抽樣,把觀察或試驗(yàn)得到的數(shù)據(jù)稱為樣本觀測值〔觀測數(shù)據(jù)〕,簡稱樣本值.例如,在質(zhì)量檢驗(yàn)中,隨機(jī)抽出n件產(chǎn)品,測得的數(shù)據(jù)x1,x2,...,xn,就稱它們是樣本觀測值.在抽樣前,不知道樣本觀測值究竟取何值,應(yīng)該把它們看作為隨機(jī)變量,記作X1,X2,...,Xn,稱其為容量為n的樣本.〔在不會混淆的情況下,有時(shí)我們也將觀測數(shù)據(jù)x1,x2,...,xn稱為樣本,如“質(zhì)量控制問題〞中的30個(gè)數(shù)據(jù),也可以說成是一個(gè)容量為30的樣本〕.樣本與抽樣在應(yīng)用中,我們從總體中抽出的個(gè)體必須具有代表性,樣本中個(gè)體之間要具有相互獨(dú)立性,為保證這兩點(diǎn),一般采用簡單隨機(jī)抽樣.定義6.1一種抽樣方法假設(shè)滿足下面兩點(diǎn),稱其為簡單隨機(jī)抽樣:(1)總體中每個(gè)個(gè)體被抽到的時(shí)機(jī)是均等的;(2)樣本中的個(gè)體相互獨(dú)立.由簡單隨機(jī)抽樣得到的樣本稱為簡單隨機(jī)樣本.如果沒有特殊說明,以后所說樣本均指簡單隨機(jī)樣本.樣本與抽樣設(shè)X1,X2,...,Xn是從總體X中抽出的簡單隨機(jī)樣本,由定義可知,X1,X2,...,Xn有下面兩個(gè)特性:(1)代表性:X1,X2,...,Xn均與X同分布,即假設(shè)XF(x),那么對每一個(gè)Xi都有XiF(xi),i=1,2,…,n(2)獨(dú)立性:X1,X2,...,Xn相互獨(dú)立.由這兩個(gè)特性可知,假設(shè)X的分布函數(shù)為F(x),那么X1,X2,...,Xn的聯(lián)合分布函數(shù)為F(x1,x2,…,xn)=F(x1)F(x2)…F(xn)假設(shè)X具有概率密度為f(x),那么X1,X2,...,Xn的聯(lián)合概率密度為f(x1,x2,…,xn)=f(x1)f(x2)…f(xn)樣本與抽樣往往是未知或不完全知道的,是需要通過樣本來進(jìn)行研究和推斷的.【例6.1】設(shè)總體X服從均值為1/2的指數(shù)分布,X1,X2,X3,X4為來自X的樣本,求X1,X2,X3,X4的聯(lián)合概率密度和聯(lián)合分布函數(shù).解:X的概率密度為其分布函數(shù)為那么X1,X2,X3,X4的聯(lián)合概率密度為:樣本與抽樣樣本與抽樣由于X的分布函數(shù)為X1,X2,X3,X4的聯(lián)合分布函數(shù)為

【例6.2】總體X的分布為P{X=i}=1/4,i=0,1,2,3,抽取n=36的簡單隨機(jī)樣本X1,X2,...,X36,求大于50.4小于64.8的概率.解:總體X的均值和方差分別為

樣本與抽樣由于X1,X2,...,X36均與總體X同分布,且相互獨(dú)立,所以,Y的均值和方差分別為

又因?yàn)閚=36較大,依中心極限定理,近似服從正態(tài)分布,所以

樣本與抽樣6.1總體和樣本6.1.3直方圖與經(jīng)驗(yàn)分布函數(shù)如前所述,數(shù)理統(tǒng)計(jì)所研究的實(shí)際問題〔總體〕的分布一般來說是未知的,需要通過樣本來推斷.但如果對總體一無所知,那么,做出推斷的可信度一般也極為有限.在很多情況下,我們往往可以通過具體的應(yīng)用背景或以往的經(jīng)驗(yàn),再通過觀察樣本觀測值的分布情況,對總體的分布形式有個(gè)大致了解.觀察樣本觀測值的分布規(guī)律,了解總體X的概率密度和分布函數(shù),常用直方圖和經(jīng)驗(yàn)分布函數(shù).1.直方圖直方圖是對一組數(shù)據(jù)x1,x2,...,xn的分布情況的圖形描述.將數(shù)據(jù)的取值范圍分成假設(shè)干區(qū)間〔一般是等間隔的〕,在等間隔的情況,每個(gè)區(qū)間的長度稱為組距.考察這些數(shù)據(jù)落入每一個(gè)小區(qū)間的頻數(shù)和頻率,在每一個(gè)區(qū)間上畫一個(gè)矩形,它的寬度是組距,高度可以是頻數(shù)、頻率或頻率/組距,所得直方圖分別稱為頻數(shù)直方圖、頻率直方圖和密度直方圖.6.1.3直方圖與經(jīng)驗(yàn)分布函數(shù)圖6-1密度直方圖如果數(shù)據(jù)x1,x2,...,xn是來自連續(xù)總體X的樣本觀測值,其密度直方圖中,每一個(gè)矩形的面積恰好是觀測數(shù)據(jù)落入對應(yīng)區(qū)間的頻率,這種密度直方圖可以用來估計(jì)總體的概率密度〔用密度直方圖的頂部折線估計(jì)X的概率密度曲線〕.組距對直方圖的形態(tài)有很大的影響,組距太小或太大,直方圖反映概率密度的形態(tài)就不夠準(zhǔn)確.直方圖與經(jīng)驗(yàn)分布函數(shù)直方圖與經(jīng)驗(yàn)分布函數(shù)一個(gè)適宜的分組是希望密度直方圖的形態(tài)接近總體的概率密度函數(shù)的形態(tài).手工計(jì)算常取組數(shù)等于左右,一些統(tǒng)計(jì)軟件會根據(jù)樣本容量和樣本的取值范圍自動確定一個(gè)適宜的分組方式,畫出各種漂亮的直方圖.【實(shí)驗(yàn)6-1】從某高校一年學(xué)生的“高等數(shù)學(xué)〞課程考試成績中,隨機(jī)抽取60名學(xué)生的成績?nèi)缦拢涸嚴(yán)肊xcel的“數(shù)據(jù)分析〞功能作學(xué)生成績的密度直方圖,并通過直方圖了解學(xué)生成績的分布情況.7669717769718369858586777495668766516873776266739379638787548057727258767276697181756674606779638878857258906170776880796.1.3直方圖與經(jīng)驗(yàn)分布函數(shù)實(shí)驗(yàn)步驟:(1)確定分組個(gè)數(shù):因?yàn)?,取分組個(gè)數(shù)為8.?dāng)?shù)據(jù)的最小值為51,最大值為95,為分組方便起見,考慮范圍從50到100,分為8個(gè)組,組距取50/8=6.25,分點(diǎn)分別為:50,56.25,62.5,68.75,75,81.25,87.5,93.75,100。整理學(xué)生成績數(shù)據(jù),在“組上限〞欄中填入各組的上限值,如圖6-2左所示.

圖6-2數(shù)據(jù)整理與“直方圖〞對話框(2)在Excel主菜單中選擇“工具〞“數(shù)據(jù)分析〞,翻開“數(shù)據(jù)分析〞對話框,在“分析工具〞列表中選擇“直方圖〞選項(xiàng),單擊“確定〞按鈕.(3)在翻開的“直方圖〞對話框中,依次輸入〔或用鼠標(biāo)拖動選擇〕“輸入?yún)^(qū)域〞、“接收區(qū)域〞和“輸出區(qū)域〞,如圖6-2右所示,單擊“確定〞按鈕.得到頻率分布的結(jié)果如圖6-3左所示.

圖6-3計(jì)算各組頻率與密度(4)計(jì)算密度:在單元格區(qū)域J2:J9中依次輸入組域名:50-56.25、、、68.75-75、75-81.25、、、93.75-100,然后在“密度〞列的單元格K2中輸入公式:=I2/60/6.25,并將公式復(fù)制到K3~K9中,如圖6-3右所示.(5)畫密度直方圖:選中單元格區(qū)域J1:K9,單擊“圖表向?qū)Ж暟粹o,翻開“圖表向?qū)Ж晫υ捒颍凇皥D表類型〞選擇中,取默認(rèn)的“柱形圖〞向?qū)?,直接單擊“完成〞按鈕,即可得到密度柱形圖,如圖6-4所示.圖6-4密度柱形圖右鍵單擊圖中條形,在快捷菜單中選擇“數(shù)據(jù)系列格式〞,翻開“數(shù)據(jù)系列格式〞對話框,在其中的“選項(xiàng)〞選項(xiàng)卡中,修改“分類間距〞為0,如圖6-5〔左〕所示,單擊“確定〞按鈕,即可加寬條形,得到密度直方圖,進(jìn)一步修改圖形,得到密度直方圖,如圖6-5〔右〕所示.

圖6-5密度直方圖從學(xué)生成績的密度直方圖可以看到,學(xué)生成績在平均分附近比較密集,較低或較高分?jǐn)?shù)學(xué)生比較少,學(xué)生成績的分布呈近似“鐘形〞對稱,即成績分布近似正態(tài)分布.類似的方法可以畫出學(xué)生成績的頻數(shù)直方圖和頻率直方圖,由于三種直方圖只是高度相差一定的倍數(shù),所以在研究總體分布的形態(tài)時(shí),三種直方圖具有同樣的作用.2.經(jīng)驗(yàn)分布函數(shù)為了解總體X的分布形式,根據(jù)樣本觀測值x1,x2,...,xn構(gòu)造一個(gè)函數(shù)Fn(x)來近似總體X的分布函數(shù),函數(shù)Fn(x)稱為經(jīng)驗(yàn)分布函數(shù).它的構(gòu)造方法是這樣的,將樣本觀測值x1,x2,...,xn按從小到大可排成,定義

直方圖與經(jīng)驗(yàn)分布函數(shù)Fn(x)只在x=x(k),〔k=1,2,…,n〕處有躍度為1/n的間斷點(diǎn),假設(shè)有l(wèi)個(gè)觀測值相同,那么Fn(x)在此觀測值處的躍度為l/n.對于固定的x,F(xiàn)n(x)即表示事件{Xx}在n次試驗(yàn)中出現(xiàn)的頻率,即,其中k為落在(-,x)中xi的個(gè)數(shù).

直方圖與經(jīng)驗(yàn)分布函數(shù)由伯努利大數(shù)定理知Fn(x)依概率收斂于F(x).實(shí)際上,F(xiàn)n(x)還一致地收斂于F(x),所謂的格里文科定理指出了這一更深刻的結(jié)論,即所以,當(dāng)n充分大時(shí)經(jīng)驗(yàn)分布函數(shù)Fn(x)是總體分布函數(shù)F(x)的一個(gè)良好的近似.

直方圖與經(jīng)驗(yàn)分布函數(shù)6.2統(tǒng)計(jì)量與抽樣分布在利用樣本推斷總體的性質(zhì)時(shí),往往不能直接利用樣本,而需要對它進(jìn)行一定的加工,這樣才能有效地利用其中的信息,否那么,樣本只是呈現(xiàn)為一堆“雜亂無章〞的數(shù)據(jù).第6章數(shù)理統(tǒng)計(jì)根底【例6.3】從某地區(qū)隨機(jī)抽取50戶農(nóng)民,調(diào)查其人均年收入情況,得到數(shù)據(jù)〔單位:元〕如下: 試對該地區(qū)農(nóng)民收入的水平和貧富懸殊程度做個(gè)大致分析.9248009167048701040824690574490972988126668476494040880461085260275478896270471285488876884888211928208786148467468287928726966449268081010728742850864738

6.2統(tǒng)計(jì)量與抽樣分布解:顯然,如果不進(jìn)行加工,面對這一大堆大小參差不齊的數(shù)據(jù),很難得出什么印象.但是可以對這些數(shù)據(jù)稍事加工,如記各農(nóng)戶的人均年收入分別為x1,x2,...,x50,計(jì)算得到這樣,就可以了解到該地區(qū)農(nóng)民的平均收入和該地區(qū)農(nóng)民貧富懸殊的大致情況:農(nóng)民的年人均平均收入大約為809.52元,標(biāo)準(zhǔn)差約為155.85元,貧富懸殊不算很大.

6.2統(tǒng)計(jì)量與抽樣分布由此可見對樣本的加工是十分重要的.對樣本加工,主要就是構(gòu)造統(tǒng)計(jì)量.6.2.1統(tǒng)計(jì)量定義6.2設(shè)X1,X2,…,Xn為來自總體X的樣本,稱不含未知參數(shù)的樣本的函數(shù)g(X1,X2,…,Xn)為統(tǒng)計(jì)量.假設(shè)x1,x2,...,xn為樣本觀測值,那么稱g(x1,x2,...,xn)為統(tǒng)計(jì)量g(X1,X2,…,Xn)的觀測值.統(tǒng)計(jì)量是處理、分析數(shù)據(jù)的主要工具.對統(tǒng)計(jì)量的一個(gè)最根本的要求就是可以將樣本觀測值代入進(jìn)行計(jì)算,因而不能含有任何未知的參數(shù).

6.2統(tǒng)計(jì)量與抽樣分布【例6.4】設(shè)X1,X2,…,Xn是來自總體X的樣本,X~N(,2),其中、2為未知參數(shù),那么X1,min{X1,X2,…,Xn}均為統(tǒng)計(jì)量,但諸如等均不是統(tǒng)計(jì)量,因它含有未知參數(shù)或.常用的統(tǒng)計(jì)量有如下幾種:

6.2.1統(tǒng)計(jì)量1.有關(guān)一維總體的統(tǒng)計(jì)量設(shè)X1,X2,…,Xn為總體X的樣本,x1,x2,...,xn為樣本觀測值,(1)樣本均值常用來作為總體期望〔均值〕的估計(jì)量,其觀測值為

統(tǒng)計(jì)量(2)樣本方差(3)樣本標(biāo)準(zhǔn)差樣本方差和樣本標(biāo)準(zhǔn)差刻畫了樣本數(shù)據(jù)的分散程度,常用來作為總體方差和標(biāo)準(zhǔn)差的估計(jì)量.觀測值分別為

統(tǒng)計(jì)量(4)樣本k階原點(diǎn)矩〔簡稱樣本k階矩〕,(k=1,2,…)(5)樣本k階中心矩,(k=2,3,…)顯然Ak和Bk的觀測值分別記為

統(tǒng)計(jì)量定理6.1設(shè)總體X的期望E(X)=,方差D(X)=2,X1,X2,…,Xn為總體X的樣本,,S2分別為樣本均值和樣本方差,那么

統(tǒng)計(jì)量由辛欽大數(shù)定理和依概率收斂的性質(zhì)可以證明定理6.2設(shè)總體X的k階原點(diǎn)矩E(Xk)=k存在〔k=1,2,…,m〕,X1,X2,…,Xn為總體X的樣本,g(t1,t2,…,tm)是m元連續(xù)函數(shù),那么特別有

統(tǒng)計(jì)量2.有關(guān)二維總體的統(tǒng)計(jì)量設(shè)(X1,Y1),(X2,Y2),…,(Xn,Yn)為二維總體(X,Y)的樣本,其觀測值為(x1,y1),(x2,y2),…,(xn,yn),那么以下各量為統(tǒng)計(jì)量:(1)樣本協(xié)方差(2)樣本相關(guān)系數(shù)其中SXY和RXY常分別用來作為總體X和Y的協(xié)方差Cov(X,Y)與相關(guān)系數(shù)XY的估計(jì)量.

統(tǒng)計(jì)量

統(tǒng)計(jì)量

實(shí)驗(yàn)方法一:(1)輸入數(shù)據(jù)及統(tǒng)計(jì)量名,如圖6-7左所示.(2)計(jì)算樣本均值,在單元格H2中輸入公式:=AVERAGE(A2:E11)(3)計(jì)算樣本方差s2,在單元格H3中輸入公式:=VAR(A2:E11)(4)計(jì)算樣本標(biāo)準(zhǔn)差s,在單元格H4中輸入公式:=STDEV(A2:E11)計(jì)算結(jié)果:、s2=24288.91、s=155.85,如圖6-7右所示.

統(tǒng)計(jì)量圖6-7計(jì)算統(tǒng)計(jì)量

統(tǒng)計(jì)量實(shí)驗(yàn)方法二:(1)輸入整理數(shù)據(jù),如圖6-8左所示.(2)在Excel主菜單中選擇“工具〞“數(shù)據(jù)分析〞,翻開“數(shù)據(jù)分析〞對話框,在“分析工具〞列表中選擇“描述統(tǒng)計(jì)〞選項(xiàng),單擊“確定〞按鈕.(3)在翻開的“描述統(tǒng)計(jì)〞對話框中,依次輸入“輸入?yún)^(qū)域〞和“輸出區(qū)域〞,選中“標(biāo)志位于第一行〞復(fù)選框,如圖6-8中所示,單擊“確定〞按鈕.得到描述統(tǒng)計(jì)的結(jié)果如圖6-8右所示.

統(tǒng)計(jì)量

圖6-8描述統(tǒng)計(jì)

統(tǒng)計(jì)量

6.2統(tǒng)計(jì)量與抽樣分布6.2.2抽樣分布統(tǒng)計(jì)量的分布稱為抽樣分布.為了研究抽樣分布,先研究數(shù)理統(tǒng)計(jì)中三種重要的分布.1.2分布定義6.3設(shè)X1,X2,…,Xn為相互獨(dú)立的隨機(jī)變量,它們都服從標(biāo)準(zhǔn)正態(tài)N(0,1)分布,那么稱隨機(jī)變量服從自由度為n的2分布,記為2~2(n).此處自由度指2中包含獨(dú)立變量的個(gè)數(shù).可以證明,2(n)的概率密度為其中()稱為伽馬函數(shù),

6.2.2抽樣分布2分布概率密度

圖6-92(n)分布的概率密度曲線可以看出,隨著n的增大,的圖形趨于“平緩〞,其圖形下區(qū)域的重心亦逐漸往右下移動.

6.2.2抽樣分布2分布具有下面性質(zhì):(1)(可加性)設(shè)是兩個(gè)相互獨(dú)立的隨機(jī)變量,且(2)設(shè)證明(1)由2分布的定義易得證明.(2)因?yàn)榇嬖谙嗷オ?dú)立、同分布于N(0,1)的隨機(jī)變量X1,X2,…,Xn,使那么

6.2.2抽樣分布由于Xi獨(dú)立,且注意到N(0,1)的四階矩為3,可得

英國統(tǒng)計(jì)學(xué)家費(fèi)歇〔〕曾證明,當(dāng)n較大時(shí),近似服從

6.2.2抽樣分布2.t分布定義6.4設(shè)X~N(0,1),Y~2(n),X與Y獨(dú)立,那么稱隨機(jī)變量服從自由度為的t分布,又稱為學(xué)生氏分布(Studentdistribution),記為T~t(n).可以證明t(n)的概率密度為圖6-10t分布的概率密度曲線

6.2.2抽樣分布

圖6-10t分布的概率密度曲線顯然t分布的概率密度是x的偶函數(shù),圖6-10描繪了n=1,3,7時(shí)t(n)的概率密度曲線.作為比較,還描繪了N(0,1)的概率密度曲線.

6.2.2抽樣分布可看出,隨著n的增大,t(n)的概率密度曲線與N(0,1)的概率密度曲線越來越接近.可以證明t分布具有下面性質(zhì):即當(dāng)n趨向無窮時(shí),t(n)近似于標(biāo)準(zhǔn)正態(tài)分布N(0,1).一般地,假設(shè)n>30,就可認(rèn)為t(n)根本與N(0,1)相差無幾了.

6.2.2抽樣分布3.F分布定義6.5設(shè)X~

2(n1),Y~

2(n2),且X與Y獨(dú)立,稱隨機(jī)變量服從自由度為(n1,n2)的F分布,記為F~F(n1,n2).可以證明的概率密度函數(shù)為

6.2.2抽樣分布

抽樣分布圖6-11F分布的概率密度曲線由F分布的定義容易看出,假設(shè)F~F(n1,n2),那么1/F~F(n2,n1).4.正態(tài)總體的抽樣分布定理在數(shù)理統(tǒng)計(jì)問題中,正態(tài)分布占據(jù)著十分重要的位置,一方面因?yàn)樵趹?yīng)用中,許多隨機(jī)變量的分布或者是正態(tài)分布,或者接近于正態(tài)分布;另一方面,正態(tài)分布有許多優(yōu)良性質(zhì),便于進(jìn)行較深入的理論研究.因此,我們著重討論正態(tài)總體下的抽樣分布,給出有關(guān)最重要的統(tǒng)計(jì)量樣本均值和樣本方差S2的抽樣分布定理.

抽樣分布定理6.3設(shè)X1,X2,…,Xn為來自總體N(,2)的樣本,,S2分別為樣本均值和樣本方差,那么有(1)(2)(3)與S2相互獨(dú)立;(4)證明:由正態(tài)分布的性質(zhì)容易得到(1),略去(2)和(3)的證明,下面僅證明4.

抽樣分布

證明(4):由(1)知,從而由(2)(3)知根據(jù)t分布的定義

抽樣分布【例6.5】某廠生產(chǎn)的燈泡壽命近似服從正態(tài)分布N(800,402),抽取16個(gè)燈泡的樣本,求平均壽命小于775小時(shí)的概率.

解:設(shè)燈泡壽命總體為X,因?yàn)閄~N(800,402),n=16,所以樣本均值故

抽樣分布【例6.6】設(shè)總體X~N(

,102),抽取容量為n的樣本,樣本均值記為.欲使與的偏差小于5的概率大于0.95,樣本容量n至少應(yīng)該取多大?解:依題令,即因?yàn)榭傮w,從而所以即查表知,由于單調(diào)不減,應(yīng)有故n至少應(yīng)該取為16.

6.2.2抽樣分布【例6.7】設(shè)X1,X2,…,Xn為總體X~N(,2)的樣本,求樣本方差的均值和方差.解:此題可以通過2分布的均值和方差簡單求出.由定理6.3,所以有

于是

抽樣分布6.2.3分位數(shù)設(shè)X為一隨機(jī)變量,我們知道對于給定的實(shí)數(shù)x,P{X>x}是事件{X>x}的概率.在統(tǒng)計(jì)中,我們常常需要對給定事件{X>x}的概率,由此確定的x取是一個(gè)臨界點(diǎn),稱為分位數(shù)(點(diǎn)),有如下定義:定義6.6設(shè)X為隨機(jī)變量,假設(shè)對給定的(0,1),存在x滿足P{X>x}=,那么稱x為X的上分位數(shù)(點(diǎn)).

6.2統(tǒng)計(jì)量與抽樣分布假設(shè)X具有密度f(x),P{X>x}=說明分位數(shù)x右邊的一塊陰影面積為,即

容易看出,X的上分位數(shù)x是關(guān)于的減函數(shù),即增大時(shí)x減少.下面給出幾種常用分布的上分位數(shù)的求法:

6.2.3分位數(shù)1.設(shè)ZN(0,1),記N(0,1)的上分位數(shù)為z,即有P{Z>z}=.由于(z)=P{Zz}=1–P{Zz}=1–,由標(biāo)準(zhǔn)正態(tài)分布函數(shù)表〔附表2〕反過來查,即可以得到z的值.為使用方便,表6-1列出了標(biāo)準(zhǔn)正態(tài)分布的幾個(gè)常用分位數(shù)z的值.表6-1常用的標(biāo)準(zhǔn)正態(tài)分布的分位數(shù)

0.0010.0050.010.0250.050.10z

3.0902.5762.3261.9601.6451.282

6.2.3分位數(shù)由N(0,1)的概率密度的對稱性〔見圖6-13〕可知所以z1-=–z.

圖6-13z1-與z

6.2.3分位數(shù)2.設(shè)

2

2(n),記

2(n)的上

分位數(shù)為

2(n),即有P{

2>

2(n)}=

.附表3中給出了時(shí)

2(n)的值,當(dāng)n>40時(shí),由

2(n)的漸近性質(zhì),有

6.2.3分位數(shù)3.設(shè)T~t(n),記t(n)的上

分位數(shù)為t

(n),即有P{T>t

(n)}=

;由t(n)的概率密度的對稱性t1-

(n)=–t

(n)

圖6-14t1-

(n)與t

(n)附表4中給出了時(shí)t

(n)的值,當(dāng)n>40時(shí),由于t(n)近似N(0,1),所以t

(n)

z

6.2.3分位數(shù)4.設(shè)F~F(n1,n2),記F(n1,n2)的上分位數(shù)為F(n1,n2),即有P{F>F(n1,n2)}=.附表5中給出局部F(n1,n2)的值.另外,由于F~F(n1,n2)時(shí),1/F~F(n2,n1),所以故

6.2.3分位數(shù)【例6.8】求以下分位數(shù):(1)z0.025;20..5(20);t0.1(25);F0.05(10,15);(2)t0.975(4);(3)t0.05(55);(4)F0.9(14,10);(5)20.975(200).解:(1)查表6-1知z0.025=1.96.也可由標(biāo)準(zhǔn)正態(tài)分布函數(shù)表〔附表2〕,對函數(shù)值(z0.025)=1–0.025=0.975反查表得z0.025=1.96.

6.2.3分位數(shù)分別查附表3、附表4、附表5得到

20.5(20)=31.4104、t0.1(25)=1.3164、F0.05(10,15)=2.54;(2)在附表4中沒有

=0.975,可先查出t0.025(4)=2.7764,利用對稱性得到t0.975(4)=–t0.025(4)=–2.7764.(3)在附表4中查不到t0.05(55),用近似公式t0.05(55)

z0.05=1.645.

6.2.3分位數(shù)(4)在附表5中,查不到F0.9(14,10),但可查出F0.1(10,14)=2.10,故(5)在附表3表中查不到

20.975(200),先查出z0.975=–z0.025=–1.96,再作如下近似計(jì)算

6.2.3分位數(shù)【實(shí)驗(yàn)6.3】用Excel計(jì)算例6-8中的分位數(shù):(1)z0.025;(2)t0.975(4);(3)t0.05(55);(4)F0.9(14,10);(5)

20.975(200).

實(shí)驗(yàn)準(zhǔn)備:(1)函數(shù)NORMSINV的使用格式:NORMSINV(probability)功能:返回標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)的反函數(shù)值.

分位數(shù)

(2)函數(shù)TINV的使用格式:TINV(probability,degrees_freedom)功能:返回給定自由度的t-分布的上

/2分位數(shù).其中

=probability為t-分布的雙尾概率,degrees_freedom為分布的自由度.(3)函數(shù)FINV的使用格式:FINV(probability,degrees_freedom1,degrees_freedom2)功能:返回F分布的上

分位數(shù),其中

=probability為F分布的單尾概率,degrees_freedom1和degrees_freedom2為兩個(gè)自由度.

分位數(shù)(4)函數(shù)CHIINV的使用格式:CHIINV(probability,degrees_freedom)功能:返回

2分布的上

分位數(shù).其中

=probability為

2分布的單尾概率,Degrees_freedom為自由度.

分位數(shù)實(shí)驗(yàn)步驟:(1)計(jì)算z0.025,在單元格B2中輸入公式:=NORMSINV(0.975)(2)計(jì)算t0.975(4),由于t0.975(4)=-t0.025(4),在單元格B3中輸入公式:=-TINV(2*0.025,4)(3)計(jì)算t0.05(55),在單元格B4中輸入公式:=TINV(2*0.05,55)

分位數(shù)(4)計(jì)算F0.9(14,10),在單元格B5中輸入公式:=FINV(0.9,14,10)(5)計(jì)算20.975(200),在單元格B6中輸入公式:=CHIINV(0.975,200)計(jì)算結(jié)果如以以下圖.

分位數(shù)【例6.9】設(shè)X1,X2是總體X~N(1,2)的樣本,試求概率P{(X1–X2)2

20.08}.

解法一:因?yàn)閄~N(1,2),所以Xi~N(1,2),i=1,2,從而記,所以查表知,即所以

分位數(shù)【例6.9】設(shè)X1,X2是總體X~N(1,2)的樣本,試求概率P{(X1–X2)2

20.08}.解法二:因X~N(1,2),所以從而

分位數(shù)由定理6.3容易證明下述有關(guān)兩個(gè)總體的抽樣分布定理.定理6.4設(shè),分別為來自N(1,12)和N(2,22)的樣本,且它們相互獨(dú)立,設(shè),S12,,S22,分別為相應(yīng)樣本的樣本均值和樣本方差,那么(1)(2)

6.2.3分位數(shù)(3)當(dāng)時(shí),其中

6.2.3分位數(shù)證:(1)由于,,又與獨(dú)立,故由正態(tài)分布的性質(zhì)知所以

6.2.3分位數(shù)證:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論