分布的擬合檢驗(yàn)方法_第1頁
分布的擬合檢驗(yàn)方法_第2頁
分布的擬合檢驗(yàn)方法_第3頁
分布的擬合檢驗(yàn)方法_第4頁
分布的擬合檢驗(yàn)方法_第5頁
已閱讀5頁,還剩99頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本資料來源

第三節(jié)分布的擬合檢驗(yàn)第三節(jié)分布擬合的檢驗(yàn)法

我們?cè)谇懊鎺坠?jié)中介紹的是在總分布形式已知時(shí)關(guān)于總體參數(shù)的假設(shè)檢驗(yàn)。但在實(shí)際問題,有時(shí)不能預(yù)先知道總體分布的形式。這時(shí),就要用假設(shè)檢驗(yàn)的方法,根據(jù)樣本的觀察值判斷總體是否具有某中分布,這類對(duì)總體分布形式的檢驗(yàn)問題稱為分布擬合檢驗(yàn)。它是非參數(shù)檢驗(yàn)中較為主要的內(nèi)容。本節(jié)知介紹分布擬合的檢驗(yàn)法?!?.分布擬合檢驗(yàn)

實(shí)際中可能遇到這樣的情形,總體服從何種理論分布并完全不知道,要求我們直接對(duì)總體分布提出一個(gè)假設(shè)。

例如,從1500到1931年的432年間,每年爆發(fā)戰(zhàn)爭(zhēng)的次數(shù)可以看作一個(gè)隨機(jī)變量,椐統(tǒng)計(jì),這432年間共爆發(fā)了299次戰(zhàn)爭(zhēng),具體數(shù)據(jù)如下:戰(zhàn)爭(zhēng)次數(shù)X01234發(fā)生X次戰(zhàn)爭(zhēng)的年數(shù)22314248154

可以假設(shè)每年爆發(fā)戰(zhàn)爭(zhēng)次數(shù)分布X近似泊松分布。那么上面的數(shù)據(jù)能否證實(shí)X具有泊松分布假設(shè)?

又如,某鐘表廠對(duì)生產(chǎn)的鐘進(jìn)行精確性檢查,抽取100個(gè)鐘作試驗(yàn),撥準(zhǔn)后隔24小時(shí)以后進(jìn)行檢查,將每個(gè)鐘的誤差(快或慢)按秒記錄下來。問該廠生產(chǎn)的鐘的誤差是否服從正態(tài)分布?再如,某工廠制造一批骰子,聲稱它是均勻的。即在投擲中,出現(xiàn)1點(diǎn),2點(diǎn),…,6點(diǎn)的概率都應(yīng)是1/6。為檢驗(yàn)骰子是否均勻,要把骰子實(shí)地投擲若干次,統(tǒng)計(jì)各點(diǎn)出現(xiàn)的頻率與1/6的差距。那么得到的數(shù)據(jù)能否說明“骰子均勻”的假設(shè)是可信的?§3.分布擬合檢驗(yàn)需要:在總體X的分布未知時(shí),根據(jù)來自總體的樣本,檢驗(yàn)關(guān)于總體分布的假設(shè)的一種檢驗(yàn)方法?!?.分布擬合檢驗(yàn)若原假設(shè)成立,則各實(shí)測(cè)頻數(shù)fi與npi(理論頻數(shù))應(yīng)相差不大??傮wX可以分為k個(gè)組(類),記作A1,A2,…,Ak?,F(xiàn)要檢驗(yàn)的是:如對(duì)總體做作了n次觀察,各類出現(xiàn)的頻數(shù)為fi

(實(shí)測(cè)頻數(shù)),所有頻數(shù)之和f1+f2+…+fk等于樣本容量n,fi/n稱為頻率。§3.分布擬合檢驗(yàn)標(biāo)志著經(jīng)驗(yàn)分布與理論分布之間的差異的大小.皮爾遜引進(jìn)如下統(tǒng)計(jì)量表示經(jīng)驗(yàn)分布與理論分布之間的差異:統(tǒng)計(jì)量的分布是什么?在理論分布已知的條件下,npi是常量實(shí)測(cè)頻數(shù)理論頻數(shù)§3.分布擬合檢驗(yàn)皮爾遜證明了如下定理:

若原假設(shè)成立,那么當(dāng)時(shí),統(tǒng)計(jì)量漸近服從自由度為(k-1)的分布.

§3.分布擬合檢驗(yàn)

如果根據(jù)所給的樣本值X1,X2,…,Xn算得統(tǒng)計(jì)量的實(shí)測(cè)值落入拒絕域,則拒絕原假設(shè),否則就認(rèn)為差異不顯著而接受原假設(shè).§3.分布擬合檢驗(yàn)

皮爾遜定理是在n無限增大時(shí)推導(dǎo)出來的,因而在使用時(shí)要注意n要足夠大,以及npi

不太小這兩個(gè)條件.

根據(jù)計(jì)算實(shí)踐,要求n不小于50,以及npi

都不小于5.否則應(yīng)適當(dāng)合并類,使npi滿足這個(gè)要求.對(duì)規(guī)定的顯著性水平,則拒絕。否則不能拒絕,即接受§3.分布擬合檢驗(yàn)驗(yàn)卡方統(tǒng)計(jì)量與與2分布類別….理論值….觀察值….1900由皮爾遜(K.Pearson)提出卡方統(tǒng)計(jì)量量定理如果原假設(shè)成立,則在樣樣本容量→∞時(shí),的分布趨向的分布,即。于自由度為,并進(jìn)行顯著著性檢驗(yàn)奧地利生物學(xué)學(xué)家孟德爾進(jìn)進(jìn)行了長(zhǎng)達(dá)八八年之久的豌豌豆雜交試驗(yàn)驗(yàn),并根據(jù)試驗(yàn)結(jié)結(jié)果,運(yùn)用他的數(shù)理理知識(shí),發(fā)現(xiàn)了遺傳的的基本規(guī)律.例1,我們以遺傳傳學(xué)上的一項(xiàng)項(xiàng)偉大發(fā)現(xiàn)為為例,說明統(tǒng)統(tǒng)計(jì)方法在研研究自然界和和人類社會(huì)的的規(guī)律性時(shí),,是起著積極極的、主動(dòng)的的作用.孟德爾§3.分布擬擬合檢檢驗(yàn)子二代子一代…黃色純系…綠色純系他的一一組觀觀察結(jié)結(jié)果為為:黃70,綠27近似為為2.59:1,與理理論值值相近近.根據(jù)他他的理理論,,子二二代中中,黃、綠綠之比比近近似為為3:1,例1奧地利利生物物學(xué)家家孟德德爾進(jìn)進(jìn)行了了長(zhǎng)達(dá)達(dá)八年年之久久的豌豌豆雜雜交試試驗(yàn),并根據(jù)據(jù)試驗(yàn)驗(yàn)結(jié)果果,運(yùn)用他他的數(shù)數(shù)理知知識(shí),發(fā)現(xiàn)了了遺傳傳的基基本規(guī)規(guī)律。。§3.分布擬擬合檢檢驗(yàn)這里,,n=70+27=97,k=2,檢驗(yàn)孟孟德爾爾的3:1理論:提出假假設(shè)H0:p1=3/4,p2=1/4理論頻頻數(shù)為為:np1=72.75,np2=24.25實(shí)測(cè)頻頻數(shù)為為70,27.統(tǒng)計(jì)量量近似服服從自由度度為k-1=1由于統(tǒng)計(jì)量的實(shí)測(cè)值=0.4158<3.841,故認(rèn)為為試驗(yàn)驗(yàn)結(jié)果果符合合孟德爾爾的3:1理論.§3.分布擬擬合檢檢驗(yàn)這些試試驗(yàn)及及其它它一些些試驗(yàn)驗(yàn),都都顯示示孟孟德爾爾的3:1理論與與實(shí)際際是符符合的的.這本身身就是是統(tǒng)計(jì)方方法在在科學(xué)學(xué)中的的一項(xiàng)項(xiàng)重要應(yīng)應(yīng)用.用于客客觀地地評(píng)價(jià)價(jià)理論論上的的某個(gè)個(gè)結(jié)論論是否否與觀觀察結(jié)結(jié)果相相符,,以作作為該該理論論是否否站得得住腳腳的印印證.§3.分布擬擬合檢檢驗(yàn)例2為了檢檢測(cè)圓圓粒豌豌豆與與皺粒粒豌豆豆第二二代的的分離離比例例是否否符合合孟德德爾的的3:1分離率率,作作試驗(yàn)驗(yàn)觀察察是336粒圓粒粒豌豆豆,101粒皺粒粒豌豆豆下表表:類型圓粒豌豆皺粒豌豆觀測(cè)值頻數(shù)336101理論值頻數(shù)437(3/4)=327.75437(1/4)=109.25一致性性檢驗(yàn)驗(yàn)(1)、一致性性檢驗(yàn)驗(yàn)---分布擬擬合檢檢驗(yàn)1不全相相等⑵.對(duì)規(guī)定的顯著性水平,若(r=2,c=k)則拒絕。否則不能拒絕,即接受把樣本本統(tǒng)計(jì)計(jì)量轉(zhuǎn)轉(zhuǎn)換成卡方方值,,結(jié)合合卡方方分布布所進(jìn)進(jìn)行的的統(tǒng)計(jì)計(jì)檢驗(yàn)驗(yàn)原理是是以細(xì)細(xì)格次次數(shù)來來進(jìn)行行交叉叉比較較,俗俗稱交交叉分分析2.檢檢驗(yàn)的的步驟驟⑴.提提出原原假設(shè)設(shè)和備備擇假假設(shè)1.檢檢驗(yàn)多多個(gè)變變量之之間是是否存存在顯顯著差差異卡方統(tǒng)統(tǒng)計(jì)量量與一一致性性檢驗(yàn)驗(yàn)類別….理論值….觀察值….1900由皮爾爾遜((K.Pearson)提出出卡方統(tǒng)統(tǒng)計(jì)計(jì)量定理如果原原假設(shè)設(shè)成立,,則在在樣本本容量量→∞時(shí),的分布布趨向向的分布,,即。于自由由度為為,并進(jìn)進(jìn)行顯顯著性性檢驗(yàn)驗(yàn)例3為了檢檢測(cè)卡卡爾。。馬克克思的的寫作作中使使用字字母((a、e、i、o、s)是否否等概概率從從他的的作品品隨機(jī)機(jī)抽取取500個(gè)字母母下表表:字母aeios觀測(cè)值頻數(shù)9011510584105理論值頻數(shù)100100100100100一致性性檢驗(yàn)驗(yàn)Dataa;inputA$n@@;cards;a90e115i105o84s105;procfreqdata=a;tablesA/chisq;weightn;run;一致性性檢驗(yàn)驗(yàn)TheSASSystem14:43Friday,November12,20071TheFREQProcedureCumulativeCumulativeAFrequencyPercentFrequencyPercent------------------------------------------------------Chi-SquareTestforEqualProportions---------------------Chi-Square6.3206DF4Pr>ChiSq0.1764SampleSize=499一致性性檢驗(yàn)驗(yàn)(7-4)也就是是說K2是度量量實(shí)際際觀察察次數(shù)數(shù)與理理論次次數(shù)偏偏離程程度的的一個(gè)個(gè)統(tǒng)計(jì)計(jì)量,K2越小,,表明明實(shí)際際觀察察次數(shù)數(shù)與理理論次次數(shù)越越接近近;K2=0,表示示兩者者完全全吻合合;K2越大,,表示示兩者者相差差越大大。對(duì)于表表7-4的資料料,可可計(jì)算算得表明實(shí)實(shí)際觀觀察次次數(shù)與與理論論次數(shù)數(shù)還是是比較較接近近的。。一致致性性檢檢驗(yàn)驗(yàn)對(duì)規(guī)定的顯著性水平,則拒絕。否則不能拒絕,即接受一般般分分布布的的擬擬合合檢檢驗(yàn)驗(yàn)對(duì)一一般般總總體體的的分分布布的的假假設(shè)設(shè)檢檢驗(yàn)驗(yàn)一般般分分布布的的擬擬合合檢檢驗(yàn)驗(yàn)

若原假設(shè)中的理論分布F(x)已經(jīng)完全給定,那么當(dāng)時(shí),統(tǒng)計(jì)量漸近服從(k-1)個(gè)自由度的分布.如果果理理論論分分布布F(x)中有有r個(gè)未未知知參參數(shù)數(shù),,需需用用相相應(yīng)應(yīng)的的估估計(jì)計(jì)量量來來代代替替,,那那么么取取統(tǒng)統(tǒng)計(jì)計(jì)量量為為漸近服從(k-r-1)個(gè)自由度的分布.一般分布布的擬合合檢驗(yàn)在F(x)尚未完全全給定的的情況下下,每個(gè)個(gè)未知參參數(shù)用相相應(yīng)的估估計(jì)量代代替,就就相當(dāng)于于增加一一個(gè)制約約條件,,因此,自自由度也也隨之減減少一個(gè)個(gè).若有r個(gè)未知參參數(shù)需用用相應(yīng)的的估計(jì)量量來代替替,自由度就就減少r個(gè).此時(shí)統(tǒng)計(jì)量漸近(k-r-1)個(gè)自由度的分布.一般分布布的擬合合檢驗(yàn)

如果根據(jù)所給的樣本值X1,X2,…,Xn算得統(tǒng)計(jì)量的實(shí)測(cè)值落入拒絕域,則拒絕原假設(shè),否則就認(rèn)為差異不顯著而接受原假設(shè).據(jù)Pearson定理,分分布擬合合檢驗(yàn)的的拒絕域域?yàn)?(不需估計(jì)計(jì)參數(shù))(估計(jì)r個(gè)參數(shù))注意:皮爾遜定定理是在在n無限增大大時(shí)推導(dǎo)導(dǎo)出來的的,因而而在使用用時(shí)要注注意n要足夠大大,以及npi()不太小這兩個(gè)條條件.按參數(shù)為0.69的泊松分分布,計(jì)計(jì)算事件件X=i的概率pi,將有關(guān)計(jì)計(jì)算結(jié)果果列表如如下:pi的估計(jì)是,i=0,1,2,3根據(jù)觀察結(jié)果,得參數(shù)的極大似然估計(jì)為例4從1500到1931年的432年間,每年年爆發(fā)戰(zhàn)爭(zhēng)爭(zhēng)的次數(shù)可可以看作一一個(gè)隨機(jī)變變量,椐統(tǒng)統(tǒng)計(jì),這432年間共爆發(fā)發(fā)了299次戰(zhàn)爭(zhēng),具具體數(shù)據(jù)如如下:戰(zhàn)爭(zhēng)次數(shù)X01234發(fā)生X次戰(zhàn)爭(zhēng)的年數(shù)22314248154提出假設(shè)H0:X服從參數(shù)為為的的泊松分布布因H0所假設(shè)的理理論分布中中有一個(gè)未未知參數(shù),,故自由度度為4-1-1=2.x01234fi22314248154n216.7149.551.612.02.160.1830.376戰(zhàn)爭(zhēng)次數(shù)實(shí)測(cè)頻數(shù)14.162.43將n<5的組予以合并,即將發(fā)生3次及4次戰(zhàn)爭(zhēng)的組歸并為一組.14.16一般分布的的擬合檢驗(yàn)驗(yàn)故認(rèn)為每年年發(fā)生戰(zhàn)爭(zhēng)爭(zhēng)的次數(shù)X服從參數(shù)為為0.69的泊松分布布.按=0.05,自由度為4-1-1=2查分布表得=5.991=2.43<5.991,由于統(tǒng)計(jì)量的實(shí)測(cè)值未落入拒絕絕域.一般分布的的擬合檢驗(yàn)驗(yàn)

設(shè)總體X

的分布未知,從總體中抽取一個(gè)容量為n

的樣本檢驗(yàn)總體分布是否等于某確定的分布時(shí),分下面四個(gè)步驟進(jìn)行。

:總體X

的分布函數(shù)為的一種方法法。二關(guān)關(guān)于總體分分布為已知知分布函數(shù)數(shù)的檢驗(yàn)(1)檢驗(yàn)假設(shè)設(shè)要求當(dāng)為真時(shí),的形式及參數(shù)都是已知知的。但實(shí)實(shí)際上參數(shù)數(shù)值往往是是未知的。這時(shí),,需要先用用參數(shù)估計(jì)計(jì)法(如矩矩估計(jì)法,極大似似然估計(jì)法法)來求出出參數(shù)的估估計(jì)。

(2)由樣本構(gòu)造相應(yīng)的統(tǒng)計(jì)量。在實(shí)數(shù)軸上選取k-1個(gè)分點(diǎn)將數(shù)軸分成k各互不相交的區(qū)間

其中當(dāng)為真時(shí),記為總體X

落在內(nèi)的概率,即…………記為n

各樣本值中落入的個(gè)數(shù),即組頻數(shù)(一般要求,否則可合并相鄰區(qū)間)。顯然有。由頻率的穩(wěn)定性可知,在為真的條件下,的值很小。(1)稱為統(tǒng)計(jì)量??梢宰C明,當(dāng)n

充分大時(shí),不論總體屬于什么分布,都有(2)作統(tǒng)計(jì)量其中r為被估計(jì)參參數(shù)的個(gè)數(shù)數(shù)。(3)對(duì)于給定的顯著性水平,由分布表可查的臨界值,使這里拒絕域取為分布的右側(cè),是因?yàn)槌闪r(shí),有變大的趨勢(shì)。因此,檢驗(yàn)驗(yàn)的拒絕域域?yàn)椋?)由樣本觀察值計(jì)算出的值。

若成立,則拒絕原假設(shè),即不能認(rèn)為總體分布函數(shù)是

若成立,則接受原假設(shè),即可以認(rèn)為總體分布函數(shù)是例1在20天內(nèi),從維維尼綸正常常生產(chǎn)時(shí)的生產(chǎn)報(bào)報(bào)表上看到到維尼綸纖纖度(表示示纖維粗細(xì)的一一個(gè)量)的的情況,有有如下100個(gè)數(shù)據(jù):1.36,1.49,1.43,1.41,1.37,1.40,1.32,1.42,1.47,1.39,1.41,1.36,1.40,1.34,1.42,1.42,1.45,1.35,1.42,1.39,1.44,1.42,1.39,1.42,1.42,1.30,1.42,1.34,1.37,1.36,1.37,1.34,1.37,1.37,1.44,1.45,1.32,1.48,1.40,1.45,1.39,1.46,1.39,1.53,1.36,1.48,1.40,1.39,1.38,1.40,1.36,1.45,1.50,1.43,1.38,1.43,1.41,1.48,1.39,1.45,1.38,1.37,1.39,1.45,1.31,1.41,1.44,1.44,1.42,1.47,1.35,1.36,1.39,1.40,1.38,1.35,1.42,1.43,1.42,1.42,1.42,1.40,1.41,1.37,1.46,1.36,1.37,1.27,1.37,1.38,1.42,1.34,1.43,1.42,1.47,1.41,1.44,1.48,1.55,1.37解本本題是根據(jù)據(jù)纖度的容容量為100的樣本值,,推斷總體體X(纖度)是是否服從正正態(tài)分布。。其中兩個(gè)個(gè)參數(shù)和和未未知。用用矩法求出出其估計(jì)值值試判斷纖度度是否服從從正態(tài)分布布??(1)提出原假設(shè)(2)在為真的條件下,統(tǒng)計(jì)量由于總體中中有兩個(gè)參參數(shù)用估計(jì)計(jì)值代替,,因此

為計(jì)算出統(tǒng)計(jì)量的值,首先在數(shù)軸上選取分點(diǎn),劃分區(qū)間,然后統(tǒng)計(jì)出組頻數(shù)本例有100個(gè)數(shù)據(jù),可可劃分為10組(通常樣樣本容量在50~100時(shí),可分為為6~10組),由于于100個(gè)數(shù)據(jù)中最大與最小者分別為1.55和1.27,這時(shí)組距按,可取為0.03。取始點(diǎn)a=1.265(比數(shù)據(jù)中最小值略小一點(diǎn),即比最小值精度多一位,具末位數(shù)取5),但不作為第一分點(diǎn)(因?yàn)樵赼

以下,沒有試驗(yàn)數(shù)據(jù)),這樣便得到如下9個(gè)分點(diǎn)1.295,1.325,1.355,1.385,1.4151.445,1.475,1.505,1.535.將數(shù)軸分為為10個(gè)區(qū)間然后統(tǒng)計(jì)出頻數(shù).

其次,計(jì)算,為此需將區(qū)間作中心化變換再計(jì)算,最后計(jì)算出值,統(tǒng)一列出計(jì)算表(見表7—2)。表7—22.52350.41850.64570.09540.54540.80150.01706.051611.97162.340911.764910.62730.1296-2.643.46-1.533.43-3.260.361.073.589.8118.5424.5321.5713.265.621.650.3714722232510611∞~-2.30-2.30~-1.68-1.68~-1.06-1.06~-0.44-0.44~-0.190.19~0.810.81~1.431.43~2.052.05~2.682.68~+∞-∞~1.2951.295~1.3251.325~1.3551.355~1.3851.385~1.4151.415~1.4451.445~1.4751.475~1.5051.505~1.5351.535~+∞組頻數(shù)U的組限

組限

(3)根據(jù)計(jì)算實(shí)踐,要求。否則適當(dāng)?shù)睾喜^(qū)間,使?jié)M足這個(gè)要求。本例中前三組合并,后三組合并,k

由原來的10變?yōu)?。對(duì)于給定的顯著性水平,查分布表確定臨界值,使

(4)由樣本值,通過計(jì)算表(表7—2),得到因此,接受原假設(shè),即可以認(rèn)為維尼綸纖度服從正態(tài)分布。亦即可以認(rèn)為例3下面列出了了84個(gè)伊特拉斯斯坎(Etruscan)人男子的頭頭顱的最大大寬度(mm),試檢驗(yàn)這這些數(shù)據(jù)是是否來自正正態(tài)總體((取α=0.1)141148132138154142150146155158150140147148144150149145149158143141144144126140144142141140145135147146141136140146142137148154137139143140131143141149148135148152143144141143147146150132142142143153149146149138142149142137134144146147140142140137152145解為粗粗略了解數(shù)數(shù)據(jù)的分布布情況,先先畫出直方方圖。步驟如下::1.找出數(shù)據(jù)的的最小值、、最大值為為126、158,取區(qū)間[124.5,159.5],它能覆蓋[126,158];2.將區(qū)間[124.5,159.5]等分為7個(gè)小區(qū)間,小區(qū)間的長(zhǎng)長(zhǎng)度Δ=(159.5-124.5)/7=5,ΔΔ稱為組組距,小區(qū)區(qū)間的端點(diǎn)點(diǎn)稱為組限限,建立下下表:組限頻數(shù)fi頻率fi/n累計(jì)頻率124.5-129.5129.5-134.5134.5-139.5139.5-144.5144.5-149.5149.5-154.5154.5-159.514103324930.01190.04760.11910.39290.28570.10710.03570.01190.05950.17860.57150.85720.952413.自左向右在在各小區(qū)間間上作以fi/(nΔ)為高的的小矩形如下圖,即即為直方圖圖。注:直方圖的小小區(qū)間可以以不等長(zhǎng),,但小區(qū)間間的長(zhǎng)度不不能太大,,否則平均均化作用突突出,淹沒沒了密度的的細(xì)節(jié)部分分;也不能能太小,否否則受隨機(jī)機(jī)化影響太太大,產(chǎn)生生極不規(guī)則則的形狀。。從本例的直直方圖看,,有一個(gè)峰峰,中間高高,兩頭低低,較對(duì)稱稱,樣本象象來自正態(tài)態(tài)總體。于于是檢驗(yàn)x≤129.5129.5<x≤134.5134.5<x≤139.5139.5<x≤144.5144.5<x≤149.5149.5<x≤154.5154.5<x<00870.05190.17520.31200.28110.13360.03750.734.3614.7226.2123.6111.223.156.7941.5524.4010.02Σ=87.67故在水平0.1下接受H0,認(rèn)為數(shù)據(jù)來來自正態(tài)總總體。的連續(xù)性矯矯正由(7-1)式計(jì)算的K2只是近似地地服從連續(xù)續(xù)型隨機(jī)變變量2分布。在對(duì)對(duì)次數(shù)資料料進(jìn)行2檢驗(yàn)利用連連續(xù)型隨機(jī)機(jī)變量2分布計(jì)算概概率時(shí),常常常偏低,,特別是當(dāng)當(dāng)自由度為為1時(shí)偏差較大大。Yates(1934)提出了一個(gè)個(gè)矯正公式式,矯正后后的K2值記為::(7-5)當(dāng)自由度大大于1時(shí),(7-4)式的2分布與連續(xù)續(xù)型隨機(jī)變變量2分布相近似似,這時(shí)時(shí),可不作作連續(xù)性矯矯正,但但要求求各組內(nèi)內(nèi)的理論次次數(shù)不小于于5。若某組的的理論次數(shù)數(shù)小于5,則應(yīng)把它它與其相鄰鄰的一組或或幾組合并并,直到理理論次數(shù)大大于5為止。從上例可以以看出,若若所檢驗(yàn)的的總體分布是連續(xù)型型的計(jì)算量量比較大,,也比較麻麻煩。若所檢驗(yàn)的的總體為離離散型的,,則問題往往往比較簡(jiǎn)單一一些。例7某電話交換換臺(tái)在一小小時(shí)內(nèi)接到到電話用戶呼喚喚次數(shù)按每每分鐘統(tǒng)計(jì)計(jì)得到記錄錄如下表81617106210

頻數(shù)0123456≥7

呼喚次數(shù)

i

(1)原假設(shè)總體分布中只有一個(gè)未知參數(shù),并且是總體X

的數(shù)學(xué)期望。用矩估計(jì)法,可得

的估計(jì)值。

解本題所要檢驗(yàn)的總體分布是離散型的??梢园裍

的一個(gè)取值i

看作一個(gè)分組,相應(yīng)的看作是第i組的組頻數(shù)。所以,即分布列為(2)作統(tǒng)計(jì)量在成立的條件下,有列出計(jì)算表((見表7—3)。0.12520.00170.00360.03540.06270.02180.01390.05860.5750.6790.187-0.118-0.2420.758-0.8240.4328.11816.24216.24210.8245.4122.1660.720.27816171062100123456≥7i表7—3因此,在下接受原假設(shè),即認(rèn)為呼喚次數(shù)X

服從的泊松分布。

(3)如表將后四組合為一組,此時(shí)組數(shù)為對(duì)給定的顯著性水平,查分布表的臨界值(4)由樣本值,,通過計(jì)算表表7—3得到使三列聯(lián)表表列聯(lián)表的中間間各個(gè)變量不不同水平的交交匯處,就是是這種水平組組合出現(xiàn)的頻頻數(shù)或計(jì)數(shù)(count)。二維的列聯(lián)表表又稱為交叉表(crosstable)。右邊的列聯(lián)表表是2×2列聯(lián)表。維數(shù)數(shù)多的叫做高維列聯(lián)表。。對(duì)定類或定序序數(shù)據(jù)的描述述和分析通常常使用列聯(lián)表表.

吸??。课鼰煵晃鼰熁悸詺夤苎?1)4313不患慢性氣管炎(0)162121注意前面這個(gè)個(gè)列聯(lián)表的變變量都是定性性變量;但列聯(lián)表也會(huì)會(huì)帶有定量變量作為為協(xié)變量。一、列聯(lián)表的的構(gòu)造1.由兩個(gè)或或兩個(gè)以上變變量進(jìn)行交叉叉分類的頻數(shù)數(shù)分布表2.行變量的的類別數(shù)用r表示,列變量的類別別數(shù)用c表示3.由行變量量和列變量的的所有可能的的組合構(gòu)成的的表格,稱為列列聯(lián)表4.一個(gè)r行c列的列聯(lián)表稱稱為r×c列聯(lián)表三列聯(lián)表表列行12合計(jì)1vf11f122f21f22合計(jì)n2×2列聯(lián)表表示i行j列的觀察頻數(shù)數(shù),行合計(jì)列合計(jì)而樣本容量三列聯(lián)表表列行12…c合計(jì)1f11f12…f1c2f21f22…f2c………………rfr1fr2…frc合計(jì)nr×c列聯(lián)表三列聯(lián)表表r×c列聯(lián)表的獨(dú)立立性檢驗(yàn)的方法r×c表是指行因子子的屬性類別別數(shù)為r(r>2),列因子的屬性性類別數(shù)為c(c>2)的列聯(lián)表。其其獨(dú)立性檢驗(yàn)驗(yàn)為:第三節(jié)獨(dú)獨(dú)立性檢驗(yàn)其中Aij(i=1,2,……r;j=1,2,……c)為實(shí)際觀察察次數(shù),Tij為理論期望次次數(shù)。下一張主頁退出上一張其公式可簡(jiǎn)化化為:第三節(jié)獨(dú)獨(dú)立性檢驗(yàn)表9-9因素因素X合計(jì)Yx1x2y1aba+by2cdc+d合計(jì)a+cb+dn=a+b+c+d2×2列聯(lián)表第三節(jié)獨(dú)獨(dú)立性檢驗(yàn)1.期望頻數(shù)數(shù)為3.相關(guān)系數(shù)為2.統(tǒng)計(jì)量為-因素因素X合計(jì)Yx1x2y1aba+by2cdc+d合計(jì)a+cb+dn=a+b+c+d2×2列聯(lián)表第三節(jié)獨(dú)獨(dú)立性檢驗(yàn)第三節(jié)獨(dú)獨(dú)立性檢驗(yàn)

吸????吸煙不吸煙合計(jì)患慢性氣管炎(1)431356不患慢性氣管炎(0)162121283合計(jì)205134339部門態(tài)度一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279反對(duì)該方案32453331141合計(jì)10012090110420表9-1關(guān)于改革方案案的調(diào)查結(jié)果果單位位:人例一個(gè)集團(tuán)公司司在四個(gè)不同同的區(qū)域設(shè)有有分公司,現(xiàn)現(xiàn)該集團(tuán)公司欲進(jìn)進(jìn)行一項(xiàng)改革革,此項(xiàng)改革革可能涉及到到各分公司的的利益,故采用用抽樣調(diào)查方方法,從四個(gè)個(gè)分公司共抽抽取420名職工,了解職工工對(duì)此項(xiàng)改革革的看法,調(diào)調(diào)查結(jié)果見表表9-1。第三節(jié)獨(dú)獨(dú)立性檢驗(yàn)二、列聯(lián)表的的分布㈠、觀察值的的分布1.各行合計(jì)計(jì)的的分分布稱行邊緣分布,,稱行邊緣緣頻數(shù),稱稱行百分分?jǐn)?shù)2.各列合計(jì)計(jì)的的分分布稱列邊緣分布,,稱列邊緣緣頻數(shù),稱稱列百分分?jǐn)?shù)3.稱稱為總百分?jǐn)?shù)數(shù)第三節(jié)獨(dú)獨(dú)立性檢驗(yàn)一分公司二分公司三分公司四分公司合計(jì)贊成該方案68755779279行百分?jǐn)?shù)%24.426.920.428.366.4列百分?jǐn)?shù)%68.062.563.371.8-總百分?jǐn)?shù)%16.217.813.618.8-反對(duì)該方案32453331141行百分?jǐn)?shù)%22.731.923.422.033.6列百分?jǐn)?shù)%32.037.536.728.2-總百分?jǐn)?shù)%7.610.77.97.4-合計(jì)10012090110420%23.828.621.426.2100.0包含百分比的的2×4列聯(lián)表表9-2第三節(jié)節(jié)獨(dú)獨(dú)立立性檢檢驗(yàn)㈡、期望望值的的分布布1.假假定行行變量量和列列變量量相互互獨(dú)立立2.實(shí)實(shí)際頻頻數(shù)的的期期望頻頻數(shù)為為第三節(jié)節(jié)獨(dú)獨(dú)立立性檢檢驗(yàn)計(jì)算例例根據(jù)表9-1,第一行第一列的實(shí)際頻數(shù),相應(yīng)的期望頻數(shù)則為類似可可求得得各個(gè)個(gè)實(shí)際際頻數(shù)數(shù)的期期望頻頻數(shù)列列于表表9-4第三節(jié)節(jié)獨(dú)獨(dú)立立性檢檢驗(yàn)部門態(tài)度一分公司二分公司三分公司四分公司合計(jì)贊成該方案實(shí)際頻數(shù)68755779279期望頻數(shù)(66)(80)(60)(73)反對(duì)該方案實(shí)際頻數(shù)32453331141期望頻數(shù)(34)(40)(30)(37)合計(jì)10012090110420實(shí)際頻頻數(shù)和和期望望頻數(shù)數(shù)分布布表單單位::人表9-4第三節(jié)節(jié)獨(dú)獨(dú)立立性檢檢驗(yàn)第二節(jié)節(jié)χ2分布與與χ2檢驗(yàn)一、統(tǒng)統(tǒng)計(jì)計(jì)量1.用用于檢檢驗(yàn)列列聯(lián)表表中變變量之之間是是否獨(dú)獨(dú)立的的檢驗(yàn)驗(yàn),尤其適適合于于兩個(gè)個(gè)定類類變量量之間間是否否獨(dú)立立的檢檢驗(yàn)2,統(tǒng)統(tǒng)計(jì)計(jì)量為為(9.1)3.值值愈愈大則則表明明實(shí)際際頻數(shù)數(shù)與期期望頻頻數(shù)的的差異異愈大第三節(jié)節(jié)獨(dú)獨(dú)立立性檢檢驗(yàn)步驟一步驟二步驟三步驟四6866

240.06067580-5250.31255760-390.15007973

6360.49323234-240.11764540

5250.62503330

390.30003137-6360.97303.0319表9-5計(jì)算表

第三節(jié)節(jié)獨(dú)獨(dú)立立性檢檢驗(yàn)二、χ2分布分布為正偏,隨著自由度的增加,趨于對(duì)稱。當(dāng)自由度很大時(shí),分布可用正態(tài)分布來近似。第三節(jié)節(jié)獨(dú)獨(dú)立立性檢檢驗(yàn)三、自自由度度的確確定統(tǒng)計(jì)量的自由度為

f=(

行數(shù)-1)(列數(shù)-1)=(r-1)(c-1)

(9.2)當(dāng)n

較大時(shí),統(tǒng)計(jì)量近似分布。第三節(jié)節(jié)獨(dú)獨(dú)立立性檢檢驗(yàn)四、χ2檢驗(yàn)㈠㈠、、一致致性檢檢驗(yàn)1.檢檢驗(yàn)多多個(gè)變變量之之間是是否存存在顯顯著差差異2.檢檢驗(yàn)的的步驟驟⑴.例例如提提出原原假設(shè)設(shè)和備備擇假假設(shè)不全相相等⑵.對(duì)規(guī)定的顯著性水平,若則拒絕。否則不能拒絕,即接受第三節(jié)節(jié)獨(dú)獨(dú)立立性檢檢驗(yàn)例9.1某集團(tuán)團(tuán)公司司欲進(jìn)進(jìn)行一一項(xiàng)改改革,,分別別從所所屬的四四個(gè)分分公司司中共共隨機(jī)機(jī)抽取取了420名職工工,了了解他他們對(duì)改改革方方案的的態(tài)度度(見見表9-1),并并對(duì)職職工態(tài)態(tài)度是是否與所所在單單位有有關(guān)這這個(gè)問問題在在α=0.1的顯著著性水水平上進(jìn)進(jìn)行行檢檢驗(yàn)驗(yàn)。。第三三節(jié)節(jié)獨(dú)獨(dú)立立性性檢檢驗(yàn)驗(yàn)解::由(9.1)式得得不全全相相等等取時(shí),查表得從而接受,即認(rèn)為四個(gè)分公司對(duì)改革方案的贊成比例是一致的。由(9.2)式,,得得自自由由度度由于于㈡、獨(dú)獨(dú)立立性性檢檢驗(yàn)驗(yàn)1..檢檢驗(yàn)驗(yàn)列列聯(lián)聯(lián)表表中中的的行行變變量量與與列列變變量量之之間間是是否否獨(dú)獨(dú)立立2..檢檢驗(yàn)驗(yàn)的的步步驟驟⑴..提提出出原原假假設(shè)設(shè)和和備備擇擇假假設(shè)設(shè)H0:行行變變量量與與列列變變量量獨(dú)獨(dú)立立H1:行行變變量量與與列列變變量量不不獨(dú)獨(dú)立立⑵..計(jì)計(jì)算算檢檢驗(yàn)驗(yàn)統(tǒng)統(tǒng)計(jì)計(jì)量量⑶.對(duì)規(guī)定的顯著性水平,若則拒絕。否則不能拒絕,即接受。第三三節(jié)節(jié)獨(dú)獨(dú)立立性性檢檢驗(yàn)驗(yàn)例9.2一種種原原料料來來自自三三個(gè)個(gè)不不同同的的地地區(qū)區(qū),,原原料料質(zhì)質(zhì)量量被被分成三個(gè)個(gè)不同等等級(jí)。從從這批原原料中隨隨機(jī)抽取取500件進(jìn)行檢檢驗(yàn),結(jié)果果如表9-7所示。要要求檢驗(yàn)驗(yàn)各個(gè)地地區(qū)和原原料之間間是否存在在依賴關(guān)關(guān)系。地區(qū)一級(jí)二級(jí)三級(jí)合計(jì)甲地區(qū)526424140乙地區(qū)605952171丙地區(qū)506574189合計(jì)162188150500表9-7原料抽樣樣結(jié)果單單位::件第三節(jié)獨(dú)獨(dú)立立性檢驗(yàn)驗(yàn)列一級(jí)二級(jí)三級(jí)合計(jì)甲地區(qū)526424140(45.36)(52.64)(42.00)乙地區(qū)605952171(55.40)(64.30)(51.30)兩地區(qū)506574189(61.24)(71.06)(56.70)合計(jì)162188150500表9-83×3列聯(lián)表計(jì)計(jì)算過程程解:H0:地區(qū)和和原料之之間獨(dú)立立H1:地區(qū)和和原料之之間不獨(dú)獨(dú)立第三節(jié)獨(dú)獨(dú)立立性檢驗(yàn)驗(yàn)續(xù)(例9.2)取時(shí)時(shí),查查表得由于所以拒絕,接受。即認(rèn)為地區(qū)和原料之間不獨(dú)立。第三節(jié)獨(dú)獨(dú)立立性檢驗(yàn)驗(yàn)一、獨(dú)立立性檢驗(yàn)驗(yàn)的意義義對(duì)次數(shù)資資料,除除進(jìn)行適適合性檢檢驗(yàn)外,,有時(shí)需需要分析析兩類因因子是相相互獨(dú)立立還是彼彼此相關(guān)關(guān)。這種種根據(jù)次數(shù)數(shù)資料判判斷兩類類因子彼彼此相關(guān)關(guān)或相互互獨(dú)立的的假設(shè)檢檢驗(yàn)就是是獨(dú)立性性檢驗(yàn)。獨(dú)立性性檢驗(yàn)實(shí)實(shí)際上是是基于次次數(shù)資料料對(duì)子因因子間相相關(guān)性的的研究。。表9-12價(jià)值取向職業(yè)XY制造業(yè)服務(wù)業(yè)物質(zhì)報(bào)酬(人)10545%7256人情關(guān)系(人)4035%2844合計(jì)(人)14580%100100職業(yè)背景景與工作作價(jià)值觀觀取向獨(dú)立性檢檢驗(yàn)案例例例社會(huì)學(xué)家家欲研究究家庭狀狀況對(duì)青青少年犯犯罪的影影響,設(shè)該地區(qū)區(qū)有未犯犯罪紀(jì)錄錄的青少少年10000名,有犯犯罪記錄錄的青少年年150名。如果果從未犯犯罪青少少年中抽抽取1%,即對(duì)100名進(jìn)行研研究,則則用相同同比例從從犯罪青青少年中中抽取的樣本容容量?jī)H為為1.5人。為滿滿足研究究的需要要,對(duì)犯犯罪青少年的抽抽樣比擴(kuò)擴(kuò)大到1/2,即抽取取75人。調(diào)查查所獲得得的數(shù)據(jù)如表表9-13。獨(dú)立性檢檢驗(yàn)案例例表9-13青少年行為家庭狀況合計(jì)完整家庭離異家庭犯罪383775未犯罪928100合計(jì)13045175家庭狀況況與青少少年犯罪罪單單位位:人由表9-13按家庭狀狀況計(jì)算算的條件件百分表表,見表表9-14表9-14青少年行為家庭狀況完整家庭離異家庭犯罪(%)2982未犯罪(%)7118合計(jì)(人)13045家庭狀況況與青少少年犯罪罪由表9-13按青少年年行為計(jì)計(jì)算的條條件百分分表,見見表9-15。表9-15家庭狀況青少年行為犯罪(%)未犯罪(%)完整家庭5192離異家庭498

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論