假設(shè)的檢定兩個變量的相關(guān)_第1頁
假設(shè)的檢定兩個變量的相關(guān)_第2頁
假設(shè)的檢定兩個變量的相關(guān)_第3頁
假設(shè)的檢定兩個變量的相關(guān)_第4頁
假設(shè)的檢定兩個變量的相關(guān)_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第十章第十章假設(shè)的檢定假設(shè)的檢定 兩個變量的相關(guān)兩個變量的相關(guān) 第一節(jié)第一節(jié)n兩個定類變項兩個定類變項定類或定序ppt上考至少考一個例題定距n 倘若要研究倘若要研究x x與與y y這兩個變項是否相關(guān),則在這兩個變項是否相關(guān),則在抽取了一個隨機樣本以后便首先運用前面所介紹抽取了一個隨機樣本以后便首先運用前面所介紹的方法,簡化樣本中的資料,從而計算的方法,簡化樣本中的資料,從而計算x x與與y y的相的相關(guān)程度和方向。但是,即使在樣本中關(guān)程度和方向。但是,即使在樣本中x x與與y y是相關(guān)是相關(guān)的,卻可能是由的,卻可能是由抽樣誤差抽樣誤差所引起,不一定是在總所引起,不一定是在總體中也相關(guān)。由于我們

2、所關(guān)心的是總體的情況不體中也相關(guān)。由于我們所關(guān)心的是總體的情況不是樣本的情況,因此,需要作統(tǒng)計推論,本章的是樣本的情況,因此,需要作統(tǒng)計推論,本章的目的是目的是介紹怎樣運用樣本的資料來檢定假設(shè),在介紹怎樣運用樣本的資料來檢定假設(shè),在總體中總體中x x與與y y是相關(guān)的。是相關(guān)的。n 在介紹計算相關(guān)系數(shù)時,我們強調(diào)要特別注在介紹計算相關(guān)系數(shù)時,我們強調(diào)要特別注意變項的測量層次,同樣,在選用相關(guān)的檢定法意變項的測量層次,同樣,在選用相關(guān)的檢定法時,也要特別注意該檢定法所要求的時,也要特別注意該檢定法所要求的測量層次測量層次。一、交互分類表中變量的相互獨立性一、交互分類表中變量的相互獨立性 研究定類

3、變量之間的關(guān)系,實際上就是通過研究定類變量之間的關(guān)系,實際上就是通過條件分布條件分布的的比較進行的,下面我們首先通過條件分布表來看一看兩變項比較進行的,下面我們首先通過條件分布表來看一看兩變項的相互獨立性。的相互獨立性。老老 年年中中 年年青青 年年邊緣和邊緣和戲曲戲曲20/27=0.7420/27=0.7410/40=0.2510/40=0.252/57=0.042/57=0.0432/124=0.2632/124=0.26歌舞歌舞5/27=0.185/27=0.1820/40=0.5020/40=0.5035/57=0.6135/57=0.6160/124=0.4860/124=0.48問

4、題是,如何進行比較呢?問題是,如何進行比較呢? 根據(jù)上表中的根據(jù)上表中的每一行每一行,可以比較三代人的喜愛是,可以比較三代人的喜愛是否有所不同,首先對戲曲來說,三代人的百分比分別否有所不同,首先對戲曲來說,三代人的百分比分別是:是:0.740.740.250.250.040.04; 歌舞為:歌舞為:0.180.180.500.500.610.61; 球賽為:球賽為:0.080.080.250.250.350.35。 可見,隨著代際的年輕化,對戲曲喜愛逐漸下降,可見,隨著代際的年輕化,對戲曲喜愛逐漸下降,而歌舞和球賽越來越受到歡迎,從而得出節(jié)目的喜愛而歌舞和球賽越來越受到歡迎,從而得出節(jié)目的喜愛

5、與代際相關(guān)的結(jié)論,也就是變量與代際相關(guān)的結(jié)論,也就是變量y(y(節(jié)目的喜愛節(jié)目的喜愛) )與變量與變量x(x(代際代際) )是有關(guān)的。是有關(guān)的。相關(guān)系數(shù)計算結(jié)果是否如此?相關(guān)系數(shù)計算結(jié)果是否如此?n 現(xiàn)在設(shè)想,如果統(tǒng)計的結(jié)果顯示,三代人的現(xiàn)在設(shè)想,如果統(tǒng)計的結(jié)果顯示,三代人的百分比是不變的,即:百分比是不變的,即:n 戲曲:戲曲:0.740.74、0.740.74、0.740.74n 歌舞:歌舞:0.180.18、0.180.18、0.180.18n 球賽:球賽:0.080.08、0.080.08、0.080.08n 那么,又該作出什么結(jié)論呢?那么,又該作出什么結(jié)論呢?n 顯然,如果選擇顯然,

6、如果選擇“喜愛節(jié)目喜愛節(jié)目”的比例對于三的比例對于三代人都是一樣的話,那就表示變量代人都是一樣的話,那就表示變量“節(jié)目節(jié)目”與變與變量量“代際代際”之間沒有關(guān)系的,這種情況稱變量之之間沒有關(guān)系的,這種情況稱變量之間是間是相互獨立的相互獨立的。如果變量間是相互獨立的話,。如果變量間是相互獨立的話,通過上例可以看出,必須存在通過上例可以看出,必須存在變量的條件分布和變量的條件分布和它的邊緣分布相同它的邊緣分布相同。即:即:nnnnnnnnnnrr*1*13*132*121*11nnnnnnnnnncc*2*23*232*221*21 x x y yx x1 1x x2 2x x3 3 x xc c

7、y y1 1n n1111n n2121n n3131 n nc1c1n n* *1 1y y2 2 n n1212 n n2222 n n3232 n nc2c2 n n* *2 2 y yr rn n1r1rn n2r2rn n3r3rn ncrcrn n* *r rn n1 1* *n n2 2* *n n3 3* *n nc c* *n nnnnnnnnnnnrccrrrr*33*22*11用一個通式來表示用一個通式來表示 ,即:,即:nnnnijji*(i=1,2(i=1,2 r r,j=1,2 j=1,2 c)c) 上式分子分母均乘以上式分子分母均乘以n n:nnnnnnijij*

8、ijijpnn*iipnnjjpnn*1 可見,如果交互類表中的變量是相互獨立的,可見,如果交互類表中的變量是相互獨立的,邊緣分布和條件分布存在以下關(guān)系。邊緣分布和條件分布存在以下關(guān)系。 x y x1 x2 xc 行邊緣 y1 p11 = p*1 p1*. p12 = p*2 p1* p1c =p*.cp1* p1* y2 p2 1=p*1 p2* p22 = p*2 p2* p2 c=p*.cp2* p2* yr p r 1=p*1. p r * p r 2= p*2pr* prc =p*c.p*r p r * 列邊緣 p*1 p*2 p*c pij=1 二、交互分類表二、交互分類表的原假設(shè)

9、的原假設(shè)n 交互分類表檢驗是將總體中變量間無關(guān)系,或相互獨立交互分類表檢驗是將總體中變量間無關(guān)系,或相互獨立作為檢驗的原假設(shè)。即:作為檢驗的原假設(shè)。即:n h h0 0:變量:變量x x與變量與變量y y無關(guān)(總體)無關(guān)(總體)n h h1 1:變量:變量x x與變量與變量y y有關(guān)(總體)有關(guān)(總體)n h h0 0:p pijij =p =pi i* *.p.p* *j j (i=1,2i=1,2c c;j=1,2j=1,2r r)n 由于由于p pi i和和p pj j是總體的邊緣分布,一般都是未知的,因此,是總體的邊緣分布,一般都是未知的,因此,可以可以用樣本中的邊緣頻率分布作為它的點

10、估計值用樣本中的邊緣頻率分布作為它的點估計值: n 列邊緣:列邊緣: i=1,2i=1,2c cn 行邊緣:行邊緣: j=1,2j=1,2c cn 這里小寫字母這里小寫字母n ni i,n nj j,n n表示樣本頻次。表示樣本頻次。nnppiii*nnppjij*三、交互分類表檢驗的統(tǒng)計量三、交互分類表檢驗的統(tǒng)計量x x2 2n 運用統(tǒng)計量運用統(tǒng)計量 2 2來進行檢驗。來進行檢驗。 2 2檢驗要求:檢驗要求:1 1)樣本是用隨機方法抽取的;樣本是用隨機方法抽取的;2 2)兩個變量)兩個變量都是有定類的性質(zhì)。都是有定類的性質(zhì)。n 交互分類檢驗的程序和單變量檢驗是相同交互分類檢驗的程序和單變量檢

11、驗是相同的:確定原假設(shè);選擇適當?shù)慕y(tǒng)計量,定出顯的:確定原假設(shè);選擇適當?shù)慕y(tǒng)計量,定出顯著性水平后根據(jù)樣本值進行判斷。著性水平后根據(jù)樣本值進行判斷。n 交互分類表統(tǒng)計量的確定是通過在原假設(shè)交互分類表統(tǒng)計量的確定是通過在原假設(shè)成立的條件下,用總體和樣本一系列值的比較成立的條件下,用總體和樣本一系列值的比較來進行的,具體步驟是:來進行的,具體步驟是:n求出列聯(lián)表中各格的期望頻次求出列聯(lián)表中各格的期望頻次n1 1)原假設(shè):)原假設(shè):h h0 0:p pijij=p=pi i* *.p.p* *j jn用樣本的邊緣和求出用樣本的邊緣和求出p pi i* *和和p p* *j jn(式中的第二個符號是根

12、據(jù)原假設(shè)(式中的第二個符號是根據(jù)原假設(shè)h h0 0得來的。得來的。n第三個近似是根據(jù)邊緣頻率分布的點估計值得來的。)第三個近似是根據(jù)邊緣頻率分布的點估計值得來的。)e eijij=np=npijij=np=np* *i i.p.p* *j jnjnin*.* 于是,在原假設(shè)于是,在原假設(shè)h h0 0成立條件下成立條件下的期望頻次交互分類表有下表的期望頻次交互分類表有下表1 1: x x y yx x1 1x x2 2x xc cy y1 1y y2 2 y yr re e1111e e2121e ec1c1e e1212e e2222e ec2c2 e e1r1re e2r2re ecrcr

13、不仿設(shè)想,在不仿設(shè)想,在h h0 0成立的條件下,作無數(shù)成立的條件下,作無數(shù)次抽樣,每次抽樣可得到一個實例的頻次交次抽樣,每次抽樣可得到一個實例的頻次交互分類表,如下表互分類表,如下表2 2: x x y y x x1 1x x2 2x xc cy y1 1n n1111n n2121n nc c1 1y y2 2n n1212n n2222n nc c2 2 y yr rn n1r1rn n2 2r rn nc cr r 比較表比較表1 1和表和表2 2,可以想象如果總體中,可以想象如果總體中h h0 0為真為真的話,那么實例頻次列聯(lián)表的格值和期望頻次的話,那么實例頻次列聯(lián)表的格值和期望頻次

14、列聯(lián)表中的格值相差不多的可能性較大。反之,列聯(lián)表中的格值相差不多的可能性較大。反之,如果兩表的格值差距很大。如果兩表的格值差距很大。 上述的討論可用以下的統(tǒng)計量來表示:上述的討論可用以下的統(tǒng)計量來表示: 分子取平方是為了取其絕對分子取平方是為了取其絕對差值,而分母差值,而分母e eijij是為了平衡是為了平衡e eijij數(shù)值本身的大小,否則,數(shù)值本身的大小,否則,如果如果e eijij本身數(shù)值很小的話,本身數(shù)值很小的話,則即使則即使(n(nijij-e-eijij) )2 2與與e eij ij 相比已相比已經(jīng)很大,但在總平方和中仍然經(jīng)很大,但在總平方和中仍然是微不足道。是微不足道。n 上述

15、統(tǒng)計量,經(jīng)過數(shù)學計算可知,當上述統(tǒng)計量,經(jīng)過數(shù)學計算可知,當n n很大,很大,每格每格e eijij都不太小,服從自由度都不太小,服從自由度k=(r-1)(c-1)k=(r-1)(c-1)的的 2 2分分布。布。n注意,注意,下面就交互分類表的統(tǒng)計量進行討論下面就交互分類表的統(tǒng)計量進行討論:n 1.1.對于對于2 2 2 2表,由于格數(shù)過少,為減少偏差,表,由于格數(shù)過少,為減少偏差,要作連續(xù)性修正,尤其在有某一個或多個格的預期要作連續(xù)性修正,尤其在有某一個或多個格的預期次數(shù)等于或小于次數(shù)等于或小于5 5時必須修正:時必須修正: 2 2. .以上以上 2 2檢驗的討論,也適用于單變檢驗的討論,也

16、適用于單變量二項總體或多項總體的假設(shè)檢驗。量二項總體或多項總體的假設(shè)檢驗。 n(1 1)二項總體。)二項總體。n 在單總體假設(shè)檢驗中,曾談到對于大在單總體假設(shè)檢驗中,曾談到對于大樣本總體成數(shù)的假設(shè)檢驗,可用:樣本總體成數(shù)的假設(shè)檢驗,可用:n z= z= 作為總體成數(shù)的原假設(shè)作為總體成數(shù)的原假設(shè) nh h0 0:p=pp=p0 0的統(tǒng)計量。的統(tǒng)計量。npppp)1 (000n 但是通過列聯(lián)表的討論,可引出另一件與但是通過列聯(lián)表的討論,可引出另一件與 2 2等價的檢驗方式:改等價的檢驗方式:改h h0 0:p=pp=p0 0(p(p0 0為總體成數(shù)為總體成數(shù)) )。n 于是對于樣本容量為于是對于樣

17、本容量為n n的抽樣,其理論上的抽樣,其理論上期望頻次為:期望頻次為:e e1 1=np=np0 0 n 而理論上非期望出現(xiàn)的頻次為:而理論上非期望出現(xiàn)的頻次為:e e2 2=n(1-=n(1-p p0 0) )。n 與此同時,相對應的實際觀測值為與此同時,相對應的實際觀測值為n n1 1和和n n2 2(n(n1 1+n+n2 2=n)=n)。n 引用引用 2 2檢驗有:檢驗有: n 可以證明,當可以證明,當n n較大時,較大時, 2 2分布近似地為分布近似地為自由度自由度k=1k=1的的 2 2分布,根據(jù)連續(xù)修正,上述分布,根據(jù)連續(xù)修正,上述 2 2為:為:222212112)()(een

18、eenx222212112)5 . 011 ()5 . 011 (eeneenx(2)多項總體)多項總體n 多項分布是單項二項分布的自然擴展,如果變量多項分布是單項二項分布的自然擴展,如果變量a a共共有有r r類:類:a a1 1、a a2 2、a ar r。n 設(shè)總體種各類的概率為:設(shè)總體種各類的概率為:p p1 1、p p2 2、p pr r。于是總體。于是總體的原假設(shè)的原假設(shè)h h0 0為:為:h h0 0:p:pi i=p=pi0 i0 (i=1,2i=1,2r r)n 對于樣本容量為對于樣本容量為n n的抽樣,其理論是期望頻次分布為:的抽樣,其理論是期望頻次分布為:e ei i=n

19、p=npi0i0。n 與此同時,相對應的各類實際觀測值為:與此同時,相對應的各類實際觀測值為:n n1 1、n n2 2n nr r。 則則 2 2值為:值為:n 可以證明,可以證明, 2 2近似地滿足自由度近似地滿足自由度k=r-1k=r-1的的 2 2分布。分布。riiiirxeenx122) 1()( 3. 3. 使用統(tǒng)計量使用統(tǒng)計量 2 2對對rcrc表進行檢驗,每一表進行檢驗,每一格值的格值的e eijij要保持在一定數(shù)目上。要保持在一定數(shù)目上。q 如果其中有的格值如果其中有的格值e eijij過小,在計算過小,在計算q值時,值時, 2 2值的波動就會過大。值的波動就會過大。q e

20、eijij應該取多大,根據(jù)要求的精確程度不同,不應該取多大,根據(jù)要求的精確程度不同,不同研究者給出的限制不同。同研究者給出的限制不同。q 對于二項總體,要求對于二項總體,要求npnp 5 5,n(1-p)n(1-p) 5 5。也就是。也就是如果只有兩個格值的話,必須要求所有如果只有兩個格值的話,必須要求所有e eijij 5 5。q 有的研究者認為有的研究者認為e eijij 5 5的要求適合所有的要求適合所有r r c c的交的交互分類表。但也有人認為對于互分類表。但也有人認為對于r r c c 交互分類表,交互分類表,e eijij 3 3就可以了。另外,還有人指出就可以了。另外,還有人指

21、出e eijij小于小于5 5的格數(shù)的格數(shù)不應超過總格數(shù)不應超過總格數(shù)20%20%,當小于,當小于5 5的格值過多會引起判的格值過多會引起判斷的失誤。斷的失誤。ijijijeen2)(舉例:設(shè)實例值和期望值共有舉例:設(shè)實例值和期望值共有7 7個格值個格值 。eij 321138724241nij 301108623554 從直現(xiàn)來判斷,實例值和期望值相差不從直現(xiàn)來判斷,實例值和期望值相差不大,可以接受原有假設(shè)。但如何用大,可以接受原有假設(shè)。但如何用 2值進行顯值進行顯著性檢驗呢?(著性檢驗呢?( =0.05=0.05)。)。 01.141) 14 (4) 45 (2) 25 (24)2423(

22、87)8786(113)113110(32)3230(22222222x592.12) 17(01.1405. 022xx 檢驗表明:有顯著性差異。檢驗表明:有顯著性差異。 為什么會出現(xiàn)感覺和為什么會出現(xiàn)感覺和x x2 2檢驗不符的情況呢?主要檢驗不符的情況呢?主要因為在因為在7 7個格值中就有個格值中就有3 3個期望值小于個期望值小于5 5,占總數(shù)的,占總數(shù)的43%43%。因此因此 2 2計算值偏大當出現(xiàn)上述情況時,可將期望值偏計算值偏大當出現(xiàn)上述情況時,可將期望值偏小的格值合并。小的格值合并。eij 32 113 8724 7 nij 30 110 86 23 14 2 = 87)8786

23、(113)113110(32)3230(22226. 77)714(24)2423(22臨界值:臨界值:49.9)15(05.02x49. 9) 15(26. 705. 022xx 接受接受h h0 0,作出直觀感覺和,作出直觀感覺和 2 2檢驗相符的結(jié)論。檢驗相符的結(jié)論。 例:例:某鎮(zhèn)研究職業(yè)代際流動,調(diào)查了某鎮(zhèn)研究職業(yè)代際流動,調(diào)查了共共140人,其結(jié)果如下:人,其結(jié)果如下: 解:解:h h0 0:子輩職業(yè)與父輩職業(yè)無關(guān):子輩職業(yè)與父輩職業(yè)無關(guān) h h1 1:子輩職業(yè)與父輩職業(yè)有關(guān):子輩職業(yè)與父輩職業(yè)有關(guān) 得期望頻次表得期望頻次表4.4. 2 2檢驗就其檢驗的內(nèi)容來看是雙邊檢驗,檢驗就其檢

24、驗的內(nèi)容來看是雙邊檢驗,就檢驗的形式來看,又象右邊檢驗。就檢驗的形式來看,又象右邊檢驗。n 從上面所舉例中的從上面所舉例中的h h0 0和和h h1 1就可以看出,它所判斷的內(nèi)容僅就可以看出,它所判斷的內(nèi)容僅是變量間是否存在關(guān)系。至于關(guān)系的方向,由于列聯(lián)表屬定是變量間是否存在關(guān)系。至于關(guān)系的方向,由于列聯(lián)表屬定類變量,因此是不存在的。但從列聯(lián)表類變量,因此是不存在的。但從列聯(lián)表 2 2的統(tǒng)計量的公式來看,的統(tǒng)計量的公式來看,只有期望頻次和實測頻次的絕對值愈大,才能否定變量間關(guān)只有期望頻次和實測頻次的絕對值愈大,才能否定變量間關(guān)系的原假設(shè)即:系的原假設(shè)即: 2 2 2 2。n 因此,列聯(lián)表檢驗從

25、形式來看,卻又很像右側(cè)單邊檢驗:因此,列聯(lián)表檢驗從形式來看,卻又很像右側(cè)單邊檢驗:x2(r-l)(c-1) 5. 交互分類的檢驗是通過頻次而不是通過相交互分類的檢驗是通過頻次而不是通過相對頻次的比較進行的。對頻次的比較進行的。表表1 1的的 2 2值:值:表表2 2的的 2 2值值表表3 3的的 2 2值值252525)25252510(502525)50252515(222x2252525)25252515(502525)25252510(22505050)100505020(1005050)50505030(222x41005050)100505030(1005050)100505020(

26、22200100100)20010010040(200100100)20010010060(222x8200100100)20010010060(200100100)20010010040(22n如果選擇如果選擇a=0.05a=0.05,查表得:,查表得: n x x2 20.050.05(1)=3.841=3.84(1)=3.841=3.84n 則表則表1 1判斷為無顯著性差異,表判斷為無顯著性差異,表2 2和表和表3 3則判斷為有顯著性差異,可見,相對頻次則判斷為有顯著性差異,可見,相對頻次相同的交互分類表,在統(tǒng)計檢驗中,其顯相同的交互分類表,在統(tǒng)計檢驗中,其顯著性并不相同,特別是當總體中

27、兩變量相著性并不相同,特別是當總體中兩變量相關(guān)并不很大時,如果樣本容量較小,很可關(guān)并不很大時,如果樣本容量較小,很可能呈現(xiàn)無顯著性差異,但當樣本容量增大能呈現(xiàn)無顯著性差異,但當樣本容量增大時,時, 2 2將增大,這時雖然列聯(lián)表的相對頻將增大,這時雖然列聯(lián)表的相對頻次沒有改變,但很可能呈現(xiàn)有顯著性差異,次沒有改變,但很可能呈現(xiàn)有顯著性差異,這時因為這時因為 2 2的臨界值并不變化。的臨界值并不變化。 通過上面的例子,可以看出,當樣通過上面的例子,可以看出,當樣本容量增加本容量增加k k倍時,倍時,由此可見如果相對由此可見如果相對頻次不變,當樣本容量增加頻次不變,當樣本容量增加k k倍時,倍時,

28、2 2值將增加值將增加k k倍。倍。2222)()(kxeenkkekeknxijijijijijij 實際上,這也是容易理解的,因為當樣本容量增加之后,實際上,這也是容易理解的,因為當樣本容量增加之后,如果仍然保持原有的比例的關(guān)系,則說明它出于隨機誤差的可如果仍然保持原有的比例的關(guān)系,則說明它出于隨機誤差的可能性減少,也就是確認其比例關(guān)系的把握增大。這也是為什么能性減少,也就是確認其比例關(guān)系的把握增大。這也是為什么相對頻次的統(tǒng)計表必須注明調(diào)查總數(shù)的緣故。相對頻次的統(tǒng)計表必須注明調(diào)查總數(shù)的緣故。 例:例:某工廠為了解職工對廠內(nèi)福某工廠為了解職工對廠內(nèi)福利是否滿意,作如下抽樣調(diào)查:利是否滿意,作

29、如下抽樣調(diào)查:依依h h0 0及樣本邊緣次數(shù)分布,計算期望頻數(shù)及樣本邊緣次數(shù)分布,計算期望頻數(shù)臨界值:由于臨界值:由于a=0.05 ,k=(2-1)(2-1)=1a=0.05 ,k=(2-1)(2-1)=1nx x2 20.050.05(1)=3.84(1)=3.84n x x2 2=9.27x=9.27x2 20.050.05(1)=3.84(1)=3.84n 拒絕拒絕h h0 0,接受,接受h h1 1,即男女職工,即男女職工對廠內(nèi)福利的滿意與否是有顯著差對廠內(nèi)福利的滿意與否是有顯著差異的,顯著性水平達到異的,顯著性水平達到0.050.05。作業(yè):1 1根據(jù)某攤販的上報,每天平均營業(yè)額為根

30、據(jù)某攤販的上報,每天平均營業(yè)額為5555元。經(jīng)過元。經(jīng)過6 6天的抽查,其營業(yè)額為(設(shè)天的抽查,其營業(yè)額為(設(shè)營業(yè)額滿足正態(tài)分布):營業(yè)額滿足正態(tài)分布): 59.259.2,68.368.3,57.857.8,36.536.5,63.763.7,57.3 57.3 單位為元單位為元 問:原攤販上報的數(shù)字是否可信問:原攤販上報的數(shù)字是否可信 顯著顯著性水平為性水平為0.050.05?作業(yè) 2 2某學校對新生數(shù)學成績進行摸底檢查,某學校對新生數(shù)學成績進行摸底檢查,自自100100名經(jīng)濟專業(yè)的學生中抽出名經(jīng)濟專業(yè)的學生中抽出1212份考卷,份考卷,得平均分數(shù)為得平均分數(shù)為7070分,標準差分,標準差

31、3 3分;自分;自5050名管名管理專業(yè)的學生中抽取理專業(yè)的學生中抽取1010份考卷,得平均分份考卷,得平均分數(shù)為數(shù)為6060分,標準差分,標準差4 4分,若已知總體服從正分,若已知總體服從正態(tài)分布且方差相等,問兩專業(yè)學生之數(shù)學態(tài)分布且方差相等,問兩專業(yè)學生之數(shù)學成績是否有顯著差別成績是否有顯著差別 顯著性水平為顯著性水平為0.010.01。3 3、為研究兩種教學方法的效果,選擇了、為研究兩種教學方法的效果,選擇了6 6對智商、對智商、年齡、閱讀能力、家庭條件都相同的兒童進行了實年齡、閱讀能力、家庭條件都相同的兒童進行了實驗,結(jié)果如下表。問:能否認為新教學法優(yōu)于原教驗,結(jié)果如下表。問:能否認為

32、新教學法優(yōu)于原教學法(顯著度水平學法(顯著度水平=0.05=0.05)配對號配對號新教學法新教學法原教學法原教學法1 1838378 78 2 2696965653 3878788 88 4 4939391915 5787872 72 6 6595959 59 作業(yè)4 4、為了研究飲食習慣與地區(qū)之關(guān)系。作了共為了研究飲食習慣與地區(qū)之關(guān)系。作了共100人的隨機抽樣調(diào)查人的隨機抽樣調(diào)查資料如下表資料如下表,問飲食習慣是,問飲食習慣是否與地區(qū)有關(guān)否與地區(qū)有關(guān)(=0.05)?關(guān)系程度如何?關(guān)系程度如何? 地區(qū)飲食習慣 南方 北方 邊緣和 面食 米食10 3040 20 40 60邊緣和 50 50 1

33、00第二節(jié)第二節(jié)等級相關(guān)等級相關(guān)兩個定序變量兩個定序變量一、一、r rs s的統(tǒng)計檢驗的統(tǒng)計檢驗n斯皮爾曼等級相關(guān)系數(shù)斯皮爾曼等級相關(guān)系數(shù): :n 其中,其中,ddi i2 2=(x=(xi i-y-yi i) )2 2 n n 當當r rs s是根據(jù)抽樣數(shù)據(jù)計算得來時,必須是根據(jù)抽樣數(shù)據(jù)計算得來時,必須進行假設(shè)檢驗,以確定總體中也存在等級進行假設(shè)檢驗,以確定總體中也存在等級相關(guān)。相關(guān)。) 1(6122nndrisr rs s的統(tǒng)計檢驗步驟的統(tǒng)計檢驗步驟n hoho:總體中變量:總體中變量x x與變量與變量y y等級無關(guān),等級無關(guān),p ps s=0=0n h1 h1:總體中變量:總體中變量x

34、x與變量與變量y y相關(guān),相關(guān),p ps s00n 根據(jù)根據(jù)hoho變量的條件下,不妨設(shè)想從總體中抽取無數(shù)個樣變量的條件下,不妨設(shè)想從總體中抽取無數(shù)個樣本容量為本容量為n n的樣本。根據(jù)每一個樣本,都可以計算出一個樣本的樣本。根據(jù)每一個樣本,都可以計算出一個樣本的等級相關(guān)系數(shù)的等級相關(guān)系數(shù)r rs s。由于抽樣誤差的存在,各次樣本的。由于抽樣誤差的存在,各次樣本的r rs s是是不等的,不等的,r rs s是隨機變量??梢宰C明:當是隨機變量??梢宰C明:當n n 1010時,統(tǒng)計量:時,統(tǒng)計量: n 自由度自由度k kf f=n-2=n-2)2(122ntrnrtssn 正如一般正如一般t t分

35、布所具有的性質(zhì),分布所具有的性質(zhì),n n 3030,r rs s也可使用統(tǒng)計量也可使用統(tǒng)計量z z進行檢驗,在要求不十進行檢驗,在要求不十分嚴格的情況下,分嚴格的情況下,n n 1010亦可使用亦可使用z z值。值。110nrzs說明:說明:n 等級相關(guān)適用于等級相關(guān)適用于定序變量定序變量,研究的是變量間,研究的是變量間的等級是否存在相互關(guān)系。但對于的等級是否存在相互關(guān)系。但對于定距變量定距變量,在,在計算相關(guān)系數(shù)時,如果某些計算相關(guān)系數(shù)時,如果某些基本條件基本條件不能滿足不能滿足(如要求變量分布滿足正態(tài)分布),這時可以降(如要求變量分布滿足正態(tài)分布),這時可以降低變量層次,作為定序變量處理,

36、因為低變量層次,作為定序變量處理,因為等級相關(guān)等級相關(guān)系數(shù)對總體變量分布不作要求的系數(shù)對總體變量分布不作要求的。n 斯皮爾曼等級相關(guān)是斯皮爾曼等級相關(guān)是以變量沒有相同等級為以變量沒有相同等級為前提前提的,但如果相同等級不太多,可采用的,但如果相同等級不太多,可采用平均等平均等級的方法級的方法計算斯皮爾曼等級相關(guān)。計算斯皮爾曼等級相關(guān)。 例:例:為了研究生育率與平均受教育程度之間的關(guān)系,為了研究生育率與平均受教育程度之間的關(guān)系,設(shè)隨機抽查了設(shè)隨機抽查了1010個縣,以下是按等級設(shè)計的結(jié)果,問生個縣,以下是按等級設(shè)計的結(jié)果,問生育率與受教育程度之間是否相關(guān)?(育率與受教育程度之間是否相關(guān)?( =0

37、.05=0.05)縣號縣號生育率等級生育率等級受教育等級受教育等級等級差等級差didi didi2 21 16 63 33 39 92 24 41 13 39 93 39 97.57.51.51.52.252.254 48 87.57.50.50.50.250.255 51 15 5-4-416166 62.52.52 20.50.50.250.257 72.52.56 6-3.5-3.512.2512.258 87 71010-3-39 99 910109 91 11 1解:解:d di i2 2=60=60。r rs s不具有不具有prepre性質(zhì),屬對稱測量。性質(zhì),屬對稱測量。 636.

38、 09903601) 110(106061) 1(61222nndris334. 2636. 01210636. 01222ssrnrt統(tǒng)計量: h h0 0:ps=0 (ps=0 (總體中生育率與平均受教育無關(guān)總體中生育率與平均受教育無關(guān)) ) h h1 1:ps0ps0 臨界值臨界值t t0.05/20.05/2(10-2)(10-2)=2.306=2.306 因為因為 t=2.334tt=2.334t0.05/20.05/2=2.306=2.306 因此,拒絕因此,拒絕h h0 0,接受,接受h h1 1,即可認為生育率,即可認為生育率與平均受教育是有關(guān)的,相關(guān)系數(shù)為與平均受教育是有關(guān)的

39、,相關(guān)系數(shù)為0.6360.636。二、二、gammagamma系數(shù)的檢驗系數(shù)的檢驗 n h h0 0:總體中:總體中g(shù)=0g=0n h h1 1:總體中:總體中g(shù)0g0(或(或g0g0或或g0g0g0或或g0gzz=14.05z0.05/20.05/2=1.96=1.96。 所以拒絕所以拒絕h h0 0,接受,接受h h1 1,即文化程度與代際流,即文化程度與代際流動相關(guān),用文化程度解釋代際流動可消減動相關(guān),用文化程度解釋代際流動可消減78%78%的的誤差,誤差,a=0.05a=0.05。注意:注意: n g g的的z z檢定公式檢定公式較為保守較為保守,通常略為低估了,通常略為低估了檢定值檢

40、定值(z)(z)。當所算得的檢定值非常接近所要。當所算得的檢定值非常接近所要求的否定域數(shù)值,就要用較為精確的求的否定域數(shù)值,就要用較為精確的s s因子檢因子檢驗公式驗公式。n 較為精確的做法是不用理會較為精確的做法是不用理會g g值,而直接值,而直接檢定(檢定(ns-ndns-nd)這個稱為)這個稱為s s因子的數(shù)值。因為因子的數(shù)值。因為g g分數(shù)的公式是以分數(shù)的公式是以s=ns-nds=ns-nd作為分子,因此作為分子,因此s=0s=0,即即g=0g=0。n 研究假設(shè)研究假設(shè)h h1 1為為s0(s0(或或s0s0或或s0),s0s0 由于由于n=44n=44,r=2r=2,c=4c=4,則

41、,則67.352)14)(12(244|360|s z z0.001/20.001/2=3.09=3.09,z=4.31zz=4.31z0.001/20.001/2=3.09=3.09所以拒絕所以拒絕h h0 0,接受,接受h h1 1。84.81)244)(144(4405104) 144(4451044800716144480716)2)(1() 1(133233222sennnbannbabanbase31. 484.8167.352sesz又因為:又因為: a a2 2=8=8 14+814+8 12+812+8 10+1410+14 12+1412+14 10+1210+12 10=

42、71610=716 b b2 2=20=20 24=48024=480 a a3 3=8=8 1414 12+812+8 1414 10+810+8 1212 10+1410+14 1212 10=510410=5104 b b3 3=0=0 ?因這只有兩個邊緣次數(shù)。因這只有兩個邊緣次數(shù)。5)85. 01 (443239285. 0)1 (22zgnndnsgz計算如果用同上題,如果用同上題,如果用z z檢驗:檢驗:注意注意n 許多定序相關(guān)測量法如許多定序相關(guān)測量法如dydy系數(shù)和肯德系數(shù)和肯德爾的爾的tautau系數(shù),其公式都是以系數(shù),其公式都是以“s=ns-nd”s=ns-nd”作為分子的

43、,因此它們都可以通過作為分子的,因此它們都可以通過s s的檢定的檢定來推論總體的情況。來推論總體的情況。n 由于都是以由于都是以s s作分子,故此在總體中如作分子,故此在總體中如果果s=0s=0,則,則g=dy=tau=0g=dy=tau=0,可見這三種相關(guān)系,可見這三種相關(guān)系數(shù)的檢定是有共同性的。數(shù)的檢定是有共同性的。 第三節(jié)第三節(jié)兩個定距變量的檢驗兩個定距變量的檢驗不考一、回歸方程的檢驗一、回歸方程的檢驗n 用用最小二乘法最小二乘法求直線回歸的方法,求直線回歸的方法,是基于是基于線性回歸模型的基本假定線性回歸模型的基本假定進行的。進行的。因此在配置回歸直線之前,必須對總體因此在配置回歸直線

44、之前,必須對總體變量間是否存在線性相關(guān)關(guān)系進行檢驗。變量間是否存在線性相關(guān)關(guān)系進行檢驗。對于不存在線性關(guān)系的總體,配置回歸對于不存在線性關(guān)系的總體,配置回歸直線是毫無意義的。直線是毫無意義的。 1 1、檢驗的原假設(shè)、檢驗的原假設(shè)n 總體變量總體變量x x和總體變量和總體變量y y存在線性關(guān)系,即存在線性關(guān)系,即存在關(guān)系式:存在關(guān)系式:e(ye(yi i)=)= + + x xi in 因此,總體的線性回歸指的是當因此,總體的線性回歸指的是當x=xx=xi i時,時,y y的均值的均值e(ye(yi i) )是線性函數(shù):是線性函數(shù):e(ye(yi i)= )= + + x xi i關(guān)于關(guān)于 x

45、x與與y y關(guān)系式的基本假定關(guān)系式的基本假定:n 自變量自變量x x可以是隨機變量,也可是非隨機變量??梢允请S機變量,也可是非隨機變量。x x值的測量值的測量可以認為是沒有誤差的,或者說誤差是可以忽略不計的。可以認為是沒有誤差的,或者說誤差是可以忽略不計的。n 由于由于x x和和y y之間存在的是非確定性的相關(guān)關(guān)系。因此,對于之間存在的是非確定性的相關(guān)關(guān)系。因此,對于x x的每一個值的每一個值x xi i,y yi i是隨機變量,或稱作是是隨機變量,或稱作是y y的子總體。要求的子總體。要求y y的所有的所有子總體子總體y y1 1、y y2 2y yi iy yn n,其方差都相等。,其方差

46、都相等。 d(yd(y1 1)=d(y)=d(y2 2)=)=d(yd(yn n) )n 如果如果y y的所有子總體,其均值的所有子總體,其均值e(ye(y1 1) );e(ye(y2 2) )e(ye(yn n) )都在一條直線上,則稱作線性假定,其數(shù)學表達式為:都在一條直線上,則稱作線性假定,其數(shù)學表達式為:e(ye(yi i)=)= + + x xi i。由于。由于 、 對所有總體都一樣,所以對所有總體都一樣,所以 和和 是總是總體參數(shù)。體參數(shù)。n 要求隨機變量要求隨機變量 y yi i是統(tǒng)計獨立的,即是統(tǒng)計獨立的,即y y1 1的數(shù)值不影響的數(shù)值不影響y y2 2的數(shù)值,各的數(shù)值,各y

47、 y值之間都沒有關(guān)系。值之間都沒有關(guān)系。n 出于檢驗的需要,除了上述假定或要求外,還要求出于檢驗的需要,除了上述假定或要求外,還要求y y值的每一個子總體都滿足正態(tài)分布。值的每一個子總體都滿足正態(tài)分布。上述總體假定的數(shù)據(jù)結(jié)構(gòu)為上述總體假定的數(shù)據(jù)結(jié)構(gòu)為n (1 1)隨機變量隨機變量y yi i是統(tǒng)計獨立的,具有:均值是統(tǒng)計獨立的,具有:均值e(ye(yi i)=)= + + x xi i;方;方差差d(yd(yi i)=)= 2 2 ;(2 2)y yi i與與x xi i有如下關(guān)系式:有如下關(guān)系式:y y1 1= = + + x x1 1+e+e1 1 ;y y2 2= = + + x x2

48、2+e+e2 2;.y yn n= = + + x xn n+e+en n。其中其中e e1 1、e e2 2e en n是隨機變量,它們是隨機變量,它們相互獨立,具有:相互獨立,具有:e(ee(ei i)=0)=0,d(ed(ei i)=)= 2 2。 根據(jù)前面的基本假設(shè),對于總體線性檢根據(jù)前面的基本假設(shè),對于總體線性檢驗的假設(shè)可寫成如下形式驗的假設(shè)可寫成如下形式 : 當總體具有上述假定時,即根據(jù)樣本運用最小二乘法所求解的方程:當總體具有上述假定時,即根據(jù)樣本運用最小二乘法所求解的方程:g=a+bxg=a+bx將是總體線性回歸方程:將是總體線性回歸方程:e(y)= e(y)= + + x x

49、的最佳線性無偏估計方程,的最佳線性無偏估計方程,a a和和b b是是 和和 的最佳無偏估計量。的最佳無偏估計量。 另外,另外,e1e1、e2e2enen是隨機變量,它們相互獨立,具都服從相同的正是隨機變量,它們相互獨立,具都服從相同的正態(tài)分布態(tài)分布n(0n(0, 2 2) ) 2 2未知。未知。nh h0 0: : =0=0nh h1 1: 00n依據(jù)假設(shè),可以根據(jù)平方和分解求出檢驗的統(tǒng)計量。依據(jù)假設(shè),可以根據(jù)平方和分解求出檢驗的統(tǒng)計量。 2 2、線性回歸的平方和分解、線性回歸的平方和分解 n 總偏差平方和總偏差平方和tsstssn tsstss反映了觀測值反映了觀測值y yi i圍繞均值圍繞

50、均值 n tsstss同時還是同時還是prepre中的中的e e1 1,當不知,當不知y y和和x x及及關(guān)系時,對關(guān)系時,對y y的的最佳估計只能是最佳估計只能是y y,而每一個真實的,而每一個真實的y yi i值和估計值值和估計值y y之差,就之差,就構(gòu)成首次估計的誤差。構(gòu)成首次估計的誤差。niyyitss12)(niyiny11總的分散程度 剩余平方和剩余平方和rssrssn 其中其中i i由回歸直線,由回歸直線,=a+bx=a+bx所確定所確定n rssrss反映了反映了y yi i偏離回歸直線偏離回歸直線i i的程度的程度, ,也就是也就是prepre定義中的定義中的e e2 2。r

51、ssrss反映了知道反映了知道y y與與x x有關(guān)系后,估有關(guān)系后,估計計y y值時所產(chǎn)生的總誤差,即通過回歸直線進行估值時所產(chǎn)生的總誤差,即通過回歸直線進行估計之后,仍然未能消除或未被解釋的誤差,又稱殘計之后,仍然未能消除或未被解釋的誤差,又稱殘差平方和。它的存在,說明了除差平方和。它的存在,說明了除x x對對y y的線性影響外,的線性影響外,還有其它未被考慮的因素,這些因素往往是十分復還有其它未被考慮的因素,這些因素往往是十分復雜的。雜的。 21)(niiiyyrss 回歸平方和回歸平方和rssrrssr n rssr=tss-rss n tss=rss+rssr 3 3、統(tǒng)計量、統(tǒng)計量n

52、 設(shè)總體滿足原假設(shè):設(shè)總體滿足原假設(shè):h h0 0 : =0=0,即分,即分別從別從 =0=0的總體中,如果無數(shù)次進行樣本容的總體中,如果無數(shù)次進行樣本容量為量為n n的抽樣,可以證明:的抽樣,可以證明:n統(tǒng)計量統(tǒng)計量:n統(tǒng)計量:統(tǒng)計量:n統(tǒng)計量統(tǒng)計量:) 1(22nxtss分布的滿足自由度為2221) 1 (xxrssr) 2(22nxrss)2, 1 (22/1/22nfnrssrssrnrssrssr對統(tǒng)計量對統(tǒng)計量 n 當樣本幾個觀察點當樣本幾個觀察點(x(xi i、y yi i) )確定后,確定后,tsstss則為定值。因此若剩余平方和則為定值。因此若剩余平方和rssrss大,則回歸

53、平方和大,則回歸平方和rssrrssr必小。反之,必小。反之,若剩余平方和若剩余平方和rssrss小,則回歸平方和小,則回歸平方和rssrrssr必大。而必大。而rssrrssr大,則說明引入回大,則說明引入回歸直線后,所能解釋掉的誤差大。歸直線后,所能解釋掉的誤差大。 作定性的解釋2nrssrssrf 例:例:為了研究受教育年限和職業(yè)聲望為了研究受教育年限和職業(yè)聲望之間的關(guān)系,設(shè)以下是之間的關(guān)系,設(shè)以下是8 8名抽樣的名抽樣的 結(jié)果,進結(jié)果,進行回歸直線的檢驗行回歸直線的檢驗( ( =0.05) =0.05) :調(diào)查對象調(diào)查對象x(年年)y(聲望聲望)11270216803950419865219061065754481275708560133104yx99.5)28 , 1(8.5722.176)28(28.170

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論