




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
相關(guān)與回歸的分析全第一頁,共六十七頁,2022年,8月28日一、變量間的相互關(guān)系(一)相關(guān)關(guān)系與因果關(guān)系1、相關(guān)關(guān)系(1)相關(guān)關(guān)系的含義:現(xiàn)象之間的數(shù)量關(guān)系存在著兩種不同的類型:一種是函數(shù)關(guān)系,另一種是相關(guān)關(guān)系。函數(shù)關(guān)系指的是變量之間存在著的嚴(yán)格的依存關(guān)系,它們之間的關(guān)系值是固定的,對(duì)于某一變量的每一個(gè)值,都有另一個(gè)變量的完全確定的值與之相對(duì)應(yīng)。例如,圓的面積等于圓周率乘以半徑的平方。第二頁,共六十七頁,2022年,8月28日相關(guān)關(guān)系是指變量之間確實(shí)存在的但關(guān)系值不固定的相互依存關(guān)系。在這種關(guān)系中,當(dāng)一個(gè)(或幾個(gè))變量的值確定以后,另一個(gè)變量的值雖與它(或它們)有關(guān),但卻不能完全確定。這是一種非確定性的關(guān)系。例如,電視機(jī)的擁有率與人均收入水平有關(guān),但對(duì)于人均收入水平相同的地區(qū),其電視機(jī)的擁有率可能不盡相同。在客觀事物中,尤其是在社會(huì)現(xiàn)象中,相關(guān)關(guān)系普遍存在。統(tǒng)計(jì)分析很有必要對(duì)這種關(guān)系進(jìn)行研究。第三頁,共六十七頁,2022年,8月28日(2)相關(guān)關(guān)系的特性對(duì)相關(guān)關(guān)系的分析,主要是把握相關(guān)關(guān)系三個(gè)方面的特性:其一,相關(guān)的強(qiáng)度。即兩個(gè)變量相關(guān)關(guān)系的確定程度。其二,相關(guān)的方向。其三,線性相關(guān)與非線性相關(guān)。(3)相關(guān)關(guān)系的種類A、正相關(guān)與負(fù)相關(guān)從相關(guān)的方向看,相關(guān)關(guān)系可以分為正相關(guān)和負(fù)相關(guān)。第四頁,共六十七頁,2022年,8月28日正相關(guān)是指相關(guān)變量之間的變化趨勢(shì)相同,即當(dāng)自變量的值增加,因變量的值也隨之增加;當(dāng)自變量的值減少,因變量的值也隨之減少。例如,汽車的使用年限與汽車的修理費(fèi)用之間的關(guān)系。負(fù)相關(guān)是指相關(guān)變量之間的變化趨勢(shì)相反,即當(dāng)自變量的值增加,因變量的值隨之減少;當(dāng)自變量的值減少,因變量的值隨之增加。例如,產(chǎn)品產(chǎn)量與單位產(chǎn)品成本之間的關(guān)系。第五頁,共六十七頁,2022年,8月28日B、線性相關(guān)與非線性相關(guān)從相關(guān)的形式上來看,相關(guān)關(guān)系可分為線性相關(guān)和非線性相關(guān)。線性相關(guān)也稱直線相關(guān),是指相關(guān)的兩個(gè)變量之間變化的趨勢(shì)呈線性或近似于線性。即自變量發(fā)生變動(dòng),因變量隨之發(fā)生變動(dòng),其增加或減少量是大致均等的,從圖形上看,其觀察點(diǎn)的分布近似表現(xiàn)為直線形式。非線性相關(guān)也稱曲線相關(guān),是指相關(guān)的兩個(gè)變量之間變化的趨勢(shì)呈非線性。即自變量發(fā)生變動(dòng),因變量隨之發(fā)生變動(dòng),但其增加或減少量不是均等的,從圖形上看,其觀察點(diǎn)的分布表現(xiàn)為各種曲線形式。第六頁,共六十七頁,2022年,8月28日C、單相關(guān)和復(fù)相關(guān)從相關(guān)變量的個(gè)數(shù)來看,相關(guān)關(guān)系可分為單相關(guān)和復(fù)相關(guān)。單相關(guān)是指兩個(gè)變量之間的相關(guān)關(guān)系。復(fù)相關(guān)是三個(gè)或三個(gè)以上變量之間的相關(guān)關(guān)系。例如,僅僅考慮施肥量對(duì)產(chǎn)量的影響,這就是一種單相關(guān);如果除了施肥量之外,再考慮降雨量及深耕程度對(duì)產(chǎn)量的影響,則這種相關(guān)關(guān)系就是一種復(fù)相關(guān)。第七頁,共六十七頁,2022年,8月28日2、因果關(guān)系:是指某一變量的變化可以確定為另一變量變化原因的關(guān)系。在相關(guān)關(guān)系中,通常,在相互聯(lián)系的現(xiàn)象之間存在著一定的因果關(guān)系,這時(shí)就把其中的起著影響作用的現(xiàn)象具體化,通過一定的變量反映出來,這樣的變量稱為自變量。由于受到自變量變動(dòng)的影響而發(fā)生變動(dòng)的變量稱為因變量。相關(guān)關(guān)系確定為因果關(guān)系必須滿足三個(gè)條件:其一,兩變量之間必須存在相關(guān)關(guān)系;其二,必須確定自變量變化在前,因變量變化在后;其三,必須確定變量X與變量Y之間的關(guān)系,不是由于第三個(gè)變量的存在而呈現(xiàn)出來的一種虛假關(guān)系。第八頁,共六十七頁,2022年,8月28日例如,在糧食畝產(chǎn)量與施肥量之間,施肥量這一變量是自變量,畝產(chǎn)量這一變量是因變量。當(dāng)研究的是兩個(gè)變量之間的關(guān)系時(shí),通常以符號(hào)X表示自變量,以符號(hào)Y表示因變量。在相關(guān)關(guān)系中,有時(shí)兩個(gè)變量之間只存在相互聯(lián)系而并不存在明顯的因果關(guān)系。確定哪一個(gè)是自變量,哪一個(gè)是因變量,主要決定于研究的目的。對(duì)不同層次的統(tǒng)計(jì)變量進(jìn)行相關(guān)關(guān)系分析的方法是不同的,下面我們分不同的變量類型來講。第九頁,共六十七頁,2022年,8月28日二、定距或定比變量的回歸與相關(guān)分析(一)回歸分析與相關(guān)分析的含義及聯(lián)系在對(duì)定距或定比變量之間存在的相關(guān)關(guān)系進(jìn)行分析研究時(shí),最常用的方法就是回歸分析和相關(guān)分析?;貧w分析和相關(guān)分析是相互聯(lián)系的,它們從不同方面研究變量之間相關(guān)關(guān)系的本質(zhì)?;貧w分析是用來研究變量之間關(guān)系的可能形式的統(tǒng)計(jì)方法。它把兩個(gè)或兩個(gè)以上變量之間的變動(dòng)關(guān)系加以模型化,用數(shù)學(xué)函數(shù)表達(dá)變量之間的關(guān)系。運(yùn)用這種方法時(shí),最終的目的通常在于預(yù)測(cè)或估計(jì)與某一個(gè)或某幾個(gè)變量的給定值相對(duì)應(yīng)的另一變量的數(shù)值。第十頁,共六十七頁,2022年,8月28日相關(guān)分析是研究如何計(jì)量變量之間關(guān)系方向和強(qiáng)度的統(tǒng)計(jì)方法。它能確定變量之間相關(guān)的方向及程度,即變量之間某種關(guān)系的確切程度有多大?;貧w分析和相關(guān)分析既有聯(lián)系,又有區(qū)別。就其研究對(duì)象來說,兩者都是研究變量之間的相關(guān)關(guān)系。但就彼此研究變量之間關(guān)系的性質(zhì)來看,兩者存在明顯的區(qū)別。回歸分析中,必須將相關(guān)變量區(qū)分為自變量和因變量,以確定其關(guān)系的可能形式,所研究變量屬于非對(duì)等關(guān)系。相關(guān)分析中,計(jì)量變量之間關(guān)系的強(qiáng)度,不必區(qū)分自變量與因變量,所研究變量屬于對(duì)等的關(guān)系。第十一頁,共六十七頁,2022年,8月28日(二)相關(guān)圖表對(duì)現(xiàn)象變量之間是否存在相關(guān)關(guān)系以及存在怎樣的相關(guān)關(guān)系進(jìn)行分析、作出判斷,這是進(jìn)行回歸和相關(guān)分析的前提。對(duì)于定距或定比變量通過編制相關(guān)表和相關(guān)圖,可以直觀地、大致地判斷現(xiàn)象變量之間是否存在相關(guān)關(guān)系以及關(guān)系的類型。第十二頁,共六十七頁,2022年,8月28日(1)相關(guān)表相關(guān)表是表現(xiàn)現(xiàn)象變量之間相關(guān)關(guān)系的表格。例如,為研究商店人均月銷售額和利潤(rùn)率的關(guān)系,調(diào)查10家商店取得10對(duì)數(shù)據(jù),以人均銷售額為自變量,利潤(rùn)率為因變量,編制簡(jiǎn)單相關(guān)表如下表。第十三頁,共六十七頁,2022年,8月28日人均銷售額與和利潤(rùn)率相關(guān)表編號(hào)人均月銷售額(千元)利潤(rùn)率(%)1234567891013345667783.06.26.68.110.412.612.316.316.818.5第十四頁,共六十七頁,2022年,8月28日(2)相關(guān)圖所謂相關(guān)圖,是把相關(guān)的兩個(gè)變量之間的關(guān)系在平面直角坐標(biāo)中反映出來。通常將自變量(x)置于橫軸上,因變量(y)置于縱軸上,而將兩個(gè)變量相對(duì)應(yīng)的變量值用坐標(biāo)點(diǎn)形式描繪出來。相關(guān)圖就是用相關(guān)點(diǎn)的分布狀況來描述相關(guān)關(guān)系的,所以又稱為散點(diǎn)圖。根據(jù)相關(guān)圖,可以直觀地看出變量之間相關(guān)關(guān)系的模式。第十五頁,共六十七頁,2022年,8月28日例如,前述人均月銷售額與利潤(rùn)率的關(guān)系,可用相關(guān)圖表示如下:利潤(rùn)率(%)人均銷售額(千元)1
20人均銷售額與利潤(rùn)率相關(guān)圖51015
2
3
84
567第十六頁,共六十七頁,2022年,8月28日從圖中,我們可以清楚地看出,這兩個(gè)變量之間相關(guān)的方向(即正相關(guān)或負(fù)相關(guān))以及相關(guān)的具體形式(線性相關(guān)或非線性相關(guān))(a)正直線關(guān)系(b)反直線關(guān)系(c)正曲線關(guān)系第十七頁,共六十七頁,2022年,8月28日(e)較分散的
反直線關(guān)系(d)反曲線關(guān)系(f)沒有關(guān)系x與y的一些可能關(guān)系的散點(diǎn)圖第十八頁,共六十七頁,2022年,8月28日上圖說明了相關(guān)圖中的一些可能關(guān)系。圖(a)和(b)表示的是正的和反的直線關(guān)系,即正線性相關(guān)和負(fù)線性相關(guān)。圖(c)和(d)分別表示的是正的和反的曲線關(guān)系,即正非線性相關(guān)和負(fù)非線性相關(guān)。圖(e)中是散布域很寬的反直線關(guān)系。散布域越寬,則表明變量之間的聯(lián)系程度越差。圖(f)中的圖象表明兩個(gè)變量之間沒有什么關(guān)系。第十九頁,共六十七頁,2022年,8月28日(三)簡(jiǎn)單線性回歸(1)回歸直線的確定如果變量x和y相關(guān)并可區(qū)分自變量與因變量,如果從相關(guān)圖表中可以看出它們之間大致形成一種直線關(guān)系,我們就可在相關(guān)圖上求出一條與各點(diǎn)最相配合的直線。第二十頁,共六十七頁,2022年,8月28日由于這些點(diǎn)所代表的若干對(duì)數(shù)據(jù)——觀察值,只是相互有一定關(guān)系的變量x、y的總體中的一個(gè)樣本,故這樣求出的直線是總體回歸直線的估計(jì)線。在估計(jì)線上的點(diǎn)的縱坐標(biāo)是相應(yīng)于x的y的估計(jì)值。y=a+bx如果這個(gè)y的估計(jì)值用y表示,則估計(jì)線的方程可寫為第二十一頁,共六十七頁,2022年,8月28日這叫做樣本回歸直線。它是y對(duì)x的回歸線,表明y對(duì)x的平均關(guān)系。式中x為受控制的自變量,通常由研究者事先選定數(shù)值。a為樣本回歸直線y的截距,它是樣本回歸直線通過縱軸的點(diǎn)的y坐標(biāo);b為樣本回歸直線的斜率,它表示當(dāng)x增加一個(gè)單位時(shí)y的平均增加數(shù)量,b又稱回歸系數(shù)。第二十二頁,共六十七頁,2022年,8月28日如何確定回歸直線方程呢?也就是說怎樣確定方程中的參數(shù)a、b呢?若用(xi,yi)(i=1,2,…n)表示n組觀察值,則對(duì)任意給定的xi
,可得y的估計(jì)值為這些數(shù)值同實(shí)際值yi之間存在著誤差;yi=a+bxii=yi
yi=
yi
a
bxi第二十三頁,共六十七頁,2022年,8月28日Q(a,b)=2=(yabx)2為最小。這樣便把尋找適當(dāng)直線問題轉(zhuǎn)化為使Q(a,b)達(dá)到最小條件下求出a、b的問題。在回歸分析中,人們普遍采用的是最小二乘法原則。根據(jù)最小二乘法的原則,欲使所求回歸直線y=a+bx最適合于實(shí)際資料,必須使每個(gè)xi對(duì)應(yīng)的指標(biāo)實(shí)測(cè)值yi與回歸直線確定的估計(jì)值yi的離差平方之和為最小,即必須使第二十四頁,共六十七頁,2022年,8月28日因?yàn)镼(a,b)是a、b的非負(fù)二元函數(shù),所以其最小值無疑是存在的。根據(jù)數(shù)學(xué)中的極值原理,令:滿足上述條件的a、b即為所求的未知參數(shù)。由化簡(jiǎn)得(yabx)=0(yabx)x=0第二十五頁,共六十七頁,2022年,8月28日即:y=na+bxxy=ax+bx2上述方程組稱為標(biāo)準(zhǔn)方程組。解之,得:a=ybx第二十六頁,共六十七頁,2022年,8月28日因此即可確定回歸方程式為:y=a+bx這個(gè)方程稱為在給定樣本條件下的一元線性回歸方程,對(duì)應(yīng)的直線稱為樣本回歸直線。顯然,回歸方程對(duì)于不同的樣本是有差別的,因而,它具有經(jīng)驗(yàn)的特征,所以在實(shí)用上,也將它叫做經(jīng)驗(yàn)公式。為了簡(jiǎn)化上述回歸系數(shù)b的表達(dá)形式,引入如下離差乘積的和式:Lxy=(xx)(yy)第二十七頁,共六十七頁,2022年,8月28日Lxx=(xx)2于是,回歸系數(shù)可簡(jiǎn)化為為了相關(guān)性檢驗(yàn)的需要,順便引入關(guān)于y的離差平方和:Lyy=(yy)2第二十八頁,共六十七頁,2022年,8月28日求回歸方程式的系數(shù)往往是通過列表進(jìn)行的。這里,我們以下表資料為倒,通過求某鋼鐵廠煉鋼精煉時(shí)間對(duì)含碳量的回歸方程,說明回歸方程的確定。10.9100爐次含碳量(%)
(x)精煉時(shí)間(分)
(y)某鋼鐵廠十個(gè)爐次鋼液含碳量和精煉時(shí)間10234567892.01.01.21.41.51.61.71.81.9105235130145170175190190220第二十九頁,共六十七頁,2022年,8月28日可以看出,x與y之間的關(guān)系近似為直線關(guān)系。我們可以對(duì)其配合一條回歸直線。為計(jì)算回歸方程的系數(shù)a、b,我們先對(duì)原始數(shù)據(jù)進(jìn)行加工。第三十頁,共六十七頁,2022年,8月28日yx2y2xy1001051301451701751901902202350.811.001.441.962.252.562.893.243.614.001000011025169002102528900306253610036100484005522590105156203255280323342418470166023.762943002642爐次x123456789100.91.01.21.41.51.61.71.81.92.015.0原始數(shù)據(jù)加工表第三十一頁,共六十七頁,2022年,8月28日于是:第三十二頁,共六十七頁,2022年,8月28日所以:故精煉時(shí)間關(guān)于含碳量的回歸方程為:y=14.9525+120.635x第三十三頁,共六十七頁,2022年,8月28日計(jì)算結(jié)果表明,這個(gè)方程顯示著鋼水溶液的含碳量每增加0.1%,則精煉時(shí)間平均來說大約要延長(zhǎng)12.06分。根據(jù)回歸方程,可以給出自變量的任一數(shù)值估計(jì)或預(yù)測(cè)因變量的平均可能值。y=14.9525+120.6352.2=150.4445(分)例如,求含碳量2.2%所需的精煉時(shí)間:第三十四頁,共六十七頁,2022年,8月28日(四)相關(guān)系數(shù)相關(guān)分析是用以說明變量之間相關(guān)程度的統(tǒng)計(jì)工具。相關(guān)分析常常與回歸分析聯(lián)合使用,以衡量回歸方程所表示的因變量變化的精確度如何。相關(guān)分析也可單獨(dú)用于衡量變量之間的聯(lián)系程度。本節(jié)我們討論兩個(gè)變量之間線性相關(guān)程度問題。兩個(gè)變量之間線性相關(guān)程度的描述通常采用相關(guān)系數(shù)。第三十五頁,共六十七頁,2022年,8月28日(1)相關(guān)系數(shù)的意義我們回過頭來考察一下線性回歸中指標(biāo)y的值yi與回歸估計(jì)值yi的離差平方和。記于是有:Q=Lyy(1r2)r稱為相關(guān)系數(shù)。它是在線性相關(guān)條件下用來說明兩個(gè)變量之間相關(guān)關(guān)系密切程度的指標(biāo)。第三十六頁,共六十七頁,2022年,8月28日因?yàn)镼≥0,Lyy≥0,故相關(guān)系數(shù)有一個(gè)重要性質(zhì):|r|≤1r=1(1)1<r=0(2)r=0(3)r=0(4)0<r<1(5)r=1(6)相關(guān)圖與相關(guān)系數(shù)經(jīng)驗(yàn)關(guān)系第三十七頁,共六十七頁,2022年,8月28日由于Lyy對(duì)于一組實(shí)測(cè)數(shù)據(jù)來講是定值,故由Q=Lyy(1r2)可知,當(dāng)|r|較大接近于1時(shí),離差平方和Q就較小而接近于0,此時(shí),y與x高度相關(guān)。特別當(dāng)|r|=1時(shí),稱它們是完全相關(guān)的,上圖(1)、(6)所示。當(dāng)|r|較小而接近于0時(shí),Q就大,y與x的相關(guān)關(guān)系很弱,特別當(dāng)r=0時(shí),稱它們線性無關(guān)。如上圖(3)、(4)所示第三十八頁,共六十七頁,2022年,8月28日由于Lxy可正可負(fù),所以相關(guān)系數(shù)r也可正可負(fù)。若r>0則稱y與x正相關(guān),如上圖(5)、(6)所示。此時(shí),隨著x的增大(或減小),y將呈現(xiàn)增大(或減小)的趨勢(shì)。特別對(duì)于上圖(6)的情形,由于r=1,故稱完全正相關(guān)。若r<0,則稱y與x負(fù)相關(guān),如上圖(1)、(2)所示。此時(shí),隨著x的增大(或減小),y將呈現(xiàn)減小(或增大)的趨勢(shì)。特別對(duì)于圖(1)的情形。由于r=1,故稱為完全負(fù)相關(guān)。一般認(rèn)為相關(guān)系數(shù)的絕對(duì)值在0.7以上為高度相關(guān),之間為中度相關(guān),0-0.3為低相關(guān)。第三十九頁,共六十七頁,2022年,8月28日應(yīng)當(dāng)注意,相關(guān)系數(shù)r只表明x與y之間的線性關(guān)系的密切程度和方向。當(dāng)r很小甚至為0時(shí),只表明x與y之間的線性關(guān)系不密切,或不存在線性關(guān)系,并不表示x與y之間就沒有關(guān)系,可能二者之間有非線性關(guān)系。如上圖(4)所示,x與y之間就存在著曲線關(guān)系。第四十頁,共六十七頁,2022年,8月28日(2)相關(guān)系數(shù)的計(jì)算我們已經(jīng)知道,相關(guān)系數(shù)的公式為:第二節(jié)中我們介紹了離差乘積的和式:第四十一頁,共六十七頁,2022年,8月28日于是有:第四十二頁,共六十七頁,2022年,8月28日如果將分子分母同乘以n,又可得:根據(jù)前例中煉鋼廠鋼液含碳量與精煉時(shí)間資料,可計(jì)算相關(guān)系數(shù)。那里,我們已經(jīng)求得:第四十三頁,共六十七頁,2022年,8月28日于是其相關(guān)系數(shù)為:計(jì)算得出r=0.9892,表明精煉時(shí)間和含碳量之間為正相關(guān)關(guān)系。而且r值接近于1,表示兩者關(guān)系很密切。第四十四頁,共六十七頁,2022年,8月28日三、定類變量間的相關(guān)關(guān)系判定及檢驗(yàn)在各個(gè)研究領(lǐng)域中,有些研究問題只能劃分為不同性質(zhì)的類別,各類別沒有量的聯(lián)系。例如,性別分男女,職業(yè)分為公務(wù)員、教師、工人、……,教師職稱又分為教授、副教授、……。有時(shí)雖有量的關(guān)系,因研究需要將其按一定的標(biāo)準(zhǔn)分為不同的類別,例如,學(xué)習(xí)成績(jī)、能力水平、態(tài)度等都是連續(xù)數(shù)據(jù),只是研究者依一定標(biāo)準(zhǔn)將其劃分為優(yōu)良中差,喜歡與不喜歡等少數(shù)幾個(gè)等級(jí)。要判別這些分類間是否有相關(guān)關(guān)系就得用到相應(yīng)的方法。第四十五頁,共六十七頁,2022年,8月28日(一)交互分類表交互分類表又叫列聯(lián)表和條件次數(shù)表。它是按兩個(gè)變量的值將所研究的個(gè)案進(jìn)行分類,亦即將兩個(gè)變量的次數(shù)交互分配在一張統(tǒng)計(jì)表中成為一個(gè)矩陣,這種表就叫交互分類表。例如:某單位對(duì)職工的閑暇時(shí)間進(jìn)行了調(diào)查,根據(jù)不同年齡檔和喜愛的電視節(jié)目進(jìn)行了如下的統(tǒng)計(jì)分類:收視傾向年齡層老年中年青年戲曲20102電視劇52035體育比賽21020合計(jì)274057第四十六頁,共六十七頁,2022年,8月28日從交互分類表中可以清楚地看到在各個(gè)年齡層下收視傾向的不同的次數(shù)分布狀況,因此這種表又叫條件次數(shù)表。表的最下端是每個(gè)年齡層的總次數(shù),稱為邊緣次數(shù),它們的分布叫邊緣分布。表中的其他次數(shù)叫條件次數(shù),表示在自變量的每一個(gè)值下因變量各個(gè)值出現(xiàn)的次數(shù),其次數(shù)分布叫條件分布。交互分類表有大小之分,我們一般用橫行數(shù)目(r)乘上縱列數(shù)目(c)即rΧc表示表的大小。交互分類表還可做成相對(duì)頻次分布表,如前表就可轉(zhuǎn)化為下表:(這樣的表更便于比較)通過交互分類表我們可以初步的觀察兩個(gè)變量間是否相關(guān)。當(dāng)然這種觀察是粗略的,如果要較準(zhǔn)確地檢驗(yàn)就需進(jìn)行卡方檢驗(yàn)并計(jì)算相關(guān)系數(shù)。第四十七頁,共六十七頁,2022年,8月28日年齡層與收視傾向(%)收視傾向年齡層老年中年青年戲曲74254電視劇185061體育比賽82535合計(jì)(27)(40)(57)第四十八頁,共六十七頁,2022年,8月28日(二)X2
(卡方)檢驗(yàn)X2是對(duì)樣本的頻數(shù)分布所來自的總體分布是否服從某種理論分布或某種假設(shè)分布所作的假設(shè)檢驗(yàn)。它與前面所講的抽樣數(shù)據(jù)的假設(shè)檢驗(yàn)的不同在于:第一,前者數(shù)據(jù)屬于定距或定比變量(如果是定類變量它也是是非標(biāo)志);第二,測(cè)量數(shù)據(jù)所來自的總體要求呈正態(tài)分布,而X2檢驗(yàn)的數(shù)據(jù)來自的分布是未知的;第三,測(cè)量數(shù)據(jù)的假設(shè)檢驗(yàn)是對(duì)總體參數(shù)的假設(shè)檢驗(yàn),X2檢驗(yàn)是對(duì)總體分布的假設(shè)檢驗(yàn)。因此,它是屬于自由分布的非參數(shù)檢驗(yàn)。X2的基本公式是:
X2=∑(f0-fe)/fe(表示f0實(shí)際頻數(shù),fe表示理論頻數(shù))第四十九頁,共六十七頁,2022年,8月28日對(duì)兩變量進(jìn)行X2檢驗(yàn)的步驟是:第一步:建立兩變量不存在相關(guān)關(guān)系的虛無假設(shè)和與之對(duì)立的備擇假設(shè)。第二步:按照X2公式計(jì)算X2
。第三步:根據(jù)公式df=(r-1)(c-1)計(jì)算出來的自由度和選定的顯著性水平,查出X2的臨界值。第四步:作出統(tǒng)計(jì)決策。第五十頁,共六十七頁,2022年,8月28日卡方檢驗(yàn)是由統(tǒng)計(jì)學(xué)家皮爾遜推導(dǎo)的。理論證明,實(shí)際觀察次數(shù)(fo)與理論次數(shù)(fe)(又稱期望次數(shù))之差的平方再除以理論次數(shù)所得的統(tǒng)計(jì)量,近似服從卡方分布,當(dāng)fe越大(fe≥5),近似得越好。顯然fo與fe相差越大,卡方值就越大;fo與fe相差越小,卡方值就越??;因此它能夠用來表示fo與fe相差的程度。下面舉例說明幾種常用的卡方檢驗(yàn):
第五十一頁,共六十七頁,2022年,8月28日檢驗(yàn)無差假設(shè)所謂無差假設(shè),是指各項(xiàng)分類的實(shí)際數(shù)之間沒有差異,也就是說各項(xiàng)分類之間的概率相等,因此理論次數(shù)完全按概率相等的條件來計(jì)算。即任一項(xiàng)的理論次數(shù)都等于總數(shù)/分類項(xiàng)數(shù)。因此自由度也就等于分類項(xiàng)數(shù)減1。例1隨機(jī)地將麻將色子拋擲300次,檢驗(yàn)該色子的六個(gè)面是否均勻。結(jié)果1-6點(diǎn)向上的次數(shù)依次是,43,49,56,45,66,41。解:每個(gè)類的理論次數(shù)是300/6=50,代入公式:X2=(43-50)2/50+(49-50)2/50+……=8.96在0.05的顯著性水平下自由度為5情況下X2的臨界值是11.1。因此,在0.05的顯著性水平下,可以說這個(gè)色子的六面是均勻的。第五十二頁,共六十七頁,2022年,8月28日檢驗(yàn)假設(shè)分布的概率這里的假設(shè)分布可以是經(jīng)驗(yàn)性的,也可以是某理論分布。公式中所需的理論次數(shù)則按照這里假設(shè)的分布進(jìn)行計(jì)算。例2國(guó)際色覺障礙討論會(huì)宣布,每12個(gè)男子中,有一個(gè)是先天性色盲。從某校抽取的132名男生中有4人是色盲,問該校男子色盲比率與上述比例是否有顯著差異?解:按國(guó)際色覺障礙討論會(huì)的統(tǒng)計(jì)結(jié)果,132人應(yīng)該有132/12=11人是色盲,剩下的121人非色盲,代入公式有:X2=(4-11)2/11+(128-121)2/121=4.86此時(shí)X2的臨界值為3.84。因此,在0.05和顯著性水平下,該校男子色盲比率與國(guó)際色覺障礙討論會(huì)的統(tǒng)計(jì)結(jié)果有顯著差異,顯然根據(jù)比例可知該校的色盲率小于國(guó)際色覺障礙討論會(huì)的統(tǒng)計(jì)結(jié)果。第五十三頁,共六十七頁,2022年,8月28日例3在英語四級(jí)考試中,某學(xué)生做對(duì)了80個(gè)四擇一選擇題中的28題,現(xiàn)在要判斷該生是否是完全憑猜測(cè)做題。解:假如該生完全憑猜測(cè)做題,那么平均而言每道題做對(duì)的可能性是1/4,因此80個(gè)題中平均而能做對(duì)80/4=20題,代入公式有:X2=(28-20)2/20+(52-60)2/60=4.27大于X2臨界值3.84因此,該生可能會(huì)做一些題。第五十四頁,共六十七頁,2022年,8月28日獨(dú)立性檢驗(yàn)卡方獨(dú)立性檢驗(yàn)用于檢驗(yàn)兩個(gè)或兩個(gè)以上因素(各有兩項(xiàng)或以上的分類)之間是否相互影響的問題。所謂獨(dú)立,即無關(guān)聯(lián),互不影響,就意味著一個(gè)因素各個(gè)分類之間的比例關(guān)系,在另一個(gè)因素的各項(xiàng)分類下都是相同的,比如在血型與性格關(guān)系中,如果A型性格人群中各血型的比例關(guān)系,與B型性格人群中各血型的比例關(guān)系相同,就可能說血型與性格相互獨(dú)立,當(dāng)然這里的“兩例比例相同”在統(tǒng)計(jì)的意義下,應(yīng)表述為“兩比例差異不超過誤差范圍”,因?yàn)榫退憧傮w之間相互獨(dú)立,收集到兩個(gè)比例完全相同的樣本的可能是很小很小的,甚至是不可能的。相反,若一個(gè)因素各個(gè)分類之間的比例關(guān)系,在另一個(gè)因素的各項(xiàng)分類下是不同的,則它們之間相關(guān)。假如A型性格中A型血的比例高于B型性格中A型血的比例,而且達(dá)到顯著水平,那么就可以說血型與性格之間相關(guān),不相互獨(dú)立。第五十五頁,共六十七頁,2022年,8月28日卡方獨(dú)立性檢驗(yàn)的虛無假設(shè)是各因素之間相互獨(dú)立。因此理論次數(shù)的計(jì)算也是基于這一假設(shè),具體計(jì)算時(shí),采用列聯(lián)表的方式,后面將舉例說明。
例:某校對(duì)學(xué)生課外活動(dòng)內(nèi)容進(jìn)行調(diào)查,結(jié)果整理成下表,表中彩色格子里的數(shù)是原始數(shù)據(jù)的匯總數(shù),括號(hào)內(nèi)的數(shù)是理論次數(shù)(是按下面將要介紹的原理計(jì)算得來的),此外的是原始數(shù)據(jù)。
第五十六頁,共六十七頁,2022年,8月28日性別(因素2)課外活動(dòng)內(nèi)容(因素1)小計(jì)和(fx)體育文娛閱讀男生21(15.3)11(10.2)23(29.5)55女生6(11.7)7(7.8)29(22.5)42小計(jì)和(fy)27185297第五十七頁,共六十七頁,2022年,8月28日由于所有學(xué)生參加三項(xiàng)活動(dòng)的比例是27:18:52,因此如果課外活動(dòng)的選擇與性別沒有關(guān)系的話,男女生參加這三項(xiàng)活動(dòng)的比例也應(yīng)是這同一比例,而男女各自的人數(shù)可以計(jì)算,所以每格內(nèi)的理論次數(shù)的計(jì)算方法如下:男生中參加體育活動(dòng)的理論人數(shù):55×27/97=15.3參加文娛活動(dòng)的理論人數(shù):55×18/97=10.2參加閱讀活動(dòng)的理論人數(shù):55×52/97=29.5女生中參加體育活動(dòng)的理論人數(shù):42×27/97=11.7參加文娛活動(dòng)的理論人數(shù):42×18/97=7.8參加閱讀活動(dòng)的理論人數(shù):42×52/97=22.5我們將行列的小計(jì)和分別用fx和fy來表示,總?cè)藬?shù)用N來表示時(shí),上述計(jì)算理論次數(shù)的方法可以表示為:feij=fxi×fyj/N第五十八頁,共六十七頁,2022年,8月28日df=(3-1)(2-1)=2,而χ20.05(2)=5.99,所以在0.05的顯著性水平下,拒絕虛無假設(shè),即可以認(rèn)為性別與課外活動(dòng)內(nèi)容有關(guān)聯(lián),或者說男女生在選擇課外活動(dòng)上存在顯著的差異。
X2=(21-15.3)2/15.3+(11-10.2)2/10.2+……=8.3552第五十九頁,共六十七頁,2022年,8月28日(三)削減誤差比例(PRE)卡方檢驗(yàn)只能檢驗(yàn)兩變量間是否有相關(guān)關(guān)系,要測(cè)量相關(guān)關(guān)系的強(qiáng)度還需要計(jì)算相關(guān)系數(shù)。但具體介紹相關(guān)測(cè)量法之前,我們先要了解PRE。何謂PRE?社會(huì)調(diào)查研究的主要目標(biāo)是解釋或預(yù)測(cè)社會(huì)現(xiàn)象的變化。如,一社會(huì)現(xiàn)象Y,我們要解釋或預(yù)測(cè)它的變化。預(yù)測(cè)或解釋時(shí),難免會(huì)有一些誤差。假定另一社會(huì)現(xiàn)象X是與Y有關(guān)系的,如果我們根據(jù)X值來預(yù)測(cè)Y值時(shí),理應(yīng)可以減少一些誤差。而且X與Y的關(guān)系越強(qiáng),所能減少的誤差就越多,反過來說,所削減的誤差的多少,可以反映X與Y相關(guān)程度的強(qiáng)弱。我們假定我們?cè)诓恢繶變量而預(yù)測(cè)Y變量時(shí)所產(chǎn)生的誤差為全部誤差(E1);當(dāng)知道X變量去預(yù)測(cè)Y時(shí)所產(chǎn)生的誤差叫相關(guān)誤差(E2);E1-E2我們稱為剩余誤差。剩余誤差占全部誤差的比例就是PRE,即PRE=(E1-E2)/E1。第六十頁,共六十七頁,2022年,8月28日我們以前面年齡層與收視傾向這個(gè)例子來理解PRE。在我們不知道全部124人中哪些是老年人、青年人、中年人時(shí)(即不知道X變量),124人中總共有60人喜歡看電視劇,即電視劇是眾數(shù),應(yīng)用這個(gè)眾數(shù)來概括所有124人都喜歡電視劇,其估計(jì)誤差是:64,64即為E1。當(dāng)我們認(rèn)為年齡對(duì)收視傾向可能有影響時(shí),并作了變量X與Y的交互分類后,我們發(fā)現(xiàn)27個(gè)老人中,喜歡戲曲的最多,其眾數(shù)為20;40個(gè)中年人中喜歡電視劇的最多,眾數(shù)值為20;青年人喜歡電視劇的也是最多,眾數(shù)值為35;我們分別以各年齡層的眾數(shù)來分年齡層作收視傾向的估計(jì),也會(huì)造成一定誤差,三個(gè)年齡層的誤差合計(jì)為:E2=(27-20)+(40-20)+(57-35)=49則PRE=(64-49)/64=0.23即意味著用年齡來估計(jì)收視傾向可以減少23%的誤差,我們就認(rèn)為年齡與收視傾向相關(guān),相關(guān)系數(shù)為0.23。第六十一頁,共六十七頁,2022年,8月28日教材上的λ(Lambda)系數(shù)就是利用這個(gè)方法來確定的。λy是確定了自變量計(jì)算的,稱為不對(duì)稱公式;當(dāng)然也可計(jì)算λx。λ則是在不區(qū)分誰是自變量、誰是因變量的情況下計(jì)算的辦法,實(shí)際上是把用X去估計(jì)Y,與用Y去估計(jì)X的削減誤差的平均水平來求PRE。第六十二頁,共六十七頁,2022年,8月28日四、定序變量間相關(guān)關(guān)系的判定及檢驗(yàn)1、G
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 營(yíng)養(yǎng)與骨骼健康促進(jìn)考核試卷
- 農(nóng)藥生產(chǎn)過程有害生物防治技術(shù)考核試卷
- 保護(hù)大自然的演講稿
- 企業(yè)半年工作總結(jié)(集合14篇)
- 個(gè)人周工作總結(jié)3篇
- 河南省重大活動(dòng)方案
- 正月初六回娘家活動(dòng)方案
- 正月店鋪活動(dòng)策劃方案
- 水果相關(guān)活動(dòng)方案
- 汽車集團(tuán)活動(dòng)方案
- 高等學(xué)校學(xué)生學(xué)籍信息更改審批表
- 赫茲接觸課件完整版
- 云南省暴雨洪水查算實(shí)用手冊(cè)92年版(正式版)
- 系列壓路機(jī)xmr303隨機(jī)文件16-操作保養(yǎng)手冊(cè)
- 位移速度時(shí)間圖像
- 廣東省佛山市南海區(qū)2021-2022學(xué)年六年級(jí)下學(xué)期數(shù)學(xué)學(xué)科核心素養(yǎng)水平抽樣調(diào)研試卷
- GB/T 8097-1996收獲機(jī)械聯(lián)合收割機(jī)試驗(yàn)方法
- GB/T 40276-2021柔巾
- 美式橄欖球競(jìng)賽規(guī)則課件
- 一二年級(jí)看圖說話寫話:過河 教學(xué)課件
- 暑假安全防溺水教育宣傳PPT模板
評(píng)論
0/150
提交評(píng)論