相關(guān)與回歸的分析全_第1頁
相關(guān)與回歸的分析全_第2頁
相關(guān)與回歸的分析全_第3頁
相關(guān)與回歸的分析全_第4頁
相關(guān)與回歸的分析全_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

相關(guān)與回歸的分析全第一頁,共六十七頁,2022年,8月28日一、變量間的相互關(guān)系(一)相關(guān)關(guān)系與因果關(guān)系1、相關(guān)關(guān)系(1)相關(guān)關(guān)系的含義:現(xiàn)象之間的數(shù)量關(guān)系存在著兩種不同的類型:一種是函數(shù)關(guān)系,另一種是相關(guān)關(guān)系。函數(shù)關(guān)系指的是變量之間存在著的嚴格的依存關(guān)系,它們之間的關(guān)系值是固定的,對于某一變量的每一個值,都有另一個變量的完全確定的值與之相對應(yīng)。例如,圓的面積等于圓周率乘以半徑的平方。第二頁,共六十七頁,2022年,8月28日相關(guān)關(guān)系是指變量之間確實存在的但關(guān)系值不固定的相互依存關(guān)系。在這種關(guān)系中,當(dāng)一個(或幾個)變量的值確定以后,另一個變量的值雖與它(或它們)有關(guān),但卻不能完全確定。這是一種非確定性的關(guān)系。例如,電視機的擁有率與人均收入水平有關(guān),但對于人均收入水平相同的地區(qū),其電視機的擁有率可能不盡相同。在客觀事物中,尤其是在社會現(xiàn)象中,相關(guān)關(guān)系普遍存在。統(tǒng)計分析很有必要對這種關(guān)系進行研究。第三頁,共六十七頁,2022年,8月28日(2)相關(guān)關(guān)系的特性對相關(guān)關(guān)系的分析,主要是把握相關(guān)關(guān)系三個方面的特性:其一,相關(guān)的強度。即兩個變量相關(guān)關(guān)系的確定程度。其二,相關(guān)的方向。其三,線性相關(guān)與非線性相關(guān)。(3)相關(guān)關(guān)系的種類A、正相關(guān)與負相關(guān)從相關(guān)的方向看,相關(guān)關(guān)系可以分為正相關(guān)和負相關(guān)。第四頁,共六十七頁,2022年,8月28日正相關(guān)是指相關(guān)變量之間的變化趨勢相同,即當(dāng)自變量的值增加,因變量的值也隨之增加;當(dāng)自變量的值減少,因變量的值也隨之減少。例如,汽車的使用年限與汽車的修理費用之間的關(guān)系。負相關(guān)是指相關(guān)變量之間的變化趨勢相反,即當(dāng)自變量的值增加,因變量的值隨之減少;當(dāng)自變量的值減少,因變量的值隨之增加。例如,產(chǎn)品產(chǎn)量與單位產(chǎn)品成本之間的關(guān)系。第五頁,共六十七頁,2022年,8月28日B、線性相關(guān)與非線性相關(guān)從相關(guān)的形式上來看,相關(guān)關(guān)系可分為線性相關(guān)和非線性相關(guān)。線性相關(guān)也稱直線相關(guān),是指相關(guān)的兩個變量之間變化的趨勢呈線性或近似于線性。即自變量發(fā)生變動,因變量隨之發(fā)生變動,其增加或減少量是大致均等的,從圖形上看,其觀察點的分布近似表現(xiàn)為直線形式。非線性相關(guān)也稱曲線相關(guān),是指相關(guān)的兩個變量之間變化的趨勢呈非線性。即自變量發(fā)生變動,因變量隨之發(fā)生變動,但其增加或減少量不是均等的,從圖形上看,其觀察點的分布表現(xiàn)為各種曲線形式。第六頁,共六十七頁,2022年,8月28日C、單相關(guān)和復(fù)相關(guān)從相關(guān)變量的個數(shù)來看,相關(guān)關(guān)系可分為單相關(guān)和復(fù)相關(guān)。單相關(guān)是指兩個變量之間的相關(guān)關(guān)系。復(fù)相關(guān)是三個或三個以上變量之間的相關(guān)關(guān)系。例如,僅僅考慮施肥量對產(chǎn)量的影響,這就是一種單相關(guān);如果除了施肥量之外,再考慮降雨量及深耕程度對產(chǎn)量的影響,則這種相關(guān)關(guān)系就是一種復(fù)相關(guān)。第七頁,共六十七頁,2022年,8月28日2、因果關(guān)系:是指某一變量的變化可以確定為另一變量變化原因的關(guān)系。在相關(guān)關(guān)系中,通常,在相互聯(lián)系的現(xiàn)象之間存在著一定的因果關(guān)系,這時就把其中的起著影響作用的現(xiàn)象具體化,通過一定的變量反映出來,這樣的變量稱為自變量。由于受到自變量變動的影響而發(fā)生變動的變量稱為因變量。相關(guān)關(guān)系確定為因果關(guān)系必須滿足三個條件:其一,兩變量之間必須存在相關(guān)關(guān)系;其二,必須確定自變量變化在前,因變量變化在后;其三,必須確定變量X與變量Y之間的關(guān)系,不是由于第三個變量的存在而呈現(xiàn)出來的一種虛假關(guān)系。第八頁,共六十七頁,2022年,8月28日例如,在糧食畝產(chǎn)量與施肥量之間,施肥量這一變量是自變量,畝產(chǎn)量這一變量是因變量。當(dāng)研究的是兩個變量之間的關(guān)系時,通常以符號X表示自變量,以符號Y表示因變量。在相關(guān)關(guān)系中,有時兩個變量之間只存在相互聯(lián)系而并不存在明顯的因果關(guān)系。確定哪一個是自變量,哪一個是因變量,主要決定于研究的目的。對不同層次的統(tǒng)計變量進行相關(guān)關(guān)系分析的方法是不同的,下面我們分不同的變量類型來講。第九頁,共六十七頁,2022年,8月28日二、定距或定比變量的回歸與相關(guān)分析(一)回歸分析與相關(guān)分析的含義及聯(lián)系在對定距或定比變量之間存在的相關(guān)關(guān)系進行分析研究時,最常用的方法就是回歸分析和相關(guān)分析?;貧w分析和相關(guān)分析是相互聯(lián)系的,它們從不同方面研究變量之間相關(guān)關(guān)系的本質(zhì)?;貧w分析是用來研究變量之間關(guān)系的可能形式的統(tǒng)計方法。它把兩個或兩個以上變量之間的變動關(guān)系加以模型化,用數(shù)學(xué)函數(shù)表達變量之間的關(guān)系。運用這種方法時,最終的目的通常在于預(yù)測或估計與某一個或某幾個變量的給定值相對應(yīng)的另一變量的數(shù)值。第十頁,共六十七頁,2022年,8月28日相關(guān)分析是研究如何計量變量之間關(guān)系方向和強度的統(tǒng)計方法。它能確定變量之間相關(guān)的方向及程度,即變量之間某種關(guān)系的確切程度有多大?;貧w分析和相關(guān)分析既有聯(lián)系,又有區(qū)別。就其研究對象來說,兩者都是研究變量之間的相關(guān)關(guān)系。但就彼此研究變量之間關(guān)系的性質(zhì)來看,兩者存在明顯的區(qū)別?;貧w分析中,必須將相關(guān)變量區(qū)分為自變量和因變量,以確定其關(guān)系的可能形式,所研究變量屬于非對等關(guān)系。相關(guān)分析中,計量變量之間關(guān)系的強度,不必區(qū)分自變量與因變量,所研究變量屬于對等的關(guān)系。第十一頁,共六十七頁,2022年,8月28日(二)相關(guān)圖表對現(xiàn)象變量之間是否存在相關(guān)關(guān)系以及存在怎樣的相關(guān)關(guān)系進行分析、作出判斷,這是進行回歸和相關(guān)分析的前提。對于定距或定比變量通過編制相關(guān)表和相關(guān)圖,可以直觀地、大致地判斷現(xiàn)象變量之間是否存在相關(guān)關(guān)系以及關(guān)系的類型。第十二頁,共六十七頁,2022年,8月28日(1)相關(guān)表相關(guān)表是表現(xiàn)現(xiàn)象變量之間相關(guān)關(guān)系的表格。例如,為研究商店人均月銷售額和利潤率的關(guān)系,調(diào)查10家商店取得10對數(shù)據(jù),以人均銷售額為自變量,利潤率為因變量,編制簡單相關(guān)表如下表。第十三頁,共六十七頁,2022年,8月28日人均銷售額與和利潤率相關(guān)表編號人均月銷售額(千元)利潤率(%)1234567891013345667783.06.26.68.110.412.612.316.316.818.5第十四頁,共六十七頁,2022年,8月28日(2)相關(guān)圖所謂相關(guān)圖,是把相關(guān)的兩個變量之間的關(guān)系在平面直角坐標中反映出來。通常將自變量(x)置于橫軸上,因變量(y)置于縱軸上,而將兩個變量相對應(yīng)的變量值用坐標點形式描繪出來。相關(guān)圖就是用相關(guān)點的分布狀況來描述相關(guān)關(guān)系的,所以又稱為散點圖。根據(jù)相關(guān)圖,可以直觀地看出變量之間相關(guān)關(guān)系的模式。第十五頁,共六十七頁,2022年,8月28日例如,前述人均月銷售額與利潤率的關(guān)系,可用相關(guān)圖表示如下:利潤率(%)人均銷售額(千元)1

20人均銷售額與利潤率相關(guān)圖51015

2

3

84

567第十六頁,共六十七頁,2022年,8月28日從圖中,我們可以清楚地看出,這兩個變量之間相關(guān)的方向(即正相關(guān)或負相關(guān))以及相關(guān)的具體形式(線性相關(guān)或非線性相關(guān))(a)正直線關(guān)系(b)反直線關(guān)系(c)正曲線關(guān)系第十七頁,共六十七頁,2022年,8月28日(e)較分散的

反直線關(guān)系(d)反曲線關(guān)系(f)沒有關(guān)系x與y的一些可能關(guān)系的散點圖第十八頁,共六十七頁,2022年,8月28日上圖說明了相關(guān)圖中的一些可能關(guān)系。圖(a)和(b)表示的是正的和反的直線關(guān)系,即正線性相關(guān)和負線性相關(guān)。圖(c)和(d)分別表示的是正的和反的曲線關(guān)系,即正非線性相關(guān)和負非線性相關(guān)。圖(e)中是散布域很寬的反直線關(guān)系。散布域越寬,則表明變量之間的聯(lián)系程度越差。圖(f)中的圖象表明兩個變量之間沒有什么關(guān)系。第十九頁,共六十七頁,2022年,8月28日(三)簡單線性回歸(1)回歸直線的確定如果變量x和y相關(guān)并可區(qū)分自變量與因變量,如果從相關(guān)圖表中可以看出它們之間大致形成一種直線關(guān)系,我們就可在相關(guān)圖上求出一條與各點最相配合的直線。第二十頁,共六十七頁,2022年,8月28日由于這些點所代表的若干對數(shù)據(jù)——觀察值,只是相互有一定關(guān)系的變量x、y的總體中的一個樣本,故這樣求出的直線是總體回歸直線的估計線。在估計線上的點的縱坐標是相應(yīng)于x的y的估計值。y=a+bx如果這個y的估計值用y表示,則估計線的方程可寫為第二十一頁,共六十七頁,2022年,8月28日這叫做樣本回歸直線。它是y對x的回歸線,表明y對x的平均關(guān)系。式中x為受控制的自變量,通常由研究者事先選定數(shù)值。a為樣本回歸直線y的截距,它是樣本回歸直線通過縱軸的點的y坐標;b為樣本回歸直線的斜率,它表示當(dāng)x增加一個單位時y的平均增加數(shù)量,b又稱回歸系數(shù)。第二十二頁,共六十七頁,2022年,8月28日如何確定回歸直線方程呢?也就是說怎樣確定方程中的參數(shù)a、b呢?若用(xi,yi)(i=1,2,…n)表示n組觀察值,則對任意給定的xi

,可得y的估計值為這些數(shù)值同實際值yi之間存在著誤差;yi=a+bxii=yi

yi=

yi

a

bxi第二十三頁,共六十七頁,2022年,8月28日Q(a,b)=2=(yabx)2為最小。這樣便把尋找適當(dāng)直線問題轉(zhuǎn)化為使Q(a,b)達到最小條件下求出a、b的問題。在回歸分析中,人們普遍采用的是最小二乘法原則。根據(jù)最小二乘法的原則,欲使所求回歸直線y=a+bx最適合于實際資料,必須使每個xi對應(yīng)的指標實測值yi與回歸直線確定的估計值yi的離差平方之和為最小,即必須使第二十四頁,共六十七頁,2022年,8月28日因為Q(a,b)是a、b的非負二元函數(shù),所以其最小值無疑是存在的。根據(jù)數(shù)學(xué)中的極值原理,令:滿足上述條件的a、b即為所求的未知參數(shù)。由化簡得(yabx)=0(yabx)x=0第二十五頁,共六十七頁,2022年,8月28日即:y=na+bxxy=ax+bx2上述方程組稱為標準方程組。解之,得:a=ybx第二十六頁,共六十七頁,2022年,8月28日因此即可確定回歸方程式為:y=a+bx這個方程稱為在給定樣本條件下的一元線性回歸方程,對應(yīng)的直線稱為樣本回歸直線。顯然,回歸方程對于不同的樣本是有差別的,因而,它具有經(jīng)驗的特征,所以在實用上,也將它叫做經(jīng)驗公式。為了簡化上述回歸系數(shù)b的表達形式,引入如下離差乘積的和式:Lxy=(xx)(yy)第二十七頁,共六十七頁,2022年,8月28日Lxx=(xx)2于是,回歸系數(shù)可簡化為為了相關(guān)性檢驗的需要,順便引入關(guān)于y的離差平方和:Lyy=(yy)2第二十八頁,共六十七頁,2022年,8月28日求回歸方程式的系數(shù)往往是通過列表進行的。這里,我們以下表資料為倒,通過求某鋼鐵廠煉鋼精煉時間對含碳量的回歸方程,說明回歸方程的確定。10.9100爐次含碳量(%)

(x)精煉時間(分)

(y)某鋼鐵廠十個爐次鋼液含碳量和精煉時間10234567892.01.01.21.41.51.61.71.81.9105235130145170175190190220第二十九頁,共六十七頁,2022年,8月28日可以看出,x與y之間的關(guān)系近似為直線關(guān)系。我們可以對其配合一條回歸直線。為計算回歸方程的系數(shù)a、b,我們先對原始數(shù)據(jù)進行加工。第三十頁,共六十七頁,2022年,8月28日yx2y2xy1001051301451701751901902202350.811.001.441.962.252.562.893.243.614.001000011025169002102528900306253610036100484005522590105156203255280323342418470166023.762943002642爐次x123456789100.91.01.21.41.51.61.71.81.92.015.0原始數(shù)據(jù)加工表第三十一頁,共六十七頁,2022年,8月28日于是:第三十二頁,共六十七頁,2022年,8月28日所以:故精煉時間關(guān)于含碳量的回歸方程為:y=14.9525+120.635x第三十三頁,共六十七頁,2022年,8月28日計算結(jié)果表明,這個方程顯示著鋼水溶液的含碳量每增加0.1%,則精煉時間平均來說大約要延長12.06分。根據(jù)回歸方程,可以給出自變量的任一數(shù)值估計或預(yù)測因變量的平均可能值。y=14.9525+120.6352.2=150.4445(分)例如,求含碳量2.2%所需的精煉時間:第三十四頁,共六十七頁,2022年,8月28日(四)相關(guān)系數(shù)相關(guān)分析是用以說明變量之間相關(guān)程度的統(tǒng)計工具。相關(guān)分析常常與回歸分析聯(lián)合使用,以衡量回歸方程所表示的因變量變化的精確度如何。相關(guān)分析也可單獨用于衡量變量之間的聯(lián)系程度。本節(jié)我們討論兩個變量之間線性相關(guān)程度問題。兩個變量之間線性相關(guān)程度的描述通常采用相關(guān)系數(shù)。第三十五頁,共六十七頁,2022年,8月28日(1)相關(guān)系數(shù)的意義我們回過頭來考察一下線性回歸中指標y的值yi與回歸估計值yi的離差平方和。記于是有:Q=Lyy(1r2)r稱為相關(guān)系數(shù)。它是在線性相關(guān)條件下用來說明兩個變量之間相關(guān)關(guān)系密切程度的指標。第三十六頁,共六十七頁,2022年,8月28日因為Q≥0,Lyy≥0,故相關(guān)系數(shù)有一個重要性質(zhì):|r|≤1r=1(1)1<r=0(2)r=0(3)r=0(4)0<r<1(5)r=1(6)相關(guān)圖與相關(guān)系數(shù)經(jīng)驗關(guān)系第三十七頁,共六十七頁,2022年,8月28日由于Lyy對于一組實測數(shù)據(jù)來講是定值,故由Q=Lyy(1r2)可知,當(dāng)|r|較大接近于1時,離差平方和Q就較小而接近于0,此時,y與x高度相關(guān)。特別當(dāng)|r|=1時,稱它們是完全相關(guān)的,上圖(1)、(6)所示。當(dāng)|r|較小而接近于0時,Q就大,y與x的相關(guān)關(guān)系很弱,特別當(dāng)r=0時,稱它們線性無關(guān)。如上圖(3)、(4)所示第三十八頁,共六十七頁,2022年,8月28日由于Lxy可正可負,所以相關(guān)系數(shù)r也可正可負。若r>0則稱y與x正相關(guān),如上圖(5)、(6)所示。此時,隨著x的增大(或減小),y將呈現(xiàn)增大(或減小)的趨勢。特別對于上圖(6)的情形,由于r=1,故稱完全正相關(guān)。若r<0,則稱y與x負相關(guān),如上圖(1)、(2)所示。此時,隨著x的增大(或減小),y將呈現(xiàn)減小(或增大)的趨勢。特別對于圖(1)的情形。由于r=1,故稱為完全負相關(guān)。一般認為相關(guān)系數(shù)的絕對值在0.7以上為高度相關(guān),之間為中度相關(guān),0-0.3為低相關(guān)。第三十九頁,共六十七頁,2022年,8月28日應(yīng)當(dāng)注意,相關(guān)系數(shù)r只表明x與y之間的線性關(guān)系的密切程度和方向。當(dāng)r很小甚至為0時,只表明x與y之間的線性關(guān)系不密切,或不存在線性關(guān)系,并不表示x與y之間就沒有關(guān)系,可能二者之間有非線性關(guān)系。如上圖(4)所示,x與y之間就存在著曲線關(guān)系。第四十頁,共六十七頁,2022年,8月28日(2)相關(guān)系數(shù)的計算我們已經(jīng)知道,相關(guān)系數(shù)的公式為:第二節(jié)中我們介紹了離差乘積的和式:第四十一頁,共六十七頁,2022年,8月28日于是有:第四十二頁,共六十七頁,2022年,8月28日如果將分子分母同乘以n,又可得:根據(jù)前例中煉鋼廠鋼液含碳量與精煉時間資料,可計算相關(guān)系數(shù)。那里,我們已經(jīng)求得:第四十三頁,共六十七頁,2022年,8月28日于是其相關(guān)系數(shù)為:計算得出r=0.9892,表明精煉時間和含碳量之間為正相關(guān)關(guān)系。而且r值接近于1,表示兩者關(guān)系很密切。第四十四頁,共六十七頁,2022年,8月28日三、定類變量間的相關(guān)關(guān)系判定及檢驗在各個研究領(lǐng)域中,有些研究問題只能劃分為不同性質(zhì)的類別,各類別沒有量的聯(lián)系。例如,性別分男女,職業(yè)分為公務(wù)員、教師、工人、……,教師職稱又分為教授、副教授、……。有時雖有量的關(guān)系,因研究需要將其按一定的標準分為不同的類別,例如,學(xué)習(xí)成績、能力水平、態(tài)度等都是連續(xù)數(shù)據(jù),只是研究者依一定標準將其劃分為優(yōu)良中差,喜歡與不喜歡等少數(shù)幾個等級。要判別這些分類間是否有相關(guān)關(guān)系就得用到相應(yīng)的方法。第四十五頁,共六十七頁,2022年,8月28日(一)交互分類表交互分類表又叫列聯(lián)表和條件次數(shù)表。它是按兩個變量的值將所研究的個案進行分類,亦即將兩個變量的次數(shù)交互分配在一張統(tǒng)計表中成為一個矩陣,這種表就叫交互分類表。例如:某單位對職工的閑暇時間進行了調(diào)查,根據(jù)不同年齡檔和喜愛的電視節(jié)目進行了如下的統(tǒng)計分類:收視傾向年齡層老年中年青年戲曲20102電視劇52035體育比賽21020合計274057第四十六頁,共六十七頁,2022年,8月28日從交互分類表中可以清楚地看到在各個年齡層下收視傾向的不同的次數(shù)分布狀況,因此這種表又叫條件次數(shù)表。表的最下端是每個年齡層的總次數(shù),稱為邊緣次數(shù),它們的分布叫邊緣分布。表中的其他次數(shù)叫條件次數(shù),表示在自變量的每一個值下因變量各個值出現(xiàn)的次數(shù),其次數(shù)分布叫條件分布。交互分類表有大小之分,我們一般用橫行數(shù)目(r)乘上縱列數(shù)目(c)即rΧc表示表的大小。交互分類表還可做成相對頻次分布表,如前表就可轉(zhuǎn)化為下表:(這樣的表更便于比較)通過交互分類表我們可以初步的觀察兩個變量間是否相關(guān)。當(dāng)然這種觀察是粗略的,如果要較準確地檢驗就需進行卡方檢驗并計算相關(guān)系數(shù)。第四十七頁,共六十七頁,2022年,8月28日年齡層與收視傾向(%)收視傾向年齡層老年中年青年戲曲74254電視劇185061體育比賽82535合計(27)(40)(57)第四十八頁,共六十七頁,2022年,8月28日(二)X2

(卡方)檢驗X2是對樣本的頻數(shù)分布所來自的總體分布是否服從某種理論分布或某種假設(shè)分布所作的假設(shè)檢驗。它與前面所講的抽樣數(shù)據(jù)的假設(shè)檢驗的不同在于:第一,前者數(shù)據(jù)屬于定距或定比變量(如果是定類變量它也是是非標志);第二,測量數(shù)據(jù)所來自的總體要求呈正態(tài)分布,而X2檢驗的數(shù)據(jù)來自的分布是未知的;第三,測量數(shù)據(jù)的假設(shè)檢驗是對總體參數(shù)的假設(shè)檢驗,X2檢驗是對總體分布的假設(shè)檢驗。因此,它是屬于自由分布的非參數(shù)檢驗。X2的基本公式是:

X2=∑(f0-fe)/fe(表示f0實際頻數(shù),fe表示理論頻數(shù))第四十九頁,共六十七頁,2022年,8月28日對兩變量進行X2檢驗的步驟是:第一步:建立兩變量不存在相關(guān)關(guān)系的虛無假設(shè)和與之對立的備擇假設(shè)。第二步:按照X2公式計算X2

。第三步:根據(jù)公式df=(r-1)(c-1)計算出來的自由度和選定的顯著性水平,查出X2的臨界值。第四步:作出統(tǒng)計決策。第五十頁,共六十七頁,2022年,8月28日卡方檢驗是由統(tǒng)計學(xué)家皮爾遜推導(dǎo)的。理論證明,實際觀察次數(shù)(fo)與理論次數(shù)(fe)(又稱期望次數(shù))之差的平方再除以理論次數(shù)所得的統(tǒng)計量,近似服從卡方分布,當(dāng)fe越大(fe≥5),近似得越好。顯然fo與fe相差越大,卡方值就越大;fo與fe相差越小,卡方值就越??;因此它能夠用來表示fo與fe相差的程度。下面舉例說明幾種常用的卡方檢驗:

第五十一頁,共六十七頁,2022年,8月28日檢驗無差假設(shè)所謂無差假設(shè),是指各項分類的實際數(shù)之間沒有差異,也就是說各項分類之間的概率相等,因此理論次數(shù)完全按概率相等的條件來計算。即任一項的理論次數(shù)都等于總數(shù)/分類項數(shù)。因此自由度也就等于分類項數(shù)減1。例1隨機地將麻將色子拋擲300次,檢驗該色子的六個面是否均勻。結(jié)果1-6點向上的次數(shù)依次是,43,49,56,45,66,41。解:每個類的理論次數(shù)是300/6=50,代入公式:X2=(43-50)2/50+(49-50)2/50+……=8.96在0.05的顯著性水平下自由度為5情況下X2的臨界值是11.1。因此,在0.05的顯著性水平下,可以說這個色子的六面是均勻的。第五十二頁,共六十七頁,2022年,8月28日檢驗假設(shè)分布的概率這里的假設(shè)分布可以是經(jīng)驗性的,也可以是某理論分布。公式中所需的理論次數(shù)則按照這里假設(shè)的分布進行計算。例2國際色覺障礙討論會宣布,每12個男子中,有一個是先天性色盲。從某校抽取的132名男生中有4人是色盲,問該校男子色盲比率與上述比例是否有顯著差異?解:按國際色覺障礙討論會的統(tǒng)計結(jié)果,132人應(yīng)該有132/12=11人是色盲,剩下的121人非色盲,代入公式有:X2=(4-11)2/11+(128-121)2/121=4.86此時X2的臨界值為3.84。因此,在0.05和顯著性水平下,該校男子色盲比率與國際色覺障礙討論會的統(tǒng)計結(jié)果有顯著差異,顯然根據(jù)比例可知該校的色盲率小于國際色覺障礙討論會的統(tǒng)計結(jié)果。第五十三頁,共六十七頁,2022年,8月28日例3在英語四級考試中,某學(xué)生做對了80個四擇一選擇題中的28題,現(xiàn)在要判斷該生是否是完全憑猜測做題。解:假如該生完全憑猜測做題,那么平均而言每道題做對的可能性是1/4,因此80個題中平均而能做對80/4=20題,代入公式有:X2=(28-20)2/20+(52-60)2/60=4.27大于X2臨界值3.84因此,該生可能會做一些題。第五十四頁,共六十七頁,2022年,8月28日獨立性檢驗卡方獨立性檢驗用于檢驗兩個或兩個以上因素(各有兩項或以上的分類)之間是否相互影響的問題。所謂獨立,即無關(guān)聯(lián),互不影響,就意味著一個因素各個分類之間的比例關(guān)系,在另一個因素的各項分類下都是相同的,比如在血型與性格關(guān)系中,如果A型性格人群中各血型的比例關(guān)系,與B型性格人群中各血型的比例關(guān)系相同,就可能說血型與性格相互獨立,當(dāng)然這里的“兩例比例相同”在統(tǒng)計的意義下,應(yīng)表述為“兩比例差異不超過誤差范圍”,因為就算總體之間相互獨立,收集到兩個比例完全相同的樣本的可能是很小很小的,甚至是不可能的。相反,若一個因素各個分類之間的比例關(guān)系,在另一個因素的各項分類下是不同的,則它們之間相關(guān)。假如A型性格中A型血的比例高于B型性格中A型血的比例,而且達到顯著水平,那么就可以說血型與性格之間相關(guān),不相互獨立。第五十五頁,共六十七頁,2022年,8月28日卡方獨立性檢驗的虛無假設(shè)是各因素之間相互獨立。因此理論次數(shù)的計算也是基于這一假設(shè),具體計算時,采用列聯(lián)表的方式,后面將舉例說明。

例:某校對學(xué)生課外活動內(nèi)容進行調(diào)查,結(jié)果整理成下表,表中彩色格子里的數(shù)是原始數(shù)據(jù)的匯總數(shù),括號內(nèi)的數(shù)是理論次數(shù)(是按下面將要介紹的原理計算得來的),此外的是原始數(shù)據(jù)。

第五十六頁,共六十七頁,2022年,8月28日性別(因素2)課外活動內(nèi)容(因素1)小計和(fx)體育文娛閱讀男生21(15.3)11(10.2)23(29.5)55女生6(11.7)7(7.8)29(22.5)42小計和(fy)27185297第五十七頁,共六十七頁,2022年,8月28日由于所有學(xué)生參加三項活動的比例是27:18:52,因此如果課外活動的選擇與性別沒有關(guān)系的話,男女生參加這三項活動的比例也應(yīng)是這同一比例,而男女各自的人數(shù)可以計算,所以每格內(nèi)的理論次數(shù)的計算方法如下:男生中參加體育活動的理論人數(shù):55×27/97=15.3參加文娛活動的理論人數(shù):55×18/97=10.2參加閱讀活動的理論人數(shù):55×52/97=29.5女生中參加體育活動的理論人數(shù):42×27/97=11.7參加文娛活動的理論人數(shù):42×18/97=7.8參加閱讀活動的理論人數(shù):42×52/97=22.5我們將行列的小計和分別用fx和fy來表示,總?cè)藬?shù)用N來表示時,上述計算理論次數(shù)的方法可以表示為:feij=fxi×fyj/N第五十八頁,共六十七頁,2022年,8月28日df=(3-1)(2-1)=2,而χ20.05(2)=5.99,所以在0.05的顯著性水平下,拒絕虛無假設(shè),即可以認為性別與課外活動內(nèi)容有關(guān)聯(lián),或者說男女生在選擇課外活動上存在顯著的差異。

X2=(21-15.3)2/15.3+(11-10.2)2/10.2+……=8.3552第五十九頁,共六十七頁,2022年,8月28日(三)削減誤差比例(PRE)卡方檢驗只能檢驗兩變量間是否有相關(guān)關(guān)系,要測量相關(guān)關(guān)系的強度還需要計算相關(guān)系數(shù)。但具體介紹相關(guān)測量法之前,我們先要了解PRE。何謂PRE?社會調(diào)查研究的主要目標是解釋或預(yù)測社會現(xiàn)象的變化。如,一社會現(xiàn)象Y,我們要解釋或預(yù)測它的變化。預(yù)測或解釋時,難免會有一些誤差。假定另一社會現(xiàn)象X是與Y有關(guān)系的,如果我們根據(jù)X值來預(yù)測Y值時,理應(yīng)可以減少一些誤差。而且X與Y的關(guān)系越強,所能減少的誤差就越多,反過來說,所削減的誤差的多少,可以反映X與Y相關(guān)程度的強弱。我們假定我們在不知道X變量而預(yù)測Y變量時所產(chǎn)生的誤差為全部誤差(E1);當(dāng)知道X變量去預(yù)測Y時所產(chǎn)生的誤差叫相關(guān)誤差(E2);E1-E2我們稱為剩余誤差。剩余誤差占全部誤差的比例就是PRE,即PRE=(E1-E2)/E1。第六十頁,共六十七頁,2022年,8月28日我們以前面年齡層與收視傾向這個例子來理解PRE。在我們不知道全部124人中哪些是老年人、青年人、中年人時(即不知道X變量),124人中總共有60人喜歡看電視劇,即電視劇是眾數(shù),應(yīng)用這個眾數(shù)來概括所有124人都喜歡電視劇,其估計誤差是:64,64即為E1。當(dāng)我們認為年齡對收視傾向可能有影響時,并作了變量X與Y的交互分類后,我們發(fā)現(xiàn)27個老人中,喜歡戲曲的最多,其眾數(shù)為20;40個中年人中喜歡電視劇的最多,眾數(shù)值為20;青年人喜歡電視劇的也是最多,眾數(shù)值為35;我們分別以各年齡層的眾數(shù)來分年齡層作收視傾向的估計,也會造成一定誤差,三個年齡層的誤差合計為:E2=(27-20)+(40-20)+(57-35)=49則PRE=(64-49)/64=0.23即意味著用年齡來估計收視傾向可以減少23%的誤差,我們就認為年齡與收視傾向相關(guān),相關(guān)系數(shù)為0.23。第六十一頁,共六十七頁,2022年,8月28日教材上的λ(Lambda)系數(shù)就是利用這個方法來確定的。λy是確定了自變量計算的,稱為不對稱公式;當(dāng)然也可計算λx。λ則是在不區(qū)分誰是自變量、誰是因變量的情況下計算的辦法,實際上是把用X去估計Y,與用Y去估計X的削減誤差的平均水平來求PRE。第六十二頁,共六十七頁,2022年,8月28日四、定序變量間相關(guān)關(guān)系的判定及檢驗1、G

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論