統(tǒng)計 第十章 相關與回歸分析_第1頁
統(tǒng)計 第十章 相關與回歸分析_第2頁
統(tǒng)計 第十章 相關與回歸分析_第3頁
統(tǒng)計 第十章 相關與回歸分析_第4頁
統(tǒng)計 第十章 相關與回歸分析_第5頁
已閱讀5頁,還剩104頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十章相關與回歸分析第一節(jié)相關關系及種類第二節(jié)定類變量的相關分析第三節(jié)定序變量的相關分析第四節(jié)定距變量的相關分析第五節(jié)回歸分析社會上,許多現象之間也都有相互聯(lián)系,例如:身高與體重、教育程度和收入、學業(yè)成就和家庭環(huán)境、智商與父母智力等。在這些有關系的現象中,它們之間聯(lián)系的程度和性質也各不相同。這一章我們不僅要對相關關系的存在給出判斷,還要對相關關系的強度給出測量,同時要揭示兩變量間的因果聯(lián)系,其內容分為相關分析和回歸分析這兩個大的方面。概念要點:相關:一個變量值與另一個變量值有連帶性。正相關與負相關;對稱關系與不對稱關系;相關關系的“有、無”與“大、小”之間的區(qū)別;相關關系與函數關系的區(qū)別與聯(lián)系;相關關系與因果關系的區(qū)別與聯(lián)系;第一節(jié)變量之間的相互關系函數關系現象之間確實存在數量上的相互依存關系。表現在:一個現象發(fā)生數量上的變化,另一個與之相聯(lián)系的現象也會相應地發(fā)生數量上的變化。相關關系現象之間數量上不確定、不嚴格的依存關系。相關關系的全稱為統(tǒng)計相關關系,它屬于變量之間的一種不完全確定的關系。

相關關系與函數關系⒈出租汽車費用與行駛里程:總費用=行駛里程每公里單價⒉家庭收入與恩格爾系數:家庭收入高,則恩格爾系數低。函數關系(確定性關系)相關關系(非確定性關系)比較下面兩種現象間的依存關系相關關系與函數關系的區(qū)別函數關系是變量之間的一種嚴格、完全確定性的關系,即一個變量的數值完全有另一個(或一組)變量的數值所決定、控制。函數關系通??梢杂脭祵W公式確切地表示出來。相關關系難以像函數關系那樣,用數學公式去準確表達。

相關關系與函數關系的聯(lián)系由于客觀上常會出現觀察或測量上的誤差等原因,函數關系在實際工作中往往通過相關關系表現出來。當人們對某些現象內部規(guī)律有較深刻認識時,相關關系可能變?yōu)楹瘮店P系。為此,在研究相關關系時,又常常使用函數關系作為工具,用一定的函數關系表現相關關系的數量聯(lián)系。相關關系的種類根據相關關系的程度劃分根據相關關系的方向劃分根據自變量的多少劃分根據變量間相互關系的表現形式劃分不完全相關完全相關不相關正相關負相關復相關單相關直線相關曲線相關1、不相關。

如果變量間彼此的數量變化互相獨立,則其關系為不相關。自變量x變動時,因變量y的數值不隨之相應變動。例如,產品稅額的多少與工人的出勤率、家庭收入多少與孩子的多少之間都不存在相關關系。2、完全相關。如果一個變量的變化是由其他變量的數量變化所唯一確定,此時變量間的關系稱為完全相關。即因變量y的數值完全隨自變量x的變動而變動,它在相關圖上表現為所有的觀察點都落在同一條直線上,這種情況下,相關關系實際上是函數關系。所以,函數關系是相關關系的一種特殊情況。3、不完全相關。如果變量間的關系介于不相關和完全相關之間,則稱為不完全相關。如婦女的結婚年齡與受教育程度之間的一種關系。大多數相關關系屬于不完全相關,是統(tǒng)計研究的主要對象根據相關關系的程度劃分由于數學手段上的局限性,統(tǒng)計學探討的最多的是定距—定距變量間能近似地表現為一條直線的線性相關。在統(tǒng)計中,對于線性相關,采用相關系數(記作r)這一指標來量度相關關系程度或強度。就線性相關來說,當|r|=l時,表示為完全相關;當|r|

=0時,表現為無相關或零相關;當0<|r|<1時,表現為不完全相關。1、正相關。指兩個因素(或變量)之間的變化方向一致,都是呈增長或下降的趨勢。即自變量x的值增加(或減少),因變量y的值也相應地增加(或減少),這樣的關系就是正相關。例如,工業(yè)總產值增加,企業(yè)稅利總額也隨之增加;家庭消費支出隨收入增加而增加等。2、負相關。指兩個因素或變量之間變化方向相反,即自變量的數值增大(或減?。蜃兞侩S之減?。ɑ蛟龃螅?。如勞動生產率提高,產品成本降低;產品成本降低,企業(yè)利潤增加等。要強調的是,只有定序以上測量層次的變量才分析相關方向,根據相關關系的方向劃分1、單相關。兩個因素之間的相關關系叫單相關,即研究時只涉及一個自變量和一個因變量。2、復相關。三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變量和因變量。根據自變量的多少劃分1、直線相關(或線性相關)。當相關關系的自變量x發(fā)生變動,因變量y值隨之發(fā)生大致均等的變動,從圖像上近似地表現為直線形式,這種相關通稱為直線(或線性)相關。例如,銷售量與銷售額之間就呈直線相關關系。2、曲線(或非線性)相關。在兩個相關現象中,自變量x值發(fā)生變動,因變量y也隨之發(fā)生變動,這種變動不是均等的,在圖像上的分布是各種不同的曲線形式,這種相關關系稱為曲線(或非線性)相關。曲線相關在相關圖上的分布,表現為拋物線、雙曲線、指數曲線等非直線形式。例如,從人的生命全過程看,年齡與醫(yī)療費支出呈非線性相關。根據變量間相互關系的表現形式劃分

因果關系與對稱關系

因果關系中兩個變量有自變量(independentVariable)和因變量(dependentVariable)之分:(1)兩個變量有共變關系;(2)因變量的變化是由自變量的變化引起的;(3)兩個變量的產生和變化有明確的時間順序,前者稱為自變量,后者稱為因變量。例:社會整合程度影響越軌行為父輩職業(yè)與子輩職業(yè)

對稱關系表現為對稱關系的相關關系,互為根據,不能區(qū)分自變量和因變量,或者說自變量和因變量可以根據研究目的任意選定.例如:身高和體重之間的關系交往程度與關系密切程度第二節(jié)定類變量的相關分析本節(jié)內容:1、列聯(lián)表2、削減誤差比例3、λ系數4、τ系數1.列聯(lián)表列聯(lián)表,是按品質標志把兩個變量的頻數分布進行交互分類,由于表內的每一個頻數都需同時滿足兩個變量的要求,所以列聯(lián)表又稱條件頻數表。(1)邊際次數/分布:表示列聯(lián)表中相應縱列和橫行的頻數和,分別稱為X、Y的邊際分布;

(2)條件次數分布:表格中的其他次數;

例如,某區(qū)調查了357名選民,考察受教育程度與投票行為之間的關系,將所得資料作成下表,便是一種關于頻數的列聯(lián)表。2×2頻數分布列聯(lián)表的一般形式習慣上把因變量Y放在表側,把自變量X放在表頭。2×2列聯(lián)表是最簡單的交互分類表。

r×c列聯(lián)表r(row)、c(column)

r×c頻數分布列聯(lián)表的一般形式自己志愿知心朋友志愿總數快樂家庭理想工作增廣見聞快樂家庭289340理想工作241750增廣見聞24410總數325414100

條件頻數表中各頻數因基數不同不便作直接比較,因此有必要將頻數化成相對頻數,使基數標準化。這樣,我們就從頻數分布的列聯(lián)表得到了相對頻數分布的列聯(lián)表(或稱頻率分布的列聯(lián)表)。下表是r×c相對頻數分布列聯(lián)表的一般形式。

r×c相對頻數分布列聯(lián)表的一般形式

在相對頻數分布列聯(lián)表中,各數據為各分類出現的相對頻數(或者頻率)。將頻數化成相對頻數有兩種做法:

①相對頻數聯(lián)合分布(聯(lián)合頻率)

兩個邊際分布或②相對頻數條件分布(條件頻率)

r×c相對頻數聯(lián)合分布列聯(lián)表控制X,Y相對頻數條件分布列聯(lián)表(列分布)控制Y,X相對頻數條件分布列聯(lián)表(行分布)[例A1]試把下表所示的頻數分布列聯(lián)表,轉化為自變量受到控制的相對頻數條件分布列聯(lián)表,并加以相關分析。

投票行為Y受教育程度X

大學以上

大學以下投票棄權16071296128968合計:167190357

從上表可知,受過大學以上教育的被調查者絕大多數(占95.8%)是投票的,受教育程度在大學以下的被調查者雖多數也參與投票(占67.9%),但后者參與投票的百分比遠小于前者;前者只有4.2%棄權,而后者則有32.1%棄權。兩相比較可知,受教育程度不同,參與投票的行為不同,因此兩個變量是相關的。投票行為Y受教育程度X

大學以上

大學以下投票棄權95.8%(160/167)4.2%(7/167)67.9%(129/190)32.1%(61/190)81.0%(289/357)19.0%(68/357)100.0%(167)100.0%(190)100.0%(357)[例A2]試把下表所示的頻數分布列聯(lián)表,轉化為相對頻數聯(lián)合分布列聯(lián)表和自變量受到控制的相對頻數條件分布列聯(lián)表,并加以相關分析。

投票行為Y受教育程度X

大學以上

大學以下投票棄權1006711476214143合計:167190357

上表顯示,大學以上文化程度和大學以下文化程度同樣各有60%的人參與投票,40%的人棄權,并沒有因為受教育程度不同,而使參與投票的行為有所不同。因此,此時的兩個變量是不相關的,或者說是獨立的。我們不難發(fā)現,此時反映全體投票情況的相對頻數的邊際分布()也各有60%的人參與投票,40%的人棄權。投票行為Y受教育程度X

大學以上

大學以下投票棄權60.0%(100/167)40.0%(67/167)60.0%(114/190)40.0%(76/190)60.0%(214/357)40.0%(143/357)100.0%(167))100.0%(190)100.0%(357)上表顯示,當兩個變量不相關時有。如0.532×0.40=0.213投票行為Y受教育程度X

大學以上

大學以下投票棄權28.0%(100/357)18.8%(67/357)31.9%(114/357)21.3%(76/357)60.0%(214/357)40.0%(143/357)46.8%(167/357)53.2%(190/357)100.0%(357)[練習]某社區(qū)調查了120名市民,考察性別與對吸煙態(tài)度之間的關系,試將所得資料作成相對頻數的聯(lián)合分布、邊際分布和條件分布列聯(lián)表,并進行相關分析。性別與對吸煙的態(tài)度態(tài)度Y性別X合計男女容忍48856反對204464合計6852120相對頻數聯(lián)合分布列聯(lián)表態(tài)度Y性別X男(X1)女(X2)容忍Y140.0%6.7%46.7%反對Y216.7%36.6%53.3%56.7%43.3%100%(120)相對頻數條件分布列聯(lián)表(控制X,列分布)態(tài)度Y性別X男()女()容忍70.6%15.4%46.7%(56)反對29.4%84.6%53.3%(64)100%(68)100%(52)100%(120)2675名雙親和他們10071個子女

的智力的關系(%)(相對頻數條件分布列聯(lián)表)

父母智力組合

子女智力優(yōu)秀

子女智力一般

子女智力低下

優(yōu)+優(yōu)71.625.43.0

優(yōu)+劣33.642.723.7

一般+一般18.666.914.5

劣+劣5.434.460.2

相對頻數分布列連表的規(guī)模不適宜太大,這樣不利于數據的分析:(1)將類型進行分類,整合:五分類變?yōu)槿?;?)計算兩個變量之間的相關系數;2.削減誤差比例PRE(ProportionateReductioninError)

通過相對頻數條件分布列聯(lián)表的討論,可以就自變量X和因變量Y的關聯(lián)性給出一個初步的判斷。但是對關聯(lián)性給出判斷,肯定沒有用量化指標表達來得好。所以,下面我們將關注于如何用統(tǒng)計方法,使相關關系的強弱可以通過某些簡單的系數明確地表達出來。在社會統(tǒng)計中,表達相關關系的強弱,削減誤差比例的概念是非常有價值的。削減誤差比例的原理是,如果兩變量間存在著一定的關聯(lián)性,那么知道這種關聯(lián)性,必然有助于我們通過一個變量去預測另一變量。其中關系密切者,在由一變量預測另一變量時,盲目性必然較關系不密切者為小。

PRE:用不知道Y與X有關系時預測Y的全部誤差E0,減去知道Y與X有關系時預測Y的聯(lián)系誤差E1,再將其化為比例來度量

PRE的取值范圍是

0≤PRE≤lA、當兩個變量完全沒有關系的時候:E0=E1,PRE=0;B、當兩個變量完全相關的時候:E1=0,PRE=1

削減誤差比例PRE適用于各測量層次的變量,λ系數和τ系數便是在定類測量的層次上以削減誤差比例PRE為基礎所設計的兩種相關系數。

3.λ(Lambda)系數

在定類尺度上測量集中趨勢只能用什么指標?在定類尺度上測量集中趨勢只能用眾數。

λ系數就是利用此性質來構造相關系數的?;具壿嫞阂砸粋€定類變量值來預測另一個變量值時,若以眾數作為預測的準則,則可減少的誤差是多少。(1)對稱的λ系數Y的每一分類中X分布的眾數的頻數(行)X的每一分類中Y分布的眾數的頻數(列)X的邊際分布中眾數的頻數(行)Y的邊際分布中眾數的頻數(列)[例]研究工作類別與工作價值的關系,工作類別可分為三類:工人、技術人員、管理/行政人員;工作價值也可分為三類:以收入/福利為最重要的職業(yè)選擇標準的稱為經濟取向型,以工作的創(chuàng)造性、挑戰(zhàn)性為最重要的職業(yè)選擇標準的稱為成就取向型,以工作中的人際關系為最重要的職業(yè)選擇標準的稱為人際關系取向型。對下表所示資料,用λ系數反映工作類別與工作價值的相關關系。工作價值Y工作種類X合計

工人

技術人員

管理/行政人員經濟取向型成就取向型人際關系取向型100302070601050204022011070合計:FX150140110400(2)不對稱的λ系數

X的每一分類中Y分布的眾數的頻數(列)Y的邊際分布中眾數的頻數(列)[例]對下表所示資料,用λ系數反映性別與收入高低的相關關系。收入Y性別X合計男女低60150210高12070190合計180220400

性質:(1)0≤λ≤1

(2)具有PRE意義。(3)對稱與不對稱情況下,有不同的公式。(4)以眾數作為預測的準則,對列聯(lián)表中眾數頻數以外的條件頻數不予理會。

(5)如果眾數頻數集中在條件頻數分布列聯(lián)表的同一行時,λ=0,從而無法顯示兩變量之間的相關性。

4.τ系數

τ系數的統(tǒng)計值域是[0,1],其特點是在計算時考慮所有的邊際頻數和條件頻數

注意:當眾數很突出且眾數分布不在同一行,同一列時,用λ系數較好;但當眾數不突出時,用τ系數更好;若眾數集中在某一行或某一列,一定用τ系數。

[例]對下表所示資料,用τ系數反映性別與收入高低的相關關系。收入Y性別X合計男女低60150210高12070190合計180220400

考慮到全部的次數,所以敏感度較高。同樣是以PRE為基礎的相關系數,具有PRE性質第三節(jié)定序變量的相關分析

定序變量只能排列高低次序,因而在分析時只能考慮兩變量變化的順序是否一致及其等級之間的差距。以此來計算兩變量的相關系數。

1、同序對、異序對和同分對

2、Gamma等級相關系數

3、肯德爾等級相關系數

4、薩默斯系數(d系數)

5、Spearman等級相關系數

6、肯德爾和諧系數1.同序對、異序對、同分對

社會研究常用的兩定序變量的相關測量法,有一類是以同序對、異序對、同分對的概念為基礎的,如Gamma系數、肯德爾系數、d系數等。所以我們在討論這幾種相關系數之前,先來了解這三個概念。

在定序相關測量中,首先要搞清楚“次序對(pair)”的概念。例如,假設研究員工的工作滿足感與歸屬感的關系,將工作滿足感從低到高,分為低(1)、中(2)和高(3)三個級別,歸屬感也從低到高分為低(1)、中(2)和高(3)三個級別。下表列示的是5名被訪者A、B、C、D、E的情況。單元XYA12B12C13D23E31“對”的概念1、總對數T=N(N-1)/2,N為個案數目。當只有兩個定序變量時,可能出現的對的種類有以下五種(設:個案A在X上的等級為Xa,在Y上的等級為Ya,個案B在X上的等級為Xb,在Y上的等級為Yb)同序對

如果我們看到Xi<Xj

,在Y序列中看到的是Yi<Yj,則稱這一配對是同序對。同序對只要求X變化方向和Y變化方向相同,并不要求X變化大小和Y變化大小相等。同序對的總數用符號ns表示。異序對如果我們看到Xi<Xj

,在Y序列中看到的是Yi

>Yj,則稱這一配對是異序對。異序對只要求X變化方向和Y變化方向相反,并不要求X變化大小和Y變化大小相等。異序對的總數用符號nd表示。同分對

如果在X序列中,我們觀察到Xi=Xj(此時在Y序列中無Yi=Yj),則這個配對僅是X方向上而非Y方向上的同分對;X的這種同分對用符號nx表示。如果在Y

序列中,我們觀察到Yi=Yj(此時在X序列中無Xi=Xj),則這個配對僅是Y

方向上而非X方向上的同分對;Y

的這種同分對用符號ny表示。如果我們觀察到Xi=Xj時,也觀察到Yi=Yj

,則稱這兩個配對為X與Y同分對,以符號nxy表示。X

同分對的總數用符號Tx表示,Tx

=nx+nxy

;Y同分對的總數用符號Ty表示,Ty

=ny+nxy

。n個單位兩兩配對,總對數=ns+nd+nx+

ny+nxy

計算Gamma系數,肯得爾系數、d系數等,我們面對的經常是兩定序變量已形成列聯(lián)表的資料,所以對我們來說很重要的是要學會定序變量列聯(lián)表中這五種“次序對”的計算和識別。同序對:“右下余子式”法異序對:“左下余子式”法詳見教材2.Gamma系數

如果在單元對中是以同序對為主,則表示變量x和變量y呈正相關;反之,如果是以異序對為主,則變量x和變量y呈負相關;Gamma系數原理:利用同序對和異序對數量之差,以此來反映等級相關的程度;公式(1)ns--同序對的數目;右下余子式(2)nd--異序對的數目;左下余子式性質:(1)取值范圍[-1,1](2)具有PRE意義(3)屬對稱相關測量。(4)不考慮同分對。右下余子式左下余子式

例:在某市200戶中調查,看住戶人口密度與婆媳沖突是否有關,交互分類后分布如下,計算G相關系數并提出研究結論。婆媳沖突住戶密度總數高中低高2320449中11552894低8272459總數4210256200ns=23*(55+28+27+24)+20*(28+24)+11*(27+24)+55*24=6003nd=4*(11+55+8+27)+20*(11+8)+28*(8+27)+55*8=2204

=(6003-2204)/(6003+2204)=0.463.肯德爾等級相關系數(1)Tau-a系數

適用于不存在任何同分對的情況。

某市有12所大專院校,現組織一個評審委員會對各院校校園環(huán)境及學生體質進行評價,評價結果如表(表中已先將學校按X作了次序排列)所示,試計算校園環(huán)境和學生體質關系的肯德爾相關系數。

學校名ABCDEFGHIJ

環(huán)境名次(X)體質名次(Y)1234567891021537468109計算異序對的個數:AB,CD,CF,EF,EG,IJnd=6代入公式計算:(2)Tau-b系數當出現同分對時,對分母進行修正。與G系數一樣,Tau-b系數也具有消減誤差比例的意義。Tau-b系數的特殊性在于,只有在列聯(lián)表的行數與列數相同(r=c)的情況下,其系數值才可能是-1或+1,否則便不確定。

(3)Tau-c系數當同分對很多時,且r≠c

,可以用Tau-c系數來測量。

m取r×c列聯(lián)表中r和c值較小者。

Tau-c系數沒有消減誤差比例的意義。

4.薩默斯(d系數)薩默斯提出的,對G系數進行修正。(除考慮同序對,異序對外,還考慮同分對的個數)X為自變量Y為自變量

d系數具有PRE意義,取值[-1,1],為不對稱測量。

5.Spearman等級相關系數

d——每個樣本單位在兩個變量上的等級之差計算步驟:首先將定序變量X和Y的數值形成對應的兩個序數數列(其中先將X由小到大排列)。如遇有相等的數值時,則應將原有的等級求其平均數,讓它們以這平均等級并列。然后求出等級差,經平方后求和,運用上式即可求得斯皮爾曼等級相關系數。取值范圍:[-1,1]

例:為了解活動能力與智商是否有關,進行了10名同學的抽樣調查,資料如表,問這10名同學的智商與活動能力是否有關。學生活動能力名次智商智商名次A11103B21103C31056D4959E51201F69410G71008H81056I91056J1011036、肯德爾和諧系數(1)應用條件:對于多變量求等級相關;Ri:第i個評價對象所獲評價值的等級和;K:評價者的個數n:評價對象的個數(2)計算過程:A、制表:將評價對象按列為第一位的評價者評價的等級,從小到大排列,然后排出其它評價者的評價序列;B、就每一個評價對象求出等級的和,記作R,然后求出R的平方;C、分別代入公式,求出肯德爾和諧系數;例:假設四位專家對10所大專院校環(huán)境質量進行排序,有關評價結果列于下表,試通過計算肯德爾和諧系數,檢驗專家意見的一致性和相關程度。

計算結果表明四位專家對10所大專院校環(huán)境質量排序的評價意見有顯著的相關性,即意見基本一致。第四節(jié)定距變量的相關分析對于定距變量,根據其變量值的數學特征,我們自然可以引進更為精確的量化指標來反映它們之間的相關程度。兩個定距變量之間的相關測量,最常用的就是所謂積差系數.它是由英國統(tǒng)計學家皮爾遜(Pearson)用積差方法推導出來,所以也稱皮爾遜相關系數,用符號r表示。

1.相關表和散點圖相關表:經整理后反映兩變量之間對應關系的數據表。散點圖:將相關表中各個有對應關系的數據在直角坐標系上標出來,就得到散點圖。散點圖可以直觀地觀察兩變量之間對應關系。工齡(年)X111333555777技術考核分Y1232343.54.55.5789散點圖表示的相關的類型★線性正相關★線性負相關★完全線性正相關★完全線性負相關★稱零相關

2.積差系數的計算

試就下表所示資料,計算關于員工的工齡和技術考核分的皮爾遜相關系數。

工齡(年)X111333555777技術考核分Y1232343.54.55.5789

N0工齡X技術考核分YX2Y2XY1234567891011121113335557771232343.54.55.5789111999252525494949149491612.2520.2530.25496481123691217.522.527.5495663

合計4852.5252299.75268.5解:計算過程見上表r=3.積差系數的性質(1)r是線性相關系數。(2)適用于定距/定比變量。(3)取值[-1,1],絕對值越大,相關程度越高。r的絕對值在0.3以下表示不相關;0.3~0.5表示低度相關;0.5~0.8表示中等相關;0.8以上表示高度相關。(4)X與Y是對稱關系。(5)相關系數的數值不受坐標點變化的影響。(6)具有PRE性質;(實際上是r2——判定系數才是真實的測量了相關,具有這一PRE的性質)(7)r公式中的兩個變量都是隨機的,因而改變兩者的位置并不影響r的數值。

相關系數取值及其意義

r

的取值范圍是[-1,1]|r|=1,表明x與y完全線性相關r=1,為完全正線性相關r=-1,為完全負線性相關

r=0,表明x與y不存在線性相關關系-1r<0,為負線性相關0<r1,為正線性相關|r|越趨于1表示x與y線性關系越密切;|r|越趨于0表示x與y線性關系越不密切注意事項:(1)注意實際意義

進行相關回歸分析要有實際意義,不可把毫無關系的兩個事物或現象用來作相關回歸分析。例如,有人說,孩子長,公園里的小樹也在長。求孩子和小樹之間的相關關系就毫無意義,用孩子的身高推測小樹的高度則更加荒謬。

(2)注意虛假相關

兩個事物間能計算出相關系數,并不一定能證明事物間有內在聯(lián)系,例如,有人發(fā)現,對于在校兒童,鞋的大小與閱讀技能有很強的相關關系。然而,學會新詞并不能使腳變大,而是涉及到第三個因素??年齡。當兒童長大一些,他們的閱讀能力會提高而且由于長大也穿不下原來的鞋。

(3)利用散點圖對于性質不明確的兩組數據,可先做散點圖,在圖上看它們有無關系、關系的密切程度、是正相關還是負相關,是直線相關還是曲線相關,然后再進行相關分析。

第五節(jié)回歸分析在分析定距變量間的關聯(lián)性時,最初關注的僅僅是變量相關的強度和方向,即進行積差相關分析。然而積差系數并不能表明X和Y之間的因果關系,要明確一個變量的變化能否由另一個變量的變化來解釋,或要通過已知變量很好地預測未知變量,就要進行回歸分析?;貧w分析與相關分析具有密切的聯(lián)系。一般說來,只有當兩個變量之間存在著較高程度的相關關系時,回歸分析才變得有意義和有價值。因此,往往先進行相關分析,然后才選用有明顯相關關系的變量作回歸分析。

回歸模型的類型按涉及變量多少分為:一元回歸和多元回歸按變量相關的形式分:線性回歸和非線性回歸(我們僅討論一元線性回歸分析問題)一個自變量兩個及以上自變量回歸模型多元回歸一元回歸線性回歸非線性回歸線性回歸非線性回歸幾個相關概念:(1)回歸:泛指變量間的數量關系;(2)回歸方程:把代表現象之間一般數量關系地直線或者曲線方程叫做回歸方程;(3)回歸分析:研究回歸關系的理論和方法;(1)相關分析中,變量x

變量y處于平等的地位;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預測因變量的變化(2)相關分析主要是描述兩個變量之間線性關系的密切程度;回歸分析不僅可以揭示變量x對變量y的影響大小,還可以由回歸方程進行預測和控制;回歸與相關的區(qū)別與聯(lián)系(3)相關程度越高,回歸預測越準確。

相關系數r反映了預測效果的好壞(4)回歸具有預測,推理的性質,而相關分析從本質上將只是對客觀事物的一種描述,回歸的層次比相關更深刻一些;一元線性回歸(1)當只涉及一個自變量時稱為一元回歸,若因變量y與自變量x之間為線性關系時稱為一元線性回歸(2)通過對具有相互聯(lián)系的變量之間變動關系的分析,建立一個合適的數學方程式,來近似反映這種關系,并作估計和預測,這個數學方程式為回歸方程,也稱為回歸模型;一元線性回歸分析,一般是先依據相關表做出散點圖,直觀地估計X和Y關聯(lián)性。如果兩變量的確呈現出一定的線性相關趨勢,便可以設所要求的回歸直線方程為

A、a表示直線的截距,即表示當自變量X等于0時,依變量Y所達到的數值;B、b是直線的斜率,亦稱為回歸系數,表示自變量X每變動一個單位時,依變量Y變動的大小和方向;當b>0時,y隨x的增加而增加,兩變量之間為正相關;當b<0時,y隨x的增加而減少,兩變量之間為負相關;當b=0時,y為一個常量,不隨x的變動而變動。C、Yc是因變量Y的預測值或稱估計值?;貧w方程的建立:①

先做散點圖;②利用最小平方法(各點到待估直線垂直距離之和為最?。?。

運用最小平方法可以在所有可能的直線中找到使Q達到最小的回歸直線

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論