第十二章 相關與回歸分析_第1頁
第十二章 相關與回歸分析_第2頁
第十二章 相關與回歸分析_第3頁
第十二章 相關與回歸分析_第4頁
第十二章 相關與回歸分析_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十二章相關與回歸分析第一節(jié)相關關系及種類第二節(jié)定類變量的相關分析第三節(jié)定序變量的相關分析第四節(jié)定距變量的相關分析第五節(jié)回歸分析10/16/20231

社會上,許多現(xiàn)象之間也都有相互聯(lián)系,例如:身高與體重、教育程度和收入、學業(yè)成就和家庭環(huán)境、智商與父母智力等。在這些有關系的現(xiàn)象中,它們之間聯(lián)系的程度和性質也各不相同。本書第十章提出了兩總體的檢驗及估計的問題,這意味著我們開始與雙變量統(tǒng)計方法打交道了。雙變量統(tǒng)計與單變量統(tǒng)計最大的不同之處是,客觀事物間的關聯(lián)性開始披露出來。這一章我們將把相關關系的討論深入下去,不僅要對相關關系的存在給出判斷,更要對相關關系的強度給出測量,同時要披露兩變量間的因果聯(lián)系,其內容分為相關分析和回歸分析這兩個大的方面。10/16/20232第一節(jié)變量之間的相互關系1.相關程度完全相關,指變量之間為函數關系;完全不相關指變量之間不存在任何依存關系,彼此獨立。不完全相關介于兩者之間。不完全相關是本章討論的重點。

由于數學手段上的局限性,統(tǒng)計學探討的最多的是定距—定距變量間能近似地表現(xiàn)為一條直線的線性相關。在統(tǒng)計中,對于線性相關,采用相關系數(記作r)這一指標來量度相關關系程度或強度。就線性相關來說,當r=l時,表示為完全相關;當r=0時,表現(xiàn)為無相關或零相關;當0<r<1時,表現(xiàn)為不完全相關。10/16/20233

2.相關方向:正相關和負相關

所謂正相關關系是指一個變量的值增加時,另一變量的值也增加。例如,受教育水平越高找到高薪水工作的機會也越大。而負相關關系是指一個變量的值增加時,另一變量的值卻減少。例如,受教育水平越高,理想子女數目越少。要強調的是,只有定序以上測量層次的變量才分析相關方向,因為只有這些變量的值有高低或多少之分。至于定類變量,由于變量的值并無大小、高低之分,故定類變量與其他變量相關時就沒有正負方向了。10/16/20234

3.因果關系與對稱關系

因果關系中兩個變量有自變量(independentVariable)和因變量(dependentVariable)之分:(1)兩個變量有共變關系;(2)因變量的變化是由自變量的變化引起的;(3)兩個變量的產生和變化有明確的時間順序,前者稱為自變量,后者稱為因變量。表現(xiàn)為對稱關系的相關關系,互為根據,不能區(qū)分自變量和因變量,或者說自變量和因變量可以根據研究目的任意選定,例如身高和體重之間的關系。10/16/202354.單相關和復相關從變量的多少上看,單相關只涉及兩個變量,亦稱二元相關;三個或三個以上變量之間的關系稱為復相關,亦稱多元相關。五、直線相關和曲線相關從變量變化的形式上看,如果關系近似地表現(xiàn)為一條直線,稱為直線相關或線性相關;如果關系近似地表現(xiàn)為一條曲線,則稱為曲線相關或稱為非線性相關。由于數學手段的局限性,我們以學習線性相關為主。在統(tǒng)計學中,通過分段處理線性相關也可以用于處理曲線相關。10/16/20236第二節(jié)定類變量的相關分析本節(jié)內容:1、列聯(lián)表2、削減誤差比例3、λ系數4、τ系數10/16/202371.列聯(lián)表

列聯(lián)表,是按品質標志把兩個變量的頻數分布進行交互分類,由于表內的每一個頻數都需同時滿足兩個變量的要求,所以列聯(lián)表又稱條件頻數表。例如,某區(qū)調查了357名選民,考察受教育程度與投票行為之間的關系,將所得資料作成下表,便是一種關于頻數的列聯(lián)表。10/16/202382×2頻數分布列聯(lián)表的一般形式習慣上把因變量Y放在表側,把自變量X放在表頭。2×2列聯(lián)表是最簡單的交互分類表。r×c列聯(lián)表r(row)、c(column)10/16/20239

r×c頻數分布列聯(lián)表的一般形式10/16/202310自己志愿知心朋友志愿總數快樂家庭理想工作增廣見聞快樂家庭289340理想工作241750增廣見聞24410總數32541410010/16/202311兩個邊際分布:10/16/202312條件頻數表中各頻數因基數不同不便作直接比較,因此有必要將頻數化成相對頻數,使基數標準化。這樣,我們就從頻數分布的列聯(lián)表得到了相對頻數分布的列聯(lián)表(或稱頻率分布的列聯(lián)表)。下表是r×c相對頻數分布列聯(lián)表的一般形式。10/16/202313

r×c相對頻數分布列聯(lián)表的一般形式10/16/202314

在相對頻數分布列聯(lián)表中,各數據為各分類出現(xiàn)的相對頻數(或者頻率)。將頻數化成相對頻數有兩種做法:

①相對頻數聯(lián)合分布兩個邊際分布或②相對頻數條件分布或10/16/202315

r×c相對頻數聯(lián)合分布列聯(lián)表10/16/202316控制X,Y相對頻數條件分布列聯(lián)表10/16/202317控制Y,X相對頻數條件分布列聯(lián)表10/16/202318[例A1]試把下表所示的頻數分布列聯(lián)表,轉化為自變量受到控制的相對頻數條件分布列聯(lián)表,并加以相關分析。

投票行為Y受教育程度X

大學以上大學以下投票棄權16071296128968合計:16719035710/16/202319從上表可知,受過大學以上教育的被調查者絕大多數(占95.8%)是投票的,受教育程度在大學以下的被調查者雖多數也參與投票(占67.9%),但后者參與投票的百分比遠小于前者;前者只有4.2%棄權,而后者則有32.1%棄權。兩相比較可知,受教育程度不同,參與投票的行為不同,因此兩個變量是相關的。投票行為Y受教育程度X大學以上大學以下投票棄權95.8%(160/167)4.2%(7/167)67.9%(129/190)32.1%(61/190)81.0%(289/357)19.0%(68/357)100.0%(167))100.0%(190)100.0%(357)10/16/202320[例A2]試把下表所示的頻數分布列聯(lián)表,轉化為相對頻數條件分布列聯(lián)表和自變量受到控制的相對頻數條件分布列聯(lián)表,并加以相關分析。

投票行為Y受教育程度X

大學以上大學以下投票棄權1006711476214143合計:16719035710/16/202321上表顯示,大學以上文化程度和大學以下文化程度同樣各有60%的人參與投票,40%的人棄權,并沒有因為受教育程度不同,而使參與投票的行為有所不同。因此,此時的兩個變量是不相關的,或者說是獨立的。我們不難發(fā)現(xiàn),此時反映全體投票情況的相對頻數的邊際分布()也各有60%的人參與投票,40%的人棄權。投票行為Y受教育程度X大學以上大學以下投票棄權60.0%(100/167)40.0%(67/167)60.0%(114/190)40.0%(76/190)60.0%(214/357)40.0%(143/357)100.0%(167))100.0%(190)100.0%(357)10/16/202322上表顯示,當兩個變量不相關時有。如0.532×0.40=0.213。投票行為Y受教育程度X大學以上大學以下投票棄權28.0%(100/357)18.8%(67/357)31.9%(114/357)21.3%(76/357)60.0%(214/357)40.0%(143/357)46.8%(167/357)53.2%(190/357)100.0%(357)10/16/202323[例B]某社區(qū)調查了120名市民,考察性別與對吸煙態(tài)度之間的關系,試將所得資料作成相對頻數的聯(lián)合分布、邊際分布和條件分布列聯(lián)表,并進行相關分析。性別與對吸煙的態(tài)度態(tài)度Y性別X合計男女容忍48856反對204464合計685212010/16/202324相對頻數聯(lián)合分布列聯(lián)表態(tài)度Y性別X男(X1)女(X2)容忍Y140.0%6.7%46.7%反對Y216.7%36.6%53.3%56.7%43.3%100%(120)10/16/202325相對頻數條件分布列聯(lián)表態(tài)度Y性別X男()女()容忍70.6%15.4%46.7%(56)反對29.4%84.6%53.3%(64)100%(68)100%(52)100%(120)10/16/2023262675名雙親和他們10071個子女

的智力的關系(%)(相對頻數條件分布列聯(lián)表)

父母智力組合

子女智力優(yōu)秀

子女智力一般

子女智力低下優(yōu)+優(yōu)71.625.43.0優(yōu)+劣33.642.723.7一般+一般18.666.914.5劣+劣5.434.460.210/16/202327

通過列聯(lián)表研究定類變量之間的關聯(lián)性,這實際上是通過相對頻數條件分布的比較進行的。如果對不同的X,Y的相對頻數條件分布不同,且和Y的相對頻數邊際分布不同,則兩變量之間是相關的。而如果變量間是相互獨立的話,必然存在著Y的相對頻數條件分布相同,且和它的相對頻數邊際分布相同。后者用數學式表示就是或者10/16/2023282.削減誤差比例PRE(ProportionateReductioninError)通過相對頻數條件分布列聯(lián)表的討論,可以就自變量X和因變量Y的關聯(lián)性給出一個初步的判斷。但是對關聯(lián)性給出判斷,肯定沒有用量化指標表達來得好。所以,下面我們將關注于如何用統(tǒng)計方法,使相關關系的強弱可以通過某些簡單的系數明確地表達出來。在社會統(tǒng)計中,表達相關關系的強弱,削減誤差比例的概念是非常有價值的。削減誤差比例的原理是,如果兩變量間存在著一定的關聯(lián)性,那么知道這種關聯(lián)性,必然有助于我們通過一個變量去預測另一變量。其中關系密切者,在由一變量預測另一變量時,盲目性必然較關系不密切者為小。10/16/202329

PRE:用不知道Y與X有關系時預測Y的全部誤差E1,減去知道Y與X有關系時預測Y的聯(lián)系誤差E2,再將其化為比例來度量

PRE的取值范圍是0≤PRE≤l削減誤差比例PRE適用于各測量層次的變量,λ系數和τ系數便是在定類測量的層次上以削減誤差比例PRE為基礎所設計的兩種相關系數。

10/16/202330PRE=(56-28)/56=0.5態(tài)度Y性別X合計男女容忍48856反對204464合計685212010/16/2023313.λ系數

在定類尺度上測量集中趨勢只能用眾數。λ系數就是利用此性質來構造相關系數的。(1)不對稱的λ系數10/16/202332[例]對下表所示資料,用λ系數反映性別與收入高低的相關關系。收入Y性別X合計男女低60150210高12070190合16/20233310/16/202334(2)對稱的λ系數10/16/202335[例]研究工作類別與工作價值的關系,工作類別可分為三類:工人、技術人員、管理/行政人員;工作價值也可分為三類:以收入/福利為最重要的職業(yè)選擇標準的稱為經濟取向型,以工作的創(chuàng)造性、挑戰(zhàn)性為最重要的職業(yè)選擇標準的稱為成就取向型,以工作中的人際關系為最重要的職業(yè)選擇標準的稱為人際關系取向型。對下表所示資料,用λ系數反映工作類別與工作價值的相關關系。10/16/202336

職工的工作種類與工作價值

工作價值Y工作種類X合計工人技術人員管理/行政人員經濟取向型成就取向型人際關系取向型100302070601050204022011070合計:FX15014011040010/16/20233710/16/202338性質:(1)0≤λ≤1(2)具有PRE意義。(3)對稱與不對稱情況下,有不同的公式。(4)以眾數作為預測的準則,對條件頻數分布列聯(lián)表中眾數頻數以外的條件頻數不予理會。

(5)如果眾數頻數集中在條件頻數分布列聯(lián)表的同一行時,λ=0,從而無法顯示兩變量之間的相關性。

10/16/2023394.τ系數

τ系數的統(tǒng)計值域是[0,1],其特點是在計算時考慮所有的邊際頻數和條件頻數

。

注意:當眾數很突出且眾數分布不在同一行,同一列時,用λ系數較好;但當眾數不突出時,用τ系數更好;若眾數集中在某一行或某一列,一定用τ系數。10/16/202340

[例]對下表所示資料,用τ系數反映性別與收入高低的相關關系,并對系數的PRE意義加以解釋。收入Y性別X合計男女低60150210高12070190合16/202341

10/16/202342練習:調查100名青年人與其知心朋友的志愿,條件次數分布如下:計算知心朋友的志愿與自己志愿之間的相關關系,并提出研究結論。自己志愿知心朋友志愿總數快樂家庭理想工作增廣見聞快樂家庭289340理想工作241750增廣見聞24410總數32541410010/16/202343第三節(jié)定序變量的相關分析定序變量只能排列高低次序,因而在分析時只能考慮兩變量變化的順序是否一致及其等級之間的差距。以此來計算兩變量的相關系數。1、同序對、異序對和同分對2、Gamma等級相關系數3、肯德爾等級相關系數4、薩默斯系數(d系數)5、Spearman等級相關系數6、肯德爾和諧系數10/16/2023441.同序對、異序對、同分對

社會學研究常用的兩定序變量的相關測量法,有一類是以同序對、異序對、同分對的概念為基礎的,如Gamma系數、肯德爾系數、d系數等。所以我們在討論這幾種相關系數之前,先來了解這三個概念。10/16/202345

在定序相關測量中,首先要搞清楚“次序對(pair)”的概念。例如,假設研究員工的工作滿足感與歸屬感的關系,將工作滿足感從低到高,分為低(1)、中(2)和高(3)三個級別,歸屬感也從低到高分為低(1)、中(2)和高(3)三個級別。下表列示的是5名被訪者A、B、C、D、E的情況。單元XYA12B12C13D23E3110/16/202346同序對參見上表(注意,為了容易識別各種次序對,該表已先將被訪者按定序變量X由低到高作了排列),在觀察X序列時如果我們看到Xi<Xj,在Y序列中看到的是Yi<Yj,則稱這一配對是同序對。同序對只要求X變化方向和Y變化方向相同,并不要求X變化大小和Y變化大小相等。同序對的總數用符號ns表示。異序對見上表,在觀察X序列時如果我們看到Xi<Xj,在Y序列中看到的是Yi>Yj,則稱這一配對是異序對。同樣,異序對只要求X變化方向和Y變化方向相同,并不要求X變化大小和Y變化大小相等。同序對的總數用符號nd表示。10/16/202347同分對如果在X序列中,我們觀察到Xi=Xj(此時在Y序列中無Yi=Yj),則這個配對僅是X方向上而非Y方向上的同分對;X的這種同分對用符號nx表示。如果在Y

序列中,我們觀察到Yi=Yj(此時在X序列中無Xi=Xj),則這個配對僅是Y

方向上而非X方向上的同分對;Y

的這種同分對用符號ny表示。如果我們觀察到Xi=Xj時,也觀察到Yi=Yj,則稱這兩個配對為X與Y同分對,以符號nxy表示。X

同分對的總數用符號Tx表示,Tx=nx+nxy;Y同分對的總數用符號Ty表示,Ty=ny+nxy。

n個單位兩兩配對,總對數=ns+nd+nx+

ny+nxy

10/16/202348計算Gamma系數,肯得爾系數、d系數等,我們面對的經常是兩定序變量已形成列聯(lián)表的資料,所以對我們來說很重要的是要學會定序變量列聯(lián)表中這五種“次序對”的計算和識別。同序對:“右下余子式”法異序對:“左下余子式”法10/16/202349高中低高843中651低445

工作滿足感與歸屬感

10/16/2023502.Gamma系數性質:(1)取值范圍[-1,1](2)具有PRE意義(3)屬對稱相關測量。(4)不考慮同分對。10/16/202351例:在某市200戶中調查,看住戶人口密度與婆媳沖突是否有關,交互分類后分布如下,計算G相關系數并提出研究結論。婆媳沖突住戶密度總數高中低高2320449中11552894低8272459總數421025620010/16/2023523.肯德爾等級相關系數(1)Tau-a系數

適用于不存在任何同分對的情況。

10/16/202353某市有12所大專院校,現(xiàn)組織一個評審委員會對各院校校園環(huán)境及學生體質進行評價,評價結果如表(表中已先將學校按X作了次序排列)所示,試計算校園環(huán)境和學生體質關系的肯德爾相關系數。學校名ABCDEFGHIJ環(huán)境名次(X)體質名次(Y)123456789102153746810910/16/202354(2)Tau-b系數當出現(xiàn)同分對時,對分母進行修正。與G系數一樣,Tau-b系數也具有消減誤差比例的意義。Tau-b系數的特殊性在于,只有在列聯(lián)表的行數與列數相同(r=c)的情況下,其系數值才可能是-1或+1,否則便不確定。

10/16/202355(3)Tau-c系數當同分對很多時,且r≠c,可以用Tau-c系數來測量。

m取r×c列聯(lián)表中r和c值較小者。Tau-c系數沒有消減誤差比例的意義。

10/16/2023564.薩默斯(d系數)薩默爾斯提出的,對G系數進行修正。d系數具有PRE意義,取值[-1,1],為不對稱測量。

10/16/2023575.Spearman等級相關系數

運用上式計算等級相關系數很簡便:首先將定序變量X和Y的數值形成對應的兩個序數數列(其中先將X由小到大排)。如遇有相等的數值時,則應將原有的等級求其平均數,讓它們以這平均等級并列。然后求出等級差,經平方后求和,運用上式即可求得斯皮爾曼等級相關系數。例:為了解活動能力與智商是否有關,作了10名同學的抽樣調查,資料如表,問這10名同學的智商與活動能力是否有關。10/16/202358學生活動能力名次智商智商名次A11103B21103C31056D4959E51201F69410G71008H81056I91056J10110310/16/2023596.肯德爾和諧系數前面我們談的都是對雙變量求等級相關系數。對于多變量求等級相關系數,如多個專家對同一事物評價的一致性或相關程度的衡量,肯德爾運用數理分析方法,提出了一個計算公式10/16/202360假設四位專家對10所大專院校環(huán)境質量進行排序,有關評價結果列于下表中,試通過計算肯德爾和諧系數,檢驗專家意見的一致性和相關程度。

專家名

大專院校名

合計ABCDEFGHIJABCD12345678910321458671091324576891042153786109————————等級和R

R29971718282729383881814928932478472984114441444——606610/16/202361例:通過對1500多名青年作社會調查,探討當代青年擇業(yè)傾向與對社會經濟生活的基本態(tài)度,得資料如表,求等級相關系數(當代青年擇業(yè)傾向與他們對職業(yè)社會地位的等級認定的關系;擇業(yè)傾向與他們對職業(yè)的富裕程度認定的關系)。10/16/202362職業(yè)等級認為社會地位富裕程度擇業(yè)理想行政事業(yè)152各類專業(yè)241企業(yè)333教師464商業(yè)525工人687個體戶716農民87810/16/202363試就以下單元數據,列舉其

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論