第九 雙變量的統(tǒng)計(jì)分析(相關(guān)分析).ppt_第1頁(yè)
第九 雙變量的統(tǒng)計(jì)分析(相關(guān)分析).ppt_第2頁(yè)
第九 雙變量的統(tǒng)計(jì)分析(相關(guān)分析).ppt_第3頁(yè)
第九 雙變量的統(tǒng)計(jì)分析(相關(guān)分析).ppt_第4頁(yè)
第九 雙變量的統(tǒng)計(jì)分析(相關(guān)分析).ppt_第5頁(yè)
已閱讀5頁(yè),還剩129頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第九講 雙變量的統(tǒng)計(jì)分析,“學(xué)好數(shù)理化,走遍天下都不怕” “學(xué)好數(shù)理化,不如有個(gè)好爸爸” 布勞與鄧肯在1967年出版的美國(guó)的職業(yè)結(jié)構(gòu)中研究了父親職業(yè)與子女職業(yè)的關(guān)系,先賦地位和自致地位哪一個(gè)在個(gè)人生活中具有更重要的作用。 盡管家庭背景(父親的職業(yè)與受教育水平)給美國(guó)男性的職業(yè)地位獲得以顯著作用,在決定美國(guó)在職男性社會(huì)地位獲得的因素中,由個(gè)人努力所達(dá)到的“受教育水平”要比來自于“父親職業(yè)地位”的作用更強(qiáng)。 他們解釋說,美國(guó)是一個(gè)相當(dāng)開放的社會(huì)越是工業(yè)化社會(huì),先賦性因素對(duì)個(gè)人社會(huì)地位獲得的影響就越弱;越是傳統(tǒng)型社會(huì),先賦性因素對(duì)個(gè)人社會(huì)地位獲得的影響就越強(qiáng)。但是,即使如此,在美國(guó)這樣城市化和工業(yè)化

2、水平較高的西方市場(chǎng)化國(guó)家,來自于父親的先賦性因素,對(duì)子女職業(yè)地位的獲得仍然具有雖然微弱但卻顯著而直接的影響。,那么中國(guó)的情況如何? 白威廉(William Parish)的研究最具影響力,白氏通過對(duì)中國(guó)大陸1972-1978年間遷居香港的132位移民的訪談,得到了他們2865位鄰居的數(shù)據(jù),發(fā)現(xiàn):對(duì)于那些在“文革”前(1966年前)就年滿20歲的同期群案例來說,父親的“受教育水平”與“職業(yè)地位”對(duì)子女的受教育水平,父親的“職業(yè)地位”與“階級(jí)出身”對(duì)子女的“職業(yè)地位”獲得等具有顯著影響作用。但對(duì)于那些在“文革”時(shí)期才年滿20歲的同期群案例來說,作用卻并不顯著。 謝文和林南于1983年在北京的調(diào)查(

3、N=1774)、林南和邊燕杰于1985在天津的調(diào)查(N=1000)等進(jìn)一步證實(shí):父親的職業(yè)地位既對(duì)人們的初職地位獲得毫無影響,也對(duì)人們目前職業(yè)地位的獲得缺少明顯作用。 林南與邊燕杰將“工作單位部門”這一具有國(guó)家社會(huì)主義特色的指標(biāo)作為中介變量,置于職業(yè)地位之前進(jìn)行檢驗(yàn)。研究發(fā)現(xiàn),雖然父親的職業(yè)地位對(duì)子女的教育和職業(yè)地位獲得缺少統(tǒng)計(jì)意義的影響,但父親的“工作單位部門”卻通過對(duì)兒子“工作單位部門”的作用而影響了兒子的初職地位獲得,但女兒卻無此殊榮。,單變量的分析和統(tǒng)計(jì)描述,是我們了解和認(rèn)識(shí)社會(huì)現(xiàn)象的基礎(chǔ)。 但社會(huì)生活中的現(xiàn)象并不是孤立存在的,現(xiàn)象之間往往存在或多或少的關(guān)系,或者說,社會(huì)現(xiàn)象之間往往是

4、相互聯(lián)系、相互影響、相互依存的。 進(jìn)一步了解社會(huì)現(xiàn)象發(fā)生和變化的原因,揭示社會(huì)現(xiàn)象的發(fā)展規(guī)律,探索和發(fā)現(xiàn)現(xiàn)象之間的關(guān)系,才是大多數(shù)社會(huì)研究的主要目的,而這則需要對(duì)兩個(gè)變量或多個(gè)變量之間的關(guān)系進(jìn)行分析。,變量之間的關(guān)系,兩個(gè)變量之間的關(guān)系 多個(gè)變量之間的關(guān)系。 在多數(shù)情況下,多個(gè)變量之間的關(guān)系又可以分解為若干個(gè)兩個(gè)變量之間的關(guān)系,也就是說多個(gè)變量之間的關(guān)系可以通過若干個(gè)兩個(gè)變量間的關(guān)系來描述。,知識(shí)點(diǎn),雙變量間關(guān)系的種類 主要的雙變量的測(cè)量方法 (1)交互分析列聯(lián)表分析 (2)不同層次變量的測(cè)量法 (3)自變量和因變量的關(guān)系 相關(guān)分析和因果分析,一、相關(guān)關(guān)系(correlation),兩變量間的

5、相關(guān)關(guān)系指的是一個(gè)變量的值與另一個(gè)變量有連帶關(guān)系。也就是,當(dāng)一個(gè)變量發(fā)生變化時(shí)(或取值不同時(shí)),另一個(gè)變量也隨之發(fā)生變化。 如: 文化程度 收入期望 女性的文化程度 生育期望,1、相關(guān)的性質(zhì),(1)相關(guān)關(guān)系的強(qiáng)度 相關(guān)程度,指的是相關(guān)關(guān)系的強(qiáng)弱或大小。相關(guān)關(guān)系的強(qiáng)弱或大小可以用統(tǒng)計(jì)法進(jìn)行測(cè)量。變量間相關(guān)關(guān)系的統(tǒng)計(jì)結(jié)果稱為相關(guān)系數(shù)。 相關(guān)關(guān)系的程度介于-1,1之間,數(shù)值絕對(duì)值越大,表示相關(guān)的程度越強(qiáng).正負(fù)號(hào)表示的是相關(guān)關(guān)系的方向.0代表無相關(guān),1 代表全相關(guān).見圖9-1來說明.,注意: 社會(huì)調(diào)查中各相關(guān)系數(shù)的值不可能達(dá)到1 相關(guān)系數(shù)只表示各變量間相關(guān)程度的指標(biāo),沒有數(shù)量的關(guān)系。 如0.5和0.2

6、5,并不表示0.5比0.25的相關(guān)大0.25,或者是0.25相關(guān)的兩倍,圖9-1 X與Y的相關(guān)關(guān)系 X和Y分別代表兩個(gè)變量,各有二個(gè)取值(1,2),表中的a、b、c、d分別表示不同情況下個(gè)案的數(shù)目,如果a=d=0或b=c=0,則表示X和Y全相關(guān); 如果ad=bc,即,則表示X和Y無關(guān); 如果adbc或adbc,則表示X和Y有相關(guān)關(guān)系。,例1:a=d=0或b=c=0,兩個(gè)變量全相關(guān),例2:ad=bc,對(duì)角線相等,則表示無相關(guān),例3:如果adbc或adbc,則表示X和Y有相關(guān)關(guān)系。,(2)相關(guān)關(guān)系的方向(+、-),正相關(guān)關(guān)系和負(fù)相關(guān)關(guān)系 正相關(guān)關(guān)系:一個(gè)變量的取值增加時(shí),另一個(gè)變量的取值也增加,反

7、之亦然; 人們的文化程度越高,他們的收入水平也越高;文化程度較低的人,他們的收入水平也普遍較低。反之,那些收入水平較低的人,他們的文化程度一般來說也較低。,負(fù)相關(guān)關(guān)系:一個(gè)變量的取值增加時(shí),另一個(gè)變量的取值減少;而一個(gè)變量的值減少時(shí),另一個(gè)變量值的增加。 在調(diào)查中發(fā)現(xiàn),文化程度越高的被調(diào)查者,在回答問卷時(shí),花費(fèi)的時(shí)間越少,而文化程度較低的被調(diào)查者,填答問卷時(shí)花費(fèi)的時(shí)間較長(zhǎng)。在此,我們可以說文化程度和問卷填答時(shí)間之間存在著負(fù)相關(guān)關(guān)系。 注意:方向的分析只適用于定序以上層次的變量,(3)相關(guān)關(guān)系的對(duì)稱性與非對(duì)稱性,相關(guān)的兩個(gè)變量,不一定有因果關(guān)系,可能是共同變化。 不對(duì)稱關(guān)系:自變量X影響因變量Y

8、,但是因變量Y不會(huì)影響X-因果關(guān)系, 如施肥量和小麥產(chǎn)量之間的關(guān)系 對(duì)稱關(guān)系:不能確定或區(qū)分兩個(gè)變量的方向。 如交往的多少與他們的互愛程度,因果關(guān)系,大多數(shù)的社會(huì)研究,都涉及因果關(guān)系的概念,社會(huì)研究的最終目的,往往在與希望獲得某些社會(huì)現(xiàn)象間因果關(guān)系的知識(shí)。 如“受教育程度與人們的職業(yè)獲得的研究”、“不同職業(yè)的被調(diào)查者收入的差異”-首先認(rèn)為這些變量之間存在因果關(guān)系。 研究的目的在于辨明這些研究的因果關(guān)系狀態(tài),因果關(guān)系必須滿足三個(gè)條件:,第一.變量X與變量Y存在著不對(duì)稱的相關(guān)關(guān)系,這是因果關(guān)系成立的必要條件; 第二.變量X與變量Y在發(fā)生順序上有先后之別,即先有原因(自變量)的變化,后有結(jié)果(因變量

9、)的變化. 第三.變量x與變量Y的變化不會(huì)受第三個(gè)變量的影響,也就是說兩個(gè)變量的關(guān)系不是某種虛假的或表面的關(guān)系,而是實(shí)際存在的關(guān)系.,(4)相關(guān)的類型,相關(guān)關(guān)系是一種數(shù)量關(guān)系上不很嚴(yán)格的相互依存關(guān)系。 如果這種關(guān)系近似地表現(xiàn)為一條直線,就稱為直線相關(guān),又稱線性相關(guān); 如果這個(gè)關(guān)系近似地表現(xiàn)為一條曲線,則稱為曲線相關(guān),又稱非線性相關(guān)。 雖然在自然界和社會(huì)生活中,曲線相關(guān)現(xiàn)象遠(yuǎn)比直線相關(guān)更多,但由于數(shù)學(xué)手段上的局限性,社會(huì)統(tǒng)計(jì)研究中多以闡述線性(直線)相關(guān)為主。,5、削減誤差比例,1、兩個(gè)變量間關(guān)系的強(qiáng)弱 2、消減誤差比例(PRE測(cè)量,Proportionate reduction in erro

10、r):我們?cè)陬A(yù)測(cè)或解釋社會(huì)現(xiàn)象y時(shí),難免會(huì)有誤差(錯(cuò)誤),假定另一種社會(huì)現(xiàn)象x與y是有關(guān)系的,我們可以根據(jù)x的值來預(yù)測(cè)y的值,理應(yīng)可以減少若干誤差,其值表示的就是x對(duì)y的誤差的消減程度.而且X與y的關(guān)系越強(qiáng),所能減少的誤差就會(huì)越多.換言之,減少誤差的多少,可以反映X與Y之間關(guān)系的強(qiáng)弱程度.,理解:x對(duì)y的可認(rèn)知程度,如假定不知道x的值,我們?cè)谡J(rèn)識(shí)y時(shí)的全部誤差是E1。我們知道x的值,可以根據(jù)x的值來認(rèn)識(shí)y的值時(shí)的誤差的總數(shù)(不可認(rèn)知的部分)為E2,那么用x的值來預(yù)測(cè)y的值時(shí)減少的誤差就是E1-E2,這個(gè)值( E1-E2 )與y全部誤差的比例,則稱謂消減了的誤差比例,Y 右圖紅色表示E1-E2,

11、,E1,PRE值的意義,1、PRE的值在0,1 2、E2=0,則PRE=1,x與y是全相關(guān),用x解釋y時(shí)不會(huì)產(chǎn)生誤差 3、E1=E2,則PRE=0,x與y是無相關(guān),用x來預(yù)測(cè)y時(shí)產(chǎn)生的誤差等于不用x來預(yù)測(cè)y時(shí)的誤差 4、如PRE=0.8,表示用x預(yù)測(cè)y可以減少80%的誤差,也反映了兩者的相關(guān)程度頗高;如果PRE=0.08,則表示只能減少8%的誤差,即x對(duì)y的影響甚小,需要尋找其他的變量解釋或預(yù)測(cè)y,強(qiáng)調(diào):相關(guān)值的兩個(gè)意義,兩個(gè)變量之間關(guān)系的大小 用一個(gè)變量預(yù)測(cè)另一個(gè)變量能消減的誤差比例,二、交互分類表與列聯(lián)表,交互分類就是將調(diào)查所得的一組數(shù)據(jù)按照兩個(gè)不同的變量進(jìn)行綜合分類。通常以交互分類表(列

12、聯(lián)表)的形式出現(xiàn),如表1:,交互分析的作用,如表3,我們只能得出贊成和反對(duì)的人大致相等的結(jié)論,實(shí)際從不同性別來看,男性和女性之間存在很大的差異,思考: 兩個(gè)表格所顯示信息的差異,交互分析的作用,較為深入的描述樣本資料的分布狀況和內(nèi)在結(jié)構(gòu)。 對(duì)變量之間的關(guān)系進(jìn)行分析和解釋,交互分類表的形式要求,每個(gè)表的頂端要有表號(hào)和標(biāo)題 線條規(guī)范、簡(jiǎn)潔,最好不用豎線 百分比符號(hào)的處理:一種在表頂端的右角;另一種在表中每一列數(shù)字的上方 表的下端用括號(hào)標(biāo)出每一列的頻數(shù) 兩個(gè)變量的安排:通常是將自變量、或被看作自變量或用來做解釋的變量放在上面(列),將因變量、或被看作因變量、或被解釋的那個(gè)變量放在表的左側(cè)(行)。 變

13、量取值不宜太多。如4個(gè)自變量,5個(gè)因變量就是20個(gè)百分比 少數(shù)點(diǎn)的位數(shù)要一致。如67.3和50.0 必須要進(jìn)行假設(shè)檢驗(yàn)(多選變量的分析可以沒有),三、變量的測(cè)量層次與相關(guān)測(cè)量法,變量之間的關(guān)系 定類變量定類變量 定序變量定序變量 定距變量定距變量 定類變量定序變量 測(cè)量法是什么? 定類變量定距變量 定序變量定距變量,(一)兩個(gè)定類變量:Lambda,tau-y,1、Lambda(又叫葛特曼預(yù)測(cè)系數(shù)) 基本邏輯:用一個(gè)定類變量的值來預(yù)測(cè)另一個(gè)定類變量的值時(shí),如果以眾數(shù)作為測(cè)量的準(zhǔn)則,可以減少多少誤差。 消減的誤差在全部誤差中所占的比例越大,就表示兩個(gè)變量的相關(guān)越強(qiáng). 其值在0到1之間,0表示兩個(gè)

14、變量不相關(guān),1表示兩個(gè)變量全相關(guān),數(shù)值越大,相關(guān)程度越強(qiáng). 有兩種測(cè)量形式:一種是對(duì)稱形式;一種是非對(duì)稱形式,公式:,(1)不對(duì)稱形式: My=Y變項(xiàng)的眾數(shù)次數(shù) my=X變項(xiàng)的每個(gè)值(類別)之下Y變項(xiàng)的眾數(shù)的次數(shù) n=全部個(gè)案數(shù) n-My=不知道x值的情況下預(yù)測(cè)Y值產(chǎn)生的誤差 分子E1-E2=(n-My)-(n-my)= my-My,例1:分析性別與理想志愿之間的關(guān)系,(2)對(duì)稱形式:不確定兩個(gè)變量的影響方向,My=Y變項(xiàng)的眾數(shù)次數(shù) Mx=X變項(xiàng)的眾數(shù)次數(shù) mx=Y變項(xiàng)的每個(gè)值(類別)之下X變項(xiàng)的眾數(shù)次數(shù) my=X變項(xiàng)的每個(gè)值(類別)之下Y變項(xiàng)的眾數(shù)次數(shù) n=全部個(gè)案數(shù),例:青年的教育期望與父

15、母的教育期望,特例:如下表,72.4%的制造業(yè)工人和64.3%的服務(wù)業(yè)人員注重物質(zhì)報(bào)酬,職業(yè)類型與價(jià)值取向是略有影響的,但是,2、tau-y,不對(duì)稱測(cè)量法 系數(shù)值介于0-1之間 計(jì)算系數(shù)時(shí)包括了所有的邊緣次數(shù)和條件次數(shù) 如果是不對(duì)稱關(guān)系最好選用tau-y計(jì)算 計(jì)算過程:先求出E1和E2,計(jì)算消減誤差的比例,n=全部個(gè)案數(shù)目 f=某條件次數(shù) Fy=Y變項(xiàng)的某個(gè)邊緣次數(shù) Fx=X變項(xiàng)的某個(gè)邊緣次數(shù),E1:如果不知道x,則每次預(yù)測(cè)y變量時(shí)的錯(cuò)誤機(jī)率是(n-Fy)/n,乘以Fy表示y值時(shí)的錯(cuò)誤總數(shù),y變量有多個(gè)值,將各值的錯(cuò)誤總數(shù)相加起來就是E1; E2:如果知道x變量(如某一性別),則預(yù)測(cè)y值時(shí)的錯(cuò)

16、誤機(jī)率是(Fx-f)/Fx,乘以f便是預(yù)測(cè)y值得錯(cuò)誤總數(shù)。在每個(gè)x下y有多個(gè)取值,將各個(gè)值的預(yù)測(cè)錯(cuò)誤相加起來就是E2。,前例:,(二)兩個(gè)定序變量:Gamma、 dy,對(duì)稱關(guān)系:Gamma( 古德曼Goodman和古魯斯卡Kruskal)用G表示 不對(duì)稱關(guān)系:薩默斯(Somers)的dy 系數(shù)值-1,+1 系數(shù)值既表示相關(guān)的程度,也表示相關(guān)的方向,還具有消減誤差比例的意義 基本邏輯:根據(jù)任何兩個(gè)個(gè)案在某變項(xiàng)上的等級(jí)來預(yù)測(cè)他們?cè)诹硪粋€(gè)變量上的等級(jí)時(shí),可以減少的誤差是多少,等級(jí),1、同序?qū)Γ╯ame-order pair或concordant pair),指的是某對(duì)個(gè)案在兩個(gè)變量上的相對(duì)等級(jí)是相同

17、的,通常用Ns表示。假設(shè)個(gè)案A在X變量的等級(jí)為Xa,在Y變量的等級(jí)為Ya;個(gè)案B在X變量上的等級(jí)是Xb,在Y變量上的等級(jí)是Yb,如果,Xa Xb,Ya Yb,那么,就稱個(gè)案A和B是同序?qū)?。?jiǎn)言之,如果某對(duì)個(gè)案其中一個(gè)個(gè)案在兩個(gè)變量上的等級(jí)同時(shí)高于或同時(shí)低于對(duì)方,該對(duì)個(gè)案便可稱為同序?qū)Α?2、異序?qū)Γ╠ifferent-ordered pair 或discordant pair),指的是某對(duì)個(gè)案在兩個(gè)變量上的相對(duì)等級(jí)是不相同的,通常用Nd表示。假設(shè)個(gè)案A在X變量的等級(jí)為Xa,在Y變量的等級(jí)為Ya,個(gè)案B在X變量上的等級(jí)是Xb,在Y變量上的等級(jí)是Yb,如果,Xa Xb,Ya Yb,那么,就稱個(gè)案A

18、和B是異序?qū)Α:?jiǎn)言之,如果某對(duì)個(gè)案中,其中一個(gè)個(gè)案在兩個(gè)變量上,一個(gè)變量的等級(jí)高于對(duì)方,另一個(gè)變量的等級(jí)低于對(duì)方,這對(duì)個(gè)案就可稱為異序?qū)Α?3、X同分對(duì)(same graded pair on X),指的是兩個(gè)個(gè)案在X變量上的等級(jí)是相同的,區(qū)分不出高低,通常用Tx表示。假設(shè)個(gè)案A在X變量的等級(jí)為Xa,在Y變量的等級(jí)為Ya,個(gè)案B在X變量上的等級(jí)是Xb,在Y變量上的等級(jí)是Yb,如果XaXb,YaYb,則稱個(gè)案A和B是X同分對(duì)。 4、Y同分對(duì)(same graded pair on Y),則是指兩個(gè)個(gè)案在Y變量上的等級(jí)是相同的,通常用Ty表示。假設(shè)個(gè)案A在X變量的等級(jí)為Xa,在Y變量的等級(jí)為Ya,

19、個(gè)案B在X變量上的等級(jí)是Xb,在Y變量上的等級(jí)是Yb,如果XaXb,YaYb,則稱個(gè)案A和B是Y同分對(duì)。 5、X、Y同分對(duì)(same graded pair on X and Y),則是指兩個(gè)個(gè)案在X和Y變量上的等級(jí)都是相同的,通常用Txy表示。假設(shè)個(gè)案A在X變量的等級(jí)為Xa,在Y變量的等級(jí)為Ya,個(gè)案B在X變量上的等級(jí)是Xb,在Y變量上的等級(jí)是Yb,如果Xa=Xb,Ya=Yb,則稱個(gè)案A和B是X、Y同分對(duì)。,等級(jí):同序?qū)彤愋驅(qū)?同序?qū)Γ篈-B,A-C 異序?qū)Γ篋-E X同分對(duì):B-C,C-E Y同分對(duì):C-D X、Y同分對(duì):B-E,Gamma的計(jì)算公式:,NS=12(30+5+16+12)

20、+10(5+12)+8(16+12)+30*12=1510 Ns=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22*f33,Ns=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22(f33) 同序?qū)Γ骸坝蚁掠嘧邮健狈?Nd=f31(f12+f22+f13+f23)+f21(f12+f13)+f32(f13+f23)+f22(f13) 異序?qū)Γ骸白笙掠嘧邮健狈?Nd=f13(f21+f22+f31+f32)+f12(f21+f31)+f23(f31+f32)+f22*f31 Nd=3(30+8+

21、16+4)+10(8+4)+5(4+16)+304=514,Tx、Ty 具體的計(jì)算方法,Tx:同一縱列的次數(shù)的乘積 Tx=f11(f21)+f12(f22) Ty:同一橫行的次數(shù)的乘積 Ty=f11(f12)+f21(f22) Txy:兩個(gè)變量同分的對(duì)數(shù),先求出每個(gè)方格內(nèi)個(gè)案的對(duì)數(shù),將其加起來 Txy=f11(f11-1)/2+f12(f12-1)/2 +f21(f21-1)/2+f22(f22-1)/2,工人的文化程度和收入水平成正相關(guān)關(guān)系 相關(guān)程度是0.492 用工人的文化程度來解釋工人的收入水平時(shí)可以減少49.2%的誤差,(2)薩默斯dy,Gamma屬于對(duì)稱相關(guān)測(cè)量 dy屬于非對(duì)稱相關(guān)測(cè)

22、量 Ty是指因變量是同序?qū)Φ膶?duì)數(shù)。(分母表示的是Y所有的誤差)同一橫行次數(shù)的乘積,例,Ns=23(55+28+27+24)+11(27+24)+20(28+24)+5524=6003 Nd=4(11+55+8+27)+20(11+8)+28(8+27)+558=2204 Ty=23(20+4)+204+11(55+28)+5528+8(27+24)+2724=4141,注意:原則上對(duì)稱分析用Gamma,不對(duì)稱分析用dy,但在實(shí)際的運(yùn)用中,一些不對(duì)稱分析中(區(qū)分了自變量和因變量)也用Gamma,雖然不太嚴(yán)謹(jǐn),但可以接受。 測(cè)量時(shí)首先注意的是變量的層次,對(duì)稱性是次要的考慮,測(cè)量定序變量的對(duì)稱關(guān)系用

23、的其他測(cè)量法,(三)兩個(gè)定距變量:b,r,簡(jiǎn)單線性回歸分析,每個(gè)個(gè)案的X值未知時(shí),要預(yù)測(cè)每個(gè)個(gè)案的Y值,用Y的均值估計(jì),所犯錯(cuò)誤最小 最小二乘法準(zhǔn)則 要求回歸方程 的總誤差最小,2.積距相關(guān)系數(shù):r,積距相關(guān)(r)的性質(zhì),(1) r 是線性相關(guān)系數(shù)。 (2)適用于定距/定比變量。 (3)取值-1,1,絕對(duì)值越大,相關(guān)程度越高。r 的絕對(duì)值在0.3以下表示不相關(guān);0.30.5表示低度相關(guān); 0.50.8表示中等相關(guān);0.8以上表示高度相關(guān)。 (4)X與Y是對(duì)稱關(guān)系。 (5)相關(guān)系數(shù)的數(shù)值不受坐標(biāo)點(diǎn)變化的影響。 (6)r2具有PRE意義。 (7)r 公式中的兩個(gè)變量都是隨機(jī)的,因而改變兩者的位置并

24、不影響r的數(shù)值。,注意事項(xiàng):,(1)注意實(shí)際意義 進(jìn)行相關(guān)回歸分析要有實(shí)際意義,不可把毫無關(guān)系的兩個(gè)事物或現(xiàn)象用來作相關(guān)回歸分析。例如,有人說,孩子長(zhǎng),公園里的小樹也在長(zhǎng)。求孩子和小樹之間的相關(guān)關(guān)系就毫無意義,用孩子的身高推測(cè)小樹的高度則更加荒謬。 (2)注意虛假相關(guān) 兩個(gè)事物間能計(jì)算出相關(guān)系數(shù),并不一定能證明事物間有內(nèi)在聯(lián)系。例如,有人發(fā)現(xiàn),對(duì)于在校兒童,鞋的大小與閱讀技能有很強(qiáng)的相關(guān)關(guān)系。然而,學(xué)會(huì)新詞并不能使腳變大,而是涉及到第三個(gè)因素 年齡。當(dāng)兒童長(zhǎng)大一些,他們的閱讀能力會(huì)提高而且由于長(zhǎng)大也穿不下原來的鞋。,簡(jiǎn)單線性回歸,生活中的例子: 家庭收入x和家庭伙食費(fèi)y 施肥量x和小麥產(chǎn)量y

25、簡(jiǎn)單回歸方程:y=bx+a x:是自變量 b:回歸系數(shù),表示回歸線的斜率 a:是截距,(四)定類變量與定序變量:Gamma和tau-y,系數(shù),非對(duì)稱測(cè)量法 值域0,1 無消減誤差比例的意義 ,y測(cè)量法,定序變量作定類變量看待,常用,(五)定類變量與定距變量: eta(相關(guān)比率),不對(duì)稱變量,根據(jù)自變量的值來預(yù)測(cè)、估計(jì)因變量的值 取值為0,1 公式的獲得是通過消減誤差比例公式得到(考慮到正負(fù)值消減問題,所以取平方值) E2有消減誤差比例的作用(李p106-107),Yi:表示的是每個(gè)自變量上因變量的均值,ni是每個(gè)自變 量Xi的個(gè)案,表 性別和英語(yǔ)成績(jī),(六)定序變量和定距變量:相關(guān)比率eta,

26、特別注意:在一些研究中會(huì)將定序變量通過賦值看作定距變量,因此采用pearson相關(guān)系數(shù) 測(cè)量的是對(duì)稱關(guān)系 把定序變量看成定類處理 值域0,1 具有消減誤差比例的意義 定序變量通過賦值轉(zhuǎn)化為定距變量 可用 b和r,如受教育程度分為高、中、低-定序變量,如果對(duì)其進(jìn)行賦值,高為3分,中為2分,低為1分,然后將這些分?jǐn)?shù)作為定距資料來分析。 實(shí)際上這些數(shù)字只具有定序變量的等級(jí)的含義,不具有數(shù)學(xué)特質(zhì)(即不能進(jìn)行加減運(yùn)算) 同理,定序變量用r系數(shù)或回歸進(jìn)行分析(李p113) 這些都是在社會(huì)科學(xué)的統(tǒng)計(jì)中可以接受的,社會(huì)分析的一般步驟,單個(gè)變量的基本情況是怎么樣的 判斷兩變量間是否存在關(guān)系,兩個(gè)變量之間的相關(guān)程度是多少 兩個(gè)變量之間是否存在因果關(guān)系,綜合,社會(huì)學(xué)統(tǒng)計(jì)中,首先要簡(jiǎn)化一個(gè)變量的分布:頻次、百分比、集中趨勢(shì)測(cè)量和離散趨勢(shì)測(cè)量 了解一個(gè)變量的情況后,需要進(jìn)一步分析一個(gè)變量與另一個(gè)變量之間的關(guān)系,最基本是交互分析 也可以測(cè)量?jī)蓚€(gè)變量之間的相關(guān)的強(qiáng)度和方向 在選擇相關(guān)測(cè)量法時(shí),首

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論