社會(huì)統(tǒng)計(jì)分析方法(第二版) 課件 第1、2章 導(dǎo)論與統(tǒng)計(jì)基礎(chǔ)知識(shí)、多元線性回歸_第1頁(yè)
社會(huì)統(tǒng)計(jì)分析方法(第二版) 課件 第1、2章 導(dǎo)論與統(tǒng)計(jì)基礎(chǔ)知識(shí)、多元線性回歸_第2頁(yè)
社會(huì)統(tǒng)計(jì)分析方法(第二版) 課件 第1、2章 導(dǎo)論與統(tǒng)計(jì)基礎(chǔ)知識(shí)、多元線性回歸_第3頁(yè)
社會(huì)統(tǒng)計(jì)分析方法(第二版) 課件 第1、2章 導(dǎo)論與統(tǒng)計(jì)基礎(chǔ)知識(shí)、多元線性回歸_第4頁(yè)
社會(huì)統(tǒng)計(jì)分析方法(第二版) 課件 第1、2章 導(dǎo)論與統(tǒng)計(jì)基礎(chǔ)知識(shí)、多元線性回歸_第5頁(yè)
已閱讀5頁(yè),還剩59頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章導(dǎo)論與統(tǒng)計(jì)基礎(chǔ)知識(shí)方法——SP社會(huì)統(tǒng)計(jì)分析SS軟件應(yīng)用(第二版)(新編21世紀(jì)社會(huì)學(xué)系列教材;教育部高等學(xué)校社會(huì)學(xué)學(xué)科教學(xué)指導(dǎo)委員會(huì)推薦教材;全國(guó)普通高等學(xué)校優(yōu)秀教材)作者:郭志剛SPSS是發(fā)展較早、應(yīng)用非常普遍的社會(huì)統(tǒng)計(jì)軟件包。它具有十分強(qiáng)大的數(shù)據(jù)處理、統(tǒng)計(jì)分析功能,同時(shí)又具有易學(xué)、易用的特點(diǎn)。因此,本書(shū)所介紹的高級(jí)統(tǒng)計(jì)方法將以SPSSforWindows第13版及其他更新版本作為應(yīng)用軟件。本書(shū)是一本多元統(tǒng)計(jì)分析方法教材,主要目的是介紹和講解各種統(tǒng)計(jì)方法的原理與應(yīng)用。為了方便讀者將這些分析方法投入使用,示范了用SPSS軟件分析例題的操作。對(duì)一些統(tǒng)計(jì)知識(shí)和SPSS軟件兩方面基礎(chǔ)均較為薄弱的讀者,本章第三節(jié)和第四節(jié)分別提供了一些初級(jí)統(tǒng)計(jì)知識(shí)要點(diǎn)的復(fù)習(xí)和SPSS軟件入門(mén)的簡(jiǎn)介。另外本書(shū)還設(shè)有一章,介紹事件史數(shù)據(jù)的預(yù)處理。一、關(guān)于本書(shū)各章的簡(jiǎn)介為了建立這些方法的分類(lèi)框架,需要具備一些統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí),即變量測(cè)度等級(jí)的概念。下面第一小節(jié)是對(duì)變量測(cè)度等級(jí)的簡(jiǎn)介。然后,在第二小節(jié)中對(duì)各種方法做一概括。第三小節(jié)將按照各種方法應(yīng)用的變量條件列出一個(gè)框架圖。(一)變量的測(cè)度等級(jí)在科學(xué)研究中,用變量來(lái)量化描述概念。但是不同概念能夠被量化的程度有所不同,另外即使一個(gè)概念實(shí)際上具備較高的量化程度,而在實(shí)際觀測(cè)時(shí)也可能因?yàn)榫唧w情況而采用較低的量化程度。這種量化程度在統(tǒng)計(jì)學(xué)中稱(chēng)為變量的測(cè)度等級(jí)或測(cè)度水平。變量的測(cè)度等級(jí)直接關(guān)系到統(tǒng)計(jì)分析方法的選擇。變量的測(cè)度等級(jí)的劃分有多種,一般常用的劃分為四種,即:名義測(cè)度、序次測(cè)度、間距測(cè)度、比率測(cè)度。名義測(cè)度名義測(cè)度是最低的一種測(cè)度等級(jí),也稱(chēng)定名測(cè)度。實(shí)際上,名義測(cè)度變量的值只代表類(lèi)型的編碼,而這些編碼的數(shù)值只是一個(gè)符號(hào),數(shù)值之間不存在有實(shí)際意義的量的關(guān)系。比如,性別便是一個(gè)名義測(cè)度等級(jí)的變量,可以將男性編碼定為1,女性編碼定為2。序次測(cè)度序次測(cè)度的量化水平高于名義測(cè)度,也就是說(shuō)它所包含的信息量大于名義測(cè)度等級(jí)的變量。因?yàn)樵谛虼螠y(cè)度等級(jí)的變量中,變量編碼不僅具有分類(lèi)的作用,而且也存在量的關(guān)系。比如,受教育程度這個(gè)序次測(cè)度等級(jí)的變量,采用數(shù)字編碼表示不同類(lèi)別,比如:文盲半文盲=1,小學(xué)=2,初中=3,高中=4,大學(xué)=5。間距測(cè)度間距測(cè)度等級(jí)的量化程度更高,它的取值不再是類(lèi)的編碼,而是采用一定單位的實(shí)際測(cè)量值。這時(shí)不僅可以知道兩個(gè)不同變量值存在差異,而且可以應(yīng)用減法得到兩值之間的差或應(yīng)用加法得到兩值之間的和,它們的差與和都有實(shí)際意義。但是,間距測(cè)度等級(jí)的變量值之間不能進(jìn)行乘除計(jì)算。比率測(cè)度比率測(cè)度是最高級(jí)的測(cè)度等級(jí),它除了具有間距測(cè)度等級(jí)的所有性質(zhì)外,而且其0值是非人為制定的,比如K溫度中的0度被稱(chēng)為絕對(duì)0度。(二)本書(shū)所介紹的分析方法的概述多元線性回歸應(yīng)用于單方程模型,其因變量必須為測(cè)量型變量,其自變量既可以為測(cè)量型變量也可以采用虛擬變量等特殊編碼變量。研究目的是分析因變量值的變化與自變量值變化之間的關(guān)系。多元回歸用最小二乘法求解回歸系數(shù)。如果變量之間有多層因果關(guān)系,便可以由多個(gè)具有內(nèi)在聯(lián)系的多元回歸方程組成一套通徑分析聯(lián)立方程組。在滿(mǎn)足特定條件的情況下,每個(gè)方程都可以通過(guò)多元回歸求解系數(shù),然后應(yīng)用通徑分析分解變量之間的直接作用和間接作用。如果一套聯(lián)立方程組中含有潛在變量(即不可直接觀測(cè)的變量),便不能再用最小二乘法求解,這時(shí)可以應(yīng)用結(jié)構(gòu)方程模型,它主要采用最大似然估計(jì)求解。在研究有兩組各包含多個(gè)變量的變量組之間的關(guān)系時(shí),可以采用典型相關(guān)分析。典型相關(guān)分析的所有變量必須為測(cè)量型變量或虛擬變量。多元方差分析研究?jī)蓚€(gè)以上的類(lèi)別中在多項(xiàng)測(cè)量型數(shù)據(jù)指標(biāo)上是否存在顯著差異。當(dāng)因變量為分類(lèi)變量或序次變量且自變量為測(cè)量型變量和虛擬變量時(shí),不能采用常規(guī)的多元線性回歸,而應(yīng)該采用logistic回歸。當(dāng)因變量為計(jì)數(shù)變量(即有限的正整數(shù)值)且自變量為測(cè)量型變量和虛擬變量時(shí),則應(yīng)該采用泊松回歸。鑒別分析主要應(yīng)用于在已知一些案例的各種條件值及其結(jié)果類(lèi)型的條件下,形成鑒別方程,然后將其應(yīng)用于其他條件值已知但結(jié)果類(lèi)型未知的案例,預(yù)測(cè)它們的結(jié)果類(lèi)型。這種方法可以視為因變量為多分類(lèi)結(jié)果、自變量為測(cè)量型或虛擬變量的因果預(yù)測(cè)。它的主要應(yīng)用目的是進(jìn)行鑒別分類(lèi)。在使用縱貫數(shù)據(jù)進(jìn)行因果分析時(shí),事件史分析是可以應(yīng)用的分析技術(shù)。其中,離散時(shí)間模型實(shí)際上就是用logistic回歸求解。而Cox比例風(fēng)險(xiǎn)模型是連續(xù)變量模型,它分為兩種,一種包括動(dòng)態(tài)變量(即隨時(shí)間變化的自變量),另一種不包括動(dòng)態(tài)變量。事件史分析的數(shù)據(jù)處理是一項(xiàng)比較復(fù)雜的工作,本章第十四章專(zhuān)門(mén)介紹這方面的技術(shù)。至于因子分析、聚類(lèi)分析和對(duì)應(yīng)分析,它們并不是因果模型,分別用以分析變量、案例和類(lèi)型(變量值)之間的結(jié)構(gòu)關(guān)系。它們被稱(chēng)為相依模型。因子分析經(jīng)常服務(wù)于濃縮多個(gè)測(cè)量型變量,使之轉(zhuǎn)換為較少數(shù)量的新變量(稱(chēng)為因子)后,仍然攜帶原變量的絕大部分信息。聚類(lèi)分析用于分析各案例在多個(gè)測(cè)量型變量值上的距離,將其按近似性原則進(jìn)行案例排列。對(duì)應(yīng)分析可以用來(lái)對(duì)不同非測(cè)量型變量的類(lèi)別之間的關(guān)系進(jìn)行分析,以作圖形式顯示不同變量類(lèi)別之間的近似程度。(三)本書(shū)所介紹的統(tǒng)計(jì)方法的分類(lèi)框架以下框架首先按照觀測(cè)數(shù)據(jù)的來(lái)源分為兩大類(lèi):第一類(lèi)是橫貫數(shù)據(jù)橫貫數(shù)據(jù)指在同一時(shí)間不同案例的觀察數(shù)據(jù)。它可以來(lái)自一次普查、抽樣調(diào)查或分地區(qū)(部門(mén))的統(tǒng)計(jì)資料匯總表等。本書(shū)所介紹的方法主要是應(yīng)用于橫貫數(shù)據(jù)的方法。第二類(lèi)是縱貫數(shù)據(jù)縱貫數(shù)據(jù)指對(duì)同樣的案例在不同時(shí)間上的多次觀測(cè)所得到的數(shù)據(jù)。從方法論而言,對(duì)于研究因果關(guān)系,縱貫數(shù)據(jù)具有更高的有效性。然而,縱貫數(shù)據(jù)的取得相對(duì)于橫貫數(shù)據(jù)要難得多。它可以來(lái)自追蹤觀測(cè),然而追蹤調(diào)查存在周期長(zhǎng)、成本高、案例容易損耗等困難。它也可以來(lái)自回顧調(diào)查,但是回顧調(diào)查往往發(fā)生由于記憶不準(zhǔn)所造成的偏差。實(shí)際上,本書(shū)所介紹的方法中只有事件史分析屬于這一類(lèi)。所以,在框架中直接以該方法名稱(chēng)作為標(biāo)注。該框架的第二種劃分是分析模型的屬性。一類(lèi)是因果模型,一類(lèi)是相依模型。該框架所采用的另一種劃分依據(jù)是變量的測(cè)度等級(jí)。二、在應(yīng)用統(tǒng)計(jì)的研究中,要以研究方法論為指導(dǎo)雖然本書(shū)的主要宗旨是介紹統(tǒng)計(jì)方法,但是作為全書(shū)導(dǎo)論,在此要特別強(qiáng)調(diào)社會(huì)科學(xué)研究的整體性,即一個(gè)好的研究不可能僅僅建立在統(tǒng)計(jì)分析的基礎(chǔ)上。統(tǒng)計(jì)分析只是整個(gè)研究當(dāng)中的一個(gè)環(huán)節(jié),因此在學(xué)習(xí)和應(yīng)用統(tǒng)計(jì)分析時(shí),必須清醒地把握統(tǒng)計(jì)分析的方法論意義,自覺(jué)地將其服從于整個(gè)研究。(一)理論、觀察、統(tǒng)計(jì)之間的關(guān)系現(xiàn)代社會(huì)科學(xué)研究中包含三個(gè)要素:理論、觀察、統(tǒng)計(jì)。所以,統(tǒng)計(jì)技術(shù)的應(yīng)用絕不是孤立的事情,它不僅需要專(zhuān)業(yè)理論的指導(dǎo),也需要研究方法論的指導(dǎo)。忽視這兩個(gè)方面,便極易導(dǎo)致研究結(jié)論中的謬誤。比如,經(jīng)??梢砸?jiàn)到錯(cuò)誤理解和闡述統(tǒng)計(jì)結(jié)果的問(wèn)題,即分析計(jì)算結(jié)果是正確的,但是對(duì)于這些結(jié)果的理解和解釋卻是錯(cuò)誤的。(二)統(tǒng)計(jì)研究中的常見(jiàn)謬誤1.混淆統(tǒng)計(jì)聯(lián)系與因果關(guān)系2.事后解釋謬誤3.生態(tài)學(xué)謬誤4.還原論謬誤5.混淆統(tǒng)計(jì)檢驗(yàn)顯著性與實(shí)際意義顯著性(三)社會(huì)科學(xué)的研究對(duì)象和模型社會(huì)科學(xué)的研究對(duì)象應(yīng)該是人所生活于其中的社會(huì)有機(jī)體,比如客觀存在著的社會(huì)制度、經(jīng)濟(jì)體制、家庭模式等等。構(gòu)成這些社會(huì)體系的要素并不是人,而是一系列社會(huì)存在的構(gòu)件和方面,包括制度、機(jī)構(gòu)、規(guī)范、組織等等。這些社會(huì)構(gòu)件和方面的屬性、特征、意向、行為可以通過(guò)科學(xué)抽象得到概念,將它們定義為一套變量,并經(jīng)過(guò)操作化得到測(cè)量。(四)統(tǒng)計(jì)分析與理論分析實(shí)際上,統(tǒng)計(jì)研究不可能脫離理論指導(dǎo),比如,如何判定哪些變量應(yīng)該列入分析模型,便主要是理論分析的結(jié)果,而不是統(tǒng)計(jì)分析的結(jié)果。統(tǒng)計(jì)分析的功能主要是在理論分析的上,檢查各個(gè)模型變量的作用,對(duì)其作用進(jìn)行量化描述,并對(duì)有關(guān)理論假設(shè)進(jìn)行檢驗(yàn)。(五)真理性的檢驗(yàn)與統(tǒng)計(jì)檢驗(yàn)實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)。但是,實(shí)踐是一個(gè)活動(dòng)過(guò)程,不能簡(jiǎn)單歸結(jié)為直接經(jīng)驗(yàn)這樣的個(gè)別環(huán)節(jié)。并且,實(shí)踐檢驗(yàn)過(guò)程是借助邏輯推論的鏈條進(jìn)行的,實(shí)際上在這一邏輯鏈條中,只是某些環(huán)節(jié)才可能進(jìn)行直接。如果把直接檢驗(yàn)絕對(duì)化,就會(huì)犯經(jīng)驗(yàn)主義的錯(cuò)誤,把檢驗(yàn)知識(shí)真理性的全過(guò)程局限于主體感受中。并且,實(shí)證主義的證實(shí)性原則在方法論上是排斥理論的。至于統(tǒng)計(jì)檢驗(yàn),可以認(rèn)為是實(shí)踐檢驗(yàn)的一種形式。一種認(rèn)識(shí)是否正確,要看它是否符合客觀實(shí)際。反映在統(tǒng)計(jì)研究中,就是看理論假設(shè)是否符合觀測(cè)數(shù)據(jù)。但是統(tǒng)計(jì)檢驗(yàn)也不可避免地存在其局限性,其結(jié)果會(huì)受到分析技術(shù)的成熟程度、模型變量的有效性、測(cè)量數(shù)據(jù)的可靠性、樣本規(guī)模的大小等許多方面的影響。所以,統(tǒng)計(jì)檢驗(yàn)不顯著,并不意味著這一研究無(wú)價(jià)值。事實(shí)上,許多統(tǒng)計(jì)研究正是從失敗的經(jīng)驗(yàn)中不斷總結(jié)、修改研究方案,而最終得到正確的結(jié)論的。而在統(tǒng)計(jì)檢驗(yàn)顯著時(shí),則更要清醒地認(rèn)識(shí)到,統(tǒng)計(jì)分析只是就事物的統(tǒng)計(jì)聯(lián)系進(jìn)行分析,從統(tǒng)計(jì)分析中得到肯定的事物聯(lián)系到對(duì)于事物之間本質(zhì)聯(lián)系的認(rèn)識(shí)還有很遠(yuǎn)的距離。因此,統(tǒng)計(jì)檢驗(yàn)只是從一個(gè)側(cè)面進(jìn)行的實(shí)踐檢驗(yàn),并不能替代其他形式的實(shí)踐檢驗(yàn)。三、基礎(chǔ)統(tǒng)計(jì)原理與概念回顧在社會(huì)科學(xué)研究中,經(jīng)常會(huì)從一個(gè)總體中抽取一部分個(gè)體進(jìn)行調(diào)查,抽樣調(diào)查不僅是最普遍、最流行的數(shù)據(jù)收集方法,而且隨機(jī)抽樣也是大部分推斷統(tǒng)計(jì)和顯著性檢驗(yàn)的最基本的條件。通過(guò)一定的程序從樣本特征去推斷總體的特征構(gòu)成了推斷統(tǒng)計(jì)學(xué)的基本內(nèi)容。(一)抽樣調(diào)查的定義及其相關(guān)概念1.抽樣調(diào)查的定義所謂的抽樣調(diào)查是指從研究對(duì)象的總體中按照科學(xué)方法和程序抽取一部分個(gè)體作為樣本進(jìn)行調(diào)查,據(jù)此推斷有關(guān)總體的特征。在調(diào)查研究中,除非重大的調(diào)查如人口普查、資源普查等,一般都是進(jìn)行抽樣調(diào)查。根據(jù)抽樣的方法,抽樣調(diào)查又分為非隨機(jī)抽樣。2.抽樣調(diào)查的優(yōu)缺點(diǎn)第一,經(jīng)濟(jì)性強(qiáng)。抽樣調(diào)查不需要對(duì)總體中的所有單位進(jìn)行逐一調(diào)查,而是調(diào)查其中的一部分,因此可以大大地節(jié)約調(diào)查的人力、物力和財(cái)力。第二,及時(shí)性強(qiáng)。不像普查那樣每隔幾年進(jìn)行一次,抽樣調(diào)查因?yàn)樯婕拜^少的調(diào)查單位,可以隨時(shí)進(jìn)行,及時(shí)、快速地獲得相關(guān)數(shù)據(jù)。第三,信息量大。抽樣調(diào)查可以包括較多方面的深度信息,提高詳細(xì)程度。第四,質(zhì)量較好。不過(guò),抽樣調(diào)查的技術(shù)難度較大,尤其是隨機(jī)抽樣方法,需要經(jīng)過(guò)專(zhuān)門(mén)的培訓(xùn)才可能掌握;此外,在抽樣調(diào)查尤其是在隨機(jī)抽樣時(shí),需要對(duì)總體的一些信息比如總體抽樣框、總體方差等有一個(gè)了解,而這些信息有時(shí)候很難獲得。另外,如果違反隨機(jī)原樣,抽樣調(diào)查可能出現(xiàn)較嚴(yán)重的覆蓋偏差,從而導(dǎo)致統(tǒng)計(jì)結(jié)果產(chǎn)生較大偏差,這時(shí)的抽樣數(shù)據(jù)就不能簡(jiǎn)單用于推斷總體。3.總體與樣本所謂的總體就是研究對(duì)象的全體。對(duì)于社會(huì)科學(xué)研究來(lái)說(shuō),我們可能要關(guān)注總體的某個(gè)方面的特征,比如總體的平均數(shù)、總體的標(biāo)準(zhǔn)差等等。我們把描述總體某方面特征的指標(biāo)稱(chēng)為參數(shù),一般而言用大寫(xiě)字母標(biāo)注。所謂的樣本就是按照一定的方式從總體中抽取出來(lái)的一部分個(gè)體,樣本中包含的個(gè)體數(shù)目狀稱(chēng)為樣本規(guī)?;驑颖玖?。(二)統(tǒng)計(jì)推斷與抽樣分布當(dāng)我們用樣本的統(tǒng)計(jì)量去推論總體的參數(shù)值時(shí),通常有兩種方法:參數(shù)估計(jì)和假設(shè)檢驗(yàn)。統(tǒng)計(jì)推斷,無(wú)論是參數(shù)估計(jì)還是假設(shè)檢驗(yàn),都建立在抽樣分布的基礎(chǔ)之上。四、SPSS入門(mén)示范本節(jié)所使用的例題數(shù)據(jù)是根據(jù)美國(guó)人口咨詢(xún)局2013年發(fā)布的世界人口數(shù)據(jù)表整理而成。原數(shù)據(jù)表中有更多的國(guó)家或地區(qū)數(shù)據(jù)和更多的變量,但是數(shù)據(jù)中存在不少缺失。此外在艾滋病感染率這個(gè)變量中一些案例是用小于某一上限值的描述。本書(shū)為了示范和練習(xí)方便,只保留了其中一些主要變量,而且刪除了這些保留變量中存在數(shù)據(jù)缺失的案例,對(duì)上述艾滋病感染率那些不確切的測(cè)量值直接取其上限值作為替代,整理后的數(shù)據(jù)文件名為WPDS2013.sav。在本節(jié)的示例分析中,我們都盡量使用這個(gè)數(shù)據(jù),并且直接使用案例數(shù)據(jù),并不根據(jù)各國(guó)或地區(qū)人口規(guī)模來(lái)對(duì)統(tǒng)計(jì)分析進(jìn)行加權(quán)。并且,我們將這個(gè)數(shù)據(jù)作為全世界各國(guó)或地區(qū)的一個(gè)隨機(jī)抽樣數(shù)據(jù)來(lái)對(duì)待。(一)取得基本統(tǒng)計(jì)指標(biāo)1.間距變量的描述性指標(biāo)2.分類(lèi)變量的頻數(shù)表3.分類(lèi)別的描述性指標(biāo)4.交互表頻數(shù)與相應(yīng)統(tǒng)計(jì)指標(biāo)(二)樣本平均數(shù)的t檢驗(yàn)1.單樣本平均數(shù)檢驗(yàn)2.獨(dú)立樣本平均數(shù)檢驗(yàn)(三)方差分析1.方差分析的數(shù)據(jù)要求和假定條件2.方差分析原理3.用SPSS進(jìn)行單因素方差分析4.多因素方差分析簡(jiǎn)介5.雙因素飽和模型6.雙因素非飽和模型8.用命令來(lái)運(yùn)行SPSS分析基本概念理論觀察統(tǒng)計(jì)研究方案事后解釋謬誤生態(tài)學(xué)謬誤還原論謬誤變量測(cè)度等級(jí)抽樣調(diào)查總體樣本參數(shù)統(tǒng)計(jì)量抽樣分布統(tǒng)計(jì)推斷參數(shù)估計(jì)置信區(qū)間置信度假設(shè)檢驗(yàn)棄真錯(cuò)誤納偽錯(cuò)誤顯著度描述性統(tǒng)計(jì)概要指標(biāo)頻數(shù)表方差分析本章要點(diǎn)1.實(shí)際研究中的變量有不同的測(cè)度等級(jí),其變量值雖然可能都以數(shù)字形式出現(xiàn),然而表達(dá)的量的意義完全不同。2.各種統(tǒng)計(jì)分析方法對(duì)于變量測(cè)度等級(jí)有具體要求。在應(yīng)用統(tǒng)計(jì)方法時(shí)必須滿(mǎn)足其對(duì)于變量測(cè)度等級(jí)的要求以及其他假設(shè)條件,不合乎統(tǒng)計(jì)方法所要求的變量類(lèi)型不能應(yīng)用。3.不同統(tǒng)計(jì)方法的基礎(chǔ)是對(duì)變量之間關(guān)系的模型假設(shè)。應(yīng)該按照研究需要和數(shù)據(jù)類(lèi)型選擇統(tǒng)計(jì)方法。4.統(tǒng)計(jì)分析只是整個(gè)研究的一個(gè)組成部分。必須以科學(xué)研究方法論和具體學(xué)科理論為指導(dǎo),正確理解和闡釋所得到的統(tǒng)計(jì)結(jié)果。參考文獻(xiàn)郭志剛,郝虹生,杜亞軍,曲海波.社會(huì)調(diào)查研究的量化方法.北京:中國(guó)人民大學(xué)出版社,1989.肯尼斯·D·貝利.現(xiàn)代社會(huì)研究方法.許真譯.上海:上海人民出版社,1986.劉大椿.科學(xué)活動(dòng)論.北京:人民出版社,1985.第二章多元線性回歸多元線性回歸(multiplelinearregression)是分析一個(gè)隨機(jī)變量與多個(gè)變量之間線性關(guān)系的最常用的統(tǒng)計(jì)方法。實(shí)際工作中,常常希望知道所關(guān)心的事物受哪些因素的影響,比如銷(xiāo)售量與價(jià)格和廣告費(fèi)的關(guān)系、農(nóng)業(yè)產(chǎn)量與原料和氣候的關(guān)系、生育水平與教育水平和經(jīng)濟(jì)水平的關(guān)系、物價(jià)與失業(yè)率的關(guān)系、收入與受教育程度和年齡的關(guān)系等等。多元線性回歸用觀察數(shù)據(jù)擬合所關(guān)注的變量和影響它變化的變量之間的線性關(guān)系式,檢驗(yàn)影響變量的顯著程度和比較它們的作用大小,進(jìn)而用兩個(gè)或多個(gè)變量的變化解釋和預(yù)測(cè)另一個(gè)變量的變化。概括地說(shuō),回歸分析要解決三個(gè)方面的主要任務(wù)。第一,依據(jù)研究理論和經(jīng)驗(yàn)建立關(guān)于因變量與一個(gè)或多個(gè)自變量之間關(guān)系的回歸方程,并且根據(jù)數(shù)據(jù)樣本擬合來(lái)求解這個(gè)回歸方程的各項(xiàng)回歸系數(shù)值。這些回歸系數(shù)值便反映了各自變量對(duì)因變量影響作用的方向和幅度。應(yīng)用SPSS的回歸程序可以非常便利地求解這些回歸系數(shù),保證得出一套最佳的回歸系數(shù)解。第二,評(píng)價(jià)這一回歸方程對(duì)實(shí)際數(shù)據(jù)的擬合程度。回歸分析保證取得“最佳”系數(shù)的意思只是說(shuō),這套系數(shù)對(duì)實(shí)際數(shù)據(jù)的擬合程度肯定比任何其他的解都要相對(duì)更好,但是我們還需要進(jìn)一步了解采用這套系數(shù)的回歸方程的擬合程度到底有多好。一般用回歸方程對(duì)因變量變化解釋的百分比來(lái)描述擬合程度,百分比越高就表示擬合程度越好。第三,在樣本回歸分析的基礎(chǔ)上進(jìn)行總體推斷性統(tǒng)計(jì)。前兩個(gè)任務(wù)還是在數(shù)據(jù)樣本之內(nèi)對(duì)回歸方程的分析,但是社會(huì)科學(xué)的統(tǒng)計(jì)研究往往是通過(guò)樣本分析來(lái)推斷總體。所以,研究者需要對(duì)樣本回歸分析指標(biāo)進(jìn)行統(tǒng)計(jì)顯著性檢驗(yàn),看看這些結(jié)果是否能推廣到總體的情況。本章后面將大體按照這三方面的順序來(lái)介紹回歸分析。一、變量的關(guān)系和回歸的任務(wù)二、簡(jiǎn)單線性回歸模型我們從簡(jiǎn)單的情況開(kāi)始,先來(lái)看含有一個(gè)自變量的線性回歸問(wèn)題。一個(gè)自變量的回歸稱(chēng)為簡(jiǎn)單回歸或一元回歸。統(tǒng)計(jì)分析經(jīng)常是先對(duì)總體中隨機(jī)抽樣得到的樣本數(shù)據(jù)進(jìn)行分析,然后再對(duì)總體進(jìn)行推斷。在抽樣原理統(tǒng)計(jì)教科書(shū)中,總體的各種指標(biāo)稱(chēng)為參數(shù),樣本的各種指標(biāo)稱(chēng)為統(tǒng)計(jì)。因此,在后面的統(tǒng)計(jì)表述中經(jīng)常需要分清總體參數(shù)和樣本統(tǒng)計(jì)量。在很多情況下,兩者相互對(duì)應(yīng),所以為了簡(jiǎn)明,本章采用許多教科書(shū)的做法,在一般情況下將總體參數(shù)用大寫(xiě)符號(hào)標(biāo)注,將樣本統(tǒng)計(jì)量用小寫(xiě)符號(hào)標(biāo)注。(一)簡(jiǎn)單線性回歸方程(二)簡(jiǎn)單回歸系數(shù)的意義在回歸模型式中,犪和犫稱(chēng)為回歸直線的系數(shù)。犪是直線在狔軸上的截距,代表狔的基礎(chǔ)水平;犫是直線的斜率,它表示狓變化一個(gè)單位時(shí),狔的平均變化。(三)變量變換當(dāng)因變量狔與自變量狓是非線性關(guān)系時(shí),可以通過(guò)變量變換使經(jīng)過(guò)變換的新變量對(duì)于參數(shù)是線性的。spss回歸程序可以檢查變量之間是不是有線性關(guān)系,如果是非線性關(guān)系,還可以應(yīng)用spss曲線回歸來(lái)探測(cè)具體是哪一種非線性關(guān)系。我們將在后面進(jìn)行介紹。這里,我們僅用一個(gè)簡(jiǎn)單例子介紹如何對(duì)自變量進(jìn)行非線性變換,以使線性回歸能更好地?cái)M合數(shù)據(jù)。(四)最小二乘估計(jì)的統(tǒng)計(jì)性質(zhì)最小二乘估計(jì)在求解回歸方程模型時(shí)是最常用的估計(jì)方法。通過(guò)最小二乘法得到的回歸方程估計(jì),有很好的統(tǒng)計(jì)性質(zhì)。(五)模型的假定條件統(tǒng)計(jì)理論已經(jīng)證明,在滿(mǎn)足一定的假定先決條件下,樣本數(shù)據(jù)的最小二乘估計(jì)是總體參數(shù)的最佳線性無(wú)偏估計(jì)。這是因?yàn)樵谕茢嗫傮w參數(shù)或進(jìn)行統(tǒng)計(jì)檢驗(yàn)時(shí),必須考慮總體回歸模型中的隨機(jī)誤差項(xiàng)ε的分布特征。因此,對(duì)隨機(jī)誤差項(xiàng)ε提出若干基本假定條件。三、多元線性回歸模型在本節(jié)中,我們要將簡(jiǎn)單回歸推廣到多元回歸。在具體介紹有關(guān)分析之前需要說(shuō)明,以上討論的所有簡(jiǎn)單回歸的假定條件都適用于多元線性回歸。(一)多元線性回歸方程(二)回歸平面和回歸系數(shù)的意義(三)一般回歸模型乘法模型指數(shù)模型1指數(shù)模型2多項(xiàng)式模型(四)多元回歸模型估計(jì)的統(tǒng)計(jì)推斷四、方程的擬合程度(一)確定系數(shù)R^2(二)調(diào)整的確定系數(shù)R^2(三)多元相關(guān)系數(shù)R(四)偏確定系數(shù)(五)偏相關(guān)系數(shù)五、回歸方程的統(tǒng)計(jì)檢驗(yàn)和回歸系數(shù)的推斷統(tǒng)計(jì)在一般情況下,我們是通過(guò)抽樣樣本觀測(cè)數(shù)據(jù)來(lái)推斷總體的情況。因此,樣本中計(jì)算的各統(tǒng)計(jì)量都服從一定的抽樣誤差。檢驗(yàn)樣本回歸方程各統(tǒng)計(jì)量,就是為了根據(jù)樣本統(tǒng)計(jì)量來(lái)判斷總體各參數(shù)的情況。(一)整個(gè)回歸方程的顯著性檢驗(yàn)對(duì)整個(gè)回歸方程的統(tǒng)計(jì)檢驗(yàn)也是通過(guò)方差分析完成的。將因變量y的總的離差平方和分解為兩個(gè)部分:一部分是可以由回歸方程解釋的部分,稱(chēng)之為回歸平方和;另一部分則是不能由回歸方程解釋的部分,稱(chēng)之為殘差平方和。然后,用殘差平方和代表隨機(jī)波動(dòng),來(lái)評(píng)價(jià)回歸方程的解釋能力是否具有統(tǒng)計(jì)顯著性。(二)偏確定系數(shù)的統(tǒng)計(jì)檢驗(yàn)偏確定系數(shù)描述的是,在控制前一步回歸中其他變量的條件下,新納入一個(gè)或一組自變量的新增解釋能力。偏確定系數(shù)也是一個(gè)百分比,只不過(guò)它只涉及前一步回歸沒(méi)能解釋的因變量變化。(三)各自變量回歸系數(shù)的顯著性檢驗(yàn)當(dāng)回歸方程整體檢驗(yàn)具有統(tǒng)計(jì)顯著性時(shí),一般可以表明回歸方程中至少有一個(gè)自變量的回歸系數(shù)是顯著的,但并不一定所有自變量的回歸系數(shù)都是顯著的。(四)回歸系數(shù)的置信區(qū)間(五)回歸系數(shù)不顯著的原因(1)樣本量太小,或者自變量個(gè)數(shù)較多(2)x(j)的變化范圍太?。ǎ常﹛(j)與方程中的其他自變量線性相關(guān)(4)y與x(j)雖然有關(guān)聯(lián),但卻是非線性關(guān)系(5)y與x(j)確實(shí)不存在顯著的線性關(guān)系六、標(biāo)準(zhǔn)化回歸系數(shù)因?yàn)樽兞康臉?biāo)準(zhǔn)化過(guò)程中都要除以該變量的標(biāo)準(zhǔn)差,這不僅會(huì)改變變量的數(shù)值,而且約分掉了原變量的實(shí)際測(cè)量單位,所以z變量是無(wú)量綱變量,即脫離了任何實(shí)際測(cè)量單位的純統(tǒng)計(jì)量。于是,標(biāo)準(zhǔn)化變量的回歸系數(shù)β稱(chēng)為標(biāo)準(zhǔn)化回歸系數(shù),它表示當(dāng)其他變量不變時(shí),x變化1個(gè)標(biāo)準(zhǔn)差單位,y的標(biāo)準(zhǔn)差的平均變化。七、多元統(tǒng)計(jì)控制對(duì)回歸系數(shù)的影響采用多元回歸最重要的優(yōu)越性就是可以將對(duì)因變量有重要影響的自變量同時(shí)納入分析,在控制其他模型自變量的條件下一一求解對(duì)應(yīng)自變量的偏回歸系數(shù)。因此,偏回歸系數(shù)表達(dá)了對(duì)應(yīng)自變量相對(duì)“獨(dú)立”的影響作用,將更為接近真實(shí)情況的反應(yīng)。盡管研究者可能并不清楚還有哪些重要影響變量,但是多元回歸在方法論層次更為優(yōu)越,提供了研究者進(jìn)行深入探索和檢驗(yàn)的工具。八、回歸預(yù)測(cè)的區(qū)間估計(jì)九、回歸診斷前面我們已經(jīng)討論過(guò)回歸模型的正確估計(jì)和推斷必須依賴(lài)于一定的假定條件,如果我們的數(shù)據(jù)及變量分布不滿(mǎn)足這些假定條件,用回歸方法獲得的結(jié)果可能會(huì)有誤導(dǎo)性。本節(jié)將討論一些回歸診斷的方法,以檢驗(yàn)我們的數(shù)據(jù)是否滿(mǎn)足線性回歸的假定條件。此外,還有一些問(wèn)題并不直接涉及回歸的假定條件,但是對(duì)回歸結(jié)果的影響也很大,因此在進(jìn)行回歸分析時(shí)也要多加注意,比如案例的權(quán)勢(shì)影響和自變量之間的共線性問(wèn)題。在回歸分析中對(duì)這類(lèi)問(wèn)題的檢查稱(chēng)為診斷。十、最優(yōu)回歸方程的選擇(1)全部納入法(2)全部刪除法(3)向前回歸法(4)向后回歸法(5)逐步回歸法上述五種方式可結(jié)合運(yùn)用。十一、標(biāo)識(shí)變量在回歸分析中的應(yīng)用在社會(huì)科學(xué)研究中,有許多分類(lèi)變量,比如地區(qū)、時(shí)期、公司、民族、性別、婚姻狀況、教育程度、職業(yè)和居住地等分類(lèi)。這些分類(lèi)信息對(duì)于研究同樣是很重要的。雖然分類(lèi)變量不能直接用于回歸分析,但是通過(guò)將分類(lèi)變量轉(zhuǎn)換為按特定規(guī)則賦值的一套編碼變量后,便可以將其作為自變量納入多元線性回歸模型,用以解釋因變量的變化。并且

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論