簡單線性相關(guān)(一元線性回歸)_第1頁
簡單線性相關(guān)(一元線性回歸)_第2頁
簡單線性相關(guān)(一元線性回歸)_第3頁
簡單線性相關(guān)(一元線性回歸)_第4頁
簡單線性相關(guān)(一元線性回歸)_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第十三講 簡單線性相關(guān)(一元線性回歸分析)對于兩個或更多變量之間的關(guān)系,相關(guān)分析考慮的只是變量之間是否相關(guān)、相關(guān)的程度,而回歸分析關(guān)心的問題是:變量之間的因果關(guān)系如何?;貧w分析是處理一個或多個自變量與因變量間線性因果關(guān)系的統(tǒng)計(jì)方法。如婚姻狀況與子女生育數(shù)量,相關(guān)分析可以求出兩者的相關(guān)強(qiáng)度以及是否具有統(tǒng)計(jì)學(xué)意義,但不對誰決定誰作出預(yù)設(shè),即可以相互解釋,回歸分析則必須預(yù)先假定誰是因誰是果,誰明確誰為因與誰為果的前提下展開進(jìn)一步的分析。一、一元線性回歸模型及其對變量的要求(一)一元線性回歸模型 1、一元線性回歸模型示例兩個變量之間的真實(shí)關(guān)系一般可以用以下方程來表示: Y=A + BX + 方程中的A

2、 、B是待定的常數(shù),稱為模型系數(shù),是殘差,是以X預(yù)測Y產(chǎn)生的誤差。兩個變量之間擬合的直線是:是 y的擬合值或預(yù)測值,它是在X條件下Y條件均值的估計(jì)a 、b是回歸直線的系數(shù),是總體真實(shí)直線A、B的估計(jì)值,a即 constant是截距,當(dāng)自變量的值為0時,因變量的值。 b稱為回歸系數(shù),指在其他所有的因素不變時,每一單位自變量的變化引起的因變量的變化。 可以對回歸方程進(jìn)行標(biāo)準(zhǔn)化,得到標(biāo)準(zhǔn)回歸方程:為標(biāo)準(zhǔn)回歸系數(shù),表示其他變量不變時,自變量變化一個標(biāo)準(zhǔn)差單位(),因變量Y的標(biāo)準(zhǔn)差的平均變化。由于標(biāo)準(zhǔn)化消除了原來自變量不同的測量單位,標(biāo)準(zhǔn)回歸系數(shù)之間是可以比較的,絕對值的大小代表了對因變量作用的大小,反

3、映自變量對Y的重要性。(二)對變量的要求:回歸分析的假定條件回歸分析對變量的要求是:自變量可以是隨機(jī)變量,也可以是非隨機(jī)變量。自變量X值的測量可以認(rèn)為是沒有誤差的,或者說誤差可以忽略不計(jì)?;貧w分析對于因變量有較多的要求,這些要求與其它的因素一起,構(gòu)成了回歸分析的基本條件:獨(dú)立、線性、正態(tài)、等方差。(三)數(shù)據(jù)要求模型中要求一個因變量,一個或多個自變量(一元時為1個自變量)。因變量:要求間距測度,即定距變量。自變量:間距測度(或虛擬變量)。二、在對話框中做一元線性回歸模型例1:試用一元線性回歸模型,分析大專及以上人口占6歲及以上人口的比例(edudazh)與人均國內(nèi)生產(chǎn)總值(agdp)之間的關(guān)系。

4、本例使用的數(shù)據(jù)為st2004.sav,操作步驟及其解釋如下:(一)對兩個變量進(jìn)行描述性分析在進(jìn)行回歸分析以前,一個比較好的習(xí)慣是看一下兩個變量的均值、標(biāo)準(zhǔn)差、最大值、最小值和正態(tài)分布情況,觀察數(shù)據(jù)的質(zhì)量、缺少值和異常值等,缺少值和異常值經(jīng)常對線性回歸分析產(chǎn)生重要影響。最簡單的,我們可以先做出散點(diǎn)圖,觀察變量之間的趨勢及其特征。通過散點(diǎn)圖,考察是否存在線性關(guān)系,如果不是,看是否通過變量處理使得能夠進(jìn)行回歸分析。如果進(jìn)行了變量轉(zhuǎn)換,那么應(yīng)當(dāng)重新繪制散點(diǎn)圖,以確保在變量轉(zhuǎn)換以后,線性趨勢依然存在。打開st2004.sav數(shù)據(jù) 單擊Graphs Scatter 打開Scatterplot對話框 單擊S

5、imple 單擊 Define 打開 Simple Scatterplot對話框 點(diǎn)選 agdp到 Y Axis框 點(diǎn)選 edudazh到 X Aaxis框內(nèi) 單擊 OK按鈕 在SPSS的Output窗口輸出所需圖形。圖121 大專及以上人口占6歲及以上人口比例與人均國內(nèi)生產(chǎn)總值的散點(diǎn)圖判斷:線性趨勢較明顯。(二)SPSS線性回歸主對話框介紹 打開線性回歸主對話框的操作方法是: 在st2004.sav數(shù)據(jù)界面上 單擊Analyze RegressionLinear打開Linear Regression主對話框 圖122 Linear Regression 命令位置 圖123 Linear Re

6、gression主對話框 Linear Regression 主對話框的功能有:1、選擇因變量Dependent框:放置因變量,一次只能放一個因變量。本例點(diǎn)選agdp進(jìn)入Dependent框。2、選擇自變量Independent框: 放置自變量,可以放置多個自變量。本例點(diǎn)選edudazh進(jìn)入Independent框。3、對自變量進(jìn)行分組Block按鈕組:由Previous 和Next兩個按鈕組成,用來對自變量框中的自變量進(jìn)行分組,在多元回歸時會用到。4、變量進(jìn)入方式Method框:Enter: 一元回歸時,只選擇這種方法,強(qiáng)行進(jìn)入。所有變量依次進(jìn)入。Stepwise: 逐步回歸,將所有滿足條件

7、的都進(jìn)入方程,不滿足的剔除。Remove: 強(qiáng)行移出法,這一方法必須在這一組自變量在前面一步已經(jīng)納入到回歸時才用,否則沒有可以剔除的。Backward:自后消除法,將滿足剔除標(biāo)準(zhǔn)的剔除Forward:向前加入法,所有滿足進(jìn)入回歸方程的變量都可以進(jìn)入。在一元回歸時,只用Enter即可。本例選擇變量進(jìn)入的方式為Enter。5、選擇篩選變量Selection Variable框:選入一個篩選變量,并利用右側(cè)的Rules建立條件,這樣,只有滿足這個條件的記錄才會進(jìn)入回歸分析, 當(dāng)然,我們也可以用Data菜單中的Select Case過程來做,效果相同。6、個案標(biāo)簽Case Labels 選擇一個變量,

8、其取值作為每條記錄的標(biāo)簽,最典型的是使用記錄ID個案號的變量 。7、加權(quán)最小二乘法計(jì)算WLS Weight框;利用該按鈕可進(jìn)行加權(quán)最小二乘法的計(jì)算。選入權(quán)重變量進(jìn)入該框即可。使用條件:當(dāng)應(yīng)變量的變異程度具有某種趨勢,即不是等方差時,通過加權(quán),進(jìn)行分析,是一種有偏估計(jì)。8、選擇統(tǒng)計(jì)量Statistics框:可以選擇回歸系數(shù)、殘差診斷、模型擬合度等多種回歸分析非常重要的統(tǒng)計(jì)量,在下文將詳細(xì)介紹。9、輸出圖形Plots框:可輸出多種用于檢驗(yàn)回歸分析假定條件的圖形,在下文將將詳細(xì)介紹。10、保存回歸分析結(jié)果Save框:可以把回歸分析的結(jié)果存起來,然后用得到的殘差、預(yù)測值等做進(jìn)一步的分析。單擊圖123中

9、的Save按鈕,打開Linear Regression的Save對話框(見圖124),研究者可以根據(jù)自己的需要進(jìn)行選擇。圖124 Linear Regression的Save對話框圖124中:可以保持的回歸分析結(jié)果主要有:Predicated values:各種預(yù)測值.Unstandardized 保存模型對因變量的原始預(yù)測值.Standardized: 保存進(jìn)行標(biāo)準(zhǔn)化后的預(yù)測值,均數(shù)0,方差1.Adjusted: 保存調(diào)整后的殘差。S.E. of mean predictions: 保存預(yù)測值的標(biāo)準(zhǔn)差.Residuals:殘差。Unstandardized : 保存非標(biāo)準(zhǔn)化的殘差,Stand

10、ardized: 保存進(jìn)行標(biāo)準(zhǔn)化后的殘差Studentlized: 保存學(xué)生化殘差Deleted: 它保存被排除進(jìn)入相關(guān)系數(shù)計(jì)算的觀察量的殘差,是因變量與預(yù)測值之間的差值, 通過它可以發(fā)現(xiàn)可疑的強(qiáng)影響點(diǎn)Studentlized Deleted: 對上一個預(yù)測值進(jìn)行t變換Distances: 用來測量數(shù)據(jù)點(diǎn)離擬合模型距離的指標(biāo)Mahalanobis: 個案值離樣本平均值的距離,如果某個個案多個自變量出現(xiàn)大的這種距離,可以認(rèn)為它是離群值Cooks 表示去除這個個案后,模型的殘差會發(fā)生多大的變化,一般認(rèn)為如果這個值大于1,則有離群值或強(qiáng)影響點(diǎn)Leverage values: 用來測量數(shù)據(jù)點(diǎn)的影響強(qiáng)度

11、,如中心杠杠值的變動范圍是0(N-1)/NInfluence statistics:用來判斷強(qiáng)影響點(diǎn)的統(tǒng)計(jì)量DfBeta : Difference in Beta 去除某個觀測值后回歸系數(shù)的變化standardized DfBeta 標(biāo)準(zhǔn)化的DfBeta 值,當(dāng)它大于1/Sqrt(N)時,該點(diǎn)為強(qiáng)影響點(diǎn),DfFit. : Difference in fit value 去除這個觀測值后預(yù)測值的變化值Covariance ratio 去除這個觀測值后,斜方差陣與包含全部觀測值的斜方差陣的比率,如果絕對值大于3*P/N, 這個觀測值為強(qiáng)影響點(diǎn)或離群值。11、置信水平和缺少值處理方式選擇 Optio

12、ns框:當(dāng)自變量進(jìn)入方式采取逐步回歸時,打開Options對話框可以設(shè)定選擇變量進(jìn)入的和剔除的條件??梢詫θ鄙僦档奶幚矸绞竭M(jìn)行選擇。(三)回歸分析統(tǒng)計(jì)量選擇單擊圖123中的Statistics按鈕,打開一個Linear Regression的Statistics對話框(見圖125),研究者可以根據(jù)自己的需要進(jìn)行選擇。圖125 Linear Regression的Statistics對話框1、回歸系數(shù)及其基本含義圖125中的Regression Coefficients,提供了關(guān)于回歸系數(shù)的三種選項(xiàng)。Estimates選項(xiàng):點(diǎn)選后可輸出回歸方程中關(guān)于回歸系數(shù)的基本情況,輸出的數(shù)值有:B值、 Be

13、ta、 t值、t值的雙尾檢驗(yàn)。來看例1關(guān)于“大專及以上人口占6歲及以上人口比例與人均國內(nèi)生產(chǎn)總值”線性回歸方程的回歸系數(shù)(見表121)。2、置信區(qū)間 點(diǎn)選圖125中的Confidence intervals ,可以求得回歸系數(shù)的95%置信區(qū)間,在置信度95%時,置信區(qū)間為: 式中為樣本標(biāo)準(zhǔn)差,為回歸系數(shù)。來看例1關(guān)于“大專及以上人口占6歲及以上人口比例與人均國內(nèi)生產(chǎn)總值”線性回歸方程的回歸系數(shù)(見表122)。 表132給出了回歸系數(shù)B的95的置信區(qū)間,置信區(qū)間的下限為1593.071,上限為2849.639。 3、模型擬合度 點(diǎn)選圖125中的 Model Fit ,可以輸出對模型擬合度進(jìn)行評價

14、的統(tǒng)計(jì)量。模型擬合統(tǒng)計(jì)量主要有:R、 RRsquare、 R adj 。這些值主要用來判斷模型的擬合度或解釋力怎么樣。表133和表134為“大專及以上人口占6歲及以上人口比例與人均國內(nèi)生產(chǎn)總值”線性回歸方程模型的擬合度統(tǒng)計(jì)量。 (1)相關(guān)系數(shù) R表133中的相關(guān)系數(shù)R0.802,反映了真實(shí)數(shù)據(jù)與回歸直線靠近的程度,直接反映了一元線性回歸或多元性回歸預(yù)測效果的好壞程度。(2)判定系數(shù) R Square R Square 也叫判定系數(shù)或確定系數(shù)(Coefficient of Determination ),它等于(總平方和- 余差平方和)/總平方和總平方和(Total Sum of Square)

15、的計(jì)算公式是;TSS= 表示觀察值圍繞均值的情況,表示總的分散程度。TSS相當(dāng)于PRE中的E1,因?yàn)楫?dāng)不知道自變量 x和因變量y有關(guān)系時,對因變量的最好的估計(jì)就是因變量的均值,而每一個真實(shí)的因變量的觀察值和因變量的均值的差,就構(gòu)成了每次估計(jì)的誤差。回歸平方和(Regression Sum of Square)為回歸方程能夠解釋因變量Y變化的部分,其計(jì)算公式為:RSS= 式中:= a+ bxRSS反映了因變量Y的觀察值偏離回歸直線的程度,相當(dāng)于PRE中的E2,也就是知道Y與X有關(guān)系以后,估計(jì)Y值時產(chǎn)生的總誤差。余差平方和(Error Sum of Square)為回歸直線不能解釋因變量Y變化的部

16、分,是不可解釋的殘差。TSS(總平方和)ESS(回歸直線未能解釋的誤差 )=RSS(通過回歸直線被解釋掉的誤差。 R Square =(TSS-ESS)/TSS R Square越大,說明被解釋掉的誤差越大,說明模型擬合度越好,從而可以反映出自變量對回歸模型的貢獻(xiàn),其解釋能力越強(qiáng)。本例的 R Square為0.643,表示模型的擬合度為64.3%,或者說當(dāng)僅以大專及以上人口占6歲及以上人口比例與人均國內(nèi)生產(chǎn)總值來建構(gòu)線性回歸模型時,自變量大專及以上人口占6歲及以上人口比例能夠解釋掉64.3的人均國內(nèi)生產(chǎn)總值的差異。(3)修正的R平方Adjusted R Square 為修正的判定系數(shù)。 隨著自

17、變量個數(shù)的增加,剩余平方和逐漸減少,R平方也隨之增大,所以R平方是一個受自變量的個數(shù)與樣本規(guī)模的比例影響很大的系數(shù)。一般當(dāng)自變量與樣本規(guī)模的比例是1:10 以上比較好,當(dāng)這個比值小于1:5時,R平方會高估實(shí)際的擬合優(yōu)度,為了避免這種情況的出現(xiàn),就用調(diào)整的Adjusted R Square代替R Square。修正的R平方的計(jì)算公式為: 當(dāng)樣本數(shù)量遠(yuǎn)遠(yuǎn)大于自變量的個數(shù)時,調(diào)整的R平方就非常接近R平方。本例修正的R平方為0.631,比 R Square(0.643)略小。(4)回歸方程的檢驗(yàn) 表123 回歸方差分析表來源自由度df平方和sum of square均方和mean squareF值顯著

18、水平Sig .回歸RegressionKRSSRSS/K余差Residualn- k 1ESSESS/(NK -1)總n - 1TSSF檢驗(yàn)的假設(shè)是:原假設(shè):自變量與因變量之間無線性相關(guān),各個回歸系數(shù)相等。也就是能否肯定總體回歸系數(shù)中至少有一個不等于0。研究假設(shè):自變量與因變量之間存在線性相關(guān),是至少有一個回歸系數(shù)不等于0。如果接受原假設(shè),那么自變量與因變量之間的線性關(guān)系就不顯著,如果拒絕原假設(shè),接受研究假設(shè),那么自變量與因變量之間存在線性關(guān)系。如果計(jì)算的顯著性小于,(事先確定的標(biāo)準(zhǔn),社會科學(xué)研究中通常取0.05或0.01),則拒絕原假設(shè),接受研究假設(shè)。表134 為大專及以上人口占6歲及以上人

19、口比例與人均國內(nèi)生產(chǎn)總值線性回歸模型的方差分析表,模型的回歸平方和為2188940608.45,自由度為1,回歸均方和為2188940608.45。余差平方和為1214014234.91,自由度為29,余差均方和為41862559.82。F值52.2892188940608/41862559.82,F(xiàn)的顯著性Sig.000,小于5%,所以,本例的模型擬合度R Square具有統(tǒng)計(jì)學(xué)意義。(四)回歸分析假定條件的檢查1、正態(tài)分布檢查 一般用標(biāo)準(zhǔn)化誤差直方圖、標(biāo)準(zhǔn)化誤差正態(tài)概率散點(diǎn)圖、標(biāo)準(zhǔn)化誤差和標(biāo)準(zhǔn)化預(yù)測值的散點(diǎn)圖來對正態(tài)分布進(jìn)行檢查。操作方法:第一步:單擊圖123中的Plots 打開Regre

20、ssion Linear:Plots作圖對話框。圖126 Regression Linear:Plots作圖對話框第二步:點(diǎn)選*ZRESID(標(biāo)準(zhǔn)化誤差頻數(shù))到框(設(shè)為縱坐標(biāo)) 點(diǎn)選*ZPRED(標(biāo)準(zhǔn)化誤差)到(設(shè)為橫坐標(biāo))。第三步:單擊 *ZRESID(標(biāo)準(zhǔn)化誤差頻數(shù))到框(設(shè)為縱坐標(biāo)) 點(diǎn)選*SRESID到(設(shè)為橫坐標(biāo)) 點(diǎn)選 Histogram(即要求輸出殘差統(tǒng)計(jì)量的正態(tài)分布圖) 點(diǎn)選 Normal probability plot(即要求輸出標(biāo)準(zhǔn)殘差正態(tài)分布圖) 單擊Continue 返回Linear Regression對話框 單擊OK 輸出圖形(見圖12-7和圖128)圖137是標(biāo)準(zhǔn)化誤差正態(tài)概率散點(diǎn)圖,如果總體誤差項(xiàng)服從正態(tài)分布,則散點(diǎn)將完全落在由原點(diǎn)出發(fā)的參照線上,橫坐標(biāo)0.5代表誤差由負(fù)到正的分界點(diǎn),即這一點(diǎn)代表誤差為0的情況,由這點(diǎn)向左側(cè)延伸代表負(fù)誤差值越來越大,由這點(diǎn)向右側(cè)延伸代表正誤差值越來越大。顯然,本例總體誤差項(xiàng)并不完全服從正態(tài)分布,因?yàn)橛幸徊糠稚Ⅻc(diǎn)遠(yuǎn)離了參照線。圖138為標(biāo)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論