第九章 相關(guān)分析和回歸分析_第1頁
第九章 相關(guān)分析和回歸分析_第2頁
第九章 相關(guān)分析和回歸分析_第3頁
第九章 相關(guān)分析和回歸分析_第4頁
第九章 相關(guān)分析和回歸分析_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第九章SPSS相關(guān)分析與回歸分析本章內(nèi)容9.1相關(guān)分析和回歸分析概述9.2相關(guān)分析9.3偏相關(guān)分析9.4線性回歸分析9.5曲線估計9.1相關(guān)分析和回歸分析概述客觀事物之間的關(guān)系大致可歸納為兩大類,即函數(shù)關(guān)系:指兩事物之間的一種一一對應(yīng)的關(guān)系,如商品的銷售額和銷售量之間的關(guān)系。相關(guān)關(guān)系(統(tǒng)計關(guān)系):指兩事物之間的一種非一一對應(yīng)的關(guān)系,例如家庭收入和支出、子女身高和父母身高之間的關(guān)系等。相關(guān)關(guān)系又分為線性相關(guān)和非線性相關(guān)。相關(guān)分析和回歸分析都是分析客觀事物之間相關(guān)關(guān)系的數(shù)量分析方法。9.2相關(guān)分析相關(guān)分析通過圖形和數(shù)值兩種方式,有效地揭示事物之間相關(guān)關(guān)系的強(qiáng)弱程度和形式。9.2.1散點(diǎn)圖它將數(shù)據(jù)以點(diǎn)的的形式畫在直角坐標(biāo)系上,通過觀察散點(diǎn)圖能夠直觀的發(fā)現(xiàn)變量間的相關(guān)關(guān)系及他們的強(qiáng)弱程度和方向。9.2.2相關(guān)系數(shù)利用相關(guān)系數(shù)進(jìn)行變量間線性關(guān)系的分析通常需要完成以下兩個步驟:第一,計算樣本相關(guān)系數(shù)r;相關(guān)系數(shù)r的取值在-1~+1之間R>0表示兩變量存在正的線性相關(guān)關(guān)系;r<0表示兩變量存在負(fù)的線性相關(guān)關(guān)系R=1表示兩變量存在完全正相關(guān);r=-1表示兩變量存在完全負(fù)相關(guān);r=0表示兩變量不相關(guān)|r|>0.8表示兩變量有較強(qiáng)的線性關(guān)系;|r|<0.3表示兩變量之間的線性關(guān)系較弱第二,對樣本來自的兩總體是否存在顯著的線性關(guān)系進(jìn)行推斷。對不同類型的變量應(yīng)采用不同的相關(guān)系數(shù)來度量,常用的相關(guān)系數(shù)主要有Pearson簡單相關(guān)系數(shù)、Spearman等級相關(guān)系數(shù)和Kendall相關(guān)系數(shù)等。9.2.2.1Pearson簡單相關(guān)系數(shù)(適用于兩個變量都是數(shù)值型的數(shù)據(jù))Pearson簡單相關(guān)系數(shù)的檢驗(yàn)統(tǒng)計量為:9.2.2.2Spearman等級相關(guān)系數(shù)Spearman等級相關(guān)系數(shù)用來度量定序變量間的線性相關(guān)關(guān)系,基本思想與Pearson簡單相關(guān)系數(shù)相同,只是數(shù)據(jù)為非定距的,故計算時并不直接采用原始數(shù)據(jù),而是利用數(shù)據(jù)的秩,用兩變量的秩代替代入Pearson簡單相關(guān)系數(shù)計算公式中,于是其中的和的取值范圍被限制在1和n之間,且可被簡化為:如果兩變量的正相關(guān)性較強(qiáng),它們秩的變化具有同步性,于是的值較小,r趨向于1;如果兩變量的正相關(guān)性較弱,它們秩的變化不具有同步性,于是的值較大,r趨向于0;在小樣本下,在零假設(shè)成立時,Spearman等級相關(guān)系數(shù)服從Spearman分布;在大樣本下,Spearman等級相關(guān)系數(shù)的檢驗(yàn)統(tǒng)計量為Z統(tǒng)計量,定義為:Z統(tǒng)計量近似服從標(biāo)準(zhǔn)正態(tài)分布。9.2.3計算相關(guān)系數(shù)的基本操作相關(guān)分析用于描述兩個變量間關(guān)系的密切程度,其特點(diǎn)是變量不分主次,被置于同等的地位。在Analyze的下拉菜單Correlate命令項(xiàng)中有三個相關(guān)分析功能子命令Bivariate過程、Partial過程、Distances過程,分別對應(yīng)著相關(guān)分析、偏相關(guān)分析和相似性測度(距離)的三個spss過程。Bivariate過程用于進(jìn)行兩個或多個變量間的相關(guān)分析,如為多個變量,給出兩兩相關(guān)的分析結(jié)果。Partial過程,當(dāng)進(jìn)行相關(guān)分析的兩個變量的取值都受到其他變量的影響時,就可以利用偏相關(guān)分析對其他變量進(jìn)行控制,輸出控制其他變量影響后的偏相關(guān)系數(shù)。Distances過程用于對各樣本點(diǎn)之間或各個變量之間進(jìn)行相似性分析,一般不單獨(dú)使用,而作為聚類分析和因子分析等的預(yù)分析。

Bivariate相關(guān)分析步驟(1)選擇菜單Analyze-Correlate-Bivariate,出現(xiàn)窗口:(2)把參加計算相關(guān)系數(shù)的變量選到Variables框。(3)在CorrelationCoefficents框中選擇計算哪種相關(guān)系數(shù)。(4)在TestofSignificance框中選擇輸出相關(guān)系數(shù)檢驗(yàn)的雙邊(Two-Tailed)概率p值或單邊(One-Tailed)概率p值。(5)選中Flagsignificancecorrelation選項(xiàng)表示分析結(jié)果中除顯示統(tǒng)計檢驗(yàn)的概率p值外,還輸出星號標(biāo)記,以標(biāo)明變量間的相關(guān)性是否顯著;不選中則不輸出星號標(biāo)記。(6)在Option按鈕中的Statistics選項(xiàng)中,選中Cross-productdeviationsandcovariances表示輸出兩變量的離差平方和協(xié)方差。9.2.4相關(guān)分析應(yīng)用舉例

為研究高等院校人文社會科學(xué)研究中立項(xiàng)課題數(shù)會受哪些因素的影響,收集1999年31個省市自治區(qū)部分高校有關(guān)社科研究方面的數(shù)據(jù),研究立項(xiàng)課題數(shù)(當(dāng)年)與投入的具有高級職稱的人年數(shù)(當(dāng)年)、發(fā)表的論文數(shù)(上年)之間是否具有較強(qiáng)的線性關(guān)系。對該問題的研究可以采用相關(guān)分析的方法,首先可繪制矩陣散點(diǎn)圖;其次可以計算Pearson簡單相關(guān)系數(shù)。9.3偏相關(guān)分析9.3.1偏相關(guān)分析和偏相關(guān)系數(shù)上節(jié)中的相關(guān)系數(shù)是研究兩變量間線性相關(guān)性的,若還存在其他因素影響,就相關(guān)系數(shù)本身來講,它未必是兩變量間線性相關(guān)強(qiáng)弱的真實(shí)體現(xiàn),往往有夸大的趨勢。例如,在研究商品的需求量和價格、消費(fèi)者收入之間的線性關(guān)系時,需求量和價格之間的相關(guān)關(guān)系實(shí)際還包含了消費(fèi)者收入對價格和商品需求量的影響。在這種情況下,單純利用相關(guān)系數(shù)來評價變量間的相關(guān)性顯然是不準(zhǔn)確的,而需要在剔除其他相關(guān)因素影響的條件下計算變量間的相關(guān)。偏相關(guān)的意義就在于此。偏相關(guān)分析也稱凈相關(guān)分析,它在控制其他變量的線性影響的條件下分析兩變量間的線性關(guān)系,所采用的工具是偏相關(guān)系數(shù)??刂谱兞總€數(shù)為1時,偏相關(guān)系數(shù)稱一階偏相關(guān);當(dāng)控制兩個變量時,偏相關(guān)系數(shù)稱為二階偏相關(guān);當(dāng)控制變量的個數(shù)為0時,偏相關(guān)系數(shù)稱為零階偏相關(guān),也就是簡單相關(guān)系數(shù)。利用偏相關(guān)系數(shù)進(jìn)行分析的步驟第一,計算樣本的偏相關(guān)系數(shù)假設(shè)有三個變量y、x1和x2,在分析x1和y之間的凈相關(guān)時,當(dāng)控制了x2的線性作用后,x1和y之間的一階偏相關(guān)定義為:

偏相關(guān)系數(shù)的取值范圍及大小含義與相關(guān)系數(shù)相同。第二,對樣本來自的兩總體是否存在顯著的凈相關(guān)進(jìn)行推斷檢驗(yàn)統(tǒng)計量為:其中,r為偏相關(guān)系數(shù),n為樣本數(shù),q為階數(shù)。T統(tǒng)計量服從n-q-2個自由度的t分布。9.3.2偏相關(guān)分析的基本操作1.選擇菜單Analyze-Correlate-Partial2.把參與分析的變量選擇到Variables框中。3.選擇一個或多個控制變量到Controllingfor框中。4.在TestofSignificance框中選擇輸出偏相關(guān)檢驗(yàn)的雙尾概率p值或單尾概率p值。5.在Option按鈕中的Statistics選項(xiàng)中,選中Zero-orderCorrelations表示輸出零階偏相關(guān)系數(shù)。至此,SPSS將自動進(jìn)行偏相關(guān)分析和統(tǒng)計檢驗(yàn),并將結(jié)果顯示到輸出窗口。9.3.3偏相關(guān)分析的應(yīng)用舉例上節(jié)中研究高校立項(xiàng)課題總數(shù)影響因素的相關(guān)分析中發(fā)現(xiàn),發(fā)現(xiàn)立項(xiàng)課題數(shù)與論文數(shù)之間有較強(qiáng)正線性相關(guān)關(guān)系,但應(yīng)看到這種關(guān)系中可能摻入了投入高級職稱的人年數(shù)的影響,因此,為研究立項(xiàng)課題總數(shù)和發(fā)表論文數(shù)之間的凈相關(guān)系數(shù),可以將投入高級職稱的人年數(shù)加以控制,進(jìn)行偏相關(guān)分析。9.4.1線性回歸分析的內(nèi)容確定回歸方程中的自變量和因變量;確定回歸模型的形式;參數(shù)估計;對回歸方程進(jìn)行各種檢驗(yàn):方程整體是否具有統(tǒng)計上的顯著性意義在整體顯著的情況下,哪些自變量有顯著意義模型診斷:經(jīng)典假定是否成立利用回歸方程進(jìn)行預(yù)測。9.4線性回歸分析9.4.2線性回歸模型參數(shù)估計一元線性回歸模型的數(shù)學(xué)模型:其中x為自變量;y為因變量;為截距,即常量;為回歸系數(shù),表明自變量對因變量的影響程度。1.基本假定(1)隨機(jī)誤差項(xiàng)均值為0;(2)隨機(jī)誤差項(xiàng)無自相關(guān)和同方差;(3)自變量為確定性變量;(4)隨機(jī)誤差項(xiàng)與自變量不相關(guān);(5)自變量之間不存在多重共線性;(6)隨機(jī)誤差項(xiàng)服從正態(tài)分布。2.參數(shù)估計在滿足基本假定條件下,線性回歸方程參數(shù)的OLS估計量為:

◆OLS的基本思想●不同的估計方法可得到不同的樣本回歸系數(shù)和,所估計的也不同●理想的估計方法應(yīng)使與的差即剩余越小越好●因可正可負(fù),所以可以取最小即普通最小二乘法(OrdinaryLeastSquares)

整理得正規(guī)方程:樣本回歸參數(shù)估計式

用克萊姆法則求解得OLS估計式:

多元線性回歸模型多元線性回歸方程:模型中參數(shù)是偏回歸系數(shù):控制其它解釋量不變的條件下,第j個解釋變量的單位變動對應(yīng)變量平均值的影響。22ien-k-1sù=?9.4.3線性回歸方程的統(tǒng)計檢驗(yàn)9.4.3.1回歸方程的擬合優(yōu)度回歸直線與各觀測點(diǎn)的接近程度稱為回歸方程的擬合優(yōu)度,也就是樣本觀測值聚集在回歸線周圍的緊密程度。1、離差平方和的分解:建立直線回歸方程可知:y的觀測值的總變動可由來反映,稱為總變差。引起總變差的原因有兩個:由于x的取值不同,使得與x有線性關(guān)系的y值不同;隨機(jī)因素的影響。xy總離差平方和可分解為即:總離差平方和(SST)=剩余離差平方和(SSE)+回歸離差平方和(SSR)其中;SSR是由x和y的直線回歸關(guān)系引起的,可以由回歸直線做出解釋;SSE是除了x對y的線性影響之外的隨機(jī)因素所引起的Y的變動,是回歸直線所不能解釋的。2、可決系數(shù)(判定系數(shù)、決定系數(shù))回歸平方和在總離差平方和中所占的比例可以作為一個統(tǒng)計指標(biāo),用來衡量X與Y的關(guān)系密切程度以及回歸直線的代表性好壞,稱為可決系數(shù)。對于一元線性回歸方程:對于多元線性回歸方程:在多元線性回歸分析中,引起判定系數(shù)增加的原因有兩個:一個是方程中的解釋變量個數(shù)增多,另一個是方程中引入了對被解釋變量有重要影響的解釋變量。如果某個自變量引入方程后對因變量的線性解釋有重要貢獻(xiàn),那么必然會使誤差平方和顯著減小,并使平均的誤差平方和也顯著減小,從而使調(diào)整的判定系數(shù)提高。所以在多元線性回歸分析中,調(diào)整的判定系數(shù)比判定系數(shù)更能準(zhǔn)確的反映回歸方程的擬合優(yōu)度。9.4.3.2回歸方程的顯著性檢驗(yàn)(方差分析F檢驗(yàn))回歸方程的顯著性檢驗(yàn)是要檢驗(yàn)被解釋變量與所有的解釋變量之間的線性關(guān)系是否顯著。原假設(shè):對于一元線性回歸方程,檢驗(yàn)統(tǒng)計量為:對于多元線性回歸方程,檢驗(yàn)統(tǒng)計量為:▼如果(小概率事件發(fā)生了)

則拒絕,說明回歸模型有顯著意義,即所有解釋變量聯(lián)合起來對

有顯著影響。▼如果(小概率事件沒有發(fā)生)

則接受,說明回歸模型沒有顯著意義,即所有解釋變量聯(lián)合起來對

沒有顯著影響。9.4.3.3回歸系數(shù)的顯著性檢驗(yàn)(t檢驗(yàn))回歸系數(shù)的顯著性檢驗(yàn)是要檢驗(yàn)回歸方程中被解釋變量與每一個解釋變量之間的線性關(guān)系是否顯著。對于一元線性回歸方程,檢驗(yàn)統(tǒng)計量為:

對于多元線性回歸方程,檢驗(yàn)統(tǒng)計量為:9.4.3.4殘差分析殘差是指由回歸方程計算得到的預(yù)測值與實(shí)際樣本值之間的差距,定義為:

對于線性回歸分析來講,如果方程能夠較好的反映被解釋變量的特征和規(guī)律性,那么殘差序列中應(yīng)不包含明顯的規(guī)律性。殘差分析包括以下內(nèi)容:殘差服從正態(tài)分布,且其均值等于0;殘差取值與X的取值無關(guān);殘差不存在自相關(guān);殘差方差相等。

1、對于殘差均值和方差齊性檢驗(yàn)可以利用殘差圖進(jìn)行分析。如果殘差均值為零,殘差圖的點(diǎn)應(yīng)該在縱坐標(biāo)為0的中心的帶狀區(qū)域中隨機(jī)散落。如果殘差的方差隨著解釋變量值(或被解釋變量值)的增加呈有規(guī)律的變化趨勢,則出現(xiàn)了異方差現(xiàn)象。2、DW檢驗(yàn)。DW檢驗(yàn)用來檢驗(yàn)殘差的自相關(guān)。檢驗(yàn)統(tǒng)計量為:

DW=2表示無自相關(guān),在0-2之間說明存在正自相關(guān),在2-4之間說明存在負(fù)的自相關(guān)。一般情況下,DW值在1.5-2.5之間即可說明無自相關(guān)現(xiàn)象。9.4.3.5多重共線性分析

多重共線性是指解釋變量之間存在線性相關(guān)關(guān)系的現(xiàn)象。測度多重共線性一般有以下方式:1、容忍度:其中,是第i個解釋變量與方程中其他解釋變量間的復(fù)相關(guān)系數(shù)的平方,表示解釋變量之間的線性相關(guān)程度。容忍度的取值范圍在0-1之間,越接近0表示多重共線性越強(qiáng),越接近1表示多重共線性越弱。2、方差膨脹因子VIF。方差膨脹因子是容忍度的倒數(shù)。VIF越大多重共線性越強(qiáng),當(dāng)VIF大于等于10時,說明存在嚴(yán)重的多重共線性。

3、特征根和方差比。根據(jù)解釋變量的相關(guān)系數(shù)矩陣求得的特征根中,如果最大的特征根遠(yuǎn)遠(yuǎn)大于其他特征根,則說明這些解釋變量間具有相當(dāng)多的重復(fù)信息。如果某個特征根既能夠刻畫某解釋變量方差的較大部分比例(0.7以上),又能刻畫另一解釋變量方差的較大部分比例,則表明這兩個解釋變量間存在較強(qiáng)的線性相關(guān)關(guān)系。4、條件指數(shù)。指最大特征根與第i個特征根比的平方根。通常,當(dāng)條件指數(shù)在0-10之間時說明多重共線性較弱;當(dāng)條件指數(shù)在10-100之間說明多重共線性較強(qiáng);當(dāng)條件指數(shù)大于100時說明存在嚴(yán)重的多重共線性。

均值:一元9.4.4回歸預(yù)測多元:個別值:一元多元:9.4.5線性回歸分析的基本操作(1)選擇菜單Analyze-Regression-Linear,出現(xiàn)窗口:(2)選擇被解釋變量進(jìn)入Dependent框。(3)選擇一個或多個解釋變量進(jìn)入Independent(s)框。(4)在Method框中選擇回歸分析中解釋變量的篩選策略。其中Enter表示所選變量強(qiáng)行進(jìn)入回歸方程,是SPSS默認(rèn)的策略,通常用在一元線性回歸分析中;Remove表示從回歸方程中剔除所選變量;Stepwise表示逐步篩選策略;Backward表示向后篩選策略;Forward表示向前篩選策略。注:多元回歸分析中,變量的篩選一般有向前篩選、向后篩選、逐步篩選三種基本策略。向前篩選(Forward

)策略:解釋變量不斷進(jìn)入回歸方程的過程。首先,選擇與被解釋變量具有最高線性相關(guān)系數(shù)的變量進(jìn)入方程,并進(jìn)行回歸方程的各種檢驗(yàn);然后,在剩余的變量中尋找與被解釋變量偏相關(guān)系數(shù)最高且通過檢驗(yàn)的變量進(jìn)入回歸方程,并對新建立的回歸方程進(jìn)行各種檢驗(yàn);這個過程一直重復(fù),直到再也沒有可進(jìn)入方程的變量為止。向后篩選(Backward

)策略:變量不斷剔除出回歸方程的過程。首先,所有變量全部引入回歸方程,并對回歸方程進(jìn)行各種檢驗(yàn);然后,在回歸系數(shù)顯著性檢驗(yàn)不顯著的一個或多個變量中,剔除t檢驗(yàn)值最小的變量,并重新

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論