第5章相關與回歸分析_第1頁
第5章相關與回歸分析_第2頁
第5章相關與回歸分析_第3頁
第5章相關與回歸分析_第4頁
第5章相關與回歸分析_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第5章相關與回歸分析一、相關分析二、簡單線性回歸分析三、多元線性回歸分析四、曲線估計*主要內(nèi)容§5.1相關分析

1、概述(一)相關關系(1)函數(shù)關系:(如銷售額與銷售量、圓面積和圓半徑)。事物間的一種一一對應的確定性關系。即當一個變量x取一定值時,另一變量y可以依確定的關系取一個確定的值。(2)相關關系(統(tǒng)計關系):(如收入和消費)事物間的關系不是確定性的.即當一個變量x取一定值時,另一變量y的取值可能有幾個,即一個變量的值不能由另一個變量唯一確定概述相關關系的常見類型:線性相關:正線性相關、負線性相關非線性相關相關關系不象函數(shù)關系那樣直接,但卻普遍存在,且有強有弱。如何分析呢?概述(二)相關分析和回歸分析的任務研究對象:相關關系相關分析旨在測度變量間線性關系的強弱程度?;貧w分析側(cè)重考察變量之間的數(shù)量變化規(guī)律,并通過一定的數(shù)學表達式來描述這種關系,進而確定一個或幾個變量的變化對另一個變量的影響程度。2、簡單相關分析(一)目的通過樣本數(shù)據(jù),研究兩變量間線性相關程度的強弱。(例如投資與收入之間的關系、GDP與通信需求之間的數(shù)量關系)(二)基本方法繪制散點圖、計算相關系數(shù)

繪制散點圖(一)散點圖將樣本數(shù)據(jù)以點的形式繪制在直角平面上,可以用來發(fā)現(xiàn)變量間的關系和可能的趨勢,比較直觀,但較為粗略。(二)基本操作步驟(1)菜單選項:graphs→scatter(2)選擇散點圖類型:(3)選擇x軸和y軸的變量不相關正線性相關負線性相關相關但非線性相關計算相關系數(shù)(一)相關系數(shù)(1)作用:以精確的相關系數(shù)(r)體現(xiàn)兩個變量間的線性關系程度。相關系數(shù)的值在-1到1之間,在說明變量之間的線性關系強弱時,可將相關程度分為以下幾種:│r│≥0.8,視為高度相關。0.5≤│r│<0.8,視為中度相關。0.3≤│r│<0.5,視為低度相關。1、定量變量的相關指標這種情況是最常見的,此時一般使用積差相關系數(shù),又稱Pearson相關系數(shù)表示其相關性的大小。作為參數(shù)方法,積差相關分析有一定的使用條件:線性相關的情況樣本中不存在極端值服從聯(lián)合正態(tài)分布(寬松)計算相關系數(shù)計算相關系數(shù)簡單相關系數(shù)相關系數(shù)的檢驗(t檢驗):提出假設:H0:;H1:0檢驗的統(tǒng)計量:計算統(tǒng)計量的值,并得到對應的相伴概率p結(jié)論:如果p<=α,則拒絕H0,兩總體存在線性相關;如果p>α,不能拒絕H0.不滿足積差相關分析的條件。用等級表示的原始數(shù)據(jù)(定序變量)。秩相關:又叫等級相關(rankcorrelation),即斯皮爾曼(Spearman)等級相關。適用于以下資料:計算相關系數(shù)計算相關系數(shù)2、定序變量間的線性相關關系:Kendall相關系數(shù)(Kendall’s)

有序變量的等級資料的相關性就是指行變量等級高的列變量等級也高,行變量等級低的列變量等級也低。SPSS所提供的有序變量的相關指標有Kendall’sTau-b,理論上取值范圍也是±1。SPSS的相關分析基本操作步驟:(1)菜單選項:analyze→correlate→bivariate...(2)選擇計算相關系數(shù)的兩個或多個變量到variables框.(3)選擇相關系數(shù)(correlationcoefficients).(4)顯著性檢驗(testofsignificance)例5.1:某人壽保險公司準備在中低收入家庭中開展壽險險種的市場促銷活動,為此,該公司市場企劃部搞了一次抽樣調(diào)查活動,專門對所在地區(qū)購買過壽險的居民家庭進行訪問(數(shù)據(jù)見《人壽保險.sav》),試據(jù)此分析人均年收入與壽險保額之間的相關關系。相關分析的應用3、偏相關分析(一)偏相關系數(shù)(1)含義:在控制了其他變量的影響的情況下,計算兩變量間的相關系數(shù)。虛假相關:如小學1~6年級全體學生進行速算比賽(身高和分數(shù)間的相關受年齡的影響)偏相關分析(2)計算方法:SPSS的偏相關分析(二)基本操作步驟(1)菜單選項:analyze→correlate→partial…(2)選擇將需要描述相關性的兩個或多個變量到variable框。(3)選擇控制變量到controllingfor框。(4)option選項:zero-ordercorrelations:輸出簡單相關系數(shù)矩陣(三)應用舉例例5.2:根據(jù)調(diào)查問卷.sav中的數(shù)據(jù),試分析年齡和身高的相關性。SPSS的偏相關分析§5.2簡單線性回歸分析(1)簡單線性回歸模型(一元線性回歸模型)

y=β0+β1x+ε模型表明,因變量Y的變化可以由兩部分來解釋,一部分是由自變量X的變化引起的Y的線性變化,另一部分是有其他隨機因素引起Y的變化,即ε,ε是隨機擾動項。1、簡單線性回歸模型(2)基本假定誤差項ε是一個期望值為0的隨機變量,即E(ε)=0。(零均值)對于所有的x值,ε的方差σ2相同(同方差)誤差項ε是一個服從正態(tài)分布的隨機變量,且相互獨立。即ε~N(0,σ2)(正態(tài)性,無自相關)獨立性意味著對于一個特定的x值,它所對應的ε與其他x值所對應的ε不相關(3)一元線性回歸方程稱一元線性回歸方程,是對應于自變量X某一取值時因變量Y的均值。β

0、β1是未知參數(shù),β

0是常數(shù)項,β1為回歸系數(shù),它表示自變量X每變化一個單位,因變量Y的平均變化量。b與r的關系:r>0r<0r=0b>0 b<0 b=0(4)估計的一元線性回歸方程截距斜率(回歸系數(shù))2、簡單線性回歸分析概述回歸分析的基本步驟:(1)確定自變量和因變量;(2)從樣本數(shù)據(jù)出發(fā)確定變量之間的數(shù)學關系式,對回歸方程的各個參數(shù)進行估計;(3)回歸方程的擬和優(yōu)度檢驗;(4)回歸方程的顯著性檢驗(F檢驗);(5)回歸系數(shù)的顯著性檢驗(t檢驗);(6)殘差分析;(7)利用回歸方程進行預測。1、估計回歸方程參數(shù)估計的準則目標:回歸線上的觀察值與預測值之間的距離總和達到最小最小二乘法(最小二乘法使每個樣本點(xi,yi)與回歸直線上的對應點(xi,E(yi))在垂直方向上的偏差距離最小)最小二乘法

(圖示)xy(xn

,yn)(x1,y1)(x2,y2)(xi,yi)}ei

=yi-yi^一元線性回歸模型的確定根據(jù)實際數(shù)據(jù),用最小平方法,即使,分別對a、b求偏導并令其為零,求得兩個標準方程:解聯(lián)立方程,得到2、一元線性回歸方程評價(擬和優(yōu)度)(1)目的:檢驗樣本觀察點聚集在回歸直線周圍的密集程度,評價回歸方程對樣本數(shù)據(jù)點的擬和程度。(2)思路:因為因變量取值的變化受兩個因素的影響自變量不同取值的影響其他因素的影響于是,因變量總變差=自變量引起的+其他因素引起的即:因變量總變差=回歸方程可解釋的+不可解釋的可證明:因變量總離差平方和=回歸平方和+剩余平方和xy總離差=回歸離差+剩余離差SST=SSR+SSE

R2表示因變量全部變差中有百分之幾的變差可由x與y的回歸關系來解釋。,r的符號同回歸系數(shù)b(3)統(tǒng)計量:判定系數(shù)(擬和優(yōu)度)R2=SSR/SST=1-SSE/SST.R2體現(xiàn)了回歸方程所能解釋的因變量變差的比例;R2越接近于1,則說明回歸平方和占了因變量總變差平方和的絕大部分比例,因變量的變差主要由自變量的不同取值造成,回歸方程對樣本數(shù)據(jù)點擬合得好。2、一元線性回歸方程的評價3、回歸方程的顯著性檢驗檢驗自變量和因變量之間的線性關系是否顯著具體方法是將回歸離差平方和(SSR)同剩余離差平方和(SSE)加以比較,應用F檢驗來分析二者之間的差別是否顯著如果是顯著的,兩個變量之間存在線性關系如果不顯著,兩個變量之間不存在線性關系3、回歸方程的顯著性檢驗提出假設H0:線性關系不顯著(H0:b1=0)2.計算檢驗統(tǒng)計量F3、計算F統(tǒng)計量的值和相伴概率p4、判斷:若p<=a,拒絕H0,自變量與因變量之間存在顯著的線性關系。反之,不能拒絕H04、回歸系數(shù)的顯著性檢驗在一元線性回歸中,等價于回歸方程的顯著性檢驗檢驗x與y之間是否具有線性關系,或者說,檢驗自變量x對因變量y的線性影響是否顯著。理論基礎是回歸系數(shù)

的抽樣分布4、回歸系數(shù)的顯著性檢驗是根據(jù)最小二乘法求出的樣本統(tǒng)計量,它有自己的分布的分布具有如下性質(zhì)分布形式:正態(tài)分布數(shù)學期望:標準差:由于無未知,需用其估計量Sy來代替得到的估計的標準差4、回歸系數(shù)的顯著性檢驗提出假設H0:β1=0(沒有線性關系)H1:β1

0(有線性關系)計算檢驗的統(tǒng)計量3、計算t統(tǒng)計量的值和相伴概率p

4、判斷:P值<=a,拒絕H0,即回歸系數(shù)與0有顯著差異,自變量對因變量有顯著的線性影響,反之,不能拒絕H05、線性回歸方程的殘差分析(一)殘差序列的正態(tài)性檢驗:繪制標準化殘差的直方圖或累計概率圖(二)殘差序列的隨機性檢驗繪制殘差和預測值的散點圖,應隨機分布在經(jīng)過零的一條直線上下(三)殘差序列的等方差性檢驗隨機、等方差、獨立隨機、異方差、獨立非獨立5、線性回歸方程的殘差分析(四)殘差序列獨立性檢驗:殘差序列是否存在后期值與前期值相關的現(xiàn)象,利用D.W(Durbin-Watson)檢驗d-w=0:殘差序列存在完全正自相關:d-w=4:殘差序列存在完全負自相關;0<d-w<2:殘差序列存在某種程度的正自相關;2<d-w<4:殘差序列存在某種程度的負自相關;d-w=2:殘差序列不存在自相關。三、SPSS的一元線性回歸分析(一)基本操作步驟(1)菜單選項:Analyze→regression→linear…(2)選擇一個變量為因變量進入dependent框(3)選擇一個變量為自變量進入independent框(4)Enter:所選變量全部進入回歸方程(默認方法)(二)statistics選項(1)基本統(tǒng)計量輸出Estimates:默認.顯示回歸系數(shù)相關統(tǒng)計量.confidenceintervals:每個非標準化的回歸系數(shù)95%的置信區(qū)間.Descriptive:各變量均值、標準差和相關系數(shù)單側(cè)檢驗概率.Modelfit:默認.判定系數(shù)、估計標準誤差、方差分析表、容忍度(2)Residual框中的殘差分析Durbin-waston:D-W值casewisediagnostic:異常值(奇異值)檢測(輸出預測值及殘差和標準化殘差)三、SPSS的一元線性回歸分析(三)plot選項:圖形分析.Standardizeresidualplots:繪制殘差序列直方圖和累計概率圖,檢測殘差的正態(tài)性繪制指定序列的散點圖,檢測殘差的隨機性、異方差性ZPRED:標準化預測值ZRESID:標準化殘差SRESID:學生化殘差produceallpartialplot:繪制因變量和所有自變量之間的散點圖三、SPSS的一元線性回歸分析一元線性回歸分析應用舉例例5.3:某公司正在決定是否為公司新的文字處理系統(tǒng)簽定一項維修合同,公司管理人員認為,維修費用與該系統(tǒng)使用時間有關,現(xiàn)采集的每周使用時間(小時)和年維修費用(千美元)的統(tǒng)計資料如下。已知該公司每周使用文字處理系統(tǒng)的時間為30小時,如果維修合同中的費用是30000美元,你建議這個合同簽嗎?為什么?使用時間13102028321724314038年維修費用172230374730.532.5395140一元線性回歸分析小結(jié)需要著重閱讀和理解的輸出結(jié)果:擬和優(yōu)度R2的值方差分析表回歸方程系數(shù)表觀察殘差圖§5.3多元線性回歸分析一、多元線性回歸模型一個因變量與兩個及兩個以上自變量之間的回歸描述因變量

y如何依賴于自變量

x1

,x2

,…,

xp

和誤差項

的方程稱為多元線性回歸模型涉及p個自變量的多元線性回歸模型可表示為

b0,b1,b2

,,bp是參數(shù)

是被稱為誤差項的隨機變量

y是x1,,x2,,xp

的線性函數(shù)加上誤差項

說明了包含在y里面但不能被p個自變量的線性關系所解釋的變異性多元線性回歸方程描述y的平均值或期望值如何依賴于

x1,x1

,…,xp的方程稱為多元線性回歸方程多元線性回歸方程的形式為

E(y)=0+1x1

+2x2

+…+

pxp

b1,b2,,bp稱為偏回歸系數(shù)

bi

表示假定其他變量不變,當xi

每變動一個單位時,y的平均平均變動值二、多元線性回歸分析的主要問題回歸方程的評價回歸方程的檢驗自變量篩選多重共線性問題多重決定系數(shù)判定系數(shù)回歸平方和占總離差平方和的比例修正的多重決定系數(shù)由于增加自變量將影響到因變量中被估計的回歸方程所解釋的變異性的數(shù)量,為避免高估這一影響,需要用自變量的數(shù)目去修正R2的值用n表示觀察值的數(shù)目,p表示自變量的數(shù)目,修正的多元判定系數(shù)的計算公式可表示為回歸方程的顯著性檢驗提出假設H0:12p=0(y與所有x的線性關系均不顯著)H1:1,2,,p至少有一個不等于02.計算檢驗統(tǒng)計量F3.計算F統(tǒng)計量的值和相伴概率p4.判斷:p<=a:拒絕H0,即所有回歸系數(shù)與0有顯著差異,自變量與因變量之間存在顯著的線性關系。反之,不能拒絕H0回歸系數(shù)的顯著性檢驗如果F檢驗已經(jīng)表明了回歸模型總體上是顯著的,那么回歸系數(shù)的檢驗就是用來確定每一個單個的自變量xi

對因變量y的影響是否顯著對每一個自變量都要單獨進行檢驗應用t檢驗在多元線性回歸中,回歸方程的顯著性檢驗不再等價于回歸系數(shù)的顯著性檢驗回歸系數(shù)的顯著性檢驗1、提出假設H0:βi

=0(自變量xi與

因變量y沒有線性關系)H1:βi

0(自變量xi與

因變量y有線性關系)2、計算檢驗的統(tǒng)計量t3、逐個計算t統(tǒng)計量的值和相伴概率p4、逐個進行檢驗和判斷:p<=a,拒絕H0,即:該回歸系數(shù)與0有顯著差異,該自變量與因變量之間存在顯著的線性關系,應保留在回歸方程中。反之,不能拒絕H0自變量篩選(一)自變量篩選的目的多元回歸分析引入多個自變量.如果引入的自變量個數(shù)較少,則不能很好的說明因變量的變化;并非自變量引入越多越好,原因:有些自變量可能對因變量的解釋沒有貢獻。自變量間可能存在較強的線性關系,即多重共線性.因而不能全部引入回歸方程。自變量篩選(二)自變量向前篩選法(forward):即自變量不斷進入回歸方程的過程.首先,選擇與因變量具有最高相關系數(shù)的自變量進入方程,并進行各種檢驗;其次,在剩余的自變量中尋找偏相關系數(shù)最高的變量進入回歸方程,并進行檢驗;默認:回歸系數(shù)檢驗的概率值小于PIN(0.05)才可以進入方程.反復上述步驟,直到?jīng)]有可進入方程的自變量為止. 多元線性回歸分析中的自變量篩選(三)自變量向后篩選法(backward):即:自變量不斷剔除出回歸方程的過程.首先,將所有自變量全部引入回歸方程;其次,在一個或多個t值不顯著的自變量中將t值最小的那個變量剔除出去,并重新擬和方程和進行檢驗;默認:回歸系數(shù)檢驗值大于POUT(0.10),則剔除出方程如果新方程中所有變量的回歸系數(shù)t值都是顯著的,則變量篩選過程結(jié)束.否則,重復上述過程,直到無變量可剔除為止.多元線性回歸分析中的自變量篩選(四)自變量逐步篩選法(stepwise):即:是“向前法”和“向后法”的結(jié)合。向前法只對進入方程的變量的回歸系數(shù)進行顯著性檢驗,而對已經(jīng)進入方程的其他變量的回歸系數(shù)不再進行顯著性檢驗,即:變量一旦進入方程就不會被剔除隨著變量的逐個引進,由于變量之間存在著一定程度的相關性,使得已經(jīng)進入方程的變量其回歸系數(shù)不再顯著,因此會造成最后的回歸方程可能包含不顯著的變量。逐步篩選法則在變量的每一個階段都考慮剔除一個變量的可能性。共線性檢測在回歸方程中,雖然各自變量對因變量是有意義的,但由于某些自變量彼此相關,這種自變量彼此間的相關叫存在共線性問題,必然給評價自變量的貢獻帶來困難。(一)共線性帶來的主要問題回歸方程檢驗顯著但所有偏回歸系數(shù)均檢驗不顯著偏回歸系數(shù)估計值大小或符號與常識不符定性分析對因變量肯定有顯著影響的因素,在多元分析中檢驗不顯著,不能納入方程去除一個變量,偏回歸系數(shù)估計值發(fā)生巨大變化線性回歸分析中的共線性檢測(二)共線性診斷自變量的容忍度(tolerance)和方差膨脹因子容忍度:Toli=1-Ri2.其中:Ri2是自變量xi與方程中其他自變量間的復相關系數(shù)的平方.容忍度越大則與方程中其他自變量的共線性越低,應進入方程。(據(jù)經(jīng)驗T<0.1一般認為具有多重共線性)方差膨脹因子(VIF):容忍度的倒數(shù)SPSS在回歸方程建立過程中不斷計算待進入方程自變量的容忍度,并顯示目前的最小容忍度線性回歸分析中的共線性檢測(二)共線性診斷特征根如果自變量間確實存在較強的相關關系,那么它們之間必然存在信息重疊,于是可從這些自變量中提取出既能反映自變量信息(方差)又相互獨立的因素(主成分)來.如果相當多維度的特征根約等于0,則可能有比較嚴重的共線性。條件指數(shù)0<k<10無多重共線性;k>=

30可能存在;k>=100嚴重多重共線性的對策重新抽取樣本數(shù)據(jù)增大樣本量多種自變量篩選方法結(jié)合(選擇逐步回歸法建方程)人為去除次要變量主成分回歸分析(提取因子作為影響因素)進行嶺回歸。SPSS的多元線性回歸分析(一)基本操作步驟(1)菜單選項:analyze→regression→linear…(2)選擇一個變量為因變量進入dependent框(3)選擇一個或多個變量為自變量進入independent框(4)選擇多元回歸分析的自變量篩選方法:Enter:所選變量全部進入回歸方程(默認方法)Stepwise:逐步篩選;backward:向后篩選;forward:向前篩選多元線性回歸分析操作(二)statistics選項(基本統(tǒng)計量輸出)RegressionCoefficients:定義回歸系數(shù)的輸出情況。Residuals:用語選擇輸出殘差診斷的信息(包括Durbin-Watson:自相關檢驗)Collinearity

dignostics:共線性診斷.多元線性回歸分析操作(三)save選項:將回歸分析結(jié)果保存到數(shù)據(jù)編輯窗口中或某磁盤文件中PredictedValue:預測值選項Residuals:可供存儲的各種殘差其他判斷異常值和強影響點的統(tǒng)計量多元線性回歸分析應用舉例例5.4:為研究高等院校人文社會科學研究中立項課題數(shù)受那些因素的影響,收集某年31個省市自治區(qū)部分高校有關社科研究方面的數(shù)據(jù),試利用線性回歸方法進行分析。(數(shù)據(jù)見“高??蒲醒芯?sav”)多元線性回歸分析應用舉例例5.5:某專門為年輕人制作肖像的公司計劃在國內(nèi)再開設幾家分店,收集了目前已開設的分店的銷售數(shù)據(jù)(y,萬元)及分店所在城市的16歲以下人數(shù)(x1,萬人)、人均可支配收入(x2,元)。(數(shù)據(jù)見“reg.sav”)試進行統(tǒng)計分析。多元線性回歸分析應用舉例例5.6:某大學教務處對學生的動手能力頗感興趣,在研究中發(fā)現(xiàn),學生的學習成績特別是統(tǒng)計成績同計算機有關。他們將學生分為兩類,一類利用計算機學習統(tǒng)計,另一類不用計算機學統(tǒng)計?,F(xiàn)隨機從兩類學生中抽取兩個樣本,包括統(tǒng)計成績和過去的績分點(數(shù)據(jù)見“統(tǒng)計成績.sav”),在顯著性水平0.05上,能否確定使用計算機學生的統(tǒng)計成績高于不使用計算機

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論