SPSS相關分析與回歸分析-學生解析.ppt_第1頁
SPSS相關分析與回歸分析-學生解析.ppt_第2頁
SPSS相關分析與回歸分析-學生解析.ppt_第3頁
SPSS相關分析與回歸分析-學生解析.ppt_第4頁
SPSS相關分析與回歸分析-學生解析.ppt_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、SPSS的相關分析和回歸分析,主要內(nèi)容,相關分析,線性回歸分析,回歸模型的檢驗,回歸模型的適用性,非線性回歸分析,移動通信市場發(fā)展?jié)摿θ匀痪薮?數(shù)據(jù)來源: Datastream2005,移動電話普及率將隨人均可支配收入的不斷增加而提升 國家“信息化帶動工業(yè)化”戰(zhàn)略部署賦予電信業(yè)更大的發(fā)展空間與機遇,市場份額與盈利水平,市場份額與運營商數(shù)呈負相關,與盈利能力呈正相關關系,國內(nèi)市場份額(2005年),EBITDA利潤率(2005年),數(shù)據(jù)來源: 美林證券2005,概述,(一)相關關系 (1)函數(shù)關系:(如:銷售額與銷售量;圓面積和圓半徑.) 是事物間的一種一一對應的確定性關系.即:當一個變量x取一

2、定值時,另一變量y可以依確定的關系取一個確定的值 (2)相關關系(統(tǒng)計關系):(如:收入和消費) 事物間的關系不是確定性的.即:當一個變量x取一定值時,另一變量y的取值可能有幾個.一個變量的值不能由另一個變量唯一確定,概述,相關關系的常見類型: 線性相關:正線性相關、負線性相關 非線性相關 相關關系不象函數(shù)關系那樣直接,但卻普遍存在,且有強有弱.如何測度?,概述,(二) 相關分析的任務 研究對象:相關關系 相關分析旨在測度變量間線性關系的強弱程度. 回歸分析側重考察變量之間的數(shù)量變化規(guī)律,并通過一定的數(shù)學表達式來描述這種關系,進而確定一個或幾個變量的變化對另一個變量的影響程度.,相關分析,(一

3、)目的 通過樣本數(shù)據(jù),研究兩變量間線性相關程度的強弱.(例如:投資與收入之間的關系、GDP與通信需求之間的數(shù)量關系) (二)基本方法 繪制散點圖、計算相關系數(shù),繪制散點圖,(一)散點圖 將數(shù)據(jù)以點的形式繪制在直角平面上.比較直觀,可以用來發(fā)現(xiàn)變量間的關系和可能的趨勢.,繪制散點圖,(二)基本操作步驟 (1)菜單選項:graphs-scatter (2)選擇散點圖類型: (3)選擇x軸和y軸的變量 (4)選擇分組變量(set markers by):分別以不同顏色點的表示 (5)選擇標記變量(label case by): 散點圖上可帶有標記變量的值(如:省份名稱),計算相關系數(shù),一、相關系數(shù)的

4、作用: 以精確的相關系數(shù)(r)體現(xiàn)兩個變量間的線性關系程度. r:-1,+1; r=1:完全正相關; r=-1:完全負相關; r=0:無線性相關; |r|0.8:強相關; |r|0.3:弱相關,計算相關系數(shù),二、關于相關系數(shù)的說明: 相關系數(shù)只是較好地度量兩變量間的線性相關程度,不能描述非線性關系. 如:x和y的取值為:(-1,-1) (-1,1) (1,-1) (1,1) r=0 但 xi2+yi2=2 數(shù)據(jù)中存在極端值時不好 如:(1,1)(2,2)(3,3),(4,4),(5,5),(6,1) r=0.33 但總體上表現(xiàn)出: x=y 應結合散點圖分析,計算相關系數(shù),三、相關系數(shù)的種類:

5、1、簡單線性相關系數(shù)(Pearson): 針對定距定比數(shù)據(jù).,計算相關系數(shù),2、Spearman相關系數(shù): 用來度量定序或定類變量間的線性相關關系(如:不同年齡段與不同收入段,職稱和受教育年份) 利用秩(數(shù)據(jù)的排序次序).認為:如果x與y相關,則相應的秩Ui、Vi也具有同步性. 首先得到兩變量中各數(shù)據(jù)的秩( Ui、Vi),并計算Di2統(tǒng)計量. 計算Spearman秩相關系數(shù) 若兩變量存在強正相關性,則Di2應較小,秩序相關系數(shù)較大.若兩變量存在強負相關性,則Di2應較大,秩序相關系數(shù)為負,絕對值較大,計算相關系數(shù),3、Kendall相關系數(shù):度量定序定類變量間的線性相關關系 首先計算一致對數(shù)目

6、(U,變量y 隨變量x的秩同步增大的秩對)和非一致對數(shù)目(V,變量y 未隨變量x的秩同步增大的秩對) 如: 對x和y求秩后為: x: 2 4 3 5 1 y: 3 4 1 5 2 x的秩按自然順序排序后: x: 1 2 3 4 5 y: 2 3 1 4 5 (U=8,V=2) 然后計算Kendall相關系數(shù). 若兩變量存在強正相關性,則U較大,V較小,秩序相關系數(shù)較大;若兩變量存在強負相關性,則V較大, U較小,秩序相關系數(shù)為負,絕對值較大。 若兩變量相關性較弱,則U和V大致相等,秩序相關系數(shù)較小,計算相關系數(shù),(二)相關系數(shù)檢驗 應對兩變量來自的總體是否相關進行統(tǒng)計推斷. 原因:抽樣的隨機性

7、、樣本容量小等 (1)H0:兩總體零相關 (2)構造統(tǒng)計量,Pearson相關系數(shù),Spearman系數(shù),大樣本 下,近似正態(tài)分布,kendall系數(shù),大樣本 下,近似正態(tài)分布,計算相關系數(shù),(二)相關系數(shù)檢驗 (3)計算統(tǒng)計量的值,并得到對應的相伴概率p (4)結論: 如果pa,不能拒絕H0.,計算相關系數(shù),(三)基本操作步驟 (1)菜單選項:analyze-correlate-bivariate. (2)選擇計算相關系數(shù)的變量到variables框. (3)選擇相關系數(shù)(correlation coefficients). (4)顯著性檢驗(test of significance) to

8、w-tailed:輸出雙尾概率P. one-tailed:輸出單尾概率P,計算相關系數(shù),(四)其他選項 statistics選項:僅當計算簡單相關系數(shù)時,選擇輸出哪些統(tǒng)計量. means and standard deviations:均值、標準差; cross-product deviations and covariances:分別輸出兩變量的離差平方和(sum of square 分母)、兩變量的差積和(cross-products分子)、協(xié)方差(covariance 以上各個數(shù)據(jù)除以n-1),計算相關系數(shù),(五)應用舉例 利用相關系數(shù)分析人均GDP與移動電話普及率之間的關系 *表示t檢

9、驗值發(fā)生的概率小于等于0.05,即總體無相關的可能性小于0.05; *表示t檢驗值發(fā)生的概率小于等于0.01,即總體無相關的可能性小于0.01; *比*,拒絕零假設更可靠.,計算相關系數(shù),(五)應用舉例 分析固定話費的高低是否與年齡、生活水平、文化程度相關. 利用秩,通過計算spearman和kendall相關系數(shù)進行分析,偏相關分析,(一)偏相關系數(shù) (1)含義: 在控制了其他變量的影響下計算兩變量的相關系數(shù) 虛假相關.如:小學16年級全體學生進行速算比賽(身高和分數(shù)間的相關受年齡的影響) 研究商品的需求量和價格、消費者收入之間的關系.因為:需求量和價格之間的相關關系包含了消費者收入對商品需

10、求量的影響;收入對價格也產(chǎn)生影響,并通過價格變動傳遞到對商品需求量的影響中。,偏相關分析,(一)偏相關系數(shù) (2)計算方法:,偏相關分析,(二)基本操作步驟 (1).菜單選項:analyze-correlate-partial (2).選擇將參加計算的變量到variable框. (3).選擇控制變量到controlling for 框。 (4)option選項: zero-order correlations:輸出簡單相關系數(shù)矩陣,偏相關分析,(三)應用舉例 分析文化程度對話費與年齡之間的關系的影響,回歸分析概述,(一)回歸分析理解 (1)“回歸”的含義 galton研究父親身高和兒子身高的關

11、系時的獨特發(fā)現(xiàn). (2)回歸線的獲得方式一:局部平均 回歸曲線上的點給出了相應于每一個x(父親)值的y(兒子)平均數(shù)的估計 (3)回歸線的獲得方式二:擬和函數(shù) 使數(shù)據(jù)擬合于某條曲線; 通過若干參數(shù)描述該曲線; 利用已知數(shù)據(jù)在一定的統(tǒng)計準則下找出參數(shù)的估計值(得到回歸曲線的近似);,回歸分析概述,(二)回歸分析的基本步驟 (1)確定自變量和因變量 (2)從樣本數(shù)據(jù)出發(fā)確定變量之間的數(shù)學關系式,并對回歸方程的各個參數(shù)進行估計. (3)對回歸方程進行各種統(tǒng)計檢驗. (4)利用回歸方程進行預測.,線性回歸分析概述,(三)參數(shù)估計的準則 目標:回歸線上的觀察值與預測值之間的距離總和達到最小 最小二乘法(

12、利用最小二乘法擬和的回歸直線與樣本數(shù)據(jù)點在垂直方向上的偏離程度最低),一元線性回歸分析,(一)一元回歸方程: y=0+1x 0為常數(shù)項;1為y對x回歸系數(shù),即:x每變動一個單位所引起的y的平均變動 (二)一元回歸分析的步驟 利用樣本數(shù)據(jù)建立回歸方程 回歸方程的擬和優(yōu)度檢驗 回歸方程的顯著性檢驗(t檢驗和F檢驗) 殘差分析 預測,一元線性回歸方程的檢驗,(一)擬和優(yōu)度檢驗: (1)目的:檢驗樣本觀察點聚集在回歸直線周圍的密集程度,評價回歸方程對樣本數(shù)據(jù)點的擬和程度。,(2)思路: 因為: 因變量取值的變化受兩個因素的影響 自變量不同取值的影響 其他因素的影響 如:兒子身高(y)的變化受:父親身高

13、(x)的影響、其他條件 于是: 因變量總變差=自變量引起的+其他因素引起的 即: 因變量總變差=回歸方程可解釋的+不可解釋的 可證明:因變量總離差平方和=回歸平方和+剩余平方和,一元線性回歸方程的統(tǒng)計檢驗,(一)擬和優(yōu)度檢驗: (3)統(tǒng)計量:判定系數(shù) R2=SSR/SST=1-SSE/SST. R2體現(xiàn)了回歸方程所能解釋的因變量變差的比例;1-R2則體現(xiàn)了因變量總變差中,回歸方程所無法解釋的比例。 R2越接近于1,則說明回歸平方和占了因變量總變差平方和的絕大部分比例,因變量的變差主要由自變量的不同取值造成,回歸方程對樣本數(shù)據(jù)點擬合得好 在一元回歸中R2=r2; 因此,從這個意義上講,判定系數(shù)能

14、夠比較好地反映回歸直線對樣本數(shù)據(jù)的代表程度和線性相關性。,一元線性回歸方程的統(tǒng)計檢驗,(二) 顯著性檢驗 (1)目的:檢驗自變量與因變量之間的線性關系是否顯著,是否可用線性模型來表示. (2)檢驗方法 T檢驗 F檢驗,一元線性回歸方程的檢驗,(三)回歸系數(shù)的顯著性檢驗:t檢驗 (1)目的:檢驗自變量對因變量的線性影響是否顯著. (2)H0:=0 即:回歸系數(shù)與0無顯著差異 (3)利用t檢驗,構造t統(tǒng)計量: 其中:Sy是回歸方程標準誤差(Standard Error)的估計值,由均方誤差開方后得到,反映了回歸方程無法解釋樣本數(shù)據(jù)點的程度或偏離樣本數(shù)據(jù)點的程度 如果回歸系數(shù)的標準誤差較小,必然得到

15、一個相對較大的t值,表明該自變量x解釋因變量線性變化的能力較強。,一元線性回歸方程的檢驗,(4)計算t統(tǒng)計量的值和相伴概率p (5)判斷: 相伴概率=a:拒絕H0,即:回歸系數(shù)與0有顯著差異,自變量與因變量之間存在顯著的線性關系,能夠較好的解釋說明因變量的變化.反之,不能拒絕H0 (6)回歸系數(shù)的區(qū)間估計,一元線性回歸方程的檢驗,(四)回歸方程的顯著性檢驗:F檢驗 (1)目的:檢驗自變量與因變量之間的線性關系是否顯著,是否可用線性模型來表示. (2)H0: =0 即:回歸系數(shù)與0無顯著差異 (3)利用F檢驗,構造F統(tǒng)計量: F=平均的回歸平方和/平均的剩余平方和F(1,n-1-1) 如果F值較

16、大,則說明自變量造成的因變量的線性變動遠大于隨機因素對因變量的影響,自變量于因變量之間的線性關系較顯著 (4)計算F統(tǒng)計量的值和相伴概率p (5)判斷 p=a:拒絕H0,即:回歸系數(shù)與0有顯著差異,自變量與因變量之間存在顯著的線性關系。反之,不能拒絕H0,一元線性回歸方程的檢驗,(五)t檢驗與F檢驗的關系 一元回歸中,F檢驗與t檢驗一致,即: F=t2,兩種檢驗可以相互替代 (六)F統(tǒng)計量和R2值的關系 如果回歸方程的擬合優(yōu)度高,F(xiàn)統(tǒng)計量就越顯著。F統(tǒng)計量越顯著,回歸方程的擬合優(yōu)度就會越高。,線性回歸方程的殘差分析N( 0 ,2 ) 且相互獨立,(一)殘差序列的正態(tài)性檢驗: 繪制標準化殘差的直

17、方圖或累計概率圖 (二)殘差序列的隨機性檢驗 繪制殘差和預測值的散點圖,應隨機分布在經(jīng)過零的一條直線上下 (三)殘差序列等方差性檢驗,可檢驗殘差序列絕對值與x的等級相關系數(shù),隨機、等方差、獨立,隨機、異方差、獨立,非獨立,線性回歸方程的殘差分析,(四)殘差序列獨立性檢驗: 殘差序列是否存在后期值與前期值相關的現(xiàn)象,利用D.W(Durbin-Watson)檢驗 d-w=0:殘差序列存在完全正自相關;d-w=4:殘差序列存在完全負自相關;0d-w2:殘差序列存在某種程度的正自相關;2d-w4:殘差序列存在某種程度的負自相關;d-w=2:殘差序列不存在自相關. 殘差序列不存在自相關,可以認為回歸方程

18、基本概括了因變量的變化;否則,認為可能一些與因變量相關的因素沒有引入回歸方程或回歸模型不合適或滯后性周期性的影響.,線性回歸方程的殘差分析,(五)異常值(casewise或outliers)診斷 利用標準化殘差不僅可以知道觀察值比預測值大或小,并且還知道在絕對值上它比大多數(shù)殘差是大還是小.一般標準化殘差的絕對值大于3,則可認為對應的樣本點為奇異值 異常值并不總表現(xiàn)出上述特征.當剔除某觀察值后,回歸方程的標準差顯著減小,也可以判定該觀察值為異常值,線性回歸方程的預測,(一)點估計 y0 (二)區(qū)間估計 1-的近似置信區(qū)間: x0為xi的均值時,預測區(qū)間最小,精度最高.x0越遠離均值,預測區(qū)間越大

19、,精度越低.,一元線性回歸分析操作,(一)基本操作步驟 (1)菜單選項: Analyze-regression-linear (2)選擇一個變量為因變量進入dependent框 (3)選擇一個變量為自變量進入independent框 (4)enter:所選變量全部進入回歸方程(默認方法) (5)對樣本進行篩選(selection variable) 利用滿足一定條件的樣本數(shù)據(jù)進行回歸分析 (6)指定作圖時各數(shù)據(jù)點的標志變量(case labels),一元線性回歸分析操作,(二) statistics選項 (1)基本統(tǒng)計量輸出 Estimates:默認.顯示回歸系數(shù)相關統(tǒng)計量. confiden

20、ce intervals:每個非標準化的回歸系數(shù)95%的置信區(qū)間. Descriptive:各變量均值、標準差和相關系數(shù)單側檢驗概率. Model fit:默認.判定系數(shù)、估計標準誤差、方差分析表、容忍度 (2)Residual框中的殘差分析 Durbin-waston:D-W值 casewise diagnostic:異常值(奇異值)檢測 (輸出預測值及殘差和標準化殘差),一元線性回歸分析操作,(三)plot選項:圖形分析. Standardize residual plots:繪制殘差序列直方圖和累計概率圖,檢測殘差的正態(tài)性 繪制指定序列的散點圖,檢測殘差的隨機性、異方差性 ZPRED:標

21、準化預測值 ZRESID:標準化殘差 SRESID:學生化殘差 produce all partial plot:繪制因變量和所有自變量之間的散點圖,一元線性回歸分析應用舉例,移動電話普及率和人均GDP的線性關系 Model Summary觀察R2值(擬合優(yōu)度,回歸方程能夠解釋的比例) ANOVA 觀察方差分析表 Coefficients觀察t檢驗和ANOVA F檢驗的關系 Coefficients能夠寫出回歸方程 觀察殘差序列的散點圖(plot)和Model Summary 的DW檢驗 利用回歸分析進行預測,多元線性回歸分析,(一)多元線性回歸方程 多元回歸方程: y= 0 +1x1+2x2

22、+.+kxk 1、2、.k為偏回歸系數(shù)。 1表示在其他自變量保持不變的情況下,自變量x1變動一個單位所引起的因變量y的平均變動 (二)多元線性回歸分析的主要問題 回歸方程的檢驗 自變量篩選 多重共線性問題,多元線性回歸方程的檢驗,(一)擬和優(yōu)度檢驗: (1)判定系數(shù)R2: R是y和xi的復相關系數(shù),測定了因變量y與所有自變量全體之間線性相關程度 (2)調(diào)整的R2: 考慮的是平均的剩余平方和,克服了因自變量增加而造成R2也增大的弱點 在某個自變量引入回歸方程后,如果該自變量是理想的且對因變量變差的解釋說明是有意義的,那么必然使得均方誤差減少,從而使調(diào)整的R2得到提高;反之,如果某個自變量對因變量

23、的解釋說明沒有意義,那么引入它不會造成均方誤差減少,從而調(diào)整的R2也不會提高。,多元線性回歸方程的檢驗,(二)回歸方程的顯著性檢驗: (1)目的:檢驗所有自變量與因變量之間的線性關系是否顯著,是否可用線性模型來表示. (2)H0: 1 = 2 = k =0 即:所有回歸系數(shù)同時與0無顯著差異 (3)利用F檢驗,構造F統(tǒng)計量: F=平均的回歸平方和/平均的剩余平方和F(k,n-k-1) 如果F值較大,則說明自變量造成的因變量的線性變動大于隨機因素對因變量的影響,自變量于因變量之間的線性關系較顯著 (4)計算F統(tǒng)計量的值和相伴概率p (5)判斷:p=,拒絕H0,即:所有回歸系數(shù)與0有顯著差異,自變

24、量與因變量之間存在顯著的線性關系。反之,不能拒絕H0,多元線性回歸方程的檢驗,(三)回歸系數(shù)的顯著性檢驗 (1)目的:檢驗每個自變量對因變量的線性影響是否顯著. (2)H0:i=0 即:第i個回歸系數(shù)與0無顯著差異 (3)利用t檢驗,構造t統(tǒng)計量: 其中:Sy是回歸方程標準誤差(Standard Error)的估計值,由均方誤差開方后得到,反映了回歸方程無法解釋樣本數(shù)據(jù)點的程度或偏離樣本數(shù)據(jù)點的程度 如果某個回歸系數(shù)的標準誤差較小,必然得到一個相對較大的t值,表明該自變量xi解釋因變量線性變化的能力較強。 (4)逐個計算t統(tǒng)計量的值和相伴概率p,多元線性回歸方程的檢驗,(三)回歸系數(shù)的顯著性檢

25、驗 (5)逐個進行檢驗和判斷 相伴概率p=a:拒絕H0,即:該回歸系數(shù)與0有顯著差異.該自變量與因變量之間存在顯著的線性關系,能夠較好的解釋說明因變量的變化,應保留在回歸方程中。反之,不能拒絕H0,多元線性回歸方程的檢驗,(四)t統(tǒng)計量與F統(tǒng)計量 一元回歸中,F檢驗與t檢驗一致,即: F=t2,可以相互替代 在多元回歸中,F(xiàn)檢驗與t檢驗不能相互替代 Fchange =ti2 從Fchange 角度上講,如果由于某個自變量xi的引入,使得Fchange是顯著的(通過觀察Fchange 的相伴概率值),那么就可以認為該自變量對方程的貢獻是顯著的,它應保留在回歸方程中,起到與回歸系數(shù)t檢驗同等的作用

26、。,多元線性回歸分析中的自變量篩選,(一)自變量篩選的目的 多元回歸分析引入多個自變量. 如果引入的自變量個數(shù)較少,則不能很好的說明因變量的變化; 并非自變量引入越多越好.原因: 有些自變量可能對因變量的解釋沒有貢獻 自變量間可能存在較強的線性關系,即:多重共線性. 因而不能全部引入回歸方程.,多元線性回歸分析中的自變量篩選,(二)自變量向前篩選法(forward): 即:自變量不斷進入回歸方程的過程. 首先,選擇與因變量具有最高相關系數(shù)的自變量進入方程,并進行各種檢驗; 其次,在剩余的自變量中尋找偏相關系數(shù)最高的變量進入回歸方程,并進行檢驗; 默認:回歸系數(shù)檢驗的概率值小于PIN(0.05)

27、才可以進入方程. 反復上述步驟,直到?jīng)]有可進入方程的自變量為止.,多元線性回歸分析中的自變量篩選,(三)自變量向后篩選法(backward): 即:自變量不斷剔除出回歸方程的過程. 首先,將所有自變量全部引入回歸方程; 其次,在一個或多個t值不顯著的自變量中將t值最小的那個變量剔除出去,并重新擬和方程和進行檢驗; 默認:回歸系數(shù)檢驗值大于POUT(0.10),則剔除出方程 如果新方程中所有變量的回歸系數(shù)t值都是顯著的,則變量篩選過程結束. 否則,重復上述過程,直到無變量可剔除為止.,多元線性回歸分析中的自變量篩選,(四)自變量逐步篩選法(stepwise): 即:是“向前法”和“向后法”的結合

28、。 向前法只對進入方程的變量的回歸系數(shù)進行顯著性檢驗,而對已經(jīng)進入方程的其他變量的回歸系數(shù)不再進行顯著性檢驗,即:變量一旦進入方程就不會被剔除 隨著變量的逐個引進,由于變量之間存在著一定程度的相關性,使得已經(jīng)進入方程的變量其回歸系數(shù)不再顯著,因此會造成最后的回歸方程可能包含不顯著的變量。 逐步篩選法則在變量的每一個階段都考慮剔除一個變量的可能性。,線性回歸分析中的共線性檢測,(一)共線性帶來的主要問題 高度的多重共線性會使回歸系數(shù)的標準差隨自變量相關性的增大而不斷增大,以至使回歸系數(shù)的置信區(qū)間不斷增大,造成估計值精度減低. 回歸方程檢驗顯著但所有偏回歸系數(shù)均檢驗不顯著 偏回歸系數(shù)估計值大小或符

29、號與常識不符 定性分析對因變量肯定有顯著影響的因素,在多元分析中檢驗不顯著,不能納入方程 去除一個變量,偏回歸系數(shù)估計值發(fā)生巨大變化,線性回歸分析中的共線性檢測,(二)共線性診斷 自變量的容忍度(tolerance)和方差膨脹因子 容忍度:Toli=1-Ri2. 其中: Ri2是自變量xi與方程中其他自變量間的復相關系數(shù)的平方. 容忍度越大則與方程中其他自變量的共線性越低,應進入方程. (具有太小容忍度的變量不應進入方程,spss會給出警告)(據(jù)經(jīng)驗T0.1一般認為具有多重共線性) 方差膨脹因子(VIF):容忍度的倒數(shù) SPSS在回歸方程建立過程中不斷計算待進入方程自變量的容忍度,并顯示目前的

30、最小容忍度,線性回歸分析中的共線性檢測,(二)共線性診斷 用特征根刻畫自變量的方差 如果自變量間確實存在較強的相關關系,那么它們之間必然存在信息重疊,于是可從這些自變量中提取出既能反映自變量信息(方差)又相互獨立的因素(成分)來. 從自變量的相關系數(shù)矩陣出發(fā),計算相關系數(shù)矩陣的特征根,得到相應的若干成分. 如果特征根中有一個特征根值遠遠大于其他特征根的值,則僅一個特征根就基本刻畫所有自變量絕大部分信息,自變量間一定存在相當多的重疊信息 如果某個特征根既能夠刻畫某個自變量方差的較大部分比例(如大于0.7),同時又可以刻畫另一個自變量方差的較大部分比例,則表明這兩個自變量間存在較強的多重共線性。,

31、線性回歸分析中的共線性檢測,(二)共線性診斷 條件指標 0= 30 可能存在;k=100 嚴重,m最大特征根,i第i個特征根,多重共線性的對策,增大樣本量(不太可能) 多種自變量篩選方法結合(選擇最優(yōu)方程) 人為去除次要變量(定性分析為較次要,或無需分析) 主成分回歸分析(提取因子作為影響因素),多元線性回歸分析操作,(一)基本操作步驟 (1)菜單選項: analyze-regression-linear (2)選擇一個變量為因變量進入dependent框 (3)選擇一個或多個變量為自變量進入independent框 (4)選擇多元回歸分析的自變量篩選方法: enter:所選變量全部進入回歸方

32、程(默認方法) remove:從回歸方程中剔除變量 stepwise:逐步篩選;backward:向后篩選;forward:向前篩選 (5)對樣本進行篩選(selection variable) 利用滿足一定條件的樣本數(shù)據(jù)進行回歸分析 (6)指定作圖時各數(shù)據(jù)點的標志變量(case labels),多元線性回歸分析操作,(二) statistics選項 (1)基本統(tǒng)計量輸出 Part and partial correlation:與Y的簡單相關、偏相關和部分相關 R square change:每個自變量進入方程后R2及F值的變化量 Collinearity dignostics:共線性診斷.

33、,多元線性回歸分析操作,(三)options選項: stepping method criteria:逐步篩選法參數(shù)設置. use probability of F:以F值相伴概率作為變量進入和剔除方程的標準.一個變量的F值顯著性水平小于entry(0.05)則進入方程;大于removal(0.1)則剔除出方程.因此:Entryremoval use F value:以F值作為變量進入(3.84)和剔除(2.71)方程的標準 (四)save選項: 將回歸分析結果保存到數(shù)據(jù)編輯窗口中或某磁盤文件中,多元線性回歸分析操作,如何做預測? 為何、如何做加權回歸?,多元線性回歸分析應用舉例,(一)根據(jù)全

34、國各省移動電話普及率、人均GDP、人均可支配收入、人均擁有固定資產(chǎn)數(shù)據(jù),建立移動電話普及率的預測模型 所有自變量強行進入方程(方程存在作用不顯著的自變量) 觀察方差分析表 觀察t檢驗 觀察回歸方程標準誤差和R2 逐步回歸,與上述參數(shù)進行比較(雖然誤差增大) 回歸系數(shù)置信區(qū)間 觀察置信區(qū)間、偏相關系數(shù)、容忍度 共線性檢測 殘差圖分析 選擇:D-W檢驗、casewise、plot圖,線性回歸分析中的異方差問題,(一)什么是異方差 回歸模型要求殘差序列服從均值為0并具有相同方差的正態(tài)分布,即:殘差分布幅度不應隨自變量或因變量的變化而變化.否則認為出現(xiàn)了異方差現(xiàn)象 (二)舉例理解異方差 收入水平和消費種類 打字時間和出錯類型,線性回歸分析中的異方差問題,(三) 異方差診斷 可以通過繪制標準化殘差序列和因變量預測值(或每個自變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論