spss相關分析和回歸分析_第1頁
spss相關分析和回歸分析_第2頁
spss相關分析和回歸分析_第3頁
spss相關分析和回歸分析_第4頁
spss相關分析和回歸分析_第5頁
已閱讀5頁,還剩82頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四章相關分析和回歸分析2/5/20231相關分析和回歸分析第一節(jié)

地理要素間的相關分析第二節(jié)地理要素間的回歸分析2/5/20232一相關分析的概念二地理要素的相關類型三相關程度的程度方法及顯著性檢驗

第一節(jié)

地理要素間的相關分析2/5/20233一相關分析的概念——就是測度各個變量之間的關系密切程度的數學方法。——相關分析僅限于測定兩個或兩個以上變量具有相關關系者,其主要目的在于計算出表示兩個或兩個以上變量間相關程度和性質。2/5/20234圖地理事物的空間分布類型

所謂地理相關,就是運用相關分析法來研究各地理要素間的相互關系和聯系強度的一種度量指標。2/5/20235為了研究父親與成年兒子身高之間的關系,卡爾.皮爾遜測量了1078對父子的身高。把1078對數字表示在坐標上,如圖。它的形狀象一塊橄欖狀的云,中間的點密集,邊沿的點稀少,其主要部分是一個橢圓。2/5/20236★正相關★負相關★完全正相關

★完全負相關★零相關

2/5/20237二地理要素間的相關類型曲線相關(非線性相關)按變量多少兩個變量兩個以上變量直線相關(線性相關)復相關偏相關按質量等級相關(順序相關)品質相關2/5/20238

三相關程度的測度方法及顯著性檢驗由于地理相關類型各不相同,因此測度的方法也不同。(一)線性相關程度的測度所謂相關程度,就是研究它們之間的相互關系是否密切。所謂相關方向,又可以分兩種,即正相關和負相關。用來測度直線相關程度和方向的指標就是相關系數。2/5/202391、常用的相關系數的計算公式及檢驗(1)相關系數的性質●相關系數的分布范圍,介于-1和+1之間●當相關系數為正值時,表示兩個要素(或變數)之間呈正相關,相關系數為負值時,表示兩個要素(或變數)之間為負相關;●相關系數的絕對值越大。表示兩個要素間相關程度越密切。當r=+1時,為完全正相關。R=-1時,為完全負相關;r=0則完全無關。2/5/202310

相關系數公式簡化:

公式可簡化為2/5/202311相關系數是根據要素之間的樣本值計算出來的,它隨著樣本數的多少或取樣方式的不同而不同,因此它只是要素之間的樣本相關系數,只有通過檢驗,才能知道它的可信度。

(2)相關系數的顯著性檢驗為什么?

一般情況下,相關系數的檢驗,是在給定的置信水平下,通過查相關系數檢驗的臨界值表來完成的。

2/5/202312檢驗相關系數ρ=0的臨界值(ra)表p{|r|>ra}=α

f值稱為自由度,其數值為f=n-2,這里n為樣本數

a代表不同的顯著性水平

表內的數值代表不同的置信水平下相關系數ρ=0的臨界值,即ra

公式p={|r|>ra}=a的意思是當所計算的相關系數r的絕對值大于在a水平下的臨界值ra時,兩要素不相關(即ρ=0)的可能性只有a。

2/5/202313相關系數r的具體檢驗方法步驟如下:(1)計算相關系數r(2)給定顯著水平α,按n-2查相關系數臨界值,查出相應的臨界值(3)比較r的絕對值與臨界值的大小。當r的絕對值大于或等于臨界值時,說明兩變量在α水平上達到顯著性;若小于臨界值,則說明兩變量沒有達到所要求的精度。如果仍需研究二者的關系,可考慮降低精度,即修改顯著性水平α、相關系數的顯著性檢驗步驟2/5/2023142、等級相關系數的計算公式及檢驗——表示兩個變量順序間直線相關程度和方向的系數,稱為等級(或順序)相關系數。等級相關系數不僅適用于數量指標的相關分析,同時亦適用于質量指標的相關分析?!燃壪嚓P系數,又稱順序相關系數是將兩要素的樣本值按數值的大小順序排列位次,以各要素樣本值的位次代替實際數據而求得的一種統(tǒng)計量。實際上,它是位次分析方法的數量化。

2/5/202315(1)等級相關系數的計算公式2/5/202316(2)等級相關系數的計算及檢驗1985年全國各?。ㄊ校瑓^(qū))總人口與社會總產值

2/5/2023172/5/202318即:總人口(x)與社會總產值(y)的等級相關系數為0.7262/5/202319等級相關系數檢驗的臨界值

2/5/202320在上例中,n=29,表中沒有給出相應的樣本數下的臨界值ra,但我們發(fā)現,在同一顯著水平下,隨著樣本數的增大,臨界值ra減少。在n=28時,查表可知:r0.05=0.317,r0.01=0.448,由于r′xy=0.726>r0.01=0.448,故r′xy在a=0.01的置信水平上是顯著的。

等級相關系數檢驗結果

2/5/202321(二)簡單非線性相關程度的測度(見課本)(三)多要素間相關程度的測定

1.偏相關系數的計算與檢驗在多要素所構成的地理系統(tǒng)中,當我們研究某一個要素對另一個要素的影響或相關程度時,把其它要素的影響視為常數(保持不變),即暫不考慮其它要素的影響,而單獨研究那兩個要素之間的相互關系的密切程度時,則稱為偏相關。用以度量偏相關程度的統(tǒng)計量,稱為偏相關系數。

2/5/202322當研究2個相關變量x1、x2的關系時,用直線相關系數r12表示x1與x2線性相關的性質與程度。此時固定的變量個數為0,所以直線相關系數r12又叫做零級偏相關系數。當研究3個相關變量x1、x2、x3的相關時,我們把x3保持固定不變,x1與x2的相關系數稱為x1與x2的偏相關系數,記為r12.3,類似地,還有偏相關系數r13.2、r23.1。這3個偏相關系數固定的變量個數為1,所以都叫做一級偏相關系數。當研究4個相關變量x1、x2、x3、x4的相關時,須將其中的2個變量固定不變,研究另外兩個變量間的相關。即此時只有二級偏相關系數才真實地反映兩個相關變量間線性相關的性質與程度。二級偏相關系數共有6個:r12.34,r13.24,r14.23,r23.14,r24.13,r34.12。2/5/202323一般,當研究m個相關變量x1、x2、、、…、xm的相關時,只有將其中的m-2個變量保持固定不變,研究另外兩個變量的相關才能真實地反映這兩個相關變量間的相關,即此時只有m-2級偏相關系數才真實地反映了這兩個相關變量間線性相關的性質與程度。m-2級偏相關系數共有個。xi與xj的m-2級偏相關系數記為rij.(i,j=1,2,…,m,i≠j)。2/5/202324偏相關系數,可利用單相關系數來計算。假設有三個要素x1,x2,x3,其兩兩間單相關系數矩陣為2/5/202325對于上述三個要素x1,x2,x3,它們之間的偏相關系數共有三個,即r12·3,r13·2,r23·1(下標點后面的數字,代表在計算偏相關系數時,保持不變量,如r12·3即表示x3保持不變),其計算公式分別如下:式(5)—(7)表示三個偏相關系數,稱為一級偏相關系數。2/5/202326若有四個要素X1,X2,X3,X4,則有六個偏相關系數,即r12·34,r13·24,r14·23,r23·14,r24·12,r34·12,它們稱為二級偏相關系數,其計算公式分別如下:在式(8)中,r12·34表示在x3和x4保持不變的條件,x1和x2的偏相關系數。

2/5/202327實例:對于某四個地理要素X1,X2,X3,X4的23個樣本數據,經過計算得到了如下的單相關系數矩陣:2/5/202328為了計算二級偏相關系數,需要先計算一級偏相關系數,由(5)式可求得

同理,依次可以計算出其它各一級偏相關系數,見下表

2/5/202329在一級偏相關系數求出以后,便可代入公式計算二級偏相關系數,如由(8)式計算可得同理,依次可計算出其它各二級偏相關系數,見下表

2/5/202330偏相關系數具有下述性質:(1)偏相關系數分布的范圍在-1到1之間;(2)偏相關系數的絕對值越大,表示其偏相關程度越大;(3)偏相關系數的絕對值必小于或最多等于由同一系列資料所求得的復相關系數,即R1·23≥|r12·3|。2/5/202331偏相關系數的顯著性檢驗偏相關系數的顯著性檢驗,一般采用t檢驗法。其統(tǒng)計量計算公式為在(15)式中,r12·34…m為偏相關系數,n為樣本數,m為自變量個數。+1+12/5/202332對于前述計算得到的偏相關系數r24·13=0.821,由于n=23,m=3,故查t分布表,可得出不同顯著水平上的臨界值ta,若t>ta

,則表示偏相關顯著;反之,t<ta,則偏相關不顯著。在自由度為23-3-1=19時,查表得t0.001=3.883,所以t>ta,這表明在顯著性水平a=0.001上,偏相關系數r24·13是顯著的。2/5/202333年份GDP(億元)人口(萬人)19901511.19842419911810.54853419922196.53858019932770.37862019943844.5865319954953.35870119965883.8874719976537.07881019987021.35887219997493.84892220008337.47897520019195.049024200210275.59069200312078.159108200415021.849163200518516.879212200622077.369282山東省1990-2006年GDP和人口情況2/5/2023341.計算簡單相關系數2/5/202335---PARTIALCORRELATIONCOEFFICIENTS--Controllingfor..時間

GDP人口GDP1.0000-.0690人口-.06901.00002.計算偏相關系數如果令時間T不變,計算人口與GDP的偏相關系數為=-0.0690,且t=-0.259>0.8=α。由此可以看出,如果去掉時間的因素,人口與GDP之間的偏相關系數很小,即如果固定時間不變,人口與GDP之間的關系是微弱的,且經檢驗人口與GDP之間沒有什么內在的必然的線性聯系。人口越多未必GDP越高,這是比較合乎實際的。2/5/2023362.復相關系數的計算與檢驗復相關系數:反映幾個要素與某一個要素之間的復相關程度。復相關系數的計算當有兩個自變量時當有三個自變量時2/5/202337當有k個自變量時復相關系數的性質

①復相關系數介于0到1之間,即2/5/202338

復相關系數越大,則表明要素(變量)之間的相關程度越密切。復相關系數為1,表示完全相關;復相關系數為0,表示完全無關。

復相關系數必大于或至少等于單相關系數的絕對值。復相關系數的顯著性檢驗

F檢驗法。其統(tǒng)計量計算公式為2/5/202339例題:在上例中,若以x4為因變量,x1,x2,x3為自變量,試計算x4與x1,x2,x3之間的復相關系數。解:按照公式計算檢驗:,故復相關達到了極顯著水平。2/5/202340一回歸分析的意義及其作用二一元回歸模型的建立三多元回歸模型四非線性回歸模型第二節(jié)地理要素間的相關分析2/5/202341一回歸分析的意義及其作用(一)回歸分析的概念就是對具有相互聯系的要素,根據其聯系的形態(tài),選擇一個合適的數學模式,用來近似地表達要素間平均變化關系的數理統(tǒng)計方法。這個數學模式稱為回歸模型(回歸方程)2/5/202342(三)回歸分析與相關分析的區(qū)別與聯系

①相關分析所研究的變量是對等關系;回歸分析所研究的兩個變量不是對等關系。

②對兩個變量來說,相關分析只能計算出一個相關系數,而回歸分析,可分別建立兩個不同的回歸方程。③相關分析要求兩個變量都必須是隨機的,而回歸分析的要求,自變量是給定的,因變量是隨機的。2/5/202343(三)回歸分析研究的主要內容

——從一組地理數據出發(fā),確定這些要素(變量)間的定量數學表達式,即回歸模型。

——根據一個或幾個要素(自變量)的值來預測或控制另一個要素(因變量)的取值。

——從影響某一地理過程中的許多要素中,找出哪些要素(變量)是主要的,哪些因素是次要的,這些要素之間又有什么聯系。

回歸分析研究的地理數學模型,依要素(變量)的多少可分為一元地理回歸模型和多元地理回歸模型。2/5/202344

二一元回歸模型的建立一元地理回歸所處理的問題,是要解決兩個要素(變量)之間的定量關系。有的是線性關系,有的是非線性關系。因此判斷研究的變量之間的線性與非線性歸屬問題是非常重要的。2/5/202345(一)一元回歸模型類型的判斷方法

作圖法、差分法、曲度法和計算器法等。2/5/202346(二)一元線性地理回歸模型的建立定義:假設有兩個地理要素(變量)x和y,x為自變量,y為因變量。則一元線性回歸模型的基本結構形式為式中:a和b為待定參數;為各組觀測數據的下標;為隨機變量。

2/5/202347記和分別為參數a與b的擬合值,則一元線性回歸模型為

上式代表x與y之間相關關系的擬合直線,稱為回歸直線;是y的估計值,亦稱回歸值。2/5/202348①

參數a與b的最小二乘擬合原則要求yi與的誤差ei的平方和達到最小,即1、參數a、b的最小二乘估計

②根據取極值的必要條件,有

2/5/202349③解上述正規(guī)方程組式,得到參數a與b的擬合值2/5/202350——以課本的例子為例(手算)2、具體計算方法(1)將原始數據根據需要列表(2)根據公式計算b(3)計算a(4)寫出回歸模型(5)一般情況下還要求出相關系數2/5/202351——用Excel建立回歸模型及其進行預測(1)確定變量,建立數據庫(2)作圖,選擇散點圖(3)圖完成后,點擊圖表,然后點擊添加趨勢線,選擇線性方程;然后點擊選項,在選項欄中點中顯示公式和相關系數的平方。2/5/202352(4)對圖進行修飾(5)利用建立的回歸方程,可以對原始數據進行遞推,檢驗誤差;同時可以對未來的趨勢進行預測?!肊xcel建立回歸模型及其進行預測2/5/202353江蘇省1985-1994年耕地面積利用所給數據:(1)建立江蘇省耕地面積與時間的回歸模型(2)計算耕地面積與時間的相關系數(3)并預測2010年江蘇耕地面積2/5/202354將2010帶入上述方程中,可以求得2010年江蘇省耕地面積2/5/202355①

方法:F檢驗法。②

總的離差平方和:在回歸分析中,表示y的n次觀測值之間的差異,記為

可以證明

3、一元線性回歸模型的顯著性檢驗2/5/202356在上式中,Q稱為誤差平方和,或剩余平方和而

稱為回歸平方和。2/5/202357

統(tǒng)計量F

F越大,模型的效果越佳。統(tǒng)計量F~F(1,n-2)。在顯著水平α下,若F>Fα,則認為回歸方程效果在此水平下顯著。一般地,當F<F0.10(1,n-2)時,則認為方程效果不明顯。2/5/202358變差來源平方和自由度方差F回歸(因素x)1S2u=U/1剩余(隨機因素)n-2S2Q=Q/n-2總和n-12/5/2023594、利用回歸模型進行預測對所建立的回歸模型經過檢驗效果顯著時,便可以利用回歸模型進行地理預測。所謂地理預測就是利用建立的回歸模型,在給出一定信度條件下,求出在的水平上預測y值的出現范圍(或預測區(qū)間)。具體例子見課本。2/5/202360例:某地人口隨著時間的推移而呈線性增加,利用所給數據寫出a、b的計算公式寫出回歸模型,并計算相關系數和進行F檢驗并分別預測該地2010年和2020年的人口數時間20002001200220032004人口(萬人)246892/5/202361三、多元線性回歸模型回歸模型的建立

多元線性回歸模型的結構形式為

式中:為待定參數;為隨機變量。2/5/202362②回歸方程:

如果分別為上式中

的擬和值,則回歸方程為在上式中,b0為常數,b1,b2,…bk稱為偏回歸系數。偏回歸系數的意義是,當其他自變量都固定時,自變量每變化一個單位而使因變量平均改變的數值。2/5/202363③

偏回歸系數的推導過程:根據最小二乘法原理,的估計值應該使

由求極值的必要條件得

方程組式經展開整理后得

2/5/202364方程組式稱為正規(guī)方程組。

引入矩陣2/5/2023652/5/2023662/5/202367則正規(guī)方程組式可以進一步寫成矩陣形式2/5/202368求解得引入記號2/5/202369正規(guī)方程組也可以寫成2/5/202370回歸模型的顯著性檢驗

回歸平方和U與剩余平方和Q:②

回歸平方和③

剩余平方和為④

F統(tǒng)計量為計算出來F之后,可以查F分布表對模型進行顯著性檢驗。2/5/202371四非線性回歸模型的建立在許多實際地理問題中,有時變量之間的關系并不是線性的,而是某種非線性,這時就需要選配適當類型的曲線,近似地表達兩要素之間的平均變化關系。2/5/202372非線性關系線性化的幾種情況對于指數曲線,令,可以將其轉化為直線形式:,其中,;對于對數曲線,令,,可以將其轉化為直線形式:;對于冪函數曲線,令,,可以將其轉化為直線形式:其中,;2/5/202373對于雙曲線,令,轉化為直線形式:;對于S型曲線,可轉化為直線形式:;對于冪乘積,只要令,就可以將其轉化為線性形式其中,;2/5/202374對于對數函數和只要令,就可以將其化為線性形式

例:表3.2.1給出了某地區(qū)林地景觀斑塊面積(area)與周長(perimeter)的數據。下面我們建立林地景觀斑塊面積A與周長P之間的非線性回歸模型。2/5/202375

序號面積A周長P序號面積A周長P110447.370625.39242232844.3004282.043215974.730612.286434054.660289.307330976.770775.7124430833.840895.98049442.902530.202451823.355205.131510858.9201906.1034626270.300968.060621532.9101297.9624713573.9601045.07276891.680417.0584865590.0802250.43583695.195243.90749157270.4002407.54992260.180197.239502086.426266.54110334.33299.729513109.070261.8181111749.080558.921522038.617320.396122372.105199.667533432.137253.335138390.633592.893541600.391230.030146003.719459.467553867.586419.406表3.2.1某地區(qū)各個林地景觀斑塊面積(m2)與周長(m)

2/5/20237615527620.2006545.291561946.184198.66116179686.2002960.4755777.30556.9021714196.460597.993587977.719715.7521822809.1801103.0705919271.8201011.1271971195.9401154.118608263.480680.710203064.242245.049

6114697.1301234.11421469416.7008226.009624519.867326.317225738.953498.6566313157.6601172.916238359.465415.151646617.270609.801246205.016414.790

654064.137437.3552560619.0201549.871665645.820432.3552614517.740791.943676993.355503.7842731020.1001700.965684304.281267.9512826447.1601246.977696336.383347.136297985.926918.312702651.414292.2352/5/202377303638.766399.725712656.824298.47331585425.10011474.770721846.988179.8663235220.6401877.476731616.684172.8083310067.820497.394741730.563172.1433427422.5701934.5967511303.970881.0423543071.5501171.4137614019.790638.1763657585.9402275.389779277.172862.0883728254.1301322.7957813684.750712.78738497261.0009581.298791949.164228.4033924255.030994.906804846.016324.481401837.699229.40181521457.4007393.938411608.625225.84282564370.80012212.4102/5/202378解:(1)作變量替換,令:,,將表3.2.1中的原始數據進行對數變換,變換后得到的各新變量對應的觀測數據如表3.2.2所示。

序號y=lnAx=LnP序號y=lnAx=LnP19.2541066.4383794212.358138.36218629.6787636.4172438.3076225.667487310.340996.6537824410.336376.79791849.1530196.273258457.5084335.3236559.2927427.5528164610.176196.87529469.9773387.168551479.5159096.95184178.838076.0332264811.091187.71887988.2147895.4967894911.965727.78636497.72325.284414507.6432085.585528105.8121354.602457518.0420795.567651119.371536.326008527.6200275.769558表3.2.2經對數變換后的數據2/5/202379127.7715335.296653538.1409385.534711139.0348716.385013547.3780035.438211148.7001346.130066558.2603866.0388391513.176138.786501567.5736265.2915971612.098977.993105574.3477554.041328179.5607486.393579588.9844086.5733341810.034927.005852599.8663996.9188211911.173197.051092609.0196016.523136208.0275565.5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論