第九講 回歸與回歸分析_第1頁
第九講 回歸與回歸分析_第2頁
第九講 回歸與回歸分析_第3頁
第九講 回歸與回歸分析_第4頁
第九講 回歸與回歸分析_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第六章回歸和回歸分析

6.1相關(guān)分析概述

6.2相關(guān)分析

6.3多元線性回歸

6.4

曲線回歸

6.5逐步回歸

1.散點(diǎn)圖

散點(diǎn)圖是描述變量之間關(guān)系的一種直觀方法。我們用坐標(biāo)的橫軸代表自變量X,縱軸代表因變量Y,每組數(shù)據(jù)(xi,yi)在坐標(biāo)系中用一個(gè)點(diǎn)表示,由這些點(diǎn)形成的散點(diǎn)圖描述了兩個(gè)變量之間的大致關(guān)系,從中可以直觀地看出變量之間的關(guān)系形態(tài)及關(guān)系強(qiáng)度。

6.1相關(guān)分析概述

圖6-1不同形態(tài)的散點(diǎn)圖

(a)(b)(c)(d)

就兩個(gè)變量而言,如果變量之間的關(guān)系近似地表現(xiàn)為一條直線,則稱為線性相關(guān),如圖6-1(a)和(b);如果變量之間的關(guān)系近似地表現(xiàn)為一條曲線,則稱為非線性相關(guān)或曲線相關(guān);如圖6-1(c);如果兩個(gè)變量的觀測點(diǎn)很分散,無任何規(guī)律,則表示變量之間沒有相關(guān)關(guān)系,如圖6-l(d)。

2.相關(guān)系數(shù)相關(guān)系數(shù)是對變量之間關(guān)系密切程度的度量。若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱為總體相關(guān)系數(shù),記為ρ;總體相關(guān)系數(shù)的計(jì)算公式為:其中COV(X,Y)為變量X和Y的協(xié)方差,D(X)和D(Y)分別為X和Y的方差。

若相關(guān)系數(shù)是根據(jù)樣本數(shù)據(jù)計(jì)算的,則稱為樣本相關(guān)系數(shù)(簡稱為相關(guān)系數(shù)),記為r。樣本相關(guān)系數(shù)的計(jì)算公式為:

一般情況下,總體相關(guān)系數(shù)ρ是未知的,我們通常是將樣本相關(guān)系數(shù)r作為ρ的近似估計(jì)值。相關(guān)系數(shù)r有如下性質(zhì):

1)相關(guān)系數(shù)的取值范圍:–1≤r≤1,若0<r≤1,表明X與Y之間存在正線性相關(guān)關(guān)系,若–1≤r<0,表明X與Y之間存在負(fù)線性相關(guān)關(guān)系。2)若r=1,表明X與Y之間為完全正線性相關(guān)關(guān)系;若

r=–1,表明X與Y之間為完全負(fù)線性相關(guān)關(guān)系;若r=0,說明二者之間不存在線性相關(guān)關(guān)系。

3)當(dāng)–1<r<1時(shí),為說明兩個(gè)變量之間的線性關(guān)系的密切程度,通常將相關(guān)程度分為以下幾種情況:當(dāng)|r|≥0.8時(shí),可視為高度相關(guān);0.5≤|r|<0.8時(shí),可視為中度相關(guān);0.3≤|r|<0.5時(shí),視為低度相關(guān);當(dāng)|r|<0.3時(shí),說明兩個(gè)變量之間的相關(guān)程度極弱,可視為不相關(guān)。但這種解釋必須建立在對相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)的基礎(chǔ)之上。3.相關(guān)系數(shù)的顯著性檢驗(yàn)相關(guān)系數(shù)的顯著性檢驗(yàn)也就是檢驗(yàn)總體相關(guān)系數(shù)是否顯著為0,通常采用費(fèi)歇爾(Fisher)提出的t分布檢驗(yàn),該檢驗(yàn)可以用于小樣本,也可以用于大樣本。檢驗(yàn)的具體步驟如下:1)提出假設(shè):假設(shè)樣本是從一個(gè)不相關(guān)的總體中隨機(jī)抽取的,即H0:ρ=0;H1:ρ≠0

2)由樣本觀測值計(jì)算檢驗(yàn)統(tǒng)計(jì)量:的觀測值t0和衡量觀測結(jié)果極端性的p值:p=P{|t|≥|t0|}=2P{t≥|t0|}3)進(jìn)行決策:比較p和檢驗(yàn)水平

作判斷:p<

,拒絕原假設(shè)H0;p

,不能拒絕原假設(shè)H0。相關(guān)分析的實(shí)質(zhì):反映各變量之間相關(guān)密切程度。簡單相關(guān):研究兩變量直線相關(guān)的密切程度和性質(zhì),也稱直線相關(guān)。偏相關(guān):排除其余的影響因子,求出x與y的純相關(guān),這種相關(guān)稱偏相關(guān)。復(fù)相關(guān):研究一個(gè)變量與一組變量之間的相關(guān)性關(guān)系。典型相關(guān):研究兩組變量間的相關(guān)關(guān)系。1簡單相關(guān)2偏相關(guān)3復(fù)相關(guān)6.2相關(guān)分析(AnalysisofCorrelation)1簡單相關(guān)簡單相關(guān):

是對有聯(lián)系的兩類事物(x與y)表面關(guān)系密切程度的衡量。(SimpleCorrelation)一、簡單相關(guān)系數(shù)相關(guān)系數(shù)r(無單位)的取值:即:二、簡單相關(guān)系數(shù)r的顯著性測驗(yàn)由d.f=n-2查出相關(guān)系數(shù)的臨界值r0.05

、r0.01(degreeoffreedom)SAS直接輸出prob>|r|概率值,記為α.統(tǒng)計(jì)假設(shè)H0:總體相關(guān)系數(shù)ρ=0若α>0.05,接受H0,相關(guān)不顯著,即總體x與y間不存在相關(guān)關(guān)系。若0.01<α<0.05,拒絕H0,相關(guān)顯著,即總體x與y間存在相關(guān)關(guān)系。若α<0.01,拒絕H0,相關(guān)極顯著,即總體x與y間存在相關(guān)關(guān)系。datali6_1;inputxy@@;cards;778.8647.9…733.5;例6-1橡膠樹幼苗期刺檢干膠產(chǎn)量(x,毫克)與正式割膠量(y,克)如下表,試求x與y的相關(guān)系數(shù)并畫出y關(guān)于x的散點(diǎn)圖。三、簡單相關(guān)實(shí)例proccorr;varxy;/*驗(yàn)證相關(guān)性*/run;procgplot;ploty*x;/*指明橫縱坐標(biāo)軸*/run;

PLOT的用法

PLOT<縱軸變量>*<橫軸變量>[=<變量>][/<選項(xiàng)>];

表PLOT語句的選項(xiàng)PLOT語句的注意事項(xiàng)PLOT語句用以對兩個(gè)變量繪制散點(diǎn)圖,表達(dá)式中位置在前(在乘號“*”之前)的變量作為散點(diǎn)圖的y軸,位置在后的變量作為散點(diǎn)圖的x軸。

CorrelationAnalysis2'VAR'Variables:XYSimpleStatisticsVariableNMeanStdDevSumX2692.038530.44272393.0000Y269.11153.3269236.9000VariableMinimumMaximumX61.0000188.0000

y3.500017.7000SAS輸出結(jié)果:

PearsonCorrelationCoefficients/Prob>|R|underHo:Rho=0/N=26

XYX1.000000.710190.00.0001Y0.710191.000000.00010.0結(jié)論:因r=0.71019,其出現(xiàn)的概率=0.0001<0.01,極顯著,表示刺檢干膠量與正式割膠量存在極顯著的簡單相關(guān)關(guān)系。

實(shí)驗(yàn)1以下給出了美國14個(gè)州一年內(nèi)吸煙支數(shù)與患肺癌死亡人數(shù)的相關(guān)數(shù)據(jù)(見數(shù)據(jù)sy6_1)根據(jù)數(shù)據(jù)sy6_1說明吸煙支數(shù)與患肺癌死亡人數(shù)的相關(guān)性。2偏相關(guān)(PartialCorrelation)1.一級偏相關(guān)系數(shù)

簡單相關(guān)是數(shù)字間的表面聯(lián)系,如需了解x與y的本質(zhì)聯(lián)系,必須排除其余的影響因子,以得出x與y的純相關(guān),這種相關(guān)稱偏相關(guān)。

如果考查xi、xj的一級偏相關(guān),則把xk的影響從xi、xj中消除后,再求xi與xj的相關(guān)系數(shù)。通式:

如果有xi,xj,xk,xl四個(gè)變量,則用統(tǒng)計(jì)方法消除xk,xl對xi與xj

的影響,求xi與xj之間的相關(guān)程度稱為二級偏相關(guān)。通式:2.二級偏相關(guān)系數(shù)如:r13.2表示消除x2的影響,求x1與x3的偏相關(guān)系數(shù)。r13.24

表示消除x2、x4的影響,x1與x3的偏相關(guān)系數(shù)。(Multiplecorrelation)3復(fù)相關(guān)(或多重相關(guān))

研究一個(gè)變量與一組變量之間的相關(guān)關(guān)系,即多元相關(guān)或復(fù)相關(guān)分析。意義:復(fù)相關(guān)是因變數(shù)關(guān)于若干個(gè)自變數(shù)間關(guān)系密切程度的衡量。并以決定系數(shù)R2為衡量的標(biāo)準(zhǔn)。一般,y關(guān)于x1,x2,…,xk的復(fù)相關(guān)系數(shù):數(shù)值范圍:R的顯著性測驗(yàn)df1=pdf2=n-p-1

復(fù)相關(guān)系數(shù)及顯著性測驗(yàn)將在多元線性回歸方程的SAS程序中輸出。例橡膠樹白粉病最終病情指數(shù)(x1)與最冷月的平均溫度(x2)及一月份平均溫度(x3)十三年記錄資料如表6-2,試求簡單相關(guān)系數(shù)、偏相關(guān)系數(shù)r12.3及r13.2。表6-2橡膠樹病情指數(shù)與溫度表proccorr;

/*簡單相關(guān)*/proccorr;varx1x2;

partialx3;

/*r12.3*/proccorr;varx1x3;

partialx2;

/*r13.2*/run;

datatemp;input

x1x2x3@@;cards;0.415.315.352.315.816.411.815.215.251.617.617.942.716.316.341.515.515.533.715.815.812.515.015.036.615.815.850.716.016.02.513.713.735.216.216.60.413.115.1;主要的輸出結(jié)果如下:

統(tǒng)計(jì)結(jié)論:

r12=0.79949p=0.001<0.01相關(guān)極顯著r13=0.77549p=0.0018<0.01相關(guān)極顯著r23=0.86931p=0.0001<0.01相關(guān)極顯著r12.3=0.40169p=0.1956>0.05相關(guān)不顯著r13.2=0.27108p=0.27108>0.05相關(guān)不顯著

組合代號X1X2X3Y110.3729.5633.3110.520210.4734.2529.0510.07039.6735.2537.6512.79049.8729.2531.529.23058.2037.8533.6210.36068.6737.7838.0912.570710.0340.9730.4212.56089.0046.0029.1011.388910.0739.7332.0612.830實(shí)驗(yàn)221個(gè)小麥雙列雜交組合F1的單株產(chǎn)量y(克),每株穗數(shù)x1,每穗的粒數(shù)x2,千粒重x3(克)數(shù)據(jù)如下:組合代號X1X2X3Y1010.5736.3030.5911.800118.7337.1027.178.7301210.2035.6732.2111.790138.9335.4433.2210.420149.8334.2828.409.830158.6033.3135.4910.920168.8335.1027.548.440178.8034.4534.2010.500188.8030.6529.477.940199.4031.2030.758.8302010.0339.2729.2111.330試求ry1、ry3、ry1.2、ry1.23

,并確定其顯著性。6.3多元線性回歸

多元線性回歸分析是研究一因變量與多個(gè)自變量間關(guān)系的統(tǒng)計(jì)方法。一、多元線性回歸的實(shí)際意義多元回歸分析主要解決:1)各個(gè)自變量對因變量的各自效應(yīng),即偏回歸系數(shù);2)建立由自變量描述和預(yù)測因變量的多元回歸方程,計(jì)算標(biāo)準(zhǔn)誤;3)對自變量進(jìn)行選擇,建立最優(yōu)回歸方程;4)評定各個(gè)自變量對因變量的相對重要性。二、線性回歸模型(LineRegressionmodel)

線性回歸模型的一般形式為:

Y=

0+

1X1+…+

kXk+

其中,

0,

1,…

k,是未知的參數(shù),

是不可觀測的隨機(jī)變量,稱為誤差項(xiàng),假定

N(0,

2)。如果有n次獨(dú)立的觀測數(shù)據(jù)(xi1,xi2,…,xik;yi)i=1,2,…,n,則線性回歸模型可以表示成如下形式:

其中,

1,

2,…,

n相互獨(dú)立且服從N(0,

2)分布。上式可以簡寫成如下矩陣形式:

Y=Xβ+ε其中

,

,,,,1、參數(shù)

2的估計(jì)

若X的秩rank(X)=k+1

n,參數(shù)

的最小二乘估計(jì)為

可以證明,

的無偏估計(jì)。當(dāng)給出

的估計(jì)后,將其代入回歸模型并略去誤差項(xiàng),得到的方程

稱為回歸方程。利用回歸方程可由自變量X1,…,

Xk的觀測值求出因變量Y的估計(jì)值(預(yù)測值)。

稱為殘差向量,簡稱殘差,其中I為n階單位矩陣。

為殘差平方和。

若rank(X)=k+1

n,均方殘差(MSE):

即為誤差ε的方差(也是實(shí)測值Y的方差)

2的無偏估計(jì),均方殘差有時(shí)也稱為均方誤差。2、有關(guān)統(tǒng)計(jì)量及回歸方程的擬合優(yōu)度

給定因變量Y與自變量X1,X2,…,Xk的n組觀測值,就可以利用上述方法得到未知參數(shù)

2的估計(jì),從而可以給出回歸方程:

殘差平方和(errorsumofsquares):反映了除去Y與X1,X2,…,Xk之間的線性關(guān)系以外的因素引起的數(shù)據(jù)y1,y2,…,yn的波動。若SSE=0,則每個(gè)觀測值可由線性關(guān)系精確擬合,SSE越大,觀測值與線性擬合值的偏差也越大。模型平方和(modelsumofsquares):

反映了擬合值與其平均值的總偏差,即由變量X1,X2,…,Xk的變化引起的y1,y2,…,yn的波動。若SSM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論