![大課第一講 多重線性回歸(1)_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/13/e82c7a11-7118-444e-845a-fd93c943bf59/e82c7a11-7118-444e-845a-fd93c943bf591.gif)
![大課第一講 多重線性回歸(1)_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/13/e82c7a11-7118-444e-845a-fd93c943bf59/e82c7a11-7118-444e-845a-fd93c943bf592.gif)
![大課第一講 多重線性回歸(1)_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/13/e82c7a11-7118-444e-845a-fd93c943bf59/e82c7a11-7118-444e-845a-fd93c943bf593.gif)
![大課第一講 多重線性回歸(1)_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/13/e82c7a11-7118-444e-845a-fd93c943bf59/e82c7a11-7118-444e-845a-fd93c943bf594.gif)
![大課第一講 多重線性回歸(1)_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-10/13/e82c7a11-7118-444e-845a-fd93c943bf59/e82c7a11-7118-444e-845a-fd93c943bf595.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、多重線性回歸第一節(jié)第一節(jié) 偏相關(guān)分析偏相關(guān)分析概念概念: 偏相關(guān)系數(shù)是用來衡量任何兩個(gè)偏相關(guān)系數(shù)是用來衡量任何兩個(gè)變量之間的關(guān)系,而使與這兩個(gè)變變量之間的關(guān)系,而使與這兩個(gè)變量有聯(lián)系的其它變量都保持不變。量有聯(lián)系的其它變量都保持不變。即控制了其它一個(gè)或多個(gè)變量的影即控制了其它一個(gè)或多個(gè)變量的影響下,計(jì)算兩個(gè)變量的相關(guān)性。響下,計(jì)算兩個(gè)變量的相關(guān)性。當(dāng)控制一個(gè)變量時(shí),偏相關(guān)系數(shù)的計(jì)算公式:)1)(1 (22|XZYZXZYZYXZYXrrrrrr 當(dāng)控制多個(gè)變量時(shí),偏相關(guān)系數(shù)的計(jì)算公式較為復(fù)雜,此處省略。例題:例題: 現(xiàn)測(cè)得某地現(xiàn)測(cè)得某地29名名13歲男童身高歲男童身高X1(cm)、體重)、體重
2、X2(kg)和肺活量)和肺活量Y(ml)的數(shù)據(jù))的數(shù)據(jù), 請(qǐng)用該資料計(jì)算體重請(qǐng)用該資料計(jì)算體重與肺活量的偏相關(guān)系數(shù)。與肺活量的偏相關(guān)系數(shù)。SPSS操作步驟:操作步驟:Analyze-Correlation-Partial把分析變量選入把分析變量選入 Variable 框框把控制變量選入把控制變量選入 Controlling for 框框ContinueOKCorrelationsCorrelations1.741*.600*.000.001292929.741*1.751*.000.000292929.600*.751*1.001.000292929Pearson CorrelationSig
3、. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N身高體重肺活量身高體重肺活量Correlation is significant at the 0.01 level (2-tailed).*. 身高、體重與肺活量的簡(jiǎn)單相關(guān)系數(shù)身高、體重與肺活量的簡(jiǎn)單相關(guān)系數(shù)C Co or rr re el la at ti io on ns s1.000.569.002026.5691.000.002.260CorrelationSignificance (2-tailed)dfCorrela
4、tionSignificance (2-tailed)df體重肺活量Control Variables身高體重肺活量身高作為控制變量,肺活量與體重的偏相關(guān)系數(shù)身高作為控制變量,肺活量與體重的偏相關(guān)系數(shù)第二節(jié) 多重(多元)線性回歸 在醫(yī)學(xué)研究中,影響某個(gè)結(jié)局指標(biāo)的因在醫(yī)學(xué)研究中,影響某個(gè)結(jié)局指標(biāo)的因素常常有很多個(gè),特別對(duì)于慢性非傳染性素常常有很多個(gè),特別對(duì)于慢性非傳染性疾病更是如此,例如心血管疾病、腫瘤等。疾病更是如此,例如心血管疾病、腫瘤等。 多重線性回歸分析可以用來發(fā)現(xiàn)影響某多重線性回歸分析可以用來發(fā)現(xiàn)影響某個(gè)結(jié)局變量的多個(gè)因素,并有可能建立有個(gè)結(jié)局變量的多個(gè)因素,并有可能建立有效的預(yù)測(cè)模型
5、。效的預(yù)測(cè)模型。一、多重線性回歸模型 多重線性回歸模型可視為簡(jiǎn)單直線模型多重線性回歸模型可視為簡(jiǎn)單直線模型的直接推廣。簡(jiǎn)單的說,只有一個(gè)自變量的直接推廣。簡(jiǎn)單的說,只有一個(gè)自變量的線性模型為簡(jiǎn)單直線回歸模型,具有兩的線性模型為簡(jiǎn)單直線回歸模型,具有兩個(gè)以上自變量的線性模型即為多重線性回個(gè)以上自變量的線性模型即為多重線性回歸模型。歸模型。 這里提及的回歸模型中,都只有一個(gè)因這里提及的回歸模型中,都只有一個(gè)因變量。變量。總體回歸模型:總體回歸模型: 0 0為常數(shù)項(xiàng),為常數(shù)項(xiàng),1 1 , , , ,m m 稱為稱為總體偏回歸系數(shù)??傮w偏回歸系數(shù)。mmXXY110樣本回歸模型:樣本回歸模型:mmxbx
6、bxbby.22110偏回歸系數(shù)偏回歸系數(shù): b0為常數(shù)項(xiàng),為常數(shù)項(xiàng),b1,b2,bm為樣本偏回歸系數(shù)。為樣本偏回歸系數(shù)。 偏回歸系數(shù)表示在其它所有自變量固定不變的情況偏回歸系數(shù)表示在其它所有自變量固定不變的情況下,某一個(gè)自變量變化一個(gè)單位時(shí)引起因變量下,某一個(gè)自變量變化一個(gè)單位時(shí)引起因變量y變化的變化的平均大小。平均大小。 殘差殘差e:y 的變化中不能為自變量所解釋的部分。的變化中不能為自變量所解釋的部分。eyy 1.L:線性:線性自變量自變量x與應(yīng)變量與應(yīng)變量y之間存在線性之間存在線性關(guān)系;關(guān)系;2.I:獨(dú)立性:獨(dú)立性Y值相互獨(dú)立,在模型中則要值相互獨(dú)立,在模型中則要求殘差相互獨(dú)立,不存在
7、自相關(guān);求殘差相互獨(dú)立,不存在自相關(guān); 3.N:正態(tài)性:正態(tài)性隨機(jī)誤差(即殘差)隨機(jī)誤差(即殘差)e服從均服從均值為零,方差為值為零,方差為 的正態(tài)分布;的正態(tài)分布;4. E:等方差:等方差 對(duì)于所有的自變量對(duì)于所有的自變量x,殘差,殘差e的方差齊。的方差齊。數(shù)據(jù)類型要求: 因變量必須是數(shù)值型變量(連續(xù)變量)。因變量必須是數(shù)值型變量(連續(xù)變量)。 自變量既可以是數(shù)值型變量,也可以是分自變量既可以是數(shù)值型變量,也可以是分類型變量。但如果是多分類變量,則不能直類型變量。但如果是多分類變量,則不能直接進(jìn)入回歸方程,而要先進(jìn)行啞變量設(shè)置接進(jìn)入回歸方程,而要先進(jìn)行啞變量設(shè)置(略)。(略)。例例2. 某研
8、究者測(cè)量了某研究者測(cè)量了29名兒童血液中血紅蛋名兒童血液中血紅蛋白(白(g)、鈣)、鈣(g)、鎂、鎂(g) 、鐵、鐵(g) 、錳、錳(g) 、銅、銅(g)的含量。試以血紅蛋白為因的含量。試以血紅蛋白為因變量,其它的為自變量,建立回歸模型。變量,其它的為自變量,建立回歸模型。 做回歸分析做回歸分析的的第一步第一步通常是做通常是做散點(diǎn)圖散點(diǎn)圖,以發(fā)現(xiàn)因變量與自變量之間是否大致存在以發(fā)現(xiàn)因變量與自變量之間是否大致存在直線關(guān)系。如有明顯的曲線關(guān)系,則不能直線關(guān)系。如有明顯的曲線關(guān)系,則不能直接做線性回歸模型。直接做線性回歸模型。 另外,散點(diǎn)圖還有助于發(fā)現(xiàn)異常點(diǎn)。另外,散點(diǎn)圖還有助于發(fā)現(xiàn)異常點(diǎn)。采用最小
9、二乘法(采用最小二乘法(LSLS)估計(jì)回歸系數(shù))估計(jì)回歸系數(shù)b b即要求殘差平方和:即要求殘差平方和:達(dá)到最小值。達(dá)到最小值。 求解過程需要進(jìn)行矩陣運(yùn)算,并要借助計(jì)算機(jī)完成。求解過程需要進(jìn)行矩陣運(yùn)算,并要借助計(jì)算機(jī)完成。二、回歸系數(shù)的估計(jì)212211012)()(niimmiiiniiixbxbxbbyyyQ或?qū)懗桑夯驅(qū)懗桑?Y=XB+E如矩陣如矩陣XX的逆存在,則回歸系數(shù)矩陣的逆存在,則回歸系數(shù)矩陣B=(XX)-1XYnmmnmmnneeebbbxxxxxxyyy2110211121121 11 1所有樣本點(diǎn)數(shù)據(jù)代入模型后可寫成如下矩陣形式:所有樣本點(diǎn)數(shù)據(jù)代入模型后可寫成如下矩陣形式:Coe
10、fficientsCoefficientsa a.3661.367.268.791-.048.024-.209-1.962.062.001.049.003.023.982.033.004.9518.079.000-.6421.132-.049-.568.576.507.754.073.672.508(Constant)鈣鎂鐵錳銅Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血紅蛋白a. A AN NO OV VA Ab b113.259522.652
11、26.306.000a19.80523.861133.06428RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Constant), 銅, 錳, 鐵, 鈣, 鎂a. Dependent Variable: 血紅蛋白b. SPSS回歸分析輸出結(jié)果1.對(duì)整個(gè)方程的檢驗(yàn):對(duì)整個(gè)方程的檢驗(yàn):H0: 1 2 m 0殘回殘殘回回MSMSSSSSF/bbstb三、方程的顯著性檢驗(yàn):三、方程的顯著性檢驗(yàn):對(duì)整個(gè)方程的檢驗(yàn):H0: 回歸系數(shù)全為零回歸系數(shù)全為零 1=2=m=0H1: 回歸系數(shù)不全為零回歸系數(shù)不全為零
12、 0.05FMS回回/MS剩剩26.306自由度自由度 df剩剩5, dfe23, Pt20.023 df2=23 p=0.982t38.079 df3=23 p0.001t50.672 df5=23 p=0.508只有鐵的偏回歸系數(shù)有意義。四、篩選有影響的自變量四、篩選有影響的自變量選擇標(biāo)準(zhǔn):對(duì)各自變量的偏回歸平方和進(jìn)行選擇標(biāo)準(zhǔn):對(duì)各自變量的偏回歸平方和進(jìn)行檢驗(yàn),檢驗(yàn),F(xiàn)值大于預(yù)先設(shè)定的值大于預(yù)先設(shè)定的F,則將此變,則將此變量選入或保留在方程內(nèi)。量選入或保留在方程內(nèi)。偏回歸平方和:將某個(gè)變量引入方程后所引偏回歸平方和:將某個(gè)變量引入方程后所引起的回歸平方和增加的部分;或者,將某起的回歸平方和
13、增加的部分;或者,將某個(gè)變量剔除方程后所引起的回歸平方和減個(gè)變量剔除方程后所引起的回歸平方和減少的部分。少的部分。例如:將本例中鈣剔除后,回歸平方和從例如:將本例中鈣剔除后,回歸平方和從113.26 變?yōu)樽優(yōu)?09.94,則鈣的偏回歸平方,則鈣的偏回歸平方和為和為113.26-109.943.32自變量的選擇方法自變量的選擇方法1. 強(qiáng)行進(jìn)入法(強(qiáng)行進(jìn)入法(Enter):為默認(rèn)選擇項(xiàng),定):為默認(rèn)選擇項(xiàng),定義的全部自變量均引入方程。義的全部自變量均引入方程。2. 后退法(后退法(Backward):先建立一個(gè)包含全):先建立一個(gè)包含全部自變量的回歸方程,然后每次剔除一個(gè)部自變量的回歸方程,然后
14、每次剔除一個(gè)偏回歸平方和最小且無統(tǒng)計(jì)學(xué)意義的自變偏回歸平方和最小且無統(tǒng)計(jì)學(xué)意義的自變量,直到不能剔除為止。量,直到不能剔除為止。3. 前進(jìn)法(前進(jìn)法(Forward):回歸方程由一個(gè)自變量):回歸方程由一個(gè)自變量開始,每次引入一個(gè)偏回歸平方和最大,且具開始,每次引入一個(gè)偏回歸平方和最大,且具有統(tǒng)計(jì)學(xué)意義的自變量,由少到多,直到無統(tǒng)有統(tǒng)計(jì)學(xué)意義的自變量,由少到多,直到無統(tǒng)計(jì)學(xué)意義的自變量被引入為止。計(jì)學(xué)意義的自變量被引入為止。4. 逐步法(逐步法(Stepwise):它是前進(jìn)法和后退法的):它是前進(jìn)法和后退法的結(jié)合。結(jié)合。5. 消去法(消去法(Remove):建立回歸方程時(shí),根據(jù)):建立回歸方程
15、時(shí),根據(jù)設(shè)定的條件剔除部分自變量。設(shè)定的條件剔除部分自變量。選用后退法選用后退法CoefficientsCoefficientsa a.3661.367.268.791-.048.024-.209-1.962.062.001.049.003.023.982.033.004.9518.079.000-.6421.132-.049-.568.576.507.754.073.672.508.3651.338.273.787-.048.023-.208-2.075.049.033.003.95311.235.000-.6501.056-.050-.616.544.513.697.074.736.469
16、.3921.321.297.769-.046.023-.203-2.053.051.033.003.94111.540.000.534.687.077.777.445.2911.304.223.825-.036.018-.159-1.979.058.033.003.94911.846.000(Constant)鈣鎂鐵錳銅(Constant)鈣鐵錳銅(Constant)鈣鐵銅(Constant)鈣鐵Model1234BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血
17、紅蛋白a. 鈣保留下來的鈣保留下來的原因:后退法原因:后退法的默認(rèn)剔除標(biāo)的默認(rèn)剔除標(biāo)準(zhǔn)是準(zhǔn)是0.1最終回歸模型: 以血紅蛋白含量作為因變量y,鈣、鎂、鐵、錳、銅的含量作為自變量進(jìn)行多元線性回歸分析,變量篩選方法為后退法(backward),剔除標(biāo)準(zhǔn)為p0.1()。最后結(jié)果只有鈣和鐵保留在方程中。31033. 0036. 0291. 0 xxY其中x1代表鈣,x3代表鐵(方程和偏回歸系數(shù)的檢驗(yàn)略)兩個(gè)自變量與因變量的擬合面示意圖0X1X2Y注意:自變量的選擇不是一個(gè)單獨(dú)的數(shù)學(xué)問注意:自變量的選擇不是一個(gè)單獨(dú)的數(shù)學(xué)問題,可以放心地交給計(jì)算機(jī)自動(dòng)完成,而題,可以放心地交給計(jì)算機(jī)自動(dòng)完成,而必須結(jié)合專
18、業(yè)知識(shí),綜合考察。必須結(jié)合專業(yè)知識(shí),綜合考察。1.對(duì)因變量確實(shí)有影響的,應(yīng)當(dāng)選入。對(duì)因變量確實(shí)有影響的,應(yīng)當(dāng)選入。2.不同篩選方法結(jié)果不一致時(shí)要謹(jǐn)慎,重點(diǎn)不同篩選方法結(jié)果不一致時(shí)要謹(jǐn)慎,重點(diǎn)考慮共線性的問題??紤]共線性的問題。3.所做出的模型不能視為所做出的模型不能視為“最佳最佳”模型,而模型,而應(yīng)視為應(yīng)視為“局部最優(yōu)局部最優(yōu)”模型,因?yàn)樗{入分模型,因?yàn)樗{入分析的自變量中常常不能包括全部的影響因析的自變量中常常不能包括全部的影響因素,甚至是很重要的因素。素,甚至是很重要的因素。iyiissbb CoefficientsCoefficientsa a.2911.304.223.825-.03
19、6.018-.159-1.979.058.033.003.94911.846.000(Constant)鈣鐵Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: 血紅蛋白a. 從本例來看,鈣和鐵的偏回歸系數(shù)的從本例來看,鈣和鐵的偏回歸系數(shù)的絕對(duì)值差不多,但鐵的絕對(duì)值差不多,但鐵的標(biāo)準(zhǔn)化偏回歸系數(shù)標(biāo)準(zhǔn)化偏回歸系數(shù)確要大得多,表示鐵對(duì)血紅蛋白的作用比確要大得多,表示鐵對(duì)血紅蛋白的作用比鈣要大。鈣要大。六、回歸模型的優(yōu)良性評(píng)價(jià)(擬和六、回歸模型的優(yōu)良性評(píng)價(jià)(擬和效
20、果)效果)1.決定系數(shù)決定系數(shù)R2:殘回總SSSSSS總回SSSSR 20R21 決定系數(shù)反映決定系數(shù)反映Y的全部變異中能夠被回的全部變異中能夠被回歸方程中的全部自變量所解釋的比例。歸方程中的全部自變量所解釋的比例。R21, 越接近于越接近于1,說明模型擬和得越好。,說明模型擬和得越好。2.復(fù)相關(guān)系數(shù)復(fù)相關(guān)系數(shù)R:2RR 0R1 復(fù)相關(guān)系數(shù)描述了因變量復(fù)相關(guān)系數(shù)描述了因變量y與方程中與方程中m個(gè)自變量的總體相關(guān)性大小。個(gè)自變量的總體相關(guān)性大小。R越接近于越接近于1,說明因變量與自變量的關(guān)系越密切,模型擬說明因變量與自變量的關(guān)系越密切,模型擬和得越好。和得越好。 復(fù)相關(guān)系數(shù)定義為因變量實(shí)測(cè)值與預(yù)
21、測(cè)值的簡(jiǎn)單直線相關(guān)系數(shù):R corr( y, y) 復(fù)相關(guān)系數(shù)與決定系數(shù)有如下關(guān)系:3.校正決定系數(shù)校正決定系數(shù)R2adj: R和和R2有一個(gè)缺陷,隨著自變量有一個(gè)缺陷,隨著自變量個(gè)數(shù)的增加,個(gè)數(shù)的增加,R2總是增加,造成變量總是增加,造成變量數(shù)目越多,則擬和效果越優(yōu)良的錯(cuò)覺。數(shù)目越多,則擬和效果越優(yōu)良的錯(cuò)覺。為解決這一問題,可采用校正決定系為解決這一問題,可采用校正決定系數(shù)。數(shù)。3.校正決定系數(shù)校正決定系數(shù)R2adj:總殘總回SS12SSSSSSR MS代表均方,用離均差平方和代表均方,用離均差平方和SS除以自由度得到除以自由度得到(詳見方差分析):(詳見方差分析): MS殘殘SS殘殘/(n-m
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人借款合同民間
- 2025年鄭州道路運(yùn)輸從業(yè)資格證模擬考試年新版
- 2025年宜春道路貨運(yùn)運(yùn)輸從業(yè)資格證模擬考試
- 小學(xué)二年級(jí)數(shù)學(xué)上冊(cè)口算
- 2025年河南貨運(yùn)從業(yè)資格證模擬考試題及答案大全
- 2025年河南貨運(yùn)從業(yè)資格證模擬考試0題及答案解析
- 聽評(píng)課記錄完整40篇數(shù)學(xué)
- Unit 4 Fun with numbers Lesson 2 Speed up(說課稿)-2024-2025學(xué)年外研版(三起)(2024)三年級(jí)上冊(cè)
- 2024-2025學(xué)年七年級(jí)生物下冊(cè)第二章人體的營(yíng)養(yǎng)第三節(jié)合理營(yíng)養(yǎng)與食品安全教案新版新人教版
- 2024-2025學(xué)年高中政治課時(shí)分層作業(yè)7世界的物質(zhì)性含解析新人教版必修4
- 2023年菏澤醫(yī)學(xué)??茖W(xué)校單招綜合素質(zhì)模擬試題及答案解析
- 鋁合金門窗設(shè)計(jì)說明
- 常見食物的嘌呤含量表匯總
- 小學(xué)數(shù)學(xué)-三角形面積計(jì)算公式的推導(dǎo)教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- 人教版數(shù)學(xué)八年級(jí)下冊(cè)同步練習(xí)(含答案)
- SB/T 10752-2012馬鈴薯雪花全粉
- 2023年湖南高速鐵路職業(yè)技術(shù)學(xué)院高職單招(英語)試題庫(kù)含答案解析
- 秦暉社會(huì)主義思想史課件
- 積累運(yùn)用表示動(dòng)作的詞語課件
- 機(jī)動(dòng)車登記證書英文證書模板
- 質(zhì)量管理體系基礎(chǔ)知識(shí)培訓(xùn)-2016
評(píng)論
0/150
提交評(píng)論