第二單元統(tǒng)計(jì)學(xué)高級(jí)篇_第1頁
第二單元統(tǒng)計(jì)學(xué)高級(jí)篇_第2頁
第二單元統(tǒng)計(jì)學(xué)高級(jí)篇_第3頁
第二單元統(tǒng)計(jì)學(xué)高級(jí)篇_第4頁
第二單元統(tǒng)計(jì)學(xué)高級(jí)篇_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二單元統(tǒng)計(jì)學(xué)高級(jí)篇第一頁,共七十三頁,編輯于2023年,星期四第一節(jié)多重線性回歸分析的概念

一、多重線性回歸的概念

多重線性回歸是研究多個(gè)自變量(x1\x2..)與一個(gè)因變量(y)之間線性依存關(guān)系的方法。其中自變量可以是隨機(jī)變量,也可以是給定變量,而因變量是隨機(jī)變量。多元線性回歸是研究多個(gè)自變量與多個(gè)因變量線性依存關(guān)系的方法。若所有變量都是隨機(jī)的,還可以做多重相關(guān)分析,描述因變量與一組自變量之間的線性關(guān)系;用偏相關(guān)描述因變量與一個(gè)自變量之間,在扣除其他自變量影響之后的線性關(guān)系。第二頁,共七十三頁,編輯于2023年,星期四二、多重線性回歸模型與方程多重線性回歸模型用于研究一個(gè)被解釋變量(因變量)與多個(gè)解釋變量(自變量)的線性關(guān)系分析。多重線性回歸模型與一元線性回歸模型基本類似,只不過解釋變量由一個(gè)增加到兩個(gè)以上,被解釋變量y與多個(gè)解釋變量x1,x2···xk之間存在線性關(guān)系。假定被解釋變量y與多個(gè)解釋變量x1,x2···xm之間具有線性關(guān)系,建立多重線性回歸模型為:其中y為被解釋變量,xi為k個(gè)解釋變量,βi為偏回歸系數(shù),表示在其他自變量固定的條件下,自變量Xi改變一個(gè)單位時(shí),因變量Y的平均改變量。ε為隨機(jī)誤差項(xiàng)。第三頁,共七十三頁,編輯于2023年,星期四三、回歸模型的前提條件多重線性回歸方程:描述被解釋變量y的期望值或平均值如何依賴于解釋變量x的方程為:回歸模型的前提條件:1)線性:是指反應(yīng)變量Y的總體平均值與自變量X呈線性關(guān)系;2)獨(dú)立性:自變量間相互獨(dú)立,自變量之間沒有精確的線性關(guān)系(不相關(guān));3)正態(tài)性:是指對(duì)于給定的X值,其對(duì)應(yīng)的Y值的總體和線性模型的誤差項(xiàng)ε均服從正態(tài)分布;(ε服從均數(shù)為0的正態(tài)分布)4)等方差性:無論X如何取值,Y都有相同的方差;誤差項(xiàng)的方差相等。第四頁,共七十三頁,編輯于2023年,星期四第二節(jié)多重線性回歸分析步驟一、參數(shù)估計(jì):根據(jù)樣本數(shù)據(jù),求得模型參數(shù)的估計(jì)值,即求出模型β的估計(jì)值b0、bm后,建立回歸方程。多重回歸采用最小二乘法估計(jì)其參數(shù),即求出與實(shí)際觀察值Y之差的平方和(殘差平方和)為最小的b0、b1、b2、bm值。多重回歸的參數(shù)估計(jì)和假設(shè)檢驗(yàn),常采用統(tǒng)計(jì)軟件完成。求出參數(shù)的估計(jì)值后,可建立方程。

例8-1下表是27名糖尿病人的血清總膽固醇、甘油三酯、空腹胰島素、糖化血紅蛋白、空腹血糖的測(cè)量值,試建立血糖與其它幾項(xiàng)指標(biāo)關(guān)系的多重線性回歸方程。

第五頁,共七十三頁,編輯于2023年,星期四27名糖尿病人血糖與其它變量的測(cè)量值第六頁,共七十三頁,編輯于2023年,星期四27名糖尿病人血糖與其它變量的測(cè)量值第七頁,共七十三頁,編輯于2023年,星期四二、建立方程經(jīng)統(tǒng)計(jì)軟件處理后,得各參數(shù)如下:得回歸方程為:第八頁,共七十三頁,編輯于2023年,星期四三、多重回歸分析的假設(shè)檢驗(yàn)及評(píng)價(jià)

(一)回歸方程(模型)的假設(shè)檢驗(yàn):檢驗(yàn)?zāi)P褪欠癯闪?,或方程是否有意義。

第九頁,共七十三頁,編輯于2023年,星期四方差分析法多重線性回歸方差分析表以上結(jié)果顯示:接受H1,回歸方程成立。(相關(guān)公式)第十頁,共七十三頁,編輯于2023年,星期四(二)有關(guān)評(píng)價(jià)指標(biāo)1.殘差標(biāo)準(zhǔn)差(剩余標(biāo)準(zhǔn)差)SY,1,2,…M:為扣除m個(gè)自變量影響外,因變量仍存在的變異,不能用自變量的變化解釋Y的變異。反映回歸方程精度,值越小說明回歸效果越好。第十一頁,共七十三頁,編輯于2023年,星期四2.決定系數(shù)R2:R2:說明所有自變量能解釋Y變化的百分比。取值范圍(0,1),越接近1,模型擬合效果越好。R2反映在Y的總變異中,自變量組合解釋部分,占總變異的比重,即線性回歸模型能在多大程度上解釋應(yīng)變量Y的變異性。自變量對(duì)應(yīng)變量貢獻(xiàn)越大,回歸效果越好。第十二頁,共七十三頁,編輯于2023年,星期四SY,1,2,…M與R2第十三頁,共七十三頁,編輯于2023年,星期四3.校正決定系數(shù)RC2(Radj2)=0.5282第十四頁,共七十三頁,編輯于2023年,星期四R2與RC2關(guān)系:R2表示總變差中已由多元回歸方程“解釋”的比例,R2可解釋模型的擬合優(yōu)度,殘差平方和越小,決定系數(shù)越接近1,回歸方程的擬合程度越好。RC2當(dāng)給模型增加自變量時(shí),決定系數(shù)也隨之逐步增大,然而決定系數(shù)的增大代價(jià)是自由度的減少。自由度小意味著估計(jì)和預(yù)測(cè)的可靠性低。為了克服樣本決定系數(shù)的這一缺點(diǎn),我們?cè)O(shè)法把R2給予適當(dāng)?shù)男拚@就是校正決定系數(shù)。R2或RC2只能說明在給定的樣本條件下回歸方程與樣本觀測(cè)值擬合優(yōu)度,并不能做出對(duì)總體模型的推測(cè),因此不能單憑它們來選擇模型。第十五頁,共七十三頁,編輯于2023年,星期四4.復(fù)相關(guān)系數(shù)R

R說明所有自變量與Y間的線性相關(guān)程度,而不反應(yīng)相關(guān)的方向。取值范圍(0,1),R越接近1,說明所有自變量與應(yīng)變量Y間的關(guān)系越密切。如果只有一個(gè)自變量,此時(shí)的R=∣r∣。(r為pearson相關(guān)系數(shù))第十六頁,共七十三頁,編輯于2023年,星期四(三)偏回歸系數(shù)的假設(shè)檢驗(yàn)及評(píng)價(jià)

偏回歸系數(shù)的假設(shè)檢驗(yàn)(即各自變量貢獻(xiàn)大小的檢驗(yàn)),有三種方法。1.t檢驗(yàn)法:第十七頁,共七十三頁,編輯于2023年,星期四t檢驗(yàn)顯示:

胰島素x3、糖化血紅蛋白x4與血糖y有線性回歸關(guān)系。第十八頁,共七十三頁,編輯于2023年,星期四t檢驗(yàn)顯示:

胰島素x3、糖化血紅蛋白x4與血糖y有線性回歸關(guān)系。機(jī)讀顯示相同結(jié)果。第十九頁,共七十三頁,編輯于2023年,星期四2.方差分析法(求x的偏回歸平方和)第二十頁,共七十三頁,編輯于2023年,星期四機(jī)讀顯示相同結(jié)果F檢驗(yàn)顯示:胰島素x3、糖化血紅蛋白x4與血糖y有線性回歸關(guān)系。第二十一頁,共七十三頁,編輯于2023年,星期四3.標(biāo)準(zhǔn)化偏回歸系數(shù)法標(biāo)準(zhǔn)化偏回歸系數(shù)概念:第二十二頁,共七十三頁,編輯于2023年,星期四偏回歸系數(shù)與標(biāo)準(zhǔn)化偏回歸系數(shù)關(guān)系第二十三頁,共七十三頁,編輯于2023年,星期四第二十四頁,共七十三頁,編輯于2023年,星期四由這些新的觀察值進(jìn)行回歸分析得到的偏回歸系數(shù)稱為標(biāo)準(zhǔn)偏回歸系數(shù),各自變量標(biāo)準(zhǔn)偏回歸系數(shù)可以進(jìn)行排隊(duì),如本例4個(gè)自變量的標(biāo)準(zhǔn)偏回歸系數(shù)依次為0.0776,0.3093,-0.3395,0.3977可以說對(duì)血糖影響大小的順序依次為糖化血紅蛋白(X4)、胰島素(X3)、甘油三酯(X2)、和總膽固醇(X1)。第二十五頁,共七十三頁,編輯于2023年,星期四機(jī)得數(shù)據(jù)變量回歸系數(shù)bj標(biāo)準(zhǔn)化回歸系數(shù)b’jljj標(biāo)準(zhǔn)差SX10.142450.0775866.01031.5934X20.351470.30931172.36482.5748X3-0.27059-0.33948350.31063.6706X40.63820.3977486.44071.8234Y222.55192.9257第二十六頁,共七十三頁,編輯于2023年,星期四第三節(jié)自變量的選擇(篩選)多重線性回歸分析中,常常通過專業(yè)知識(shí)或?qū)嵺`經(jīng)驗(yàn),去挑選那些對(duì)因變量影響較大的自變量與因變量Y建立回歸方程。如從為數(shù)眾多因素中,選擇的自變量對(duì)反應(yīng)變量無影響或影響甚微,把它們引入方程后,不但計(jì)算量大,信息成本高,而且會(huì)使回歸系數(shù)的估計(jì)和預(yù)測(cè)的精度降低。選擇對(duì)因變量影響較大的自變量引入方程,將對(duì)反應(yīng)變量無影響或影響甚微的自變量排除方程,這種統(tǒng)計(jì)方法稱為自變量選擇(篩選),統(tǒng)計(jì)中常用方法之一是逐步選擇法。第二十七頁,共七十三頁,編輯于2023年,星期四一、最優(yōu)回歸方程及選擇方法第二十八頁,共七十三頁,編輯于2023年,星期四二、全局擇優(yōu)法(最優(yōu)子集回歸法)第二十九頁,共七十三頁,編輯于2023年,星期四1.校正決定系數(shù)RC2(Radj2)選擇法所謂最優(yōu)回歸方程是指RC2

最大的方程。第三十頁,共七十三頁,編輯于2023年,星期四2.CP選擇法第三十一頁,共七十三頁,編輯于2023年,星期四第三十二頁,共七十三頁,編輯于2023年,星期四3.AIC準(zhǔn)則的計(jì)算公式

求出所有可能的回歸模型(共有2m-1個(gè))對(duì)應(yīng)的準(zhǔn)則值;按上述準(zhǔn)則選擇最優(yōu)模型。第三十三頁,共七十三頁,編輯于2023年,星期四SAS獲得的幾個(gè)準(zhǔn)則值結(jié)果

ADJRSQCPAIC

ADJRSQCPAICx2x3x40.54563440.343x2x30.40748346.66x1x2x3x40.52823542.157x1x30.37522348.091x1x3x40.48797443.568x40.34653248.405x1x2x40.44683445.655x10.28443250.857x1x40.44137345.07x1x20.27478352.116x2x40.4395345.16x30.23063252.814x3x40.43542345.356x20.17864254.579x1x2x30.40756447.507

第三十四頁,共七十三頁,編輯于2023年,星期四4.全局擇優(yōu)法(最優(yōu)子集回歸法)局限性第三十五頁,共七十三頁,編輯于2023年,星期四三、逐步選擇法第三十六頁,共七十三頁,編輯于2023年,星期四(一)前進(jìn)法第三十七頁,共七十三頁,編輯于2023年,星期四方法第三十八頁,共七十三頁,編輯于2023年,星期四(二)后退法第三十九頁,共七十三頁,編輯于2023年,星期四方法第四十頁,共七十三頁,編輯于2023年,星期四(三)逐步回歸法

雙向篩選:引入有意義的變量(前進(jìn)法),剔除無意義的變量(后退法)。注意,引入變量的檢驗(yàn)水準(zhǔn)要小于或等于剔除變量的檢驗(yàn)水準(zhǔn)。第四十一頁,共七十三頁,編輯于2023年,星期四方法第四十二頁,共七十三頁,編輯于2023年,星期四第四節(jié)逐步回歸分析一、逐步回歸分析基本思想第四十三頁,共七十三頁,編輯于2023年,星期四二、逐步回歸實(shí)例分析(令α入=α出=0.01)第四十四頁,共七十三頁,編輯于2023年,星期四逐步回歸法實(shí)例(第一步)模型SS回SS殘SS總Y與X482.7144139.8375222.5519Y與X169.4251153.1267222.5519Y與X246.7873175.7645222.5519Y與X357.9133164.6386222.5519第四十五頁,共七十三頁,編輯于2023年,星期四逐步回歸法實(shí)例(第二步)模型SS回SS偏回SS殘F(tuán)值P值Y與X482.7144Y與X4X1107.790325.0759

114.76155.24410.0311Y與X4X2107.407424.6931115.14445.14690.0326Y與X4X3106.568323.8539115.98364.93600.0360第四十六頁,共七十三頁,編輯于2023年,星期四逐步回歸法實(shí)例(X1剔除否)模型SS回SS偏回SS殘F(tuán)值P值Y與X169.425138.3652

Y與X482.714425.0759Y與X4X1107.7903

114.76155.24410.0311第四十七頁,共七十三頁,編輯于2023年,星期四逐步回歸法實(shí)例(第三步)模型SS回SS偏回SS殘F(tuán)值P值Y與X4X1107.7903

Y與X4X1X2113.64725.8569Y與X4X1X3121.748013.9577

100.80383.18470.0875第四十八頁,共七十三頁,編輯于2023年,星期四逐步回歸法實(shí)例(X4/X1/X3剔除否)變量模型SS回SS偏回SS殘F(tuán)值P值Y與X4X1X3121.7480100.804X1Y與X4X3106.568315.1797X3Y與X4X1107.790313.9577

3.18470.0870X4Y與X1X394.202627.5454

第四十九頁,共七十三頁,編輯于2023年,星期四逐步回歸法實(shí)例(第四步)模型SS回SS偏回SS殘F(tuán)值P值Y與X4X1X3X2133.710711.962788.84122.96240.099Y與X4X1X3121.7480

第五十頁,共七十三頁,編輯于2023年,星期四逐步回歸法實(shí)例(是否剔除)變量模型SS回SS偏回SS殘F(tuán)值P值Y與X4X1X3X2133.710788.8412X2Y與X4X1X3121.748011.9627X1Y與X4X3X2133.09780.6129

0.15180.7006X3Y與X4X1X2113.647220.0635X4Y與X1X3X2105.916727.7940

第五十一頁,共七十三頁,編輯于2023年,星期四逐步回歸法實(shí)例(是否剔除)變量模型SS回SS偏回SS殘F(tuán)值P值Y與X4X3X2133.097889.4540X4Y與X3X2100.829232.2686X3Y與X4X2107.407425.69046.60540.0171X2Y與X4X3106.568326.5295

第五十二頁,共七十三頁,編輯于2023年,星期四方差分析結(jié)果變異來源自由度SSMSFP總變異26222.5519回歸3133.09844.36611.410.0001殘差2389.4543.889第五十三頁,共七十三頁,編輯于2023年,星期四回歸系數(shù)及其檢驗(yàn)第五十四頁,共七十三頁,編輯于2023年,星期四機(jī)得數(shù)據(jù)比較分析第五十五頁,共七十三頁,編輯于2023年,星期四第五節(jié)多重線性回歸應(yīng)用與注意事項(xiàng)

一、多重線性回歸應(yīng)用:影響因素分析,控制混雜因素。第五十六頁,共七十三頁,編輯于2023年,星期四預(yù)測(cè):由自變量值推出應(yīng)變量Y的值第五十七頁,共七十三頁,編輯于2023年,星期四控制:指定應(yīng)變量Y的值查看自變量的改變量第五十八頁,共七十三頁,編輯于2023年,星期四二、應(yīng)用的注意事項(xiàng)1.變量的數(shù)量化(1)自變量為連續(xù)型變量:必要時(shí)作變換。(2)自變量為有序變量:依次賦值,如療效好中差,可分別賦值3、2、1。(3)自變量為二分類:如令男=1,女=0。(4)自變量為名義分類:需要采用啞變量進(jìn)行編碼。第五十九頁,共七十三頁,編輯于2023年,星期四2.樣本含量觀察個(gè)體數(shù)n與變量個(gè)數(shù)m的比例一般至少應(yīng)為:n:m=1:5~10。3.統(tǒng)計(jì)“最優(yōu)”與專業(yè)的“最優(yōu)”。不同準(zhǔn)則、方法得出的“最優(yōu)”方程不同;不同的引入、剔除標(biāo)準(zhǔn)獲得的“最優(yōu)”方程不同;方程還受數(shù)據(jù)的正確性、共線性影響。第六十頁,共七十三頁,編輯于2023年,星期四4.多重共線性共線性:自變量間存在著線性關(guān)系,使一個(gè)或幾個(gè)自變量可以由另外的自變量線性表示時(shí),稱為該變量與另外的自變量間存在有共線性。問題:出現(xiàn)回歸系數(shù)的符號(hào)與由專業(yè)知識(shí)不符;變量的重要性與專業(yè)不符等現(xiàn)象

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論