多元線性回歸_第1頁
多元線性回歸_第2頁
多元線性回歸_第3頁
多元線性回歸_第4頁
多元線性回歸_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

多元統(tǒng)計分析郭靜緒論近三十年來在數(shù)理統(tǒng)計學(xué)基礎(chǔ)上發(fā)展起來的一個新的數(shù)學(xué)分支。它屬于應(yīng)用數(shù)學(xué)范疇。它的發(fā)展分為以下幾個階段:

第一階段:早在三十年代英國著名的統(tǒng)計學(xué)家R.A.Fisher做了許多杰出的貢獻,我國著名的數(shù)學(xué)家許寶錄先生也取得了許多成果,起到了奠基的作用。

第二階段:T.W.Anderson所寫的“IntroductiontoMultivariateStatisticalAnalysis”是一部很成功的著作,被譽為經(jīng)典著作。第三階段:50年代后,多元統(tǒng)計有了很大的發(fā)展,世界各國先后出版了一批不同風(fēng)格的比較有水平的著作,發(fā)表了大量文章,進一步促進了這一學(xué)科的發(fā)展。

第四階段:由于多元統(tǒng)計的計算量非常龐大,有些計算要幾個月,甚至幾年才能完成,這一時期計算工具的落后束縛了多元統(tǒng)計的發(fā)展。

第五階段:隨著計算機技術(shù)的飛速發(fā)展,計算機比較廣泛地使用,多元統(tǒng)計的許多龐大計算得以實現(xiàn),所以,80年代未到90年代初又有了大的發(fā)展。

目前,多元統(tǒng)計分析方法已經(jīng)廣泛應(yīng)用于自然科學(xué)和社會科學(xué)的許多領(lǐng)域。我國近年來,在工業(yè)、農(nóng)業(yè)、經(jīng)濟、地質(zhì)、醫(yī)學(xué)、氣象以及社會科學(xué)等許多方面,多元統(tǒng)計分析的理論和方法都得到了應(yīng)用,并取得了可喜的成果。

多元統(tǒng)計分析在農(nóng)業(yè)科學(xué)和生物科學(xué)中,用于:

數(shù)值分類(動、植物,微生物分類等)

數(shù)學(xué)模型

預(yù)測預(yù)報

種類判別

數(shù)量遺傳

數(shù)量生態(tài)等方面

多元統(tǒng)計是醫(yī)學(xué)研究的一個強有力的工具。緒論引入多元分析的原因醫(yī)學(xué)、生物學(xué)中,許多現(xiàn)象的發(fā)生、發(fā)展和變化是多種因素在一定條件下相互影響、制約而產(chǎn)生的共同結(jié)果。主要內(nèi)容是研究多個因素(變量)間關(guān)系及具有這些因素的樣品(個體)之間的關(guān)系。主要任務(wù)直接減少因素(變量)個數(shù)從原有的因素中選出一些典型的、有代表性的、能說明問題的因素,舍棄不典型的、無代表性的因素。通過變量變換減少參數(shù)個數(shù)把彼此相關(guān)的原變量轉(zhuǎn)換成彼此獨立的新變量,從而減少許多相關(guān)系數(shù)的參數(shù)緒論主要分析方法多元線形回歸Logistic回歸判別分析聚類分析生存分析主成分分析*因子分析*緒論幾個重要問題總體分布?樣本含量問題?樣本含量n與研究因素m之間的比例關(guān)系因素/變量類型?定量因素定性因素等級因素緒論指標的數(shù)量化注意必須思路清晰,知道自己要干什么;在作多元分析前,必須先作描述性分析。只有在充分了解資料性質(zhì)的基礎(chǔ)上,才有可能正確選擇方法,得出有價值的結(jié)論;當(dāng)多得結(jié)果不符邏輯,或有悖于專業(yè)知識時,既不要輕易接受,亦不要輕易放棄,必須弄清楚為什么。多元線性回歸內(nèi)容介紹多元線性回歸的概念多元線性回歸方程的求解過程自變量選擇多元線性回歸的應(yīng)用多元線性回歸注意事項一、多元線性回歸的概念1.直線回歸

直線回歸:研究一個應(yīng)變量與單個自變量之間呈直線關(guān)系的一種統(tǒng)計方法。如在一定年齡階段,體重與身高之間可表達為: (體重)=a+bx(身高) a:截距 b:斜率2.多元線形回歸定義:研究一個因變量與多個自變量之間的線性關(guān)系。如兒童的心象面積與身高、體重、月齡等有關(guān)系。1.方程形式:

=b0+b1x1+b2x2+…+bpxp+e b0:截距 bi:偏回歸系數(shù),其意義為: 在其他自變量不變的條件下,某個自變量變化一個單位導(dǎo)致的因變量的y平均變化量。2.條件 1)個體之間獨立(各觀測值Y之間獨立)2)Y與各X之間有線性關(guān)系3)殘差服從正態(tài)分布一、多元線性回歸的概念條件自變量與應(yīng)變量的關(guān)系是線性的(line)COV(ei,ej)=0,即獨立性(independence)ei~N(0,),即正態(tài)性(normality)Var(ei)=,即方差齊性(homogeneity,equalvariance)LINE如果只是建立方程,探討自變量與因變量的關(guān)系,后兩個條件可以適當(dāng)放寬3.對多元回歸求解結(jié)果的要求:

找出確實影響因變量的因素(自變量)

1)建立的方程必須有意義 2)方程內(nèi)不存在對因變量沒有顯著影響的變量一、多元線性回歸的概念二、多元線性回歸方程的求解過程1.數(shù)據(jù)的收集、整理2.方程的建立 1)估計偏回歸系數(shù),建立回歸方程 2)回歸方程顯著性檢驗及擬合效果評估 3)各偏回歸系數(shù)的顯著性檢驗 4)各自變量作用大小的評估1.數(shù)據(jù)的收集、整理1)數(shù)據(jù)收集要求

盡可能包括影響自變量的因素/與自變量有影響的因素數(shù)據(jù)應(yīng)該成組的收集2)數(shù)據(jù)的整理要求

最后的數(shù)據(jù)可以整理成以下形式:

表127名糖尿病人的血糖及有關(guān)變量的測量值———————————————————————序號 總膽固醇甘油三酯胰島素血紅蛋白血糖———————————————————————

1 5.68 1.90 4.53 8.211.223.791.64 7.32 6.98.8…… …………273.84 1.206.45 9.610.4———————————————————————1.數(shù)據(jù)的收集、整理2.方程的建立1)方程中參數(shù)的求解

采用最小二乘法原理求解正規(guī)方程組,得到b1,…,bm,進一步得到b0。

最小二乘法示例求解過程:1.設(shè)計若干個矩陣如下:1)因變量矩陣Y=(y1

y2…..yn)’2)設(shè)計矩陣3)誤差矩陣E=(e1e2…en)’4)系數(shù)矩陣B=(b0b1b2…bp)2.解正規(guī)方程:正規(guī)方程.可以表述成如下形式:

X’XB=X’Y

根據(jù)正規(guī)方程,我們可以得到:

B=(X’X)-1X’Y2)回歸方程的顯著性檢驗及評價(一)分析方法:方差分析

i)回歸可以解釋的部分 ii)回歸不能解釋的部分

方差分析表——————————————————————————— 變異 平方和 自由度均方 F值 來源 (MS)—————————————————————————— 回歸SS回 p

SS回/pMS回/MS誤 剩余SS誤 n-p-1SS誤/(n-p-1)————————————————————————————總 SS總 n-1

—————————————————————————方差分析表中參數(shù)的計算

回歸變異:

SS回=

∑biliy

bi:為每個自變量的偏回歸系數(shù)

liy:每個自變量與因變量的離均差平方和

回歸自由度=方程內(nèi)的自變量個數(shù)

剩余(誤差):SS誤=

SS總-SS回

剩余自由度=總自由度-回歸自由度總自由度=總樣本數(shù)-1方差分析表中參數(shù)的計算(續(xù))F值的自由度:

分子自由度:為回歸自由度(p) 分母自由度:為誤差(剩余)自由度2)回歸方程的顯著性檢驗及評價(二)方程的評價決定系數(shù)(R2)說明自變量能解釋Y變化的百分比,說明模型對數(shù)據(jù)擬合程度,(0,1)復(fù)相關(guān)系數(shù)用來度量Y與多個自變量間的線性相關(guān)程度。2)回歸方程的顯著性檢驗及評價(二)方程的評價校正R2剩余標準差(MSE)赤池系數(shù)/赤池信息準則(AIC)最小二乘法估計極大似然法估計CP統(tǒng)計量3)各自變量的顯著性檢驗及作用大小評價方差分析和決定系數(shù)是將所有變量作為整體來檢驗和說明它們與Y的相關(guān)程度及解釋能力

a.

未解釋在眾多回歸變量中是那一個/些的作用。 b.變量中是否存在對因變量的作用不顯著的自變量。3)各自變量的顯著性檢驗(一)偏回歸平方和回歸方程中某一自變量的偏回歸平方和,表示模型中含有其它m-1個自變量的條件下,該自變量對Y的回歸貢獻,相當(dāng)于從回歸方程中剔除該變量后,總平方和減少的量。偏回歸平方和愈大,相應(yīng)的自變量愈重要。3)各自變量的顯著性檢驗(二)t檢驗同一資料,不同自變量的t值間可以比較,t的絕對值愈大,說明該自變量對Y的回歸所起的作用愈大。3)各自變量作用大小評價標準化回歸系數(shù)偏回歸系數(shù)由于單位不同,不能進行直接的比較。為此有必要對此進行標準化,使它們都成為無量綱的系數(shù)。標準化回歸系數(shù)的絕對值愈大說明相應(yīng)的自變量對Y的作用愈大。標準偏回歸系數(shù)表示該自變量對因變量的直接貢獻標準化回歸系數(shù)的意義調(diào)查了某地29名13歲男童的身高(cm)、體重(kg)與肺活量(L)。擬研究肺活量與身高及體重之間的關(guān)系。三個變量之間的相關(guān)系數(shù)

身高 肺活量

體重 0.7421 0.7362

肺活量 0.5884建立肺活量與兩個變量的標準化回歸方程

=-0.09352x1+0.66682x2

標準化回歸系數(shù)的意義兩個變量對因變量的間接貢獻

身高對于肺活量的間接貢獻: 0.66682x0.7421=0.4948體重對于肺活量的間接貢獻: 0.09352x0.7421=0.0694各變量對于因變量的總貢獻(相當(dāng)于各自對因變量的相關(guān)系數(shù))

身高;0.09352+0.4948=0.5884

體重:0.66682+0.0694=0.7362自變量間接作用的估計假設(shè)有三個自變量,一個因變量。可以畫成以下關(guān)系圖:Yx2x3x1r23r12b2’b1’b3’變量之間的相關(guān)系數(shù)矩陣 X1 X2 X3 YX1 1 R12 R13 R1Y

X2 R21 1 R23 R2YX3 R31 R32 1 R3YY RY1 RY2 RY3 1間接作用的估計X1對因變量的間接作用等于 b2’r12+b3’r13

X2對因變量的間接作用等于 b1’r21+b3’r23X3對因變量的間接作用等于 b1’r13+b2’r32三、自變量選擇為什么要進行變量選擇自變量不一定都對因變量有顯著意義(將不重要的自變量引入方程,會降低模型的精度)變量之間存在共線性目的盡可能將回歸效果顯著的自變量選入方程,作用不顯著的自變量則排除在外。全局擇優(yōu)法對自變量各種不同的組合建立的方程進行比較,從全部組合中找出“最優(yōu)”的方程。校正決定系數(shù)選擇法:選擇法三、自變量選擇逐步選擇法:基于偏回歸平方和引入或剔除一個自變量前進法可以去掉高度相關(guān)的自變量后續(xù)變量的引入可能會使先進入的變量不顯著后退法考慮了自變量的組合作用自變量較多或高度相關(guān)時,結(jié)果不準確逐步回歸法三、自變量選擇多元線性回歸的應(yīng)用影響因素分析篩選、比較各因素對因變量的作用估計與預(yù)測用容易測量的變量推算不容易測量的變量均數(shù)可信區(qū)間允許區(qū)間統(tǒng)計控制利用回歸方程進行逆估計四、多元線性回歸應(yīng)用注意事項(一)指標的數(shù)量化

一般要求Y為連續(xù)變量,X可以是連續(xù)變量、分類變量、有序變量。連續(xù)變量:分類變量:數(shù)量化二分類多分類(K-1個啞變量)有序變量:連續(xù)變量處理啞變量注意事項(一)--指標的數(shù)量化二分類以性別(x)為例,男性:x=0,女性:x=1,建立回歸方程:

a:男性對因變量作用大小a+b1:女對因變量作用大小b1:女相對于男對因變量作用大小X的值可以隨意取,所得回歸方程是等價的

多分類--設(shè)置啞變量

以地區(qū)為例,變量名為‘region’,用一組啞變量的取值來表示一個地區(qū)。 地區(qū)名原賦值X1X2X3X4 北京 11 0 0 0 上海 20 1 0 0 天津 30 0 1 0 河北 40 0 0 1 江蘇 50 0 0 0注意事項(一)--指標的數(shù)量化

多分類--設(shè)置啞變量

a+b1,a+b2,a+b3,a+b4,a,分別表示北京、上海、天津、河北、江蘇對應(yīng)變量作用的大小。b1,b2,b3,b4分別是北京、上海、天津、河北相對于江蘇的對應(yīng)變量作用大小之差。注意事項(一)--指標的數(shù)量化

多分類--設(shè)置啞變量

采用不同的賦值方法,得到的回歸方程不同,但分析總體效果不變。當(dāng)K>2時,不能用常規(guī)的逐步回歸方法進行自變量的選擇,要將K-1個啞變量作為一個整體考慮是否引進方程。(結(jié)果解釋?)注意事項(一)--指標的數(shù)量化

有序變量

連續(xù)變量表示意義表示方法不同時,所得回歸方程不等價啞變量:分析每個等級對因變量的作用方法選擇

注意事項(一)--指標的數(shù)量化多元線性回歸應(yīng)用注意事項(二)樣本含量樣本含量是方程中自變量個數(shù)的5—10倍關(guān)于逐步回歸所謂的“最優(yōu)”回歸方程并不一定是最好的剔除、選入標準研究用途多元線性回歸應(yīng)用注意事項(二)4變量的交互作用定義:某一自變量對應(yīng)變量Y的作用大小與另一個自變量的取值有關(guān)處理方程中加入乘積項多元線性回歸應(yīng)用注意事項(三)共線性:一些自變量間存在較強的線性關(guān)系(相關(guān)的)危害參數(shù)估計值的標準誤增大;回歸方程不穩(wěn)定;t檢驗不準確;估計值的正負符號與客觀實際不一致多元線性回歸應(yīng)用注意事項(三)共線性:一些自變量間存在較強的線性關(guān)系(相關(guān)的)方法剔除某個造成共線性的自變量,重新建立方程;定義新的自變量代替具有共線性的自變量;將一組具有共線性的自變量合并成一個變量采用逐步回歸法。多元線性回歸應(yīng)用注意事項(三)共線性:主要診斷指標條件數(shù)(ConditionIndex)方差膨脹因子(VarianceofflationFactor,VIF)容許值(ToleranceValue,TOL)多元線性回歸應(yīng)用注意事項(四)6殘差分析:檢驗資料是否符合模型條件定義:ei=?i

–Yi在正常情況下,殘差符合標準正態(tài)分布,ei~N(0,σ2)影響分析:定義:研究每個觀察對于參數(shù)估計的影響。目的在于找出對參數(shù)估計影響大的點,影響較大的點,稱為杠桿點。主要診斷指標:h值、學(xué)生化殘差等。多元線性回歸—小結(jié)變量的數(shù)量化根據(jù)實際情況,變量類型間的相互轉(zhuǎn)換逐步回歸是一種思維方法、一種建模策略逐步回歸分析的目的除建立方程外,更重要的是觀察變量進出方程的過程,深入分析變量的獨立作用和聯(lián)合作用方程與變量有意義是不同的概念多元線性回歸—小結(jié)回歸系數(shù)反常情況b與專業(yè)知識不符,甚至符號相反方程顯著,但每個自變量均不顯著專業(yè)上重要的變量未選入方程原因數(shù)據(jù)中有離群值或異常點(對即定模型偏離很大的點)自變量的觀察范圍太窄,或方差太小樣本含量不夠,或自變量數(shù)太多自變量間存在(復(fù))共線性多元線性回歸—小結(jié)(復(fù))共線性存在導(dǎo)致如下現(xiàn)象:回歸系數(shù)的符號與實際不符回歸系數(shù)的估計值與實際相差太大回歸系數(shù)的標準誤太大;因而有些重要變量選不進方程整個方程有顯著性,而每個自變量均無顯著性回歸分析的正確應(yīng)用多元線性回歸分析的應(yīng)用條件方程與變量的檢驗樣本含量什么時候可能出現(xiàn)不合理的回歸結(jié)果回歸過程

PROCREG

一、必須語句PROCREG語句Model語句1、procreg語句數(shù)據(jù)集選項Data=SAS數(shù)據(jù)集Outest=SAS數(shù)據(jù)集Outsscp=SAS數(shù)據(jù)集輸出及其它選項AllCorrSimpleNoprint2、model語句(一)格式Model應(yīng)變量=自變量列表/選擇項模型選擇的選項Selection=F/B/Stepwise/CPslentry=slstay=DetailsInclude=n:指定前n個自變量包含在模型中Noint:取消模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論