第六章回歸分析.ppt_第1頁
第六章回歸分析.ppt_第2頁
第六章回歸分析.ppt_第3頁
第六章回歸分析.ppt_第4頁
第六章回歸分析.ppt_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第六章 回歸分析,變量之間的聯(lián)系,確定型的關(guān)系:指某一個或某幾個現(xiàn)象的變動必然會引起另一個現(xiàn)象確定的變動,他們之間的關(guān)系可以使用數(shù)學(xué)函數(shù)式確切地表達(dá)出來,即y=f(x)。當(dāng)知道x的數(shù)值時,就可以計算出確切的y值來。如圓的周長與半徑的關(guān)系:周長=2r。 非確定關(guān)系:例如,在發(fā)育階段,隨年齡的增長,人的身高會增加。但不能根據(jù)年齡找到確定的身高,即不能得出11歲兒童身高一定就是1米40公分。年齡與身高的關(guān)系不能用一般的函數(shù)關(guān)系來表達(dá)。研究變量之間既存在又不確定的相互關(guān)系及其密切程度的分析稱為相關(guān)分析。,回歸分析,如果把其中的一些因素作為自變量,而另一些隨自變量的變化而變化的變量作為因變量,研究他們之

2、間的非確定因果關(guān)系,這種分析就稱為回歸分析。 回歸分析是研究一個自變量或多個自變量與一個因變量之間是否存在某種線性關(guān)系或非線性關(guān)系的一種統(tǒng)計學(xué)方法。,回歸分析,線性回歸分析; 曲線回歸分析; 二維Logistic回歸分析; 多維Logistic回歸分析; 概率單位回歸分析; 非線性回歸分析; 權(quán)重估計分析; 二階段最小二乘分析; 最優(yōu)編碼回歸。,一、線性回歸,(一)一元線性回歸方程 直線回歸分析的任務(wù)就是根據(jù)若干個觀測(xi,yi)i=1n找出描述兩個變量x、y之間關(guān)系的直線回歸方程y=a+bx。y是變量y的估計值。求直線回歸方程y=a+bx,實際上是用回歸直線擬合散點圖中的各觀測點。常用的方

3、法是最小二乘法。也就是使該直線與各點的縱向垂直距離最小。即使實測值y與回歸直線y之差的平方和(y-y)2達(dá)到最小。(y-y)2也稱為剩余(殘差)平方和。因此求回歸方程y=a+bx的問題,歸根到底就是求(y-y)2取得最小值時a和b的問題。a稱為截距,b為回歸直線的斜率,也稱回歸系數(shù)。,1、一元線性回歸方程的適用條件,線性趨勢:自變量與因變量的關(guān)系是線形的,如果不是,則不能采用線性回歸來分析。 獨立性:可表述為因變量y的取值相互獨立,它們之間沒有聯(lián)系。反映到模型中,實際上就是要求殘差間相互獨立,不存在自相關(guān)。 正態(tài)性:自變量x的任何一個線形組合,因變量y均服從正態(tài)分布,反映到模型中,實際上就是要

4、求隨機(jī)誤差項i服從正態(tài)分布。 方差齊性:自變量的任何一個線形組合,因變量y的方差均齊性,實質(zhì)就是要求殘差的方差齊。,2、一元線性回歸方程的檢驗,檢驗的假設(shè)是總體回歸系數(shù)為0。另外要檢驗回歸方程對因變量的預(yù)測效果如何。 (1)回歸系數(shù)的顯著性檢驗 對斜率的檢驗,假設(shè)是:總體回歸系數(shù)為0。檢驗該假設(shè)的t值計算公式是;t=b/SEb,其中SEb是回歸系數(shù)的標(biāo)準(zhǔn)誤。 對截距的檢驗,假設(shè)是:總體回歸方程截距a=0。檢驗該假設(shè)的t值計算公式是: t=a/SEa,其中SEa是截距的標(biāo)準(zhǔn)誤。,(2) R2判定系數(shù),在判定一個線性回歸直線的擬合度的好壞時,R2系數(shù)是一個重要的判定指標(biāo)。 R2判定系數(shù)等于回歸平方

5、和在總平方和中所占的比率,即R2體現(xiàn)了回歸模型所能解釋的因變量變異性的百分比。如果R2=0.775,則說明變量y的變異中有77.5是由變量X引起的。當(dāng)R21時,表示所有的觀測點全部落在回歸直線上。當(dāng)R2=0時,表示自變量與因變量無線性關(guān)系。 為了盡可能準(zhǔn)確的反應(yīng)模型的擬合度,SPSS輸出中的Adjusted R Square是消除了自變量個數(shù)影響的R2的修正值。,(3)方差分析,體現(xiàn)因變量觀測值與均值之間的差異的偏差平方和SSt是由兩個部分組成: SSt=SSrSSe SSr:回歸平方和,反應(yīng)了自變量X的重要程度; SSe :殘差平方和,它反應(yīng)了實驗誤差以及其他意外因素對實驗結(jié)果的影響。這兩部

6、分除以各自的自由度,得到它們的均方。 統(tǒng)計量F=回歸均方殘差均方。當(dāng) F值很大時,拒絕接受b=0的假設(shè)。,(4)DurbinWatson檢驗,在對回歸模型的診斷中,有一個非常重要的回歸模型假設(shè)需要診斷,那就是回歸模型中的誤差項的獨立性。如果誤差項不獨立,那么對回歸模型的任何估計與假設(shè)所作出的結(jié)論都是不可靠的。其參數(shù)稱為DW或D。D的取值范圍是0D4,統(tǒng)計學(xué)意義如下: 當(dāng)殘差與自變量互為獨立時D2; 當(dāng)相鄰兩點的殘差為正相關(guān)時,D2,(5)殘差圖示法,在直角坐標(biāo)系中,以預(yù)測值y為橫軸,以y與y之間的誤差et為縱軸(或?qū)W生化殘差與擬和值或一個自變量),繪制殘差的散點圖。如果散點呈現(xiàn)出明顯的規(guī)律性則

7、,認(rèn)為存在自相關(guān)性或者非線性或者非常數(shù)方差的問題。,(二)多元線性回歸1.多元線性回歸的概念,多元線性回歸:根據(jù)多個自變量的最優(yōu)組合建立回歸方程來預(yù)測因變量的回歸分析稱為多元回歸分析。多元回歸分析的模型為:y=b0+b1x1+b2x2+ +bnxn 其中y為根據(jù)所有自變量x計算出的估計值, b0為常數(shù)項, b1、b2 bn稱為y對應(yīng)于x1、x2 xn的偏回歸系數(shù)。偏回歸系數(shù)表示假設(shè)在其他所有自變量不變的情況下,某一個自變量變化引起因變量變化的比率。 多元線性回歸模型也必須滿足一元線性回歸方程中所述的假設(shè)理論。線性、獨立、正態(tài)、等方差,2.多元線性回歸分析中的參數(shù),(l)復(fù)相關(guān)系數(shù) R 復(fù)相關(guān)系

8、數(shù)表示因變量y 與其他的自變量xi 之間線性相關(guān)密切程度的指標(biāo),復(fù)相關(guān)系數(shù)使用字母R表示。 復(fù)相關(guān)系數(shù)的取值范圍在01之間。其值越接近1表示其線性關(guān)系越強(qiáng),越接近0表示線性關(guān)系越差。,(2)R2判定系數(shù)與經(jīng)調(diào)整的判定系數(shù),與一元回歸方程相同,在多元回歸中也使用判定系數(shù)R2來解釋回歸模型中自變量的變異在因變量變異中所占比率。 但是,判定系數(shù)的值隨著進(jìn)入回歸方程的自變量的個數(shù)(或樣本容量的大小n)的增加而增大。因此,為了消除自變量的個數(shù)以及樣本量的大小對判定系數(shù)的影響,引進(jìn)了經(jīng)調(diào)整的判定系數(shù)(Adjusted R Square)。,K為自變量的個數(shù),n為觀測量數(shù)目。自變量的個數(shù)大于1時,其值小于判

9、定系數(shù)。自變量個數(shù)越多,與判定系數(shù)的差值越大。,(3)零階相關(guān)系數(shù)、部分相關(guān)與偏相關(guān)系數(shù),零階相關(guān)系數(shù)(ZeroOrder)計算所有自變量與因變量之間的簡單相關(guān)系數(shù)。 部分相關(guān)(Part Correlation)表示:在排除了其他自變量對 xi的影響后,當(dāng)一個自變量進(jìn)入回歸方程模型后,復(fù)相關(guān)系數(shù)的平均增加量。 偏相關(guān)系數(shù)(Partial Correlation )表示:在排除了其他變量的影響后;自變量 Xi與因變量y之間的相關(guān)程度。部分相關(guān)系數(shù)小于偏相關(guān)系數(shù)。偏相關(guān)系數(shù)也可以用來作為篩選自變量的指標(biāo),即通過比較偏相關(guān)系數(shù)的大小判別哪些變量對因變量具有較大的影響力。,3、多元線性回歸分析的檢驗,

10、建立了多元回歸方程后,需要進(jìn)行顯著性檢驗,以確認(rèn)建立的數(shù)學(xué)模型是否很好的擬和了原始數(shù)據(jù),即該回歸方程是否有效。利用殘差分析,確定回歸方程是否違反了假設(shè)理論。對各自變量進(jìn)行檢驗。其假設(shè)是總體的回歸方程自變量系數(shù)或常數(shù)項為0。以便在回歸方程中保留對因變量y值預(yù)測更有效的自變量。確定數(shù)學(xué)模型是否有效。,(l)方差分析,多元回歸方程也采用方差分析方法對回歸方程進(jìn)行檢驗,檢驗的H0假設(shè)是總體的回歸系數(shù)均為0(無效假設(shè)),H1假設(shè)是總體的回歸系數(shù)不全為0(備選假設(shè))。它是對整個回歸方程的顯著性檢驗。使用統(tǒng)計量F進(jìn)行檢驗。原理與一元回歸的方程分析原理相同。,(2)偏回歸系數(shù)與常數(shù)項的檢驗,在多元回歸分析中,

11、可能有的自變量對因變量的影響很強(qiáng),而有的影響很弱,甚至完全沒有作用,這樣就有必要對自變量進(jìn)行選擇,使回歸方程中只包含對因變量有統(tǒng)計學(xué)意義的自變量; 檢驗的假設(shè)是:各自變量回歸系數(shù)為0,常數(shù)項為0。它使用的統(tǒng)計量是t; tbj=偏回歸系數(shù)/偏回歸系數(shù)的標(biāo)準(zhǔn)誤=bj/sbj,(3)方差齊性檢驗,方差齊性是指殘差的分布是常數(shù),與預(yù)測變量或因變量無關(guān)。即殘差應(yīng)隨機(jī)的分布在一條穿過0點的水平直線的兩側(cè)。在實際應(yīng)用中,一般是繪制因變量預(yù)測值與學(xué)生殘差(或標(biāo)準(zhǔn)化殘差)的散點圖。在線性回歸Plots對話框中的源變量表中,選擇SRESID或ZRESID(學(xué)生氏殘差或標(biāo)準(zhǔn)化殘差)做Y軸;選擇ZPRED(標(biāo)準(zhǔn)化預(yù)測

12、值)做X軸就可以在執(zhí)行后的輸出信息中顯示檢驗方差齊性的散點圖。,共線性診斷,在回歸方程中,雖然各自變量對因變量都是有意義的,但某些自變量彼此相關(guān),即存在共線性的問題。給評價自變量的貢獻(xiàn)率帶來困難。因此,需要對回歸方程中的變量進(jìn)行共線性診斷;并且確定它們對參數(shù)估計的影響。 當(dāng)一組自變量精確共線性時,必須刪除引起共線性的一個和多個自變量,否則不存在系數(shù)唯一的最小二乘估計。因為刪除的自變量并不包含任何多余的信息,所以得出的回歸方程并沒有失去什么。當(dāng)共線性為近似時,一般是將引起共線性的自變量刪除,但需要掌握的原則是:務(wù)必使丟失的信息最少。,進(jìn)行共線性診斷常用的參數(shù)有,(l)容許度(Tolerance)

13、 在只有兩個自變量的情況下,自變量X1與X2之間共線性體現(xiàn)在兩變量間相關(guān)系數(shù)r12上。精確共線性時對應(yīng)r1221,當(dāng)它們之間不存在共線性時r1220。 r122越接近于1,共線性越強(qiáng)。 多于兩個自變量的情況, Xi與其他自變量X之間的復(fù)相關(guān)系數(shù)的平方體現(xiàn)其共線性,稱它為Ri2。它的值越接近1,說明自變量之間的共線性程度越大。,進(jìn)行共線性診斷常用的參數(shù),容許度定義為Tolil一Ri2 當(dāng)容許度的值較小時,自變量Xi 與其他自變量X之間存在共線性。,(2)方差膨脹因子(VIF) 方差膨脹因于(VIF)定義為 VIF1/(l一Ri2 ),即它是容許度的倒數(shù)。它的值越大,自變量之間存在共線性的可能性越

14、大。 (3)條件參數(shù)(Condition Index) 條件參數(shù)是在計算特征值時產(chǎn)生的一個統(tǒng)計量,其具體含義尚不大清楚,但己經(jīng)提出一些原則:其數(shù)值越大,說明自變量之間的共線性的可能性越大;有些學(xué)者提議,條件參數(shù)30時認(rèn)為有共線性存在的可能性,但理論上并沒有得到證明。特征值(Eigenvalue)如果很小,就應(yīng)該懷疑共線性的存在。,例 題,Data09-03美國某銀行雇員情況調(diào)查,建立一個使用初始工資(salbegin)、工作經(jīng)驗(prevexp)、工作時間(jobtime)、工作類型(jobcat)、受教育年限(educ)預(yù)測當(dāng)前工資(salary)的回歸方程。,1變量間線性關(guān)系的初步探索,在

15、獲得數(shù)據(jù)后,應(yīng)將所得到的數(shù)據(jù)繪圖,探索因變量隨自變量變化的趨勢。以便確定數(shù)據(jù)是否適合線性模型。如果數(shù)據(jù)之間大致呈線性關(guān)系,可以建立線性回歸方程。如果圖中數(shù)據(jù)不呈線性分布,那么還可以根據(jù)其他回歸方程模型的觀測量分布圖形特點以及建立各方程后所得的判定系數(shù)R2進(jìn)行比較后確定一種最佳模型。見曲線擬合及非線性回歸。 通過散點圖還可以發(fā)現(xiàn)奇異值,如圖中畫圈的觀測值要認(rèn)真檢查數(shù)據(jù)的合理性。,2、選擇自變量和因變量,3、選擇回歸分析方法,Enter選項,強(qiáng)行進(jìn)入法,即所選擇的自變量全部進(jìn)人回歸模型,該選項是默認(rèn)方式。 Remove選項,消去法,建立的回歸方程時,根據(jù)設(shè)定的條件剔除部分自變量。,選擇回歸分析方法

16、,Forward選項,向前選擇法,根據(jù)在option對話框中所設(shè)定的判據(jù),從無自變量開始。在擬合過程中,對被選擇的自變量進(jìn)行方差分析,每次加入一個F值最大的變量,直至所有符合判據(jù)的變量都進(jìn)入模型為止。第一個引入歸模型的變量應(yīng)該與因變量間相關(guān)系數(shù)絕對值最大。,選擇回歸分析方法,Backward選項,向后剔除法,根據(jù)在option對話框中所設(shè)定的判據(jù),先建立全模型,然后根據(jù)設(shè)置的判據(jù),每次剔除一個使方差分析中的F值最小的自變量,直到回歸方程中不再含有不符合判據(jù)的自變量為止。,選擇回歸分析方法,Stepwise選項,逐步進(jìn)入法,它是向前選擇變量法與向后剔除變量方法的結(jié)合。根據(jù)在 option對話框中

17、所設(shè)定的判據(jù),首先根據(jù)方差分析結(jié)果選擇符合判據(jù)的自變量且對因變量貢獻(xiàn)最大的進(jìn)入回歸方程。根據(jù)向前選擇變量法則選入變量。然后根據(jù)向后剔除法,將模型中F值最小的且符合剔除判據(jù)的變量剔除出模型,重復(fù)進(jìn)行直到回歸方程中的自變量均符合進(jìn)入模型的判據(jù),模型外的自變量都不符合進(jìn)入模型的判據(jù)為止。,4、選擇參與回歸的觀測量,根據(jù)變量值選擇參與回歸分析的觀測量,將作為參照的變量進(jìn)入 Selection Variable框中,單擊 Rule按鈕。打開 Set Rule對話框。,5、Statistics按鈕,Estimates:輸出回歸系數(shù)B、B的標(biāo)準(zhǔn)誤、標(biāo)準(zhǔn)回歸系數(shù)beta、B的t值及t值的雙側(cè)檢驗的顯著性水平;

18、 Confidence interval:輸出每一個非標(biāo)準(zhǔn)化回歸系數(shù)95的可信區(qū)間; Covariance maxtrix:輸出非標(biāo)準(zhǔn)化回歸系數(shù)的協(xié)方差矩陣、各變量的相關(guān)系數(shù)矩陣;,Model fit(模型擬合):輸出引入模型與從模型中剔除的變量,提供復(fù)相關(guān)系數(shù)R,R2及其修正值,估計值的標(biāo)準(zhǔn)誤,方差分析表; R squared change:表示回歸方差中引入或剔除一個自變量后的R2變化量; Descriptives:輸出合法觀測量的數(shù)目、變量的平均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)矩陣和單側(cè)檢驗顯著性水平,Part and partial correlations:輸出部分相關(guān)系數(shù)、偏相關(guān)系數(shù)、零階相關(guān)

19、系數(shù); Collinearity diagnostics:輸出方差膨脹因子及特征值; DurbinWatson:輸出DurbinWatson統(tǒng)計量及可能的奇異值; Casewise diagnostics:輸出觀測量檢測表;,6、plot按鈕,Dependent:因變量; ZPRED:標(biāo)準(zhǔn)化預(yù)測值 ZRESID:標(biāo)準(zhǔn)化殘差 DRESID:剔除殘差 ADJPRED:修正后預(yù)測值 SRESID:學(xué)生化殘差 SDRESID:學(xué)生化剔除殘差,plot按鈕,Histogrom:輸出帶有正態(tài)曲線的標(biāo)準(zhǔn)化殘差的直方圖; Normal probability plot:殘差的正態(tài)概率圖,檢查殘差的正態(tài)性; P

20、roduce all partial plots:輸出(每)一個自變量殘差相對于因變量殘差的散點圖。,Option按鈕,Stepping method criteria(設(shè)置變量引入模型或從模型中剔除的判據(jù)) Use probability of F:采用F概率作為變量引入模型或從模型中剔除的判據(jù)。 Entry:0.05當(dāng)一個變量的sigT值0.05時該變量被引入方程; Removal:0.10當(dāng)一個變量的sigT值0.10時該變量從回歸方程剔除。,Option按鈕,Use F values(采用F值作為變量引入模型或從模型中剔除的判據(jù)) Entry:當(dāng)一個變量的sigF值3.84時該變量被引

21、入方程; Removal:當(dāng)一個變量的sigF值2.71時該變量從回歸方程剔除。,結(jié)果分析,模型1:Current salary=1928.206十1.909Beginning salary。 其常數(shù)項的顯著水平值為0.031,自變量Beginning salary 的顯著水平值為0.000。 模型 2:Current salary=1036.931十1.469Beginning salary十5947.000Employment category。 其常數(shù)項的顯著水平值0.213,自變量Beginning salary 的顯著水平值為0.000,自變量Employment category的

22、顯著水平值為 0.000。,結(jié)果分析,模型 3:Current salary=3039.205十1.467Beginning salary十6160.294Employment category一23.749Previous Experience。 常數(shù)項、自變量Beginning salary 、Employment category、Previous Experience 的顯著水平值均為0.000。,結(jié)果分析,散點圖分析 當(dāng)前工資的預(yù)測值與其標(biāo)準(zhǔn)化殘差散點圖中可以看到絕大部分觀測量隨機(jī)地落在圍繞垂直的士2的范圍內(nèi),預(yù)測值與標(biāo)準(zhǔn)化殘差值之間沒有明顯的關(guān)系,所以回歸方程應(yīng)該滿足線性與方差齊性

23、的假設(shè)。,練習(xí)題1,為研究男性高血壓患者血壓與年齡、身高、體重等變量間的關(guān)系,隨機(jī)測量了32名40歲以上的男性患者的血壓、年齡、體重以及吸煙史(過去吸煙或現(xiàn)在吸煙設(shè)置為1,不吸煙為0)。試建立回歸方程。 Sp11data Mreg2.sav,練習(xí)題2,測得97名成年男性血常規(guī)和血生化指標(biāo)11項,分別是rbc(紅細(xì)胞),hb(血紅蛋白),wbc(白細(xì)胞),plt(血小板),tbil(總膽紅素),dbil(直接膽紅素),alt(谷丙轉(zhuǎn)氨酶),ast(谷草轉(zhuǎn)氨酶),alp(堿性磷酸酶),bun(尿素氮),cr(肌酐),見數(shù)據(jù)文件“regression.sav”。試以hb(血紅蛋白)為因變量,其他變量

24、為自變量進(jìn)行回歸分析。,結(jié)果分析 全變量回歸分析(Enter):見圖10-25 ,解釋如下: 由標(biāo)準(zhǔn)回歸系數(shù)(Beta)可見,10個自變量對因變量(hb)的影響從大到小依次為rbc,plt,ast,alt,cr,tbil,alp,dbil,bun,wbc。 一般回歸方程為: hb=38.415+22.698rbc-0.167wbc-0.038plt+0.235tbil-0.435dbil-0.060alt+0.066ast-0.023alp-0.449bun+0.069cr 對方程內(nèi)各自變量單獨檢驗,自變量“rbc”和“plt”對因變量“hb”有顯著性影響,P值分別為0.000和0.011。,

25、Coefficientsa,a.Dependent Variable:hb,圖10-25 全變量回歸方程的參數(shù)估計,結(jié)果分析 逐步回歸分析(Stepwise):見圖10-26,解釋如下: 回歸方程為:hb=39.344+23.021rbc-0.041plt 就兩個回歸方程的比較而言,逐步回歸方程較可取,因為其自變量從10個減到2個,便于實際中應(yīng)用;而且逐步回歸的調(diào)整R2(0.697)大于全變量回歸方程的0.681。,Coefficientsa,a.Dependent Variable:hb,圖10-26 逐步回歸方程的參數(shù)估計,二、曲線回歸分析,線性回歸可以滿足許多數(shù)據(jù)分析,然而線性回歸不會對

26、所有的問題都適用,有時因變量與自變量是通過一個已知或未知的非線性函數(shù)關(guān)系相聯(lián)系。盡管有可能通過一些函數(shù)的轉(zhuǎn)換方法,在一定范圍內(nèi)將它們轉(zhuǎn)變?yōu)榫€性關(guān)系,但這種轉(zhuǎn)換有可能導(dǎo)致更為復(fù)雜的計算或數(shù)據(jù)失真。,曲線回歸分析,在很多情況下有兩個相關(guān)的變量,希望利用其中的一個變量對另一個變量進(jìn)行預(yù)測,此時可采用的方法也很多,從簡單的直線模型到復(fù)雜的時間序列模型。如果不能馬上根據(jù)觀測量數(shù)據(jù)確定一種最佳模型,可以利用曲線估計在眾多的回歸模型中來建立一個簡單而又比較適合的模型。,例 題,汽車每加侖汽油行駛的里程數(shù)(mpg)與汽車重量(weight)建立回歸方程。 Data1301,曲線回歸分析,線形模型Y=b0+b1

27、x 二次模型Y=b0+b1x+b2x2 復(fù)合模型Y=b0(b1)x 生長模型Y=e(bo+b1x) 對數(shù)模型Y=b0+b1ln(x) 三次模型Y=b0+b1x+b2x2+b3x3,S型模型Y=e(bo+b1/x) Exponential形式,指數(shù)模型Y=b0e(b1x) Inverse形式,逆模型Y=b0+b1/x Power形式,冪模型Y=b0(xb1) Logistic形式,Logistic模型Y=1/(1/u+b0(b1),x,Data1301 曲線方程,二次回歸方程Y=b0+b1X+b2X2 MPG=52.54+(-0.012)weight+(7.60E-007)weight2 三次回

28、歸方程Y=b0+b1X+b2X2+b3X3 MPG=9.555+0.033weight+(-1.4E-005)weight2+(1.59E-009)weight3 復(fù)合曲線回歸方程Y=b0(b1X) MPG=60.15 (1.00weight),最終結(jié)果分析,首先,判讀三種模型的方差分析結(jié)果,如果模型沒有統(tǒng)計意義,那么即使它有最好的R2值,與其他呈顯著意義的模型進(jìn)行比較是沒有意義的。 由于方差分析結(jié)果表明三種模型都有統(tǒng)計意義,接下來對比三種模型(QUADRATIC、CUBIC、COMPOUND)判定系數(shù)R2的大小,從而來判定種最佳的模型,它們分別依次為0.656、O.686、0.708,這樣就

29、不難判定三種模型中擬和優(yōu)度依次為COMPOUND、CUBIC、QUADRATIC。,練習(xí)題 為研究抗生素頭孢哌酮對谷草桿菌的抑菌效果,經(jīng)實驗得到頭孢哌酮濃度(ug/ml)“x”與抑菌圈直徑(mm)“y”的數(shù)據(jù)見表,試做曲線擬合(curvefit.sav)。,頭孢哌酮濃度與抑菌圈直徑的實驗數(shù)據(jù),x(ug/ml): 2.5 5.0 7.5 10.0 15.0 20.0 25.0 30.0 35.0 40.0 50.0 60.0 y(mm): 7.0 8.0 9.1 10.1 10.6 11.8 12.0 11.8 12.5 13.3 13.9 15.6 x(ug/ml): 70.0 80.0 90

30、.0 100.0 110.0 120.0 130.0 140.0 150.0 160.0 170.0 y(mm): 15.5 16.7 16.2 16.9 16.8 16.9 17.2 17.0 17.4 18.3 18.4,主要輸出結(jié)果,模型擬合:先在主對話框選擇所有11種模型,根據(jù)結(jié)果選擇最佳模型。在11種模型的擬合結(jié)果中,所有模型均有顯著性意義(P=0.000),以Power(冥模型)和Cubic(三次模型)決定系數(shù)R2(R Square)最高,分別為0.987和0.984。本例選擇冥模型,回歸方程為: y=5.726(x0.229)。,三、 Logistic回歸分析,多元線性回歸要求Y

31、是呈正態(tài)分布的連續(xù)型隨機(jī)變量。難以處理因變量為二值變量的情況。在醫(yī)學(xué)中,存在很多二值化的狀態(tài),比如生存與死亡、感染與不感染、有效與無效、患病與不患病等等。這時,我們往往要分析生存與死亡或感染與不感染與哪些因素有關(guān)。而這些因素(自變量)可能是二值數(shù)據(jù)或等級分組資料或是計量資料,此時,可以使用logistic回歸來分析因變量(二值變量)與自變量的關(guān)系。,Logistic回歸分析,logistic回歸的基本概念: 設(shè)P表示某事件發(fā)生的概率,取值范圍為01,1P是該事件不發(fā)生的概率,將比值 P/(1P)取自然對數(shù)得ln(P/1P),即對P作logit轉(zhuǎn)換,記為logitP,則logitP的取值范圍在-

32、,+之間。以logitP為因變量,建立線形回歸方程: logitP =b0+bixi p=exp( b0 + bixi )/1+ exp (b0 + bixi ) OR=e=exp,Logistic回歸分析,可見:b0表示一個不接觸危險因素(自變量取值全為0時)的個體發(fā)病(死亡或感染)的比值的對數(shù)。b0是常數(shù)。 bi 表示危險因素改變一個單位時,比值的對數(shù)的改變量。bi稱為logistic回歸系數(shù)。,Logistic回歸分析,數(shù)據(jù)背景(data13-02) 北京醫(yī)科大學(xué)附屬人民醫(yī)院內(nèi)分泌科盧紋凱教授課題。頸總動脈中層厚度imt0.8mm或有斑塊定義為動脈硬化,因變量type值為1;非硬化imt

33、0.8mm且無斑塊,因變量type值為0。糖尿病患者123例數(shù)據(jù)。研究哪些指標(biāo)可以判斷糖尿病患者是否動脈硬化。自變量AGE年齡、ALB尿白蛋白、BMI體重指數(shù)、ISI胰島素敏感指數(shù)、SBP收縮壓、TG甘油三脂、CHO膽固醇、DURA糖尿病程。其中尿白蛋白、甘油三脂、膽固醇三項生化指標(biāo)在回歸估計過程中均使用他們的對數(shù)變量:ALBLN、TGLN、CHOLN。,Logistic回歸分析,Omnibusmnibs是模型總的全局檢驗,為似然比檢驗,共給出三個結(jié)果: Step統(tǒng)計量為每一步與前一步相比的似然比檢驗結(jié)果; Block統(tǒng)計量是指block 1與block 0相比的似然比檢驗結(jié)果; Model統(tǒng)

34、計量是上一個模型與現(xiàn)在方程中變量有變化后模型的似然比檢驗結(jié)果。,Logistic回歸分析,Model Summary是當(dāng)前模型貢獻(xiàn),當(dāng)前模型的-2倍的對數(shù)似然比(-2 Log likelihood)和決定系數(shù)(Cox & Snell R Square及Nagelkerke R Square),即表示回歸模型對因變量變異貢獻(xiàn)的大小。,Logistic回歸分析,第一步回歸方程是: Logit(p)=-7.5660.158age 即 P=exp(-7.5660.158age)/1+exp(-7.5660.158age) 最后的回歸方程為判斷頸總動脈是否硬化的概率值p表達(dá)為: P=exp(-15.24900.157age+1.070ALBLN+0.036SBP-0.130DURA) /1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論