基本統(tǒng)計分析功能_第1頁
基本統(tǒng)計分析功能_第2頁
基本統(tǒng)計分析功能_第3頁
基本統(tǒng)計分析功能_第4頁
基本統(tǒng)計分析功能_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

變量之間的聯(lián)系確定型的關系:指某一個或某幾個現(xiàn)象的變動必然會引起另一個現(xiàn)象確定的變動,他們之間的關系可以使用數(shù)學函數(shù)式確切地表達出來,即y=f(x)。當知道x的數(shù)值時,就可以計算出確切的y值來。如圓的周長與半徑的關系:周長=2πr。非確定關系:例如,在發(fā)育階段,隨年齡的增長,人的身高會增加。但不能根據年齡找到確定的身高,即不能得出11歲兒童身高一定就是1.40米公分。年齡與身高的關系不能用一般的函數(shù)關系來表達。研究變量之間既存在又不確定的相互關系及其密切程度的分析稱為相關分析。回歸分析如果把其中的一些因素作為自變量,而另一些隨自變量的變化而變化的變量作為因變量,研究他們之間的非確定因果關系,這種分析就稱為回歸分析?;貧w分析是研究一個自變量或多個自變量與一個因變量之間是否存在某種線性關系或非線性關系的一種統(tǒng)計學方法?;貧w分析線性回歸分析;曲線回歸分析;二維Logistic回歸分析;多維Logistic回歸分析;概率單位回歸分析;非線性回歸分析;權重估計分析;二階段最小二乘分析;最優(yōu)尺度回歸。一、線性回歸(一)一元線性回歸方程直線回歸分析的任務就是根據若干個觀測(xi,yi)i=1~n找出描述兩個變量x、y之間關系的直線回歸方程y^=a+bx。y^是變量y的估計值。求直線回歸方程y^=a+bx,實際上是用回歸直線擬合散點圖中的各觀測點。常用的方法是最小二乘法。也就是使該直線與各點的縱向垂直距離最小。即使實測值y與回歸直線y^之差的平方和Σ(y-y^)2達到最小。Σ(y-y^)2也稱為剩余(殘差)平方和。因此求回歸方程y^=a+bx的問題,歸根到底就是求Σ(y-y^)2取得最小值時a和b的問題。a稱為截距,b為回歸直線的斜率,也稱回歸系數(shù)。1、一元線性回歸方程的適用條件線形趨勢:自變量與因變量的關系是線形的,如果不是,則不能采用線性回歸來分析。獨立性:可表述為因變量y的取值相互獨立,它們之間沒有聯(lián)系。反映到模型中,實際上就是要求殘差間相互獨立,不存在自相關。正態(tài)性:自變量x的任何一個線形組合,因變量y均服從正態(tài)分布,反映到模型中,實際上就是要求隨機誤差項εi服從正態(tài)分布。方差齊性:自變量的任何一個線形組合,因變量y的方差均齊性,實質就是要求殘差的方差齊。2、一元線性回歸方程的檢驗檢驗的假設是總體回歸系數(shù)為0。另外要檢驗回歸方程對因變量的預測效果如何。(1)回歸系數(shù)的顯著性檢驗對斜率的檢驗,假設是:總體回歸系數(shù)為0。檢驗該假設的t值計算公式是;t=b/SEb,其中SEb是回歸系數(shù)的標準誤。對截距的檢驗,假設是:總體回歸方程截距a=0。檢驗該假設的t值計算公式是:t=a/SEa,其中SEa是截距的標準誤。

(2)R2判定系數(shù)在判定一個線性回歸直線的擬合度的好壞時,R2系數(shù)是一個重要的判定指標。

R2判定系數(shù)等于回歸平方和在總平方和中所占的比率,即R2體現(xiàn)了回歸模型所能解釋的因變量變異性的百分比。如果R2=0.775,則說明變量y的變異中有77.5%是由變量X引起的。當R2=1時,表示所有的觀測點全部落在回歸直線上。當R2=0時,表示自變量與因變量無線性關系。為了盡可能準確的反應模型的擬合度,SPSS輸出中的AdjustedRSquare是消除了自變量個數(shù)影響的R2的修正值。(3)方差分析體現(xiàn)因變量觀測值與均值之間的差異的偏差平方和SSt是由兩個部分組成:SSt=SSr+SSeSSr:回歸平方和,反應了自變量X的重要程度;SSe:殘差平方和,它反應了實驗誤差以及其他意外因素對實驗結果的影響。這兩部分除以各自的自由度,得到它們的均方。統(tǒng)計量F=回歸均方/殘差均方。當F值很大時,拒絕接受b=0的假設。(4)Durbin-Watson檢驗回歸模型的診斷中,要診斷回歸模型中誤差項的獨立性。如果誤差項不獨立,那么對回歸模型的任何估計與假設所作出的結論都是不可靠的。其參數(shù)稱為DW或D。D的取值范圍是0<D<4,統(tǒng)計學意義如下:①當殘差與自變量互為獨立時D≈2;③當相鄰兩點的殘差為正相關時,D<2;③當相鄰兩點的殘差為負相關時,D>2

(5)殘差圖示法在直角坐標系中,以預測值y^為橫軸,以y與y^之間的誤差et為縱軸(或學生化殘差),繪制殘差的散點圖。如果散點呈現(xiàn)出明顯的規(guī)律性則,認為存在自相關性或者非線性或者非常數(shù)方差的問題。(二)多元線性回歸

1.多元線性回歸的概念多元線性回歸:根據多個自變量的最優(yōu)組合建立回歸方程來預測因變量的回歸分析稱為多元回歸分析。多元回歸分析的模型為:y^=b0+b1x1+b2x2+····+bnxn

其中y^為根據所有自變量x計算出的估計值,b0為常數(shù)項,b1、b2····bn稱為y對應于x1、x2···xn的偏回歸系數(shù)。偏回歸系數(shù)表示假設在其他所有自變量不變的情況下,某一個自變量變化引起因變量變化的比率。多元線性回歸模型也必須滿足一元線性回歸方程中所述的假設理論。2.多元線性回歸分析中的參數(shù)(l)復相關系數(shù)R復相關系數(shù)表示因變量y與他的自變量xi

之間線性相關密切程度的指標,亦即觀察Y與Y^之間的相關程度,復相關系數(shù)使用字母R表示。復相關系數(shù)的取值范圍在0-1之間。其值越接近1表示其線性關系越強,越接近0表示線性關系越差。(2)R2判定系數(shù)與經調整的判定系數(shù)與一元回歸方程相同,在多元回歸中也使用判定系數(shù)R2來解釋回歸模型中自變量的變異在因變量變異中所占比率。但是,判定系數(shù)的值隨著進入回歸方程的自變量的個數(shù)(或樣本容量的大小n)的增加而增大。因此,為了消除自變量的個數(shù)以及樣本量的大小對判定系數(shù)的影響,引進了經調整的判定系數(shù)(AdjustedRSquare)。K為自變量的個數(shù),n為觀測量數(shù)目。自變量的個數(shù)大于1時,其值小于判定系數(shù)。自變量個數(shù)越多,與判定系數(shù)的差值越大。(3)零階相關系數(shù)、部分相關與偏相關系數(shù)零階相關系數(shù)(Zero-Order)各自變量與因變量之間的簡單相關系數(shù)。部分相關系數(shù)(PartCorrelation)表示:在排除了其他自變量對xi的影響后,當一個自變量進入回歸方程模型后,復相關系數(shù)的平方增加量。偏相關系數(shù)(PartialCorrelation)表示:在排除了其他變量的影響后;自變量Xi與因變量y之間的相關程度。部分相關系數(shù)小于偏相關系數(shù)。偏相關系數(shù)也可以用來作為篩選自變量的指標,即通過比較偏相關系數(shù)的大小判別哪些變量對因變量具有較大的影響力。3、多元線性回歸分析的檢驗

建立了多元回歸方程后,需要進行顯著性檢驗,以確認建立的數(shù)學模型是否很好的擬和了原始數(shù)據,即該回歸方程是否有效。利用殘差分析,確定回歸方程是否違反了假設理論。對方程式中各自變量的系數(shù)進行檢驗。其假設是總體的回歸方程自變量系數(shù)或常數(shù)項為0。以便在回歸方程中保留對因變量y值預測更有效的自變量。(l)方差分析多元回歸方程也采用方差分析方法對回歸方程進行檢驗,檢驗的H0假設是總體的回歸系數(shù)均為0(無效假設),H1假設是總體的回歸系數(shù)不全為0(備選假設)。它是對整個回歸方程的顯著性檢驗。使用統(tǒng)計量F進行檢驗。原理與一元回歸的方程分析原理相同。(2)偏回歸系數(shù)與常數(shù)項的檢驗在多元回歸分析中,可能有的自變量對因變量的影響很強,而有的影響很弱,甚至完全沒有作用,這樣就有必要對自變量進行選擇,使回歸方程中只包含對因變量有統(tǒng)計學意義的自變量;檢驗的假設是:各自變量偏回歸系數(shù)為0,常數(shù)項為0。它使用的統(tǒng)計量是t;t=偏回歸系數(shù)/偏回歸系數(shù)的標準誤(3)方差齊性檢驗方差齊性是指殘差的分布是常數(shù),與自變量或因變量無關。一般是繪制因變量預測值與學生殘差的散點圖來檢驗。殘差應隨機的分布在一條穿過0點的水平直線的兩側。在實際應用中,在線性回歸Plots對話框中的源變量表中,選擇SRESID(學生氏殘差)做Y軸;選擇ZPRED(標準化預測值)做X軸就可以在執(zhí)行后的輸出信息中顯示檢驗方差齊性的散點圖。共線性診斷在回歸方程中,雖然各自變量對因變量都是有意義的,但某些自變量彼此相關,即存在共線性的問題。給評價自變量的貢獻率帶來困難。因此,需要對回歸方程中的變量進行共線性診斷;并且確定它們對參數(shù)估計的影響。當一組自變量精確共線性時,必須刪除引起共線性的一個和多個自變量,否則不存在系數(shù)唯一的最小二乘估計。因為刪除的自變量并不包含任何多余的信息,所以得出的回歸方程并沒有失去什么。當共線性為近似時,一般是將引起共線性的自變量刪除,但需要掌握的原則是:務必使丟失的信息最少。

在只有兩個自變量的情況下,自變量X1與X2之間共線性體現(xiàn)在兩變量間相關系數(shù)r12上。精確共線性時對應r122=1,當它們之間不存在共線性時r122=0。r122越接近于1,共線性越強。多于兩個自變量的情況,Xi與其他自變量X之間的復相關系數(shù)的平方體現(xiàn)其共線性,稱它為Ri2。它的值越接近1,說明自變量之間的共線性程度越大。

進行共線性診斷常用的參數(shù)(l)容許度(Tolerance)容許度定義為Toli=l一Ri2當容許度的值較小時,自變量Xi與其他自變量X之間存在共線性。使用容許度作為共線性量度指標的條件是,觀測量應大致近似于正態(tài)分布。(2)方差膨脹因子(VIF)方差膨脹因于(VIF)定義為VIF=1/(l一Ri2),即它是容許度的倒數(shù)。它的值越大,自變量之間存在共線性的可能性越大。

(3)條件指數(shù)(ConditionIndex)條件參數(shù)是在計算特征值時產生的一個統(tǒng)計量,其數(shù)值越大,說明自變量之間的共線性的可能性越大;一般認為,條件參數(shù)≥15時認為有共線性存在的可能性,特征值(Eigenvalue)如果很小,就應該懷疑共線性的存在。

例題測得97名成年男性血常規(guī)和血清生化指標11項,分別是rbc(紅細胞),hb(血紅蛋白),wbc(白細胞),plt(血小板),tbil(直接膽紅素),alt(谷丙轉氨酶),ast(谷草轉氨酶),alp(堿性磷酸酶),bun(尿素氮),cr(肌酐),見數(shù)據文件regression.sav。試以hb(血紅蛋白)為因變量,其他為自變量進行回歸。Regression.sav1.變量間線性關系的初步探索在獲得數(shù)據后,應將所得到的數(shù)據繪圖,探索因變量隨自變量變化的趨勢。以便確定數(shù)據是否適合線性模型。如果數(shù)據之間大致呈線性關系,可以建立線性回歸方程。如果圖中數(shù)據不呈線性分布,那么還可以根據其他回歸方程模型的觀測量分布圖形特點以及建立各方程后所得的判定系數(shù)R2進行比較后確定一種最佳模型。見曲線擬合及非線性回歸。通過散點圖還可以發(fā)現(xiàn)奇異值。2、選擇自變量和因變量3、選擇回歸分析方法

Enter選項,強行進入法,即所選擇的自變量全部進人回歸模型,該選項是默認方式。

Remove選項,消去法,建立的回歸方程時,根據設定的條件剔除部分自變量。選擇回歸分析方法

Forward選項,向前選擇法,根據在option對話框中所設定的判據,從無自變量開始。在擬合過程中,對被選擇的自變量進行方差分析,每次加入一個F值最大的變量,直至所有符合判據的變量都進入模型為止。第一個引入歸模型的變量應該與因變量間相關系數(shù)絕對值最大。選擇回歸分析方法

Backward選項,向后剔除法,根據在option對話框中所設定的判據,先建立全模型,然后根據設置的判據,每次剔除一個使方差分析中的F值最小的自變量,直到回歸方程中不再含有不符合判據的自變量為止。選擇回歸分析方法

Stepwise選項,逐步進入法,它是向前選擇變量法與向后剔除變量方法的結合。根據在option對話框中所設定的判據,首先根據方差分析結果選擇符合判據的自變量且對因變量貢獻最大的進入回歸方程。根據向前選擇變量法則選入變量。然后根據向后剔除法,將模型中F值最小的且符合剔除判據的變量剔除出模型,重復進行直到回歸方程中的自變量均符合進入模型的判據,模型外的自變量都不符合進入模型的判據為止。4、選擇參與回歸的觀測量根據變量值選擇參與回歸分析的觀測量,將作為參照的變量進入SelectionVariable框中,單擊Rule按鈕。打開SetRule對話框。5、Statistics按鈕Estimates:輸出一般回歸系數(shù)B、B的標準誤、標準回歸系數(shù)beta、B的t值及t值的雙側檢驗的顯著性水平;Confidenceinterval:輸出一般回歸系數(shù)95%的可信區(qū)間;Covariancemaxtrix:輸出非標準化回歸系數(shù)的協(xié)方差矩陣、各變量的相關系數(shù)矩陣;Modelfit(模型擬合):模型檢驗,輸出復相關系數(shù)R,判定系數(shù)R2、調整的判定系數(shù),方差分析表;Rsquaredchange:表示回歸方差中引入或剔除一個自變量后的R2變化量;Descriptives:輸出每個變量的平均值、標準差、樣本數(shù)、相關系數(shù)矩陣和單側檢驗顯著性水平Partandpartialcorrelations:輸出部分相關系數(shù)、偏相關系數(shù)、零階相關系數(shù);Collinearitydiagnostics:輸出方差膨脹因子及特征值;Durbin-Watson:輸出Durbin-Watson統(tǒng)計量及可能的奇異值;Casewisediagnostics:個體診斷,給出殘差和預測值,標準化殘差和預測值。6、plot按鈕Dependent:因變量;ZPRED:標準化預測值ZRESID:標準化殘差DRESID:剔除殘差ADJPRED:修正后預測值SRESID:學生化殘差SDRESID:學生化剔除殘差plot按鈕Histogrom:輸出帶有正態(tài)曲線的標準化殘差的直方圖;Normalprobabilityplot:殘差的正態(tài)概率圖,檢查殘差的正態(tài)性;Produceallpartialplots:輸出每一個自變量殘差相對于因變量殘差的散布圖。Option按鈕Steppingmethodcriteria(設置變量引入模型或從模型中剔除的判據)UseprobabilityofF:采用F值所對應的P值作為變量引入模型或從模型中剔除的判據。Entry:0.05回歸模型檢驗時,若P≤0.05該變量被引入方程;Removal:0.10當回歸模型檢驗時,若P≥0.10該變量從回歸方程剔除。Option按鈕UseFvalues(采用F值作為變量引入模型或從模型中剔除的判據)Entry:當一個變量的F值≥3.84時該變量被引入方程;Removal:當一個變量的F值≤2.71時該變量從回歸方程剔除。練習題1Data09-03美國某銀行雇員情況調查,建立一個使用初始工資(salbegin)、工作經驗(prevexp)、工作時間(jobtime)、工作類型(jobcat)、受教育年限(educ)預測當前工資(salary)的回歸方程。二、曲線回歸分析線性回歸可以滿足許多數(shù)據分析,然而線性回歸不會對所有的問題都適用,有時因變量與自變量是通過一個已知或未知的非線性函數(shù)關系相聯(lián)系。盡管有可能通過一些函數(shù)的轉換方法,在一定范圍內將它們轉變?yōu)榫€性關系,但這種轉換有可能導致更為復雜的計算或數(shù)據失真。曲線回歸分析在很多情況下有兩個相關的變量,用戶希望利用其中的一個變量對另一個變量進行預測,此時可采用的方法也很多;從簡單的直線模型到復雜的時間序列模型。如果不能馬上根據觀測量數(shù)據確定一種最佳模型,可以利用曲線估計在眾多的回歸模型中來建立一個簡單而又比較適合的模型。曲線回歸分析線形回歸方程Y=b0+b1X二次回歸方程Y=b0+b1X+b2X2復合曲線回歸方程Y=b0(b1X)生長回歸方程對數(shù)回歸方程三次回歸方程Y=b0+b1X+b2X2+b3X3例題為研究抗生素頭孢派酮濃度(ug/ml)“x”與抑菌圈直徑“y”的數(shù)據見下表,試做曲線擬合。數(shù)據文件curvefit.sav練習題汽車每加侖汽油行駛的里程數(shù)(mpg)與汽車重量(weight)建立回歸方程。Data13-01三、Logistic回歸分析

多元線性回歸要求Y是呈正態(tài)分布的連續(xù)型隨機變量。難以處理因變量為二值變量的情況。在醫(yī)學中,存在很多二值化的狀態(tài),比如生存與死亡、感染與不感染、有效與無效、患病與不患病等等。這時,我們往往要分析生存與死亡或感染與不感染與哪些因素有關。而這些因素(自變量)可能是二值數(shù)據或等級分組資料或是計量資料,此時,可以使用logistic回歸來分析因變量(二值變量)與自變量的關系。

Logistic回歸分析logistic回歸的基本概念:設P表示某事件發(fā)生的概率,取值范圍為0~1,1-P是該事件不發(fā)生的概率,將比值P/(1-P)取自然對數(shù)得ln(P/1-P),即對P作logit轉換,記為logitP,則logitP的取值范圍在-∝,+∝之間。以logitP為因變量,建立線形回歸方程:

logitP=b0+∑bixip=exp(b0+∑bixi

)/[1+exp(b0+∑bixi)]OR=eв=expвLogistic回歸分析可見:b0表示一個不接觸危險因素(自變量取值全為0時)的個體發(fā)病(死亡或感染)的比值的對數(shù)。b0是常數(shù)。

bi

表示危險因素改變一個單位時,比值的對數(shù)的改變量。bi稱為logistic回歸系數(shù)。例題為研究急性腎衰竭(AFR)患者死亡的危險因素,經回顧性調查,獲得某醫(yī)院1990~2000年中所有發(fā)生AFR的422名患者的臨床資料數(shù)據見數(shù)據文件logistic.sav。本資料共涉及29個變量,分別為:sex、age、社會支持、慢性病、手術、糖尿病、腫瘤、動脈硬化、器官移植、cr(血肌酐)、hg(血紅蛋白)、腎毒性、少尿、lbp、黃疸、昏迷、輔助呼吸、心衰、肝衰、出血、呼衰、器官衰竭、胰腺炎、dic、敗血癥、感染、hbp、透析方式、死亡。其中,多分類變量有器官衰竭和透析方式,分別有6個水平和4個水平;定量變量age、cr、hg;其余均為二分類變量。數(shù)據背景(data13-02)北京醫(yī)科大學附屬人民醫(yī)院內分泌科盧紋凱教授課題。頸總動脈中層厚度imt>0.8mm或有斑塊定義為動脈硬化,因變量type值為1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論