醫(yī)學(xué)信息分析實(shí)習(xí)指導(dǎo)-回歸分析_第1頁(yè)
醫(yī)學(xué)信息分析實(shí)習(xí)指導(dǎo)-回歸分析_第2頁(yè)
醫(yī)學(xué)信息分析實(shí)習(xí)指導(dǎo)-回歸分析_第3頁(yè)
醫(yī)學(xué)信息分析實(shí)習(xí)指導(dǎo)-回歸分析_第4頁(yè)
醫(yī)學(xué)信息分析實(shí)習(xí)指導(dǎo)-回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩50頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、醫(yī)學(xué)信息分析實(shí)習(xí)指導(dǎo)回歸分析吉林大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)信息學(xué)系實(shí)習(xí)目的 掌握回歸分析的基礎(chǔ)理論知識(shí) 熟練應(yīng)用統(tǒng)計(jì)軟件進(jìn)行回歸分析回歸分析回歸分析是應(yīng)用極其廣泛的數(shù)據(jù)分析方法之一。它基于觀測(cè)數(shù)據(jù)建立變量間適當(dāng)?shù)囊蕾囮P(guān)系,以分析數(shù)據(jù)內(nèi)在規(guī)律,并可用于預(yù)測(cè)、控制等問(wèn)題。 一元線性回歸分析、多元線性回歸分析、 Logistic回歸分析回歸分析一元線性回歸 研究?jī)蓚€(gè)連續(xù)型變量之間線性依存關(guān)系回歸分析一元線性回歸 基本目的 用一個(gè)自變量X的數(shù)值估計(jì)反應(yīng)變量Y的平均水平 數(shù)學(xué)模型 其中,a為常數(shù)項(xiàng),也稱截距;b為自變量X的回 歸系數(shù)回歸分析一元線性回歸滿足一元線性回歸的基本條件:因變量 Y 與自變量 X 呈線

2、性關(guān)系; 每個(gè)個(gè)體觀察值之間相互獨(dú)立;任意給定X值,對(duì)應(yīng)的隨機(jī)變量Y都服從正態(tài)分布;不同的 X 值所對(duì)應(yīng)的隨機(jī)變量 Y 的方差相等?;貧w分析一元線性回歸 回歸參數(shù)的估計(jì)采用最小二乘法來(lái)估計(jì)未知參數(shù)回歸分析一元線性回歸 例1:10名20歲男青年身高(cm)與前臂長(zhǎng)(cm)如下, 試求直線回歸方程。身高的平均值=172.5 ;臂長(zhǎng)的平均值=45.4 =2.883 =172.5-2.88345.4=41.61 =41.61+2.883X身高(y)170173160155173188178183180165前臂長(zhǎng)(x)45424441475047464943回歸分析一元線性回歸回歸系數(shù)的假設(shè)檢驗(yàn) 即使

3、X、Y的總體回歸系數(shù)為零,由于抽樣誤差的存在,樣本回歸系數(shù)b 也不一定為零。因此需要對(duì)回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn),以此推斷X、Y是否存在直線關(guān)系??捎梅讲罘治龌騮檢驗(yàn)?;貧w分析多元線性回歸 研究一個(gè)連續(xù)型因變量和多個(gè)自變量之間的線性關(guān)系的統(tǒng)計(jì)學(xué)方法。其基本原理和方法與簡(jiǎn)單回歸完全一致。回歸分析多元線性回歸 基本目的 用一個(gè)以上的自變量X1,X2,Xp的數(shù)值估計(jì)反應(yīng)變量Y的平均水平 數(shù)學(xué)模型 其中,0為常數(shù)項(xiàng),也稱截距; j為自變量Xj的偏回歸系數(shù);而e則是除去p個(gè)自變量對(duì)Y影響后的隨機(jī)誤差,也稱殘差?;貧w分析多元線性回歸 回歸參數(shù)的估計(jì)多重線性回歸分析的前提條件完全與簡(jiǎn)單線性回歸的條件相同:線性、獨(dú)

4、立、正態(tài)和等方差。采用最小二乘法來(lái)估計(jì)未知參數(shù)回歸分析多元線性回歸例2 為了研究空氣中一氧化氮(NO)的濃度與汽車流量等因素的關(guān)系,有人測(cè)定了某城市交通點(diǎn)在單位時(shí)間內(nèi)過(guò)往的汽車數(shù)、氣溫、空氣濕度、風(fēng)速以及空氣中的NO的濃度,數(shù)據(jù)如下表所示:回歸分析多元線性回歸 由于計(jì)算量相當(dāng)大,一般都是依靠統(tǒng)計(jì)軟件來(lái)完成。對(duì)于例2的數(shù)據(jù),經(jīng)SPSS計(jì)算可獲得回歸方程:回歸分析多元線性回歸 多重線性回歸的假設(shè)檢驗(yàn)回歸方程檢驗(yàn)(方差分析)回歸分析多元線性回歸回歸系數(shù)的t檢驗(yàn) 這四個(gè)變量中,變量 X1 、X2和X4的偏回歸系數(shù)在0.05概率水平具有統(tǒng)計(jì)學(xué)意義,而氣濕(X3)對(duì)NO濃度的影響無(wú)統(tǒng)計(jì)學(xué)意義?;貧w分析多元

5、線性回歸 標(biāo)準(zhǔn)化偏回歸系數(shù)(standardized partial regression coefficient ) 標(biāo)準(zhǔn)化偏回歸系數(shù)(沒(méi)有單位)較大的自變量在數(shù)值上對(duì)反應(yīng)變量Y的影響較大。回歸分析多元線性回歸 決定系數(shù) 用以反映線性回歸模型能在多大程度上解釋反應(yīng)變量Y的變異性。取值范圍為0R21,越接近1,說(shuō)明樣本數(shù)據(jù)越好的擬合了所選用的線性回歸模型?;貧w分析多元線性回歸 例1中R2=0.7874說(shuō)明用包含汽車流量、氣溫、氣濕與風(fēng)速這四個(gè)變量的回歸方程可以解釋交通點(diǎn)空氣NO濃度變異性的78.74%自變量的篩選 為確?;貧w方程盡可能的包含對(duì)反應(yīng)變量有較大貢獻(xiàn)的自變量,而把貢獻(xiàn)不大或可有可無(wú)的

6、自變量排除在方程之外,這一過(guò)程稱為自變量的篩選。自變量篩選的常用方法 前向選擇(forward selection) 后向選擇(backward selection) 逐步選擇(stepwise selection)前向選擇 或稱向前選擇法。該方法從僅含常數(shù)項(xiàng)的模型開(kāi)始,每次加一個(gè)變量到模型中,直到剩下的變量中再無(wú)具有統(tǒng)計(jì)學(xué)意義的新變量可以引入為止。后向選擇 首先建立包含所有p個(gè)自變量的全模型,每次循環(huán)剔除一個(gè)對(duì)模型貢獻(xiàn)最可忽略的變量。如此反復(fù),直到再?zèng)]有任何不具有統(tǒng)計(jì)學(xué)意義的新變量可以剔除時(shí)為止。逐步選擇逐步選擇法又稱逐步回歸,取上述兩種方法的優(yōu)點(diǎn),在向前引入每一個(gè)新自變量之后都要重新對(duì)前已

7、選入的自變量進(jìn)行檢查,以評(píng)價(jià)其有無(wú)繼續(xù)保留在方程中的價(jià)值。為此引入和剔除交替進(jìn)行,直到無(wú)具有統(tǒng)計(jì)學(xué)意義的新變量可以引入也無(wú)自變量可以剔除時(shí)為止。 一般來(lái)說(shuō),不同準(zhǔn)則、不同方法選擇自變量的結(jié)果未必相同;最后需要參考所有結(jié)果,根據(jù)專業(yè)知識(shí)決定取舍。 本例采用不同的準(zhǔn)則和方法恰好獲得了同樣的結(jié)果:回歸分析Logistic回歸分析 基本目的 分析某個(gè)二分類(或多分類)因變量與多個(gè)自變量(包括分類變量、等級(jí)變量和數(shù)值變量)間依存關(guān)系 數(shù)學(xué)模型 其中,P表示在自變量的作用下事件發(fā)生陽(yáng)性結(jié)果的概率;常數(shù)項(xiàng) 表示沒(méi)有其他因素影響時(shí)事件發(fā)生陽(yáng)性結(jié)果與陰性結(jié)果概率之比的自然對(duì)數(shù)?;貧w系數(shù) 表示自變量 改變一個(gè)單位

8、 logit P 的改變量。如何利用SPSS進(jìn)行回歸分析?一元線性回歸多元線性回歸 SPSS通過(guò)Analyze Regression Linear完成對(duì)某資料的線性回歸分析。一元線性回歸分析建立數(shù)據(jù)文件(見(jiàn)一元線性回歸.sav)正態(tài)性檢驗(yàn)及繪制散點(diǎn)圖 利用One-Sample Kolmogorov-Smirnov Test分別對(duì)發(fā)硒變量 (hairsi)和血硒變量(bloodsi)做正態(tài)性檢驗(yàn),其結(jié)果見(jiàn) 表1。結(jié)果表明兩變量均服從正態(tài)分布。 使用Graphs Scatter/Dot選擇Simple Scatter Define 打開(kāi)Simple Scatterplot對(duì)話框,將bloodsi變

9、量調(diào)入Y Axis:欄中,將hairsi變量調(diào)入X Axis:欄中, OK完成散點(diǎn)圖的繪制。從圖1上可以看出發(fā)硒與血硒存在直線變化趨勢(shì)。輸出結(jié)果表 1圖 1一元線性回歸分析直線回歸 Analyze Regression Linear打開(kāi)Linear Regression對(duì)話框,將bloodsi變量調(diào)入Dependent:欄中,將hairsi變量調(diào)入Independent(s):欄中, OK完成。輸出結(jié)果表 2表 3F=34.156,P 0.05。說(shuō)明二者均無(wú)統(tǒng)計(jì)學(xué)意義。Standardized Coefficient 標(biāo)準(zhǔn)化系數(shù)多元線性回歸分析多元線性回歸分析(調(diào)整) 由于出現(xiàn)兩個(gè)沒(méi)有統(tǒng)計(jì)學(xué)意

10、義的自變量( x1與x3),因此在調(diào)整自變量的組成時(shí),最佳策略是首先把最沒(méi)意義的變量( x3 )去掉,由其余變量( x1與x2 )再重做多元線性回歸分析。輸出結(jié)果復(fù)相關(guān)系數(shù)R = 0.799表 10表 11輸出結(jié)果表 12表 13鈣(X1)與鐵(X2)的P均 0.05。說(shuō)明二者都有統(tǒng)計(jì)學(xué)意義。多元線性回歸分析本例最后得到的優(yōu)化的多元回歸方程為: 注意:在比較x1與x2 的系數(shù)(0.053與0.032)對(duì)因變量的作用時(shí),不能直接比,而應(yīng)該選用標(biāo)準(zhǔn)化系數(shù)( Standardized Coefficient )進(jìn)行比較。x1與x2 的標(biāo)準(zhǔn)化系數(shù)分別為0.323和0.821,說(shuō)明x2對(duì)因變量的作用要大

11、于x1。多元逐步回歸由于多元線性回歸分析是研究一個(gè)因變量和多個(gè)自變量之間線性依存關(guān)系,而在多個(gè)自變量中,不一定每一個(gè)變量對(duì)因變量的影響都有統(tǒng)計(jì)學(xué)意義,因此需要通過(guò)某種方法尋找出一個(gè)最優(yōu)化的多元回歸方程,即能夠使方程中的每一個(gè)自變量對(duì)因變量的影響都有統(tǒng)計(jì)學(xué)意義。 多元逐步回歸就是一個(gè)利用逐步(stepwise)選擇有統(tǒng)計(jì)學(xué)意義的自變量的過(guò)程來(lái)獲得最優(yōu)化的多元回歸方程的統(tǒng)計(jì)學(xué)方法。多元逐步回歸 打開(kāi)數(shù)據(jù)文件(見(jiàn)多元線性回歸.sav) 多元逐步回歸分析( Stepwise ) Analyze Regression Linear打開(kāi)Linear Regression對(duì)話框,將y變量(血紅蛋白)調(diào)入De

12、pendent:欄中,將x1、x2、x3變量(鈣、鐵、錳)調(diào)入Independent(s):欄中,在Method:下拉框中點(diǎn)擊選擇stepwise ,OK完成。多元逐步回歸結(jié)果判讀 輸出結(jié)果見(jiàn)表1417。 表14中顯示了多元逐步回歸的步驟。第一步引進(jìn)自變量x2 , 第二步引進(jìn)自變量x1 。二者使用的準(zhǔn)則(Criteria)都是:引進(jìn)的概率P0.050,剔除的概率P0.100 。 表15顯示了第一步引進(jìn)自變量x2 ,R2=0.542;第二步引進(jìn)自變量x2和 x1,R2=0.639。 輸出結(jié)果表 14表 15多元逐步回歸結(jié)果判讀 表16顯示了第一步引進(jìn)自變量x2 后的回歸方程有意義 (F=21.2

13、65,P 0.001 );第二步引進(jìn)自變量x2和 x1后的回歸方 程也有意義(F=15.023,P 0.001 )。 表17顯示了第一步引進(jìn)自變量x2 后的回歸方程中相應(yīng)系數(shù)的大 小及其假設(shè)檢驗(yàn)的結(jié)果( x2 的系數(shù)b2=0.029, P0.001 ;常數(shù)項(xiàng)的 系數(shù) b0=-0.242,P=0.927); 第二步引進(jìn)自變量x2和 x1后的回歸方程中相應(yīng)系數(shù)的大小及其假 設(shè)檢驗(yàn)的結(jié)果( x2 的系數(shù)b2=0.032,P0.001 ;x1 的系數(shù)b1=-0.053, P=0.047;常數(shù)項(xiàng)的系數(shù) b0=1.567, P=0.542)。故本例題的回歸方 程為:輸出結(jié)果表 16輸出結(jié)果表 17多元線性

14、回歸分析 練習(xí)2:數(shù)據(jù)文件meaning in life.sav為30名大學(xué)生的生活意義(y)、溝通能力(x1)、樂(lè)觀積極(x2)和學(xué)術(shù)成功(x3)的得分值,利用spss完成線性回歸分析(Stepwise方法 )。 (1)寫出具有統(tǒng)計(jì)學(xué)意義的回歸方程; (2)回答該回歸方程的自變量能夠解釋生活意義得分變異的百分比; (3)比較各個(gè)自變量對(duì)生活意義得分的作用大??; (4)寫出操作過(guò)程。 結(jié)果寫在實(shí)驗(yàn)報(bào)告上Logistic回歸分析建立數(shù)據(jù)文件(見(jiàn)Logistic回歸.sav)Logistic回歸分析 SPSS通過(guò)Analyze Regression Binary Logistic 命令完成二分類的因變量的Logistic回歸。 SPSS通過(guò)Analyze Regression Multinomial Logistic 命令完成多分類的因變量的Logist

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論