雙變量回歸與相關_第1頁
雙變量回歸與相關_第2頁
雙變量回歸與相關_第3頁
雙變量回歸與相關_第4頁
雙變量回歸與相關_第5頁
已閱讀5頁,還剩91頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1021雙變量回歸與相關1022雙變量計量資料:雙變量計量資料:每個個體有兩個變量值每個個體有兩個變量值 總體:總體:無限或有限對變量值無限或有限對變量值 樣本:樣本:從總體隨機抽取的從總體隨機抽取的n n對變量值對變量值 (X1,Y1), (X2,Y2), , (Xn,Yn) 目的:目的:研究研究X X和和Y Y的數(shù)量關系的數(shù)量關系 方法:方法:回歸與相關回歸與相關 簡單、基本簡單、基本直線回歸、直線相關直線回歸、直線相關1023第一節(jié) 直線回歸1024一、直線回歸的概念 目的:目的:研究應變量研究應變量Y對自變量對自變量X的數(shù)量依的數(shù)量依 存關系。存關系。特點:特點:統(tǒng)計關系。統(tǒng)計關系。

2、X值和值和Y的均數(shù)的關系,的均數(shù)的關系, 不同于一般數(shù)學上的不同于一般數(shù)學上的X 和和Y的函數(shù)的函數(shù) 關系。關系。1025 例9-1 某地方病研究所調查了8名正常兒童的尿肌酐含量(mmol/24h)如表9-1。估計尿肌酐含量(Y)對其年齡(X)的回歸方程。1026 表表9-1 8名正常兒童的年齡名正常兒童的年齡 (歲)與尿肌酐含量(歲)與尿肌酐含量 (mmol/24h) XY編 號 1 2 3 4 5 6 7 8 年齡 X 13 11 9 6 8 10 12 7 尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65 10271028 在定量描述兒童年齡與

3、其尿肌酐含量數(shù)量上的依存關系時,將年齡稱為自變量(independent variable),用 X 表示;尿肌酐含量稱為應變量(dependent variable),用 Y 表示。1029 由圖9-1可見,尿肌酐含量 Y 隨年齡 X 增加而增大且呈直線趨勢,但并非8個點子恰好全都在一直線上,此與兩變量間嚴格的直線函數(shù)關系不同,稱為直線回歸(linear regression),其方程叫其方程叫直線回歸方程直線回歸方程,以區(qū)別嚴格意義的直線方程。以區(qū)別嚴格意義的直線方程。 雙變量雙變量直線直線回歸回歸是回歸分析中最基本、最簡單的是回歸分析中最基本、最簡單的一種,故又稱一種,故又稱簡單回歸簡單

4、回歸。10210 (9 1)YabX直線回歸方程的一般表達式為直線回歸方程的一般表達式為 Y 為各X處Y的總體均數(shù)的估計。102111a 為回歸直線在為回歸直線在 Y 軸上的截距。軸上的截距。a 0,表示直線與,表示直線與縱軸的交點在原點的縱軸的交點在原點的上方;上方;a 0,則交點在原,則交點在原點的下方;點的下方;a = 0,則回歸直線,則回歸直線通過原點。通過原點。0a = 0a 0XY10212b0,直線從左下方走向,直線從左下方走向右上方,右上方,Y 隨隨 X 增大而增大而增大;增大; b0b0b=010213公式(9-1)稱為樣本回歸方程,它是對兩變量總體間線性關系的一個估計。根據(jù)

5、散點圖我們可以假定, 對于X各個取值,相應Y的總體均數(shù)|Y X在一條直線上(圖 9-2) ,表示為 | (92) Y XX1021410215二、直線回歸方程的求法 殘差(residual)或剩余值,即實測值Y與假定回歸線上的 估 計 值 的 縱 向 距離 。求解a、b實際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點分布趨勢的直線。YYY原則:最小二乘法(least sum of squares),即可保證各實測點至直線的縱向距離的平方和最?。╔,Y)10216式式 中中X Yl為為X 與與Y 的的 離離 均均 差差 乘乘 積積 和和 : ()()()() (9 5)XYlX X Y YXYXY

6、n 2()()()XYXXXXYYlblXX (9-3) (9-4) aYbX10217除了圖中所示兩變量呈直線關系外,一般還假定每個X對應Y的總體為正態(tài)分布,各個正態(tài)分布的總體方差相等且各次觀測相互獨立。這樣,公式(9-1)中的Y實際上是X所對應Y的總體均數(shù)|Y X的一個樣本估計值, 稱為回歸方程的預測值(predicted value),而a、b分別為和的樣本估計。 10218 例9-1 某地方病研究所調查了8名正常兒童的尿肌酐含量(mmol/24h)如表9-1。估計尿肌酐含量(Y)對其年齡(X)的回歸方程。10219 表表9-1 8名正常兒童的年齡名正常兒童的年齡 (歲)與尿肌酐含量(歲

7、)與尿肌酐含量 (mmol/24h) XY編 號 1 2 3 4 5 6 7 8 年齡 X 13 11 9 6 8 10 12 7 尿肌酐含量Y 3.54 3.01 3.09 2.48 2.56 3.36 3.18 2.65 102201由原始數(shù)據(jù)及散點圖(圖 9-1)的觀察,兩變量間呈直線趨勢,故作下列計算。 2計算X、Y的均數(shù)X、Y,離均差平方和XXl、YYl與離均差積和XYl。 解題步驟102213計算有關指標 769.58XXn 23.872.98388YYn 222()(76)764428XXXlXn 222()(23.87)72.26831.04628YYYlYn ()()(76)

8、(23.87)232.615.84508XYXYlXYn 1022210223 此直線必然通過點此直線必然通過點( , )( , )且與縱坐標軸且與縱坐標軸相交于截距相交于截距 a a 。如果散點圖沒有從坐標系原。如果散點圖沒有從坐標系原點開始,可在自變量實測范圍內遠端取易于讀點開始,可在自變量實測范圍內遠端取易于讀數(shù)的數(shù)的 X X 值代入回歸方程得到一個點的坐標,值代入回歸方程得到一個點的坐標,連接此點與點連接此點與點( , )( , )也可繪出回歸直線。也可繪出回歸直線。 XYXY1022410225三、直線回歸中的統(tǒng)計推斷10226(一)回歸方程的假設檢驗 建立樣本直線回歸方程,只是完成

9、了統(tǒng)計分析中兩變量關系的統(tǒng)計描述,研究者還須回答它所來自的總體的直線回歸關系是否確實存在,即是否對總體有 ?01022710228如 圖 9-3 中 , 無 論X如 何 取 值 ,|Y X總 在 一 條水 平 線 上 , 即0, 總 體 直 線 回 歸 方 程 并 不 成 立 ,意 即Y與X無 直 線 關 系 , 此 時|Y XY。 然 而 在 一次 隨 機 抽 樣 中 ,如 果 所 得 樣 本 為 實 心 園 點 所 示 ,則會 得 到 一 個 并 不 等 于0 的 樣 本 回 歸 系 數(shù)b。b與0相 差 到 多 大 可 以 認 為 具 有 統(tǒng) 計 學 意 義 ? 可 用 方 差分 析 或

10、與 其 等 價 的 t 檢 驗 來 回 答 這 一 問 題 。 10229 理 解 回 歸 中 方 差 分 析 的 基 本 思 想 ,需 要 對 應 變 量Y的 離 均 差 平 方 和YYl作 分解 ( 如 圖 9-4 所 示 ) 。 1方差分析 10230(X,Y)10231數(shù)理統(tǒng)計可證明:222)()()(YYYYYY10232SSSSSS總回殘 (9-6) 上式用符號表示為 式中 10233Y10234SS殘即2)(YY, 為 殘 差 平 方 和 。 它 反 應 除了X對Y的 線 性 影 響 之 外 的 一 切 因 素 對Y的 變異 的 作 用 , 也 就 是 在 總 平 方 和 中 無

11、 法 用X解 釋的 部 分 ,表 示 考 慮 回 歸 之 后Y真 正 的 隨 機 誤 差 。在 散 點 圖 中 ,各 實 測 點 離 回 歸 直 線 越 近 ,SS殘也就 越 小 , 說 明 直 線 回 歸 的 估 計 誤 差 越 小 , 回 歸的 作 用 越 明 顯 。 上述三個平方和,各有其相應的自由度 ,并有如下的關系: 總回殘,1n總,1回,2n殘 (9-7) 10235以上分解可見,不考慮回歸時,隨機誤差是 Y 的總變異總SS;而考慮回歸以后,由于回歸的貢獻使原來的隨機誤差減小為SS殘。 如果兩變量間總體回歸關系確實存在,回歸的貢獻就要大于隨機誤差,大到何種程度時可以認為具有統(tǒng)計意義

12、,可計算統(tǒng)計量 F10236MS回為回歸均方 MS殘為殘差均方。 F服從自由度為 回殘、的F分布。 式中22XYXYXXXXSSblllb l回 (9-9) SSMSFSSMS回回回殘殘殘, 1 2n回殘, (9-8) 102372. t 檢驗10238 例9-2 檢驗例9-1數(shù)據(jù)得到的直線回歸方程是否成立? 10239(1)方差分析0H: 0,即尿肌酐含量與年齡之間無直線關系 1H: 0,即尿肌酐含量與年齡之間有直線關系 0.05 225.845 /420.8134XYXXSSll回 1.04620.81340.2328SSSSSS總回殘 10240變異來源 自由度 SS MS F P 總

13、變 異 7 1.0462 回 歸 1 0.8134 0.8134 20.97 0.01 殘 差 6 0.2328 0.0388 表9-2 方差分析表 列出方差分析表如表9-2。11、26,查F界值表,得0.01P 。按0.05水準拒絕0H,接受1H,可以認為尿肌酐含量與年齡之間有直線關系。 10241(2)t 檢驗0H、1H 及同上 本例8n ,SS殘0.2328,XXl42,b0.1392 按公式(9-10)、(9-11)和(9-12) 0.23280.197082Y XS,0.19700.030442bS 6,查t界值表,得0.0020.005P。按0.05水準,拒絕0H,接受1H,結論同

14、上。 0.13924.5790.0304t 10242注意:本例20.974.579Ft,即直線回歸中對回歸系數(shù)的t檢驗與F檢驗等價,類似于兩樣本均數(shù)比較可以作t檢驗亦可作方差分析。 10243(二)總體回歸系數(shù) 的可信區(qū)間 利用上述對回歸系數(shù)的t檢驗,可以得到的1雙側可信區(qū)間為/2,bbts (9-13) 10244 例9-3 根據(jù)例9-1中所得b=0.1392,估計其總體回歸系數(shù)的雙側95%可信區(qū)間。10245例 9-2 已算得=0.0304bS,按自由度6, 查t界值表,得到0.05/2,62.447t,按公式(9-13) 計算的 95%可信區(qū)間: (0.1392-2.4470.0304

15、,0.1392+2.4470.0304)=(0.0648,0.2136)注意到此區(qū)間不包括 0,可按0.05 水準同樣得到總體回歸系數(shù)不為 0 的結論, 即用區(qū)間估計回答相同時的假設檢驗問題。 10246(三)利用回歸方程進行估計和預測 1總體均數(shù)|Y X的可信區(qū)間 給定X的數(shù)值0X,由樣本回歸方程算出的0Y只是相應總體均數(shù)0|Y X的一個點估計。0Y會因樣本而異, 存在抽樣誤差。 10247給定0XX時,總體均數(shù)0|Y X的(1)可信區(qū)間為 00/2,YYtS(9-15) (9-14) 反映其抽樣誤差大小的標準誤為0202()1()Y XYXXSSnXX102482個體Y值的預測區(qū)間 所謂預

16、測就是把預報因子(自變量 X)代入回歸方程對總體中預報量(應變量 Y)的個體值進行估計。給定 X 的數(shù)值0X, 對應的個體 Y 值也存在一個波動范圍。 其標準差0YS(注意勿與樣本觀察值 Y 的標準差相混)按公式(9-16)計算 (9-16) 00/2,YYtS(9-17) 0202()11()YY XXXSSnXX10249兩條實曲線總體均數(shù)的可信區(qū)間;兩條虛曲線個體Y值的預測區(qū)間,范圍更寬。二者都是中間窄,兩頭寬;都在X= 處最窄。X10250 例9-4 用例9-1所得直線回歸方程,計算當X0=12時, 的95%可信區(qū)間和相應個體值的95%預測區(qū)間。0Y X10251計算步驟例9-1、例9

17、-2已計算出 1.66170.1392, 9.5, 42, 0.1970XXY XYX XlS 當012X 時,1.66170.1392 123.3321Y 。 按公式(9-14)和(9-16) 021(129.5)0.19700.1031842YS021(129.5)0.1970 10.2223842YS10252已查得0.05/2,62.447t,代入公式(9-15) , 故012X 時尿肌酐含量總體均數(shù)的 95%可信區(qū)間為 (3.3321-2.4470.1031,3.3321+2.4470.1031) =(3.080,3.584) 代入公式(9-17) ,012X 時尿肌酐含量個體值的

18、95%預測區(qū)間為 (3.3321-2.4470.2223,3.3321+2.4470.2223) =(2.788,3.876) 10253第二節(jié) 直線相關10254 直線相關(linear correlation)又稱簡單相關(simple correlation),用于雙變量正態(tài)分布(bivariate normal distribution)資料。其性質可由圖9-6散點圖直觀的說明。 目的:研究 兩個變量X,Y數(shù)量上的依存(或相關) 關系。 特點:統(tǒng)計關系一、直線相關的概念10255二、相關系數(shù)的意義與計算 1. 意義:相關系數(shù)意義:相關系數(shù)(correlation coefficient

19、)又)又稱稱Pearson積差相關系數(shù),用來說明具有直線關系的積差相關系數(shù),用來說明具有直線關系的兩變量間相關的密切程度與相關方向。兩變量間相關的密切程度與相關方向。以符號r表示樣本相關系數(shù), 符號表示其總體相關系數(shù)。 相關系數(shù)沒有單位,其值為相關系數(shù)沒有單位,其值為-1 -1 r r 1 1。r r值為正值為正表示正相關,表示正相關,r r值為負表示負相關,值為負表示負相關,r r的絕對值等的絕對值等于于1 1為完全相關,為完全相關,r r=0=0為零相關。為零相關。 10256102572. 計算:樣本相關系數(shù)的計算公式為22()()()()XYXX YYXX YYlrllXXYY(9-1

20、8) 10258由例9-1算得,42XXl,1.046YYl,5.845XYl 按公式(9-18) 5.8450.881842 1.046r 例9-5 對例9-1數(shù)據(jù)(見表9-1),計算8名兒童的尿肌酐含量與其年齡的相關系數(shù)。10259三、相關系數(shù)的統(tǒng)計推斷(一)相關系數(shù)的假設檢驗20, 212rrrtnSrn(9-19)10260 例9-6 對例9-5所得 r 值,檢驗尿肌酐含量與年齡是否有直線相關關系?10261檢驗步驟0H: 0,1H: 0,=0.05 本例n=8,r=0.8818,按公式(9-19)20.88184.57910.881882t 按6,查 t 界值表,得0.0020.00

21、5P。按0.05水準拒絕0H,接受1H,可以認為尿肌酐含量與年齡之間有正的直線相關關系。 若直接查 r 界值表(附表 13, P538),結論相同。 10262(二)總體相關系數(shù)的可信區(qū)間 由于相關系數(shù)的抽樣分布在不等于零時呈偏態(tài)分布(大樣本情況下亦如此) , 所以的可信區(qū)間需要先將其進行某種變量變換, 使之服從正態(tài)分布, 然后再估計其可信區(qū)間。 10263具體步驟如下1首先對 r 作如下 z 變換 1tanhzr 或 1(1)ln2(1)rzr (9-20) 式中 tanh 為雙曲正切函數(shù),tanh-1為反雙曲正切函數(shù) 2按下式根據(jù)正態(tài)近似原理計算 z 的1可信區(qū)間 /2/2(3,3zunz

22、un),縮寫為 /23zun (9-21) 3對上一步計算出的 z 的上下限作如下變換,得到 r 的1 可信區(qū)間 tanh( )rz 或 1122zzeer (9-22) 10264按公式(9-20)1tanh0.88181.3838z 按公式(9-21)z 的 95%可信區(qū)間為 (1.3838-1.96/83,1.3838+1.96/83) =(0.5073,3.2749) 例9-7 對例9-5所得r值,估計總體相關系數(shù)的95%可信區(qū)間。 再按公式(9-22)將z作反變換,得到年齡與尿肌酐含量的總體相關系數(shù)95%可信區(qū)間為(0.4678,0.9971)。 10265四、決定系數(shù)(coeffi

23、cient of determination) 定義為回歸平方和與總平方和之比,計算公式為:222XYXXXYYYXX YYSSlllRSSlll回總(9-23) 取值在0到1之間且無單位,其數(shù)值大小反映了回歸貢獻的相對程度,也就是在Y的總變異中回歸關系所能解釋的百分比。 2R10266公式(9-23)說明當總SS固定不變時,回歸平方和的大小決定了相關系數(shù) r 絕對值的大小?;貧w平方和越接近總平方和, 則 r 絕對值越接近 1, 說明相關的實際效果越好。 例9-5中8名兒童的年齡與其尿肌酐含量之間直線相關系數(shù) r=0.8818,得到2R=0.7775,表示此例中年齡可解釋尿肌酐含量變異性的 7

24、7.75,另外約 22的變異不能用年齡來解釋。 10267五、直線回歸與相關應用的注意事項10268 1根據(jù)分析目的選擇變量及統(tǒng)計方法 直線相關用于說明兩變量之間直線關系的方向和密切程度,X與Y沒有主次之分; 直線回歸則進一步地用于定量刻畫應變量Y對自變量X在數(shù)值上的依存關系,其中應變量的定奪主要依專業(yè)要求而定,可以考慮把易于精確測量的變量作為X,另一個隨機變量作Y,例如用身高估計體表面積。 兩個變量的選擇一定要結合專業(yè)背景,不能把毫無關聯(lián)的兩種現(xiàn)象勉強作回歸或相關分析。10269102702進行相關、回歸分析前應繪制散點圖第一步(1) 散點圖可考察兩變量是否有直線趨勢;(2) 可發(fā)現(xiàn)離群點(

25、outlier)。 散點圖對離群點的識別與處理需要從專業(yè)知識和現(xiàn)有數(shù)據(jù)兩方面來考慮,結果可能是現(xiàn)有回歸模型的假設錯誤需要改變模型形式,也可能是抽樣誤差造成的一次偶然結果甚至過失誤差。需要認真核對原始數(shù)據(jù)并檢查其產生過程認定是過失誤差,或者通過重復測定確定是抽樣誤差造成的偶然結果,才可以謹慎地剔除或采用其它估計方法。102713資料的要求 直線相關分析要求 X與Y 服從雙變量正態(tài)分布; 直線回歸要求至少對于每個 X 相應的 Y 要服從正態(tài)分布,X可以是服從正態(tài)分布的隨機變量也可以是能精確測量和嚴格控制的非隨機變量; * 對于雙變量正態(tài)分布資料,根據(jù)研究目的可選擇由 X 估計 Y 或者由 Y 估計

26、 X ,一般情況下兩個回歸方程不相同)。10272 反應兩變量關系密切程度或數(shù)量上影響大小的統(tǒng)計量應該是回歸系數(shù)或相關系數(shù)的絕對值,而不是假設檢驗的P值。 P值越小只能說越有理由認為變量間的直線關系存在,而不能說關系越密切或越“顯著”。另外,直線回歸用于預測時,其適用范圍一般不應超出樣本中自變量的取值范圍。4結果解釋及正確應用 10273第三節(jié) 秩相關(非參數(shù)統(tǒng)計方法) 10274適用條件: 雙變量計量資料:雙變量計量資料: 資料不服從雙變量態(tài)分布; 總體分布型未知,一端或兩端是不確定數(shù)值(如10歲,65歲)的資料;原始數(shù)據(jù)(一個或兩個變量值)用等級表原始數(shù)據(jù)(一個或兩個變量值)用等級表示的資

27、料。示的資料。10275一、Spearman秩相關 1. 意義:等級相關系數(shù) rs 用來說明兩個變量間直線相關關系的密切程度與相關方向。102763. 計算公式 ) 1(6122nndrs(9-25) 1nrus (9-26) 10277例 9-8 某省調查了 1995 年到 1999 年當?shù)鼐用?18 類死因的構成以及每種死因導致的潛在工作損失年數(shù) WYPLL 的構成, 結果見表 9-3。以死因構成為 X,WYPLL 構成為 Y,作等級相關分析。 10278表9-3 某省1995年到1999年居民死因構成與WYPLL構成10279檢驗步驟0H: 0s,即死因構成和 WYPLL 構成之間無直線

28、相關關系 1H: 0s,即死因構成和 WYPLL 構成之間有直線相關關系 0.05 36(92)10.9051818sr 本例18n =,查附表 14 的 rs界值表(P539) , 得 P0.01。按0.05水準拒絕0H,接受1H, 可認為當?shù)鼐用袼酪虻臉嫵珊透鞣N死因導 致的潛在工作損失年數(shù) WYPLL 的構成存 在正相關關系。 10280二、相同秩較多時 rs 的校正對X與Y分別排秩時, 若相同秩較多, 宜用公式(9-27)計算校正sr 3233() 6()() 62() 62XYsXYnnTTdrnnTnnT公式中Tx(或TY)(t3t)/12,t為X(或Y)中相同秩的個數(shù)。顯然當TxTY0時,公式(9-27)與公式(9-25)相等。 (9-27) 10281、 22()()()()XYXX YYXX YYlrllXXYY(9-18)PiXQiY10282第六節(jié) 曲線擬合 (curve fitting)10283 醫(yī)學現(xiàn)象中并非所有的兩變量間關系都表現(xiàn)為前面

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論