直線回歸與相關 - 復旦大學精品課程_第1頁
直線回歸與相關 - 復旦大學精品課程_第2頁
直線回歸與相關 - 復旦大學精品課程_第3頁
直線回歸與相關 - 復旦大學精品課程_第4頁
直線回歸與相關 - 復旦大學精品課程_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1直線回歸直線回歸2直線回歸直線回歸 舉例說明回歸背景問題舉例說明回歸背景問題 通過該例導出直線回歸的意義通過該例導出直線回歸的意義 簡述正態(tài)分布的性質簡述正態(tài)分布的性質 由此導出直線回歸分析對資料的要求由此導出直線回歸分析對資料的要求 簡述直線回歸的回歸系數檢驗簡述直線回歸的回歸系數檢驗 直線回歸的預測值及其直線回歸的預測值及其95%可信區(qū)間可信區(qū)間 標準曲線制作中的直線回歸問題標準曲線制作中的直線回歸問題 直線回歸分析小結直線回歸分析小結 思考題思考題3直線回歸掌握的要點直線回歸掌握的要點 直線回歸方程直線回歸方程(總體總體)是描述什么?是描述什么? 直線回歸分析對資料有什么要求?直線回歸

2、分析對資料有什么要求? 直線回歸分析的具體基本步驟是什么?直線回歸分析的具體基本步驟是什么? 在直線回歸中,在直線回歸中,Y是否一定為隨機變量?是否一定為隨機變量? 在直線回歸中,在直線回歸中,X是否一定為隨機變量?是否一定為隨機變量? 在直線回歸中,預測值在直線回歸中,預測值 的意義是什么?的意義是什么? 在直線回歸中,回歸系數在直線回歸中,回歸系數b的意義是什么?的意義是什么?Y4舉例舉例 例例 為了研究為了研究3歲至歲至8歲男孩人群平均身高歲男孩人群平均身高(cm)與年齡與年齡(year)的規(guī)律,在某地區(qū)在的規(guī)律,在某地區(qū)在3歲至歲至8歲男孩中隨機抽樣,共分歲男孩中隨機抽樣,共分6個年齡

3、個年齡層抽樣:層抽樣:3歲,歲,4歲,歲,8歲,每個層抽歲,每個層抽3名男孩,共抽名男孩,共抽18名男孩。資料如下:名男孩。資料如下:年齡年齡X3 33 33 34 44 44 45 55 55 5身高Y身高Y92.592.597979696100100 96.596.5101101106106104104107107年齡年齡X6 66 66 67 77 77 78 88 88 8身高Y身高Y115.5115.51161161101101261261181181181181221221291291241245本例的研究目的和實現方法本例的研究目的和實現方法1.研究目的:了解年齡與兒童人群的平均

4、身高研究目的:了解年齡與兒童人群的平均身高對應關系。對應關系。2.方法方法1:可以做普查,得到每個年齡組所有兒:可以做普查,得到每個年齡組所有兒童的身高,并且計算每個年齡組的兒童人群童的身高,并且計算每個年齡組的兒童人群的平均身高。的平均身高。3.方法方法2:作抽樣調查,本例就是通過按年齡組:作抽樣調查,本例就是通過按年齡組分層抽樣調查,獲得樣本后用回歸分析的方分層抽樣調查,獲得樣本后用回歸分析的方法得到每個年齡組兒童人群的平均身高估計法得到每個年齡組兒童人群的平均身高估計值和相應的統(tǒng)計推斷。值和相應的統(tǒng)計推斷。6兒童身高的分布特征兒童身高的分布特征一般而言,兒童身高滿足一般而言,兒童身高滿足

5、1. 同一年齡同一年齡x的兒童身高的兒童身高y近似服從正態(tài)分近似服從正態(tài)分布,因此對于每個年齡布,因此對于每個年齡x,均有一個身高,均有一個身高y的總體均數的總體均數 。2. 不同年齡不同年齡x的兒童身高分別近似服從對應的兒童身高分別近似服從對應不同身高總體均數不同身高總體均數 的正態(tài)分布。的正態(tài)分布。3. 身高的總體均數身高的總體均數 是年齡是年齡x的一個函數的一個函數|Y X|Y X|Y X7畫散點圖考查身高與年齡的分布關系畫散點圖考查身高與年齡的分布關系yx34567890100110120130Y的離散程度與的離散程度與X沒有關系,并且散點呈直線帶沒有關系,并且散點呈直線帶8畫散點圖考

6、查身高總體均數與年齡的關系畫散點圖考查身高總體均數與年齡的關系 年齡組的身高樣本均數與年齡的散點圖年齡組的身高樣本均數與年齡的散點圖9由散點圖確定身高總體均數與年齡由散點圖確定身高總體均數與年齡可能是直線關系可能是直線關系 年齡組的身高樣本均數與年齡的散點圖顯年齡組的身高樣本均數與年齡的散點圖顯示年齡組的身高樣本均數與年齡幾乎在一示年齡組的身高樣本均數與年齡幾乎在一條直線上,略有些偏離直線的點可以理解條直線上,略有些偏離直線的點可以理解為樣本均數的抽樣誤差所致,因此可以假為樣本均數的抽樣誤差所致,因此可以假定固定年齡的身高總體均數定固定年齡的身高總體均數 與年齡與年齡x的關系可能是直線關系,即

7、假定:的關系可能是直線關系,即假定:|Y xx|Y x10回歸方程回歸方程 并且稱上述直線方程為(總體)回歸方程。 回歸方程中,為未知參數,需要用樣本資料通過擬合曲線后得到其估計值,并分別記為a和b,相應得到樣本估計的回歸方程 通常稱 為Y的預測值,其意義為固定x,Y的總體均數 的估計值。YabxY|Y x11Y與與x的直線回歸關系的直線回歸關系 由總體回歸方程 可知:當=0時, 。即:對于x的任何值,總體均數 沒有任何改變,因此建立Y與x的直線回歸方程就沒有任何意義了,所以稱 0時, Y與x 之間存在直線回歸關系,反之 0 Y與x 之間稱不存在直線回歸關系。|Y xx| y x|Y x12正

8、態(tài)分布性質簡述正態(tài)分布性質簡述2(,)YN ZY性質1:設Y服從某個正態(tài)分布,則Y的總體均數和總體方差2唯一決定了Y的確切分布性質2:設 令 則2(0,)ZN13正態(tài)分布性質簡述正態(tài)分布性質簡述 性質3: 令 則2(0,)XNZX2( ,)ZN 14回歸模型根據上述性質,應用到本例的實際問題:1. 固定年齡X,身高Y服從總體均數為 ,方差為2的正態(tài)分布 。2. 由散點圖可以假定總體均數3. 故4. 令 ,5. 即: ,并稱為直線回歸模型|Y X|Y xx2(,)YNx2|(,)Y XN|Y xYYx2(0,)NYx15誤差與殘差|Y XYxY 稱為隨機誤差稱為隨機誤差 稱為殘差稱為殘差(res

9、idual)根據上述,直線回歸分析要求資料滿足根據上述,直線回歸分析要求資料滿足固定固定X,Y服從正態(tài)分布服從正態(tài)分布等價于等價于殘差服從殘差服從正態(tài)分布正態(tài)分布。YYYabx16直線回歸原理示意圖直線回歸原理示意圖所以如果固定所以如果固定x,Y服從正態(tài)分布,其散點圖呈直線帶分布服從正態(tài)分布,其散點圖呈直線帶分布17直線回歸系數的估計直線回歸系數的估計 用最小二乘法擬合直線,選擇用最小二乘法擬合直線,選擇a和和b使其殘使其殘差(樣本點到直線的垂直距離差(樣本點到直線的垂直距離)平方和達到平方和達到最小。即使下列的最小。即使下列的SSE達到最小值。達到最小值。 由此得到由此得到22() (- -

10、) iiiiSSEyyy a bx2()()()iiiyyxxbaybxxx18回歸系數估計的另一種表達式回歸系數估計的另一種表達式2211iiiiiiy xyxnbxxn 可以證明:回歸系數估計式可以證明:回歸系數估計式b還可以表示為:還可以表示為:19回歸系數的意義回歸系數的意義 由總體回歸方程可知 回歸系數表示:x增加一個單位,總體均數 增加個單位 由于 是 的估計表達式 ,所以(樣本)回歸系數b表示x增加一個單位,樣本觀察值y平均增加b個單位。 | y xx| y xYabx| y xx20回歸系數回歸系數假設檢驗的必要性假設檢驗的必要性 由于樣本回歸系數b與總體回歸系數存在抽樣誤差,

11、即:一般情況下, b ,因此需要考慮抽樣誤差對統(tǒng)計推斷是否存在重大影響。 由于 0時, ,Y與x之間不存在直線回歸關系,因此是否為0,涉及到所建立的回歸方程是否有意義的重大問題,然而即使 0,樣本回歸系數b一般不為0,因此需要對回歸系數是否等于0進行假設檢驗。| y x21回歸系數的假設檢驗 H0: =0 vs H1: 0 =0.05 回歸系數的標準誤為回歸系數的標準誤為 其中其中s為殘差的標準差為殘差的標準差 則回歸系數的檢驗統(tǒng)計量為則回歸系數的檢驗統(tǒng)計量為 ( )bbtse b2( )()isse bxx2()2iyysn22回歸系數的假設檢驗 殘差的標準差殘差的標準差s還可以表示為還可以

12、表示為 可以證明:可以證明:H0: =0 成立時,檢驗統(tǒng)計量成立時,檢驗統(tǒng)計量tb服服從自由度為從自由度為n-2的的t分布。即:當出現分布。即:當出現 , =0 而言這是小概率事件,而言這是小概率事件,故可以拒絕故可以拒絕H0 : =0,認為,認為 0 。222()()2iiyybxxsn0.05/2,2| |ntt23回歸系數檢驗統(tǒng)計量回歸系數檢驗統(tǒng)計量t的分布示意圖的分布示意圖00當當|t|t0.05,1,n-2時,對時,對 0而言是小概率事件,而言是小概率事件, 對對 0而言并非是小概率事件而言并非是小概率事件24實例計算故故年齡年齡X3 33 33 34 44 44 45 55 55

13、5身高Y身高Y92.592.597979696100100 96.596.5101101106106104104107107年齡年齡X6 66 66 67 77 77 78 88 88 8身高Y身高Y115.5115.51161161101101261261181181181181221221291291241242()52.2ixx2()2186.111iyy()()328.5iiyyxx2()()328.56.257()52.5iiixxyybxx5.5, y=109.78x 109.78 6.257 5.575.363aybx25實例的回歸系數的假設檢驗 H0: =0 vs H1: 0

14、=0.05 t0.05/2,16=2.120 tb,P臨界值臨界值F0.05,1,n2時,可以拒絕時,可以拒絕H0,認為認為0 。 在直線回歸中,在直線回歸中,F檢驗與檢驗與t檢驗是等價的。檢驗是等價的。31F檢驗統(tǒng)計量分布示意圖檢驗統(tǒng)計量分布示意圖當當|FF0.05,n1,n2時,對時,對 0而言是小概率事件,而言是小概率事件, 對對0而言并非是小概率事件而言并非是小概率事件32線性回歸中的決定系數線性回歸中的決定系數 決定系數決定系數 R2描述了回歸方程所刻畫的描述了回歸方程所刻畫的X引起引起的的Y變異量占變異量占Y的總變異的比例。的總變異的比例。2R1SSSSSSSS 回歸殘差總總33實

15、例中的預測問題實例中的預測問題 由此得到回歸方程由此得到回歸方程 估計估計38歲兒童平均每年身高增加歲兒童平均每年身高增加6.257cm 不同不同x取值,用回歸方程取值,用回歸方程 估計的估計的Y的總體的總體平均數平均數 (稱為預測稱為預測),但存在抽樣誤差,但存在抽樣誤差,其標準差和其標準差和 的的95%可信區(qū)間分別為可信區(qū)間分別為75.3636.257YxY221()( )()ixxs Ysnxx|Y X|Y X0.05/2,2( )nYts Y34應用回歸方程估計Y的95%范圍 由于回歸模型為由于回歸模型為 由于均數的估計值的方差為由于均數的估計值的方差為 所以用所以用 估計估計Y的方差

16、為的方差為 因此估計當在因此估計當在x 點時,點時,Y的的95%范圍為范圍為|Y XYx222|21()()()()Y Xixxssnxx|Y X222|21()()(1)()Y xixxssnxx2|0.05/2,221()1()xnixxYtnxx35直線回歸對資料的要求小結直線回歸對資料的要求小結對于直線回歸,要求殘差服從正態(tài)分布并且殘對于直線回歸,要求殘差服從正態(tài)分布并且殘差的離散程度與自變量差的離散程度與自變量x沒有明顯的相關趨勢。沒有明顯的相關趨勢。在直線回歸中,在直線回歸中,Y是隨機變量,自變量是隨機變量,自變量x沒有要沒有要求。求。在實際應用中,直線回歸的資料可以分為二類:在實

17、際應用中,直線回歸的資料可以分為二類:1. 從背景和抽樣的角度看,從背景和抽樣的角度看, Y與與x均為隨機變量,均為隨機變量,但在直線回歸模型中視但在直線回歸模型中視x為已取定觀察值的非隨為已取定觀察值的非隨機變量值。機變量值。2. Y是隨機變量,是隨機變量,x為控制變量并且為非隨機變量。為控制變量并且為非隨機變量。36應用直線回歸制作標準曲線應用直線回歸制作標準曲線 目標:制定測定某種溶液的濃度的方法目標:制定測定某種溶液的濃度的方法 方法:用若干個濃度的標準品,測量其光密方法:用若干個濃度的標準品,測量其光密度值,利用直線回歸建立標準曲線。度值,利用直線回歸建立標準曲線。 濃度是非隨機的,

18、光密度值存在隨機誤差。濃度是非隨機的,光密度值存在隨機誤差。 取光密度值是取光密度值是Y,溶液濃度為,溶液濃度為x,作直線回歸,作直線回歸 得到回歸方程得到回歸方程 改寫為濃度估計式改寫為濃度估計式YabxYaxb37您對上述內容的要點理解嗎?您對上述內容的要點理解嗎? 直線回歸方程直線回歸方程(總體總體)是描述什么?是描述什么? 直線回歸分析對資料有什么要求?直線回歸分析對資料有什么要求? 直線回歸分析的具體基本步驟是什么?直線回歸分析的具體基本步驟是什么? 在直線回歸中,在直線回歸中,Y是否一定為隨機變量?是否一定為隨機變量? 在直線回歸中,在直線回歸中,X是否一定為隨機變量?是否一定為隨機變量? 在直線回歸中,預測值在直線回歸中,預測值 的意義是什么?的意義是什么? 在直線回歸中,回歸系數在直線回歸中,回歸系數b的意義是什么?的意義是什么?Y38思考題思考題對于兩樣本成組t檢驗的問題,假定資料滿足t檢驗條件,考慮下列問題:1. 用x=0表示第一組,x=1表示第二組,用Y表示相應的觀察資料,相應的總體均數能否表示為2. 若能表示,的意義是什么?3. 能否用成組t檢驗的資料進行直線回歸?|Y xx39多重線性回歸的Stata實現 reg 因變量 自變量1 自變量n 在執(zhí)行上述命令后計算殘差 predict

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論