簡單線性回歸_第1頁
簡單線性回歸_第2頁
簡單線性回歸_第3頁
簡單線性回歸_第4頁
簡單線性回歸_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、簡單線性回歸本章內容本章內容 第一節(jié)第一節(jié) 簡單線性回歸簡單線性回歸 第二節(jié)第二節(jié) 線性回歸的應用線性回歸的應用 第三節(jié)第三節(jié) 殘差分析殘差分析 第四節(jié)第四節(jié) 非非線性回歸線性回歸 雙變量計量資料:雙變量計量資料:每個個體有兩個變量值每個個體有兩個變量值 總體:總體:無限或有限對變量值無限或有限對變量值 樣本:樣本:從總體隨機抽取的從總體隨機抽取的n n對變量值對變量值 (x1,y1), (x2,y2), , (xn,yn) 目的:目的:研究研究x x和和y y的數(shù)量關系的數(shù)量關系 方法:方法:回歸與相關回歸與相關 簡單、基本簡單、基本直線回歸、直線相關直線回歸、直線相關第一節(jié)第一節(jié) 簡單線性

2、回歸簡單線性回歸 英國人類學家 f.galton首次在自然遺傳一書中,提出并闡明了“相關”和“相關系數(shù)”兩個概念,為相關論奠定了基礎。其后,他和英國統(tǒng)計學家 karl pearson對上千個家庭的身高、臂長、拃長(伸開大拇指與中指兩端的最大長度)做了測量,發(fā)現(xiàn)發(fā)現(xiàn):歷史背景: 兒子身高(y,英寸)與父親身高(x,英寸)存在線性關系: 。 也即高個子父代的子代在成年之后的身高平均來說不是更高,而是稍矮于其父代水平,而矮個子父代的子代的平均身高不是更矮,而是稍高于其父代水平。galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱之“回歸”33.730.516yx “回歸”已成為表示變量之間某種數(shù)量依存關系的統(tǒng)計

3、學術語,相關并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計學概念。如研究糖尿病人血糖與其胰島素水平的關系,研究兒童年齡與體重的關系等。線性回歸的概念及其統(tǒng)計描述線性回歸的概念及其統(tǒng)計描述直線回歸的概念 目的:目的:研究因變量研究因變量y對自變量對自變量x的數(shù)量依的數(shù)量依 存關系。存關系。特點:特點:統(tǒng)計關系。統(tǒng)計關系。 x值和值和y的的均數(shù)均數(shù)的關系,的關系, 不同于一般數(shù)學上的不同于一般數(shù)學上的x 和和y的函數(shù)關系的函數(shù)關系 為了直觀地說明直線回歸的概念,以15名健康人凝血酶濃度(x)與凝血時間(y)數(shù)據(jù)(表12-1)進行回歸分析,得到圖12-1所示散點圖(scatter plot) no. 12

4、3456789101112131415x1.11.21.00.91.21.10.90.61.00.91.10.91.11.00.7y141315151314161714161516141517 在定量描述健康人凝血酶濃度(x)與凝血時間(y)數(shù)據(jù)的數(shù)量上的依存關系時,將凝血酶濃度稱為自變量(independent variable),用 x 表示;凝血時間稱為因變量(dependent variable),用 y 表示 由圖12-1可見,凝血時間隨凝血酶濃度的增加而減低且呈直線趨勢,但并非所有點子恰好全都在一直線上,此與兩變量間嚴格的直線函數(shù)關系不同,稱為直線回歸(linear regress

5、ion),其方程叫其方程叫直線回歸方程直線回歸方程,以區(qū)別,以區(qū)別嚴格意義的直線方程?;貧w是回歸分析中最基本、最簡單嚴格意義的直線方程?;貧w是回歸分析中最基本、最簡單的一種,故又稱簡單回歸。的一種,故又稱簡單回歸。 (12 1)yabx樣本線回歸方程樣本線回歸方程y 為各x處y的總體均數(shù)的估計。簡單線性回歸模型 iiixy1a 為回歸直線在為回歸直線在 y 軸上的截距軸上的截距a 0,表示直線與縱軸的交點在,表示直線與縱軸的交點在原點的上方原點的上方a 0,直線從左下方走向右上方,直線從左下方走向右上方,y 隨隨 x 增大而增大;增大而增大; b0,直線從左上方走向右下方,直線從左上方走向右下

6、方,y 隨隨 x 增大而減小;增大而減小; b=0,表示直線與,表示直線與 x 軸平行,軸平行,x 與與y 無直線關系無直線關系b 的統(tǒng)計學意義是:的統(tǒng)計學意義是:x 每增加每增加(減減)一個單位,一個單位,y 平均改變平均改變b個單位個單位 回歸模型的前提假設回歸模型的前提假設o 線性回歸模型的前提條件是:線性線性(linear)獨立獨立(independent)正態(tài)正態(tài)(normal)等方差等方差(equal variance)公式(12-2)稱為樣本回歸方程,它是對兩變量總體間線性關系的一個估計。根據(jù)散點圖我們可以假定, 對于x各個取值,相應y的總體均數(shù)|y x在一條直線上(圖 12-2

7、) ,表示為 | y xx 殘差(residual)或剩余值,即實測值y與假定回歸線上的估計值 的縱向距離 。 求解a、b實際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點分布趨勢的直線。yyy原則:最小二乘法(least sum of squares),即可保證各實測點至直線的縱向距離的平方和最小回歸參數(shù)的估計回歸參數(shù)的估計最小二乘原則最小二乘原則 式中式中xyl為為 x 與與 y 的離均差乘積和的離均差乘積和: ()()()() xylx x y yxyxyn2()()()xyxxxx yylblxx aybx回歸參數(shù)的估計方法回歸參數(shù)的估計方法 本例:n=15 x=14.7 x2=14.81

8、 y=224 xy=216.7 y2=336898020. 615)7 .14(81.1415)224)(7 .14(7 .2162b77393.21157 .14)98020. 6(15224 axy9802. 677393.21除了圖中所示兩變量呈直線關系外, 一般還假定每個x對應y的總體為正態(tài)分布,各個正態(tài)分布的總體方差相等且各次觀測相互獨立。這樣,公式(12-2)中的y實際上是x所對應y的總體均數(shù)|y x的一個樣本估計值,稱為回歸方程的預測值(predicted value),而a、b分別為和的樣本估計。 1由原始數(shù)據(jù)及散點圖觀察兩變量間是否有直線趨勢 2計算x、y的均數(shù)x、y,離均差

9、平方和xxl、yyl與離均差積和xyl。 解題步驟3、計算有關指標的值4、計算回歸系數(shù)和截距5、列出回歸方程 此直線必然通過點此直線必然通過點( , )( , )且與縱坐標軸相且與縱坐標軸相交于截距交于截距a a 。如果散點圖沒有從坐標系原。如果散點圖沒有從坐標系原點開始,可在自變量實測范圍內遠端取易點開始,可在自變量實測范圍內遠端取易于讀數(shù)的于讀數(shù)的 值代入回歸方程得到一個點的值代入回歸方程得到一個點的坐標,連接此點與點坐標,連接此點與點( , )( , )也可繪出回歸也可繪出回歸直線。直線。 x繪制回歸直線繪制回歸直線xyy總體回歸系數(shù)總體回歸系數(shù)的的的統(tǒng)計推斷樣本回歸系數(shù)樣本回歸系數(shù)b的

10、標準誤的標準誤 niixybxxss12.)(21.()2niiiy xyysn.3.249170.249940.4999413y xs78655. 0404. 049994. 0)(12.niixybxxss回歸方程的假設檢驗 建立樣本直線回歸方程,只是完成了統(tǒng)計分析中兩變量關系的統(tǒng)計描述,研究者還須回答它所來自的總體的直線回歸關系是否確實存在,即是否對總體有 ?0無論x如何取值,|y x總在一條水平線上,即0,總體直線回歸方程并不成立,意即y與x無直線關系,此時|y xy。然而在一次隨機抽樣中,如果所得樣本為實心園點所示, 則會得到一個并不等于 0 的樣本回歸系數(shù)b。b與 0 相差到多大可

11、以認為具有統(tǒng)計學意義?可用方差分析或與其等價的 t 檢驗來回答這一問題。 理解回歸中方差分析的基本思想,需要對應變量y的離均差平方和yyl作分解(如圖所示) 。 1方差分析 y的離均差,總變異殘差回歸的變異圖中, 任意一點p的縱坐標被回歸直線y與均數(shù)y截成三個線段,其中:)()(yyyyyy。由于p點是散點圖中任取的一點,將全部數(shù)據(jù)點都按上法處理,并將等式兩端平方后再求和則有 數(shù)理統(tǒng)計可證明:222)()()(yyyyyy()(yyy-)0y = 上式用符號表示為 式中 總ss即2)(yy,為y的離均差平方和,表示未考慮x與y的回歸關系時y的總變異。 回ss 即2)(yy,為回歸平方和。由于特

12、定樣本的均數(shù) y 是固定的, 所以這部分變異由iy的大小不同引起。 當 x 被引入回歸以后,正是由于ix的不同導致了iiyabx不同,所以回ss反映了在 y 的總變異中可以用x 與 y 的直線關系解釋的那部分變異。 b 離 0 越遠,x 對 y 的影響越大,回ss就越大,說明回歸效果越好。 yss殘即2)(yy,為殘差平方和。它反應除了x對y的線性影響之外的一切因素對y的變異的作用,也就是在總平方和中無法用x解釋的部分, 表示考慮回歸之后y真正的隨機誤差。在散點圖中, 各實測點離回歸直線越近,ss殘也就越小,說明直線回歸的估計誤差越小,回歸的作用越明顯。 上述三個平方和,各有其相應的自由度 ,

13、并有如下的關系: 以上分解可見,不考慮回歸時,隨機誤差是 y 的總變異總ss;而考慮回歸以后,由于回歸的貢獻使原來的隨機誤差減小為ss殘。 如果兩變量間總體回歸關系確實存在,回歸的貢獻就要大于隨機誤差,大到何種程度時可以認為具有統(tǒng)計意義,可計算統(tǒng)計量f:ms回為回歸均方 ms殘為殘差均方。 f服從自由度為 回殘、的f分布。 式中22xyxyxxxxssblllb l回 ssmsfssms回回回殘殘殘, 1 2n回殘, 對0這一假設是否成立還可進行如下t檢驗 0bbbts,2n y xbxxssl 2y xsssn殘 t 檢驗 (1)方差分析0h: 0,即凝血酶濃度與凝血時間)之間無直線關系 1

14、h: 0,即凝血酶濃度與凝血時間數(shù)據(jù)之間有直線關系 0.05 方差分析表 11、26,查f界值表,得0.01p 。按0.05水準拒絕0h,接受1h,可以認為尿肌酐含量與年齡之間有直線關系。 (2)t 檢驗13,查t界值表,得0.001p 。按0.05水準,拒絕0h,接受1h。 參數(shù)的意義是:若自變量x增加一個單位,反因變量y的平均值便增加 bbsbt87. 878655. 098020. 6bt注意:ft,即直線回歸中對回歸系數(shù)的t檢驗與f檢驗等價,類似于兩樣本均數(shù)比較可以作t檢驗亦可作方差分析。 總體回歸系數(shù) 的可信區(qū)間 利用上述對回歸系數(shù)的t檢驗,可以得到的1雙側可信區(qū)間為bnstb2,

15、本 例b = - 6 . 9 8 0 2 , 自 由 度 = 1 3 ,t0.05,13=2.16,sb=0.78655, 代入公式(12-7)得參數(shù)的95%置信區(qū)間為 =(-8.6791 -5.2813) 78655. 016. 29802. 6注意到此區(qū)間不包括 0,可按0.05 水準同樣得到總體回歸系數(shù)不為 0 的結論, 即用區(qū)間估計回答相同時的假設檢驗問題。 第二 節(jié) 線性回歸的應用(估計和預測) 1總體均數(shù)|y x的可信區(qū)間(總體總體回歸線的回歸線的 95%置信帶置信帶) 給定x的數(shù)值0x,由樣本回歸方程算出的0y只是相應總體均數(shù)0|y x的一個點估計。0y會因樣本而異, 存在抽樣誤

16、差。 給定0xx時,總體均數(shù)0|y x的(1)可信區(qū)間為 00/2,yyts22()1()ppy xyixxssnxx反映其抽樣誤差大小的標準誤為o 例12-1中,第一觀測值x1=1.1, 0.4994, 0.404, 代入(12.8)式獲得第一觀測點x1對應的 的標準誤為 0.1599y的總體均數(shù)的95%置信區(qū)間為 14.0957(2.16)(0.1599)(13.7502,14.4412) xys.1512)(iixx98. 0x1y404. 0)98. 01 . 1 (15149994. 021ys對象實測值 x實測值 y預測值均值均值的標準誤y均值的95%ciy值的95%預測區(qū)間殘差下

17、限上限下限上限11.11414.09570.159913.750214.441212.961815.2297-0.095721.21313.39770.215912.931313.864112.221214.5741-0.397731.01514.79370.130014.512815.074713.677715.90970.206340.91515.49170.143615.181515.802014.368016.6155-0.491751.21313.39770.215912.931313.864112.221214.5741-0.397761.11414.09570.159913.75

18、0214.441212.961815.2297-0.095770.91615.49170.143615.181515.802014.368016.61550.508380.61717.58580.325616.882518.289216.296918.8747-0.585891.01414.79370.130014.512815.074713.677715.9097-0.7937o 以上是給定某一x值時所對應的總體均數(shù)的置信區(qū)間。當同時考慮x的所有可能取值時,總體均數(shù)的點估計就是根據(jù)樣本算得的回歸直線 o (1-)置信區(qū)間的上下限連起來形成一個弧形區(qū)帶,稱為回歸直線的(1-)置信帶(confi

19、dence band)。同樣,因為其標準誤是x的函數(shù),所以在均數(shù)( )點處置信帶寬度最小,越遠離該均數(shù)點,置信帶寬度越大。 bxayyx,o 圖12-4中,左圖顯示位于最小二乘回歸線上下兩側的兩條弧形虛線為總體回歸線的(1-)置信區(qū)帶。右圖的實線表示可能的總體回歸線,它們落在弧形虛線所確定的置信帶內。o (1-)置信帶的意義是:在滿足線性回歸的假設條件下,可以認為真實的回歸直線落在兩條弧形曲線所形成的區(qū)帶內, 置信度為(1-) 所謂預測就是把預報因子(自變量 x)代入回歸方程對總體中預報量(應變量 y)的個體值進行估計。給定 x 的數(shù)值0x, 對應的個體 y 值也存在一個波動范圍。 其標準差0

20、ys(注意勿與樣本觀察值 y 的標準差相混)按公式(12-10)計算 22()11()ppyy xxxssnxx/2,ppyytso 以第一觀測點數(shù)據(jù)(x1=1.1)點為例,該點預測值的標準差為 o =0.52489182 o 第一數(shù)據(jù)點的預測區(qū)間為: 14.0957(2.16)(0.0.5249)=12.961815.2297o 當同時考慮x的所有可能取值時,個體y值的95%預測區(qū)間形成一個帶子,稱為y值的95%預測帶,它比總體回歸線95%置信帶更寬。 圖12-5和圖12-6同時顯示個體y值的預測帶與總體回歸線的置信帶,可見,在相同信度下,個體值預測帶的曲線要比回歸線置信帶的曲線離回歸直線更

21、遠。 404.0)98.01.1(151149994.02|1xyspici決定系數(shù)(coefficient of determination) 定義為回歸平方和與總平方和之比,計算公式為:222xyxxxyyyxx yysslllrsslll回總 取值在0到1之間且無單位,其數(shù)值大小反映了回歸貢獻的相對程度,也就是在y的總變異中回歸關系所能解釋的百分比。 2r公式說明當總ss固定不變時, 回歸平方和的大小決定了相關系數(shù) r 絕對值的大小。回歸平方和越接近總平方和, 則 r 絕對值越接近 1, 說明相關的實際效果越好。 例如相關系數(shù) r=0.8818,得到2r=0.7775,表示此例中 x 可

22、解釋 y 變異性的 77.75,另外約22的變異不能用 x 來解釋。 第三節(jié)第三節(jié) 殘差分析殘差分析 o 殘差殘差(residual)是指觀測值yi與回歸模型擬合值之差 o 殘差分析(residual analysis)旨在通過殘差深入了解數(shù)據(jù)與模型之間的關系,評價實際資料是否符合回歸模型假設,識別異常點等。 o 例如,第一數(shù)據(jù)點的殘差e1=14-14.0957=-0.0957,如此類推,計算出各數(shù)據(jù)點的殘差值示于表12-2的第10列中。將第10列的殘差減去其均數(shù),除以其標準差,便得標準化殘差。 iiiyye若以反因變量取值yi為橫坐標,以標準化殘差為縱坐標,構成的散點圖如圖12-7所示。類似

23、地,也可以自變量取值xi為橫坐標, 以標準化殘差為縱坐標,構成的散點圖。這類散點圖統(tǒng)稱為標準化殘差圖。 o 圖12-8給出的是以自變量取值為縱坐標,以殘差為橫坐標的殘差圖的常見類型。其中,圖(e)顯示殘差呈隨機分布;圖(a)、(b ) 和(f)表示殘差不滿足方差齊性條件;圖(c)顯示存在非線性關系;圖(d)顯示有的點處于2倍標準差以外,可能是異常點。 第四節(jié)第四節(jié) 非線性回歸非線性回歸o 非線性回歸要比線性回歸更能充分地表達變量間的關系。當今線性回歸之所以比非線性回歸應用甚多,原因在于無論從數(shù)學理論還是計算方法,線性回歸都比非線性回歸模型簡單得多。o 通過自變量的變換實現(xiàn)線性化通過自變量的變換

24、實現(xiàn)線性化實踐中有兩類非線性關系,一類是通過自變量x的適當變換可線性化的,另一類是不可能通過自變量x的變換實現(xiàn)線性化的 iiixy210iiixy)log(10iiixy*10x數(shù)據(jù)變換ixiiey10ixiiey)(10iiiixxy10不能線性化的關系不能線性化的關系變換自變量實現(xiàn)線性回歸步驟變換自變量實現(xiàn)線性回歸步驟 1.將觀測數(shù)據(jù)(xi, yi), i=1,2,n作散點圖,觀察散點分布特征類似于何種函數(shù)類型;2.按照所選定的函數(shù)進行相應的變量變換;3.對變換后的數(shù)據(jù)用常規(guī)最小二乘法(ols)作線性模型的參數(shù)估計。4.一般擬合多個相近的模型,然后通過對各個模型的擬合優(yōu)度評價挑選較為合適的

25、模型。 o例12-2 為了研究某藥物濃度與腎上腺素釋放的量關系,選取10個給藥物濃度水平,每種藥物劑量水平上重復5次試驗,觀測結果如表12-3所示。欲用合適的回歸模型描述該藥品劑量與反應的規(guī)律 藥物劑量(mg)腎上腺素釋放量(pg/ml)1519.2614.2917.6018.3616.532021.2021.7820.7720.6523.382521.7722.6122.7021.1721.653023.4723.2221.7424.0224.053523.8825.3222.9024.8423.704025.2724.6924.6724.4825.244524.2024.9425.5225.0227.435027.9825.8826.6726.3125.945527.4224.9126.4228.2425.496028.4127.0929.0428.8527.89o 由結果可見:在所擬合的三種模型中,以x對數(shù)函數(shù)回歸的效果最佳,該模型擬合的殘差均方最小,決定系數(shù)最大 模型名稱回歸方程msef值p值r2值簡單線性1.91786212.480.00010.8157對數(shù)函數(shù)1.39592309.88.00010.8659二次函數(shù)2.72770135.050.00010.852xy19879. 052265.16)ln(80477. 61

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論