統(tǒng)計學第11章一元線性回歸

上傳人：5*** IP屬地：湖北上傳時間：2022-03-19 格式：PPT 頁數(shù)：92 大小：8.50MB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩87頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、第11章一元線性回歸統(tǒng)計學第11章一元線性回歸11.1 變量間關(guān)系的度量變量間關(guān)系的度量 11.2 一元線性回歸一元線性回歸11.3 利用回歸方程進行估計和預測利用回歸方程進行估計和預測11.4 殘差分析殘差分析學習目標1. 相關(guān)關(guān)系的分析方法相關(guān)關(guān)系的分析方法2.一元線性回歸的基本原理和參數(shù)的最小二乘估計一元線性回歸的基本原理和參數(shù)的最小二乘估計3.回歸直線的擬合優(yōu)度回歸直線的擬合優(yōu)度4.回歸方程的顯著性檢驗回歸方程的顯著性檢驗5.利用回歸方程進行估計和預測利用回歸方程進行估計和預測6.用用 Excel 進行回歸進行回歸變量間的關(guān)系函數(shù)關(guān)系1.是一一對應(yīng)的確定關(guān)系2.設(shè)有兩個變量 x 和

2、 y ，變量 y 隨變量 x 一起變化，并完全依賴于 x ，當變量 x 取某個數(shù)值時， y 依確定的關(guān)系取相應(yīng)的值，則稱 y 是 x 的函數(shù)，記為 y = f (x)，其中 x 稱為自變量，y 稱為因變量3.各觀測點落在一條線上函數(shù)關(guān)系(幾個例子)相關(guān)關(guān)系(correlation)1.變量間關(guān)系不能用函數(shù)關(guān)系精確表達2.一個變量的取值不能由另一個變量唯一確定3.當變量 x 取某個值時，變量 y 的取值可能有幾個4.各觀測點分布在直線周圍相關(guān)關(guān)系(幾個例子)相關(guān)關(guān)系(類型)正正相相關(guān)關(guān) 負負相相關(guān)關(guān)線線性性相相關(guān)關(guān) 非非線線性性相相關(guān)關(guān)正正相相關(guān)關(guān) 負負相相關(guān)關(guān)

3、完完全全相相關(guān)關(guān) 不不相相關(guān)關(guān)相相關(guān)關(guān) 關(guān)關(guān) 系系相關(guān)關(guān)系的描述與測度(散點圖)相關(guān)分析及其假定1.相關(guān)分析要解決的問題變量之間是否存在關(guān)系？如果存在關(guān)系，它們之間是什么樣的關(guān)系？變量之間的關(guān)系強度如何？樣本所反映的變量之間的關(guān)系能否代表總體變量之間的關(guān)系？2.為解決這些問題，在進行相關(guān)分析時，對總體有以下兩個主要假定兩個變量之間是線性關(guān)系兩個變量都是隨機變量散點圖(scatter diagram)散點圖(例題分析)【例例】一家大型商業(yè)銀行在多個地區(qū)設(shè)有分行，其業(yè)務(wù)主要是進行基礎(chǔ)設(shè)施建設(shè)、國家重點項目建設(shè)、固定資產(chǎn)投資等項目的貸款。近年來，該銀行的貸款額平穩(wěn)增長，但不良貸款額也有較

4、大比例的增長，這給銀行業(yè)務(wù)的發(fā)展帶來較大壓力。為弄清楚不良貸款形成的原因，管理者希望利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)做些定量分析，以便找出控制不良貸款的辦法。下面是該銀行所屬的25家分行2002年的有關(guān)業(yè)務(wù)數(shù)據(jù) 散點圖(例題分析)散點圖(不良貸款對其他變量的散點圖)相關(guān)關(guān)系的描述與測度(相關(guān)系數(shù))相關(guān)系數(shù)(correlation coefficient)1.度量變量之間關(guān)系強度的一個統(tǒng)計量2.對兩個變量之間線性相關(guān)強度的度量稱為簡單相關(guān)系數(shù)3.若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的，稱為總體相關(guān)系數(shù)，記為 4.若是根據(jù)樣本數(shù)據(jù)計算的，則稱為樣本相關(guān)系數(shù)，簡稱為相關(guān)系數(shù)，記為 r也稱為線性相關(guān)系數(shù)(linea

5、r correlation coefficient) 或稱為Pearson相關(guān)系數(shù) (Pearsons correlation coefficient) 相關(guān)系數(shù) (計算公式) 樣本相關(guān)系數(shù)的計算公式相關(guān)系數(shù)的性質(zhì)性質(zhì)性質(zhì)1：r 的取值范圍是 -1,1 |r|=1，為完全相關(guān)r =1，為完全正相關(guān)r =-1，為完全負正相關(guān) r = 0，不存在線性線性相關(guān)關(guān)系 -1r0，為負相關(guān)0r1，為正相關(guān)|r|越趨于1表示關(guān)系越強；|r|越趨于0表示關(guān)系越弱相關(guān)系數(shù)的性質(zhì)性質(zhì)性質(zhì)2：r具有對稱性。即x與y之間的相關(guān)系數(shù)和y與x之間的相關(guān)系數(shù)相等，即rxy= ryx性質(zhì)性質(zhì)3：r數(shù)值大小與x和y原點及尺度無

6、關(guān)，即改變x和y的數(shù)據(jù)原點及計量尺度，并不改變r數(shù)值大小性質(zhì)性質(zhì)4：僅僅是x與y之間線性關(guān)系的一個度量，它不能用于描述非線性關(guān)系。這意為著， r=0只表示兩個變量之間不存在線性相關(guān)關(guān)系，并不說明變量之間沒有任何關(guān)系性質(zhì)性質(zhì)5：r雖然是兩個變量之間線性關(guān)系的一個度量，卻不一定意味著x與y一定有因果關(guān)系相關(guān)系數(shù)的經(jīng)驗解釋1. |r|0.8時，可視為兩個變量之間高度相關(guān)2.0.5|r|0.8時，可視為中度相關(guān)3.0.3|r|0.5時，視為低度相關(guān)4.|r|0.3時，說明兩個變量之間的相關(guān)程度極弱，可視為不相關(guān)5.上述解釋必須建立在對相關(guān)系數(shù)的顯著性進行檢驗的基礎(chǔ)之上相關(guān)系數(shù)(例題分析)用用Exc

7、el計算相關(guān)系數(shù)計算相關(guān)系數(shù)相關(guān)系數(shù)的顯著性檢驗相關(guān)系數(shù)的顯著性檢驗(檢驗的步驟)1. 檢驗兩個變量之間是否存在線性相關(guān)關(guān)系2.等價于對回歸系數(shù) b1的檢驗3.采用R.A.Fisher提出的 t 檢驗4.檢驗的步驟為提出假設(shè)：H0：；H1： 0相關(guān)系數(shù)的顯著性檢驗(例題分析) 對不良貸款與貸款余額之間的相關(guān)系數(shù)進行顯著性檢驗(0.05)1.提出假設(shè)：H0：；H1： 02.計算檢驗的統(tǒng)計量相關(guān)系數(shù)的顯著性檢驗(例題分析)各相關(guān)系數(shù)檢驗的統(tǒng)計量各相關(guān)系數(shù)檢驗的統(tǒng)計量什么是回歸分析？(Regression)1.從一組樣本數(shù)據(jù)出發(fā)，確定變量之間的數(shù)學關(guān)系式2.對這些關(guān)系式的可信程度進行各種統(tǒng)計檢驗

8、，并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著，哪些不顯著3.利用所求的關(guān)系式，根據(jù)一個或幾個變量的取值來預測或控制另一個特定變量的取值，并給出這種預測或控制的精確程度回歸模型的類型線線性性回回歸歸非非線線性性回回歸歸一一元元回回歸歸線線性性回回歸歸非非線線性性回回歸歸多多元元回回歸歸回回歸歸模模型型一元線性回歸模型一元線性回歸1.涉及一個自變量的回歸2.因變量y與自變量x之間為線性關(guān)系被預測或被解釋的變量稱為因變量(dependent variable)，用y表示用來預測或用來解釋因變量的一個或多個變量稱為自變量(independent

9、 variable)，用x表示 3.因變量與自變量之間的關(guān)系用一個線性方程來表示回歸模型(regression model)1.回答“變量之間是什么樣的關(guān)系？”2.方程中運用1 個數(shù)值型因變量(響應(yīng)變量)被預測的變量1 個或多個數(shù)值型或分類型自變量 (解釋變量)用于預測的變量3. 主要用于預測和估計一元線性回歸模型1.描述因變量 y 如何依賴于自變量 x 和誤差項的方程稱為回歸模型回歸模型2.一元線性回歸模型可表示為 y = b b + + b b1 1 x + + y 是 x 的線性函數(shù)(部分)加上誤差項線性部分反映了由于 x 的變化而引起的 y 的變化誤差項是隨機變量反映了除 x 和

10、y 之間的線性關(guān)系之外的隨機因素對 y 的影響是不能由 x 和 y 之間的線性關(guān)系所解釋的變異性b0 和 b1 稱為模型的參數(shù)一元線性回歸模型(基本假定) 1.因變量x與自變量y之間具有線性關(guān)系2.在重復抽樣中，自變量x的取值是固定的，即假定x是非隨機的3.誤差項是一個期望值為0的隨機變量，即E()=0。對于一個給定的 x 值，y 的期望值為E ( y ) =b b 0+ b b 1 x4.對于所有的 x 值，的方差2 都相同5.誤差項是一個服從正態(tài)分布的隨機變量，且相互獨立。即N(0 ,2 )獨立性意味著對于一個特定的 x 值，它所對應(yīng)的與其他 x 值所對應(yīng)的不相關(guān)對于一個特定的 x 值，它

11、所對應(yīng)的 y 值與其他 x 所對應(yīng)的 y 值也不相關(guān)一元線性回歸模型(基本假定) y回歸方程 (regression equation)1.描述 y 的平均值或期望值如何依賴于 x 的方程稱為回歸方程回歸方程2.一元線性回歸方程的形式如下 E( y ) = b b0+ b b1 x估計的回歸方程(estimated regression equation)參數(shù)的最小二乘估計最小二乘估計(method of least squares ) 0b1bKarl Gauss的最小化圖最小二乘法 ( 和的計算公式)估計方程的求法(例題分析)【例例】求不良貸款對貸款余額的回歸方程1b估計方程的求法(例題

12、分析)不良貸款對貸款余額回歸方程的圖示不良貸款對貸款余額的回歸直線不良貸款對貸款余額的回歸直線-2024681012140100200300400貸款余額不良貸款用Excel進行回歸分析第第1步：步：選擇【工具工具】下拉菜單第第2步：步：選擇【數(shù)據(jù)分析數(shù)據(jù)分析】選項第第3步：步：在分析工具中選擇【回歸回歸】，選擇【確定確定】第第4步：步：當對話框出現(xiàn)時在【Y值輸入?yún)^(qū)域值輸入?yún)^(qū)域】設(shè)置框內(nèi)鍵入Y的數(shù)據(jù)區(qū)域在【X值輸入?yún)^(qū)域值輸入?yún)^(qū)域】設(shè)置框內(nèi)鍵入X的數(shù)據(jù)區(qū)域在【置信度置信度】選項中給出所需的數(shù)值在【輸出選項輸出選項】中選擇輸出區(qū)域在【殘差殘差】分析選項中選擇所需的選項回歸直線的擬合優(yōu)度

13、變差1.因變量 y 的取值是不同的，y 取值的這種波動稱為變差。變差來源于兩個方面由于自變量 x 的取值不同造成的除 x 以外的其他因素(如x對y的非線性影響、測量誤差等)的影響2.對一個具體的觀測值來說，變差的大小可以通過該實際觀測值與其均值之差來表示誤差的分解(圖示) y誤差平方和的分解 (三個平方和的關(guān)系) 誤差平方和的分解 (三個平方和的意義)1.總平方和總平方和(SSTtotal sum of squares)反映因變量的 n 個觀察值與其均值的總誤差2.回歸平方和回歸平方和(SSRsum of squares of regression)反映自變量 x 的變化對因變量 y 取值變

14、化的影響，或者說，是由于 x 與 y 之間的線性關(guān)系引起的 y 的取值變化，也稱為可解釋的平方和3.殘差平方和殘差平方和(SSEsum of squares of error)反映除 x 以外的其他因素對 y 取值的影響，也稱為不可解釋的平方和或剩余平方和判定系數(shù)R2 (coefficient of determination)1.回歸平方和占總誤差平方和的比例判定系數(shù) (例題分析)【例例】計算不良貸款對貸款余額回歸的判定系數(shù)，并解釋其意義判定系數(shù)的實際意義是：判定系數(shù)的實際意義是：在不良貸款取值的變差中，有71.16%可以由不良貸款與貸款余額之間的線性關(guān)系來解釋，或者說，在不良貸款取值的變

15、動中，有71.16%是由貸款余額所決定的。也就是說，不良貸款取值的差異有2/3以上是由貸款余額決定的。可見不良貸款與貸款余額之間有較強的線性關(guān)系估計標準誤差(standard error of estimate)1.實際觀察值與回歸估計值誤差平方和的均方根2.反映實際觀察值在回歸直線周圍的分散狀況3.對誤差項的標準差的估計，是在排除了x對y的線性影響后，y隨機波動大小的一個估計量4.反映用估計的回歸方程預測y時預測誤差的大小 5.計算公式為顯著性檢驗線性關(guān)系的檢驗1.檢驗自變量與因變量之間的線性關(guān)系是否顯著2.將回歸均方(MSR)同殘差均方(MSE)加以比較，應(yīng)用F檢驗來分析二者之間的差別是

16、否顯著回歸均方：回歸平方和SSR除以相應(yīng)的自由度(自變量的個數(shù)k) 殘差均方：殘差平方和SSE除以相應(yīng)的自由度(n-k-1)線性關(guān)系的檢驗 (檢驗的步驟) 1.提出假設(shè)H0：b1=0 線性關(guān)系不顯著線性關(guān)系的檢驗 (例題分析) 1.提出假設(shè)H0：b1=0 不良貸款與貸款余額之間的線性關(guān)系不顯著2.計算檢驗統(tǒng)計量F線性關(guān)系的檢驗 (方差分析表) 回歸系數(shù)的檢驗回歸系數(shù)的檢驗 (檢驗步驟) 1.提出假設(shè)H0: b1 = 0 (沒有線性關(guān)系) H1: b1 0 (有線性關(guān)系) 2.計算檢驗的統(tǒng)計量回歸系數(shù)的檢驗 (例題分析)對例題的回歸系數(shù)進行顯著性檢驗(0.05)1.提出假設(shè)H0：b1 = 0 H

17、1：b1 0 2.計算檢驗的統(tǒng)計量回歸系數(shù)的檢驗 (例題分析)P 值的應(yīng)用值的應(yīng)用回歸分析結(jié)果的評價l建立的模型是否合適？或者說，這個擬合的模型有多“好”？要回答這些問題，可以從以下幾個方面入手1.所估計的回歸系數(shù) 的符號是否與理論或事先預期相一致在不良貸款與貸款余額的回歸中，可以預期貸款余額越多，不良貸款也可能會越多，也就是說，回歸系數(shù)的值應(yīng)該是正的，在上面建立的回歸方程中，我們得到的回歸系數(shù) 為正值，2.如果理論上認為x與y之間的關(guān)系不僅是正的，而且是統(tǒng)計上顯著的，那么所建立的回歸方程也應(yīng)該如此在不良貸款與貸款余額的回歸中，二者之間為正的線性關(guān)系，而且，對回歸系數(shù)的t檢驗結(jié)果表明而這之間的

18、線性關(guān)系是統(tǒng)計上顯著的回歸分析結(jié)果的評價3.回歸模型在多大程度上解釋了因變量y取值的差異？可以用判定系數(shù)R2來回答這一問題在不良貸款與貸款余額的回歸中，得到的R2=71.16%，解釋了不良貸款變差的2/3以上，說明擬合的效果還算不錯4.考察關(guān)于誤差項的正態(tài)性假定是否成立。因為我們在對線性關(guān)系進行F檢驗和回歸系數(shù)進行t檢驗時，都要求誤差項服從正態(tài)分布，否則，我們所用的檢驗程序?qū)⑹菬o效的。正態(tài)性的簡單方法是畫出殘差的直方圖或正態(tài)概率圖Excel輸出的部分回歸結(jié)果名稱名稱計算公式計算公式利用回歸方程進行估計和預測1.根據(jù)自變量 x 的取值估計或預測因變量 y的取值2.估計或預測的類型點估計y 的平均

19、值的點估計y 的個別值的點估計區(qū)間估計y 的平均值的置信區(qū)間置信區(qū)間估計y 的個別值的預測區(qū)間預測區(qū)間估計點估計點估計 y 的平均值的點估計利用估計的回歸方程，對于自變量 x 的一個給定值 x0 ，求出因變量 y 的平均值的一個估計值E(y0) ，就是平均值的點估計在前面的例子中，假如我們要估計貸款余額為100億元時，所有分行不良貸款的平均值，就是平均值的點估計。根據(jù)估計的回歸方程得y 的個別值的點估計利用估計的回歸方程，對于自變量 x 的一個給定值 x0 ，求出因變量 y 的一個個別值的估計值，就是個別值的點估計例如，如果我們只是想知道貸款余額為72.8億元的那個分行(這里是編號為10的

20、那個分行)的不良貸款是多少，則屬于個別值的點估計。根據(jù)估計的回歸方程得區(qū)間估計區(qū)間估計1.點估計不能給出估計的精度，點估計值與實際值之間是有誤差的，因此需要進行區(qū)間估計2.對于自變量 x 的一個給定值 x0，根據(jù)回歸方程得到因變量 y 的一個估計區(qū)間3.區(qū)間估計有兩種類型置信區(qū)間估計(confidence interval estimate)預測區(qū)間估計(prediction interval estimate)置信區(qū)間估計1.利用估計的回歸方程，對于自變量 x 的一個給定值 x0 ，求出因變量 y 的平均值的估計區(qū)間，這一估計區(qū)間稱為置信區(qū)間置信區(qū)間(confidence interval)2. E(y0) 在1-置信水平下的置信區(qū)間為置信區(qū)間估計(例題分析) 【例例】求出貸款余額為100億元時，不良貸款95%置信水平下的置信區(qū)間解：根據(jù)前面的計算結(jié)果，已知n=25， se=1.9799，t(25-2)=2.069 置信區(qū)間為預測區(qū)間估計1.利用估計的回歸方程，對于自變量 x 的一個給定值 x0 ，求出因變量 y 的一個個別值的估計區(qū)間，這一區(qū)間稱為預測區(qū)間預測區(qū)間(prediction interval) 2. y0在

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

統(tǒng)計學第11章一元線性回歸

文檔簡介

溫馨提示

最新文檔

評論

統(tǒng)計學第11章 一元線性回歸

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

統(tǒng)計學第11章一元線性回歸