版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第一元線性回歸演示文稿當前1頁,總共76頁。(優(yōu)選)第一元線性回歸當前2頁,總共76頁。第9章一元線性回歸9.1
變量間關系的度量9.2一元線性回歸的估計和檢驗9.3利用回歸方程進行預測9.4用殘差檢驗模型的假定
regressionanalysis當前3頁,總共76頁。學習目標相關關系的分析參數的最小二乘估計回歸直線的擬合優(yōu)度回歸方程的顯著性檢驗利用回歸方程進行預測用殘差證實模型的假定用Excel
和SPSS進行回歸當前4頁,總共76頁。子代與父代一樣嗎?Galton被譽為現代回歸和相關技術的創(chuàng)始人。1875年,Galton利用豌豆實驗來確定尺寸的遺傳規(guī)律。他挑選了7組不同尺寸的豌豆,并說服他在英國不同地區(qū)的朋友每一組種植10粒種子,最后把原始的豌豆種子(父代)與新長的豌豆種子(子代)進行尺寸比較當結果被繪制出來之后,他發(fā)現并非每一個子代都與父代一樣,不同的是,尺寸小的豌豆會得到更大的子代,而尺寸大的豌豆卻得到較小的子代。Galton把這一現象叫做“返祖”(趨向于祖先的某種平均類型),后來又稱之為“向平均回歸”。一個總體中在某一時期具有某一極端特征(低于或高于總體均值)的個體在未來的某一時期將減弱它的極端性(或者是單個個體或者是整個子代),這一趨勢現在被稱作“回歸效應”。人們發(fā)現它的應用很廣,而不僅限于從一代到下一代豌豆大小問題當前5頁,總共76頁。子代與父代一樣嗎?正如Galton進一步發(fā)現的那樣,平均來說,非常矮小的父輩傾向于有偏高的子代;而非常高大的父輩則傾向于有偏矮的子代。在第一次考試中成績最差的那些學生在第二次考試中傾向于有更好的成績(比較接近所有學生的平均成績),而第一次考試中成績最好的那些學生在第二次考試中則傾向于有較差的成績(同樣比較接近所有學生的平均成績)。同樣,平均來說,第一年利潤最低的公司第二年不會最差,而第一年利潤最高的公司第二年則不會是最好的如果把父代和子代看作兩個變量,找出這兩個變量的關系,并根據這種關系建立適當的數學模型,就可以根據父代的數值預測子代的取值,這就是經典的回歸方法要解決的問題。學完本章的內容你會對回歸問題有更深入的理解當前6頁,總共76頁。回歸分析研究什么?研究某些實際問題時往往涉及到多個變量。在這些變量中,有一個變量是研究中特別關注的,稱為因變量,而其他變量則看成是影響這一變量的因素,稱為自變量假定因變量與自變量之間有某種關系,并把這種關系用適當的數學模型表達出來,那么,就可以利用這一模型根據給定的自變量來預測因變量,這就是回歸要解決的問題在回歸分析中,只涉及一個自變量時稱為一元回歸,涉及多個自變量時則稱為多元回歸。如果因變量與自變量之間是線性關系,則稱為線性回歸(linearregression);如果因變量與自變量之間是非線性關系則稱為非線性回歸(nonlinearregression)當前7頁,總共76頁。
9.1變量間的關系
9.1.1變量間是什么樣的關系?
9.1.2用散點圖描述相關關系
9.1.3用相關系數度量關系強度第9章一元線性回歸當前8頁,總共76頁。怎樣分析變量間的關系?建立回歸模型時,首先需要弄清楚變量之間的關系。分析變量之間的關系需要解決下面的問題變量之間是否存在關系?如果存在,它們之間是什么樣的關系?變量之間的關系強度如何?樣本所反映的變量之間的關系能否代表總體變量之間的關系?當前9頁,總共76頁。9.1.1變量間是什么樣的關系?9.1變量間的關系當前10頁,總共76頁。xy函數關系是一一對應的確定關系設有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x
,當變量x取某個數值時,
y依確定的關系取相應的值,則稱y是x的函數,記為y=f(x),其中x稱為自變量,y稱為因變量各觀測點落在一條線上
當前11頁,總共76頁。相關關系
(幾個例子)子女的身高與其父母身高的關系從遺傳學角度看,父母身高較高時,其子女的身高一般也比較高。但實際情況并不完全是這樣,因為子女的身高并不完全是由父母身高一個因素所決定的,還有其他許多因素的影響一個人的收入水平同他受教育程度的關系收入水平相同的人,他們受教育的程度也不可能不同,而受教育程度相同的人,他們的收入水平也往往不同。因為收入水平雖然與受教育程度有關系,但它并不是決定收入的惟一因素,還有職業(yè)、工作年限等諸多因素的影響農作物的單位面積產量與降雨量之間的關系在一定條件下,降雨量越多,單位面積產量就越高。但產量并不是由降雨量一個因素決定的,還有施肥量、溫度、管理水平等其他許多因素的影響當前12頁,總共76頁。相關關系
(correlation)一個變量的取值不能由另一個變量唯一確定當變量
x取某個值時,變量y的取值對應著一個分布各觀測點分布在直線周圍
yx當前13頁,總共76頁。9.1.2用散點圖描述相關關系9.1變量間的關系當前14頁,總共76頁。完全負線性相關完全正線性相關散點圖
(scatterdiagram)不相關負線性相關正線性相關非線性相關當前15頁,總共76頁。用散點圖描述變量間的關系
(例題分析)【例9-1】為研究銷售收入與廣告費用支出之間的關系,某醫(yī)藥管理部門隨機抽取20家藥品生產企業(yè),得到它們的年銷售收入和廣告費用支出(萬元)的數據如下。繪制散點圖描述銷售收入與廣告費用之間的關系原始數據當前16頁,總共76頁。散點圖
(銷售收入和廣告費用的散點圖)當前17頁,總共76頁。9.1.3用相關系數度量關系強度9.1變量間的關系當前18頁,總共76頁。相關系數
(correlationcoefficient)度量變量之間線性關系強度的一個統計量若相關系數是根據總體全部數據計算的,稱為總體相關系數,記為若是根據樣本數據計算的,則稱為樣本相關系數,簡稱為相關系數,記為r也稱為Pearson相關系數
(Pearson’scorrelationcoefficient)樣本相關系數的計算公式
計算相關系數Excel當前19頁,總共76頁。相關系數的性質性質1:r
的取值范圍是[-1,1]|r|=1,為完全相關r=1,為完全正相關r=-1,為完全負正相關r=0,不存在線性相關關系-1r<0,為負相關0<r1,為正相關|r|越趨于1表示關系越強;|r|越趨于0表示關系越弱當前20頁,總共76頁。相關系數的性質性質2:r具有對稱性。即x與y之間的相關系數和y與x之間的相關系數相等,即rxy=ryx性質3:r數值大小與x和y原點及尺度無關,即改變x和y的數據原點及計量尺度,并不改變r數值大小性質4:僅僅是x與y之間線性關系的一個度量,它不能用于描述非線性關系。這意為著,r=0只表示兩個變量之間不存在線性相關關系,并不說明變量之間沒有任何關系性質5:r雖然是兩個變量之間線性關系的一個度量,卻不一定意味著x與y一定有因果關系當前21頁,總共76頁。相關系數的經驗解釋|r|0.8時,可視為兩個變量之間高度相關0.5|r|<0.8時,可視為中度相關0.3|r|<0.5時,視為低度相關|r|<0.3時,說明兩個變量之間的相關程度極弱,可視為不相關上述解釋必須建立在對相關系數的顯著性進行檢驗的基礎之上當前22頁,總共76頁。相關系數的顯著性檢驗
(檢驗的步驟)1. 檢驗兩個變量之間是否存在線性相關關系采用提出的t檢驗檢驗的步驟為提出假設:H0:;H1:0計算檢驗的統計量用Excel中的【TDIST】函數得雙尾計算P值,并于顯著性水平比較,并作出決策若P<,拒絕H0當前23頁,總共76頁。相關系數的顯著性檢驗
(例題分析)【例9-3】檢驗銷售收入與廣告費用之間的相關系數是否顯著(0.05)提出假設:H0:;H1:0計算檢驗的統計量3.用Excel中的【TDIST】函數得雙尾P=2.743E-09<0.05,拒絕H0,銷售收入與廣告費用之間的相關系數顯著當前24頁,總共76頁。相關系數的顯著性檢驗
(SPSS輸出結果)第1步:選擇【Analyze】【Correlate-Bivariate】第2步:將兩個變量(本例為銷售收入和廣告費用)分別選入【Variables】。點擊【OK】當前25頁,總共76頁。
9.2一元線性回歸的估計和檢驗
9.2.1一元線性回歸模型
9.2.2參數的最小二乘估計
9.2.3回歸直線的擬合優(yōu)度
9.2.4顯著性檢驗第9章一元線性回歸當前26頁,總共76頁。9.2.1一元線性回歸模型9.2一元線性回歸的估計和檢驗當前27頁,總共76頁。什么是回歸分析?
(regressionanalysis)重點考察考察一個特定的變量(因變量),而把其他變量(自變量)看作是影響這一變量的因素,并通過適當的數學模型將變量間的關系表達出來利用樣本數據建立模型的估計方程對模型進行顯著性檢驗進而通過一個或幾個自變量的取值來估計或預測因變量的取值當前28頁,總共76頁。一元線性回歸涉及一個自變量的回歸因變量y與自變量x之間為線性關系被預測或被解釋的變量稱為因變量(dependentvariable),用y表示用來預測或用來解釋因變量的一個或多個變量稱為自變量(independentvariable),用x表示因變量與自變量之間的關系用一個線性方程來表示當前29頁,總共76頁。一元線性回歸模型
(linearregressionmodel)描述因變量y如何依賴于自變量x和誤差項
的方程稱為回歸模型一元線性回歸模型可表示為
y=b0+b1x+ey是x的線性函數(部分)加上誤差項線性部分反映了由于x的變化而引起的y的變化誤差項
是隨機變量反映了除x和y之間的線性關系之外的隨機因素對y的影響是不能由x和y之間的線性關系所解釋的變異性0和1稱為模型的參數當前30頁,總共76頁。一元線性回歸模型
(基本假定)
因變量x與自變量y之間具有線性關系在重復抽樣中,自變量x的取值是固定的,即假定x是非隨機的誤差項滿足正態(tài)性。是一個服從正態(tài)分布的隨機變量,且期望值為0,即
~N(0,2)。對于一個給定的x值,y的期望值為E(y)=0+1x方差齊性。對于所有的x值,的方差一個特定的值,的方差也都等于2都相同。同樣,一個特定的x值,y的方差也都等于2獨立性。獨立性意味著對于一個特定的x值,它所對應的ε與其他x值所對應的ε不相關;對于一個特定的x值,它所對應的y值與其他x所對應的y值也不相關當前31頁,總共76頁。估計的回歸方程
(estimatedregressionequation)總體回歸參數和
是未知的,必須利用樣本數據去估計用樣本統計量和代替回歸方程中的未知參數和,就得到了估計的回歸方程一元線性回歸中估計的回歸方程為其中:是估計的回歸直線在y
軸上的截距,是直線的斜率,它表示對于一個給定的x
的值,是y
的估計值,也表示x
每變動一個單位時,y的平均變動值
當前32頁,總共76頁。9.2.2參數的最小二乘估計9.2一元線性回歸的估計和檢驗當前33頁,總共76頁。參數的最小二乘估計
(methodofleastsquares)德國科學家KarlGauss(1777—1855)提出用最小化圖中垂直方向的誤差平方和來估計參數
使因變量的觀察值與估計值之間的誤差平方和達到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關系與實際數據的誤差比其他任何直線都小當前34頁,總共76頁。KarlGauss的最小化圖xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)ei=yi-yi^當前35頁,總共76頁。參數的最小二乘估計
(
和的計算公式)
根據最小二乘法,可得求解和的公式如下當前36頁,總共76頁。參數的最小二乘估計
(例題分析)【例9-4】根據例9-1的數據,求銷售收入與廣告費用的估計的回歸方程第1步:選擇【工具】下拉菜單,并選擇【數據分析】選項第2步:在分析工具中選擇【回歸】,選擇【確定】第2步:當對話框出現時
在【Y值輸入區(qū)域】設置框內鍵入Y的數據區(qū)域在【X值輸入區(qū)域】設置框內鍵入X的數據區(qū)域在【置信度】選項中給出所需的數值在【輸出選項】中選擇輸出區(qū)域在【殘差】分析選項中選擇所需的選項回歸分析Excel當前37頁,總共76頁。參數的最小二乘估計
(Excel輸出結果)【例】求銷售收入與廣告費用的估計回歸方程,并解釋回歸系數的含義當前38頁,總共76頁。用SPSS進行回歸第1步:選擇【Analyze】下拉菜單,并選擇【Regression-linear】選項,進入主對話框第2步:在主對話框中將因變量(本例為銷售收入)選入【Dependent】,將自變量(本例為廣告費用)選入【Independent(s)】第3步:點擊【Save】
在【PredictedValues】下選中【Unstandardized】(輸出點預測值)
在【Predictioninterval】下選中【Mean】和【Individual】(輸出置信區(qū)間和預測區(qū)間)
在【ConfidenceInterval】中選擇所要求的置信水平(隱含值95%,一般不用改變)
在【Residuals】下選中【Unstandardized】和【standardized】(輸出殘差和標準化殘差)
點擊【Continue】回到主對話框。點擊【OK】進行回歸SPSS當前39頁,總共76頁。參數的最小二乘估計
(SPSS輸出結果)當前40頁,總共76頁。參數的最小二乘估計
(例題分析)當前41頁,總共76頁。9.2.3回歸直線的擬合優(yōu)度9.2一元線性回歸的估計和檢驗當前42頁,總共76頁。變差因變量
y的取值是不同的,y取值的這種波動稱為變差。變差來源于兩個方面由于自變量x的取值不同造成的除x以外的其他因素(如x對y的非線性影響、測量誤差等)的影響對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差來表示當前43頁,總共76頁。誤差分解圖xyy當前44頁,總共76頁。誤差平方和的分解
(誤差平方和的關系)
SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{當前45頁,總共76頁。誤差平方和的分解
(三個平方和的意義)總平方和(SST—totalsumofsquares)反映因變量的n個觀察值與其均值的總誤差回歸平方和(SSR—sumofsquaresofregression)反映自變量x
的變化對因變量y
取值變化的影響,或者說,是由于x
與y
之間的線性關系引起的y
的取值變化,也稱為可解釋的平方和殘差平方和(SSE—sumofsquaresoferror)反映除x
以外的其他因素對y
取值的影響,也稱為不可解釋的平方和或剩余平方和當前46頁,總共76頁。判定系數R2
(coefficientofdetermination)回歸平方和占總誤差平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間R21,說明回歸方程擬合的越好;R20,說明回歸方程擬合的越差決定系數平方根等于相關系數輸出結果Excel當前47頁,總共76頁。估計標準誤差
(standarderrorofestimate)實際觀察值與回歸估計值誤差平方和的均方根反映實際觀察值在回歸直線周圍的分散狀況對誤差項的標準差的估計,是在排除了x對y的線性影響后,y隨機波動大小的一個估計量反映用估計的回歸方程預測y時預測誤差的大小
計算公式為輸出結果Excel當前48頁,總共76頁。9.2.4顯著性檢驗9.2一元線性回歸的估計和檢驗當前49頁,總共76頁。線性關系的檢驗檢驗自變量與因變量之間的線性關系是否顯著將回歸均方(MSR)同殘差均方(MSE)加以比較,應用F檢驗來分析二者之間的差別是否顯著回歸均方:回歸平方和SSR除以相應的自由度(自變量的個數k)殘差均方:殘差平方和SSE除以相應的自由度(n-k-1)當前50頁,總共76頁。線性關系的檢驗
(檢驗的步驟)
提出假設H0:1=0線性關系不顯著2.計算檢驗統計量F確定顯著性水平,并根據分子自由度1和分母自由度n-2求統計量的P值作出決策:若P<,拒絕H0。表明兩個變量之間的線性關系顯著輸出結果Excel當前51頁,總共76頁?;貧w系數的檢驗和推斷在一元線性回歸中,等價于線性關系的顯著性檢驗采用t檢驗檢驗x與y之間是否具有線性關系,或者說,檢驗自變量x對因變量y的影響是否顯著理論基礎是回歸系數
的抽樣分布當前52頁,總共76頁?;貧w系數的檢驗和推斷
(檢驗步驟)
提出假設H0:b1=0(沒有線性關系)H1:b1
0(有線性關系)計算檢驗的統計量確定顯著性水平,計算出統計量的P值,并做出決策P<,拒絕H0,表明自變量是影響因變量的一個顯著因素當前53頁,總共76頁?;貧w系數的檢驗和推斷
(b1和b0的置信區(qū)間)
b1在1-置信水平下的置信區(qū)間為
b0在1-置信水平下的置信區(qū)間為輸出結果Excel當前54頁,總共76頁。
9.3利用回歸方程進行預測
9.3.1平均值的置信區(qū)間
9.3.2個別值的預測區(qū)間第9章一元線性回歸當前55頁,總共76頁。區(qū)間估計對于自變量
x的一個給定值x0,根據回歸方程得到因變量y的一個估計區(qū)間區(qū)間估計有兩種類型置信區(qū)間估計(confidenceintervalestimate)預測區(qū)間估計(predictionintervalestimate)當前56頁,總共76頁。9.3.1平均值的置信區(qū)間9.3利用回歸方程進行預測當前57頁,總共76頁。平均值的置信區(qū)間利用估計的回歸方程,對于自變量x的一個給定值x0
,求出因變量y
的平均值的估計區(qū)間,這一估計區(qū)間稱為置信區(qū)間(confidenceinterval)
E(y0)
在1-置信水平下的置信區(qū)間為式中:se為估計標準誤差當前58頁,總共76頁。個別值的預測區(qū)間利用估計的回歸方程,對于自變量x的一個給定值x0
,求出因變量y
的一個個別值的估計區(qū)間,這一區(qū)間稱為預測區(qū)間(predictioninterval)
y0在1-置信水平下的預測區(qū)間為注意!當前59頁,總共76頁。置信區(qū)間和預測區(qū)間xpyxx預測上限置信上限預測下限置信下限當前60頁,總共76頁。用SPSS進行回歸第1步:選擇【Analyze】下拉菜單,并選擇【Regression-linear】選項,進入主對話框第2步:在主對話框中將因變量(本例為銷售收入)選入【Dependent】,將自變量(本例為廣告費用)選入【Independent(s)】第3步:點擊【Save】
在【PredictedValues】下選中【Unstandardized】(輸出點預測值)
在【Predictioninterval】下選中【Mean】和【Individual】(輸出置信區(qū)間和預測區(qū)間)
在【ConfidenceInterval】中選擇所要求的置信水平(隱含值95%,一般不用改變)
在【Residuals】下選中【Unstandardized】和【standardized】(輸出殘差和標準化殘差)
點擊【Continue】回到主對話框。點擊【OK】進行回歸SPSS當前61頁,總共76頁。置信區(qū)間和預測區(qū)間
(例題分析)點預測值置信線預測線當前62頁,總共76頁。用SPSS做區(qū)間圖
第1步:點擊【Graphs】【Interactive-Scatterplot】第2步:點擊【2DCoordine】,將各坐標軸變量拖入相應坐標軸第3步:點擊【Fit】,在【method】下選擇【Regression】,在【PredictionLines】下選擇【Mean】和【Individual】。點擊【確定】做區(qū)間圖SPSS當前63頁
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年裝修工程合同協議書模板
- 2025年度物流包裝材料供應合同范本3篇
- 2024年股東股權協議書:攜手共進共鑄輝煌
- 2024年餐飲業(yè)務合作伙伴加盟合同樣本版B版
- 2024年版融資租賃合同詳案解析版
- 2024蝦池承包養(yǎng)殖與水產養(yǎng)殖廢棄物資源化利用合同3篇
- 2024年車展志愿者服務協議
- 2024年貨物存儲點保管合同
- 2024年頂級高額擔保協議模板版B版
- 2024年高速公路停車場安全管理服務協議3篇
- 二年級數學(上)計算題專項練習
- 2024年初一英語閱讀理解專項練習及答案
- 天津公司股權轉讓協議
- 鋼筋負溫度焊接工藝要求
- 開發(fā)建設項目水土保持方案編制技術問題-廣東省水土保持網
- 薄膜衰減片的仿真設計
- 國家開放大學畢業(yè)生登記表
- DLT724-2000 電力系統用蓄電池直流電源裝置運行維護
- 建設工程項目施工安全管理流程圖3頁
- 市政道路工程單位工程質量驗收記錄
- paper-季銨鹽研究進展
評論
0/150
提交評論