第三講一元線性回歸演示文稿_第1頁
第三講一元線性回歸演示文稿_第2頁
第三講一元線性回歸演示文稿_第3頁
第三講一元線性回歸演示文稿_第4頁
第三講一元線性回歸演示文稿_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第三講一元線性回歸演示文稿現(xiàn)在是1頁\一共有50頁\編輯于星期五(優(yōu)選)第三講一元線性回歸現(xiàn)在是2頁\一共有50頁\編輯于星期五Y=10.766+0.005X+u現(xiàn)在是3頁\一共有50頁\編輯于星期五測試成績和學生/教師比關系的OLS估計值及其分析。打開數據文件:score.dtaregtestscrstr現(xiàn)在是4頁\一共有50頁\編輯于星期五testscr=698.93-2.28str+u現(xiàn)在是5頁\一共有50頁\編輯于星期五回歸結果的分析現(xiàn)在是6頁\一共有50頁\編輯于星期五現(xiàn)在是7頁\一共有50頁\編輯于星期五1。截距項和斜率的含義是什么?本題的截距表示:學生教師比為0(沒有學生時)的測試成績的最高值,因此沒有實際意義。可以理解為確定回歸線的系數?,F(xiàn)在是8頁\一共有50頁\編輯于星期五斜率:表示彈性

-2.28的斜率表示當每個教師對應的學生人數增加1個時,學區(qū)測試成績將平均下降2.28分。而當每個教師對應的學生人數減少2個時,測試成績平均提高:((-2)×(-2.28))=4.56分,負的斜率表明每個教師對應的學生人數越多(較大規(guī)模的班),則相應的測試成績越差?,F(xiàn)在是9頁\一共有50頁\編輯于星期五

2。方程的經濟預測能力:得到回歸結果后,可以進行簡單的預測,只要給定學生/教師比(X)取值后就能預測全學區(qū)的測試成績了。

testscr=698.93-2.28×str+u

如每個教師對應20個學生的學區(qū),其測試成績預測值為698.93-2.28×20=653.30。當然,由于其他決定學區(qū)成績的因素(u)的影響,預測不會是絕對正確的。預測的準確程度取決于模型的優(yōu)劣?,F(xiàn)在是10頁\一共有50頁\編輯于星期五3。方程的斜率的大小評估:觀察選取的420個樣本的總體分布(分位數)現(xiàn)在是11頁\一共有50頁\編輯于星期五一個例子:

假設某個學區(qū)處于加利福尼亞學區(qū)的中位數,對應的學生/教師比為19.7,現(xiàn)在想減少到17.7。一方面:她的學區(qū)學生/教師比從50%分位數移到接近10%分位數。這是一個相當大的變動。另一方面:帶入方程,測試成績預計從654.5提高到659.1,從50%分位數移到將近60%分位數?,F(xiàn)在是12頁\一共有50頁\編輯于星期五股票的beta值:證券組合的風險與報酬(一)證券組合的風險同時投資于多種證券的方式稱為證券的投資組合,簡稱證券組合或投資組合。證券組合的風險分為可分散風險與不可分散風險??煞稚L險不可分散風險別稱非系統(tǒng)性風險公司特別風險系統(tǒng)性風險市場風險含義某些因素對單個證券造成經濟損失的可能性某些因素給市場上所有證券都帶來經濟損失的可能性特性可通過證券持有的多樣化來抵消不能通過證券組合分散掉13可分散風險可通過證券組合來消減現(xiàn)在是13頁\一共有50頁\編輯于星期五Rm是市場組合的期望收益,一般用C&P500組合收益,Rf是市場無風險收益,可以理解為各類存款收益?,F(xiàn)在是14頁\一共有50頁\編輯于星期五我們把利用OLS方法估計出的參數b0和b1稱為OLS估計量,用表示。用OLS方法估計出的方程:現(xiàn)在是15頁\一共有50頁\編輯于星期五殘差的概念殘差是每個樣本的擬合值和實際值之間的差。用ei或者表示。樣本回歸模型:樣本擬合線:殘差值:現(xiàn)在是16頁\一共有50頁\編輯于星期五基本原理:1。確定樣本個數n,給出觀測值(Xi,Yi),

i=1,2,3,…n。由于樣本容量已定,樣本回歸模型可寫為:其中稱為回歸系數(擬合參數),稱為殘差(擬合誤差)。普通最小二乘法(OLS)現(xiàn)在是17頁\一共有50頁\編輯于星期五2。利用OLS法尋找殘差的平方和最小的直線,估計出的具體值。3。此時可得到利用OLS方法測算出的Y的擬合值,注意,并不是實際的Y值,有如下計算公式:因此,是Y的估計值或擬合值,而殘差的大小決定了模型的優(yōu)劣?,F(xiàn)在是18頁\一共有50頁\編輯于星期五思考:與ui是否是一回事?有什么區(qū)別和聯(lián)系?現(xiàn)在是19頁\一共有50頁\編輯于星期五直線上的點的坐標是,樣本點的坐標是Yi

是從樣本點到直線的距離。現(xiàn)在是20頁\一共有50頁\編輯于星期五擬合優(yōu)度擬合優(yōu)度R2:描述OLS回歸線對樣本數據的擬合效果;描述觀測值在回歸線附近的離散程度;同時描述了樣本數據有多大程度可以被回歸方程所解釋?;貧wR2是指可由Xi解釋(或預測)的Yi樣本方差的比例。現(xiàn)在是21頁\一共有50頁\編輯于星期五OLS方法得到的擬合線一定是所有直線中擬合效果最好的,但由于樣本自身的原因,擬合效果有好有壞。最典型的例子是錯誤的函數形式現(xiàn)在是22頁\一共有50頁\編輯于星期五這是一個典型的對數函數的例子,用線性方程,模擬效果較差?,F(xiàn)在是23頁\一共有50頁\編輯于星期五擬合優(yōu)度現(xiàn)在是24頁\一共有50頁\編輯于星期五

對于所有樣本點的平方和,均有下列結論:記總體平方和(TotalSumofSquares)回歸平方和(ExplainedSumofSquares)殘差平方和(ResidualSumofSquares

)現(xiàn)在是25頁\一共有50頁\編輯于星期五TSS=ESS+RSS(證明見附錄)

Y的觀測值圍繞其均值的總離差(totalvariation)可分解為兩部分:一部分來自回歸線(ESS),另一部分則來自隨機勢力(RSS)。在給定樣本中,TSS不變,如果實際觀測點離樣本回歸線越近,則ESS在TSS中占的比重越大,因此

擬合優(yōu)度:回歸平方和ESS/Y的總離差TSS現(xiàn)在是26頁\一共有50頁\編輯于星期五2、擬合優(yōu)度R2統(tǒng)計量

稱R2為(樣本)擬合優(yōu)度/可決系數/判定系數(coefficientofdetermination)。

擬合優(yōu)度的取值范圍:[0,1]

R2越接近1,說明實際觀測點離樣本線越近,擬合優(yōu)度越高?,F(xiàn)在是27頁\一共有50頁\編輯于星期五由于每次向回歸方程中增加解釋變量,R2必然只增不減。為此,可以通過調整自由度對解釋變量過多進行“懲罰”,因此,可以定義“校正的擬合優(yōu)度”

現(xiàn)在是28頁\一共有50頁\編輯于星期五察看上述例題的擬合優(yōu)度注意:1。擬合優(yōu)度一定程度上反映了選取變量的對被解釋變量的“解釋能力”。2。擬合優(yōu)度低一般說明方程忽略了某些重要的解釋因素。3。在大樣本下,擬合優(yōu)度一般不會太高?,F(xiàn)在是29頁\一共有50頁\編輯于星期五回歸標準誤差(SER)回歸標準誤差(standarderroroftheregression.SER)是回歸誤差u的標準差估計量,是用因變量單位度量的觀測值在回歸線附近的離散程度。對于誤差項ui,我們更關心它在回歸線附近的離散程度,即標準差。希望標準差越小越好。由于ui本身是不可知的,因此,實際上sui是無法獲得的,為了模擬其數值大小,我們用的標準差作為ui的標準差的估計值,稱為回歸的標準誤差?,F(xiàn)在是30頁\一共有50頁\編輯于星期五為什么要除以n-2?n-2是自由度?,F(xiàn)在是31頁\一共有50頁\編輯于星期五模型中樣本值可以自由變動的個數,稱為自由度。自由度=樣本個數—樣本數據受約束條件(方程)的個數。例如,樣本數據個數為n,它們受k個方程的約束(系數矩陣秩為k),那么,自由度df=n-k?,F(xiàn)在是32頁\一共有50頁\編輯于星期五其中n-2為自由度。由于隨機變量必須滿足k+1個正規(guī)方程(一元線形回歸模型中有2個方程),故只有n-k-1個是相互獨立的。經過這樣校正后,才是無偏估計。現(xiàn)在是33頁\一共有50頁\編輯于星期五如果無任何特征和規(guī)律可言,整個計量模型的建立將無法開展,因此,我們需要人為地為它設定一些假定條件。如果下列假定條件滿足,我們就可以用最小二乘法對模型進行回歸估計。本書中的經典假設是對于大樣本數據而言,根據中心極限定理,大樣本數據有很好的分布特征?,F(xiàn)在是34頁\一共有50頁\編輯于星期五假設1:給定Xi時ui的條件分布均值為零(1)隨機誤差項ui的數學期望為0。

E(ui|Xi)=0。同時:

E(Yi|Xi)=E()=E()=

理論上,隨機誤差項被假定為沒有被納入到模型中的微小影響,因此,沒有理由相信這樣一些影響會以一種系統(tǒng)的方式使被解釋變量變大或者變小,可以假定其均值為0?,F(xiàn)在是35頁\一共有50頁\編輯于星期五現(xiàn)在是36頁\一共有50頁\編輯于星期五例如對某一給定的班級規(guī)模Xi,如每班20個學生,其他因素ui有時使成績高于預測值(ui>0),有時使成績低于預測值(ui<0),但就總體平均而言,ui的分布的均值為零。同時,給定班級規(guī)模Xi,由于ui的干擾,某些Y’i的值大于Yi,某些Y’i的值小于Yi,但就總體平均而言,Y’i的分布的均值為E(Yi|Xi)=B0+B1Xi,即總體均值在回歸線上。現(xiàn)在是37頁\一共有50頁\編輯于星期五推論E(ui|Xi)=0意味著ui和Xi不相關,即:Corr(ui,Xi)=0這是最小二乘法最基本的假設,如果Corr(ui,Xi)<>0,模型是有偏的?,F(xiàn)在是38頁\一共有50頁\編輯于星期五假設2:(Xi,Yi)滿足獨立同分布每次從總體中的抽樣都包含相同的分布;同時,每次抽樣均是獨立進行的??梢宰C明:(Xi,Yi)滿足獨立同分布,則Xi也滿足獨立同分布。現(xiàn)在是39頁\一共有50頁\編輯于星期五假設3:不太可能出現(xiàn)大異常值有限峰度假設現(xiàn)在是40頁\一共有50頁\編輯于星期五當出現(xiàn)大異常值時,X和Y分布的峰度會變得很大。包含四階距,要求其有限。即:0<E(Xi4)<∞0<E(Yi4)<∞現(xiàn)在是41頁\一共有50頁\編輯于星期五出現(xiàn)大異常值的一種可能是數據登錄錯誤,如印刷錯誤或對不同觀測錯誤地采用了不同的單位:如設想一下收集以米為單位的學生身高數據,但不小心把其中一個學生的身高記成了以厘米為單位。發(fā)現(xiàn)異常值的一種方法是畫出數據圖。如果你確定是由于數據登錄錯誤造成了異常值,則你可以改正這個錯誤,如果不能改正就把它從數據集中刪除?,F(xiàn)在是42頁\一共有50頁\編輯于星期五最小二乘假設的作用主要作用:大樣本下,抽樣分布服從正態(tài)分布。同時,假設樣本數據沒有錯誤?,F(xiàn)在是43頁\一共有50頁\編輯于星期五OLS估計量的抽樣分布現(xiàn)在是44頁\一共有50頁\編輯于星期五OLS估計量的抽樣分布在ui滿足高斯假定條件時,通過OLS方法,我們可以得到回歸系數的估計量成為的擬合值。注意:是不是兩個常數?現(xiàn)在是45頁\一共有50頁\編輯于星期五計量回歸模型中,對于要研究的問題,可以建立方程:這是總體的方程描述。應該能夠確定。但事實上我們沒有能力獲得整體信息,只能通過部分數據模擬整體分布,即抽樣。現(xiàn)在是46頁\一共有50頁\編輯于星期五我們是在總體中進行抽樣。每抽取一組樣本就會有一組相應的回歸系數,因此,一定不是常數,而是隨機變量,并且具有一定的概率分布。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論