第五講線性回歸_第1頁
第五講線性回歸_第2頁
第五講線性回歸_第3頁
第五講線性回歸_第4頁
第五講線性回歸_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第五講線性回歸第1頁,共54頁,2023年,2月20日,星期三問題例1、某企業(yè)多年為自己的產(chǎn)品在電視、報紙與Internet等不同的媒體投放廣告,其廣告支出每年皆有變化。在新的一年來臨之際,公司需要作出決定,在各個媒體應(yīng)投放增減多少廣告費?第2頁,共54頁,2023年,2月20日,星期三例2、對于國家的某個經(jīng)濟發(fā)展時期,應(yīng)保持多大的經(jīng)濟發(fā)展增速,才能保證全社會的就業(yè)與通脹保持在可接受的水平?第3頁,共54頁,2023年,2月20日,星期三例3、一個地區(qū)的石油需求取決于該地區(qū)生產(chǎn)與消費水平,尤其是制造業(yè)產(chǎn)值、產(chǎn)業(yè)結(jié)構(gòu)以及汽車保有量等。如何預(yù)測2020年中國的石油需求以及對外石油依存度?第4頁,共54頁,2023年,2月20日,星期三例4、一個人的幸福程度是取決于其本人收入水平的增長還是取決于其與周圍人群的比較?第5頁,共54頁,2023年,2月20日,星期三模型例1、以企業(yè)銷量或利潤為隨機因變量(響應(yīng)變量),不同媒體的廣告投放為自變量(可控制因素)建立函數(shù)關(guān)系:第6頁,共54頁,2023年,2月20日,星期三例2、以就業(yè)率與通脹率作為隨機響應(yīng)變量,以經(jīng)濟增長的指標變量(可包含總量與結(jié)構(gòu))作為自變量(可控制因素)建立函數(shù)關(guān)系:第7頁,共54頁,2023年,2月20日,星期三例3、以石油需求量作為隨機因變量,以制造業(yè)產(chǎn)值、產(chǎn)業(yè)結(jié)構(gòu)以及汽車保有量等作為可控自變量,建立函數(shù)關(guān)系:第8頁,共54頁,2023年,2月20日,星期三例4、以個人幸福程度作為隨機因變量,以本人收入水平和比較差距作為自變量,建立函數(shù)關(guān)系:第9頁,共54頁,2023年,2月20日,星期三線性回歸模型若f(x)的系數(shù)關(guān)系為線性的,且問題聚焦于隨機變量的均值變化規(guī)律,即稱為線性回歸模型,我們以n個樣本決定模型系數(shù)。一般樣本回歸模型如下,稱為多重線性回歸模型:當Y為一元隨機變量時,稱為一元線性回歸模型。否則稱為多元線性回歸模型。本課程僅討論Y為一元隨機變量的情形,參照多數(shù)資料的叫法,以自變量的維度來稱呼一元(或多元)線性回歸第10頁,共54頁,2023年,2月20日,星期三多重線性回歸模型的一般表達其中:k為解釋變量的數(shù)目,j稱為回歸參數(shù)(regressioncoefficient),也被稱為偏回歸系數(shù),表示在其他解釋變量保持不變的情況下,Xj每變化1個單位時,Y的均值E(Y)的變化;或者說j給出了Xj的單位變化對Y均值的“直接”或“凈”(不含其他變量)影響。第11頁,共54頁,2023年,2月20日,星期三續(xù)或或第12頁,共54頁,2023年,2月20日,星期三其中:(模型假設(shè)條件)第13頁,共54頁,2023年,2月20日,星期三模型參數(shù)估計普通最小二乘法(Theordinaryleastsquaresapproach,OLS)最大似然估計(ML)矩估計(MM)第14頁,共54頁,2023年,2月20日,星期三OLS方法使因變量的觀察值與估計值之間的離差平方和達到最小來求得和的方法。即用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實際數(shù)據(jù)的誤差比其他任何直線都小第15頁,共54頁,2023年,2月20日,星期三參數(shù)估計結(jié)果第16頁,共54頁,2023年,2月20日,星期三OLS系數(shù)的不確定性隨機變量y的誤差e取決于其方差s2,而方差s2可以根據(jù)殘差來估計,估計量為:根據(jù)模型假設(shè),顯然有:第17頁,共54頁,2023年,2月20日,星期三Y的置信區(qū)間自變量為x時y的平均響應(yīng)值為:統(tǒng)計量服從自由度為n-2的t分布,其置信區(qū)間可得??蓪С觯旱?8頁,共54頁,2023年,2月20日,星期三Y的預(yù)測區(qū)間當自變量為xi時y的真實值為:其預(yù)測區(qū)間的計算方法同置信區(qū)間??蓪С觯旱?9頁,共54頁,2023年,2月20日,星期三線性回歸模型的統(tǒng)計檢驗回歸模型檢驗包括整體模型顯著性檢驗與自變量顯著性檢驗兩種。第20頁,共54頁,2023年,2月20日,星期三目的在于檢驗?zāi)P椭兴凶宰兞肯禂?shù)是否全部為0,當自變量系數(shù)不全為0時,Y與(X1,X2,…,XK)才具有某種程度的函數(shù)關(guān)系。零假設(shè)及對立假設(shè):H0:j=0,

對所有jH1:j0

,對某些j(j=1,2,…,K)檢驗統(tǒng)計量:1、模型檢驗第21頁,共54頁,2023年,2月20日,星期三顯然檢驗可以使用方差分析表:變化來源回歸隨機誤差總和k為預(yù)測變量個數(shù)(不含β0)續(xù)第22頁,共54頁,2023年,2月20日,星期三若模型檢驗顯著,即應(yīng)進行自變量顯著性檢驗(也稱邊際檢驗MarginalTests),即檢驗個別回歸系數(shù)(j,j=1,2,…,K)是否顯著異于某一特定數(shù)值,共包括K個檢驗。備則假設(shè)H1:jj0(雙尾檢驗),j>j0

或H1:j<j0

(單尾檢驗)通常,我們只關(guān)心H0:j=0檢驗統(tǒng)計量:2、自變量顯著性檢驗:第23頁,共54頁,2023年,2月20日,星期三校正決定系數(shù)(Adjusteddeterminationcoefficient)3、數(shù)據(jù)集合優(yōu)度——樣本決定系數(shù):式中:n為樣本數(shù),k為自變量的個數(shù)??勺C,Y與X的多重相關(guān)系數(shù)第24頁,共54頁,2023年,2月20日,星期三線性回歸模型的意義考慮一元的情形,隨機變量y與可控變量之間存在這樣一種關(guān)系,其均值隨自變量變化而變化。第25頁,共54頁,2023年,2月20日,星期三例1:一個假想的社區(qū)有100戶家庭組成,要研究該社區(qū)每月家庭消費支出Y與每月家庭可支配收入X的關(guān)系。

為達到此目的,將該100戶家庭劃分為組內(nèi)收入差不多的10組,以分析每一收入組的家庭消費支出。第26頁,共54頁,2023年,2月20日,星期三第27頁,共54頁,2023年,2月20日,星期三(1)由于不確定因素的影響,對同一收入水平X,不同家庭的消費支出不完全相同;(2)由統(tǒng)計知,給定收入水平X的消費支出Y的分布是確定的,即以X的給定值為條件的Y的條件分布是已知的,如:P(Y=561|X=800)=1/4。因此,給定收入X的值Xi,可得消費支出Y的條件均值(conditionalmean)或條件期望(conditionalexpectation):E(Y|X=Xi)該例中:E(Y|X=800)=605分析:第28頁,共54頁,2023年,2月20日,星期三描出散點圖發(fā)現(xiàn):隨著收入的增加,消費“平均地說”也在增加,且Y的條件均值均落在一根正斜率的直線上。這條直線稱為回歸線。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消費支出Y(元)

第29頁,共54頁,2023年,2月20日,星期三條件分布示意圖第30頁,共54頁,2023年,2月20日,星期三線性回歸模式參數(shù)的含義一元線性模型中:y=dependentvariablex=independentvariableb0=y-interceptb1=slopeoftheline=errorvariablexyb0RunRiseb1=Rise/Runb0andb1areunknown,therefore,areestimatedfromthedata.第31頁,共54頁,2023年,2月20日,星期三模型參數(shù)最小二乘估計的含義方程系數(shù)的估計取決于:從總體中抽出的樣本以及,所計算的樣本統(tǒng)計量。然后,生成一條從數(shù)據(jù)中無偏地穿過的直線.wwwwwwwwwwwwwwwThequestionis:Whichstraightlinefitsbest?xy第32頁,共54頁,2023年,2月20日,星期三Errors直線不同,產(chǎn)生不等的誤差,同時亦造成了不等的誤差平方和。XY不同直線產(chǎn)生的誤差不一樣:第33頁,共54頁,2023年,2月20日,星期三33離差平方和最小的那一條直線為最佳擬合直線。wwww4114(1,2)22(2,4)(3,1.5)Sumofsquareddifferences=(2-1)2+(4-2)2+(1.5-3)2+(4,3.2)(3.2-4)2=6.89Sumofsquareddifferences=(2-2.5)2+(4-2.5)2+(1.5-2.5)2+(3.2-2.5)2=3.992.5LetuscomparetwolinesThesecondlineishorizontalThesmallerthesumofsquareddifferencesthebetterthefitofthelinetothedata.第34頁,共54頁,2023年,2月20日,星期三例:廣告支出與銷售額(單位:千元)營業(yè)單位 廣告支出 年銷售額北京 1400 16800上海 1100 14400廣州 560 12300深圳 650 13200南京

560 12800昆明 880 14400成都 1100 15900重慶 350 10000第35頁,共54頁,2023年,2月20日,星期三分析:作散點圖第36頁,共54頁,2023年,2月20日,星期三參數(shù)估計:第37頁,共54頁,2023年,2月20日,星期三結(jié)果:第38頁,共54頁,2023年,2月20日,星期三推論:1、廣告投入有力促進了銷售額的增長;2、在當前的投放水平下,大約每增加1千元的廣告將增加5.75千元的銷售收入。第39頁,共54頁,2023年,2月20日,星期三SPSS軟件操作:Analyze——〉Regression——〉Linear…EXCEL軟件操作:工具——〉數(shù)據(jù)分析——〉回歸房價、面積與衛(wèi)浴.xls第40頁,共54頁,2023年,2月20日,星期三回歸系數(shù)再解釋例:某汽車代理商想要了解二手汽車行駛里程數(shù)與售價間之關(guān)系。隨機選取100輛二手交易汽車,記錄其里程數(shù)與售價數(shù)據(jù)。見右表:IndependentvariablexDependentvariabley第41頁,共54頁,2023年,2月20日,星期三利用SPSS求解:Tools>Dataanalysis>Regression>[Shadetheyrangeandthexrange]>OK第42頁,共54頁,2023年,2月20日,星期三Thisistheslopeoftheline.Foreachadditionalmileontheodometer,thepricedecreasesbyanaverageof$0.0312Theinterceptisb0=6533.65330NodataDonotinterprettheinterceptasthe“Priceofcarsthathavenotbeendriven”第43頁,共54頁,2023年,2月20日,星期三假設(shè)1、解釋變量X是確定性變量,不是隨機變量;假設(shè)2、隨機誤差項具有零均值、同方差:E(i)=0i=1,2,…,nVar(i)=2i=1,2,…,n假設(shè)3、隨機誤差項與解釋變量X之間不相關(guān):Cov(Xi,i)=0i=1,2,…,n假設(shè)4(不是必須的)、服從零均值、同方差、零協(xié)方差的正態(tài)分布i~N(0,2)i=1,2,…,n模型假設(shè)的意義第44頁,共54頁,2023年,2月20日,星期三從這些假設(shè)我們有::y是具有均值E(y)=b0+b1x,和方差

se的正態(tài)分布。如圖示。m3b0+b1x1b0+b1x2b0+b1x3E(y|x2)E(y|x3)x1x2x3m1E(y|x1)m2Thestandarddeviationremainsconstant,butthemeanvaluechangeswithx第45頁,共54頁,2023年,2月20日,星期三樣本決定系數(shù)的意義:y的總體變化TheregressionmodelRemains,inpart,unexplainedTheerrorExplainedinpartbyy的方差=ESS+RSS第46頁,共54頁,2023年,2月20日,星期三R2測度由x變化所引起的y的變化占y全部變化的比重.R2

取值在0與1之間R2=1:Perfectmatchbetweenthelineandthedatapoints.R2=0:Therearenolinearrelationshipbetweenxandy.R2越接近1,說明模型與實際觀測值越接近,擬合優(yōu)度越高。第47頁,共54頁,2023年,2月20日,星期三x1x2y1y2yTwodatapoints(x1,y1)and(x2,y2)ofacertainsampleareshown.TotalvariationinyVariationexplainedbytheregressionline)Unexplainedvariation(error)TotalSumofSquaresTSSExplainedSumofSquaresESSResidualSumofSquaresRSS+=+=第48頁,共54頁,2023年,2月20日,星期三qqqqqqqqqqqqqqqqqqqqqq斜率檢驗的直觀含義如果兩個變量之間不存在線性關(guān)系,那么回歸直線一定是水平的,即斜率為0.qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論