




已閱讀5頁(yè),還剩150頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第二章 一元線性回歸模型,第一節(jié) 相關(guān)分析和回歸分析 一.經(jīng)濟(jì)變量之間的相互關(guān)系: 經(jīng)濟(jì)變量之間的關(guān)系,大體可分為兩類(lèi),一類(lèi)是函數(shù)關(guān)系;另一類(lèi)是統(tǒng)計(jì)相關(guān)關(guān)系 函數(shù)關(guān)系是指變量之間存在著完全確定性的依存關(guān)系 。例如,當(dāng)價(jià)格不變時(shí),銷(xiāo)售量X與銷(xiāo)售額Y之間的關(guān)系。 相關(guān)關(guān)系是指現(xiàn)象之間客觀存在的非確定性數(shù)量對(duì)應(yīng)依存關(guān)系 。例如,每畝耕地的施肥量X與畝產(chǎn)量Y之間的關(guān)系 。,函數(shù)關(guān)系與相關(guān)關(guān)系聯(lián)系,兩者雖有明顯區(qū)別,但兩者之間并無(wú)嚴(yán)格的界限,由于存在測(cè)量誤差等原因,函數(shù)關(guān)系在實(shí)際中往往通過(guò)相關(guān)關(guān)系表現(xiàn)出來(lái); 在研究相關(guān)關(guān)系時(shí),若要找出現(xiàn)象間數(shù)量的內(nèi)在聯(lián)系和表現(xiàn)形式,往往又需要借助函數(shù)關(guān)系的形式來(lái)加以描述; 因此,可以說(shuō),相關(guān)關(guān)系是相關(guān)分析的研究對(duì)象,函數(shù)關(guān)系是相關(guān)分析的工具。,二、相關(guān)分析,研究一個(gè)變量與另一個(gè)(組)變量之間 相關(guān)方向和相關(guān)密切程度的一種統(tǒng)計(jì)分析方 法。 相關(guān)分析目的: 明確變量之間有無(wú)關(guān)系, 確定相關(guān)關(guān)系的表現(xiàn)形式(曲線與直線), 判定相關(guān)關(guān)系的方向, 測(cè)定相關(guān)關(guān)系的密切程度等。,(一)、相關(guān)關(guān)系的分類(lèi),1.從變量之間相互關(guān)系的方向來(lái)看,可以成為正相關(guān)與負(fù)相關(guān); 2.按相關(guān)關(guān)系涉及的變量(或因素)的多少,可分為單相關(guān)與復(fù)相關(guān)、偏相關(guān); 3.按變量之間相關(guān)關(guān)系的表現(xiàn)形式來(lái)看,可以分成為直線相關(guān)和曲線相關(guān); 4.按相關(guān)的程度來(lái)分,可以分為不相關(guān),不完全相關(guān)和完全相關(guān)三類(lèi); 函數(shù)關(guān)系是相關(guān)關(guān)系的一種特殊情況。,(二)相關(guān)關(guān)系的度量,在相關(guān)分析中,通過(guò)繪制相關(guān)表和相關(guān)圖,可以對(duì)現(xiàn)象之間存在的相關(guān)關(guān)系的方向、形式和密切程度作直觀的、大致的判斷。 1.相關(guān)表:將現(xiàn)象之間的相關(guān)關(guān)系,用表格來(lái)反映,這種表稱為相關(guān)表,分為簡(jiǎn)單相關(guān)表和分組相關(guān)表。例如,某農(nóng)場(chǎng)試驗(yàn)田在七次試驗(yàn)中,獲得的小麥產(chǎn)量與施肥量的觀察資料,表2-1 施肥量與小麥產(chǎn)量的觀察數(shù)據(jù),2.相關(guān)圖:,將變量之的關(guān)系,通過(guò)圖形來(lái)表示,這種圖形為相關(guān)圖。又稱為散點(diǎn)圖,通過(guò)相關(guān)圖,可以大致看出兩個(gè)變量之間有無(wú)相關(guān)關(guān)系、相關(guān)的形態(tài)、方向及密切程度。,圖2-1相關(guān)散點(diǎn)圖,3.相關(guān)系數(shù),通過(guò)線性相關(guān)圖、表可以粗略地觀察兩個(gè)變量之間相互關(guān)系的類(lèi)型、方向以及相關(guān)的密切程度,但無(wú)法確切地表明兩個(gè)變量之間線性相關(guān)的程度。 英國(guó)著名統(tǒng)計(jì)學(xué)家卡爾皮爾遜(Karl Pearson)1890年設(shè)計(jì)了一個(gè)用于測(cè)定兩個(gè)變量之間線性相關(guān)程度和相關(guān)方向的指標(biāo)簡(jiǎn)單相關(guān)系數(shù),也稱為Pearson相關(guān)系數(shù)。 (1)相關(guān)系數(shù)的定義 (2)相關(guān)系數(shù)的計(jì)算 (3)根據(jù)相關(guān)系數(shù)初步判定變量之間的關(guān)系 (4)簡(jiǎn)單相關(guān)系數(shù)的缺陷,(1)相關(guān)系數(shù)的定義,離差,在、象限:,在、象限:,(x,y符號(hào)相同),(x,y符號(hào)相反),判斷,如果所有的觀測(cè)值落在、象限,離差之積 為正,則X、Y為正相關(guān),如果所有觀測(cè)值在、象限,離差之積 為負(fù),則X,Y為負(fù)相關(guān),如果所有的觀測(cè)值散落在四個(gè)象限內(nèi),則正的和負(fù)的乘積 趨于互相抵消,其乘積之和將趨于0。 如果所有變量值X和Y與其平均數(shù)的離差乘積之和為正,則X和Y之間就是正相關(guān)。用符號(hào)表示為: 如果所有變量值X和Y與其平均數(shù)的離差乘積之和為負(fù),則和之間是負(fù)相關(guān)。用符號(hào)表示為:,缺點(diǎn):,離差乘積之和 提供了X和Y之間的一個(gè)相關(guān)度量。但是,這樣來(lái)度量相關(guān)關(guān)系,只能表示相關(guān)方向,要表示具體相關(guān)程度還有缺點(diǎn): 受觀測(cè)值數(shù)目n影響,觀測(cè)值數(shù)目n越多, 越大,相關(guān)程度越強(qiáng); 受X,Y計(jì)量單位的影響,如果將X和Y的單位改為噸,則X,Y數(shù)值就更小,同樣觀測(cè)值,相關(guān)度量結(jié)果不同。,為了克服第個(gè)缺點(diǎn),用觀測(cè)值數(shù)目n除xy,即 叫做X和Y的協(xié)方差, 協(xié)方差不僅能直接顯示X與Y是正相關(guān)還是負(fù)相關(guān);而且能反映X與Y兩個(gè)變量的“共變性”。 Sxy消除了樣本單位數(shù)多少的影響,但仍然受觀測(cè)值計(jì)量單位的影響;,為了克服第缺點(diǎn),給協(xié)方差除以X,Y各自的標(biāo)準(zhǔn)差: Sx , Sy 這樣便可消除變量計(jì)量量單位的影響。 標(biāo)準(zhǔn)差Sx和Sy的作用,在于對(duì)X,Y與各自平均數(shù)的離差,分別用各自的標(biāo)準(zhǔn)差為尺度,加以標(biāo)準(zhǔn)化,然后再求標(biāo)準(zhǔn)差的協(xié)方差,用符號(hào) 表示,即:,相關(guān)系數(shù)定義式,皮爾遜相關(guān)系數(shù)的最簡(jiǎn)式,其中:,2.相關(guān)系數(shù)的計(jì)算,積差式,同理:,相關(guān)系數(shù)簡(jiǎn)捷式,相關(guān)系數(shù)平均式,4.等級(jí)相關(guān)系數(shù),也稱為斯皮爾曼 (Spearman) 相關(guān)系數(shù),用來(lái)度量定序變量之間的線性相關(guān)關(guān)系,就是把有聯(lián)系的定量變量或定性變量的具體表現(xiàn)按等級(jí)次序排列,形成兩個(gè)定序數(shù)列,再測(cè)定標(biāo)志等級(jí)與標(biāo)志等級(jí)間的相關(guān)程度的一種方法,等級(jí)相關(guān)法又稱順位相關(guān)法. 用rs表示。 式中,n為樣本容量,D為序列等級(jí)之差,即d=X等級(jí)-Y等級(jí) 。Spearman相關(guān)系數(shù)的適用范圍較Pearson相關(guān)系數(shù)要廣得多。,(三)相關(guān)系數(shù)的范圍,1.相關(guān)系數(shù)的絕對(duì)值不超過(guò)1,即|r|1 2.根據(jù)相關(guān)系數(shù)的符號(hào),判定正相關(guān)(正比例)r 0、負(fù)相關(guān)(反比例)r0. 3.根據(jù)相關(guān)系數(shù)的大小,判定: 當(dāng)r= 0時(shí),稱為不相關(guān)?;蛘卟淮嬖谥本€相關(guān),但可能存在其他類(lèi)型的關(guān)系。 當(dāng)0 |r| 0.3時(shí), 稱為微弱相關(guān)。 當(dāng)0.3 |r| 0.5時(shí),稱為低度相關(guān)。 當(dāng)0.5 |r| 0.8時(shí),稱為中度相關(guān)。 當(dāng)0.8 |r| 1時(shí),稱為高度相關(guān)。 當(dāng) |r| =1,完全相關(guān),即所有散點(diǎn)完全在一條直線上,也就是函數(shù)關(guān)系。,正相關(guān)(我國(guó)人均消費(fèi)函數(shù)),X為我國(guó)人均國(guó)民收入,Y為我國(guó)人均消費(fèi), 相關(guān)系數(shù):0.98,負(fù)相關(guān),Y與X的相關(guān)系數(shù):-0.92,不相關(guān)(不排除存在曲線相關(guān)),相關(guān)系數(shù)為:4.24E-18,Y,X,(四)相關(guān)分析的特征,.兩個(gè)變量是對(duì)等關(guān)系,不分彼此,不反映任何自變量和因變量的關(guān)系,互換順序是一樣的,是雙向的關(guān)系。 . 相關(guān)系數(shù)的范圍是 -1r1,其值大小反映兩變量間相關(guān)的密切程度,正負(fù)號(hào)表示正相關(guān)或負(fù)相關(guān),其值的大小與尺度無(wú)關(guān)。 .兩個(gè)變量都是隨機(jī)變量,這也反映對(duì)等關(guān)系。而且相關(guān)關(guān)系要以定性分析為前提,不然就會(huì)出現(xiàn)“虛假相關(guān)”。,(五)簡(jiǎn)單相關(guān)系數(shù)的缺陷,(1)只能度量?jī)蓚€(gè)變量之間呈線性相關(guān)比例變化的關(guān)系,當(dāng)|r|很小甚至等于0時(shí),不一定表明X與Y之間就不存在其他非線性類(lèi)型的關(guān)系 (2)只能算出一個(gè)相關(guān)系數(shù);r表明兩變量之間的線性關(guān)系,只表明協(xié)變的存在,不揭示變異的原因,不能確定變量之間的因果關(guān)系。 (3)簡(jiǎn)單相關(guān)系數(shù)只適用于兩個(gè)變量之間的相關(guān)關(guān)系,所以稱為簡(jiǎn)單相關(guān)系數(shù)若變量為三個(gè)或三個(gè)以上時(shí),就要用復(fù)相關(guān)系數(shù)計(jì)算。,(4)偏相關(guān)系數(shù),大千世界中復(fù)雜的、多種因素存在相互關(guān)聯(lián)。為了描述其間的關(guān)聯(lián),這里定義的相關(guān)系數(shù)雖然比協(xié)方差指標(biāo)優(yōu)越,但是仍然存在不足之處:它裹脅了其它變量的影響或者它們之間的關(guān)系乃是其它變量的變化所致. 要剔除其它變量的影響,只研究指定兩個(gè)變量的影響,必須再定義偏相關(guān)系數(shù)令其它變量保持不變,此時(shí)這兩個(gè)變量的相關(guān)系數(shù),稱為偏相關(guān)系數(shù)。,總體相關(guān)系數(shù),兩個(gè)變量X和Y之間真實(shí)的線性相關(guān)程度是用總體相關(guān)系數(shù)表示的??傮w相關(guān)系數(shù)為: 式中, 分別是總體X和Y的協(xié)方差,X的總體標(biāo)準(zhǔn)差和Y的總體標(biāo)準(zhǔn)差。 由于總體未知,無(wú)法計(jì)算,我們可以利用樣本觀測(cè)值的相關(guān)系數(shù)r給出 的一個(gè)估計(jì),即樣本相關(guān)系數(shù)r是總體相關(guān)系數(shù)的估計(jì)值。,三、回歸分析,回歸分析的主要內(nèi)容: (一).回歸的含義及特點(diǎn) (二).回歸分析與相關(guān)分析的聯(lián)系 (三).回歸分析的基本概念 1.總體回歸函數(shù) 2.總體回歸模型 3.樣本回歸函數(shù) 4.樣本回歸模型,(一).回歸的含義,回歸分析的產(chǎn)生的歷史 回歸分析法最早由著名的英國(guó)生物學(xué)家、統(tǒng)計(jì)學(xué)家高爾登(F.Gallton)達(dá)爾文的表弟所創(chuàng)。早年,加爾頓致力于化學(xué)和遺傳學(xué)領(lǐng)域的研究。 1889年高爾登和他的朋友K.Pearson收集了上千個(gè)家庭的身高、臂長(zhǎng)和腿長(zhǎng)的記錄,企圖尋找出兒子們身高與父親們身高之間關(guān)系的具體表現(xiàn)形式,在研究父親們的身高與兒子們的身高之間的關(guān)系時(shí),主要是想由此來(lái)探討人口的平均身高具有穩(wěn)定性的原因,建立了回歸分析法。,1.“回歸”一詞的由來(lái),“回歸”見(jiàn)1889年F.Gallton的論文普用回歸定律。 他在研究中發(fā)現(xiàn);一群高個(gè)子的父親的子女的平均高度要低于其父輩的平均身高,一群矮個(gè)子父親的子女的平均身高要高于其父輩的平均身高。 或者說(shuō),高個(gè)子父親的子女的平均高度與矮個(gè)子父親的子女的平均高度都有“回歸”到全體父輩的平均高度的傾向(趨勢(shì)), 用高爾登的話說(shuō),這是“回歸到中等”。,2.回歸分析的現(xiàn)代含義:,現(xiàn)在回歸分析法已遠(yuǎn)非高爾登的本意,而是研究子女的平均身高如何隨著其父親身高的變化而變化,即研究子女的平均身高對(duì)父親身高的依賴性。并探討如何根據(jù)父親的身高,來(lái)預(yù)測(cè)和估計(jì)子女的平均身高。 對(duì)于“父親身高”的每一水平,相應(yīng)得到的是“子女身高”的一個(gè)分布(這可以通過(guò)重復(fù)抽樣得到) 。而且,隨著“父親身高”的增加,子女的平均身高也在增加,可用一條直線近似地似合這些平均值點(diǎn)。如下圖:,這條直線近似地反映了子女身高對(duì)父親身高的依賴程度,而回歸分析所要研究的就是這種依賴性。,再例如,家庭的消費(fèi)支出與家庭收入有著密切的關(guān)系,而回歸分析所要研究的就是家庭的平均消費(fèi)支出如何隨著家庭收入水平的變化而變化,以及對(duì)應(yīng)于每一個(gè)特定的家庭收入水平,其相應(yīng)的平均消費(fèi)支出水平是多少。 回歸分析用以找出變量之間關(guān)系的具體表現(xiàn)形式,成為探索變量之間關(guān)系的最重要方法。,3.回歸分析的定義,研究一個(gè)變量(被解釋變量或因變量)對(duì)一個(gè)或多個(gè)其他變量(解釋變量或自變量)的依賴關(guān)系,其目的在于根據(jù)已知的或固定解釋變量的數(shù)值,來(lái)估計(jì)或預(yù)測(cè)被解釋變量的總體平均值。 這個(gè)定義歸納起來(lái)為兩點(diǎn):一是研究被解釋變量對(duì)解釋變量的依賴關(guān)系,采用的方法是配合直線或曲線。二是研究目的是用解釋變量的值來(lái)預(yù)測(cè)或估計(jì)總體的平均值。,4.回歸分析的分類(lèi),回歸分析是指對(duì)具有相關(guān)關(guān)系的變量,依據(jù)其關(guān)系的形態(tài),選擇一個(gè)合適的數(shù)學(xué)模型(回歸方程),用來(lái)近似地表示變量間數(shù)量平均變化關(guān)系的一種統(tǒng)計(jì)方法。 按分析變量的多少,可以分為一元回歸分析與多元回歸分析; 按分析變量間表現(xiàn)形態(tài)不同,可以分為線性回歸分析與非線性回歸分析等。 本章僅討論只有一個(gè)自變量的一元線性回歸分析的有關(guān)理論與方法。,5.回歸分析的特點(diǎn),兩個(gè)變量之間不是對(duì)等關(guān)系。即必須根據(jù)研究目的,確定其中一個(gè)是自變量,另一個(gè)是因變量;是單向關(guān)系。 回歸方程反映的是變量間的具體的變動(dòng)關(guān)系,不是抽象系數(shù),在X,Y兩個(gè)變量中,從方程式看,存在著兩個(gè)回歸式,是兩條斜率不同的回歸直線,其意義是不同的。其回歸系數(shù)有正負(fù)號(hào),表示兩個(gè)變量變動(dòng)的方向,大小表示在單位一定的情況下意義是明確的。 回歸分析對(duì)資料的要求是,因變量是隨機(jī)變量,而自變量是可控制的變量,是給定的數(shù)值。,(二).相關(guān)分析與回歸分析關(guān)系,相關(guān)分析是回歸分析的基礎(chǔ)和前提。如果缺少相關(guān)分析,沒(méi)有從定性上說(shuō)明現(xiàn)象之間是否具有相關(guān)關(guān)系,沒(méi)有對(duì)相關(guān)關(guān)系的密切程度作出判斷,就不能進(jìn)行回歸分析,即使勉強(qiáng)進(jìn)行了回歸分析,也是沒(méi)有意義的。 回歸分析是相關(guān)分析的深入和繼續(xù)。僅僅說(shuō)明現(xiàn)象間具有密切的相關(guān)關(guān)系是不夠的,只有進(jìn)行了回歸分析,擬合了回歸方程,才可能進(jìn)行有關(guān)的分析和預(yù)測(cè),相關(guān)分析才有實(shí)際的意義,回歸分析和相關(guān)分析與因果關(guān)系,回歸分析是在相關(guān)分析和因果關(guān)系分析的基礎(chǔ)上,去研究解釋變量對(duì)應(yīng)變量(被解釋變量)的影響。 因果關(guān)系是指兩個(gè)或兩個(gè)以上變量在行為機(jī)制上的依賴性,即指一個(gè)(或一組)變量直接影響、決定另一個(gè)變量的水平,因果關(guān)系確立的前提是必須對(duì)經(jīng)濟(jì)行為進(jìn)行定性分析和理論上的思考。 具有因果關(guān)系的變量之間一定具有數(shù)學(xué)上的相關(guān)關(guān)系,有相關(guān)關(guān)系的變量之間并不一定具有因果關(guān)系,因此,回歸分析正是研究具有因果關(guān)系的相關(guān)關(guān)系。,(三).回歸分析的基本概念,回歸分析是研究一個(gè)變量(被解釋變量)對(duì)一個(gè)或多個(gè)其它變量(解釋變量)的依存關(guān)系; 由于統(tǒng)計(jì)相關(guān)的隨機(jī)性,回歸分析關(guān)心的是當(dāng)一個(gè)或多個(gè)其它變量(解釋變量)取某個(gè)確定值(條件)時(shí),與之相關(guān)的另一個(gè)變量(被解釋變量)所有可能出現(xiàn)的對(duì)應(yīng)值的平均值。 例如研究家庭消費(fèi)支出對(duì)家庭可支配收入的依存關(guān)系:,例: 60戶家庭可支配收入和消費(fèi)支出情況,每月家庭消 費(fèi)支出,的條件均值,不同收入水平的家庭消費(fèi)支出散點(diǎn)圖,1.總體回歸函數(shù),由散點(diǎn)圖可以看出,均值點(diǎn)恰好都落在一條直線上,稱這條描述條件均值變化情況的直線為總體回歸直線(函數(shù))。 一般地,對(duì)應(yīng)每一個(gè)收入水平X,都可以得到一個(gè)Y的條件均值,說(shuō)明E(Y/x)是x的一個(gè)函數(shù),用公式表示即為: E(Y/Xi)=f(Xi) (2-10) 稱(2-10)式所代表的函數(shù)為總體回歸函數(shù),常記為PRF(Population Regression Function) PRF描述了總體的平均變化情況。總體回歸函數(shù)具體取什么函數(shù)形式,需要根據(jù)實(shí)實(shí)踐經(jīng)驗(yàn)和經(jīng)濟(jì)理論來(lái)確定,最簡(jiǎn)單的是線性總體回歸函數(shù)。,2.隨機(jī)擾動(dòng)項(xiàng),總體回歸函數(shù)只是描述了總體變化情況,也就是說(shuō),回歸直線只是在其它條件保證不變的情況下,代表平均消費(fèi)和收入之間的精確關(guān)系(函數(shù)關(guān)系) 但就個(gè)別家庭來(lái)說(shuō),其消費(fèi)支出就不全在這條直線上,而是圍繞著這條直線上下波動(dòng),與該點(diǎn)的均值產(chǎn)生一個(gè)偏差。為了更完善地描述個(gè)別家庭消費(fèi)者支出的變化情況,特引進(jìn)一個(gè)變量 。 (2-11) 偏差ui是一個(gè)不可觀測(cè)的、可正可負(fù)的隨機(jī)變量,在計(jì)量經(jīng)濟(jì)學(xué)中稱作隨機(jī)擾動(dòng)項(xiàng)(stochastic disturbance)或隨機(jī)誤差項(xiàng)(stochastic error),3.總體回歸模型,引入隨機(jī)擾動(dòng)項(xiàng)ui之后,對(duì)應(yīng)每一個(gè)可支配收入Xi值就有多個(gè)家庭的消費(fèi)支出Yi值,亦即Yi的值有一個(gè)概率分布,而不是一個(gè)確定的單一值,所以,其關(guān)系表示為: (2-11) 稱(2-11)式為總體回歸模型( PRM ,Population Regression Model) (2-11)式表明,給定可支配收入水平Xi,個(gè)別家庭的消費(fèi)支出Yi由兩部分組成:一部分是 ,即由X的變化所引起的Yi(平均)變化部分,另一部分來(lái)自未包括在模型中的諸多隨機(jī)性因素的綜合影響部分。,在計(jì)量經(jīng)濟(jì)學(xué)中,可以這樣來(lái)解釋變量間聯(lián)系的真實(shí)關(guān)系,如果其他條件都保持不變,則Y的變化完全可以由X的變化來(lái)解釋。但是,在實(shí)際經(jīng)濟(jì)現(xiàn)象中,其他因素不能不保持不變,因此,在函數(shù)中引進(jìn)隨機(jī)擾動(dòng)項(xiàng),用來(lái)說(shuō)明未明顯包括在函數(shù)中的其他變量的變化。 誤差的隨機(jī)性使得Y與X之間呈現(xiàn)出一種隨機(jī)的因果關(guān)系,由于經(jīng)濟(jì)變量之間大多數(shù)量是不確定的相關(guān)關(guān)系,因此,用這種形式描述經(jīng)濟(jì)關(guān)系更加準(zhǔn)確。 隨機(jī)擾動(dòng)項(xiàng)ui具有非常豐富的內(nèi)容,起著重要的作用,隨機(jī)擾動(dòng)項(xiàng)的性質(zhì)決定著計(jì)量經(jīng)濟(jì)方法的選擇和使用,因此,將要專(zhuān)門(mén)討論隨機(jī)誤差項(xiàng)的特性。,隨機(jī)擾動(dòng)項(xiàng)意義:,4.樣本回歸函數(shù)(SRF),隨機(jī)樣本(一),隨機(jī)樣本(二),例圖,4.樣本回歸函數(shù),為了反映總體的變化情況,我們只能由樣本“信息”來(lái)估計(jì)總體,根據(jù)樣本資料所做出的,用以估計(jì)總體回歸函數(shù)的函數(shù),就稱為樣本回歸函數(shù),記為SRF(Sample Regression Function)。 顯然,樣本回歸線的函數(shù)形式應(yīng)與總體回歸線的函數(shù)形式一致。若是總體回歸線為 , 則樣本回歸線可表示為: (2-12) 其中 是樣本回歸線上與X相對(duì)應(yīng)的值,可視為總體條件均值的估計(jì); 是樣本回歸函數(shù)的截距系數(shù), 是樣本回歸函數(shù)的斜率系數(shù)。,5.樣本回歸模型,由于隨機(jī)性,實(shí)際觀測(cè)到的被解釋變量值,并不完全等于其樣本條件均值,也即散點(diǎn)圖中,樣本點(diǎn)與其樣本回歸直線之間的距離,叫做剩余項(xiàng)或殘差(residual),記作ei,那么: 從概念上講,ei與ui類(lèi)似,代表了其他影響Yi隨機(jī)因素的集合,因此可以看出ui的估計(jì)量,從而有 即 (2-13) (2-13)式稱為樣本回歸模型Sample Regression Model,簡(jiǎn)記為 SRM 。,樣本回歸函數(shù)與總體回歸函數(shù)的關(guān)系,進(jìn)行回歸分析的主要目的,就是要根據(jù)樣本回歸模型作出對(duì)總體回歸模型的估計(jì),在所舉家庭收入的例子中,也就是要用 來(lái)估計(jì) 更確切地,就是根據(jù)有可能獲得的樣本回歸函數(shù)對(duì)總體回歸函數(shù)做出合理的估計(jì) 可是,樣本終究不等于總體,樣本回歸函數(shù)SRF幾乎總是和總體回歸函數(shù)PRF存在著差異,這從圖2.6可以清楚看出,,樣本回歸函數(shù)與總體回歸函數(shù)的區(qū)別,首先,總體回歸模型描述總體中變量Y與X之間的關(guān)系,總體回歸函數(shù)雖然未知,但它是確定的(一條); 樣本回歸模型描述所觀測(cè)的樣本中變量Y與X之間的關(guān)系,而由于從總體中每次抽樣都能獲得一個(gè)樣本,就都可以擬合一條樣本回歸線; 對(duì)于不同的樣本,由于樣本波動(dòng),所得的擬合直線也不同,因此,樣本回歸線是隨抽樣波動(dòng)而變化的,是不確定的,可以有許多條,所以,樣本回歸線還不是總體回歸線,至多只是未知的總體回歸線的近似反映。,樣本回歸函數(shù)與總體回歸函數(shù)的區(qū)別,其次,總體回歸函數(shù)是依據(jù)總體全體觀測(cè)資料建立的,其參數(shù) 是確定的常數(shù);而樣本回歸函數(shù)依據(jù)樣本觀測(cè)資料建立的,參數(shù) 是隨抽樣而變化的隨機(jī)變量。 再次,總體回歸函數(shù)中的 是不可直觀測(cè)的;而樣本回歸函數(shù)中的ei是只要估計(jì)出樣本回歸的參數(shù)就可以計(jì)算的值。 總之,由于樣本對(duì)總體存在代表性誤差,樣本回歸函數(shù)幾乎總是與總體回歸函數(shù)存在差異 。,圖中: A點(diǎn)左邊部分SRF過(guò)低估計(jì)了PRF, A點(diǎn)右邊部分義過(guò)高估計(jì)了PRF。,第二節(jié) 回歸模型的參數(shù)估計(jì),一、普通最小二乘估計(jì) 二、擬合直線的性質(zhì) 三、回歸模型的基本假定 四、OLS估計(jì)式的特性 五、參數(shù)的估計(jì)誤差與置信區(qū)間,一.普通最小二乘估計(jì) (Ordinary Least Square) 簡(jiǎn)稱OLS ),問(wèn)題的提出必要性,通過(guò)相關(guān)系數(shù)或協(xié)方差證實(shí)變量之間存在關(guān)系,僅僅只是知道變量之間線性相關(guān)的性質(zhì)正(負(fù))相關(guān)和相關(guān)程度的大小。 既然它們之間存在線性關(guān)系,接下來(lái)必須探求它們之間關(guān)系的具體表現(xiàn)形式是什么? 最好用數(shù)學(xué)表達(dá)式將這種關(guān)系盡可能準(zhǔn)確、嚴(yán)謹(jǐn)?shù)谋硎境鰜?lái)Y=0+1X+u把它們之間的內(nèi)在聯(lián)系挖掘出來(lái)。也就是直線中的截距0=?;直線的斜率1=?,解決問(wèn)題的思路可能性,由于Y=0+1X+u中的截距和斜率不可能得到,只能獲得來(lái)自于總體的樣本,假設(shè)從總體中獲取了一組(Xi,Yi)的樣本觀察值(X1,Y1),(X2,Y2),(Xn,Yn); 于是,可采用不同的方法確定樣本回歸直線以擬合樣本觀察值, 尋找變量之間直線關(guān)系的方法很多,比如直觀畫(huà)線法,幾何劃線法(兩點(diǎn)連線),半數(shù)平均法等; 那么如何從這些曲線中選擇一條最佳擬合直線?,最小二乘法的思路,1為了精確地描述Y與X之間的關(guān)系,必須使用這兩個(gè)變量的每一對(duì)觀察值,才不至于以點(diǎn)概面。 2在Y與X的散點(diǎn)圖上畫(huà)出直線的方法很多。任務(wù)?找出一條能夠最好地描述Y與X(代表所有點(diǎn))之間的直線。 3什么是最好?找出判斷“最好”的原則。 直觀地,從幾何意義上講,應(yīng)該使樣本回歸曲線盡量靠近這些數(shù)據(jù)點(diǎn)。,三種距離,距離是度量實(shí)際值與擬合值是否相符的有效手段,點(diǎn)到直線的距離點(diǎn)到直線的垂直線的長(zhǎng)度。 橫向距離點(diǎn)沿(平行)X軸方向到直線的距離。 縱向距離點(diǎn)沿(平行)Y軸方向到直線的距離。也就是實(shí)際觀察點(diǎn)的Y坐標(biāo)減去根據(jù)直線方程計(jì)算出來(lái)的Y的擬合值。即是Y的實(shí)際值與擬合值之差,差異大擬合不好,差異小擬合好,所以又稱為擬合誤差或殘差。,最小二乘法的數(shù)學(xué)原理,最好也就是使剩余ei(或殘差)都很小,可是,因?yàn)閑i有正有負(fù),簡(jiǎn)單代數(shù)和 相互抵消 將所有縱向距離平方后相加,即得誤差平方和,“最好”直線就是使誤差平方和最小的直線“擬合總誤差達(dá)到最小”; 公式: 于是可以運(yùn)用微分學(xué)中求極小值的原理,將求最好擬合直線問(wèn)題轉(zhuǎn)換為求誤差平方和最小。,數(shù)學(xué)推證過(guò)程,最小二乘法原理:要求各個(gè)散點(diǎn)到回歸直線的離差的平方和最小。即 (2-19) 是 的二次函數(shù)并且是非負(fù)的,連續(xù)可微的,所以存在極小值; 根據(jù)微分學(xué)分別對(duì) 求一階偏導(dǎo)數(shù),并令其等于零,就可以得到求 的正規(guī)方程,解方程,根據(jù)正規(guī)方程,可解得 , 如下: 稱為回歸參數(shù)的最小二乘估計(jì)式(Ordinary Least squares Estimator)簡(jiǎn)稱為OLSE 其中:n為樣本容量,,回歸系數(shù) 與相關(guān)系數(shù)r關(guān)系,如果用變量值X和Y與其平均數(shù)的離差形式表示,則:,二、擬合直線的性質(zhì),樣本回歸直線經(jīng)過(guò)樣本均值點(diǎn) 估計(jì)殘差的均值為零 Y的真實(shí)值和擬合值有共同的均值 估計(jì)殘差與自變量不相關(guān) 估計(jì)殘差與擬合值不相關(guān),樣本回歸直線經(jīng)過(guò)樣本均值點(diǎn),根據(jù)正規(guī)方程: 兩邊同除以n得: 因此有: 所以樣本回歸線 必然通過(guò)均值點(diǎn)( ),估計(jì)殘差和為零 ( ),由 因?yàn)?所以 即:,3Y的真實(shí)值和擬合值有共同的均值 ( ),因?yàn)?而 所以 即 這說(shuō)明,對(duì) 的每一個(gè)預(yù)測(cè)值都可估計(jì)出 ,由各個(gè)樣本觀測(cè)值所估計(jì)的 的均值與實(shí)際樣本觀測(cè)值 的均值 相等。,4估計(jì)殘差與自變量不相關(guān) ( ),因?yàn)?由最小二乘法(2-21)式知:,所以: 從而 ,說(shuō)明 不相關(guān),5估計(jì)殘差與擬合值不相關(guān) ( ),由此可見(jiàn), 不相關(guān),關(guān)于回歸直線性質(zhì)的總結(jié),三、回歸模型的基本假定,(一)關(guān)于隨機(jī)項(xiàng)的假定 零均值假定 同方差假定 非自相關(guān)假定 解釋變量與隨機(jī)誤差項(xiàng)不相關(guān)假定 正態(tài)性假定,1. u是一個(gè)隨機(jī)變量,其均值為零,此假定表示對(duì)于每一個(gè)Xi, 的值可在其條件均值的上下波動(dòng), 與其均值的偏差有正有負(fù),但在大量觀測(cè)下,平均來(lái)說(shuō)其總和為零,(2.2.1),同時(shí)假定:,此假定表示對(duì)于每一個(gè)Xi,由于隨機(jī)擾動(dòng)因素的存在,Yi的值在其條件均值E(Y/Xi)附近上下波動(dòng),如果模型設(shè)定正確,Yi相對(duì)于E(Yi/Xi)的正偏差和負(fù)偏差都會(huì)有,故此隨機(jī)擾動(dòng)項(xiàng)可正可負(fù),發(fā)生的概率大致相同,平均地看,這些隨機(jī)擾動(dòng)項(xiàng)有互相抵消的趨勢(shì)。在此假定下,才有: E(Yi/Xi)=EE(Yi/Xi)+E(ui/Xi)=E(Yi/Xi)+ E(ui/ Xi)=E(Yi/ Xi)= 顯然,這里暗含著的假定條件,也就是假定總體回歸直線通過(guò)X與Y的條件均值組成的點(diǎn)。,2u的方差為常數(shù)(同方差假定),此假定表示對(duì)于所有的Xi,ui對(duì)其均值的分散程度都是相同的。且方差都等于某個(gè)常數(shù) ,如圖2.8所示。,同時(shí)假定:,可以推證:因變量Yi與ui具有相同的方差,這是因?yàn)?因此,該假定同時(shí)表明,被解釋變量Yi可能取值的 分散程度也是相同的。,3u的協(xié)方差等于零 (COV(ui,uj)=0 (ij),即隨機(jī)誤差項(xiàng)之間是互不相關(guān),互不影響的。 由于 即有: 此假定表示不同觀測(cè)值的隨機(jī)項(xiàng)是互不相關(guān)的,即不會(huì)出現(xiàn)圖2.9中(a)(b)情形,而呈現(xiàn)的是(c)的情況。,該假定同時(shí)表明,被解釋變量Yi的序列值 Y1,Y2,,Yn之間也是互不相關(guān)的。這是因?yàn)椋?COV(Yi,Yj)=EYi -E(Yi/Xi) Yj -E(Yj/ Xi) = E(uiuj)=0。,4u與解釋變量無(wú)關(guān),此假定表示擾動(dòng)項(xiàng)與解釋變量不相關(guān),即Xi項(xiàng)與ui項(xiàng)不趨向于共同變化,各自分別獨(dú)立對(duì) Yi產(chǎn)生影響。 事實(shí)上,在回歸分析中,X在重復(fù)抽樣中固定取值,是確定性變量,因此,Xi與ui不相關(guān)的假定一般都能夠滿足。,5.正態(tài)性假定:uiN(0, ),即假定ui服從均值為零、方差為 的正態(tài)分布,假設(shè)5也表明被解釋變量Yi服從均值為 、方差為 的正態(tài)分布,即: YiN( , ) . 如果只利用最小二乘法進(jìn)行參數(shù)估計(jì),不需要誤差項(xiàng)ui服從正態(tài)分布這個(gè)假定條件,如果要進(jìn)行假設(shè)檢驗(yàn)和預(yù)測(cè),就必須知道總體Yi的分布情況,如果Xi為非隨機(jī)變量,總體Yi與誤差項(xiàng)ui之間僅有均值E(Yi) 的差別。 由于被解釋變量分布的性質(zhì)決定于u,對(duì)于u的各項(xiàng)假定也適用于Yi的假定,中心極限定理,定理:獨(dú)立同分布隨機(jī)變量,當(dāng)隨著變量個(gè)數(shù)的無(wú)限增加,其和的分布趨向于服從正態(tài)分布。 擾動(dòng)項(xiàng)代表大量未明確引入回歸模型的獨(dú)立變量(對(duì)于被解釋變量)的聯(lián)合影響,但這些被略去的變量所產(chǎn)生的影響都較小,有的可以度量,有的不可度量,可看作隨機(jī)因素 。 即使變量數(shù)目不是非常大或者這些變量不是嚴(yán)格獨(dú)立的,它們的和仍然可以服從正態(tài)分布。正是這個(gè)中心極限定理為的正態(tài)性假定提供了理論依據(jù),故正態(tài)性假定通常也不作檢驗(yàn)。,高斯假定或古典假定,線性回歸模型如果滿足以上假定條件,就稱為古典的(或普通的)線性回歸模型,它是德國(guó)數(shù)學(xué)家Gauss于1921年首先提出的,所以也稱為高斯假定或古典假定。 直觀地看,這些假定的作用是便于分離回歸模型中每個(gè)因素的單獨(dú)影響,在回歸分析的參數(shù)估計(jì)和統(tǒng)計(jì)檢驗(yàn)理論中,許多結(jié)論都以這些假定作為基礎(chǔ),換句話說(shuō),這些假定的成立與否將直接影響回歸分析中統(tǒng)計(jì)推斷的結(jié)論。 計(jì)量經(jīng)濟(jì)學(xué)正是對(duì)包括這些假定在內(nèi)的傳統(tǒng)回歸分析理論做了進(jìn)一步的研究而有所發(fā)展,因此,也有人將計(jì)量經(jīng)濟(jì)方法稱為現(xiàn)代回歸分析。,(二)對(duì)變量和模型的假定,1解釋變量是非隨機(jī)的,即在重復(fù)抽樣時(shí),解釋變量是一組固定的值,也就是說(shuō)解釋變量無(wú)測(cè)量誤差。 2被解釋變量(對(duì)應(yīng)于某一固定的解釋變量)可以是隨機(jī)的,Y的值可能包含或者不包含測(cè)量誤差。 3,1解釋變量是非隨機(jī)的,即在重復(fù)抽樣時(shí),解釋變量是一組固定的值,也就是說(shuō)解釋變量無(wú)測(cè)量誤差。 2被解釋變量(對(duì)應(yīng)于某一固定的解釋變量)可以是隨機(jī)的,Y的值可能包含或者不包含測(cè)量誤差。 .正確地設(shè)定了回歸模型,即在經(jīng)驗(yàn)分析中所用的模型沒(méi)有設(shè)定偏誤。,當(dāng)估計(jì)出模型參數(shù)后,接下來(lái)就要研究參估計(jì)值的精度,即樣本的估計(jì)值能否代表總體參數(shù)的真值。利用最小二乘法求得模型總體參數(shù) 和 的估計(jì)量 和 是樣本數(shù)據(jù)Xi和Yi的函數(shù),由于Yi 的隨機(jī)性以及抽樣時(shí)樣本的隨機(jī)波動(dòng),使參數(shù)的估計(jì)量和也是隨樣本而發(fā)生變化的隨機(jī)變量。 每次抽樣后,用最小二乘法估計(jì)的 和 與其總體參數(shù)值 和 總會(huì)有差異,但是在古典假定成立的情況下,最小二乘法估計(jì)的 和 是總體參數(shù)值 和 最佳線性無(wú)偏估計(jì)量(Best linear Unbiased Estimator簡(jiǎn)稱BLUE),這就是著名的高斯馬爾可夫定理 .,四、最小二乘估計(jì)的特征,1無(wú)偏性(無(wú)偏估計(jì)式),(一)一個(gè)“優(yōu)良”的估計(jì)式應(yīng)具備的統(tǒng)計(jì)性質(zhì),2最小方差性(最佳估計(jì)式),設(shè) 是參數(shù) 的估計(jì)式,若對(duì)參數(shù) 的任意一個(gè)估計(jì)式都有 成立,則稱 是 的最小方差估計(jì)式。,3線性估計(jì)式,一個(gè)估計(jì)式如果是樣本觀測(cè)值的線性函數(shù),也就是說(shuō)它決定于樣本數(shù)據(jù)的線性組合,它就是線性估計(jì)式,若樣本觀測(cè)為 ,則線性估計(jì)式將如以下形式:,4有效性(有效估計(jì)式),一個(gè)估計(jì)式與其它任何無(wú)偏估計(jì)式比較時(shí),當(dāng)它具有無(wú)偏性且方差最小,它就是有效估計(jì)式,也就是說(shuō)在所有無(wú)偏估計(jì)式中方差最小的估計(jì)式就是有效估計(jì)式。此性質(zhì)說(shuō)明,“無(wú)偏性”和“最小方差性”,雖然都是一個(gè)“優(yōu)良”的估計(jì)式應(yīng)具有的重要特性,但對(duì)它們每一個(gè)孤立地來(lái)說(shuō),其本身并不重要,只有兩個(gè)結(jié)合起來(lái)使用才有意義。 一個(gè)估計(jì)式與真實(shí)參數(shù)的所有其他線性無(wú)偏估計(jì)式相比,如果它是線性的,無(wú)偏的,并且具有最小方差,它就是最佳線性無(wú)偏估計(jì)式BLUE(Best Linear Unbiased Estimator),(二)OLS估計(jì)式的特性,1、線性性:,同理可得:,2、無(wú)偏性,代人,所以,同理可得:,3、估計(jì)量方差最小的證明(思路),因?yàn)樽钚《斯烙?jì)量是線性的,設(shè)有一個(gè)任意的不等于最小二乘估計(jì)量的線性的無(wú)偏的估計(jì)量 。 如果證明這個(gè)任意的線性無(wú)偏估計(jì)量的方差大于最小二乘估計(jì)量的方差 那么,最小二乘估計(jì)量的方差就是一切線性無(wú)偏估計(jì)量中方差最小的,因而也是最好的。,(1)先求 和 的方差:,或:,(2)證最小方差性:,假設(shè) 是其它方法估計(jì)出的總體參數(shù)值 的線性無(wú)偏估計(jì)量,即 ,且 ,其中, 為不等于 的權(quán)數(shù)。,要使無(wú)偏性成立,必須滿足:,又因,因?yàn)?所以,即,而且等號(hào)只有當(dāng)ci=ki時(shí)才能成立,同理,五、參數(shù)的估計(jì)誤差與置信區(qū)間,1估計(jì)誤差 最小二乘估計(jì)得到的 和 ,只是總體回歸參數(shù) 和 的點(diǎn)估計(jì)值,這種點(diǎn)估計(jì)是由樣本得出的,由于存在抽樣波動(dòng),不同的樣本可能得出不同的點(diǎn)估計(jì)值,雖然其期望都為 和 ,即 和 是 和 的無(wú)偏估計(jì)量,但每個(gè)點(diǎn)估計(jì)值未必都等于 和 ,也就是說(shuō)存在估計(jì)誤差,即估計(jì)值 與真值 有偏差 - 當(dāng)然,我們希望知道估計(jì)誤差究竟有多大,或者說(shuō) 與 接近程度如何?,隨著抽樣的不同,誤差大?。?- )是一個(gè)隨機(jī)變量,因此,需要考慮概率意義下的平均誤差,由于 所以不能直接對(duì)估計(jì)誤差取均值,而應(yīng)對(duì)誤差的平方取平均,即: 可以看出,這是估計(jì)量 的方差;這一點(diǎn)也容易理解,因?yàn)镺LS估計(jì)是無(wú)偏估計(jì),均值即為參數(shù)真值,所以估計(jì)量關(guān)于均值的平均偏差方差也就反映了估計(jì)量與參數(shù)真值的平均偏差。,標(biāo)準(zhǔn)誤差SE(Standard Error),由于方差的計(jì)量單位與原變量的不一致,因此,在計(jì)量經(jīng)濟(jì)分析中常用標(biāo)準(zhǔn)誤差去度量估計(jì)量的精確性,標(biāo)準(zhǔn)誤差是方差的平方根,用SE(Standard Error)表示,這樣,參數(shù)估計(jì)量的平均誤差為: 這說(shuō)明:由于是的無(wú)偏估計(jì)量,均值即為參數(shù) 真值, 的分布中心是 。標(biāo)準(zhǔn)差SE( )可用來(lái)衡量估計(jì)量 接近真值 的程度,判定估計(jì)量 的可靠性。所以估計(jì)量關(guān)于均值的平均偏差標(biāo)準(zhǔn)差也就反映了參數(shù)估計(jì)量與參數(shù)真值的平均偏差.,總體方差 估計(jì),由于總體方差 未知,和 的方差和標(biāo)準(zhǔn)差實(shí)際上無(wú)法計(jì)算。由于隨機(jī)擾動(dòng)項(xiàng)ui不可觀測(cè),我們只能從ui的估計(jì)量殘差ei出發(fā),對(duì)總體方差 進(jìn)行估計(jì)。 可以證明(證明見(jiàn)本章附錄C):總體方差 的無(wú)偏估計(jì)量為: 即: 因此,可以用 代替 ,參數(shù)估計(jì)量的估計(jì)標(biāo)準(zhǔn)誤差就成為:,估計(jì)誤差,同理參數(shù)估計(jì)量 的估計(jì)標(biāo)準(zhǔn)誤差為: 把 簡(jiǎn)稱為 和 的估計(jì)誤差。 參數(shù)的估計(jì)誤差只是反映了估計(jì)量與真值的平均相對(duì)偏離程度; 越小,則 與 的近似誤差越小,但不能認(rèn)為 與 之間的絕對(duì)誤差就是 。 這可以從參數(shù)的置信區(qū)間得到進(jìn)一步的說(shuō)明。,2區(qū)間估計(jì),利用普通最小二乘法得到的只是參數(shù)的點(diǎn)估計(jì),只是待估參數(shù)的一個(gè)近似值,而點(diǎn)估計(jì)本身既沒(méi)有反映這種近似值的精確度,又不知道它的誤差范圍。 為了對(duì)參數(shù)的取值情況有更多的了解,可以按一定的可靠性確定參數(shù)真值的取值范圍,用統(tǒng)計(jì)術(shù)語(yǔ)來(lái)說(shuō),就是在一定置信度下,求參數(shù)的置信區(qū)間,這就是參數(shù)的區(qū)間估計(jì)。為了說(shuō)明這些問(wèn)題,需要先確定最小二乘估計(jì)量的概率分布。,的概率分布,總體回歸模型 根據(jù)基本假定5 可得:YiN( , ) . 由于 和 分別是Yi的線性組合函數(shù),根據(jù)數(shù)理統(tǒng)計(jì)中正態(tài)分布變量的性質(zhì),即正態(tài)變量的線性函數(shù)仍服從正態(tài)分布,其分布函數(shù)由其均值和方差唯一決定 。 因?yàn)镋( )= 所以:,t分布,由數(shù)理統(tǒng)計(jì)的定理知:若 是 的無(wú)偏估計(jì) ,則統(tǒng)計(jì)量: 將 作標(biāo)準(zhǔn)化變換得: 根據(jù)t檢驗(yàn)的定義得:,置信度,對(duì)于給定的顯著性水平 ,即置信度為 時(shí),當(dāng)自由度一定時(shí),統(tǒng)計(jì)量t的置信區(qū)間即已確定。 由于t分布曲線對(duì)稱于縱軸,故隨機(jī)變量t落入?yún)^(qū)間 范圍內(nèi)的概率為 ,等于t分布曲線下由直線 及橫軸所圍的面積,如圖:,置信區(qū)間,即就是 代換 即 于是,對(duì)于給定顯著性水平 ,參數(shù)的置信度為1- 的置信區(qū)間為: 同理: 解釋,第三節(jié) 一元回歸模型的統(tǒng)計(jì)檢驗(yàn),一、回歸系數(shù)的顯著性 二、模型的擬合優(yōu)度檢驗(yàn)R2檢驗(yàn) 三、模型的顯著性檢驗(yàn)F檢驗(yàn),一、回歸系數(shù)的顯著性,1. 假設(shè)檢驗(yàn)的基本思想 為什么要作假設(shè)檢驗(yàn)? 所估計(jì)的回歸系數(shù) 、 和方差 都是通過(guò) 樣本計(jì)算的,都是隨抽樣而變動(dòng)的隨機(jī)變量,它們真值 和 之間的差異是否顯著還需要加以檢驗(yàn)。 所謂假設(shè)檢驗(yàn),就是對(duì)于未知參數(shù),先假設(shè)一個(gè)確定值,然后根據(jù)隨機(jī)選取的樣本數(shù)據(jù),采用適當(dāng)?shù)姆椒ǎ瑱z驗(yàn)參數(shù)的假設(shè)值與真實(shí)值是否一致,從而決定接受或拒絕假設(shè)值。,對(duì)回歸系數(shù)假設(shè)檢驗(yàn)的基本思想,在所估計(jì)樣本回歸系數(shù)概率分布性質(zhì)已確定的基礎(chǔ)上,在對(duì)總體回歸系數(shù)某種原假設(shè)成立的條件下,利用適當(dāng)?shù)挠忻鞔_概率分布的統(tǒng)計(jì)量和給定的顯著性水平 ,構(gòu)造一個(gè)小概率事件,判斷原假設(shè)結(jié)果合理與否。 因?yàn)橐粋€(gè)小概率事件在一次觀察中可以認(rèn)為基本不發(fā)生,如果該事件發(fā)生,就認(rèn)為原假設(shè)不真,從而拒絕原假設(shè)接受備擇假設(shè)。,對(duì)回歸系數(shù)假設(shè)檢驗(yàn)的方式,由于總體參數(shù) 和 是未知的,因此,需要對(duì)這兩個(gè)總體參數(shù)進(jìn)行假設(shè)檢驗(yàn); 計(jì)量經(jīng)濟(jì)學(xué)中,主要是針對(duì)變量的參數(shù)真值是否為零來(lái)進(jìn)行顯著性檢驗(yàn)的。 目的:對(duì)簡(jiǎn)單線性回歸,判斷解釋變量X是否對(duì)被解釋變量 的顯著影響因素。 在一元線性模型中,就是要判斷X是否對(duì)Y具有顯著的線性影響。這就需要進(jìn)行變量的顯著性檢驗(yàn)。,回歸系數(shù)的檢驗(yàn)方法,已知 的概率分布 ,就可以對(duì)進(jìn)行顯著性檢驗(yàn), 在實(shí)際應(yīng)用時(shí),由于 未知,只能用其無(wú)偏估計(jì)量 代替,這時(shí) 的標(biāo)準(zhǔn)化變量就服從自由度為n-2的t分布,而不是正態(tài)分布: 即:,總體參數(shù)顯著性進(jìn)檢驗(yàn)的步驟:,1對(duì)總體參數(shù)提出假設(shè):原假設(shè)H0: =0 備擇假設(shè)H1: ,因此,備擇假設(shè)是雙邊檢驗(yàn)。 2構(gòu)造統(tǒng)計(jì)量, 3. 在原假設(shè)H0的條件下,由樣本觀測(cè)值計(jì)算統(tǒng)計(jì)量t的值。 4.給定顯著性水平 ,查自由度為n-2的t分布表,得臨界值 。 5作出推斷:若 則拒絕H0: =0;接受0,即 與0有顯著區(qū)別,所對(duì)應(yīng)的變量X對(duì)Y的影響不容忽視。,二、模型的擬合優(yōu)度檢驗(yàn)R2檢驗(yàn),問(wèn)題的提出 因?yàn)镺LS估計(jì)式具有最小方差性和無(wú)偏性,只是反映了這樣一個(gè)事實(shí),即相對(duì)于一切樣本回歸函數(shù)來(lái)說(shuō),由OLS估計(jì)式所確定的樣本回歸函數(shù)具有某些特性,但它并不能說(shuō)明單個(gè)樣本回歸函數(shù)具有較高的擬合程度; 雖然最小二乘法已經(jīng)使所估計(jì)的樣本回歸函數(shù)具有最小殘差平方和即達(dá)到最小,但殘差平方和即的值本身可能會(huì)很大;因此,就需要有一個(gè)度量擬合優(yōu)度的相對(duì)指標(biāo)。 下圖可以幫助我們理解這個(gè)問(wèn)題,點(diǎn)與直線擬合很差,1.總離差平方和的分解,設(shè)對(duì)于樣本觀察值 ,由OLS得到的樣本回歸直線為SRF,,總變差的分解,由圖可看出,Y的第i個(gè)觀察值與樣本均值的離差稱為總離差, 記 ,總離差可以分作兩部分: 一部分: 是通過(guò)樣本回歸直線計(jì)算的擬合值與觀察值的平均值之差。它是由樣本回歸直線(解釋變量)所解釋的部分,是由于X的變化而引起的Y的變化。 另一部分: ,是實(shí)際觀察值與回歸直線的擬合值之差,稱為殘差,是樣本回歸直線所不能解釋的部分,是由隨機(jī)因素,觀測(cè)誤差等綜合影響而產(chǎn)生的。,總變差平方和的分解,因?yàn)? , 因此,我們利用加總?cè)侩x差平方和來(lái)反映總離差。 又因?yàn)椋?所以,,(TSS)( RSS )( ESS ),總變差平方和 (TSS)被解釋變量Y的觀測(cè)值與其平均值的離差平方和(總平方和) 殘差平方和 (RSS)被解釋變量觀測(cè)值與估計(jì)值之差的平方和(未解釋的平方和) 回歸平方和 (ESS)被解釋變量Y的估計(jì)值與其平均值的離差平方和(回歸平方和),總變差平方和的分解后的定義:,平方和分解圖,為什么回歸平方和是由X引起的變動(dòng),2.可決系數(shù),對(duì)于一組確定的樣本數(shù)據(jù),總離差平方和是一個(gè)確定的數(shù)值,因此,在總離差平方和中,如果回歸平方和所占比例越大,殘差平方和所占比例越小,表明回歸直線與樣本點(diǎn)( )擬合得越好。 定義:回歸平方和 (解釋了的變差ESS) 在總變差 (TSS)中所占的比重稱為可決系數(shù),用R2 表示:,作用:可決系數(shù)越大,說(shuō)明在總變差中由模型作出了解釋的部分占的比重越大,樣本回歸模型對(duì)樣本觀測(cè)值擬合優(yōu)度越好。反之可決系數(shù)小,說(shuō)明模型對(duì)樣本觀測(cè)值的擬合程度越差。 特點(diǎn):可決系數(shù)取值范圍: 隨抽樣波動(dòng),樣本可決系數(shù) 是隨抽樣而變動(dòng)的隨機(jī)變量 可決系數(shù)是非負(fù)的統(tǒng)計(jì)量,可決系數(shù)的作用和特點(diǎn),3.可決系數(shù)與相關(guān)系數(shù)的關(guān)系,(1)聯(lián)系 數(shù)值上,可決系數(shù)等于應(yīng)變量與解釋變量之間簡(jiǎn)單相關(guān)系數(shù)的平方:,可決系數(shù)與相關(guān)系數(shù)的關(guān)系,(2)區(qū)別,運(yùn)用可決系數(shù)時(shí)應(yīng)注意,回歸的主要目的如果是經(jīng)濟(jì)結(jié)構(gòu)分析,不能只追求高的可決系數(shù),而是要得到總體回歸系數(shù)可信的估計(jì)量,可決系數(shù)高并不表示每個(gè)回歸系數(shù)都可信任 如果建模的目的只是為了預(yù)測(cè)因變量值,不是 為了正確估計(jì)回歸系數(shù),一般可考慮有較高的可決系數(shù) 可決系數(shù)只是說(shuō)明列入模型的所有解釋變量對(duì) 被解釋變量的聯(lián)合的影響程度,不說(shuō)明模型中每個(gè)解釋變量的影響程度(在多元中),三、模型的顯著性檢驗(yàn)F檢驗(yàn),對(duì)回歸模型的顯著性檢驗(yàn),就是檢驗(yàn)總體回歸模型對(duì)總體的近似程度,也就是對(duì)模型中被解釋變量與解釋變量之間的線性關(guān)系在總體上是否顯著成立作出推斷,能滿足這一要求的檢驗(yàn)便是F檢驗(yàn)。 對(duì)于 由 和 兩部分組成 ,因此,解釋變量Xi對(duì)被解釋變量Yi的線性作用,可用總離差平方和的分解的結(jié)果進(jìn)行分析。,回歸模型的顯著性檢驗(yàn)的意義,由 或TSS=ESS+RSS知,回歸平方和ESS= 是解釋變量X對(duì)被解釋變量Y的線性作用的結(jié)果。 考慮比值ESS/RSS= 。如果這個(gè)比值大,則解釋變量X對(duì)被解釋變量Y的解釋程度高,可以推測(cè)總體存在線性關(guān)系。反之,總體可能不存在線性關(guān)系。故利用這個(gè)比值對(duì)總體線性關(guān)系進(jìn)行推斷。 對(duì)給定的樣本,利用這個(gè)比值ESS/RSS對(duì)總體線性情況進(jìn)行推斷,必須建立在統(tǒng)計(jì)假設(shè)檢驗(yàn)基礎(chǔ)上。,自由度的分解,總離差平方和 總自由度為dfT=n-1,由于這n個(gè)觀測(cè)值受 的約束,當(dāng)n-1個(gè)觀測(cè)值確定以后,最后一個(gè)觀測(cè)值就不能自由取值了 ,因此,總離差 的自由度為n-1。 因?yàn)?,計(jì)算 和 的兩個(gè)式子實(shí)際是對(duì)n個(gè)觀測(cè)值附加了兩個(gè)約束條件,失去兩個(gè)自由度,因此, 自由度為n-2。 在一元線性回歸模型中,只有一個(gè)解釋變量,所以回歸平方和 的自由度為1; 自由度分解 dfT=dfR+dfE,方差分析,模型: 1.原假設(shè): 備擇假設(shè):,2.構(gòu)造檢驗(yàn)統(tǒng)計(jì)量F 統(tǒng)計(jì)量,由于 ,則其標(biāo)準(zhǔn)化變量 根據(jù)統(tǒng)計(jì)理論可知:一個(gè)標(biāo)準(zhǔn)正態(tài)變量的平方服從自由度為1的 分布 ,則 又有: 根據(jù)數(shù)理統(tǒng)計(jì)中F檢驗(yàn)的定義有 即:,F檢驗(yàn),3.在原假設(shè)成立的條件下 ,求 4.對(duì)于給定的顯著性水平 ,可查F分布表取得臨界值 , 5.值 則拒絕原假設(shè)H0,即認(rèn)為所建立的模型較好的反映了總體的特征,表明總體回歸模型的線性關(guān)系是顯著的。 若 ,則接受原假設(shè)H0,即認(rèn)為所建立的模型不能反映總體的真實(shí)特征,表明總體回歸模型中X與Y之間線性依存關(guān)系不顯著。 說(shuō)明:如果F顯著地大于1,即FF,小概率事件發(fā)生了,根據(jù)小概率原理,小概率事件在一次試驗(yàn)中是不可能發(fā)生的,于是H0不成立。就不能認(rèn)為X沒(méi)有作用。則直線是有意義的??煽啃?1- ,F檢驗(yàn)的意義,對(duì)這種假設(shè)進(jìn)行F檢驗(yàn),實(shí)質(zhì)上就是對(duì)一元線性回歸模型進(jìn)行顯著性檢驗(yàn)。因?yàn)椋?這說(shuō)明,F(xiàn)統(tǒng)計(jì)量是在考慮自由度的條件下,已解釋變差的平方和相對(duì)于殘差平方和的倍數(shù),就回歸模型整體來(lái)說(shuō),F(xiàn)統(tǒng)計(jì)量越大,表明回歸模型中的所有解釋變量對(duì)被解釋變量的解釋程度越高。,擬合優(yōu)度與F統(tǒng)計(jì)量之間的聯(lián)系,F顯著擬合優(yōu)度必然顯著 可以直觀地看出,如果模型對(duì)樣本有較高的擬合優(yōu)度,則F檢驗(yàn)一般都能通過(guò),即越容易拒絕原假設(shè) ,換句話說(shuō),樣本回歸函數(shù)對(duì)樣本數(shù)據(jù)的擬合程度好,則模型越能準(zhǔn)確地反映總體特征。因此,用來(lái)判斷估計(jì)的回歸方程顯著性的F檢驗(yàn), 實(shí)際上也是判定系數(shù)的顯著性檢驗(yàn).實(shí)際應(yīng)用中不必過(guò)分苛求R2值的大小。,F檢驗(yàn)與t檢驗(yàn)的關(guān)系,在一元線性回歸中,F(xiàn)檢驗(yàn)和t檢驗(yàn)是一致的,這是因?yàn)樗鼈冇邢嗤脑僭O(shè) ,并且t統(tǒng)計(jì)量和F統(tǒng)計(jì)量之間存在如下關(guān)系: 此時(shí),對(duì)參數(shù)的顯著性檢驗(yàn)(t檢驗(yàn))與對(duì)回歸總體線性的顯著性檢驗(yàn)(F檢驗(yàn))是等價(jià)的。,第四節(jié) 預(yù)測(cè),一、預(yù)測(cè)的定義與種類(lèi) 二、點(diǎn)預(yù)測(cè) 三、區(qū)間預(yù)測(cè) 四、預(yù)測(cè)的精度,一、預(yù)測(cè)的定義與分類(lèi),預(yù)測(cè)是對(duì)于未來(lái)或未知的預(yù)計(jì)(估計(jì))與推測(cè); 預(yù)測(cè)不是臆測(cè),這里的預(yù)測(cè)是科學(xué)的預(yù)測(cè),它是建立在對(duì)預(yù)測(cè)對(duì)象認(rèn)識(shí)、分析和科學(xué)的推理基礎(chǔ)之上的。 預(yù)測(cè)是計(jì)量經(jīng)濟(jì)研究的目的之一,也是回歸分析應(yīng)用的主要方面。 一元線性回歸模型預(yù)測(cè),就是指由已知的或預(yù)先測(cè)定的解釋變量的數(shù)值,去估計(jì)被解釋變量在所觀測(cè)的樣本數(shù)據(jù)以外的數(shù)值。,預(yù)測(cè)的分類(lèi),內(nèi)插預(yù)測(cè)和外推預(yù)測(cè)。在解釋變量值屬于已知的樣本區(qū)間
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 固定資產(chǎn)臺(tái)賬管理報(bào)告
- 小米手機(jī)發(fā)布會(huì)課件
- 大學(xué)生職業(yè)規(guī)劃大賽《財(cái)政學(xué)專(zhuān)業(yè)》生涯發(fā)展展示
- 崩漏的護(hù)理查房
- 郵政銀行筆試題目及答案
- 一級(jí)消防員考試題及答案
- 項(xiàng)目部臨時(shí)用電工程施工方案
- 血站會(huì)計(jì)考試試題及答案
- 學(xué)會(huì)計(jì)的考試試題及答案
- 刑事法律試題及答案
- 《大學(xué)生創(chuàng)業(yè)基礎(chǔ)系列課程》課件-第14-2課-創(chuàng)業(yè)財(cái)務(wù)管理-2學(xué)時(shí)
- 《土源性線蟲(chóng)病》課件
- 找個(gè)管家管安全管理
- 九江芳蘭湖公園規(guī)劃方案
- 全國(guó)自然教育中長(zhǎng)期發(fā)展規(guī)劃
- 夏季預(yù)防胃腸疾病課件
- 創(chuàng)傷性硬膜下出血的健康教育
- 智能掃地機(jī)器人計(jì)劃書(shū)
- 行政強(qiáng)制法知識(shí)講座
- 縱隔腫瘤護(hù)理
- 腰椎間盤(pán)突出癥教學(xué)設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論