第六章相關與回歸分析_第1頁
第六章相關與回歸分析_第2頁
第六章相關與回歸分析_第3頁
第六章相關與回歸分析_第4頁
第六章相關與回歸分析_第5頁
已閱讀5頁,還剩160頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

STATISTICS統(tǒng)計學統(tǒng)計學原理統(tǒng)計學原理統(tǒng)計學原理第六章相關與回歸分析子代與父代一樣嗎?Galton被譽為現代回歸和相關技術的創(chuàng)始人。1875年,Galton利用豌豆實驗來確定尺寸的遺傳規(guī)律。他挑選了7組不同尺寸的豌豆,并說服他在英國不同地區(qū)的朋友每一組種植10粒種子,最后把原始的豌豆種子(父代)與新長的豌豆種子(子代)進行尺寸比較當結果被繪制出來之后,他發(fā)現并非每一個子代都與父代一樣,不同的是,尺寸小的豌豆會得到更大的子代,而尺寸大的豌豆卻得到較小的子代。Galton把這一現象叫做“返祖”(趨向于祖先的某種平均類型),后來又稱之為“向平均回歸”。一個總體中在某一時期具有某一極端特征(低于或高于總體均值)的個體在未來的某一時期將減弱它的極端性(或者是單個個體或者是整個子代),這一趨勢現在被稱作“回歸效應”。人們發(fā)現它的應用很廣,而不僅限于從一代到下一代豌豆大小問題子代與父代一樣嗎?正如Galton進一步發(fā)現的那樣,平均來說,非常矮小的父輩傾向于有偏高的子代;而非常高大的父輩則傾向于有偏矮的子代。在第一次考試中成績最差的那些學生在第二次考試中傾向于有更好的成績(比較接近所有學生的平均成績),而第一次考試中成績最好的那些學生在第二次考試中則傾向于有較差的成績(同樣比較接近所有學生的平均成績)。同樣,平均來說,第一年利潤最低的公司第二年不會最差,而第一年利潤最高的公司第二年則不會是最好的如果把父代和子代看作兩個變量,找出這兩個變量的關系,并根據這種關系建立適當的數學模型,就可以根據父代的數值預測子代的取值,這就是經典的回歸方法要解決的問題。學完本章的內容你會對回歸問題有更深入的理解本章主要內容一、變量間關系的分析與度量二、一元線性回歸模型的建立三、回歸直線的擬合優(yōu)度四、顯著性檢驗五、利用回歸方程進行估計和預測六、殘差分析一、變量間關系的分析與度量一、變量間關系的分析與度量1、變量間關系的兩種類型

————函數關系與相關關系2、相關關系的種類3、相關關系的描述與測度4、相關系數的顯著性檢驗主要內容1、變量間關系的兩種類型

————函數關系與相關關系1、變量間關系的兩種類型:函數關系與相關關系客觀現象總是普遍聯系、相互依存、相互制約的,當我們用變量來反映這些現象的特征時,便表現為變量之間的依存關系。變量之間就其關系的變化來說可分為:函數關系相關關系1、變量間關系的兩種類型:函數關系與相關關系函數關系是指現象之間存在的確定性的數量依存關系。在這種關系中,當某一變量或某些變量取任意一個值時,另一變量都會有一個確定值與之嚴格相對應,并且這種對應關系可以用一個數學表達式來反映。函數關系是人們比較熟悉的。設有兩個變量x和y,當x取其變化范圍中的每個特定的值時,相應地有唯一的y與它對應,則稱y是x的函數。記為y=f(x)等,其中x稱為自變量,y稱為因變量。實際上在數學領域,函數就是一種變換或映射關系,這種關系使一個集合里的每一個元素對應到另一個集合里的唯一元素。1、變量間關系的兩種類型:函數關系與相關關系函數關系的幾個例子當圓的半徑為r時,圓的面積s與半徑r之間的數量關系為:s=πr2

,s與r值之間存在著嚴格的一一對應關系,圓的面積隨半徑而變動,半徑一旦確定,圓的面積也隨之確定。某種商品的銷售額y與銷售量x之間的關系可表示為y=px(p為單價)。企業(yè)的原材料消耗額y與產量x1、單位產品消耗x2、原材料價格x3之間的關系可表示為y=x1x2x3

1、變量間關系的兩種類型:函數關系與相關關系相關關系是指現象之間存在的非確定性的數量依存關系。即現象之間雖然存在著數量依存關系,一個現象發(fā)生數量上發(fā)生變化時,另一個現象數量水平也會相應地發(fā)生變化。但這種數量變化關系并不是嚴格一一對應的,當一個變量數值確定時,另—個變量可能有許多個可能的取值與之相對應,這些數值圍繞著它們的平均數上下波動。(舉例說明)1、變量間關系的兩種類型:函數關系與相關關系例如:商品價格與商品需求量之間存在著數量變動關系,價格升高,需求量一般會減少。但在價格相同的情況下未必有相同的商品需求量,而是會有多個不同的數值。這是因為商品價格不是決定商品需求量的唯一因素,商品需求量還受消費者收入狀況、消費習慣、地區(qū)差異、替代品和互補品的價格變化、季節(jié)變化等眾多因素的影響。因此,商品價格與商品需求量之間的關系是相關關系。(回憶經濟學中是如何分析商品需求量與商品價格之間的關系)1、變量間關系的兩種類型:函數關系與相關關系一般認為,若變量y與變量x為相關關系,則y除受主要因素x的影響外,還受其他因素影響,由于這些因素對y的影響相比之下較小且具有隨機性,因此把它們看作隨機因素。相關關系的數學—般形式為:上式中的ε為隨機誤差項,用于反映隨機因素對y的影響。相關與回歸分析正是描述與探索這類變量之間關系及其規(guī)律的統(tǒng)計方法。1、變量間關系的兩種類型:函數關系與相關關系相關關系的其它例子父母身高與子女身高之間的關系收入水平與受教育程度之間的關系糧食畝產量與施肥量、降雨量、溫度之間的關系商品的消費量與居民收入之間的關系商品銷售額與廣告費支出之間的關系1、變量間關系的兩種類型:函數關系與相關關系函數關系與相關關系有區(qū)別也有聯系,二者的聯系主要體現在以下兩個方面:一是對于具有函數關系的現象,在實際中由于觀察或測量誤差等原因,往往呈現出相關關系的特征;二是當對現象之間的內在聯系和規(guī)律性了解的更清楚深刻的情況下,相關關系也可能轉化為函數關系。因此,相關關系通??梢杂靡欢ǖ暮瘮店P系表達式去近似地描述。1、變量間關系的兩種類型:函數關系與相關關系另外:在具有相互依存關系的兩個變量中,作為根據的變量叫自變量,發(fā)生對應變化的變量叫因變量。當變量之間存在前因后果的關系時,自變量與因變量的確定較為容易。如前述的父母身高、家庭收入、企業(yè)投入是自變量,兒女身高、消費支出、企業(yè)產出是因變量。當變量之間互為因果時,則要根據研究目的來確定哪個是自變量,哪個是因變量,如商品需求量與商品價格水平之間就屬于這種情況。在相關分析中,一般不需要確定自變量和因變量,在回歸分析中,則必須確定自變量和因變量。2、相關關系的種類2、相關關系的種類(1)按照相關關系涉及的因素(變量)多少,可分為單相關和復相關。兩個因素之間的相關關系稱作單相關,也稱為—元相關或簡單相關。三個或三個以上因素之間的相關關系稱為復相關或多元相關。在復相關中,如果將其它的自變量固定不變而只研究因變量與其中某一個自變量之間的相關關系,這種相關關系稱為偏相關。2、相關關系的種類(2)按照相關關系的表現形式不同,可分為線性相關與非線性相關。對于一元相關,即為直線相關和曲線相關。線性相關指的是變量之間呈線性關系,如果記自變量為x1,x2,x3,...,xp,因變量為y,則下面相關形式即為“線性”:對于直線相關,意味著兩個相關現象的數據在坐標上描點后近似表現為一條直線。2、相關關系的種類非線性相關則指變量之間呈非線性關系,其形式多種多樣,下面兩式均屬于非線性相關:對于曲線相關,意味著兩個相關現象的數據在坐標上描點后近似地表現為一條曲線,如拋物線、雙曲線、指數曲線等。continued2、相關關系的種類(3)對于單相關,按照現象數量變化的方向不同,可分為正相關和負相關。當一個變量隨著另一個變量的增加(減少)而增加(減少),即兩者同向變化時,稱為正相關,例如家庭收入與家庭支出之間的關系,一般隨著家庭收入的增加,家庭支出也會隨之增加。當一個變量隨著另一個變量的增加(減少)而減少(增加),即兩者反向變化時,稱為負相關,如產品產量與單位成本之間的關系,單位成本會隨著產量的增加而減少。2、相關關系的種類(4)按照相關程度不同,可以分為完全相關、不完全相關和無相關。當一個變量的變化完全由另一個變量所決定時,稱變量間的這種關系為為完全相關關系,這種嚴格的依存關系實際上就是函數關系。或者說函數關系是相關關系的一個特例。當兩個變量的變化相互獨立、互不影響時,稱這兩個變量不相關(或零相關)。(學生成績與學生身高)變量之間關系介于完全相關與不完全相關之間,稱為不完全相關。不完全相關關系是現實當中相關關系的主要表現形式,也是相關分析的主要研究對象。2、相關關系的種類我們要重點討論的是:一元線性相關(簡單線性相關)3、相關關系的描述與測度3、相關關系的描述與測度相關關系分析的內容很多,我們主要對兩個變量之間線性關系(一元線性相關)進行描述和度量,它要解決的問題包括:變量之間是否存在關系?如果存在關系,它們之間是什么樣的關系?變量之間的關系強度(密切程度)如何?樣本所反映的變量之間的關系能否代表總體變量之間的關系?前兩個問題主要通過定性分析或相關表與散點圖來解決;第三問題主要通過計算相關系數來確定;第四個問題涉及到對相關系數進行顯著性檢驗。3、相關關系的描述與測度變量之間關系的定性分析:在研究相關關系時,應根據一定的經濟理論和實踐經驗的總結,對社會經濟現象進行科學的定性分析,以判斷它們之間是否具有相關關系以及相關關系的類型。只有在定性分析的基礎上,才能進一步從數量上來測定現象之間的相關關系及相關的密切程度。這是判斷相關關系的一種重要方法,也是相關分析的重要前提。3、相關關系的描述與測度相關表相關表是一種反映變量之間相關關系的統(tǒng)計表。將某一變量按其取值的大小排列,然后再將與其相關的另一變量的對應值平行排列,便可得到簡單的相關表。例:某地區(qū)某企業(yè)近8年產品產量與生產費用的相關情況如下表所示。3、相關關系的描述與測度產品產量與生產費用相關表從上表可看出,產品產量與生產費用之間存在一定的正相關關系。3、相關關系的描述與測度散點圖(scatterdiagrams)散點圖是將相關表中的觀測值在平面直角坐標系中用坐標點描繪出來,以表明相關點的分布狀況。散點圖是描述變量之間關系的一種直觀方法,從中可以大體上看出兩個變量之間有無相關關系以及相關的形態(tài)、方向和密切程度。也稱相關圖。以上表為例,繪制散點圖。從圖中可以看出產品產量與生產費用之間存在明顯的線性正相關關系。3、相關關系的描述與測度3、相關關系的描述與測度散點圖的幾種典型情況:3、相關關系的描述與測度r=0(h)r=0(f)r=-1(d)r=1(b)0<r<1(a)-1<r<0(c)r

0(e)r

0(g)零相關正相關負相關完全正相關完全負相關零相關零相關零相關3、相關關系的描述與測度相關系數的測定通過相關表或散點圖可以判斷兩個變量之間有無相關關系,并對變量間的關系形態(tài)做出大致的描述,但它們不能準確反映變量之間的關系強度。因此,為了準確度量兩個變量之間的關系強度,需要計算相關系數。此處所指的相關系數為簡單相關系數,或稱為直線相關系數,它是描述兩個變量之間線性相關密切程度和相關方向的統(tǒng)計分析指標。由于這個系數是由英國統(tǒng)計學家皮爾遜(Pearson)設計的,故又稱為Pearson相關系數。3、相關關系的描述與測度【例6.6】一家大型商業(yè)銀行在多個地區(qū)設有分行,其業(yè)務主要是進行基礎設施建設、國家重點項目建設、固定資產投資等項目的貸款。近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的提高,這給銀行業(yè)務的發(fā)展帶來較大壓力。為弄清楚不良貸款形成的原因,希望利用銀行業(yè)務的有關數據做些定量分析,以便找出控制不良貸款的辦法。下面是該銀行所屬的25家分行的有關業(yè)務數據3、相關關系的描述與測度3、相關關系的描述與測度3、相關關系的描述與測度相關系數的測定方法與相關變量的測量層次有關。對于定距變量或定比變量,通常采用皮爾遜線性相關系數測量相關密切程度;對于定序變量,通常采用斯皮爾曼等級相關系數或肯德爾等級相關系數測量相關密切程度;對于定類變量,則常常采用列聯系數等來測量相關密切程度。我們重點分析的是皮爾遜線性相關系數。3、相關關系的描述與測度若相關系數是根據總體全部數據計算的,稱為總體相關系數,一般用ρ表示;若相關系數是根據樣本數據計算的,稱為樣本相關系數,一般用r表示。樣本相關系數的計算公式為:式中:3、相關關系的描述與測度所以,因為,3、相關關系的描述與測度r的簡捷計算公式:自己推導3、相關關系的描述與測度也可以寫成這樣:3、相關關系的描述與測度總體相關系數的計算公式為:式中:一般情況下,總體相關系數是ρ未知的,通常是根據樣本相關系數r作為它的近似估計值。3、相關關系的描述與測度相關系數的性質性質1:r的取值范圍是[-1,1]|r|=1,為完全相關r=1,為完全正相關r=-1,為完全負正相關

r=0,不存在線性相關關系

-1r<0,為負相關0<r1,為正相關|r|越趨于1表示關系越強;|r|越趨于0表示關系越弱3、相關關系的描述與測度-1.0+1.00-0.5+0.5完全負相關無線性相關完全正相關負相關程度增加r正相關程度增加3、相關關系的描述與測度性質2:r具有對稱性。即x與y之間的相關系數和y與x之間的相關系數相等,即rxy=ryx性質3:r數值大小與x和y原點及尺度無關,即改變x和y的數據原點及計量尺度,并不改變r數值大小性質4:僅僅是x與y之間線性關系的一個度量,它不能用于描述非線性關系。這意為著,r=0只表示兩個變量之間不存在線性相關關系,并不說明變量之間沒有任何關系性質5:r雖然是兩個變量之間線性關系的一個度量,卻不一定意味著x與y一定有因果關系3、相關關系的描述與測度相關系數的經驗解釋|r|0.8時,可視為兩個變量之間高度相關0.5|r|<0.8時,可視為中度相關0.3|r|<0.5時,視為低度相關|r|<0.3時,說明兩個變量之間的相關程度極弱,可視為不相關上述解釋必須建立在對相關系數的顯著性進行檢驗的基礎之上3、相關關系的描述與測度3、相關關系的描述與測度

我國人均國民收入與人均消費金額數據

單位:元年份人均國民收入人均消費金額年份人均國民收入人均消費金額1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148【例】在研究我國人均消費水平的問題中,把全國人均消費額記為y,把人均國民收入記為x。我們收集到1981~1993年的樣本數據(xi

,yi),i=1,2,…,13,數據見下表,計算相關系數。3、相關關系的描述與測度解:根據樣本相關系數的計算公式有人均國民收入與人均消費金額之間的相關系數為0.99874、相關系數的顯著性檢驗4、相關系數的顯著性檢驗一般情況下,總體相關系數是ρ未知的,通常是根據樣本相關系數r作為它的近似估計值。但由于r是根據樣本數據計算出來的,它受到抽樣波動的影響。因此r是隨機變量。能否根據樣本相關系數說明總體的相關程度,這需要考察樣本相關系數的可靠性,也就是進行顯著性檢驗。為了對r的顯著性進行檢驗,需要考察r的抽樣分布。相關理論表明,通常情況下,對r應該采用t檢驗為好。4、相關系數的顯著性檢驗檢驗統(tǒng)計量為:原假設與備擇假設一般寫作:H0:;H1:0其它步驟同假設檢驗的一般步驟。4、相關系數的顯著性檢驗4、相關系數的顯著性檢驗各相關系數檢驗的統(tǒng)計量4、相關系數的顯著性檢驗對前面例子的相關系數進行檢驗(α=0.05)寫假設:H0:;H1:0α=0.05,雙側檢驗,自由度13-2=11,查表臨界值為:tα/2=±2.201,計算檢驗統(tǒng)計量的值:64.98>2.201,因此,拒絕原假設,接受備擇假設。表明總體相關系數不為零。人均國民收入與人均消費金額相關關系顯著。二、一元線性回歸模型的建立二、一元線性回歸模型的建立1.回歸分析概述2.回歸模型與回歸方程3.參數的最小二乘估計法1.回歸分析概述1.回歸分析概述引言如前所述,通過做散點圖、計算相關系數等方法對變量間關系進行分析,可以認識現象之間相關關系的類型、方向及相關的密切程度。但相關分析不能判斷現象之間具體的數量變動依存關系,也不能根據相關系數來估計或預測因變量可能發(fā)生的數值。因此,為了探求經濟變量之間的具體數量變動關系,一般在相關分析的基礎上再進行回歸分析。1.回歸分析概述回歸分析的含義回歸分析就是對具有相關關系的兩個或兩個以上變量之間數量變化的一般關系進行測定,確定因變量和自變量之間數量變動關系的數學表達式,以便對因變量進行估計或預測的統(tǒng)計分析方法。顯然,相關分析的主要任務是研究變量間相關關系的表現形式和密切程度,而回歸分析是在相關分析的基礎上,進一步研究現象之間的數量變化規(guī)律。二者是相互補充密切聯系的。1.回歸分析概述“回歸”(Regression)一詞的由來回歸這個統(tǒng)計術語是由英國著名統(tǒng)計學家FrancisGalton在19世紀末期研究孩子及他們的父母的身高時提出來的。Galton發(fā)現身材高的父母,他們的孩子也高。但這些孩子平均起來并不像他們的父母那樣高。對于比較矮的父母情形也類似:他們的孩子比較矮,但這些孩子的平均身高要比他們的父母的平均身高高。Galton把這種孩子的身高向中間值靠近的趨勢稱之為一種回歸效應,而他發(fā)展的研究兩個數值變量的方法稱為回歸分析。1.回歸分析概述回歸分析與相關分析特點的比較回歸分析中必須根據研究目的確定哪個變量為因變量,哪些變量為自變量。相關分析可以不用區(qū)分自變量和因變量。相關分析中,兩個變量要求都是隨機的;而在回歸分析中,要求因變量是隨機的,而自變量的值可以是給定的,也可以是隨機的。若變量之間互為因果,或是沒有明顯因果關系,則可以求出兩個回歸方程。即y倚x的回歸方程(y為因變量)和x倚y的回歸方程(x為因變量),兩個方程的含義是不同的。對于相關分析來說,兩個變量之間只能求出一個相關系數。1.回歸分析概述回歸方程有較強的應用性。根據回歸方程的參數可以得出變量之間的具體數量變動關系,即自變量變動一個單位,因變量會變動多少?;貧w方程也可以用于估計推斷,即根據給定的自變量的數值來估計因變量的可能值,或以限定的因變量取值范圍來推斷自變量取值應控制在什么范圍內。相關分析是回歸分析的基礎,回歸分析是相關分析的深入。continued1.回歸分析概述具體來說,回歸分析主要解決以下幾個方面的問題:(1)從一組樣本數據出發(fā),確定出變量之間的數學關系式。(2)對這些關系式的可信程度進行各種統(tǒng)計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響是顯著的,哪些是不顯著的。(3)利用所求的關系式,根據一個或幾個變量的取值來估計或預測另一個特定變量的取值,并給出這種估計或預測的可靠程度。1.回歸分析概述回歸分析模型的種類(1)簡單回歸與多元回歸:回歸分析模型按照具有相關關系的變量個數劃分,可分為簡單回歸分析模型和多元回歸分析模型。簡單回歸分析模型是指只有一個自變量和一個因變量的回歸分析模型,簡單回歸也稱一元回歸。多元回歸分析模型也稱復回歸分析模型,是指由多個自變量和一個因變量組成的回歸分析的模型。它與簡單回歸分析模型相比,增加了自變量的個數,是對簡單回歸分析模型的拓展。此外,還有多個自變量對多個因變量的回歸分析。1.回歸分析概述(2)線性回歸與非線性回歸:回歸分析模型按照變量間相互關系的形態(tài)來分,可分為線性回歸分析模型和非線性回歸分析模型。當變量之間關系的形態(tài)表現為線性相關時,擬合的模型稱為線性回歸分析模型,其模型表達式為線性回歸方程;當變量之間相互關系的形態(tài)表現為某種曲線趨勢時,擬合的模型稱為非線性回歸分析模型,其模型表達式為某種曲線回歸方程。除上述分類外,根據簡單回歸和多元回歸與直線回歸和非直線回歸的交叉結合,還可以進一步細分為簡單線性回歸和簡單非線性回歸,多元線性回歸和多元非線性回歸等不同類型。continued1.回歸分析概述回歸模型一元回歸多元回歸線性回歸非線性回歸線性回歸非線性回歸continued我們要討論的是“一元線性回歸模型”!2.回歸模型與回歸方程2.回歸模型與回歸方程對于具有線性關系的兩個變量,可以用一個線性方程來表示他們之間的關系。描述因變量y如何依賴于x和誤差項ε的方程稱為回歸模型(regressionmodel)。對于只涉及一個自變量的一元線性回歸模型可表示為:式中:β0,β1稱為模型參數;

ε被稱為誤差項的隨機變量;

x為自變量(解釋變量或預測變量);

y為因變量(被解釋變量或被預測變量);2.回歸模型與回歸方程在上述的一元線性回歸模型中,y是x的線性函數(β0+β1x部分)加上誤差項ε。β0+β1x反映了由于x的變化而引起的y的線性變化;誤差項ε反映了除x和y之間線性關系之外的隨機因素對y的影響,是不能由x和y之間的線性關系所揭示的變異性。2.回歸模型與回歸方程上述模型也被稱為理論回歸模型,對這一模型,有以下幾個主要假定:(1)因變量y與自變量x之間具有線性關系。(2)x是非隨機的,也就是假定在重復抽樣中,x的取值是固定的。(3)誤差項ε是一個期望值為0的隨機變量,即E(ε)=0。這表示:E(y)=β0+β1x(4)對于所有的x值,ε的方差σ2都相同。這表示:對于所有的x,y的方差也為σ2。(5)誤差項ε是一個服從正態(tài)分布的隨機變量且獨立。這表示:對于任何一個給定的x的值,y都服從期望值為β0+β1x,方差為σ2的正態(tài)分布,且對于不同的x都具有相同方差。2.回歸模型與回歸方程x1x2x3xyE(y)=β0+β1xβ0x=x1時y的分布x=x2時y的分布x=x3時y的分布x=x1時的E(y)x=x2時的E(y)x=x3時的E(y)回歸模型假定圖示2.回歸模型與回歸方程從上圖可以看出,E(y)的值隨著x的不同而變化,但無論x怎樣變化,ε和y的概率分布都是正態(tài)分布,并且具有相同的方差。在任意特定點上,誤差項ε某一特定值依賴于y的真實值大于或小于E(y)。E(y)=β0+β1x實際上就是假定變量間關系的模型為一條直線。2.回歸模型與回歸方程=隨機誤差項yx觀測值E(Y)X01YXii01觀測值xi2.回歸模型與回歸方程根據回歸模型的假定,y的期望值E(y)=β0+β1x,也就是說,y的期望值是x的線性函數。描述因變量y的期望值如何依賴于自變量x的方程稱為回歸方程(regressionmodel)。一元線性回歸方程的形式為:

E(y)=β0+β1x一元線性回歸方程的圖示是一條直線,因此也稱為直線回歸方程。其中β0是回歸直線在y軸上截距,是當x=0時y的期望值;β1是直線的斜率,它表示當x每變動一個單位時,y的平均變動值。2.回歸模型與回歸方程一元線性回歸中的可能回歸線:回歸直線回歸直線回歸直線2.回歸模型與回歸方程如果回歸方程中的參數β0,β1已知,對于一個給定的x的值,利用上面的式子就能計算出y的期望值。但總體回歸參數β0與β1的是未知的,必須利用樣本數據去估計它們。用樣本統(tǒng)計量和代替回歸方程中未知參數β0與β1,這時就得到了估計回歸方程(estimatedregressionequation)。對一元線性回歸,估計的回歸方程形式為:式中:為估計回歸直線在y軸上的截距;為直線的斜率,表示x每變動一個單位時,y的平均變動值。

如何確定估計回歸方程中的

和?3.參數的最小二乘估計法3.參數的最小二乘估計“參數的最小二乘估計法”是利用樣本進行回歸方程估計的一種方法。簡稱為“最小平方法(leastsquaresmethod)”或“最小二乘法”。例:阿姆得(Armand)比薩餅連鎖店坐落在美國的5個州內,它們通常的位置是在大學旁邊,而且管理人員相信附近大學的人數與這些連鎖店的季度銷售額是有關系的。下面是10家連鎖店附近大學的學生人數和季度銷售收入的數據:(1)做學生人數x與銷售額y兩個變量之間的散點圖(2)計算相關系數r(3)對變量之間的關系做出判斷3.參數的最小二乘估計法學生人數x與銷售額y兩個變量之間的散點圖相關系數r=0.95學生人數x與銷售額y之間應是較顯著的正相關關系3.參數的最小二乘估計法實際上,我們可以假定學生人數x與銷售額y兩個變量之間是正線性相關關系,并且銷售額隨學生人數的變化而變化,也就是說學生人數為自變量,銷售額為因變量。根據上述假設,我們可以寫出銷售額與學生人數兩個變量之間的回歸估計方程。continued那么,現在的問題是,如何找到一條直線,使這條直線盡可能的靠近所有的樣本點呢?3.參數的最小二乘估計法如何確定?continued實際上就是如何確定

與。3.參數的最小二乘估計法確定這條直線的方法有很多種,其中有一種最常使用的方法就是“最小二乘法”,該方法是由德國科學家卡爾·弗里德里?!じ咚固岢龅?。最小二乘法的基本原理就是:讓所尋找的直線上的點盡可能地接近實際觀測點,即回歸估計線上的點與實際觀測點的離差平方和最小。(以下用圖形說明)continued3.參數的最小二乘估計法xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)^ei即為因變量實際觀測值yi與所要尋找的回歸直線上的點,也即yi的估計值(yi)之間的離差。e13.參數的最小二乘估計法因此,最小二乘法就是使因變量的觀察值yi與估計值yi之間的離差平方和達到最小來求β1和β2的估計與的方法。也就是使^最小。因此,求解的最小值即可得到與。如何求解。利用微積分求極值定理。推導如下。3.參數的最小二乘估計法令,把代入上式即在給定了樣本數據后,Q便是與的函數,且最小值存在。根據微積分的極值定理,對Q求相應于與的偏導數,并令其等于0,便可求出與,也就是說與應滿足下列方程組。3.參數的最小二乘估計法即,解上述方程組得,自己推導很重要的公式3.參數的最小二乘估計法或者可寫為:可以證明用最小二乘法擬合的直線具有一些優(yōu)良的性質,或者最小二乘估計量具有一些優(yōu)良性質,如無偏性,有效性等。3.參數的最小二乘估計法在“阿姆德比薩餅連鎖店”的例子中,因此,阿姆德比薩餅連鎖店的回歸估計方程為,(自己算一下)你對該方程中系數的含義怎么理解?3.參數的最小二乘估計法擬合出來的直線為,3.參數的最小二乘估計法3.參數的最小二乘估計法不良貸款對貸款余額回歸方程的圖示三、回歸直線的擬合優(yōu)度三、回歸直線的擬合優(yōu)度回歸直線在一定程度上描述了變量x與y之間的數量關系,根據這一方程,可根據自變量x的取值來估計或預測因變量y的取值,但這種估計或預測的精度如何將取決于回歸直線對觀測數據的擬合程度。各觀測值越是緊密圍繞直線,說明直線對觀測數據的擬合程度越好,反之則越差。所謂回歸直線的擬合優(yōu)度(Goodnessoffit),就是指樣本觀測值聚集在回歸估計線周圍的緊密程度。判斷回歸模型擬合程度大小的最常用的指標是判定系數(coefficientofdetermination),又稱可決系數,為了說明判定系數的含義,需要對因變量y取值的變差進行研究。三、回歸直線的擬合優(yōu)度因變量y的取值是不同的,y取值的這種波動稱為變差。變差來源于兩個方面由于自變量x的取值不同造成的除x以外的其他因素(如x對y的非線性影響、測量誤差等)的影響對一個具體的觀測值(第i個)來說,變差的大小可以通過該實際觀測值y與其均值y之差yi-y來表示。而n次觀察值的總變差可由這些離差的平方和來表示,稱為總平方和(TotalDeviationSumofSquares),記為SST,即也可認為是未引進回歸時的總變差。三、回歸直線的擬合優(yōu)度因變量y變差的分解(見下圖)xiyx三、回歸直線的擬合優(yōu)度從上圖可以看出,每個觀測點的變差都可以分解為:將上式兩邊平方,并對所有n個點求和,有:可以證明,因此三、回歸直線的擬合優(yōu)度上面式子的左邊即為總平方和SST,它可以分解為兩部分:其中是回歸值與均值的離差平方和,根據估計的回歸方程,估計值,因此可以把看做是由于自變量x的變化引起的y的變化,而其平方和則反映了y的總變差中由于x與y之間的線性關系引起的y的變化部分,它是可以由回歸直線來解釋的yi變差部分,稱為回歸平方和(RegressionSumofSquares),記為SSR。(回歸的貢獻)分析這個式子的構成三、回歸直線的擬合優(yōu)度另一部分是各實際觀測值與回歸值的殘差

平方和,它是除了x對y的線性影響之外的其他因素對y變差的作用,是不能由回歸直線來解釋的yi變差部分,稱為殘差平方和(ResidualSumofSquares)或誤差平方和,記為SSE。(引進回歸以后的剩余變差)三個平方和的關系為:總平方和(SST)=回歸平方和(SSR)+殘差平方和(SSE)三、回歸直線的擬合優(yōu)度SST=SSR+SSE總平方和(SST){回歸平方和(SSR)殘差平方和(SSE){{三、回歸直線的擬合優(yōu)度總平方和(SST)反映因變量的n個觀察值與其均值的總離差。回歸平方和(SSR)反映自變量x的變化對因變量y取值變化的影響,或者說,是由于x與y之間的線性關系引起的y的取值變化,也稱為可解釋的平方和。殘差平方和(SSE)反映除x以外的其他因素對y取值的影響,也稱為不可解釋的平方和或剩余平方和。三、回歸直線的擬合優(yōu)度從前面的分析可以看出,回歸直線擬合的好壞取決于SSR及SSE的大小,或者說取決于回歸平方和SSR占總平方和SST的比例(SSR/SST)大小。各觀測點越是靠近直線,SSR/SST則越大,直線擬合得越好。反之則直線擬合的越差?;貧w平方和占總平方和的比例(SSR/SST)稱為判定系數,記為R2,其計算公式為:三、回歸直線的擬合優(yōu)度實際上,由或者三、回歸直線的擬合優(yōu)度判定系數R2是對估計的回歸方程擬合優(yōu)度的度量,它表示了全部變差中有百分之幾的偏差可由x與y的線性回歸關系來解釋,其取值范圍在[0,1]之間。R2越接近1,說明回歸直線的擬合程度越好;反之,R2越接近0,說明回歸直線的擬合程度越差。在一元線性回歸中,相關系數r實際上是判定系數的平方根,即也即因此,相關系數從另一個角度說明了回歸直線的擬合優(yōu)度。但要注意,r的值(r=-1、1和0除外)總是大于判定系數的值。三、回歸直線的擬合優(yōu)度在“阿姆德比薩餅連鎖店”的例子中:SST=15730SSE=1530SSR=1-SSE=15730-1530=14200。判定系數R2=0.9027,它的實際意義是:在銷售額的變差中,有90.27%可以由銷售額與學生人數之間的線性關系解釋,或者說,在銷售額取值的變動中,有90.27%是由學生人數所決定的。可見,回歸方程的擬合程度是比較好的。或者說,銷售額與學生人數之間有較強的線性關系。三、回歸直線的擬合優(yōu)度三、回歸直線的擬合優(yōu)度除判定系數外,還有一個可用于反映回歸直線擬合優(yōu)度的指標,即估計標準誤差(standarderrorofestimate)。實際上,估計標準誤差是度量各實際觀測值在回歸直線周圍的散布狀況的一個統(tǒng)計量,它是均方殘差(meansquareerror/MSE)平方根,用Se來表示,其計算公式為:三、回歸直線的擬合優(yōu)度估計標準誤差是對誤差項ε的標準差σ的估計,它可以看做是在排除了x對y的線性影響后,y隨機波動大小的一個估計量。從估計標準誤差的實際意義上看,它反映了用估計的回歸方程預測因變量y時預測誤差的大小。若各觀測值越靠近回歸直線,Se越小,回歸直線對各觀測值的代表性就越好,根據估計的回歸方程進行預測也就越準確;反之則反是。所以說,Se從另一個角度說明了回歸直線的擬合優(yōu)度。三、回歸直線的擬合優(yōu)度從估計標準誤差的計算公式可以看出,回歸直線是對n個觀測值擬合的所有直線中估計標準誤差最小的一條直線,因為回歸直線是使為最小時確定。在阿姆德比薩餅店例子中,四、顯著性檢驗四、顯著性檢驗根據樣本數據擬合回歸方程時,實際上已經假定變量x與y之間存在線性關系,即y=β0+β1x+ε,并假定誤差項ε是一個服從正態(tài)分布的隨機變量,且對不同的x具有相同的方差。但這些假設是否成立,需要通過檢驗后才能證實?;貧w分析中的顯著性檢驗主要包括兩個方面的內容:一是線性關系檢驗(方程總體回歸關系的顯著性)二是回歸系數檢驗(方程各回歸系數的顯著性)就一元線性回歸模型而言,上述的兩個檢驗是等價的。四、顯著性檢驗線性關系檢驗是檢驗自變量x和因變量y之間的線性關系是否顯著,或者說,它們之間能否用一個線性模型y=β0+β1x+ε來表示。為了達到這目的,需要構造檢驗統(tǒng)計量,該統(tǒng)計量的構造是以回歸平方和SSR與殘差平方和SSE為基礎的。將SSR除以其相應的自由度(一元線性回歸中自由度為1)后的結果稱為均方回歸(meansquareregression),記為MSR。將SSE除以其相應的自由度(一元線性回歸中自由度為n-2)后的結果稱為均方殘差(meansquareerror),記為MSE。四、顯著性檢驗如果原假設成立(H0:β1=0),則比值MSR/MSE抽樣分布服從分子自由度為1、分母自由度為n-2的F分布,即線性關系檢驗的具體步驟如下:四、顯著性檢驗1.提出假設:H0:1=0線性關系不顯著

H1:1≠0線性關系顯著2.計算檢驗統(tǒng)計量F3.確定顯著性水平,并根據分子自由度1和分母自由度n-2找出臨界值F4.作出決策:若F>F,拒絕H0;若F<F,不拒絕H0四、顯著性檢驗在阿姆德比薩餅店例子中,檢驗統(tǒng)計量的值為:如果α=0.01,分子自由度為1,分母自由度為10-2=8,查表F0.01=11.26,因此74.25>11.26,拒絕原假設,得出當顯著性水平為0.01是,β1不等于0。四、顯著性檢驗四、顯著性檢驗回歸系數的顯著性檢驗是要檢驗自變量對因變量的影響是否顯著。實際上也是檢驗回歸系數1是否等于0。但所構造的檢驗統(tǒng)計量與前面的不一樣。為了構造檢驗統(tǒng)計量,需研究回歸系數b1的抽樣分布。是根據最小二乘法得到的用于估計總體參數β1的統(tǒng)計量,是一個隨機變量。統(tǒng)計證明,服從正態(tài)分布。其期望值為:標準差為:四、顯著性檢驗由于σ未知,需用其估計量Se來代替得到的估計的標準差為:這樣就可以構造出用于檢驗回歸系數β1的統(tǒng)計量為:該統(tǒng)計量是服從自由度為n-2的t分布。如果原假設成立(H0:1=0),則檢驗統(tǒng)計量為:四、顯著性檢驗1.提出假設H0:β1=0(沒有線性關系)H1:β1

0(有線性關系)2.計算檢驗的統(tǒng)計量3.確定顯著性水平,并進行決策t>t,拒絕H0;t<t,不拒絕H0檢驗步驟如下:四、顯著性檢驗在阿姆德比薩餅店例子中,檢驗統(tǒng)計量的值為:如果α=0.01,自由度為10-2=8,查表t0.005=3.355,因此8.62>3.355,拒絕原假設,得出當顯著性水平為0.01是,β1不等于0。四、顯著性檢驗四、顯著性檢驗需要進一步說明的是:在一元線性回歸中,自變量只有一個,上面介紹的F檢驗和t檢驗是等價的,也就是說,如果H0:1=0被t檢驗拒絕,它也將被F檢驗拒絕。但是在多元回歸分析中,這兩種檢驗的意義是不同的。F檢驗只是用來檢驗總體回歸關系的顯著性,而t檢驗則是檢驗各回歸系數的顯著性。四、顯著性檢驗excel等軟件中輸出的結果更多,有些需要進一步學習。五、利用回歸方程進行估計和預測五、利用回歸方程進行估計和預測回歸分析的主要目的根據所建立的估計回歸方程進行預測或控制。預測是指通過自變量x的取值來預測因變量y的取值。控制則與預測恰好相反,它是根據一個想要的y值,求得所要的x值?;貧w模型經過各種檢驗并表明符合預訂的要求后,就可以用它來完成這一目的了。主要介紹根據估計回歸方程進行估計和預測的方法:點估計區(qū)間估計五、利用回歸方程進行估計和預測點估計值可以分兩種:y的平均值的點估計y的個別值的點估計所謂點估計是對于自變量x的一個給定值x0

,根據估計回歸方程得到因變量y的一個估計值。五、利用回歸方程進行估計和預測平均值的點估計就是利用估計的回歸方程,對于自變量x的一個給定值x0

,求出因變量y

的平均值的一個估計值E(y0)。在阿姆德比薩餅店的例子中,估計回歸方程為,該方程表示學生人數和季度銷售額y之間的估計關系。如果管理人員想估計學生人數為10000名時,所有餐館的平均季度銷售額,就是平均值的點估計。根據上面的估計回歸方程,可得,五、利用回歸方程進行估計和預測個別值的點估計是利用回歸估計方程,對于x一個特定值x0,求出y的一個個別值的估計值。例如,前面的例子中,如果只想知道某個大學附近的餐館的季度銷售額是多少,則屬于個別值的點估計。根據上面的估計的回歸方程,假定這個大學的人數為10000人,可得這個大學附近這個餐館的季度銷售額為,實際上,在點估計條件下,對于同一個x0,平均值的點估計和個別值的的點估計的結果是一樣的,但在區(qū)間估計中則不同五、利用回歸方程進行估計和預測點估計不能給出估計的精度,點估計值與實際值之間是有誤差的,因此需要進行區(qū)間估計區(qū)間估計就是對于自變量x的一個給定值x0,根據回歸估計方程得到因變量y的一個估計區(qū)間。區(qū)間估計也有兩種類型:置信區(qū)間估計(confidenceintervalestimate)預測區(qū)間估計(predictionintervalestimate)五、利用回歸方程進行估計和預測置信區(qū)間估計是指利用估計的回歸方程,對于自變量x的一個給定值x0,求出因變量y的平均值的估計區(qū)間(這一估計區(qū)間稱為置信區(qū)間)。設x0為自變量x的一個特定值或給定值;E(y0)為給定x0時因變量y的平均值或期望值。當x=x0時,為E(y0)的估計值。一般來說,不能期望估計值精確地等于E(y0)。因此,要想用推斷E(y0),必須考慮根據估計的回歸方程得到的方差。對于給定的x0,統(tǒng)計學家給出了估計標準差的公式,用表示。五、利用回歸方程進行估計和預測公式如下:有了的標準差之后,對于給定的x0,E(y0)在1-α置信水平下的置信區(qū)間可表示為:t分布的自由度n-2。五、利用回歸方程進行估計和預測在阿姆德比薩餅店例子中,給定x0=10(千人),那么對于所有位于有10000名學生的校園附近的餐館平均季度銷售額,建立置信度為95%的區(qū)間估計。t0.025=2.306。五、利用回歸方程進行估計和預測五、利用回歸方程進行估計和預測預測區(qū)間估計是對于x的一個給定值x0,求出y的一個個別值的區(qū)間估計。為了求出預測區(qū)間,首先必須知道用于估計的標準差。統(tǒng)計學家已經給出y的一個個別值y0的標準差的估計量,用sind表示,其計算公式為:五、利用回歸方程進行估計和預測因此,對于給定的x0,y的一個個別值y0在1-α置信水平下的預測區(qū)間可以表示為:與前面的公式相比,這個式子的根號內多了一個1。因此,即使是對同一個x0,這兩個區(qū)間的寬度也是不一樣的,預測區(qū)間要比置信區(qū)間寬一些。五、利用回歸方程進行估計和預測在阿姆德比薩餅店例子中,給定x0=10(千人),那么對于位于有10000名學生的校園附近的某一餐館季度銷售額,建立置信度為95%的預測區(qū)間。t0.025=2.306。五、利用回歸方程進行估計和預測五、利用回歸方程進行估計和預測置信水平(1-)區(qū)間寬度隨置信水平的增大而增大數據的離散程度(s)區(qū)間寬度隨離散程度的增大而增大樣本容量區(qū)間寬度隨樣本容量的增大而減小用于預測的x0與x的差異程度區(qū)間寬度隨x0與x的差異程度的增大而增大影響置信區(qū)間寬度的因素五、利用回歸方程進行估計和預測x0yxx預測上限置信上限預測下限置信下限五、利用回歸方程進行估計和預測從上面的圖可以看出,兩個區(qū)間的寬度不一樣,y的個別值的預測區(qū)間要寬一些。二者的差別表明,估計y的平均值比預測y的一個特定值或個別值更精確。并且當x0=x時,兩者都是最精確的。最后需要注意的是:在利用回歸直線方程進行估計或預測時,不要用樣本數據之外的x值去預測相應的y值。因為在一元線性回歸分析中,總是假定因變量y與自變量x之間的關系用線性模型表達是正確的。但實際應用中,它們之間的關系可能是某種曲線。因此如果用樣本數據以外的x值得出的估計值和預測值就會很差。六、殘差分析六、殘差分析在回歸模型y=β0+β1x+ε假定ε是期望值為0、方差相等、服從正態(tài)分布且獨立的隨機變量。但是,如果關于它的假定不成立,那么,此時所做的檢驗以及估計和預測也許就站不住腳了。確定ε的假定是否成立的方法之一就是進行殘差分析(residualanalysis)。本部分有兩個內容:一是用殘差證實模型的假定二是用殘差檢測異常值和有影響的觀測值用殘差證實模型的假定殘差(residual)是因變量的觀測值yi與根據估計的回歸方程求出的預測值之差,用e表示。它反映了用估計的回歸方程去預測而引起的誤差。

第i個觀察值的殘差可以寫為:為了分析誤差項ε的假定是否成立,可以通過對殘差圖(residualplot)的分析來完成。殘差圖種類有:關于x的殘差圖關于的殘差圖標準化殘差圖用殘差證實模型的假定關于x的殘差圖是用橫軸表示自變量x的值,用縱軸表示對應的殘差,每個x的值與對應的殘差用一個點來表示。幾種不同形態(tài)的殘差圖及其反映出的信息。用殘差證實模型的假定若對所有的x值,ε的方差都相同,而且假定描述變量x和y之間關系的回歸模型是合理的,那么殘差圖中的所有點都應落在一條水平帶中間。如上面第一個圖所示。但如果對所有的值,ε的方差是不同的,如第二個圖所示,這就違背了ε的方差相等的假設。如果殘差圖如第三個圖的樣子,表明所選擇的回歸模型不合理,這時應考慮曲線回歸或多元回歸模型。用殘差證實模型的假定關于的殘差圖是在坐標橫軸上表示,在縱軸上表示殘差值。這種類型的殘差圖與關于x的殘差圖的分析基本一樣。標準化殘差(standardizedresiduals)是殘差除以它的標準差后得到的數值,用ze表示。第i個觀察值的標準化殘差可以表示為:se是殘差的標準差的估計。用殘差證實模型的假定標準化殘差主要用于對ε正態(tài)性假定的檢驗。如果誤差項ε服從正態(tài)分布這一假定成立,那么標準化殘差的分布也應服從正

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論