統(tǒng)計學 第七章 相關與回歸分析_第1頁
統(tǒng)計學 第七章 相關與回歸分析_第2頁
統(tǒng)計學 第七章 相關與回歸分析_第3頁
統(tǒng)計學 第七章 相關與回歸分析_第4頁
統(tǒng)計學 第七章 相關與回歸分析_第5頁
已閱讀5頁,還剩95頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第七章第七章 相關與回歸分析相關與回歸分析本章主要討論兩變量之間的相互本章主要討論兩變量之間的相互依存關系。依存關系。學習本章要求學習本章要求 了解相關和回歸分了解相關和回歸分析的概念析的概念 、特點、兩者的區(qū)別和聯(lián)、特點、兩者的區(qū)別和聯(lián)系以及相關的判定方法。熟練掌握系以及相關的判定方法。熟練掌握線性相關系數的計算方法及一元線線性相關系數的計算方法及一元線性回歸模型的擬合方法、了解方程性回歸模型的擬合方法、了解方程擬合精度的測定與評價方法。擬合精度的測定與評價方法。消費者應該留下多少小費?消費者應該留下多少小費?在西方國家餐飲等服務行業(yè)有一條不成文的規(guī)定,即發(fā)生餐飲在西方國家餐飲等服務行業(yè)有一

2、條不成文的規(guī)定,即發(fā)生餐飲等服務項目消費時,必須給服務員一定數額的小費,許多人都等服務項目消費時,必須給服務員一定數額的小費,許多人都聽說小費應該是賬單的聽說小費應該是賬單的16%左右,是否真的如此呢?讓我們來左右,是否真的如此呢?讓我們來考察下表,表中的數據是經過調查所得的樣本數據,通過對這考察下表,表中的數據是經過調查所得的樣本數據,通過對這幾組數據的分析與觀察,我們能發(fā)現(xiàn)兩者之間的數量關系。幾組數據的分析與觀察,我們能發(fā)現(xiàn)兩者之間的數量關系。問題是:問題是:1、是否有足夠的證據斷定:在賬單與小費數額之間存在某種聯(lián)、是否有足夠的證據斷定:在賬單與小費數額之間存在某種聯(lián)系?系?2、如果存在某

3、種聯(lián)系,怎樣使用這種聯(lián)系來確定應該留下多少、如果存在某種聯(lián)系,怎樣使用這種聯(lián)系來確定應該留下多少小費?小費?如上例,我們想要確定賬單與小費數額之間是否存在某種聯(lián)系,如上例,我們想要確定賬單與小費數額之間是否存在某種聯(lián)系,如果存在,我們就想用一個公式描述它,這樣就能找出人們留如果存在,我們就想用一個公式描述它,這樣就能找出人們留小費時遵循的規(guī)則。類似這樣的問題還有很多,如:小費時遵循的規(guī)則。類似這樣的問題還有很多,如:(1)犯罪率與偷竊率;()犯罪率與偷竊率;(2)香煙消費與患癌癥率;)香煙消費與患癌癥率;(3)個人收入水平與受教育年限;()個人收入水平與受教育年限;(4)血壓與年齡;)血壓與年

4、齡;(5)父母身高與子女身高;()父母身高與子女身高;(6)薪金與酒價;)薪金與酒價;(7)人的手掌生命線的長度與人的壽命長短。)人的手掌生命線的長度與人的壽命長短。第一節(jié) 相關與回歸分析的基本概念一、函數關系與相關關系1.函數關系函數關系當一個或幾個變量取一定的值當一個或幾個變量取一定的值時,另一個變量有確定值與之時,另一個變量有確定值與之相對應,這種確定性的數量依相對應,這種確定性的數量依存關系稱為函數關系。存關系稱為函數關系。(函數關系)(1)是一一對應的確定關系(2)設有兩個變量 x 和 y ,變量 y 隨變量 x 一起變化,并完全依賴于 x ,當變量 x 取某個數值時, y 依確定的

5、關系取相應的值,則稱 y 是 x 的函數,記為 y = f (x),其中 x 稱為自變量,y 稱為因變量(3)各觀測點落在一條線上 2. 相關關系: 當一個或幾個相互聯(lián)系的變量取一定數值時,與之相對應的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內變化。現(xiàn)象之間客觀存在的不嚴格、不現(xiàn)象之間客觀存在的不嚴格、不確定的數量依存關系稱為相關關系。確定的數量依存關系稱為相關關系。變量間的關系(相關關系)(1)變量間關系不能用函數關系精確表達;(2)一個變量的取值不能由另一個變量唯一確定;(3)當變量 x 取某個值時,變量 y 的取值可能有幾個;(4)各觀測點分布在直線周圍。(相關關系) 相關關

6、系的例子相關關系的例子商品的消費量商品的消費量(y)與居民收入與居民收入(x)之間的關系之間的關系商品銷售額商品銷售額(y)與廣告費支出與廣告費支出(x)之間的關系之間的關系糧食畝產量糧食畝產量(y)與施肥量與施肥量(x1) 、降雨量降雨量(x2) 、溫度溫度(x3)之間的關系之間的關系收入水平收入水平(y)與受教育程度與受教育程度(x)之間的關系之間的關系父親身高父親身高(y)與子女身高與子女身高(x)之間的關系之間的關系3、相關關系與函數關系的區(qū)別與聯(lián)系、相關關系與函數關系的區(qū)別與聯(lián)系 (1)都可用函數式加以描述,但表達式不同 (2)相關分析需要利用函數關系數學表達式來研究 (3)相關關系

7、是相關分析的研究對象,函數關系是相關分析的工具二、相關關系的種類學習成績與學習時間;血壓與年齡;畝產量與施肥量經濟增長與人口增長、科技水平、自然資源、管理水平等之間的關系;三、相關分析與回歸分析(一)概念:1.相關分析相關分析就是用一個指標來表明現(xiàn)象間相互就是用一個指標來表明現(xiàn)象間相互依存關系的密切程度。廣義的相關依存關系的密切程度。廣義的相關分析包括相關關系的分析(狹義的分析包括相關關系的分析(狹義的相關分析)和回歸分析。相關分析)和回歸分析。2.回歸分析回歸分析是指對具有相關關系的現(xiàn)象,根據是指對具有相關關系的現(xiàn)象,根據其相關關系的具體形態(tài),選擇一個其相關關系的具體形態(tài),選擇一個合適的數學

8、模型(稱為回歸方程合適的數學模型(稱為回歸方程式),用來近似地表達變量間的數式),用來近似地表達變量間的數量變化關系的一種統(tǒng)計分析方法。量變化關系的一種統(tǒng)計分析方法。(二)相關分析與回歸分析的區(qū)別 1.在相關分析中,不必確定自變量和因變量;而在回歸分析中,必須事先確定哪個為自變量,哪個為因變量,而且只能從自變量去推測因變量,而不能從因變量去推斷自變量。 2.相關分析不能指出變量間相互關系的數量具體形式;而回歸分析能確切的指出變量之間相互關系的數量具體形式,它可根據回歸模型從已知量估計和預測未知量。 3.相關分析所涉及的變量一般都是隨機變量,而回歸分析中因變量是隨機的,自變量則作為研究時給定的非

9、隨機變量。(三)相關分析與回歸分析的聯(lián)系 相關分析和回歸分析有著密切的聯(lián)系,它們不僅具有共同的研究對象,而且在具體應用時,常常必須互相補充。相關分析需要依靠回歸分析來表明現(xiàn)象數量相關的具體形式,而回歸分析則需要依靠相關分析來表明現(xiàn)象數量變化的相關程度。只有當變量之間存在著高度相關時,進行回歸分析尋求其相關的具體形式才有意義。 簡單說:1、相關分析是回歸分析的基礎和前提;2、回歸分析是相關分析的深入和繼續(xù)。定性分析定性分析定量分析定量分析第二節(jié)相關分析的方法一、相關關系的判斷一、相關關系的判斷相關表判斷相關表判斷 1.1.簡單相關表:未分組資料(對自變量數列有序簡單相關表:未分組資料(對自變量數

10、列有序排列后觀察相應的因變量數值的變化,以判斷是否相排列后觀察相應的因變量數值的變化,以判斷是否相關,方向如何?)關,方向如何?) 2.2.分組相關表:分組相關表: (1 1)單變量分組相關表(對自變量分組并計算次數,)單變量分組相關表(對自變量分組并計算次數,對應的因變量不分組,計算平均值,進行比較判斷。)對應的因變量不分組,計算平均值,進行比較判斷。) (2 2)雙變量分組相關表(對自變量因變量都進行分)雙變量分組相關表(對自變量因變量都進行分組后制成的相關表。注意:自變量放在縱欄,因變組后制成的相關表。注意:自變量放在縱欄,因變量放在橫欄。量放在橫欄。單變量分組相關表單變量分組相關表:自

11、變量分組且計算次數,因變量只計算:自變量分組且計算次數,因變量只計算平均數。平均數。30 家同類企業(yè)的有關資料家同類企業(yè)的有關資料產量產量(件)(件)x x企業(yè)數企業(yè)數平均單位成本平均單位成本(元)(元)y y202030304040505080809 95 55 56 65 516.816.815.615.615.015.014.814.814.214.22、雙變量分組相關表:雙變量分組相關表:對自變量與因變量均進行對自變量與因變量均進行分組。分組。注:自變量注:自變量X X軸;因變量軸;因變量Y Y軸。軸。 30 家同類企業(yè)的有關資料家同類企業(yè)的有關資料產量產量 x x(件)(件)單位成本

12、單位成本 y y( (元元/ /件件) )20203030404050508080合合計計18181616151514144 44 41 13 32 21 13 31 11 13 32 21 14 44 49 910107 7合計合計9 95 55 56 65 53030(三)利用散點圖判斷(scatter diagram)(四)、通過計算相關系數進行判斷(四)、通過計算相關系數進行判斷這是利用有關的兩變量的具體數值,采用一定的這是利用有關的兩變量的具體數值,采用一定的方法計算出能反映變量之間相互關系的統(tǒng)計數字方法計算出能反映變量之間相互關系的統(tǒng)計數字(相關系數),以說明變量之間相關的密切程度

13、。(相關系數),以說明變量之間相關的密切程度。常用的有皮爾遜線性相關系數。常用的有皮爾遜線性相關系數。(一)、皮爾遜線性相關系數(一)、皮爾遜線性相關系數r2、直線單相關系數、直線單相關系數r的計算公式(過程)的計算公式(過程) (1)計算自變量數列的標準差)計算自變量數列的標準差 (2)計算因變量的標準差計算因變量的標準差 (3)計算兩者的協(xié)方差計算兩者的協(xié)方差 協(xié)方差表示X和Y兩變量相對與各自均值所造成的共同平均離差 (4)計算相關系數計算相關系數 nxxx2)(nyyy2)(nyyxxxy)(xyxyr 3.相關系數的其他公式相關系數的其他公式 (1)積差法公式:)積差法公式: (2)積

14、差法簡化式:積差法簡化式: (3)簡捷公式:簡捷公式: ()()xyxxyyrn 2222()()nxyxyrnxxnyyyyxxxyLLLyyxxyyxxr22)()()(22)()()(yyxxyyxxr yxnxyyyxx1)(222)(1)(xnxxx222)(1)(ynyyyyyLxxLxyLr )()(yxxynxyL2)(2xxnxxL2)(2yynyyLxy的作用1、顯示x與y之間的相關方向正相關XYyy xx )(一)(二)(三)(四),(11yx),(nnyx00)()()()()(ryyxxyyxxxy正相關三一負相關XYyy xx )(一)(二)(三)(四),(11yx

15、),(nnyx00)()()()()(ryyxxyyxxxy負相關四二2、顯示x與y之間的相關程度。)()()()()(yyxxAyyxx圖三一密集分布圖A散亂分布圖BXYPXY偏小偏大)()(yyxxyyxx負相關)()()()()(yyxxAyyxx圖四二密集分布圖A散亂分布圖BXYXY偏小偏大)()(yyxxyyxx不相關00)(0:xyyyxxxxA圖 圖A圖BXYXYxx yy 00)(0:xyyyxxyyB圖之間無直線相關與yx歸納 xy的作用第一、顯示x與y之間的相關方向負相關正相關無直線相關000000rrrxyxyxy之間的相關程度越低與越小之間的相關程度越高與越大yxyx第

16、二、顯示x與y之間的相關密切程度nyyxxxy)(nyyxxxy)( x、 y的作用1、使不同變量的協(xié)方差標準化標準化直接對比。ryxnyyxx)( 試根據下列資料計算直線相關系數:5 .146xy6 .12x3 .11y2 .1642x1 .1342y 2222222)()(nynynnxnxnnynxnxyn2222)()(yyxxyxxy例如:某企業(yè)某種產品產量與單位成本的資料如下:計例如:某企業(yè)某種產品產量與單位成本的資料如下:計算直線相關系數算直線相關系數產量(千件)單位成本(元/件)273372471373469568理論上可以先通過定性判理論上可以先通過定性判斷、畫散點圖等確定兩

17、個斷、畫散點圖等確定兩個變量間是否有關系,在此變量間是否有關系,在此基礎上可以直接用公式計基礎上可以直接用公式計算相關系數。公式的選擇算相關系數。公式的選擇可以根據實際的資料和計可以根據實際的資料和計算條件來確定。算條件來確定。注意注意:在計算相關系數時,:在計算相關系數時,無需確定自變量和因變量,無需確定自變量和因變量,所以所以x,y 的確定是任意的。的確定是任意的。相關系數計算表產量x(千件)單位成本y(元/件)xyx2y2273146453293722169518447128416504137321995329469276164761568340254624合計 213551481793

18、0268解225 .12959.1987109 .88323.87703105 .1299 .88318()(yyxxnyxxynr92. 09 .323409.9575375.15846答:即賬單消費額與小費之間存在著高度的正線性相關關系。10,18.13031,59.1987,23.87703, 8 . 5 .129, 9 .88322nxyyxyx餐餐飲飲消消費費額額與與小小費費數數據據如如下下:單單位位:美美元元 消消 費費 33.5 50.7 87.9 98.8 63.6 107.3 120.7 78.5 102.3 140.6 小小 費費 5 5. .5

19、5 5 5. .0 0 8 8. .1 1 1 17 7 1 12 2 1 16 6 1 18 8. .6 6 9 9. .4 4 1 15 5. .4 4 2 22 2. .4 4 關于相關系數的解釋1、相關并不一定意味著因果關系。如:一項研究表明,統(tǒng)計學教授的薪金與每人的啤酒消費量之間有很強的正相關關系,但這兩個變量都受經濟形勢的影響。(隱藏變量)2、相關系數為0,不一定不相關,只能說明不存在線性相關。3、基于平均數進行相關分析與基于個體數據進行相關分析,其相關程度不一樣。如:一項研究中,關于個人收入和教育的成對數據產生了一個0.4的線性相關系數,但當使用區(qū)域平均時,線性相關系數變?yōu)?.7

20、。4、相關系數具有對稱性。5、相關系數數值大小與X和Y變量的原點及尺度無關。yxxyrr一些人相信他們的手掌生命線的長度可以來預測他們的壽命。M.E.Wilson和L.E.Mather在美國醫(yī)學協(xié)會學報上發(fā)表的一封信中,通過對尸體的研究對此給予了駁斥。死亡時的年齡與手掌生命線的長度被一起記錄下來。作者得出死亡時的年齡與生命線的長度不存在顯著相關的結論。手相術失傳了,手也就放下了。 4 4、相關系數的顯著性檢驗、相關系數的顯著性檢驗 一般情況下,總體相關系數是未知的,通常有樣本相關系一般情況下,總體相關系數是未知的,通常有樣本相關系數數r r作為近似的估計值。樣本不同,作為近似的估計值。樣本不同

21、, r r的值不同,是隨機的值不同,是隨機變量,能否用變量,能否用r r說明總體的相關程度,就需要考察樣本說明總體的相關程度,就需要考察樣本r r的的可靠程度,也就是進行顯著性檢驗??煽砍潭?,也就是進行顯著性檢驗。 如如r r的抽樣分布服從正態(tài)分布的假設成立,用正態(tài)分布來的抽樣分布服從正態(tài)分布的假設成立,用正態(tài)分布來檢驗。但對檢驗。但對r r抽樣分布的討論可知,這種假設的風險很大,抽樣分布的討論可知,這種假設的風險很大,所以通常對所以通常對r r用用t t分布檢驗,該檢驗可用于小樣本也可用大分布檢驗,該檢驗可用于小樣本也可用大樣本。樣本。 檢驗步驟檢驗步驟 (1 1) (2 2)計算檢驗的統(tǒng)計

22、量計算檢驗的統(tǒng)計量 (3 3)進行判斷)進行判斷0:0:10HH)2(122ntrnrt 例:下表是有關例:下表是有關15個地區(qū)某種食物需求量和地區(qū)人口個地區(qū)某種食物需求量和地區(qū)人口增加量的資料。增加量的資料。yxxynLxy2261362664785115151937928663342362610676141522)(xxnLxx222613950391522)(yynLyy81346481346428663341519379yyxxxyLLLr9950. 0相關系數的顯著性檢驗(實例) 對相關系數進行顯著性檢(0.05)1.提出假設:H0: ;H1: 02.計算檢驗的統(tǒng)計量種食物需求量和地

23、區(qū)人口增加量種食物需求量和地區(qū)人口增加量1.等級相關的含義等級相關的含義斯皮爾曼相關系數斯皮爾曼相關系數2.等級相關的優(yōu)缺點等級相關的優(yōu)缺點) 1(6122nnDrs例:以下是兩組消費者對十種商品的評分資料,據此計算兩組資料間的等級相關系數編號甲組評分乙組評分183782808438584490805797567273777868687097075108173合計計算等級相關系計算等級相關系數,首先應將原數,首先應將原數據轉化為等級,數據轉化為等級,本例中甲組最低本例中甲組最低分是分是68分,則可分,則可將它的等級數定將它的等級數定為為1,70分的等級分的等級數就是數就是2,72分的分的為為3

24、,依次類推,依次類推,如果兩個數值相如果兩個數值相等,則值以平均等,則值以平均位置數代替。位置數代替。等級相關系數計算表編號甲組評分乙組評分等級x 等級yD2183788 6 4280846 8.56.25385849 8.50.254908010 7 9579755 4.50.25672733 2.50.25777864 1036868701 10970752 4.56.251081737 2.520.25合計82.255 . 0) 1(6122nnDrs第三節(jié)回歸分析的基本問題“回歸”一詞最早源于生物學。英國生物學家高爾頓,根據1078對父子身高的散點圖發(fā)現(xiàn),雖然身材高的父母比身材矮的父母

25、傾向有高的孩子。但平均而言,身材高大的其子要矮些,身材矮小的其子要高些。這種遺傳上身高區(qū)域一般,退化到平均的現(xiàn)象,高爾頓稱為回歸。一、回歸分析的含義(一)回歸分析的目的:探求變量間的不確定性數量關系。(一)回歸分析的目的:探求變量間的不確定性數量關系。(二)回歸分析的概念及實質(二)回歸分析的概念及實質1.回歸分析概念回歸分析概念:是對具有相關關系的兩個或兩個以上變量之間:是對具有相關關系的兩個或兩個以上變量之間的數量變化進行數量測定,配合一定的模型,以便給出自變量的值對的數量變化進行數量測定,配合一定的模型,以便給出自變量的值對因變量進行估計或預測的一種統(tǒng)計分析方法。因變量進行估計或預測的一

26、種統(tǒng)計分析方法。2.回歸分析的實質回歸分析的實質:是在相關分析的基礎上,研究現(xiàn)象間的數量在相關分析的基礎上,研究現(xiàn)象間的數量變化規(guī)律變化規(guī)律 。二、回歸分析與相關分析的區(qū)別(1 1)相關分析中,變量 x 變量 y 處于平等的地位,毋需確定自變量、因變量,而回歸分析必須區(qū)別。變量之間有前后因果關系時,確定較為容易;變量之間互為因果關系或沒有明顯因果關系時,根據研究目的確定。(2)相關分析中所涉及的變量 x 和 y 都是隨機變量;回歸分析中,因變量 y 是隨機變量,自變量 x 則是給定的。(3)相關分析主要是描述變量之間有無關系?密切程度如何?回歸分析則進一步揭示變量 x 對變量 y 的影響大小,

27、并可以由回歸方程進行預測或估計,具有較強的應用性(4)在沒有明顯因果關系的兩個變量 x 和 y 中可求得兩個回歸方程,也就是回歸方程不具有對等性。而相關系數卻只有一個,也就是相關系數具有對等性。(5)在線性回歸方程中,自變量的系數稱為回歸系數,它相關相關系數同號,也能表明相關的方向。三、回歸分析的內容(一)根據研究目的和變量間的內在聯(lián)系,確定自變量和因變量(一)根據研究目的和變量間的內在聯(lián)系,確定自變量和因變量 例例 糧食產量(糧食產量(y y) 施肥量(施肥量(x x););消費支出(消費支出( y y ) 國民收入(國民收入( x x ););火災損失額(火災損失額( y y ) 火災發(fā)生

28、地與最近一個消防站之間的距離火災發(fā)生地與最近一個消防站之間的距離( x x )。)。(二)確定回歸分析模型的類型及數學表達式(二)確定回歸分析模型的類型及數學表達式(三)建立模型(解參數)(三)建立模型(解參數)(四)對回歸分析模型進行評價(四)對回歸分析模型進行評價(五(五)預測)預測 例例 消費與收入的回歸方程:消費與收入的回歸方程: y= y= a+bxa+bx= 200+0.15x= 200+0.15x 已知已知 x x確定確定y y:估計或預測:估計或預測 四、回歸模型的種類線線 性性 回回 歸歸非非 線線 性性 回回 歸歸一一 元元 回回 歸歸線線 性性 回回 歸歸非非 線線 性性

29、 回回 歸歸多多 元元 回回 歸歸回回 歸歸 模模 型型 (一)簡單回歸與多元回歸:根據變量個數劃分(一)簡單回歸與多元回歸:根據變量個數劃分 1.1.簡單回歸分析模型是指只有一個自變量和一個因變量簡單回歸分析模型是指只有一個自變量和一個因變量的回歸分析模型;的回歸分析模型; 2.2.多元回歸分析模型是指多個自變量與一個因變量組成多元回歸分析模型是指多個自變量與一個因變量組成的回歸分析模型。(增加了自變量的個數)的回歸分析模型。(增加了自變量的個數) (二)線性回歸與非線性回歸:按變量間相互關系的形態(tài)分(二)線性回歸與非線性回歸:按變量間相互關系的形態(tài)分 1.1.線性回歸模型是指變量間的關系為

30、直線趨勢的模型形線性回歸模型是指變量間的關系為直線趨勢的模型形態(tài);態(tài); 2.2.非線性回歸模型是指變量間的關系為曲線趨勢的模型非線性回歸模型是指變量間的關系為曲線趨勢的模型形態(tài)形態(tài) 上述四種情況交叉結合為簡單線性回歸和簡單非線性回上述四種情況交叉結合為簡單線性回歸和簡單非線性回歸,多元線性回歸和多元非線性回歸等不同類型歸,多元線性回歸和多元非線性回歸等不同類型五、一元(簡單)線性回歸模型(一(一) )描述因變量描述因變量 Y Y如何依賴于自變量如何依賴于自變量 X X 和誤差項和誤差項 的方程稱為的方程稱為回歸模型回歸模型(二)一元線性回歸模型可表示為(二)一元線性回歸模型可表示為 Y Y=

31、= + + X X + + Y Y是是 X X 的線性函數部分加上誤差項的線性函數部分加上誤差項 線性部分反映了由于線性部分反映了由于 X X 的變化而引起的的變化而引起的 Y Y 的變化的變化誤差項誤差項 是隨機變量是隨機變量, ,反映了除反映了除 X X和和 Y Y之間的線性之間的線性關系之外的隨機因素對關系之外的隨機因素對Y Y的影響,是不能由的影響,是不能由 X X 和和 Y Y之間的線性關系所解釋的變異性。由于之間的線性關系所解釋的變異性。由于 的值是的值是非固定的,從而使非固定的,從而使X X和和 Y Y呈現(xiàn)非確定性關系呈現(xiàn)非確定性關系 和和 稱為模型的參數稱為模型的參數誤差項誤差

32、項 是一個服從正態(tài)分布的隨機變量是一個服從正態(tài)分布的隨機變量, ,且獨立且獨立. .即即 _ _N(0, )N(0, )。2回歸估計方程 bxaybxayc1. 在回歸模型中,在回歸模型中,X是自變量,是可控的,是自變量,是可控的,Y是隨機變量是隨機變量,對上述的一元線性回歸模型兩端取數學期望,即得一,對上述的一元線性回歸模型兩端取數學期望,即得一元線性回歸方程:元線性回歸方程:E(Y)= + + X這一模型表明這一模型表明Y的期望值是的期望值是X的線性函數。的線性函數。其中:其中: 和和 是待定系數,是待定系數, 是回歸系數,它表示自變量是回歸系數,它表示自變量 x 每變動每變動一個單位時,

33、一個單位時, 因變量因變量Y的平均變動值。的平均變動值。 由于總體回歸參數由于總體回歸參數 和和 是未知的,必需利用樣本數據去估是未知的,必需利用樣本數據去估計。得一元回歸估計方程計。得一元回歸估計方程(六)方程的參數的估計方法(六)方程的參數的估計方法-最小二乘法最小二乘法 要使所擬合的直線最理想,必須使實際值與估計值的偏差最小,如果用作圖法和目測法,很難達到上述的要求,因此需數學的方法,即是離差平方和最小。根據上述的論述,最小平方法滿足的條件是: 和把回歸方程 代入對a、b參數求導得: 2)(mincyyQcyy0) 1( )(2bxay0)(2xbxay2)(mincyyQbxayc整理

34、得兩個方程 求得 xbnay2xbxaxy xbyaxxnyxxynb22)(b回歸系數,反映自變量變動一個單位時因變量的平均變回歸系數,反映自變量變動一個單位時因變量的平均變動量動量。 如果x和y互為因果關系,還可求出x依y的回歸方程中的參數 ydxcyynxyyxnd22)(在計算相關系數時,我們曾列出了一個企業(yè)的產量和單位成在計算相關系數時,我們曾列出了一個企業(yè)的產量和單位成本的兩組數據,通過計算,我們得出了這兩個變量呈現(xiàn)高度本的兩組數據,通過計算,我們得出了這兩個變量呈現(xiàn)高度負相關的結論。那么進一步研究,來看看它們之間到底呈現(xiàn)負相關的結論。那么進一步研究,來看看它們之間到底呈現(xiàn)怎樣的數

35、量關系呢?產量的變動對成本的具體影響又是如何怎樣的數量關系呢?產量的變動對成本的具體影響又是如何呢?我們可以用最小二乘法來求解參數,作出判斷和預測。呢?我們可以用最小二乘法來求解參數,作出判斷和預測。例3 回歸分析計算表產量x(千件)單位成本y(元/件)xyx2273146437221694712841637321994692761656834025合計 21426148179由于是進行回歸分析,所由于是進行回歸分析,所以必須確定自變量和因變以必須確定自變量和因變量,在無明顯因果關系時,量,在無明顯因果關系時,理論上可以擬合兩條回歸理論上可以擬合兩條回歸方程,視要求選擇。而如方程,視要求選擇。

36、而如果變量間有明顯因果關系果變量間有明顯因果關系時,必須將時,必須將“因因”作為自作為自變量,變量,“果果”作為因變量。作為因變量。本例中我們研究產量變動本例中我們研究產量變動對成本的影響,故以產量對成本的影響,故以產量為為 x,成本為成本為y。2226 1481 21 4261.82()6 7921426211.8277.3766nxyxybnxxaybx 解得:解得:則成本依產量回歸的方程為則成本依產量回歸的方程為: yc=77.37-1.82x回歸系數回歸系數b=-1.82說明當產量每增加說明當產量每增加1千件時,單位成千件時,單位成本平均下降本平均下降1.82元。兩者呈負相關。元。兩者

37、呈負相關。同時,用回歸方程還可以進行預測,例:當產量達同時,用回歸方程還可以進行預測,例:當產量達到到10千件時,單位成本會降到千件時,單位成本會降到66.55元。元。例為研究用餐消費與小費支出的關系,隨機抽取了10位用餐顧客,得樣本數據如下(用EXCEL軟件生成的散點圖)請擬合樣本回歸方程請擬合樣本回歸方程5.55129.48.1171615.418.622.5051015202533.550.763.678.587.998.8107102121141系列1解:通過散點圖可近似看出呈線性關系,故設兩者有關系bxay18.13031,59.198723.87703, 5 .129, 9 .88

38、3,1022xyyxyxn166. 009.9575375.158469 .88323.87703105 .1299 .88318.1303110)(222xxnyxxynb723. 139.88166. 095.12nxbnyxbyaxbxay166. 0723. 1: 回歸方程經濟意義:用餐消費每增加經濟意義:用餐消費每增加100100美元,小費支出平均增加美元,小費支出平均增加16.616.6美元。美元。餐餐飲飲消消費費額額與與小小費費數數據據如如下下:單單位位:美美元元 消消 費費 33.5 50.7 87.9 98.8 63.6 107.3 120.7 78.5 102.3 140.

39、6 小小 費費 5 5. .5 5 5 5. .0 0 8 8. .1 1 1 17 7 1 12 2 1 16 6 1 18 8. .6 6 9 9. .4 4 1 15 5. .4 4 2 22 2. .4 4 (八)回歸系數與相關系數的關系 yxyyxxyyxxxxxxxyyyxxxybLLbLLLLLLLLyynxxnyxxynr 2222)()(xxxyLLxxnyxxynb 22)(yxbr rbxy(1)兩者是同向的兩者是同向的;(2)r反映變量的相關方向與密切程度反映變量的相關方向與密切程度; b反映某一變量變動一個單位時另一變量的平均變動反映某一變量變動一個單位時另一變量的平

40、均變動b量量。 1.已知變量y依x的直線回歸方程的斜率為b,又知變量y和x之間的相關系數是r,那么x變量依y變量的直線回歸方程斜率是多少? 2.已知直線回歸方程yc =1.35+4.2x, =6, r=0.9 試求y72x2xyx和(九)回歸估計標準誤差1.說明了回歸直線的擬合程度的指標。是對回歸直線的代表性大小的衡量.2.實際觀察值與回歸估計值離差平方和的均方根。3.反映實際觀察值在回歸直線周圍的分散狀況。4.計算公式為由樣本資料計算由樣本資料計算的平均誤差與ccyxyynyyS2)(2擬合效果越好平均離差越小越小擬合效果越差平均離差越大越大yxS在統(tǒng)計學中,自由度指的是計算某一統(tǒng)計量時,取

41、值不受限制的變量個數。通常df=n-k。其中n為樣本含量,k為被限制的條件數或變量個數,或計算某一統(tǒng)計量時用到其它獨立統(tǒng)計量的個數。編號編號 x千千人人 y十十噸噸 y 22.5905+0.530122.5905+0.5301x 2) (yy 1 1 274274 162162 167.8379167.8379 33.927233.9272 2 2 180180 120120 118.0085118.0085 3.81223.8122 3 3 375375 223223 221.378221.3780 0 2.48492.4849 4 4 205205 131131 131.261131.26

42、10 0 0.06810.0681 5 5 8686 6767 68.179168.1791 1.23641.2364 6 6 265265 169169 163.067163.0670 0 35.046635.0466 7 7 9898 8181 74.540374.5403 41.496941.4969 8 8 330330 192192 197.5235197.5235 30.355130.3551 9 9 195195 116116 125.96125.960000 98.970798.9707 1010 5353 5555 50.685850.6858 18.458418.4584

43、1111 430430 252252 250.5335250.5335 1.99671.9967 1212 372372 234234 219.7877219.7877 201.8362201.8362 1313 236236 144144 147.6947147.6947 13.492513.4925 1414 157157 103103 105.8162105.8162 7.77717.7771 1515 370370 212212 218.7275218.7275 45.105445.1054 合計合計 36263626 22612261 536.0644536.0644 )(4215.

44、 62150644.53622) (十噸nyyyxS計算例子計算例子下表是有關下表是有關15個地區(qū)某種食物需求量和地區(qū)人口增加量的資料。個地區(qū)某種食物需求量和地區(qū)人口增加量的資料。 .回歸估計標準誤的簡化計算公式 (利用 可推導出上述公式) bxaycxbnay2xbxaxy22)(22nxybyaynyyScyx七、判定系數(回歸模型擬合程度的評價回歸模型擬合程度的評價)(一)離差平方和(總變差)的分解(一)離差平方和(總變差)的分解1. 因變量 y 的取值是不同的,y 取值的這種波動稱為總變差。變差來源于兩個方面: 由于自變量 x 的取值不同造成的; 除 x 以外的其他隨機因素的影響。2.

45、 對一個具體的觀測值來說,總變差的大小可以通過該實際觀測值與其均值之差 來表示。判定系數是從另一角度說明回歸直線擬合程度的又一度量值。判定系數是從另一角度說明回歸直線擬合程度的又一度量值。它的引入是從離差平方和的分解入手的。它的引入是從離差平方和的分解入手的。y總變差構成圖解:總變差構成圖解:、變差的分解 從圖中我們可將總變差分解從圖中我們可將總變差分解(1 1)總平方和)總平方和( (SST)SST)反映因變量的反映因變量的 n n 個觀察值與其均值的總離差個觀察值與其均值的總離差(2 2)回歸平方和)回歸平方和( (SSRSSR) )反映由于反映由于 x x 與與 y y 之間的線性關系引

46、起的之間的線性關系引起的 y y 的取值變的取值變化,也稱可解釋的平方和。說明自變量化,也稱可解釋的平方和。說明自變量 x x 的變化的變化對因變量對因變量 y y 取值變化的影響。取值變化的影響。(3 3)殘差平方和)殘差平方和( (SSESSE) )反映除反映除 x x 以外的其他因素對以外的其他因素對 y y 取值的影響,也稱為不取值的影響,也稱為不可解釋的平方和或剩余平方和??山忉尩钠椒胶突蚴S嗥椒胶汀#ǘ┡卸ㄏ禂担ǘ┡卸ㄏ禂蹬卸ㄏ禂蹬卸ㄏ禂担夯貧w變差占總變差的回歸變差占總變差的比重比重222)()()(yyyyyycc222222)()()()()()(yyyyyyyyyyyyc

47、c的比重占SSTSSRyyyyc22)()(2r判定系數222)()(1yyyyrc的擬合效果差對越大越小的擬合效果好對越小越大yyyyryyyyrcccc2222)()(222222222)()()()()(rryyxxbyyyyyxxyc2222)()()(xxbxbabxayycxbaybxayc在在直線相關中直線相關中,判定系數就是相關系數的平方判定系數就是相關系數的平方. 判定系數的作用判定系數的作用 222)()(1yyyyrc22)()(yyyyc呈函數關系與yxyyrc12無線性相關與yxyyrc 02呈線性相關關系與yxr102此外,判定系數就測量變量之間的相關此外,判定系數

48、就測量變量之間的相關關系而言,具有獨立的意義。它不僅適用關系而言,具有獨立的意義。它不僅適用線性相關,也適用非線性相關。線性相關,也適用非線性相關。22)()(1yyyyrc4、方差法相關系數22222)()(1)()(yyyyyyyyrcc判定系數22)()(1yyyyrc2nnn很大2221yyxSrnyynyyc22)()(122)(1ycnyy122方差法yyxSr21rSyyx2221rSyyx 例已知下列資料,試計算判定系數與估計標準誤。收入收入 x x支出支出 y yx x2 2y y2 2xyxy20203030333340401515131326263838353543437

49、 79 98 811115 54 48 810109 910104004009009001089108916001600225225169169676676144414441225122518491849494981816464121121252516166464100100818110010014014027027026426444044075755252208208380380315315430430293293818195779577701701257425742574,701,9577,81,293,1022xyyxyxn2992. 4) (22xybyayyy73. 02102992

50、. 42) (2nyySyx%03.8849. 45374. 011 . 81 .705374. 015374. 011222222yySryyx2033. 01726. 2ba答:觀察值與回歸值之間的平均離差為答:觀察值與回歸值之間的平均離差為0.730.73,總離差中的總離差中的88.03%88.03%是因為是因為x x的變動所引起的的變動所引起的?;蛘哒f支出數值的變動中。或者說支出數值的變動中, ,有有88.03%88.03%是由收入的變動所決定的是由收入的變動所決定的. . 可見支出和收入可見支出和收入之間有較強的相關關系之間有較強的相關關系. . 已知回歸直線的斜率是0.8,自變量的

51、方差是200,樣本容量是20,那么回歸離差平方和是多少。八、回歸方程的統(tǒng)計檢驗1.檢驗自變量和因變量之間的線性關系是否顯著2.具體方法是將回歸離差平方和(SSR)同剩余離差平方和(SSE)加以比較,我們知道對于一個具體的實驗來說,SST是一個定值,如果SSR遠大于SSE,則表明因變量和自變量之間的線性關系顯著,否則,便認為不顯著。F統(tǒng)計量就是這樣構造來分析二者之間的差別是否顯著如果是顯著的,兩個變量之間存在線性關系如果不顯著,兩個變量之間不存在線性關系回歸方程的顯著性檢驗F檢驗模型整體擬合效果的顯著性檢驗對于所擬合的回歸模型需要檢驗其合理性對于所擬合的回歸模型需要檢驗其合理性.檢驗的內容包括模型整體的擬合效果是檢驗的內容包括模型整體的擬合效果是否理想否理想,模型的參數在統(tǒng)計意義上是否顯著模型的參數在統(tǒng)計意義上是否顯著.回歸方程的顯著性檢驗 (檢驗的步驟)1.提出假設H0:線性關系不顯著 H1:線性關系顯著回歸系數的顯著性檢驗t檢驗(要點)3. 在一元線性回歸中,等價于回歸方程的顯在一元線性回歸中,等價于回歸方程的顯著性檢驗著性檢驗1. 回歸系數的顯著性檢驗是進一步檢驗自回歸系數的顯著性檢驗是進一步檢驗自變量變量 x 對因變量對因變量 y 的影響是否顯著。如的影響是否顯著。如果總體回歸系數果總體回歸系數九、因變量的置信區(qū)間估計p190 前曾給出利用回歸方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論