概率論與數(shù)理統(tǒng)計九章_第1頁
概率論與數(shù)理統(tǒng)計九章_第2頁
概率論與數(shù)理統(tǒng)計九章_第3頁
概率論與數(shù)理統(tǒng)計九章_第4頁
概率論與數(shù)理統(tǒng)計九章_第5頁
已閱讀5頁,還剩121頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

信息與計算科學系第九章:相關分析與一元回歸分析第九章相關分析與一元回歸分析變量之間的關系可以分為函數(shù)關系和相關關系兩類,函數(shù)關系表示變量間確定的對應關系,而相關關系則是變量間的某種非確定的依賴關系.相關分析主要是研究隨機變量間相關關系的形式和程度,在相關關系的討論中,兩個變量的地位是同等的,所使用的測度工具是相關系數(shù),而回歸分析則側(cè)重考察變量之間的數(shù)量伴隨關系,并通過一定的數(shù)學表達式將這種數(shù)量關系描述出來,用于解決預測和控制等實際問題.本章主要學習相關分析和一元回歸分析的有關概念、理論和方法.第九章相關分析與一元回歸分析【回歸名稱的來歷】“回歸”這一詞最早出現(xiàn)在1885年,英國生物學家兼統(tǒng)計學家——弗朗西斯高爾頓(FrancisGalton)在研究遺傳現(xiàn)象時引進了這一名詞.他研究分析了孩子和父母身高關系后發(fā)現(xiàn):雖然高個子的父母會有高個子的后代,但后代的增高并不與父母的增高等量.他稱這一現(xiàn)象為“向平常高度的回歸”.爾后,他的朋友麥爾遜等人搜集了上千個家庭成員的身高數(shù)據(jù),分析出兒子的平均身高和父親的身高x大致為如下關系:(英寸)

第九章相關分析與一元回歸分析【回歸名稱的來歷】這表明:(1)父親身高增加1英寸,兒子的身高平均增加0.516英寸.(2)高個子父輩有生高個子兒子的趨勢,但兒子的平均身高要比于父輩低一些.如x=80,那么低于父輩的平均身高.(3)低個子父輩的兒子們雖為低個子,但其平均身高要比父輩高一些.如x=80,那么高于父輩的平均身高第九章相關分析與一元回歸分析【回歸名稱的來歷】可見兒子的高度趨向于“回歸”到平均值而不是更極端,這就是“回歸”一詞的最初含義.誠然,如今對回歸這一概念的理解并不是高爾頓的原意,但這一名詞卻一直沿用下來,成為數(shù)理統(tǒng)計中最常用的概念之一.回歸分析的思想早已滲透到數(shù)理統(tǒng)計學科的其他分支,隨著計算機的發(fā)展和各種統(tǒng)計軟件的出現(xiàn),回歸分析的應用越來越廣泛.第九章相關分析與一元回歸分析主要內(nèi)容§9.1相關分析§9.2回歸分析§9.1相關分析在大量的實際問題中,隨機變量之間雖有某種關系,但這種關系很難找到一種精確的表示方法來描述.例如,人的身高與體重之間有一定的關系,知道一個人的身高可以大致估計出他的體重,但并不能算出體重的精確值.其原因在于人有較大的個體差異,因而身高和體重的關系,是既密切但又不能完全確定的關系.隨機變量間類似的這種關系在大自然和社會中屢見不鮮.例如,農(nóng)作物產(chǎn)量與施肥量的關系,商業(yè)活動中銷售量與廣告投入的關系,人的年齡與血壓的關系,每種股票的收益與整個市場收益的關系,家庭收入與支出的關系等等§9.1相關分析這種大量存在于隨機變量間既互相聯(lián)系,但又不是完全確定的關系,稱為相關關系.從數(shù)量的角度去研究這種關系,是數(shù)理統(tǒng)計的一個任務.這包括通過觀察和試驗數(shù)據(jù)去判斷隨機變量之間有無關系,對其關系大小作出數(shù)量上的估計,我們把這種統(tǒng)計分析方法稱為相關分析.相關分析通常包括考察隨機變量觀測數(shù)據(jù)的散點圖、計算樣本相關系數(shù)以及對總體相關系數(shù)的顯著性檢驗等內(nèi)容.§9.1相關分析9.1.1散點圖散點圖是描述變量之間關系的一種直觀方法.我們用坐標的橫軸代表自變量X,縱軸代表因變量Y,每組觀測數(shù)據(jù)(xi,yi)在坐標系中用一個點表示,由這些點形成的散點圖描述了兩個變量之間的大致關系,從中可以直觀地看出變量之間的關系形態(tài)及關系強度.圖9-1不同形態(tài)的散點圖

(a)(b)(c)(d)§9.1相關分析9.1.1散點圖

圖9-1不同形態(tài)的散點圖從散點圖可以看出,變量間相關關系的表現(xiàn)形態(tài)大體上可分為線性相關、非線性相關、不相關等幾種.就兩個變量而言,如果變量之間的關系近似地表現(xiàn)為一條直線,則稱為線性相關,如圖9-1(a)和(b);(a)(b)(c)(d)§9.1相關分析9.1.1散點圖

圖9-1不同形態(tài)的散點圖如果變量之間的關系近似地表現(xiàn)為一條曲線,則稱為非線性相關或曲線相關;如圖9-1(c);如果兩個變量的觀測點很分散,無任何規(guī)律,則表示變量之間沒有相關關系,如圖9-1(d).(a)(b)(c)(d)§9.1相關分析9.1.1散點圖

圖9-1不同形態(tài)的散點圖在線性相關中,若兩個變量的變動方向相同,一個變量的數(shù)值增加,另一個變量的數(shù)值也隨之增加,或一個變量的數(shù)值減少,另一個變量的數(shù)值也隨之減少,則稱為正相關,如圖9-1(a);(a)(b)(c)(d)§9.1相關分析9.1.1散點圖

圖9-1不同形態(tài)的散點圖若兩個變量的變動方向相反,一個變量的數(shù)值增加,另一個變量的數(shù)值隨之減少,或一個變量的數(shù)值減少,另一個變量的數(shù)值隨之增加,則稱為負相關,如圖9-1(b).(a)(b)(c)(d)§9.1相關分析9.1.1散點圖

通過散點圖可以判斷兩個變量之間有無相關關系,并對變量間的關系形態(tài)做出大致的描述,但散點圖不能準確反映變量之間的關系密切程度.因此,為準確度量兩個變量之間的關系密切程度,需要計算相關系數(shù).§9.1相關分析9.1.2相關系數(shù)相關系數(shù)是對兩個隨機變量之間線性關系密切程度的度量.若相關系數(shù)是根據(jù)兩個變量全部數(shù)據(jù)計算的,稱為總體相關系數(shù).設X,Y為兩個隨機變量,由定義4.5知,當D(X)D(Y)0時,總體相關系數(shù)的計算公式為:其中Cov(X,Y)為變量X和Y的協(xié)方差,D(X)和D(Y)分別為X和Y的方差.§9.1相關分析9.1.2相關系數(shù)設(xi,yi),i=1,2,…,n,為(X,Y)的樣本,記§9.1相關分析9.1.2相關系數(shù)【定義9.1】若sxsy

0,稱為{xi}和{yi}的相關系數(shù)(也可簡稱為樣本相關系數(shù)).rxy常簡記為r.rxy的性質(zhì):(1)|rxy|1(2)|rxy|=1時,(xi,yi),i=1,2,…,n在一條直線上.§9.1相關分析9.1.2相關系數(shù)【定義9.2】當rxy>0時,稱{xi}和{yi}正相關,當rxy<0時,稱{xi}和{yi}負相關,當rxy=0時,稱{xi}和{yi}不相關實際應用中,為了說明{xi}和{yi}的相關程度,通常將相關程度分為以下幾種情況:當|rxy|≥0.8時,可視{xi}與{yi}為高度線性相關;0.5≤|rxy|<0.8時,可視{xi}與{yi}為中度線性相關;0.3≤|rxy|<0.5時,視{xi}與{yi}為低度線性相關;當|rxy|<0.3時,說明{xi}與{yi}的線性相關程度極弱.§9.1相關分析9.1.2相關系數(shù)說明:(1)有時個別極端數(shù)據(jù)可能影響樣本相關系數(shù),應用中要多加注意.(2)rxy=0,只能說明{xi}與{yi}之間不存在線性關系,并不能說明{xi}與{yi}之間無其他關系.(3)一般情況下,總體相關系數(shù)ρXY是未知的,通常是將樣本相關系數(shù)rxy作為ρXY的估計值,于是常用樣本相關系數(shù)推斷兩變量間的相關關系.這一點要和相關系數(shù)的顯著性檢驗結合起來應用.§9.1相關分析9.1.2相關系數(shù)【例9-1】用來評價商業(yè)中心經(jīng)營好壞的一個綜合指標是單位面積的營業(yè)額,它是單位時間內(nèi)(通常為一年)的營業(yè)額與經(jīng)營面積的比值.對單位面積營業(yè)額的影響因素的指標有單位小時車流量、日人流量、居民年平均消費額、消費者對商場的環(huán)境、設施及商品的豐富程度的滿意度評分.這幾個指標中車流量和人流量是通過同時對幾個商業(yè)中心進行實地觀測而得到的.而居民年平均消費額、消費者對商場的環(huán)境、設施及商品的豐富程度的滿意度評分是通過隨機采訪顧客而得到的平均值數(shù)據(jù).§9.1相關分析9.1.2相關系數(shù)【例9-1】某市隨機抽取20個商業(yè)中心有關數(shù)據(jù)圖9-2商業(yè)中心經(jīng)營狀況指標與數(shù)據(jù)§9.1相關分析9.1.2相關系數(shù)【例9-1】圖9-2所示的Excel工作表為從某市隨機抽取20個商業(yè)中心有關數(shù)據(jù),試據(jù)此分析單位面積年營業(yè)額與其他各指標的相關關系.解:設各指標(變量)的變量名分別為:單位面積營業(yè)額:y,每小時機動車流量:x1,日人流量:x2,居民年消費額:x3,對商場環(huán)境的滿意度:x4,對商場設施的滿意度:x5,為商場商品豐富程度滿意度:x6.(1)利用Excel分別作出y與x1,x2,…,x6的散點圖.§9.1相關分析9.1.2相關系數(shù)【例9-1】解:

圖9-3y與x1,x2,…,x6的散點圖可以看到,各散點圖的散點分布和一條直線相比均有一定差別.§9.1相關分析9.1.2相關系數(shù)【例9-1】解:

圖9-3y與x1,x2,…,x6的散點圖其中單位面積營業(yè)額(y)與日人流量(x2)、居民年消費額(x3)的線性關系相對較明顯一些.§9.1相關分析9.1.2相關系數(shù)【例9-1】解:

圖9-3y與x1,x2,…,x6的散點圖y與商場商品豐富程度滿意度(x6)有一定的線性關系,而y與其余幾個變量的線性關系較弱.§9.1相關分析9.1.2相關系數(shù)【例9-1】圖9-2所示的Excel工作表為從某市隨機抽取的20個商業(yè)中心有關數(shù)據(jù),試據(jù)此分析單位面積年營業(yè)額與其他各指標的相關關系.解:(1)利用Excel分別作出y與x1,x2,…,x6的散點圖.實驗操作:§9.1相關分析9.1.2相關系數(shù)【例9-1】圖9-2所示的Excel工作表為從某市隨機抽取的20個商業(yè)中心有關數(shù)據(jù),試據(jù)此分析單位面積年營業(yè)額與其他各指標的相關關系.解:(2)利用Excel分別計算y與x1,x2,…,x6的相關系數(shù)

ABCDEFG22y與x1y與x2y與x3y與x4y與x5y與x6230.41270.790480.794330.341240.450200.69749計算準備=CORREL($B2:$B21,C2:C21)§9.1相關分析9.1.2相關系數(shù)【例9-1】圖9-2所示的Excel工作表為從某市隨機抽取的20個商業(yè)中心有關數(shù)據(jù),試據(jù)此分析單位面積年營業(yè)額與其他各指標的相關關系.解:(2)利用Excel分別計算y與x1,x2,…,x6的相關系數(shù)

計算結果§9.1相關分析9.1.2相關系數(shù)【例9-1】圖9-2所示的Excel工作表為從某市隨機抽取的20個商業(yè)中心有關數(shù)據(jù),試據(jù)此分析單位面積年營業(yè)額與其他各指標的相關關系.解:(2)利用Excel分別計算y與x1,x2,…,x6的相關系數(shù)從相關系數(shù)的取值來看,單位面積營業(yè)額(y)與日人流量(x2)、居民年消費額(x3)接近高度相關;ABCDEFG22y與x1y與x2y與x3y與x4y與x5y與x6230.41280.79050.79430.34120.45020.69749§9.1相關分析9.1.2相關系數(shù)【例9-1】圖9-2所示的Excel工作表為從某市隨機抽取的20個商業(yè)中心有關數(shù)據(jù),試據(jù)此分析單位面積年營業(yè)額與其他各指標的相關關系.解:(2)利用Excel分別計算y與x1,x2,…,x6的相關系數(shù)y與商場商品豐富程度滿意度(x6)則屬于中度相關;ABCDEFG22y與x1y與x2y與x3y與x4y與x5y與x6230.41280.79050.79430.34120.45020.69749§9.1相關分析9.1.2相關系數(shù)【例9-1】圖9-2所示的Excel工作表為從某市隨機抽取的20個商業(yè)中心有關數(shù)據(jù),試據(jù)此分析單位面積年營業(yè)額與其他各指標的相關關系.解:(2)利用Excel分別計算y與x1,x2,…,x6的相關系數(shù)y與每小時機動車流量(x1)、對商場環(huán)境的滿意度(x4)、對商場設施的滿意度(x5)為低度相關;ABCDEFG22y與x1y與x2y與x3y與x4y與x5y與x6230.41280.79050.79430.34120.45020.69749§9.1相關分析9.1.3相關性檢驗設(xi,yi),i=1,2,…,n,為(X,Y)的樣本,相關性檢驗也就是檢驗總體X,Y的相關系數(shù)是否為0,通常采用費歇爾(Fisher)提出的t分布檢驗,該檢驗可以用于小樣本,也可以用于大樣本.檢驗的具體步驟如下:1)提出假設:假設樣本是從不相關的兩個總體中抽出的,即H0:ρXY=0,H1:ρXY≠0如果否定了H0就認為X,Y是相關的.§9.1相關分析9.1.3相關性檢驗2)可以證明,當H0成立時,統(tǒng)計量因為H0立時,|rxy|應該很小,從而T的觀測值應該取值較小,于是,在顯著水平下H0的拒絕域是若T的觀測值記為t0,衡量觀測結果極端性的P值:P=P{|T|≥|t0|}=2P{T≥|t0|}§9.1相關分析9.1.3相關性檢驗【例9-2】利用例9-1的數(shù)據(jù),在顯著水平=0.05下,檢驗單位面積營業(yè)額與各變量之間的相關性.解:在例9.1的Excel工作表中繼續(xù)如下操作:ABCDEFG22y與x1y與x2y與x3y與x4y與x5y與x623r=0.41270.790480.794330.341240.450200.6974924t=1.92245.47565.55191.54022.13914.129625P=0.07053.36E-052.86E-050.14090.46390.0006=B23*SQRT(20-2)/SQRT(1-B23^2)=TDIST(B24,20-2,2)計算準備§9.1相關分析9.1.3相關性檢驗【例9-2】利用例9-1的數(shù)據(jù),在顯著水平=0.05下,檢驗單位面積營業(yè)額與各變量之間的相關性.解:在例9.1的Excel工作表中繼續(xù)如下操作:計算結果§9.1相關分析9.1.3相關性檢驗【例9-2】利用例9-1的數(shù)據(jù),在顯著水平=0.05下,檢驗單位面積營業(yè)額與各變量之間的相關性.解:在例9.1的Excel工作表中繼續(xù)如下操作:檢驗結果來看,單位面積營業(yè)額(y)與日人流量(x2)、居民年消費額(x3)、商場商品的豐富程度滿意度(x6)、ABCDEFG22y與x1y與x2y與x3y與x4y與x5y與x623r=0.41270.790480.794330.341240.450200.6974924t=1.92245.47565.55191.54022.13914.129625P=0.07053.36E-052.86E-050.14090.46390.0006§9.1相關分析9.1.3相關性檢驗【例9-2】利用例9-1的數(shù)據(jù),在顯著水平=0.05下,檢驗單位面積營業(yè)額與各變量之間的相關性.解:在例9.1的Excel工作表中繼續(xù)如下操作:對商場設施的滿意度(x5)的相關系數(shù)顯著不為0(P<=0.05),即其相關性顯著;ABCDEFG22y與x1y與x2y與x3y與x4y與x5y與x623r=0.41270.790480.794330.341240.450200.6974924t=1.92245.47565.55191.54022.13914.129625P=0.07053.36E-052.86E-050.14090.46390.0006§9.1相關分析9.1.3相關性檢驗【例9-2】利用例9-1的數(shù)據(jù),在顯著水平=0.05下,檢驗單位面積營業(yè)額與各變量之間的相關性.解:在例9.1的Excel工作表中繼續(xù)如下操作:而不能拒絕y與每小時機動車流量(x1)、對商場環(huán)境的滿意度(x4)相關系數(shù)為0的假設(P>0.05),即其相關性不顯著.ABCDEFG22y與x1y與x2y與x3y與x4y與x5y與x623r=0.41270.790480.794330.341240.450200.6974924t=1.92245.47565.55191.54022.13914.129625P=0.07053.36E-052.86E-050.14090.46390.0006§9.2回歸分析回歸分析是針對兩個或兩個以上具有相關關系的變量,研究它們的數(shù)量伴隨關系,并通過一定的數(shù)學表達式將這種關系描述出來,建立回歸模型.回歸分析中總假設因變量是隨機變量,自變量可以是隨機變量也可以是一般變量(可以控制或精確測量的變量),我們只討論自變量為一般變量的情況.為簡單起見,以后的所有隨機變量及其觀測值均用小寫字母表示.§9.2回歸分析如果設隨機變量y是因變量,x1,x2,…,xn是影響y的自變量,回歸模型的一般形式為:y=f(x1,x2,…,xn)+ε其中ε為均值為0的正態(tài)隨機變量,它表示除x1,x2,…,xn之外的隨機因素對y的影響.在回歸分析中,當只有一個自變量時,稱為一元回歸分析;當自變量有兩個或兩個以上時,稱為多元回歸分析;f是線性函數(shù)時,稱線性回歸分析,所建回歸模型稱為線性回歸模型;f是非線性函數(shù)時,稱非線性回歸分析,所建回歸模型稱為非線性回歸模型.§9.2回歸分析線性回歸模型的一般形式為:其中,0和i(i=1,2,…,k)是未知常數(shù),稱為回歸系數(shù),實際中常假定

~N(0,2).一元線性回歸模型的一般形式為:由

~N(0,2)的假定,容易推出y~N(0+1x,2).本章主要討論一元線性回歸分析和可化為線性回歸的一元非線性回歸分析.它們是反映兩個變量之間關系的簡單模型,但從中可了解到回歸分析的基本思想、方法和應用§9.2回歸分析9.2.1一元線性回歸分析讓我們用一個例子來說明如何進行一元線性回歸分析.為了研究合金鋼的強度和合金中含碳量的關系,專業(yè)人員收集了12組數(shù)據(jù)如表9-1所示.表9-1合金鋼的強度與合金中含碳量的關系試根據(jù)這些數(shù)據(jù)進行合金鋼的強度y(單位:107Pa)與合金中含碳量x(%)之間的回歸分析.序號123456789101112含碳量x(%)0.100.110.120.130.140.150.160.170.180.200.210.23合金鋼的強度y(107Pa)42.043.045.045.045.047.549.053.050.055.055.060.0§9.2回歸分析9.2.1一元線性回歸分析為了研究這些數(shù)據(jù)中所蘊含的規(guī)律性,首先在Excel中由12對數(shù)據(jù)作出散點圖,如圖9-7所示.圖9-7畫散點圖從圖看到,數(shù)據(jù)點大致落在一條直線附近,這告訴我們變量x和y之間大致可看作線性關系.§9.2回歸分析9.2.1一元線性回歸分析為了研究這些數(shù)據(jù)中所蘊含的規(guī)律性,首先在Excel中由12對數(shù)據(jù)作出散點圖,如圖9-7所示.圖9-7畫散點圖從圖中還看到,這些點又不完全在一條直線上,這表明x和y的關系并沒有確切到給定x就可以唯一確定y的程度.§9.2回歸分析9.2.1一元線性回歸分析為了研究這些數(shù)據(jù)中所蘊含的規(guī)律性,首先在Excel中由12對數(shù)據(jù)作出散點圖,如圖9-7所示.圖9-7畫散點圖事實上,還有許多其它隨機因素對y產(chǎn)生影響.§9.2回歸分析9.2.1一元線性回歸分析如果只研究x和y的關系,可考慮建立一元線性回歸模型:(9.1)其中ε是除含碳量x外其它諸多隨機因素對合金鋼強度y的綜合影響,假定它是零均值的正態(tài)隨機變量.由(9.1)式,不難算得y的數(shù)學期望:(9.2)該式表示當x已知時,可以精確地算出E(y).稱方程(9.2)為y關于x的回歸方程.§9.2回歸分析9.2.1一元線性回歸分析現(xiàn)對變量x,y進行了n次獨立觀察,得樣本(xi,yi)(i=1,2,…,n).據(jù)(9.1)式,此樣本可由方程(9.3)來描述.這里εi是第i次觀測時ε的值,是不能觀測到的由于各次觀測獨立,εi看作是相互獨立與ε同分布的隨機變量.即有yi=0+1xi+i,(9.4)i相互獨立,且i~N(0,2),i=1,2,…,n

§9.2回歸分析9.2.1一元線性回歸分析yi=0+1xi+i,(9.4)i相互獨立,且i~N(0,2),i=1,2,…,n

(9.4)給出了樣本(x1,y1),(x2,y2),…,(xn,yn)的概率性質(zhì).它是對理論模型進行統(tǒng)計推斷的依據(jù),也常稱(9.4)式為一元線性回歸模型.要建立一元線性回歸模型,首先利用n組獨立觀測數(shù)據(jù)(x1,y1),(x2,y2),…,(xn,yn)來估計0和1,以估計值和分別代替(9.2)式中的0和1,得到(9.5)§9.2回歸分析9.2.1一元線性回歸分析(9.5)由于此方程的建立有賴于通過觀察或試驗積累的數(shù)據(jù),所以稱其為經(jīng)驗回歸方程(或經(jīng)驗公式),經(jīng)驗回歸方程也簡稱為回歸方程,其圖形稱為回歸直線.當給定x=x0時,稱為擬合值(預測值或回歸值).那么,如何利用n組獨立觀察數(shù)據(jù)來估計0和1呢?一般常用最小二乘估計法和最大似然估計法,下面只介紹0和1的最小二乘估計法.§9.2回歸分析9.2.1一元線性回歸分析1.參數(shù)0和1的最小二乘估計設對模型(9.1)中的變量x,y進行了n次獨立觀察,得樣本(xi,yi)(i=1,2,…,n).由(9.3)式知隨機誤差i=yi–(0+1xi).最小二乘法的思想是:由xi,yi估計0,1時,使誤差平方和達到最小的,分別作為0,1的估計,并稱和為0和1的最小二乘估計.§9.2回歸分析9.2.1一元線性回歸分析1.參數(shù)0和1的最小二乘估計通??刹捎梦⒎e分中求極值的辦法,求出使Q(0,1)達到最小值的和即解方程:即(9.6)§9.2回歸分析9.2.1一元線性回歸分析1.參數(shù)0和1的最小二乘估計通??刹捎梦⒎e分中求極值的辦法,求出使Q(0,1)達到最小值的和即解方程:或(9.7)§9.2回歸分析9.2.1一元線性回歸分析1.參數(shù)0和1的最小二乘估計稱(9.6)或(9.7)為正則方程.解正則方程得

(9.8)其中§9.2回歸分析9.2.1一元線性回歸分析1.參數(shù)0和1的最小二乘估計稱(9.6)或(9.7)為正則方程.解正則方程得

(9.8)從而得到回歸方程:§9.2回歸分析9.2.1一元線性回歸分析1.參數(shù)0和1的最小二乘估計稱(9.6)或(9.7)為正則方程.解正則方程得

(9.8)因為(9.8)式又可以寫成§9.2回歸分析9.2.1一元線性回歸分析1.參數(shù)0和1的最小二乘估計可以證明,用最小二乘法求出的估計,分別是0,1的無偏估計,它們都是y1,y2,…,yn的線性函數(shù),而且在所有y1,y2,…,yn的線性函數(shù)中,最小二乘估計的方差最?。?.2回歸分析9.2.1一元線性回歸分析1.參數(shù)0和1的最小二乘估計【例9-3】建立表9-1中合金鋼的強度y與含碳量x之間的回歸方程,并計算參數(shù)0和1的最小二乘估計.解:首先計算1和0的最小二乘估計分別為因此,回歸方程為§9.2回歸分析9.2.1一元線性回歸分析2.回歸方程的顯著性檢驗對任意兩個變量的一組觀測數(shù)據(jù)(x1,y1),(x2,y2),…,(xn,yn)都可以用最小二乘法得到回歸方程,但這樣得到的回歸方程不一定都有意義.如果實際上模型(9.1)中的1=0,用最小二乘法得到的就沒有意義.這時稱回歸方程不顯著;如果10,就有意義,這時稱回歸方程是顯著的.綜上,一元線性回歸方程的顯著性檢驗,就是要根據(jù)觀測數(shù)據(jù)檢驗假設H0:1=0H1:

1

0§9.2回歸分析9.2.1一元線性回歸分析2.回歸方程的顯著性檢驗一元線性回歸方程的顯著性檢驗,就是要根據(jù)觀測數(shù)據(jù)檢驗假設H0:1=0H1:

1

0如果檢驗結果拒絕原假設H0,說明一元線性回歸方程是顯著的,否則,表明y與x線性關系不顯著,不需要建立這種模型了.在一元線性回歸方程的顯著性檢驗中,有多種等價的檢驗方法.這里介紹常用的F檢驗法.§9.2回歸分析9.2.1一元線性回歸分析2.回歸方程的顯著性檢驗采用方差分析的思想,我們研究影響觀測值yi的原因.注意到回歸方程只反映了x對y的影響,所以,擬合值是觀測值yi中只受xi影響的那一部分而則是除去xi的影響后,受其它種種因素影響的部分,故將稱為殘差.于是,觀測值yi可以分解為兩部和另外,也可分解為兩部分:§9.2回歸分析9.2.1一元線性回歸分析2.回歸方程的顯著性檢驗記SST反映了觀測數(shù)據(jù)總的波動,稱為總變差平方和,SSM反映了由于自變量x的變化影響因變量y的差異,體現(xiàn)了x對y的影響,稱為回歸平方和;SSE反映了種種其它因素對y的影響,稱為殘差平方和.§9.2回歸分析9.2.1一元線性回歸分析2.回歸方程的顯著性檢驗記注意到滿足正則方程(9.6),有即有§9.2回歸分析9.2.1一元線性回歸分析2.回歸方程的顯著性檢驗由及得到于是從而§9.2回歸分析9.2.1一元線性回歸分析2.回歸方程的顯著性檢驗SSM/SSE為x的影響部分與隨機因素影響部分的相對比值.若它不是顯著地大,表明回歸方程中的x并不是影響y的一個重要的因素,于是由數(shù)據(jù)得到的回歸方程就沒有什么意義;如果它顯著地大,表明x的作用顯著地比隨機因素大,這樣方程就有意義.所以我們考慮用SSM/SSE構造檢驗統(tǒng)計量.§9.2回歸分析9.2.1一元線性回歸分析2.回歸方程的顯著性檢驗可以證明,當原假設H0成立時,即1=0時,有將作為檢驗統(tǒng)計量,H0的拒絕域為若F統(tǒng)計量的觀測值為F0,則P值為§9.2回歸分析9.2.1一元線性回歸分析2.回歸方程的顯著性檢驗回歸方程的顯著性檢驗結果,通常匯總為方差分析表,如表9-2所示.表9-2方差分析表來源Source平方和SunofSquare自由度DF平均平方和MeanSquareF統(tǒng)計量FvalueP值Pr>F回歸SSM1SSMP殘差SSEn–2SSE/(n–2)總計SSTn–1§9.2回歸分析9.2.1一元線性回歸分析2.回歸方程的顯著性檢驗【實驗9-1】使用Excel建立表9-1中y與x之間的回歸方程實驗準備:ABCD1序號含碳量x合金鋼強度y210.14241.3725……………4120.236058.64955參數(shù)1132.899461SSM=327.9294216參數(shù)028.0825853F=191.4013367SST=345.0625P=7.5853E-088SSE=17.133079=B18/B17*10)=FDIST(B19,1,10)=SLOPE(C2:C13,B2:B13)=INTERCEPT(C2:C13,B2:B13)§9.2回歸分析9.2.1一元線性回歸分析2.回歸方程的顯著性檢驗【實驗9-1】使用Excel建立表9-1中y與x之間的回歸方程實驗結果:§9.2回歸分析9.2.1一元線性回歸分析2.回歸方程的顯著性檢驗【實驗9-1】使用Excel建立表9-1中y與x之間的回歸方程據(jù)此得到回歸方程:ABCD1序號含碳量x合金鋼強度y210.14241.3725……………4120.236058.64955參數(shù)1132.899461SSM=327.9294216參數(shù)028.0825853F=191.4013367SST=345.0625P=7.5853E-088SSE=17.133079§9.2回歸分析9.2.1一元線性回歸分析2.回歸方程的顯著性檢驗【實驗9-1】使用Excel建立表9-1中y與x之間的回歸方程P=7.59×10-8<0.05,拒絕原假設,回歸方程顯著ABCD1序號含碳量x合金鋼強度y210.14241.3725……………4120.236058.64955參數(shù)1132.899461SSM=327.9294216參數(shù)028.0825853F=191.4013367SST=345.0625P=7.5853E-088SSE=17.133079§9.2回歸分析9.2.1一元線性回歸分析3.回歸方程的判定系數(shù)前面已講到觀測數(shù)據(jù)y1,y2,…,yn的總變差平方和SST可以分解為回歸平方和SSM與殘差平方和SSE兩部分,即SST=SSM+SSE將回歸平方和與總變差平方和之比值稱為判定系數(shù),記為R2,即§9.2回歸分析9.2.1一元線性回歸分析3.回歸方程的判定系數(shù)判定系數(shù)R2可以解釋為y1,y2,…,yn的總變化量中被回歸方程所描述的比例.R2越大,總變化量中被回歸方程所描述的比例就越大,說明自變量對因變量的影響越大.從而殘差平方和就越小,即擬合效果越好.可見R2反映了回歸方程對數(shù)據(jù)的擬合程度,是衡量擬合優(yōu)劣的一個很重要的統(tǒng)計量,稱R2為回歸方程的擬合優(yōu)度§9.2回歸分析9.2.1一元線性回歸分析3.回歸方程的判定系數(shù)如果所有觀測數(shù)據(jù)的散點都落在回歸直線上,殘差平方和SSE=0,R2=1,擬合是完全的;如果y的變換與x無關,x完全無助于解釋y的變差,此時則R2=0.可見,0

R2

1.R2越接近于1,表明回歸平方和占總變差中平方和的比例就越大,回歸直線與各觀測點越接近,用x解釋y的變差部分就越多,回歸直線的擬合程度就越好;反之,R2越接近于0,回歸直線的擬合程度就越差.§9.2回歸分析9.2.1一元線性回歸分析3.回歸方程的判定系數(shù)在一元回歸模型中,可以證明R恰好是由(xi,yi),i=1,2,…,n計算得到的樣本相關系數(shù)r,即有R2=r2.事實上,由于由(9.8)式§9.2回歸分析9.2.1一元線性回歸分析3.回歸方程的判定系數(shù)所以于是§9.2回歸分析9.2.1一元線性回歸分析3.回歸方程的判定系數(shù) 【實驗9-2】使用Excel畫出表9-1中合金鋼的強度y與含碳量x之間的回歸直線,并計算回歸方程的擬合優(yōu)度.(1)在Excel中畫出y與x之間的散點圖,如圖9-7所示.圖9-7畫散點圖§9.2回歸分析9.2.1一元線性回歸分析3.回歸方程的判定系數(shù) 【實驗9-2】使用Excel畫出表9-1中合金鋼的強度y與含碳量x之間的回歸直線,并計算回歸方程的擬合優(yōu)度.(2)用鼠標右鍵單擊散點圖中的數(shù)據(jù)點,在彈出的快捷菜單中選擇“添加趨勢線”,如圖9-9所示.圖9-9添加趨勢線§9.2回歸分析9.2.1一元線性回歸分析3.回歸方程的判定系數(shù) 【實驗9-2】使用Excel畫出表9-1中合金鋼的強度y與含碳量x之間的回歸直線,并計算回歸方程的擬合優(yōu)度.(3)在打開的“添加趨勢線”對話框中,“類型”取默認的“線性”;在“選項”選項卡中,修改“趨勢預測”中“前推”和“倒推”為0.1,選中“顯示公式”和“顯示R平方值”復選框,如圖9-10所示.§9.2回歸分析9.2.1一元線性回歸分析3.回歸方程的判定系數(shù) 【實驗9-2】使用Excel畫出表9-1中合金鋼的強度y與含碳量x之間的回歸直線,并計算回歸方程的擬合優(yōu)度.(3)圖9-10“添加趨勢線”對話框§9.2回歸分析9.2.1一元線性回歸分析3.回歸方程的判定系數(shù) 【實驗9-2】使用Excel畫出表9-1中合金鋼的強度y與含碳量x之間的回歸直線,并計算回歸方程的擬合優(yōu)度.(3)單擊“確定”按鈕,得到回歸直線、回歸方程與擬合優(yōu)度,如圖9-11所示.圖中顯示,回歸直線的方程方程的擬合優(yōu)度為0.9503.圖9-11回歸直線與擬合優(yōu)度

§9.2回歸分析9.2.1一元線性回歸分析3.回歸方程的判定系數(shù) 【實驗9-2】合金鋼強度y與含碳量x之間的回歸直線實驗操作:§9.2回歸分析9.2.1一元線性回歸分析4.誤差方差的估計在一元線性回歸模型y=0+1x+,~N(0,

2)中,隨機誤差

的大小可由它的方差

2衡量,

2越小,回歸方程擬合數(shù)據(jù)的程度就越好,如何估計

2?由觀測值(x1,y1),(x2,y2),…,(xn,yn),通過參數(shù)估計得到了回歸方程,殘差平方和說明了實際觀測值yi與估計值之間的差異程度.我們稱為均方殘差(也記為MSE).可以證明§9.2回歸分析9.2.1一元線性回歸分析4.誤差方差的估計因此,我們將作為隨機誤差的標準差

的估計,稱為隨機誤差的估計標準誤差,簡稱標準誤差,或叫根均方殘差.§9.2回歸分析9.2.1一元線性回歸分析4.誤差方差的估計估計標準誤差反映了回歸方程預測因變量y時預測誤差的大小,若各觀測點靠近回歸直線,越小,回歸直線對各觀測點的代性就越好,根據(jù)回歸方程進行預測也就越準確.可見也從一個側(cè)面反映了回歸直線的擬合程度.在實驗9-1中,SSE=17.133(見圖9-8),所以回歸方程的估計標準差為§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析在一元線性回歸模型(9.4)式中假定了誤差i(i=1,2,…,n)的正態(tài)性、獨立性和同方差性.其中,誤差i=yi–(0+1xi)(i=1,2,…,n)是未知的,不可觀測的.若所建回歸方程合適,殘差(i=1,2,…,n)可近似看做i,即應基本上反映未知誤差i的上述特性.利用殘差(i=1,2,…,n)的特征反過來考察原模型的合理性就是殘差分析的基本思想.§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析在將回歸方程應用于實際之前必須進行殘差分析,這是十分重要的一個環(huán)節(jié).如果殘差基本符合模型中對誤差的假定,才能最終認為選模型是合適的,所建回歸方程是可行的,可以用于預測和控制,否則,所選模型可能不合適,需要改進,所建回歸方程也不能應用于實際.殘差的正態(tài)性檢驗可以通過第八章所講分布擬合檢驗法進行檢驗,也可以用頻率檢驗、殘差圖分析等方法進行檢驗.下面簡單介紹一下殘差正態(tài)性的頻率檢驗及殘差圖分析方法.§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析(1)殘差正態(tài)性的頻率檢驗殘差正態(tài)性的頻率檢驗是一種很直觀的檢驗方法.其基本思想是將殘差落在某范圍的頻率與正態(tài)分布在該范圍的概率(或稱為理論頻率)相比較,通過二者之間偏差的大小評估殘差的正態(tài)性.§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析(1)殘差正態(tài)性的頻率檢驗在回歸模型中,若假定i~N(0,2),則(i=1,2,…,n).由于均方殘差(MSE)是2的無偏估計.因此,當n較大時,(i=1,2,…,n)可近似認為是取自標準正態(tài)分布總體的樣本.稱(i=1,2,…,n)為標準化殘差.§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析(1)殘差正態(tài)性的頻率檢驗由于服從N(0,1)分布的隨機變量取值在(–1,1)內(nèi)的概率約為0.68,在(–1.5,1.5)內(nèi)的概率約為0.87,在(–2,2)內(nèi)的概率約為0.95等等,因此理論上,標準化殘差(i=1,2,…,n)中有大約68%應在(–1,1)內(nèi),87%應在(–1.5,1.5)內(nèi),95%應在(–2,2)內(nèi)等等.如果殘差在某些區(qū)間內(nèi)的頻率與上述理論頻率有較大的偏差,則有理由懷疑從而i(i=1,2,…,n)的正態(tài)性假定的合理性.§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析(1)殘差正態(tài)性的頻率檢驗用這種方法檢驗殘差的正態(tài)性是十分方便的.在實際應用中,一般取二三個具有代表性的區(qū)間即可.(2)殘差圖分析凡是以殘差為縱坐標,而以觀測值yi,擬合值自變量xi(i=1,2,…,n)或序號、觀測時間等為橫坐標的散點圖,均稱為殘差圖.§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析(2)殘差圖分析凡是以殘差為縱坐標,而以觀測值yi,擬合值自變量xi(i=1,2,…,n)或序號、觀測時間等為橫坐標的散點圖,均稱為殘差圖.可以通過殘差圖對誤差項的正態(tài)性、等方差性、獨立性及對模型中是否應該包含自變量的高次項、觀測值中是否有異常值存在等作出直觀的考察.§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析(2)殘差圖分析如果線性回歸模型的假定成立,標準化殘差(i=1,2,…,n)應相互獨立且近似服從N(0,1),那么殘差圖中絕大多數(shù)散點(95%)應隨機地分布在–2到+2的帶子里.這樣的殘差圖稱為合適的殘差圖,如圖9-12左.

圖9-12正常的殘差、非等方差以及模型形式不合適時的殘差§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析(2)殘差圖分析圖9-12中表明殘差的方差隨自變量的增大而增大,不是常數(shù).圖9-12右散點分布有二次趨勢,表明回歸模型不合適,可以考慮在回歸模型加入自變量的二次項,建立非線性回歸方程.§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析(2)殘差圖分析【實驗9-3】使用Excel數(shù)據(jù)分析功能對表9-1中合金鋼的強度y與含碳量x作一元線性回歸分析.設例9-3中數(shù)據(jù)已整理如圖9-7所示,回歸分析步驟如下:1)在Excel主菜單中選擇“工具”“數(shù)據(jù)分析”,打開“數(shù)據(jù)分析”對話框,在“分析工具”列表中選擇“回歸”選項,單擊“確定”按鈕.§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析(2)殘差圖分析【實驗9-3】使用Excel數(shù)據(jù)分析功能對表9-1中合金鋼的強度y與含碳量x作一元線性回歸分析.2)在打開的“回歸”對話框中,依次輸入“Y值輸入?yún)^(qū)域”和“X值輸入?yún)^(qū)域”,選中“殘差”和“殘差圖”,如圖9-13所示,單擊“確定”按鈕.得到回歸分析的結果如圖9-14和9-15所示.

§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析(2)殘差圖分析【實驗9-3】使用Excel數(shù)據(jù)分析功能對表9-1中合金鋼的強度y與含碳量x作一元線性回歸分析.結果顯示,回歸方程為圖9-14回歸分析結果§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析(2)殘差圖分析【實驗9-3】使用Excel數(shù)據(jù)分析功能對表9-1中合金鋼的強度y與含碳量x作一元線性回歸分析.2)方程的擬合優(yōu)度R2為0.9503.F統(tǒng)計量的P值=7.5910-8<0.05,說明1顯著非0,回歸方程顯著.其中回歸系數(shù)1=132.90,§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析(2)殘差圖分析【實驗9-3】使用Excel數(shù)據(jù)分析功能對表9-1中合金鋼的強度y與含碳量x作一元線性回歸分析.2)意味著含碳量每增加0.01%,合金鋼的強度平均增加1.329個107Pa.從殘差圖可以看出,所建回歸模型是合適的.§9.2回歸分析9.2.1一元線性回歸分析5.殘差分析(2)殘差圖分析【實驗9-3】使用Excel數(shù)據(jù)分析功能對表9-1中合金鋼的強度y與含碳量x作一元線性回歸分析.實驗操作:§9.2回歸分析9.2.1一元線性回歸分析6.利用回歸方程進行估計和預測在回歸方程通過各種檢驗后,就可以利用它對因變量的取值進行預測了.對因變量的取值進行預測分為點預測(點估計)和區(qū)間預測(區(qū)間估計),點預測是根據(jù)回歸方程代入自變量的值,得到對應因變量的預測值,而區(qū)間預測則是在點預測的基礎上,給出給定置信水平下的因變量的預測區(qū)間.§9.2回歸分析9.2.1一元線性回歸分析6.利用回歸方程進行估計和預測(1)點預測假設通過各種檢驗的“最優(yōu)”回歸方程為對給定的x0值,代入回歸方程中就可得的值.它即可以作為實際值的估計值,也可以作為的估計值,這就是所謂的點預測.例如,對合金鋼強度y對含碳量x的回歸方程§9.2回歸分析9.2.1一元線性回歸分析6.利用回歸方程進行估計和預測(1)點預測假設通過各種檢驗的“最優(yōu)”回歸方程為對給定的x0值,代入回歸方程中就可得的值.它即可以作為實際值的估計值,也可以作為的估計值,這就是所謂的點預測.當已知含碳量x0=0.22時,就可以預測合金鋼強度為§9.2回歸分析9.2.1一元線性回歸分析6.利用回歸方程進行估計和預測(2)預測區(qū)間預測區(qū)間分為個體的預測區(qū)間和均值的預測區(qū)間,這里只介紹個體的預測區(qū)間.對給定的x0值,因變量y的相應值y0記成由于y0服從正態(tài)分布,且可以證明§9.2回歸分析9.2.1一元線性回歸分析6.利用回歸方程進行估計和預測(2)預測區(qū)間對給定的x0值,因變量y的相應值y0記成由于y0服從正態(tài)分布,且可以證明其中,§9.2回歸分析9.2.1一元線性回歸分析6.利用回歸方程進行估計和預測(2)預測區(qū)間因此,對給定的x0,在給定的置信水平1–下,y0的置信區(qū)間為可以看出,對于給定的n和,lxx越大或x0越靠近預測區(qū)間的長度就越短,預測精度就越高.由于刻畫了觀測點x1,x2,…,xn的分散程度,因此,想提高預測精度就要使x1,x2,…,xn盡量分散.§9.2回歸分析9.2.1一元線性回歸分析6.利用回歸方程進行估計和預測(2)預測區(qū)間因此,對給定的x0,在給定的置信水平1–下,y0的置信區(qū)間為例如,對合金鋼強度y對含碳量x的回歸方程當已知含碳量x0=0.22時,就可以得到合金鋼強度置信水平為95%的預測區(qū)間:(54.01,60.63).§9.2回歸分析9.2.2可化為線性回歸的一元非線性回歸現(xiàn)實世界中嚴格的線性模型并不多見,它們或多或少都帶有某種程度的近似;在不少情況下,非線性模型可能更加符合實際,因此,非線性回歸與線性回歸同樣重要.下面主要介紹可化為線性回歸的一元非線性回歸分析.§9.2回歸分析9.2.2可化為線性回歸的一元非線性回歸在對數(shù)據(jù)進行分析時,常常先描出數(shù)據(jù)的散點圖,判斷兩個變量間可能存在的函數(shù)關系.如果兩個變量間存在線性關系,我們可以用前面所述的方法建立一元線性回歸方程來描述,如果它們之間存在著一種非線性關系,這時常用的方法是通過變量變換,使新變量之間具有線性關系,從而利用一元線性回歸方法對其進行分析.§9.2回歸分析9.2.2可化為線性回歸的一元非線性回歸表9-3給出了一些常見的可線性化的一元非線性函數(shù)及線性化方法.表9-3典型函數(shù)及線性化方下面通過一個具體實例說明一元非線性回歸分析的方法.函數(shù)名稱函數(shù)表達式線性化方法雙曲線函數(shù)1/y=a+b/xu=1/x

v=1/y冪函數(shù)y=axbu=lnx

v=lny指數(shù)函數(shù)y=aebxu=x

v=lnyy=aeb/xu=1/x

v=lny對數(shù)函數(shù)y=a+blnxu=lnx

v=yS型函數(shù)y=1/(a+be-x)u=e-x

v=1/y§9.2回歸分析9.2.2可化為線性回歸的一元非線性回歸【實驗9-4】設隨機變量x與y的觀測數(shù)據(jù)如下,試建立y與x的回歸模型.下面分三步進行分析建立模型1.確定回歸函數(shù)可能形式為確定可能的函數(shù)形式,首先描出數(shù)據(jù)的散點圖.步驟如下:x23457810111415161819y106.42108.20109.58109.50110.00109.93110.49110.59110.60110.90110.76111.00111.20§9.2回歸分析9.2.2可化為線性回歸的一元非線性回歸【實驗9-4】設隨機變量x與y的觀測數(shù)據(jù)如下,試建立y與x的回歸模型.1.確定回歸函數(shù)可能形式選中單元格區(qū)域:B2:C14,并選擇主菜單“插入”“圖表”,打開“圖表向?qū)А睂υ捒?,選中圖表類型“XY散點圖”,單擊“完成”按鈕,即可得到散點圖,如圖9-16所示§9.2回歸分析9.2.2可化為線性回歸的一元非線性回歸【實驗9-4】設隨機變量x與y的觀測數(shù)據(jù)如下,試建立y與x的回歸模型.1.確定回歸函數(shù)可能形式散點圖呈現(xiàn)出明顯的向上且上凸的趨勢,可選的函數(shù)關系有很多,比如可以給出如下三種曲線函數(shù):

圖9.16

y與x的散點圖§9.2回歸分析9.2.2可化為線性回歸的一元非線性回歸【實驗9-4】設隨機變量x與y的觀測數(shù)據(jù)如下,試建立y與x的回歸模型.1.確定回歸函數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論