版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
一元線性回歸分析與預(yù)測(cè)世界上的變量之間大致有如下三種關(guān)系:y=f(x),變量之間存在著嚴(yán)格的依存關(guān)系,對(duì)于A變量的每一個(gè)數(shù)值,B變量總有一個(gè)確定的值與之對(duì)應(yīng)。例如商品銷售額與銷售量的依存關(guān)系。y=f(x),變量之間存在著嚴(yán)格的依存關(guān)系,對(duì)于A變量的每一個(gè)數(shù)值,B變量總有一個(gè)確定的值與之對(duì)應(yīng)。例如商品銷售額與銷售量的依存關(guān)系。變量之間存在著非嚴(yán)格的依存關(guān)系,A變量在數(shù)量上的變化會(huì)影響B(tài)變量在數(shù)量上的變化,但B變量在數(shù)量上的變化具有一定的隨機(jī)性。變量間關(guān)系函數(shù)關(guān)系相關(guān)關(guān)系無(wú)關(guān)系具有相關(guān)關(guān)系的變量之間雖然具有某種不確定性,但是,通過(guò)對(duì)現(xiàn)象的不斷觀察可以探索出它們之間的統(tǒng)計(jì)規(guī)律(本質(zhì)上就是探索相關(guān)變量之間在總體上的規(guī)律),這類統(tǒng)計(jì)規(guī)律稱為回歸關(guān)系。我們只通過(guò)有限次地觀察樣本,相關(guān)關(guān)系的變量之間呈現(xiàn)不確定性,也即A變量增大或者減小,B變量未必相應(yīng)地增大或者減小,B變量具有隨機(jī)性,但是如果我們觀察的樣本數(shù)量足夠多,A變量與B變量又會(huì)呈現(xiàn)出某種確定的關(guān)系,比如隨著A變量的增大,B變量的均值可能隨之增大,這種在大樣本容量下變量之間呈現(xiàn)出的確定關(guān)系(可視為總體下的變量之間呈現(xiàn)出的確定關(guān)系,只有樣本容量足夠大,才可以呈現(xiàn)出總體的規(guī)律,正如只有大量投擲硬幣,才可以呈現(xiàn)出落地后“正面朝上”的概率為0.5這一總體的特征,或者規(guī)律),稱之為回歸關(guān)系。有關(guān)回歸關(guān)系的理論、計(jì)算和分析稱為回歸分析。研究回歸關(guān)系時(shí),變量又分為自變量和因變量,自變量是因變量的影響因素,因變量的變化受到自變量變化的影響,自變量實(shí)際上可視為我們常說(shuō)的“因“,因變量可視為我們常說(shuō)的”果“,雖然二者并不是嚴(yán)格意義上的因果關(guān)系。至于兩個(gè)變量,哪個(gè)是自變量,哪個(gè)是因變量,大家根據(jù)實(shí)際情況來(lái)判斷。本文將從一組樣本數(shù)據(jù)出發(fā),確定這些變量之間的回歸關(guān)系,也即將這些變量擬合為確定的回歸方程的數(shù)據(jù)模型(也就是確定的函數(shù)關(guān)系),并用統(tǒng)計(jì)指標(biāo)來(lái)說(shuō)明回歸方程對(duì)樣本數(shù)據(jù)的擬合程度,也就是判斷自變量影響因變量的顯著性,另外,還可以運(yùn)用回歸方程進(jìn)行預(yù)測(cè)。大家看,這實(shí)際上仍是通過(guò)樣本來(lái)推斷總體的應(yīng)用場(chǎng)景,所以在回歸分析中也少不了要做假設(shè)檢驗(yàn)。綜上所述,回歸分析是研究總體下的變量之間(自變量與因變量)的定量關(guān)系(使用回歸方程來(lái)描述,即函數(shù)表達(dá)式)的一種統(tǒng)計(jì)分析方法,其目的在于根據(jù)已知自變量來(lái)估計(jì)和預(yù)測(cè)因變量,是一種預(yù)測(cè)性的建模技術(shù)。本文介紹最簡(jiǎn)單的回歸分析,只有一個(gè)自變量,且自變量與因變量呈線性關(guān)系,因此稱之為一元線性回歸分析。下面我們先對(duì)本文所介紹的一元線性回歸分析的應(yīng)用場(chǎng)景做幾個(gè)假設(shè),也就是給出已知條件:1、線性Linear:因變量Y的總體均數(shù)μ與X呈線性關(guān)系,即μ=β0+β1X-------①2、獨(dú)立Independent:每一個(gè)自變量值x對(duì)應(yīng)一個(gè)Y隨機(jī)變量,所有這些Y隨機(jī)變量彼此獨(dú)立;3、正態(tài)Normaldistribution:對(duì)任何給定的自變量值x,它所對(duì)應(yīng)的因變量Y服從正態(tài)分布。4、方差相等Equalvariance:對(duì)于自變量X的任何值,其所對(duì)應(yīng)的因變量Y的標(biāo)準(zhǔn)差σε2相等。對(duì)以上的已知條件做如下說(shuō)明:自變量X不是隨機(jī)變量,我們可以在一個(gè)范圍內(nèi)人為選取若干個(gè)X值,每一個(gè)具體的X值,它所對(duì)應(yīng)的Y變量的取值卻都是隨機(jī)的,也就是說(shuō)Y變量都是一個(gè)隨機(jī)變量,而且都服從正態(tài)分布,所有這些Y變量的標(biāo)準(zhǔn)差相等,而且相互獨(dú)立。對(duì)于每一個(gè)具體的X值,它與對(duì)應(yīng)的Y隨機(jī)變量的總體均值uy|x(表示在X=x的條件下Y隨機(jī)變量的總體均值)具有線性關(guān)系,其回歸方程見(jiàn)公式①,β0為回歸方程的截距,β1為回歸方程的斜率,也稱為回歸系數(shù),在回歸分析中,回歸系數(shù)直接反映了自變量X對(duì)因變量Y的影響程度。在本文中,總體的一些特征或者規(guī)律是已知的,比如因變量呈正態(tài)分布;所有因變量的方差相等,且彼此獨(dú)立;自變量與因變量的均值具有線性關(guān)系,但是總體也有未知的信息需要進(jìn)一步推斷,比如回歸方程中的β0和β1,只有β0和β1是明確的,我們才可以利用回歸方程做進(jìn)一步的預(yù)測(cè),比如給定一個(gè)具體的X值,通過(guò)回歸方程,便可以預(yù)測(cè)出對(duì)應(yīng)的Y值。在本文中所采用的假設(shè)檢驗(yàn),應(yīng)該屬于參數(shù)檢驗(yàn),因?yàn)樯鲜龅目傮w的某些特征是已知的。為了便于更直觀和更形象地理解上述的總體的已知特征,可參考下圖。下圖即為在自變量X取值為x0,x1,…xn的條件下,所對(duì)應(yīng)的每個(gè)因變量Y的總體。下面我們介紹如何通過(guò)樣本數(shù)據(jù),來(lái)推斷總體的回歸方程,也即①式。如上圖所示,現(xiàn)在有容量為n的樣本(x0,y0),(x1,y1),…,(xn,yn),從各點(diǎn)在坐標(biāo)系中的分布來(lái)看,各點(diǎn)散落在一條直線周圍,因此可以擬合為一條直線,假設(shè)該直線的線性方程為:為了使得線性方程擬合這n個(gè)樣本的效果達(dá)到最佳,那就需要各實(shí)測(cè)點(diǎn)至回歸直線的縱向距離的平方和最小,也即使得達(dá)到最小。根據(jù)最小二乘法原理(大家可參考相關(guān)資料),通過(guò)這n個(gè)樣本,可以計(jì)算出和的值,分別如下:而且還可以進(jìn)一步推導(dǎo)出:由此可知,對(duì)樣本擬合出的回歸方程,其中的截距和回歸系數(shù),,也皆服從正態(tài)分布,而且均值分別為總體回歸方程中的的,,而且將一指定的X值xi代入擬合回歸方程中,求出的也呈正態(tài)分布,而且均值為。所以,,分別可以作為,,的估計(jì)值,因此擬合回歸方程可以看作是總體回歸方程的近似。關(guān)于自變量X和因變量Y,我們主要關(guān)心的是自變量X與總體Y是否存在線性回歸關(guān)系,也就是在總體的回歸方程中β1是否為0。原假設(shè):β1=0,也即x與y沒(méi)有線性回歸關(guān)系,μy|x=β0+0x=β0,下面利用樣本數(shù)據(jù)來(lái)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,檢驗(yàn)x與y是否有線性回歸關(guān)系,可以采用兩種檢驗(yàn)方法。第一種是方差分析,也就是對(duì)樣本中的y值的變異進(jìn)行拆解分析,如下圖所示。應(yīng)變量y離均差平方和分解示意圖實(shí)際上可以拆分為兩部分變異,分別為SS回,SS殘,拆解過(guò)程如下:SS回:為回歸平方和,即總平方和中可以用x解釋的部分,或者說(shuō)x與y的線性回歸關(guān)系可解釋的變異,越大越好。SS殘:為殘差平方和,反映除了x對(duì)y的線性影響之外的一切因素對(duì)y的變異作用,也就是在總平方和中無(wú)法用x解釋的部分,表示考慮回歸之后y的真正的隨機(jī)誤差,其越小越好,也即回歸的效果越明顯。SS總:為y的離均差平方和,表示未考慮x與y的回歸關(guān)系時(shí)y的總變異。檢驗(yàn)x與y是否有線性回歸關(guān)系,實(shí)際上可以轉(zhuǎn)換為檢驗(yàn)SS回是否比SS殘足夠大,如果是,說(shuō)明變異主要是由x引起的,由此可以推斷x與y具有線性回歸關(guān)系。既然是兩個(gè)方差之間的比較,我們自然想到F檢驗(yàn)。利用樣本數(shù)據(jù)構(gòu)造F檢驗(yàn)統(tǒng)計(jì)量:F=SS回/v回SS殘/v殘=MS回是回歸均方,MS殘是殘差均方,v回如果檢驗(yàn)統(tǒng)計(jì)量F>F0.05(1,n-2),則說(shuō)明x解釋的部分遠(yuǎn)大于隨機(jī)誤差,所以可拒絕原假設(shè),接受備選假設(shè)。備選假設(shè):β1≠0,也即x與y有線性回歸關(guān)系,也即μy|x=β0+下面介紹第二種檢驗(yàn)方式---t檢驗(yàn):我們已經(jīng)知道,服從正態(tài)分布,其中,MS殘為σ所以的標(biāo)準(zhǔn)方差的無(wú)偏估計(jì)為:原假設(shè):β1=0,基于原假設(shè),可構(gòu)造以下t檢驗(yàn)統(tǒng)計(jì)量如果t>t0.05/2,n-2,則說(shuō)明回歸系數(shù)不為0,也即x解釋的部分遠(yuǎn)大于隨機(jī)誤差,所以可拒絕原假設(shè),接受備選假設(shè)。對(duì)于檢驗(yàn)x與y是否有線性回歸關(guān)系,方差分析與t檢驗(yàn)的結(jié)論是一致的,即兩者是完全等價(jià)的。同時(shí),也可以求出β1的區(qū)間估計(jì)使用同樣的方法,也可以求出β0的區(qū)間估計(jì),因?yàn)橐卜囊韵碌恼龖B(tài)分布。我們利用方差分析或者t檢驗(yàn)的方式推斷出回歸方程是否成立,也即在總體中x與y的線性回歸關(guān)系是否存在。但是我們?cè)撊绾卧u(píng)估回歸方程的優(yōu)劣呢?也就是說(shuō)它的預(yù)測(cè)效果如何,因?yàn)橥ㄟ^(guò)樣本數(shù)據(jù)求出回歸方程,其目的也在于給出一個(gè)x,來(lái)預(yù)測(cè)y可能的取值。下面我們給出決定系數(shù)的概念,它是評(píng)估回歸方程優(yōu)劣的一個(gè)重要指標(biāo)。R2=SS回SSR2為回歸平方和與總平方和的比值,即y的總變異中因x與y的線性回歸關(guān)系所能解釋的比例,反映了回歸貢獻(xiàn)的相對(duì)程度,無(wú)量綱。R綜上所述,一個(gè)擬合良好的回歸方程應(yīng)該具有較小的p值(≤0.05,假設(shè)檢驗(yàn)中統(tǒng)計(jì)量對(duì)應(yīng)的累積概率值)和較大的決定系數(shù)R2(≧0.7)一旦根據(jù)樣本數(shù)據(jù)擬合出回歸方程,并且通過(guò)假設(shè)檢驗(yàn)推斷出x與y具有線性回歸關(guān)系,也即β1≠0,而且決定系數(shù)R2≧0.7,那么下面便可以利用擬合的回歸方程進(jìn)行預(yù)測(cè)了,也即將一個(gè)指定的X值代入方程中,計(jì)算出。一元線性回歸有兩種預(yù)測(cè):一是均值的預(yù)測(cè),也就是每一個(gè)x值對(duì)應(yīng)的因變量y的均值(上面提到,因變量y是一個(gè)隨機(jī)變量,這里的均值的預(yù)測(cè),就是y的總體的均值);另一個(gè)是個(gè)值的預(yù)測(cè),也就是預(yù)測(cè)y變量在一定的概率下會(huì)落入的我們首先介紹第一種預(yù)測(cè):均值預(yù)測(cè)。不妨指定一個(gè)X值為x0,則由擬合回歸方程計(jì)算出的,其均值與方差如下:上面我們提到:MS殘為σ可以作為的標(biāo)準(zhǔn)差的估計(jì)值。由此有:即為在x=x0的條件下,對(duì)應(yīng)因變量y的總體的均值,也就是。由此我們得到,在給定的1-α(α一般為0.05,也即置信度為95%)的置信度下,的置信區(qū)間為:95%置信區(qū)間的含義:如果作100次抽樣(每次抽取n個(gè)樣本),獲得100個(gè)容量為n的樣本,可算得100個(gè)置信區(qū)間,其中平均有95個(gè)置信區(qū)間包含該總體均值。下面我們?cè)俳榻B第二種預(yù)測(cè):個(gè)值的預(yù)測(cè)。通過(guò)樣本數(shù)據(jù)我們計(jì)算出了,它可以作為的一個(gè)估計(jì)值。另外也可以預(yù)測(cè)一下y變量如果以作為均值,由于隨機(jī)因素的影響在上下波動(dòng)的范圍,可以稱之為容許區(qū)間,比如95%容許區(qū)間,指有95%的y變量取值在該區(qū)間內(nèi)。首先計(jì)算一下與之差的均值和方差,因?yàn)榕c都是服從正態(tài)分布的隨機(jī)變量,所以二者之差也是服從正態(tài)分布的隨機(jī)變量。差的均值與方差如下所示:從而有:上面我們提到:MS殘為σ那么的1-α的容許區(qū)間為:
由于<,所以容許區(qū)間的范圍要大于置信區(qū)間的范圍,如下圖所示。下面我們通過(guò)一個(gè)實(shí)際的案例,來(lái)演示一下一元線性回歸分析與預(yù)測(cè)的過(guò)程。以下表格收集了30名成年男子的體重與肺活量,試對(duì)體重與肺活量進(jìn)行線性回歸分析。編號(hào)體重(kg)肺活量(L)160.14.51260.384.47359.744.4455.044.07559.674.34659.444.397574.29859.754.31960.54.41058.724.361156.954.181257.224.11355.964.061457.874.231556.874.31655.974.141756.074.211855.284.141955.794.22054.564.042155.114.22253.244.022360.14.522460.54.482559.044.32659.014.322759.74.222859.064.282959.124.293054.214.2在本例中,主要研究體重對(duì)肺活量的影響,所以體重為自變量,而肺活量為因變量。首先制作二者的散點(diǎn)圖,觀察各點(diǎn)是否散落在一條直線周邊,如果是,則可以進(jìn)一步進(jìn)行線性回歸的分析;如果不是,則就沒(méi)有必要做進(jìn)一步的線性回歸分析了。大家看上圖,各個(gè)點(diǎn)基本散落在直線的周邊,所以我們可以進(jìn)一步做線性回歸分析。首先求出擬合線性回歸方程。=lxylxx=7.54137.94=- = 4.27-0.055*57.73=1.10所以擬合線性回歸方程為:=1.10+0.055下面使用F檢驗(yàn)推斷體重與肺活量是否有線性回歸關(guān)系。原假設(shè):體重與肺活量無(wú)線性回歸關(guān)系,也即=0;備選假設(shè);體重與肺活量有線性回歸關(guān)系,也即≠0;方差分析dfSSMSFSignificanceF回歸分析10.411734(SS回)0.411734(MS回)75.546431.93217E-09殘差280.152602(SS殘)0.00545(MS殘)總計(jì)290.564337(SS總)很明顯F=75.55>F0.05,(1,28),則拒絕原假設(shè),接受備選假設(shè),也即成年男子的體重與肺活量有線性回歸關(guān)系。前面我們已經(jīng)提到,β1在該例中,=0.00545137.94=0.0063,t0.05/2,28=2.048(可查表,或者使用excel函數(shù)求出該值)。所以β1的95%置信區(qū)間為(0.055-2.048*0.0063,0.055+2.048*0.0063)=(0.042,0.068)下面我們?cè)偻ㄟ^(guò)計(jì)算決定系數(shù)R2來(lái)判斷一下該回歸方程擬合是否良好。R2=SS回SS總由此可知,成年男子的體重能解釋其肺活量73%的變異,僅有27%的變異是由其他因素來(lái)解釋,也就是說(shuō)用體重來(lái)預(yù)測(cè)肺活量,效果比較好。最后基于擬合的回歸方程,進(jìn)行預(yù)測(cè)。首先預(yù)測(cè)一下肺活量總體的均值的置信區(qū)間。根據(jù)前面給出的求置信區(qū)間的公式,可計(jì)算出:當(dāng)男子體重為58kg時(shí),肺活量這個(gè)總體的均值在95%置信度下的區(qū)間。其中=0.016,=1.10+0.055*58=4.29,t0.05/2,28=2.048所以肺活量這個(gè)總體的均值在95%置信度下的區(qū)間為:(4.29–2.048*0.016,4.29+2.048*0.016)=(4.26,4.32)下面我們?cè)僮鰝€(gè)值的預(yù)測(cè)。根據(jù)前面給出的求容許區(qū)間的公式,可計(jì)算出:當(dāng)男子體重為58kg時(shí),肺活量95%的數(shù)據(jù)所在的容許區(qū)間。其中=0.076,=1.10+0.055*58=4.2
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024牛肉供應(yīng)鏈優(yōu)化與物流配送合同
- 二零二五年鮑魚(yú)海鮮產(chǎn)品進(jìn)出口合同2篇
- 2025年度中小企業(yè)財(cái)務(wù)輔導(dǎo)與融資對(duì)接服務(wù)合同3篇
- 2025年工藝品FOB出口合同標(biāo)準(zhǔn)范本2篇
- 2024年相機(jī)設(shè)備采購(gòu)正式協(xié)議樣本
- 2024特定事項(xiàng)補(bǔ)充協(xié)議范本版B版
- 2025年度淋浴房安全檢測(cè)與安裝服務(wù)合同4篇
- 2025年環(huán)保型小區(qū)車棚租賃與充電樁建設(shè)合同3篇
- 2025年度綠色生態(tài)園林景觀項(xiàng)目苗木采購(gòu)合同樣本3篇
- 2025年度消防設(shè)施設(shè)備安全性能評(píng)估合同3篇
- 軟件項(xiàng)目應(yīng)急措施及方案
- 2025河北邯鄲經(jīng)開(kāi)國(guó)控資產(chǎn)運(yùn)營(yíng)管理限公司招聘專業(yè)技術(shù)人才5名高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024年民法典知識(shí)競(jìng)賽考試題庫(kù)及答案(共50題)
- 2025老年公寓合同管理制度
- 2024-2025學(xué)年人教版數(shù)學(xué)六年級(jí)上冊(cè) 期末綜合卷(含答案)
- 2024中國(guó)汽車后市場(chǎng)年度發(fā)展報(bào)告
- 鈑金設(shè)備操作培訓(xùn)
- 感染性腹瀉的護(hù)理查房
- 天津市部分區(qū)2023-2024學(xué)年高二上學(xué)期期末考試 物理 含解析
- 水利工程招標(biāo)文件樣本
- 第17課 西晉的短暫統(tǒng)一和北方各族的內(nèi)遷(說(shuō)課稿)-2024-2025學(xué)年七年級(jí)歷史上冊(cè)素養(yǎng)提升說(shuō)課稿(統(tǒng)編版2024)
評(píng)論
0/150
提交評(píng)論