回歸分析一元線性回歸一元曲線回歸多元線性回歸_第1頁
回歸分析一元線性回歸一元曲線回歸多元線性回歸_第2頁
回歸分析一元線性回歸一元曲線回歸多元線性回歸_第3頁
回歸分析一元線性回歸一元曲線回歸多元線性回歸_第4頁
回歸分析一元線性回歸一元曲線回歸多元線性回歸_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第八講回歸分析一、一元線性回歸三、多元線性回歸二、一元曲線回歸一些相關(guān)關(guān)系的例子人的身高和體重父親的身高和兒子的身高在農(nóng)業(yè)生產(chǎn)中,小麥的畝產(chǎn)量Y與所施肥量x定義1

把呈現(xiàn)不確定性關(guān)系的變量間的聯(lián)系稱為相關(guān)關(guān)系。相關(guān)關(guān)系中的兩種變量:一類相當(dāng)于通常函數(shù)關(guān)系中的自變量,這類變量能夠賦予一個(gè)需要的值(如室內(nèi)的溫度、施肥量等),或能夠取到一個(gè)可觀測但不能人為控制的值(如室外溫度),這種變量稱為自變量,或稱預(yù)報(bào)變量。預(yù)報(bào)變量的變化能波及另一些變量(如水稻畝產(chǎn)),這樣的變量稱為因變量,或稱響應(yīng)變量。相關(guān)關(guān)系中的各種變量可以是普通變量,可以是隨機(jī)變量。一般把相關(guān)關(guān)系分為隨機(jī)變量間的相關(guān)關(guān)系和隨機(jī)變量與普通變量間的相關(guān)關(guān)系。這兩種情況假設(shè)不同,推導(dǎo)過程也不同,但某些結(jié)論卻很類似。本章著重討論后一種關(guān)系。但結(jié)論對另一種情況也實(shí)用?;貧w分析是處理變量間的相關(guān)關(guān)系的一種有效工具。其目的在于根據(jù)已知預(yù)報(bào)變量的變化來估計(jì)或預(yù)測響應(yīng)變量的變化情況,或者根據(jù)響應(yīng)變量來對預(yù)報(bào)變量做一定的控制。具體來說,它的研究內(nèi)容如下:它可以提供變量間相關(guān)關(guān)系的數(shù)學(xué)表達(dá)式(通常稱為經(jīng)驗(yàn)公式);且利用概率統(tǒng)計(jì)知識,對經(jīng)驗(yàn)公式及有關(guān)問題進(jìn)行分析、判斷以確定經(jīng)驗(yàn)公式的有效性。從眾多的預(yù)報(bào)變量中,判斷哪些變量對響應(yīng)變量的影響是顯著的,哪些是不顯著的;還可以利用所得經(jīng)驗(yàn)公式,由一個(gè)或幾個(gè)變量的值,去預(yù)測或控制另一個(gè)變量的取值,同時(shí)還可知道這種預(yù)測和控制可以達(dá)到什么樣的精度。為了方便,我們將隨機(jī)變量Y與其取值y一律用小寫字母y表示,而x通常表示普通變量?;貧w的由來:英國著名人類學(xué)家FranicsGalton(1822-1911)于1885年在論文《身高遺傳中的平庸回歸》中闡述了他的重大發(fā)現(xiàn):子代的身高有向平均值靠攏的趨向。因此,他用回歸一詞來描述子代身高與父代身高的這種關(guān)系。隨后,英國著名統(tǒng)計(jì)學(xué)家K.Pearson等人搜集了上千家庭成員的身高數(shù)據(jù),分析出兒子的身高y與父親的身高x大致可歸結(jié)為一下關(guān)系:y=0.516x+33.73(單位為英寸)從而進(jìn)一步證實(shí)了Galton的“回歸定律”。這就是回歸一詞最初在遺傳學(xué)上的含義?;貧w的現(xiàn)代意義:它要比其原始意義廣泛的多。具體地說,回歸分析的內(nèi)容包括:確定響應(yīng)變量與預(yù)報(bào)變量間的回歸模型,即變量間相關(guān)關(guān)系的數(shù)學(xué)表達(dá)式(通常稱為經(jīng)驗(yàn)公式);根據(jù)樣本估計(jì)并檢驗(yàn)回歸模型及未知參數(shù);從眾多的預(yù)報(bào)變量中,判斷哪些變量對響應(yīng)變量的影響是顯著的,哪些是不顯著的;根據(jù)預(yù)報(bào)變量的已知值或給定值來估計(jì)或預(yù)測響應(yīng)變量的平均值并給出預(yù)測精度或根據(jù)響應(yīng)變量的給定值來估計(jì)預(yù)報(bào)變量的值,即所謂的預(yù)報(bào)與控制問題。定義2設(shè)y為隨機(jī)變量,x為非隨機(jī)變量,即普通變量,描述y與x的關(guān)系的方程稱為回歸方程,E(y|x)=f(x)的圖形稱為回歸曲線。這個(gè)圖形為直線時(shí),稱為回歸直線。注意:回歸曲線有一個(gè)取值范圍。有時(shí)候,盡管兩個(gè)變量間不是直線關(guān)系,但如限制在某個(gè)范圍時(shí)仍作為直線關(guān)系來處理,是很有實(shí)用價(jià)值的。但在作預(yù)報(bào)時(shí),對于超出這個(gè)范圍的預(yù)報(bào)變量作的預(yù)報(bào)必須注意是不可靠的。預(yù)報(bào)變量不只一個(gè)時(shí),也有類似的情況值得注意。第一節(jié)一元線性回歸一、基本問題研究隨機(jī)變量y與普通變量x間的相關(guān)關(guān)系。這里對于每個(gè)確定的x,y是一個(gè)具有確定分布的隨機(jī)變量。尋求y的均值與x之間的函數(shù)關(guān)系的表達(dá)式Ey=(x)便是回歸分析的基本問題。這里的(x)稱為y對x的回歸函數(shù),或簡稱為y對x的回歸。簡單而有代表性的情形是,(x)與x呈線性關(guān)系,(x)=ax+b,用線性函數(shù)a+bx來估計(jì)y的數(shù)學(xué)期望的問題,稱為一元線性回歸問題。對于x的一組不全相同的值x1,x2,...,xn做獨(dú)立試驗(yàn),得到隨機(jī)變量y的相應(yīng)的觀測值y1,y2,...,yn,這樣就得到了n對數(shù)據(jù):(x1,y1),(x2,y2),...,(xn

,yn

),我們稱之為一組樣本容量為

n的樣本,我們的任務(wù)就是用這組樣本來估計(jì)回歸函數(shù)(x)=ax+b的表達(dá)式。散點(diǎn)圖??纱致詭椭覀兞私鈶?yīng)用什么形式的函數(shù)來估計(jì)(x).如果散點(diǎn)大致成一直線,就可用ax+b來估計(jì)(x)。下面詳細(xì)介紹之。二、一元線性回歸問題的數(shù)學(xué)描述及a,b的估計(jì)隨機(jī)變量y與普通變量x具有下面的關(guān)系其中x是可控(或可觀察)的非隨機(jī)變量,是隨機(jī)因素,是不可觀察的隨機(jī)變量,是許多不可控制或不了解的隨機(jī)因素的總和,且滿足這里a,b,2都是未知參數(shù),且都不依賴于x.常稱為自變量,或預(yù)報(bào)變量。固定的未知參數(shù)a,b稱為回歸系數(shù),預(yù)報(bào)y是可觀察的隨機(jī)變量,可以稱之為因變量或響應(yīng)變量,顯然有Ey=a+bx.一般地,稱由(1.1)(1.2)確定的模型為一元線性回歸模型,記為變量x也稱為回歸變量。三、任務(wù)是用樣本值(x1,y1),(x2,y2),...,(xn,yn)來估計(jì)a,b,2。若a,b的估計(jì)值為,則對于給定的x,a+bx的估計(jì)值為將其記為稱(1.4)為y對x的線性回歸方程,或回歸方程,回歸直線。因?yàn)橛蓸颖镜玫降慕詾殡S機(jī)變量,故我們實(shí)際上得到的是理論回歸方程Ey=a+bx的估計(jì)方程也稱為經(jīng)驗(yàn)回歸方程。四、a,b的最小二乘估計(jì)用最小二乘法來估計(jì)模型中的未知參數(shù)a,b.假設(shè)由n組對立觀察值(x1,y1),(x2,y2),...,(xn,yn),則由(1.3)有稱Q(a,b)為偏離真實(shí)直線的偏差平方和。最小二乘法就是選擇a,b的估計(jì)使得這里方程組(1.8)稱為正規(guī)方程組。由于xi不全相等,故(1.8)有唯一解于是,所求回歸方程為這表明,對于一組樣本觀察值(x1,y1),(x2,y2),...,(xn,yn),回歸直線通過散點(diǎn)圖得幾何中心用這種方法求出的估計(jì)稱為a,b的最小二乘估計(jì)(LeastSquaresEstimation),簡稱LS估計(jì)。為了便于計(jì)算,人們常用下列記號和等式的各種變形:于是例1為研究溫度對某個(gè)化學(xué)過程的生產(chǎn)量的影響,收集到如下數(shù)據(jù)(規(guī)范化形式):x-5-4-3-2-1012345y1547108913141318試求其回歸直線。解:這里n=11.容易算得所以所以回歸方程(擬合方程)為記為殘差,易知這說明殘差之和為零。但在實(shí)際計(jì)算中,殘差之和可能不為零,這是由于四舍五入造成的。五、a,b的最小二乘估計(jì)的性質(zhì)定理1

是a,b的無偏估計(jì)且由定理4立刻得即經(jīng)驗(yàn)回歸方程是回歸函數(shù)的無偏估計(jì)。由定理1可以看出,的波動大小不僅與觀察值y的方差有關(guān),而且還與預(yù)報(bào)變量x的取值的離散程度有關(guān)。如果x取值的離散程度較大,則的波動就較小,也就是估計(jì)比較精確;反之,若x在一個(gè)比較小的范圍內(nèi)取值,那么對a,b的估計(jì)就不會精確。x2,...,xn使得這時(shí)達(dá)到最小。(2)x1,x2,...,xn越分散越好,即Lxx越大越好。(3)試驗(yàn)次數(shù)n不能太小。因此,若x是可控的變量,則在安排試驗(yàn)時(shí)應(yīng)注意以下幾點(diǎn):(1)x1,x2,...,xn可取正負(fù)值時(shí),選擇x1,定理2

在模型(1.3)下,有所以是的無偏估計(jì)。六、的無偏估計(jì)稱為殘差平方和或剩余平方和。七、a,b的極大似然估計(jì)前面只是假設(shè)是隨機(jī)變量,且滿足如果要求服從正態(tài)分布,即則可以來求a,b的極大似然估計(jì)。對于每一對樣本值(xi,yi)有由于yi相互獨(dú)立,所以(y1,y2,...,yn)的聯(lián)合概率密度為。用極大似然估計(jì)法估計(jì)a,b,則只需上式右端指數(shù)的平方和最小即可,即只需取最小值。這就到了前面用最小二乘法的情形。因此得到a,b的估計(jì)也同前面完全一樣。注意:a,b都是有量綱的量,a的量綱與y相同,b的量綱為y/x.在模型(1.11)下,我們有下面的定理。定理3

八、回歸的顯著性檢驗(yàn)和回歸系數(shù)的置信區(qū)間定理4

當(dāng)回歸方程有截距時(shí)且~~有回歸方程顯著性的檢驗(yàn):檢驗(yàn)統(tǒng)計(jì)量為(1)~拒絕域?yàn)榧串?dāng)時(shí),認(rèn)為回歸效果其中顯著;否則回歸效果不顯著?;貧w系數(shù)顯著性的檢驗(yàn):檢驗(yàn)統(tǒng)計(jì)量為(2)~拒絕域?yàn)榧串?dāng)時(shí),認(rèn)為回歸系數(shù)影響顯著;否則回歸效果不顯著。例K.Pearson收集了大量父親身高和兒子身高的資料,其中十組數(shù)據(jù)如下:父親身高(英寸)60626465666768707274兒子身高(英寸)63.665.26665.566.967.167.468.370.170兒子身高對父親身高的回歸結(jié)果如下: ***LinearModel***Call:lm(formula=y~x,data=dum,weights=x,na.action=na.omit)Residuals:Min1QMedian3QMax-3.352-2.1460.20331.5495.397Coefficients:ValueStd.ErrortvaluePr(>|t|)(Intercept)36.87661.8554

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論