第四章回歸分析_第1頁
第四章回歸分析_第2頁
第四章回歸分析_第3頁
第四章回歸分析_第4頁
第四章回歸分析_第5頁
已閱讀5頁,還剩83頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

4第四章回歸分析第四章相關(guān)與回歸分析4.1概述4.2一元線性回歸4.3一元非線性回歸4.4非線性回歸分析4.1概述4.1.1變量間相互關(guān)系4.1.2相關(guān)關(guān)系的種類4.1.3回歸分析的內(nèi)容4.1.1變量間相互關(guān)系1、函數(shù)關(guān)系定義:完全確定的數(shù)量關(guān)系。某一(組)變量與另一變量間存在著一一對應(yīng)的關(guān)系。例:計件工資(y)與產(chǎn)量(x)y=f(x)=10x;X0=1件,y0=10元;x1=2件,y1=20元原材料消耗總額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)和原材料價格(x3)y=x1*x2*x32、相關(guān)關(guān)系1、定義:不完全確定的關(guān)系。某一(組)變量與另一變量間有關(guān)系但并非一一對應(yīng)。例如:身高y與體重x:A:x=60kg、y=1.70m;B:x=60kg、y=1.70m;C:x=60kg、y=1.68m;D:x=60kg、y=1.65m;表述:y=f(x)+ε。影響身高的因素:體重、遺傳、鍛煉、睡眠質(zhì)量……這些變量間都存在著十分密切的關(guān)系,但不能由一個或幾個變量的值精確地求出另一個變量的值。統(tǒng)計學(xué)中把這些變量間的關(guān)系成為相關(guān)關(guān)系,把存在相關(guān)關(guān)系的變量稱為相關(guān)變量。相關(guān)變量間的關(guān)系一般分為兩種:一種是因果關(guān)系,即一個變量的變化受另一個或幾個變量的影響。另一種是平行關(guān)系,它們互為因果或共同受到另外因素的影響。統(tǒng)計學(xué)上采用回歸分析(regressionanalysis)研究呈因果關(guān)系的相關(guān)變量間的關(guān)系,表示原因的變量稱為自變量,表示結(jié)果的變量為因變量。研究“一因一果”,即一個自變量與一個因變量的回歸分析稱為一元回歸分析;研究“多因一果”,即多個自變量與一個因變量的回歸分析稱為多元回歸分析。一元回歸分析又分為線性回歸分析與非線性回歸分析兩種;多元回歸分析又分為多元線性回歸分析與多元非線性回歸分析兩種。統(tǒng)計學(xué)上采用相關(guān)分析(correlationanalysis)研究呈平行關(guān)系的相關(guān)變量之間的關(guān)系。對兩個變量間的直線關(guān)系進(jìn)行相關(guān)分析稱為簡單相關(guān)分析(也叫直線相關(guān)分析)。對多個變量進(jìn)行相關(guān)分析時,研究一個變量與多個變量間的線性相關(guān)稱為復(fù)相關(guān)分析;研究其余變量保持不變的情況下兩個變量間的線性相關(guān)稱為偏相關(guān)分析。變量之間的確定性關(guān)系與相關(guān)關(guān)系,在一定條件下是可以相互轉(zhuǎn)變的。本來具有函數(shù)關(guān)系的變量,當(dāng)存在試驗誤差時,其函數(shù)關(guān)系往往以相關(guān)的形式表現(xiàn)出來。相關(guān)關(guān)系雖然是不確定的,卻是一種統(tǒng)計關(guān)系,在大量的觀察下,往往會呈現(xiàn)出一定的規(guī)律性,這種規(guī)律性可以通過大量試驗值的散點圖反映出來,也可以借助相應(yīng)的函數(shù)式表達(dá)出來,這種函數(shù)被稱為回歸函數(shù)或回歸方程。4.1.2相關(guān)關(guān)系的種類1、按相關(guān)的程度分完全相關(guān):函數(shù)關(guān)系;不相關(guān):沒有關(guān)系;不完全相關(guān)。2、按相關(guān)的方向分正相關(guān):變量的變動方向一致(同增同減);負(fù)相關(guān):變量的變動方向相反(一增一減)。3、按相關(guān)的形式分1)線性相關(guān)2)非線性相關(guān)4、按影響因素的多少分1)單(簡)相關(guān):只有一個自變量;例:學(xué)習(xí)成績與學(xué)習(xí)時間;血壓與年齡;畝產(chǎn)量與施肥量。2)復(fù)(多元)相關(guān):兩個或兩個以上的自變量;例:經(jīng)濟增長與人口增長、科技水平、自然資源、管理水平等之間的關(guān)系;3)偏相關(guān):就多個變量測定其中兩個變量的相關(guān)程度而假定其他變量不變。4.1.3回歸分析的內(nèi)容回歸分析主要解決以下幾方面的問題:1、確定幾個特定變量之間是否存在相關(guān)關(guān)系,如果存在相關(guān)關(guān)系,確定它們之間合適的數(shù)學(xué)表達(dá)式,并對它可信度做統(tǒng)計檢驗。2、進(jìn)行因素分析,確定因素的主次以及因素之間的相互關(guān)系。(也即判斷變量是否有顯著影響)3、根據(jù)一個或幾個變量的值,預(yù)報或控制另一個變量的取值,并且要知道這種預(yù)報或控制的精確度等。4.2一元線性回歸分析—最簡單的線性回歸分析4.2.1一元線性回歸要解決的問題一元線性回歸就是尋求兩個變量間的線性統(tǒng)計及回歸分析。若其相關(guān)關(guān)系的統(tǒng)計規(guī)律性呈線性關(guān)系則稱為一元線性回歸分析。要解決的問題有:1、求變量x與y之間的回歸直線方程。2、判斷變量x與y之間是否確為線性關(guān)系。3、根據(jù)一個變量的值,預(yù)測或控制另一變量的取值。4.2.2一元線性回歸方程的建立假設(shè)從總體中抽取幾個單元組成樣本,樣本各單元在自變量X與因變量Y的觀察值(xi,yi)(i=1,2,…,n)。將這n對觀察值點繪在直角坐標(biāo)紙上,成一散點圖。從散點圖可以看出:兩個變量間有關(guān)或無關(guān);若有關(guān),兩個變量間關(guān)系類型,是直線型還是曲線型;兩個變量間直線關(guān)系的性質(zhì)(是正相關(guān)還是負(fù)相關(guān))和程度(是相關(guān)密切還是不密切);散點圖直觀地、定性地表示了兩個變量之間的關(guān)系。為了探討它們之間的規(guī)律性,還必須根據(jù)觀察值將其內(nèi)在關(guān)系定量的表達(dá)出來。如果呈因果關(guān)系的兩個相關(guān)變量y(因變量)與x(自變量)間的關(guān)系是直線關(guān)系,根據(jù)n對觀測值所描出的散點圖,如圖(b)和圖(e)所示。由于因變量y的實際觀察值總是帶有隨機誤差,因而因變量y的實際觀測值yi可用自變量x的實際觀測值xi表示為:(i=1,2,…,n)該式即為一元線性回歸的數(shù)學(xué)模型。用最接近散點圖中全部散點的直線來表示x與y的直線關(guān)系,這條直線稱為回歸直線。然后根據(jù)樣本資料估計a、b,從而得到直線回歸方程。a、b是α、β的估計值。根據(jù)樣本資料求得回歸方程的系數(shù),通常采用的方法是最小二乘法。例4-1為研究某合成物的轉(zhuǎn)化率T(%)與實驗中壓強p(atm,1atm=101.325kpa)的關(guān)系,得到如表4-1的試驗數(shù)據(jù)。試使用最小二乘法確定轉(zhuǎn)化率與壓強的經(jīng)驗公式。解:依題意,試驗次數(shù)n=5,T-p為一元線性關(guān)系,為了計算方便,將T-p關(guān)系表示為y=a+bx,其中x表示壓強p,y表示轉(zhuǎn)化率T。根據(jù)最小二乘原理,有根據(jù)上述正規(guī)方程組,必須先計算出等,這些值見表4-2。于是可以得到以下方程組:解得a=1.155,b=0.4573。因此T-p關(guān)系式為:T=1.155+0.457p??梢?,根據(jù)試驗數(shù)據(jù)建立回歸方程,可采用最小二乘法,基本步驟為:根據(jù)試驗數(shù)據(jù)畫出散點圖;確定經(jīng)驗公式的函數(shù)類型;通過最小二乘法得到正規(guī)方程組;求解正規(guī)方程組,得到回歸方程的表達(dá)式。4.2.3一元線性回歸效果的檢驗檢驗回歸方程的可靠性或可信性相關(guān)系數(shù)檢驗法、F檢驗及方差分析法、殘差分析法。4.2.3.1附錄7(P.224)4.2.3.24.2.4利用Excel求解回歸方程例4-1為研究某合成物的轉(zhuǎn)化率T(%)與實驗中壓強p(atm,1atm=101.325kpa)的關(guān)系,得到如表4-1的試驗數(shù)據(jù)。試使用最小二乘法確定轉(zhuǎn)化率與壓強的經(jīng)驗公式。操作步驟:1、輸入數(shù)據(jù)2、選擇工具菜單中的數(shù)據(jù)分析選項。3、選擇回歸選項后,確定,選擇相關(guān)的選項。4、點擊確定后,就可得出分析結(jié)果。這是回歸分析的第一部分結(jié)果,包括:相關(guān)系數(shù)決定系數(shù)調(diào)整后的決定系數(shù)回歸的標(biāo)準(zhǔn)誤差樣本數(shù)量第二部分方差分析:包括離差、殘差、總離差和它們的自由度以及由此計算出的F統(tǒng)計量和相應(yīng)的顯著水平。第三部分是回歸方程的截距和斜率的估計值以及它們的估計標(biāo)準(zhǔn)誤差、t統(tǒng)計量,雙邊尾概率值,估計值的上下界,根據(jù)這部分結(jié)果可知回歸方程為Y=1.155+0.4573X。4.2.5應(yīng)用直線回歸與相關(guān)的注意事項直線回歸分析與相關(guān)分析在各個領(lǐng)域中應(yīng)用非常廣泛,但實際應(yīng)用中卻容易被誤用或作出錯誤的解釋,為了正確應(yīng)用直線回歸分析和相關(guān)分析這一工具,必須注意以下幾點:1、變量間是否存在相關(guān)變量間是否存在直線相關(guān)以及在什么條件下會發(fā)生直線相關(guān),求出直線回歸方程是否有意義,都必須由相應(yīng)的專業(yè)知識來決定,并且還要用到實踐中去檢驗。如果不以一定的科學(xué)依據(jù)為前提,把風(fēng)馬牛不相及的資料隨意湊到一塊作直線回歸分析或相關(guān)分析,那將是根本性的錯誤。2、其余變量盡量保持一致由于自然界各種事物間是相互聯(lián)系和相互制約,一個變量的變化通常會受到許多其它變量的影響,因此,在研究兩個變量間關(guān)系時,要求其余變量應(yīng)盡量保持在同一水平,否則,回歸分析和相關(guān)分析可能會導(dǎo)致完全虛假的結(jié)果。例如研究人的身高和胸圍之間的關(guān)系,如果體重固定,身高越高的人,胸圍越小,但當(dāng)體重在變化時,其結(jié)果也就會變化。3、觀測值要盡可能的多在進(jìn)行直線回歸與相關(guān)分析時,兩個變量成對觀測值應(yīng)盡可能多一些,這樣可提高分析的精確性,一般至少有5對以上的觀察值,同時變量x的取值范圍要盡可能大一些,這樣才容易發(fā)現(xiàn)兩個變量間的變化關(guān)系。4、外推要謹(jǐn)慎直線回歸與相關(guān)分析一般是在一定取值區(qū)間內(nèi)對兩個變量間的關(guān)系進(jìn)行描述,超出這個區(qū)間,變量間關(guān)系類型可能會發(fā)生改變,所以回歸預(yù)測必須限制在自變量x的取值區(qū)間以內(nèi),外推要謹(jǐn)慎,否則會得出錯誤的結(jié)果。5、正確理解回歸或相關(guān)顯著與否的含義一個不顯著的相關(guān)系數(shù)并不意味著變量x和y之間沒有關(guān)系;而只有說明兩變量間沒有顯著的直線關(guān)系;一個顯著的相關(guān)系數(shù)或回歸系數(shù)并不意味著x和y的關(guān)系必定為直線,因為并不排除有能夠更好地描述它們關(guān)系的非線性方程的存在。4.3多元線性回歸分析4.3.1多元線性回歸方程在解決實際問題時,往往是多個因素都對試驗結(jié)果有影響,這時可以通過多元回歸分析(Multipleregressionanalysis)求出近似函數(shù)關(guān)系y=f(x1,x2,…,xm)。多元線性回歸分析(Multiplelinearregressionanalysis)是多元回歸分析中最簡單、最常用的一種,其基本原理和方法與一元線性回歸分析是相同的,但計算量比較大。4.3多元線性回歸分析4.3.4利用Excel求解多元線性回歸方程例4-2:在麥芽酶試驗中,發(fā)現(xiàn)吸氨量與底水及吸氨時間都有關(guān)系。請根據(jù)下列數(shù)據(jù),找出它們之間的關(guān)系(水溫17±1℃)結(jié)果:根據(jù)多元線性回歸得出二元回歸方程為:y=95.711-0.692x1+0.022x2決定系數(shù)為R2=0.8919,修正后的決定系數(shù)為0.8648.并進(jìn)行了F檢驗,F(xiàn)尾概率<0.01,因此吸氨量與底水及吸氨時間之間的線性關(guān)系非常顯著。例4-3:某化合物的合成試驗中,為了提高產(chǎn)量,選取原料配比x1,溶劑量x2和反應(yīng)時間x3三個因素,試驗結(jié)果如下表所示。試用線性回歸模型來擬合試驗數(shù)據(jù)。根據(jù)多元線性回歸得出三元回歸方程為:y=0.197+0.0455x1-0.00377x2+0.0715x2決定系數(shù)為R2=0.7148,修正后的決定系數(shù)為0.4296.并進(jìn)行了F檢驗,F(xiàn)尾概率>0.05,因此為產(chǎn)品收率和三個因素之間沒有顯著的線性關(guān)系,建立的回歸方程不可信,應(yīng)改變y與xj之間的數(shù)學(xué)模型。4.4非線性回歸分析在許多實際問題中,變量之間的關(guān)系并不是線性的,這時就應(yīng)該考慮采用非線性回歸模型(no-linearregression).4.4.1一元非線性回歸分析

在這類問題研究中,通常是首先做出樣本的散點圖,根據(jù)散點圖的形狀,選擇一類比較合適的函數(shù)關(guān)系,再作適當(dāng)?shù)臄?shù)學(xué)變換,將其轉(zhuǎn)化為一元線性關(guān)系進(jìn)行分析,但是,根據(jù)散點圖選擇比較合適的函數(shù)關(guān)系有時是比較困難的,通常還要結(jié)合專業(yè)知識來確定,在缺乏專業(yè)知識時,可以根據(jù)觀測點分布的形狀與已知函數(shù)的圖形進(jìn)行比較來確定。簡單介紹實際問題中常用的幾種非線性函數(shù)的特點:①如果y隨著x的增加而增加(或減?。畛踉黾樱ɑ驕p?。┖芸?,以后逐漸放慢并趨于穩(wěn)定,則可選用雙曲線函數(shù)來擬合;②對數(shù)函數(shù)的特點是,隨著x的增大,x的單位變動對因變量y的影響效果不斷遞減;③指數(shù)函數(shù)的特點是,隨著x的增大(或減?。?,因變量y逐漸趨向某一個值;④S形曲線函數(shù)具體特點:y是x的非減函數(shù),開始時隨著x的增加,y的增長速度也逐漸加快,但當(dāng)y達(dá)到一定水平時,其增長速度又逐漸放慢后,最后無論x如何增加,y只會趨近于c,并且永遠(yuǎn)不會超過c。曲線直線化估計的步驟1)繪制散點圖,根據(jù)圖形和專業(yè)知識選取曲線類型(可同時選取幾類);2)按曲線類型,作曲線直線化變換;3)建立變換數(shù)據(jù)間的直線回歸方程(假設(shè)檢驗,計算決定系數(shù))4)比較決定系數(shù)選取“最佳”方程;5)寫出曲線方程4.4.2

多元非線性回歸對于多元非線性回歸問題,一般情況下都可以采用適當(dāng)?shù)臄?shù)學(xué)變換轉(zhuǎn)化為多元線性回歸問題來解決。如果不能轉(zhuǎn)化為線性回歸問題,就需要用最小二乘法進(jìn)行解決。4.4.3利用Excel求解非線性回歸方程例4-4:氣體的流量與壓力之間的關(guān)系一般由經(jīng)驗公式M=cpb表示,式中M是壓強為p時每分鐘流過流量計的空氣摩爾數(shù);c,b為常數(shù)。進(jìn)行一批試驗,得到如下表所示的一組數(shù)據(jù)。試由這組數(shù)據(jù)定出常數(shù)c,b,建立M和p之間的經(jīng)驗關(guān)系式,并檢驗其顯著性。(α=0.05)1、畫散點圖2、添加趨勢線結(jié)果:氣體流量M與壓強p之間的經(jīng)驗公式為,決定系數(shù)為0.999.例4-5:設(shè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論