![數(shù)學地質(zhì)第三章 回歸分析_第1頁](http://file4.renrendoc.com/view10/M02/3B/3D/wKhkGWWgkUmATsRiAACT_276Aho815.jpg)
![數(shù)學地質(zhì)第三章 回歸分析_第2頁](http://file4.renrendoc.com/view10/M02/3B/3D/wKhkGWWgkUmATsRiAACT_276Aho8152.jpg)
![數(shù)學地質(zhì)第三章 回歸分析_第3頁](http://file4.renrendoc.com/view10/M02/3B/3D/wKhkGWWgkUmATsRiAACT_276Aho8153.jpg)
![數(shù)學地質(zhì)第三章 回歸分析_第4頁](http://file4.renrendoc.com/view10/M02/3B/3D/wKhkGWWgkUmATsRiAACT_276Aho8154.jpg)
![數(shù)學地質(zhì)第三章 回歸分析_第5頁](http://file4.renrendoc.com/view10/M02/3B/3D/wKhkGWWgkUmATsRiAACT_276Aho8155.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第三章回歸分析楊永國
中國礦業(yè)大學
資源與地球科學學院自然界中的事物是相互聯(lián)系的,因此反映事物的量之間存在著一定的關系。這些關系一般可分為兩類:一類是完全確定的函數(shù)關系(圖3-1);另一類是無法用數(shù)學表達式精確確定的相關關系(圖3-2)。相關分析和回歸分析相關分析和回歸分析是研究隨機變量間相關關系的一種數(shù)學方法。前者,主要是研究隨機變量之間有無相關關系及其相關程度;后者,則注重研究兩個變量之間相關關系的表達形式。兩者在計算方法上是十分近似的,所以一般不加區(qū)分,統(tǒng)稱為回歸分析。回歸分析是數(shù)理統(tǒng)計的一個重要分支,在生產(chǎn)和科研中有著廣泛的應用。例如,求經(jīng)驗公式、確定最佳生產(chǎn)條件、進行預測等。
回歸分析簡介回歸分析的主要內(nèi)容有以下五點:1、從一組數(shù)據(jù)出發(fā),確定這些變量間的定量關系;2、對定量關系式的可信程度進行統(tǒng)計檢驗;3、要從影響某一個量的許多變量中,判斷哪些變量的影響是顯著的,哪些是不顯著的;4、利用所求得的關系式進行預報和控制;5、近代又出現(xiàn)試驗設計等內(nèi)容。本章主要內(nèi)容:第一節(jié)一元線性回歸分析第二節(jié)多元線性回歸分析
第三節(jié)逐步回歸分析第一節(jié)一元線性回歸分析一、一元線性回歸的數(shù)學模型二、參數(shù)a,b的最小二乘估計三、回歸方程的具體計算步驟四、回歸方程的顯著性經(jīng)驗五、利用回歸方程進行預六、一元線性回歸分析小結(jié)一、一元線性回歸的數(shù)學模型
一元線性回歸分析,主要是處理兩個變量x、y之間的關系。兩個變量之間的關系有線性和非線性兩種情況,這里主要討論線性關系及可化為線性關系的非線性情況。一、一元線性回歸的數(shù)學模型線性關系數(shù)學模型,如
y=a+bx(a,b為常數(shù))(3-1)非線性的情況,如指數(shù)函數(shù)(α,β為常數(shù))(3-2)冪函數(shù)形式(3-3)一、一元線性回歸的數(shù)學模型將式(3-2)及式(3-3)兩邊取對數(shù),則分別為
Lny=lnα+βx
(3-4)及l(fā)ny=lnα+βlnx
(3-5)如果在式(3-4)中令Y=lny,則Y與x即成線性關系;如果在式(3-5)中令Y=lny,X=lnx,則Y與X就成線性關系。此外,還有一些函數(shù),只要經(jīng)過簡單變換,也可變?yōu)榫€性關系。這些統(tǒng)稱為可化為線性關系的情況,只要線性情況得到解決,可化為線性的情況也就不難解決。二、參數(shù)a,b的最小二乘估計二、參數(shù)a,b的最小二乘估計二、參數(shù)a,b的最小二乘估計由圖3-3可知,灰分含量和容重之間大致成一直線關系,可用y=a+bx來表示,其中a,b稱為參數(shù)。在此方程中,任給一組a,b,在平面上就可得到一條直線。當a,b取各種可能值時,在平面上就有許許多多的直線。究竟哪一條直線最接近于表達這一組數(shù)據(jù)所反映的兩變量的相關關系呢?就需要對參數(shù)a,b進行最佳估計。采用最小二乘法確定回歸方程的系數(shù)。二、參數(shù)a,b的最小二乘估計設一元線性回歸方程為(3-6)
a,b又稱回歸方程的回歸系數(shù)。對于每一個,都可有式(3-6)確定一個回歸值。這個回歸值與現(xiàn)實觀測值之差-,刻劃了與回歸直線的偏離程度。對于所有的,若與的偏離越小,則認為直線和所有的試驗點擬和得越好。顯然,全部觀測值與回歸值的離差平方和(3-7)刻劃了全部觀測值與回歸直線的偏離程度。二、參數(shù)a,b的最小二乘估計
最小二乘法,即是使Q(a,b)=最小的一種確定a和b的方法。因此,用最小二乘法配出的直線與點(xi,yi)(i=1,2,……,n)的偏離是一切直線中最小的。由于Q(a,b)為a和b的二元二次函數(shù),是非負的,所以它的最小值總是存在。根據(jù)微積分學中求極值原理,只要將Q分別對a、b求偏導數(shù),然后令Q’(a,b)=0,得到正規(guī)方程,要求估計值a和b是下列方程組的解:
(3-8)二、參數(shù)a,b的最小二乘估計即(3-9)令
則式(3-9)可化為(3-10)二、參數(shù)a,b的最小二乘估計由式(3-10)中第一個方程得(3-11)代入式(3-10)中第二個方程,解得(3-12)將b代入式(3-11)中,得(3-13)求出a,b后,即可寫出x與y之間的回歸方程式,為二、參數(shù)a,b的最小二乘估計(3-14)假如把其代入式(3-6)中,可得到回歸方程的另一種形式(3-15)由此可見,回歸直線式(3-6)是通過(,),即質(zhì)點組()的重心。這是回歸直線必須具備的特性。三、回歸方程的具體計算步驟當收集一組實測數(shù)據(jù)之后,應確定因變量和自變量,并根據(jù)實測數(shù)據(jù)作出它們的散點圖,從散點圖上大致確定回歸分析的數(shù)學模型,然后就可著手建立其回歸方程。三、回歸方程的具體計算步驟回歸方程具體計算步驟如下:(1)根據(jù)給定數(shù)據(jù)(xi,yi
)(i=1,2,……,n),列表計算。求出,及,和的值.(2)計算a、b的值,即
于是,得到回歸直線方程。通常第二步計算也可以列表進行四、回歸方程的顯著性經(jīng)驗建立回歸方程時,假定了兩個變量x、y之間是線性關系。從數(shù)據(jù)作出的散點圖來看,這些點的分布接近一條直線,因此把它看成是線性關系來處理。如果兩個變量之間的關系不是線性關系,也可按最小二乘法給它們配上一個線性函數(shù),但其結(jié)果與實際情況不符,所得出的回歸方程沒有實用價值,毫無意義。四、回歸方程的顯著性經(jīng)驗觀測值之間的差異,是由兩個因素引起的:即自變量x取值的不同;其它因素(包括試驗誤差)的影響。為了檢驗兩因素中哪一個是主要影響因素,首先就必須把它們所引起的差異從的差異中分解出來四、回歸方程的顯著性經(jīng)驗
n個觀測值之間的差異,可用觀測值與其算術平均值的離差平方和來表示,稱為總的離差平方和,記為(3-18)四、回歸方程的顯著性經(jīng)驗總離差平方和的分解式或?qū)懗桑?-20)其中(3-21)
(3-22)四、回歸方程的顯著性經(jīng)驗稱為回歸平方和,它是回歸值與平均值之差的平方和,它反映了由于x和y之間存在線性相關關系,自由變量x的變化而起的y的變動大小。因此,的大小(在與誤差相比意義之下),反映了自變量x對y的影響程度。成為剩余平方和,它是由試驗誤差及其它未加控制的因素引起的,反映了各離散點偏離回歸直線的距離。的大小,反映了試驗誤差及其它因素對試驗結(jié)果的影響。通過離差平方和分解式(3-20),就能把對n個觀測值的兩種影響從數(shù)量上基本區(qū)別開來。四、回歸方程的顯著性經(jīng)驗如果變量y與x之間無線性關系,即方程y=a+bx中一次項系數(shù)b=0;反之,b≠0。所以,要檢驗兩個變量之間是否有線性關系,歸根結(jié)底就是檢驗b是否為零。解決這一問題可通過比較S回與S剩來實現(xiàn)。下面介紹回歸方程顯著性檢驗方法。四、回歸方程的顯著性經(jīng)驗
1.F一檢驗法由于可分解為和兩部分,且、、都是變量,其自由度分別為,,。通過分解定理可以證明,在假設:“b=0”,即y與x沒有線性關系的條件下,統(tǒng)計量(3-24)服從自由度為1和n-2的F-分布。四、回歸方程的顯著性經(jīng)驗因此,可先由觀測值算出統(tǒng)計量F值,在給定顯著水平α下,應有這表明事件“”是小概率事件,它在一次試驗中不應發(fā)生。所以如果算得的F值大于,則說明原假設“b=0”不成立,y與x存在著線性關系,此時稱回歸方程是顯著的;如果,則接受原假設,既認為y與x沒有線性關系,此時稱回歸方程是不顯著的。這種用F檢驗回歸方程顯著性的方法,稱為方差分析。四、回歸方程的顯著性經(jīng)驗2、相關系數(shù)檢驗法相關系數(shù)是描述兩個隨機變量相關關系的數(shù)字特征。設隨機變量ξ與η的方差分別為和,協(xié)方差為,則稱與之比值為ξ與η的相關系數(shù),記為(3-25)這是理論相關系數(shù),且|ρ|≤1。當|ρ|越大時,ξ與η的相關關系越強;當|ρ|=1時,則ξ與η線性相關,而當|ρ|=0時,則ξ與η線性無關。四、回歸方程的顯著性經(jīng)驗用表示的比值/,即(3-26) 的大小能反映變量x與y之間的線性關系的密切程度,故稱(3-27)為樣本的相關系數(shù),或經(jīng)驗相關系數(shù)。通常,用r表示y與x之間線性關系是否密切的統(tǒng)計量。五、利用回歸方程進行預測若回歸方程是擬和好的,則利用它來進行預測。對任一給定的,由回歸方程可得回歸值為
是處觀測值的一個估計值,為
五、利用回歸方程進行預測因此,用回歸方程來預測y值,有一個精度問題。所謂預測,就是用回歸方程根據(jù)變量x的取值來預測或控制y的取值,并給出一定的精度。用統(tǒng)計學的語言來說,相當于一個區(qū)間估計問題,也就是在一定的顯著水平α下,尋找一個正數(shù),使得實際觀測值y0以1-α的概率落在區(qū)間(,)內(nèi),即或五、利用回歸方程進行預測因此只要知道剩余方差(),就可根據(jù)正態(tài)分布的性質(zhì),即“三σ規(guī)則”確定的置信區(qū)間為的置信概率為68.3%
的置信概率為95.4%
的置信概率為99.7%五、利用回歸方程進行預測一般當取值在附近,n又比較大時,可用樣本的剩余方差來估計理論剩余方差。可以證明,剩余方差和()與其自由度()之比,就是剩余方差()的無偏估計。即(3-30)剩余標準差為(3-31)在實際應用時,都是利用計算,在根據(jù)“三σ規(guī)則”來近似地預測。六、一元線性回歸分析小結(jié)
主要計算公式有六、一元線性回歸分析小結(jié)
六、一元線性回歸分析小結(jié)
第二節(jié)多元線性回歸分析在地質(zhì)學中,同某一變量y有關的變量不是一個,而是多個,如有p個:。研究變量y與變量之間的相關關系的問題,稱為多元回歸問題。其中,簡單而又一般的是多元線性回歸。多元回歸分析在地質(zhì)學中用的較多,其基本原理與一元線性回歸分析相同,只是在計算方面要復雜的多。本節(jié)主要內(nèi)容:一、線性回歸的數(shù)學模型二、參數(shù)的最小二乘估計三、回歸方程的顯著性檢驗四、用回歸方程進行預測五、實例一、線性回歸的數(shù)學模型
一、線性回歸的數(shù)學模型
如果令一、線性回歸的數(shù)學模型
那么,多元線性回歸的數(shù)學模型式(3-32)可寫成矩陣形式,即(3-34)其中,ε是n維隨機變量向量,它的分量是相互獨立的。二、參數(shù)的最小二乘估計研究p個自變量及因變量y之間的關系,可根據(jù)一批實際觀測數(shù)據(jù):及(其中,i=1,2,……,n;n>p+1),配合一個面(當p=2時為平面;當p≥3時為超平面)(3-35)并尋求參數(shù)存在的那個最佳值,是所配的面(或超平面)最能反映y與之間的實際關系。二、參數(shù)的最小二乘估計設分別為參數(shù)的最小二乘估計值,則回歸方程為(3-36)式中,為常數(shù)項;稱為y對的偏回歸系數(shù)。它表示當其它自變量固定時,自變量的變化對y值的影響程度。二、參數(shù)的最小二乘估計由最小二乘法知道,應使得全部觀測值與回歸值的離差平方和Q達到最小,即二、參數(shù)的最小二乘估計如果是給定的數(shù)據(jù),則Q是的非負二次函數(shù),最小值一定存在。為此,將Q對分別求偏導數(shù),并令這些偏導數(shù)等于零,可得下列p+1個方程:二、參數(shù)的最小二乘估計解方程組就得到p+1個參數(shù)的最小二乘估計值,于是得出多元回歸方程,為它是所有平面中與實測數(shù)據(jù)偏離最小的平面,該平面稱為回歸平面(或回歸超平面)。
三、回歸方程的顯著性檢驗F檢驗法三、回歸方程的顯著性檢驗復相關系數(shù)檢驗法:令:R為復相關系數(shù),R越接近1,線性關系越顯著,四、用回歸方程進行預測它與一元線性回歸的情況類似,當n比較大,且x0j在平均值附近時,可以近似認為
~
知道了剩余標準差,便可用下列式子進行預測這里的可由剩余平方和來估計,即五、實例例3.2由于碳、氫、氧是煤燃燒過程中產(chǎn)生熱量的主要元素,今從某地煤(褐煤、長焰煤、肥煤、焦煤和無煙煤)中取12塊煤樣,經(jīng)分析化驗后,其發(fā)熱量(焦耳/克)與、、)元素的數(shù)據(jù)如表3-8前四列所示,試建立回歸方程,并檢驗其有無使用價值。例3.2計算過程第三節(jié)逐步回歸分析逐步(線性)回歸分析是在多元線性回歸分析基礎上衍生出來的一種技巧性算法。這種算法的優(yōu)點是從數(shù)量較多的變量中,能夠自動篩選出最重要的變量,引入回歸方程,從而避免了多元線性回歸分析中,要逐個對所有變最進行顯著性校驗,以及再重新建立回歸方程的煩瑣步驟?;舅枷耄褐鸩交貧w分析的要點是在計算過程中,根據(jù)自變量xi(i=1,2,…,p)對因變量y的重要性,依次引進到方程中,同時還要對已引進的變量逐個檢驗通過檢驗保留有用的變量,剔除無用的變量。如此辦理,邊引進邊剔除,直到既不能引進也不能剔除為止。主要內(nèi)容:一、逐步回歸分析的數(shù)學模型二、選入和剔除變量的原則三、逐步回歸分析的具體計算步驟四、實例一、逐步回歸分析的數(shù)學模型逐步回歸分析的數(shù)學模型與多元回歸分析的數(shù)學模型是一樣的,即(i=1,2,…,n)其回歸方程為:為了適應電子計算機的計算需要,逐步回歸分析的數(shù)學模型在形式上略有變化,這些變化主要是對變量重新編號和數(shù)據(jù)的“標準化”變換。一、逐步回歸分析的數(shù)學模型將給定的一組原始數(shù)據(jù)進行標準化變換:一、逐步回歸分析的數(shù)學模型其中:對于標準化后的數(shù)據(jù),其平均值為0,標準差為1一、逐步回歸分析的數(shù)學模型對于新的標準化數(shù)據(jù),回歸方程為:可得正規(guī)方程組:一、逐步回歸分析的數(shù)學模型經(jīng)過一定的變換,求得標準化正規(guī)方程組:解方程組,求得標準回歸系數(shù)。由于消除了各變量不同取值標準的影響,在各變量間相關性較弱的條件下,標準回歸系數(shù)的絕對值大小,能夠反映該自變量對y的影響大小。一般說來,標準回歸系數(shù)愈大,自變量對y的影響亦愈大二、選入和剔除變量的原則1)確定選入標準F1和剔除標準F22)從一個回方程中增加一個新變量,則回歸平方和增加,用Pi表示新回平方和與原來平方和的差值
F=(n-k’-1)pi/S新偏>F1,則新變量對因變量意義重大,應該引入
F==(n-k’-1)pi/S新偏<F2,則新變量應該剔除3)變量的剔除要逐個進行,每次都要重新計算,直到無法剔除為止4)變量的引入也要逐個進行,并且在剔除完成以后進行5)引入新
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年供水設施建設協(xié)議書
- 2025年緊急出口門采購合同
- 2025年午休時段兒童看護服務協(xié)議
- 兒童領養(yǎng)程序指導協(xié)議
- 2025年產(chǎn)品市場分隔協(xié)議范本
- 2025年防水建材項目立項申請報告模板
- 2025年公共場所消防設施供應及維護合同
- 2025年同心同行策劃合作框架協(xié)議
- 2025年醫(yī)療用品分銷合作伙伴協(xié)議范例
- 2025年共同策劃長遠發(fā)展協(xié)同計劃協(xié)議書標準樣式
- 一年級語文教材解讀分析ppt
- 萬人計劃藍色簡約萬人計劃青年拔尖人才答辯PPT模板
- 統(tǒng)編高中《思想政治》教材編寫理念和內(nèi)容介紹
- 高質(zhì)量SCI論文入門必備從選題到發(fā)表全套課件
- 民政局離婚協(xié)議書模板(8篇)
- 2022年普通高等學校招生全國統(tǒng)一考試數(shù)學試卷 新高考Ⅰ卷(含解析)
- (完整版)中心醫(yī)院心血管學科的??平ㄔO與發(fā)展規(guī)劃
- 勞動合同法草案的立法背景與創(chuàng)新黎建飛中國人民大學法學院教授
- 第三章 檢測儀表與傳感器
- 服裝QC尾期查貨報告(中英雙語)
- 電機學辜承林(第三版)第1章
評論
0/150
提交評論