第八章 曲線擬合、回歸與相關_第1頁
第八章 曲線擬合、回歸與相關_第2頁
第八章 曲線擬合、回歸與相關_第3頁
第八章 曲線擬合、回歸與相關_第4頁
第八章 曲線擬合、回歸與相關_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

曲線擬合、回歸和相關曲線擬合實踐中尋求兩個(或多個)變量間存在的關系,擬合給定數(shù)據(jù)用以確定變量間的近似曲線方程,此過程叫曲線擬合?;貧w曲線擬合的主要目的之一是從一個變量(獨立變量)估計另一個變量(相依變量),估計的過程常牽涉到回歸。如果按某個方程的意義從x估計y,我們稱該方程為y關于x的回歸方程。對應的曲線稱為y關于x的回歸曲線。最小二乘法若在近似n個數(shù)據(jù)點的集合時,對一給定的曲線族的全部曲線,其中有一條曲線的性質:達最小值,則稱該曲線為給定曲線族中的最佳擬合曲線。有這樣性質的一條曲線稱為在最小二乘意義上對數(shù)據(jù)的擬合,該曲線稱為最小二乘回歸曲線最小二乘直線數(shù)據(jù)點集(x1,y1),…,(xn,yn)最小二乘直線方程y=a+bx將所有點代入直線方程后相加,我們得到

y=an+bx(或)以及

xy=ax+bx2這兩個方程稱為最小二乘的正規(guī)方程。由上面的方程組我們可以達到a,b分別為:我們還可以得到:從上式我們可以看到最小二乘直線通過點,此點稱為此批數(shù)據(jù)的重心。顯然斜率b與坐標原點無關,所以我們可以通過適當?shù)淖鴺俗儞Q來減少求最小二乘直線的工作量。用樣本方差和協(xié)方差表示的最小二乘直線x和y的樣本方差和協(xié)方差給定為用這些項,y關于x或x關于y的最小二乘回歸直線分別寫成因為相關系數(shù)所以我們可以得到事實上,以上就是x,y的標準化樣本值。我們可以看到僅當r=1時,上面兩式才是表示同一直線,而且全部樣本點都處與這條直線上,因此存在完全線性的相關和回歸。最小二乘拋物線從最小二乘直線推廣到最小二乘拋物線:y=a+bx+cx2其中a,b,c由下列正規(guī)方程確定:

y=na+bx+cx2

xy=ax+bx2+cx3

x2y=ax2+bx3+cx4多元回歸上面的概念也可以推廣到更多變量。例如z=a+bx+cy那么確定a,b,c的方程組為

z=na+bx+cy

xz=ax+bx2+cxy

yz=ay+bxy+cy2估計的標準誤差Y關于x回歸曲線離散程度的一個度量這個量稱為y關于x的估計的標準誤差。由于,我們可以看到最小二乘曲線在全部可能的回歸曲線中有最小的估計的標準誤差。在最小二乘直線中對最小二乘直線也能用方差和相關系數(shù)表示正如存在一個總體方差的無偏估計一樣,有一個估計的理論標準誤差的平方的無偏估計,有線性相關系數(shù)為了考察相關系數(shù)的統(tǒng)計意義

我們也能顯示式子的左邊為總變差,右邊的第一項為不可解釋的變差(是隨機的或不可預見的方式引起的),第二項為可解釋變差(可以由最小二乘回歸線得到解釋),所以我們可以得到所以,相關系數(shù)可解釋稱總變差中可用最小二乘回歸直線解釋的部分。換句話說,r度量了最小二乘回歸直線擬合樣本數(shù)據(jù)是如何地好。如果r2=1,我們說有純線性相關。如果r=0,則總變差完全不可解釋。廣義相關系數(shù)廣義相關系數(shù)定義:我們使用此定義可獲得非線性相關系數(shù)。由于相關系數(shù)僅是度量一個給定的回歸曲線(曲面)是否較好地擬合了樣本數(shù)據(jù)。所以,當樣本是非線性的,如果我們得到線性相關系數(shù)很小,這并不表明僅有一點相關性,而是僅有一點線性相關。回歸的概率解釋從同一總體抽取不同的樣本作擬合,我們會得到不同的回歸曲線。給定兩個隨機變量X和Y的聯(lián)合密度函數(shù)和概率函數(shù)。如果使E{[Y-g(X)]2}=最小值的y=g(x)曲線稱為Y關于X的最小二乘回歸曲線有如下定理:定理一:y=g(x)=E(Y|X=x)滿足E{[Y-g(X)]2}=最小值,所以它是Y關于X的最小二乘曲線。定理二:如果X和Y是具有二元正態(tài)分布的隨機變量,那么Y關于X的最小二乘回歸曲線是一條回歸直線,為前面對樣本的最小二乘回歸的敘述容易推廣到總體上。例如,總體情況下的估計的標準誤差用方差和相關系數(shù)項給定為相關的概率解釋總體相關系數(shù)提供了給定的總體回歸曲線是否較好地擬合了總體數(shù)據(jù)地一種度量。前面關于樣本間相關的各種敘述均可以很好地用到總體上?;貧w的抽樣理論樣本回歸方程y=a+bx,而總體的回歸方程y=+x。下面是與正態(tài)分布有關的一些檢驗:1假設=c的檢驗為了檢驗假設:回歸系數(shù)等于某一特定值c,使用統(tǒng)計量它具有n-2自由度的t分布。此結論也可用于從樣本值求總體回歸系數(shù)的置信區(qū)間2預報值的假設檢驗設y0是x=x0時y的預報值,它是從樣本回歸方程得到的估計,即y0=a+bx0。設yp記對總體而言對應x=x0的y的預報值,那么統(tǒng)計量有n-2個自由度的t分布。由此能求得預報得總體值得置信限2預報的平均值的假設檢驗設y0是x=x0時y的預報值,它是從樣本回歸方程得到的估計,即y0=a+bx0。設記對總體而言對應x=x0的y的預報平均值,那么統(tǒng)計量有n-2個自由度的t分布。由此能求得預報的平均總體值的置信限相關的抽樣理論我們經(jīng)常要從樣本的相關系數(shù)r估計總體的相關系數(shù),或者檢驗有關的假設。為此我們必須知道r的抽樣分布。在=0的情況,這個對稱是對稱的,且有一個具有t分布的統(tǒng)計量可以利用。對0,這個分布是偏斜的,這種情況,F(xiàn)isher做出的變換構造了一個統(tǒng)計量,它近似正態(tài)分布。下面的檢驗概括了這一構造。1假設=0的檢驗使用下列事實:統(tǒng)計量有n-2個自由度的t分布。2假設=00的檢驗使用下列事實:統(tǒng)計量有近似正態(tài)分布,具有一下均值和標準差這一事實也能用于求相關系數(shù)的置信限。3相關系數(shù)間的差的顯著性從大小分別為n1和n2的樣本得到兩個相關系數(shù)r1和r2,確定它們間是否有顯著差異,利用2中的統(tǒng)計量對應r1和r2計算出Z1和Z2,然后使用下列事實:檢驗統(tǒng)計量是近似正態(tài)分布。相關和相依當兩個隨機變量X和Y有非零的相關系數(shù)時,我們知道它們在概率意義上是相依的(也就是聯(lián)合分布不能折成邊緣分布的乘積),進而當0時,能使定理二中的那樣方程預報對應X值的Y值。上述意義上的“相關”和“相依”并非必須

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論