數(shù)據(jù)挖掘技術與應用-回歸分析預測模型課件_第1頁
數(shù)據(jù)挖掘技術與應用-回歸分析預測模型課件_第2頁
數(shù)據(jù)挖掘技術與應用-回歸分析預測模型課件_第3頁
數(shù)據(jù)挖掘技術與應用-回歸分析預測模型課件_第4頁
數(shù)據(jù)挖掘技術與應用-回歸分析預測模型課件_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 技術培訓-數(shù)據(jù)挖掘技術與應用回歸分析預測模型 技術培訓-1 回歸分析預測模型1.1 一元線性回歸預測模型 1.2 多元線性回歸預測模型 1.3 非線性回歸預測模型 1 回歸分析預測模型1.1 一元線性回歸預測模型 1.2 1.1 一元線性回歸預測模型一元回歸公式以影響預測的各因素作為自變量或解釋變量x和因變量或被解釋變量y有如下關系: 稱為一元線性回歸模型(One Variable Linear Regression Model),其中:u是一個隨機變量稱為隨機項;a, b是兩個常數(shù),稱為回歸系數(shù)(參數(shù));i表示變量的第i個觀察值,共有n組樣本觀察值。1.1 一元線性回歸預測模型一元回歸公式

2、1.1 一元線性回歸預測模型參數(shù)的最小二乘估計相應于yi的估計值,與yi之差稱為估計誤差或殘差,以表示,。顯然,誤差的大小是衡量估計量好壞的重要標志。我們以誤差平方和最小作為衡量總誤差最小的準則,并依據(jù)這一準則對參數(shù)a, b作出估計。令: 1.1 一元線性回歸預測模型參數(shù)的最小二乘估計1.1 一元線性回歸預測模型參數(shù)的最小二乘估計使Q達到最小以估計出的方法稱為最小二乘法(Method of Least-Squares)。由多元微分學可知,使Q達到最小的參數(shù)的的最小二乘估計量(Least-Squares Estimator of Regression Coefficient)必須滿足:(i=1,

3、 2, , n) 1.1 一元線性回歸預測模型參數(shù)的最小二乘估計(i=1, 1.1 一元線性回歸預測模型參數(shù)的最小二乘估計解上述方程組得1.1 一元線性回歸預測模型參數(shù)的最小二乘估計1.1 一元線性回歸預測模型參數(shù)的最小二乘估計解上述方程組得其中 1.1 一元線性回歸預測模型參數(shù)的最小二乘估計其中 1.1 一元線性回歸預測模型參數(shù)的最小二乘估計若令則上式可以寫成 1.1 一元線性回歸預測模型參數(shù)的最小二乘估計則上式可以寫1.1 一元線性回歸預測模型相關性檢驗 一般情況下,在一元線性回歸時,用相關性檢驗較好,相關系數(shù)R (Sample Correlation Coefficient)是描述變量x

4、與y之間線性關系密切程度的一個數(shù)量指標。 (1 R 1) 1.1 一元線性回歸預測模型相關性檢驗(1 R 11.1 一元線性回歸預測模型相關性檢驗查相關系數(shù)臨界值表,若R R(n2),則線性相關關系顯著,通過檢驗,可以進行預測;反之,沒有通過檢驗,該一元回歸方程不可以作為預測模型。1.1 一元線性回歸預測模型相關性檢驗1.1 一元線性回歸預測模型應用回歸方程進行預測1. 預測值的點估計當方程通過檢驗后,由已經(jīng)求出的回歸方程和給定的某一個解釋變量x0,可以求出此條件下的點預測值,輸入x0的值,則預測值為。1.1 一元線性回歸預測模型應用回歸方程進行預測1.1 一元線性回歸預測模型2. 區(qū)間估計為

5、估計預測風險和給出置信水平(Confidence Level),應繼續(xù)做區(qū)間估計(Interval Estimation),也就是在一定的顯著性水平下,求出置信區(qū)間(Confidence Region),即求出一個正實數(shù),使得實測值y0以的概率落在區(qū)間 內,滿足 P = 。1.1 一元線性回歸預測模型2. 區(qū)間估計。1.1 一元線性回歸預測模型2. 區(qū)間估計由于預測值和實際值都服從正態(tài)分布,從而預測誤差 也服從正態(tài)分布,從正態(tài)分布, 求出 后將得出結論:在的概率下,預測范圍為。1.1 一元線性回歸預測模型2. 區(qū)間估計求出 后將得出1.1 一元線性回歸預測模型一元線性回歸模型實例下表給出的是1

6、991-2002年某城市的水路貨運量,下面將根據(jù)此表數(shù)據(jù)建立一元線性回歸模型并對2002年以后的水路貨運量進行預測。1.1 一元線性回歸預測模型一元線性回歸模型實例1.1 一元線性回歸預測模型序號xi年份水路貨運量yi1199116592199219893199321954199422555199523296199623757199723648199823549199924181020002534112001256812200228351.1 一元線性回歸預測模型序號xi年份水路貨運量yi111.1 一元線性回歸預測模型計算 1.1 一元線性回歸預測模型計算 1.1 一元線性回歸預測模型分別計

7、算lxx,lyy,lxy1.1 一元線性回歸預測模型分別計算lxx,lyy,lxy1.1 一元線性回歸預測模型分別計算lxx,lyy,lxy1.1 一元線性回歸預測模型分別計算lxx,lyy,lxy1.1 一元線性回歸預測模型計算系數(shù)所以此預測模型為 =1836.657+74.822x 1.1 一元線性回歸預測模型計算系數(shù)所以此預測模型為 1.1 一元線性回歸預測模型1991-2002年某市水路貨運量一元回歸計算過程 序號xi年份水路貨運量yi119916.5-5.530.2516592323-664440896219926.5-4.520.2519892323-334111556319936

8、.5-3.512.2521952323-12816384419946.5-2.56.2522552323-684624519956.5-1.52.2523292323636619966.5-0.50.2523752323522704719976.50.50.2523642323411681819986.51.52.252354232331961919996.52.56.25241823239590251020006.53.512.2525342323211445211120016.54.520.2525682323245600251220026.55.530.25283523235122621

9、441.1 一元線性回歸預測模型1991-2002年某市水路貨1.1 一元線性回歸預測模型一元線性回歸方程的相關性檢驗 相關系數(shù) 因為相關系數(shù)R=0.9158,接近+1,屬于正相關,所以可以認為x和y之間存在顯著的線性關系。1.1 一元線性回歸預測模型一元線性回歸方程的相關性檢驗相1.1 一元線性回歸預測模型預測分析 根據(jù)上面所求的一元線性預測模型 y =1836.657+74.822x,如果要預測2004年貨運量的點估計值和區(qū)間估計值,將x=14帶入公式,得: Y2004 =1836.657+74.822x14=1836.657+74.82214=2884(四舍五入結果)Y2004 的95%

10、的估計區(qū)間:1.1 一元線性回歸預測模型預測分析根據(jù)上面所求的一元線性1.2 多元線性回歸預測模型對多元線性回歸模型(Multivariate Linear Regression Model)的基本假設是在對一元線性回歸模型的基本假設基礎之上,還要求所有自變量彼此線性無關,這樣隨機抽取n組樣本觀察值就可以進行參數(shù)估計。多元回歸公式 1.2 多元線性回歸預測模型對多元線性回歸模型(Multiv1.2 多元線性回歸預測模型參數(shù)的最小二乘估計 對應的樣本回歸模型為:利用最小二乘法求參數(shù)估計量設殘差平方和為Q則要達到最小。 (i=1,2,n)由偏微分知識可知:1.2 多元線性回歸預測模型參數(shù)的最小二乘

11、估計 對應的樣本回1.2 多元線性回歸預測模型由偏微分知識可知: 1.2 多元線性回歸預測模型由偏微分知識可知: 1.2 多元線性回歸預測模型 經(jīng)整理,寫成矩陣形式,得到其中, xT 為x 的轉置矩陣。1.2 多元線性回歸預測模型 經(jīng)整理,寫成矩陣形式,得到其中1.2 多元線性回歸預測模型多元線性回歸模型的檢驗 TSS: 表示觀察值yi與其平均值的總離差平方和。ESS: 表示由回歸方程中x的變化而引起的稱為回歸平方和。RSS:為TSS-ESS = 表示不能用回歸方程解釋的部分,是由其他未能控制的隨機干擾因素引起的殘差平方和。1.2 多元線性回歸預測模型多元線性回歸模型的檢驗 TSS:1.2 多

12、元線性回歸預測模型擬合優(yōu)度檢驗擬合優(yōu)度R2 (Goodness of Fit) :R2 = ESS/TSS(0R21)。 擬合優(yōu)度是衡量回歸平方和在總離差平方和中所占的比重大小。比重越大線性回歸效果越好,也就是R2越接近1,回歸直線與樣本觀察值擬合的越好。擬合優(yōu)度也稱為決定系數(shù)或相關系數(shù)。擬合優(yōu)度的修正值 m為自變量個數(shù),nm1為RSS的自由度, n1為TSS的自由度。,其中n為樣本總數(shù)1.2 多元線性回歸預測模型擬合優(yōu)度檢驗擬合優(yōu)度R2 (Go1.2 多元線性回歸預測模型F檢驗在多元線性回歸模型中,所得回歸方程的顯著性檢驗(F檢驗)是指回歸系數(shù)總體的回歸顯著性。F檢驗的步驟為:1)假設H0:

13、b1=b2=bk=0 ,備擇假設:H1:bj不全為零(j=1, 2, , k);2)計算構造統(tǒng)計量 (n為樣本總數(shù),k為自變量個數(shù));3)給定顯著性水平,確定臨界值F (k, nk1);4)把F與F(k, nk1)相比較,若FF(k, nk1) 則認為回歸方程有顯著意義,否則,判定回歸方程預測不顯著。1.2 多元線性回歸預測模型F檢驗在多元線性回歸模型中,所得1.2 多元線性回歸預測模型 t檢驗對引入回歸方程的自變量逐個的進行顯著性檢驗的過程,稱為回歸系數(shù)的顯著性檢驗(t-test or Student-Test),t檢驗的步驟為:1)假設H0:bi=0,備擇假設H1:bi0 (i=1, 2,

14、 , n);2)計算統(tǒng)計量|Ti|3)給定顯著性水平,確定臨界值 ;4)|Ti|與比較也就是統(tǒng)計量與臨界值比較。若|Ti| , 則認為回歸系數(shù) 與零有顯著差異,必須保留xi 在原回歸方程中;否則應去掉xi 重新建立回歸方程。1.2 多元線性回歸預測模型 t檢驗對引入回歸方程的自變量逐1.2 多元線性回歸預測模型1.預測值的點估計2. 區(qū)間估計 當方程通過檢驗后,由已經(jīng)求出的回歸方程和給定的解釋變量X0=(x01, x02, , x0k),可以求出此條件下的點預測值,輸入X0 的值,則預測值 。為估計預測風險和給出置信水平,應繼續(xù)做區(qū)間估計,也就是在一定的顯著性水平下,求出置信區(qū)間,即求出一個正

15、實數(shù),使得實測值y0以的概率落在區(qū)間 內,滿足P = ,其中 ,1.2 多元線性回歸預測模型1.預測值的點估計 當方程通過檢1.3 非線性回歸預測模型在許多實際問題中,不少經(jīng)濟變量之間的關系為非線性的,可以通過變量代換把本來應該用非線性回歸處理的問題近似轉化為線性回歸問題,再進行分析預測。下表列舉的是五種常見的非線性形式及線性變換的方式,這些非線性模型都可轉化為一元或多元線性模型,利用前面介紹過的一元和多元線性回歸模型的最小二乘法求出參數(shù)估計、模型的擬合優(yōu)度和顯著性檢驗及評價預測模型的預測精度等。1.3 非線性回歸預測模型1.3 非線性回歸預測模型五種常見的非線性模型及線性變換的方式 冪函數(shù)形式y(tǒng)= a xby=log(y)x=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論