數(shù)據(jù)處理與建模流程_第1頁(yè)
數(shù)據(jù)處理與建模流程_第2頁(yè)
數(shù)據(jù)處理與建模流程_第3頁(yè)
數(shù)據(jù)處理與建模流程_第4頁(yè)
數(shù)據(jù)處理與建模流程_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)處理與建模流程:1 數(shù)據(jù)處理1.1 替換缺失值:數(shù)據(jù)完整沒(méi)有缺失值的情況基本不存在,我們的數(shù)據(jù)中,0點(diǎn)-5點(diǎn)的航班為0的情況很多,所以數(shù)據(jù)缺失比較嚴(yán)重。時(shí)間序列分析要求時(shí)間周期完整,如果將缺失的數(shù)據(jù)只簡(jiǎn)單地用其他所有數(shù)據(jù)的缺失值填充,誤差較大。經(jīng)過(guò)反復(fù)嘗試,發(fā)現(xiàn)用臨近兩點(diǎn)均值填充,結(jié)果最為理想。2 時(shí)間序列的預(yù)處理2.1 時(shí)間序列平穩(wěn)化首先繪制替換缺失值之后的原始數(shù)據(jù)的自相關(guān)圖與偏自相關(guān)圖。如下圖所示:可以看到自相關(guān)圖并沒(méi)有收斂到置信區(qū)間之內(nèi),趨近0以后又增長(zhǎng),且所有值均在置信區(qū)間之外。故序列不平穩(wěn)。為了進(jìn)行時(shí)間序列平穩(wěn)化,首先進(jìn)行差分,即前值減后值,消除前后數(shù)據(jù)的依賴性。再次制作自相關(guān)圖

2、,勾選一次差分。結(jié)果如圖所示:如圖所示偏ACF圖仍然所有值均在置信區(qū)間之外。序列仍不平穩(wěn)。勾選季節(jié)性差分再次制作自相關(guān)圖,后一個(gè)周期相同位置的值減去前一個(gè)周期相同位置的值稱為季節(jié)性差分。結(jié)果如圖所示: 從圖中可知ACF為截尾,PACF為拖尾。序列已穩(wěn)定。故將原始序列先進(jìn)行差分,后進(jìn)行季節(jié)性差分。2.2 平穩(wěn)序列的檢驗(yàn)為了考察單個(gè)序列是否的確已經(jīng)轉(zhuǎn)換為平穩(wěn)的隨機(jī)序列,制作自相關(guān)圖(ACF)與偏相關(guān)圖(PACF)。此次將延遲拉大,觀察相關(guān)圖是否具有周期性: 圖中所示,ACF在1階之后驟減,為截尾。進(jìn)一步觀察,發(fā)現(xiàn)其具有周期性,在q+Sq后仍然驟減。PACF拖尾。根據(jù)下圖,符合MA(q),Seas.

3、MA(Q)模型。(ACF與PACF怎么看:第一列數(shù)為lag值,第二列為相關(guān)系數(shù)的估計(jì)值,第三列為標(biāo)準(zhǔn)誤差,其余為Box-Ljung檢驗(yàn)結(jié)果。如果相關(guān)系數(shù)是突然收斂到置信區(qū)間之內(nèi),95%的值在置信區(qū)間之內(nèi),為截尾。如果相關(guān)系數(shù)像一條常常的尾巴,95%的值在置信區(qū)間之外,為拖尾。故,自相關(guān)圖為截尾,偏相關(guān)圖為拖尾。符合MA模型)3 指數(shù)平滑與ARIMA的比較指數(shù)平滑:用序列過(guò)去值的加權(quán)均數(shù)來(lái)預(yù)測(cè)將來(lái)的值,并給序列中近期的數(shù)據(jù)以較大的權(quán)重,遠(yuǎn)期的數(shù)據(jù)以較小的權(quán)重。理由是隨著時(shí)間的流逝,過(guò)去值的影響逐漸減小。基本公式: Ft是t時(shí)刻的預(yù)測(cè)值,Y是t時(shí)刻的實(shí)際值。指數(shù)平滑沿襲了修正的思想,T+1時(shí)刻的預(yù)

4、測(cè)值是T時(shí)刻的實(shí)際觀測(cè)值對(duì)T時(shí)刻的預(yù)測(cè)值加以修正后得到的。展開式:實(shí)際觀測(cè)值對(duì)預(yù)測(cè)值的影響隨著時(shí)間距離的增大而呈指數(shù)級(jí)數(shù)衰減,這就是指數(shù)平滑的由來(lái)。根據(jù)指數(shù)平滑法的公式可以知道:指數(shù)平滑法適合于影響隨時(shí)間的消失呈下降的數(shù)據(jù)。ARIMA模型:AR(p)模型(Auto regression Model)自回歸模型p階自回歸模型:這里的d是對(duì)原時(shí)序進(jìn)行逐期差分的階數(shù),差分的目的是為了讓某些非平穩(wěn)(具有一定趨勢(shì)的)序列變換為平穩(wěn)的,通常來(lái)說(shuō)d的取值一般為0,1,2。對(duì)于具有趨勢(shì)性非平穩(wěn)時(shí)序,不能直接建立ARMA模型,只能對(duì)經(jīng)過(guò)平穩(wěn)化處理,而后對(duì)新的平穩(wěn)時(shí)序建立ARMA(p,q)模型。這里的平穩(wěn)化處理可

5、以是差分處理,也可以是對(duì)數(shù)變換,也可以是兩者相結(jié)合,先對(duì)數(shù)變換再進(jìn)行差分處理。 自回歸積分滑動(dòng)平均模型對(duì)于具有季節(jié)性的非平穩(wěn)時(shí)序(如冰箱的銷售量,羽絨服的銷售量),也同樣需要進(jìn)行季節(jié)差分,從而得到平穩(wěn)時(shí)序。這里的D即為進(jìn)行季節(jié)差分的階數(shù);PQ分別是季節(jié)性自回歸階數(shù)和季節(jié)性移動(dòng)平均階數(shù);S為季節(jié)周期的長(zhǎng)度。確定pqd,PQD主要根據(jù)自相關(guān)圖與偏自相關(guān)圖。4. 建模首先了解一下各個(gè)參數(shù)的意義:R方、平穩(wěn)的R方:R方是使用原始序列計(jì)算出的模型決定系數(shù),只能在序列平穩(wěn)時(shí)使用。平穩(wěn)的R方則是用模型的平穩(wěn)部分計(jì)算出的決定系數(shù),當(dāng)序列具有趨勢(shì)或季節(jié)波動(dòng)時(shí),該指標(biāo)優(yōu)于普通R房。兩者取值均為小于等于1的任意數(shù),

6、負(fù)值表示該模型預(yù)測(cè)效果比只用均數(shù)預(yù)測(cè)還差。RMSE:均方誤差的平方根,表示模型預(yù)測(cè)因變量的精度,其值越小,精度越高。MAE:平均絕對(duì)誤差;MaxAE:最大絕對(duì)誤差;MAPE:平均絕對(duì)誤差百分比;MaxAPE:最大絕對(duì)誤差百分比;正態(tài)化的BIC:是基于均方誤差的分?jǐn)?shù),包括模型中參數(shù)數(shù)量的罰分和序列長(zhǎng)度。罰分去除了具有更多參數(shù)的模型優(yōu)勢(shì),從而可以容易地比較相同序列的不同模型的統(tǒng)計(jì)量。其中百分比用來(lái)比較不同的模型,最大絕對(duì)誤差與最大絕對(duì)誤差百分比對(duì)于考慮預(yù)測(cè)最壞情況很有用。4.1 指數(shù)平滑法建模根據(jù)前面敘述,知道指數(shù)平滑法適用于影響隨時(shí)間的消失呈下降的數(shù)據(jù)。對(duì)于我們的數(shù)據(jù)可能不適用。但是保險(xiǎn)起見(jiàn),仍

7、用指數(shù)平滑法進(jìn)行建模。如圖所示R方為負(fù)值,表示該模型效果太差。故拋棄該方法。4.2 專家建模法選擇合適模型專家建模法默認(rèn)兩種建模方法均使用,因?yàn)槭謩?dòng)計(jì)算合適參數(shù)較為復(fù)雜,專家建模器會(huì)為用戶選擇合適的模型與參數(shù)。如圖所示,專家建模器選擇的是ARIMA模型,并設(shè)置參數(shù)為ARIMA(0,0,2)(0,0,1),根據(jù)前面分析可知中p=0,d=0,q=2,P=0,D=0,Q=1。結(jié)合數(shù)據(jù)的ACF圖,說(shuō)明ARIMA相對(duì)于指數(shù)平滑法更適合。模型參數(shù)如下,圖中R方與平穩(wěn)的R方相等,該模型為非季節(jié)性模型。Ljung-Box Q檢驗(yàn)中白噪聲未超過(guò)限定值,通過(guò)檢驗(yàn)。下圖為該模型預(yù)測(cè)的9月一天的數(shù)據(jù)。4.2 調(diào)整模型參數(shù)但是由前面進(jìn)行的季節(jié)性分解分析可知,我們的數(shù)據(jù)具有周期性。由前面分析的圖中所示,ACF在1階之后驟減,為截尾。進(jìn)一步觀察,發(fā)現(xiàn)其具有周期性,在q+Sq后仍然驟減。PACF拖尾。根據(jù)下圖,符合MA(q),Seas.MA(Q)模型。設(shè)置d=1,D=1,q=1,Q=1,設(shè)置p跟P均為0,建立模型如下。R方為負(fù)值表示該模型擬合效果很差。需要進(jìn)一步調(diào)整參數(shù)。故進(jìn)一步調(diào)整模型參數(shù)。經(jīng)過(guò)反復(fù)調(diào)整試驗(yàn),模型

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論