數(shù)據(jù)處理與建模流程_第1頁
數(shù)據(jù)處理與建模流程_第2頁
數(shù)據(jù)處理與建模流程_第3頁
數(shù)據(jù)處理與建模流程_第4頁
數(shù)據(jù)處理與建模流程_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)處理與建模流程: 1數(shù)據(jù)處理 1.1替換缺失值: 數(shù)據(jù)完整沒有缺失值的情況基本不存在,我們的數(shù)據(jù)中,0點-5點的航班為0的情況 很多,所以數(shù)據(jù)缺失比較嚴(yán)重。時間序列分析要求時間周期完整,如果將缺失的數(shù)據(jù)只簡單 地用其他所有數(shù)據(jù)的缺失值填充,誤差較大。經(jīng)過反復(fù)嘗試,發(fā)現(xiàn)用臨近兩點均值填充,結(jié) 果最為理想。 2時間序列的預(yù)處理 2.1時間序列平穩(wěn)化 首先繪制替換缺失值之后的原始數(shù)據(jù)的自相關(guān)圖與偏自相關(guān)圖。如下圖所示: 可以看到自相關(guān)圖并沒有收斂到置信區(qū)間之內(nèi),趨近0以后又增長,且所有值均在置 信區(qū)間之外。故序列不平穩(wěn)。 為了進行時間序列平穩(wěn)化,首先進行差分,即前值減后值,消除前后數(shù)據(jù)的依賴性。

2、再 次制作自相關(guān)圖,勾選一次差分。結(jié)果如圖所示: n r IIItt1 1 sinri 1 t n 1 r i 1 :: 3 4- Q 44 If 即 1 D! 百卻事-Rl D ACF Riiin iriBinpariiiniririr 2 I * f 4 ? I t I*YI計 U J?N3S r 1 T 1 T I E ! T T r 1 T T T T T T F 1 F 1 5 1 i 5 7 B 10 H TJ 4314 IS I t! 7*11 3l 132331 從圖中可知ACF為截尾,PACF為拖尾。序列已穩(wěn)定。 故將原始序列先進行差分,后進行季節(jié)性差分。 22平穩(wěn)序列的檢驗

3、 為了考察單個序列是否的確已經(jīng)轉(zhuǎn)換為平穩(wěn)的隨機序列,制作自相關(guān)圖( ACF)與偏相 關(guān)圖(PACF)。此次將延遲拉大,觀察相關(guān)圖是否具有周期性: 驟減。PACF拖尾。根據(jù)下圖,符合 MA(q),Seas.MA(Q) 模型。 耒 23. 0 魯種的目貝歸樂戢和幫國舊橋懶衣化適蹲 擺型 口 A K ( p) Im -p 1朋“口廉 諷 3AHi fl 拖邑 MAM A( fl ) 1附=。* jp后僵備 (ACF與PACF怎么看:第一列數(shù)為lag值,第二列為相關(guān)系數(shù)的估計值,第三列為標(biāo) 準(zhǔn)誤差,其余為 Box-Ljung檢驗結(jié)果。如果相關(guān)系數(shù)是突然收斂到置信區(qū)間之內(nèi),95%的 值在置信區(qū)間之內(nèi),為

4、截尾。如果相關(guān)系數(shù)像一條常常的尾巴,95%的值在置信區(qū)間之外, 為拖尾。故,自相關(guān)圖為截尾,偏相關(guān)圖為拖尾。符合MA模型) 3指數(shù)平滑與ARIMA的比較 指數(shù)平滑: 用序列過去值的加權(quán)均數(shù)來預(yù)測將來的值,并給序列中近期的數(shù)據(jù)以較大的權(quán)重,遠期 的數(shù)據(jù)以較小的權(quán)重。理由是隨著時間的流逝,過去值的影響逐漸減小?;竟剑?f =盤耳 + ( 1 一 Cr) ,0 a I T+1時刻的 Ft是t時刻的預(yù)測值,Y是t時刻的實際值。指數(shù)平滑沿襲了修正的思想, 預(yù)測值是T時刻的實際觀測值對 T時刻的預(yù)測值加以修正后得到的。展開式: F 二 oX + (l-“X =叱 + Q(1 F)時-i + Ot( 1

5、 口尸 丫心 + 十 口( 1 _口) 3 乙5-口 十 實際觀測值對預(yù)測值的影響隨著時間距離的增大而呈指數(shù)級數(shù)衰減,這就是指數(shù)平滑的由 來。 半附的由氧 八袞誡的連度山半淸系數(shù)不受r吋劇的規(guī)濃值的彫喑,員由 離史數(shù)搖決宣, 根據(jù)指數(shù)平滑法的公式可以知道: 指數(shù)平滑法適合于影響隨時間的消失呈下降的數(shù)據(jù)。 ARIMA 模型: AR ( p)模型(Auto regression Model )自回歸模型 p階自回歸模型: yt = + 01/t-i + 0 洶-名 + + pVt-p + % 式中片為時間序列第亡時刻的觀窮值.即為因變斎威稱被解釋變最:-i, 片亠 -刃卩為時序刃的滯斥序列這甲作為

6、自變奮戒稱為解釋變疑:勺是酚 機i吳菱項:G 0“,0卩為待估的自回九參數(shù)植 “ * 0 槌型(Moving Average MudM 樓創(chuàng) T均模型 V階移劫平均模型: X-#2-仏 -gg-切Y 式卜H為時間序列的T均數(shù),怛當(dāng)呼列在0上卜變動時、顯然#=0, 町刪除此項;% Z J“ 吹丫為模里在第期.第人I期粒第ep期 的謂耒匚縱、址、 為待佔的移動T均移數(shù)。 這里的d是對原時序進行逐期差分的階數(shù),差分的目的是為了讓某些非平穩(wěn)(具有一 定趨勢的)序列變換為平穩(wěn)的,通常來說d的取值一般為0,1,2。對于具有趨勢性非平穩(wěn)時 序,不能直接建立ARMA 模型,只能對經(jīng)過平穩(wěn)化處理,而后對新的平穩(wěn)

7、時序建立 ARMA(p,q)模型。這里的平穩(wěn)化處理可以是差分處理,也可以是對數(shù)變換,也可以是兩者 相結(jié)合,先對數(shù)變換再進行差分處理。 ARM弐pd號P_d療型 自回歸積分滑動平均模型 ,也同樣需要進行 對于具有季節(jié)性的非平穩(wěn)時序(如冰箱的銷售量,羽絨服的銷售量) 季節(jié)差分,從而得到平穩(wěn)時序。這里的D即為進行季節(jié)差分的階數(shù);PQ分別是季節(jié)性自回 歸階數(shù)和季節(jié)性移動平均階數(shù);S為季節(jié)周期的長度。 確定pqd,PQD主要根據(jù)自相關(guān)圖與偏自相關(guān)圖。 4.建模 首先了解一下各個參數(shù)的意義: 只能在序列平穩(wěn)時使 R方、平穩(wěn)的R方:R方是使用原始序列計算出的模型決定系數(shù), 用。平穩(wěn)的R方則是用模型的平穩(wěn)部分

8、計算出的決定系數(shù),當(dāng)序列具有趨勢或季節(jié)波動時, 該指標(biāo)優(yōu)于普通 R房。兩者取值均為小于等于1的任意數(shù),負(fù)值表示該模型預(yù)測效果比只 用均數(shù)預(yù)測還差。 RMSE :均方誤差的平方根,表示模型預(yù)測因變量的精度,其值越小,精度越高。 MAE:平均絕對誤差; MaxAE :最大絕對誤差; MAPE:平均絕對誤差百分比; MaxAPE:最大絕對誤差百分比; 正態(tài)化的BIC :是基于均方誤差的分?jǐn)?shù),包括模型中參數(shù)數(shù)量的罰分和序列長度。罰分 去除了具有更多參數(shù)的模型優(yōu)勢,從而可以容易地比較相同序列的不同模型的統(tǒng)計量。 其中百分比用來比較不同的模型,最大絕對誤差與最大絕對誤差百分比對于考慮預(yù)測最 壞情況很有用。

9、 4.1指數(shù)平滑法建模 對于我們的數(shù) 根據(jù)前面敘述,知道指數(shù)平滑法適用于影響隨時間的消失呈下降的數(shù)據(jù)。 R方為負(fù)值,表示該 據(jù)可能不適用。但是保險起見,仍用指數(shù)平滑法進行建模。如圖所示 模型效果太差。故拋棄該方法。 匸阿訂” J laii V旳# 5E fl i ft -rm 6 iO 2f 50 75 9E7 BEf -Erl 呻畤竹| 1 185-S iDOiim BBi su.m 10?5F*i? 初5S9 JD0JS1 ,k ear -Ofll 2tn -fiD1 | AMtJi WF ML旺 anME MW 1 (26EW 16559 2KL1B1 2 & 0 K-rr npn 11

10、B ?4p r oeq 電 4.2專家建模法選擇合適模型 專家建模法默認(rèn)兩種建模方法均使用,因為手動計算合適參數(shù)較為復(fù)雜,專家建模器會 為用戶選擇合適的模型與參數(shù)。如圖所示,專家建模器選擇的是ARIMA模型,并設(shè)置參數(shù) 為ARIMA(0,0,2)(0,0,1),根據(jù)前面分析可知皿啾模璽中卩=。,=o,q=2 , P=0,D=0,Q=1。結(jié)合數(shù)據(jù)的ACF圖,說明ARIMA相對于指數(shù)平滑法更適合。 鍥型叢型 SDIFF(MJ,24) WSL1 ARIMA(O.O,2)(0.a.1) 模型參數(shù)如下,圖中 R方與平穩(wěn)的R方相等,該模型為非季節(jié)性模型。Ljung-Box Q 檢驗中白噪聲未超過限定值,通

11、過檢驗。 冷, X :的N| V* SO IB in sn F71 iTj i73 CT 5?3 R E71 E73 73 m EF3 73 .E71 671 E73 E-73 R 圧 i&Bsa 16 Et% If-JISH ib ESa IlLlfifi 11151 IQ.畫 I B BED IfiBSH 13 E MAT? 1.I5E14 m*i4 1 14&E+14 1 1ME14 I.1$!$E*I4 1 154E+I4 1 t56E14 1.155E*14 t 155E+I4 1 1E-5E*UI 坤4iE 細杞w ” ME W i T 26?*U MF01F 11HCM7 M?4

12、+lT 2?(eir NAE ii M* ii箕e 11JM) 11期 11M 11 $轉(zhuǎn) |.幽 11 3W fl 11 H噸 杓除 IftiSB 巾 itamss 鼬頌 川汕 刃誦 * - r; EIL Li 5fi3 5i-3 i 16 66S3 M$3 i$ $忖 5 &53 仲3 ii型 川j Lj財駅QllJ 呼”- * ib 1 41111 4K5FIB ifinisB &ID1 JiM i JIlErtl 4 KErlS 1H 血 141IEM3 4 DHE-lfi 1MSS5 isiass cm 砂 1 f-tlE-iill 1 n-r|g KB 1的曲 cid BB4 -E

13、 5 也 ia bk isn嗣 AU 1 4IBE-U 4 -Z SEE-ISi 陽用歸 1RRH9 DA4 lb dl l 1 IM+13 4 a舁eye 1EB95 IMIS* IIM 9B4; -aat 41l 141 IE-11 4D15F-1G IB BOB 1D9 BSD i inn 胡闕 3bb 1 4IIF-O 4 0?3Fr1& IfiDAM G401 1 N-AE UUNDlCllJ 1川聲弼 4 nE-is 卜 Wf1 ”Q 誦 朋Tllji吃 1 什 Pt if |j i 4 |j s i W F F. R R DF ii - : OJG 1 Jl H Jl II 故進

14、一步調(diào)整模型參數(shù)。經(jīng)過反復(fù)調(diào)整試驗,模型參數(shù)設(shè)置為: 候,模型具有最大的穩(wěn)定 R方值。如下圖所示: 模型參數(shù)設(shè)置 建模的參數(shù)情況如下: 9DFr AFLNaj-l ISM 1 ia合蠻艸情. 7 m 1 i tlSff3 - 1 09 R .h gw m 軸廠 孫 R*j ,431 車鮒 4M 謂 礎(chǔ) 靜* RH5F S,K73 33;1帀 a,i7i &i7 mn 211為 Kfl) JS1TJ 23iT3 WAFE 1 SXEtij| 1 S2DEM4 9 ?2M+t4 1 J2CE+14 1 JME 科 * l 3ME+K 1 )2DE*U 1.JSflEfi4 i 92Rt14 1 1ME4 HikSF iriKi-tr 3 rwe*!? JJ-?DEI7 J JSOE+t? 3 3JM+l? J.miEM? 1.也 H J*2 H7U U72 M血 UTJ2 11 yn 1iT 燦紳0 1裁 i52*ra TStlD Kin 低測 iim 1耗PM iM0 Fi El r BI

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論