股市預測模型_第1頁
股市預測模型_第2頁
股市預測模型_第3頁
股市預測模型_第4頁
股市預測模型_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 股市預測模型基于混合ARMA模型和支持向量機摘要:股市預測在以往的文獻中已經(jīng)吸引了大量的研究興趣。傳統(tǒng)上,ARMA模型已經(jīng)成為時間序列中應用最為廣泛的線性模型之一。但是,ARMA模型不能夠輕易的捕捉非線性模式。并且最近的研究表明,人工神經(jīng)網(wǎng)絡(luò)(ANN)方法比傳統(tǒng)的統(tǒng)計的人實現(xiàn)了更好的性能。人工神經(jīng)網(wǎng)絡(luò)方法在泛化(generalization)方面經(jīng)歷了一定的困難,但是其生產(chǎn)模式可以過度擬合數(shù)據(jù)。支持向量機(SVM)一種新型的神經(jīng)網(wǎng)絡(luò)技術(shù),在解決非線性回歸估計問題上已經(jīng)得到成功的應用。因此,此次調(diào)查提出了在股市預測問題的支持向量機模型上,利用ARMA模型的獨特優(yōu)勢試圖向用戶提供更好的解釋力模型

2、的混合方法。股市的真實數(shù)據(jù)集被使用來研究該模型的預測精度。計算的測試結(jié)果是很有前景的。關(guān)鍵字:BP神經(jīng)網(wǎng)絡(luò),金融時間序列,預測,支持向量機1. 引言股市預測因其高波動和不規(guī)則性被認為是具有挑戰(zhàn)性的任務(wù)。因此,許多模型已經(jīng)被描繪為投資者提供更精確的預測。尤其是,人工神經(jīng)網(wǎng)絡(luò)(ANN)方法在以前的文獻中最為頻繁被使用,因為其已知的預測的效率優(yōu)于其他模型。然而,由于解釋神經(jīng)網(wǎng)絡(luò)的難度,大多數(shù)應用神經(jīng)網(wǎng)絡(luò)的研究集中在預測精度。在文獻中已被報道,利用人工神經(jīng)網(wǎng)絡(luò)模型,以很少的努力提供對破產(chǎn)預測過程更好的理解。此外,由于神經(jīng)網(wǎng)絡(luò)的過度擬合在泛化方面具有困難,并且完全取決研究人員的經(jīng)驗或是知識,用于選擇大量

3、的包括相關(guān)的輸入變量,隱含層的大小,學習率以及動量控制參數(shù)的預處理。最近,在1995年首次由Vapnik提出的支持向量機()方法近來被使用在一系列應用中,包括金融股市預測。支持向量機()的基礎(chǔ)已經(jīng)被開發(fā),由于許多吸引人的特點以及在廣泛的問題上優(yōu)異的泛化性能使其越來越受歡迎。該制定(formulation)體現(xiàn)了結(jié)構(gòu)風險最小化(SRM)原則被常規(guī)神經(jīng)網(wǎng)絡(luò)采用,且已被證明優(yōu)于傳統(tǒng)的經(jīng)驗風險最小化原則。SRM泛化誤差上限的最小化,用術(shù)語來說,就是在訓練數(shù)據(jù)中誤差最小化。此外,SVM的解決方案可能是全局最優(yōu)解,而其他神經(jīng)網(wǎng)絡(luò)模型往往會陷入局部最優(yōu)解。一般來說,支持向量機技術(shù)被廣泛認為是藝術(shù)分類的狀態(tài)(

4、the state of art classifier),并且以往的研究表明,SVM預測方法優(yōu)于神經(jīng)網(wǎng)絡(luò)的方法。最初為解決分類問題開發(fā)的SVM技術(shù)可以成功地在回歸中應用。與模式識別問題只需輸出是離散值不同,支持向量回歸處理(deals with)實值函數(shù)。SVR起源于結(jié)構(gòu)風險最小化原則通過最小化泛化誤差上限去估計一種功能。以往的研究報道了SVM已經(jīng)成功地在許多領(lǐng)域解決了預測問題。然而,提高預測的精度性仍然是預測領(lǐng)域關(guān)注的首要問題。特別是對股市的預測,即使在預測精度上輕微的改進也可能對投資的利潤產(chǎn)生積極的影響。據(jù)報道,混合系統(tǒng)針對傳統(tǒng)的系統(tǒng)在預測和分類中取得了較高的性能水平。張【】在預測上結(jié)合了

5、ARIMA和前饋神經(jīng)網(wǎng)絡(luò)模型。這項研究提出了用ARMA和支持向量機的混合模型區(qū)解決股票價格預測問題。2. 用于預測的混合模型2.1自回歸滑動平均模型ARMA模型已經(jīng)被波克斯(Box)和詹金斯(Jenkins)提出了為了時間序列的描述把自回歸和滑動平均模型混合。在(Arp)p階的自回歸模型中,每個單獨的值T x可以表示為P以前的值和白噪聲,T z的有限和: xt =1xt1 +p xtp + zt (1)參數(shù)ai可以被尤爾沃克方程估計,從自相關(guān)系數(shù)角度來說,尤爾沃克方程是一組線性方程。在(MAq)q階的滑動平均模型中,現(xiàn)值xt可以表示為Q以前的值T z的有限和: xt = 0 zt + 1zt1

6、 + q ztq (2)在這個方程中,zi是測量和預測值X在時間實例I上的白噪聲的殘差。模型參數(shù)i就自相關(guān)而言通常是由一組非線性方程組來確定。Z的值通常被縮放(scaled),使得0= 1。在過去,滑動平均模型特別被使用在受如罷工和政府決策等隨機事件影響的經(jīng)濟指標的計量經(jīng)濟學領(lǐng)域。(P,Q)階的ARMA模型是Arp和MAq模型的混合,計算公式如下: Xt=1xt-1+pxt-p+1zt-1 +qzt-q (3)使用后移算子B,上一個方程可以寫為: (B)xt =(B)zt (4)其中(B) 和 (B)分別是P,Q階的多項式,使得: (B) = 11B pB (B) = 11B + qBq (5

7、)ARMA模型基本上是改編自數(shù)據(jù)本身的結(jié)構(gòu)的面向數(shù)據(jù)的方法。然而,任何顯著的非線性數(shù)據(jù)集限制ARMA。因此,所提供的混合模型使用支持向量機來處理非線性數(shù)據(jù)模式。2.2股市預測中的支持向量機理論考慮一組訓練數(shù)據(jù)(x1, y1 ),.,(xl ,yl ),其中每一個xiR表示樣本的輸入空間并且有相應的目標值yiR i=1l,其中l(wèi)對應于訓練數(shù)據(jù)的大小?;貧w問題的想法是要確定可以準確的逼近未來值的函數(shù)。SVR估計函數(shù)一般形式為: f (x) = (w(x) + b (6)其中wRn, bR,表示Rn高維空間的線性轉(zhuǎn)換。我們的目標是通過最大限度地降低風險回歸確定x的值找到w和b的值:R reg ( f

8、 ) = Ci=0l.( f (xi) (yi) + 1/2w2 (7) 其中()是一個成本函數(shù),C是常數(shù),w是變量,就數(shù)據(jù)點而言可以寫成: w=i=0l.(i -i*)(xi) (8) 通過把(3)式代入(1)式,一般方程可以改寫為: f( x)=(i i*)(xi)(x)+b =(i i*)k(xi, x)+b (9) 等式(4)的點積可以用被稱之為核函數(shù)的k(xi, x)來代替。核函數(shù)使點積能夠在高維特征空間在不知道轉(zhuǎn)換下使用低維空間數(shù)據(jù)來執(zhí)行。所有的核函數(shù)必須滿足Mercer條件就是對應一些特征空間的內(nèi)積。徑向基函數(shù)(RBF)是常用的內(nèi)核回歸: k(xi, x)=exp-x xi2 (

9、10)一些常見的內(nèi)核可以在表1中所見。在我們的研究中,我們已經(jīng)試驗了這三個內(nèi)核。 表1.常見核函數(shù) 內(nèi)核函數(shù)線性的 x y多項式 (xxi)+1 d徑向基函數(shù) exp-x xi2的不敏感損失函數(shù)是最被廣泛使用的成本函數(shù)。該函數(shù)的形式為: (f(x)-y)=fx-y-,fx-y0 otherwise(11) 通過求解(12)式的二次優(yōu)化問題,(7)式的回歸風險和(11)式的不敏感損失函數(shù)可以最小化為 12i,j=0l(ai-ai*)aj*-ajkxi-xj-i=1lai*yi-ai(yi+) 符合以下條件: i=1lai-ai*=0, ai,ai*0,C 拉格朗日乘子ai和ai*表示上述的二次問

10、題作為力推實現(xiàn)目標值yi的預測解決方案。(12)式中的拉格朗日乘子僅為非零值時支持向量在預測回歸線時才能夠被使用。對于內(nèi)部所有的-tube點,拉格朗日乘子等于零并不有助于回歸函數(shù)。只有當要求函數(shù)f(x)-y(見圖1)被滿足,拉格朗日乘子可以是非零值,并被用作支持向量。等式(13)被采用的常數(shù)C確定為估計誤差的罰因子。大C對誤差分配更多的罰因子以至于當小C對誤差分配較少用較低的泛化使回歸訓練最小化。這使得誤差幅度最小化,從而得到更高的泛化能力。如果C變?yōu)闊o限大,SVR不允許任何產(chǎn)生任何誤差從而導致一個復雜的模型,而當C變?yōu)榱銜r,結(jié)果將產(chǎn)生更大量的誤差而且模型更為復雜。 y x 圖1.支持向量回歸

11、以適應管的半徑的數(shù)據(jù)和積極的松弛變量去測量位于管外的點現(xiàn)在,我們已在拉格朗日乘子方面解決了w的值。對于變量b,可以通過應用庫恩塔克(KKT)條件來計算,在這種情況下,意味著拉格朗日乘子和約束的積等于零: ai(+i-yi+w,xi+b)=0 ai*+i*+yi-w, xi-b=0 (13) (C-ai)i=0 (C-ai) i*=0 (14)其中松弛變量i和i*是用來測量-管外的誤差。因為ai,ai*=0,i*=0,當ai*(0,C),b可被如下的方程計算得: b=yi-w, xi-, ai(0,C) b=yi-w, xi+, ai*(0,C) (15) 通過計算上面所有的式子,在沒有變換的條

12、件下可以使用SVM好SVR。2.3混合方法外債風險的行為不能很容易的抓獲。因此,具有線性和非線性建模能力的混合策略是預測外債風險的一個很好的選擇。ARMA和SVM都具有不同的功能,以捕捉線性或非線性域中的數(shù)據(jù)特性,所以在本研究中提出的混合模型是由ARIMA和SVM部分組成的。因此,混合模型通過提高整體的預測能力改造線性和非線性的模式。混合模型zt可以表示如下: zt=Yt+Nt (16)其中Yt是混合模型的線性部分,Nt是非線性部分。Yt和Nt都被數(shù)據(jù)集估計。Yt 是ARMA模型在時刻t的預測值。讓t表示從ARMA模型在時刻t獲得的殘差;得: t=zt+Yt (17) 殘差是由支持向量機建模的

13、,并且可以用如下方程表示: t=ft-1,t-2,t-n+t (18) 其中f是被SVM建模的非線性函數(shù),而t為隨機誤差。因此,該混合預測為:zt=Yt+Nt 值得注意的是,Nt是(17)式的預測值。3. 實驗和比較3.1數(shù)據(jù)描述在實驗中,兩只股票標準普爾500指數(shù)和日經(jīng)指數(shù)200都是每日從數(shù)據(jù)流中獲得的。整個數(shù)據(jù)集涵蓋的時間段是從2000.01.012004.12.31。該數(shù)據(jù)集被分為兩個階段:第一個階段是從2000.01.012013.12.31,第二個階段則從2004.01.012004.12.31。第一階段中則用于網(wǎng)絡(luò)學習和訓練,且數(shù)據(jù)集已被轉(zhuǎn)讓給樣品估計。第二階段是給出來的樣品估計的

14、保留。為了簡潔,原始數(shù)據(jù)沒有在紙中列出,以及詳細的數(shù)據(jù)可以從來源獲得。3.2性能標準該預測結(jié)果的檢查是在該模型預測效果的關(guān)鍵,因為我們能獲得不同預測方法特性的信息,這對選擇并使用多種預測方法的人是非常有用的。預測性能使用以下統(tǒng)計指標進行評估,即,平均絕對誤差(MAE),平均絕對誤差百分比(MAPE),均方誤差(MSE)和均方根誤差(RMSE)。如下所述的這些標準定義:(1) 平均絕對誤差(MAE)MAE=1ni,j=1nxi-xji,j=1,2,n (19)(2) 平均絕對誤差百分比(MAPE)MAPE=1ni,j=1nXi-yjxii,j=1,2,n (20)(3) 均方誤差(MSE)MSE

15、=1ni,j=1n(xi-xj)2 (21)(4) 均方根誤差(RMSE)RMSE=1ni,j=1n(xi-xj)2(22)四個指數(shù)的值越小,其精度就越高。其中xi表示實際值;xj表示預測值;n表示樣品的數(shù)目。3.3參數(shù)的選擇在這項研究中,ARMA模型有三個階段:模式識別,參數(shù)估計和診斷檢查。確定ARMA模型的合適參數(shù)后,檢查所提出的模型是如何緊密配合給定的時間序列是非常重要的。自相關(guān)函數(shù)(ACF)被計算來驗證參數(shù)。圖表2.股票指數(shù)的自相關(guān)函數(shù)。圖表3.股票指數(shù)的偏相關(guān)函數(shù)。圖表4.自相關(guān)函數(shù)的殘差估計并且表示這殘差不是自相關(guān)的。在圖表5.中顯示,這局部的自相關(guān)函數(shù)偏相關(guān)函數(shù),也是被用來檢查殘

16、差和表示該殘差是不相關(guān)的。 圖表2.股票指數(shù)的自相關(guān)函數(shù) 圖表3.股票指數(shù)的偏相關(guān)函數(shù) 圖表4.自相關(guān)函數(shù)的殘差估計對于支持向量機(SVM)模型的三個參數(shù),和C是在驗證集的基礎(chǔ)上進行調(diào)整。眾所周知的是支持向量機(SVMs)的推廣性能(估計精度)依賴于云參數(shù)參數(shù)C和內(nèi)核參數(shù)的良好環(huán)境。最佳參數(shù)選擇的問題更復雜比SVM模型的復雜性(以及它的泛化性能)完全取決于三個參數(shù)的事實。SVM回歸的現(xiàn)有軟件的實現(xiàn)通常把SVM的云參數(shù)看作是用戶的自定義輸入。選擇一個特定的核型(kernel type)和核函數(shù)的參數(shù)通常是基于應用知識領(lǐng)域,并反映訓練數(shù)據(jù)輸入值(x)的分布。 圖表5.偏相關(guān)函數(shù)的誤差估計 圖表6.

17、對ARMA模型SVM估計使用建議參數(shù)選擇 參數(shù)C確定模型復雜性(平坦度)和程度之間的交易的偏差比在優(yōu)化規(guī)劃例子中較大,如果C過大(無窮大),在不考慮優(yōu)化規(guī)劃復雜這一部分,則目標僅是最小化風險經(jīng)驗。參數(shù)控制著不敏感區(qū)域的寬度,用于擬合訓練數(shù)據(jù)。的值可以影響用于構(gòu)建回歸函數(shù)支持向量的數(shù)目。越大,支持向量越少被選中。另一方面,更大的值導致更多的平的估計。因此,C和的值都影響模型的復雜性(但是用不同的方式)。3.4實驗結(jié)果當數(shù)據(jù)準備好時,我們就開始訓練混合模型。在這些實驗中,我們準備了5年的每日數(shù)據(jù)。我們使用前4年的數(shù)據(jù)來訓練和驗證網(wǎng)絡(luò),并且使用最后一年的數(shù)據(jù)來測試預測性能。為了進行比較,標準的三層的

18、BP神經(jīng)網(wǎng)絡(luò)被用作基準模型。本研究改變在隱藏層和用于訓練停止準則的節(jié)點的數(shù)目。在這項研究中,因為BP網(wǎng)絡(luò)沒有確定隱藏節(jié)點最佳數(shù)目的一般規(guī)則,每個停止準則有5,10,20個節(jié)點。對于BP神經(jīng)網(wǎng)絡(luò)的停止準則,這項研究采用了500,1000,2000和4000的學習時期。對于標準的BP神經(jīng)網(wǎng)絡(luò)模型,學習率設(shè)定為0.25.隱藏節(jié)點使用S形的傳遞函數(shù),而輸出節(jié)點使用線性傳遞函數(shù)。該研究允許在自動回歸測試的結(jié)果上輸入5個節(jié)點。 表2.比較了不同模型的預測結(jié)果。這些結(jié)果表明,就四項指數(shù)而言,該混合模型是優(yōu)于其它兩個獨立的模型(模型1和模型2),并且揭示了該混合模型可以捕獲模式中所有的數(shù)據(jù),而且它可以顯著的減少總體預測誤差。此外,表3的結(jié)果表明所提出的SVR模型優(yōu)于BP神經(jīng)網(wǎng)絡(luò)模型。從實證實驗的結(jié)果,我們可以得出結(jié)論,混合模型顯示在避免過度訓練和詳盡的參數(shù)檢索的預測問題上有更好的性能。 表2.預測指數(shù)的比較 MAE MAPE MSE RMSEBP神經(jīng)網(wǎng)絡(luò) S&P500 0.3495 0.2257

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論