【基于GBDT模型的人民幣兌美元匯率預(yù)測(cè)實(shí)證探究(論文)9400字】_第1頁(yè)
【基于GBDT模型的人民幣兌美元匯率預(yù)測(cè)實(shí)證探究(論文)9400字】_第2頁(yè)
【基于GBDT模型的人民幣兌美元匯率預(yù)測(cè)實(shí)證探究(論文)9400字】_第3頁(yè)
【基于GBDT模型的人民幣兌美元匯率預(yù)測(cè)實(shí)證探究(論文)9400字】_第4頁(yè)
【基于GBDT模型的人民幣兌美元匯率預(yù)測(cè)實(shí)證探究(論文)9400字】_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

導(dǎo)論1.1研究背景及其意義匯率一直是經(jīng)濟(jì)學(xué)家們熱衷于研究的熱點(diǎn)話題。匯率又稱(chēng)外匯利率或者外匯匯率,它指的是兩種不同國(guó)家的貨幣之間兌換的比率,亦可視為一個(gè)國(guó)家的貨幣對(duì)另一個(gè)國(guó)家的貨幣的價(jià)值。當(dāng)今時(shí)代,大多數(shù)經(jīng)濟(jì)體已經(jīng)轉(zhuǎn)向靈活的匯率制度,我國(guó)也不例外。隨著我國(guó)國(guó)際化速度的加快,人民幣匯率波動(dòng)的幅度也在不停的增加。而在迅速增加的匯率波動(dòng)性的影響下,我國(guó)的國(guó)際貿(mào)易和金融投資也會(huì)受到相應(yīng)的影響。由此看來(lái),對(duì)匯率走勢(shì)和波動(dòng)區(qū)間的預(yù)測(cè)和把握顯得至關(guān)重要。既然匯率對(duì)于國(guó)家或地區(qū)的經(jīng)濟(jì)貿(mào)易影響重大,作為當(dāng)今世界的經(jīng)濟(jì)大國(guó),中美兩國(guó)的匯率波動(dòng),也與中美兩國(guó)的宏觀經(jīng)濟(jì)變動(dòng)息息相關(guān)。中美匯率的波動(dòng)對(duì)我國(guó)經(jīng)濟(jì)的長(zhǎng)期發(fā)展,尤其是對(duì)外貿(mào)易以及國(guó)際投資的穩(wěn)定有非常重要的影響。即使是于風(fēng)險(xiǎn)投資者而言,想要在時(shí)刻變動(dòng)的中美匯率上用最小的風(fēng)險(xiǎn)獲得最大的投資收益率,對(duì)匯率波動(dòng)走勢(shì)和區(qū)間的預(yù)測(cè)也是必不可少的一環(huán)。但是想要對(duì)匯率進(jìn)行預(yù)測(cè)是極其困難的,想要完美對(duì)匯率走勢(shì)進(jìn)行預(yù)測(cè)更是難上加難。造成這一結(jié)果的主要原因在于匯率的影響因素過(guò)多,且難以分析全面。僅僅是財(cái)政和經(jīng)濟(jì)系統(tǒng)當(dāng)中,自身的變動(dòng)會(huì)牽動(dòng)匯率造成影響的因素就數(shù)不勝數(shù),而在經(jīng)濟(jì)系統(tǒng)之外仍有許多因素會(huì)對(duì)匯率造成極大影響。因此學(xué)者們對(duì)匯率預(yù)測(cè)的研究從未停止。在之前的研究中,已有研究者根據(jù)經(jīng)濟(jì)學(xué)原理當(dāng)中的購(gòu)買(mǎi)力評(píng)價(jià)理論等經(jīng)典理論構(gòu)建時(shí)間序列模型對(duì)匯率進(jìn)行預(yù)測(cè),而這些方法最后的實(shí)證結(jié)果往往不甚理想。比起預(yù)測(cè)匯率,它們似乎在解釋匯率變動(dòng)的原因上更有說(shuō)服力。即使在這一期數(shù)據(jù)的預(yù)測(cè)上表現(xiàn)良好,在下一期數(shù)據(jù)的預(yù)測(cè)時(shí)又會(huì)偏離數(shù)據(jù)原本的走向,成為無(wú)意義的數(shù)據(jù)預(yù)測(cè)。為了解決這一問(wèn)題,考慮到機(jī)器學(xué)習(xí)模型更高的預(yù)測(cè)準(zhǔn)確度,本文將使用一種機(jī)器學(xué)習(xí)模型:GBDT(梯度提升樹(shù))模型,結(jié)合多種宏觀經(jīng)濟(jì)因子對(duì)匯率的走勢(shì)進(jìn)行分析,以求較精確的掌握其發(fā)展、變化的內(nèi)在規(guī)律,對(duì)投資者的后續(xù)投資給出更好的指導(dǎo)。1.2主要工作與技術(shù)方法1.2.1論文主要工作本文的主要工作是利用梯度提升算法對(duì)數(shù)據(jù)進(jìn)行回歸預(yù)測(cè),并且將其應(yīng)用到美元兌人民幣匯率的預(yù)測(cè)之中。在因子的選取上,本文選擇了四個(gè)對(duì)匯率的影響程度較大且較直接的因子構(gòu)建預(yù)測(cè)模型。分別為銀行間同業(yè)拆借加權(quán)平均利率、價(jià)格指數(shù)、貨幣總量和通貨膨脹率。本文的數(shù)據(jù)選取自2000年1月至2015年5月的以月為單位的匯率和十一個(gè)因子的數(shù)據(jù)。應(yīng)用機(jī)器學(xué)習(xí)算法中的GBDT算法對(duì)匯率數(shù)據(jù)進(jìn)行實(shí)證分析,借助Python軟件進(jìn)行分析模擬和預(yù)測(cè),觀察最后的擬合成果。1.2.2技術(shù)方法本文主要運(yùn)用GBDT算法構(gòu)建多因子模型,將數(shù)據(jù)集中前百分之七十五的數(shù)據(jù)作為訓(xùn)練集的數(shù)據(jù),后百分之二十五的數(shù)據(jù)作為預(yù)測(cè)集的數(shù)據(jù),用真實(shí)值比較預(yù)測(cè)值,用他們之間的誤差判斷模型的準(zhǔn)確程度。最后通過(guò)MSE方法對(duì)模型進(jìn)行評(píng)估,觀察模型準(zhǔn)確度。最終模型1.2.3創(chuàng)新與不足最終模型本文的創(chuàng)新在于使用了近年來(lái)開(kāi)始流行的機(jī)器學(xué)習(xí)算法對(duì)匯率數(shù)據(jù)進(jìn)行預(yù)測(cè)。并選取了多種宏觀經(jīng)濟(jì)因子進(jìn)行建模,得到多因子模型。而本文的不足之處在于最后的模型達(dá)到的預(yù)測(cè)精度較低,未達(dá)到預(yù)期效果。因子的選取未達(dá)到最優(yōu)解,還需要增加因子的選取和模型改進(jìn)。

2文獻(xiàn)綜述多年來(lái),匯率預(yù)測(cè)一直是經(jīng)久不衰的話題。許多學(xué)者都在匯率預(yù)測(cè)上花費(fèi)了心血,也使用了許多的方法嘗試對(duì)匯率進(jìn)行預(yù)測(cè)。但是由于浮動(dòng)匯率制被越來(lái)越多的國(guó)家采用,匯率的波動(dòng)也開(kāi)始變化的越來(lái)越快。而這對(duì)于匯率預(yù)測(cè)來(lái)說(shuō)無(wú)疑帶來(lái)了更大的挑戰(zhàn)。對(duì)匯率造成影響的因素之間也具有復(fù)雜的非線性關(guān)系,想要對(duì)這樣的數(shù)據(jù)進(jìn)行預(yù)測(cè)將會(huì)變得極為困難。就目前的文獻(xiàn)而言,對(duì)匯率的預(yù)測(cè)主要使用了時(shí)間序列模型和機(jī)器學(xué)習(xí)模型。2.1時(shí)間序列模型過(guò)去對(duì)于匯率時(shí)間序列的研究主要集中于使用ARIMA模型。早期的文獻(xiàn)直接在簡(jiǎn)要介紹時(shí)間序列模型的基礎(chǔ)上,使用人民幣/美元的日匯率值進(jìn)行實(shí)證研究,并建立相應(yīng)的ARIMA模型或者EGARCH模型對(duì)已有的匯率數(shù)據(jù)進(jìn)行預(yù)測(cè)和評(píng)價(jià)。早在2005年,上海理工大學(xué)的肖慶憲[7]就已經(jīng)使用ARIMA模型和EGARCH模型對(duì)人民幣兌美元的日匯率進(jìn)行了分析預(yù)測(cè)。最后的預(yù)測(cè)結(jié)果顯示,時(shí)間序列模型適合短期預(yù)測(cè),長(zhǎng)期預(yù)測(cè)效果較差。除此之外,由于匯率波動(dòng)的集群性特征,他也使用了ARCH模型對(duì)匯率進(jìn)行預(yù)測(cè)。結(jié)果表明,匯率的時(shí)間序列確實(shí)具有指數(shù)異方差性,相較于ARIMA模型,ARCH模型更適合較長(zhǎng)周期的匯率趨勢(shì)預(yù)測(cè),預(yù)測(cè)誤差也較小,但兩個(gè)模型都不適合長(zhǎng)期匯率預(yù)測(cè),且只能對(duì)于較平穩(wěn)的市場(chǎng)發(fā)揮其作用,限制性較大,準(zhǔn)確性也有待提高。而在2016年,田志偉[4]對(duì)非平穩(wěn)的時(shí)間序列進(jìn)行了研究,尋找趨勢(shì)當(dāng)中“永久”的特征。由于時(shí)間序列模型對(duì)非平穩(wěn)的時(shí)間序列研究準(zhǔn)確性較差,他采用了差分的方法將非平穩(wěn)的時(shí)間序列轉(zhuǎn)化為平穩(wěn)的時(shí)間序列,對(duì)2014年和2015年匯率波動(dòng)較大的時(shí)間序列進(jìn)行分析,且得到了較好的結(jié)果,但仍然無(wú)法對(duì)長(zhǎng)時(shí)間的匯率進(jìn)行預(yù)測(cè),且精度較小。通過(guò)不同學(xué)者對(duì)不同時(shí)間序列的匯率使用ARIMA模型的結(jié)論,不難看出時(shí)間序列模型在匯率預(yù)測(cè)上有不能進(jìn)行長(zhǎng)期預(yù)測(cè)且預(yù)測(cè)準(zhǔn)度較差的缺點(diǎn),無(wú)法再進(jìn)一步突破。2.2機(jī)器學(xué)習(xí)模型隨著時(shí)間的推移,機(jī)器學(xué)習(xí)開(kāi)始走進(jìn)人們的視野,并慢慢應(yīng)用于匯率預(yù)測(cè)的研究。機(jī)器學(xué)習(xí)是一門(mén)新興的交叉型學(xué)科,它基于計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、概率論等,并已經(jīng)被應(yīng)用到多個(gè)領(lǐng)域的研究中。在過(guò)往的統(tǒng)計(jì)模型中,根據(jù)已知的理論基礎(chǔ)與可得的經(jīng)驗(yàn),與一定的數(shù)學(xué)方法與統(tǒng)計(jì)學(xué)方法,通過(guò)計(jì)算得到能夠解釋過(guò)往現(xiàn)象的“模型”,并應(yīng)用于新的研究中。在機(jī)器學(xué)習(xí)中,經(jīng)驗(yàn)一般是以“數(shù)據(jù)”的方式進(jìn)行儲(chǔ)存,計(jì)算機(jī)程序基于給定的“學(xué)習(xí)方法”以及“損失函數(shù)”,通過(guò)大量的計(jì)算“逼近”最接近于經(jīng)驗(yàn)事實(shí)的“模型”。因此它在金融領(lǐng)域現(xiàn)在所展現(xiàn)出來(lái)的作用只是冰山一角,還有很多可挖掘的潛力。2020年開(kāi)始,利用機(jī)器學(xué)習(xí)算法對(duì)金融時(shí)間序列進(jìn)行模型構(gòu)建的相關(guān)研究才逐漸增多,出現(xiàn)了采用多種機(jī)器學(xué)習(xí)算法比較最佳效果的研究,也有結(jié)合機(jī)器學(xué)習(xí)算法和時(shí)間序列方法進(jìn)行匯率預(yù)測(cè)的研究。如林驍[9]使用了多種機(jī)器學(xué)習(xí)算法,如LASSO回歸與彈性網(wǎng)絡(luò)方法、主成分分析法、決策樹(shù),隨機(jī)森林等對(duì)匯率進(jìn)行預(yù)測(cè)分析,最后發(fā)現(xiàn)隨機(jī)森林方法、主成分分析法和偏最小二乘法預(yù)測(cè)效果最好。在結(jié)合時(shí)間序列和機(jī)器學(xué)習(xí)算法的研究中,任思儒[6]就使用了GARCH時(shí)間序列模型和LSTM機(jī)器學(xué)習(xí)模型相結(jié)合訓(xùn)練模型,結(jié)果發(fā)現(xiàn)加入時(shí)間序列模型對(duì)于單純使用機(jī)器學(xué)習(xí)模型對(duì)匯率的預(yù)測(cè)結(jié)果有了顯著提升。2.3結(jié)論在匯率的預(yù)測(cè)問(wèn)題上,從現(xiàn)有的研究來(lái)看,以時(shí)間序列模型和機(jī)器學(xué)習(xí)算法為主流。匯率的影響因素太多,不僅是在經(jīng)濟(jì)環(huán)境的變化上,國(guó)家政策也會(huì)對(duì)匯率的走勢(shì)進(jìn)行干預(yù),像這樣的因素是不可能一一考慮到的。而不同的宏觀因子數(shù)據(jù)的計(jì)量單位不同,也導(dǎo)致只能得到數(shù)量有限的樣本數(shù)據(jù)。因此我選擇了機(jī)器學(xué)習(xí)算法當(dāng)中的GBDT算法。GBDT算法能夠在有限的樣本上模擬出相較時(shí)間序列而言更加準(zhǔn)確的模型,再通過(guò)這個(gè)模型獲得精度較高的特征因子。盡管這些由模型得出的特征因子并不能達(dá)到百分之百的準(zhǔn)確度,但是已經(jīng)很接近真實(shí)結(jié)果,同時(shí)又能比得到真實(shí)結(jié)果減少大量的時(shí)間浪費(fèi),提供了可操作性。GBDT分析的目的主要可以體現(xiàn)在兩個(gè)方面,第一個(gè)就是獲得訓(xùn)練樣本序列產(chǎn)生的隨機(jī)機(jī)制,即通過(guò)訓(xùn)練數(shù)據(jù)得到數(shù)學(xué)模型;第二個(gè)就是在訓(xùn)練數(shù)據(jù)的基礎(chǔ)之上,預(yù)測(cè)訓(xùn)練樣本序列未來(lái)可能的取值取值,并且與真實(shí)值進(jìn)行對(duì)比,觀察模型的預(yù)測(cè)準(zhǔn)度。在傳統(tǒng)的方法中,時(shí)間序列分析方法一直是匯率問(wèn)題研究的有效方法,但局限性強(qiáng),預(yù)測(cè)結(jié)果也不夠精確。而我所使用的GBDT算法更加靈活多變,誤差更小,能夠在恰當(dāng)?shù)哪P椭袑?duì)匯率進(jìn)行模擬和預(yù)測(cè),同時(shí)也能夠?yàn)榻鹑诠镜呢?cái)富積累和風(fēng)險(xiǎn)投資者的投資行為進(jìn)行引導(dǎo)與建議。3理論與方法3.1什么是GBDT算法3.1.1GBDT背景簡(jiǎn)介GBDT(GradientBoostingDecisionTree)算法是一種對(duì)決策樹(shù)進(jìn)行迭代的算法,又叫MART(MultipleAdditiveRegressionTree)算法。GBDT算法通過(guò)構(gòu)造一組弱學(xué)習(xí)器,得到多顆決策樹(shù),并且把多顆決策樹(shù)的結(jié)果進(jìn)行累加,將累加的結(jié)果作為最終的預(yù)測(cè)值進(jìn)行輸出。GBDT算法是決策樹(shù)與集成思想的有效結(jié)合的典型。GBDT的集成思想使其具有天然優(yōu)勢(shì),可以在大量雜亂無(wú)章的數(shù)據(jù)中發(fā)現(xiàn)有區(qū)分性的特征或者特征組合。自算法的誕生之初,它就和SVM一起被認(rèn)為是泛化能力較強(qiáng)的算法。近些年來(lái)更因?yàn)楸挥糜跇?gòu)建搜索排序而引起廣泛的關(guān)注。它最早被應(yīng)用于雅虎,后又被廣泛應(yīng)用在搜索排序、點(diǎn)擊率的預(yù)估上。業(yè)界中,F(xiàn)acebook就使用了GBDT算法來(lái)對(duì)用戶使用過(guò)程中收集到的大量數(shù)據(jù)自動(dòng)發(fā)現(xiàn)并區(qū)分出許多有效的特征或者特征組合,將其作為L(zhǎng)R模型中的特征輸入,并通過(guò)這樣的方法來(lái)提高使用CTR預(yù)估(Click-ThroughRatePrediction)算法預(yù)測(cè)數(shù)據(jù)走勢(shì)的準(zhǔn)確性;除此之外,GBDT在淘寶的搜索及預(yù)測(cè)業(yè)務(wù)上也發(fā)揮了重要作用。在競(jìng)賽中,GBDT也是經(jīng)常為參賽者所使用的一種機(jī)器學(xué)習(xí)算法。因?yàn)樗粌H具有強(qiáng)大的場(chǎng)景適應(yīng)性,而且相比較于其他算法還有著出眾的準(zhǔn)確率。如此優(yōu)異的性能也讓GBDT收獲了機(jī)器學(xué)習(xí)領(lǐng)域的“屠龍刀”這一贊譽(yù)。3.2GBDT算法流程首先GBDT算法是采用加法模型,將基函數(shù)進(jìn)行線性組合,并通過(guò)不斷地減小訓(xùn)練過(guò)程當(dāng)中產(chǎn)生的殘差來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類(lèi)或者回歸。GBDT算法在訓(xùn)練的過(guò)程中需要通過(guò)多輪迭代,并且在每輪迭代結(jié)束時(shí)產(chǎn)生一個(gè)弱分類(lèi)器,再對(duì)該弱分類(lèi)器在上一輪迭代產(chǎn)生的弱分類(lèi)器的梯度基礎(chǔ)上進(jìn)行訓(xùn)練。如果損失函數(shù)是平方損失函數(shù),則梯度就是殘差值。在使用GBDT算法訓(xùn)練模型的過(guò)程中,一般來(lái)說(shuō)對(duì)弱分類(lèi)器的要求即足夠簡(jiǎn)單,并且有盡量低的方差值和偏差值。這是由于模型訓(xùn)練的過(guò)程就是不斷地降低偏差值并以此提高分類(lèi)器的精度,從而提高模型的精度。在弱分類(lèi)器的選擇上一般以分類(lèi)回歸樹(shù)為主,并且每棵分類(lèi)回歸樹(shù)的深度都較淺。最后將每輪迭代得到的弱分類(lèi)器進(jìn)行加權(quán)求和得到的總分類(lèi)器,就是我們最后要得到的加法模型。假設(shè)該模型一共訓(xùn)練M輪,每輪迭代產(chǎn)生一個(gè)弱分類(lèi)器。GBDT算法是通過(guò)極小化經(jīng)驗(yàn)風(fēng)險(xiǎn)來(lái)確定下一輪迭代出的弱分類(lèi)器的參數(shù)。GBDT算法可以選擇不同的損失函數(shù),包括0-1損失函數(shù),平方損失函數(shù),對(duì)數(shù)損失函數(shù)等等。不同的損失函數(shù)最后得到的差值不同,如果選擇平方損失函數(shù),那么這個(gè)差值就是殘差。構(gòu)建GBDT模型的關(guān)鍵點(diǎn):希望損失函數(shù)能夠不斷的減??;希望損失函數(shù)能夠盡可能快的減小??偠灾珿BDT算法的核心在于擬合回歸樹(shù)的算法。模型使用當(dāng)前的訓(xùn)練模型中損失函數(shù)的負(fù)梯度值作為提升樹(shù)回歸問(wèn)題中殘差的近似值來(lái)對(duì)回歸樹(shù)進(jìn)行擬合。并且這一過(guò)程在GBDT算法每輪迭代的時(shí)候重復(fù)進(jìn)行,并對(duì)弱學(xué)習(xí)器進(jìn)行更新。損失函數(shù)的負(fù)梯度值也在一輪輪迭代中不斷擬合,這樣每輪訓(xùn)練的時(shí)候都能夠讓損失函數(shù)盡可能快的減小,盡快的收斂達(dá)到局部最優(yōu)解或者全局最優(yōu)解。這才造就了GBDT算法強(qiáng)大的回歸能力。3.2.1DecisionTree:CART回歸樹(shù)首先,GBDT使用的決策樹(shù)是CART回歸樹(shù)。這取決于GBDT算法的特性:GBDT算法每次迭代都需要對(duì)連續(xù)的負(fù)梯度值進(jìn)行擬合,因此無(wú)論處理回歸問(wèn)題或者二分類(lèi)及多分類(lèi)的問(wèn)題,CART回歸樹(shù)都是都是決策樹(shù)的不二選擇?;貧w樹(shù)算法中,如何尋找最合適的劃分點(diǎn)對(duì)決策樹(shù)進(jìn)行劃分也是一大難題。回歸樹(shù)中所有特征因子可能的取值都可以作為回歸樹(shù)的劃分點(diǎn)。在分類(lèi)樹(shù)中,為了尋找最佳劃分點(diǎn),一般用熵或者基尼系數(shù)的純度作為標(biāo)準(zhǔn)對(duì)其進(jìn)行判斷。但如果想要對(duì)連續(xù)的樣本標(biāo)簽進(jìn)行衡量,上面的指標(biāo)便不再合適,這時(shí)一般采用平方誤差的指標(biāo)對(duì)模型擬合精度進(jìn)行評(píng)價(jià)?;貧w樹(shù)生成算法:輸入:訓(xùn)練數(shù)據(jù)集D;輸出:回歸樹(shù);在將訓(xùn)練數(shù)據(jù)集D輸入的空間中,把每個(gè)不同的區(qū)域遞歸劃分為兩個(gè)子區(qū)域并以此構(gòu)建二叉決策樹(shù)和決定每個(gè)子區(qū)域的輸出值。(1)選擇最佳切分變量a與切分點(diǎn)b;(2)用選擇的(a,b)劃分子區(qū)域并決定區(qū)域相應(yīng)的輸出值;(3)繼續(xù)對(duì)子區(qū)域調(diào)用步驟(1)和(2)的過(guò)程,直到滿足停止條件為止。(4)將輸入空間劃分為M個(gè)區(qū)域R1,R2...Rm,生成決策樹(shù):(3.1)3.2.2GradientBoosting:擬合負(fù)梯度??梯度提升樹(shù)(GrandientBoosting)是提升樹(shù)(BoostingTree)的一種改進(jìn)算法,那么先對(duì)提升樹(shù)的原理進(jìn)行分析。一、提升樹(shù)算法:初始化;對(duì)m=1,2,...,M:(a)計(jì)算殘差(3.2)(b)擬合殘差學(xué)習(xí)一個(gè)回歸樹(shù),得到(c)更新得到回歸問(wèn)題提升樹(shù):(3.3)二、GBDT算法GBDT算法將前面提到的回歸樹(shù)與擬合負(fù)梯度進(jìn)行結(jié)合,由弱學(xué)習(xí)器訓(xùn)練得到強(qiáng)學(xué)習(xí)器,并計(jì)算得出最佳擬合值。GBDT算法步驟如下:初始化弱學(xué)習(xí)器:(3.4)對(duì)m=1,2,...,M有:(a)對(duì)每個(gè)樣本i=1,2,...,N計(jì)算負(fù)梯度,即殘差:(3.5)(b)將得到的殘差數(shù)據(jù)作為樣本新的真實(shí)值,并將數(shù)據(jù)作為下一棵樹(shù)的訓(xùn)練數(shù)據(jù);(c)對(duì)葉子區(qū)域計(jì)算最佳擬合值:(3.6)(3)得到最終學(xué)習(xí)器。3.3結(jié)論總而言之,GBDT算法主要通過(guò)構(gòu)造弱學(xué)習(xí)器,對(duì)決策樹(shù)的結(jié)果進(jìn)行累加得到最終模型。GBDT算法可以通過(guò)自動(dòng)構(gòu)建CART樹(shù),不斷進(jìn)行迭代,以提高對(duì)數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確度。同時(shí)GBDT算法的一大優(yōu)勢(shì)在于它可以對(duì)非線性的數(shù)據(jù)進(jìn)行處理,包括連續(xù)值和離散值。除此之外GBDT在訓(xùn)練過(guò)程中使用了擁有強(qiáng)大異常數(shù)據(jù)處理能力的損失函數(shù),預(yù)測(cè)準(zhǔn)確率相比其它方法而言也更高。接下來(lái)使用GBDT算法對(duì)中美匯率預(yù)測(cè)進(jìn)行實(shí)證分析,觀察GBDT算法的表現(xiàn)如何。4中美匯率預(yù)測(cè)實(shí)證本文選取了四個(gè)宏觀經(jīng)濟(jì)的特征因子構(gòu)建多因子模型,將得到的數(shù)據(jù)集分為訓(xùn)練集和預(yù)測(cè)集,用訓(xùn)練集的數(shù)據(jù)訓(xùn)練模型,再將模型應(yīng)用于預(yù)測(cè)集的數(shù)據(jù)當(dāng)中,觀察數(shù)據(jù)擬合結(jié)果,對(duì)模型進(jìn)行評(píng)估。4.1數(shù)據(jù)選取本文選取的十一個(gè)宏觀因子分別為:全國(guó)銀行間同業(yè)拆借加權(quán)平均利率。該利率是根據(jù)全國(guó)范圍內(nèi)信用等級(jí)較高的銀行組成報(bào)價(jià)團(tuán)再自主報(bào)出的人民幣同業(yè)拆出利率計(jì)算確定的算術(shù)平均利率,是單利、無(wú)擔(dān)保、批發(fā)性利率。居民消費(fèi)價(jià)格指數(shù)。我國(guó)居民消費(fèi)價(jià)格指數(shù)采用國(guó)際通用做法,編制定基價(jià)格指數(shù)序列,將對(duì)比基期固定在2000年,即主要以2000年的城鄉(xiāng)居民消費(fèi)支出資料來(lái)確定基期年的消費(fèi)量,以2000年平均價(jià)格水平作為對(duì)比基數(shù),通過(guò)鏈?zhǔn)嚼瞎接?jì)算之后每一期的價(jià)格變化。其公式為:(4.1)其中:P--代表性消費(fèi)品的價(jià)格a--權(quán)重。貨幣總量。貨幣總量是指投入流通中的紙幣的總額。由于數(shù)據(jù)較大,對(duì)數(shù)據(jù)取對(duì)數(shù)。通貨膨脹率。通貨膨脹率,也稱(chēng)為物價(jià)變化率,主要用以衡量市場(chǎng)上貨幣貶值、通貨膨脹的程度大小,是超出實(shí)際需要的貨幣量與在市場(chǎng)上實(shí)際流通需要的貨幣量之比。貨幣在市場(chǎng)上的流通與商品價(jià)格,也就是消費(fèi)者價(jià)格有著最為直接的聯(lián)系。因此這里使用消費(fèi)者價(jià)格指數(shù)對(duì)通貨膨脹率進(jìn)行解釋?zhuān)脙r(jià)格指數(shù)的同比增長(zhǎng)率代表通貨膨脹率。香港貼現(xiàn)窗基本利率?;纠适怯米饔?jì)算經(jīng)貼現(xiàn)窗進(jìn)行回購(gòu)交易時(shí)適用的貼現(xiàn)率的基礎(chǔ)利率。目前基本利率定于當(dāng)前的美國(guó)聯(lián)邦基金利率目標(biāo)區(qū)間的下限加50基點(diǎn),或隔夜及1個(gè)月香港銀行同業(yè)拆息的5天移動(dòng)平均數(shù)的平均值,以較高者為準(zhǔn)。隔夜香港銀行同業(yè)拆出利率。香港隔夜離岸人民幣銀行同業(yè)拆放利率就是指香港銀行間以一天為期限互相拆借資金的利率。1個(gè)月香港銀行同業(yè)拆息定價(jià)。是指香港銀行間以一個(gè)月為期限互相拆借資金的利率。拆出利率。表示銀行間愿意貸款的利率。名義有效匯率指數(shù)。名義有效匯率指數(shù)是根據(jù)一定的權(quán)重對(duì)我國(guó)與若干樣本國(guó)家的名義雙邊匯率進(jìn)行加權(quán)得到的匯率。我國(guó)的名義有效匯率等于其貨幣與所有貿(mào)易伙伴國(guó)貨幣雙邊名義匯率的加權(quán)平均數(shù),實(shí)際有效匯率指數(shù)。實(shí)際有效匯率是剔除通貨膨脹對(duì)各國(guó)貨幣購(gòu)買(mǎi)力的影響,我國(guó)貨幣與所有貿(mào)易伙伴國(guó)貨幣雙邊名義匯率的加權(quán)平均數(shù)。美國(guó)居民消費(fèi)價(jià)格指數(shù)。美國(guó)發(fā)布的居民消費(fèi)價(jià)格指數(shù)是反映一定時(shí)期內(nèi)城市居民購(gòu)買(mǎi)的生活消費(fèi)品價(jià)格和服務(wù)項(xiàng)目?jī)r(jià)格的變動(dòng)趨勢(shì)和程度的相對(duì)數(shù),居民消費(fèi)價(jià)格指數(shù)的變化對(duì)貨幣政策和財(cái)政政策都可能產(chǎn)生影響。所有因子選取的都是從2000年1月至2015年5月以月為單位的數(shù)據(jù),共186條數(shù)據(jù)。最后采用的匯率數(shù)據(jù)是選取了2000年1月至2015年5月的中美匯率月度數(shù)據(jù)共186條。其中匯率的意義是1美元兌換人民幣的期末價(jià)格。再將2000年1月至2011年7月的共139條月度數(shù)據(jù)作為訓(xùn)練區(qū)間,將2011年8月至2015年5月的共47條數(shù)據(jù)作為預(yù)測(cè)區(qū)間。4.2識(shí)別嘈雜特征嘈雜特征容易造成模型過(guò)擬合,因此在建模之前識(shí)別嘈雜特征是有必要的。本文使用featexp方法對(duì)訓(xùn)練集和測(cè)試集的數(shù)據(jù)進(jìn)行趨勢(shì)相關(guān)性分析。分析結(jié)果見(jiàn)表4.1。表4.1趨勢(shì)相關(guān)系數(shù)表特征相關(guān)系數(shù)全國(guó)銀行間同業(yè)拆借加權(quán)平均利率0.945249居民消費(fèi)價(jià)格指數(shù)0.646904貨幣總量0.945249通貨膨脹率0.17253香港貼現(xiàn)窗基本利率0.949808隔夜香港銀行同業(yè)拆出利率0.9353271個(gè)月香港銀行同業(yè)拆息定價(jià)0.907916拆出利率0.949808名義有效匯率指數(shù)0.928032實(shí)際有效匯率指數(shù)0.937879美國(guó)居民價(jià)格指數(shù)0.996356可以看出在所有特征中,美國(guó)居民價(jià)格指數(shù)、實(shí)際有效匯率指數(shù)、名義有效匯率、拆出利率、香港貼現(xiàn)窗基本利率等趨勢(shì)相關(guān)性較高,可結(jié)合因子重要性分析進(jìn)行特征因子的篩選。4.3模型參數(shù)調(diào)整4.3.1弱分類(lèi)器數(shù)量選擇構(gòu)建模型得到可視化R2(1-偏差)隨著樹(shù)數(shù)量的變化趨勢(shì)圖4-1。圖4-1可視化R2變化趨勢(shì)圖從圖中可以看出,樹(shù)的數(shù)量提升對(duì)模型的影響有極限,最開(kāi)始,模型的表現(xiàn)會(huì)隨著樹(shù)的數(shù)量一起提升,但到達(dá)某個(gè)點(diǎn)之后,樹(shù)的數(shù)量越多,模型的效果沒(méi)有明顯的改變,這也說(shuō)明了暴力增加弱分類(lèi)器的數(shù)量不一定有效。當(dāng)弱分類(lèi)器數(shù)量等于960時(shí),模型的偏差最小。因此將弱分類(lèi)器數(shù)量更改為960。4.3.2loss損失函數(shù)選擇使用不同的損失函數(shù)對(duì)模型進(jìn)行分析,得到表4.2。表4.2泛化誤差表lossr2vargels0.9911160.0000090.000088lad0.9865720.0000300.000210huber0.9915300.0000060.000077quantile0.8329150.0037720.031690從表中可以看出,當(dāng)loss函數(shù)是huber函數(shù)時(shí),模型的r2最大,方差最低,模型的泛化誤差最低,綜合考慮用huber函數(shù)作為損失函數(shù)。通過(guò)對(duì)其它參數(shù)的分析,綜合考慮決定替換弱分類(lèi)器數(shù)量為960,并選擇huber函數(shù)作為損失函數(shù),再將函數(shù)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,得到最終模型,并使用最終模型進(jìn)行預(yù)測(cè)。4.4模型評(píng)估4.4.1用MSE函數(shù)評(píng)估模型使用損失函數(shù)中的均方誤差(MSE)來(lái)對(duì)調(diào)整后的模型進(jìn)行評(píng)估。MSE的計(jì)算公式為:(4.2)其中:為時(shí)間預(yù)測(cè)的波動(dòng)率;為t時(shí)間的已實(shí)現(xiàn)波動(dòng)率;T為預(yù)測(cè)區(qū)間的總數(shù)目。使用MSE函數(shù)對(duì)模型效果進(jìn)行評(píng)估,最后得分為0.013136653032801074。將預(yù)測(cè)集的預(yù)測(cè)值輸出為黑色實(shí)線,真實(shí)值輸出為紅色虛線,輸出結(jié)果為圖4-2。圖4-2模型預(yù)測(cè)結(jié)果4.4.2特征因子重要性評(píng)估用排列重要性方法對(duì)各特征因子重要性進(jìn)行評(píng)估,得到表4.3。表4.3重要性排列表權(quán)重特征1.4812±0.5853美國(guó)居民價(jià)格指數(shù)0.0039±0.0014貨幣總量0.0019±0.0007名義有效匯率指數(shù)0.0016±0.0005實(shí)際有效匯率指數(shù)0.0012±0.0004全國(guó)銀行間同業(yè)拆借加權(quán)平均利率0.0009±0.00011個(gè)月香港銀行同業(yè)拆息定價(jià)0.0008±0.0011居民消費(fèi)價(jià)格指數(shù)0.0005±0.0002拆出利率0.0003±0.0001隔夜香港銀行同業(yè)拆出利率0.0002±0.0001香港貼現(xiàn)窗基本利率0.0000±0.0000通貨膨脹率從表中可以看出美國(guó)居民價(jià)格指數(shù)的重要性十分顯著。部分依賴圖簡(jiǎn)稱(chēng)PDP圖,能夠展現(xiàn)出一個(gè)或兩個(gè)特征變量對(duì)模型預(yù)測(cè)結(jié)果影響的函數(shù)關(guān)系。特征選擇:當(dāng)某個(gè)特征的PDP曲線幾乎水平或者無(wú)規(guī)律抖動(dòng)的時(shí)候,這個(gè)特征可能是無(wú)用的特征;當(dāng)某個(gè)特征的PDP曲線非常陡峭的時(shí)候,說(shuō)明這個(gè)特征的貢獻(xiàn)度是比較大的。各特征PDP圖見(jiàn)圖4-2。圖4-3各特征PDP分析圖通過(guò)對(duì)各特征PDP圖的對(duì)比,發(fā)現(xiàn)美國(guó)居民價(jià)格指數(shù)對(duì)模型的貢獻(xiàn)度最為顯著。而其它因子的貢獻(xiàn)度較小。4.5結(jié)論在選取的十一個(gè)宏觀因子當(dāng)中,外匯美國(guó)居民價(jià)格指數(shù)因子相對(duì)于其它宏觀因子而言,相關(guān)系數(shù)最高,重要性最顯著,且貢獻(xiàn)度最高。最后訓(xùn)練出的模型擬合度較高,預(yù)測(cè)較為準(zhǔn)確。5模型總結(jié)5.1總結(jié)與反思本文選取了十一個(gè)宏觀因子構(gòu)建GBDT模型對(duì)匯率進(jìn)行預(yù)測(cè)。該模型的優(yōu)點(diǎn)在于在數(shù)據(jù)時(shí)間序列跨度較大且數(shù)據(jù)波動(dòng)性較大的情況下,仍表現(xiàn)出了較高的預(yù)測(cè)精度。說(shuō)明了GBDT模型對(duì)人民幣兌美元匯率的良好預(yù)測(cè)性能。除此之外,我發(fā)現(xiàn)在選取的因子當(dāng)中美國(guó)居民價(jià)格指數(shù)因子對(duì)模型貢獻(xiàn)度最高。而該模型的缺點(diǎn)在于在這十一個(gè)因子構(gòu)建出的模型中,除美國(guó)居民價(jià)格指數(shù)以外的因子貢獻(xiàn)度過(guò)低,即只找到了一個(gè)顯著性因子。在對(duì)模型的改進(jìn)上,我認(rèn)為可以選取更多的預(yù)測(cè)因子,例如GDP、產(chǎn)出缺口等匯率影響因素。除了特征的選擇,還可以嘗試對(duì)數(shù)據(jù)做離散化處理,觀察模型的表現(xiàn)。除此之外,在模型的選取上,可以選擇更多的機(jī)器學(xué)習(xí)算法。例如對(duì)匯率的時(shí)間序列構(gòu)建xgboost與LSTM等模型,或者將它們與時(shí)間序列模型相結(jié)合,并觀察不同模型的預(yù)測(cè)結(jié)果,尋找精度最高的模型。5.2研究意義美國(guó)一直穩(wěn)居當(dāng)今世界最大經(jīng)濟(jì)體的寶座,而中國(guó)后來(lái)居上,中國(guó)的國(guó)民生產(chǎn)總值也已達(dá)到世界第二的水平,僅僅次于美國(guó)。因此中國(guó)想要發(fā)展壯大,在其道路上必然有美國(guó)的身影,兩者在今后的發(fā)展道路上,上到經(jīng)濟(jì)戰(zhàn)略,下到民生生活,無(wú)論是在宏觀還是微觀上都有著密不可分的關(guān)系。而中美匯率就是衡量?jī)蓢?guó)經(jīng)濟(jì)關(guān)系的重要因子,它的變化對(duì)于兩國(guó)甚至是世界來(lái)說(shuō)都至關(guān)重要。而GBDT模型能夠在一定程度上對(duì)模型的波動(dòng)趨勢(shì)與波動(dòng)區(qū)間進(jìn)行預(yù)測(cè)和指導(dǎo)方向,這對(duì)于國(guó)家和匯率的投機(jī)者來(lái)說(shuō)都有一定的參考意義。5.3未來(lái)展望本文在使用機(jī)器學(xué)習(xí)算法對(duì)匯率預(yù)測(cè)進(jìn)行研究分析的道路上取得了一定的進(jìn)展,但仍有許多缺陷和遺憾沒(méi)有完成。由于自身學(xué)識(shí)的不足,對(duì)匯率的時(shí)間序列預(yù)測(cè)分析并沒(méi)有展示出深度的內(nèi)涵。從預(yù)測(cè)結(jié)論中可以看出,模型的建立仍有許多需要完善的部分。想要繼續(xù)對(duì)人民幣兌美元匯率進(jìn)行預(yù)測(cè)分析,我認(rèn)為可以選取更多的特征因子,并且嘗試將時(shí)間序列模型與GBDT模型相結(jié)合,觀察模型的擬合精度能否再有所提升。

參考文獻(xiàn)[1]操瑋,任思儒.基于LSTM與GARCH族混合模型的人民幣匯率波動(dòng)預(yù)測(cè)研究[J].計(jì)算機(jī)應(yīng)用研究,2020,37(S1):79-82.[2]戴曉楓,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論