版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、李斌等:學(xué)習(xí)驅(qū)動的基本面量化投資研究2019 年第 8 期附 錄正文未報(bào)告部分作為正文內(nèi)容的補(bǔ)充,本附錄中展示了以下內(nèi)容:1.附錄 1 展示了文中所采用學(xué)習(xí)算法的簡要說明2.附錄 2 展示了所有算法的調(diào)參初始參數(shù)池以及訓(xùn)練所得的最優(yōu)參數(shù)3.附錄 3 展示了文中所用 96 個(gè)因子的構(gòu)建方式4.附錄 4 展示了 96 個(gè)因子的描述性統(tǒng)計(jì)5.附錄 5-7 均為文中結(jié)果的穩(wěn)健性檢驗(yàn),其中附錄 5 展示了分別在 3/24/36的滑動窗口下進(jìn)行的全樣本實(shí)證結(jié)果;附錄 6 展示了剔除單因子多空組合中最高的 SIZE 因子后在 12滑動窗口下構(gòu)建模型的績效,結(jié)果顯示在 3滑動窗口,模型結(jié)果普遍較弱,但在 24
2、/36的滑動窗口以及剔除 SIZE 因子后對模型的績效均不存在明顯影響;附錄 7 展示了 13 種算法分別對應(yīng)的特征篩選結(jié)果(除單因子檢驗(yàn)外,均列示重要性排名前 20 位的因子,按照因子重要性從大到小排列)。6. 附錄 8-11 則采用傳統(tǒng)的資產(chǎn)定價(jià)方法對 96 個(gè)因子進(jìn)行了詳細(xì)的檢驗(yàn)。其中附錄 8 展示了對單因子排序分組構(gòu)建多空組合以及多頭組合和空頭組合的投資績效,分別報(bào)告等權(quán)重和市值組合的實(shí)證結(jié)果;附錄 9-11 則進(jìn)一步對 96 個(gè)因子分別采用 Fama-MacBeth回歸和雙變量分組檢驗(yàn)。7.附錄 12 中展示了正文部分采用 12滑動窗口時(shí),考慮三種不同成本以及基于最終篩選出的 16
3、項(xiàng)重要因子構(gòu)建的 12滑動窗口下各個(gè)模型投資績效月度的Newey-West (1987) t 值。1李斌等:學(xué)習(xí)驅(qū)動的基本面量化投資研究2019 年第 8 期索引學(xué)習(xí)驅(qū)動的基本面量化投資研究錯誤!未定義書簽。附錄 1:文中所采用學(xué)習(xí)算法的簡要說明5(一)(二)(三)線性回歸5組合模型5嶺回歸5(四) Lasso 回歸5(五)(六)(七)(八)(九)(十)彈性網(wǎng)絡(luò)回歸6偏最小二乘回歸6支持向量機(jī)6梯度提升樹7梯度提升樹7集成神經(jīng)網(wǎng)絡(luò)7(十一) 深度前饋網(wǎng)絡(luò)8(十二) 循環(huán)神經(jīng)網(wǎng)絡(luò)與長短記憶網(wǎng)絡(luò)8附錄 2:調(diào)參過程、初始參數(shù)池與最優(yōu)參數(shù)9附錄 3:96 個(gè)因子的構(gòu)建方式10(一)(二)(三)(四)
4、(五)(六)摩擦因子10動量因子13價(jià)值因子14成長因子16因子22財(cái)務(wù)性因子25附錄 4 因子描述性統(tǒng)計(jì)27表 4.1 因子描述性統(tǒng)計(jì)數(shù)值(數(shù)據(jù)區(qū)間:2017 年 1 月-2018 年 10 月)27附錄 5不同滑動窗口及剔除市值因子構(gòu)建模型績效32表 5.1表 5.2表 5.3表 5.4全樣本 3全樣本 24全樣本 36滑動窗口滑動窗口滑動窗口結(jié)果32結(jié)果33結(jié)果34算法構(gòu)建投資組合差異顯著性 NW-t 檢驗(yàn)結(jié)果(3/24/36) . 35附錄 6 剔除市值因子后 12表 6.1 剔除市值因子后 12滑動窗口結(jié)果36結(jié)果36滑動窗口附錄 7 各種特征選擇方式篩選出代表性因子集合37表 7.
5、1 單因子特征篩選結(jié)果(以等權(quán)多空組合 NW-t 值作為因子重要性度量指標(biāo)) . 37表 7.2 OLS 特征篩選結(jié)果(差值最大的前 20 位因子)382李斌等:學(xué)習(xí)驅(qū)動的基本面量化投資研究2019 年第 8 期表 7.3 FC 特征篩選結(jié)果(表 7.4 PLS 特征篩選結(jié)果( 表 7.5 Lasso 特征篩選結(jié)果( 表 7.6 Ridge 特征篩選結(jié)果(差值最大的前 20 位因子)39差值最大的前 20 位因子)40差值最大的前 20 位因子)41差值最大的前 20 位因子)42表 7.7et 特征篩選結(jié)果(差值最大的前 20 位因子)43表 7.8 SVM 特征篩選結(jié)果(表 7.9 EN-
6、ANN 特征篩選結(jié)果( 表 7.10 XGboost 特征篩選結(jié)果( 表 7.11 GBDT 特征篩選結(jié)果( 表 7.12 DFN 特征篩選結(jié)果(表 7.13 LSTM 特征篩選結(jié)果( 表 7.14 RNN 特征篩選結(jié)果(差值最大的前 20 位因子)44差值最大的前 20 位因子)45差值最大的前 20 位因子)46差值最大的前 20 位因子)47差值最大的前 20 位因子)48差值最大的前 20 位因子)49差值最大的前 20 位因子)50附錄 8 單因子顯著性檢驗(yàn)結(jié)果51表 8.1表 8.2表 8.3表 8.4表 8.5表 8.6單變量組合排序(十分位法)第 1 組投資組合績效-等權(quán)重51
7、單變量組合排序(十分位法)第 10 組投資組合績效-等權(quán)重55單變量組合排序(十分位法)多空組合投資績效-等權(quán)重59單變量組合排序(十分位法)第 1 組投資組合績效-市值單變量組合排序(十分位法)第 10 組投資組合績效-市值單變量組合排序(十分位法)多空組合投資績效-市值. 63. 67. 71附錄 9 Fama-MacBeth 回歸下的因子變量系數(shù)及 t 檢驗(yàn)顯著水平75表 9.1 Fama-MacBeth 回歸下的因子變量顯著水平75附錄 10 各項(xiàng)因子和規(guī)模(size)雙變量排序結(jié)果77表 10.1 96 個(gè)因子變量和規(guī)模的雙變量排序(5x5)第 1 組多空組合績效-等權(quán)重. 77表
8、10.2 96 個(gè)因子變量和規(guī)模的雙變量排序(5x5)第 2 組多空組合績效-等權(quán)重. 81表 10.3 96 個(gè)因子變量和規(guī)模的雙變量排序(5x5)第 3 組多空組合績效-等權(quán)重. 85表 10.4 96 個(gè)因子變量和規(guī)模的雙變量排序(5x5)第 4 組多空組合績效-等權(quán)重. 89表 10.5 96 個(gè)因子變量和規(guī)模的雙變量排序(5x5)第 5 組多空組合績效-等權(quán)重. 93表 10.6 96 個(gè)因子變量和規(guī)模的雙變量排序(5x5)第 1 組多空組合績效-市值. 97表 10.7 96 個(gè)因子變量和規(guī)模的雙變量排序(5x5)第 2 組多空組合績效-市值.101表 10.8 96 個(gè)因子變量和
9、規(guī)模的雙變量排序(5x5)第 3 組多空組合績效-市值.105表 10.9 96 個(gè)因子變量和規(guī)模的雙變量排序(5x5)第 4 組多空組合績效-市值.109表 10.10 96 個(gè)因子變量和規(guī)模的雙變量排序(5x5)第 5 組多空組合績效-市值加3李斌等:學(xué)習(xí)驅(qū)動的基本面量化投資研究2019 年第 8 期權(quán)113附錄 11 各項(xiàng)因子和賬面市值比(BM)雙變量排序結(jié)果117表 11.1 96 個(gè)因子變量和賬面市值比的雙變量排序(5x5)第 1 組多空組合績效-等權(quán)重117表 11.2 96 個(gè)因子變量和賬面市值比的雙變量排序(5x5)第 2 組多空組合績效-等權(quán)重121表 11.3 96 個(gè)因子
10、變量和賬面市值比的雙變量排序(5x5)第 3 組多空組合績效-等權(quán)重125表 11.4 96 個(gè)因子變量和賬面市值比的雙變量排序(5x5)第 4 組多空組合績效-等權(quán)重129表 11.5 96 個(gè)因子變量和賬面市值比的雙變量排序(5x5)第 5 組多空組合績效-等權(quán)重133表 11.6 96 個(gè)因子變量和賬面市值比的雙變量排序(5x5)第 1 組多空組合績效-市值.137表 11.7 96 個(gè)因子變量和賬面市值比的雙變量排序(5x5)第 2 組多空組合績效-市值.141表 11.8 96 個(gè)因子變量和賬面市值比的雙變量排序(5x5)第 3 組多空組合績效-市值.145表 11.9 96 個(gè)因子
11、變量和賬面市值比的雙變量排序(5x5)第 4 組多空組合績效-市值.149表 11.10 96 個(gè)因子變量和賬面市值比的雙變量排序(5x5)第 5 組多空組合績效-市值.153附錄 12 基于 12法投資績效月度滑動窗口在考慮成本/篩選出 16 項(xiàng)因子集合內(nèi)各個(gè)算Newey and West (1987) t 值157表 12.1 考慮成本時(shí)全樣本 12滑動窗口基本面量化投資策略的 Neweyand West (1987) t 值157表 12.2 篩選出的 16 項(xiàng)重要因子 12滑動窗口基本面量化投資策略的 Neweyand West (1987) t 值158參考文獻(xiàn)1594李斌等:學(xué)習(xí)驅(qū)
12、動的基本面量化投資研究2019 年第 8 期附錄 1:文中所采用(一) 線性回歸線性回歸(Linear Regression)在因變量(Y)和一個(gè)或多個(gè)自變量(X)之間建立一種線性關(guān)系,Y = 0 + 11 + 22 + + = T。對于給定的樣本,因變量真實(shí)值為,值為i = 。將函數(shù)的損失函數(shù)定義為平方損失函數(shù),1學(xué)習(xí)算法的簡要說明2() =( )=1其中m為有效樣本數(shù)量。通過最小化目標(biāo)損失函數(shù),即 ( )2,即可求解方=1程最優(yōu)擬合系數(shù)值。本文將其簡稱為OLS算法,并作為基準(zhǔn)模型與各類對比。學(xué)習(xí)算法進(jìn)行(二)組合模型組合模型(Forecast Combination, FC)的主要思想是通
13、過對自變量不同的模型進(jìn)行平均整體模型,其在于系數(shù)。目前常用的方法有算術(shù)平均法、最優(yōu)權(quán)數(shù)法和方差倒數(shù)法等。在本文中,F(xiàn)C模型由以單一因子作為自變量的OLS模型,具體構(gòu)建和方式如下:在訓(xùn)練集上,分別訓(xùn)練單個(gè)因子為自變量的最小二乘模型OLS1, OLS2, OLS3, , OLS。在測試集上,運(yùn)用所得的n個(gè)模型分別終。盡管單變量OLS模型訓(xùn)練成本小,但其樣本外率,并取所有模型的均值作為最不穩(wěn)定;而將其組合后的FC模型能夠提升樣本外的穩(wěn)定性。組合模型在金融研究中已有應(yīng)用,如Rapach.( 2010)運(yùn)用的投資組合組合模型組合了基于各個(gè)因子的單變量回歸模型,根據(jù)FC模型績效優(yōu)于基于OLS模型所構(gòu)建的投
14、資組合。(三) 嶺回歸所嶺回歸(ridge regression,Ridge)同樣是線性模型,其在標(biāo)準(zhǔn)線性回歸損失函數(shù)的基礎(chǔ)上加入2范數(shù)正則化項(xiàng),即12|2() =( ) + | |2=1其中 0。通過在損失函數(shù)中增加2范數(shù)正則化項(xiàng)約束參數(shù)以降低模型復(fù)雜度,可以防止過擬合,并增強(qiáng)了模型的樣本外值。(四) Lasso 回歸能力。通過最小化損失函數(shù)即可求解方程最優(yōu)擬合系數(shù)Lasso回歸(Least absolute shrinkage and selection operator,Lasso)也是線性模型,其在損失函數(shù)中增加一個(gè)正則項(xiàng)1范數(shù),即向量中各元素的絕對值之和作為正則化項(xiàng),即:12() =
15、( ) + |1=1其中 0。相較于2范數(shù)而言,1范數(shù)更易獲得稀疏解,因此Lasso也常被用于高維數(shù)據(jù)的5李斌等:學(xué)習(xí)驅(qū)動的基本面量化投資研究2019 年第 8 期特征篩選。在回歸過程中,越重要的特征對應(yīng)的系數(shù)絕對值越大,而與輸出變量相關(guān)性越低的特征,系數(shù)就越接近于0。在金融領(lǐng)域,F(xiàn)eng.(2019)運(yùn)用LASSO進(jìn)行的因子篩選方法,選出了具有更高統(tǒng)計(jì)顯著性的因子類別;Messmer and Audrino(2017)則在美國市場采用了LASSO算法的變種Adaptive LASSO從68個(gè)公司特征因子中篩選出了14個(gè)公司特征,并保有了不亞于68個(gè)公司特征的解釋能力。(五) 彈性網(wǎng)絡(luò)回歸彈性
16、網(wǎng)絡(luò)回歸(et Regression, Elastic)綜合了Lasso和嶺回歸兩種算法,同時(shí)使用L1和L2正則化,其損失函數(shù)可以表示為:12 | + 0.5 (1 1) |2() =( ) + 112=1不同于Lasso將部分系數(shù)清零的做法,彈性網(wǎng)絡(luò)回歸鼓勵在高度相關(guān)變量時(shí)的群體效應(yīng)。當(dāng)多個(gè)特征和另一個(gè)特征相關(guān)的情形下彈性網(wǎng)絡(luò)往往能夠取得較好的效果,Lasso 傾向于隨機(jī)選擇其中一個(gè)特征,而彈性網(wǎng)絡(luò)更傾向于選擇兩個(gè)特征。此外,上述回歸正則化方法(嶺回歸、Lasso回歸和Elastic回歸)往往在數(shù)據(jù)集中的變量具有高緯度以及變量間存在多重共線性時(shí)能夠保持較好的(六) 偏最小二乘回歸效果。偏最小
17、二乘回歸(Partial Least Squares Regression,PLS)方法在普通多元回歸的基礎(chǔ)上結(jié)合了主成分分析(Principal components analysis, PCA)和典型相關(guān)分析(Canonical Correlation Analysis,CCA)的思想,以解決回歸分析中自變量多重共線性的問題。考慮存在m個(gè)自變量1, 2, 。偏最小二乘回歸首先在自變量集合中提出第一主成分1(1是1, 2, 的線性組合,且盡可能多地提取原自變量集中的變異信息),然后建立因變量與1的回歸方程,如果方程已達(dá)到滿意的精度,則算法中止。否則繼續(xù)第二主成分的提取,直到達(dá)到滿意的精度。若
18、最終提取了r個(gè)成分1, 2, ,偏最小二乘回歸將通過建立因變量與1, 2, 的回歸式,并還原為因變量與原自變量的回歸方程。Light et al.( 2017)選用PLS檢驗(yàn)了公司特征對股票截面的能力。同樣,Gu etal.(2018)也發(fā)現(xiàn)PLS算法在美國市場股票(七) 支持向量機(jī)要好于傳統(tǒng)的OLS算法。支持向量機(jī)(support vector machine)是一種常用的分類算法,但當(dāng)為連續(xù)值時(shí),也可用于擬合回歸問題。模型通過尋求結(jié)構(gòu)化風(fēng)險(xiǎn)最小來提高學(xué)習(xí)機(jī)泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化,從而達(dá)到在統(tǒng)計(jì)樣本量較少的情況下,亦能獲得良好統(tǒng)計(jì)規(guī)律的目的。通俗來講,其基本模型定義為特征空
19、間上的間隔最大的線性分類器,即支持向量機(jī)的學(xué)習(xí)策略便是間隔最大化,最終可轉(zhuǎn)化為一個(gè)凸二次問題的求解。SVM 算法擁有低泛化誤差,可以解決高維問題等優(yōu)點(diǎn),但同時(shí)模型的結(jié)果對參數(shù)和核函數(shù)的選取非常敏感,模型的主要參數(shù)包括:核函數(shù)類型(kernel),備選核函數(shù)類型包含線性核(linear),高斯核(rbf),多項(xiàng)式核(poly)等;懲罰因子(C);核函數(shù)對應(yīng)的核系數(shù)()。6李斌等:學(xué)習(xí)驅(qū)動的基本面量化投資研究2019 年第 8 期(八) 梯度提升樹梯度提升樹(Gradient Boosting Decision Tree,GBDT) 是一種迭代的決策樹算法,由多棵決策樹組成,綜合所有樹的作為最終。
20、該算法的在于每棵樹學(xué)習(xí)之前所有樹的殘差;而為了消除殘差,模型在殘差減少的梯度(Gradient)方向上建立一個(gè)新的模型。因此在GBDT中,每個(gè)新樹的建立是為了使得之前模型的殘差沿梯度方向減少。此外,決策樹進(jìn)行分支時(shí)以最小化平方誤差為標(biāo)準(zhǔn),對每一個(gè)特征,每一個(gè)閾值進(jìn)行窮舉以尋求最優(yōu)的分割點(diǎn)。對于訓(xùn)練集Train = (1, 1), (1, 1), ,(, ),構(gòu)建梯度提升樹()的算法流程如下:初始化() = 0對于m = 1,2, , M,計(jì)算其殘差: = 1() = 1,2, , 對于N個(gè)殘差學(xué)習(xí)得到一個(gè)回歸樹T(x; )更新() = 1() + Train(x; )最終得到梯度提升樹:()
21、= T(x; )=1GBDT在較少的調(diào)參時(shí)間情況下能夠獲得相對較高的準(zhǔn)確率。同時(shí)由于使用的損失函數(shù)相對穩(wěn)健,GBDT算法對異常值的魯棒性非常強(qiáng),算法的主要參數(shù)包含:每個(gè)弱學(xué)習(xí)器的權(quán)重縮減系數(shù),即學(xué)習(xí)率();弱學(xué)習(xí)器的最大迭代次數(shù)(N);決策樹最大深度(maxdep)。現(xiàn)有研究中,Krauss.(2017)運(yùn)用梯度提升樹算法進(jìn)行標(biāo)準(zhǔn)普爾500指數(shù)成分股的運(yùn)動方向(九),并根據(jù)梯度提升樹結(jié)果構(gòu)建投資組合,績效明顯好于市場投資組合。Boosting算法以集成弱分類器的方式提高的穩(wěn)定性和準(zhǔn)確性,是學(xué)習(xí)領(lǐng)域中被廣泛使用的算法(Wu., 2008)。代表性算法是由Chen and Guestrin(201
22、6)提出的梯度提升樹(Extreme Gradient Boosting, Xgboost)。Xgboost通過Boosting算法來聚合作為基學(xué)習(xí)器的CART樹算法。因此Xgboost具有Boosting算法的優(yōu)點(diǎn),但訓(xùn)練成本低且結(jié)果更為精確。具體算法流程如下: 基于訓(xùn)練集構(gòu)建第一棵CART回歸樹,并計(jì)算出模型的殘差。 通過第一步計(jì)算出的殘差訓(xùn)練下一棵CART回歸樹,再次進(jìn)行殘差計(jì)算。 重復(fù)直到最大迭代次數(shù)。單就上述步驟而言,Xgboost同GBDT較為相似,都是以前一次的殘差作為下一步訓(xùn)練目標(biāo),且模型參數(shù)類型設(shè)置與GBDT算法基本一致,但兩者存在以下不同: 在擬合目標(biāo)的設(shè)置上,Xgboos
23、t在GBDT的基礎(chǔ)上加入了正則化項(xiàng),使模型具有更好的泛化能力; 在計(jì)算殘差過程中,XGBoost在GBDT的基礎(chǔ)上加入了二階導(dǎo)數(shù),提升了殘差估計(jì)的準(zhǔn)確性; 在CART回歸樹的葉節(jié)點(diǎn)劃分時(shí),GBDT算法采用的是最小化均方差,而XGBoost算法則是最大化上述方程中的正則化項(xiàng)。這些細(xì)節(jié)處理的不同使得XGBoost 常見的學(xué)習(xí)任務(wù)中取得了不俗的成果。(十) 集成神經(jīng)網(wǎng)絡(luò)于GBDT算法,在神經(jīng)網(wǎng)絡(luò)集成模型(Ensemble Artificial Neural Network,EN-ANN)是一種基于人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)的集成學(xué)習(xí)算法,主要單一 AN
24、N 模型由于初始化問題而產(chǎn)生的不穩(wěn)定現(xiàn)象。其是構(gòu)建多個(gè)不同初始化狀態(tài)下的簡單神經(jīng)網(wǎng)絡(luò),使得模型集成的可能性以提升結(jié)果的穩(wěn)定性。在訓(xùn)練過程中神經(jīng)網(wǎng)絡(luò)集成模型對每7李斌等:學(xué)習(xí)驅(qū)動的基本面量化投資研究2019 年第 8 期一個(gè) ANN 都進(jìn)行單獨(dú)的訓(xùn)練和優(yōu)化實(shí)現(xiàn)單個(gè)模型的近似最優(yōu)化。本文中神經(jīng)網(wǎng)絡(luò)集成模型的算法流程如下: 初始化每一個(gè)神經(jīng)網(wǎng)絡(luò)1, 2, 3, , 。 在訓(xùn)練集中,對每一個(gè)神經(jīng)網(wǎng)絡(luò)模型以最小化均方誤差作為優(yōu)化目標(biāo)進(jìn)行參數(shù)擬合。 選取訓(xùn)練集上均方誤差前 50%的神經(jīng)網(wǎng)絡(luò)作為池構(gòu)建神經(jīng)網(wǎng)絡(luò)集成模型,并輸出池的平均值。神經(jīng)網(wǎng)絡(luò)集成模型在有效提升模型穩(wěn)定性的同時(shí)能對由于初始化數(shù)值選取存在偏差
25、而陷入局部最優(yōu)解的訓(xùn)練器進(jìn)行甄別,篩選出相對穩(wěn)定的訓(xùn)練器進(jìn)行,在很大程度上能夠提升了的魯棒性。(十一) 深度前饋網(wǎng)絡(luò)深度前饋網(wǎng)絡(luò)模型(Deep Feedforward Network,DFN)是典型的深度學(xué)習(xí)算法(Goodfellow., 2016)。該模型的輸入特征和輸出變量間沒有反饋連接,整體保持由上至下的縱向?qū)蛹壗Y(jié)構(gòu),每一層由多個(gè)激活函數(shù)的神經(jīng)元組成。本文中 DFN 構(gòu)建的算法流程如下: 確定前饋網(wǎng)絡(luò)的層數(shù)和神經(jīng)元數(shù)目以及模型重復(fù)訓(xùn)練次數(shù);隨機(jī)初始化每一個(gè)神經(jīng)元中的參數(shù)。 以前饋網(wǎng)絡(luò)輸出結(jié)果同真實(shí)值之間的均方誤差作為模型損失函數(shù),在訓(xùn)練數(shù)據(jù)集上計(jì)算模型損失值。 將模型損失值導(dǎo)入訓(xùn)練器進(jìn)行
26、前饋網(wǎng)絡(luò)參數(shù)的重計(jì)算,重復(fù)步直到設(shè)定重復(fù)訓(xùn)練次數(shù)。深度前饋模型能夠很好地捕捉到非線性的金融時(shí)間序列數(shù)據(jù)中錯綜復(fù)雜的關(guān)系,能夠?qū)崿F(xiàn)較好的效果。同時(shí),多次訓(xùn)練能夠降低初始化問題所帶來的不穩(wěn)定性,使結(jié)果保持較好的穩(wěn)定性?,F(xiàn)有研究中,Krauss.(2017)運(yùn)用由 DFN 進(jìn)行了美國標(biāo)普 500 指數(shù)成分股的漲跌,并根據(jù)構(gòu)建了投資組合,取得了遠(yuǎn)超過市場基準(zhǔn)的率和夏普比率。(十二) 循環(huán)神經(jīng)網(wǎng)絡(luò)與長短記憶網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)在典型的深度學(xué)習(xí)算法上進(jìn)行了進(jìn)一步發(fā)展,使其能夠適用于序貫數(shù)據(jù)。股票市場數(shù)據(jù)具有一定的序貫性質(zhì),故而能夠采用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)
27、行處理。此外,由于循環(huán)神經(jīng)網(wǎng)絡(luò)易出現(xiàn)梯度消失現(xiàn)象,長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory)應(yīng)運(yùn)而生,其在傳統(tǒng) RNN 的基礎(chǔ)上進(jìn)行了改進(jìn),加入了長效記憶帶, 使長期數(shù)據(jù)得以傳遞,降低了梯度消失出現(xiàn)的可能性。故而本文采用傳統(tǒng) RNN 與 LSTM 兩種循環(huán)神經(jīng)網(wǎng)絡(luò)算法進(jìn)行分析。本文構(gòu)建循環(huán)神經(jīng)網(wǎng)絡(luò)的算法流程如下: 確定循環(huán)神經(jīng)網(wǎng)絡(luò)的層數(shù)和神經(jīng)元數(shù)目以及模型重復(fù)訓(xùn)練次數(shù);隨機(jī)初始化每一個(gè)神經(jīng)元中的參數(shù)。 以循環(huán)網(wǎng)絡(luò)輸出結(jié)果同真實(shí)值之間的均方誤差作為模型損失函數(shù),在訓(xùn)練數(shù)據(jù)集上計(jì)算模型損失值。 將模型損失值導(dǎo)入訓(xùn)練器進(jìn)行前饋網(wǎng)絡(luò)參數(shù)的重計(jì)算,重復(fù)步直到設(shè)定重復(fù)訓(xùn)練次數(shù)。由于循環(huán)
28、神經(jīng)網(wǎng)絡(luò)訓(xùn)練成本較高,本文主要進(jìn)行參數(shù)調(diào)優(yōu)的超參數(shù)有:學(xué)習(xí)率大?。ǎ?;循環(huán)神經(jīng)網(wǎng)絡(luò)層數(shù)(L);隱層神經(jīng)元個(gè)數(shù)(N)。8李斌等:學(xué)習(xí)驅(qū)動的基本面量化投資研究2019 年第 8 期附錄 2:調(diào)參過程、初始參數(shù)池與最優(yōu)參數(shù)本文統(tǒng)一采用網(wǎng)格調(diào)參(Grid Search)的方式得到所有算法的參數(shù)。首先設(shè)定參數(shù)池,然后在訓(xùn)練集上每個(gè)參數(shù)訓(xùn)練得到多空組合的投資。將訓(xùn)練集中表現(xiàn)最好的參數(shù)運(yùn)用于測試集,得到最終的投資績效。由于市場在時(shí)刻變化之中,理論上每個(gè)滑動窗口的最優(yōu)參數(shù)也會隨之變化。由于每期網(wǎng)格搜索的計(jì)算成本較高,本文的調(diào)參過程僅在第一個(gè)滑動窗口的訓(xùn)練集合內(nèi)進(jìn)行;在此后的窗口滑動過程中,模型參數(shù)保持不變。所
29、以在本研究中,不同時(shí)期的模型最優(yōu)參數(shù)是固定的,即為第一個(gè)滑動窗口訓(xùn)練所得的參數(shù)。表格 1 網(wǎng)格搜索的參數(shù)池及不同滑動窗口時(shí)的最優(yōu)參數(shù)9初始參數(shù)池3122436OLS-FC-PLSr=1,2r=2r=2r=1r=1lasso=5e-4, 1e-3,0.01=1e-3=5e-4=0.01=0.01ridge=0.1,0.01,0.005=0.1=0.005=0.1=0.005Elastic=0.1,0.01,0.0011 =0.3,0.7 =0.011=0.3 =1e-31=0.3 =0.011=0.7 =0.11=0.3SVRkernel=linear, rbf=1e-3,1e-4C=1e-41
30、e-3, 1e-2C=0.01=1e-3 kernel=linearC=0.001=1e-3 kernel=linearC=0.01=1e-3 kernel=rbfC=1e-4=1e-4 kernel=rbfEN-ANNbound=100,200,300p=0.3,0.5,0.7bound=100,p=0.3bound=100,p= 0.5bound= 200p= 0.7bound= 300p= 0.5GBDT=0.1,0.2,0.3maxdep=2,3N=100,150,200=0.1maxdep=2N=100=0.1maxdep=3N=100=0.1maxdep=2N=100=0.1max
31、dep=2N=100XGBoost=0.1,0.2,0.3maxdep=2,3N=100,150,200=0.1max_dep=2N=100=0.1max_dep=3N=100=0.1max_dep=2N=100=0.1max_dep=2N=100RNN= 1e-4, 1e-5,1e-6, L= 1,2,N= 128,256 = 1e-4, L =1,N=256 = 1e-4, L =1,N=256 = 1e-4 L =2,N=256 = 1e-6, L =1,N=256LSTM= 1e-4, 1e-5,1e-6, L = 1,2,N = 128,256 = 1e-4, L =2,N=256
32、= 1e-5, L =2,N=256 = 1e-4 L =1,N=256 = 1e-6, L =2,N=256DFN=0.1,0.01,0.001 batch=300,400,500=0.1batch=300=0.1batch=400=0.1batch=300=0.01batch=400李斌等:學(xué)習(xí)驅(qū)動的基本面量化投資研究2019 年第 8 期附錄 3:96 個(gè)因子的構(gòu)建方式(一)摩擦因子1.市值(Firm size,size)根據(jù)Banz (1981)計(jì)算股票市值,即每流通市值。在每月末(t),按照月末流通市值最小的 10% 的股票在第一組,流通市值將所有股票等分為 10 組。其中,流通市值
33、最大的 10%的股票在第十組。然后,計(jì)算下一(t+1)各組流通市值/等權(quán)重的股票組合的月率及第十組與第一組率之差即為因子率。以此類推,在每個(gè)月月末計(jì)算流通市值并重新分組、計(jì)算組合率。2.行業(yè)調(diào)整市值(Industry-adjusted size,size_ia)根據(jù)Asness, Porter and Stevens (2010) ,參考2012 版行業(yè)分類,去除金融類股票流通市值減去其所在行業(yè)所有后共包含 18 個(gè)行業(yè),在每月末(t),將每只股票的股票流通市值均值,即為 size_ia 因子值,按照月末 size_ia 將所有股票等分為 10 組。其中,size_ia 最小的 10% 的股票
34、在第一組,size_ia 最大的 10%的股票在第十組。然后,計(jì)算下一(t+1)各組流通市值/等權(quán)重的股票組合的月率及第十組與第一組率之差即為因子率,以此類推。3.系統(tǒng)性風(fēng)險(xiǎn)(market beta, beta)根據(jù) Fama and MacBeth (1973)所得系統(tǒng)性風(fēng)險(xiǎn)計(jì)算方式為 t-11 月初到 t 月末(過去一年)個(gè)股日有 120 個(gè)其中,率同等權(quán)重市場投資組合的日率回歸系數(shù),在計(jì)算系統(tǒng)性風(fēng)險(xiǎn)時(shí),至少日。在每的月末(t),按照月末beta 值將所有股票等分為 10 組。流通市值最小的 10%的股票在第一組,流通市值最大的 10%的股票在第十組。然后,計(jì)算下一(t+1)各組流通市值的
35、股票組合的月率及第十組與第一組率之差(即為因子率)。以此類推,在每月末計(jì)算流通市值并重新分組、計(jì)算組合率。4.系統(tǒng)性風(fēng)險(xiǎn)的平方(square of market beta, betasq)根據(jù)Fama and MacBeth (1973)所得系統(tǒng)性風(fēng)險(xiǎn)的平方因子計(jì)算方式為t 月系統(tǒng)性風(fēng)險(xiǎn)的平方。在計(jì)算出來t 月的因子數(shù)據(jù)后,根據(jù)因子數(shù)據(jù)從大到小將股票分成十組。然后計(jì)算下一(t+1)各組股票投資組合的月率以及第十組與第一組率之差作為因子率。以此類推,每月月末都進(jìn)行一次投資組合的重構(gòu),進(jìn)行因子檢測。5.Dimson-beta(betad)根據(jù)Dimson (1979)所得Dimson-beta 計(jì)
36、算方式為 t-11 月初到 t 月末(過去一年)的個(gè)股日率同包含前后兩天的市場投資組合的日率的回歸系數(shù)之和。, = + ,1 ,1 + ,2 , + ,3 ,+1 + ,1 + ,2 + ,3=在每月月末按照上述方法計(jì)算出每只股票的 Dimon-beta。在計(jì)算 Dimon-beta 時(shí),至少有 120 個(gè)然后計(jì)算下一日。在計(jì)算出來 t 月的因子數(shù)據(jù)后,根據(jù)因子數(shù)據(jù)從大到小將股票分成十組。(t+1)各組股票投資組合的月率以及第十組與第一組率之差作為因子率。以此類推,每月月末都進(jìn)行一次投資組合的重構(gòu),進(jìn)行因子檢測。10李斌等:學(xué)習(xí)驅(qū)動的基本面量化投資研究2019 年第 8 期6.特定波動率(id
37、iosyncratic volatility, idvol)根據(jù)Ang, Hodrick, Xing and Zhang (2010)所得特定波動率因子構(gòu)建方式為:將股票率對市場等權(quán)重投資組合日率進(jìn)行回歸,所得殘差的標(biāo)準(zhǔn)差即為特定波動率,計(jì)算 t 期特定波動率進(jìn)行回歸時(shí)所選擇數(shù)據(jù)時(shí)間跨度為選擇 t-11 月初到 t 月末。其回歸模型為:, = + , + ,其中和,分別是股票和市場大盤指數(shù)的率。市場投資組合為上證所有股票率。在計(jì)算(t+1)等權(quán)重構(gòu)造的股票組合的率。計(jì)算特定波動率時(shí),要求至少有 120 個(gè)日出來 t 月的因子數(shù)據(jù)后,根據(jù)因子數(shù)據(jù)從大到小將股票分成十組。然后計(jì)算下一各組股票投資組
38、合的月率以及第十組與第一組率之差作為因子率。以此類推,每月月末都進(jìn)行一次投資組合的重構(gòu),進(jìn)行因子檢測。7.總波動率(total volatility, vol)根據(jù)Ang, Hodrick, Xing and Zhang (2010)所得總波動率因子計(jì)算方式為 t 月月內(nèi)個(gè)股日率的標(biāo)準(zhǔn)差,在計(jì)算總波動率時(shí),需要至少有 10 個(gè)日數(shù)據(jù)。在計(jì)算出來 t 月的因子數(shù)據(jù)后,根據(jù)因子數(shù)據(jù)從大到小 volatility,股票分成十組。然后計(jì)算下一(t+1)各組股票投資組合的月率以及第十組與第一組率之差作為因子率。以此類推,每月月末都進(jìn)行一次投資組合的重構(gòu),進(jìn)行因子檢測。8.特定偏態(tài)(total skewn
39、ess, idskew)根據(jù)Boyer, Mitton and Vorkink (2010)所得特定偏態(tài)因子構(gòu)建方法為將股票日率對市場等權(quán)重投資組合日率進(jìn)行回歸,所得殘差的偏度即為特定偏態(tài),計(jì)算 t 期特定偏態(tài)進(jìn)行回歸時(shí)所選擇數(shù)據(jù)時(shí)間跨度為選擇 t-11 月初到t 月末。其回歸模型為:, = + , + ,其中和,分別是股票和市場大盤指數(shù)的率。市場投資組合為上證所有股票率。在計(jì)算出(t+1)各等權(quán)重構(gòu)造的股票組合的率。計(jì)算特定偏態(tài)時(shí),要求至少有 120 個(gè)日來 t 月的因子數(shù)據(jù)后,根據(jù)因子數(shù)據(jù)從大到小將股票分成十組。然后計(jì)算下一組股票投資組合的月率以及第十組與第一組率之差作為因子率。以此類推,
40、每月月末都進(jìn)行一次投資組合的重構(gòu),進(jìn)行因子檢測。9.總偏態(tài)(total skewness, skew)根據(jù)Amaya, Christoffersen, Jacobs and Vasquez (2015)所得總偏態(tài)構(gòu)建方法為 t 月的總偏態(tài)為 t-12 月份末到 t 月份末(即過去一年)的股票日率的偏態(tài)。計(jì)算總偏態(tài)時(shí),要求至少有 120 個(gè)日率。在計(jì)算出來 t 月的因子數(shù)據(jù)后,根據(jù)因子數(shù)據(jù)從大到小將股票分成十組。然后計(jì)算下一(t+1)各組股票投資組合的月率以及第十組與第一組率之差作為因子率。以此類推,每月月末都進(jìn)行一次投資組合的重構(gòu),進(jìn)行因子檢測。10. 共同偏態(tài)(coskewness, cos
41、kew)根據(jù)Harvey and Siddique (1999)所得共同偏態(tài)因子構(gòu)建方式為:計(jì)算 t 期共同偏態(tài)因子,則對 t-11 月初到 t 月末至少包含 120 個(gè)合數(shù)據(jù)進(jìn)行如下回歸,其中市場投資組合日數(shù)據(jù)的個(gè)股日率以及等權(quán)重市場投資組率平方的系數(shù)即為 t 期共同偏態(tài)數(shù)值。 + , + 2, =, + ,其中和,分別是股票和市場大盤指數(shù)的率。市場投資組合為上證所有股票11李斌等:學(xué)習(xí)驅(qū)動的基本面量化投資研究2019 年第 8 期等權(quán)重構(gòu)造的股票組合的率。在計(jì)算出來 t 月的因子數(shù)據(jù)后,根據(jù)因子數(shù)據(jù)從大到小將股票分成十組。然后計(jì)算下一(t+1)各組股票投資組合的月率以及第十組與第一組率之差
42、作為因子率。以此類推,每月月末都進(jìn)行一次投資組合的重構(gòu),進(jìn)行因子檢測。11.換手率(turnover, turn)根據(jù)Datar, Y. Naik and Radcliffe (1998)所得換手率因子構(gòu)建方式為 t-11 月初到 t 月末換手率的平均值,其中換手率計(jì)算方式為日量除以流通股數(shù)。在計(jì)算換手率因子時(shí)至少有 120 個(gè)日數(shù)據(jù)。在計(jì)算出來 t 月的因子數(shù)據(jù)后,根據(jù)因子數(shù)據(jù)從大到小將股票分成十組。然后計(jì)算下一(t+1)各組股票投資組合的月率以及第十組與第一組收益率之差作為因子率。以此類推,每月月末都進(jìn)行一次投資組合的重構(gòu),進(jìn)行因子檢測。12.換手率的波動率(volatility of t
43、urnover, std_turn)根據(jù)Tarun Chordia and Anshuman (2001)所得換手率的波動率計(jì)算方法為t 月內(nèi)日換手率的標(biāo)準(zhǔn)差即為 t 月的換手率的波動率,其中計(jì)算時(shí)至少有 10 個(gè)日的數(shù)據(jù)。在計(jì)算出來t 月的因子數(shù)據(jù)后,根據(jù)因子數(shù)據(jù)從大到小將股票分成十組。然后計(jì)算下一(t+1)各組股票投資組合的月率以及第十組與第一組率之差作為因子率。以此類推,每月月末都進(jìn)行一次投資組合的重構(gòu),進(jìn)行因子檢測。13.額(volume in dollar, volumed)根據(jù) Tarun Chordia and Anshuman (2001)所得額因子計(jì)算方式為:將 t-11 月初到 t月末額取均值即為 t 期額因子,在計(jì)算因子時(shí)至少有 120 個(gè)日數(shù)據(jù)。在計(jì)算出來 t 月的因子數(shù)據(jù)后,根據(jù)因子數(shù)據(jù)從大到小將股票分成十組。然后計(jì)算下一(t+1)各組股票投資組合的月率以及第十組與第一組率之差作為因子率。以此類推,每月月末都進(jìn)行一次投資組合的重構(gòu),進(jìn)行因子檢測。14.額波動率(volatility of volume in dollar, std_vol)根據(jù)Tarun Chordia and Anshuman (2001)所得額波動率因子計(jì)算方式為:t 月月內(nèi)交易額的標(biāo)準(zhǔn)差即為 t 期額波動率因子。計(jì)算該因子時(shí)要求至少有 10 個(gè)日數(shù)據(jù)。在計(jì)算出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 某某市科技企業(yè)孵化器建設(shè)項(xiàng)目可行性研究報(bào)告
- 2025陜西省建筑安全員《A證》考試題庫
- 2025青海建筑安全員A證考試題庫附答案
- 團(tuán)隊(duì)管理經(jīng)驗(yàn)分享培訓(xùn)課件
- 世界觀與方法論的關(guān)系
- JJF(桂)-稱重容罐校準(zhǔn)規(guī)范試驗(yàn)報(bào)告
- 三角形王國 小班數(shù)學(xué)
- 《惡性青光眼》課件
- 解題方法突破 分類討論課件-名師微課堂
- 《基因變異疾病》課件
- 2023-2024學(xué)年浙江省奉化市小學(xué)語文三年級上冊期末自測預(yù)測題
- JJF 1636-2017交流電阻箱校準(zhǔn)規(guī)范
- GB/T 40537-2021航天產(chǎn)品裕度設(shè)計(jì)指南
- 政協(xié)個(gè)人簡歷模板12篇
- 木工工具及使用方法課件
- 節(jié)能減排獎懲制度(5篇)
- 部編六年級語文上冊 讀音易錯字
- COPD(慢性阻塞性肺病)診治指南(2023年中文版)
- 氣相色譜儀作業(yè)指導(dǎo)書
- 跨高速橋梁施工保通專項(xiàng)方案
- 鐵路貨車主要輪對型式和基本尺寸
評論
0/150
提交評論