2019年人工智能技術(shù)分析報(bào)告_第1頁(yè)
2019年人工智能技術(shù)分析報(bào)告_第2頁(yè)
2019年人工智能技術(shù)分析報(bào)告_第3頁(yè)
2019年人工智能技術(shù)分析報(bào)告_第4頁(yè)
2019年人工智能技術(shù)分析報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩15頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2019年人工智能技術(shù)分析報(bào)告

正文目錄本文研究導(dǎo)讀....................................................................................................................4時(shí)序交叉驗(yàn)證的改進(jìn).........................................................................................................5K折和時(shí)序交叉驗(yàn)證..................................................................................................5改進(jìn)思路更合理的基線模型.............................................................................6改進(jìn)思路更精細(xì)的切分方法.............................................................................7方法...................................................................................................................................8人工智能選股模型測(cè)試流程.......................................................................................8單因子測(cè)試..............................................................................................................10回歸法和IC值分析法......................................................................................10分層回測(cè)法......................................................................................................10結(jié)果.................................................................................................................................11最優(yōu)超參數(shù)..............................................................................................................11模型性能..................................................................................................................12單因子測(cè)試..............................................................................................................13構(gòu)建策略組合及回測(cè)分析........................................................................................15總結(jié)和討論......................................................................................................................18附錄:分組時(shí)序交叉驗(yàn)證的代碼實(shí)現(xiàn)..............................................................................19修改model_selection包的_split.py........................................................................19修改model_selection包的__init__.py....................................................................20主函數(shù)中調(diào)用類..................................................................21圖表目錄圖表:K折交叉驗(yàn)證示意圖()............................................................................5圖表:時(shí)序交叉驗(yàn)證示意圖(折數(shù)).......................................................................5圖表:新基線模型:訓(xùn)練集折半的K折交叉驗(yàn)證示意圖().............................6圖表:新基線模型:亂序遞進(jìn)式交叉驗(yàn)證示意圖(折數(shù)....................................6圖表:分組時(shí)序交叉驗(yàn)證示意圖(折數(shù))................................................................7圖表:新基線模型:亂序分組遞進(jìn)式交叉驗(yàn)證示意圖(折數(shù))............................7圖表:本文測(cè)試的六種交叉驗(yàn)證方法匯總....................................................................7圖表:人工智能選股模型測(cè)試流程示意圖....................................................................8圖表:年度滾動(dòng)訓(xùn)練示意圖..........................................................................................8圖表:選股模型中涉及的全部因子及其描述..............................................................9圖表:選股模型超參數(shù)和調(diào)參范圍...........................................................................10圖表:模型歷年滾動(dòng)訓(xùn)練最優(yōu)超參數(shù).......................................................................11圖表:六種交叉驗(yàn)證方法模型性能對(duì)比(回測(cè)期)..............122圖表:邏輯回歸各交叉驗(yàn)證相對(duì)K折之差的逐月累積值................................12圖表:XGBoost各交叉驗(yàn)證相對(duì)K折之差的逐月累積值...............................12圖表:六種交叉驗(yàn)證方法單因子回歸法和IC值分析結(jié)果對(duì)比(回測(cè)期)..................................................................................................13圖表:邏輯回歸各交叉驗(yàn)證相對(duì)K折因子收益率之差的逐月累積值.......................14圖表:XGBoost各交叉驗(yàn)證相對(duì)K折因子收益率之差的逐月累積值.......................14圖表:邏輯回歸各交叉驗(yàn)證相對(duì)K折RankIC之差的逐月累積值............................14圖表:XGBoost各交叉驗(yàn)證相對(duì)K折RankIC之差的逐月累積值...........................14圖表:六種交叉驗(yàn)證方法單因子分層回測(cè)結(jié)果對(duì)比(回測(cè)期)........................................................................................................................................15圖表:六種交叉驗(yàn)證方法單因子分層回測(cè)組合詳細(xì)績(jī)效分析(回測(cè)期)..................................................................................................152圖表:基于六種交叉驗(yàn)證方法構(gòu)建全A回測(cè)期)......................................................................................16圖表:基于六種交叉驗(yàn)證方法構(gòu)建全AXGBoost為基學(xué)習(xí)器,回測(cè)期)......................................................................................17圖表:model_selection包的_split.py中新增類..................19圖表:model_selection包的__init__.py中新增類..............20圖表:主函數(shù)中調(diào)用類........................................................213本文研究導(dǎo)讀制度選拔優(yōu)秀的基金經(jīng)理。作為機(jī)器學(xué)習(xí)的頂層設(shè)計(jì)部分,交叉驗(yàn)證理應(yīng)受到更多重視,其重要性不亞于挑選算法本身。的傳統(tǒng)方法是KK折交叉驗(yàn)證應(yīng)用于時(shí)間序列數(shù)據(jù)存在模型策略能夠獲得更高并且更穩(wěn)定的收益。本文是對(duì)上篇報(bào)告的拾遺和改進(jìn),從以下兩個(gè)角度進(jìn)行探討:1..上篇報(bào)告的基線模型(model)不合理,無法區(qū)分時(shí)序交叉驗(yàn)證帶來的提升K希望厘清時(shí)序交叉驗(yàn)證帶來提升的真實(shí)原因;2上篇報(bào)告對(duì)訓(xùn)練集和驗(yàn)證集的切分不夠精細(xì),可能出現(xiàn)同一月份樣本一部分屬于訓(xùn)練集一部分屬于驗(yàn)證集,違背了時(shí)序交叉驗(yàn)證的本意。本文對(duì)基于的機(jī)器學(xué)習(xí)庫(kù)scikit-learn的model_selection而實(shí)現(xiàn)更精細(xì)的訓(xùn)練集和驗(yàn)證集切分。K小幅提升模型表現(xiàn)。4時(shí)序交叉驗(yàn)證的改進(jìn)本研究共測(cè)試六種交叉驗(yàn)證方法,分為三組:1.“K其中前者為基線模型作對(duì)照之用,后者是上篇報(bào)告推薦使用的方法?!坝?xùn)練集折半的K1提出的兩種新的基線模型?;€模型仍作對(duì)照之用,不是原始方法的提升,目的是探索時(shí)序交叉驗(yàn)證帶來提升的真實(shí)原因?!胺纸M時(shí)序交叉驗(yàn)證”和“亂序分組遞進(jìn)式交叉驗(yàn)證”是基于改進(jìn)思路2提出的兩種新方法。其中前者是本篇報(bào)告推薦使用的方法,后者是針對(duì)前者單獨(dú)設(shè)計(jì)的新基線模型。下面我們將逐一介紹六種交叉驗(yàn)證方法。K折和時(shí)序交叉驗(yàn)證K折交叉驗(yàn)證(k-foldcross-validation)是最經(jīng)典和最常用的交叉驗(yàn)證方法之一。如圖表1KK在的1KK個(gè)驗(yàn)證集的平均正確率(或F1分?jǐn)?shù)、、平方損失、對(duì)數(shù)損失等其它模型評(píng)價(jià)指標(biāo))用以衡量該模型(或該組超參數(shù))的整體表現(xiàn)。timeseriescross-validation2留時(shí)序信息的數(shù)據(jù)等分(或依據(jù)其它標(biāo)準(zhǔn)切分)成i次驗(yàn)證時(shí)取第份作為1至iKK個(gè)驗(yàn)證集的平均表現(xiàn)作為模型間比較的依據(jù)。K折交叉驗(yàn)證廣泛應(yīng)用于圖像識(shí)別、語音識(shí)別、自然語言處理等機(jī)器學(xué)習(xí)技術(shù)最為活躍的K折交叉驗(yàn)證的使用前提是樣本服從獨(dú)立同分布。圖像、語音、自然語言等領(lǐng)域的數(shù)據(jù)通常滿足獨(dú)立同分布原則,而金融領(lǐng)域的時(shí)間序列數(shù)據(jù)往往存在較強(qiáng)的時(shí)序相關(guān)性。理論上,KK折交叉驗(yàn)證仍被大量地、錯(cuò)誤地使用。圖表:K折交叉驗(yàn)證示意圖()圖表:時(shí)序交叉驗(yàn)證示意圖(折數(shù))資料來源:XXX市場(chǎng)研究部資料來源:XXX市場(chǎng)研究部AK折和時(shí)序這兩種交叉驗(yàn)K測(cè)試集上表現(xiàn)更好,表現(xiàn)出更低的過擬合程度;時(shí)序交叉驗(yàn)證傾向于選擇超參數(shù)“簡(jiǎn)單”5略有體現(xiàn),而在XGBoost等復(fù)雜模型上體現(xiàn)更為明顯。借助時(shí)序交叉驗(yàn)證的機(jī)器學(xué)習(xí)選股策略能夠獲得更高并且更穩(wěn)定的收益。然而,上述研究存在不完美之處,以下試舉兩例說明,同時(shí)引申出兩種改進(jìn)思路。改進(jìn)思路1——更合理的基線模型上篇報(bào)告的第一處缺陷在于基線模型設(shè)置不合理。我們希望證明“時(shí)序”優(yōu)于“K因此將KK折交叉驗(yàn)證的核心區(qū)別為以下兩點(diǎn),這兩點(diǎn)也可視作時(shí)序交叉驗(yàn)證帶來提升的可能原因:1..時(shí)序交叉驗(yàn)證保留樣本的時(shí)序信息(假設(shè)2時(shí)序交叉驗(yàn)證使用更少(接近一半)的樣本(假設(shè)當(dāng)我們采用K用更少樣本(假設(shè)K折交叉驗(yàn)證對(duì)一半樣本進(jìn)行訓(xùn)練和調(diào)參,就可能得到和時(shí)序交叉驗(yàn)證同樣好的表現(xiàn)。然而這和我們采用保留樣本時(shí)序信息(假設(shè))的時(shí)序交來提升的真實(shí)原因。折半的K提升確實(shí)源于時(shí)序信息的保留。訓(xùn)練集折半的K折交叉驗(yàn)證如圖表3K息(假設(shè))不是時(shí)序交叉驗(yàn)證帶來提升的主要原因;類似地,如果該方法表現(xiàn)較差,接近于K要原因。圖表:新基線模型:訓(xùn)練集折半的K折交叉驗(yàn)證示意圖()圖表:新基線模型:亂序遞進(jìn)式交叉驗(yàn)證示意圖(折數(shù))資料來源:XXX市場(chǎng)研究部資料來源:XXX市場(chǎng)研究部亂序遞進(jìn)式交叉驗(yàn)證如圖表4練集折半的K折交叉驗(yàn)證類似,不再贅述。6改進(jìn)思路2——更精細(xì)的切分方法用scikit-learn庫(kù)model_selection包下的i次驗(yàn)證時(shí)取前i簡(jiǎn)單調(diào)用部分出現(xiàn)在訓(xùn)練集部分出現(xiàn)在驗(yàn)證集,違背了時(shí)序交叉驗(yàn)證的本意。scikit-learn庫(kù)的model_selection包進(jìn)行GroupTimeSeriesSplitgroupedtimeseriescross-validation傳遞給格位于訓(xùn)練集之后,如圖表5所示。分組時(shí)序交叉驗(yàn)證的難點(diǎn)不在于方法的構(gòu)想,而在于代碼實(shí)現(xiàn)。本文附錄部分介紹了對(duì)scikit-learn庫(kù)model_selection類以及在主函數(shù)中調(diào)用該類的詳細(xì)方法。6所示。該方法用于模型比較的邏輯和其余兩個(gè)基線模型相似,不再贅述。圖表:分組時(shí)序交叉驗(yàn)證示意圖(折數(shù))圖表:新基線模型:亂序分組遞進(jìn)式交叉驗(yàn)證示意圖(折數(shù))資料來源:XXX市場(chǎng)研究部資料來源:XXX市場(chǎng)研究部下表是對(duì)本文測(cè)試的六種交叉驗(yàn)證方法的匯總。圖表:本文測(cè)試的六種交叉驗(yàn)證方法匯總交叉驗(yàn)證方法描述是否保留相比K折是否訓(xùn)練集驗(yàn)證集是否按月份精確切分?時(shí)序信息?使用更少樣本?K折原始基線模型時(shí)序原始推薦模型√√√√√√√訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序本文新基線模型1本文新基線模型2本文推薦模型√亂序分組遞進(jìn)式本文新基線模型3資料來源:XXX市場(chǎng)研究部7方法人工智能選股模型測(cè)試流程圖表:人工智能選股模型測(cè)試流程示意圖滾動(dòng)訓(xùn)練集和驗(yàn)證集合成數(shù)據(jù)獲取特征和標(biāo)簽提取特征預(yù)處理交叉驗(yàn)證調(diào)參模型評(píng)價(jià)樣本外測(cè)試樣本內(nèi)訓(xùn)練資料來源:XXX市場(chǎng)研究部本文選用邏輯回歸和測(cè)試流程包含如下步驟:123.?dāng)?shù)據(jù)獲?。篈上市3個(gè)月內(nèi)的股票,每只股票視作一個(gè)樣本?;販y(cè)區(qū)間:年1月日至年1月.特征和標(biāo)簽提?。好總€(gè)自然月的最后一個(gè)交易日,計(jì)算之前報(bào)告里的個(gè)因子暴露度,作為樣本的原始特征,因子池如圖表所示。計(jì)算下一整個(gè)自然月的個(gè)股超額收益(以滬深的股票作為正例(y=30%的股票作為負(fù)例(y=.特征預(yù)處理:中位數(shù)去極值:設(shè)第T期某因子在所有個(gè)股上的暴露度序列為?,?為該序列??中位數(shù),?1為序列??|的中位數(shù),則將序列?中所有大于?+?1的數(shù)????重設(shè)為?+5?,將序列?中所有小于??5?的數(shù)重設(shè)為???1;??1???級(jí)行業(yè)相同個(gè)股的平均值;c)做線性回歸,取殘差作為新的因子暴露度;標(biāo)準(zhǔn)化:將中性化處理后的因子暴露度序列減去其現(xiàn)在的均值、除以其標(biāo)準(zhǔn)差,得到一個(gè)新的近似服從N(0,1)分布的序列。4.滾動(dòng)訓(xùn)練集和驗(yàn)證集的合成:由于月度滾動(dòng)訓(xùn)練模型的時(shí)間開銷較大,本文采用年度滾動(dòng)訓(xùn)練方式,全體樣本內(nèi)外數(shù)據(jù)共分為八個(gè)階段,如下圖所示。例如預(yù)測(cè)年2005~2010年共T至個(gè)月合并作為樣本內(nèi)數(shù)據(jù)。根據(jù)不同的交叉驗(yàn)證方法(圖表均為66K折交叉驗(yàn)證和訓(xùn)練集折半的K折交叉驗(yàn)證,驗(yàn)證次數(shù)為12次;對(duì)于其余四種交叉驗(yàn)證方法,驗(yàn)證次數(shù)為次。圖表:年度滾動(dòng)訓(xùn)練示意圖資料來源:XXX市場(chǎng)研究部8圖表:選股模型中涉及的全部因子及其描述大類因子具體因子因子描述因子方向估值估值估值估值估值估值估值估值成長(zhǎng)成長(zhǎng)成長(zhǎng)成長(zhǎng)EP凈利潤(rùn)()總市值11EPcutBP扣除非經(jīng)常性損益后凈利潤(rùn)()總市值凈資產(chǎn)總市值1SP營(yíng)業(yè)收入()總市值1NCFPOCFPDP凈現(xiàn)金流()總市值1經(jīng)營(yíng)性現(xiàn)金流()總市值近12個(gè)月現(xiàn)金紅利(按除息日計(jì))總市值凈利潤(rùn)()同比增長(zhǎng)率/PE_TTM營(yíng)業(yè)收入(最新財(cái)報(bào),)同比增長(zhǎng)率凈利潤(rùn)(最新財(cái)報(bào),)同比增長(zhǎng)率經(jīng)營(yíng)性現(xiàn)金流(最新財(cái)報(bào),)同比增長(zhǎng)率ROE(最新財(cái)報(bào),)同比增長(zhǎng)率ROE(最新財(cái)報(bào),)11G/PE1Sales_G_qProfit_G_qOCF_G_qROE_G_q1111財(cái)務(wù)質(zhì)量ROE_q1財(cái)務(wù)質(zhì)量ROE_ttmROE(最新財(cái)報(bào),)1財(cái)務(wù)質(zhì)量ROA_qROA(最新財(cái)報(bào),)1財(cái)務(wù)質(zhì)量ROA_ttmROA(最新財(cái)報(bào),)1財(cái)務(wù)質(zhì)量grossprofitmargin_q財(cái)務(wù)質(zhì)量grossprofitmargin_ttm財(cái)務(wù)質(zhì)量profitmargin_q財(cái)務(wù)質(zhì)量profitmargin_ttm財(cái)務(wù)質(zhì)量assetturnover_q財(cái)務(wù)質(zhì)量assetturnover_ttm財(cái)務(wù)質(zhì)量operationcashflowratio_q毛利率(最新財(cái)報(bào),)1毛利率(最新財(cái)報(bào),)1扣除非經(jīng)常性損益后凈利潤(rùn)率(最新財(cái)報(bào),)扣除非經(jīng)常性損益后凈利潤(rùn)率(最新財(cái)報(bào),)資產(chǎn)周轉(zhuǎn)率(最新財(cái)報(bào),YTD)資產(chǎn)周轉(zhuǎn)率(最新財(cái)報(bào),)經(jīng)營(yíng)性現(xiàn)金流凈利潤(rùn)(最新財(cái)報(bào),YTD)11111財(cái)務(wù)質(zhì)量operationcashflowratio_ttm經(jīng)營(yíng)性現(xiàn)金流凈利潤(rùn)(最新財(cái)報(bào),TTM)1杠桿杠桿杠桿杠桿市值financial_leveragedebtequityratiocashratio總資產(chǎn)凈資產(chǎn)-1-11非流動(dòng)負(fù)債凈資產(chǎn)現(xiàn)金比率currentratio流動(dòng)比率1ln_capital總市值取對(duì)數(shù)-1-1-1-1動(dòng)量反轉(zhuǎn)HAlpha個(gè)股60個(gè)月收益與上證綜指回歸的截距項(xiàng)個(gè)股最近N個(gè)月收益率,,,,12個(gè)股最近N個(gè)月內(nèi)用每日換手率乘以每日收益率求算術(shù)平均值,,,,12動(dòng)量反轉(zhuǎn)return_Nm動(dòng)量反轉(zhuǎn)wgt_return_Nm動(dòng)量反轉(zhuǎn)exp_wgt_return_Nm個(gè)股最近N個(gè)月內(nèi)用每日換手率乘以函數(shù)exp(-x_i/N/4)再乘以每日收益率求算術(shù)平均值,為該日距離截面日的交易日的個(gè)數(shù),,,,12-1-1波動(dòng)率std_FF3factor_Nm特質(zhì)波動(dòng)率——個(gè)股最近N個(gè)月內(nèi)用日頻收益率對(duì)FamaFrench三因子回歸的殘差的標(biāo)準(zhǔn)差,,,,12個(gè)股最近N個(gè)月的日收益率序列標(biāo)準(zhǔn)差,,,,12股價(jià)取對(duì)數(shù)波動(dòng)率股價(jià)std_Nmln_pricebeta-1-1-1beta個(gè)股60個(gè)月收益與上證綜指回歸的beta換手率turn_Nm個(gè)股最近NN=1,,,12-1換手率bias_turn_Nm個(gè)股最近N個(gè)月內(nèi)日均換手率除以最近2除停牌、漲跌停的交易日)再減去1,,,,12評(píng)級(jí)的平均值-1情緒情緒情緒股東技術(shù)技術(shù)技術(shù)技術(shù)技術(shù)技術(shù)rating_average11rating_change評(píng)級(jí)(上調(diào)家數(shù)下調(diào)家數(shù))總數(shù)一致目標(biāo)價(jià)現(xiàn)價(jià)-1rating_targetprice1holder_avgpctchange戶均持股比例的同比增長(zhǎng)率1MACDDEADIF-1-1-1-1-1-1經(jīng)典技術(shù)指標(biāo)(釋義可參考百度百科),長(zhǎng)周期取30周期取10日,計(jì)算均線的周期(中周期)取15日RSI經(jīng)典技術(shù)指標(biāo),周期取20日經(jīng)典技術(shù)指標(biāo),周期取20日經(jīng)典技術(shù)指標(biāo),周期取20日PSYBIASWind,XXX市場(chǎng)研究部9.樣本內(nèi)訓(xùn)練:使用邏輯回歸或XGBoost基學(xué)習(xí)器對(duì)訓(xùn)練集進(jìn)行訓(xùn)練。6.交叉驗(yàn)證調(diào)參:對(duì)全部超參數(shù)組合進(jìn)行網(wǎng)格搜索,選擇驗(yàn)證集平均最高的一組超參數(shù)作為模型最終的超參數(shù)。不同交叉驗(yàn)證方法可能得到不同的最優(yōu)超參數(shù)。超參數(shù)設(shè)置和調(diào)參范圍如下表所示。圖表:選股模型超參數(shù)和調(diào)參范圍基學(xué)習(xí)器邏輯回歸XGBoost超參數(shù)超參數(shù)描述調(diào)參范圍[1e-5,3e-5,6e-5,8e-5,1e-4,…,0.01][0.01,0.025,0.05,0.075,0.1][3,5,10,15]正則化項(xiàng)系數(shù)()實(shí)際為正則化系數(shù)倒數(shù),C越大越容易過擬合學(xué)習(xí)速率越小,越容易找到局部最優(yōu)解,但是越容易過擬合樹越深,學(xué)習(xí)能力越強(qiáng),但是越容易過擬合行采樣比例越高越容易過擬合學(xué)習(xí)速率(learning_rate)最大樹深度(max_depth)行采樣比例(subsample)[0.8,0.85,0.9,0.95]資料來源:XXX市場(chǎng)研究部7.T月末截面期所有樣本預(yù)處理后的特征作為模型IC法和分層回測(cè)法進(jìn)行單因子測(cè)試。.等衡量模型性能的指標(biāo);單因子測(cè)試得到的統(tǒng)計(jì)指標(biāo)和回測(cè)績(jī)效。單因子測(cè)試回歸法和IC值分析法測(cè)試模型構(gòu)建方法如下:股票池:全A股,剔除股票,剔除每個(gè)截面期下一交易日停牌的股票,剔除上市3個(gè)月以內(nèi)的股票。2..回測(cè)區(qū)間:至2019-01-31。3截面期:每個(gè)月月末,用當(dāng)前截面期因子值與當(dāng)前截面期至下個(gè)截面期內(nèi)的個(gè)股收益進(jìn)行回歸和計(jì)算IC4..數(shù)據(jù)處理方法:對(duì)于分類模型,將模型對(duì)股票下期上漲概率的預(yù)測(cè)值視作單因子。對(duì)于回歸模型,將回歸預(yù)測(cè)值視作單因子。因子值為空的股票不參與測(cè)試。WLS測(cè)試時(shí)對(duì)單因子進(jìn)行行業(yè)市值中性。5分層回測(cè)法模型構(gòu)建方法如下:1..股票池、回測(cè)區(qū)間、截面期均與回歸法相同。2換倉(cāng):在每個(gè)自然月最后一個(gè)交易日核算因子值,在下個(gè)自然月首個(gè)交易日按當(dāng)日收盤價(jià)換倉(cāng),交易費(fèi)用以雙邊千分之四計(jì)。分層方法:因子先用中位數(shù)法去極值,然后進(jìn)行市值、行業(yè)中性化處理(方法論詳見N層,每層內(nèi)部的N對(duì)分層組合的回測(cè)結(jié)果影響很小。4..多空組合收益計(jì)算方法:用組每天的收益減去組每天的收益,得到每日多空收益序列?,?,?,?n天的凈值等于+?)(1+?)?(1+?)。12?12?5N夏普比率、最大回撤等。結(jié)果最優(yōu)超參數(shù)首先我們展示邏輯回歸和歷年滾動(dòng)訓(xùn)練得到的最優(yōu)超參數(shù),如下表所示。圖表:模型歷年滾動(dòng)訓(xùn)練最優(yōu)超參數(shù)基學(xué)習(xí)器邏輯回歸超參數(shù)交叉驗(yàn)證方法K折20110.00080.00010.0010.00080.00030.0010.050.0250.050.0250.050.0251020120.0010.00010.0010.0010.00060.0010.0250.0750.050.0250.0250.0251020130.0030.00030.0010.0030.00030.0030.0250.0750.0250.0250.0250.051020140.0030.00060.0030.0030.00030.0030.0250.0250.0250.0250.0750.0251020150.0080.00060.0030.0030.00060.0030.0250.050.0250.0250.0750.0251020160.0030.00010.0030.0010.00030.0010.0250.050.0250.0250.0250.0251020170.0030.00010.0030.0010.00010.0010.050.0250.0250.0250.0250.0251020180.0030.00010.0030.0010.00010.0010.050.0250.0250.0250.0250.02510正則化項(xiàng)系數(shù)()時(shí)序訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序亂序分組遞進(jìn)式K折XGBoostXGBoostXGBoost學(xué)習(xí)速率(learning_rate)時(shí)序訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序亂序分組遞進(jìn)式K折最大樹深度(max_depth)時(shí)序53353355訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序55101010101010101010101010101035533555亂序分組遞進(jìn)式K折101051010101010行采樣比例subsample)0.90.90.950.850.850.850.90.950.80.90.90.950.80.9(時(shí)序0.80.80.850.90.90.9訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序0.90.850.850.850.90.850.850.90.950.80.80.850.90.90.80.850.80.850.80.850.950.80.850.85亂序分組遞進(jìn)式0.850.80.850.85Wind,XXX市場(chǎng)研究部對(duì)于邏輯回歸的正則化項(xiàng)系數(shù)C(實(shí)際在scikit-learn分組時(shí)序交叉驗(yàn)證兩種方法的C值全部在萬分位數(shù)量級(jí),其余四種基線模型的C值大部C易出現(xiàn)過擬合。對(duì)于XGBoost的學(xué)習(xí)速率learning_rate0.01,0.025,0.05,0.075,0.1六種交叉驗(yàn)證方法得到的最優(yōu)超參數(shù)集中在0.025~0.075方法相比于其余四種基線模型沒有明顯差異。XGBoost的最大樹深度max_depth,時(shí)序和分組時(shí)序交叉驗(yàn)證兩種方法的最優(yōu)超參數(shù)均為3或證選出的XGBoost模型更可能出現(xiàn)欠擬合,更不容易出現(xiàn)過擬合。對(duì)于的行采樣比例subsampleK折交叉驗(yàn)證的最優(yōu)超參數(shù)大于其余五種方法。行采樣比例越高,模型相對(duì)越復(fù)雜,模型的擬合能力越強(qiáng)而泛化能力越弱。換言之,K折交叉驗(yàn)證選出的模型更可能出現(xiàn)過擬合,更不容易出現(xiàn)欠擬合。XGBoost“簡(jiǎn)單”的模型,過擬合風(fēng)險(xiǎn)更低。模型性能接下來我們展示邏輯回歸和的模型性能,關(guān)注樣本內(nèi)和測(cè)試集的各月平均正確率和,詳細(xì)結(jié)果如下表所示。圖表:六種交叉驗(yàn)證方法模型性能對(duì)比(回測(cè)期)交叉驗(yàn)證方法樣本內(nèi)正確率樣本內(nèi)測(cè)試集正確率測(cè)試集基學(xué)習(xí)器:邏輯回歸K折57.20%56.97%57.20%57.19%57.04%57.19%0.59920.59700.59920.59910.59790.599156.17%56.23%56.18%56.22%56.26%56.23%0.58410.58490.58420.58450.58520.5845時(shí)序訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序亂序分組遞進(jìn)式基學(xué)習(xí)器:XGBoost0.9313K折85.42%60.05%77.92%83.30%60.23%80.91%56.48%56.56%56.59%56.52%56.59%56.57%0.59230.59530.59420.59400.59540.5944時(shí)序0.6418訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序0.85420.91420.6439亂序分組遞進(jìn)式0.8862Wind,XXX市場(chǎng)研究部對(duì)于樣本內(nèi)正確率和,時(shí)序和分組時(shí)序交叉驗(yàn)證的樣本內(nèi)表現(xiàn)不佳,弱于其余四種基線模型。這一差距在上體現(xiàn)尤為明顯,時(shí)序和分組時(shí)序的樣本內(nèi)僅為,而其余四種基線模型的樣本內(nèi)則全部高于。對(duì)于測(cè)試集正確率和,規(guī)律則剛好相反,時(shí)序和分組時(shí)序交叉驗(yàn)證在測(cè)試集的表現(xiàn)整體優(yōu)于其余四種基線模型。這一差距同樣在XGBoost上體現(xiàn)更為明顯。另外,分組時(shí)序驗(yàn)證表現(xiàn)略優(yōu)于原始時(shí)序交叉驗(yàn)證。K折之外五種交叉驗(yàn)證方法的減去K叉驗(yàn)證方法對(duì)應(yīng)的折線接近0K證方法對(duì)應(yīng)的折線穩(wěn)定上升,說明該方法在歷史上穩(wěn)定地優(yōu)于K圖表:邏輯回歸各交叉驗(yàn)證相對(duì)K折之差的逐月累積值圖表:XGBoost各交叉驗(yàn)證相對(duì)K折之差的逐月累積值訓(xùn)練集折半的折時(shí)序訓(xùn)練集折半的折時(shí)序000.12.08.0400.35.3.25.2.15.1亂序遞進(jìn)式亂序分組遞進(jìn)式分組時(shí)序亂序遞進(jìn)式亂序分組遞進(jìn)式分組時(shí)序000000.050-0.040.08--0.05Wind,XXX市場(chǎng)研究部Wind,XXX市場(chǎng)研究部K折無明顯差異;年6月后,時(shí)序和分組時(shí)序交叉驗(yàn)證穩(wěn)定地優(yōu)于K折,亂序遞進(jìn)式和亂序分組遞進(jìn)式幾乎重合(由于最優(yōu)超參數(shù)相同,參考圖表)并且略優(yōu)于K折。對(duì)于(圖表年幅優(yōu)于K折,其余三種交叉驗(yàn)證方法也均略優(yōu)于K需要說明的是,圖表中訓(xùn)練集折半的K折交叉驗(yàn)證自年2月后一直持平,原因是該方法得到的最優(yōu)超參數(shù)和K和K折的差值為,故差值的累積值保持不變。圖表的情況與之相同。綜合上述結(jié)果,我們可以對(duì)六種交叉驗(yàn)證方法的表現(xiàn)大致進(jìn)行排序:1..按樣本內(nèi)表現(xiàn)排序:時(shí)序<分組時(shí)序<三種新的基線模型<K按測(cè)試集表現(xiàn)排序:分組時(shí)序>>三種新的基線模型>K2K折交叉驗(yàn)證的提升主要源于保留時(shí)序信息(假設(shè))還是使用更少的樣本(假設(shè))?首先,和K折相比,三種新的基線模型使用更少樣本,其表現(xiàn)略優(yōu)于K折,表明模型表現(xiàn)的提升確實(shí)部分源于使用更少樣本。三種新的基線模型,表明模型表現(xiàn)的提升主要源于時(shí)序信息的保留。單因子測(cè)試回歸法和IC值分析法的詳細(xì)結(jié)果如下表所示。和模型性能結(jié)果類似,無論基學(xué)習(xí)器是邏輯回歸還是XGBoost,對(duì)于均值、t均值、因子收益率均值、RankIC均值這四項(xiàng)指標(biāo),時(shí)序和分組時(shí)序交叉驗(yàn)證表現(xiàn)相對(duì)較好,其次是三種新的基線模型,K折交叉驗(yàn)證表現(xiàn)相RankICIC_IR和IC>0占比這兩項(xiàng)指標(biāo)不占優(yōu)勢(shì)。圖表:六種交叉驗(yàn)證方法單因子回歸法和IC值分析結(jié)果對(duì)比(回測(cè)期)交叉驗(yàn)證方法|t|均值|t|>2占比t均值因子收益率均值RankIC均值RankIC標(biāo)準(zhǔn)差I(lǐng)C_IRIC>0占比基學(xué)習(xí)器:邏輯回歸K折5.7977.08%5.465.8477.08%5.475.8177.08%5.465.8278.13%5.485.8779.17%5.505.8278.13%5.480.994%1.000%0.995%0.999%1.004%0.999%14.00%14.12%14.02%14.04%14.13%14.04%7.76%1.8095.83%8.31%1.7095.83%7.80%1.8095.83%7.83%1.7995.83%8.21%1.7295.83%7.82%1.7995.83%時(shí)序訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序亂序分組遞進(jìn)式基學(xué)習(xí)器:XGBoostK折5.3077.08%5.085.7384.38%5.425.4682.29%5.265.3980.21%5.135.7181.25%5.395.3782.29%5.131.079%1.177%1.119%1.096%1.174%1.103%14.31%14.48%14.45%14.44%14.50%14.49%10.35%1.3890.63%11.59%1.2585.42%10.66%1.3690.63%10.71%1.3589.58%11.53%1.2685.42%10.75%1.3589.58%時(shí)序訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序亂序分組遞進(jìn)式Wind,XXX市場(chǎng)研究部在每個(gè)測(cè)試月份,將除K折之外五種交叉驗(yàn)證方法的因子收益率減去K折的因子收益率,再逐月累加,結(jié)果如下圖所示。對(duì)于邏輯回歸(圖表合且略優(yōu)于K(圖表年4K折無明顯優(yōu)勢(shì);年4月后,時(shí)序和分組時(shí)序交叉驗(yàn)證穩(wěn)定、大幅優(yōu)于三種新基線模型,新基線模型略優(yōu)于K圖表:邏輯回歸各交叉驗(yàn)證相對(duì)K折因子收益率之差的逐月累積值圖表:XGBoost各交叉驗(yàn)證相對(duì)K折因子收益率之差的逐月累積值時(shí)序訓(xùn)練集折半的折時(shí)序訓(xùn)練集折半的折0.015.010.1.08.06.04.020亂序遞進(jìn)式亂序分組遞進(jìn)式分組時(shí)序亂序遞進(jìn)式亂序分組遞進(jìn)式分組時(shí)序000000.0050-0.0050.010.015--0.02--0.04Wind,XXX市場(chǎng)研究部Wind,XXX市場(chǎng)研究部在每個(gè)測(cè)試月份,將除K折之外五種交叉驗(yàn)證方法的RankICKRankIC,再逐月累加,結(jié)果如下圖所示。對(duì)于邏輯回歸(圖表,時(shí)序和分組時(shí)序交叉驗(yàn)證在年弱于K折,其余時(shí)間段均優(yōu)于K折;其余三種新基線模型在年后小幅優(yōu)于K折。對(duì)于(圖表年9月年2月、年和年上半年弱于K折,其余時(shí)間段優(yōu)于K折,時(shí)序和分組時(shí)序的優(yōu)勢(shì)更明顯。需要特別說明的是,下圖展示的RankIC結(jié)果和《對(duì)抗過擬合:從時(shí)序交叉驗(yàn)證談起》一文的RankIC結(jié)果有差異,原因在于本文計(jì)算RankIC時(shí)對(duì)因子做行業(yè)市值中性處理,此定優(yōu)于其余四種基線模型。圖表:邏輯回歸各交叉驗(yàn)證相對(duì)K折RankIC之差的逐月累積值圖表:XGBoost各交叉驗(yàn)證相對(duì)K折RankIC之差的逐月累積值訓(xùn)練集折半的折時(shí)序訓(xùn)練集折半的折時(shí)序亂序遞進(jìn)式亂序分組遞進(jìn)式分組時(shí)序000.25.2.15.1亂序遞進(jìn)式亂序分組遞進(jìn)式分組時(shí)序0.4.35000000.3.25.2.15.100.0500.050-0.05-0.1-0.05Wind,XXX市場(chǎng)研究部Wind,XXX市場(chǎng)研究部XGBoost分組時(shí)序交叉驗(yàn)證在Calmar多空組合收益波動(dòng)較大,因而在多空組合夏普比率上不占優(yōu)勢(shì)。圖表:六種交叉驗(yàn)證方法單因子分層回測(cè)結(jié)果對(duì)比(回測(cè)期)交叉驗(yàn)證方法組合1組合2組合3組合4組合5多空組合多空組合夏普比率多空組合多空組合年化收益率年化收益率年化收益率年化收益率年化收益率年化收益率基學(xué)習(xí)器:邏輯回歸最大回撤Calmar比率K折17.58%17.86%17.61%17.74%17.91%17.74%9.49%8.83%9.62%9.49%8.99%9.53%4.44%4.99%4.37%4.41%5.08%4.42%-3.34%-3.16%-3.36%-3.44%-3.30%-3.48%-15.25%-15.38%38.53%39.00%38.65%38.70%39.28%38.69%5.635.445.605.605.535.617.53%7.23%7.53%7.53%7.18%7.53%5.125.405.135.145.475.14時(shí)序訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序-15.29%-15.22%-15.51%亂序分組遞進(jìn)式-15.22%基學(xué)習(xí)器:XGBoost-14.87%K折20.16%20.49%20.03%19.86%20.55%19.93%8.72%8.43%9.55%9.32%8.47%8.85%1.93%2.73%1.79%2.21%3.43%2.83%-3.98%-3.72%-3.72%-4.44%-4.37%-4.51%41.27%42.30%41.92%41.00%42.50%41.24%5.415.175.425.305.225.3114.11%14.07%14.18%13.45%12.84%13.74%2.933.012.963.053.313.00時(shí)序-15.33%訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序-15.38%-14.92%-15.40%亂序分組遞進(jìn)式-15.02%Wind,XXX市場(chǎng)研究部組合的詳細(xì)績(jī)效分析如下表所示。無論基學(xué)習(xí)器是邏輯回歸還是XGBoost,時(shí)序和分組時(shí)序交叉驗(yàn)證在組合年化收益率、夏普比率、最大回撤、Calmar比率上全面優(yōu)于其余四種基線模型,分組時(shí)序交叉驗(yàn)證略優(yōu)于時(shí)序。圖表:六種交叉驗(yàn)證方法單因子分層回測(cè)組合詳細(xì)績(jī)效分析(回測(cè)期)交叉驗(yàn)證方法年化收益率年化波動(dòng)率夏普比率最大回撤Calmar比率基學(xué)習(xí)器:邏輯回歸K折17.58%17.86%17.61%17.74%17.91%17.74%27.87%27.87%27.94%27.92%27.87%27.92%0.6310.64148.28%48.04%48.21%48.21%48.04%48.21%0.3640.3720.3650.3680.3730.368時(shí)序訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序0.6300.6350.642亂序分組遞進(jìn)式0.635基學(xué)習(xí)器:XGBoost0.717K折20.16%20.49%20.03%19.86%20.55%19.93%28.11%28.20%28.07%28.06%28.17%28.11%48.22%49.10%48.62%48.65%48.59%48.64%0.4180.4170.4120.4080.4230.410時(shí)序0.726訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序0.7130.7080.729亂序分組遞進(jìn)式0.709Wind,XXX市場(chǎng)研究部構(gòu)建策略組合及回測(cè)分析A時(shí),相比于其它方法,時(shí)序和分組時(shí)序交叉驗(yàn)證在年化超額收益率、超額收益最大回撤、信息比率、Calmar比率上稍有優(yōu)勢(shì)。當(dāng)行業(yè)市值中性基準(zhǔn)為中證的個(gè)股權(quán)重偏離上限有關(guān)。圖表:基于六種交叉驗(yàn)證方法構(gòu)建全A選股策略回測(cè)指標(biāo)對(duì)比(邏輯回歸為基學(xué)習(xí)器,回測(cè)期)模型選擇1.5%,2%,2.5%,3%,5%)全A選股,基準(zhǔn)為滬深(行業(yè)中性、市值中性)年化超額收益率個(gè)股權(quán)重偏離上限(從左至右:0.3%,0.5%,1%,3%,5%)全A選股,基準(zhǔn)為中證(行業(yè)中性、市值中性)年化超額收益率K折4.98%5.44%5.07%5.18%5.43%5.20%5.40%5.37%5.37%5.36%5.53%5.29%5.87%6.30%5.62%5.70%6.28%5.64%6.03%6.27%5.74%5.98%6.46%5.91%6.05%6.96%5.98%5.72%6.90%5.71%12.72%12.20%12.63%12.65%12.25%12.64%12.28%12.74%12.42%12.23%12.86%12.25%13.19%13.08%13.20%13.54%13.06%13.52%12.26%12.12%12.33%12.18%12.71%12.14%12.26%11.84%12.32%11.75%12.36%11.73%時(shí)序訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序亂序分組遞進(jìn)式超額收益最大回撤超額收益最大回撤K折5.63%5.41%5.63%5.63%5.80%5.63%7.08%7.83%7.57%7.83%7.83%7.67%7.83%信息比率1.339.23%9.56%9.23%9.23%9.38%9.23%11.82%11.77%11.82%11.82%11.71%11.82%2.95%3.36%2.95%2.95%3.68%2.95%3.73%6.37%6.65%6.26%6.26%6.89%6.26%信息比率2.379.62%8.13%8.31%8.31%8.15%8.31%8.97%9.07%8.94%8.94%8.96%8.94%時(shí)序7.03%7.08%7.08%7.11%7.08%4.37%3.73%4.06%4.44%4.06%訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序亂序分組遞進(jìn)式K折1.461.561.481.521.561.521.361.371.371.371.421.351.241.331.201.251.371.231.031.221.020.971.200.972.972.762.942.932.782.942.582.632.612.562.662.571.991.992.022.002.081.991.841.811.871.791.881.79時(shí)序1.462.35訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序1.282.381.302.451.462.37亂序分組遞進(jìn)式1.292.45Calmar比率0.75Calmar比率K折0.891.000.900.920.940.920.760.760.760.760.780.750.650.660.620.650.690.640.510.590.510.480.590.484.313.644.284.293.324.283.292.071.972.112.161.902.161.271.491.481.471.561.461.371.301.381.311.381.31時(shí)序0.832.913.333.012.903.02訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序0.720.730.82亂序分組遞進(jìn)式0.72Wind,XXX市場(chǎng)研究部其次考察基學(xué)習(xí)器為XGBoost的情形。當(dāng)行業(yè)市值中性基準(zhǔn)為滬深時(shí),時(shí)序交叉驗(yàn)值中性基準(zhǔn)為中證無優(yōu)勢(shì),分組時(shí)序交叉驗(yàn)證也沒有優(yōu)勢(shì)。以適應(yīng)特定的策略組合構(gòu)建方式,可能是未來的思考方向。圖表:基于六種交叉驗(yàn)證方法構(gòu)建全A選股策略回測(cè)指標(biāo)對(duì)比(XGBoost為基學(xué)習(xí)器,回測(cè)期)模型選擇1.5%,2%,2.5%,3%,5%)全A選股,基準(zhǔn)為滬深(行業(yè)中性、市值中性)年化超額收益率個(gè)股權(quán)重偏離上限(從左至右:0.3%,0.5%,1%,3%,5%)全A選股,基準(zhǔn)為中證(行業(yè)中性、市值中性)年化超額收益率K折5.17%6.03%4.76%4.65%5.24%5.03%5.45%6.01%4.76%4.71%4.75%5.54%6.01%5.69%5.13%4.68%4.49%5.41%6.20%5.61%5.65%4.13%4.27%5.78%6.25%4.32%6.40%4.08%4.59%5.43%13.37%14.00%13.29%13.02%13.42%13.44%14.07%15.25%15.19%13.83%14.81%14.13%14.96%16.38%15.83%16.15%14.87%15.58%16.15%16.61%16.64%14.74%14.76%15.00%15.86%15.45%16.57%13.88%15.76%14.17%時(shí)序訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序亂序分組遞進(jìn)式超額收益最大回撤超額收益最大回撤K折4.83%4.11%4.83%5.19%4.29%5.85%6.28%5.80%7.69%5.97%5.84%6.69%5.54%信息比率1.456.04%7.52%6.58%6.18%6.70%5.58%8.08%8.93%7.28%6.25%7.03%7.76%3.39%4.31%3.64%3.47%4.45%4.16%4.43%6.05%5.73%6.21%4.59%6.16%5.45%信息比率2.577.40%6.74%7.46%5.15%7.10%6.27%7.26%7.50%7.26%5.43%7.27%7.01%時(shí)序6.03%6.28%5.31%6.19%5.75%4.83%4.57%4.04%5.48%4.74%訓(xùn)練集折半的K折亂序遞進(jìn)式分組時(shí)序亂序分組遞進(jìn)式K折1.481.801.411.401.571.521.401.631.261.271.281.511.441.361.320.961.021.421.290.911.320.840.971.163.123.073.063.002.953.052.842.953.072.822.892.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論