華泰證券-華泰人工智能系列之十二:人工智能選股之特征選擇_第1頁
華泰證券-華泰人工智能系列之十二:人工智能選股之特征選擇_第2頁
華泰證券-華泰人工智能系列之十二:人工智能選股之特征選擇_第3頁
華泰證券-華泰人工智能系列之十二:人工智能選股之特征選擇_第4頁
華泰證券-華泰人工智能系列之十二:人工智能選股之特征選擇_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

金工研究/深度研究金工研究/深度研究林曉明林曉明執(zhí)業(yè)證書編號:S0570516010001相關(guān)研究1《金工:養(yǎng)老目標(biāo)驅(qū)動的多期博弈均衡模2《金工:因子收益率的周期性研究初探》特征選擇是機器學(xué)習(xí)數(shù)據(jù)預(yù)處理環(huán)節(jié)的重要步驟,核心思想是從全體特征中選擇一組優(yōu)質(zhì)的子集作為輸入訓(xùn)練集,從而提升模型的學(xué)習(xí)和預(yù)測效果。我們將特征選擇方法應(yīng)用于多因子選股,發(fā)現(xiàn)特征選擇對邏輯回歸_6m、XGBoost_6m基學(xué)習(xí)器的預(yù)測效果有一定提升。我們以全A股為股票池,相關(guān)研究1《金工:養(yǎng)老目標(biāo)驅(qū)動的多期博弈均衡模2《金工:因子收益率的周期性研究初探》隨著入選特征數(shù)的增加,模型預(yù)測效果先上升后下降特征個數(shù)并非越多越好。以邏輯回歸_6m和XGBoost_6m為基學(xué)習(xí)器時,隨著入選特征數(shù)的增加,模型的AUC先上升后下降;對于我們的70個特征而言,入選特征數(shù)在50左右效果最好。以XGBoost_72m為基學(xué)習(xí)器時,隨著入選特征數(shù)的增加,模型的AUC先上升后持平。以基于F值+FPR方法對邏輯回歸_6m進行特征選擇為例,統(tǒng)計入選特征的頻次,發(fā)現(xiàn)入選頻次高的特征以價量類因子為主。特征選擇是預(yù)處理的重要步驟,意義在于減少時間開銷,并避免過擬合特征選擇是特征預(yù)處理的重要環(huán)節(jié)之一,其意義在于:1)減少時間開銷;2)避免過擬合;3)使模型容易被解釋。特征選擇方法主要包括過濾式、包裹式、嵌入式三類,最常用的方法為過濾式?!斑^濾”的標(biāo)準(zhǔn)可以來自于無監(jiān)督學(xué)習(xí),如特征本身的方差、熵等;可以是圍繞特征和標(biāo)簽構(gòu)建的統(tǒng)計指標(biāo),如F值、互信息、卡方等;也可以由其它模型提供,如L1正則化線性模型的回歸系數(shù)、樹模型的特征重要性等。面對海量因子時特征選擇方法能夠大幅提升模型的開發(fā)效率特征選擇本質(zhì)上是一種降維手段,沒有引入新的信息,因此難以給基學(xué)習(xí)器的效果帶來質(zhì)的改變。特征選擇的優(yōu)勢在于,當(dāng)我們面對海量的原始特征,僅靠人力無法逐一篩選時,該方法將大幅提升機器學(xué)習(xí)模型的開發(fā)效率。實際上,由于本文使用的70個原始特征均為經(jīng)單因子測試確證有效的因子,所以特征選擇方法更多地是起到錦上添花的作用,如果原始特征包含部分無效的因子,那么特征選擇方法可能會對選股策略效果帶來更明顯的改善。風(fēng)險提示:特征選擇方法高度依賴基學(xué)習(xí)器的表現(xiàn)。該方法是對歷史投資規(guī)律的挖掘,若未來市場投資環(huán)境發(fā)生變化導(dǎo)致基學(xué)習(xí)器失效,則該方法存在失效的可能。特征選擇方法加大了模型復(fù)雜度,也存在一些過擬合風(fēng)謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)1金工研究/深度研究|2018年07月25日本文研究導(dǎo)讀 4特征選擇方法簡介 5非監(jiān)督式特征選擇 5單變量特征選擇的統(tǒng)計指標(biāo) 6分類模型的F值 6回歸模型的F值 7分類和回歸模型的互信息 8分類模型的卡方 9單變量特征選擇的篩選標(biāo)準(zhǔn) 9選擇固定數(shù)量或比例的特征 9根據(jù)FPR/FDR/FWE選擇 9基于模型的特征選擇 基于L1正則化的方法 基于樹模型的方法 12特征選擇方法測試流程 13測試流程 13特征預(yù)處理 15特征選擇方法測試結(jié)果 16選擇特征個數(shù)和入選頻次分析 16對比測試 18模型AUC對比分析 18構(gòu)建策略組合及回測對比分析 19選股策略表現(xiàn)對比分析 21總結(jié)與展望 23風(fēng)險提示 24謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)2圖表1:特征選擇主要方法 5圖表2:非監(jiān)督式特征選擇方法應(yīng)用于模擬數(shù)據(jù)集 6圖表3:根據(jù)分類模型的F值對模擬數(shù)據(jù)集進行特征選擇 7圖表4:根據(jù)回歸模型的F值對模擬數(shù)據(jù)集進行特征選擇 7圖表5:根據(jù)分類問題的互信息對模擬數(shù)據(jù)集進行特征選擇 8圖表6:根據(jù)回歸問題的互信息對模擬數(shù)據(jù)集進行特征選擇 9圖表7:單個假設(shè)檢驗的輸出結(jié)果 9圖表8:多重假設(shè)檢驗的輸出結(jié)果 10圖表9:根據(jù)FPR/FDR/FWE進行特征選擇的依據(jù)及嚴格程度 10圖表10:根據(jù)FPR/FDR/FEW對模擬數(shù)據(jù)進行特征選擇 圖表11:基于L1正則化的SVM對模擬數(shù)據(jù)集進行特征選擇 圖表12:基于隨機森林模型對模擬數(shù)據(jù)集進行特征選擇 12圖表13:特征選擇方法測試流程示意圖 13圖表14:選股模型中涉及的全部因子及其描述 14圖表15:特征選擇方法的參數(shù) 15圖表16:測試集AUC隨特征個數(shù)的變化情況 16圖表17:特征入選月份頻次排名(前40名) 17圖表18:特征入選月份頻次排名(后30名) 18圖表19:模型AUC和特征個數(shù)比較 18圖表20:回測指標(biāo)對比(邏輯回歸_6m為基學(xué)習(xí)器) 19圖表21:回測指標(biāo)對比(XGBoost_6m為基學(xué)習(xí)器) 20圖表22:回測指標(biāo)對比(XGBoost_72m為基學(xué)習(xí)器) 21圖表23:XGBoost_72m及其改進模型全A選股策略表現(xiàn)(個股權(quán)重偏離上限2%,基準(zhǔn)為滬深300) 22圖表24:XGBoost_72m及其改進模型全A選股策略表現(xiàn)(個股權(quán)重偏離上限2%,基準(zhǔn)為中證500) 22謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)3構(gòu)建機器學(xué)習(xí)模型的最終目的是希望通過機器從輸入的訓(xùn)練集中“學(xué)習(xí)”出某種客觀存在的規(guī)律,學(xué)習(xí)的效果主要取決于兩個因素:1)機器學(xué)習(xí)模型的優(yōu)劣,2)輸入訓(xùn)練集的質(zhì)量。在華泰人工智能選股系列的過往報告中,我們主要圍繞第一個因素,探討不同的機器學(xué)習(xí)模型及其選股效果。而后者,即如何從全體特征中選擇一組優(yōu)質(zhì)的子集作為輸入訓(xùn)練集,則是本文探究的出發(fā)點。通常來說,對于給定數(shù)量的訓(xùn)練樣本,分類或回歸模型的預(yù)測能力隨著特征數(shù)量的增加呈現(xiàn)先增強后減弱的趨勢,這主要是由于:隨著特征數(shù)量(維度)的增加,樣本將變得更加稀疏,因而更容易找到一種理想的分類或回歸方式;但當(dāng)特征數(shù)量超過一定量后,過多的特征將導(dǎo)致模型在訓(xùn)練集上表現(xiàn)良好,而對新數(shù)據(jù)的泛化能力較差,導(dǎo)致過擬合的發(fā)生;同時過多的特征將大幅增加模型的時間開銷,造成維數(shù)災(zāi)難。降維方法主要分為兩類:特征提取和特征選擇。前者經(jīng)過某種映射從原始特征中提取出新特征,改變了原始的特征空間;而后者通過某種評價準(zhǔn)則從原始特征中選出部分特征,沒有改變原始的特征空間。本篇報告中,我們將著重探討基于特征選擇的降維方法,并分別應(yīng)用于不同基學(xué)習(xí)器,對模型的預(yù)測能力和構(gòu)建的選股策略進行測試和對比。簡單來說,特征選擇是從已有的原始特征集合中選取一個用于構(gòu)建后續(xù)模型的特征子集的過程,它是一個重要的數(shù)據(jù)預(yù)處理過程。有效的特征選擇將會減輕過擬合問題,提高模型的泛化能力和預(yù)測準(zhǔn)確性;同時,降維后的模型具有更低的時間成本,也更容易被理解和解釋。我們的報告主要關(guān)注如下幾個方面的問題:1)常用的特征選擇方法有哪些,原理是什么?2)在多因子選股問題的背景下,模型的預(yù)測能力隨著因子數(shù)量的增加會發(fā)生怎樣的變化?3)特征選擇方法選出的是哪些因子?4)如何根據(jù)模型的預(yù)測結(jié)果構(gòu)建策略組合進行回測?全部A股票池內(nèi)選股效果如何,相比單一的基學(xué)習(xí)器有哪些方面的提升?謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)4特征選擇(FeatureSelection)作為一種數(shù)據(jù)降維方式,是機器學(xué)習(xí)算法的重要步驟之一,在工程領(lǐng)域有著廣泛的應(yīng)用,但在量化領(lǐng)域受到的關(guān)注有限。本質(zhì)上,特征選擇從原始的特征集合中選擇部分特征作為子集,其目的是為了節(jié)省算法的時間開銷,同時提升學(xué)習(xí)算法性能。作為特征選擇的奠基性論文之一,Guyon和Elisseeff在2003年提出,依據(jù)特征和嵌入式(Embedding)三大類。過濾式方法先使用特征選擇對原始特征集合進行“過濾”,再基于過濾后的特征訓(xùn)練基學(xué)習(xí)器,這一特征選擇過程與后續(xù)基學(xué)習(xí)器的訓(xùn)練無關(guān)。與過濾式特征選擇不同,包裹式方法考慮后續(xù)基學(xué)習(xí)器的性能并以之作為特征子集優(yōu)劣的評價準(zhǔn)則,該方法為給定的基學(xué)習(xí)器“量身定做”了最優(yōu)的特征子集,由于包裹式特征選擇需要多次訓(xùn)練基學(xué)習(xí)器,該方法的時間成本遠大于過濾式方法。與前兩種方法中特征選擇過程與基學(xué)習(xí)器訓(xùn)練過程有明顯的分界不同,嵌入式方法將兩者融為一體,即在基學(xué)習(xí)器訓(xùn)練過程中自動完成了特征選擇,例如Lasso回歸本質(zhì)上即為一種嵌入式特征選擇方法。綜合比較三大類特征選擇方法,包裹式選擇的時間開銷較大并且效率較低,嵌入式選擇本質(zhì)上屬于獨立的機器學(xué)習(xí)算法,過濾式選擇效率較高因而被廣為采用。本篇報告將著重關(guān)注過濾式方法,介紹不同過濾式特征選擇的原理,分析其優(yōu)劣并系統(tǒng)測試其對不同基學(xué)習(xí)器的提升效果。下面我們將過濾式特征選擇細分為非監(jiān)督式特征選擇、單變量特征選擇和基于模型的特征選擇三類予以探討。特征選擇主要方法如下圖所示。資料來源:華泰證券研究所非監(jiān)督式特征選擇不借助標(biāo)簽Y而僅依賴特征X本身,根據(jù)特征的方差、熵、平滑度等指標(biāo)遴選特征。下面我們以移除低方差特征為例,介紹典型的非監(jiān)督式特征選擇方法。通常來說,如果一個特征能夠較好地區(qū)分訓(xùn)練樣本,它在所有樣本上的分布應(yīng)當(dāng)具備一定的變異性。如果樣本在某個特征上的變異性很小,那么這個特征對樣本的區(qū)分能力可能也較小。因此在進行特征選擇時,可以考慮移除所有方差小于某一閾值的特征。圖表2展示了一組包含10個樣本的模擬數(shù)據(jù)集,X1、X2、X3、X4為4組特征,Y為標(biāo)簽。對于原始特征集合X=[X1,X2,X3,X4],我們希望移除所有方差低于閾值1的特征。如下表所示,我們計算每個特征的方差,得到X1的方差為0.73<1,因此該特征將被移除,其余特征被保留最終得到新的特征子集X’=[X2,X3,X4]。謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)5X1X2X3X4Y00000×資料來源:華泰證券研究所由于該特征選擇方法僅考慮輸入特征X而沒有考慮標(biāo)簽Y,該方法同時適用于基學(xué)習(xí)器為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的場景。然而,在我們的人工智能選股實踐中,由于原始因子均為已確證有效的因子,并且經(jīng)預(yù)處理轉(zhuǎn)換為N(0,1)的分布,移除低方差特征的意義不大,后續(xù)我們將不單獨進行測試。單變量特征選擇是常用的監(jiān)督式特征選擇方法之一,該方法針對每個特征單獨計算某個統(tǒng)計指標(biāo),并基于該統(tǒng)計指標(biāo)根據(jù)某一篩選標(biāo)準(zhǔn)進行特征選擇。從通俗的角度看,大學(xué)通過高考成績選拔考生就是一種特征選擇的過程,全體考生相當(dāng)于全部原始特征,高考分數(shù)相當(dāng)于單個統(tǒng)計指標(biāo),選擇排名靠前的一定數(shù)量考生相當(dāng)于篩選標(biāo)準(zhǔn)。單變量特征選擇可依賴的統(tǒng)計指標(biāo)包括F值、互信息、卡方等;篩選標(biāo)準(zhǔn)包括選擇固定數(shù)量特征、選擇固定比例特征、根據(jù)FPR/FDR/FWE選擇特征等。分類模型的F值當(dāng)基學(xué)習(xí)器為分類模型時,可借助方差分析(ANOVA)的F值衡量每個特征和標(biāo)簽的關(guān)聯(lián)度,最終選擇關(guān)聯(lián)度較高的特征。方差分析常用來研究控制變量的不同水平是否對觀測變量產(chǎn)生顯著影響,該方法認為:觀測變量值的變動會受到控制變量和隨機擾動兩個方面的影響,可將觀測變量總的離差平方和分解為組間離差平方和與組內(nèi)離差平方和兩部分:其中,SST為總離差平方和,SSA為組間離差平方和,SSE為組內(nèi)離差平方和。通過構(gòu)造F統(tǒng)計量可以比較總離差平方和中各部分所占的比例:其中,k為控制變量的組數(shù),n為樣本總數(shù),k-1和n-k分別為SSA和SSE的自由度?;谔摕o假設(shè)H0:控制變量對觀測變量沒有影響,構(gòu)造F值并根據(jù)樣本值進行計算。對于給定的顯著性水平α,如果計算得到的F值大于Fα,則拒絕虛無假設(shè)H0,此時組間離差平方和在總離差平方和中所占的比例更大,我們認為控制變量對觀測變量有顯著影響;否則,我們無法拒絕虛無假設(shè),即認為控制變量對觀測變量的影響不顯著。使用F值對分類模型進行特征選擇時,我們假設(shè)不同特征對分類結(jié)果貢獻程度的差異,主要源于各個特征在不同標(biāo)簽下的組間離散程度與組內(nèi)離散程度之比存在差異。對每個特征,計算F值并得到對應(yīng)的p值。F值越大,該特征的組間離散程度越大而組內(nèi)離散程度越小,特征與標(biāo)簽的關(guān)聯(lián)度越高。如下表所示,對于模擬的原始特征集合,我們選擇關(guān)聯(lián)度排名前三的特征,最終得到新的特征子集X’=[X1,X3,X4]。謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)6X1X2X3X4Y00000Fp×資料來源:華泰證券研究所回歸模型的F值當(dāng)基學(xué)習(xí)器為回歸模型時,可借助單變量線性回歸及其對應(yīng)方差分析的F值衡量每個特征X和標(biāo)簽Y的關(guān)聯(lián)度,最終選擇關(guān)聯(lián)度較高的特征。線性回歸是確定兩個或兩個以上變量間線性相關(guān)關(guān)系的統(tǒng)計方法,F(xiàn)值通過回歸后的方差分析表輸出,并與給定的顯著性水平進行比較,以檢驗回歸方程的線性關(guān)系是否顯著。當(dāng)F檢驗結(jié)果顯著時,可推斷回歸方程中至少有一個回歸系數(shù)是顯著的,但并不一定所有的回歸系數(shù)都是顯著的。對單變量線性回歸而言,自變量只有一個,F(xiàn)檢驗結(jié)果顯著即可判斷回歸系數(shù)顯著,即因變量與自變量具有顯著的線性相關(guān)關(guān)系。具體地,對單個特征X和標(biāo)簽Y進行線性回歸時,計算回歸方程的F值及其對應(yīng)的p值。線性回歸的虛無假設(shè)H0:回歸系數(shù)為0。對于給定的顯著性水平α,如果計算得到的F值大于Fα,則拒絕虛無假設(shè)H0,即認為回歸系數(shù)顯著異于0,進而推斷兩個變量間存在一定的線性關(guān)系。使用F值對回歸模型進行特征選擇時,對每個特征,計算F統(tǒng)計量的值,F(xiàn)值越大,我們越有理由拒絕原假設(shè),特征與標(biāo)簽的關(guān)聯(lián)度越高。如下表所示,對于模擬的原始特征集合,我們選擇關(guān)聯(lián)度排名前三的特征,最終得到新的特征子集X’=[X1,X2,X3]。X1X2X3X4Y1.090.940.850.26Fp資料來源:華泰證券研究所謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)7分類和回歸模型的互信息在概率論和信息論中,互信息常用于度量兩個隨機變量之間的關(guān)聯(lián)程度。不同于相關(guān)系數(shù)僅能夠捕捉兩個隨機變量之間的線性相關(guān)性,互信息方法可以捕捉兩個變量之間的任何統(tǒng)計依賴性;但由于互信息依賴非參方法,它通常需要更多的樣本來進行精確估計。兩個離散隨機變量X和Y的互信息定義為:其中,p(x,y)是X和Y的聯(lián)合概率分布函數(shù),p(x)和p(y)分別是X和Y的邊緣概率分布函數(shù)。上述計算方法適用于基學(xué)習(xí)器為分類模型的情形。在連續(xù)隨機變量的情形下,求和替換為二重定積分:其中,p(x,y)是X和Y的聯(lián)合概率密度函數(shù),p(x)和p(y)分別是X和Y的邊緣概率密度函數(shù)。上述計算方法適用于基學(xué)習(xí)器為回歸模型的情形。直觀上,互信息反映了聯(lián)合分布p(x,y)與邊際分布乘積p(x)p(y)的相似程度,它能夠度量X和Y共享的信息,量化了已知兩個變量其中一個時,另一個變量不確定性的減少程度。例如,如果X和Y相互獨立,則已知X不會對Y提供任何信息,反之亦然,則p(x,y)=p(x)p(y),兩者的互信息為零。在使用互信息進行特征選擇時,特征與標(biāo)簽之間的互信息越大,兩者之間共享的信息越多,那么兩者的關(guān)聯(lián)度越高。如下表所示,對于模擬的原始特征集合,我們選擇互信息最高的特征,最終得到分類問題下新的特征子集為X’=[X1],回歸問題下新的特征子集為X’=[X2]。X1X2X3X4Y00000×××資料來源:華泰證券研究所謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)8X1X2X3X4Y1.090.940.850.26××資料來源:華泰證券研究所分類模型的卡方卡方檢驗是數(shù)理統(tǒng)計中一種常用的檢驗兩個變量之間相關(guān)性的方法,其核心思想是計算實際值與理論值的偏差來判斷兩者是否相關(guān)。其中,理論值為根據(jù)虛無假設(shè)H0(兩個變量相互獨立)計算得到的結(jié)果;實際值為根據(jù)樣本直接觀測的結(jié)果。如果兩者偏差足夠小,該誤差可能由測量手段不精或偶然事件等所致,我們無法拒絕虛無假設(shè),即認為:兩個變量之間相互獨立。如果兩者偏差足夠大,我們認為這樣的誤差不是來自隨機因素,那么有理由拒絕虛無假設(shè),即認為兩個變量具有一定的相關(guān)性。計算偏差程度的公式為:其中,E為理論值,xi為實際值序列。分子的平方表達可以解決偏差正負抵消的問題,分母除以理論值有利于減少理論值量綱對偏差度量的影響。但由于卡方統(tǒng)計量通常適用于非負的頻率數(shù)據(jù),不適用于多因子選股問題,本文不對基于卡方的單變量特征選擇進行測試。在計算出每個特征的某項統(tǒng)計指標(biāo)后,我們還需要根據(jù)一定的篩選標(biāo)準(zhǔn)進行特征選擇。篩選標(biāo)準(zhǔn)包括選擇固定數(shù)量特征、選擇固定比例特征、根據(jù)FPR/FDR/FWE選擇特征等。選擇固定數(shù)量或比例的特征該篩選標(biāo)準(zhǔn)根據(jù)每個特征的統(tǒng)計指標(biāo),保留固定前K個最優(yōu)的特征(簡稱K最優(yōu)或者固定比例最優(yōu)的特征。該方法的優(yōu)點是邏輯清晰,計算簡便。缺點是K值的選取缺乏明確的數(shù)學(xué)意義。在我們的人工智能選股實踐中,由于采用滾動訓(xùn)練的方式,每個截面期都進行模型訓(xùn)練。當(dāng)使用K最優(yōu)方法進行特征選擇時,每個截面期選出的特征數(shù)完全相同。根據(jù)FPR/FDR/FWE選擇該篩選標(biāo)準(zhǔn)使用常見的假設(shè)檢驗,根據(jù)某種錯誤測度進行特征篩選。在數(shù)理統(tǒng)計的單個假設(shè)檢驗問題中,可能出現(xiàn)的推斷輸出結(jié)果如下表所示。預(yù)測結(jié)果=不拒絕Ho預(yù)測結(jié)果=拒絕Ho資料來源:華泰證券研究所謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)9金工研究/深度研究|2018年07月25日當(dāng)虛無假設(shè)H0為真,而預(yù)測結(jié)果為拒絕H0時,這種情況稱為假陽性,此時我們虛報了原本不存在的統(tǒng)計差異。這種錯誤也稱為第一類錯誤,發(fā)生的概率稱為假陽性率(FalsePositiveRate,F(xiàn)PR)。類似地,當(dāng)虛無假設(shè)H0為假,而預(yù)測結(jié)果為接受H0時,這種情況稱為假陰性,此時我們漏報了原本存在的統(tǒng)計差異。這種錯誤也稱為第二類錯誤,發(fā)生的概率稱為假陰性率(FalseNegativeRate,F(xiàn)NR)。假設(shè)檢驗的顯著性水平α為發(fā)生第一類錯誤的最大概率?;诿總€特征計算得到的統(tǒng)計指標(biāo)及對應(yīng)p值,該篩選標(biāo)準(zhǔn)選擇p值小于顯著性水平α的特征作為特征子集。當(dāng)同時對多個假設(shè)進行檢驗時,情況將變得更為復(fù)雜,此時每個檢驗均存在第一類錯誤。例如同時檢驗m個假設(shè)時,對于給定的檢驗法則,得到的可能輸出結(jié)果如下表所示。預(yù)測結(jié)果=不拒絕Ho預(yù)測結(jié)果=拒絕HoUVTSWRm資料來源:華泰證券研究所其中,m0和m1分別為H0為真和H0為假的個數(shù),R是m個檢驗中的拒絕總數(shù),V是m個檢驗中發(fā)生第一類錯誤(假陽性)的總數(shù),T是發(fā)生第二類錯誤(假陰性)的總數(shù)。與單個假設(shè)檢驗類似,多重假設(shè)檢驗問題首先需要考慮的問題是如何提出一種合理的錯誤測度來衡量總體檢驗所發(fā)生的第一類錯誤。FDR(FalseDiscoveryRate)即錯誤發(fā)現(xiàn)率,是多重假設(shè)檢驗的一種錯誤測度方式,它是錯誤的拒絕次數(shù)與拒絕總數(shù)比值的期望,公式表達為:其中,I{R>0}為示性函數(shù),當(dāng)R>0時示性函數(shù)值為1,當(dāng)R=0示性函數(shù)值為0。在多重假設(shè)檢驗中,可以通過給定的顯著性水平α控制錯誤發(fā)現(xiàn)率,進而推導(dǎo)出單個假設(shè)檢驗即每個特征對應(yīng)的最大p值。特征的p值低于顯著性水平則予以保留。FWE(Family-WiseErrorRate)即總體錯誤率,是多重假設(shè)檢驗的另一種錯誤測度方式,它是指在多重假設(shè)檢驗中至少有一個檢驗發(fā)生第一類錯誤的概率,公式表達為:由定義可知,F(xiàn)WE對錯誤的控制較為嚴格,是一種保守的錯誤測度。與FDR類似,在對多個特征同時進行篩選時,可以通過給定的顯著性水平α控制總體錯誤率,進而推導(dǎo)出單個假設(shè)檢驗即每個特征對應(yīng)的最大p值。特征的p值低于顯著性水平則予以保留。假設(shè)共進行m次顯著性檢驗,得到m個p值;在顯著性水平α=0.05下,各評價準(zhǔn)則的特征選擇依據(jù)及嚴格程度如下表所示。低中高資料來源:華泰證券研究所下面我們借助一組模擬數(shù)據(jù)說明如何根據(jù)FPR/FDR/FWE進行特征選擇。假設(shè)對于某10個特征組成的原始特征集合,計算得到10個F值和相應(yīng)的p值。我們定義顯著性水平α=0.05。各種篩選標(biāo)準(zhǔn)的選擇特征結(jié)果如下表所示。謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)10X1X2X3X4X5X6X7X8X9X10×××××資料來源:華泰證券研究所與選擇固定數(shù)量或比例特征的篩選標(biāo)準(zhǔn)相比,根據(jù)FPR/FDR/FWE的篩選標(biāo)準(zhǔn)選擇得到的特征數(shù)量不固定,取決于訓(xùn)練樣本。因而在我們的人工智能選股實踐中,每個截面期選出的特征數(shù)可能不同。另外值得注意的是,F(xiàn)PR和FWE兩種篩選標(biāo)準(zhǔn)實質(zhì)上“等價”,即假設(shè)共m個特征,前者的顯著性水平α取0.05等價于后者的α取0.05*m。本文對單變量特征選擇方法進行測試時,將使用F值和互信息作為評價特征的統(tǒng)計指標(biāo)。在篩選標(biāo)準(zhǔn)方面,選擇固定數(shù)量特征和選擇固定比例特征兩者等價,我們僅測試前者;根據(jù)FPR和FWE篩選兩者等價,因此我們僅測試FPR和FDR兩種方法。基于模型的特征選擇是另一種常用的監(jiān)督式特征選擇方法,這里的“模型”指任何在擬合后具有回歸系數(shù)或特征重要性屬性的學(xué)習(xí)器。如果特征的回歸系數(shù)或特征重要性小于閾值,我們就認為該特征和標(biāo)簽的關(guān)聯(lián)度不高,將予以剔除。按照學(xué)習(xí)器的類型,該方法可大致分為基于L1正則化的方法和基于樹模型的方法?;贚1正則化的方法使用L1正則化進行懲罰的線性模型有稀疏解,即部分特征的系數(shù)為0,因而可以用于基學(xué)習(xí)器的特征選擇。具體而言,我們保留系數(shù)非0的特征,剔除系數(shù)為0的特征。L1正則化方法懲罰系數(shù)的大小影響特征選擇的嚴格程度。懲罰系數(shù)越大,保留的特征越少;反之懲罰系數(shù)越小,保留的特征越多。對于回歸模型,L1正則化方法通常采用Lasso回歸;對于分類模型,通常采用L1正則化的線性SVM或邏輯回歸。關(guān)于L1正則化、Lasso回歸、SVM的具體方法詳見華泰人工智能選股系列報告的第二篇廣義線性模型和第三篇支持向量機模型。下表展示了采用L1正則化的SVM對分類問題進行特征選擇的過程。取懲罰系數(shù)C=0.1,對于模擬的原始特征集合,以各個特征的SVM系數(shù)作為選擇標(biāo)準(zhǔn),最終得到新的特征子集X’=[X3]。X1X2X3X4Y00000資料來源:華泰證券研究所謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)11金工研究/深度研究|2018年07月25日基于樹模型的方法樹模型能夠計算特征重要性,可以用于基學(xué)習(xí)器的特征選擇。具體而言,我們剔除重要性低于一定閾值的特征,保留重要性高于一定閾值的特征。所選的閾值越大,保留的特征越少;反之所選的閾值越小,保留的特征越多。這里的樹模型包括但不限于隨機森林模型和AdaBoost模型。關(guān)于隨機森林、AdaBoost模型、計算特征重要性的具體方法詳見華泰人工智能系列報告的第五篇隨機森林模型和第六篇Boosting模型。下表展示了使用隨機森林模型對分類問題進行特征選擇的過程。取閾值為所有特征重要性的均值,對于模擬的原始特征集合,以各個特征重要性作為特征選擇的標(biāo)準(zhǔn),最終得到新的特征子集X’=[X3,X4]。X1X2X3X4Y00000×資料來源:華泰證券研究所謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)12數(shù)據(jù)獲取數(shù)據(jù)獲取特征和標(biāo)簽提取特征和標(biāo)簽提取特征預(yù)處理特征預(yù)處理訓(xùn)練集和交叉訓(xùn)練集和交叉驗證集合成模型評價模型評價樣本外測試樣本外測試交叉驗證交叉驗證調(diào)整參數(shù)樣本內(nèi)訓(xùn)練樣本內(nèi)訓(xùn)練資料來源:華泰證券研究所本文測試的基學(xué)習(xí)器為華泰人工智能系列研究報告總結(jié)得出的3種選股效果較好的方法:邏輯回歸_6m、XGBoost_6m和XGBoost_72m。特征選擇的測試方法包含如下步驟:1.?dāng)?shù)據(jù)獲取:a)股票池:全A股。剔除ST股票,剔除每個截面期下一交易日停牌的股票,剔除上市3個月內(nèi)的股票,每只股票視作一個樣本。b)回測區(qū)間:2011年1月31日至2018年7月2日。月度滾動回測。2.特征和標(biāo)簽提取:每個自然月的最后一個交易日,計算之前報告里的70個因子暴露度,作為樣本的原始特征;計算下一整個自然月的個股超額收益(以滬深300指數(shù)為基準(zhǔn)作為樣本的標(biāo)簽。因子池如圖表14所示。3.特征預(yù)處理:該步驟較為復(fù)雜,我們將在下一小節(jié)進行詳細說明。4.訓(xùn)練集和交叉驗證集的合成:在每個月末截面期,選取下月收益排名前30%的股票作為正例(y=1后30%的股票作為負例(y=-1)。將訓(xùn)練樣本合并,隨機選取90%的樣本作為訓(xùn)練集,余下10%的樣本作為交叉驗證集。5.樣本內(nèi)訓(xùn)練:對每個基學(xué)習(xí)器,使用6個月或72個月訓(xùn)練數(shù)據(jù)對基于原始特征集合和選擇后特征子集的訓(xùn)練集進行逐一訓(xùn)練。6.交叉驗證調(diào)參:由于本篇報告?zhèn)戎赜谔骄刻卣鬟x擇對模型的影響,此處直接選取之前報告中基學(xué)習(xí)器的最優(yōu)參數(shù)作為模型的最優(yōu)參數(shù)。7.樣本外測試:確定最優(yōu)參數(shù)后,以T月月末截面期所有樣本預(yù)處理后的特征作為模型的輸入,得到每個樣本的預(yù)測值f(x)。將預(yù)測值視作合成后的因子,進行單因子分層回測,回測方法和之前的單因子測試報告相同。8.模型評價:我們以分層回測的結(jié)果作為模型篩選標(biāo)準(zhǔn)。我們還將給出測試集的正確率、AUC等衡量模型性能的指標(biāo)。謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)13operationcashflowra杠桿financial_leverage杠桿杠桿杠桿個股60個月收益與上證綜指回歸的截距項值,N=1,3,6,12French三因子回歸的殘差的標(biāo)準(zhǔn)差,N=1,3個股最近N個月的日收益率序列標(biāo)準(zhǔn)差,),資料來源:Wind,華泰證券研究所謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)14本節(jié)我們將具體介紹本篇報告中所使用的特征預(yù)處理方法。對每個特征,首先進行如下的預(yù)處理:a)中位數(shù)去極值:設(shè)第T期某因子在所有個股上的暴露度序列為Di,DM為該序列中位數(shù),DM1為序列|Di?DM|的中位數(shù),則將序列Di中所有大于DM+5DM1的數(shù)重設(shè)為DM+5DM1,將序列Di中所有小于DM?5DM1的數(shù)重設(shè)為DM?5DM1;b)缺失值處理:得到新的因子暴露度序列后,將因子暴露度缺失的地方設(shè)為中信一級行業(yè)相同個股的平均值;c)行業(yè)市值中性化:將填充缺失值后的因子暴露度對行業(yè)啞變量和取對數(shù)后的市值做線性回歸,取殘差作為新的因子暴露度;d)標(biāo)準(zhǔn)化:將中性化處理后的因子暴露度序列減去其現(xiàn)在的均值、除以其標(biāo)準(zhǔn)差,得到一個新的近似服從N(0,1)分布的序列?;诔醪筋A(yù)處理后的原始特征集合,對每種特征選擇方法中的參數(shù)進行遍歷,選擇交叉驗證集AUC(以2010年為測試集的對應(yīng)的驗證集的AUC)最大的參數(shù)作為該方法下的最優(yōu)參數(shù),如下表所示。XGBoost_6mXGBoost_72m基于隨機森林資料來源:Wind,華泰證券研究所謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)15在使用特征選擇對基學(xué)習(xí)器進行改進時,入選的特征個數(shù)越多是否模型改進效果越好?經(jīng)選擇保留的特征分屬哪些大類風(fēng)格因子?我們首先以基于F值+FDR方法對邏輯回歸_6m模型進行特征選擇為例,展示模型改進效果與特征個數(shù)的關(guān)系,如下圖所示。資料來源:Wind,華泰證券研究所隨著入選特征個數(shù)的增加,特征選擇方法對模型的改進效果先增加后下降,在特征個數(shù)為50左右達到峰值。由此可見,特征并非越多越好。對其它以邏輯回歸_6m和XGBoost_6m為基學(xué)習(xí)器的特征選擇方法,模型的改進效果與特征個數(shù)的關(guān)系類似。對以XGBoost_72m為基學(xué)習(xí)器的特征選擇方法,隨著特征個數(shù)的增加,特征選擇方法對模型的改進效果先增加后持平。進一步,我們以基于F值+FDR(α=0.01)對邏輯回歸_6m進行特征選擇為例,分析該特征選擇方法下各個特征的入選頻次。在滾動回測的89個月中,每個特征被選擇的總月數(shù)如下表所示。入選頻次排名前列的因子主要是動量反轉(zhuǎn)、換手率和波動率因子,排名靠后的因子為財務(wù)質(zhì)量、杠桿因子。謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)16金工研究/深度研究|2018年07月25日55535353535358599585857585875998598857657984584689487837694957497559781955958869559539595769467680396585dif7769356769636664954955653448857777393499248543660資料來源:Wind,華泰證券研究所謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)17863850946677066854984358847587135746484496586133837486473569513973754137575233759302683杠桿financial_leverage729633733119382杠桿9287327184830355杠桿484018115149915杠桿284118031194200755470195110223543032220200753402210000000046352220000301002309000004127operationcashflowra000001102資料來源:Wind,華泰證券研究所在特征預(yù)處理一節(jié)中,我們給出了每種特征選擇方法下的最優(yōu)參數(shù)。對于每個基學(xué)習(xí)器,我們使用原始特征集合和經(jīng)上述參數(shù)選擇的特征子集,分別進行模型的訓(xùn)練和測試,觀察不同特征選擇方法下的模型改進效果。模型AUC對比分析三個基學(xué)習(xí)器在不同特征選擇方法下的測試集AUC如下表所示。XGBoost_6mXGBoost_72m基于隨機森林資料來源:Wind,華泰證券研究所謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)18我們發(fā)現(xiàn),對于邏輯回歸_6m和XGBoost_6m基學(xué)習(xí)器,各種特征選擇方法對基學(xué)習(xí)器均有一定提升,可見選擇部分特征進行模型訓(xùn)練能夠更好地學(xué)習(xí)特征與標(biāo)簽之間的規(guī)律。不同方法的提升效果各異,其中基于F值+FDR方法對AUC的提升效果最好。對于XGBoost_72m基學(xué)習(xí)器,各種特征選擇方法的AUC相差不大,對基學(xué)習(xí)器的AUC沒有明顯改進效果,可能是由于XGBoost_72m基學(xué)習(xí)器本身已具備較高的AUC,提升空間有限。構(gòu)建策略組合及回測對比分析對于三個基學(xué)習(xí)器及特征選擇后的改進模型,我們構(gòu)建了全A選股策略并進行回測,各項指標(biāo)詳見下表。 資料來源:Wind,華泰證券研究所以邏輯回歸_6m為基學(xué)習(xí)器時,收益端提升明顯的模型為基于F值+K最優(yōu)、基于互信息+K最優(yōu)、基于SVM的特征選擇方法。回撤端提升明顯的模型為基于F值+FPR方法。從信息比率和Calmar比率來看,基于F值+K最優(yōu)、基于互信息+K最優(yōu)方法優(yōu)于基學(xué)習(xí)器,其余特征選擇方法對基學(xué)習(xí)器的提升不明顯。謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)19XGBoost_6mXGBoost_6mXGBoost_6mXGBoost_6m 資料來源:Wind,華泰證券研究所以XGBoost_6m為基學(xué)習(xí)器并以滬深300作為基準(zhǔn)時,回測表現(xiàn)較好的是基于F值+FDR方法,其余特征選擇方法對基學(xué)習(xí)器沒有提升作用。以XGBoost_6m為基學(xué)習(xí)器并以中證500作為基準(zhǔn)時,回測表現(xiàn)較好的是基于互信息+K最優(yōu)、基于隨機森林的方法,其余特征選擇方法對基學(xué)習(xí)器沒有提升作用。謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)XGBoost_72mXGBoost_72mXGBoost_72mXGBoost_72m 資料來源:Wind,華泰證券研究所以XGBoost_72m為基學(xué)習(xí)器時,回測表現(xiàn)較好的是基于F值+K最優(yōu)、基于互信息+K最優(yōu)、基于F值+FPR、基于F值+FDR四種方法,在年化超額收益、超額收益最大回撤、信息比率、Calmar比率四項指標(biāo)上相對于基學(xué)習(xí)器均有明顯提升。對于基于SVM和基于隨機森林這兩類基于模型的方法,其回測表現(xiàn)反而弱于基學(xué)習(xí)器。選股策略表現(xiàn)對比分析我們有選擇性地展示XGBoost_72m基學(xué)習(xí)器及其改進模型在不同基準(zhǔn)下的月度超額收益圖,如下圖所示。謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)金工研究/深度研究|2018年07月25日70%60%50%40%30%20%10% XGBoost_72m年化超額收益率:6.08%超額收益最大回撤:5.25%基于F值+K最優(yōu)年化超額收益率:7.01%超額收益最大回撤:4.06% 基于互信息+K最優(yōu)年化超額收益率:6.51%超額收益最大回撤:4.96%基于F值+FPR年化超額收益率:6.65%超額收益最大回撤:3.75%資料來源:Wind,華泰證券研究所na基于互信息+K最優(yōu)超額收益回撤(右軸)信息比率:2.38信息比率:信息比率:2.38信息比率:2.76信息比率:2.60信息比率:2.78XGBoost_72m基于F值+K最優(yōu)基于互信息+K最優(yōu)基于F值+FPR年化超額收益率:15.36%超額收益最大回撤:7.36%年化超額收益率:17.48%超額收益最大回撤:5.16%年化超額收益率:16.82%超額收益最大回撤:6.98%年化超額收益率:17.78%超額收益最大回撤:5.69%資料來源:Wind,華泰證券研究所謹請參閱尾頁重要聲明及華泰證券股票和行業(yè)評級標(biāo)準(zhǔn)以上我們對邏輯回歸_6m、XGBoost_6m、XGBoost_72m三種基學(xué)習(xí)器及其特征選擇后的改進模型進行了系統(tǒng)的測試,并且構(gòu)建了以滬深300和中證500為基準(zhǔn)的全A選股策略,初步得到以下幾個結(jié)論:一、特征選擇作為特征預(yù)處理的重要步驟之一,其核心思想是從全體特征中選擇一組優(yōu)質(zhì)的子集作為輸入訓(xùn)練集,從而提升模型對客觀規(guī)律的學(xué)習(xí)效果。特征選擇的重要作用在于:1)減少時間開銷;2)避免過擬合;3)使模型容易被解釋。特征選擇方法包括過濾式、包裹式、嵌入式三類,最常用的方法為過濾式?!斑^濾”的標(biāo)準(zhǔn)可以來自于無監(jiān)督學(xué)習(xí),如特征本身的方差、熵等;可以是圍繞特征和標(biāo)簽構(gòu)建的統(tǒng)計指標(biāo),如F值、互信息、卡方等;也可以由其它模型提供,如L1正則化線性模型的回歸系數(shù)、樹模型的特征重要性等。二、入選特征個數(shù)并非越多越好。以邏輯回歸_6m和XGBoost_6m為基學(xué)習(xí)器時,隨著入選特征數(shù)的增加,模型的AUC先上升后下降;對于我們的70個特征而言,入選特征數(shù)在50左右效果最好。以XGBoost_72m為基學(xué)習(xí)器時,隨著入選特征數(shù)的增加,模型的AUC先上升后持平。以基于F值+FPR方法對邏輯回歸_6m進行特征選擇為例,統(tǒng)計入選特征的頻次,發(fā)現(xiàn)入選頻次高的特征以價量類因子為主。三、總體來看,特征選擇方法對基學(xué)習(xí)器的AUC和選股策略回測表現(xiàn)有一定提升,不同方法的提升效果不盡相同,和基學(xué)習(xí)器密切相關(guān)。在AUC方面,基于F值+FPR、基于F值+FDR方法對邏輯回歸_6m和XGBoost_6m基學(xué)習(xí)器的改進明顯,各種特征選擇方法對XGBoost_72m基學(xué)習(xí)器的AUC沒有明顯的提升。我們以全A股為股票池、分別以滬深300和中證500為基準(zhǔn),利用三個基學(xué)習(xí)器及其改進模型構(gòu)建行業(yè)中性和市值中性的選股策略。對邏輯回歸_6m基學(xué)習(xí)器,基于F值+K最優(yōu)、基于互信息+K最優(yōu)方法具有明顯的提升效果。對XGBoost_6m基學(xué)習(xí)器,基于F值+FDR、基于互信息+K最優(yōu)方法分別對以滬深300、中證500為基準(zhǔn)的選股策略具有明顯的提升效果。對XGBoost_72m基學(xué)習(xí)器,基于F值+K最優(yōu)、基于互信息+K最優(yōu)、基于F值+FPR、基于F值+FDR四種方法具有明顯的提升效果。四、基于特征選擇構(gòu)建的選股策略對年化超額收益的提升在3%以內(nèi)。特征選擇本質(zhì)上是一種降維,沒有改變原始的特征空間,也沒有引入新的信息,難以對基學(xué)習(xí)器的學(xué)習(xí)效果有質(zhì)的提升,更多的是一種“錦上添花”。本文使

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論