機(jī)器學(xué)習(xí)白皮書(shū)系列之一監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實(shí)例_W_第1頁(yè)
機(jī)器學(xué)習(xí)白皮書(shū)系列之一監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實(shí)例_W_第2頁(yè)
機(jī)器學(xué)習(xí)白皮書(shū)系列之一監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實(shí)例_W_第3頁(yè)
機(jī)器學(xué)習(xí)白皮書(shū)系列之一監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實(shí)例_W_第4頁(yè)
機(jī)器學(xué)習(xí)白皮書(shū)系列之一監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實(shí)例_W_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、研究報(bào)告機(jī)器學(xué)習(xí)2017-7-27機(jī)器學(xué)習(xí)白皮書(shū)系列之一:監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實(shí)例金融工程專(zhuān)題報(bào)告報(bào)告要點(diǎn)分析師覃川桃(8621)68751782執(zhí)業(yè)證書(shū)編號(hào):S0490513030001 陳潔敏(8621) 68751787機(jī)器學(xué)習(xí)系列報(bào)告本系列報(bào)告試圖系統(tǒng)全面性的介紹各種不同的機(jī)器學(xué)習(xí)方法,并且結(jié)合具體的在投資研究領(lǐng)域應(yīng)用實(shí)例、交易策略及code 示例,說(shuō)明其應(yīng)用情景和實(shí)現(xiàn)方法機(jī)器學(xué)習(xí)的方法可以分為以下幾類(lèi):監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)及其他機(jī)器學(xué)習(xí)方法(例如強(qiáng)化學(xué)習(xí)),對(duì)應(yīng)到具體的模型上數(shù)量則更是繁多,目前

2、大部分機(jī)器學(xué)習(xí)模型并未廣泛的應(yīng)用在投研領(lǐng)域,因此本系列主要偏重于在投研領(lǐng)域有應(yīng)用潛力的模型及方法。此篇將以介紹監(jiān)督學(xué)習(xí)方法為主。聯(lián)系人聯(lián)系人楊靖鳳(8621)68751636監(jiān)督學(xué)習(xí)模型之回歸類(lèi)模型及其應(yīng)用與普通線性回歸不同,監(jiān)督學(xué)習(xí)中的懲罰回歸模型和非參數(shù)回歸,可以分別用于處理輸入變量中存在大量線性相關(guān)性關(guān)系及非線性關(guān)系時(shí)的情況。懲罰回歸模型中金融領(lǐng)域使用得較多的有 Lasso 回歸、嶺回歸和彈性網(wǎng)絡(luò)回歸;具有代表性的非參數(shù)回歸模型則有:K 最近鄰、LOESS 及卡爾曼濾波器。同時(shí),也用到兩個(gè)實(shí)例來(lái)說(shuō)明了懲罰回歸模型在擬合中的優(yōu)勢(shì),以及卡爾曼濾波器使用時(shí)對(duì)于

3、趨勢(shì)判斷、狀態(tài)分辨的靈敏性。相關(guān)研究陸港通系列( 一) : 外資2017-7-24中 的 Alpha 富時(shí)中國(guó)A50 指數(shù)投資價(jià)值分析2017-6-8基金的績(jī)效歸因方法分析及應(yīng)用2017-6-6監(jiān)督學(xué)習(xí)模型之分類(lèi)模型及其應(yīng)用回歸模型可以通過(guò)模型擬合進(jìn)行樣本外數(shù)據(jù)預(yù)測(cè),得到具體的預(yù)測(cè)值。但是在金融領(lǐng)域很多問(wèn)題不需要得到具體的值,得到目前的狀態(tài)類(lèi)型或者相對(duì)強(qiáng)弱位置即可。因此,分類(lèi)模型應(yīng)用非常廣泛。此篇,我們將介紹以下分類(lèi)算法:邏輯回歸、支持向量機(jī)(SVM)、決策樹(shù)、隨機(jī)森林以及隱馬爾可夫模型。前面四種模型我們將會(huì)給出具體的擇時(shí)和選股上的實(shí)例,隱馬爾科夫模型我們則是驗(yàn)證其對(duì)于國(guó)內(nèi) A 股市場(chǎng)的狀態(tài)劃

4、分是否有效。監(jiān)督學(xué)習(xí)模型的總結(jié)和比較我們介紹的幾種模型的共同特點(diǎn)是模型中都會(huì)要求有一個(gè)訓(xùn)練期(樣本內(nèi))和預(yù)測(cè)期(樣本外),通過(guò)訓(xùn)練期來(lái)找到最優(yōu)參數(shù),擬合非線性關(guān)系,然后在預(yù)測(cè)期內(nèi)進(jìn)行應(yīng)用。不同模型的主要應(yīng)用情景不同,具體可以參考我們給出的不同模型的實(shí)例。后面將會(huì)陸續(xù)介紹非監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)的方法及具體應(yīng)用情景,并從模型中延展開(kāi)來(lái),持續(xù)追蹤人工智能和大數(shù)據(jù)領(lǐng)域的發(fā)展?fàn)顩r及應(yīng)用實(shí)踐。1. 模型在使用中存在建模風(fēng)險(xiǎn);2. 本文舉例均是基于歷史數(shù)據(jù)不保證其未來(lái)收益。風(fēng)險(xiǎn)提示:請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明1 / 23金融工程丨專(zhuān)題報(bào)告目錄機(jī)器學(xué)習(xí)方法概述4傳統(tǒng)機(jī)器學(xué)習(xí)在金融上的應(yīng)用4深度學(xué)習(xí)的應(yīng)用5機(jī)器

5、學(xué)習(xí)模型的應(yīng)用情景5監(jiān)督學(xué)習(xí)模型之回歸6懲罰回歸模型6Lasso 回歸、嶺回歸和彈性網(wǎng)絡(luò)回歸6懲罰回歸模型應(yīng)用實(shí)例7非參數(shù)回歸9K 最近鄰和 LOESS9動(dòng)態(tài)系統(tǒng)-卡爾曼濾波9卡爾曼濾波應(yīng)用實(shí)例10極限梯度提升(XGBoost)13監(jiān)督學(xué)習(xí)之分類(lèi)13邏輯回歸14支持向量機(jī)14決策樹(shù)和隨機(jī)森林14分類(lèi)模型在選股及擇時(shí)上的應(yīng)用實(shí)例15SVM 模型應(yīng)用于滬深 300 內(nèi)選股15隨機(jī)森林依據(jù)多因子數(shù)據(jù)的擇時(shí)17隱馬爾科夫模型19隱馬爾科夫模型的應(yīng)用實(shí)例19總結(jié)22圖表目錄圖 1:機(jī)器學(xué)習(xí)/人工智能方法介紹4圖 2:欠擬合、過(guò)擬合及完美擬合圖例6圖 2:懲罰回歸模型的擬合效果比較8圖 3:Lasso 模

6、型中 beta 選擇的軌跡圖8圖 4:中國(guó)銀行和交通銀行價(jià)格(取自然對(duì)數(shù))走勢(shì)圖11圖 5:中國(guó)銀行和交通銀行價(jià)格(取自然對(duì)數(shù))走勢(shì)圖11圖 6:卡爾曼濾波器和 OLS 回歸估計(jì)的 beta 值12請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明2 / 23金融工程丨專(zhuān)題報(bào)告圖 7:卡爾曼濾波器做配對(duì)交易時(shí)的凈值收益率12圖 8:OLS 做配對(duì)交易時(shí)的凈值收益率12圖 9:決策樹(shù)模型股票篩選示例14圖 10:SVM 在滬深 300 內(nèi)多因子選股分檔效果16圖 11:SVM 滬深 300 內(nèi)多因子選股與基準(zhǔn)比較的效果16圖 12:隨機(jī)森林滬深 300 擇時(shí)效果18圖 13:HMMs 模型的估計(jì)結(jié)果(轉(zhuǎn)移矩陣)19圖

7、 14:HMMs 模型的估計(jì)結(jié)果(均值和方差)19圖 15:市場(chǎng)下跌趨勢(shì)狀態(tài)下的后驗(yàn)概率20圖 16:HMMs 模型的周度擇時(shí)效果20圖 17:HMMs 模型的月度擇時(shí)效果20圖 18:1995 年至 2007 年月度判斷擇時(shí)效果展示(累計(jì)收益率、月度收益率及回撤)21圖 19:2007 年年末至 2017 年 7 月月度判斷擇時(shí)效果展示(累計(jì)收益率、月度收益率及回撤)22表 1:情景問(wèn)題、具體的金融實(shí)例及其對(duì)應(yīng)的機(jī)器學(xué)習(xí)方法5表 2:SVM 選股分年效果17表 3:隨機(jī)森林擇時(shí)準(zhǔn)確度17表 4:隨機(jī)森林滬深 300 擇時(shí)分年效果18請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明3 / 23金融工程丨專(zhuān)題報(bào)告機(jī)

8、器學(xué)習(xí)方法概述本系列報(bào)告試圖系統(tǒng)全面性的介紹各種不同的機(jī)器學(xué)習(xí)方法,并且結(jié)合具體的在投資研究領(lǐng)域應(yīng)用實(shí)例、交易策略及 code 示例,說(shuō)明其應(yīng)用情景和方法。機(jī)器學(xué)習(xí)的方法可以分為以下幾類(lèi):監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)及其他機(jī)器學(xué)習(xí)方法(例如強(qiáng)化學(xué)習(xí)),具體使用到的模型見(jiàn)圖 1。此篇將以介紹監(jiān)督學(xué)習(xí)方法為主。圖 1:機(jī)器學(xué)習(xí)/人工智能方法介紹資料來(lái)源:JP Morgan, 長(zhǎng)江證券研究所機(jī)器學(xué)習(xí)方法結(jié)合統(tǒng)計(jì)學(xué)和計(jì)算機(jī)兩個(gè)領(lǐng)域,也可以根據(jù)具體方法與兩個(gè)領(lǐng)域交叉度的高低,分為傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩個(gè)大類(lèi)。傳統(tǒng)機(jī)器學(xué)習(xí)是統(tǒng)計(jì)學(xué)的延伸,金融領(lǐng)域多應(yīng)用此類(lèi)方法。深度學(xué)習(xí)例如卷積神經(jīng)網(wǎng)絡(luò)等則主要是應(yīng)用于

9、圖像處理、自然語(yǔ)言識(shí)別和其他非結(jié)構(gòu)化數(shù)據(jù)分析。深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在時(shí)間序列分析和投資組合構(gòu)建中也有巨大的前景,深度學(xué)習(xí)有望在提升價(jià)格序列模型識(shí)別和收益預(yù)測(cè)的準(zhǔn)確性上對(duì)于傳統(tǒng)量化方法進(jìn)行補(bǔ)充和改良,強(qiáng)化學(xué)習(xí)則為自動(dòng)化交易的速度和有效性提供了保障。目前海內(nèi)外也嘗試將人工神經(jīng)網(wǎng)絡(luò)用于資產(chǎn)趨勢(shì)的判斷中,并且取得了一定的效果,但是與使用較為簡(jiǎn)單的隨機(jī)森林等機(jī)器學(xué)習(xí)模型相比并未發(fā)揮出其優(yōu)勢(shì)。傳統(tǒng)機(jī)器學(xué)習(xí)在金融上的應(yīng)用監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)統(tǒng)稱(chēng)為傳統(tǒng)機(jī)器學(xué)習(xí)。一個(gè)機(jī)器學(xué)習(xí)算法通常是通過(guò)給定的數(shù)據(jù)來(lái)進(jìn)行模型學(xué)習(xí),選擇出合適的參數(shù),并且隨著提供的數(shù)據(jù)量的不斷增大模型的效果也逐步提升。監(jiān)督學(xué)習(xí)方法更能體現(xiàn)出機(jī)器學(xué)習(xí)

10、的概念,通過(guò)將樣本數(shù)據(jù)截取出部分作為訓(xùn)練期,在訓(xùn)練期中明確輸入指標(biāo)(X)及對(duì)應(yīng)的標(biāo)簽(Y),這樣機(jī)器學(xué)習(xí)算法在模型學(xué)習(xí)的過(guò)程中相當(dāng)于是基于給定的參考模式,在對(duì)應(yīng)輸出標(biāo)簽的“監(jiān)督”下來(lái)選擇合適的參數(shù)??梢酝ㄟ^(guò)一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明傳統(tǒng)統(tǒng)計(jì)模型與機(jī)器學(xué)習(xí)模型的區(qū)別,例如我們?cè)诜治鍪袌?chǎng)收益率和一些宏觀指標(biāo)如房地產(chǎn)投資增速、PPI、PMI、利率、宏觀景氣度等的關(guān)系時(shí),傳統(tǒng)的統(tǒng)計(jì)學(xué)采取的是線性回歸的方式來(lái)計(jì)算市場(chǎng)收益率在這些指標(biāo)上的 beta 值,通過(guò)機(jī)器學(xué)習(xí)方法,我們可以用一些更加先進(jìn)的回歸模型,通過(guò)盡量排除異常值的影響,考慮到眾多輸入變量之間的相關(guān)性及指標(biāo)與輸出結(jié)果之間的非線性,最后得到更為穩(wěn)健的結(jié)果

11、,常用的有Lasso 回歸及 Logistic 回歸等。對(duì)于無(wú)監(jiān)督學(xué)習(xí),在金融領(lǐng)域比較常用的是主成分分析(PCA)或獨(dú)立成分分析(ICA),其并不存在輸出變量作“監(jiān)督”。例如在進(jìn)行多因子分析時(shí),我們的因子池里面有接近請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明4 / 23金融工程丨專(zhuān)題報(bào)告八十多個(gè)子類(lèi)因子,通過(guò) PCA 可以將眾多的因子進(jìn)行特征抽取,最后將股票收益率歸因于具有代表性的 89 個(gè)特征之上。另一種常用到的無(wú)監(jiān)督學(xué)習(xí)方法是聚類(lèi)分析,通過(guò)樣本數(shù)據(jù)之間某種相似性將一組樣本劃分成幾個(gè)小組。深度學(xué)習(xí)的應(yīng)用在近些年來(lái),除了傳統(tǒng)機(jī)器學(xué)習(xí)方法之外,受到人腦思考模式啟發(fā)的深度學(xué)習(xí)也得到了長(zhǎng)足的發(fā)展??茖W(xué)家觀察到人的

12、判斷是由大腦之中連接起來(lái)的獨(dú)立神經(jīng)元共同作用的結(jié)果, 每個(gè)神經(jīng)元都可以接收不同來(lái)源的電流刺激,結(jié)合以往經(jīng)驗(yàn),給定不同電流刺激以相應(yīng)的權(quán)重并粗略計(jì)算其加權(quán)平均值,通過(guò)與預(yù)定的閾值相比較,來(lái)決定“激活”或“忽略”這些刺激。計(jì)算機(jī)領(lǐng)域的專(zhuān)家發(fā)現(xiàn)通過(guò)復(fù)制這種構(gòu)架,可以用于解決一些監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)問(wèn)題,并且將這種多層神經(jīng)網(wǎng)絡(luò)構(gòu)架稱(chēng)之為深度學(xué)習(xí)。過(guò)去幾十年來(lái),機(jī)器學(xué)習(xí)領(lǐng)域取得的卓越成就大多來(lái)自于深度學(xué)習(xí)方法的應(yīng)用。圖像識(shí)別、語(yǔ)音識(shí)別、語(yǔ)言翻譯及自動(dòng)駕駛都依賴(lài)于新的深度學(xué)習(xí)算法,其在大數(shù)據(jù)上處理優(yōu)勢(shì)和強(qiáng)大的自學(xué)習(xí)能力使其在投研領(lǐng)域具有巨大吸引力,但是目前的實(shí)踐應(yīng)用非常有限。機(jī)器學(xué)習(xí)模型的應(yīng)用情景使用機(jī)器

13、學(xué)習(xí)方法解決問(wèn)題的第一步是需要在眾多的模型中找到適合的一類(lèi)。針對(duì)不同的情景,選擇的最優(yōu)機(jī)器學(xué)習(xí)模型也會(huì)存在差異。下面表格中我們列舉出一些常用機(jī)器學(xué)習(xí)方用來(lái)解決的情景問(wèn)題,有些情景可以有明確的金融實(shí)例可以對(duì)應(yīng),同時(shí)也列舉了每種情景下常用到的機(jī)器學(xué)習(xí)方法。本篇后文也會(huì)通過(guò)特定的金融實(shí)例來(lái)具體介紹其中監(jiān)督學(xué)習(xí)方法的具體使用。表 1:情景問(wèn)題、具體的金融實(shí)例及其對(duì)應(yīng)的機(jī)器學(xué)習(xí)方法給定輸入變量,預(yù)測(cè)資產(chǎn)價(jià)格的方向使用技術(shù)指標(biāo)對(duì)于對(duì)應(yīng)的指數(shù)進(jìn)行擇時(shí)SVM、Logistic 回歸、Lasso 回歸等一種資產(chǎn)的劇烈變動(dòng)如何影響其他資產(chǎn)美元指數(shù)的變動(dòng)對(duì)于美國(guó)國(guó)債收益率及黃金走勢(shì)的影響格蘭杰因果檢驗(yàn)、脈沖響應(yīng)函數(shù)

14、一種資產(chǎn)走勢(shì)是否偏離其他相關(guān)資產(chǎn)黑色系商品走勢(shì)的分化一對(duì)多分類(lèi)找出資產(chǎn)價(jià)格的驅(qū)動(dòng)因素行業(yè)中有效因子的篩選PCA、ICA目前市場(chǎng)狀態(tài)判斷對(duì)于利率上行或下行周期判斷隱馬爾科夫、Soft-max分類(lèi)一個(gè)發(fā)生的概率/是否會(huì)發(fā)生高送轉(zhuǎn)的預(yù)測(cè)決策樹(shù)、隨機(jī)森林、Logistic回歸在噪音數(shù)據(jù)中尋找信號(hào)資產(chǎn)周期的分析低通濾波器、SVM一篇文章或一段文字的感彩、主題公司公告的分析詞袋分析、詞頻-逆向文件頻率(TF-IDF)有哪些常見(jiàn)的市場(chǎng)壓力指標(biāo)K-means聚類(lèi)分析計(jì)算圖像中某物體數(shù)量卷積神經(jīng)網(wǎng)絡(luò)最優(yōu)執(zhí)行速度基于部分可觀察馬爾科夫過(guò)程的強(qiáng)化學(xué)習(xí)基于大量輸入數(shù)據(jù)預(yù)測(cè)波動(dòng)率受限玻爾茲曼機(jī)、SVM資料來(lái)源:JP M

15、organ Macro QDS,長(zhǎng)江證券研究所選擇了合適的模型之后,還面臨著參數(shù)個(gè)數(shù)選擇及參數(shù)優(yōu)化的問(wèn)題,此時(shí)需衡模型的“方差”和“偏差”,如下圖,線性回歸過(guò)于簡(jiǎn)單,不足以解釋數(shù)據(jù)點(diǎn),具有較大的“偏差”,我們稱(chēng)為“欠擬合”。而使用高階多項(xiàng)式降低偏差則導(dǎo)致模型“過(guò)擬合”,在新的數(shù)據(jù)點(diǎn),模型預(yù)測(cè)準(zhǔn)確性會(huì)降低,我們稱(chēng)為“方差”較大。請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明5 / 23問(wèn)題金融實(shí)例機(jī)器學(xué)習(xí)方法金融工程丨專(zhuān)題報(bào)告圖 2:欠擬合、過(guò)擬合及完美擬合圖例資料來(lái)源:Wind, 長(zhǎng)江證券研究所模型的復(fù)雜程度提高的時(shí)候能夠降低偏差但是會(huì)增大方差,因此合適的模型需要優(yōu)化的是方差與偏差之和。一般可以用優(yōu)化的參數(shù)個(gè)數(shù)

16、來(lái)衡量模型的復(fù)雜程度,模型的擬合程度則可以通過(guò)交叉驗(yàn)證的方法來(lái)判斷。交叉驗(yàn)證的方式是采取分組采集子樣本集的方式,將原始數(shù)據(jù)分作訓(xùn)練集和驗(yàn)證集,在訓(xùn)練集中調(diào)試參數(shù)然后將模型用于驗(yàn)證集,通過(guò)驗(yàn)證集中的擬合結(jié)果與真實(shí)值之間的誤差來(lái)衡量。當(dāng)然交叉驗(yàn)證的方式并不適合于所有的機(jī)器學(xué)習(xí)模型,實(shí)踐中很多編程工具也會(huì)提供各種模型擬合程度判斷統(tǒng)計(jì)量及驗(yàn)證方法,都要求我們事前對(duì)于模型原理有基本的了解。監(jiān)督學(xué)習(xí)模型之回歸監(jiān)督學(xué)習(xí)可以進(jìn)一步分為回歸和分類(lèi)?;貧w方法試圖根據(jù)輸入變量來(lái)預(yù)測(cè)輸出變量的值,分類(lèi)方法則嘗試將輸出結(jié)果分到不同類(lèi)別。與普通線性回歸不同,監(jiān)督學(xué)習(xí)中的懲罰回歸模型和非參數(shù)回歸,可以分別用于處理輸入變量中

17、存在大量線性相關(guān)性關(guān)系及非線性關(guān)系時(shí)的情況。下面將就幾種常見(jiàn)的模型做具體介紹及示例。懲罰回歸模型最具代表性也是在金融領(lǐng)域使用最多的懲罰回歸模型有 Lasso 回歸、嶺回歸和彈性網(wǎng)絡(luò)回歸,與普通線性回歸相比這三種模型在尋找最優(yōu)回歸系數(shù)上做了進(jìn)一步改良,使模型穩(wěn)健性更強(qiáng)。Lasso 回歸、嶺回歸和彈性網(wǎng)絡(luò)回歸對(duì)于普通的線性回歸模型(OLS),我們通過(guò)最小化預(yù)測(cè)值與真實(shí)值之間的誤差來(lái)求得輸入變量的系數(shù),假設(shè)預(yù)測(cè)值 y 為輸入值 x1, x2 ,., xn 的線性組合,系數(shù)通過(guò)下面方法估計(jì):2n y - (b0 + bi xi ) OLS: 最小化i=1此時(shí)容易產(chǎn)生較為分散或數(shù)值較大的,可以添加一個(gè)反

18、映我們對(duì)數(shù)值較大的厭惡的懲罰項(xiàng),來(lái)防止這種情況發(fā)生,即:請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明6 / 23金融工程丨專(zhuān)題報(bào)告2nnLasso 回歸: 最小化 y - (b0 +bi xi ) + abii=1i=1模型會(huì)將不需要和非常大的設(shè)置為零。加上系數(shù)絕對(duì)值的懲罰項(xiàng)稱(chēng)為 L1 正則化,這種改進(jìn)的線性回歸稱(chēng)為L(zhǎng)asso 回歸。通過(guò)對(duì)系數(shù)的優(yōu)化,Lasso 實(shí)質(zhì)上進(jìn)行了特征選擇。Lasso 的目標(biāo)函數(shù)可以理解如下: 當(dāng)a = 0 時(shí),得到普通線性回歸系數(shù)。 隨著a 的增加,選擇的特征越來(lái)越少,最終得到最重要的一個(gè)特征。這里,a 被稱(chēng)為模型的參數(shù)。 同理,如果我們?cè)谀繕?biāo)函數(shù)中添加的平方,就得到了嶺回歸。2

19、nn嶺回歸: 最小化y - (b + b x ) + a b20i iii=1i=1加上系數(shù)平方的懲罰項(xiàng)稱(chēng)為L(zhǎng)2 正則化,這種改進(jìn)的線性回歸稱(chēng)為嶺回歸。 彈性網(wǎng)絡(luò)回歸是 Lasso 和嶺回歸的混合體。2nnn彈性網(wǎng)絡(luò)回歸:最小化y - (b + b x )+ a b+ ab20i i1i2ii=1i=1i=1三種模型在進(jìn)行參數(shù)估計(jì)時(shí)的邏輯一脈相承,選擇哪種模型則跟樣本特征相關(guān)性較大, 一般最常用的是 Lasso 模型,基本上能夠達(dá)到找出核心變量、排除變量共線性的作用。懲罰回歸模型應(yīng)用實(shí)例懲罰回歸模型的典型應(yīng)用實(shí)例是在存在眾多相關(guān)性較高的變量中篩選出對(duì)于被解釋變量解釋力度最大的變量及對(duì)應(yīng)的模型。

20、例如在我們之前的一篇報(bào)告因子輪動(dòng)系列(二):宏觀周期與因子投資時(shí)鐘中,針對(duì)規(guī)模因子和價(jià)值業(yè)績(jī)因子、波動(dòng)率因子和 beta 因子的輪動(dòng),將幾個(gè)宏觀變量進(jìn)行重要性排名,最后選出最為核心的兩個(gè)影響因素,使用的就是 Lasso 回歸。為了比較幾種懲罰回歸模型的效果,展示其在實(shí)踐應(yīng)用中相對(duì)于傳統(tǒng)線性回歸(OLS) 模型的優(yōu)勢(shì),我們以上證 50 指數(shù)收益率以及其影響變量為例。已知上證 50 的收益率可以由其成分股收益率完全解釋?zhuān)覀冇每偣?100 只股票收益率作為解釋變量,其中 50 只為上證 50 的成分股,另外 50 只隨機(jī)選擇作為干擾項(xiàng)。與真實(shí)權(quán)重相比,幾種模型的擬合效果如下:請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重

21、要聲明7 / 23金融工程丨專(zhuān)題報(bào)告圖 2:懲罰回歸模型的擬合效果比較資料來(lái)源:Wind, 長(zhǎng)江證券研究所上圖中變量的 beta 值用縱坐標(biāo)來(lái)表示,橫坐標(biāo)對(duì)應(yīng) 100 個(gè)變量。紅色的線代表此段時(shí)間區(qū)間內(nèi)各變量的真實(shí)值(取平均),在存在干擾變量的情況下,OLS 回歸出的系數(shù)波動(dòng)較大,且存在值和負(fù)數(shù)情況。相比而言Lasso 回歸和彈性網(wǎng)絡(luò)回歸都較強(qiáng)的排除了后面 50 個(gè)干擾變量的影響,與真實(shí)結(jié)果較為接近。Lasso 模型中也可以通過(guò)調(diào)整a 的取值對(duì)影響權(quán)重較大的變量做進(jìn)一步篩選,但在本例中應(yīng)用不大因此不詳細(xì)展開(kāi)。圖 3:Lasso 模型中 beta 選擇的軌跡圖資料來(lái)源:Wind, 長(zhǎng)江證券研究所

22、每一個(gè)模型在優(yōu)化的過(guò)程中都有一個(gè) beta 變化路徑,如圖 3 所示。懲罰回歸模型由于可以一定程度上排除非相關(guān)性變量及共線性強(qiáng)的變量的干擾,在用來(lái)做樣本外預(yù)測(cè)時(shí)穩(wěn)健性強(qiáng)于傳統(tǒng)的線性回歸模型。所以其另外一個(gè)具體應(yīng)用可以是在做請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明8 / 23金融工程丨專(zhuān)題報(bào)告多因子分析時(shí),例如我們做某個(gè)行業(yè)內(nèi)的因子模型,可以使用懲罰回歸模型,篩選出對(duì)于此行業(yè)內(nèi)選股較為有效的指標(biāo),然后對(duì)于行業(yè)收益率進(jìn)行樣本外預(yù)測(cè)。非參數(shù)回歸監(jiān)督學(xué)習(xí)中的回歸方式也可以分為參數(shù)或非參數(shù)方法。參數(shù)回歸中,模型由一系列參數(shù)描述,如根據(jù)歷史數(shù)據(jù)估計(jì)的線性回歸的。在非參數(shù)回歸中,我們假定相似輸入具有相似輸出,然后直接識(shí)

23、別類(lèi)似的歷史樣本以達(dá)到預(yù)測(cè)目的,針對(duì)新加入的數(shù)據(jù)點(diǎn),通過(guò)搜索歷史數(shù)據(jù),并找到所謂的“最近鄰”的 K 個(gè)相似樣本點(diǎn)。最后通過(guò)對(duì)“最近鄰”的輸出取平均。非參數(shù)回歸提供了一種利用過(guò)去類(lèi)似來(lái)預(yù)測(cè)未來(lái)的方法,在金融領(lǐng)域,輸出變量與輸入變量通常不是線性相關(guān)的,這使得線性回歸及其擴(kuò)展(如嶺回歸和 Lasso 回歸)不適用。本文將介紹兩種典型的非參數(shù)回歸模型:K 最近鄰和 LOESS。K 最近鄰和 LOESSK 最近鄰(KNN)回歸:通過(guò)找出一個(gè)樣本的 k 個(gè)最近鄰居,將這些鄰居的輸出變量 y 的平均值賦給該樣本,并將其用作我們的預(yù)測(cè)。K 最近鄰可以捕獲數(shù)據(jù)中的非線性屬性。但是其主要缺點(diǎn)在于對(duì)異常值極度敏感。

24、局部線性回歸 LOESS:依據(jù) KNN 方法,對(duì)于每個(gè)新樣本點(diǎn),基于 K 個(gè)最近鄰的數(shù)據(jù)進(jìn)行線性回歸,并使用擬合出的系數(shù)預(yù)測(cè)輸出值。線性回歸和 K 最近鄰法可以看作是經(jīng)典機(jī)器學(xué)習(xí)的兩個(gè)。線性回歸可能“低估”數(shù)據(jù),因此偏差較高,方差較低。而 K 最近鄰可能“過(guò)擬合”,因此方差較高,偏差較低。KNN 中是通過(guò)調(diào)整 K 值來(lái)平衡“偏差”及“方差”。舉一個(gè)較為的例子,當(dāng)K 取 1 的時(shí)候相當(dāng)于對(duì)每個(gè)訓(xùn)練樣本都劃分了一個(gè)微小的區(qū)域,這很可能導(dǎo)致在未知樣本上出現(xiàn)高錯(cuò)誤率,產(chǎn)生樣本內(nèi)的過(guò)擬合。關(guān)于 K 最近鄰的方法在金融領(lǐng)域應(yīng)用最常見(jiàn)的一個(gè)例子是用于選股中,例如結(jié)合因子數(shù)據(jù),可以將股票按照收益率特征分為強(qiáng)勢(shì)

25、和弱勢(shì)組合,進(jìn)行預(yù)測(cè)時(shí)通過(guò)輸入股票的因子數(shù)據(jù)找到其下期所處的組合類(lèi)別,通過(guò)此種方式來(lái)構(gòu)建股票組合。動(dòng)態(tài)系統(tǒng)-卡爾曼濾波不同于靜態(tài)的線性回歸模型,卡爾曼濾波器考慮到系數(shù)隨時(shí)間緩慢變化的動(dòng)態(tài)過(guò)程, 其常常用于統(tǒng)計(jì)交易和波動(dòng)率估計(jì)。在卡爾曼濾波器中,系數(shù)在一定范圍內(nèi)連續(xù)變化, 可迭代估計(jì)。如果我們將這個(gè)變化范圍離散到一組有限的值內(nèi),則可以導(dǎo)出一個(gè)隱馬爾科夫模型(HMMs),HMMs 將在分類(lèi)模型中做進(jìn)一步介紹??柭鼮V波器在 1960 年由 Kalman 提出,其將一系列具有不確定性的觀測(cè)值進(jìn)行組合, 從而估計(jì)和預(yù)測(cè)一個(gè)動(dòng)態(tài)系統(tǒng)的參數(shù)。該算法通常分兩步進(jìn)行。第一步,對(duì)現(xiàn)在狀態(tài)進(jìn)行估計(jì)并得到估計(jì)誤差。

26、第二步,結(jié)合下一個(gè)觀測(cè)值和誤差得到新的預(yù)測(cè)(通過(guò)對(duì)先前的估計(jì)和誤差以及新的觀測(cè)和誤差給予適當(dāng)權(quán)重)。動(dòng)態(tài)系統(tǒng)由狀態(tài)空間模型(或動(dòng)態(tài)線性模型,DLMs)描述,其中有兩個(gè)組成部分:請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明9 / 23金融工程丨專(zhuān)題報(bào)告1)狀態(tài)進(jìn)化:隨時(shí)間不斷變化不可觀察的變量稱(chēng)為系統(tǒng)的狀態(tài),狀態(tài)的變化方程為具有高斯噪聲的線性表達(dá)式:,給定先前的狀態(tài)定性。2)測(cè)量:,我們能夠估計(jì)當(dāng)前狀態(tài) ,但由于外部隨機(jī)因素影響,存在不確雖然我們不能直接觀察狀態(tài) ,但是我們可以得到狀態(tài) 的測(cè)量 ,只不過(guò)測(cè)量仍然伴隨著高斯噪聲:,測(cè)量可以用于估計(jì)狀態(tài),但有不確定性??柭鼮V波器結(jié)合上述信息,給出最優(yōu)狀態(tài)變量服從高

27、斯分布協(xié)方差分別為:,其均值和其中條件高斯分布:是卡爾曼增益。公式雖復(fù)雜,但其推導(dǎo)僅依賴(lài)于 mX S11 1S2 X Z N m , SS22 Z 21X | (Z = z) N(m, S)S (z - m ), S = S其中, m= m + S-1- SS-1S。X12 22Z1112 22 21卡爾曼濾波應(yīng)用實(shí)例卡爾曼濾波實(shí)際應(yīng)用中最著名的例子是在羅任務(wù)中航天器導(dǎo)航,近些年來(lái)非線性的卡爾曼濾波也廣泛的應(yīng)用于自動(dòng)駕駛。在金融領(lǐng)域,卡爾曼濾波器常用于趨勢(shì)估計(jì)、信號(hào)去噪或描述資產(chǎn)與市場(chǎng)之間的動(dòng)態(tài)關(guān)系。一個(gè)常見(jiàn)的金融上的應(yīng)用實(shí)例是做配對(duì)交易。海外由于 ETF 的種類(lèi)繁多,交易費(fèi)用低, 所以常用

28、ETF 來(lái)做配對(duì)交易,在 ETF 配對(duì)策略中使用卡爾曼濾波器估計(jì),尋找協(xié)整請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明10 / 23金融工程丨專(zhuān)題報(bào)告關(guān)系中的背離機(jī)會(huì),相比于傳統(tǒng)的回歸方式有一定的增強(qiáng)作用。我們這邊為了說(shuō)明卡爾曼濾波器的效果,也選用一個(gè)配對(duì)交易的例子,但是由于國(guó)內(nèi)限制條件較多,此例僅做理論上的方法實(shí)踐及效果展示。假設(shè)可以對(duì)于股票通過(guò)融資融券進(jìn)行賣(mài)空操作,我們選取一對(duì)相關(guān)性較強(qiáng)的股票組合: 中國(guó)銀行和交通銀行對(duì)卡爾曼濾波器在處理這種問(wèn)題時(shí)的優(yōu)勢(shì)做詳細(xì)說(shuō)明。圖 4:中國(guó)銀行和交通銀行價(jià)格(取自然對(duì)數(shù))走勢(shì)圖圖 5:中國(guó)銀行和交通銀行價(jià)格(取自然對(duì)數(shù))走勢(shì)圖資料來(lái)源:Wind, 長(zhǎng)江證券研究所資料來(lái)

29、源:Wind, 長(zhǎng)江證券研究所從上面圖 3 和圖 4 可以看出,在 2010 年 1 月到 2017 年 6 月這段區(qū)間,兩只股票之間的走勢(shì)具有較強(qiáng)的相關(guān)性,當(dāng)然也可以通過(guò)協(xié)整檢驗(yàn)來(lái)驗(yàn)證其協(xié)整關(guān)系。通過(guò)估計(jì)兩只股票價(jià)格序列的,來(lái)監(jiān)控他們之間相關(guān)關(guān)系的變化:)我們可以進(jìn)一步假設(shè)不是常數(shù),而會(huì)隨著時(shí)間變化。為了簡(jiǎn)單起見(jiàn),我們假設(shè)的變化服從隨機(jī)游走:這是一個(gè)動(dòng)態(tài)線性回歸問(wèn)題,在狀態(tài)空間中, 是狀態(tài)變量,系統(tǒng)如下,使用到的狀態(tài)方程和測(cè)量方程見(jiàn)上面卡爾曼濾波介紹部分,根據(jù)觀察值(股票的價(jià)格),我們可以使 用卡爾曼濾波器來(lái)估計(jì)值。這一單變量例子中的卡爾曼增益為表示信噪比(SNR):狀態(tài)方差與測(cè)量誤差的比值

30、。如果信噪比較小,則測(cè)量結(jié)果是嘈雜并且無(wú)效的,因此對(duì)先驗(yàn)信息的加權(quán)較大。如果信噪比大,觀察值加權(quán)應(yīng)較大。如果信噪比非常小,觀察值于我們并沒(méi)有用(因?yàn)樗青须s的),我們只用了先驗(yàn)信息:除了卡爾曼濾波器,我們顯然也可以使用普通的線性回歸:)請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明11 / 23金融工程丨專(zhuān)題報(bào)告我們使用卡爾曼濾波器,同時(shí)也用過(guò)去 60 個(gè)交易日滾動(dòng)窗口的線性回歸對(duì)進(jìn)行估計(jì)。兩者對(duì)比,不難看出,卡爾曼濾波器更靈敏。事實(shí)上,卡爾曼濾波器與指數(shù)平滑技術(shù)密切相關(guān),它給最近的觀測(cè)值更多的權(quán)重,并且可以根據(jù)測(cè)量的“噪聲”調(diào)整權(quán)重。圖 6:卡爾曼濾波器和 OLS 回歸估計(jì)的 beta 值資料來(lái)源:Wind,

31、 長(zhǎng)江證券研究所此交易信號(hào)只依賴(lài)于殘差,殘差應(yīng)當(dāng)圍繞均值 0 波動(dòng)。在每個(gè)交易日結(jié)束時(shí),我們得到新的股票收盤(pán)價(jià)來(lái)更新我們對(duì) 的估計(jì),然后計(jì)算殘差:。我們把殘差的不確定性記為,我們可以用它來(lái)確定殘差的大小是否足以觸發(fā)我們的策略:如果,我們做多單位股票 2,同時(shí)做空股票 1;如果,我們做空單位股票 1,同時(shí)做多股票 2。圖 7:卡爾曼濾波器做配對(duì)交易時(shí)的凈值收益率圖 8:OLS 做配對(duì)交易時(shí)的凈值收益率資料來(lái)源:Wind, 長(zhǎng)江證券研究所資料來(lái)源:Wind, 長(zhǎng)江證券研究所請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明12 / 23金融工程丨專(zhuān)題報(bào)告K 分別取值為 0.1、0.3 及 0.5,得到策略收益率如上圖所

32、示。使用卡爾曼濾波器得到收益率略高于 OLS 模型,在不同 k 值下穩(wěn)定性也更好。但是整體而言,策略并未產(chǎn)生較多的超額收益。極限梯度提升(XGBoost)“提升”是指迭代地組合弱“學(xué)習(xí)器”(即具有弱預(yù)測(cè)能力的算法)以形成具有強(qiáng)預(yù)測(cè)能力的算法。Boosting 從弱學(xué)習(xí)器開(kāi)始(通常是回歸樹(shù)算法),記錄學(xué)習(xí)器的預(yù)測(cè)與實(shí)際輸出之間的誤差,在每一次迭代中,它都能根據(jù)誤差來(lái)改善前一迭代步驟中的弱學(xué)習(xí)器。如果誤差項(xiàng)在損失函數(shù)負(fù)梯度方向上,則該方法被稱(chēng)為“梯度提升”。梯度提升(XGBoost)是指 Chen 和 Guestrin 的優(yōu)化實(shí)現(xiàn),是處理金融時(shí)間序列數(shù)據(jù)的一種流行監(jiān)督學(xué)習(xí)算法?;貧w樹(shù)與決策樹(shù)類(lèi)似,

33、只不過(guò)在每個(gè)子葉節(jié)點(diǎn)我們得到的是連續(xù)的數(shù)值非離散的類(lèi)標(biāo)簽。輸入一個(gè)大小為 m 的向量到一個(gè)有 T 片葉子的回歸樹(shù)模型中,輸入變量與葉子節(jié)點(diǎn)的映射關(guān)系由函數(shù):表示。用函數(shù) w 表示在葉子上的得分,那么第 k 個(gè)數(shù)為函數(shù),其中。對(duì)于大小為 n,樣本為和來(lái)預(yù)測(cè)最終輸出結(jié)果:,的訓(xùn)練集,樹(shù)集成模型將使用 k 個(gè)函數(shù)的為了進(jìn)行模型中的一組函數(shù)訓(xùn)練,定義正則項(xiàng)如下:樹(shù)集成模型以加法方式進(jìn)行優(yōu)化,用 表示增強(qiáng)迭代第 t 階段第 i 個(gè)訓(xùn)練樣本的預(yù)測(cè), 那么最小化的目標(biāo)函數(shù)可以寫(xiě)為:通過(guò)二階泰勒式展開(kāi),進(jìn)行優(yōu)化最后得到集成的樹(shù)模型 。為了防止過(guò)度擬合,XGBoost允許進(jìn)行樹(shù)的修剪和樣本特征抽樣(如隨機(jī)森林模

34、型)。由于極限梯度提升方法經(jīng)常和樹(shù)模型一起使用,在此處不給出單獨(dú)的實(shí)例,可以參考隨機(jī)森林部分的實(shí)例。監(jiān)督學(xué)習(xí)之分類(lèi)監(jiān)督學(xué)習(xí)中分類(lèi)方法的目標(biāo)是把觀察值分為不同類(lèi)別。在金融領(lǐng)域中我們經(jīng)常希望對(duì)資產(chǎn)的趨勢(shì)進(jìn)行預(yù)測(cè),但是很多時(shí)候采取回歸的方法得到的預(yù)測(cè)值準(zhǔn)確度較低,此時(shí)就可以采取分類(lèi)的方式,一方面可以提升準(zhǔn)確度,另外一方面某些情況下對(duì)于狀態(tài)的預(yù)測(cè)比絕對(duì)值上的預(yù)測(cè)意義更大。此篇,我們將介紹以下分類(lèi)算法:邏輯回歸、支持向量機(jī)請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明13 / 23金融工程丨專(zhuān)題報(bào)告(SVM)、決策樹(shù)、隨機(jī)森林以及隱馬爾可夫模型。其中邏輯回歸和支持向量機(jī)的原理在之前的報(bào)告大類(lèi)資產(chǎn)配置之機(jī)器學(xué)習(xí)用于股票資產(chǎn)

35、資產(chǎn)的趨勢(shì)判斷中有詳細(xì)介紹及數(shù)學(xué)推導(dǎo)。邏輯回歸邏輯回歸即 Logistic 回歸(又稱(chēng) logit)利用給定的歷史樣本,預(yù)測(cè)發(fā)生的概率,在我們上篇報(bào)告中也用到邏輯回歸對(duì)于股票資產(chǎn)的趨勢(shì)進(jìn)行預(yù)測(cè),根據(jù)一系列宏觀及估值類(lèi)的指標(biāo)預(yù)測(cè)月度股票走勢(shì),將其走勢(shì)分為“上漲”、“下跌”兩類(lèi),也可以根據(jù)漲跌幅度對(duì)于分類(lèi)結(jié)果進(jìn)行進(jìn)一步細(xì)分。邏輯回歸是對(duì)普通線性回歸的簡(jiǎn)單變換。我們首先得到輸入變量的線性組合,然后給出一個(gè)函數(shù)將該數(shù)映射到 0 和 1 之間。支持向量機(jī)支持向量機(jī)因?yàn)槠湓谑褂眉皡?shù)優(yōu)化上的便利性成為最常使用的分類(lèi)算法之一,常見(jiàn)的使用情景是在資產(chǎn)價(jià)格變化方向的預(yù)測(cè)上。假設(shè)我們有一系列的指標(biāo)用于資產(chǎn)趨勢(shì)預(yù)測(cè)

36、,普通分類(lèi)模型完成的任務(wù)是找到一組線性組合,當(dāng)資產(chǎn)呈現(xiàn)上漲趨勢(shì)時(shí)線性組合的值較大(或較小),反之,當(dāng)資產(chǎn)呈現(xiàn)下跌趨勢(shì)時(shí)對(duì)應(yīng)的線性組合的值較?。ɑ蜉^大),支持向量機(jī)想要找到使得上漲或下跌趨勢(shì)對(duì)應(yīng)的線性組合的值區(qū)分度最大的結(jié)果。決策樹(shù)和隨機(jī)森林決策樹(shù)模型本質(zhì)與工商管理和金融分析中普遍應(yīng)用的流程圖類(lèi)似,要得到最終的結(jié)果, 需要解答中間一系列問(wèn)題。根據(jù)每一步的對(duì)于問(wèn)題的解答,來(lái)選擇樹(shù)的分叉方向。決策樹(shù)的最終結(jié)果會(huì)受到中間問(wèn)題的順序的影響,一般將影響最重要的問(wèn)題放在最前面。決策樹(shù)模型是用于非線性指標(biāo)分類(lèi)的最簡(jiǎn)單的模型之一,舉一個(gè)簡(jiǎn)單的在金融領(lǐng)域應(yīng)用例子,比如我們想要進(jìn)行因子選股,不同于傳統(tǒng)的多因子模型,

37、我們認(rèn)為因子暴露度與個(gè)股收益率之間存在非線性關(guān)系,這時(shí)可以用決策樹(shù)模型,選用動(dòng)量(Mom)、波動(dòng)率(Vol)、PE 三個(gè)因子,通過(guò)下面的樹(shù)模型決策過(guò)程得到股票組合。圖 9:決策樹(shù)模型股票篩選示例資料來(lái)源:Wind, 長(zhǎng)江證券研究所請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明14 / 23金融工程丨專(zhuān)題報(bào)告通過(guò)上面的簡(jiǎn)單例子也可以發(fā)現(xiàn),決策樹(shù)模型擬合的核心在于尋找最優(yōu)變量和分裂閾值,以最小化特定的損失函數(shù)。損失函數(shù)可以定義為子葉節(jié)點(diǎn)的不純度,通常使用 Gini 系數(shù)或者熵度量。實(shí)際使用中通過(guò)參數(shù)調(diào)整來(lái)確保樹(shù)模型預(yù)測(cè)準(zhǔn)確度防止過(guò)擬合,例如: 最大深度(Max depth):決定決策樹(shù)的最大深度 節(jié)點(diǎn)樣本個(gè)數(shù)(No

38、de size): 每一個(gè)節(jié)點(diǎn)至少有 N 個(gè)觀察樣本也可以通過(guò)修建枝葉即決策樹(shù)構(gòu)建好后,用單一葉節(jié)點(diǎn)代替整個(gè)字?jǐn)?shù)或者用一個(gè)數(shù)字代替一顆子樹(shù)來(lái)防止模型由于太過(guò)“茂盛”產(chǎn)生過(guò)擬合。決策樹(shù)模型雖然邏輯簡(jiǎn)單使用方便,但使用過(guò)程中穩(wěn)健性較差,樣本產(chǎn)生一些小變化就有可能導(dǎo)致擬合出完全不同的樹(shù)模型,因此作為預(yù)測(cè)模型單獨(dú)使用效果不佳,可以用于觀察不同變量之間的交互影響及形成集合模型。隨機(jī)森林就是依據(jù)決策樹(shù)模型構(gòu)建的一種典型的集合型算法,可以用于解決單個(gè)決策樹(shù)模型預(yù)測(cè)時(shí)方差較大的問(wèn)題。通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行隨機(jī)樣本劃分,每一棵決策樹(shù)都依據(jù)部分樣本進(jìn)行單獨(dú)判斷,最后的結(jié)果通過(guò)眾多樹(shù)模型投票得出,與簡(jiǎn)單樹(shù)模型相比這種做

39、法可以降低預(yù)測(cè)的方差。為了防止構(gòu)建出來(lái)的樹(shù)模型性之間相關(guān)性較高,每一棵樹(shù)模型都是從總共 p 個(gè)變量中隨機(jī)選擇 m 個(gè)分裂變量,根據(jù) m(mp)個(gè)變量來(lái)構(gòu)建模型。此時(shí),要度量每個(gè)變量對(duì)于結(jié)果的重要性,可以通過(guò)記錄每個(gè)節(jié)點(diǎn)根據(jù)此變量分裂后不純度的下降程度。另外一個(gè)衡量方法是部分依賴(lài)圖,根據(jù)分類(lèi)的幾率的自然對(duì)數(shù)來(lái)繪制。仍然使用上面介紹的用三個(gè)因子分類(lèi)的例子:其中 x 指動(dòng)量(Mom)、波動(dòng)率(Vol)或 PE 三個(gè)因子的值。分類(lèi)模型在選股及擇時(shí)上的應(yīng)用實(shí)例上文介紹的幾種分類(lèi)模型是目前最常使用的幾種模型,在國(guó)內(nèi)外關(guān)于這幾種模型的研究和實(shí)踐案例分析的參考資料也較多。包括我們之前的報(bào)告中就有涉及,使用 l

40、ogistic 模型、SVM 模型及人工神經(jīng)網(wǎng)絡(luò)模型,依據(jù)宏觀指標(biāo)以及資產(chǎn)的估值指標(biāo)對(duì)于股票資產(chǎn)進(jìn)行趨勢(shì)判斷。SVM 模型應(yīng)用于滬深 300 內(nèi)選股關(guān)于 Logistic 模型及 SVM 模型的應(yīng)用實(shí)例,在除了進(jìn)行這種擇時(shí)的判斷,就目前大家比較關(guān)心的多因子選股,兩種模型也都可以實(shí)現(xiàn)相關(guān)的功能。選股的邏輯基本大同小異,本文示例中以月度為單位,選擇過(guò)去 12 個(gè)月的滬深 300 股票的因子暴露度及股票下期收益率作為訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練模型,其中將股票的下期收益率按照高低分為 10 檔,第一檔為強(qiáng)勢(shì)股,第十檔為弱勢(shì)股,對(duì)應(yīng)標(biāo)簽 110。訓(xùn)練好的模型用于拿到下期因子數(shù)據(jù)后的預(yù)測(cè)中,得到股票的對(duì)應(yīng)標(biāo)簽。請(qǐng)閱讀

41、最后評(píng)級(jí)說(shuō)明和重要聲明15 / 23金融工程丨專(zhuān)題報(bào)告根據(jù)上面的方法,我們選擇滬深 300 為股票池,剔除上市不滿 1 年的次新股、ST 股,考慮到漲跌停情況及交易費(fèi)用,回測(cè)區(qū)間選擇 2006 年 2 月份到 2017 年 7 月,按照月度進(jìn)行換倉(cāng)。SVM 根據(jù)數(shù)據(jù)特征可以選擇不同的核函數(shù),在進(jìn)行多因子選股時(shí)線性核的效果最好。圖 10:SVM 在滬深 300 內(nèi)多因子選股分檔效果資料來(lái)源:Wind, 長(zhǎng)江證券研究所常見(jiàn)的核函數(shù)的選擇有高斯核函數(shù)、多項(xiàng)式核函數(shù)和線性核函數(shù),比較而言,線性核函數(shù)用于多因子選股的效果最好。使用線性核進(jìn)行選股分檔效果如上圖,高低組之間的收益分化明顯。圖 11:SVM

42、滬深 300 內(nèi)多因子選股與基準(zhǔn)比較的效果資料來(lái)源:Wind, 長(zhǎng)江證券研究所請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明16 / 23金融工程丨專(zhuān)題報(bào)告分年收益表現(xiàn)如下:表 2:SVM 選股分年效果200696.81%-2.65%3.770.27%21.65%2007175.97%5.52%3.5214.72%16.92%2008-49.71%47.68%-0.8262.99%8.14%2009172.78%38.67%4.3712.60%10.25%201010.34%26.13%0.9524.97%7.90%2011-29.50%-5.98%-1.0531.66%7.47%2012-4.73%-11.4

43、2%0.4223.13%10.62%201347.40%59.60%1.9415.46%1.85%201466.33%9.67%3.254.91%27.97%2015131.61%119.36%2.4325.16%0.00%20167.43%21.10%0.725.01%2.08%2017-10.06%-18.81%-0.6213.02%15.23%平均34.53%20.26%1.3862.99%27.97%資料來(lái)源:Wind,天軟,長(zhǎng)江證券研究所分年回測(cè)效果如上,今年以來(lái)表現(xiàn)不佳,整體而言回測(cè)區(qū)間內(nèi)有正超額收益,但是與傳統(tǒng)的多因子模型相比并未表現(xiàn)出較大優(yōu)勢(shì)。隨機(jī)森林依據(jù)多因子數(shù)據(jù)的擇時(shí)使用每

44、日的因子收益率數(shù)據(jù),由于不同指數(shù)的行業(yè)權(quán)重分布偏差,某些行業(yè)對(duì)于指數(shù)的走勢(shì)有較大決定性作用,因此除了常見(jiàn)的幾種大類(lèi)風(fēng)格因子還會(huì)使用到行業(yè)因子收益率數(shù)據(jù)。行業(yè)因子按照中信一級(jí)行業(yè)進(jìn)行分類(lèi)。預(yù)測(cè)的主要信息如下:預(yù)測(cè)標(biāo)的的選擇:可以針對(duì)主要指數(shù)包括滬深 300、中證 500 和中證 1000 進(jìn)行擇時(shí)。模型的選擇:主要考量隨機(jī)森林模型的預(yù)測(cè)結(jié)果。預(yù)測(cè)的結(jié)果:選取訓(xùn)練期之后,將當(dāng)期因子收益率和下期三種指數(shù)的漲跌幅(上漲為 1, 下跌為 0)進(jìn)行訓(xùn)練,得到的模型用于下期指數(shù)漲跌結(jié)果的預(yù)測(cè)。采取滾動(dòng)的方式進(jìn)行。表 3:隨機(jī)森林擇時(shí)準(zhǔn)確度滬深30065.20%全部因子隨機(jī)森林/60周 中證50069.24%

45、請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明17 / 23輸入的指標(biāo)模型/周期標(biāo)的指數(shù)準(zhǔn)確度日期收益率超額收益率夏普比率最大回撤超額最大回撤金融工程丨專(zhuān)題報(bào)告中證100072.76%資料來(lái)源:Wind,長(zhǎng)江證券研究所從預(yù)測(cè)的準(zhǔn)確度來(lái)看,利用多因子數(shù)據(jù)進(jìn)行周度擇時(shí)在三種指數(shù)上的擇時(shí)效果都較好, 我們也從滬深 300 擇時(shí)的收益角度來(lái)做具體分析。圖 12:隨機(jī)森林滬深 300 擇時(shí)效果資料來(lái)源:Wind, 長(zhǎng)江證券研究所表 4:隨機(jī)森林滬深 300 擇時(shí)分年效果2006115.14%-1.53%13.79%2.10%7.022007184.14%34.57%17.78%12.28%5.862008-18.67%4

46、5.74%71.27%29.89%-0.552009137.08%57.58%25.88%12.78%5.21201033.76%44.30%29.02%7.36%2.01201121.79%45.69%30.60%5.43%1.45201245.20%37.37%22.40%4.59%3.36201334.00%42.91%21.60%7.25%2.34201481.00%35.56%9.29%4.26%4.29201518.14%11.55%39.58%27.30%0.662016-1.08%9.76%22.69%13.65%-0.07201711.20%-1.89%4.19%2.89%1

47、.96平均48.37%38.98%71.27%29.89%2.03資料來(lái)源:Wind,長(zhǎng)江證券研究所分年來(lái)看,從 06 年到 17 年 6 月份基本上每年都能夠獲取超額收益,相對(duì)于基準(zhǔn)的回撤也較小,盈虧比有 1.4,綜合考慮盈虧比和預(yù)測(cè)準(zhǔn)確度,比傳統(tǒng)的技術(shù)性擇時(shí)指標(biāo)更為穩(wěn)健。我們?cè)诖司筒辉僬归_(kāi)分析隨機(jī)森林在中證 500 和中證 1000 上的擇時(shí)效果。請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明18 / 23日期擇時(shí)收益率超額收益率基準(zhǔn)最大回撤擇時(shí)最大回撤夏普比率金融工程丨專(zhuān)題報(bào)告隱馬爾科夫模型在卡爾曼濾波介紹中,我們提到卡爾曼濾波方法可以用于估計(jì)動(dòng)態(tài)系統(tǒng)中的系數(shù),如果的變化是離散的話,那不同可以看做是代表不

48、同的“狀態(tài)”。隱馬爾科夫模型(HMMs)類(lèi)似于卡爾曼濾波,假設(shè)下個(gè)狀態(tài)的發(fā)生只跟現(xiàn)在的狀態(tài)有關(guān)(即隱藏狀態(tài)服從離散馬爾科夫過(guò)程)。HMMs 具有很強(qiáng)的實(shí)用性,因?yàn)樵诤芏鄬?shí)際問(wèn)題中,我們對(duì)于識(shí)別一些不能直接觀察到的非常感興趣,例如現(xiàn)在市場(chǎng)是處于一個(gè)趨勢(shì)向上還是趨勢(shì)向下?tīng)顟B(tài),而這些問(wèn)題可以通過(guò)其他能夠觀察得到的變量得到(例如市場(chǎng)收益率、波動(dòng)率等)。在上世紀(jì) 90 年代 HMMs 被廣泛的應(yīng)用于語(yǔ)音識(shí)別中,近些年來(lái),在生物信息領(lǐng)域例如基因序列分析上應(yīng)用較多。在金融領(lǐng)域,HMMs 主要用于市場(chǎng)狀態(tài)的刻畫(huà)。假設(shè)市場(chǎng)只有上漲和下跌兩個(gè)狀態(tài),一個(gè)隱馬爾科夫模型可以表述為市場(chǎng)狀態(tài)的馬爾科夫過(guò)程。意味著,如果現(xiàn)

49、在市場(chǎng)是處于上漲狀態(tài),那么持續(xù)上漲狀態(tài)的概率為 80%,轉(zhuǎn)變?yōu)橄碌鵂顟B(tài)的概率為 20%。市場(chǎng)收益率的分布是一個(gè)依據(jù)現(xiàn)在市場(chǎng)狀態(tài)的條件概率分布:。由于市場(chǎng)收益率是有歷史數(shù)據(jù)的,我們可以通過(guò)收益率來(lái)推導(dǎo)出不同時(shí)期的市場(chǎng)狀態(tài)的似然性。HMMs 中的參數(shù)是通過(guò) EM 算法優(yōu)化這種似然性得到,估計(jì)的參數(shù)有五個(gè),兩個(gè)狀態(tài)集合及三個(gè)概率矩陣,包括每個(gè)狀態(tài)的初始概率、狀態(tài)轉(zhuǎn)移概率、在當(dāng)前狀態(tài)下的概率、觀察值(例如收益率)在各個(gè)狀態(tài)下的均值和方差。圖 13:HMMs 模型的估計(jì)結(jié)果(轉(zhuǎn)移矩陣)圖 14:HMMs 模型的估計(jì)結(jié)果(均值和方差)資料來(lái)源:Wind, 長(zhǎng)江證券研究所資料來(lái)源:Wind, 長(zhǎng)江證券研究所

50、隱馬爾科夫模型的應(yīng)用實(shí)例基于 HMMs 來(lái)判斷上證綜指的上漲和下跌趨勢(shì),依據(jù)趨勢(shì)判斷結(jié)果來(lái)驗(yàn)證 HMMs 的狀態(tài)劃分方式對(duì)于國(guó)內(nèi) A 股市場(chǎng)是否有效。我們選擇從 1995 年 1 月份至今的日度收益率數(shù)據(jù),分別按照日度、周度及月度進(jìn)行狀態(tài)劃分。在模型判斷市場(chǎng)上漲時(shí)持有上證綜指, 市場(chǎng)下跌的時(shí)候持有現(xiàn)金。一般在進(jìn)行 HMMs 預(yù)測(cè)時(shí),觀察變量數(shù)據(jù)量越大越好,在其足夠大的情況下才能夠確保每種狀態(tài)出現(xiàn)足夠多的頻次。我們選擇從 1995 年 1 月份開(kāi)始到現(xiàn)在的上證綜指日度數(shù)據(jù),收益率為正并且波動(dòng)率較高的周期定義為上漲趨勢(shì);收益率為負(fù)并且波動(dòng)率較低的周期定義為下跌趨勢(shì)。圖 14 是以月度收益率的頻率根

51、據(jù)這段時(shí)間區(qū)間計(jì)算出來(lái)的處于狀態(tài) 1 下的概率,狀態(tài)1 對(duì)應(yīng)的是低收益率低波動(dòng)率。請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明19 / 23金融工程丨專(zhuān)題報(bào)告圖 15:市場(chǎng)下跌趨勢(shì)狀態(tài)下的后驗(yàn)概率資料來(lái)源:Wind, 長(zhǎng)江證券研究所從隱馬爾科夫模型判斷的狀態(tài)與市場(chǎng)實(shí)際所處的狀態(tài)的契合度來(lái)看,日度狀態(tài)判斷效果較差,對(duì)于收益率和波動(dòng)率無(wú)法起到顯著區(qū)分作用。整體比較而言,周度效果最佳。相對(duì)于上證綜指的擇時(shí)效果見(jiàn)下圖。圖 16:HMMs 模型的周度擇時(shí)效果圖 17:HMMs 模型的月度擇時(shí)效果資料來(lái)源:Wind, 長(zhǎng)江證券研究所資料來(lái)源:Wind, 長(zhǎng)江證券研究所從時(shí)間段上來(lái)看,無(wú)論是日度、周度還是月度模型,HMMs 的劃分在 95 年到 07 年這段時(shí)間區(qū)間效果較好,相對(duì)基準(zhǔn)有較高的超額收益,但是 07 年之后相對(duì)于上證綜指判斷效果較差,無(wú)超額收益。請(qǐng)閱讀最后評(píng)級(jí)說(shuō)明和重要聲明20 / 23金融工程丨專(zhuān)題報(bào)告圖 18:1995 年至 2007 年月度判斷擇時(shí)效果展示(累計(jì)收益率、月度收益率及回撤)資料來(lái)源:Wind, 長(zhǎng)江證券研究所從模型中的五個(gè)估計(jì)值也可以判斷出,在 95 年至 07 年期間,模型估計(jì)出的狀態(tài)1 和狀態(tài) 2 分界清晰,狀態(tài) 1 下收益率均值為正,方差較大,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論