機器學(xué)習(xí)白皮書系列之一監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實例_W

上傳人：我*** IP屬地：北京上傳時間：2020-10-04 格式：DOCX 頁數(shù)：23 大小：1.16MB 積分：9.6 舉報 版權(quán)申訴

機器學(xué)習(xí)白皮書系列之一監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實例_W_第2頁

機器學(xué)習(xí)白皮書系列之一監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實例_W_第3頁

機器學(xué)習(xí)白皮書系列之一監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實例_W_第4頁

機器學(xué)習(xí)白皮書系列之一監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實例_W_第5頁

已閱讀5頁，還剩18頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、研究報告機器學(xué)習(xí)2017-7-27機器學(xué)習(xí)白皮書系列之一：監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實例金融工程專題報告報告要點分析師覃川桃（8621）68751782執(zhí)業(yè)證書編號：S0490513030001 陳潔敏（8621） 68751787機器學(xué)習(xí)系列報告本系列報告試圖系統(tǒng)全面性的介紹各種不同的機器學(xué)習(xí)方法，并且結(jié)合具體的在投資研究領(lǐng)域應(yīng)用實例、交易策略及code 示例，說明其應(yīng)用情景和實現(xiàn)方法機器學(xué)習(xí)的方法可以分為以下幾類：監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)及其他機器學(xué)習(xí)方法（例如強化學(xué)習(xí)），對應(yīng)到具體的模型上數(shù)量則更是繁多，目前

2、大部分機器學(xué)習(xí)模型并未廣泛的應(yīng)用在投研領(lǐng)域，因此本系列主要偏重于在投研領(lǐng)域有應(yīng)用潛力的模型及方法。此篇將以介紹監(jiān)督學(xué)習(xí)方法為主。聯(lián)系人聯(lián)系人楊靖鳳（8621）68751636監(jiān)督學(xué)習(xí)模型之回歸類模型及其應(yīng)用與普通線性回歸不同，監(jiān)督學(xué)習(xí)中的懲罰回歸模型和非參數(shù)回歸，可以分別用于處理輸入變量中存在大量線性相關(guān)性關(guān)系及非線性關(guān)系時的情況。懲罰回歸模型中金融領(lǐng)域使用得較多的有 Lasso 回歸、嶺回歸和彈性網(wǎng)絡(luò)回歸；具有代表性的非參數(shù)回歸模型則有：K 最近鄰、LOESS 及卡爾曼濾波器。同時，也用到兩個實例來說明了懲罰回歸模型在擬合中的優(yōu)勢，以及卡爾曼濾波器使用時對于

3、趨勢判斷、狀態(tài)分辨的靈敏性。相關(guān)研究陸港通系列( 一) ：外資2017-7-24中的 Alpha 富時中國A50 指數(shù)投資價值分析2017-6-8基金的績效歸因方法分析及應(yīng)用2017-6-6監(jiān)督學(xué)習(xí)模型之分類模型及其應(yīng)用回歸模型可以通過模型擬合進(jìn)行樣本外數(shù)據(jù)預(yù)測，得到具體的預(yù)測值。但是在金融領(lǐng)域很多問題不需要得到具體的值，得到目前的狀態(tài)類型或者相對強弱位置即可。因此，分類模型應(yīng)用非常廣泛。此篇，我們將介紹以下分類算法：邏輯回歸、支持向量機（SVM）、決策樹、隨機森林以及隱馬爾可夫模型。前面四種模型我們將會給出具體的擇時和選股上的實例，隱馬爾科夫模型我們則是驗證其對于國內(nèi) A 股市場的狀態(tài)劃

4、分是否有效。監(jiān)督學(xué)習(xí)模型的總結(jié)和比較我們介紹的幾種模型的共同特點是模型中都會要求有一個訓(xùn)練期（樣本內(nèi)）和預(yù)測期（樣本外），通過訓(xùn)練期來找到最優(yōu)參數(shù)，擬合非線性關(guān)系，然后在預(yù)測期內(nèi)進(jìn)行應(yīng)用。不同模型的主要應(yīng)用情景不同，具體可以參考我們給出的不同模型的實例。后面將會陸續(xù)介紹非監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)的方法及具體應(yīng)用情景，并從模型中延展開來，持續(xù)追蹤人工智能和大數(shù)據(jù)領(lǐng)域的發(fā)展?fàn)顩r及應(yīng)用實踐。1. 模型在使用中存在建模風(fēng)險；2. 本文舉例均是基于歷史數(shù)據(jù)不保證其未來收益。風(fēng)險提示：請閱讀最后評級說明和重要聲明1 / 23金融工程丨專題報告目錄機器學(xué)習(xí)方法概述4傳統(tǒng)機器學(xué)習(xí)在金融上的應(yīng)用4深度學(xué)習(xí)的應(yīng)用5機器

5、學(xué)習(xí)模型的應(yīng)用情景5監(jiān)督學(xué)習(xí)模型之回歸6懲罰回歸模型6Lasso 回歸、嶺回歸和彈性網(wǎng)絡(luò)回歸6懲罰回歸模型應(yīng)用實例7非參數(shù)回歸9K 最近鄰和 LOESS9動態(tài)系統(tǒng)-卡爾曼濾波9卡爾曼濾波應(yīng)用實例10極限梯度提升（XGBoost）13監(jiān)督學(xué)習(xí)之分類13邏輯回歸14支持向量機14決策樹和隨機森林14分類模型在選股及擇時上的應(yīng)用實例15SVM 模型應(yīng)用于滬深 300 內(nèi)選股15隨機森林依據(jù)多因子數(shù)據(jù)的擇時17隱馬爾科夫模型19隱馬爾科夫模型的應(yīng)用實例19總結(jié)22圖表目錄圖 1：機器學(xué)習(xí)/人工智能方法介紹4圖 2：欠擬合、過擬合及完美擬合圖例6圖 2：懲罰回歸模型的擬合效果比較8圖 3：Lasso 模

6、型中 beta 選擇的軌跡圖8圖 4：中國銀行和交通銀行價格（取自然對數(shù)）走勢圖11圖 5：中國銀行和交通銀行價格（取自然對數(shù)）走勢圖11圖 6：卡爾曼濾波器和 OLS 回歸估計的 beta 值12請閱讀最后評級說明和重要聲明2 / 23金融工程丨專題報告圖 7：卡爾曼濾波器做配對交易時的凈值收益率12圖 8：OLS 做配對交易時的凈值收益率12圖 9：決策樹模型股票篩選示例14圖 10：SVM 在滬深 300 內(nèi)多因子選股分檔效果16圖 11：SVM 滬深 300 內(nèi)多因子選股與基準(zhǔn)比較的效果16圖 12：隨機森林滬深 300 擇時效果18圖 13：HMMs 模型的估計結(jié)果（轉(zhuǎn)移矩陣）19圖

7、 14：HMMs 模型的估計結(jié)果（均值和方差）19圖 15：市場下跌趨勢狀態(tài)下的后驗概率20圖 16：HMMs 模型的周度擇時效果20圖 17：HMMs 模型的月度擇時效果20圖 18：1995 年至 2007 年月度判斷擇時效果展示（累計收益率、月度收益率及回撤）21圖 19：2007 年年末至 2017 年 7 月月度判斷擇時效果展示（累計收益率、月度收益率及回撤）22表 1：情景問題、具體的金融實例及其對應(yīng)的機器學(xué)習(xí)方法5表 2：SVM 選股分年效果17表 3：隨機森林擇時準(zhǔn)確度17表 4：隨機森林滬深 300 擇時分年效果18請閱讀最后評級說明和重要聲明3 / 23金融工程丨專題報告機

8、器學(xué)習(xí)方法概述本系列報告試圖系統(tǒng)全面性的介紹各種不同的機器學(xué)習(xí)方法，并且結(jié)合具體的在投資研究領(lǐng)域應(yīng)用實例、交易策略及 code 示例，說明其應(yīng)用情景和方法。機器學(xué)習(xí)的方法可以分為以下幾類：監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、深度學(xué)習(xí)及其他機器學(xué)習(xí)方法（例如強化學(xué)習(xí)），具體使用到的模型見圖 1。此篇將以介紹監(jiān)督學(xué)習(xí)方法為主。圖 1：機器學(xué)習(xí)/人工智能方法介紹資料來源：JP Morgan, 長江證券研究所機器學(xué)習(xí)方法結(jié)合統(tǒng)計學(xué)和計算機兩個領(lǐng)域，也可以根據(jù)具體方法與兩個領(lǐng)域交叉度的高低，分為傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)兩個大類。傳統(tǒng)機器學(xué)習(xí)是統(tǒng)計學(xué)的延伸，金融領(lǐng)域多應(yīng)用此類方法。深度學(xué)習(xí)例如卷積神經(jīng)網(wǎng)絡(luò)等則主要是應(yīng)用于

9、圖像處理、自然語言識別和其他非結(jié)構(gòu)化數(shù)據(jù)分析。深度學(xué)習(xí)和強化學(xué)習(xí)在時間序列分析和投資組合構(gòu)建中也有巨大的前景，深度學(xué)習(xí)有望在提升價格序列模型識別和收益預(yù)測的準(zhǔn)確性上對于傳統(tǒng)量化方法進(jìn)行補充和改良，強化學(xué)習(xí)則為自動化交易的速度和有效性提供了保障。目前海內(nèi)外也嘗試將人工神經(jīng)網(wǎng)絡(luò)用于資產(chǎn)趨勢的判斷中，并且取得了一定的效果，但是與使用較為簡單的隨機森林等機器學(xué)習(xí)模型相比并未發(fā)揮出其優(yōu)勢。傳統(tǒng)機器學(xué)習(xí)在金融上的應(yīng)用監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)統(tǒng)稱為傳統(tǒng)機器學(xué)習(xí)。一個機器學(xué)習(xí)算法通常是通過給定的數(shù)據(jù)來進(jìn)行模型學(xué)習(xí)，選擇出合適的參數(shù)，并且隨著提供的數(shù)據(jù)量的不斷增大模型的效果也逐步提升。監(jiān)督學(xué)習(xí)方法更能體現(xiàn)出機器學(xué)習(xí)

10、的概念，通過將樣本數(shù)據(jù)截取出部分作為訓(xùn)練期，在訓(xùn)練期中明確輸入指標(biāo)（X）及對應(yīng)的標(biāo)簽（Y），這樣機器學(xué)習(xí)算法在模型學(xué)習(xí)的過程中相當(dāng)于是基于給定的參考模式，在對應(yīng)輸出標(biāo)簽的“監(jiān)督”下來選擇合適的參數(shù)?？梢酝ㄟ^一個簡單的例子來說明傳統(tǒng)統(tǒng)計模型與機器學(xué)習(xí)模型的區(qū)別，例如我們在分析市場收益率和一些宏觀指標(biāo)如房地產(chǎn)投資增速、PPI、PMI、利率、宏觀景氣度等的關(guān)系時，傳統(tǒng)的統(tǒng)計學(xué)采取的是線性回歸的方式來計算市場收益率在這些指標(biāo)上的 beta 值，通過機器學(xué)習(xí)方法，我們可以用一些更加先進(jìn)的回歸模型，通過盡量排除異常值的影響，考慮到眾多輸入變量之間的相關(guān)性及指標(biāo)與輸出結(jié)果之間的非線性，最后得到更為穩(wěn)健的結(jié)果

11、，常用的有Lasso 回歸及 Logistic 回歸等。對于無監(jiān)督學(xué)習(xí)，在金融領(lǐng)域比較常用的是主成分分析（PCA）或獨立成分分析（ICA），其并不存在輸出變量作“監(jiān)督”。例如在進(jìn)行多因子分析時，我們的因子池里面有接近請閱讀最后評級說明和重要聲明4 / 23金融工程丨專題報告八十多個子類因子，通過 PCA 可以將眾多的因子進(jìn)行特征抽取，最后將股票收益率歸因于具有代表性的 89 個特征之上。另一種常用到的無監(jiān)督學(xué)習(xí)方法是聚類分析，通過樣本數(shù)據(jù)之間某種相似性將一組樣本劃分成幾個小組。深度學(xué)習(xí)的應(yīng)用在近些年來，除了傳統(tǒng)機器學(xué)習(xí)方法之外，受到人腦思考模式啟發(fā)的深度學(xué)習(xí)也得到了長足的發(fā)展。科學(xué)家觀察到人的

12、判斷是由大腦之中連接起來的獨立神經(jīng)元共同作用的結(jié)果，每個神經(jīng)元都可以接收不同來源的電流刺激，結(jié)合以往經(jīng)驗，給定不同電流刺激以相應(yīng)的權(quán)重并粗略計算其加權(quán)平均值，通過與預(yù)定的閾值相比較，來決定“激活”或“忽略”這些刺激。計算機領(lǐng)域的專家發(fā)現(xiàn)通過復(fù)制這種構(gòu)架，可以用于解決一些監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)問題，并且將這種多層神經(jīng)網(wǎng)絡(luò)構(gòu)架稱之為深度學(xué)習(xí)。過去幾十年來，機器學(xué)習(xí)領(lǐng)域取得的卓越成就大多來自于深度學(xué)習(xí)方法的應(yīng)用。圖像識別、語音識別、語言翻譯及自動駕駛都依賴于新的深度學(xué)習(xí)算法，其在大數(shù)據(jù)上處理優(yōu)勢和強大的自學(xué)習(xí)能力使其在投研領(lǐng)域具有巨大吸引力，但是目前的實踐應(yīng)用非常有限。機器學(xué)習(xí)模型的應(yīng)用情景使用機器

13、學(xué)習(xí)方法解決問題的第一步是需要在眾多的模型中找到適合的一類。針對不同的情景，選擇的最優(yōu)機器學(xué)習(xí)模型也會存在差異。下面表格中我們列舉出一些常用機器學(xué)習(xí)方用來解決的情景問題，有些情景可以有明確的金融實例可以對應(yīng)，同時也列舉了每種情景下常用到的機器學(xué)習(xí)方法。本篇后文也會通過特定的金融實例來具體介紹其中監(jiān)督學(xué)習(xí)方法的具體使用。表 1：情景問題、具體的金融實例及其對應(yīng)的機器學(xué)習(xí)方法給定輸入變量，預(yù)測資產(chǎn)價格的方向使用技術(shù)指標(biāo)對于對應(yīng)的指數(shù)進(jìn)行擇時SVM、Logistic 回歸、Lasso 回歸等一種資產(chǎn)的劇烈變動如何影響其他資產(chǎn)美元指數(shù)的變動對于美國國債收益率及黃金走勢的影響格蘭杰因果檢驗、脈沖響應(yīng)函數(shù)

14、一種資產(chǎn)走勢是否偏離其他相關(guān)資產(chǎn)黑色系商品走勢的分化一對多分類找出資產(chǎn)價格的驅(qū)動因素行業(yè)中有效因子的篩選PCA、ICA目前市場狀態(tài)判斷對于利率上行或下行周期判斷隱馬爾科夫、Soft-max分類一個發(fā)生的概率/是否會發(fā)生高送轉(zhuǎn)的預(yù)測決策樹、隨機森林、Logistic回歸在噪音數(shù)據(jù)中尋找信號資產(chǎn)周期的分析低通濾波器、SVM一篇文章或一段文字的感彩、主題公司公告的分析詞袋分析、詞頻-逆向文件頻率（TF-IDF）有哪些常見的市場壓力指標(biāo)K-means聚類分析計算圖像中某物體數(shù)量卷積神經(jīng)網(wǎng)絡(luò)最優(yōu)執(zhí)行速度基于部分可觀察馬爾科夫過程的強化學(xué)習(xí)基于大量輸入數(shù)據(jù)預(yù)測波動率受限玻爾茲曼機、SVM資料來源：JP M

15、organ Macro QDS，長江證券研究所選擇了合適的模型之后，還面臨著參數(shù)個數(shù)選擇及參數(shù)優(yōu)化的問題，此時需衡模型的“方差”和“偏差”，如下圖，線性回歸過于簡單，不足以解釋數(shù)據(jù)點，具有較大的“偏差”，我們稱為“欠擬合”。而使用高階多項式降低偏差則導(dǎo)致模型“過擬合”，在新的數(shù)據(jù)點，模型預(yù)測準(zhǔn)確性會降低，我們稱為“方差”較大。請閱讀最后評級說明和重要聲明5 / 23問題金融實例機器學(xué)習(xí)方法金融工程丨專題報告圖 2：欠擬合、過擬合及完美擬合圖例資料來源：Wind, 長江證券研究所模型的復(fù)雜程度提高的時候能夠降低偏差但是會增大方差，因此合適的模型需要優(yōu)化的是方差與偏差之和。一般可以用優(yōu)化的參數(shù)個數(shù)

16、來衡量模型的復(fù)雜程度，模型的擬合程度則可以通過交叉驗證的方法來判斷。交叉驗證的方式是采取分組采集子樣本集的方式，將原始數(shù)據(jù)分作訓(xùn)練集和驗證集，在訓(xùn)練集中調(diào)試參數(shù)然后將模型用于驗證集，通過驗證集中的擬合結(jié)果與真實值之間的誤差來衡量。當(dāng)然交叉驗證的方式并不適合于所有的機器學(xué)習(xí)模型，實踐中很多編程工具也會提供各種模型擬合程度判斷統(tǒng)計量及驗證方法，都要求我們事前對于模型原理有基本的了解。監(jiān)督學(xué)習(xí)模型之回歸監(jiān)督學(xué)習(xí)可以進(jìn)一步分為回歸和分類?；貧w方法試圖根據(jù)輸入變量來預(yù)測輸出變量的值，分類方法則嘗試將輸出結(jié)果分到不同類別。與普通線性回歸不同，監(jiān)督學(xué)習(xí)中的懲罰回歸模型和非參數(shù)回歸，可以分別用于處理輸入變量中

17、存在大量線性相關(guān)性關(guān)系及非線性關(guān)系時的情況。下面將就幾種常見的模型做具體介紹及示例。懲罰回歸模型最具代表性也是在金融領(lǐng)域使用最多的懲罰回歸模型有 Lasso 回歸、嶺回歸和彈性網(wǎng)絡(luò)回歸，與普通線性回歸相比這三種模型在尋找最優(yōu)回歸系數(shù)上做了進(jìn)一步改良，使模型穩(wěn)健性更強。Lasso 回歸、嶺回歸和彈性網(wǎng)絡(luò)回歸對于普通的線性回歸模型（OLS），我們通過最小化預(yù)測值與真實值之間的誤差來求得輸入變量的系數(shù)，假設(shè)預(yù)測值 y 為輸入值 x1, x2 ,., xn 的線性組合，系數(shù)通過下面方法估計：2n y - (b0 + bi xi ) OLS: 最小化i=1此時容易產(chǎn)生較為分散或數(shù)值較大的，可以添加一個反

18、映我們對數(shù)值較大的厭惡的懲罰項，來防止這種情況發(fā)生，即：請閱讀最后評級說明和重要聲明6 / 23金融工程丨專題報告2nnLasso 回歸: 最小化 y - (b0 +bi xi ) + abii=1i=1模型會將不需要和非常大的設(shè)置為零。加上系數(shù)絕對值的懲罰項稱為 L1 正則化，這種改進(jìn)的線性回歸稱為Lasso 回歸。通過對系數(shù)的優(yōu)化，Lasso 實質(zhì)上進(jìn)行了特征選擇。Lasso 的目標(biāo)函數(shù)可以理解如下：當(dāng)a = 0 時，得到普通線性回歸系數(shù)。隨著a 的增加，選擇的特征越來越少，最終得到最重要的一個特征。這里，a 被稱為模型的參數(shù)。同理，如果我們在目標(biāo)函數(shù)中添加的平方，就得到了嶺回歸。2

19、nn嶺回歸: 最小化y - (b + b x ) + a b20i iii=1i=1加上系數(shù)平方的懲罰項稱為L2 正則化，這種改進(jìn)的線性回歸稱為嶺回歸。彈性網(wǎng)絡(luò)回歸是 Lasso 和嶺回歸的混合體。2nnn彈性網(wǎng)絡(luò)回歸：最小化y - (b + b x )+ a b+ ab20i i1i2ii=1i=1i=1三種模型在進(jìn)行參數(shù)估計時的邏輯一脈相承，選擇哪種模型則跟樣本特征相關(guān)性較大，一般最常用的是 Lasso 模型，基本上能夠達(dá)到找出核心變量、排除變量共線性的作用。懲罰回歸模型應(yīng)用實例懲罰回歸模型的典型應(yīng)用實例是在存在眾多相關(guān)性較高的變量中篩選出對于被解釋變量解釋力度最大的變量及對應(yīng)的模型。

20、例如在我們之前的一篇報告因子輪動系列（二）：宏觀周期與因子投資時鐘中，針對規(guī)模因子和價值業(yè)績因子、波動率因子和 beta 因子的輪動，將幾個宏觀變量進(jìn)行重要性排名，最后選出最為核心的兩個影響因素，使用的就是 Lasso 回歸。為了比較幾種懲罰回歸模型的效果，展示其在實踐應(yīng)用中相對于傳統(tǒng)線性回歸（OLS）模型的優(yōu)勢，我們以上證 50 指數(shù)收益率以及其影響變量為例。已知上證 50 的收益率可以由其成分股收益率完全解釋，我們用總共 100 只股票收益率作為解釋變量，其中 50 只為上證 50 的成分股，另外 50 只隨機選擇作為干擾項。與真實權(quán)重相比，幾種模型的擬合效果如下：請閱讀最后評級說明和重

21、要聲明7 / 23金融工程丨專題報告圖 2：懲罰回歸模型的擬合效果比較資料來源：Wind, 長江證券研究所上圖中變量的 beta 值用縱坐標(biāo)來表示，橫坐標(biāo)對應(yīng) 100 個變量。紅色的線代表此段時間區(qū)間內(nèi)各變量的真實值（取平均），在存在干擾變量的情況下，OLS 回歸出的系數(shù)波動較大，且存在值和負(fù)數(shù)情況。相比而言Lasso 回歸和彈性網(wǎng)絡(luò)回歸都較強的排除了后面 50 個干擾變量的影響，與真實結(jié)果較為接近。Lasso 模型中也可以通過調(diào)整a 的取值對影響權(quán)重較大的變量做進(jìn)一步篩選，但在本例中應(yīng)用不大因此不詳細(xì)展開。圖 3：Lasso 模型中 beta 選擇的軌跡圖資料來源：Wind, 長江證券研究所

22、每一個模型在優(yōu)化的過程中都有一個 beta 變化路徑，如圖 3 所示。懲罰回歸模型由于可以一定程度上排除非相關(guān)性變量及共線性強的變量的干擾，在用來做樣本外預(yù)測時穩(wěn)健性強于傳統(tǒng)的線性回歸模型。所以其另外一個具體應(yīng)用可以是在做請閱讀最后評級說明和重要聲明8 / 23金融工程丨專題報告多因子分析時，例如我們做某個行業(yè)內(nèi)的因子模型，可以使用懲罰回歸模型，篩選出對于此行業(yè)內(nèi)選股較為有效的指標(biāo)，然后對于行業(yè)收益率進(jìn)行樣本外預(yù)測。非參數(shù)回歸監(jiān)督學(xué)習(xí)中的回歸方式也可以分為參數(shù)或非參數(shù)方法。參數(shù)回歸中，模型由一系列參數(shù)描述，如根據(jù)歷史數(shù)據(jù)估計的線性回歸的。在非參數(shù)回歸中，我們假定相似輸入具有相似輸出，然后直接識

23、別類似的歷史樣本以達(dá)到預(yù)測目的，針對新加入的數(shù)據(jù)點，通過搜索歷史數(shù)據(jù)，并找到所謂的“最近鄰”的 K 個相似樣本點。最后通過對“最近鄰”的輸出取平均。非參數(shù)回歸提供了一種利用過去類似來預(yù)測未來的方法，在金融領(lǐng)域，輸出變量與輸入變量通常不是線性相關(guān)的，這使得線性回歸及其擴(kuò)展（如嶺回歸和 Lasso 回歸）不適用。本文將介紹兩種典型的非參數(shù)回歸模型：K 最近鄰和 LOESS。K 最近鄰和 LOESSK 最近鄰（KNN）回歸：通過找出一個樣本的 k 個最近鄰居，將這些鄰居的輸出變量 y 的平均值賦給該樣本，并將其用作我們的預(yù)測。K 最近鄰可以捕獲數(shù)據(jù)中的非線性屬性。但是其主要缺點在于對異常值極度敏感。

24、局部線性回歸 LOESS：依據(jù) KNN 方法，對于每個新樣本點，基于 K 個最近鄰的數(shù)據(jù)進(jìn)行線性回歸，并使用擬合出的系數(shù)預(yù)測輸出值。線性回歸和 K 最近鄰法可以看作是經(jīng)典機器學(xué)習(xí)的兩個。線性回歸可能“低估”數(shù)據(jù)，因此偏差較高，方差較低。而 K 最近鄰可能“過擬合”，因此方差較高，偏差較低。KNN 中是通過調(diào)整 K 值來平衡“偏差”及“方差”。舉一個較為的例子，當(dāng)K 取 1 的時候相當(dāng)于對每個訓(xùn)練樣本都劃分了一個微小的區(qū)域，這很可能導(dǎo)致在未知樣本上出現(xiàn)高錯誤率，產(chǎn)生樣本內(nèi)的過擬合。關(guān)于 K 最近鄰的方法在金融領(lǐng)域應(yīng)用最常見的一個例子是用于選股中，例如結(jié)合因子數(shù)據(jù)，可以將股票按照收益率特征分為強勢

25、和弱勢組合，進(jìn)行預(yù)測時通過輸入股票的因子數(shù)據(jù)找到其下期所處的組合類別，通過此種方式來構(gòu)建股票組合。動態(tài)系統(tǒng)-卡爾曼濾波不同于靜態(tài)的線性回歸模型，卡爾曼濾波器考慮到系數(shù)隨時間緩慢變化的動態(tài)過程，其常常用于統(tǒng)計交易和波動率估計。在卡爾曼濾波器中，系數(shù)在一定范圍內(nèi)連續(xù)變化，可迭代估計。如果我們將這個變化范圍離散到一組有限的值內(nèi)，則可以導(dǎo)出一個隱馬爾科夫模型（HMMs），HMMs 將在分類模型中做進(jìn)一步介紹?？柭鼮V波器在 1960 年由 Kalman 提出，其將一系列具有不確定性的觀測值進(jìn)行組合，從而估計和預(yù)測一個動態(tài)系統(tǒng)的參數(shù)。該算法通常分兩步進(jìn)行。第一步，對現(xiàn)在狀態(tài)進(jìn)行估計并得到估計誤差。

26、第二步，結(jié)合下一個觀測值和誤差得到新的預(yù)測（通過對先前的估計和誤差以及新的觀測和誤差給予適當(dāng)權(quán)重）。動態(tài)系統(tǒng)由狀態(tài)空間模型（或動態(tài)線性模型，DLMs）描述，其中有兩個組成部分：請閱讀最后評級說明和重要聲明9 / 23金融工程丨專題報告1）狀態(tài)進(jìn)化：隨時間不斷變化不可觀察的變量稱為系統(tǒng)的狀態(tài)，狀態(tài)的變化方程為具有高斯噪聲的線性表達(dá)式：,給定先前的狀態(tài)定性。2）測量：，我們能夠估計當(dāng)前狀態(tài) ，但由于外部隨機因素影響，存在不確雖然我們不能直接觀察狀態(tài) ，但是我們可以得到狀態(tài) 的測量，只不過測量仍然伴隨著高斯噪聲：,測量可以用于估計狀態(tài)，但有不確定性?？柭鼮V波器結(jié)合上述信息，給出最優(yōu)狀態(tài)變量服從高

27、斯分布協(xié)方差分別為:，其均值和其中條件高斯分布：是卡爾曼增益。公式雖復(fù)雜，但其推導(dǎo)僅依賴于 mX S11 1S2 X Z N m , SS22 Z 21X | (Z = z) N(m, S)S (z - m )， S = S其中， m= m + S-1- SS-1S。X12 22Z1112 22 21卡爾曼濾波應(yīng)用實例卡爾曼濾波實際應(yīng)用中最著名的例子是在羅任務(wù)中航天器導(dǎo)航，近些年來非線性的卡爾曼濾波也廣泛的應(yīng)用于自動駕駛。在金融領(lǐng)域，卡爾曼濾波器常用于趨勢估計、信號去噪或描述資產(chǎn)與市場之間的動態(tài)關(guān)系。一個常見的金融上的應(yīng)用實例是做配對交易。海外由于 ETF 的種類繁多，交易費用低，所以常用

28、ETF 來做配對交易，在 ETF 配對策略中使用卡爾曼濾波器估計，尋找協(xié)整請閱讀最后評級說明和重要聲明10 / 23金融工程丨專題報告關(guān)系中的背離機會，相比于傳統(tǒng)的回歸方式有一定的增強作用。我們這邊為了說明卡爾曼濾波器的效果，也選用一個配對交易的例子，但是由于國內(nèi)限制條件較多，此例僅做理論上的方法實踐及效果展示。假設(shè)可以對于股票通過融資融券進(jìn)行賣空操作，我們選取一對相關(guān)性較強的股票組合：中國銀行和交通銀行對卡爾曼濾波器在處理這種問題時的優(yōu)勢做詳細(xì)說明。圖 4：中國銀行和交通銀行價格（取自然對數(shù)）走勢圖圖 5：中國銀行和交通銀行價格（取自然對數(shù)）走勢圖資料來源：Wind, 長江證券研究所資料來

29、源：Wind, 長江證券研究所從上面圖 3 和圖 4 可以看出，在 2010 年 1 月到 2017 年 6 月這段區(qū)間，兩只股票之間的走勢具有較強的相關(guān)性，當(dāng)然也可以通過協(xié)整檢驗來驗證其協(xié)整關(guān)系。通過估計兩只股票價格序列的，來監(jiān)控他們之間相關(guān)關(guān)系的變化：)我們可以進(jìn)一步假設(shè)不是常數(shù)，而會隨著時間變化。為了簡單起見，我們假設(shè)的變化服從隨機游走：這是一個動態(tài)線性回歸問題，在狀態(tài)空間中，是狀態(tài)變量，系統(tǒng)如下，使用到的狀態(tài)方程和測量方程見上面卡爾曼濾波介紹部分，根據(jù)觀察值（股票的價格），我們可以使用卡爾曼濾波器來估計值。這一單變量例子中的卡爾曼增益為表示信噪比（SNR）：狀態(tài)方差與測量誤差的比值

30、。如果信噪比較小，則測量結(jié)果是嘈雜并且無效的，因此對先驗信息的加權(quán)較大。如果信噪比大，觀察值加權(quán)應(yīng)較大。如果信噪比非常小，觀察值于我們并沒有用（因為它是嘈雜的），我們只用了先驗信息：除了卡爾曼濾波器，我們顯然也可以使用普通的線性回歸：)請閱讀最后評級說明和重要聲明11 / 23金融工程丨專題報告我們使用卡爾曼濾波器，同時也用過去 60 個交易日滾動窗口的線性回歸對進(jìn)行估計。兩者對比，不難看出，卡爾曼濾波器更靈敏。事實上，卡爾曼濾波器與指數(shù)平滑技術(shù)密切相關(guān)，它給最近的觀測值更多的權(quán)重，并且可以根據(jù)測量的“噪聲”調(diào)整權(quán)重。圖 6：卡爾曼濾波器和 OLS 回歸估計的 beta 值資料來源：Wind,

31、長江證券研究所此交易信號只依賴于殘差，殘差應(yīng)當(dāng)圍繞均值 0 波動。在每個交易日結(jié)束時，我們得到新的股票收盤價來更新我們對的估計，然后計算殘差：。我們把殘差的不確定性記為，我們可以用它來確定殘差的大小是否足以觸發(fā)我們的策略：如果，我們做多單位股票 2，同時做空股票 1；如果，我們做空單位股票 1，同時做多股票 2。圖 7：卡爾曼濾波器做配對交易時的凈值收益率圖 8：OLS 做配對交易時的凈值收益率資料來源：Wind, 長江證券研究所資料來源：Wind, 長江證券研究所請閱讀最后評級說明和重要聲明12 / 23金融工程丨專題報告K 分別取值為 0.1、0.3 及 0.5，得到策略收益率如上圖所

32、示。使用卡爾曼濾波器得到收益率略高于 OLS 模型，在不同 k 值下穩(wěn)定性也更好。但是整體而言，策略并未產(chǎn)生較多的超額收益。極限梯度提升（XGBoost）“提升”是指迭代地組合弱“學(xué)習(xí)器”（即具有弱預(yù)測能力的算法）以形成具有強預(yù)測能力的算法。Boosting 從弱學(xué)習(xí)器開始（通常是回歸樹算法），記錄學(xué)習(xí)器的預(yù)測與實際輸出之間的誤差，在每一次迭代中，它都能根據(jù)誤差來改善前一迭代步驟中的弱學(xué)習(xí)器。如果誤差項在損失函數(shù)負(fù)梯度方向上，則該方法被稱為“梯度提升”。梯度提升（XGBoost）是指 Chen 和 Guestrin 的優(yōu)化實現(xiàn)，是處理金融時間序列數(shù)據(jù)的一種流行監(jiān)督學(xué)習(xí)算法。回歸樹與決策樹類似，

33、只不過在每個子葉節(jié)點我們得到的是連續(xù)的數(shù)值非離散的類標(biāo)簽。輸入一個大小為 m 的向量到一個有 T 片葉子的回歸樹模型中，輸入變量與葉子節(jié)點的映射關(guān)系由函數(shù)：表示。用函數(shù) w 表示在葉子上的得分，那么第 k 個數(shù)為函數(shù)，其中。對于大小為 n，樣本為和來預(yù)測最終輸出結(jié)果：，的訓(xùn)練集，樹集成模型將使用 k 個函數(shù)的為了進(jìn)行模型中的一組函數(shù)訓(xùn)練，定義正則項如下：樹集成模型以加法方式進(jìn)行優(yōu)化，用表示增強迭代第 t 階段第 i 個訓(xùn)練樣本的預(yù)測，那么最小化的目標(biāo)函數(shù)可以寫為：通過二階泰勒式展開，進(jìn)行優(yōu)化最后得到集成的樹模型。為了防止過度擬合，XGBoost允許進(jìn)行樹的修剪和樣本特征抽樣（如隨機森林模

34、型）。由于極限梯度提升方法經(jīng)常和樹模型一起使用，在此處不給出單獨的實例，可以參考隨機森林部分的實例。監(jiān)督學(xué)習(xí)之分類監(jiān)督學(xué)習(xí)中分類方法的目標(biāo)是把觀察值分為不同類別。在金融領(lǐng)域中我們經(jīng)常希望對資產(chǎn)的趨勢進(jìn)行預(yù)測，但是很多時候采取回歸的方法得到的預(yù)測值準(zhǔn)確度較低，此時就可以采取分類的方式，一方面可以提升準(zhǔn)確度，另外一方面某些情況下對于狀態(tài)的預(yù)測比絕對值上的預(yù)測意義更大。此篇，我們將介紹以下分類算法：邏輯回歸、支持向量機請閱讀最后評級說明和重要聲明13 / 23金融工程丨專題報告（SVM）、決策樹、隨機森林以及隱馬爾可夫模型。其中邏輯回歸和支持向量機的原理在之前的報告大類資產(chǎn)配置之機器學(xué)習(xí)用于股票資產(chǎn)

35、資產(chǎn)的趨勢判斷中有詳細(xì)介紹及數(shù)學(xué)推導(dǎo)。邏輯回歸邏輯回歸即 Logistic 回歸（又稱 logit）利用給定的歷史樣本，預(yù)測發(fā)生的概率，在我們上篇報告中也用到邏輯回歸對于股票資產(chǎn)的趨勢進(jìn)行預(yù)測，根據(jù)一系列宏觀及估值類的指標(biāo)預(yù)測月度股票走勢，將其走勢分為“上漲”、“下跌”兩類，也可以根據(jù)漲跌幅度對于分類結(jié)果進(jìn)行進(jìn)一步細(xì)分。邏輯回歸是對普通線性回歸的簡單變換。我們首先得到輸入變量的線性組合，然后給出一個函數(shù)將該數(shù)映射到 0 和 1 之間。支持向量機支持向量機因為其在使用及參數(shù)優(yōu)化上的便利性成為最常使用的分類算法之一，常見的使用情景是在資產(chǎn)價格變化方向的預(yù)測上。假設(shè)我們有一系列的指標(biāo)用于資產(chǎn)趨勢預(yù)測

36、，普通分類模型完成的任務(wù)是找到一組線性組合，當(dāng)資產(chǎn)呈現(xiàn)上漲趨勢時線性組合的值較大（或較?。粗?，當(dāng)資產(chǎn)呈現(xiàn)下跌趨勢時對應(yīng)的線性組合的值較小（或較大），支持向量機想要找到使得上漲或下跌趨勢對應(yīng)的線性組合的值區(qū)分度最大的結(jié)果。決策樹和隨機森林決策樹模型本質(zhì)與工商管理和金融分析中普遍應(yīng)用的流程圖類似，要得到最終的結(jié)果，需要解答中間一系列問題。根據(jù)每一步的對于問題的解答，來選擇樹的分叉方向。決策樹的最終結(jié)果會受到中間問題的順序的影響，一般將影響最重要的問題放在最前面。決策樹模型是用于非線性指標(biāo)分類的最簡單的模型之一，舉一個簡單的在金融領(lǐng)域應(yīng)用例子，比如我們想要進(jìn)行因子選股，不同于傳統(tǒng)的多因子模型，

37、我們認(rèn)為因子暴露度與個股收益率之間存在非線性關(guān)系，這時可以用決策樹模型，選用動量(Mom)、波動率(Vol)、PE 三個因子，通過下面的樹模型決策過程得到股票組合。圖 9：決策樹模型股票篩選示例資料來源：Wind, 長江證券研究所請閱讀最后評級說明和重要聲明14 / 23金融工程丨專題報告通過上面的簡單例子也可以發(fā)現(xiàn)，決策樹模型擬合的核心在于尋找最優(yōu)變量和分裂閾值，以最小化特定的損失函數(shù)。損失函數(shù)可以定義為子葉節(jié)點的不純度，通常使用 Gini 系數(shù)或者熵度量。實際使用中通過參數(shù)調(diào)整來確保樹模型預(yù)測準(zhǔn)確度防止過擬合，例如：最大深度（Max depth）：決定決策樹的最大深度節(jié)點樣本個數(shù)（No

38、de size）：每一個節(jié)點至少有 N 個觀察樣本也可以通過修建枝葉即決策樹構(gòu)建好后，用單一葉節(jié)點代替整個字?jǐn)?shù)或者用一個數(shù)字代替一顆子樹來防止模型由于太過“茂盛”產(chǎn)生過擬合。決策樹模型雖然邏輯簡單使用方便，但使用過程中穩(wěn)健性較差，樣本產(chǎn)生一些小變化就有可能導(dǎo)致擬合出完全不同的樹模型，因此作為預(yù)測模型單獨使用效果不佳，可以用于觀察不同變量之間的交互影響及形成集合模型。隨機森林就是依據(jù)決策樹模型構(gòu)建的一種典型的集合型算法，可以用于解決單個決策樹模型預(yù)測時方差較大的問題。通過對原始數(shù)據(jù)進(jìn)行隨機樣本劃分，每一棵決策樹都依據(jù)部分樣本進(jìn)行單獨判斷，最后的結(jié)果通過眾多樹模型投票得出，與簡單樹模型相比這種做

39、法可以降低預(yù)測的方差。為了防止構(gòu)建出來的樹模型性之間相關(guān)性較高，每一棵樹模型都是從總共 p 個變量中隨機選擇 m 個分裂變量，根據(jù) m（mp）個變量來構(gòu)建模型。此時，要度量每個變量對于結(jié)果的重要性，可以通過記錄每個節(jié)點根據(jù)此變量分裂后不純度的下降程度。另外一個衡量方法是部分依賴圖，根據(jù)分類的幾率的自然對數(shù)來繪制。仍然使用上面介紹的用三個因子分類的例子：其中 x 指動量(Mom)、波動率(Vol)或 PE 三個因子的值。分類模型在選股及擇時上的應(yīng)用實例上文介紹的幾種分類模型是目前最常使用的幾種模型，在國內(nèi)外關(guān)于這幾種模型的研究和實踐案例分析的參考資料也較多。包括我們之前的報告中就有涉及，使用 l

40、ogistic 模型、SVM 模型及人工神經(jīng)網(wǎng)絡(luò)模型，依據(jù)宏觀指標(biāo)以及資產(chǎn)的估值指標(biāo)對于股票資產(chǎn)進(jìn)行趨勢判斷。SVM 模型應(yīng)用于滬深 300 內(nèi)選股關(guān)于 Logistic 模型及 SVM 模型的應(yīng)用實例，在除了進(jìn)行這種擇時的判斷，就目前大家比較關(guān)心的多因子選股，兩種模型也都可以實現(xiàn)相關(guān)的功能。選股的邏輯基本大同小異，本文示例中以月度為單位，選擇過去 12 個月的滬深 300 股票的因子暴露度及股票下期收益率作為訓(xùn)練數(shù)據(jù)來訓(xùn)練模型，其中將股票的下期收益率按照高低分為 10 檔，第一檔為強勢股，第十檔為弱勢股，對應(yīng)標(biāo)簽 110。訓(xùn)練好的模型用于拿到下期因子數(shù)據(jù)后的預(yù)測中，得到股票的對應(yīng)標(biāo)簽。請閱讀

41、最后評級說明和重要聲明15 / 23金融工程丨專題報告根據(jù)上面的方法，我們選擇滬深 300 為股票池，剔除上市不滿 1 年的次新股、ST 股，考慮到漲跌停情況及交易費用，回測區(qū)間選擇 2006 年 2 月份到 2017 年 7 月，按照月度進(jìn)行換倉。SVM 根據(jù)數(shù)據(jù)特征可以選擇不同的核函數(shù)，在進(jìn)行多因子選股時線性核的效果最好。圖 10：SVM 在滬深 300 內(nèi)多因子選股分檔效果資料來源：Wind, 長江證券研究所常見的核函數(shù)的選擇有高斯核函數(shù)、多項式核函數(shù)和線性核函數(shù)，比較而言，線性核函數(shù)用于多因子選股的效果最好。使用線性核進(jìn)行選股分檔效果如上圖，高低組之間的收益分化明顯。圖 11：SVM

42、滬深 300 內(nèi)多因子選股與基準(zhǔn)比較的效果資料來源：Wind, 長江證券研究所請閱讀最后評級說明和重要聲明16 / 23金融工程丨專題報告分年收益表現(xiàn)如下：表 2：SVM 選股分年效果200696.81%-2.65%3.770.27%21.65%2007175.97%5.52%3.5214.72%16.92%2008-49.71%47.68%-0.8262.99%8.14%2009172.78%38.67%4.3712.60%10.25%201010.34%26.13%0.9524.97%7.90%2011-29.50%-5.98%-1.0531.66%7.47%2012-4.73%-11.4

43、2%0.4223.13%10.62%201347.40%59.60%1.9415.46%1.85%201466.33%9.67%3.254.91%27.97%2015131.61%119.36%2.4325.16%0.00%20167.43%21.10%0.725.01%2.08%2017-10.06%-18.81%-0.6213.02%15.23%平均34.53%20.26%1.3862.99%27.97%資料來源：Wind，天軟，長江證券研究所分年回測效果如上，今年以來表現(xiàn)不佳，整體而言回測區(qū)間內(nèi)有正超額收益，但是與傳統(tǒng)的多因子模型相比并未表現(xiàn)出較大優(yōu)勢。隨機森林依據(jù)多因子數(shù)據(jù)的擇時使用每

44、日的因子收益率數(shù)據(jù)，由于不同指數(shù)的行業(yè)權(quán)重分布偏差，某些行業(yè)對于指數(shù)的走勢有較大決定性作用，因此除了常見的幾種大類風(fēng)格因子還會使用到行業(yè)因子收益率數(shù)據(jù)。行業(yè)因子按照中信一級行業(yè)進(jìn)行分類。預(yù)測的主要信息如下：預(yù)測標(biāo)的的選擇：可以針對主要指數(shù)包括滬深 300、中證 500 和中證 1000 進(jìn)行擇時。模型的選擇：主要考量隨機森林模型的預(yù)測結(jié)果。預(yù)測的結(jié)果：選取訓(xùn)練期之后，將當(dāng)期因子收益率和下期三種指數(shù)的漲跌幅（上漲為 1，下跌為 0）進(jìn)行訓(xùn)練，得到的模型用于下期指數(shù)漲跌結(jié)果的預(yù)測。采取滾動的方式進(jìn)行。表 3：隨機森林擇時準(zhǔn)確度滬深30065.20%全部因子隨機森林/60周中證50069.24%

45、請閱讀最后評級說明和重要聲明17 / 23輸入的指標(biāo)模型/周期標(biāo)的指數(shù)準(zhǔn)確度日期收益率超額收益率夏普比率最大回撤超額最大回撤金融工程丨專題報告中證100072.76%資料來源：Wind，長江證券研究所從預(yù)測的準(zhǔn)確度來看，利用多因子數(shù)據(jù)進(jìn)行周度擇時在三種指數(shù)上的擇時效果都較好，我們也從滬深 300 擇時的收益角度來做具體分析。圖 12：隨機森林滬深 300 擇時效果資料來源：Wind, 長江證券研究所表 4：隨機森林滬深 300 擇時分年效果2006115.14%-1.53%13.79%2.10%7.022007184.14%34.57%17.78%12.28%5.862008-18.67%4

46、5.74%71.27%29.89%-0.552009137.08%57.58%25.88%12.78%5.21201033.76%44.30%29.02%7.36%2.01201121.79%45.69%30.60%5.43%1.45201245.20%37.37%22.40%4.59%3.36201334.00%42.91%21.60%7.25%2.34201481.00%35.56%9.29%4.26%4.29201518.14%11.55%39.58%27.30%0.662016-1.08%9.76%22.69%13.65%-0.07201711.20%-1.89%4.19%2.89%1

47、.96平均48.37%38.98%71.27%29.89%2.03資料來源：Wind，長江證券研究所分年來看，從 06 年到 17 年 6 月份基本上每年都能夠獲取超額收益，相對于基準(zhǔn)的回撤也較小，盈虧比有 1.4，綜合考慮盈虧比和預(yù)測準(zhǔn)確度，比傳統(tǒng)的技術(shù)性擇時指標(biāo)更為穩(wěn)健。我們在此就不再展開分析隨機森林在中證 500 和中證 1000 上的擇時效果。請閱讀最后評級說明和重要聲明18 / 23日期擇時收益率超額收益率基準(zhǔn)最大回撤擇時最大回撤夏普比率金融工程丨專題報告隱馬爾科夫模型在卡爾曼濾波介紹中，我們提到卡爾曼濾波方法可以用于估計動態(tài)系統(tǒng)中的系數(shù)，如果的變化是離散的話，那不同可以看做是代表不

48、同的“狀態(tài)”。隱馬爾科夫模型（HMMs）類似于卡爾曼濾波，假設(shè)下個狀態(tài)的發(fā)生只跟現(xiàn)在的狀態(tài)有關(guān)（即隱藏狀態(tài)服從離散馬爾科夫過程）。HMMs 具有很強的實用性，因為在很多實際問題中，我們對于識別一些不能直接觀察到的非常感興趣，例如現(xiàn)在市場是處于一個趨勢向上還是趨勢向下狀態(tài)，而這些問題可以通過其他能夠觀察得到的變量得到（例如市場收益率、波動率等）。在上世紀(jì) 90 年代 HMMs 被廣泛的應(yīng)用于語音識別中，近些年來，在生物信息領(lǐng)域例如基因序列分析上應(yīng)用較多。在金融領(lǐng)域，HMMs 主要用于市場狀態(tài)的刻畫。假設(shè)市場只有上漲和下跌兩個狀態(tài)，一個隱馬爾科夫模型可以表述為市場狀態(tài)的馬爾科夫過程。意味著，如果現(xiàn)

49、在市場是處于上漲狀態(tài)，那么持續(xù)上漲狀態(tài)的概率為 80%，轉(zhuǎn)變?yōu)橄碌鵂顟B(tài)的概率為 20%。市場收益率的分布是一個依據(jù)現(xiàn)在市場狀態(tài)的條件概率分布：。由于市場收益率是有歷史數(shù)據(jù)的，我們可以通過收益率來推導(dǎo)出不同時期的市場狀態(tài)的似然性。HMMs 中的參數(shù)是通過 EM 算法優(yōu)化這種似然性得到，估計的參數(shù)有五個，兩個狀態(tài)集合及三個概率矩陣，包括每個狀態(tài)的初始概率、狀態(tài)轉(zhuǎn)移概率、在當(dāng)前狀態(tài)下的概率、觀察值（例如收益率）在各個狀態(tài)下的均值和方差。圖 13：HMMs 模型的估計結(jié)果（轉(zhuǎn)移矩陣）圖 14：HMMs 模型的估計結(jié)果（均值和方差）資料來源：Wind, 長江證券研究所資料來源：Wind, 長江證券研究所

50、隱馬爾科夫模型的應(yīng)用實例基于 HMMs 來判斷上證綜指的上漲和下跌趨勢，依據(jù)趨勢判斷結(jié)果來驗證 HMMs 的狀態(tài)劃分方式對于國內(nèi) A 股市場是否有效。我們選擇從 1995 年 1 月份至今的日度收益率數(shù)據(jù)，分別按照日度、周度及月度進(jìn)行狀態(tài)劃分。在模型判斷市場上漲時持有上證綜指，市場下跌的時候持有現(xiàn)金。一般在進(jìn)行 HMMs 預(yù)測時，觀察變量數(shù)據(jù)量越大越好，在其足夠大的情況下才能夠確保每種狀態(tài)出現(xiàn)足夠多的頻次。我們選擇從 1995 年 1 月份開始到現(xiàn)在的上證綜指日度數(shù)據(jù)，收益率為正并且波動率較高的周期定義為上漲趨勢；收益率為負(fù)并且波動率較低的周期定義為下跌趨勢。圖 14 是以月度收益率的頻率根

51、據(jù)這段時間區(qū)間計算出來的處于狀態(tài) 1 下的概率，狀態(tài)1 對應(yīng)的是低收益率低波動率。請閱讀最后評級說明和重要聲明19 / 23金融工程丨專題報告圖 15：市場下跌趨勢狀態(tài)下的后驗概率資料來源：Wind, 長江證券研究所從隱馬爾科夫模型判斷的狀態(tài)與市場實際所處的狀態(tài)的契合度來看，日度狀態(tài)判斷效果較差，對于收益率和波動率無法起到顯著區(qū)分作用。整體比較而言，周度效果最佳。相對于上證綜指的擇時效果見下圖。圖 16：HMMs 模型的周度擇時效果圖 17：HMMs 模型的月度擇時效果資料來源：Wind, 長江證券研究所資料來源：Wind, 長江證券研究所從時間段上來看，無論是日度、周度還是月度模型，HMMs 的劃分在 95 年到 07 年這段時間區(qū)間效果較好，相對基準(zhǔn)有較高的超額收益，但是 07 年之后相對于上證綜指判斷效果較差，無超額收益。請閱讀最后評級說明和重要聲明20 / 23金融工程丨專題報告圖 18：1995 年至 2007 年月度判斷擇時效果展示（累計收益率、月度收益率及回撤）資料來源：Wind, 長江證券研究所從模型中的五個估計值也可以判斷出，在 95 年至 07 年期間，模型估計出的狀態(tài)1 和狀態(tài) 2 分界清晰，狀態(tài) 1 下收益率均值為正，方差較大，

人人文庫> 全部分類> 應(yīng)用文書

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

機器學(xué)習(xí)白皮書系列之一監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實例_W

文檔簡介

溫馨提示

最新文檔

評論

機器學(xué)習(xí)白皮書系列之一監(jiān)督學(xué)習(xí)的方法介紹及金融領(lǐng)域應(yīng)用實例_W

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔