如何利用機(jī)器學(xué)習(xí)方法構(gòu)建轉(zhuǎn)債擇券模型_第1頁
如何利用機(jī)器學(xué)習(xí)方法構(gòu)建轉(zhuǎn)債擇券模型_第2頁
如何利用機(jī)器學(xué)習(xí)方法構(gòu)建轉(zhuǎn)債擇券模型_第3頁
如何利用機(jī)器學(xué)習(xí)方法構(gòu)建轉(zhuǎn)債擇券模型_第4頁
如何利用機(jī)器學(xué)習(xí)方法構(gòu)建轉(zhuǎn)債擇券模型_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、目錄索引一、為何要在轉(zhuǎn)債研究中嘗試引入機(jī)器學(xué)習(xí)方法? 4二、方法介紹:隨機(jī)森林、XGBOOST 和支持向量機(jī) 5(一)隨機(jī)森林方法 5(二)BOOSTING 8(三)支持向量機(jī) 10三、回測流程介紹 14四、結(jié)果分析 15五、風(fēng)險(xiǎn)提示 17公共聯(lián)系人 p2圖表索引 HYPERLINK l _TOC_250009 圖 1:決策樹的生成原理 6 HYPERLINK l _TOC_250008 圖 2:隨機(jī)森林的合成原理 7 HYPERLINK l _TOC_250007 圖 3:AdaBoosting 方法的集成思想 9 HYPERLINK l _TOC_250006 圖 4:在支持向量機(jī)中,我們

2、希望找到處于兩類樣本“中央”的劃分超平面 11 HYPERLINK l _TOC_250005 圖 5:支持向量與超平面之間的距離為間隔,我們希望尋找間隔最大的超平面 12 HYPERLINK l _TOC_250004 圖 6:我們可以將樣本投射到更高維度的空間,尋找到劃分超平面 13 HYPERLINK l _TOC_250003 圖 7:滾動(dòng)回測的思路演示 14 HYPERLINK l _TOC_250002 圖 8:隨機(jī)森林策略在樣本區(qū)間內(nèi)取得了持續(xù)超過中證轉(zhuǎn)債指數(shù)的累計(jì)收益 16 HYPERLINK l _TOC_250001 圖 9:XGBoosting 在樣本測試區(qū)間內(nèi)取得了最高

3、的累計(jì)收益率 16 HYPERLINK l _TOC_250000 圖 10:SVM 擇券策略的表現(xiàn)略遜于隨機(jī)森林和 XGBoosting 17表 1:大量新券屬性和上市價(jià)格信息可以形成一組數(shù)據(jù)集 5表 2:隨機(jī)森林模型的代碼編寫思路 8表 3:運(yùn)用貪婪算法尋找分割點(diǎn)的代碼思路 10表 4:支持向量機(jī)模型算法 14表 5:隨機(jī)森林和XGBoosting 方法的回測結(jié)果相對占優(yōu) 17公共聯(lián)系人 p3一、為何要在轉(zhuǎn)債研究中嘗試引入機(jī)器學(xué)習(xí)方法?關(guān)于什么是機(jī)器學(xué)習(xí)方法,我們可以舉一個(gè)簡單的例子:當(dāng)我們初次接觸到某一只陌生的轉(zhuǎn)債新券時(shí),在其發(fā)行文件中,我們注意到這只新券的正股具有極高的關(guān)注度,并且發(fā)行

4、規(guī)模大,主體信用評級(jí)較高,此時(shí)我們會(huì)下意識(shí)地感覺到,這只新券的上市價(jià)格大概率不會(huì)便宜。例如,在此前國內(nèi)火鍋料龍頭安井食品的第二期轉(zhuǎn)債安20轉(zhuǎn)債臨近上市前,恐怕很少有經(jīng)驗(yàn)豐富的投研人員會(huì)認(rèn)為其上市時(shí)價(jià)格會(huì)處在較低區(qū)間。由此,即便在新券尚未上市時(shí),我們?nèi)钥梢栽谀X中對其上市價(jià)格形成一個(gè)下意識(shí)的判斷。這是因?yàn)?,在我們長期以來跟蹤新券發(fā)行上市的過程中,已經(jīng)對“不同特點(diǎn)新券的上市價(jià)格高低”這個(gè)問題積累了大量經(jīng)驗(yàn),并在歷史數(shù)據(jù)的基礎(chǔ)上訓(xùn)練出了一套大致預(yù)判轉(zhuǎn)債上市價(jià)格的經(jīng)驗(yàn)法則,所以當(dāng)我們在看到一些代表性的信號(hào)時(shí)(例如前文中提到的正股關(guān)注度、規(guī)模、等級(jí)),便可以提前對其可能的上市價(jià)格進(jìn)行預(yù)判。在上述的例子中,

5、投研人員的經(jīng)驗(yàn)在預(yù)判過程中起到了決定性的作用,然而由于人腦的“硬件條件”限制,即便是最為經(jīng)驗(yàn)老到的研究者,在上述的判斷過程中也很可能由于主觀認(rèn)知偏差、記憶力限制等方面的掣肘,做出與歷史規(guī)律并不相符的判斷,無法完全發(fā)揮出歷史數(shù)據(jù)中蘊(yùn)含的信息。然而,如果我們能構(gòu)建一套行之有效的量化方法,借助計(jì)算機(jī)強(qiáng)大的運(yùn)算能力和高度的紀(jì)律性、客觀性,替代人腦完成這一過程,便可以在最大限度上發(fā)揮歷史數(shù)據(jù)的威力,并或許能得到比經(jīng)驗(yàn)豐富的投研人員更為有效的預(yù)判結(jié)果。而機(jī)器學(xué)習(xí)方法,正是這樣一套通過數(shù)量化手段構(gòu)建的方法體系,其思想是不斷利用經(jīng)驗(yàn)數(shù)據(jù)對數(shù)理模型的判斷效力進(jìn)行訓(xùn)練和優(yōu)化,通過學(xué)習(xí)算法(learning alg

6、orithm)使其“積累經(jīng)驗(yàn)”,最后使得模型可以盡可能準(zhǔn)確地模仿人腦完成上述判斷過程的方法體系。1在前文的例子中,如果用機(jī)器學(xué)習(xí)的語言來表達(dá),我們在上述例子中提到的新券信息正股關(guān)注度、規(guī)模、等級(jí)等通常被稱為屬性(Attribute);而這些信息上的取值正股關(guān)注度火熱2、募集規(guī)模50億元、主體信用評級(jí)AA+等,則通常被稱作屬性值(Attribute Value)。在前文的例子中,我們觀測到的屬性信息為:(正股關(guān)注度=火熱;規(guī)模=50億元;主體信用評級(jí)=AA+),這樣的一組信息便構(gòu)成了一個(gè)樣本(Sample),而如果把自己長期以來參與新券價(jià)格分析的經(jīng)驗(yàn)進(jìn)行匯總,便可以得到大量的經(jīng)驗(yàn)樣本,而這樣的一

7、組樣本匯總被稱作數(shù)據(jù)集(Data Set)。最后,為了使得我們的方法可以用于判別,我們還需要在數(shù)據(jù)集中加入其重要的結(jié)論信息,就是每一只新券的實(shí)際上市價(jià)格到底是處在高、中、還是低區(qū)間(例如將100元以下視為低、100-115元為中等、115元以上為高)。如實(shí)際上市價(jià)格這樣的結(jié)果數(shù)據(jù)通常被稱作標(biāo)記(label),加入了標(biāo)記的樣本被稱作樣例(example)。在這樣的一個(gè)例子當(dāng)中,我們便可以利用具有上述要素的數(shù)據(jù)集來對我們的梳理方法進(jìn)行訓(xùn)練,使其積累經(jīng)驗(yàn),完成學(xué)習(xí)任務(wù)。公共聯(lián)系人 p41 本文的機(jī)器學(xué)習(xí)方法介紹部分參考文獻(xiàn):周志華. 機(jī)器學(xué)習(xí) M. 清華大學(xué)出版社, 2016.2 假設(shè)我們將一年內(nèi)在

8、Wind 發(fā)布的券商研報(bào)數(shù)目5 篇的設(shè)定為高,3-5 篇設(shè)置為中,小于 3 篇的設(shè)置為低。表1:大量新券屬性和上市價(jià)格信息可以形成一組數(shù)據(jù)集正股關(guān)注度發(fā)行規(guī)模主體信用評級(jí)上市價(jià)格水平1高50 億元AA+高2低3 億元A+低3一般12 億元AA中數(shù)據(jù)來源:廣發(fā)證券發(fā)展研究中心那么,在眾多數(shù)量化的轉(zhuǎn)債價(jià)格分析方法中,為何我們在轉(zhuǎn)債入門手冊系列中率先選擇了機(jī)器學(xué)習(xí)方法進(jìn)行介紹呢?這是因?yàn)?,我們曾在轉(zhuǎn)債入門手冊之四轉(zhuǎn)債定價(jià)方法進(jìn)化史中提到,由于可轉(zhuǎn)債是一種構(gòu)成極為復(fù)雜的衍生品,簡單拆分之下,一只典型的國內(nèi)市場公募可轉(zhuǎn)債,即是一只信用債和若干美式看漲和看跌期權(quán)的集合。在這樣的構(gòu)成下,一方面,基于B-S期

9、權(quán)定價(jià)思想的主流資產(chǎn)定價(jià)方法在國內(nèi)市場期權(quán)定價(jià)問題中的適應(yīng)性存在較大問題;另一方面,各條款的路徑依賴特征和相互關(guān)聯(lián)也為轉(zhuǎn)債整體定價(jià)增添了難度。在傳統(tǒng)資產(chǎn)定價(jià)方法受到限制的情況下,對研究的基本假設(shè)更為寬容的機(jī)器學(xué)習(xí)方法成為了新的思路。在傳統(tǒng)方法的認(rèn)知下,機(jī)器學(xué)習(xí)方法在計(jì)算過程中較為“黑箱”化,因此在理論和邏輯支撐方面有時(shí)會(huì)顯得缺乏支撐。但對于可轉(zhuǎn)債這樣一個(gè)復(fù)雜的產(chǎn)品,機(jī)器學(xué)習(xí)方法的“黑箱”特性,反而成為了能有效避免方法陷入嚴(yán)苛假定約束的新路徑。在國內(nèi)學(xué)術(shù)研究方面,Dubrov(2015)和金仁莉(2016)等也已經(jīng)開啟了運(yùn)用機(jī)器學(xué)習(xí)方法為國內(nèi)外轉(zhuǎn)債產(chǎn)品進(jìn)行定價(jià)的工作。3二、方法介紹:隨機(jī)森林、X

10、GBoost 和支持向量機(jī)在本篇報(bào)告中,我們選取了三種常見的學(xué)習(xí)方法來演示構(gòu)建機(jī)器學(xué)習(xí)擇券體系的思路和流程,分別是隨機(jī)森林(Random Forest)、XGBoosting和支持向量機(jī)??紤]到本文篇幅有限,各種方法的技術(shù)細(xì)節(jié)也均有大量的公開資料可以參考,因此在本文的方法介紹部分中,我們將著重介紹方法的思想和原理,而更為具體的推導(dǎo)和編程細(xì)節(jié),則可參考文中引用的各類參考資料。(一)隨機(jī)森林方法隨機(jī)森林方法是一套在決策樹方法基礎(chǔ)上,基于集成學(xué)習(xí)思想發(fā)展出的方法體系,因此在介紹隨機(jī)森林方法之前,我們需要首先對決策樹、集成學(xué)習(xí)方法和Bagging的思想等基礎(chǔ)方法有所了解。決策樹方法,可以理解為一種依次

11、利用研究目標(biāo)的多個(gè)特征屬性,來解決其類別劃分問題的方法。在該方法中,研究目標(biāo)的每一個(gè)特征會(huì)在判斷過程中形成一個(gè)分化的節(jié)點(diǎn),而這個(gè)節(jié)點(diǎn)會(huì)依照屬性表現(xiàn)的不同,派生出新的節(jié)點(diǎn),而在新的節(jié)點(diǎn)上,我公共聯(lián)系人 p53 在參考書目方面,本文的方法介紹部分多以機(jī)器學(xué)習(xí)(周志華,2016)為參考資料,部分本文中沒有呈現(xiàn)的公式推導(dǎo)和方法細(xì)節(jié)也可參考原資料。們又可以依據(jù)下一個(gè)特征的表現(xiàn)來進(jìn)行判斷,最后形成一個(gè)樹形結(jié)構(gòu)的判別決策過程。我們可以用前期轉(zhuǎn)債市場中炒作品種的識(shí)別問題為例,來說明決策樹的運(yùn)行原理。假設(shè),我們在判斷一只轉(zhuǎn)債是否可能成為炒作品種時(shí),主要參考的指標(biāo)為:1.存量規(guī)模是否在2億元以下;2.主體信用評級(jí)

12、是否在A+或以下;3.是否在強(qiáng)贖條件達(dá)成后選擇不提前贖回?,F(xiàn)在,對于我們的目標(biāo)個(gè)券,我們按照上述的三個(gè)關(guān)注點(diǎn)分步驟進(jìn)行測試:我們首先看到,這只轉(zhuǎn)債的存量規(guī)模已經(jīng)小于2億元;隨后,等級(jí)方面,我們注意到這只轉(zhuǎn)債的主體信用評級(jí)僅為A+;最后,我們觀察到這只轉(zhuǎn)債在此前觸發(fā)強(qiáng)贖條件后并沒有發(fā)布執(zhí)行提前贖回的公告,基于上述特征,我們做出判斷,這只轉(zhuǎn)債是潛在的炒作品種。而在隨后幾個(gè)交易日,這只轉(zhuǎn)債的確出現(xiàn)了超過1000%的單日換手率,并被交易所認(rèn)定為異常波動(dòng),印證了前期的判斷結(jié)果。在上述的決策過程中,每一個(gè)節(jié)點(diǎn)所測試的內(nèi)容都包含在上一個(gè)節(jié)點(diǎn)的范圍之內(nèi),最終引導(dǎo)出我們對“特定個(gè)券是否屬于潛在炒作品種”的結(jié)論,

13、如圖1所示的樹形結(jié)構(gòu)起點(diǎn)叫做根節(jié)點(diǎn),而最終分類結(jié)果(圖1中的黃色圓形節(jié)點(diǎn))為葉節(jié)點(diǎn)。那么,如何選擇每一個(gè)節(jié)點(diǎn)對應(yīng)的屬性呢?通常來說,我們在節(jié)點(diǎn)的逐層劃分過程中,我們希望使得每一個(gè)節(jié)點(diǎn)分裂后的信息增益(Information Gain)最大,也即是說,使得每一個(gè)環(huán)節(jié)的屬性測試能在最大限度上達(dá)到標(biāo)簽劃分的效果。為了達(dá)到這一效果,需要通過數(shù)據(jù)集來不斷優(yōu)化模型的泛化能力,增強(qiáng)其劃分樣本外案例的能力,這也是每一個(gè)節(jié)點(diǎn)最優(yōu)屬性選擇的通常原則。具體的節(jié)點(diǎn)選擇過程中,主要會(huì)運(yùn)用到信息熵(Information Entropy)的概念,本文中不做詳細(xì)展開。最后,為了規(guī)避過擬合等現(xiàn)象,增強(qiáng)模型對樣本外數(shù)據(jù)的適應(yīng)性

14、,我們通常還需要對決策樹做剪枝(Pruning)等處理。存量規(guī)模2億元以內(nèi)2億元以上等級(jí)A+及以上A+及以下強(qiáng)贖不執(zhí)行是否是炒作品種圖1:決策樹的生成原理數(shù)據(jù)來源:廣發(fā)證券發(fā)展研究中心而隨機(jī)森林方法,則是利用了集成學(xué)習(xí)(Ensemble Learning)的思想,在決策樹的基礎(chǔ)上引入了隨機(jī)屬性選擇后的一種加強(qiáng)方法。其中,集成學(xué)習(xí)方法指的是通過建立多個(gè)個(gè)體學(xué)習(xí)器,構(gòu)成結(jié)合模塊后綜合輸出決策結(jié)果的方法體系(周志華,2016)。在隨機(jī)森林方法中,個(gè)體學(xué)公共聯(lián)系人 p6 習(xí)器便是決策樹,集合后便會(huì)形成一個(gè)“決策樹集成”。個(gè)體學(xué)習(xí)器1個(gè)體學(xué)習(xí)器2結(jié)合模塊輸出個(gè)體學(xué)習(xí)器T圖2:隨機(jī)森林的合成原理數(shù)據(jù)來源:

15、機(jī)器學(xué)習(xí)(周志華,2016),廣發(fā)證券發(fā)展研究中心隨機(jī)森林采用的集成方法是Bagging(Breiman,1996a4)方法的拓展。Bagging方法源自于自助采樣法(Bootstrap Sampling),其基本思想是:假設(shè)我們有若干個(gè)數(shù)據(jù)集,若我們在數(shù)據(jù)集中重復(fù)n次又放回的抽樣,就會(huì)得到一個(gè)n個(gè)樣本的采樣集合(Bootstrap方法)5;將以上過程重復(fù)T次之后,便可以得到T個(gè)含有n個(gè)樣本的采樣集合樣本,用每一組樣本分別對個(gè)體學(xué)習(xí)器進(jìn)行訓(xùn)練,再將這些個(gè)體學(xué)習(xí)器進(jìn)行結(jié)合。具體到隨機(jī)森林方法上,其在對單個(gè)決策樹進(jìn)行集合的過程中,隨機(jī)森林對Bagging思想做了些許改動(dòng),針對決策樹的每個(gè)節(jié)點(diǎn),首先

16、從所有屬性中隨機(jī)選擇k個(gè)屬性(在炒作券選擇的案例中,屬性即是規(guī)模、等級(jí)等要素,這里我們假設(shè)屬性總共有n),然后從這k個(gè)屬性中選擇一個(gè)最優(yōu)屬性用于劃分。值得注意的是,當(dāng)k=d時(shí),其和決策樹的構(gòu)建方法便趨于一致,通常,我們將k設(shè)置為log2n(Breiman,2001a)。從經(jīng)驗(yàn)上看,隨機(jī)森林方法拓展了Bagging方法的多樣性,并且在計(jì)算過程中的資源耗費(fèi)程度較小,總體的訓(xùn)練效率通常也優(yōu)于Bagging,是集成學(xué)習(xí)中高效方法的代表。表2中的偽代碼展示了隨機(jī)森林模型在實(shí)際運(yùn)行中的代碼編寫思路。公共聯(lián)系人 p74 Breiman,L. (1996). Bagging predictors. Machi

17、ne Learning,24(2), 123-140.5 當(dāng)然,這樣的采樣集合中可能有部分?jǐn)?shù)據(jù)集中的樣本未被選中,而另一些可能會(huì)被選中多次。表2:隨機(jī)森林模型的代碼編寫思路目的:生成 C 個(gè)分類器輸入:訓(xùn)練集過程:1:for i=1 to c 執(zhí)行2:隨機(jī)放回地從訓(xùn)練集 D 中抽樣,產(chǎn)生 Di3:生成一個(gè)對應(yīng)的根結(jié)點(diǎn) Ni , Ni 包含 Di4:叫做分類器 Ni 5:end for6:建立樹 N 7:If N 僅包含一個(gè)分類 then8:return9:else10:隨機(jī)從 N 中選擇 x %的潛在分割特征11:選擇具有最高信息增益的分割特征 F 作為分割器, F 有( F1 , Ff )種

18、可能出現(xiàn)的值12:將 N 生成 f 個(gè)子節(jié)點(diǎn), N1 , N f13:for i= 1 to f 執(zhí)行14:使 Ni 包含 Di , Di 是 N 中所有匹配到 Fi 的樣本15:叫做分類器 Ni 16:end for17:end if輸出:C 個(gè)分類器數(shù)據(jù)來源:廣發(fā)證券發(fā)展研究中心(二)XGBoostingBoosting方法與上一節(jié)中介紹的隨機(jī)森林方法一樣,同樣屬于常見的集成學(xué)習(xí)方法,即核心是多個(gè)弱學(xué)習(xí)器進(jìn)行聯(lián)合后,將其增強(qiáng)為一個(gè)更強(qiáng)的學(xué)習(xí)器。Boosting方法的運(yùn)行原理可以簡要概括為:首先利用一套初始的訓(xùn)練集訓(xùn)練出一個(gè)效力較弱的基礎(chǔ)學(xué)習(xí)器,再對這套基礎(chǔ)學(xué)習(xí)器的效果進(jìn)行評估,并對其作出錯(cuò)

19、誤判斷的樣本賦予更高的權(quán)重,接著對樣本進(jìn)行調(diào)整后再訓(xùn)練出下一個(gè)基礎(chǔ)學(xué)習(xí)器,如此往復(fù)n次,最后將這n個(gè)學(xué)習(xí)器的判斷進(jìn)行加權(quán)結(jié)合,得到一個(gè)更強(qiáng)的判斷效果。具體來看,為便于理解方法的基本原理,我們選擇了經(jīng)典的AdaBoosting方法作為范例,介紹Boosting方法的運(yùn)行流程。在AdaBoosting方法中,初始的初始分類器由一組等權(quán)的初始樣本訓(xùn)練得到。在初始時(shí)期,我們假設(shè)訓(xùn)練的集樣本權(quán)重為等權(quán),而在每一次弱學(xué)習(xí)器得出分類結(jié)果后,我們都將依據(jù)結(jié)果調(diào)整下一次訓(xùn)練集中錯(cuò)判樣本的權(quán)重,使得下一輪學(xué)習(xí)能夠盡可能地修復(fù)前一次的錯(cuò)誤,并再次開始訓(xùn)練,得到分類結(jié)果,調(diào)整權(quán)重,如此往復(fù)。公共聯(lián)系人 p8圖3:Ad

20、aBoosting方法的集成思想初始訓(xùn)練集殘差1殘差2訓(xùn)練調(diào)整樣本權(quán)重訓(xùn)練調(diào)整樣本權(quán)重訓(xùn)練初始學(xué)習(xí)器弱學(xué)習(xí)器 1弱學(xué)習(xí)器 2殘差n訓(xùn)練弱學(xué)習(xí)器 n加總強(qiáng)學(xué)習(xí)器數(shù)據(jù)來源:廣發(fā)證券發(fā)展研究中心相較于經(jīng)典的AdaBoosting 方法, 我們在本篇報(bào)告中實(shí)際選用的XGBoosting(eXtreme Gradient Boosting,極端梯度提升)方法是一種基于GBDT(Gradient Boosting Decision Tree,梯度提升決策樹)的改進(jìn)方法。原始的GBDT算法基于經(jīng)驗(yàn)損失函數(shù)的負(fù)梯度來構(gòu)造新的決策樹,只是在決策樹構(gòu)建完成后再進(jìn)行剪枝。而 XGBoosting在決策樹構(gòu)建階段就在

21、損失函數(shù)中加入了正則項(xiàng)。在介紹XGBoosting的特點(diǎn)介紹中,將不可避免地涉及部分公式推導(dǎo),只關(guān)心方法原理的讀者可以將這部分略過。在XGBoosting中,損失函數(shù)被設(shè)置為:Lt l( yi Ft 1 (xi ) ft (xi ) ( ft )i其中 Ft 1 (xi ) 表示現(xiàn)有t 1的棵樹最優(yōu)解。正則項(xiàng)定義為:tj( f ) T 1 T w22j1其中T為葉子節(jié)點(diǎn)個(gè)數(shù), wj 表示第 j 個(gè)葉子節(jié)點(diǎn)的預(yù)測值。對該損失函數(shù)在 Ft 1 處進(jìn)行二階泰勒展開可以推導(dǎo)公共聯(lián)系人 p9 出:TL L G j w 1 (H )w2 T2ttjjj j1其中T 為決策樹 ft 中葉子節(jié)點(diǎn)的個(gè)數(shù),g j

22、 Ft1 l( yi , Ft 1 (xi )iI jjh 2Ft1iI jl( yi , Ft 1(xi )I j 表示所有屬于葉子節(jié)點(diǎn) j 的樣本的索引的結(jié)合。假設(shè)決策樹的結(jié)構(gòu)已知,通過令損失函數(shù)相對于 wj 的導(dǎo)數(shù)為0可以求出在最小化損失函數(shù)的情況下各個(gè)葉子節(jié)點(diǎn)上的預(yù)測值:jw* HGjj 在本文的回測過程中,我們采用了常用的貪心法來構(gòu)建出一個(gè)次優(yōu)的樹結(jié)構(gòu),基本思想是從根節(jié)點(diǎn)開始,每次對一個(gè)葉子節(jié)點(diǎn)進(jìn)行分裂,針對每一種可能分裂根據(jù)特定的準(zhǔn)則選取最優(yōu)的分裂。上述算法流程的編程思路為:表3: 運(yùn)用貪婪算法尋找分割點(diǎn)的代碼思路輸入:訓(xùn)練集I 和特征維度 dgain 0G gi ,H hiiIi

23、I過程:1:for k=1 to m 執(zhí)行2:GL 0, HL 03:for j 按照 x jk 排序過后的I 執(zhí)行4:GL GL g j , HL hj5:GR GgL , H HLG2G2G26:score max( score, L R )7:end for8:end forHL HR H 輸出:具有最大 score 的分割點(diǎn)數(shù)據(jù)來源:廣發(fā)證券發(fā)展研究中心相較于前文中介紹的隨機(jī)森林方法,Boosting是一種在原理上相對更為簡單的集成學(xué)習(xí)方法。(三)支持向量機(jī)公共聯(lián)系人 p10支持向量機(jī)(Support Vector Machine,簡稱SVM)方法的基本原理,是在樣本空間中找到合適的超

24、平面6,將具有不同標(biāo)簽的樣本盡可能準(zhǔn)確地進(jìn)行劃分。我們以一個(gè)二維特征的簡單劃分問題為例,假設(shè)在一組數(shù)據(jù)集中,屬性有X1和X2兩類(分別為坐標(biāo)軸的橫軸和縱軸),而標(biāo)記則有“圓圈”和“交叉”兩類。顯然,在圖4的例子中,標(biāo)記為“圓圈”類別的樣本集中在坐標(biāo)軸的右下角,而“交叉”類別的樣本則主要集中在坐標(biāo)軸的左上角。由于上述的劃分問題是一個(gè)屬性維度為二維的問題,即選擇了兩種特征作為推斷依據(jù),因此按照支持向量機(jī)的思想,我們需要尋找的劃分超平面即是一條2-1=1維的超平面即一條直線,以盡可能準(zhǔn)確地將具有兩類標(biāo)記的樣本進(jìn)行劃分。在這里的例子中,其實(shí)有很多直線都可以完成這樣的劃分任務(wù),例如圖4中兩條藍(lán)色的直線,

25、都可以將兩類樣本進(jìn)行完美的劃分,但為了盡可能使得這條直線的劃分作用對于后續(xù)新加入的樣本仍然有效,我們應(yīng)該在眾多能完成劃分任務(wù)的曲線中,尋找處在兩類樣本最“正中間”的那一條,即圖4中紅色的直線。這樣一來,我們選擇的劃分超平面將在各條曲線中具有最高的寬容性,對于出現(xiàn)在現(xiàn)有兩類樣本附近的樣本外數(shù)據(jù),也將有更高的正確判斷機(jī)會(huì)。圖4:在支持向量機(jī)中,我們希望找到處于兩類樣本“中央”的劃分超平面 x20 x1數(shù)據(jù)來源:機(jī)器學(xué)習(xí)(周志華,2016),廣發(fā)證券發(fā)展研究中心那么,我們要如何衡量劃分超平面的“中央”概念呢?我們?nèi)匀灰郧拔闹械那榫盀槔?,在樣本空間中,我們可以將劃分超平面表達(dá)為一個(gè)線性方程:w x b

26、 0其中,x為屬性向量,其中的元素即是前文中提到的X1和X2;w為權(quán)重向量,也稱為法向量,決定了超平面的方向;b通常意義上的截距項(xiàng),在這里也叫位移項(xiàng),決定了超平面與原點(diǎn)之間的距離。顯然,在確定了法向量w以及位移項(xiàng)b之后,超平面在空間中的位置也就隨之確定。所以,我們在分類問題中所尋找的,其實(shí)就是能使得超平面具有最佳劃分效果的法公共聯(lián)系人 p116 超平面指的是 n 維歐式空間中維度等于(n-1)的線性子空間。在圖 x 的例子中,我們討論的是一個(gè)二維空間中的問題,我們尋找的劃分超平面也就是一條一維的直線。向量和位移項(xiàng)。若我們找到的劃分超平面能將所有的訓(xùn)練樣本進(jìn)行正確分類,那么距離這個(gè)超平面最近的幾

27、個(gè)樣本(即圖x中標(biāo)紅的樣本點(diǎn))被稱為支持向量(Support Vector)。而穿過兩類樣本的支持向量,并且與超平面平行的虛線與超平面之間的距離,被稱為間隔(Margin),為了盡可能地減少意外情況的出現(xiàn),一個(gè)理想的超平面所對應(yīng)的間隔應(yīng)該盡可能地寬。這樣一來,我們在前文中所述的希望找到處于兩類樣本“正中間”的劃分超平面,也就轉(zhuǎn)化為了尋找得到最大間隔(Maximum Margin)的劃分超平面。圖5:支持向量與超平面之間的距離為間隔,我們希望尋找間隔最大的超平面 x20 x1數(shù)據(jù)來源:機(jī)器學(xué)習(xí)(周志華,2016),廣發(fā)證券發(fā)展研究中心由此,超平面的搜尋問題也就轉(zhuǎn)化為了一個(gè)約束條件(即使所有類別都

28、能正確劃分的w和b)下的間隔最大化問題。若用公式來表示,上述最大化問題即可以由最大化間隔問題轉(zhuǎn)化為最小化w的模長,因?yàn)榘凑諝W式空間的距離計(jì)算公式,w的模長即是支持向量到超平面距離的分母,而在y為正負(fù)1的劃分問題中,分子為常數(shù),因此最大化間隔的優(yōu)化問題也可以表示為最小化w模長的(這也被稱作支持向量機(jī)的基本型):minw,b s.t.w 212i iy wT x b 1,i 1, 2, m.上式是一個(gè)凸二次規(guī)劃問題,在計(jì)算中,我們時(shí)常會(huì)選擇實(shí)用拉格朗日乘子法得到該規(guī)劃問題的對偶問題。上述問題的格拉朗日函數(shù)可表示為:L(w, b, ) 1 | w |2 m (1 y (wT x b)2i1ii i公

29、共聯(lián)系人 p12其中,i 為拉格朗日乘子。分別對w和b求偏導(dǎo)之后,即可得到上述問題的對偶問題,之后轉(zhuǎn)化為對 的求解:mmax 1 mm y y x T xii1 m2 i1i j i j ijj 1s.t.i yi 0i1i 0,i 1, 2, , m從前文的例子中,我們用一個(gè)二維問題展示了支持向量機(jī)的基本原理,但顯然,在這里的范例中,劃分問題的難度是很低的,因?yàn)閮深悩颖镜姆植级挤浅<?,我們可以輕易地利用直線進(jìn)行分割。那么,對于各類樣本在空間中相互交叉的場景,我們能找到理想的低維超平面來對樣本進(jìn)行有效劃分嗎?這里,我們通常需要將現(xiàn)有二維空間上的樣本投射到更高維度的空間,例如在圖6所示的例子中

30、,我們在面臨一個(gè)兩類樣本無法用直線分隔的問題時(shí),我們便可以將二維樣本投射到一個(gè)三維的空間上,而在這個(gè)三維空間中,我們便可以找到一個(gè)適當(dāng)?shù)?-1=2維超平面對兩類樣本進(jìn)行有效分隔,最后再將超平面映射回二維空間,便可以得到一條可以劃分兩類樣本的曲線。事實(shí)上,只要?jiǎng)澐謫栴}的屬性是有限維數(shù)的,那么便一定存在一個(gè)更高維度的特征空間,使得不同類型的樣本可以用n-1維超平面進(jìn)行劃分。圖6:我們可以將樣本投射到更高維度的空間,尋找到劃分超平面xxxxx2 xxOx1數(shù)據(jù)來源:機(jī)器學(xué)習(xí)(周志華,2016),廣發(fā)證券發(fā)展研究中心圖6中的(x) 表示將x映射到高維空間時(shí)的特征向量。在后續(xù)的求解過程中,需要涉及到特征

31、向量內(nèi)積的運(yùn)算,而當(dāng)特征空間維數(shù)較高時(shí),這一計(jì)算過程將變得十分困難,因此計(jì)算過程中,時(shí)常會(huì)需要引入著名的核函數(shù)進(jìn)行計(jì)算。后續(xù)較為繁雜的計(jì)算步驟,本文中暫不討論,感興趣的讀者可以參考本文的引用書目??偨Y(jié)來看,支持向量機(jī)的思想就是在各類樣本空間中,利用各種手段尋找能有效將其劃分的超平面,在得到劃分超平面之后,對于新的樣本,我們便可以通過定位其公共聯(lián)系人 p13與劃分超平面的相對位置來對其所屬的類別進(jìn)行判斷。支持向量機(jī)在具體實(shí)現(xiàn)中的編程思路由表2所示(在實(shí)際運(yùn)算中,許多常見語言都會(huì)有預(yù)先制作好的程序包可以調(diào)用):表4:支持向量機(jī)模型算法輸入:訓(xùn)練集 X 和相應(yīng)標(biāo)簽 y , 0過程:1:重復(fù)2: fo

32、r all xi , yi , xj y j 執(zhí)行:3:優(yōu)化i 和 j4: end for5:Until 不發(fā)生改變或其他限制條件已被滿足輸出:支持向量i 0三、回測流程介紹在本篇報(bào)告中,我們分別對前文所述的隨機(jī)森林、XGBoosting和支持向量機(jī)三種方法進(jìn)行了實(shí)際演示,展示了如何利用三種機(jī)器學(xué)習(xí)方法構(gòu)建一個(gè)月度換倉的轉(zhuǎn)債擇券策略??傮w來看,本文的測試流程為:數(shù)據(jù)收集-數(shù)據(jù)清洗-特征提取-標(biāo)簽構(gòu)建-拆分訓(xùn)練集和測試集-樣本內(nèi)訓(xùn)練和交叉驗(yàn)證調(diào)參-樣本外預(yù)測-結(jié)果分析。我們構(gòu)建策略的思路是:首先利用一年的個(gè)券面板數(shù)據(jù)對機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練,在訓(xùn)練期的末尾用訓(xùn)練出的模型,挑選出最優(yōu)機(jī)會(huì)在一個(gè)月內(nèi)取

33、得正向收益的個(gè)券等權(quán)買入,作為當(dāng)期的持有組合,并持有該組合一個(gè)月。而在持有期的末尾,我們會(huì)運(yùn)用當(dāng)天前推一個(gè)測試器的數(shù)據(jù)再次對模型進(jìn)行運(yùn)算,并在當(dāng)天得到更新后的持倉組合,如此往復(fù),得到一個(gè)月度換倉的滾動(dòng)回測結(jié)果。圖7:滾動(dòng)回測的思路演示得到組合1得到組合2測試期1持有期1測試期2持有期2數(shù)據(jù)來源:廣發(fā)證券發(fā)展研究中心在數(shù)據(jù)方面,我們選擇的測試區(qū)間為:2017年1月1日至2020年5月15日。公共聯(lián)系人 p14在本文的測試中,我們選用了部分常用的轉(zhuǎn)債行情數(shù)據(jù)作為轉(zhuǎn)債的屬性,分別包括:轉(zhuǎn)債在各交易日的收盤價(jià)、純債價(jià)值、轉(zhuǎn)股溢價(jià)率、主體信用評級(jí)、債券余額以及成交量。7在確定屬性數(shù)據(jù)后,我們按照如下原則

34、對數(shù)據(jù)進(jìn)行清洗,以盡可能保證數(shù)據(jù)質(zhì)量和個(gè)券流動(dòng)性,并且剔除炒作品種的影響:刪除對應(yīng)成交量為0的數(shù)據(jù);刪除數(shù)據(jù)長度小于30的債券;刪除A+及以下的債券;刪除存量規(guī)模小于1.5億以下的債券;刪除前20日平均成交量在500萬以下的債券。在標(biāo)簽方面,本文中的標(biāo)簽設(shè)置為“過去一個(gè)月中,轉(zhuǎn)債價(jià)格是否出現(xiàn)上漲”,將過去一個(gè)月中價(jià)格出現(xiàn)上漲的樣本標(biāo)簽標(biāo)記為1,沒有上漲的標(biāo)記為0。接下來,我們按照如下流程對訓(xùn)練集和測試集進(jìn)行拆分:有效數(shù)據(jù)集:考慮到隨機(jī)森林模型、SVM模型對缺失值的敏感性和不穩(wěn)定性,我們刪除所有含有缺失值的數(shù)據(jù)。加之對于每日可用轉(zhuǎn)債樣本量的考慮,最終選取有效數(shù)據(jù)集為:2018年6月15日至202

35、0年5月15日,共23個(gè)月;訓(xùn)練集:選取2018年6月15日至2019年6月15日,長度為一年的數(shù)據(jù)作為第一個(gè)訓(xùn)練集,之后采用窗口滾動(dòng)式方法,每次向后移動(dòng)一個(gè)月作為新的訓(xùn)練集,直至2020年 4月15日,共計(jì)10個(gè)訓(xùn)練集;測試集:只選取每個(gè)訓(xùn)練集后的一個(gè)交易日作為測試集,共計(jì)10個(gè)測試集。在樣本內(nèi)測試環(huán)節(jié),我們的處理方法為:分別使用隨機(jī)森林模型、XGBoost模型、支持向量機(jī)模型(SVM)對訓(xùn)練集進(jìn)行訓(xùn)練??紤]到我們將回測區(qū)間按月度劃分為10個(gè)子區(qū)間,因此需要對每個(gè)子區(qū)間的不同訓(xùn)練集進(jìn)行重復(fù)訓(xùn)練。在每個(gè)訓(xùn)練集內(nèi)(樣本內(nèi))進(jìn)行5折交叉驗(yàn)證,選取交叉驗(yàn)證集AUC最好的一組參數(shù)作為模型的最優(yōu)參數(shù),用

36、以預(yù)測對應(yīng)的測試集標(biāo)簽。在具體的樣本外測試方面,我們的處理方法為:確定最優(yōu)參數(shù)后,以對應(yīng)測試集的特征作為模型的輸入,可以得到各只轉(zhuǎn)債超過收益率中位數(shù)的預(yù)測概率。則我們等量買入預(yù)測概率在前十名的轉(zhuǎn)債,持有一個(gè)月。在下一個(gè)月,通過下一個(gè)滾動(dòng)模型的預(yù)測概率,選擇換倉。在回測模型運(yùn)行完畢之后,我們將綜合考慮各個(gè)擇券模型的累計(jì)收益率、AUC(Area under the curve,用于測度模型的預(yù)測準(zhǔn)確程度)和運(yùn)算時(shí)間等指標(biāo)綜合對模型的效果進(jìn)行判斷。四、結(jié)果分析從累計(jì)收益率來看,在樣本測試區(qū)間中,隨機(jī)森林方法和XGBoosting方法有著相對公共聯(lián)系人 p157 對于主體信用評級(jí)這一非數(shù)值變量,我們將

37、主體評級(jí)按 AAA, AA+, AA, A+的順序分別替換為 3、2、1、0。較好的表現(xiàn),其中隨機(jī)森林方法還在運(yùn)算效率上具有明顯的優(yōu)勢。首先,從三種策略在回測中的累計(jì)收益率來看,隨機(jī)森林、XGBoosting和支持向量機(jī)在樣本測試區(qū)間均得到了超過中證轉(zhuǎn)債指數(shù)的累計(jì)收益率,其中隨機(jī)森林方法的擇券表現(xiàn)最為穩(wěn)定,而XGBoosting方法則在樣本觀測時(shí)期內(nèi)得到了最高的累計(jì)收益率。具體來看,經(jīng)隨機(jī)森林方法篩選的轉(zhuǎn)債組合,自回測開始起累計(jì)收益率始終處在中證轉(zhuǎn)債指數(shù)累計(jì)收益率的上方,即篩選出的組合可以穩(wěn)定的較中證轉(zhuǎn)債指數(shù)取得累計(jì)正向收益,測試區(qū)間內(nèi)策略的累計(jì)收益率也接近了30%。不過需要注意的是,在 2019年末到2020年初,這一策略也曾出現(xiàn)過超過5%的回撤,因此即便是模型回測結(jié)果表現(xiàn)相對穩(wěn)定,仍需注意回撤風(fēng)險(xiǎn)。圖8:隨

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論