20不同分類算法下的大小盤風格判斷_第1頁
20不同分類算法下的大小盤風格判斷_第2頁
20不同分類算法下的大小盤風格判斷_第3頁
20不同分類算法下的大小盤風格判斷_第4頁
20不同分類算法下的大小盤風格判斷_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 HYPERLINK / 2主要內容大小盤輪動是重要市場特征分類算法判斷風格特征XGBoost與邏輯回歸效果較好大小盤風格輪動是A股市場的一個重要特征,對大小盤輪動規(guī)律的有效把握, 將有助于提升投資收益。我們分別使用滬深300、中證1000指數(shù)表征大盤股、小盤股的走勢,通過計算中證1000對滬深300的相對強弱,可以衡量大小盤風格切換情況。 HYPERLINK / 1.1 大小盤風格輪動是重要市場特征2009年起,市場出現(xiàn)強烈的大小盤風格輪動效應; 2016年之前,小盤股總體占優(yōu)。2016年后,市場出現(xiàn)長期風格反轉,大盤股總體占優(yōu)。大小盤指數(shù)歷史表現(xiàn)資料來源: 研究 HYPERLINK / 4

2、主要內容大小盤輪動是重要市場特征分類算法判斷風格特征XGBoost與邏輯回歸效果較好資料來源:申萬宏源研究 HYPERLINK / 大小盤輪動現(xiàn)象受多種因素驅動,既包括宏觀經(jīng)濟、政策制度等宏觀變量,也包括證券市場流動性、投資者結構、投資者情緒等微觀結構。我們在模型中選擇以下指標作為特征變量,包括宏觀經(jīng)濟數(shù)據(jù)和證券市場數(shù)據(jù)。由于宏觀數(shù)據(jù)發(fā)布有滯后期,對其統(tǒng)一做滯后一個月處理,即相對于交易數(shù)據(jù)多滯后一期。特征變量 HYPERLINK / 大小盤輪動策略的目標是在大盤與小盤兩類風格中選擇合適的投資標的,我們只關注兩類風格孰強孰弱,而不關注風格走勢差異的具體幅度,因此這是一個二分類問題。本篇報告測試不

3、同的分類算法在大小盤輪動中的有效性。具體算法包括:決策樹、隨機森林、XGBoost、支持向量機和邏輯回歸。我們直接使用滬深300、中證1000指數(shù)作為大盤風格 、小盤風格的表征,并使用兩條指數(shù)的價格計算輪動組合收益率??紤]到早期證券市場結構與現(xiàn)在有較大不同,為了保持模型的穩(wěn)定性,將2007年作為回測起點。 HYPERLINK / 我們采用月頻調倉,分別在固定窗口與滾動窗口方式下回測了模型表現(xiàn)。固定窗口:將全部歷史樣本劃分為訓練集與測試集,在訓練集內通過交叉驗證與網(wǎng)格調參確定最優(yōu)超參數(shù),并將之應用于樣本外預測;滾動窗口:在每個月末,向前選取固定數(shù)量月數(shù)的樣本作為訓練集,將訓練得到的模型用于下月的

4、風格判斷。與固定窗口相比,滾動窗口的優(yōu)點在于時效性更強,能夠利用最新數(shù)據(jù)進行模型訓練。無論是固定窗口還是滾動窗口,都涉及到訓練集長度的選取,訓練數(shù)據(jù)的月份數(shù)量實際上成為一個重要參數(shù)?;販y結果顯示,滾動窗口的風格預測準確率高于固定窗口,結果也更穩(wěn)定,我們只展示滾動窗口的預測效果。 HYPERLINK / 我們使用固定長度的時間窗口,每月月末滾動向后建立模型并預測。各分類算法的超參數(shù)一般采用默認值,將時間窗口長度作為主要參數(shù)進行優(yōu)化,窗口長度范圍在60-130個月之間。在訓練集內使用T-1期特征數(shù)據(jù)與T期大小盤強弱分類標簽建模;再使用訓練得到的模型,根據(jù)T期最新特征數(shù)據(jù),對T+1期大小盤強弱做出預

5、測。單次預測過程中沒有未來信息的引入,為樣本外預測。當然在最后評估窗口長度這一參數(shù)時,有歷史回看的成分,為此我們在下文中展示不同窗口長度的預測效果穩(wěn)定性,以對模型做出綜合評判。 HYPERLINK / 資料來源:申 HYPERLINK / 決策樹是通過一系列特征和判斷規(guī)則對數(shù)據(jù)進行分類的過程,它通過測試一系列是與否的問題來得到正確答案。決策樹的構建算法主要有ID3、C4.5、CART方法,其中ID3是最基本的構建算法,只能處理離散特征屬性;C4.5算法以ID3算法為基礎,可以處理連續(xù)特征屬性。CART算法是二分類的,既可用于分類也可用于回歸。決策樹過程萬宏源研究CART算法特征選擇:對特征屬性

6、做二元分類, 滿足條件的樣例分至左子樹,不滿足條件的分至右子樹分類標準:Gini指數(shù),Gini指數(shù)越小,數(shù)據(jù)純度越高CART過程輸入數(shù)據(jù)集輸出決策樹 = 已知特征A條件下的基尼系數(shù)為: , = + HYPERLINK / 節(jié)點分類樣本數(shù)目低于閾值或Gini值低于閾值是否按最小化Gini 指數(shù)進行分類資料來源: 研究決策樹的缺點是容易過擬合,而隨機森林是樹的集成方法,可以在一定程度上降低過擬合,同時提高預測能力。隨機森林是一個包含多個決策樹的分類器,預測結果由全部決策樹的預測均值或投票產(chǎn)生。隨機森林中包含的決策樹越多,魯棒性越強。隨機森林的隨機性體現(xiàn)在:1.用于構造單棵決策樹數(shù)據(jù)點的隨機性(自助

7、采樣);2.選擇劃分特征的隨機性。隨機森林過程決策樹1決策樹2決策樹3決策樹n-1決策樹n輸入數(shù)據(jù) HYPERLINK / 資料來源:申萬宏源研究 HYPERLINK / 小盤占優(yōu)小盤占優(yōu)小盤占優(yōu)小盤占優(yōu)大盤占優(yōu)小盤占優(yōu)最終結果XGBoost屬于梯度提升樹,也是一種樹的集成方法。與隨機森林算法不同,隨機森林中多個分類器是獨立的,而XGBoost中的分類器是依 次構造的,每添加一棵樹,都需要學習一個新函數(shù),并擬合前次預測的殘差,樣本預測值即該樣本在每棵樹中對應葉節(jié)點的值加總。令 為單棵決策樹的預測函數(shù), 是所有決策樹的集合,則樣本的預測值 為: = = , =1令 , 為損失函數(shù), ()為正則化

8、項, 則XGBoost對應的最優(yōu)化問題為:min , + () HYPERLINK / 支持向量機(SVM)是一類按監(jiān)督學習方式對數(shù)據(jù)進行二元分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大間隔對應的超平面。SVM過程資料來源: 研究以非線性SVM為例,其對應的優(yōu)化問題為:min + , =. . + , HYPERLINK / , HYPERLINK / 其中為核函數(shù),為確定超平面的參數(shù)邏輯回歸是一種廣義線性回歸。其因變量可以是二分類也可以是多分類。邏輯回歸模型中,x為正例的概率為:= = + 邏輯回歸對應的優(yōu)化問題為: HYPERLINK / min = 2 + = HYPERLIN

9、K / 15主要內容大小盤輪動是重要市場特征分類算法判斷風格特征XGBoost與邏輯回歸效果較好 HYPERLINK / 評估大小盤輪動效果,有超額收益率、勝率、相對盈虧比。但由于各算法的回歸窗口不 同、計算收益率的區(qū)間并不相同,超額收益率無法直接對比。市場風格的均衡或集中特性也會對超額收益率有較大影響。當市場中風格輪動較為均衡 時,輪動策略更容易取得超額收益。但市場風格長期偏向大盤或小盤一方時,即使策略的勝率、盈虧比較高,也難以取得超額收益。因此超額收益率并非最恰當?shù)脑u價指標。我們主要關注勝率和相對盈虧兩個評價指標。勝率,即月度預測的準確率,勝率=預測準確的月數(shù)/總月數(shù)相對盈虧比,即預測正確

10、時的平均獲利與預測錯誤時的平均虧損之比,相對盈虧比=預測正確時的相對收益/abs(預測錯誤時的相對虧損) HYPERLINK / 例如在極端情況下,如果小盤指數(shù)始終跑贏大盤指數(shù),那么即使策略勝率達到100%, 超額收益也僅為0。為此,引入調整后超額收益率,來說明這一問題:調整后超額收益率 = 實際超額收益率 , 1為調整系數(shù)其中,r = ABS(大盤指數(shù)占優(yōu)的月數(shù)比例-小盤指數(shù)占優(yōu)的月數(shù)比例)當實際風格輪動較為均衡時,r接近0,實際超額收益率可以反映輪動效果;但當一種風格始終占優(yōu)時,r接近1,需要將實際超額收益率放大,才能反映模型真實效果。由于以上參數(shù)選取具有主觀性,因此我們并不實際計算,只是

11、用它來說明如下問題:如果回測區(qū)間內市場風格過于集中,即使模型的勝率與盈虧比很高,也難以獲得明顯超額收益;但只要模型預測能力保持穩(wěn)定,可以期望當后期市場風格輪動恢復均衡后,模型將有良好表現(xiàn)。 HYPERLINK / 資料來源:申萬宏源研究 HYPERLINK / 回歸窗口長度在110-122個月間時,模型表現(xiàn)較好,勝率均在55%以上,但勝率與盈 虧比的波動均較大。我們選擇窗口長度為116個月,2016/10-2019/06,模型勝率66.7%,相對盈虧比1.35,同期滬深300實際勝率為63.6%;輪動策略累計凈值為1.15,戰(zhàn)勝中證1000, 但小幅跑輸滬深300。模型勝率與盈虧比輪動策略走勢

12、 HYPERLINK / 資料來源:申萬宏源研究 HYPERLINK / 隨機森林算法下,模型勝率和相對盈虧比都有所提升。我們選擇窗口長度為114個月,2016/08-2019/06,模型勝率65.7%,相對盈虧比1.43,同期滬深300實際勝率為60.0%;輪動策略累計凈值為1.17,戰(zhàn)勝中證1000, 小幅跑輸滬深300。模型勝率與盈虧比輪動策略走勢XGBoost算法下,長周期窗口勝率提升明顯,窗口長度大于122個月時,平均勝率超過70%。我們選擇窗口長度為125個月, 2017/07-2019/06,模型勝率79.2%,相對盈虧比1.08, 同期滬深300實際勝率為62.5%;輪動策略累

13、計凈值為1.16,同時戰(zhàn)勝中證1000和滬深300。模型勝率與盈虧比輪動策略走勢 HYPERLINK / 資料來源:申萬宏源研究 HYPERLINK / 20 HYPERLINK / 資料來源:申萬宏源研究 HYPERLINK / 支持向量機算法勝率不高,平均勝率略低于50%,相對盈虧比較為穩(wěn)定。我們選擇窗口長度為65 個月, 2012/07-2019/06,模型勝率52.4%,相對盈虧比1.61,同期滬深300實際勝率為48.8%;輪動策略累計凈值為2.43,雖然勝率不高, 但由于回測期間市場風格均衡,策略仍能戰(zhàn)勝中證1000和滬深300。模型勝率與盈虧比輪動策略走勢 HYPERLINK /

14、 資料來源:申萬宏源研究 HYPERLINK / 邏輯回歸算法有較高的勝率穩(wěn)定性,全部回測窗口上的平均勝率為62.4%。我們選擇窗口長度為70個月, 2012/12-2019/06,模型勝率65.8%,相對盈虧比1.21,同期滬深300實際勝率為48.1%;輪動策略累計凈值為3.75,由于策略勝率較 高,且回測期間市場風格均衡,因此能夠大幅戰(zhàn)勝中證1000和滬深300。模型勝率與盈虧比輪動策略走勢我們采用滾動窗口法,測試了5種分類算法的大小盤輪動效果。由于超額收益受回測區(qū)間長度,以及市場風格集中度的影響,并不能客觀反映策略優(yōu)劣。因此我們使用勝率 與相對盈虧比作為主要評價指標。3個樹算法中,XGBoost的表現(xiàn)優(yōu)于決策樹與隨機森林,窗口長度大于122個月

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論