PPT:基于CART決策樹的行業(yè)選股方法_趙學(xué)昂_路演_第1頁
PPT:基于CART決策樹的行業(yè)選股方法_趙學(xué)昂_路演_第2頁
PPT:基于CART決策樹的行業(yè)選股方法_趙學(xué)昂_路演_第3頁
PPT:基于CART決策樹的行業(yè)選股方法_趙學(xué)昂_路演_第4頁
PPT:基于CART決策樹的行業(yè)選股方法_趙學(xué)昂_路演_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、國信證券金融工程:投資性指標(biāo)與策略系列之一基于cart決策樹的行業(yè)選股方法焦健,趙學(xué)昂,葛新元國信證券經(jīng)濟(jì)研究所金融工程jan, 2010投資性產(chǎn)品系列報告:量化模型提出。實證分析持續(xù)跟蹤標(biāo)準(zhǔn)產(chǎn)品 數(shù)據(jù)挖掘(神經(jīng)網(wǎng)絡(luò)、決策樹、灰分析)可廣泛的應(yīng)用于行業(yè)選股模型 本報告主要使用工具:分類與回歸決策樹(cart)本報告主要創(chuàng)新之處:利用修剪與過濾提升決策樹的準(zhǔn)確性 本報告主要結(jié)論:修正后的動態(tài)決策樹可有效的在行業(yè)內(nèi)分類與選股 后續(xù)的研究方向:行業(yè)指標(biāo)選擇、分類后的個股挑選、決策樹優(yōu)化數(shù)據(jù)挖掘技術(shù)與個股選擇2)主票使用的數(shù)據(jù)挖掘方法 3cart決策樹行業(yè)選股版 4實證結(jié)果與后續(xù)研究 技術(shù)分析派:供需

2、決定一切、交易數(shù)據(jù)包含一切信息、歷史會一再重演 基本面分析派:股票價值與價格的差異是投資收益來源、財務(wù)分析、實地調(diào)研 數(shù)量化分析派:技術(shù)與財務(wù)指標(biāo)的結(jié)合與深化、統(tǒng)計工具與數(shù)據(jù)挖掘?qū)ふ乙?guī)律并預(yù)測數(shù)據(jù)挖掘是一個從大型數(shù)據(jù)庫中尋找模式與關(guān)聯(lián)的過程。自動預(yù)測未來的趨勢與行為。自動發(fā)覺未知的數(shù)據(jù)模式。數(shù)據(jù)挖掘技術(shù)特性分析人工神經(jīng)網(wǎng)絡(luò)遺傳算法統(tǒng)計分析決策樹可視化技術(shù)容易編碼低非常低高非常高中資料接受度高中中低低自主性高高低低非常高計算能力非常高非常高中低非常高解釋能力非常低高中非常高非常高最優(yōu)化能力中高中中非常低拓展性非常低中中非常低低資料來源:data mining in financial appli

3、cationjeee transactions on system, 2004 vol34內(nèi)容目錄2主要使用的數(shù)據(jù)挖掘方法 3cart決策樹行業(yè)選股版 4實證結(jié)果與后續(xù)研究人工神經(jīng)網(wǎng)絡(luò)(artificial neural network):模仿人腦結(jié)構(gòu)及其功能的智能信息 處理系統(tǒng),具有自學(xué)習(xí)、自組織、較 好的容錯性和優(yōu)良的非線性逼近能力。神經(jīng)網(wǎng)絡(luò)特別適合處理:自變量和因變量之間無已知方程結(jié)果預(yù)測比邏輯關(guān)系解釋更重要有足夠豐富的數(shù)據(jù)可供建立網(wǎng)絡(luò)神經(jīng)元結(jié)構(gòu)示意圖輸入層隱藏層輸出層決策樹(decision tree) :最簡單的歸納式學(xué)習(xí)法 :常用于數(shù)據(jù)分類與預(yù)測 :有明確的文字或數(shù)字規(guī)則 :樹的生

4、長規(guī)??煽刂?:指標(biāo)不宜過多 :分類不可過細(xì)一棵典型的決策樹決策樹分類過細(xì)自然界存在之已知訊息為白(wmte),未知訊息為黑(black),介于黑白間不明確未知與不明 確也知之慮帶則為灰(grey)。a灰關(guān)聯(lián)分析強(qiáng)調(diào)對系統(tǒng)的訊息補(bǔ)充,充分利用已確定之白色訊息,進(jìn)行系統(tǒng)的關(guān)聯(lián)分析、模型建 構(gòu)使得系統(tǒng)由灰色狀態(tài)轉(zhuǎn)為白化狀態(tài),并藉由預(yù)測及決策的方法來探討及了解系統(tǒng)。灰色系統(tǒng)關(guān)聯(lián)分析的具體操作步驟為:從原始決策矩陣 中找出參考數(shù)列 和比較數(shù)列。對原始決策矩陣 數(shù)據(jù)進(jìn)行正規(guī)化 處理。計算灰關(guān)聯(lián)距離。計算灰關(guān)聯(lián)度。計算灰關(guān)聯(lián)系數(shù)。i ixz排出灰關(guān)聯(lián)序, 根據(jù)灰關(guān)聯(lián)度值 選出重要的方案。,數(shù)據(jù)挖掘技術(shù)與個

5、股選擇2)主要使用的數(shù)據(jù)挖掘方法 3)cart決策樹行業(yè)選股版 4實證結(jié)果與后續(xù)研究3.1傳統(tǒng)腐rt決策樹選股廠二eric h, keith l, chee k (2000 )對美國科技股 1993至1999年的數(shù)據(jù),利用epsprice、price- mom等指標(biāo)構(gòu)建了固定樣本的靜態(tài)和不斷新增樣 本的動態(tài)樹。<7z利用前面構(gòu)建的靜態(tài)樹與動態(tài)樹,eric等人得到 了靜態(tài)樹所分出的買入組合平均每月跑贏賣出組 合1.40%,而動態(tài)樹則可跑贏1.47%。(未考慮 交易成本與沖擊成本等)</我們認(rèn)為1993至1999年正是整個美國股市的牛市 時期,期間經(jīng)濟(jì)周期、市場規(guī)律以及所選的行業(yè) 經(jīng)營

6、環(huán)境沒有發(fā)生顯著的變化,因此動態(tài)的調(diào)整 決策樹并未明顯提升策略效果。<7eric il keith i而chee k片態(tài)樹模型eric h, keith ichee k動態(tài)樹模型roa v 1.5hps-mom v 3 5eps4cox<| underr roa 1 53.2國技股cart決策樹模型一 - ;我們將國內(nèi)電子與信息技術(shù)類股票合并為科技股板塊,選用epsprice、eps-mom、 roa等六項指標(biāo)(根據(jù)國內(nèi)情況進(jìn)行定義調(diào)整)構(gòu)建決策樹進(jìn)行實證。:/我們選取所有科技板塊152只股票過去82個月(2003.1-2009.10)中的歷史數(shù)據(jù)樣本。為了避免樹形結(jié)構(gòu)出現(xiàn)過于復(fù)雜

7、形態(tài),我們對數(shù)據(jù)樣本進(jìn)行五分法(quintile)轉(zhuǎn)換。/科技股板塊cart決策樹分類關(guān)鍵指標(biāo)原定義指標(biāo)修改sa les-price市銷率倒數(shù)最近12個月市銷率倒數(shù)cashflow-price市現(xiàn)率倒數(shù)最近12個月市現(xiàn)率倒數(shù)eps-price未來12月一致假期eps比股價最近12個月市盈率倒數(shù)roaroa變化率roa年同比變化率eps-momeps 一致預(yù)期12周變化凈利洞一致預(yù)期12周變化price-mom前一月股票收益率前一月股票收益率3.2 國股cart決策樹模型(靜態(tài))以2003-2006作為樣本內(nèi)數(shù)據(jù)建立靜 態(tài)樹,2007-2009做為樣本外數(shù)據(jù)進(jìn)行 靜態(tài)樹檢驗。 :對科技板塊所有股

8、票的下月收益進(jìn)行 預(yù)測分類。圖中1代表跑贏平均類,-1 代表跑輸平均類,類中的股票分別對應(yīng) 構(gòu)建多頭和空頭組合。 :盡管有事前修剪控制樹的生長,生成 的樹狀形態(tài)仍較為復(fù)雜。eps-priced 決定分類的首要條件,但其直接導(dǎo)出分 類節(jié)點的決定性能力還不如eps-mom。 :經(jīng)過檢驗,靜態(tài)決策樹挑出的分類組 合,在2007年初至2009年10月底多頭 組合平均每月跑贏空頭組合0.64%。2003-2006科技股靜態(tài)cart決策樹模型(節(jié)點閱值=10)3.3 國鍬股cart決策樹模型(動態(tài))一 £以2007年以后的科技股樣 本數(shù)據(jù)動態(tài)構(gòu)建決策樹,檢 驗在07-09年牛熊轉(zhuǎn)換過程 中模型的

9、適應(yīng)性與拓展性。a截至2009年10月底的決策 樹從樹形結(jié)構(gòu)到指標(biāo)條件都 發(fā)生了很大的變化。我們可 以看出,價格動量取代市盈 率成為當(dāng)前最為首要的分類 因素,eps-mom能夠直接 導(dǎo)出分類的能力大幅度下降。2009.10科技股動態(tài)決策樹(節(jié)點閾值=10)ce-mom<3.5fs-price<2.5eps-prfps-mompricepbcf捆磔第甲ri施卮際price 盔&0caasw-mi-tittrise <25ice<ps-mom < 2.5a <1.5s-price<4.5ps-price<46eps-mom<2.6s:4

10、0ricf <price-mom <2.5sme動態(tài)的決策樹模型2007至 2009所分類的多頭組合平均 每月跑贏空頭組合0.89% , 我們認(rèn)為并沒有效的體現(xiàn)出 動態(tài)決策樹的麻展性的能力。3.4 修剪和過濾后的修正決策樹模型(事前修剪)影響決策樹模型效果的最大因素在于輸入樣本中的噪音。我們將主要通過事前 修剪、事后修剪以及分類過濾等方式消除噪音影響,提高分類有效性與準(zhǔn)確度。/分割閾值是最簡單的事前修剪方法,通過檢驗我們發(fā)現(xiàn)其可以有效的快速降低 樹的復(fù)雜程度,但分類精確度卻明顯下降。/12001000800600400200010 20 30 4(1 50 60 70 ro afi

11、 100 i 10 12010 140 150 i60 170190 200分割閾值對cart靜態(tài)決策樹精確度的影響0.80%0.60%0.40%0.20%0.00%-0.20%-0.40%-0.60%-0.80%-1.00%3.3修瞄過濾后的修正決策樹模型(事后修剪),一以替代錯誤率為目標(biāo)函數(shù),對初始決策樹(初始決策樹節(jié)點高達(dá)1200個以上) 逐層修剪掉無法有效降低整棵樹錯誤率的枝葉節(jié)點。修剪到第28次時,總節(jié)點 數(shù)已經(jīng)下降至100以下,當(dāng)修剪達(dá)到第36次時,決策樹節(jié)點僅剩下15個。隨著修剪次數(shù)的增加,節(jié)點數(shù)量以較為穩(wěn)定的速度下降,而檢驗組合中的多空 組合收益差能夠穩(wěn)定的保持正向。過于簡單的

12、樹結(jié)構(gòu)盡管樣本檢驗收益率可能 不錯,但往往只是體現(xiàn)出一種大概率事件,分類的區(qū)分度較差。3.3修好過濾后的修正決策樹模型(節(jié)點過濾) ,一決策樹修剪并非真的剪除枝葉數(shù)據(jù),而是不停的進(jìn)行合并操作。因此修剪后的 有效節(jié)點過濾對于提高整棵樹的分類效率非常必要。我們在對弱勢節(jié)點的篩選 中參考了諸如父節(jié)點樣本分化概率、節(jié)點樣本數(shù)量以及節(jié)點錯誤率等指標(biāo)。在較少次數(shù)的決策樹修剪之前運(yùn)用過濾方法控制噪音的效果并不明顯,而在較 多次修剪后,由于決策樹剩余節(jié)點已經(jīng)不多且節(jié)點中數(shù)據(jù)量極大,因此不當(dāng)?shù)?過濾導(dǎo)致最終可能導(dǎo)致多空組合收益差劇烈的波動。3.3修瞄過濾后的修正決策樹模型(靜態(tài))、經(jīng)過修正后的靜態(tài)cart決策樹

13、在檢驗期中,多頭組合平均每月跑贏空頭組合的 幅度達(dá)到2.19%。修正cart靜態(tài)決策樹檢驗效果但從組合財富圖上我們發(fā)現(xiàn),多頭組合并沒有拉開和全體樣本平均收益的差異, 模型的精確度達(dá)不到要求。3.3修瞄過濾后的修正決策樹模型(動態(tài))e一;經(jīng)過修正后的動態(tài)cart決策樹在檢驗期中,多空組合平均月度收益差達(dá)到 2.98%。在2009年的10個月度檢驗樣本中,多頭組合全部取得了正超額收益。/z從財富曲線上看,多頭組合不僅大幅跑贏了空頭組合,也將顯著超越了全樣本 的平均表現(xiàn)。這表明通過修正的動態(tài)模型,顯著提高了股票分類的效率。3.3修附過濾后的修正決策樹模型(組合內(nèi)部結(jié)構(gòu))從數(shù)量上來看,多頭 空頭組合所

14、含不足全 體樣本的一半,降低 了簡單樹結(jié)構(gòu)導(dǎo)致分 類樣本過多的問題, 而多空頭組合之間的 股票數(shù)量對比近期也 逐步趨于穩(wěn)定。流通市值基本與同期 的股票數(shù)量成正比。 由于科技股通常為小 盤股,在股票數(shù)量多 而流通市值小的時候, 流動性可能存在問題。 應(yīng)從組合中適當(dāng)精選多空組合股票流通市值對比mm long:-1000-1soolong shortdiff350030002500200015001000500通性好的個股。,,數(shù)據(jù)挖掘技術(shù)與個股選擇2)主要使用的數(shù)據(jù)挖掘方法 3)cart決策樹行業(yè)選股模型 4實證結(jié)果與后續(xù)研究4實證結(jié)果與后續(xù)研究(12月多頭)r2009年12月預(yù)測多頭分類pmcp

15、eproaspemsh600060海信電器555555sh600105永鼎股份455553sh600289億陽信通254431sh600446金證股份525352sh600485中創(chuàng)信測235222sh600498烽火通信125455sh600707彩虹股份411141sh600718東軟集團(tuán)345432sz000063中興通訊155554sz000727華東科技441131sz000823超聲電子155254sz000851高鴻股份132455sz002049晶源電子355332sz002073青島軟控525224sz002134天津普林441131sz002179中航光電244432sz0

16、02236大華股份334232資料來源:朝陽永續(xù)國信證券研究所里理4實證結(jié)果與后續(xù)研究(12月空頭) 2009年12月預(yù)測空頭分類pmcpeproaspemsh600198大唐電信153451sh600203福日電子441153sh600392大工天成512224sh600478科力遠(yuǎn)322141sh600503華麗家族313111sh600570恒生電子524514sh600584長電科技552141sh600601方正科技513254sh600602廣電電子521113sh600637廣電信息541152sh600680上海普天511224sh600764中電廣通452251sh60083

17、9四川長虹512355sh600980北礦磁材431122sz000032深桑達(dá)a552151sz000050深天馬a451153sz000058深賽格531115sz000801四川湖山512251sz000925眾合機(jī)電413515sz000997新大陸123532sz002027七喜控股452351sz002057中綱天源511345sz002184海得控制514341sz002199東晶電子223222sz002222福晶科技334212sz002261拓維信息334314sz002268衛(wèi)士通522215sz002280新世紀(jì)314512資料梟源:朝陽永續(xù)國信證券研究所里理12月月底

18、檢驗月初預(yù)測效果:多頭15.759 %,行業(yè) 平均10.982%,空頭5.944%,效果顯著。2010年1月預(yù)測多頭分類(31只)sh600060海信電器sh600522中天科技sz000016深康佳a(bǔ)sz002027七喜控股sh600105永鼎股份sh600536中國軟件sz000032深桑達(dá)asz002056橫店東磁sh600203福日電子sh600563法拉電子sz000050深天馬asz002065東華軟件sh600455交大博通sh600654飛樂股份sz000058深賽格sz002093國脈科技sh600487亨通光電sh600687剛泰控股sz000063中興通訊sz002153石基信息sh600503華麗家族sh600764中電廣通sz000100tcl集團(tuán)sz002222福晶科技sh600797浙大網(wǎng)新sz000413寶石asz002232啟明信息sz000977浪潮信息sz002261拓維信息sz002025航天電器

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論