量化選股系列報(bào)告之一:構(gòu)建多因子策略的工匠精神_第1頁(yè)
量化選股系列報(bào)告之一:構(gòu)建多因子策略的工匠精神_第2頁(yè)
量化選股系列報(bào)告之一:構(gòu)建多因子策略的工匠精神_第3頁(yè)
量化選股系列報(bào)告之一:構(gòu)建多因子策略的工匠精神_第4頁(yè)
量化選股系列報(bào)告之一:構(gòu)建多因子策略的工匠精神_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、目錄 HYPERLINK l _TOC_250022 一、構(gòu)建多因子策略的工匠精神 3 HYPERLINK l _TOC_250021 (一)多因子策略的發(fā)展 3 HYPERLINK l _TOC_250020 二、原始數(shù)據(jù)處理 5 HYPERLINK l _TOC_250019 (一)財(cái)務(wù)數(shù)據(jù) 5 HYPERLINK l _TOC_250018 (二)借殼上市 6 HYPERLINK l _TOC_250017 三、股票池構(gòu)造 8 HYPERLINK l _TOC_250016 四、異常值處理 11 HYPERLINK l _TOC_250015 (一)異常值識(shí)別 11 HYPERLINK

2、l _TOC_250014 (二)異常值處理方法對(duì)比 13 HYPERLINK l _TOC_250013 五、缺失值處理 15 HYPERLINK l _TOC_250012 (一)剔除法 15 HYPERLINK l _TOC_250011 (二)填充法 15 HYPERLINK l _TOC_250010 (三)處理方法對(duì)比 16 HYPERLINK l _TOC_250009 六、因子標(biāo)準(zhǔn)化 18 HYPERLINK l _TOC_250008 七、單因子檢驗(yàn) 20 HYPERLINK l _TOC_250007 (一)多空組合 20 HYPERLINK l _TOC_250006 (

3、二)回歸法 22 HYPERLINK l _TOC_250005 (三)純因子組合 24 HYPERLINK l _TOC_250004 (四)信息系數(shù) 26 HYPERLINK l _TOC_250003 (五)因子衰減 27 HYPERLINK l _TOC_250002 八、結(jié)語(yǔ) 30 HYPERLINK l _TOC_250001 九、風(fēng)險(xiǎn)提示 30 HYPERLINK l _TOC_250000 插圖目錄 31表格目錄 31一、 構(gòu)建多因子策略的工匠精神量化投資發(fā)展到今天,大家對(duì)多因子策略的了解越來(lái)越深入,同時(shí)方法論的趨同也導(dǎo)致因子投資變得越來(lái)越同質(zhì)化。然而同樣的因子在不同的基金經(jīng)理

4、手中卻會(huì)產(chǎn)生不一樣的效果,這些差異就來(lái)自于在執(zhí)行策略時(shí)對(duì)各種細(xì)節(jié)的把控與處理。著名的對(duì)沖基金 AQR曾經(jīng)發(fā)表過(guò)一篇文章Craftsmanship Alpha,他們認(rèn)為只有專(zhuān)注于每一個(gè)細(xì)節(jié),才能把理論上的超額收益轉(zhuǎn)化為現(xiàn)實(shí)。本篇報(bào)告旨在探討在多因子投資實(shí)踐中的細(xì)節(jié)問(wèn)題,對(duì)細(xì)節(jié)處理的越細(xì)致,對(duì)因子的風(fēng)險(xiǎn)才能理解的越深入。剩下要做的就是找到真正的 Alpha,并堅(jiān)持下去。(一)多因子策略的發(fā)展現(xiàn)代金融理論將投資組合的收益分解成 Alpha 和 Beta 兩部分。其中 Alpha 被定義為 無(wú)法被風(fēng)險(xiǎn)因子解釋的超額收益,Beta 被定義為由于暴露于不同的風(fēng)險(xiǎn)因子而獲取的收益。從 CAPM 到 Fama

5、 and French 三因子模型,從APT 模型到多因子模型,學(xué)術(shù)界和投資界 都在努利構(gòu)建一個(gè)合理的資產(chǎn)定價(jià)模型來(lái)解釋資產(chǎn)收益的變動(dòng)。1、資本資產(chǎn)定價(jià)模型資本資產(chǎn)定價(jià)模型是由威廉夏普等人在資產(chǎn)組合理論的基礎(chǔ)上發(fā)展而來(lái),其經(jīng)典形式為E(Ri) rf = i ( )其中:Ri表示資產(chǎn) i 的收益率rf表示無(wú)風(fēng)險(xiǎn)收益率表示市場(chǎng)收益率i表示資產(chǎn) i 對(duì)市場(chǎng)風(fēng)險(xiǎn)的敏感度 = (, )i()CAPM 模型認(rèn)為資產(chǎn)的預(yù)期收益只與市場(chǎng)有關(guān),因此 CAPM 模型也可以看作是只有市場(chǎng)因子的多因子模型。CAPM 模型第一次將資產(chǎn)的收益分解為 Beta 與 Alpha 兩部分。其中市場(chǎng) Beta 代表所有股票都共同

6、承受的系統(tǒng)性風(fēng)險(xiǎn)。這種將資產(chǎn)收益分解為系統(tǒng)性與非系統(tǒng)性的方法為資產(chǎn)組合定量管理提供了基礎(chǔ)。2、套利定價(jià)理論CAPM 可以看作是只有市場(chǎng)因子的單因子模型,隨著研究的深入,CAPM 作為定價(jià)模型的不足也開(kāi)始顯現(xiàn),學(xué)術(shù)界發(fā)現(xiàn)了其它的顯著影響資產(chǎn)收益率的因素,例如 Fama and French 三因子模型中的市值、賬面市值比等因子。史蒂夫羅斯在 1976 提出APT 模型,用多個(gè)因素來(lái)解釋資產(chǎn)的收益。假設(shè)市場(chǎng)為有效市場(chǎng),任何偏離均衡價(jià)格的狀態(tài)都會(huì)存在套利空間,市場(chǎng)上的套利者的套利行為會(huì)使價(jià)格回到均衡狀態(tài)。APT 的一般表達(dá)式為:ri = + =1其中:表示股票 i 在因子 j 上的因子暴露表示因子

7、j 的因子收益表示股票 i 的殘差收益率現(xiàn)代多因子模型則是從 APT 模型演化而來(lái),投資界通常將影響股票收益率的風(fēng)險(xiǎn)分解為市場(chǎng)、行業(yè)、風(fēng)格三種風(fēng)險(xiǎn)。隨著各種風(fēng)險(xiǎn)因子不斷的被挖掘出來(lái),多因子模型對(duì)資產(chǎn)收益的解釋度也越來(lái)越強(qiáng),更多的收益被劃分到Beta 部分。圖 1:CAPM 與多因子模型對(duì)比資料來(lái)源:民生證券研究院二、 原始數(shù)據(jù)處理原始數(shù)據(jù)的選取是多因子模型的基礎(chǔ),只有高質(zhì)量的數(shù)據(jù)才能保證后續(xù)研究的準(zhǔn)確。 雖然 A 股成立至今已經(jīng)有 30 年之久,但是真正適合做研究的數(shù)據(jù)要從 2005 年股權(quán)分置 改革之后開(kāi)始算起,有效數(shù)據(jù)僅 15 年,每一條數(shù)據(jù)對(duì)于研究來(lái)說(shuō)都極為珍貴。研究中遇 到的數(shù)據(jù)問(wèn)題主

8、要有財(cái)務(wù)數(shù)據(jù)的滯后性與真實(shí)性問(wèn)題,資產(chǎn)重組導(dǎo)致前后數(shù)據(jù)不可比問(wèn)題,行業(yè)劃分覆蓋不全面等問(wèn)題。(一)財(cái)務(wù)數(shù)據(jù)1、數(shù)據(jù)時(shí)效性問(wèn)題證監(jiān)會(huì)規(guī)定了上市公司報(bào)告的發(fā)布時(shí)間段,因此企業(yè)會(huì)在規(guī)定時(shí)間段的不同時(shí)點(diǎn)發(fā)布財(cái)報(bào),考慮到數(shù)據(jù)的時(shí)效性,我們應(yīng)該用各家公司發(fā)布財(cái)報(bào)的日期向后填充數(shù)據(jù),保證每一個(gè)時(shí)間截面上使用的都是各家公司能得到的最新數(shù)據(jù)。表 1:上市公司財(cái)務(wù)報(bào)告公告時(shí)間規(guī)定發(fā)布時(shí)間最遲發(fā)布時(shí)間一季報(bào)每個(gè)會(huì)計(jì)年度第 3 個(gè)月結(jié)束后的 1 個(gè)月內(nèi)4 月 30 日半年報(bào)每個(gè)會(huì)計(jì)年度的上半年結(jié)束之日起 2 個(gè)月內(nèi)8 月 31 日三季報(bào)每個(gè)會(huì)計(jì)年度第 9 個(gè)月結(jié)束后的 1 個(gè)月內(nèi)10 月 31 日年報(bào)每個(gè)會(huì)計(jì)年度結(jié)束

9、之日起 4 個(gè)月內(nèi)次年 4 月 30 日資料來(lái)源:上市公司信息披露管理辦法,民生證券研究院2、數(shù)據(jù)可比性問(wèn)題多因子模型研究的是個(gè)股收益率均值在截面上的差異。由于每家公司財(cái)務(wù)報(bào)告發(fā)布時(shí)間不同,這就導(dǎo)致了在同一時(shí)間截面上獲取到的數(shù)據(jù)很可能不具有可比性。例如 4 月 1日,A 公司發(fā)布了上一年度的年度報(bào)告,B 公司發(fā)布了本年度的一季報(bào)。本著及時(shí)性的原則,我們應(yīng)該選取能得到的最新的數(shù)據(jù)。但是 A 公司的年報(bào)數(shù)據(jù)與 B 公司的一季報(bào)數(shù)據(jù)是否具有可比性是我們需要討論的問(wèn)題。我們分別用兩種方法進(jìn)行回測(cè),分別考慮了可比性與時(shí)效性。方法一:考慮可比性,使用最遲發(fā)布時(shí)間作為財(cái)報(bào)數(shù)據(jù)的更新時(shí)間,這樣可以保證數(shù)據(jù)在截

10、面上具有可比性,但是會(huì)導(dǎo)致數(shù)據(jù)滯后。方法二:考慮時(shí)效性,使用各家公司發(fā)布財(cái)報(bào)的真實(shí)日期作為數(shù)據(jù)更新時(shí)間,這樣可以保證每個(gè)截面上都是最新的數(shù)據(jù),但是同一截面上不同公司之間的數(shù)據(jù)可能不具有可比性。圖 2:兩種方法回測(cè)結(jié)果對(duì)比方法二方法一1.451.41.351.31.251.21.151.11.0510.95資料來(lái)源:Wind,民生證券研究院回測(cè)結(jié)果可以看到,使用最新的數(shù)據(jù)進(jìn)行回測(cè)能得到更好的結(jié)果。從投資邏輯上來(lái)說(shuō),基本面數(shù)據(jù)公布之后,信息就開(kāi)始逐漸反應(yīng)到股價(jià)上,因此在截面上先公布財(cái)報(bào)數(shù)據(jù)的公司股價(jià)已經(jīng)開(kāi)始變動(dòng)。表現(xiàn)出來(lái)的則是不同季度報(bào)告的數(shù)據(jù)依然可以解釋個(gè)股收益率均值在截面上的差異。在后續(xù)的研究

11、中,我們統(tǒng)一采用后一種方法。(二)借殼上市為了維護(hù)中小投資者的合法權(quán)益,促進(jìn)資本市場(chǎng)健康發(fā)展,因此 A 股市場(chǎng)中對(duì)于上市公司的門(mén)檻設(shè)置比較嚴(yán)格,而且 IPO 的監(jiān)管也比較靈活。為了繞開(kāi) IPO,有些未上市的公司通過(guò)把資產(chǎn)注入市值較低的公司,獲得公司的控股權(quán),利用其上市公司的地位完成重組上市,在國(guó)內(nèi)也被稱(chēng)作“借殼上市”。而這類(lèi)樣本由于其本質(zhì)已經(jīng)發(fā)生根本性變化,如果不加以處理,會(huì)對(duì)研究結(jié)果造成干擾。根據(jù)歷史數(shù)據(jù)統(tǒng)計(jì),一個(gè)完整的借殼過(guò)程中,被借殼公司首先會(huì)發(fā)布重大事項(xiàng)公告,隨即停牌三個(gè)月左右,停牌期間會(huì)陸續(xù)發(fā)布資產(chǎn)重組相關(guān)進(jìn)展,復(fù)牌時(shí)會(huì)發(fā)布資產(chǎn)重組結(jié)果及細(xì)節(jié)。下圖為三六零借殼江南嘉捷流程圖。圖 3:

12、借殼上市流程圖資料來(lái)源:Wind,民生證券研究院1、股價(jià)波動(dòng)異常對(duì)于剛剛復(fù)牌的公司,股價(jià)會(huì)發(fā)生劇烈波動(dòng)。資產(chǎn)重組可能成功也可能失敗,資產(chǎn)重組成功對(duì)于被借殼公司來(lái)說(shuō)是利好消息,因此在復(fù)牌后股票通常會(huì)上漲。相反,對(duì)于資產(chǎn)重組失敗的公司可能會(huì)經(jīng)歷大跌。值得注意的是,雖然 Wind 統(tǒng)計(jì)了部分股票借殼上市的日期,但是資產(chǎn)重組是一個(gè)復(fù)雜的過(guò)程,公告披露的借殼上市日期通常滯后于真實(shí)的資產(chǎn)重組日期。而股價(jià)的劇烈波動(dòng)一般在重組信息流出之后就開(kāi)始了,在公布重組完成時(shí)市場(chǎng)已經(jīng)穩(wěn)定。我們搜集了最近 3 年借殼上市的案例,分別統(tǒng)計(jì)了成功與失敗案例在復(fù)牌前后的平均表現(xiàn)。圖 4:近 3 年借殼上市失敗案例復(fù)牌后平均表現(xiàn)圖

13、 5:近 3 年借殼上市成功案例復(fù)牌后平均表現(xiàn)資料來(lái)源:Wind,民生證券研究院資料來(lái)源:Wind,民生證券研究院2、財(cái)務(wù)數(shù)據(jù)失真本質(zhì)上來(lái)講,借殼上市相當(dāng)于兩家公司發(fā)生了置換,主營(yíng)業(yè)務(wù)、經(jīng)營(yíng)邏輯等已經(jīng)變化。因此財(cái)務(wù)數(shù)據(jù)在時(shí)間序列上已經(jīng)不具備可比性。被借殼公司通常表現(xiàn)為利潤(rùn)低,基本面較差,因此如果不加以處理,在計(jì)算因子時(shí)容易出現(xiàn)極端值。3、借殼上市處理通過(guò)前面的分析我們可以發(fā)現(xiàn),借殼上市之前與之后的數(shù)據(jù)均含有較多的噪聲,因此我們需要同時(shí)處理借殼公司與被借殼公司。對(duì)于借殼上市的公司,我們視為納入新上市股票,具體方法為使用借殼上市日期對(duì)上市日期進(jìn)行更新。這樣在構(gòu)建股票池時(shí),該股票會(huì)被當(dāng)作次新股而剔除

14、。有部分股票并沒(méi)有公布官方的借殼上市日期,因此需要根據(jù)公告進(jìn)行手動(dòng)更新。對(duì)于被借殼公司,我們也要盡可能的將其從股票池中剔除。由于被借殼公司通常市值較小,市場(chǎng)表現(xiàn)低迷,因此我們重新構(gòu)造股票池流動(dòng)性 1500,具體構(gòu)造方法在下一章節(jié)詳細(xì)闡述。三、 股票池構(gòu)造多因子選股的第一步是選擇合適的股票池,而股票池的選取需要根據(jù)策略的需求進(jìn)行相應(yīng)的調(diào)整。因此在單因子測(cè)試的過(guò)程中,也需要將因子在不同的股票池中進(jìn)行測(cè)試。目前業(yè)內(nèi)在測(cè)試因子時(shí)股票池大多選用滬深 300、中證 500 以及剔除了 ST、次新股等的全樣本股票池。1、指數(shù)成分股將指數(shù)成分股作為股票池是一個(gè)不錯(cuò)的選擇,首先指數(shù)成分股已經(jīng)是經(jīng)過(guò)篩選后的優(yōu)質(zhì)股

15、票,并且不同的指數(shù)分別代表了不同的風(fēng)格,可以更好的觀測(cè)因子在不同風(fēng)格中的表現(xiàn)。其次,指數(shù)增強(qiáng)策略和對(duì)沖策略的股票池是和指數(shù)成分股基本一致,因子在指數(shù)成分股中表現(xiàn)優(yōu)異則更為重要。滬深 300 指數(shù)構(gòu)造方式:計(jì)算樣本空間內(nèi)股票最近一年的 A 股日均成交金額與 A 股日均總市值;對(duì)樣本空間股票在最近一年的 A 股日均成交金額由高到低排名,剔除排名后 50%;對(duì)剩余股票按照最近一年 A 股日均總市值由高到低排名,選取前 300 名作為滬深 300 指數(shù)樣本。中證 500 指數(shù)構(gòu)造方式:在樣本空間中剔除滬深 300 指數(shù)樣本股以及最近一年日均總市值排名前 300 名的股票;將剩余股票按照最近一年日均成交

16、金額由高到低排名,剔除排名后 20%的股票;將剩余股票按照最近一年日均總市值由高到低進(jìn)行排名,選取排名在前 500 名的股票作為中證 500 指數(shù)樣本。圖 6:滬深 300 指數(shù)成分股市值分布對(duì)比圖 7:滬深 300 成分股與全市場(chǎng)股票行業(yè)分布對(duì)比0.140.120.10.080.060.040.02交通運(yùn)輸休閑服務(wù)傳媒公用事業(yè)農(nóng)林牧漁化工醫(yī)藥生物商業(yè)貿(mào)易國(guó)防軍工家用電器建筑材料建筑裝飾房地產(chǎn) 有色金屬機(jī)械設(shè)備汽車(chē)電子電氣設(shè)備紡織服裝綜合計(jì)算機(jī) 輕工制造通信采掘鋼鐵銀行非銀金融食品飲料0滬深300全市場(chǎng)資料來(lái)源:Wind,民生證券研究院資料來(lái)源:Wind,民生證券研究院圖 8:中證 500 指

17、數(shù)成分股市值分布對(duì)比圖 9:滬深 300 與中證 500 成分股行業(yè)分布對(duì)比0.140.120.10.080.060.040.02交通運(yùn)輸休閑服務(wù)傳媒公用事業(yè)農(nóng)林牧漁化工醫(yī)藥生物商業(yè)貿(mào)易國(guó)防軍工家用電器建筑材料建筑裝飾房地產(chǎn) 有色金屬機(jī)械設(shè)備汽車(chē)電子電氣設(shè)備紡織服裝綜合計(jì)算機(jī)輕工制造通信采掘鋼鐵銀行非銀金融食品飲料0滬深300中證500資料來(lái)源:Wind,民生證券研究院資料來(lái)源:Wind,民生證券研究院市值分布上,滬深 300 選取的是市值大、流動(dòng)性好的 300 只股票,綜合反應(yīng) A 股市場(chǎng)上大市值股票的整體表現(xiàn)。中證 500 選取的是剔除了滬深 300 成分股之后,總市值排名靠前的 500

18、只股票,反應(yīng)的是市場(chǎng)里中小市值公司股票的表現(xiàn)。行業(yè)分布上,滬深 300相比于中證 500 在銀行和非銀金融上暴露更大,其它行業(yè)占比相差不大。2、流動(dòng)性 1500除了指數(shù)增強(qiáng)策略和對(duì)沖策略以外,對(duì)于 Alpha 策略,研究者通常將因子在全樣本中測(cè)試,雖然剔除了 ST 及次新股等,但是如果測(cè)試的因子收益來(lái)源于流動(dòng)性差的股票,那么回測(cè)結(jié)果對(duì)投資實(shí)踐沒(méi)有意義。除此以外,根據(jù)業(yè)界的總結(jié)以及學(xué)術(shù)界的研究發(fā)現(xiàn),市值較低,流動(dòng)性較差的公司具有潛在被借殼上市的可能。通過(guò)上面的研究可以看到,被借殼上市的公司股價(jià)會(huì)發(fā)生異常波動(dòng)?;诖耍紤]根據(jù)股票的流動(dòng)性大小構(gòu)造股票池來(lái)替代全樣本股票池。我們參考了中證指數(shù)的構(gòu)造方

19、式。構(gòu)造的具體方式為:每個(gè)交易日首先剔除 ST、次新股、停牌股,然后計(jì)算每只股票的交易金額歷史 20 日平均,最后選取排名前 1500 只股票作為股票池,命名為流動(dòng)性 1500。圖 10:流動(dòng)性 1500 與中證 500 市值分布對(duì)比資料來(lái)源:Wind,民生證券研究院圖 11:流動(dòng)性 1500 與中證 500 行業(yè)分布對(duì)比0.120.10.080.060.040.020中證500流動(dòng)性1500資料來(lái)源:Wind,民生證券研究院統(tǒng)計(jì)流動(dòng)性 1500 的行業(yè)分布與市值分布可以發(fā)現(xiàn),新構(gòu)造的流動(dòng)性 1500 與中證 500成分股在市值分布與行業(yè)分布上都非常相似。除此之外,股票池的成分不應(yīng)頻繁變動(dòng),由

20、于我們是每日計(jì)算交易金額來(lái)構(gòu)造流動(dòng)性 1500,因此我們還對(duì)其穩(wěn)定性進(jìn)行了檢驗(yàn)。下圖是滬深 300、中證 500 以及流動(dòng)性 1500 股票池在時(shí)間序列上的變化情況。滬深300 與中證 500 的成分調(diào)整均采用定期調(diào)整與臨時(shí)調(diào)整結(jié)合的方法,固定每半年調(diào)整一次,比例不超過(guò) 10%;遇到特殊情況時(shí)進(jìn)行臨時(shí)調(diào)整。流動(dòng)性 1500 為日度變化,變動(dòng)比例在 2%以下,相比之下成分股變動(dòng)不大。圖 12:滬深 300、中證 500、流動(dòng)性 1500 穩(wěn)定性對(duì)比12.00%10.00%8.00%6.00%4.00%2.00%0.00%中證500滬深300流動(dòng)性1500資料來(lái)源:Wind,民生證券研究院四、 異

21、常值處理數(shù)據(jù)預(yù)處理的好壞很大程度上決定了模型分析結(jié)果的可靠與否。異常值處理是因子處理過(guò)程中微小但又不可或缺的一個(gè)環(huán)節(jié)。異常值是指樣本中的個(gè)別值,其數(shù)值明顯偏離所屬樣本的其他觀測(cè)值。我們?cè)诖酥笆占艘蜃优c股票收益情況,以試圖從數(shù)據(jù)中探索兩者之間存在的關(guān)系,從而構(gòu)建收益模型指導(dǎo)后續(xù)選股。而異常值的存在很有可能改變回歸方程的擬合結(jié)果,據(jù)此得到的結(jié)果不合理。因此,使用正確的數(shù)據(jù)對(duì)于金融建模而言是最低限度的要求。由于缺失值處理與數(shù)據(jù)標(biāo)準(zhǔn)化在方法上都使用了截面均值,異常值的處理會(huì)影響到后續(xù)缺失值的填充以及數(shù)據(jù)標(biāo)準(zhǔn)化,在處理順序上應(yīng)先進(jìn)行異常值處理。(一)異常值識(shí)別我們整理了學(xué)術(shù)界和投資界對(duì)于異常值的定義

22、,異常值的定義多種多樣,并且根據(jù)待處理數(shù)據(jù)的差異可以選擇不同的處理方式。本小節(jié)主要總結(jié)了 3、固定比率法、MAD法、Beat G. Briner 方法、箱線圖方法以及偏度調(diào)整后的箱線圖方法六種處理方法,以及定性的對(duì)幾種方法的優(yōu)缺點(diǎn)進(jìn)行評(píng)價(jià)。1、均值標(biāo)準(zhǔn)差修正法(3)在統(tǒng)計(jì)學(xué)上,由于在正態(tài)分布下正負(fù) 3 倍標(biāo)準(zhǔn)差以外的數(shù)值發(fā)生的概率極小,可以視作小概率事件,小概率事件幾乎不可能會(huì)發(fā)生,因此這一部分值可以被視作異常值,這就是 3法的理論基礎(chǔ)。因此該方法定義的異常值為:x ( , 3 * ) ( 3 * , )該方法實(shí)用性強(qiáng),可以識(shí)別出較大的異常值,邏輯容易理解。但是缺點(diǎn)也顯而易見(jiàn),首先是基于異常值

23、數(shù)據(jù)計(jì)算的均值和方差,本身就造成的不準(zhǔn)確,且可能會(huì)使得被放大,導(dǎo)致上下界過(guò)寬,無(wú)法篩選部分異常值。其次是基于數(shù)據(jù)集近似服從正態(tài)分布的前提,不適用于非正態(tài)的數(shù)據(jù)集。2、Beat G. Briner 方法此方法是由Beat G. Briner 于 2009 年提出的一種異常值處理方法,其對(duì)異常值進(jìn)行如下定義:ix ( std ) ( , 3) (3, )tx ( std ) x i其中為因子數(shù)據(jù)的市值加權(quán),為簡(jiǎn)單平均標(biāo)準(zhǔn)差。這種識(shí)別異常值的方法與 3法則類(lèi)似,但該方法對(duì)識(shí)別出的異常因子數(shù)據(jù)的處理方法有所不同,將在后面提到。3、MAD 法慮到前兩種方法判斷異常值時(shí)均值和方差的計(jì)算容易受到異常值的影響

24、,使得識(shí)別異常值不準(zhǔn)確,進(jìn)而考慮使用中位數(shù)對(duì)均值進(jìn)行替代、絕對(duì)值的中位數(shù)對(duì)標(biāo)準(zhǔn)差進(jìn)行替代,這種方法對(duì) 3法進(jìn)行了修正,是一種更穩(wěn)健的異常值識(shí)別方法。該方法定義的異常值為:x ( , m edian n * M A D ) ( m edian n * M A D , ) = 所有數(shù)值的中位數(shù) = 所有數(shù)值的中位數(shù)4、固定比率修正法該方法是根據(jù)一定的比例對(duì)異常值識(shí)別,即認(rèn)為一定百分比的數(shù)為異常值。例如,在研究中通常認(rèn)為所有數(shù)據(jù)中有 4%的值為異常值,那么通過(guò)對(duì)數(shù)據(jù)從小到大排序后,低于前 2%的數(shù)據(jù)以及高于 98%的數(shù)據(jù)都被稱(chēng)為異常值。因此該方法定義的異常值為:298x ( , P ) ( P ,

25、)其中P2,P98分別代表排序最接近 2%和 98%的值。該方法處理方便,適用于兩端都存在異常值的情況。但是僅通過(guò)比例來(lái)篩選異常值,而不以異常偏離程度篩選異常值會(huì)導(dǎo)致異常值識(shí)別不準(zhǔn)確。而且對(duì)于本身無(wú)異常值的數(shù)據(jù)以及分布呈偏態(tài)的數(shù)據(jù)不適用。5、箱型圖法箱型圖判斷異常值也是統(tǒng)計(jì)中常用的方法,其主要通過(guò)利用上下四分位數(shù)構(gòu)造了上下界,并據(jù)此定義異常值,也是一個(gè)較為穩(wěn)健的方法。該方法定義的異常值為:x ( , L n * IQ R ) (U n * IQ R , )IQ R U L = 上四分位數(shù), = 下四分位數(shù)6、偏度調(diào)整后的箱型圖法由于上面提到的箱線圖法不適用于分布呈偏態(tài)的因子數(shù)據(jù),假設(shè)因子值呈現(xiàn)

26、明顯的左偏,而這些因子值基于一定的經(jīng)濟(jì)背景是合理的,使用箱型圖法會(huì)將左邊過(guò)多的數(shù)據(jù)識(shí)別為異常值。因此 2007 年Hubert & Vandervieren 對(duì)原有箱線圖法進(jìn)行了偏度調(diào)整。調(diào)整后的箱線圖法當(dāng)數(shù)據(jù)左偏時(shí)會(huì)降低下界,數(shù)據(jù)右偏時(shí)會(huì)提高上界。該方法定義的異常值為:x ( , L ) (U , )1 1.5 ( 3.5 ) , 0 = 1 1.5 ( 4 ) , 03 + 1.5 ( 4 ) , 0 = 1 + 1.5 ( 3.5 ) , 0其中對(duì)偏度的定義采用 2002 年Brys 提出的 MedCouple 方法: = (, = 1,2. . . ) = ( ) ( ) , & )

27、該方法對(duì)Boxplot 方法進(jìn)行了偏度調(diào)整,能夠?qū)ζ珣B(tài)數(shù)據(jù)更好的識(shí)別異常值。(二)異常值處理方法對(duì)比識(shí)別出因子異常值之后,進(jìn)一步就需要對(duì)異常值進(jìn)行處理。不同的處理方式也可能會(huì)對(duì)最終的擬合結(jié)果產(chǎn)生影響。我們從 Wind 數(shù)據(jù)庫(kù)提取了PE_TTM、PB_LF、PS_TTM、 PCF_OCF_TTM、EV2_TO_EBIDA、PCT_CHG_5D、PCF_CHG_1M、PCF_CHG_3M、FREE_TURN_N、BIAS 等財(cái)務(wù)類(lèi)因子和技術(shù)類(lèi)因子來(lái)進(jìn)行異常值分析。從散點(diǎn)圖和分布圖可以看出來(lái)財(cái)務(wù)因子存在較極端的異常值,且部分因子呈現(xiàn)偏態(tài)分布。除此之外,我們還在財(cái)務(wù)因子與技術(shù)因子中各選取了一個(gè)進(jìn)行對(duì)比

28、,其中財(cái)務(wù)因子選取了市銷(xiāo)率(PS_TTM),技術(shù)類(lèi)因子選取了換手率(FREE_TURN_N)。圖 13:因子值散點(diǎn)圖資料來(lái)源:Wind,民生證券研究院圖 14:市銷(xiāo)率(PS_TTM)資料來(lái)源:Wind,民生證券研究院圖 15:換手率(FREE_TURN_N)資料來(lái)源:Wind,民生證券研究院對(duì)比結(jié)果可以看出,當(dāng)存在很異常的數(shù)據(jù)以及非正態(tài)分布的情況下(如PS_TTM 因子),采用一次 3法則和Beat G. Briner 方法處理效果并不理想,會(huì)比較明顯地受到極端值的影響。針對(duì)有偏的因子(如FREE_TURN_N 因子)而言,箱型圖法和 MAD 法處理后都會(huì)將某一端的大量數(shù)據(jù)定義為異常值,因此存

29、在某一端大量因子值堆積在臨界值的情況。使用偏度調(diào)整后箱型圖法后,因子堆積的情況減少了許多。通過(guò)觀察以上六種方法處理后的因子分布值,MAD、百分位法、箱型圖法、偏度調(diào) 整的箱型圖法看起來(lái)都能夠識(shí)別出異常值,但也應(yīng)該保證偵測(cè)到的異常數(shù)值比例不能過(guò)高,否則剔除和修改太多數(shù)據(jù)可能會(huì)使得數(shù)據(jù)失真,不利于后續(xù)統(tǒng)計(jì)分析,因此計(jì)算了不同方 法偵測(cè)的異常值比例。表 2:異常值識(shí)別比例3百分比法MADBGB偏度調(diào)整的BoxplotBoxplotPE_TTM1.039%3.984%24.77%1.039%30.54%19.11%PB_LF0.462%3.984%14.55%0.462%10.68%4.561%PS_

30、TTM0.058%3.984%15.94%0.058%8.776%2.136%PCF_OCF_TTM0.115%3.984%28.35%0.115%26.67%20.15%EV2_TO_EBITDA0.173%3.984%18.88%0.173%14.67%10.39%PCT_CHG_5D1.905%3.984%14.09%1.905%14.67%7.448%PCT_CHG_1M2.136%3.984%13.74%2.136%15.93%6.928%PCT_CHG_3M1.674%3.984%12.30%1.674%14.15%4.965%FREE_TURN_N1.905%3.984%14.5

31、5%1.905%10.45%3.984%BIAS1.155%3.984%8.603%1.154%11.20%2.945%資料來(lái)源:Wind,民生證券研究院相對(duì)而言,MAD 法識(shí)別出的異常值比例過(guò)高,可能將正常因子值也判斷為了異常值,而經(jīng)過(guò)偏度調(diào)整后的箱型圖法識(shí)別出的異常值比例較為合理,可以作為一種參考的異常值處理方法。在實(shí)際使用過(guò)程中,應(yīng)該根據(jù)具體情況來(lái)選取合適的方法。五、 缺失值處理與異常值處理類(lèi)似,缺失值處理同樣是數(shù)據(jù)預(yù)處理的重要環(huán)節(jié)。含較多缺失值的因子 通常被認(rèn)為是一個(gè)質(zhì)量不佳的因子數(shù)據(jù)集,主要是因?yàn)槿笔е禃?huì)導(dǎo)致丟失部分有用的信息,而且會(huì)使得系統(tǒng)的不確定性更加顯著。因此對(duì)缺失值采用合理的

32、處理方法,提升因子數(shù)據(jù) 質(zhì)量為后續(xù)步驟打下堅(jiān)實(shí)的基礎(chǔ)。(一)剔除法將存在遺漏數(shù)據(jù)的元素進(jìn)行刪除,得到一個(gè)完備的信息表,這是最為簡(jiǎn)單的一種處理方法。這種方法適用于有大量缺失值的因子,或者存在大量缺失值的股票對(duì)象,但前提是這類(lèi)因子或股票對(duì)象相對(duì)所有的數(shù)據(jù)量而言是很小的,否則會(huì)因?yàn)閬G掉這些信息影響到結(jié)果的正確性。(二)填充法填充法是通過(guò)選擇一些合適的值取填充空值,而找到合適的值就是決定填充優(yōu)劣的關(guān)鍵。缺失值填充方法也多種多樣,如人工填寫(xiě)、特殊值填充、平均值填充等,其中均值填充較為常見(jiàn)。不同公司類(lèi)型(如大市值公司與小市值公司、屬于銀行業(yè)與屬于計(jì)算機(jī)行業(yè))不同,因子平均水平也有差異,因此嘗試了行業(yè)均值填

33、充、市值均值填充兩種方法,這兩種方法背后的邏輯類(lèi)似于行業(yè)研究中的“可比公司法”,認(rèn)為相似的股票具有相近的因子值,因此先通過(guò)一定標(biāo)準(zhǔn)將股票分類(lèi),找到與存在缺失值的股票特征最相似的股票,并用他們的因子均值進(jìn)行填充替代。1、市場(chǎng)均值填充市場(chǎng)均值填充法是采用整個(gè)市場(chǎng)所有股票的因子均值填充對(duì)應(yīng)因子缺失值,這是最為簡(jiǎn)單方便的方法,但未考慮因子在不同行業(yè)和市值下的差異。2、行業(yè)均值填充行業(yè)均值填充是采用中信一級(jí)行業(yè)劃分標(biāo)準(zhǔn)對(duì)全市場(chǎng)股票進(jìn)行分類(lèi)后,用行業(yè)股票的因子均值填充對(duì)應(yīng)因子缺失值。該方法適用于在不同行業(yè)中數(shù)值差異較大的因子。3、市值均值填充市值均值填充是首先通過(guò)市值大小對(duì)全市場(chǎng)股票進(jìn)行分類(lèi),并用不同市值

34、分類(lèi)下的因子均值填充對(duì)應(yīng)因子缺失值。該方法適用于在不同市值下數(shù)值差異較大的因子。4、算法填充算法填充是數(shù)據(jù)挖掘中常用的缺失值處理方法,首先將市場(chǎng)中股票按照數(shù)據(jù)質(zhì)量分為兩類(lèi),一類(lèi)為數(shù)據(jù)缺失股票,一類(lèi)為數(shù)據(jù)完整度高的股票。我們認(rèn)為具有相似特征的股票往往具有相似的因子值,因此通過(guò)對(duì)數(shù)據(jù)完整度高的股票因子關(guān)系進(jìn)行探索,據(jù)此預(yù)估因子值填充缺失因子數(shù)據(jù)。其實(shí)行業(yè)均值填充和市值填充在分組足夠細(xì)的時(shí)候是該方法的一個(gè)應(yīng)用,因?yàn)榍皟煞N方法認(rèn)為待填充因子與市值因子和行業(yè)間是存在相關(guān)關(guān)系的。(三)處理方法對(duì)比本節(jié)通過(guò)對(duì)數(shù)據(jù)進(jìn)行人為的缺省處理,隨機(jī)產(chǎn)生 5%的缺失值,并使用上述提到的多種方法進(jìn)行填充,觀察實(shí)際值與觀測(cè)值

35、之間的相關(guān)關(guān)系,如果某種方法相關(guān)關(guān)系強(qiáng)則認(rèn)為該方法填充比較好。本部分依舊選擇 PE_TTM、PB_LF、PS_TTM、PCF_OCF_TTM、EV2_TO_EBIDA、 PCT_CHG_5D、PCF_CHG_1M、PCF_CHG_3M、FREE_TURN_N、BIAS 等 10 個(gè)財(cái)務(wù)類(lèi)因子和技術(shù)類(lèi)因子,并剔除了銀行股和非銀行金融類(lèi)股票。使用偏度調(diào)整后的箱型圖修正法對(duì)異常值進(jìn)行處理后,對(duì)每一個(gè)因子隨機(jī)生成 5%的缺失值,分別使用市場(chǎng)均值填充、行業(yè)均值填充、市值均值填充三種方法填充。圖 16:FREE_TRUN_N 填充結(jié)果對(duì)比資料來(lái)源:Wind,民生證券研究院圖 17:PS_TTM 因子填充結(jié)

36、果對(duì)比資料來(lái)源:Wind,民生證券研究院我們通過(guò) 10 次隨機(jī)產(chǎn)生缺失值并采用三種方法填充,計(jì)算得到每種方法的相關(guān)系數(shù)均值。表 3:因子實(shí)際值與填充值相關(guān)系數(shù)表市場(chǎng)均值填充行業(yè)均值填充市值均值填充PE_TTM00.112270.03930PB_LF00.0157330.14734PS_TTM00.112820.60041PCF_OCF_TTM00.02431-0.22499EV2_TO_EBITDA00.047020.16675PCT_CHG_5D00.202710.17609PCT_CHG_1M00.00403-0.12276PCT_CHG_3M0-0.047370.14862FREE_TU

37、RN_N0-0.120760.22195BIAS00.180680.24840資料來(lái)源:Wind,民生證券研究院針對(duì)不同因子而言,不同填充方法效果各異。如對(duì)市銷(xiāo)率因子而言,市值均值填充法明顯優(yōu)于行業(yè)均值填充法,而對(duì)于市盈率因子來(lái)說(shuō),行業(yè)均值填充效果更優(yōu)。但總體而言,行業(yè)均值和市值均值填充都比直接采用市場(chǎng)均值填充更好。在實(shí)際投資中,我們應(yīng)該選擇適當(dāng)?shù)姆椒ㄟM(jìn)行處理。六、 因子標(biāo)準(zhǔn)化多因子模型構(gòu)建并回歸完成后,需要對(duì)回歸后的參數(shù)和模型結(jié)果做進(jìn)一步檢驗(yàn),而這些檢驗(yàn)所需要的統(tǒng)計(jì)量正是基于正態(tài)分布假設(shè)的,因此需要解釋變量滿足正態(tài)分布。經(jīng)過(guò)異常值處理和缺失值處理后,大部分因子仍然呈現(xiàn)偏態(tài)或尖峰厚尾的非正態(tài)的

38、分布,故需要在此基礎(chǔ)上進(jìn)一步做標(biāo)準(zhǔn)化處理。目前業(yè)內(nèi)采用的標(biāo)準(zhǔn)化方法有兩種,z-score 標(biāo)準(zhǔn)化與排名標(biāo)準(zhǔn)化。其中 z-score 標(biāo)準(zhǔn)化是將數(shù)據(jù)標(biāo)準(zhǔn)化為標(biāo)準(zhǔn)正態(tài)分布,一定程度的保留了因子截面信息,但是容易受到極端值的影響。排名標(biāo)準(zhǔn)化將數(shù)據(jù)標(biāo)準(zhǔn)化成均勻分布,完全忽略了因子截面的距離信息,但是可以避免極端值的影響。1、考慮截面差異構(gòu)建回歸模型探索因子對(duì)收益率的影響情況時(shí),因子之間的大小差異也蘊(yùn)含了一定信息,在進(jìn)行標(biāo)準(zhǔn)化時(shí)為了保存因子大小差異的信息,不適合采用排名法或排名正態(tài)標(biāo)準(zhǔn)化法,這種方法雖然能夠?qū)⒁蜃愚D(zhuǎn)換為嚴(yán)格的正態(tài)分布,但是其忽略了因子之間絕對(duì)的真實(shí)差異。z-score 方法:該方法是用于

39、標(biāo)準(zhǔn)化最常用的方法,該方法將原數(shù)據(jù)轉(zhuǎn)化為均值為 0,方差為 1 的分布。具體公式為:XiZX i其中樣本均值有不同的計(jì)算方法,可以使用普通的等權(quán)重加權(quán),也可以使用根號(hào)市值加權(quán)。如果是后者,那么就被稱(chēng)為加權(quán)標(biāo)準(zhǔn)正態(tài)法,該方法可以把市值的影響在一定程度上進(jìn)行剔除,但這會(huì)讓因子截面均值不為 0,使得后續(xù)股票組合權(quán)重優(yōu)化的風(fēng)險(xiǎn)敞口在設(shè)置時(shí)會(huì)有一定偏差,因此大多采取簡(jiǎn)單的標(biāo)準(zhǔn)正態(tài)法。下面展示了PS_TTM 和 FREE_TURN_N 兩個(gè)因子經(jīng)過(guò)簡(jiǎn)單標(biāo)準(zhǔn)正態(tài)法處理后的結(jié)果,可見(jiàn)該方法處理效果有限,轉(zhuǎn)換后的分布仍然存在尖峰厚尾的特征,但其保留了因子之間 的真實(shí)差異信息。圖 18:PS_TTM 因子 z-s

40、core 標(biāo)準(zhǔn)化對(duì)比圖 19:FREE_TURN_N 因子 z-score 標(biāo)準(zhǔn)化對(duì)比資料來(lái)源:Wind,民生證券研究院資料來(lái)源:Wind,民生證券研究院Box-Cox 方法:使用該方法進(jìn)行標(biāo)準(zhǔn)化比較適合偏度較大的因子變量。具體變換的定義如下: = ( 1)/, 0( 1 + ), = 0其中根據(jù)原始因子分布偏度情況不同取不同的值,一般情況下當(dāng)數(shù)據(jù)左偏時(shí)取 0,數(shù)據(jù)右偏時(shí)大于 0。其基本思想在于將原始因子分布中方差較大,即長(zhǎng)尾部分的數(shù)據(jù)進(jìn) 行壓縮,使得變換后這段區(qū)域的方差變?。环粗畬?duì)原始因子分布中方差較小的部分?jǐn)?shù)據(jù)進(jìn) 行拉伸,使這段區(qū)域的方差加大。進(jìn)而將呈現(xiàn)不同分布狀態(tài)的因子數(shù)據(jù)轉(zhuǎn)換為正態(tài)分布

41、。下面展示了 PS_TTM 和 FREE_TURN_N 兩個(gè)因子經(jīng)過(guò) Box-Cox 方法處理后的結(jié)果,可見(jiàn)該方 法對(duì)呈現(xiàn)偏態(tài)分布的因子標(biāo)準(zhǔn)化效果不錯(cuò)。但是 Box-Cox 方法有時(shí)難以找到合適的達(dá)到 合適的變換,并且該方法僅適用于正數(shù)據(jù)。因此可以進(jìn)一步嘗試 Johnson 變化,此變換函 數(shù)較為復(fù)雜,但是在查找合適的變換而言性能更佳。圖 20:PS_TTM 因子 Box-Cox 標(biāo)準(zhǔn)化對(duì)比圖 21:FREE_TURN_N 因子 Box-Cox 標(biāo)準(zhǔn)化對(duì)比資料來(lái)源:Wind,民生證券研究院資料來(lái)源:Wind,民生證券研究院2、考慮排名順序當(dāng)通過(guò)構(gòu)建零投資組合探索因子與收益率之間的關(guān)系時(shí),只需要

42、根據(jù)因子的排序情況對(duì)股票進(jìn)行分組,而不用精確探索因子對(duì)收益率的影響程度,這時(shí)則可以考慮使用排名法或排名正態(tài)變換法。排名法:將原始因子值轉(zhuǎn)換成排序值。該方法只關(guān)注因子的排序信息,不關(guān)注截面距離信息。無(wú)論原始因子的分布如何,使用該方法變換之后,因子值服從均勻分布。需要注意的是,由于忽略了距離信息,因此同時(shí)進(jìn)行了異常值處理。七、 單因子檢驗(yàn)多因子模型的核心是研究個(gè)股收益率均值在截面上的差異。評(píng)價(jià)一個(gè)因子的好壞也就是在評(píng)價(jià)因子是否能使得個(gè)股在截面上的預(yù)期收益率區(qū)分度高。學(xué)術(shù)界與投資界經(jīng)常使用的方法有多空組合法與回歸法。二者本質(zhì)上都是在測(cè)試因子對(duì)收益率的預(yù)測(cè)能力。(一)多空組合多空組合法也是檢驗(yàn)因子最簡(jiǎn)

43、單直觀的方法,在每一個(gè)截面上將股票按照因子暴露進(jìn)行排序,做多排名靠前 N 分位數(shù)股票,同時(shí)做空排名靠后的相同比例,構(gòu)造出多空投資組合,并計(jì)算該組合每一期的收益。在構(gòu)造組合時(shí)可以使用等權(quán)或者市值加權(quán)兩種方式。學(xué)術(shù)界中有很多種構(gòu)造方法,單變量排序分組方法(univariate sorting)、雙重排序法(double sorting)、三重排序法(triple sorting)等。多空組合法簡(jiǎn)單易行,沒(méi)有復(fù)雜的數(shù)學(xué)計(jì)算,但是也存在很多的問(wèn)題。因子相關(guān)性問(wèn)題:因子之間存在相關(guān)性,只使用一個(gè)因子進(jìn)行構(gòu)造多空組合無(wú)法剔除其它因子的影響,因此得到的結(jié)果并不完全是該因子的最終表現(xiàn)。在多因子模型中,一個(gè)新的

44、因子只有在排除其它既有因子的影響之后依然能產(chǎn)生增量貢獻(xiàn)才能被納入到Alpha庫(kù)中。可投資性低:由于 A 股市場(chǎng)的做空限制,因此多空組合并不具備太多的投資價(jià)值,在使用該方法進(jìn)行研究的基礎(chǔ)上,還需要研究收益來(lái)源于多頭與空頭的比例,如果因子的收益大多來(lái)源于空頭,那么即使該因子的表現(xiàn)不錯(cuò),也不具備太多的投資價(jià)值。構(gòu)建多空組合時(shí)一般只使用了排名兩端的股票,處于中間的股票信息沒(méi)有得到充分的利用,造成了信息的浪費(fèi)。針對(duì)上述三個(gè)問(wèn)題,我們也做出了相應(yīng)的處理。影響股票收益率的風(fēng)險(xiǎn)主要有市場(chǎng)、行業(yè)、風(fēng)格三種風(fēng)險(xiǎn)。對(duì)于市場(chǎng)風(fēng)險(xiǎn),由于我們構(gòu)造的多空組合為金額中性,因此是市場(chǎng)中性組合。對(duì)于行業(yè)風(fēng)險(xiǎn),我們采用的是行業(yè)標(biāo)準(zhǔn)

45、化的方法,對(duì)屬于同行業(yè)的因子做去均值處理,可以證明該方法等價(jià)于因子值對(duì)行業(yè)啞變量回歸取殘差方法。對(duì)于風(fēng)格風(fēng)險(xiǎn),常用的有Double-Sort 與正交化兩種方法。Double-Sort 方法是學(xué)術(shù)界經(jīng)常采用的剔除因子相關(guān)性的方法,典型的有 Fama and French 三因子模型中的SMB、HML 因子。圖 22:Double-Sort 方法示意圖資料來(lái)源:Wind,民生證券研究院正交化則是業(yè)內(nèi)常用的方法,具體操作為:目標(biāo)因子與其它風(fēng)格因子回歸取殘差,由于殘差項(xiàng)與被解釋變量不相關(guān),從而達(dá)到剔除相關(guān)性的效果。我們選取了殘差波動(dòng)率因子進(jìn)行對(duì)比,首先將股票根據(jù)殘差波動(dòng)率因子值進(jìn)行排序分組,然后計(jì)算每

46、組的總市值均值,最后再在時(shí)間序列上取平均。結(jié)果可以看到不進(jìn)行正交化的殘差波動(dòng)率因子與股票總市值有明顯的相關(guān)性,經(jīng)過(guò)正交化和 Double-Sort 之后,相關(guān)性均顯著下降。其中 Double-Sort 方法效果要更好,但是當(dāng)因子數(shù)量較多的時(shí)候,繼續(xù)進(jìn)行 Triple-Sort 會(huì)導(dǎo)致每組的股票數(shù)量過(guò)少,因此 Double-Sort方法存在很大的局限性。在后續(xù)的研究中我們統(tǒng)一使用正交化的方法。圖 23:剔除相關(guān)性兩種方法對(duì)比0123456789原始數(shù)據(jù)正交化DoubleSort403020100-10-20-30資料來(lái)源:Wind,民生證券研究院對(duì)于每一個(gè)因子都加入多空收益占比來(lái)評(píng)價(jià)因子的可投資

47、性,具體操作方法為:將因子值進(jìn)行排序,并平均分成兩組,一組為純多頭另一組為純空頭,然后計(jì)算各組的超額收益率并歸一化。下圖是 5 日反轉(zhuǎn)因子的多空貢獻(xiàn)占比,通過(guò)結(jié)果可以看出,該因子的空頭端貢獻(xiàn)了更多的收益。圖 24:5 日反轉(zhuǎn)因子多空收益率占比100%80%60%40%20%0%-20%-40%-60%-80%多頭收益空頭收益-100%資料來(lái)源:Wind,民生證券研究院構(gòu)建多空組合時(shí),使用全部股票按因子值加權(quán)的方式進(jìn)行投資,這樣做既可以避免浪費(fèi)處于中間的因子信息,又考慮了截面上的差異信息。而且該方法是回歸法的近似,回歸法得出的因子收益率也是通過(guò)某種權(quán)重對(duì)股票進(jìn)行加權(quán)得到。下圖對(duì)比了使用簡(jiǎn)單多空組

48、合法和加權(quán)多空組合法對(duì)凈利潤(rùn)增長(zhǎng)率因子進(jìn)行回測(cè)的凈值曲線,可以看到加權(quán)多空組合丟失了部分收益,但是降低了波動(dòng)。圖 25:凈利潤(rùn)增長(zhǎng)率因子兩種回測(cè)方式凈值對(duì)比多空累計(jì)收益加權(quán)多空累計(jì)收益2.11.91.71.51.31.10.9資料來(lái)源:Wind,民生證券研究院(二)回歸法Fama-Macbeth Regression 是 Fama and MacBeth(1973)提出的一種多因子檢驗(yàn)方法,在金融領(lǐng)域該方法被用于多因子模型中分析因子暴露與股票截面預(yù)期收益率的關(guān)系。該方法使用簡(jiǎn)單,而且較為直觀,因此從提出以來(lái)一直受到學(xué)術(shù)界和投資界的歡迎。具體來(lái)說(shuō) Fama-Macbeth 回歸一共為兩步:時(shí)序回

49、歸:根據(jù)因子值構(gòu)造多空投資組合作為因子收益率。并對(duì)每只股票進(jìn)行時(shí)序回歸計(jì)算個(gè)股的因子暴露。ri = + + 其中:ri為股票 i 的收益率序列為投資組合收益率為待估參數(shù),也即因子暴露截面回歸:使用t 期的股票收益率作為被解釋變量,t 期期初的因子暴露作為解釋變量,截面回歸計(jì)算預(yù)期的因子收益率。rit = + 其中:rit為股票 i 第 t 期的收益率 為股票 i 第 t 期期初的因子暴露為待估參數(shù),也即預(yù)期因子收益率需要說(shuō)明的是,因子暴露為時(shí)點(diǎn)數(shù)據(jù),收益率為區(qū)間數(shù)據(jù),因此第 t 期期初的因子暴露也就是第 t-1 期期末的因子暴露。圖 26:收益率與因子暴露示意圖資料來(lái)源:Wind,民生證券研究

50、院回歸法檢驗(yàn)多因子模型時(shí),兩個(gè)核心的概念就是因子暴露與因子收益。學(xué)術(shù)界和業(yè)界的主流方法并不相同。學(xué)術(shù)界普遍采用時(shí)序構(gòu)造法,首先根據(jù)特征構(gòu)造多空對(duì)沖組合收益率,以此來(lái)表征因子的收益率,最后再對(duì)每只股票做時(shí)序回歸得到因子的暴露,如著名的 Fama and French 三因子模型等;而投資界普遍采用截面構(gòu)造法,也即跳過(guò) Fama-Macbeth Regression 的第一步,直接使用特征作為因子暴露進(jìn)行截面回歸,典型的如大家熟悉的 BARRA。時(shí)序模型與截面模型的區(qū)別就在于因子暴露與因子收益的計(jì)算。時(shí)序模型:因子收益已知,因子暴露未知,通過(guò)時(shí)序回歸計(jì)算得到因子暴露。具體方式為,根據(jù)目標(biāo)特征構(gòu)造投

51、資組合并計(jì)算收益率序列作為因子收益,通常取過(guò)去 1 年的收益率序列;將因子收益作為解釋變量,個(gè)股收益作為解釋變量對(duì)每只股票進(jìn)行時(shí)序回歸,可以得到股票的因子暴露。例如 FF-3 中的 HML 因子,首先通過(guò) BP 對(duì)股票進(jìn)行排序,構(gòu)建一個(gè)多空投資組合,該組合的收益率來(lái)代表高 BP 相對(duì)于低 BP 公司的超額收益。截面模型:因子收益未知,因子暴露已知,通過(guò)截面回歸計(jì)算得到因子收益。具體方式為,將每個(gè)公司的特征直接作為因子暴露,通過(guò)截面回歸的方式估計(jì)出因子溢價(jià)。其實(shí)截面模型與時(shí)序模型有內(nèi)在聯(lián)系,其回歸系數(shù)可以視作按照特定權(quán)重構(gòu)建的多空 組合的收益。下圖是分別兩種因子暴露的構(gòu)造方法對(duì)每股凈利潤(rùn)因子進(jìn)行

52、回測(cè)的凈值曲線,從實(shí)證角度來(lái)看,截面模型的表現(xiàn)優(yōu)于時(shí)序模型。圖 27:時(shí)序模型與截面模型回測(cè)結(jié)果對(duì)比時(shí)序模型截面模型1.51.41.31.21.110.90.80.7資料來(lái)源:Wind,民生證券研究院我們分別從多因子模型的定價(jià)與投資的角度來(lái)討論,兩種方法各有利弊。對(duì)于時(shí)序模型,在構(gòu)建因子暴露時(shí)需要使用過(guò)去很長(zhǎng)一段時(shí)間的日度收益率數(shù)據(jù)進(jìn)行回歸,因此會(huì)存在較多的噪音,得到的很可能不是真實(shí)的因子暴露。對(duì)于截面模型,要求股票收益與因子暴露成線性關(guān)系,簡(jiǎn)單的線性關(guān)系是否能解釋復(fù)雜的金融市場(chǎng)也需要更深入的研究。從因子模型的本質(zhì)來(lái)講,收益率時(shí)序回歸系數(shù)作為因子暴露更加合理。但另一方面,當(dāng)股票發(fā)生較大變化時(shí),

53、回歸系數(shù)可能會(huì)反應(yīng)不足,相應(yīng)的因子暴露的變化也會(huì)滯后。(三)純因子組合從實(shí)證的結(jié)果來(lái)看,Barra 對(duì) Fama-Macbeth Regression 的改進(jìn)是顯而易見(jiàn)的,但是 Barra 做的改進(jìn)不止于此。Barra 在進(jìn)行截面回歸時(shí)做了很多細(xì)致的改進(jìn),純因子組合就是在這些改進(jìn)之下得到的結(jié)果。該組合對(duì)目標(biāo)因子的暴露為 1,對(duì)其余因子的暴露為 0。具體構(gòu)造方式如下:在每一個(gè)截面上,使用當(dāng)期的因子暴露與下一期的資產(chǎn)收益進(jìn)行如下的截面回歸。rn = + + + =1=1其中rn為股票 n 的收益率,為股票 n 在行業(yè)因子 i 上的因子暴露,為股票 n 在風(fēng)格因子 s 上的因子暴露,為國(guó)家因子收益率

54、,為行業(yè)因子收益率,為風(fēng)格因子收益率。由于該模型中國(guó)家因子暴露與行業(yè)因子暴露存在完全共線性,因此對(duì)行業(yè)因子收益加入限制條件。其中為行業(yè)的市值權(quán)重。 = 0=1經(jīng)驗(yàn)上來(lái)看,市值與股票的特質(zhì)收益率存在相關(guān)性從而導(dǎo)致異方差問(wèn)題,因此在回歸采用的是加權(quán)最小二乘法(WLS),權(quán)重 V 為股票市值的平方根。v = n=1因此,該問(wèn)題為求解一個(gè)帶約束的加權(quán)最小二乘法,求解過(guò)程如下。首先原方程可以表示為:r = Xf + u目標(biāo)函數(shù)為:將約束條件進(jìn)行改寫(xiě):min(r Xf)V(r Xf). . = 0=1 = 1 2 1 121因此因子收益率可以改寫(xiě)成如下形式:f = R + s將其帶入目標(biāo)函數(shù):min(r

55、XR Xs)V(r XR Xs)可以推導(dǎo)出因子收益與組合權(quán)重的表達(dá)式:f = R(RXVXR)1 = R(RXVXR)1若將組合對(duì)因子的暴露定義為組合權(quán)重與因子暴露的乘積,則X即為組合暴露矩陣,該結(jié)果的每一行都是對(duì)應(yīng)因子組合在其它因子上的暴露。下圖展示了 10 個(gè)風(fēng)格因子的暴露矩陣,其中每個(gè)因子組合對(duì)自己的暴露均為 1,對(duì)其它因子的暴露均為 0。表 4:風(fēng)格因子暴露矩陣ageSize1.000.000.000.000.000.000.000.000.000.00Beta0.001.000.000.000.000.000.000.000.000.00MOM0.000.001.000.000.00

56、0.000.000.000.001.00REV0.000.000.001.000.000.000.000.000.000.00BP0.000.000.000.001.000.000.000.000.000.00LIQ0.000.000.000.000.001.000.000.000.000.00Earnings0.000.000.000.000.000.001.000.000.000.00Growth0.000.000.000.000.000.000.001.000.000.00Leverage0.000.000.000.000.000.000.000.001.000.00NL-size0.0

57、00.000.000.000.000.000.000.000.000.00SizeBetaMOMREVBPLIQEarningsGrowthLeverMOM資料來(lái)源:Wind,民生證券研究院圖 28:風(fēng)格因子純因子組合凈值曲線2.11.91.71.51.31.10.90.70.50.3betabook_to_price_ra tioearnings_yieldgrowth leverage liquidity momentum資料來(lái)源:Wind,民生證券研究院我們分別使用簡(jiǎn)單多空組合、加權(quán)多空組合、純因子組合三種方法對(duì)每股凈利潤(rùn)因子進(jìn)行回測(cè)。其中純因子組合的構(gòu)建中剔除了市值和行業(yè)因子的影響。從

58、回測(cè)結(jié)果可以看出,剔除了市值和行業(yè)影響的純因子組合相比于簡(jiǎn)單多空組合丟失了部分收益,但是波動(dòng)率大幅下降。圖 29:每股凈利潤(rùn)因子三種回測(cè)方法對(duì)比純因子組合凈值加權(quán)多空組合凈值簡(jiǎn)單多空組合凈值54.543.532.521.510.50資料來(lái)源:Wind,民生證券研究院(四)信息系數(shù)因子 IC 值是評(píng)價(jià)因子在截面上的選股效果的常用方法。通常定義為股票第 t-1 期期末的因子暴露與第 t 期其收益的相關(guān)系數(shù)。IC 的絕對(duì)值越大,說(shuō)明因子具有較好的預(yù)測(cè)能力。IC 的計(jì)算方法通常有兩種:Pearson 相關(guān)系數(shù)(IC)與 Spearman 相關(guān)系數(shù)(Rank IC)。Pearson 相關(guān)系數(shù)考察的是兩個(gè)變量之間的線性相關(guān)關(guān)系。ICt(1, )=1Rank IC 考察的是兩個(gè)變量之間的單調(diào)性關(guān)系,首先將因子暴露和收益率做排名處理,然后再計(jì)算其相關(guān)系數(shù)。 (, )1RankIC = 1 圖 30:20 日動(dòng)量因子 IC 序列 0.40.30.20.10-0.1-0.2-0.3-0.4-0.5-0.6資料來(lái)源:Wind,民生證券研究院圖 31:凈利潤(rùn)增長(zhǎng)率因子 IC 序列0.250.20.150.10.050-0.05-0.1-0.15-0.2-0.25資料來(lái)源:Wind,民生證券研究院(五)因子衰減回測(cè)的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論