文本FADT選股_第1頁
文本FADT選股_第2頁
文本FADT選股_第3頁
文本FADT選股_第4頁
文本FADT選股_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、研究導讀Mark Minervini 在股票魔法師中提出過一個觀點:明星股票的背后大多數(shù)都存在著某種 “催化劑”事件,這些催化劑事件可能是連續(xù)靚眼的業(yè)績、某款熱銷產(chǎn)品的出現(xiàn),可能是新合同的簽訂,甚至可能是新CEO 的任職。這些“催化劑”事件使得那些默默無聞、不為人知的股票開始得到機構投資者的關注,從而有機會向明星股票邁進。本文受上述觀點啟發(fā),希望能找到對股價正向影響較大的“催化劑”,那么從量化的視角來看,有沒有某種方法能對類似的“催化劑”事件進行監(jiān)測?分析師盈利預測及評級調(diào)整或是一條可能的路徑。本文是華泰金工人工智能系列文本挖掘主題的第五篇報告,我們繼續(xù)將視野聚焦于分析師研報文本,探究分析師盈

2、利預測及評級調(diào)整這一場景下研報文本中的情感識別。本文的研究動機如上所述,我們希望找到對股價具有正向影響的“催化劑”事件,并將其數(shù)量化。由于“催化劑”沒有某種特定的模式,不同的行業(yè)“催化劑”事件可能千差萬別,如果從遍歷的思路出發(fā)很難對所有事件進行系統(tǒng)監(jiān)測。現(xiàn)在我們嘗試從另一個角度出發(fā)進行研究。由于行業(yè)研究員對個股進行覆蓋,對個股的跟蹤及時性更強,當個股出現(xiàn)了影響較大的“催化劑”事件以后,分析師大多會及時撰寫點評報告,并可能對盈利預測及評級進行調(diào)整。這為我們提供了監(jiān)測“催化劑”事件的間接思路,因此我們可以將目標轉(zhuǎn)換為對分析師盈利預測及評級調(diào)整的研報文本進行情感識別,進而找出正向催化較強的個股。參考

3、前期報告人工智能 51:文本PEAD 選股策略(20220107)中對分析師業(yè)績點評研報文本的研究思路,我們對盈利預測及評級調(diào)整的研報文本使用類似的方法論進行挖掘。令研報文本用詞的詞頻矩陣作為輸入特征,分析師研報發(fā)布前后兩天的個股超額收益作為預測標簽,使用機器學習模型進行交叉驗證訓練,在樣本外根據(jù)模型預測得分構建 forecast_adj_txt 因子,該因子十層嚴格單調(diào),多頭端收益顯著,且與傳統(tǒng)的 forecast_adj因子相關性較低。在正文中我們花了比較多的篇幅來討論整個模型構建過程中的參數(shù)敏感性問題,核心結論是:文本因子的構建基本不存在人為過度調(diào)參導致的過擬合問題,模型參數(shù)穩(wěn)健性較高,

4、分析師盈利預測調(diào)整研報文本的情感識別是信噪比較低且規(guī)律不易隨時間改變的場景。在測試過程中,我們主要討論了以下參數(shù):訓練使用的非線性模型、研報標題和摘要采用的詞數(shù)、樣本內(nèi)窗口長度、樣本標簽的時間區(qū)間、標簽分類數(shù)量等。圖表1: FADT 選股組合回測凈值圖表2: FADT 選股組合相對中證 500 超額凈值140120100806040200最大回撤(右軸)增強組合回測凈值0%5045-20%4035-40%3025-60%2015-80%105202020212022-100%0超額最大回撤(右軸)相對中證500凈值0%-10%-20%-30%-40%2009201020112012201320

5、14201520162017201820192022-50%2009201020112012201320142015201620172018201920202021資料來源:,朝陽永續(xù),華泰研究,回測期:20090123-20220630資料來源:,朝陽永續(xù),華泰研究,回測期:20090123 -20220630我們從主動量化選股的角度出發(fā)對forecast_adj_txt 多頭第一層的股票池進行精選。首先考慮股票的 ROE、凈利潤、營業(yè)收入、經(jīng)營活動現(xiàn)金流等考察一只股票首先會關注的基本面指標;其次我們考慮股票的反轉(zhuǎn)、換手、尾盤成交占比等技術因素;最后我們還將市值風格納入考慮。上述要素以因子的

6、形式呈現(xiàn),每月末將上述因子進行方向調(diào)整后等權合成,根據(jù)合成得分選擇排名靠前的 25 只股票等權持有,組合回測期 20090123-20220630 內(nèi)年化收益 44.13%,夏普比率 1.48,年化雙邊換手約 16 倍。我們將該組合命名為FADT 組合(Forecast-Adjust-Text Portfolio)。最后我們對策略容量以及模型改進進行更多思考。策略容量層面,我們提出三點可能提升策略容量的思路:1)降低調(diào)倉頻率,增加調(diào)倉時間,數(shù)據(jù)實證表明月頻調(diào)倉降低為雙月頻調(diào)倉,F(xiàn)ADT 組合仍然表現(xiàn)優(yōu)秀;2)增加 FADT 組合的持股數(shù)量;3)修改回測框架,提高“資金使用效率”,嚴格預設固定頻

7、率調(diào)倉的方案未必是最優(yōu)解。模型層面,詞語組合的邏輯解釋尚存瑕疵,或許可以嘗試 NLP 中更高階的模型來使得文本的識別邏輯更為自洽。分析師研報文本挖掘框架研究回顧在前期報告人工智能 51:文本PEAD 選股策略(20220107)中,我們提出使用賣方分析師研報文本對 PEAD 效應進行刻畫,挖掘業(yè)績被分析師看好的股票。在該模型中,我們使用業(yè)績點評研報的標題和摘要文本作為特征,使用個股發(fā)布業(yè)績前后的超額收益作為標簽,判斷分析師對上市公司業(yè)績的情感傾向;構建出的 SUE.txt 因子分層效果較為優(yōu)秀,且多頭端收益明顯。模型構建示意圖如下所示。圖表3: SUE.txt 因子構建示意圖資料來源:華泰研究

8、現(xiàn)在我們面臨如下幾個問題,這些問題將會是本文討論的重點:前文構建的模型邏輯上或存瑕疵,為什么用個股公告發(fā)布的 T-1T+1 日作為標簽?為什么不是研報發(fā)布日T-1T+1 作為標簽?標簽時間區(qū)間的長短有沒有區(qū)別?前文中我們構建的SUE.txt 因子僅考慮業(yè)績預告這一種公告類型,受限于發(fā)布業(yè)績預告的股票數(shù)量太少,因子覆蓋度較低,一方面難以融入多因子選股體系,另一方面主動增強可操作的空間有限;雖然我們可以很自然地將 SUE.txt 的計算方法推廣到三種公告類型上(推廣的因子回測結果如下圖表所示),但模型邏輯或多或少仍受質(zhì)疑。分析師研報的應用有沒有某種更自然的方法?能否不止局限于 PEAD 這一種場景

9、?圖表4: 三類公告合并的 SUE.txt 因子分 10 層回測凈值(回測期:20090123-20220630) 分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10181614121086422009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250資料來源:,朝陽永續(xù),華泰研究圖表5: 三類公告合并

10、的 SUE.txt 因子分 10 層回測超額凈值(基準中證 500,回測期:20090123-20220630) 分層1分層2分層3分層4分層5分層6分層7分層8分層9分層106543212009-01-232009-11-232010-09-232011-07-232012-05-232013-03-232014-01-232014-11-232015-09-232016-07-232017-05-232018-03-232019-01-232019-11-232020-09-232021-07-232022-05-230資料來源:,朝陽永續(xù),華泰研究圖表6: SUE.txt 因子覆蓋度圖表

11、7: 分層 1 相對于分層 10 多空對沖凈值2,5002,0001,5001,0005000因子覆蓋度876543212009-04-302010-02-262010-12-312011-10-312012-08-312013-06-282014-04-302015-02-272015-12-312016-10-312017-08-312018-06-292019-04-302020-02-282020-12-312021-10-292009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-04

12、2015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250分層1相對分層10凈值資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究100.03%31.16%-23.89%18.81%38.30%39.84%95.60%2.16%0.28%-27.39%圖表8: SUE.txt 因子分層 1 分年度業(yè)績(基準中證 500,回測期:20090123-20220630)時間區(qū)間收益率區(qū)間超額收益年化波動率最大回撤夏普比率卡瑪比率2009-4.45%29.37%17.4

13、4%3.415.74201018.75%27.16%21.31%1.151.46201118.11%22.64%26.88%-1.05-0.89201216.45%23.76%18.65%0.791.01201315.98%23.45%15.62%1.632.452014-0.26%19.45%12.65%2.053.15201534.81%44.70%45.81%2.142.09201614.64%30.26%23.08%0.070.0920171.18%15.61%13.02%0.020.02201812.28%25.39%28.00%-1.08-0.98201955.79%21.94%2

14、3.84%16.15%2.343.45202053.29%29.82%29.27%15.51%1.823.44202130.00%14.29%20.53%11.61%1.462.5920220630-5.75%9.69%成立以來23.94%14.47%26.92%45.81%0.890.52,朝陽永續(xù),華泰研究其中第三個問題或許包含前兩個問題的答案,我們順著上述問題進行思考,在本文中進行另一種探索:即仍以分析師研報為數(shù)據(jù)源,但是脫離 PEAD 的場景,我們考慮分析師盈利預測及評級調(diào)整這兩種場景下的文本挖掘。分析師盈利預測及評級調(diào)整本小節(jié)我們對研究動機進行一些補充,討論分析師盈利預測及評級調(diào)整的

15、兩種場景。我們統(tǒng)計了歷史上分析師盈利預測及評級調(diào)整每月的平均數(shù)量,如下圖表所示。剔除首次覆蓋的樣本以后,可以看到每年的 4/8/10 月份整體分析師盈利預測及評級調(diào)整數(shù)量有明顯上升,主要是因為對應月份為財報期,上市公司發(fā)布業(yè)績公告比較密集,分析師會根據(jù)最新公告調(diào)整盈利預期及評級。其余月份的盈利預測調(diào)整及評級數(shù)量保持在較為均衡的水平,這些盈利預測大部分與財報業(yè)績發(fā)布無關。我們?yōu)槭裁匆獜臉I(yè)績點評的文本挖掘遷移到分析師盈利預測調(diào)整&評級的文本挖掘上來?本質(zhì)上我們是想找到“點燃”股價的催化劑事件。這種事件可能是上市公司交出了一份業(yè)績亮眼的財報,凈利潤大超市場預期,進而得到機構投資者的關注(PEAD 效

16、應也即在這種場景下發(fā)生);也可能是其他催化劑事件,例如公司主營業(yè)務發(fā)生改變、與政府簽訂補貼協(xié)議、高頻披露的銷售額數(shù)據(jù)亮眼等。挖掘催化劑事件難以用量化的手段遍歷,但是行業(yè)分析師對各類事件卻有緊密的跟蹤,因此我們采用間接的手段,從分析師盈利預測調(diào)整及評級變化來窺探這些催化劑事件。下面我們展示一些盈利預測調(diào)整的例子。圖表9: 盈利預測調(diào)整及評級調(diào)整分月份平均數(shù)量統(tǒng)計8,0006,0004,0002,0000123盈利預測調(diào)整數(shù)量均值(剔除首蓋及盈利預測不變的樣本)評級數(shù)量均值(剔除首蓋樣本)456789101112 月份資料來源:,朝陽永續(xù),華泰研究業(yè)績公告披露場景當上市公司發(fā)布業(yè)績超過市場預期時,

17、分析師基于最新公布的業(yè)績,容易上調(diào)對該公司的未來盈利預測。例如下圖我們截取了 2022Q1 財報季杭州銀行這只股票發(fā)布業(yè)績后的華泰分析師點評,由于該公司 1Q22 披露業(yè)績超過分析師預期,因此分析師在摘要給出了盈利預測的調(diào)整。圖表10: 業(yè)績公告披露場景下的盈利預測調(diào)整股票代碼股票名稱預測年度本次預測時間上次預測時間本次預測凈利潤 上次預測凈利潤本次預測 EPS上次預測 EPS600926.SH杭州銀行20222022-04-252022-04-161158100(萬元) 1121800(萬元)1.95(元)1.89(元)標題杭州銀行:利潤增長超預期,資產(chǎn)質(zhì)量改善摘要盈利預測:1-3 月歸母凈

18、利潤、營收、PPOP 同比+31.4%、+15.7%、13.9%,較 2021 年+1.6pct、-2.6pct、-3.1pct,利潤增速超過我們此前預期的 25%。主要亮點為規(guī)模保持高增、非息收入亮眼、資產(chǎn)質(zhì)量優(yōu)化。我們預測 2022-24 年 EPS1.95/2.29/2.68 元(前次 1.89/2.22/2.59 元),22 年 BVPS 預測值 13.68 元,對應 PB1.08 倍。可比公司 22 年 一致預測 PB 均值 0.87 倍,公司高成長性特征顯著,資產(chǎn)質(zhì)量優(yōu)異,應享受一定估值溢價,我們給予 22 年目標 PB1.35 倍,目標價由 18.39 元上調(diào)至 18.47 元,

19、維持“增持”評級。規(guī)模維持高增,息差表現(xiàn)承壓:3 月末總資產(chǎn)、貸款、存款同比增速分別為+18.6%、+21.4%、+18.3%,較 21 年末-0.3pct、-0.3pct、+2.2pct。Q1 新增對公貸款(含票據(jù))占 86.1%,公司持續(xù)加大對實體經(jīng)濟、重點領域的信貸投放力度,Q1 制造業(yè)貸款同比+20.7%;涉農(nóng)貸款同比+27.61%。我們測算Q1 凈息差較 2021 年下降 12bp 至 1.75%,主要由生息資產(chǎn)端定價下行拖累,LPR 下行引導貸款利率下降,定價較低的對公貸款開門紅集中投放也拉低了平均資產(chǎn)定價水平。資產(chǎn)質(zhì)量明顯改善,信用成本下行:3 月末不良貸款率、撥備覆蓋率分別為

20、0.82%、580%,較 12 月末-4bp、+12pct,不良率持續(xù)改善,撥備覆蓋率居上市銀行第一(以各家銀行最新一期披露的撥備覆蓋率比較)。22Q1 年化信用成本為 1.98%,同比-0.30pct,22Q1 不良生成率為 1.15%,同比、環(huán)比分別+0.89pct、-0.04pct,新生成不良保持在較低水平,信用成本下行為利潤釋放提供充足空間資料來源:朝陽永續(xù),華泰研究非業(yè)績公告披露場景在非業(yè)績期,分析師也可能因為其他催化事件上調(diào)盈利預期,例如公司主營業(yè)務發(fā)生改變、與政府簽訂補貼協(xié)議、高頻披露的銷售額數(shù)據(jù)亮眼等;這些事件同樣有可能吸引機構投資者的關注。下面我們展示了幾組非業(yè)績公布場景下的

21、分析師盈利預測調(diào)整的例子。圖表11: 經(jīng)營事件披露帶來的盈利預測調(diào)整股票代碼股票名稱預測年度本次預測時間上次預測時間本次預測凈利潤上次預測凈利潤本次預測 EPS上次預測 EPS300450.SZ先導智能20222021-06-022021-04-25230200(萬元)223100(萬元)2.54(元)2.46(元)標題先導智能:訂單創(chuàng)新高,高端產(chǎn)能稀缺性凸顯摘要盈利預測:公司 5 月 31 日晚發(fā)布訂單公告,21 年以來合計中標寧德時代(CATL)訂單共計 45.47 億元(不含稅),占公司 20 年營收的 77.62%。在各國新能源車扶持政策刺激下,電池廠擴產(chǎn)規(guī)模加大、節(jié)奏加快,我們認為,

22、公司有望通過 1)攜手核心客戶共同降本;2)強化鋰電設備產(chǎn)品優(yōu)勢;3)各業(yè)務線相互借鑒協(xié)同發(fā)展加強其非標設備龍頭優(yōu)勢。預計 21-23 年 EPS1.78/2.54/3.06(前值 1.78/2.46/2.91)元;快馬加鞭的 TWh 時代,擁有快速技術迭代與穩(wěn)定供應能力的高端設備產(chǎn)能稀缺性不斷提升,上調(diào)至買入評級。產(chǎn)能端:規(guī)?;瘮U產(chǎn)助力公司降本增效,泰坦新動力經(jīng)營情況或持續(xù)好轉(zhuǎn):本次披露的 45.47 億元訂單占公司 20 年營收的 77.62%,我們認為電池廠擴產(chǎn)規(guī)模化(同型號產(chǎn)品增多)有利于提升標準化構件占比,公司設備毛利率有望回升。據(jù)定增募資說明書(2 月 26 日),由于 17-19

23、 年的業(yè)績承諾期中對后段設備新技術與固定資產(chǎn)投資較低,以及租賃場地生產(chǎn)、外協(xié)加工等方式造成的成本與費用提高, 泰坦凈利率下滑, 19 年凈利率 22.7%/yoy-8.26pct;疊加內(nèi)部調(diào)整、行業(yè)競爭和疫情影響,導致 20 年泰坦虧損。動車浪潮中訂單創(chuàng)新高,快馬加鞭的 TWh 時代,上調(diào)買入評級:各國電動車支持政策頻出,產(chǎn)業(yè)鏈擴產(chǎn)加快邁向 TWh 時代,公司訂單屢創(chuàng)新高;公司 21Q1 合同負債 26.57 億元/QoQ+39.5%,我們預計公司訂單有望保持快速增長,21-23 年歸母凈利 16.1/23.0/27.8(前值 16.1/22.3/26.5)億元,對應 PE53/37/31x。

24、公司 21-23 凈利 CAGR 為 53.5%,可比公司 21 年 PEG 均值 1.26x( 一致預期),公司龍頭優(yōu)勢強化,給予 21 年 1.26xPEG,目標價 119.78 元(前值 109.04 元),高端產(chǎn)能稀缺性提升,買入。資料來源:朝陽永續(xù),華泰研究圖表12: 股權激勵帶來的盈利預測調(diào)整股票代碼股票名稱預測年度本次預測時間上次預測時間本次預測凈利潤上次預測凈利潤本次預測 EPS上次預測 EPS300866.SZ安克創(chuàng)新20232022-06-232022-05-09159300(萬元)159000(萬元)3.92(元)3.92(元)標題 安克創(chuàng)新:擬推股權激勵計劃,綁定核心人

25、才摘要 盈利預測:6 月 21 日,公司發(fā)布 22 年限制性股票激勵計劃草案,擬面向公司董事、高管、核心技術及業(yè)務人員授予股票數(shù)量 519 萬股,首次授予價格為 40 元/股。本次股權激勵對象合計 426 人,其中核心技術及業(yè)務人員為 423 人,授予股票占比達 78.8%。首次授予業(yè)績考核目標:以 2021 年營業(yè)收入為基數(shù),22-24 年收入增速分別不低于 15%/15%/15%。我們認為激勵計劃考核目標設定溫和,股權激勵計劃推出目的是穩(wěn)定人才隊伍、激發(fā)骨干活力。我們維持公司 22-24 年歸母凈利預測 12.7、15.9、19.5 億元,參考可比公司 22 年 1.17xPEG,考慮短期

26、海外市場的不確定性,保守給予公司 22 年 1.0PEG,維持目標價 81.28 元,維持買入評級。美國市場需求承壓,但安克布局全球、受影響有限:據(jù)美國商務部,高房價、高通脹壓力下,美國零售繼續(xù)承壓,5 月零售總額經(jīng)調(diào)整后環(huán)比下降 0.3%,創(chuàng) 21 年 12 月以來新低;3-5 月,美國電子與家電店銷售額分別同降 3.2%、3.6%、4.4%,降幅持續(xù)擴大。但我們認為安克布局全球、對美國市場的單一依賴逐年降低,2021 年北美銷售占比同降 3.2pct 至 50.4%,受北美市場影響有限。資料來源:朝陽永續(xù),華泰研究上述兩個例子展示了非業(yè)績公布場景下的分析師盈利預測調(diào)整的例子。第一個例子是上

27、市公司公告披露訂單數(shù)量創(chuàng)新高,這類數(shù)據(jù)是定期財報之外的對業(yè)績具有較大影響的信息,分析師在該公告披露后上調(diào)了盈利預測。第二個例子是安克創(chuàng)新披露股權激勵草案,雖然股權激勵可能不會直接對公司業(yè)績造成影響,但是分析師認為股權激勵有利于穩(wěn)定人才隊伍、激發(fā)骨干活力,也會間接對該公司經(jīng)營帶來正向影響,因此上調(diào)了盈利預測。除此以外,類似于白酒批發(fā)價上行、新藥通過審批等非業(yè)績公告的“催化劑”事件也均會造成分析師對盈利預測進行調(diào)整。盈利預測及評級調(diào)整文本建模本小節(jié)我們展示文本建模的方法。由于我們研究的分析師盈利預測調(diào)整及評級通常是跟隨著點評報告一起發(fā)出的,因此相比于 SUE.txt 的構建,我們可以簡化分析師盈利

28、預測調(diào)整及評級文本因子的構建流程,使得整個流程更為自然。后文我們將基于盈利預測調(diào)整樣本構建出的因子稱為 forecast_adj_txt 因子, 將基于評級調(diào)整樣本構建出的因子稱為 forecast_score_adj_txt 因子。分詞處理我們將單條分析師盈利預測及評級調(diào)整的研報視為一條樣本,同樣的我們第一個步驟是對研報文本進行分詞處理;在分詞的過程中我們僅保留普通名詞、專有名詞、動詞、副動詞、形容詞、副詞對應詞性的詞語。圖表13: 分詞示意圖資料來源:華泰研究轉(zhuǎn)化為詞頻矩陣第二步是計算詞頻矩陣。將每一輪訓練的樣本內(nèi)全部樣本進行分詞處理以后,我們會統(tǒng)計研報標題和摘要出現(xiàn)頻率最高的 200 和

29、 1000 個詞語(200,1000這組參數(shù)是人為設定的參數(shù),后文會對此進行參數(shù)討論),將這 1200 個詞語作為本輪訓練的詞域。圖表14: 詞域生成示意圖資料來源:華泰研究詞域確定好以后,我們將每條樣本映射到詞域中詞語的出現(xiàn)頻率上,生成詞頻向量,計算出詞頻向量以后,我們使用以下公式計算log 詞頻,作為我們訓練模型的輸入特征。1 = log(0 + 1)其中0為原詞頻向量,1 為處理后的訓練特征。預測目標取為研報發(fā)布前后兩天(關于前后兩天這個參數(shù),我們在后文也會進行詳細討論)個股相對于中證 500 的超額收益(不進行中性化處理),我們按以下方式將其分為三類后作為樣本的訓練標簽 Y:上漲(y

30、= 1):較大的正向超額收益,即樣本的超額收益位于整體的前 30;震蕩(y = 0):較低的正向或負向超額收益,即樣本的超額收益位于整體的前 30-70;下跌(y = -1):較大的負向超額收益,即樣本的超額收益位于整體的后 30。更為詳細的分詞處理流程,讀者可以參考華泰金工前期研究人工智能 51:文本 PEAD 選股策略(20220107),處理方法論類似。圖表15: 訓練特征和訓練標簽的生成示意圖資料來源:華泰研究樣本內(nèi)交叉驗證,樣本外生成因子值每次滾動樣本內(nèi)為過去 12 個月,樣本外為未來 12 個月。例如對于某輪樣本外的首月T 月來說,我們將 T-12 至T-1 月的數(shù)據(jù)作為樣本內(nèi),T

31、 月至 T+11 月的數(shù)據(jù)作為樣本外;下一迭代期則以 T-1 月至 T+11 月的數(shù)據(jù)作為樣本內(nèi),T+12 至T+23 月的數(shù)據(jù)作為樣本外;以此類推。圖表16: 滾動訓練示意圖資料來源:華泰研究模型在樣本內(nèi)訓練完成后,我們在樣本外進行測試。forecast_adj_txt 因子生成的頻率為每個月末,在月末截面期追溯過去一個季度的全市場分析師盈利預測調(diào)整樣本,使用訓練好的模型進行預測,得到每條樣本在每個類別上的概率估計值 (),以此我們計算其 log-odds值():(),() = 1 ()_ = () ()其中 , , 為三個類別標簽,分別表示上漲、震蕩、下跌。我們計算其上漲和下跌類別的log

32、-odds 值之差作為文本因子值。數(shù)據(jù)實證及參數(shù)討論在前期報告人工智能 51:文本PEAD 選股策略(20220107)中,我們使用前文所述類似的方法論對上市公司業(yè)績點評相關的分析師研報文本進行過挖掘。彼時,讀者對于模型中的參數(shù)提出了一些討論,因子穩(wěn)健性與否頗受質(zhì)疑;同時受困于業(yè)績預告的數(shù)量過少,實際上增強組合可進行操作的空間有限。接下來的數(shù)據(jù)實證,我們將圍繞上述兩個問題展開討論:模型參數(shù)是否敏感?是否有人為過度調(diào)參導致的過擬合嫌疑?因子穩(wěn)健性好不好?如何提高因子覆蓋度?如何在因子覆蓋度和多頭收益率之間進行平衡?后文提到的所有組合回測及分層回測均為費后表現(xiàn),手續(xù)費設置為雙邊千三,每月第一個交易

33、日按當日均價調(diào)倉,對停牌股票進行權重調(diào)整,后文不再贅述。對盈利預測調(diào)整的樣本,我們會剔除首蓋樣本及盈利預測不變的樣本;評級僅剔除首蓋樣本?;A模型實證作為后續(xù)參數(shù)討論的基礎,我們首先給定基準模型。基準模型的各項參數(shù)選擇如下表所示,對其中的一些參數(shù)進行解釋:樣本內(nèi)窗口長度指的是每輪訓練選用多長的時間區(qū)間作為樣本內(nèi),取值為 12 個月表示我們選用過去一年的全部盈利預測調(diào)整樣本作為樣本內(nèi);樣本標簽的時間區(qū)間表示每條樣本中Y 的計算區(qū)間,T-1T+1 即表示研報發(fā)布前 1 天至后 1 天。圖表17: 基準模型參數(shù)選擇參數(shù)項目參數(shù)取值訓練使用的非線性模型XGBoost研報標題采用的詞數(shù) 200研報摘要采

34、用的詞數(shù) 1000樣本內(nèi)窗口長度12 個月(過去一年)樣本標簽的時間區(qū)間T-1T+1標簽分類方式三分類樣本外計算因子值的回溯區(qū)間3 個月資料來源:華泰研究樣本外計算因子值的回溯區(qū)間表示在樣本外每個月月末構建因子值時,選用過去多長時間區(qū)間內(nèi)的樣本。例如取值為 3 個月時,月末我們會追溯過去 3 個月的全部分析師盈利預測調(diào)整的樣本,分別計算出文本得分,最后求均值得到個股的forecast_adj_txt 因子。圖表18: 基準模型 forecast_adj_txt 因子分 10 層回測(回測期:20090123-20220630) 分層1分層2分層3分層4分層5分層6分層7分層8分層9分層1018

35、1614121086422009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250資料來源:,朝陽永續(xù),華泰研究圖表19: 基準模型 forecast_adj_txt 因子分 10 層回測超額凈值(基準中證 500,回測期:20090123-20220630) 分層1分層2分層3分層4分層5分層6分層7分層8分層9

36、分層106543212009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250資料來源:,朝陽永續(xù),華泰研究圖表20: 基礎模型因子覆蓋度圖表21: 分層 1 相對于分層 10 多空對沖凈值2,0001,6001,2008004000因子覆蓋度 因子覆蓋度平均值14121086422009-01-232010-01

37、-232011-01-232012-01-232013-01-232014-01-232015-01-232016-01-232017-01-232018-01-232019-01-232020-01-232021-01-232022-01-232009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250分層1相對分

38、層10凈值資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究99.85%30.01%-29.77%11.15%49.81%56.64%88.26%-6.70%0.15%-29.72%61.38%67.62%36.79%-3.95%圖表22: 基礎模型 forecast_adj_txt 因子分層 1 分年度業(yè)績(基準中證 500,回測期:20090123-20220630)時間區(qū)間收益率區(qū)間超額收益年化波動率最大回撤夏普比率卡瑪比率2009-4.92%32.48%21.99%3.074.54201018.10%27.90%22.11%1.081.3620119.31%24.20%32.

39、32%-1.23-0.9220129.89%25.04%22.42%0.450.50201326.63%25.94%13.85%1.923.60201411.98%22.41%14.06%2.534.03201530.05%44.56%50.83%1.981.7420164.79%29.69%25.43%-0.23-0.2620171.34%15.43%14.49%0.010.0120188.78%25.74%31.05%-1.15-0.96201927.01%25.12%18.10%2.443.39202042.19%30.62%18.59%2.213.64202120.71%21.85%1

40、5.02%1.682.452022063011.72%成立以來24.33%14.97%27.95%54.50%0.870.45,朝陽永續(xù),華泰研究圖表23: 基礎模型 forecast_adj_txt 因子分 10 層回測各層業(yè)績(基準中證 500,回測期:20090123-20220630)分層 1分層 2分層 3分層 4分層 5分層 6分層 7分層 8分層 9分層 10絕對收益24.33%16.04%15.32%13.07%10.14%7.73%7.77%5.22%1.12%0.79%超額收益13.80%7.45%6.78%4.69%1.98%-0.25%-0.21%-2.57%-6.38

41、%-6.68%Wind,朝陽永續(xù),華泰研究從結果來看,forecast_adj_txt 因子分層效果十層嚴格單調(diào),多頭第一層自 2009 年以來全回測期的絕對收益為年化 23.51%,相對于中證 500 的超額收益為年化 14.66%;因子覆蓋度平均每期為 1107 只,且近年來覆蓋度呈現(xiàn)上升趨勢。從多頭端分年度業(yè)績來看,forecast_adj_txt 因子各年度相對于中證 500 超額收益幾乎均為正(除 2009 年外),分年度表現(xiàn)較為穩(wěn)健。(注:20151130-20160930 期間由于數(shù)底庫數(shù)據(jù)缺失,導致因子覆蓋度極端低,故統(tǒng)一延續(xù) 20151030 的因子值)參數(shù)討論接下來,我們對

42、模型中的各個參數(shù)進行穩(wěn)健性討論,過擬合帶來的超樂觀預期是我們不愿看到的結果,現(xiàn)在我們對“是否有人為過度調(diào)參導致的過擬合嫌疑”這個問題給出答案。樣本標簽的時間區(qū)間選擇在前期報告中,樣本標簽的時間選擇是備受質(zhì)疑的點,為什么是 T-1T+1 天?其他參數(shù)區(qū)間是否可行?T-1T+1 天從邏輯上來說的優(yōu)勢在何處?本小節(jié)我們從數(shù)據(jù)實證和邏輯解釋兩個角度出發(fā),嘗試再次討論這個問題。數(shù)據(jù)實證角度,首先我們對多組時間區(qū)間進行測試:討論 T-1T+7、T-1T+20、T-7T+1、 T-20T+1 這四組參數(shù)。其中 T-1T+7 及T-1T+20 的假設為,對分析師盈利預測調(diào)整的情感判別更多信息來源于預測調(diào)整之后

43、的股價變化;而T-7T+1 與T-20T+1 則相反。圖表24: 標簽參數(shù) 1:T-1T+7 分層回測凈值圖表25: 標簽參數(shù) 1:T-1T+7 分層年化收益與年化超額 分層1分層2分層3分層4分層5分層6分層7分層8分層9分層1022.17%絕對收益超額收益17.41%14.16%13.22%10.72%11.51%8.62%4.37%3.14%1.34%1825%20%1215%10%65%0%2009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-2

44、32017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表26: 標簽參數(shù) 2:T-1T+20 分層回測凈值圖表27: 標簽參數(shù) 2:T-1T+20 分層年化收益與年化超額 分層1分層2 分層3分層4分層5分層6分層7分層8分層9分層1020.93%絕對收益超額收益15.63%13.60%11.78%10.70% 10.92%6.39% 6.72% 6.08%3.04%1

45、825%20%1215%10%65%0%2009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表28: 標簽參數(shù) 3:T-7T+1 分層回測凈值圖表29: 標簽參數(shù) 3:T-

46、7T+1 分層年化收益與年化超額 分層1分層2分層3分層4分層5分層6分層7分層8分層9分層1023.07%絕對收益超額收益15.09% 15.20%12.05%10.47%8.65% 8.12% 6.94%4.25%2.98%1825%20%1215%10%65%0%2009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-

47、03-250-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表30: 標簽參數(shù) 4:T-20T+1 分層回測凈值圖表31: 標簽參數(shù) 4:T-20T+1 分層年化收益與年化超額分層1分層2分層3分層4分層5分層6分層7分層8分層9分層1018絕對收益超額收益21.44%14.88% 14.20%11.62%9.02% 8.74%7.36%3.97% 4.89%2.56%25%20%1215%10%65%0%2009-01-232009-11-202010-09-132011-07-142012-05-15

48、2013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究從整體結果來看,無論使用哪組標簽,構建出的forecast_adj_txt 因子都具有良好的分層效果,說明對于標簽而言模型是穩(wěn)健的,標簽的變化不會對結果造成關鍵影響。但我們也發(fā)現(xiàn),當標簽的時間區(qū)間取太長時,多頭端的收益會有

49、所削弱,例如 T-1T+20 多頭收益弱于 T-1T+7,且T-1T+7 多頭收益弱于T-1T+1。我們認為上述結果合乎邏輯,在這里,對于標簽的理解可能脫離時序關系來理解比較合適。實際上我們的目的并不是用分析師研報直接去預測股票未來一段時間的收益,如果基于這個邏輯那么嚴格來說應該是 T-1T+20 表現(xiàn)更優(yōu)。筆者認為,這里我們只是用 T-1T+1 的股票收益來錨定分析師研報的情感表達,由于一般來說分析師點評時效性非常強,因此 T-1T+1 僅包含點評事件本身,噪音較低;如果用 T-1T+20 那么期間會包含更多非分析師點評事件的其他股票相關信息,噪音較高。故我們認為,使用T-1T+1 為標簽完

50、全合理。訓練時使用的非線性模型對比基準模型中我們使用的是XGBoost 模型,這里我們繼續(xù)對使用的非線性模型進行討論,備選的非線性模型有:Elastic Net、隨機森林、GBDT、LightGBM 及Stacking。關于這些模型的原理這里我們不再贅述,感興趣的讀者可以參考華泰金工人工智能系列往期報告。在樣本內(nèi)訓練時我們都是采用的交叉驗證訓練,各模型選擇的參數(shù)如下表所示。圖表32: 各模型超參數(shù)選擇非線性模型超參數(shù)選擇范圍XGBoost學習速率(learning_rate)0.025, 0.05, 0.075最大樹深(max_depth)3, 5行采樣比例(subsample)0.8, 0.

51、85, 0.9, 0.95Elastic Net(即帶 L1 和 L2 懲罰項的邏輯回歸)正則化強度倒數(shù)1e-5, 3e-5, 6e-5, 8e-5, 0.0001, 0.0003, 0.0006,0.0008, 0.001, 0.003, 0.006, 0.008隨機森林子樹棵數(shù)(n_estimators)100, 200, 300最大數(shù)深(max_depth)5, 7, 9GBDT學習速率(learning_rate)0.001, 0.01, 0.1最大數(shù)深(max_depth)3, 5行采樣比例(subsample)0.8, 0.85, 0.9LightGBM學習速率(learning_

52、rate)0.025, 0.05, 0.075最大樹深(max_depth)3, 5, 7特征采樣比例(feature_fraction)0.8, 0.9, 0.1Stacking基學習器二級學習器Elastic Net 和 LightGBM Elastic Net資料來源:華泰研究圖表33: 模型參數(shù):ElasticNet 回測凈值圖表34: 模型參數(shù):ElasticNet 分層年化收益與年化超額分層1相對于分層10凈值(右軸)分層1絕對凈值182016121286425%22.56%絕對收益超額收益16.02%14.25%13.97%9.93%9.21% 8.86%5.96%2.83% 1

53、.93%20%15%10%5%0%2009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-2500-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表35: 模型參數(shù):隨機森林回測凈值圖表36: 模型參數(shù):隨機森林分層年化收益與年化

54、超額21.15%絕對收益 超額收益15.60%13.78% 14.03%11.29%9.60%7.81%4.54% 4.03%2.15%25%分層1相對分層10凈值(右軸)分層1絕對凈值1820 1612 128642009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-250020%15%10%5%0%-5%分層1分

55、層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表37: 模型參數(shù):GBDT 回測凈值圖表38: 模型參數(shù):GBDT 分層年化收益與年化超額分層1相對分層10凈值(右軸)分層1絕對凈值18201612128642009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05

56、-312022-03-250025%21.15%絕對收益超額收益15.60%13.78% 14.03%11.29%9.60% 7.81%4.54%4.03% 2.15%20%15%10%5%0%-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表39: 模型參數(shù):LightGBM 回測凈值圖表40: 模型參數(shù):LightGBM 分層年化收益與年化超額分層1相對分層10凈值(右軸)分層1絕對凈值18201612 12 8 6425%21.64%17.48%13.59%絕對收益超額收益11.61%11.05%1

57、0.59%7.23% 6.76%3.65%1.96%20%15%10%5%0%2009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-312021-05-312022-03-2500-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究圖表41: 模型參數(shù):Stacking 回

58、測凈值圖表42: 模型參數(shù):Stacking 分層年化收益與年化超額分層1相對分層10凈值(右軸)分層1絕對凈值18201612 1286425%21.29%絕對收益超額收益13.77% 12.85%12.36%11.30%8.39% 9.66%6.21%5.72%3.36%20%15%10%5%0%2009-01-232009-11-202010-09-132011-07-142012-05-152013-03-112014-01-072014-11-042015-08-252016-06-232017-04-202018-02-072018-12-062019-10-082020-07-3

59、12021-05-312022-03-2500-5%分層1分層2分層3分層4分層5分層6分層7分層8分層9分層10-10%資料來源:,朝陽永續(xù),華泰研究資料來源:,朝陽永續(xù),華泰研究從各模型的對比結果來看,我們可以總結出以下結論:模型層面,在分析師盈利預測調(diào)整的情感識別場景下,不同的模型并未表現(xiàn)出非常明顯的差距。以多頭端第 1 層的絕對收益為例,XGBoost 年化收益 24.33%,是最好的模型; GBDT 年化收益 21.15%,是最差的模型;其余模型年化收益分布于 21%23%之間,并未表現(xiàn)出明顯差別,極差小于 4%;集成模型 Stacking 沒有進一步提升模型表現(xiàn)。我們對 Elast

60、icNet 和 XGBoost 模型進行 Stacking 集成,發(fā)現(xiàn)并未明顯提升模型表現(xiàn),反而不如單一 XGBoost 的回測結果,相反還造成空頭端單調(diào)性的衰減,可能是由于用于集成的兩組底層模型相關性太高所導致,因此實際操作中我們還是推薦XGBoost 模型。我們不妨更深入的思考模型對比帶給我們的啟示??梢钥吹诫m然不同的模型有差別,但不可否認這種差別很小,換言之模型本身性能的好壞對回測結果的影響沒有想象中的大(提升沒有想象中的大)。這種現(xiàn)象可能是由于,分析師盈利預測調(diào)整的情感識別是噪音較小的應用場景,在較長的時間區(qū)間內(nèi)這種規(guī)律不容易改變(實際上接下來對于樣本內(nèi)窗口長度的討論也支持這一結論):

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論