量化專題報告:基于可見性圖嵌入的滬深300深度學習增強策略_第1頁
量化專題報告:基于可見性圖嵌入的滬深300深度學習增強策略_第2頁
量化專題報告:基于可見性圖嵌入的滬深300深度學習增強策略_第3頁
量化專題報告:基于可見性圖嵌入的滬深300深度學習增強策略_第4頁
量化專題報告:基于可見性圖嵌入的滬深300深度學習增強策略_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告1相關(guān)研究1.量化專題報告:冷門獵手:權(quán)益基金提前布局能力分析-2023/10/122.量化專題報告:驅(qū)動創(chuàng)新的資本力量:創(chuàng)新效率中的超額收益-2023/10/123.量化專題報告:從傳統(tǒng)策略到深度學習的可轉(zhuǎn)債投資-2023/10/104.資產(chǎn)配置月報:十月配置視點:能源板塊5.量化周報:景氣度跳升,節(jié)后有望反彈-20基于可見性圖嵌入的滬深300深度學習增強策略可見性圖可以刻畫量價時序性結(jié)構(gòu)特征??梢娦詧D是一種將時間序列數(shù)據(jù)轉(zhuǎn)化成一張圖結(jié)構(gòu)的方法。抽取可見圖的結(jié)構(gòu)特征并訓練分類器的方法被廣泛用于時間序列數(shù)據(jù)的分類問題??梢妶D轉(zhuǎn)化為復雜網(wǎng)絡后,復雜網(wǎng)絡的結(jié)構(gòu)包含了時間序列中局部或者全局的波動率與趨勢信息,多篇研究利用可見性圖及其特征進行時序數(shù)據(jù)的預測并取得了顯著效果。簡單的可見性圖結(jié)構(gòu)特征可以構(gòu)造弱有效的選股因子,日度IC均值0.03。利用結(jié)構(gòu)向量法提取圖結(jié)構(gòu)特征,可以刻畫股票的潛在屬性。盡管人為定義計算的可見性圖結(jié)構(gòu)特征已經(jīng)被證實過對時序數(shù)據(jù)有一定的分類效果,我們選擇用一種無監(jiān)督學習的方式來抽取復雜網(wǎng)絡的圖結(jié)構(gòu)特征——結(jié)構(gòu)向量法。與傳統(tǒng)的圖嵌入方法相比,struc2vec更加高效,且在多個數(shù)據(jù)集上分類更加精確,并可以應用于大規(guī)模圖的嵌入。用結(jié)構(gòu)向量法提取的圖結(jié)構(gòu)特征對滬深300的股票進行聚類,在多種風格因子上有顯著分類效果,在周期行業(yè)上區(qū)分效果相對不明顯。利用二階段循環(huán)神經(jīng)網(wǎng)絡與跨資產(chǎn)注意力網(wǎng)絡構(gòu)造預測模塊,從而納入潛在屬性及股票間的相互關(guān)系。兩階段注意力循環(huán)神經(jīng)網(wǎng)絡DA-RNN可以通過按照時間順序上不斷訓練結(jié)構(gòu)性信息的模型結(jié)構(gòu),提取圖結(jié)構(gòu)嵌入特征,在生成股票因子表示時納入股票的潛在信息??缳Y產(chǎn)注意力網(wǎng)絡CAAN可以對股票間的相互關(guān)系進行建模,計算batch內(nèi)因子表示的相似度,作為注意力機制的來源。最終通過sigmoid函數(shù),以下一個交易日股票價格是否上漲為因變量進行建模,輸出股票上漲概率。利用混淆矩陣來衡量模型準確率,驗證集內(nèi)準確率68%,精確率達70%。日頻模型選股和擇時效果顯著,合成股指信號依然有效。將模型預測的個股日度上漲概率作為日頻選股因子struc_learning,因子日度IC均值0.16,ICIR1.2;中性化后因子表現(xiàn)有所下降,但選股效果依然顯著。日度調(diào)倉多頭組合年化超額收益95.6%,信息比率8.0,但策略容量較低。增加持股數(shù)量構(gòu)建滬深300增強組合,組合平均持股數(shù)量137只,策略容量顯著上升,年化超額收益46.7%,信息比率5.87。用個股信號合成股指日度漲跌概率信號,并構(gòu)建滬深300倉位擇時策略,年化超額收益13.3%,信息比率1.47,預測漲跌準確率64%。風險提示:量化模型基于歷史數(shù)據(jù),市場未來可能發(fā)生變化,策略模型有失效可能。量化專題報告本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告21可見性圖的構(gòu)造以及圖結(jié)構(gòu)嵌入 31.1可見性圖 31.2復雜網(wǎng)絡的節(jié)點權(quán)重 51.3從圖結(jié)構(gòu)中提取嵌入信息 52模型結(jié)構(gòu)與開箱分析 82.1基于圖結(jié)構(gòu)嵌入的深度神經(jīng)網(wǎng)絡 82.2DA-RNN網(wǎng)絡 92.3CAAN網(wǎng)絡 2.4圖結(jié)構(gòu)特征對股票的分類效果 3模型效果實證 3.1參數(shù)選擇及準確率衡量 3.2模型選股表現(xiàn) 3.3模型擇時表現(xiàn) 4總結(jié)與思考 225風險提示 236參考文獻 24插圖目錄 25量化專題報告本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告31可見性圖的構(gòu)造以及圖結(jié)構(gòu)嵌入可見性圖(VisibilityGraph)是一種將時間序列數(shù)據(jù)轉(zhuǎn)化成圖結(jié)構(gòu)的方法。抽取可見圖的結(jié)構(gòu)特征并訓練分類器的方法被廣泛用于時間序列數(shù)據(jù)的分類問題。可見性圖的定義如下:對于一個時間序列P=(p1,…pn),其可見圖表示為:給定兩個數(shù)據(jù)點(ti,pi)和(tj,pj),若其中的所有數(shù)據(jù)點(tk,pk),ti<tk<tj滿足:pk<pi+(pj?pi),則兩點的連線視為一條“邊”(edge時序中所有符合條件的數(shù)據(jù)點以及其“邊”的集合即為這一時序的可見圖。用更直觀的角度解釋:若將一個時間序列表達為一個柱狀圖,依次站在柱子的頂端“往前看”,如果可以“看到”任意一條柱子的頂端,則在這兩條柱子間連接一條線,形成具有網(wǎng)絡結(jié)構(gòu)的邊。圖1:可見性圖連接規(guī)則示意可見圖方法通過結(jié)構(gòu)圖直觀地展示時間序列映射后的復雜網(wǎng)絡,此時的復雜網(wǎng)絡繼承了時間序列的屬性。使用可見圖方法轉(zhuǎn)換時間序列為復雜網(wǎng)絡的方法最早可以追溯到2008年LucasLacasa等人的論文Fromtimeseriestocomplexnetworks:Thevisibilitygraph[1],我們可以把時間序列數(shù)據(jù)中的時間信息轉(zhuǎn)換為復雜網(wǎng)絡的節(jié)點位置信息,時間序列中的可見性關(guān)系轉(zhuǎn)換為復雜網(wǎng)絡中節(jié)點與節(jié)點間的連線關(guān)系,這種可見性的連接關(guān)系同樣刻畫了時間序列數(shù)據(jù)中數(shù)值的相對大小關(guān)系。但不同于時間序列的兩個維度t(時間)和y(數(shù)值)維度,可見圖的最終表示形式則為一個n×n的矩陣Γ,若點i與點j有連線,則矩陣中的元素yij=1,否則為0。下圖展示了某一只股票在2019年底的20天收盤價構(gòu)造的可見性圖,可視化復雜網(wǎng)絡,及矩陣化表示(紅色為1,白色為0)。本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告4圖2:某只股票20天收盤價的可見性圖及復雜網(wǎng)絡可見性圖及其特征被廣泛應用于時序數(shù)據(jù)的預測中。比如,在DaoyuanLi,etal在2018年發(fā)表的論文ExtractingStatisticalGraphFeaturesforAccurateandEfficientTimeSeriesClassification[3]中,作者將可見性圖中提取出的多個特征輸入XGBoost模型,對UCR大學創(chuàng)建的時間序列數(shù)據(jù)集中的多個時間序列數(shù)據(jù)進行了分類,并取得了顯著的分類效果,證明了可見性圖的結(jié)構(gòu)特征可以對樣本進行分類。從這一角度出發(fā),我們可以將可見性圖結(jié)構(gòu)特征的分類效果應用到股票市場中,將可見圖結(jié)構(gòu)特征作為股票的潛在屬性,輸入到神經(jīng)在A股中,可見性圖中的結(jié)構(gòu)性特征對股票有一定的選擇效果,其邏輯在于結(jié)構(gòu)中蘊含的波動性與趨勢。最簡單且常見的圖結(jié)構(gòu)特征為平均最短步長,即每個節(jié)點連到其他點最短步長的平均。想象一種U型價格走勢,按照可見性圖的規(guī)則,圖中的所有價格點都可以“看見”彼此,則類似的圖結(jié)構(gòu)有著最低的平均最短步長(一步就可以從任一點到任一點反之,若價格走勢為倒U型,則圖結(jié)構(gòu)有著最高的平均最短步長。根據(jù)類似圖結(jié)構(gòu)中包含的波動率與趨勢信息,我們可以構(gòu)建簡單的選股因子。例如,我們可以基于股票過去20個交易日收盤價可見性圖的平均最短步長減去負收盤價可見性圖的平均最短步長,構(gòu)建日頻選股因子,在全A上取得0.03的日度IC。圖3:可見性圖結(jié)構(gòu)因子日度IC本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告5除了每個網(wǎng)絡的圖結(jié)構(gòu)特征外,我們還需要考慮每一個網(wǎng)絡節(jié)點的權(quán)重,因為每個節(jié)點蘊含的信息權(quán)重是不一樣的。在傳統(tǒng)的復雜網(wǎng)絡分析框架中,有很多方法可以用來衡量節(jié)點權(quán)重,如度中心性,介數(shù)中心性,接近度中心性等。我們采用FlavianoMoroneandHernanA.Makse于2015年發(fā)表的論文Influencemaximizationincomplexnetworksthroughoptimalpercolation中提到的CollectiveInfluence[3]算法,根據(jù)Morone等人的研究,CI算法計算高效,并且相比起傳統(tǒng)權(quán)重計算方法,可以更好識別網(wǎng)絡結(jié)構(gòu)中的節(jié)點貢獻。在CI算法中,要計算點i的CI指數(shù),首先從點i出發(fā),跳l步可以到達的所有點的集合(即距離點i的最短步數(shù)為l的所有點)構(gòu)成以點i為中心,半徑為l=2的“球面”,表示為?Ball(i,l)。則每個節(jié)點的CI指數(shù)計算方式定義如下:CIi=(di?1)∑(dj?1)j∈δBall(i,l)其中d為節(jié)點的度數(shù),即節(jié)點連的邊數(shù)。我們以某只股票20天的量價指標為例,計算節(jié)點權(quán)重如下:圖4:某只股票20天量價指標的相應節(jié)點權(quán)重示例777790804872273029681301640338520520756562850120120120140128140565676855024314214830404514771401201622281641041645046190112188116116152130130132132644014498520520756562850120120120140128140closevolopenamount30216631361332165025614413625610050921441405016869561471266950508412012650631216 4632463963上一節(jié)中我們提到,傳統(tǒng)的復雜網(wǎng)絡用人為定義的結(jié)構(gòu)特征,如平均最短步長,對時序數(shù)據(jù)進行分類。盡管這種傳統(tǒng)的方法已經(jīng)被證實過對時序數(shù)據(jù)有一定的分類效果,我們選擇用一種更有效的訓練方式來抽取復雜網(wǎng)絡的圖結(jié)構(gòu)特征——結(jié)構(gòu)向量法(Struc2vec此方法由2017年LeonardoF.R.Ribeiro等人發(fā)表的研究struc2vec:LearningNodeRepresentationsfromStructuralIdentity中提出[4]。結(jié)構(gòu)向量法是一種將復雜網(wǎng)絡中的節(jié)點表示為嵌入向量,并用其進行分類的無監(jiān)督學習算法。與傳統(tǒng)的圖嵌入方法相比,struc2vec更加高效,且在多個數(shù)據(jù)集上分類更加精確,并可以應用于大規(guī)模圖的嵌入。需要注意的是,1.2中提到的CI指數(shù)與結(jié)構(gòu)向量法是兩個獨立的算法,CI指數(shù)衡量的是復雜網(wǎng)絡中每個節(jié)點的信息權(quán)重,而結(jié)構(gòu)向量法則是從這些節(jié)點中提取潛在特征,將節(jié)點信息變?yōu)榍度胂蛄浚?種算法作用不同,并無關(guān)聯(lián)。在后續(xù)模型構(gòu)建中,量化專題報告本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告6我們計算可見性圖后將分別計算CI節(jié)點權(quán)重與結(jié)構(gòu)向量嵌入,并輸入到神經(jīng)網(wǎng)絡中進行預測。Ribeiro等人認為,一個好的可以反映節(jié)點結(jié)構(gòu)特性的方法需要使得嵌入embedding向量間的距離可以反映節(jié)點之間的結(jié)構(gòu)相似性,即兩個局部結(jié)構(gòu)相似節(jié)點的嵌入距離應該相近;并且節(jié)點表示不依賴于節(jié)點本身的屬性,邊的屬性以及節(jié)點標簽,即使兩個節(jié)點離的很遠,也能夠識別出他們在結(jié)構(gòu)上的相似性?;谏鲜瞿康?,作者提出了結(jié)構(gòu)向量算法,將每一個節(jié)點表示為嵌入向量。核心思想是:先根據(jù)節(jié)點相似度構(gòu)建多個圖層,在其中進行多次隨機游走并構(gòu)建上下文環(huán)境,再將上下文環(huán)境套入Word2vec算法中的skip-gram模型,學習每個節(jié)點的向量表示。skip-gram模型是一種用于生成詞向量的神經(jīng)網(wǎng)絡模型。它的目標是通過學習上下文信息來捕捉單詞之間的語義關(guān)系。具體而言,skip-gram模型試圖預測給定一個中心單詞周圍出現(xiàn)的其他單詞。舉個例子來說,假設我們有一個句子:“北京的天空很藍”。在skip-gram模型中,我們將選擇一個中心單詞比如“天空”,并嘗試預測它周圍出現(xiàn)的其他單詞。通過這樣的訓練過程,skip-gram模型可以學習到每個單詞在不同上下文中的表示,對應到復雜網(wǎng)絡中,即可以學習到每個節(jié)點在隨機游走構(gòu)建的上下文環(huán)境中的向量表示。結(jié)構(gòu)向量法的大致計算步驟如下:1.根據(jù)不同距離的相鄰節(jié)點信息,對K*個k跳鄰域分別計算每兩個節(jié)點的相似度,即計算K*個層級的相似度信息,其中K*為網(wǎng)絡的直徑,即網(wǎng)絡中任意兩點距離的最大值。計算相似度的核心思想是,如果兩個節(jié)點的度相同,那么這兩個節(jié)點結(jié)構(gòu)相似;如果這兩個節(jié)點的鄰居度也相同,那么這兩個節(jié)點的結(jié)構(gòu)相似性比前者更高。圖5中左邊展示了一個網(wǎng)絡集合以及節(jié)點u和v的相似度算法示意,其中g(shù)代表了R2(u)和R2(v)的距離函數(shù),具體算法在本文中不再贅述。2.構(gòu)建一個帶權(quán)重的多層圖,層數(shù)為K,每個圖層中都包含網(wǎng)絡中的所有節(jié)點,且每兩點間均有邊,邊的權(quán)重與以這一層的層數(shù)k計算的兩點的結(jié)構(gòu)相似度有關(guān),兩個點結(jié)構(gòu)相似度越高,這條邊的權(quán)重越高。3.使用有偏的隨機游走生成每一個節(jié)點的路徑:對于每個節(jié)點,從基層開始進行隨機游走,節(jié)點的每一次游走可以走到同一層的其他點,或是上下層的同一點,概率與步驟2中的邊權(quán)重有關(guān)。圖5中展示了3個圖層的情況下隨機游走的路徑示意。4.根據(jù)多次隨機游走獲得的多個序列,將序列類比為上下文環(huán)境,使用Skip-Gram算法來生成節(jié)點表示。我們選擇為20個節(jié)點的網(wǎng)絡中的每個節(jié)點生成P=32的向量表示。量化專題報告本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告7圖5:結(jié)構(gòu)向量法示意圖本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告82模型結(jié)構(gòu)與開箱分析基于可見性圖的圖結(jié)構(gòu)嵌入可以應用到深度神經(jīng)網(wǎng)絡中。我們在上一篇深度學習的專題報告《深度學習如何利用公募持倉網(wǎng)絡優(yōu)化選股效果?》中,論證了神經(jīng)網(wǎng)絡中加入股票潛在屬性嵌入的可行性,提出了用股票動態(tài)的潛在屬性影響因子表示并預測股票收益的方法(即將embedding與LSTM輸出的隱藏層一起拼接到MLP中)。在本篇報告中,我們參考Wu,J.etal.,2022[6]中提出的圖結(jié)構(gòu)嵌入的神經(jīng)網(wǎng)絡預測模型,采用類似的思路:我們在1.3中提出了用結(jié)構(gòu)向量法構(gòu)建每一個可見性圖的嵌入表示,以此來表示股票的潛在屬性。接下來,我們在預測模塊中將圖結(jié)構(gòu)嵌入輸入到深度神經(jīng)網(wǎng)絡中,進行股票漲跌預測。總體模型結(jié)構(gòu)如下:圖6:基于圖結(jié)構(gòu)嵌入的深度神經(jīng)網(wǎng)絡結(jié)構(gòu)在上圖的網(wǎng)絡結(jié)構(gòu)中,我們對于每一個樣本,即單天單只股票的單個量價指標過去20天的數(shù)據(jù),計算可見性圖;隨后分別計算節(jié)點權(quán)重CI以及結(jié)構(gòu)向量嵌入矩陣。我們的預測模塊由2部分構(gòu)成,第一部分是DA-RNN,一個雙步的深度神經(jīng)網(wǎng)絡,來對嵌入信息進行編碼,并將編碼后的股票潛在屬性與原始量價信息和節(jié)點權(quán)重一起輸入到DA-RNN的第二步中,輸出股票個股當天單變量的因子表示,再將6個價量指標的隱藏層相加,輸入到跨資產(chǎn)注意力網(wǎng)絡CAAN中,最后通過一個全鏈接神經(jīng)網(wǎng)絡,即上圖中的Linear(1),以及sigmoid函數(shù)輸出一個0-1的預測變量,即個股在下一個交易日的上漲概率。下面我們將介紹預測模塊中用到的DA-RNN網(wǎng)絡和CAAN網(wǎng)絡。本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告9兩階段注意力循環(huán)神經(jīng)網(wǎng)絡Dual-stageAttention-basedRNN,即DA-RNN,可以通過按照時間順序上不斷訓練結(jié)構(gòu)性信息,用雙步的模型結(jié)構(gòu)提取圖結(jié)構(gòu)嵌入特征并輸入到特征處理中,影響原始價量數(shù)據(jù)的建模。DA-RNN由YaoQin等人在2017年發(fā)表的論文ADual-StageAttention-BasedRecurrentNeuralNetworkforTimeSeriesPrediction[7]中提出。DA-RNN是一個雙階段的注意力機制循環(huán)神經(jīng)網(wǎng)絡模型,主要思想就是將前t個時間步的信息利用編碼器encoder編碼到一個融合吸納前t個時間步信息的定長向量,然后使用解碼器decoder進行解碼對后續(xù)的時間步驟進行預測。與傳統(tǒng)的將embedding特征與隱藏層進行拼接不同,DA-RNN用Encoder-Decoder的結(jié)構(gòu)納入嵌入信息,充分利用了之前提取的結(jié)構(gòu)特征。在Encoder中,我們在每一個時間步輸入圖嵌入以用一個LSTM提取隱藏特征,并將上一個時間步的隱藏特征輸入到這個時間步,并使用輸入注意力機制來選擇相關(guān)特征(對應下圖中的InputAttention機制賦予每個特征一定權(quán)重;隨后我們在模型的第二步Decoder中加入原始量價數(shù)據(jù)以及CI算法計算的節(jié)點權(quán)重,并加入時間注意力機制來選擇整個時間步長中相應的隱藏層狀態(tài)(對應下圖中的TemporalAttention機制并計算最終的隱狀態(tài),即因子表示。圖7:DA-RNN網(wǎng)絡結(jié)構(gòu)圖7(a)中展示了DA-RNN中特有的輸入注意力機制編碼器。首先構(gòu)建一個輸入注意力層以輸出初始隱藏層?0,隨后在每一個時間步上,使用當前時刻的輸入xt以及上一個時刻編碼器的隱藏層?t?1輸入LSTM,并更新當前時間步上的隱狀態(tài)?t=f1(?t?1,xt),這里n=32,即為結(jié)構(gòu)向量法中的特征維度。隨后,把第k個特征與前一時刻的隱狀態(tài)與細胞狀態(tài)進行線性組合,再用tanh激活得到e,k=1,…,n,將e用softmax函數(shù)進行歸一化便得到了t時刻的注意力權(quán)重a=),最后更新下一步t時刻的輸入t=(ae,…,ae)。輸入注意力機制使得編碼器能夠關(guān)注其中輸入特征中重要的特征,而不是對所有特征一視同仁,這也是所有注意力機制的本質(zhì)作用。本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告10圖7(b)中介紹了第二階段的解碼器注意力機制。需要注意的是,圖7(b)中已經(jīng)包含了(a)中的過程,而圖7(a)可以看作是得到?t與t的過程細節(jié)。第二階段解碼器中采用的TemporalAttention類似于傳統(tǒng)的注意力機制,在不同時刻采用不同的背景向量(contextvector)以達到只選取相關(guān)時刻的隱藏層的目的,使得解碼器能夠關(guān)注時序中重要的隱狀態(tài),而不是對每一天的隱狀態(tài)一視同仁。其中背景向量ct=∑′=1β′?t′表示為所有時刻隱藏層的加權(quán)平均,權(quán)重β′即為注意力權(quán)重。對于注意力權(quán)重β′的計算,作者基于前一個時刻解碼器的隱狀態(tài)dt?1與細胞狀態(tài)進行線性組合,再用tanh激活得到l′,t′=1,…,T,將l′用softmax函數(shù)進行歸一化便得到了t時刻的注意力權(quán)重β′=,更新下一步的背景向量ct=∑′=1β′?t,最終更新當前t時刻解碼器的隱狀態(tài)dt=f2(yt?1,dt?1,ct?1)。而當前時刻的隱狀態(tài)dt即為我們模型中輸出的最終因子表示??缳Y產(chǎn)注意力網(wǎng)絡CAAN(Cross-AssetAttentionNetwork)可以對股票間的相互關(guān)系進行建模,作為注意力機制的來源。CAAN最早由JingyuanWang等人于2019年發(fā)表的論文:AlphaStock:ABuying-Winners-and-Selling-LosersInvestmentStrategyusingInterpretableDeepReinforcementAttentionNetworks[8]中提出。傳統(tǒng)的self-attention注意力機制著重學習輸入特征在時序上相關(guān)性較高的部分,而跨資產(chǎn)注意力網(wǎng)絡則以股票間因子的相似度作為注意力機制的來源。我們將上一步中得到的因子表示輸入到CAAN中,給定資產(chǎn)表征r,我們計算出股票i的查詢向量q,密鑰向量k,和價值向量v,q(i)=w(Q)r(i),k(i)=w(k)r(i),v(i)=w(Q)r(i)。其中w(Q),w(k)和w(v)是待學習的參數(shù)矩陣。資產(chǎn)j與資產(chǎn)i的相互關(guān)系被建模為使用資產(chǎn)i的q(i)來查詢資產(chǎn)j的密鑰k(j),即q(i)與k(j)的內(nèi)積βij,然后,將相互關(guān)系{βij}作為權(quán)重,將其他資產(chǎn)的值向量{v(i)}加起來,成為一個歸一化加權(quán)得分a(i)=ij′)?v(j),作為個股的得分。最后用全連接層,即下圖中的FullyConnectedLayer(Linear(1))通過sigmoid函數(shù)將得分轉(zhuǎn)化為個股的上漲概率,即0-1的標準圖8:CAAN網(wǎng)絡結(jié)構(gòu)示意本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告11整個模型的訓練分為兩部分。我們將嵌入模塊與預測模塊分開訓練,先得到可見性圖,隨后分別計算節(jié)點CI權(quán)重,和訓練結(jié)構(gòu)向量法模型得到節(jié)點嵌入embedding信息。預測模塊包含了上文中提到的DA-RNN與CAAN,即按照模型結(jié)構(gòu)進行端到端的訓練,輸入為原始量價信息,以及嵌入模塊中得到的節(jié)點權(quán)重CI與節(jié)點嵌入embedding,最終輸出股票的上漲概率。結(jié)構(gòu)向量法提取的圖結(jié)構(gòu)特征刻畫了股票的潛在屬性,因而對股票有一定的分類效果。在師野等作者于2022年發(fā)表的論文《基于可見圖方法的股票行業(yè)分析》中,作者用收盤價的平均度,聚類系數(shù),緊密中心性等特征對美國道瓊斯指數(shù)中的30只股票進行了聚類,得到了近似于行業(yè)的分類結(jié)果。這表明相似屬性的股票理應具有相似的價量圖結(jié)構(gòu)特征。我們?nèi)?019年年底截面上滬深300的所有股票,用訓練好的模型提取出DA-RNN編碼器的輸出,即個股的32維隱狀態(tài)。這個隱狀態(tài)表示了股票在這一截面上的“潛在屬性”。潛在屬性應是無法直接量化的屬性,它可以是多種風格和行業(yè)屬性的疊加,或者是更深層次,暫時無人發(fā)掘的股票屬性。我們對每支股票的6個價量指標輸出的隱狀態(tài)取平均,并用k-means法對300支股票進行聚類,聚類結(jié)果如下:圖9:k-means法聚類各類別股票個數(shù)我們將滬深300內(nèi)的股票聚為10類,可以看出10類的數(shù)量分布沒有明顯不均。我們進一步計算每一類股票相對滬深300的主動風格偏離,解析圖結(jié)構(gòu)特征對股票的分類效果:本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告12圖10:10類股票的風格偏離類別類別beta盈利成長杠桿流動性動量非線性市值市值價值波動率1-0.510.09-0.220.12-0.48-0.280.12-0.090.420.020.400.250.13-0.010.350.410.000.02-0.140.370.11-0.340.29-0.370.250.77-0.240.22-0.730.34-0.270.31-0.050.18-0.22-0.12-0.010.030.290.16-0.83-0.25-0.080.17-0.43-0.36-0.120.090.03-0.24-0.380.410.120.050.15-0.320.05-0.02-0.100.13-0.36-0.490.46-0.800.000.060.12-0.14-0.930.530.440.24-0.240.030.090.17-0.030.030.13-0.320.38-0.16-0.11-0.040.20-0.140.15-0.09-0.01-0.210.16-0.14-0.080.39-0.16-0.560.01-0.120.65-0.510.420.290.210.320.270.380.110.110.460.3223456789標準差從結(jié)果可以看出,每一類股票都有較為明顯的多種風格偏離,且不盡相同。類別1以高貝塔,低流動性,低動量,高價值為主;類別2以高貝塔,高流動性,高動量,低價值為主……以此類推,發(fā)現(xiàn)每一類股票都有較為明顯的多種風格??v向來看,在beta,動量,價值等風格因子上,10類股票的標準差較大,證明在這些風格上,結(jié)構(gòu)特征對股票的區(qū)分度較高,或者說股票在這幾種風格上對圖結(jié)構(gòu)特征較為敏感。圖11:10類股票的行業(yè)分布汽車銀行基礎化工通信計算機建筑及新能源食品飲料用事業(yè)機械傳媒有色金屬石油石化能源房地產(chǎn)證券交通運輸1112220110110220.83552110110226211011210111000.640044001100220110224000022133004400011111110001111300.870.8721550001132220110000220110.8004330001101101130000003310220001103310110220002210220.87330882222231066011111210441020000001100210011220.830220215522011000118002112205500440222123456789 標準差觀察行業(yè)在各個類別上的分布,可以看到圖結(jié)構(gòu)特征在證券,醫(yī)藥,銀行等行業(yè)的區(qū)分效果比較明顯。而在一些周期性行業(yè)如基礎化工,國防軍工,能源,汽車等行業(yè)上,圖結(jié)構(gòu)特征的分類效果相對較弱。總的來說,可以認為圖結(jié)構(gòu)特征根據(jù)股票的行業(yè),風格和潛在屬性,對股票進行分類,從而在DA-RNN解碼器中發(fā)揮作用,輸出更加動態(tài),包含更多股票潛在屬性的因子表示。本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告133模型效果實證模型數(shù)據(jù)輸入與參數(shù)選擇具體如下表。大多數(shù)參數(shù)選擇均與參考論文中披露的一致。建模時,我們選擇了滬深300成分股作為股票池,主要考慮到滬深300的流動性較高,以及結(jié)構(gòu)向量法的中間結(jié)果較大,無法一次訓練過多數(shù)據(jù)等原因。訓練采用80G內(nèi)存,RTX4090顯卡的服務器。Struc2vec訓練單個量價指標中間結(jié)果需要10個小時左右,預測模塊訓練單次epoch需要5分鐘左右,整個訓練過程需要運行3天左右。故全歷史訓練單次需要一周左右。圖12:模型數(shù)據(jù)與參數(shù)細節(jié)?數(shù)據(jù)窗口:個股過去20個交易日量價,圖結(jié)構(gòu)特?模型訓練:神經(jīng)網(wǎng)絡最大訓練輪數(shù)為800輪,最小為50輪;每一年訓練一次,預年的訓練模型預測2020年日度漲跌,以此類推, 我們采用混淆矩陣來衡量模型預測表現(xiàn)?;煜仃囀呛饬糠诸愋湍P蜏蚀_度中最簡單,直觀的計算方法。它分別統(tǒng)計了分類模型歸錯類,歸對類的觀測值個數(shù)。我們?nèi)∠乱蝗展善鄙蠞q為1,即positive,下跌為0,即negative。本質(zhì)上,模型在最后全鏈接層加入sigmoid,決定了模型的預測值為下一個交易日個股的上漲概率,故若預測值大于0.5,我們就認為個股會上漲,預測值取1,反之則取0,故混淆矩陣如下圖所示:圖13:混淆矩陣的四分類我們采用混淆矩陣中常用的4個指標來衡量模型的準確度。4個指標的計算方式如下:本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告14模型在訓練集和預測集上的預測效果如下圖所示:兩個數(shù)據(jù)集上的表現(xiàn)都隨訓練輪數(shù)epoch增加穩(wěn)步上升,驗證集表現(xiàn)波動稍大,最終正確率穩(wěn)定在68%左右,訓練集正確率接近80%。驗證集最高精確率超過70%,體現(xiàn)了模型在多頭段的預測能力。圖14:訓練集準確率隨訓練輪數(shù)變化圖15:驗證集準確率隨訓練輪數(shù)變化我們?nèi)∶看斡柧汄炞C集表現(xiàn)最好的一次訓練作為最終模型,將模型輸出的漲跌概率作為個股struc_learning日頻因子,在滬深300上回測日頻選股效果?;販y日期2019年1月4日至2023月18日。用當天因子值對應第二天開盤價到第三天開盤價?計算因子日度IC與分十組年化收益,因子表現(xiàn)出色,日度IC均值0.16,ICIR1.2,分十組收益單調(diào)性強。_圖16:struclearning因子日度IC__圖17:struclearning因子分十組平均年化收益_對struc_learning因子做市值行業(yè)中性化,中性化后因子IC均值下降到本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告150.1,ICIR1.13,分組收益單調(diào)性依然顯著,但收益下降明顯。 圖18:中性化struclearning因子日度IC 圖19:中性化struclearning因子分十組平均年化收益 計算因子多頭組合收益時,考慮到每日的開盤價競爭較為激烈,我們采用每日9:35的價格作為成交價格,避免股價高開,以至于因子表現(xiàn)虛高。我們進行日度調(diào)倉,取雙邊千三的手續(xù)費進行扣費,計算因子struc_learning因子分年度表現(xiàn)如下圖所示,所有年份都取得顯著收益,表現(xiàn)優(yōu)異。因子中性化后表現(xiàn)下降明顯,但整體仍能取得顯著超額收益。_圖20:struclearning因子及中性化因子分年度表現(xiàn)_年份費后多頭收多頭組合超多頭組合信多空收益990.7%中性化因子費中性化因子費中性化因子費中性化因子中性化因子益額收益息比率后多頭收益后超額收益后信息比率多空收益20192020202145.5%4.90202249.4%2023/8/18460.6%44.4%平均年化95.6%8.001721.5%62.2%26.9%395.0%因子多頭組合換手率較高,年化單邊換手率在220倍左右。_圖21:struclearning因子多頭組合凈值曲線_ 圖22:中性化struclearning因子多頭組合凈值曲線 對于中性化因子表現(xiàn)下降較多的原因,我們對多頭組合持倉計算主動風格暴量化專題報告本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告16露及行業(yè)暴露,我們計算每一期的因子暴露并統(tǒng)計均值,發(fā)現(xiàn)組合的持股并沒有在風格和行業(yè)上有過大偏離,相對較為明顯的風格是滬深300內(nèi)的相對中小市值,以及低配了食品飲料,銀行等行業(yè)。在深度學習中,我們預測的是絕對收益,預測結(jié)果中本身就包含了對風格和行業(yè)收益的預測,對因子做中性化則剝離掉了這部分收益,得不償失。_圖23:struclearning因子多頭組合平均風格偏離_ 圖24:struclearning因子多頭組合平均行業(yè)偏離 近年來,傳統(tǒng)機器學習因子表現(xiàn)波動較大的環(huán)境下,struc_learning因子仍然有著優(yōu)異的表現(xiàn),對比我們之前發(fā)布的報告《深度學習如何利用公募持倉網(wǎng)絡優(yōu)化選股效果?》中的baselineLSTM模型,效果有著明顯提升。這也證明了基于可見性圖結(jié)構(gòu)嵌入的神經(jīng)網(wǎng)絡在選股上的可行性。對因子多頭組合做策略容量大約在1千萬左右。我們?nèi)∶咳?:35-9:40的成交量最小股票的成交量乘以當天的持股數(shù)量,得到理想情況下,9:35-9:40全部成交情況下的當日策略容量測算,進行10日的struc_learning因子多頭組合平均每期持有28-30支股票,理想情況下策略4年平均容量為1.1億。若假設這部分成交量中實際情況下可以成交10%,則策略容量在千萬左右。 圖25:struc_learning因子多頭組合策略理想容量(億)本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告17由于因子多頭組合策略容量較低,我們考慮提升組合的持股數(shù)量來增加策略容量,即從截面選股策略改為類擇時策略。我們對struc_learning因子做標準化,將因子值減去0.5后除以當天因子值標準差,得到標準化struc_learning因子,并按照因子值按比例買入因子值大于0的股票,構(gòu)建struc_learning因子滬深300增強組合,組合平均持股137支,用類似的方法估算策略容量,增強組合策略容量平均為24.7億,有明顯提升。圖26:struc_learning滬深300增強組合持股數(shù)量圖27:struc_learning滬深300增強組合策略容量增加持股數(shù)量后,策略收益有所下降,但跟蹤誤差也有所降低,仍能取得良好表現(xiàn)。樣本外仍能有60%以上的勝率,證明了模型的有效性。 圖28:struc_learning因子滬深300增強組合分年度表現(xiàn)本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告18年份年份費后多多頭組合超多頭組合信頭收益額收益息比率46.9%struc_learning滬深300增強組合凈值曲線如下。_圖29:struclearning滬深300增強組合凈值曲線_由于模型在滬深300成分股中優(yōu)秀的選股與擇時能力,我們考慮用個股信號合成股指信號,構(gòu)建滬深300指數(shù)倉位擇時策略,以探索模型在股指期貨策略上的潛在應用意義。具體地,我們?nèi)∧P皖A測的個股日度漲跌概率,以市值加權(quán)至滬深300股指信號,生成滬深300股指日度漲跌概率信號,信號波動較大,分布略微左偏。 圖30:滬深300日度漲跌概率信號圖31:滬深300日度漲跌概率信號分布本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告19我們直接取當日滬深300日度漲跌概率信號作為持有滬深300指數(shù)的倉位比例。依然按照9:35分開盤價進行日度調(diào)倉,并且取雙邊千分之一作為回測費率日頻調(diào)倉,總體預測正確率64%,正確率較高。超額收益在歷史上回撤原因主要為在市場行情較好時,沒有滿倉而導致的回撤。最終年化超額收益13.3%,信息比率1.47。圖32:struclearning滬深300倉位擇時策略凈值倉位擇時策略的分年度表現(xiàn)如下:圖33:struclearning滬深300倉位擇時策略分年表現(xiàn)量化專題報告本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告20年份策略絕對收益策略超額收益信息比率夏普比率41.1%4.8%平均年化若我們采用更為激進的策略,保持勝率不變的情況下提升賠率,則可以取得更好的策略表現(xiàn)。我們規(guī)定若預測上漲概率為50%以上,則全倉持有滬深300指數(shù),否則在第二天上午9:35分賣出指數(shù)并空倉。這樣一來,策略的波動率有顯著上升,但收益可以獲得更顯著的提升。圖34:struclearning滬深300激進擇時策略凈值激進擇時策略的分年度表現(xiàn)如下:圖35:struc_learning滬深300激進擇時策略分年表現(xiàn)年份策略絕對收益策略超額收益信息比率夏普比率年份策略絕對收益策略超額收益信息比率夏普比率最大回撤201961.7%4.06-5.8%202080.9%37.6%2.204.73-9.3%202132.0%35.0%-7.2%20229.1%37.2%0.42-3.0%2023/8/186.5%8.2%0.36-4.8%平均年化38.7%29.3%2.362.41-9.3%若可以做空,則策略可以取得進一步收益。我們考慮不同信號閾值下的多空策略,分別嘗試以[0.5,0.5],[0.45,0.55],[0.4,0.6],[0.35,0.65],[0.3,0.7]五組本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告21閾值為多空信號下,模型的勝率和多空收益,例如[0.4,0.6]代表若預測指數(shù)上漲概率小于0.4,則賣空;大于0.6,則買多,若介于0.4與0.6之間,則空倉的策略收益與勝率(若空倉則不計入勝率統(tǒng)計)。隨著閾值增加,信號變窄,模型勝率有明顯提升,然而長時間的空倉導致了收益有一定下滑,在[0.45,0.55]的閾值信號上多空策略有最大的夏普比率。圖36:不同閾值信號下年化多空收益與勝率多空信號閾值[0.5,0.5]年化多空收益夏普比率預測勝率64.0%[0.45,0.55]66.9%[0.4,0.6]76.6%69.8%[0.35,0.65]44.4%71.8%[0.3,0.7]74.9%圖37:不同閾值信號下多空收益凈值曲線量化專題報告本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告224總結(jié)與思考在本篇研究中,我們利用滬深300內(nèi)股票的價量信息構(gòu)造可見性圖復雜網(wǎng)絡,使用結(jié)構(gòu)向量法提取出圖結(jié)構(gòu)嵌入,輸入到預測模塊DA-RNN+CAAN中,預測下一日的股票上漲概率,取得顯著效果,在選股和擇時方面都有較好效果,證明了可見性圖嵌入深度神經(jīng)網(wǎng)絡的可行性??梢娦詧D是一種將時間序列數(shù)據(jù)轉(zhuǎn)化成一張圖結(jié)構(gòu)的方法。抽取可見圖的結(jié)構(gòu)特征并訓練分類器的方法被廣泛用于時間序列數(shù)據(jù)的分類問題。復雜網(wǎng)絡每個節(jié)點的權(quán)重不同,我們采用CI算法定義節(jié)點權(quán)重,衡量節(jié)點及其局部結(jié)構(gòu)在整個網(wǎng)絡中的重要性。利用結(jié)構(gòu)向量法提取圖結(jié)構(gòu)特征,可以刻畫股票的潛在屬性。與傳統(tǒng)的圖嵌入方法相比,struc2vec更加高效,且在多個數(shù)據(jù)集上分類更加精確,并可以應用于大規(guī)模圖的嵌入。最后,利用二階段循環(huán)神經(jīng)網(wǎng)絡與跨資產(chǎn)注意力網(wǎng)絡構(gòu)造預測模塊,從而納入潛在屬性及股票間的相互關(guān)系。兩階段注意力循環(huán)神經(jīng)網(wǎng)絡DA-RNN可以通過按照時間順序上不斷訓練結(jié)構(gòu)性信息的模型結(jié)構(gòu),提取圖結(jié)構(gòu)嵌入特征,在生成股票因子表示時納入股票的潛在信息。跨資產(chǎn)注意力網(wǎng)絡CAAN可以對股票間的相互關(guān)系進行建模,計算batch內(nèi)因子表示的相似度,作為注意力機制的來源。利用混淆矩陣來衡量模型準確率,驗證集內(nèi)準確率68%,精確率達70%。日頻模型選股和擇時效果顯著,合成股指信號依然有效。將模型預測的個股日度上漲概率作為日頻選股因子struc_learning,因子日度IC均值0.16,ICIR1.2;中性化后因子表現(xiàn)有所下降,但選股效果依然顯著。日度調(diào)倉多頭組合年化超額收益95.6%,信息比率8.0,但策略容量較低。增加持股數(shù)量構(gòu)建滬深300增強組合,組合平均持股數(shù)量137只,策略容量顯著上升,年化超額收益46.7%,信息比率5.87。用個股信號合成股指日度漲跌概率信號,并構(gòu)建滬深300倉位擇時策略,年化超額收益13.3%,信息比率1.47,預測漲跌準確率64%?;诳梢娦詧D的時序預測有效窗口期較短,較為適合日頻策略,若增加自變量窗口期或者用周k建模,效果有較大衰減。深度學習策略可解釋性相對較弱,若未來策略失效,無法歸因,重新訓練參數(shù)耗時較長,這也是深度學習策略的通本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告235風險提示量化模型基于歷史數(shù)據(jù),市場未來可能發(fā)生變化,策略模型有失效可能。本公司具備證券投資咨詢業(yè)務資格,請務必閱讀最后一頁免責聲明證券研究報告246參考文獻[1]Lacasa,L.,Luque,B.,Ballesteros,F.,Luque,J.,&Nuio,J.C.(2008,April).Fromtimeseriestocomplexnetworks:Thevisibilitygraph.ProceedingsoftheNationalAcademyofSciences,105(13),4972–4975.[2]DaoyuanLi;JessicaLin;TegawendéF.Bissyandé;JacquesKlein;YvesLeTraon.(2018).ExtractingStatisticalGraphFeaturesforAccurateandEfficientTimeSeriesClassification.Proceedingsofthe21stInternationalConferenceonExtendingDatabaseTechnology(EDBT),ISBN978-3-89318-078-3.[3]F.Morone,H.A.Makse,Influencemaximizationincomplexnetworksthroughoptimalpercolation,Nature524(7563)(2015)65–68.[4]Ribeiro,L.F.,Saverese,P.H.,&Figueiredo,D.R.(2017,August4).struc2vec.Proceedingsofthe23rdACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.[5]AdrianColyer,September2017,themorningpaper:Struc2vec:learningnoderepresentationsfromstructuralidentity,[6]Wu,J.,Xu,K.,Chen,X.,Li,S.,&Zhao,J.(2022,April).Pricegraphs:Utilizingthestructuralinformationoffinancialtimeseriesforstockprediction.InformationSciences,588,405–424.[7]Y.Qin,D.Song,H.Cheng,W.Cheng,G.Jiang,G.W.Cottrell,Adual-stageattention-basedrecurrentneuralnetworkfortimeseriesprediction,Proceedingsofthe26thIJCAI,2017,pp.2627–2633.[8]J.Wang,Y.Zhang,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論