FarmPredict機器學(xué)習(xí)框架:“財經(jīng)新聞”挖掘與“股票策略”構(gòu)建_第1頁
FarmPredict機器學(xué)習(xí)框架:“財經(jīng)新聞”挖掘與“股票策略”構(gòu)建_第2頁
FarmPredict機器學(xué)習(xí)框架:“財經(jīng)新聞”挖掘與“股票策略”構(gòu)建_第3頁
FarmPredict機器學(xué)習(xí)框架:“財經(jīng)新聞”挖掘與“股票策略”構(gòu)建_第4頁
FarmPredict機器學(xué)習(xí)框架:“財經(jīng)新聞”挖掘與“股票策略”構(gòu)建_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

:包贊:包贊ozanztscomcn風(fēng)險提示:本報告結(jié)論完全基于公開的歷史數(shù)據(jù)進行統(tǒng)計、測算,文中部分?jǐn)?shù)據(jù)有一定滯后性,同時存在第三方數(shù)據(jù)提供不準(zhǔn)確風(fēng)險;模型均基于歷史數(shù)據(jù)得到的統(tǒng)計結(jié)論且模型自身具有一定局限性并不能完全準(zhǔn)確地刻畫現(xiàn)實環(huán)境以及預(yù)測未來;模型根據(jù)歷史規(guī)律總結(jié),歷史規(guī)律可能失效;模型結(jié)論基于統(tǒng)計工具得到,在極端情形下或存在解釋力不足的風(fēng)險,因此其結(jié)果僅做分析參考。本報告提到的任何基金產(chǎn)品不構(gòu)成任何投資收益的保證或投資建議。告FarmPredict傳統(tǒng)人工智能方法挖掘文本信息從而構(gòu)建股票組合效果一般,范劍青老師等人提出了一個通用的和自適應(yīng)的高維數(shù)據(jù)機器學(xué)習(xí)框架FarmPredict,該模型可以從文本數(shù)據(jù)中提取潛在測股票未來收益。他們在中國股市的實證結(jié)果表面,ct分的向量。潛在因子的數(shù)量由調(diào)整后特征值閾值方法估計(Fan等,2020a)。這是一個純粹了在文本數(shù)據(jù)中使用無監(jiān)督學(xué)習(xí)的必要性,因為它可以避免主觀假設(shè)和限制數(shù)據(jù)使用的潛在偏差。第二步,我們通過特質(zhì)因子與學(xué)習(xí)目標(biāo)(關(guān)聯(lián)股票的貝塔調(diào)整后收益)的基于因子條們使用LASSO模型基于潛在因子和篩選后的特質(zhì)因子預(yù)測資產(chǎn)價格。在每個分析步驟中new的50支股票的權(quán)重均為/20請/20告2/20請務(wù)必閱讀正文之后的聲明部分2/20 t 圖3:(0,1)X向量下的組合表現(xiàn)(當(dāng)天股票收益做Y為深藍) 14圖4:X向量為(0,1)下的組合 14 3/20請務(wù)必閱讀正文之后的聲明部分3/20本中直接提取此類信息。tFarmPredict第一步是無監(jiān)督地從高維新聞向量中學(xué)習(xí)隱含特征。通過主成分分析(PCA)將多篇新聞詞向量X轉(zhuǎn)換為k有來自先驗假設(shè)(非參數(shù)統(tǒng)計)的干擾,所有信息都是從新聞學(xué)習(xí)的。這種方法也可以避第二步是條件相關(guān)篩選(conditionalcorrelationscreening),篩選與學(xué)習(xí)目標(biāo)(即新聞對應(yīng)的股票收益率Y或tchargedwords告4/20請務(wù)必閱讀正文之后的聲明部分4/202.FarmPredict機器學(xué)習(xí)框架2.1問題設(shè)置我們用詞級別的統(tǒng)計數(shù)據(jù)作為n篇文章(詞包)中每一篇的總結(jié)。設(shè)D是我們的n篇文章數(shù)據(jù)中所有可能在范的914K篇文章的數(shù)據(jù)集中,有1,181K個獨特的詞1在整個D組中,只有71K個詞出現(xiàn)在至少50篇文章中。2.2FarmPredict方法情 (FarmPredict)。 (1)選擇經(jīng)常使用的詞語:在我們數(shù)據(jù)集里超過110萬個不同的詞(和短語)中,大部分都很少出現(xiàn)。告5/20請務(wù)必閱讀正文之后的聲明部分5/20這些詞也幾乎沒有用處,因為它們不太可能出現(xiàn)在要打分的新文章中。這種篩選也有助于我們將重Dfreq={j-thwordinD:kj3k}(2.1) Xi=Bfi+ui,i=1,…,n,(2.2)其中fi=Rk是k個潛在因子的向量,B是因子載荷矩陣,ui=RDfreq是不能被fi解釋(與fi不相關(guān))的特X=FBT+U其中X和U是nDfreq的數(shù)據(jù)和特異成分的矩陣,并且F是n×k的潛在因子的矩陣。這里,只有X是可這些因子可以被理解為類似于話題得分,而因子載荷B給這些因子(話題)提供了不同的組合。對這些因素 Dfreq的回報結(jié)果Yi。按照Fan等人(2020b)的類似想法,我們用潛在的fi和ui預(yù)測因子,建立模型:Yi=a+bTfi+bTui+ei(2.3)告6/20請務(wù)必閱讀正文之后的聲明部分6/20 (3)學(xué)習(xí)因素和特異性成分:對于一定數(shù)量的因子k,我們通過最小二乘法擬合近似的因子模型(2.2),Tntala說,k被估計為校正后的值在統(tǒng)計學(xué)上大于1的數(shù)量。=max{j<Dfreq:入?>1+CDfreq/(n-1)}(2.4)CXjjnCjpDfreq給定的j,定義:mn,j(z)=p-j-ê1l(l-z)-1+3(j?j+1/)4-z)-ú,1mn,j(z)=-(1-pj,n-1)z-1+pj,n-1mn,j(z) uY行帶截距項的線性回歸之后的殘差向量。這就取出了Y中可YuFanLv說,u與詞j的特異性成分j之間告7/20請務(wù)必閱讀正文之后的聲明部分7/20Fjk閾值α將被定為選擇1000個左右的詞。這一步是可選的(對應(yīng)于α=0),但有助于我們加快計算速度。 ta?,,=argmina,b,b?i(Yi-a-bTfi-bTui,)2+入‖b‖1(2.6)Dfrequi是指ui在帶情感色彩的的詞中的成分。懲罰λ,將由交叉驗證選擇,控制模型的偏差-方差DfreqSCAD和elasticnet等(Fan等人,2020c;Nagel,2021)。 兩個步驟。對于一個給定的新特征Xnew,讓我們把它分解為因素和特異性成分。用給定的,將最小二乘法應(yīng)用于模型(2.2),我們可以得到潛在的因子fnew以及與特征Xnew相關(guān)的特異性成分unew:fnew=T-1TXnew,unew=Xnew-new(2.7)new=a?+Tfnew+Tunew,(2.8)告8/20請務(wù)必閱讀正文之后的聲明部分8/202.3FarmPredict的變種的任務(wù)。首先,響應(yīng)變量變量Y可以是超額收益或二分法的收益(正或負(fù))。在后一種情況下,我們可以使用條件篩選(2.5)和條件預(yù)測(2.7)也可以進行修改以適應(yīng)Logistic回歸模型;見Fan等人(2020c)。或Logistic回歸中得知。最后,線性預(yù)測模型(2.3)可以被非線性模型所取代:如神經(jīng)網(wǎng)絡(luò)模型(Horel和Giesecke,2020)或結(jié)構(gòu)化非參數(shù)模型(Fan等,2020c)。2.4特別主題模型SESTM,由Ke等人(2019)提出,是一個特別的的雙主題模型,用于學(xué)習(xí)基于股票收益的新文章的情緒。iiYiSSdi,S~Multinomial(si,piq++(1-pi)q-)(2.9)告9/20請務(wù)必閱讀正文之后的聲明部分9/20θ+和θ_.前者使用Fan和Lv(2008)中的確定(邊際)篩選技術(shù),后者則在訓(xùn)練集中回報Yi的百分位排名的學(xué)習(xí)。一旦學(xué)會了帶感情色彩的詞和它們的語義,一篇新的文章的感情分?jǐn)?shù)pi就可以用基于模S個條件。首先。它需要出現(xiàn)得足夠頻繁。第二,該詞需要與Yi有足夠的相關(guān)性,這是由它與回報率的符號的邊際相關(guān)性(Fan和Lv,2008)來衡量的。在目前的情況fj=#articleswithwordj#articlesfj=#articleswithwordjScreen={j:fj30.5+a+orfj£0.5-a-}?{j:kj3k}(2.10) =(PTP)-1PTDS(2.11)2這里計算了當(dāng)詞j出現(xiàn)在文章里時,詞j與正收益相關(guān)的比例。既然收益要么正要么負(fù),很少正好是0,那么1-fj就是詞j與負(fù)收10/20請務(wù)必閱讀正文之后的聲明部分10/20P有最主題模型中,SESTM使用信息Y來指導(dǎo)用(2.11)對的學(xué)習(xí)。對于每一篇文章i,將pi的值分配為歸一化秩 (normalizedrank)p?i=(rankofYiin{Yj}=1/n(2.12)給新文章打分有了在(2.10)中定義的估計量Topic,+and-,我們已經(jīng)準(zhǔn)備好了為新文章分配情感。對于一篇新文章的字?jǐn)?shù)為dnew的新文章,其情感分?jǐn)?shù)是通過懲罰性最大似然法(PMLE)估計的。SESTMp?new=argmaxp?log(p++(1-p)q?j-)d+入PMLElog(p(1-p)),(2.13)j?Sj?S2.5FarmSelect與SESTM的比較FarmSelectSESTMXiYi。FarmSelect考慮到了情感分配作用。和相互作用,而SESTM則主要使用單個詞來計算情感分?jǐn)?shù)。而SESTM主。在選擇情感變化的詞時,F(xiàn)armSelect從一個全面的詞匯集開始,選擇一個詞的子集以通過(2.6)對結(jié)果進行最佳預(yù)測。相比之下,SESTM依靠邊際篩選(2.10)來選擇,這就忽略了詞語之間有著更高的日收益的文章未必表明它有更高的情感。并且,收益是橫跨多年比較1/20請務(wù)必閱讀正文之后的聲明部分1/20的相互作用。這一步驟可以通過使用懲罰性邏輯回歸(2.14)來改善,代價是更高的計算成本,這使得它與minw,c?iiw+c-log1+expw+c+入Logistic‖w‖1(2.14)Lasso就導(dǎo)致了三種選擇帶有感情色彩的詞Topic用于主題建模的可能1.通過邊際相關(guān)篩選出的詞Screen2.通過懲罰性邏輯回歸選擇的詞Logistic3.兩種方法選擇的詞的并集ScreenLogisticFarmPredictSESTMFarmPredict預(yù)測結(jié)果。然而。SESTM主要依靠兩個模型(2.11)和(2.13)以及情感分?jǐn)?shù)分配(2.12)。因此,它對模型假設(shè)的穩(wěn)健12/20請務(wù)必閱讀正文之后的聲明部分12/20告3.數(shù)據(jù)獲取與定義1數(shù)據(jù)獲取不同于Fanetal.(2021)使用新浪財經(jīng)的新聞數(shù)據(jù),本文使用的新聞數(shù)據(jù)來自于金融界()。httpstockjrjcomcnxwk00104_1.shtml上即可查看。Fanetal以廣度優(yōu)先的方式從新浪財經(jīng)主頁開始抓取,這種方法依賴于新浪財經(jīng)主頁的狀態(tài),不同時間3.2變量定義二進制詞向量表示新聞的分詞結(jié)果是否出現(xiàn)在當(dāng)期詞袋Dfreq中(Dfreq會在后續(xù)給出定義)。詞頻向量表示新聞的詞袋中13/20請務(wù)必閱讀正文之后的聲明部分13/20告yrawret發(fā)布,yrawret為周三的收益率yrawret_dyrawret大于0,rawret_d為1,否則為0ynextrawret收益率ynextrawret_dybetaretMybetaret_dybetaret大于0,ybetaret_d為1,否則為0ynextbetaretynextrawretCAPM到估計收益ynextbetaret_dynextbetaret大于0,ynextbetaret_d為1,否則為0表示訓(xùn)練時X使用xd(二進制詞向量),Y使用yrawret(包含新聞發(fā)布時間的兩個相鄰收盤價計算出來的收益率),預(yù)測時同樣使用xd(二進制詞向量)帶入訓(xùn)練模型進行預(yù)測。4.模型訓(xùn)練與預(yù)測計算1具體訓(xùn)練過程 (1)在每次訓(xùn)練時,使用最近1年的所有新聞數(shù)據(jù),對其利用Jieba分詞,去除常見停用詞和純數(shù)字分詞結(jié)果,freq告14/20請務(wù)必閱讀正文之后的聲明部分14/20Dfreq={jthwordinD:k3k}(1) 建詞向量X。我們構(gòu)建的詞向量包括二進制詞向量(分詞結(jié)果是否出現(xiàn)在當(dāng)期詞袋中)和詞頻向量(分詞結(jié)果出現(xiàn)在當(dāng)期詞袋中的次數(shù))。 (3)對詞向量進行分解降維。按照Fanetal.(2021)的文章,對詞向量進行下列建模:Xi=Bfi+ui,i=1,...,n,=max{j<|Dfreq|:>1+C}X=FBT+U按照Fanetal.(2021)的方法,估計出和后,可以計算出估計的:=X-T (4)中并非所有的詞都與新聞相對應(yīng)的收益Y有很高的相關(guān)性,因此根據(jù)Fanetal.(2021)對進行條件相關(guān)篩選(conditionalcorrelationscreening)。u是Y對線性回歸后的殘差。篩選過程如下:告15/20請務(wù)必閱讀正文之后的聲明部分15/20 Yi=a+bTfi+bTui,+ei(7),,=argmina,b,b?i(Yi-a+bTfi+bTui,)2+入b1(8)4.2預(yù)測 分詞,利用和訓(xùn)練期相同的詞袋構(gòu)建詞向量(二進制詞向量和詞頻向量),得到本交易日的Xnew。 (2)利用訓(xùn)練期估計的因子載荷矩陣,計算本交易日新的隱含因子Fnew和特質(zhì)矩陣Unew。再結(jié)合訓(xùn)練期篩選出的,將Fnew和Unew()帶入訓(xùn)練期已經(jīng)估計好的Lasso模型,得到預(yù)測的new。Fnew=T-1TXnew(9)U=XU=X-BFnewnewnewi,new=+Tfi,new+Tui,new,(11) 練和預(yù)測,我們舉例說明。比如,在2021年12月31日對模型進行更新時,使用的告16/20請務(wù)必閱讀正文之后的聲明部分16/20訓(xùn)練期模型更新日期預(yù)測期前十二個月當(dāng)日后六個月例12021年1月1日至2021年12月31日2021年12月31日2022年1月1日至2022年6月30日例22021年7月1日至2022年6月30日2022年6月30日2022年6月30日至2022年12月31日12/31區(qū)間內(nèi)全除停用詞和純數(shù)字分詞結(jié)果,用2.隨機抽樣區(qū)間內(nèi)5000條新聞,并3.利用FARM方法(公式2-公式5)4.對U進行條件相關(guān)篩選,選取和預(yù)測期(2022/1/1-2022/06/30):1.每個交易日收盤前獲取自上次收2.利用訓(xùn)練期FARM得到的估計fnew和unew,將fnew和unew()帶入訓(xùn)練期的Lasso模型得到預(yù)測5.利用公式8進行Lasso擬合,保5.計算結(jié)果組合構(gòu)建規(guī)則就是每天收盤集合競價開始計算模型,算完后,按照當(dāng)天收盤價買入當(dāng)前交易日預(yù)測值new靠前的50條新聞對應(yīng)的股票,以當(dāng)前交易日收盤時的總市值為權(quán)重,并持有至下一個交易日收盤時,這個是告X向量是詞語頻數(shù),Y向量是股票當(dāng)天或者下一天的收X下的組合表現(xiàn)(當(dāng)天股票收益做Y為深藍)上圖,如果把X換成(0,1)輸入值,效果更好。圖3:(0,1)X向量下的組合表現(xiàn)(當(dāng)天股票收益做Y為深藍)17/20請務(wù)必閱讀正文之后的聲明部分告18/20請務(wù)必閱讀正文之后的聲明部分18/20圖4:X向量為(0,1)下的組合

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論