中泰金工文獻掘金系列三:機器學(xué)習(xí)在中文財經(jīng)文本上有效嗎_第1頁
中泰金工文獻掘金系列三:機器學(xué)習(xí)在中文財經(jīng)文本上有效嗎_第2頁
中泰金工文獻掘金系列三:機器學(xué)習(xí)在中文財經(jīng)文本上有效嗎_第3頁
中泰金工文獻掘金系列三:機器學(xué)習(xí)在中文財經(jīng)文本上有效嗎_第4頁
中泰金工文獻掘金系列三:機器學(xué)習(xí)在中文財經(jīng)文本上有效嗎_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

正文之后的聲明部分cn程報告2022年11月23日 學(xué)術(shù)文獻做中國市場的主題很少,頂流做中國市場的更少。范劍青老師等人提出了一個通用的和自適應(yīng)的高維數(shù)據(jù)機器學(xué)習(xí)框架FarmPredict,該模型可以從文本數(shù)據(jù)中提取潛在因子和特質(zhì)因子,用來輸入懲罰回歸預(yù)測股票未來收益。他們在中國股市的實證結(jié)果表融應(yīng)用中的全新范式,更是證明了大數(shù)據(jù)無論在數(shù)據(jù)上還是在方法論上都在“金融投資”中有其核權(quán)益市場上的大多數(shù)研究使用的文本數(shù)據(jù)僅限于英文環(huán)境的情緒詞典或主題建模。但是,我們能否直接從文本數(shù)據(jù)預(yù)測新聞的影響?從這樣的直接過程中我們能“學(xué)習(xí)”到多少內(nèi)容?基于因子模型和稀疏正則化(FarmPredict),我們提出了一種全新的文本學(xué)習(xí)框究,中文文本在單詞和短語間沒有自然的空格而中國股市有非常高比例的個人投資者。這兩個特性使得我們的研究顯著不同于前人聚焦英文文本和美國市場的作品。我們使用中國dict股票平均每日超額收益約83bps,而負(fù)面新聞在發(fā)布日期帶來了26bps的負(fù)向影響,這兩種影響都能持續(xù)數(shù)天。這種非對稱的效應(yīng)與中國股市的做空限制相吻合。作為總dictJanuaryJianqingFanPrincetonUniversity-BendheimCenterforFinanceirongXuePrincetonUniversity-DepartmentofOperationsResearch&FinancialEngineering(ORFE)InstituteforBigData,FudanUniversity應(yīng)用在未來可能產(chǎn)生風(fēng)險。報告19之后的聲明部分19正文目錄 18報告正文之后的聲明部分語義格或股票市場的回報,作為投資組合選擇或資產(chǎn)定價的有效工具 預(yù)測模型(FarmPredict),可以從考慮短語結(jié)構(gòu)和交叉影響的全)來預(yù)測股票收益。由于FarmPredict適應(yīng)建模過程。CA潛在因子的數(shù)量由調(diào)整后特征值閾值方法估計(Fan等,2020a)。使驟中FarmPredict也提供了高度的靈活性。00多條新聞,提供即時和全面的中文流行財經(jīng)新聞報道。我們使用WebCrawler技報告/19之后的聲明部分/19術(shù)從其網(wǎng)站下載公開可用的新聞網(wǎng)頁并提取所關(guān)注數(shù)據(jù)的FarmPredict年至2019年的數(shù)在估計情緒得分和相應(yīng)的回報上的表現(xiàn)。隨后使用多種方法驗證FarmPredict的情緒評分。義。與adhoc主題模型獲得的詞匯相比,我們證明了FarmPredict能夠捕獲更多會被邊緣篩選忽略的交互式信件研以及利好與中負(fù)面新聞的泄漏或預(yù)期做出反應(yīng)(Chen等,2019;Nagel,以帶來83bps的收益而負(fù)面消息情緒帶來26bps的損失,(正面/負(fù)面)新聞的影響都可以持續(xù)幾天。安慰劑測試的結(jié)果我們也依據(jù)金融投資模擬測試了我們的機器學(xué)習(xí)情緒等權(quán)多空組合,年化收益率達(dá)到116%(夏普比率:9.37);果了投資組合的風(fēng)險、α(貝塔調(diào)整后收益)和其它部分。α的年了有關(guān)中國股市的現(xiàn)實細(xì)節(jié),例如交易成本和日度價格限FarmPredict,我們測試了模之后的聲明部分2.方法論和符號,然后介紹了一種使用因子增強的新型回歸方法(FarmPredict);隨后是FarmPredict框架的變形應(yīng)用。我們還簡要介紹了主題模型(adhoc)及其擴展以便進比較。2.1參數(shù)設(shè)置單詞級別的統(tǒng)計信息作為n篇文章(即詞袋)的主要內(nèi)容。設(shè)D是n篇文章的數(shù)據(jù)中所有可能的中文單詞的集合,diND是第i篇文章中每個單詞的詞向量,di,k為文章中第k個單詞出現(xiàn)的次數(shù)。每篇文章由幾個基本主題(topic)組成,每個主題都有自己的首選詞di量潛在因子(latentfactors)的影主要受小的詞匯子集的影響。我們稱這組詞為情緒主導(dǎo)詞(sentiment-chargedwords)。又表現(xiàn)得很稀疏。舉例來說,在文章所搜集到的214000篇文章中一共包含了現(xiàn)次數(shù)為50次以上的只有71000個。2.2FarmPredict模型,助我們聚焦到一個合理全面的單詞Dfreq集合(1,0000個詞匯左右)。對于詞匯的篩選之后的聲明部分Dfreq=j?thwordinD:kj>K}其中kj表示第j個詞匯在所有文章中的出現(xiàn)頻次,K代表我們事先設(shè)置的閾值,是一個超參數(shù),它的作用是在Dfreq的全面性以及不常見單詞引入的噪聲之間取得一個平衡。是由一些潛在的因素影響的,也就是說Xi遵循:Xi=Bfi+μi其中fiRk是潛在因子,B是因子載荷矩陣。殘差項μiRDfreq稱為特質(zhì)因子,一個無X=FB+UT(2.2)Fanbfi與特質(zhì)因子μi建立對收益YiYi=a+bfTi+βTμi+i(2.3)其中i為誤差項,使用fi與μi作為自變量會使得變量之間的相關(guān)性大幅降低,從而有效在給定因子數(shù)量k的情況下,我們使用最小二乘對2.2式進行求解,得到PCA的主成分(求解過程可參考BaiandNg,(2002);Fan等(2020c);StockandWatson,(2002)),之后的聲明部分kk其中Vk代表矩陣XXT最大的k個特征值代表的特征向量矩陣。而對于超參數(shù)k的確定,F(xiàn)anc據(jù)驅(qū)動的方法。該方法考慮了觀測變量的異質(zhì)尺度 個數(shù)。具體來說,k被估計為統(tǒng)計意義上大于1的校正值的數(shù)量:種因子之后,我們可以進一步鎖定出那些具有明顯情緒影響的詞語。條件篩選(Conditionalscreening)是尋找與Yu相關(guān)度高的詞(FanandLv,2008),更準(zhǔn)確j對應(yīng)于α=0),但是可以幫助我們加快計算速度。這相當(dāng)于在Dfreq的基礎(chǔ)上又對詞集進行了更精準(zhǔn)地定位與簡化。FarmPredict需要求解下面的帶懲罰項最小二乘問題:之后的聲明部分i(2.8)之后的聲明部分3.數(shù)據(jù)和分析據(jù)收集站。我們的WebCrawler訪問了約630萬個580萬是有效的新聞文章。對于每個下載的網(wǎng)頁,發(fā)布時間html頭部提取。文章主體從對應(yīng)html文件中ID標(biāo)記為articleD理清理、選擇和準(zhǔn)備下載的數(shù)據(jù)以達(dá)到擬合模型的標(biāo)我們移除重復(fù)和高度相似的文章;題都修剪為中文字符;聯(lián)股票的“有效收益”。Beta-adjustedReturnit=DividendAdjustedReturnit-SSECReturnit得這段時間的股票收益能夠充分反應(yīng)新?lián)褡罱鼉蓚€交易日作為有效收益:之后的聲明部分隨后我們使用Jieba(Sun,2017)來把一篇文章的標(biāo)題和內(nèi)容切割為詞匯(或短語)的最后,為了平衡數(shù)據(jù)差異和減低計算量,我們采用降采樣使得每天至多有300步統(tǒng)計萬個詞匯至少出現(xiàn)在50篇文章中(占所有文章的0.004%)。在所有模型中,我們都是萬個詞匯及其在每篇文章中對應(yīng)的統(tǒng)計數(shù)量開展研究。字?jǐn)?shù)統(tǒng)計矩陣高度稀數(shù)為309個詞匯和209個獨特的詞匯。所以在這個7.1萬維度的%的非零條目。個節(jié)假日。大多數(shù)新聞都是股市開市后發(fā)布,大約從上午9點左右開結(jié)束。午夜后也有一些新聞發(fā)布,但主要是自動生成的新聞或海外新參和測試年的數(shù)據(jù)。更具體地說,我們使用了從2000年到20102011到2014年的數(shù)據(jù)作為驗證集來選擇優(yōu)化參數(shù)。對于每個模等權(quán)重投資組合。在驗證集上具有最高累積回報的超參數(shù)組合在所在FarmPredict中,首先從確定方程(2.4)中的C開始調(diào)參,它控制了方程中使用^之后的聲明部分Dfreq。參數(shù)使得保留在中的詞匯恰好是500,1000或2000。在驗證集上進行帶懲罰項的邏輯回歸(2.6)可以進一步選擇情緒主導(dǎo)詞匯。練和測試,以六個月為基準(zhǔn)。在調(diào)參中選擇的每訓(xùn)后的6個月數(shù)據(jù)用于測試模型。測試中的每篇文章的預(yù)測分?jǐn)?shù)都會被記錄訓(xùn)19年7-12月作為測試期。10個窗口期,并記錄了2015年至2019年每個交易日的預(yù)測情緒得根據(jù)我們使用數(shù)據(jù)的分布情況挑選的。在這文章的數(shù)量從42.8萬到52.9萬不等,而輸入詞匯數(shù)量從76.1萬到,因此每個窗口的輸入量X維度范圍從6.6萬到7.1萬。之后的聲明部分4.主要結(jié)論4.1情緒評分的驗證FarmPredictadhoc中邊際篩選的結(jié)果對比。下圖中的情緒主導(dǎo)FarmPredict能夠利用整篇文章的信息,選出一些符合自然人特定語言和寫作習(xí)慣之后的聲明部分2019年12月的貝塔調(diào)整后收益的面板數(shù)據(jù),我們進行如下多Returnit=Sentimenti,t?1+Returni,t?1+Returni,t?2+Returni,t?3+t+it分,而t是時間(日度)效應(yīng)。由于收益可能跟過去相關(guān),所以我們加入了滯后項作同模型估計的情緒分?jǐn)?shù)的結(jié)果。我們逐漸將控制變量添加到模的正相關(guān)關(guān)系(列1、4和7)。這種正相關(guān)顯著地保持穩(wěn)健,在加入滯后項后有所用來建立高收益(經(jīng)貝塔調(diào)整后)的投資組合。Returnt=AveSentimentt?1+DISPt?1+Returnt?1+Returnt?2+Returnt?3+Dyear+Dmonth+it其中Returnt是上證綜指(或深指)的指數(shù)收益,AveSentimentt?1是日度平均情緒得結(jié)果如表6所示。第1至3列、第4至6欄和第7至9欄描述基于不同模型估計的之后的聲明部分過良好調(diào)整的模型只能捕獲個股信息,但不是整個市場。聯(lián)合表54.2投資組合績效建和測試投占比1%,如果少于50個股票(正向或負(fù)向),那么就持有現(xiàn)金。我們在當(dāng)天收盤時形成我們的頭寸拍賣并在第二個交易日的收市競價時收盤。我們稱這個組合為等權(quán)組合 (EW)。類似地,我們構(gòu)建了價值加權(quán)組合(VW),而價值權(quán)重使用了股票前一日的與股價相關(guān)的信號。表7是各個模型的收益和風(fēng)險指標(biāo)。之后的聲明部分;價值加權(quán)組合的年收益率也達(dá)到了48%,但不如等權(quán)投資組合。這表明大盤股受redict,可能難以之后的聲明部分計投資組合,只在流動性達(dá)到最大的閉市集合競價時進行交,中國股市的賣空限制也可能顯著增加賣空成們測試了5年至2019年的年化收益約41.2%,之后的聲明部分3敏感性測試輸入變量的形式時,我們測試了2*4=8種組合,其中Y取貝塔調(diào)整后收X在測試投資組合中的股票數(shù)量時,我們測試了25、50和100(多空中的單邊個股數(shù)量)的情況,發(fā)現(xiàn)小規(guī)模的投資組合收益表現(xiàn)波動大但累計收益最高。之后的聲明部分5.總結(jié)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論