量化投資與機器學習_第1頁
量化投資與機器學習_第2頁
量化投資與機器學習_第3頁
量化投資與機器學習_第4頁
量化投資與機器學習_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

0.量化投資需要什么技術?量化投資與機器學習,問題的定義是什么?需要先定義量化投資,進而才能思考機器學習技術在其中的應用。第一頁,共21頁。我們如何看待量化投資投資收益/風險量化投資根據(jù)不同的資金端收益風險需求,使用量化手段進行資產(chǎn)端配置,為客戶提供投資管理服務。量化手段主要體現(xiàn)于資產(chǎn)端的投資管理。資金端資產(chǎn)端2023/4/122第二頁,共21頁。量化投資的應用場景絕對收益目標相對收益目標按照投資目標劃分權益類資產(chǎn)固定收益類資產(chǎn)商品期貨類資產(chǎn)大類資產(chǎn)配置按照投資標的劃分長期短期日內高頻按照投資期限劃分投資標的期限目標2023/4/123第三頁,共21頁。量化投資需要解決的問題無論是絕對收益目標還是相對收益目標,無論何種投資期限,量化投資需要解決的問題都可以總結為“挖掘收益”和“控制風險”維度之一:選股,what維度之二:擇時,when維度之三:交易執(zhí)行,how挖掘收益市場風險:市場波動風險,跟蹤誤差風險……黑天鵝風險:財務造假,負面新聞…………控制風險2023/4/124第四頁,共21頁。傳統(tǒng)量化投資技術歷史行情數(shù)據(jù)歷史財務數(shù)據(jù)歷史研究、輿情、公告…………歷史數(shù)據(jù)將數(shù)據(jù)結構化,提取特征按照特定邏輯,通過統(tǒng)計方法對特征建立模型:因子選股:要統(tǒng)計因子IC等指標,傳統(tǒng)因子模型也是基于對收益率的線性回歸;擇時策略:要統(tǒng)計信號的勝率、賠率、頻率,并在樣本內樣本外做比對;交易策略:類似于擇時;風險控制:績效分析是基于線性模型的,其他風險控制手段也基于一些風險特征在歷史上的表現(xiàn)。經(jīng)典統(tǒng)計學方法論將基于歷史數(shù)據(jù)的統(tǒng)計模型應用于當時的投資問題為什么模型失效?歷史不重演了?歷史不會完全重演;模型是歷史的不完全表述;我們認為,除非市場出現(xiàn)重大變故(類似熔斷,股指期貨限倉),歷史規(guī)律不會斷然變化,而連續(xù)變化的歷史規(guī)律是可以捕捉的。雖然歷史不會完全重演,但量化投資僅需要把握部分重演的歷史。讓模型更好表述歷史、預測未來,是量化投資研究的努力方向。量化投資2023/4/125第五頁,共21頁。量化投資需要什么技術?數(shù)據(jù)處理建模大數(shù)據(jù)=新世界異構數(shù)據(jù)的流水線特征工程結構工程大數(shù)據(jù)時代來臨,量化投資可以使用的基礎數(shù)據(jù)充滿可能性,大數(shù)據(jù)有望提升模型表述能力。利用工程學方法構造數(shù)據(jù)分析的流水線,不斷提高數(shù)據(jù)的時效性。統(tǒng)計模型基于人類對于數(shù)據(jù)的觀測,依賴于經(jīng)營性的特征提取,深度學習可以通過定義結構進一步挖掘信息。2023/4/126第六頁,共21頁。1.我們感興趣的機器學習技術機器學習技術發(fā)展日新月異,但在狹義的量化投資領域的應用才剛剛開始。第七頁,共21頁。數(shù)據(jù)獲取與數(shù)據(jù)處理從海外經(jīng)驗來看,投資領域對于另類數(shù)據(jù)的使用已經(jīng)起步,數(shù)據(jù)使用范圍可謂相當多樣。從數(shù)據(jù)獲取來看,主要來源如下:輿情文本、衛(wèi)星圖像、交通信息、物流信息、網(wǎng)絡搜索、電商信息等。對應于這些數(shù)據(jù)來源,所需要的數(shù)據(jù)處理技術包括:自然語言處理、計算機視覺等。2023/4/128第八頁,共21頁。自然語言處理技術從數(shù)據(jù)處理和特征提取角度來看,目前自然語言處理技術已經(jīng)較為成熟,可以對諸如新聞、公告等文本信息進行大規(guī)模處理。中文分詞技術是處理中文文本數(shù)據(jù)的基礎;詞向量技術是將高維且正交的one-hot向量,轉變?yōu)榈途S且具有幾何意義的向量的技術。2023/4/129第九頁,共21頁。自然語言處理技術海外某公司現(xiàn)在已經(jīng)開始提供實時的Twitter輿情數(shù)據(jù),直觀來看,TweetVolume和Sentiment都沒有很強的領先性,但也不排除精細化處理后對投資能夠起到作用。Source:/charts/#charts-102023/4/1210第十頁,共21頁。計算機視覺技術卷積神經(jīng)網(wǎng)絡(CNN)為處理具有空間結構的數(shù)據(jù)提供了極大可能。GPU硬件技術的突飛猛進大大提升了CNN的數(shù)據(jù)處理能力,使得工業(yè)界目前已經(jīng)可以處理大規(guī)模的圖像和視頻數(shù)據(jù)。2023/4/1211第十一頁,共21頁。計算機視覺技術海外某公司通過計算機視覺技術,識別衛(wèi)星圖像等原始圖像當中的停車場停車數(shù)量信息,進而構建零售、餐飲、酒店等場景的高頻經(jīng)營數(shù)據(jù)。通過這些高頻經(jīng)營數(shù)據(jù)可以構建相應的交易信號。該公司提供了一種交易方法:計算每月的停車量同比增速,季度計算累計同比增速,計算過去6個月同比增速的布林帶,當季度累計同比增速穿越布林帶上下軌時,觸發(fā)買入賣出交易。2023/4/1212第十二頁,共21頁。機器學習模型通過對大量非結構化的數(shù)據(jù)進行處理,成為數(shù)字化、向量化的數(shù)據(jù)集,進而通過機器學習算法進行建模和訓練,是目前機器學習領域的主要方法論。工業(yè)界的機器學習模型主要解決以下問題:分類(classification)回歸/預測(regression)其他,如生成模型,強化學習模型等2023/4/1213第十三頁,共21頁。機器學習模型的表述能力以深度神經(jīng)網(wǎng)絡模型為例,早在1993年,就有學術研究從數(shù)學上證明:多層神經(jīng)網(wǎng)絡+非線性激勵函數(shù)可以近似任何函數(shù)。近期實證研究表明,隨著神經(jīng)網(wǎng)絡層數(shù)的增加,測試集的準確度逐漸提升;此外,在不增加神經(jīng)網(wǎng)絡層數(shù),僅僅增加參數(shù)個數(shù)的情況下,模型的效果提升不明顯;而在不改變參數(shù)個數(shù)的情況下,將層數(shù)從3層增加至11層,則可以顯著提升模型效果。Source:Goodfellow,I.J.,Bengio,Y.,&Courville,A.(2017).DeepLearning2023/4/1214第十四頁,共21頁。2.量化投資與機器學習我們的實踐以及思考第十五頁,共21頁。存在的障礙融合?量化投資機器學習數(shù)據(jù)大數(shù)據(jù)小投入大場景少場景多投入小2023/4/1216第十六頁,共21頁。存在的障礙將量化投資和機器學習相提并論是不適合的……數(shù)據(jù)場景投入以阿里的業(yè)務生態(tài)為例:核心電商、金融服務物流業(yè)務、市場營銷云計算、文化娛樂本地生活、支付服務還是以阿里巴巴為例:互聯(lián)網(wǎng)行業(yè)全球首個浸沒液冷服務器集群自研網(wǎng)絡原生設計分布式數(shù)據(jù)庫X-DB統(tǒng)一大數(shù)據(jù)儲存/計算平臺,60000+服務器以阿里巴巴中國零售平臺為例:2017年度活躍賣家:4.54億

移動端月活躍用戶MAU:5.07億2017財年商品交易額GMV:5470億美元EB級別數(shù)據(jù)從量化投資的應用場景來看:選股、擇時交易、風控大多數(shù)據(jù)還是最后落到收益率上而收益率存在極大的噪聲目前量化投資領域的投入水平:單兵作戰(zhàn)或小團隊作戰(zhàn)不如高校單個研究生的軟硬件資源目前量化投資領域能夠接觸到的數(shù)據(jù):行情:算上高頻,TB級別公司數(shù)據(jù):GB級別已經(jīng)算很大了其他輿情、文本之類的,GB級別

2023/4/1217第十七頁,共21頁。機器學習,從入門到放棄?數(shù)據(jù)少,噪聲大,投入還小,只能做toymodel?我們對股票市場有獨到的理解!不需要大量數(shù)據(jù)和大量投入就能搞出好模型!相比于現(xiàn)有的量化模型,機器學習的模型和方法能夠更好克服人為觀測的偏差,如:市值因子為什么是市值取對數(shù)?反轉因子為什么是區(qū)間收益率?風險為什么可以用標準差表示?現(xiàn)有量化投資的模型都是基于簡單的人為觀測邏輯,進行歷史檢驗,獲得較好效果之后進行使用的。而機器學習方法論是:對更為廣泛的數(shù)據(jù),基于機器學習的觀測邏輯,進行歷史檢驗,獲得較好效果之后進行使用。已有一些成果超越了現(xiàn)有量化模型的效果。我們認為,隨著數(shù)據(jù)量提升、投入資源加大,未來機器學習方法將帶來量化投資領域的重大變革!2023/4/1218第十八頁,共21頁。廣闊天地,大有可為

ICIR01234通信0.10330.652024.44%16.62%9.30%-3.65%-34.31%商貿(mào)零售0.10640.717522.57%12.57%2.66%-8.07%-22.24%房地產(chǎn)0.10430.772827.69%10.40%1.88%-5.91%-27.20%醫(yī)藥0.09620.829322.88%13.32%0.88%-6.73%-26.80%輕工制造0.11050.635824.91%12.95%2.85%-7.77%-20.67%電子元器件0.10660.836928.58%16.64%-1.04%-6.66%-31.90%傳媒0.10430.556920.21%20.23%0.06%-5.88%-17.43%家電0.10100.546823.34%12.07%10.03%-0.37%-29.12%建材0.11010.667025.97%12.88%7.15%-7.63%-29.17%基礎化工0.11681.045926.90%16.51%5.12%-10.88%-32.36%紡織服裝0.11480.658220.62%16.10%10.38%-4.38%-27.76%汽車0.11120.831423.11%19.04%1.28%-4.37%-29.21%有色金屬0.10910.605024.75%13.09%-0.75%-6.12%-26.41%石油石化0.09930.424722.60%15.18%3.67%-3.65%-27.18%機械0.10690.841226.24%12.06%3.70%-3.97%-32.86%交通運輸0.11700.725123.54%12.13%1.63%-6.04%-23.83%食品飲料0.10820.633924.38%13.17%6.33%-4.32%-28.61%鋼鐵0.12380.583323.26%11.98%7.15%-1.08%-26.45%建筑0.09940.580723.99%11.09%1.13%-5.58%-20.02%電力及公用事業(yè)0.11170.709620.96%12.06%10.37%-7.16%-27.38%農(nóng)林牧漁0.12490.802127.05%24.66%1.41%-13.08%-27.97%計算機0.09610.684826.70%17.86%-1.39%-6.05%-32.01%電力設備0.11370.850327.42%15.19%3.01%-5.78%-31.47%餐飲旅游0.09500.378718.75%18.75%-3.66%7.32%-14.26%煤炭0.10120.437414.10%10.08%7.50%-8.07%-11.16%綜合0.08950.279811.13%3.26%5.48%10.25%-20.76%國防軍工0.09770.399022.21%10.90%9.13%-5.25%-16.60%銀行0.08450.250413.02%7.96%3.73%-7.16%-11.64%非銀行金融0.10130.373314.08%18.98%0.29%-2.98%-20.39%我們用機器學習得到的因子的效果:測試區(qū)間:2011年至2017年樣本空間:中證全指在所有市值分層和行業(yè)分類上均有效,且因子強度均比較高

ICIR01234size_00.11780.989326.07%16.13%2.90%-2.09%-37.74%size_10.12681.139827.17%18.88%6.09%-7.06%-40.35%size_20.11771.024329.08%16.17%1.53%-6.98%-35.57%size_30.11261.059525.70%15.53%3.67%-4.34%-37.47%size_40.10451.029523.52%15.08%2.52%-9.69%-28.53%size_50.10871.011627.09%13.16%3.53%-7.98%-31.55%size_60.10430.918627.90%10.26%0.50%-8.71%-26.74%size_70.09690.846725.02%11.46%1.38%-8.30

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論