Transformer架構(gòu)下的量價選股策略:ChatGPT核心算法應(yīng)用于量化投資_第1頁
Transformer架構(gòu)下的量價選股策略:ChatGPT核心算法應(yīng)用于量化投資_第2頁
Transformer架構(gòu)下的量價選股策略:ChatGPT核心算法應(yīng)用于量化投資_第3頁
Transformer架構(gòu)下的量價選股策略:ChatGPT核心算法應(yīng)用于量化投資_第4頁
Transformer架構(gòu)下的量價選股策略:ChatGPT核心算法應(yīng)用于量化投資_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值ChatGPT核心算法應(yīng)用于量化投資報告摘要:于其他領(lǐng)域。本篇報告將其核心算法Transformer應(yīng)用于量化投資策P捕捉輸入序列各位置之間的關(guān)系。自注意力機(jī)制通過計(jì)算query向量注意力機(jī)制則利用并行計(jì)算和拆分矩陣為多個頭的方式,在自注意力機(jī)制的基礎(chǔ)上進(jìn)一步提高模型訓(xùn)練效率。網(wǎng)絡(luò)模型,由位置編碼、編碼層和解碼層組成。位置編碼使用正弦和余弦函數(shù)計(jì)算單詞位置信息,編碼器將序列中各位置之間關(guān)系的信息言處理、圖像生成等領(lǐng)域。rmer于股票漲跌預(yù)測中,選取個股漲跌幅和換手率作為面板數(shù)據(jù)輸入,通0、對收益與較強(qiáng)并行計(jì)算效率;4.預(yù)訓(xùn)練模型提高泛化能力。風(fēng)險提示:策略模型并非百分百有效,市場結(jié)構(gòu)及交易行為的改變以及類似交易參與者的增多有可能使得策略失效。本篇報告通過歷史數(shù)SFCCENoBOB0335132angchaogfcomcn35128omcn請注意,羅軍并非香港證券及期貨事務(wù)監(jiān)察委員會的注冊持牌人,不可在香港從事受監(jiān)管活動。21-06-0721-03-0721-06-0721-03-07增強(qiáng)-深度學(xué)習(xí)研究報告之八深度學(xué)習(xí)框架下高頻數(shù)據(jù)因子挖掘-深度學(xué)習(xí)研究報告之七題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值/24 MER 據(jù)處理和訓(xùn)練樣本篩選 10 題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值24表索引 epoch下的多頭組合收益率 17 題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值4/24ChatGPT是美國人工智能研究公司OpenAI研發(fā)和訓(xùn)練的一款基于GPT算法的基于人類的反饋對模型進(jìn)行強(qiáng)化學(xué)習(xí)的優(yōu)化。與傳統(tǒng)對話式語言模型相比,humanfeedbackJAdvancesinNeuralInformationProcessingSystems,2022,35:研究中心GPT(GenerativePre-trainedTransformer,生成型預(yù)訓(xùn)練轉(zhuǎn)換模型)是一種代和優(yōu)化,目前ChatGPT使用的GPT-3.5模型中神經(jīng)網(wǎng)絡(luò)的參數(shù)超過1750億個,是有史以來參數(shù)最多的神經(jīng)網(wǎng)絡(luò)模型之一。同時,伴隨著ChatGPT逐步出現(xiàn)在公眾視整。2023年2月8日,微軟宣布將OpenAI的GPT-4模型集成到其搜索引擎Bing以及I型GPT-4,該模型能夠同時處理語音、圖像、文本等多種輸入,并生成高質(zhì)量的自然語言輸出。GPT模型的誕生,離不開其背后的核心算法:Transformer。Transformer模型的模型框架,而是通過引入注意力機(jī)制來有效地捕捉輸入序列中各位置之間的相關(guān)題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值24性,建立輸入和輸出之間的全局依賴關(guān)系。因此,相比于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò),er(一)自注意力機(jī)制自注意力機(jī)制的輸入為詞嵌入生成的詞向量矩陣X或上一個編碼層/解碼層的輸QKV陣X、Q、K、V中每一列代表一個詞向量(輸入樣本)。xAttentionQKVsoftmaxV原來的大小。neuralinformationprocessingsystems心多頭注意力機(jī)制不是將多個自注意力機(jī)制簡單疊加,而是將多個樣本的自注意力矩陣headi拼接在一起并行計(jì)算。具體而言,將所有的headi拼接到一起后再經(jīng)性變換得到多頭注意力機(jī)制的輸出矩陣,可以表示為:題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值24MultiHead(Q,K,V)=concat(head1,head2,,headh)Woheadi=Attention(WiQQ,WiKK,WiVV)少訓(xùn)練時間。更重要的是,多頭注意機(jī)制允許模型同時關(guān)注來自不同位置、不同表模型訓(xùn)練效果。neuralinformationprocessingsystems心(二)Transformer模型了單詞在句子中的位置信息;編碼器的作用是將序列中各位置之間關(guān)系的信息進(jìn)行個詞進(jìn)行預(yù)測。題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值24rneuralinformationprocessingsystems心1.位置編碼Transformer置編碼:PE(pos,2i)=sin(pos/100002i/d)PE(pos,2i+1)=cos(pos/100002i/d)dii數(shù)。與其他位置編碼方式相比,該編碼方式可以使模型很容易地計(jì)算出PEposkPEpos,同時正題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值24和余弦函數(shù)示例圖102345678910111210102345678910111210102345678910111210102345678910111210:廣發(fā)證券發(fā)展研究中心2.編碼器編碼器由多個編碼層堆疊組成,每個編碼層又有兩個子層,第一層是一個多頭加快模型的收斂。相同的包含序列中各位置之間關(guān)系的矩陣。3.解碼器解碼器也由多個解碼層堆疊組成,每個解碼層中除了和編碼層相同的兩個子層外,中間還有一層特殊的多頭注意力機(jī)制,該子層使用解碼層上一個多頭注意力機(jī)后進(jìn)行層歸一化。會利用上一步的輸出進(jìn)行預(yù)測。在預(yù)測第一個單詞時,解碼器的輸入為序列開始標(biāo)簽<BOS>,輸出為第一個單詞的預(yù)測;而在預(yù)測第二個單詞時,解碼器的輸入為題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值24BOS至輸出的預(yù)測結(jié)果為序列結(jié)束標(biāo)簽<EOS>。而在訓(xùn)練時為了加速訓(xùn)練過程,標(biāo)簽值一般為整句輸入,并行進(jìn)行的,因此為位置i的預(yù)測只能依賴于位置i以前的已知輸出。二、基于量價數(shù)據(jù)的股票漲跌預(yù)測模型(一)Transformer模型在股票漲跌預(yù)測中的應(yīng)用Transformer模型在NLP領(lǐng)域的巨大成功展示了它對序列數(shù)據(jù)的強(qiáng)大建模能力,ormerormer票預(yù)測模型:1.替換詞嵌入層為線性層數(shù)據(jù)中既有行業(yè)這樣的分類數(shù)據(jù),也有漲跌幅、換手率、財務(wù)指標(biāo)等數(shù)值型數(shù)據(jù)。如果輸入只有分類數(shù)據(jù)則可以將時序看作是一個句子,繼續(xù)使用詞嵌入層;但在大多數(shù)情況下,輸入基本都會有數(shù)值型數(shù)據(jù),不能通過詞嵌入的方式進(jìn)行轉(zhuǎn)換。為了能同時處理分類數(shù)據(jù)和數(shù)值型數(shù)據(jù),我們將詞嵌入層替換為常規(guī)的線性層,通過線變換代替詞嵌入的過程。2.拓展數(shù)據(jù)輸入到面板數(shù)據(jù)在股票預(yù)測模型中,一般會輸入多個特征的時序數(shù)據(jù),即面板數(shù)據(jù)。雖然詞嵌入層替換為線性層的修改后,模型可以直接處理多維序列(即面板數(shù)據(jù))。3.取消解碼器的逐個預(yù)測機(jī)制和掩碼操作在NLP領(lǐng)域中,大部分任務(wù)可以轉(zhuǎn)化為序列到序列(seq2seq)問題,即輸入和問題中解碼器會逐個樣本進(jìn)行輸出,并在訓(xùn)練時使用掩碼操作處理輸入序列。而在股票預(yù)測中,我們通常希望能準(zhǔn)確預(yù)測未來一段時間的收益情況,因此模型輸出一般為一個值(回歸問題)或漲跌概率(分類問題),因此我們對解碼器進(jìn)行簡化,取消了逐個預(yù)測機(jī)制和掩碼操作。題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值(二)模型的數(shù)據(jù)處理和訓(xùn)練樣本篩選其中return表示股票每月漲跌幅;turnover表示股票每月?lián)Q手率(每日換手率之和)。原始特征數(shù)據(jù)中存在一些缺失值和異常值,且不同特征之間取值范圍存在差需要對特征進(jìn)行以下標(biāo)準(zhǔn)化處理:1.缺失值處理某一時刻的特征值缺失時(上市不滿20個月的情況除外),使用上一時行填充。2.極值、異常值處理閾值進(jìn)行極值處理。三倍標(biāo)準(zhǔn)差。當(dāng)特征值超過上邊界時用上邊界替代;低于下邊界時用下邊界替代。之間。3.截面標(biāo)準(zhǔn)化為了使得不同特征之間可比,假設(shè)在時刻t,股票k的第i個特征值為x,k,使用x,k=其中,E[x]和std[x]分別表示時刻t所有股票的第i個特征值的均值和標(biāo)準(zhǔn)差。股票漲跌預(yù)測模型是希望預(yù)測出相對強(qiáng)勢的股票,獲得超額收益,因此我們對于每一時刻的所有股票,根據(jù)未來一個月的漲跌幅來給不同的股票添加“上漲”、“平盤”、“下跌”的“標(biāo)簽”。同時為了使不同標(biāo)簽樣本之間的區(qū)別更明顯且樣本數(shù)盡可能接近,我們還進(jìn)行了樣本篩選:對每月對樣本內(nèi)的所有股票按下個月相對基準(zhǔn)的超額漲跌幅進(jìn)行排序,取漲幅前20%的股票,標(biāo)記為“上漲”;取漲幅居中20%的股票(漲幅位于40%分位數(shù)到通過樣本篩選,使得不同標(biāo)簽樣本之間的區(qū)別更明顯。如果不進(jìn)行樣本篩選,題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值直接將所有股票按下個月的漲跌幅三等分,則位于不同標(biāo)簽分隔處的兩只股票會被劃分至不同標(biāo)簽,但實(shí)際上兩者之間的差異并沒有那么大,這樣的劃分不利于機(jī)器棄棄本、平盤樣本、下跌樣本的概率。模型中,我們將模型視為分類問題,從y1,y2,y3中選取最大的值,將樣題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值而在選股構(gòu)建策略時,我們將屬于上漲樣本的概率y1作為Transformer因子,根據(jù)y1的大小進(jìn)行分檔,本策略中選取y1前20%的股票構(gòu)建組合。(三)模型的參數(shù)選擇和整體結(jié)構(gòu)序列向量維度(經(jīng)過替代詞嵌入層的線性層處理后的維度)、多頭注意力機(jī)制頭1.序列向量維度d=64h3.編碼器和解碼器層數(shù)N=620,64](線性層)→8×[20,8](編碼層1)→8×[20,8](編→[3](輸出層)模型共有403075個參數(shù)需要進(jìn)行訓(xùn)練。本報告首先以中證500指數(shù)成份股作為股票池進(jìn)行模型的訓(xùn)練和選股策略的回測。從2000年至2019年獲取樣本進(jìn)行訓(xùn)練,在2020年到2023年(樣本外),用訓(xùn)Transformer進(jìn)行策略回測,回測參數(shù)設(shè)置如下:證500成份股,剔除交易日停牌的股票多頭組合:調(diào)倉時按照Transformer因子的大小將股票均分為5檔,等權(quán)買入因票月題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值02-0104-0106-0108-0102-0104-0106-0108-0102-0104-0106-01-08-0102-0102-0104-0106-0108-0102-0104-0106-0108-0102-0104-0106-01-08-0102-01因子IC是指個股截面因子值與個股下期收益率之間的相關(guān)系數(shù),因子秩IC則是指個股截面因子值排序與個股下期收益率排序之間的相關(guān)系數(shù),兩者都能夠反映因CIC00.2ICrank_IC所示。1-01-312021-01-31-題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值1.81.61.41.210.80.60.40.20第一檔第二檔第三檔第四檔第五檔從上圖可以看到,Transformer因子值大的股票整體表現(xiàn)優(yōu)于Transformer因子值小的股票,分檔的單調(diào)性較好。中證500選股-多空對沖策略實(shí)證分析假設(shè)可以賣空最低檔(第五檔)的股票,買入最高檔(第一檔)的股票,多空對沖策略自2020年以來,策略的年化收益率為18.51%,最大回撤為-9.46%,日度率為55.05%。1.8多空對沖收益率(右軸)多空對沖凈值1.81.61.41.210.8%-1%題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值證500選股-指數(shù)對沖策略實(shí)證分析中證500凈值指數(shù)對沖收益率(右軸)多頭凈值指數(shù)對沖凈值1.81.61.41.21%1.81.61.41.210.8 -1.5%0.8除了2023年的前3個月之外,指數(shù)對沖策略每年的收益率都超過了8%,且最大回撤3%2%6%7%換手率為7.64倍。題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值0%體表現(xiàn)穩(wěn)定。成本提高之后的中證500選股指數(shù)對沖策略表現(xiàn)1表2:不同交易成本下的中證500選股指數(shù)對沖策略表現(xiàn)率2%7%2%6%題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值中證500選股-模型訓(xùn)練參數(shù)討論在前文中證500選股實(shí)證分析中,由于需要處理一定規(guī)模的訓(xùn)練數(shù)據(jù)(約6萬個0.001。較小時,多頭組合的收益率較低且存在較大波動;迭代次數(shù)過大時,模型已經(jīng)接近頭組合的收益率同樣較低且不穩(wěn)定;而epoch在38epoch軸)下的多頭組合收益率0%28142026323844505662687480869298(二)滬深300選股實(shí)證分析的回測。從2000年至2019年獲取樣本進(jìn)行訓(xùn)練,在2020年到2023年(樣本外),的Transformer預(yù)測模型進(jìn)行策略回測,回測參數(shù)設(shè)置如下:深300成份股,剔除交易日停牌的股票月Transformer收益率實(shí)證分析題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值Transformer分檔表現(xiàn)1-01-312021-01-31-從上圖可以看到,Transformer因子值大的股票整體表現(xiàn)優(yōu)于Transformer因子值小的股票,分檔的單調(diào)性相對中證500成分股選股要差一些。滬深300選股-指數(shù)對沖策略實(shí)證分析值指數(shù)對沖收益率(右軸)多頭凈值指數(shù)對沖凈值1.81.61.41.211.81.61.41.210.8 -1.5%0.8題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值數(shù)對沖策略分年度的收益回撤情況如下表所示,策略每年都獲得了正收益,6%3%%4%%2%(三)全市場選股實(shí)證分析從2000年至2019年獲取樣本進(jìn)行訓(xùn)練,在2020年到2023年(樣本外),用訓(xùn)練好的Transformer預(yù)測模型進(jìn)行策略回測,回測參數(shù)設(shè)置如下:股票池:全市場股票(萬得全A指數(shù)成份股),剔除交易日停牌的股票月1.全市場選股-Transformer因子分檔收益率實(shí)證分析題報告發(fā)現(xiàn)價值免責(zé)聲明發(fā)現(xiàn)價值/24Transformer21-01-312021-01-31-從上圖可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論