融合LLMs進(jìn)化的基本面因子挖掘統(tǒng)一框架

上傳人：b*** IP屬地：北京上傳時(shí)間：2024-11-13 格式：PPTX 頁(yè)數(shù)：22 大?。?.99MB 積分：18 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩17頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

提綱03總結(jié)02LLMs

進(jìn)化結(jié)構(gòu)01基本面因子挖掘框架更新因子挖掘三種范式資料來(lái)源：Alpha-GPT:

Human-AI

Interactive

Alpha

Mining

for

Quantitative

Investment，P1:

手動(dòng)挖掘因子，

依靠研究員主觀經(jīng)驗(yàn)，效率低且成本較高P2：算法挖掘，利用GP,RL等算法自動(dòng)大量挖掘因子，因子可解釋性較差P3:

Huaman-AI交互算法，利用LLMs分析因子，按照人類(lèi)要求進(jìn)行因子挖掘，自動(dòng)批量生成可解釋的因子基本面因子挖掘統(tǒng)一框架融入LLMs財(cái)務(wù)數(shù)據(jù)（季頻）時(shí)序，截面

算子PIT算子市值，一致預(yù)期等（日頻）時(shí)序，截面

算子fitnessFactor

Pool線(xiàn)性IC非線(xiàn)性特征重要性隨機(jī)法枚舉式領(lǐng)域知識(shí)因子生成因子計(jì)算因子驗(yàn)證因子篩選因子進(jìn)化GP+LLMs資料來(lái)源：并非直接使用LLMs生成因子，而是在同一框架中融合LLMs進(jìn)行基本面因子挖掘，在因子進(jìn)化時(shí)，將因子信息提供給大模型，使其更好的理解因子含義以及規(guī)律，生成改進(jìn)后的因子。因子生成資料來(lái)源：隨機(jī)法：這種方法通過(guò)隨機(jī)方式構(gòu)造因子結(jié)構(gòu)，主要用于啟發(fā)式算法中的種群初始化。在生成個(gè)體時(shí)，我們會(huì)限制其結(jié)構(gòu)的復(fù)雜度以及量綱的合法性，以確保因子具有簡(jiǎn)潔性并保持較高的可解釋性。枚舉法：與之前openfe算法生成因子一致，在因子生成過(guò)程中通過(guò)設(shè)定因子結(jié)構(gòu)的約束條件，如（a+b/c+d），在給定的子空間內(nèi)進(jìn)行全局搜索，以期找到局部最優(yōu)解。領(lǐng)域知識(shí)：這種方法依賴(lài)于專(zhuān)家的主觀經(jīng)驗(yàn)，通過(guò)專(zhuān)業(yè)知識(shí)構(gòu)造一系列基本面因子。然后利用啟發(fā)式算法不斷優(yōu)化這些因子，結(jié)合剪枝和基因結(jié)構(gòu)分析等技術(shù)，篩選出適應(yīng)度較高的基因及個(gè)體。接著，通過(guò)枚舉法合成新的因子個(gè)體，并從中挑選出表現(xiàn)優(yōu)異的個(gè)體。因子計(jì)算兩層因子計(jì)算結(jié)構(gòu)，自動(dòng)處理因子量綱，頻率，公告期等問(wèn)題。第一層：原始財(cái)務(wù)數(shù)據(jù)之間的計(jì)算。包括資產(chǎn)負(fù)債表、現(xiàn)金流量表、利潤(rùn)表以及各種財(cái)務(wù)指標(biāo)。將現(xiàn)金流量表和利潤(rùn)表等時(shí)間段數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為單季度數(shù)據(jù)，按照公告期計(jì)算TTM/YOY/QOQ等第二層：不同頻率因子的結(jié)合。在處理不同頻率的數(shù)據(jù)時(shí)，首先對(duì)低頻數(shù)據(jù)按照信息發(fā)布日期進(jìn)行隱式的頻率轉(zhuǎn)換（PIT），將其轉(zhuǎn)換為高頻數(shù)據(jù)，然后再與其他高頻數(shù)據(jù)進(jìn)行計(jì)算。量綱限制：不同量綱之間數(shù)據(jù)計(jì)算設(shè)置相應(yīng)的規(guī)則。量綱類(lèi)型包括，元（營(yíng)收，凈利潤(rùn)等），

無(wú)量綱（ROE,PE等），市值（總市值，流動(dòng)市值等）財(cái)務(wù)數(shù)據(jù)（季頻）時(shí)序，截面

算子PIT算子市值，一致預(yù)期等（日頻）時(shí)序，截面

算子資料來(lái)源：因子計(jì)算資料來(lái)源：算子：包括元素，時(shí)序，截面三類(lèi)算子算子會(huì)對(duì)應(yīng)相應(yīng)的量綱規(guī)則m代表基本面數(shù)據(jù)，v代表常數(shù)項(xiàng)，取值為1，2，4，8，12.對(duì)于季頻因子，常數(shù)項(xiàng)單位為季度，取值從一個(gè)季度到三年，如果為日頻因子，單位為月，時(shí)間長(zhǎng)度從一個(gè)月到一年算子解釋量綱要求元素運(yùn)算符add(m1,m2)m1+m2輸入相同量綱，輸出不改變量綱sub(m1,

m2)m1-m2輸入相同量綱，輸出不改變量綱div(m1,m2)m1/m2輸入相同量綱，輸出無(wú)量綱mul(m1,

m2)m1*m2輸入為不同量綱，輸出為帶量綱時(shí)間序列運(yùn)算符ts_mean(m,v)過(guò)去v期m的平均值輸出不改變量綱ts_std(m,v)過(guò)去v期m的標(biāo)準(zhǔn)差輸出不改變量綱ts_delay(m,v)m滯后v期輸出不改變量綱ts_delta(m,v)m與過(guò)去v期的差值輸出不改變量綱ts_pct(m,v)m與過(guò)去v期的變化率輸出無(wú)量綱ts_max(m,v)過(guò)去v期m的最大值輸出不改變量綱ts_min(m,v)過(guò)去v期m的最小值輸出不改變量綱ts_min_max_diff(m,v)過(guò)去v期m的最大值與最小值的差輸出不改變量綱yoy

(m)m的同比值輸出無(wú)量綱qoq(m)m的環(huán)比值輸出無(wú)量綱ttm(m)m的TTM值輸出不改變量綱ts_slope

(m,v)過(guò)去v期m的斜率輸出不改變量綱ts_resi(m,v)過(guò)去v期m的殘差輸出不改變量綱ts_rsquare

(m,v)過(guò)去v期m的r2輸出無(wú)量綱ts_regression_slope

(m1,m2,v)過(guò)去v期m1對(duì)m2回歸的斜率輸入相同量綱，輸出無(wú)量綱ts_regression_resi(m1,m2,v)過(guò)去v期m1對(duì)m2回歸的殘差輸入相同量綱，輸出不改變量綱ts_regression_rsquare

(m1,m2,v)過(guò)去v期m1對(duì)m2回歸的r2輸入相同量綱，輸出無(wú)量綱橫截面運(yùn)算符cs_norm(m)m的橫截面標(biāo)準(zhǔn)化輸出無(wú)量綱cs_minmax(m)m的minmax標(biāo)準(zhǔn)化輸出無(wú)量綱cs_rank(m)m的橫截面排序輸出無(wú)量綱因子計(jì)算Cython+流式計(jì)算加速+雙層算子：傳統(tǒng)groupby+rolling

apply計(jì)算因子：

時(shí)間復(fù)雜度為：O（M*T*N），M為股票數(shù)量，T為時(shí)間長(zhǎng)度，N正比于Rolling的長(zhǎng)度，例如計(jì)算5000只股票5年的20日PE平均值，大約需要5000*1250*20次運(yùn)算。流式計(jì)算：基于已有結(jié)果進(jìn)行更新。時(shí)間復(fù)雜度O（M*T），每次更新的時(shí)間復(fù)雜度為O（1），相比傳統(tǒng)方式，效率提升N倍。以ts_regression_slope算子為例，如果使用傳統(tǒng)的scipy.stats.linregress函數(shù)，對(duì)一只股票兩個(gè)因子間進(jìn)行1000次T為12的滾動(dòng)回歸，耗時(shí)約8.15秒，采用cython+流式計(jì)算技術(shù)，耗時(shí)約0.07秒，效率提升116倍。其中cython帶來(lái)的提升約為9.6倍，流式計(jì)算帶來(lái)的提升約為12倍。雙層算子：對(duì)于長(zhǎng)表和寬表，分別構(gòu)建基于pandas和numpy的兩套算子，充分利用pandas的靈活性和numpy的高效性，再結(jié)合lazy

cache，進(jìn)一步提高因子計(jì)算效率。資料來(lái)源：雙層算子長(zhǎng)表寬表Pandas

groupby計(jì)算numpy計(jì)算不斷

resample

極其耗時(shí)，初始cache數(shù)據(jù)resample結(jié)果，中間進(jìn)行惰性計(jì)算(Lazilyevaluated)資料來(lái)源：惰性計(jì)算(Lazily

evaluated)：這是一種常用的設(shè)計(jì)模式，利用裝飾器將Python類(lèi)中的方法轉(zhuǎn)變?yōu)閷傩?，通常用于?jì)算量大，頻繁調(diào)用，且不帶參數(shù)的方法，這樣在實(shí)例化的時(shí)候只計(jì)算一次，并保存到類(lèi)屬性中，以后直接拿來(lái)用就行因子進(jìn)化-遺傳規(guī)劃算法資料來(lái)源：Quant

4.0:

Engineering

Quantitative

Investment

with

Automated,

Explainable

and

Knowledge-driven

Artificial

Intelligence，遺傳規(guī)劃GP：

樹(shù)形表達(dá)式結(jié)合進(jìn)化算法對(duì)樹(shù)結(jié)構(gòu)進(jìn)行交叉變異，子樹(shù)變異，生成新的子代。本質(zhì)上是一種前向隨機(jī)變異過(guò)程，進(jìn)化主要是通過(guò)篩選完成。錦標(biāo)賽法+改進(jìn)后適應(yīng)度篩選相關(guān)性低的個(gè)體，增加種群多樣性。因子進(jìn)化-LLMs進(jìn)化資料來(lái)源：LLMs進(jìn)化：

大模型分析因子含義以及規(guī)律，生成新的因子提示詞構(gòu)建：系統(tǒng)提示詞你的任務(wù)是對(duì)這些因子進(jìn)行細(xì)致的分析，理解其邏輯，目標(biāo)是在維持因子結(jié)構(gòu)相對(duì)簡(jiǎn)潔的前提""“作為專(zhuān)業(yè)的量化分析師，你的專(zhuān)長(zhǎng)在于深入分析及優(yōu)化因子以提升其信息系數(shù)(

IC)表現(xiàn)。用戶(hù)將提供一組因子及其當(dāng)前的IC指標(biāo)，每個(gè)因子由特定的算子與基礎(chǔ)數(shù)據(jù)構(gòu)成。下，通過(guò)調(diào)整算子或者數(shù)據(jù)來(lái)增強(qiáng)因子的有效性，

改進(jìn)方法可以是:##

算子替換:

例如

add

sub,

ts_mean

ts_max等##

數(shù)據(jù)替換：

例如

s_fa_workingcapital

s_fa_investcapital;

2等注意這里我只是舉了幾個(gè)例子，具體如何替換根據(jù)你自己的理解進(jìn)行，可替換的算子和數(shù)據(jù)參考:

\n""""""改進(jìn)生成新的因子,

目標(biāo)是實(shí)現(xiàn)IC值的顯著提升。請(qǐng)確保給出新的改進(jìn)因子,不要給出已有因子,在改進(jìn)過(guò)程中注重實(shí)效性與因子的可解釋性，

避免不必要的復(fù)雜度增加。完成優(yōu)化后，

直接輸出最終優(yōu)化的因子表達(dá)式的列表，

給出10

個(gè)優(yōu)化因子，

并將其格式化為JSON，以便于用戶(hù)直接應(yīng)用及后續(xù)的分析工作,輸出格式為:{"優(yōu)化因子列表"

:[{"因子":"***","改進(jìn)原因":"***"},......{"因子":"***","改進(jìn)原因":"***"}]}"""因子進(jìn)化-LLMs進(jìn)化資料來(lái)源：用戶(hù)提示詞"以下是已知的因子及其IC:{}

\n,

你上次給出的因子:

{}

\n請(qǐng)根據(jù)以上信息給出新的改進(jìn)因子，不能使用已有因子，也不要和上次給出和上次相同的因子，必須給出新的改進(jìn)因子".format(llm_factor_info,

last_info)其中l(wèi)lm_factor_info為篩選出的表現(xiàn)最好且相關(guān)性最高的因子及IC信息，

last_info為L(zhǎng)LMs上次輸出的結(jié)果。輸出結(jié)果：{'優(yōu)化因子列表’:

[{'因子':

'ets_max(ets_pct(ediv(eadd(ets_delta(s_qfa_grossprofitmargin,

1),

div(empl_ben_payable,

dq_mv)),

s_qfa_salescashintoor),

2),

1)','改進(jìn)原因':

'通過(guò)使用ets_max和ets_pct算子，增強(qiáng)了因子的敏感性和穩(wěn)定性，預(yù)期能提升IC值。'},{'因子':

'ets_regression_resi(ets_slope(cts_pct(acct_payable,

1),

8),

eadd(esub(esub(ets_delay(div(s_fa_grossmargin,

val_mv),

2),

s_fa_yoynetprofit_deducted),s_fa_deductedprofittoprofit),div(oper_profit,val_mv)),

12)','改進(jìn)原因':

'通過(guò)增加ets_regression_resi算子，提高了因子對(duì)數(shù)據(jù)變化的捕捉能力，預(yù)期能提升IC值。'},{'因子':

'ediv(esub(ecs_norm(s_fa_equitytodebt),

ccs_rank(tot_shrhldr_eqy_incl_min_int)),

div(cadd(s_fa_workingcapital,

s_fa_investcapital),

val_mv))','改進(jìn)原因':

'通過(guò)使用ediv和esub算子，優(yōu)化了因子的結(jié)構(gòu)，預(yù)期能提升IC值。'},{'因子':

'ecs_rank(ediv(ets_delta(div(s_fa_deductedprofit,

val_mv),

4),

ecs_minmax(ets_mean(s_qfa_yoygr,

12))))','改進(jìn)原因':

'通過(guò)增加ecs_rank和ediv算子，提高了因子的區(qū)分度和穩(wěn)定性，預(yù)期能提升IC值。'},{'因子':

'div(cmul(ets_min_max_diff(s_fa_roe_deducted,

12),

cadd(stm_bs_tot,

net_cash_flows_inv_act)),

val_mv)','改進(jìn)原因':

'通過(guò)使用div和cmul算子，優(yōu)化了因子的結(jié)構(gòu)，預(yù)期能提升IC值。'},{'因子':

'ccs_rank(cmul(ets_regression_rsquare(s_fa_gctogr,

ets_regression_resi(s_fa_yoyocf,

s_qfa_yoysales,

2),

cts_delay(cts_delay(s_fa_ebit,

4),

4)))','改進(jìn)原因':

'通過(guò)增加ccs_rank和cmul算子，提高了因子的區(qū)分度和穩(wěn)定性，預(yù)期能提升IC值。'},{'因子':

'ecs_minmax(ets_min(ccs_rank(oper_profit),

2))','改進(jìn)原因':

'通過(guò)使用ecs_minmax和ets_min算子，增強(qiáng)了因子的敏感性和穩(wěn)定性，預(yù)期能提升IC值。'},{'因子':

'ets_slope(ecs_norm(cts_pct(cts_min(undistributed_profit,

1),

1)),

8)','改進(jìn)原因':

'通過(guò)增加ets_slope和ecs_norm算子，提高了因子的區(qū)分度和穩(wěn)定性，預(yù)期能提升IC值。'},{'因子':

'ets_max(ecs_norm(ets_min_max_diff(s_fa_taxtoebt,

8)),

4)','改進(jìn)原因':

'通過(guò)使用ets_max和ecs_norm算子，增強(qiáng)了因子的敏感性和穩(wěn)定性，預(yù)期能提升IC值。'},{'因子':

'ets_min(ccs_rank(cts_max(net_cash_flows_fnc_act,

4)),

2)','改進(jìn)原因':

'通過(guò)增加ets_min和ccs_rank算子，提高了因子的區(qū)分度和穩(wěn)定性，預(yù)期能提升IC值。’}]}LLMs能夠“理解”因子的含義，且每次進(jìn)化均能給出合理原因因子結(jié)果-因子表現(xiàn)ICICIR今年以來(lái)IC今年以來(lái)IRfactor_zoo_00.04000.43380.04570.0987factor_zoo_10.03570.33520.02630.1154factor_zoo_20.03670.31810.06220.2019factor_zoo_3-0.0482-0.6713-0.06390.0742factor_zoo_40.05960.43460.09410.1735factor_zoo_50.03960.54660.06400.0997factor_zoo_6-0.0499-0.6248-0.05990.1359factor_zoo_70.04440.70370.03340.0492factor_zoo_8-0.0398-0.3476-0.03740.1332factor_zoo_90.08160.67770.15000.1533factor_zoo_100.04510.72690.06470.0571factor_zoo_110.06300.45750.08120.1536資料來(lái)源：Factor

Zoo

數(shù)據(jù)庫(kù)因子結(jié)果-因子表現(xiàn)factorzoo4資料來(lái)源：factorzoo6factorzoo11factorzoo9因子結(jié)果-因子表現(xiàn)factorzoo4資料來(lái)源：factorzoo6factorzoo11factorzoo9因子結(jié)果-模型回測(cè)收益指標(biāo)ALPHA累計(jì)收益年化收益夏普比率信息比率索提諾比率詹森阿爾法特雷諾比率勝率正收益期數(shù)BETA年化波動(dòng)率跟蹤誤差下行風(fēng)險(xiǎn)在險(xiǎn)價(jià)值最大回撤最大回撤形成期最大回撤修復(fù)期連續(xù)下跌最大幅度R-Square組合68.37%53.65%12.40%0.471.340.320.170.1151.73%4791.0223.33%0.78%2.12%-2.17%-31.53%73147-19.80%0.72業(yè)績(jī)基準(zhǔn)0.00%-14.72%-4.24%-0.30---0.180.00-0.0649.35%4571.0019.43%0.00%1.97%-1.92%-39.33%523null-12.86%1.00資料來(lái)源：

ifind，訓(xùn)練模型：

LightGBM數(shù)據(jù)集：

17年開(kāi)始全A數(shù)據(jù)，3年訓(xùn)練集，1年驗(yàn)證集，

3個(gè)月滾動(dòng)訓(xùn)練因子：factor

zoo 12個(gè)因子回測(cè)區(qū)間：

2021.1

–

2024.10調(diào)倉(cāng)頻率：月初調(diào)倉(cāng)持倉(cāng)數(shù)量：

100只因子結(jié)果-模型回測(cè)收益指標(biāo)ALPHA累計(jì)收益年化收益夏普比率信息比率索提諾比率詹森阿爾法特雷諾比率勝率正收益期數(shù)BETA年化波動(dòng)率跟蹤誤差下行風(fēng)險(xiǎn)在險(xiǎn)價(jià)值最大回撤最大回撤形成期最大回撤修復(fù)期連續(xù)下跌最大幅度R-Square組合88.83%74.11%16.29%0.551.090.410.200.1555.51%5140.9926.86%1.19%2.28%-2.46%-42.29%24null-37.08%0.51業(yè)績(jī)基準(zhǔn)0.00%-14.72%-4.24%-0.30---0.180.00-0.0649.35%4571.0019.43%0.00%1.97%-1.92%-39.33%523null-12.86%1.00資料來(lái)源：

ifind，訓(xùn)練模型：

LightGBM數(shù)據(jù)集：

17年開(kāi)始全A數(shù)據(jù)，3年訓(xùn)練集，1年驗(yàn)證集，

3個(gè)月滾動(dòng)訓(xùn)練因子：openfe

60個(gè)因子回測(cè)區(qū)間：

2021.1

–

2024.10調(diào)倉(cāng)頻率：月初調(diào)倉(cāng)持倉(cāng)數(shù)量：

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 金融保險(xiǎn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

融合LLMs進(jìn)化的基本面因子挖掘統(tǒng)一框架

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

融合LLMs進(jìn)化的基本面因子挖掘統(tǒng)一框架

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔