




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
目 錄一、什么是排序?qū)W? 5(一排學(xué)的景 5(二排學(xué)的殊處 5二、排序?qū)W習(xí)算法變 5(一)RankNet51、率失數(shù) 6(二)LambdaRank介紹 61、對RankNet算的速 62、度λ的選取 8(三)LambdaMart介紹 81、對Mart的紹 82、LambdaMart公推導(dǎo) 93、LambdaMart算流程 10三、排序?qū)W習(xí)選股型 10(一)LGBMRanker簡介 10(二選模設(shè)計 1、票池 2、征擇 3、簽擇 134、練法 135、測果 13四、總結(jié) 19五、風(fēng)險提示 20圖表目錄圖表1 征表 12圖表2 練法 13圖表3 LGBMRanker股策凈圖 14圖表4 LGBMRanker股策對指凈圖 14圖表5 略現(xiàn) 15圖表6 率現(xiàn) 15圖表7 年收率計 15圖表8 年來度益率計 16圖表9 業(yè)布比(%) 16圖表10 市分占比(%) 17圖表最信號 17圖表12 LGBMRanker股略9份勢至20230919) 19一、什么是排序?qū)W習(xí)?(一)排序?qū)W習(xí)的背景隨著數(shù)字時代的來臨,社會信息化程度的不斷加深,互聯(lián)網(wǎng)上承載的信息量呈指數(shù)級增長。想要在海量的數(shù)據(jù)中檢索到自己需要的信息或者想要提高用戶的需求與信息之間的匹配程度,就會涉及到排序問題。排序問題,簡單來說就是如何從信息膨脹下的數(shù)據(jù)洪流中便捷地檢索出用戶最感興趣的結(jié)果,重要性不言而喻,同時也引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注與研究。與此相關(guān)的推薦系統(tǒng)在過去十幾年的時間里取得了長足的發(fā)展并普遍運用于搜索、推薦、廣告等各個領(lǐng)域。而處理排序問題的方法不同也會產(chǎn)生不同的推薦系統(tǒng),同樣的關(guān)鍵詞,一個搜索引擎可以讓用戶在搜索結(jié)果的前幾頁就快速找到想要的信息,而另外一個搜索引擎則無法做到,或者經(jīng)常瀏覽的兩個軟件,一個總能推送“排序?qū)W習(xí)(earngoanR(Macheearnedanng(二)排序?qū)W習(xí)的特殊之處相比于傳統(tǒng)的分類和回歸模型,排序?qū)W習(xí)有著一些顯著的不同之處。首先,排序?qū)W習(xí)關(guān)注的是多個對象之間的相對排序關(guān)系,而不是單個對象的分類或回歸問題。其次,由于排序?qū)W習(xí)需要處理多個對象的排序信息,所以排序?qū)W習(xí)模型通常更加復(fù)雜,需要考慮對象之間的交互信息和排序關(guān)系。(q,D)qqueryqueryqnD={d1,d2,…,dn},n>=1,以此作為模型的參數(shù)并讓模型對其進行排序,然后根據(jù)真實排序與預(yù)測排序衡量排序效果,再以提升排序效果為目的不斷優(yōu)化迭代。oazedDsouedCuuaeGanDG)二、排序?qū)W習(xí)算法演變(一)RankNet介紹RankNetpairwise1、概率損失函數(shù)假設(shè)????和????是查詢????下的兩個文檔,????和????的特征向量分別是????和????,有????=??(????),????==????????????表i個文檔排在第j?????1??????=??(?????????)=1+?????????logistic[0,1]????????????=0時,??=1??和??????1/2???? 2
??
?? ??通過現(xiàn)有的信息區(qū)分開來。定義?????????的理想目標值為:??=?(???????)如果要求存在理想的輸出結(jié)果?????????使得目標概率= 1????
1+??????,<<k1:???=?????=????+???+?+????=∑,???=??因此,可以考慮將文檔按任意順序排列后,計算所有相鄰成對文檔的相對排序得分,從而可以推出任意兩個文檔????和????之間的相對排序得分??????,進而方便地求得任意兩個文檔?????????的概率??????。經(jīng)證明,指定任意一組相鄰概率,可唯一識別出??????。有了上面的結(jié)論,可以大大簡化RankNet的計算量,最少只計算相鄰數(shù)據(jù)即可。損失函數(shù)形式如下:??=??????????(1???)o(1???)=?????+o(1+??????)??????(二)LambdaRank介紹LambdaRankRankNetRankNetlambda如G1、對RankNet算法的加速????和??????和??,定義????>??表示????排在??前,則對應(yīng)的??如下:?
1 ????>??????={????0 ????<RankNet中的損失函數(shù)可以重新寫為:???+o(1+??????) ??=1??????={log(1+????????)
??=0總的損失函數(shù)等于所有配對(????,????)對應(yīng)??????的和。注意到,如果????排在????前,配對(????,????)和(????,????)對應(yīng)的損失??????和??????是相等的,此時1+????????=log(1+????????)=log
????????
????????=log(1+?????????)+??????=???????+log(1+????????)=??????因此,為方便起見,可以將所有配對重新寫為(????,????)的形式使得{??,??}∈??,其中??包含了所有????排在????前的配對,總的損失為:????=∑??????{??,??}∈??在訓(xùn)練過程中,使用損失相對權(quán)重的梯度進行更新,結(jié)合鏈式法則,得到:
=∑{??,??}∈??
=∑{??,??}∈??
????????????????????
??????????????+ }????????????計算損失函數(shù)相對得分函數(shù)的偏導(dǎo),并令其等于????????????????????
???????? ?1????=?1+ = =??????1+???????? 1+????????????????????
?????????
??????????????
=1+1+????????=1+????????=?????
=???????可以發(fā)現(xiàn),損失函數(shù)相對??和??的偏導(dǎo)是大小相等方向相反的,可以將??????重新寫為?? ??
????????????
????????
??????
??????=∑????
{????
?????}=∑??????{
?????}=∑?????????? {??,??}∈??
????????
??
??????
?? ?? ??最后一步將和第i個文檔相關(guān)的文檔對????貢獻合并在一起,其中????=∑???????∑??:{??,??}∈?? ??:{??,??}∈??(????,對彼此的力是相互的,大小相等且方向相反。????受到的總力????由其他相關(guān)文檔的貢獻共同決定。RankNetLambdaRank??先計算所有??,再計算??和??????,最后加總,使得計算變得更方便,加速了計算過程。?? ??
??????2、梯度函數(shù)??的選取RankNetPairWise(NDCG)RankNet??RankNetRankNet??????????????=
|???????|??是某個評價指標,???????表示交換文檔????和????的順序后,評價指標的變化值。???????越大,說明這對排序的結(jié)果對整體排序影響越大,因此對他們施加更大的力,讓他們相比原方法移動更多位置。以常用的NDCG為例,選取??為如下形式:?? = |?????????|=
??(2?????2????)( 1 ? 1 )????
??????
????
1+????????
log(1+????)
log(1+????)????和????和????和????????和DCGNDCG1NDCG化。(三)LambdaMart介紹LambdaMartLambdaRankλ和又稱算法,將λ作1、對Mart的介紹N總的??????(??)=∑????????(??)??=1????????(??)K????????進行擬合,最后求平均,效果和直接用一棵樹相比差別不大。kk-1∑???1得到????(??)=?????1(??)+????????(??),然后繼續(xù)計算更新即可。舉一個簡單的例151015-10=5415-(10+4)=5-4=11歲,那么總的估計結(jié)果為10+4+1=15歲。GBDT用梯度去替代殘差,每棵樹對梯度進行建模。假設(shè)損失函數(shù)是??(????,??(????)),每一步迭代時,我們希望損失函數(shù)在減小,一般地,函數(shù)向變量的負梯度方向減小,每次迭代時,使損失函數(shù)更新為??(??,??
(??)???????(????,?????1(????))???????1 ????
(??) )在之前的方法中,每一步累加殘差得到最終的估計函數(shù)。將殘差替換為負梯度,相當于k1棵樹的結(jié)果,第k????=?
????(????,??(????))??????(??) ??
??(????)=?????1(????)對??Lkl??????,更新葉節(jié)點??????為:??????=??????????????∑??(????,?????1(????)+??)????∈??????更新預(yù)測函數(shù)為:????(????)=?????1(????)+??∑????????(????∈??????)??2、LambdaMart公式推導(dǎo)LambdaMartLambdaRankλ_i(y_i)?,:??=
????(????,??(????))??????(??) ??
??(????)=?????1(????)
=????=
??????(????,????)??????
|??(????)=?????1(????)其中得分函數(shù)????=??(????),是決策樹結(jié)果累加擬合的最終目標。????根據(jù)??????計算得到,有:???|???????|??????=1+????(?????????)=
??????????????????
=∑??:{??,??}∈??
????
?∑??:{??,??}∈??
=∑{??,??}???
????
=????????????其中??為概率函數(shù)中的調(diào)整參數(shù)。對應(yīng)的效用函數(shù)為:????=∑|???????|log(1+?????(?????????))=∑??????{??,??}??? {??,??}∈??對????Lkl??????,??????為:??????
=
∑ ∑????∈??????{??,??}∈??
|log(1+?????((?????1(????)+??)?????))=??????????????∑CT(??)=????????????????(??)????∈??????因為??????難以得到顯式解,用Newton-Raphson方法可求近似解:??′
∑ ????∈????????????
∑ ??????????∈?????????????1(????)??????=??′′=
∑??
=??????22
∑??
??????22????????
??????
?????1(????)最后再根據(jù)計算出來的葉節(jié)點來更新模型:=?????1(????)+??∑1(????∈??????)??3、LambdaMart算法流程訓(xùn)練樣本共m個,設(shè)定共有N棵決策樹,每棵決策樹含L個葉節(jié)點,學(xué)習(xí)率設(shè)定為??。(1)??0(????)=??????????????????(????)(i=1,2,…,m)()k(=1,2N)(2.1)(2.2)????kl??????L{??????}??(2.3)???????? =∑????∈??????????
??=1,2,…,??????
∑??
????(2.4)更新得分函數(shù)
????????????(????)=?????1(????)+??∑????????(????∈??????)??=1三、排序?qū)W習(xí)選股模型(一)LGBMRanker簡介LGBM(LightGBM)是一種高效的梯度提升決策樹(GradientBoostingDecisionTree,GBDT)Microsoft2016LGBMLGBM采用了許多優(yōu)化技術(shù),使其在訓(xùn)練過程中具有高度的并行性和低內(nèi)存消耗,例如基于Histogram的決策樹算法、基于梯度的單側(cè)采樣(GOSS)以及排他性特征捆綁等,從而進一步提升了模型的性能,降低過擬合的風(fēng)險,提高了模型的泛化能力。GBMRaner是一種基于GB(ghGBLGBM(二)選股模型設(shè)計1、股票池的速度,我們并沒有直接使用所有A3005001000A1800100020141017范圍為2014年11月至2023年8月底。2、特征選擇數(shù)據(jù)方面,我們使用了wind底層數(shù)據(jù)庫中的每日個股的漲跌幅數(shù)據(jù),以及A股每日資金流向數(shù)據(jù)。其中wind對大小單的定義如下:小單:<4萬元。中單:4萬元到20萬元之間。大單:20萬元到100萬元之間。特大單:>100萬元。而一致預(yù)期數(shù)據(jù)我們選擇使用朝陽永續(xù)的一致預(yù)期數(shù)據(jù)庫。令f代表一個數(shù)值特征(numericalfeature),c代表一個分類特征(categoricalfeature),n代表時間窗口參數(shù)。使用的算子包括:rolling_sum(f):滾動求和rolling_diff(f):rolling_quantile(f):rolling_of_today(f):month_end_diff(f):月度變化rolling_product(f):rolling_std(f)圖表1 特征表分類特征算子時間窗口資金流向總流入流出rolling_sum,rolling_quantile,feature_diff,rolling_of_today5,20,60特大單流入流出rolling_sum,rolling_quantile,feature_diff,rolling_of_today5,20,60大單流入流出rolling_sum,rolling_quantile,feature_diff,rolling_of_today5,20,60中單流入流出rolling_sum,rolling_quantile,feature_diff,rolling_of_today5,20,60小單流入流出rolling_sum,rolling_quantile,feature_diff,rolling_of_today5,20,60一致預(yù)期滾動一致預(yù)期營業(yè)收入rolling_diff5,20,60滾動一致預(yù)期凈利潤rolling_diff5,20,60滾動一致預(yù)期每股收益rolling_diff5,20,60滾動一致預(yù)期凈資產(chǎn)rolling_diff5,20,60滾動一致預(yù)期市凈率rolling_diff5,20,60滾動一致預(yù)期市銷率rolling_diff5,20,60滾動一致預(yù)期市盈率rolling_diff5,20,60滾動一致預(yù)期PEGrolling_diff5,20,60一致預(yù)期凈資產(chǎn)收益率rolling_diff5,20,60滾動一致預(yù)期營業(yè)收入同比rolling_diff5,20,60滾動一致預(yù)期凈利潤同比rolling_diff5,20,60滾動一致預(yù)期凈利潤兩年復(fù)合增長率rolling_diff5,20,60基礎(chǔ)價量個股漲跌幅rolling_product,rolling_std5,20,60資料來源:華創(chuàng)證券另外針對groupby_rank算子,我們使用了市值分組作為對應(yīng)的分類特征。3、標簽選擇3030604、訓(xùn)練方法T=0T=-12T=-3T=-3至T=-1T=0T=1圖表2 訓(xùn)練方法資料來源:5、回測結(jié)果50圖表3 LGBMRanker選股策略凈值圖資料來源:,將策與深300中證500、證1000進比到以凈圖:圖表4 LGBMRanker選股策略對比指數(shù)凈圖資料來源:,圖表5 策略表現(xiàn)策略名稱累計收益累計超額收益率年化收益率年化超額收益率夏普比率最大回撤最大回撤持續(xù)時間LGBMRanker選股策略167.31%160.16%13.28%12.40%0.4834.58%507天資料來源:Wind,華創(chuàng)證券3005001000300以外的基準都有65%300的月度勝率也能夠達到58.51%:圖表6 勝率表現(xiàn)vs率vs行業(yè)等權(quán)月勝率vs滬深300年勝率vs滬深300月勝率vs中證500年勝率vs中證500月勝率vs中證1000年勝率vs中證1000月勝率88.89%65.96%77.78%58.51%100%67.02%100%76.60%資料來源:Wind,華創(chuàng)證券18%圖表7 分年度收益率計時間策略(%)等權(quán)組合(%)滬深300(%)中證500(%)中 證1000(%)vs等權(quán)(%)超 額vs300(%)超 vs500(%)超 vs1000(%)2015/12/3119.6716.17.349.8218.673.5712.339.8512016/12/3114.44-15.04-11.28-17.78-20.0129.4825.7332.2234.452017/12/313.46-8.5721.78-0.2-17.3512.03-18.323.6620.812018/12/31-22.35-32.1-25.31-33.32-36.879.742.9610.9714.522019/12/3128.5124.536.0726.3825.674.02-7.562.132.852020/12/3153.825.7227.2120.8719.3928.0826.5932.9334.412021/12/3121.3526.46-5.215.5820.52-5.1226.555.760.832022/12/31-14.23-15.79-21.63-20.31-21.581.567.46.087.352023年初至2023年8月底18.114.98-2.75-2.13-2.8213.1320.8620.2420.93資料來源:Wind,華創(chuàng)證券2023818.10%,相較13.14%圖表8 今年以來月度益率統(tǒng)計時間策略(%)等權(quán)組合(%)滬深300(%)中證500(%)中 證1000(%)vs等權(quán)(%)超 額vs300(%)超 vs500(%)超 vs1000(%)2023/1/319.987.957.377.248.342.032.612.731.642023/2/284.433.26-2.11.092.211.176.543.352.222023/3/31-1.350.22-0.46-0.28-1.15-1.57-0.89-1.07-0.22023/4/30-4.75-1.69-0.54-1.55-2.22-3.06-4.21-3.2-2.542023/5/312.45-2.88-5.72-3.1-2.45.348.185.554.862023/6/301.782.171.16-0.810.62-0.390.632.591.172023/7/318.242.74.481.49-1.315.533.766.749.542023/8/31-3.04-6.22-6.21-5.73-6.323.183.182.693.28累計收益18.104.96-2.74-2.13-2.8313.1420.8420.2320.92資料來源:Wind,華創(chuàng)證券12圖表9 行業(yè)分布占比(%)時間202210202211202212202301202302202303202304202305202306202307202308202309交通運輸0.020.060.040.020.060.10.02000.0400.06傳媒0.020.060.060.020.020.04000000農(nóng)林牧漁0000.0400.020.040.020.02000醫(yī)藥0.040.02000.10.080.040.040.1800.240.02商貿(mào)零售0.040.040.020.020.040.060.06000.140.020.08國防軍工00.0200.0400000000基礎(chǔ)化工0.020.040.060.080.080.060.20.210.120.080.180.04家電0000.0400.020.0200.020.0200.02建材0.040.020.020.020.0400.020.0200.080.020建筑0.140.140.20.060.10.080.020.040.020.020.040.18房地產(chǎn)0.040.020.0400.180.060.02000.020.020.1有色金屬0000.020000.020.020.0600.06機械00.040.040.2400.060.160.210.2800.160.06汽車0.040.0200.060.040.020.080.120.020.060.020.04煤炭00.020.0200.020000000電力及公用事業(yè)00.060.040.080.040.020.10.060.020.040.020.02電力設(shè)備及新能源00.0200.04000.060.020.040.020.020電子0000.040.0200.020.060.0600.10.02石油石化0.020.040000000.020.0200.06紡織服裝0.060.060.0800.160.120.040.040.020.080.020.02綜合0.040000.020000000.02計算機00.0200.020000.02000.080輕工制造0.060.0200.080.020.020.060.060.060.080.020通信0.040.0200.0600000000鋼鐵0.020.020000.02000.020.120.020.02銀行0.30.160.3400.020.20000.100.18非銀行金融0.060.060.040.0200.020.040.0200.0200食品飲料00.02000.04000.020.08000資料來源:Wind,華創(chuàng)證券2001000圖表10 市值分布占比(%)時間202210202211202212202301202302202303202304202305202306202307202308202309200億以下0.440.640.440.9610.660.94110.680.980.4200-400億0.060.040.020.04000.06000.120.020.12400-600億0.0400.08000.02000000.04600-800億0.0400.02000.020000.0200.08800-1000億0.080.040.02000.040000.0200.041000億以上0.340.280.42000.260000.1600.32資料來源:Wind,華創(chuàng)證券策略9月最新個股信號如下:圖表最新信號日期股票代碼名稱中信一級行業(yè)2023/9/1601288.SH農(nóng)業(yè)銀行銀行2023/9/1600028.SH中國石化石油石化2023/9/1601857.SH中國石油石油石化2023/9/1600490.SH鵬欣資源有色金屬2023/9/1601390.SH中國中鐵建筑2023/9/1600820.SH隧道股份建筑2023/9/1002062.SZ宏潤建設(shè)建筑2023/9/1601988.SH中國銀行銀行2023/9/1600048.SH保利發(fā)展房地產(chǎn)2023/9/1600282.SH南鋼股份鋼鐵2023/9/1601618.SH中國中冶建筑2023/9/1601155.SH新城控股房地產(chǎn)2023/9/1601658.SH郵儲銀行銀行2023/9/1600694.SH大商股份商貿(mào)零售2023/9/1001696.SZ宗申動力機械2023/9/1600741.SH華域汽車汽車2023/9/1601668.SH中國建筑建筑2023/9/1600491.SH龍元建設(shè)建筑2023/9/1600655.SH豫園股份商貿(mào)零售2023/9/1600133.SH東湖高新房地產(chǎn)2023/9/1601998.SH中信銀行銀行2023/9/1601006.SH大秦鐵路交通運輸2023/9/1600742.SH一汽
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微生物檢測與公眾健康研究試題及答案
- 項目管理資格考試參考資料試題及答案
- 項目隨機事件應(yīng)對相關(guān)題目及答案
- 項目管理認證考試難度試題及答案
- 初中政治共建“一帶一路”倡議:進展貢獻與展望素材
- 關(guān)注項目管理專業(yè)人士的職業(yè)素養(yǎng)提升試題及答案
- 理解2025年證券從業(yè)資格證考試的評估標準試題及答案
- 2025年證券從業(yè)資格證考試觀點探討與試題答案
- 證券從業(yè)資格分析與解題試題及答案
- 理解不同行業(yè)投資的特點試題及答案
- 中國政法大學(xué)社會主義市場經(jīng)濟概論重點歸納及復(fù)習(xí)試題(楊干忠版)
- 煤礦頂板事故防治(1)
- 《螞蟻和西瓜》課件
- 計量支付用表承包人
- 調(diào)Q技術(shù)與鎖模技術(shù)(課堂PPT)
- 快速制作會議座次表、會場座位安排
- 公司財務(wù)報表模板(word版本)
- 北京牌匾標識設(shè)置管理規(guī)范北京城管理委員會
- 工廠利器管制辦法
- 郫縣征地拆遷補償安置暫行辦法
- 專業(yè)拜訪技巧
評論
0/150
提交評論