基于遺傳算法的股票分類和組合優(yōu)化_第1頁
基于遺傳算法的股票分類和組合優(yōu)化_第2頁
基于遺傳算法的股票分類和組合優(yōu)化_第3頁
基于遺傳算法的股票分類和組合優(yōu)化_第4頁
基于遺傳算法的股票分類和組合優(yōu)化_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、正文目錄 HYPERLINK l _TOC_250009 引言 3 HYPERLINK l _TOC_250008 文章主要內容 3 HYPERLINK l _TOC_250007 一、研究背景 3 HYPERLINK l _TOC_250006 二、相關工作 3 HYPERLINK l _TOC_250005 三、遺傳算法的組成部分 7 HYPERLINK l _TOC_250004 四、算法詳解 11 HYPERLINK l _TOC_250003 五、實驗結果 18 HYPERLINK l _TOC_250002 討論 26 HYPERLINK l _TOC_250001 總結 26 H

2、YPERLINK l _TOC_250000 參考文獻 27圖表目錄表 1 兩公司的現(xiàn)金股利率 8表 2 每個股票的現(xiàn)金股利率 8表 3 每組平均現(xiàn)金股利占所有組的比例 8表 4 例子中使用的股票 13表 5 股價序列的 12 只股票 14表 6 2011 年至 2013 年 12 只股票的現(xiàn)金股利 14表 7:所有歸一化的股票序列 15表 8:十二個代表性的股票序列 15表 9 所有染色體的組合滿意度 15表 10 染色體的組平衡 16表 11 所有染色體的序列距離 16表 12 所有染色體的適應度 16表 13 參數(shù)設定 18表 14 基于 Proposed Approach(f1)用 S

3、AX 的 GSP 的比較 20表 15 基于 Proposed Approach(f1)用 ESAX 的 GSP 的比較 20表 16 此處錄入標題 21表 17 基于 Proposed Approach(f2)的 GSP 與 ESAX 的比較 21表 18 過去和本文提出的方法得出的 GSP 的SAX 和ESAX 距離 25表 19 過去和本文提出的方法在一年的訓練和測試集上的平均回報 25表 20 過去和本文提出的方法在兩年的訓練和測試集上的平均回報 25引言在市場上,對于資產(chǎn)、基金的分類一直是大家討論的話題,根據(jù)業(yè)績走勢對于基金進行分類我們也曾有相關研究。研究資產(chǎn)的相關性一個重要的應用就

4、是可以利用相似資產(chǎn)找到原資產(chǎn)中不可購買的一部分資產(chǎn)。本期琢璞系列我們推薦 Chen, Chun-Hao, and Chih-Hung Yu(2017)的A Series-based group stock portfolio optimization approach using the grouping genetic algorithm with symbolic aggregate approximations,文獻利用遺傳算法對相似資產(chǎn)進行了歸類,便于投資者選擇替代資產(chǎn),可以對于這個問題提供一些理論參考文章主要內容一、研究背景由于金融市場受各種各樣因素的影響,投資仍然是個極具吸引力的話

5、題。同時,市場上還有許多衍生品可供投資者選擇。換句話來說,投資者可以根據(jù)很多方法來創(chuàng)建投資組合。通常,使用兩個客觀的度量值,即風險價值(VaR)和投資回報率(ROI)來評估投資組合的質量。由于許多因素會影響給定投資組合的收益,因此需要一種更為復雜的方法來獲得一個考慮多個因素的投資組合。通過使用均值方差(M-V)模型,人們提出了許多優(yōu)化算法來挖掘最佳投資組合。盡管已經(jīng)有了許多股票投資組合優(yōu)化方法,但這些方法僅用于得出股票投資組合,不能保證分組后每組的股票價格相似。實際上,這往往是不夠的,因為用戶可能會由于各種原因無法購買建議的股票,例如建議購買的股票價格太高。這時應建議購買替代股票。因此,在過去

6、的方法中,提出了一種使用分組遺傳算法(GGA)來篩選股票投資組合(GSP)的算法。二、相關工作本節(jié)介紹與本篇論文具體使用方法相關的研究。首先,在 2.1 節(jié)中介紹了投資組合優(yōu)化的相關方法,在第 2.2 節(jié)中提供了相關背景知識。投資組合優(yōu)化的相關方法迄今為止,許多投資組合優(yōu)化方法已經(jīng)被提出,譬如使用單目標和多目標遺傳算法來推導最優(yōu)投資組合。 Chang 提出了一種使用遺傳算法(GA)進行組合優(yōu)化的啟蒙方法,該算法使用了半方差,平均絕對偏差和偏度方差,同時提出了一種根據(jù)利潤和風險找到投資組合的優(yōu)化方法。 Chen 設計了一種基于領域驅動數(shù)據(jù)挖掘概念的方法,根據(jù)投資者的需求,優(yōu)化可行的股票投資組合。

7、Guo 提出了一種稱為“基于模糊模擬遺傳算法”(FSGA)的方法,該方法基于可信度理論框架內的公式化均值-方差模型來解決帶有 V形交易成本的模糊多期投資組合選擇問題。Bevilacqua 提出了一種使用多目標 GA 的 ROI 和 VaR 進行投資組合優(yōu)化的算法,其中使用的 PONSGA 模型考慮了五種不同的風險度量,可以最小化風險并最大化投資組合收益。 Saborido 將均值-下行風險偏度(MDRS)模型視為約束的三目標優(yōu)化問題。設計了三個新的遺傳操作,包括突變,交叉和倒位,并將它們合并到現(xiàn)有的多目標進化算法(如NSGAII 和 MOEA / D)中,以更有效地分析投資組合。此外,學者還提

8、出了幾種混合算法,這些算法結合了不同類型的數(shù)據(jù)挖掘技術。 Hachloufi 結合遺傳算法的分類設計了一種混合算法,該算法可獲得近似最優(yōu)的股票投資組合。首先, 該算法根據(jù)預期收益和風險將資產(chǎn)分成給定類別。然后, 利用 MinVaR-MaxVaL 算法找到接近最優(yōu)的資產(chǎn)組合。同時,提出了一種用于投資組合選擇的綜合方法。通過使用向量機,將資產(chǎn)分為三個預定義類別:低風險,高收益和流動資產(chǎn)。從這三個類別中,開發(fā)出了一套實際代碼的 GA 以根據(jù)使用偏好來挖掘投資組合。此外,Gottschlich 還介紹了一種利用集成智慧提出股票投資建議的方法。考慮到財務和倫理標準,Gupta 設計了一個用于投資組合選擇

9、全面的三階段多標準決策制定框架。首先,使用層次分析處理技術來評估每項資產(chǎn)的倫理表現(xiàn)得分。然后,通過模糊多準則決策方法為每種資產(chǎn)計算出其財務質量得分。接著利用三種混合投資組合優(yōu)化模型來獲得投資組合。還提出了其他進化方法來解決投資組合優(yōu)化問題。 Mousavi 提出了一種利用多樹遺傳規(guī)劃(GP)的動態(tài)證券交易系統(tǒng)的方法。Wang 在模糊隨機不確定性下,根據(jù)不同的風險偏好,制定了兩個多期投資組合選擇模型。接著,設計了一種基于粒子群優(yōu)化算法的模糊隨機仿真算法,以求近似最優(yōu)解。上述提出的每種方法都只能用于得到股票投資組合。然而,對于投資者而言,僅僅得出股票投資組合是遠遠不夠的,因為有太多的理由不去購買算

10、法推薦的股票。因此,Chen基于 GGA 對 GSP 進行優(yōu)化,GGA 可以為用戶提供一組股票投資組合,而不只是一個股票投資組合。這樣做的主要目標是將股票分成幾組,而每組中的股票相似。每個染色體會有以下兩個評判標準:組平衡度和投資組合滿意度,然后進行遺傳操作以尋找更好的后代。重復遺傳操作,直到找到合適的分組股票組合。背景知識本節(jié)主要介紹背景知識。在 2.2.1 節(jié)中說明分組問題的定義,而在 2.2.2 和 2.2.3 節(jié)中對SAX 和 ESAX 進行了說明。分組問題的定義根據(jù) Falkenauer 的定義,假設存在一組對象 O=o1,o2,., on,那么分組問題可以被定義為: Gi = O

11、and Gi Gj = ,i j,Gi 代表一個分組,使用給定的標準將對象分成組是一個優(yōu)化問題。遺傳算法是由 Holland 提出的,用于在接受的時間范圍內為復雜的問題找到合適的解決方案,并已用于解決各種優(yōu)化問題?;谶z傳算法,提出了利用遺傳算法來解決各種分組問題(GGA)。GGA 的基本概念如下,在編碼過程中,利用分組情況和組內對象來表示分組結果。接下來,將介紹 GGA 的組成。一個染色體包含兩個部分:分組情況和對象部分。例如,下面給出了完整的染色體:ACBBC:ABC.在前面的染色體中,在冒號左邊,字符串“ ACBBC”是對象部分,代表五個對象,即 o1,o2,o3,o4 和 o5。在冒號

12、之后,字符串“ ABC”是分組部分,這意味著對象部分中的每個對象都應屬于三個組之一。因此,該染色體代表五個對象,這些對象被分為三組。在此示例中,對象o1 屬于組A,而對象 o3 和 o4 屬于組B,對象 o2 和 o5 屬于組 C。這三個遺傳操作包括交叉,變異和倒位。交叉不是在 GA 中交換基因,而是在 GGA 中切換組。變異是將對象從一組移動到另一組。最后,第三個基因操作是倒位,其目的是讓交叉算子獲得更多種染色體。實際上,通過改變染色體中各組的順序,執(zhí)行交叉算子時可以生成不同的染色體。符號聚合近似時間序列在實際應用中很容易獲得,時間序列中的每個數(shù)據(jù)點 dt 表示某個時間 t 的值。因此,具有

13、 n 個數(shù)據(jù)的時間序列 T 可以表示為 T d1,d2,.,dn。時間序列分析一直是一個重要而有趣的研究領域,因為它在許多應用中很常見。當數(shù)據(jù)量很大時,時間序列分析可能會成為一項耗時的任務。因此,需要采用降維技術來提高數(shù)據(jù)挖掘過程的效率。眾所周知,我們可以采用符號聚合近似(SAX)對時間序列進行降維。 SAX 的主要概念是根據(jù)給定的字母大小將時間序列轉換為符號。流程如圖 1 所示。圖 1 SAX 流程圖資料來源:招商證券量化團隊整理從圖 1 可以看出,第一步是對給定的時間序列進行標準化。以時間序列 T = 39.35,38.4, 36.65,42.2,40.83,39.9,36.75,37.5

14、,38.8,41.3為例,標準化后,T 變?yōu)?T=0.04,-0.21,-0.69,0.83, 0.45、0.20,-0.66,-0.45,-0.10,0.58。由于時間序列數(shù)據(jù)的維數(shù)始終很高,因此使用 PAA(一種降維方法)將維數(shù)從 n 減少到 m 個數(shù)據(jù)點,其中 mn。首先將給定的時間序列基于預定義的片段大小劃分為 m 個片段。然后,計算每個段的平均值。最后,可以通過組合m 個平均值來形成給定時間序列的PAA 近似值。假設段大小設置為 3,則將 T減小為 T” = 0.28,0.49, 0.40,0.58。最后,根據(jù)給定的字母大小,將 T”中的數(shù)據(jù)轉換為符號序列。例如,因為-0.28 在-

15、0.84,-0.25)范圍內,所以它被映射為符號“ B”。以相同的方式,得出“ B,D,B,D”這一完整的符號序列。擴展符號聚合近似在 SAX 中,對于給定的分段大小,使用PAA 來減少時間序列的維數(shù),然后將減少時間序列的每個點轉換為一個符號。但是,當分段大小為較大值時,使用單個符號表示分段可能不夠。因此將SAX 進行擴展,提出了ESAX 以解決此問題。在每段中,SAX 僅將平均值轉換為符號。但是,在 ESAX 中,段的最大值,平均值和最小值均被轉換為符號。因此,每個段都由三個符號表示,它們更清楚地反映了每個段中的信息。假設 s1,s2和 s3 是從第i 個股價序列的第j 個分段的 rij m

16、ax,rij min 和 rijavg 轉換而來的第一,第二和第三個符號,并且 tmax,tmin 和 tavg 出現(xiàn)在時間軸上最大值,最小值和平均值的位置??梢酝ㄟ^以下方式確定三個符號 s1,s2 和 s3 的順序:ESAX 的概念如圖 2 所示。圖 2 ESAX 流程圖資料來源:招商證券量化團隊如圖 2 所示,首先根據(jù)均值和方差對時間序列進行標準化。以時間序列 T = 13.7,13.75, 13.75,13.05,13.2,9.12,9.29,9.32,9.32,9.38,9.52,11.9,12.0,11.75,12.2,11.9,12.05,8.85,8.57,8.44為例。標準化后

17、,T 變?yōu)門= 0.7,0.72,0.72,0.53,0.57,-0.51,-0.47,-0.46,-0.44,-0.4,0.22,0.25,0.18,0.3,0.22,0.26,-0.58 ,-0.66,-0.69。假設將段大小設置為 5,則每組 5 個數(shù)據(jù)點將減少為 3 個點-最大值,最小值和平均值。減少的時間序列 T”是0.72、0.65、0.53,-0.51,-0.47,-0.44,-0.4、 0.11、0.3、0.26,-0.29,-0.69。最后,基于字母大小,將 T”中的數(shù)據(jù)點轉換為符號表示。例如,因為 0.72 在0.25,0.84)的范圍內,它被映射成符號“ D”。同樣,由

18、ESAX 導出的完整的符號序列為“ D,D,D,B,B,B,B,B,C,D,D,B,B”。三、遺傳算法的組成部分在本節(jié)中,提出了該算法的四個要素:代表染色體,初始總體,適應和選擇以及遺傳操作。代表染色體假設一組S 由n 個股票組成,分別表示為s1,s2,.,sn。該算法的目的是將股票分為幾類,來獲得可用于形成各種股票投資組合的 GSP。圖 3 染色體示意圖資料來源:招商證券量化研究團隊整理圖 3 顯示染色體由三個部分組成:分組情況,股票和股票投資組合。分組情況和股票部分用于指示如何將股票分為幾類。同一組 Gi 中的股票具有相似的屬性。基于股票投資組合部分,從組中選擇股票以形成股票投資組合。如果

19、組數(shù)為 K,則股票投資組合中的最大股票數(shù)量也將為 K。因此,每個組由股票投資組合部分中的兩個基因表示,即 bi和 ui,其中 bi 表示實際數(shù)量,ui 是從組中購買的選定股票 si 的購買數(shù)量。當 bi 的值大于或等于 0.5,就將股票 si 選入投資組合中。 si 的一個購買單位是 1000 股,下面給出了將 GSP 編碼為染色體的示例。初始總體設計生成初始總體的策略很重要,因為它可能會影響最終的優(yōu)化結果。本文利用股票的現(xiàn)金股息收益率來創(chuàng)建初始總體。接著,使用 Quanta Computer INC.(QCI)和 Taiwan Mobile Co.,Ltd.(TWM)的股票來具體說明這樣做的

20、好處。表 1 顯示了基于每股現(xiàn)金股息和當前股價的兩家公司的現(xiàn)金股息收益率。根據(jù)表 1,由于 QCI 的現(xiàn)金股息分別為NT$ 4、4、3.8 和 4,因此,2011、2012、2013和 2014 年 QCI 的現(xiàn)金股息收益率分別為 6.27,5.85,5.46和 5.78。同樣, TWM 的現(xiàn)金股息收益率分別為 5.46,5.14,2.07和 5.35。將 QCI 與TWM 的現(xiàn)金股利收益率進行比較,由于 QCI 的現(xiàn)金股利收益率穩(wěn)定,因此 QCI 優(yōu)于 TWM。換句話說,購買 QCI 的投資者更有可能獲得穩(wěn)定的收益和較低的風險。表 2 中顯示了 n家公司的現(xiàn)金股息收益率(yi)。表 1 兩公

21、司的現(xiàn)金股利率資料來源:招商證券量化團隊整理表 2 每個股票的現(xiàn)金股利率資料來源:招商證券量化團隊整理表 3 每組平均現(xiàn)金股利占所有組的比例資料來源:招商證券量化團隊整理根據(jù)股票的現(xiàn)金股息收益率,可以通過現(xiàn)有技術(例如 kNN 和k-means 聚類)將n 個股票分為K 個聚類。對于每個組,計算股票 avgCDi 的平均現(xiàn)金股利,并將其用于初始化股票投資組合。然后,計算每組平均現(xiàn)金股利占所有組的比例,如表 3 所示。表 3 顯示,每個組都有其自己的股票投資組合概率。以 G1 和 Gi 為例。當 G1 的平均現(xiàn)金股利大于 Gi 時,G1 的股票更有可能被選擇形成投資組合。因此,更大的平均現(xiàn)金股利

22、增加了從組中挑選股票以形成股票投資組合的可能性。使用此策略,可以提高初始總體的質量。適應和選擇要評估個體的質量,定義合適的適應度函數(shù)很重要。根據(jù)適應度值,可以選擇父代個體以概率的方式進行交配,從而從總體中獲得大量個體??紤]到給定的股票價格序列和股票的基本信息,本文的目標是得出一種 GSP,該 GSP 不僅可以實現(xiàn)良好的收益,而且可以提高組合中股票的相似性。因此,需要定義適當?shù)倪m應度函數(shù)來評估每個個體。本文基于先前方法中使用的適應度函數(shù),開發(fā)了兩個用于優(yōu)化 GSP 的新適應度函數(shù)。前一種方法的適應度函數(shù)如下:f(Cq) = PS(Cq) GB(Cq), 其中PS(Cq)表示投資組合滿意度,用于評

23、估用戶對利潤和指定染色體需求的滿意度,是GB(Cq)組平衡度,用于計算相似組中的股票數(shù)量。參數(shù)用于控制兩個因素的相關性。利潤滿意度當 GSP 的投資組合滿意度很高時,通過染色體生成的股票組合可以獲得良好的利潤收益。需要考慮給定的客觀標準和主觀標準這兩個因素。 PS(Cq)的計算公式為:PS(Cq) =NCp=1subPS(SPp)/NC, 其中 NC 是從染色體Cq生成的股票投資組合的數(shù)量,subPS(SPp)是第p 個股票投資組合SP 的滿意度。subPS(SP )的公式為:subPS(SP ) = ROI(SPp) ,pppsuitability(SPp)ROI(SP )是股票投資組合SP

24、 的利潤,其計算公式為:ROI(SP ) = n(SPi SPi) pppi=1sbu + Div(i) u + u Risk , 其中u 是股票s 的購買數(shù)量,SPi,SPi,Div(i)和Risk 分iiiii isb i別是賣出價,買入價,現(xiàn)金股息和股票si的風險,其可以通過歷史模擬(HS)計算。suitability(SPp)的計算公式為:suitability(SPp) = ICP(SPp) + PP(SPp) , 其中ICP(SPp)是投資資本處罰,PP(SPp) 是投資組合處罰,是用于控制這兩個因素影響的參數(shù)。ICP(SPp)用于測量SPp 中的投資資本對預設的最大投資資本的滿意

25、度,如公式所示:max Inves , if Cap max InvesICP(SP ) = Cappp, 其中Cap 是SP 的投資資本,max Inves是預pp Capp , if max Inves Cappp max Inves定義的最大投資。 PP(SPp) 用于測量SPp中購買的股票數(shù)量對預設的最大購買股票數(shù)量 num Comp , if numCom num Com的滿意度,如公式所示:PP(SP ) = numComp, 其中num CompnumCom , if num Comp 0; 其中 Ki=11, otherwise.為組數(shù),Ui表示組Gi的購買單位ui是否在規(guī)定范

26、圍內。如果購買的單位在最小購買單位和最大購買單位之間,則Ui為 1,否則,Ui為-1。當UB(Cq)為 1.4 時,所有組的購買單位均在規(guī)定范圍內;但是,當UB(Cq)為 1.15 時,某些組的購買單位不在規(guī)定范圍內。其他情況時,UB(Cq)為 1。價格平衡度為了確保同一組中的股票價格盡可能相似,使用了價格平衡度的概念。價格平衡的公式為:PB(C) = MAX(1, kn |Secj| log |Secj|),其中Sec 是價格部分,用于表示用戶定qi=1j=1|Gi|Gi|j義的股票價格范圍,|Secj|是第j 部分的股票價格,|Gi|是組Gi中的股票數(shù)量。結合SF(Cq),UB(Cq)和P

27、B(Cq),優(yōu)化的適應度函數(shù)f(Cq)的公式為:f(Cq) = PS(Cq)GB(Cq) UB(Cq).PB(Cq)距離因子最后一個評價因子是序列距離因子。該因子的目的是衡量同一組中股價序列的相似性。( Gi Gi)染色體C的序列距離SD(C )的公式為:SD(C ) = KseriesDist Bm ,Bn, 其中qqqi=1GiGiKTm Tni=1 GiGi 1Tm TnBGi, BGi 是兩個從股票價格序列TGi , TGi 轉化而得的符號序列,并且可以分別表示為mnmnBGi =b, b, , b和BGi =b, b , , b, seriesDist(BGi, BGi)是兩個符號序

28、列的mm1m2mknn1n2nkmn距離, 其 計 算 公 式 為 : seriesDist(BGi, BGi) = k symbloDist(b , b ) , 其中 mni=1minisymbloDist(bmi, bni)是兩個符號bmi, bni的距離,其計算公式為:symbloDist(bmi, bni) =0, if bmi = bni ;1, if bmi, bni相鄰;其中gap(bmi, bni)是根據(jù)bmi和bmi中給定字母的順序計算的。gap(bmi, bni), otherwise.在本文中,使用SAX 和 ESAX 將時間序列轉換為符號序列。因此,根據(jù)上文中穩(wěn)定性因子

29、和系列距離因子的公式,定義了第一適應度函數(shù):f1(Cq) = PS(Cq) GB(Cq) /SD(Cq), 其中參數(shù)和用于反映組平衡度和序列距離的相關性,可由用戶設置。另外,又定義了第二適應度函數(shù):f (C) = PS(Cq)GB(Cq) UB(Cq)2q.PB(Cq)SD(Cq)遺傳操作算法中使用了三種遺傳操作:交叉,突變和倒位。這些與先前方法中采用的操作相同。由于編碼方案包含三個部分,因此對它們執(zhí)行遺傳操作的過程描述如下,首先對分組部分執(zhí)行交叉操作,隨機選擇兩個染色體作為基礎染色體和插入染色體。從插入染色體中選出一些組,并將其插入基礎染色體中。然后,刪除基礎染色體中的冗余組。在股票投資組合

30、上執(zhí)行交叉操作,可以使用單點交叉操作來生成新的后代。若對股票執(zhí)行突變操作,可以隨機選擇兩個組,兩個組的股票數(shù)量均大于 1,然后隨機選擇一組中的股票,將其重新分配給另一組。如果對股票投資組合進行突變操作,首先隨機選擇一個基因進行突變,當所選基因在股票投資組合部分中位于奇數(shù)位置時,其值從0,0.5更改為0.5, 1或從0.5,1更改為0,0.5。當所選擇的基因在于偶數(shù)位置,從區(qū)間1,maxUnit中產(chǎn)生隨機值來替換舊的值。四、算法詳解本節(jié)介紹了使用 GGA 基于符號序列優(yōu)化 GSP 的算法,分別在第 4.1 節(jié)和第 4.2 節(jié)中給出偽代碼和建議的方法示例。算法的偽代碼為了清楚地描述該算法,其對應的

31、偽代碼如圖 7 所示。圖 7 顯示了該算法基于現(xiàn)金股利(第 1 行)生成初始總體。然后將股票價格序列轉換為符號序列(第 2 至 4 行)。這里需要注意變量類型指示是使用 SAX 還是 ESAX 來獲得符號序列。然后通過設計的合適的適應度函數(shù)(第 7 至 13 行)來評估每個染色體。當在算法中使用適應度函數(shù) f1 時,將使用投資組合滿意度,組平衡度和序列距離以評估染色體,而使用適應度函數(shù) f2 用于評估染色體時,將計算兩個附加因子,即單位平衡度和價格平衡度。然后進行遺傳操作以產(chǎn)生不同的染色體(第 14 至 17 行)。重復進化過程,直到達到終止條件為止。最后,輸出即是獲得的 GSP(第 21 至

32、 22 行)。圖 5 優(yōu)化方法的偽代碼資料來源:招商證券量化團隊整理具體示例本小節(jié)提供一個示例,用以解釋說明通過給定的股價序列和相關信息推導出 GSP 的算法。假設有十二只股票,相關數(shù)據(jù)如表 4 所示,股票價格序列及其現(xiàn)金股利分別如表 5和表 6 所示。步驟 1:將 pSize 設置為十二。然后,使用以下子步驟生成初始總體:子步驟 1.1:將 K 設置為 4 時,十二種股票被隨機分為四組,以形成分組部分。例如, C1 的分組部分可以是 G1:3,9,G2:2,4 ,10,G3:1、5、8、12,G4:6、 7、11。子步驟 1.2:根據(jù)股票的現(xiàn)金股利計算每組的平均現(xiàn)金股利。以 C1 中的組 G

33、1 為例,其股票的現(xiàn)金股利分別為 2.97 和 2.5。因此,G1 的平均現(xiàn)金股利為 2.73(=(2.97 + 2.5)/ 2)。同樣,計算 G2,G3 和 G4 的平均現(xiàn)金股利分別為 1.4、1.45 和 2.87。子步驟 1.3:計算每組平均現(xiàn)金股利占所有組的比例。由于 G1,G2,G3 和 G4 的平均現(xiàn)金股利分別為 2.73、1.4、1.45 和 2.87,以 G1 為例,G1 的平均現(xiàn)金股利在所有組中的比例為 0.323(= 2.73 /(2.73 + 1.4 + 1.45 + 2.87)。同樣,G2,G3 和 G4 占所有組中的平均現(xiàn)金股利比例分別為 0.165、0.17 和 0

34、.34。子步驟 1.4 和 1.5:將 numCom 設置為 3,則生成的集合 R 為0.23,0.31,0.46。因此,組 G1 和 G2 被選為投資組合中的候選組。子步驟 1.6 和 1.7:根據(jù)候選組生成股票投資組合。因為選擇了組 G1 和 G2,所以將 b1 和b2 設置為大于 0.5 的值,而將 b3 和b4 設置為小于 0.5 的值。每個組的已購買單位數(shù)是從區(qū)間0,max-Unit內隨機生成的。假設 maxUnit 為 10,則生成以下十個初始染色體:步驟 2:使用以下子步驟將股票的股價序列轉換為符號序列:子步驟 2.1:對股票價格序列中的每個數(shù)據(jù)值進行標準化。以 s1 的值 17

35、.3 為例,由于均值和方差分別為 18.63 和 0.9238,因此標準化后的值為-0.63。以相同的方式進行標準化后,所有標準化的序列都顯示在表 7 中。表 4 例子中使用的股票資料來源:招商證券量化團隊整理子步驟 2.2 至 2.4:然后利用 PAA 來降低標準化序列的維數(shù)。假設 paaSize 設置為五個,則生成 50(= 246/5 +1)個段。計算每個段的平均值,并將其用于表示該段。以股票 s1 的細分 seg1 為例,平均價值為-1.92(=(-0.63 + -0.95 + -0.58 + -0.85 + -0.49)/ 5)。假定給定的字母大小為 5 并使用 SAX,則 seg1

36、 的平均值小于-0.84,因此將其轉換為符號“ A”。同樣,s1 的符號系列為“ AAAABBBBAC EE”,表 8 中顯示了十二個符號系列。表 5 股價序列的 12 只股票資料來源:招商證券量化團隊整理表 6 2011 年至 2013 年 12 只股票的現(xiàn)金股利資料來源:招商證券量化團隊整理表 7:所有歸一化的股票序列資料來源:招商證券量化團隊整理表 8:十二個代表性的股票序列資料來源:招商證券量化團隊整理表 9 所有染色體的組合滿意度資料來源:招商證券量化團隊整理表 10 染色體的組平衡資料來源:招商證券量化團隊整理表 11 所有染色體的序列距離資料來源:招商證券量化團隊整理表 12 所

37、有染色體的適應度資料來源:招商證券量化團隊整理步驟 3:使用以下子步驟計算每個染色體的適應度值:子步驟 3.1:通過以下子步驟計算每個染色體的投資組合滿意度:子步驟 3.1.1:首先,生成可能的股票投資組合。以染色體 C1 為例,根據(jù)其分組部分(G1:3,9,G2:2,4,10,G3:1,5,8,12,G4:6,7, 11),共有 72(= 2343)個股票投資組合。所有這些都收集在集合 SP = 3,2,1,6,3,2,1,7,3,2,1,11,3,2,5,6,3,2,5,7,.,9,10,12,11中。子步驟 3.1.2:計算每個股票投資組合的利潤。以 SP1:3,2,1,6為例,因為根據(jù)

38、染色體 C1 :0.75、9、0.89、9、0.10、9、0.09、6的股票投資組合部分,s1,s2,s3 和 s6 的風險分別為-0.83,-0.65,-1.75 和-2.19,則 SP1 的利潤為 6.84(= 9(9.52-13.7)+9(2.97)-9(1.75)+9( 18.3516.1)+9(0.6)-9(0.65)。4子步驟 3.1.3:計算每種股票投資組合的適應度。假設最大購買股票數(shù)量為 2,最大投資資本為 1000,則 SP1 的適應度因子為 8.791 (=SCP(SP1)+ PP(SPp) )=(1000 / 268.2)+(3 / 2)4)。子步驟 3.1.4:計算每個

39、股票投資組合的穩(wěn)定性因子。將參數(shù) h 設置為 3;現(xiàn)金股利的第三大方差為 2.123。以 SP1 為例,因為購買了股票 s2 和 s3,并且它們的現(xiàn)金股利的標準化方差為 0 和 1.384,所以 SP1 的穩(wěn)定因子計算為 4.769(= 2(1+ max(0, 1.384)。子步驟 3.1.5 至 3.1.7:容易得知,SP1 的投資組合滿意度為 0.055(= 6.84(/(8.791) 1.54.769)。同樣,C1 的組合滿意度為-0.0426。重復子步驟 3.1.2 至 3.1.7,所有染色體的組合滿意度如表 9 所示。子步驟 3.2 到 3.4:若在此示例中僅使用組平衡度,根據(jù)染色體

40、的分組情況計算每個染色體的組平衡。以 C1 染色體為例,因為 C1 的分組情況是 G1:3,9,G2:2,4,10, G3:1,5,8,12,G4:6, 7,11,其組平衡度為 1.8441。表 10 顯示了所有染色體的組平衡。子步驟 3.5:使用 SAX 來計算每個染色體的序列距離。以 C1 為例。根據(jù)公式,C1 的 SAX 距離為 51.0(=(seriesDist(s3,s9)+ seriesDist(s2,s4)+ seriesDist(s2, s10)+ seriesDist(s4,s10)+ seriesDist(s1,s5)+ seriesDist(s1,s8)+ seriesD

41、ist(s1,s12)+ seriesDist(s5,s8)+ seriesDist(s5,s12)+ seriesDist(s8,s12)+ seriesDist(s6,s7)+ seriesDist(s6,s11 )+ seriesDist(s7,s11)/ 13)。表 11 顯示了所有染色體的序列距離。子步驟 3.6:假設參數(shù)和分別為 5 和 2。那么,C1 染色體的適應度值為 0.00147(=(-0.1794221.84415 / 51.02)。所有染色體的適應度值在表 12 中給出。步驟 4:對總體執(zhí)行選擇操作以形成下一個總體,此處使用了精英選擇策略。在此示例中,十個初始染色體被選

42、擇用以形成下一個總體。步驟 5:對總體執(zhí)行兩階段交叉操作。在第一階段,假設選擇了染色體 C1 和 C5。它們的分組情況分別是“ G1:3,9,G2:2,4,10,G3:1,5,8,12,G4:6, 7,11”和 “ G5:2,6,11,G2:12,G3:3,5,8,9,10,G4:1,4,7”。 設插入基礎染色體C5 的位置為 G3,染色體 C1 的插入順序為“ G:3,5,8,9,10”。因此,在執(zhí)行交叉操作之后,C1變?yōu)椤?G1:3,5,8,9,10,G2:2,4,G3:1,12,G4:6,7,11?!?接著,將交叉的第二階段應用于染色體 C1和 C5。因為 C1和 C5 的股票投資組合部

43、分分別為“ 0.57,5,0.04,8,0.05,6,0.84, 8” 和 “ 0.75,9,0.89,9,0.10,9,0.09,6”,假定切點為 2,新的股票投資組合部分為C1”:“ 0.75,9,0.04,8,0.05,6,0.84,8 和 C5:“ 0.57,5,0.89, 9,0.10,9,0.09,6。”步驟 6:對總體執(zhí)行兩階段突變操作。第一階段,股票從一組隨機轉移到另一組。染色體 C2 的分組情況為:“ G1:4,9,G2:2,8,12,G3:7,G4:1,3,5,6, 10,11”。 舉例來說,若將 G4 中的 s11 移至 G3;染色體 C2的分組情況變?yōu)椤?G1:4,9,

44、G2:2,8,12,G3:7,11,G4:1,3,5,6,10?!痹诘诙A段,如果 C2 的 b2 發(fā)生突變,則染色體 C2的股票投資組合部分將變?yōu)椤?0.12,9,0.56, 8,0.79,8,0.05,7”。步驟 7:對總體執(zhí)行倒位操作。取染色體 C4 的分組情況:“ G1:2,9,10,G2:3,12, G3:1,8,11,G4:4,5,6,7”。舉例來說,假設 G1 和 G4 已交換,分組情況將變?yōu)椤?G1:4,5,6,7,G2:3,12,G3:1,8,11,G4:2,9,10?!辈襟E 8 和 9:當滿足終止條件時,將輸出具有最佳適應性值的 GSP。在此示例中,經(jīng)過 150 代,得出的

45、 GSP 如下所示:Cbest:G1:7,8,9,11,G2:4,6,G3:1,10,12,G4:2,3,5,0.90,5,0.68,9,0.06,9,0.84,9。染色體 Cbest 將十二只股票分為四組, G1 組包含 s7,s8,s9 和 s11; G2 組包含 s4和 s6; G3 組包含 s1,s10 和 s12;組 G4 包含 s2,s3 和 s5。此外,G1,G2 和 G4可以形成可能的股票投資組合。換句話說,可以提供二十四種股票投資組合(= 423)給用戶。五、實驗結果在這一節(jié)中,我們進行了實驗,來說明本文提出的方法在實際的金融數(shù)據(jù)集上的優(yōu)點。參數(shù)設置見表 13。表 13 參數(shù)

46、設定資料來源:招商證券量化團隊整理第 5.1 節(jié)描述了實驗數(shù)據(jù)集。第 5.2 節(jié)對得出的 GSP 進行了分析。第 5.3 節(jié)比較了本文提出的方法和過去的方法在ROI 上的結果,并在第 5.4 節(jié)進行了討論。實驗數(shù)據(jù)集數(shù)據(jù)集包含從臺灣證券交易所收集的 2012/01/01 至 2014/12/31 的數(shù)據(jù)。該數(shù)據(jù)集包含 31 只股票,其屬性包括股價、現(xiàn)金股利和風險值。每個股票價格序列包括大約 742 個數(shù)據(jù)點,每個數(shù)據(jù)點代表一天的收盤價。股票的風險值是用 HS28和從給定的股票價格序列轉換而來的月平均序列來計算的。該數(shù)據(jù)集總共包含 15 個股票類別,其中前三名是半導體、通信網(wǎng)絡和金融。31 個股

47、票價格序列如圖 5 所示。圖 5 數(shù)據(jù)集的股價序列資料來源:招商證券量化團隊整理從圖 5 可以看出,大多數(shù)股票價格在 0 到 100 之間,有些在 100 到 400 之間,還有一些大于 400 。對我們的研究主題感興趣的讀者, 實驗數(shù)據(jù)集可從此鏈接獲得 ( HYPERLINK .tw/chchen/StockPriceSeries(31).rar) .tw/chchen/StockPriceSeries(31).rar)。在下一節(jié)中,將本文提出的方法的結果與過去的方法4進行了比較,以顯示本文提出方法的優(yōu)點。為了區(qū)分這兩種方法,我們用原先的適應度函數(shù)“Previous Approach”來命名

48、過去的方法。在本文提出的方法中,使用公式(19)和(20)中定義的兩個適應度函數(shù) f1 和 f2 來挖掘 GSP;這兩個函數(shù)分別被命名為“Proposed Approach(f1)”和 “Proposed Approach(f2)”得出的股票投資組合分析首先,本節(jié)介紹并分析了基于 Proposed Approach(f1)和兩年培訓數(shù)據(jù)集(2012 年至 2013 年)得出的 GSP。在分別使用 SAX 和 ESAX 距離算法的情況下,表 14 和表 15 對比了基于Proposed Approach(f1)的初始 GSP 和得出的最佳 GSP表 14 和表 15 顯示,得出的 GSP 在適應

49、值方面優(yōu)于初始 GSP。此外,從投資組合滿意度和序列距離得分可以看出,本文提出的方法不僅獲得了較好的 ROI,而且提高了股票序列在組合中的相似性。以表 14 中得出的 GSP 為例,其投資組合滿意度和序列距離分別為 41.04 和 10,說明得出的 GSP 優(yōu)于初始 GSP。同樣的現(xiàn)象也可以在表 15 中找到。然而,采用 SAX 和 ESAX 的本文提出的方法得出的 GSP 的價格相似度分別為3.4 和 6.2,這意味著這兩組股票的購買價格有些不同。表 14 基于 Proposed Approach(f1)用 SAX 的 GSP 的比較資料來源:招商證券量化團隊整理表 15 基于 Propos

50、ed Approach(f1)用 ESAX 的 GSP 的比較資料來源:招商證券量化團隊整理因此,在兩年的訓練數(shù)據(jù)集(2012 年至 2013 年)上進行了實驗,分別使用 SAX 和 ESAX距離算法,對比基于Proposed Approach(f2)的初始 GSP 和得出的 GSP。結果分別見表 16 和表 17。表 16 此處錄入標題資料來源:招商證券量化團隊整理表 17 基于 Proposed Approach(f2)的 GSP 與 ESAX 的比較資料來源:招商證券量化團隊整理表 16 和表 17 顯示,得出的 GSP 在適應值方面優(yōu)于初始 GSP。由于表 16 和表 17 中得出的

51、GSP 的序列距離分別為 9 和 40,很明顯,股價序列的相似性有所增加,并且優(yōu)于初始 GSP。此外,通過比較表 16 和表 17 的得出的 GSP 與表 14 和表 15 的得出的 GSP,我們還可以發(fā)現(xiàn),對于高單位平衡和低價格平衡的 GSP,Proposed Approach(f2)比 Proposed Approach(f1)??偟膩碚f,我們可以得出這樣的結論:由于序列距離的減小,同一組得出的 GSP 中股票價格序列的相似性增加。為了更清楚地驗證這一點,我們進行了實驗,從股票價格序列在組合中的相似性的角度比較了過去和本文提出的方法的結果。分別基于 Previous Approach、Pr

52、oposed Approach(f1)、Proposed Approach(f2)得出的 GSP 的股價序列如圖 9-11 所示。圖 6 按過去方法的股價序列資料來源:招商證券量化團隊整理圖 7 proposed approach(f1)組股價序列資料來源:招商證券量化團隊整理圖 8 proposed approach(f2)組股價序列資料來源:招商證券量化團隊整理圖 9 顯示 G1 組和 G6 組中的股票價格序列不同于其他組。例如,對于 G1,股票代號 2357、2207 和 2912 代號 1402、1326 和 1303 不同。比較圖 9 與圖 10、圖 11 中各組的股價序列,我們可以

53、觀察到,本文提出的方法可以增加股票價格序列在組合上的相似性。舉圖 10(a)到(d)為例,很明顯,組合中的股票價格序列相似性比圖9 中的更好,因為只有股票代號2207 不同于G2 中的其他股票,并且其他三組中的股票價格序列很相似。然后,比較了圖 10 和圖 11 中各組的股票價格序列圖。我們還可以觀察到,當使用適應度函數(shù) f2 時,組內股價序列比使用適應度函數(shù) f1 時更接近。此外,由于 f2 考慮了價格均衡,結果還表明,圖 11 中組合的股票買入價格非常相似。最后,為了說明本文提出的方法的優(yōu)點,將其與過去的方法在 SAX和 ESAX 距離方面進行了比較,如表 18 所示。表 9 過去和本文提出的方法得出的 GSP 的 SAX 和 ESAX 距離資料來源:招商證券量化團隊整理表 10 過去和本文提出的方法在一年的訓練和測試集上的平均回報資料來源:招商證券量化團隊整理表 11 過去和本文提出的方法在兩年的訓練和測試集上的平均回報資料來源:招商證券量化團隊整理表 18 顯示,過去方法的 SAX 和 ESAX 距離分別為 14 和 47。與本文提出的方法得到的距離進行比

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論