基于深度學習的財經(jīng)新聞量化與股市預測研究-vietsdeng

上傳人：洞*** IP屬地：北京上傳時間：2022-08-10 格式：DOCX 頁數(shù)：34 大?。?.05MB 積分：12 舉報 版權申訴

基于深度學習的財經(jīng)新聞量化與股市預測研究-vietsdeng_第2頁

基于深度學習的財經(jīng)新聞量化與股市預測研究-vietsdeng_第3頁

基于深度學習的財經(jīng)新聞量化與股市預測研究-vietsdeng_第4頁

基于深度學習的財經(jīng)新聞量化與股市預測研究-vietsdeng_第5頁

已閱讀5頁，還剩29頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、目錄【摘要】1【】. 1引言211.1研究背景及意義21.2國內(nèi)外文獻綜述31.2.1國外研究結果31.2.2國內(nèi)研究結果41.3本課題主要工作4相關工作522.1文本量化方法5、LSTM 模型52.22.3評測準確率及收益率7文本量化及研究過程933.1實驗環(huán)境與程序流程93.2數(shù)據(jù)來源93.3財經(jīng)量化10數(shù)據(jù)處理143.43.5數(shù)據(jù)集結構14數(shù)據(jù)集結構.2LSTM 數(shù)據(jù)集結構163.6模型調(diào)優(yōu)18模型調(diào)優(yōu).2LSTM 模型調(diào)優(yōu)203.7集成模型213.8十折十次交叉驗證224結果及. 235結束語與展望28【參考文獻】29致謝31Abstract32

2、Keywords32基于深度學習的財經(jīng)量化與工程專業(yè)研究計算機與學院學號：2014150006【摘要】便被用于針對國內(nèi)的漲跌變化及價格一直都是一個火熱的話題，以往機器學習剛興起時，的研究當中。而隨后來機器學習縱向發(fā)展了深度學習的出現(xiàn)及興起，量化交易較為火熱，但在國內(nèi)學術上此方面的研究還較少，于是本文提出并實現(xiàn)了結合財經(jīng)及歷史的及 LSTM模型，以深度學習方法來挖掘變化的規(guī)律，并分析是否能其變化。本研究主要內(nèi)容有：（1）獲取 2010.01-2017.12 的財經(jīng)內(nèi)容，及相關在該期間的歷史數(shù)據(jù)，以此為基礎構建出多種不同的訓練集，如：的標題 word2vec 訓練集、word2vec 訓練集、數(shù)據(jù)

3、訓練集、指數(shù)訓練集、指數(shù)加數(shù)據(jù)訓練集、新傾向值及數(shù)據(jù)訓練集；LSTM的聞傾向加歷史訓練集；（2）針對的兩類訓練集，構建出文本量化模型和純數(shù)值模型；LSTM 構建出一種模型。對其分別從模型參數(shù)、學習率、訓練次數(shù)、loss 公式等方面進行優(yōu)化，提高準確率和收益率；（3）依據(jù)集成學習方法，把本研究中所提出的模型一個集成模型，以得到一個總模型，并以十折十次交叉驗證法測試所有模型的準確率及收益率。從研究結果來分析，深度學習結合財經(jīng)和歷史數(shù)據(jù)來未來變化有一定的準確性，為研究變化的內(nèi)在規(guī)律提供了一定的幫助。【】深度學習；文本量化；LSTM；第 1 頁/共 32 頁1 引言1.1研究背景及意義伴隨科技發(fā)展，人

4、們通過各種來進行交易，同時，在交易當中，出現(xiàn)了基本分析、技術分析、演化分析等分析方法。近年來，計算機領域快速發(fā)展，機器學習、深度學習等技術興起，也使得量化投資變得越來越火熱，人們相信他們能通過機器找出在關系并以此獲利。的內(nèi)人們每天通過交易頻繁地進行買入賣出，由此，價格也會一直在變化，并且會產(chǎn)生海量的交易數(shù)據(jù)。投資者在投資時，越來越把這些數(shù)據(jù)作為重要的參考依據(jù)，能用其畫出各種各樣的 K 線及結合各種理論來得出買入賣出點，這也即是技術分析。對有一定影響,尤其是財經(jīng)，這是投資者了解所購的公司經(jīng)營狀況的主要，其能影響投資者的交易意愿。這些財經(jīng)的往往包含有上市公司的決策、經(jīng)營狀況、財務等等，這些資訊對投

5、資者選擇投資時機及研究市場走勢都起到了重要的作用，這也即是基本分析。財經(jīng)內(nèi)容中通常包含大量有價值的信息，其與歷史數(shù)據(jù)有一定的關聯(lián)，應當用更為先進的方法來挖掘。在國內(nèi)學術中，早在 2012 年便有人以機器學習方法去挖掘中對有較強的影響1。而在國外，更早一點學者們便已對內(nèi)容，證實中的三種人工智能技術，即人工神經(jīng)網(wǎng)絡，系統(tǒng)和混合智能系統(tǒng)進行了比較研究, 表明這些人工智能方法的準確性優(yōu)于以傳統(tǒng)統(tǒng)計方法處務問題2。在 2017 年 10 月，全球第一只應用人工智能、機器學習進行投資的 ETF：AI-eredEquity ETF 被推出。它利用了相關數(shù)學方法，每天 24 小時不停地去處理上百萬條企業(yè)公告及

6、，以此不斷優(yōu)化自身的模型。但從下圖 1 中可看出，該 ETF 從 17 年 10 月到 18 年 4月仍出現(xiàn)了不少的大起大落，半年時間其股價總增長率為 5.81%。而美股標準普爾 500 指數(shù)從 2562.87 上升到 2670.29，增長率為 4.19%，表明這 AI-ETF 整體上要好于市場，但其仍有不少錯誤的時候，仍需要進行一定的沉淀及發(fā)展。實際上在國內(nèi)的眾多量化投資上，也有多個不同的看似優(yōu)秀的模型、交易策略，但往往這些模型的策略回測結果都很漂亮，但用于實卻不盡人意。第 2 頁/共 32 頁來源3圖 1-1 AI-ered Equity ETF 從 2017/10/18-2017/04/

7、23 走勢圖，現(xiàn)在深度學習也已經(jīng)被用于投資當中。深度學習神經(jīng)網(wǎng)絡是一個高度復雜的非線性人工智能系統(tǒng)，是對人腦抽象和具象能力的人工模擬，其具有自組織及自調(diào)整等能力，適合處理多影響、類隨機的復雜非線性難題。同時，利用神經(jīng)網(wǎng)絡方法能把財經(jīng)內(nèi)容進行數(shù)值量化，化為一個個詞語矩陣，現(xiàn)在已有較為成方法，如：Word2Vec。由此，把文本內(nèi)容量化后，便可將其加入到深度學習神經(jīng)網(wǎng)絡中訓練。而和 LSTM 作為新型神經(jīng)網(wǎng)絡，各自有其特性?？捎柧毼谋巨D換成數(shù)值矩陣后的數(shù)據(jù)集；而 LSTM 具備時序觀念，可以依照時間序列實現(xiàn)多個輸入輸出，訓練具有時序?qū)傩缘臄?shù)據(jù)，且其通過門解決了梯度問題。以此，通過結合財經(jīng)的變化進行，

8、依據(jù)與歷史數(shù)據(jù)，把深度學習應用在變化的分析中，以對結果制定交易策略，計算收益率，分析內(nèi)在規(guī)律，為以深度學習方法結合財經(jīng)和歷史應用于國內(nèi)的分析提供一定的理論與實踐價值。1.2國內(nèi)外文獻綜述1.2.1 國外研究結果外匯市場中金額的日內(nèi)變動4，其Nassirtoussi AK 等學者基于金融的標題來實現(xiàn)了一種多層算法：第一層為語義抽象層，解決了文本挖掘同參考；第二層為情感積分層，提取情緒權重；第三層為同步目標特征減少（STFR）的動態(tài)模型創(chuàng)建算法，使用了機器學習中的三個算法，分別為 SVM、K-NN 和樸素方法，準確率頗高，在分析傳統(tǒng)機器學習于中的應用有一定參考性。推理方法5，估而 Maragoud

9、akis計了通過樹增強樸素測。M 等學者使用了鏈（MCMC）（TAN）算法獲得的網(wǎng)絡結構的條件概率分布，來對進行預而 Vargas MR 等人在 2017 年采用深度學習方法，以金融標題和一套技術指標作為第 3 頁/共 32 頁輸入，對標準普爾 500 指數(shù)進行了當日漲跌6。其重點研究了卷積神經(jīng)網(wǎng)絡（）和遞歸神經(jīng)網(wǎng)絡（RNN）的結構，構建了 R模型且與其它文獻中的模型進行比較，研究結果顯示模來進行在捕捉文本語義方面優(yōu)于 RNN，而 RNN 在捕捉上下文信息和以復雜時間特征建中更優(yōu)，并且 R模型要優(yōu)于其它模型。也有學者使用高頻盤中的收益率作為輸入數(shù)據(jù)，研究了三種無監(jiān)督特征提取方法（主成分分析，自

10、動編和受限機）對網(wǎng)絡未來市場行為的整體能力的影響7。實證結果表明，神經(jīng)網(wǎng)絡可以從自回歸模型的殘差中提取附加信息，提高性能。國外相關文獻，多是以是的市場作為研究目標的?；谝灾袊鵀榇淼陌l(fā)展中國家的市場，國外學者的研究中較少涉及。1.2.2 國內(nèi)研究結果國內(nèi)學者們更加傾向以一部分跌。財經(jīng)內(nèi)容或評論來量化為特征向量去的漲8等學者在 2016 年時選取了國內(nèi) 9 大財經(jīng)爬取作文本挖掘，然后從中獲取出關鍵的詞語，隨后以這些詞語去關聯(lián)指數(shù)作為特征向量，以隨機森林算法去選擇重要特征，再以 KNN 算法去大盤指數(shù)漲跌。同在 2016 年，鄒海林使用 Adaboost 結合決策樹算法訓練漲跌模型，其使用最近鄰

11、回歸 k-NN 方法對收盤指數(shù)和漲幅進行回歸結果分析，并對各種 HICT 詞特征選擇方法實驗結果進行比較9。其在文本詞語的處理上做出了較多的研究，使文本一定的進展。應用有另外，分析了 BP、RNN、LSTM 三種神經(jīng)網(wǎng)絡的區(qū)別并以 LSTM 神經(jīng)網(wǎng)絡對美股進模型準確性10。其對 2013 年至 2015 年的美行短期的可行性并作出相應對比，研究股股指進行其認為，誤差均值在 1%以內(nèi)，而時，需加入一些財經(jīng)的上證指數(shù)時，誤差在 8.66%左右,故內(nèi)容作輸入特征，才能有效把誤差減小。1.3本課題主要工作本課題的主要目的是中個股在未來交易日的漲跌情況，以獲取收益，故希望能獲得較高的準確率及收益率。和

12、LSTM 這兩種深度學的標題和內(nèi)容以機器學習、百經(jīng)過了解、思索以及結合這一后，決定選用包括把財經(jīng)習算法來研究情況。本文主要解決度指數(shù)和傾向詞典等方法量化，結合文本矩陣及數(shù)值的兩種輸入數(shù)據(jù)的歷史數(shù)據(jù)組各種不同的訓練集，建立對模型，模型和 LSTM 對文本量化值這一種數(shù)據(jù)的出中單個的未來漲跌情況（收盤價格漲跌情況），并以此設定交易策略，獲取收益（計算出收益率）。對其分析得出財經(jīng)和歷史數(shù)據(jù)在深度學習應用下對國內(nèi)提供一定的參考。所能提供的幫助，為對國內(nèi)的研究第 4 頁/共 32 頁2 相關工作2.1文本量化方法一般需要把文本量化為數(shù)值數(shù)據(jù)，才方便用于進行模型輸入。而從 Deep learning fo

13、r stockmarket prediction from finanl news articles7一文中了解到，對于文本的量化處理有各種各樣的方法，得到各種各樣量化后的數(shù)據(jù)，如：單詞嵌入向量、句子嵌入向量、事件嵌入向量、詞袋、結構化事件元組等。而在這里參考了多篇相關文獻的常用方式，及針對國內(nèi)文本量化方法。這一問題背景，提出了四種一為量化標題為詞語向量；二為以 TF-IDF 方法提取出每篇中的，然后將其量化為詞語向量；三為以 TF-IDF 方法提取出每篇中的指數(shù)，即把，然后以相關權重計算方法，得出一定數(shù)量的集語，去獲取集量化為指數(shù)；四為利用相關數(shù)學公式去處理集中詞語的詞頻，量化為漲跌傾向值。

14、2.2、LSTM 模型（卷積神經(jīng)網(wǎng)絡）：一般用來處理圖像任務，其卷積、池化操作能夠提取出圖像中各種不同的特征，并最終通過全連接網(wǎng)絡實現(xiàn)信息的匯總及輸出。在文本處理中，由于句子長度較短，且能獨也能較好地處理這些文本內(nèi)容11。立表達意思，使得模型在結構上一般包括有 4 個部分，下圖 2-1 為處理詞向量訓練集的基本模型結構：圖 2-1 處理詞向量的模型基本結構，來源111、輸入層：在文本處理中，輸入層是文本詞語對應的詞向量從上到下排列的矩陣，假設文本 m 個詞，詞向量長度為 l，那么這個矩陣就是 m*l(可看作一副為 m*l 大小的圖像)。對于未知詞第 5 頁/共 32 頁語，其向量可用相關默認值

15、來填充。2、卷積層：卷積層通過卷積操作得到若干個特征圖，卷積窗口的大小為 n*l，其中 n 表示詞語的個數(shù)，而 l 表示詞向量的維數(shù)。通過這樣的卷積操作，將得到若干個列數(shù)為 1 的特征圖（一般同時會有多個不同大小的卷積窗口，來提取出不同的特征）。3、池化層：接下來的池化層，一般使用取最大值（其代表著最重要的信號）的方法來處理特征圖，故也稱最大池化層。這種池化方式可以解決可變長度的句子的輸入問題，最終池化層的輸出為各個特征圖的最大值們，即一個一維的向量。4、全連接+softmax 層：池化層的一維向量的輸出通過全連接的方式，連接一個 Softmax 層，來獲得輸出（通常反映著最終類別上的概率分布

16、）。在此中間，卷積層和池化層可擁有多層，這些卷積池化層可以是同級的，即使用多個不同大小的卷積核及池化層去卷積并池化數(shù)據(jù)，獲得多種不同的特征并拼接起來，再進行下一層處理；或是在一次卷積池化結束后，對得到的特征圖再進行卷積池化，即特征多次提取，縮減單元數(shù)。參考基于卷積神經(jīng)網(wǎng)絡的互聯(lián)網(wǎng)短文本分類方法12一文中的流程模型圖，及基于文本量化情況、輸入數(shù)據(jù)集結構，構建了兩種模型。分別處理文本型（詞向量）數(shù)據(jù)集（標題訓練集和訓練集）和數(shù)值型數(shù)據(jù)集（指數(shù)數(shù)據(jù)集和漲跌傾向數(shù)值及歷史數(shù)據(jù)集）。同時，從卷積層數(shù)量、卷積窗口大小、多重卷積、特征拼接、全連接層數(shù)量等方面進行調(diào)優(yōu)。LSTM（長短時序網(wǎng)絡）實際上 LSTM

17、的發(fā)展是有一個演變過程的，其演變順序為 BP 神經(jīng)網(wǎng)絡（反向神經(jīng)網(wǎng)絡）- RNN（循環(huán)神經(jīng)網(wǎng)絡）- LSTM(長短時序網(wǎng)絡)。在每一個演變階段，其保留前一階段的特性同時還會針對于各種缺陷進行改進，于是本實驗中直接采用 LSTM 應用于，LSTM 的基本結構10可見圖 2-2。第 6 頁/共 32 頁來源10圖 2-2 LSTM 基本結構，傳統(tǒng) BP 神經(jīng)網(wǎng)絡模型是由輸入層、隱藏層和輸出層組成，其中隱藏層包含一層或多層。數(shù)據(jù)從輸入層輸入，然后通過全連接向隱藏層傳遞下去，最后傳導到輸出層，其通過一層層反饋傳遞修正權值，從而調(diào)整整個神經(jīng)網(wǎng)路。而其在于，其在訓練的過程中并未體現(xiàn)先后時序關系，所以每次

18、神經(jīng)元權值的修正均只是基于單條數(shù)據(jù)的影響，沒有時序概念。這在價格中理論上具有極大的缺陷。隨后因相關應用需要，RNN 出現(xiàn)，其通過添加時間點的自連接隱藏層而具有對時間進行顯式建模的能力。即隱藏層的反饋，除了進入輸出端，還進入了下一時間步的隱藏層，從而影響下一個時間步上的各個權值。而其主要缺陷在于隨著神經(jīng)網(wǎng)絡層數(shù)的增加，會出現(xiàn)梯度。LSTM 應運而生，它主要是給每個單元增加了單元，這些單元的主要由三個門控制著，分別是輸入門、忘記門和輸出門，操作功能有保存、寫入和。這些門都是邏輯單元，用選擇性反饋的誤差函數(shù)來隨著梯度下降修正參數(shù)，根據(jù)反饋的權值修正數(shù)來選擇性遺忘和部分或全部接受，這樣就不會每個神經(jīng)元

19、都得到修改了，從而使梯度不會多次，這樣前面幾層的權值也可以得到相應的修改，同時使誤差函數(shù)隨梯度下降得更快。調(diào)整 LSTM 隱藏層數(shù)、單元門控遺忘概率，能使模型獲得更好的效果。集成模型：最后對于所所有模型，結合集成學習方法，將它們組成一個集成模型，主要使用結合策略中的學習法，來生成最終模型。2.3評測準確率及收益率第 7 頁/共 32 頁利用各模型對于個股的漲跌進行，以結果為依據(jù)，來按照同樣的交易策略進行交易，計算出的準確率及收益率。其中使用十折十次交叉驗證法來評測模型在準確率、收益率上的效果。十折十次交叉驗證法，即在十折交叉驗證（數(shù)據(jù)處理形式如圖 2-3）基礎上，對于每一折的數(shù)據(jù)進行十次訓練得

20、到十次結果。這樣一來，即一個模型對于一個數(shù)據(jù)集需進行 10*10 次訓練，得到上百次結果、準確率及收益率。圖 2-3 十折交叉驗證法，來源13通過這種做法，能得出各模型的泛化結果，較好地評測各模型的真實效果。第 8 頁/共 32 頁3 文本量化及研究過程3.1實驗環(huán)境與程序流程實驗環(huán)境：系統(tǒng)環(huán)境：Windows 7 / CPU i5 / 8G3.5、結巴分詞、Word2Vec、Tensorflow1.2開發(fā)工具：程序流程：圖 3-1 文本量化、模型及測試驗證整體流程3.2數(shù)據(jù)來源財經(jīng)數(shù)據(jù)來源：本研究中所使用的財經(jīng)WiseNews 共用分類分類數(shù)據(jù)都來自數(shù)據(jù)庫，其中主要使用的是概覽(陸) 財

21、經(jīng) 中的中國報刊(概覽)，從中爬取了從 2010 年 1 月 1 日到 2017 年 12 月 1 日的約 70W 條數(shù)據(jù)。一開始打算從各買報紙來閱讀。不過因各中爬取，因為現(xiàn)在人們大多從網(wǎng)絡中瀏覽，而不是購網(wǎng)頁結構會改的內(nèi)容結構各不相同，且每過一段時間，其變，爬取工作量較大，因而選擇了從數(shù)據(jù)庫中獲取。第 9 頁/共 32 頁獲取相關數(shù)據(jù)后，未對其進行聞。處理，故其可能會有重復或相關性較低的新數(shù)據(jù)來源：本研究中所使用的數(shù)據(jù)從搜狐所提供的一個接口所獲取，從其能獲取到中國上數(shù)據(jù)。其獲取數(shù)據(jù)字段有日期、開盤價、收盤價、最高價、成交量/手、交易額/萬元。從中數(shù)據(jù)，獲取的數(shù)據(jù)的時間段同樣是 2010 年

22、1 月 1交所和深交所兩個交易所中各個的差價（兩天收盤價之差）、差價百分比、獲取了多個不同個股的數(shù)據(jù)，為配合日到 2017 年 12 月 1 日。據(jù)了解，所獲取歷史數(shù)據(jù)可能會缺少部分交易日的數(shù)據(jù)，這一點需要注意。指數(shù)數(shù)據(jù)來源：在文本量化處理當中，有一處理為：提取財經(jīng)的，進行權重排序，選取前面一定個數(shù)的詞語去到指數(shù)中，隨后加入到模型和 LSTM 模型的輸入集當中，以此去走勢。因為指數(shù)暫不提供開放 API，故本人使用了一個上開源的指數(shù)爬蟲去進行爬?。〝?shù)據(jù)只用于學術目的），但因指數(shù)的防護原因及爬蟲本身，較多數(shù)據(jù)爬取失敗，故進行了默認值處理，會對研究結果有一定影響。本研究中只爬取了各詞語的整體趨勢、P

23、C 趨勢、移動趨勢數(shù)值，即一個詞語在一天中能用三個數(shù)值來表示。（實際上，本打算是想要獲取所有省份省會及直轄市這些地區(qū)的指數(shù)數(shù)據(jù)。后發(fā)覺爬取失敗過多，便退而求次地打算只是爬取及廣深的指指數(shù)，失敗率在 2%左數(shù)數(shù)據(jù)，卻仍發(fā)現(xiàn)失敗較多，最終只能選擇了只爬取采用的右。若能爬取到的完整的數(shù)據(jù)，應能作出的處理及分析，獲得更好的效果。）來源14圖 3-2指數(shù)展示頁面，其數(shù)據(jù)按地區(qū)、搜索環(huán)境分類，3.3財經(jīng)量化基于機器學習算法的 Web 文本挖掘應用研究15一文中于信息提取、文本分類、文本聚類三個方面作了相關的研究，對于基于機器學習的財經(jīng)提取、處理方面有較好的參考意義，其中也給了我些許關于文本量化的啟發(fā)，于是

24、有了以下的文本處理。關鍵需要注意的是本研究除計算模型的準確率外，還需計算模型的收益率，故立足于的 T+1 交易制度情況，將以第 T 天及此前的數(shù)據(jù)去第 T+2 天相比于 T+1 天的第 10 頁/共 32 頁漲跌情況，因而需以交易日為時間序列（并非每一天都為交易日），來構建相應的訓練數(shù)據(jù)集（普通日期與交易日）。把從慧科數(shù)據(jù)庫爬取得到的財經(jīng)到本地數(shù)據(jù)庫當中，以下面各種方法進行量化，隨后結合歷史數(shù)據(jù)組成輸入集數(shù)據(jù)。1.把當天所有財經(jīng)的標題以空格為分隔符銜接在一起，利用結巴分詞法去進行分詞，后續(xù)需使用 word2vec 處理，來將這些詞語轉化成數(shù)值矩陣。這樣來將其作為財經(jīng)的一種文本量化格式標題數(shù)據(jù)格

25、式。2.對當天所有財經(jīng)的主體內(nèi)容利用結巴分詞法中的TFIDF 方法進行分詞并且提取出前 20 個（進行過濾，選定詞性為名詞/人名/地名/機構團體/其他專名/動詞/動名詞的詞語），作為一篇的關鍵內(nèi)容（生成緩存文件）。隨后把當天所有財經(jīng)內(nèi)容的關鍵詞銜接在一起，后續(xù)需使用 word2vec 處理。這樣來將其作為財經(jīng)的一種文本量化格式內(nèi)容數(shù)據(jù)格式。3. 對爬取得到的所有財經(jīng)的主體內(nèi)容利用結巴分詞法中的 TFIDF 方法進行分詞并且提取出每篇有中的前 20 個。隨后對這所有中的進行權重計算（對所中，詞語出現(xiàn)的次數(shù)作統(tǒng)計），選出一定數(shù)量的重要詞語去獲取相應的指數(shù)（主要獲取三個數(shù)據(jù)：整體趨勢、PC 趨勢、移

26、動趨勢，地理位置為）。本研究中選用50 個詞語，爬取到相應的指數(shù)數(shù)據(jù)后，計算每天所有詞語相應指數(shù)的變化率（數(shù)值格式為 100%樣式，即需乘以 100；爬取失敗時，如數(shù)值為 0，則數(shù)據(jù)集中變化率默認為 0，LSTM 數(shù)據(jù)集中變化率默認為 0.01），以這 3*50 個指數(shù)的變化率作為財經(jīng)的一種文本量化格式指數(shù)數(shù)據(jù)格式。4.參考 Stock market prediction using neural network through news on online solnetworks16一文中將消息轉換為漲跌傾向值的數(shù)學方法，將財經(jīng)計算量化為未來漲跌傾向值，參考其理論，做出微量調(diào)整，以適應訓練輸

27、入，得出主要數(shù)學計算公式為：(1)首先，因為每個個股在大盤中的表現(xiàn)都是不一樣的，所以需針對個股來處理，得出的傾向參照詞典，參照選取的是目標個股漲跌幅度達到 4%以上的交易日，約占數(shù)據(jù)總交易日數(shù)的 10%左右（此處目標個股漲跌幅在 4%以上約占 7%，如圖 3-3 可見該股收盤價變化率分布，xy 軸代表小于 4%占 3%，大于 4%占 4%），處理該交易日的 T-2 天交易日的據(jù)。數(shù)第 11 頁/共 32 頁圖 3-3 上汽2010/01/01-2017/12/01 的收盤價變化率所占比例分布對所有財經(jīng)進行分詞處理，隨后利用(1)式計算出詞語在各分類中的權重，wi 代表單個詞語，mj 代表單篇，

28、c 為分類（上漲和下跌），totalc 代表分類中的詞語總數(shù)，count函數(shù)統(tǒng)計 mj 中 wi 的數(shù)量，因而P(wi|c)為某單詞在 c 分類中出現(xiàn)所占百分比。(2)(2)式計算單篇財經(jīng)對于上漲和下跌的傾向，其中中沒有參照的詞語的 P(wi|c) =1/totalc，而 P(c1) = totalc1 /(totalc1+totalc2 )。(3)(4)這里相比于原文中作出了改變，通過(3)、(4)式可以計算出每篇財經(jīng)跌的傾向。對于上漲、下第 12 頁/共 32 頁(5)最后通過求平均值，即(5)式，得出財經(jīng)分別對于上漲、下跌的傾向值。通過以上一系列的計算，可以把財經(jīng)轉換為對未來漲跌傾向值，

29、為兩個值，分別是上漲傾向值、下跌傾向值，以這兩個數(shù)值作為漲跌傾向數(shù)據(jù)格式。財經(jīng)的一種文本量化格式如上所述，在把財經(jīng)轉換成上漲、下跌的傾向值之前，需先生成一個漲跌傾向詞典。這里需注意的是，因數(shù)據(jù)集中會有一部分數(shù)據(jù)是作為測試集使用的，故該部分的交易天數(shù)不應作為參考加入到傾向詞典中，加入會顯得不合理且造成過擬合，見圖 3-4 中不同詞典對于同一交易日生成的傾向值情況：圖 3-4 多個傾向詞典對于同一時間段交易日生成的傾向值把原始數(shù)據(jù)分拆成十組不同的訓練-測試集，因而因后面會使用到十折交叉驗證需相對應地生成十個漲跌傾向詞典，這些詞典都不涉及到被用作測試集部分的數(shù)據(jù)，后面也會相對應地用這十個詞典生成相對

30、應的十個訓練-測試集數(shù)據(jù)。圖9 中使用了三個不同的詞典來生成目標個股從2010/01-2010/10 漲跌幅在3%以上的交易日的前T+2 天的的漲跌傾向值。其中 rate 0 是個股收盤價的變化率曲線；word trend1/2/3 是 T-2漲跌傾向值之和乘以 10（因為國內(nèi)漲跌幅上限是 10%）的數(shù)值曲線；word trend1 是一號傾向詞典，無選取 2010/01-2010/10 交易日數(shù)據(jù)作參考；二號、三號也無選取相應測試集的交易日作參考，但內(nèi)有 2010/01-2010/10 交易日數(shù)據(jù)作參考。由圖可見， word trend 2/3 曲線基本貼近，且與 rate 0 曲線較多貼合

31、，證明傾向大部分正確但過分擬合；而 word trend 1 曲線與 rate 0 曲線很不貼合，傾向結果不泛化，這一傾向數(shù)學理論還需探究第 13 頁/共 32 頁完善。故為保證嚴謹，此處需分開構建詞典及數(shù)據(jù)集。（在處理得到指數(shù)的時，是針對整個集進行處理，因為獲取時是主要由詞頻來計算重要性，而前面一定數(shù)量的的詞頻是遠高于后面的，因而影響較低。若要嚴格要求，這也應按此處同樣處理）3.4數(shù)據(jù)處理本研究從中選擇了一個有著較大的成交金額的測試驗證對象。上汽，來作為對模型的數(shù)據(jù)字段有：ID、日期、開盤價、收盤價、差價（兩天收盤價之差）、差價百分比、據(jù)，、最高價、成交量/手、交易額/萬元。以格式化到小數(shù)點

32、后兩位（四舍五入）。因ID 來分組處理，對于各數(shù)值數(shù)實行 T+1規(guī)則，故數(shù)據(jù)（即輸出數(shù)據(jù)）為后第二個交易日的收盤價漲跌或是收盤價差價百分比。另外為考慮消除數(shù)據(jù)各數(shù)值不同數(shù)量級大小對模型的影響，故應對數(shù)據(jù)進行標準化處理，此步在模型運行前讀入文件數(shù)據(jù)時進行處理，讓文件中的數(shù)據(jù)有一定結構又保持較為原始的狀態(tài)，借此能更靈活地處理輸入數(shù)據(jù)。3.5數(shù)據(jù)集結構3.5.1數(shù)據(jù)集結構訓練數(shù)據(jù)集 1：數(shù)據(jù)內(nèi)容從財經(jīng)標題中提取，即 3.3 節(jié)中所說的標題數(shù)據(jù)格式，后結合數(shù)據(jù)處理出的輸出集數(shù)據(jù)，得文件存入內(nèi)容為：標題切割詞語字符串、后第二個交易日差價變化率, 日期,ID，內(nèi)容如表 3-1 所示。表 3-1標題模型數(shù)據(jù)

33、集訓練數(shù)據(jù)集 2：數(shù)據(jù)內(nèi)容從財經(jīng)內(nèi)容中提取，獲取相關，即 3.3 節(jié)中所說的內(nèi)容內(nèi)容數(shù)據(jù)格式，結合數(shù)據(jù)處理出的輸出集數(shù)據(jù)，得文件存入內(nèi)容為：字符串、后第二個交易日差價變化率, 日期,ID，內(nèi)容如表 3-2 所示。第 14 頁/共 32 頁01開市上市公告-4.44, 2010-01-07, 3定調(diào) 金融福布斯潛力-4.98, 2010-01-08, 3征稅個人證件-2.36, 2010-01-11, 3鐵市計劃投資3.49, 2010-01-12, 3表 3-2內(nèi)容模型數(shù)據(jù)集訓練數(shù)據(jù)集 3：數(shù)據(jù)內(nèi)容從財經(jīng)內(nèi)容中的里進行再提取，取權重最大的前 50 個詞語，轉換為指數(shù)來作為輸入數(shù)

34、據(jù)，即 3.3 節(jié)中所說的指數(shù)數(shù)據(jù)格式，結合數(shù)據(jù)處理出的輸出集數(shù)據(jù)，得文件存入內(nèi)容為：動趨勢*50）、后第二個交易日差價變化率, 日期,指數(shù)矩陣（整體趨勢, PC 趨勢,ID，內(nèi)容如表 3-3 所示。移表 3-3指數(shù)模型數(shù)據(jù)集訓練數(shù)據(jù)集 4：數(shù)據(jù)內(nèi)容從財經(jīng)中經(jīng)過一系列數(shù)學公式計算后得到，具體轉換結果為財經(jīng)對于未來漲跌傾向值，一個趨漲指數(shù)，為正數(shù)，數(shù)值范圍為 01，越接近于 1 則表示漲的可能性越大、上漲幅度越大；另一個為趨跌指數(shù)，為負數(shù)，數(shù)值范圍為-10，越接近于-1則表示跌的可能性越大、下跌幅度越大，即 3.3 節(jié)中所說的漲跌傾向數(shù)據(jù)格式。因該文輸入數(shù)據(jù)集。為了能有一個較為本量化方式獲得的數(shù)

35、據(jù)較少，故將其與數(shù)據(jù)結合來大的矩陣供給給模型訓練識別，故以 10 天的數(shù)據(jù)為一組，來。經(jīng)過處理后，文件存入內(nèi)容為：上漲傾向值, 下跌傾向值, 開盤價, 收盤價, 收盤價差價, 收盤價差價百分比, 最高價, 成交量, 交易額、后第二個交易日差價變化率,第 15 頁/共 32 頁012.6, 0.0, 3.55-12.42, -21.93,-4.44, 2010-01-07, 31.272.17, -0.11, 5.37-8.43, -12.36,-4.98, 2010-01-08, 3-15.620.0, 1.7, -0.58-11.3, 29.49, -0.74-2.36, 2010-01-1

36、1, 30.0, -6.58, 9.982.36, -17.82,3.49, 2010-01-12, 3-2.9901成交營業(yè) 先生-4.44, 2010-01-07, 3信貸政策工作下榜科技-4.98, 2010-01-08, 3限售解禁地稅-2.36, 2010-01-11, 3鐵路鐵道部在建擴大3.49, 2010-01-12, 3日期,ID，內(nèi)容如表 3-4 所示。表 3-4漲跌傾向及歷史模型數(shù)據(jù)集以上所說的 4 種數(shù)據(jù)集都會分別生產(chǎn)輸出到 CSV 文件當中，供于用。模型重復使3.5.2 LSTM 數(shù)據(jù)集結構LSTM 訓練數(shù)據(jù)集 1：數(shù)據(jù)內(nèi)容從數(shù)據(jù)中提取，單純采用原始

37、的歷史數(shù)據(jù)，而不加入財經(jīng)量化出的數(shù)值數(shù)據(jù)，生成一個原始的數(shù)據(jù)集文件，讓 LSTM 模型在讀入數(shù)據(jù)時能靈活處理（如數(shù)據(jù)標準化或保持原始）。經(jīng)過處理后，文件存入內(nèi)容為：開盤價、收盤價、收盤價差價、收盤價差價百分比、最、成交量、交易額、第二個交易日差價變化率、日期、ID，內(nèi)容如表 3-5高價、所示。表 3-5歷史數(shù)值LSTM 模型數(shù)據(jù)集第 16 頁/共 32 頁stockdateopenclosidifferepercentage_dilowhighvolumamounrate0126.91, 25.65, -1.31, -4.86, 25.45, 26.95,3.28, 2010-02-03, 3

38、405012.0, 105229.62, 0.7, -0.319.98,19.45, -0.68, -3.38, 19.35, 19.98, 180996.0,35349.84, 0.79, -0.2126.0, 25.24, -0.41, -1.6, 24.94, 26.1,-0.05, 2010-02-04, 3496332.0, 126343.32, 0.77, -0.2319.55,19.82, 0.37, 1.9, 19.45, 20.4, 253792.0,50653.85, 0.7, -0.325.1, 24.12, -1.12, -4.44, 23.88, 25.1,-1.52

39、, 2010-02-05, 3542518.0, 131184.72, 0.7, -0.319.8,20.47, 0.65, 3.28, 19.0, 20.48, 196769.0,39666.51, 0.69, -0.3123.7, 22.92, -1.2, -4.98, 22.0, 23.7, 739923.0,-0.1, 2010-02-08, 3166958.97, 0.65, -0.3520.43, 20.46,-0.01, -0.05, 20.12, 20.64, 142065.0, 29050.61,0.6, -0.4LSTM 訓練數(shù)據(jù)集 2：從財經(jīng)中以 TFIDF 方法提取并取

40、權重最大的前 20 個詞語，獲取其指數(shù)中的趨勢數(shù)值來作為輸入數(shù)據(jù)，同理 3.3 節(jié)中所說的詞語的數(shù)值由 3 個變?yōu)?1 個。指數(shù)數(shù)據(jù)格式，只是每個經(jīng)過處理后，文件存入內(nèi)容為：20 個價差價、收盤價差價百分比、最高價、的整體趨勢、開盤價、收盤價、收盤、成交量、交易額、后第二個交易日差價變化率、日期、ID，內(nèi)容如表 3-6 所示。表 3-6指數(shù)與歷史 LSTM 模型數(shù)據(jù)集LSTM 訓練數(shù)據(jù)集 3：數(shù)據(jù)內(nèi)容從財經(jīng)傾向數(shù)據(jù)格式。中經(jīng)過一系列數(shù)學公式計算后得到，同理 3.3 節(jié)中所說的漲跌經(jīng)過處理后，文件存入內(nèi)容為：上漲傾向值、下跌傾向值,、開盤價、收盤價、收盤價差價、收盤價差價百分比、最高價、日期、I

41、D，內(nèi)容如圖 3-7 所示。、成交量、交易額、后第二個交易日差價變化率、表 3-7漲跌傾向與歷史 LSTM 模型數(shù)據(jù)集第 17 頁/共 32 頁stock_iddateopeningword17word18word19word2032010-01-0526.910.01-3.14-4.58-1.1232010-01-0626.0-20.62-4.39-5.76-7.1132010-01-0725.1-18.94-16.78-27.5-38.1532010-01-0823.717.037.6321.0841.94_idingngncefferenceestestet32010-026.9 25.

42、-1.31 -4.8625.26.40501 10522-4.1-0516545952.09.628632010-026.0 25.-0.41 -1.624.26.49633 12634-1.1-06249412.03.32632010-025.1 24.-1.12 -4.4423.25.54251 13118-4.1-07128818.04.724432010-023.7 22.-1.2-4.9822.23.73992 16695-4.1-0892073.08.97983.6模型調(diào)優(yōu)3.6.1模型調(diào)優(yōu)1.文本型數(shù)據(jù)集模型對于這兩個訓練集中的中文詞語，需要使用 word2vec 來將其轉換為數(shù)

43、值矩陣，方可將其輸入到模型中進行訓練計算。轉換處理時，需要注意的是，word2vec 是針對輸入文本的整體關系來將其中各個詞語轉換成數(shù)值矩陣的，因而輸入文本時，要把所有文本一同輸入。另外，在原理上主要是運用于對進行處理識別的，故其輸入內(nèi)容為一矩陣，行列數(shù)一定，其中列數(shù)便是通過詞語 word2vec 轉換為數(shù)值矩陣的維數(shù)，而行數(shù)則是代表詞語數(shù)量，為一條數(shù)據(jù)中（一天的中）的詞數(shù)，因為每天的數(shù)量不一樣，故需在word2vec 處理前對詞數(shù)進行截斷或補充，來保證訓練集行數(shù)一定。在中卷積窗口的長度和寬度一般都是遠小于輸入集的長度和寬度，但是在這里的文本輸入中，一行代表一個詞語，因而卷積窗口的長度應與詞向

44、量的維數(shù)保持一致不變，變化的只有其寬度（即囊括的詞數(shù)）。該文本數(shù)據(jù)模型結構如圖 3-5 所示。第 18 頁/共 32 頁stock_idateopeninclosinratenews_nunews_neg_nu dggmm32010-01-026.9125.65-4.80.7-0.35632010-01-026.025.24-1.60.77-0.23632010-01-025.124.12-4.40.7-0.37432010-01-023.722.92-4.90.65-0.3588圖 3-5文本型數(shù)據(jù)集模型結構該模型為基礎的結構，主要是進行了參數(shù)調(diào)優(yōu)。以輸入數(shù)據(jù)的時間為基準，的是未來第二個交易

45、日的收盤價漲跌情況，這是因為交易所實行的是 T+1 制度，即一只后，需第二個交易日方可交易，為計算收益率且符合實際故第二個交易日漲跌（輸入第T 天數(shù)據(jù)，日賣出）。結果為上漲，則第 T+1 個交易日買入，第 T+2 個交易由圖可看出，這里卷積核列數(shù)與輸入矩陣列數(shù)一致，有多個卷積核（行數(shù)不一），隨后進行池化，獲得各種特征圖并拼接，之后連接一個全連接層，再利用 softmax 層學習得出漲跌（分類）結果。到一定數(shù)目的神經(jīng)元上，首先是對訓練集的迭代次數(shù)進行調(diào)整，接著調(diào)整卷積核的大小、數(shù)量及單個核特征數(shù)（卷積層能極大地減小全連接層中的參數(shù)的數(shù)目，使學習更容易），把激活函數(shù)換成線性修正激活函數(shù)ReLU，加

46、速訓練；再利用大小為 2*2 的池化核及最大取值法進行池化，把池化提取后的特征矩陣進行拼接傳入全連接層；調(diào)整全連接層的神經(jīng)元數(shù)量，應用棄權技術到全連接層，來減小過度擬合；在 softmax 層加入 L2 正則化，最后調(diào)整模型學習率，使其能收斂到較好的結果。2.數(shù)值型數(shù)據(jù)集模型這兩個訓練集中的輸入數(shù)據(jù)都本已是數(shù)值，故無需進行特別的處理，需要做的是對數(shù)據(jù)進行標準化處理。與文本詞向量不同的是，這兩個訓練值中都已是詞語轉換得到的數(shù)值，故卷積窗口的長度無需固定，其長度及寬度都可變。該數(shù)值數(shù)據(jù)所示。模型結構如圖 3-6第 19 頁/共 32 頁圖 3-6數(shù)值型數(shù)據(jù)集模型結構數(shù)值型數(shù)據(jù)集模型的結構與文本型大

47、同小異，可調(diào)優(yōu)方面基本一致。不同的主要是在該處卷積核的列數(shù)是可變的，故設置了較為傳統(tǒng)的卷積核，即長寬相同的卷積核。因為輸入矩陣的行列數(shù)較小，故沒有進行多重卷積來減少特征，而同樣采用特征拼接來處理卷積池化后的結果。3.6.2 LSTM 模型調(diào)優(yōu)依據(jù) 3.5.2 節(jié)中所說的 3 種 LSTM 訓練數(shù)據(jù)集結構（歷史訓練集、指數(shù)與歷史訓練集、漲跌傾向與歷史訓練集），構建出 1 種 LSTM模型來處理這些數(shù)值數(shù)據(jù)，結構簡圖如圖 3-7 所示。圖 3-7 LSTM 數(shù)據(jù)集模型結構該處的模型為基礎的 LSTM 結構，主要進行了參數(shù)調(diào)優(yōu)。由圖可看出，這里采用十個交易日組成一個單獨時間序列的是未來第二個交易日的

48、收盤價漲跌情況（與第 20 頁/共 32 頁同）。首先是對訓練集的迭代次數(shù)進行調(diào)整，因為訓練數(shù)據(jù)以天為隨后組成時間序列數(shù)據(jù)，故數(shù)據(jù)集不大，故需迭代一定次數(shù)，但次數(shù)不能過多，否則會過擬合。接著調(diào)整隱藏層神經(jīng)元數(shù)量，過少則學習，過多則可能忽略掉重要的數(shù)據(jù)；隨后調(diào)整隱藏層數(shù)目，與神經(jīng)元數(shù)量同理；調(diào)整神經(jīng)元內(nèi)輸入門、輸出門、遺忘門的偏置，一般設置遺忘門的偏置及dropout 輸出的比例；最后調(diào)整模型學習率，使其能收斂到較好的結果。3.7集成模型集成學習是通過使用一定數(shù)量學習器進行學習，并通過某種規(guī)則把各個學習結果進行整合從而獲得比單個學習器更好的學習效果的一種機器學習方法。在這里是對某個個股在未來某個

49、交易日進行漲跌單個漲跌器集成起來，通過對多個漲跌器的的時候，把若干個（此處為 7 個）結果進行某種組合（集成策略）來決定最終的結果，以取得比單個漲跌器更好的性能，見圖 3-8。圖 3-8 通過集成學習獲取集成漲跌器集成學習有兩個需要解決，第一是如何得到一定數(shù)量的學習器，第二是如何選擇一種結合策略生成一個強學習器。而在這里，本已經(jīng)生成了多種不同的學習器，故不太關注集成學習中生成學習器部分的內(nèi)容，關注的是集成學習的結合策略這一部分內(nèi)容。集成學習的結合策略主要有平均法、投票法和學習法等。這里采用了學習法，代表方法為 stacking，按其理論會在多個學習器的結果上再加一層學習器，也就是說，將學習器的

50、結果作為輸入，將訓練集的輸出作為輸出，再訓練出一個學習器來得到最終結果。而在這里使用了一個softmax layer來把7 個初級學習器的結果轉換為一個最終漲跌（2 個分類）結果，結構見圖 3-9。第 21 頁/共 32 頁圖 3-9 集成學習（次級學習器）模型該集成學習器只是簡單地給輸入數(shù)據(jù)添加上 drop，隨后給予權重 W 及偏置 b，讓其進行訓練，使其獲得一個最終結果。3.8十折十次交叉驗證十折十次交叉驗證，用來測試各模型的準確性。其為常用的測試方法，基于 K 折交叉驗證法。在本研究中，因需保持時間序列的連續(xù)性，故在將數(shù)據(jù)集分成十份的時候并非隨機選擇分開，而是依據(jù)數(shù)據(jù)總數(shù)量直接在時間序列

51、上切分開，即每一小份數(shù)據(jù)是仍然保持時間序列的連續(xù)性的，隨后輪流將其中 9 份作為訓練數(shù)據(jù)（訓練時可打散），1 份作為測試數(shù)據(jù)。一般對于每一折數(shù)據(jù)都需要進行多次訓練驗證，來獲得泛化結果。這里定為 10 次，再求其均值（10*10），作為對模型效果的驗證。提及一下集成模型的驗證，因為集成模型作為次級學習器利用了其它模型的結果作為輸入，故其訓練集和集是由初級學習器確定的。在初級學習器進行了十折十次交叉驗證后，會產(chǎn)生 100 個可使用的器，對于多個模型生成的器以一一對應關系來生成次級學習器的訓練、測試輸入集，因為在初級學習器中已經(jīng)對同一個訓練測試集進行了十次的訓練，因而次級學習器得到的 100 個數(shù)據(jù)

52、集對應原始數(shù)據(jù)則為 10 個數(shù)據(jù)集，故不再進行十次訓練，最后同樣是有 100 個結果，以其獲得泛化準確性。第 22 頁/共 32 頁4 結果及、LSTM 模型中，模型輸出結果為上漲時，則買入個股并交易策略采用比較簡單且的規(guī)則，如在本研究的得到的是未來第二個交易日的漲跌兩個分類中的一個，當持有一天（實際情景為：在未來第一個交易日中在將近收盤時，以收盤價買入，第二個交易日中在將近收盤時，以收盤價賣出，不考慮交易手續(xù)費），然后結合實際差價變化率來計算出收益率。闡述一下本研究中所有的數(shù)據(jù)集-模型結構：N：以標題（Title）詞向量（Word2vec）為輸入的體系結構模型。N：以內(nèi)容（Body）詞向量為

53、輸入的體系結構模型。N：以內(nèi)容集的的指數(shù)（Baidu Index）為輸入的體系結構預測模型。N：以史數(shù)據(jù)為輸入的內(nèi)容的數(shù)學公式（Math）計算出的漲跌傾向數(shù)值及個股（Stock）歷體系結構模型。S-LSTM：以個股歷史數(shù)據(jù)為輸入的 LSTM 體系結構模型。BI&S-LSTM：以指數(shù)及個股歷史數(shù)據(jù)為輸入的 LSTM 體系結構模型。BM&S-LSTM：以漲跌傾向數(shù)值及個股歷史數(shù)據(jù)為輸入的 LSTM 體系結構模型。EL-M：集成學習（Ensemble Learning）獲取的最終模型。表 4-1、4-2、4-3 中列出了實驗中，各訓練數(shù)據(jù)集-模型在多個個股中的漲跌準確率、收益率及單日股價變化率之和。

54、(收益率是指進行買入的交易日中，個股的收盤價變化率之和，每次買入本金相同；單日股價變化率之和是指個股每交易日的收盤價變化率之和，與個股整體價格變化率不同，前者不含復利計算。打個比方，若一個股連續(xù)兩天上漲 10%，則前者計算為 20%，后者計算為 21%。這樣計算是因為，本交易策略中同樣不進行復利計算，每次交易本金相同，為相對應，故采用累加，無復利計算)表 4-1 上汽的結果及收益率Accuracy-準確率,Return-收益率,RateSum-單日股價變化率之和，Train Accuracy 訓練集準確率，Market Day Data交易日數(shù)據(jù)，2010/01/01-2017/12/01第

55、23 頁/共 32 頁模型上汽（分別測試）上汽（交易日）AccuracyReturnRateSumAccuracyReturnTrain AccuracyMarket Day DataN49.53%36.37%90.78%49.92%39.98%82.03%上漲：50.59%N49.01%48.28%90.78%49.16%38.39%81.86%由表中右側52.53%和 132.15%。交易日實驗結果可見，S-LSTM 模型的準確率和收益率最高，分別為都以相同金額買入該股并第二個交易日賣出，則收益率為 78.17%，S-LSTM 模型比其高 53.98%，是其的 1.69 倍。表 4-2

56、中國平安的結果及收益率2010/01/01-2017/12/01由表中右側交易日實驗結果可見，N 模型的準確率最高，N 模型的收益率最高，分別為 51.07%和 91.75%。都以相同金額買入該股并第二個交易日賣出，則收益率為 72.02%，N 模型比其高 19.73%，是其的 1.27 倍。第 24 頁/共 32 頁模型中國平安（分別測試）中國平安（交易日）AccuracyReturnRateSumAccuracyReturnTrain AccuracyMarket Day DataN49.91%67.15%95.79%50.28%65.56%82.58%上漲：50.03%下跌：4

57、9.97%RateSum： 72.02%N50.79%89.41%95.79%51.07%84.68%81.20%N50.63%93.71%95.67%50.87%91.75%77.46%N48.55%-4.57%99.62%50.18%29.53%52.05%S-LSTM49.97%53.17%105.67%49.93%34.17%58.24%BI&S-LSTM50.65%35.79%75.86%50.68%31.87%64.66%BM&S-LSTM50.79%59.72%82.66%50.96%54.48%60.23%EL-M50.58%87.63%72.02%50.66%87.63%80

58、.96%N51.65%75.41%90.65%51.77%73.4%76.87%下跌：49.41%RateSum： 78.17%N51.48%88.32%93.88%49.60%29.02%51.28%S-LSTM52.54%140.58%94.20%52.53%132.15%58.71%BI&S-LSTM51.21%95.72%81.27%51.21%95.86%64.67%BM&S-LSTM51.68%100.27%80.57%51.69%96.57%60.72%EL-M50.73%92.69%78.17%50.76%92.69%85.54%表 4-3訊飛的結果及收益率2010/01/

59、01-2017/12/01由表中右側交易日實驗結果可見，N 模型的準確率最高，S-LSTM 模型的收都以相同金額買入該股并第二個交易日賣出，益率最高，分別為 51.45%和 168.43%。則收益率為 143.13%，S-LSTM 模型比其高 25.3%，是其的 1.18 倍。總體分析：在上汽，和模型的訊飛中，LSTM 模型的準確率要比模型的高；而平準確率要比 LSTM 模型的高。在三個個股中，收益率最高的模型的收益率都要比收益率要高。在上汽、中國平，最高準確率的模型的準確率要比全選漲或跌要高，但在訊飛中最高準確率的模型的準確率要比全選上漲要低。從表中同一交易日一列下的兩個數(shù)據(jù) Accurac

60、y 和 Train Accuracy 可看出，某些模型的訓練集情況沒有過擬合狀態(tài)，其訓練集準確率達到 80%以上，但 Accuray 與 Train Accuracy明顯的正相關或反相關關系。這里令人感到奇怪的是，集成模型EL-M的準確率竟不是最高的，一般來說集成學習生成的模型的效果都會比所有模型的效果要好，但這里的結果并非如此。其實由 Vargas MR6的研究可知，和 RNN 在美股中都能有較好的效果，其準確率最高能達到 65.08%。故本研究中效果較差，應該是因為數(shù)據(jù)沒有處理好，沒有處理篩選得出對影響較大特征因子，導致在所有模型中反而是只有歷史數(shù)據(jù)的S-LSTM 模型效果最好，但與其他文

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于深度學習的財經(jīng)新聞量化與股市預測研究-vietsdeng

文檔簡介

溫馨提示

最新文檔

評論

相關文檔