基于數(shù)據(jù)挖掘的股票預(yù)測方法_第1頁
基于數(shù)據(jù)挖掘的股票預(yù)測方法_第2頁
基于數(shù)據(jù)挖掘的股票預(yù)測方法_第3頁
基于數(shù)據(jù)挖掘的股票預(yù)測方法_第4頁
基于數(shù)據(jù)挖掘的股票預(yù)測方法_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第1章緒論1.1選題背景與意義股票的市場價(jià)格是由股票的價(jià)值所決定,股票價(jià)值受多方面因素的影響,在宏觀上,社會(huì)、政治、經(jīng)濟(jì)、文化等方面對(duì)股票價(jià)值均可能對(duì)其產(chǎn)生影響。在產(chǎn)業(yè)和區(qū)域上,產(chǎn)業(yè)發(fā)展程度和地方經(jīng)濟(jì)水平也產(chǎn)生結(jié)構(gòu)性的影響。還有上市公司的經(jīng)營狀況以及科技開發(fā)水平、產(chǎn)品競爭實(shí)力、財(cái)務(wù)水平從不同方面對(duì)股票價(jià)格產(chǎn)生或多或少的影響,股票市場的運(yùn)作、人為的操縱也對(duì)股票價(jià)格產(chǎn)生一定影響。在高速發(fā)展的時(shí)代,國民對(duì)股票進(jìn)行投資成為趨勢,而股票價(jià)格的走勢并非是無跡可循的,因此對(duì)股價(jià)進(jìn)行準(zhǔn)確的預(yù)測成為每一個(gè)投資者夢(mèng)味以求的心愿。數(shù)據(jù)挖掘可以從大量的數(shù)據(jù)中通過算法將數(shù)據(jù)中隱含的信息提煉挖掘出來,轉(zhuǎn)換成為人們迫切所需有用的知識(shí)和信息。[1]目前大數(shù)據(jù)研究發(fā)展迅速,一旦有新的信息,便可以通過模型進(jìn)行預(yù)測,提前獲得消息,如今數(shù)據(jù)挖掘技術(shù)與多種應(yīng)用相結(jié)合為人們提供方便。而股票漲跌是以概率方式呈現(xiàn)的,隨著數(shù)據(jù)挖掘技術(shù)的崛起,可以通過建立模型進(jìn)行預(yù)測,海量的股票數(shù)據(jù)通過分析不再雜亂無章,大大提高了投資盈利的概率。在股票預(yù)測中,人們一直在用不同的方法進(jìn)行預(yù)測從而獲得更大的利潤,如森林算法、K線圖走勢分析、RBF神經(jīng)網(wǎng)絡(luò)等。基于數(shù)據(jù)挖掘進(jìn)行總結(jié)、分類、關(guān)聯(lián)、聚類、預(yù)測等對(duì)數(shù)據(jù)處理可以獲得更多信息,其中成功的案例如市場菜籃案例、啤酒尿布案例等。中國的近十年時(shí)間,股民結(jié)構(gòu)也發(fā)生了重大的變化,股市也是跌宕起伏,隨著數(shù)據(jù)的積累、計(jì)算機(jī)技術(shù)的不斷發(fā)展,看上去無次序、沒有任何關(guān)聯(lián)的數(shù)據(jù)之間通過分類、關(guān)聯(lián)等技術(shù)產(chǎn)生了聯(lián)系,其中分類的方法也是多種多樣,如判定樹歸納分類、SLIQ、貝葉斯等技術(shù)以及用機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)、粗糙器方法構(gòu)造分類器也是多種多樣的。由此利用數(shù)據(jù)挖掘技術(shù)進(jìn)行股票預(yù)測的方法也是多種多樣。1.2國內(nèi)外研究現(xiàn)狀隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展以及數(shù)據(jù)挖掘技術(shù)的不斷成熟,使數(shù)據(jù)的運(yùn)用越來越有效率和靈活,但是當(dāng)人們面對(duì)海量數(shù)據(jù)時(shí),整理和分類運(yùn)用的能力卻十分欠缺,面對(duì)海量的數(shù)據(jù),通過算法從數(shù)據(jù)中提煉出對(duì)人們有用的信息顯得至關(guān)重要,于是數(shù)據(jù)挖掘技術(shù)開始崛起。從早期利用道氏理論、K線圖走勢分析、點(diǎn)數(shù)圖走勢分析、柱狀圖走勢分析等進(jìn)行股票上的預(yù)測,到利用預(yù)測模型進(jìn)行預(yù)測,在1989年舉辦的國際人工智能專題研討會(huì)中,基于數(shù)據(jù)挖掘的知識(shí)發(fā)現(xiàn)首次被提出,數(shù)據(jù)處理不再成為難題。數(shù)據(jù)挖掘逐步運(yùn)用在各個(gè)領(lǐng)域,對(duì)數(shù)據(jù)的處理也越發(fā)成熟。在1991年,數(shù)據(jù)挖掘技術(shù)在股票分析上運(yùn)用提出,通過利用股票上的海量數(shù)據(jù)對(duì)股票價(jià)格進(jìn)行了預(yù)測。現(xiàn)如今數(shù)據(jù)爆炸的年代,如果不能很好地將數(shù)據(jù)有效的提煉出,大量的數(shù)據(jù)將不能有跡可循,不能再為我們提供更多的信息,這樣信息豐富但是知識(shí)貧乏的年代,人們想要獲得數(shù)據(jù)中隱含信息的心情日益強(qiáng)烈,于是數(shù)據(jù)挖掘技術(shù)開始崛起,將過多無用的數(shù)據(jù)進(jìn)行篩選,獲得隱藏在里面的信息,并能夠讓我們充分應(yīng)用。近些年,國內(nèi)外都開始推出了一些新進(jìn)的數(shù)據(jù)挖掘工具,許多企業(yè)通過自己的需求和人才的累計(jì),對(duì)不同數(shù)據(jù)挖掘工具進(jìn)行選取和應(yīng)用。近年來,國外多個(gè)國家如美國、英國、日本,加拿大等不斷將數(shù)據(jù)挖掘技術(shù)融入服務(wù)與管理中,設(shè)計(jì)了許多方面從環(huán)境規(guī)劃到企業(yè)投資,數(shù)據(jù)挖掘已經(jīng)得到了充分的應(yīng)用。美國某公司利用數(shù)據(jù)挖掘?qū)γ癖娺M(jìn)行調(diào)查,分析了民眾對(duì)某股票的買入情況來判斷是否購買該股票,那次該季度獲得了高于平時(shí)的收益率。國內(nèi)利用數(shù)據(jù)挖掘進(jìn)行股票應(yīng)用是由香港科技大學(xué)BeatWuthrich首次研發(fā)提出來,之后其他專家也提出了一些關(guān)于股票預(yù)測上的研發(fā)。到如今,數(shù)據(jù)挖掘的成熟,算法的多種多樣也使得在股票預(yù)測上方法也是層出不窮。國外在數(shù)據(jù)挖掘進(jìn)行股票預(yù)測的研究早于中國許久,在應(yīng)用上也較為成熟一些,AI是最早研發(fā)出的系統(tǒng),針對(duì)股票投資者而研究出來的軟件,利用可視化、聚類技術(shù)來預(yù)測投資時(shí)間獲取最大利潤。之后有技術(shù)人員利用粗糙集算法分析海量股票價(jià)格數(shù)據(jù),得出依賴關(guān)系從而進(jìn)行預(yù)測。數(shù)據(jù)挖掘在股票上的應(yīng)用也是越來越廣泛。許多專家對(duì)數(shù)據(jù)進(jìn)行歸一化和離散化處理,提供了許多信息,為股票投資者提供有利信息。[2]如今,國內(nèi)外在數(shù)據(jù)挖掘進(jìn)行股票預(yù)測已能者輩出,從AtiyaAF、ChenJF、Racine、Meissner等利用指針通過神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測,還有Koohzadietal等采用ARIMA模型進(jìn)行預(yù)測,還有Timmermann利用神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算,以及臺(tái)灣地區(qū),張文信利用反向傳播算法預(yù)測,其正確率高達(dá)67%。1.3主要研究內(nèi)容本論文的研究內(nèi)容主要是對(duì)股票價(jià)格走勢進(jìn)行預(yù)測分析,通過數(shù)據(jù)挖掘技術(shù)進(jìn)行總體研究。數(shù)據(jù)挖掘技術(shù)進(jìn)行預(yù)測的方法多種多樣,本文采用了三種預(yù)測方法:主成分分析、時(shí)間序列預(yù)測、神經(jīng)網(wǎng)絡(luò)BP,對(duì)股票價(jià)格走勢進(jìn)行預(yù)測。以下對(duì)這三種預(yù)測方法進(jìn)行簡要說明:第三章利用主成分分析進(jìn)行研究,影響股票價(jià)格走勢的由許多因素,如科技開發(fā)水平、產(chǎn)品競爭實(shí)力、財(cái)務(wù)水平等多個(gè)變量,多個(gè)變量之間存在一定的關(guān)聯(lián)關(guān)系,而這些關(guān)聯(lián)的變量增大了研究的難度,利用主成分分析進(jìn)行降維,通過相關(guān)矩陣、成分矩陣得到相應(yīng)的主成分系數(shù),便可以得到主成分變量,通過主成分變量的相應(yīng)信息進(jìn)行股票走勢的預(yù)測。第四章時(shí)間序列通過對(duì)按照時(shí)間先后順序排列的數(shù)據(jù)進(jìn)行研究長期趨勢、季節(jié)變動(dòng)、循環(huán)變動(dòng)和不規(guī)則變動(dòng),預(yù)測現(xiàn)象的發(fā)展趨勢和前景。指數(shù)平滑用來描述股票價(jià)格變化趨勢,是一種加權(quán)移動(dòng)平均,根據(jù)參數(shù)的數(shù)量不同,分別進(jìn)行但參數(shù)指數(shù)平滑、雙參數(shù)指數(shù)平滑、三參數(shù)指數(shù)平滑進(jìn)行預(yù)測,通過調(diào)整權(quán)數(shù),獲得與模型最接近的預(yù)測模型,一次對(duì)股票價(jià)格走勢進(jìn)行預(yù)測。第五章神經(jīng)網(wǎng)絡(luò)算法通過劃分訓(xùn)練集和驗(yàn)證集,用驗(yàn)證集去評(píng)定模型的穩(wěn)健性,防止過擬合,在進(jìn)行數(shù)據(jù)歸一化消除數(shù)據(jù)間的影響,使數(shù)據(jù)具有可比性,構(gòu)建神經(jīng)網(wǎng)絡(luò)與訓(xùn)練歷史可視化,通過九個(gè)股票的關(guān)聯(lián),利用其中八個(gè)股票對(duì)第九個(gè)股票價(jià)格進(jìn)行預(yù)測。第六章通過三種算法進(jìn)行比較,發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)最適應(yīng)影響因素較多的股票預(yù)測。第2章數(shù)據(jù)挖掘技術(shù)概述2.1數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘是指從海量的數(shù)據(jù)中通過一些算法將數(shù)據(jù)提煉出重要的信息的技術(shù),數(shù)據(jù)挖掘技術(shù)與計(jì)算機(jī)息息相關(guān),又離不開統(tǒng)計(jì),是通過統(tǒng)計(jì)分析處理、機(jī)器學(xué)習(xí)、高性能計(jì)算、信息檢索等多種技術(shù)實(shí)現(xiàn)的。并不是所有的的系統(tǒng)都進(jìn)行著真正的數(shù)據(jù)挖掘,數(shù)據(jù)挖掘是涉及多學(xué)科的綜合,是通過數(shù)據(jù)準(zhǔn)備、規(guī)律尋找、規(guī)律表示從大量數(shù)據(jù)中分析每一個(gè)數(shù)據(jù)并從中尋找出規(guī)律的技術(shù),想從數(shù)據(jù)中找出相關(guān)的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘所需要的數(shù)據(jù)集,通過算法將數(shù)據(jù)集中的規(guī)律提煉出來,再用可視化讓人們易懂。數(shù)據(jù)挖掘的數(shù)據(jù)類型、挖掘方法、挖掘?qū)ο蠖伎梢远喾N多樣,類型可以是結(jié)構(gòu)化、異構(gòu)型、半結(jié)構(gòu)化,挖掘的方法可以是數(shù)學(xué)、非數(shù)學(xué)、歸納的。挖掘的對(duì)象也可以是關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、文本、空間數(shù)據(jù)、web數(shù)據(jù)等。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,大量的數(shù)據(jù)被存儲(chǔ)下來,可如何運(yùn)用數(shù)據(jù)挖掘,用哪些數(shù)據(jù)進(jìn)行挖掘,具體如何實(shí)施,現(xiàn)在許多公司已經(jīng)給出具體步驟,先要定義問題,只有目標(biāo)明確才能知道具體想要做什么,不同的目標(biāo)收集的數(shù)據(jù)也會(huì)千差萬別,必須要對(duì)目標(biāo)有一個(gè)清晰的認(rèn)識(shí)。其次建立數(shù)據(jù)挖掘庫,先進(jìn)行數(shù)據(jù)的收集,在對(duì)數(shù)據(jù)進(jìn)行物理描述和邏輯描述,把具體事務(wù)轉(zhuǎn)換成能被計(jì)算機(jī)處理的信息,選擇數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估和數(shù)據(jù)清理,只有良好的數(shù)據(jù)才能使挖掘的內(nèi)容質(zhì)量較高,較差的數(shù)據(jù)會(huì)影響數(shù)據(jù)挖掘結(jié)果,失之毫米,差之千里。之后對(duì)預(yù)測影響最大的數(shù)據(jù)進(jìn)行分析,是否需要導(dǎo)出。此時(shí)再進(jìn)行準(zhǔn)備數(shù)據(jù),選擇變量、記錄,創(chuàng)建和轉(zhuǎn)化變量,此時(shí)就可以建立模型,建立模型是一個(gè)反復(fù)的過程,只有經(jīng)過反復(fù)的建立才能判讀哪一個(gè)模型對(duì)目標(biāo)最有利,一般先用一部分?jǐn)?shù)據(jù)建立米星,剩余數(shù)據(jù)分成兩部分,一部分用來檢驗(yàn),另一部分用來測試,模型準(zhǔn)確性較高時(shí)模型才算真正的建立成功,便可以對(duì)模型進(jìn)行解釋和價(jià)值的評(píng)定,用通俗易懂的語言反饋給客戶,最后便可以實(shí)施了。而數(shù)據(jù)挖掘分析也是個(gè)重要的部分,分類、估值、預(yù)測都是有指導(dǎo)的數(shù)據(jù)挖掘,無指導(dǎo)的數(shù)據(jù)挖掘通常指關(guān)聯(lián)和聚類。2.2基于數(shù)據(jù)挖掘的股票預(yù)測方法2.2.1主成分分析概念及優(yōu)缺點(diǎn)主成分分析方法是一種統(tǒng)計(jì)上的方法,將一組可能存在關(guān)系的多個(gè)變量通過正交變換法轉(zhuǎn)換成一組線性不相關(guān)的變量,這是一種多元統(tǒng)計(jì)的方法,從大量的變量中導(dǎo)出少數(shù)的幾個(gè)主成分,并且讓這少量的成分盡可能的多包涵一些信息。在對(duì)一個(gè)目標(biāo)進(jìn)行研究的時(shí)候,為了更好的研究這個(gè)目標(biāo),通常需要很多的相關(guān)變量,但是有些變量對(duì)該目標(biāo)的影響不大,有些變量和變量之間產(chǎn)生關(guān)聯(lián)關(guān)系對(duì)目標(biāo)變量產(chǎn)生新的影響,這會(huì)大大增加研究的難度,所以需要少量的幾個(gè)成分稱為主成分來代表之前的多個(gè)變量。主成分分析是一種降維的統(tǒng)計(jì)方法,降低研究目標(biāo)的數(shù)據(jù)維度,從Bracais開始不斷有科學(xué)家對(duì)主成分的發(fā)展提出了研究,例如霍特林、皮爾遜等,要對(duì)原來多個(gè)變量進(jìn)行研究,刪去重復(fù)多余的變量,建立盡可能少并且兩兩不相關(guān)的變量。正如一千個(gè)人的身材都不一樣,為每個(gè)人定制衣服定然是不靠譜,但是對(duì)一千個(gè)人甚至更多的人進(jìn)行操作,你就會(huì)發(fā)現(xiàn)有幾個(gè)主要的成分是相同或者相似的,采用這幾種主要的成分定制衣服就可以多人穿同樣大小的衣服,為工廠提供了變量,提高了效率。主成分分析已經(jīng)深入生活的領(lǐng)域,如人口統(tǒng)計(jì)、數(shù)理分析、分子動(dòng)力等,是一種常用的多變量分析。[3]主成分分析中將原本相關(guān)的變量重新篩選組合成互相無關(guān)的變量,一般用方差來表示,Var越大表示其包含的數(shù)據(jù)越多,將方差最大的作為第一主成分,如果第一主成分不足夠表示原先的變量所代表信息,這個(gè)時(shí)候在添加第二主成分,以此類推。相比起因子分析、聚類分析,主成分分析是如果通過少量的變量代表多變量來盡可能多的包含更多信息,并使少量變量之間存在彼此不相關(guān),而因子分析是根據(jù)相關(guān)性大小進(jìn)行變量分組,然后尋找起著支配作用的變量的因子模型的。主成分能解釋所有變異,而因子分析只能解釋部分。聚類分析是類間相關(guān)小,類內(nèi)相關(guān)大,通過將原來的數(shù)據(jù)按照某一特征進(jìn)行分類,獲得某種規(guī)律。主成分分析會(huì)產(chǎn)生新的變量,而聚類分析不能產(chǎn)生新的變量。[2]主成分分析會(huì)對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化來消除量綱和數(shù)量級(jí),因子分析對(duì)這一方便沒有太高的要求,但是通常數(shù)據(jù)存在量綱和數(shù)量級(jí)是不能進(jìn)行比較,只有消除影響才能更好的比較,得到更好的信息,這是選擇主成分分析的主要原因。對(duì)于聚類分析,如果采用的量綱不同會(huì)導(dǎo)致錯(cuò)誤的聚類結(jié)果。主成分分析在應(yīng)用上側(cè)重于信息貢獻(xiàn)影響力程度上,但是主成分分析的變量有正有負(fù),導(dǎo)致評(píng)價(jià)不能明確,清晰度低。2.2.2時(shí)間序列分析概念及優(yōu)缺點(diǎn)時(shí)間序列從統(tǒng)計(jì)意義上將,就是按照時(shí)間的先后順序?qū)δ骋蛔兞窟M(jìn)行描述,通過簡歷時(shí)間序列模型可以用來預(yù)測,是一個(gè)常用的預(yù)測方法。通常一個(gè)時(shí)間序列會(huì)包含長期趨勢、循環(huán)變動(dòng)、周期變動(dòng)以及不規(guī)則變動(dòng),是一種動(dòng)態(tài)數(shù)據(jù)處理的統(tǒng)計(jì)方法。[3]而平滑法是用來預(yù)測和趨勢預(yù)測的重要的方法,可以消弱不規(guī)則變動(dòng)對(duì)時(shí)間序列的影響,使時(shí)間序列平滑顯出長期趨勢的規(guī)律。每一個(gè)數(shù)列都是對(duì)過去信息的記載,通過時(shí)間序列分析可以找到數(shù)據(jù)中存在的規(guī)律和統(tǒng)計(jì)信息,盡可能的獲得更多的我們所需要的信息并對(duì)未來進(jìn)行預(yù)測。時(shí)間序列分析按照手段不同可以分為、數(shù)據(jù)圖法、指標(biāo)法、模型法。數(shù)據(jù)圖法使通過在平面直角坐標(biāo)系上橫軸為時(shí)間,縱軸為統(tǒng)計(jì)變量,進(jìn)行繪制,通過圖形的轉(zhuǎn)折點(diǎn)和異常點(diǎn)、周期性等的分析可以直觀的了解到一些主觀性較大的信息。指標(biāo)法相比數(shù)據(jù)圖提供的信息更多一些,通過計(jì)算一些數(shù)據(jù)綜合指標(biāo)來表示信息,本文采用的是模型法,通過理論,整理數(shù)據(jù),建立適當(dāng)?shù)哪P驮龠M(jìn)行預(yù)測。指數(shù)平滑是一種加權(quán)移動(dòng)平均法,不僅可以對(duì)時(shí)間序列進(jìn)行預(yù)測還可以描述時(shí)間序列的變化趨勢等,用時(shí)間序列以往的數(shù)據(jù)進(jìn)行加權(quán)平均來作為未來的預(yù)測值,靠近現(xiàn)在的時(shí)刻的權(quán)值越大,通過對(duì)權(quán)值的調(diào)整來建立適合的模型,根據(jù)參數(shù)的數(shù)目分為單參數(shù)指數(shù)平滑、雙參數(shù)指數(shù)平滑和三參數(shù)指數(shù)平滑。對(duì)于單參數(shù)指數(shù)平滑,根據(jù)實(shí)踐經(jīng)驗(yàn),一般權(quán)值的選區(qū)范圍在0.1到0.3,對(duì)于權(quán)值的確定取值,需要根據(jù)理論分析和模型的對(duì)比。一般根據(jù)時(shí)間序列的波動(dòng)大小來調(diào)整權(quán)值的選擇。一般時(shí)間序列的波動(dòng)小的話,就可以把權(quán)值選的小一點(diǎn),如果時(shí)間序列的波動(dòng)較大,就要將權(quán)值選擇大一定。單參數(shù)時(shí)間序列分析方法一般用于不包含長期趨勢和季節(jié)變動(dòng)的平穩(wěn)時(shí)間序列的預(yù)測,而對(duì)于雙參數(shù)指數(shù)平滑一般用于只含長期趨勢的非平穩(wěn)時(shí)間序列分析的預(yù)測中,三參數(shù)指數(shù)平滑用于包含長期趨勢和季節(jié)變動(dòng)的非平穩(wěn)時(shí)間序列分析預(yù)測中。時(shí)間序列的數(shù)據(jù)具有不規(guī)律性,用時(shí)間預(yù)測進(jìn)行股票研究拋開了市場發(fā)展的因果關(guān)系,而且時(shí)間序列會(huì)導(dǎo)致多重共線性,影響最后預(yù)測結(jié)果。[4]時(shí)間序列通過以往數(shù)據(jù)來通過模型預(yù)測未來數(shù)據(jù),從而獲得信息。而時(shí)間序列指數(shù)平滑法是特殊的一種時(shí)間序列法,沒有ARIMA模型表示的信息多。指數(shù)平滑法所要求的數(shù)據(jù)也是有限制的,不同的方法不能適用于所有數(shù)據(jù),這也使時(shí)間序列指數(shù)平滑法不能靈活運(yùn)用。時(shí)間序列預(yù)測法可用不同長度的時(shí)間預(yù)測,有簡單平均數(shù)法、加權(quán)平均數(shù)法。根據(jù)有限長度的數(shù)據(jù)記錄,建立可以及時(shí)準(zhǔn)確反應(yīng)序列的動(dòng)態(tài)關(guān)系的模型,用來對(duì)未來進(jìn)行報(bào)告。[5]2.2.3BP神經(jīng)網(wǎng)絡(luò)概念及優(yōu)缺點(diǎn)神經(jīng)網(wǎng)絡(luò)算法時(shí)數(shù)據(jù)挖掘算法中非常重要的一種經(jīng)典算法,通過模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能模擬人腦的神經(jīng)元,將每一個(gè)連接的地方看作一個(gè)需要處理的單元,[6]進(jìn)行分裂、特征挖掘、聚類等數(shù)據(jù)挖掘方法,通過訓(xùn)練數(shù)據(jù)進(jìn)行通過改變權(quán)值來進(jìn)行機(jī)器學(xué)習(xí)的非線性預(yù)測模型。感知機(jī)網(wǎng)絡(luò)對(duì)神經(jīng)網(wǎng)絡(luò)具有重大的推動(dòng)作用,也是如今BP神經(jīng)網(wǎng)絡(luò)運(yùn)用如此成熟的原因,二十世紀(jì)八十年代中期BP算法被發(fā)明出來,解決了網(wǎng)絡(luò)隱藏連接問題,具有多問函數(shù)映射能力,增強(qiáng)了網(wǎng)絡(luò)分類和識(shí)別能力,BP具有輸入輸出和隱藏層,不用先確定輸入輸出層的關(guān)系,可以通過訓(xùn)練和機(jī)器學(xué)習(xí),進(jìn)行預(yù)期輸出,是誤差反傳的梯度搜索,就像人的神經(jīng)元一樣,BP網(wǎng)絡(luò)里面的神經(jīng)元稱為隱單元。BP網(wǎng)絡(luò)現(xiàn)在主要用于四個(gè)方面,用輸入輸出通過學(xué)習(xí)和訓(xùn)練、轉(zhuǎn)換無限逼近一個(gè)函數(shù)、或者將輸入輸出進(jìn)行連接的模式識(shí)別、已經(jīng)將輸入變量通過訓(xùn)練或者謀者算法進(jìn)行分類,[7]以及進(jìn)行降維使得數(shù)據(jù)容易傳輸和儲(chǔ)存。BP網(wǎng)絡(luò)是用反向和正向進(jìn)行反復(fù)訓(xùn)練計(jì)算,主要是反向傳播,在這個(gè)過程中不斷收集誤差,在將這些誤差返回給輸出值,并用誤差調(diào)整權(quán)重,從而模擬出一個(gè)BP神經(jīng)網(wǎng)絡(luò)模型,Rumelhart和Mcclelland為首的科學(xué)家提出。BP神經(jīng)網(wǎng)絡(luò)現(xiàn)如今已經(jīng)比較成熟,具有非常強(qiáng)非線性映射能力和靈活的網(wǎng)絡(luò)結(jié)構(gòu),神經(jīng)元的個(gè)數(shù),網(wǎng)絡(luò)層數(shù)都是較為自由,可以根據(jù)具體情況進(jìn)行選擇,隨著結(jié)構(gòu)的選取的不同,功能也是有相應(yīng)的變化。BP網(wǎng)絡(luò)也存在一些缺點(diǎn),機(jī)器學(xué)習(xí)速度較慢,即便研究的目標(biāo)數(shù)據(jù)不雜亂,也學(xué)要成千次的學(xué)習(xí)才能夠進(jìn)行收斂,而且容易導(dǎo)致局部極小值,出現(xiàn)極端值,其次神經(jīng)元的個(gè)數(shù)和網(wǎng)絡(luò)層數(shù)較為自由,沒有理論表示哪一種取值范圍或者數(shù)據(jù)特征出現(xiàn)神經(jīng)元數(shù)量的選取,所以需要自己摸索,網(wǎng)絡(luò)推廣能力也是非常有限,隨著時(shí)代的發(fā)展,雖然解決了一些問題,但是還是容易現(xiàn)如極端值并導(dǎo)致收斂速度變得很慢。[8]第3章主成分分析方法在股票預(yù)測上的應(yīng)用主成分分析是一種常用的統(tǒng)計(jì)方法,將可能具有相關(guān)性的數(shù)據(jù)進(jìn)行正交變化成彼此不存在線性相關(guān)性的數(shù)據(jù),形成的數(shù)據(jù)成為主成分。[9]主成分是統(tǒng)計(jì)中用于多元統(tǒng)計(jì)的方法,通過較少的成分即主成分來盡可能多的表達(dá)更多成分所代表的數(shù)據(jù)信息,并且盡可能的保留原始數(shù)據(jù)的信息,主成分分析主要用于降維,通過降維才能將多種成分降維成較少的成分。本論文主要對(duì)海航創(chuàng)新數(shù)據(jù)進(jìn)行PCA算法降維,通過對(duì)股票價(jià)格的收盤價(jià)、成交量和成交額進(jìn)行正交變化得到具體的相關(guān)系數(shù),從而進(jìn)行分析。3.1主成分分析主成分分析已經(jīng)廣泛運(yùn)用于數(shù)據(jù)的統(tǒng)計(jì)運(yùn)算,可以進(jìn)行高位數(shù)據(jù)集的挖掘和可視化,也可以用于數(shù)據(jù)壓縮和預(yù)處理。[10]將線性相關(guān)的變量轉(zhuǎn)換成線性無關(guān)的低維度的保留較多原始信息的變量。在進(jìn)行主成分分析中需要先了解關(guān)于PCA的幾個(gè)相關(guān)術(shù)語,方差、協(xié)方差、協(xié)方差矩陣以及特征向量和特征值。方差是用各個(gè)樣本與其均值之差的平方和的均值,方差是用于數(shù)據(jù)離散程度的度量,公式為:S2=協(xié)方差用來查看變量之間線性相關(guān)程度的計(jì)算,如果兩個(gè)變量之間的協(xié)方差為0,可以看做兩個(gè)變量之間線性不關(guān),不能認(rèn)為變量無關(guān),因?yàn)檫€存在曲線相關(guān),協(xié)方差矩陣是由變量之間協(xié)方差組成的矩陣形式,呈現(xiàn)為對(duì)稱形式,公式為:CovX,Y=i=1特征向量是用來描述數(shù)據(jù)結(jié)構(gòu)的非零向量。本論文利用海航創(chuàng)新股票數(shù)據(jù)進(jìn)行PCA,首先加載包,解決了中文顯示問題并且指定默認(rèn)字體,解決保存圖像的問題,之后對(duì)數(shù)據(jù)進(jìn)行讀取,如下圖所示:表3-1海航創(chuàng)新用于PCA的部分?jǐn)?shù)據(jù)收盤成交量成交額02.235.0401119.7812.222.700598.0722.2814.1703163.5232.249.4302123.2042.3421.1304885.1352.3411.9502779.7162.319.2112132.1372.317.7601782.6782.4445.63011200.0092.3323.2405446.83102.4328.3906847.64112.3715.2203628.91122.3810.2002614.62經(jīng)過標(biāo)準(zhǔn)化歸一化處理數(shù)據(jù)之后,具體處理過程是通過獲得相關(guān)系數(shù)矩陣,也就是歸一化后的協(xié)方差矩陣XXTXi得出結(jié)果如下表所示:表3-2海航創(chuàng)新用于PCA的協(xié)方差矩陣收盤成交量(萬)成交額(萬)收盤1.0000000.3773780.547320成交量(萬)0.3773781.0000000.530589成交額(萬)0.5473200.5305891.0000000對(duì)協(xié)方差矩陣XXT特征值和特征向量,先對(duì)特征值進(jìn)行分解,進(jìn)行特征值排序,獲得累積貢獻(xiàn)度再合并到特征向量中,[11]表3-3海航創(chuàng)新用于PCA的特征值和特征向量Eig_valueEig_cum01201.9739340.657978-0.560638-0.553008-0.61633410.6229780.865637-0.6849770.727944-0.03007120.4030881.000000-0.465286-0.4053150.786911之后進(jìn)行主成分的提取工作,假設(shè)要求累積貢獻(xiàn)度要達(dá)到70%則取兩個(gè)主成分,從而得到因子載荷矩陣,如下圖所示:表3-4海航創(chuàng)新用于PCA的因子載荷矩陣01Vars0-0.560638-0.684977收盤1-0.5530080.727944成交量(萬)2-0.616334-0.030071成交額(萬)通過因子載荷矩陣的進(jìn)行計(jì)算得分,首先要對(duì)數(shù)據(jù)進(jìn)行精度上的研究,通過累積貢獻(xiàn)度的值可以看出前兩個(gè)主成分的累積共享值以及到達(dá)72%,把此次研究的準(zhǔn)確度定為72%。再進(jìn)行主成分得分,得到標(biāo)準(zhǔn)化之后數(shù)據(jù)的因子載荷矩陣。如下圖所示:表3-5海航創(chuàng)新用于PCA的標(biāo)準(zhǔn)化部分因子載荷矩陣0100.857842-0.47196510.953316-0.51825620.467323-0.31283030.91389-0.36807340.125717-0.23470250.440745-0.49278360.583761-0.51113070.6344630.2568788-0.912840-0.156056之后在查看變量在新坐標(biāo)中的坐標(biāo),從下圖可以看出,成交額對(duì)第一主成分的影響程度最大,其次成交量對(duì)第二主成分影響程度大于收盤價(jià)格對(duì)股票杰哥的的影響,其中影響程度的大小和成分系數(shù)沒有關(guān)系,只看絕對(duì)值的大小,所以可以看出成交量的影響力略微大于收盤價(jià)得影響。圖3-1海航創(chuàng)新用于PCA的主成分影響程度得到了三個(gè)變量對(duì)主成分的影響程度之后,可以觀察數(shù)據(jù)在主成分中的影響程度,于是查看了每個(gè)數(shù)據(jù)在新坐標(biāo)中的位置,如下圖所示:圖3-2海航創(chuàng)新用于PCA的數(shù)據(jù)在主成分中的影響程度可以由圖3-6可以看出第一主成分的所有系數(shù)都是負(fù)數(shù),而影響程度的大小和正負(fù)號(hào)沒有關(guān)系,看絕對(duì)值就大小來查看影響程度,所有負(fù)向得分越高,對(duì)第一主成分的影響越大[12],從圖3-7可以看出63號(hào)數(shù)據(jù)對(duì)第一主成分的影響最大,說明63號(hào)數(shù)據(jù)的成交額對(duì)股票價(jià)格預(yù)測最有幫助。對(duì)于第二組主成分可以看出,50號(hào)數(shù)據(jù)的成交量對(duì)股票數(shù)據(jù)的預(yù)測幫助最大。以上方法從PCA的原理上解釋了第一主成分和第二主成分的所包含的信息過程,而現(xiàn)在Python已經(jīng)有被封裝的PCA包,可以通過調(diào)用PCA包進(jìn)行運(yùn)算[13],如下圖所示:圖3-3海航創(chuàng)新用于PCA圖直接用于PCA算法的數(shù)據(jù)比先前的變量多,用了開盤價(jià)、收盤價(jià)、最高價(jià)格、最低價(jià)格以及成交量,通過對(duì)五個(gè)變量進(jìn)行降維可以清晰地得到兩個(gè)主成分的圖,此種方法需要對(duì)數(shù)據(jù)是矩陣格式,[14]然后進(jìn)行計(jì)算均值和方差,在進(jìn)行標(biāo)準(zhǔn)化,然后經(jīng)過PCA的計(jì)算協(xié)方差矩陣并求協(xié)方差矩陣的特征值和特征呢過想想,經(jīng)過特征值排序得到主成分圖形。3.2主成分分析預(yù)測結(jié)果和分析從以上的實(shí)驗(yàn)可以通過主成分分析看出變量對(duì)于主成分的影響程度,比如成交額和成交量分別對(duì)第一主成分和第二主成分的影響較大,可以認(rèn)為在進(jìn)行股票預(yù)測的時(shí)候,成交額和成交量是對(duì)進(jìn)行股票價(jià)格預(yù)測趨勢的關(guān)鍵,之后對(duì)不同詩句進(jìn)行觀察其對(duì)第一主成分和第二主成分的影響發(fā)現(xiàn)63號(hào)數(shù)據(jù)的成交額對(duì)第一主成分的影響較大,在進(jìn)行股票預(yù)測時(shí),可以看63號(hào)數(shù)據(jù)成交額的大小,來看股該股價(jià)格是否適合購買,之后發(fā)展趨勢向上發(fā)展,也可以看出50號(hào)數(shù)據(jù)的交易量對(duì)第二主成分的影響較大,可以觀察該成交量的大小,如成交量的較大,可以進(jìn)行購買,但是該數(shù)據(jù)采用的是以往數(shù)據(jù)進(jìn)行研究,雖然可以看出交易額和交易量對(duì)股票價(jià)格的影響較大,但是不能簡單的認(rèn)為沒有其他影響,在現(xiàn)實(shí)生活中,股票價(jià)格的影響繁多,從宏觀到微觀,從國家政策到個(gè)人喜好,都對(duì)股票中交易量和交易額的大小存在影響,如果要準(zhǔn)確地預(yù)測股票的交易額和交易量的趨勢,需要更加精確的分析,所以看出主成分分析并不是足夠精確,也同樣存在一些問題,但是亦可以對(duì)股票的成交額和成交量進(jìn)行人為主觀上的分析,可以給認(rèn)為是否進(jìn)行購買提供一定的基礎(chǔ)。第4章時(shí)間序列方法在股票預(yù)測上的應(yīng)用在進(jìn)行數(shù)據(jù)預(yù)測中,時(shí)間序列分析已經(jīng)相當(dāng)成熟,將數(shù)據(jù)按照時(shí)間的先后順序進(jìn)行某一特征的排列,研究自身規(guī)律進(jìn)行趨勢預(yù)測的一種方法。指數(shù)平滑法也是時(shí)間序列進(jìn)行預(yù)測的重要方法之一。在股票價(jià)格預(yù)測中,指數(shù)平滑法也得到了充分的廣泛實(shí)踐,此技術(shù)已經(jīng)足夠成熟。[15]時(shí)間序列指數(shù)平滑法根據(jù)參數(shù)的不同可以分為,單參數(shù)指數(shù)平滑預(yù)測、雙參數(shù)指數(shù)平滑預(yù)測和三參數(shù)指數(shù)平滑預(yù)測三種方法。指數(shù)平滑通過加權(quán)移動(dòng)平均,不僅可以對(duì)時(shí)間序列進(jìn)行預(yù)測還可以描述時(shí)間序列的變化趨勢等,用時(shí)間序列以往的數(shù)據(jù)進(jìn)行加權(quán)平均來作為未來的預(yù)測值,靠近現(xiàn)在的時(shí)刻的權(quán)值越大,通過對(duì)權(quán)值的調(diào)整來建立適合的模型。4.1單參數(shù)指數(shù)平滑預(yù)測單參數(shù)時(shí)間序列分析方法一般用于不包含長期趨勢和季節(jié)變動(dòng)的平穩(wěn)時(shí)間序列的預(yù)測,經(jīng)常應(yīng)用于直線型數(shù)據(jù)。[16]對(duì)于指數(shù)平滑預(yù)測來說,選擇合適的平滑系數(shù)是提高預(yù)測準(zhǔn)度的關(guān)鍵,根據(jù)經(jīng)驗(yàn),一般選擇0.1-0.3的平滑系數(shù)較好,除此之外還需要根據(jù)時(shí)間序列的波動(dòng)來判斷,如果序列的波動(dòng)比較小,就可以選擇較小的平滑系數(shù),反之,選擇較大的平滑系數(shù)。在選擇完平滑系數(shù)之后,根據(jù)計(jì)算所得到的預(yù)測誤差的大小來綜合判斷合適的平滑系數(shù)。單參數(shù)指數(shù)平滑模型:St(1)=α其中St(1)表示第t期的指數(shù)平滑值,St?1本論文通過對(duì)海航創(chuàng)新的股票數(shù)據(jù),從2019年12月10日到2020年3月4日的收盤價(jià)進(jìn)行單參數(shù)時(shí)間平滑預(yù)測,將55個(gè)數(shù)據(jù)分成兩組,第一組27個(gè)數(shù)據(jù),第二組27個(gè)數(shù)據(jù),最后一個(gè)進(jìn)行結(jié)果比對(duì),選擇這個(gè)數(shù)據(jù)的原因是,第二組數(shù)據(jù)呈現(xiàn)平穩(wěn)分布,較為穩(wěn)定,但是也存在一定的波動(dòng),可以用單參數(shù)指數(shù)平滑進(jìn)行比對(duì)。表4-1海航創(chuàng)新2019年12月10日~2020年3月4日收盤價(jià)時(shí)間收盤價(jià)時(shí)間收盤價(jià)時(shí)間收盤價(jià)2019/12/102.232019/12/232.332020/1/62.362019/12/112.222019/12/242.432020/1/72.42019/12/122.282019/12/252.372020/1/82.342019/12/132.242019/12/262.382020/1/92.362019/12/162.342019/12/272.342020/1/102.392019/12/172.342019/12/302.332020/1/132.362019/12/182.312019/12/312.312020/1/142.352019/12/192.312020/1/22.342020/1/152.332019/12/202.442020/1/32.352020/1/162.282020/1/172.272020/2/171.792020/2/282.42020/2/51.692020/2/181.832020/3/22.562020/2/61.692020/2/191.852020/3/32.632020/2/71.72020/2/202.042020/3/42.542020/2/101.752020/2/212.242020/3/52.512020/2/111.752020/2/242.122020/3/62.442020/2/121.792020/2/252.332020/3/92.342020/2/131.742020/2/262.562020/3/102.352020/2/141.742020/2/272.62020/3/112.592020/3/122.852020/3/133.14通過遍歷的方式將數(shù)據(jù)存在數(shù)組中,兩組數(shù)據(jù)共兩行,建立一個(gè)空數(shù)組作為臨時(shí)儲(chǔ)存地,每次換行被清空,在通過均方誤差的大小來選擇最優(yōu)的α。先對(duì)兩組數(shù)據(jù)進(jìn)行散點(diǎn)圖標(biāo)記。圖4-1海航創(chuàng)新2019年12月10日~2020年1月16日收盤價(jià)圖4-2海航創(chuàng)新2020年1月17日~2020年3月16日收盤價(jià)根據(jù)散點(diǎn)圖可以看出,第一組數(shù)據(jù)波動(dòng)較大,而第二組趨于較穩(wěn)定的上升。根據(jù)經(jīng)驗(yàn)法則選取α,由于第一組數(shù)據(jù)波動(dòng)較大,不適合用單參數(shù)指數(shù)平滑法,第二組數(shù)據(jù)波動(dòng)不大,但是呈現(xiàn)向上趨勢,選取平滑指數(shù)α要選擇0.6到1之間,由于第一組數(shù)據(jù)不適合該方法,便不對(duì)第一組數(shù)據(jù)進(jìn)行分析,第二組數(shù)據(jù)的均方誤差為0.165634,預(yù)測值隨α的增大不斷增大,一般選擇0.6以上,下表寫出不同平滑系數(shù)對(duì)應(yīng)的預(yù)測值。表4-2海航創(chuàng)新2019年12月10日~2020年3月16日α及預(yù)測值第一組α預(yù)測值第二組α預(yù)測值0.120.11.20.220.21.40.320.31.60.420.41.80.520.520.620.62.20.720.72.40.820.82.60.920.92.8根據(jù)上表數(shù)據(jù),可以看出,將平滑系數(shù)選擇較大,得到的預(yù)測值和實(shí)際值依舊偏差較大。這是因?yàn)楹:絼?chuàng)新的數(shù)據(jù)無論是第一組還是第二組都不是平穩(wěn)數(shù)據(jù),第一組波動(dòng)很大,而在第二組,可以明顯看出向上的趨勢,所以單參數(shù)平滑不適合用于波動(dòng)較大的股票數(shù)據(jù)預(yù)測中。4.2雙參數(shù)指數(shù)平滑預(yù)測通過單參數(shù)指數(shù)平滑預(yù)測的結(jié)果表現(xiàn),單參數(shù)指數(shù)平滑對(duì)波動(dòng)較大或者有明顯向上向下趨勢的序列預(yù)測誤差較大,只有對(duì)平穩(wěn)數(shù)據(jù)進(jìn)行預(yù)測才能得到準(zhǔn)確的數(shù)值,而雙參數(shù)指數(shù)平滑相對(duì)于單參數(shù)指數(shù)平滑而言,彌補(bǔ)了一些缺陷,例如對(duì)于波動(dòng)較大的數(shù)據(jù),可以進(jìn)行更好的預(yù)測,是為具有線性趨勢的數(shù)據(jù)所進(jìn)行的。雙參數(shù)指數(shù)平滑是基于數(shù)據(jù)進(jìn)行單參數(shù)指數(shù)平滑的基礎(chǔ)上再進(jìn)行一次指數(shù)平滑。[7]適用于只包含長期趨勢的非平穩(wěn)時(shí)間序列預(yù)測的。雙參數(shù)指數(shù)平滑模型:St(1)St(2)用來預(yù)測未來T期的xtfx=xt+TAT=2BT通過設(shè)定不同的指數(shù)平滑系數(shù),如下表所示:表4-3海航創(chuàng)新2019年12月10日~2020年3月16日α及預(yù)測值第一組α預(yù)測值均方誤差第二組α預(yù)測值均方誤差0.12.339562300.12.7789880.13353890.22.299625300.22.9045870.09799070.32.274607700.33.0135940.08281730.42.258587500.43.13876720.07407410.52.224930300.53.24719460.06415010.62.245261800.63.32656010.05237830.72.245107100.73.37793650.05237830.82.247864600.83.40743310.03703710.92.2529334700.93.42242710根據(jù)圖一可以看出第一組數(shù)據(jù)是非平穩(wěn)數(shù),但是不是只具有長期趨勢,可以從上表中看出,均方誤差接近于0,而第二種趨勢可以看出有向上的長期趨勢,所以第二組數(shù)據(jù)提供的信息較為準(zhǔn)確一些,可以看出當(dāng)平滑指數(shù)選擇0.9時(shí),均方誤差已經(jīng)接近于0,此時(shí)對(duì)與雙參數(shù)指數(shù)平滑可以采用平滑指數(shù)為0.9進(jìn)行計(jì)算,根據(jù)2020年3月16日提供的數(shù)據(jù)可以知道當(dāng)日的收盤價(jià)為3.45,與預(yù)測值十分接近,而第一組數(shù)據(jù)選取同樣的平滑系數(shù)0.9,真實(shí)值為2.35,相差不大,此時(shí)可以用平滑系數(shù)進(jìn)行預(yù)測多期。根據(jù)預(yù)測可以得出后6期數(shù)據(jù):表4-4海航創(chuàng)新2019年12月10日~2020年3月16日后五期期預(yù)測數(shù)據(jù)第一組時(shí)間實(shí)際值預(yù)測值第二組時(shí)間實(shí)際值預(yù)測值2020/1/202.352.25292020/3/163.453.42242020/1/212.292.23622020/3/173.123.7053由上表數(shù)據(jù)可以看出,第一組數(shù)據(jù)的預(yù)測值貼近真實(shí)值,表明第一組數(shù)據(jù)具有長期趨勢,而第二組數(shù)據(jù)預(yù)測值也接近真實(shí)值,相比起單參數(shù)指數(shù)平滑,雙參數(shù)指數(shù)平滑在預(yù)測波動(dòng)較大或者具有向上向下趨勢的序列上,精準(zhǔn)度大大提升。4.3三參數(shù)指數(shù)平滑預(yù)測三參數(shù)指數(shù)平滑針對(duì)具有長期趨勢和季節(jié)變動(dòng)的非平穩(wěn)數(shù)據(jù)預(yù)測而言的,具有三個(gè)平滑系數(shù),可以看作對(duì)雙參數(shù)指數(shù)平滑的基礎(chǔ)上,在進(jìn)行一次指數(shù)平滑。[8]三參數(shù)指數(shù)平滑模型:StStSt預(yù)測未來T期的值:xt+TAT=BT=αCT通過設(shè)定不同的指數(shù)平滑系數(shù),如下表所示:表4-5海航創(chuàng)新2019年12月10日~2020年3月16日α及預(yù)測值第一組α預(yù)測值均方誤差第二組α預(yù)測值均方誤差0.1-1.257300.1-0.55810.16560.2-5.060200.2-4.94080.11710.3-8.990100.3-9.47680三參數(shù)指數(shù)平滑的預(yù)估值為負(fù)數(shù),雖然均方誤差較小,但是不符合實(shí)際,故可以認(rèn)為,三參數(shù)指數(shù)平滑不適合該數(shù)據(jù)的運(yùn)算,根據(jù)實(shí)驗(yàn)可以看出,進(jìn)行預(yù)測的時(shí)候,三參數(shù)指數(shù)平滑不一定優(yōu)于雙參數(shù)指數(shù)平滑,只有在具有曲率的時(shí)候及長期趨勢和季節(jié)變動(dòng)的非平穩(wěn)序列中,三參數(shù)指數(shù)平滑才具有研究的意義。4.4時(shí)間序列預(yù)測結(jié)果和分析根據(jù)以上三個(gè)實(shí)驗(yàn)可以看出,在進(jìn)行預(yù)測的時(shí)候,對(duì)于不同的數(shù)據(jù)趨勢需要選定不同的參數(shù)個(gè)數(shù)進(jìn)行預(yù)測,對(duì)于海航創(chuàng)新數(shù)據(jù)而言,具有長期趨勢,相比較的情況下,最適合用于雙參數(shù)指數(shù)平滑預(yù)測法,對(duì)于單參數(shù)指數(shù)平滑而言,數(shù)據(jù)不是平穩(wěn)序列,第一組數(shù)據(jù)波動(dòng)很大,第二組數(shù)據(jù)呈現(xiàn)向上趨勢,均不適合單參數(shù)指數(shù)平滑,對(duì)于三參數(shù)指數(shù)平滑[17],由于序列不是對(duì)曲率地方進(jìn)行預(yù)測,數(shù)據(jù)預(yù)測結(jié)果意義不大,相比較而言雙參數(shù)指數(shù)平滑的均方誤差較小,且預(yù)測值和真實(shí)值較為接近,但是時(shí)間序列分析僅是根據(jù)時(shí)間數(shù)據(jù)進(jìn)行分析的,對(duì)于外界因素的變動(dòng)沒有辦法進(jìn)行分析,對(duì)于較長時(shí)間的預(yù)測而言,外界因素的影響導(dǎo)致了數(shù)據(jù)預(yù)測準(zhǔn)確性降低,使預(yù)測和實(shí)際嚴(yán)重不和或者偏差較大,例如在雙參數(shù)指數(shù)平滑第二組數(shù)據(jù),數(shù)據(jù)長時(shí)間呈現(xiàn)向上趨勢,但是由于疫情等政策的影響,會(huì)導(dǎo)致股票價(jià)格下降,這些外界因素不能代入計(jì)算,指數(shù)平滑只是根據(jù)以往數(shù)據(jù)進(jìn)行預(yù)測,這也導(dǎo)致了在預(yù)測過程中,容易造成較大的偏差第5章BP神經(jīng)網(wǎng)絡(luò)在股票預(yù)測上的應(yīng)用BP算法是近些年較為流行的數(shù)據(jù)挖掘算法之一,是由輸入層、隱含層和輸出層組成,隱含層的層數(shù)和神經(jīng)元的個(gè)數(shù)是由人為決定的,通常情況下,輸入層的神經(jīng)元個(gè)數(shù)可以根據(jù)特征值來決定,而輸出層的層數(shù)是由變量的個(gè)數(shù)所決定的。每個(gè)神經(jīng)元都是對(duì)數(shù)據(jù)的一次處理,[18]BP神經(jīng)網(wǎng)絡(luò)是利用逆向傳播訓(xùn)練數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),也是近幾年神經(jīng)網(wǎng)絡(luò)中運(yùn)用最廣泛的一種,通過函數(shù)映射以及模式分類,利用誤差平方的函數(shù),進(jìn)行梯度下降來計(jì)算數(shù)據(jù)。[9]BP算法主要是向前傳播和反向傳播通常運(yùn)用于函數(shù)逼近、模式識(shí)別、分類和數(shù)據(jù)壓縮中,也常用語預(yù)測數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)是非線性分析,雖然算法本身具有一定的局限性,但是具有自組織、自適應(yīng)和容錯(cuò)性等優(yōu)點(diǎn),適用于處理股票價(jià)格預(yù)測等具有諸多因素影響的非線性序列的預(yù)測中。本論文采用來"海航創(chuàng)新","嶺南控股","ST云網(wǎng)","西安飲食","華天酒店","張家界","騰邦國際","眾信旅游",曲江文旅這九個(gè)股票從2019年12月18日到2020年3月19日的數(shù)據(jù)進(jìn)行BP算法,通過前八個(gè)股票進(jìn)行近期眾信旅游股票價(jià)格的預(yù)測。5.1BP神經(jīng)網(wǎng)絡(luò)BP網(wǎng)絡(luò)中,通過找到合適的權(quán)值和閾值,使得E進(jìn)行目標(biāo)訓(xùn)練,再利用Sigmoid函數(shù)進(jìn)行隱含層和輸出層的對(duì)應(yīng)函數(shù)。[19]在輸入層中,Xi輸入信號(hào),Xd是隱層中的的閾值是通過Sigmoid中分離得到的,對(duì)通過對(duì)應(yīng)的函數(shù)進(jìn)行對(duì)應(yīng)信號(hào)神經(jīng)元輸入權(quán)值,隱層獲得權(quán)值之后再對(duì)輸出層進(jìn)行對(duì)應(yīng)神經(jīng)元的權(quán)值輸出。BP的反向傳播主要利用最小二乘法的方式進(jìn)行回歸計(jì)算。最小二乘法公式:E=對(duì)于所用的數(shù)據(jù),每一列都是一組訓(xùn)練集,用于一個(gè)輸入層進(jìn)行計(jì)算,本論文采用了九個(gè)訓(xùn)練集,行數(shù)代表輸入層的神經(jīng)元個(gè)數(shù),用于采用了59行的數(shù)據(jù),所以還有59個(gè)輸入層神經(jīng)元,通過三層的BP網(wǎng)絡(luò),其中隱層可以有一層,也可以多多層,網(wǎng)絡(luò)選用Sigmoid傳遞函數(shù),在通過誤差E反向傳遞不斷地通過訓(xùn)練調(diào)整權(quán)值和閾值使誤差E達(dá)到極小值。[20]Sigmoid傳遞函數(shù)公式:fx誤差公式:E=該模型由每組數(shù)據(jù)的海航創(chuàng)新","嶺南控股","ST云網(wǎng)","西安飲食","華天酒店","張家界","騰邦國際","眾信旅游”,為輸入,以曲江文旅股票收盤價(jià)格為輸出,所以輸入層的節(jié)點(diǎn)數(shù)為8,輸出層的節(jié)點(diǎn)數(shù)為1.。本論文利用了海航創(chuàng)新,"嶺南控股","ST云網(wǎng)","西安飲食","華天酒店","張家界","騰邦國際","眾信旅游”,曲江文旅九個(gè)股票數(shù)據(jù)進(jìn)行BP算法,找出九個(gè)股票之間的關(guān)聯(lián),進(jìn)行數(shù)據(jù)的訓(xùn)練,最后對(duì)眾信旅游數(shù)據(jù)進(jìn)行預(yù)測數(shù)據(jù)格式如下:表5-1BP算法數(shù)據(jù)海航創(chuàng)新嶺南控股ST云網(wǎng)西安飲食華天酒店張家界騰邦國際眾信旅行曲江文旅2.317.422.494.122.615.155.335.68.652.317.492.544.122.635.225.56.168.72.447.482.544.062.65.165.3268.662.337.272.573.952.565.085.16.048.462.437.342.613.992.65.175.166.218.55……2.856.382.34.13.094.944.386.2783.146.312.324.113.354.944.186.218.163.456.22.334.523.34.93.935.598.393.126.112.454.213.034.83.855.318.552.816.032.574.633.054.83.65.258.92.536.072.75.093.144.943.635.35——進(jìn)行2020年3月19日的數(shù)據(jù)預(yù)測,通過至18日的九個(gè)股票數(shù)據(jù)進(jìn)行訓(xùn)練,通過privite_data=np.array([2.53,6.07,2.7,5.09,3.14,4.94,3.63,5.35])將19日數(shù)據(jù)預(yù)測出來,如下圖所示:圖5-12020年3月19日預(yù)測結(jié)果可以用此方法對(duì)后十期數(shù)據(jù)進(jìn)行預(yù)測,然后通過對(duì)比真實(shí)值和預(yù)測值來觀察BP算法進(jìn)行股票預(yù)測的準(zhǔn)確度,將3月6日之前的九個(gè)股票的收盤價(jià)格進(jìn)行續(xù)訓(xùn)練,每得到一個(gè)預(yù)測值之后,添加3月6日的九個(gè)數(shù)據(jù)真實(shí)值加入訓(xùn)練,之后得到3月9日的預(yù)測值,以此類推,從而得到3月6日至3月19日的預(yù)測值,然后將預(yù)測值和真實(shí)值的數(shù)據(jù)進(jìn)行對(duì)比,如下表所示:表5-2曲江文旅預(yù)測結(jié)果比對(duì)時(shí)間真實(shí)值預(yù)測值2020年3月6日7.897.6462548969715162020年3月9日7.657.5856211797359732020年3月10日7.847.9982148974939352020年3月11日88.1348367057243322020年3月12日8.168.2431509716458772020年3月13日8.398.349362678908722020年3月17日8.558.5853236572996472020年3月18日8.98.2871742592945222020年3月19日8.438.57037899323225圖5-2曲江文旅預(yù)測結(jié)果比對(duì)直線圖由曲線圖可以看出根據(jù)另外八個(gè)股票預(yù)測額曲江文旅的股票數(shù)據(jù)與真實(shí)值相近,可以看出BP神經(jīng)算法的準(zhǔn)確性較高。這是因?yàn)?,在機(jī)器學(xué)習(xí)的過程中,信號(hào)從輸入層輸入,進(jìn)過隱藏層處理之后傳遞給輸出層,此時(shí)進(jìn)行輸出層預(yù)期值和實(shí)際值的對(duì)比,如果對(duì)比較大,進(jìn)行誤差的反向傳播,將信號(hào)傳入隱藏層處理反向傳遞給輸入層,從而獲得每一個(gè)層的誤差信號(hào),再通過權(quán)值的修改,直到輸出層的預(yù)測值和實(shí)際值較為接近為止。在傳遞過程中,只用的是單極性的sigmoid函數(shù)進(jìn)行梯度下降法,可以求得目標(biāo)函數(shù)的極小值,得到最小均方誤差。[21]5.2BP神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果和分析由實(shí)驗(yàn)中得到數(shù)據(jù)所做的折線圖可以看出,預(yù)測數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的擬合程度較強(qiáng),比較貼近,BP神經(jīng)算法具有自適應(yīng)性,可以通過訓(xùn)練數(shù)據(jù),得到數(shù)據(jù)之間的關(guān)聯(lián),在數(shù)據(jù)中,通過九個(gè)股票之間的聯(lián)系,可以得到人腦不能總結(jié)出的信息,再通過正向傳播和反向傳播,使預(yù)測數(shù)據(jù)不斷接近真實(shí)數(shù)據(jù),實(shí)際上,BP神經(jīng)算法已經(jīng)廣泛用于類似股票預(yù)測的領(lǐng)域當(dāng)中,因?yàn)楣善鳖A(yù)測具有不確定性,受外界干擾較多,影響因素也繁多,但是根據(jù)機(jī)器學(xué)習(xí),可以通過成百上千次的學(xué)習(xí),得到最符合現(xiàn)實(shí)的數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)是近代以來得到廣泛應(yīng)用的數(shù)據(jù)挖掘方法之一,本模型沒有對(duì)一個(gè)股票的常用技術(shù)指標(biāo)進(jìn)行詳細(xì)分析,而是采用九個(gè)股票之間的聯(lián)系,得到曲江文旅股票收盤價(jià)格的預(yù)測,根據(jù)實(shí)驗(yàn)結(jié)果,雖然BP網(wǎng)絡(luò)的預(yù)測結(jié)果比較好,但是影響股票的因素很多,如果只根據(jù)這一網(wǎng)絡(luò)進(jìn)行預(yù)測,可以不能及時(shí)了解到股票的走向,因?yàn)槊恳惶斓臄?shù)據(jù)都是新加上去的,但是在選取股票是否進(jìn)行購買的時(shí)候,并不是根據(jù)一天數(shù)據(jù)就能確定是否購買,而該模型不能對(duì)長期進(jìn)行預(yù)測,由于里面的權(quán)值和閾值都是在變化的,所以的預(yù)測值也是不斷在變化,只能在大概范圍內(nèi)確定該股票的購買是否可行,卻不能看出能否長期盈利,比如該模型進(jìn)行預(yù)測值,得到預(yù)測值在7.5-8.5上下浮動(dòng),可以看出近期的股票收盤價(jià)格已經(jīng)高于8.5,而得到的預(yù)測結(jié)果雖然隨著權(quán)值和閾值不斷變化,但是預(yù)測值卻低于8.5,購買的意義不大,基本可以看出現(xiàn)在的收盤價(jià)在較高價(jià)格,如果現(xiàn)在進(jìn)行購買容易導(dǎo)致虧損。第6章三種算法比較6.1三種算法比較通過本論文的三個(gè)模型進(jìn)行股票預(yù)測。首先利用了主成分分析對(duì)海航創(chuàng)新的收盤價(jià)、交易額和交易量等進(jìn)行研究發(fā)現(xiàn)交易額和交易量股票趨勢的主要成分,交易額對(duì)第一主成分影響較大,而交易量略大于收盤價(jià)對(duì)第二主成分的影響,根據(jù)主成分進(jìn)行分析,以為主成分是通過對(duì)數(shù)據(jù)變量進(jìn)行降維,用最少的成分代表盡可能多的原始數(shù)據(jù),所以可以粗略的根據(jù)股票的交易額和交易量繼續(xù)主觀上的分析來確定是否購買該股票,以及該股票購買的盈利可能性高低,如果交易額和交易量近期的數(shù)量都較多,則可以購買該股票。除此之外,本論文還對(duì)開盤價(jià)、收盤價(jià)、最高價(jià)格、最低價(jià)格以及成交量也進(jìn)行了一次主成分分析,可以清晰地看見有兩個(gè)主成分,所以也可以從成交量和收盤價(jià)來觀察股票的購買盈利性有多大,但是根據(jù)主成分分析的飛一個(gè)實(shí)驗(yàn),可以看出交易額和交易量對(duì)主成分的影響比較大一些。第二個(gè)實(shí)驗(yàn)是對(duì)海航創(chuàng)新股票進(jìn)行時(shí)間序列指數(shù)平滑法,通過參數(shù)的個(gè)數(shù)不同,分為了單參數(shù)指數(shù)平滑法、雙參數(shù)指數(shù)平滑法和三參數(shù)指數(shù)平滑法三種類型,將數(shù)據(jù)分為了兩段,第一組數(shù)據(jù)波動(dòng)較大,第二組數(shù)據(jù)呈現(xiàn)明顯向上趨勢,通過單參數(shù)指數(shù)平滑發(fā)現(xiàn)無論第一組還是第二組數(shù)據(jù)得到的預(yù)測值都不是很理性,雖然MSE的值都比較小,但是預(yù)測值和真實(shí)值之間偏差較大,這是因?yàn)閱螀?shù)指數(shù)平滑適合平穩(wěn)數(shù)據(jù),而第一組和第二組的數(shù)據(jù)都是非平穩(wěn)時(shí)間序列,所以不適應(yīng),之后我又進(jìn)行雙參數(shù)指數(shù)平滑,而雙參數(shù)指數(shù)平滑通常適用于只含有長期趨勢的指數(shù)平滑法,通過對(duì)第一組數(shù)據(jù)和第二組數(shù)據(jù)進(jìn)行研究發(fā)現(xiàn)第一組數(shù)據(jù)和第二組數(shù)據(jù)的MSE都非常小,而第一組數(shù)據(jù)的MES接近于0,是由于存在長期趨勢,但是波動(dòng)較大,還可能存在其他趨勢,而第二組數(shù)據(jù)的MES也較小,從預(yù)測結(jié)果來看兩組數(shù)據(jù)的預(yù)測比較準(zhǔn)確,之后我又對(duì)數(shù)據(jù)進(jìn)行三參數(shù)指數(shù)平滑法,我發(fā)現(xiàn)兩組數(shù)據(jù)的擬合程度不好,出現(xiàn)了復(fù)數(shù),嚴(yán)重與現(xiàn)實(shí)不合,因?yàn)槿齾?shù)指數(shù)平滑法一般用于含有季節(jié)變動(dòng)和長期趨勢的非平穩(wěn)時(shí)間序列,而三參數(shù)指數(shù)平滑一般用于曲率的地方,所以不適合該數(shù)據(jù)。時(shí)間序列平滑法是根據(jù)以往數(shù)據(jù)通過加權(quán)平均的方法進(jìn)行計(jì)算,但是股票是存在許多影響因素,光憑以往數(shù)據(jù)不能及時(shí)的反應(yīng)股票趨勢的變化,只適合用于波動(dòng)不大,具有明顯規(guī)律的序列。[21]第三個(gè)實(shí)驗(yàn)是利用BP算法對(duì)"海航創(chuàng)新","嶺南控股","ST云網(wǎng)","西安飲食","華天酒店","張家界","騰邦國際","眾信旅游",曲江文旅九個(gè)股票進(jìn)行訓(xùn)練得到之間的關(guān)聯(lián),然后通過"海航創(chuàng)新","嶺南控股","ST云網(wǎng)","西安飲食","華天酒店","張家界","騰邦國際","眾信旅游",對(duì)曲江文旅股票的收盤價(jià)格進(jìn)行預(yù)測,通過實(shí)驗(yàn)得到了九組預(yù)測數(shù)據(jù),然后通過和真實(shí)數(shù)據(jù)的對(duì)比,發(fā)現(xiàn)預(yù)測結(jié)果比較精確,因?yàn)锽P算法具有自適應(yīng),自學(xué)習(xí)等能力,由于在算法中權(quán)值和閾值是通過不斷地調(diào)整,所以得到的預(yù)測值每次都有一定的變化,但是可以看出整體的趨勢,例如預(yù)測的過程中,得到的預(yù)測值小于8.5,但是最近一次數(shù)據(jù)顯示的真實(shí)值大于8.5,則認(rèn)為該股票的股票價(jià)格處于較高峰值,該股票不建議購買,總體而言,BP算法的預(yù)測結(jié)果比較好,比較適合像股票預(yù)測具有多因素影響的數(shù)據(jù)預(yù)測中,但是股票預(yù)測中依舊有許多因素影響,有些突發(fā)因素?zé)o法通過學(xué)習(xí)調(diào)整權(quán)值和閾值來做出及時(shí)反映,所以光靠這模型來進(jìn)行預(yù)測是遠(yuǎn)遠(yuǎn)不夠的??偨Y(jié)大數(shù)據(jù)時(shí)代已經(jīng)到來,人工智能、數(shù)據(jù)挖掘這些詞匯已經(jīng)耳熟能詳,數(shù)據(jù)的價(jià)值也在不斷的提高,數(shù)據(jù)的積累也在不斷增加,過去通過圖表形式展現(xiàn)和分析已經(jīng)不能跟上時(shí)代的步伐,為什么數(shù)據(jù)挖掘技術(shù)崛起,因?yàn)榭梢詮暮A康臄?shù)據(jù)中提煉出人腦不能分析和感知出來的聯(lián)系,著名的案例,啤酒和尿布,看似沒有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論