股票信息數(shù)據(jù)挖掘?qū)嶒瀳蟾鎋第1頁
股票信息數(shù)據(jù)挖掘?qū)嶒瀳蟾鎋第2頁
股票信息數(shù)據(jù)挖掘?qū)嶒瀳蟾鎋第3頁
股票信息數(shù)據(jù)挖掘?qū)嶒瀳蟾鎋第4頁
股票信息數(shù)據(jù)挖掘?qū)嶒瀳蟾鎋第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

廣東外語外貿(mào)大學(xué)信息科學(xué)技術(shù)學(xué)院股票信息數(shù)據(jù)挖掘?qū)嶒瀳蟾嫒掌冢?011-1-一、摘要數(shù)據(jù)挖掘是數(shù)據(jù)庫應(yīng)用和研究的一個新領(lǐng)域,其目標是通過對歷史數(shù)據(jù)的分析統(tǒng)計得出用戶感興趣的結(jié)果。在股票交易事務(wù)處理中,每天有以交易信息為主的大量數(shù)據(jù)匯入數(shù)據(jù)倉庫,這些數(shù)據(jù)無疑對股民了解股市的走勢,做出正確的投資決策;經(jīng)濟學(xué)家分析不同層次用戶的投資行為和各種股票之間的關(guān)系,以及及時發(fā)現(xiàn)股市中的非正常行為;各上市公司和政府部門出臺新的方案等諸多方面具有重要的參考價值。作為市場經(jīng)濟重要特征的股票市場,從誕生的那天起就牽掛著數(shù)以千萬投資者的心。高風(fēng)險高回報是股票市場的特征,因此投資者們時刻在關(guān)心股市、分析股市、試圖預(yù)測股市的發(fā)展趨勢。一百多年來,一些分析方法隨著股市的產(chǎn)生和發(fā)展逐步完善起來,如:道氏分析法、K線圖分析法、柱狀圖分析法、點數(shù)圖分析法、移動平均法,還有形態(tài)分析法、趨勢分析法、角度分析法、神秘級數(shù)與黃金分割比螺旋歷法、四度空間法等,隨著計算機技術(shù)在證券分析領(lǐng)域的普及與應(yīng)用,不斷推出新的指標分析法。然而,嚴格講這些方法僅僅是分析手段,還不能直接預(yù)測股市的動態(tài)。此外,人們也試圖用回歸分析等統(tǒng)計手段建立模型來預(yù)測股市。然而,利用傳統(tǒng)的預(yù)測技術(shù)進行股市預(yù)測有一個最根本的困難,那就是待處理的數(shù)據(jù)量非常巨大。由于股市的行情受到政治、經(jīng)濟等多方面因素的影響,其內(nèi)部規(guī)律非常復(fù)雜,某些變化規(guī)律的周期可能是一年甚至是幾年,因此需要通過對大量數(shù)據(jù)的分析才能得到,而傳統(tǒng)的預(yù)測技術(shù)預(yù)測效果并不理想。近十年間,數(shù)據(jù)挖掘技術(shù)的研究工作取得了很大的進展,各種數(shù)據(jù)挖掘技術(shù)的應(yīng)用極大地推動了人們分析、處理大量數(shù)據(jù)信息的能力,并為人們帶來了很好的經(jīng)濟效益,因此可以預(yù)見數(shù)據(jù)挖掘技術(shù)在股市預(yù)測中將會有很大的潛力。二、研究內(nèi)容本實驗以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),對股票的走勢進行分析預(yù)測。目標為使用數(shù)據(jù)挖掘中的幾種常用方法建立預(yù)測模型,通過對預(yù)測過程及預(yù)測結(jié)果的分析,來尋求數(shù)據(jù)挖掘算法與股票預(yù)測的結(jié)合點。通過對近四年的股票全景與個股的分析,經(jīng)過預(yù)處理后用weka對數(shù)據(jù)進行分類與關(guān)聯(lián)的進一步挖掘,實地體驗數(shù)據(jù)挖掘在股票預(yù)測領(lǐng)域起的作用。三、數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘是一個反復(fù)的過程,包含多個相互聯(lián)系的步驟,如定義和分析主題、數(shù)據(jù)預(yù)處理、選取算法、提取規(guī)則、評價和解釋結(jié)果、將模式構(gòu)成知識,最后是應(yīng)用。1.問題定義進行數(shù)據(jù)挖掘前,首先要分析股票領(lǐng)域,了解股票領(lǐng)域的有關(guān)情況,熟悉背景知識。在確定需求后,對現(xiàn)有資源如已有的歷史數(shù)據(jù)進行評估,確定是否能夠通過數(shù)據(jù)挖掘技術(shù)來滿足需求,然后將進一步確定數(shù)據(jù)挖掘的目標和制定數(shù)據(jù)挖掘計劃。2.數(shù)據(jù)準備數(shù)據(jù)挖掘所處理的數(shù)據(jù)集通常不僅具有海量數(shù)據(jù),而且可能存在大量的噪聲數(shù)據(jù)、冗余數(shù)據(jù)、稀疏數(shù)據(jù)或不完全數(shù)據(jù)等。數(shù)據(jù)準備包括數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、和加載,具體包括數(shù)據(jù)的清洗、集成、選擇、變換、規(guī)約,以及數(shù)據(jù)的質(zhì)量分析等步驟。3.建立模型數(shù)據(jù)挖掘中的建模實際上就是利用己知的數(shù)據(jù)和知識建立一種模型,這種模型可以有效地描述已知的數(shù)據(jù)和知識,希望該模型能有效地應(yīng)用到未知的數(shù)據(jù)或相似情況中。在數(shù)據(jù)挖掘中,可以使用許多不同的模型:關(guān)聯(lián)規(guī)則模型、決策樹模型、神經(jīng)網(wǎng)絡(luò)模型、粗糙集模型、數(shù)理統(tǒng)計模型、時間序列分析模型。4.評價模型數(shù)據(jù)挖掘得到的模式有可能是沒有實際意義或沒有實用價值的,也有可能不能準確反映數(shù)據(jù)真實意義,甚至在某些情況下是與事實相反的,因此對于數(shù)據(jù)挖掘的結(jié)果需要進行評估。確定數(shù)據(jù)挖掘是否存在偏差,挖掘結(jié)果是否正確,確定哪些是有效的、有用的模式,是否能滿足需求。5.評估評估的方法一種是直接使用原先建立的挖掘數(shù)據(jù)庫中的數(shù)據(jù)來進行檢驗,也可以另找新的測試數(shù)據(jù)并對其進行檢驗,另一種辦法是使用實際運行環(huán)境中的當前數(shù)據(jù)進行檢驗。四、挖掘成果1.用分類C4.5算法挖掘股票全景數(shù)據(jù)集(2010.12.28-2011.01.04)(1)原始數(shù)據(jù)集日期 代碼 名稱 漲幅%% 現(xiàn)價 日漲跌 買入價 賣出價……20101227 000001 深發(fā)展A -2.25 16.07 -0.37 16.07 16.0820101227 000002 萬科A -2.89 8.75 -0.26 8.74 8.7520101227 000004 ST國農(nóng) -2.99 11.7 -0.36 11.7 11.7220101227 000005 世紀星源 -3.58 3.77 -0.14 3.77 3.7820101227 000006 深振業(yè)A -4.71 7.28 -0.36 7.27 7.2820101227 000007 ST零七 -1.83 8.58 -0.16 8.58 8.5920101227 000008 ST寶利來 -2 11.78 -0.24 11.77 11.7920101227 000009 中國寶安 -4.44 16.15 -0.75 16.14 16.15……共12047條記錄,20維屬性。經(jīng)過多次數(shù)據(jù)預(yù)處理,得到數(shù)據(jù)集如下:日期換手%%今開/昨收最高價比收盤最低價比收盤市盈(動)振幅%%漲跌2010123185.681.2270higherlower166.8420.71201101042.550.9954samelower54.5612.791201012296.920.9928higherlower235.8312.861201101045.911.0061samelower33.4112.441201012296.890.9963samelower71.3112.212010123017.790.9859higherlower48.0912.4812010122755.621.0322higherlower65.0113.341201012302.470.9977higherlower892.3612.151……共11632條記錄,8維屬性。挖掘結(jié)果如下:置信因數(shù)取0.1NumberofLeaves: 26Sizeofthetree: 47準確率85%取置信因數(shù)1.0E-4NumberofLeaves: 13Sizeofthetree: 21準確率約85%,并且當置信因數(shù)繼續(xù)往小取時,分支數(shù)不再改變。2.用聚類Apriori算法挖掘個股000005世紀星源(2006.01.12-2010.12.24)(1)原始數(shù)據(jù)集日期 開盤 最高 最低收盤成交量成交額2006-1-11 1.03 1.04 1.02 1.03 3372554 5725193.52006-1-12 1.02 1.04 1.01 1.04 4091492 69195042006-1-13 1.04 1.05 1.02 1.03 3262149 5545958.52006-1-16 1.04 1.04 1.01 1.02 3196712 54002172006-1-17 1.01 1.05 1 1.04 4720177 80446882006-1-18 1.04 1.05 1.03 1.04 5126617 8774786……共1106條記錄,7維屬性。經(jīng)過多次數(shù)據(jù)預(yù)處理,得到數(shù)據(jù)集如下:年份是否高開昨最高=昨收盤昨最低=昨收盤成交量增長成交額增長開盤比前五天均價收盤比前五天均價漲跌2006-10011-1112006010001-1-12006100001-1-12006-10011-1112006000111102006000001102006000111-1-1……共1105條記錄,9維屬性。挖掘結(jié)果如下:最小支持度取0.48,最小置信度取0.8。.五、結(jié)論用分類C4.5算法挖掘股票全景數(shù)據(jù)集,經(jīng)過多次數(shù)據(jù)預(yù)處理后,20維屬性縮小到8維,但是對于一萬多條數(shù)據(jù)的龐大且混亂的數(shù)據(jù)集來說,依然沒什么特別的結(jié)果。這與我們的知識相吻合,股票的漲跌并不能用簡單的規(guī)律挖掘就能得出結(jié)果。用聚類Apriori算法挖掘個股000005世紀星源,個股對全領(lǐng)域的代表性有限,但是我們依然有一些小小的發(fā)現(xiàn)。成交額與成交量基本上是共同升降(98%、98%)的;大部分股票的收盤價都不是當天的最高價或最低價(92%、87%);成交量下降的股票,前一天不會在最低價收盤(92%),對成交額亦然(91%);開盤價創(chuàng)近五天均價新高,則前一天不會在最低價收盤(96%),對收盤價亦然(95%)。這些數(shù)據(jù)對股票預(yù)測也許沒有決定性的影響,但也算是我們實驗的一個小發(fā)現(xiàn)。六、課程體會數(shù)據(jù)挖掘是一門很有前景的學(xué)科,其預(yù)測、分類等功能廣泛應(yīng)用在各個領(lǐng)域。通過這一學(xué)期的學(xué)習(xí),我們基本掌握了數(shù)據(jù)挖掘的基礎(chǔ)技術(shù),了解了數(shù)據(jù)挖掘的基本原理,并學(xué)會用weka進行簡單的數(shù)據(jù)挖掘?qū)嶒?。但是實際操作并不如想象中那么簡單,一個原始數(shù)據(jù)集,要從數(shù)據(jù)預(yù)處理開始一點一點地添加刪減,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。