基于股票時(shí)間序列數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究--文獻(xiàn)綜述報(bào)告_第1頁
基于股票時(shí)間序列數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究--文獻(xiàn)綜述報(bào)告_第2頁
基于股票時(shí)間序列數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究--文獻(xiàn)綜述報(bào)告_第3頁
基于股票時(shí)間序列數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究--文獻(xiàn)綜述報(bào)告_第4頁
基于股票時(shí)間序列數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究--文獻(xiàn)綜述報(bào)告_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、南昌大學(xué)2003級(jí)碩士學(xué)位論文文獻(xiàn)綜述報(bào)告基于股票時(shí)間序列數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘研究Study on Mining Association Rules from Stock Time Series Data 系 別: 計(jì)算機(jī)科學(xué)與技術(shù)系專 業(yè): 計(jì)算機(jī)應(yīng)用技術(shù)研究方向: 人工智能研 究 生: 汪廷華導(dǎo) 師: 程從從(教授)2005年03月一引言隨著計(jì)算機(jī)信息系統(tǒng)的日益普及,大容量存儲(chǔ)技術(shù)的發(fā)展以及條形碼等數(shù)據(jù)獲取技術(shù)的廣泛應(yīng)用,人們?cè)谌粘J聞?wù)處理和科學(xué)研究中積累了大量的各種類型的數(shù)據(jù)。在這些數(shù)據(jù)中,有很大一部分是呈現(xiàn)時(shí)間序列(time series)類型的數(shù)據(jù)。所謂時(shí)間序列數(shù)據(jù)就是按時(shí)間先后順序排

2、列各個(gè)觀測(cè)記錄的數(shù)據(jù)集1,如金融證券市場(chǎng)中每天的股票價(jià)格變化;商業(yè)零售行業(yè)中,某項(xiàng)商品每天的銷售額;氣象預(yù)報(bào)研究中,某一地區(qū)的每天氣溫與氣壓的讀數(shù);以及在生物醫(yī)學(xué)中,某一癥狀病人在每個(gè)時(shí)刻的心跳變化等等。然而,我們應(yīng)該注意到:時(shí)間序列數(shù)據(jù)不僅僅是歷史事件的記錄,更重要的是蘊(yùn)藏這些數(shù)據(jù)其中不顯現(xiàn)的、有趣的模式。隨著時(shí)間推移和時(shí)間序列數(shù)據(jù)的大規(guī)模增長(zhǎng),如何對(duì)這些海量數(shù)據(jù)進(jìn)行分析處理,挖掘其背后蘊(yùn)藏的價(jià)值信息,對(duì)于我們揭示事物發(fā)展規(guī)律變化的內(nèi)部規(guī)律,發(fā)現(xiàn)不同事物之間的相互關(guān)系,為人們正確認(rèn)識(shí)事物和科學(xué)決策提供依據(jù)具有重要的實(shí)際意義。時(shí)間序列數(shù)據(jù)分析按照不同的任務(wù)有各種不同的方法,一般包括趨勢(shì)分析、相

3、似性搜索、與時(shí)間有關(guān)數(shù)據(jù)的序列模式挖掘、周期模式挖掘等2。本綜述是針對(duì)證券業(yè)中股票時(shí)間序列分析的,試圖通過列舉、分析有關(guān)證券業(yè)中股票時(shí)間序列數(shù)據(jù)分析的原理、方法與技術(shù),著重探討數(shù)據(jù)挖掘中基于股票時(shí)間序列數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘的概念、原理技術(shù)、實(shí)施過程及存在的障礙和問題,以期能有新的發(fā)現(xiàn)和領(lǐng)悟。二股票時(shí)間序列傳統(tǒng)研究方法概述隨著我國市場(chǎng)經(jīng)濟(jì)建設(shè)的發(fā)展,人們的金融意識(shí)和投資意識(shí)日益增強(qiáng)。股票市場(chǎng)作為市場(chǎng)經(jīng)濟(jì)的重要組成部分,正越來越多地受到投資者的關(guān)注。目前股票投資已經(jīng)是眾多個(gè)人理財(cái)中的一種重要方式。不言而喻,如果投資者能正確預(yù)測(cè)股票價(jià)格、選準(zhǔn)買賣時(shí)機(jī),無疑會(huì)給投資者帶來豐厚的收益。于是,在股票的預(yù)測(cè)和

4、分析方面出現(xiàn)了大量的決策分析方法和工具,以期能有效地指導(dǎo)投資者的投資決策。目前,我國股市用得較多的方法概括起來有兩類3:一類是基本分析和技術(shù)分析,另一類是經(jīng)濟(jì)統(tǒng)計(jì)分析。1基本分析和技術(shù)分析在股票市場(chǎng)上,當(dāng)投資者考慮是否投資于股票或購買什么股票時(shí),一般可以運(yùn)用基本分析的方法對(duì)股市和股票進(jìn)行分析;而在買賣股票的時(shí)機(jī)把握上,一般可以運(yùn)用技術(shù)分析的方法4?;痉治鲋傅氖峭ㄟ^對(duì)影響股票市場(chǎng)供求關(guān)系的基本因素(如宏觀政治經(jīng)濟(jì)形勢(shì)、金融政策、行業(yè)變動(dòng)、公司運(yùn)營(yíng)財(cái)務(wù)狀況等)進(jìn)行分析,來確定股票的真正價(jià)值,判斷未來股市走勢(shì),是長(zhǎng)期投資者不可或缺的有效分析手段。技術(shù)分析是完全根據(jù)股市行情變化而加以分析的方法,它通

5、過對(duì)歷史資料(成交價(jià)和成交量)進(jìn)行分析,來判斷大盤和個(gè)股價(jià)格的未來變化趨勢(shì),探討股市里投資行為的可能轉(zhuǎn)折,從而給投資者買賣股票的信號(hào),適合于投資者作短期投資。目前技術(shù)分析常用的工具是各種各樣的走勢(shì)圖(K線圖、分時(shí)圖)和技術(shù)指標(biāo)(MA、RSI、OBV等)。2經(jīng)濟(jì)統(tǒng)計(jì)學(xué)分析主要針對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行數(shù)學(xué)建模和分析。傳統(tǒng)的時(shí)間序列數(shù)據(jù)分析已經(jīng)是一個(gè)發(fā)展得相當(dāng)成熟的學(xué)科,有著一整套分析理論和工具,是目前時(shí)間序列數(shù)據(jù)分析的主要方法,它主要用經(jīng)濟(jì)統(tǒng)計(jì)學(xué)的理論和方法對(duì)經(jīng)濟(jì)變量進(jìn)行描述、分析和推算。傳統(tǒng)時(shí)間序列數(shù)據(jù)分析的研究目的在于5:分析特定的數(shù)據(jù)集合,建立數(shù)學(xué)模型,進(jìn)行模式結(jié)構(gòu)分析和實(shí)證研究;預(yù)測(cè)時(shí)間序列的

6、未來發(fā)展情況。傳統(tǒng)的時(shí)間序列數(shù)據(jù)分析最基本的理論是40年代分別由Norbor Wiener和Andrei Kolmogomor提出的。20世紀(jì)70年代,G.P.Box和G.M.Jenkins發(fā)表專著時(shí)間序列分析:預(yù)測(cè)和控制,對(duì)平穩(wěn)時(shí)間序列數(shù)據(jù)提出了自回歸滑動(dòng)平均模型(ARMA),以及一整套的建模、估計(jì)、檢驗(yàn)和控制方法,使得時(shí)序數(shù)據(jù)分析得以廣泛運(yùn)用于各種工程領(lǐng)域。其基本思想是根據(jù)各隨機(jī)變量間的依存關(guān)系或自相關(guān)性,從而由時(shí)間序列的過去值及現(xiàn)在值來預(yù)測(cè)出未來的值。該模型以證券市場(chǎng)為非有效市場(chǎng)為前提,當(dāng)期的股票價(jià)格變化不僅受當(dāng)期隨機(jī)因素的沖擊,而且受前期影響。換句話說,就是歷史信息會(huì)對(duì)當(dāng)前的股票價(jià)格產(chǎn)

7、生一定程度的影響。采用的方法一般是在連續(xù)的時(shí)間流中截取一個(gè)時(shí)間窗口(一個(gè)時(shí)間段),窗口內(nèi)的數(shù)據(jù)作為一個(gè)數(shù)據(jù)單元,然后讓這個(gè)時(shí)間窗口在時(shí)間流上滑動(dòng),以獲得建立模型所需要的訓(xùn)練集6。7基于股票時(shí)間序列是一種混沌時(shí)間序列的認(rèn)知,提出一種新穎的非線性時(shí)間序列預(yù)測(cè)模型,即滑動(dòng)窗口二次自回歸(MWDAR)模型,該模型使用部分的歷史數(shù)據(jù)及其二次項(xiàng)構(gòu)造自回歸模型,模型參數(shù)用最小二乘法估計(jì)。其基本理論基礎(chǔ)是:一個(gè)線性模型不能描述混沌時(shí)間序列的全局性特征,但在一個(gè)小的時(shí)間間隔內(nèi),系統(tǒng)的行為卻可以用某種線性模型近似。8則提出了一種基于嵌入理論和確定集上的預(yù)測(cè)誤差的混沌時(shí)間序列預(yù)測(cè)方法,并探討了在股票價(jià)格預(yù)測(cè)上的應(yīng)用

8、??梢钥闯?,經(jīng)濟(jì)統(tǒng)計(jì)學(xué)為問題的探索解決方案提供了有用而實(shí)際的框架;模型是經(jīng)濟(jì)統(tǒng)計(jì)學(xué)的核心,模型的選擇和計(jì)算往往被認(rèn)為是次要的,是建立模型的枝節(jié)。經(jīng)濟(jì)統(tǒng)計(jì)學(xué)本質(zhì)上是從事“確定性”分析的,可以說統(tǒng)計(jì)方法是“目標(biāo)驅(qū)動(dòng)”的。但是,在大量數(shù)據(jù)集中往往存在一些未被人們預(yù)期到但又具有價(jià)值的信息,人們?yōu)榘l(fā)現(xiàn)大量數(shù)據(jù)中隱藏的規(guī)律和模式,就需要新的具有“探索性”的分析工具。顯然,數(shù)據(jù)挖掘就是這樣的一門工具。三數(shù)據(jù)挖掘技術(shù)應(yīng)用于股票時(shí)間序列分析的研究現(xiàn)狀數(shù)據(jù)挖掘(DM,Data Mining),也稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KDD,Knowledge Discovery in Database)是數(shù)據(jù)庫技術(shù)和機(jī)器學(xué)習(xí)等

9、人工智能技術(shù)相結(jié)合的產(chǎn)物,是一門新興的數(shù)據(jù)智能分析技術(shù)9。20世紀(jì)80年代末,隨著數(shù)據(jù)庫、互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展以及管理信息系統(tǒng)(MIS)和網(wǎng)絡(luò)數(shù)據(jù)中心(IDC)的推廣應(yīng)用,數(shù)據(jù)的存取、查詢、描述統(tǒng)計(jì)等技術(shù)已日臻完善,但高層次的決策分析、知識(shí)發(fā)現(xiàn)等實(shí)用技術(shù)還很不成熟,導(dǎo)致了“信息爆炸”但“知識(shí)貧乏”的現(xiàn)象。到了90年代,人們提出在數(shù)據(jù)庫基礎(chǔ)上建立數(shù)據(jù)倉庫,應(yīng)用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析相結(jié)合的方法處理數(shù)據(jù),這兩者的結(jié)合促成了數(shù)據(jù)挖掘技術(shù)的誕生。所謂數(shù)據(jù)挖掘,簡(jiǎn)單地說,就是從大量數(shù)據(jù)中提取或挖掘知識(shí)2;詳細(xì)一點(diǎn)可以描述為主要利用某些特定的知識(shí)發(fā)現(xiàn)算法,在一定的運(yùn)算效率的限制下,從大量的數(shù)據(jù)中抽取出潛在的、

10、有價(jià)值的知識(shí)(模型、規(guī)則和趨勢(shì))的過程。挖掘算法的好壞直接影響到知識(shí)發(fā)現(xiàn)的質(zhì)量和效率,因此目前大多數(shù)研究都集中于數(shù)據(jù)挖掘算法及其應(yīng)用上。1相關(guān)技術(shù)介紹(1)關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則是美國IBM Almaden Research Center的 Rakesh Agrawal等人于1993年首先提出來的KDD研究的一個(gè)重要課題10。關(guān)聯(lián)規(guī)則挖掘本質(zhì)是從大量的數(shù)據(jù)中或?qū)ο箝g抽取關(guān)聯(lián)性,它可以揭示數(shù)據(jù)間的依賴關(guān)系,根據(jù)這種關(guān)聯(lián)性就可以從某一數(shù)據(jù)對(duì)象的信息來推斷另一對(duì)象的信息。它可以做如下形式化定義:設(shè)I = i1,i2,.,im是一組項(xiàng)的集合(例如一個(gè)商場(chǎng)的物品),D是一組事務(wù)集(稱之為事務(wù)數(shù)據(jù)庫)。D中

11、的每個(gè)事務(wù)T是項(xiàng)的集合,且滿足TÍI。稱事務(wù)T支持物品集X,如果XÍT。關(guān)聯(lián)規(guī)則是如下形式的一種蘊(yùn)含式:XY,其中XÍI,YÍI,且XY= f。(1) 稱關(guān)聯(lián)規(guī)則XY在事務(wù)數(shù)據(jù)庫D中具有大小為s的支持度,如果物品集XY的支持度為s%,即support(XY)=P(X U Y)。(2) 稱規(guī)則XY在事務(wù)數(shù)據(jù)庫D中具有大小為c的可信度,如果D中支持物品集X的事務(wù)中有c%的事務(wù)同時(shí)也支持物品集Y,即confidence(XY)=P(Y|X)。從語義的角度來分析,規(guī)則的可信度表示這條規(guī)則的正確程度;支持度表示用這條規(guī)則可以推出百分之幾的目標(biāo),即這一規(guī)則對(duì)于整體數(shù)

12、據(jù)的重要程度。用戶可以定義二個(gè)閾值,要求數(shù)據(jù)挖掘系統(tǒng)所生成的規(guī)則的支持度和可信度都不小于給定的閾值。這樣,就用蘊(yùn)含式、支持度和可信度唯一標(biāo)識(shí)了每一個(gè)挖掘出來的關(guān)聯(lián)規(guī)則。已知事物數(shù)據(jù)庫D,關(guān)聯(lián)規(guī)則的挖掘問題就是產(chǎn)生支持度與置信度分別大于用戶給定的最小閾值的所有關(guān)聯(lián)規(guī)則。該問題分兩步來求解:第一步是找出事務(wù)數(shù)據(jù)庫D中所有滿足條件的具有用戶指定最小支持度的項(xiàng)目集。具有最小支持度的項(xiàng)目集稱為頻繁項(xiàng)集。第二步是從頻繁項(xiàng)集中構(gòu)造可信度不低于用戶要求的規(guī)則。形式地,對(duì)于每一個(gè)頻繁項(xiàng)目集A,找出A的所有非空子集a,如果比率support(A)/support(a)min_conf(可信度),就生成關(guān)聯(lián)規(guī)則a(

13、A-a)。識(shí)別或發(fā)現(xiàn)所有的頻繁項(xiàng)集是關(guān)聯(lián)規(guī)則挖掘算法的核心,也是計(jì)算量最大的部分。目前已有不少挖掘頻繁項(xiàng)集的方法,其中最著名的是R.Agrawal和R.Srikant提出的Apriori算法11,其核心是利用這樣一個(gè)性質(zhì):頻繁項(xiàng)集的所有非空子集都是頻繁的?;谶@樣的先驗(yàn)知識(shí),Apriori使用一種“逐層搜索“的迭代方法,k-項(xiàng)集用于探索(k+1)項(xiàng)集。首先找出頻繁1-項(xiàng)集,記作L1;用L1找頻繁2-項(xiàng)集L2;而L2用于找L3,如此下去,直到不能找到頻繁k-項(xiàng)集。雖然Apriori算法能最終挖掘出所有的關(guān)聯(lián)規(guī)則,但由于處理的數(shù)據(jù)量非常大,因而算法的效率顯得十分重要。后來的一些研究人員對(duì)算法的連接

14、和剪枝過程進(jìn)行各種優(yōu)化。如12提出了稱為AprioriTid的改進(jìn)算法,該算法提出了在每一步(第一步除外)計(jì)算候選頻繁項(xiàng)集的支持度時(shí)不需要瀏覽整個(gè)事務(wù)數(shù)據(jù)庫。它認(rèn)為不包含任何k-項(xiàng)集的事務(wù)不可能包含任何k+1項(xiàng)集,這樣,這種事務(wù)在其后的考慮時(shí),可以加上標(biāo)記或刪除,因?yàn)闉楫a(chǎn)生j-項(xiàng)集(jk),掃描數(shù)據(jù)庫時(shí)不再需要它們。該算法的本質(zhì)是壓縮進(jìn)一步迭代掃描的事務(wù)數(shù)。而13提出的AprioriPro算法,其基本思想與AprioriTid是一致的,也是減少對(duì)數(shù)據(jù)集的掃描,不同的是AprioriPro算法是通過在原有的數(shù)據(jù)集上增加一個(gè)屬性,通過這個(gè)屬性的取值來減少對(duì)某些事務(wù)的掃描。14是結(jié)合Apriori和

15、AprioriTid兩種算法,提出了一種混合挖掘算法AprioriHybrid,其基本思想是在掃描的早期使用Apriori算法,當(dāng)候選模式集中記錄條數(shù)小到可以放進(jìn)內(nèi)存時(shí)就轉(zhuǎn)向AprioriTid算法。這些改進(jìn)算法雖然比Apriori算法在挖掘效率上有一些提高,但本質(zhì)上沒有什么區(qū)別,都要在挖掘過程中生成大量的候選模式集?!坝袥]有這樣的算法,挖掘全部的頻繁項(xiàng)集而不產(chǎn)生候選?” 1999年Han等人提出FP-Growth算法15,以及 Agrawal等人提出的樹投影(Tree Project)16關(guān)聯(lián)規(guī)則挖掘算法就是這樣的算法,它們?cè)谛阅苌暇@得了突破,與Apriori算法相比,挖掘效率有了數(shù)量級(jí)的

16、提高。利用FP-Tree 可以壓縮事務(wù)數(shù)據(jù)集,壓縮有的達(dá)到100多倍;而樹投影方法從原理上講是適應(yīng)任何數(shù)據(jù)集的,無論其據(jù)量多大該算法都能有效運(yùn)行,從而使得關(guān)聯(lián)規(guī)則挖掘可以應(yīng)用于海量數(shù)據(jù)的挖掘和稠密數(shù)據(jù)集的挖掘。除了上述關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法之外,人們著重在以下幾個(gè)方面對(duì)關(guān)聯(lián)規(guī)則進(jìn)行了研究。(1)繼續(xù)通過各種手段提高挖掘效率。這方面包括對(duì)原有算法的進(jìn)一步改進(jìn)17,18;提出一些并行挖掘算法19,20、增量算法21以及帶約束的關(guān)聯(lián)規(guī)則挖掘策略(元規(guī)則制導(dǎo)關(guān)聯(lián)規(guī)則挖掘)22,23。(2)不同形式關(guān)聯(lián)規(guī)則的研究。關(guān)聯(lián)規(guī)則最早是由購物籃分析開始的,但是隨著研究的擴(kuò)展和深入,關(guān)聯(lián)規(guī)則的應(yīng)用范圍不斷擴(kuò)大,因

17、此出現(xiàn)了多種形式關(guān)聯(lián)規(guī)則的研究。由最簡(jiǎn)單的單維、單層、布爾關(guān)聯(lián)規(guī)則逐漸向復(fù)雜形式擴(kuò)展。在基本關(guān)聯(lián)規(guī)則的基礎(chǔ)上提出了布爾型加權(quán)關(guān)聯(lián)規(guī)則和廣義模糊型加權(quán)關(guān)聯(lián)規(guī)則算法24,由單層的關(guān)聯(lián)規(guī)則擴(kuò)展為多層次關(guān)聯(lián)規(guī)則的研究25等等。關(guān)聯(lián)規(guī)則形式的多樣化,反映了人們從不同角度認(rèn)識(shí)同一事物的不同視點(diǎn),加深了對(duì)關(guān)聯(lián)規(guī)則的認(rèn)識(shí)與研究。(3)結(jié)合其它理論(如軟計(jì)算理論)對(duì)關(guān)聯(lián)規(guī)則進(jìn)行研究。引入粗糙集概念,使關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的模式具有較高的解釋能力和精確度26;通過引入神經(jīng)網(wǎng)絡(luò)的概念,提出用相互激活與競(jìng)爭(zhēng)網(wǎng)絡(luò)來進(jìn)行數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)27;還有基于遺傳算法的多維關(guān)聯(lián)規(guī)則挖掘28等。可以看出通過引入其他領(lǐng)域的先進(jìn)理論,豐

18、富了關(guān)聯(lián)規(guī)則研究的內(nèi)容,提高了算法的有效性。(4)關(guān)聯(lián)規(guī)則的價(jià)值評(píng)判標(biāo)準(zhǔn)研究。如29分別討論了關(guān)聯(lián)規(guī)則的客觀評(píng)價(jià)指標(biāo)(支持度、可信度和相關(guān)強(qiáng)度)和主觀評(píng)價(jià)指標(biāo)(新穎性、用戶感興趣性和簡(jiǎn)潔性),在此基礎(chǔ)上給出了一種關(guān)聯(lián)規(guī)則的綜合自動(dòng)評(píng)價(jià)方法。(5)關(guān)聯(lián)規(guī)則的應(yīng)用研究。理論從實(shí)踐中來,但最終是為了指導(dǎo)實(shí)踐。關(guān)聯(lián)規(guī)則自提出以來,經(jīng)過無數(shù)學(xué)者的研究努力,廣泛應(yīng)用于社會(huì)生產(chǎn)和科研的各個(gè)方面,產(chǎn)生了巨大的效益30,31,32,33。(2)序列模式挖掘序列模式(Sequential Pattern)挖掘最早也是由R.Agrawal首先提出來的34。設(shè)有一個(gè)交易數(shù)據(jù)庫D,每個(gè)顧客可在不同時(shí)間購買不同物品,每次

19、購買活動(dòng)稱為交易(Transaction)。這里,顧客、交易時(shí)間和所購物品分別以Customer_ID、Transaction_Time和Itemset標(biāo)識(shí)。如果以Customer_ID為第一關(guān)鍵字,Transaction_Time為第二關(guān)鍵字對(duì)數(shù)據(jù)庫D排序,那么,對(duì)每一顧客而言,他進(jìn)行的所有交易是以交易時(shí)間的升序排列的,從而構(gòu)成一個(gè)序列,稱這種序列為顧客序列CS(Customer Sequence)。一般地,令某顧客的各次交易時(shí)間為t1,t2,t3,tn,該顧客在交易時(shí)間ti購買的物品集記為itemset(i),于是該顧客的CS序列為itemset(t1), itemset(t2), ite

20、mset(t3), itemset(tn)。相應(yīng)地,可以認(rèn)為上述交易數(shù)據(jù)庫D已轉(zhuǎn)換為顧客序列數(shù)據(jù)庫。如果某序列s包含在某顧客的CS序列中,那么稱該顧客支持(Support)該序列s。某序列的支持度為支持該序列的顧客數(shù)與顧客序列數(shù)據(jù)庫中顧客總數(shù)之比。序列模式就是在上述顧客序列數(shù)據(jù)庫中滿足用戶指定最小支持度的最長(zhǎng)序列。序列模式的問題定義與關(guān)聯(lián)規(guī)則很相似,它們之間的區(qū)別可以用下列例子描述,關(guān)聯(lián)規(guī)則描述的是在一次購物中所購買物品之間的關(guān)聯(lián)關(guān)系,而序貫?zāi)J絼t是描述同一顧客在不同次購物所購物品之間可能存在的某種關(guān)聯(lián)關(guān)系。換句話說,關(guān)聯(lián)規(guī)則僅僅發(fā)現(xiàn)事務(wù)內(nèi)部(intra-transaction)的模式,而序列

21、模式則是發(fā)現(xiàn)事務(wù)之間(inter-transaction)的模式。序列模式的發(fā)現(xiàn)方法與關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)方法大致相同,R.Agrawal在Apriori算法的基礎(chǔ)上提出了三個(gè)序列模式的挖掘算法AprioriAll、AprioriSome和DynamicSome34。AprioriAll算法采用哈希樹儲(chǔ)存候選序列,將所有的候選序列均儲(chǔ)存在哈希樹的葉子節(jié)點(diǎn)中;將候選序列的記數(shù)劃分為向前及向后兩階段:向前階段跳躍性地產(chǎn)生所有特定長(zhǎng)度的頻繁序列,而向后階段找出在向前階段未考慮的頻繁序列。 在3536中提出了挖掘具有概念分層、滑動(dòng)時(shí)間窗口及最大和最小時(shí)間約束的 GSP(Generalized Sequent

22、ial Patterns)算法。該算法也采用哈希樹存儲(chǔ)候選序列,仍將候選序列的記數(shù)分為向前及向后階段,但此法劃分向前階段與向后階段的目的與實(shí)現(xiàn)均與 AprioriAll 算法不同。 PSP(Perfectly Sequential Patterns)算法在37中提出,該算法采用了前綴樹結(jié)構(gòu)(而非哈希樹)存儲(chǔ)候選序列,從而導(dǎo)致該算法的候選序列集的產(chǎn)生和記數(shù)均不同與GSP算法; 同時(shí),由于前綴樹的每個(gè)節(jié)點(diǎn)只存儲(chǔ)事務(wù)中的一項(xiàng),故與哈希樹結(jié)構(gòu)相比較大的節(jié)省了內(nèi)存空間。(3)軟計(jì)算方法軟計(jì)算(Soft Computing)是方法論的集合,這些方法集互相協(xié)作,并以一種形式或其它某種形式為現(xiàn)實(shí)中的模糊情況提

23、供靈活信息處理功能38。它的目的是為了獲得易處理的、粗糙的、低成本的解決方法而對(duì)不確定的數(shù)據(jù)進(jìn)行處理。遵從的原則是以追求近似解決模糊/精確問題,并低成本地設(shè)計(jì)解決方案。軟計(jì)算方法主要包括模糊邏輯、Rough集、遺傳算法、神經(jīng)網(wǎng)絡(luò)等。模糊邏輯是處理不確定性概念及其推理機(jī)制的過程,Rough集和神經(jīng)網(wǎng)絡(luò)常被用來分類和規(guī)則抽取,遺傳算法包括最優(yōu)解和搜索過程,像問題最優(yōu)解和樣本選擇。針對(duì)時(shí)間序列挖掘,軟計(jì)算方法的應(yīng)用研究簡(jiǎn)要介紹如下:模糊邏輯是最早、應(yīng)用最廣泛的軟計(jì)算方法,模糊邏輯的發(fā)展導(dǎo)致了軟計(jì)算方法的出現(xiàn)。39在挖掘時(shí)間序列數(shù)據(jù)時(shí)使用了模糊語言概化;40針對(duì)商業(yè)銷售的智能分析需求,提出了一種基于模

24、糊集合的數(shù)據(jù)挖掘時(shí)間序列模式算法。神經(jīng)網(wǎng)絡(luò)是一個(gè)黑箱問題,它先前被認(rèn)為不適合應(yīng)用于數(shù)據(jù)挖掘,且在符號(hào)格式中,它并不能獲得有用信息,但卻適合進(jìn)行解釋。近年來,挖掘訓(xùn)練過的網(wǎng)絡(luò)中的嵌入知識(shí),已廣泛地應(yīng)用于數(shù)據(jù)挖掘中。它對(duì)屬性或逐個(gè)或合并地進(jìn)行判別,這對(duì)于決策或分類是非常重要的。它對(duì)數(shù)據(jù)挖掘的貢獻(xiàn)是在規(guī)則提取和自組織性上。遺傳算法是可調(diào)節(jié)的、魯棒的、有效率的搜索方法,它適應(yīng)于搜索大空間集。它相對(duì)數(shù)據(jù)挖掘的標(biāo)準(zhǔn)來優(yōu)化功能,并達(dá)到搜索最優(yōu)解的目的。41提出了一個(gè)基于小生境遺傳算法和模式緩存的時(shí)間序列中頻繁結(jié)構(gòu)模式的發(fā)現(xiàn)算法,該算法具有輕便、靈活、可擴(kuò)展性好的特點(diǎn),可根據(jù)實(shí)際情況合理配置計(jì)算時(shí)間和所占用的

25、內(nèi)存資源,可實(shí)現(xiàn)挖掘結(jié)果的實(shí)時(shí)動(dòng)態(tài)更新輸出,并通過在在實(shí)際時(shí)間序列數(shù)據(jù)上的實(shí)驗(yàn)證明了該算法的有效性。 Rough集理論由波蘭邏輯學(xué)家Pawlak教授在20世紀(jì)80年代提出,是一種處理含糊和不確定問題的新型數(shù)學(xué)工具,其出發(fā)點(diǎn)是根據(jù)目前已有的對(duì)給定問題的知識(shí)將問題的論域進(jìn)行劃分,然后對(duì)劃分的每一部分確定其對(duì)某一概念的支持程度:即肯定支持此概念,肯定不支持此概念和可能支持此概念,并分別用三個(gè)近似集合來表示為正域、負(fù)域和邊界。它能有效地分析不精確、不一致、不完整等各種不完備的信息,還可以對(duì)數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識(shí)和潛在的規(guī)律。同時(shí),Rough集理論在處理大數(shù)據(jù)量,消除冗余信息等方面有著良

26、好的效果,因此廣泛應(yīng)用于數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理(數(shù)據(jù)約簡(jiǎn))、規(guī)則生成等方面42,43。股票時(shí)間序列挖掘股票市場(chǎng)高風(fēng)險(xiǎn)和高收益并存,因此對(duì)于股票數(shù)據(jù)知識(shí)發(fā)現(xiàn)的研究一直受到人們的關(guān)注。目前對(duì)股票時(shí)間序列的數(shù)據(jù)挖掘方法大致集中在以下三個(gè)方面。(1)相似性的研究。該方法是在時(shí)間序列數(shù)據(jù)庫中找出與給定查詢序列最接近的數(shù)據(jù)序列,它包含了全序列匹配和子序列匹配兩種問題。子序列匹配就是找出與給定模式序列相似的所有子序列,而全序列匹配就是找出彼此間相似的序列。具體的操作時(shí)將時(shí)間窗口在時(shí)間序列上滑動(dòng),通過距離計(jì)算從一個(gè)時(shí)間序列和多個(gè)時(shí)間序列中尋找相似的時(shí)間序列模式進(jìn)行聚類形成相似組群,當(dāng)有一個(gè)新的時(shí)間序列需要分析時(shí)

27、,可以從相似組群中尋找與它最相似的類來匹配。一般有兩個(gè)研究方向,一種是將時(shí)間序列從時(shí)間域(time domain)到頻率域(frequency domain)后在進(jìn)行相似性匹配。至于為什么要進(jìn)行這種數(shù)據(jù)變換,主要是基于許多信號(hào)分析技術(shù)(如離散傅立葉變換DFT和離散小波變換DWT)需要數(shù)據(jù)來自頻率域2。另一種則是直接在時(shí)間域上研究。主要應(yīng)用是從股票數(shù)據(jù)中識(shí)別具有相似變化趨勢(shì)的模式,以預(yù)測(cè)新數(shù)據(jù)在未來的發(fā)展行為。在時(shí)間序列相似性方面的研究文獻(xiàn)有44,45,46,47。(2)趨勢(shì)分析與值預(yù)測(cè)研究。趨勢(shì)分析研究時(shí)間序列的變化趨勢(shì),其理論基礎(chǔ)是將時(shí)間序列視為一個(gè)動(dòng)力系統(tǒng),認(rèn)為在其過去的波動(dòng)中蘊(yùn)涵有可用于

28、預(yù)測(cè)未來的信息。給定一組值(Y1,Y2,Y3,),確定數(shù)據(jù)趨勢(shì)的方法通常有兩種2:一種是N階的移動(dòng)平均值,即 ()/n,()/n,()/n,。移動(dòng)平均可以降低數(shù)據(jù)集中的變化總量,用移動(dòng)平均替代時(shí)序,可以減少不希望出現(xiàn)的波動(dòng),故它也稱為時(shí)序的平滑。另一種是最小二乘法,即以最好的擬合曲線C作為最小二乘曲線,即曲線具有最小的,其中偏差或誤差di是指點(diǎn)(xi,yi)的值yi與對(duì)應(yīng)曲線C的值之間的差值。趨勢(shì)分析可以用來值預(yù)測(cè),除此之外,用得較多的是神經(jīng)網(wǎng)絡(luò)48,49。這種預(yù)測(cè)方法由于是基于時(shí)間序列的具體數(shù)值,而這些數(shù)據(jù)往往含有許多干擾數(shù)據(jù),因此該值預(yù)測(cè)方法的抗干擾能力較弱。(3)時(shí)間序列中關(guān)聯(lián)規(guī)則的抽取

29、。Gautam Das等對(duì)從時(shí)間序列中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則進(jìn)行了研究50,這里規(guī)則是對(duì)時(shí)間序列中不同模式間關(guān)系的一種描述,50的主要貢獻(xiàn)在于給出了一個(gè)將原始時(shí)間序列轉(zhuǎn)換成有各個(gè)模式表示符組成的符號(hào)序列的一般方案,該方案由三部分組成,即分割,聚類和符號(hào)替換。然后采用序列模式發(fā)現(xiàn)算法實(shí)現(xiàn)了符號(hào)序列中規(guī)則的發(fā)現(xiàn)。針對(duì)股票時(shí)間序列的特殊性,許多學(xué)者在經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法的基礎(chǔ)上,又提出了許多新的算法。1996年R.Strikant給出了關(guān)系數(shù)據(jù)庫中數(shù)量關(guān)聯(lián)規(guī)則的挖掘算法51;1998年H.Lu對(duì)股票變動(dòng)的預(yù)測(cè)以及內(nèi)聯(lián)相關(guān)性分析進(jìn)行了研究52;1999年M.Garofalakis提出了具有約束限制的時(shí)序數(shù)據(jù)挖掘

30、53;2002年 Y.Chen對(duì)時(shí)序數(shù)據(jù)庫的多維回歸分析進(jìn)行了研究54。國內(nèi)學(xué)者在這方面也做了相當(dāng)?shù)难芯浚?5對(duì)股票時(shí)間序列的挖掘,分別探討了一維和二維關(guān)聯(lián)規(guī)則的發(fā)現(xiàn);56通過一個(gè)具體的實(shí)例描述了從股票時(shí)間序列中挖掘一維關(guān)聯(lián)規(guī)則的方法;57提出了延遲關(guān)聯(lián)規(guī)則的概念,并在股票時(shí)間序列上實(shí)現(xiàn)挖掘該規(guī)則的算法;58在時(shí)間序列中引入多重時(shí)間粒度,以模糊規(guī)則的形式給出數(shù)據(jù)挖掘的結(jié)果。Rough集理論在數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用主要體現(xiàn)在數(shù)據(jù)約簡(jiǎn)和關(guān)聯(lián)規(guī)則的抽取上,這方面的研究已經(jīng)有了少量的文獻(xiàn)。59提出的一種基于Rough集的時(shí)間序列數(shù)據(jù)挖掘策略,顯然適用于股票時(shí)間序列的挖掘;60則提出將正則化神經(jīng)網(wǎng)絡(luò)與Rou

31、gh集理論相結(jié)合應(yīng)用于股票時(shí)間序列數(shù)據(jù)庫的挖掘。該方法融合了正則神經(jīng)網(wǎng)絡(luò)優(yōu)良的泛化性能和Rough集理論的規(guī)則生成能力,充分展示了軟計(jì)算方法應(yīng)用于時(shí)間序列數(shù)據(jù)分析的新穎性。四總結(jié)與展望從大的方面來說,時(shí)間序列數(shù)據(jù)的挖掘技術(shù)可分為統(tǒng)計(jì)分析法和數(shù)據(jù)挖掘。眾所周知,統(tǒng)計(jì)學(xué)是數(shù)據(jù)挖掘的三大支柱之一(另兩種是數(shù)據(jù)庫和人工智能);同時(shí),數(shù)據(jù)挖掘在統(tǒng)計(jì)學(xué)的基礎(chǔ)上另有擴(kuò)充和發(fā)展,這使得數(shù)據(jù)挖掘技術(shù)成為一種更具優(yōu)勢(shì)性的研究方法。統(tǒng)計(jì)學(xué)為問題的探索解決方案提供了有用而實(shí)際的框架;模型是現(xiàn)代統(tǒng)計(jì)學(xué)的核心,模型的選擇和計(jì)算往往被認(rèn)為是次要的,是建立模型的枝節(jié)。統(tǒng)計(jì)學(xué)本質(zhì)上是從事“確定性”分析的,可以說統(tǒng)計(jì)方法是“目標(biāo)

32、驅(qū)動(dòng)”的。但數(shù)據(jù)挖掘卻不同,它的核心是算法,當(dāng)然也考慮模型和可解釋性問題,但算法及可實(shí)現(xiàn)性是第一位的。它所強(qiáng)調(diào)的首先是發(fā)現(xiàn),其次才是解釋。數(shù)據(jù)挖掘,作為很多學(xué)科交叉的結(jié)果,繼承了機(jī)器學(xué)習(xí)的“冒險(xiǎn)”態(tài)度,比統(tǒng)計(jì)學(xué)更強(qiáng)調(diào)實(shí)踐性、探索性和靈活性。證券市場(chǎng)是國民經(jīng)濟(jì)的晴雨表,是政府主管部門、券商和廣大投資者的興趣中心。長(zhǎng)期以來各券商的交易系統(tǒng)一直走在IT技術(shù)應(yīng)用革新的前沿,同時(shí)也積累了大量的數(shù)據(jù);挖掘、開發(fā)和利用這些數(shù)據(jù)一方面可以有效指導(dǎo)證券投資者的投資,另一方面可以使證券公司進(jìn)行最適合的定位,從而使企業(yè)長(zhǎng)期的積累得以充分發(fā)揮,樹立競(jìng)爭(zhēng)優(yōu)勢(shì)。作為數(shù)據(jù)挖掘的主要組成部分之一,關(guān)聯(lián)規(guī)則挖掘獲得了廣泛的研究

33、,但從關(guān)聯(lián)規(guī)則的角度進(jìn)行股票時(shí)間序列分析,從學(xué)術(shù)上來說具有一定的新穎性,其終極目標(biāo)是以極大的概率預(yù)測(cè)股價(jià)的未來走勢(shì)。股票的漲跌不是各自互不影響的,傳統(tǒng)意義上的“板塊聯(lián)動(dòng)”就是極好的證明??疾旃善眱r(jià)格之間的漲跌關(guān)系,如能在傳統(tǒng)分析方法的基礎(chǔ)上,采用先進(jìn)的數(shù)據(jù)挖掘技術(shù),挖掘出股票之間的價(jià)格聯(lián)動(dòng)關(guān)聯(lián)規(guī)則,顯然具有十分重要的意義。Rough集理論是一種處理含糊和不精確性問題的新型數(shù)學(xué)工具,是采用精確的數(shù)學(xué)方法分析不精確系統(tǒng)的一種理想方法。大量文獻(xiàn)已經(jīng)說明Rough集理論是從數(shù)據(jù)集中提取關(guān)聯(lián)規(guī)則的有效方法,其中主要的原因應(yīng)歸功于Rough集理論強(qiáng)大的數(shù)據(jù)約簡(jiǎn)能力。應(yīng)用Rough集理論對(duì)股票時(shí)間序列數(shù)據(jù)進(jìn)

34、行建模、約簡(jiǎn)、規(guī)則抽取,顯然又是一個(gè)極具新穎和創(chuàng)新的研究領(lǐng)域。參考文獻(xiàn) 1 安鴻志,陳兆國,杜金觀,潘一民. 時(shí)間序列的分析與應(yīng)用. 科學(xué)出版社 1983.2 Jiawei Han,Micheline Kamber. 數(shù)據(jù)挖掘: 概念與技術(shù).北京:機(jī)械工業(yè)出版社2001.36、278285.3 貝政新,陳瑛. 證券投資通論. 上海:復(fù)旦大學(xué)出版社,1998.4 安妮. 股票投資技術(shù)方法與應(yīng)用. 深圳:海天出版社,1995.5 王耀動(dòng),張德遠(yuǎn),張海雄. 經(jīng)濟(jì)時(shí)間序列分析. 上海財(cái)經(jīng)大學(xué)出版社 1996.6 李民,邵建中,李俊平等. 用ARMA模型預(yù)測(cè)深滬股市. 長(zhǎng)沙鐵道學(xué)院學(xué)報(bào),2002,18(

35、1):7884.7 李愛國,覃征. 滑動(dòng)窗口二次自回歸模型預(yù)測(cè)非線性時(shí)間序列. 計(jì)算機(jī)學(xué)報(bào),第27卷,第7期2004年7月.8 孫宏義,朱梅. 混沌時(shí)間序列預(yù)測(cè)及在股票市場(chǎng)中的應(yīng)用. 安徽工程科技學(xué)院學(xué)報(bào),第18卷,第4期2003年12月.9 李菁菁,邵培基,黃亦瀟. 數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究. 管理工程學(xué)報(bào) 2004年第3期.10 R.Agrawal, T.Imielinski, A.Swami. Mining Association Rules Between Sets of Items in Large DatabasesC. Proceedings of ACM SIGMOD I

36、nt1 Conf. Management of Data, Washington D.C., 1993.207216. 11 R.Agrawal, R.Srikant. Fast Algorithms for Mining Association RulesJ. VLDB94, Santiago, Chile,1994:478499.12 Mannila H, Toivonen, Inkeri Verkamo A. Efficient algorithms for discovery association rules. In Proceedings of AAAI Workshop on K

37、nowledge Discovery in database. July 1994.181192.13 Hannu Toivonen, Mika Klemettinen, Pirjo Ronkaine etal. Pruning and grouping discovered association rules. In Mlnet workshop on Statistics, Maching Learning and Discovery in Database. Heraklion, Rete. April 1995.14 Agrawal R, Srikant R. Fast Discove

38、ry of Association Rules. In Fayyad. 1996.15 J.Han, J.Pei. Mining Frequent Patterns Without Candidate Generation. In Proc. 2000 ACM-SIGMOD Intl. Conf. on Management of Data(SIGMOD2000) Dallas TX 2000,112.16 R.Agarwal, C.Aggarwal, V.Prasad. A Tree Projection Algorithm for Generation of Frequent Itemse

39、ts. Journal of Parallel and Distributed Computing Special Issue on High Performance Data Mining 2001,350-371.17 倪旻,徐曉飛,鄧勝春,趙政. 基于頻繁項(xiàng)目對(duì)支持矩陣的Apriori優(yōu)化算法.小型微型計(jì)算機(jī)系統(tǒng).Vol.25 No.5, May 2004.18 鄧硯谷,王麗珍. 對(duì)FP-Tree頭表節(jié)點(diǎn)數(shù)據(jù)結(jié)構(gòu)的改進(jìn).計(jì)算機(jī)工程與應(yīng)用. 2004,25.19 R.Agrawal, J.Shafer. Parallel Mining of Association Rules. IEEE

40、Trans.On Knowledge and Data Engineer 1996,962969.20 張兆功,李建中,張艷秋. 海量數(shù)據(jù)上挖掘關(guān)聯(lián)規(guī)則的并行算法. 哈爾濱工業(yè)大學(xué)學(xué)報(bào),2004年05期.21 朱紅蕾,李明. 一種高效維護(hù)關(guān)聯(lián)規(guī)則的增量算法. 計(jì)算機(jī)應(yīng)用研究,2004年09期.22 M.Kamber, J.Han, J.Y.Chiang. Metarule-Guided Mining of Multi-Demensional Association Rules Using Data Cubes In Proc.1997 Intl. Conf. Knowledge Discove

41、ry and Data Minin KDD1997 Newport Beach CA. 1997,207-210.23 程繼華,郭建生,施鵬飛. 元規(guī)則指導(dǎo)的知識(shí)發(fā)現(xiàn)方法研究. 計(jì)算機(jī)工程與應(yīng)用,1999年第10期.24 陸建江. 數(shù)據(jù)庫中布爾型及廣義模糊型加權(quán)關(guān)聯(lián)規(guī)則的挖掘.系統(tǒng)工程理論與實(shí)踐,2002,2:2832.25 程繼華,施鵬飛. 多層次關(guān)聯(lián)規(guī)則的有效挖掘算法.軟件學(xué)報(bào),1998,9(12):937941.26 程 巖,黃梯云.粗糙集中定量關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)及其規(guī)則約簡(jiǎn)的方法研究.管理工程學(xué)報(bào),2001,15(3):7377.27 倪志偉,蔡慶生,方瑾.用神經(jīng)網(wǎng)絡(luò)來挖掘數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)

42、則.系統(tǒng)仿真學(xué)報(bào),2000,12(6):685687.28 高堅(jiān). 基于免疫遺傳算法的多維關(guān)聯(lián)規(guī)則挖掘. 計(jì)算機(jī)工程與應(yīng)用. 2003年32期. 29 蘇占東,游福成,楊炳儒. 關(guān)聯(lián)規(guī)則的綜合評(píng)價(jià)方法研究與實(shí)例驗(yàn)證計(jì)算機(jī)應(yīng)用. 2004年10期.30 李虹,蔡之華. 關(guān)聯(lián)規(guī)則在醫(yī)療數(shù)據(jù)分析中的應(yīng)用. 微機(jī)發(fā)展. 2003年06期.31 胥桂仙,高旭,于紹娜. 關(guān)聯(lián)規(guī)則算法在中文文本挖掘中的應(yīng)用研究. 中央民族大學(xué)學(xué)報(bào)(自然科學(xué)版). 2004年04期.32 姜南,唐曉青. 應(yīng)用關(guān)聯(lián)規(guī)則構(gòu)建質(zhì)量活動(dòng)鏈模型. 北京航空航天大學(xué)學(xué)報(bào),2004年05期. 33 普杰信,薛冰冰. 加權(quán)關(guān)聯(lián)規(guī)則在網(wǎng)絡(luò)入侵

43、檢測(cè)系統(tǒng)中的應(yīng)用. 信息技術(shù). 2004年04期. 34 Agrawal R, Srikant R. Mining Sequential Patterns. In Proc.95 Int1 Conf Data Engineering, Taibei,Taiwan. March,5,1995.35 Tamakrishnan Srikant, Rakesh Agrawal. Mining Sequential Patterns: Generalizations and Performance Improvements.36 Ramakishnan Srikant. Fast Algorithms

44、for Mining Association Rules and Sequential Patterns, Chapter 5 Mining Sequential Patterns p113-146.37 F.Masseglia, F.Cathala, P.Poncelet. The PSP Approach for Mining Sequential Patterns.38 L. A. Zadeh. Fuzzy logic, neural networks, and soft computing, Commun. ACM, Vol. 37, pp. 77-84, 1999.39 D. A.C

45、hiang, L.R.Chow,Y.E.Wang. Mining time series data by a fuzzy linguistic summary system. Fuzzy Sets Syst. Vol. 112, pp.419-432, 2002.40 吳煲寧,林天,孫志揮,汪曉剛. 一種基于模糊集的時(shí)間序列挖掘算法的設(shè)計(jì)與實(shí)現(xiàn). 計(jì)算機(jī)工程與應(yīng)用,2002年20期. 41 李斌,汪祖媛,高清維,莊鎮(zhèn)泉. 基于遺傳算法的時(shí)間序列中頻繁結(jié)構(gòu)模式發(fā)現(xiàn)研究. 電路與系統(tǒng)學(xué)報(bào). 第九卷,第四期,2004年8月.42 劉清. Rough集及Rough推理. 科學(xué)出版社,2001.43 韓中華,吳成東,劉海濤. 數(shù)據(jù)挖掘技術(shù)研究進(jìn)展. 工控智能化,2003(10), pp. 18-23.44 Das G, Gunopulos D. Finding similar time series. In Proc. Of the Conference on Principles of Knowledge Discovery and Data Mining, Trondheim, Norway, 1997:124-135. 45 Eamonn Keogh. A Tutorial on Indexing and Mining Time Series Data. In the 2001 IE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論