數(shù)據(jù)挖掘中趨勢(shì)模型的建立與分析_第1頁(yè)
數(shù)據(jù)挖掘中趨勢(shì)模型的建立與分析_第2頁(yè)
數(shù)據(jù)挖掘中趨勢(shì)模型的建立與分析_第3頁(yè)
數(shù)據(jù)挖掘中趨勢(shì)模型的建立與分析_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘中趨勢(shì)模型的建立與分析于晨捷袁曉潔馬濤(天津南開(kāi)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,天津 34%)5,./16:789:;28#9.摘 要 當(dāng)今,數(shù)值型數(shù)據(jù)在數(shù)據(jù)挖掘中被廣泛應(yīng)用,然而, 多分析是基于布爾類型數(shù)據(jù)的。所以,文章介紹了一種新的模型去描述數(shù)值型數(shù)據(jù),以便可以挖掘到隱藏的趨勢(shì)信息。關(guān)鍵詞數(shù)據(jù)序列數(shù)值型數(shù)據(jù)數(shù)據(jù)挖掘文章編號(hào) %!,$33%,(!)$,%?$,3文獻(xiàn)標(biāo)識(shí)碼 &中圖分類號(hào) A3%!#$%&(%)#* +#, -#+./$)$ 0 %12 34252#% 3,2. )# 6+%+ 3)#)#*7 !12#8)27+# 9)+8)23+ :+(B;C/DE.;2E F G.C8E;

2、D H91;29; /2I ;9:26J7,K/2L/1 M21N;DO1E7,1/2P/I/7O,Q8/2E1E/E1N; N/68;O /D; P1I;67 8O;I 12 I/E/ .1212J,:P;N;D ./27 /2/67O1O .;E:IO /D; R/O;I 2 R6;/2 N/68;O#:1O C/C;D 12EDI89;O / 2;P .I;6 E I1O9D;E; Q8/2E1E/E1N; I/E/ O E:/E 1E 9/2 .12; :1II;2 ED;2I 12FDS ./E12#2/=&,$:I/E/ O;Q8;29;,Q8/2E1E/E1N; I/E/,I/E

3、/ .1212J% 前言當(dāng) 今世界,數(shù)據(jù)每天都在迅猛地增長(zhǎng) ,如何有效地使用這些數(shù)據(jù)卻成為了一個(gè)問(wèn)題, 常出現(xiàn)數(shù)據(jù)豐富而知識(shí)缺乏的現(xiàn)象。數(shù)據(jù)挖掘正是為解決這類問(wèn)題而發(fā)展起來(lái)的一門技術(shù),它是將隱藏在大型數(shù)據(jù)庫(kù)中原來(lái)未知的數(shù)據(jù)模式發(fā)掘出來(lái)。典型的理論有特征規(guī)則挖掘、關(guān)聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、聚類規(guī)則挖掘、 勢(shì)分析、 間序列分析等。通過(guò)查閱大量文獻(xiàn)資料可發(fā)現(xiàn),目前的數(shù)據(jù)挖掘技術(shù)偏重于發(fā)現(xiàn)數(shù)據(jù)庫(kù)中不同離散化屬性值之間的關(guān)系,而對(duì)數(shù)值型屬性之間變化趨勢(shì)的相互影響分析不夠 ,因此無(wú)法發(fā)現(xiàn)類 似下述這 種知識(shí) ,如:價(jià)格下降多少,銷售量才能上升多少;某種股票換手率變化了某個(gè)值會(huì)導(dǎo)致股票價(jià)格有什么變化等。采

4、取以往的數(shù)據(jù)挖掘技術(shù)處理該問(wèn)題時(shí)非常牽強(qiáng) ,通常做法是, 一些連續(xù) 化的數(shù)值 型數(shù)據(jù)進(jìn) 行聚類操作,將之轉(zhuǎn) 化成布爾 型的數(shù)據(jù),再對(duì) 之進(jìn) 行關(guān)聯(lián)規(guī)則 等經(jīng) 典數(shù)據(jù)挖掘的操作。而有些情況下,要考慮的數(shù)值型數(shù)據(jù)又有隨時(shí)間成不均勻變化的情況,例如:在股票交易中,當(dāng)分析股票之間的關(guān)系 時(shí),由于每一支股票都有自己的價(jià)格 變化區(qū) 間(股票& 的價(jià)格可能一直在 %! 元之間浮動(dòng),而股票 ( 的價(jià)格可能在 )* 元之間浮動(dòng)),所以無(wú)法對(duì)所有的股票按照同樣的情況進(jìn)行聚類操作。同樣實(shí)際中人們真正關(guān)心的是股票的價(jià)格漲了 多少(一般用百分?jǐn)?shù)表示),而不是當(dāng)天的價(jià)格是多少,因此研 究數(shù) 值 屬性上的 變 化 趨勢(shì)顯

5、得尤 為 重要,例如,在第 ! 個(gè)交易數(shù)據(jù)和第 !+% 個(gè)交易數(shù)據(jù)已知的情況下,要根據(jù)這種變化的趨勢(shì)去預(yù)測(cè)第 !+! 個(gè)交易數(shù)據(jù)?;谏鲜隹紤],筆者決定用一種新的模型去描述有關(guān)數(shù)值型數(shù)據(jù)的變化情況, 模型有效地解決了上面遇到的問(wèn)題,并為在數(shù)值型數(shù)據(jù)上進(jìn)行關(guān)聯(lián)規(guī)則挖掘提供了很大的方便。! 模型的建立這一模型主要是對(duì)數(shù)值型屬性字段的數(shù)據(jù)進(jìn)行處理,以變化趨勢(shì)來(lái)取代原始數(shù)據(jù), 清楚起見(jiàn), 行如下定義:定 義 %: 定 #$%,%!, ,%&, ,%,(, 為 所研究的數(shù)值 型的數(shù)據(jù)按 時(shí)間順 序排列的序列,其中 %& 為 第 & 個(gè)元素的值。同樣可以規(guī)定 !#$%!)*,%!)*+%,%!,%!+*,

6、%,%!+*(,表示以第! 個(gè)元素作為中心,與之相臨的前 * 個(gè)元素和后 * 個(gè)元素組成的序列(后面的研究都是以這個(gè)序列作為出發(fā)點(diǎn))。由上面的定義可以看出,上述操作將實(shí)際數(shù)值型的元素按照時(shí)間的順序組織成了序列的形式。例如:在股票交易中,人們很關(guān)心股票每日的收盤價(jià),所以可以將一支股票的收盤價(jià)按照交易日的 順 序 組織 成序列的形式 #$%,%!, ,%&, ,%,(,其中 %& 為第 & 個(gè)交易日的收盤價(jià)。同樣在研究股票收盤價(jià)的時(shí)候也是應(yīng)該有一個(gè)界限標(biāo)定實(shí)際研究的范圍,所以一般在原始的序列 上采用滑動(dòng)窗口技術(shù)將之演化成若干個(gè) !, 樣為后面模型的描述奠定了基礎(chǔ)。定義 !: 定 *,-.! 為以第

7、 ! 個(gè)元素為中心,在前 * 個(gè)元素(包含 %!)中出現(xiàn)的最大值; 定 *,-/! 為以第 ! 個(gè)元素為中心,在后 * 個(gè)元素(包含 %!)中出 現(xiàn) 的最大 值 ; 定 *,01! 為 以第 ! 個(gè)元素為中心,在前 * 個(gè)元素(包含 %!)中出 現(xiàn) 的最小 值 ; 定 *,02! 為 以第 ! 個(gè)元素 為 中心,在后 * 個(gè)元素(包含 %!)中出 現(xiàn)的最小值,即:*,-.!- ./0 %&!)*!&!*,01!- .12 %&!)*!&!*,-/!- ./0 %&!&!&+*,02!- .12 %&!&!+*基金項(xiàng)目:教育部骨干教師資助計(jì)劃基金資助作者簡(jiǎn)介:于晨捷,碩士生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)庫(kù)

8、、數(shù)據(jù)挖掘。袁曉潔,副教授,主要研究領(lǐng)域?yàn)閿?shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘。馬濤,碩士生,主要研究領(lǐng)域 為數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘。 %?$!#$ 計(jì)算機(jī)工程與應(yīng)用很多時(shí)候, 際研究中關(guān)心的總是在某一段時(shí)間中出現(xiàn)的數(shù)據(jù)的最小值 點(diǎn)和最大值 點(diǎn), 了順應(yīng)這 一要求,所以作出了上面的定義。下面還是以股票數(shù)據(jù)為例加以說(shuō)明:在進(jìn)行股票交易時(shí) , 是希望以一段時(shí)間 內(nèi)的最低價(jià)買 入,而在這 段時(shí)間的最高價(jià)時(shí)賣出,根據(jù)上面定義,可以看出:!#$% 為前 ! 個(gè)交易日中收盤價(jià)的最高值,!#&% 為后 ! 個(gè)交易日中收盤價(jià)的最高 值 ,!#% 為 前 ! 個(gè)交易日中收 盤 價(jià)的最低 值 ,!()% 為 后 ! 個(gè)交易日中收盤價(jià)的最

9、低值。而實(shí)際中經(jīng)常關(guān)心的是在第 % 個(gè)交易日之前(或之后)! 個(gè)交易日中出 現(xiàn) 的最高(低) 比第 % 個(gè)交易日的收盤價(jià)高(低)出來(lái)的百分率。所以需要引入下面的定義。定 義 %: 定 !#$% 為 以第 % 個(gè)元素 為 中心,在前 ! 個(gè)元素(包含 *%)中出 現(xiàn) 的最大 值 與當(dāng)前 值 的差 值 比率; 定 !#&% 為以第 % 個(gè)元素為中心,在后 ! 個(gè)元素(包含 *%)中出現(xiàn)的最大值與當(dāng)前值的差 值 比率; 定 !(% 為 以第 % 個(gè)元素 為 中心,在前! 個(gè)元素(包含 *%)中出現(xiàn)的最小值與當(dāng)前值的差值比率; 定 !()% 為以第 % 個(gè)元素為中心,在后 ! 個(gè)元素(包含 *%)中出

10、現(xiàn)的最小值與當(dāng)前值的差值比率,即:!#$%& !#$% +*,!#$%!#&%& !#&% +*,!#&%!(%& !(% +*,!(%!()%& !()% +*,!()%因?yàn)閷?duì)于一般的數(shù)值型數(shù)據(jù),不容易運(yùn)用關(guān)聯(lián)規(guī)則對(duì)之進(jìn)行數(shù)據(jù)挖掘,所以考慮對(duì) 數(shù)值 型數(shù)據(jù)進(jìn) 行差值計(jì) 算,然后將所得到的差值比率進(jìn)行聚類,再運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。例如:在股票數(shù)據(jù)中,!#$% 為前 ! 個(gè)交易日中收盤價(jià)的最高值 比當(dāng)前收 盤 價(jià)高出的比率;!#&% 為 后 ! 個(gè)交易日中收 盤 價(jià)的最高 值 比當(dāng)前收 盤 價(jià)高出的比率;!(% 為 前 ! 個(gè)交易日中收 盤價(jià)的最低 值 比當(dāng)前收 盤 價(jià)低出的比率;!()%

11、為 后 ! 個(gè)交易日中收盤價(jià)的最低值比當(dāng)前收盤價(jià)低出的比率。然后,可以對(duì)得到的比率值進(jìn) 行聚類 操作,將之分成離散的等級(jí) (例如:分成、(、)、*),以便后面對(duì)之進(jìn)行挖掘操作。但是,在通常情況下,實(shí)際 關(guān)心的不 僅僅 是在第 % 個(gè)交易日之前(或之后)! 個(gè)交易日中出 現(xiàn) 的最高(低) 比第 % 個(gè)交易日的收 盤 價(jià)高(低)出來(lái)的百分率, 包括對(duì)應(yīng) 的最高(低) 產(chǎn) 生的周期(即出現(xiàn)時(shí) 所對(duì)應(yīng)的 , 的值)。所以需要進(jìn)行下面的定義。定義 +: 定 -!#$% 為以第 % 個(gè)元素為中心,在前 ! 個(gè)元素(包含 *%)中出現(xiàn)最大值時(shí)所對(duì)應(yīng)的產(chǎn)生變化的時(shí)間間隔; 定 -!#&% 為 以第 % 個(gè)元素

12、 為 中心,在后 ! 個(gè)元素(包含 *%)中出 現(xiàn)最大 值時(shí) 所 對(duì)應(yīng) 的 產(chǎn) 生 變 化的 時(shí)間間 隔; 規(guī) 定 -!(% 為 以第 % 個(gè)元素 為 中心,在前 ! 個(gè)元素(包含 *%)中出 現(xiàn) 最小 值時(shí) 所 對(duì)應(yīng)的產(chǎn)生變化的時(shí)間間隔; 定 -!()% 為以第 % 個(gè)元素 為 中心,在后 ! 個(gè)元素(包含 *%)中出 現(xiàn) 最小 值時(shí) 所 對(duì)應(yīng) 的 產(chǎn) 生 變 化的時(shí)間間隔,即:-!#$%&,-.(%+.),/0121 *.& ,34 *,%+!,!%-!#&%&,-.(.+%),/0121 *.& ,34 *,%!,!%/!-!(%0,-.(%+.),/0121 *.& ,-. *, %+

13、!,!%-!()%&,-.(.+%),/0121 *.& ,-. *,%!,!%/!通過(guò)上面的定義,可以得到在實(shí)際研究中所關(guān)心的另一個(gè)主要數(shù)據(jù),即對(duì)應(yīng)的最高(低) 出現(xiàn)的相對(duì)時(shí)間。例如:在股票交易中,-!#$% 為 前 ! 個(gè)交易日中收 盤 價(jià)的最高 值 所出 現(xiàn) 的 時(shí)間 與當(dāng)前交易 時(shí)間 相差的交易日數(shù);-!#&% 為 后 ! 個(gè)交易日中收盤 價(jià)的最高值 所出現(xiàn) 的時(shí)間 與當(dāng)前交易時(shí)間 相差的交易日數(shù);-!(% 為 前 ! 個(gè)交易日中收 盤 價(jià)的最低 值 所出 現(xiàn) 的 時(shí)間 與當(dāng)前交易 時(shí)間 相差的交易日數(shù);-!()% 為 后 ! 個(gè)交易日中收 盤價(jià)的最低值所出現(xiàn)的時(shí)間與當(dāng)前交易時(shí)間相差的

14、交易日數(shù)。 樣,得到了實(shí)際中所關(guān)心的相對(duì)時(shí)間。但是,在隨后進(jìn)行數(shù)據(jù)挖掘的時(shí)候,通常是將最大(?。┎钪档谋嚷屎退霈F(xiàn)的時(shí)間當(dāng)作一個(gè)密不可分的因素來(lái)考慮,所以通常用下面的數(shù)對(duì)形式表現(xiàn)這兩者之間的關(guān)系。定義 5: 定 *%,!+,34617821 為 由 !#$% 和 -!#$% 組 成的數(shù) 對(duì) ,即:*%,!+,34617821 &9!#%,-#%1,并由符號(hào) %! 表示; 規(guī) 定 *%,!:,3437;12 為 由 !#&% 和 -!#&% 組 成的數(shù) 對(duì) ,即:*%,!:,3437;12 &2!#&%,-!#&%1,并由符號(hào) #%! 表示; 定 *%,!:,-.37;12 為 由 !(% 和

15、-!(% 組 成的數(shù) 對(duì) ,即:*%,!+,-.617821 &9!(%,-!(%1,并由符號(hào) $%! 表示; 定 *%,!+,-.37;12 為 由 !()% 和 -!()% 組成的數(shù)對(duì),即:*%,!+,-.37;12 &9!()%,-!()%1,并由符號(hào)%! 表示。由上面的定義,就可以將研究的重點(diǎn)從元素轉(zhuǎn)到 %!,#%!, $%! 和 %! 上來(lái)了,即上面在定 義 3 所描述的序列 402*,*!, ,=,, ,*.,1可以 轉(zhuǎn) 化成下面的四個(gè)由 %!,#%!,$%! 和 %! 組 成的序列:02!,!,,!,.!,1#&9#!,#!,#,!,#.!,1$&9$!,$!,$,!,$.!,1

16、%&9%!,%!,%,!,%.!,1可以將原始序列 402*,*!,=,,*.,1與序列 #、$ 放在同一張圖中顯示出來(lái)(如圖 )?;谠撃P?,可將數(shù)值型屬性序列轉(zhuǎn)化為變化趨勢(shì)序列,使不同的數(shù)值型屬性的變化趨勢(shì)具有可比性, 樣再利用已有的經(jīng)典數(shù)據(jù)挖掘算法,即可發(fā)現(xiàn)數(shù)量型屬性之間的趨勢(shì)變化關(guān)系,從而為應(yīng)用部門提供決策支持。% 模型的分析和應(yīng)用該模型主要用于 發(fā)現(xiàn)隱藏在數(shù) 值型數(shù)據(jù)內(nèi)部的知 識(shí)和 隱藏在其中的發(fā)展趨勢(shì),它同以往的對(duì)數(shù)值型數(shù)據(jù)聚類然后再進(jìn)行挖掘的方式相比,有較大的優(yōu)點(diǎn)。例如在前面所描述的例子中 :當(dāng)分析股票之間 的關(guān)系時(shí) ,由于每一支股票都有自己的價(jià)格變化區(qū)間(股票 的價(jià)格可能一直在

17、 ?! 元之 間 浮 動(dòng) ,而股票 ( 的價(jià)格可能在 5? 元之 間 浮 動(dòng) ), 時(shí) 就無(wú)法有效地對(duì)所要分析的數(shù)據(jù)(股票價(jià)格) 行分類操作。而且如果對(duì)于同一支股票來(lái)說(shuō),它的價(jià)格也會(huì)隨著時(shí)間的推移在某個(gè)價(jià)格的上下徘徊, 樣就無(wú)法有效地找出潛藏在數(shù)值型數(shù)據(jù)內(nèi)部的潛在發(fā)展趨勢(shì),而實(shí)際研究中又不能將股票的價(jià)格波動(dòng)僅僅分成上升和下降兩類來(lái)進(jìn)行考慮, 樣就無(wú)法找到股票的總體發(fā)展趨勢(shì),無(wú)法找到描述買入點(diǎn)和賣出點(diǎn)所對(duì)應(yīng)的時(shí)間和出現(xiàn)規(guī)律。而使用上述模型進(jìn)行分析的時(shí)候,情況會(huì)產(chǎn)生較大的不同,具體分析如下所示(在此仍以大家熟知的股票作為示例): ()操作中,可以將序列 =A、=A#、=A$、=A% 與其它序列作計(jì)

18、算機(jī)工程與應(yīng)用 !#$BB圖 -序列 ( 與序列 !、 在同一張圖中的顯示為重點(diǎn)研究的對(duì)象,這樣就可以根據(jù)得到的序列找到買入點(diǎn)和賣出點(diǎn)出現(xiàn)的規(guī)律,可以在股票的運(yùn)動(dòng)中正確地預(yù)測(cè)到買入點(diǎn)和賣出點(diǎn)出現(xiàn)的時(shí)機(jī)。(!)可以將每支股票的當(dāng)天價(jià)格和在某個(gè)人為定義的區(qū)間內(nèi)股票價(jià)格在這天前后出現(xiàn)的極大值(極小值)進(jìn)行比較,找到它們之間相差的比率和產(chǎn)生這個(gè)極大(小)值時(shí)與當(dāng)天之間的時(shí)間偏移量。這樣,就可以將兩支股票價(jià)格經(jīng)過(guò)處理得到的序列 %&!(或 %&、%9;9;1 3?93A9?; 2B5: C:A4:; :A ?D 9A:8 9; 5321: E3A3C3: (7IJK G?;D:2:;: 3;31:8:;A ?D K3A3,L3M9;1A?; K#G#,N(0,-

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論