時(shí)間序列數(shù)據(jù)挖掘關(guān)鍵問(wèn)題分析_第1頁(yè)
時(shí)間序列數(shù)據(jù)挖掘關(guān)鍵問(wèn)題分析_第2頁(yè)
時(shí)間序列數(shù)據(jù)挖掘關(guān)鍵問(wèn)題分析_第3頁(yè)
時(shí)間序列數(shù)據(jù)挖掘關(guān)鍵問(wèn)題分析_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 時(shí)間序列數(shù)據(jù)挖掘關(guān)鍵問(wèn)題分析 段淑敏(開(kāi)封大學(xué),河南開(kāi)封475000)摘要時(shí)間序列作為當(dāng)前人們生產(chǎn)和生活中常見(jiàn)的一類數(shù)據(jù)形式,被廣泛應(yīng)用于經(jīng)濟(jì)管理和工程設(shè)計(jì)等領(lǐng)域中。由于其本身所具備的動(dòng)態(tài)性、繁雜性和高維性以及大規(guī)模的特征,所以如果直接對(duì)其進(jìn)行數(shù)據(jù)挖掘,則不僅會(huì)花費(fèi)高昂的價(jià)格來(lái)儲(chǔ)存和計(jì)算相關(guān)數(shù)據(jù),而且會(huì)影響算法的可靠性和準(zhǔn)確性。本文以時(shí)間序列數(shù)據(jù)挖掘?yàn)檠芯繉?duì)象,就其在實(shí)際應(yīng)用中的幾個(gè)關(guān)鍵問(wèn)題進(jìn)行了探究。關(guān)鍵詞數(shù)據(jù)挖掘;時(shí)間序列;數(shù)據(jù)庫(kù)doi10.13939/ki.zgsc.2016.3.038在數(shù)據(jù)庫(kù)技術(shù)迅猛發(fā)展和數(shù)據(jù)庫(kù)管理系統(tǒng)日臻完善的今天,數(shù)據(jù)庫(kù)的規(guī)模與日俱增,數(shù)量不斷增多,并且這些激增

2、的數(shù)據(jù)中包含著非常重要的信息,所以傳統(tǒng)的數(shù)據(jù)庫(kù)存儲(chǔ)和查詢方法已經(jīng)無(wú)法滿足人們對(duì)數(shù)據(jù)中隱含知識(shí)的渴求。而時(shí)間序列數(shù)據(jù)挖掘技術(shù)則可以有效地解決上述問(wèn)題,并且可以在確保數(shù)據(jù)挖掘可靠性和準(zhǔn)確性的基礎(chǔ)上大大降低運(yùn)行成本。因此,對(duì)于時(shí)間序列數(shù)據(jù)挖掘在實(shí)踐應(yīng)用中的關(guān)鍵問(wèn)題進(jìn)行分析和探究具有非常重要的意義。1時(shí)間序列數(shù)據(jù)挖掘概述1.1時(shí)間序列數(shù)據(jù)挖掘的含義通常而言,各個(gè)數(shù)據(jù)單元均可以由一個(gè)數(shù)據(jù)變量和時(shí)間變量所組成的二元組來(lái)加以表示,比如股票價(jià)格和商品的銷售金額等,所以可以將這些數(shù)據(jù)按照時(shí)間的順序加以排列,這樣就構(gòu)成了所謂的時(shí)間序列數(shù)據(jù)庫(kù)。在這些時(shí)間序列數(shù)據(jù)中包含著許多未知的有用信息,具有很高的挖掘價(jià)值。而時(shí)間

3、序列數(shù)據(jù)挖掘就是從這些大型的時(shí)間序列數(shù)據(jù)庫(kù)中找到人們所需要的各種有用數(shù)據(jù)。1.2時(shí)間序列數(shù)據(jù)挖掘的內(nèi)容在對(duì)當(dāng)前國(guó)內(nèi)外就時(shí)間序列數(shù)據(jù)挖掘方面的研究進(jìn)行分析,可以將其歸納為時(shí)間序列數(shù)據(jù)變換、時(shí)間序列數(shù)據(jù)可視化、時(shí)間序列數(shù)據(jù)庫(kù)相似搜索、時(shí)間序列聚類分類分析、時(shí)間序列預(yù)測(cè)以及時(shí)間序列分割與模式發(fā)現(xiàn)等幾個(gè)主要的組成部分。其中的時(shí)間序列數(shù)據(jù)變換實(shí)際上就是將原始狀態(tài)下所對(duì)應(yīng)的時(shí)間序列在某個(gè)特征空間下的映像時(shí)間序列來(lái)對(duì)最初的原始時(shí)間序列進(jìn)行描述,其可以有效地減少計(jì)算所花費(fèi)的成本,并且實(shí)際的數(shù)據(jù)壓縮率更高;時(shí)間序列數(shù)據(jù)可視化則是將那些繁雜的時(shí)間序列在數(shù)據(jù)挖掘技術(shù)、虛擬現(xiàn)實(shí)技術(shù)以及圖形圖像技術(shù)等先進(jìn)技術(shù)的應(yīng)用下而

4、變得直觀化、形象化,以便于人們更好地理解;時(shí)間序列聚類和分類分析則是根據(jù)時(shí)間粒度和模式長(zhǎng)度的不同而將待處理的序列數(shù)據(jù)進(jìn)行適當(dāng)?shù)姆指詈途垲愄幚?,以便于更好地進(jìn)行分析;時(shí)間序列數(shù)據(jù)庫(kù)相似搜索則是遵循相應(yīng)的搜索算法來(lái)對(duì)于那些相似性時(shí)間序列數(shù)據(jù)庫(kù)進(jìn)行搜索,以避免出現(xiàn)漏報(bào)問(wèn)題;時(shí)間序列分割與模式發(fā)現(xiàn)主要用于時(shí)間序列的分割算法應(yīng)用中以及系統(tǒng)模型變化的檢測(cè)中,其已經(jīng)成為當(dāng)前我國(guó)在時(shí)間序列數(shù)據(jù)挖掘研究中的重要課題,具有很高的研究?jī)r(jià)值。2時(shí)間序列數(shù)據(jù)挖掘中若干關(guān)鍵問(wèn)題的分析2.1傳統(tǒng)時(shí)間序列數(shù)據(jù)挖掘的過(guò)程和分類分析首先,從數(shù)據(jù)挖掘的過(guò)程來(lái)講,傳統(tǒng)時(shí)間序列數(shù)據(jù)挖掘過(guò)程可以主要分成以下幾個(gè)步驟:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、

5、結(jié)果分析和知識(shí)同化。其次,從數(shù)據(jù)挖掘的分類來(lái)講,時(shí)間序列數(shù)據(jù)挖掘的主要任務(wù)就是從龐大的數(shù)據(jù)庫(kù)中找尋到用戶所需的數(shù)據(jù)。根據(jù)數(shù)據(jù)挖掘作用模式的不同,可以將其分成分類模式、偏差分析和序列模式等預(yù)測(cè)性模式和關(guān)聯(lián)模式、聚類模式等描述型模式,并且描述型模式一般不能直接應(yīng)用于預(yù)測(cè)。而就具體的時(shí)間序列數(shù)據(jù)挖掘的分類而言,其主要包括分類模式、關(guān)聯(lián)規(guī)則、聚類模式偏差分析、序列模式和回歸模式等幾個(gè)部分,下面就這幾個(gè)部分的主要內(nèi)容進(jìn)行詳細(xì)的闡述。第一,序列模式。序列模式是數(shù)據(jù)挖掘中一個(gè)非常重要的研究課題,其已經(jīng)廣泛應(yīng)用于各行各業(yè)中,比如疾病診斷、dna序列分析、自然災(zāi)害預(yù)測(cè)、web訪問(wèn)模式的預(yù)測(cè)等,并且該種模式與管理

6、規(guī)則之間比較類似,其也是重點(diǎn)把握數(shù)據(jù)間的聯(lián)系。但是為了發(fā)現(xiàn)序列模式,相關(guān)人員必須要確定事件有無(wú)發(fā)生以及事件發(fā)生的時(shí)間。比如,在購(gòu)買彩色電視的人群中,有50%的人群會(huì)選擇在半年內(nèi)購(gòu)買影碟機(jī)。第二,關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則又被稱為管理模式,其實(shí)際上就是形如xy的邏輯關(guān)系式,并且其中的x和y分別代表數(shù)據(jù)庫(kù)中屬性取值的判斷。在當(dāng)前的管理規(guī)則算法中,常用的關(guān)聯(lián)規(guī)則算法策略是將其分解成兩個(gè)主要的子任務(wù),即頻繁項(xiàng)集的產(chǎn)生和規(guī)則的產(chǎn)生。第三,分類模式。分類的概念實(shí)際上就是在已有訓(xùn)練集或者數(shù)據(jù)集的基礎(chǔ)上來(lái)構(gòu)造一個(gè)分類模型或者分類函數(shù),并將其應(yīng)用于實(shí)際的數(shù)據(jù)預(yù)測(cè)中來(lái)確保數(shù)據(jù)的挖掘的質(zhì)量。第四,回歸模式。與分類模式類似,

7、回歸模式的函數(shù)定義也是借助相應(yīng)的數(shù)學(xué)集合模型來(lái)表示,但是其預(yù)測(cè)值是連續(xù)的,這點(diǎn)與分類模式預(yù)測(cè)值的離散性是相互區(qū)別的。第五,偏差分析。在時(shí)間序列數(shù)據(jù)庫(kù)中不可避免地會(huì)出現(xiàn)一些異常的記錄,找出這些異常記錄在確保數(shù)據(jù)挖掘質(zhì)量方面具有重要的意義。偏差包含許多潛在的知識(shí),比如分類中不規(guī)則的特例、反常實(shí)例或者偏差預(yù)測(cè)值過(guò)大的模型等。第六,聚類模式。所謂的聚類實(shí)際上就是將一組時(shí)間序列數(shù)據(jù)按照差異性和相似性規(guī)程來(lái)進(jìn)行合適的分類,以盡可能地減小同類別數(shù)據(jù)間的差異性,增強(qiáng)他們之間的相似性,提高數(shù)據(jù)挖掘的質(zhì)量。2.2傳統(tǒng)時(shí)間序列數(shù)據(jù)挖掘的方法分析理論上來(lái)講,傳統(tǒng)時(shí)間序列數(shù)據(jù)挖掘方法主要包括決策樹(shù)方法、神經(jīng)網(wǎng)絡(luò)方法、粗

8、集方法、遺傳算法、模糊集方法、統(tǒng)計(jì)分析方法、概念樹(shù)方法、可視化技術(shù)和貝葉斯網(wǎng)絡(luò)等幾種常用的數(shù)據(jù)挖掘方法。比如其中的神經(jīng)網(wǎng)絡(luò)方法具有自適應(yīng)性、自組織性和魯棒性好的優(yōu)勢(shì),非常適合用于解決數(shù)據(jù)挖掘中存在的各種問(wèn)題,是近些年人們關(guān)注度比較大的一種方式,并且其更加適合于當(dāng)前我國(guó)市場(chǎng)數(shù)據(jù)庫(kù)的建模與分析;概念樹(shù)方法則是對(duì)時(shí)間序列數(shù)據(jù)庫(kù)中記錄的屬性字段按照歸類的方法進(jìn)行抽象所得到的層次結(jié)構(gòu),這點(diǎn)與我國(guó)所指定的省市縣地區(qū)結(jié)構(gòu)分布類似;可視化技術(shù)則大大拓寬了我國(guó)傳統(tǒng)圖表所具有的功能,可以使人們更加清楚地剖析時(shí)間序列數(shù)據(jù),同時(shí)也可以更好地歸納數(shù)據(jù)中存在的規(guī)律性;粗集方法則是一種研究不確定、不精確數(shù)學(xué)知識(shí)的工具,其具

9、有操作簡(jiǎn)便、算法簡(jiǎn)單等優(yōu)點(diǎn),所以是當(dāng)前常用的一種方法。2.3傳統(tǒng)時(shí)間序列數(shù)據(jù)挖掘的局限性通常而言,建模是時(shí)間序列數(shù)據(jù)挖掘的前提和基礎(chǔ),但是所建模型大都局限于常參數(shù)、平穩(wěn)的單變量carma模型或arma模型,所以實(shí)際的數(shù)據(jù)挖掘過(guò)程中可能存在一定的誤差,準(zhǔn)確性和可靠性無(wú)法得以保證。另外,其局限性還表現(xiàn)為以下幾個(gè)方面:建模方法所采用的非線性最小二乘法或者最大似然法的計(jì)算量非常大,并且計(jì)算的可靠性比較低;沒(méi)有考慮到噪聲污染所對(duì)應(yīng)的時(shí)間序列,即數(shù)據(jù)的濾波問(wèn)題沒(méi)有得到有效地估計(jì)處理;實(shí)際所用的分析方法主要為譜分析法(或頻域方法)等,所以為了確保結(jié)果的可靠性和準(zhǔn)確性,就必須要對(duì)這些局限性問(wèn)題進(jìn)行切實(shí)解決。而

10、現(xiàn)代時(shí)間序列數(shù)據(jù)挖掘方式則可以有效地突破上述傳統(tǒng)時(shí)間序列數(shù)據(jù)挖掘中存在的種種局限點(diǎn),不僅可以簡(jiǎn)化建模及其計(jì)算的方法,也可以用新型的新息方法和狀態(tài)空間方法來(lái)取代傳統(tǒng)時(shí)間序列,還可以有效地應(yīng)用自校正和自適應(yīng)預(yù)測(cè)原理來(lái)分析現(xiàn)代時(shí)間序列,同時(shí)也可以有效地提升時(shí)間序列挖掘的質(zhì)量。因此,在實(shí)際的應(yīng)用中,相關(guān)人員必須要不斷發(fā)展、改造和創(chuàng)新時(shí)間序列的分析方式和手段??傊?,隨著數(shù)據(jù)收集技術(shù)和存儲(chǔ)技術(shù)的快速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的日臻完善,人們所積累的數(shù)據(jù)也越來(lái)越多,同時(shí)這些與日俱增的數(shù)據(jù)背后也涵蓋了大量的重要數(shù)據(jù)信息,但是傳統(tǒng)的時(shí)間序列數(shù)據(jù)挖掘手段卻無(wú)法深入分析這些數(shù)據(jù)。因此,相關(guān)人員必須要采用現(xiàn)代時(shí)間序列數(shù)據(jù)挖掘手段,同時(shí)要不斷完善和創(chuàng)造新的方法,從而更好地使用當(dāng)前與日倶增的時(shí)間序列數(shù)據(jù)。參考文獻(xiàn):1劉勁松.數(shù)據(jù)挖掘中的現(xiàn)代時(shí)間序列分析方法j.信息技術(shù),20

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論