畢業(yè)論文-基于數(shù)據(jù)挖掘的時(shí)間序列異常事件檢測(cè)技術(shù)研究_第1頁(yè)
畢業(yè)論文-基于數(shù)據(jù)挖掘的時(shí)間序列異常事件檢測(cè)技術(shù)研究_第2頁(yè)
畢業(yè)論文-基于數(shù)據(jù)挖掘的時(shí)間序列異常事件檢測(cè)技術(shù)研究_第3頁(yè)
畢業(yè)論文-基于數(shù)據(jù)挖掘的時(shí)間序列異常事件檢測(cè)技術(shù)研究_第4頁(yè)
畢業(yè)論文-基于數(shù)據(jù)挖掘的時(shí)間序列異常事件檢測(cè)技術(shù)研究_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

HUNANUNIVERSITY畢業(yè)論文設(shè)計(jì)論文題目:基于數(shù)據(jù)挖掘的時(shí)間序列異常事件檢測(cè)技術(shù)研究學(xué)生姓名:學(xué)生學(xué)號(hào):專業(yè)班級(jí):自動(dòng)化四班學(xué)院名稱:電氣與信息工程學(xué)院指導(dǎo)老師:學(xué)院院長(zhǎng):2015年5月20日頁(yè)摘要研究時(shí)間序列的異常事件的檢測(cè)對(duì)于當(dāng)今社會(huì)有重要的學(xué)術(shù)意義和現(xiàn)實(shí)意義。針對(duì)時(shí)間序列的連續(xù)性和非線性的復(fù)雜特征,開(kāi)創(chuàng)了時(shí)間序列異常檢測(cè)的新紀(jì)元。時(shí)間序列是特殊的數(shù)據(jù)序列中的一種,其在經(jīng)濟(jì)、金融、科學(xué)等各個(gè)領(lǐng)域都被廣泛運(yùn)用。所以對(duì)時(shí)間序列的異常檢測(cè)在現(xiàn)實(shí)中具有及其重要的地位。論文重點(diǎn)研究了基于四分法的異常檢測(cè)和基于密度的dbscan算法的異常檢測(cè),還有基于ARMA模型的異常檢測(cè)。首先是運(yùn)用四分法粗略檢測(cè)異常點(diǎn)的分布,這是一種比較簡(jiǎn)單常規(guī)的處理辦法,可以去除很明顯的異常點(diǎn)。而dbscan算法則較為復(fù)雜,是基于密度的一種解決方案,通過(guò)對(duì)鄰域的判斷來(lái)區(qū)分異常點(diǎn),其結(jié)果較為精確。用ARMA模型對(duì)數(shù)據(jù)進(jìn)行處理,判斷數(shù)據(jù)是否平緩可適用于這個(gè)模型的選擇,再甄別出異常點(diǎn)。關(guān)鍵詞:異常點(diǎn),時(shí)間序列,ARMA模型,異常檢測(cè)ABSTRACTThedetectionofabnormaleventsoftimeseriesisofgreatacademicandpracticalsignificanceforthesocietytoday.Theneweraofanomalydetectionoftimeseriesiscreatedbythecomplexfeaturesofthecontinuityandnonlinearityoftimeseries.Timeseriesisoneofthespecialdatasequences,anditiswidelyusedinthefieldsofeconomy,finance,scienceandsoon.Sotheanomalydetectionoftimeseriesisofimportantstatusinreality.Thispapermainlystudiestheanomalydetectionbasedonfour-pointmethodandtheanomalydetectionofDBSCANalgorithmbasedondensity,andtheanomalydetectionbasedonARMAmodel.

Thefirstistousethefourmethodstodetectthedistributionofabnormalpoints,whichisasimpleandconventionalmethod,canremovetheobviousabnormalpoints.TheDBSCANalgorithmismorecomplex,isbasedonthedensityofasolution,throughtheneighborhoodofthejudgmenttodistinguishbetweentheabnormalpoints,theresultismoreaccurate.

UsingARMAmodeltodealwiththedata,judgewhetherthedataisflatcanbeappliedtothechoiceofthemodel,thenidentifytheoutliers.KeyWords:Abnormal

point,

timeseries,

ARMAmodel,

anomalydetection目錄基于數(shù)據(jù)挖掘的時(shí)間序列異常事件檢測(cè)研究 I摘要 IAbstract II第一章緒論 11.1研究背景 11.1.1數(shù)據(jù)挖掘……..…………………….11.1.2時(shí)間序列數(shù)據(jù)挖掘……………….………….11.1.3異常檢測(cè)…..……………………….11.2研究目的…..……………..………………21.3研究現(xiàn)狀和發(fā)展趨勢(shì) 21.4設(shè)計(jì)和研究方法 31.5設(shè)計(jì)過(guò)程及研究?jī)?nèi)容 3第二章相關(guān)理論技術(shù) 42.1時(shí)間序列數(shù)據(jù)挖掘任務(wù) 42.1.1時(shí)間數(shù)據(jù)的序列預(yù)測(cè)………….…………42.2時(shí)間序列的表示方法 52.2.1時(shí)間序列的定義表示……………..…………………..…52.2.2時(shí)間序列的模式表示 62.2.3時(shí)間序列的分段表示 62.3聚類分析 62.4分類 62.5異常 7第三章時(shí)間序列異常分析 83.1時(shí)間序列異常分析方法 83.1.1四分法 83.1.2方差法 93.1.3滑動(dòng)窗口分析 103.2實(shí)驗(yàn)數(shù)據(jù)處理 103.2.1實(shí)驗(yàn)數(shù)據(jù)…………………….…………103.2.2實(shí)驗(yàn)結(jié)果……………………….113.3本章小結(jié)………………………12第四章ARMA模型異常檢測(cè) 134.1ARMA模型 134.2ARMA模型的異常點(diǎn)描述 144.3實(shí)驗(yàn)數(shù)據(jù)和結(jié)果…………….16第五章基于距離和密度的異常檢測(cè) 195.1距離 195.1.1歐幾里得距離………………..195.1.2閔可夫斯基距離…………….205.1.3距離的性質(zhì)……………………205.2基于距離的異常檢測(cè) 215.3基于密度的異常檢測(cè)……………215.4實(shí)驗(yàn)數(shù)據(jù)和結(jié)果……………………23第六章結(jié)論………………..………………..…26致謝 27參考文獻(xiàn) 28附錄

緒論研究背景1.1.1數(shù)據(jù)挖掘在當(dāng)今社會(huì)快速發(fā)展的時(shí)候,不管是科學(xué)還是自然已經(jīng)生活,都產(chǎn)生了許許多多的數(shù)據(jù),這些數(shù)據(jù)從理性中解釋著我們的世界。在隨著這些年的科學(xué)技術(shù)發(fā)展和人類社會(huì)進(jìn)步,在社會(huì)的各個(gè)方面積累了龐大的數(shù)據(jù),所以說(shuō)在這個(gè)數(shù)據(jù)大爆炸的年代,如何無(wú)處理這些龐大的數(shù)據(jù)是人們關(guān)注的一個(gè)焦點(diǎn)問(wèn)題。對(duì)海量數(shù)據(jù)的挖掘需要一定的工具和方法,只有這樣才能方便快捷的找出其所隱含的規(guī)律來(lái)讓我們加以利用。定義1.1.1數(shù)據(jù)挖掘[1]數(shù)據(jù)挖掘是一種將傳統(tǒng)的普通數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合的一種新方法,并且是從大量的數(shù)據(jù)中提取出有用的價(jià)值的信息和知識(shí)的過(guò)程。1.1.2時(shí)間序列數(shù)據(jù)挖掘日常生活中有許多的數(shù)據(jù)都是時(shí)間序列,例如實(shí)驗(yàn)室的實(shí)驗(yàn)數(shù)據(jù),股票市場(chǎng)的股價(jià)變動(dòng),醫(yī)院的看病人數(shù),電力局的用電量等。時(shí)間序列數(shù)據(jù)挖掘是對(duì)一個(gè)或多個(gè)時(shí)間序列的數(shù)據(jù)挖掘,是將人們事先不知道上的有用信息和知識(shí)從大量的時(shí)間序列數(shù)據(jù)中提取出來(lái)并完美地應(yīng)用于指導(dǎo)人們的社會(huì)、經(jīng)濟(jì)、軍事和生活等活動(dòng)[2]。1.1.3異常檢測(cè)異常檢測(cè)的主要目的是發(fā)現(xiàn)一些對(duì)象,這些對(duì)象根本不同于其他的對(duì)象。異常數(shù)據(jù)不是像人們所想的那樣是錯(cuò)誤的數(shù)據(jù),而是就像實(shí)驗(yàn)時(shí)會(huì)產(chǎn)生誤差一樣,異常數(shù)據(jù)的產(chǎn)生是不可避免的,同時(shí)其也可能包含著一些特殊信息,這些信息相對(duì)于正常數(shù)據(jù)而言,可能會(huì)對(duì)我們有更大的作用。異常的主要成因有(1)數(shù)據(jù)來(lái)源于不同的類,(2)自然變異,(3)數(shù)據(jù)測(cè)量或收集誤差。[3]1.2研究目的對(duì)時(shí)間序列的異常和變化點(diǎn)檢測(cè)已可用于欺詐檢測(cè)在時(shí)間序列數(shù)據(jù)挖掘領(lǐng)域成為研究的熱點(diǎn),發(fā)現(xiàn)罕見(jiàn)的事件,事件或趨勢(shì)變化檢測(cè)等[4]?;跀?shù)據(jù)挖掘的時(shí)間序列異常事件可以用于氣象預(yù)報(bào)分析中的變化模式的選擇,證券市場(chǎng)的股票序列變化模式的原因,金融領(lǐng)域的信息安全和交通領(lǐng)域的道路推薦,供水領(lǐng)域的管網(wǎng)監(jiān)測(cè)以及醫(yī)保、環(huán)保、電力等行業(yè)的監(jiān)測(cè)和預(yù)報(bào)工作。同時(shí)對(duì)于時(shí)間序列異常模式挖掘的研究不僅具有重要的學(xué)術(shù)價(jià)值,還有其現(xiàn)實(shí)意義。并且在針對(duì)時(shí)間序列連續(xù)、非線性、高維的復(fù)雜結(jié)構(gòu)等性質(zhì)上,開(kāi)啟了時(shí)間序列異常檢測(cè)的新途徑和展望。1.3研究現(xiàn)狀和發(fā)展趨勢(shì)異常模式的數(shù)據(jù)挖掘是數(shù)據(jù)挖掘大方向上的一個(gè)分支,在許多的領(lǐng)域都是不可或缺的,所以成為當(dāng)前研究的熱點(diǎn)。國(guó)內(nèi)外關(guān)于這方面的算法文獻(xiàn)較多,大致可以分為以下在基于時(shí)間序列的異常事件的檢測(cè)的研究方法[5],例如有(1)生物法,其原理來(lái)自于生物學(xué)的免疫系統(tǒng)機(jī)制,通過(guò)自我和異己的機(jī)制來(lái)識(shí)別區(qū)分正常和異常的模式,但正常模式不止一種,可能導(dǎo)致負(fù)選擇機(jī)制沒(méi)法發(fā)揮作用。(2)機(jī)器學(xué)習(xí)方法,其分為兩類:人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)。主要是基于規(guī)則來(lái)實(shí)現(xiàn)的,對(duì)于原始數(shù)據(jù)進(jìn)行聚類或分段得到某種規(guī)則來(lái)構(gòu)造狀態(tài)機(jī),這個(gè)狀態(tài)機(jī)只接受正常模式,不被接受則是異常模式。(3)基于特征空間的方法,通過(guò)對(duì)時(shí)間序列的特征化使對(duì)時(shí)間序列異常檢測(cè)轉(zhuǎn)換為無(wú)序集合異常點(diǎn)的檢測(cè)。(4)基于小波的方法,在查詢性能上有所改進(jìn)但對(duì)短期異常無(wú)法檢測(cè)。(5)基于AR或是MA模型的方法,需要知道時(shí)間序列模型。由于異常數(shù)據(jù)包含很重要的信息,所有往往不能將它作為錯(cuò)誤數(shù)據(jù),而是應(yīng)該尋找有效的方法來(lái)檢測(cè)和挖掘這些異常數(shù)據(jù)的潛在意義,使之為我們的生活和發(fā)展做出貢獻(xiàn)。時(shí)間序列在目前社會(huì)上通常是高維的、非線性這種類型的數(shù)據(jù),如果直接對(duì)時(shí)間序列的異常模式挖掘的話,其準(zhǔn)確率會(huì)很低,因此就需要在對(duì)時(shí)間序列進(jìn)行數(shù)據(jù)挖掘模式異常之前做一個(gè)數(shù)據(jù)預(yù)處理,使得數(shù)據(jù)異常模式能夠更加方便的應(yīng)用到時(shí)間序列數(shù)據(jù)中。主要的預(yù)處理就是時(shí)間序列數(shù)據(jù)變換,其典型案例就是傅里葉變換,也就是將原始時(shí)間序列映射到某個(gè)特征空間,通過(guò)這個(gè)特征空間的映像來(lái)反應(yīng)原始時(shí)間序列。這種方法是目前主流應(yīng)用的方案,同時(shí)還有其他一系列的表示方法。例如奇異值分解、離散小波變換、分段合計(jì)近似、分段線性表示和分段多項(xiàng)式等方法。在2000年的Science上發(fā)表的從低維流形認(rèn)知事物的觀點(diǎn)來(lái)探討流線學(xué)習(xí)的定義和方法,提出兩種代流線形學(xué)習(xí)方法[6]:局部線性嵌入算法(LLE)和等距映射算法(ISOMAP)。在2003年又提出了Laplace特征映射法,Ridder提出了監(jiān)督學(xué)習(xí)法SLLE,在計(jì)算K近鄰時(shí)加入類別信息,還有有監(jiān)督的局部保存投影法等等。將異常檢測(cè)和時(shí)間序列數(shù)據(jù)變換這兩方法進(jìn)行結(jié)合,使得具有復(fù)雜結(jié)構(gòu)的時(shí)間序列的異常檢測(cè)受人矚目,其中主要?jiǎng)澐譃榛诜诸惖漠惓z測(cè)方法和基于聚類的異常檢測(cè)[7]。而李愛(ài)國(guó)和宋利娜則對(duì)傳感器的量測(cè)值分析,再用相關(guān)信息熵描述傳感器的相關(guān)性,確定相關(guān)屬性,最后再利用時(shí)間序列異常模式挖掘方法進(jìn)行異常檢測(cè)。1.4設(shè)計(jì)和研究方法主要是運(yùn)用了基于四分法的異常檢測(cè)和基于密度的dbscan算法的異常檢測(cè),還有基于ARMA模型的異常檢測(cè),K均值聚類的方法。1.5設(shè)計(jì)過(guò)程及研究?jī)?nèi)容一、首先對(duì)設(shè)計(jì)研究的背景和目的作了一個(gè)介紹,并對(duì)前人得到的結(jié)果進(jìn)行總結(jié),分析其特點(diǎn)。二、在數(shù)據(jù)處理中,將以上所說(shuō)的幾種方法加以實(shí)現(xiàn),首先從簡(jiǎn)單的四分法開(kāi)始實(shí)驗(yàn),并不斷修改其難度,直到將所有的研究方案進(jìn)行試驗(yàn)。三、根據(jù)題目的要求進(jìn)行各方案的甄選,并比較列出各方案的優(yōu)缺點(diǎn)。將數(shù)據(jù)處理結(jié)果進(jìn)行對(duì)照處理,使試驗(yàn)數(shù)據(jù)更加的明朗真實(shí)。第二章相關(guān)理論技術(shù)以時(shí)間序列存在的數(shù)據(jù)形式在社會(huì)各個(gè)方面都活躍存在著,其也影響到社會(huì)的各種事件,所以對(duì)時(shí)間序列數(shù)據(jù)挖掘的研究具有豐富的社會(huì)價(jià)值意義。同時(shí)原本在傳統(tǒng)數(shù)據(jù)挖掘任務(wù)中的異常檢測(cè)和聚類分析等數(shù)據(jù)處理方法,也從傳統(tǒng)簡(jiǎn)單數(shù)據(jù)擴(kuò)展到了時(shí)間序列這種類型的高維非線性的數(shù)據(jù)[8]。本章將會(huì)對(duì)基于數(shù)據(jù)挖掘異常檢測(cè)的相關(guān)理論技術(shù)進(jìn)行一個(gè)初步介紹和拓展。2.1時(shí)間序列數(shù)據(jù)挖掘任務(wù)從第一章的數(shù)據(jù)挖掘的定義中我們可以知道數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中獲取對(duì)我們有特殊意義的知識(shí)和信息,從而對(duì)社會(huì)生活產(chǎn)生積極作用。時(shí)間序列的數(shù)據(jù)就是將得到在不同時(shí)間上的各個(gè)數(shù)值,按時(shí)間的先后順序依次排列成的序列。作為一種定量檢測(cè)方法并廣泛應(yīng)用于軍事科學(xué)、空間科學(xué)、氣象預(yù)報(bào)和工業(yè)自動(dòng)化等部門。與時(shí)間序列數(shù)據(jù)有關(guān)的數(shù)據(jù)挖掘任務(wù)常見(jiàn)的包括時(shí)間序列數(shù)據(jù)排序、預(yù)測(cè)、索引、相似性變量、聚類、異常檢測(cè)分析、關(guān)聯(lián)分析等。2.1.1時(shí)間數(shù)據(jù)序列的預(yù)測(cè)預(yù)測(cè)就是對(duì)尚未發(fā)生的事情或者目前還不清楚的事物進(jìn)行預(yù)先的估計(jì)和推測(cè),是對(duì)現(xiàn)時(shí)事物在未來(lái)將要發(fā)生的可能性進(jìn)行估算,簡(jiǎn)單地說(shuō)就是指從已知事件中通過(guò)一系列的現(xiàn)象來(lái)測(cè)定未知事件的可能。我們進(jìn)行科學(xué)預(yù)測(cè)的總原則是:首先需要認(rèn)識(shí)事物的普遍發(fā)展變化規(guī)律,再利用規(guī)律的必然性來(lái)進(jìn)行科學(xué)預(yù)測(cè),這就是預(yù)測(cè)應(yīng)遵循的原則[9]。時(shí)間序列的預(yù)測(cè)就是通過(guò)分析時(shí)間數(shù)據(jù)的序列,然后根據(jù)時(shí)間序列所反映出的發(fā)展過(guò)程、方向和趨勢(shì)來(lái)進(jìn)行一種延伸和類比推理來(lái)預(yù)測(cè)今后一段時(shí)間的所會(huì)產(chǎn)生的一系列信息。在時(shí)間序列預(yù)測(cè)中主要包括三種基本方法:1、內(nèi)生時(shí)間序列預(yù)測(cè)技術(shù);2、外生時(shí)間序列預(yù)測(cè)技術(shù);3、主觀時(shí)間序列預(yù)測(cè)技術(shù)[9]。在時(shí)間序列中有一個(gè)明顯的特性就是記憶性,而記憶性系數(shù)指時(shí)間序列中的任一觀測(cè)值的表現(xiàn)皆受到過(guò)去觀測(cè)值的影響。而在其中主要考慮的因素[10]有(1)長(zhǎng)期趨勢(shì):時(shí)間序列可能相當(dāng)穩(wěn)定或隨時(shí)間呈現(xiàn)某種趨勢(shì),同時(shí)時(shí)間序列的趨勢(shì)一般為線性的,可以用函數(shù)形式進(jìn)行表示的。(2)季節(jié)性變動(dòng):按時(shí)間進(jìn)行變動(dòng),有一定反復(fù)發(fā)生行為的序列,通常與日期和氣候以及年周期有關(guān)。(3)周期性變動(dòng):相對(duì)于季節(jié)性變動(dòng),時(shí)間序列可能經(jīng)歷由經(jīng)濟(jì)變動(dòng)引發(fā)的周期性變動(dòng)。(4)隨機(jī)影響:在隨機(jī)情況下發(fā)生的不可避免的事件,也可認(rèn)為是天注定的[9]。預(yù)測(cè)技術(shù)主要是包含兩大類:1、指數(shù)平滑方法:

描述時(shí)間序列數(shù)據(jù)的變化規(guī)律和行為,不去試圖解釋和理解這種變化的原因。2、描述時(shí)間序列數(shù)據(jù)的變化規(guī)律和行為,它允許模型中包含趨勢(shì)變動(dòng)、季節(jié)變動(dòng)、循環(huán)變動(dòng)和隨機(jī)波動(dòng)等綜合因素影響。2.2時(shí)間序列的表示方法2.2.1時(shí)間序列的定義表示定義2.1時(shí)間序列[11]:時(shí)間序列是指將某種現(xiàn)象某一個(gè)統(tǒng)計(jì)指標(biāo)在不同時(shí)間上的各個(gè)數(shù)值,按時(shí)間先后順序排列而形成的序列,也是記錄值和時(shí)間相互組成的一個(gè)集合,表示為:X=x1其中xk=vk,tk表示時(shí)間序列在時(shí)間序列中,采樣時(shí)間的間隔?t=tk+1-tk2.2.2時(shí)間序列的模式表示時(shí)間序列的模式用來(lái)表示其某種特征,通常是用一段時(shí)間內(nèi)的均值或方差來(lái)表示,當(dāng)然也可以用時(shí)間序列離散后的符號(hào)和傅里葉變換系數(shù)等等來(lái)表示。通過(guò)這些模式,就可以將時(shí)間序列轉(zhuǎn)換到了一種空間模式狀態(tài),可以得到更加直觀的表現(xiàn)。設(shè)有時(shí)間序列X=x1,Xt=fn+et,在這里,n是時(shí)間序列X的模式,fn是其中的一個(gè)模式表示。e2.2.3時(shí)間序列的分段線性表示設(shè)有時(shí)間序列X=xXt=nk表示的是端點(diǎn)的坐標(biāo),fkt,2.3聚類分析在數(shù)據(jù)挖掘中,類是指在概念上具有意義的公共特性的對(duì)象組。聚類[12]是將物理或者抽象的集合通過(guò)一系列方法來(lái)劃分成為多個(gè)類或者簇的過(guò)程,使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而不同簇中的對(duì)象之間差別較大。同時(shí)聚類也分為以下一些類型:層次的(嵌套的)與劃分的(非嵌套的),互斥的、重疊的與模糊的,完全的與部分的等等[12]。在各個(gè)領(lǐng)域,針對(duì)不同的數(shù)據(jù)應(yīng)用類型和場(chǎng)景,人們開(kāi)發(fā)了大量的聚類算法來(lái)方便快捷的處理相應(yīng)地事件,像K均值算法、DBSCAN算法、基于規(guī)則的層次聚類等[12]。在這些算法中,沒(méi)有一種算法可以適用于任何數(shù)據(jù)類型。簇和應(yīng)用。事實(shí)上,對(duì)于更加有效或者更合適特定數(shù)據(jù)類型、簇和應(yīng)用的新的聚類算法,在現(xiàn)在看來(lái)是有更進(jìn)一步的開(kāi)發(fā)空間。首先聚類分析的光劍問(wèn)題就是數(shù)據(jù)、簇和對(duì)聚類分析具有重要影響的算法和特性。聚類分析主要是發(fā)現(xiàn)相似度很高的的對(duì)象并組成簇,而異常檢測(cè)則是發(fā)現(xiàn)不與其他對(duì)象相似度很高的對(duì)象并將它進(jìn)行隔離劃分成異常點(diǎn)。在聚類分析的困難以及與其他數(shù)據(jù)分組技術(shù)之間的關(guān)系,其最主要的兩個(gè)問(wèn)題是:(1)將數(shù)據(jù)對(duì)象集劃分成簇集合的不同方法,(2)簇的類型。聚類和分類最大的區(qū)別是聚類要?jiǎng)澐值念惖臄?shù)目等是未知的,而分類則是按照已經(jīng)知道的類別對(duì)對(duì)象來(lái)進(jìn)行劃分。聚類是一種沒(méi)有指導(dǎo)的學(xué)習(xí)方式,它不用依賴于預(yù)先定義的類和帶類標(biāo)號(hào)的實(shí)例,屬于觀察式學(xué)習(xí);而分類則屬于有指導(dǎo)的學(xué)習(xí)方式,是根據(jù)有事先示范的實(shí)例來(lái)進(jìn)行的,是示范式學(xué)習(xí)。2.4分類定義2.4分類:分類任務(wù)就是通過(guò)學(xué)習(xí)得到一個(gè)目標(biāo)函數(shù)f,把每個(gè)屬性集x映射到一個(gè)預(yù)先定義的類標(biāo)號(hào)y[13]。目標(biāo)函數(shù)也稱分類模型,同時(shí)分類的過(guò)程就是通過(guò)建立模型再利用建好的模型來(lái)對(duì)未知樣本進(jìn)行分類的一個(gè)步驟。2.5異常時(shí)間序列分析的主要目的是預(yù)測(cè)基于歷史的未來(lái),這被稱為時(shí)間序列預(yù)測(cè)。另一個(gè)突出的問(wèn)題,基于時(shí)間序列數(shù)據(jù)是基于異常檢測(cè)的時(shí)間序列,在其中我們重點(diǎn)檢測(cè)突變和新興模式通過(guò)監(jiān)測(cè)特定時(shí)間序列。例如,在每日的股票價(jià)格,與其他信息源實(shí)時(shí)新聞,不僅可以用來(lái)預(yù)測(cè)未來(lái)的價(jià)格也表明事件可能導(dǎo)致股票價(jià)格波動(dòng)突然和嚴(yán)重的開(kāi)始,這對(duì)企業(yè)投資的影響很大。時(shí)間序列的突然波動(dòng)被稱為異常[14]。第三章時(shí)間序列異常分析時(shí)間序列分析是在現(xiàn)代數(shù)理統(tǒng)計(jì)學(xué)中重要的一個(gè)模塊,是現(xiàn)在我們進(jìn)行數(shù)據(jù)分析的一個(gè)重要支撐方法。不管是在信號(hào)處理,金融,控制系統(tǒng),水文電力等方面都具有重要的運(yùn)用,是在這大數(shù)據(jù)時(shí)代的一個(gè)重要支柱,在我們的現(xiàn)實(shí)生活中發(fā)揮中及其重要的作用。所以時(shí)間序列異常分析挖掘在不同時(shí)間段的形態(tài)之間的關(guān)聯(lián),其頻繁出現(xiàn)的變化模式可以詮釋為正常變化,但是還有極少數(shù)的變化模式是異常模式[15],同時(shí)在一些領(lǐng)域,異常模式往往具有更加重要的意義。3.1時(shí)間序列異常分析方法3.1.1四分位法首先將所有數(shù)值進(jìn)行一個(gè)排列,根據(jù)時(shí)間序列數(shù)據(jù)的大小將其均分成四等分,而處于三個(gè)分割點(diǎn)的就稱為四分位數(shù)。三個(gè)四分位數(shù)可以分別用Q1,Q2,Q3來(lái)進(jìn)行表示。將所有數(shù)據(jù)按數(shù)值大小排序,找到上四分位數(shù)UQ和下四分位數(shù)LQ,計(jì)算它們的差值,得到四分位距:IQR=UQ-LQ(3.1)通過(guò)定義,知道所有大于UQ+1.5IQR,小于LQ-1.5IQR的數(shù)據(jù)都可判定為異常點(diǎn)。圖3-1四分法的應(yīng)用上圖是由傳統(tǒng)定義所得到的圖形,可以發(fā)現(xiàn)誤差較大,所以進(jìn)行了一項(xiàng)改正,就是將四分法變?yōu)榘俜址?,可以發(fā)現(xiàn)誤差明顯減小,可以得到一個(gè)較為合理的異常檢測(cè)圖像。如下圖:圖3-2百分法的應(yīng)用由以上兩圖可以發(fā)現(xiàn),劃分等級(jí)越多,可以發(fā)現(xiàn)其越精確,能夠更加具體的表現(xiàn)出異常的存在。3.1.2方差法方差分析是分析和觀測(cè)實(shí)驗(yàn)數(shù)據(jù)的一項(xiàng)有效方法。標(biāo)準(zhǔn)差(S):標(biāo)準(zhǔn)差能夠反映變異的程度。在單位相同,均值相近的情況下,標(biāo)準(zhǔn)差越大則觀察值間的變異程度越大,觀察值圍繞均數(shù)的分布較為離散,代表性較差。標(biāo)準(zhǔn)誤(SE):標(biāo)準(zhǔn)誤是樣本均數(shù)的抽樣誤差。一般在工程中是采用隨機(jī)抽樣的方法來(lái)取得所需指標(biāo),即樣本指標(biāo)。樣本指標(biāo)與總體指標(biāo)之間存在的差別稱為抽樣誤,其大小通常采用均數(shù)的標(biāo)準(zhǔn)誤來(lái)表示。標(biāo)準(zhǔn)誤的大小與標(biāo)準(zhǔn)差成正比,與樣本含量(n)的平方根成反比,即:SE=Sn3.1.3滑動(dòng)窗口分析滑動(dòng)窗口分析法是在提供N個(gè)時(shí)間段的信息,當(dāng)數(shù)據(jù)更新的時(shí)候,這N個(gè)時(shí)間段的數(shù)據(jù)讀取到下一個(gè)時(shí)間段中,可以形象的描述為一個(gè)“窗口”向下一個(gè)方向移動(dòng),將其中的舊數(shù)據(jù)給予拋棄,讀取下一個(gè)時(shí)間段的數(shù)據(jù),其中的窗口大小不變。定義重疊滑動(dòng)窗口[t1,t2,t3?tn],假如時(shí)間序列在窗口中的[圖3-3滑動(dòng)窗口示意圖3.2實(shí)驗(yàn)數(shù)據(jù)處理3.2.1實(shí)驗(yàn)數(shù)據(jù)實(shí)驗(yàn)數(shù)據(jù)為平安銀行股票數(shù)據(jù)集,主要是一天股票的交易情況,主要是包括開(kāi)盤(pán)價(jià)、最高價(jià)、最低價(jià)、收盤(pán)價(jià)、交易量和交易總數(shù)等變量描述的數(shù)據(jù)。我們對(duì)股票數(shù)據(jù)集進(jìn)行數(shù)據(jù)異常檢測(cè)可以快速發(fā)現(xiàn)其中的不合理的點(diǎn),并通過(guò)這些變化發(fā)現(xiàn)知道股票的走向以及大概的收益可能性,收集其中的異常點(diǎn)和信息,交給相關(guān)人員進(jìn)行分析和提供相關(guān)的決策分析。本次實(shí)驗(yàn)的硬件環(huán)境為Intelcorei32.53GHz,內(nèi)存4GB,操作系統(tǒng)為Windows2007旗艦版,使用的軟件為MATLAB7.8.0(2009a)實(shí)現(xiàn)算法的一個(gè)處理和結(jié)果的表現(xiàn)。3.2.2實(shí)驗(yàn)結(jié)果1.四分法:選取參數(shù)a1=prctile(x,85);a2=prctile(x,15);找出新定義的分點(diǎn),并作出相應(yīng)的決斷,可以發(fā)現(xiàn)這種方法較為簡(jiǎn)單,但是處理數(shù)據(jù)的結(jié)果也不能讓人感到滿意??紤]到其簡(jiǎn)單的特性,可以說(shuō)這也是一種比較方便的簡(jiǎn)單方案。2.四分法差距法:在這種方案中,首先按照四分法的一樣分類,但是在這里面加入了中位數(shù)的求取,并將分點(diǎn)與中位值進(jìn)行相應(yīng)的變化,得到的一系列的變化,相對(duì)于四分法可以說(shuō)這種方法對(duì)數(shù)據(jù)的處理比較完善,但是從圖像看出對(duì)于上位異??梢詸z測(cè),但對(duì)于下位異常檢測(cè)不是很明顯。圖3-4四分法和四分差距法檢測(cè)結(jié)果3.方差法根據(jù)數(shù)據(jù)的均值和方差求得相應(yīng)的閾值,根據(jù)閾值的判斷來(lái)獲取異常點(diǎn),可以分為上位異常和下位異常。其數(shù)據(jù)可以說(shuō)較為精確,對(duì)于異常點(diǎn)的檢測(cè)比較完善。圖3-5方差法檢測(cè)結(jié)果4.滑動(dòng)方差法結(jié)合窗口滑動(dòng)法和方差法的優(yōu)勢(shì),能夠較快的發(fā)現(xiàn)數(shù)據(jù)中的異常和趨勢(shì)點(diǎn)。對(duì)比方差法,具有較好的穩(wěn)定性和,減少誤差的估計(jì),但是在一定條件下會(huì)出現(xiàn)概率性的失誤,這也是一定問(wèn)題下不可避免的。圖3-6滑動(dòng)方差法檢測(cè)結(jié)果3.3本章小結(jié)時(shí)間序列下的數(shù)據(jù)較多,使得處理情況多樣化,但是都會(huì)在一定條件下出現(xiàn)不符合預(yù)計(jì)情況下的異常點(diǎn),所有對(duì)于時(shí)間序列異常檢測(cè)有一定的難度。同時(shí)采用滑動(dòng)窗口的分析方法在異常檢測(cè)的情況下,提高了對(duì)異常判別的準(zhǔn)確率和覆蓋率。同時(shí)根據(jù)改變時(shí)間序列的周期來(lái)重新定義滑動(dòng)窗口的大小可以達(dá)到更高的準(zhǔn)確率。第四章ARMA模型異常點(diǎn)檢測(cè)主要是通過(guò)檢測(cè)到異常點(diǎn)并進(jìn)行分析,在這個(gè)方面對(duì)數(shù)據(jù)建立有效地?cái)?shù)學(xué)模型具有很重要的現(xiàn)實(shí)意義。數(shù)據(jù)模型的設(shè)計(jì)對(duì)于異常點(diǎn)的檢測(cè)以及對(duì)數(shù)據(jù)趨勢(shì)的發(fā)展有直觀的判斷和描述,能夠讓人更加的真實(shí)觀測(cè)到。ARMA模型是最基礎(chǔ)也是最重要的一個(gè)線性模型,廣泛適用于各種時(shí)間序列數(shù)據(jù)。4.1ARMA模型因?yàn)闀r(shí)間序列是根據(jù)時(shí)間先后順序排列的序列,因此對(duì)于時(shí)間序列的討論,將時(shí)間指標(biāo)t引向推移算子B,則對(duì)于時(shí)間序列xi

φz=

j=-∞∞φB=j=-∞∞bj其中把B叫做時(shí)間t的向后推移算子。推移算子B的性質(zhì):如果隨機(jī)變量Y與t無(wú)關(guān),則BY=Y對(duì)整數(shù)n,常數(shù)a,有B對(duì)于整數(shù)n和m,B定義設(shè)εt是WN0,δbAB則差分方程Xt=稱為自回歸滑動(dòng)平均模型,也可以簡(jiǎn)稱為ARMA(p,q)模型。4.2ARMA模型的異常點(diǎn)描述ARMA模型是一種具有經(jīng)典性質(zhì)的時(shí)間序列模型,研究和發(fā)現(xiàn)異常點(diǎn)的存在都會(huì)對(duì)于ARMA模型的擬合效果和有效作用都會(huì)產(chǎn)生不可思議的影響,所以針對(duì)ARMA模型異常點(diǎn)的檢測(cè)對(duì)于模型的選擇和使用具有現(xiàn)實(shí)意義。若xtxt其中ω表示序列的振幅,ABHB在實(shí)際的數(shù)據(jù)處理分析中,一般是不可能全部知道t1的位置,所以對(duì)于異常點(diǎn)的檢測(cè)不能直接觀測(cè)出來(lái),對(duì)已經(jīng)知道的位置t1的異常點(diǎn)附加異常點(diǎn)模型(AO模型)A(2)革新異常點(diǎn)模型(IO模型)A(3)水平移位異常點(diǎn)模型(LS模型)A(4)暫時(shí)變更異常點(diǎn)模型(TC模型)A從上面異常點(diǎn)的模型定義中可以看出,這些類型的劃分實(shí)際上是根據(jù)ABHB革新異常點(diǎn)模型(IO模型)指的是時(shí)間序列在受到白噪聲序列的干擾下對(duì)t1時(shí)刻產(chǎn)生的異常類型,這種異常跟AO模型的最大區(qū)別便在于這種異常是具有記憶和連續(xù)性的。即當(dāng)時(shí)刻t1的數(shù)據(jù)發(fā)生異常的時(shí)候,其后續(xù)的數(shù)據(jù)點(diǎn)也會(huì)在一定程度上被其所影響,導(dǎo)致相應(yīng)的一系列變化,并且變化大小是根據(jù)水平移位異常模型(LS模型),其最大的特征便是當(dāng)一點(diǎn)發(fā)生異常變化時(shí),后續(xù)時(shí)間點(diǎn)也會(huì)發(fā)生相似的變化,可以看成是被作用了相同的因素使數(shù)據(jù)發(fā)生相同變化,即變化點(diǎn)相對(duì)來(lái)說(shuō)是沒(méi)有別的特征變化,只是類同t1TC模型是在AO模型和LS模型的相應(yīng)推廣,TC模型跟LS模型所不同的是它不再是相同的影響變化而是根據(jù)衰減率δ的變化而變化的,一般情況下通常是衰減。在這些異常模型中,附加異常模型是最基本也是最重要的異常點(diǎn)模型,通常都是研究這個(gè)模型的居多,在這個(gè)模型的領(lǐng)域有很多拓展和發(fā)現(xiàn)。在時(shí)間序列異常檢測(cè)中,針對(duì)與AO即附加點(diǎn)異常檢測(cè)模型來(lái)檢測(cè)和發(fā)現(xiàn)異常點(diǎn),其根本思想一般是通過(guò)求解殘差序列,通過(guò)刪除異常點(diǎn)使得之后的殘差序列的平方和盡可能的小。設(shè)et為時(shí)間序列xet=πBx對(duì)于附加點(diǎn)異常模型有et=ωItt為了讓殘差序列at的平方和最小,即主要mint=p+1nt=p+1n當(dāng)ωAO=所以最小平方估計(jì)也是異常點(diǎn)估計(jì)為ω4.3實(shí)驗(yàn)數(shù)據(jù)和結(jié)果實(shí)驗(yàn)數(shù)據(jù)為平安銀行股票數(shù)據(jù)集,主要是一天股票的交易情況,主要是包括開(kāi)盤(pán)價(jià)、最高價(jià)、最低價(jià)、收盤(pán)價(jià)、交易量和交易總數(shù)等變量描述的數(shù)據(jù)。我們對(duì)股票數(shù)據(jù)集進(jìn)行數(shù)據(jù)異常檢測(cè)可以快速發(fā)現(xiàn)其中的不合理的點(diǎn),并通過(guò)這些變化發(fā)現(xiàn)知道股票的走向以及大概的收益可能性,收集其中的異常點(diǎn)和信息,交給相關(guān)人員進(jìn)行分析和提供相關(guān)的決策分析。實(shí)驗(yàn)的硬件環(huán)境如上,使用的軟件為MATLAB7.8.0(2009a)實(shí)現(xiàn)算法的一個(gè)處理和結(jié)果的表現(xiàn)。通過(guò)對(duì)ARMA模型的預(yù)測(cè)分析,即對(duì)數(shù)據(jù)進(jìn)行差分和殘差分析,可以得到下面的結(jié)果:圖4-1差分圖像圖4-2殘差圖像上圖就是對(duì)數(shù)據(jù)進(jìn)行的差分結(jié)果,可以看出數(shù)據(jù)變化的差異性,也可以通過(guò)上圖的結(jié)果來(lái)知道異常點(diǎn),例如設(shè)定上方的差分值大于0.06,下方差分值小于0.03的為異常點(diǎn),結(jié)果如下:圖4-3差分檢測(cè)結(jié)果可以發(fā)現(xiàn)這是通過(guò)檢測(cè)變化率較大的值為異常值,這樣也就可以發(fā)現(xiàn)其中不符合正常規(guī)律變化的值,通過(guò)這個(gè)檢測(cè)可以更加有效地將正常值和異常值區(qū)分開(kāi)來(lái),通過(guò)其變化來(lái)發(fā)現(xiàn)原始數(shù)據(jù)的趨勢(shì),檢測(cè)其中的不合理的地方。還有就是殘差的檢測(cè),通過(guò)判斷距離原點(diǎn)的距離和置信度為0.95的置信空間沒(méi)有通過(guò)原點(diǎn),則視為異常點(diǎn)。即可以看出在殘差圖像中,異常點(diǎn)主要為那些遠(yuǎn)離原點(diǎn)的點(diǎn)。第五章基于距離和密度的異常檢測(cè)從距離和密度的定義中,可以發(fā)現(xiàn)對(duì)于異常點(diǎn)的發(fā)現(xiàn)一般都是距離長(zhǎng)和密度小的區(qū)域。所以對(duì)于異常點(diǎn)的檢測(cè)可以基于距離和密度[16]來(lái)實(shí)現(xiàn),其中一般常用的是歐幾里得距離,以及DBSCSN算法來(lái)實(shí)現(xiàn)異常點(diǎn)的檢測(cè)。5.1距離5.1.1歐幾里得距離歐幾里得度量是科學(xué)研究中經(jīng)常采用的一種距離,泛指在空間維度中兩個(gè)點(diǎn)之間的真實(shí)距離,或向量的長(zhǎng)度即該點(diǎn)到原點(diǎn)的距離。其公式一般表示為d其中n表示維數(shù),而xk和yk分別是x和y的第k個(gè)屬性值(分量)??梢杂脠D形5-1,表5-2和5-3圖5-1四個(gè)二維點(diǎn)表5-2四個(gè)點(diǎn)的x和y的坐標(biāo)P1P2P3P4P10.0P22.80.01.43.2P2.0P0.0表5-3表5-2的歐幾里得距離矩陣5.1.2閔可夫斯基距離由歐幾里得距離公式擴(kuò)展出的一個(gè)距離公式,其表現(xiàn)形式也與歐幾里得距離公式相似,為:d其中r為參數(shù),其余符號(hào)與歐幾里得距離公式表示內(nèi)容一致。r=1,即為城市街區(qū)距離。同時(shí)也可以被稱為漢明距離,它是具有二元屬性的對(duì)象(即兩個(gè)二元向量)之間不同的二進(jìn)制位數(shù)。r=2,這就是歐幾里得距離(L2范數(shù))。r=∞,上確界L∞范數(shù)距離。一般定義為對(duì)象屬性之間的最大距離。通常情況下,Ld在這個(gè)公式中,參數(shù)r和維數(shù)n的意義是完全不一樣的。歐幾里得距離、漢明距離和上確界L∞范數(shù)距離是對(duì)n的所有值來(lái)進(jìn)行定義的,并且是通過(guò)將每個(gè)屬性上的差的進(jìn)行組合計(jì)算出總距離的5.1.3距離的性質(zhì)距離具有一些眾所周知的性質(zhì),如果d(x,y)表示點(diǎn)x和點(diǎn)y之間的距離,則下列性質(zhì)成立。非負(fù)性。即對(duì)于所有的x和y,d(x,y)≥0,并且僅當(dāng)x=y時(shí),d(x,y)=0.對(duì)稱性。對(duì)于所有的x和y,d(x,y)=d(y,x)。三角不等式。對(duì)于所有的x,y和z,d(x,z)≤d(x,y)+d(y,z)。滿足以上三個(gè)性質(zhì)的測(cè)度稱為度量。這三個(gè)性質(zhì)是非常有用的在不同學(xué)科中,尤其是在數(shù)學(xué)上的運(yùn)用更是令人滿意的。三角不等式的成立可以用來(lái)提高依賴于距離的技術(shù)(包括聚類)的效率。5.2基于距離的異常檢測(cè)對(duì)于距離的異常檢測(cè)的基本思想還是很簡(jiǎn)單的,主要就是判斷一個(gè)點(diǎn)是不是遠(yuǎn)離大部分點(diǎn),如果是,那它就是異常點(diǎn);相反,則這個(gè)點(diǎn)就不是異常點(diǎn)。這種方法通常會(huì)比統(tǒng)計(jì)方法更方便和容易使用,因?yàn)槿绻_定數(shù)據(jù)集的有意義的鄰近性度量要比確定數(shù)據(jù)集的統(tǒng)計(jì)分布規(guī)律更容易。在數(shù)據(jù)挖掘中,通常采用歐幾里得距離公式來(lái)計(jì)算對(duì)象之間的距離,并通過(guò)計(jì)算出的點(diǎn)的距離來(lái)通過(guò)事先定義的方法來(lái)進(jìn)行分類,由上可知,如果這個(gè)點(diǎn)的距離遠(yuǎn)遠(yuǎn)大于其它點(diǎn)的距離,那么這個(gè)點(diǎn)通常就是異常點(diǎn),但是我們不僅要計(jì)算出異常點(diǎn),還有考慮其分布以及可能的趨勢(shì)。這樣才能將異常點(diǎn)實(shí)際應(yīng)用到我們的實(shí)際中去,但基于距離的判斷通常也會(huì)造成大量的資源浪費(fèi),故這個(gè)方案通常是結(jié)合密度的異常檢測(cè)來(lái)進(jìn)行判斷。只有這樣才能比較準(zhǔn)確的發(fā)現(xiàn)和找到復(fù)雜數(shù)據(jù)中的異常點(diǎn),但是這并不是說(shuō)基于距離的方法不能檢測(cè)異常點(diǎn),只是其檢測(cè)的通常是簡(jiǎn)單數(shù)據(jù)或者較少選擇的這類情況。5.3基于密度的離群點(diǎn)檢測(cè)從基于密度的角度來(lái)看,低密度區(qū)域的對(duì)象很有可能是離群點(diǎn),在高密度區(qū)域中,這種可能則往往很小。所以基于密度的離群點(diǎn)檢測(cè)通常與基于鄰近度的離群點(diǎn)檢測(cè)密切相關(guān),或者可以說(shuō)密度檢測(cè)就是鄰近度的檢測(cè),這是因?yàn)猷徑仍跀?shù)據(jù)挖掘中可以表示密度。最常用的方法是假設(shè)密度就是點(diǎn)到k個(gè)最近鄰的平均距離的導(dǎo)數(shù),密度與距離是成反比的,一般是距離小,則密度高,反之距離大,密度小。給定一個(gè)正整數(shù)k和一個(gè)數(shù)據(jù)集合D,在D中對(duì)象q和對(duì)象p之間的距離d(q,p)要滿足下面兩點(diǎn):至少有k個(gè)對(duì)象,使得。最多有k-1個(gè)對(duì)象使得。那么d(q,p)就是對(duì)象q的k近鄰距離,記為。即為對(duì)象q的k領(lǐng)域集合。對(duì)象到q的k可達(dá)距離=局部可達(dá)密度,反應(yīng)的是該對(duì)象的可能性大小,并可以定義對(duì)象q的異常因子。對(duì)象q的局部異常系數(shù),當(dāng)局部異常系數(shù)較大時(shí),則該對(duì)象的局部范圍所含對(duì)象的數(shù)目就會(huì)比較稀疏,那么出現(xiàn)異常的可能性就會(huì)比較大。5.3.1DBSCAN算法DBSCAN通常使用的是基于中心的方法,在基于中心的方法中,時(shí)間序列數(shù)據(jù)集中點(diǎn)的密度是通過(guò)對(duì)在該點(diǎn)Eps半徑之內(nèi)的點(diǎn)來(lái)計(jì)算其密度的大小,即密度是由圈內(nèi)的點(diǎn)來(lái)決定的。如下圖:圖5-4密度展示基于中心的方法優(yōu)點(diǎn)主要是實(shí)現(xiàn)方法很簡(jiǎn)單,缺點(diǎn)是點(diǎn)的密度是只考慮指定的半徑Eps,就造成數(shù)據(jù)的單一性。同時(shí)如果取的半徑Eps足夠大,則所有點(diǎn)的點(diǎn)都有可能集中在圓中,那么密度就會(huì)趨向于無(wú)限?。煌?,如果半徑Eps太小,則所有點(diǎn)的密度都是1。根據(jù)基于中心的密度可以進(jìn)行數(shù)據(jù)點(diǎn)的分類:(1)稠密區(qū)域內(nèi)部的點(diǎn)(核心點(diǎn));(2)稠密區(qū)域邊緣上的點(diǎn)(邊界點(diǎn));(3)稀疏區(qū)域中的點(diǎn)(噪聲點(diǎn)或者異常點(diǎn))。圖5-5點(diǎn)的分類DBSCAN算法:1:通過(guò)定義將所有的點(diǎn)進(jìn)行劃分。2:找到噪聲點(diǎn)。3:為距離在Eps之內(nèi)的所有核心點(diǎn)的圓取一條邊界。4:每組連通的核心點(diǎn)形成一個(gè)簇。5:將每個(gè)邊界的點(diǎn)按照上述方法依次分派到一個(gè)與之關(guān)聯(lián)的核心點(diǎn)的簇中。6:在圖像中將異常點(diǎn)(噪聲點(diǎn))展示出來(lái)。5.4實(shí)驗(yàn)數(shù)據(jù)和結(jié)果實(shí)驗(yàn)數(shù)據(jù)為平安銀行股票數(shù)據(jù)集,主要是一天股票的交易情況,主要是包括開(kāi)盤(pán)價(jià)、最高價(jià)、最低價(jià)、收盤(pán)價(jià)、交易量和交易總數(shù)等變量描述的數(shù)據(jù)。我們對(duì)股票數(shù)據(jù)集進(jìn)行數(shù)據(jù)異常檢測(cè)可以快速發(fā)現(xiàn)其中的不合理的點(diǎn),并通過(guò)這些變化發(fā)現(xiàn)知道股票的走向以及大概的收益可能性,收集其中的異常點(diǎn)和信息,交給相關(guān)人員進(jìn)行分析和提供相關(guān)的決策分析。實(shí)驗(yàn)的硬件環(huán)境如上,使用的軟件為MATLAB7.8.0(2009a)實(shí)現(xiàn)算法的一個(gè)處理和結(jié)果的表現(xiàn)。針對(duì)平安銀行股票一天發(fā)布金額的數(shù)據(jù)集,使用DBSCAN和距離的方法對(duì)時(shí)間序列進(jìn)行處理,并且得到了一些結(jié)果和現(xiàn)象。圖5-6k=3的檢測(cè)結(jié)果圖5-7k=2的檢測(cè)結(jié)果可以看出結(jié)果還是較為精確的,只是在單位時(shí)間內(nèi)跳躍太大的地方出現(xiàn)一些小問(wèn)題,這不會(huì)對(duì)總的結(jié)果產(chǎn)生影響,這可以說(shuō)是誤差。使用DBSCAN還是能夠在較大方向的發(fā)現(xiàn)異常點(diǎn),其精確值還是根據(jù)鄰近度K發(fā)生相應(yīng)變化,如上圖對(duì)比,k=3就比k=2的異常

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論