Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 魏偉一 第 10 章 離群點檢測;第 11 章 本文和時序數(shù)據(jù)挖掘_第1頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 魏偉一 第 10 章 離群點檢測;第 11 章 本文和時序數(shù)據(jù)挖掘_第2頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 魏偉一 第 10 章 離群點檢測;第 11 章 本文和時序數(shù)據(jù)挖掘_第3頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 魏偉一 第 10 章 離群點檢測;第 11 章 本文和時序數(shù)據(jù)挖掘_第4頁
Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第2版 課件 魏偉一 第 10 章 離群點檢測;第 11 章 本文和時序數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)第10章離群點檢測第10章離群點檢測本章內(nèi)容離群點概述離群點檢測sklearn中的異常值檢測方法10十一月202421離群點概述3數(shù)據(jù)庫中的數(shù)據(jù)由于各種原因常常會包含一些異常記錄,對這些異常記錄的檢測和解釋有很重要的意義。異常檢測目前在入侵檢測、工業(yè)損毀檢測、金融欺詐、股票分析、醫(yī)療處理等領(lǐng)域都有著比較好的實際應(yīng)用效果。異常檢測的實質(zhì)是尋找觀測值和參照值之間有意義的偏差。離群點檢測是異常檢測中最常用的方法之一,是為了檢測出那些與正常數(shù)據(jù)行為或特征屬性差別較大的異常數(shù)據(jù)或行為。1離群點概述4離群點的概念離群點(Outlier)是指顯著偏離一般水平的觀測對象。離群點檢測(或稱異常檢測)是找出不同于預(yù)期對象行為的過程。離群點的本質(zhì)仍然是數(shù)據(jù)對象,但它與其他對象又顯著差異,又被稱為異常值。1離群點概述5離群點不同于噪聲數(shù)據(jù)。噪聲是指被觀測數(shù)據(jù)的隨機(jī)誤差或方差,觀測值是真實數(shù)據(jù)與噪聲的混合。而離群點屬于觀測值,既可能是真實數(shù)據(jù)產(chǎn)生,也有可能由噪聲帶來。離群點的產(chǎn)生主要有以下原因:1.第一類離群值是總體固有變異性的極端表現(xiàn),這類離群值與樣本中其余觀測值屬于同一總體。2.第二類離群值是由于試驗條件和試驗方法的偶然偏離所產(chǎn)生的結(jié)果,或產(chǎn)生于觀測、記錄、計算中的失誤,這類離群值與樣本中其余觀測值不屬于同一總體。1離群點概述6離群點的類型:全局離群點、條件離群點和集體離群點。1.全局離群點當(dāng)一個數(shù)據(jù)對象明顯地偏離了數(shù)據(jù)集中絕大多數(shù)對象時,該數(shù)據(jù)對象就是全局離群點(GlobalOutlier)。全局離群點有時也稱為點異常,是最簡單的一類離群點。如圖10-1中區(qū)域R中的點,它們顯著偏離數(shù)據(jù)集的絕大多數(shù)的數(shù)據(jù)對象,因此屬于全局離群點。1離群點概述7離群點的類型:全局離群點、條件離群點和集體離群點。2.條件離群點與全局離群點不同,當(dāng)且僅當(dāng)在某種特定情境下,一個數(shù)據(jù)對象顯著地偏離數(shù)據(jù)集中的其他對象時,該數(shù)據(jù)對象被稱為條件離群點(ContextualOutlier)。一般地,在情境離群點檢測中所考慮對象的屬性劃分為條件屬性和行為屬性。條件屬性是指數(shù)據(jù)對象的定義中定義情境的屬性。行為屬性指數(shù)據(jù)對象中定義對象特征的屬性。1離群點概述8離群點的類型:全局離群點、條件離群點和集體離群點。3.集體離群點當(dāng)數(shù)據(jù)集中的一些數(shù)據(jù)對象顯著地偏離整個數(shù)據(jù)集時,該集合形成集體離群點(CollectionOutlier)。不同于全局或條件離群點,在集體離群點檢測中,除了考慮個體對象的行為,還要考慮集體的行為。1離群點概述9離群點檢測的挑戰(zhàn):1.正常對象和離群點的有效建模2.針對應(yīng)用的離群點檢測3.在離群點檢測中處理噪聲4.可理解性2離群點的檢測離群點的檢測方法很多,每種方法在檢測時都會對正常數(shù)據(jù)對象或離群點作出假設(shè),從所做假設(shè)的角度,離群點檢測方法可以分為基于統(tǒng)計學(xué)的離群點檢測、基于近鄰的離群點檢測、基于聚類以及基于分類的離群點檢測。10十一月2024102離群點的檢測基于統(tǒng)計學(xué)的離群點檢測在基于統(tǒng)計學(xué)的離群點檢測方法中,假設(shè)數(shù)據(jù)集中的正常數(shù)據(jù)對象由一個統(tǒng)計模型產(chǎn)生,如果某數(shù)據(jù)不符合該統(tǒng)計模型,則該數(shù)據(jù)對象是離群點。在基于統(tǒng)計的離群點檢測過程中,一般先設(shè)定數(shù)據(jù)集的分布模型,如正態(tài)分布、泊松分布和二項式分布等,然后根據(jù)模型進(jìn)行不和諧檢驗以發(fā)現(xiàn)離群點。不和諧檢驗中需要樣本空間數(shù)據(jù)集的參數(shù)知識、分布的參數(shù)知識以及期望的離群點數(shù)目。10十一月2024112離群點的檢測基于統(tǒng)計學(xué)的離群點檢測【例10-1】假設(shè)某類數(shù)據(jù)總體服從正態(tài)分布,現(xiàn)有部分?jǐn)?shù)據(jù){6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12},基于統(tǒng)計方法檢測離群點。10十一月2024122離群點的檢測2基于鄰近性的離群點檢測給定特征空間中的數(shù)據(jù)對象集,可以使用距離度量對象之間的相似性。直觀地,遠(yuǎn)離其他大多數(shù)對象的數(shù)據(jù)對象被視為離群點?;卩徑缘姆椒俣x群點對象與它最近鄰的鄰近性顯著偏離數(shù)據(jù)集中其他對象與其近鄰之間的鄰近性。基于鄰近型的離群點檢測方法有基于距離的和基于密度的方法。10十一月2024132離群點的檢測

基于鄰近性的離群點檢測(1)

基于距離的離群點檢測方法在基于距離的離群點檢測方法中,離群點就是遠(yuǎn)離大部分對象的點,即與數(shù)據(jù)集中的大多數(shù)對象的距離都大于某個給定閾值的點。基于距離的檢測方法考慮的是對象給定半徑的鄰域。如果在某個對象的鄰域內(nèi)沒有足夠的其他的點,則稱此對象為離群點?;诰嚯x的離群點方法有嵌套-循環(huán)算法、基于索引的算法和基于單元的算法。10十一月2024142離群點的檢測

基于鄰近性的離群點檢測(1)

基于距離的離群點檢測方法基于距離的離群點方法有嵌套-循環(huán)算法、基于索引的算法和基于單元的算法。下面簡要介紹嵌套-循環(huán)算法。10十一月2024152離群點的檢測

基于鄰近性的離群點檢測(2)

基于密度的離群點檢測方法基于密度的離群點檢測方法考慮的是對象與它近鄰的密度。如果一個對象的密度相對于它的近鄰低得多,則被視為離群點。最有代表性的基于密度的離群點檢測方法是基于局部離群點離群因子的離群點檢測方法。局部離群因子(LocalOutlierFactor,LOF)會給數(shù)據(jù)集中的每個點計算一個離群因子LOF,通過判斷LOF是否接近于1來判定是否是離群因子。10十一月2024162離群點的檢測

基于鄰近性的離群點檢測(2)

基于密度的離群點檢測方法局部離群因子(LocalOutlierFactor,LOF)會給數(shù)據(jù)集中的每個點計算一個離群因子LOF,通過判斷LOF是否接近于1來判定是否是離群因子。若LOF遠(yuǎn)大于1,則認(rèn)為是離群因子,接近于1,則是正常點。對于任何給定的數(shù)據(jù)點,局部離群因子算法計算的離群度等于數(shù)據(jù)點p的k近鄰集合的平均局部數(shù)據(jù)密度與數(shù)據(jù)點自身局部數(shù)據(jù)密度的比值。10十一月2024172離群點的檢測3基于聚類的離群點檢測離群點與簇的概念高度相關(guān),因此,可以通過考察對象與簇之間的關(guān)系檢測離群點。直觀地,離群點是一個屬于小的偏遠(yuǎn)簇或者不屬于任何簇的數(shù)據(jù)對象?;诰垲惖碾x群點檢測方法分為兩個階段,首先對數(shù)據(jù)進(jìn)行聚類,然后計算對象或簇的離群因子,將離群因子大的對象或稀疏簇中的對象判定為離群點。對于基于原型的聚類,可以用對象到其簇中心的距離度量對象屬于簇的程度。10十一月2024182離群點的檢測4基于分類的離群點檢測如果訓(xùn)練數(shù)據(jù)中有類標(biāo)號,則可以將其視為分類問題。該問題的解決思路是訓(xùn)練一個可以區(qū)分正常數(shù)據(jù)和離群點的分類模型。構(gòu)造分類器時,訓(xùn)練數(shù)據(jù)的分布可能極不均衡,相對正常數(shù)據(jù),離群點的數(shù)目極少,這樣會造成在構(gòu)建分類器時精度收到很大影響。為了解決兩類數(shù)據(jù)的不均衡問題,可以使用一類模型(One-classModel)進(jìn)行檢測。10十一月2024193sklearn中的異常值檢測方法sklearn中關(guān)于異常檢測的方法主要有兩種:(1)noveltydetection:當(dāng)訓(xùn)練數(shù)據(jù)中沒有離群點,我們的目標(biāo)是用訓(xùn)練好的模型去檢測另外新發(fā)現(xiàn)的樣本;(2)outlierdetection:當(dāng)訓(xùn)練數(shù)據(jù)中包含離群點,模型訓(xùn)練時要匹配訓(xùn)練數(shù)據(jù)的中心樣本,忽視訓(xùn)練樣本中的其他異常點;10十一月2024203sklearn中的異常值檢測方法sklearn提供了一些機(jī)器學(xué)習(xí)方法,可用于奇異(Novelty)點或異常(Outlier)點檢測,包括OneClassSVM、IsolationForest、LocalOutlierFactor(LOF)等。其中OneClassSVM可用于NoveltyDetection,而后兩者可用于OutlierDetection。10十一月202421本章小結(jié)離群點(Outlier)是指顯著偏離一般水平的觀測對象。離群點不同于噪聲數(shù)據(jù)。離群點一般分為全局離群點、條件離群點和集體離群點。離群點檢測方法可以分為基于統(tǒng)計學(xué)的離群點檢測、基于近鄰的離群點檢測、基于聚類以及基于分類的離群點檢測。在基于統(tǒng)計學(xué)的離群點檢測方法中,假設(shè)數(shù)據(jù)集中的正常數(shù)據(jù)對象由一個統(tǒng)計模型產(chǎn)生,如果某數(shù)據(jù)不符合該統(tǒng)計模型,則該數(shù)據(jù)對象是離群點?;卩徑缘姆椒俣x群點對象與它最近鄰的鄰近性顯著偏離數(shù)據(jù)集中其他對象與其近鄰之間的鄰近性?;卩徑偷碾x群點檢測方法有基于距離的和基于密度的方法。10十一月202422數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第11章文本和時序數(shù)據(jù)挖掘本章內(nèi)容1.文本數(shù)據(jù)挖掘2.時序數(shù)據(jù)挖掘文本和時序數(shù)據(jù)挖掘文本和時序數(shù)據(jù)挖掘目前,數(shù)據(jù)挖掘已經(jīng)取得了顯著進(jìn)展并被應(yīng)用到了眾多領(lǐng)域,但同時也出現(xiàn)了大量商品化的數(shù)據(jù)挖掘系統(tǒng)和服務(wù),如針對時間序列、圖和網(wǎng)絡(luò)、時空數(shù)據(jù)、多媒體數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)等各種類型數(shù)據(jù)的挖掘。2024/11/101.文本數(shù)據(jù)挖掘1.1文本數(shù)據(jù)挖掘概述文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知的、可理解和最終可用的知識的過程。由于文本數(shù)據(jù)具有的模糊性且非結(jié)構(gòu)化,因此文本挖掘是一項較難的工作,也是一個多學(xué)科交融的領(lǐng)域,涵蓋了信息技術(shù)、文本分析、模式識別、統(tǒng)計學(xué)、數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘等技術(shù)。文本挖掘是應(yīng)用驅(qū)動的,它在商業(yè)智能、信息檢索、生物信息處理等方面都有廣泛的應(yīng)用,如基于內(nèi)容的搜索、文本分類、自動摘要提取、自動問答和機(jī)器翻譯等應(yīng)用。2024/11/101.文本數(shù)據(jù)挖掘1.2文本數(shù)據(jù)挖掘的過程和任務(wù)文本挖掘過程:文本挖掘的主要過程包括文本預(yù)處理、文本挖掘和模式評估與表示。(1)文本預(yù)處理選取任務(wù)相關(guān)的文本并將其轉(zhuǎn)化成文本挖掘工具可以處理的中間形式。(2)文本挖掘?qū)︻A(yù)處理后的文本數(shù)據(jù),利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘以及模式識別等方法提取面向特定應(yīng)用目標(biāo)的知識或模式。(3)模式評估與表示利用已經(jīng)定義好的評估指標(biāo)對獲取的知識或模式進(jìn)行評價。2024/11/101.文本數(shù)據(jù)挖掘1.2文本數(shù)據(jù)挖掘的過程和任務(wù)文本挖掘任務(wù):文本挖掘的主要任務(wù)有文本分類、文本聚類、主題抽取、文本檢索、命名實體識別和情感分析等,其框架如圖所示。2024/11/102.文本分析與挖掘的主要方法2.1詞語分詞通常情況下,文本數(shù)據(jù)是由若干篇文章或若干條語句構(gòu)成。一般認(rèn)為中文詞語是最小的語義單元,一句話可以由多個詞語組成,而詞語可以由一個或者多個漢字組成。因此,在進(jìn)行文本分類之前,文本預(yù)處理階段首先應(yīng)該將文本轉(zhuǎn)化為計算機(jī)可以處理的數(shù)據(jù)結(jié)構(gòu),也就是將文本切分為構(gòu)成文本的語義單元,這些語義單元可以是句子、短語、詞語或單個字。和英文文本處理分類相比,中文文本預(yù)處理更為重要和關(guān)鍵,并且相對復(fù)雜。2024/11/102.文本分析與挖掘的主要方法2.2文本文本分析與挖掘的主要方法2.1詞語分詞通常情況下,文本數(shù)據(jù)是由若干篇文章或若干條語句構(gòu)成。一般認(rèn)為中文詞語是最小的語義單元。因此,在進(jìn)行文本分類之前,文本預(yù)處理階段首先應(yīng)該將文本轉(zhuǎn)化為計算機(jī)可以處理的數(shù)據(jù)結(jié)構(gòu),也就是將文本切分為構(gòu)成文本的語義單元,這些語義單元可以是句子、短語、詞語或單個字。目前在句子劃分和分詞部分已經(jīng)有大量成熟算法,如基于規(guī)則的分詞方法、基于語義的分詞方法和基于理解的分詞方法。Python中也提供了分詞的第三方庫或工具包,如jieba分詞、NLTK(NaturalLanguageToolkit)自然語言處理工具包、SnowNLP(SimplifiedChineseTextProcessing)等。2024/11/102.文本分析與挖掘的主要方法2.2文本文本分析與挖掘的主要方法2.1詞語分詞【例11-1】結(jié)巴分詞劃分2024/11/10In[1]importjiebatext='我喜歡學(xué)習(xí)文本分類。'print(jieba.lcut(text))Out[1]['我','喜歡','學(xué)習(xí)','文本','分類','。']分詞劃分后還需要進(jìn)一步去停用詞。停用詞是一類普遍存在又沒有明顯意義的詞,例如“啊”“嗯”和“了”等等。這些詞的用處過于普遍,因此即使剔除這些詞也對最后分類沒有太大影響,相反還可以改善模型的分類效果。2.文本分析與挖掘的主要方法2.2詞性標(biāo)注與停用詞過濾1.詞性標(biāo)注詞性標(biāo)注(Part-of-Speechtagging或POStagging),又稱詞類標(biāo)注或者簡稱標(biāo)注,是指為分詞結(jié)果中的每個單詞標(biāo)注一個正確的詞性的程序,也即確定每個詞是名詞、動詞、形容詞或其他詞性的過程。常用的詞性標(biāo)注算法有基于詞匹配的字典查找和基于統(tǒng)計的算法?;谠~匹配的字典查找方法通過從字典中查找每個詞語的詞性進(jìn)行標(biāo)注,原理簡單、易于理解,但不能解決一詞多詞性的問題?;诮y(tǒng)計的詞性標(biāo)注中,使用較為廣泛的是隱馬爾科夫模型。在該模型中,分詞后的語句作為觀測序列,經(jīng)標(biāo)注的詞性序列作為隱藏序列。通過對語料庫進(jìn)行統(tǒng)計,得到起始概率、輸出概率和轉(zhuǎn)移概率,最終完成詞性標(biāo)注。2024/11/102.文本分析與挖掘的主要方法2.2詞性標(biāo)注與停用詞過濾2.停用詞過濾對文本進(jìn)行分詞之后,文本被表示為一系列詞集。但是,文本中的詞并不是出現(xiàn)頻率越高代表性就越強(qiáng)。如果一個詞項在文檔中出現(xiàn)過于頻繁卻無助于表達(dá)一個主題(如“的”“啊”“唉”),則這些詞項對文檔的區(qū)分是沒有意義的,我們稱之為停用詞(StopWord)。停用詞對文本所表達(dá)的內(nèi)容幾乎沒有任何貢獻(xiàn),因此有必要將停用詞從原始文檔中過濾,該過程稱為停用詞過濾。停用詞過濾通常有兩種方法,一種方法統(tǒng)計每個詞在文檔集中出現(xiàn)的頻率,如果超過文檔總數(shù)量的某個百分比(如80%),則將該詞項作為停用詞過濾;另一種方法是建立一個停用詞表來實現(xiàn),這個列表中包含了所有的停用詞,如哈工大停用詞詞庫、四川大學(xué)機(jī)器學(xué)習(xí)智能實驗室停用詞庫以及百度停用詞表等各種停用詞表。2024/11/102.文本分析與挖掘的主要方法2.3文本表征在文本預(yù)處理后,文本由句子變成了詞語,但是計算機(jī)還無法直接處理詞語,因此要將這些詞語表示為數(shù)據(jù)挖掘算法可以處理的形式。常用的文本表征方法有詞袋(BagofWord,BoW)模型和詞嵌入(WordEmbedding)模型。2024/11/102.文本分析與挖掘的主要方法1.詞袋模型詞袋(BoW)模型是數(shù)字文本表示的最簡單形式。像單詞本身一樣,我們可以將一個句子表示為一個詞向量包。例如有三個電影評論:評論1:Thismovieisveryscaryandlong評論2:Thismovieisnotscaryandisslow評論3:Thismovieisspookyandgood2024/11/10

Thismovieisveryscaryandlongnotslowspookygood評論111111110000評論211201110100評論311100010011向量中含有大量數(shù)值0,導(dǎo)致矩陣很稀疏,而且向量表示中沒有任何關(guān)于句子語法和文本中單詞順序的信息。2.詞頻-逆文本頻率(TF-IDF)詞頻-逆文本頻率TF-IDF(TermFrequency–InverseDocumentFrequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF(TermFrequency)表示詞條在文本中出現(xiàn)的頻率,IDF(InverseDocumentFrequency)是逆文本頻率指數(shù),表示如果包含文本特征詞w的文檔越少,則說明w具有很好的類別區(qū)分能力。2024/11/102.文本分析與挖掘的主要方法

TF-IDF(‘this’,Review2)=TF(‘this’,Review2)*IDF(‘this’)=1/8*0=0TF-IDF(‘movie’,Review2)=1/8*0=0TF-IDF(‘is’,Review2)=1/4*0=02.詞頻-逆文本頻率(TF-IDF)TF-IDF的優(yōu)點是簡單快速,易于理解,但是只用詞頻衡量文檔中詞的重要性還是不夠全面,無法體現(xiàn)詞在上下文中的重要性。因此雖然BoW和TF-IDF在各自方面都很受歡迎,但在理解文字背景方面仍然存在空白。因此又出現(xiàn)了Word2Vec、CBOW、Skip-gram等詞嵌入技術(shù)。在scikit-learn中,有兩種方法進(jìn)行TF-IDF的預(yù)處理。第一種方法是在用CountVectorizer類向量化之后再調(diào)用TfidfTransformer類進(jìn)行預(yù)處理。另一種方法則直接用TfidfVectorizer完成向量化與TF-IDF預(yù)處理。2024/11/102.文本分析與挖掘的主要方法2.4文本分類文本分類是文本分析中的一項重要工作。給定文檔集合和預(yù)先定義的類別集合,文本分類是將文檔劃分到一個或多個類別中。文本分類中最常見的應(yīng)用場景是垃圾郵件分類以及情感分析。文本分類過程包括文本預(yù)處理、特征提取和訓(xùn)練分類器三個階段。文檔表征為特征向量之后,就可以選擇使用分類算法進(jìn)行訓(xùn)練。常用的分類算法有貝葉斯模型、隨機(jī)森林、SVM、KNN和神經(jīng)網(wǎng)絡(luò)等。2024/11/102.文本分析與挖掘的主要方法2.4文本分類【例11-3】文本分類示例THUCNews是根據(jù)新浪新聞RSS訂閱頻道2005-2011年間的歷史數(shù)據(jù)篩選過濾生成,包含74萬篇新聞文檔。原始新浪新聞數(shù)據(jù)集整合劃分出14個候選分類類別:財經(jīng)、彩票、房產(chǎn)、股票、家居、教育、科技、社會、時尚、時政、體育、星座、游戲、娛樂。我們隨機(jī)從中抽取4456篇文檔進(jìn)行文本分類訓(xùn)練,隨后抽取1902篇文檔進(jìn)行新聞分類預(yù)測。采用的模型是傳統(tǒng)的樸素貝葉斯模型和支持向量機(jī)模型。2024/11/102.文本分析與挖掘的主要方法2.5文本聚類文本聚類旨在將相似的文檔劃分為簇,使得同一簇中文檔相似性較大,而簇之間的相似性則較小。2024/11/102.文本分析與挖掘的主要方法圖11-4文本聚類的基本流程數(shù)據(jù)挖掘中的聚類算法一般分為基于劃分的聚類算法、基于層次的聚類算法、基于密度的聚類算法及基于模型的聚類算法。在文本聚類中,經(jīng)常用到的是K-means和DBSCAN算法。對于表示成向量的文本數(shù)據(jù)來說,余弦相似性和相關(guān)系數(shù)是經(jīng)常用到的文本距離度量方法。2.6文本可視化文本可視化技術(shù)把用文字符號表示的信息轉(zhuǎn)化為用圖形、圖像或動畫表示的信息,其目的在于讓人直觀地觀察到核心信息和關(guān)鍵數(shù)據(jù),從而快速發(fā)現(xiàn)其中蘊(yùn)含的知識。2024/11/102.文本分析與挖掘的主要方法朱自清作品“背影”的詞云隨著云計算和物聯(lián)網(wǎng)等技術(shù)的發(fā)展,時間序列數(shù)據(jù)的數(shù)據(jù)量急劇膨脹。高效分析時間序列數(shù)據(jù),使之產(chǎn)生業(yè)務(wù)價值成為一個熱門話題。時間序列分析廣泛應(yīng)用于股票價格、廣告數(shù)據(jù)、氣溫變化、工業(yè)傳感器數(shù)據(jù)、個人健康數(shù)據(jù)、服務(wù)器系統(tǒng)監(jiān)控數(shù)據(jù)和車聯(lián)網(wǎng)等領(lǐng)域中。2024/11/102.時序數(shù)據(jù)挖掘

2024/11/102.時序數(shù)據(jù)挖掘2.時間序列分析時間序列分析是一種動態(tài)數(shù)據(jù)處理的統(tǒng)計方法,該方法基于隨機(jī)過程理論和數(shù)理統(tǒng)計學(xué)方法,研究隨機(jī)數(shù)據(jù)序列所遵從的統(tǒng)計變化規(guī)律,以解決實際問題。通常影響時間序列變化的要素有長期趨勢、季節(jié)變化、循環(huán)波動和隨機(jī)因素。(1)長期趨勢(T):是時間序列在長時期內(nèi)呈現(xiàn)出來的持續(xù)向上或持續(xù)向下的變動。(2)季節(jié)變動(S):是時間序列在一年內(nèi)重復(fù)出現(xiàn)的周期性波動。(3)循環(huán)波動(C):是時間序列呈現(xiàn)出的非固定長度的周期性變動。(4)隨機(jī)因素(I):是時間序列中除去長期趨勢、季節(jié)變動和循環(huán)波動之后的隨機(jī)波動。不規(guī)則波動通??偸菉A雜在時間序列中,致使時間序列產(chǎn)生一種波浪形或震蕩式的變動。2024/11/102.時序數(shù)據(jù)挖掘2.2時間序列平穩(wěn)性和隨機(jī)性判定平穩(wěn)性是時間序列的一個屬性,一個平穩(wěn)的時間序列指的是這個時間序列和時間無關(guān),也就是說,如果一個時間序列是平穩(wěn)的,那么這個時間序列的統(tǒng)計量均值、方差和自相關(guān)系數(shù)都是一個常數(shù),和時間無關(guān)。1.時間序列數(shù)據(jù)平穩(wěn)性檢驗在做時間序列分析時,經(jīng)常要對時間序列進(jìn)行平穩(wěn)性檢驗。用Python來進(jìn)行平穩(wěn)性檢驗主要有時序圖檢驗、自相關(guān)圖檢驗以及構(gòu)造統(tǒng)計量進(jìn)行檢驗3種方法。2024/11/102.時序數(shù)據(jù)挖掘(1)時序圖檢驗時序圖就是普通的時間序列圖,即以時間為橫軸,觀察值為縱軸進(jìn)行檢驗。利用時序圖可以粗略觀察序列的平穩(wěn)性。【例11-5】繪圖時序圖觀察序列的平穩(wěn)性2024/11/102.時序數(shù)據(jù)挖掘數(shù)據(jù)走勢沒有明顯趨勢或周期,基本可以視為平穩(wěn)序列,但還需要利用自相關(guān)圖進(jìn)一步驗證。(2)自相關(guān)圖檢驗自相關(guān)函數(shù)(autocorrelationfunction,ACF)描述的是時間序列觀測值與其過去的觀測值之間的線性相關(guān)性,表達(dá)式如式12.2所示。2024/11/102.時序數(shù)據(jù)挖掘

偏自相關(guān)函數(shù)(PartialAutocorrelationFunction,PACF)描述的是在給定中間觀測值的條件下,時間序列觀測值預(yù)期過去的觀測值之間的線性相關(guān)性。假設(shè)k=3,那么我們描述的是yt和yt-3之間的相關(guān)性,但是這個相關(guān)性還受到y(tǒng)t-1和yt-2的影響。PACF剔除了這個影響,而ACF包含這個影響。利用ACF和PACF的可視化可以顯示序列的拖尾和截尾現(xiàn)象。拖尾指序列以指數(shù)率單調(diào)遞減或震蕩衰減,而截尾指序列從某個時點變得非常小。平穩(wěn)序列通常具有短期相關(guān)性,即隨著延遲期數(shù)k的增加,平穩(wěn)序列的自相關(guān)系數(shù)會很快地衰減向零,而非平穩(wěn)序列的自相關(guān)系數(shù)的衰減速度會比較慢。畫自相關(guān)圖和偏自相關(guān)圖用到的是statsmodels中的plot_acf和plot_pacf方法。自相關(guān)圖中橫軸表示延遲期數(shù),縱軸表示自相關(guān)系數(shù)。2024/11/102.時序數(shù)據(jù)挖掘(3)構(gòu)造統(tǒng)計量利用繪圖判斷序列的平穩(wěn)性比較直觀,但不夠精確,ADF(AugmentedDickey-Fuller)法直接通過假設(shè)檢驗的方式來驗證平穩(wěn)性。ADF的原假設(shè)(H0)和備擇假設(shè)(H1)如下:H0:具有單位根,屬于非平穩(wěn)序列;H1:沒有單位根,屬于平穩(wěn)序列。Python中可以使用statsmodels中的adfuller方法進(jìn)行ADF檢驗,直接輸入數(shù)據(jù),即可返回7個數(shù)值。其中的第一個返回值adf就是ADF方法的檢驗結(jié)果,這個值理論上越負(fù)越能拒絕原假設(shè);第二個返回值pvalue以常用的判斷標(biāo)準(zhǔn)值0.05作為參考,若其值大于0.05,說明支持原假設(shè),反之拒絕原假設(shè),表明該序列是一個平穩(wěn)序列。2024/11/102.時序數(shù)據(jù)挖掘2.時間序列純隨機(jī)性檢驗如果時間序列值之間沒有相關(guān)性,即意味著該序列是一個沒有記憶的序列,過去的行為對將來的發(fā)展沒有任何影響,這種序列被稱為純隨機(jī)序列。從統(tǒng)計分析的角度,純隨機(jī)序列是沒有任何分析價值的序列。因此,為了確定平穩(wěn)序列的分析價值,需要進(jìn)行純隨機(jī)性檢驗。2024/11/102.時序數(shù)據(jù)挖掘

2024/11/102.時序數(shù)據(jù)挖掘

2024/11/102.時序數(shù)據(jù)挖掘2.3自回歸滑動平均ARMA模型一個序列經(jīng)過預(yù)處理被識別為平穩(wěn)非白噪聲序列,說明該序列是一個蘊(yùn)涵相關(guān)信息的平穩(wěn)序列。通常是建立一個線性模型來擬合該序列的發(fā)展,以此提取序列中的有用信息。目前,ARMA(Autoregressivemovingaveragemodel)模型是最常用的平穩(wěn)序列擬合與預(yù)測模型,建模流程如圖12-5所示。ARMA模型本質(zhì)上是一個模型族,可以細(xì)分為AR模型、MA模型和ARMA模型三大類。2024/11/102.時序數(shù)據(jù)挖掘2.時序數(shù)據(jù)挖掘2024/11/102.時序數(shù)據(jù)挖掘

2024/11/102.時序數(shù)據(jù)挖掘

2024/11/102.時序數(shù)據(jù)挖掘

2024/11/102.時序數(shù)據(jù)挖掘關(guān)于ARMA模型的定階,統(tǒng)計學(xué)家曾經(jīng)研究過使用三角格子法進(jìn)行準(zhǔn)確定階,但該方法也不是精確的方法且計算復(fù)雜,因此很少使用。自相關(guān)圖和偏自相關(guān)圖的特征可以幫助進(jìn)行ARMA模型的階數(shù)識別,但主觀性很大。由于ARMA模型的階數(shù)通常都不高,所以實務(wù)中更常用的策略是從最小階數(shù)p=1,q=1開始嘗試,不斷增加p、q的階數(shù),直到模型精度達(dá)到研究要求。2024/11/102.時序數(shù)據(jù)挖掘

2024/11/102.時序數(shù)據(jù)挖掘ARIMA模型結(jié)合了自回歸(AR)和移動平均(MA)模型以及序列的差分預(yù)處理步驟。ARIMA模型由AR部分、MA部分和I部分組成。(1)AR部分AR部分表示感興趣的演化變量對其自身的滯后(即先驗)值進(jìn)行回歸。(2)MA部分MA部分表示回歸誤差實際上是誤差項的線性組合,其值同時發(fā)生在過去的不同時間。(3)I部分I部分表示數(shù)據(jù)值已被替換為其值與先前值之間的差值(并且這個差值過程可能已經(jīng)執(zhí)行了不止一次)。這些特征中的每一個的目的都是使模型盡可能地擬合數(shù)據(jù)。2024/11/102.時序數(shù)據(jù)挖掘2.ARIMA模型分析過程ARIMA模型分析流程如圖12-6所示,主要包括模型識別和定階、參數(shù)估計和模型檢驗三個階段。2024/11/102.時序數(shù)據(jù)挖掘(1)模型識別和定階模型的識別問題和定階問題,主要是確定p,d,q三個參數(shù),差分的階數(shù)d一般通過觀察圖示,1階或2階即可。對例12-8中的自行車數(shù)據(jù),下面代碼顯示了1階和2階的圖形,可以看出序列本身是平穩(wěn)序列,因此d設(shè)置為0。【例11-9】繪圖時序圖觀察序列的平穩(wěn)性2024/11/102.時序數(shù)據(jù)挖掘為了平衡預(yù)測誤差和參數(shù)個數(shù),可以根據(jù)信息準(zhǔn)則函數(shù)法來確定模型的階數(shù)。預(yù)測誤差通常用平方誤差即殘差平方和來表示。常用的信息準(zhǔn)則函數(shù)法主要有AIC準(zhǔn)則和BIC準(zhǔn)則。①AIC準(zhǔn)則AIC全稱是最小化信息量準(zhǔn)則(AkaikeInformationCriterion),計算公式如式11.10所示。AIC=2k?2ln(L)(11.10)其中,k是參數(shù)的數(shù)量,L是似然函數(shù)。2024/11/102.時序數(shù)據(jù)挖掘②BIC準(zhǔn)則AIC準(zhǔn)則存在一定的不足之處。當(dāng)樣本容量很大時,在AIC準(zhǔn)則中擬合誤差提供的信息就要受到樣本容量的放大,而參數(shù)個數(shù)的懲罰因子卻和樣本容量沒關(guān)系,因此當(dāng)樣本容量很大時,使用AIC準(zhǔn)則選擇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論