《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-(5)時(shí)間序列_第1頁(yè)
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-(5)時(shí)間序列_第2頁(yè)
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-(5)時(shí)間序列_第3頁(yè)
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-(5)時(shí)間序列_第4頁(yè)
《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》數(shù)據(jù)挖掘算法基礎(chǔ)-(5)時(shí)間序列_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章數(shù)據(jù)挖掘算法基礎(chǔ)數(shù)據(jù)挖掘算法基礎(chǔ)1聚類目錄分類與回歸2關(guān)聯(lián)規(guī)則3智能推薦4時(shí)間序列5時(shí)間序列是按照時(shí)間排序的一組隨機(jī)變量,它通常是在相等間隔的時(shí)間段內(nèi)依照給定的采樣率對(duì)某種潛在過程進(jìn)行觀測(cè)的結(jié)果,是一種動(dòng)態(tài)數(shù)據(jù)處理的統(tǒng)計(jì)方法,主要研究隨機(jī)數(shù)據(jù)序列所遵從的統(tǒng)計(jì)規(guī)律。常用的時(shí)間序列模型:時(shí)間序列算法模型名稱描述平滑法平滑法常用于趨勢(shì)分析和預(yù)測(cè),利用修勻技術(shù),削弱短期隨機(jī)波動(dòng)對(duì)序列的影響,使序列平滑化。根據(jù)所用平滑技術(shù)的不同,可具體分為移動(dòng)平均法和指數(shù)平滑法趨勢(shì)擬合法趨勢(shì)擬合法將時(shí)間作為自變量,相應(yīng)的序列觀察值作為因變量,建立回歸模型。根據(jù)序列的特征,可具體分為線性擬合和曲線擬合組合模型時(shí)間序列的變化主要受到長(zhǎng)期趨勢(shì)(T)、季節(jié)變動(dòng)(S)、周期變動(dòng)(C)和不規(guī)則變動(dòng)()這4個(gè)因素的影響。根據(jù)序列的特點(diǎn),可以構(gòu)建加法模型和乘法模型加法模型:

;乘法模型:

時(shí)間序列算法模型名稱描述AR模型以前

期的序列值

為自變量、隨機(jī)變量

的取值

為因變量建立線性回歸模型MA模型隨機(jī)變量

的取值

與以前各期的序列值無關(guān),

建立

與前

期的隨機(jī)擾動(dòng)

的線性回歸模型ARMA模型

隨機(jī)變量

的取值

不僅與以前

期的序列值有關(guān),還與前

期的隨機(jī)擾動(dòng)有關(guān)ARIMA模型許多非平穩(wěn)序列差分后會(huì)顯示出平穩(wěn)序列的性質(zhì),稱這個(gè)非平穩(wěn)序列為差分平穩(wěn)序列。對(duì)差分平穩(wěn)序列可以使用ARIMA模型進(jìn)行擬合。ARCH模型ARCH模型能準(zhǔn)確地模擬時(shí)間序列變量的波動(dòng)性的變化,適用于序列具有異方差性并且異方差函數(shù)短期自相關(guān)GARCH模型及其衍生模型GARCH模型稱為廣義ARCH模型,是ARCH模型的拓展。相比于ARCH模型,GARCH模型及其衍生模型更能反映實(shí)際序列中的長(zhǎng)期記憶性、信息的非對(duì)稱性等性質(zhì)針對(duì)一個(gè)觀察值序列后,首先要對(duì)它的白噪聲和平穩(wěn)性進(jìn)行檢驗(yàn),這兩個(gè)重要的檢驗(yàn)稱為序列的預(yù)處理。根據(jù)檢驗(yàn)結(jié)果可以將序列分為不同的類型:時(shí)間序列的預(yù)處理序列的各項(xiàng)之間沒有任何相關(guān)關(guān)系,序列在進(jìn)行完全無序的隨機(jī)波動(dòng)白噪聲序列均值和方差是常數(shù),通常是建立一個(gè)線性模型來擬合該序列的發(fā)展,借此提取該序列的有用信息。平穩(wěn)非白噪聲序列均值和方差不穩(wěn)定,處理方法一般是將其轉(zhuǎn)變?yōu)槠椒€(wěn)序列,再應(yīng)用有關(guān)平穩(wěn)時(shí)間序列的分析方法非平穩(wěn)序列平穩(wěn)時(shí)間序列的定義如果時(shí)間序列在某一常數(shù)附近波動(dòng)且波動(dòng)范圍有限,即有常數(shù)均值和常數(shù)方差,并且延遲期的序列變量的自協(xié)方差和自相關(guān)系數(shù)是相等的或者說延遲期的序列變量之間的影響程度是一樣的,則稱此序列為平穩(wěn)序列。時(shí)間序列的預(yù)處理平穩(wěn)性檢驗(yàn)平穩(wěn)性檢驗(yàn)時(shí)間序列的預(yù)處理時(shí)序圖檢驗(yàn)根據(jù)平穩(wěn)時(shí)間序列的均值和方差都為常數(shù)的性質(zhì),平穩(wěn)序列的時(shí)序圖顯示該序列值始終在一個(gè)常數(shù)附近隨機(jī)波動(dòng),而且波動(dòng)的范圍有界;如果有明顯的趨勢(shì)性或者周期性那它通常不是平穩(wěn)序列。自相關(guān)圖檢驗(yàn)隨著延遲期數(shù)的增加,平穩(wěn)序列的自相關(guān)系數(shù)(延遲期)會(huì)比較快地衰減趨向于零,并在零附近隨機(jī)波動(dòng),而非平穩(wěn)序列的自相關(guān)系數(shù)衰減的速度比較慢單位根檢驗(yàn)單位根檢驗(yàn)是指檢驗(yàn)序列中是否存在單位根,存在單位根就是非平穩(wěn)時(shí)間序列白噪聲檢驗(yàn)也稱純隨機(jī)性檢驗(yàn),一般是構(gòu)造檢驗(yàn)統(tǒng)計(jì)量來檢驗(yàn)序列的白噪聲;常用的檢驗(yàn)統(tǒng)計(jì)量有Q統(tǒng)計(jì)量和LB統(tǒng)計(jì)量,計(jì)算出統(tǒng)計(jì)量后再計(jì)算出對(duì)應(yīng)的值,如果值顯著大于顯著性水平,則表示該序列不能拒絕純隨機(jī)的原假設(shè),可以停止對(duì)該序列的分析。時(shí)間序列的預(yù)處理白噪聲檢驗(yàn)自相關(guān)系數(shù)(ACF)平穩(wěn)AR(p)模型的自相關(guān)系數(shù)呈指數(shù)的速度衰減,始終有非零取值,不會(huì)在大于某個(gè)常數(shù)之后就恒等于零,這個(gè)性質(zhì)就是平穩(wěn)AR(p)模型的自相關(guān)系數(shù)具有拖尾性。偏自相關(guān)系數(shù)(PACF)對(duì)于一個(gè)平穩(wěn)AR(p)模型,求出延遲期自相關(guān)系數(shù)時(shí),實(shí)際上的得到的并不是與之間單純的相關(guān)關(guān)系,因?yàn)橥瑫r(shí)還會(huì)受到中間個(gè)隨機(jī)變量的影響,所以自相關(guān)系數(shù)里實(shí)際上摻雜了其他變量對(duì)與的相關(guān)影響,為了單純地測(cè)度對(duì)的影響,引進(jìn)偏自相關(guān)系數(shù)的概念。拖尾與截尾截尾是指時(shí)間序列的ACF或PACF在某階后均為0的性質(zhì);

拖尾是ACF或PACF并不在某階后均為0的性質(zhì)。平穩(wěn)時(shí)間序列分析基本性質(zhì)具有結(jié)構(gòu)的模型稱為階自回歸模型,簡(jiǎn)記為AR(p)。即在t時(shí)刻的隨機(jī)變量的取值是前p期的多元線性回歸,認(rèn)為主要是受過去p期的序列值的影響。誤差項(xiàng)是當(dāng)期的隨機(jī)干擾,為零均值白噪聲序列。平穩(wěn)AR(p)模型的性質(zhì)如下表所示:平穩(wěn)時(shí)間序列分析AR模型統(tǒng)計(jì)量性質(zhì)統(tǒng)計(jì)量性質(zhì)均值常數(shù)均值自相關(guān)系數(shù)(ACF)拖尾方差常數(shù)方差偏自相關(guān)系數(shù)(PACF)階截尾具有結(jié)構(gòu)的模型稱為q階移動(dòng)平均模型,簡(jiǎn)記為MA(q)。即在t時(shí)刻的隨機(jī)變量的取值是前q期的隨機(jī)擾動(dòng)的多元線性函數(shù),誤差項(xiàng)是當(dāng)期的隨機(jī)干擾,為零均值白噪聲序列,是序列的均值。認(rèn)為主要是受過去q期的誤差項(xiàng)的影響。平穩(wěn)MA(q)模型的性質(zhì)如下表所示:平穩(wěn)時(shí)間序列分析MA模型統(tǒng)計(jì)量性質(zhì)統(tǒng)計(jì)量性質(zhì)均值常數(shù)均值自相關(guān)系數(shù)(ACF)階截尾方差常數(shù)方差偏自相關(guān)系數(shù)(PACF)拖尾具有結(jié)構(gòu)的模型稱為自回歸移動(dòng)平均模型,簡(jiǎn)記為ARMA(p,q)。即在t時(shí)刻的隨機(jī)變量的取值是前p期和前q期的多元線性函數(shù),誤差項(xiàng)是當(dāng)期的隨機(jī)干擾,為零均值白噪聲序列。認(rèn)為主要是受過去p期的序列值和過去q期的誤差項(xiàng)的共同影響。特別的,當(dāng)時(shí),是AR(p)模型;當(dāng)時(shí),是MA(q)模型。平穩(wěn)ARMA(p,q)的性質(zhì)如下表所示:平穩(wěn)時(shí)間序列分析ARMA模型統(tǒng)計(jì)量性質(zhì)統(tǒng)計(jì)量性質(zhì)均值常數(shù)均值自相關(guān)系數(shù)(ACF)拖尾方差常數(shù)方差偏自相關(guān)系數(shù)(PACF)拖尾平穩(wěn)時(shí)間序列建模步驟:平穩(wěn)時(shí)間序列分析平穩(wěn)時(shí)間序列建模模型自相關(guān)系數(shù)(ACF)偏自相關(guān)系數(shù)(PACF)AR(p)拖尾p階截尾MA(q)q階截尾拖尾ARMA(p,q)p階拖尾q階拖尾對(duì)非平穩(wěn)時(shí)間序列的分析方法可以分為確定性因素分解的時(shí)序分析和隨機(jī)時(shí)序分析兩大類。確定性因素分解的方法將所有序列的變化都?xì)w結(jié)為4個(gè)因素(長(zhǎng)期趨勢(shì)、季節(jié)變動(dòng)、循環(huán)變動(dòng)和隨機(jī)波動(dòng))的綜合影響,其中長(zhǎng)期趨勢(shì)和季節(jié)變動(dòng)的規(guī)律性信息通常比較容易提取,而由隨機(jī)因素導(dǎo)致的波動(dòng)則非常難以確定和分析,對(duì)隨機(jī)信息浪費(fèi)嚴(yán)重,會(huì)導(dǎo)致模型擬合精度不夠理想。隨機(jī)時(shí)序分析法的發(fā)展就是為了彌補(bǔ)確定性因素分解方法的不足。根據(jù)時(shí)間序列的不同特點(diǎn),隨機(jī)時(shí)序分析可以建立的模型有ARIMA模型、殘差自回歸模型、季節(jié)模型、異方差模型等。本小節(jié)重點(diǎn)介紹ARIMA模型對(duì)非平穩(wěn)時(shí)間序列進(jìn)行建模。非平穩(wěn)時(shí)間序列分析差分運(yùn)算具有強(qiáng)大的確定性信息提取能力,許多非平穩(wěn)序列差分后會(huì)顯示出平穩(wěn)序列的性質(zhì),這時(shí)稱這個(gè)非平穩(wěn)序列為差分平穩(wěn)序列。常用的差分計(jì)算分為p階差分和k步差分兩種。

p階差分:做p次差分。k步差分:相距k個(gè)數(shù)據(jù)的兩個(gè)序列值之間的減法運(yùn)算稱為k步差分運(yùn)算。非平穩(wěn)時(shí)間序列分析差分運(yùn)算對(duì)差分平穩(wěn)序列可以使用ARMA模型進(jìn)行擬合。ARIMA模型的實(shí)質(zhì)就是差分運(yùn)算與ARMA模型的組合。

非平穩(wěn)時(shí)間序列分析ARIMA模型平穩(wěn)性和白噪聲檢驗(yàn)使用statsmodels庫(kù)中的stats模塊的acorr_ljungbox函數(shù)可以檢測(cè)是否為白噪聲序列,基本使用格式和常用參數(shù)說明如下:statsmodels.stats.diagnostic.acorr_ljungbox(x,lags=None,boxpierce=False,model_df=0,period=None,return_df=None)非平穩(wěn)時(shí)間序列分析參數(shù)名稱參數(shù)說明x接收array_like,接收時(shí)間序列數(shù)據(jù),無默認(rèn)值lags接收int,表示滯后數(shù)目,默認(rèn)為Noneboxpierce接收bool,表示是否返回Box-Pierce測(cè)試結(jié)果,默認(rèn)為Falsemodel_df接收int,表示模型消耗的自由度數(shù),默認(rèn)為0period接收int,表示季節(jié)性時(shí)間序列的周期,默認(rèn)為None查看時(shí)間序列平穩(wěn)性通過時(shí)間序列的時(shí)序圖和自相關(guān)圖可以查看時(shí)間序列平穩(wěn)性。使用statsmodel庫(kù)中的tsa模塊的plot_acf函數(shù)可以繪制自相關(guān)系數(shù)圖,基本使用格式和常用參數(shù)說明如下:statsmodels.tsa.stattools.plot_acf(x,lags=None,alpha=0.05,missing='none',title='Autocorrelation',zero=True)非平穩(wěn)時(shí)間序列分析參數(shù)名稱參數(shù)說明x接收array_like,表示時(shí)間序列數(shù)據(jù),無默認(rèn)值lags接收int、array_like,表示滯后值,默認(rèn)為Nonealpha接受float,表示給定級(jí)別的置信區(qū)間,默認(rèn)為0.05missing接收str,表示如何處理NaN,默認(rèn)為Nonetitle接收str,表示標(biāo)題,默認(rèn)為Autocorrelationzero接收bool,表示是否包括0滯后自相關(guān),默認(rèn)為True單位根檢驗(yàn)單位根檢驗(yàn)是指檢驗(yàn)序列中是否存在單位根,因?yàn)榇嬖趩挝桓褪欠瞧椒€(wěn)時(shí)間序列了。單位根檢驗(yàn)可以檢驗(yàn)時(shí)間序列的平穩(wěn)性。使用statsmodels庫(kù)中的tsa模塊的adfuller函數(shù)可以對(duì)原始序列進(jìn)行單位根檢驗(yàn),查看數(shù)據(jù)的平穩(wěn)性,基本使用格式和常用參數(shù)說明如下:statsmodels.tsa.stattools.adfuller(x,maxlag=None,regression='c',autolag='AIC',store=False,regresults=False)非平穩(wěn)時(shí)間序列分析參數(shù)名稱參數(shù)說明x接收array_like,表示要檢驗(yàn)的數(shù)據(jù)集,無默認(rèn)值maxlag接收int,表示最大滯后數(shù)目,默認(rèn)為Noneregresults接收bool,表示是否將完整的回歸結(jié)果將返回,默認(rèn)為False對(duì)原始序列進(jìn)行一階差分使用pandas庫(kù)中的DataFrame模塊的diff()方法可以實(shí)現(xiàn)對(duì)觀測(cè)值序列進(jìn)行差分計(jì)算,基本使用格式和常用參數(shù)說明如下:pandas.DataFrame.diff(periods=1,axis=0)非平穩(wěn)時(shí)間序列分析參數(shù)名稱參數(shù)說明periods接收int,表示差分周期,默認(rèn)為1axis接收int、str,表示對(duì)行還是列差分,默認(rèn)為0ARIMA模型構(gòu)建使用statsmodels庫(kù)中的ts

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論