時間序列數(shù)據(jù)的特征提取_第1頁
時間序列數(shù)據(jù)的特征提取_第2頁
時間序列數(shù)據(jù)的特征提取_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、CDA數(shù)據(jù)分析師(CDA.cn)真本事,心舒適時間序列數(shù)據(jù)的特征提取當(dāng)你想對時間序列數(shù)據(jù)做分類時,有兩種選擇,一個是用時間序列特定的方法,比如說說LSTM模型。另外一種方法就是來從時間序列中提取特征從而將這些特征用在有監(jiān)督的模型上在這篇文章中,我們來看下如何使用tsfresh包自動的提取時間序列數(shù)據(jù)。這份數(shù)據(jù)的來源是TimeSeriesClassificationRepository。這個網(wǎng)站中提供對很多數(shù)據(jù)集有高精度的模型,如何有興趣的,可以去詳細(xì)了解一下。時間序列比一般標(biāo)準(zhǔn)的目標(biāo)要難一些,這是因為在時間序列里的數(shù)據(jù)本身每個樣本就不是獨立的,兩個時間上月接近的樣本,就越有相關(guān)性。比如說溫度,

2、如果今天的溫度問20度,那明天更加有可能是15或者25度,而不是5或者35度。這表明這我們不能用常見的分類器來擬合數(shù)據(jù),因為對于普通的分類器來說,數(shù)據(jù)的假設(shè)前提都是需要是樣本和樣本是獨立的。并且更重要的是,有的和時間相關(guān)的數(shù)據(jù)集有更加復(fù)雜的結(jié)構(gòu),一個樣本包含了多個特征,比如說溫度,濕度,分速等等。雖然說時間序列的數(shù)據(jù)很特別,但是我們可以使用特征提起的方法將一個序列降低到一個點。比如說,如果我們現(xiàn)在是在對一個月內(nèi)的天氣相關(guān)的數(shù)據(jù)做處理,我們可以使用以下多個特征1.最小最大溫度2.溫度平均值3.溫度方差4.最小最大濕度CDA數(shù)據(jù)分析師(CDA.cn)真本事,心舒適這里只是給出了幾個例子而已,當(dāng)然了

3、這里可以有很多種特征,將他們?nèi)苛信e出來會特別麻煩,幸運的是,有一個tsfresh包,可以自動的提取出很多特征。tsfresh包在提取出的眾多的特征中,需要選取其中最為相關(guān)的,最具有預(yù)測能力的特征。并且為了防止過擬合,需要首先對數(shù)據(jù)集做切分,并且只對訓(xùn)練集做特征選擇,否則會造成過擬合的問題。tsfresh包使用的是成對檢驗法來做特征選擇的。我們先來從數(shù)據(jù)列表列提取3個時間序列數(shù)據(jù)集,F(xiàn)ordA,FordB,和Wafre并且這些數(shù)據(jù)集中提取特征。首先我們需要將這些1維的數(shù)據(jù)給上下拼接起來。In9:d.head()21.01430-0.977710.59777-0.979981.1963031.0

4、1430-1.016900.59777-1.012101.25610Out9:0101.014301.0143-0.88485-1.03750.580400.5804-0.88390-1.03711.105001.2856需要使用stack做一次拼接d=d.stack()d.index.rename(id,time,inplace=True)d=d.reset_index()得出以下的結(jié)果In11:d.head()Out11:idtime00001.0143011.0143021.0143031.0143041.0143特征提取的工作量是非常大的,所以tsfresh使用分布計算的方法來高效的做

5、特征提取。另外一種方式就可以直接設(shè)置n_jobs為1。具體代碼為以下f=extract_features(d,column_id=id,column_sort=time)#FeatureExtraction:20it22:33,67.67s/it這個時候f中有一些特征是空值,可以使用tsfresh提供的impute函數(shù)過濾掉這些特征impute(f)assertf.isnull().sum().sum()=0當(dāng)做特征選擇的時候,有一個fdr_level超參數(shù),這指的是所有不相關(guān)特征占總體的理論期望閾值,默認(rèn)值為5%,也就是從生產(chǎn)的特征中,刪除掉最不相關(guān)的特征,且這部分特征占總比的5%。有的時候我們還是需要加大這個值到0.5,甚至0.9,從而可以選取最重要的特征,并且防止緯度災(zāi)難。In2:runselect_features.pyloadingdata/wafer/features.csvselectingfeatures.selected247feature

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論