Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-1.數(shù)據(jù)預處理_第1頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-1.數(shù)據(jù)預處理_第2頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-1.數(shù)據(jù)預處理_第3頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-1.數(shù)據(jù)預處理_第4頁
Python金融數(shù)據(jù)分析與挖掘(微課版) 課件 5-1.數(shù)據(jù)預處理_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第5章機器學習與實現(xiàn)缺失值處理數(shù)據(jù)規(guī)范化主成分分析缺失值處理第5章

在數(shù)據(jù)處理過程中,缺失值是常見的,需要對其進行處理。Pandas包中的fillna()函數(shù)并沒有充分利用數(shù)據(jù)集中的信息。這里介紹scikit-learn包中能充分利用數(shù)據(jù)信息的3種常用填充方法,即均值填充、中位數(shù)填充和最頻繁值填充。注意填充方式主要是按列填充均值填充:對某列中的所有缺失值用該列中非缺失部分的值的平均值來表示;中位數(shù)填充:取某列中非缺失部分的值的中位數(shù)來表示缺失值。最頻繁值填充:取某列中非缺失部分的值出現(xiàn)頻次最多的值來表示缺失值。(常用于分類型或離散型變量)缺失值處理第5章

(1)導入數(shù)據(jù)預處理中的填充模塊SimpleImputer

fromsklearn.imputeimportSimpleImputer(2)利用SimpleImputer創(chuàng)建填充對象impimp=SimpleImputer(missing_values=np.nan,strategy='mean')參數(shù)說明如下:strategy:均值(mean)、中位數(shù)(median)、最頻繁值(most_frequent)(3)調用填充對象imp中的fit()擬合方法,對待填充數(shù)據(jù)進行擬合訓練。

imp.fit(Data)#Data為待填充數(shù)據(jù)集變量(4)調用填充對象imp中的transform()方法,返回填充后的數(shù)據(jù)集。

FData=imp.transform(Data)#返回填充后的數(shù)據(jù)集FData需要注意的是填充的數(shù)據(jù)集結構要求為數(shù)組或數(shù)據(jù)框,類型為數(shù)值類型缺失值處理第5章

fromsklearn.imputeimportSimpleImputerfC=Cimp=SimpleImputer(missing_values=np.nan,strategy='mean')imp.fit(fC)fC=imp.transform(fC)數(shù)據(jù)規(guī)范化第5章

變量或指標的單位不同,導致有些指標數(shù)據(jù)值非常大,而有些指標數(shù)據(jù)值非常小,在模型運算過程中大的數(shù)據(jù)會把小的數(shù)據(jù)覆蓋,導致模型失真。因此,需要對這些數(shù)據(jù)規(guī)范化處理,或者說去量綱化。所謂均值-方差規(guī)范化,是指變量或指標數(shù)據(jù)減去其均值再除以標準差得到新的數(shù)據(jù)。新的數(shù)據(jù)均值為0,方差為1,其公式如下:極差規(guī)范化是指變量或指標數(shù)據(jù)減去其最小值,再除以最大值與最小值之差,得到新的數(shù)據(jù)。新的數(shù)據(jù)取值范圍在[0,1],其公式如下:數(shù)據(jù)規(guī)范化第5章

對數(shù)據(jù)集X(數(shù)組)做均值-方差規(guī)范化處理,基本步驟如下:(1)導入均值-方差規(guī)范化模塊StandardScaler。

fromsklearn.preprocessingimportStandardScaler(2)利用StandardScaler創(chuàng)建均值-方差規(guī)范化對象scaler。

scaler=StandardScaler()(3)調用scaler對象中的fit()擬合方法,對待處理的數(shù)據(jù)X進行擬合訓練。

scaler.fit(X)(4)調用scaler對象中的transform()方法,返回規(guī)范化后的數(shù)據(jù)集X(覆蓋原未規(guī)范化的X)。

X=scaler.transform(X)數(shù)據(jù)規(guī)范化第5章

fromsklearn.preprocessingimportStandardScalerX=datascaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)數(shù)據(jù)規(guī)范化第5章

對數(shù)據(jù)集X1(數(shù)組)做極差規(guī)范化處理,基本步驟如下:(1)導入極差規(guī)范化模塊MinMaxScaler。

fromsklearn.preprocessingimportMinMaxScaler(2)利用MinMaxScaler創(chuàng)建極差規(guī)范化對象min_max_scaler。

min_max_scaler=MinMaxScaler()(3)調用min_max_scaler中的fit()擬合方法,對處理的數(shù)據(jù)X1進行擬合訓練。

min_max_scaler.fit(X1)(4)調用min_max_scaler中的transform()方法,返回處理后的數(shù)據(jù)集X1(覆蓋原未處理的X1)。

X1=min_max_scaler.transform(X1)數(shù)據(jù)規(guī)范化第5章

fromsklearn.preprocessingimportMinMaxScalerX1=datamin_max_scaler=MinMaxScaler()min_max_scaler.fit(X1)x1=min_max_scaler.transform(X1)主成分分析第5章

在數(shù)據(jù)分析與挖掘中,通常會遇到眾多變量,這些變量之間往往具有一定的相關性。例如,身高、體重這兩個指標,身高較高,其體重也相對較大;經營收入、凈利潤這兩個指標,經營收入越高,其凈利潤也相對較高,這就是指標之間相關性的一種體現(xiàn)。如果眾多指標之間具有較強的相關性,不僅會增加計算復雜度,也會影響模型的分析結果。一種思路就是把眾多的變量轉換為少數(shù)幾個互不相關的綜合變量,同時又不影響原來變量所反映的信息。這種方法在數(shù)學上稱為主成分分析我們通??吹礁鞣N各樣的排行榜,如綜合國力排名、省市經濟發(fā)展水平排名、大學綜合排名等——綜合評價問題,就是主成分分析應用的一種體現(xiàn)。主成分分析第5章

怎樣對各地區(qū)2016年農村居民人均可支配收入情況進行排名呢

地區(qū)工資性收入(X1)經營凈收入(X2)財產凈收入(X3)轉移凈收入(X4)北京16637.52061.91350.12260天津12048.15309.4893.71824.4河北6263.23970257.51428.6山西5204.42729.91491999.1內蒙古2448.96215.7452.62491.7…………………………我們需要一個綜合指標來衡量,但是這個綜合指標該如何定義和計算呢?指標加權是一個通常的思路,例如: Y1=a11×X1+a12×X2+a13×X3+a14×X4Xi反映了地區(qū)農村居民人均可支配收入某個方面的指標,僅代表某方面的信息,它在綜合指標Y1中,其重要程度可以通過對應的a1j來反映,可以稱a1j為信息系數(shù)。注意綜合變量Y1盡量不丟失原來變量反映的信息,如果一個綜合變量不夠,就繼續(xù)構造新的綜合變量Y2,……,同時要求綜合變量之間互不相關主成分分析第5章

Y1=a11×X1+a12×X2+a13×X3+a14×X4不丟失原來變量反映的信息(方差),其數(shù)學表達式為:

Var(X1)+…+Var(X4)=Var(Y1)如果Y1還不足以保留原來的信息,則再構造一個Y2:

Y2=a21×X1+a22×X2+a23×X3+a24×X4使得Y1和Y2不相關,同時:

Var(X1)+…+Var(X4)=Var(Y1)+Var(Y2)如果還不足以保留原來的信息,則繼續(xù)構造Y3??傊疃鄻嬙斓結4一定能滿足條件。一般地,前k個變換后的變量Y1…Yk,其方差之和與原變量總方差之比為:

(Var(Y1)+Var(Y2)+Var(Yk))/(Var(X1)+…+Var(X4))稱其為k個變換后變量的信息占比。在實際應用中只需取少數(shù)幾個變換后的變量。例如,它們的

信息占比為90%,就可以說采用變換后的變量反映了原來變量90%的信息。以上僅是方便理解,系數(shù)如何限制?系數(shù)向量如何計算?這些分析嚴格嗎?為了解決這些問題,需要給出嚴格的主成分分析數(shù)學模型(具體見課本)。主成分分析第5章

主成分分析的一般步驟(1)對原始數(shù)據(jù)進行標準化處理。(2)計算樣本相關系數(shù)矩陣。(3)求相關系數(shù)矩陣的特征值和相應的特征向量。(4)選擇重要的主成分,并寫出主成分表達式。(5)計算主成分得分。(6)依據(jù)主成分得分的數(shù)據(jù),進一步從事統(tǒng)計分析。主成分分析(應用舉例)第5章

#數(shù)據(jù)獲取importpandasaspdData=pd.read_excel('農村居民人均可支配收入來源2016.xlsx')X=Data.iloc[:,1:]#數(shù)據(jù)規(guī)范化處理fromsklearn.preprocessingimportStandardScalerscaler=StandardScaler()scaler.fit(X)X=scaler.transform(X)(1)數(shù)據(jù)獲取及數(shù)據(jù)規(guī)范化處理主成分分析(應用舉例)第5章

①導入主成分分析模塊PCA。

fromsklearn.decompositionimportPCA②利用PCA創(chuàng)建主成分分析對象pca。

pca=PCA(n_components=0.95)③調用pca對象中的fit()方法,進行擬合訓練。

pca.fit(X)④調用pca對象中的transform()方法,返回提取的主成分。

Y=pca.transform(X)⑤通過pca對象中的相關屬性,返回相關結果。

tzxl=ponents_#返回特征向量

tz=pca.explained_variance_#返回特征值

#返回主成分方差百分比(貢獻率)

gxl=pca.explained_variance_ratio_(2)對標準化后的數(shù)據(jù)X做主成分分析,基本步驟如下:主成分分析(應用舉例)第5章

⑥主成分表達式及驗證。由前面分析,我們知道第i個主成分表示為:代表第i個主成分對應的特征向量。例如,可以通過程序驗證第1個主成分前面的4個分量的值。Y00=sum(X[0,:]*tzxl[0,:])Y01=sum(X[1,:]*tzxl[0,:])Y02=sum(X[2,:]*tzxl[0,:])Y03=sum(X[3,:]*tzxl[0,:])。主成分分析(應用舉

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論