大數(shù)據(jù)預(yù)處理代碼

上傳人：3*** IP屬地：湖北上傳時(shí)間：2022-03-07 格式：DOC 頁數(shù)：13 大小：27.62KB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩8頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第一個(gè)例子：import matplotlib.pyplot as pltimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.decomposition import PCAfrom sklearn.pipeline import make_pipelinefrom sklearn.preprocessing import FunctionTransformerdef _generate_vector(shift=0.5, noise=15): return np.arange(1

2、000) + (np.random.rand(1000) - shift) * noisedef generate_dataset(): """ This dataset is two lines with a slope 1, where one has a y offset of 100 """ return np.vstack( np.vstack( _generate_vector(), _generate_vector() + 100, ).T, np.vstack( _generate_vector(), _generat

3、e_vector(), ).T, ), np.hstack(np.zeros(1000), np.ones(1000)def all_but_first_column(X): return X:, 1:def drop_first_component(X, y): """ Create a pipeline with PCA and the column selector and use it to transform the dataset. """ pipeline = make_pipeline( PCA(), Function

4、Transformer(all_but_first_column), ) X_train, X_test, y_train, y_test = train_test_split(X, y) pipeline.fit(X_train, y_train) return pipeline.transform(X_test), y_testif _name_ = '_main_': X, y = generate_dataset() lw = 0 plt.figure() plt.scatter(X:, 0, X:, 1, c=y, lw=lw) plt.figure() X_tran

5、sformed, y_transformed = drop_first_component(*generate_dataset() plt.scatter( X_transformed:, 0, np.zeros(len(X_transformed), c=y_transformed, lw=lw, s=60 ) plt.show()第二個(gè)例子：from _future_ import print_functionprint(_doc_)# Code source: Thomas Unterthiner# License: BSD 3 clauseimport matplotlib.pyplo

6、t as pltimport numpy as npfrom sklearn.preprocessing import StandardScaler, RobustScaler# Create training and test datanp.random.seed(42)n_datapoints = 100Cov = 0.9, 0.0, 0.0, 20.0mu1 = 100.0, -3.0mu2 = 101.0, -3.0X1 = np.random.multivariate_normal(mean=mu1, cov=Cov, size=n_datapoints)X2 = np.random

7、.multivariate_normal(mean=mu2, cov=Cov, size=n_datapoints)Y_train = np.hstack(-1*n_datapoints, 1*n_datapoints)X_train = np.vstack(X1, X2)X1 = np.random.multivariate_normal(mean=mu1, cov=Cov, size=n_datapoints)X2 = np.random.multivariate_normal(mean=mu2, cov=Cov, size=n_datapoints)Y_test = np.hstack(

8、-1*n_datapoints, 1*n_datapoints)X_test = np.vstack(X1, X2)X_train0, 0 = -1000 # a fairly large outlier# Scale datastandard_scaler = StandardScaler()Xtr_s = standard_scaler.fit_transform(X_train)Xte_s = standard_scaler.transform(X_test)robust_scaler = RobustScaler()Xtr_r = robust_scaler.fit_transform

9、(X_train)Xte_r = robust_scaler.transform(X_test)# Plot datafig, ax = plt.subplots(1, 3, figsize=(12, 4)ax0.scatter(X_train:, 0, X_train:, 1, color=np.where(Y_train > 0, 'r', 'b')ax1.scatter(Xtr_s:, 0, Xtr_s:, 1, color=np.where(Y_train > 0, 'r', 'b')ax2.scatter(X

10、tr_r:, 0, Xtr_r:, 1, color=np.where(Y_train > 0, 'r', 'b')ax0.set_title("Unscaled data")ax1.set_title("After standard scaling (zoomed in)")ax2.set_title("After robust scaling (zoomed in)")# for the scaled data, we zoom in to the data center (outlier c

11、an't be seen!)for a in ax1: a.set_xlim(-3, 3) a.set_ylim(-3, 3)plt.tight_layout()plt.show()# Classify using k-NNfrom sklearn.neighbors import KNeighborsClassifierknn = KNeighborsClassifier()knn.fit(Xtr_s, Y_train)acc_s = knn.score(Xte_s, Y_test)print("Testset accuracy using standard scaler:

12、 %.3f" % acc_s)knn.fit(Xtr_r, Y_train)acc_r = knn.score(Xte_r, Y_test)print("Testset accuracy using robust scaler: %.3f" % acc_r)Scikit-learn Preprocessing 預(yù)處理本文主要是對(duì)照scikit-learn的preprocessing章節(jié)結(jié)合代碼簡(jiǎn)單的回顧下預(yù)處理技術(shù)的幾種方法，主要包括標(biāo)準(zhǔn)化、數(shù)據(jù)最大最小縮放處理、正則化、特征二值化和數(shù)據(jù)缺失值處理。內(nèi)容比較簡(jiǎn)單，僅供參考！首先來回顧一下下面要用到的基本知識(shí)。一、知

13、識(shí)回顧均值公式：x¯=1n_i=1nxi方差公式：s2=1n_i=1n(xix¯)20-范數(shù)，向量中非零元素的個(gè)數(shù)。1-范數(shù)：|X|=_i=1n|xi|2-范數(shù)：|X|_2=(_i=1nx2i)12p-范數(shù)的計(jì)算公式：|X|p=(|x1|p+|x2|p+.+|xn|p)1p數(shù)據(jù)標(biāo)準(zhǔn)化：當(dāng)單個(gè)特征的樣本取值相差甚大或明顯不遵從高斯正態(tài)分布時(shí)，標(biāo)準(zhǔn)化表現(xiàn)的效果較差。實(shí)際操作中，經(jīng)常忽略特征數(shù)據(jù)的分布形狀，移除每個(gè)特征均值，劃分離散特征的標(biāo)準(zhǔn)差，從而等級(jí)化，進(jìn)而實(shí)現(xiàn)數(shù)據(jù)中心化。二、標(biāo)準(zhǔn)化(Standardization)，或者去除均值和方差進(jìn)行縮放公式為：(X-X_mean)/X

14、_std 計(jì)算時(shí)對(duì)每個(gè)屬性/每列分別進(jìn)行.將數(shù)據(jù)按其屬性(按列進(jìn)行)減去其均值，然后除以其方差。最后得到的結(jié)果是，對(duì)每個(gè)屬性/每列來說所有數(shù)據(jù)都聚集在0附近，方差值為1。首先說明下sklearn中preprocessing庫里面的scale函數(shù)使用方法：sklearn.preprocessing.scale(X, axis=0, with_mean=True,with_std=True,copy=True)根據(jù)參數(shù)的不同，可以沿任意軸標(biāo)準(zhǔn)化數(shù)據(jù)集。參數(shù)解釋：· X：數(shù)組或者矩陣· axis：int類型，初始值為0，axis用來計(jì)算均值 means 和標(biāo)準(zhǔn)方差 standar

15、d deviations. 如果是0，則單獨(dú)的標(biāo)準(zhǔn)化每個(gè)特征（列），如果是1，則標(biāo)準(zhǔn)化每個(gè)觀測(cè)樣本（行）。· with_mean: boolean類型，默認(rèn)為True，表示將數(shù)據(jù)均值規(guī)范到0· with_std: boolean類型，默認(rèn)為True，表示將數(shù)據(jù)方差規(guī)范到1一個(gè)簡(jiǎn)單的例子假設(shè)現(xiàn)在我構(gòu)造一個(gè)數(shù)據(jù)集X，然后想要將其標(biāo)準(zhǔn)化。下面使用不同的方法來標(biāo)準(zhǔn)化X：方法一：使用sklearn.preprocessing.scale()函數(shù)方法說明：· X.mean(axis=0)用來計(jì)算數(shù)據(jù)X每個(gè)特征的均值；· X.std(axis=0)用來計(jì)算數(shù)據(jù)X每個(gè)特

16、征的方差；· preprocessing.scale(X)直接標(biāo)準(zhǔn)化數(shù)據(jù)X。將代碼整理到一個(gè)文件中：from sklearn import preprocessing import numpy as npX = np.array( 1., -1., 2., 2., 0., 0., 0., 1., -1.)# calculate meanX_mean = X.mean(axis=0)# calculate variance X_std = X.std(axis=0)# standardize XX1 = (X-X_mean)/X_std# use function preprocess

17、ing.scale to standardize XX_scale = preprocessing.scale(X)最后X_scale的值和X1的值是一樣的，前面是單獨(dú)的使用數(shù)學(xué)公式來計(jì)算，主要是為了形成一個(gè)對(duì)比，能夠更好的理解scale()方法。方法2：sklearn.preprocessing.StandardScaler類該方法也可以對(duì)數(shù)據(jù)X進(jìn)行標(biāo)準(zhǔn)化處理，實(shí)例如下：from sklearn import preprocessing import numpy as npX = np.array( 1., -1., 2., 2., 0., 0., 0., 1., -1.)scaler =

18、preprocessing.StandardScaler()X_scaled = scaler.fit_transform(X)這兩個(gè)方法得到最后的結(jié)果都是一樣的。三、將特征的取值縮小到一個(gè)范圍（如0到1）除了上述介紹的方法之外，另一種常用的方法是將屬性縮放到一個(gè)指定的最大值和最小值(通常是1-0)之間，這可以通過preprocessing.MinMaxScaler類來實(shí)現(xiàn)。使用這種方法的目的包括：· 1、對(duì)于方差非常小的屬性可以增強(qiáng)其穩(wěn)定性；· 2、維持稀疏矩陣中為0的條目。下面將數(shù)據(jù)縮至0-1之間，采用MinMaxScaler函數(shù)from sklearn import

19、preprocessing import numpy as npX = np.array( 1., -1., 2., 2., 0., 0., 0., 1., -1.)min_max_scaler = preprocessing.MinMaxScaler()X_minMax = min_max_scaler.fit_transform(X)最后輸出：array( 0.5 , 0. , 1. , 1. , 0.5 , 0.33333333, 0. , 1. , 0. )測(cè)試用例：>>> X_test = np.array( -3., -1., 4.)>>> X_

20、test_minmax = min_max_scaler.transform(X_test)>>> X_test_minmaxarray(-1.5 , 0. , 1.66666667)注意：這些變換都是對(duì)列進(jìn)行處理。當(dāng)然，在構(gòu)造類對(duì)象的時(shí)候也可以直接指定最大最小值的范圍：feature_range=(min, max)，此時(shí)應(yīng)用的公式變?yōu)椋篨_std=(X-X.min(axis=0)/(X.max(axis=0)-X.min(axis=0)X_minmax=X_std/(X.max(axis=0)-X.min(axis=0)+X.min(axis=0)四、正則化(Normal

21、ization)正則化的過程是將每個(gè)樣本縮放到單位范數(shù)(每個(gè)樣本的范數(shù)為1)，如果要使用如二次型(點(diǎn)積)或者其它核方法計(jì)算兩個(gè)樣本之間的相似性這個(gè)方法會(huì)很有用。該方法是文本分類和聚類分析中經(jīng)常使用的向量空間模型（Vector Space Model)的基礎(chǔ).Normalization主要思想是對(duì)每個(gè)樣本計(jì)算其p-范數(shù)，然后對(duì)該樣本中每個(gè)元素除以該范數(shù)，這樣處理的結(jié)果是使得每個(gè)處理后樣本的p-范數(shù)(l1-norm,l2-norm)等于1。方法1：使用sklearn.preprocessing.normalize()函數(shù)>>> X = 1., -1., 2.,. 2., 0.,

22、0.,. 0., 1., -1.>>> X_normalized = preprocessing.normalize(X, norm='l2')>>> X_normalized array( 0.40., -0.40., 0.81., 1. ., 0. ., 0. ., 0. ., 0.70., -0.70.)方法2：sklearn.preprocessing.StandardScaler類>>> normalizer = preprocessing.Normalizer().fit(X) # fit does nothin

23、g>>> normalizerNormalizer(copy=True, norm='l2')然后使用正則化實(shí)例來轉(zhuǎn)換樣本向量：>>> normalizer.transform(X) array( 0.40., -0.40., 0.81., 1. ., 0. ., 0. ., 0. ., 0.70., -0.70.)>>> normalizer.transform(-1., 1., 0.) array(-0.70., 0.70., 0. .)兩種方法都可以，效果是一樣的。五、二值化(Binarization)特征的二值化主要

24、是為了將數(shù)據(jù)特征轉(zhuǎn)變成boolean變量。在sklearn中，sklearn.preprocessing.Binarizer函數(shù)可以實(shí)現(xiàn)這一功能。實(shí)例如下：>>> X = 1., -1., 2.,. 2., 0., 0.,. 0., 1., -1.>>> binarizer = preprocessing.Binarizer().fit(X) # fit does nothing>>> binarizerBinarizer(copy=True, threshold=0.0)>>> binarizer.transform(X

25、)array( 1., 0., 1., 1., 0., 0., 0., 1., 0.)Binarizer函數(shù)也可以設(shè)定一個(gè)閾值，結(jié)果數(shù)據(jù)值大于閾值的為1，小于閾值的為0，實(shí)例代碼如下：>>> binarizer = preprocessing.Binarizer(threshold=1.1)>>> binarizer.transform(X)array( 0., 0., 1., 1., 0., 0., 0., 0., 0.)六、缺失值處理由于不同的原因，許多現(xiàn)實(shí)中的數(shù)據(jù)集都包含有缺失值，要么是空白的，要么使用NaNs或者其它的符號(hào)替代。這些數(shù)據(jù)無法直接使用scikit-learn分類器直接訓(xùn)練，所以需要進(jìn)行處理。幸運(yùn)地是，sklearn中的Imputer類提供了一些基本的方法來處理缺失值，如使用均值、中位值或者缺失值所在列中頻繁出現(xiàn)的值來替換。下面是使用均值來處理的實(shí)例：>>> import numpy as np>>> from sklearn.prepro

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)預(yù)處理代碼

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)預(yù)處理代碼

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔