




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第一個例子:import matplotlib.pyplot as pltimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.decomposition import PCAfrom sklearn.pipeline import make_pipelinefrom sklearn.preprocessing import FunctionTransformerdef _generate_vector(shift=0.5, noise=15): return np.arange(1
2、000) + (np.random.rand(1000) - shift) * noisedef generate_dataset(): """ This dataset is two lines with a slope 1, where one has a y offset of 100 """ return np.vstack( np.vstack( _generate_vector(), _generate_vector() + 100, ).T, np.vstack( _generate_vector(), _generat
3、e_vector(), ).T, ), np.hstack(np.zeros(1000), np.ones(1000)def all_but_first_column(X): return X:, 1:def drop_first_component(X, y): """ Create a pipeline with PCA and the column selector and use it to transform the dataset. """ pipeline = make_pipeline( PCA(), Function
4、Transformer(all_but_first_column), ) X_train, X_test, y_train, y_test = train_test_split(X, y) pipeline.fit(X_train, y_train) return pipeline.transform(X_test), y_testif _name_ = '_main_': X, y = generate_dataset() lw = 0 plt.figure() plt.scatter(X:, 0, X:, 1, c=y, lw=lw) plt.figure() X_tran
5、sformed, y_transformed = drop_first_component(*generate_dataset() plt.scatter( X_transformed:, 0, np.zeros(len(X_transformed), c=y_transformed, lw=lw, s=60 ) plt.show()第二個例子:from _future_ import print_functionprint(_doc_)# Code source: Thomas Unterthiner# License: BSD 3 clauseimport matplotlib.pyplo
6、t as pltimport numpy as npfrom sklearn.preprocessing import StandardScaler, RobustScaler# Create training and test datanp.random.seed(42)n_datapoints = 100Cov = 0.9, 0.0, 0.0, 20.0mu1 = 100.0, -3.0mu2 = 101.0, -3.0X1 = np.random.multivariate_normal(mean=mu1, cov=Cov, size=n_datapoints)X2 = np.random
7、.multivariate_normal(mean=mu2, cov=Cov, size=n_datapoints)Y_train = np.hstack(-1*n_datapoints, 1*n_datapoints)X_train = np.vstack(X1, X2)X1 = np.random.multivariate_normal(mean=mu1, cov=Cov, size=n_datapoints)X2 = np.random.multivariate_normal(mean=mu2, cov=Cov, size=n_datapoints)Y_test = np.hstack(
8、-1*n_datapoints, 1*n_datapoints)X_test = np.vstack(X1, X2)X_train0, 0 = -1000 # a fairly large outlier# Scale datastandard_scaler = StandardScaler()Xtr_s = standard_scaler.fit_transform(X_train)Xte_s = standard_scaler.transform(X_test)robust_scaler = RobustScaler()Xtr_r = robust_scaler.fit_transform
9、(X_train)Xte_r = robust_scaler.transform(X_test)# Plot datafig, ax = plt.subplots(1, 3, figsize=(12, 4)ax0.scatter(X_train:, 0, X_train:, 1, color=np.where(Y_train > 0, 'r', 'b')ax1.scatter(Xtr_s:, 0, Xtr_s:, 1, color=np.where(Y_train > 0, 'r', 'b')ax2.scatter(X
10、tr_r:, 0, Xtr_r:, 1, color=np.where(Y_train > 0, 'r', 'b')ax0.set_title("Unscaled data")ax1.set_title("After standard scaling (zoomed in)")ax2.set_title("After robust scaling (zoomed in)")# for the scaled data, we zoom in to the data center (outlier c
11、an't be seen!)for a in ax1: a.set_xlim(-3, 3) a.set_ylim(-3, 3)plt.tight_layout()plt.show()# Classify using k-NNfrom sklearn.neighbors import KNeighborsClassifierknn = KNeighborsClassifier()knn.fit(Xtr_s, Y_train)acc_s = knn.score(Xte_s, Y_test)print("Testset accuracy using standard scaler:
12、 %.3f" % acc_s)knn.fit(Xtr_r, Y_train)acc_r = knn.score(Xte_r, Y_test)print("Testset accuracy using robust scaler: %.3f" % acc_r)Scikit-learn Preprocessing 預處理本文主要是對照scikit-learn的preprocessing章節(jié)結合代碼簡單的回顧下預處理技術的幾種方法,主要包括標準化、數據最大最小縮放處理、正則化、特征二值化和數據缺失值處理。內容比較簡單,僅供參考!首先來回顧一下下面要用到的基本知識。一、知
13、識回顧均值公式:x¯=1n_i=1nxi方差公式:s2=1n_i=1n(xix¯)20-范數,向量中非零元素的個數。1-范數:|X|=_i=1n|xi|2-范數:|X|_2=(_i=1nx2i)12p-范數的計算公式:|X|p=(|x1|p+|x2|p+.+|xn|p)1p數據標準化:當單個特征的樣本取值相差甚大或明顯不遵從高斯正態(tài)分布時,標準化表現的效果較差。實際操作中,經常忽略特征數據的分布形狀,移除每個特征均值,劃分離散特征的標準差,從而等級化,進而實現數據中心化。二、標準化(Standardization),或者去除均值和方差進行縮放公式為:(X-X_mean)/X
14、_std 計算時對每個屬性/每列分別進行.將數據按其屬性(按列進行)減去其均值,然后除以其方差。最后得到的結果是,對每個屬性/每列來說所有數據都聚集在0附近,方差值為1。首先說明下sklearn中preprocessing庫里面的scale函數使用方法:sklearn.preprocessing.scale(X, axis=0, with_mean=True,with_std=True,copy=True)根據參數的不同,可以沿任意軸標準化數據集。參數解釋:· X:數組或者矩陣· axis:int類型,初始值為0,axis用來計算均值 means 和標準方差 standar
15、d deviations. 如果是0,則單獨的標準化每個特征(列),如果是1,則標準化每個觀測樣本(行)。· with_mean: boolean類型,默認為True,表示將數據均值規(guī)范到0· with_std: boolean類型,默認為True,表示將數據方差規(guī)范到1一個簡單的例子假設現在我構造一個數據集X,然后想要將其標準化。下面使用不同的方法來標準化X:方法一:使用sklearn.preprocessing.scale()函數方法說明:· X.mean(axis=0)用來計算數據X每個特征的均值;· X.std(axis=0)用來計算數據X每個特
16、征的方差;· preprocessing.scale(X)直接標準化數據X。將代碼整理到一個文件中:from sklearn import preprocessing import numpy as npX = np.array( 1., -1., 2., 2., 0., 0., 0., 1., -1.)# calculate meanX_mean = X.mean(axis=0)# calculate variance X_std = X.std(axis=0)# standardize XX1 = (X-X_mean)/X_std# use function preprocess
17、ing.scale to standardize XX_scale = preprocessing.scale(X)最后X_scale的值和X1的值是一樣的,前面是單獨的使用數學公式來計算,主要是為了形成一個對比,能夠更好的理解scale()方法。方法2:sklearn.preprocessing.StandardScaler類該方法也可以對數據X進行標準化處理,實例如下:from sklearn import preprocessing import numpy as npX = np.array( 1., -1., 2., 2., 0., 0., 0., 1., -1.)scaler =
18、preprocessing.StandardScaler()X_scaled = scaler.fit_transform(X)這兩個方法得到最后的結果都是一樣的。三、將特征的取值縮小到一個范圍(如0到1)除了上述介紹的方法之外,另一種常用的方法是將屬性縮放到一個指定的最大值和最小值(通常是1-0)之間,這可以通過preprocessing.MinMaxScaler類來實現。使用這種方法的目的包括:· 1、對于方差非常小的屬性可以增強其穩(wěn)定性;· 2、維持稀疏矩陣中為0的條目。下面將數據縮至0-1之間,采用MinMaxScaler函數from sklearn import
19、preprocessing import numpy as npX = np.array( 1., -1., 2., 2., 0., 0., 0., 1., -1.)min_max_scaler = preprocessing.MinMaxScaler()X_minMax = min_max_scaler.fit_transform(X)最后輸出:array( 0.5 , 0. , 1. , 1. , 0.5 , 0.33333333, 0. , 1. , 0. )測試用例:>>> X_test = np.array( -3., -1., 4.)>>> X_
20、test_minmax = min_max_scaler.transform(X_test)>>> X_test_minmaxarray(-1.5 , 0. , 1.66666667)注意:這些變換都是對列進行處理。當然,在構造類對象的時候也可以直接指定最大最小值的范圍:feature_range=(min, max),此時應用的公式變?yōu)椋篨_std=(X-X.min(axis=0)/(X.max(axis=0)-X.min(axis=0)X_minmax=X_std/(X.max(axis=0)-X.min(axis=0)+X.min(axis=0)四、正則化(Normal
21、ization)正則化的過程是將每個樣本縮放到單位范數(每個樣本的范數為1),如果要使用如二次型(點積)或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。該方法是文本分類和聚類分析中經常使用的向量空間模型(Vector Space Model)的基礎.Normalization主要思想是對每個樣本計算其p-范數,然后對該樣本中每個元素除以該范數,這樣處理的結果是使得每個處理后樣本的p-范數(l1-norm,l2-norm)等于1。方法1:使用sklearn.preprocessing.normalize()函數>>> X = 1., -1., 2.,. 2., 0.,
22、0.,. 0., 1., -1.>>> X_normalized = preprocessing.normalize(X, norm='l2')>>> X_normalized array( 0.40., -0.40., 0.81., 1. ., 0. ., 0. ., 0. ., 0.70., -0.70.)方法2:sklearn.preprocessing.StandardScaler類>>> normalizer = preprocessing.Normalizer().fit(X) # fit does nothin
23、g>>> normalizerNormalizer(copy=True, norm='l2')然后使用正則化實例來轉換樣本向量:>>> normalizer.transform(X) array( 0.40., -0.40., 0.81., 1. ., 0. ., 0. ., 0. ., 0.70., -0.70.)>>> normalizer.transform(-1., 1., 0.) array(-0.70., 0.70., 0. .)兩種方法都可以,效果是一樣的。五、二值化(Binarization)特征的二值化主要
24、是為了將數據特征轉變成boolean變量。在sklearn中,sklearn.preprocessing.Binarizer函數可以實現這一功能。實例如下:>>> X = 1., -1., 2.,. 2., 0., 0.,. 0., 1., -1.>>> binarizer = preprocessing.Binarizer().fit(X) # fit does nothing>>> binarizerBinarizer(copy=True, threshold=0.0)>>> binarizer.transform(X
25、)array( 1., 0., 1., 1., 0., 0., 0., 1., 0.)Binarizer函數也可以設定一個閾值,結果數據值大于閾值的為1,小于閾值的為0,實例代碼如下:>>> binarizer = preprocessing.Binarizer(threshold=1.1)>>> binarizer.transform(X)array( 0., 0., 1., 1., 0., 0., 0., 0., 0.)六、缺失值處理由于不同的原因,許多現實中的數據集都包含有缺失值,要么是空白的,要么使用NaNs或者其它的符號替代。這些數據無法直接使用scikit-learn分類器直接訓練,所以需要進行處理。幸運地是,sklearn中的Imputer類提供了一些基本的方法來處理缺失值,如使用均值、中位值或者缺失值所在列中頻繁出現的值來替換。下面是使用均值來處理的實例:>>> import numpy as np>>> from sklearn.prepro
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于人工智能的2025年智慧交通流量預測技術發(fā)展動態(tài)報告
- 建筑施工安全監(jiān)測方法試題及答案
- 城市交通擁堵治理2025年公交優(yōu)先戰(zhàn)略的實施效果分析報告
- 匯和銀行筆試題庫及答案
- 黃巖區(qū)面試真題及答案
- 黃河委面試真題及答案
- 安全工程師考試常識題目試題及答案
- 工業(yè)互聯(lián)網背景下量子通信技術2025年應用前景分析報告
- 物理學中的混沌現象研究試題及答案
- 智能建筑系統(tǒng)集成與節(jié)能降耗在體育場館中的應用效果研究報告
- 廣東省珠海市2024-2025學年高二下學期期中教學質量檢測英語試題(原卷版+解析版)
- 北京2025年中國環(huán)境監(jiān)測總站招聘(第二批)筆試歷年參考題庫附帶答案詳解
- 美國加征關稅從多個角度全方位解讀關稅課件
- “皖南八?!?024-2025學年高一第二學期期中考試-英語(譯林版)及答案
- 2025-2030中國安宮牛黃丸行業(yè)市場現狀分析及競爭格局與投資發(fā)展研究報告
- 防洪防汛安全教育知識培訓
- 安寧療護人文關懷護理課件
- 2025年廣東廣州中物儲國際貨運代理有限公司招聘筆試參考題庫附帶答案詳解
- 商場物業(yè)人員缺失的補充措施
- 黑龍江省齊齊哈爾市龍江縣部分學校聯(lián)考2023-2024學年八年級下學期期中考試物理試題【含答案、解析】
- 《尋常型銀屑病中西醫(yī)結合診療指南》
評論
0/150
提交評論