下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第一個(gè)例子:importmatplotlib.pyplotaspltimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.decompositionimportPCAfromsklearn.pipelineimportmake_pipelinefromsklearn.preprocessingimportFunctionTransformerdef_generate_vector(shift=0.5,noise=15):returnnp.arange(1000)+(np.random.rand(1
2、000)-shift)*noisedefgenerate_dataset():"""Thisdatasetistwolineswithaslope1,whereonehasayoffsetof100"""returnnp.vstack(np.vstack(_generate_vector(),_generate_vector()+100,).T,np.vstack(_generate_vector(),_generate_vector(),).T,),np.hstack(np.zeros(1000),np.ones(1000)defa
3、ll_but_first_column(X):returnX:,1:defdrop_first_component(X,y):"""CreateapipelinewithPCAandthecolumnselectoranduseittotransformthedataset."""pipeline=make_pipeline(PCA(),FunctionTransformer(all_but_first_column),)X_train,X_test,y_train,y_test=train_test_split(X,y)pipeli
4、ne.fit(X_train,y_train)returnpipeline.transform(X_test),y_testif_name_='_main_':X,y=generate_dataset()Iw=0plt.figure()plt.scatter(X:,0,X:,1,c=y,lw=lw)plt.figure()X_transformed,y_transformed=drop_first_component(*generate_dataset()plt.scatter(X_transformed:,0,np.zeros(len(X_transformed),c=y_t
5、ransformed,lw=lw,s=60)plt.show()第二個(gè)例子:from_future_importprint_functionprint(_doc_)# Codesource:ThomasUnterthiner# License:BSD3clauseimportmatplotlib.pyplotaspltimportnumpyasnpfromsklearn.preprocessingimportStandardScaler,RobustScaler# Createtrainingandtestdatanp.random.seed(42)n_datapoints=100Cov=0.
6、9,0.0,0.0,20.0mu1=100.0,-3.0mu2=101.0,-3.0X1=np.random.multivariate_normal(mean=mu1,cov=Cov,size=n_datapoints)X2=np.random.multivariate_normal(mean=mu2,cov=Cov,size=n_datapoints)Y_train=np.hstack(-1*n_datapoints,1*n_datapoints)X_train=np.vstack(X1,X2)X1=np.random.multivariate_normal(mean=mu1,cov=Cov
7、,size=n_datapoints)X2=np.random.multivariate_normal(mean=mu2,cov=Cov,size=n_datapoints)Y_test=np.hstack(-1*n_datapoints,1*n_datapoints)X_test=np.vstack(X1,X2)X_train0,0=-1000#afairlylargeoutlier# Scaledatastandard_scaler=StandardScaler()Xtr_s=standard_scaler.fit_transform(X_train)Xte_s=standard_scal
8、er.transform(X_test)robust_scaler=RobustScaler()Xtr_r=robust_scaler.fit_transform(X_train)Xte_r=robust_scaler.transform(X_test)# Plotdatafig,ax=plt.subplots(1,3,figsize=(12,4)ax0.scatter(X_train:,0,X_train:,1,color=np.where(Y_train>0,'r','b')ax1.scatter(Xtr_s:,0,Xtr_s:,1,color=np.
9、where(Y_train>0,'r','b')ax2.scatter(Xtr_r:,0,Xtr_r:,1,color=np.where(Y_train>0,'r','b')ax0.set_title("Unscaleddata")ax1.set_title("Afterstandardscaling(zoomedin)")ax2.set_title("Afterrobustscaling(zoomedin)")# forthescaleddata,wezoo
10、mintothedatacenter(outliercan'tbeseen!)forainax1:a.set_xlim(-3,3)a.set_ylim(-3,3)plt.tight_layout()plt.show()# Classifyusingk-NNfromsklearn.neighborsimportKNeighborsClassifierknn=KNeighborsClassifier()knn.fit(Xtr_s,Y_train)acc_s=knn.score(Xte_s,Y_test)print("Testsetaccuracyusingstandardscal
11、er:%.3f"%acc_s)knn.fit(Xtr_r,Y_train)acc_r=knn.score(Xte_r,Y_test)print("Testsetaccuracyusingrobustscaler:%.3f"%acc_r)Scikit-learnPreprocessing預(yù)處理本文主要是對(duì)照scikit-learn的preprocessing章節(jié)結(jié)合代碼簡(jiǎn)單的回憶下預(yù)處理技術(shù)的幾種方法,主要包括標(biāo)準(zhǔn)化、數(shù)據(jù)最大最小縮放處理、正那么化、特征二值化和數(shù)據(jù)缺失值處理.內(nèi)容比擬簡(jiǎn)單,僅供參考!首先往返憶一下下面要用到的根本知識(shí).一、知識(shí)回憶均值公式:x=nl
12、2_i=1nxi方差公式:s2=1n2_i=1n(xi-x2)0-范數(shù),向量中非零元素的個(gè)數(shù).1-范數(shù):|X|二屋1n|xi|2-范數(shù):|X|_2=(i=1nx2i)12p-范數(shù)的計(jì)算公式:|X|p=(|x1|p+|x2|p+|xn|p)1p數(shù)據(jù)標(biāo)準(zhǔn)化:當(dāng)單個(gè)特征的樣本取值相差甚大或明顯不遵從高斯正態(tài)分布時(shí),標(biāo)準(zhǔn)化表現(xiàn)的效果較差.實(shí)際操作中,經(jīng)常忽略特征數(shù)據(jù)的分布形狀,移除每個(gè)特征均值,劃別離散特征的標(biāo)準(zhǔn)差,從而等級(jí)化,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)中央化.二、標(biāo)準(zhǔn)化(Standardization),或者去除均值和方差進(jìn)行縮放公式為:(X-X_mean)/X_std計(jì)算時(shí)對(duì)每個(gè)屬性/每列分別進(jìn)行.將數(shù)據(jù)按其屬
13、性(按列進(jìn)行)減去其均值,然后除以其方差.最后得到的結(jié)果是,對(duì)每個(gè)屬性/每列來說所有數(shù)據(jù)都聚集在0附近,方差值為1.首先說明下sklearn中preprocessing庫(kù)里面的scale函數(shù)使用方法:sklearn.preprocessing.scale(X,axis=0,with_mean=True,with_std=True,copy=True)根據(jù)參數(shù)的不同,可以沿任意軸標(biāo)準(zhǔn)化數(shù)據(jù)集.參數(shù)解釋:X:數(shù)組或者矩陣axis:int類型,初始值為0,axis用來計(jì)算均值means和標(biāo)準(zhǔn)方差standarddeviations.如果是0,那么單獨(dú)的標(biāo)準(zhǔn)化每個(gè)特征(列),如果是1,那么標(biāo)準(zhǔn)化每個(gè)觀
14、測(cè)樣本(行).with_mean:boolean類型,默認(rèn)為True,表示將數(shù)據(jù)均值標(biāo)準(zhǔn)到0with_std:boolean類型,默認(rèn)為True,表示將數(shù)據(jù)方差標(biāo)準(zhǔn)到1一個(gè)簡(jiǎn)單的例子假設(shè)現(xiàn)在我構(gòu)造一個(gè)數(shù)據(jù)集X,然后想要將其標(biāo)準(zhǔn)化.下面使用不同的方法來標(biāo)準(zhǔn)化X:方法一:使用sklearn.preprocessing.scale()函數(shù)方法說明:X.mean(axis=0)用來計(jì)算數(shù)據(jù)X每個(gè)特征的均值;X.std(axis=0)用來計(jì)算數(shù)據(jù)X每個(gè)特征的方差;preprocessing.scale(X)直接標(biāo)準(zhǔn)化數(shù)據(jù)X.將代碼整理到一個(gè)文件中:fromsklearnimportpreprocessi
15、ngimportnumpyasnpX=np.array(1.,-1.,2.,2.,0.,0.,0.,1.,-1.)# calculatemeanX_mean=X.mean(axis=0)# calculatevarianceX_std=X.std(axis=0)# standardizeXX1=(X-X_mean)/X_std#usefunctionpreprocessing.scaletostandardizeXX_scale=preprocessing.scale(X)最后X_scale的值和X1的值是一樣的,前面是單獨(dú)的使用數(shù)學(xué)公式來計(jì)算,主要是為了形成一個(gè)比照,能夠更好的理解scale
16、()方法.方法2:sklearn.preprocessing.StandardScaler類該方法也可以對(duì)數(shù)據(jù)X進(jìn)行標(biāo)準(zhǔn)化處理,實(shí)例如下:fromsklearnimportpreprocessingimportnumpyasnpX=np.array(1.,-1.,2.,2.,0.,0.,0.,1.,-1.)scaler=preprocessing.StandardScaler()X_scaled=scaler.fit_transform(X)這兩個(gè)方法得到最后的結(jié)果都是一樣的.、將特征的取值縮小到一個(gè)范圍(如0到1)除了上述介紹的方法之外,另一種常用的方法是將屬性縮放到一個(gè)指定的最大值和最小值
17、類來實(shí)現(xiàn).(通常是1-0)之間,這可以通過preprocessing.MinMaxScaler使用這種方法的目的包括:1、對(duì)于方差非常小的屬性可以增強(qiáng)其穩(wěn)定性;2、維持稀疏矩陣中為0的條目.卜面將數(shù)據(jù)縮至0-1之間,采用MinMaxScaler函數(shù)fromsklearnimportpreprocessingimportnumpyasnpX=np.array(1.,-1.,2.,2.,0.,0.,0.,1.,-1.min_max_scaler=preprocessing.MinMaxScaler()X_minMax=min_max_scaler.fit_transform(X)最后輸出:arra
18、y(0.51.0.測(cè)試用例:,0.0.51.>>>X_test=np.array(,0.33333333,0.-3.,-1.,4.>>>X_test_minmax=min_max_scaler.transform(X_test)>>>X_test_minmaxarray(-1.5,0.,1.66666667注意:這些變換都是對(duì)列進(jìn)行處理.feature_range=(min,max),當(dāng)然,在構(gòu)造類對(duì)象的時(shí)候也可以直接指定最大最小值的范圍:此時(shí)應(yīng)用的公式變?yōu)椋篨_std=(X-X.min(axis=0)/(X.max(axis=0)-X.m
19、in(axis=0)X_minmax=X_std/(X.max(axis=0)-X.min(axis=0)+X.min(axis=0)四、正那么化(Normalization)正那么化的過程是將每個(gè)樣本縮放到單位范數(shù)(每個(gè)樣本的范數(shù)為1),如果要使用如二次型(點(diǎn)積)或者其它核方法計(jì)算兩個(gè)樣本之間的相似性這個(gè)方法會(huì)很有用.該方法是文本分類和聚類分析中經(jīng)常使用的向量空間模型(VectorSpaceModel)的根底.Normalization主要思想是對(duì)每個(gè)樣本計(jì)算其p-范數(shù),然后對(duì)該樣本中每個(gè)元素除以該范數(shù),這樣處理的結(jié)果是使得每個(gè)處理后樣本的p-范數(shù)(l1-norm,l2-norm)等于1.方
20、法1:使用sklearn.preprocessing.normalize()函數(shù)>>>X=1.,-1.,2.,.2.,0.,0.,.0.,1.,-1.>>>X_normalized=preprocessing.normalize(X,norm='12')>>>X_normalizedarray(0.40.,-0.40.,0.81.,L.,6.,6.,0.,0.70.,-0.70.)方法2:sklearn.preprocessing.StandardScaler類>>>normalizer=preproces
21、sing.Normalizer().fit(X)#fitdoesnothing>>>normalizerNormalizer(copy=True,norm='l2')然后使用正那么化實(shí)例來轉(zhuǎn)換樣本向量:>>>normalizer.transform(X)array(0.40.,-0.40.,0.81.,1.,0.,0.,0.,0.70.,-0.70.)>>>normalizer.transform(-1.,1.,0.)array(-0.70.,0.70.,0.)兩種方法都可以,效果是一樣的.五、二值化(Binarizatio
22、n)特征的二值化主要是為了將數(shù)據(jù)特征轉(zhuǎn)變成boolean變量.在sklearn中,sklearn.preprocessing.Binarizer函數(shù)可以實(shí)現(xiàn)這一功能.實(shí)例如下:>>>X=1.,-1.,2.,.2.,0.,0.,.0.,1.,-1.>>>binarizer=preprocessing.Binarizer().fit(X)#fitdoesnothing>>>binarizerBinarizer(copy=True,threshold=0.0)>>>binarizer.transform(X)array(1.,0
23、.,1.1,1.,0.,0.,0.,1.,0.)Binarizer函數(shù)也可以設(shè)定一個(gè)閾值,結(jié)果數(shù)據(jù)值大于閾值的為1,小于閾值的為0,實(shí)例代碼如下:>>>binarizer=preprocessing.Binarizer(threshold=1.1)>>>binarizer.transform(X)array(0.,0.,1.,1.,0.,0.,0.,0.,0.六、缺失值處理由于不同的原因,許多現(xiàn)實(shí)中的數(shù)據(jù)集都包含有缺失值,要么是空白的,要么使用NaNs或者其它的符號(hào)替代.這些數(shù)據(jù)無法直接使用scikit-learn分類器直接練習(xí),所以需要進(jìn)行處理.幸運(yùn)地是,sklearn中的Imputer類提供了一些根本的方法來處理缺失值,如使用均值、中位值或者缺失值所在列中頻繁出現(xiàn)的值來替換.下面是使用均值來處理的實(shí)例:> >>importnumpyasnp> >>fromsklearn.pr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024個(gè)人借款合同的范本2
- Sophoridine-Standard-生命科學(xué)試劑-MCE
- Sodium-1-undecyl-sulfate-SUS-生命科學(xué)試劑-MCE
- SLC7A11-IN-2-生命科學(xué)試劑-MCE
- Siamenoside-I-Standard-生命科學(xué)試劑-MCE
- 高效農(nóng)業(yè)項(xiàng)目建議書
- 標(biāo)準(zhǔn)廠房及附屬設(shè)施建設(shè)項(xiàng)目可行性研究報(bào)告
- 基于核心素養(yǎng)的小學(xué)道德與法治表現(xiàn)性評(píng)價(jià)指標(biāo)體系構(gòu)建
- 計(jì)算機(jī)組成原理(蘇軟件)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 《市場(chǎng)調(diào)查》在線作業(yè)3
- 《平衡計(jì)分卡》課件
- 機(jī)場(chǎng)運(yùn)行職業(yè)生涯規(guī)劃書
- 超聲科發(fā)展規(guī)劃方案
- 《常見腫瘤的防治》課件
- 老人摔倒該不該扶
- 褐煤分析報(bào)告
- 文化與藝術(shù)行業(yè)2024年人力資源管理與制度優(yōu)化
- 《雷達(dá)原理與系統(tǒng)》課件
- 2024年日歷表(空白)(一月一張-可編輯做工作日歷)
- 2024年半導(dǎo)體技術(shù)行業(yè)培訓(xùn)資料
- 掌握動(dòng)物園營(yíng)銷技巧
評(píng)論
0/150
提交評(píng)論