數(shù)據(jù)挖掘?qū)嶒?yàn)二:實(shí)驗(yàn)報告_第1頁
數(shù)據(jù)挖掘?qū)嶒?yàn)二:實(shí)驗(yàn)報告_第2頁
數(shù)據(jù)挖掘?qū)嶒?yàn)二:實(shí)驗(yàn)報告_第3頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、一、實(shí)驗(yàn)說明及目的1、使用真實(shí)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘?qū)嶒?yàn),實(shí)驗(yàn)前進(jìn)行數(shù)據(jù)的預(yù)處理。2、 訓(xùn)練一些不同類型的模型(具體類型可以討論),與此同時分析哪 些參數(shù)將對支持向量機(jī)(SVM )模型的性能產(chǎn)生影響。3、 通過實(shí)驗(yàn)來分析預(yù)測,將其他一些屬性作為森林覆蓋類型 (Cover_Type屬性)的模型輸入所產(chǎn)生的效果。原始數(shù)據(jù)和數(shù)據(jù)的描述見網(wǎng)址 /databases/covertype/covertype.html4、該實(shí)驗(yàn)將使學(xué)生理解完成一次真實(shí)數(shù)據(jù)預(yù)處理以及在數(shù)據(jù)挖掘過 程中對屬性、數(shù)據(jù)覆蓋類型等方面的分析工程。二、實(shí)驗(yàn)具體任務(wù)及其說明1數(shù)據(jù)預(yù)處理工作(1) 數(shù)據(jù)

2、樣本的生成:根據(jù)原始數(shù)據(jù)集生成統(tǒng)一的隨機(jī)樣本,樣 本數(shù)據(jù)量大約是原始數(shù)據(jù)量的10%,要求使用不重復(fù)抽樣。(任務(wù)1)(2)森林覆蓋值的映射:變換不同種類的屬性,將森林覆蓋值 2 映射到0,將其他值所有森林覆蓋值(1,3,4,5,6,7)映射到1。(任務(wù)2)(3) 數(shù)據(jù)預(yù)處理技巧:自行決定是否需要其他的數(shù)據(jù)預(yù)處理,注 意某些Weka軟件的使用技巧,如一些輸入輸出格式問題。有時某些方法也做必要的調(diào)整,在某些情況下必須對數(shù)據(jù)有明確的預(yù)處理,做數(shù)據(jù)預(yù)處理時可以查看 Weka軟件針對該技巧或方法的描述。(4)預(yù)處理說明:原始數(shù)據(jù)集非常大,具有7種類型的森林覆蓋, 檢查整個數(shù)據(jù)集裝載到Weka軟件是發(fā)生的情

3、況,如果機(jī)器內(nèi)存耗盡, 可以盡量增大堆的大小試試。 Weka使用指南對此有描述如何操作。)2、模型訓(xùn)練工作(1) 使用Weka分類器的評價工具進(jìn)行預(yù)測。使用Na©e Bayes 分類器對抽樣樣本進(jìn)行訓(xùn)練以預(yù)測變換的森林覆蓋類型(即是映射到 種類0還是1),使用10層交叉驗(yàn)證來評估變換的模型,Weka軟件 中自帶有對其分類器的表現(xiàn)評價器,使用自帶的評價器來確定變換模 型的精確度和變動率指標(biāo)(ROC)。(任務(wù)3)(2) 對SVM模型進(jìn)行訓(xùn)練:使用Weka軟件的SMO分類器對 支持向量機(jī)(SVM)模型進(jìn)行訓(xùn)練,訓(xùn)練2種形式的SVM模型,一種 是帶多項(xiàng)式核函數(shù)的SVM模型,另一種是帶徑向基核

4、函數(shù) (RBF Kernel)的SVM模型。訓(xùn)練時所有的參數(shù)均使用默認(rèn)值,分析并確定 這些模型的精確度和變動率指標(biāo)(ROC)。對SVM模型進(jìn)行所有的 抽樣樣本進(jìn)行訓(xùn)練可能會很慢,所以對抽樣樣本進(jìn)行分割,即使用1/20的抽樣樣本數(shù)據(jù)(或者1/200的原始數(shù)據(jù)集)進(jìn)行訓(xùn)練,使用19/20 的抽樣樣本進(jìn)行測試。(任務(wù)4)(3) 對SVM模型訓(xùn)練后進(jìn)行評估:使用至多1/20的抽樣數(shù)據(jù)進(jìn) 行訓(xùn)練,以找出帶RBF核函數(shù)的SVM最好的表現(xiàn)情況。改變參數(shù)復(fù) 雜度參數(shù)C和參數(shù)gamma (在 Weka中針對RBF核函數(shù)也有一個參 數(shù)C,該參數(shù)將不改變),使用一個等比數(shù)列的值分析這 2個參數(shù)同 時變化時產(chǎn)生的影響

5、,看看這2個參數(shù)同時比默認(rèn)情況下大一些或小 一些的情況,以找出最佳的參數(shù)設(shè)置。分析并確定所有SVM模型的 精確度和變動率指標(biāo)(ROC)。(注意:如果使用1/20的抽樣樣本數(shù) 據(jù)量來訓(xùn)練各自的SVM模型超過30分鐘,可以進(jìn)一步減少樣本數(shù)據(jù)量以避免計(jì)算資源的耗盡,在提交的實(shí)驗(yàn)報告中可以記錄這些樣本數(shù)據(jù)的具體訓(xùn)練時間)(任務(wù)5)三、實(shí)驗(yàn)結(jié)果的提交說明1、描述所有的數(shù)據(jù)預(yù)處理步驟。(1)在使用Weka軟件的知識流工具時,提交其中的工作流圖示, 并對工作流中所有參數(shù)設(shè)置進(jìn)行闡述。(2)提交產(chǎn)生抽樣樣本數(shù)據(jù)的代碼并對代碼進(jìn)行適當(dāng)?shù)淖⑨屨f明,還可以描述產(chǎn)生的樣本有多少元組等。2、描述怎樣訓(xùn)練和評估Na?/e

6、 Bayes模型。(1)在使用Weka軟件的知識流工具時,提交其中的工作流圖示, 并對工作流中所有參數(shù)設(shè)置進(jìn)行闡述。(2)給出模型的訓(xùn)練時間、精確度和變動率指標(biāo)范圍。3、描述怎樣訓(xùn)練和評估上述2個SVM模型。(1)給出模型的訓(xùn)練時間、精確度和變動率指標(biāo)范圍。4、給出所有(C, gamma)參數(shù)組合序列,針對每個組合給出模型訓(xùn) 練時間、精確度和變動率指標(biāo)范圍。討論那個參數(shù)組合是最佳的。5、給出訓(xùn)練后Na©e Bayes模型的ROC曲線和SVM模型的最佳ROC 曲線,可以使用 Weka軟件的“ Model Performanee Chart”工具去實(shí) 現(xiàn),提供軟件中“ Classifie

7、r Performanee Evaluator”合適的輸出作為 該工具的輸入。四、實(shí)驗(yàn)步驟及相關(guān)結(jié)果1、任務(wù)1的具體實(shí)驗(yàn)步驟(1)使用C程序生成抽樣樣本數(shù)據(jù):#in clude<stdio.h>#in clude<stri ng.h>int mai n()int i;FILE *fp1;FILE *fp2;char msg200;fp1=fope n(".covtype.datacovtype.txt","r");fp2=fope n(".covtype.dataproject.txt","w&quo

8、t;);sran d(1);while(!feof(fp1)fgets(msg,200,fp1);i=ra nd()%10;if (i=1)fprin tf(fp2,"%s",msg); /every line of data has 10% probability to be writte nreturn 1;/*樣本有58105個實(shí)例數(shù)據(jù)。*(2)使用下面的格式表示格式、屬性名、數(shù)據(jù)生成 arff文件relati on forestattribute Elevation numericattribute Aspect nu mericattribute Slope nu

9、 mericattribute Horiz on tal_Dista nce_To_Hydrology nu mericattribute Vertical_Dista nce_To_Hydrology nu mericattribute Horiz on tal_Dista nce_To_Roadways nu mericattribute Hillshade_9am nu mericattribute Hillshade_N oon nu mericattribute Hillshade_3pm nu mericattribute Horiz on tal_Dista nce_To_Fir

10、e_Po ints nu mericattribute Wilderness_Area nu mericattribute w_a_1 nu mericattribute w_a_2 nu mericattribute w_a_3 nu mericattribute w_a_4 nu mericattribute Soil_Type_1 nu mericattribute Soil_Type_2 nu mericattribute Soil_Type_3 nu mericattribute Soil_Type_4 nu mericattribute Soil_Type_5 nu mericat

11、tribute Soil_Type_6 nu mericattribute Soil_Type_7 nu mericattribute Soil_Type_8 nu mericattribute Soil_Type_9 nu mericattribute Soil_Type_10 nu mericattribute Soil_Type_11 numericattribute Soil_Type_12 numericattribute Soil_Type_13 numericattribute Soil_Type_14 nu mericattribute Soil_Type_15 nu meri

12、cattribute Soil_Type_16 numericattribute Soil_Type_17 nu mericattribute Soil_Type_18 nu mericattribute Soil_Type_20 nu mericattribute Soil_Type_21 numericattribute Soil_Type_22 nu mericattribute Soil_Type_23 nu mericattribute Soil_Type_24 nu mericattribute Soil_Type_25 nu mericattribute Soil_Type_26

13、 nu mericattribute Soil_Type_27 nu mericattribute Soil_Type_28 nu mericattribute Soil_Type_29 nu mericattribute Soil_Type_30 nu mericattribute Soil_Type_31 numericattribute Soil_Type_32 nu mericattribute Soil_Type_33 nu mericattribute Soil Type 34 nu meric0,1 ” later, this kind is faster to preproce

14、ssattribute Soil_Type_35 nu meric attribute Soil_Type_36 nu meric attribute Soil_Type_37 nu meric attribute Soil_Type_38 nu meric attribute Soil_Type_39 nu meric attribute Soil_Type_40 nu meric attribute Cover_Type nu meric /the last nu meric will cha nge to data ”2、任務(wù)2的具體實(shí)驗(yàn)步驟(1)使用Weka軟件的探測器打開sample

15、.arff文件。(2) 在預(yù)處理時,點(diǎn)擊“ edit按鈕,選擇“ cover_type屬性性行,選擇替代值,用值“0代替原來的值2”,用1”代替原來的值3,4,5,67 (保持原來的值“ 1不變)打開文件后探測器顯示界面如下:* Weka ExplorerL 口 I 冋StatusOK打開文件后指示器界面如下:.3&Soil_Typfl_3TSuil-Typ.SETqnw 書 icScil_Typs_39i cSffil_TyF*_0V-EUT«tT i-cC a-VHir 0 .0a ,00.05.0 . 0O. 0cl a, cOi 0 9 00.00.00. . 0CL

16、 05. 00.00.0o.a0.0ao5.00.010.00 0 .00.05.0Li. 0OJjo. a0.0OU5. 00.00 LIo. .00.05. 00.00 n0.00.00.00.0a.o0.0a .a0.05.0. a0. 0o. a s 0O 059 口.o0 0o. . 0CL 05. 0 .00.00.00.0ao0.00.00.00.00.00.00.0Cl. 00.0o. aa.o0.0a.o0.00 LI0. .0OlO1.0 .0 00. .00.00.0 00- ,c0 0 .0 . 00.00 s 0O 01,0 .00. 0CL . 0Ol 01.00.

17、00.00.0 .0OlO0.0a.O0.00.00.00.0a.oCl. 00.0LI. 00.0o.uLI. 0O.Oi0.00. .00.0 .Q"fFII =4 ViewerReli qty' for*stUndoOKCancel替代操作界面:替換了所有的值之后,將arff文件中的命令” attributeCover_Type numeric 變成 ” attribute Cover_Type 0,1卜3、任務(wù)3的具體實(shí)驗(yàn)步驟(1)使用 Weka的知識流插件,具體工作流布局如下圖所示:Knowledge Flow Layout駅 fLM 砂aassAssigflerC

18、tassVWueCw 彩詢 iditionRickerFoldVfaker諭來IPeffflnmarce Chart按照要求,參數(shù)設(shè)置:默認(rèn)設(shè)置,交叉驗(yàn)證層數(shù)F=10精確度:4073370.1024% (正確分類情況下)ROC 范圍:0.759歷時過程及時間如下:ArffL:ider0:0:2? ini shed.Cr ossValidationFcldMdrer0:0:1Nai/eBayes0:0:4Finished.Classi fisrP er form ance.0:0:20Finished.建立模型用了 20秒。(各自運(yùn)行環(huán)境不同時間將不同!)= = Evaluation resul

19、D = = =: Wai veBaYes:Relation: Ear estCorize'Ctly ClBLSsifled IiiHtances4073370B1024Incorrectly Classified Instances173726976.%Kiappa statistic0,4029Mean ahflaiutJ= error:0,3433Root m總hi squared erroE0-4663Res丄ative absolute ecroE60.7103Root relative scrusKed ecror9>3.2&78Total wiJiftF-cP

20、-r or inscQiices5S1O5= = De called Accuracy By Class =TP RaceFT RauePrecisionRecallF-HeasureROC AreaClass0.734口山日Qa 6780.7340.70S口. 759D0.7O.266CL 7260-67 . 6970a 7591Weigtited Avg_D. 701O . 297 3 7030-701Cl. 7010-759- CpnfiAffipn Mat;-EIk =Qb< Glassified as2075138337539 Iji - 019962 Ib - 1模型的評價結(jié)

21、果如上圖所示數(shù)據(jù)森林覆蓋圖如下所示:¥: True Posi live Eate I:舐nJittmrClass colour4、任務(wù)4的具體實(shí)驗(yàn)步驟(1)帶多項(xiàng)式核函數(shù)的SVM模型情況下,使用 Weka的知識流插件,具體工作流布局如下圖所示:Kh«wltdga Flow Layout/Wf Loadertraining Set test SetSMO參數(shù)設(shè)置如下:Clssifi er opti onsAboutImplements John Platt's sequential minimaS optimizationMorealgorithm fortraini

22、ng a support vector classifier.buildLoi mtlcMorkls c the cksTurne dCff debug epsilon filt&rType kernel nsFolds randomSeed tslfirric $Far aineterFalse10Filse1.0E-12Normali ze trailing datChoos. FvlyKernal 7 250007 E 1.0Q. 0010Execution slots 2訓(xùn)練測試數(shù)據(jù)分割生成如下:fr ainT«stSpli tMakerCustoini zerAL

23、outSplit an incoming dta set into separate train and test sets軸w精確度:4095874.1993 % (正確分類情況下)ROC 范圍:0.744歷時過程及時間如下:Ar ffLoader0:t):lFini sh&d.SHO-C 1 0 -L 0.0010 -? !.OE-12 T 0:0:7Fini sh$d.Classi £i«rF«rfor(hanc&.Fini Ehed,建立模型用了 7秒。(各自運(yùn)行環(huán)境不同時間將不同!)模型的評價結(jié)果如下圖所示:Evaluation resu

24、lt -Optlom: -C L.Q -L 0.0010L.&L-12 BT 0 -V -1 -U 1 -K iimka. clasaitiers. fuzictims. svrpportVector»PolyKetnel -C 2S0007 -E 1.0*'Peloiticin:CorrectlyiMtances4A9S674.193 *IncE-rrertly Classif ie-d InstEnqes4225.gQQ7 *Kappa scarlsicleDu4B53neaxi au solace ei2i:or0.2S6Pact; ucan aquoied e

25、rcaiQ®旳Relotiyfr皀E上白ESl.dDai %Rqoe re Laxlve 日 quare ettozlDI.Dia %Total Dhuiheic of tMtHiicesssioo=Dec.&llei9 Aeeiaracy By=-=TP RateFP Fat-eFt亡cisionRecal1F-MeasurcROC AreaClass0.8150U 327QS7Q3山目咔Qs7S5口門目400.673o.iasQa794D.673a.7zaClW.1tielcthtflia Avg.0.720.25-50.749DM竝0.710.144=Canfusim=

26、a bclajifiedm21 495SIn = Q92B6 19069jb = 1(2)帶RBF核函數(shù)的SVM模型情況下,使用Weka的知識流插件,具體工作流布局如下圖所示:血曲1電丘直電Flow LayoutPerformance ChartPerformaiice EvatuntorSMO參數(shù)設(shè)置如下:Classi£1 er optionsAboutImplements John FlatTs sequential minimal aptfrriizationM«r«algarithrn fortraining a supportvectorclasgifi

27、er. 1.Ca.pabiliti esExeeutiort slot2精確度:3774568.3786 % (正確分類情況下)ROC 范圍:0.687歷時過程及時間如下:ArffLaidcrgn:iFinished.SlflCi-C LO -L 0.0010 -P l.OE-12Q 呻汕0:9:41Tinishti.匚1電五s:i fif orn-iiric aEviLLmt or陰£4Fi n.i訪沁建立模型用了 9分鐘41秒。(各自運(yùn)行環(huán)境不同時間將不同?。┠P偷脑u價結(jié)果如下圖所示:fvaiua.t3.Dn resultSthetDer SKOOptyiansE -C 1.0

28、-L QiODlO -F 1 .OE-1Z -N D -V -1 -W 1 -K "neka.clsusif Hsrs.EiuwtIanstsupportVe口上, R日FKexm更J. -C MMDDV -G 0.01 Rvla-clQH:377517550-3719O.31G2ObS£2S3 P£517 I112.4602 電3SZOO石8山湘百%31.6214 *CDK-srflctly ClAsslfled InsrAnes I口 £;£ EEDti 1 Classified IlLStHILCeS Kap卩呂 曰匚aria匚1.亡 H

29、enn solute etror DC*t mean fquaxe-d ezxoE- Relarivc ahaoluEE- £rror fiDQT. relative suired erfOE Total JJijnitieir at Enst-snceaTP Hs.eeTP PacePrecisionPecAl丄F-HeMureROC AreaClassQ.B19 吧呂0.919D.71SD-6S70口-5弘口. 1B1EL 7百卑. SEE . fi-H口 - &BT1ieighced Avg«D6S40-309CL 702D6S嗎0.6790,&B7Bet-ailed iccucacif ByC 丄 HBB CQP£*U41Qh Ha匚a b < c lass i±xed as219S1 i36q |ft - 012591 15764 jh- - 15、任務(wù)5的具體實(shí)驗(yàn)步驟不同復(fù)雜度C下,參數(shù)gamma精確度、ROC范圍、耗時的表現(xiàn)結(jié)果如下:c=0.1c=lc=10gammaaccuracyROCtimeaccuracyROCtimeaccuracy

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論