數(shù)據(jù)挖掘?qū)嶒灦嶒瀳蟾鎋第1頁
數(shù)據(jù)挖掘?qū)嶒灦嶒瀳蟾鎋第2頁
數(shù)據(jù)挖掘?qū)嶒灦嶒瀳蟾鎋第3頁
數(shù)據(jù)挖掘?qū)嶒灦嶒瀳蟾鎋第4頁
數(shù)據(jù)挖掘?qū)嶒灦嶒瀳蟾鎋第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

一、試驗說明及目標1、使用真實數(shù)據(jù)進行數(shù)據(jù)挖掘試驗,試驗前進行數(shù)據(jù)預處理。2、訓練一些不一樣類型模型(詳細類型能夠討論),與此同時分析哪些參數(shù)將對支持向量機(SVM)模型性能產(chǎn)生影響。3、經(jīng)過試驗來分析預測,將其余一些屬性作為森林覆蓋類型(Cover_Type屬性)模型輸入所產(chǎn)生效果。原始數(shù)據(jù)和數(shù)據(jù)描述見網(wǎng)址4、該試驗將使學生了解完成一次真實數(shù)據(jù)預處理以及在數(shù)據(jù)挖掘過程中對屬性、數(shù)據(jù)覆蓋類型等方面分析工程。二、試驗詳細任務及其說明1、數(shù)據(jù)預處理工作(1)數(shù)據(jù)樣本生成:依照原始數(shù)據(jù)集生成統(tǒng)一隨機樣本,樣本數(shù)據(jù)量大約是原始數(shù)據(jù)量10%,要求使用不重復抽樣。(任務1)(2)森林覆蓋值映射:變換不一樣種類屬性,將森林覆蓋值2映射到0,將其余值全部森林覆蓋值(1,3,4,5,6,7)映射到1。(任務2)(3)數(shù)據(jù)預處理技巧:自行決定是否需要其余數(shù)據(jù)預處理,注意一些Weka軟件使用技巧,如一些輸入輸出格式問題。有時一些方法也做必要調(diào)整,在一些情況下必須對數(shù)據(jù)有明確預處理,做數(shù)據(jù)預處理時能夠查看Weka軟件針對該技巧或方法描述。(4)預處理說明:原始數(shù)據(jù)集非常大,具備7種類型森林覆蓋,檢驗整個數(shù)據(jù)集裝載到Weka軟件是發(fā)生情況,假如機器內(nèi)存耗盡,能夠盡可能增大堆大小試試。Weka使用指南對此有描述怎樣操作。)2、模型訓練工作(1)使用Weka分類器評價工具進行預測。使用Na?veBayes分類器對抽樣樣本進行訓練以預測變換森林覆蓋類型(即是映射到種類0還是1),使用10層交叉驗證來評定變換模型,Weka軟件中自帶有對其分類器表現(xiàn)評價器,使用自帶評價器來確定變換模型精準度和變動率指標(ROC)。(任務3)(2)對SVM模型進行訓練:使用Weka軟件SMO分類器對支持向量機(SVM)模型進行訓練,訓練2種形式SVM模型,一個是帶多項式核函數(shù)SVM模型,另一個是帶徑向基核函數(shù)(RBFKernel)SVM模型。訓練時全部參數(shù)均使用默認值,分析并確定這些模型精準度和變動率指標(ROC)。對SVM模型進行全部抽樣樣本進行訓練可能會很慢,所以對抽樣樣本進行分割,即使用1/20抽樣樣本數(shù)據(jù)(或者1/200原始數(shù)據(jù)集)進行訓練,使用19/20抽樣樣本進行測試。(任務4)(3)對SVM模型訓練后進行評定:使用至多1/20抽樣數(shù)據(jù)進行訓練,以找出帶RBF核函數(shù)SVM最好表現(xiàn)情況。改變參數(shù)復雜度參數(shù)C和參數(shù)gamma(在Weka中針對RBF核函數(shù)也有一個參數(shù)C,該參數(shù)將不改變),使用一個等比數(shù)列值分析這2個參數(shù)同時改變時產(chǎn)生影響,看看這2個參數(shù)同時比默認情況下大一些或小一些情況,以找出最好參數(shù)設置。分析并確定全部SVM模型精準度和變動率指標(ROC)。(注意:假如使用1/20抽樣樣本數(shù)據(jù)量來訓練各自SVM模型超出30分鐘,能夠深入降低樣本數(shù)據(jù)量以防止計算資源耗盡,在提交試驗匯報中能夠統(tǒng)計這些樣本數(shù)據(jù)詳細訓練時間)(任務5)三、試驗結(jié)果提交說明1、描述全部數(shù)據(jù)預處理步驟。(1)在使用Weka軟件知識流工具時,提交其中工作流圖示,并對工作流中全部參數(shù)設置進行闡述。(2)提交產(chǎn)生抽樣樣本數(shù)據(jù)代碼并對代碼進行適當注釋說明,還能夠描述產(chǎn)生樣本有多少元組等。2、描述怎樣訓練和評定Na?veBayes模型。(1)在使用Weka軟件知識流工具時,提交其中工作流圖示,并對工作流中全部參數(shù)設置進行闡述。(2)給出模型訓練時間、精準度和變動率指標范圍。3、描述怎樣訓練和評定上述2個SVM模型。(1)給出模型訓練時間、精準度和變動率指標范圍。4、給出全部(C,gamma)參數(shù)組合序列,針對每個組合給出模型訓練時間、精準度和變動率指標范圍。討論那個參數(shù)組合是最好。5、給出訓練后Na?veBayes模型ROC曲線和SVM模型最好ROC曲線,能夠使用Weka軟件“ModelPerformanceChart”工具去實現(xiàn),提供軟件中“ClassifierPerformanceEvaluator”適宜輸出作為該工具輸入。四、試驗步驟及相關結(jié)果1、任務1詳細試驗步驟(1)使用C程序生成抽樣樣本數(shù)據(jù):#include<stdio.h>#include<string.h>intmain(){inti;FILE*fp1;FILE*fp2;charmsg[200];fp1=fopen(".\\covtype.data\\covtype.txt","r");fp2=fopen(".\\covtype.data\\project.txt","w");srand(1);while(!feof(fp1)){fgets(msg,200,fp1);i=rand()%10;if(i==1){fprintf(fp2,"%s",msg);//everylineofdatahas10%probabilitytobewritten}}return1;}//**樣本有58105個實例數(shù)據(jù)。**(2)使用下面格式表示格式、屬性名、數(shù)據(jù)生成arff文件“@relationforest@attributeElevationnumeric@attributeAspectnumeric@attributeSlopenumeric@attributeHorizontal_Distance_To_Hydrologynumeric@attributeVertical_Distance_To_Hydrologynumeric@attributeHorizontal_Distance_To_Roadwaysnumeric@attributeHillshade_9amnumeric@attributeHillshade_Noonnumeric@attributeHillshade_3pmnumeric@attributeHorizontal_Distance_To_Fire_Pointsnumeric@attributeWilderness_Areanumeric@attributew_a_1numeric@attributew_a_2numeric@attributew_a_3numeric@attributew_a_4numeric@attributeSoil_Type_1numeric@attributeSoil_Type_2numeric@attributeSoil_Type_3numeric@attributeSoil_Type_4numeric@attributeSoil_Type_5numeric@attributeSoil_Type_6numeric@attributeSoil_Type_7numeric@attributeSoil_Type_8numeric@attributeSoil_Type_9numeric@attributeSoil_Type_10numeric@attributeSoil_Type_11numeric@attributeSoil_Type_12numeric@attributeSoil_Type_13numeric@attributeSoil_Type_14numeric@attributeSoil_Type_15numeric@attributeSoil_Type_16numeric@attributeSoil_Type_17numeric@attributeSoil_Type_18numeric@attributeSoil_Type_20numeric@attributeSoil_Type_21numeric@attributeSoil_Type_22numeric@attributeSoil_Type_23numeric@attributeSoil_Type_24numeric@attributeSoil_Type_25numeric@attributeSoil_Type_26numeric@attributeSoil_Type_27numeric@attributeSoil_Type_28numeric@attributeSoil_Type_29numeric@attributeSoil_Type_30numeric@attributeSoil_Type_31numeric@attributeSoil_Type_32numeric@attributeSoil_Type_33numeric@attributeSoil_Type_34numeric@attributeSoil_Type_35numeric@attributeSoil_Type_36numeric@attributeSoil_Type_37numeric@attributeSoil_Type_38numeric@attributeSoil_Type_39numeric@attributeSoil_Type_40numeric@attributeCover_Typenumeric//thelastnumericwillchangeto“{0,1}”later,thiskindisfastertopreprocess@data”2、任務2詳細試驗步驟(1)使用Weka軟件探測器打開sample.arff文件。(2)在預處理時,點擊“edit”按鈕,選擇“cover_type”屬性行,選擇代替值,用值“0”代替原來值“2”,用“1”代替原來值“3,4,5,6,7”(保持原來值“1”不變)。打開文件后探測器顯示界面以下:打開文件后指示器界面以下:代替操作界面:替換了全部值之后,將arff文件中命令”@attributeCover_Typenumeric”變成”@attributeCover_Type{0,1}”。3、任務3詳細試驗步驟(1)使用Weka知識流插件,詳細工作流布局以下列圖所表示:按照要求,參數(shù)設置:默認設置,交叉驗證層數(shù)F=10精準度:40733 70.1024%(正確分類情況下)ROC范圍:0.759歷時過程及時間以下:建立模型用了20秒。(各自運行環(huán)境不一樣時間將不一樣?。┠P驮u價結(jié)果如上圖所表示。數(shù)據(jù)森林覆蓋圖以下所表示:4、任務4詳細試驗步驟(1)帶多項式核函數(shù)SVM模型情況下,使用Weka知識流插件,詳細工作流布局以下列圖所表示:SMO參數(shù)設置以下:訓練測試數(shù)據(jù)分割生成以下:精準度:4095874.1993%(正確分類情況下)ROC范圍:0.744歷時過程及時間以下:建立模型用了7秒。(各自運行環(huán)境不一樣時間將不一樣!)模型評價結(jié)果以下列圖所表示:(2)帶RBF核函數(shù)SVM模型情況下,使用Weka知識流插件,詳細工作流布局以下列圖所表示:SMO參數(shù)設置以下:精準度:3774568.3786%(正確分類情況下)ROC范圍:0.687歷時過程及時間以下:建立模型用了9分鐘41秒。(各自運行環(huán)境不一樣時間將不一樣!)模型評價結(jié)果以下列圖所表示:5、任務5詳細試驗步驟不一樣復雜度C下,參數(shù)gamma、精準度、ROC范圍、耗時表現(xiàn)結(jié)果以下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論