數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炛笇?-王浩暢_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炛笇?-王浩暢_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炛笇?-王浩暢_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炛笇?-王浩暢_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炛笇?-王浩暢_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炛笇鴸|北石油大學計算機與信息技術(shù)系王浩暢實驗一 Weka實驗環(huán)境初探一、實驗名稱: Weka實驗環(huán)境初探二、實驗目的:通過一個已有的數(shù)據(jù)集,在weka環(huán)境下,測試常用數(shù)據(jù)挖掘算法,熟悉Weka環(huán)境。三、實驗要求1. 熟悉weka的應用環(huán)境。2. 了解數(shù)據(jù)挖掘常用算法。3. 在weka環(huán)境下,測試常用數(shù)據(jù)挖掘算法。四、實驗平臺新西蘭懷卡托大學研制的Weka系統(tǒng)五、實驗數(shù)據(jù)Weka安裝目錄下data文件夾中的數(shù)據(jù)集weather.nominal.arff,weather.arff六、實驗方法和步驟1、首先,選擇數(shù)據(jù)集weather.nominal.arff,操作步驟為點擊E

2、xplorer,進入主界面,點擊左上角的“Open file.”按鈕,選擇數(shù)據(jù)集weather.nominal.arff文件,該文件中存儲著表格中的數(shù)據(jù),點擊區(qū)域2中的“Edit”可以看到相應的數(shù)據(jù):選擇上端的Associate選項頁,即數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則挖掘選項,此處要做的是從上述數(shù)據(jù)集中尋找關(guān)聯(lián)規(guī)則。點擊后進入如下界面:2、現(xiàn)在打開weather.arff,數(shù)據(jù)集中的類別換成數(shù)字。選擇上端的Associate選項頁,但是在Associate選項卡中Start按鈕為灰色的,也就是說這個時候無法使用Apriori算法進行規(guī)則的挖掘,原因在于Apriori算法不能應用于連續(xù)型的數(shù)值類型。所以現(xiàn)

3、在需要對數(shù)值進行離散化,就是類似于將20-30劃分為“熱”,0-10定義為“冷”,這樣經(jīng)過對數(shù)值型屬性的離散化,就可以應用Apriori算法了。Weka提供了良好的數(shù)據(jù)預處理方法。第一步:選擇要預處理的屬性temperrature從中可以看出,對于“溫度”這一項,一共有12條不同的內(nèi)容,最小值為64(單位:華氏攝氏度,下同),最大值為85,選擇過濾器“choose”按鈕,或者在同行的空白處點擊一下,即可彈出過濾器選擇框,逐級找到 “Weka.filters.unsupervised.attribute.Discretize”,點擊;若無法關(guān)閉這個樹,在樹之外的地方點擊 “Explorer”面板

4、即可。現(xiàn)在“Choose”旁邊的文本框應該顯示“Discretize -B 10 -M -0.1 -R first-last”。點擊這個文本框會彈出新窗口以修改離散化的參數(shù)。因為這里不打算對所有的屬性離散化,只是針對對第2個和第3個屬性,故把attributeIndices右邊改成 “2,3”。計劃把這兩個屬性都分成3段,于是把“bins”改成“3”。其它文本框里的值不用更改,關(guān)于這些參數(shù)的意義可以點擊“More”查看。點“OK”回到 “Explorer”,可以看到“temperature”和“humidity”已經(jīng)被離散化成為分類型的屬性。若想放棄離散化可以點“Undo”。 可以看到temp

5、erature屬性信息如下顯示:Humidity屬性變成如下樣式:3、在Classify,Cluster,Associate選項中分別嘗試不同算法。七、通過實驗,掌握Weka的使用實驗二 基于關(guān)聯(lián)規(guī)則的信息獲取一、實驗名稱: 基于關(guān)聯(lián)規(guī)則的信息獲取二、實驗目的:通過一個已有的訓練數(shù)據(jù)集,觀察訓練集中的實例,進行關(guān)聯(lián)信息獲取,更好地理解和掌握關(guān)聯(lián)規(guī)則算法的基本原理,建立相應的預測模型,然后對新的未知實例進行預測,預測的準確程度來衡量所建立模型的好壞。三、實驗要求1、熟悉Weka平臺2、掌握關(guān)聯(lián)規(guī)則算法3、對數(shù)據(jù)進行預處理,利用Weka和不同參數(shù)設置進行關(guān)聯(lián)分析,對比結(jié)果,得出結(jié)論,對問題進行總結(jié)

6、。四、實驗平臺新西蘭懷卡托大學研制的Weka系統(tǒng)五、實驗數(shù)據(jù)1、使用銀行對資產(chǎn)進行評估的數(shù)據(jù)bank-data.arf,數(shù)據(jù)里有12個屬性,分別是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600個實例。六、實驗方法和步驟1、打開WEKA界面如下:界面中有四個選擇Simple CLC, Explorer, Experimenter, KnowledgeFlow。 我們選擇Explorer進行實驗。文件格式轉(zhuǎn)化為ARFF的方式。2、選擇Explorer選項,選擇Open

7、file打開bank-data.arff數(shù)據(jù),打開可以看見數(shù)據(jù)中的屬性,選擇屬性從右邊可以看到它的取值范圍1)CSV換成ARFF格式將CSV轉(zhuǎn)換為ARFF最迅捷的辦法是使用WEKA所帶的命令行工具。運行WEKA的主程序,出現(xiàn)GUI后可以點擊下方按鈕進入相應的模塊。我們點擊進入“Simple CLI”模塊提供的命令行功能。在新窗口的最下方(上方是不能寫字的)輸入框?qū)懮?java weka.core.converters.CSVLoader filename.csv > filename.arff 即可完成轉(zhuǎn)換。 在WEKA 3.5中提供了一個“Arff Viewer”模塊,我們可以用它打開

8、一個CSV文件將進行瀏覽,然后另存為ARFF文件。 進入“Explorer”模塊,從上方的按鈕中打開CSV文件然后另存為ARFF文件亦可。3、進行數(shù)據(jù)過濾,選擇Filter中的Discretize方法,點擊Apply,先對ARFF文件進行離散化:用UltraEdit(或者其它文本編輯器)對其進行編輯:attribute children numeric改為:attribute children 0,1,2,3 然后用discretize算法對age和income離散化,并刪掉id項因為它對關(guān)聯(lián)規(guī)則分析無影響,保存文件。 4、選擇Associate項中的Apriori算法分析進行關(guān)聯(lián)信息獲取,并

9、進行參數(shù)設置。七、通過實驗,要求同學在關(guān)聯(lián)規(guī)則信息獲取實驗中解決以下問題,并遞交完整的實驗報告1. 對于非xls格式的數(shù)據(jù)如何轉(zhuǎn)換成ARFF數(shù)據(jù)類型?請給出你了解到的幾種數(shù)據(jù)類型到ARFF的轉(zhuǎn)換方式?2. 在算法出來的lift排前1的規(guī)則中,如: 1. age=52_max save_act=YES current_act=YES 113 => income=43759_max 61   conf:(0.54) < lift:(4.05)> lev:(0.08) 45 conv:(1.85) 請說明 其中113、 61、conf:(0.54)都表示什么含義?實驗三

10、基于Naïve Bayes的信息獲取一、實驗名稱: 基于Naïve Bayes的信息獲取二、實驗目的:通過一個已有的訓練數(shù)據(jù)集,觀察訓練集中的實例,建立Bayes網(wǎng)絡的預測模型,更好地理解和掌握Bayes算法的基本原理,建立相應的預測模型,然后對新的未知實例進行預測,預測的準確程度來衡量所建立模型的好壞。三、實驗要求1、熟悉Weka平臺2、掌握Naïve Bayes算法3、對數(shù)據(jù)進行預處理,利用Weka和不同參數(shù)設置進行關(guān)聯(lián)分析,對比結(jié)果,得出結(jié)論,對問題進行總結(jié)。四、實驗平臺新西蘭懷卡托大學研制的Weka系統(tǒng)五、試驗數(shù)據(jù)1、使用銀行對資產(chǎn)進行評估的數(shù)據(jù)bank-

11、data.arf,數(shù)據(jù)里有12個屬性,分別是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600個實例。2、將含有600個實例的“bank-data.csv”文件中取出300個實例用做訓練集,在另外300個實例中取50個作為待預測的實例。3、本測試集中將pep屬性作為分類的目標類別,因此將其設為缺失值缺失值用?表示。六、試驗方法和步驟1、數(shù)據(jù)準備(1)將原來的“bank-data.csv”文件轉(zhuǎn)化為arff文件“bank-data.csv.arff”。(2)“ID”屬性不

12、需要的去掉。(3)把“Children”屬性轉(zhuǎn)換成分類型的兩個值“YES”和“NO”。(4)將“bank-data.csv.arff”文件的600條數(shù)據(jù)中前300條數(shù)據(jù)作為訓練數(shù)據(jù)集,并保存為文件。(5)從后300條數(shù)據(jù)里抽取50條數(shù)據(jù)作為測試數(shù)據(jù)集,它們的“pep”屬性都設為缺失值,并保存為文件。2、訓練過程(1) 用“Explorer”打開訓練集,觀察一下它是不是按照前面的要求處理好了。(2) 切換到“Classify”選項卡。(3)點擊“Choose”按鈕后可以看到很多分類或者回歸的算法分門別類的列在一個樹型框里。樹型框下方有一個“Filter.”按鈕,點擊可以根據(jù)數(shù)據(jù)集的特性過濾掉不合

13、適的算法。我們數(shù)據(jù)集的輸入屬性中有“Binary”型(即只有兩個類的分類型)和數(shù)值型的屬性,而Class變量是“Binary”的;于是我們勾選“Binary attributes”“Numeric attributes”和“Binary class”。(4) 點“OK”后回到樹形圖,可以發(fā)現(xiàn)一些算法名稱變紅了,說明它們不能選用。(5)點擊“Choose”右邊的文本框,彈出新窗口為該算法設置各種參數(shù)。點“More”查看參數(shù)說明,點“Capabilities”是查看算法適用范圍。這里我們把參數(shù)保持默認。(6)看左中的“Test Option”。我們沒有專門設置檢驗數(shù)據(jù)集,為了保證生成的模型的準確性

14、而不至于出現(xiàn)過擬合(overfitting)的現(xiàn)象,我們有必要采用10折交叉驗證(10-fold cross validation)來選擇和評估模型,選上“Cross-validation”并在“Folds”框填上“10”。(7)點“Start”按鈕開始讓算法生成Bayes模型。這個模型的誤差分析等等結(jié)果將出現(xiàn)在右邊的“Classifier output”中。同時左下的“Results list”出現(xiàn)了一個項目顯示剛才的時間和算法名稱。(8)右鍵點擊“Results list”剛才出現(xiàn)的那一項,彈出菜單中選擇“Visualize tree”,可以看到可視化結(jié)果。3、測試過程(1)注意待預測數(shù)據(jù)

15、集和訓練用數(shù)據(jù)集各個屬性的設置必須是一致的。(2)在“Test Opion”中選擇“Supplied test set”,并且“Set”成要應用模型的數(shù)據(jù)集,這里是“bank-new.arff”文件。(3)右鍵點擊“Result list”中剛產(chǎn)生的那一項,選擇“Re-evaluate model on current test set”。右邊顯示結(jié)果的區(qū)域中會增加一些內(nèi)容,告訴你該模型應用在這個數(shù)據(jù)集上表現(xiàn)將如何。我們的Class屬性都是些缺失值,那這些內(nèi)容是無意義的,我們關(guān)注的是模型在新數(shù)據(jù)集上的預測值。(4)點擊右鍵菜單中的“Visualize classifier errors”, 將

16、彈出一個新窗口顯示一些有關(guān)預測誤差的散點,點擊這個新窗口中的“Save”按鈕,保存一個Arff文件。(5)打開這個文件可以看到在倒數(shù)第二個位置多了一個屬性(predictedpep),這個屬性上的值就是模型對每個實例的預測值,點“Edit”按鈕可以查看這個數(shù)據(jù)集的內(nèi)容。七、通過實驗,要求同學在貝葉斯信息獲取實驗中解決以下問題,并遞交完整的實驗報告1、在數(shù)據(jù)預處理中,通過轉(zhuǎn)換與否的實驗比較,判斷是否一定要把“Children”屬性轉(zhuǎn)換成分類型的兩個值“YES” “NO”。2、 在算法選擇時,點擊“Choose”按鈕后可以看到哪些分類的算法分門別類的列在一個樹型框里? 將些數(shù)據(jù)截圖,在實驗報告中進

17、行詳解。 3、點擊“Choose”右邊的文本框,彈出新窗口為該算法設置各種參數(shù)。點“More”查看參數(shù)說明,點“Capabilities”查看算法適用范圍。請在實驗報告中詳解的參數(shù)設置情況。 4、請介紹你建立好的模型以及對該模型的誤差分析等結(jié)果,如:出現(xiàn)在“Classifier output”中的模型準確度等,將這些數(shù)據(jù)截圖, 在實驗報告中進行詳解。 5、如果你的模型準確度不高,你是怎樣通過修改算法的參數(shù)來提高準確度?實驗四 基于決策樹的分類學習方法一、實驗名稱: 基于決策樹的分類學習方法二、實驗目的:通過一個已有的訓練數(shù)據(jù)集,觀察訓練集中的實例,建立基于決策樹的預測模型,更好地理解和掌握決策

18、樹算法的基本原理,建立相應的預測模型,然后對新的未知實例進行預測,預測的準確程度來衡量所建立模型的好壞。三、實驗要求1、熟悉Weka平臺2、掌握決策樹算法3、對數(shù)據(jù)進行預處理,利用Weka和不同參數(shù)設置進行分類,對比結(jié)果,得出結(jié)論,對問題進行總結(jié)。四、實驗平臺新西蘭懷卡托大學研制的Weka系統(tǒng)五、實驗數(shù)據(jù)1、使用銀行對資產(chǎn)進行評估的數(shù)據(jù)bank-data.arf,數(shù)據(jù)里有12個屬性,分別是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600個實例。2、將含有600個實例的

19、“bank-data.csv”文件中取出300個實例用做訓練集,在另外300個實例中取50個作為待預測的實例。3、本測試集中將pep屬性作為分類的目標類別,因此將其設為缺失值缺失值用?表示。六、實驗方法和步驟1、數(shù)據(jù)準備(1)將原來的“bank-data.csv”文件轉(zhuǎn)化為arff文件“bank-data.csv.arff”。(2)“ID”屬性不需要的去掉。(3)把“Children”屬性轉(zhuǎn)換成分類型的兩個值“YES”和“NO”。(4)將“bank-data.csv.arff”文件的600條數(shù)據(jù)中前300條數(shù)據(jù)作為訓練數(shù)據(jù)集,并保存為文件。(5)從后300條數(shù)據(jù)里抽取50條數(shù)據(jù)作為測試數(shù)據(jù)集,

20、它們的“pep”屬性都設為缺失值,并保存為文件。2、訓練過程(1) 用“Explorer”打開訓練集,觀察一下它是不是按照前面的要求處理好了。(2) 切換到“Classify”選項卡。(3)點擊“Classify”選項卡。單擊左上方的Choose按鈕,在隨后打開的層級式菜單中的tree部分找到J48。(4)選中J48分類器后,J48以及它的相關(guān)默認參數(shù)值出現(xiàn)在Choose按鈕旁邊的條形框中。單擊這個條形框會打開J48分類器的對象編輯器,編輯器會顯示J48的各個參數(shù)的含義。根據(jù)實際情況選擇適當?shù)膮?shù),Explore通常會合理地設定這些參數(shù)的默認值。(5)看左中的“Test Option”。我們沒

21、有專門設置檢驗數(shù)據(jù)集,為了保證生成的模型的準確性而不至于出現(xiàn)過擬合(overfitting)的現(xiàn)象,我們有必要采用10折交叉驗證(10-fold cross validation)來選擇和評估模型,選上“Cross-validation”并在“Folds”框填上“10”。(6)點“Start”按鈕開始讓算法生成Bayes模型。這個模型的誤差分析等等結(jié)果將出現(xiàn)在右邊的“Classifier output”中。同時左下的“Results list”出現(xiàn)了一個項目顯示剛才的時間和算法名稱。(7)右鍵點擊“Results list”剛才出現(xiàn)的那一項,彈出菜單中選擇“Visualize tree”,新窗

22、口里可以看到圖形模式的決策樹。建議把這個新窗口最大化,然后點右鍵,選“Fit to screen”,可以把這個樹看清楚些。3、測試過程(1)注意待預測數(shù)據(jù)集和訓練用數(shù)據(jù)集各個屬性的設置必須是一致的。(2)在“Test Opion”中選擇“Supplied test set”,并且“Set”成要應用模型的數(shù)據(jù)集,這里是“bank-new.arff”文件。(3)右鍵點擊“Result list”中剛產(chǎn)生的那一項,選擇“Re-evaluate model on current test set”。右邊顯示結(jié)果的區(qū)域中會增加一些內(nèi)容,告訴你該模型應用在這個數(shù)據(jù)集上表現(xiàn)將如何。我們的Class屬性都是些

23、缺失值,那這些內(nèi)容是無意義的,我們關(guān)注的是模型在新數(shù)據(jù)集上的預測值。(4)點擊右鍵菜單中的“Visualize classifier errors”, 將彈出一個新窗口顯示一些有關(guān)預測誤差的散點,點擊這個新窗口中的“Save”按鈕,保存一個Arff文件。(5)打開這個文件可以看到在倒數(shù)第二個位置多了一個屬性(predictedpep),這個屬性上的值就是模型對每個實例的預測值,點“Edit”按鈕可以查看這個數(shù)據(jù)集的內(nèi)容。這里我們解釋一下“Confusion Matrix”的含義。= Confusion Matrix =a b <- classified as74 64 | a = YES

24、30 132 | b = NO這個矩陣是說,原本“pep”是“YES”的實例,有74個被正確的預測為“YES”,有64個錯誤的預測成了“NO”;原本“pep”是“NO”的實例,有30個被錯誤的預測為“YES”,有132個正確的預測成了“NO”。74+64+30+132 = 300是實例總數(shù),而(74+132)/300 = 0.68667正好是正確分類的實例所占比例。這個矩陣對角線上的數(shù)字越大,說明預測得越好。七、通過實驗,要求同學在決策樹實驗中解決以下問題,并遞交完整的實驗報告1、在數(shù)據(jù)預處理中,通過轉(zhuǎn)換與否的實驗比較,判斷是否一定要把“Children”屬性轉(zhuǎn)換成分類型的兩個值“YES” “

25、NO”。2、 點擊“Choose”右邊的文本框,彈出新窗口為該算法設置各種參數(shù)。點“More”查看參數(shù)說明,點“Capabilities”查看算法適用范圍。請在實驗報告中詳解的參數(shù)設置情況。 3、分析生成的決策樹,并轉(zhuǎn)換為IF THEN規(guī)則的形式4、請介紹你建立好的模型以及對該模型的誤差分析等結(jié)果,如:出現(xiàn)在“Classifier output”中的模型準確度等,將這些數(shù)據(jù)截圖, 在實驗報告中進行詳解。 5、如果你的模型準確度不高,你是怎樣通過修改算法的參數(shù)來提高準確度?實驗五 神經(jīng)網(wǎng)絡分類學習方法一、實驗名稱: 神經(jīng)網(wǎng)絡分類學習方法二、實驗目的:通過一個已有的訓練數(shù)據(jù)集,觀察訓練集中的實例,

26、建立神經(jīng)網(wǎng)絡的預測模型,更好地理解和掌握神經(jīng)網(wǎng)絡算法的基本原理,建立相應的預測模型,然后對新的未知實例進行預測,預測的準確程度來衡量所建立模型的好壞。三、實驗要求1學習神經(jīng)網(wǎng)絡分類學習方法,學習其中反向傳播神經(jīng)網(wǎng)絡(BP神經(jīng)網(wǎng)絡)學習算法。 2應用Weka軟件,學會導入數(shù)據(jù)文件,并對數(shù)據(jù)文件進行預處理。3學會如何選擇學習算法并調(diào)節(jié)學習訓練參數(shù)以達到最佳學習效果。四、實驗平臺新西蘭懷卡托大學研制的Weka系統(tǒng)五、試驗數(shù)據(jù)Weka安裝目錄下data文件夾中的數(shù)據(jù)集weather.arff,銀行對資產(chǎn)進行評估的數(shù)據(jù)bank-data.arf六、試驗方法和步驟1在開始程序(或者桌面圖標)中找到WEKA

27、3.6,單擊即可啟動WEKA,啟動WEKA時會發(fā)現(xiàn)首先出現(xiàn)的一個命令提示符。接著將出現(xiàn)如下Weka GUI Chooser界面。2選擇GUI Chooser中的探索者(Explorer)用戶界面。點擊預處理(Preprocess)功能按鈕的,Open file,選擇其中的“weather”數(shù)據(jù)作關(guān)聯(lián)規(guī)則的分析。打開“weather.arff”,可以看到“Current relation”、“Attributes”“Selected attribute”三個區(qū)域。3點擊“Classify”選項卡。單擊左上方的Choose按鈕,在隨后打開的層級式菜單中的function部分找到MultiayerP

28、erceptron。4在test options選項中選擇默認的10折交叉確認法,神經(jīng)網(wǎng)絡參數(shù)可采用默認設置或適當修改。5選定分類器后,單擊Start按鈕使其開始工作。Weka每次運行時間的較短。在它工作時,坐在右下角的小鳥會即時起舞,隨后結(jié)果就顯示在右區(qū)域中。6實驗結(jié)果。在窗口的右區(qū)域默認顯示了全部輸出結(jié)果。在該結(jié)果的開頭給出了數(shù)據(jù)集概要并注明所需要的評估方法是默認的10折交叉驗證??梢赃x擇其他的驗證方法來重新分類學習。7打開數(shù)據(jù)文件bank-data.csv,刪除屬性id,重復上述操作,查看結(jié)果;嘗試在數(shù)據(jù)預處理階段刪除屬性region,再訓練神經(jīng)網(wǎng)絡;如果需要查看神經(jīng)網(wǎng)絡的圖形,點擊“c

29、hoose”按鈕右側(cè)的文字欄,將下拉選項GUI設為true,點擊start即可。七、通過實驗,要求同學在貝葉斯信息獲取實驗中解決以下問題,并遞交完整的實驗報告1、在數(shù)據(jù)預處理中,通過轉(zhuǎn)換與否的實驗比較,判斷是否一定要把“Children”屬性轉(zhuǎn)換成分類型的兩個值“YES” “NO”。2、 在算法選擇時,點擊“Choose”按鈕后可以看到哪些分類的算法分門別類的列在一個樹型框里? 將些數(shù)據(jù)截圖,在實驗報告中進行詳解。 3、點擊“Choose”右邊的文本框,彈出新窗口為該算法設置各種參數(shù)。點“More”查看參數(shù)說明,點“Capabilities”查看算法適用范圍。請在實驗報告中詳解的參數(shù)設置情況。

30、 4、請介紹你建立好的模型以及對該模型的誤差分析等結(jié)果,如:出現(xiàn)在“Classifier output”中的模型準確度等,將這些數(shù)據(jù)截圖, 在實驗報告中進行詳解。 5、如果你的模型準確度不高,你是怎樣通過修改算法的參數(shù)來提高準確度?實驗六 基于回歸模型的數(shù)據(jù)分析一、實驗名稱: 基于回歸模型的數(shù)據(jù)分析二、實驗目的:通過一個已有的訓練數(shù)據(jù)集,觀察訓練集中的實例,進行回歸分析,更好地理解和掌握回歸分析算法基本原理,建立相應的預測模型,然后對新的未知實例進行預測,預測的準確程度來衡量所建立模型的好壞。三、實驗要求1、熟悉Weka平臺2、掌握回歸分析算法3、對數(shù)據(jù)進行預處理,利用Weka和不同參數(shù)設置進

31、行回歸分析,對比結(jié)果,得出結(jié)論,對問題進行總結(jié)。四、實驗平臺新西蘭懷卡托大學研制的Weka系統(tǒng)五、實驗數(shù)據(jù)使用房屋定價數(shù)據(jù),具體如表1所示:表1回歸模型的房屋值房子面積(平方英尺) 占地的大小臥室 花崗巖衛(wèi)生間有無重裝? 銷售價格 3529 9191 6 0 0 ¥205,000 3247 10061 5 1 1 ¥224,900 4032 10150 5 0 1 ¥197,900 2397 14156 4 1 0 ¥189,900 2200 9600 4 0 1 ¥195,000 3536 19994 6 1 1 ¥325,000 2983 9365 5 0 1 ¥230,000 3198

32、9669 5 1 1 ? 六、實驗方法和步驟1為 Weka 構(gòu)建數(shù)據(jù)集為了將數(shù)據(jù)加載到 Weka,必須將數(shù)據(jù)放入到arff格式的文件中,具體介紹如前面所示,現(xiàn)構(gòu)造arff文件如下,存成house.arff:2將數(shù)據(jù)載入 Weka數(shù)據(jù)創(chuàng)建完成后,就可以開始創(chuàng)建回歸模型。啟動 Weka,根據(jù)之前的實驗方法載入之前構(gòu)造的文件house.arff。3用 Weka 創(chuàng)建一個回歸模型為了創(chuàng)建這個模型,單擊 Classify 選項卡。第一個步驟是選擇想要創(chuàng)建的這個模型,也就是選擇希望使用的建模算法: u 單擊 Choose 按鈕,然后擴展 functions 分支;u 選擇 Linear Regressio

33、n 4創(chuàng)建訓練集準備好創(chuàng)建模型后,單擊 Start,輸出結(jié)果如下:5解析這個回歸模型Weka功能強大,在上面的輸出信息中就可以看出一個關(guān)于selling-price的計算公式(模型),包括一些其他信息,而此處關(guān)心的主要內(nèi)容就是這個公式,如下清單所示:6.預測3198 9669 5 1 1 ? 七、通過實驗,要求同學在聚類分析信息獲取實驗中解決以下問題,并遞交完整的實驗報告1. 解釋得到的回歸模型2. 給出預測結(jié)果。實驗七 基于集成學習的信息獲取一、實驗名稱: 基于集成學習的信息獲取二、實驗目的:熟悉Random Forest算法原理、框架及應用。通過weka工具包的仿真并與bagging方法和

34、決策樹J48的結(jié)果進行比較,分析Random Forest的性能。三、實驗要求1、熟悉Weka平臺2、掌握Random Forest算法算法3、對數(shù)據(jù)進行預處理,利用Weka和不同參數(shù)設置進行集成學習,對比結(jié)果,得出結(jié)論,對問題進行總結(jié)。四、實驗平臺新西蘭懷卡托大學研制的Weka系統(tǒng)五、實驗數(shù)據(jù)工具包自帶的segment-challenge.arff數(shù)據(jù)集(1500條數(shù)據(jù),20個特征變量,7分類問題)六、實驗方法和步驟Random Forest( RF) 是利用bootsrap重抽樣方法從原始樣本中抽取多個樣本,對每個bootsrap樣本進行決策樹建模, 然后組合多棵決策樹的預測, 通過投票得

35、出最終預測結(jié)果。RF通過構(gòu)造不同的訓練集增加分類模型間的差異, 從而提高組合分類模型的外推預測能力。1、用weka工具進行分析,選擇工具包自帶的segment-challenge.arff數(shù)據(jù)集(1500條數(shù)據(jù),20個特征變量,7分類問題)。2、進行Random Forest實驗3、通過與bagging方法和決策樹J48進行比較分析。在仿真過程中選擇數(shù)據(jù)集中的66%作為訓練集,即其中的510個數(shù)據(jù)作為測試集。七、通過實驗,要求同學在聚類分析信息獲取實驗中解決以下問題,并遞交完整的實驗報告1.基于segment-challenge.arff數(shù)據(jù)集,比較Random Forests算法、Baggi

36、ng模型和決策樹J48模型的分類性能。2.當Random Forests樹的數(shù)量由5增加到10時,繼續(xù)增加到20棵樹時,比較誤差率及運行時間,并對實驗結(jié)果進行說明結(jié)果參考(1)bagging分類的結(jié)果圖3-1(2)決策樹J48的分類結(jié)果圖3-2(3)Random Forests的分類結(jié)果A.5棵樹的情況圖3-3B.10棵樹的情況圖3-4C.20棵樹的情況圖3-5【結(jié)果分析】結(jié)果對照表:分類器BaggingJ48Random Forests(5)Random Forests(10)Random Forests(20)誤分率3.33%4.90%2.55%1.57%1.57%運行時間(s)0.400

37、.130.220.420.8實驗八 基于SimpleKMeans聚類分析的信息獲取一、實驗名稱: 基于SimpleKMeans聚類分析的信息獲取二、實驗目的:通過一個已有的訓練數(shù)據(jù)集,觀察訓練集中的實例,進行聚類信息獲取,更好地理解和掌握聚類分析算法基本原理,建立相應的預測模型,然后對新的未知實例進行預測,預測的準確程度來衡量所建立模型的好壞。三、實驗要求1、熟悉Weka平臺2、掌握聚類分析算法3、對數(shù)據(jù)進行預處理,利用Weka和不同參數(shù)設置進行聚類分析,對比結(jié)果,得出結(jié)論,對問題進行總結(jié)。四、實驗平臺新西蘭懷卡托大學研制的Weka系統(tǒng)五、實驗數(shù)據(jù)1、使用銀行對資產(chǎn)進行評估的數(shù)據(jù)bank-da

38、ta.arf,數(shù)據(jù)里有12個屬性,分別是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600個實例。2、本測試集中將pep屬性作為分類的目標類別,因此將其設為缺失值缺失值用?表示。六、實驗方法和步驟1、首先對于原始數(shù)據(jù)做預處理。把“bank-data.xls”格式數(shù)據(jù)轉(zhuǎn)換為“bank-data.csv”,并刪去屬性“id”,保存為ARFF格式后,修改屬性“children”為分類型。這樣得到的數(shù)據(jù)文件為“bank-data.arff”,含600條實例。 具體操作如下。(1

39、)將xls格式文件轉(zhuǎn)化為csv格式文件。打開bank-data.xls,另存為csv格式的文件,并命名為bank-data,接著將CSV文件,轉(zhuǎn)換為ARFF格式文件bank-data. arff。(2)刪去屬性“id”,保存為ARFF格式;用UltraEdit打開bank-data. arff文件, 修改屬性“children”為分類型. 把attribute children numeric改為attribute children 0,1,2,3,然后保存即可2、用Weka打開bank-data.arff文件,進行相應設置后開始分析。(1)用“Explorer”打開剛才得到的“bank-data.arff”,并切換到“Cluster”。點“Choose”按鈕選擇“SimpleKMeans”,這是WEKA中實現(xiàn)K均值的算法。點擊旁邊的文本框,修改“numClusters”為6,說明把這600條實例聚成6類,即K=6。下面的“seed”參數(shù)是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論