基于weka的數(shù)據(jù)分類和聚類分析試驗(yàn)報(bào)告_第1頁(yè)
基于weka的數(shù)據(jù)分類和聚類分析試驗(yàn)報(bào)告_第2頁(yè)
基于weka的數(shù)據(jù)分類和聚類分析試驗(yàn)報(bào)告_第3頁(yè)
基于weka的數(shù)據(jù)分類和聚類分析試驗(yàn)報(bào)告_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于 weka 的數(shù)據(jù)分類分析實(shí)驗(yàn)報(bào)告1實(shí)驗(yàn)基本內(nèi)容本實(shí)驗(yàn)的基本內(nèi)容是通過(guò)使用 分別在訓(xùn)練數(shù)據(jù)上訓(xùn)練出分類模型,weka中的三種常見分類和聚類方法(決策樹J48、KNN和k-means)并使用校驗(yàn)數(shù)據(jù)對(duì)各個(gè)模型進(jìn)行測(cè)試和評(píng)價(jià),找出各個(gè)模型最優(yōu)的參數(shù)值,并對(duì)三個(gè)模型進(jìn)行全面評(píng)價(jià)比較,得到一個(gè)最好的分類模型以及該模型所有設(shè)置的最優(yōu)參數(shù)。最后使用這些參數(shù)以及訓(xùn)練集和校驗(yàn)集數(shù)據(jù)一起構(gòu)造出一個(gè)最優(yōu)分類器,并利用該分類器對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。2數(shù)據(jù)的準(zhǔn)備及預(yù)處理2.1格式轉(zhuǎn)換方法(1)打開 data02.xls ”另存為 CSV 類型,得到 “ data02.csv”。dataOZcsv(2)在WEKA中提

2、供了一個(gè)“ Arff Viewer ”模塊,打開一個(gè)“data02.csv”進(jìn)行瀏覽,然后另存為ARFF 文件,得到“ data02.arff”。O data02.artf。3.實(shí)驗(yàn)過(guò)程及結(jié)果截圖3.1決策樹分類(1)決策樹分類用"Explorer ”打開數(shù)據(jù)"data02.arff ”,然后切換到"Classify ”。點(diǎn)擊"Choose",選擇算法 “ trees-J48 ”,再在"Test options ” 選擇"Cross-validation (Flods=10 )",點(diǎn)擊"Start ”,開

3、始 運(yùn)行。系統(tǒng)默認(rèn)trees-J48 決策樹算法中minNumObj=2 ,得到如下結(jié)果=Summary =Correctly Classified In sta nces In correctly Classified In sta nces Kappa statisticMean absolute errorRoot mean squared errorRelative absolute errorRoot relative squared error2330.76360.1410.325530.7368 %68.0307 %88.4615 %11.5385 %Total Number o

4、f In sta nces26=Detailed Accuracy By Class =TP RateFP RatePrecisio nRecall F-MeasureROC AreaClass0.824010.8240.9030.892N10.1760.7510.8570.892YWeighted Avg.0.8850.0610.9130.8850.8870.892=Con fusi on Matrix =a b <- classified as143 | a = N09 | b = Y使用不同的參數(shù)準(zhǔn)確率比較:mi nNu mObj2345Correctly23222323Class

5、ified(84.6154 %)(88.4615 %)(88.4615 %)(88.4615 %)Instances由上表,可知 minNumObj為2時(shí),準(zhǔn)確率最高。 根據(jù)測(cè)試數(shù)集,利用準(zhǔn)確率最高的模型得到的結(jié)果:分析說(shuō)明:10折交叉驗(yàn)證(Folds=10 )來(lái)選擇和評(píng)估模型,其中屬性2388.4615 %311.5385 %在用J48對(duì)數(shù)據(jù)集進(jìn)行分類時(shí)采用了 值有兩個(gè)Y, No 部分結(jié)果如下:Correctly Classified In sta ncesIn correctly Classified In sta nces =Con fusi on Matrix =a b <- c

6、lassified as143 | a = N09 | b = Y這個(gè)矩陣是說(shuō),原來(lái)是 “Y'的實(shí)例,有14個(gè)被正確的預(yù)測(cè)為 “Y”有3個(gè)錯(cuò)誤的預(yù)測(cè)成了 “NO原 本是“NO的實(shí)例有0個(gè)被正確的預(yù)測(cè)成為 “Y”有9個(gè)正確的預(yù)測(cè)成了 “No “14+3+0+9=26是實(shí)例的 總數(shù),而(14+9) / 26=0.884615正好是正確分類的實(shí)例所占比例。這個(gè)矩陣對(duì)角線上的數(shù)字越大,說(shuō)明預(yù)測(cè)得越好。(2)K最近鄰分類算法用“ Explorer "打開數(shù)據(jù)“ data02.arff ”然后切換到“ Classify ”點(diǎn)擊“ Choose",選擇算法 “l(fā)azy-IBk &

7、quot;,再在“ Test options "選擇“ Cross-validation ( Flods=10 )",點(diǎn)擊“ Start ",開始 運(yùn)行。訓(xùn)練結(jié)果:系統(tǒng)默認(rèn)lazy-IBk K最近鄰分類算法中 KNN=1得到如下結(jié)果 =Summary =Correctly Classified In sta nces2076.9231 %In correctly Classified In sta nces 623.0769 %Kappa statisticMean absolute error0.49020.252Root mean squared errorR

8、elative absolute error0.462654.9136 %Root relative squared errorTotal Number of In sta nces96.694 %26=Detailed Accuracy By Class =TP Rate FP Rate Precisi on Recall F-Measure ROC Area Class0.8240.3330.8240.8240.8240.768N0.6670.1760.6670.6670.6670.768YWeighted Avg.0.7690.2790.7690.7690.7690.768=Con fu

9、si on Matrix = a b <- classified as 14 3| a = N3 6 | b = Y使用不同的參數(shù)準(zhǔn)確率比較:KNN1234CorrectlyClassifiedInstances20(76.9231 %)19(73.0769%23(88.4615 %)20(76.9231 %)由上表,可知 KNN為3時(shí),準(zhǔn)確率最高。根據(jù)測(cè)試數(shù)集,利用準(zhǔn)確率最高的模型得到的結(jié)果:分析說(shuō)明:在用lazy-lbk(KNN=3)對(duì)數(shù)據(jù)集進(jìn)行分類時(shí)采用了10折交叉驗(yàn)證(Folds=10)來(lái)選擇和評(píng)估模型,其中屬性值有兩個(gè) Y, N。一部分結(jié)果如下:=Summary =Correc

10、tly Classified In sta nces2388.4615 %In correctly Classified In sta nces311.5385 %=Con fusi on Matrix =a b <- classified as16 1 | a = N2 7 | b = Y這個(gè)矩陣是說(shuō),原來(lái)是 “Y'的實(shí)例,有16個(gè)被正確的預(yù)測(cè)為 “Y”有1個(gè)錯(cuò)誤的預(yù)測(cè)成了 “原 本是“NO的實(shí)例有2個(gè)被正確的預(yù)測(cè)成為 “Y”有9個(gè)正確的預(yù)測(cè)成了 7” “6+1+2+7=26”是實(shí)例的 總數(shù),而(16+7)/ 26=0.884615正好是正確分類的實(shí)例所占比例。二、對(duì)“ dat

11、aO1 ”進(jìn)行聚類分析1.數(shù)據(jù)格式的轉(zhuǎn)換(1)打開 data01.xls "另存為 CSV 類型,得到“ dataO1.csv”ARFF 文件,得到“ dataO1.arff”Q dataOl.arff越 dataOl.csvdata01.csv”進(jìn)行瀏覽,然后另存為(2)在WEKA中提供了一個(gè)“ Arff Viewer ”模塊,打開一個(gè)“2.聚類過(guò)程用“ Explorer ”打開數(shù)據(jù)“ data01.arff ”然后切換到“ Cluster ”點(diǎn)擊“ Choose”選擇算法 “ SimpleKMeans( numClusters=6 , seed=200),再在“ Test opt

12、ions "選擇“ Use training set ” 點(diǎn)擊“ Start ”,開始運(yùn)行。訓(xùn)練結(jié)果:采用 simpleKMeans 算法,其中 numClusters=6, seed=100,得到如下結(jié)果:Number of iterations: 3(平方誤差之和)Clustered In sta ncesClustered Instances 0 4 ( 15%)1 3 ( 12%)2 4 ( 15%)3 3 ( 12%)4 2 ( 8%)5 10 ( 38%)(各類的包含的實(shí)例個(gè)數(shù)以及占總實(shí)例的百分比)說(shuō)明:其中當(dāng) seed 的取值越大,平方誤差之和越小。在這次實(shí)驗(yàn)seed=

13、100,得到:9.這是評(píng)價(jià)聚類好壞的標(biāo)準(zhǔn),數(shù)值越小說(shuō)明同一簇實(shí)例之間的距離 就越小。接下來(lái)“ Cluster centroids” :列出了各個(gè)簇中心的位置:2(4)3(3)4(2)Attribute5(10)Full Data(26)0(4)1(3)sample13.522.54.666720.514.66674.511.2old-year48.076965.7559.333350.52556.541.9VEGF1.92312.75 2.3333 22.666731MVC102.1538126.45100.6667127.488.266710486.58cancer-grade2.57693.75233.33333.51.7cancer-stage2.15383.251.333332.33333.51.3cancer metastasisNYNNYYN最后“ Clustered Instances ”列出了各個(gè)簇中實(shí)例的數(shù)目及百分比: Clustered Instances 0 4 ( 15%)1 3 ( 12%)2 4 ( 15%)3 3 ( 1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論