



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于 weka 的數(shù)據(jù)分類分析實(shí)驗(yàn)報(bào)告1實(shí)驗(yàn)基本內(nèi)容本實(shí)驗(yàn)的基本內(nèi)容是通過(guò)使用 分別在訓(xùn)練數(shù)據(jù)上訓(xùn)練出分類模型,weka中的三種常見分類和聚類方法(決策樹J48、KNN和k-means)并使用校驗(yàn)數(shù)據(jù)對(duì)各個(gè)模型進(jìn)行測(cè)試和評(píng)價(jià),找出各個(gè)模型最優(yōu)的參數(shù)值,并對(duì)三個(gè)模型進(jìn)行全面評(píng)價(jià)比較,得到一個(gè)最好的分類模型以及該模型所有設(shè)置的最優(yōu)參數(shù)。最后使用這些參數(shù)以及訓(xùn)練集和校驗(yàn)集數(shù)據(jù)一起構(gòu)造出一個(gè)最優(yōu)分類器,并利用該分類器對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。2數(shù)據(jù)的準(zhǔn)備及預(yù)處理2.1格式轉(zhuǎn)換方法(1)打開 data02.xls ”另存為 CSV 類型,得到 “ data02.csv”。dataOZcsv(2)在WEKA中提
2、供了一個(gè)“ Arff Viewer ”模塊,打開一個(gè)“data02.csv”進(jìn)行瀏覽,然后另存為ARFF 文件,得到“ data02.arff”。O data02.artf。3.實(shí)驗(yàn)過(guò)程及結(jié)果截圖3.1決策樹分類(1)決策樹分類用"Explorer ”打開數(shù)據(jù)"data02.arff ”,然后切換到"Classify ”。點(diǎn)擊"Choose",選擇算法 “ trees-J48 ”,再在"Test options ” 選擇"Cross-validation (Flods=10 )",點(diǎn)擊"Start ”,開
3、始 運(yùn)行。系統(tǒng)默認(rèn)trees-J48 決策樹算法中minNumObj=2 ,得到如下結(jié)果=Summary =Correctly Classified In sta nces In correctly Classified In sta nces Kappa statisticMean absolute errorRoot mean squared errorRelative absolute errorRoot relative squared error2330.76360.1410.325530.7368 %68.0307 %88.4615 %11.5385 %Total Number o
4、f In sta nces26=Detailed Accuracy By Class =TP RateFP RatePrecisio nRecall F-MeasureROC AreaClass0.824010.8240.9030.892N10.1760.7510.8570.892YWeighted Avg.0.8850.0610.9130.8850.8870.892=Con fusi on Matrix =a b <- classified as143 | a = N09 | b = Y使用不同的參數(shù)準(zhǔn)確率比較:mi nNu mObj2345Correctly23222323Class
5、ified(84.6154 %)(88.4615 %)(88.4615 %)(88.4615 %)Instances由上表,可知 minNumObj為2時(shí),準(zhǔn)確率最高。 根據(jù)測(cè)試數(shù)集,利用準(zhǔn)確率最高的模型得到的結(jié)果:分析說(shuō)明:10折交叉驗(yàn)證(Folds=10 )來(lái)選擇和評(píng)估模型,其中屬性2388.4615 %311.5385 %在用J48對(duì)數(shù)據(jù)集進(jìn)行分類時(shí)采用了 值有兩個(gè)Y, No 部分結(jié)果如下:Correctly Classified In sta ncesIn correctly Classified In sta nces =Con fusi on Matrix =a b <- c
6、lassified as143 | a = N09 | b = Y這個(gè)矩陣是說(shuō),原來(lái)是 “Y'的實(shí)例,有14個(gè)被正確的預(yù)測(cè)為 “Y”有3個(gè)錯(cuò)誤的預(yù)測(cè)成了 “NO原 本是“NO的實(shí)例有0個(gè)被正確的預(yù)測(cè)成為 “Y”有9個(gè)正確的預(yù)測(cè)成了 “No “14+3+0+9=26是實(shí)例的 總數(shù),而(14+9) / 26=0.884615正好是正確分類的實(shí)例所占比例。這個(gè)矩陣對(duì)角線上的數(shù)字越大,說(shuō)明預(yù)測(cè)得越好。(2)K最近鄰分類算法用“ Explorer "打開數(shù)據(jù)“ data02.arff ”然后切換到“ Classify ”點(diǎn)擊“ Choose",選擇算法 “l(fā)azy-IBk &
7、quot;,再在“ Test options "選擇“ Cross-validation ( Flods=10 )",點(diǎn)擊“ Start ",開始 運(yùn)行。訓(xùn)練結(jié)果:系統(tǒng)默認(rèn)lazy-IBk K最近鄰分類算法中 KNN=1得到如下結(jié)果 =Summary =Correctly Classified In sta nces2076.9231 %In correctly Classified In sta nces 623.0769 %Kappa statisticMean absolute error0.49020.252Root mean squared errorR
8、elative absolute error0.462654.9136 %Root relative squared errorTotal Number of In sta nces96.694 %26=Detailed Accuracy By Class =TP Rate FP Rate Precisi on Recall F-Measure ROC Area Class0.8240.3330.8240.8240.8240.768N0.6670.1760.6670.6670.6670.768YWeighted Avg.0.7690.2790.7690.7690.7690.768=Con fu
9、si on Matrix = a b <- classified as 14 3| a = N3 6 | b = Y使用不同的參數(shù)準(zhǔn)確率比較:KNN1234CorrectlyClassifiedInstances20(76.9231 %)19(73.0769%23(88.4615 %)20(76.9231 %)由上表,可知 KNN為3時(shí),準(zhǔn)確率最高。根據(jù)測(cè)試數(shù)集,利用準(zhǔn)確率最高的模型得到的結(jié)果:分析說(shuō)明:在用lazy-lbk(KNN=3)對(duì)數(shù)據(jù)集進(jìn)行分類時(shí)采用了10折交叉驗(yàn)證(Folds=10)來(lái)選擇和評(píng)估模型,其中屬性值有兩個(gè) Y, N。一部分結(jié)果如下:=Summary =Correc
10、tly Classified In sta nces2388.4615 %In correctly Classified In sta nces311.5385 %=Con fusi on Matrix =a b <- classified as16 1 | a = N2 7 | b = Y這個(gè)矩陣是說(shuō),原來(lái)是 “Y'的實(shí)例,有16個(gè)被正確的預(yù)測(cè)為 “Y”有1個(gè)錯(cuò)誤的預(yù)測(cè)成了 “原 本是“NO的實(shí)例有2個(gè)被正確的預(yù)測(cè)成為 “Y”有9個(gè)正確的預(yù)測(cè)成了 7” “6+1+2+7=26”是實(shí)例的 總數(shù),而(16+7)/ 26=0.884615正好是正確分類的實(shí)例所占比例。二、對(duì)“ dat
11、aO1 ”進(jìn)行聚類分析1.數(shù)據(jù)格式的轉(zhuǎn)換(1)打開 data01.xls "另存為 CSV 類型,得到“ dataO1.csv”ARFF 文件,得到“ dataO1.arff”Q dataOl.arff越 dataOl.csvdata01.csv”進(jìn)行瀏覽,然后另存為(2)在WEKA中提供了一個(gè)“ Arff Viewer ”模塊,打開一個(gè)“2.聚類過(guò)程用“ Explorer ”打開數(shù)據(jù)“ data01.arff ”然后切換到“ Cluster ”點(diǎn)擊“ Choose”選擇算法 “ SimpleKMeans( numClusters=6 , seed=200),再在“ Test opt
12、ions "選擇“ Use training set ” 點(diǎn)擊“ Start ”,開始運(yùn)行。訓(xùn)練結(jié)果:采用 simpleKMeans 算法,其中 numClusters=6, seed=100,得到如下結(jié)果:Number of iterations: 3(平方誤差之和)Clustered In sta ncesClustered Instances 0 4 ( 15%)1 3 ( 12%)2 4 ( 15%)3 3 ( 12%)4 2 ( 8%)5 10 ( 38%)(各類的包含的實(shí)例個(gè)數(shù)以及占總實(shí)例的百分比)說(shuō)明:其中當(dāng) seed 的取值越大,平方誤差之和越小。在這次實(shí)驗(yàn)seed=
13、100,得到:9.這是評(píng)價(jià)聚類好壞的標(biāo)準(zhǔn),數(shù)值越小說(shuō)明同一簇實(shí)例之間的距離 就越小。接下來(lái)“ Cluster centroids” :列出了各個(gè)簇中心的位置:2(4)3(3)4(2)Attribute5(10)Full Data(26)0(4)1(3)sample13.522.54.666720.514.66674.511.2old-year48.076965.7559.333350.52556.541.9VEGF1.92312.75 2.3333 22.666731MVC102.1538126.45100.6667127.488.266710486.58cancer-grade2.57693.75233.33333.51.7cancer-stage2.15383.251.333332.33333.51.3cancer metastasisNYNNYYN最后“ Clustered Instances ”列出了各個(gè)簇中實(shí)例的數(shù)目及百分比: Clustered Instances 0 4 ( 15%)1 3 ( 12%)2 4 ( 15%)3 3 ( 1
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 軍品訂購(gòu)項(xiàng)目管理辦法
- 北京車位產(chǎn)權(quán)管理辦法
- 資本驅(qū)動(dòng)下人工智能產(chǎn)業(yè)化的倫理挑戰(zhàn)與應(yīng)對(duì)策略
- 睡眠剝奪對(duì)小鼠色氨酸代謝及行為影響機(jī)制研究
- 體檢機(jī)構(gòu)備案管理辦法
- 佛山酒店宿舍管理辦法
- 西部地區(qū)經(jīng)濟(jì)韌性對(duì)經(jīng)濟(jì)高質(zhì)量發(fā)展的影響研究
- 基于機(jī)器視覺的鋼板表面缺陷自動(dòng)檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
- 未發(fā)生較大及以上生產(chǎn)安全事故
- 智慧醫(yī)院建設(shè)管理辦法
- 井蓋巡查管理制度
- GB/T 33490-2025展覽展示工程服務(wù)基本要求
- 2024年國(guó)能榆林化工有限公司招聘真題
- 消防總隊(duì)面試題目及答案
- 《低鈉血癥中國(guó)專家共識(shí)(2023年版)》解讀課件
- 公司法期末考試卷及答案
- GB/T 45604-2025船舶與海洋技術(shù)大抓力平衡錨
- 國(guó)家中小學(xué)智慧教育平臺(tái)與人工智能融合應(yīng)用指南(試行)
- 混凝土攪拌站企業(yè)管理規(guī)范與要求
- 物業(yè)公司接管寫字樓項(xiàng)目工作時(shí)間倒推計(jì)劃表(T日為入駐日)
- 重點(diǎn)人口管理工作規(guī)定
評(píng)論
0/150
提交評(píng)論