2024年數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第1頁
2024年數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第2頁
2024年數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第3頁
2024年數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第4頁
2024年數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《數(shù)據(jù)挖掘》Weka試驗(yàn)匯報(bào)姓名_學(xué)號(hào)_指導(dǎo)教師開課學(xué)期至年2學(xué)期完畢曰期6月12曰1.試驗(yàn)?zāi)康?/p>

基于+Cancer+WiscOnsin+%28Ori-ginal%29的數(shù)據(jù),使用數(shù)據(jù)挖掘中的分類算法,運(yùn)用Weka平臺(tái)的基本功能對(duì)數(shù)據(jù)集進(jìn)行分類,對(duì)算法成果進(jìn)行性能比較,畫出性能比較圖,此外針對(duì)不一樣數(shù)量的訓(xùn)練集進(jìn)行對(duì)比試驗(yàn),并畫出性能比較圖訓(xùn)練并測(cè)試。2.試驗(yàn)環(huán)境

試驗(yàn)采用Weka平臺(tái),數(shù)據(jù)使用來自east+Cancer+WiscOnsin+%28Original%29,重要使用其中的BreastCancerWisc-onsin(Original)DataSet數(shù)據(jù)。Weka是懷卡托智能分析系統(tǒng)的縮寫,該系統(tǒng)由新西蘭懷卡托大學(xué)開發(fā)。Weka使用Java寫成的,并且限制在GNU通用公共證書的條件下公布。它可以運(yùn)行于幾乎所有操作平臺(tái),是一款免費(fèi)的,非商業(yè)化的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。Weka提供了一種統(tǒng)一界面,可結(jié)合預(yù)處理以及後處理措施,將許多不一樣的學(xué)習(xí)算法應(yīng)用于任何所給的數(shù)據(jù)集,并評(píng)估由不一樣的學(xué)習(xí)方案所得出的成果。3.試驗(yàn)環(huán)節(jié)3.1數(shù)據(jù)預(yù)處理本試驗(yàn)是針對(duì)威斯康辛州(原始)的乳腺癌數(shù)據(jù)集進(jìn)行分類,該表具有Samplecodenumber(樣本代碼),ClumpThickness(叢厚度),UniformityofCellSize(均勻的細(xì)胞大?。?,UniformityofCellShape(均勻的細(xì)胞形狀),MarginalAdhesion(邊際粘連),SingleEpithelialCellSize(單一的上皮細(xì)胞大小),BareNuclei(裸核),BlandChromatin(平淡的染色質(zhì)),NormalNucleoli(正常的核仁),Mitoses(有絲分裂),Class(分類),其中第二項(xiàng)到第拾項(xiàng)取值均為1-10,分類中2代表良性,4代表惡性。通過試驗(yàn),但愿能找出患乳腺癌客戶各指標(biāo)的分布狀況。該數(shù)據(jù)的數(shù)據(jù)屬性如下:1.Samplecodenumber(numeric),樣本代碼;2.ClumpThickness(numeric),叢厚度;3.UniformityofCellSize(numeric)均勻的細(xì)胞大??;4.UniformityofCellShape(numeric),均勻的細(xì)胞形狀;5.MarginalAdhesion(numeric),邊際粘連;6.SingleEpithelialCellSize(numeric),單一的上皮細(xì)胞大??;7.BareNuclei(numeric),裸核;8.BlandChromatin(numeric),平淡的染色質(zhì);9.NormalNucleoli(numeric),正常的核仁;10.Mitoses(numeric),有絲分裂;11.Class(enum),分類。3.2數(shù)據(jù)分析由+Cancer+WiscOnsin+%28Ori-ginal%29得到一組由逗號(hào)隔開的數(shù)據(jù),復(fù)制粘貼至excel表中,選擇數(shù)據(jù)——分列——下一步——逗號(hào)——完畢,該數(shù)據(jù)是有關(guān)乳腺癌數(shù)據(jù)集,有11個(gè)屬性,分別為Samplecodenumber(樣本代碼),ClumpThickness(叢厚度),UniformityofCellSize(均勻的細(xì)胞大?。?,UniformityofCellShape(均勻的細(xì)胞形狀),MarginalAdhesion(邊際粘連),SingleEpithelialCellSize(單一的上皮細(xì)胞大?。?,BareNuclei(裸核),BlandChromatin(平淡的染色質(zhì)),NormalNucleoli(正常的核仁),Mitoses(有絲分裂),Class(分類),由于復(fù)制粘貼過來的數(shù)據(jù)沒有屬性,因此手工添加一行屬性名。Weka分類數(shù)據(jù)需把excel保留為一種csv文獻(xiàn)。3.2.1.csv->.arff將CSV轉(zhuǎn)換為ARFF最迅捷的措施是使用WEKA所帶的命令行工具。打開weka,之後出現(xiàn)GUI界面,如圖1所示:(圖1)點(diǎn)擊進(jìn)入“Exploer”模塊,要將.csv格式轉(zhuǎn)換為.arff格式,點(diǎn)擊openfile...,打開剛保留的“乳腺癌數(shù)據(jù)集.csv”,點(diǎn)擊“Save...”,將文獻(xiàn)保留為“乳腺癌數(shù)據(jù)集.csv.arff”如圖2所示:(圖2)圖3中顯示的是使用“Exploer”打開“乳腺癌數(shù)據(jù)集.csv.arff”的狀況.如圖3所示:(圖3)3.2.2數(shù)據(jù)預(yù)處理很明顯發(fā)現(xiàn),所用的數(shù)據(jù)都是(numeric)數(shù)值型的,需要將數(shù)值型離散化,將“ClumpThickness”,“UniformityofCellSize”,“UniformityofCellShape”,“MarginalAdhesion”,“MarginalAdhesion”,“BareNuclei”,“BlandChromatin”,“NormalNucleoli”,“Mitoses”,“Class”離散化。我們需要借助Weka中名為“Discretize”的Filter來完畢。在區(qū)域2中點(diǎn)“Choose”,出現(xiàn)一棵“Filter樹”,逐層找到“.Discretize”點(diǎn)擊,即可得到如下所示的圖,如圖4所示:(圖4)目前“Choose”旁邊的文本框應(yīng)當(dāng)顯示“Discretize-B10-M-0.1-Rfirst-last”。如圖箭頭所示,點(diǎn)擊這個(gè)文本框會(huì)彈出新窗口以修改離散化的參數(shù)。我們需將第1,2,3,4,5,6,7,8,9,10項(xiàng)離散化,其中第一項(xiàng)為id,可移除。把a(bǔ)ttributeIndices右邊改成“1,2,3,4,5,6,7,8,9,10”。我們把這兩個(gè)屬性都提成10段,于是把“bins”改成“10”。其他不變。點(diǎn)“OK”回到“Explorer”,可以看到“ClumpThickness”,“UniformityofCellSize”,“UniformityofCellShape”,“MarginalAdhesion”,“MarginalAdhesion”,“BareNuclei”,“BlandChromatin”,“NormalNucleoli”,“Mitoses”,已經(jīng)被離散化成分類型的屬性。經(jīng)移除後剩10項(xiàng)屬性,其中一項(xiàng)如圖5所示,10項(xiàng)屬性可視化如圖6所示:(圖5)(圖6)在進(jìn)行數(shù)據(jù)搜集和整頓的過程中,我們發(fā)現(xiàn)假如屬性的類型為數(shù)值型的話,在做關(guān)聯(lián)分析時(shí)將不能得到成果,可以比較圖3和圖5,圖3是數(shù)值型,圖5是數(shù)據(jù)離散化之後的。由于關(guān)聯(lián)分析無法處理數(shù)值型數(shù)據(jù),因此,我們進(jìn)行了數(shù)據(jù)離散處理後使得需要分析的數(shù)據(jù)變?yōu)榉诸愋?,這樣就可以關(guān)聯(lián)分析得以順利進(jìn)行。因此通過預(yù)處理數(shù)據(jù)可以提高原數(shù)據(jù)的質(zhì)量,清除數(shù)據(jù)噪聲和與挖掘目的無關(guān)的數(shù)據(jù),為深入的挖掘工作莫定可靠的基礎(chǔ)。3.3數(shù)據(jù)分類算法針對(duì)這些有關(guān)乳腺癌數(shù)據(jù)集,重要分別采用的分類措施是決策樹算法、K均值算法、樸素貝葉斯分類算法。由于該數(shù)據(jù)集有10個(gè)屬性,則下文中對(duì)每個(gè)屬性進(jìn)行分類的環(huán)節(jié)大體相似,由于篇幅原因,只截取其中兩個(gè)屬性,目前就所選截屏屬性作申明,選第一項(xiàng)ClumpThickness(叢厚度))和第九項(xiàng)Mitoses(有絲分裂)。3.3.1決策樹分類用“Explorer”打開剛剛得到的“乳腺癌數(shù)據(jù)集.csv.arff”,并切換到“Class”。點(diǎn)“Choose”按鈕選擇“tree(weka.classifiers.trees.j48)”,這是Weka中實(shí)現(xiàn)的決策樹算法。選擇Cross-Validatioin

folds=10,選擇圖中箭頭指向選擇屬性,然後點(diǎn)擊“start”按鈕。得到成果如圖7和圖8所示:(圖7)(圖8)這個(gè)是針對(duì)第一項(xiàng)ClumpThickness叢厚度和第九項(xiàng)Mitoses有絲分裂項(xiàng)運(yùn)用C4.5決策算法得到誤差分析的成果,分析可知總共有699個(gè)數(shù)據(jù)進(jìn)行分類,ClumpThickness(叢厚度)其中102個(gè)為對(duì)的分類,對(duì)的分類率為26.03726%,517個(gè)為錯(cuò)誤分類,錯(cuò)誤分類為73.9268%。而第九項(xiàng)Mitoses有絲分裂項(xiàng)也是分析699個(gè)數(shù)據(jù),其中對(duì)的分類有579個(gè)數(shù)據(jù),對(duì)的率為82.8326%,錯(cuò)誤分類的有120個(gè),錯(cuò)誤分類的有17.1674%。根據(jù)混淆矩陣,被錯(cuò)誤分類實(shí)例諸多,錯(cuò)綜復(fù)雜,如圖9所示:(圖9)3.3.2貝葉斯分類在剛剛進(jìn)行決策樹分類的的那個(gè)頁面,點(diǎn)“Choose”按鈕選擇“bayes”,再選擇Cross-Validatioin

folds=10,同樣選擇圖中箭頭指向選擇屬性,然後點(diǎn)擊“start”按鈕:為了與上面決策樹作比較,貝葉斯也選擇第一項(xiàng)第一項(xiàng)ClumpThickness叢厚度和第九項(xiàng)Mitoses有絲分裂項(xiàng),得到成果如下圖10,11所示:(圖10)(圖11)這個(gè)是針對(duì)第一項(xiàng)ClumpThickness叢厚度和第九項(xiàng)Mitoses有絲分裂項(xiàng)運(yùn)用貝葉斯算法得到誤差分析的成果,分析可知總共有699個(gè)數(shù)據(jù)進(jìn)行分類,ClumpThickness(叢厚度)其中198個(gè)為對(duì)的分類,對(duì)的分類率為28.3262%,501個(gè)為錯(cuò)誤分類,錯(cuò)誤分類為71.6738%。而第九項(xiàng)Mitoses有絲分裂項(xiàng)其中對(duì)的分類有467個(gè)數(shù)據(jù),對(duì)的率為66.8097%,錯(cuò)誤分類的有232個(gè),錯(cuò)誤分類的有33.1903%。根據(jù)混淆矩陣,被錯(cuò)誤分類實(shí)例諸多,相對(duì)來說,ClumpThickness叢厚度用兩種措施混淆程度差不多,錯(cuò)綜復(fù)雜,而Mitoses有絲分裂項(xiàng)用貝葉斯分類明顯混淆矩陣要比用決策樹措施混淆率要低,中間第六項(xiàng)到就第九項(xiàng)明顯混響不是諸多,如圖12所示。基于以上兩種分析,提議用貝葉斯分類措施分類,減少混淆率,提高對(duì)的率。(圖12)3.3.3K近來鄰算法分類在剛剛進(jìn)行決策樹分類和貝葉斯分類的的的那個(gè)頁面,點(diǎn)“Choose”按鈕選擇“l(fā)aze->ibk”,選擇Cross-Validatioin

folds=10,然後點(diǎn)擊“start”按鈕:同樣選擇圖中箭頭指向選擇屬性,然後點(diǎn)擊“start”按鈕:為了與上面決策樹和貝葉斯作比較,K近來鄰算法分類也選擇第一項(xiàng)ClumpThickness叢厚度和第九項(xiàng)Mitoses有絲分裂項(xiàng),得到成果如下圖13,14所示:(圖13)(圖14)這個(gè)是針對(duì)第一項(xiàng)ClumpThickness叢厚度和第九項(xiàng)Mitoses有絲分裂項(xiàng)運(yùn)用K近來鄰算法得到誤差分析的成果,分析可知總共有699個(gè)數(shù)據(jù)進(jìn)行分類,ClumpThickness(叢厚度)其中191個(gè)為對(duì)的分類,對(duì)的分類率為27.3247%,508個(gè)為錯(cuò)誤分類,錯(cuò)誤分類為72.6753%。而第九項(xiàng)Mitoses有絲分裂項(xiàng)其中對(duì)的分類有546個(gè)數(shù)據(jù),對(duì)的率為78.1116%,錯(cuò)誤分類的有153個(gè),錯(cuò)誤分類的有21.8884%。根據(jù)混淆矩陣,被錯(cuò)誤分類實(shí)例諸多,相對(duì)來說,ClumpThickness叢厚度與前兩個(gè)算法混淆程度差不多,錯(cuò)綜復(fù)雜,甚至比前兩個(gè)更要復(fù)雜,而Mitoses有絲分裂項(xiàng)用K近來鄰算法明顯混淆矩陣要比用決策樹措施和貝葉斯措施混淆率要低,中間第四項(xiàng)到就最終明顯混響不是諸多,如圖15所示:(圖15)3.4三種分類措施成果比較綜上所述,分析三種算法的對(duì)的率和錯(cuò)誤率,同樣針對(duì)699的數(shù)據(jù),ClumpThickness(叢厚度)用三種算法對(duì)的分類個(gè)數(shù)分別為102個(gè)、198個(gè)、191個(gè),對(duì)的分類率分別為26.03726%、28.3262%、27.3247%,,錯(cuò)誤分類個(gè)數(shù)分別為517個(gè)、501個(gè)、508個(gè),錯(cuò)誤分類率分別為73.9268%、71.6738%、72.6753%。第九項(xiàng)Mitoses有絲分裂項(xiàng)用三種算法對(duì)的分類分別為579個(gè)、467個(gè)、546,對(duì)的率分別為82.8326%、66.8097%、78.1116%,錯(cuò)誤分類的分別為120個(gè)、232個(gè)、153個(gè),錯(cuò)誤分類的有17.1674%、33.1903%、21.8884%。為便于比較,將上述數(shù)據(jù)統(tǒng)一下表中,如表1所示:決策樹貝葉斯K近來鄰算法ClumpThickness對(duì)的率26.03726%28.3262%27.3247%,ClumpThickness原則誤差0.31090.31190.3227Mitoses對(duì)的率82.8326%66.8097%78.1116%Mitoses原則誤差0.17550.21040.1989(表1)比較成果分析:根據(jù)上述數(shù)據(jù),我們模型好壞的評(píng)價(jià)原則Rootmeansquarederror(均方差):越小越好。針對(duì)ClumpThickness(叢厚度),貝葉斯不僅有最高的精確率和相對(duì)很好的原則誤差,并且比較三種分類措施的混淆矩陣(如圖9、12、15),混淆率相對(duì)來說也是最低的,其他兩種措施的對(duì)的率都不及貝葉斯高,并且其他屬性也也許錯(cuò)綜復(fù)雜。針對(duì)Mitoses(有絲分裂),決策樹措施不僅有最高的完美對(duì)的率,并且有很好的原則誤差,但這種完美的背後,很有也許是以其他屬性較大錯(cuò)誤率作為代價(jià),這點(diǎn)可以從三個(gè)分類算法的混淆矩陣中得到印證(如圖9、12、15);而樸素貝葉斯分類算法的精確率相對(duì)較低,而原則誤差也較高,綜合評(píng)價(jià)可以得知,目前最佳的分類算法是K近來鄰算法。綜上所述:針對(duì)ClumpThickness(叢厚度)分類,選擇貝葉斯分類算法,而Mitoses(有絲分裂)選擇K近來鄰算法。(其中ClumpThickness原則誤差和Mitoses原則誤差如下圖16,17所示)。(圖16)(圖17)三種算法在進(jìn)行測(cè)試的性能比較要進(jìn)行性能比較,則需比較這10項(xiàng)屬性的預(yù)測(cè),同上文同樣,這裏只比較第一項(xiàng)ClumpThickness叢厚度和第九項(xiàng)Mitoses有絲分裂項(xiàng),點(diǎn)“moreoptions...”按鈕,選勾選“outprediction”,其他不勾選,然後點(diǎn)擊“OK”按鈕如圖18所示:(圖18)得到性能測(cè)試成果如下,圖19分別為第一項(xiàng)ClumpThickness叢厚度用決策樹措施、貝葉斯、K近來鄰算法預(yù)測(cè)的成果,圖20分別為第九項(xiàng)Mitoses有絲分裂項(xiàng)用決策樹措施、貝葉斯、K近來鄰算法預(yù)測(cè)的成果,由于數(shù)據(jù)屬性的項(xiàng)諸多且數(shù)據(jù)量很大,重要截取了前25項(xiàng)左右的成果。成果如下:(圖19)分析第一項(xiàng)ClumpThickness叢厚度。性能分析應(yīng)當(dāng)包括兩個(gè)部分,一種部分是測(cè)試速度,另一種部分是測(cè)試的質(zhì)量。由于本次使用所使用的數(shù)據(jù)量一般,不是諸多,在測(cè)試速度的對(duì)比上相差太少,無法進(jìn)行精確的分析。而在測(cè)試質(zhì)量上,可以從上述數(shù)據(jù)中很明顯得到,在“error”(錯(cuò)誤項(xiàng)),決策樹和K近來鄰算法諸多加號(hào),這闡明錯(cuò)誤率很大,從而導(dǎo)致分類質(zhì)量的減少;而對(duì)于“probabilitydistribution”(概率分布項(xiàng)),決策樹和K近來鄰算法分布很混亂,前六項(xiàng)屬性的概率分布波動(dòng)較大,而貝葉斯與其相比,“error”(錯(cuò)誤項(xiàng))幾乎無“+”,闡明其錯(cuò)誤率相對(duì)其他兩種措施,貝葉斯的錯(cuò)誤率減少諸多,并且在“probabilitydistribution”(概率分布項(xiàng)),上,分布很整潔,因此從性能角度上講,貝葉斯算法略勝一籌。(圖20)觀測(cè)圖20,分析第九項(xiàng)Mi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論