數(shù)據(jù)挖掘期末實(shí)驗(yàn)報(bào)告1_第1頁(yè)
數(shù)據(jù)挖掘期末實(shí)驗(yàn)報(bào)告1_第2頁(yè)
數(shù)據(jù)挖掘期末實(shí)驗(yàn)報(bào)告1_第3頁(yè)
數(shù)據(jù)挖掘期末實(shí)驗(yàn)報(bào)告1_第4頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘期末實(shí)驗(yàn)報(bào)告數(shù)據(jù)挖掘技術(shù)期末報(bào)告理學(xué)院姓名:學(xué)號(hào):聯(lián)系電話:專業(yè)班級(jí):評(píng)分:優(yōu)|良|中|及格|不及格 一、實(shí)驗(yàn)?zāi)康?基于從uci公開數(shù)據(jù)庫(kù)中下載的數(shù)據(jù),使用數(shù)據(jù)挖掘中的分類算法,用weka 平臺(tái)的基本功能對(duì)數(shù)據(jù)集進(jìn)行分類,對(duì)算法結(jié)果進(jìn)行性能比較,畫出性能比較圖,另外針對(duì)不同數(shù)量的訓(xùn)練集進(jìn)行對(duì)比實(shí)驗(yàn),并畫出性能比較圖訓(xùn)練并測(cè)試。二、實(shí)驗(yàn)環(huán)境實(shí)驗(yàn)采用weka平臺(tái),數(shù)據(jù)使用來(lái)自從uci公開數(shù)據(jù)庫(kù)中下載,主要使用其中的breast cancer wisc-onsin (original) data set數(shù)據(jù)。weka是懷卡托智能分析系統(tǒng)的縮寫,該系統(tǒng)由新西蘭懷卡托大學(xué)開發(fā)。weka使用jav

2、a寫成的,并且限制在gnu通用公共證書的條件下發(fā)布。它可以運(yùn)行于幾乎所有操作平臺(tái),是一款免費(fèi)的,非商業(yè)化的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。weka提供了一個(gè)統(tǒng)一界面,可結(jié)合預(yù)處理以及后處理方法,將許多不同的學(xué)習(xí)算法應(yīng)用于任何所給的數(shù)據(jù)集,并評(píng)估由不同的學(xué)習(xí)方案所得出的結(jié)果。三、實(shí)驗(yàn)步驟3.1數(shù)據(jù)預(yù)處理本實(shí)驗(yàn)是針對(duì)威斯康辛州(原始)的乳腺癌數(shù)據(jù)集進(jìn)行分類,該表含有sample code number(樣本代碼),clump thickness(叢厚度),uniformity of cell size(均勻的細(xì)胞大?。?,uniformity of cell shape (均勻的細(xì)胞形狀),margina

3、l adhesion (邊際粘連),single epithelial cell size(單一的上皮細(xì)胞大?。?,bare nuclei(裸核),bland chromatin(平淡的染色質(zhì)),normal nucleoli(正常的核仁),mitoses (有絲分裂),class(分類),其中第二項(xiàng)到第十項(xiàng)取值均為1-10,分類中2代表良性,4代表惡性。通過實(shí)驗(yàn),希望能找出患乳腺癌客戶各指標(biāo)的分布情況。該數(shù)據(jù)的數(shù)據(jù)屬性如下:1. sample code number(numeric),樣本代碼;2. clump thickness(numeric),叢厚度;3.uniformity of ce

4、ll size(numeric)均勻的細(xì)胞大小;4. uniformity of cell shape(numeric),均勻的細(xì)胞形狀;5.marginal adhesion(numeric),邊際粘連;6.single epithelial cell size(numeric),單一的上皮細(xì)胞大??;7.bare nuclei(numeric),裸核; 8.bland chromatin(numeric),平淡的染色質(zhì); 9. normal nucleoli(numeric),正常的核仁;10.mitoses(numeric),有絲分裂;11.class(enum),分類。3.2數(shù)據(jù)分析由u

5、ci公開數(shù)據(jù)庫(kù)得到一組由逗號(hào)隔開的數(shù)據(jù),復(fù)制粘貼至excel表中,選擇數(shù)據(jù)分列下一步逗號(hào)完成,該數(shù)據(jù)是有關(guān)乳腺癌數(shù)據(jù)集,有11個(gè)屬性,分別為sample code number(樣本代碼),clump thickness(叢厚度),uniformity of cell size(均勻的細(xì)胞大?。?,uniformity of cell shape (均勻的細(xì)胞形狀),marginal adhesion(邊際粘連),single epithelial cell size(單一的上皮細(xì)胞大小),bare nuclei(裸核),bland chromatin(平淡的染色質(zhì)),normal nucleo

6、li(正常的核仁),mitoses(有絲分裂),class(分類),因?yàn)閺?fù)制粘貼過來(lái)的數(shù)據(jù)沒有屬性,所以手工添加一行屬性名。weka分類數(shù)據(jù)需把excel保存為一個(gè)csv文件。圖1中顯示的是使用“exploer”打開“乳腺癌數(shù)據(jù)集.csv.arff”的情況.如圖1所示: (圖1) 3.2.1 數(shù)據(jù)預(yù)處理很明顯發(fā)現(xiàn),所用的數(shù)據(jù)都是(numeric)數(shù)值型的,需要將數(shù)值型離散化,將“clump thickness ”,“uniformity of cell size ”,“uniformity of cell shape”,“marginal adhesion ”,“marginal adhesi

7、on ”,“bare nuclei ”,“bland chromatin ”,“normal nucleoli ”,“mitoses”,“class”離散化。我們需要借助w eka中名為“discretize”的filter來(lái)完成。在區(qū)域2中點(diǎn)“choose”,出現(xiàn)一棵“filter樹”,逐級(jí)找到“weka.filters.unsupervised.attribute.discretize”點(diǎn)擊,即可?,F(xiàn)在“choose”旁邊的文本框應(yīng)該顯示“discretize -b 10 -m -0.1 -r first-last”。如圖箭頭所示,點(diǎn)擊這個(gè)文本框會(huì)彈出新窗口以修改離散化的參數(shù)。我們需將第1

8、,2,3,4,5,6,7,8,9,10項(xiàng)離散化,其中第一項(xiàng)為id,可移除。把a(bǔ)ttributeindices右邊改成“1,2,3,4,5,6,7,8,9,10”。我們把這兩個(gè)屬性都分成10段,于是把“bins”改成“10”。其它不變。點(diǎn)“ok”回到“explorer”,可以看到“clump thickness ”,“uniformity of cell size ”,“uniformity of cell shape”,“marginal adhesion ”,“marginal adhesion ”,“bare nuclei ”,“bland chromatin ”,“normal nucl

9、eoli ”,“mitoses”,已經(jīng)被離散化成分類型的屬性。經(jīng)移除后剩10項(xiàng)屬性,其中一項(xiàng)如圖2所示,10項(xiàng)屬性可視化如圖3所示:(圖2) (圖3)3.3.1決策樹分類用“explorer”打開剛才得到的“乳腺癌數(shù)據(jù)集.csv.arff”,并切換到“class”。點(diǎn)“choose”按鈕選擇“tree(weka.classifiers.trees.j48)”,這是w eka中實(shí)現(xiàn)的決策樹算法。得到結(jié)果如圖4和圖5所示: (圖4) (圖5)這個(gè)是針對(duì)第一項(xiàng)clump thickness叢厚度和第九項(xiàng)mitoses有絲分裂項(xiàng)運(yùn)用c4.5決策算法得到誤差分析的結(jié)果,分析可知總共有699個(gè)數(shù)據(jù)進(jìn)行分類

10、,clump thickness(叢厚度)其中102個(gè)為正確分類,正確分類率為26.03726%,517個(gè)為錯(cuò)誤分類,錯(cuò)誤分類為73.9268%。而第九項(xiàng)mitoses有絲分裂項(xiàng)也是分析699個(gè)數(shù)據(jù),其中正確分類有579個(gè)數(shù)據(jù),正確率為82.8326%,錯(cuò)誤分類的有120個(gè),錯(cuò)誤分類的有17.1674%。根據(jù)混淆矩陣,被錯(cuò)誤分類實(shí)例很多如圖 (圖6)3.3.2貝葉斯分類為了與上面決策樹作比較,貝葉斯也選擇第一項(xiàng)第一項(xiàng)clump thickness 叢厚度和第九項(xiàng)mitoses有絲分裂項(xiàng),得到結(jié)果如下圖7,8所示:(圖7) (圖8)這個(gè)是針對(duì)第一項(xiàng)clump thickness叢厚度和第九項(xiàng)mi

11、toses有絲分裂項(xiàng)運(yùn)用貝葉斯算法得到誤差分析的結(jié)果,分析可知總共有699個(gè)數(shù)據(jù)進(jìn)行分類,clump thickness(叢厚度)其中198個(gè)為正確分類,正確分類率為28.3262%,501個(gè)為錯(cuò)誤分類,錯(cuò)誤分類為71.6738%。而第九項(xiàng)mitoses有絲分裂項(xiàng)其中正確分類有467個(gè)數(shù)據(jù),正確率為66.8097%,錯(cuò)誤分類的有232個(gè),錯(cuò)誤分類的有33.1903%。根據(jù)混淆矩陣,被錯(cuò)誤分類實(shí)例很多,相對(duì)來(lái)說(shuō),clump thickness叢厚度用兩種方法混淆程度差不多,錯(cuò)綜復(fù)雜,而mitoses有絲分裂項(xiàng)用貝葉斯分類明顯混淆矩陣要比用決策樹方法混淆率要低,中間第六項(xiàng)到就第九項(xiàng)明顯混響不是很多

12、,如圖9所示。基于以上兩種分析,建議用貝葉斯分類方法分類,降低混淆率,提高正確率。 (圖9)3.3.3k最近鄰算法分類在剛才進(jìn)行決策樹分類和貝葉斯分類的的的那個(gè)頁(yè)面,點(diǎn)“choose”按鈕選擇“l(fā)aze-ib k”,選擇cross-validatioin folds=10,然后點(diǎn)擊“start”按鈕:同樣選擇圖中箭頭指向選擇屬性,然后點(diǎn)擊“start”按鈕:為了與上面決策樹和貝葉斯作比較,k最近鄰算法分類也選擇第一項(xiàng)clump thickness叢厚度和第九項(xiàng)mitoses有絲分裂項(xiàng),得到結(jié)果如下圖10,11所示: (圖10)(圖11)這個(gè)是針對(duì)第一項(xiàng)clump thickness叢厚度和第九項(xiàng)mitoses有絲分裂項(xiàng)運(yùn)用k最近鄰算法得到誤差分析的結(jié)果,分析可知總共有699個(gè)數(shù)據(jù)進(jìn)行分類,clump thickness(叢厚度)其中191個(gè)為正確分類,正確分類率為27.3247%, 508個(gè)為錯(cuò)誤分類,錯(cuò)誤分類為72.6753%。而第九項(xiàng)mitoses有絲分裂項(xiàng)其中正確分類有546個(gè)數(shù)據(jù),正確率為78.1116%,錯(cuò)誤

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論