基于Weka的數(shù)據(jù)分類分析實(shí)驗(yàn)報(bào)告_第1頁
基于Weka的數(shù)據(jù)分類分析實(shí)驗(yàn)報(bào)告_第2頁
基于Weka的數(shù)據(jù)分類分析實(shí)驗(yàn)報(bào)告_第3頁
基于Weka的數(shù)據(jù)分類分析實(shí)驗(yàn)報(bào)告_第4頁
基于Weka的數(shù)據(jù)分類分析實(shí)驗(yàn)報(bào)告_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于Weka的數(shù)據(jù)分類分析實(shí)驗(yàn)報(bào)告1實(shí)驗(yàn)?zāi)康氖褂脭?shù)據(jù)挖掘中的分類算法,對(duì)數(shù)據(jù)集進(jìn)行分類訓(xùn)練并測(cè)試。應(yīng)用不同的分類算法,比較他們之間的不同。與此同時(shí)了解Weka平臺(tái)的基本功能與使用方法。2實(shí)驗(yàn)環(huán)境2.1Weka介紹Weka是懷卡托智能分析系統(tǒng)的縮寫,該系統(tǒng)由新西蘭懷卡托大學(xué)開發(fā)。Weka使用Java寫成的,并且限制在GNU通用公共證書的條件下發(fā)布。它可以運(yùn)行于幾乎所有操作平臺(tái),是一款免費(fèi)的,非商業(yè)化的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。Weka提供了一個(gè)統(tǒng)一界面,可結(jié)合預(yù)處理以及后處理方法,將許多不同的學(xué)習(xí)算法應(yīng)用于任何所給的數(shù)據(jù)集,并評(píng)估由不同的學(xué)習(xí)方案所得出的結(jié)果。圖1Weka主界面Weka系統(tǒng)包括處理標(biāo)準(zhǔn)數(shù)據(jù)挖掘問題的所有方法:回歸、分類、聚類、關(guān)聯(lián)規(guī)則以及屬性選擇。分析要進(jìn)行處理的數(shù)據(jù)是重要的一個(gè)環(huán)節(jié),Weka提供了很多用于數(shù)據(jù)可視化和與處理的工具。輸入數(shù)據(jù)可以有兩種形式,第一種是以ARFF格式為代表的文件;另一種是直接讀取數(shù)據(jù)庫表。使用Weka的方式主要有三種:第一種是將學(xué)習(xí)方案應(yīng)用于某個(gè)數(shù)據(jù)集,然后分析其輸出,從而更多地了解這些數(shù)據(jù);第二種是使用已經(jīng)學(xué)習(xí)到的模型對(duì)新實(shí)例進(jìn)預(yù)測(cè);第三種是使用多種學(xué)習(xí)器,然后根據(jù)其性能表現(xiàn)選擇其中一種來進(jìn)行預(yù)測(cè)。用戶使用交互式界面菜單中選擇一種學(xué)習(xí)方法,大部分學(xué)習(xí)方案都帶有可調(diào)節(jié)的參數(shù),用戶可通過屬性列表或?qū)ο缶庉嬈餍薷膮?shù),然后通過同一個(gè)評(píng)估模塊對(duì)學(xué)習(xí)方案的性能進(jìn)行評(píng)估。2.2數(shù)據(jù)和數(shù)據(jù)集根據(jù)應(yīng)用的不同,數(shù)據(jù)挖掘的對(duì)象可以是各種各樣的數(shù)據(jù),這些數(shù)據(jù)可以是各種形式的存儲(chǔ),如數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)文件、流數(shù)據(jù)、多媒體、網(wǎng)頁,等等。即可以集中存儲(chǔ)在數(shù)據(jù)存儲(chǔ)庫中,也可以分布在世界各地的網(wǎng)絡(luò)服務(wù)器上。大部分?jǐn)?shù)據(jù)集都以數(shù)據(jù)庫表和數(shù)據(jù)文件的形式存在,Weka支持讀取數(shù)據(jù)庫表和多種格式的數(shù)據(jù)文件,其中,使用最多的是一種稱為ARFF格式的文件。ARFF格式是一種Weka專用的文件格式,Weka的正式文檔中說明AREF代表Attribute-RelationFileFormat(屬性-關(guān)系文件格式)。該文件是ASCII文本文件,描述共享一組屬性結(jié)構(gòu)的實(shí)例列表,由獨(dú)立且無序的實(shí)例組成,是Weka表示數(shù)據(jù)集的標(biāo)準(zhǔn)方法,AREF不涉及實(shí)例之間的關(guān)系。3數(shù)據(jù)預(yù)處理本實(shí)驗(yàn)采用Weka平臺(tái),數(shù)據(jù)使用Weka安裝目錄下data文件夾下的默認(rèn)數(shù)據(jù)集iris.arff。Iris是鳶尾花的意思,鳶尾花是鳶尾屬植物,是一種草本開花植物的統(tǒng)稱。鳶尾花只有三枚花瓣,其余外圍的那三瓣乃是保護(hù)花蕾的花萼,只是由于這三枚瓣?duì)罨ㄝ嚅L(zhǎng)得酷似花瓣,以致常常以假亂真,令人難以辨認(rèn)。由于本次使用平臺(tái)自帶的ARFF格式數(shù)據(jù),所以不存在格式轉(zhuǎn)換的過程。實(shí)驗(yàn)所用的ARFF格式數(shù)據(jù)集如圖2所示。圖2AREF格式數(shù)據(jù)集(iris.arff)鳶尾花的數(shù)據(jù)集包括三個(gè)類別:IrisSetosa(山鳶尾)、IrisVersicolour(變色鳶尾)和IrisVirginica(維吉尼亞鳶尾),每個(gè)類別各有50個(gè)實(shí)例。數(shù)據(jù)集定義了5個(gè)屬性:sepallength(花萼長(zhǎng))、sepalwidth(花萼寬)、petallength(花瓣長(zhǎng))、petalwidth(花瓣寬)、class(類別)。最后一個(gè)屬性一般作為類別屬性,其余屬性都是數(shù)值,單位為cm(厘米)。實(shí)驗(yàn)數(shù)據(jù)集中所有的數(shù)據(jù)都是實(shí)驗(yàn)所需的,因此不存在屬性篩選的問題。若所采用的數(shù)分類誤差:4.3樸素貝葉斯分類器依然使用十折交叉驗(yàn)證,訓(xùn)練集和測(cè)試集相同。使用樸素貝葉斯分類算法訓(xùn)練數(shù)據(jù)集得到的結(jié)果參數(shù):無結(jié)果分析:使用樸素貝葉斯分類器訓(xùn)練數(shù)據(jù)集,得到準(zhǔn)確率為96%,其中150個(gè)實(shí)例中的144個(gè)被正確分類,6個(gè)被錯(cuò)誤分類。根據(jù)混淆矩陣,被錯(cuò)誤分類的實(shí)例如下。4個(gè)b類實(shí)例被錯(cuò)誤分類到c;2個(gè)c類實(shí)例被錯(cuò)誤分類到b。該算法P=0.96,R=0.96,ROC面積為0.994。將模型應(yīng)用于測(cè)試集:使用樸素貝葉斯分類算法測(cè)試數(shù)據(jù)集得出的結(jié)果分類誤差:結(jié)果分析:準(zhǔn)確率為96%,有6個(gè)實(shí)例被錯(cuò)誤分類。P=0.96,R=0.96,ROC面積為0.995。4.3樸素貝葉斯分類器如下表所示。LibSVMC4.5決策樹樸素貝葉斯校驗(yàn)準(zhǔn)確率98.6667%98%96%訓(xùn)練混淆矩陣校驗(yàn)混淆矩陣標(biāo)準(zhǔn)誤差0.09430.1080.1495比較結(jié)果分析:LibSVM算法相比C4.5決

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論