




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于Weka的數(shù)據(jù)分類分析實(shí)驗(yàn)報(bào)告1實(shí)驗(yàn)?zāi)康氖褂脭?shù)據(jù)挖掘中的分類算法,對(duì)數(shù)據(jù)集進(jìn)行分類訓(xùn)練并測(cè)試。應(yīng)用不同的分類算法,比較他們之間的不同。與此同時(shí)了解Weka平臺(tái)的基本功能與使用方法。2實(shí)驗(yàn)環(huán)境2.1Weka介紹Weka是懷卡托智能分析系統(tǒng)的縮寫,該系統(tǒng)由新西蘭懷卡托大學(xué)開發(fā)。Weka使用Java寫成的,并且限制在GNU通用公共證書的條件下發(fā)布。它可以運(yùn)行于幾乎所有操作平臺(tái),是一款免費(fèi)的,非商業(yè)化的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。Weka提供了一個(gè)統(tǒng)一界面,可結(jié)合預(yù)處理以及后處理方法,將許多不同的學(xué)習(xí)算法應(yīng)用于任何所給的數(shù)據(jù)集,并評(píng)估由不同的學(xué)習(xí)方案所得出的結(jié)果。圖1Weka主界面Weka系統(tǒng)包括處理標(biāo)準(zhǔn)數(shù)據(jù)挖掘問題的所有方法:回歸、分類、聚類、關(guān)聯(lián)規(guī)則以及屬性選擇。分析要進(jìn)行處理的數(shù)據(jù)是重要的一個(gè)環(huán)節(jié),Weka提供了很多用于數(shù)據(jù)可視化和與處理的工具。輸入數(shù)據(jù)可以有兩種形式,第一種是以ARFF格式為代表的文件;另一種是直接讀取數(shù)據(jù)庫表。使用Weka的方式主要有三種:第一種是將學(xué)習(xí)方案應(yīng)用于某個(gè)數(shù)據(jù)集,然后分析其輸出,從而更多地了解這些數(shù)據(jù);第二種是使用已經(jīng)學(xué)習(xí)到的模型對(duì)新實(shí)例進(jìn)預(yù)測(cè);第三種是使用多種學(xué)習(xí)器,然后根據(jù)其性能表現(xiàn)選擇其中一種來進(jìn)行預(yù)測(cè)。用戶使用交互式界面菜單中選擇一種學(xué)習(xí)方法,大部分學(xué)習(xí)方案都帶有可調(diào)節(jié)的參數(shù),用戶可通過屬性列表或?qū)ο缶庉嬈餍薷膮?shù),然后通過同一個(gè)評(píng)估模塊對(duì)學(xué)習(xí)方案的性能進(jìn)行評(píng)估。2.2數(shù)據(jù)和數(shù)據(jù)集根據(jù)應(yīng)用的不同,數(shù)據(jù)挖掘的對(duì)象可以是各種各樣的數(shù)據(jù),這些數(shù)據(jù)可以是各種形式的存儲(chǔ),如數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)文件、流數(shù)據(jù)、多媒體、網(wǎng)頁,等等。即可以集中存儲(chǔ)在數(shù)據(jù)存儲(chǔ)庫中,也可以分布在世界各地的網(wǎng)絡(luò)服務(wù)器上。大部分?jǐn)?shù)據(jù)集都以數(shù)據(jù)庫表和數(shù)據(jù)文件的形式存在,Weka支持讀取數(shù)據(jù)庫表和多種格式的數(shù)據(jù)文件,其中,使用最多的是一種稱為ARFF格式的文件。ARFF格式是一種Weka專用的文件格式,Weka的正式文檔中說明AREF代表Attribute-RelationFileFormat(屬性-關(guān)系文件格式)。該文件是ASCII文本文件,描述共享一組屬性結(jié)構(gòu)的實(shí)例列表,由獨(dú)立且無序的實(shí)例組成,是Weka表示數(shù)據(jù)集的標(biāo)準(zhǔn)方法,AREF不涉及實(shí)例之間的關(guān)系。3數(shù)據(jù)預(yù)處理本實(shí)驗(yàn)采用Weka平臺(tái),數(shù)據(jù)使用Weka安裝目錄下data文件夾下的默認(rèn)數(shù)據(jù)集iris.arff。Iris是鳶尾花的意思,鳶尾花是鳶尾屬植物,是一種草本開花植物的統(tǒng)稱。鳶尾花只有三枚花瓣,其余外圍的那三瓣乃是保護(hù)花蕾的花萼,只是由于這三枚瓣?duì)罨ㄝ嚅L(zhǎng)得酷似花瓣,以致常常以假亂真,令人難以辨認(rèn)。由于本次使用平臺(tái)自帶的ARFF格式數(shù)據(jù),所以不存在格式轉(zhuǎn)換的過程。實(shí)驗(yàn)所用的ARFF格式數(shù)據(jù)集如圖2所示。圖2AREF格式數(shù)據(jù)集(iris.arff)鳶尾花的數(shù)據(jù)集包括三個(gè)類別:IrisSetosa(山鳶尾)、IrisVersicolour(變色鳶尾)和IrisVirginica(維吉尼亞鳶尾),每個(gè)類別各有50個(gè)實(shí)例。數(shù)據(jù)集定義了5個(gè)屬性:sepallength(花萼長(zhǎng))、sepalwidth(花萼寬)、petallength(花瓣長(zhǎng))、petalwidth(花瓣寬)、class(類別)。最后一個(gè)屬性一般作為類別屬性,其余屬性都是數(shù)值,單位為cm(厘米)。實(shí)驗(yàn)數(shù)據(jù)集中所有的數(shù)據(jù)都是實(shí)驗(yàn)所需的,因此不存在屬性篩選的問題。若所采用的數(shù)分類誤差:4.3樸素貝葉斯分類器依然使用十折交叉驗(yàn)證,訓(xùn)練集和測(cè)試集相同。使用樸素貝葉斯分類算法訓(xùn)練數(shù)據(jù)集得到的結(jié)果參數(shù):無結(jié)果分析:使用樸素貝葉斯分類器訓(xùn)練數(shù)據(jù)集,得到準(zhǔn)確率為96%,其中150個(gè)實(shí)例中的144個(gè)被正確分類,6個(gè)被錯(cuò)誤分類。根據(jù)混淆矩陣,被錯(cuò)誤分類的實(shí)例如下。4個(gè)b類實(shí)例被錯(cuò)誤分類到c;2個(gè)c類實(shí)例被錯(cuò)誤分類到b。該算法P=0.96,R=0.96,ROC面積為0.994。將模型應(yīng)用于測(cè)試集:使用樸素貝葉斯分類算法測(cè)試數(shù)據(jù)集得出的結(jié)果分類誤差:結(jié)果分析:準(zhǔn)確率為96%,有6個(gè)實(shí)例被錯(cuò)誤分類。P=0.96,R=0.96,ROC面積為0.995。4.3樸素貝葉斯分類器如下表所示。LibSVMC4.5決策樹樸素貝葉斯校驗(yàn)準(zhǔn)確率98.6667%98%96%訓(xùn)練混淆矩陣校驗(yàn)混淆矩陣標(biāo)準(zhǔn)誤差0.09430.1080.1495比較結(jié)果分析:LibSVM算法相比C4.5決
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國(guó)盆花行業(yè)運(yùn)行態(tài)勢(shì)及發(fā)展趨勢(shì)分析報(bào)告
- 2025-2030年中國(guó)電極箔產(chǎn)業(yè)發(fā)展趨勢(shì)規(guī)劃研究報(bào)告
- 2025山東省建筑安全員《B證》考試題庫
- 長(zhǎng)沙軌道交通職業(yè)學(xué)院《幼兒戲劇》2023-2024學(xué)年第二學(xué)期期末試卷
- 唐山工業(yè)職業(yè)技術(shù)學(xué)院《軟件工程原理與實(shí)踐》2023-2024學(xué)年第二學(xué)期期末試卷
- 遼寧何氏醫(yī)學(xué)院《運(yùn)動(dòng)選材學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 滁州城市職業(yè)學(xué)院《工程實(shí)訓(xùn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 中國(guó)計(jì)量大學(xué)《文學(xué)批評(píng)學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣西演藝職業(yè)學(xué)院《食品營(yíng)養(yǎng)學(xué)實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 西安信息職業(yè)大學(xué)《文獻(xiàn)檢索與科技論文寫作》2023-2024學(xué)年第二學(xué)期期末試卷
- 幼兒園廚師廚房崗位管理培訓(xùn)教學(xué)課件(一)
- 采購需求管理附件2采購需求-PR-PO操作說明
- 化工過程安全管理導(dǎo)則
- 人教版《道德與法治》四年級(jí)下冊(cè)教材簡(jiǎn)要分析課件
- 智慧水利建設(shè)頂層設(shè)計(jì)
- 數(shù)字示波器的工作原理及其應(yīng)用
- 應(yīng)聘登記表員工招聘登記表
- 肝內(nèi)膽管結(jié)石治療共識(shí) 課件
- 常見婚姻家庭糾紛及調(diào)解的技巧課件
- 新人教版高中數(shù)學(xué)必修二全冊(cè)教學(xué)課件ppt
- Python數(shù)據(jù)分析與應(yīng)用
評(píng)論
0/150
提交評(píng)論