基于Weka的數(shù)據(jù)分類分析實(shí)驗報告_第1頁
基于Weka的數(shù)據(jù)分類分析實(shí)驗報告_第2頁
基于Weka的數(shù)據(jù)分類分析實(shí)驗報告_第3頁
基于Weka的數(shù)據(jù)分類分析實(shí)驗報告_第4頁
基于Weka的數(shù)據(jù)分類分析實(shí)驗報告_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于Weka的數(shù)據(jù)分類分析實(shí)驗報告1實(shí)驗?zāi)康氖褂脭?shù)據(jù)挖掘中的分類算法,對數(shù)據(jù)集進(jìn)行分類訓(xùn)練并測試。應(yīng)用不同的分類算法,比較他們之間的不同。與此同時了解Weka平臺的基本功能與使用方法。2實(shí)驗環(huán)境2.1 Weka介紹Weka是懷卡托智能分析系統(tǒng)的縮寫,該系統(tǒng)由新西蘭懷卡托大學(xué)開發(fā)。Weka使用Java寫成的,并且限制在GNU!用公共證書的條件下發(fā)布。它可以運(yùn)行于幾乎所有操作平臺,是一款免費(fèi)的,非商業(yè)化的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。Weka提供了一個統(tǒng)一界面,可結(jié)合預(yù)處理以及后處理方法,將許多不同的學(xué)習(xí)算法應(yīng)用于任何所給的數(shù)據(jù)集,并評估由不同的學(xué)習(xí)方案所得出的結(jié)果。圖1Weka主界面Weka系統(tǒng)包括

2、處理標(biāo)準(zhǔn)數(shù)據(jù)挖掘問題的所有方法:回歸、分類、聚類、關(guān)聯(lián)規(guī)則以及屬性選擇。分析要進(jìn)行處理的數(shù)據(jù)是重要的一個環(huán)節(jié),Weka提供了很多用于數(shù)據(jù)可視化和與處理的工具。輸入數(shù)據(jù)可以有兩種形式,第一種是以ARFF格式為代表的文件;另一種是直接讀取數(shù)據(jù)庫表。使用Weka的方式主要有三種:第一種是將學(xué)習(xí)方案應(yīng)用于某個數(shù)據(jù)集,然后分析其輸出,從而更多地了解這些數(shù)據(jù);第二種是使用已經(jīng)學(xué)習(xí)到的模型對新實(shí)例進(jìn)預(yù)測;第三種是使用多種學(xué)習(xí)器,然后根據(jù)其性能表現(xiàn)選擇其中一種來進(jìn)行預(yù)測。用戶使用交互式界面菜單中選擇一種學(xué)習(xí)方法,大部分學(xué)習(xí)方案都帶有可調(diào)節(jié)的參數(shù),用戶可通過屬性列表或?qū)ο缶庉嬈餍薷膮?shù),然后通過同一個評估模塊對

3、學(xué)習(xí)方案的性能進(jìn)行評估。2.2 數(shù)據(jù)和數(shù)據(jù)集根據(jù)應(yīng)用的不同,數(shù)據(jù)挖掘的對象可以是各種各樣的數(shù)據(jù),這些數(shù)據(jù)可以是各種形式的存儲,如數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)文件、流數(shù)據(jù)、多媒體、網(wǎng)頁,等等。即可以集中存儲在數(shù)據(jù)存儲庫中,也可以分布在世界各地的網(wǎng)絡(luò)服務(wù)器上。大部分?jǐn)?shù)據(jù)集都以數(shù)據(jù)庫表和數(shù)據(jù)文件的形式存在,Weka支持讀取數(shù)據(jù)庫表和多種格式的數(shù)據(jù)文件,其中,使用最多的是一種稱為ARFF格式的文件。ARFF格式是一種Weka專用的文件格式,Weka的正式文檔中說明AREF代表Attribute-RelationFileFormat(屬性-關(guān)系文件格式)。該文件是ASCII文本文件,描述共享一組屬性結(jié)構(gòu)的實(shí)例

4、列表,由獨(dú)立且無序的實(shí)例組成,是Weka表示數(shù)據(jù)集的標(biāo)準(zhǔn)方法,ARE壞涉及實(shí)例之間的關(guān)系。3數(shù)據(jù)預(yù)處理本實(shí)驗采用Weka平臺,數(shù)據(jù)使用Weka安裝目錄下data文件夾下的默認(rèn)數(shù)據(jù)集iris.arff。Iris是鶯尾花的意思,鶯尾花是鶯尾屬植物,是一種草本開花植物的統(tǒng)稱。鶯尾花只有三枚花瓣,其余外圍的那三瓣乃是保護(hù)花蕾的花萼,只是由于這三枚瓣狀花萼長得酷似花瓣,以致常常以假亂真,令人難以辨認(rèn)。由于本次使用平臺自帶的ARFF格式數(shù)據(jù),所以不存在格式轉(zhuǎn)換的過程。實(shí)驗所用的ARFF格式數(shù)據(jù)集如圖2所示。ViewerXRelation:irisNo1:sepallength2:sepalwittfri3

5、:petallength4-petalwi<Jth5-classNunwicNunwicNumG<icNurrwicNominsI15.13.5140.2Iris-s.249301,+0.2ki£-S.347321.302lris-s.44.6311.502Irls-s.55.0361.402Iris-s.65.43g17C4Iris-s.74.6341403Iris-s.,S5.03.41.50,2Iris-s.9442.91.40.2Iris噌“1049311501Iri£-S.1154371.502lris-s.124.B341.&02Irls-s

6、.134.S301401Iris-s.144.3201.101Iris-s.155.3401.20.2Iris-s.165,74.41.50.4Iriss.17543.91.3Q,4|ris185.13,51403Iris-s.195.7331703IriB-s.205.1381.503Irises.215.4341.702Iris-s.4)Addinstance(XCancel圖2AREF格式數(shù)據(jù)集(iris.arff)鶯尾花的數(shù)據(jù)集包括三個類別:IrisSetosa(山鶯尾)、IrisVersicolour(變色鶯尾)和IrisVirginica(維吉尼亞鶯尾),每個類別各有50個實(shí)例。數(shù)

7、據(jù)集定義了5個屬性:sepallength(花萼長)、sepalwidth(花萼寬)、petallength(花瓣長)、petalwidth(花瓣寬)、class(類別)。最后一個屬性一般作為類別屬性,其余屬性都是數(shù)值,單位為cm(厘米)。實(shí)驗數(shù)據(jù)集中所有的數(shù)據(jù)都是實(shí)驗所需的,因此不存在屬性篩選的問題。若所采用的數(shù)據(jù)集中存在大量的與實(shí)驗無關(guān)的屬性, 篩選。實(shí)驗所需的訓(xùn)練集和測試集均為則需要使用weka平臺的Filter(過濾器)實(shí)現(xiàn)屬性的iris.arff。4實(shí)驗過程及結(jié)果應(yīng)用iris.arff數(shù)據(jù)集,分別采用LibSVM、C4.5決策樹分類器和樸素貝葉斯分類器進(jìn)行測試和評價,分別在訓(xùn)練數(shù)據(jù)上

8、訓(xùn)練分類模型,找出各個模型最優(yōu)的參數(shù)值,并對三個模型進(jìn)行全面評價比較,得到一個最好的分類模型以及該模型所有設(shè)置的最優(yōu)參數(shù)。最后使用這些參數(shù)以及訓(xùn)練集和校驗集數(shù)據(jù)一起構(gòu)造出一個最優(yōu)分類器,并利用該分類器對測試數(shù)據(jù)進(jìn)行預(yù)測。4.1LibSVM分類Weka平臺內(nèi)部沒有集成LibSVM分類器,要使用該分類器,需要下載libsvm.jar并導(dǎo)入到Weka中,直接在Tools-Packagemanager中搜索LibSVM進(jìn)行安裝。用Explorer打開數(shù)據(jù)集iris.arff,并在Explorer中將功能面板切換到Classify,點(diǎn)Choose按鈕選擇functions(weka.classifier

9、s.functions.LibSVM),選擇LibSVM分類算法。在TestOptions面板中選擇Cross-Validation=10,即十折交叉驗證。然后點(diǎn)擊start按鈕:使用LibSVM分類算法訓(xùn)練數(shù)據(jù)集得出的結(jié)果參數(shù):-S0-K2-D3-G0.0-R0.0-N0.5-M40.0-C1.0-E0.0010-P0.1-Claaiifier(fullLibSVWi|ffT4pperp匚口de匕尸Yanar-rEL-Manjaj daSlfled145In-z Drreetly ClTD3»n«33"郭MP,、*rrnrCUEK邕口M-百二 3口口懸丁培4 e

10、rror0,乳felntivr uteo二ute rrrEir5彳rrZ 5 ti ve stjb Td -rmr31.422a ITotal Nuznber of Injtsncw150Ettailrd ft.二cu二cl二3 3y CLasj "-TP PateFP RacePr«.13iffD Re-fiiLLOMth MOL.M4O.HOO-D?00.91594.94QD-9600.030weighted口Q.OtT5 367S75tz'a.t L£i-td ex 033 -va iczn 一 S'-raery 二一 Cnf-jazOT M

11、iatriir F He satire»rcROC Ar-earC AreaH1.0001 + OODt.OMIrij-sew?40-945O-WS0 + 9«0Q窕aIria-vTisiwlOTCL卑父M蕾C.9CE1 aril F 丁girdm。.沏naw5n , METisireEnk-ntoinziIdsod-e-J.:Cl_03mt二ocidhsbcclasszfled03540I*-Iris-aetOM0413Ib-Iri3-vcT3tcDlor,C24?Ic-Iris-virgrniM結(jié)果分析:使用該參數(shù)指定的LibSVM訓(xùn)練數(shù)據(jù)集,得到的準(zhǔn)確率為96.666

12、7%,其中150個實(shí)例中145個被正確分類,5個被錯誤分類。根據(jù)混淆矩陣,被錯誤分類的實(shí)例如下。2個b類實(shí)例被錯誤分類到c;3個c類實(shí)例被錯誤分類到b。該算法P=0.967,R=0.967,RO面積為0.975.將模型應(yīng)用與測試集:使用LibSVM分類算法測試數(shù)據(jù)集得出的結(jié)果3T工-CortwcLyciwsLXledMatagslieqWET+工ncoEZCXL/Inauaces21.3333上工3區(qū)通szeLLaciie生anabKlikre-error置DatEt-ax;jnazE'derrni:R.ela1.1ve由baaluxjzec?D-tRutrtlatuveguander

13、rsrT口t-LUmberc-f。期。一切一0.10M32加150tI=DEtfldlrd恥qj匚量匚y33CLa3aT?1tate元RatePrecisiznResallFTte獨(dú)3:工亡MCC前CAtePSCArrsCZismsLdM0.0001,0001,0001.000l.OCD1.000-1.0C0rri*-sfrta550,9C00,0001+0000.MCa.9-3D0>»7D0.9B003trij-verisic.Oilor1.0000.0200«M21-0000.9SD丸加1。型。*大2Iria-vrrgitiiME50.900,0910+9870.

14、367a,9E00.990CtGcnfusLG-nMaximahc<-cloLSBfzedaa&000a-I±ie-agtaiaao4、2d,xna-veraiccicE。加ic®irifl-vimzacQ結(jié)果分析:準(zhǔn)確率為98.6667%,只有兩個實(shí)例被錯誤分類。P=0.987,R=0.987,RO面積為0.99。分類誤差:4.2C4.5決策樹分類器依然使用十折交叉驗證,訓(xùn)練集和測試集相同。使用C4.5決策樹分類算法訓(xùn)練數(shù)據(jù)集得出的結(jié)果參數(shù):-C0.25-M2iHfettolitiiLa.x.oie_:umcos.23ezdiflLzdiLiEion-gjr

15、nawwb.1443®*mearreecLydassLEled.Znszaj:eee克蘭paMe士二=l:d_Lu.L-etszzDrLerror同名】疝1Lin且西W口:ue庭-errarRg匚irel-atiwsquaredsrrisrTotalWurabw-rofDeEaiLe-dE.二e=a二yByClau"T?Rate-TPftot.e1有心4CLOSEO-ises7.BTC3*39.C3S3I3工匚gRecall4F-Hn工MCCROCReJftCAnaD.9BOO.OMDM9M0.W0.9A5C.MD仇知Iri3-3F,M7Ffl口如0=0300.9400號刎

16、0.940Gfl910a.9520.8MIri.g-veraicclO'rD.9<00.030059410+9d0.95Uo-Bwsa.Ml0«90SIris-viruinlcfl:油EH口0-0205%00.9W0-9S00-9400.MB0-9?4CTnf'jazoTiHatr_KA0sclajrzfLEdns461口u總*L?iQ-agxosa0413Ib-Lria-veTareaLcEa24£Ic-iriB*virgLEiLM結(jié)果分析:使用該參數(shù)指定的C4.5決策樹分類器訓(xùn)練數(shù)據(jù)集,得到準(zhǔn)確率為96%其中150個實(shí)例中的144個被正確分類,6個

17、被錯誤分類。根據(jù)混淆矩陣,被錯誤分類的實(shí)例如下。2個b類實(shí)例被錯誤分類到c,1個b類實(shí)例被錯誤分類到a;三個c類實(shí)例被錯誤分類到bo該算法P=0.96,R=0.96,ROC0積為0.968。將模型應(yīng)用于測試集:使用C4.5分類算法測試數(shù)據(jù)集得出的結(jié)果SumraryCorrccclyClajuiLlica.1479:liu&SETeCTly口討討#Lted3fCappiiBacLcacOp91陋3HaotQ=arjqp-arelerzar0.10=leLazLvealbd二二二eeriar5.25=2上=l3orxslcaclvesquaredeirc-r士上.9士三9t工ZufflDl

18、:匕上日上二二J:L2J=150ktiB£led址wuaiUTBiC工a”TP而£曹ITItaGePreui1Hie靠Re1LF-H*aa!jrtNCCROCAreaPRCArenGn”l.COO0-0001,0001.30C1.OCD1,0CDLMM1.0CDTriKkEM0-9D00.020O.«l0.5SCC.發(fā)口C.9F5卓u0.9£9Iria-vrsi匕中口力丁0-5600.010O,S0O口門的Q.91DQ.5550.9900.DLrisr-virginicafc-jhtrdo.aeao.oiaCL9第0,9600.9=30.WD0,930&

19、lt;WD-Con±uE;二二nMatrm-自標(biāo)乙elaasiiteaa巨boooi白,iTia-jetcija0491I=Iril-VBZlLCalC-£o2ie|cwiia-vifgLoicii結(jié)果分析:準(zhǔn)確率為98%有3個實(shí)例被錯誤分類。P=0.98,R=0.98,RO面積為0.993。分類誤差:4.3樸素貝葉斯分類器依然使用十折交叉驗證,訓(xùn)練集和測試集相同。使用樸素貝葉斯分類算法訓(xùn)練數(shù)據(jù)集得到的結(jié)果參數(shù):無cortweLycia5smeanm:2sm11,95Inje2zzeeicl.7*led工na二jCmppmw二a匚二臼匚二c:生點(diǎn)natisalLireerr

20、or且aotEicaxierrorRelativeak-ialLiuerrorRwtrelativeaquae?rsrTo<«lNtnbvrc-f71n-tanu號*=DttaiLedJuzcuracyB/Clas=TPAat-5?P如tEA0.94"S,上a.155T-aw7imiISO?r*cisio±iBtsallMCCROCArrePRCArceClfl-55EOOOCOL匚胡L仇。1.D0030配1,000LMOIf15-3«&?-aa2的M弘0,5230,B6C0.9410.9110.992tl/83lEij-versicclo

21、ra.920C.0200.9580.92C九湖0.910th”4Iri5virgin!mWe:ffbtedRp,09603(12。0.9600.96Cn,g«o0.94D0.9»s一-CtafuDLcnMm=:abc<-claaaLiedaa500t)a"Iria-saa.0穌:總-ina-verai&zLoro-c.ina-vtzijLBisa結(jié)果分析:使用樸素貝葉斯分類器訓(xùn)練數(shù)據(jù)集,得到準(zhǔn)確率為96%其中150個實(shí)例中的144個被正確分類,6個被錯誤分類。根據(jù)混淆矩陣,被錯誤分類的實(shí)例如下。4個b類實(shí)例被錯誤分類到c;2個c類實(shí)例被錯誤分類到b。

22、該算法P=0.96,R=0.96,RO面積為0.994。將模型應(yīng)用于測試集:使用樸素貝葉斯分類算法測試數(shù)據(jù)集得出的結(jié)果口5皿鵬修!»-crErcctLyClusiiizd-dstancc3144%iRcr?eccLyEBqmnce叁Me-=nfibsolute-errorSac*eeelqerror豈elat=vmitaclut-=error置牛二二LiSclrete工二二Tota1t(LBnbexe>£IdstaREm上嵯t工吐口kscracyCLajjTFR-t-FPPat«0.910.0324G.14-9S7.22B3牝150?T«EiliiEXlR】L4F-MefimreMOTROC工mPRC401»M1.000*MQLOCK1.ng1.(JOO1m1M。1-700:FtWtr,r0.9EOO.MO0.923D.SfiflC+M10+9UOp993D8IrLS-vriLcalcTQMQQM0Q.土Q.通CPQ+9l0QB-口,mG二e.FrgLcie*NeigftFd為啊.O_9f(30DJ2D0.36Z口.鼻51c.g后口0.995D.c-91二cjitum二口乂amahc<*-Classifiedas5C00Io*Irla-setdJa0-44

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論