weka實(shí)驗(yàn)報(bào)告__第1頁(yè)
weka實(shí)驗(yàn)報(bào)告__第2頁(yè)
weka實(shí)驗(yàn)報(bào)告__第3頁(yè)
weka實(shí)驗(yàn)報(bào)告__第4頁(yè)
weka實(shí)驗(yàn)報(bào)告__第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于weka的數(shù)據(jù)分類(lèi)分析實(shí)驗(yàn)報(bào)告1實(shí)驗(yàn)?zāi)康模?)了解決策樹(shù)C4.5和樸素貝葉斯等算法的基本原理。(2)熟練使用weka實(shí)現(xiàn)上述兩種數(shù)據(jù)挖掘算法,并對(duì)訓(xùn)練出的模型進(jìn)行測(cè)試和評(píng)價(jià)。2實(shí)驗(yàn)基本內(nèi)容本實(shí)驗(yàn)的基本內(nèi)容是通過(guò)基于weka實(shí)現(xiàn)兩種常見(jiàn)的數(shù)據(jù)挖掘算法(決策樹(shù)C4.5和樸素貝葉斯),分別在訓(xùn)練數(shù)據(jù)上訓(xùn)練出分類(lèi)模型,并使用校驗(yàn)數(shù)據(jù)對(duì)各個(gè)模型進(jìn)行測(cè)試和評(píng)價(jià),找出各個(gè)模型最優(yōu)的參數(shù)值,并對(duì)模型進(jìn)行全面評(píng)價(jià)比較,得到一個(gè)最好的分類(lèi)模型以及該模型所有設(shè)置的最優(yōu)參數(shù)。最后使用這些參數(shù)以及訓(xùn)練集和校驗(yàn)集數(shù)據(jù)一起構(gòu)造出一個(gè)最優(yōu)分類(lèi)器,并利用該分類(lèi)器對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。3算法基本原理(1)決策樹(shù)C4.5C4.5

2、是一系列用在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的分類(lèi)問(wèn)題中的算法。它的目標(biāo)是監(jiān)督學(xué)習(xí):給定一個(gè)數(shù)據(jù)集,其中的每一個(gè)元組都能用一組屬性值來(lái)描述,每一個(gè)元組屬于一個(gè)互斥的類(lèi)別中的某一類(lèi)。C4.5的目標(biāo)是通過(guò)學(xué)習(xí),找到一個(gè)從屬性值到類(lèi)別的映射關(guān)系,并且這個(gè)映射能用于對(duì)新的類(lèi)別未知的實(shí)體進(jìn)行分類(lèi)。C4.5由J.RossQuinlan在ID3的基礎(chǔ)上提出的。ID3算法用來(lái)構(gòu)造決策樹(shù)。決策樹(shù)是一種類(lèi)似流程圖的樹(shù)結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)(非樹(shù)葉節(jié)點(diǎn))表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)樹(shù)葉節(jié)點(diǎn)存放一個(gè)類(lèi)標(biāo)號(hào)。一旦建立好了決策樹(shù),對(duì)于一個(gè)未給定類(lèi)標(biāo)號(hào)的元組,跟蹤一條有根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑,該葉節(jié)點(diǎn)就存放著該

3、元組的預(yù)測(cè)。決策樹(shù)的優(yōu)勢(shì)在于不需要任何領(lǐng)域知識(shí)或參數(shù)設(shè)置,適合于探測(cè)性的知識(shí)發(fā)現(xiàn)。從ID3算法中衍生出了C4.5和CART兩種算法,這兩種算法在數(shù)據(jù)挖掘中都非常重要。屬性選擇度量又稱(chēng)分裂規(guī)則,因?yàn)樗鼈儧Q定給定節(jié)點(diǎn)上的元組如何分裂。屬性選擇度量提供了每個(gè)屬性描述給定訓(xùn)練元組的秩評(píng)定,具有最好度量得分的屬性被選作給定元組的分裂屬性。目前比較流行的屬性選擇度量有-信息增益、增益率和Gini指標(biāo)。樸素貝葉斯貝葉斯分類(lèi)是一類(lèi)分類(lèi)算法的總稱(chēng),這類(lèi)算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱(chēng)為貝葉斯分類(lèi)。樸素貝葉斯分類(lèi)是一種十分簡(jiǎn)單的分類(lèi)算法,叫它樸素貝葉斯分類(lèi)是因?yàn)檫@種方法的思想真的很樸素,樸素貝葉斯的思想基礎(chǔ)是這樣

4、的:對(duì)于給出的待分類(lèi)項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類(lèi)別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類(lèi)項(xiàng)屬于哪個(gè)類(lèi)別。通俗來(lái)說(shuō),就好比這么個(gè)道理,你在街上看到一個(gè)黑人,我問(wèn)你你猜這哥們哪里來(lái)的,你十有八九猜非洲。為什么呢?因?yàn)楹谌酥蟹侵奕说谋嚷首罡?,?dāng)然人家也可能是美洲人或亞洲人,但在沒(méi)有其它可用信息下,我們會(huì)選擇條件概率最大的類(lèi)別,這就是樸素貝葉斯的思想基礎(chǔ)。樸素貝葉斯分類(lèi)的正式定義如下:1)設(shè)x=a_1,a_2,.,a_m)為一個(gè)待分類(lèi)項(xiàng),而每個(gè)a為x的一個(gè)特征屬性。2)有類(lèi)別集合C=y_1,y_2,.y_n。3) 計(jì)算P(y_1|x),P(y_2|x),.,P(y_n|x)。4) 如果P(y_k|x

5、)=maxP(y_1|x),P(y_21x),.,P(y_n|x),則xiny_ko那么現(xiàn)在的關(guān)鍵就是如何計(jì)算第3步中的各個(gè)條件概率。我們可以這么做:1)找到一個(gè)已知分類(lèi)的待分類(lèi)項(xiàng)集合,這個(gè)集合叫做訓(xùn)練樣本集。2)統(tǒng)計(jì)得到在各類(lèi)別下各個(gè)特征屬性的條件概率估計(jì)。即P(a_1|y_1),P(a_2|y_1)P(a_m|y_1);P(a_1|y_2),P(a_21y_2)P(a_m|y_2);.;P(a_1|y_n),P(a_21y_n),.,P(a_m|y_n)。3)如果各個(gè)特征屬性是條件獨(dú)立的,則根據(jù)貝葉斯定理有如下推導(dǎo):P(y_i|x)=fracP(x|y_i)P(y_i)P(x)J因?yàn)榉帜笇?duì)

6、于所有類(lèi)別為常數(shù),因?yàn)槲覀冎灰獙⒎肿幼畲蠡钥?。又因?yàn)楦魈卣鲗傩允菞l件獨(dú)立的,所以有:P(x|y_i)P(y_i)=P(a_1|y_i)P(a_21y_i).P(a_m|y_i)P(y_i)=P(y_i)procTm_j=1P(a_jly_i)根據(jù)上述分析,樸素貝葉斯分類(lèi)的流程分為三個(gè)階段:第一階段準(zhǔn)備工作階段,這個(gè)階段的任務(wù)是為樸素貝葉斯分類(lèi)做必要的準(zhǔn)備,主要工作是根據(jù)具體情況確定特征屬性,并對(duì)每個(gè)特征屬性進(jìn)行適當(dāng)劃分,然后由人工對(duì)一部分待分類(lèi)項(xiàng)進(jìn)行分類(lèi),形成訓(xùn)練樣本集合。這一階段的輸入是所有待分類(lèi)數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。這一階段是整個(gè)樸素貝葉斯分類(lèi)中唯一需要人工完成的階段,其質(zhì)量對(duì)

7、整個(gè)過(guò)程將有重要影響,分類(lèi)器的質(zhì)量很大程度上由特征屬性、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定。第二階段分類(lèi)器訓(xùn)練階段,這個(gè)階段的任務(wù)就是生成分類(lèi)器,主要工作是計(jì)算每個(gè)類(lèi)別在訓(xùn)練樣本中的出現(xiàn)頻率及每個(gè)特征屬性劃分對(duì)每個(gè)類(lèi)別的條件概率估計(jì),并將結(jié)果記錄。其輸入是特征屬性和訓(xùn)練樣本,輸出是分類(lèi)器。這一階段是機(jī)械性階段,根據(jù)前面討論的公式可以由程序自動(dòng)計(jì)算完成。第三階段一一應(yīng)用階段。這個(gè)階段的任務(wù)是使用分類(lèi)器對(duì)待分類(lèi)項(xiàng)進(jìn)行分類(lèi),其輸入是分類(lèi)器和待分類(lèi)項(xiàng),輸出是待分類(lèi)項(xiàng)與類(lèi)別的映射關(guān)系。這一階段也是機(jī)械性階段,由程序完成。4實(shí)驗(yàn)(1)實(shí)驗(yàn)設(shè)置通過(guò)統(tǒng)計(jì)數(shù)據(jù)信息,發(fā)現(xiàn)帶有類(lèi)標(biāo)號(hào)的數(shù)據(jù)一共有286行,為了避免數(shù)據(jù)的

8、過(guò)度擬合,必須把數(shù)據(jù)訓(xùn)練集和校驗(yàn)集分開(kāi),目前的拆分策是訓(xùn)練集200行,校驗(yàn)集86行。(2)決策樹(shù)分類(lèi)用“Explorer”打開(kāi)剛才“breast-cancer_train.arff”,并切換到“Class"。點(diǎn)“Choose”按鈕選擇“tree(weka.cIassifiers.trees.j48)”,這是WEKA中實(shí)現(xiàn)的決策樹(shù)算法。選擇Cross-Vaiidatioinfolds=10,然后點(diǎn)擊“start”按鈕:訓(xùn)練數(shù)據(jù)集訓(xùn)練決策樹(shù)得出的結(jié)果使用不同配置訓(xùn)練參數(shù),得到的實(shí)驗(yàn)數(shù)據(jù):配置不同的葉子節(jié)點(diǎn)的實(shí)例個(gè)數(shù)實(shí)例數(shù)/葉節(jié)點(diǎn)23457準(zhǔn)確率72.33%70.8%72.8%73.3%7

9、3.8%結(jié)果分析:使用決策樹(shù)時(shí),每個(gè)葉子節(jié)點(diǎn)最優(yōu)的實(shí)例個(gè)數(shù)為7O校瞼數(shù)據(jù)集校驗(yàn)決策樹(shù)得出的結(jié)果初步結(jié)果分析:使用決策樹(shù)進(jìn)行分類(lèi),對(duì)于已知的類(lèi)標(biāo)的86個(gè)數(shù)據(jù)進(jìn)行比較準(zhǔn)確的分類(lèi),準(zhǔn)確率達(dá)到69.7%;該數(shù)據(jù)一般,并且有一定的缺陷,因?yàn)樵摻Y(jié)果是以訓(xùn)練集的低準(zhǔn)確率作為前提的。(2)樸素貝葉斯分類(lèi)點(diǎn)“Choose"按鈕選擇"bayes,這是WEKA中實(shí)現(xiàn)的決策樹(shù)算法。選擇Cross-Validatioinfolds=10,然后點(diǎn)擊“start"按鈕:訓(xùn)練數(shù)據(jù)集訓(xùn)練Na?veBayes得出的結(jié)果得出的準(zhǔn)確率為72.3%校驗(yàn)數(shù)據(jù)集校驗(yàn)Na?veBayes得出的結(jié)果初步結(jié)果分析:測(cè)試結(jié)果中準(zhǔn)確率僅僅達(dá)到81.4%O5實(shí)驗(yàn)總結(jié)通

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論