下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于mbnc的貝葉斯分類器實(shí)驗(yàn)平臺(tái)的構(gòu)建
1實(shí)驗(yàn)平臺(tái)建設(shè)貝葉斯分類器是當(dāng)前數(shù)據(jù)提取和研究的熱點(diǎn)之一。貝葉斯分類器是一種特殊的貝葉斯網(wǎng)絡(luò)。選擇變量作為類變量,其他變量作為屬性變量。為了測(cè)試和評(píng)估貝葉斯分類器的性能,需要對(duì)不同的數(shù)據(jù)集進(jìn)行比較和試驗(yàn)。貝葉斯網(wǎng)絡(luò)學(xué)習(xí)軟件包通常用于特定的目的和算法,并且往往無法滿足研究的需要。為了對(duì)不同數(shù)據(jù)集進(jìn)行處理,需要建立一個(gè)完整的平臺(tái)。在該平臺(tái)上,不同的貝葉斯分類器需要實(shí)現(xiàn),其他應(yīng)用程序研究任務(wù)必須擴(kuò)展到平臺(tái)上。使用實(shí)驗(yàn)平臺(tái),研究人員可以主要關(guān)注貝葉斯網(wǎng)絡(luò)學(xué)習(xí)算法的設(shè)計(jì),而不考慮底層內(nèi)容,提高研究效率。2mbrc實(shí)驗(yàn)平臺(tái)MBNC(BayesianNetworksClassifierusingMatlab)實(shí)驗(yàn)平臺(tái)在BNT提供的基本函數(shù)的基礎(chǔ)上開發(fā),可以完成數(shù)據(jù)的預(yù)處理、貝葉斯分類器結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)算法的研究實(shí)驗(yàn)、分類算法的準(zhǔn)確性評(píng)估,并可以進(jìn)一步研究分類算法的優(yōu)化.MBNC實(shí)驗(yàn)平臺(tái)包含如下5個(gè)模塊.2.1數(shù)據(jù)集的整理標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集的格式是多樣的,需要進(jìn)行數(shù)據(jù)預(yù)處理.例如,刪除或補(bǔ)齊缺失數(shù)據(jù)的記錄,連續(xù)屬性的值的離散化處理,忽略明顯對(duì)分類的作用微小的屬性等.數(shù)據(jù)預(yù)處理還包括識(shí)別各種格式的數(shù)據(jù)集,并轉(zhuǎn)換為實(shí)驗(yàn)平臺(tái)統(tǒng)一的格式,以及打亂數(shù)據(jù)集記錄的次序等.2.2基于最大權(quán)重的學(xué)習(xí)算法貝葉斯分類器結(jié)構(gòu)學(xué)習(xí)的目標(biāo)是通過數(shù)據(jù)集訓(xùn)練,得到貝葉斯分類器的結(jié)構(gòu)拓?fù)?其中,樸素貝葉斯分類器NBC(Na?veBayesianClassifier)不需要進(jìn)行結(jié)構(gòu)學(xué)習(xí);樹擴(kuò)展樸素貝葉斯分類器TANC(TreeAugmentedNa?veBayesianClassifier)利用求最大權(quán)生成樹算法,學(xué)習(xí)屬性對(duì)之間的最大權(quán)重跨度樹;貝葉斯網(wǎng)絡(luò)分類器BNC(BayesianNetworkClassifier)的結(jié)構(gòu)學(xué)習(xí)比較復(fù)雜,完全學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)是NP難問題,只能犧牲精度,采用啟發(fā)式搜索來進(jìn)行學(xué)習(xí).例如,用K2算法,貪婪搜索GS算法等等.對(duì)于缺失數(shù)據(jù)處理,有EM算法和MCMC算法等.模型選擇平均技術(shù)可解決選擇單個(gè)結(jié)構(gòu)而忽略模型結(jié)構(gòu)的不確定性.MBNC實(shí)驗(yàn)平臺(tái)的貝葉斯分類器結(jié)構(gòu)用鄰接矩陣表示.調(diào)用graphhviz圖形可視化軟件包,可以方便地顯示貝葉斯分類器拓?fù)浣Y(jié)構(gòu),還可分別以頂點(diǎn)和邊的形式保存到文件中.2.3對(duì)mbrc實(shí)驗(yàn)平臺(tái)的評(píng)價(jià)在確定貝葉斯分類器的拓?fù)浣Y(jié)構(gòu)基礎(chǔ)上,參數(shù)學(xué)習(xí)模塊進(jìn)一步學(xué)習(xí)貝葉斯分類器結(jié)點(diǎn)的聯(lián)合概率分布.MBNC實(shí)驗(yàn)平臺(tái)的參數(shù)學(xué)習(xí)分為處理完整數(shù)據(jù)和處理缺失數(shù)據(jù)兩類.對(duì)于完整數(shù)據(jù),學(xué)習(xí)參數(shù)的方法主要有兩種:最大似然性估計(jì)和貝葉斯方法;對(duì)于缺失數(shù)據(jù),如果已知網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),用EM算法來計(jì)算參數(shù),倘若未知網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),可以用的方法是SEM(StructuralEM)算法.2.4不同類型的互聯(lián)網(wǎng)算法及其推理特性通過訓(xùn)練得到貝葉斯分類器的結(jié)構(gòu)和參數(shù)后,分類模塊根據(jù)已知證據(jù)節(jié)點(diǎn),計(jì)算出所感興趣的查詢節(jié)點(diǎn)發(fā)生的概率.按推理方向劃分有四種推理,分別是因果推理、診斷推理、支持推理和混合推理.NBC和TANC的結(jié)構(gòu)是由類節(jié)點(diǎn)指向?qū)傩怨?jié)點(diǎn),其推理形式是診斷推理.而對(duì)于BNC,由于可以允許從屬性節(jié)點(diǎn)到類節(jié)點(diǎn)有弧連接,其推理形式是混合推理.在MBNC實(shí)驗(yàn)平臺(tái)上,有四種貝葉斯網(wǎng)絡(luò)推理引擎,分別是聯(lián)合樹推理引擎、聯(lián)合樹全局推理引擎、信念傳播推理引擎和變量消失推理引擎.其中,聯(lián)合樹全局推理的速度最快.2.5學(xué)習(xí)和測(cè)試場(chǎng)景在MBNC實(shí)驗(yàn)平臺(tái)上實(shí)現(xiàn)了以下多種準(zhǔn)確性評(píng)估方法.k疊交叉驗(yàn)證CVk(kfoldCrossValidation):一般用在最終建立的分類器中,或者數(shù)據(jù)集的規(guī)模較小的情況.CVk將初始數(shù)據(jù)集隨機(jī)劃分成k個(gè)互不相交的相同子集S1,…,Sk.學(xué)習(xí)和測(cè)試分別進(jìn)行k次.在第i次迭代,Si集用作測(cè)試集,其余的子集合并用于訓(xùn)練分類器.保留驗(yàn)證方法(Holdout):用在最初實(shí)驗(yàn)性的場(chǎng)合,或者多于5000條記錄的數(shù)據(jù)集中.保留驗(yàn)證將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和測(cè)試集兩個(gè)獨(dú)立的集合.通常訓(xùn)練集取2/3的數(shù)據(jù).局部標(biāo)準(zhǔn)尺度驗(yàn)證LC(LocalCriterion)和留一交叉驗(yàn)證LOO(LeaveOneOutCrossValidation)是特殊形式的CVk方法.LC依次訓(xùn)練前k-1個(gè)例子,然后測(cè)試第k個(gè)例子.LOO每次使用一個(gè)樣本作為測(cè)試樣本,其余的作為訓(xùn)練樣本,是最嚴(yán)格最精確的評(píng)估方法之一.3實(shí)驗(yàn)結(jié)果的預(yù)處理為了驗(yàn)證MBNC實(shí)驗(yàn)平臺(tái)的性能,對(duì)MBNC所建構(gòu)的貝葉斯分類器家族的3類分類器NBC,TANC和BNC進(jìn)行分類準(zhǔn)確性評(píng)估.其中,NBC只需要學(xué)習(xí)參數(shù).TANC結(jié)構(gòu)學(xué)習(xí)的核心是由最大權(quán)重跨度樹確定擴(kuò)展弧.學(xué)習(xí)最大權(quán)跨度樹采用基于互信息MI(MutualInformation)測(cè)度和基于條件互信息CMI(ConditionalMutualInformation)測(cè)度的兩種算法.BNC采用K2結(jié)構(gòu)學(xué)習(xí)算法和GS結(jié)構(gòu)學(xué)習(xí)算法.采用基于打分的K2啟發(fā)式搜索算法進(jìn)行貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí).K2算法要求輸入結(jié)點(diǎn)的次序,實(shí)現(xiàn)時(shí)取結(jié)點(diǎn)序列的倒序.求得網(wǎng)絡(luò)結(jié)構(gòu)后,再進(jìn)行參數(shù)學(xué)習(xí)和分類器準(zhǔn)確性評(píng)估.參數(shù)學(xué)習(xí)均采用BDeu(likelihoodequivalentuniformBayesianDirichlet)先驗(yàn),采用全局聯(lián)合樹推理算法.數(shù)據(jù)集從UCI(UniversityofCaliforniainIrvine)下載.表1列出了經(jīng)過預(yù)處理后的數(shù)據(jù)集概況(打*號(hào)的數(shù)據(jù)集表示與文獻(xiàn)相同).不同的數(shù)據(jù)集是在相同的環(huán)境下進(jìn)行運(yùn)算的,結(jié)果見表2.第2行是與文獻(xiàn)中相同的數(shù)據(jù)集比較,第3行是全部的24個(gè)數(shù)據(jù)集的平均結(jié)果.限于篇幅,詳細(xì)數(shù)據(jù)略去.由表2第2行可知,MBNC實(shí)驗(yàn)平臺(tái)的NBC分類準(zhǔn)確率比文獻(xiàn)相關(guān)數(shù)據(jù)集結(jié)果的平均值高1.59%,TANC-CMI比文獻(xiàn)高2.97%,TANC-MI比文獻(xiàn)高2.02%.綜合表2可得:1)NBC和TANC的準(zhǔn)確率均比相應(yīng)文獻(xiàn)的高;2)TANC的兩種分類算法的準(zhǔn)確率差不多,TANC-CMI高于TANC-MI;3)BNC介于NBC和TANC之間.實(shí)驗(yàn)結(jié)果與理論分析一致,表明基于MBNC實(shí)驗(yàn)平臺(tái)設(shè)計(jì)的貝葉斯分類器是有效和正確的.圖1從左到右依次列出了NBC,TANC-CMI,TANC-MI,BNC-K2和BNC-GS算法學(xué)習(xí)corral數(shù)據(jù)集得出的貝葉斯分類器的網(wǎng)絡(luò)結(jié)構(gòu).Corral數(shù)據(jù)集是有6個(gè)屬性的人工數(shù)據(jù)集,屬性A跟B有關(guān),C跟D有關(guān),屬性E與類結(jié)點(diǎn)不相關(guān),屬性F與類結(jié)點(diǎn)相關(guān).NBC的分類準(zhǔn)確率是86.4%.TANC-CMI算法考慮了類節(jié)點(diǎn),能夠比較準(zhǔn)確地學(xué)習(xí)到網(wǎng)絡(luò)的結(jié)構(gòu),其分類準(zhǔn)確率是99.2%.未考慮類節(jié)點(diǎn)的TANC-MI算法分類準(zhǔn)確率是84.0%.BNC的兩種算法學(xué)習(xí)得到的網(wǎng)絡(luò)結(jié)構(gòu)雖然相差一條弧,但是均正確得到了節(jié)點(diǎn)間的依賴關(guān)系,其分類準(zhǔn)確率都是100%.4實(shí)驗(yàn)結(jié)果和分析本文介紹了基于Matlab構(gòu)建的貝葉斯分類器平臺(tái)MBNC的系統(tǒng)結(jié)構(gòu)、功能和特性,并在實(shí)驗(yàn)平臺(tái)上實(shí)現(xiàn)了NBC,TANC以及BNC的結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí).經(jīng)過測(cè)試,取得了較為理想的實(shí)驗(yàn)結(jié)果.針對(duì)同樣的數(shù)據(jù)集,與以往文獻(xiàn)使用的算法構(gòu)建的貝葉斯分類器相比較,MBNC
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 商業(yè)步行街景觀路燈施工合同
- 瑜伽教練保姆合同模板
- 職業(yè)體驗(yàn)?zāi)攴b租賃合同模板
- 城市防噪系統(tǒng)防水涂料施工合同
- 婚慶用品租賃合同范本
- 高爐建設(shè)投資分析合同
- 鄭州二手房買賣合同風(fēng)險(xiǎn)防范
- 外語培訓(xùn)機(jī)構(gòu)教師合同
- 住宅建筑地暖安裝合同樣本
- 電子產(chǎn)品零售倉(cāng)儲(chǔ)協(xié)議
- 2024年輔警招聘考試試題庫及完整答案(全優(yōu))
- 抖音等短視頻mcn機(jī)構(gòu)組建與運(yùn)營(yíng)商業(yè)計(jì)劃書
- 護(hù)理方案優(yōu)化總結(jié)分析報(bào)告
- 美國(guó)史智慧樹知到期末考試答案2024年
- 二年級(jí)體育教師工作述職報(bào)告
- 2024年1月電大國(guó)家開放大學(xué)期末試題及答案:物流信息系統(tǒng)管理
- 【川教版】《生命 生態(tài) 安全》五上第8課《防患于未“燃”》課件
- 家庭責(zé)任醫(yī)生團(tuán)隊(duì)長(zhǎng)競(jìng)聘專項(xiàng)方案
- 卓有成效的管理者pdf
- 職務(wù)侵占罪預(yù)防
- 新型冠狀肺炎科普知識(shí)講座總結(jié)
評(píng)論
0/150
提交評(píng)論