版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第十章貝葉斯分類數(shù)據(jù)分析與數(shù)據(jù)挖掘01連續(xù)屬性貝葉斯分類器20%30%40%50%分類問題是根據(jù)給定對象的若干屬性(輸入屬性)來判別該對象所屬的類別(輸出屬性)。表示分類的輸出屬性也常稱分類屬性,它是無量度的離散值。
當只有一個輸入屬性時,可使用<x,①>表示一個樣本,x表示輸入屬性,φ表示分類屬性。如果φ只有兩種可能取值,則稱作二分分類(BinaryClassification),常簡稱二分類;如果a有多個可能取值,則稱多重分類(MultipleClassification),常簡稱多分類。單個連續(xù)屬性貝葉斯分類如圖10.1(a)所示,將p(x|)稱作類條件概率密度(Classconditionalprobabilitydensity),即對應(yīng)著類別狀態(tài)w下x的概率密度函數(shù)。單個連續(xù)屬性貝葉斯分類多個連續(xù)屬性的最小總風(fēng)險決策當有多個輸入屬性時,令X=x,x?,…,xg,其中,g表示輸入屬性個數(shù),那么貝葉斯公式可以表示為式(10.4)。式(10.4)中,分母p(X)對每個類別的條件概率大小在計算上都相同,在分類判別時不起作用,所以只需計算分子。多個連續(xù)屬性的最小平均誤差率決策02正態(tài)概率分布下的貝葉斯分類器分類器是完成對給定對象輸入特征X判別對應(yīng)的類別標記四。分類器的功能是指使用映射描述,即建立X到φ的映射:X→φ。分類器的判別函數(shù)表示形式正態(tài)分布是最常見的一種分布形式。2.1.2節(jié)給出的單變量正態(tài)分布,X~N(μ,σ2),其概率分布p(X)如式(10.14)所示,其中,expO表示求自然數(shù)e的指數(shù)。正態(tài)分布下的貝葉斯判別函數(shù)正態(tài)分布下的貝葉斯判別舉例舉例,二分類樣本集中輸入屬性服從多元正態(tài)分布,q類中樣本{(2,6),(3,4),(3,9),(4,5),(4,7)},a?類中樣本{(1,3),(2,1),(2,4),(3,3)}。繪制樣本2個輸入屬性的散點圖,如圖10.2(a)所示。03離散屬性貝葉斯分類器貝葉斯分類樣本的輸入屬性既可以是連續(xù)屬性,如10.1節(jié)和10.2節(jié)中所述,也可以是離散屬性。例如,性別可以分“男、女”;年齡可以分“老、中、青”;信譽可以分“優(yōu)、良、中、差”;文本分類中常使用術(shù)語(特征詞)作為特征。離散屬性貝葉斯模型貝葉斯分類器的結(jié)構(gòu)由類條件概率P(X|o?)和先驗概率P(oy)確定。要想貝葉斯分類器更好地工作,就要涉及兩個重要問題。①確定特征集,②確定概率值。樸素貝葉斯分類器04樸素貝葉斯文本分類和TAN貝葉斯模型樸素貝葉斯文本分類器還有一種應(yīng)用于文本分類或類似文本分類的特征表示形式,即當采用詞袋特征做文本分類時,由于各文本的詞長度不同,因此每個對象的輸入特征數(shù)不同。例如,有以下5個文本:樸素貝葉斯文本分類器令D表示一個文本,其中包含m(D)個術(shù)語,分別為W,W?,…,Wm(D)。由于各文本中術(shù)語的個數(shù)可能不同,故使用m(D)表示D文本中術(shù)語的個數(shù)。文本分為c類,分別為,…,0。在樸素貝葉斯分類模型中,假設(shè)各個特征相互獨立,將特征視作證據(jù),則推理過程中證據(jù)只影響分類結(jié)論,而證據(jù)之間相互獨立,如圖10.3(a)所示。TAN貝葉斯分類模型TAN分類器的工作大致分為5個主要步驟:①評價屬性特征依賴關(guān)系(約束關(guān)系);②抽取部分主要依賴關(guān)系構(gòu)建生成樹;③增加分類屬性節(jié)點擴展生成樹;④擴展生成樹就是TAN貝葉斯網(wǎng),基于訓(xùn)練集訓(xùn)練TAN貝葉斯網(wǎng);⑤TAN貝葉斯分類預(yù)測。TAN貝葉斯分類模型
擴展的最大權(quán)重跨度樹就是TAN貝葉斯網(wǎng)。例如,圖10.5(c)經(jīng)過拓撲變形以10.5(d)的形式展示,很直觀地展示了TAN貝葉斯網(wǎng)。TAN貝葉斯分類模型05貝葉斯分類器中的參數(shù)估計與非參數(shù)估計貝葉斯分類器中的參數(shù)估計設(shè)訓(xùn)練樣本集D中有n個樣本X?,X?,…,X。設(shè)θ向量為帶估計參數(shù),其有h個分量,即θ=[9,…,0]。由于各樣本實例為獨立抽取,故滿足式(10.59)。非參數(shù)估計不對數(shù)據(jù)分布做假設(shè),能處理任意的概率分布。作為許多非參數(shù)估計的基礎(chǔ),一個向量X落在區(qū)域R中的概率如式(10.66)所示。非參數(shù)估計06本章小結(jié)本章小結(jié)貝葉斯分類器將后驗概率判別轉(zhuǎn)換為計算先驗概率和類條件概率做判別。貝葉斯分類器分為最小誤差率貝葉斯分類和最小風(fēng)險貝葉斯分類。在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 結(jié)構(gòu)工程師考試真題上下午卷
- 2023年邊緣計算資金需求報告
- 《質(zhì)數(shù)、合數(shù)和分解質(zhì)因數(shù)》 教案 -四年級下冊數(shù)學(xué)青島版(五四學(xué)制)
- 譯林版(2019)必修第二冊Unit 4 Exploring literature Project 教案
- 籃球 雙手胸前傳接球(教案)體育五至六年級
- 急救護理《心臟驟停與心肺腦復(fù)蘇》臨床實操主治醫(yī)師考試題與答案
- 2024-2025學(xué)年統(tǒng)編版語文九年級上冊第六單元名著導(dǎo)讀《水滸傳》活動型教案
- 古詩詞誦讀《念奴嬌·過洞庭》教學(xué)設(shè)計2023-2024學(xué)年統(tǒng)編版高中語文必修下冊
- 第9課互動響應(yīng)- 教案 長春版八年級信息技術(shù)上冊
- 人教版八年級體育 2.3 投擲 教案()
- 企業(yè)級IT系統(tǒng)數(shù)據(jù)治理服務(wù)合同
- 名著閱讀《紅樓夢》專題-2025年北京高考語文一輪總復(fù)習(xí)(解析版)
- 綜合探究二 方向決定道路 道路決定命運課件-2024-2025學(xué)年高中政治統(tǒng)編版必修一
- 干木耳購銷合同范本
- 河北省邯鄲市2025屆高三年級第一次調(diào)研監(jiān)測 英語
- 《大衛(wèi)·科波菲爾(節(jié)選)》《復(fù)活》統(tǒng)編版高中語文選擇性必修上冊
- 和父親斷絕聯(lián)系協(xié)議書范本
- 人教版九年級全冊英語Unit 2大單元整體教學(xué)設(shè)計
- 2024年新人教版七年級上冊英語全冊教學(xué)課件(新版教材)
- 商用插畫授權(quán)合同范本
- 2024至2030年中國輔助生殖行業(yè)發(fā)展監(jiān)測及投資戰(zhàn)略規(guī)劃報告
評論
0/150
提交評論