數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch10】貝葉斯分類_第1頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch10】貝葉斯分類_第2頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch10】貝葉斯分類_第3頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch10】貝葉斯分類_第4頁
數(shù)據(jù)分析與數(shù)據(jù)挖掘課件 【ch10】貝葉斯分類_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第十章貝葉斯分類數(shù)據(jù)分析與數(shù)據(jù)挖掘01連續(xù)屬性貝葉斯分類器20%30%40%50%分類問題是根據(jù)給定對象的若干屬性(輸入屬性)來判別該對象所屬的類別(輸出屬性)。表示分類的輸出屬性也常稱分類屬性,它是無量度的離散值。

當只有一個輸入屬性時,可使用<x,①>表示一個樣本,x表示輸入屬性,φ表示分類屬性。如果φ只有兩種可能取值,則稱作二分分類(BinaryClassification),常簡稱二分類;如果a有多個可能取值,則稱多重分類(MultipleClassification),常簡稱多分類。單個連續(xù)屬性貝葉斯分類如圖10.1(a)所示,將p(x|)稱作類條件概率密度(Classconditionalprobabilitydensity),即對應(yīng)著類別狀態(tài)w下x的概率密度函數(shù)。單個連續(xù)屬性貝葉斯分類多個連續(xù)屬性的最小總風(fēng)險決策當有多個輸入屬性時,令X=x,x?,…,xg,其中,g表示輸入屬性個數(shù),那么貝葉斯公式可以表示為式(10.4)。式(10.4)中,分母p(X)對每個類別的條件概率大小在計算上都相同,在分類判別時不起作用,所以只需計算分子。多個連續(xù)屬性的最小平均誤差率決策02正態(tài)概率分布下的貝葉斯分類器分類器是完成對給定對象輸入特征X判別對應(yīng)的類別標記四。分類器的功能是指使用映射描述,即建立X到φ的映射:X→φ。分類器的判別函數(shù)表示形式正態(tài)分布是最常見的一種分布形式。2.1.2節(jié)給出的單變量正態(tài)分布,X~N(μ,σ2),其概率分布p(X)如式(10.14)所示,其中,expO表示求自然數(shù)e的指數(shù)。正態(tài)分布下的貝葉斯判別函數(shù)正態(tài)分布下的貝葉斯判別舉例舉例,二分類樣本集中輸入屬性服從多元正態(tài)分布,q類中樣本{(2,6),(3,4),(3,9),(4,5),(4,7)},a?類中樣本{(1,3),(2,1),(2,4),(3,3)}。繪制樣本2個輸入屬性的散點圖,如圖10.2(a)所示。03離散屬性貝葉斯分類器貝葉斯分類樣本的輸入屬性既可以是連續(xù)屬性,如10.1節(jié)和10.2節(jié)中所述,也可以是離散屬性。例如,性別可以分“男、女”;年齡可以分“老、中、青”;信譽可以分“優(yōu)、良、中、差”;文本分類中常使用術(shù)語(特征詞)作為特征。離散屬性貝葉斯模型貝葉斯分類器的結(jié)構(gòu)由類條件概率P(X|o?)和先驗概率P(oy)確定。要想貝葉斯分類器更好地工作,就要涉及兩個重要問題。①確定特征集,②確定概率值。樸素貝葉斯分類器04樸素貝葉斯文本分類和TAN貝葉斯模型樸素貝葉斯文本分類器還有一種應(yīng)用于文本分類或類似文本分類的特征表示形式,即當采用詞袋特征做文本分類時,由于各文本的詞長度不同,因此每個對象的輸入特征數(shù)不同。例如,有以下5個文本:樸素貝葉斯文本分類器令D表示一個文本,其中包含m(D)個術(shù)語,分別為W,W?,…,Wm(D)。由于各文本中術(shù)語的個數(shù)可能不同,故使用m(D)表示D文本中術(shù)語的個數(shù)。文本分為c類,分別為,…,0。在樸素貝葉斯分類模型中,假設(shè)各個特征相互獨立,將特征視作證據(jù),則推理過程中證據(jù)只影響分類結(jié)論,而證據(jù)之間相互獨立,如圖10.3(a)所示。TAN貝葉斯分類模型TAN分類器的工作大致分為5個主要步驟:①評價屬性特征依賴關(guān)系(約束關(guān)系);②抽取部分主要依賴關(guān)系構(gòu)建生成樹;③增加分類屬性節(jié)點擴展生成樹;④擴展生成樹就是TAN貝葉斯網(wǎng),基于訓(xùn)練集訓(xùn)練TAN貝葉斯網(wǎng);⑤TAN貝葉斯分類預(yù)測。TAN貝葉斯分類模型

擴展的最大權(quán)重跨度樹就是TAN貝葉斯網(wǎng)。例如,圖10.5(c)經(jīng)過拓撲變形以10.5(d)的形式展示,很直觀地展示了TAN貝葉斯網(wǎng)。TAN貝葉斯分類模型05貝葉斯分類器中的參數(shù)估計與非參數(shù)估計貝葉斯分類器中的參數(shù)估計設(shè)訓(xùn)練樣本集D中有n個樣本X?,X?,…,X。設(shè)θ向量為帶估計參數(shù),其有h個分量,即θ=[9,…,0]。由于各樣本實例為獨立抽取,故滿足式(10.59)。非參數(shù)估計不對數(shù)據(jù)分布做假設(shè),能處理任意的概率分布。作為許多非參數(shù)估計的基礎(chǔ),一個向量X落在區(qū)域R中的概率如式(10.66)所示。非參數(shù)估計06本章小結(jié)本章小結(jié)貝葉斯分類器將后驗概率判別轉(zhuǎn)換為計算先驗概率和類條件概率做判別。貝葉斯分類器分為最小誤差率貝葉斯分類和最小風(fēng)險貝葉斯分類。在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論