數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)2貝葉斯_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)2貝葉斯_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)2貝葉斯_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)2貝葉斯_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)2貝葉斯_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2024/8/71貝葉斯分類方法

貝葉斯分類器是一個(gè)統(tǒng)計(jì)分類器。它們能夠預(yù)測(cè)類別所屬的概率,如:一個(gè)數(shù)據(jù)對(duì)象屬于某個(gè)類別的概率。例子:預(yù)測(cè)對(duì)某移動(dòng)電話的一次呼叫能否成功(P136)2024/8/72貝葉斯定理P(H|X)表示條件X下H的概率(條件概率、后驗(yàn)概率)2024/8/73貝葉斯定理——例子某電子設(shè)備廠所用的元件是由三家元件廠提供的,根據(jù)以往的記錄,這三個(gè)廠家的次品率分別為0.02,0.01,0.03,提供元件的份額分別為0.15,0.8,0.05,設(shè)這三個(gè)廠家的產(chǎn)品在倉庫是均勻混合的,且無區(qū)別的標(biāo)志。問題:在倉庫中隨機(jī)地取一個(gè)元件,若已知它是次品,分析此次品出自何廠家的概率最大?2024/8/74題解設(shè)A取到的元件是次品,Bi表示取到的元件是由第i個(gè)廠家生產(chǎn)的,則

P(B1)=0.15,P(B2)=0.8,P(B3)=0.05那么,在倉庫中隨機(jī)地取一個(gè)元件,它是次品的概率為由貝葉斯公式

結(jié)果表明,這個(gè)次品來自第2家工廠的可能性最大,來自第1家工廠的概率次之,來自第3家工廠的概率最小。2024/8/75簡單貝葉斯分類器(樸素貝葉斯)

進(jìn)行分類操作處理的步驟(1)2024/8/76簡單貝葉斯分類器

進(jìn)行分類操作處理的步驟(2)2024/8/77簡單貝葉斯分類器

進(jìn)行分類操作處理的步驟(3)2024/8/78貝葉斯分類器的應(yīng)用【例】利用貝葉斯分類方法預(yù)測(cè)一個(gè)數(shù)據(jù)對(duì)象X(

年齡<30,收入=中,是否學(xué)生=是,信用=一般)類別(P137)序號(hào)年齡收入是否學(xué)生信用購買PC1<=30高否中否2<=30高否優(yōu)否331~40高否中是4>40中否中是5>40低是中是6>40低是優(yōu)否731~40低是優(yōu)是8<=30中否中否9<=30低是中是10>40中是中是11<=30中是優(yōu)是1231~40中否優(yōu)是1331~40高是中是14>40中否優(yōu)否利用表中的數(shù)據(jù)作為訓(xùn)練樣本集和貝葉斯分類器來幫助預(yù)測(cè)未知(類別)數(shù)據(jù)樣本類別。訓(xùn)練數(shù)據(jù)集包含年齡、收入、是否學(xué)生和信用這四個(gè)屬性,其類別屬性為購買PC。它有兩個(gè)不同的取值:{是,否}。2024/8/79設(shè)c1對(duì)應(yīng)類別購買PC=是,即c1=9;c2對(duì)應(yīng)類別購買PC=否,即c2=5;因此對(duì)未知樣本所要進(jìn)行的分類就是:

X={年齡<30,收入=中,是否學(xué)生=是,信用=一般}為了獲得P(X|Ci)P(Ci)(其中i=1,2),P(Ci)為每個(gè)類別的事前概率,所進(jìn)行的具體計(jì)算結(jié)果描述如下:

P(C1)=9/14=0.643 P(C2)=5/14=0.357為了計(jì)算P(X|Ci)P(Ci)(i=1,2),需要首先進(jìn)行以下運(yùn)算:

P(年齡<30|C1)=2/9=0.222 P(年齡<30|C2)=3/5=0.600 P(收入=中|C1)=4/9=0.444 P(收入=中|C2)=2/5=0.400 P(是否學(xué)生=是|C1)=6/9=0.667 P(是否學(xué)生=是|C2)=1/5=0.200 P(信用=一般|C1)=6/9=0.667 P(信用=一般|C2)=2/5=0.400利用以上所獲得的計(jì)算結(jié)果,可以得到:

P(X|C1)=0.222×0.444×0.667×0.667=0.044 P(X|C2)=0.600×0.400×0.200×0.400=0.019最后計(jì)算P(X|Ci)P(Ci)(i=1,2)

P(X|C1)P(C1)=0.044×0.643=0.028 P(X|C2)P(C2)=0.019×0.357=0.007因?yàn)镻(X|C1)P(C1)>P(X|C2)P(C2),所以根據(jù)貝葉斯分類方法得出結(jié)論:數(shù)據(jù)對(duì)象X的“購買PC類=是”,即X屬于購買PC類2024/8/710練習(xí):下表是其保險(xiǎn)公司某項(xiàng)健康保險(xiǎn)業(yè)務(wù)銷售的客戶記錄

現(xiàn)有一名客戶年齡是32歲,收入水平中等,沒有固定職業(yè),信用等級(jí)良好,用貝葉斯分類器預(yù)測(cè)該客戶是否購買這種健康保險(xiǎn)。2024/8/711題解2024/8/712貝葉斯分類器的作用

從理論上講與其他分類器相比,貝葉斯分類器具有最小的錯(cuò)誤率。但實(shí)際上由于其所依據(jù)的類別獨(dú)立性假設(shè)和缺乏某些數(shù)據(jù)的準(zhǔn)確概率分布,從而使得貝葉斯分類器預(yù)測(cè)準(zhǔn)確率受到影響。但各種研究結(jié)果表明:與決策樹和神經(jīng)網(wǎng)絡(luò)分類器相比,貝葉斯分類器在某些情況下具有更好的分類效果。貝葉斯分類器的另一個(gè)用途就是它可為那些沒有利用貝葉斯定理的分類方法提供了理論依據(jù)。例如在某些特定假設(shè)情況下,許多神經(jīng)網(wǎng)絡(luò)和曲線擬合算法的輸出都同貝葉斯分類器一樣使得事后概率取最大2024/8/713貝葉斯信念網(wǎng)絡(luò)基本貝葉斯分類器是基于各類別相互獨(dú)立這一假設(shè)來進(jìn)行分類計(jì)算的,也就是要求若給定一個(gè)數(shù)據(jù)樣本類別,其樣本屬性的取值應(yīng)是相互獨(dú)立的。這一假設(shè)簡化了分類計(jì)算復(fù)雜性。若這一假設(shè)成立,則與其他分類方法相比,基本貝葉斯分類器是最準(zhǔn)確的;但實(shí)際上變量間的相互依賴情況是較為常見的。貝葉斯信念網(wǎng)絡(luò)就是用于描述這種相互關(guān)聯(lián)的概率分布。該網(wǎng)絡(luò)能夠描述各屬性子集之間有條件的相互獨(dú)立。它提供了一個(gè)圖形模型來描述其中的因果關(guān)系,而學(xué)習(xí)也正是基于這一模型進(jìn)行的。這一圖形模型就稱為貝葉斯信念網(wǎng)絡(luò)(常簡稱為信念網(wǎng)絡(luò))。2024/8/714貝葉斯信念網(wǎng)絡(luò)2024/8/715貝葉斯信念網(wǎng)絡(luò)2024/8/716貝葉斯信念網(wǎng)絡(luò)例子:P1382024/8/717貝葉斯信念網(wǎng)絡(luò)2024/8/718貝葉斯信念網(wǎng)絡(luò)信念網(wǎng)絡(luò)中的一個(gè)結(jié)點(diǎn)可以被選為輸出結(jié)點(diǎn),用以代表類別屬性,網(wǎng)絡(luò)中可以有多于一個(gè)的輸出結(jié)點(diǎn)。該網(wǎng)絡(luò)可以利用學(xué)習(xí)推理算法;其分類過程不是返回一個(gè)類別標(biāo)記,而是返回一個(gè)關(guān)于類別屬性的概率分布,即對(duì)每個(gè)類別的預(yù)測(cè)概率。貝葉斯網(wǎng)絡(luò)的優(yōu)點(diǎn):易于理解,預(yù)測(cè)效果好 缺點(diǎn):傾向于發(fā)生頻率很高的結(jié)果2024/8/719Micro

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論