Python機器學(xué)習(xí)項目化教程（微課視頻版）課件第3章樸素貝葉斯分類器

上傳人：h*** IP屬地：山東上傳時間：2024-10-28 格式：PPTX 頁數(shù)：27 大?。?.57MB 積分：15 舉報 版權(quán)申訴

Python機器學(xué)習(xí)項目化教程（微課視頻版）課件第3章樸素貝葉斯分類器_第2頁

Python機器學(xué)習(xí)項目化教程（微課視頻版）課件第3章樸素貝葉斯分類器_第3頁

Python機器學(xué)習(xí)項目化教程（微課視頻版）課件第3章樸素貝葉斯分類器_第4頁

Python機器學(xué)習(xí)項目化教程（微課視頻版）課件第3章樸素貝葉斯分類器_第5頁

已閱讀5頁，還剩22頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

第3章樸素貝葉斯分類器目錄CONTENTS3.1貝葉斯分類器理論基礎(chǔ)3.2樸素貝葉斯分類器原理與設(shè)計3.3樸素貝葉斯分類器算法實現(xiàn)3.4正態(tài)貝葉斯分類器3.5貝葉斯網(wǎng)絡(luò)3.6本章小結(jié)3.1貝葉斯分類器理論基礎(chǔ)學(xué)習(xí)基礎(chǔ)學(xué)習(xí)認(rèn)知能力信息素養(yǎng)高先驗概率（PriorProbability）：在沒有訓(xùn)練樣本數(shù)據(jù)前，根據(jù)以往經(jīng)驗和分析得到的概率，初始時假設(shè)樣本h的初始概率，用P(h)表示。后驗概率（PosteriorProbability）：當(dāng)下事件由因及果發(fā)生的概率，求導(dǎo)致該事件發(fā)生的原因是由某個因素引起的可能性的大小。由樣本屬性x導(dǎo)致分類為c的概率P(c|x)就稱為后驗概率。后驗概率（PosteriorProbability）：后驗概率也是一種條件概率，它是根據(jù)事件結(jié)果求事件發(fā)生原因的概率。例如，上課又遲到了，這是事件的結(jié)果，而造成這個結(jié)果的原因可能是早上起床晚了，或感冒發(fā)燒需要先去看病，P(起床晚了|上課遲到)和P(感冒發(fā)燒|上課遲到)就是后驗概率。0102033.1貝葉斯分類器理論基礎(chǔ)學(xué)習(xí)基礎(chǔ)信息素養(yǎng)高類條件概率（ClassConditionalProbability）：當(dāng)下事件由果及因發(fā)生的概率。樣本x相對于類標(biāo)簽c的概率，也稱為似然，記作P(x|c)。注意區(qū)分幾個概念：（1）先驗概率是不依賴觀測數(shù)據(jù)的概率分布，在樸素貝葉斯中，類別的概率就是先驗概率，記為p(c)。（2）事情已經(jīng)發(fā)生，計算這件事情發(fā)生的原因是由某個因素引起的可能性的大小，是后驗概率。后驗概率的計算要以先驗概率為基礎(chǔ)。（3）“似然”描述的是在給定了特定觀測值的條件下，模型參數(shù)的合理性。通常用于建模過程中，選取合適的參數(shù)使模型更好地擬合數(shù)據(jù)。043.1貝葉斯分類器理論基礎(chǔ)如果A和B是樣本空間Ω的兩個事件，在給定A條件下B的概率為：推廣到一般形式，設(shè)A是樣本空間Ω上的事件，B是樣本空間Ω上的一個劃分，3.1貝葉斯分類器理論基礎(chǔ)【例3-1】某地區(qū)Y病毒的感染率為0.05，在實際檢查過程中，可能會由于技術(shù)及操作等原因使病毒攜帶者未必能檢查出陽性反應(yīng)，同樣不帶病毒也可能會檢查出陽性。假設(shè)P(陽性|攜帶病毒)=0.98，P(陽性|不攜帶病毒)=0.04，假設(shè)某人檢查出陽性，他帶病毒的概率是多少？由于P(陽性|攜帶病毒)=0.98，P(陽性|不攜帶病毒)=0.04，則P(陰性|攜帶病毒)=0.02，P(陰性|不攜帶病毒)=0.96。根據(jù)貝葉斯公式和全概率公式，有3.1貝葉斯分類器理論基礎(chǔ)3.1貝葉斯決策理論基礎(chǔ)

極大似然估計為了估計類條件概率，可以先假設(shè)其服從某種確定的概率分布，再利用訓(xùn)練樣本對概率分布的參數(shù)進行估計。這就是極大似然估計（MaximumLikelihoodEstimation，MLE）的算法思想，極大似然估計提供了一種給定觀察數(shù)據(jù)來評估模型參數(shù)的方法，即：模型已定，參數(shù)未知。通過若干次實驗，觀察其結(jié)果，利用實驗結(jié)果得到某個參數(shù)值能夠使樣本出現(xiàn)的概率為最大，則稱為極大似然估計。假設(shè)Tc表示訓(xùn)練集T中第c類樣本集合，且這些樣本是獨立同分布的，則參數(shù)對于數(shù)據(jù)集Tc的似然為：3.1貝葉斯決策理論基礎(chǔ)找出參數(shù)空間中能使取最大參數(shù)值的，其實就是求解：假設(shè)樣本服從均值為、方差為的正態(tài)分布，對其求對數(shù)：3.1貝葉斯決策理論基礎(chǔ)求最大似然估計量的一般步驟如下：（1）寫出似然函數(shù)（2）對似然函數(shù)取對數(shù)，并整理（3）對的相應(yīng)參數(shù)求偏導(dǎo)（4）解似然方程，得到參數(shù)的值。3.1貝葉斯定理相關(guān)概念一個單變量正態(tài)分布密度函數(shù)為：其正態(tài)分布的概率密度函數(shù)如圖所示。與μ越近的值，其概率越大，反之，其概率值越小。σ描述數(shù)據(jù)分布的離散程度，σ越大，數(shù)據(jù)分布越分散，曲線越扁平；σ越小，數(shù)據(jù)分布越集中，曲線越瘦高。3.1貝葉斯決策理論基礎(chǔ)對于多變量的正態(tài)分布，假設(shè)特征向量是服從均值向量為、協(xié)方差矩陣為的n維正態(tài)分布，其中，類條件概率密度函數(shù)為：3.2樸素貝葉斯分類器原理與設(shè)計西瓜數(shù)據(jù)集如表3-1所示。3.2樸素貝葉斯分類器原理與設(shè)計假設(shè)我們要判斷第3條西瓜數(shù)據(jù)是否為好瓜，即：根據(jù)表3-1的西瓜數(shù)據(jù)集，有好瓜和壞瓜的先驗概率：假設(shè)各特征是相互獨立的，則有3.2樸素貝葉斯分類器原理與設(shè)計dataTrain=np.array(dataTrain)y=dataTrain[:,-1]good=np.sum(y=='好瓜') #好瓜的數(shù)量bad=np.sum(y=='壞瓜') #壞瓜的數(shù)量#好瓜和壞瓜的先驗概率prior_good=good/len(y)prior_bad=bad/len(y)3.2樸素貝葉斯分類器原理與設(shè)計3.2樸素貝葉斯分類器原理與設(shè)計顏色概率0.3750.333敲聲概率0.750.444紋路概率0.8750.222顏色概率0.50.222敲聲概率0.250.333紋路概率0.8750.222顏色概率0.50.222敲聲概率0.750.444紋路概率0.8750.222準(zhǔn)確率88.24%3.2樸素貝葉斯分類器原理與設(shè)計為了解決零概率的問題，法國數(shù)學(xué)家拉普拉斯最早提出用加1的方法估計沒有出現(xiàn)過的現(xiàn)象的概率，因此這種平滑（Smoothing）方法也稱為拉普拉斯平滑（LaplacianSmoothing）。引入拉普拉斯平滑技術(shù)后，修正后的類先驗概率和類條件概率可表示為：樸素貝葉斯分類器的優(yōu)點：（1）對小規(guī)模數(shù)據(jù)表現(xiàn)很好，能處理多分類任務(wù)；（2）算法比較簡單，常用于文本分類；（3）有穩(wěn)定的分類效率，對缺失數(shù)據(jù)不太敏感；（4）適合增量式訓(xùn)練，當(dāng)數(shù)據(jù)量超出內(nèi)存時，可一批一批讀取數(shù)據(jù)進行增量訓(xùn)練。3.3樸素貝葉斯分類器算法實現(xiàn)從fish.xlsx文件中讀取鱸魚和三文魚的長度、亮度數(shù)據(jù)，其中，前n/2條數(shù)據(jù)為鱸魚，后n/2為三文魚，分別從鱸魚和三文魚數(shù)據(jù)中隨機取出50%作為訓(xùn)練集，其余的50%作為測試集。13.3樸素貝葉斯分類器算法實現(xiàn)2生成三文魚和鱸魚的概率密度。根據(jù)生成長度和亮度數(shù)據(jù)，利用均值和方差公式直接計算長度和亮度特征的均值和方差。3.3樸素貝葉斯分類器算法實現(xiàn)3計算三文魚和鱸魚的后驗概率。根據(jù)得到三文魚和鱸魚的長度、亮度特征類條件概率，利用樸素貝葉斯公式計算出它們的后驗概率。3.3樸素貝葉斯分類器算法實現(xiàn)計算分類正確率。#假設(shè)長度和亮度是互相完全獨立的，根據(jù)樸素貝葉斯公式和聯(lián)合概率密度公式計算出鱸魚和三文魚的類條件概率，計算分類的正確率和錯誤率count1=0count2=0foriinrange(n//4):#長度特征post_length_pred1=stats.norm(perch_Mean_Length,perch_Variance_Length).pdf(perch_test[i,0])#將鱸魚分為鱸魚post_length_pred2=stats.norm(salmon_Mean_Length,salmon_Variance_Length).pdf(perch_test[i,0])#將鱸魚分為三文魚

precision_salmon:1.0precision_perch:0.834precision_bayes:0.91743.4正態(tài)貝葉斯分類器假設(shè)樣本的特征向量服從正態(tài)分布，則這樣的貝葉斯分類器就稱為正態(tài)貝葉斯分類器或高斯貝葉斯分類器。更一般地，樣本的特征并不是相互獨立的。根據(jù)分類判決規(guī)則，在預(yù)測時需要尋找具有最大條件概率值的那個類，即最大化后驗概率，等價于求每個類中最大的那個。對取對數(shù)，公式為：3.5貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)(BayesianNetwork)，又稱信念網(wǎng)絡(luò)(BeliefNetwork)，是一種概率圖模型（ProbabilisticGraphicalModel，PGD），它是一種模擬人類推理過程中因果關(guān)系的不確定性處理模型，可通過有向無環(huán)圖(DirectedAcyclicGraph，DAG)來表示。3.5貝葉斯網(wǎng)絡(luò)假設(shè)：隨機變量w(weather)：天氣隨機變量m(mood)：心情隨機變量p(play)：打羽毛球隨機變量r(restaurant)：下餐館吃飯隨機變量f(film)：看電影變量S對變量L和變量E有因果影響，而變量C對變量E也有因果影響。3.5貝葉斯網(wǎng)絡(luò)

#驗證模型：檢查網(wǎng)絡(luò)結(jié)構(gòu)和CPD，并驗證CPD是否正確定義和總和為1model.check_model()#獲取結(jié)點“w（天氣情況）”的概率表：

print(model.get_cpds("w"))#獲取整個貝葉斯網(wǎng)絡(luò)的局部依賴:print(model.local_independencies(['p','r','f']))#推測“f（是否看電影）”的節(jié)點概率,在pgmpy中我們只需要省略額外參數(shù)即可計算出條件分布概率

infer=VariableElimination(model)print(infer.query(['f'],evidence={'p':1,'p':0}))#變量消除法是精確推斷的一種方法

asia_infer=VariableElimination(model)q=asia_infer.query(variables=['r'],evidence={'p':0})print(q)q=asia_infer.qu

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Python機器學(xué)習(xí)項目化教程（微課視頻版）課件第3章樸素貝葉斯分類器

文檔簡介

溫馨提示

最新文檔

評論

Python機器學(xué)習(xí)項目化教程（微課視頻版）課件 第3章 樸素貝葉斯分類器

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

Python機器學(xué)習(xí)項目化教程（微課視頻版）課件第3章樸素貝葉斯分類器