Python機器學(xué)習(xí)項目化教程(微課視頻版)課件 第3章 樸素貝葉斯分類器_第1頁
Python機器學(xué)習(xí)項目化教程(微課視頻版)課件 第3章 樸素貝葉斯分類器_第2頁
Python機器學(xué)習(xí)項目化教程(微課視頻版)課件 第3章 樸素貝葉斯分類器_第3頁
Python機器學(xué)習(xí)項目化教程(微課視頻版)課件 第3章 樸素貝葉斯分類器_第4頁
Python機器學(xué)習(xí)項目化教程(微課視頻版)課件 第3章 樸素貝葉斯分類器_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第3章樸素貝葉斯分類器目錄CONTENTS3.1貝葉斯分類器理論基礎(chǔ)3.2樸素貝葉斯分類器原理與設(shè)計3.3樸素貝葉斯分類器算法實現(xiàn)3.4正態(tài)貝葉斯分類器3.5貝葉斯網(wǎng)絡(luò)3.6本章小結(jié)3.1貝葉斯分類器理論基礎(chǔ)學(xué)習(xí)基礎(chǔ)學(xué)習(xí)認知能力信息素養(yǎng)高先驗概率(PriorProbability):在沒有訓(xùn)練樣本數(shù)據(jù)前,根據(jù)以往經(jīng)驗和分析得到的概率,初始時假設(shè)樣本h的初始概率,用P(h)表示。后驗概率(PosteriorProbability):當下事件由因及果發(fā)生的概率,求導(dǎo)致該事件發(fā)生的原因是由某個因素引起的可能性的大小。由樣本屬性x導(dǎo)致分類為c的概率P(c|x)就稱為后驗概率。后驗概率(PosteriorProbability):后驗概率也是一種條件概率,它是根據(jù)事件結(jié)果求事件發(fā)生原因的概率。例如,上課又遲到了,這是事件的結(jié)果,而造成這個結(jié)果的原因可能是早上起床晚了,或感冒發(fā)燒需要先去看病,P(起床晚了|上課遲到)和P(感冒發(fā)燒|上課遲到)就是后驗概率。0102033.1貝葉斯分類器理論基礎(chǔ)學(xué)習(xí)基礎(chǔ)信息素養(yǎng)高類條件概率(ClassConditionalProbability):當下事件由果及因發(fā)生的概率。樣本x相對于類標簽c的概率,也稱為似然,記作P(x|c)。注意區(qū)分幾個概念:(1)先驗概率是不依賴觀測數(shù)據(jù)的概率分布,在樸素貝葉斯中,類別的概率就是先驗概率,記為p(c)。(2)事情已經(jīng)發(fā)生,計算這件事情發(fā)生的原因是由某個因素引起的可能性的大小,是后驗概率。后驗概率的計算要以先驗概率為基礎(chǔ)。(3)“似然”描述的是在給定了特定觀測值的條件下,模型參數(shù)的合理性。通常用于建模過程中,選取合適的參數(shù)使模型更好地擬合數(shù)據(jù)。043.1貝葉斯分類器理論基礎(chǔ)如果A和B是樣本空間Ω的兩個事件,在給定A條件下B的概率為:推廣到一般形式,設(shè)A是樣本空間Ω上的事件,B是樣本空間Ω上的一個劃分,3.1貝葉斯分類器理論基礎(chǔ)【例3-1】某地區(qū)Y病毒的感染率為0.05,在實際檢查過程中,可能會由于技術(shù)及操作等原因使病毒攜帶者未必能檢查出陽性反應(yīng),同樣不帶病毒也可能會檢查出陽性。假設(shè)P(陽性|攜帶病毒)=0.98,P(陽性|不攜帶病毒)=0.04,假設(shè)某人檢查出陽性,他帶病毒的概率是多少?由于P(陽性|攜帶病毒)=0.98,P(陽性|不攜帶病毒)=0.04,則P(陰性|攜帶病毒)=0.02,P(陰性|不攜帶病毒)=0.96。根據(jù)貝葉斯公式和全概率公式,有3.1貝葉斯分類器理論基礎(chǔ)3.1貝葉斯決策理論基礎(chǔ)

極大似然估計為了估計類條件概率,可以先假設(shè)其服從某種確定的概率分布,再利用訓(xùn)練樣本對概率分布的參數(shù)進行估計。這就是極大似然估計(MaximumLikelihoodEstimation,MLE)的算法思想,極大似然估計提供了一種給定觀察數(shù)據(jù)來評估模型參數(shù)的方法,即:模型已定,參數(shù)未知。通過若干次實驗,觀察其結(jié)果,利用實驗結(jié)果得到某個參數(shù)值能夠使樣本出現(xiàn)的概率為最大,則稱為極大似然估計。假設(shè)Tc表示訓(xùn)練集T中第c類樣本集合,且這些樣本是獨立同分布的,則參數(shù)對于數(shù)據(jù)集Tc的似然為:3.1貝葉斯決策理論基礎(chǔ)找出參數(shù)空間中能使取最大參數(shù)值的,其實就是求解:假設(shè)樣本服從均值為、方差為的正態(tài)分布,對其求對數(shù):3.1貝葉斯決策理論基礎(chǔ)求最大似然估計量的一般步驟如下:(1)寫出似然函數(shù)(2)對似然函數(shù)取對數(shù),并整理(3)對的相應(yīng)參數(shù)求偏導(dǎo)(4)解似然方程,得到參數(shù)的值。3.1貝葉斯定理相關(guān)概念一個單變量正態(tài)分布密度函數(shù)為:其正態(tài)分布的概率密度函數(shù)如圖所示。與μ越近的值,其概率越大,反之,其概率值越小。σ描述數(shù)據(jù)分布的離散程度,σ越大,數(shù)據(jù)分布越分散,曲線越扁平;σ越小,數(shù)據(jù)分布越集中,曲線越瘦高。3.1貝葉斯決策理論基礎(chǔ)對于多變量的正態(tài)分布,假設(shè)特征向量是服從均值向量為、協(xié)方差矩陣為的n維正態(tài)分布,其中,類條件概率密度函數(shù)為:3.2樸素貝葉斯分類器原理與設(shè)計西瓜數(shù)據(jù)集如表3-1所示。3.2樸素貝葉斯分類器原理與設(shè)計假設(shè)我們要判斷第3條西瓜數(shù)據(jù)是否為好瓜,即:根據(jù)表3-1的西瓜數(shù)據(jù)集,有好瓜和壞瓜的先驗概率:假設(shè)各特征是相互獨立的,則有3.2樸素貝葉斯分類器原理與設(shè)計dataTrain=np.array(dataTrain)y=dataTrain[:,-1]good=np.sum(y=='好瓜') #好瓜的數(shù)量bad=np.sum(y=='壞瓜') #壞瓜的數(shù)量#好瓜和壞瓜的先驗概率prior_good=good/len(y)prior_bad=bad/len(y)3.2樸素貝葉斯分類器原理與設(shè)計3.2樸素貝葉斯分類器原理與設(shè)計顏色概率0.3750.333敲聲概率0.750.444紋路概率0.8750.222顏色概率0.50.222敲聲概率0.250.333紋路概率0.8750.222顏色概率0.50.222敲聲概率0.750.444紋路概率0.8750.222準確率88.24%3.2樸素貝葉斯分類器原理與設(shè)計為了解決零概率的問題,法國數(shù)學(xué)家拉普拉斯最早提出用加1的方法估計沒有出現(xiàn)過的現(xiàn)象的概率,因此這種平滑(Smoothing)方法也稱為拉普拉斯平滑(LaplacianSmoothing)。引入拉普拉斯平滑技術(shù)后,修正后的類先驗概率和類條件概率可表示為:樸素貝葉斯分類器的優(yōu)點:(1)對小規(guī)模數(shù)據(jù)表現(xiàn)很好,能處理多分類任務(wù);(2)算法比較簡單,常用于文本分類;(3)有穩(wěn)定的分類效率,對缺失數(shù)據(jù)不太敏感;(4)適合增量式訓(xùn)練,當數(shù)據(jù)量超出內(nèi)存時,可一批一批讀取數(shù)據(jù)進行增量訓(xùn)練。3.3樸素貝葉斯分類器算法實現(xiàn)從fish.xlsx文件中讀取鱸魚和三文魚的長度、亮度數(shù)據(jù),其中,前n/2條數(shù)據(jù)為鱸魚,后n/2為三文魚,分別從鱸魚和三文魚數(shù)據(jù)中隨機取出50%作為訓(xùn)練集,其余的50%作為測試集。13.3樸素貝葉斯分類器算法實現(xiàn)2生成三文魚和鱸魚的概率密度。根據(jù)生成長度和亮度數(shù)據(jù),利用均值和方差公式直接計算長度和亮度特征的均值和方差。3.3樸素貝葉斯分類器算法實現(xiàn)3計算三文魚和鱸魚的后驗概率。根據(jù)得到三文魚和鱸魚的長度、亮度特征類條件概率,利用樸素貝葉斯公式計算出它們的后驗概率。3.3樸素貝葉斯分類器算法實現(xiàn)計算分類正確率。#假設(shè)長度和亮度是互相完全獨立的,根據(jù)樸素貝葉斯公式和聯(lián)合概率密度公式計算出鱸魚和三文魚的類條件概率,計算分類的正確率和錯誤率count1=0count2=0foriinrange(n//4):#長度特征post_length_pred1=stats.norm(perch_Mean_Length,perch_Variance_Length).pdf(perch_test[i,0])#將鱸魚分為鱸魚post_length_pred2=stats.norm(salmon_Mean_Length,salmon_Variance_Length).pdf(perch_test[i,0])#將鱸魚分為三文魚

precision_salmon:1.0precision_perch:0.834precision_bayes:0.91743.4正態(tài)貝葉斯分類器假設(shè)樣本的特征向量服從正態(tài)分布,則這樣的貝葉斯分類器就稱為正態(tài)貝葉斯分類器或高斯貝葉斯分類器。更一般地,樣本的特征并不是相互獨立的。根據(jù)分類判決規(guī)則,在預(yù)測時需要尋找具有最大條件概率值的那個類,即最大化后驗概率,等價于求每個類中最大的那個。對取對數(shù),公式為:3.5貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)(BayesianNetwork),又稱信念網(wǎng)絡(luò)(BeliefNetwork),是一種概率圖模型(ProbabilisticGraphicalModel,PGD),它是一種模擬人類推理過程中因果關(guān)系的不確定性處理模型,可通過有向無環(huán)圖(DirectedAcyclicGraph,DAG)來表示。3.5貝葉斯網(wǎng)絡(luò)假設(shè):隨機變量w(weather):天氣隨機變量m(mood):心情隨機變量p(play):打羽毛球隨機變量r(restaurant):下餐館吃飯隨機變量f(film):看電影變量S對變量L和變量E有因果影響,而變量C對變量E也有因果影響。3.5貝葉斯網(wǎng)絡(luò)

#驗證模型:檢查網(wǎng)絡(luò)結(jié)構(gòu)和CPD,并驗證CPD是否正確定義和總和為1model.check_model()#獲取結(jié)點“w(天氣情況)”的概率表:

print(model.get_cpds("w"))#獲取整個貝葉斯網(wǎng)絡(luò)的局部依賴:print(model.local_independencies(['p','r','f']))#推測“f(是否看電影)”的節(jié)點概率,在pgmpy中我們只需要省略額外參數(shù)即可計算出條件分布概率

infer=VariableElimination(model)print(infer.query(['f'],evidence={'p':1,'p':0}))#變量消除法是精確推斷的一種方法

asia_infer=VariableElimination(model)q=asia_infer.query(variables=['r'],evidence={'p':0})print(q)q=asia_infer.qu

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論