機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第3、4章 K近鄰、貝葉斯_第1頁(yè)
機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第3、4章 K近鄰、貝葉斯_第2頁(yè)
機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第3、4章 K近鄰、貝葉斯_第3頁(yè)
機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第3、4章 K近鄰、貝葉斯_第4頁(yè)
機(jī)器學(xué)習(xí)算法與實(shí)踐 課件 第3、4章 K近鄰、貝葉斯_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章K近鄰K-近鄰算法(K-NearestNeighbor,KNN)是一種基于一定距離測(cè)度的抽樣檢驗(yàn)方法,屬于監(jiān)督學(xué)習(xí),所以使用算法時(shí)必須有已知標(biāo)記的訓(xùn)練集。K-近鄰算法既可用于分類(lèi)也可用于回歸。在處理分類(lèi)問(wèn)題時(shí),該方法只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類(lèi)別來(lái)決定待分類(lèi)樣本所屬的類(lèi)別。處理回歸問(wèn)題的流程與分類(lèi)問(wèn)題相似,區(qū)別在于樣本的輸出標(biāo)記為距離其最近的一個(gè)或者幾個(gè)樣本的標(biāo)記的加權(quán)平均值。13.1算法原理在分類(lèi)問(wèn)題中,給定一個(gè)訓(xùn)練數(shù)據(jù)集,對(duì)于任何一個(gè)待分類(lèi)樣本,在訓(xùn)練數(shù)據(jù)集中找到與該樣本最鄰近的K個(gè)樣本(也就是最近的K個(gè)鄰居),那么即可以使用這K個(gè)樣本中的多數(shù)類(lèi)別標(biāo)記作為待分類(lèi)樣本的類(lèi)別標(biāo)記。特別的,必須保證訓(xùn)練數(shù)據(jù)集中的每個(gè)樣本都有類(lèi)別標(biāo)記。在回歸問(wèn)題中,樣本的標(biāo)記為連續(xù)變量,因此一般將待處理樣本的K個(gè)最近鄰的標(biāo)記的加權(quán)平均值作為輸出(以距離的倒數(shù)為權(quán)重)。除此之外,還可以指定一個(gè)半徑,將半徑范圍內(nèi)的全部鄰居的標(biāo)記的加權(quán)平均值作為輸出。23.1算法原理圖中的樣本有兩個(gè)類(lèi)別,分別以正方形和三角形表示,而圖正中間的圓形代表待分類(lèi)樣本。

首先假設(shè)我們選擇K的值為3,圓形樣本最近的3個(gè)鄰居是2個(gè)三角形和1個(gè)正方形,少數(shù)從屬于多數(shù),基于統(tǒng)計(jì)的方法,判定這個(gè)待分類(lèi)樣本屬于三角形一類(lèi)。

如果我們選擇K的值為5,那么圓形樣本最近的5個(gè)鄰居是2個(gè)三角形和3個(gè)正方形,還是少數(shù)從屬于多數(shù),可以判定這個(gè)待分類(lèi)點(diǎn)屬于正方形一類(lèi)。33.1算法原理K-近鄰算法的基本流程為:1)計(jì)算已經(jīng)正確分類(lèi)的數(shù)據(jù)集中每個(gè)樣本與待分

類(lèi)樣本之間的距離;2)按照距離遞增次序?qū)?shù)據(jù)集中的樣本排序;3)選取與待分類(lèi)樣本距離最小的K個(gè)樣本;4)確定該K個(gè)樣本所在類(lèi)別的出現(xiàn)頻率;5)返回該K個(gè)樣本出現(xiàn)頻率最高的類(lèi)別作為待分

類(lèi)樣本的預(yù)測(cè)類(lèi)別。43.1算法原理K值的選擇會(huì)對(duì)算法的結(jié)果產(chǎn)生重大影響:K值較小意味著只有與待分類(lèi)樣本較近的已知樣本才會(huì)對(duì)預(yù)測(cè)結(jié)果起作用,但容易發(fā)生過(guò)擬合K值較大可以減少學(xué)習(xí)的估計(jì)誤差,但是學(xué)習(xí)的近似誤差增大,因?yàn)檫@時(shí)與待分類(lèi)樣本較遠(yuǎn)的已知樣本也會(huì)對(duì)預(yù)測(cè)起作用,容易使預(yù)測(cè)發(fā)生錯(cuò)誤。K值一般選擇一個(gè)奇數(shù)值,因?yàn)樗惴ㄖ械姆诸?lèi)決策規(guī)則往往是多數(shù)表決,奇數(shù)取值可防止出現(xiàn)鄰居中不同類(lèi)別樣本數(shù)量相等的情況。53.2距離度量方法

在K-近鄰算法以及其他很多機(jī)器學(xué)習(xí)算法中都會(huì)涉及到距離的計(jì)算,距離度量方式對(duì)算法的性能有很大的影響。

常用的距離計(jì)算方式如下: 1.閔科夫斯基距離(Minkowskidistance) 2.歐幾里德距離(Euclideandistance) 3.曼哈頓距離(Manhattandistance) 4.切比雪夫距離(Chebyshevdistance) 5.余弦相似度(Cosinesimilarity) 6.皮爾遜相關(guān)系數(shù)(Pearsoncorrelationcoefficient) 7.杰卡德相似系數(shù)(Jaccardsimilaritycoefficient) 8.馬氏距離(Mahalanobisdistance)6

3.2距離度量方法

7

3.2距離度量方法

8

3.2距離度量方法

9

3.2距離度量方法

10

3.3搜索優(yōu)化方法

當(dāng)數(shù)據(jù)集和特征數(shù)量較大時(shí),K-近鄰算法的距離計(jì)算成本可能會(huì)較高。在近鄰搜索的過(guò)程中,算法會(huì)有較高的計(jì)算成本。因此,為了提高K-近鄰算法的搜索效率,可以考慮使用特殊的結(jié)構(gòu)來(lái)存儲(chǔ)已知樣本,以減少距離計(jì)算的次數(shù)。11

3.3.1

k-d樹(shù) k-d樹(shù)(k-dimensionalTree)是針對(duì)暴力搜索效率低下而提出的基于樹(shù)的數(shù)據(jù)結(jié)構(gòu)。

基本思想:若A點(diǎn)距離B點(diǎn)非常遠(yuǎn),B點(diǎn)距離C點(diǎn)非常近,可知A點(diǎn)與C點(diǎn)很遠(yuǎn),因此不需要準(zhǔn)確計(jì)算它們之間的距離。通過(guò)這種方式,對(duì)于具有k個(gè)特征的n個(gè)樣本來(lái)說(shuō),近鄰搜索的計(jì)算成本可以降低至O[knlog(??)]以下,可以顯著改善暴力搜索在大樣本容量數(shù)據(jù)集中的表現(xiàn)。12

3.3.1

k-d樹(shù)例1:假設(shè)數(shù)據(jù)集有2個(gè)特征、6個(gè)樣本,如T={(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}。使用k-d樹(shù)算法確定樣本點(diǎn)的劃分空間分割線(xiàn)。

13

3.3.1

k-d樹(shù)首先,選擇劃分特征,即確定分割線(xiàn)是垂直于X軸還是Y軸。分別計(jì)算X軸和Y軸方向樣本的方差,得知X軸方向的方差最大,所以首先對(duì)X軸進(jìn)行劃分,確定分割線(xiàn)的X軸坐標(biāo)。然后基于上述步驟,對(duì)Y軸進(jìn)行同樣劃分操作。14

3.3.1

k-d樹(shù)最后,對(duì)依然有樣本存在的子空間再按X軸進(jìn)行劃分,直至子空間不再有樣本為止。由于此時(shí)的每個(gè)子空間僅包含一個(gè)樣本,因此可直接按剩余樣本劃分空間區(qū)域。15

3.3.1

k-d樹(shù)k-d樹(shù)的構(gòu)建過(guò)程可以總結(jié)為:1)構(gòu)造根結(jié)點(diǎn),使根結(jié)點(diǎn)對(duì)應(yīng)于k維空間中包含所有樣本點(diǎn)的超矩形區(qū)域;2)通過(guò)遞歸的方法,不斷地對(duì)k維空間進(jìn)行切分,生成子結(jié)點(diǎn)。3)重復(fù)上述過(guò)程直到子區(qū)域內(nèi)沒(méi)有樣本時(shí)終止。在此過(guò)程中,將樣本保存在相應(yīng)的結(jié)點(diǎn)上。4)通常,循環(huán)的依次選擇坐標(biāo)軸對(duì)空間切分。16

3.3.1

k-d樹(shù)構(gòu)建k-d樹(shù)時(shí),關(guān)鍵需要解決2個(gè)問(wèn)題:1)選擇向量的哪一維進(jìn)行劃分?2)如何劃分?jǐn)?shù)據(jù)?對(duì)于第一個(gè)問(wèn)題,簡(jiǎn)單的解決方法可以是隨機(jī)選擇某一維或按順序選擇,但是更好的方法應(yīng)該是在數(shù)據(jù)比較分散的那一維進(jìn)行劃分。好的劃分方法可以使構(gòu)建的樹(shù)比較平衡,可以每次選擇中位數(shù)來(lái)進(jìn)行劃分,這樣第二個(gè)問(wèn)題也得到了解決。17

3.3.1

k-d樹(shù)如何利用k-d樹(shù)進(jìn)行最近鄰搜索?

18

3.3.1

k-d樹(shù)如何利用k-d樹(shù)進(jìn)行最近鄰搜索?

接著,由于被搜索點(diǎn)的劃分維度值3小于當(dāng)前節(jié)點(diǎn)的劃分維度的值7,因此將當(dāng)前節(jié)點(diǎn)的左子節(jié)點(diǎn)(5,4)作為新的當(dāng)前節(jié)點(diǎn)。由于此時(shí)當(dāng)前節(jié)點(diǎn)到被搜索點(diǎn)的距離為2.83,小于全局最短距離,所以更新當(dāng)前最佳點(diǎn)為(5,4)。19

3.3.1

k-d樹(shù)如何利用k-d樹(shù)進(jìn)行最近鄰搜索?

繼續(xù)下去,由于被搜索點(diǎn)的劃分維度值2小于當(dāng)前節(jié)點(diǎn)的劃分維度值4,因此設(shè)當(dāng)前節(jié)點(diǎn)的左子節(jié)點(diǎn)(2,3)為新的當(dāng)前節(jié)點(diǎn)。由于此時(shí)當(dāng)前節(jié)點(diǎn)到被搜索點(diǎn)的距離為1.41,小于全局最短距離,所以更新當(dāng)前最佳點(diǎn)為(2,3),全局最短距離為1.4120

3.3.1

k-d樹(shù)如何利用k-d樹(shù)進(jìn)行最近鄰搜索?

21

3.3.1

k-d樹(shù)如何利用k-d樹(shù)進(jìn)行最近鄰搜索?

22

3.3.2球樹(shù) k-d樹(shù)算法雖然提高了K-近鄰算法的搜索效率,但在處理非均勻數(shù)據(jù)集和高維數(shù)據(jù)時(shí)也會(huì)出現(xiàn)效率不高的情況。為了優(yōu)化k-d樹(shù)的算法策略,提出了球樹(shù)模型。

球樹(shù)將數(shù)據(jù)遞歸地劃分為由質(zhì)心c和半徑r定義的節(jié)點(diǎn),每個(gè)結(jié)點(diǎn)本質(zhì)上是一個(gè)空間,包含了若干個(gè)樣本點(diǎn),每個(gè)空間內(nèi)有一個(gè)獨(dú)一無(wú)二的中心點(diǎn)23

3.3.2球樹(shù)

24

3.3.2球樹(shù)

首先建立根節(jié)點(diǎn),找到包含所有樣本點(diǎn)的超球體,記錄球心位置,作為根節(jié)點(diǎn)。然后,找到所有點(diǎn)中距離最遠(yuǎn)的兩個(gè)點(diǎn),并判斷其他樣本點(diǎn)與這兩個(gè)點(diǎn)的距離,距離哪個(gè)點(diǎn)最近,則將該樣本點(diǎn)劃分到該點(diǎn)的類(lèi)內(nèi),這兩個(gè)類(lèi)即是根節(jié)點(diǎn)的左子節(jié)點(diǎn)和右子節(jié)點(diǎn)。分別對(duì)兩個(gè)子節(jié)點(diǎn)構(gòu)建超球體,記錄球心坐標(biāo)和半徑。25

3.3.2球樹(shù)重復(fù)上述過(guò)程直至樣本全部劃分完畢26

3.4本章小結(jié)本章主要介紹了K-近鄰算法,給出了其在處理分類(lèi)和回歸問(wèn)題時(shí)的原理和流程,并介紹了k-d樹(shù)和球樹(shù)兩種提升K-近鄰搜索效率的方法。K-近鄰算法簡(jiǎn)單易懂且實(shí)用,但是因?yàn)槊恳淮畏诸?lèi)或者回歸,都要把已知數(shù)據(jù)樣本和測(cè)試樣本的距離全部計(jì)算一遍并搜索其中最近的K個(gè)鄰居,在數(shù)據(jù)量和數(shù)據(jù)維度很大的情況下,需要的計(jì)算資源會(huì)十分巨大,因此會(huì)出現(xiàn)效率不高的現(xiàn)象。使用k-d樹(shù)和球樹(shù)兩種方式可以提升K-近鄰算法的搜索效率。k-d樹(shù)是每個(gè)節(jié)點(diǎn)都為k維點(diǎn)的二叉樹(shù),所有非葉節(jié)點(diǎn)可以視作用一個(gè)超平面把空間分割成兩個(gè)半空間,其在數(shù)據(jù)維度較高而樣本數(shù)量又相對(duì)較少的情況下表現(xiàn)不佳。而球樹(shù)則沿著一系列球體來(lái)分割數(shù)據(jù),雖然球樹(shù)構(gòu)建數(shù)據(jù)結(jié)構(gòu)的時(shí)間花費(fèi)大于k-d樹(shù),但在高維數(shù)據(jù)上表現(xiàn)得很高效。27第四章貝葉斯貝葉斯系列算法是基于貝葉斯定理和概率統(tǒng)計(jì)原理的一類(lèi)算法。它們通過(guò)對(duì)特征之間的條件概率進(jìn)行建模,從而進(jìn)行分類(lèi)、回歸、聚類(lèi)等任務(wù)。貝葉斯模型作為一種重要的機(jī)器學(xué)習(xí)模型已在數(shù)據(jù)挖掘、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言理解、經(jīng)濟(jì)統(tǒng)計(jì)與預(yù)測(cè)等領(lǐng)域得到廣泛應(yīng)用。貝葉斯系列算法在處理小樣本問(wèn)題、噪聲數(shù)據(jù)以及不確定性建模方面具有優(yōu)勢(shì),并且能夠有效利用先驗(yàn)知識(shí)進(jìn)行模型推理與預(yù)測(cè)。284.1貝葉斯方法概述貝葉斯方法提供了一種基于主觀概率的數(shù)理統(tǒng)計(jì)分析方法,使用概率分布表示和理解樣本數(shù)據(jù),根據(jù)樣本的先驗(yàn)概率分布和訓(xùn)練樣本的標(biāo)記數(shù)據(jù)計(jì)算出相應(yīng)的后驗(yàn)概率分布,以貝葉斯風(fēng)險(xiǎn)為優(yōu)化目標(biāo)實(shí)現(xiàn)對(duì)樣本數(shù)據(jù)的分類(lèi)或回歸。294.1.1貝葉斯公式

304.1.1貝葉斯公式假設(shè)模型參數(shù)的各取值狀態(tài)互不相容,則可根據(jù)全概率公式得到概率P(X)。

因此可求得314.1.1貝葉斯公式

即后驗(yàn)概率=先驗(yàn)概率×樣本信息。324.1.2貝葉斯決策理論貝葉斯決策具體步驟:1)定義決策空間:確定可供選擇的決策及其可能的結(jié)果。2)確定先驗(yàn)概率:對(duì)每個(gè)可能的結(jié)果(即條件)估計(jì)先驗(yàn)概率。先驗(yàn)概率可以基于經(jīng)驗(yàn)或?qū)<抑R(shí)進(jìn)行估計(jì)。3)觀測(cè)到證據(jù):收集到與決策相關(guān)的證據(jù)或觀測(cè)數(shù)據(jù)。4)計(jì)算后驗(yàn)概率:根據(jù)貝葉斯定理,將先驗(yàn)概率和觀測(cè)到的證據(jù)相結(jié)合,計(jì)算各個(gè)條件下的后驗(yàn)概率。5)選擇最優(yōu)決策:根據(jù)后驗(yàn)概率,選擇具有最大后驗(yàn)概率的決策,作為最優(yōu)的決策。334.1.3極大似然估計(jì)極大似然估計(jì)具體步驟:1)確定概率分布模型:假設(shè)觀測(cè)數(shù)據(jù)符合某個(gè)特定的概率分布模型,如正態(tài)分布、伯努利分布等。2)建立似然函數(shù):將觀測(cè)數(shù)據(jù)看作是參數(shù)的函數(shù),構(gòu)建似然函數(shù)。似然函數(shù)表示給定參數(shù)值下觀測(cè)數(shù)據(jù)出現(xiàn)的概率。3)最大化似然函數(shù):找到使似然函數(shù)取得最大值的參數(shù)值,即尋找最大似然估計(jì)。通常使用優(yōu)化算法,如梯度下降法或牛頓法,求解似然函數(shù)的最大值點(diǎn)。4)得出估計(jì)值:最大似然估計(jì)得到的參數(shù)值即為所要求的估計(jì)值。344.1.3極大似然估計(jì)

354.2樸素貝葉斯算法

樸素貝葉斯算法的核心思想是根據(jù)給定的特征向量,通過(guò)計(jì)算后驗(yàn)概率來(lái)確定該樣本屬于不同類(lèi)別的概率,然后選擇具有最大后驗(yàn)概率的類(lèi)別作為分類(lèi)結(jié)果。364.2樸素貝葉斯算法

條件概率分布為

374.2樸素貝葉斯算法

樸素貝葉斯法對(duì)條件概率分布作了條件獨(dú)立性的假設(shè)

384.2樸素貝葉斯算法后驗(yàn)概率計(jì)算根據(jù)貝葉斯定理可表示為

394.2.1高斯樸素貝葉斯

高斯樸素貝葉斯算法是一種基于貝葉斯定理和特征獨(dú)立性假設(shè)的分類(lèi)算法,適用于處理連續(xù)特征的分類(lèi)問(wèn)題。

404.2.1高斯樸素貝葉斯

對(duì)于一個(gè)新的測(cè)試樣本,算法先計(jì)算該樣本在每個(gè)類(lèi)別下的后驗(yàn)概率。使用高斯分布的概率密度函數(shù),算法計(jì)算每個(gè)特征值在給定類(lèi)別下的對(duì)數(shù)似然。然后,將先驗(yàn)概率和對(duì)數(shù)似然相加得到后驗(yàn)概率。最后,選擇具有最大后驗(yàn)概率的類(lèi)別作為預(yù)測(cè)結(jié)果。41

高斯樸素貝葉斯算法的優(yōu)勢(shì)在于它對(duì)于大規(guī)模數(shù)據(jù)集具有較高的訓(xùn)練和預(yù)測(cè)效率,并且對(duì)于缺失數(shù)據(jù)的處理比較魯棒。然而,它的一個(gè)主要限制是它假設(shè)特征之間是獨(dú)立的,這在某些實(shí)際問(wèn)題中可能不符合實(shí)際情況,因此其結(jié)果可能受到特征相關(guān)性的影響。4.2.2多項(xiàng)式樸素貝葉斯

多項(xiàng)式樸素貝葉斯假設(shè)每個(gè)特征的出現(xiàn)次數(shù)是由多項(xiàng)分布生成的,即特征的計(jì)數(shù)符合多項(xiàng)分布。根據(jù)先驗(yàn)概率和條件概率計(jì)算每個(gè)類(lèi)別的后驗(yàn)概率,并選擇具有最大后驗(yàn)概率的類(lèi)別作為預(yù)測(cè)結(jié)果。

對(duì)于每個(gè)測(cè)試樣本,算法會(huì)計(jì)算特征的計(jì)數(shù),并使用條件概率計(jì)算后驗(yàn)概率。424.2.3伯努利樸素貝葉斯

伯努利樸素貝葉斯算法的主要思想是將文檔表示為二進(jìn)制特征向量,其中每個(gè)特征表示單詞或特定的文本屬性是否出現(xiàn)。因此每個(gè)特征的取值是布爾型的,即true和false,或者1和0。它基于一個(gè)關(guān)鍵假設(shè),即每個(gè)特征在給定類(lèi)別下是條件獨(dú)立的。

在訓(xùn)練過(guò)程中,遍歷類(lèi)別和特征,并根據(jù)特征是否存在來(lái)根據(jù)貝葉斯公式計(jì)算后驗(yàn)概率。最后選擇具有最大后驗(yàn)概率的類(lèi)別作為預(yù)測(cè)結(jié)果。434.3半樸素貝葉斯算法

半樸素貝葉斯算法的核心思想是,適當(dāng)考慮一部分屬性間的相互依賴(lài)信息。假設(shè)給定某個(gè)類(lèi)別的條件下,特征之間的相關(guān)性可被一些選定的特征表示。

相比于傳統(tǒng)的樸素貝葉斯算法,半樸素貝葉斯算法考慮了特征之間的相關(guān)性,可以更準(zhǔn)確地捕捉數(shù)據(jù)中的復(fù)雜關(guān)系。并且該算法允許根據(jù)具體問(wèn)題選擇不同的核心特征和配對(duì)特征組合,可以適應(yīng)不同類(lèi)型的數(shù)據(jù)集和任務(wù)需求444.3半樸素貝葉斯算法獨(dú)依賴(lài)估計(jì)(One-DependentEstimator,ODE)是半樸素貝葉斯分類(lèi)器最常用的一種策略。獨(dú)依賴(lài)是假設(shè)每個(gè)屬性在類(lèi)別之外最多依賴(lài)一個(gè)其他屬性,即:

454.3半樸素貝葉斯算法

相比于傳統(tǒng)的樸素貝葉斯算法,半樸素貝葉斯算法考慮了特征之間的相關(guān)性。這使得模型可以更準(zhǔn)確地捕捉數(shù)據(jù)中的復(fù)雜關(guān)系。半樸素貝葉斯算法允許根據(jù)具體問(wèn)題選擇不同的核心特征和配對(duì)特征組合。這種靈活性使得算法可以適應(yīng)不同類(lèi)型的數(shù)據(jù)集和任務(wù)需求。此外,半樸素貝葉斯算法在處理高維數(shù)據(jù)時(shí)表現(xiàn)出較好的性能,因?yàn)樗梢酝ㄟ^(guò)選擇核心特征和相關(guān)特征來(lái)減少特征空間的維度。

但是,在半樸素貝葉斯算法中,仍然假設(shè)給定類(lèi)別下的特征是相互獨(dú)立的。然而,在實(shí)際問(wèn)題中,特征之間通常存在一定的依賴(lài)關(guān)系。為了解決這個(gè)問(wèn)題,可以引入更復(fù)雜的模型,如貝葉斯網(wǎng)絡(luò)、樹(shù)模型等,以捕捉特征之間的依賴(lài)性。464.4貝葉斯網(wǎng)絡(luò)算法貝葉斯網(wǎng)絡(luò)(BayesianNetworks)也被稱(chēng)為信念網(wǎng)絡(luò)(BelifNetworks)或者因果網(wǎng)絡(luò)(CausalNetworks),是描述數(shù)據(jù)變量之間依賴(lài)關(guān)系的一種圖形模式,是一種用來(lái)進(jìn)行推理的模型。貝葉斯網(wǎng)絡(luò)為人們提供了一種方便的框架結(jié)構(gòu)來(lái)表示因果關(guān)系。474.4.1貝葉斯網(wǎng)結(jié)構(gòu)

在貝葉斯網(wǎng)結(jié)構(gòu)中,一條弧由一個(gè)屬性A指向另外一個(gè)屬性B說(shuō)明屬性A的取值可以對(duì)屬性B的取值產(chǎn)生影響,由于是有向無(wú)環(huán)圖,A、B間不會(huì)出現(xiàn)有向回路。在貝葉斯網(wǎng)當(dāng)中,直接的原因結(jié)點(diǎn)(弧尾)A叫做其結(jié)果結(jié)點(diǎn)(弧頭)B的雙親結(jié)點(diǎn)(parents),B叫做A的孩子結(jié)點(diǎn)(children)。如果從一個(gè)結(jié)點(diǎn)X有一條有向通路指向Y,則稱(chēng)結(jié)點(diǎn)X為結(jié)點(diǎn)Y的祖先(ancestor),同時(shí)稱(chēng)結(jié)點(diǎn)Y為結(jié)點(diǎn)X的后代(descendent)。484.4.1貝葉斯網(wǎng)結(jié)構(gòu)高油高糖飲食(X1)糖尿?。╔2)高血脂(X3)心臟病(X4)

左圖中共有四個(gè)結(jié)點(diǎn)和四條弧。高油高糖飲食X1是一個(gè)原因結(jié)點(diǎn),它會(huì)導(dǎo)致糖尿病X2和高血脂X3。而我們知道糖尿病X2和高血脂X3都可能最終導(dǎo)致心臟病X4。494.4.1貝葉斯網(wǎng)結(jié)構(gòu)

504.4.2貝葉斯網(wǎng)學(xué)習(xí)算法

貝葉斯網(wǎng)學(xué)習(xí)的首要任務(wù)就是根據(jù)訓(xùn)練數(shù)據(jù)集來(lái)找出結(jié)構(gòu)最“恰當(dāng)”的貝葉斯網(wǎng)?!霸u(píng)分搜索”是求解這一問(wèn)題的常用辦法。具體來(lái)說(shuō),我們先定義一個(gè)評(píng)分函數(shù),以此來(lái)評(píng)估貝葉斯網(wǎng)與訓(xùn)練數(shù)據(jù)的契合程度,然后基于這個(gè)評(píng)分函數(shù)來(lái)尋找結(jié)構(gòu)最優(yōu)的貝葉斯網(wǎng)。514.4.2貝葉斯網(wǎng)學(xué)習(xí)算法

524.4.2貝葉斯網(wǎng)學(xué)習(xí)算法

534.4.3貝葉斯網(wǎng)推斷

在現(xiàn)實(shí)應(yīng)用中,貝葉斯網(wǎng)的近似推斷常使用吉布斯采樣來(lái)完成,這是一種隨機(jī)采樣方法。

544.4.3貝

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論