《數(shù)據(jù)挖掘基礎(chǔ)及其應(yīng)用》課件第6章

上傳人：1*** IP屬地：廣東上傳時間：2024-07-06 格式：PPTX 頁數(shù)：106 大小：3.79MB 積分：15 舉報 版權(quán)申訴

《數(shù)據(jù)挖掘基礎(chǔ)及其應(yīng)用》課件第6章_第2頁

《數(shù)據(jù)挖掘基礎(chǔ)及其應(yīng)用》課件第6章_第3頁

《數(shù)據(jù)挖掘基礎(chǔ)及其應(yīng)用》課件第6章_第4頁

《數(shù)據(jù)挖掘基礎(chǔ)及其應(yīng)用》課件第6章_第5頁

已閱讀5頁，還剩101頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第6章分類Ⅲ:概率分類與回歸6.1引言6.2貝葉斯公式6.3貝葉斯分類算法6.4貝葉斯信念網(wǎng)絡(luò)6.5回歸分析本章小結(jié)

6.1引言

決策樹是一種描述對實(shí)例進(jìn)行分類的樹形結(jié)構(gòu)。決策樹具有速度快、分類結(jié)果可解釋性高等優(yōu)勢,但是決策樹算法存在如下幾個方面的缺陷:(1)過擬合導(dǎo)致剪枝問題。(2)算法魯棒性低,導(dǎo)致決策樹的結(jié)果可能是不穩(wěn)定的,因?yàn)樵跀?shù)據(jù)中一個很小的變化可能導(dǎo)致生成一個完全不同的樹,這個問題可以通過使用集成決策樹來解決。

(3)NP難問題:學(xué)習(xí)一個最優(yōu)決策樹是NP難問題。

(4)一些概念是很難理解的:比如異或校驗(yàn)或復(fù)用的問題。

(5)準(zhǔn)確性得不到保障。

決策樹算法的缺陷如圖6-1所示。圖6-1決策樹算法的缺陷

若要有效地避免決策樹算法帶來的缺陷,則需要構(gòu)建全新的算法。通過提供圖形化的方法來表示和運(yùn)算概率知識,貝葉斯網(wǎng)絡(luò)克服了基于規(guī)則的系統(tǒng)在概念和計算上的困難。

貝葉斯網(wǎng)絡(luò)與統(tǒng)計方法相結(jié)合,使得其在數(shù)據(jù)分析方面擁有了許多優(yōu)點(diǎn),具體如下:

(1)圖形方法描述數(shù)據(jù)間的相互關(guān)系,語義清晰,易于理解。

(2)易于處理不完備數(shù)據(jù)集。

(3)允許學(xué)習(xí)變量間的因果關(guān)系。

(4)充分利用領(lǐng)域知識和樣本數(shù)據(jù)的信息。

6.2貝葉斯公式

6.2.1概率基礎(chǔ)概率論具有堅(jiān)實(shí)的數(shù)學(xué)理論基礎(chǔ),是數(shù)據(jù)挖掘領(lǐng)域中處理不確定性問題的基礎(chǔ)理論之一,也是目前處理不確定性問題的方法之一。

定義6.1(條件概率)設(shè)A,B是兩個基本事件,且P(A)>0,則稱

為事件A發(fā)生的條件下事件B發(fā)生的條件概率。

定義6.2(先驗(yàn)概率)設(shè)B1,B2,…,Bn為樣本空間S中的事件,P(Bi)可根據(jù)以前的數(shù)據(jù)分析得到,或根據(jù)先驗(yàn)知識估計獲取,稱P(Bi)為先驗(yàn)概率。

先驗(yàn)概率是根據(jù)歷史資料或主觀判斷所確定的各種事件發(fā)生的概率,該概率沒有經(jīng)過實(shí)驗(yàn)證實(shí),屬于檢驗(yàn)前的概率。先驗(yàn)概率一般分為兩類:一類是客觀先驗(yàn)概率,是指利用過去的歷史資料計算得到的概率;另一類是主觀先驗(yàn)概率,是指在無歷史資料或者歷史資料不全時,只憑借人們的主觀經(jīng)驗(yàn)來判斷取得的概率。

定義6.3(后驗(yàn)概率)設(shè)B1,B2,…,Bn為樣本空間S中的事件,則事件A發(fā)生的情況下,Bi發(fā)生的概率P(Bi

A)可根據(jù)先驗(yàn)概率P(Bi)和觀測信息重新修正和調(diào)整后得到,通常將P(Bi

A)稱為后驗(yàn)概率。

后驗(yàn)概率一般是指利用貝葉斯公式,結(jié)合調(diào)查等方式獲取了新的附加信息,對先驗(yàn)概率加以修正的更符合實(shí)際的概率,即得到信息之后再重新修正的概率。

定義6.4(聯(lián)合概率)設(shè)A,B為兩個事件,且P(A)>0,則它們的聯(lián)合概率為

聯(lián)合概率也稱為乘法公式,是指兩個任意時間的乘積的概率,或稱為交事件的概率。

定義6.5(全概率公式)如果影響事件A的所有因素B1,B2,…,Bn滿足Bi·Bj=φ(i≠j),并且P(Bi)>0,則

定義6.6(貝葉斯概率)貝葉斯概率是觀測者對某一事件發(fā)生的相信程度。觀測者根據(jù)先驗(yàn)知識和現(xiàn)有的統(tǒng)計數(shù)據(jù),用概率的方法來預(yù)測未知事件發(fā)生的可能性。貝葉斯概率

不同于事件的客觀概率,客觀概率是在多次重復(fù)實(shí)驗(yàn)中事件發(fā)生頻率的近似值,而貝葉斯概率則是利用現(xiàn)有的知識對未知事件的預(yù)測。

定義6.7(貝葉斯公式)貝葉斯公式也稱為后驗(yàn)概率公式,或者逆概率公式,其用途很廣。設(shè)先驗(yàn)概率為P(Bi),調(diào)查所獲得的新附加信息為P(A|Bi

),其中i=1,2,…,n,則后驗(yàn)概率為

定義6.8(條件獨(dú)立)對概率模式M,A、B和C是U的三個互不相交的變量子集,如果對?x∈A,?y∈B和?z∈C,都有p(x|y,z)=p(x|z),其中p(y,z)>0,稱給定C時A和B條件獨(dú)立,記為I(A,C,B)M。

條件獨(dú)立性在某些文獻(xiàn)中定義為p(x,y|z)=p(x|z)p(y|z),可以證明這兩個定義是等價的。

定義6.9概率分類中{X1,X2,…,Xn,C}是樣本空間T的屬性集。其中,Xi(i=1,2,…,n)是特征屬性,C是類屬性。Xi

可能是離散變量,也可能是連續(xù)變量。xi和c分別表示屬性Xi

和C的任意取值。

定義6.10P(?)表示離散的概率值,p(?)表示連續(xù)的概率密度函數(shù)值。Count(?)表示樣本空間的大小。

6.2.2圖論基礎(chǔ)

定義6.11(有向圖G)由節(jié)點(diǎn)集V、邊集E表示的二元組G=G(V,E),若(x,y)∈E表示從節(jié)點(diǎn)x到節(jié)點(diǎn)y有一條有向邊,我們也稱節(jié)點(diǎn)x和節(jié)點(diǎn)y是鄰接的或x和y相互為鄰居。x也叫作y的父節(jié)點(diǎn),y叫作x的子節(jié)點(diǎn)。通過父親和孩子概念的遞歸定義,同時獲得了祖先和后繼兩個概念。沒有父節(jié)點(diǎn)的節(jié)點(diǎn)被稱為根節(jié)點(diǎn)。

定義6.12(路徑)在貝葉斯網(wǎng)絡(luò)學(xué)習(xí)中,連接兩個節(jié)點(diǎn)的路徑不考慮這條路徑中邊的方向,這個定義對有向圖、無向圖和混合圖都是適用的。

定義6.13(有向循環(huán)圖)有向循環(huán)圖(DirectedAcyclicGraph,DAG)也稱有向無環(huán)圖,即不包含環(huán)路的有向圖,如圖6-2所示。

定義6.14(匯聚節(jié)點(diǎn))對于一條鄰接路徑中的任何一個節(jié)點(diǎn)v,如果有(x,v)∈E并且(y,v)∈E,則稱v為匯聚節(jié)點(diǎn)或碰撞節(jié)點(diǎn)(Collider)。圖6-2有向無環(huán)圖

6.2.3信息理論

定義6.15(信息熵)設(shè)信源X為離散隨機(jī)變量,則用來度量X的不確定性的信息熵為

定義6.16(聯(lián)合信息熵)設(shè)X、Y為離散隨機(jī)變量,則用來度量二元隨機(jī)變量不確定性的聯(lián)合信息熵H(X,Y)為

定義6.17(條件信息熵)用來度量在得到隨機(jī)變量Y的信息后,隨機(jī)變量X仍然存在的不確定性。條件信息熵H(X|Y)為

定義6.18(互信息)用來描述隨機(jī)變量Y提供的關(guān)于X的信息量的大小,隨機(jī)變量X、Y之間的互信息為

定義6.19(條件互信息)在已知Y的前提下,隨機(jī)變量X和Z之間的條件互信息定義為

從條件互信息可以看出,在給定測試集的條件下,如果X和Z一致性條件獨(dú)立時,即P(x;z|y)=P(x|y)P(z|y)成立,則X和Z之間的條件互信息為0。當(dāng)I(X;Z)小于某個極限值ε時,稱X和Z為邊際獨(dú)立;當(dāng)I(X;Z|Y)小于某個極限值ε時,稱X和Z為條件獨(dú)立。X和Z之間的條件互信息越大,則說明在給定觀測集的條件下,X和Z之間的概率依賴性越明顯。反映在貝葉斯網(wǎng)絡(luò)上,如果Y為X的父節(jié)點(diǎn)集合,則當(dāng)X和Z之間的條件互信息較大時,說明Z也可能是X的父節(jié)點(diǎn),其關(guān)系如圖6-3所示。圖6-3互信息與信息熵關(guān)系圖

6.3貝葉斯分類算法

6.3.1算法原理貝葉斯網(wǎng)絡(luò)的原理是利用貝葉斯公式構(gòu)建依賴關(guān)聯(lián)網(wǎng)絡(luò)進(jìn)行分類。通常,事件X在事件Y(發(fā)生)的條件下的概率,與事件Y在事件X的條件下的概率是不一樣的。但這兩者有確定的關(guān)系,貝葉斯法則就是這種關(guān)系的陳述。

貝葉斯法則是關(guān)于隨機(jī)事件X和Y的條件概率和邊緣概率,即

式中:P(X|Y)是在Y發(fā)生的情況下X發(fā)生的可能性。貝葉斯法則可描述為

其解釋為后驗(yàn)概率=似然度×先驗(yàn)概率/標(biāo)準(zhǔn)化常量。也就是說,后驗(yàn)概率與先驗(yàn)概率和似然度的乘積成正比。P(

X|Y)/P(X)有時也被稱作標(biāo)準(zhǔn)似然度(Standardized

Likelihood),貝葉斯法則又可表述為:后驗(yàn)概率=標(biāo)準(zhǔn)似然度×先驗(yàn)概率。

例如,如果事先已知腦膜炎導(dǎo)致斜頸的概率是0.5,一個病人患有腦膜炎的先驗(yàn)概率是1/50000,病人患有斜頸的先驗(yàn)概率是1/20,那么在已知一個病人患有斜頸的情況下,他患腦膜炎的概率是多少?

構(gòu)建貝葉斯網(wǎng)絡(luò)的關(guān)鍵在于如何分解任務(wù),給定訓(xùn)練數(shù)據(jù)。如圖6-4所示,預(yù)測一個貸款者是否會拖欠還款,其訓(xùn)練集有如下屬性:是否有房、婚姻狀況和年收入。拖欠還款的貸款者屬于類“是”,還清貸款的貸款者屬于類“否”。貝葉斯公式分類的關(guān)鍵問題是:隨機(jī)變量是什么?目標(biāo)變量是什么?目標(biāo)是什么?先驗(yàn)概率如何計算?條件概率如何計算?圖6-4貝葉斯網(wǎng)絡(luò)構(gòu)建的主要問題

從數(shù)據(jù)中估計后驗(yàn)概率是貝葉斯分類算法的一個難點(diǎn),要估計后驗(yàn)概率,可利用貝葉斯網(wǎng)絡(luò)將后驗(yàn)概率轉(zhuǎn)化為先驗(yàn)概率與條件概率之積:

(1)變量確定問題:將屬性(包括類別屬性)都看成隨機(jī)變量,其中屬性變量可表示為(X1,X2,…,Xd),類別屬性可表示為Y。

(2)目標(biāo)確定問題:最大化后驗(yàn)概率P

(Y|X1,X2,…,Xd)。

(3)難點(diǎn):如何從數(shù)據(jù)中估計后驗(yàn)概率P

(Y|X1,X2,…,Xd)。

貝葉斯網(wǎng)絡(luò)推理過程如圖6-5所示,假設(shè)給定已測試記錄有如下屬性集:X=(有房=否,婚姻狀況=已婚,年收入=12萬元)。要分類該記錄,我們需要利用訓(xùn)練數(shù)據(jù)中的可用信息計算后驗(yàn)概率P(拖欠貸款=是|X)和P(拖欠貸款=否|X)。如果P(拖欠貸款=是|X)>P(拖欠貸款=否|X),那么記錄分類為是;反之,分類為否。

要估計后驗(yàn)概率,可利用貝葉斯網(wǎng)絡(luò)將后驗(yàn)概率轉(zhuǎn)化為先驗(yàn)概率與條件概率之積,即

由于分母是固定值,所以上式等價于最大化圖6-5貝葉斯網(wǎng)絡(luò)推理過程

6.3.2樸素貝葉斯算法

樸素貝葉斯分類器在估計類條件概率時的前提假設(shè)是:屬性之間條件獨(dú)立,即

式中:每個屬性集X={X1,X2,…,Xd}包含d個屬性。

分類測試記錄時,樸素貝葉斯分類器對每個類Y計算后驗(yàn)概率:

由于對于所有的Y,P(X)都是固定的,因此只要找出使分子

最大的類就足夠了。下面描述幾種估計分類屬性和連續(xù)屬性的條件概率P

(Xi|Y)的方法。規(guī)約樸素貝葉斯分類任務(wù)和目標(biāo)為:

目標(biāo):主要目標(biāo)是估計先驗(yàn)概率與條件概率P(Yj),P

(Xi|Yj

);

任務(wù):新數(shù)據(jù)對象如何分類?只需計算P(Yj

(Xi|Yj)。

例如,給定如下數(shù)據(jù),對于圖6-5給定的問題,構(gòu)建樸素貝葉斯網(wǎng)絡(luò)可分三步驟:首先利用貝葉斯公式進(jìn)行轉(zhuǎn)換(如圖6-6所示),其次利用數(shù)據(jù)估計條件概率與先驗(yàn)概率(如圖6-7所示),最后利用貝葉斯網(wǎng)絡(luò)推理概率(如圖6-8所示)。圖6-6-樸素貝葉斯網(wǎng)絡(luò)構(gòu)建步驟1

對于分類屬性Xi,根據(jù)類Yj

中屬性值等于Xi的訓(xùn)練實(shí)例的比例來估計條件概率P(Xi|Y=Yj

)。例如,在圖6-6中,還清貸款的7個人中3個人有房,因此條件概率P(有房=是|否)=3/7。同理,拖欠貸款的人中單身的條件概率P(婚姻狀況=單身|是)=2/3。

注意:上述方法的缺陷在于只能針對離散的屬性進(jìn)行先驗(yàn)概率估計與條件概率估計,如果屬性值是連續(xù)值,則通常采用兩類方法:

一是離散化

二是概率密度函數(shù)估計圖6-7樸素貝葉斯網(wǎng)絡(luò)構(gòu)建步驟2１

如何解決極端情況:即通常數(shù)據(jù)不完備、樣本量少所造成的先驗(yàn)知識為0的情況,這時的后驗(yàn)概率難以預(yù)測,如圖6-9所示。圖6-9樸素貝葉斯在極端情況下不能有效預(yù)測

如何有效解決這類極端問題?可以通過以下方式重新估計先驗(yàn)概率

問題1:樸素貝葉斯分類器算法的優(yōu)點(diǎn)和缺點(diǎn)是什么?

提示:從原理、推理方法等方面考慮。

樸素貝葉斯網(wǎng)絡(luò)的特點(diǎn)是:一個中心、三大優(yōu)勢、四項(xiàng)缺點(diǎn)。

一個中心:條件獨(dú)立性

三大優(yōu)勢:

?樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有穩(wěn)定的分類效率;

?對小規(guī)模的數(shù)據(jù)表現(xiàn)很好,能處理多分類任務(wù),適合增量式訓(xùn)練,尤其是數(shù)據(jù)量超出內(nèi)存時;

?對缺失數(shù)據(jù)不太敏感,算法簡單。

四項(xiàng)缺點(diǎn):

?理論上,與其他分類方法相比,樸素貝葉斯模型具有最小的誤差率。

?需要知道先驗(yàn)概率,且先驗(yàn)概率很多時候取決于假設(shè),而假設(shè)的模型可以有很多種。

?通過先驗(yàn)概率和數(shù)據(jù)來決定后驗(yàn)的概率從而決定分類,所以分類決策存在一定的錯誤率。

?對輸入數(shù)據(jù)的表達(dá)形式很敏感。

6.3.3算法應(yīng)用

1.第一階段:確定特征屬性及劃分

確定分類隨機(jī)變量:設(shè)C=0表示真實(shí)賬號,C=1表示不真實(shí)賬號。這一步要找出可區(qū)分真實(shí)賬號與不真實(shí)賬號的特征屬性,在實(shí)際應(yīng)用中,特征屬性的數(shù)量是很多的,劃分也會比較細(xì)致,但這里為了簡單起見,我們使用少量的特征屬性以及較粗的劃分。

選擇特征:選擇如表6-1所示的三個特征屬性。

獲取訓(xùn)練樣本:人工檢測過的1萬個賬號作為訓(xùn)練樣本。

2.第二階段:模型構(gòu)建

獲取先驗(yàn)概率:用訓(xùn)練樣本中真實(shí)賬號和不真實(shí)賬號的數(shù)量分別除以1萬,即

獲取條件概率:每個類別條件下各個特征屬性劃分的頻率如圖6-10所示。圖6-10每個類別條件下各個特征屬性劃分的頻率

3.第三階段:分類應(yīng)用

使用上面訓(xùn)練得到的分類器鑒別一個賬號,這個賬號日志數(shù)量與注冊天數(shù)的比率a1為0.1,好友數(shù)與注冊天數(shù)的比率a2為0.2,使用非真實(shí)頭像a3=0。

樸素貝葉斯分類如下:

6.4貝葉斯信念網(wǎng)絡(luò)

6.4.1定義與推理(1)真實(shí)賬號比非真實(shí)賬號平均具有更大的日志密度、更大的好友密度,以及更多地使用真實(shí)頭像。(2)日志密度、好友密度和是否使用真實(shí)頭像在賬號真實(shí)性給定的條件下是獨(dú)立的。

為了獲取更準(zhǔn)確的分類,可以將假設(shè)修改如下:

(1)真實(shí)賬號比非真實(shí)賬號平均具有更大的日志密度、更大的好友密度,以及更多的地使用真實(shí)頭像。

(2)日志密度與好友密度、日志密度與是否使用真實(shí)頭像在賬號真實(shí)性給定的條件下是獨(dú)立的。

(3)使用真實(shí)頭像的用戶比使用非真實(shí)頭像的用戶平均有更大的好友密度。

對于圖6-11所示的兩個數(shù)據(jù)集,利用樸素貝葉斯分類器都不能有效分類(圖中點(diǎn)代表數(shù)據(jù)對象,同一形狀的數(shù)據(jù)對象隸屬于同一類),其原因在于條件概率假設(shè)的前提不能成立,因此需要更復(fù)雜、更有力的工具來刻畫與描述數(shù)據(jù)之間的關(guān)系。圖6-11非條件獨(dú)立數(shù)據(jù)

貝葉斯網(wǎng)絡(luò)有兩個主要成分:有向無環(huán)圖和概率表。

(1)有向無環(huán)圖(DirectedAcyclicGraph,DAG)表示變量之間的依賴關(guān)系。考慮三個隨機(jī)變量A、B和C,其中A和B相互獨(dú)立,并且都直接影響第三個變量C。三個變量之間的關(guān)

系可以用圖6-12(a)中的有向無環(huán)圖概括。圖中每個節(jié)點(diǎn)表示一個變量,每條弧表示兩個變量之間的依賴關(guān)系。如果從X到Y(jié)有一條有向弧,則X是Y的父母,Y是X的子女。另外,如果網(wǎng)絡(luò)中存在一條從X到Z的有向路經(jīng),則X是Z的祖先,而Z是X的后代。例如,在圖6-12(b)中,A是D的后代,D是B的祖先,而且B和D都不是A的后代節(jié)點(diǎn)。圖6-12使用DAG表示變量之間的依賴關(guān)系

貝葉斯網(wǎng)絡(luò)的一個重要性質(zhì)表述如下:

性質(zhì)6.1(條件獨(dú)立)貝葉斯網(wǎng)絡(luò)中的一個節(jié)點(diǎn),如果它的父母節(jié)點(diǎn)已知,則它條件獨(dú)立于它的所有非后代節(jié)點(diǎn)。

(

2)每個屬性一個條件概率表(ConditionalProbabilityTable,CPT),該表把各節(jié)點(diǎn)和它的直接父節(jié)點(diǎn)關(guān)聯(lián)起來。DAG包含兩類節(jié)點(diǎn),一類是無父節(jié)點(diǎn),一類是有父節(jié)點(diǎn)。第一類節(jié)點(diǎn)所對應(yīng)的概率是先驗(yàn)概率,第二類節(jié)點(diǎn)對應(yīng)的是條件概率,如圖6-13所示。

給定貝葉斯信念網(wǎng)絡(luò),可采用聯(lián)合概率推理方式進(jìn)行推理,即圖6-13DAG包含的兩類節(jié)點(diǎn)

圖6-14是貝葉斯網(wǎng)絡(luò)的一個例子,用于對心臟病患者建模。假設(shè)圖中每個變量都是二值的。心臟病節(jié)點(diǎn)(HD)的父母節(jié)點(diǎn)對應(yīng)于影響該疾病的危險因素,如運(yùn)動(E)和飲食(D)等。心臟病節(jié)點(diǎn)的子節(jié)點(diǎn)對應(yīng)于該病的癥狀,如胸痛(CP)和高血壓(BP)等。如圖6-14所示,心臟病(HD)可能源于不健康的飲食,同時又可能導(dǎo)致胸痛。圖6-14貝葉斯信念網(wǎng)絡(luò)示意圖

圖6-15貝葉斯信念網(wǎng)絡(luò)概率推理過程

6.4.2結(jié)構(gòu)學(xué)習(xí)(網(wǎng)絡(luò)構(gòu)建)

貝葉斯信念網(wǎng)絡(luò)的建模包括兩個步驟:

①創(chuàng)建網(wǎng)絡(luò)結(jié)構(gòu);

②估計每一個節(jié)點(diǎn)概率表中的概率值,可以通過最大化后驗(yàn)概率獲取最佳的貝葉斯網(wǎng)絡(luò)。

網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可以通過對主觀的領(lǐng)域?qū)＜抑R編碼獲得。

例如,考慮圖6-14中的變量執(zhí)行算法6.1的步驟1后,設(shè)變量次序?yàn)?E,D,HD,CP,BP)。從變量D開始,經(jīng)過步驟2到步驟7,得到如下的條件概率:

當(dāng)模型很復(fù)雜時,使用枚舉式的方法來求解概率就會變得非常復(fù)雜且難以計算,因此必須使用其他的替代方法。一般來說,有以下幾種求法:

(1)精確推理,包括枚舉推理法、消元算法(VariableElimination)。

(2)近似推理,包括蒙特卡洛方法、直接取樣算法、拒絕取樣算法、概率加權(quán)算法。

一般而言,推估網(wǎng)絡(luò)的結(jié)構(gòu)會比推估節(jié)點(diǎn)上的參數(shù)要困難。依照對貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的了解和觀測值的完整與否,分別討論下面兩種情況:

1.結(jié)構(gòu)已知,觀測值完整

此時可以用最大似然估計法(MaximumLikelihoodEstimation,MLE)來求得參數(shù)。其

對數(shù)概率函數(shù)為

以圖6-16為例,假設(shè)有兩個服務(wù)器(S1,S2),會傳送數(shù)據(jù)包到用戶端(以U表示),但是第二個服務(wù)器的數(shù)據(jù)包傳送成功率與第一個服務(wù)器傳送成功與否有關(guān),因此貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)圖可以表示成圖6-16的形式。就每個數(shù)據(jù)包傳送而言,只有兩種可能值:T(成功)或F(失敗)。我們可以求出節(jié)點(diǎn)U的最大似然估計式為

根據(jù)該式,就可以借觀測值來估計出節(jié)點(diǎn)U的條件分配。當(dāng)模型很復(fù)雜時,可能需要利用數(shù)值分析或其他最優(yōu)化技巧來求出參數(shù)。圖6-16-服務(wù)器與客戶端傳送貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)圖

2.結(jié)構(gòu)已知,觀測值不完整(有遺漏數(shù)據(jù))

EM算法的步驟如下:

(1)首先給定待估參數(shù)一個初始值,然后利用此初始值和其他的觀測值,求出其他未觀測到節(jié)點(diǎn)的條件期望值,接著將所估計出的值視為觀測值,并將完整的觀測值帶入此模型的最大似然估計式中,如下所示(以圖6-16為例):

式中:EN(x)代表在目前的估計參數(shù)下,事件x的條件概率期望值,即

(2)最大化此最大似然估計式,求出此參數(shù)最有可能的值,并重復(fù)步驟(1)與(2),直到參數(shù)收斂為止,即可得到最佳的參數(shù)估計值。

6.4.3貝葉斯信念網(wǎng)絡(luò)的特點(diǎn)

貝葉斯信念網(wǎng)絡(luò)模型的一般特點(diǎn)如下:

(1)貝葉斯信念網(wǎng)絡(luò)提供了一種用圖形模型來捕獲特定領(lǐng)域的先驗(yàn)知識的方法。該網(wǎng)絡(luò)還可以用來對變量間的因果依賴關(guān)系進(jìn)行編碼。

(2)構(gòu)造網(wǎng)絡(luò)可能既費(fèi)時又費(fèi)力,然而一旦網(wǎng)絡(luò)結(jié)構(gòu)確定下來,添加新變量則會十分容易。

(3)貝葉斯網(wǎng)絡(luò)很適合處理不完整的數(shù)據(jù)。對于有屬性遺漏的實(shí)例,可以通過對該屬性的所有可能取值的概率求和或求積分來加以處理。

(4)因?yàn)閿?shù)據(jù)和先驗(yàn)知識以概率的方式結(jié)合起來了,所以該方法對模型的過擬合問題是非常魯棒的。

6.5回歸分析

回歸是一種預(yù)測建模技術(shù),其中被估計的目標(biāo)變量是連續(xù)的?；貧w應(yīng)用的例子包括:使用其他經(jīng)濟(jì)學(xué)指標(biāo)預(yù)測股市指數(shù),基于高空氣流特征預(yù)測一個地區(qū)的降水量,根據(jù)廣告開銷預(yù)測公司的總銷售,按照有機(jī)物質(zhì)中的碳14殘留估計化石的年齡。

6.5.1預(yù)備知識

令D是包含N個觀測的數(shù)據(jù)集,D={(xi,yi)|i=1,2,…,N}。xi對應(yīng)于第i個觀測的屬性集,xi=(xi1,xi2,…,xid)是向量,又稱說明變量(ExplanatoryVariable),而yi對應(yīng)于目標(biāo)變量(TargetVariable)或因變量?；貧w任務(wù)的說明屬性可以是離散的或連續(xù)的。

定義6.20(回歸,Regression)一個任務(wù),它學(xué)習(xí)一個把每個屬性集x映射到一個連續(xù)值輸出y的目標(biāo)函數(shù)f。

回歸的目標(biāo)是找到一個以最小誤差擬合輸入數(shù)據(jù)的目標(biāo)函數(shù)?；貧w任務(wù)的誤差函數(shù)(ErrorFunction)可以用絕對誤差或平方誤差和表示:

6.5.2線性回歸

考慮表6-2和圖6-17所示的生理學(xué)數(shù)據(jù)。該數(shù)據(jù)對應(yīng)于熱通量和一個人睡眠時皮膚溫度的測量。假設(shè)我們希望根據(jù)熱傳感器收集的熱通量測量值預(yù)測一個人的皮膚溫度,二維散點(diǎn)圖表明這兩個變量之間存在很強(qiáng)的線性關(guān)系,即“線性回歸”(Linear

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《數(shù)據(jù)挖掘基礎(chǔ)及其應(yīng)用》課件第6章

文檔簡介

溫馨提示

最新文檔

評論

《數(shù)據(jù)挖掘基礎(chǔ)及其應(yīng)用》課件第6章

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔