數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿11-貝葉斯網(wǎng)絡(luò))_第1頁
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿11-貝葉斯網(wǎng)絡(luò))_第2頁
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿11-貝葉斯網(wǎng)絡(luò))_第3頁
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿11-貝葉斯網(wǎng)絡(luò))_第4頁
數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿11-貝葉斯網(wǎng)絡(luò))_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、裝訂線數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)講稿 主講:劉以安PAGE PAGE 7第11章 貝葉斯網(wǎng)絡(luò)貝葉斯網(wǎng)絡(luò)絡(luò)是19986年年由Peearll提出的的,根據(jù)據(jù)各個(gè)變變量之間間的概率率關(guān)系,使使用圖論論方法表表示變量量集合的的聯(lián)合概概率分布布的圖形形模型。它它提供了了一種自自然的表表示因果果信息的的方法,用用來發(fā)現(xiàn)現(xiàn)數(shù)據(jù)間間的潛在在關(guān)系。在這個(gè)網(wǎng)絡(luò)絡(luò)中,用用節(jié)點(diǎn)表表示變量量,有向向邊表示示變量間間的依賴賴關(guān)系。其其特點(diǎn)有有:貝葉斯理論論給出了了信任函函數(shù)在數(shù)數(shù)學(xué)上的的計(jì)算方方法,具具有穩(wěn)固固的數(shù)學(xué)學(xué)基礎(chǔ),同同時(shí)刻畫畫了信任任度與證證據(jù)的一一致性以以及信任任度隨證證據(jù)而變變化的增增量學(xué)習(xí)習(xí)特性;在數(shù)據(jù)挖掘掘中,

2、貝貝葉斯網(wǎng)網(wǎng)絡(luò)可以以處理不不完整和和帶有噪噪聲的數(shù)數(shù)據(jù)集,它它用概率率測(cè)度的的權(quán)重來來描述數(shù)數(shù)據(jù)間的的相關(guān)性性,從而而解決了了數(shù)據(jù)間間的不一一致性,甚甚至是相相互獨(dú)立立的問題題;用圖形的方方法描述述數(shù)據(jù)間間的相互互關(guān)系,語語義清晰晰、可理理解性強(qiáng)強(qiáng),這有有助于利利用數(shù)據(jù)據(jù)間的因因果關(guān)系系進(jìn)行預(yù)預(yù)測(cè)分析析;11.1 貝葉斯斯方法的的基本觀觀點(diǎn)貝葉斯分析析方法的的特點(diǎn)是是使用概概率去表表示所有有形式的的不確定定性。學(xué)學(xué)習(xí)或其其他形式式的推理理都是用用概率規(guī)規(guī)則來實(shí)實(shí)現(xiàn)的。貝貝葉斯學(xué)學(xué)習(xí)的結(jié)結(jié)果表示示為隨機(jī)機(jī)變量的的概率分分布,它它可以解解釋為我我們對(duì)不不同可能能性的信信任程度度。貝葉葉斯學(xué)派派的起

3、點(diǎn)點(diǎn)是貝葉葉斯的兩兩項(xiàng)工作作:貝葉葉斯定理理和貝葉葉斯假設(shè)設(shè)。假設(shè)隨機(jī)變變量的聯(lián)聯(lián)合分布布密度是是,它們們的邊際際密度分分別為。設(shè)設(shè)是觀測(cè)測(cè)向量,是末知參數(shù)向量,則可通過觀測(cè)向量來獲得末知參數(shù)向量的估計(jì)。貝葉斯定理為: 這里,是的的先驗(yàn)分分布。上式可以看看出,對(duì)對(duì)末知參參數(shù)向量量的估計(jì)計(jì)綜合了了它的先先驗(yàn)信息息和樣本信信息。而而傳統(tǒng)的的參數(shù)估估計(jì)方法法只從樣樣本數(shù)據(jù)據(jù)獲取信信息,如如最大似似然估計(jì)計(jì)。Bayessiann方法對(duì)對(duì)末知參參數(shù)向量量估計(jì)的的一般過過程為:將末知參數(shù)數(shù)看成是是隨機(jī)變變量;根據(jù)以往末末知參數(shù)數(shù)的知識(shí)識(shí),確定定先驗(yàn)分分布;計(jì)算后驗(yàn)分分布密度度,做出出對(duì)末知知參數(shù)的的推斷。

4、貝葉斯假設(shè)設(shè):如果果沒有任任何以往往的知識(shí)識(shí)來幫助助確定,貝貝葉斯提提出可以以采用均均勻分布布作為其其分布,即即參數(shù)在在它的變變化范圍圍內(nèi),取取到各個(gè)個(gè)值的機(jī)機(jī)會(huì)是相相同的。11.2 貝葉斯斯網(wǎng)絡(luò)的的構(gòu)造原原理定義:貝葉葉斯網(wǎng)絡(luò)絡(luò)是一個(gè)個(gè)二元組組B=,其其中 網(wǎng)絡(luò)絡(luò)結(jié)構(gòu)GG=是一個(gè)個(gè)有向無無環(huán)圖,為結(jié)點(diǎn)集;A為弧的集合; 網(wǎng)絡(luò)絡(luò)參數(shù)PP中的每每一個(gè)元元素代表表結(jié)點(diǎn)的的條件概概率密度度; 則由概率率的鏈規(guī)規(guī)則得 對(duì)于n個(gè)離離散二值值隨機(jī)變變量,要要確定它它們的聯(lián)聯(lián)合分布布,需要要給出個(gè)個(gè)概率值值。這當(dāng)當(dāng)n較大大時(shí),巨巨大的存存儲(chǔ)要求求往往難難以滿足足。因此此,一定定的假設(shè)設(shè)獨(dú)立性性是必要要的。隨

5、隨機(jī)變量量間的假假設(shè)獨(dú)立立性原則則使得貝貝葉斯網(wǎng)網(wǎng)絡(luò)所需需定義的的先驗(yàn)概概率大為為減少。聯(lián)聯(lián)合概率率分布由由隨機(jī)變變量各自自的分布布的乘積積所唯一一確定。對(duì)于網(wǎng)絡(luò)結(jié)結(jié)構(gòu)中的的任一結(jié)結(jié)點(diǎn),必必可找到到一個(gè)與與條件都都不獨(dú)立立的最小小子集,使使得 貝葉斯網(wǎng)絡(luò)絡(luò)是一種種用圖表表示知識(shí)識(shí)的方法法,并且且是可以以計(jì)算的的概率模模型。通通過這種種網(wǎng)絡(luò),可可以綜合合各種來來源的數(shù)數(shù)據(jù),并并對(duì)這些些數(shù)據(jù)進(jìn)進(jìn)行綜合合和推理理。給定一個(gè)聯(lián)聯(lián)合概率率分布以以及變量量的一個(gè)個(gè)排序。將將作為根根結(jié)點(diǎn)開開始,并并賦予以以先驗(yàn)概概率分布布,然后后用一結(jié)結(jié)點(diǎn)表示示,如果果與有關(guān),則則從到建立一一聯(lián)結(jié),并并用表示示聯(lián)結(jié)強(qiáng)強(qiáng)度。

6、如如果與無關(guān),則則賦予以以先驗(yàn)概概率分布布。在第第級(jí)從的父父結(jié)點(diǎn)集集合,(),畫畫一組方方向線聯(lián)聯(lián)結(jié)到,并并用條件件概率定定量表示示,結(jié)果果可以得得到一個(gè)個(gè)有向非非循環(huán)圖圖,可用用于表示示中所體體現(xiàn)的許許多獨(dú)立立關(guān)系,該該圖就稱稱作貝葉葉斯網(wǎng)絡(luò)絡(luò)。反過來,包包含有重重構(gòu)原始始分布函函數(shù)所必必需的所所有信息息,在排排序下,有有如下關(guān)關(guān)系:例如 下圖圖是一個(gè)個(gè)典型的的貝葉斯斯網(wǎng)絡(luò),它它的聯(lián)合合概率分分布函數(shù)數(shù)為11.3 貝葉斯斯網(wǎng)絡(luò)在在數(shù)據(jù)挖挖掘中的的應(yīng)用 11)貝葉葉斯方法法用于分分類及回回歸分析析分類規(guī)則發(fā)發(fā)現(xiàn)是根根據(jù)客體體的特征征向量值值及其他他約束條條件,將將其分到到某個(gè)類類別中。在在數(shù)據(jù)

7、挖挖掘中,主主要研究究如何從從數(shù)據(jù)或或經(jīng)驗(yàn)中中學(xué)習(xí)這這些分類類規(guī)則。對(duì)于分類問問題,有有些情況況,輸入入特征向向量唯一一對(duì)應(yīng)著著一個(gè)類類別,這這種問題題稱為確確定性的的分類問問題;而而有些情情況,會(huì)會(huì)出現(xiàn)類類別重疊疊現(xiàn)象,也也就是說說,來自自于不同同類別的的樣本從從外觀特特征上具具有極大大的相似似性,這這時(shí)我們們只能說說某一類類別的概概率是多多大,但但我們必必須為它它選擇一一個(gè)類別別。Bayessiann學(xué)派采采用兩種種處理方方法: 選擇后后驗(yàn)概率率最大的的類別假設(shè)特征向向量,類類別向量量。分類的的目的就就是把特特征向量量X,歸入入到某個(gè)個(gè)類別中中。方法法是:如果,則。此此時(shí)取判判別函數(shù)數(shù)???/p>

8、以以證明,這這種分類類方法能能夠保證證分類誤誤差最小小。 選擇效效用函數(shù)數(shù)最大(或或損失最最?。┑牡念悇e在決策理論論中,經(jīng)經(jīng)常采用用平均效效益的大大小來衡衡量決策策風(fēng)險(xiǎn)的的大小,這這實(shí)際上上與不確確定性的的程度密密切相關(guān)關(guān)。假設(shè)為把屬屬于類別別的特征征向量XX錯(cuò)誤地地劃分到到類別中中所產(chǎn)生生的損失失,則可可選擇損損失最小小的類別別,即 此時(shí)的判別別函數(shù):。 22)貝葉葉斯分類類的應(yīng)用用文本過濾是是一種重重要的信信息安全全領(lǐng)域的的應(yīng)用。過過濾的實(shí)實(shí)質(zhì)就是是一種分分類,現(xiàn)現(xiàn)討論貝貝葉斯方方法的文文本過濾濾。用下下式所示示的矢量量來表示示文本內(nèi)內(nèi)容: 其中,表示示網(wǎng)頁文文本,文文本中的的關(guān)鍵詞詞,關(guān)

9、鍵鍵詞在網(wǎng)網(wǎng)頁文本本中的權(quán)權(quán)重,即即為文本本所對(duì)應(yīng)應(yīng)的矢量量表示。令為為合法網(wǎng)網(wǎng)頁集,非合法網(wǎng)頁集。如果網(wǎng)頁屬于的概率為,屬于的概率為,則顯然有 +=1由此,下列列任一種種計(jì)算結(jié)結(jié)果都可可以判斷斷網(wǎng)頁是是否為非非法網(wǎng)頁頁: (11) 但有時(shí),如如果將合合法網(wǎng)頁頁誤判為為非法網(wǎng)網(wǎng)頁的話話,其嚴(yán)嚴(yán)重性遠(yuǎn)遠(yuǎn)大于非非法網(wǎng)頁頁的漏判判。因此此,上式式需要加加上一個(gè)個(gè)調(diào)整量量0。即即 (2) 顯然,在過過濾計(jì)算算的臨界界值附近近的文本本是自學(xué)學(xué)習(xí)的重重要樣本本,因此此可將臨臨界值附附近的文文本過濾濾結(jié)果根根據(jù)領(lǐng)域域?qū)<业牡娜斯ご_確認(rèn)作為為訓(xùn)練樣樣本的正正例集和和反例集集,并通通過更正正算法修修改過濾濾模型和和參數(shù)。另外,可根根據(jù)貝葉葉斯定理理,通過過訓(xùn)練樣樣本集預(yù)預(yù)測(cè)未知知樣本的的類別。 (3)在上式(33)中,分別是文本屬于非法文本集和合法文本集的先驗(yàn)概率,可通過下式(4)計(jì)算 (44)矢量中的關(guān)關(guān)鍵詞,可可以看成成文本的的屬性。因因此,基基于樸素素貝葉斯斯方法的的文本內(nèi)內(nèi)容過濾濾的技術(shù)術(shù)實(shí)質(zhì)上上是將文文本進(jìn)行行貝葉斯斯分類(合合法類和和非合法法類)。計(jì)計(jì)算和的開銷

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論