Microsoft-SQL-Server-2005-Data-Mining-算法-Naive-Bayes-數(shù)據(jù)挖掘_第1頁
Microsoft-SQL-Server-2005-Data-Mining-算法-Naive-Bayes-數(shù)據(jù)挖掘_第2頁
Microsoft-SQL-Server-2005-Data-Mining-算法-Naive-Bayes-數(shù)據(jù)挖掘_第3頁
Microsoft-SQL-Server-2005-Data-Mining-算法-Naive-Bayes-數(shù)據(jù)挖掘_第4頁
Microsoft-SQL-Server-2005-Data-Mining-算法-Naive-Bayes-數(shù)據(jù)挖掘_第5頁
已閱讀5頁,還剩82頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

MicrosoftSQLServer2005

DataMining演算法–

Na?veBayes謝邦昌輔仁大學(xué)統(tǒng)計資訊學(xué)系教授

中華資料採礦協(xié)會

理事長

stat1001@.twWWW.CDMS.ORG.TW1Na?veBayesClassifier

單純貝氏分類2何謂Na?veBayes

Classifer單純貝氏分類器(Na?veBayesClassifier)是一種簡單且實用的分類方法。在某些領(lǐng)域的應(yīng)用上,其分類效果優(yōu)於類神經(jīng)網(wǎng)路和決策樹採用監(jiān)督式的學(xué)習(xí)方式,分類前必須事先知道分類型態(tài),透過訓(xùn)練樣本的訓(xùn)練學(xué)習(xí),有效地處理未來欲分類的資料。3何謂Na?veBayes

Classifer用於大型資料庫,可以得出準(zhǔn)確高且有效率的分類結(jié)果單純貝氏分類器主要是根據(jù)貝氏定理(BayesianTheorem),來預(yù)測分類的結(jié)果。4何謂Na?veBayes

Classifer單純貝氏分類器,主要的運作原理,是透過訓(xùn)練樣本,學(xué)習(xí)與記憶分類根據(jù)所使用屬性的關(guān)係,產(chǎn)生這些訓(xùn)練樣本的中心概念,再用學(xué)習(xí)後的中心概念對未歸類的資料進(jìn)行類別預(yù)測,以得到受測試資料物件的目標(biāo)值。每筆訓(xùn)練樣本,一般含有分類相關(guān)連屬性的值,及分類結(jié)果(又稱為目標(biāo)值);一般而言,屬性可能出現(xiàn)兩種以上不同的值,而目標(biāo)值則多半為兩元的相對狀態(tài),如“是/否”,”好/壞”,”對/錯”,”上/下”。5隨機實驗隨機實驗

1.新生嬰兒性別

2.產(chǎn)品檢驗樣本點

1.男性、女性

2.良品、不良品樣本空間

1.S={男性、女性}

2.S={良品、不良品}隨機實驗(RandomExperiment)是一種過程,實驗前已知所有可能結(jié)果,實驗前不可預(yù)知實驗結(jié)果,相同狀況下實驗可重複試行。樣本空間:隨機實驗所有可能結(jié)果所構(gòu)成的集合。樣本空間內(nèi)元素稱為樣本點。樣本空間的子集合稱為事件。6機率的概念機率是衡量某一事件可能發(fā)生的程度(機會大小),並針對此一不確定事件發(fā)生之可能賦予一量化的數(shù)值??荚嚂浫〉臋C率、明天會下雨的機率7機率理論的種類一、古典機率又稱先驗機率(priorprobability)或事前機率,一隨機實驗滿足下列條件:1.樣本空間的樣本點數(shù)是有限的

2.樣本空間內(nèi)所有樣本點發(fā)生機率為相同的

事件E發(fā)生的機率以P(E)表示:

P(E)=事件E樣本點之個數(shù)/樣本空間樣本點之個數(shù)8機率理論的種類二、經(jīng)驗機率又稱相對頻率機率,是指一實驗重複實行,則某事件發(fā)生的機率定為在長期的實行中,該事件出現(xiàn)的次數(shù)與實驗總次數(shù)之比

P(E)=

lim

n(E)n→∞nn:隨機實驗之總次數(shù),n(E):事件E出現(xiàn)的次數(shù)三、主觀機率研究者根據(jù)自己的判定,給予機率,只要滿足P(E)→[0,1]即可9事件機率聯(lián)合機率(jointprobability)

表示A事件和B事件同時發(fā)生的機率=P(A∩B)邊際機率(marginalprobability)

在A和B的樣本空間中,只看A或B的機率,稱之邊際機率條件機率(conditionalprobability)

在發(fā)生A的條件下,發(fā)生B的機率,稱為P(B|A)10贊成(B1)反對(B2)合計男性(A1)40120160女性(A2)103040合計50150200聯(lián)合機率:P(男性,贊成)=P(A1∩B1)=40/200=0.2邊際機率:P(贊成)=P(B1)=P(A1∩B1)+P(A2∩B1)=0.25條件機率:P(贊成|男性)=P(B1|A1)=P(A1∩B1)/P(A1)=0.2511乘法法則(Multiplicativerule)

P(A∩B)

P(B│A)=─────

P(A)

P(A∩B)=P(B)×P(A│B)

=P(A)×P(B│A)

P(A∩B)

P(A│B)=─────

P(B)12獨立事件設(shè)事件A和事件B滿足以下條件:P(A)>0,P(B│A)=P(B)P(B)>0,P(A│B)=P(A)P(A∩B)=P(A)×P(B)

則稱A與B為『獨立事件』。13貝氏定理

P(Ai∩B)P(Ai)×P(B│Ai)P(Ai│B)=──────=───────────

P(B)nΣP(Ai)×P(B│Ai)i=1P(Ai)表事前機率(Priorprobability)。P(Ai│B)表事後機率(Posterioriprobability),事件Ai是一原因,B是一結(jié)果。Baye'srule是一由已知結(jié)果求原因的機率。14

旅客搭乘飛機必須經(jīng)電子儀器檢查是否身上攜帶金屬物品,攜帶金屬儀器會發(fā)出聲音的機會是97%,但身上無金屬物品儀器會發(fā)出聲音的機會是5%。若已知一般乘客身上帶有金屬物品的機會是30%,若某旅客經(jīng)過儀器檢查時發(fā)出聲音,請問他身上有金屬物品的機會是多少?

解:設(shè)A=「有金屬物」,B=「儀器會發(fā)聲」則

=0.892615Na?veBayes

Classifer單純貝氏分類器主要是根據(jù)貝氏定理(BayesianTheorem),交換事前(prior)及事後(posteriori)機率,配合決定分類特性的各屬性彼此間是互相獨立的(conditionalindependence)的假設(shè),來預(yù)測分類的結(jié)果。16hMAP:最大可能的假說(MaximumA

Posteriori)D:訓(xùn)練樣本V:假說空間(hypothesesspace)P(D):訓(xùn)練樣本的事前機率,對於假說h而言,為一常數(shù)P(h):假說h事前機率(尚未觀察訓(xùn)練樣本時的機率)P(h|D):在訓(xùn)練樣本D集合下,假說h出現(xiàn)的條件機率17單純貝氏分類器會根據(jù)訓(xùn)練樣本,對於所給予測試物件的屬性值(a1,a2,a3,…,an)指派具有最高機率值的類別(C表示類別的集合)為目標(biāo)結(jié)果。其中,假設(shè)一共有n個學(xué)習(xí)概念的屬性A1,A2,…,An,a1為A1相對應(yīng)的屬性值。18單純貝氏分類器演算法1.計算各屬性的條件機率P(C=cj|A1=a1,?,An=an)

屬性獨立:

2.預(yù)測推論新測試樣本所應(yīng)歸屬的類別

貝氏定理:

19只要單純貝氏分類器所涉及學(xué)習(xí)概念的屬性,彼此間互相獨立的條件被滿足時,單純貝氏分類器的所得到的最大可能分類結(jié)果cNB,與貝氏定理的最大可能假說hMAP具有相同的功效20單純貝氏分類器實例辦信用卡意願:項目性別年齡學(xué)生身分收入辦卡1男>45否高

會2女31~45否高會3女20~30是低會4男<20是低不會5女20~30是中不會6女20~30否中會7女31~45否高會8男31~45是中不會9男31~45否中會10女<20是低會21判斷(女性,年齡介於31~45之間,不具學(xué)生身份,收入中等)者會不會辦理信用卡。首先根據(jù)訓(xùn)練樣本計算各屬性相對於不同分類結(jié)果的條件機率:P(性別=女|辦卡=會)=5/7

P(性別=女|辦卡=不會)=1/3P(年齡=31~45|辦卡=會)=3/7

P(年齡=31~45|辦卡=不會)=1/3P(學(xué)生=否|辦卡=會)=5/7

P(學(xué)生=否|辦卡=不會)=0/3P(收入=中|辦卡=會)=2/7

P(收入=中|辦卡=不會)=2/322

再應(yīng)用單純貝氏分類器進(jìn)行類別預(yù)測:P(辦卡=會)=7/10P(辦卡=不會)=3/10P(會)P(女|會)P(31~45|會)P(否|會)P(中|會)=15/343≒0.044P(不會)P(女|不會)P(31~45|不會)P(否|不會)P(中|不會)=023訓(xùn)練樣本中對於(女性,年齡介於31~45之間,不具學(xué)生身份,收入中等)的個人,單純貝氏分類器會將其分類到會辦理信用卡的類別。而且辦理的機率是(0.044)/(0.044+0)=1(正規(guī)化分類的結(jié)果P(會)/(P(會)+P(不會))。故使用單純貝氏分類器,會將(女性,年齡介於31~45之間,不具學(xué)生身份,收入中等)的個人歸類到“會”辦理信用卡的類別中。24單純貝氏分類器對於各種屬性相對於目標(biāo)值(分類的類別)的條件機率,是先找出訓(xùn)練樣本中,某目標(biāo)值出現(xiàn)的個數(shù)(n),及在這些目標(biāo)值的樣本中,特定屬性值出現(xiàn)的個數(shù)(na),然後na/n即為該特定屬性在該目標(biāo)值下的條件機率。如上例P(性別=女|辦卡=會)的條件機率是5/7,因為10筆訓(xùn)練樣本一共有七筆是會辦卡,而會辦卡的七筆中,有五筆是女性。25BayesianClassificationBayesTheorem:P(H|X)=P(X|H)P(H)/P(X)LetXisadatasamplewhoseclasslabelisunknownLetHbeaclasslabelP(H)isthepriorprobabilityofHP(H|X)istheposteriorprobabilityofHconditionedonXExampleX:aredandroundobjectC:beinganappleoranorangeH:beinganapple(H

C)26NaiveBayesianClassificationClassifyX=(age=“<=30”,income=“medium”,student=“yes”,credit-rating=“fair”)P(buys_computer=yes)=9/14P(buys_computer=no)=5/14P(age=<30|buys_computer=yes)=2/9P(age=<30|buys_computer=no)=3/5P(income=medium|buys_computer=yes)=4/9P(income=medium|buys_computer=no)=2/5P(student=yes|buys_computer=yes)=6/9P(student=yes|buys_computer=no)=1/5P(credit-rating=fair|buys_computer=yes)=6/9P(credit-rating=fair|buys_computer=no)=2/5P(X|buys_computer=yes)=0.044P(X|buys_computer=no)=0.019P(buys_computer=yes|X)

P(X|buys_computer=yes)

P(buys_computer=yes)=0.028P(buys_computer=no|X)

P(X|buys_computer=no)P(buys_computer=no)=0.00727MicrosoftNaiveBayesianEasytoTrainModelAlgorithmParametersMAXIMUM_INPUT_ATTRIBUTES超過此值會自動啟動欄位篩選機置MAXIMUM_STATES類型屬性項目最大值MINIMUM_DEPENDENCY_PROBABILITY介於0~1,數(shù)值越大,模型使用變數(shù)會減少28MicrosoftNaiveBayesianNaiveBayesian只能接受類別屬性的資料,所以在SSAS中可先將資料類別化後再用Na?veBayes

來做分類29DependencyNetwork30ReservedStrongLinks31AttributeProfile32AttributeCharacteristics33AttributeCharacteristics34AttributeDiscrimination35ColumnMapping36ColumnMapping37LiftChart38ConfusionMatrix39範(fàn)例40建立Na?veBayes

分類模型41選擇資料庫42建立Na?veBayes

分類模型43選擇三國志資料庫建立Na?veBayes

分類模型44執(zhí)行Na?veBayes

分類模型45執(zhí)行Na?veBayes

分類模型過程46執(zhí)行Na?veBayes

分類模型結(jié)果47建立Na?veBayes

分類模型結(jié)果及其關(guān)聯(lián)強弱48建立Na?veBayes

分類模型結(jié)果及其分類變數(shù)間之關(guān)係49建立Na?veBayes

分類模型結(jié)果及其分類變數(shù)間之關(guān)係50建立Na?veBayes

分類模型結(jié)果及其分類變數(shù)間之關(guān)係51建立Na?veBayes

分類模型結(jié)果及其分類變數(shù)間之關(guān)係52建立Na?veBayes

分類模型結(jié)果及其分類變數(shù)間之機率值53建立Na?veBayes

分類模型結(jié)果及其分類變數(shù)間之機率值54不同分類建立Na?veBayes

分類模型結(jié)果及其分類變數(shù)間之機率值55建立Na?veBayes

分類模型結(jié)果及其分類變數(shù)間之機率值56建立Na?veBayes

分類模型結(jié)果及其分類變數(shù)間之參數(shù)值57建立Na?veBayes

分類模型結(jié)果及其分類變數(shù)間之參數(shù)值58建立Na?veBayes

分類模型結(jié)果及不同分類間之比較59建立Na?veBayes

分類模型結(jié)果及不同分類間之比較60建立Na?veBayes

分類模型結(jié)果及不同分類間之比較61建立Na?veBayes

分類模型精確度之檢視62建立Na?veBayes

分類模型精確度之檢視63建立Na?veBayes

分類模型精確度之檢視LiftChart64建立Na?veBayes

分類模型精確度之檢視ProfitChart65

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論