判別模型、生成模型與樸素貝葉斯方法_第1頁
判別模型、生成模型與樸素貝葉斯方法_第2頁
判別模型、生成模型與樸素貝葉斯方法_第3頁
判別模型、生成模型與樸素貝葉斯方法_第4頁
判別模型、生成模型與樸素貝葉斯方法_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1判別模型與生成模型上篇報告中提到的回歸模型是判別模型,也就是根據(jù)特征值來求結果的概率。形式化表示為曲汁:V,在參數(shù)「'確定的情況下,求解條件概率曲刃門。通俗的解釋為在給定特征后預測結果出現(xiàn)的概率。比如說要確定一只羊是山羊還是綿羊,用判別模型的方法是先從歷史數(shù)據(jù)中學習到模型,然后通過提取這只羊的特征來預測出這只羊是山羊的概率,是綿羊的概率。換一種思路,我們可以根據(jù)山羊的特征首先學習出一個山羊模型,然后根據(jù)綿羊的特征學習出一個綿羊模型。然后從這只羊中提取特征,放到山羊模型中看概率是多少,再放到綿羊模型中看概率是多少,哪個大就是哪個。形式化表示為求心止嘰(也包括,y是模型結果,x是特征。利用貝葉斯公式發(fā)現(xiàn)兩個模型的統(tǒng)一性:由于我們關注的是y的離散值結果中哪個概率大(比如山羊概率和綿羊概率哪個大),而并不是關心具體的概率,因此上式改寫為:其中口*;稱為后驗概率,卅汁稱為先驗概率。由,廠=-:,',因此有時稱判別模型求的是條件概率,生成模型求的是聯(lián)合概率。常見的判別模型有線性回歸、對數(shù)回歸、線性判別分析、支持向量機、boosting、條件隨機場、神經(jīng)網(wǎng)絡等。常見的生產(chǎn)模型有隱馬爾科夫模型、樸素貝葉斯模型、高斯混合模型、LDA、RestrictedBoltzmannMachine等。這篇博客較為詳細地介紹了兩個模型:/home.php?mod=space&uid=248173&do=blog&id=2279642高斯判別分析(Gaussiandiscriminantanalysis)1)多值正態(tài)分布多變量正態(tài)分布描述的是n維隨機變量的分布情況,這里的丨變成了向量,…'也變成了矩陣?寫作宀宀焉。假設有n個隨機變量X1,X2,…,Xn。丨的第i個分量是E(Xi),而島二詢『(X)上嚴匚訊區(qū)罔)概率密度函數(shù)如下:pHhS)=(2開嚴:|幼1/2exp(一£儀—$)丁刀7(工-曲其中「I是;'的行列式,''是協(xié)方差矩陣,而且是對稱半正定的。當'是二維的時候可以如下圖表示:其中'決定中心位置,幾決定投影橢圓的朝向和大小。如下圖:對應的’都不同。2)模型分析與應用如果輸入特征x是連續(xù)型隨機變量,那么可以使用高斯判別分析模型來確定p(x|y)

模型如下:■yzBernoulli忑協(xié)=0zS)訕=1zjV(mi,S)輸出結果服從伯努利分布,在給定模型下特征符合多值高斯分布。通俗地講,在山羊模型下,它的胡須長度,角大小,毛長度等連續(xù)型變量符合高斯分布,他們組成的特征向量符合多值高斯分布。這樣,可以給出概率密度函數(shù):最大似然估計如下:最大似然估計如下:得到參數(shù)估計公式:得到參數(shù)估計公式:注意這里的參數(shù)有兩個丨,表示在不同的結果模型下,特征均值不同,但我們假設協(xié)方差相同。反映在圖上就是不同模型中心位置不同,但形狀相同。這樣就可以用直線來進行分隔判別。求導后IXJ協(xié))=0}屠1{宀1沁匸二1{理=1}

ct>是訓練樣本中結果y=l占有的比例。際是y=0的樣本中特征均值?!甘莥=1的樣本中特征均值。Y'是樣本特征方差均值。如前面所述,在圖上表示為:如前面所述,在圖上表示為:直線兩邊的y值不同,但協(xié)方差矩陣相同,因此形狀相同。,不同,因此位置不同。3)高斯判別分析(GDA)與logistic回歸的關系將GDA用條件概率方式來表述的話,如下:p{y=1|遲;仇如屮1迄)y是x的函數(shù),其中y是x的函數(shù),其中都是參數(shù)。進一步推導出00工屮°屮1這里的是的函數(shù)。這個形式就是logistic回歸的形式。也就是說如果p(x|y)符合多元高斯分布,那么p(y|x)符合logistic回歸模型。反之,不成立。為什么反過來不成立呢?因為GDA有著更強的假設條件和約束。

如果認定訓練數(shù)據(jù)滿足多元高斯分布,那么GDA能夠在訓練集上是最好的模型。然而,我們往往事先不知道訓練數(shù)據(jù)滿足什么樣的分布,不能做很強的假設。Logistic回歸的條件假設要弱于GDA,因此更多的時候采用logistic回歸的方法。例如,訓練數(shù)據(jù)滿足泊松分布,咖二例如,訓練數(shù)據(jù)滿足泊松分布,咖二0~Poisson(A0)*P血唄入]),那么p(y|x)也是logistic回歸的。這個時候如果采用GDA,那么效果會比較差,因為訓練數(shù)據(jù)特征的分布不是多元高斯分布,而是泊松分布。這也是logistic回歸用的更多的原因。3樸素貝葉斯模型在GDA中,我們要求特征向量x是連續(xù)實數(shù)向量。如果x是離散值的話,可以考慮采用樸素貝葉斯的分類方法。假如要分類垃圾郵件和正常郵件。分類郵件是文本分類的一種應用。假設采用最簡單的特征描述方法,首先找一部英語詞典,將里面的單詞全部列出來。然后將每封郵件表示成一個向量,向量中每一維都是字典中的一個詞的0/1值,1表示該詞在郵件中出現(xiàn),0表示未出現(xiàn)。比如一封郵件中出現(xiàn)了“a”和“buy”,沒有出現(xiàn)“aardvark”、“aardwolf”和“zygmurgy”,那么可以形式化表示為:aaard^rkaardwolfzygmurgy假設字典中總共有5000個詞,那么x是5000維的。這時候如果要建立多項式分布模型(二項分布的擴展)。多項式分布(multinomialdistributen)某隨機實驗如果有k個可能結局A1,A2,…,Ak,它們的概率分布分別是p1,p2,…,pk,那么在N次采樣的總結果中,A1出現(xiàn)n1次,A2出現(xiàn)n2次,…,Ak出現(xiàn)nk次的這種事件的出現(xiàn)概率P有下面公式:(Xi代表出現(xiàn)ni次)汩尹『…虞評hen0othei'wise.對應到上面的問題上來,把每封郵件當做一次隨機試驗,那么結果的可能性有-':=種。意味著950DQpi有,個,參數(shù)太多,不可能用來建模。換種思路,我們要求的是p(y|x),根據(jù)生成模型定義我們可以求p(x|y)和p(y)。假設x中的特征是條件獨立的。這個稱作樸素貝葉斯假設。如果一封郵件是垃圾郵件(y=1),且這封郵件出現(xiàn)詞“buy”與這封郵件是否出現(xiàn)“price”無關,那么“buy”和“price”之間是條件獨立的。形式化表示為,(如果給定Z的情況下,X和Y條件獨立):P(X\Z)=也可以表示為:=F31石戶住IQ回到問題中…■:乓OOM)|砂)卩(叭|切卩(衍|的巧加(衍|胎巧嚴U)…鞏生50000|場巧……江4B9B9)戸(宙1|期)戸(乜|站)卩(刪|期)-…訓工500?]|砂)n=口卩幺也〕i=\這個與NLP中的n元語法模型有點類似,這里相當于unigram。這里我們發(fā)現(xiàn)樸素貝葉斯假設是約束性很強的假設,“buy”從通常上講與“price”是有關系,我們這里假設的是條件獨立。(注意條件獨立和獨立是不一樣的)建立形式化的模型表示:?T=尹(耳=丄療=—嘰尸□=尹(曲=ily=%=嗆=1)那么我們想要的是模型在訓練數(shù)據(jù)上概率積能夠最大,即最大似然估計如下:mi=l注意這里是聯(lián)合概率分布積最大,說明樸素貝葉斯是生成模型。

求解得:y=1的樣本數(shù)占全部樣本數(shù)的比例,前兩個表示在y=1或0求解得:y=1的樣本數(shù)占全部樣本數(shù)的比例,前兩個表示在y=1或0的樣本中,二1|不)=二1|不)=用)(11二1列彌少=U)p也=1)inSpELg=iJMtf=li十(口鮎pfete=u))p(“=of實際是求出分子即可,分母對y=i和y=0都一樣。當然,樸素貝葉斯方法可以擴展到x和y都有多個離散值的情況。對于特征是連續(xù)值的情況,我們也可以采用分段的方法來將連續(xù)值轉化為離散值。具體怎么轉化能夠最優(yōu),我們可以采用信息增益的度量方法來確定(參見Mitchell的《機器學習》決策樹那一章)。比如房子大小可以如下劃分成離散值:Living(mi4fert)<40()100-80()S(X)-12()012M4&oa>1600123454拉普拉斯平滑樸素貝葉斯方法有個致命的缺點就是對數(shù)據(jù)稀疏問題過于敏感。比如前面提到的郵件分類,現(xiàn)在新來了一圭寸郵件,郵件標題是“NIPScallforpapers。我們使用更大的網(wǎng)絡詞典(詞的數(shù)目由5000變?yōu)?5000)來分類,假設NIPS這個詞在字典中的位置是35000。然而NIPS這個詞沒有在訓練數(shù)據(jù)中出現(xiàn)過,這封郵件第一次出現(xiàn)了NIPS。那我們算概率的時候如下:由于NIPS在以前的不管是垃圾郵件還是正常郵件都沒出現(xiàn)過,那么結果只能是0了。顯然最終的條件概率也是0。原因就是我們的特征概率條件獨立,使用的是相乘的方式來得到結果。為了解決這個問題,我們打算給未出現(xiàn)特征值,賦予一個“小”的值而不是0具體平滑方法如下:假設離散型隨機變量z有{1,2,…,k}個值,我們用兒:來表示每個值的概率。假設有m個訓練樣本中,z的觀察值是-:m個訓練樣本中,z的觀察值是-:":其中每個觀察值對應k個值中的一個。那么根據(jù)原來的估計方法可以得到說白了就是z=j出現(xiàn)的比例。拉普拉斯平滑法將每個k值出現(xiàn)次數(shù)事先都加1通俗講就是假設他們都出現(xiàn)過一次。那么修改后的表達式為:每個z=j的分子都加1每個z=j的分子都加1,分母加k??梢?=這個有點像NLP里面的加一平滑法,當然還有n多平滑法了,這里不再詳述。Technorati標簽:MachineLearning回到郵件分類的問題,修改后的公式為:ZXJM)=i}+2刀二1{甥=m涉)=仍+1

芯1{滬)=葉+25文本分類的事件模型回想一下我們剛剛使用的用于文本分類的樸素貝葉斯模型,這個模型稱作多值伯努利事件模型(multi-variateBernoullieventmodel)。在這個模型中,我們首先隨機選定了郵件的類型(垃圾或者普通郵件,也就是p(y)),然后一個人翻閱詞典,從第一個詞到最后一個詞,隨機決定一個詞是否要在郵件中出現(xiàn),出現(xiàn)標示為1,否則標示為0。然后將出現(xiàn)的詞組成一封郵件。

決定一個詞是否出現(xiàn)依照概率p(xi|y)。那么這封郵件的概率可以標示為■I1」O讓我們換一個思路,這次我們不先從詞典入手,而是選擇從郵件入手。讓i表示郵件中的第i個詞,xi表示這個詞在字典中的位置,那么xi取值范圍為{1,2,???|V|},|V|是字典中詞的數(shù)目。這樣一封郵件可以表示成'::',n可以變化,因為每封郵件的詞的個數(shù)不同。然后我們對于每個xi隨機從|V|個值中取一個,這樣就形成了一封郵件。這相當于重復投擲|V|面的骰子,將觀察值記錄下來就形成了一封郵件。當然每個面的概率服從p(xi|y),而且每次試驗條件獨立。這樣我們得到的郵件概率是■I1j;":■■-居然跟上面的一樣,那么不同點在哪呢?注意第一個的n是字典中的全部的詞,下面這個n是郵件中的詞個數(shù)。上面xi表示一個詞是否出現(xiàn),只有0和1兩個值,兩者概率和為1。下面的xi表示|V|中的一個值,|V|個p(xi|y)相加和為1。是多值二項分布模型。上面的x向量都是0/1值,下面的x的向量都是字典中的位置。形式化表示為:m個訓練樣本表示為:I……缶他=(卑錯,…,昂)表示第i個樣本中,共有ni個詞,每個詞在字典中的編號為那么我們仍然按照樸素貝葉斯的方法求得最大似然估計概率為解得,1{辭十艸=1}解得,1{辭十艸=1}"陽1{破)=阪為漳1{嚴"宀為漳1{嚴"宀0}刀陽1{瀘)=0}%工眷1{艸=1}m與以前的式子相比,分母多了個ni,分子由0/1變成了k。舉個例子:假如郵件中只有a,b,c這三詞,他們在詞典的位置分別是1,2,3,前兩封郵件都只有2個詞后兩封有3個詞。Y=1是垃圾郵件。那么,1+0113①i|尸廠不X飛,①叱1=刖嗎心祚2+0221①吊二0=汀§=于?s|y=o①曲二0=呂假如新來一封郵件為b,假如新來一封郵件為b,c那么特征表示為{2,3}。旳=旳=凋二氏92二匝土業(yè)二型—卩(工)p(H={Z3D卩(工)也卜=i

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論