混合高斯模型Mitures_第1頁
混合高斯模型Mitures_第2頁
混合高斯模型Mitures_第3頁
混合高斯模型Mitures_第4頁
混合高斯模型Mitures_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

混合高斯模型(MixturesofGaussians)和EM算法這篇討論使用期望最大化算法(Expectation-Maximization)來進(jìn)行密度估計(densityestimation)。與k-means—樣,給定的訓(xùn)練樣本是,我們將隱含類別標(biāo)簽用表示。與k-means的硬指定不同,我們首先認(rèn)為是滿足一定的概率分布的,這里我們認(rèn)為滿足多項(xiàng)式分布,,其中,有k個值{1,…,k}可以選取。而且我們認(rèn)為在給定后,滿足多值高斯分布,即。由此可以得到聯(lián)合分布。整個模型簡單描述為對于每個樣例,我們先從k個類別中按多項(xiàng)式分布抽取一個,然后根據(jù)所對應(yīng)的k個多值高斯分布中的一個生成樣例,。整個過程稱作混合高斯模型。注意的是這里的仍然是隱含隨機(jī)變量。模型中還有三個變量和。最大似然估計為。對數(shù)化后如下:m A'=y^iog工卩(』忖〕佔(zhàn)£)謔%0).玄=I I這個式子的最大值是不能通過前面使用的求導(dǎo)數(shù)為0的方法解決的,因?yàn)榍蟮慕Y(jié)果不是closeform。但是假設(shè)我們知道了每個樣例的,那么上式可以簡化為:帥屮衛(wèi)=丫皿卩也⑻忖光”㈢一1碼卩理;'沖).i?二I這時候我們再來對和進(jìn)行求導(dǎo)得到:◎=命£1{出=』},v_”碁1{小可}(*>-血(於-旳尸就是樣本類別中的比率。是類別為j的樣本特征均值,是類別為j的樣例的特征的協(xié)方差矩陣。實(shí)際上,當(dāng)知道后,最大似然估計就近似于高斯判別分析模型(Gaussiandiscriminantanalysismodel)了。所不同的是GDA中類別y是伯努利分布,而這里的z是多項(xiàng)式分布,還有這里的每個樣例都有不同的協(xié)方差矩陣,而GDA中認(rèn)為只有一個。之前我們是假設(shè)給定了,實(shí)際上是不知道的。那么怎么辦呢?考慮之前提到的EM的思想,第一步是猜測隱含類別變量乙第二步是更新其他參數(shù),以獲得最大的最大似然估計。用到這里就是:循環(huán)下面步驟,直到收斂:{

好后,利用上面的公式重新計算其他參數(shù),計算好后發(fā)現(xiàn)最大化最大似然估計時,值又不對了,需要重新計算,周而復(fù)始,直至收斂。的具體計算公式如下:好后,利用上面的公式重新計算其他參數(shù),計算好后發(fā)現(xiàn)最大化最大似然估計時,值又不對了,需要重新計算,周而復(fù)始,直至收斂。的具體計算公式如下:P(兇〕=沖妙;叭嚴(yán),工)=卩(卅」|矗〕二卩(護(hù))=j;?)

刀:二1卩(王⑻=卜'P(兇〕=沖妙;叭嚴(yán),工)=這個式子利用了貝葉斯公式。這里我們使用代替了前面的,由簡單的0/1值變成了概率值。對比K-means可以發(fā)現(xiàn),這里使用了''軟”指定,為每個樣例分配的類別是有一定的概率的,同時計算量也變大了,每個樣例i都要計算屬于每一個類別j的概率。與K-means相同的是,結(jié)果仍然是局部最優(yōu)解。對其他參數(shù)取不同的初始值進(jìn)行多次計算不失為一種好方法。雖然之前再K-means中定性描述了EM的收斂性,仍然沒有定量地給出,還有一般化EM的推導(dǎo)過程仍然沒有給出。下一篇著重介紹這些容。(EM算法)TheEMAlgorithmEM是我一直想深入學(xué)習(xí)的算法之一,第一次聽說是在NLP課中的HMM那一節(jié),為了解決HMM的參數(shù)估計問題,使用了EM算法。在之后的MT中的詞對齊中也用到了。在Mitchell的書中也提到EM可以用于貝葉斯網(wǎng)絡(luò)中。下面主要介紹EM的整個推導(dǎo)過程。1.Jensen不等式回顧優(yōu)化理論中的一些概念。設(shè)f是定義域?yàn)閷?shí)數(shù)的函數(shù),如果對于所有的實(shí)數(shù)x,,那么f是凸函數(shù)。當(dāng)x是向量時,如果其hessian矩陣H是半正定的(),那么f是凸函數(shù)。如果或者,那么稱f是嚴(yán)格凸函數(shù)。Jensen不等式表述如下:如果f是凸函數(shù),X是隨機(jī)變量,那么特別地,如果f是嚴(yán)格凸函數(shù),那么當(dāng)且僅當(dāng),也就是說X是常量。這里我們將簡寫為。如果用圖表示會很清晰:圖中,實(shí)線f是凸函數(shù),X是隨機(jī)變量,有0.5的概率是a,有0.5的概率是b。(就像擲硬幣一樣)。X的期望值就是a和b的中值了,圖中可以看到成立。當(dāng)f是(嚴(yán)格)凹函數(shù)當(dāng)且僅當(dāng)-f是(嚴(yán)格)凸函數(shù)。Jensen不等式應(yīng)用于凹函數(shù)時,不等號方向反向,也就是。2.EM算法給定的訓(xùn)練樣本是,樣例間獨(dú)立,我們想找到每個樣例隱含的類別乙能使得p(x,z)最大。p(x,z)的最大似然估計如下:第一步是對極大似然取對數(shù),第二步是對每個樣例的每個可能類別z求聯(lián)合分布概率和。但是直接求一般比較困難,因?yàn)橛须[藏變量z存在,但是一般確定了z后,求解就容易了。EM是一種解決存在隱含變量優(yōu)化問題的有效方法。竟然不能直接最大化,我們可以不斷地建立的下界(E步),然后優(yōu)化下界(M步)。這句話比較抽象,看下面的。對于每一個樣例i,讓表示該樣例隱含變量z的某種分布,滿足的條件是。(如果z是連續(xù)性的,那么是概率密度函數(shù),需要將求和符號換做積分符號)。比如要將班上學(xué)生聚類,假設(shè)隱藏變量z是身高,那么就是連續(xù)的高斯分布。如果按照隱藏變量是男女,那么就是伯努利分布了??梢杂汕懊骊U述的容得到下面的公式:(1)到(2)比較直接,就是分子分母同乘以一個相等的函數(shù)。(2)到(3)利用了Jensen不等式,考慮到是凹函數(shù)(二階導(dǎo)數(shù)小于0),而且就是的期望(回想期望公式中的LazyStatistician規(guī)則)設(shè)Y是隨機(jī)變量X的函數(shù)(g是連續(xù)函數(shù)),那么(1) X是離散型隨機(jī)變量,它的分布律為,k=1,2,…。若絕對收斂,則有(2) X是連續(xù)型隨機(jī)變量,它的概率密度為,若絕對收斂,則有對應(yīng)于上述問題,Y是,X是,是,g是到的映射。這樣解釋了式子(2)中的期望,再根據(jù)凹函數(shù)時的Jensen不等式:可以得到(3)。這個過程可以看作是對求了下界。對于的選擇,有多種可能,那種更好的?假設(shè)已經(jīng)給定,那么的值就決定于和了。我們可以通過調(diào)整這兩個概率使下界不斷上升,以逼近的真實(shí)值,那么什么時候算是調(diào)整好了呢?當(dāng)不等式變成等式時,說明我們調(diào)整后的概率能夠等價于了。按照這個思路,我們要找到等式成立的條件。根據(jù)Jensen不等式,要想讓等式成立,需要讓隨機(jī)變量變成常數(shù)值,這里得到:c為常數(shù),不依賴于。對此式子做進(jìn)一步推導(dǎo),我們知道,那么也就有,(多個等式分子分母相加不變,這個認(rèn)為每個樣例的兩個概率比值都是c),那么有下式:至此,我們推出了在固定其他參數(shù)后,的計算公式就是后驗(yàn)概率,解決了如何選擇的問題這一步就是E步,建立的下界。接下來的M步,就是在給定后,調(diào)整,去極大化的下界(在固定后,下界還可以調(diào)整的更大)。那么一般的EM算法的步驟如下:循環(huán)重復(fù)直到收斂{(E步)對于每一個i,計算了,也就是說極大似然估計單調(diào)增加,那么最終我們會到達(dá)最大似然估計的最大值。下面來證明選定后,我們得到E步這一步保證了在給定時,Jensen這一步保證了在給定時,Jensen不等式中的等式成立,也就是然后進(jìn)行M步,固定,并將視作變量,對上面的求導(dǎo)后,得到,這樣經(jīng)過一些推導(dǎo)會有以下式子成立:制T)制T)>乂力矽(嗎應(yīng)■izW>刀力Qp(於)1啤i旳】=伸?貞27國聲?莎+巧QM㈣ ()(6)解釋第(4)步,得到時,只是最大化,也就是的下界,而沒有使等式成立,等式成立只有是在固定,并按E步得到時才能成立。況且根據(jù)我們前面得到的下式,對于所有的和都成立第(5)步利用了M步的定義,M步就是將調(diào)整到,使得下界最大化。因此(5)成立,(6)是之前的等式結(jié)果。這樣就證明了會單調(diào)增加。一種收斂方法是不再變化,還有一種就是變化幅度很小。再次解釋一下(4)、(5)、(6)。首先(4)對所有的參數(shù)都滿足,而其等式成立條件只是在固定,并調(diào)整好Q時成立,而第(4)步只是固定Q,調(diào)整,不能保證等式一定成立。(4)到(5)就是M步的定義,(5)到(6)是前面E步所保證等式成立條件。也就是說E步會將下界拉到與一個特定值(這里)一樣的高度,而此時發(fā)現(xiàn)下界仍然可以上升,因此經(jīng)過M步后,下界又被拉升,但達(dá)不到與另外一個特定值一樣的高度,之后E步又將下界拉到與這個特定值一樣的高度,重復(fù)下去,直到最大值。如果我們定義從前面的推導(dǎo)中我們知道,EM可以看作是J的坐標(biāo)上升法,E步固定,優(yōu)化,M步固定優(yōu)化。3.重新審視混合高斯模型我們已經(jīng)知道了EM的精髓和推導(dǎo)過程,再次審視一下混合高斯模型。之前提到的混合高斯模型的參數(shù)和計算公式都是根據(jù)很多假定得出的,有些沒有說明來由。為了簡單,這里在M步只給出和的推導(dǎo)方法。E步很簡單,按照一般EM公式得到:辭=Q腫)=j)=戸(貝)=簡單解釋就是每個樣例i的隱含類別為j的概率可以通過后驗(yàn)概率計算得到。在M步中,我們需要在固定后最大化最大似然估計,也就是這是將的k種情況展開后的樣子,未知參數(shù)和。固定和,對求導(dǎo)得

等于0時,得到這就是我們之前模型中的的更新公式然后推導(dǎo)的更新公式??粗暗玫降脑诤痛_定后,分子上面的一串都是常數(shù)了,實(shí)際上需要優(yōu)化的公式是:需要知道的是,還需要滿足一定的約束條件就是。這個優(yōu)化問題我們很熟悉了,直接構(gòu)造拉格朗日乘子。還有一點(diǎn)就是,但這一點(diǎn)會在得到的公式里自動滿足。求導(dǎo)得,等于0,得到也就是說再次使用,得到這樣就神奇地得到了。那么就順勢得到M步中的更新公式:的推導(dǎo)也類似,不過稍微復(fù)雜一些,畢竟是矩陣。結(jié)果在之前的混合高斯模型中已經(jīng)給出。4.總結(jié)如果將樣本看作觀察值,潛在類別看作是隱藏變量,那么聚類問題也就是參數(shù)估計問題,只不過聚類問題中參數(shù)分為隱含類別變量和其他參數(shù),這猶如在x-y坐標(biāo)系中找一個曲線的極值,然而曲線函數(shù)不能直接求導(dǎo),因此什么梯度下降方法就不適用了。但固定一個變量后,另外一個可以通過求導(dǎo)得到,因此可以使用坐標(biāo)上升法,一次固定一個變量,對另外的求極值,最后逐步逼近極值。對應(yīng)到EM上,E步估計隱含變量,M步估計其他參數(shù),交替將極值推向最大。EM中還有“硬”指定和“軟”指定的概念,“軟”指定看似更為合理,但計算量要大,“硬”指定在某些場合如K-means中更為實(shí)用(要是保持一個樣本點(diǎn)到其他所有中心的概率,就會很麻煩)。另外,EM的收斂性證明方法確實(shí)很牛,能夠利用log的凹函數(shù)性質(zhì),還能夠想到利用創(chuàng)造下界,拉平函數(shù)下界,優(yōu)化下界的方法來逐步逼近極大值。而且每一步迭代都能保證是單

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論