版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第8章EM算法及其應(yīng)用主要內(nèi)容EM算法的簡介EM算法的數(shù)學(xué)推導(dǎo)EM算法的流程EM算法的優(yōu)缺點(diǎn)EM算法的應(yīng)用EM算法的簡介EM算法是一種迭代優(yōu)化算法。主要用于含有隱變量的模型的參數(shù)估計。含有隱變量的模型往往用于對不完全數(shù)據(jù)進(jìn)行建模。EM算法是一種參數(shù)估計的思想,典型的EM算法有高斯混合模型、隱馬爾可夫模型和K-均值聚類等。EM算法的數(shù)學(xué)推導(dǎo)Jensen不等式設(shè)x是一個隨機(jī)變量,f
是作用于隨機(jī)變量x上的下凸函數(shù),則有Jensen不等式在為常數(shù)時取等號。設(shè)是一個二維空間中的下凸函數(shù),是和之間的任意一點(diǎn),即直觀上可以看出Jensen不等式成立。EM算法的數(shù)學(xué)推導(dǎo)Jensen不等式推導(dǎo)圖EM算法的數(shù)學(xué)推導(dǎo)在含有隱變量的模型中,給定觀測數(shù)據(jù)x
,設(shè)其對應(yīng)的隱變量為z,稱為完全數(shù)據(jù)。產(chǎn)生觀測數(shù)據(jù)的模型記為其中為參數(shù),為完全數(shù)據(jù)的聯(lián)合概率分布。EM算法的數(shù)學(xué)推導(dǎo)假設(shè)經(jīng)過t輪迭代后,模型參數(shù)的估計值為。此時,根據(jù)參數(shù)可以得到當(dāng)前時刻隱變量的分布EM算法的數(shù)學(xué)推導(dǎo)根據(jù)極大似然估計原理,模型的對數(shù)似然函數(shù)為EM算法的數(shù)學(xué)推導(dǎo)將看作隨機(jī)變量的函數(shù),則有由Jensen不等式有EM算法的數(shù)學(xué)推導(dǎo)上式中為隨機(jī)變量關(guān)于隱變量分布的期望,是隱變量分布的熵。上式給出了對數(shù)似然函數(shù)的一個下界,EM算法的思想就是通過最大化這個下界使得最大。因為與無關(guān),所以只考慮優(yōu)化即可,稱該式為Q函數(shù)EM算法的數(shù)學(xué)推導(dǎo)對于多個樣本,可以定義Q函數(shù)為每個樣本的Q函數(shù)之和,也即似然函數(shù)關(guān)于隱變量集的期望。這就是EM算法中E(Expectation)的由來。接下來,關(guān)于極大化Q函數(shù)得到,就是EM算法中M(Maximization)的過程。EM算法的流程輸入:聯(lián)合概率分布函數(shù);觀察數(shù)據(jù);隱變量;EM算法迭代次數(shù)M。輸出:模型EM算法的流程EM算法的優(yōu)點(diǎn)EM算法相比于其他算法的優(yōu)勢是其求解框架可以加入求解目標(biāo)的額外約束,例如在高斯混合模型的例子中,EM算法在求解協(xié)方差時可以確保每次迭代的結(jié)果都是正定矩陣。EM算法的缺點(diǎn)EM算法的不足在于其會陷入局部最優(yōu),在高維數(shù)據(jù)的問題中,局部最優(yōu)和全局最優(yōu)可能有很大差異。EM算法的應(yīng)用之高斯混合模型高斯混合模型(GaussianMixtureModel,GMM)是EM算法的一個典型應(yīng)用。下面以高斯混合聚類來闡述高斯混合模型。根據(jù)大數(shù)定律,人群中的身高分布應(yīng)呈高斯分布?,F(xiàn)給定一個隨機(jī)采樣而來的學(xué)生身高的樣本集合,設(shè)身高服從的高斯分布為,其中為待估計的參數(shù)。高斯分布的概率密度函數(shù)為EM算法的應(yīng)用之高斯混合模型根據(jù)極大似然估計原理,身高分布的對數(shù)似然函數(shù)為令對數(shù)似然函數(shù)對和的導(dǎo)數(shù)為0,即可求得和的估計值和EM算法的應(yīng)用之高斯混合模型現(xiàn)在,假設(shè)我們需要對全部的樣本進(jìn)行聚類,分成男人和女人兩個類別。根據(jù)大數(shù)定律,男人和女人的身高分別服從高斯分布,設(shè)其參數(shù)分別為和。估計出這兩個分布的參數(shù),即可估計出任意樣本屬于這兩個分布的概率。高斯混合模型就是基于這樣的思想完成聚類任務(wù)的。EM算法的應(yīng)用之高斯混合模型高斯混合模型是若干個高斯模型的加權(quán)求和,其形式為其中為第i個子模型的權(quán)重,為混合模型的參數(shù)。高斯混合假設(shè)數(shù)據(jù)的產(chǎn)生過程分為兩步1) 以概率采樣選取一個高斯分布2) 在中進(jìn)行m次采樣后獲得觀測數(shù)據(jù)集合EM算法的應(yīng)用之高斯混合模型然而,我們最終看到的只有數(shù)據(jù)集,實際的采樣過程是無法觀測的,也即無法觀測到每個觀測是從那個子模型采樣的。記隨機(jī)變量第i次采樣過程中選擇的高斯分布編號。由于不可觀測,所以稱為隱變量。EM算法的應(yīng)用之高斯混合模型以人群身高的聚類問題為例,可以認(rèn)為采樣獲得學(xué)生身高數(shù)據(jù)集的過程為1) 以概率隨機(jī)選擇一個性別,設(shè)這個性別的身高服從高斯分布2) 在中進(jìn)行采樣獲得一個身高數(shù)據(jù)估計兩種性別對應(yīng)的高斯分布參數(shù)的過程是:對于每個樣本,計算性別分布,并假設(shè)性別為,直到將所有樣本都?xì)w類完為止。稱為的后驗概率分布,表示來自第k個高斯分布的概率。EM算法的應(yīng)用之高斯混合模型根據(jù)貝葉斯定理有記為t次迭代后的模型參數(shù)。當(dāng)給定時,記,此時為常數(shù)。根據(jù)上式寫出Q函數(shù),即EM算法的E步EM算法的應(yīng)用之高斯混合模型極大化Q函數(shù),即EM算法的M步。令Q函數(shù)對的導(dǎo)數(shù)為0可得最后考慮參數(shù)。在滿足且的條件下極大化Q函數(shù),這是一個帶有約束條件的最優(yōu)化問題,可通過拉格朗日乘子法求解。構(gòu)造拉格朗日函數(shù)EM算法的應(yīng)用之高斯混合模型令拉格朗日函數(shù)對的導(dǎo)數(shù)為0可得于是EM算法的應(yīng)用之高斯混合模型對于前述人群分類的例子,假設(shè)以毫米(mm)為單位的男女身高對應(yīng)高斯分布分別為使用計算機(jī)模擬采樣得到10000個男性身高樣本和10000個女性身高樣本,共20000個樣本。采樣的頻數(shù)分布直方圖如圖所示EM算法的應(yīng)用之高斯混合模型現(xiàn)對其利用高斯混合模型聚類,可以估計出男女的高斯分布分布為對應(yīng)的模型權(quán)重分別為EM算法的應(yīng)用之高斯混合模型從下圖中可以看到,通過高斯混合模型得到的高斯分布與采樣用的高斯分布非常接近。高斯聚類的分類準(zhǔn)確率約為83.2%。本例中兩個高斯分布有較大面積的重疊,如果高斯混合模型的各個子模型均值之間距離更大、方差更小,則聚類準(zhǔn)確率會更高。EM算法的應(yīng)用之隱馬爾科夫模型EM算法的另一個典型應(yīng)用就是隱馬爾可夫模型。隱馬爾可夫模型是經(jīng)典的序列建模算法,在語音識別、詞性標(biāo)注、機(jī)器翻譯等領(lǐng)域有著廣泛的應(yīng)用。估計隱馬爾可夫模型的參數(shù)就是帶有隱變量的極大似然估計問題,所以可以用EM算法進(jìn)行參數(shù)估計。EM算法的應(yīng)用之隱馬爾科夫模型假設(shè)觀測序列的樣本集合為。假設(shè)經(jīng)過l輪迭代得到的參數(shù)為,令隨機(jī)變量表示可能的狀態(tài)序列,則Q函數(shù)為因為參數(shù)已知,所以為常數(shù)。于是有隱變量的概率分布EM算法的應(yīng)用之隱馬爾科夫模型因此Q函數(shù)可以寫作首先通過拉格朗日乘子法求。由于,所以拉格朗日函數(shù)為令拉格朗日函數(shù)對的導(dǎo)數(shù)為0EM算法的應(yīng)用之隱馬爾科夫模型可得于是EM算法的應(yīng)用之隱馬爾科夫模型下面通過拉格朗日乘子法求。由于,所以拉格朗日函數(shù)為令拉格朗日函數(shù)對的導(dǎo)數(shù)為0
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 河南省周口市淮陽區(qū)馮塘鄉(xiāng)馮塘學(xué)校2024-2025學(xué)年八年級上學(xué)期期末測試英語試卷(含答案)
- 2021高三生物二輪限時訓(xùn)練-光合作用與細(xì)胞呼吸2
- 蘭州市2022高考英語閱讀理解和短文改錯自練(9)及答案
- 【KS5U名?!堪不帐』幢笔?021屆高三第二次模擬考試文科綜合試卷(掃描版-含答案)
- 【備戰(zhàn)2021高考】全國2021屆高中政治試題匯編(11月第一期):K單元中華文化與民族精神
- 【全程復(fù)習(xí)方略】2020年人教A版數(shù)學(xué)文(廣東用)課時作業(yè):2.5對-數(shù)-函-數(shù)
- 內(nèi)心掏空的那一刻-保育員工作總結(jié)
- 四年級數(shù)學(xué)(小數(shù)加減運(yùn)算)計算題專項練習(xí)與答案匯編
- 五年級數(shù)學(xué)(小數(shù)四則混合運(yùn)算)計算題專項練習(xí)及答案匯編
- 【狀元之路】2021高考物理一輪復(fù)習(xí)課時作業(yè):7-3-實驗(一)
- 醫(yī)院職能科室綜合質(zhì)量考核表
- 《工程圖學(xué)基礎(chǔ)教程(第4版)》 課件 第7章 零件圖
- 電信業(yè)務(wù)申請表
- 舊電梯拆除施工方案
- 《米奇妙妙屋》課件
- 王二小的故事【拼音版】
- 路燈更換施工方案
- 大力弘揚(yáng)教育家精神爭做新時代大先生PPT以文化人的弘道追求展現(xiàn)了中國特有的教育家精神PPT課件(帶內(nèi)容)
- 生產(chǎn)工藝過程說明書
- 遼寧省營口市鲅魚圈區(qū)2023-2024學(xué)年數(shù)學(xué)四年級第一學(xué)期期末復(fù)習(xí)檢測試題含答案
- 中小學(xué)鐵路安全知識主題教育課件
評論
0/150
提交評論