




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、統(tǒng)計(jì)信號分析與處理2010年11月侯 強(qiáng)2022/9/171第二章 統(tǒng)計(jì)推斷與貝葉斯預(yù)測2022/9/172第二章 統(tǒng)計(jì)推斷與貝葉斯預(yù)測2.1 引言與導(dǎo)學(xué)2.2 貝葉斯估計(jì)基礎(chǔ) -想法2.3 貝葉斯估計(jì)-評價2.4 期望-最大方法 -算法2.5 高斯混合模型的設(shè)計(jì)-算法 2.6 貝葉斯分類 -應(yīng)用2.7 隨機(jī)過程空間的建模-提高2022/9/173 本章首先給出一個關(guān)于參數(shù)估計(jì)理論基本概念的介紹。(想法) 然后介紹用于定量評價估計(jì)量性能的統(tǒng)計(jì)測度。我們主要研究貝葉斯估計(jì)方法,考慮在估計(jì)均值與方差中使用先驗(yàn)?zāi)P偷男Ч?。(評價) 研究從不完整數(shù)據(jù)中估計(jì)一組未知參數(shù)的期望最大(EM)方法,并將其應(yīng)用
2、于連續(xù)隨機(jī)變量的高斯混合模型空間。(算法) 本章最后以離散或有限狀態(tài)信號的貝葉斯分類結(jié)束,并介紹K-均值聚類方法。本章思路:想法-算法-評價-應(yīng)用2.1 引言與導(dǎo)學(xué)2022/9/1742022/9/1752022/9/1762022/9/177藍(lán)色為原始含噪語音黃色為譜相減處理的結(jié)果2022/9/178原始含噪語音 自適應(yīng)抗噪與譜相減相結(jié)合后的輸出結(jié)果基本自適應(yīng)抗噪輸出結(jié)果2022/9/179通過語音合成來說話2022/9/1710 男聲“深圳 廣州 珠?!钡亩虝r幅度統(tǒng)計(jì)。在采樣頻率為22050Hz的情況下,取20ms作為一幀,幀長為441點(diǎn),一共統(tǒng)計(jì)了180幀。短時平均幅度原始語音2022/
3、9/1711 音樂信號的分離 CEG基頻CE基頻C基頻和弦CEG2022/9/1712GMM的例子例 :一個班級每個學(xué)生的身高為假設(shè)男生和女生的身高分別服從高斯分布則其中 為男生的比例,問題:給定獨(dú)立同分布(independent and identically distributed-IID)的數(shù)據(jù) ,求參數(shù)混合模型的參數(shù)估計(jì)是EM(Expectation Maximization)算法最典型的應(yīng)用2022/9/17132022/9/1714估計(jì)理論主要研究從觀測信號中最優(yōu)地估計(jì)出參數(shù)矢量的問題,或者研究從被噪聲污染或退化的信號中恢復(fù)出純凈信號的方法。例如,給定一個正弦信號波形,我們可能需要
4、估計(jì)其基本參數(shù)(如幅度、頻率和相位),或者我們可能希望恢復(fù)信號本身。2.2 貝葉斯估計(jì)基礎(chǔ)2022/9/1715 估計(jì)量通常以帶噪信號或不完整觀測作為輸入,并且采用動態(tài)模型(如線性預(yù)測模型)和/或過程的概率模型(如高斯模型)來估計(jì)未知的參數(shù),即估計(jì)量是一個系統(tǒng),而被估計(jì)的參數(shù)是此次系統(tǒng)的輸出。 估計(jì)的精度取決于可以使用的信息和估計(jì)方法的有效性。 本章主要研究平穩(wěn)參數(shù)的貝葉斯估計(jì)問題。關(guān)于非平穩(wěn)有限狀態(tài)過程的建模與估計(jì)問題將在下面的章節(jié)研究。2.2 貝葉斯估計(jì)基礎(chǔ)2022/9/17162022/9/17172022/9/1718貝葉斯理論是一個基本的統(tǒng)計(jì)推斷框架。在過程狀態(tài)的估計(jì)與預(yù)測中,貝葉斯
5、方法主要利用兩種信息:其一是包含在觀測信號中的事實(shí);其二是過程分布的先驗(yàn)知識。圖2.1給出了貝葉斯方法作為主要統(tǒng)計(jì)估計(jì)方法的基本框架。2.2 貝葉斯估計(jì)基礎(chǔ)2022/9/17192.2 貝葉斯估計(jì)基礎(chǔ)圖2.1 貝葉斯推斷包含一個代價函數(shù),一個先驗(yàn)函數(shù)和一個似然函數(shù)。其他估計(jì)方法可以被認(rèn)為是貝葉斯估計(jì)的特例2022/9/17202022/9/17212.2.1 估計(jì)的動態(tài)模型和概率模型 最優(yōu)估計(jì)算法常采用觀測信號的動態(tài)模型和概率模型。動態(tài)預(yù)測模型利用信號的相關(guān)結(jié)構(gòu)信息,根據(jù)信號的過去狀態(tài)和輸入激勵對信號當(dāng)前值與將來值的依賴關(guān)系進(jìn)行建模。采用動態(tài)模型進(jìn)行估計(jì)的例子包括線性預(yù)測模型和卡爾曼濾波器。統(tǒng)
6、計(jì)概率模型依據(jù)均值和方差這樣的統(tǒng)計(jì)量來表現(xiàn)信號隨機(jī)波動空間的特性,為了描述得更完整,則需要采用概率模型。條件概率模型除了對信號的隨機(jī)波動建模以外,也用于表示信號對其過去狀態(tài)和其他過程的依賴情況。動態(tài)模型和概率模型可以進(jìn)行組合:例如,一個有限狀態(tài)模型可以通過隱馬爾可夫模型(HMM)和卡爾曼濾波器的組合來構(gòu)造。2022/9/17222.2.1 估計(jì)的動態(tài)模型和概率模型2022/9/1723隨機(jī)過程的預(yù)測模型和概率模型引導(dǎo)估計(jì)結(jié)果朝著與模型參數(shù)和觀測信號的先驗(yàn)分布相一致的方向發(fā)展。一般來說,只要所使用的模型能夠準(zhǔn)確代表觀測數(shù)據(jù)和參數(shù)過程的特征,則估計(jì)中所使用的信息量越多,估計(jì)的結(jié)果會越好。其缺點(diǎn)是,
7、如果模型是不準(zhǔn)確的,則所引起的負(fù)面效應(yīng)要超過其正面效果。2022/9/17242.2.2 參數(shù)空間與信號空間2022/9/17252.2.2 參數(shù)空間與信號空間2022/9/17262.2.2 參數(shù)空間與信號空間2022/9/17272.2.3 參數(shù)估計(jì)和信號恢復(fù)參數(shù)估計(jì)和信號恢復(fù)是密切相關(guān)的兩個問題。二者的主要區(qū)別是大多數(shù)信號往往波動較快,而大多數(shù)參數(shù)則波動較慢。例如,語音信號的波動速率大約為20kHz,而相應(yīng)的元音和諧音參數(shù)的變化速率則僅為100Hz。這個現(xiàn)象表明,在參數(shù)估計(jì)時可以比信號恢復(fù)時進(jìn)行更多的平均操作。作為一個簡單的例子,考慮零均值隨機(jī)噪聲中的一個觀測信號。假定我們希望估計(jì):(a
8、)純凈信號的平均值; (b) 純凈信號本身。隨著觀測時間的增長,信號均值的估計(jì)會逐漸逼近純凈信號的均值,而純凈信號樣本的估計(jì)則取決于信號的相關(guān)結(jié)構(gòu)和信噪比,并取決于所采用的估計(jì)方法。2022/9/17282022/9/17292.2.4 性能測度與所希望的估計(jì)性能2022/9/17302.2.4 性能測度與所希望的估計(jì)性能不同的參數(shù)估計(jì)會得到不同的結(jié)果,這主要取決于所采用的估計(jì)方法、所利用的觀測數(shù)據(jù)和所利用的先驗(yàn)信息。由于觀測所具有的隨機(jī)性,即使是相同的估計(jì)量,如果選用同一過程中不同的觀測數(shù)據(jù),也會產(chǎn)生不同的結(jié)果。因此,估計(jì)結(jié)果本身是一個隨機(jī)變量,也具有均值和方差,也可以用概率密度函數(shù)來描述。
9、然而,在大多數(shù)情況下,根據(jù)估計(jì)誤差的均值和方差來確定一個估計(jì)量的特性就足夠了。對于估計(jì)量最常用的性能測度為:2022/9/17312.2.4 性能測度與所希望的估計(jì)性能2022/9/17322.2.4 性能測度與所希望的估計(jì)性能最優(yōu)估計(jì)的目標(biāo)是使估計(jì)的偏為零,并使估計(jì)誤差的方差達(dá)到最小。對于估計(jì)量來說,所希望的性質(zhì)可以列于下面:2022/9/17332.2.4 性能測度與所希望的估計(jì)性能2022/9/17342022/9/17352022/9/17362022/9/1737今晚內(nèi)容:高斯混合模型(GMM)與期望最大算法(EM)2022/9/1738頻率學(xué)派的觀點(diǎn)到目前為止我們講述的都是頻率(經(jīng)
10、典的)統(tǒng)計(jì)學(xué)概率指的是相對頻率,是真實(shí)世界的客觀屬性。參數(shù)是固定的未知常數(shù)。由于參數(shù)不會波動,因此不能對其進(jìn)行概率描述。統(tǒng)計(jì)過程應(yīng)該具有定義良好的頻率穩(wěn)定性。如:一個95的置信區(qū)間應(yīng)覆蓋參數(shù)真實(shí)值至少95的頻率。統(tǒng)計(jì)學(xué)更多關(guān)注頻率推斷頻率學(xué)派PK貝葉斯學(xué)派2022/9/1739貝葉斯學(xué)派的觀點(diǎn)貝葉斯推斷采取了另外一個不同的立場:概率描述的是主觀信念的程度,而不是頻率。這樣除了對從隨機(jī)變化產(chǎn)生的數(shù)據(jù)進(jìn)行概率描述外,我們還可以對其他事物進(jìn)行概率描述??梢詫Ω鱾€參數(shù)進(jìn)行概率描述,即使它們是固定的常數(shù)。為參數(shù)生成一個概率分布來對它們進(jìn)行推導(dǎo),點(diǎn)估計(jì)和區(qū)間估計(jì)可以從這些分布得到機(jī)器學(xué)習(xí)和信號處理更偏愛貝
11、葉斯推斷2022/9/1740貝葉斯方法貝葉斯推斷的基本步驟如下:選擇一個概率密度函數(shù) ,用來表示在取得數(shù)據(jù)之前我們對某個參數(shù) 的信念。我們稱之為先驗(yàn)分布。選擇一個模型 (在參數(shù)推斷記為 ) 來反映在給定參數(shù) 情況下我們對x的信念。當(dāng)?shù)玫綌?shù)據(jù) X1, X2,Xn 后,我們更新我們的信念并且計(jì)算后驗(yàn)分布 。從后驗(yàn)分布中得到點(diǎn)估計(jì)和區(qū)間估計(jì)。2022/9/1741回憶貝葉斯規(guī)則亦稱貝葉斯定理?xiàng)l件概率利用貝葉斯規(guī)則將數(shù)據(jù)和參數(shù)的分布聯(lián)合起來2022/9/1742似然函數(shù)假設(shè)我們有n個IID觀測 ,記為 ,產(chǎn)生的數(shù)據(jù)為 ,記為 ,我們用如下公式替代現(xiàn)在似然函數(shù)真正解釋為給定參數(shù)下數(shù)據(jù)的概率2022/9
12、/1743后驗(yàn)概率因此后驗(yàn)概率為其中 被稱為歸一化常數(shù)(normalizing constant)。該常數(shù)經(jīng)常被忽略,因?yàn)槲覀冴P(guān)心的主要是參數(shù) 的不同值之間的比較。所以也就是說,后驗(yàn)和似然函數(shù)與先驗(yàn)的乘積成正比2022/9/1744貝葉斯點(diǎn)估計(jì)后驗(yàn)的均值是一個常用的點(diǎn)估計(jì)L2損失下的貝葉斯規(guī)則極大后驗(yàn)估計(jì)(maximum a posteriori,MAP)是使后驗(yàn) 最大的 的值:是另一個常用的點(diǎn)估計(jì)0-1損失下的貝葉斯規(guī)則2022/9/1745貝葉斯學(xué)派的觀點(diǎn)先驗(yàn)信息:可以方便的結(jié)合先驗(yàn)信息,而且人們在做推斷時也確實(shí)利用了先驗(yàn)信息,貝葉斯推斷使得這個過程顯式化提供了更多的結(jié)構(gòu):對小樣本很有效簡
13、練:允許人們對參數(shù)進(jìn)行概率描述,使得似然函數(shù)與其邏輯結(jié)論一致,減小了數(shù)據(jù)和參數(shù)之間的區(qū)別統(tǒng)一:不必對點(diǎn)估計(jì)和區(qū)間估計(jì)各個解析推導(dǎo)2022/9/1746反對貝葉斯學(xué)派的觀點(diǎn)不方便:后驗(yàn)區(qū)間不是真正的置信區(qū)間,估計(jì)通常都是有偏估計(jì)以參數(shù)為中心:在很多非參數(shù)情況下似然很脆弱計(jì)算強(qiáng)度大:積分/仿真或近似很難處理不必要的復(fù)雜:即使沒有先驗(yàn)信息也要有先驗(yàn)函數(shù)假設(shè)檢驗(yàn):貝葉斯假設(shè)檢驗(yàn)對先驗(yàn)的選取很敏感2022/9/1747綜上所述在參數(shù)模型中,當(dāng)樣本數(shù)目很多時,貝葉斯方法和頻率方法得到的近似相同的推理。但通常二者的結(jié)果不同貝葉斯方法和頻率推理是為了解決不同的問題結(jié)合先驗(yàn)知識和數(shù)據(jù):貝葉斯方法構(gòu)造長期穩(wěn)定的性
14、能(如置信區(qū)間):頻率方法2022/9/1748綜上所述當(dāng)參數(shù)空間為高維時,通常采用貝葉斯方法但當(dāng)參數(shù)比數(shù)據(jù)還多時,沒有統(tǒng)計(jì)方法能跨越自然的本質(zhì)約束即使先驗(yàn)知識選擇得當(dāng),也只能對“過去”預(yù)測很好,對將來不一定能預(yù)測很好You cannot get something for nothing. A little bit of data, will not help you to learn about a million dimensional, complex problem.2022/9/17492.3 貝葉斯估計(jì)2022/9/17502022/9/17512.3.1 最大后驗(yàn)估計(jì) 2.3.
15、2 最大似然估計(jì)2.3.3 最小均方誤差估計(jì)2.3.4 最小平均絕對誤差估計(jì)2022/9/17522022/9/17532022/9/17542022/9/17552022/9/17562022/9/17572022/9/17582022/9/17592022/9/17602.3.5 均勻分布參數(shù)高斯過程條件下MAP,ML,MMSE和MAVE的等價性2022/9/17612.4 期望-最大方法期望-最大(EM)算法是一種迭代實(shí)現(xiàn)的最大似然方法,在盲解卷積、聚類、隱馬爾可夫模型的訓(xùn)練、基于模型的內(nèi)插、帶噪信號的譜估計(jì)、信號恢復(fù)與估計(jì)等領(lǐng)域得到廣泛的應(yīng)用。 EM是解決一類問題的一個框架,在這類問題
16、中,由于數(shù)據(jù)的不完整性(圖2.15),例如,當(dāng)數(shù)據(jù)中丟失了一些樣本或標(biāo)志,或問題過于難等原因,往往難于直接得到問題的ML估計(jì)。例如,在聚類應(yīng)用中,通常原始數(shù)據(jù)是沒有聚類標(biāo)記的,因此往往采用迭代的EM方法,其中包括:(a)給數(shù)據(jù)加上標(biāo)記(期望)(b)計(jì)算聚類的均值和方差。2022/9/17622022/9/17632022/9/17642022/9/17652.5 高斯混合模型的設(shè)計(jì)對任意信號空間概率密度函數(shù)建模的一種實(shí)際的方法是用多個高斯概率密度函數(shù)來擬合信號空間。因此高斯函數(shù)被用做構(gòu)造 pdf的元素。圖2.16給出了一個二維信號空間的聚類模型,其中給出了一些圓的或橢圓形狀的高斯過程。注意到高
17、斯密度是可以重疊的,在重疊區(qū)域的一個數(shù)據(jù)點(diǎn)可以與不同的高斯混合分量有關(guān)。使用高斯混合模型的一個主要優(yōu)點(diǎn)是其可以導(dǎo)致數(shù)學(xué)上解析的信號處理方法。過程的混合高斯pdf模型定義為:2022/9/1766天空、遠(yuǎn)山、樹木、草地、公路(五類信息)2022/9/17672022/9/1768一般來說,存在無窮多個不同的混合高斯密度,可以用來“鋪滿”一個信號空間。因此,一個具有混合pdf空間的信號空間可以被認(rèn)為是一種多對一的映射,而EM算法則可以被用來估計(jì)高斯pdf模型的參數(shù)。2022/9/17692.6 貝葉斯分類 分類是用M個信號類別 對觀測序列y(m)進(jìn)行標(biāo)記的過程。在現(xiàn)代數(shù)字通信技術(shù)中,例如在接收機(jī)中
18、對離散碼進(jìn)行譯碼、語音壓縮、視頻壓縮、語音識別、圖像識別、字符識別、信號或噪聲分類與檢測中,經(jīng)常使用分類器。 舉例來說,在一個M進(jìn)制編碼的數(shù)字通信系統(tǒng)中,信道的輸出信號是M個信號編碼中的一個。在語音識別中,語音信號的分段用40個不同的音素對信號進(jìn)行標(biāo)記。在語音和視頻壓縮中,一段語音信號或一塊圖像像素被量化,并在碼書中用原型信號矢量進(jìn)行標(biāo)記。在分類器的設(shè)計(jì)中,最終目標(biāo)是在給定信噪比、可用的訓(xùn)練數(shù)據(jù)量,以及確定的信號帶寬及計(jì)算復(fù)雜等條件下,盡量使分類誤差達(dá)到最小。 2022/9/1770分類誤差主要來源于不同類型信號發(fā)布的重疊。這可以用圖2.17來表示。該圖給出了兩個高斯信號 和 的二元分類問題。
19、在有陰影的區(qū)域,信號的分布是有重疊的,信號中的一個樣本可能屬于這兩類中的任何一類。因此陰影區(qū)域的大小可以用來測量分類誤差的大小。由圖2.17可以發(fā)現(xiàn),減小分類誤差最明顯的方法是減小信號發(fā)布的重疊區(qū)域??梢圆捎脙煞N方法來減小重疊區(qū)域:(a)增加不同類別信號均值間的距離,(b)減小每一類信號的方差。在通信系統(tǒng)中,通常采用幾種方法的組合來減小不同信號類別之間的重疊,這些方法包括:增加信號的信噪比,通過加上冗余誤差控制碼來增加不同信號模式之間的距離,信號整形以及信號的后置濾波等。在模式識別中,不可能像在語音和圖像識別中那樣控制信號的產(chǎn)生過程,模式特性和模型的選擇會影響分類的誤差。 2022/9/1771 用于模式識別分類的有效方法取決于許多因素,可以簡單列出如下: (1)對來自信號的一組有意義特征的提取與變換。這些特征能夠適當(dāng)?shù)乇硎久恳活惖奶匦?,并?qiáng)調(diào)不同類別之間的差別。 (2)對每一類觀測特性的統(tǒng)計(jì)建
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)業(yè)合作社土地使用協(xié)議書
- 航空航天工程材料研究試題
- 2021年成人高等考試《民法》(專升本)試題真題及答案
- 醫(yī)學(xué)解剖學(xué)基礎(chǔ)試題及答案解析
- 餐飲外賣服務(wù)衛(wèi)生質(zhì)量免責(zé)聲明
- 人才引進(jìn)和派遣協(xié)議書條款規(guī)定事項(xiàng)
- 美食烹飪行業(yè)食品安全與衛(wèi)生承諾
- 家禽家畜購銷合同
- 合同到期續(xù)簽補(bǔ)充協(xié)議書
- 城市智慧交通系統(tǒng)建設(shè)及管理策略研究報(bào)告等
- 2025年南昌理工學(xué)院單招職業(yè)傾向性測試題庫帶答案
- 2025年度未成年人監(jiān)護(hù)權(quán)轉(zhuǎn)移協(xié)議書模板
- 2025年湖南鐵道職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案1套
- GB/T 45241-2025公務(wù)用車管理平臺數(shù)據(jù)規(guī)范
- 2025年中國文創(chuàng)產(chǎn)品行業(yè)發(fā)展策略、市場環(huán)境及前景研究分析報(bào)告
- 林木采伐安全協(xié)議書范本
- 招聘技巧話術(shù)培訓(xùn)
- 河南2025年河南職業(yè)技術(shù)學(xué)院招聘30人筆試歷年參考題庫附帶答案詳解
- 第九章 壓強(qiáng) 單元練習(xí)(含答案)-2024-2025學(xué)年人教版物理八年級下冊
- 職稱評定述職報(bào)告
- 2025-2030年中國黑豬行業(yè)市場發(fā)展?fàn)顩r及投資戰(zhàn)略研究報(bào)告
評論
0/150
提交評論