模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第3、4章 概率密度函數(shù)的估計(jì)、線性分類與回歸模型_第1頁
模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第3、4章 概率密度函數(shù)的估計(jì)、線性分類與回歸模型_第2頁
模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第3、4章 概率密度函數(shù)的估計(jì)、線性分類與回歸模型_第3頁
模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第3、4章 概率密度函數(shù)的估計(jì)、線性分類與回歸模型_第4頁
模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第3、4章 概率密度函數(shù)的估計(jì)、線性分類與回歸模型_第5頁
已閱讀5頁,還剩78頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

概率密度函數(shù)的估計(jì)第三章模式識(shí)別與機(jī)器學(xué)習(xí)新工科建設(shè)·人工智能與智能科學(xué)系列教材01引言第2章介紹了基于貝葉斯決策理論的貝葉斯分類方法,而貝葉斯決策理論的基礎(chǔ)是概率密度函數(shù)的估計(jì),即根據(jù)一定的訓(xùn)練樣本來估計(jì)統(tǒng)計(jì)決策中用到的先驗(yàn)概率P(ωi)和類條件概率密度p(x|ωi)。其中,先驗(yàn)概率的估計(jì)比較簡單,通常只需根據(jù)大量樣本計(jì)算出各類樣本在其中所占的比例,或者根據(jù)對(duì)所研究問題的領(lǐng)域知識(shí)事先確定。引言因此,本章重點(diǎn)介紹類條件概率密度的估計(jì)問題。這種先通過訓(xùn)練樣本估計(jì)概率密度函數(shù)、后用統(tǒng)計(jì)決策進(jìn)行類判定的方法,稱為基于樣本的兩步貝葉斯決策。引言這樣得到的分類器性能與第2章中的理論貝葉斯分類器有所不同。我們希望當(dāng)樣本數(shù)N→∞時(shí),基于樣本的分類器能收斂到理論結(jié)果。引言02最大似然估計(jì)最大似然估計(jì)基礎(chǔ)最大似然估計(jì)(MaximumLikelihoodEstimation)的思想是,隨機(jī)試驗(yàn)有若干可能的結(jié)果。如果在一次試驗(yàn)中出現(xiàn)了某一結(jié)果,就認(rèn)為這一結(jié)果出現(xiàn)的概率較大,進(jìn)而假設(shè)該結(jié)果是所有可能出現(xiàn)的結(jié)果中最大的一個(gè)。最大似然估計(jì)我們將待估計(jì)的參數(shù)記為θ,它是確定但未知的量(有多個(gè)參數(shù)時(shí),其為向量)。共有c個(gè)類,每個(gè)類的樣本集記為xi,i=1,2…,c,樣本都是從密度為p(x|ωi)的總體中獨(dú)立抽取出來的,即滿足獨(dú)立同分布條件。最大似然估計(jì)類條件概率密度p(x|ωi)具有某種確定的函數(shù)表達(dá)式,只是其中的參數(shù)θ未知。為了強(qiáng)調(diào)概率密度中待估計(jì)的參數(shù),也可將p(x|ωi)寫為p(x|ωi,θi)或p(x|θi)。各個(gè)類的樣本只包括本類的部分信息,即不同類的參數(shù)是獨(dú)立的,這樣就可單獨(dú)處理每個(gè)類。最大似然估計(jì)正態(tài)分布下的最大似然估計(jì)首先考慮正態(tài)分布下僅有一個(gè)參數(shù)未知的情況。假設(shè)參數(shù)μ未知,對(duì)于單變量(樣本特征只有一個(gè)維度)的正態(tài)分布來說,其分布密度函數(shù)為最大似然估計(jì)在這樣的條件下,我們假設(shè)一個(gè)樣本點(diǎn)xk,則有對(duì)上述對(duì)數(shù)似然函數(shù)求導(dǎo)得最大似然估計(jì)對(duì)于有N個(gè)樣本點(diǎn)的樣本集來說,對(duì)μ的似然估計(jì)值^μ的最大似然估計(jì)必須滿足整理得最大似然估計(jì)03貝葉斯估計(jì)與貝葉斯學(xué)習(xí)貝葉斯估計(jì)貝葉斯估計(jì)(BayesianEstimation)是概率密度估計(jì)的另一種主要參數(shù)估計(jì)方法。其結(jié)果在很多情況下與最大似然法的相同或者幾乎相同,但是兩種方法對(duì)問題的處理角度是不同的,在應(yīng)用上也各有特點(diǎn)。貝葉斯估計(jì)與貝葉斯學(xué)習(xí)似然估計(jì)將參數(shù)當(dāng)作未知但固定的量,并且根據(jù)觀測數(shù)據(jù)估計(jì)該量的取值。而貝葉斯估計(jì)將未知參數(shù)視為隨機(jī)變量,并且根據(jù)觀測數(shù)據(jù)和參數(shù)的先驗(yàn)分布來估計(jì)參數(shù)的分布。貝葉斯估計(jì)與貝葉斯學(xué)習(xí)在用于分類的貝葉斯決策中,最優(yōu)條件是最小錯(cuò)誤率或最小風(fēng)險(xiǎn)。在貝葉斯估計(jì)中,我們假設(shè)將連續(xù)變量θ估計(jì)成^θ的損失為λ(^θ,θ),也稱損失函數(shù)。貝葉斯估計(jì)與貝葉斯學(xué)習(xí)正態(tài)分布下的貝葉斯估計(jì)下面以一維正態(tài)分布模型為例來說明貝葉斯估計(jì)的應(yīng)用。假設(shè)σ2已知且均值μ的先驗(yàn)分布為正態(tài)分布N(u0,σ20)。x的分布密度可以寫為貝葉斯估計(jì)與貝葉斯學(xué)習(xí)μ的分布密度為求得μ的后驗(yàn)概率分布為上式的分母部分是歸一化的常數(shù)項(xiàng),記為a。貝葉斯估計(jì)與貝葉斯學(xué)習(xí)貝葉斯學(xué)習(xí)已知各個(gè)類的訓(xùn)練樣本子集X={x1,x2,…,xN},每次訓(xùn)練試驗(yàn)都是獨(dú)立進(jìn)行的,類ωi的參數(shù)與類ωj的樣本無關(guān)。已知類概率分布密度函數(shù)p(x|θ),但是參數(shù)向量θ未知(θ屬于某個(gè)類)。貝葉斯估計(jì)與貝葉斯學(xué)習(xí)關(guān)于未知參數(shù)θ的一般性信息包含在其先驗(yàn)分布密度p(θ)中。關(guān)于未知參數(shù)θ的其余信息要從訓(xùn)練樣本集X中提取。貝葉斯估計(jì)與貝葉斯學(xué)習(xí)貝葉斯學(xué)習(xí)和貝葉斯估計(jì)聯(lián)系密切,但貝葉斯學(xué)習(xí)最關(guān)心的不是某個(gè)具體參數(shù)的估計(jì),而是獲得后驗(yàn)分布密度p(x|X)。具體地說,在貝葉斯估計(jì)的4個(gè)步驟中,貝葉斯學(xué)習(xí)要執(zhí)行前三個(gè)步驟,得到未知參數(shù)的后驗(yàn)分布p(θ|x)后,不必真正求出^θ,而直接求后驗(yàn)分布密度p(x|X)。貝葉斯估計(jì)與貝葉斯學(xué)習(xí)04EM估計(jì)方法EM算法期望最大化(ExpectationMaximization,EM)算法是當(dāng)數(shù)據(jù)存在缺失時(shí),極大似然估計(jì)的一種常用迭代算法,因?yàn)樗僮骱啽恪⑹諗糠€(wěn)定,并且適用性很強(qiáng)。EM算法主要在如下兩種情況下估計(jì)參數(shù):①由于數(shù)據(jù)丟失或觀測條件受限,觀測數(shù)據(jù)不完整;②似然函數(shù)不是顯然的,或者函數(shù)的形式非常復(fù)雜,導(dǎo)致難以用極大似然法進(jìn)行估計(jì)。EM估計(jì)方法EM算法采用啟發(fā)式的迭代方法。既然無法直接求出模型分布參數(shù),那么可以首先猜想隱含數(shù)據(jù)(EM算法的E步),接著基于觀測數(shù)據(jù)和猜測的隱含數(shù)據(jù)來極大化對(duì)數(shù)似然,求解模型參數(shù)(EM算法的M步)。EM估計(jì)方法因?yàn)橹暗碾[藏?cái)?shù)據(jù)是猜測的,所以此時(shí)得到的模型參數(shù)一般還不是可行的結(jié)果?;诋?dāng)前得到的模型參數(shù),繼續(xù)猜測隱含數(shù)據(jù)(EM算法的E步),接著繼續(xù)極大化對(duì)數(shù)似然,求解模型參數(shù)(EM算法的M步)。EM估計(jì)方法混合正態(tài)分布的EM估計(jì)混合正態(tài)分布或混合高斯分布(GaussianMixtureDistribution)是指EM估計(jì)方法式中,K可視為混合正態(tài)分布中的正態(tài)分布的個(gè)數(shù)。直接對(duì)其對(duì)數(shù)似然函數(shù)求導(dǎo)來求極值是不可行的。然而,如果知道每個(gè)觀測值具體來自哪個(gè)正態(tài)分布,問題的難度就會(huì)下降很多。EM估計(jì)方法05非參數(shù)估計(jì)方法前面介紹了三種參數(shù)估計(jì)方法,這些方法的前提都是類概率密度函數(shù)形式是已知的。然而,在大多數(shù)模式分類問題中,往往不知道類概率密度函數(shù)的形式,而常見的函數(shù)形式并不適合實(shí)際的密度分布。非參數(shù)估計(jì)方法非參數(shù)估計(jì)的基本方法與限制條件非參數(shù)估計(jì)不需要假設(shè)類概率密度函數(shù)的形式是已知的,而由訓(xùn)練樣本集直接估計(jì)總體密度分布,不但適用于單峰的密度估計(jì),而且可以估計(jì)多峰的概率分布。估計(jì)未知概率密度函數(shù)的方法很多,它們的基本思想都很簡單,但要嚴(yán)格證明它們的收斂性卻要十分小心。非參數(shù)估計(jì)方法最根本的技術(shù)依賴于樣本x落在區(qū)域R中的概率p,即非參數(shù)估計(jì)方法Parzen窗法估計(jì)x點(diǎn)的概率密度時(shí),可以假設(shè)x是一個(gè)d維向量。且圍繞x點(diǎn)的區(qū)域R是一個(gè)超立方體,它的每個(gè)維度的棱長都為h,于是超立方體的體積V為V=hd。非參數(shù)估計(jì)方法為了考察訓(xùn)練樣本xi是否落在這個(gè)超立方體內(nèi),需要檢查向量x-xi的每個(gè)分量值,若所有分量值均小于h/2,則該樣本在R內(nèi),否則在R外。為了計(jì)算n個(gè)樣本訓(xùn)練落入R內(nèi)的數(shù)量K,我們定義窗函數(shù)非參數(shù)估計(jì)方法圖3.3顯示了一個(gè)二維Parzen窗法的兩類分類器的判別邊界,其中窗寬h不同。非參數(shù)估計(jì)方法kN近鄰估計(jì)方法在Parzen窗法中,我們固定了窗口的大小,即把體積呸作為VN的函數(shù)。如VN=V1|√N(yùn),導(dǎo)致V1的選擇對(duì)估計(jì)結(jié)果的影響很大。非參數(shù)估計(jì)方法在kN近鄰估計(jì)方法中,我們采用可變大小的區(qū)域的密度估計(jì)方法,即選擇kN是N的函數(shù),如kN=k1√N(yùn)。我們集中關(guān)注圍繞x點(diǎn)的小區(qū)域,并且逐漸擴(kuò)大這個(gè)區(qū)域,使之包含x的kN個(gè)近鄰樣本。非參數(shù)估計(jì)方法圖3.4給出了不同樣本數(shù)和不同參數(shù)下kN近鄰估計(jì)的效果。非參數(shù)估計(jì)方法06小結(jié)本章首先介紹了概率密度函數(shù)的估計(jì)方法,包括參數(shù)估計(jì)法和非參數(shù)估計(jì)法,然后著重指出了無論使用哪種估計(jì)方法,最終都要得到總體類概率密度函數(shù)的估計(jì)p(x|ωj,Xj),j=1,2,…,c。小結(jié)線性分類與回歸模型第四章模式識(shí)別與機(jī)器學(xué)習(xí)新工科建設(shè)·人工智能與智能科學(xué)系列教材01引言模式是取自客觀世界中的一次抽樣試驗(yàn)樣本的被測量值的綜合。如果試驗(yàn)對(duì)象和測量條件相同,那么所有測量值就都具有重復(fù)性,即在多次測量中它們的結(jié)果不變,這樣的模式稱為確定性模式。引言否則,測量值是隨機(jī)的,這樣的模式稱為隨機(jī)性模式,簡稱隨機(jī)模式。下面介紹確定性模式的分類方法。前幾章中討論的分類器設(shè)計(jì)方法在已知類條件概率密度P(x|ωi)和先驗(yàn)概率P(ωi)的條件下,使用貝葉斯定理求出后驗(yàn)概率P(ωi|x),并根據(jù)后驗(yàn)概率的大小進(jìn)行分類決策。引言在解決實(shí)際問題時(shí),類條件概率密度P(x|ωi)很難求出,用非參數(shù)估計(jì)方法又需要大量的樣本。實(shí)際上,我們可以不求P(x|ωi),而用樣本集直接設(shè)計(jì)分類器,即首先給定某個(gè)判別函數(shù)類,然后利用樣本集確定判別函數(shù)中的未知參數(shù)。引言針對(duì)不同的要求,由這種方法設(shè)計(jì)的分類器應(yīng)該盡可能地滿足這些要求,“盡可能好”的結(jié)果則對(duì)應(yīng)于判別規(guī)則函數(shù)取最優(yōu)值。前面介紹的貝葉斯分類器是使錯(cuò)誤率或風(fēng)險(xiǎn)達(dá)到最小的分類器,常稱這種分類器為最優(yōu)分類器。引言相對(duì)而言,在其他規(guī)則函數(shù)下得到的分類器就是“次優(yōu)”的。采用線性判別函數(shù)產(chǎn)生的錯(cuò)誤率或風(fēng)險(xiǎn)雖然要比貝葉斯分類器的大,但是線性判別簡單、易實(shí)現(xiàn),且需要的計(jì)算量和存儲(chǔ)量小,所以線性判別函數(shù)是統(tǒng)計(jì)模式識(shí)別的基本方法之一,也是實(shí)際中最常用的方法之一。引言02線性判別函數(shù)和決策面兩類情況在兩類情況下,只使用一個(gè)判別函數(shù):g(x)=g1(x)-g2(x)判別規(guī)則如下:線性判別函數(shù)和決策面二維樣本的兩類分布如圖4.1所示。線性判別函數(shù)和決策面一般來說,g(x)=0稱為決策面方程。在三維空間中,它是區(qū)分界面;在二維空間中,它退化成區(qū)分界線;在一維空間中,它退化成區(qū)分點(diǎn)。由判別函數(shù)g(x)的數(shù)學(xué)表達(dá)式可以看出,既有線性判別函數(shù),又有非線性判別函數(shù)。然而,非線性判別函數(shù)一般都可變換為線性判別函數(shù)(又稱廣義線性判別函數(shù))。線性判別函數(shù)和決策面多類問題中的線性判別函數(shù)假設(shè)有c個(gè)類ω1,ω2,…,ωc,其中c≥3。將所有類分開的技術(shù)有三種,分別適用于三種不同的情況。線性判別函數(shù)和決策面第一種情況第二種情況通過唯一一個(gè)線性判別函數(shù),將屬于i類的模式與其余不屬于i類的模式分開。對(duì)c個(gè)類中的任意兩個(gè)類ωi和ωj建立一個(gè)判別函數(shù)gij(x),決策面方程gij(x)=0可將這兩個(gè)類分開,但對(duì)其他類則不提供任何信息。線性判別函數(shù)和決策面第三種情況觀察圖4.4所示的五類問題。線性判別函數(shù)和決策面設(shè)計(jì)線性分類器的主要步驟前面討論了線性判別函數(shù),并且假設(shè)樣本是線性可分的。一般來說,當(dāng)屬于兩個(gè)類的抽樣試驗(yàn)樣本在特征空間中可被一個(gè)超平面區(qū)分時(shí),這兩個(gè)類就是線性可分的。線性判別函數(shù)和決策面進(jìn)一步推論,對(duì)于一個(gè)已知容量為N的樣本集,若有一個(gè)線性分類器可將每個(gè)樣本正確地分類,則稱這組樣本集是線性可分的。在實(shí)際問題中,怎樣判別樣本集的線性可分性呢?線性判別函數(shù)和決策面如果容量為N的樣本集中的每個(gè)模式是d維向量,那么首先將N個(gè)樣本畫到d維空間中,然后向低維空間投影就可觀察其線性可分性。事后,可以根據(jù)分類情況評(píng)價(jià)樣本的線性可分性。線性判別函數(shù)和決策面03廣義線性判別函數(shù)前面介紹了線性判別函數(shù)的理論和分類方法,它們的優(yōu)點(diǎn)是簡單且可行。然而,實(shí)際應(yīng)用中卻常常遇到非線性判別函數(shù),如果可將非線性函數(shù)變換為線性判別函數(shù),那么線性判別函數(shù)的理論和分類方法的應(yīng)用會(huì)更加廣泛。廣義線性判別函數(shù)例如,有一個(gè)非線性判別函數(shù)g(x),如圖4.7所示。廣義線性判別函數(shù)在y的特征空間中,區(qū)分直線為y1(a+b)y2+ab=0,如圖4.8所示。廣義線性判別函數(shù)04最小均方誤差判別最小均方和準(zhǔn)則假設(shè)有n個(gè)訓(xùn)練樣本,則wTx=b可以寫成n個(gè)聯(lián)立方程組的形式:式中,bi>0,i=1,2,…,n。上述方程組可以簡寫為xw=b最小均方誤差判別式中,x為訓(xùn)練樣本的增廣矩陣:最小均方誤差判別至此,我們就建立了最小均方誤差(LeastMeanSquareError,LMSE)算法,該算法也稱H-K算法,主要內(nèi)容為最小均方誤差判別H-K算法①由訓(xùn)練樣本集構(gòu)成增廣矩陣x,求偽逆x#=(xTx)-1xT。②賦初值b(1),使其各分量為正值。選擇常數(shù)c,置k=1。最小均方誤差判別③計(jì)算w(k)=x#b(k),ek=xw(k)-b(k)。④判斷:若ek的各分量停止變?yōu)檎祷蛘卟蝗繛?,則線性不可分,終止迭代。否則,若ek的各分量均接近0,即ek→0,則迭代過程完成,結(jié)束。否則,算法繼續(xù)。最小均方誤差判別⑤計(jì)算w(k+1)=w(k)+cx#(ek+|ek|)=w(k)+cx#|ek|,b(k+1)=b(k)+c(ek+|ek|)。令k=k+1,返回步驟③。最小均方誤差判別H-K算法的多類推廣前面講過,多類問題可分為多個(gè)兩類問題來解決。4.1節(jié)將多類問題分為三種情況進(jìn)行了討論。最小均方誤差判別這里利用第一種情況,將c類問題分為c個(gè)ωi/ωi兩類問題。分別對(duì)c個(gè)ωi/ωi兩類問題進(jìn)行訓(xùn)練,得到c個(gè)解向量,進(jìn)而建立c個(gè)判別函數(shù)。對(duì)ωi/ωi兩類問題進(jìn)行訓(xùn)練時(shí),要在除ωi類外的訓(xùn)練樣本中抽取足夠的樣本,與ωi類的訓(xùn)練樣本共同構(gòu)成訓(xùn)練樣本集Xi。最小均方誤差判別05線性回歸模型多元線性回歸模型的一般形式是假設(shè)多元樣本回歸函數(shù)為線性回歸模型因?yàn)橛衝個(gè)訓(xùn)練樣本,該模型實(shí)際上包含n個(gè)方程:線性回歸模型寫成矩陣形式為這樣,回歸殘差向量就為線性回歸模型06正則化線性回歸最小二乘法的基本要求是各個(gè)特征之間相互獨(dú)立,保證xxT可逆。然而,即使xxT可逆,如果特征之間有較大的多重共線性(Multicollinearity),也會(huì)使得xxT的逆在數(shù)值上無法準(zhǔn)確計(jì)算。正則化線性回歸數(shù)據(jù)集X上的一些較小擾動(dòng)就會(huì)導(dǎo)致(xxT)-1發(fā)生較大的變化,進(jìn)而使得最小二乘法的計(jì)算變得很不穩(wěn)定。為了解決這個(gè)問題,引入了正則化方法——嶺回歸(Ridge

Regression)與拉索回歸(LassoRegression)。正則化線性回歸這兩種正則化方法專用于共線性數(shù)據(jù)分析的,有偏估計(jì)回歸方法,實(shí)質(zhì)上是一種改良的最小二乘估計(jì)法,通過放棄最小二乘法的無偏性。以損失部分信息、降低精度為代價(jià)獲得回歸系數(shù)更符合實(shí)際、更可靠的回歸方法,對(duì)病態(tài)數(shù)據(jù)的擬合要強(qiáng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論