第8講最大似然估計(jì)和主成分_第1頁
第8講最大似然估計(jì)和主成分_第2頁
第8講最大似然估計(jì)和主成分_第3頁
第8講最大似然估計(jì)和主成分_第4頁
第8講最大似然估計(jì)和主成分_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第8講最大似然估計(jì)和主成分分析文志強(qiáng)文志強(qiáng)計(jì)算機(jī)與通信學(xué)院1主要內(nèi)容最大似然估計(jì)維數(shù)問題主成分分析2貝葉斯方法的困難:先驗(yàn)概率P(wi)和類條件概率密度p(x|wi)難以獲取。解決辦法:利用訓(xùn)練樣本來估計(jì)問題中所涉及的先驗(yàn)概率和類條件密度函數(shù)。類條件密度函數(shù)估計(jì)的難點(diǎn):1)很多情況下,已有的訓(xùn)練樣本數(shù)總是顯得太少;2)當(dāng)用于表示特征的向量維數(shù)較大時(shí),就會(huì)產(chǎn)生嚴(yán)重的計(jì)算復(fù)雜度問題。解決辦法:如果事先知道參數(shù)個(gè)數(shù),并且先驗(yàn)知識(shí)允許能夠把條件概率密度進(jìn)行參數(shù)化,問題的難度就可以顯著地降低。兩個(gè)概念:有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)38.1最大似然估計(jì)8.1.1基本原理已知樣本集D,其中每一個(gè)樣本都是獨(dú)立的根據(jù)已知形式的概率密度函數(shù)p(x|θ)抽取得到的,要求使用這些樣本,估計(jì)概率密度函數(shù)中的參數(shù)向量θ的值。假設(shè)樣本集D中有n個(gè)樣本:x1,x2,…,xn。由于這些樣本獨(dú)立抽取,則下式成立:p(D|θ)稱為樣本集D下的似然函數(shù)4圖8-1中上圖顯示了一維情況下的一些訓(xùn)練樣本,這些樣本都服從一個(gè)方差已知,而均值未知的一維高斯分布。中間圖顯示了似然函數(shù)p(D|θ)關(guān)于均值的函數(shù)圖像。如果我們有非常多的訓(xùn)練樣本,那么函數(shù)的波形將是非常窄的。使得似然函數(shù)取得最大值的點(diǎn)標(biāo)記為。下圖中所示對數(shù)似然函數(shù)l(θ)取最大值的那個(gè)點(diǎn)。5定義對數(shù)似然函數(shù)l(θ)最大似然估計(jì):即有:求解最大似然估計(jì)值θ的必要條件求出來的θ值是估計(jì)值,其真實(shí)程度受訓(xùn)練樣本個(gè)數(shù)的制約。最大后驗(yàn)概率(maximumaposteriori,簡記MAP)方法:maxθ

l(θ)p(θ)68.1.2高斯情況:μ未知考慮一個(gè)訓(xùn)練樣本點(diǎn)xk,有下面的式子成立:可得:78.1.2高斯情況:μ和Σ均未知考慮單變量的情況,對于單個(gè)訓(xùn)練樣本的對數(shù)似然函數(shù)為:求導(dǎo)得:8可得極值條件:可得:當(dāng)為多元高斯分布時(shí)98.1.3估計(jì)的偏差1)方差是有偏估計(jì)2)協(xié)方差矩陣也是有偏估計(jì)3)協(xié)方差矩陣的無偏估計(jì)如下式10

8.2維數(shù)問題問題包括50或100個(gè)特征

(二進(jìn)制)分類精度取決于維數(shù)和訓(xùn)練樣本的數(shù)量具有相同分布函數(shù)的兩組多維向量情況7兩類問題:假設(shè)先驗(yàn)概率相同,貝葉斯誤差概率為:11如果特征是獨(dú)立的,則有:

最有用的特征:均值之間的距離大于標(biāo)準(zhǔn)差的特征。降低誤差概率的方法:引進(jìn)新的,獨(dú)立的特征。在實(shí)際中,考慮較多的特征會(huì)導(dǎo)致更糟糕的結(jié)果而不是好的結(jié)果:模型有誤

712777圖8-3中顯示了兩個(gè)三維分布,具有互不重疊的概率密度函數(shù)。在三維空間中,貝葉斯誤差概率為0,但把它投影到一個(gè)子空間中時(shí),導(dǎo)致了較大的貝葉斯誤差率。138.3主成分分析將高維數(shù)據(jù)投影到一個(gè)低維空間里去使用兩種分類方法尋找理想一點(diǎn)的線性傳遞PCA(主成份分析)“在最小均方誤差意義下的數(shù)據(jù)的最優(yōu)表示的映射”MDA(多類判別分析)“在最小均方誤差意義下的數(shù)據(jù)的最優(yōu)分類的映射”8148.3.1概念一個(gè)例子:小學(xué)各科成績的評估可以用下面的綜合成績來體現(xiàn):a1×語文+a2×數(shù)學(xué)+a3×自然+a4×社會(huì)科學(xué)

確定權(quán)重系數(shù)的過程就可以看作是主成分分析的過程,得到的加權(quán)成績總和就相對于新的綜合變量——主成分158.3.1概念推而廣之,當(dāng)某一問題需要同時(shí)考慮好幾個(gè)因素時(shí),我們并不對這些因素個(gè)別處理而是將它們綜合起來處理,這就是PCA。

這樣綜合處理的原則是使新的綜合變量能夠解釋大部分原始數(shù)據(jù)方差。主成分分析(PrincipalComponentAnalysis,簡稱PCA)是一種常用的基于變量協(xié)方差矩陣對信息進(jìn)行處理、壓縮和抽提的有效方法。16為什么要根據(jù)方差確定主成分?情形II下總分的方差為0,顯然不能反映三個(gè)學(xué)生各科成績各有所長的實(shí)際情形,而紅色標(biāo)記的變量對應(yīng)的方差最大,可反映原始數(shù)據(jù)的大部分信息178.3.2主成分分析的目的壓縮變量個(gè)數(shù),用較少的變量去解釋原始數(shù)據(jù)中的大部分變量,剔除冗余信息。即將許多相關(guān)性很高的變量轉(zhuǎn)化成個(gè)數(shù)較少、能解釋大部分原始數(shù)據(jù)方差且彼此互相獨(dú)立的幾個(gè)新變量,也就是所謂的主成分。消除原始變量間存在的共線性,克服由此造成的運(yùn)算不穩(wěn)定、矩陣病態(tài)等問題。188.3.3主成分得分

(潛變量-latentvariable)PC(1)=a11X1+a12X2+…+a1pXpPC(2)=a21X1+a22X2+…+a2pXp...PC(m)=am1X1+am2X2+…+ampXp選擇加權(quán)系數(shù)a11…,a1p時(shí)要能使PC(1)得到最大解釋方差的能力,而PC(2)則是能對原始數(shù)據(jù)中尚未被PC(1)解釋的差異部分擁有有最大解釋能力,若以此類推,我們可以找出m個(gè)PC出來(m≦p)

198.3.4主成分軸、載荷向量原始數(shù)據(jù)前的加權(quán)系數(shù)決定了新的綜合變量主成分(得分)的大小和性質(zhì),通常稱為主成分軸或者載荷向量(載荷軸、載荷系數(shù))。主成分分析的關(guān)鍵就是確定這些系數(shù),這些系數(shù)構(gòu)成了新的坐標(biāo)系,將原始變量在新的坐標(biāo)系下投影就可求得新坐標(biāo)系下的變量值(主成分得分)。20三變量主成分分析示意圖PC1=a1xi1+a2xi2+a3xi3PC2=b1xi1+b2xi2+b3xi321

主成分變換將三維空間的樣本顯示在二維空間,其中v1,v2稱為第一、第二載荷軸。對于m維空間,載荷軸的個(gè)數(shù)最多為m。在對原始坐標(biāo)系經(jīng)過坐標(biāo)平移、尺度伸縮、旋轉(zhuǎn)等變換后,得到一組新的、相互正交的坐標(biāo)軸v1,v2,可使原始變量在新坐標(biāo)系上的投影值(分別稱為第一、第二主成分)的方差達(dá)到最大。228.3.5基本概念協(xié)方差(covariance)

方差標(biāo)準(zhǔn)差238.3.5基本概念相關(guān)系數(shù)(correlationcoefficient)協(xié)方差數(shù)據(jù)矩陣的每一列對應(yīng)一個(gè)變量的n個(gè)量測值,任意兩列之間可以計(jì)算兩變量間的協(xié)方差cov(i,j),i=j時(shí),24協(xié)方差矩陣258.3.6主成分的求解步驟

i)對原始數(shù)據(jù)矩陣進(jìn)行標(biāo)準(zhǔn)化處理

相當(dāng)于對原始變量進(jìn)行坐標(biāo)平移與尺度伸縮:

26

ii)求協(xié)方差矩陣Ziii)特征分解

相當(dāng)于將原來的坐標(biāo)軸進(jìn)行旋轉(zhuǎn)得到新的坐標(biāo)軸U:

—Z的特征值組成的對角陣

U—Z的特征向量按列組成的正交陣,它構(gòu)成了新的矢量空間,作為新變量(主成分)的坐標(biāo)軸,又稱為載荷軸。得到的特征矢量的方差比前一個(gè)特征矢量更小,也就是依次遞減。27

iv)確定主成分個(gè)數(shù)

(1)根據(jù)累積貢獻(xiàn)率當(dāng)大于某個(gè)閾值時(shí),可認(rèn)為主成分?jǐn)?shù)目為m。

(2)根據(jù)其它準(zhǔn)則*特征值大于1.0的因子數(shù)定為主成分?jǐn)?shù)。*利用特征值與因子數(shù)目的曲線,到某一因子數(shù)后,特征值減小幅度變化不大,此轉(zhuǎn)折點(diǎn)的因子數(shù)即為主成分?jǐn)?shù)m。*保留那些與一個(gè)以上變量有重大關(guān)系的因子。28

v)求主成分得分-新的變量值

F陣的每一行相當(dāng)于原數(shù)據(jù)矩陣的所有行(即原始變量構(gòu)成的向量)在主成分坐標(biāo)軸(載荷軸)上的投影,這些新的投影構(gòu)成的向量就是主成分得分向量。298.3.7主成分分析原理根據(jù)方差最大化原理,用一組新的、線性無關(guān)且相互正交的向量來表征原來數(shù)據(jù)矩陣的行(或列)。這組新向量(主成分)是原始數(shù)據(jù)向量的線性組合。通過對原始數(shù)據(jù)的平移、尺度伸縮(減均值除方差)和坐標(biāo)旋轉(zhuǎn)(特征分解),得到新的坐標(biāo)系(特征向量)后,用原始數(shù)據(jù)在新坐標(biāo)系下的投影(點(diǎn)積)來替代原始變量。308.3.8主成分的特點(diǎn)

☆主成分是原變量的線性組合;

☆各個(gè)主成分之間互不相關(guān);

☆主成分按照方差從大到小依次排列,第一主成分對應(yīng)最大的方差(特征值);

☆每個(gè)主成分的均值為0、其方差為協(xié)方差陣對應(yīng)的特征值;

☆不同的主成分軸(載荷軸)之間相互正交。31☆如果原來有p個(gè)變量,則最多可以選取p個(gè)主成分,這p個(gè)主成分的變化可以完全反映原來全部p個(gè)變量的變化;☆如果選取的主成分少于p個(gè),則這些主成分的變化應(yīng)盡可能多地反映原來全部p個(gè)變量的變化。8.3.8主成分的特點(diǎn)328.3.9PCA的優(yōu)點(diǎn)

★它能找到表現(xiàn)原始數(shù)據(jù)陣最重要的變量的組合。

通過表示最大的方差,能有效地直觀反映樣本之間的關(guān)系。

能從最大的幾個(gè)主成分的得分來近似反映原始的數(shù)據(jù)陣的信息。33例1:有3個(gè)變量X1,X2與X3(m=3),其16次(n=16)觀測值見下表:34相關(guān)矩陣為:相關(guān)陣R的特征值分別為2.077,0.919,0.004,

這說明第三個(gè)主成分所起作用非常小,可以只要兩個(gè)主成分。

35例2:8個(gè)樣品中苯和二甲苯的含量見下表:#BTBmcTmc14826131224420963402451043818345329-3-56286-7-87265-9-98244-11-10mean351400B:苯,T:二甲苯;Bmc和Tmc為減去平均值后的值36原始數(shù)據(jù)矩陣中含有8(n=8)個(gè)樣品、兩個(gè)變量,其協(xié)方差矩陣為:373839根據(jù)PC1求得的苯與二甲苯含量及殘差40主成分得分的平方和、特征值與方差(17.67)2+(10.58)2+(10.64)2+(4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論