PCA主成分分析原理及應(yīng)用_第1頁
PCA主成分分析原理及應(yīng)用_第2頁
PCA主成分分析原理及應(yīng)用_第3頁
PCA主成分分析原理及應(yīng)用_第4頁
PCA主成分分析原理及應(yīng)用_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

PCA主成分分析原理及應(yīng)用PCA主成分分析原理及應(yīng)用PCA主成分分析原理及應(yīng)用PCA主成分分析原理及應(yīng)用編制僅供參考審核批準生效日期地址:電話:傳真:郵編:主元分析(PCA)理論分析及應(yīng)用什么是PCA

PCA是Principalcomponentanalysis的縮寫,中文翻譯為主元分析/主成分分析。它是一種對數(shù)據(jù)進行分析的技術(shù),最重要的應(yīng)用是對原有數(shù)據(jù)進行簡化。正如它的名字:主元分析,這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音和冗余,將原有的復雜數(shù)據(jù)降維,揭示隱藏在復雜數(shù)據(jù)背后的簡單結(jié)構(gòu)。它的優(yōu)點是簡單,而且無參數(shù)限制,可以方便的應(yīng)用與各個場合。因此應(yīng)用極其廣泛,從神經(jīng)科學到計算機圖形學都有它的用武之地。被譽為應(yīng)用線形代數(shù)最價值的結(jié)果之一。

在以下的章節(jié)中,不僅有對PCA的比較直觀的解釋,同時也配有較為深入的分析。首先將從一個簡單的例子開始說明PCA應(yīng)用的場合以及想法的由來,進行一個比較直觀的解釋;然后加入數(shù)學的嚴格推導,引入線形代數(shù),進行問題的求解。隨后將揭示PCA與SVD(SingularValueDecomposition)之間的聯(lián)系以及如何將之應(yīng)用于真實世界。最后將分析PCA理論模型的假設(shè)條件以及針對這些條件可能進行的改進。一個簡單的模型

在實驗科學中我常遇到的情況是,使用大量的變量代表可能變化的因素,例如光譜、電壓、速度等等。但是由于實驗環(huán)境和觀測手段的限制,實驗數(shù)據(jù)往往變得極其的復雜、混亂和冗余的。如何對數(shù)據(jù)進行分析,取得隱藏在數(shù)據(jù)背后的變量關(guān)系,是一個很困難的問題。在神經(jīng)科學、氣象學、海洋學等等學科實驗中,假設(shè)的變量個數(shù)可能非常之多,但是真正的影響因素以及它們之間的關(guān)系可能又是非常之簡單的。

下面的模型取自一個物理學中的實驗。它看上去比較簡單,但足以說明問題。如圖表1所示。這是一個理想彈簧運動規(guī)律的測定實驗。假設(shè)球是連接在一個無質(zhì)量無摩擦的彈簧之上,從平衡位置沿軸拉開一定的距離然后釋放。

圖表1

對于一個具有先驗知識的實驗者來說,這個實驗是非常容易的。球的運動只是在x軸向上發(fā)生,只需要記錄下軸向上的運動序列并加以分析即可。但是,在真實世界中,對于第一次實驗的探索者來說(這也是實驗科學中最常遇到的一種情況),是不可能進行這樣的假設(shè)的。那么,一般來說,必須記錄下球的三維位置。這一點可以通過在不同角度放置三個攝像機實現(xiàn)(如圖所示),假設(shè)以的頻率拍攝畫面,就可以得到球在空間中的運動序列。但是,由于實驗的限制,這三臺攝像機的角度可能比較任意,并不是正交的。事實上,在真實世界中也并沒有所謂的軸,每個攝像機記錄下的都是一幅二維的圖像,有其自己的空間坐標系,球的空間位置是由一組二維坐標記錄的:。經(jīng)過實驗,系統(tǒng)產(chǎn)生了幾分鐘內(nèi)球的位置序列。怎樣從這些數(shù)據(jù)中得到球是沿著某個軸運動的規(guī)律呢怎樣將實驗數(shù)據(jù)中的冗余變量剔除,化歸到這個潛在的軸上呢

這是一個真實的實驗場景,數(shù)據(jù)的噪音是必須面對的因素。在這個實驗中噪音可能來自空氣、摩擦、攝像機的誤差以及非理想化的彈簧等等。噪音使數(shù)據(jù)變得混亂,掩蓋了變量間的真實關(guān)系。如何去除噪音是實驗者每天所要面對的巨大考驗。

上面提出的兩個問題就是PCA方法的目標。PCA主元分析方法是解決此類問題的一個有力的武器。下文將結(jié)合以上的例子提出解決方案,逐步敘述PCA方法的思想和求解過程。線形代數(shù):基變換

從線形代數(shù)的角度來看,PCA的目標就是使用另一組基去重新描述得到的數(shù)據(jù)空間。而新的基要能盡量揭示原有的數(shù)據(jù)間的關(guān)系。在這個例子中,沿著某軸上的運動是最重要的。這個維度即最重要的“主元”。PCA的目標就是找到這樣的“主元”,最大程度的去除冗余和噪音的干擾。A.標準正交基為了引入推導,需要將上文的數(shù)據(jù)進行明確的定義。在上面描述的實驗過程中,在每一個采樣時間點上,每個攝像機記錄了一組二維坐標,綜合三臺攝像機數(shù)據(jù),在每一個時間點上得到的位置數(shù)據(jù)對應(yīng)于一個六維列向量。如果以的頻率拍攝10分鐘,將得到個這樣的向量數(shù)據(jù)。

抽象一點來說,每一個采樣點數(shù)據(jù)都是在維向量空間(此例中)內(nèi)的一個向量,這里的是牽涉的變量個數(shù)。由線形代數(shù)我們知道,在維向量空間中的每一個向量都是一組正交基的線形組合。最普通的一組正交基是標準正交基,實驗采樣的結(jié)果通常可以看作是在標準正交基下表示的。舉例來說,上例中每個攝像機記錄的數(shù)據(jù)坐標為,這樣的基便是。那為什么不取或是其他任意的基呢原因是,這樣的標準正交基反映了數(shù)據(jù)的采集方式。假設(shè)采集數(shù)據(jù)點是,一般并不會記錄(在基下),因為一般的觀測者都是習慣于取攝像機的屏幕坐標,即向上和向右的方向作為觀測的基準。也就是說,標準正交基表現(xiàn)了數(shù)據(jù)觀測的一般方式。

在線形代數(shù)中,這組基表示為行列向量線形無關(guān)的單位矩陣。B.基變換從更嚴格的數(shù)學定義上來說,PCA回答的問題是:如何尋找到另一組正交基,它們是標準正交基的線性組合,而且能夠最好的表示數(shù)據(jù)集

這里提出了PCA方法的一個最關(guān)鍵的假設(shè):線性。這是一個非常強的假設(shè)條件。它使問題得到了很大程度的簡化:1)數(shù)據(jù)被限制在一個向量空間中,能被一組基表示;2)隱含的假設(shè)了數(shù)據(jù)之間的連續(xù)性關(guān)系。

這樣一來數(shù)據(jù)就可以被表示為各種基的線性組合。令<![endif]-->是一個的矩陣,它的每一個列向量都表示一個時間采樣點上的數(shù)據(jù),在上面的例子中,。表示轉(zhuǎn)換以后的新的數(shù)據(jù)集表示。是他們之間的線性轉(zhuǎn)換。

(1)有如下定義:>表示的行向量;表示的列向量(或者);表示的列向量。公式(1)表示不同基之間的轉(zhuǎn)換,在線性代數(shù)中,它表示從到的轉(zhuǎn)換矩陣。幾何上來說,對進行旋轉(zhuǎn)和拉伸得到。的行向量,是一組新的基,而是原數(shù)據(jù)在這組新的基表示下得到的重新表示。下面是對最后一個含義的顯式說明:注意到的列向量:可見>表示的是與中對應(yīng)列的點積,也就是相當于是在對應(yīng)向量上的投影。所以,的行向量事實上就是一組新的基。它對原數(shù)據(jù)進行重新表示。在一些文獻中,將數(shù)據(jù)成為“源”,而將變換后的稱為“信號”。這是由于變換后的數(shù)據(jù)更能體現(xiàn)信號成分的原因。C.問題在線性的假設(shè)條件下,問題轉(zhuǎn)化為尋找一組變換后的基,也就是的行向量,這些向量就是PCA中所謂的“主元”。問題轉(zhuǎn)化為如下的形式:怎樣才能最好的表示原數(shù)據(jù)的基怎樣選擇才是最好的解決問題的關(guān)鍵是如何體現(xiàn)數(shù)據(jù)的特征。那么,什么是數(shù)據(jù)的特征,如何體現(xiàn)呢方差和目標

“最好的表示”是什么意思呢下面的章節(jié)將給出一個較為直觀的解釋,并增加一些額外的假設(shè)條件。在線性系統(tǒng)中,所謂的“混亂數(shù)據(jù)”通常包含以下的三種成分:噪音、旋轉(zhuǎn)以及冗余。下面將對這三種成分做出數(shù)學上的描述并針對目標作出分析。A.噪音和旋轉(zhuǎn)噪音對數(shù)據(jù)的影響是巨大的,如果不能對噪音進行區(qū)分,就不可能抽取數(shù)據(jù)中有用的信息。噪音的橫梁有多種方式,最常見的定義是信噪比(signal-to-noiseratio),或是方差比:(2)比較大的信噪比表示數(shù)據(jù)的準確度高,而信噪比低則說明數(shù)據(jù)中的噪音成分比較多。那么怎樣區(qū)分什么是信號,什么是噪音呢這里假設(shè),變化較大的信息被認為是信號,變化較小的則是噪音。事實上,這個標準等價于一個低通的濾波器,是一種標準的去噪準則。而變化的大小則是由方差來描述的。

它表示了采樣點在平均值兩側(cè)的分布,對應(yīng)于圖表2(a)就是采樣點云的“胖瘦”。顯然的,方差較大,也就是較“寬”較“胖”的分布,表示了采樣點的主要分布趨勢,是主信號或主要分量;而方差較小的分布則被認為是噪音或次要分量。2:(a)攝像機A的采集數(shù)據(jù)。圖中黑色垂直直線表示一組正交基的方向。是采樣點云在長線方向上分布的方差,而是數(shù)據(jù)點在短線方向上分布的方差。(b)對的基向量進行旋轉(zhuǎn)使SNR和方差最大。

假設(shè)攝像機A拍攝到的數(shù)據(jù)如圖表2(a)所示,圓圈代表采樣點,因為運動理論上是只存在于一條直線上,所以偏離直線的分布都屬于噪音。此時描述的就是采樣點云在某對垂直方向上的概率分布的比值。那么,最大限度的揭示原數(shù)據(jù)的結(jié)構(gòu)和關(guān)系,找出某條潛在的,最優(yōu)的軸,事實上等價尋找一對空間內(nèi)的垂直直線(圖中黑線表示,也對應(yīng)于此空間的一組基),使得信噪比盡可能大的方向。容易看出,本例中潛在的軸就是圖上的較長黑線方向。那么怎樣尋找這樣一組方向呢直接的想法是對基向量進行旋轉(zhuǎn)。如圖表2(b)所示,隨著這對直線的轉(zhuǎn)動以及方差的變化情況。應(yīng)于最大值的一組基,就是最優(yōu)的“主元”方向。在進行數(shù)學中求取這組基的推導之前,先介紹另一個影響因素。B.冗余有時在實驗中引入了一些不必要的變量??赡軙箖煞N情況:1)該變量對結(jié)果沒有影響;2)該變量可以用其它變量表示,從而造成數(shù)據(jù)冗余。下面對這樣的冗余情況進行分析和分類。圖表3:可能冗余數(shù)據(jù)的頻譜圖表示。和分別是兩個不同的觀測變量。

(比如例子中的,)。最佳擬合線用虛線表示。

如圖表3所示,它揭示了兩個觀測變量之間的關(guān)系。(a)圖所示的情況是低冗余的,從統(tǒng)計學上說,這兩個觀測變量是相互獨立的,它們之間的信息沒有冗余。而相反的極端情況如(c),和高度相關(guān),完全可以用表示。一般來說,這種情況發(fā)生可能是因為攝像機A和攝像機B放置的位置太近或是數(shù)據(jù)被重復記錄了,也可能是由于實驗設(shè)計的不合理所造成的。那么對于觀測者而言,這個變量的觀測數(shù)據(jù)就是完全冗余的,應(yīng)當去除,只用一個變量就可以表示了。這也就是PCA中“降維”思想的本源。C.協(xié)方差矩陣對于上面的簡單情況,可以通過簡單的線性擬合的方法來判斷各觀測變量之間是否出現(xiàn)冗余的情況,而對于復雜的情況,需要借助協(xié)方差來進行衡量和判斷:

,分別表示不同的觀測變量所記錄的一組值,在統(tǒng)計學中,由協(xié)方差的性質(zhì)可以得到:,且當且僅當觀測變量,相互獨立。,當=。等價的,將,寫成行向量的形式:,

協(xié)方差可以表示為:

(3)

那么,對于一組具有個觀測變量,個采樣時間點的采樣數(shù)據(jù),將每個觀測變量的值寫為行向量,可以得到一個的矩陣:

(4)

接下來定義協(xié)方差矩陣如下:

(5)容易發(fā)現(xiàn)協(xié)方差矩陣性質(zhì)如下:是一個的平方對稱矩陣。對角線上的元素是對應(yīng)的觀測變量的方差。非對角線上的元素是對應(yīng)的觀測變量之間的協(xié)方差。

協(xié)方差矩陣包含了所有觀測變量之間的相關(guān)性度量。更重要的是,根據(jù)前兩節(jié)的說明,這些相關(guān)性度量反映了數(shù)據(jù)的噪音和冗余的程度。在對角線上的元素越大,表明信號越強,變量的重要性越高;元素越小則表明可能是存在的噪音或是次要變量。在非對角線上的元素大小則對應(yīng)于相關(guān)觀測變量對之間冗余程度的大小。一般情況下,初始數(shù)據(jù)的協(xié)方差矩陣總是不太好的,表現(xiàn)為信噪比不高且變量間相關(guān)度大。PCA的目標就是通過基變換對協(xié)方差矩陣進行優(yōu)化,找到相關(guān)“主元”。那么,如何進行優(yōu)化矩陣的那些性質(zhì)是需要注意的呢D.協(xié)方差矩陣的對角化總結(jié)上面的章節(jié),主元分析以及協(xié)方差矩陣優(yōu)化的原則是:1)最小化變量冗余,對應(yīng)于協(xié)方差矩陣的非對角元素要盡量??;2)最大化信號,對應(yīng)于要使協(xié)方差矩陣的對角線上的元素盡可能的大。因為協(xié)方差矩陣的每一項都是正值,最小值為0,所以優(yōu)化的目標矩陣的非對角元素應(yīng)該都是0,對應(yīng)于冗余最小。所以優(yōu)化的目標矩陣應(yīng)該是一個對角陣。即只有對角線上的元素可能是非零值。同時,PCA假設(shè)所對應(yīng)的一組變換基必須是標準正交的,而優(yōu)化矩陣對角線上的元素越大,就說明信號的成分越大,換句話就是對應(yīng)于越重要的“主元”。

對于協(xié)方差矩陣進行對角化的方法很多。根據(jù)上面的分析,最簡單最直接的算法就是在多維空間內(nèi)進行搜索。和圖表2(a)的例子中旋轉(zhuǎn)的方法類似:1)在維空間中進行遍歷,找到一個方差最大的向量,令作。2)在與垂直的向量空間中進行遍歷,找出次大的方差對應(yīng)的向量,記作。3)對以上過程循環(huán),直到找出全部的向量。它們生成的順序也就是“主元”的排序。這個理論上成立的算法說明了PCA的主要思想和過程。在這中間,牽涉到兩個重要的特性:a)轉(zhuǎn)換基是一組標準正交基。這給PCA的求解帶來了很大的好處,它可以運用線性代數(shù)的相關(guān)理論進行快速有效的分解。這些方法將在后面提到。b)在PCA的過程中,可以同時得到新的基向量所對應(yīng)的“主元排序”,利用這個重要性排序可以方便的對數(shù)據(jù)進行光順、簡化處理或是壓縮。的假設(shè)和局限PCA的模型中存在諸多的假設(shè)條件,決定了它存在一定的限制,在有些場合可能會造成效果不好甚至失效。對于學習和掌握PCA來說,理解這些內(nèi)容是非常重要的,同時也有利于理解基于改進這些限制條件的PCA的一些擴展技術(shù)。PCA的假設(shè)條件包括:1.線形性假設(shè)。如同文章開始的例子,PCA的內(nèi)部模型是線性的。這也就決定了它能進行的主元分析之間的關(guān)系也是線性的?,F(xiàn)在比較流行的kernel-PCA的一類方法就是使用非線性的權(quán)值對原有PCA技術(shù)的拓展。2.使用中值和方差進行充分統(tǒng)計。使用中值和方差進行充分的概率分布描述的模型只限于指數(shù)型概率分布模型。(例如高斯分布),也就是說,如果我們考察的數(shù)據(jù)的概率分布并不滿足高斯分布或是指數(shù)型的概率分布,那么PCA將會失效。在這種模型下,不能使用方差和協(xié)方差來很好的描述噪音和冗余,對教化之后的協(xié)方差矩陣并不能得到很合適的結(jié)果。事實上,去除冗余的最基礎(chǔ)的方程是:其中代表概率分布的密度函數(shù)?;谶@個方程進行冗余去除的方法被稱作獨立主元分析(ICA)方法(IndependentComponentAnalysis)。不過,所幸的是,根據(jù)中央極限定理,現(xiàn)實生活中所遇到的大部分采樣數(shù)據(jù)的概率分布都是遵從高斯分布的。所以PCA仍然是一個使用于絕大部分領(lǐng)域的穩(wěn)定且有效的算法。3.大方差向量具有較大重要性PCA方法隱含了這樣的假設(shè):數(shù)據(jù)本身具有較高的信噪比,所以具有最高方差的一維向量就可以被看作是主元,而方差較小的變化則被認為是噪音。這是由于低通濾波器的選擇決定的。4.主元正交PCA方法假設(shè)主元向量之間都是正交的,從而可以利用線形代數(shù)的一系列有效的數(shù)學工具進行求解,大大提高了效率和應(yīng)用的范圍。PCA求解:特征根分解

在線形代數(shù)中,PCA問題可以描述成以下形式:尋找一組正交基組成的矩陣,有,使得是對角陣。則P的行向量(也就是一組正交基),就是數(shù)據(jù)的主元向量。

對進行推導:

定義,則是一個對稱陣。對進行對角化求取特征向量得:

則是一個對角陣而則是對稱陣的特征向量排成的矩陣。

這里要提出的一點是,是一個的矩陣,而它將有個特征向量。其中是矩陣的秩。如果,則即為退化陣。此時分解出的特征向量不能覆蓋整個空間。此時只需要在保證基的正交性的前提下,在剩余的空間中任意取得維正交向量填充的空格即可。它們將不對結(jié)果造成影響。因為此時對應(yīng)于這些特征向量的特征值,也就是方差值為零。

求出特征向量矩陣后我們?nèi)?,則,由線形代數(shù)可知矩陣有性質(zhì),從而進行如下計算:

可知此時的就是我們需要求得變換基。至此我們可以得到PCA的結(jié)果:的主元即是的特征向量,也就是矩陣的行向量。矩陣對角線上第i個元素是數(shù)據(jù)在方向的方差。我們可以得到PCA求解的一般步驟:1)采集數(shù)據(jù)形成的矩陣。為觀測變量個數(shù),為采樣點個數(shù)。2)在每個觀測變量(矩陣行向量)上減去該觀測變量的平均值得到矩陣。3)對進行特征分解,求取特征向量以及所對應(yīng)的特征根??偨Y(jié)和討論PCA技術(shù)的一大好處是對數(shù)據(jù)進行降維的處理。我們可以對新求出的“主元”向量的重要性進行排序,根據(jù)需要取前面最重要的部分,將后面的維數(shù)省去,可以達到降維從而簡化模型或是對數(shù)據(jù)進行壓縮的效果。同時最大程度的保持了原有數(shù)據(jù)的信息。

在前文的例子中,經(jīng)過PCA處理后的數(shù)據(jù)只剩下了一維,也就是彈簧運動的那一維,從而去除了冗余的變量,揭示了實驗數(shù)據(jù)背后的物理原理。PCA技術(shù)的一個很大的優(yōu)點是,它是完全無參數(shù)限制的。在PCA的計算過程中完全不需要人為的設(shè)定參數(shù)或是根據(jù)任何經(jīng)驗模型對計算進行干預,最后的結(jié)果只與數(shù)據(jù)相關(guān),與用戶是獨立的。

但是,這一點同時也可以看作是缺點。如果用戶對觀測對象有一定的先驗知識,掌握了數(shù)據(jù)的一些特征,卻無法通過參數(shù)化等方法對處理過程進行干預,可能會得不到預期的效果,效率也不高。圖表4:黑色點表示采樣數(shù)據(jù),排列成轉(zhuǎn)盤的形狀。

容易想象,該數(shù)據(jù)的主元是或是旋轉(zhuǎn)角。如圖表4中的例子,PCA找出的主元將是。但是這顯然不是最優(yōu)和最簡化的主元。之間存在著非線性的關(guān)系。根據(jù)先驗的知識可知旋轉(zhuǎn)角是最優(yōu)的主元。則在這種情況下,PCA就會失效。但是,如果加入先驗的知識,對數(shù)據(jù)進行某種劃歸,就可以將數(shù)據(jù)轉(zhuǎn)化為以為線性的空間中。這類根據(jù)先驗知識對數(shù)據(jù)預先進行非線性轉(zhuǎn)換的方法就成為kernel-PCA,它擴展了PCA能夠處理的問題的范圍,又可以結(jié)合一些先驗約束,是比較流行的方法。有時數(shù)據(jù)的分布并不是滿足高斯分布。如圖表5所示,在非高斯分布的情況下,PCA方法得出的主元可能并不是最優(yōu)的。在尋找主元時不能將方差作為衡量重要性的標準。要根據(jù)數(shù)據(jù)的分布情況選擇合適的描述完全分布的變量,然后根據(jù)概率分布式來計算兩個向量上數(shù)據(jù)分布的相關(guān)性。等價的,保持主元間的正交假設(shè),尋找的主元同樣要使。這一類方法被稱為獨立主元分解(ICA)。圖表5:數(shù)據(jù)的分布并不滿足高斯分布,呈明顯的十字星狀。

這種情況下,方差最大的方向并不是最優(yōu)主元方向。

PCA方法和線形代數(shù)中的奇異值分解(SVD)方法有內(nèi)在的聯(lián)系,一定意義上來說,PCA的解法是SVD的一種變形和弱化。對于的矩陣,通過奇異值分解可以直接得到如下形式:其中是一個的矩陣,是一個的矩陣,而是的對角陣。形式如下:其中,是原矩陣的奇異值。由簡單推導可知,如果對奇異值分解加以約束:的向量必須正交,則矩陣即為PCA的特征值分解中的,則說明PCA并不一定需要求取,也可以直接對原數(shù)據(jù)矩陣進行SVD奇異值分解即可得到特征向量矩陣,也就是主元向量。

計算機視學領(lǐng)域的應(yīng)用

PCA方法是一個具有很高普適性的方法,被廣泛應(yīng)用于多個領(lǐng)域。這里要特別介紹的是它在計算機視覺領(lǐng)域的應(yīng)用,包括如何對圖像進行處理以及在人臉識別方面的特別作用。A.數(shù)據(jù)表示如果要將PCA方法應(yīng)用于視覺領(lǐng)域,最基本的問題就是圖像的表達。如果是一幅大小的圖像,它的數(shù)據(jù)將被表達為一個維的向量:在這里圖像的結(jié)構(gòu)將被打亂,每一個像素點被看作是一維,最直接的方法就是將圖像的像素一行行的頭尾相接成一個一維向量。還必須要注意的是,每一維上的數(shù)據(jù)對應(yīng)于對應(yīng)像素的亮度、灰度或是色彩值,但是需要劃歸到同一緯度上。B.模式識別假設(shè)數(shù)據(jù)源是一系列的20幅圖像,每幅圖像都是大小,那么它們都可以表示為一個維的向量。將它們排成一個矩陣:

然后對它們進行PCA處理,找出主元。為什么這樣做呢據(jù)人臉識別的例子來說,數(shù)據(jù)源是20幅不同的人臉圖像,PCA方法的實質(zhì)是尋找這些圖像中的相似的維度,因為人臉的結(jié)構(gòu)有極大的相似性(特別是同一個人的人臉圖像),則使用PCA方法就可以很容易的提取出人臉的內(nèi)在結(jié)構(gòu),也及時所謂“模式”,如果有新的圖像需要與原有圖像比較,就可以在變換后的主元維度上進行比較,則可衡量新圖與原有數(shù)據(jù)集的相似度如何。對這樣的一組人臉圖像進行處理,提取其中最重要的主元,即可大致描述人臉的結(jié)構(gòu)信息,稱作“特征臉”(EigenFace)。這就是人臉識別中的重要方法“特征臉方法”的理論根據(jù)。近些年來,基于對一般PCA方法的改進,結(jié)合ICA、kernel-PCA等方法,在主元分析中加入關(guān)于人臉圖像的先驗知識,則能得到更好的效果。C.圖像信息壓縮使用PCA方法進行圖像壓縮,又被稱為Hotelling算法,或者KarhunenandLeove(KL)變換。這是視覺領(lǐng)域內(nèi)圖像處理的經(jīng)典算法之一。具體算法與上述過程相同,使用PCA方法處理一個圖像序列,提取其中的主元。然后根據(jù)主元的排序去除其中次要的分量,然后變換回原空間,則圖像序列因為維數(shù)降低得到很大的壓縮。例如上例中取出次要的5個維度,則圖像就被壓縮了1/4。但是這種有損的壓縮方法同時又保持了其中最“重要”的信息,是一種非常重要且有效的算法。

參考文獻[1]

LindsayISmith.(2002)“AtutorialonPrincipalComponentsAnalysis”[2]

JonathonShlens.(2005)“ATutorialonPrincipalComponentAnalysis”[3]

Will,Todd(1999)“IntroductiontotheSingularValueDecomposition”DavidsonCollege.

Bell[5]

.Cootesand(2004)“StatisticalModelsofAppearanceforComputerVision”

張翠平蘇光大(2000)“人臉識別技術(shù)綜述”《中國圖像圖形學報》第五卷A版第11期[7]

何國輝甘俊英(2006)“PCA類內(nèi)平均臉法在人臉識別中的應(yīng)用研究”《計算機應(yīng)用研究》2006年第三期[8]

牛麗平付仲良魏文利(2006)“人臉識別技術(shù)研究”《電腦開發(fā)與應(yīng)用》2006年第五期[9]

Wikipedia“principalcomponentsanalysis”詞條解釋FromPCA主成分分析計算步驟.主成分分析(PrincipalComponentAnalysis,PCA)是一種掌握事物主要矛盾的統(tǒng)計分析方法,它可以從多元事物中解析出主要影響因素,揭示事物的本質(zhì),簡化復雜的問題。計算主成分的目的是將高維數(shù)據(jù)投影到較低維空間。給定n個變量的m個觀察值,形成一個n′m的數(shù)據(jù)矩陣,n通常比較大。對于一個由多個變量描述的復雜事物,人們難以認識,那么是否可以抓住事物主要方面進行重點分析呢如果事物的主要方面剛好體現(xiàn)在幾個主要變量上,我們只需要將這幾個變量分離出來,進行詳細分析。但是,在一般情況下,并不能直接找出這樣的關(guān)鍵變量。這時我們可以用原有變量的線性組合來表示事物的主要方面,PCA就是這樣一種分析方法。PCA的目標是尋找r(r<n)個新變量,使它們反映事物的主要特征,壓縮原有數(shù)據(jù)矩陣的規(guī)模。每個新變量是原有變量的線性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論