版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
幾種降維方法PCA、LDA、LPP/oimz/archive/2011/08/24/PCA.html初識PCA-主成分分析PCA,PrincipalComponentAnalysis。是一種掌握事物主要矛盾的統(tǒng)計分析方法,它可以從多元事物中解析出主要影響因素,揭示事物的本質,簡化復雜的問題。這是百度百科的一句話。個人對其的理解,這是一種減少干擾信息并用來區(qū)分數(shù)據(jù)的方法。比如小A和小B是一對雙胞胎,小A的額頭上有顆痣,而小B沒有。此時,我們分辨這兩個人只需要根據(jù)誰的額頭上有痣即可,而無需關注兩個人在其他方面的微小差別。人臉中長了痣,這是很形象的,且根據(jù)經驗,人們會把這顆痣當做區(qū)分這對雙胞胎的要素。而在現(xiàn)實生活的數(shù)據(jù)處理中,如向量,向量之間的區(qū)分點不是那么明顯,而且機器也不會根據(jù)經驗來判斷哪些數(shù)據(jù)可以當做區(qū)分與其他向量的要素。針對這一問題,PCA被提了出來,PCA算法是一種無監(jiān)督學習(unsupervisedlearning),無須事先訓練則可以找到區(qū)分于其他數(shù)據(jù)的''痣”。關于PCA算法的步驟,網上到處都是而且很詳細,而那些公式也大多是一樣了。本文中便不再贅述,在這里只是做一下簡單的介紹。首先我們有N個P維的向量要區(qū)分,X1,X2...Xn。P比較大,則處理所有向量的數(shù)據(jù)量較大,我們將其降至d維(d<P)。首先構造矩陣S=[X1,X2...Xn],算出協(xié)方差矩陣C(P維方陣),求出C的特征值T和特征向量V。將特征值按從大到小排列取出前d個特征值,并將這些特征值對應的特征向量構成一個投影矩陣L。使用S*L則得到降維后的提出主成分的矩陣。下面附上自己做的小實驗。X1=[1,2,4]X2=[10,4,5]X3=[100,8,4]根據(jù)經驗上述3維向量中,第一維和第二維是區(qū)分的要素且第一維比第二維區(qū)分度更大。于是我們構造矩陣S,S=[1,2,4;10,4,5;100,8,5]計算出S的協(xié)方差矩陣C=COV(S),C=1.0e+003*2.9970 0.1620 0.01800.1620 0.0093 0.00130.0180 0.0013 0.0003求出協(xié)方差矩陣C的特征值T和特征向量V,[T,V]=eig(C)T=-0.0235 0.0489 -0.99850.5299-0.8464-0.0540-0.8478-0.5303-0.0060V=1.0e+003*-0.0000 0 00 0.0008 00 0 3.0059取出第3個和第2個特征值以及相對應的特征向量構成投影矩陣L(實際上可以只取第三維)-0.9985 0.0489-0.0540-0.8464-0.0060-0.5303使用S*L則得到新的降維后的矩陣NN=-1.1305 -3.7651-10.2310 -5.5481-100.3120-4.5327則提取出了可以用于區(qū)分的二維。/warmyellow/article/details/5454943線性判別分析(LinearDiscriminantAnalysis,LDA)算法分析LDA算法入門1。入算法概述:線性判別式分析(LinearDiscriminantAnalysis,LDA),也叫做Fisher線性判別(FisherLinearDiscriminant,FLD),是模式識別的經典算法,它是在1996年由Belhumeur引入模式識別和人工智能領域的。性鑒別分析的基本思想是將高維的模式樣本投影到最佳鑒別矢量空間,以達到抽取分類信息和壓縮特征空間維數(shù)的效果,投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內距離,即模式在該空間中有最佳的可分離性。因此,它是一種有效的特征抽取方法。使用這種方法能夠使投影后模式樣本的類間散布矩陣最大,并且同時類內散布矩陣最小。就是說,它能夠保證投影后模式樣本在新的空間中有最小的類內距離和最大的類間距離,即模式在該空間中有最佳的可分離性。LDA假設以及符號說明:假設對于一個應”空間有m個樣本分別為x1,x2,……xm即每個x是一個n行的矩陣,其中表示屬于i類的樣本個數(shù),假設有一個有c個類,則 2 !f黑 類間離散度矩陣v 類內離散度矩陣 屬于i類的樣本個數(shù)
第i個樣本所有樣本的均值類i的樣本均值公式推導,算法形式化描述根據(jù)符號說明可得類i的樣本均值為:(第i個樣本所有樣本的均值類i的樣本均值公式推導,算法形式化描述根據(jù)符號說明可得類i的樣本均值為:(1)同理我們也可以得到總體樣本均值:(2)根據(jù)類間離散度矩陣和類內離散度矩陣定義,可以得到如下式子:]=1(3)(4)當然還有另一種類間類內的離散度矩陣表達方式:s廣文戶(沱-以跖-"1=1£(叫一勤)(叫.-標)『=漢地)研觸-對也一-郊)「忙丘己澎撐]2=1 %氣 !=1其中^⑴是指i類樣本的先驗概率,即樣本中屬于i類的概率( 用),把^⑴代入
第二組式子中,我們可以發(fā)現(xiàn)第一組式子只是比第二組式子都少乘了1/m,我們將在稍后進行討論,其實對于乘不乘該1/m,對于算法本身并沒有影響,現(xiàn)在我們分析一下算法的思想,我們可以知道矩陣他—理)處7)'的實際意義是一個協(xié)方差矩陣,這個矩陣所刻畫的是該類與樣本總體之間的關系,其中該矩陣對角線上的函數(shù)所代表的是該類相對樣本總體的方差(即分散度),而非對角線上的元素所代表是該類樣本總體均值的協(xié)方差(即該類和總體樣本的相關聯(lián)度或稱冗余度),所以根據(jù)公式(3)可知(3)式即把所有樣本中各個樣本根據(jù)自己所屬的類計算出樣本與總體的協(xié)方差矩陣的總和,這從宏觀上描述了所有類和總體之間的離散冗余程度。同理可以的得出(4)式中為分類內各個樣本和所屬類之間的協(xié)方差矩陣之和,它所刻畫的是從總體來看類內各個樣本與類之間(這里所刻畫的類特性是由是類內各個樣本的平均值矩陣構成)離散度,其實從中可以看出不管是類內的樣本期望矩陣還是總體樣本期望矩陣,它們都只是充當一個媒介作用,不管是類內還是類間離散度矩陣都是從宏觀上刻畫出類與類之間的樣本的離散度和類內樣本和樣本之間的離散度。LDA做為一個分類的算法,我們當然希望它所分的類之間耦合度低,類內的聚合度高,即類內離散度矩陣的中的數(shù)值要小,而類間離散度矩陣中的數(shù)值要大,這樣的分類的效果才好。這里我們引入Fisher鑒別準則表達式:(5)其中伊為任一n維列矢量。Fisher線性鑒別分析就是選取使得達到最大值的矢量科作為投影方向,其物理意義就是投影后的樣本具有最大的類間離散度和最小的類內離散度。我們把公式(4)和公式(3)代入公式(5)得到:。TZ眄伊(叫一”)(叫-討甲Jg(饑= ; 1=1工氐日*m我們可以設矩陣氏”(%F;其中甲可以看成是一個空間,也就是說值啊F是蝕F構成的低維空間(超平面)的投影。伊31)蝕也可表示為腴,而當樣本為列向量時"溉即表示國一?在甲空間的幾何距離的平方。所以可以推出fisher線性鑒別分析表達式的分子即為樣本在投影伊空間下的類間幾何距離的平方和,同理也可推出分母為樣本在投影甲空間下的類內幾何距離的平方差,所以分類問題就轉化到找一個低維空間使得樣本投影到該空間下時,投影下來的類間距離平方和與類內距離平方和之比最大,即最佳分類效果。所以根據(jù)上述思想,即通過最優(yōu)化下面的準則函數(shù)找到有一組最優(yōu)鑒別矢量構成的投影矩陣陟叫(這里我們也可以看出1/m可以通過分子分母約掉,所以前面所提到的第一組公式和第二組公式所表達的效果是一樣的).W礎=argmax時斯丁=[叫‘叫,…叫]ip (6)可以證明,當甲為非奇異(一般在實現(xiàn)LDA算法時,都會對樣本做一次PCA算法的降維,消除樣本的冗余度,從而保證甘是非奇異陣,當然即使甘為奇異陣也是可以解的,可以把TOC\o"1-5"\h\zS£ W“或a對角化,這里不做討論,假設都是非奇異的情況)時,最佳投影矩陣華的列向量恰為下來廣義特征方程\o"CurrentDocument"軟二舵并 ⑺S‘S的d個最大的特征值所對應的特征向量(矩陣* &的特征向量),且最優(yōu)投影軸的個數(shù)d<=c-1.根據(jù)(7)式可以推出-4S* (8)又由于w=下面給出驗證:把(7)式代入(6)式可得:s處=蜀尚啊n、沙疽=為S抑d妒欖強=啊'■啊伊=時g爪又?.-JT=[啊,二根據(jù)公式(6)分解可知公式(6)求的是方程皿]啊戶肩=虧燮二根據(jù)公式意義來看要使得max最大則只要取4即可,所以根據(jù)公式可餌出結論:投影矩陣%的列向量為d(自?。﹤€最大特征值所對應的特征向量,其中d<c-l.算法的物理意義和思考4.1用一個例子闡述LDA算法在空間上的意義下面我們利用LDA進行一個分類的問題:假設一個產品有兩個參數(shù)來衡量它是否合格,我們假設兩個參數(shù)分別為:參數(shù)A參數(shù)B是否合格2.956.63合格2.537.79合格3.575.65合格3.165.47合格2.584.46不合格2.166.22不合格3.273.52不合格實驗數(shù)據(jù)來源:/kardi/tutorial/LDA/Numerical%20Example.html所以我們可以根據(jù)上圖表格把樣本分為兩類,一類是合格的,一類是不合格的,所以我們可以創(chuàng)建兩個數(shù)據(jù)集類:clsldata=2.9500 6.63002.5300 7.79003.5700 5.65005.4700cls2_data=2.5800 4.46006.22003.2700 3.5200其中cls1_data為合格樣本,cls2_data為不合格的樣本,我們根據(jù)公式(1),(2)可以算出合格的樣本的期望值,不合格類樣本的合格的值,以及總樣本期望:E_cls1=3.0525 6.3850E_cls2=2.6700 4.7333E_all=2.8886 5.6771我們可以做出現(xiàn)在各個樣本點的位置:7.5丟TOC\o"1-5"\h\zE- -\o"CurrentDocument"56" * -5- -A\o"CurrentDocument"- 來 -4- - 1 1 1 1 1 1 \o"CurrentDocument"2 2.2 2.4 2.6 2.S 3 3.2 34 35圖一其中藍色‘*’的點代表不合格的樣本,而紅色實點代表合格的樣本,天藍色的倒三角是代表總期望,藍色三角形代表不合格樣本的期望,紅色三角形代表合格樣本的期望。從x,y軸的坐標方向上可以看出,合格和不合格樣本區(qū)分度不佳。我們在可以根據(jù)表達式(3),(4)可以計算出類間離散度矩陣和類內離散度矩陣:Sb=0.0358 0.15470.1547 0.6681Sw=0.5909 -1.3338-1.3338 3.5596s's我們可以根據(jù)公式(7),(8)算出* &特征值以及對應的特征向量:L=0.0000 00 2.8837對角線上為特征值,第一個特征值太小被計算機約為0了與他對應的特征向量為V=-0.9742 -0.92300.2256 -0.3848根據(jù)取最大特征值對應的特征向量:(-0.9230,-0.3848),該向量即為我們要求的子空間,我們可以把原來樣本投影到該向量后所得到新的空間(2維投影到1維,應該為一個數(shù)字)new_cls1_data=-5.2741-5.3328-5.4693-5.0216為合格樣本投影后的樣本值new_cls2_data=-4.0976-4.3872-4.3727為不合格樣本投影后的樣本值,我們發(fā)現(xiàn)投影后,分類效果比較明顯,類和類之間聚合度很高,我們再次作圖以便更直觀看分類效果藍色的線為特征值較小所對應的特征向量,天藍色的為特征值較大的特征向量,其中藍色的圈點為不合格樣本在該特征向量投影下來的位置,二紅色的‘*’符號的合格樣本投影后的數(shù)據(jù)集,從中個可以看出分類效果比較好(當然由于X,y軸單位的問題投影不那么直觀)。我們再利用所得到的特征向量,來對其他樣本進行判斷看看它所屬的類型,我們取樣本點(2.81,5.46),我們把它投影到特征向量后得到:result=-4.6947所以它應該屬于不合格樣本。4.2LDA算法與PCA算法在傳統(tǒng)特征臉方法的基礎上,研究者注意到特征值打的特征向量(即特征臉)并一定是分類性能最好的方向,而且對K-L變換而言,外在因素帶來的圖像的差異和人臉本身帶來的差異是無法區(qū)分的,特征連在很大程度上反映了光照等的差異。研究表明,特征臉,特征臉方法隨著光線,角度和人臉尺寸等因素的引入,識別率急劇下降,因此特征臉方法用于人臉識別還存在理論的缺陷。線性判別式分析提取的特征向量集,強調的是不同人臉的差異而不是人臉表情、照明條件等條件的變化,從而有助于提高識別效果。PDF版本可以這里下/source/2228368內附實驗代碼LPP(LocalityPreservingProjection),局部保留投影?前幾天學習了PCA,LDA算法,都是經典的降維算法。第一種為無監(jiān)督學習,第二種為監(jiān)督學習。今天看了另一種監(jiān)督學習的降維算法LPP(LocalityPreservingProjection),在此記錄下自己的心得體會。就從算法的步驟上來說,LDA和LPP有著驚人的相似,以至于我懷疑他們之間只是同一種方法的不同表示。為了驗證我的想法,我采用這兩組算法對相同的數(shù)據(jù)進行降維,降維后的數(shù)據(jù)證明了我的想法是錯的。但是降維后的數(shù)據(jù)確實非常的相近。還請各路大神指導兩者之間的關系。LPP算法先需要用明確類別的樣本進行訓練。如有n個K維訓練樣本,XI,X2...Xn構成矩陣X,樣本分為C種。我們需要先構造一個N*N的權重矩陣W.Wij的值對應樣本Xi和樣本Xj的關系。Wij有兩種表示方法,我在此就介紹簡單的一種,即當且僅當Xi和Xj是同一類的數(shù)據(jù)時,Wij為1,其余為0。這樣我們就可以夠著一個N*N的矩陣了。接著構造一個對角矩陣D,其中Dii等于W矩陣中第i行或者第i列的和(W為對稱陣)。最后構造拉普拉斯矩陣L=D-W(至于為什么這樣做,我也不清楚,求指導)。令X'為X的裝置矩陣,求解XLX'a=kXDX'a。求實數(shù)k和向量a。兩邊同乘XDX'的逆,這個方程就變成求特征
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園保育員知識競賽題庫及答案詳解
- 2024某汽車公司與某保險公司之間關于車輛保險服務的合同
- 一建建設工程項目管理合同計價方式
- 2024年規(guī)范的短期借款協(xié)議樣式版B版
- 2024標準的貨物運輸合同范本
- 2024政府合作開發(fā)城市公共交通樞紐合同3篇
- 2024正規(guī)版勞務分包商協(xié)議條款一
- 2024年車友會會員資格轉讓協(xié)議書
- 2024機械設備運輸合同范本
- 2024有房貸財產分割離婚協(xié)議書專業(yè)版3篇
- 2025年門診部工作計劃
- 2025福建中閩海上風電限公司招聘14人高頻重點提升(共500題)附帶答案詳解
- 智能網聯(lián)汽車技術應用專業(yè)國家技能人才培養(yǎng)工學一體化課程標準
- 政治-北京市朝陽區(qū)2024-2025學年高三第一學期期末質量檢測考試試題和答案
- 物業(yè)公司績效考核與激勵機制
- 術后甲狀旁腺功能減退癥管理專家共識
- 【7道期末】安徽省安慶市區(qū)2023-2024學年七年級上學期期末道德與法治試題(含解析)
- 基金項目經理招聘筆試題與參考答案(某大型集團公司)2025年
- 小學道德與法治學科教師專業(yè)素質真題考試試題及答案
- 2023-2024學年浙江省麗水市蓮都區(qū)教科版六年級上冊期末考試科學試卷
- 學校2024-2025學年教研工作計劃
評論
0/150
提交評論