機器學(xué)習(xí)中的數(shù)學(xué)5強大的矩陣奇異值分解SV_第1頁
機器學(xué)習(xí)中的數(shù)學(xué)5強大的矩陣奇異值分解SV_第2頁
機器學(xué)習(xí)中的數(shù)學(xué)5強大的矩陣奇異值分解SV_第3頁
機器學(xué)習(xí)中的數(shù)學(xué)5強大的矩陣奇異值分解SV_第4頁
機器學(xué)習(xí)中的數(shù)學(xué)5強大的矩陣奇異值分解SV_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、.機器學(xué)習(xí)中的數(shù)學(xué) 5 強大的矩陣奇異值分解 SVD機器學(xué)習(xí)中的數(shù)學(xué)(5)-強大的矩陣奇異值分解(SVD)及其應(yīng)用版權(quán)聲明:本文由LeftNotEasy發(fā)布于本文可以被全部的轉(zhuǎn)載或者部分使用,但請注明出處,如果有問題,請聯(lián)系wheeleast前言:上一次寫了關(guān)于PCA與LDA的文章,PCA的實現(xiàn)一般有兩種,一種是用特征值分解去實現(xiàn)的,一種是用奇異值分解去實現(xiàn)的。在上篇文章中便是基于特征值分解的一種解釋。特征值和奇異值在大部分人的印象中,往往是停留在純粹的數(shù)學(xué)計算中。而且線性代數(shù)或者矩陣論里面,也很少講任何跟特征值與奇異值有關(guān)的應(yīng)用背景。奇異值分解是一個有著很明顯的物理意義的一種方法,它可以將一

2、個比較復(fù)雜的矩陣用更小更簡單的幾個子矩陣的相乘來表示,這些小矩陣描述的是矩陣的重要的特性。就像是描述一個人一樣,給別人描述說這個人長得濃眉大眼,方臉,絡(luò)腮胡,而且?guī)€黑框的眼鏡,這樣寥寥的幾個特征,就讓別人腦海里面就有一個較為清楚的認(rèn)識,實際上,人臉上的特征是有著無數(shù)種的,之所以能這么描述,是因為人天生就有著非常好的抽取重要特征的能力,讓機器學(xué)會抽取重要的特征,SVD是一個重要的方法。在機器學(xué)習(xí)領(lǐng)域,有相當(dāng)多的應(yīng)用與奇異值都可以扯上關(guān)系,比如做feature reduction的PCA,做數(shù)據(jù)壓縮(以圖像壓縮為代表)的算法,還有做搜索引擎語義層次檢索的LSI(Latent Semantic I

3、ndexing)另外在這里抱怨一下,之前在百度里面搜索過SVD,出來的結(jié)果都是俄羅斯的一種狙擊槍(AK47同時代的),是因為穿越火線這個游戲里面有一把狙擊槍叫做SVD,而在Google上面搜索的時候,出來的都是奇異值分解(英文資料為主)。想玩玩戰(zhàn)爭游戲,玩玩COD不是非常好嗎,玩山寨的CS有神馬意思啊。國內(nèi)的網(wǎng)頁中的話語權(quán)也被這些沒有太多營養(yǎng)的帖子所占據(jù)。真心希望國內(nèi)的氣氛能夠更濃一點,搞游戲的人真正是喜歡制作游戲,搞Data Mining的人是真正喜歡挖數(shù)據(jù)的,都不是僅僅為了混口飯吃,這樣談超越別人才有意義,中文文章中,能踏踏實實談?wù)劶夹g(shù)的太少了,改變這個狀況,從我自己做起吧。前面說了這么多

4、,本文主要關(guān)注奇異值的一些特性,另外還會稍稍提及奇異值的計算,不過本文不準(zhǔn)備在如何計算奇異值上展開太多。另外,本文里面有部分不算太深的線性代數(shù)的知識,如果完全忘記了線性代數(shù),看本文可能會有些困難。一、奇異值與特征值基礎(chǔ)知識:特征值分解和奇異值分解在機器學(xué)習(xí)領(lǐng)域都是屬于滿地可見的方法。兩者有著很緊密的關(guān)系,我在接下來會談到,特征值分解和奇異值分解的目的都是一樣,就是提取出一個矩陣最重要的特征。先談?wù)勌卣髦捣纸獍桑?)特征值:如果說一個向量v是方陣A的特征向量,將一定可以表示成下面的形式:這時候就被稱為特征向量v對應(yīng)的特征值,一個矩陣的一組特征向量是一組正交向量。特征值分解是將一個矩陣分解成下面的

5、形式:其中Q是這個矩陣A的特征向量組成的矩陣,是一個對角陣,每一個對角線上的元素就是一個特征值。我這里引用了一些參考文獻中的內(nèi)容來說明一下。首先,要明確的是,一個矩陣其實就是一個線性變換,因為一個矩陣乘以一個向量后得到的向量,其實就相當(dāng)于將這個向量進行了線性變換。比如說下面的一個矩陣:它其實對應(yīng)的線性變換是下面的形式:因為這個矩陣M乘以一個向量(x,y)的結(jié)果是:上面的矩陣是對稱的,所以這個變換是一個對x,y軸的方向一個拉伸變換(每一個對角線上的元素將會對一個維度進行拉伸變換,當(dāng)值1時,是拉長,當(dāng)值1時時縮短),當(dāng)矩陣不是對稱的時候,假如說矩陣是下面的樣子:它所描述的變換是下面的樣子:這其實是

6、在平面上對一個軸進行的拉伸變換(如藍色的箭頭所示),在圖中,藍色的箭頭是一個最主要的變化方向(變化方向可能有不止一個),如果我們想要描述好一個變換,那我們就描述好這個變換主要的變化方向就好了。反過頭來看看之前特征值分解的式子,分解得到的矩陣是一個對角陣,里面的特征值是由大到小排列的,這些特征值所對應(yīng)的特征向量就是描述這個矩陣變化方向(從主要的變化到次要的變化排列)當(dāng)矩陣是高維的情況下,那么這個矩陣就是高維空間下的一個線性變換,這個線性變化可能沒法通過圖片來表示,但是可以想象,這個變換也同樣有很多的變換方向,我們通過特征值分解得到的前N個特征向量,那么就對應(yīng)了這個矩陣最主要的N個變化方向。我們利

7、用這前N個變化方向,就可以近似這個矩陣(變換)。也就是之前說的:提取這個矩陣最重要的特征。總結(jié)一下,特征值分解可以得到特征值與特征向量,特征值表示的是這個特征到底有多重要,而特征向量表示這個特征是什么,可以將每一個特征向量理解為一個線性的子空間,我們可以利用這些線性的子空間干很多的事情。不過,特征值分解也有很多的局限,比如說變換的矩陣必須是方陣。(說了這么多特征值變換,不知道有沒有說清楚,請各位多提提意見。)2)奇異值:下面談?wù)勂娈愔捣纸狻L卣髦捣纸馐且粋€提取矩陣特征很不錯的方法,但是它只是對方陣而言的,在現(xiàn)實的世界中,我們看到的大部分矩陣都不是方陣,比如說有N個學(xué)生,每個學(xué)生有M科成績,這樣

8、形成的一個N*M的矩陣就不可能是方陣,我們怎樣才能描述這樣普通的矩陣呢的重要特征呢?奇異值分解可以用來干這個事情,奇異值分解是一個能適用于任意的矩陣的一種分解的方法:假設(shè)A是一個N*M的矩陣,那么得到的U是一個N*N的方陣(里面的向量是正交的,U里面的向量稱為左奇異向量),是一個N*M的矩陣(除了對角線的元素都是0,對角線上的元素稱為奇異值),V'(V的轉(zhuǎn)置)是一個N*N的矩陣,里面的向量也是正交的,V里面的向量稱為右奇異向量),從圖片來反映幾個相乘的矩陣的大小可得下面的圖片那么奇異值和特征值是怎么對應(yīng)起來的呢?首先,我們將一個矩陣A的轉(zhuǎn)置*A,將會得到一個方陣,我們用這個方陣求特征值

9、可以得到:這里得到的v,就是我們上面的右奇異向量。此外我們還可以得到:這里的就是上面說的奇異值,u就是上面說的左奇異向量。奇異值跟特征值類似,在矩陣中也是從大到小排列,而且的減少特別的快,在很多情況下,前10%甚至1%的奇異值的和就占了全部的奇異值之和的99%以上了。也就是說,我們也可以用前r大的奇異值來近似描述矩陣,這里定義一下部分奇異值分解:r是一個遠(yuǎn)小于m、n的數(shù),這樣矩陣的乘法看起來像是下面的樣子:右邊的三個矩陣相乘的結(jié)果將會是一個接近于A的矩陣,在這兒,r越接近于n,則相乘的結(jié)果越接近于A。而這三個矩陣的面積之和(在存儲觀點來說,矩陣面積越小,存儲量就越小)要遠(yuǎn)遠(yuǎn)小于原始的矩陣A,我

10、們?nèi)绻胍獕嚎s空間來表示原矩陣A,我們存下這里的三個矩陣:U、V就好了。二、奇異值的計算:奇異值的計算是一個難題,是一個O(N3)的算法。在單機的情況下當(dāng)然是沒問題的,matlab在一秒鐘內(nèi)就可以算出1000*1000的矩陣的所有奇異值,但是當(dāng)矩陣的規(guī)模增長的時候,計算的復(fù)雜度呈3次方增長,就需要并行計算參與了。Google的吳軍老師在數(shù)學(xué)之美系列談到SVD的時候,說起Google實現(xiàn)了SVD的并行化算法,說這是對人類的一個貢獻,但是也沒有給出具體的計算規(guī)模,也沒有給出太多有價值的信息。其實SVD還是可以用并行的方式去實現(xiàn)的,在解大規(guī)模的矩陣的時候,一般使用迭代的方法,當(dāng)矩陣的規(guī)模很大(比如說

11、上億)的時候,迭代的次數(shù)也可能會上億次,如果使用Map-Reduce框架去解,則每次Map-Reduce完成的時候,都會涉及到寫文件、讀文件的操作。個人猜測Google云計算體系中除了Map-Reduce以外應(yīng)該還有類似于MPI的計算模型,也就是節(jié)點之間是保持通信,數(shù)據(jù)是常駐在內(nèi)存中的,這種計算模型比Map-Reduce在解決迭代次數(shù)非常多的時候,要快了很多倍。Lanczos迭代就是一種解對稱方陣部分特征值的方法(之前談到了,解A'*A得到的對稱方陣的特征值就是解A的右奇異向量),是將一個對稱的方程化為一個三對角矩陣再進行求解。按網(wǎng)上的一些文獻來看,Google應(yīng)該是用這種方法去做的奇

12、異值分解的。請見Wikipedia上面的一些引用的論文,如果理解了那些論文,也"幾乎"可以做出一個SVD了。由于奇異值的計算是一個很枯燥,純數(shù)學(xué)的過程,而且前人的研究成果(論文中)幾乎已經(jīng)把整個程序的流程圖給出來了。更多的關(guān)于奇異值計算的部分,將在后面的參考文獻中給出,這里不再深入,我還是focus在奇異值的應(yīng)用中去。三、奇異值與主成分分析(PCA):主成分分析在上一節(jié)里面也講了一些,這里主要談?wù)勅绾斡肧VD去解PCA的問題。PCA的問題其實是一個基的變換,使得變換后的數(shù)據(jù)有著最大的方差。方差的大小描述的是一個變量的信息量,我們在講一個東西的穩(wěn)定性的時候,往往說要減小方差,

13、如果一個模型的方差很大,那就說明模型不穩(wěn)定了。但是對于我們用于機器學(xué)習(xí)的數(shù)據(jù)(主要是訓(xùn)練數(shù)據(jù)),方差大才有意義,不然輸入的數(shù)據(jù)都是同一個點,那方差就為0了,這樣輸入的多個數(shù)據(jù)就等同于一個數(shù)據(jù)了。以下面這張圖為例子:這個假設(shè)是一個攝像機采集一個物體運動得到的圖片,上面的點表示物體運動的位置,假如我們想要用一條直線去擬合這些點,那我們會選擇什么方向的線呢?當(dāng)然是圖上標(biāo)有signal的那條線。如果我們把這些點單純的投影到x軸或者y軸上,最后在x軸與y軸上得到的方差是相似的(因為這些點的趨勢是在45度左右的方向,所以投影到x軸或者y軸上都是類似的),如果我們使用原來的xy坐標(biāo)系去看這些點,容易看不出來

14、這些點真正的方向是什么。但是如果我們進行坐標(biāo)系的變化,橫軸變成了signal的方向,縱軸變成了noise的方向,則就很容易發(fā)現(xiàn)什么方向的方差大,什么方向的方差小了。一般來說,方差大的方向是信號的方向,方差小的方向是噪聲的方向,我們在數(shù)據(jù)挖掘中或者數(shù)字信號處理中,往往要提高信號與噪聲的比例,也就是信噪比。對上圖來說,如果我們只保留signal方向的數(shù)據(jù),也可以對原數(shù)據(jù)進行不錯的近似了。PCA的全部工作簡單點說,就是對原始的空間中順序地找一組相互正交的坐標(biāo)軸,第一個軸是使得方差最大的,第二個軸是在與第一個軸正交的平面中使得方差最大的,第三個軸是在與第1、2個軸正交的平面中方差最大的,這樣假設(shè)在N維

15、空間中,我們可以找到N個這樣的坐標(biāo)軸,我們?nèi)∏皉個去近似這個空間,這樣就從一個N維的空間壓縮到r維的空間了,但是我們選擇的r個坐標(biāo)軸能夠使得空間的壓縮使得數(shù)據(jù)的損失最小。還是假設(shè)我們矩陣每一行表示一個樣本,每一列表示一個feature,用矩陣的語言來表示,將一個m*n的矩陣A的進行坐標(biāo)軸的變化,P就是一個變換的矩陣從一個N維的空間變換到另一個N維的空間,在空間中就會進行一些類似于旋轉(zhuǎn)、拉伸的變化。而將一個m*n的矩陣A變換成一個m*r的矩陣,這樣就會使得本來有n個feature的,變成了有r個feature了(r n),這r個其實就是對n個feature的一種提煉,我們就把這個稱為featur

16、e的壓縮。用數(shù)學(xué)語言表示就是:但是這個怎么和SVD扯上關(guān)系呢?之前談到,SVD得出的奇異向量也是從奇異值由大到小排列的,按PCA的觀點來看,就是方差最大的坐標(biāo)軸就是第一個奇異向量,方差次大的坐標(biāo)軸就是第二個奇異向量我們回憶一下之前得到的SVD式子:在矩陣的兩邊同時乘上一個矩陣V,由于V是一個正交的矩陣,所以V轉(zhuǎn)置乘以V得到單位陣I,所以可以化成后面的式子將后面的式子與A*P那個m*n的矩陣變換為m*r的矩陣的式子對照看看,在這里,其實V就是P,也就是一個變化的向量。這里是將一個m*n的矩陣壓縮到一個m*r的矩陣,也就是對列進行壓縮,如果我們想對行進行壓縮(在PCA的觀點下,對行進行壓縮可以理解

17、為,將一些相似的sample合并在一起,或者將一些沒有太大價值的sample去掉)怎么辦呢?同樣我們寫出一個通用的行壓縮例子:這樣就從一個m行的矩陣壓縮到一個r行的矩陣了,對SVD來說也是一樣的,我們對SVD分解的式子兩邊乘以U的轉(zhuǎn)置U'這樣我們就得到了對行進行壓縮的式子??梢钥闯?,其實PCA幾乎可以說是對SVD的一個包裝,如果我們實現(xiàn)了SVD,那也就實現(xiàn)了PCA了,而且更好的地方是,有了SVD,我們就可以得到兩個方向的PCA,如果我們對A'A進行特征值的分解,只能得到一個方向的PCA。四、奇異值與潛在語義索引LSI:潛在語義索引(Latent Semantic Indexin

18、g)與PCA不太一樣,至少不是實現(xiàn)了SVD就可以直接用的,不過LSI也是一個嚴(yán)重依賴于SVD的算法,之前吳軍老師在矩陣計算與文本處理中的分類問題中談到:"三個矩陣有非常清楚的物理含義。第一個矩陣X中的每一行表示意思相關(guān)的一類詞,其中的每個非零元素表示這類詞中每個詞的重要性(或者說相關(guān)性),數(shù)值越大越相關(guān)。最后一個矩陣Y中的每一列表示同一主題一類文章,其中每個元素表示這類文章中每篇文章的相關(guān)性。中間的矩陣則表示類詞和文章雷之間的相關(guān)性。因此,我們只要對關(guān)聯(lián)矩陣A進行一次奇異值分解,w我們就可以同時完成了近義詞分類和文章的分類。(同時得到每類文章和每類詞的相關(guān)性)。"上面這段話

19、可能不太容易理解,不過這就是LSI的精髓內(nèi)容,我下面舉一個例子來說明一下,下面的例子來自LSA tutorial,具體的網(wǎng)址我將在最后的引用中給出:這就是一個矩陣,不過不太一樣的是,這里的一行表示一個詞在哪些title中出現(xiàn)了(一行就是之前說的一維feature),一列表示一個title中有哪些詞,(這個矩陣其實是我們之前說的那種一行是一個sample的形式的一種轉(zhuǎn)置,這個會使得我們的左右奇異向量的意義產(chǎn)生變化,但是不會影響我們計算的過程)。比如說T1這個title中就有g(shù)uide、investing、market、stock四個詞,各出現(xiàn)了一次,我們將這個矩陣進行SVD,得到下面的矩陣:左奇

20、異向量表示詞的一些特性,右奇異向量表示文檔的一些特性,中間的奇異值矩陣表示左奇異向量的一行與右奇異向量的一列的重要程序,數(shù)字越大越重要。繼續(xù)看這個矩陣還可以發(fā)現(xiàn)一些有意思的東西,首先,左奇異向量的第一列表示每一個詞的出現(xiàn)頻繁程度,雖然不是線性的,但是可以認(rèn)為是一個大概的描述,比如book是0.15對應(yīng)文檔中出現(xiàn)的2次,investing是0.74對應(yīng)了文檔中出現(xiàn)了9次,rich是0.36對應(yīng)文檔中出現(xiàn)了3次;其次,右奇異向量中一的第一行表示每一篇文檔中的出現(xiàn)詞的個數(shù)的近似,比如說,T6是0.49,出現(xiàn)了5個詞,T2是0.22,出現(xiàn)了2個詞。然后我們反過頭來看,我們可以將左奇異向量和右奇異向量都取后2維(之前是3維的矩陣),投影到一個平面上,可以得到:在圖上,每一個紅色的點,都表示一個詞,每一個藍色的點,都表示一篇文檔,這樣我們可以對這些詞和文檔進行聚類,比如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論