人工智能算法與實踐-第10章主成分分析

上傳人：1*** IP屬地：上海上傳時間：2024-10-28 格式：PPTX 頁數(shù)：25 大?。?.52MB 積分：9.6 舉報 版權(quán)申訴

已閱讀5頁，還剩20頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

10.4算法總結(jié)10.1算法概述10.2算法原理10.3算法案例目錄第十章主成分分析人工智能算法與實踐—1

—

01算法概述PartTHREE—2

—

在對某一事物進行實證研究中，為了更全面、準(zhǔn)確地反映出事物的特征及其發(fā)展規(guī)律，人們往往要考慮與其有關(guān)系的多個指標(biāo)，這些指標(biāo)在多元統(tǒng)計中也稱為變量。這樣就產(chǎn)生了如下問題：一方面人們?yōu)榱吮苊膺z漏重要的信息而考慮盡可能多的指標(biāo)，而另一方面隨著考慮指標(biāo)的增多增加了問題的復(fù)雜性，同時由于各指標(biāo)均是對同一事物的反映，不可避免地造成信息的大量重疊，這種信息的重疊有時甚至?xí)⑹挛锏恼嬲卣髋c內(nèi)在規(guī)律?；谏鲜鰡栴}，人們就希望在定量研究中涉及的變量較少，而得到的信息量又較多。主成分分析正是研究如何通過原來變量的少數(shù)幾個線性組合來解釋原來變量絕大多數(shù)信息的一種多元統(tǒng)計方法。10.1算法概述—3

—

研究某一問題涉及的眾多變量之間有一定的相關(guān)性，那也就肯定存在起支配作用的共同因素，根據(jù)這一點，通過對原始變量相關(guān)矩陣或協(xié)方差矩陣內(nèi)部結(jié)構(gòu)關(guān)系的研究，利用原始變量的線性組合形成幾個綜合指標(biāo)（主成分），在保留原始變量主要信息的前提下起到降維與簡化問題的作用，使得在研究復(fù)雜問題時更容易抓住主要矛盾。10.1算法概述—4

—

主成分與原始變量2431每一個主成分都是各原始變量的線性組合主成分的數(shù)目大大少于原始變量的數(shù)目主成分保留了原始變量絕大多數(shù)信息各主成分之間互不相關(guān)10.1算法概述—5

—

一般地說，利用主成分分析得到的主成分與原始變量之間有以下關(guān)系。

10.1算法概述—6

—

02算法原理PartTHREE—7

—

10.2算法原理—8

—

如圖，對于一個坐標(biāo)點(3,2)得到,其代表的意思是二維坐標(biāo)里其橫坐標(biāo)為3，縱坐標(biāo)為2。其實這隱含了一個假設(shè)，即其橫縱坐標(biāo)的基為(1,0)和(0,1)。對于一般的二維向量，這似乎是大家的默認(rèn)情況，就像隨便給出一個數(shù)字10，大家會認(rèn)為這是10進制表示，除非特殊標(biāo)明，不會把它當(dāng)作其他進制來理解。10.2算法原理—9

—

10.2算法原理—10

—

10.2算法原理—11

—

同樣對于一個具有n個特征的集合來說，很難說這n個特征都是完全有必要的，所以我們就想辦法來精簡一些特征。選取少于n個的基向量組，將數(shù)據(jù)投影在這個向量組上，減少空間的同時又能保證信息量。首先需要明確的一點是什么才算好的基向量？首先舉一個將二維空間的數(shù)據(jù)投影到一維空間的情況。如上圖所示，對于空間中的這些點，我們應(yīng)該怎么投影才能夠盡可能的保持?jǐn)?shù)據(jù)的信息量呢？通過上圖中可以看出，如果將數(shù)據(jù)投影到PC1上，那么所有的數(shù)據(jù)點較為分散，與之相反，如果投影到PC2上，則數(shù)據(jù)較為集中?？紤]一個極端的情況，假如所有的點在投影之后全部集中在一個點上，這樣好嗎？當(dāng)然不！10.2算法原理—12

—

如果所有的點都集中到一個點上，那就說明所有的點都沒有差別，信息全部丟失了。所以我們希望當(dāng)數(shù)據(jù)點投影到某個坐標(biāo)軸之上以后，數(shù)據(jù)越分散越好，而衡量一組數(shù)據(jù)是否發(fā)散恰好有一個統(tǒng)計名詞“方差”，也就是說投影過后的點值方差越大越好。同時，如果數(shù)據(jù)被投影到多個基向量上，那么我們希望這些基向量之間的耦合程度越小越好，也就說基向量之間應(yīng)該是正交的，如下圖所示。因為如果不考慮基向量之間的正交性，只考慮方差最大的話，那么所求得的值其實都是一樣的。關(guān)于在不同的基向量上的投影的線性相關(guān)度也有一個度量標(biāo)準(zhǔn)--協(xié)方差。那么我們的目標(biāo)明確了，使得相同特征之間方差越大越好，不同特征之間協(xié)方差越小越好。10.2算法原理—13

—

10.2算法原理—14

—

10.2算法原理—15

—

算法案例PartTHREE—16

—

數(shù)據(jù)降維本實驗對鳶尾花數(shù)據(jù)集采用主成分分析方法，使數(shù)據(jù)降維。數(shù)據(jù)集中前4列數(shù)據(jù)分別代表它的4項特征：花萼長度、花萼寬度、花瓣長度、花瓣寬度，最后一列為標(biāo)簽。共有150條數(shù)據(jù)。該試驗的目的是為了找到樣本數(shù)據(jù)的主成分特征，并將數(shù)都投影到主成分特征的方向上，投影后的數(shù)據(jù)可以很容易的對其進行分類。10.3算法案例—17

—

10.3算法案例—18

—

本實驗數(shù)據(jù)為開放型數(shù)據(jù)集，直接下載到本地。1.數(shù)據(jù)讀入2.數(shù)據(jù)標(biāo)準(zhǔn)化10.3算法案例—19

—

3.指定維度，訓(xùn)練降維模型并返回10.3算法案例—20

—

4.對降維后數(shù)據(jù)進行可視化運行結(jié)果如上圖所示。實驗將主成分的個數(shù)指定為2，即降維后數(shù)據(jù)的維度，將原本的樣本數(shù)據(jù)向主成分特征的方向上進行投影，得到上圖所示的分類效果。10.3算法案例—21

—

04算法總結(jié)PartTHREE—22

—

這里對PCA算法做一個總結(jié)。作為一個非監(jiān)督學(xué)習(xí)的降維方法，它只需要特征值分解，就可以對數(shù)據(jù)進行壓縮，去噪。因此在實際場景應(yīng)用很廣泛。為了克服PCA的一些缺點，出現(xiàn)了很多PCA的變種，比如第六節(jié)的為解決非線性降維的KPCA，還有解決內(nèi)存限制的增量PCA方法IncrementalPCA，以及解決稀疏數(shù)據(jù)降維的PCA方法SparsePCA等。

10.4算法總結(jié)—23

—

PCA算法的主要優(yōu)點有：1）僅僅需要以方差衡量信息量，不受數(shù)據(jù)集以外的因素影響。

2）各主成分之間正交，可消除原始數(shù)據(jù)成分間的相互影響的因素。

3）計算方法簡單，主要運算是特征值分解，易于

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 建筑水利

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能算法與實踐-第10章主成分分析

文檔簡介

溫馨提示

最新文檔

評論

人工智能算法與實踐-第10章 主成分分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

人工智能算法與實踐-第10章主成分分析