版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
10.4算法總結(jié)10.1算法概述10.2算法原理10.3算法案例目錄第十章主成分分析人工智能算法與實踐—1
—
01算法概述PartTHREE—2
—
在對某一事物進行實證研究中,為了更全面、準(zhǔn)確地反映出事物的特征及其發(fā)展規(guī)律,人們往往要考慮與其有關(guān)系的多個指標(biāo),這些指標(biāo)在多元統(tǒng)計中也稱為變量。這樣就產(chǎn)生了如下問題:一方面人們?yōu)榱吮苊膺z漏重要的信息而考慮盡可能多的指標(biāo),而另一方面隨著考慮指標(biāo)的增多增加了問題的復(fù)雜性,同時由于各指標(biāo)均是對同一事物的反映,不可避免地造成信息的大量重疊,這種信息的重疊有時甚至?xí)⑹挛锏恼嬲卣髋c內(nèi)在規(guī)律?;谏鲜鰡栴},人們就希望在定量研究中涉及的變量較少,而得到的信息量又較多。主成分分析正是研究如何通過原來變量的少數(shù)幾個線性組合來解釋原來變量絕大多數(shù)信息的一種多元統(tǒng)計方法。10.1算法概述—3
—
研究某一問題涉及的眾多變量之間有一定的相關(guān)性,那也就肯定存在起支配作用的共同因素,根據(jù)這一點,通過對原始變量相關(guān)矩陣或協(xié)方差矩陣內(nèi)部結(jié)構(gòu)關(guān)系的研究,利用原始變量的線性組合形成幾個綜合指標(biāo)(主成分),在保留原始變量主要信息的前提下起到降維與簡化問題的作用,使得在研究復(fù)雜問題時更容易抓住主要矛盾。10.1算法概述—4
—
主成分與原始變量2431每一個主成分都是各原始變量的線性組合主成分的數(shù)目大大少于原始變量的數(shù)目主成分保留了原始變量絕大多數(shù)信息各主成分之間互不相關(guān)10.1算法概述—5
—
一般地說,利用主成分分析得到的主成分與原始變量之間有以下關(guān)系。
10.1算法概述—6
—
02算法原理PartTHREE—7
—
10.2算法原理—8
—
如圖,對于一個坐標(biāo)點(3,2)得到,其代表的意思是二維坐標(biāo)里其橫坐標(biāo)為3,縱坐標(biāo)為2。其實這隱含了一個假設(shè),即其橫縱坐標(biāo)的基為(1,0)和(0,1)。對于一般的二維向量,這似乎是大家的默認(rèn)情況,就像隨便給出一個數(shù)字10,大家會認(rèn)為這是10進制表示,除非特殊標(biāo)明,不會把它當(dāng)作其他進制來理解。10.2算法原理—9
—
10.2算法原理—10
—
10.2算法原理—11
—
同樣對于一個具有n個特征的集合來說,很難說這n個特征都是完全有必要的,所以我們就想辦法來精簡一些特征。選取少于n個的基向量組,將數(shù)據(jù)投影在這個向量組上,減少空間的同時又能保證信息量。首先需要明確的一點是什么才算好的基向量?首先舉一個將二維空間的數(shù)據(jù)投影到一維空間的情況。如上圖所示,對于空間中的這些點,我們應(yīng)該怎么投影才能夠盡可能的保持?jǐn)?shù)據(jù)的信息量呢?通過上圖中可以看出,如果將數(shù)據(jù)投影到PC1上,那么所有的數(shù)據(jù)點較為分散,與之相反,如果投影到PC2上,則數(shù)據(jù)較為集中??紤]一個極端的情況,假如所有的點在投影之后全部集中在一個點上,這樣好嗎?當(dāng)然不!10.2算法原理—12
—
如果所有的點都集中到一個點上,那就說明所有的點都沒有差別,信息全部丟失了。所以我們希望當(dāng)數(shù)據(jù)點投影到某個坐標(biāo)軸之上以后,數(shù)據(jù)越分散越好,而衡量一組數(shù)據(jù)是否發(fā)散恰好有一個統(tǒng)計名詞“方差”,也就是說投影過后的點值方差越大越好。同時,如果數(shù)據(jù)被投影到多個基向量上,那么我們希望這些基向量之間的耦合程度越小越好,也就說基向量之間應(yīng)該是正交的,如下圖所示。因為如果不考慮基向量之間的正交性,只考慮方差最大的話,那么所求得的值其實都是一樣的。關(guān)于在不同的基向量上的投影的線性相關(guān)度也有一個度量標(biāo)準(zhǔn)--協(xié)方差。那么我們的目標(biāo)明確了,使得相同特征之間方差越大越好,不同特征之間協(xié)方差越小越好。10.2算法原理—13
—
10.2算法原理—14
—
10.2算法原理—15
—
03
算法案例PartTHREE—16
—
數(shù)據(jù)降維本實驗對鳶尾花數(shù)據(jù)集采用主成分分析方法,使數(shù)據(jù)降維。數(shù)據(jù)集中前4列數(shù)據(jù)分別代表它的4項特征:花萼長度、花萼寬度、花瓣長度、花瓣寬度,最后一列為標(biāo)簽。共有150條數(shù)據(jù)。該試驗的目的是為了找到樣本數(shù)據(jù)的主成分特征,并將數(shù)都投影到主成分特征的方向上,投影后的數(shù)據(jù)可以很容易的對其進行分類。10.3算法案例—17
—
10.3算法案例—18
—
本實驗數(shù)據(jù)為開放型數(shù)據(jù)集,直接下載到本地。1.數(shù)據(jù)讀入2.數(shù)據(jù)標(biāo)準(zhǔn)化10.3算法案例—19
—
3.指定維度,訓(xùn)練降維模型并返回10.3算法案例—20
—
4.對降維后數(shù)據(jù)進行可視化運行結(jié)果如上圖所示。實驗將主成分的個數(shù)指定為2,即降維后數(shù)據(jù)的維度,將原本的樣本數(shù)據(jù)向主成分特征的方向上進行投影,得到上圖所示的分類效果。10.3算法案例—21
—
04算法總結(jié)PartTHREE—22
—
這里對PCA算法做一個總結(jié)。作為一個非監(jiān)督學(xué)習(xí)的降維方法,它只需要特征值分解,就可以對數(shù)據(jù)進行壓縮,去噪。因此在實際場景應(yīng)用很廣泛。為了克服PCA的一些缺點,出現(xiàn)了很多PCA的變種,比如第六節(jié)的為解決非線性降維的KPCA,還有解決內(nèi)存限制的增量PCA方法IncrementalPCA,以及解決稀疏數(shù)據(jù)降維的PCA方法SparsePCA等。
10.4算法總結(jié)—23
—
PCA算法的主要優(yōu)點有:1)僅僅需要以方差衡量信息量,不受數(shù)據(jù)集以外的因素影響。
2)各主成分之間正交,可消除原始數(shù)據(jù)成分間的相互影響的因素。
3)計算方法簡單,主要運算是特征值分解,易于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 土建建設(shè)工程合同范例
- 整體轉(zhuǎn)讓飯店合同范例
- 南京 前期物業(yè)合同范例
- 拆除工程勞務(wù)合同范例
- 美容院第三方合作合同范例
- 2025合同樣例小產(chǎn)權(quán)房買賣合同買方范本
- 樹木砍伐安全合同范例
- 商鋪用電安全合同范例
- 導(dǎo)游聘用勞動合同范例
- 廣州代理公司注冊合同范例
- 云南保山電力股份有限公司招聘筆試題庫
- 福維克直銷獎金制度完整版
- JCT 2789-2023 涂料用長石粉 (正式版)
- DB11-T 1832.22-2023 建筑工程施工工藝規(guī)程 第22部分:裝配式裝修工程
- 四川省成都市成華區(qū)2023-2024學(xué)年七年級上學(xué)期期末語文試題
- 醫(yī)療陪護行業(yè)前景分析報告
- 個體診所藥品清單模板
- 有機更新工作總結(jié)
- eviews操作說明課件
- 教師法律法規(guī)講座課件
- 戰(zhàn)場偵察課件
評論
0/150
提交評論