降維和特征選擇_第1頁
降維和特征選擇_第2頁
降維和特征選擇_第3頁
降維和特征選擇_第4頁
降維和特征選擇_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)降維和特征選擇的區(qū)別數(shù)據(jù)降維,一般說的是維數(shù)約簡(Dimensionalityreduction)。它的思路是:將原始高維特征空間里的點(diǎn)向一個(gè)低維空間投影,新的空間維度低于原特征空間,所以維數(shù)減少了。在這個(gè)過程中,特征發(fā)生了根本性的變化,原始的特征消失了(雖然新的特征也保持了原特征的一些性質(zhì))。特征選擇,是從n個(gè)特征中選擇d(d<n)個(gè)出來,而其它的n-d個(gè)特征舍棄。所以,新的特征只是原來特征的一個(gè)子集。沒有被舍棄的d個(gè)特征沒有發(fā)生任何變化。這是二者的主要區(qū)別。在大部分情況下特征選擇都是在冗余變量較多的情況下使用,特征之間并不是正交的,甚至還存在冗余坐標(biāo)(即用p個(gè)特征表達(dá)了k(k<p)維空間),因此刪除部分冗余坐標(biāo)并不會(huì)顯著降維。另一方面,若原來的特征本身就是正交坐標(biāo)系,那么刪除多少特征就降了多少維,此時(shí)與降維類似,只是這種降維方式限定了只通過刪除某幾個(gè)坐標(biāo)軸來實(shí)現(xiàn)。降維,如果特指PCA這種線性降維方法,則降維所得的子空間是在原始坐標(biāo)系旋轉(zhuǎn)下不變的。而如果坐標(biāo)系恰好選取為主向量,則PCA實(shí)際上等價(jià)于對這組特殊的坐標(biāo)系進(jìn)行特征選擇,方式是根據(jù)樣本在坐標(biāo)軸上分散的程度來決定該坐標(biāo)軸的去留。而在一般情形下,PCA降維所得的子空間是由幾乎所有原始特征張成的,因此原始特征全部起作用。因此,有學(xué)者(Zou&Hastie)提出了sparsePCA,旨在強(qiáng)迫使用部分原始特征張成盡量“優(yōu)質(zhì)”的子空間,同時(shí)實(shí)現(xiàn)了降維+特征選擇,從而能在分析主成分的同時(shí)還可以加入模型的解釋性。特征選擇方法:1)方差選擇法使用方差選擇法,先要計(jì)算各個(gè)特征的方差,然后根據(jù)閾值,選擇方差大于閾值的特征。(有區(qū)分度)2)相關(guān)系數(shù)法上式走義了總體相關(guān)系飆常用希臘小寫字母卩作対代表符耳估草祥本的th方差手nB準(zhǔn)差』可輕刊皮Je懣相關(guān)系臥常用英文彳爭母r代未:使用相關(guān)系數(shù)法,先要計(jì)算各個(gè)特征對目標(biāo)值的相關(guān)系數(shù)以及相關(guān)系數(shù)的P值。Pearson相關(guān)系數(shù)的一個(gè)明顯缺陷是,他只對線性關(guān)系敏感。如果關(guān)系是非線性的,即便兩個(gè)變量具有——對應(yīng)的關(guān)系,Pearson相關(guān)性也可能會(huì)接近0。3)卡方檢驗(yàn)經(jīng)典的卡方檢驗(yàn)是檢驗(yàn)定性自變量對定性因變量的相關(guān)性。過程:先假設(shè)兩個(gè)變量確實(shí)是獨(dú)立的(行話就叫做“原假設(shè)”),然后觀察實(shí)際值(也可以叫做觀察值)與理論值(這個(gè)理論值是指“如果兩者確實(shí)獨(dú)立”的情況下應(yīng)該有的值)的偏差程度,如果偏差足夠小,我們就認(rèn)為誤差是很自然的樣本誤差,是測量手段不夠精確導(dǎo)致或者偶然發(fā)生的,兩者確確實(shí)實(shí)是獨(dú)立的,此時(shí)就接受原假設(shè);如果偏差大到一定程度,使得這樣的誤差不太可能是偶然產(chǎn)生或

者測量不精確所致,我們就認(rèn)為兩者實(shí)際上是相關(guān)的,即否定原假設(shè),而接受備擇假設(shè)。假設(shè)自變量有N種取值,因變量有M種取值,考慮自變量等于i且因變量等于j的樣本頻數(shù)的觀察值與期望的差距,構(gòu)建統(tǒng)計(jì)量。巾嗥性別和代妝與占&有關(guān)系,四亍格子應(yīng)該足括號(hào)里的數(shù)■:期望值,用樞大似黴怙計(jì)55=1巾嗥性別和代妝與占&有關(guān)系,四亍格子應(yīng)該足括號(hào)里的數(shù)■:期望值,用樞大似黴怙計(jì)55=1口葉W20D,甘中“喚可理解為化肢的概車?戀侶用1他得刮男人化妝樁率的佩撚怙計(jì);,弦和實(shí)際值■;希卜的樹)肖差距,遲論和賣際的差距說明這不是I適機(jī)的組合。方翊合曲式戸心卅--阿一刑」遷卅+阿二血+七4亦_293>-3.^J 55 55 45 45"c)=(1^2p)https://blog.csdn.net/ldcadai/article/details/72854462/yihucha166/article/details/50646615互信息正式地」兩幾■離散隨機(jī)變量)<和¥的互信息可L屣義為:』(X;Y)』(X;Y)=工工鞏餌切1跆諷叭期)p(^)p(y)經(jīng)典的互信息也是評(píng)價(jià)定性自變量對定性因變量的相關(guān)性的。互信息是X和Y聯(lián)合分布相對于假定X和Y獨(dú)立情況下的聯(lián)合分布之間的內(nèi)在依賴性。于是互信息以下面方式度量依賴性:I(X;Y)=0當(dāng)且僅當(dāng)X和Y為獨(dú)立隨機(jī)變量。從一個(gè)方向很容易看出:當(dāng)X和Y獨(dú)立時(shí),p(x,y)=p(x)p(y),因此:5)隨機(jī)森林oob(加入噪聲:隨機(jī)改變樣本在特征X處的值)1持征重要性宸量計(jì)算某個(gè)特征X的重要性時(shí),具體步驟如下:1) 對每一顆塊策樹「選擇相應(yīng)時(shí)袋外數(shù)據(jù)(outotbagr00B)計(jì)算袋外散據(jù)誤差「記為errOQBI.所謂袋外數(shù)據(jù)是指』每次建立決策樹時(shí)「通過車復(fù)抽樣得到一個(gè)數(shù)據(jù)用于訓(xùn)練決策軼L這日毎有犬細(xì)七的數(shù)鉛沒有被利用「沒育參與決第捌茁建立*這部渤B可以用=對決策樹的性能進(jìn)行評(píng)估』計(jì)真模型E勺預(yù)測錯(cuò)誤率「稱為袋外數(shù)據(jù)課差,這已經(jīng)經(jīng)過證明是無偏怙計(jì)的,所以在隨機(jī)尋林算法中不需蔓再進(jìn)行交置驗(yàn)證或者里獨(dú)的測試隼來獲取測試隼誤差的無偏估計(jì)。2) 隨機(jī)對総外數(shù)拒00目所肓樣本的特征劭臥噪聲干擾冋以隨機(jī)改變樣本在特征X處的值),再次計(jì)算袋外數(shù)據(jù)誤差,記為errOOB2p3J假設(shè)森林中有IM棵樹,則持征X的重妾性-》(errOOB2-errCOB1}/Nc這個(gè)數(shù)值之所以能夠說期特征的車聲性是因?yàn)椋绻尤胪訖C(jī)嗥由后‘裳外教搖準(zhǔn)確率大幅度下降{即errOOB2±7+)「講明這個(gè)咼征對于樣本的隕測結(jié)果肓很大影響』進(jìn)而說明垂要理度th?高口4)最后對每個(gè)特征計(jì)算后的結(jié)果歸一化。6)信息增益等7)使用L1,L2正則化項(xiàng)L1正則化項(xiàng)使解更為稀疏,L2正則化項(xiàng)使解更為平滑。L1懲罰項(xiàng)降維的原理在于保留多個(gè)對目標(biāo)值具有同等相關(guān)性的特征中的一個(gè),所以沒選到的特征不代表不重要??山Y(jié)合L2懲罰項(xiàng)來優(yōu)化。具體操作為:若一個(gè)特征在L1中的權(quán)值為1,選擇在L2中權(quán)值差別不大且在L1中權(quán)值為0的特征構(gòu)成同類集合,將這一集合中的特征平分L1中的權(quán)值。PCA簡介2.1計(jì)算過程計(jì)算數(shù)據(jù)特征的協(xié)方差矩陣,求協(xié)方差矩陣的特征值,特征向量。選取特征值最大的K個(gè)特征值相對應(yīng)的特征向量作為降維后的特征方向。最后將樣本點(diǎn)投影到選取的特征向量上。假設(shè)樣例數(shù)為m特征數(shù)為n減去均值后的樣本矩陣為DataAdjust(m*n),協(xié)方差矩陣(svd右奇異矩陣)0是n*n,選取的k個(gè)特征向量組成的矩陣為EigenVectors(n*k)。那么投影后的數(shù)據(jù)FinalData為FinalData(10*1)=DataAdjust(10*2矩陣)x特征向量(-0.677873399,-0.735178656)T。去均值的意義:去均值化是為了方面后面的協(xié)方差,去均值化后各維度均值為零,協(xié)方差中的均值也就是零了,方便求解。目標(biāo)與協(xié)方差矩陣的意義:對原始n維特征進(jìn)行降維,獲取最好的k維特征使得新的低維數(shù)據(jù)集會(huì)盡可能的保留原始數(shù)據(jù)。尋找k維特征的依據(jù)是:PCA根據(jù)最大方差理論,找到這樣一組投影向量,使得數(shù)據(jù)投影后的方差最大。同時(shí)需要滿足這些投影向量之間是正交的。所以pea的目標(biāo)是選擇K個(gè)單位(模為1)正交基,使得原始數(shù)據(jù)變換至U這組基上后,各向量兩兩間協(xié)方差為0,而投影后的方差貝V盡可能大(在正交的約束下,取最大的K個(gè)方差)。這也是要求協(xié)方差矩陣的原因我們知道協(xié)方差矩陣為實(shí)對稱陣,可以正交相似對角化:。此時(shí)Q可以看為AA基的特征向量矩陣,丄為特征值集合。而特征值大的又是方差大的方向。因?yàn)樘卣髦当硎驹紭颖颈硎驹谔卣飨蛄糠较蛏系目s放步長,所以,特征值越大,在對應(yīng)的特征向量方向上,投影后的數(shù)據(jù)越分散,方差越大。PCA可以把可能具有相關(guān)性的高維變量合成線性無關(guān)的低維變量,稱為主成分(prineipaleomponents)。PCA旋轉(zhuǎn)數(shù)據(jù)集與其主成分對齊,就得到了降維后的數(shù)據(jù)集。2.2含義最大方差理論:在信號(hào)處理中認(rèn)為信號(hào)具有較大的方差,噪聲有較小的方差,信噪比就是信號(hào)與噪聲的方差比,越大越好。如前面的圖,樣本在u1上的投影方差較大,在u2上的投影方差較小,那么可認(rèn)為u2上的投影是由噪聲引起的。因此我們認(rèn)為,最好的k維特征是將n維樣本點(diǎn)轉(zhuǎn)換為k維后,每一維上的樣本方差都很大。然后正交的意義。優(yōu)缺點(diǎn):優(yōu)點(diǎn):以方差衡量信息的無監(jiān)督學(xué)習(xí),不受樣本標(biāo)簽限制。各主成分之間正交,可消除原始數(shù)據(jù)成分間的相互影響可減少指標(biāo)選擇的工作量用少數(shù)指標(biāo)代替多數(shù)指標(biāo),利用PCA降維是最常用的算法計(jì)算方法簡單,易于在計(jì)算機(jī)上實(shí)現(xiàn)。缺點(diǎn):1、 主成分解釋其含義往往具有一定的模糊性,不如原始樣本完整2、 貢獻(xiàn)率小的主成分往往可能含有對樣本差異的重要信息3、 特征值矩陣的正交向量空間是否唯一有待討4、 無監(jiān)督學(xué)習(xí)PCA,特征值和特征向量/在A的作用下”保持方向不變/在A的作用下”保持方向不變"進(jìn)行比例為入的伸縮特征值贏向44另外可以通過最小二乘的方法證明,最大特征值對應(yīng)的特征向量的方向,就是第一主成分的方向,其他方向類比可得。3.特征值和奇異值奇異值都是非負(fù)的,因?yàn)樗菑囊粋€(gè)對稱陣的特征值,我們知道實(shí)對稱陣都是半正定的所以他的特征值都是非負(fù)的。經(jīng)過了去除均值的操作之后,就可以用SVD分解來求解這樣一個(gè)投影向量,選擇特征值最大的方向。主成分方向?yàn)樘卣飨蛄糠较蛲频剑豪米钚《朔ā?zhongkelee/article/details/44064401任眼用持征向呈構(gòu)成的空問中的13坦耳袤示為:RII:yx,x>=a:卜…+仗:L缶『:-<Ar.Ata=(般)『檢=x'A'Ar=<x.A'.4r>=<的芻 洛如?空+…一色屮丿生〉-<ffi<+…+礙顯《A呂■+■■+叫舜札>=品+-+恥;“何十…十記)拘由匸怦甌蒯1BL?沖護(hù)=吟*爐,目融瞰時(shí)*氣劇理yfi”ifefltS皿嗎脅*4"莊持征值時(shí)「對應(yīng)的持征向雖的方向」施皓一主Mui的方向!借(二向?yàn)閃的券nmE<a對應(yīng)的特征向雖的方向,lit此笑主成分所占整個(gè)信息的百分比可用下式計(jì)算式中分母為口廣所有奇異營平方和,分子為所選取的前kA奇異值平方和口LDA(LinearDiscriminantAnalysis(線性判別分析))其是一種監(jiān)督學(xué)習(xí)方法。目標(biāo)是:將帶上標(biāo)簽的數(shù)據(jù)(點(diǎn)),通過投影(線性變換)的方法,投影到維度更低的空間中,使得投影后的點(diǎn),會(huì)按標(biāo)簽分成不同的類別,使得類別內(nèi)的點(diǎn)距離越近越好(集中),類別間的點(diǎn)越遠(yuǎn)越好。/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html類內(nèi)關(guān)系定義為L投影后距類中心點(diǎn)的距離的平方和。類間關(guān)系定義為投影后各類中心點(diǎn)之間的距離:假設(shè)用來更分二廿類的直能(按影函數(shù)〕為:LDA分黃的一個(gè)目標(biāo)是使得不同婁別芒可的距融遠(yuǎn)越妊「同一禿別之中的勵(lì)殛近越溫F斤以我們需基走文幾于關(guān)庭的諂"類別iMIB能口,□克為:〔DI表r扈于類另Li為京)卿嚴(yán)丄妾利I投影后的工心愿為:m.=Hbm.篁星期」i掾影己殊!I點(diǎn)之問的分埜程度〔方差)為:工(丫-叫丫伽一旳F繪終我們可二得頁一個(gè)下面的公藝,WTTT.DAJS^^JwfH伽一旳FJ(W)=£]+A\求解上式,使用朗格朗日函數(shù)進(jìn)行變換求解。前面所述的投影函數(shù)就是降維用的。t-sne/blog/2017/02/05/t_sne_full.html是一種非線性降維算法,非常適用于高維數(shù)據(jù)降維到2維或者3維,進(jìn)行可視化。SNE構(gòu)建一個(gè)高維對象之間的概率分布,使得相似的對象有更高的概率被選擇,而不相似的對象有較低的概率被選擇。SNE在低維空間里在構(gòu)建這些點(diǎn)的概率分布,使得這兩個(gè)概率分布之間盡可能的相似。5獨(dú)立成分分析(ICA)1)ICA與PCA之間的關(guān)系:ICA理論認(rèn)為用來觀測的混合數(shù)據(jù)陣X是由獨(dú)立元S經(jīng)過A線性加權(quán)獲,ICA要做的是一個(gè)解混過程。ICA理論的目標(biāo)就是通過X求得一個(gè)分離矩陣W,使得W作用在X上所獲得的信號(hào)Y是獨(dú)立源S的最優(yōu)逼近,該關(guān)系可以通過下式表示:Y=WX=WAS,A=inv(W)逆矩陣。2)實(shí)現(xiàn)ICA第一步做白化預(yù)處理(whitening),讓輸出信號(hào)不相關(guān)而且同方差。先用PCA得到y(tǒng),再把y的各個(gè)分量標(biāo)準(zhǔn)化(即讓各分量除以自身的標(biāo)準(zhǔn)差)得到z。預(yù)處理后得到的z滿足下面性質(zhì):z的各個(gè)分量不相關(guān);z的各個(gè)分量的方差都為1。第二步找一個(gè)旋轉(zhuǎn)矩陣W使Z獨(dú)立(statisticallyinde

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論