版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
本文格式為Word版,下載可任意編輯——機(jī)器學(xué)習(xí)中的降維方法綜述上海大學(xué)2023~2023學(xué)年春季學(xué)期研究生課程考試
文獻(xiàn)閱讀報(bào)告
課程名稱:模式識(shí)別與機(jī)器學(xué)習(xí)課程編號(hào):07SBE9004
論文題目:機(jī)器學(xué)習(xí)中的數(shù)據(jù)降維方法
研究生姓名:廖宇學(xué)號(hào):14723542
評(píng)語:
成績:任課教師:
評(píng)閱日期:
機(jī)器學(xué)習(xí)中的數(shù)據(jù)降維方法
1.引言
隨著科技的進(jìn)步,特別是數(shù)據(jù)采集和存儲(chǔ)技術(shù)的飛速發(fā)展,不同行業(yè)和領(lǐng)域的數(shù)據(jù)如航天遙感數(shù)據(jù),生物數(shù)據(jù),網(wǎng)絡(luò)數(shù)據(jù)以及金融市場(chǎng)交易數(shù)據(jù)等大量涌現(xiàn),意味著大數(shù)據(jù)時(shí)代的來臨。如何從繁雜多樣,變化迅速的大數(shù)據(jù)中有效地挖掘和提煉人類感興趣的信息,對(duì)數(shù)據(jù)進(jìn)行分析和建立模型,成為了一個(gè)熱門話題。
機(jī)器學(xué)習(xí)是近20多年興起的一種從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)計(jì)的算法,其大量的應(yīng)用都與大數(shù)據(jù)高度耦合,是一種十分適用于大數(shù)據(jù)環(huán)境下的算法。從實(shí)踐的意義上來說,機(jī)器學(xué)習(xí)是一種通過利用數(shù)據(jù),訓(xùn)練出模型,然后使用模型預(yù)計(jì)的一種方法。
在機(jī)器學(xué)習(xí)算法中,降維算法是重要的一部分。由于機(jī)器學(xué)習(xí)算法在處理數(shù)據(jù)或特征時(shí),過高的維數(shù)空間會(huì)包含有冗余信息以及噪音信息,在實(shí)際應(yīng)用例如圖像識(shí)別中造成了誤差,降低了確鑿率,因此需要通過降維算法來減少冗余信息所造成的誤差,提高識(shí)別的精度。另外,通過降維算法還可以尋覓數(shù)據(jù)內(nèi)部的本質(zhì)結(jié)構(gòu)特征,以及加速后續(xù)計(jì)算的速度,解決數(shù)據(jù)的稀疏問題等。
2.數(shù)據(jù)降維方法
2.1主成分分析(PCA)主成分分析(PCA)是最常用的線性降維方法,它的目標(biāo)是通過某種線性投影,將高維的數(shù)據(jù)映射到低維的空間中表示,并期望在所投影的維度上數(shù)據(jù)的方差最大,以此使用較少的數(shù)據(jù)維度,同時(shí)保存住較多的原數(shù)據(jù)點(diǎn)的特性。通俗的理解,假使把所有的點(diǎn)都映射到一起,那么幾乎所有的信息,如點(diǎn)和點(diǎn)之間的距離關(guān)系會(huì)丟失掉,而假使映射后方差盡可能的大,那么數(shù)據(jù)點(diǎn)則會(huì)分散開來,以此來保存更多的信息??梢宰C明,PCA是丟失原始數(shù)據(jù)信息最少的一種線性降維方式。設(shè)n維向量w為目標(biāo)子空間的一個(gè)坐標(biāo)軸方向(稱為映射向量),最大化數(shù)據(jù)映射后的方差,有:
其中m是數(shù)據(jù)實(shí)例的個(gè)數(shù),Xi是數(shù)據(jù)實(shí)例i的向量表達(dá),X是所有數(shù)據(jù)實(shí)例的平均向量。定義W為包含所有映射向量為列向量的矩陣,經(jīng)過線性代數(shù)變換,可以得到如下優(yōu)化目標(biāo)函數(shù):
1mT2max(W(X?X))?i(1)wm?1i?1mintr(WTAW),
Ws.t.WTW?I(2)
其中tr表示矩陣的跡,1mTA?(X?X)(X?X)?ii(3)m?1i?1A是數(shù)據(jù)協(xié)方差矩陣。簡(jiǎn)單得到最優(yōu)的W是由數(shù)據(jù)協(xié)方差矩陣前k個(gè)最大的特征值對(duì)應(yīng)的特征向量作為列向量構(gòu)成的。這些特征向量形成一組正交基并且最好地保存了數(shù)據(jù)中的信息。PCA的輸出就是Y=W’X,由X的原始維度降低到了k維。PCA追求的是在降維之后能夠最大化保持?jǐn)?shù)據(jù)的內(nèi)在信息,并通過衡量在投影方向上的數(shù)據(jù)方差的大小來衡量該方向的重要性。但是這樣投影以后對(duì)數(shù)據(jù)的區(qū)分作用并不大,反而可能使得數(shù)據(jù)點(diǎn)揉雜在一起無法區(qū)分。這也是PCA存在的最大一個(gè)問題,這導(dǎo)致其在某些狀況下的分類效果并不好。
2.2線性判別分析(LDA)
線性判別分析(LDA)是R.Fisher于1936年提出來的,也叫做Fisher’sLinear
Discriminant[1]。LDA是一種有監(jiān)視的線性降維算法。與PCA類似,LDA也要尋覓一組投影向量,并將高維數(shù)據(jù)投影到低維空間以實(shí)現(xiàn)數(shù)據(jù)的降維。與PCA不同的是,LDA要使得原始數(shù)據(jù)投影到該低維空間后,不同類的數(shù)據(jù)盡可能地分開,同類的數(shù)據(jù)盡可能地緊湊,也就是在最小均方議一下選擇能夠最好分開各類數(shù)據(jù)的低維特征。由于數(shù)據(jù)降維的過程含有數(shù)據(jù)的判別信息,LDA所得到的低維特征更有利于分類。因此,LDA是目前在機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典的一個(gè)方法。將LDA與PCA相比較的話,兩者的動(dòng)機(jī)不同,因此對(duì)于一致的數(shù)據(jù)所尋覓的投影向量也不盡一致,PCA在投影方向可以最大程度地保存原始數(shù)據(jù)信息,而LDA的投影方向更有利于區(qū)分兩類數(shù)據(jù),
(參與LDA的計(jì)算過程)
3.總結(jié)與展望
1901年K.Pearson首次提出了主成分分析這個(gè)概念[i],1933年H.Hotelling完善了其數(shù)學(xué)基礎(chǔ),所以PCA又稱為Hotelling變換。PCA的目的是將原始變量轉(zhuǎn)換為一小部分反映事物主要性質(zhì)的變量,也就是主成分。從而將數(shù)據(jù)從高維空間投影到低維空間,并且保證投影后的低維數(shù)據(jù)能夠在最小平方意義下最優(yōu)地描述原有高維數(shù)據(jù)。PCA的各個(gè)主成分可通過求解基于數(shù)據(jù)協(xié)方差矩陣的特征向量得到。PCA的這些特點(diǎn)使得它成為分析多元數(shù)據(jù)的重要工具之一,并且在模式識(shí)別中得到廣泛應(yīng)用。例如,基于PCA的特征臉方法(Eigenfaces)方法已被證明在人臉識(shí)別中是相當(dāng)成功的。眾多研究者在此基礎(chǔ)上進(jìn)一步提出了大量擴(kuò)展和變化方法,其中有代表性的有與和方法相結(jié)合得到的核主成分分析(KernelPrincipalComponentAnalysis,KPCA)、結(jié)合稀疏學(xué)習(xí)的稀疏主成分分析(SparsePrincipalComponentAnalysis,SPCA)、概率主成分分析(ProbabilisticPrincipalComponentAnalysis,PPCA)、可有效處理二維圖像的二維主成分分析(2-DimensionalPrincipalComponentAnalysis,2DPCA)、局部主成分分析(LocalPrincipalComponentAnalysis,LPCA)等。[]
TurkM,PentlandA.Eigenfacesforrecognition[J].Journalofcognitiveneuroscience,1991,3(1):71-86.[]
Sch?lkopfB,SmolaA,MüllerKR.Nonlinearcomponentanalysisasakerneleigenvalueproblem[J].Neuralcomputation,1998,10(5):1299-1319.[]
ZouH,HastieT,TibshiraniR.Sparseprincipalcomponentanalysis[J].Journalofcomputationalandgraphicalstatistics,2023,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- LS/T 1235-2024糧食倉房分類分級(jí)
- 2025-2030年中國高硬脆材料加工行業(yè)開拓第二增長曲線戰(zhàn)略制定與實(shí)施研究報(bào)告
- 2025-2030年中國全鋼子午胎行業(yè)開拓第二增長曲線戰(zhàn)略制定與實(shí)施研究報(bào)告
- 在2024年歲末年初安全生產(chǎn)工作會(huì)議上的講話
- 2020-2025年中國物流自動(dòng)化行業(yè)市場(chǎng)前景預(yù)測(cè)及投資方向研究報(bào)告
- 廣東省深圳市鹽田區(qū)2023-2024學(xué)年五年級(jí)上學(xué)期英語期末試卷
- 五年級(jí)數(shù)學(xué)(小數(shù)除法)計(jì)算題專項(xiàng)練習(xí)及答案匯編
- 應(yīng)急移動(dòng)雷達(dá)塔 5米玻璃鋼接閃桿 CMCE電場(chǎng)補(bǔ)償器避雷針
- 快易冷儲(chǔ)罐知識(shí)培訓(xùn)課件
- 2025年人教版英語五年級(jí)下冊(cè)教學(xué)進(jìn)度安排表
- 2024-2025學(xué)年北京房山區(qū)初三(上)期末英語試卷
- 2024年三年級(jí)英語教學(xué)工作總結(jié)(修改)
- 咖啡廳店面轉(zhuǎn)讓協(xié)議書
- 期末(試題)-2024-2025學(xué)年人教PEP版英語六年級(jí)上冊(cè)
- 鮮奶購銷合同模板
- 申論公務(wù)員考試試題與參考答案(2024年)
- DB4101T 9.1-2023 反恐怖防范管理規(guī)范 第1部分:通則
- 2024-2030年中國公安信息化建設(shè)與IT應(yīng)用行業(yè)競(jìng)爭(zhēng)策略及投資模式分析報(bào)告
- 2024年加油站場(chǎng)地出租協(xié)議
- 南寧房地產(chǎn)市場(chǎng)月報(bào)2024年08月
- 2024年金融理財(cái)-擔(dān)保公司考試近5年真題附答案
評(píng)論
0/150
提交評(píng)論