非負(fù)矩陣分解及其在非均衡數(shù)據(jù)分類中的應(yīng)用

上傳人：文*** IP屬地：四川上傳時(shí)間：2022-07-12 格式：DOCX 頁(yè)數(shù)：76 大?。?63.90KB 積分：12 舉報(bào) 版權(quán)申訴

非負(fù)矩陣分解及其在非均衡數(shù)據(jù)分類中的應(yīng)用_第2頁(yè)

非負(fù)矩陣分解及其在非均衡數(shù)據(jù)分類中的應(yīng)用_第3頁(yè)

非負(fù)矩陣分解及其在非均衡數(shù)據(jù)分類中的應(yīng)用_第4頁(yè)

非負(fù)矩陣分解及其在非均衡數(shù)據(jù)分類中的應(yīng)用_第5頁(yè)

已閱讀5頁(yè)，還剩71頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、、碩士學(xué)位論文非負(fù)矩陣分解及其在非均衡數(shù)據(jù)分類中的應(yīng)用作者姓名范笑宇導(dǎo)師姓名、職稱姬紅兵教授一級(jí)學(xué)科信息與通信工程二級(jí)學(xué)科信號(hào)與信息處理申請(qǐng)學(xué)位類別工學(xué)碩士提交學(xué)位論文日期 2014年12月西安電子科技大學(xué)學(xué)位論文獨(dú)創(chuàng)性（或創(chuàng)新性）聲明秉承學(xué)校嚴(yán)謹(jǐn)?shù)膶W(xué)風(fēng)和優(yōu)良的科學(xué)道德，本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知，除了文中特別加以標(biāo) 注和致謝中所羅列的內(nèi)容以外，論文中不包含其他人己經(jīng)發(fā)表或撰寫過(guò)的研究成果；也不包含為獲得西安電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均己在論文中作了明確的說(shuō) 明并

2、表示了謝意。學(xué)位論文若有不實(shí)之處，本人承擔(dān)一切法律責(zé)任。本人簽名：他親號(hào) 日期：K山-以牛西安電子科技大學(xué)關(guān)于論文使用授權(quán)的說(shuō)明本人完全了解西安電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定，即：研究生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬于西安電子科技大學(xué)。學(xué)校有權(quán) 保留送交論文的復(fù)印件，允許查閱、借閱論文；學(xué)?？梢怨颊撐牡娜炕虿糠?內(nèi)容，允許采用影印、縮印或其它復(fù)制手段保存論文。同時(shí)本人保證，獲得學(xué)位后結(jié)合學(xué)位論文研充成果撰寫的文章，署名單位為西安電子科技大學(xué)。保密的學(xué)位論文在年解密后適用本授權(quán)書。本人簽名，他父導(dǎo)師簽名:日期：u心.s 期:鏟/每mResearch on Non-

3、negative MatrixFactorization and its Application toUnbalanced Data ClassificationA thesis submitted toXIDIAN UNIVERSITYin partial fulfillment of the requirementsfor the degree of Masterin Information and Communication EngineeringByFan XiaoyuSupervisor: Prof. Ji HongbingDecember 2014摘要摘要非負(fù)矩陣分解(NMF)是一

4、種處理大規(guī)模高維數(shù)據(jù)的矩陣分解方法，它以非負(fù)約束和局部表示等獨(dú)特的優(yōu)勢(shì)吸引了眾多研究者的關(guān)注，并被廣泛地應(yīng)用于數(shù)據(jù)挖掘、計(jì)算機(jī)視覺和模式識(shí)別等領(lǐng)域。此外，實(shí)際的分類問(wèn)題中存在很多非均衡數(shù) 據(jù)，包括密度不均衡、類別不均衡和常見的樣本數(shù)目不均衡等情況?；诖?，本文重點(diǎn)研究了基于數(shù)據(jù)結(jié)構(gòu)信息的非負(fù)矩陣分解算法和面向非均衡數(shù)據(jù)分類的非負(fù)矩陣分解算法。首先，概述了非負(fù)矩陣分解及非均衡數(shù)據(jù)分類的基礎(chǔ)理論。給出了NMF基本算法、數(shù)學(xué)求解方法，以及經(jīng)典的衍生算法；并總結(jié)了數(shù)目不均衡數(shù)據(jù)的分類難點(diǎn)及常用的抽樣處理方法。其次，針對(duì)基于圖信息的非負(fù)矩陣分解僅用歐式距離來(lái)衡量樣本鄰域結(jié)構(gòu)的局限性，將鄰域

5、樣本相似度引入非負(fù)矩陣分解，提出一種基于鄰域樣本相似度的非負(fù)矩陣分解算法(NSS-NMF)。該方法通過(guò)引入鄰域協(xié)方差矩陣來(lái)計(jì)算鄰域樣本相似度，對(duì)于鄰域結(jié)構(gòu)相似的樣本點(diǎn)，其分解所得的系數(shù)矩陣的約束項(xiàng)被賦予較高的權(quán)值，以適應(yīng)于樣本密度不均衡的情況；進(jìn)一步，引入鄰域類標(biāo)相似度，并考慮基向量的正交性，提出一種基于鄰域相似度的非負(fù)矩陣分解算法(NS-NMF)o 該方法在考慮鄰域樣本相似度的基礎(chǔ)上，根據(jù)鄰域樣本的已知類標(biāo)信息構(gòu)建鄰域類標(biāo)分布矩陣，這樣組合得到的鄰域相似度有效地兼顧到數(shù)據(jù)類別分布不均衡的情況。實(shí)驗(yàn)結(jié)果表明，上述基于數(shù)據(jù)結(jié)構(gòu)信息的非負(fù)矩陣分解算法可以獲得比傳統(tǒng)方法更好的聚類分類性

6、能。最后，針對(duì)常見的非均衡數(shù)據(jù)問(wèn)題(即樣本數(shù)目不均衡)，提出一種新的加權(quán) 非負(fù)矩陣分解算法(WNMF)。該方法通過(guò)計(jì)算每類樣本數(shù)在總樣本數(shù)中的比例，求其倒數(shù)作為訓(xùn)練樣本的權(quán)值引入非負(fù)矩陣分解，因此在保持了多數(shù)類分類準(zhǔn)確性的同時(shí)，有效地提升了少數(shù)類樣本的分類性能。此外，結(jié)合NS-NMF算法考慮了鄰域結(jié)構(gòu)信息的優(yōu)點(diǎn)，提出一種基于非負(fù)矩陣分解的混合重采樣算法(HS-NMF)o 該方法先通過(guò)NS-NMF將數(shù)據(jù)集映射到更加可分的子空間，再通過(guò)經(jīng)典的過(guò)采樣、欠采樣技術(shù)改善數(shù)據(jù)的不均衡程度。實(shí)驗(yàn)結(jié)果表明，將非負(fù)矩陣分解應(yīng)用于非均衡數(shù)據(jù)分類中，可獲得比傳統(tǒng)重采樣方法更高的分類準(zhǔn)確率。關(guān)鍵詞：非負(fù)矩陣

7、分解，非均衡數(shù)據(jù)分類，鄰域相似度，重采樣論文類型：應(yīng)用基礎(chǔ)研究類ABSTRACTABSTRACTNon-negative Matrix Factorization(NMF) is a kind of matrix factorization method for dealing with large-scale and high-dimension data. With the unique advantages of non-negative constraints and local expression, NMF catches many researchers5 eyes, and

8、has been widely used in data mining, computer vision and pattern recognition, etc. In addition, many practical classification problems involve unbalanced data, which is of uneven density, unbalanced category or common seen unqueal number of samples. Therefore, this thesis mainly studies the Nonnegat

9、ive Matrix Factorization based on data structure information and its application to unbalanced data classification.Fiistly, the basic theories of Nonnegative Matrix Factorization and unbalanced data classification are introduced, with emphasis on conventional NMF algorithms, their mathematics models

10、 and some classic derivative algorithms. Then the difficulties of unbalanced data classification and the common sampling methods are summaiized.Secondly, aiming at the limitation of Graph Regularized Non-negative Matrix Factorization, which only measures the samples neighborhood structure with Eucli

11、dean distance, we introduce the metric of Neighborhood Sample Similarity and propose a Non-negative Matrix Factorization algorithm based on Neighborhood Sample Similarity (NSS-NMF). This method uses the neighborhood covariance matrix to compute Neighborhood Sample Similarity, and assigns higher weig

12、hts to the constraints of the coefficient matrix of the decomposited sample points whose neighborhood structure are more similar, so as to adapt to the uneven sample density. Further, by introducing Neighborhood Label Similarity and taking the orthogonality of the basis vectors into account, we prop

13、ose a Non-negative Matrix Factorization algorithm based on Neighborhood Similarity (NS-NMF). Inheriting Neighborhood Sample Similarity, NS-NMF constructs the neighborhood class distribution matrix according to the prior label information of the neighborhood samples. This combined neighborhood simila

14、iity effectively takes into consideration the unbalanced data density and label distribution simultaneously. The experiments vertify that the proposed algorithms outperform traditional methods in terms of clustering and classification performance.Lastly, in view of the common situation of unbalanced

15、 data, i.e., the number of samples is not balanced, we put forward a new Weighted Non-negative Matrix Factorization algorithm (WNMF). It calculates the proportion of the number of samples which belong to the same category to the total number of samples, and takes its inverse to weight the NMF. Conse

16、quently WNMF not only keeps the classification accuracy of the majority class samples but also effectively improves the classification performance for the minority class samples. In addition, combined the advantages of NS-NMF algorithm which respects neighborhood structure information, a Hybrid re-S

17、ampIing algorithm based on the Non-negative Matrix Factorization(HS-NMF) is put forward. It first maps the data into a more separable subspace thiough NS-NMF, then uses the classic over-sampling and under-sampling schemes to alleviate the degree of data imbalance. The experimental results show that

18、the application of NMF related methods to the unbalanced data can lead to better classification performance than traditional pure re-sampling methods.Keywords: Non-negative Matrix Factorization, unbalanced data classification, NeighborhoodSimilarity, re-samplingType of Dissertation: Applied Basic Re

19、search插圖索引插圖索引 TOC o 1-5 h z 圖1.1 NMF模型及算法分類示意圖3圖2.1 NMF, VQ, PCA分別實(shí)現(xiàn)人臉的部分基表示囪10圖2.2 SMOTE算法合成少數(shù)類樣本點(diǎn)示意圖18圖2.3 SMOTE算法效果圖18圖2.4分界線不明顯的SMOTE算法效果圖19圖2.5 Tomek links清理數(shù)據(jù)示意圖19圖3.1密度不均衡的數(shù)據(jù)分布示意圖22圖3.2 ORL數(shù)據(jù)庫(kù)的圖像樣本25圖3.3 ORL數(shù)據(jù)庫(kù)各算法性能比較26圖3.4 YALE數(shù)據(jù)庫(kù)的圖像樣本27圖3.5 YALE數(shù)據(jù)庫(kù)各算法性能比較27圖3.6數(shù)據(jù)1中1-6類樣本信號(hào)模糊函數(shù)切片特征28圖3.7雷達(dá)輻

20、射源數(shù)據(jù)庫(kù)各算法性能比較29圖3.8樣本點(diǎn)鄰域類標(biāo)分布模擬示意圖30圖3.9 ORL數(shù)據(jù)庫(kù)各算法性能比較33圖3.10 Yale數(shù)據(jù)庫(kù)各算法性能比較34圖3.11雷達(dá)輻射源數(shù)據(jù)庫(kù)各算法性能比較35圖4.1 UMIST數(shù)據(jù)庫(kù)的圖像樣本42 HYPERLINK l bookmark159 o Current Document 圖4.2 NMF降維混合重采樣算法框圖44表格索引表格索引 TOC o 1-5 h z 表3.1 ORL數(shù)據(jù)聚類準(zhǔn)確率(%)26表3.2 ORL數(shù)據(jù)歸一化互信息(%)26表3.3 Yale數(shù)據(jù)聚類準(zhǔn)確率(%)27表3.4 Yale數(shù)據(jù)歸一化互信息(%)27表3.5雷達(dá)輻射源數(shù)

21、據(jù)聚類準(zhǔn)確率(%)28表3.6雷達(dá)輻射源數(shù)據(jù)歸一化互信息(%)28表3.7 ORL數(shù)據(jù)聚類準(zhǔn)確率(%)33表3.8 ORL數(shù)據(jù)歸一化互信息(%)33表3.9 Yale數(shù)據(jù)聚類準(zhǔn)確率(%)34表3.10 Yale數(shù)據(jù)歸一化互信息(%)34表3.11雷達(dá)輻射源數(shù)據(jù)聚類準(zhǔn)確率(%)35表3.12雷達(dá)輻射源數(shù)據(jù)歸一化互信息(%)35表4.1二分類數(shù)據(jù)集混淆矩陣40表4.2 Breast Cancer原始數(shù)據(jù)集SMOTE算法性能指標(biāo)(%)41表4.3 Breast Cancer數(shù)據(jù)集各降維算法性能指標(biāo)(%)41表4.4 UMIST數(shù)據(jù)庫(kù)SMOTE算法性能指標(biāo)(%)42表4.5 UMIST數(shù)據(jù)庫(kù)各降維算法

22、性能指標(biāo)(%)42表4.6 Breast Cancer原始數(shù)據(jù)集各抽樣算法性能指標(biāo)(%)45表4.7 Breast Cancer數(shù)據(jù)集各降維算法性能指標(biāo)(%)45表4.8 UMIST數(shù)據(jù)庫(kù)各抽樣算法性能指標(biāo)(%)45表4.9 USIMT數(shù)據(jù)庫(kù)各降維算法性能指標(biāo)(%)45符號(hào)對(duì)照表符號(hào)MNX符號(hào)名稱向量維數(shù)樣本個(gè)數(shù)M維隨機(jī)向量XUV“201M維隨機(jī)向量的N個(gè)觀察值構(gòu)成的矩陣，樣本集基矩陣系數(shù)矩陣（特征矩陣）MxL維非負(fù)實(shí)矩陣空間降維所選特征維數(shù)D(XIIUV)IIMWu*V*UT相似度度量矩陣的Frobenius范數(shù)目標(biāo)函數(shù)梯度基矩陣最優(yōu)解系數(shù)矩陣（特征矩陣）最優(yōu)解矩陣間的Hadamard積

23、U的轉(zhuǎn)置矩陣a0Rir2tr(.)LNMF算法中基向量約束項(xiàng)的參數(shù)LNMF算法中系數(shù)矩陣約束項(xiàng)的參數(shù)GNMF基于SED的約束項(xiàng)GNMF基于GKLD的約束項(xiàng)矩陣的跡mkrand(0,l)w(嚀，勺)CiC商叱w(w)N2SMOTE算法過(guò)取樣倍數(shù)近鄰點(diǎn)個(gè)數(shù)區(qū)間（0,1）內(nèi)的一個(gè)隨機(jī)數(shù)樣本點(diǎn)X., Xj基于歐氏距離的相似性估計(jì)樣本點(diǎn)氣的近鄰點(diǎn)協(xié)方差矩陣Ci樣本點(diǎn)習(xí)的近鄰點(diǎn)協(xié)方差矩陣Ci的簡(jiǎn)化：G的對(duì)角元素鄰域樣本相似度最近鄰個(gè)數(shù)參數(shù)包含鄰域結(jié)構(gòu)信息的約束項(xiàng)調(diào)節(jié)參數(shù)bnssWK) 叫%)YL鄰域樣本相似度調(diào)節(jié)參數(shù)鄰域類標(biāo)相似度鄰域相似度基向量正交項(xiàng)調(diào)節(jié)參數(shù) 拉普拉斯矩陣甲成，代b”/sQ拉格朗日乘子

24、鄰域類標(biāo)相似度調(diào)節(jié)參數(shù)對(duì)角權(quán)值矩陣縮略語(yǔ)對(duì)照表縮略語(yǔ)英文全稱中文對(duì)照PCAPi incipal Component Analysis主成分分析LDALinear Discriminant Analysis線性判別分析VQVector Quantization矢量量化NMFNonnegative Matrix Factorization非負(fù)矩陣分解BNMFBasic Nonnegative Matrix Factorization基本非負(fù)矩陣分解CNMFConstrained Nonnegative Matrix Factorization約束非負(fù)矩陣分解SNMFStructure Nonneg

25、ative Matrix Factorization結(jié)構(gòu)化非負(fù)矩陣分解GNMFGraph Regularized Nonnegative MatrixFactorization for Data Representation圖正則非負(fù)矩陣分解SPNMFSparsed Nonnegative Matrix Factorization稀疏非負(fù)矩陣分解ONMFOrthogonal Nonnegative Matrix Factorization正交非負(fù)矩陣分解DNMFDiscriminant Nonnegative Matrix Factorization判別非負(fù)矩陣分解MNMFNonnegativ

26、e Matrix Factorization on manifold復(fù)合非負(fù)矩陣分解CVNMFConvolutive Nonnegative Matrix Factorization卷積非負(fù)矩陣分解NMTFNonnegative Matrix Tri-factorization三系數(shù)非負(fù)矩陣分解NTFNonnegative Tensor Factorization非負(fù)張量分解NMSFNonnegative Matrix-Set Factorization非負(fù)矩陣集分解KNMFKernel Nonnegative Matrix Factorization核非負(fù)矩陣分解AAAIthe Associ

27、ation for the Advancement of美國(guó)人工智能發(fā)展協(xié)Ailificial Intelligence會(huì)ICMLthe International Conference on MachineLearning workshop機(jī)器學(xué)習(xí)國(guó)際會(huì)議ACMthe Association for Computing美國(guó)計(jì)算機(jī)協(xié)會(huì)NCRNeighborhood Cleaning Rule鄰域清理技術(shù)CNNEdited Neaiest Neighbor Rule編輯最近鄰規(guī)則SMOTESynthetic Minority Over-sampling Technique合成少數(shù)類過(guò)取樣SEDS

28、quai e of Euclidian Distance平方歐式距離GKLDGeneralized Kullback-Leibler Divergence廣義KL散度KKTKarush-Kuhn-Tucker求解矩陣最優(yōu)性條件LNMFLocal Non-negative Matrix Factorization局部非負(fù)矩陣分解NSSNeighborhood Sample Similaiity鄰域樣本相似度NLSNeighborhood Label Similaiity鄰域類標(biāo)相似度NSNeighborhood Similaiity鄰域相似度ACAccuracy聚類準(zhǔn)確率NMINormalize

29、d Mutual Information歸一化互信息KNNk-Nearest Neighbor algorithmK最近鄰算法WNMFWeighted Nonnegative Matrix Factorization加權(quán)非負(fù)矩陣分解HS-NMFHybrid Sampling based on NMFNMF降維混合取樣算法目錄目錄摘要 TOC o 1-5 h z HYPERLINK l bookmark25 o Current Document ABSTRACTIll HYPERLINK l bookmark28 o Current Document 插圖索引V HYPERLINK l boo

30、kmark31 o Current Document 表格索引VII符號(hào)對(duì)照表IX HYPERLINK l bookmark34 o Current Document 縮略語(yǔ)對(duì)照表XI HYPERLINK l bookmark37 o Current Document 目錄XIII HYPERLINK l bookmark40 o Current Document 第一章緒論1 HYPERLINK l bookmark43 o Current Document 1.1課題研究背景及意義1 HYPERLINK l bookmark46 o Current Document 1.2國(guó)內(nèi)外研究現(xiàn)狀2

31、 HYPERLINK l bookmark49 o Current Document 1.2.1非負(fù)矩陣分解研究進(jìn)展2 HYPERLINK l bookmark52 o Current Document 1.2.2非均衡數(shù)據(jù)分類研究進(jìn)展4 HYPERLINK l bookmark55 o Current Document 1.3論文內(nèi)容及章節(jié)安排6 HYPERLINK l bookmark58 o Current Document 第二章非負(fù)矩陣分解及非均衡數(shù)據(jù)分類概述9 HYPERLINK l bookmark61 o Current Document 2.1引言9 HYPERLINK l

32、 bookmark64 o Current Document 2.2非負(fù)矩陣分解概述9 HYPERLINK l bookmark67 o Current Document 221非負(fù)矩陣分解基本算法9 HYPERLINK l bookmark70 o Current Document 2.2.2非負(fù)矩陣分解的數(shù)學(xué)求解10 HYPERLINK l bookmark82 o Current Document 2.2.3非負(fù)矩陣分解衍生算法12 HYPERLINK l bookmark93 o Current Document 2.3非均衡數(shù)據(jù)分類概述16 HYPERLINK l bookmark9

33、6 o Current Document 2.3.1非均衡數(shù)據(jù)分類難點(diǎn)16 HYPERLINK l bookmark99 o Current Document 2.3.2非均衡數(shù)據(jù)分類常用方法17 HYPERLINK l bookmark102 o Current Document 2.4本章小結(jié)20 HYPERLINK l bookmark105 o Current Document 第三章基于數(shù)據(jù)結(jié)構(gòu)信息的非負(fù)矩陣分解21 HYPERLINK l bookmark108 o Current Document 3.1引言21 HYPERLINK l bookmark111 o Current

34、 Document 3.2基于鄰域樣本相似度的非負(fù)矩陣分解算法21 HYPERLINK l bookmark114 o Current Document 3.2.1鄰域樣本相似度(NSS)22 HYPERLINK l bookmark117 o Current Document 3.2.2基于鄰域樣本相似度的NMF算法(NSS-NMF)23 HYPERLINK l bookmark120 o Current Document 3.2.3實(shí)驗(yàn)結(jié)果與分析24 HYPERLINK l bookmark126 o Current Document 3.3基于鄰域相似度的非負(fù)矩陣分解算法29 HYPER

35、LINK l bookmark129 o Current Document 3.3.1鄰域類標(biāo)相似度(NLS)29 HYPERLINK l bookmark132 o Current Document 3.3.2基于鄰域相似度的NMF算法(NS-NMF)30 HYPERLINK l bookmark135 o Current Document 3.3.3實(shí)驗(yàn)結(jié)果與分析32 HYPERLINK l bookmark138 o Current Document 3.4本章小結(jié)36 HYPERLINK l bookmark144 o Current Document 第四章面向非均衡數(shù)據(jù)分類的非負(fù)矩

36、陣分解37 HYPERLINK l bookmark147 o Current Document 4.1引言37 HYPERLINK l bookmark150 o Current Document 4.2加權(quán)非負(fù)矩陣分解算法37 HYPERLINK l bookmark153 o Current Document 4.2.1加權(quán)非負(fù)矩陣分解算法(WNMF)37 HYPERLINK l bookmark156 o Current Document 4.2.2實(shí)驗(yàn)結(jié)果與分析394.3 NMF混合重采樣算法43 HYPERLINK l bookmark162 o Current Document

37、4.3.1 NMF混合重采樣算法(HS-NMF)43 HYPERLINK l bookmark165 o Current Document 4.3.2實(shí)驗(yàn)結(jié)果與分析44 HYPERLINK l bookmark168 o Current Document 4.4本章小結(jié)46 HYPERLINK l bookmark171 o Current Document 第五章總結(jié)與展望47 HYPERLINK l bookmark174 o Current Document 5.1全文總結(jié)47 HYPERLINK l bookmark180 o Current Document 5.2未來(lái)展望48 HY

38、PERLINK l bookmark186 o Current Document 參考文獻(xiàn)49 HYPERLINK l bookmark268 o Current Document 致謝55 HYPERLINK l bookmark271 o Current Document 作者簡(jiǎn)介57第一章緒論1.1課題研究背景及意義一個(gè)深深根植于科學(xué)和工程學(xué)研究者心目中的基本信念，是在明顯的混亂和復(fù)雜中，一定有一些簡(jiǎn)單、緊湊和典雅的東西扮演著最基本的角色。在信號(hào)處理、數(shù)據(jù)分析、數(shù)據(jù)挖掘、模式識(shí)別和機(jī)器學(xué)習(xí)中也是這樣。近年來(lái)科學(xué)技術(shù)的飛速發(fā)展使得原始數(shù)據(jù)的數(shù)量增多和可用性增強(qiáng)以爆炸的速度發(fā)生。隨著傳

39、感器和計(jì) 算機(jī)技術(shù)的發(fā)展，我們擁有了越來(lái)越多可用的原始數(shù)據(jù)，如何從如此海量的數(shù)據(jù) 中提取出有用的信息成為人們非常關(guān)注的焦點(diǎn)。人工智能領(lǐng)域中的機(jī)器學(xué)習(xí)是研究如何將機(jī)器智能化的技術(shù)，而機(jī)器智能化的方式就是深入分析數(shù)據(jù)改善系統(tǒng)自身性能，因此機(jī)器學(xué)習(xí)成為數(shù)據(jù)分析領(lǐng)域的一項(xiàng)主要技術(shù)。數(shù)據(jù)降維是機(jī)器學(xué)習(xí)的一個(gè)重要研究領(lǐng)域。通過(guò)適當(dāng)?shù)慕稻S技術(shù)來(lái)獲取一種有效的表示方式，在多元數(shù)據(jù)分析中已經(jīng)成為一個(gè)重要的、必要的和具有挑戰(zhàn)性的問(wèn)題。降維一般來(lái)說(shuō)應(yīng)該滿足兩個(gè)基本性質(zhì)：第一，原始數(shù)據(jù)的尺寸應(yīng)該減??；第二，主成分、隱藏的概念、突出的特性或潛在的變量的數(shù)據(jù)，根據(jù)應(yīng)用程序上下文，應(yīng)該有效地識(shí)別。在許多情況下，

40、原始數(shù)據(jù)集或觀察數(shù)據(jù)會(huì)被構(gòu)成數(shù)據(jù)矩陣或張量，會(huì)被描述為線性或多重線性組合模型，所以，從代數(shù)的角度來(lái)看，降維可以被看做：將原始數(shù)據(jù)矩陣分解為兩個(gè)因子矩陣。規(guī)范化方法，如主成分分析(Principal Component Analysis, PCA),線性判別分析(Linear Discriminant Analysis, LDA),獨(dú)立分量分析(Independent Component Analysis, ICA),矢量量化(Vector Quantization, VQ)等等都是一些低秩近似的范本。這些方法的統(tǒng)計(jì)特性各不相同，是因?yàn)樗鼈儗?duì)因子矩陣及其底層結(jié)構(gòu)有不同的約束條件，它們也

41、有一些共性：對(duì) 因子矩陣中的元素沒有任何約束。換句話說(shuō)，在這些方法中，允許出現(xiàn)負(fù)數(shù)因子矩陣和減法運(yùn)算。相比之下，一個(gè)新的分解方法-非負(fù)矩陣分解(Nonnegative MatrixFactorization, NMF),它包含非負(fù)約束，具有局部表示特性，同時(shí)加強(qiáng)了相應(yīng)問(wèn)題的可解釋性。這種方法及模型最早由Paatero和Tapper提出，在Lee和 Seung4之后引起了廣泛的關(guān)注。非負(fù)矩陣分解有兩個(gè)互補(bǔ)的優(yōu)點(diǎn)非負(fù)約束和加性結(jié)合。一方面，在現(xiàn)實(shí)世界的許多種數(shù)據(jù)，如圖像、光譜和基因數(shù)據(jù)的分析任務(wù)中，不管是表面還是潛在的結(jié)構(gòu)，負(fù)值都是缺乏物理意義的。而原型通常都與特定的語(yǔ)義解釋相對(duì)應(yīng)。例如在

42、人臉識(shí)別中，基圖像通常是局部的而非整體的，類似人臉的一部分，如眼睛、鼻子、嘴巴或臉頰。另一方面，人們最感興趣的地方自然是構(gòu)成物體的局部特點(diǎn)，加性結(jié)合意味著這些感興趣的局部可以組裝在一起拼湊出整體。于是NMF 在真實(shí)環(huán)境的場(chǎng)景和任務(wù)中取得了極大的成功。如在文本聚類中，不管是在提高精度還是在潛在語(yǔ)義識(shí)別上，NMF已經(jīng)超越了譜聚類等經(jīng)典的方法叫目前，NMF 已經(jīng)成功地應(yīng)用于人臉識(shí)別血、文本挖掘聚類1215社區(qū)發(fā)現(xiàn)、基因數(shù)據(jù)分析回等問(wèn)題中。從另外一個(gè)角度來(lái)說(shuō)，分類技術(shù)是機(jī)器學(xué)習(xí)的核心技術(shù)之一。分類就是將樣本劃分到相應(yīng)的類別，從數(shù)學(xué)角度來(lái)說(shuō)，分類就是確定對(duì)象屬于哪一個(gè)預(yù)定義的目標(biāo)類。近年來(lái)，

43、隨著分類問(wèn)題的研究不斷深入，人們發(fā)現(xiàn)現(xiàn)實(shí)生活中存在很多數(shù)據(jù)類別不均衡的情況，如醫(yī)療診斷1引、信用卡欺詐檢測(cè)成2。、網(wǎng)絡(luò)入侵檢測(cè)21 等領(lǐng)域中存在典型的非均衡數(shù)據(jù)集?？梢钥闯鲈谶@些問(wèn)題中，不常出現(xiàn)的少數(shù)類樣本往往顯得更為重要。對(duì)于傳統(tǒng)分類器來(lái)說(shuō)，它們的首要目標(biāo)都是減小其分類錯(cuò)誤，即最大化它的整體精度，且大多基于數(shù)據(jù)平衡分布的假設(shè)。但這并不適用于非平衡數(shù)據(jù)集，由于非均衡數(shù)據(jù)集中少數(shù)類的誤判損失往往更大，傳統(tǒng)分類方法應(yīng)用于非平衡數(shù)據(jù)時(shí)，少數(shù)類的分類性能明顯下降。因此，尋求有效的方法來(lái) 提高非平衡數(shù)據(jù)中少數(shù)類的分類性能顯得急迫而有意義。非均衡數(shù)據(jù)集通常具有兩個(gè)特點(diǎn)：一是數(shù)據(jù)類別數(shù)目差異大；二

44、是誤分類代價(jià)不同。兩個(gè)主要特點(diǎn)決定了它與之前基于均衡數(shù)據(jù)的分類問(wèn)題是完全不同的，現(xiàn)有的分類算法不能或者不能直接應(yīng)用其上。但均衡數(shù)據(jù)分類問(wèn)題的解決和研究成果對(duì)非均衡數(shù)據(jù)分類問(wèn)題的解決仍然具有巨大的推動(dòng)作用，最直接的使用方法是將非均衡數(shù)據(jù)進(jìn)行預(yù)處理，使之均衡化而后再用之前算法訓(xùn)練分類器，即可得到很好的分類效果。十幾年來(lái)，非均衡數(shù)據(jù)分類問(wèn)題的步步深入，愈發(fā)激起研究人員的研究熱情，吸引了越來(lái)越多優(yōu)秀人才的關(guān)注，在此過(guò)程中，國(guó)內(nèi)外的學(xué)者們提出了一個(gè)又一個(gè)性能卓越的分類算法。1.2國(guó)內(nèi)外研究現(xiàn)狀1.2.1非負(fù)矩陣分解研究進(jìn)展由于在確保非負(fù)性和稀疏性的情況下增強(qiáng)了數(shù)據(jù)的可解釋性，NMF已經(jīng)成為

45、多元數(shù)據(jù)分析的一種必要的工具，被廣泛應(yīng)用于數(shù)學(xué)、優(yōu)化、神經(jīng)計(jì)算、模式識(shí) 別和機(jī)器學(xué)習(xí)22】、數(shù)據(jù)挖掘I】、信號(hào)處理I、形象工程和計(jì)算機(jī)視覺VI、光譜數(shù) 據(jù)分析2習(xí)、生物信息學(xué)SI、化學(xué)計(jì)量學(xué)VI、地球物理學(xué)28】、財(cái)經(jīng)29。更具體地說(shuō)，這些應(yīng)用程序包括文本數(shù)據(jù)挖掘a】、數(shù)字水印、圖像去噪DI】、圖像恢復(fù)、圖像分割DI、圖像融合、圖像分類I、圖像檢索、人臉識(shí)別I、面部表情識(shí)別SI、音頻模式分離3們、音樂流派分類Ml、語(yǔ)音識(shí)別等。自從問(wèn)題被提出以來(lái)已經(jīng)產(chǎn)生了大量關(guān)于NMF的成果，研究者來(lái)自不同領(lǐng)域: 數(shù)學(xué)家、統(tǒng)計(jì)學(xué)家、計(jì)算機(jī)科學(xué)家、生物學(xué)家和神經(jīng)學(xué)家等，都從不同角度探索 T NMF的相關(guān)問(wèn)

46、題?？偟膩?lái)說(shuō)，NMF理論是現(xiàn)今已經(jīng)獲得巨大的進(jìn)步但仍在進(jìn) 展中的一項(xiàng)工作。具體來(lái)說(shuō)：第一，NMF自身的性質(zhì)已獲得很深入的探索，而嚴(yán) 格的統(tǒng)計(jì)支撐，像那些傳統(tǒng)的分解方法PCA或LDA 一樣，并沒有完全地發(fā)展，從某種程度上說(shuō)這也是它的難題；第二，像文獻(xiàn)國(guó)中提到的如加性約束的一些問(wèn) 題已經(jīng)被解決，而很多其他問(wèn)題還有待解決?？偨Y(jié)過(guò)去十幾年，NMF算法的各種修改、擴(kuò)展和推廣已經(jīng)形成了一個(gè)很全面的系統(tǒng)，本文做出歸納總結(jié)見圖1.1?？偟膩?lái)說(shuō)，現(xiàn)有的NMF算法可以被劃分為四類，它們都遵循統(tǒng)一的標(biāo)準(zhǔn)。第一，基本NMF(BNMF),即NMF的原始模型，它只規(guī)定了非負(fù)約束；第二，約束NMF(CNMF),它增

47、加了諸如正則化之類的加性約束項(xiàng)；第三，結(jié)構(gòu)化NMF(SNMF),它修改了標(biāo)準(zhǔn)分解公式；第四，廣義 NMF(GNMF),它廣義地突破了傳統(tǒng)的數(shù)據(jù)類型和分解模式，使模型等級(jí)變得更加寬泛。圖1.1 NMF模型及算法分類示意圖具體來(lái)說(shuō)，首先，基本NMF為其它所有NMF模型建立了一個(gè)基礎(chǔ)的分析框架?；綨MF的研究主要集中在優(yōu)化工具和計(jì)算方法方面以及大規(guī)模數(shù)據(jù)處理和在線處理。約束NMF分為四個(gè)子類：第一，稀疏NMF(SPNMF)增加了稀疏約束；第二，正交NMF(ONMF)增加了正交約束；第三,判別NMF(DNMF)增加了判別約束；第四，復(fù)合NMF(MNMF)，保留了局部拓?fù)湫再|(zhì)。事實(shí)證明這些

48、形態(tài)約束在本質(zhì)上也是必要的，從后面的理論和實(shí)驗(yàn)分析都可以看出來(lái)。結(jié)構(gòu)化NMF分為三個(gè)子類：第一，加權(quán)NMF(WNMF),依據(jù)它們的相對(duì)重要性對(duì)不同的元素添加不同的權(quán)值；第二，卷積NMF(CVNMF),考慮了時(shí)頻域分解；第三，三系數(shù) NMF(NMTF),顧名思義，將數(shù)據(jù)矩陣分解為三個(gè)因子矩陣。此外，廣義NMF也可以分為四個(gè)子類：第一，半監(jiān)督NMF(Semi-NMF),非負(fù)約束僅僅限制特定的因子矩陣；第二，非負(fù)張量分解(NTF),將矩陣數(shù)據(jù)的維數(shù)拓展到更高維的張量；第三，非負(fù)矩陣集分解(NMSF),將數(shù)據(jù)集從矩陣拓展到矩陣集；第四，熱核 NMF(KNMF),創(chuàng)建了 NMF的非線性模型。

49、從以上總結(jié)分類來(lái)看，我們可以從另一個(gè)角度來(lái)歸納現(xiàn)今NMF算法的研究, 主要集中在這幾方面：第一，約束條件的選擇，諸如正交性、稀疏性、光滑性或使用數(shù)據(jù)的先驗(yàn)知識(shí)等；第二，算法求解方法，很多學(xué)者分別使用了乘法更新法、投影梯度法、最小二乘法、秩1殘差法等方法，來(lái)求解不同模型下的NMF問(wèn)題；第三，數(shù)據(jù)形式，如CP張量、TUCKER張量等；第四，應(yīng)用研究，前文已多次歸納出應(yīng)用方向，這里不再贅述。1.2.2非均衡數(shù)據(jù)分類研究進(jìn)展在現(xiàn)實(shí)領(lǐng)域中，非均衡學(xué)習(xí)問(wèn)題代表有著廣泛應(yīng)用的具有高度重要性的循環(huán) 問(wèn)題，需要持續(xù)不斷的開拓發(fā)展。這種需求和增長(zhǎng)的關(guān)注度也反映在最近幾個(gè)專業(yè)研討會(huì)或會(huì)議的特殊問(wèn)題研討會(huì)上

50、，包括美國(guó)人工智能發(fā)展協(xié)會(huì)關(guān)于非均衡數(shù) 據(jù)集的學(xué)習(xí)研討會(huì)(AAAr00)t39,機(jī)器學(xué)習(xí)國(guó)際會(huì)議關(guān)于非均衡數(shù)據(jù)集的學(xué)習(xí)研討會(huì)(ICMmB),美國(guó)計(jì)算機(jī)協(xié)會(huì)關(guān)于知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的特殊興趣小組(ACM SIGKDD Explorations04)叫等。非均衡數(shù)據(jù)分類的根本問(wèn)題是數(shù)據(jù)的非均衡性會(huì)嚴(yán)重降低大多數(shù)標(biāo)準(zhǔn)學(xué)習(xí)算法的性能。大多數(shù)標(biāo)準(zhǔn)算法假設(shè)或預(yù)計(jì)的是平衡的類分布或平等的誤分類代價(jià)。因此，當(dāng)面對(duì)復(fù)雜的非均衡數(shù)據(jù)集，這些算法無(wú)法正確地表示數(shù)據(jù)的分布特點(diǎn)，最終會(huì)產(chǎn)生混淆不同類別的不好的結(jié)果。數(shù)據(jù)的不均衡分布主要有兩方面的體現(xiàn): 一方面表現(xiàn)為樣本密度不均衡，另一方面為樣本數(shù)目、類別不均衡?，F(xiàn)

51、有的研究方法主要集中在后者，即考慮樣本數(shù)目差異大的情況。由于多類數(shù)據(jù)的分類可以轉(zhuǎn)化為二分類，因此現(xiàn)有的非均衡數(shù)據(jù)研究方法主要針對(duì)二分類問(wèn)題。二分類非均衡數(shù)據(jù)集，即為一個(gè)數(shù)據(jù)集中某一類的樣本數(shù)遠(yuǎn)大于另一類的樣本數(shù)，其中樣本數(shù)多的類一般稱為多數(shù)類(負(fù)類)，樣本數(shù)少的類稱為少數(shù)類(正類)。非均衡數(shù)據(jù) 集分類問(wèn)題的研究重點(diǎn)也就集中在如何提高少數(shù)類的分類性能上。目前，對(duì)于樣本數(shù)目非均衡的數(shù)據(jù)分類研究主要集中在數(shù)據(jù)層、算法層和兩種層面結(jié)合起來(lái)的綜合方法。在數(shù)據(jù)層面，主要是通過(guò)采樣，重構(gòu)數(shù)據(jù)集，改變數(shù)據(jù)的不平衡分布，使不平衡性降低；在算法層面，主要是提出新的分類思想，通過(guò)引入不同的權(quán)重值，諸如

52、代價(jià)敏感學(xué)習(xí)、集成學(xué)習(xí)等方法改進(jìn)傳統(tǒng)分類算法；綜合層面，則是將二者結(jié)合起來(lái)提高分類準(zhǔn)確率。下面進(jìn)行詳盡的歸納總結(jié)。首先，數(shù)據(jù)層面抽樣技術(shù)的使用。通常，在非均衡學(xué)習(xí)應(yīng)用中采取包括某些機(jī)械措施的抽樣方法都是為了提供一個(gè)平衡的分布情況。研究表明，對(duì)于一些基本的分類器，一個(gè)均衡的數(shù)據(jù)集能比不均衡的數(shù)據(jù)集更容易提高它的總體分類性能4244。文獻(xiàn)中的結(jié)果都證實(shí)了抽樣方法對(duì)非均衡學(xué)習(xí)的必要性。最簡(jiǎn)單的抽樣技術(shù)是隨機(jī)過(guò)采樣和欠采樣。顧名思義，隨機(jī)欠采樣就是隨機(jī) 去掉多數(shù)類樣本集中的一些樣本，隨機(jī)過(guò)采樣是隨機(jī)復(fù)制少數(shù)類樣本集中的樣本并添加到原數(shù)據(jù)集中，以此方式來(lái)降低數(shù)據(jù)集的不平衡性。但是，隨機(jī)欠采樣去

53、樣本時(shí)容易丟失掉多數(shù)類中的有用信息，隨機(jī)過(guò)采樣容易造成分類器的過(guò)度擬合。因此產(chǎn)生了合成采樣戲46、自適應(yīng)合成采樣印、基于數(shù)據(jù)清洗技術(shù)的采樣48、采樣和迭代結(jié)合等方法，都是在前二者之上的衍生。其中，合成少數(shù)類過(guò)取樣算法(SMOTE),對(duì)少數(shù)類樣本進(jìn)行擴(kuò)充，根據(jù)一定的規(guī)則隨機(jī)制造生成新的少數(shù)類樣本，并將這些新合成的少數(shù)類樣本合并到原來(lái)的數(shù)據(jù)集，產(chǎn)生新的訓(xùn)練集。這種方法已成為該領(lǐng)域的一個(gè)標(biāo)準(zhǔn)算法。其次，在算法層面上。雖然抽樣技術(shù)的應(yīng)用確實(shí)有助于提高分類精度，但這并不意味著分類器不能直接學(xué)習(xí)非均衡數(shù)據(jù)。相反地，研究表明由特定的非均衡數(shù)據(jù)集誘導(dǎo)的分類器可以比得上由同樣的經(jīng)過(guò)抽樣的均衡數(shù)據(jù)

54、集誘導(dǎo)的分類器 t5051o算法層面是指針對(duì)現(xiàn)有的分類算法，對(duì)不同類別的樣本設(shè)置不同的權(quán)值、改變概率密度、調(diào)整分類邊界等措施解決。常用的改進(jìn)算法包括：支持向量機(jī)、聚類、神經(jīng)網(wǎng)絡(luò)、決策樹等。支持向量機(jī)(Support Vector Machine, SVM)以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ)，采用結(jié)構(gòu) 風(fēng)險(xiǎn)最小化準(zhǔn)則設(shè)計(jì)學(xué)習(xí)機(jī)器，較好地解決了非線性、高維數(shù)、局部極小點(diǎn)等問(wèn) 題。一些學(xué)者對(duì)支持向量機(jī)進(jìn)行適當(dāng)改進(jìn)以更好地處理不平衡數(shù)據(jù)分類。比如，將分類邊界向多數(shù)類進(jìn)行適當(dāng)?shù)钠?，以使更多的少?shù)類樣本不會(huì)被誤判；或者對(duì)正類和負(fù)類賦予不同的代價(jià)，作為支持向量機(jī)的懲罰因子。楊揚(yáng)和李善平皿將不平衡數(shù)據(jù)按照“最重

55、要”、“較重要”和“不重要”三個(gè)層次重新組織，提出了基于實(shí)例重要性的支持向量機(jī)IISVM； Batuwita和Palade53提出了模糊支持向量機(jī)；Hwangt54提出了一種基于拉格朗日支持向量機(jī)的加權(quán)方法來(lái)解決不平衡分類問(wèn)題。但由于支持向量機(jī)在學(xué)習(xí)過(guò)程中的被動(dòng)性，不能有效地選擇學(xué)習(xí)樣本，使得當(dāng)支持向量機(jī)用于訓(xùn)練規(guī)模較大的分類時(shí)，支持向量較多，其訓(xùn)練速度和分類速度較慢。另一個(gè)最常用的算法是代價(jià)敏感學(xué)習(xí)。它通過(guò)為小類設(shè)置更高的誤分類代價(jià) 來(lái)解決類別非均衡問(wèn)題，即將各類不同的錯(cuò)分代價(jià)用到分類決策中，盡可能降低誤分類的總體代價(jià)而不是盡可能降低誤分類的錯(cuò)誤率。改變現(xiàn)有分類算法使其變得代價(jià)

56、敏感是非常困難的工作，有時(shí)效果并不明顯。通常的方法是不改變?cè)械?算法，通過(guò)增加一個(gè)過(guò)程使原來(lái)的分類算法變得代價(jià)敏感。常用方法有如下幾種：（1）調(diào)整樣本分布。根據(jù)錯(cuò)誤分類的代價(jià)按一定比例變換訓(xùn)練集中類別的頻率，其缺點(diǎn)是改變了樣本的分布情況，有時(shí)會(huì)影響算法的性能。（2）元代價(jià)方法。通過(guò)“元學(xué)習(xí)”過(guò)程，根據(jù)最小期望代價(jià)修改訓(xùn)練樣本的類標(biāo)記，并用修改過(guò)的訓(xùn)練集重新學(xué)習(xí)新的模型。（3）代價(jià)敏感決策。首先在訓(xùn)練集中多次抽樣，生成多個(gè)模型，再根據(jù)模型，得到測(cè)試樣本屬于每個(gè)類別的概率，然后計(jì)算測(cè)試樣本的所有錯(cuò)誤分類代價(jià)，并根據(jù)最小代價(jià)得到類標(biāo)記。周志華等探討了類別非均衡性對(duì)代價(jià)敏感學(xué)習(xí)的影響【5

57、5-56,對(duì)通用代價(jià)敏感學(xué)習(xí)方法的共性機(jī)理進(jìn)行了分析，指出其解決多類問(wèn)題失效的原因，并提出了一種多類代價(jià)敏感學(xué)習(xí)方法Rescalenew,該方法能有效地進(jìn)行多類代價(jià)敏感學(xué)習(xí)。 Xia等人列基于數(shù)據(jù)空間擴(kuò)張技術(shù)，將代價(jià)敏感學(xué)習(xí)問(wèn)題轉(zhuǎn)化為一個(gè)標(biāo)準(zhǔn)的0/1損失分類問(wèn)題，并提出了一個(gè)新的加權(quán)機(jī)制。Masnadi-Shirazi等人御提出了代價(jià)敏感提升算法。由于支持向量機(jī)的良好分類性能，許多學(xué)者對(duì)基于支持向量機(jī)的代價(jià)敏感學(xué)習(xí)問(wèn)題也展開了研究工作。最后，在綜合層面上。單一的研究方法對(duì)非均衡數(shù)據(jù)分類性能的提升有限，因此許多學(xué)者致力于結(jié)合不同的方法來(lái)解決類別非均衡問(wèn)題，如集成學(xué)習(xí)。集成學(xué)習(xí)是將多

58、個(gè)分類器組合來(lái)解決同一個(gè)分類問(wèn)題以提升性能。其中，基于代價(jià)敏感Boosting的集成方法尤為常見，它們的通用策略是增加高代價(jià)樣本的權(quán)重。 SMOTEBoost方法是一種基于上采樣的提升方法，它將SMOTE和Boosting相結(jié)合。該方法不是通過(guò)更新每類樣本的權(quán)值來(lái)改變訓(xùn)練數(shù)據(jù)的分布，而是通過(guò)使用SMOTE算法添加新的少數(shù)類樣本。但該方法由于增加了過(guò)多的樣本，使得訓(xùn)練時(shí)間增大，同時(shí)可能導(dǎo)致過(guò)學(xué)習(xí)現(xiàn)象。1.3論文內(nèi)容及章節(jié)安排本文首先從非負(fù)矩陣分解基本問(wèn)題入手，對(duì)現(xiàn)有的NMF算法進(jìn)行了總結(jié)和比較，介紹了不同的目標(biāo)函數(shù)構(gòu)造方式、求解方法、約束條件和衍生算法。同時(shí)，由于本文主要關(guān)注的是保持

59、數(shù)據(jù)結(jié)構(gòu)信息的NMF算法，所以重點(diǎn)研究了樣本密度分布不均勻、鄰域類標(biāo)分布不均勻的情況，更加深入地挖掘樣本數(shù)據(jù)的結(jié)構(gòu)信息，提出了改進(jìn)算法。此外，考慮到在某種程度上樣本密度不均衡是非均衡數(shù)據(jù)的一種形式，因此先研究了現(xiàn)有的非均衡數(shù)據(jù)分類方法，然后提出了面向數(shù)目不均衡數(shù)據(jù)的非負(fù)矩陣分解算法。根據(jù)上述研究?jī)?nèi)容，本文章節(jié)安排如下：第一章緒論，闡述了非負(fù)矩陣分解和非均衡數(shù)據(jù)分類的研究背景和現(xiàn)實(shí)意義, 總結(jié)歸納了它們的國(guó)內(nèi)外研究進(jìn)展和現(xiàn)狀，最后給出論文的主要內(nèi)容和章節(jié)安排。第二章研究了非負(fù)矩陣分解及非均衡數(shù)據(jù)分類的基礎(chǔ)理論。首先給出了 NMF 基本算法及其數(shù)學(xué)模型、求解方法，建立了 NMF問(wèn)題的基本框

60、架。然后介紹了經(jīng) 典的NMF衍生算法，重點(diǎn)分析了各種算法的加性約束項(xiàng)。此外，總結(jié)了現(xiàn)有的數(shù) 目不均衡數(shù)據(jù)的分類難點(diǎn)，并重點(diǎn)介紹了常用的抽樣處理方法。第三章研究了基于數(shù)據(jù)結(jié)構(gòu)信息的非負(fù)矩陣分解算法。針對(duì)基于圖信息的非負(fù)矩陣分解僅用歐式距離來(lái)衡量樣本鄰域結(jié)構(gòu)的局限性，首先將鄰域樣本相似度引入NMF,提出一種基于鄰域樣本相似度的非負(fù)矩陣分解算法；其次進(jìn)一步挖掘鄰域信息，引入鄰域類標(biāo)相似度，并且考慮了基向量的正交性，提出一種基于鄰域相似度的非負(fù)矩陣分解算法。并在標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)和雷達(dá)輻射源數(shù)據(jù)庫(kù)上驗(yàn)證了兩種算法的有效性。第四章研究了面向非均衡數(shù)據(jù)分類的非負(fù)矩陣分解算法。首先針對(duì)常見的非均衡數(shù)據(jù)問(wèn)

人人文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

非負(fù)矩陣分解及其在非均衡數(shù)據(jù)分類中的應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

非負(fù)矩陣分解及其在非均衡數(shù)據(jù)分類中的應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔