多元變量典型相關(guān)分析的分類:最小二乘配方、擴(kuò)展和分析_第1頁
多元變量典型相關(guān)分析的分類:最小二乘配方、擴(kuò)展和分析_第2頁
多元變量典型相關(guān)分析的分類:最小二乘配方、擴(kuò)展和分析_第3頁
多元變量典型相關(guān)分析的分類:最小二乘配方、擴(kuò)展和分析_第4頁
多元變量典型相關(guān)分析的分類:最小二乘配方、擴(kuò)展和分析_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、多元變量典型相關(guān)分析的分類:最小二乘配方、擴(kuò)展和分析摘要典型相關(guān)分析(CCA)是一種尋找兩個(gè)多維變量之間相關(guān)性的著名的技術(shù)。它是一項(xiàng)把兩組變量化到一個(gè)低維空間中并且使他們之間的相關(guān)性最大的工作。CCA通常在兩組變量分別的是來源于數(shù)據(jù)和類標(biāo)簽上申請(qǐng)監(jiān)督降維。眾所周知,CCA可以制定作為在二進(jìn)制類案件中的一個(gè)最小二乘問題。然而,擴(kuò)展到更一般的變量尚不清楚。在本文中,我們表明,在傾向于保持高維數(shù)據(jù)的溫和條件,CCA在多元變量的情況下可以制定作為一個(gè)最小二乘問題。在此基礎(chǔ)上等價(jià)關(guān)系,高效的算法求解最小二乘問題可以應(yīng)用于非常大的數(shù)據(jù)集規(guī)模CCA問題。此外,我們提出幾個(gè)CCA擴(kuò)展,包括基于1規(guī)范正規(guī)化的稀

2、疏CCA方程式。我們進(jìn)一步擴(kuò)展最小二乘方程式為偏最小二乘法。此外,我們表明,投影,讓一群CCA變量是獨(dú)立的,正則化在另組多維變量,提供新的見解的影響CCA的正規(guī)化。我們使用基準(zhǔn)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集確認(rèn)建立了等價(jià)關(guān)系。結(jié)果也證明了CCA擴(kuò)展的有效性和效率的提議。關(guān)鍵字典型相關(guān)分析、最小二乘法、多元變量學(xué)習(xí),偏最小二乘法、正規(guī)化。1 引言典型相關(guān)分析(CCA)1是一個(gè)眾所周知的尋找兩套多維變量之間的相關(guān)性的技術(shù)。它使用兩個(gè)視圖相同的組對(duì)象和項(xiàng)目到一個(gè)與他們最相關(guān)的低維空間中去。CCA已經(jīng)成功應(yīng)用在各種應(yīng)用中2、3。一個(gè)流行的使用CCA是監(jiān)督式學(xué)習(xí),它其中一個(gè)觀點(diǎn)是來源于數(shù)據(jù)并且其他的觀點(diǎn)來

3、源于類標(biāo)簽。在這種背景,數(shù)據(jù)可以用標(biāo)簽信息定向的被投影到一個(gè)低維空間。這樣的一個(gè)方程式在對(duì)多元變量進(jìn)行降維的情況下是非常的吸引人的。多元線性回歸(多元)即最小平方和成本函數(shù)是一種專門研究回歸問題的技術(shù)。它還可以被應(yīng)用于通過定義一個(gè)合適的類指標(biāo)矩陣的分類問題5,6。多元的解決方案基于最小二乘法通過求解一個(gè)線性方程組來獲得。一個(gè)數(shù)量的算法包括共軛梯度算法,可以應(yīng)用到它有效地解決7。此外,最小二乘方程式可以很容易使用正則化技術(shù)進(jìn)行擴(kuò)展。例如,1規(guī)范可以被納入正規(guī)化最小二乘方程式來控制模型復(fù)雜性和提高稀疏8。稀疏常常會(huì)導(dǎo)致容易解釋和良好的泛化能力。它已經(jīng)被成功地應(yīng)用在幾個(gè)算法中,包括主成分分析9和支持

4、向量機(jī)10。與最小二乘法相比,CCA涉及廣義特征值問題,它解決時(shí),計(jì)算更加費(fèi)時(shí)11。此外,它是具有挑戰(zhàn)性的,因?yàn)樗@得稀疏CCA時(shí)涉及到一個(gè)困難稀疏的廣義特征值問題。凸松弛的稀疏CCA的研究12放在,確切的稀疏的CCA配方一直放松在幾個(gè)步驟上。另一方面,最小二乘法和CCA已經(jīng)建立在文學(xué)上建立起一個(gè)有趣的聯(lián)系。特別是,CCA被證明是相當(dāng)于Fisher線性判別分析(LDA)的二進(jìn)制類問題13。與此同時(shí),眾所周知,在這種情況下LDA相當(dāng)于最小二乘法5,6。因此,CCA可以作為一個(gè)對(duì)于二進(jìn)制類問題制定最小二乘問題。在實(shí)踐中,多元變量問題非常普遍。因此研究它們?cè)诟话愕淖兞恐械年P(guān)系更具誘惑。在本文中,我

5、們研究 CCA和最小二乘在多元變量問題之間的關(guān)系。我們表明,在傾向于保持高維數(shù)據(jù)的溫和條件下,CCA可以作為一個(gè)通過制定構(gòu)造一個(gè)特殊類指標(biāo)矩陣的最小二乘問題。在此等價(jià)關(guān)系的基礎(chǔ)上,我們提出幾個(gè)CCA擴(kuò)展,包括使用1規(guī)范正規(guī)化的稀疏CCA。我們表明,最小二乘方程式及其擴(kuò)展的CCA可以有效地解決。例如,相當(dāng)于2規(guī)范的最小二乘配方和正規(guī)化的擴(kuò)展可以通過計(jì)算迭代共軛梯度算法LSQR進(jìn)行處理14,這種算法可以處理非常大規(guī)模的問題。我們通過建立OPLS 和 CCA之間的等價(jià)關(guān)系使最小二乘方程式擴(kuò)展到正交最小二乘(OPLS)和偏最小二乘法(PLS)。此外,我們分析正則化在CCA上的效果。特別是,我們表明,C

6、CA投影,讓一群變量是獨(dú)立的正規(guī)化另組多維變量,闡明正規(guī)化在CCA上的影響。此外,它能顯示出我們的分析可以擴(kuò)展到內(nèi)核誘導(dǎo)功能空間。提供更多細(xì)節(jié)的補(bǔ)充文件,可以發(fā)現(xiàn)在計(jì)算機(jī)協(xié)會(huì)數(shù)字圖書館在/10.1109/TPAMI.2010.160。注釋:訓(xùn)練樣本的數(shù)量,數(shù)據(jù)維數(shù),數(shù)量的標(biāo)簽分別用、。表示第個(gè)觀察。并且表示編碼對(duì)應(yīng)的標(biāo)簽信息。讓是數(shù)據(jù)矩陣,是類標(biāo)簽矩陣。我們假設(shè)所有的和是集中的,和。弗羅貝尼烏斯的規(guī)范表示矩陣A。I是單位矩陣和e是一個(gè)單位向量。2 背景和相關(guān)工作在本節(jié)中,我們回顧C(jī)CA,最小二乘法,和一些相關(guān)的工作。2.1 典型

7、相關(guān)分析在CCA,兩種不同造型的同一組對(duì)象,給出了一個(gè)投影計(jì)算了每個(gè)表示這樣的,他們是最大的維度降低空間相關(guān)。正式,CCA計(jì)算兩個(gè)投影向量和這樣的相關(guān)系數(shù) (1) 是最大化 因?yàn)槭呛筒蛔兊目s放 ,CCA可以相等的變換為 (2) 以下, 我 們假設(shè)是滿秩的。這表明以下問題的最優(yōu)解來獲得:, 。 (3) 兩種方法在(2)和(3)中試圖找到所對(duì)應(yīng)的特征向量與特征值的頂部以下廣義特征值問題: , (4)特征值與特征向量是相對(duì)應(yīng)的。它也表明,多個(gè)投影向量在某些正規(guī)化約束由頂部的特征向量的廣義特征值問題(4)2。在正規(guī)化CCA(rCCA),兩個(gè)正則化條件和,并且被添加在(2)來防止過度擬合,避免奇點(diǎn)和的2

8、, 15。具體來說,解決了以下商資歸農(nóng)廣義特征值問題: (5)2.2 最小二乘法的回歸和分類在回歸,我們就有了一種訓(xùn)練集,其中是觀察數(shù)據(jù),是相應(yīng)的目標(biāo)。我們假設(shè)兩把觀察結(jié)果和目標(biāo)集中。結(jié)果,攔截在回歸可以被消除。在這種情況下, 最小二乘方法可以用于計(jì)算投影 矩陣W通過最小化以下平方和成本 功能: (6)其中。眾所周知,最優(yōu)投影矩陣給出了5,6 (7)其中代表雅可比矩陣的偽偽逆。最小二乘公式也可應(yīng)用于分類問題。在一般的多級(jí)情況下,我們是給定一個(gè)n樣品組成的數(shù)據(jù)集,其中,表示第i類標(biāo)號(hào)的樣本,k>2。應(yīng)用最小二乘的多類配方情況下,1 k的二進(jìn)制編碼方案通常是把向量值類代碼應(yīng)用于每個(gè)數(shù)據(jù)點(diǎn)5。

9、解決方案取決于選擇類指標(biāo)矩陣。幾類指標(biāo)矩陣的提出在文獻(xiàn)6。2.3 相關(guān)工作最小二乘法的內(nèi)在關(guān)系和其他幾個(gè)模型在過去已經(jīng)建立。特別是,它是一個(gè)經(jīng)典的效果,最小二乘問題是等價(jià)的LDA對(duì)二進(jìn)制類問題5。最近,這種等價(jià)關(guān)系是延伸到通過定義一個(gè)特定的類指標(biāo)矩陣的多類案件16。CCA已被證明是相當(dāng)于LDA對(duì)多類問題13。因此,CCA相當(dāng)于最小二乘法在多類案件。我們顯示在接下來的部分,在溫和條件下,可作為制定CCA最小二乘問題的更一般的設(shè)置,即,多元變量問題當(dāng)一個(gè)用來源于標(biāo)簽的CCA的視圖。3 CCA和最小二乘對(duì)于MULTILABEL之間的關(guān)系分類在本節(jié)中,我們的相關(guān)關(guān)系和最小二乘法的CCA multila

10、bel案例,由于空間限制,所有的證據(jù)是提供在補(bǔ)充文件,可以在計(jì)算機(jī)協(xié)會(huì)數(shù)字圖書館中找到/10.1109/TPAMI.2010.160。首先為我們的推導(dǎo)定義四個(gè)矩陣:, (8), (9), (10), (11)注意,我們假設(shè)并且為多元變量的問題。這樣就很明確了。遵循上面的定義,解決CCA可以表達(dá)為特征值所對(duì)應(yīng)的特征向量與矩陣的頂部。3.1 基本矩陣屬性在本節(jié)中,我們研究的基本性質(zhì)的矩陣參與下面的討論。以下定義在(8)中的H,我們有:引理 3.1 讓H被定義為在(8),并且讓集中的,。這樣,我們有:(1) H已經(jīng)正規(guī)化的列,。(2)

11、 。鑒于與列正交,存在使得是正交矩陣,簡而言之于是就出現(xiàn)了的結(jié)果,讓奇異值分解計(jì)算且其中是正交矩陣,很明顯位于零空間中,簡而言之 (12)3.2 通過特征分解計(jì)算CCA回想一下,解決CCA由矩陣的頂部特征向量.我們下一個(gè)展示如何計(jì)算這些特征向量。定義了矩陣且 (13) 讓奇異值分解,使,其中是正交的,是對(duì)角線的。這樣 (14)矩陣的特征分解總結(jié)了下面的定理:定理3.1 矩陣有k個(gè)非零特征值。具體來說,CCA的解決辦法是由與矩陣最頂端的特征值相對(duì)應(yīng)的特征向量組成的,可以得到: (15)其中在包含第一列的。3.3 和最小二乘法等價(jià)的CCA考慮類指標(biāo)矩陣定義如下: (16)它遵循從(7),解決最小二

12、乘問題給定 (17) 從(15)和(17)中可以很明顯的看出之間(CCA)和最小二乘法的區(qū)別在于和我們下一個(gè)顯示所有的對(duì)角元素的在溫和的條件下,即, .注意,第一個(gè)條件是相當(dāng)于要求原始數(shù)據(jù)點(diǎn)是線性獨(dú)立前定心,傾向于保持高維數(shù)據(jù)。出示之前主要結(jié)果總結(jié)在定理3.2下面,我們有以下引理:引理 3.2 我們假設(shè),對(duì)于一些非負(fù)整數(shù)有。那么對(duì)于矩陣,我們有,其中 。定理 3.2 假設(shè)為多元變量問題,這樣我們有,因此在引理3.2中的定義相當(dāng)于零,并且有。這就意味著的所有的對(duì)角元素是單位的。既然,包含k個(gè)非零特征值。如果我們令,則有 (18)和唯一的區(qū)別在于正交矩陣在和。在實(shí)踐中,我們可以使用和兩個(gè)項(xiàng)目的原始

13、數(shù)據(jù)到一個(gè)低維空間在分類之前。對(duì)于分類器基于歐幾里得距離,正交變換不會(huì)影響分類性能,任何正交轉(zhuǎn)換歐幾里得距離是不變的。一些著名的算法滿足這個(gè)屬性包括k最近鄰(k最近鄰)算法6基于歐氏距離和線性支持向量機(jī)(SVM)17。在下面,相當(dāng)于最小二乘CCA配方被稱為“IS-CCA。”4. 擴(kuò)展最小二乘的CCA 基于等價(jià)關(guān)系建立在上一節(jié)中,古典CCA配方可以擴(kuò)展使用正則化技術(shù),它常用于控制的復(fù)雜性和提高模型的泛化性能。類似于嶺回歸6,我們得到2規(guī)范正則化最小二乘CCA配方(稱為“LS-CCA2”),從而減少以下目標(biāo)函數(shù)通過使用目標(biāo)矩陣(16):其中是正則化參數(shù)。眾所周知,稀疏通??梢酝ㄟ^懲罰1規(guī)范變量的8

14、得到。它已經(jīng)被引入最小二乘配方,由此產(chǎn)生的模型被稱為套索8。基于等價(jià)關(guān)系的建立(CCA)和最小二乘法,我們推導(dǎo)出1規(guī)范正則化最小二乘CCA配方(稱為“LS-CCA1”),從而減少以下目標(biāo)函數(shù):。LS-CCA1使用最先進(jìn)的算法18、19可以有效地解決。此外,整個(gè)解決方案的路徑用最小角回歸算法20計(jì)算所有值。5. 高效實(shí)現(xiàn)的CCA回想一下,我們處理問題的廣義特征值在(4)來解決CCA,雖然,在我們的理推導(dǎo),等價(jià)特征值問題是代替。大規(guī)模的廣義特征值問題是已知的比常規(guī)的特征值問題11、21來的更難。有兩個(gè)選項(xiàng)轉(zhuǎn)換中的問題(4)成一個(gè)標(biāo)準(zhǔn)的特征值問題21:1)因素和2)使用標(biāo)準(zhǔn)的蘭索斯算法矩陣使用內(nèi)積。

15、在對(duì)于高維問題與一個(gè)小正則化這種情況下,第二個(gè)選擇都有它自己的奇異矩陣的問題。因此,在本文中,我們因素和解決對(duì)稱特征值問題使用蘭索斯算法。相當(dāng)于導(dǎo)致一個(gè)有效的最小二乘制定實(shí)施。該算法的偽代碼,給出了算法1。復(fù)雜的第一步是。在第二步中,我們解決最小二乘問題的k。在我們的實(shí)現(xiàn)中,我們使用LSQR算法在14,這是一個(gè)實(shí)現(xiàn)了共軛梯度式法求解稀疏最小二乘問題。注意,原始矩陣很稀少在應(yīng)用在程序中,如文本文檔建模。然而,在中心,X不再是稀疏的。為了保持稀疏的,向量是由一個(gè)額外的組件作為增強(qiáng)。這個(gè)新組件充當(dāng)對(duì)最小二乘法的攔截。擴(kuò)展來標(biāo)示,修訂后的最小二乘問題表示為,其中。對(duì)于一個(gè)新的數(shù)據(jù)點(diǎn),它的投影給出了算法

16、1。高效的實(shí)現(xiàn)通過LSQR CCA輸入:X,Y計(jì)算矩陣診斷基于奇異值分解的Y。用LSQR在上回歸X。對(duì)于一個(gè)密集的數(shù)據(jù)矩陣,計(jì)算成本參與每個(gè)迭代的是14。因?yàn)樽钚《藛栴}解決了k次,總體成本是,其中N是迭代的總數(shù)。當(dāng)矩陣是稀疏的,成本明顯降低。假設(shè)非零元素的數(shù)量在 中是z。總成本減少到。總之,總時(shí)間復(fù)雜度為解決最小二乘配方通過LSQR是當(dāng)是稀疏的。6. 擴(kuò)展最小二乘的配方回想一下,CCA尋求一對(duì)線性變換,一個(gè)用于每一組變量,這樣數(shù)據(jù)最相關(guān)轉(zhuǎn)換空間。相比之下,偏最小二乘法(PLS)發(fā)現(xiàn)方向最大協(xié)方差。協(xié)方差和相關(guān)性是兩種不同的統(tǒng)計(jì)措施為如何共變的量化的變量。CCA和PLS已被證明是有密切聯(lián)系22

17、。在23和24,一個(gè)統(tǒng)一的框架,請(qǐng)和CCA的開發(fā),并正交(CCA)和偏最小二乘法(OPLS)25的一個(gè)變體,可視為特殊情況的統(tǒng)一框架,通過選擇不同的正則化參數(shù)值。然而,OPLS 和CCA內(nèi)在的等價(jià)關(guān)系尚未研究過。在本節(jié)中,我們證明了OPLS 和CCA等價(jià)關(guān)系,從而擴(kuò)展最小二乘OPLS配方。以下優(yōu)化問題被認(rèn)為是在OPLS: (20)給出了最優(yōu)以下的特征向量的廣義特征值問題: (21)矩陣被定義為 (22)回想一下,在CCA,矩陣定義在(13)中和奇異值分解給出了。同樣的,我們定義,允許細(xì)微的奇異分解值為,其中 。在范圍的空間我們有下面的結(jié)果:引理 6.1 讓定義在(13)中,。這樣,其中和是和的

18、列空間。此外,存在一種像這樣的正交矩陣,由的第列組成。本節(jié)的主要結(jié)果總結(jié)了以下定理:定理 6.1 讓是最優(yōu)解的優(yōu)化問題(20)和讓是最佳CCA變換定義在(18)。然后,為正交矩陣。它遵循從定理6.1,OPLS可以很容易為一個(gè)等價(jià)的最小二乘問題的新配方使用相同的類指標(biāo)矩陣定義在(16)。7. 分析正則化在CCA在本節(jié)中,我們調(diào)查在CCA正規(guī)化的影響。最小二乘CCA制定建立在本文假設(shè)沒有正則化應(yīng)用。然而,正則化通常用于控制復(fù)雜性的學(xué)習(xí)模式,它已應(yīng)用于各種機(jī)器學(xué)習(xí)算法。使用正則化在CCA自然統(tǒng)計(jì)解釋15,26。在實(shí)踐中,正則化通常在CCA中執(zhí)行兩種多維變量,因?yàn)樗话阏J(rèn)為的解決方案是依賴于CCA正規(guī)

19、化兩變量。從前面部分后的推導(dǎo),我們表明,投影,讓一群CCA變量是獨(dú)立的正規(guī)化另組多維變量,提供新的影響CCA正規(guī)化的見解。7.1 正規(guī)化在Y在CCA中對(duì)Y使用正則化導(dǎo)致下列廣義特征值問題: (23)是正則化參數(shù)。廣義特征值問題在(23)可以表示為: (24)矩陣為正規(guī)化CCA的定義是: (25)主要結(jié)果概括如下定理:定理7.1 讓是矩陣組成的主要特征向量的廣義特征值問題在(24)的非零特征值對(duì)應(yīng)。然后,為正交矩陣R。它很容易檢查在在(8)中的和在(25)中的的范圍的空間一致。證明遵循相同的參數(shù)在引理6.1和定理6.1。定理7.1表明CCA配方被認(rèn)為是可以制定作為一個(gè)最小二乘問題相當(dāng)于當(dāng)Y正則化

20、。注意,Y可以是任意矩陣(不一定是類標(biāo)簽矩陣)。一個(gè)重要的結(jié)果從等價(jià)關(guān)系的投影為一個(gè)視圖是獨(dú)立的CCA的正規(guī)化的其他視圖。一個(gè)類似的結(jié)果能夠獲取內(nèi)核CCA。7.2 正規(guī)化在X對(duì)Y自正則化不影響投影的X,我們接下來考慮正則化在X分開。由此產(chǎn)生的廣義特征值問題在CCA可以制定如下: (26)是參數(shù)X正則化。同樣,我們可以推導(dǎo)出正交矩陣,結(jié)果總結(jié)了以下引理:引理 7.1 定義矩陣為, (27)為他的奇異分解,,是正交的,是對(duì)角線的。然后,與矩陣的特征值最高所對(duì)應(yīng)的特征向量給出了, (28)由的第一列組成。它可以觀察到,B的空間范圍與A不是同于一個(gè);因此,CCA和最小二乘的等價(jià)關(guān)系被認(rèn)為是不持有當(dāng)正則

21、化在X。然而,OPLS CCA的等價(jià)關(guān)系仍然持有當(dāng)正則化在X是應(yīng)用。主要結(jié)果總結(jié)在定理7.2以下(證明遵循類似的參數(shù)在引理6.1):定理 7.2 ,讓和少量的奇異分解值為, 。然后,這個(gè)和范圍的空間一致。此外,還存在一個(gè)像這樣的正交矩陣。因此,CCA和OPLS是等價(jià)的任何.回想一下,制定可歸納為CCA廣義特征值問題如(5),這就需要計(jì)算矩陣的逆。計(jì)算逆可能計(jì)算量大,當(dāng)維數(shù)k的數(shù)據(jù)Y是很大的。這種情況在基于內(nèi)容的圖像檢索27,兩個(gè)視圖對(duì)應(yīng)的文本和圖像數(shù)據(jù),都是高維度。一個(gè)重要的結(jié)果,建立了OPLS和 CCA的等價(jià)關(guān)系是逆的大型矩陣可以有效避免計(jì)算投影一個(gè)視圖。8. 實(shí)驗(yàn)我們?cè)趯?shí)驗(yàn)中使用三種類型的

22、數(shù)據(jù)?;虮磉_(dá)模式圖像data1描述果蠅的基因表達(dá)譜28。每個(gè)圖像標(biāo)注一個(gè)變量數(shù)量的文本術(shù)語(標(biāo)簽)從受控詞匯表。我們應(yīng)用伽柏過濾器中提取一個(gè)384維的特征向量從每個(gè)圖像。我們用五個(gè)數(shù)據(jù)集和不同數(shù)量的術(shù)語(類標(biāo)簽)。我們也評(píng)估擬議的方法在現(xiàn)場(chǎng)數(shù)據(jù)集29,這是常用的作為一個(gè)基準(zhǔn)數(shù)據(jù)集對(duì)多元變量的學(xué)習(xí)。研究提出了最小二乘的可伸縮性配方,一個(gè)文本文檔數(shù)據(jù)集與高維度從雅虎!使用30。這些數(shù)據(jù)集的統(tǒng)計(jì)歸納如表1。表1匯總統(tǒng)計(jì)的數(shù)據(jù)集表2比較不同的CCA配方意思是中華民國方面得分所有的數(shù)據(jù)集,報(bào)告10個(gè)隨機(jī)數(shù)據(jù)的分區(qū)訓(xùn)練集和測(cè)試集生成和平均性能。對(duì)于高維文本文檔的數(shù)據(jù)集,我們遵循特征選擇方法研究31文本文

23、檔和提取不同數(shù)量的術(shù)語(特性)調(diào)查性能的算法。與算法5進(jìn)行比較,包括在(5)中CCA和正規(guī)化的版本(指示為商資歸農(nóng)),提出了最小二乘CCA配方(指示為ls CCA)及其2規(guī)范和1規(guī)范正規(guī)化的版本(指示為LS-CCA2和LS-CCA1,分別)。所有的方法都是用于項(xiàng)目數(shù)據(jù)到一個(gè)低維空間中線性支持向量機(jī)進(jìn)行分類為每個(gè)不同的標(biāo)簽。接受者操作特性(ROC)得分計(jì)算為每個(gè)不同的標(biāo)簽,在標(biāo)簽和平均性能報(bào)告所有剝片。8.2 等價(jià)關(guān)系的評(píng)估和性能比較我們首先對(duì)(CCA)和最小二乘法的等價(jià)關(guān)系進(jìn)行評(píng)估。我們觀察到,當(dāng)數(shù)據(jù)維數(shù)d遠(yuǎn)遠(yuǎn)大于樣本大小n,在定理3.2的條件往往持有。它遵循從定理3.2,等于,所有對(duì)角元素是

24、單位的,這是符合觀測(cè)的實(shí)驗(yàn)。在表2中,我們報(bào)告的平均分?jǐn)?shù)超過所有的標(biāo)簽和中華民國為每個(gè)數(shù)據(jù)集都剝片。主要的觀察包括:1)CCA和ls CCA達(dá)到同樣的性能,所有的數(shù)據(jù)集,這是符合我們的理論結(jié)果,2)正規(guī)化CCA擴(kuò)展包括商資歸農(nóng),LS-CCA2,LS-CCA1執(zhí)行更好的比他們的同行CCA和ls CCA沒有正規(guī)化,3)LS-CCA2比得上在所有的數(shù)據(jù)集商資歸農(nóng),而LS-CCA1達(dá)到最好的性能對(duì)于所有基因圖像數(shù)據(jù)集。這些觀察結(jié)果證明用正則化最小二乘擴(kuò)展技術(shù)的有效性使。8.3 敏感性研究在這個(gè)實(shí)驗(yàn)中,我們調(diào)查ls CCA的性能相比CCA當(dāng)在定理3.2的條件中并不持有,這種情況存在許多真實(shí)世界的應(yīng)用程序

25、中。具體來說,我們使用一個(gè)基因數(shù)據(jù)集基因圖像2維數(shù)固定在d=384和k= 15的標(biāo)簽,而訓(xùn)練集的大小變化從100年到900年與步長約100。不同的線性算法的性能作為訓(xùn)練集規(guī)模的增加呈現(xiàn)在圖a1。我們可以發(fā)現(xiàn),總體而言,所有算法的性能增加的培訓(xùn)規(guī)模增加。當(dāng)n是很小,條件在定理3.2成立,因此CCA和ls CCA是等價(jià)的,它們達(dá)到同樣的性能。當(dāng)n進(jìn)一步增加,CCA和ls CCA實(shí)現(xiàn)不同的變動(dòng)率指標(biāo)數(shù),雖然在我們的實(shí)驗(yàn)差異分?jǐn)?shù)總是非常小的。類似于上次的實(shí)驗(yàn),我們可以從圖觀察到,正則化方法能夠比CCA和ls-CCA,LS-CCA2與rCCA更好地執(zhí)行。這個(gè)數(shù)據(jù)集稀疏配方LS-CCA1執(zhí)行的最好。實(shí)驗(yàn)的

26、靈敏度也表現(xiàn)在現(xiàn)場(chǎng)數(shù)據(jù)集。結(jié)果總結(jié)在圖b1,可以類似的觀察。8.4 可擴(kuò)展性研究在這個(gè)實(shí)驗(yàn)中,我們研究相比最小二乘原CCA配方的可伸縮性配方。因?yàn)檎?guī)化算法是首選在實(shí)踐中,我們比較正規(guī)化CCA配方(rCCA)和2規(guī)范正規(guī)化最小二乘配方(LS-CCA2)。最小二乘問題是解決LSQR算法14。圖a2一個(gè)顯示了計(jì)算時(shí)間的兩個(gè)配方的高維文本文檔數(shù)據(jù)集雅虎 Arts&Humanities作為數(shù)據(jù)維數(shù)隨著訓(xùn)練集的大小固定為1000。它可以觀察到兩種算法隨著數(shù)據(jù)維數(shù)不斷增加,計(jì)算時(shí)間不斷增加。然而,計(jì)算時(shí)間的最小二乘配方(LS-CCA2)是大大低于原來的配方(rCCA)。事實(shí)上,LS-CCA2所有測(cè)

27、試數(shù)據(jù)維數(shù)計(jì)算時(shí)間小于5秒。我們也評(píng)估兩個(gè)配方的可伸縮性方面的訓(xùn)練樣本大小。圖b2陰謀計(jì)算時(shí)間的兩個(gè)公式在文本文件數(shù)據(jù)集當(dāng)訓(xùn)練樣本大小隨數(shù)據(jù)維數(shù)固定為2000,可以類似的觀察。訓(xùn)練集的大小由于高計(jì)算成本的原始特征值問題是沒有進(jìn)一步增加。從圖2,我們得出了最小二乘配方是比原來CCA配方更加可伸縮 。8.5 正則化分析在這個(gè)實(shí)驗(yàn)中,我們研究的影響為CCA正規(guī)化。此外,我們比較OPLS 和 CCA在不同正則化參數(shù)值下得性能。具體來說,我們隨機(jī)選擇700樣本數(shù)據(jù)集進(jìn)行訓(xùn)練的場(chǎng)景,不同的正則化參數(shù)值從1e- 6到1e4。首先,我們考慮只在X正規(guī)化。CCA的性能和OPLS現(xiàn)場(chǎng)數(shù)據(jù)設(shè)置為變量總結(jié)了圖3。我們

28、可以觀察到從圖,在所有的值,(CCA)和OPLS的性能是相同的。這證實(shí)了CCA 和OPLS的等價(jià)關(guān)系定理7.2成立。我們還觀察到OPLS 和CCA的性能可以提高,通過使用一個(gè)適當(dāng)?shù)娘@著正則化參數(shù),證明了利用正則化在X。接下來,我們考慮正則化只在Y。CCA和OPLS的性能的不同值總結(jié)了圖3 b。我們可以觀察到CCA的表現(xiàn)依然是變化,驗(yàn)證正則化在y不影響其性能。另外,我們觀察到兩種方法的性能在所有的情況下是相同的,這是符合我們的理論分析。9. 總結(jié)在本文中,我們?cè)跍睾蜅l件下為CCA建立一個(gè)等價(jià)的最小二乘配方,傾向于保持高維數(shù)據(jù)。在本文中基于等價(jià)關(guān)系建立,我們提出幾個(gè)CCA擴(kuò)展包括稀疏CCA。一個(gè)高

29、效的算法擴(kuò)展CCA配方非常大的數(shù)據(jù)集。我們進(jìn)一步擴(kuò)展的等價(jià)關(guān)系正交偏最小二乘法。此外,我們表明,投影一視圖CCA獨(dú)立的正規(guī)化的其他視圖。我們進(jìn)行了多元變量數(shù)據(jù)集的集合的實(shí)驗(yàn)。我們的實(shí)驗(yàn)表明,最小二乘法CCA配方和原始CCA配方的性能非常接近甚至當(dāng)條件是違反的。版權(quán)聲明這項(xiàng)研究是由美國國家科學(xué)基金會(huì)組織(NSF)iis - 0612069,- 0812551,iis iis - 0953662,NIH,hm1582 R01-HG002516 NGA - 08 - 1 - 0016。參考文獻(xiàn):1 H. Hotelling, “Relations between Two Sets of Variab

30、les,” Biometrika, vol. 28,pp. 312-377, 1936.2 D. Hardoon, S. Szedmak, and J. Shawe-Taylor, “Canonical CorrelationAnalysis: An Overview with Application to Learning Methods,” NeuralComputation, vol. 16, no. 12, 2004.3 J.-P. Vert and M. Kanehisa, “Graph-Driven Feature Extraction fromMicroarray Data Us

31、ing Diffusion Kernels and Kernel CCA,” Proc. Ann.Conf. Neural Information Processing Systems, vol. 15, pp. 1425-1432, 2003.4 S. Yu, K. Yu, V. Tresp, and H.-P. Kriegel, “Multi-Output RegularizedFeature Projection,” IEEE Trans. Knowledge and Data Eng., vol. 18, no. 12,pp. 1600-1613, Dec. 2006.5 C. Bis

32、hop, Pattern Recognition and Machine Learning. Springer, 2006.6 T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning:Data Mining, Inference, and Prediction. Springer, 2001.7 G. Golub and C.V. Loan, Matrix Computations. Johns Hopkins Press, 1996.8 R. Tibshirani, “Regression

33、 Shrinkage and Selection via the Lasso,” J. RoyalStatistical Soc.: Series B, vol. 58, no. 1, pp. 267-288, 1996.9 A. dAspremont, L. Ghaoui, M. Jordan, and G. Lanckriet, “A DirectFormulation for Sparse PCA Using Semidefinite Programming,” Proc. Ann.Conf. Neural Information Processing Systems, vol. 16, pp. 41-48, 2004.10 J. Zhu, S. Rosset, T. Hastie, and R. Tibshi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論