多標(biāo)記學(xué)習(xí)中LIFT算法的簡(jiǎn)要概述_第1頁
多標(biāo)記學(xué)習(xí)中LIFT算法的簡(jiǎn)要概述_第2頁
多標(biāo)記學(xué)習(xí)中LIFT算法的簡(jiǎn)要概述_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上多標(biāo)記學(xué)習(xí)中LIFT算法的簡(jiǎn)要概述作者:李星星來源:大眾科學(xué)·上旬2019年第02期        摘 要:在多標(biāo)記學(xué)習(xí)體系內(nèi),關(guān)于現(xiàn)實(shí)內(nèi)的所有客觀對(duì)象,系統(tǒng)均會(huì)在輸入空間(屬性空間)通過使用一個(gè)樣本來描述這種對(duì)象的性質(zhì),而在輸出空間(類標(biāo)空間)中則采用類標(biāo)來描述這種對(duì)象所具有的語義信息。而其中一種基于特異性特征的多標(biāo)記學(xué)習(xí)方法LIFT尤為重要。        關(guān)鍵詞:多標(biāo)記學(xué)習(xí);類別屬性;LIFT算

2、法        一、LIFT算法概述        在多標(biāo)記學(xué)習(xí)體系內(nèi),關(guān)于現(xiàn)實(shí)內(nèi)的所有客觀對(duì)象,系統(tǒng)均會(huì)在輸入空間(屬性空間)通過使用一個(gè)樣本來描述這種對(duì)象的性質(zhì),而在輸出空間(類標(biāo)空間)中則采用類標(biāo)來描述這種對(duì)象所具有的語義信息。而多標(biāo)記學(xué)習(xí)的任務(wù)就是替真實(shí)世界中擁有多種語義的那些客觀對(duì)象構(gòu)建分類器的模型,從而以便這種模型能夠高效地預(yù)測(cè)未知樣本擁有的所有相關(guān)標(biāo)記。     

3、0;  以前很多多標(biāo)記學(xué)習(xí)方法應(yīng)運(yùn)而生,然而這些方法所采用的共同思想就是在同樣的特征空間中,利用相同的特征集合來預(yù)測(cè)樣本所有的類標(biāo)。換言之,通過這類方法,多標(biāo)記學(xué)習(xí)體系將得出的p個(gè)實(shí)值函數(shù)f1,f2,fp則是通過同樣特征集合所訓(xùn)練而來。        雖然這些方法在性能上也實(shí)現(xiàn)了很好的魯棒性,但是這種思想也許并不是最好的選擇。比如說:當(dāng)判斷一個(gè)學(xué)生是計(jì)算機(jī)系的學(xué)生還是藝術(shù)系的學(xué)生時(shí),可以通過像代碼和藝術(shù)作品這類的特性就可以大致區(qū)別該學(xué)生的身份來;以上的信息特征和所對(duì)應(yīng)的類別最相關(guān)、對(duì)該類別最具有

4、區(qū)分能力的屬性,這類特征也被稱之為類標(biāo)特異性特征(Label-Specific Features)。對(duì)于此,本文將介紹一種基于特異性特征的多標(biāo)記學(xué)習(xí)方法LIFT。        二、LIFT算法基本原理及步驟        在構(gòu)建多標(biāo)記學(xué)習(xí)模型的過程中,已有的多標(biāo)記學(xué)習(xí)方法基本都是在輸出空間(類標(biāo)空間)的基礎(chǔ)上進(jìn)行研究,而很少在輸入空間(特征空間)上進(jìn)行研究?;诖耍c以往方法的思想不同,為了充分考察特征空間的性質(zhì),充分利用某一特定類標(biāo)

5、lkL,k1,2,p的特異性特征,LIFT算法被提出以便應(yīng)對(duì)這些多標(biāo)記數(shù)據(jù)集。        假設(shè)x=IRk表示為包含k個(gè)維度的樣本空間,L=l1,l2,lp表示為類標(biāo)向量,符號(hào)p表示為類別總數(shù)。S=(xi,Yi)|i=1,2,n表示為多標(biāo)記學(xué)習(xí)的訓(xùn)練集,符號(hào)n表示為訓(xùn)練樣本的數(shù)目。則第i個(gè)樣本對(duì)象可看作是具有k個(gè)屬性值的一個(gè)向量xi=xi1,xi2,xik,其中xix,并且Yi=Yi1,Yi2,YiP包含于L,是樣本xi的地表真實(shí)類標(biāo)?;谶@些性質(zhì),LIFT算法分為以下三個(gè)步驟:類標(biāo)特異性特征構(gòu)建、分類模型架構(gòu)以

6、及未知樣本的預(yù)測(cè)。        (1)類標(biāo)特異性特征構(gòu)建        對(duì)于LIFT算法,每一個(gè)類標(biāo)lkL,訓(xùn)練樣本均被劃分為兩個(gè)部分,即正訓(xùn)練樣本子集Pk和負(fù)訓(xùn)練樣本子集Nk。換句話說,Pk代表著由囊括類標(biāo)lk的樣本所構(gòu)成的集合,同樣地,Nk代表著由不含類標(biāo)lk的樣本所構(gòu)成的集合。它們的形式可表示如下:        在式(1)和(2)中,如果訓(xùn)練樣本x

7、i涵蓋類標(biāo)lk,則xi隸屬于Pk,否則的話,則xi隸屬于Nk。        為了獲得Pk和Nk的內(nèi)在屬性,LIFT方法分別對(duì)正訓(xùn)練樣本集合Pk和負(fù)訓(xùn)練樣本集合Nk上采用聚類分析方法。在先前文獻(xiàn)1, 2中,依據(jù)經(jīng)典而又有效的k-means方法來聚類分析。在此,將Pk劃分成mk個(gè)不相交的聚類,并且它的聚類中心被描述為 ,        按照同樣的方式,Nk也被劃分成mk個(gè)不相交的聚類,其聚類中心被描述為 。正如我們所知,在多標(biāo)記學(xué)習(xí)系統(tǒng)中

8、,經(jīng)常會(huì)        出現(xiàn)類別不平衡的問題,即Nk的聚類中心數(shù)目遠(yuǎn)遠(yuǎn)地超過Pk的聚類中心數(shù)目,形式化表示則為|Nk|20*|Pk|。因此,為了避免這個(gè)問題,LIFT算法對(duì)子集Pk和Nk設(shè)置了同樣的聚類中心數(shù)目。如此說來,LIFT算法對(duì)正訓(xùn)練樣本子集Pk和負(fù)訓(xùn)練樣本子集Nk的聚類信息則賦予了一樣的權(quán)重。具體而言,聚類中心數(shù)目以如下形式表示:        式中,|.|可表示為集合的勢(shì),也稱作該集合的基數(shù)。并且0,1表示為一個(gè)可以控制聚類

9、數(shù)目的參數(shù)。        根據(jù)聚類自身的特性可以知道,子集Pk和Nk的聚類中心展現(xiàn)了它們樣本數(shù)據(jù)的內(nèi)部結(jié)構(gòu)特點(diǎn)。所以說,通過聚類中心,我們可以構(gòu)建出類標(biāo)特異性特征,其形式如下所示:        式中,d(·,·)表示著兩不同樣本間的距離,在文獻(xiàn)25, 26中,歐氏距離通常被用來計(jì)算距離,其實(shí)在本文中,也嘗試用其他距離公式,如,閔可夫斯基距離來計(jì)算樣本間的距離,然而最后的效果卻和歐氏距離所得到的效果并無多的差異。因

10、此,本文最后還是使用歐氏距離。實(shí)際上,這是一個(gè)由原始的k維的特征空間向2mk維的類標(biāo)特異性特征空間Nk的映射函數(shù)        (2)分類模型架構(gòu)        在第二步中,LIFT算法則通過由上一步驟中所構(gòu)建的類標(biāo)特異性特征空間Nk中的類標(biāo)特異性特征k分別訓(xùn)練出個(gè)分類模型Q1,Q2,Q。對(duì)于每一個(gè)類標(biāo)lkL,依據(jù)映射函數(shù)k,從原始的訓(xùn)練集S內(nèi)得到相應(yīng)的具有n個(gè)樣本的二類訓(xùn)練集Sk*,二類訓(xùn)練集Sk*具有如下表示:  

11、;      式中,如果lkYi,則p(lk,Yi)值為+1;否則其值為-1?;谝陨系姆治?,任何的一個(gè)二類學(xué)習(xí)算法都可以被用來誘導(dǎo)出類標(biāo)lk所對(duì)應(yīng)的一個(gè)分類模型Qk:NkR。        (3)未知樣本的預(yù)測(cè)        在最后一步中,在給出某一未知樣本x'x后,其預(yù)測(cè)類標(biāo)子集可由如下公式表示     &

12、#160;  參考文獻(xiàn)        1Zhang M L, Wu L. Lift : Multi-Label Learning with Label-Specific FeaturesJ. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2015, 37(1): 107-120.        2Zhang M L. LIFT: multi-label learning with label-specific f

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論