


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上多標(biāo)記學(xué)習(xí)中LIFT算法的簡(jiǎn)要概述作者:李星星來源:大眾科學(xué)·上旬2019年第02期 摘 要:在多標(biāo)記學(xué)習(xí)體系內(nèi),關(guān)于現(xiàn)實(shí)內(nèi)的所有客觀對(duì)象,系統(tǒng)均會(huì)在輸入空間(屬性空間)通過使用一個(gè)樣本來描述這種對(duì)象的性質(zhì),而在輸出空間(類標(biāo)空間)中則采用類標(biāo)來描述這種對(duì)象所具有的語義信息。而其中一種基于特異性特征的多標(biāo)記學(xué)習(xí)方法LIFT尤為重要。 關(guān)鍵詞:多標(biāo)記學(xué)習(xí);類別屬性;LIFT算
2、法 一、LIFT算法概述 在多標(biāo)記學(xué)習(xí)體系內(nèi),關(guān)于現(xiàn)實(shí)內(nèi)的所有客觀對(duì)象,系統(tǒng)均會(huì)在輸入空間(屬性空間)通過使用一個(gè)樣本來描述這種對(duì)象的性質(zhì),而在輸出空間(類標(biāo)空間)中則采用類標(biāo)來描述這種對(duì)象所具有的語義信息。而多標(biāo)記學(xué)習(xí)的任務(wù)就是替真實(shí)世界中擁有多種語義的那些客觀對(duì)象構(gòu)建分類器的模型,從而以便這種模型能夠高效地預(yù)測(cè)未知樣本擁有的所有相關(guān)標(biāo)記。
3、0; 以前很多多標(biāo)記學(xué)習(xí)方法應(yīng)運(yùn)而生,然而這些方法所采用的共同思想就是在同樣的特征空間中,利用相同的特征集合來預(yù)測(cè)樣本所有的類標(biāo)。換言之,通過這類方法,多標(biāo)記學(xué)習(xí)體系將得出的p個(gè)實(shí)值函數(shù)f1,f2,fp則是通過同樣特征集合所訓(xùn)練而來。 雖然這些方法在性能上也實(shí)現(xiàn)了很好的魯棒性,但是這種思想也許并不是最好的選擇。比如說:當(dāng)判斷一個(gè)學(xué)生是計(jì)算機(jī)系的學(xué)生還是藝術(shù)系的學(xué)生時(shí),可以通過像代碼和藝術(shù)作品這類的特性就可以大致區(qū)別該學(xué)生的身份來;以上的信息特征和所對(duì)應(yīng)的類別最相關(guān)、對(duì)該類別最具有
4、區(qū)分能力的屬性,這類特征也被稱之為類標(biāo)特異性特征(Label-Specific Features)。對(duì)于此,本文將介紹一種基于特異性特征的多標(biāo)記學(xué)習(xí)方法LIFT。 二、LIFT算法基本原理及步驟 在構(gòu)建多標(biāo)記學(xué)習(xí)模型的過程中,已有的多標(biāo)記學(xué)習(xí)方法基本都是在輸出空間(類標(biāo)空間)的基礎(chǔ)上進(jìn)行研究,而很少在輸入空間(特征空間)上進(jìn)行研究?;诖耍c以往方法的思想不同,為了充分考察特征空間的性質(zhì),充分利用某一特定類標(biāo)
5、lkL,k1,2,p的特異性特征,LIFT算法被提出以便應(yīng)對(duì)這些多標(biāo)記數(shù)據(jù)集。 假設(shè)x=IRk表示為包含k個(gè)維度的樣本空間,L=l1,l2,lp表示為類標(biāo)向量,符號(hào)p表示為類別總數(shù)。S=(xi,Yi)|i=1,2,n表示為多標(biāo)記學(xué)習(xí)的訓(xùn)練集,符號(hào)n表示為訓(xùn)練樣本的數(shù)目。則第i個(gè)樣本對(duì)象可看作是具有k個(gè)屬性值的一個(gè)向量xi=xi1,xi2,xik,其中xix,并且Yi=Yi1,Yi2,YiP包含于L,是樣本xi的地表真實(shí)類標(biāo)?;谶@些性質(zhì),LIFT算法分為以下三個(gè)步驟:類標(biāo)特異性特征構(gòu)建、分類模型架構(gòu)以
6、及未知樣本的預(yù)測(cè)。 (1)類標(biāo)特異性特征構(gòu)建 對(duì)于LIFT算法,每一個(gè)類標(biāo)lkL,訓(xùn)練樣本均被劃分為兩個(gè)部分,即正訓(xùn)練樣本子集Pk和負(fù)訓(xùn)練樣本子集Nk。換句話說,Pk代表著由囊括類標(biāo)lk的樣本所構(gòu)成的集合,同樣地,Nk代表著由不含類標(biāo)lk的樣本所構(gòu)成的集合。它們的形式可表示如下: 在式(1)和(2)中,如果訓(xùn)練樣本x
7、i涵蓋類標(biāo)lk,則xi隸屬于Pk,否則的話,則xi隸屬于Nk。 為了獲得Pk和Nk的內(nèi)在屬性,LIFT方法分別對(duì)正訓(xùn)練樣本集合Pk和負(fù)訓(xùn)練樣本集合Nk上采用聚類分析方法。在先前文獻(xiàn)1, 2中,依據(jù)經(jīng)典而又有效的k-means方法來聚類分析。在此,將Pk劃分成mk個(gè)不相交的聚類,并且它的聚類中心被描述為 , 按照同樣的方式,Nk也被劃分成mk個(gè)不相交的聚類,其聚類中心被描述為 。正如我們所知,在多標(biāo)記學(xué)習(xí)系統(tǒng)中
8、,經(jīng)常會(huì) 出現(xiàn)類別不平衡的問題,即Nk的聚類中心數(shù)目遠(yuǎn)遠(yuǎn)地超過Pk的聚類中心數(shù)目,形式化表示則為|Nk|20*|Pk|。因此,為了避免這個(gè)問題,LIFT算法對(duì)子集Pk和Nk設(shè)置了同樣的聚類中心數(shù)目。如此說來,LIFT算法對(duì)正訓(xùn)練樣本子集Pk和負(fù)訓(xùn)練樣本子集Nk的聚類信息則賦予了一樣的權(quán)重。具體而言,聚類中心數(shù)目以如下形式表示: 式中,|.|可表示為集合的勢(shì),也稱作該集合的基數(shù)。并且0,1表示為一個(gè)可以控制聚類
9、數(shù)目的參數(shù)。 根據(jù)聚類自身的特性可以知道,子集Pk和Nk的聚類中心展現(xiàn)了它們樣本數(shù)據(jù)的內(nèi)部結(jié)構(gòu)特點(diǎn)。所以說,通過聚類中心,我們可以構(gòu)建出類標(biāo)特異性特征,其形式如下所示: 式中,d(·,·)表示著兩不同樣本間的距離,在文獻(xiàn)25, 26中,歐氏距離通常被用來計(jì)算距離,其實(shí)在本文中,也嘗試用其他距離公式,如,閔可夫斯基距離來計(jì)算樣本間的距離,然而最后的效果卻和歐氏距離所得到的效果并無多的差異。因
10、此,本文最后還是使用歐氏距離。實(shí)際上,這是一個(gè)由原始的k維的特征空間向2mk維的類標(biāo)特異性特征空間Nk的映射函數(shù) (2)分類模型架構(gòu) 在第二步中,LIFT算法則通過由上一步驟中所構(gòu)建的類標(biāo)特異性特征空間Nk中的類標(biāo)特異性特征k分別訓(xùn)練出個(gè)分類模型Q1,Q2,Q。對(duì)于每一個(gè)類標(biāo)lkL,依據(jù)映射函數(shù)k,從原始的訓(xùn)練集S內(nèi)得到相應(yīng)的具有n個(gè)樣本的二類訓(xùn)練集Sk*,二類訓(xùn)練集Sk*具有如下表示:
11、; 式中,如果lkYi,則p(lk,Yi)值為+1;否則其值為-1?;谝陨系姆治?,任何的一個(gè)二類學(xué)習(xí)算法都可以被用來誘導(dǎo)出類標(biāo)lk所對(duì)應(yīng)的一個(gè)分類模型Qk:NkR。 (3)未知樣本的預(yù)測(cè) 在最后一步中,在給出某一未知樣本x'x后,其預(yù)測(cè)類標(biāo)子集可由如下公式表示 &
12、#160; 參考文獻(xiàn) 1Zhang M L, Wu L. Lift : Multi-Label Learning with Label-Specific FeaturesJ. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2015, 37(1): 107-120. 2Zhang M L. LIFT: multi-label learning with label-specific f
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- ××超市退貨供應(yīng)商辦法
- 某超市廢物處置制度
- 2025年茶藝師(茶葉產(chǎn)品包裝設(shè)計(jì)趨勢(shì)分析)職業(yè)技能鑒定理論試卷
- 全面收入及獎(jiǎng)金詳細(xì)證明(6篇)
- 學(xué)習(xí)路上的收獲議論文6篇范文
- 2025年傷寒雜病論基礎(chǔ)知識(shí)試題
- 一場(chǎng)精彩的足球賽我的校園記憶作文(10篇)
- 2025年基因檢測(cè)在遺傳病診斷準(zhǔn)確性中的生物信息學(xué)方法研究與應(yīng)用報(bào)告
- 辦公自動(dòng)化服務(wù)合同
- 康復(fù)醫(yī)療服務(wù)機(jī)構(gòu)連鎖化運(yùn)營模式在2025年市場(chǎng)細(xì)分與競(jìng)爭(zhēng)策略研究報(bào)告
- 自查自糾整改臺(tái)賬
- 鹽業(yè)公司招聘試題答案大全
- 常見氣體物性參數(shù)
- GB/T 467-2010陰極銅
- POCT血糖儀項(xiàng)目培訓(xùn)記錄表、資質(zhì)授權(quán)申請(qǐng)表
- 鄉(xiāng)村治理-課件
- 增材制造技術(shù)發(fā)展課件
- 少兒財(cái)商的培養(yǎng)(課堂)課件
- 暨南大學(xué)《馬克思主義基本原理概論》題庫歷年期末考試真題分類匯編及答案
- 青霉素的發(fā)現(xiàn)與作用課件
- 2018年專利代理師資格考試科目三-專利代理實(shí)務(wù)真題及解析
評(píng)論
0/150
提交評(píng)論