




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于視頻的人臉識(shí)別研究綜述
1國內(nèi)外相關(guān)研究情況總結(jié)人臉識(shí)別具有非常重要的理論意義和應(yīng)用價(jià)值。人類識(shí)別研究對(duì)促進(jìn)數(shù)據(jù)處理、模式識(shí)別、計(jì)算機(jī)視覺和計(jì)算機(jī)科學(xué)的發(fā)展起到了重要的作用。同時(shí),生物認(rèn)證、視頻監(jiān)控、安全等領(lǐng)域的應(yīng)用也得到了廣泛應(yīng)用。經(jīng)過多年研究,人臉識(shí)別技術(shù)已取得了長(zhǎng)足的進(jìn)步和發(fā)展.隨著視頻監(jiān)控、信息安全、訪問控制等應(yīng)用領(lǐng)域的發(fā)展需求,基于視頻的人臉識(shí)別已成為人臉識(shí)別領(lǐng)域最為活躍的研究方向之一.如何充分利用視頻中人臉的時(shí)間和空間信息克服視頻中人臉分辨率低,尺度變化范圍大,光照、姿態(tài)變化劇烈以及時(shí)常發(fā)生遮擋等困難是研究的重點(diǎn).國內(nèi)外眾多的大學(xué)和研究機(jī)構(gòu),如美國的MIT、CMU、UIUC、Maryland大學(xué)、英國的劍橋大學(xué)、日本的Toshiba公司和國內(nèi)的中國科學(xué)院自動(dòng)化所都對(duì)基于視頻的人臉識(shí)別進(jìn)行了廣泛而深入的研究.鑒于目前現(xiàn)有的人臉識(shí)別國內(nèi)外綜述文獻(xiàn)主要針對(duì)基于靜止圖像的人臉識(shí)別研究,因此有必要對(duì)現(xiàn)階段基于視頻的人臉識(shí)別研究情況進(jìn)行分析和總結(jié),期望能夠更好地指導(dǎo)未來的研究工作.2結(jié)語:基于視頻的人臉識(shí)別一個(gè)自動(dòng)的基于視頻的人臉識(shí)別系統(tǒng)包括了人臉檢測(cè)模塊、人臉跟蹤模塊、人臉特征提取模塊和人臉識(shí)別模塊.關(guān)于人臉檢測(cè)、人臉跟蹤和人臉特征提取的研究進(jìn)展可以參考綜述文獻(xiàn).本文重點(diǎn)介紹基于視頻的人臉識(shí)別研究進(jìn)展.人臉識(shí)別問題可以定義成:輸入(查詢)場(chǎng)景中的靜止圖像或者視頻,使用人臉數(shù)據(jù)庫識(shí)別或驗(yàn)證場(chǎng)景中的一個(gè)人或者多個(gè)人.基于靜止圖像的人臉識(shí)別通常是指輸入(查詢)一幅靜止的圖像,使用人臉數(shù)據(jù)庫進(jìn)行識(shí)別或驗(yàn)證圖像中的人臉.而基于視頻的人臉識(shí)別是指輸入(查詢)一段視頻,使用人臉數(shù)據(jù)庫進(jìn)行識(shí)別或驗(yàn)證視頻中的人臉.如不考慮視頻的時(shí)間連續(xù)信息,問題也可以變成采用多幅圖像(時(shí)間上不一定連續(xù))作為輸入(查詢)進(jìn)行識(shí)別或驗(yàn)證.因此按照上面的分析,根據(jù)輸入(查詢)和人臉數(shù)據(jù)庫的不同,人臉識(shí)別可以分成如表1所示的4種情況.表中“圖像-圖像(多幅圖像)”人臉識(shí)別就是傳統(tǒng)的基于靜止圖像的人臉識(shí)別.而“圖像-視頻”人臉識(shí)別是指利用人臉圖像作為輸入采用視頻人臉數(shù)據(jù)庫進(jìn)行識(shí)別或驗(yàn)證.通常的應(yīng)用領(lǐng)域是基于人臉的視頻信息檢索.本文重點(diǎn)介紹的基于視頻的人臉識(shí)別主要是指后面兩種情況,即“視頻-圖像(多幅圖像)”人臉識(shí)別和“視頻-視頻”人臉識(shí)別.“視頻-圖像(多幅圖像)”人臉識(shí)別是指輸入(查詢)一段人臉視頻,利用靜止圖像人臉數(shù)據(jù)庫進(jìn)行識(shí)別或驗(yàn)證.“視頻-視頻”人臉識(shí)別是指輸入和數(shù)據(jù)庫都利用視頻進(jìn)行人臉識(shí)別或驗(yàn)證.相對(duì)于前面3種情況,“視頻-視頻”人臉識(shí)別可以利用的信息最多.視頻中可以利用的信息包括:多幅同一個(gè)人的人臉圖像,視頻中人臉在時(shí)間和空間上的連續(xù)性,利用視頻生成的三維(3D)人臉模型等.需要強(qiáng)調(diào)的是本文這樣分類的目的是為了能夠?qū)φ麄€(gè)人臉識(shí)別領(lǐng)域的研究現(xiàn)狀有一個(gè)宏觀上的認(rèn)識(shí),并區(qū)分不同情況下的人臉識(shí)別.事實(shí)上不同情況下人臉識(shí)別采用的技術(shù)可以是相同的,例如對(duì)所有人臉視頻序列的處理是按照某種規(guī)則(如大小、姿態(tài)、清晰度等)提取一張人臉圖像,則上面的情況都可以采用基于靜止圖像的人臉識(shí)別技術(shù).本文首先對(duì)現(xiàn)階段基于視頻的人臉識(shí)別研究現(xiàn)狀進(jìn)行了詳細(xì)的分析和討論,接著介紹了常用的視頻人臉數(shù)據(jù)庫和實(shí)驗(yàn)結(jié)果,最后展望了未來的發(fā)展方向.本文假設(shè)已經(jīng)得到圖像或者視頻中需識(shí)別人臉的位置.對(duì)靜止圖像中人臉的定位可參見文獻(xiàn),對(duì)視頻中人臉的定位和分割可參見文獻(xiàn).3基于視頻的人臉識(shí)別根據(jù)上一節(jié)的討論,下面把基于視頻的人臉識(shí)別分成“視頻-圖像(多幅圖像)”人臉識(shí)別和“視頻-視頻”人臉識(shí)別兩種情況分別給予綜述.3.1基于貝葉斯人臉識(shí)別算法的人臉跟蹤算法“視頻-圖像(多幅圖像)”人臉識(shí)別是指采用人臉視頻作為輸入(查詢)利用靜止圖像人臉數(shù)據(jù)庫進(jìn)行識(shí)別或驗(yàn)證.由于現(xiàn)有的大部分人臉數(shù)據(jù)庫都是靜止圖像人臉數(shù)據(jù)庫,如何充分利用視頻中的人臉信息更好地進(jìn)行人臉識(shí)別是現(xiàn)階段迫切需要解決的問題.解決這類問題的傳統(tǒng)做法可以分成兩大類:一類方法對(duì)輸入視頻中的人臉進(jìn)行跟蹤,尋找滿足一定規(guī)則(如大小、姿態(tài)、清晰度等)的人臉圖像,然后利用基于靜止圖像的人臉識(shí)別方法.這類方法的缺點(diǎn)是規(guī)則很難定義,并且沒有最大限度地利用人臉視頻中的時(shí)間和空間連續(xù)信息.另一類方法利用視頻中的空間信息進(jìn)行人臉識(shí)別.通過對(duì)輸入視頻中每一幅人臉或者若干幅人臉采用基于靜止圖像的人臉識(shí)別方法,利用各種聯(lián)合規(guī)則(如多數(shù)投票或者概率/距離累加等方法)再進(jìn)行最終的識(shí)別.這類方法的缺點(diǎn)是聯(lián)合規(guī)則常有相當(dāng)?shù)碾S機(jī)性.近年來,一些研究者開始利用視頻中人臉的時(shí)間和空間連續(xù)信息進(jìn)行識(shí)別.文獻(xiàn)討論了在貝葉斯理論的框架下統(tǒng)一解決人臉識(shí)別和跟蹤問題,采用時(shí)間序列模型刻畫人臉的動(dòng)態(tài)變化,把身份變量和運(yùn)動(dòng)矢量作為狀態(tài)變量從而引進(jìn)時(shí)間和空間的信息;利用序貫重要度采樣(SequentialImportanceSampling,SIS)的方法有效估計(jì)出身份變量和運(yùn)動(dòng)矢量的聯(lián)合后驗(yàn)概率分布,通過邊緣化提取出身份變量的概率分布.實(shí)驗(yàn)結(jié)果表明了該算法的有效性.不過當(dāng)姿態(tài)變化時(shí)識(shí)別率只有57%.之所以出現(xiàn)姿態(tài)變化時(shí)識(shí)別率低的原因是對(duì)時(shí)間連續(xù)性的利用體現(xiàn)在人臉外觀一致上,而隨著光照或姿態(tài)的變化會(huì)導(dǎo)致外觀的明顯不同.因此文獻(xiàn)進(jìn)一步提出了自適應(yīng)外觀變化模型并且采用自適應(yīng)運(yùn)動(dòng)模型更準(zhǔn)確地處理姿態(tài)的變化,對(duì)運(yùn)動(dòng)模型中噪聲的方差和采樣算法中的粒子數(shù)根據(jù)計(jì)算得到外觀模型的誤差進(jìn)行更新,采用魯棒統(tǒng)計(jì)學(xué)(robuststatistics)處理臉部遮擋問題.利用基于貝葉斯人臉識(shí)別方法的似然函數(shù)進(jìn)行權(quán)重更新使得整個(gè)算法更加有效.文獻(xiàn)通過對(duì)輸入視頻中人臉的臉部特征或外觀的跟蹤進(jìn)行人臉驗(yàn)證.基本思想是,如果是正確的輸入(對(duì)應(yīng)數(shù)據(jù)庫中要驗(yàn)證的人臉),則跟蹤的軌跡基本一致;而如果是不正確的輸入,則跟蹤軌跡沒有規(guī)律性.相應(yīng)的數(shù)學(xué)模型就是考慮所得到的運(yùn)動(dòng)矢量分布,如果呈現(xiàn)尖峰(一致的運(yùn)動(dòng)參數(shù))則認(rèn)為是正確的人臉.如果沒有呈現(xiàn)尖峰,而是類似均勻分布,則認(rèn)為是錯(cuò)誤的人臉.上述方法中都采用貝葉斯理論引進(jìn)了時(shí)間信息,極大地提高了識(shí)別率.并且采用序貫重要度采樣克服非高斯分布和非線性系統(tǒng)帶來的難以估計(jì)概率密度的問題.但是估計(jì)概率密度需要大量的粒子,導(dǎo)致其計(jì)算量比較大.3.2照片人臉的特征表示“視頻-視頻”人臉識(shí)別是指輸入和數(shù)據(jù)庫中的人臉均是以視頻的形式存在.大量的文獻(xiàn)對(duì)如何同時(shí)利用輸入和數(shù)據(jù)庫中的人臉視頻進(jìn)行了深入的研究.現(xiàn)有文獻(xiàn)中對(duì)視頻中人臉信息的描述方式總結(jié)起來有下面幾種:(1)利用一幅代表性的圖像得到的特征(矢量表示),如主成分分析(PCA)降維后的矢量等;(2)利用所有圖像得到的特征(矩陣表示),如特征空間、示例(exemplar)等;(3)利用概率密度函數(shù)刻畫視頻中的人臉分布,如高斯模型等;(4)利用動(dòng)態(tài)模型刻畫視頻中人臉隨時(shí)間的動(dòng)態(tài)變化,如隱馬爾可夫模型等;(5)利用流形(manifold)刻畫視頻中的人臉分布,如分段線性PCA子空間等.上述各種描述方式(矢量、矩陣、概率密度、動(dòng)態(tài)模型、流形)之間可能的度量如表2所示.表2中d代表兩個(gè)模型之間的距離或相似度,f(X),M(X)代表概率/距離累加或多數(shù)投票,D(X)代表各幀后驗(yàn)概率.下面按照對(duì)輸入描述方式的不同,分成矢量、矩陣、概率、動(dòng)態(tài)模型、流形5個(gè)小節(jié)分別給予介紹.3.2.1人臉定位算法利用矢量作為輸入描述方式的基本思想是利用視頻得到一個(gè)反映輸入人臉視頻特性(如均值人臉圖像、最好的正面圖像等)的特征(矢量表示),和數(shù)據(jù)庫中的人臉視頻描述方式進(jìn)行匹配.數(shù)據(jù)庫中人臉視頻的描述方式可以是矢量、矩陣、概率、動(dòng)態(tài)模型、流形等.文獻(xiàn)對(duì)數(shù)據(jù)庫中的每類人臉建立一個(gè)PCA子空間,利用與各個(gè)人臉子空間的距離對(duì)輸入視頻中的所有人臉進(jìn)行標(biāo)注.文獻(xiàn)介紹了一種基于視頻的人臉驗(yàn)證方法,采用形狀和歸一化紋理的聯(lián)合外觀模型(ActiveAppearanceModel,AAM)來表示人臉,通過加入類別信息的改進(jìn)線性鑒別分析(LinearDiscriminantAnalysis,LDA)分離出身份變量(identity)和其他變化因素(姿態(tài)、光照和表情).采用卡爾曼濾波器(Kalmanfilter)對(duì)身份變量進(jìn)行跟蹤得到的穩(wěn)定值就是身份穩(wěn)定估計(jì)量.人臉驗(yàn)證就可以通過對(duì)輸入人臉視頻進(jìn)行跟蹤得到的估計(jì)量和數(shù)據(jù)庫得到的身份估計(jì)量進(jìn)行比較看是否大于某個(gè)閾值來實(shí)現(xiàn).與基于靜止圖像的人臉驗(yàn)證方法相比,采用基于視頻的人臉驗(yàn)證能利用更多的信息,效果更好.算法采用ASM(ActiveShapeModel)進(jìn)行人臉定位可以避免誤配準(zhǔn)帶來的影響.但是一旦定位不準(zhǔn),則對(duì)后繼的參數(shù)跟蹤會(huì)產(chǎn)生很大的誤差,導(dǎo)致識(shí)別率下降.并且對(duì)于達(dá)到穩(wěn)定估計(jì)值需要的視頻長(zhǎng)度無法計(jì)算和估計(jì).另一個(gè)借助視覺約束的人臉跟蹤和識(shí)別方法可見文獻(xiàn).3.2.2人臉視頻特征空間的建立和分類采用矩陣作為輸入描述方式進(jìn)行人臉識(shí)別的算法可以分成兩類,一類是利用得到的特征(矩陣表示)逐個(gè)與數(shù)據(jù)庫中的人臉描述方式進(jìn)行比較(相當(dāng)于每次取出矩陣的一行或者一列),然后利用多數(shù)投票或者概率(距離)累加最大的方法進(jìn)行識(shí)別.另一類是把得到的特征(矩陣表示)看成一個(gè)整體和數(shù)據(jù)庫中的人臉描述方式進(jìn)行比較.相對(duì)于前面一種方法,后者采用矩陣作為整體更能利用視頻的空間連續(xù)信息.數(shù)據(jù)庫中人臉視頻的描述方式可以是矢量、矩陣、概率、動(dòng)態(tài)模型、流形等.文獻(xiàn)采用總體PCA方法進(jìn)行降維,在低維空間中采用混合高斯模型(GaussianMixtureModel,GMM)來表示數(shù)據(jù)庫中每個(gè)人臉.通過計(jì)算輸入視頻中每一幀人臉的后驗(yàn)概率,采用多數(shù)投票和概率累加最大的方法得到最終結(jié)果.文獻(xiàn)對(duì)數(shù)據(jù)庫的每類人臉建立多個(gè)匹配模板,并根據(jù)視頻中的動(dòng)態(tài)的信息(如人臉姿態(tài)、運(yùn)動(dòng)模糊等)對(duì)多個(gè)模板進(jìn)行自適應(yīng)的融合.文獻(xiàn)對(duì)輸入的人臉序列和數(shù)據(jù)庫中的人臉序列分別建立一個(gè)PCA特征子空間,兩個(gè)特征子空間之間的距離由它們之間的夾角確定.為了進(jìn)一步去除光照、姿態(tài)、表情等的影響,把子空間重新投影到限制子空間(constraintsubspace)中,限制子空間只包含對(duì)識(shí)別有用的成分(身份).為了解決限制子空間中需要大量樣本的問題,進(jìn)一步利用整體學(xué)習(xí)(ensemblelearning)的方法訓(xùn)練出M個(gè)限制子空間,通過投影到這M個(gè)限制子空間的距離加權(quán)和作為人臉之間距離的度量.該類算法的主要缺點(diǎn)在于沒有考慮每一類人臉的整體概率分布,沒有利用每一類的均值和特征值,在投影到限制子空間時(shí)可能會(huì)產(chǎn)生一定的問題,并且參數(shù)的設(shè)定和空間維數(shù)都需要通過經(jīng)驗(yàn)給出.由于人臉在姿態(tài)、光照、表情變化時(shí)呈現(xiàn)非線性分布,文獻(xiàn)在線性空間中通過核的方法映射到高維的非線性空間(核Hilbert空間),在高維空間中的夾角(核主成分夾角)作為矩陣的相似性度量,并且利用正定的核函數(shù)就可以和SVM(SupportVectorMachine)結(jié)合起來提高分類的性能.文獻(xiàn)首先通過LDA進(jìn)行線性降維,然后對(duì)每個(gè)人的人臉視頻通過矢量量化技術(shù)或者K均值聚類形成K個(gè)類別,每個(gè)類別用聚類中心和聚類的權(quán)重來表示.最后采用EMD(EarthMover’sDistance)距離作為相似性度量進(jìn)行人臉識(shí)別.文獻(xiàn)利用聚類的方法建立局部參數(shù)模型,對(duì)數(shù)據(jù)庫中的每個(gè)人臉建立多個(gè)局部流形.首先對(duì)數(shù)據(jù)庫中的每段人臉視頻經(jīng)過LDA進(jìn)行線性降維,通過采取ISOMAP(IsometricfeatureMapping)提取各點(diǎn)的測(cè)地距離(geodesicdistance)作為人臉之間的距離,從而可以更準(zhǔn)確地刻畫各點(diǎn)在流形空間中的位置關(guān)系,然后采用HAC(HierarchicalAgglomerativeClustering)聚類方法得到K個(gè)示例,對(duì)每一示例采用類似文獻(xiàn)的方法對(duì)每個(gè)局部模型建立雙子空間(dualsubspace)概率模型,使用概率測(cè)度作為相似性度量,采用多數(shù)投票進(jìn)行識(shí)別.文獻(xiàn)對(duì)每段人臉視頻建立一個(gè)特征空間并把視頻中人臉的變化看成一個(gè)非平穩(wěn)的隨機(jī)過程(AR模型),采用逐步更新特征空間的方法并且引進(jìn)了權(quán)重的概念,對(duì)新的樣本權(quán)重大,對(duì)以前的樣本權(quán)重小.該文中針對(duì)每個(gè)人臉建立兩個(gè)特征空間,包括訓(xùn)練集中的特征空間和識(shí)別后不斷更新建立的新的特征空間來解決過慢學(xué)習(xí)的問題.文獻(xiàn)利用數(shù)據(jù)庫中的人臉視頻得到三維模型生成查詢?nèi)四樢曨l條件下的光照和姿態(tài)變化,然后逐一進(jìn)行比對(duì),采用距離累計(jì)最大的方法得到識(shí)別結(jié)果.3.2.3人臉相似性度量采用概率作為輸入描述形式的基本思想是把視頻中人臉的動(dòng)態(tài)變化看成是滿足一定的概率分布的高維隨機(jī)變量.一般對(duì)數(shù)據(jù)庫中視頻的描述方式也是概率方式,通過比較概率密度函數(shù)的相似性來度量人臉之間相似性.文獻(xiàn)采用GMM模型學(xué)習(xí)不同姿態(tài)和光照條件下的人臉分布,對(duì)輸入人臉視頻和數(shù)據(jù)庫中的人臉視頻都利用GMM模型進(jìn)行建模,采用K-L散度(Kullback-Leiblerdivergence)作為人臉之間相似性度量.文獻(xiàn)把人臉識(shí)別問題看成是一個(gè)假設(shè)檢驗(yàn)問題,證明了如果人臉視頻中每一幀之間是相互獨(dú)立的,則得到的最優(yōu)準(zhǔn)則是K-L散度.假設(shè)每個(gè)人臉服從高斯分布,采用K-L散度作為相似性度量.但是由于假設(shè)是單高斯分布,因此無法刻畫由于光照或者是姿態(tài)變化導(dǎo)致人臉呈現(xiàn)流形的情況,并且K-L散度本身是一種非對(duì)稱的度量方式.文獻(xiàn)采用基于核函數(shù)方法把低維空間映射到高維空間,這樣就可以在高維空間中利用低維空間中的線性方法(如PCA)來解決一般的復(fù)雜的非線性問題,采用RAD(Resistor-AverageDistance)作為人臉相似性度量.為了解決配準(zhǔn)誤差所帶來的識(shí)別率下降的問題,利用了多幅圖像和RANSAC(RandomSampleConsensus)算法來解決.另外文獻(xiàn)利用了核的方法,把原來的矢量空間映射到高維非線性空間RKHS(ReproducingKernelHilbertSpace)中計(jì)算概率分布之間的距離.3.2.4人臉動(dòng)態(tài)模型無論是矢量、矩陣和概率都沒有利用時(shí)間連續(xù)的信息,所以可以自然地推廣到多幅人臉圖像(時(shí)間上不必連續(xù))作為輸入時(shí)的人臉識(shí)別問題.而動(dòng)態(tài)模型則利用了人臉的時(shí)間和空間連續(xù)變化的信息,能夠更好地刻畫人臉的動(dòng)態(tài)變化特性.數(shù)據(jù)庫通常的描述方式可以是矩陣、動(dòng)態(tài)模型、流形.文獻(xiàn)中采用3.1節(jié)中介紹的概率模型,通過自動(dòng)選擇人臉視頻中的示例(在線K均值聚類),把人臉示例的索引也作為狀態(tài)變量,采用SIS的方法估計(jì)出聯(lián)合概率密度分布,最后通過邊緣化求出身份變量的分布進(jìn)行人臉識(shí)別.文獻(xiàn)中對(duì)數(shù)據(jù)庫中的每段人臉視頻采用PCA變換建立了特征子空間,在特征子空間中建立一個(gè)自適應(yīng)隱馬爾可夫模型(HiddenMarkovModel,HMM),識(shí)別階段就可以計(jì)算每個(gè)識(shí)別序列的后驗(yàn)概率作為相似性度量,并且當(dāng)滿足一定條件時(shí)對(duì)HMM模型進(jìn)行更新.文獻(xiàn)把運(yùn)動(dòng)人臉建模成一個(gè)ARMA(Auto-RegressiveandMovingAverage)模型(用姿態(tài)作為狀態(tài)量,采用外觀作為觀測(cè)量),采用ARMA子空間之間的夾角作為相似性度量.文獻(xiàn)和文獻(xiàn)的想法類似,認(rèn)為應(yīng)該把跟蹤和識(shí)別結(jié)合起來,減少跟蹤的誤配準(zhǔn)對(duì)識(shí)別的影響.對(duì)不同姿態(tài)下的人臉構(gòu)造一個(gè)低維分段線性流形.為了引進(jìn)時(shí)間信息,采用貝葉斯推理的方法,建立了不同姿態(tài)之間的轉(zhuǎn)移矩陣,該文的算法能夠很好地處理人臉的大規(guī)模旋轉(zhuǎn)時(shí)的識(shí)別和跟蹤問題.文獻(xiàn)首先對(duì)所有的人臉利用LLE(LocallyLinearEmbedding)降維后建立整體分段線性模型,根據(jù)到各個(gè)分段子流形的距離采用貝葉斯推理的方法計(jì)算最大后驗(yàn)概率.在文獻(xiàn)中作者通過實(shí)驗(yàn)結(jié)果指出,利用時(shí)空結(jié)構(gòu)的HMM大于一定長(zhǎng)度時(shí)要優(yōu)于基于靜止圖像的多數(shù)投票方法,但是當(dāng)視頻的長(zhǎng)度過短時(shí)則不一定.這說明時(shí)間長(zhǎng)短對(duì)動(dòng)態(tài)模型的識(shí)別率會(huì)有一定影響.3.2.5基于流形的人臉識(shí)別人臉在不同的光照、姿態(tài)變化下會(huì)構(gòu)成一個(gè)的低維空間的流形.所以利用流形作為輸入描述可以更好地描述人臉的分布.一般對(duì)數(shù)據(jù)庫中的人臉采用同樣的描述方法.比較輸入和數(shù)據(jù)庫中流形的相似性作為度量.文獻(xiàn)使用流形來解決基于視頻的人臉識(shí)別問題,首先建立了一個(gè)多視角動(dòng)態(tài)人臉模型,包含了一個(gè)3D模型,一個(gè)和形狀姿態(tài)無關(guān)的紋理模型,一個(gè)仿射變化模型.其基本思想是基于分析的合成,通過最小化損失函數(shù),求解出模型的參數(shù).在視頻序列中該問題可以進(jìn)一步簡(jiǎn)化,利用Kalman濾波求解出形狀和紋理.人臉紋理通過KDA(KernelDiscriminantAnalysis)降維后對(duì)單個(gè)人臉序列建立一個(gè)分段的線性流形(特征矢量隨著姿態(tài)的變化).接著就可以通過比較軌跡的匹配程度進(jìn)行人臉識(shí)別.但是要進(jìn)行3D模型的估計(jì)需要大量的多視角圖像,計(jì)算復(fù)雜度較大.現(xiàn)有文獻(xiàn)中的典型算法總結(jié)如表3所示.3.3高維人臉序列的預(yù)處理綜上可以看出“視頻-圖像(多幅圖像)”人臉識(shí)別和“視頻-視頻”人臉識(shí)別研究的主要問題包括:(1)如何對(duì)高維的人臉圖像降維;(2)如何對(duì)降維后的人臉序列進(jìn)行描述;(3)如何刻畫描述方式之間的度量;人臉數(shù)據(jù)降維的目的是得到表達(dá)性特征(如主成分分析等)或鑒別性特征(如線性鑒別分析等)以降低高維人臉數(shù)據(jù)的計(jì)算復(fù)雜度和減弱噪聲、表情、光照等因素的影響.對(duì)各種常見線性和非線性的降維方法研究的介紹可參考文獻(xiàn).現(xiàn)階段對(duì)降維后的人臉序列描述方式包括矢量、矩陣、概率、動(dòng)態(tài)模型、流形等.其中采用概率和流形的方法需要大量反映人臉分布的樣本才能更準(zhǔn)確地刻畫人臉的分布,達(dá)到較好的性能.利用動(dòng)態(tài)模型能夠很好地利用時(shí)間和空間的信息,但是方法相對(duì)比較復(fù)雜,計(jì)算量一般都比較大.而利用矢量作為輸入描述方式的主要缺點(diǎn)是樣本選取的隨機(jī)性.矩陣方式最為簡(jiǎn)單,并且可以應(yīng)用到時(shí)間上不連續(xù)的多幅圖像情況,但如何更好地刻畫矩陣之間的度量是一個(gè)值得研究的內(nèi)容.4usd/n數(shù)據(jù)庫目前基于視頻的人臉識(shí)別常用的視頻人臉數(shù)據(jù)庫包括Mobo(Motionofbody)數(shù)據(jù)庫和Honda/UCSD數(shù)據(jù)庫.Mobo數(shù)據(jù)庫最初是CMU為了HumanID計(jì)劃進(jìn)行步態(tài)識(shí)別而采集的數(shù)據(jù)庫.整個(gè)數(shù)據(jù)庫包含25個(gè)人在跑步機(jī)上以四種不同的方式行走的視頻序列.行走的方式包括慢速行走、快速行走、斜面行走和拿球行走.正面角度拍攝的視頻序列共99段(一段丟失).UCSD/Honda數(shù)據(jù)庫包含20個(gè)人的共52段視頻.數(shù)據(jù)庫中的人臉視頻包含了大規(guī)模的2D(平面內(nèi))和3D(平面外)的頭部旋轉(zhuǎn).另外還有DXM2VTS數(shù)據(jù)庫.這些視頻人臉數(shù)據(jù)庫普遍的缺點(diǎn)是沒有考慮到各種條件的變化.大部分都是姿態(tài)的變化,其他的如光照、表情的變化等考慮較少,并且數(shù)據(jù)庫的人偏少(<50個(gè)人),無法進(jìn)行大規(guī)模有效的實(shí)驗(yàn)來評(píng)價(jià)各種算法的優(yōu)劣.目前大部分的文獻(xiàn)中采用的數(shù)據(jù)庫以及訓(xùn)練,測(cè)試方法都不盡相同.但為了對(duì)目前典型方法的實(shí)驗(yàn)結(jié)果有一個(gè)直觀的認(rèn)識(shí),表4匯集了在視頻人臉數(shù)據(jù)庫上一些典型方法的實(shí)驗(yàn)結(jié)果.5實(shí)驗(yàn)結(jié)果及展望本文介紹了現(xiàn)階段基于視頻的人臉識(shí)別研究進(jìn)展.在對(duì)人臉識(shí)別不同情況分類的基礎(chǔ)上,重點(diǎn)介紹
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2019-2025年消防設(shè)施操作員之消防設(shè)備基礎(chǔ)知識(shí)模擬考試試卷A卷含答案
- 2019-2025年消防設(shè)施操作員之消防設(shè)備中級(jí)技能題庫練習(xí)試卷B卷附答案
- 2019-2025年消防設(shè)施操作員之消防設(shè)備基礎(chǔ)知識(shí)題庫練習(xí)試卷A卷附答案
- 人民防空知識(shí)培訓(xùn)課件
- 酒店推廣傭金合同(2篇)
- 采購分包付款合同(2篇)
- 宮頸癌疫苗知識(shí)培訓(xùn)課件
- 2025年愛國知識(shí)競(jìng)賽題及答案(67題)
- 文化遺產(chǎn)保護(hù)與傳承合作協(xié)議
- 細(xì)胞制備服務(wù)合作協(xié)議
- 《抖音營銷教程》課件
- 貴州省安順市2025屆高三年級(jí)第四次監(jiān)測(cè)考試2月語文試題及參考答案
- 公路工程標(biāo)準(zhǔn)施工招標(biāo)文件(2018年版)
- DL∕T 5776-2018 水平定向鉆敷設(shè)電力管線技術(shù)規(guī)定
- (正式版)SH∕T 3548-2024 石油化工涂料防腐蝕工程施工及驗(yàn)收規(guī)范
- 科學(xué)儀器設(shè)備分類編碼表
- 分布式光伏電站現(xiàn)場(chǎng)勘查表
- 2019年健康體檢結(jié)果調(diào)查分析報(bào)告
- 新版理念篇-養(yǎng)老課件
- (新版教材)粵教版六年級(jí)下冊(cè)科學(xué)全冊(cè)課件
- 調(diào)機(jī)品管理規(guī)定
評(píng)論
0/150
提交評(píng)論