利用金字塔詞匯樹木的人類動作識

上傳人：s*** IP屬地：上海上傳時間：2022-03-04 格式：DOCX 頁數(shù)：11 大?。?03.73KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩6頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、大連民族學(xué)院畢業(yè)設(shè)計（論文）翻譯材料學(xué) 院：計算機科學(xué)與工程專業(yè)：班級：學(xué)生姓名：指導(dǎo)教師：金字塔詞匯樹的人類動作識別袁春峰，李曦，胡衛(wèi)明，王菡子模式識別國家重點實驗室，中國科學(xué)院自動化研究所，北京，中國計算機科學(xué)學(xué)院，阿得雷德大學(xué)，SA 5005，澳大利亞摘要視覺詞袋（BOVW）方法被廣泛用于人類行為的認可。通常情況下，當小詞匯的BOXW對于噪音更堅固的同時，大詞匯量的BOVW在類間的動作分類更有區(qū)別性，因此大詞匯的BOVW更能忍耐類內(nèi)的不變性。在這篇文章中，我們提出了一種金字塔詞匯樹來模擬局部時空特征，這種金字塔詞匯樹可以描述類間的差異，同時也承認內(nèi)部類的變化。此外，

2、由于BOVW是幾何形狀不受限制，我們進一步考慮時空信息的局部特征，并提出了一種稀疏時空空間金字塔匹配內(nèi)核（稱為作SST-PMK）來計算視頻序列之間的相似性測度。SST-PMK滿足Mercer條件，因此很容易集成SVM進行動作識別。魏茲曼數(shù)據(jù)集上的實驗結(jié)果表明，金字塔的詞匯樹和SST-PMK都能在人類動作識別方面有明顯地提高。關(guān)鍵詞：動作識別，視覺詞袋（BOVW），金字塔匹配的內(nèi)核（PMK）1引言由于人類動作識別在智能監(jiān)控，人機接口，視頻索引及瀏覽，體育事件的自動分析和虛擬現(xiàn)實上的關(guān)鍵值，它已受到越來越多的關(guān)注。但是，人類動作識別也存在許多難題，包括閉塞，光照變化，以及在規(guī)模、旋轉(zhuǎn)和

3、角度上的幾何變化。在一般情況下，動作識別方法可以大致分類為基于模板的方法和基于外觀的方法1。基于模板的方法，存在著兩類模板。第一次排序的模板直接使用幾個關(guān)鍵幀或分段的補丁的輸入視頻，如6，8中描述的。第二個排序的模板是通過輸入視頻的線性或非線性的轉(zhuǎn)換得到。例如，Rodriguez等。9結(jié)合序列的訓(xùn)練圖像通過MACH過濾器組合成一個單一的復(fù)合模板。對于基于外觀的方法，局部特征或全局（或大型）特征采用代表視頻。一般情況下，當?shù)氐臅r空功能是比大規(guī)模特征有更強大的噪聲，閉塞和行為變化。圖1興趣點定位在魏茨曼科學(xué)數(shù)據(jù)集的10個行動視頻序列每個紅色點對應(yīng)一個

4、與檢測到的興趣點相關(guān)聯(lián)的視頻補丁。其中一個關(guān)鍵幀顯示出該視頻中檢測到的每個視頻和所有的興趣點上是相互重疊的關(guān)鍵幀。最近，幾個最先進的動作識別方法2，3，4，5，17，19使用BOVW，開發(fā)本地的時空特征。通常情況下，這些方法首先生成一個視覺詞匯，然后塑造配有視覺字數(shù)直方圖的視頻。很明顯在動作識別過程中，詞匯起著決定性的作用。一個很好的詞匯不僅辨別出事物或行動的類間不變性，也能包容事物或行動的類內(nèi)不變性。選擇一個適當?shù)拇笤~匯量的型號是常見的4，10。然而，大尺寸的詞匯可能為每段視頻引入稀疏直方圖，并且?guī)砀嗟脑胍?，減弱了詞匯的最大區(qū)辨。另一方面，如果詞匯型號是小的，它可

5、能會導(dǎo)致群集和高內(nèi)部類失真。出于這些觀察，我們提出了一種新的詞匯架構(gòu)金字塔詞匯樹，它結(jié)合了詞匯的不同尺寸的同時也開發(fā)了一種更大更有效的辨別詞匯。此外，在樹結(jié)構(gòu)上突出新功能的速度是很快的。在金字塔詞匯樹中，視頻序列分層地出現(xiàn)例如詞匯樹的多分辨率直方圖。此外，眾所周知BOVW方法是幾何不受約束的。因此，許多運算法則打算把幾何信息與BOVW結(jié)合起來。一些方法13，15把3D空間均勻地劃分成時空方格，然后在每個網(wǎng)格計算本地功能的直方圖。然而，在的人類動作影片中，興趣點通常在某些局部區(qū)域被發(fā)現(xiàn)，而大多數(shù)其他地區(qū)不包含興趣點（圖1所示）。通過這種觀察的啟發(fā)，

6、我們把興趣點集中在時空的空間，形成幾個聚類中心。在每個群集中心，我們計算局部特征的直方圖?；跁r空聚類中心，我們提出了一個稀疏的時空金字塔匹配的內(nèi)核（稱為SST-PMK）之間的相似性度量的視頻序列。在SST-PMK，用于表示視頻的直方圖比在13，15中更緊湊更堅固。因此，通過SST-PMK計算的距離更加可靠。此外，SST-PMK滿足了Mercer條件并且可以直接作為SVM內(nèi)核去執(zhí)行動作識別。在一般情況下，在稀疏時空表示動作識別的金字塔詞匯樹的基礎(chǔ)上，我們提出了一個新的框架。建立金字塔樹是用來模仿局部特征，并且為了計算SST-PMK準備了一個層次結(jié)構(gòu)。

7、0;此外，SST-PMK有效整合各級金字塔詞匯樹獲得的距離來計算視頻序列和很快速度之間的相似性。本文的其余部分安排如下。第2部分介紹了如何生成金字塔詞匯樹。第3部分介紹SST-PMK，然后與SVM分類器相結(jié)合。第4部分報告實驗結(jié)果。第5部分總結(jié)全文。圖 2所提出的金字塔詞匯樹的建立過程2金字塔詞匯樹金字塔詞匯樹的建立是通過分等級得集中一整套描述符向量的訓(xùn)練。在圖 2中闡述了金字塔詞匯樹的構(gòu)建過程。首先，訓(xùn)練描述符矢量被聚集成k個視覺詞來建立最粗的級別0（即傳統(tǒng)BOVW）。隨后，我們把每個視覺詞在粗糙級別0上分成兩個，從而形成更

8、精細的詞匯水平。在這種情況下，詞匯樹用一個分層的由粗到細的方式擴展。同時，它的葉子節(jié)點的數(shù)量以指數(shù)方式增加。在下面的章節(jié)中，我們簡要介紹了新一代的BOVW和建設(shè)金字塔詞匯樹的細節(jié)。2.1新一代的BOVW一整套的局部特征用于樹的無監(jiān)督訓(xùn)練。捕捉本地的功能包括兩個相對獨立的步驟：檢測長方體和描述長方體。近年來，關(guān)于人類動作識別有大量的探測器和描述符被提出。這些適用于所有的識別系統(tǒng)。在本文中，我們采用Dollár等等的探測器7檢測在每個視頻的每一幀中存在的長方體并且使用PCA-SIFT描述符14來描述檢測長方體。Dollár等等的探

9、測器7通過采用Gabor濾波的時間域檢測并且提高了3D哈里斯的探測器。檢測器的輸出是每個興趣點的位置，規(guī)模和占主導(dǎo)地位的方向。我們提取在一個給定的規(guī)模中提取一個長方體，這個規(guī)模集中了給定的規(guī)模s倍大小的每一個興趣點（s在本文中被設(shè)定為6）。然后，PCA-SIFT描述符將主要成分分析（PCA）適用于歸一化的梯度向量，這種梯度向量是由長方體中所有點平坦化的水平和垂直梯度形成的。接著，一個K-均值聚類過程在所得到的PCA-SIFT功能上運行。結(jié)果，K的聚類中心在0級被視為k的視覺詞。其他的聚類方法，如譜聚類21或最大化互信息（MMI）22，也可以是兩個備選方案，而

10、不是K-均值集群。2.2金字塔詞匯樹建成樹的第0級水平后，培訓(xùn)功能被劃分為 k組，其中每個組由最近的一個特定的視覺詞的功能組成。然后各組的訓(xùn)練特點在一個新級別聚集為兩個新的視覺詞匯。因此，每個第0級的視覺詞匯在1級水平上分割成兩個新的視覺詞匯。這種分裂是合理的，因為級別為0級的視覺詞匯聚類后是高度緊湊的。在這種方式下，樹一直生長直到達到最大級別水平L。每個級別的詞匯量的大小比其上一級別的水平翻了一番。在聯(lián)機階段，每個新的PCA-SIFT特征被比作0級別的選聚類中心，然后把它分配給最近的詞語。然后結(jié)果被傳播到下一級別，導(dǎo)致我們

11、只需要把描述符向量與2個兒童聚類中心做比較，然后選擇最接近的一個。一級一級的，新的特性很快得投射到樹。此外，在計算復(fù)雜性方面，在我們的方法中新的PCA-SIFT特征的量化要求k+2l的數(shù)量積。但是，用于由一種非層次的結(jié)構(gòu)方式表示的常規(guī)BOVW，這種量化需要的數(shù)量積，而這種結(jié)構(gòu)方式在第L級別有著相同的詞匯量大小。3基于SST-PMK的SVM分類金字塔詞匯樹中，每個視頻可以被表示為一個多層次的視覺單詞直方圖。為了有效地測量兩個視覺字直方圖的相似性，在本節(jié)中我們提出了一個稀疏的時空金字塔匹配內(nèi)核（稱為SST-PMK）。此外，SST-PMK可

12、以作為一個內(nèi)核用于SVM分類。3.1稀疏的時空金字塔匹配的內(nèi)核（SST-PMK）金字塔匹配的內(nèi)核（PMK）是由格勞曼和達雷爾11 提出，它是有效得測量兩個多分辨率直方圖相似性的內(nèi)核，而且它已成功地應(yīng)用到物體識別。然而，PMK 11的一個潛在的問題就是它并沒有考慮時空信息。從圖1可以看出，興趣點的幾何分布的在不同的動作類之間定期的變化，所以時空信息用于改善動作識別精度是非常有用的。因此，當計算PMK時我們時空信息的興趣點也考慮在內(nèi)。這是我們SST-PMK的貢獻。在圖1中還觀察到興趣點在圖像中不是均勻分布的，并且某些區(qū)域沒有興趣點。不考慮這種觀察的情況下，在空間的區(qū)域中SP

13、M 13分割整個圖像為二維網(wǎng)格（即，圖像坐標），同時在空間和時間的區(qū)域中STPM 15均勻地把整個視頻分割為3D網(wǎng)格。這兩種方法不能有效地分配網(wǎng)格，這導(dǎo)致了大量的網(wǎng)格和一些網(wǎng)格不包含任何興趣點。此外，SPM和STPM都需要一個預(yù)處理步驟來規(guī)范圖像或視頻的大小。相反，通過SST-PMK得到的網(wǎng)格如果沒有事先規(guī)范視頻的話，它是稀疏的并且有區(qū)別的。圖3顯示了SST-PMK的層次結(jié)構(gòu)。一下列出了SST-PMK建設(shè)的具體程序。圖3用于每段視頻的SST-PMK層次結(jié)構(gòu)。興趣點的幾何信息相結(jié)合了金字塔的詞匯樹來表示視頻。起初，興趣點的時空向量聚集產(chǎn)生時空詞語（即圖3中用S

14、T表示i，1in）。由這些載體形成的3-D數(shù)據(jù)集被分為幾個子集。該ST詞語都來源于子集的中心。然后，在每個ST字和每個級別上，我們?yōu)槊總€視頻計算描述符向量的直方圖（即PCA-SIFT特征）。然后我們串連得到的直方圖為一個向量，代表l級的直方圖。同時中，是用于l級ST代表i的直方圖。也就是說，我們?yōu)槊總€視頻建立了一個如圖3所示的層次結(jié)構(gòu)，并且這個結(jié)構(gòu)作為一個直方圖向量代表著視頻。如圖所示 3，給定兩個視頻的相應(yīng)的直方圖向量X和Y，SST-PMK在層次結(jié)構(gòu)中計算出一個加權(quán)直方圖交集。在每個級別l上，直方圖交交集被定義為每個二進制里最小值的總和：其中是X中的一個元素

15、，它表示的是視頻的直方圖，用于在l級別中ST表示j，(i)表示中第i個二進制中的數(shù)值。在l級別感應(yīng)到的新的配對的數(shù)量在連續(xù)的直方圖交集之間是不同的：因為L級是最高的水平，所以我們在L級別到0級別中計算了僅與金字塔詞匯樹建立過程相反的匹配的數(shù)量。所得到的內(nèi)核K是通過加權(quán)求和得到的，這些和是每個級別與相匹配的數(shù)量，并且與級別l相關(guān)聯(lián)的權(quán)重被設(shè)置為：此時SST-PMK在層次結(jié)構(gòu)中有效地結(jié)合了每一級別。在粗糙的水平的新配對，雖然在更精細的水平是不匹配的，但是也被包含在SST-PMK內(nèi)。這對應(yīng)于行動識別中的某些情況，例如由不同的人操作同一類動作，或者一個人多次操作同一類動作。&#

16、160;如果這些內(nèi)部類的動作不被視為相匹配的精細程度，他們?nèi)匀豢梢员灰暈橄嗥ヅ浯植诘乃健?#160;因此，根據(jù)金字塔樹和SST-PMK，我們的方法可以克服內(nèi)部類的對象和動作之間的差異。3.2 SVM分類我們采用16中的算法去訓(xùn)練SVM用于人類動作識別。從方程（3），我們得到以下等式：實際上是一個金字塔匹配核（PMK）11。 11證明了PMK是一個默瑟內(nèi)核和一個正半定內(nèi)核。鑒于默瑟內(nèi)核封閉，等式（4）表明，SST-PMK是默瑟內(nèi)核。因此，視頻之間的SST-PMK距離被直接納入核函數(shù)的SVM分類器。4實驗圖 4混淆矩陣用于魏茨曼行動數(shù)據(jù)集的方法被提議的

17、行動識別方法直接操作不分段輸入圖像序列，其目的是識別低一級的行動，如散步，跑步，拍手。請注意，我們的識別系統(tǒng)不需要任何的預(yù)處理步驟。與此相反，在12，18，20中有一個共同的限制：一個人物中心的時空量或輪廓的每個人必須事先被指定并且用固定的大小做出調(diào)整。然而，對象分割與跟蹤本身難以實現(xiàn)。我們測試我們用于魏茲曼數(shù)據(jù)集23 的方法。魏茨曼人的行動數(shù)據(jù)集包含10種不同的動作，包括散步、跑步、跳躍、奔騰側(cè)身、彎曲、單手揮舞、雙手揮舞、原地跳躍、開合跳和跳繩。從每個動作類得出的一個代表性幀在圖1中表示出來。這里總共有93個樣本。視頻的分辨率是320×240像素和幀速率是

18、15幀。我們用留一交叉驗證來評估競爭的算法。紅線通過所提出的方法獲得，藍色是普通的BOVW的方法，而黑色是沒有考慮時空信息的PMK的方法。圖5通過三種途徑得到識別準度對比 0級別的詞匯量大小在所有的實驗中，我們使用最先五個人的視頻學(xué)習(xí)視覺詞匯包。在每次運行時，8名演員的影片被用來作訓(xùn)練集，剩余的一個人視頻用作測試集。訓(xùn)練集和測試集之間不存在重疊。我們運行這種算法9次，然后報告平均結(jié)果。在我們的方法中，三層金字塔的詞匯樹是用來模擬局部功能。在粗糙水平（即0級），視覺詞的數(shù)目設(shè)定為160，在最好的水平（即2級），視覺詞的數(shù)目設(shè)定為640。興趣點的幾何信息聚成10個中心。我們把SST-P

19、MK做為SVM核來使用。圖4顯示了混淆矩陣，即用在魏茨曼數(shù)據(jù)集中的我們的方法。混淆矩陣的每一行對應(yīng)的是地面實況類，每一列對應(yīng)的是所分配的集群。這表明，我們的方法在大運動的動作上效果比較好，但是在小的差異動作上它沒有實現(xiàn)預(yù)期的結(jié)果。大運動的動作識別準確性是100，如“彎曲”，“開合跳”中，“原地跳躍”、“側(cè)旋轉(zhuǎn)”、“走”、“單手揮舞”和“雙手揮舞”。 “跳躍”、“跑步”和“跳繩”的動作彼此相似，因此可能會有點相互混淆。4.1三種方法的比較為了證明金字塔詞匯樹和提出的SST-PMK方法的優(yōu)越性，我們采用其他兩種方法與我們的方法做比較。第一種的方法我們只使用一個詞匯

20、（即常規(guī)BOVW），其余的設(shè)置和我們的方法一樣。由于只是一個級別，所以SST-PMK退化為兩個直方圖相交的總和：其中n是ST詞匯的數(shù)量，等于我們方法中L級別的詞匯量的大小。因此，在第一種方法中，等式（6）被用作SVM分類的內(nèi)核。對于第二種方法，我們不考慮幾何信息，即PMK用于SVM分類。此外，我們采用的這三種方法方法使用不同的詞匯量。圖5繪制的是三種方法的識別精度曲線對比 0級的詞匯大小k 。圖5表明我們方法在大多數(shù)情況下，獲得了最高的識別準確率。對于 k = 50，60，.，500，我們的方法比第一種方法平均高7.6

21、3，比第二種方法高4.66。這表明了金字塔詞匯和興趣點的幾何信息對于動作識別都是有幫助的。4.2SVM的內(nèi)核比較表1建議的SST-PMK和用于SVM分類器的四個大眾內(nèi)核之間的比較我們也比較所提出的SST-PMK與其他四種用于SVM的大眾所用的內(nèi)核：線性核，多項式核，徑向基函數(shù)（RBF），和Sigmoid核。相同的實驗配置應(yīng)用于所有五種內(nèi)核。此外，在SVM分類器16中使用了，C-支持向量機分類（C-SVC），并且兩個內(nèi)核參數(shù)（c和g）也被考慮在內(nèi)。不同的內(nèi)核參數(shù)用來估計的識別精度：更具體地說，由于線性內(nèi)核和SST-PMK只有一個參數(shù)c，我們嘗試31種不同的c值，然后報告最好的結(jié)果。對

22、于其他三個內(nèi)核（多項式核，徑向基函數(shù)，Sigmoid核）有兩個參數(shù)c和 g，我們嘗試31×19 = 589種組合。表1顯示了在我們方法的基礎(chǔ)上使用五種內(nèi)核的實驗結(jié)果?；谖覀兊姆椒?，多項式核出現(xiàn)了最壞的結(jié)果，其他三個內(nèi)核的平均精度（線性內(nèi)核，Sigmoid核和RBF）比我們的稍微低一點。我們的方法達到最佳的識別效果，并且十有八九優(yōu)于其它四種內(nèi)核。5結(jié)論在本文中，我們開發(fā)了一個新的框架，這種框架能夠在不分段的視頻序列中識別低一級的行動，如步行、跑步、拍手。本文有以下兩種文獻。首先，據(jù)我們所知，詞匯是第一次成為人類動作識別中金字塔樹的拓撲結(jié)構(gòu)的一部分。其次，我們提出

23、了在局部特征的幾何信息中占有優(yōu)勢的SST-PMK，這種優(yōu)勢可以計算出視頻序列之間的相似性。SST-PMK提高了PMK聚集興趣點的時空信息的性能。實驗表明了所提方法的有效性和穩(wěn)健性。6致謝這項工作部分由國家自然科學(xué)基金（批準號：60825204，60672040，60705003）和中國國家“863”高新技術(shù)研發(fā)計劃（批準號：2006AA01Z453，2009AA01-Z318）提出的。參考文獻1. J.K. Aggarwal和S. Park。人體運動：識別和行為建模和相互作用。在第二次國際研討會關(guān)于三維數(shù)據(jù)處理，可視化與傳輸，第640-647頁，9月69，2004。2. C. Schuldt,

24、 I. Laptev, and B. Caputo。認識到人的行為：一個局部SVM方法。在ICPR，第3236頁，2004。3. I. Laptev, M. Marsza ek, C. Schmid, and B. Rozenfeld。在電影中學(xué)習(xí)現(xiàn)實人類動作。在CVPR，2008。4. J. Niebles, H. Wang, and L. Fei-Fei。使用空間詞匯用于人類行為分類的無監(jiān)督學(xué)習(xí)。Ijcv，第299318頁，2008。5. K. Yan, R. Sukthankar, and M. Hebert。應(yīng)用體積特征的有效視覺事件檢測。在ICCV，第166173頁，2005。6.

25、D. Weinland, and E. Boyer。使用基于樣例嵌入的動作識別。在CVPR，2008。7. P. Dollár, V. Rabaud, G. Cottrell, and S. Belongie。通過稀疏時空特征的行為識別。關(guān)于視覺監(jiān)控和績效評估、跟蹤和監(jiān)視的第二次聯(lián)合IEEE國際研討會。第65-72頁，2005。8. F. Lv, and R. Nebatia。使用關(guān)鍵姿態(tài)匹配和維特比路徑搜索的單視圖人體動作識別。在CVPR，2007。9. M. D. Rodriguez, J. Ahmed, and M. Shah。用于動作識別的行動馬赫的時空最大平均相關(guān)高度過濾器。在CVPR，2008。10. B. Fulkerson and A. Vedaldi, and S.Soatto。配備智能詞典的定位對象。在歐洲計算機視覺會議錄（E

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

利用金字塔詞匯樹木的人類動作識

文檔簡介

溫馨提示

最新文檔

評論

利用金字塔詞匯樹木的人類動作識

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔