基于局部信息融合的行為識別研究_第1頁
基于局部信息融合的行為識別研究_第2頁
基于局部信息融合的行為識別研究_第3頁
基于局部信息融合的行為識別研究_第4頁
基于局部信息融合的行為識別研究_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

目錄TOC\o"1-3"\h\u摘要 IAbstract II第1章緒論 11.1研究目的及意義 11.2國內(nèi)外研究現(xiàn)狀 31.2.1基于傳統(tǒng)的手工提取特征方法 31.2.2基于深度學(xué)習(xí)的方法 41.3研究難點 61.4研究內(nèi)容 71.5本文的結(jié)構(gòu)安排 8第2章人體行為識別技術(shù) 92.1行為識別流程 92.2基于手工特征的人體行為識別方法 102.2.1基于軌跡跟蹤的特征提取方法 102.2.2基于時空興趣點的采樣方法 112.3基于深度學(xué)習(xí)的人體行為識別方法 112.3.1雙流網(wǎng)絡(luò) 122.3.23D卷積網(wǎng)絡(luò) 132.3.3受限波爾茲曼機(jī) 132.3.4循環(huán)神經(jīng)網(wǎng)絡(luò) 142.4本章小結(jié) 15第3章基于關(guān)鍵幀的局部信息融合的分段視頻識別網(wǎng)絡(luò) 963.1時序分段網(wǎng)絡(luò) 1763.2關(guān)鍵幀提取網(wǎng)絡(luò) 1973.3KFSN網(wǎng)絡(luò)結(jié)構(gòu) 2083.3KFSN網(wǎng)絡(luò)訓(xùn)練 2093.3KFSN網(wǎng)絡(luò)測試 203.3本章小結(jié) 20第4章實驗結(jié)果與分析 214.1數(shù)據(jù)集簡介 214.1.1UCF101數(shù)據(jù)集 214.1.2HMDB51數(shù)據(jù)集 224.2實驗結(jié)果與分析 224.2.1實驗內(nèi)容 224.2.2實驗結(jié)果 234.2本章小結(jié) 25第5章總結(jié)與展望 265.1總結(jié) 265.2未來展望 26參考文獻(xiàn) 28致謝 32 第1章緒論1.1研究目的及意義 近年來,隨著中國經(jīng)濟(jì)社會和國民經(jīng)濟(jì)的快速發(fā)展,公共安全和一些突發(fā)情況等問題日益增加,世界各國越來越重視國內(nèi)公共場所的安全與預(yù)防。所以視頻監(jiān)視系統(tǒng)越來越多地用于各種公共場所,包括國際機(jī)場、火車站、辦公室、住宅區(qū)等地的安裝了大量視頻監(jiān)視攝像頭。近年來,隨著中國安全和智慧城市建設(shè)等各項政策的實施和進(jìn)一步發(fā)展與深化,金融等領(lǐng)域的用戶公共安防意識的也在不斷提高和增強(qiáng),視頻圖像監(jiān)控的市場保持了強(qiáng)勁增長的良好勢頭。自2008年以來,中國每年新增使用的攝像頭數(shù)量已超過百萬,并且每年的增長率仍超過20%。視頻監(jiān)控數(shù)字化為視頻監(jiān)控數(shù)字化系統(tǒng)的用戶提供了許多視頻監(jiān)控資源,但同時也帶來了一些問題。例如,這些監(jiān)控攝像機(jī)并不能起到主動進(jìn)行視頻監(jiān)視的作用,相反,只是僅記錄攝像頭錄下的內(nèi)容和視頻。這樣的視頻監(jiān)視系統(tǒng)具有兩個主要缺點。首先,如果發(fā)生異常情況,安全人員只能在事件發(fā)生后查看監(jiān)視記錄,或者因為工作疏忽而造成的遺漏、誤報或者漏報的狀況產(chǎn)生。其次,視頻監(jiān)控需要大量時間和人力、物力以及許多資源的長期投入。管理和維護(hù)監(jiān)控攝像系統(tǒng)所需的時間也令人咋舌。且大量的監(jiān)控攝像頭一年365天每天24小時不間斷地運行會制造出大量視頻數(shù)據(jù),這使得視頻數(shù)據(jù)的檢索變得非常困難,與此同時還會產(chǎn)生許多錯誤和不必要的視頻數(shù)據(jù)。因此,這種類型的視頻監(jiān)視系統(tǒng)常被認(rèn)為是“事后諸葛亮”,而沒有提前預(yù)警功能的監(jiān)控功能。 為了更好地解決上述的一些問題和缺陷,計算機(jī)視覺圖像處理技術(shù)直接融入到視頻監(jiān)控圖像處理系統(tǒng)中。對視頻數(shù)據(jù)的信息流執(zhí)行圖像處理的工作,例如圖像處理和目標(biāo)信息分析,以自動檢測和確定特定目標(biāo),并跟蹤目標(biāo)動作以分析特定的目標(biāo)行為并為該目標(biāo)行為創(chuàng)建相關(guān)記錄。同時,智能算法可以自動實時監(jiān)視所有公共場所,以準(zhǔn)確識別外部事件。例如,如果在海關(guān)、銀行、停車場等各種公共場所發(fā)生危險或可疑的非法活動,系統(tǒng)將立即通知安全人員,并向監(jiān)視人員提供當(dāng)前監(jiān)視視頻,可以及時有效地防止危險發(fā)生。同時,計算機(jī)視覺圖像處理技術(shù)有效地降低了視頻監(jiān)控圖像處理系統(tǒng)的容錯率,輕松加快了系統(tǒng)內(nèi)部的視頻檢索過程,并減少了垃圾視頻數(shù)據(jù)的產(chǎn)生。 計算機(jī)視覺技術(shù)主要應(yīng)用了生物視覺原理,來對圖像進(jìn)行采集,然后在采用高級圖像傳感器設(shè)備進(jìn)行圖像運算和處理。這種類別的傳感裝置與人眼的功能效果是一樣的,而對獲取的圖像的分析和處理需要直接或間接的依賴于計算機(jī)。計算機(jī)覺技術(shù)可以收集和分析周圍3D世界的圖像,且作為一門交叉性的學(xué)科,它不僅涉及現(xiàn)代計算機(jī)基礎(chǔ)科學(xué)、數(shù)學(xué)、光學(xué)、控制科學(xué)、神經(jīng)心理學(xué)、神經(jīng)生理學(xué)、神經(jīng)病學(xué)和臨床病理學(xué)等自然學(xué)科,還涉及到哲學(xué)、認(rèn)知心理學(xué)、視覺美學(xué)等社會科學(xué)。如今,計算機(jī)視覺技術(shù)的應(yīng)用已經(jīng)在各個行業(yè)領(lǐng)域大展宏圖,特別是在工業(yè)生產(chǎn)中,例如工業(yè)機(jī)械零件的檢測和測量。當(dāng)前,一些人工視覺技術(shù)不能達(dá)到的檢測和測量的水平,計算機(jī)視覺技術(shù)就可以做到。 目標(biāo)檢測、跟蹤、人體行為的識別和理解是目前計算機(jī)視覺領(lǐng)域中一個十分重要的研究課題。目標(biāo)偵測、目標(biāo)分類和跟蹤是視頻監(jiān)控中主要分析的三個方向,屬于計算機(jī)視覺監(jiān)視任務(wù)處理中的的低級和中級任務(wù)處理部分。更高級的視覺處理需要動作的識別和理解,它是對監(jiān)控目標(biāo)的具體行為模式進(jìn)行分析和識別,并用自然語言等手段加以解釋。這是視頻監(jiān)視系統(tǒng)的最終目標(biāo)任務(wù)之一。 目前行為的識別通常是以人體的行為活動作為主要觀察和研究的對象。人體的行為是人體行動的一種方式,是表達(dá)人對于環(huán)境或者其他物體的一種反應(yīng)。多數(shù)的情況下,人體是通過肢體的各種運動來描述或表達(dá)復(fù)雜的人體行為,即人體的運動由肢體的各種運動組合組成。因此,通過人體的運動來分析人體的行為就成為理解人體行為的一種有效途徑。研究運動目標(biāo),特別是對人體運動目標(biāo)的不同行為和動作的識別具有重要的理論意義,它涉及的范圍包括計算機(jī)人體視覺、模式識別、機(jī)器視覺學(xué)習(xí)、數(shù)據(jù)挖掘、認(rèn)知心理學(xué)等許多領(lǐng)域。人類行為識別的研究仍處于初步理論和研究之中。雖然已經(jīng)出現(xiàn)了多種行為識別算法,但大多數(shù)算法僅限于嚴(yán)格標(biāo)準(zhǔn)化的實驗研究環(huán)境中,并不適用于各種復(fù)雜且可修改的真實環(huán)境。在模式識別和機(jī)器視覺學(xué)習(xí)中,目標(biāo)運動識別涉及選擇和評估適當(dāng)?shù)倪\動識別模型,優(yōu)化分類器以及最小化訓(xùn)練樣本估計誤差或模型分類算法誤差。所以需要估計和學(xué)習(xí)感知模型的未知參數(shù)。如何根據(jù)理論和先驗知識對運動目標(biāo)的結(jié)構(gòu)進(jìn)行合理的建模,提取有效的特征,設(shè)計合適的分類器,以及如何選擇可行的模型和優(yōu)化分類算法都是這個領(lǐng)域需要研究和解決的主要問題。因此,目標(biāo)的行為識別對于學(xué)習(xí)和研究現(xiàn)代計算機(jī)統(tǒng)計學(xué)具有十分重要的意義和重要研究價值。從認(rèn)知心理學(xué)的角度來看,認(rèn)知心理學(xué)主要是研究人對所輸入的各種信息如何進(jìn)行表征、存儲、加工并將其轉(zhuǎn)化為知識,運用這些知識來控制和指導(dǎo)自己的行為和解決各種問題。圖像序列中人類行為識別的研究使用計算機(jī)來分析計算機(jī)輸入的圖像序列,并使用計算機(jī)對人類行為的視覺感知進(jìn)行低級處理。執(zhí)行后,模型和分類器將基本圖像特征轉(zhuǎn)換為高級語言。這包括人們在哪里以及他們在做什么。這類似于現(xiàn)代認(rèn)知心理學(xué)的機(jī)制。因此,人類行為識別的研究與發(fā)展為進(jìn)一步研究人類視覺和各種心理活動提供了新的思路和方法。同時,在人體的行為識別的研究中,還涉及到計算機(jī)視覺中從底層圖像特征到高層圖像語義之間的許多關(guān)系和問題。因此,該研究對象的方案和發(fā)現(xiàn)對計算機(jī)視覺及其他對應(yīng)分析領(lǐng)域的成長帶有非常重要的意義。 總之,視頻流中包含大量的有用的信息,如何讓現(xiàn)有的大量的傳感器和數(shù)字視頻監(jiān)控管理系統(tǒng)進(jìn)行智能化的工作,已開始逐步得到廣大科研工作者、政府和商家的高度重視,視頻人體行為識別具有重要的研究價值與意義。1.2國內(nèi)外研究現(xiàn)狀 基于視頻流的行為分析和理解正在成為計算機(jī)視覺領(lǐng)域中越來越重要和關(guān)注的研究方向。其核心研究重點是使用計算機(jī)視覺模式識別圖像信號處理和其他技術(shù)來執(zhí)行視頻流目標(biāo)序列。了解室外監(jiān)視區(qū)域中行人行為的目標(biāo)檢測,目標(biāo)分類,目標(biāo)跟蹤從而進(jìn)行分析。目標(biāo)檢測是視頻監(jiān)控圖像處理系統(tǒng)的基礎(chǔ),屬于低層次的計算機(jī)視覺問題,目前已經(jīng)有了很多較為成熟的檢測算法。必須準(zhǔn)確地對場景中的移動對象進(jìn)行分類,以便可以進(jìn)一步跟蹤和分析場景中的移動對象。而作為視頻監(jiān)控圖像處理系統(tǒng)中最基本的功能之一的目標(biāo)跟蹤,是當(dāng)前制約視頻監(jiān)控圖像處理系統(tǒng)發(fā)展的一個主要瓶頸。而如何對人的行為進(jìn)行分析和識別是近幾年被廣泛關(guān)注的一個研究熱點,它研究的主要是如何對人的行為運動模式進(jìn)行分析和識別,這可以輕松地視為時變運動數(shù)據(jù)的分類和匹配,即將測試序列與標(biāo)準(zhǔn)操作的預(yù)校準(zhǔn)參考數(shù)據(jù)序列進(jìn)行匹配。1.2.1基于傳統(tǒng)的手工提取特征方法 在人工智能和深度學(xué)習(xí)問世之前,設(shè)計圖像特征不僅要人工修復(fù)人類行為,而且要修復(fù)諸如特征提取,特征表示和行為分類之類的固定過程,這也是本文研究的主要方向?;谌斯ぴO(shè)計的圖像特點的運動鑒別方案可以將其分成基于全局特點的人體動作識別和基于局部特點的人體動作識別。全局特點獲取的基本完成方案是先從視頻圖像中偵測出人體的動作和位置,然后以人體為區(qū)域的核心,然后繪制形狀,和區(qū)域的輪廓等。錄制視頻中的人類行為特征證明了在視頻動作中使用姿勢變化來訓(xùn)練和構(gòu)建整體模型。Bobick等人提出的基于全局函數(shù)的代表性方法。包含動作形狀的圖像(MEI)和動作歷史幀數(shù)(MHI)。此方案重點用于兩個相鄰的幀數(shù),其中在幀之間執(zhí)行導(dǎo)數(shù)運算以獲得人的行為的特征表示。這種方法的優(yōu)勢在于,它可以清晰地保留視頻中人類行為的時間特征,但是在某種程度上取決于人類輪廓的手動分割,并且對顏色,光線,對比度和遮擋問題進(jìn)行分析。但是在空間有限的視頻場景不容易處理?;谶\動局部功能的視頻運動識別算法不需要視頻的預(yù)先分割。常見的局部特征包括局部,邊,角,曲線和具有特殊屬性的區(qū)域。人類行為的局部特征也稱為局部興趣點。這是空間或時間的突然變化。其中,最具代表性的局部功能是時空點(STIP)。這需要對人類行為視頻的時間尺度進(jìn)行重大更改,并且必須能夠準(zhǔn)確檢測行為的關(guān)鍵點。但是,人類行為的許多特征都有執(zhí)行速度慢和執(zhí)行過程中關(guān)鍵部分功能稀疏等問題。這也嚴(yán)重影響隨后人類行為的特征。為了解決視頻中人體操作點稀疏的問題,提出了一種基于光流函數(shù)的密集軌跡算法和人工改進(jìn)的密集軌跡采樣算法。在深度學(xué)習(xí)算法廣泛應(yīng)用于運動識別領(lǐng)域之前,特征獲取是最高效的一種方案。DT算法的基本流程是采用光流場獲取在視頻幀排列中采用的密集采樣點的動作痕跡,并采用動作痕跡提取方法,在使用梯度直方圖(HOG)。方向光流直方圖(HOF),運動邊界直方圖(邊界的歷史運動,MBH),軌跡函數(shù)軌跡和其他4個函數(shù)。HOF是基于灰色直方圖計算的,而其他則基于密集的光流。最后,使用Fisher向量來回編碼圖像特征,然后使用圖像特點進(jìn)行編譯的效果訓(xùn)練維持向量機(jī)(SVM)分類裝置。IDT優(yōu)化了SURF并使用關(guān)鍵點來配對上一個和下一個幀數(shù)圖像的兩幀的光流點,有效消除了由于攝像機(jī)移動過程而改變視頻背景的影響。這稱為扭曲光學(xué)流程圖。不過,按照密集采樣的鑒別方案對于動態(tài)背景動作鑒別任務(wù)的運算需求非常高。這包括許多影響行為感知效果的冗余背景變化計算)。深度學(xué)習(xí)并不是傳統(tǒng)的手動提取,而是采用深度網(wǎng)絡(luò)自動學(xué)習(xí)的特點。一些研究人員使用深層結(jié)構(gòu)對視頻進(jìn)行分類。通過使用分層特征表示,深度網(wǎng)絡(luò)學(xué)習(xí)方法可以捕獲局部特征和上下文信息,并在大型視頻數(shù)據(jù)集中使用高級信息)。Simonyan等人研究出來了兩流卷積神經(jīng)網(wǎng)絡(luò)(兩流網(wǎng)絡(luò))。他們把最初始的視頻幀率里面的圖像數(shù)據(jù)解析成空間靜態(tài)信息流和時間動態(tài)新流。在空間網(wǎng)絡(luò)領(lǐng)域中,它們降單個相框進(jìn)行形式攜帶。以及在視頻幀數(shù)里面描繪出的指定的場景和目標(biāo)信息。1.2.2基于深度學(xué)習(xí)的方法 Simonyan等人提出了一個雙流卷積神經(jīng)網(wǎng)絡(luò)(Two-StreamNetwork),他們將原始的視頻圖像信息分解成空間靜態(tài)數(shù)據(jù)流和時間動態(tài)數(shù)據(jù)流,在空間網(wǎng)絡(luò)部分以單個圖像幀的外觀形式,攜帶了視頻描繪的特定的場景和目標(biāo)信息。其自身靜態(tài)的外表形式是一個很有用的線索,因為一些動作很明顯地與特定的目標(biāo)之間有聯(lián)系。在時間網(wǎng)絡(luò)部分,以多個幀上的運動外觀形式,表達(dá)了特定的觀察者(攝像機(jī))和特定的目標(biāo)者的運動。并將深度卷積神經(jīng)網(wǎng)絡(luò)用于兩個特定的數(shù)據(jù)流中來進(jìn)行特征的提取,最后使用SVM分類器對網(wǎng)絡(luò)輸出結(jié)果進(jìn)行行為識別。Hausknecht等人提出利用長短時記憶神經(jīng)網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)來做雙流卷積神經(jīng)網(wǎng)絡(luò)的時間網(wǎng)絡(luò)部分的融合,效果還不錯,在UCF101數(shù)據(jù)庫上的識別率達(dá)到88.6%。Ji等人首先在實驗中使用3D卷積神經(jīng)網(wǎng)絡(luò)從視頻中學(xué)習(xí)時空特征,然后在下一步中使用LSTM對視頻序列進(jìn)行分類。Tran等人提出3D卷積神經(jīng)網(wǎng)絡(luò)C3D,其將33卷積擴(kuò)展到3×3×3卷積,2×2融合擴(kuò)展到2×2×2,輸入視頻圖像16幀。實驗中發(fā)現(xiàn),時域方向卷積核大小為3時效果最好。相比2D卷積神經(jīng)網(wǎng)絡(luò),3D卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)量很大,訓(xùn)練變得更加困難,且需要更多的訓(xùn)練數(shù)據(jù)。相比其他類型的方法,C3D一次可以處理多個視頻圖像幀,所以其計算效率更高。Carreira等人提出了I3D卷積神經(jīng)網(wǎng)絡(luò),把原始的雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的2D卷積擴(kuò)展為3D卷積。由于時間維度不能縮減過快,前兩個池化層的卷積核大小是1×2×2,最后的池化層的卷積核大小是2×7×7。和原始的雙流卷積神經(jīng)網(wǎng)絡(luò)不同的一點是,這里的雙流卷積神經(jīng)網(wǎng)絡(luò)的兩個網(wǎng)絡(luò)分支是單獨訓(xùn)練的,測試時才融合它們的預(yù)測結(jié)果。Diba等人提出了時空3D卷積網(wǎng)絡(luò)T3D,一方面是采用了3DDenseNet結(jié)構(gòu),區(qū)別于原來網(wǎng)絡(luò)的Inception和ResNet結(jié)構(gòu);另一方面是使用了不同尺度的卷積來捕捉視頻信息。Qiu等人提出了偽3D殘差網(wǎng)絡(luò)P3D,用一個1×3×3的空間方向卷積和一個3×1×1的時間方向卷積來近似原3×3×3卷積,改進(jìn)了ResNet內(nèi)部神經(jīng)網(wǎng)絡(luò)連接中的卷積形式。通過組合這三種不同的卷積模塊,進(jìn)而得到P3DResNet。P3DResNet無論是在參數(shù)數(shù)量還是運行速度等方面都對3D卷積神經(jīng)網(wǎng)絡(luò)C3D作出了優(yōu)化。除了光流信息之外,一些學(xué)者還利用視頻的其他模態(tài)如音頻和視頻中的物體信息來捕捉視頻分類的補(bǔ)充信息。Donahue等人提出了長時遞歸卷積神經(jīng)網(wǎng)絡(luò)(Long-termRecurrentConvolutionalNetwork,LRCN),這個網(wǎng)絡(luò)將卷積神經(jīng)網(wǎng)絡(luò)CNN和長短時記憶神經(jīng)網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)結(jié)合在一起對視頻中的有用信息進(jìn)行特征提取,單幀的視頻圖像信息通過CNN獲取特征,然后將CNN的輸出按輸入時間順序通過LSTM,這樣最終將視頻數(shù)據(jù)在空間和時間維度上進(jìn)行特征表征,在UCF101數(shù)據(jù)庫上得到了82.92%的平均識別率。Baccouche等人提出使用稀疏卷積自定義編碼器網(wǎng)絡(luò)來學(xué)習(xí)視頻塊的時空興趣特征,在KTH數(shù)據(jù)集上的實驗結(jié)果表明其方法能與人工設(shè)計特征的方法取得類似的效果。Le等人將對獨立子空間的分析(IndependentSubspaceAnalysis,ISA)算法擴(kuò)展到三維的視頻數(shù)據(jù)上,使用一種無監(jiān)督的學(xué)習(xí)算法對視頻塊進(jìn)行建模。首先在輸入的局部視頻塊上使用獨立子空間分析算法,學(xué)習(xí)得到相應(yīng)的網(wǎng)絡(luò)后將較大塊的輸入圖像進(jìn)行卷積,將卷積計算得到的結(jié)果組合起來作為下一層的輸入;實驗證明該算法更適用于環(huán)境復(fù)雜的視頻數(shù)據(jù)集,因此在Hollywood2數(shù)據(jù)集上得到了更好的結(jié)果,比手工特征提取中的時空興趣點特征提取算法識別率提高了將近10%。\o"M.D.Zeiler"Zeiler等人提出使用卷積限制玻爾茲曼機(jī)來學(xué)習(xí)一個視頻中相鄰兩幀的時空特征,在KTH和Hollywood2視頻數(shù)據(jù)集上的對比實驗結(jié)果表明,利用深度學(xué)習(xí)得到的時空特征與人工設(shè)計的HOG、HOF等特征能在識別結(jié)果上取得類似的結(jié)果。Chen等人提出空間-時間深度信念網(wǎng)絡(luò)(Space-TimeDeepBeliefNetwork,ST-DBN),ST-DBN使用玻爾茲曼機(jī)將空間抽取層和時間抽取層組合在一起在視頻數(shù)據(jù)上提取不變特征,并在KTH數(shù)據(jù)庫上獲得了91.13%的識別率。目前,基于深度學(xué)習(xí)方法的行為識別,在準(zhǔn)確度上達(dá)到了甚至超越了手工提取特征的準(zhǔn)確度,并且基于深度學(xué)習(xí)的識別方法具有良好的泛化性,針對不同類型的數(shù)據(jù)集都可以取得良好的識別效果,而且避免了復(fù)雜手工提取特征的過程。通過以上的對比分析可以很清楚地看出,深度學(xué)習(xí)不僅技術(shù)上具有優(yōu)良的泛用性,即針對不同類型的行為數(shù)據(jù)集都同樣能獲得較好的識別效果,且避免了復(fù)雜的傳統(tǒng)手工特征提取的過程,用基于機(jī)器的深度特征學(xué)習(xí)代替了基于人類先驗經(jīng)驗的特征提取,獲得了與傳統(tǒng)的手工特征識別結(jié)果持平甚至是更好的識別率。因此,基于深度學(xué)習(xí)的人體行為識別方法具有很大的科學(xué)研究和應(yīng)用價值。1.3研究難點 到目前為止,識別技術(shù)取得了長足的進(jìn)步。盡管在上層,下層和中層正在不斷的創(chuàng)新,但是目前而言,行為識別算法的成熟度遠(yuǎn)遠(yuǎn)不夠,因為目前沒有適用于所有行為分類識別的算法。所以仍然有很多嚴(yán)重的問題需要解決。此類研究的比較難的部分主要在于以下幾點: 1.動作類內(nèi)類間的變化太大在大多數(shù)行為運動中,同一運動會出現(xiàn)各種形式,例如走路,并且可以在不同的背景環(huán)境中完成。步行的步伐和速度從慢到快變化,步行的步伐也在不時的變化著。有些很短,有些很長。其他操作具有相似的性能結(jié)果。特別是,某些非周期性的肢體運動(例如在交通信號燈上行走)與正常的行走速度明顯不同。會看到行為表現(xiàn)的類型很多,每種行為都有很多變化,所以行為意識研究也有很多問題。 2.環(huán)境背景等影響在計算機(jī)視覺研究的各個領(lǐng)域,環(huán)境照明,背景變化和其他因素都是最大的挑戰(zhàn)。主要存在各種變化和觀點,從不同角度觀看時,可以用相同的動作獲得不同的動態(tài)圖像。另外,由于人和背景彼此遮擋,因此難以提取視頻的特征,這就需要利用計算機(jī)對行為進(jìn)行分類和識別。一些學(xué)者提出了用于多視圖相機(jī)融合和處理的3D重建技術(shù),以解決多視圖和遮擋的問題。其他影響因素包括動態(tài)場景變化和凌亂的背景,環(huán)境照明的變化以及低分辨率圖像和視頻。 3.時間變化的影響 眾所周知,人體的所有行為都離不開時間這個重要的因素。而我們拍攝的照片和視頻其實際存儲的格式和速率也有很大的可能不同,其視頻的播放速度有慢也有快,這使得所提出的行為識別系統(tǒng)對照片和視頻存儲格式的實際回放速度不敏感。 4.數(shù)據(jù)的獲取和標(biāo)注由于將行為識別問題的基本問題視為分類問題,因此學(xué)習(xí)分類模型是需要研究很多的行為數(shù)據(jù)。然而這些數(shù)據(jù)大多數(shù)都是視頻數(shù)據(jù)。視頻數(shù)據(jù)里面的每個動作的現(xiàn)實位置和時間都非常不確定,其持續(xù)時間也不確定。同時,需要對視頻中相同動作的不同表示以及不同動作之間的考慮。數(shù)據(jù)中信息的差異性,多樣性和包容性。該收集過程的工作量不小?;ヂ?lián)網(wǎng)上有幾個公共可用的視頻數(shù)據(jù)集,任何人都可以用來進(jìn)行行為識別實驗。 另外,手動標(biāo)記視頻數(shù)據(jù)非常困難,并且工作量太重。當(dāng)然,有一些學(xué)者也提出了一些自動標(biāo)注的方法,比如說可以利用網(wǎng)頁圖片作為搜索引擎,在電影視頻中使用字幕,并使用與電影說明匹配的文本信息等。1.4研究內(nèi)容 卷積神經(jīng)網(wǎng)絡(luò)在基于視頻的行為識別方面難以深入發(fā)展的原因是因為長視頻在理解行為視頻方面起著重要作用,且生活中的各種監(jiān)控視頻數(shù)據(jù)也基本都是長視頻,但是主流的神經(jīng)網(wǎng)絡(luò)通常只關(guān)注短視頻。這些挑戰(zhàn)促使我們來解決以下兩個主要問題:1.如何設(shè)計一種有效的基于視頻的行為識別網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)W習(xí)視頻的特征表現(xiàn)進(jìn)而能夠用于長視頻的行為識別。2.如何在有限的訓(xùn)練樣本下學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)模型。 本文在對基于視頻流的人體行為識別相關(guān)的關(guān)鍵技術(shù)進(jìn)行大量文獻(xiàn)查閱和研究的基礎(chǔ)上,提出了一種基于關(guān)鍵幀的局部信息融合的分段視頻識別網(wǎng)絡(luò),能夠在一段長視頻序列中通過稀疏采樣的方法提取短片斷,這些視頻片段在時間維度上服從均勻分布,利用雙流卷積神經(jīng)網(wǎng)絡(luò)從采樣得到的視頻片段中搜集信息,并在UCF101和HMDB51兩個數(shù)據(jù)集上進(jìn)行實驗來驗證所提出的方法的有效性。1.5本文的結(jié)構(gòu)安排本文的主要研究分為五章,每章的主要研究如下。第一章簡要介紹了相關(guān)的研究背景以及人類行為識別研究的重要性。下面介紹國內(nèi)外學(xué)者在傳統(tǒng)手部特征提取方法和人類行為識別領(lǐng)域的研究進(jìn)展。深度學(xué)習(xí)技術(shù)從兩個方面進(jìn)行了分析。最后,介紹了當(dāng)前行為意識研究中遇到的困難,并重點剖析的主要分析方向和研究的布局。第二章對人體行為識別技術(shù)進(jìn)行綜述,先介紹了行為識別流程,然后介紹了國內(nèi)外在人體行為識別領(lǐng)域的常見方法,分別從基于手工特征和基于深度學(xué)習(xí)兩方面進(jìn)行討論。第三章介紹本文擬采用的網(wǎng)絡(luò)結(jié)構(gòu),首先介紹了該方法的基礎(chǔ)網(wǎng)絡(luò)時序分段網(wǎng)絡(luò)(TSN),然后介紹了本文擬采取的關(guān)鍵幀提取網(wǎng)絡(luò),接下來介紹了本文采用的行為識別網(wǎng)絡(luò)的訓(xùn)練與測試部分。第四章,對于分析結(jié)果進(jìn)行詳細(xì)的總結(jié),并解析出對應(yīng)的實驗細(xì)節(jié)上面的問題。第五章:概述和觀點,本文中的工作和研究結(jié)果的概述以及后續(xù)工作的預(yù)測。

第2章人體行為識別技術(shù)行為識別的目標(biāo)是從一個未知的視頻或者是圖像序列中自動分析出其中正在進(jìn)行的行為的起始點并預(yù)測其終點。簡單的行為識別即動作分類,任意給定一段視頻,只需將其正確分類得到視頻中已知的動作類別。復(fù)雜點的行為識別是視頻中不僅僅只包含一個動作類別,而是有多個,系統(tǒng)需自動的識別出動作的類別以及動作的起始時刻和終止時刻。一般來說,行為識別系統(tǒng)的最終目標(biāo)是自動分析出視頻中有哪些人(who),在什么時刻(when),什么地方(where),干什么事情(what),即所謂的“W4系統(tǒng)”。2.1行為識別流程 首先給出行為識別的流程框圖如圖2.1所示。訓(xùn)練輸出提取分類器行為特征提取行為識別結(jié)果訓(xùn)練輸出提取分類器行為特征提取行為識別結(jié)果人體行為視頻圖2.1行為識別流程圖 人體行為視頻可以通過成像設(shè)備獲取,隨著成像設(shè)備的發(fā)展,從早期普通彩色單目攝像機(jī)到后來多模態(tài)相機(jī)的出現(xiàn)使得行為視頻的數(shù)據(jù)類型更加豐富。人體行為特征是從視頻數(shù)據(jù)中提取到的關(guān)鍵信息的表征,是行為識別中的關(guān)鍵部分,其好壞直接影響識別的性能。人體行為的分類是指將人體行為特征向量作為輸入,通過機(jī)器學(xué)習(xí)的方法訓(xùn)練一個分類器,將需要識別的人體行為特征向量輸入到這個分類器中,從而得到類別的分類結(jié)果。 若是將視頻特征提取作為最關(guān)鍵性的標(biāo)準(zhǔn),現(xiàn)如今的視頻人體行為在識別方法方面是能夠分為這樣兩個大的類別的: 1.將深度學(xué)習(xí)作為重要的分類依據(jù)。對于深度學(xué)習(xí),我們在對迭代學(xué)習(xí)加以充分利用的基礎(chǔ)上,自動地將相關(guān)的特征向量提取出來。這樣,我們就能夠借助于深度模型,得到相應(yīng)類別。而在依據(jù)數(shù)據(jù)標(biāo)簽的情況下,我們還能夠在對反向傳播方式進(jìn)行充分利用的基礎(chǔ)上,對網(wǎng)絡(luò)模型的參數(shù)加以調(diào)整。這樣,理想的分類效果就能夠最終地取得了。相當(dāng)于分類器的,為模型最后的這樣兩個層:一是Softmax層;二是全連接層。而作為學(xué)習(xí)過程的整個模型的訓(xùn)練,實際上即為端到端的。 2.將傳統(tǒng)的手工方面特征作為最主要基礎(chǔ)的識別方法。對于視頻的底層行為方面的特征,首當(dāng)其沖的為對于專家設(shè)計特征的加以利用。在此基礎(chǔ)上,實施上述底層特征的預(yù)處理。這樣,過擬合會因為數(shù)據(jù)間相關(guān)性的消除而得到有效預(yù)防。緊接著的是把所處理的底層特征編碼變?yōu)槎ㄩL的特征向量。我們的訓(xùn)練好行為分離器就能夠在系列處理之后而得到了。2.2基于手工特征的人體行為識別方法 圖2.2所表示的,即為通常情況這樣的人體行為識別方法方面的流程:將手工特征作為重要的基礎(chǔ)。第一,在實施了視頻數(shù)據(jù)的連續(xù)幀的連續(xù)采樣的基礎(chǔ)上,我們就能夠?qū)⒁幌盗械牟蓸狱c得出來;第二,對于上述的采樣點,實施專家所設(shè)計施工特征提取方法前提條件下的手工方面特征的提?。坏谌瑢τ谇笆鏊崛∈止ぬ卣鬟M(jìn)行編碼的合并,從而得到特征向量;第四,將前一步操作所形成的特征向量向行為分類器進(jìn)行輸入并且實施分類訓(xùn)練;第五,在把手工特征向量提取出來的情況下,我們就能夠得到相應(yīng)的分類結(jié)果。特征向量提取手工特征描述編碼采樣點采樣人體行為視頻特征向量提取手工特征描述編碼采樣點采樣人體行為視頻訓(xùn)練訓(xùn)練行為識別結(jié)果行為識別結(jié)果分類器 圖2.2基于手工特征的行為識別方法流程 世界范圍的許許多多專家和學(xué)者們,曾經(jīng)在深度學(xué)習(xí)沒有被引用至人體行為識別這樣一個重要的領(lǐng)域前,將許多類型的手工特征設(shè)計了出來,并且實施了許多嘗試。這之中典型的如常見的SpaceTimeInterestPoints以及Trajectories之類。2.2.1基于軌跡跟蹤的特征提取方法 Wang等人提出的基于密集軌跡(DenseTrajectories,DT)的行為識別方法和經(jīng)過改進(jìn)的密集軌跡(ImprovedDenseTrajectories,IDT)的行為識別方法是深度學(xué)習(xí)之前最好的人體行為識別方法。密集軌跡人體行為識別算法的主要步驟為:密集采樣、軌跡追蹤、軌跡描述、特征編碼與識別。首先對視頻圖像進(jìn)行多尺度密集特征點采樣,保證多個不同尺度的各個采樣點能同時覆蓋圖像所有空間位置。通過計算每連續(xù)15幀圖像特征點的鄰域光流估計特征點的運動,得到運動軌跡特征(trajectory)。改進(jìn)的IDT算法除了運動軌跡特征外,基于HOG,HOF,MBH的三種特征串行融合的特征用以描述光流,并利用詞袋特征編碼方式對每段軌跡對應(yīng)的一組特征(HOG,HOF,MBH)編碼。為了消除相機(jī)運動產(chǎn)生的光流信息,減少光流估計運動軌跡的干擾,利用SURF特征進(jìn)行特征點匹配,并改用特征編碼效果更好的費舍爾矢量(FisherVector,F(xiàn)V)特征編碼方式。FV同樣也是先用大量特征訓(xùn)練碼書,然后再用碼書對特征進(jìn)行編碼。相機(jī)背景運動光流消除、軌跡特征在后期的行為識別算法中得到了極大借鑒,常見的有將軌跡特征與深度學(xué)習(xí)結(jié)合的行為識別算法。基于得到的特征,利用分類器根據(jù)特征所帶信息,將特征輸入分類器識別行為。2.2.2基于時空興趣點的采樣方法時空興趣點(SpaceTimeInterestPoint,STIP)能夠同時考慮到視頻的空間信息和時間信息,是一種常用的行為識別運動特征表示方法。STIP特征提取出視頻序列中時間和空間運動變化劇烈的人體區(qū)域,如揮手的手掌和手肘以及踢球的足部。由于其較好的運動描述能力,被廣泛應(yīng)用于視頻序列中的人體行為識別。常用的檢測時空興趣點的方法有三種:Dollar檢測方法、Harris3D角點檢測方法和稠密網(wǎng)絡(luò)檢測方法。聚焦于時空,作出了顯著變化區(qū)域檢測的為Harris2D。而在充分利用統(tǒng)計所得像素直方圖的情況下,研究者實施了行為特征向量方面的描述。不過,對于上述檢測方法,Dollar等人提出諸如其所檢測到的穩(wěn)定的時刻在興趣點方面存在著嚴(yán)重的數(shù)量不足的問題。在此基礎(chǔ)上,他們還將這樣的看法提了出來:借助于Gabor濾波器進(jìn)行濾波,我們是能夠在可測量時間維度之上進(jìn)行濾波的。更為重要的是,在空間維度上,我們還能夠在運用高斯濾波器基礎(chǔ)上進(jìn)行濾波。就由這種檢測方法檢測到穩(wěn)定時空興趣點而言,是有著數(shù)量會因為局部鄰域塊尺寸大小變化而發(fā)生相應(yīng)變化的特征的。在這之后,Willems等人又在Harris2D的基礎(chǔ)上提出了這樣的時空興趣點檢測的具體方法:將Harris3D作為重要的依托。在對Hessian矩陣的計算前提之下,興趣點檢測時間的復(fù)雜度因此而大大地下降了。研究者還將其跟諸如HOG和HOF以及MBH實施了深入的比較。其結(jié)果說明:在采樣方式方面,就興趣點而言,稠密的要優(yōu)勝于稀疏的。 盡管對這樣兩個方面的影響較為敏感,基于時空興趣點特征提取方法的效果在背景復(fù)雜的情況下還是很好的。2.3基于深度學(xué)習(xí)的人體行為識別方法 就傳統(tǒng)的手工特征方法而言,這些方面的復(fù)雜場景之中的問題,實際上是不就普適性的:一是視角的變化;二是遮擋;三是光照。所以,要至數(shù)據(jù)之中對行為特征進(jìn)行自動學(xué)習(xí),深度學(xué)習(xí)方式的效果更好。圖2.3所表示的,即為文章之中所提出的將深度學(xué)習(xí)作為基礎(chǔ)的人體行為識別方法的流程框架。輸出行為識別結(jié)果深度學(xué)習(xí)模型輸入RGB連續(xù)幀或光流圖像輸出行為識別結(jié)果深度學(xué)習(xí)模型輸入RGB連續(xù)幀或光流圖像圖2.3基于深度學(xué)習(xí)的行為識別方法流程 在行為識別方法之中,將深度學(xué)習(xí)作為重要基礎(chǔ)的,主要有這樣兩種:一是3D卷積網(wǎng)絡(luò);二是雙流網(wǎng)絡(luò)。2.3.1雙流網(wǎng)絡(luò) 下面的圖2.4所表示的,即為2014年Simonyan提出了基于雙流網(wǎng)絡(luò)結(jié)構(gòu)的行為識別方法的基本流程。這樣的結(jié)構(gòu),可以分為兩個卷積神經(jīng)網(wǎng)絡(luò)方面的分支:一是時間;二是空間。他們的網(wǎng)絡(luò)結(jié)構(gòu)是一樣的。前者先對視頻系列里面相鄰兩幀進(jìn)行光流圖像的計算并且對多幀堆疊的光流圖像實時時序信息提取。后者在將空間特征值視頻在RGB圖像里面予以提取出來,并且在對上述兩個網(wǎng)絡(luò)進(jìn)行得分融合的基礎(chǔ)上取得結(jié)果。而視頻行為識別的準(zhǔn)確性也是得益于這樣的方法而在很大程度上提升了。圖2.4雙流網(wǎng)絡(luò)框架 在準(zhǔn)確率較高的同時,基于雙流網(wǎng)絡(luò)架構(gòu)的識別方法需要實施光流圖像的提取。而兩個網(wǎng)絡(luò)的分開訓(xùn)練,則是特別耗時的。這樣,實時性要求是難以達(dá)到的。并且這樣的方法對長時建模能力不足。2.3.23D卷積網(wǎng)絡(luò) 對于單幀圖像CNN特征的學(xué)習(xí),現(xiàn)如今的行為識別方法一般情況所使用的都是將圖像2D卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)的。其結(jié)果是:不同連續(xù)幀的信息連續(xù),許多時候就會被忽略。這樣,視頻里面動作處理方面的信息會大量地丟失掉。所以,對3D卷積網(wǎng)絡(luò)的充分利用,實際上是這方面研究的重要方向之一。2010年,上述的行為識別法為Ji等人第一次地提了出來。對視頻,沿著這樣兩個維度,我們是能夠?qū)嵤r空特征提取的:一是時間;二是空間。圖2.5所表示的,即為3D卷積操作。借助于高層特征的規(guī)則化,這些研究者做到了把3D卷積網(wǎng)絡(luò)跟各種各樣的架構(gòu)的有機(jī)結(jié)合。KHLWKHLWDD<LKK圖2.53D卷積操作 在圍繞視頻連續(xù)幀實施所組成的三維立方體3D卷積特征提取的基礎(chǔ)上,這樣的網(wǎng)絡(luò)能夠?qū)⒁曨l圖像這兩個維度方面的特征信息加以捕捉:一是空間;二是時間。更為重要的是,網(wǎng)絡(luò)運行的速度,受益于對于多幀圖像的一次性處理,在很大程度上得到了提升。一方面是識別的準(zhǔn)確性并不高,另一方面是對于硬件處理器有著較高的性能方面的要求,在一方面是計算開銷特別大,這樣的3D卷積網(wǎng)絡(luò)所存在的優(yōu)勢僅僅表現(xiàn)在無需對光流圖像進(jìn)行預(yù)先提取方面。在這樣的情況下,對于雙流網(wǎng)絡(luò)思想,在最先進(jìn)的方法之中予以了有機(jī)結(jié)合。也就是說,從對行為識別方法性能提升的角度,做到了對于光流圖像的充分利用。2.3.3受限玻爾茲曼機(jī) 作為可視化生成網(wǎng)絡(luò)模型,RBM實際上為能夠借助于輸入層數(shù)據(jù)集對概率分布進(jìn)行學(xué)習(xí)的模型。在充分借助于門控受限玻爾茲曼機(jī)前提下,Taylor等人在視頻系統(tǒng)里面運動信息的學(xué)習(xí)之中,采用了無監(jiān)督的可視化方式。對于網(wǎng)絡(luò)參數(shù)的微調(diào)和生成,這些研究人員是借助于卷積生成算法實施的。這樣,運動敏感特征就能夠得到有效提取。這樣的模型,在KTH數(shù)據(jù)集以及Hollywood2數(shù)據(jù)集方面的識別效果特別突出。而借助于高斯受限玻爾茲曼機(jī)實施視頻中人體運動差異特征的學(xué)習(xí),是Tran等人所提出的較為有效的先進(jìn)方法。對于一個兩幀間差異減函數(shù)進(jìn)行定義,使得人體動作得以在簡單時空顯著圖方面創(chuàng)建成功。這樣,淺層RBM可以更為容易地對這樣的時空顯著圖里面動作加以學(xué)習(xí)。 在無監(jiān)督學(xué)習(xí)之中,做到了對于無標(biāo)簽數(shù)據(jù)的直接利用,實際上為基于受限玻爾茲曼機(jī)方法的顯著優(yōu)勢所在。這就使得我們能夠取得可計算時空特征的重要表示方法。2.3.4循環(huán)神經(jīng)網(wǎng)絡(luò)在針對時間序列數(shù)據(jù)的建模之中,RNN,亦即循環(huán)神經(jīng)網(wǎng)絡(luò)一般情況下都是用在貢獻(xiàn)度為標(biāo)準(zhǔn)的自動建模上面。而要實現(xiàn)這樣兩個重要方面的累積,就要借助于自動控制相關(guān)方面的數(shù)據(jù)貢獻(xiàn)度來進(jìn)行:一是歷史信息;二是時間序列。所以,就這樣兩方面來說,RNN的性能是特別強(qiáng)大的:一是特征學(xué)習(xí);二是時域動態(tài)特征的建模。而在對LSTM加以充分利用的基礎(chǔ)上,我們能夠做到部分地解決RNN所普遍地存在著的梯度消失方面問題。下面的圖2.5所表示的,即為LSTM的結(jié)構(gòu)。相關(guān)字母的含義如下::輸出門;:遺忘門;:輸入門;:當(dāng)前的狀態(tài)輸入;:上一時刻的輸出隱藏狀態(tài)。圖2.5LSTM單元的結(jié)構(gòu)通過對相鄰幀間進(jìn)行時序相關(guān)性的充分利用實施視頻里面人體行為方面時序特征的建模,實際上是以循環(huán)神經(jīng)網(wǎng)絡(luò)作為重要的前提條件的。不過,這方面的識別準(zhǔn)確性離預(yù)期值的距離還很遠(yuǎn)。2.4本章小結(jié) 本章首先從行為識別的流程著手,行為識別方法按特征提取方式的不同大致可以分為兩類,基于傳統(tǒng)手工特征的行為識別方法和基于深度學(xué)習(xí)的行為識別方法。第2節(jié)介紹基于傳統(tǒng)手工特征的行為識別方法中常見的基于軌跡跟蹤的特征提取方法以及基于時空興趣點的采樣方法。第3節(jié)介紹基于深度學(xué)習(xí)的行為識別方法,概述了基礎(chǔ)的雙流網(wǎng)絡(luò)和3D卷積網(wǎng)絡(luò)兩種,以及常見的受限玻爾茲曼機(jī)和循環(huán)神經(jīng)網(wǎng)絡(luò)。

第3章基于關(guān)鍵幀的局部信息融合的分段視頻識別網(wǎng)絡(luò) 在本章節(jié)中,本文將詳細(xì)介紹如何使用基于關(guān)鍵幀的局部信息融合的分段視頻識別網(wǎng)絡(luò)(KeyFrameSegmentNetwork,KFSN)進(jìn)行行為識別。首先,介紹了時序分段網(wǎng)絡(luò)(TemporalSegmentNetworks,TSN)的基本概念。在此基礎(chǔ)上,改進(jìn)了TSN得到KFSN網(wǎng)絡(luò)。最后,將介紹KFSN網(wǎng)絡(luò)的訓(xùn)練和測試細(xì)節(jié)。3.1時序分段網(wǎng)絡(luò)經(jīng)典的雙流網(wǎng)絡(luò)(Two-StreamNetwork)對于視頻的信息利用率低。原來的雙流網(wǎng)絡(luò)(Two-StreamNetwork)在訓(xùn)練空間網(wǎng)絡(luò)時僅使用一張RGB圖,在訓(xùn)練時間網(wǎng)絡(luò)時僅用一組堆疊光流圖,這明顯不足以代表整段視頻。因此,時序分段網(wǎng)絡(luò)(TemporalSegmentNetworks,TSN)提出了一種新的時序分段方法來使用該雙流網(wǎng)絡(luò)結(jié)構(gòu),通過對視頻分段,來增加視頻利用率。該網(wǎng)絡(luò)結(jié)構(gòu)圖如下圖所示:圖3.1TSN網(wǎng)絡(luò)結(jié)構(gòu)圖具體來說,TSN是將一個輸入的人體行為視頻分成了等長的3個視頻片段,每個片段中再隨機(jī)任意選取一小段。從這選出的一小段中隨機(jī)取出一幀作為雙流網(wǎng)絡(luò)的空間流卷積神經(jīng)網(wǎng)絡(luò)的輸入,再將這個小視頻片段的一組堆疊的光流圖作為時間流卷積神經(jīng)網(wǎng)絡(luò)的輸入。每一個視頻片段都可以直接得到一個該視頻分類的分?jǐn)?shù),將這些片段所得分?jǐn)?shù)進(jìn)行結(jié)合(結(jié)合方法:平均、加權(quán)平均、取最大值)得到最終的類別分?jǐn)?shù),即最終識別結(jié)果,因為用到了整個視頻的信息(雖然并沒有充分應(yīng)用),所以這是一種視頻級的預(yù)測。來自3個片段的類別分?jǐn)?shù)最終融合產(chǎn)生最后的視頻的識別結(jié)果。兩個網(wǎng)絡(luò)都帶有完全同步的的網(wǎng)絡(luò)參數(shù),所以在全部代碼片段上都享有同步的數(shù)值。3.2關(guān)鍵幀提取網(wǎng)絡(luò) 因為TSN是從分出的3個片段中隨機(jī)選取RGB幀來作為空間流網(wǎng)絡(luò)的輸入,而隨機(jī)幀的選擇是任意的,有很大的可能會選取到攜帶信息很少的幀,這對最后的行為識別結(jié)果會有一定的影響。而且僅僅只把視頻分成3段也會造成信息的丟失。所以本文提出了基于關(guān)鍵幀的局部信息融合的分段視頻識別網(wǎng)絡(luò)(KeyFrameSegmentNetwork,KFSN),先將視頻分成多段,然后每段再提取關(guān)鍵幀作為空間流卷積神經(jīng)網(wǎng)絡(luò)的輸入。關(guān)鍵幀提取網(wǎng)絡(luò)如圖3.2所示:圖3.2關(guān)鍵幀提取網(wǎng)絡(luò) 深度網(wǎng)絡(luò)首先逐幀地為視頻中的每個幀提取深層特征,然后將它們傳遞給網(wǎng)絡(luò)的自適應(yīng)池模塊(AdaptivePooling),該模塊在考慮它們在網(wǎng)絡(luò)內(nèi)部可以預(yù)測的重要性的同時,遞歸地給它們進(jìn)行pool和排序,排序越靠前的幀所含信息越多,其中變量預(yù)測幀圖像中含有信息的重要性。該方法是對時域的特征進(jìn)行Pooling,而不是限制在空域的特征中。根據(jù)幀的重要性設(shè)定權(quán)值,該幀含有的有用信息的可能性越大,權(quán)重就越高,最后的PooledFeature獲得的有用信息就越多,無用信息就越少。自適應(yīng)池模塊中使用的神經(jīng)網(wǎng)絡(luò)是多層感知器模型(多層感知器,MLP)。該網(wǎng)絡(luò)由三個完全連接的網(wǎng)絡(luò)組成,它們是簡單,快速和自適應(yīng)的。輸入到網(wǎng)絡(luò)的是當(dāng)前圖像幀的pooled特征和下一幀特征的殘差,用殘差可以讓網(wǎng)絡(luò)關(guān)注到之前沒有看到的特征,進(jìn)而決定是否對它Pool。網(wǎng)絡(luò)通過反向傳播,會不斷優(yōu)化MLP,這樣就使得在訓(xùn)練的過程中,可以很好地選出關(guān)鍵幀,丟掉無用幀。3.3KFSN網(wǎng)絡(luò)結(jié)構(gòu) 像我們在前文討論的那樣,當(dāng)前的雙流網(wǎng)絡(luò)的一個明顯問題是它們無法進(jìn)行長時建模。這主要是由于它們對時間上下文的訪問和分析有限,因為它們存在單幀(空間網(wǎng)絡(luò))或小片段(時間網(wǎng)絡(luò))中的單幀堆棧上來進(jìn)行一些操作。然而,復(fù)雜的動作,如體育動作,在相對較長的時間段內(nèi)包含多個階段,在這些行動中,如果不能將長時的時間結(jié)構(gòu)運用到卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,那對于行為識別來說會造成信息上的缺失。為了解決這個問題,本文提出了基于關(guān)鍵幀的局部信息融合的分段視頻識別網(wǎng)絡(luò)(KeyFrameSegmentNetwork,KFSN),一個如圖3.2所示的網(wǎng)絡(luò)框架,使整個視頻的動態(tài)建模成為可能。 具體而言,本文中提出的分段視頻識別網(wǎng)絡(luò)框架旨在說明如何最大化整個視頻序列的視覺信息以進(jìn)行視頻級別預(yù)測。識別網(wǎng)絡(luò)由空間流卷積神經(jīng)網(wǎng)絡(luò)和時間流卷積組成。分段視頻識別網(wǎng)絡(luò)不能在單個幀或幀堆棧上執(zhí)行,可以對從整個視頻中稀疏采樣的一系列短視頻片段執(zhí)行此操作。此序列中的每個短視頻剪輯都會生成自己的運動類別初步預(yù)測,并將短視頻剪輯之間的一致性用作整個視頻的視頻級別的預(yù)測。在網(wǎng)絡(luò)訓(xùn)練期間,在雙流網(wǎng)絡(luò)結(jié)構(gòu)中使用剪切級別的預(yù)測損耗值,而是迭代更新模型參數(shù)以優(yōu)化視頻級別的預(yù)測損耗值。圖3.2KFSN網(wǎng)絡(luò)結(jié)構(gòu)圖 首先,給定一個視頻,將其分割成個時間等長的段落,然后,KFSN對視頻片段序列建模如下:(3.1) 這里是一個視頻幀序列。每個幀都是從對應(yīng)的視頻片段中得到的關(guān)鍵幀。是一個帶有參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)的函數(shù),該函數(shù)對關(guān)鍵幀進(jìn)行操作,生成一個動作類的類別分?jǐn)?shù)。分段一致性函數(shù)結(jié)合多個短視頻片段的輸出,活的到這些短視頻片段之間的分類數(shù)值展現(xiàn)出一致性。按照這類分段的識別,預(yù)測數(shù)值將悉知全部視頻中每個動作類的概率。對此本文采用了大量使用的Softmax數(shù)值來用作預(yù)測函數(shù)。融合標(biāo)準(zhǔn)類別交叉熵閾值損失,獲取到了一個分段一致性函數(shù)的最終損失函數(shù)為-(-)(3.2)其中,為動作類的數(shù)量,為與動作類相關(guān)的真實(groundtruth)標(biāo)簽。在實驗中,將片段的初始數(shù)量設(shè)置為3,隨著實驗的深入再逐步增加的數(shù)量。在實驗中,使用協(xié)商一致函數(shù)的最簡單形式,其中=。對此采用的聚合數(shù)值從全部短視頻部分上的相同類的獲取中判斷出一個動作類得分。本文對聚合函數(shù)選用平均評估法用于報告最終的識別精度。為了優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的參數(shù),可以利用多個短視頻片段,用標(biāo)準(zhǔn)的反向傳播運算聯(lián)合優(yōu)化模型數(shù)值。在反向傳播的步驟里面,模型數(shù)值相比對于損耗值的梯度可以運算為(3.3)其中,為分段視頻識別網(wǎng)絡(luò)將視頻所劃分的段數(shù)。 同時,對于全部的視頻進(jìn)行一次固定,本文使用一個稀疏幀率采樣方案,其中獲取到的的視頻片段中只涵蓋了少量的幀,只不過這些幀都屬于關(guān)鍵幀。與密集時間采樣視頻幀的工作量相比,它已經(jīng)大大降低了在幀上評估CNN的時間計算難度和成本。3.4KFSN網(wǎng)絡(luò)訓(xùn)練分段視頻識別網(wǎng)絡(luò)為視頻級學(xué)習(xí)提供了一個堅實的框架,但要實現(xiàn)最優(yōu)性能,需要考慮一些實際問題,如訓(xùn)練樣本的數(shù)量有限等。為此,本文研究了在視頻數(shù)據(jù)上訓(xùn)練深度卷積網(wǎng)絡(luò)的一系列良好實踐,這些實踐也直接適用于學(xué)習(xí)分段識別網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu):網(wǎng)絡(luò)結(jié)構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)設(shè)計中的重要元素。許多研究表明,更深的網(wǎng)絡(luò)結(jié)構(gòu)可以提高目標(biāo)識別性能。但是,原始的雙流網(wǎng)絡(luò)使用的是相對較淺的網(wǎng)絡(luò)結(jié)構(gòu)(AlexNet)。在本文中,我們將BN-Inception網(wǎng)絡(luò)用作構(gòu)建雙流卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。像原始的雙流卷積神經(jīng)網(wǎng)絡(luò)一樣,KFSN的空間流卷積神經(jīng)網(wǎng)絡(luò)也可以在RGB圖像上執(zhí)行,但是時間流卷積神經(jīng)網(wǎng)絡(luò)將一組連續(xù)的堆疊光流場作為輸入。網(wǎng)絡(luò)輸入:原始的雙流卷積神經(jīng)網(wǎng)絡(luò)最初使用RGB圖像作為空間流網(wǎng)絡(luò)的輸入,并使用堆棧光流場作為時間流網(wǎng)絡(luò)的輸入。本問還使用了雙流網(wǎng)絡(luò)結(jié)構(gòu),但與原始的雙流網(wǎng)絡(luò)不同之處在于,稀疏采樣的關(guān)鍵幀集被用作空間流卷積神經(jīng)網(wǎng)絡(luò)的輸入。以獲取運動信息的輸入字段的效果。網(wǎng)絡(luò)訓(xùn)練:由于動作識別數(shù)據(jù)集的數(shù)量相對較小,訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)面臨著過度擬合的風(fēng)險。如果目標(biāo)數(shù)據(jù)集無法提供足夠的訓(xùn)練樣本,則預(yù)訓(xùn)練是初始化深度卷積網(wǎng)絡(luò)并降低過度擬合風(fēng)險的有效方法。如果空間流網(wǎng)絡(luò)接收到RGB圖像作為輸入,那么本文將把ImageNet初始化模型訓(xùn)練為網(wǎng)絡(luò)初始化。在訓(xùn)練的時候,批次歸一化層按照對比縮放各個樣本批次中樣本的平均值以及平均差,并把平均值和方差變量成為標(biāo)準(zhǔn)高斯分布。這可以加快訓(xùn)練收斂速度,但是,如果訓(xùn)練樣本的數(shù)值存在一定的限制,則由于偏移量預(yù)計會形成過度重合。所以,在初始化預(yù)訓(xùn)練模型之后,除第一精準(zhǔn)化層的平均值和方差參數(shù)外,所有批處理標(biāo)準(zhǔn)化層的均值和方差參數(shù)都會被凍結(jié)。由于光流和RGB圖像的激活值分布各不不同,所以第一卷積層和批歸一化層的激活值遍布也各不相同,所以需要預(yù)算對應(yīng)的均值和方差。以此同時,在BN-Inception全局池化層之后附加了輟學(xué)層,從而可以進(jìn)一步預(yù)防擬合。輟學(xué)層設(shè)置:將空間流網(wǎng)絡(luò)調(diào)整為0.8,時間流網(wǎng)絡(luò)調(diào)整為0.7。3.5KFSN網(wǎng)絡(luò)測試由于在KFSN中片段級的卷積神經(jīng)網(wǎng)絡(luò)共享模型參數(shù),因此所學(xué)習(xí)到的模型可以進(jìn)行幀評估。具體來說,本文采用與原始的雙流網(wǎng)絡(luò)相同的測試方案——即從動作視頻中采樣了固定數(shù)量(在本文的實驗中是25)的幀。同時,從視頻序列采樣的幀在四個角和中心進(jìn)行修剪,然后水平翻轉(zhuǎn)以擴(kuò)展數(shù)據(jù)。對于時空兩個網(wǎng)絡(luò)的融合,本文取它們的加權(quán)平均值。在分段視頻識別網(wǎng)絡(luò)框架內(nèi)學(xué)習(xí)時,空間流網(wǎng)絡(luò)與時間流網(wǎng)絡(luò)的性能差距要比原始的雙流卷積神經(jīng)網(wǎng)絡(luò)小?;谶@一事實,本文將空間流的權(quán)值設(shè)為1,將時間流的權(quán)值設(shè)為1.5。3.6本章小結(jié) 本章首先對TSN網(wǎng)絡(luò)進(jìn)行了簡單介紹,然后研究了本文采用的關(guān)鍵幀提取方案,再爾分析了KFSN的網(wǎng)絡(luò)結(jié)構(gòu),最后分析了KFSN網(wǎng)絡(luò)的網(wǎng)絡(luò)訓(xùn)練以及網(wǎng)絡(luò)偵測等等。

第4章實驗結(jié)果與分析行為識別在目前的許多高新技術(shù)領(lǐng)域都有很廣泛的應(yīng)用,實現(xiàn)行為識別的高精準(zhǔn)識別率己成為許多專家學(xué)者的目標(biāo)。目前,由于硬件技術(shù)的發(fā)展和實時監(jiān)控攝像頭的普及,基于視頻的行為識別獲得了更多的普及與發(fā)展。本章采用一種分段視頻識別的方法完成高精度的人體動作鑒別,還會在UCF101數(shù)據(jù)集以及HMDB51數(shù)據(jù)集上進(jìn)行詳細(xì)的分析。4.1數(shù)據(jù)集簡介本文主要采用了UCF101數(shù)據(jù)集和HMDB51數(shù)據(jù)集進(jìn)行實驗,本小節(jié)將對這兩個數(shù)據(jù)集的結(jié)構(gòu)進(jìn)行詳細(xì)概述。4.1.1UCF101數(shù)據(jù)集UCF101是從YouTube收集的行為識別數(shù)據(jù)集,用于具有101個動作類別的真實動作視頻。行為數(shù)據(jù)集是UCF50行為數(shù)據(jù)集的擴(kuò)展,其中包括50個動作類別。UCF101當(dāng)前是動作類別和視頻樣本數(shù)量最多的數(shù)據(jù)庫之一。 UCF101擁有來自101個動作類別的13320個動作視頻,320x240的視頻分辨率,運動識別數(shù)據(jù)和攝像機(jī)動作,物體的外觀和姿勢,物體的差異和變化率,大視角,凌亂的環(huán)境背景,以及燈光的巨大差異,使其成為現(xiàn)實有史以來最困難的數(shù)據(jù)集之一。101個不同動作類別的視頻可以細(xì)分為25個組,每個組可以包含4-7個不同動作的視頻。來自同一組的視頻可能具有一些共同的特征,例如相似的背景,相似的人物等。UCF101數(shù)據(jù)集的動作類別大致可劃分為5種類型:1.人與周圍物體的接觸和互動;2.僅身體動作;3.人與人的互動;4.樂器演奏;5.體育運動。

圖4.1UCF101中6類行為的樣本圖像幀4.1.2HMDB51數(shù)據(jù)集布朗大學(xué)發(fā)布的HMDB51數(shù)據(jù)集于2011年發(fā)布。許多的視頻片段來源于一些電影,和一些視頻數(shù)據(jù)公共數(shù)據(jù)庫(例如Prelinger檔案)和在線視頻庫(例如YouTube和Google)。該數(shù)據(jù)集包含6849個視頻樣本,并分為51個動作類別。每個類別至少包含101個剪輯后的視頻,視頻分辨率為320×240。HMDB51數(shù)據(jù)集的動作類別可以分為五種類型:1.一般的面部動作,如微笑;2.人與人的互動;3.一般的身體動作;4.面部與對象交互;5.身體與目標(biāo)的交互行為。圖4.2HMDB51中6類行為的樣本圖像幀4.2實驗結(jié)果與分析本小節(jié)將對本次實驗的設(shè)備和參數(shù)設(shè)置進(jìn)行詳細(xì)的闡述,并且采用視頻行為識別率評價指標(biāo)對實驗結(jié)果和數(shù)據(jù)進(jìn)行詳細(xì)的分析和總結(jié)。4.2.1實驗內(nèi)容 本文所提出的網(wǎng)絡(luò)結(jié)構(gòu)的代碼編寫采用的是caffe+python2.7.12,深度學(xué)習(xí)的框架是OpenMPI+OpenCV。該方法在UCF101數(shù)據(jù)集以及HMDB51數(shù)據(jù)集上進(jìn)行實驗。 KFSN總共有37個網(wǎng)絡(luò)層,2個池層,32個卷積層,2個完全連接的層以及其他丟棄層。除非第一卷積層的卷積層的大小為7x7,否則其他每個卷積層的卷積核分別為1x1和3x3。 在本實驗中,將會采用低批量隨機(jī)梯度下降算法來運行網(wǎng)絡(luò)的參數(shù)。對此,批樣品的數(shù)值調(diào)節(jié)成256,動量的高低調(diào)節(jié)成0.9。采用ImageNet的預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)權(quán)重的數(shù)值。實驗剛開始的時候?qū)W習(xí)速率參數(shù)設(shè)置還是呈現(xiàn)出很小的狀態(tài)。對于空間流卷積神經(jīng)網(wǎng)絡(luò),初始學(xué)習(xí)率調(diào)節(jié)成0.001,并且每2000次迭代后降低到其自身的學(xué)習(xí)率0.1。整個訓(xùn)練過程在4500次迭代后停止。對于時間流網(wǎng)絡(luò),學(xué)習(xí)率被初始化為0.005,經(jīng)過1200和1800次迭代后,學(xué)習(xí)率降低到自己的學(xué)習(xí)率0.1。最大迭代次數(shù)設(shè)置為2000。為了提取光流,在本實驗中,我們選擇使用OpenDAV中實現(xiàn)的CUDA的TVL1光流提取算法來提取光流圖。為了加快訓(xùn)練速度,在分割視頻后,首先使用關(guān)鍵幀提取網(wǎng)絡(luò)AdaScan提出RGB關(guān)鍵幀,然后從關(guān)鍵幀中提取光流,最后提取關(guān)鍵幀并將其發(fā)送到空間流卷積神經(jīng)網(wǎng)絡(luò)。4.2.2實驗結(jié)果 在本小節(jié)中,本文將重點研究分段識別網(wǎng)絡(luò)KFSN的良好效果,包括不同的訓(xùn)練策略與不同的輸入方式,在這次實驗中,本文在UCF101數(shù)據(jù)集上執(zhí)行了所有實驗。 具體來說,本文比較了三種不同的訓(xùn)練策略:(1)不使用預(yù)訓(xùn)練文件直接進(jìn)行訓(xùn)練(FromScratch);(2)只訓(xùn)練空間流網(wǎng)絡(luò)(Pre-trainSpatial);(3)兩個網(wǎng)絡(luò)部分一起訓(xùn)練(Spatial+Temporal)。訓(xùn)練時將UCF101每個類別的90%樣本用于訓(xùn)練,10%樣本用于測試,每次訓(xùn)練時隨機(jī)選取90%樣本用于訓(xùn)練。三種訓(xùn)練方式結(jié)果如表4.1所示:表4.1在UCF101上進(jìn)行不同訓(xùn)練策略的結(jié)果(段號k=3)訓(xùn)練策略SpatialConvNetTemporalConvNetTwo-StreamTwo-Stream72.7%81.0%87.0%FromScratch47.8%81.2%81.6%Pre-trainSpatial82.1%81.2%88.9%Spatial+Temporal82.1%83.5%89.8% 首先,我們看到不使用預(yù)訓(xùn)練文件直接進(jìn)行訓(xùn)練(FromScratch)的訓(xùn)練效果遠(yuǎn)不如原始的雙流網(wǎng)絡(luò)(Two-Stream),這意味著精心設(shè)計的訓(xùn)練策略能有效降低過擬合風(fēng)險,特別是對于空間流網(wǎng)絡(luò)(SpatialConvNet)而言。然后,只在空間流網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練(Pre-trainSpatial)與兩個流相結(jié)合的預(yù)訓(xùn)練(Spatial+Temporal)相比較,發(fā)現(xiàn)訓(xùn)練臨時流用于初始化兩個流能獲得比原始雙流網(wǎng)絡(luò)更好的性能,從而提高識別精確率達(dá)到89.8%。 然后是不同輸入方式的比較。(1)僅輸入提取出的RGB視頻關(guān)鍵幀;(2)僅輸入光流圖;(3)關(guān)鍵幀與光流圖相結(jié)合輸入。結(jié)果如下表所示:表4.2在UCF101和HMDB51探討不同輸入方式的結(jié)果(段號k=3)UCF101HMDB51RGB85.3%RGB51.6%Flow89.9%Flow64.2%RGB+Flow94.2%RGB+Flow69.6% 從表中可以看出,僅輸入單個RGB圖像關(guān)鍵幀的效果最差,光流圖次之,而RGB關(guān)鍵幀和光流圖結(jié)合一起輸入的效果最好。這是因為單獨的RGB幀缺少時序信息,視頻中對應(yīng)的數(shù)據(jù)的顯示的結(jié)果不準(zhǔn)確。基于光流場的運算很輕易的就會受到噪聲的干擾,從而影響光線的變化以及對雜亂背景也會產(chǎn)生影響,因此很難將快速物體和目標(biāo)物體的背景光流場與單個背景光流場結(jié)合在一起。所以,單獨的RGB幀或光流場均不能完整表達(dá)視頻信息,需要兩相結(jié)合,一起作為神經(jīng)網(wǎng)絡(luò)的輸入才能更好的表示視頻信息。接下來將KFSN與其它常用的行為識別網(wǎng)絡(luò)做一個效果對比,結(jié)果如下:表4.3KFSN與其它常見行為識別方法對比結(jié)果(段號k=3)UCF101HMDB51Two-Stream88.0%Two-Stream59.4%VideoMarwin85.2%C3D63.7%T3D90.3%T3D59.2%MPR88.6%MoFAP65.5%TDD+FV88.6%Two-Stream+LSTM63.2%LTC91.8%LTC64.8%TSC69.0%TSC94.0%TSN94.0%TSN69.2%KFSN94.2%KFSN69.6% 從表中結(jié)果可以看出,KFSN的效果明顯優(yōu)于別的行為識別網(wǎng)絡(luò)。這是因為別的網(wǎng)絡(luò)大都是從整段視頻中隨機(jī)或者間接選取視頻幀輸入網(wǎng)絡(luò),并沒有充分用到整段視頻的信息,而本文采用稀疏采樣策略,充分利用了整段視頻的信息。而且為進(jìn)一步加強(qiáng)信息的利用,還選取了關(guān)鍵幀來進(jìn)行實驗。 為了進(jìn)一步探究分段識別網(wǎng)絡(luò)的優(yōu)越性,將視頻分段數(shù)加大,結(jié)果如表4.4所示:表4.4KFSN上輸入視頻不同分段設(shè)置結(jié)果UCF101HMDB51段號KRGB+Flow段號KRGB+Flow394.2%369.6%494.4%469.7%594.6%569.8%694.7%669.8%794.9%769.9%895.0%870.0%995.0%970.1%1095.0%1070.1% 從上表可以看出,增加視頻分段的段數(shù)對于識別結(jié)果有明顯的提升,但是當(dāng)段數(shù)到達(dá)一定數(shù)目之后識別率就不再改變。這是因為UCF101數(shù)據(jù)集和HMDB51數(shù)據(jù)集里的視頻大多都不是真正意義上的長視頻,多數(shù)是不超過20秒的,所以分段到達(dá)一定程度之后就沒多大效果了。4.3本章小結(jié) 本章首先對實驗所采用的兩個數(shù)據(jù)集UCF101和HMDB51數(shù)據(jù)集進(jìn)行了簡單的介紹說明。接著對KFSN神經(jīng)網(wǎng)絡(luò)模型在兩個數(shù)據(jù)集上的實驗內(nèi)容進(jìn)行介紹,對兩個經(jīng)典數(shù)據(jù)集的識別率和實驗數(shù)據(jù)進(jìn)行詳細(xì)的研究。最終結(jié)果表明,對UCF101和HMDB51數(shù)據(jù)集的研究結(jié)果的識別率優(yōu)于大多數(shù)人類行為識別網(wǎng)絡(luò),本文提出的KFSN網(wǎng)絡(luò)也明顯提高了UCF101數(shù)據(jù)集和HMDB51數(shù)據(jù)集的人體行為識別率。

第5章總結(jié)與展望 本文首先對行為識別領(lǐng)域進(jìn)行了理論研究與可靠性分析,結(jié)合前人工作進(jìn)一步提出自己的研究理論,并利用多組實驗論證所提出方法的有效性,同時研究方案的好壞會對往后研究產(chǎn)生很大的影響。5.1總結(jié)當(dāng)下,計算機(jī)視覺領(lǐng)域成長非常之迅速,對于視頻中的人類動作的識別技術(shù)研究已成為國內(nèi)外計算機(jī)視覺領(lǐng)域的重中之重。廣泛用于視頻圖像監(jiān)視,人機(jī)交互和動畫制作。人類行為識別技術(shù)已經(jīng)成為人們?nèi)粘I钪凶畛S玫募夹g(shù)之一。伴隨人工智能以及物聯(lián)網(wǎng)領(lǐng)域與深度機(jī)器學(xué)習(xí)相關(guān)的理論的迅速成長,本文研究出來一些解決辦法來完善這個問題。此項深入研究的關(guān)鍵要素是如何合理利用人類學(xué)習(xí)和相關(guān)方法,以更有效地完成人工智能視頻監(jiān)視系統(tǒng)中的人類動作識別任務(wù)。本文重點介紹視頻中人類行為識別的研究任務(wù)。首先,簡要介紹和解釋研究背景以及視頻中人類行為識別的重要性。其次,在動作識別領(lǐng)域,視頻和深度學(xué)習(xí)理論中人類動作識別技術(shù)的發(fā)展。分析實際的研究和應(yīng)用。接下來,分析并打破了當(dāng)前人類行為感知研究的困難和挑戰(zhàn),并在長視頻中有效地利用了信息技術(shù)。在如何采用高效的方案來利用視頻識別網(wǎng)絡(luò)KFSN,從而改善長期視頻中視頻圖像信息的使用。最后,對本文提出的方法進(jìn)行了測試,并基于深度神經(jīng)網(wǎng)絡(luò)的客觀性能指標(biāo)和人類行為識別任務(wù)的識別率來分析其有效性。UCF101數(shù)據(jù)集的最大識別率達(dá)到95.0%,而HMDB51數(shù)據(jù)集的最大識別率達(dá)到70.1%。5.2未來展望目前,隨著人工智能和計算機(jī)視覺技術(shù)的不斷更新和發(fā)展,人體行為識別技術(shù)已經(jīng)取得了很大的研究成果。雖然在人體行為識別技術(shù)取得了些許成果,但是其仍存在計算量大、實用性低、對于復(fù)雜背景的人體行為識別仍有一定的難度等挑戰(zhàn)。本文對人體行為識別技術(shù)進(jìn)行了研究,雖然獲得了一些進(jìn)展,但是還存在許多不足和需要改進(jìn)的地方,主要是以下幾個方面:1.本文的研究只是基于簡單的實驗背景下的行為研究,而且數(shù)據(jù)集較單一,但是在實際場合中人體行為視頻數(shù)據(jù)是非常復(fù)雜的,所以該研究方法并不能成為現(xiàn)實中的通用模型。可以在實時復(fù)雜的背景環(huán)境下以及多攝像頭多視角方面進(jìn)行進(jìn)一步的研究,對于這一方向的研究還具有廣泛的學(xué)術(shù)研究與技術(shù)應(yīng)用前景,依然還有很大的改進(jìn)空間和發(fā)展?jié)摿Α?.目前,人類行為識別主要在某些標(biāo)準(zhǔn)數(shù)據(jù)集的有限動作進(jìn)行識別,并進(jìn)一步增強(qiáng)了現(xiàn)有的簡單行為識別和理解功能,并啟用了更復(fù)雜場景的事件。了解增強(qiáng)視覺是從低級到高級處理階段的重要部分。同樣,當(dāng)前現(xiàn)有的行為識別方法通常在訓(xùn)練后使用,并且只能在訓(xùn)練過程中識別預(yù)定義的動作類別?;旧?,這些是相同的短期運動,幾乎沒有變化,并且自主機(jī)器學(xué)習(xí)不足以實現(xiàn)目標(biāo)運動,因為由于遠(yuǎn)距離運動的各種連續(xù)變化,序列運動識別尚未得到很好的研究。基于對運動和場景的先驗知識。沒有要執(zhí)行的功能。對于包含不同運動的長運動序列,準(zhǔn)確確定運動的開始和結(jié)束時刻應(yīng)該是未來研究工作的方向。 這意味著使用實時監(jiān)視視頻系統(tǒng)來檢測和跟蹤移動目標(biāo)并識別人類行為仍然需要大量工作。大多數(shù)科學(xué)技術(shù)工作者需要積極研究。隨著科學(xué)研究的深入,我們相信人們在視頻行為識別領(lǐng)域的研究和應(yīng)用也將帶來更大的進(jìn)步和實際發(fā)展。參考文獻(xiàn)[1]中國安全防范產(chǎn)品行業(yè)協(xié)會.中國安防行業(yè)“十二五”(2011-2015年)發(fā)展規(guī)劃.中國安防,2011,3:2-9.[2]鄭世寶.智能視頻監(jiān)控技術(shù)與應(yīng)用[J].電視技術(shù),2009,33(1):94-96.[3]李彤.智能視頻監(jiān)控下的多目標(biāo)跟蹤技術(shù)研究[D]:[博士學(xué)位論文].北京:中國科學(xué)技術(shù)大學(xué),2013.[4]Vicente,Munoz,Molina,etal.Embeddedvisionmodulesfortrackingandcountingpeople[J].IEEETransactionsonInstrumentationandMeasurement,2009,58(9):3004-3011.[5]賈云得.機(jī)器視覺[M].北京:科學(xué)出版社,2002.[6]NaylorM,AttwoodCI.Annotateddigitalvideoforintelligentsurveillanceandoptimizedretrieval:Finalreport[R].ADVISORconnortium,2003,(2003):2.[7]CoifmanB,BeymerD,MclauchlanP,etal.Areal-timecomputervisionsystemforvehicletrackingandtrafficsurveillance[J].

TransportationResearchPartC:EmergingTechnologies,2001,6(4):271-288.[8]Magee,DerekR.Trackingmultiplevehiclesusingforeground,backgroundandmotionmodels[J].ImageandVisionComputing,2004,22(2):143-155.[9]Aggarwal,JakeK,QuinCai.Humanmotionanalysis:Areview[J].Computervisionandimageunderstanding,2001,73(3):428-440.[10]王亮,胡衛(wèi)明,譚鐵牛.人運動的視覺分析綜述[J].計算機(jī)學(xué)報,2002,25(3):225-237.[11]杜友田,陳峰,徐文立等.基于視覺的人的運動識別綜述[J].電子學(xué)報,2007,35(1):84-90.[12]付朝霞.基于視頻流的人體目標(biāo)檢測與行為識別研究[D]:[博士學(xué)位論文].太原:中北大學(xué)信號與信息處理系,2013.[13]BobickW,AaronF,JamesDavis.TherecognitionofhumanmovementusingtemporaltemplatesforPatternAnalysisandMachineIntelligence[J].IEEETransactionsonpatternanalysisandmachineintelligence,2003,23(3):257-267.[14]IvanLaptev.Onspace-timeinterestpoints[J].InternationalJournalofComputerVision,2005,64(2):107-123.[15]WangHeng,KlaserAlexander,SchmidCordelia,etal.Densetrajectoriesandmotionboundarydescriptorsforactionrecognition[J].InternationalJournalofComputerVision,2013,103(1):60–79.[16]WangHeng,SchmidCordelia.ActionRecognitionwithImprovedTrajectories[J].ProceedingsoftheIEEEinternationalconferenceoncomputervision,2013,2013:3551-3558.[17]DalalNavneet,BillTriggs.Histogramsoforientedgradientsforhumandetection[J].IEEEcomputersocietyconferenceoncomputervisionandpatternrecognition,2005,2005:886–893.[18]DalalNavneet,BillTriggs,CordeliaSchmid.Humandetectionusingorientedhistogramsofflowandappearance[C].ProceedingsoftheEuropeanConferenceonComputerVision,2006.[19]IvanLaptev,MarszalekM,SchmidC,etal.LearningRealisticHumanActionsfromMovies[C].ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,2008.[20]KarenSimonyan,AndrewZisserman.Two-StreamConvolutionalNetworksforActionRecognitioninVideos[J].AdvancesinNeuralInformationProcessingSystems.2014,2014:568–576.[21]MatthewHausknecht,JoeYue-HeiNg,SudheendraVijayanarasimhan,etal.BeyondShortSnippets:DeepNetworksforVideoClassification[J].IEEEComputerSocietyConferenceonComputerVision,2015,4694-4702.[22]HochreiterS,Schmidhuber.LongShort-TermMemory[J].NeuralComputation,1997,9(8):1735-1780.[23]KhurramSoomro,AmirRoshanZamir,MubarakShah.UCF101:ADatasetof101HumanActionClassesFromVideosinTheWild[J].CRCV-TR-12-01,2012.[24]ShuiwangJi,WeiXu,MingYang,etal.3DConvolutionalNeuralNetworksforHumanActionRecognition[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2013,35(1):221-231.[25]DuTran,LubomirBourdev,RobFergus,etal.LearningSpatiotemporalFeatureswith3DConvolutionalNetworks[J].ProceedingsofIEEEInternationalConferenceonComputerVision,2015,2015:4489-4497.[26]JoaoCarreira,AndrewZisserman.QuoVadis,ActionRecognition?ANewModelandtheKineticsDataset[J].ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,2017,2017:6299-6308.[27]AliDiba,MohsenFayyaz,VivekSharma,etal.Temporal3DConvNets:NewArchitectureandTransferLearningforVideoClassification[J].ComputerVisionandPatternRecognition(CVPR),2017.[28]QiuZhaofan,YaoTing,MeiTao.LearningSpatio-TemporalRepresentationwithPseudo-3DResidualNetworks[J].ComputerVisionandPatternRecognition(CVPR),2017.[29]DonahueJ,HendricksAnne,GuadarramaS,etal.Long-termrecurrentconvolutionalnetworksforvisualrecognitionanddescription[J].ComputerVisionandPatternRecognition(CVPR),2015,2015:2625-2634.[30]BaccoucheM,MamaletF,WolfC,etal.Sequentialdeeplearningforhumanactionrecognition[J].InInternationalworkshoponhumanbehaviorunderstanding,2011,2011(11):29-39.[31]SchuldtC,LaptevI,CAPUTOB.RecognizingHumanActions:ALocalSVMApproach[C].Proceedingsofthe17thInternationalConferenceonPatternRecognition,2004,2004:23-26.[32]LeQV,ZouWY,YeungSY,etal.Learninghierarchicalinvariantspatio-temporalfeaturesforactionrecognitionwithindependentsubspaceanalysis[J].IEEEcomputersocietyconferenceoncomputervisionandpatternrecognition,2011,2011(6):3361-3368.[33]MarszalekM,LaptevI,SchmidC.ActionsinContext[C].ProceedingsofIEEEConferen

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論