



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
計(jì)算機(jī)視覺技術(shù)發(fā)展研究綜述目錄TOC\o"1-2"\h\u12741計(jì)算機(jī)視覺技術(shù)發(fā)展研究綜述 113385引言 126271研究綜述 1180351.1視覺信息處理機(jī)制 149851.2.基于顯著性的視覺注意 1132721.3圖像中的顯著目標(biāo)檢測(cè) 2224891.4視頻顯著目標(biāo)檢測(cè) 2189832研究述評(píng) 320282參考文獻(xiàn) 3引言當(dāng)前,隨著腦認(rèn)知科學(xué)的興起,計(jì)算機(jī)視覺技術(shù)進(jìn)入了高速發(fā)展階段,這也推動(dòng)了人工智能的革新。腦認(rèn)知科學(xué)旨在探索模擬人腦復(fù)雜且強(qiáng)大的信息處理機(jī)制,使機(jī)器具備如人腦般更高水平的“智能”。2013年,美國(guó)、歐盟相繼實(shí)施“腦計(jì)劃”,腦科學(xué)及腦啟發(fā)智能成為國(guó)際競(jìng)爭(zhēng)的新焦點(diǎn),這也宣告了一場(chǎng)腦認(rèn)知科學(xué)技術(shù)革命的開始[1]。我國(guó)于2016年正式開展以“腦科學(xué)和腦啟發(fā)智能”為主題的“腦計(jì)劃”,旨在推動(dòng)以腦科學(xué)基礎(chǔ)研究、生物醫(yī)學(xué)及腦啟發(fā)智能這“一體兩翼”的發(fā)展[2]。2016年9月1日,百度在百度世界大會(huì)上正式宣布“百度大腦”工程的實(shí)施,拉開了我國(guó)互聯(lián)網(wǎng)公司致力于腦科學(xué)及人工智能研究的序幕[3];2017年7月20日,國(guó)務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,將人工智能視為提升綜合國(guó)力、引領(lǐng)全面發(fā)展的戰(zhàn)略性技術(shù),并在國(guó)家層面進(jìn)行了綜合規(guī)劃,其中視覺神經(jīng)計(jì)算是其重要內(nèi)容之一[4]。如何借鑒人腦視覺信息處理機(jī)制,以應(yīng)用于計(jì)算機(jī)視覺技術(shù)和人工智能技術(shù),成為當(dāng)前科學(xué)界的研究熱點(diǎn)。1研究綜述1.1視覺信息處理機(jī)制人腦視覺信息處理機(jī)制生物研究表明,人腦有140多億數(shù)量的神經(jīng)細(xì)胞,每天平均記錄并處理約1億條信息。人腦在接收到外部信息后,首先進(jìn)行針對(duì)性篩選,僅處理其中“有效”的1%的信息。在對(duì)這1%的信息進(jìn)行一系列復(fù)雜處理以后,人腦形成對(duì)外界事物的“印象”,即基本認(rèn)知。人腦貯存和處理信息的性能,遠(yuǎn)遠(yuǎn)超過世界上現(xiàn)有的任何一臺(tái)獨(dú)立計(jì)算機(jī),但其消耗能量的功率,僅僅為10W左右,這種高效而“低耗”的奧秘,一直是生物學(xué)和信息學(xué)領(lǐng)域的研究熱點(diǎn)[5]。而視覺系統(tǒng),作為人腦最主要的感覺系統(tǒng),接受并處理了其中約83%的外界信息,遠(yuǎn)遠(yuǎn)超過了聽覺系統(tǒng)、嗅覺系統(tǒng)及其他感覺系統(tǒng)處理的信息量之和。在人眼接收到外部視覺刺激時(shí),視覺系統(tǒng)以極快的反應(yīng)速度提取出輪廓、色彩和方位等特征信息,幫助大腦形成基本的認(rèn)知與判斷。在提取視覺特征方面,雖然計(jì)算機(jī)視覺技術(shù)發(fā)展日新月異,但與人類視覺系統(tǒng)相比仍有較大的差距:人類視覺系統(tǒng)可以高效自適應(yīng)地處理動(dòng)靜態(tài)信息,且具有極強(qiáng)的小樣本泛化能力和全面的感知能力。1.2.基于顯著性的視覺注意眾所周知,即使我們?cè)诿鎸?duì)復(fù)雜的自然場(chǎng)景時(shí),也能夠快速的從該場(chǎng)景中獲取到我們感興趣的信息,完成對(duì)場(chǎng)景的理解。這種快速獲取感興趣信息的策略依賴于人類視覺系統(tǒng)對(duì)外界環(huán)境優(yōu)秀的選擇處理機(jī)制。這種對(duì)信息的選擇處理策略稱為視覺注意機(jī)制[5]。對(duì)于自底向上計(jì)算模型的研究靈感最初來源于1980年Treisman等人提出的特征整合理論[6]。隨后,Koach和Itti[7]等人提出了這種計(jì)算模型的理論框架,其中的神經(jīng)網(wǎng)絡(luò)理論的焦點(diǎn)抑制機(jī)制為眾多模型所參考和借鑒。在Koch和Itti模型的基礎(chǔ)上,也出現(xiàn)了很多的改進(jìn)算法。Milaness[8]等學(xué)者提出了特征顯著圖的理念并利用中心一周邊差分算法四進(jìn)行特征的提取,自底向上的注意模型原理是從輸入圖像提取多方面的特征,如圖片顏色、朝向、亮度等,并形成各個(gè)特征維度上的顯著圖,再對(duì)所得顯著圖進(jìn)行分析和融合得到感興趣圖。但是,視覺搜索的許多模型建議將目標(biāo)定義為特征的結(jié)合時(shí),搜索主要基于自頂向下的處理。如果目標(biāo)是由一種顏色和一種方向(例如,紅色和垂直)定義的,而干擾項(xiàng)是由這些目標(biāo)特征之一與另一種特征(例如,紅色和水平或紅色和垂直)的組合定義的,那么就不能依靠自底向上特征圖的輸出來引導(dǎo)人們注意目標(biāo)[9]。大概需要自頂向下的搜索策略,因?yàn)槊總€(gè)位置至少包含目標(biāo)的一項(xiàng)特征,并且因?yàn)闆]有一個(gè)區(qū)域在特征上是唯一的[10]。Folk等人假設(shè)觀察者可以將他們的搜索限制在一個(gè)特定的特征值上,并且能夠覆蓋來自缺乏該特征值的任何元素的干擾[11]。因此,對(duì)刺激事件的關(guān)注取決于該事件是否具有對(duì)當(dāng)前任務(wù)至關(guān)重要的特征屬性。自頂向下的模型通常是基于任務(wù)或目的的,自主性較強(qiáng),而且自頂向下往往與自底向上的機(jī)制結(jié)合在一起。比如,Itti等人將視覺注意建模成一個(gè)自頂向下的優(yōu)化問題[7]。通過將目標(biāo)顯著性和干擾噪聲之間的信噪比最大化,來學(xué)習(xí)特征融合時(shí)的權(quán)重值,而不是通過常用的特征融合函數(shù)來融合的。簡(jiǎn)而言之,自底向上的模型認(rèn)為,初始選擇不依賴于觀察者的意志,主要由元素的顯著性來驅(qū)動(dòng),而自頂向下的注意力模型則認(rèn)為,觀察者主要是根據(jù)某種目的來選擇目標(biāo)的。1.3圖像中的顯著目標(biāo)檢測(cè)顯著性檢測(cè)在計(jì)算機(jī)視覺中得到了廣泛的研究,其顯著性模型一般可分為視覺注意預(yù)測(cè)和顯著目標(biāo)檢測(cè)[12]。視覺注意預(yù)測(cè)試圖預(yù)測(cè)人類觀察者可能注視的場(chǎng)景位置,而顯著目標(biāo)檢測(cè)旨在提取圖像或視頻中的視覺上顯著的目標(biāo)。根據(jù)顯著性模型的輸入,將顯著性模型進(jìn)一步分為靜態(tài)模型和動(dòng)態(tài)模型?;陲@著性的目標(biāo)檢測(cè)算法研究最初從靜態(tài)圖像入手。1998年,Itti等人[7]首次提出了基于生物特征的Itti模型,但是,Itti模型只從局部特征中檢測(cè)圖像的顯著性,而沒有考慮全局特征,導(dǎo)致只在輪廓附近有高的顯著值,從而不能均勻地突出整個(gè)目標(biāo),導(dǎo)致提取不準(zhǔn)確。李彥勝[13]等人提出了一種基于區(qū)域?qū)Ρ鹊娜謱?duì)比分析方法。其中,直方圖對(duì)比度算法的顯著性圖具有良好的細(xì)節(jié),區(qū)域?qū)Ρ人惴ㄍㄟ^空間增強(qiáng)生成高質(zhì)量的顯著性圖。然而,這兩種算法的計(jì)算效率相對(duì)較低,不適合檢測(cè)場(chǎng)景復(fù)雜的目標(biāo)。徐春,章曉輝[14]等人利用譜殘差理論對(duì)輸入圖像進(jìn)行二維離散傅里葉變換,將圖像從空間域變換到頻域,然后通過對(duì)圖像振幅取對(duì)數(shù)得到對(duì)數(shù)譜。鄭南寧[15]認(rèn)為在Lab顏色空間上計(jì)算兩幅圖像對(duì)應(yīng)的顏色差異,得到顯著區(qū)域圖,因此,對(duì)于顏色差別較小的場(chǎng)景圖像,該方法不適用。這些算法利用背景先驗(yàn)原理計(jì)算顯著性圖,能夠準(zhǔn)確地突出顯著性目標(biāo),得到清晰的顯著圖。它們的缺點(diǎn)是對(duì)位于圖像邊界的突出物體的位置不敏感。1.4視頻顯著目標(biāo)檢測(cè)由于運(yùn)動(dòng)信息的缺乏,圖像顯著目標(biāo)檢測(cè)的方法不能直接應(yīng)用于視頻中。Guo[16]等人在基于譜殘差(SpectrumResidualApproach,SR)算法的基礎(chǔ)上,放棄了圖像的幅值譜,僅利用相位譜和運(yùn)動(dòng)特征將圖像擴(kuò)展到四維,然后通過四元傅里葉變換及其逆變換得到顯著性圖。然而,該方法沒有考慮顯著區(qū)域的時(shí)空一致性,因此在連續(xù)幀中,同一區(qū)域的顯著值可能會(huì)發(fā)生顯著變化。為了增強(qiáng)時(shí)空一致性,Kim[17]等人通過計(jì)算多尺度框架下的紋理對(duì)比度來測(cè)量時(shí)空顯著性圖,并通過加權(quán)融合時(shí)空顯著性圖得到顯著性目標(biāo)。Bao[18]等人將視頻視為三維數(shù)據(jù),提出了三維剪切波變換的方法。對(duì)視頻進(jìn)行分解和重構(gòu),得到多尺度特征塊,對(duì)于每個(gè)特征塊,將視頻的連續(xù)特征圖作為一個(gè)整體,計(jì)算全局對(duì)比度,得到顯著性圖。最后,通過對(duì)不同層次的顯著性圖進(jìn)行線性融合,得到每個(gè)視頻幀的顯著性圖。Zhou[19]等人提出了一種利用多尺度時(shí)空顯著性從高幀率視頻中獲取低幀率視頻的算法。其基本思想是在每個(gè)尺度上應(yīng)用流媒體分割,使用顏色、前景、光流等一系列低層次特征進(jìn)行基于區(qū)域的對(duì)比分析,輔助中心位置和速度等局部先驗(yàn),通過融合對(duì)比度和局部先驗(yàn),得到細(xì)化的顯著性圖。為了提高視頻顯著目標(biāo)檢測(cè)算法的時(shí)間一致性,Wang[20]等人提出了一種基于局部梯度流優(yōu)化和全局細(xì)化的視頻顯著性檢測(cè)方法。全局細(xì)化通過引入局部和全局顯著性線索,提高了顯著性圖的時(shí)空相干性,但也存在著顯著性物體不均勻、孔洞、背景噪聲等問題。隨后,Liu[21]等人提出了一種基于超像素的視頻顯著性檢測(cè)方法,將視頻幀分割成超像素,然后在超像素級(jí)計(jì)算視頻幀的時(shí)間顯著性和空間顯著性,最后通過像素級(jí)顯著性推導(dǎo)和自適應(yīng)融合方法得到像素級(jí)的時(shí)空顯著性圖。上面的方法使用了優(yōu)化模型和傳統(tǒng)的手工算法。近年來,隨著深度學(xué)習(xí)的迅速發(fā)展,提出了許多著名的視頻顯著性檢測(cè)的深度學(xué)習(xí)模型。Long等人[22]在端到端全卷積網(wǎng)絡(luò)中直接生成像素級(jí)的顯著性圖。Wang等人[23]提出了一種將局部估計(jì)和全局搜索相結(jié)合,結(jié)合區(qū)域建議和深度特征的顯著性檢測(cè)算法。Zhao等人[24]提出了一種多上下文深度學(xué)習(xí)框架。將基于超像素的圖像塊輸入到CNN中,提取其對(duì)應(yīng)的深度特征,完成顯著性檢測(cè)。Wang等人[25]提出了一種深度視頻顯著性網(wǎng)絡(luò),該網(wǎng)絡(luò)由兩個(gè)模塊組成,用來捕獲空間和時(shí)間顯著性信息,該方法無需耗時(shí)的光流計(jì)算,直接生成時(shí)空顯著性圖。以上深度學(xué)習(xí)方法可以幫助突出學(xué)習(xí)的有效性和高效性。相信隨著時(shí)間的推移,會(huì)有更多基于深度學(xué)習(xí)的一流顯著性模型被提出。2研究述評(píng)眾所周知交叉研究領(lǐng)域生物視覺神經(jīng)機(jī)制作為涉及認(rèn)知心理學(xué)、圖像處理、計(jì)算機(jī)視覺等方向的一直深受研究人員的青睞,為研究人員提供了算法設(shè)計(jì)的靈感,也為計(jì)算機(jī)視覺、圖像處理等提供了不少成功的算法模型。盡管生物視覺的計(jì)算模型己被公認(rèn)為有助于計(jì)算機(jī)視覺算法的設(shè)計(jì),但對(duì)計(jì)算機(jī)視覺研究者來說,從生物視覺文獻(xiàn)中挖掘相關(guān)信息并非易事。同時(shí),雖然現(xiàn)有的關(guān)于視覺顯著性檢測(cè)的模型數(shù)不勝數(shù),但是基于生物視覺機(jī)理的方法卻十分有限。本文基于生物視覺的研究成果,將生物視覺機(jī)制引入到視頻的顯著性檢測(cè)任務(wù)中,希望能為視頻的顯著性檢測(cè)提供一些理論參考。參考文獻(xiàn)[1]AmuntsK,LindnerA,ZillesK,etal.Thehumanbrainproject:NeuroscienceperspectivesandGermancontributions[J].E-neuroforum,2014,5(2):43-50.[2]PooM,DuJ,IpNY,etal.Chinabrainproject:Basicneuroscience,braindiseases,andbrain-inspiredcomputing[J].Neuron,2016,92(3):591-596.[3]程悅.百度開放“百度大腦”平臺(tái)[J].華東科技,2016(10):12.[4]國(guó)務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》[N].人民日?qǐng)?bào),2017-07-21(1).[5]BargmannCI,NewsomeWT.Thebrainresearchthroughadvancinginnovativeneurotechnolo-gies(BRAIN)initiativeandneurology[J].JAMANeurology,2014,71(6):675-676.[6]N.Kanwisher,E.Wojciulik.Visualattention:insightsfrombrainimaging[J].NatureReviewsNeuroscience,2000,1,(2):91-100[7]L.Itti,C.Koch.Computationalmodellingofvisualattention[J].NatureReviewsNeuroscience,2001,2,(3):194-203[8]H.J.Seo,P.Milanfar.Staticandspace-timevisualsaliencydetectionbyself-resemblance[J].JVis,9,(12):15-15[9]馮思琴.基于時(shí)空特征的視覺顯著性檢測(cè)方法研究[D].重慶郵電大學(xué),2019[10]J.J.Bengson,YLiu,N.Khodayari,etal.Gatingbyinhibitionduringtop-downcontrolofwilledattention[J].CognitiveNeuroence,2020,11,(1-2):60-70[11]R.Weidner,J.Krummenacher,B.Reimann,etal.SourcesofTop-DownControlinVisualSearch[J].JournalofCognitiveNeuroscience,21,(11):2100-2113[12]VNavalpakkam.AnIntegratedModelofTop-DownandBottom-UpAttentionforOptimizingDetectionSpeed[J].ProcCvprJun,2006,2,(2):2049-2056[13]李彥勝.生物視覺感知啟發(fā)下的目標(biāo)檢測(cè)與識(shí)別技術(shù)研究[D].武漢:華中科技大學(xué),2015.[14]徐春,章曉輝.學(xué)習(xí)和記憶的突觸模型:長(zhǎng)時(shí)程突觸可塑性[J].自然雜志,2009,31(3):136-141.[15]鄭南寧.類腦計(jì)算的問題與視覺認(rèn)知[C]//中國(guó)自動(dòng)化學(xué)會(huì).2015年中國(guó)自動(dòng)化大會(huì)摘要集,2015:1.[16]C.Guo,M.Qi,L.Zhang.Spatio-temporalSaliencydetectionusingphasespectrumofquaternionfouriertransform[C].2008IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition(CVPR2008),24-26June2008,Anchorage,Alaska,USA,2008[17]WonjunKim,ChangickKim.SpatiotemporalSaliencyDetectionUsingTexturalContrastandItsApplications[J].IEEETransactionsonCircuits&SystemsforVideoTechnology,24,(4):646-659[18]L.Bao,X.Zhang,Y.Zheng,etal.Videosaliencydetectionusing3Dshearlettransform[J].MultimediaTools&Applications,75,(13):7761-7778[19]Z.Feng,S.B.Kang,M.F.Cohen.Time-MappingUsingSpace-TimeSaliency[C].2014IEEEConferenceonComputerVisionandPatternRecognition(CVPR),2014[20]W.Wang,J.Shen,L.Shao.ConsistentVideoSaliencyUsingLocalGradientFlowOptimizationandGlobalRefinement[J].IEEETransactionsonImageProcessing,24,(11):4185-4196[21]L.Zhi,Z.Xiang,S.Luo,etal.Superpixel-BasedSpatiotemporalSaliencyDetection[J].IEEETransactionsonCircuits&SystemsforVideoTechnology,2014,24,(9):1522-1540[22]J.Long,E.Shelhamer,T.Darrell.FullyConvolutionalNetwork
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 文明乘車安全
- 2025年國(guó)網(wǎng)冀北電力有限公司招聘高校畢業(yè)生540人(第一批)筆試參考題庫(kù)附帶答案詳解
- 倉(cāng)儲(chǔ)管理員-高級(jí)工試題庫(kù)及答案
- 人教版高中地理選擇性必修1第一章教學(xué)活動(dòng)點(diǎn)撥課件
- 2024陜西漢中市西鄉(xiāng)縣鄉(xiāng)村振興投資發(fā)展有限公司招聘7人筆試參考題庫(kù)附帶答案詳解
- 住宿和餐飲人才培養(yǎng)與職業(yè)發(fā)展路徑的銜接策略
- 超聲年終工作總結(jié)2025
- 網(wǎng)絡(luò)扶貧面試試題及答案
- 2024年湖南高速養(yǎng)護(hù)工程有限公司第四批招聘18人筆試參考題庫(kù)附帶答案詳解
- 初中生英語(yǔ)課堂環(huán)境感知、學(xué)習(xí)策略與學(xué)業(yè)成績(jī)的關(guān)系及干預(yù)研究
- 2024-2030年中國(guó)公路勘察設(shè)計(jì)行業(yè)市場(chǎng)深度調(diào)研及競(jìng)爭(zhēng)格局與發(fā)展趨勢(shì)研究分析報(bào)告
- 報(bào)價(jià)單完整版本
- JT-T-794-2019道路運(yùn)輸車輛衛(wèi)星定位系統(tǒng)車載終端技術(shù)要求
- 【課件】勃蘭登堡協(xié)奏曲Ⅱ+課件高一上學(xué)期音樂人音版(2019)必修音樂鑒賞
- G -B- 5009.11-2024 食品安全國(guó)家標(biāo)準(zhǔn) 食品中總砷及無機(jī)砷的測(cè)定(正式版)
- 小學(xué)四年級(jí)小數(shù)單位換算練習(xí)題100道
- ISO9001:2015供應(yīng)商審核檢查表英文版
- 2024年湖南生物機(jī)電職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及答案解析
- 苗木供貨服務(wù)計(jì)劃方案
- GB/T 28210-2024熱敏紙
- 《諫逐客書》課后練習(xí) 統(tǒng)編版高中語(yǔ)文必修下冊(cè)
評(píng)論
0/150
提交評(píng)論