計(jì)算機(jī)視覺(jué) 課件全套 ch1-8人類視覺(jué)系統(tǒng)及其建模- 多目標(biāo)跟蹤算法_第1頁(yè)
計(jì)算機(jī)視覺(jué) 課件全套 ch1-8人類視覺(jué)系統(tǒng)及其建模- 多目標(biāo)跟蹤算法_第2頁(yè)
計(jì)算機(jī)視覺(jué) 課件全套 ch1-8人類視覺(jué)系統(tǒng)及其建模- 多目標(biāo)跟蹤算法_第3頁(yè)
計(jì)算機(jī)視覺(jué) 課件全套 ch1-8人類視覺(jué)系統(tǒng)及其建模- 多目標(biāo)跟蹤算法_第4頁(yè)
計(jì)算機(jī)視覺(jué) 課件全套 ch1-8人類視覺(jué)系統(tǒng)及其建模- 多目標(biāo)跟蹤算法_第5頁(yè)
已閱讀5頁(yè),還剩348頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人類視覺(jué)系統(tǒng)及其建模工業(yè)和信息化部“十二五”規(guī)劃教材計(jì)算機(jī)視覺(jué)第一章01人類視覺(jué)系統(tǒng)概述計(jì)算機(jī)視覺(jué)的研究對(duì)象之一是如何利用二維投影圖像恢復(fù)三維景物世界,其基本目的可以歸結(jié)為從單幅或多幅二維投影圖像(或視頻序列)計(jì)算出觀察點(diǎn)和目標(biāo)對(duì)象之間的空間位置關(guān)系及目標(biāo)對(duì)象的物理屬性。例如,包括目標(biāo)對(duì)象與觀察點(diǎn)的距離(即深度信息)、目標(biāo)對(duì)象的運(yùn)動(dòng)特性和表面物理特性等。計(jì)算機(jī)視覺(jué)最終的目標(biāo)就是實(shí)現(xiàn)計(jì)算機(jī)對(duì)于客觀世界的理解,從而使得計(jì)算機(jī)可實(shí)現(xiàn)人類視覺(jué)系統(tǒng)的某些功能。人類視覺(jué)系統(tǒng)概述人類視覺(jué)系統(tǒng)是一個(gè)非常復(fù)雜的系統(tǒng),至今還沒(méi)有被完全地理解,而且大多數(shù)的人類視覺(jué)系統(tǒng)視覺(jué)特性不是憑直覺(jué)獲知的。人類視覺(jué)系統(tǒng)是人們理解和認(rèn)知自然世界的關(guān)鍵工具,是揭示大腦秘密的一個(gè)突破點(diǎn)。所以,了解人類視覺(jué)系統(tǒng)的生理結(jié)構(gòu),分析信息在大腦中的傳遞過(guò)程和形成處理過(guò)程是研究計(jì)算機(jī)視覺(jué)的必要前提。深入研究人類視覺(jué)系統(tǒng)對(duì)視覺(jué)刺激的處理機(jī)制,合理地利用這種人眼視覺(jué)特性,才有可能在更高層次上研究真正意義的計(jì)算機(jī)視覺(jué)算法和系統(tǒng)。人類視覺(jué)系統(tǒng)概述正因?yàn)槿绱耍攀沟媚X科學(xué)成為目前研究界的熱點(diǎn)。在大腦接收來(lái)自外部世界的大量信息中,絕大部分是通過(guò)視覺(jué)系統(tǒng)進(jìn)行加工處理的。視覺(jué)信息加工機(jī)制是心理學(xué)、神經(jīng)科學(xué)、計(jì)算機(jī)科學(xué)等學(xué)科研究的重大課題之一。人類視覺(jué)系統(tǒng)概述人類的視覺(jué)系統(tǒng)是目前已知的功能最完備、機(jī)制最復(fù)雜的信息加工系統(tǒng)之一,對(duì)它的研究無(wú)疑對(duì)了解人類自身信息加工的能力和機(jī)理,對(duì)理解大腦中所表達(dá)的信息和外部物質(zhì)世界的關(guān)系等問(wèn)題具有重大的意義。此外,計(jì)算機(jī)科學(xué)的發(fā)展突飛猛進(jìn),創(chuàng)造具有人類大腦那樣的智能計(jì)算機(jī)是研究者最大的期望之一。人類視覺(jué)系統(tǒng)概述為使這一期望成為現(xiàn)實(shí),首先就要使計(jì)算機(jī)具有大腦那樣處理大量復(fù)雜信息(特別是視覺(jué)信息)的能力。這個(gè)重大課題雖然經(jīng)過(guò)計(jì)算機(jī)科學(xué)家們幾十年的努力但仍未得到解決,其中最重要的原因之一就是迄今為止我們?nèi)匀粵](méi)有透徹了解人類視覺(jué)系統(tǒng)的工作機(jī)制。人類視覺(jué)系統(tǒng)概述不過(guò),隨著腦科學(xué)的蓬勃發(fā)展,人類對(duì)自身視覺(jué)系統(tǒng)的研究逐步深入,從初級(jí)視覺(jué)皮層到高級(jí)視覺(jué)區(qū)域,從視覺(jué)感知到高級(jí)視知覺(jué)機(jī)理等,都取得了許多重要的研究成果?,F(xiàn)代腦科學(xué)和神經(jīng)科學(xué)的發(fā)展使得我們得以更進(jìn)一步地了解人類視覺(jué)系統(tǒng)的構(gòu)造以及功能。人類視覺(jué)系統(tǒng)概述視覺(jué)生理學(xué)研究已經(jīng)表明,視覺(jué)信息處理過(guò)程包括4個(gè)方面:光學(xué)處理、視網(wǎng)膜處理、外側(cè)膝狀體(LGN)處理和視覺(jué)皮層處理,其原理圖如圖1.1所示。人類視覺(jué)系統(tǒng)概述光學(xué)處理是通過(guò)眼睛完成的,眼睛的感光系統(tǒng)如圖1.2所示。人類視覺(jué)系統(tǒng)概述通過(guò)視網(wǎng)膜,光信號(hào)被編碼為電壓脈沖,再以調(diào)頻形式傳遞給LGN。LGN作為信號(hào)從視網(wǎng)膜到視覺(jué)皮層的傳輸站,同時(shí)對(duì)控制信息數(shù)量起著重要作用。最后,視覺(jué)皮層實(shí)現(xiàn)了對(duì)物體的識(shí)別、感知與理解的過(guò)程。人類視覺(jué)系統(tǒng)概述LGN是視覺(jué)信息的中轉(zhuǎn)站,視輻射可由LGN中含有的第3級(jí)神經(jīng)元組成,最后將這些神經(jīng)纖維投射到視覺(jué)皮層中。視覺(jué)傳導(dǎo)神經(jīng)通路如圖1.3所示。人類視覺(jué)系統(tǒng)概述02人眼基本視覺(jué)特性在人類對(duì)人腦的研究過(guò)程中發(fā)現(xiàn)了人眼具有很多視覺(jué)特性,而注意選擇機(jī)制是其中尤為重要的特性,近年來(lái)深度學(xué)習(xí)的發(fā)展遇到一定的瓶頸,而其中的注意選擇機(jī)制則異軍突起,為深度學(xué)習(xí)打開了一個(gè)廣闊的空間。人眼基本視覺(jué)特性色彩空間色彩是指人眼能根據(jù)光的不同頻率而產(chǎn)生的不同感受。人眼能夠識(shí)別色彩的原因是因?yàn)橛心軌蛭展獾牟煌ㄩL(zhǎng)范圍的三種視錐細(xì)胞,而這三種視錐細(xì)胞能辨別紅色、綠色和藍(lán)色這三種顏色。我們知道把紅色、綠色和藍(lán)色搭配在一起可以生成不同色彩的顏色,這就是一個(gè)色彩空間,如RGB。人眼基本視覺(jué)特性另外,色彩空間可以有多種,例如,使用色相、飽和度與明度來(lái)呈現(xiàn)一個(gè)色彩空間,這種方法被命名為HSI色彩空間。不同的色彩空間對(duì)應(yīng)不同的應(yīng)用,因此我們可以根據(jù)需要選擇使用不同的色彩空間,它們之間也可以相互轉(zhuǎn)化。一般情況下,色彩空間覆蓋了自然界中絕大部分的顏色空間,這種空間一般稱為色域。而根據(jù)人類視覺(jué)特性設(shè)計(jì)出來(lái)的色彩空間(如RGB空間)是,假定自然界中的顏色都可以被RGB三種顏色表達(dá)出來(lái)。人眼基本視覺(jué)特性視覺(jué)生理學(xué)和心理學(xué)實(shí)驗(yàn)顯示,視覺(jué)皮層中的神經(jīng)元被認(rèn)為類似一個(gè)有方向的帶通濾波器,能夠在不同頻率和方向上進(jìn)行分解。視覺(jué)系統(tǒng)中包含了能夠處理空間頻率的單元,也稱通道。多通道特性人眼基本視覺(jué)特性亮度自適應(yīng)人的視覺(jué)系統(tǒng)對(duì)光的適應(yīng)范圍是很寬的,大致范圍約為10-2~106cd/m2。在背景照明不變的情況下,人的視覺(jué)的感光范圍很窄,它可以根據(jù)光的強(qiáng)度來(lái)適當(dāng)調(diào)節(jié)。當(dāng)人眼適應(yīng)某個(gè)環(huán)境亮度后,人的視覺(jué)會(huì)產(chǎn)生一個(gè)變動(dòng),隨之調(diào)節(jié)到一個(gè)較小的范圍,這就是亮度適應(yīng)現(xiàn)象。人眼基本視覺(jué)特性當(dāng)人的視覺(jué)在適應(yīng)背景照明不變的情況下,人眼能感知到對(duì)黑白色彩的范圍縮小了。因此當(dāng)圖像重現(xiàn)時(shí),即使圖像重現(xiàn)的亮度與原本的實(shí)際景物的亮度不同,也能夠保持重現(xiàn)圖像和原本的實(shí)際圖像之間亮度的相對(duì)比值,人們就能感覺(jué)到同樣的真實(shí)感覺(jué)。人眼基本視覺(jué)特性歸一化后的對(duì)比度敏感度函數(shù)如圖1.4所示。人眼基本視覺(jué)特性對(duì)比度敏感度函數(shù)在對(duì)CSF的研究過(guò)程中,為了使問(wèn)題簡(jiǎn)化,假設(shè)視覺(jué)激勵(lì)信號(hào)是一個(gè)常量或單一的頻率信號(hào)。在觀看圖像時(shí),很多激勵(lì)信號(hào)會(huì)對(duì)人眼產(chǎn)生作用,此時(shí)人眼對(duì)一個(gè)激勵(lì)的響應(yīng)不僅受激勵(lì)信號(hào)本身影響,而且同一時(shí)刻也會(huì)與其他激勵(lì)信號(hào)的影響有關(guān)。視覺(jué)掩蔽效應(yīng)人眼基本視覺(jué)特性03立體視覺(jué)的形成過(guò)程生理立體視覺(jué)是由人眼的晶狀體調(diào)節(jié)、運(yùn)動(dòng)視差、雙眼會(huì)聚、雙眼視差和融合圖像等因素構(gòu)成的立體視覺(jué)。人眼的晶狀體調(diào)節(jié)是指外界圖像在視網(wǎng)膜上成像的過(guò)程,它是根據(jù)睫狀體的收縮和放松完成這個(gè)過(guò)程的。立體視覺(jué)系統(tǒng)的生理特性立體視覺(jué)的形成過(guò)程人的雙眼是分開的,雙眼瞳孔間的水平距離約為6.5cm,如圖1.5所示。立體視覺(jué)的形成過(guò)程當(dāng)我們集中注意一個(gè)物體時(shí),雙眼就會(huì)將視線同時(shí)聚于該物體,此時(shí)物體就會(huì)在兩眼中視網(wǎng)膜上的相應(yīng)位置成像。但由于雙眼間的差異,兩個(gè)眼睛中接收的圖像會(huì)有略微的差異,這種差異就稱為視差。同樣一個(gè)物體,當(dāng)我們只用左眼觀看和只用右眼觀看時(shí),會(huì)發(fā)現(xiàn)物體轉(zhuǎn)動(dòng)一定角度并向旁邊移動(dòng)了一些。立體視覺(jué)的形成過(guò)程當(dāng)觀察目標(biāo)物體時(shí),眼球內(nèi)轉(zhuǎn)使雙眼視軸交匯于注視目標(biāo),這個(gè)過(guò)程稱為會(huì)聚,如圖1.6所示。立體視覺(jué)的形成過(guò)程如圖1.7所示,相對(duì)視差是α-β,絕對(duì)視差是α、β。立體視覺(jué)的形成過(guò)程立體視覺(jué)系統(tǒng)的心理特性視覺(jué)經(jīng)驗(yàn)和視覺(jué)記憶是心理立體視覺(jué)的體現(xiàn)。當(dāng)人們觀察一張彩色照片時(shí),可以根據(jù)照片的內(nèi)容來(lái)判斷物體及人物間的距離關(guān)系。這種在人類長(zhǎng)期面對(duì)自然景物觀看時(shí)產(chǎn)生的記憶和經(jīng)驗(yàn),使得觀察者能夠從一幅圖像中提取出物體間的相對(duì)深度,這個(gè)判別通常是十分準(zhǔn)確的。立體視覺(jué)的形成過(guò)程陰影是光的直線傳播導(dǎo)致的,物體離光源越近的地方就越亮,反之則越暗,這種亮度的分布是一種心理深度的暗示。當(dāng)物體投射出陰影且在運(yùn)動(dòng)時(shí),實(shí)際效果看起來(lái)好像是物體離開了頁(yè)面,并在頁(yè)面上顯示出該對(duì)象的陰影。立體視覺(jué)的形成過(guò)程圖像在人眼中呈現(xiàn)的立體形態(tài),看似很簡(jiǎn)單,其實(shí)蘊(yùn)藏著復(fù)雜的原理,景物在視網(wǎng)膜上的成像是二維的,但是人腦能整合出原來(lái)不存在的三維信息。這就充分說(shuō)明二維信息中隱含的深度信息被解讀出來(lái)了,通常人們可以通過(guò)生理和心理的深度線索來(lái)感知深度感或立體感。立體視覺(jué)生理特性與心理特性的關(guān)系立體視覺(jué)的形成過(guò)程04JND模型與顯著性模型JND模型為了能在實(shí)際的計(jì)算機(jī)視覺(jué)系統(tǒng)中利用人類視覺(jué)系統(tǒng)的特性,就要求有定量的模型來(lái)模擬人類視覺(jué)系統(tǒng)。JND(JustNoticeableDistortion)模型就是一個(gè)用來(lái)衡量人類視覺(jué)系統(tǒng)對(duì)定量變化的敏感程度的度量。它表示在一定條件下,人類視覺(jué)對(duì)觀察對(duì)象出現(xiàn)變化所能容忍的最大程度的變化量,若對(duì)象(如圖像)或者視頻的變化超過(guò)這個(gè)值,則人類視覺(jué)系統(tǒng)能察覺(jué)到其變化。JND模型與顯著性模型01020304指人眼對(duì)不同頻率進(jìn)行光柵分解后得到正弦波的敏感程度。頻率掩蔽因子指在連續(xù)背景下對(duì)噪聲監(jiān)測(cè)閾值的衡量。亮度調(diào)節(jié)因子指在一種信號(hào)集中區(qū)域中對(duì)另一種信號(hào)進(jìn)行檢測(cè)的能力。差異掩蔽因子指衡量人眼對(duì)處于某個(gè)運(yùn)動(dòng)狀態(tài)的物體的噪聲的察覺(jué)閾值。時(shí)域掩蔽因子JND模型與顯著性模型這是一個(gè)更符合實(shí)際情況的模型,如圖1.8所示。JND模型與顯著性模型在頻率掩蔽模型上,他認(rèn)為并不是頻帶越低,人眼就越對(duì)這個(gè)頻帶敏感,而是一個(gè)倒“U”形的曲線,如圖1.9所示。JND模型與顯著性模型改進(jìn)的模型依靠Canny算子來(lái)計(jì)算邊界,并依靠每塊中含有的平均邊界信息來(lái)對(duì)塊進(jìn)行分類,這樣就使得該模型具有了較好的擴(kuò)展性,如圖1.10所示。JND模型與顯著性模型Ngan和Nill等提出的由人類視覺(jué)系統(tǒng)模型產(chǎn)生的空間CSF曲線如圖1.11所示。JND模型與顯著性模型關(guān)于差異掩蔽因子Fgatnst的計(jì)算。基于塊分類的差異掩蔽效應(yīng),在這里我們?cè)谝曨l圖像的亮度成分上利用Canny算子對(duì)塊進(jìn)行分類。Canny邊緣檢測(cè)算子是JohnF.Canny于1986年開發(fā)出來(lái)的一個(gè)多級(jí)邊緣檢測(cè)算法。眾所周知,Canny算子是一個(gè)非常典型的邊緣檢測(cè)算子,具有很好的邊緣檢測(cè)性能。對(duì)于給定的圖像,它能夠精確地檢測(cè)到邊緣像素點(diǎn)。JND模型與顯著性模型圖1.12顯示的就是通過(guò)Canny算子檢測(cè)出來(lái)的city_4cif視頻序列中第一個(gè)視頻幀的邊緣。JND模型與顯著性模型我們可以把塊劃分為三類:平面塊(Plane)。邊緣塊(Edge)。紋理塊(Texture)。JND模型與顯著性模型圖像的邊緣信息對(duì)視覺(jué)很重要,特別是邊緣的位置信息。人眼容易感覺(jué)到邊緣的位置變化,而對(duì)于邊緣的灰度誤差,人眼并不敏感。人們通常對(duì)平面區(qū)和邊緣區(qū)的失真比較敏感,所以應(yīng)該保護(hù)在平面塊和邊緣塊中的信息。而對(duì)于紋理塊,人眼對(duì)低頻失真的敏感度不如高頻失真敏感,如紋理塊的塊效應(yīng),所以紋理塊的高頻信息需得到更多保護(hù)。JND模型與顯著性模型DWT域的JND模型與DCT變換比較,DWT具有更好的頻率劃分和能量集中特性,其良好的時(shí)頻分解特性更符合人類視覺(jué)系統(tǒng)的特點(diǎn)。在DWT域內(nèi),不僅要考慮頻帶、亮度及紋理對(duì)JND的影響,而且即使是在相同頻帶上,人眼對(duì)不同方向的噪聲的敏感程度也不一樣,故在計(jì)算頻率敏感程度時(shí),還必須綜合考慮頻帶、方向等因素對(duì)人類視覺(jué)系統(tǒng)的影響。JND模型與顯著性模型顯著區(qū)域是指在圖像中能提取出圖像的重要內(nèi)容的區(qū)域,可以理解為人眼在觀察圖像時(shí),最先注意圖像的區(qū)域。實(shí)際測(cè)試用一般采用眼動(dòng)儀來(lái)進(jìn)行測(cè)試,而實(shí)際測(cè)試算法一般根據(jù)人眼的視覺(jué)特性和圖像的特性來(lái)進(jìn)行仿真。顯著性模型JND模型與顯著性模型因此一般根據(jù)圖像在頻域中的特性來(lái)提取。根據(jù)信息論的觀點(diǎn),圖像信息能被分解為兩部分:新穎部分和先驗(yàn)部分。不同的圖像在頻譜對(duì)數(shù)曲線中有共同的曲線趨勢(shì),頻譜上的冗余部分為圖像的新穎部分,由此來(lái)構(gòu)造圖像的顯著區(qū)域。JND模型與顯著性模型05本章小結(jié)計(jì)算機(jī)視覺(jué)研究?jī)?nèi)容廣泛,但其最后的評(píng)價(jià)標(biāo)準(zhǔn)一般均呈現(xiàn)給用戶來(lái)評(píng)判,因此所有計(jì)算機(jī)視覺(jué)系統(tǒng)均與人類視覺(jué)系統(tǒng)密切相關(guān)。人類視覺(jué)系統(tǒng)的理解和建模對(duì)計(jì)算機(jī)視覺(jué)系統(tǒng)的設(shè)計(jì)和評(píng)判至關(guān)重要。本章小結(jié)本章首先介紹了人類視覺(jué)系統(tǒng)(HVS)及人眼視覺(jué)特性,然后詳細(xì)介紹了立體視覺(jué)的形成過(guò)程,分析了立體視覺(jué)的生理特性和心理特性,最后介紹了計(jì)算機(jī)視覺(jué)中采用的JND模型和顯著性模型,并對(duì)其計(jì)算模型進(jìn)行了分析。本章小結(jié)謝謝觀看圖像邊緣、角點(diǎn)檢測(cè)工業(yè)和信息化部“十二五”規(guī)劃教材計(jì)算機(jī)視覺(jué)第二章01圖像底層計(jì)算機(jī)視覺(jué)的主要研究對(duì)象為圖像處理,實(shí)際上可以簡(jiǎn)而言之為從單幅或多幅二維投影圖像(或視頻序列)中計(jì)算出視覺(jué)所需要的客觀參數(shù)。因此圖像處理可以認(rèn)為是計(jì)算機(jī)視覺(jué)的基礎(chǔ)。圖像圖2.1中顯示的是一幅故宮的圖像及其局部放大后的圖像。圖像從圖2.2可以明顯看出,圖像具有局部平滑的特性。圖像02灰度位圖圖像和彩色位圖圖像一般出版物為了降低成本,都采用灰度圖像,也就是沒(méi)有彩色的圖像。那么,這種灰度圖像屬于8位圖像,還是24位圖像呢?具體在計(jì)算機(jī)中是如何表示的呢?這些問(wèn)題參考位圖的結(jié)構(gòu),如圖2.4所示。灰度位圖圖像和彩色位圖圖像Windows規(guī)定一個(gè)掃描行所占的字節(jié)數(shù)必須是4的倍數(shù),若不足4的倍數(shù)則要對(duì)其進(jìn)行擴(kuò)充。一般程序中,BMP文件的數(shù)據(jù)是從圖像的左下角開始逐行掃描圖像的,即從下到上、從左到右來(lái)安排圖像的像素值,因此圖像坐標(biāo)零點(diǎn)在圖像左下角?;叶任粓D圖像和彩色位圖圖像03GIF圖像格式和JPEG壓縮在Windows平臺(tái)上,位圖是使用最廣泛的圖像格式。其他各種文件格式,如GIF、JPEG、TIFF和PNG等,在顯示時(shí)都轉(zhuǎn)換為BMP后再進(jìn)行顯示。對(duì)于視頻也遵循這種流程,視頻每幀圖像解碼后稱為YUV亮度/色度分量形式,然后轉(zhuǎn)換為BMP格式的數(shù)據(jù)進(jìn)行顯示。GIF圖像格式和JPEG壓縮GIF圖像GIF(GraphicsInterchangeFormat)圖像的擴(kuò)展名采用“.gif",由CompuServe公司開發(fā),用于屏顯和網(wǎng)絡(luò)。它包括87a和89a兩種格式,其中87a描述單一(靜止)圖像,89a描述多幀圖像,通常在GIF動(dòng)畫中使用。它最具特色的特點(diǎn)為其色彩模式,支持28(256色)種顏色。GIF圖像格式和JPEG壓縮因此,在處理GIF圖像時(shí),顏色的數(shù)目往往都是256種,有時(shí)在計(jì)算機(jī)視覺(jué)處理中,若沒(méi)有注意則會(huì)造成意外結(jié)果。而將其他圖像保存為GIF圖像時(shí),需要對(duì)顏色進(jìn)行量化處理,近些年提出了很多相關(guān)的顏色量化算法,比較典型而直觀的量化算法就是聚類的算法,通過(guò)將類別數(shù)目定義為256即可采用通用的聚類算法進(jìn)行計(jì)算。GIF圖像格式和JPEG壓縮圖像JPEG壓縮流程如圖2.5所示。GIF圖像格式和JPEG壓縮根據(jù)人類視覺(jué)的特性和信息論的觀點(diǎn),其中將RGB圖像轉(zhuǎn)換為YCbCr圖像利用了人類視覺(jué)對(duì)亮度信息敏感,而針對(duì)色度信息不敏感的特點(diǎn),可以進(jìn)一步對(duì)色度分量進(jìn)行下采樣以降低數(shù)據(jù)量。GIF圖像格式和JPEG壓縮下面我們看一下JPEG壓縮的具體流程。首先若原始圖像是RGB圖像,則轉(zhuǎn)換為YCbCr圖像,對(duì)YCbCr兩個(gè)色度分量進(jìn)行下采樣,然后進(jìn)行8×8的塊劃分,如圖2.6所示。GIF圖像格式和JPEG壓縮然后按照從上到下、從左到右的順序分別對(duì)每個(gè)塊做處理,如圖2.7所示,將從圖中取出的8×8塊表示成f(x,y)的矩陣形式。GIF圖像格式和JPEG壓縮04圖像邊緣及其檢測(cè)從概念上來(lái)看,邊緣一般指像素值發(fā)生突變的區(qū)域,但由于數(shù)字圖像成像過(guò)程中無(wú)法形成理想的突變狀態(tài),因此一般在圖像中很少出現(xiàn)突變的邊緣,而是有一個(gè)漸變的過(guò)程。邊緣類型圖像邊緣及其檢測(cè)一般在圖像處理中,有4種邊緣類型,當(dāng)然這4種類型也可以上下翻轉(zhuǎn),分別對(duì)應(yīng)階梯狀、斜坡狀、脈沖狀和屋頂狀4種邊緣類型,如圖2.19所示。圖像邊緣及其檢測(cè)在濾波處理階段,實(shí)際上是對(duì)圖像進(jìn)行濾波處理。在差分處理階段,通過(guò)利用邊緣的特性采取一階和二階差分來(lái)獲取邊緣區(qū)域。在差分階段沿梯度方向計(jì)算其一階方向?qū)?shù),然后在檢測(cè)階段,通過(guò)檢測(cè)上一步導(dǎo)數(shù)輸出的峰值來(lái)定位邊緣點(diǎn)。圖像邊緣及其檢測(cè)邊緣檢測(cè)的三個(gè)階段濾波操作及雙邊濾波器在信號(hào)處理中,濾波與預(yù)測(cè)是緊密相關(guān)的概念,實(shí)質(zhì)上就是對(duì)輸入的數(shù)據(jù)進(jìn)行處理,然后產(chǎn)生輸出。若輸入的數(shù)據(jù)為以前的數(shù)據(jù),而產(chǎn)生的數(shù)據(jù)為未來(lái)的數(shù)據(jù),則稱為預(yù)測(cè);若產(chǎn)生的數(shù)據(jù)只是對(duì)當(dāng)前數(shù)據(jù)的校正,則稱為濾波。圖像邊緣及其檢測(cè)當(dāng)u從0到N-1變化時(shí),對(duì)應(yīng)從低頻到高頻變化,其頻譜圖如圖2.20所示。圖像邊緣及其檢測(cè)眾所周知,連續(xù)函數(shù)的導(dǎo)數(shù)在離散情況下采用差分來(lái)近似。這從連續(xù)函數(shù)的導(dǎo)數(shù)定義:差分操作圖像邊緣及其檢測(cè)圖像邊緣及其檢測(cè)邊緣檢測(cè)操作2.4.5節(jié)直接利用梯度幅度進(jìn)行閾值化操作來(lái)檢測(cè)邊緣,但并未用到梯度的方向信息。梯度方向表示函數(shù)值增加的方向,因此若函數(shù)值在某個(gè)方向上沒(méi)有任何變化,則其梯度值為0。非極大值抑制操作圖像邊緣及其檢測(cè)圖2.23的每列像素值都一樣,每行像素值分別從0~255均勻變化。圖像邊緣及其檢測(cè)幾種典型的邊緣檢測(cè)算子在真實(shí)邊緣檢測(cè)算子中,為了避免噪聲的干擾,一般先對(duì)圖像進(jìn)行平滑等預(yù)處理,然后再采用上述的檢測(cè)過(guò)程進(jìn)行檢測(cè)。應(yīng)用最為廣泛的邊緣檢測(cè)算子之一就是JohnCanny在1986年提出的Canny算子,它與Marr邊緣檢測(cè)方法類似,也屬于先平滑后求導(dǎo)數(shù)的方法。其次采用連續(xù)的函數(shù)來(lái)逼近圖像的局部區(qū)域,然后利用連續(xù)函數(shù)的偏導(dǎo)數(shù)來(lái)獲取其不連續(xù)點(diǎn),典型的方式為Haralick算子。第三類就是LoG算子,實(shí)際上相當(dāng)于對(duì)圖像進(jìn)行不同尺度下的平滑操作,然后在對(duì)其求差,從而凸顯邊緣操作。圖像邊緣及其檢測(cè)05圖像角點(diǎn)檢測(cè)底層視覺(jué)的重要任務(wù)之一就是提取圖像中的各種特征,為后續(xù)視覺(jué)處理任務(wù)提供支撐。而除邊緣外,角點(diǎn)為另外一個(gè)常用的重要特征,并且角點(diǎn)對(duì)幾何變換具有較好的魯棒性,因此在計(jì)算機(jī)視覺(jué)任務(wù)中扮演著重要的角色。圖像角點(diǎn)檢測(cè)圖像角點(diǎn)檢測(cè)圖像角點(diǎn)檢測(cè)基本原理及Harris角點(diǎn)檢測(cè)以下面比較極端的圖像為例,從中取出三個(gè)小區(qū)域進(jìn)行角點(diǎn)檢測(cè),如圖2.26所示。圖中的白色框作為一個(gè)滑動(dòng)窗口,若對(duì)該窗口內(nèi)的像素值做求和操作,則右邊最上面的滑動(dòng)窗口無(wú)論往哪個(gè)方向做小量滑動(dòng),其值都不會(huì)發(fā)生任何變化。而右邊中間的窗口則不一樣,若該窗口水平方向滑動(dòng),則其值不會(huì)發(fā)生變化;而若該窗口上下滑動(dòng),則其值會(huì)發(fā)生變化。右邊最下面的窗口無(wú)論如何滑動(dòng)窗口都會(huì)造成值發(fā)生變化。圖像角點(diǎn)檢測(cè)若對(duì)應(yīng)平坦區(qū)域,則表明行列式的值會(huì)很小,此時(shí)對(duì)應(yīng)兩個(gè)特征值都比較小,近似為0,如圖2.27所示。圖像角點(diǎn)檢測(cè)FAST角點(diǎn)檢測(cè)直觀上,角點(diǎn)處的像素值肯定與周圍鄰域的像素值有較大的差別,這種差別的模式是可以確定的,因此需要考慮圖2.29中的中心像素與其周邊像素的差值,若其周邊與當(dāng)前點(diǎn)像素值差值大的點(diǎn)足夠多,則當(dāng)前點(diǎn)很可能是角點(diǎn)。圖像角點(diǎn)檢測(cè)例如,圖2.29中當(dāng)前點(diǎn)的半徑為3的圓周上的點(diǎn),若有連續(xù)12個(gè)點(diǎn)的像素值與當(dāng)前點(diǎn)的像素值差大于某個(gè)閾值,則可認(rèn)為是角點(diǎn)。圖像角點(diǎn)檢測(cè)06形狀檢測(cè)實(shí)際上,這些幾何形狀的檢測(cè)往往在先前獲得的邊緣圖像上進(jìn)行,而由于在邊緣檢測(cè)中,噪聲往往會(huì)使檢測(cè)出來(lái)的邊緣不連續(xù),因此出現(xiàn)了幾何形狀,但是形狀不連續(xù)。如何將這些具有標(biāo)準(zhǔn)幾何形狀的邊緣點(diǎn)連接成標(biāo)準(zhǔn)的形狀呢?標(biāo)準(zhǔn)Hough變換及圓形Hough變換形狀檢測(cè)形狀檢測(cè)廣義Hough變換廣義Hough變換原理如圖2.32所示。三種常見Hough變換的區(qū)別目前,常見的Hough變換分為三種,分別是標(biāo)準(zhǔn)的Hough變換(SHT)、廣義的Hough變換(GHT)和隨機(jī)的Hough變換(RHT)。SHT和GHT顯然都是一對(duì)多的映射,即每個(gè)邊緣像素點(diǎn)對(duì)參數(shù)空間矩陣的很多位置都有貢獻(xiàn)。形狀檢測(cè)從可處理的圖像類型來(lái)看,三種變換都可以處理二值圖像,但只有GHT可以處理灰度圖像。從檢測(cè)的目標(biāo)來(lái)看,三種變換都可以檢測(cè)圓和參數(shù)型形狀,但SHT和RHT不能檢測(cè)任意形狀的目標(biāo)而GHT可以。并且SHT和RHT可以檢測(cè)直線,而GHT不能檢測(cè)直線。從檢測(cè)速度來(lái)看,RHT最快速,SHT和GHT都比較慢。形狀檢測(cè)07直線段檢測(cè)但是其效率較低,并且容易受紋理和噪聲的影響,具有以下兩個(gè)缺陷:第一,這樣的處理忽略了邊緣點(diǎn)的方向性,前面圓形Hough變換中就利用曲率信息來(lái)提高效率;第二,閾值的選取非常困難。直線段檢測(cè)這樣將圖像劃分成線支撐區(qū)域,每個(gè)區(qū)域中的聯(lián)通像素具有類似的梯度角度。然后,按照直線段的特征來(lái)擬合每個(gè)線支撐區(qū)域,直線圖特征可用圖2.34表示。直線段檢測(cè)08本章小結(jié)計(jì)算機(jī)視覺(jué)的研究?jī)?nèi)容廣泛,其分類標(biāo)準(zhǔn)頗多。但無(wú)論如何,底層計(jì)算機(jī)視覺(jué)主要是圖像處理及其相關(guān)技術(shù)。從中獲取各種底層的特征,后續(xù)的計(jì)算機(jī)任務(wù)基于提取的特征來(lái)進(jìn)一步進(jìn)行對(duì)象表達(dá)和理解,也就是高層的計(jì)算機(jī)視覺(jué)任務(wù),如在圖像匹配、圖像檢索、目標(biāo)識(shí)別、目標(biāo)跟蹤和場(chǎng)景識(shí)別等處理中有著廣泛的應(yīng)用。本章小結(jié)本章首先介紹了基本的圖像處理知識(shí),然后重點(diǎn)介紹了邊緣和角點(diǎn)檢測(cè)這兩種常見的特征,就其中典型的邊緣提取算子、角點(diǎn)檢測(cè)算子進(jìn)行了比較詳細(xì)的介紹。此外,對(duì)典型的基于Hough變換的形狀檢測(cè)及LSD直線段檢測(cè)算法進(jìn)行了介紹,這些方法在計(jì)算機(jī)視覺(jué)領(lǐng)域有著廣泛的應(yīng)用。本章小結(jié)謝謝觀看圖像形成與相機(jī)幾何工業(yè)和信息化部“十二五”規(guī)劃教材計(jì)算機(jī)視覺(jué)第三章01引言色度學(xué)在第1章中已經(jīng)提到,人眼視網(wǎng)膜上主要存在視桿和視錐兩類細(xì)胞,并分別負(fù)責(zé)暗視覺(jué)與明視覺(jué)情況下的視覺(jué)感知。其中視桿細(xì)胞約有1.3億個(gè),它的光敏感程度比視錐細(xì)胞敏感1000倍,并且對(duì)綠色波譜部分最敏感,會(huì)產(chǎn)生相對(duì)模糊的圖像,純粹的視桿視覺(jué)稱為暗視覺(jué)。引言視桿細(xì)胞對(duì)不同波譜的響應(yīng)與三種視錐細(xì)胞對(duì)波譜的吸收特性如圖3.2所示。引言計(jì)算機(jī)視覺(jué)中的圖像和視頻之所以有顏色,主要是因?yàn)槿搜鄣募t、綠、藍(lán)三種視錐細(xì)胞傳輸過(guò)來(lái)的信號(hào)。根據(jù)這三種顏色與視錐細(xì)胞之間的對(duì)應(yīng)關(guān)系來(lái)建立三基色。三色視覺(jué)原理引言02圖像的形成傳統(tǒng)鏡頭的光路如圖3.6所示,顯然,物體與鏡頭的距離影響其成像的大小。圖像的形成取景透鏡抗混疊濾波器數(shù)字圖像最終用像素表示,那么這些像素是怎么得出來(lái)的呢?實(shí)際上,通過(guò)對(duì)取景透鏡形成的像進(jìn)行采樣來(lái)獲得最終的圖像。因此在矩形成像傳感器上,會(huì)對(duì)傳感器進(jìn)行行和列的均勻劃分。圖像的形成在計(jì)算機(jī)視覺(jué)中,主要的成像都采用可見光成像。成像中采用硅傳感器,但其對(duì)光的敏感度與人類視覺(jué)系統(tǒng)對(duì)光的敏感度并不一樣,其最大的差別出現(xiàn)在近紅外譜段。為了解決這個(gè)問(wèn)題,在數(shù)字?jǐn)z像設(shè)備光路中引入紅外截止濾波器來(lái)減小紅外譜段的影響。紅外截止濾波器和保護(hù)玻璃圖像的形成前面在介紹抗混疊濾波器時(shí)提到,像素的填充因子一般小于1,從而允許非感光成分存在。這相當(dāng)于減小感光區(qū)域的面積,可以采用微透鏡來(lái)減小這種損失,如圖3.12所示。圖像的形成圖像傳感器03齊次坐標(biāo)在齊次坐標(biāo)系中,歐幾里得平面中的點(diǎn)成為射影空間中從原點(diǎn)出發(fā)的射線。射線上的每個(gè)點(diǎn)都對(duì)應(yīng)不同的z值。歐幾里得平面中直線的齊次坐標(biāo)定義了射影空間中兩條射線間的平面。當(dāng)兩條直線在歐幾里得空間中相交時(shí),定義兩條通過(guò)歐幾里得平面中交點(diǎn)的射線。齊次坐標(biāo)04小孔成像小孔成像是最常見的線性成像模型,如圖3.20所示。小孔成像注意,圖3.20中若以投影中心為坐標(biāo)原點(diǎn)建立坐標(biāo)系,則像素坐標(biāo)會(huì)出現(xiàn)負(fù)值。為了方便使用,小孔成像模型可以等價(jià)轉(zhuǎn)換為圖3.21的形式。小孔成像05圖像坐標(biāo)系、相機(jī)坐標(biāo)系和世界坐標(biāo)系圖像坐標(biāo)系如圖3.22所示,以圖像左下角為原點(diǎn)建立以像素為單位的直角坐標(biāo)系u-v。像素的橫坐標(biāo)u和縱坐標(biāo)v分別對(duì)應(yīng)圖像所在的列和行。圖像坐標(biāo)系、相機(jī)坐標(biāo)系和世界坐標(biāo)系圖像坐標(biāo)系根據(jù)前面的小孔成像原理,將相機(jī)坐標(biāo)系用世界坐標(biāo)系的框架來(lái)進(jìn)行設(shè)置,點(diǎn)O為相機(jī)光心,即投影中心。OXCYCZC所形成的直角坐標(biāo)系為相機(jī)坐標(biāo)系,ZC為相機(jī)主光軸,它與像平面O1XY垂直,OO1為相機(jī)的焦距。相機(jī)坐標(biāo)系圖像坐標(biāo)系、相機(jī)坐標(biāo)系和世界坐標(biāo)系世界坐標(biāo)系它主要用來(lái)描述相機(jī)的位置,通過(guò)旋轉(zhuǎn)和平移關(guān)系(用平移和旋轉(zhuǎn)矩陣表示)可以將世界坐標(biāo)系中的點(diǎn)轉(zhuǎn)換成相機(jī)坐標(biāo)系中的點(diǎn),然后通過(guò)小孔成像原理,獲得相機(jī)坐標(biāo)系到圖像坐標(biāo)系OXY的轉(zhuǎn)換,最后通過(guò)圖像坐標(biāo)系OXY到圖像坐標(biāo)系OUV的轉(zhuǎn)換來(lái)最終完成世界坐標(biāo)系中點(diǎn)坐標(biāo)到圖像像素坐標(biāo)的轉(zhuǎn)換,從而完成成像過(guò)程。圖像坐標(biāo)系、相機(jī)坐標(biāo)系和世界坐標(biāo)系06坐標(biāo)平移、伸縮和旋轉(zhuǎn)坐標(biāo)平移考慮目標(biāo)上的一點(diǎn)P,其坐標(biāo)為(X1,Y1,Z1)。假設(shè)該目標(biāo)在x軸、Y軸、Z軸方向上分別平移dx,dy,dz,則新的坐標(biāo)點(diǎn)P'的坐標(biāo)(X2,Y2,Z2)可以表示為坐標(biāo)平移、伸縮和旋轉(zhuǎn)若考慮目標(biāo)上的一點(diǎn)P,其坐標(biāo)為(X1,Y1,Z1)。假設(shè)該目標(biāo)在x軸、Y軸、Z軸方向上分別伸縮SX,SY,SZ,則新的坐標(biāo)點(diǎn)P'的坐標(biāo)(X2,Y2,Z2)可以表示為坐標(biāo)伸縮坐標(biāo)平移、伸縮和旋轉(zhuǎn)其幾何關(guān)系如圖3.24所示。坐標(biāo)平移、伸縮和旋轉(zhuǎn)坐標(biāo)旋轉(zhuǎn)實(shí)際上,任意一個(gè)非零的向量x繞某個(gè)向量旋轉(zhuǎn)都可以分解為分別繞單一坐標(biāo)軸旋轉(zhuǎn)的形式,從而在三維情況下可以寫成類似上述三個(gè)旋轉(zhuǎn)矩陣乘積的形式。進(jìn)一步推導(dǎo),可以獲得空間中任意向量繞任意軸旋轉(zhuǎn)的旋轉(zhuǎn)矩陣表示方法。繞任意軸旋轉(zhuǎn)的矩陣表示坐標(biāo)平移、伸縮和旋轉(zhuǎn)假設(shè)繞向量n旋轉(zhuǎn)向量v,其旋轉(zhuǎn)角為θ(如圖3.27所示)。坐標(biāo)平移、伸縮和旋轉(zhuǎn)羅德里格斯公式四元數(shù)四元數(shù)于1843年由Hamilton發(fā)明,一個(gè)四元數(shù)表示為Q=q0+iq1+jq2+kq3,Q=(q0q)。其中,q是標(biāo)量,q0稱為四元數(shù)Q的實(shí)部,而q是一個(gè)三維向量,稱為四元數(shù)Q的虛部。其中,ii=jj=kk=ijk=-1,jk=-kj=i,ij=-ji=k,ki=-ik=j。坐標(biāo)平移、伸縮和旋轉(zhuǎn)顯然,在知道旋轉(zhuǎn)角和旋轉(zhuǎn)主軸后,可以通過(guò)上節(jié)的公式來(lái)獲得旋轉(zhuǎn)矩陣,但其中的計(jì)算量相對(duì)較大。實(shí)際上,一旦獲得旋轉(zhuǎn)角和旋轉(zhuǎn)主軸,則有更簡(jiǎn)單的方法來(lái)進(jìn)行旋轉(zhuǎn)計(jì)算,這會(huì)在下一節(jié)介紹。旋轉(zhuǎn)矩陣與旋轉(zhuǎn)角的關(guān)系坐標(biāo)平移、伸縮和旋轉(zhuǎn)從上面的描述可以看出,在空間中的運(yùn)動(dòng)實(shí)際上對(duì)應(yīng)某個(gè)矩陣。三維空間中的矩陣則對(duì)應(yīng)三維空間中的運(yùn)動(dòng)。從根本上說(shuō),所有的空間都可以容納運(yùn)動(dòng),并且可以通過(guò)矩陣的形式來(lái)表示。矩陣與運(yùn)動(dòng)的對(duì)應(yīng)關(guān)系坐標(biāo)平移、伸縮和旋轉(zhuǎn)世界坐標(biāo)系到圖像坐標(biāo)系的變換在計(jì)算機(jī)視覺(jué)中,現(xiàn)實(shí)世界的物體經(jīng)過(guò)成像過(guò)程后,形成最終的二維圖像,這樣完成了從現(xiàn)實(shí)世界坐標(biāo)系到圖像坐標(biāo)系的轉(zhuǎn)換,這個(gè)過(guò)程實(shí)際上可以通過(guò)數(shù)學(xué)變換來(lái)表示。坐標(biāo)平移、伸縮和旋轉(zhuǎn)透視相機(jī)模型實(shí)際上,成像矩陣P為3×4的矩陣,一共有12個(gè)參數(shù)。根據(jù)齊次坐標(biāo)的定義,在其轉(zhuǎn)換為笛卡兒坐標(biāo)后,最后一維消失,因此只有11個(gè)獨(dú)立參數(shù),這11個(gè)獨(dú)立參數(shù)定義了成像系統(tǒng)的所有參數(shù)。坐標(biāo)平移、伸縮和旋轉(zhuǎn)07相機(jī)標(biāo)定相機(jī)模型將世界坐標(biāo)系中的物體坐標(biāo)映射為像平面上以像素為單位的點(diǎn)坐標(biāo)。若已知相機(jī)的所有內(nèi)部參數(shù)和外部參數(shù),則相當(dāng)于成像矩陣P確定,故輸入物體的實(shí)際坐標(biāo)就可以獲得圖像坐標(biāo)。若相機(jī)的內(nèi)部參數(shù)和外部參數(shù)已知,則在相機(jī)成像過(guò)程中,是否可以根據(jù)矩陣和圖像上點(diǎn)的坐標(biāo)來(lái)逆向估算該點(diǎn)對(duì)應(yīng)的世界坐標(biāo)呢?相機(jī)標(biāo)定實(shí)際上,由于3×4的成像矩陣P不可逆,此時(shí)只能得到兩個(gè)線性方程,即只能確定空間坐標(biāo)點(diǎn)必定在通過(guò)投影中心與像點(diǎn)延長(zhǎng)線的射線上,因此不能唯一確定空間點(diǎn)的世界坐標(biāo)。但若該世界坐標(biāo)點(diǎn)同時(shí)在不同的成像系統(tǒng)里均有像點(diǎn),則這時(shí)根據(jù)立體視覺(jué)成像原理,可以通過(guò)投影中心與像點(diǎn)延長(zhǎng)線相交的方法來(lái)確定世界坐標(biāo)。相機(jī)標(biāo)定主要有枕形畸變和桶形畸變,如圖3.31所示。相機(jī)標(biāo)定相機(jī)畸變首先準(zhǔn)備標(biāo)準(zhǔn)的標(biāo)定圖片,常見的標(biāo)定圖片一般使用標(biāo)定板,如圖3.32所示。相機(jī)標(biāo)定相機(jī)標(biāo)定08相機(jī)位置和方向在對(duì)相機(jī)進(jìn)行標(biāo)定的過(guò)程中,可以根據(jù)點(diǎn)對(duì)來(lái)求取相機(jī)的成像矩陣。而根據(jù)成像矩陣可以反過(guò)來(lái)確定相機(jī)的位置。例如,給定一幅由未知相機(jī)在未知場(chǎng)景下拍攝的圖像,我們?nèi)绾蝸?lái)確定相機(jī)的位置和方向?以及圖像本身是如何被剪切或伸縮處理的?相機(jī)位置和方向相機(jī)方向即為像平面的方向,如圖3.34所示。相機(jī)位置和方向09姿態(tài)估計(jì)姿態(tài)估計(jì)就是確定目標(biāo)(相機(jī))的方向和位置,進(jìn)而在給定的條件下,將三維坐標(biāo)投影到圖像上的像素點(diǎn)位置。姿態(tài)估計(jì)的一個(gè)重要應(yīng)用就是基于模型的目標(biāo)識(shí)別。在基于二維模型到三維模型的目標(biāo)識(shí)別中,給定目標(biāo)的三維模型和其二維投影,目的就是確定相對(duì)于某個(gè)基準(zhǔn)坐標(biāo)系的三個(gè)旋轉(zhuǎn)參數(shù)和三個(gè)平移參數(shù)。姿態(tài)估計(jì)10本章小結(jié)本章重點(diǎn)探討了圖像的形成過(guò)程。介紹了齊次坐標(biāo)、小孔成像和坐標(biāo)的平移、旋轉(zhuǎn)與伸縮表示,以及在此基礎(chǔ)上如何將世界坐標(biāo)系中的點(diǎn)映射到像空間的詳細(xì)過(guò)程,由此形成了成像矩陣。本章小結(jié)介紹了在相機(jī)參數(shù)未知的情況下,若根據(jù)世界坐標(biāo)系中的特征與像空間特征的對(duì)應(yīng)特性來(lái)求解相機(jī)參數(shù),則在獲取相機(jī)參數(shù)的情況下如何進(jìn)行相機(jī)位置和方向的估計(jì),以及根據(jù)圖像和三維模型如何來(lái)確定模型的正確姿態(tài)等問(wèn)題。本章小結(jié)謝謝觀看從圖像序列中估計(jì)2D和3D運(yùn)動(dòng)工業(yè)和信息化部“十二五”規(guī)劃教材計(jì)算機(jī)視覺(jué)第四章01運(yùn)動(dòng)場(chǎng)與光流場(chǎng)Gibson于1950年首先提出光流場(chǎng)的概念。運(yùn)動(dòng)可以用運(yùn)動(dòng)場(chǎng)來(lái)描述,反映真實(shí)世界的3D運(yùn)動(dòng),光流場(chǎng)是運(yùn)動(dòng)場(chǎng)在2D圖像上的投影,它攜帶了有關(guān)物體運(yùn)動(dòng)和物體結(jié)構(gòu)的豐富信息。研究光流場(chǎng)的目的是從序列圖像中近似計(jì)算出不能直接得到的運(yùn)動(dòng)場(chǎng)。運(yùn)動(dòng)場(chǎng)與光流場(chǎng)所謂光流場(chǎng)是指圖像中灰度模式的表面運(yùn)動(dòng),它是物點(diǎn)的3D速度矢量在成像平面上的投影,它表示了物點(diǎn)在圖像中位置的瞬間變化。心理學(xué)與神經(jīng)生理學(xué)的大量實(shí)驗(yàn)表明,光流場(chǎng)的概念對(duì)認(rèn)識(shí)人和動(dòng)物的視覺(jué)感知機(jī)制原理具有重要意義。運(yùn)動(dòng)場(chǎng)與光流場(chǎng)在某個(gè)特定時(shí)刻,圖像中像點(diǎn)對(duì)應(yīng)于目標(biāo)表面上的物點(diǎn),如圖4.1所示。運(yùn)動(dòng)場(chǎng)與光流場(chǎng)如圖4.2所示,光源不動(dòng)且物體表面均一,同時(shí)物體產(chǎn)生了自轉(zhuǎn)運(yùn)動(dòng),卻并沒(méi)有產(chǎn)生光流場(chǎng);物體并沒(méi)有運(yùn)動(dòng),但是光源與物體發(fā)生相對(duì)運(yùn)動(dòng),卻有光流場(chǎng)產(chǎn)生。運(yùn)動(dòng)場(chǎng)與光流場(chǎng)光流場(chǎng)包含了目標(biāo)的重要信息(即光流信息)。光流信息可以用來(lái)檢測(cè)圖像序列中的運(yùn)動(dòng)目標(biāo),以及恢復(fù)目標(biāo)的3D結(jié)構(gòu)信息及目標(biāo)與相機(jī)之間的相對(duì)運(yùn)動(dòng)。同時(shí)可以利用光流場(chǎng)的不連續(xù)性對(duì)圖像進(jìn)行分割,光流場(chǎng)還可以用在機(jī)器人、自動(dòng)導(dǎo)航和智能系統(tǒng)中。運(yùn)動(dòng)場(chǎng)與光流場(chǎng)光流算法的核心就是求解運(yùn)動(dòng)目標(biāo)的光流,即速度。根據(jù)視覺(jué)感知原理,客觀物體在空間上一般是相對(duì)連續(xù)運(yùn)動(dòng)的,在運(yùn)動(dòng)過(guò)程中,投射到傳感器平面上的圖像實(shí)際上也是連續(xù)變化的。為此可以假設(shè):瞬時(shí)灰度值不變(即灰度不變性原理)。由此可以得到光流基本方程,灰度對(duì)時(shí)間的變化率等于灰度的空間梯度與光流速度的點(diǎn)積。運(yùn)動(dòng)場(chǎng)與光流場(chǎng)02光流計(jì)算光流場(chǎng)可看成帶有灰度的像素點(diǎn)在圖像平面上運(yùn)動(dòng)而產(chǎn)生的瞬時(shí)速度場(chǎng),Hor和Schunck假設(shè)圖像區(qū)域函數(shù)在時(shí)間和空間上都是連續(xù)且可導(dǎo)的,這是光流計(jì)算中的一個(gè)重要約束條件。光流方程光流計(jì)算若令u和v分別為2D坐標(biāo)的橫軸和縱軸,則光流約束方程對(duì)應(yīng)一條直線,所有滿足該方程的V的值都在這條直線上,如圖4.3所示。光流計(jì)算經(jīng)典光流算法通過(guò)光流方程我們可以看出,光流約束方程只有1個(gè),但方程中有2個(gè)未知數(shù),因此僅使用光流約束方程并不能確定圖像光流場(chǎng),還需要引入其他約束條件。當(dāng)引入不同的約束條件時(shí),就會(huì)產(chǎn)生不同的光流算法。目前較為常用的光流算法主要有:基于梯度的光流算法、基于匹配的光流算法、基于頻域的光流算法和基于相位的光流算法。光流計(jì)算其中最常用的是基于梯度的光流算法,該算法也稱微分法,主要根據(jù)圖像灰度的梯度函數(shù)得到圖像中每個(gè)像素點(diǎn)的運(yùn)動(dòng)矢量,基于梯度的光流算法已得到廣泛應(yīng)用。本節(jié)主要介紹基于梯度的光流算法中兩種經(jīng)典的光流算法:Horn-Schunck算法和Lucas-Kanada算法。光流計(jì)算Horn-Schunck算法Horn-Schunck算法是在假設(shè)光流強(qiáng)度不變的條件下,引入全局光流平滑約束假設(shè)。Lucas-Kanada算法Lucas-Kanada算法即L-K算法最初于1981年提出,該算法假設(shè)在一個(gè)小的空間鄰域內(nèi)運(yùn)動(dòng)矢量保持恒定,使用加權(quán)最小二乘法估計(jì)光流。光流計(jì)算亮度恒定不變。目標(biāo)像素在不同幀間運(yùn)動(dòng)時(shí)外觀上是保持不變的,對(duì)于灰度圖像,假設(shè)在整個(gè)被跟蹤期間,像素亮度不變。時(shí)間連續(xù)或者運(yùn)動(dòng)是“小運(yùn)動(dòng)”。圖像運(yùn)動(dòng)相對(duì)于時(shí)間變化來(lái)說(shuō)比較緩慢,在實(shí)際應(yīng)用中指時(shí)間變化相對(duì)圖像中運(yùn)動(dòng)比例要足夠小,這樣目標(biāo)在相鄰幀間的運(yùn)動(dòng)幅度就比較小。空間一致。同一個(gè)場(chǎng)景中的同一個(gè)表面上的鄰近點(diǎn)運(yùn)動(dòng)情況相似,且這些點(diǎn)在圖像上的投影也在鄰近區(qū)域。光流計(jì)算光流算法在多個(gè)相同目標(biāo)存在時(shí),依然可以跟蹤其選定目標(biāo)并進(jìn)行分析。但是光流算法本身都是在一定的假設(shè)下成立的,所以存在很多的限制條件,如圖像序列目標(biāo)的特性、場(chǎng)景中照明、光源的變化及目標(biāo)運(yùn)動(dòng)速度的影響等多種因素影響著光流算法的有效性。光流算法的改進(jìn)光流計(jì)算圖像金字塔如圖4.4所示。光流計(jì)算LKP的簡(jiǎn)化流程圖如圖4.5所示。光流計(jì)算相位法Fleet與Jepson于1990年首次提出將圖像相位應(yīng)用于光流場(chǎng)的計(jì)算中,由于相位法較傳統(tǒng)的差分法有更好的精確度與穩(wěn)定性,因此引起了部分學(xué)者的關(guān)注并隨之提出了其他的相位光流算法。彩色法在基于BCM模型進(jìn)行的光流場(chǎng)估計(jì)中,為了克服孔徑問(wèn)題,需要引入附加的約束條件。若利用彩色圖像的各顏色分量構(gòu)建光流場(chǎng)模型,則可通過(guò)豐富的色彩信息克服孔徑問(wèn)題。光流計(jì)算幾何代數(shù)域法光流場(chǎng)概念與3D場(chǎng)景在2D平面上的投影有關(guān),且光流模型涉及時(shí)空關(guān)系,因此可在幾何代數(shù)域中分析、求解光流場(chǎng)。與生物技術(shù)結(jié)合的方法計(jì)算機(jī)視覺(jué)中的光流估計(jì)技術(shù)從概念的建立、模型的構(gòu)建直至效果的評(píng)判都與生物視覺(jué)系統(tǒng)相關(guān)。其他方法除基于BCM假設(shè)建立光流場(chǎng)模型外,還可針對(duì)某些特定應(yīng)用結(jié)合特定條件建立光流場(chǎng)模型?!啊惫饬饔?jì)算03光流技術(shù)的研究難點(diǎn)及策略1.光照變化(PhotometricVariation)。2.孔徑問(wèn)題(ApertureProblem)。3.遮擋問(wèn)題(OcclusionIssue)。光流技術(shù)的研究難點(diǎn)及策略圖4.8給出了覆蓋/顯露背景示意圖。光流技術(shù)的研究難點(diǎn)及策略4.無(wú)紋理區(qū)域(TexturedRegion)。5.運(yùn)動(dòng)不連續(xù)(MotionDiseontinuity)。6.噪聲問(wèn)題(Noise Problem)。光流技術(shù)的研究難點(diǎn)及策略在前面介紹的Horn-Schunck算法中,在衡量灰度守恒殘差和平滑殘差時(shí)采用的是平方函數(shù),由于平方函數(shù)對(duì)于大殘差的懲罰很大,遠(yuǎn)大于相對(duì)于小殘差的懲罰,因此平方函數(shù)不適用在運(yùn)動(dòng)邊界、遮擋區(qū)域或者大噪聲區(qū)域這類非常不滿足灰度守恒假設(shè)和全局平滑假設(shè)的情況,這樣容易對(duì)運(yùn)動(dòng)邊界產(chǎn)生平滑效應(yīng)或受噪聲影響。魯棒的光流估計(jì)光流技術(shù)的研究難點(diǎn)及策略從最開始由灰度守恒假設(shè)所形成的欠定問(wèn)題,到為解決欠定問(wèn)題而增加其他假設(shè)所形成的方法中,我們可以看到,在光流估計(jì)中,運(yùn)動(dòng)遮擋、光照變化、陰影和噪聲對(duì)于灰度守恒假設(shè)的不滿足,以及運(yùn)動(dòng)邊界對(duì)于光流在局部區(qū)域常量假設(shè)或者全局平滑假設(shè)的不滿足,都會(huì)影響光流估計(jì)的結(jié)果。光流技術(shù)的研究難點(diǎn)及策略壓縮感知及基于稀疏模型的光流估計(jì)壓縮感知(CompressiveSensingorCompressedSampling,CS)是近些年發(fā)展很快的一個(gè)領(lǐng)域,通過(guò)發(fā)掘信號(hào)的一個(gè)非常重要的特征(稀疏性),從而提出了一個(gè)挑戰(zhàn)傳統(tǒng)奈奎斯特采樣定律的數(shù)據(jù)采集、壓縮及重構(gòu)的框架。根據(jù)壓縮感知理論,若信號(hào)存在稀疏性,則可以進(jìn)行混疊采樣,即通過(guò)遠(yuǎn)小于信號(hào)的觀測(cè)值對(duì)原信號(hào)進(jìn)行完全或高概率重構(gòu)。光流技術(shù)的研究難點(diǎn)及策略壓縮感知理論的產(chǎn)生及發(fā)展吸引了很多學(xué)者的關(guān)注,并將壓縮感知理論應(yīng)用在許多方面。Shen和Wu也將壓縮感知理論引入到光流估計(jì)領(lǐng)域中,通過(guò)發(fā)掘光流場(chǎng)的稀疏性,將待求解的光流信息在變換域的投影系數(shù)作為稀疏信號(hào),并通過(guò)灰度守恒假設(shè)構(gòu)成約束條件,建立了光流估計(jì)的稀疏模型,并通過(guò)優(yōu)化方法對(duì)光流信息進(jìn)行重構(gòu)?;谙∈枘P偷墓饬鞴烙?jì)光流技術(shù)的研究難點(diǎn)及策略光流灰度守恒信息的統(tǒng)計(jì)分析:在Lucas和Kanada及Hom和Schunck提出光流估計(jì)的局部模型和全局模型后,灰度守恒假設(shè)已經(jīng)成為光流估計(jì)中的最基本的假設(shè),為光流估計(jì)問(wèn)題提供了最基本的解決思路。但是仍存在很多問(wèn)題,其中一個(gè)就是在實(shí)際場(chǎng)景運(yùn)動(dòng)中存在灰度守恒假設(shè)不成立的情況,這會(huì)對(duì)光流估計(jì)產(chǎn)生很大影響。因此有學(xué)者提出對(duì)光流灰度守恒信息進(jìn)行分析,根據(jù)分析得到的先驗(yàn)信息進(jìn)行建模,在灰度守恒假設(shè)的基礎(chǔ)上,得到更加符合實(shí)際運(yùn)動(dòng)場(chǎng)景的灰度守恒信息的松弛形式。光流技術(shù)的研究難點(diǎn)及策略在光流估計(jì)的稀疏模型中,一個(gè)常用的稀疏變換域就是光流的梯度域,而在稀疏信號(hào)重構(gòu)的問(wèn)題中,信號(hào)的稀疏性嚴(yán)重地影響了信號(hào)重構(gòu)的質(zhì)量。并且在Horn-Schunck算法中,存在運(yùn)動(dòng)邊界不滿足全局平滑假設(shè)的情況,影響光流估計(jì)的精度。光流信息的空域統(tǒng)計(jì)分析光流技術(shù)的研究難點(diǎn)及策略043D運(yùn)動(dòng)恢復(fù)透視投影成像的幾何模型透視投影成像的幾何模型所要描述的是3D場(chǎng)景中的點(diǎn)如何與2D圖像上的點(diǎn)聯(lián)系起來(lái)的問(wèn)題。為了闡述這個(gè)問(wèn)題,我們需要對(duì)攝像機(jī)的成像原理做簡(jiǎn)單介紹。首先需要說(shuō)明的是,常用的攝像機(jī)模型有三種:透視投影模型(針孔攝像機(jī)模型)、正交投影模型和擬透視投影模型。我們這里主要針對(duì)透視投影模型進(jìn)行分析。3D運(yùn)動(dòng)恢復(fù)如圖4.9所示是理想的攝像機(jī)原理圖,它的攝像原理是透鏡成像的基本原理。3D運(yùn)動(dòng)恢復(fù)圖4.10是透視投影的幾何模型。3D運(yùn)動(dòng)恢復(fù)考慮空間運(yùn)動(dòng)物體A,在任意時(shí)刻物體上的每個(gè)點(diǎn)P的坐標(biāo)(X,Y,Z)都與瞬時(shí)速度矢量[X,Y,Z]相對(duì)應(yīng),這些瞬時(shí)速度在空間構(gòu)成矢量場(chǎng),稱為3D運(yùn)動(dòng)場(chǎng)。對(duì)于剛性物體的運(yùn)動(dòng),3D運(yùn)動(dòng)場(chǎng)可以用物體的運(yùn)動(dòng)參數(shù)精確給出。3D運(yùn)動(dòng)場(chǎng)3D運(yùn)動(dòng)恢復(fù)3D運(yùn)動(dòng)場(chǎng)到2D速度場(chǎng)的投影轉(zhuǎn)換模型2D速度場(chǎng)的確定需要借助運(yùn)動(dòng)物體的幾何信息。通常情況下,3D物體所對(duì)應(yīng)的2D圖像主要由物體的表面完全決定,所以我們只需考慮曲面的運(yùn)動(dòng)情況。由于空間普通曲面的解析表達(dá)式一般很難直接給出,有時(shí)即使能夠給出,表達(dá)式也相當(dāng)復(fù)雜,因此并不能夠從式中消掉坐標(biāo)分量z。3D運(yùn)動(dòng)恢復(fù)雖然我們目前只能分析出平面片的光流方程,對(duì)于一般的普通曲面片的2D速度場(chǎng)還沒(méi)有一個(gè)比較簡(jiǎn)單的解析表達(dá)式,但是我們知道,曲面片常??梢钥闯墒怯纱罅康男∑矫嫫唇佣傻摹?D速度場(chǎng)的局部擬合及3D運(yùn)動(dòng)參數(shù)估計(jì)3D運(yùn)動(dòng)恢復(fù)這種近似在理論上和工程實(shí)踐中都是可行的(如在計(jì)算機(jī)輔助設(shè)計(jì)中就是采用小平面片來(lái)拼接復(fù)雜曲面片的),因此我們可以把圖像上的一個(gè)足夠小的運(yùn)動(dòng)區(qū)域看成是一個(gè)小的平面片的像,用形如方程右邊的多項(xiàng)式去近似擬合這個(gè)運(yùn)動(dòng)區(qū)域的光流場(chǎng)。3D運(yùn)動(dòng)恢復(fù)1.仿射變換模型。2.平面片光流模型。3.一般二次多項(xiàng)式模型。3D運(yùn)動(dòng)恢復(fù)05本章小結(jié)光流估計(jì)是計(jì)算機(jī)視覺(jué)中的經(jīng)典問(wèn)題,在運(yùn)動(dòng)估計(jì)、運(yùn)動(dòng)分割、目標(biāo)檢測(cè)與跟蹤、行為識(shí)別等領(lǐng)域有廣泛應(yīng)用。通過(guò)式(4.3)和式(4.5)的基本推導(dǎo),得到基本的光流方程。本章小結(jié)這種2D運(yùn)動(dòng)約束方程或者稱為梯度約束方程屬于欠定方程,需要增加約束條件才能求解。傳統(tǒng)最常用算法包括Lucas-Kanada算法和Horn-Schunck算法。Lucas-Kanada算法根據(jù)局部恒常性特點(diǎn)。本章小結(jié)每個(gè)像素點(diǎn)的局部區(qū)域在前后幀之間都變化不大,因此將光流方程用于點(diǎn)的局部區(qū)域,選取一定量的點(diǎn),獲得超定方程組,采用最小二乘法或加權(quán)最小二乘法(越靠近計(jì)算點(diǎn)的權(quán)重越大)求解。本章小結(jié)謝謝觀看差分運(yùn)動(dòng)分析及基于核函數(shù)的視覺(jué)跟蹤工業(yè)和信息化部“十二五”規(guī)劃教材計(jì)算機(jī)視覺(jué)第五章01基于差分方法的光流計(jì)算HS模型最早由Horn和Schunck提出,這種模型以灰度圖像序列為研究對(duì)象,其前提是基于亮度常值和平滑性假設(shè),最終計(jì)算出圖像序列所對(duì)應(yīng)的光流場(chǎng),該模型是用變分方法進(jìn)行光流計(jì)算的經(jīng)典模型。光流通用模型基于差分方法的光流計(jì)算為了使模型能夠通過(guò)使用泰勒公式展開求解,就必須滿足一個(gè)前提,這個(gè)前提就是在處理過(guò)程中假定相鄰兩幀之間的位移小于或者等于一個(gè)像素,否則會(huì)出現(xiàn)較大的誤差,故不能得到理想的光流場(chǎng),這一點(diǎn)也正是小位移光流計(jì)算與大位移光流計(jì)算的差別所在?;诓罘址椒ǖ墓饬饔?jì)算模型數(shù)據(jù)項(xiàng)一般來(lái)說(shuō),先驗(yàn)知識(shí)的內(nèi)容中包括圖像獲取時(shí)的環(huán)境狀況,如光照變化的發(fā)生,受噪聲的影響程度及旋轉(zhuǎn)和平移運(yùn)動(dòng)等各種運(yùn)動(dòng)類型的信息。光流計(jì)算模型中數(shù)據(jù)項(xiàng)的選擇是由先驗(yàn)知識(shí)來(lái)確定的,要想獲得理想的光流場(chǎng),需要具體問(wèn)題具體分析。當(dāng)獲得目標(biāo)圖像時(shí),根據(jù)不同的情況,從常見的6種不同的光照條件和運(yùn)動(dòng)類型假設(shè)中選擇合適的數(shù)據(jù)項(xiàng)?;诓罘址椒ǖ墓饬饔?jì)算表5.1中列出了6種模型的先驗(yàn)條件假設(shè),包括光照變化和運(yùn)動(dòng)類型兩個(gè)方面,針對(duì)不同的情況總結(jié)了數(shù)據(jù)項(xiàng)的模型表達(dá)?;诓罘址椒ǖ墓饬饔?jì)算若以圖像的灰度值來(lái)表示亮度,則圖像序列的灰度值是常值。亮度常值所謂梯度常值是指物體表面的照明情況是變化的,而且物體的亮度是均勻變化的情況。梯度常值Hessian矩陣表示梯度對(duì)變量的導(dǎo)數(shù),其為常值即假設(shè)梯度的導(dǎo)數(shù)為常值。Hessian矩陣常值基于差分方法的光流計(jì)算梯度范數(shù)常值為了解決物體在運(yùn)動(dòng)過(guò)程中的方向性制約問(wèn)題,提出梯度范數(shù)常值假設(shè)。拉普拉斯算子常值假定圖像灰度的拉普拉斯算子不隨時(shí)間變化,即圖像灰度的拉普拉斯算子為常值。Hessian矩陣行列式常值Hessian矩陣行列式常值假設(shè)是表示圖像序列的Hessian矩陣行列式為常值,即不隨時(shí)間的變化而變化,故這種假設(shè)可以克服方向性的制約?!啊被诓罘址椒ǖ墓饬饔?jì)算HS模型的計(jì)算方法以亮度不隨時(shí)間變化(即圖像亮度為常值)為例,采用以下計(jì)算方法求解光流計(jì)算模型。從前期的準(zhǔn)備工作開始,先定義差分。基于差分方法的光流計(jì)算02視覺(jué)跟蹤概述自從20世紀(jì)80年代以來(lái),Horn和Schunck等人首次提出了一個(gè)新的概念光流算法,從此,學(xué)者便展開了對(duì)于視頻序列的研究。而其中的視覺(jué)目標(biāo)跟蹤由于其具有普遍的實(shí)用價(jià)值而受到廣泛關(guān)注。視覺(jué)跟蹤概述視覺(jué)跟蹤的本質(zhì)是在視頻序列(或圖像序列)中動(dòng)態(tài)確定感興趣的視覺(jué)目標(biāo)的位置。從廣義上講,視覺(jué)跟蹤就是在視頻序列中遞推搜索并確定感興趣的具有某種顯著視覺(jué)特征(如顏色、形狀、紋理、運(yùn)動(dòng)等)目標(biāo)的位置。視覺(jué)跟蹤概述單攝像機(jī)與多攝像機(jī)。攝像機(jī)的數(shù)目攝像機(jī)靜止與攝像機(jī)運(yùn)動(dòng)。攝像機(jī)是否運(yùn)動(dòng)單運(yùn)動(dòng)目標(biāo)與多運(yùn)動(dòng)目標(biāo)。根據(jù)視頻場(chǎng)景中運(yùn)動(dòng)目標(biāo)數(shù)目的多少,視覺(jué)跟蹤問(wèn)題可以被分為單目標(biāo)跟蹤和多目標(biāo)跟蹤兩類。場(chǎng)景中運(yùn)動(dòng)目標(biāo)的數(shù)目視覺(jué)跟蹤概述視覺(jué)跟蹤的分類場(chǎng)景中運(yùn)動(dòng)目標(biāo)的類型剛體與非剛體。根據(jù)視頻場(chǎng)景中運(yùn)動(dòng)目標(biāo)類型的不同,可將視覺(jué)跟蹤問(wèn)題分為對(duì)剛體(Rigid)的跟蹤和對(duì)非剛體(Non-Rigid)的跟蹤。傳感器的種類可見光圖像與紅外圖像。視覺(jué)跟蹤概述視頻目標(biāo)跟蹤算法的組成典型的視頻目標(biāo)跟蹤算法可以劃分為兩個(gè)部分:一是濾波和數(shù)據(jù)關(guān)聯(lián);二是目標(biāo)表達(dá)和定位。當(dāng)這兩部分在面向跟蹤中遇到的問(wèn)題不同時(shí),它們可以相互獨(dú)立也可以互相配合。濾波和數(shù)據(jù)關(guān)聯(lián)是一個(gè)自頂向下的過(guò)程,用于處理跟蹤目標(biāo)的動(dòng)態(tài)特性和學(xué)習(xí)先驗(yàn)知識(shí)等。視覺(jué)跟蹤概述實(shí)現(xiàn)該過(guò)程的一個(gè)常用方法來(lái)自控制理論,可簡(jiǎn)潔地描述為:利用狀態(tài)空間來(lái)表示離散時(shí)間下的動(dòng)態(tài)系統(tǒng),然后通過(guò)當(dāng)前時(shí)刻及其以前的觀察值來(lái)估計(jì)當(dāng)前系統(tǒng)的狀態(tài)。具體到跟蹤過(guò)程,在離散時(shí)間下的動(dòng)態(tài)系統(tǒng)就是指包含跟蹤目標(biāo)的每幀圖像,而系統(tǒng)的狀態(tài)指的就是目標(biāo)的幾何狀態(tài)。視覺(jué)跟蹤概述典型的算法包括卡爾曼濾波和粒子濾波等,前者適合處理帶高斯噪聲的線性函數(shù)的理想濾波器;后者更適合于非線性過(guò)程。與濾波和數(shù)據(jù)關(guān)聯(lián)不同,目標(biāo)表達(dá)和定位是一個(gè)自底向上的過(guò)程,主要解決根據(jù)目標(biāo)外觀來(lái)定位目標(biāo)的問(wèn)題,它與圖像處理與模式識(shí)別有著非常密切的關(guān)系。視覺(jué)跟蹤概述該過(guò)程通常假設(shè)相鄰兩幀間目標(biāo)的外觀或某些特征變化不大,然后通過(guò)求預(yù)先定義的相似度函數(shù)的最大值來(lái)定位目標(biāo)。典型的算法包括將物體描述為概率密度分布的核函數(shù)跟蹤(KernelBasedtracking)、檢測(cè)物體邊緣的輪廓跟蹤(Eontour-BasedTracking)及光流算法等。對(duì)某個(gè)特定的跟蹤系統(tǒng)而言,上述兩部分(即濾波和數(shù)據(jù)關(guān)聯(lián)及目標(biāo)表達(dá)和定位)可以同時(shí)出現(xiàn)也可以只出現(xiàn)其中一個(gè)。視覺(jué)跟蹤概述這兩部分以怎樣的形式和重要程度組合在一起是由算法本身要面對(duì)的問(wèn)題決定的,而是否選擇恰當(dāng)?shù)牟糠只蛘哌@兩部分是否恰當(dāng)?shù)亟Y(jié)合在一起也會(huì)反過(guò)來(lái)影響算法的效率和魯棒性。例如,對(duì)于復(fù)雜環(huán)境下的人臉跟蹤,目標(biāo)表達(dá)就更為重要;而對(duì)于航拍視頻中的目標(biāo),對(duì)運(yùn)動(dòng)本身的濾波則起著更關(guān)鍵的作用。視覺(jué)跟蹤概述03核函數(shù)跟蹤算法在眾多目標(biāo)表達(dá)和定位算法中,核函數(shù)跟蹤算法以其較低的運(yùn)算量和出色的性能吸引了大家的注意。核函數(shù)方法最早是一種非參數(shù)的概率密度估計(jì)方法,并被應(yīng)用到視頻目標(biāo)跟蹤領(lǐng)域中。該方法的核心是將待跟蹤的物體描述為一個(gè)概率密度函數(shù)(pdf)。核函數(shù)跟蹤算法核函數(shù)跟蹤算法的問(wèn)題及發(fā)展D.Comaniciu等人較完整地闡述了如何將核函數(shù)方法運(yùn)用于視頻跟蹤領(lǐng)域,他們使用并推薦使用Epanechnikov函數(shù)作為核函數(shù),構(gòu)造了以Bhattacharyya測(cè)度為基礎(chǔ)的相似度函數(shù)來(lái)定義p(y)和q之間的差異,采用均值漂移的算法得到該差異的最小值,最終得到目標(biāo)的位置y.D.Comaniciu等人提出的核函數(shù)跟蹤方法有著出色的性能。核函數(shù)跟蹤算法核函數(shù)跟蹤算法的基本假設(shè)是描述目標(biāo)的概率分布直方圖足夠用來(lái)確定目標(biāo)的當(dāng)前運(yùn)動(dòng)狀態(tài),并且不容易受到其他無(wú)關(guān)運(yùn)動(dòng)的影響而導(dǎo)致跟蹤不正確。然而,這樣的假設(shè)引出了兩個(gè)問(wèn)題,即概率分布直方圖需要滿足什么要求使得運(yùn)動(dòng)能夠被檢測(cè),以及如何跟蹤不同種類的運(yùn)動(dòng)。核函數(shù)跟蹤算法關(guān)于概率分布需要滿足什么要求的問(wèn)題,實(shí)際上就是“奇點(diǎn)”問(wèn)題。所謂奇點(diǎn)問(wèn)題是指通過(guò)觀察值(即概率分布)無(wú)法唯一確定目標(biāo)的位置或者說(shuō)關(guān)于目標(biāo)位置的解有無(wú)窮多個(gè)。GeorgeHager通過(guò)引入誤差平方和測(cè)度(SSD)及牛頓迭代詳細(xì)闡明了核函數(shù)算法的這個(gè)缺陷。他將這個(gè)缺陷的原因歸結(jié)為在牛頓迭代過(guò)程中方程系數(shù)矩陣的秩不足(RankDeficiency),并且提出了使用多核的方法來(lái)解決這個(gè)問(wèn)題。核函數(shù)跟蹤算法以往的各種算法大多采用較為精確的表達(dá)方式來(lái)描述物體,如用不變的特征點(diǎn)、用輪廓甚至直接比較像素點(diǎn)等,它們的一個(gè)基本假設(shè)就是在相鄰兩幀中,這些對(duì)物體的描述結(jié)果保持不變。目標(biāo)及候選圖像區(qū)域表達(dá)核函數(shù)跟蹤算法然而,由于這些描述方法原本就比較精確,且“相鄰兩幀的描述結(jié)果保持不變”也是一個(gè)相當(dāng)嚴(yán)格的限定條件,因此在現(xiàn)實(shí)世界中,物體的實(shí)際運(yùn)動(dòng)變化情況很難滿足這樣嚴(yán)格的雙重要求,最終導(dǎo)致跟蹤效果不盡人意。核函數(shù)跟蹤算法相似性測(cè)度Bhattacharyya系數(shù)在統(tǒng)計(jì)學(xué)中,距離測(cè)度的應(yīng)用有著悠久的歷史。兩個(gè)被廣泛使用的距離測(cè)度是Mahalanobis距離和Fisher線性判定函數(shù)。核函數(shù)跟蹤算法Bhattacharyya系數(shù)具有如下性質(zhì):(1)具有測(cè)度性質(zhì);(2)具有明顯的幾何意義;(3)對(duì)目標(biāo)的尺度變化不敏感(由量化程度決定);(4)對(duì)各種概率分布都有效,因此優(yōu)于Fisher線性準(zhǔn)則。核函數(shù)跟蹤算法為了在當(dāng)前幀找到與目標(biāo)模型最相似圖像區(qū)域的位置,式應(yīng)當(dāng)被最小化。匹配的初始位置就是上一幀目標(biāo)的中心位置。由于相似度函數(shù)是較為光滑的,因此可以用基于梯度的方法進(jìn)行尋優(yōu)處理?;贐hattacharyya系數(shù)的測(cè)度及均值漂移算法核函數(shù)跟蹤算法概率密度估計(jì)在模式識(shí)別算法中的分類算法中,都需要知道某個(gè)事件的概率密度函數(shù)值。但是在實(shí)際工作中,概率密度函數(shù)是未知的,因此我們需要根據(jù)已知的樣本,利用統(tǒng)計(jì)推斷中的估計(jì)理論做出估計(jì),然后將估計(jì)值作為真實(shí)值來(lái)用。核函數(shù)跟蹤算法主要有兩種概率密度估計(jì)的方法:參數(shù)概率密度估計(jì)和非參數(shù)概率密度估計(jì)。參數(shù)估計(jì)法是在概率密度函數(shù)形式已知且參數(shù)未知的情況下,根據(jù)樣本值的概率估計(jì)概率密度函數(shù)的參數(shù)得到概率密度函數(shù)的方法;非參數(shù)概率密度估計(jì)的方法是在概率密度函數(shù)形式和參數(shù)均未知的情況下,根據(jù)樣本的概率值估計(jì)出概率密度函數(shù)的方法。核函數(shù)跟蹤算法圖5.1形象地給出了MeanShift算法的直觀理解。核函數(shù)跟蹤算法均值漂移算法5.2中的箭頭表示樣本點(diǎn)與中心點(diǎn)的偏移向量,箭頭的長(zhǎng)度是偏移向量的大小。核函數(shù)跟蹤算法為了提高核函數(shù)跟蹤算法的收斂速度并揭示其存在的問(wèn)題,GregoryHager提出了用誤差平方和測(cè)度(SSD)代替基于Bhattacharyya系數(shù)的測(cè)度,并相應(yīng)地用牛頓迭代代替均值漂移的算法SSD算法,這種方法取得了良好的效果。誤差平方和測(cè)度及牛頓迭代核函數(shù)跟蹤算法多極值點(diǎn)問(wèn)題所謂多極值點(diǎn)是指物體模板與候選圖像區(qū)域間的差異,如誤差平方與SSD存在不止一個(gè)局部極小值點(diǎn),由此導(dǎo)致牛頓迭代或其他收斂算法的結(jié)果不準(zhǔn)確或者不唯一。其中,對(duì)應(yīng)目標(biāo)實(shí)際位置的極值點(diǎn)我們稱為真實(shí)極值點(diǎn),其他極值點(diǎn)稱為虛假極值點(diǎn)。核函數(shù)跟蹤算法若把跟蹤算法的迭代過(guò)程看成一個(gè)動(dòng)態(tài)系統(tǒng),迭代的次數(shù)看成系統(tǒng)歷經(jīng)的時(shí)間,每次的迭代結(jié)果看成系統(tǒng)每個(gè)時(shí)刻的狀態(tài),則我們可以引入吸引子和吸引盆的概念來(lái)解釋多極值點(diǎn)問(wèn)題。核函數(shù)跟蹤算法所謂吸引子是指在只考慮點(diǎn)的情況下,當(dāng)系統(tǒng)時(shí)間趨于無(wú)窮大時(shí),狀態(tài)空間上的某個(gè)集合內(nèi)的點(diǎn)都將趨于某個(gè)特定點(diǎn),該特定點(diǎn)就是吸引子;而吸引到該吸引子的點(diǎn)集就稱為該吸引子的吸引盆。對(duì)于跟蹤迭代系統(tǒng)而言,吸引子就是迭代算法最后的收斂值,而吸引盆就是使得迭代能夠收斂的初始搜索區(qū)域構(gòu)成的點(diǎn)集。核函數(shù)跟蹤算法當(dāng)系統(tǒng)(即當(dāng)前幀進(jìn)行的迭代)只存在一個(gè)該吸引子為目標(biāo)實(shí)際位置時(shí),通過(guò)在吸引盆開始迭代時(shí),我們能夠最終對(duì)目標(biāo)進(jìn)行定位。而若系統(tǒng)當(dāng)前存在多個(gè)吸引子,且對(duì)應(yīng)目標(biāo)實(shí)際位置的真實(shí)吸引子只有一個(gè),則有可能出現(xiàn)迭代收斂到其他虛假吸引子的情況,進(jìn)而導(dǎo)致多極值點(diǎn)問(wèn)題的發(fā)生。多極值點(diǎn)問(wèn)題是一個(gè)較為常見的問(wèn)題。核函數(shù)跟蹤算法由于核函數(shù)跟蹤過(guò)程以一種較為寬松的方式描述目標(biāo),信息量相對(duì)較少,對(duì)目標(biāo)的限定較少,因此當(dāng)多個(gè)物體間比較相似或者物體有一部分與背景類似時(shí),非常有可能出現(xiàn)圖像平面內(nèi)存在多個(gè)SSD測(cè)度極小值點(diǎn)的情況,導(dǎo)致目標(biāo)丟失或者誤判。核函數(shù)跟蹤算法04本章小結(jié)視覺(jué)跟蹤是目前計(jì)算機(jī)視覺(jué)領(lǐng)域研究的熱點(diǎn)問(wèn)題,同時(shí)也是難點(diǎn)問(wèn)題。目標(biāo)跟蹤算法在各領(lǐng)域有著廣泛的應(yīng)用,其在實(shí)際環(huán)境中面臨著許多外界因素的干擾和挑戰(zhàn)。本章小結(jié)具體包括以下11類難點(diǎn):部分或完全遮擋、形變、尺度變化、光照變化、運(yùn)動(dòng)模糊、快速移動(dòng)(目標(biāo)移動(dòng)多于20個(gè)像素點(diǎn))、平面內(nèi)旋轉(zhuǎn)、平面外旋轉(zhuǎn)、超出視線范圍、背景相似性干擾和低分辨率(目標(biāo)框內(nèi)少于400個(gè)像素點(diǎn))。本章小結(jié)目前運(yùn)算速度比較快的算法屬于基于相關(guān)濾波器類的算法,結(jié)合灰度特征和HOG特征,利用傅里葉變換將空域卷積轉(zhuǎn)換為變換域乘積的思想,使運(yùn)算精度和運(yùn)算速度達(dá)到了很好的均衡。本章小結(jié)謝謝觀看蒙特卡羅運(yùn)動(dòng)分析工業(yè)和信息化部“十二五”規(guī)劃教材計(jì)算機(jī)視覺(jué)第六章01跟蹤問(wèn)題的形式化表示在通常運(yùn)動(dòng)跟蹤中,Markov性是一個(gè)基本假設(shè)。它包含兩方面的內(nèi)容:一是當(dāng)前狀態(tài)只與前一時(shí)刻狀態(tài)相關(guān),而與前一時(shí)刻的過(guò)去無(wú)關(guān),二是觀測(cè)值只與對(duì)應(yīng)的狀態(tài)值有關(guān),而與其他值無(wú)關(guān)。Markov性假設(shè)跟蹤問(wèn)題的形式化表示Markov性假設(shè)如圖6.1所示。跟蹤問(wèn)題的形式化表示(1)狀態(tài)轉(zhuǎn)移模型:p(xt|xt-1),描述相鄰時(shí)刻之間的狀態(tài)轉(zhuǎn)移關(guān)系;(2)觀測(cè)模型: p(yt|xt),描述當(dāng)前時(shí)刻觀測(cè)值與狀態(tài)值之間的關(guān)系;(3)初始分布模型:p(x0),描述目標(biāo)物體在時(shí)刻0的狀態(tài)分布。跟蹤問(wèn)題的形式化表示三個(gè)基本模型推測(cè)過(guò)程在推測(cè)過(guò)程中,Bayesian后驗(yàn)概率估計(jì)的目標(biāo)分布可以統(tǒng)一表示為p(xt|Yt),而求解該目標(biāo)分布的方法包括兩步:預(yù)測(cè)和更新。在運(yùn)動(dòng)跟蹤過(guò)程中,預(yù)測(cè)的過(guò)程就是根據(jù)過(guò)去時(shí)刻的觀測(cè)值預(yù)測(cè)當(dāng)前狀態(tài)值可能的分布。跟蹤問(wèn)題的形式化表示02卡爾曼濾波與廣義卡爾曼濾波在實(shí)際應(yīng)用中,經(jīng)常要研究動(dòng)態(tài)系統(tǒng)??柭热嗽?0世紀(jì)60年代初提出了一種遞歸濾波算法,即卡爾曼濾波。卡爾曼濾波不要求保留用過(guò)的觀測(cè)數(shù)據(jù),在測(cè)得新的觀測(cè)數(shù)據(jù)后,可按照一系列遞歸公式計(jì)算出新的估計(jì)值,不必重新計(jì)算。此外,它還打破了對(duì)非動(dòng)態(tài)系統(tǒng)的限制,可用于動(dòng)態(tài)系統(tǒng)的濾波??柭鼮V波與廣義卡爾曼濾波狀態(tài)空間表示法和參數(shù)估計(jì)系統(tǒng)的狀態(tài)是指一個(gè)系統(tǒng)過(guò)去、現(xiàn)在和將來(lái)的狀態(tài)。從抽象意義上講,狀態(tài)變量是指一組描述系統(tǒng)狀態(tài)的最少獨(dú)立變量。初始時(shí)刻與狀態(tài)變量確定了系統(tǒng)的初始狀態(tài),后續(xù)當(dāng)系統(tǒng)有輸入ut時(shí),完全可以確定系統(tǒng)未來(lái)的性能變化。卡爾曼濾波與廣義卡爾曼濾波狀態(tài)變量對(duì)應(yīng)于一個(gè)n維空間,此空間稱為狀態(tài)空間。用狀態(tài)空間來(lái)描述動(dòng)態(tài)系統(tǒng)有很多好處,即可以在一個(gè)一般且一致的框架下研究任何復(fù)雜的動(dòng)態(tài)系統(tǒng)。我們可以將狀態(tài)變量看成記憶變量,能從狀態(tài)變量中重新得到所有想要得到的有關(guān)過(guò)去的信息(不是所有過(guò)去的信息)。卡爾曼濾波與廣義卡爾曼濾波一個(gè)離散動(dòng)態(tài)系統(tǒng)可分解成兩個(gè)過(guò)程:n維的動(dòng)態(tài)系統(tǒng)和p維(p≤n)的觀測(cè)系統(tǒng),如圖6.2所示??柭鼮V波與廣義卡爾曼濾波標(biāo)準(zhǔn)卡爾曼濾波卡爾曼濾波與廣義卡爾曼濾波廣義卡爾曼濾波當(dāng)觀測(cè)方程不是線性時(shí),上述標(biāo)準(zhǔn)卡爾曼濾波方程不再適用。但當(dāng)狀態(tài)估計(jì)值與真實(shí)值相差不是很大時(shí),可以將觀測(cè)方程線性化,這是在工程中常用的將非線性問(wèn)題線性化的思想??柭鼮V波與廣義卡爾曼濾波03特征表示與提取顏色直方圖顏色特征是計(jì)算機(jī)視覺(jué)研究中最基本的視覺(jué)特征,通過(guò)顏色特征往往能夠區(qū)分物體和場(chǎng)景,便于圖像分割和理解。由于顏色特征不依賴圖像的分辨率和攝像機(jī)視角朝向,因此它具有良好的穩(wěn)定性而被廣泛使用。顏色直方圖是最常見的顏色特征,它是一種概率統(tǒng)計(jì)圖,表示圖像每個(gè)像素點(diǎn)的顏色出現(xiàn)的概率(比率)。特征表示與提取顏色直方圖根據(jù)量化級(jí)別,將不同顏色的像素計(jì)數(shù)并統(tǒng)計(jì)計(jì)算得到。通過(guò)分析顏色直方圖可以獲得該圖像的顏色分布和主色調(diào),顏色直方圖中并不包含圖像像素的空間信息,僅包括各類顏色像素出現(xiàn)的頻數(shù)。特征表示與提取如圖6.3所示,在HSV顏色空間中,H分量指Hue(色相),S分量指Saturation(飽和度),V分量指Value(亮度)。特征表示與提取形狀特征特征表示與提取形狀是反映物體外觀的一個(gè)重要特征,它是人眼感知世界的重要視覺(jué)特征之一。形狀特征被廣泛運(yùn)用在計(jì)算機(jī)視覺(jué)、模式識(shí)別和圖像處理等領(lǐng)域中。當(dāng)前,對(duì)形狀特征的描述主要可以分為基于輪廓形狀與基于區(qū)域形狀兩類。尺度不變輪廓特征的表示在提取輪廓特征前,要找到形狀輪廓的質(zhì)心作為極坐標(biāo)的極點(diǎn)。此處可以考慮兩類方法:根據(jù)區(qū)域算質(zhì)心和根據(jù)輪廓算質(zhì)心。當(dāng)根據(jù)輪廓算質(zhì)心時(shí),要利用格林公式來(lái)計(jì)算質(zhì)心。若根據(jù)區(qū)域算質(zhì)心,則設(shè)其質(zhì)心點(diǎn)O的坐標(biāo)為(mx,my)。令整個(gè)圖形區(qū)域面積為N(即區(qū)域包圍的像素個(gè)數(shù))。特征表示與提取其中,(xi,yi)為形狀區(qū)域內(nèi)各點(diǎn)的坐標(biāo)。輪廓的質(zhì)心計(jì)算與輪廓采樣如圖6.4所示。特征表示與提取04目標(biāo)跟蹤方法評(píng)價(jià)指標(biāo)為了評(píng)價(jià)目標(biāo)跟蹤方法的優(yōu)劣和跟蹤精度,主要的評(píng)價(jià)指標(biāo)包括跟蹤誤差和目標(biāo)覆蓋率。圖6.5給出了這兩種評(píng)價(jià)指標(biāo)的示意圖。目標(biāo)跟蹤方法評(píng)價(jià)指標(biāo)從上式定義可以看出,當(dāng)dt→0時(shí),跟蹤精度越高。第二個(gè)評(píng)價(jià)指標(biāo)為窗口重疊率,如圖6.5(b)所示,跟蹤窗口與目標(biāo)的實(shí)際位置所代表的矩形窗口分別為RT和RG,則窗口重疊率rt可由RT和RG兩個(gè)矩形窗口重疊區(qū)域R'=RT∩RG。目標(biāo)跟蹤方法評(píng)價(jià)指標(biāo)05序列MonteCarlo方法研究大多數(shù)的動(dòng)態(tài)系統(tǒng)(如自動(dòng)目標(biāo)跟蹤系統(tǒng))都是非線性非高斯的,對(duì)于研究者來(lái)說(shuō),立足于序列觀測(cè),應(yīng)用有效的方法進(jìn)行在線實(shí)時(shí)估計(jì)和預(yù)測(cè)是非常富有挑戰(zhàn)性的工作。直至今天,人們都沒(méi)有找到一致、有效的方法來(lái)處理非線性非高斯系統(tǒng)。序列MonteCarlo方法研究近年來(lái),很多研究者開始關(guān)注一種基于序列MonteCarlo(SMC)方法的濾波算法,這是一系列應(yīng)用MonteCarlo仿真策略來(lái)解決在線估計(jì)和預(yù)測(cè)難題的方法。更確切地說(shuō),這種技術(shù)可以遞推產(chǎn)生一系列帶權(quán)值的樣本(粒子)來(lái)表示狀態(tài)變量或數(shù)的后驗(yàn)概率,以此來(lái)進(jìn)行貝葉斯推理,它可以應(yīng)用在任意非線性隨機(jī)系統(tǒng),包括目標(biāo)跟蹤和計(jì)算機(jī)視覺(jué)等。序列MonteCarlo方法研究有許多相關(guān)的資料詳細(xì)介紹了這種方法,如圖6.6所示。序列MonteCarlo方法研究MonteCarlo方法重要性采樣在貝葉斯估計(jì)中,由于后驗(yàn)概率p(x)本身也是需要估計(jì)對(duì)象的,因此在很多情形下要么不能直接從p(x)中采樣,要么會(huì)給出一個(gè)偏差大的估計(jì)值。鑒于此,我們可以應(yīng)用一種稱為重要性采樣(IS)的方法,其基本思想是從一個(gè)較簡(jiǎn)單的函數(shù)中采樣,再通過(guò)加權(quán)獲得近似樣本。序列MonteCarlo方法研究算法6.1顯示了如何從p(x)獲得近似樣本。序列MonteCarlo方法研究算法6.2描述了這兩種情況。序列MonteCarlo方法研究算法6.3序列重要性采樣(SIS)算法。序列MonteCarlo方法研究退化問(wèn)題序列MonteCarlo方法研究在經(jīng)過(guò)幾步迭代遞推后,大多數(shù)樣本趨于發(fā)散,其權(quán)值也幾乎為零。這意味著它們對(duì)后驗(yàn)概率沒(méi)有多少貢獻(xiàn),概率分布只由少數(shù)幾個(gè)樣本決定,從而使估計(jì)結(jié)果變得很粗糙,這種現(xiàn)象稱為SIS粒子濾波中的退化現(xiàn)象(DegeneracyPhenomenon)。這種現(xiàn)象可以由Kong-Liu-Wong定理解釋,這個(gè)定理說(shuō)明了重要性權(quán)值o的無(wú)條件的方差,在觀測(cè)值被當(dāng)成隨機(jī)變量時(shí)會(huì)隨著時(shí)間持續(xù)而增大,因此這個(gè)算法會(huì)變得越來(lái)越不穩(wěn)定而且也不可能避免這種現(xiàn)象發(fā)生。序列MonteCarlo方法研究由于MonteCarlo采樣方法依賴樣本池的多樣性,因此這種現(xiàn)象可能會(huì)對(duì)這種方法產(chǎn)生負(fù)面影響。而且,計(jì)算資源可能浪費(fèi)在對(duì)估計(jì)沒(méi)有貢獻(xiàn)或貢獻(xiàn)甚少的樣本上,并且會(huì)產(chǎn)生虛假尖峰(SpuriousSpike)或估計(jì)效果差的結(jié)果。序列MonteCarlo方法研究選擇最優(yōu)重要性函數(shù)的首要方法是使有效樣本尺度N最大化。重要性函數(shù)的選擇最優(yōu)重要性函數(shù)可以通過(guò)標(biāo)準(zhǔn)的非線性濾波合并出最新的測(cè)量來(lái)近似得到。這種混雜的粒子濾波比SIR濾波的效果要好。局部線性化重采樣減少了退化現(xiàn)象的危害,但同時(shí)也會(huì)帶來(lái)粒子枯竭的實(shí)際問(wèn)題。正則化序列MonteCarlo方法研究粒子濾波的改進(jìn)方法MCMC方法它提供了一種相對(duì)容易地從任意概率分布產(chǎn)生樣本的方法,這種方法與正則化策略一樣,也為重采樣中的樣本枯竭問(wèn)題提供了一種潛在的解決方法。Rao-Blackwellized模型該模型的一些組成部分可能具有線性動(dòng)態(tài)特性,對(duì)這些部分應(yīng)用傳統(tǒng)的卡爾曼濾波。序列MonteCarlo方法研究粒子濾波的收斂性粒子濾波算法的一個(gè)至關(guān)重要的性能就是它的收斂性,即隨著粒子數(shù)目的增加,由粒子給出的經(jīng)驗(yàn)分布在某種意義上是否趨于真正的分布,在逼近過(guò)程中誤差是否有界。序列MonteCarlo方法研究06本章小結(jié)自然界中的絕大部分運(yùn)動(dòng)之所以能用數(shù)學(xué)的方法來(lái)形式化表達(dá),其主要原因在于利用隨機(jī)過(guò)程來(lái)對(duì)其進(jìn)行描述,并通過(guò)數(shù)學(xué)模型對(duì)其進(jìn)行形式化表達(dá),最后通過(guò)優(yōu)化算法進(jìn)行問(wèn)題求解。本章小結(jié)在計(jì)算機(jī)科學(xué)中,解決問(wèn)題的一個(gè)重要的工具就是隨機(jī)過(guò)程,尤其是圖像和視頻序列都可以近似看作一個(gè)隨機(jī)過(guò)程,從而圖像可以看作隨機(jī)過(guò)程在某個(gè)時(shí)刻的一個(gè)樣本。而圖像內(nèi)部和圖像序列之間的相關(guān)性,則可以用馬爾可夫隨機(jī)場(chǎng)對(duì)其進(jìn)行建模。本章小結(jié)通過(guò)這些完整的隨機(jī)過(guò)程理論,在進(jìn)行圖像和視頻分析時(shí),也能采用隨機(jī)過(guò)程的理論進(jìn)行分析。而通過(guò)采樣來(lái)對(duì)隨機(jī)過(guò)程進(jìn)行模擬、分析是計(jì)算中常用的辦法,其中MonteCarlo方法就是其中的典型代表。本章小結(jié)謝謝觀看鉸鏈運(yùn)動(dòng)分析及人體姿態(tài)估計(jì)工業(yè)和信息化部“十二五”規(guī)劃教材計(jì)算機(jī)視覺(jué)第七章01人體模型及觀測(cè)似然函數(shù)人體模型由10個(gè)主要部分組成,且包含15個(gè)關(guān)節(jié)點(diǎn),但不同的是本章所采用的模型是三維模型,每個(gè)肢體都用一個(gè)圓臺(tái)來(lái)近似。本章所采用的姿態(tài)參數(shù)是15個(gè)關(guān)節(jié)點(diǎn)的三維坐標(biāo),這樣選擇的優(yōu)點(diǎn)是關(guān)節(jié)點(diǎn)的位置坐標(biāo)比起用于描述肢體姿態(tài)的平移加旋轉(zhuǎn)方式更加直觀。人體模型人體模型及觀測(cè)似然函數(shù)圖7.1人體模型。人體模型及觀測(cè)似然函數(shù)同時(shí)對(duì)于不同的算法,均可以用統(tǒng)一的方式通過(guò)比較關(guān)節(jié)點(diǎn)估計(jì)值與真實(shí)值之間的距離來(lái)衡量誤差。但缺點(diǎn)是在通過(guò)自由的選擇關(guān)節(jié)點(diǎn)坐標(biāo)來(lái)尋找姿態(tài)參數(shù)的過(guò)程中,得到的肢體參數(shù)是通過(guò)其兩端的關(guān)節(jié)點(diǎn)來(lái)確定的。人體模型及觀測(cè)似然函數(shù)這意味著:第一,肢體的自旋轉(zhuǎn)是無(wú)法通過(guò)兩個(gè)肢體端點(diǎn)確定的,但由于模型中選擇的基于圓臺(tái)的表示是選擇對(duì)稱的,因此對(duì)于該模型來(lái)說(shuō)沒(méi)有影響;第二,肢體的長(zhǎng)度會(huì)在搜索過(guò)程中發(fā)生改變。人體模型及觀測(cè)似然函數(shù)觀測(cè)似然函數(shù)本章在對(duì)模擬退火的粒子濾波算法和非參數(shù)置信傳播算法兩種算法進(jìn)行實(shí)驗(yàn)時(shí),采用同樣的觀測(cè)似然函數(shù),它們基于圖像邊緣信息和人體外輪廓,主要做法參考相關(guān)文獻(xiàn),在此處進(jìn)行簡(jiǎn)要介紹。人體模型及觀測(cè)似然函數(shù)02模擬退火的粒子濾波算法粒子濾波算法模擬退火的粒子濾波算法粒子濾波(ParticleFilter)算法的思想是基于MonteCarlo方法,它是利用粒子集來(lái)表示概率,可以用在任何形式的狀態(tài)空間模型中。其核心思想是通過(guò)從后驗(yàn)概率中抽取的隨機(jī)狀態(tài)粒子來(lái)表示其分布,它是一種順序重要性采樣法(SequentialImportanceSampling)。簡(jiǎn)單來(lái)說(shuō),粒子濾波算法是指通過(guò)尋找一組在狀態(tài)空間傳播的隨機(jī)樣本對(duì)概率密度函數(shù)近似,以樣本均值代替積分運(yùn)算,從而獲得狀態(tài)最小方差分布的過(guò)程。這里的樣本就是粒子,當(dāng)樣本數(shù)量趨于無(wú)窮大時(shí),可以逼近任何形式的概率密度函數(shù)。模擬退火的粒子濾波算法在計(jì)算機(jī)視覺(jué)中,粒子濾波常用于跟蹤問(wèn)題。因?yàn)閷?duì)于計(jì)算機(jī)視覺(jué)問(wèn)題的模型復(fù)雜性及圖像噪聲千擾,使得其概率分布難以用高斯模型近似,而粒子濾波作為一種非參數(shù)估計(jì)方法適合解決該類問(wèn)題。模擬退火的粒子濾波算法以上兩個(gè)步驟如圖7.2所示。模擬退火的粒子濾波算法模擬退火算法模擬退火算法的主要目的是避免采樣過(guò)程陷入局部極小。在進(jìn)行粒子濾波時(shí),若初始粒子生成在一個(gè)位于局部極小的錯(cuò)誤解附近,則在后面的迭代中,粒子傾向于始終停留在該局部極小值附近。模擬退火的粒子濾波算法在采用模擬退火算法后,給參數(shù)λ設(shè)定一個(gè)較小的值(在物理學(xué)中,該值為溫度的倒數(shù),也就是給定一個(gè)較高的起始溫度)。這使得原本陡峭的極小值點(diǎn)變得平滑,便于粒子生成在更廣泛的狀態(tài)空間內(nèi),同時(shí)能夠探索更多可能的解。模擬退火的粒子濾波算法然后再不斷地增大λ并重復(fù)采樣過(guò)程,排除概率較小的局部極小值,直到結(jié)果收斂于全局最優(yōu)解。在退火過(guò)程中選取的一系列參數(shù)λ=λμ,…,λ需要同時(shí)兼顧速度性和可靠性。退火參數(shù)增大的速度越慢,結(jié)果收斂至全局最優(yōu)的可能性越大,但也需要更加繁重的計(jì)算量。模擬退火的粒子濾波算法從圖7.3中可以看到,初始的退火目標(biāo)函數(shù)乃是對(duì)原目標(biāo)函數(shù)進(jìn)行了相當(dāng)程度平滑后的形狀,這使得粒子能夠在更廣闊的范圍內(nèi)采樣,從而避免其陷入局部極小。模擬退火的粒子濾波算法模擬退火的粒子濾波03非參數(shù)置信傳播算法非參數(shù)置信傳播算法是一種解決圖模型統(tǒng)計(jì)推斷問(wèn)題的算法,直到近幾年,該算法才被引入姿態(tài)估計(jì)和跟蹤問(wèn)題中。非參數(shù)置信傳播算法將離散情況的置信傳播算法擴(kuò)展至連續(xù)變量空間,其主要思想是利用粒子群非參數(shù)化表示算法中的消息和置信度。非參數(shù)置信傳播算法在離散空間中,當(dāng)狀態(tài)的可能取值數(shù)為L(zhǎng)時(shí),b為一個(gè)L維的矢量。其中,每個(gè)維度值都代表該節(jié)點(diǎn)位于相應(yīng)值的后驗(yàn)概率。當(dāng)問(wèn)題轉(zhuǎn)化到連續(xù)空間時(shí),b是由概率變?yōu)樵撨B續(xù)空間的一個(gè)概率密度函數(shù),同理m也是。非參數(shù)置信傳播算法粒子可以直接通過(guò)概率采樣或重要性采樣得到,然后用其計(jì)算在該分布上的期望值,如均值或高次均值等。在確定了每個(gè)節(jié)點(diǎn)上的粒子集合S”后,可以通過(guò)吉布斯采樣生成符合圖模型上聯(lián)合分布的樣本。非參數(shù)置信傳播算法04人體運(yùn)動(dòng)估計(jì)在原理上,模擬退火的濾波粒子算法與非參數(shù)置信傳播算法的差異如圖7.4所示。人體運(yùn)動(dòng)估計(jì)對(duì)于模擬退火的濾波粒子算法,其姿態(tài)作為一個(gè)整體在時(shí)間軸上為一個(gè)馬爾可夫鏈,即第k幀的姿態(tài)依賴于第k-1幀的姿態(tài)。而對(duì)于非參數(shù)置信傳播算法,每個(gè)部位姿態(tài)在時(shí)間上都依賴于上一幀的姿態(tài),在空間上與其他相鄰部位有關(guān)。而為了更加深入地探索和驗(yàn)證兩種算法的差異,則需從實(shí)驗(yàn)結(jié)果中觀察。人體運(yùn)動(dòng)估計(jì)在過(guò)去的20年中,許多提出的算法都是為了更好地解決人體姿態(tài)估計(jì)及跟蹤問(wèn)題。在這些算法中,對(duì)于連接體的圖模型表示帶動(dòng)了一系列的研究工作。該模型中各個(gè)肢體部分通過(guò)特定的構(gòu)想排列在一起,每個(gè)部分的觀察函數(shù)都通過(guò)一個(gè)圖片表示,而部分間的連接函數(shù)通過(guò)類似彈簧的勢(shì)能函數(shù)表示。人體運(yùn)動(dòng)估計(jì)該算法的獨(dú)到之處在于認(rèn)為當(dāng)人體的主要部位(如頭部、軀干和四肢)投影到圖像上時(shí),均可以用矩形近似,如圖7.5所示。人體運(yùn)動(dòng)估計(jì)除非參數(shù)置信傳播算法外,同樣存在其他算法求解人體姿態(tài)。如Fischler和Elschlager通過(guò)圖模型在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)外觀參數(shù)和空間關(guān)系參數(shù),然后利用廣義距離變換作為有效估計(jì)最大后驗(yàn)概率的算法。值得一提的是,以上提到的這些

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論