基于SIFT算子的雙目視覺立體匹配算法研究_第1頁
基于SIFT算子的雙目視覺立體匹配算法研究_第2頁
基于SIFT算子的雙目視覺立體匹配算法研究_第3頁
基于SIFT算子的雙目視覺立體匹配算法研究_第4頁
基于SIFT算子的雙目視覺立體匹配算法研究_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、西安電子科技大學(xué)碩士學(xué)位論文基于SIFT算子的雙目視覺立體匹配算法研究姓名:李巖琪申請學(xué)位級別:碩士專業(yè):計算機系統(tǒng)結(jié)構(gòu)指導(dǎo)教師:曹伯燕20100101摘 要雙目立體視覺技術(shù)是根據(jù)兩幅不同角度拍攝的圖像,獲取圖像中物體三維幾何信息的技術(shù)。該技術(shù)近年來發(fā)展迅速,在軍事和民事的各個領(lǐng)域都得到了廣泛的應(yīng)用。圖像匹配技術(shù)又是雙目視覺領(lǐng)域中最為關(guān)鍵的技術(shù),一個好的匹配方法,要同時達到速度快、精度高的要求,從而滿足實時性和實用性。但是圖像匹配強依賴于圖像本身,因此,圖像匹配技術(shù)也是雙目視覺發(fā)展中最難徹底解決的問題,該技術(shù)一直在不斷發(fā)展與完善之中。本文闡述了雙目立體視覺技術(shù)的原理和具體內(nèi)容,對立體匹配技術(shù)作

2、了深入的研究。重點分析了基于SIFT(Scale Invariant Feature Transform尺度不變特征變換算子的立體匹配算法,該算法基于尺度空間的圖像特征進行匹配。SIFT算子對特征點進行檢測和描述,對圖像變換和噪聲具有很好的魯棒性。為提高該算法匹配的精度,本文針對其算子設(shè)計進行了改進,提出了改進算法并編程實現(xiàn)。通過對不同類型圖像的匹配驗證實驗,證明改進算法的結(jié)果可以定性的反映出圖像中物體真實的三維形狀和相對位置關(guān)系,視差效果好,匹配率較高且穩(wěn)定。關(guān)鍵詞:雙目視覺 立體匹配 視差SIFT特征值A(chǔ)bstractBinocular stereo vision is a techniq

3、ue on how to possible understand and perceive the objective world by computer rather than human beings. It can require the three-dimensional (3D geometry information of objects form two images that shooting from two different angles. This technique has a rapidly development these years, it has been

4、successfully used in many fields of civil and martial.Image stereo matching is the most significant part in binocular stereo vision technique. A perfect matching algorithm is fast and accurately, it should have good practicability. But image matching algorithm strongly depends on image itself, that

5、is, every stereo image stereo matching algorithm is proposed aiming at matching certain type of images, there is no such a stereo matching algorithm can process any type of images nowadays, so it is difficult to solve this problem completely. Sometimes, the matching algorithm even can not reach the

6、requirement of applications, so this issue has always been developed and improved.This paper introduces and analyzes theory of binocular stereo vision technique detailedly, then makes a deep research on image matching algorithm. The focus on this paper is an image feature matching algorithm based on

7、 scale invariant features transform (SIFT operator. The principle of SIFT matching algorithm is researched. In this algorithm, SIFT operator is used to detect the feature points, and each feature point is assigned a feature descriptor. It is accurate and robust towards image distortion and noise. In

8、 order to improve the matching rate of SIFT algorithm, an improved SIFT matching algorithm is proposed and implemented. Taking many different types of images as experiment images, with the improved algorithm, the shape character and relative position of objects in the image can be shown well, the me

9、thod is stable and fast, the matching rate is improved.Keyword:Binocular stereo vision Image matching SIFT Feature point西安電子科技大學(xué)學(xué)位論文創(chuàng)新性聲明秉承學(xué)校嚴謹?shù)膶W(xué)風和優(yōu)良的科學(xué)道德,本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果;也不包含為獲得西安電子科技大學(xué)或其它教育機構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已

10、在論文中做了明確的說明并表示了謝意。申請學(xué)位論文與資料若有不實之處,本人承擔一切的法律責任。 本人簽名:日期西安電子科技大學(xué)關(guān)于論文使用授權(quán)的說明本人完全了解西安電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究生在校攻讀學(xué)位期間論文工作的知識產(chǎn)權(quán)單位屬西安電子科技大學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件,允許查閱和借閱論文;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以允許采用影印、縮印或其它復(fù)制手段保存論文。同時本人保證,畢業(yè)后結(jié)合學(xué)位論文研究課題再撰寫的文章一律署名單位為西安電子科技大學(xué)。(保密的論文在解密后遵守此規(guī)定本學(xué)位論文屬于保密,在年解密后適用本授權(quán)書。 本人簽名:日期 導(dǎo)師簽名:日期第一章緒

11、論1第一章緒論1.1 引言視覺是人類與生俱來的一種觀察世界、認知世界的重要功能手段。人類從外界獲得的信息約有75%來自視覺系統(tǒng)1 2。人類的視覺系統(tǒng)是迄今為止,人們所知道的生物界中功能最為強大和完善的視覺系統(tǒng)。人類通過眼睛獲取圖像,運用大腦處理和理解從眼睛得到的視覺信息,對兩眼看到的圖像自動分辨它們的差別并加以融合,最終展示在我們眼前的是一個具有深度感的立體的三維的世界。人類大腦復(fù)雜且功能強大,若機器能夠很好的模擬眼睛和大腦的合作,完成這一信息處理過程,那么很多的工作將會大大地簡化。因此,計算機視覺成為各個應(yīng)用領(lǐng)域,如制造業(yè)、檢驗、文檔分析、醫(yī)療診斷和軍事等領(lǐng)域的各種系統(tǒng)中不可分割的一部分,是

12、工程領(lǐng)域,也是科學(xué)領(lǐng)域中的一個富有挑戰(zhàn)性的重要研究內(nèi)容3。計算機視覺的挑戰(zhàn)就是要為計算機和機器人開發(fā)具有與人類水平相當?shù)囊曈X能力。1.2 課題背景作為一門學(xué)科,計算機視覺開始于二十世紀60年代初,但計算機視覺研究中的許多重要進展和成果是在二十世紀80年代取得的。從20世紀70年代中期開始,以Marr等人為代表的研究學(xué)者提出了一整套視覺計算的理論來描述視覺過程,理論核心就是從圖像中恢復(fù)物體的三維形狀4,其中,Marr的理論影響最為深遠。二十世紀80年代中后期,機器人研究使得視覺研究中大量運用了空間幾何的方法。到二十世紀90年代初到二十一世紀,關(guān)于立體視覺的研究在許多方面開始趨于成熟。最近十多年來

13、,計算機立體視覺在多個領(lǐng)域內(nèi)取得了重要進展,包括區(qū)域匹配和特征匹配的新的算法技術(shù)、多攝像機立體視覺等。目前,隨著計算機科學(xué)、人工智能以及相關(guān)學(xué)科的進一步發(fā)展,計算機視覺的研究也相應(yīng)的得到了更深入的發(fā)展,它正廣泛的應(yīng)用于各個領(lǐng)域中,在很多特殊環(huán)境的應(yīng)用中,已經(jīng)可以逐步代替人類視覺起到關(guān)鍵的作用5。包括在航空、航天、衛(wèi)星拍攝等應(yīng)用中,計算機視覺已經(jīng)成為不可替代的關(guān)鍵技術(shù)。我國的計算機視覺發(fā)展快速,無論軍事領(lǐng)域還是民用工業(yè)、農(nóng)業(yè),計算機視覺都有著廣闊的應(yīng)用領(lǐng)域和非常好的發(fā)展前景。雙目立體視覺技術(shù)是用并排的兩部或多部圖像采集裝置對同一物體或場景進2 基于SIFT算子的雙目視覺立體匹配算法研究行拍攝,或

14、者用一部采集裝置在對應(yīng)的不同的角度拍攝同一物體,生成至少左、右兩幅圖像。這一過程模擬人眼成像,同一物體在不同角度圖像中的位置不同稱為視差。利用視差及拍攝的角度,就可以計算得到該物體在真實世界中的位置相關(guān)信息。計算機要完成模擬人類視覺的過程,首先要有類似人類眼睛的對外界信息采集的工具,當前這方面的硬件的發(fā)展已經(jīng)相當進步,各種的圖像或視頻采集設(shè)備層出不窮,如光學(xué)攝像機或紅外、超聲、激光等對周圍場景或物體進行探測成像,可以得到關(guān)于場景或物體的二維或三維數(shù)字化圖像。接下來是更為困難的一部分,就是計算機得到采集到的圖像之后,模擬人類大腦處理圖像信息的過程,這一部分是實現(xiàn)計算機視覺的關(guān)鍵。首先,可以對圖像

15、進行初步的預(yù)先處理,涉及到的技術(shù)有圖像濾波、圖像增強、邊緣檢測等;其次,可對圖像的明暗特征、紋理特征等特征進行描述和提取,這之中也涉及到標定、匹配等等的工作,這對于恢復(fù)物體的深度信息非常關(guān)鍵;最后,可根據(jù)原始圖像、圖像基本特征、深度特征等,利用重建技術(shù)對物體或場景進行三維描述和三維重建,從而更好的識別物體的位置和方向。立體匹配技術(shù)在以上過程中起到的關(guān)鍵作用就在于,將兩幅圖像進行匹配,在右圖像上,利用匹配算法找出與左圖像中相應(yīng)點相匹配的點,利用每對點之間的位置差異,進行視差的計算,從而得到所需要的數(shù)據(jù)信息。這一過程也可以歸結(jié)為圖像特征之間的相似性評價問題。目前,立體匹配采用的方法有很多,常見的有

16、基于圖像區(qū)域的匹配方法和基于圖像特征的匹配方法等。立體匹配問題是立體視覺中最復(fù)雜和困難的問題,匹配技術(shù)的提升,對整個計算機視覺的發(fā)展會具有巨大的推動作用。1.3 研究意義及課題內(nèi)容立體視覺研究中的圖像匹配要求高速性和準確性。正如前文所述,立體匹配問題之所以是一個研究難點,就在于很難非常好的同時兼顧速度和精度這兩個要素。在實際的應(yīng)用中,兩個成像裝置位置的變化、焦距的變化等,都有可能造成得到的兩幅左、右圖像存在平移、遮擋、縮放、旋轉(zhuǎn)等狀況。同時,攝像機鏡頭本身也存在光學(xué)畸變,各種圖像噪聲和外部條件,如光強、大氣條件等,都會影響圖像匹配的效果。而且,計算機完成匹配工作,目前還難以完全脫離人工幫助,想

17、要實現(xiàn)計算機完全自動匹配,還有待時日。另外,當圖像的尺寸和精度有所增大,在保證配準精度不下降的同時,圖像匹配的速度和實時性還要有所提高,這也是很難解決的問題。這些都是目前立體視覺圖像匹配技術(shù)在研究發(fā)展中所遇到的幾大難題。第一章緒論3所以,一個好的匹配方法,應(yīng)該有很強的抗噪聲、抗畸變的特性;有很好的適應(yīng)各種圖像的能力;要具有旋轉(zhuǎn)的不變性;算法的時間、空間復(fù)雜度都要滿足實用要求,要有很好的實時性、實用性等。解決瓶頸問題,得到更完善的匹配方法,已經(jīng)成為計算機立體視覺領(lǐng)域研究人員的研究目標。David Lowe在1999年發(fā)表,在2004年完善總結(jié)了一種基于尺度空間的、對圖像縮放、旋轉(zhuǎn)、甚至仿射變換都

18、保持不變性的圖像局部特征描述算子,即SIFT(Scale Invariant Feature Transform尺度不變特征變換算子。SIFT算子在尺度空間下進行特征檢測,計算關(guān)鍵點的鄰域梯度的主方向作為該點的方向特征向量,這樣就可以實現(xiàn)算子對尺度和方向的無關(guān)性。對于每一個關(guān)鍵特征點,SIFT算子都提供了位置、尺度、方向三方面的信息,具有很強的特征點描述能力,這樣就可以大大的提高匹配的準確率。正是因為SIFT算子的諸多優(yōu)勢,在圖像匹配領(lǐng)域,該算子已經(jīng)成為國內(nèi)外研究的重點。本文的主要內(nèi)容即為雙目視覺中的立體匹配算法研究,在詳細介紹雙目視覺和匹配技術(shù)的理論基礎(chǔ)上,分析對比基于圖像區(qū)域匹配的幾個傳統(tǒng)

19、算子(SSD、SAD、NCC和基于圖像特征匹配的幾個常用算子(Moravec、SUSAN、Harris,然后重點深入介紹研究基于SIFT算子的特征匹配算法,對該算法的實現(xiàn)過程進行逐步的分析,并對算法進行改進和優(yōu)化,以提高匹配率。最后在PC機上使用VC6.0工具結(jié)合OpenCV庫函數(shù)6將其編程實現(xiàn),用改進算法實現(xiàn)的軟件對實驗圖像進行匹配,得到視差圖,期望根據(jù)視差圖反映物體位置形狀關(guān)系,記錄其匹配結(jié)果數(shù)據(jù)及分析優(yōu)缺點。1.4 本文結(jié)構(gòu)安排按照論述的內(nèi)容,本文共分為六章,各章主要內(nèi)容安排如下:第一章是緒論。主要介紹論文的研究背景、研究意義、研究內(nèi)容及論文結(jié)構(gòu),總結(jié)國內(nèi)外該課題的研究現(xiàn)狀。第二章是雙目

20、立體視覺原理。詳細介紹人類視覺的過程和計算機視覺的基本原理,闡述立體視覺的研究內(nèi)容和應(yīng)用。第三章是圖像匹配技術(shù)研究。主要內(nèi)容有介紹圖像匹配的定義和分類,分別對比分析基于區(qū)域灰度匹配的SSD、SAD等算子和基于特征匹配的Moravec、SUSAN、Harris等算子,給出各種算子結(jié)構(gòu)的優(yōu)缺點及其適用性。第四章是基于SIFT算子的立體匹配方法。介紹SIFT算子的主要思想和特點,分析SIFT匹配方法的原理和實現(xiàn)步驟,對原算法進行算子結(jié)構(gòu)上的優(yōu)化設(shè)計,提出優(yōu)化方案流程。第五章是實驗結(jié)果及分析。實現(xiàn)改進SIFT算法,利用大量圖像進行結(jié)果驗4 基于SIFT算子的雙目視覺立體匹配算法研究證,得到視差圖并分析

21、結(jié)果數(shù)據(jù),證明該算法的實用性和優(yōu)缺點。第六章是結(jié)論與展望??偨Y(jié)本文所做的工作,指出研究中的不足和今后重點研究方向。最后為致謝、參考文獻等。第二章 雙目立體視覺原理 5第二章 雙目立體視覺原理雙目立體視覺技術(shù)是機器視覺研究中的主要組成部分,作為信息化的重要技術(shù)之一,雙目立體視覺技術(shù)在當今社會已經(jīng)有了廣泛的應(yīng)用。該技術(shù)讓計算機模擬人眼捕獲外部世界信息,得到信息后進行相當于人腦甚至高于人腦速度的高速精確處理,使信息能夠為人們方便的做定性判斷和其它應(yīng)用。2.1 人類立體視覺過程分析對生物視覺系統(tǒng)來說,具有視覺系統(tǒng)的動物都具有至少兩只眼睛,用兩只眼睛觀察物體時,會有深度和遠近的感知,這樣呈現(xiàn)在眼前的世界

22、就是一個三維世界。人類是通過眼睛和大腦來獲取、處理和理解視覺信息的。正常情況下,物體在自然光源或人工光源照射下,會在人眼的視網(wǎng)膜上形成圖像。人眼有自動焦距的適應(yīng)性調(diào)節(jié),可以達到最好的視覺效果,人類的感光細胞將看到的圖像轉(zhuǎn)換成神經(jīng)脈沖信號傳輸給大腦進行識別、處理和理解。大腦會根據(jù)兩眼得到的圖像,給人類深度和遠度的感受,或者將人們感興趣的目的信息給予快速反饋。這一過程,包含了生物學(xué)、心理學(xué)等的相關(guān)知識,是一個極其復(fù)雜的過程7。 P(X, Y , Z征。圖2.1 人類視覺基本原理當然,人類單眼也可感知深度,但這依賴的是人類的生活經(jīng)驗和生理特計算機是不容易做到的,所以此處討論的是雙目成像的過程。如圖2

23、.1所示,12,X X 分別代表人類的左眼和右眼,兩眼之間的距離為B ,兩眼同時對物體P 進行觀察時,在左、右兩個眼睛的視網(wǎng)膜上都產(chǎn)生了P 的像,這兩個像在視網(wǎng)膜上的位置6 基于SIFT 算子的雙目視覺立體匹配算法研究不同,稱它為視差,正是由于視差的存在,視差圖像在人腦的融合,讓這兩個二維的功能,讓計算機視覺方面的研究人員們非常的期盼用計算機也可以將其實現(xiàn)。2.2 計算機視覺原理型,然后認知現(xiàn)實世世界。目前應(yīng)用中的一般性目標只是讓計算機能夠完成一定程度的智能要求。更加成熟,匹配、立體視覺等方面越來越受到重視,應(yīng)用的方面也越來越廣。2.2.1 Marr 的視覺理論框架,他提出的視覺理論框架(圖2

24、.2,圖像合成得到三維的物體原型,這也是計算機視覺的原理基礎(chǔ)。正是這個可謂“神奇”的人類與生俱來的計算機視覺系統(tǒng)的首要目標是用圖像創(chuàng)建或恢復(fù)現(xiàn)實世界模界,建立與人的視覺系統(tǒng)相類似的通用計算機視覺系統(tǒng)。信號處理理論與計算機出現(xiàn)后,人們試圖以攝像機代替人的眼睛獲取圖像,然后由計算機代替人的大腦進行數(shù)據(jù)的處理與理解,計算機視覺就是這樣一門新的學(xué)科。它用各種成像系統(tǒng)代替視覺器官作為輸入手段,由計算機來代替大腦完成處理和解釋。計算機視覺的終極目標就是使計算機能像人類那樣通過視覺觀察和理解計算機視覺是在20世紀50年代從統(tǒng)計模式識別開始的,識別一些光學(xué)字符,工件表面、顯微圖片和航空圖片8。60年代有學(xué)者開

25、始從數(shù)字圖像中,利用計算機程序,提取一些簡單的形體比如正方體、棱柱等多面體的三維結(jié)構(gòu),希望得到物體的形狀和空間位置關(guān)系的信息。接著,有更多的研究人員開始研究圖像的特征提取例如邊緣、角點,分析圖像灰度、紋理、運動等,建立形成了很多各方面的研究標準和統(tǒng)一規(guī)則。到了80、90年代,關(guān)于計算機視覺的研究David Marr ,1945年1月出生于英國。數(shù)學(xué)碩士,后攻讀神經(jīng)生理學(xué)的博士,期間受到神經(jīng)解剖學(xué)、神經(jīng)生理學(xué)、生物化學(xué)和分子生物學(xué)的訓(xùn)練。1973年作為訪問學(xué)者到麻省理工學(xué)院的人工智能實驗室工作,從此開始研究視覺,他的理論受到人工智能和神經(jīng)科學(xué)兩方面的影響,是視覺理論的創(chuàng)始人。他1980年去世,完

26、成著作Vision ,這本書是計算神經(jīng)科學(xué)的前驅(qū)也是影響后世最為深遠的視覺理論之一9。Marr 認為,視覺實際上是一種信息處理過程,一種分層次的、在各個階段有不同信息表達方式的、模塊化的和單項的處理過程,是一個由低到高的過程,其最終目標,則是建立一個外部世界的描述10。視覺信息處理的三個層次大概可以描述為:(1原始圖像轉(zhuǎn)換為基本要素圖,要素圖也可稱為基元圖,由二維圖像中的邊緣點、直線段、定點、紋理等基本幾何或特征組成;(2對物體的可視表面、深度與輪廓的描述,Marr 稱之為2.5維的描述,也就是部分的、不完整的三維形狀與位置關(guān)系,是觀察者坐標系下的部分三維物體形狀,包括立體視覺、運動分析、由灰

27、度恢復(fù)表面形狀等處理單元;(3以物體為中心的三維物體的形狀與空間位置的描述,是物體完整的三維描述。這三個層次都要從計算理論、算法描述和硬件實現(xiàn)三個方面去研究。計算理論方面回答系統(tǒng)各個部分的計算目的與計算策略,也就是輸入為二維圖像,輸出為三位物體的位置與形狀參數(shù),還有確定輸入輸出間有無什么變換或者什么約束條件的關(guān)系;算法描述方面給出各個部分的輸入、輸出和內(nèi)部的信息表達,以及實現(xiàn)計算理論所規(guī)定的目標的算法;最后硬件方面內(nèi)容即為用硬件去實現(xiàn)算法。 圖2.2 Marr 視覺理論框架2.2.2 與計算機視覺密切相關(guān)的學(xué)科技術(shù)別、景物分析、圖像理解等。這些學(xué)科有差別但又有某種程度上的相互光亮度變化,信噪比

28、變化等,還可利用圖像處理技和指紋識別等。在計算機定。這個技術(shù)還需要圖像處理以外一些相關(guān)知識,比如景物成像物理規(guī)律等。計算機視覺中需要用到的,但計算機視覺研究的內(nèi)容比這些學(xué)科要更廣一些。有不少學(xué)科的研究目標與計算機視覺相近或與此有關(guān)。這些學(xué)科中包括圖像處理、模式識重疊。圖像處理技術(shù)是把輸入圖像轉(zhuǎn)換成具有所希望特性的另一幅圖像。可以通過處理對圖像進行初步的操作,比如術(shù)進行預(yù)處理和特征抽取。模式識別,或者稱圖像識別,該技術(shù)是根據(jù)從圖像中抽取的統(tǒng)計特性或者結(jié)構(gòu)信息,把圖像分成一些類別?,F(xiàn)在常用的應(yīng)用有文字識別視覺中,模式識別技術(shù)經(jīng)常用于圖像中的局部處理。圖像理解,或者稱景物分析,在人工智能視覺研究的初

29、期經(jīng)常使用景物分析這個術(shù)語,可強調(diào)出二維圖像與三維景物之間的區(qū)別。圖像理解程序不僅僅要描述圖像本身,而且要描述和解釋圖像所代表的景物,以便對圖像代表的內(nèi)容做出相關(guān)決以上的學(xué)科和相關(guān)技術(shù),都是要素圖2.5維圖2.3 雙目立體視覺的研究內(nèi)容雙目立體視覺,顧名思義,雙目就是兩個成像設(shè)備同時對物體進行拍攝,由于兩個設(shè)備所處的位置不同,所以形成的圖像,是不完全重疊的場景。和人眼相似,采用三角測量的方法,從視差中恢復(fù)出物體的深度或遠近甚至凹凸的感覺。這是最簡單的立體技術(shù),也是近期國內(nèi)外研究最多的技術(shù)。 2.3.1 雙目立體視覺概述立體視覺是由多幅圖像(一般是由兩幅圖像獲取物體三維幾何信息的方法。對視覺的研

30、究,心理學(xué)是先驅(qū),很久之前心理學(xué)里就有關(guān)于錯視現(xiàn)象、視覺的相對性等等的研究11。不過這些研究是片面的不系統(tǒng)的。在立體視覺方面,雙目三角測距最早被從事繪畫的人所了解,現(xiàn)在雙目視覺的基礎(chǔ)理論也是以三角測距為基礎(chǔ)的。人類許多的能力都通過雙目立體視覺的技術(shù)被計算機所模擬,比如識別和定位物體、回避障礙物和搜索物體等。好的立體視覺系統(tǒng),對外界的干擾如光照條件、幾何畸變等要有很好的魯棒性,對兩幅圖像的質(zhì)量也應(yīng)有很好的適應(yīng)性,對深度信息檢測的分辨率高。 圖2.3 立體視覺過程示例是對場景的三維重建。本文的主要內(nèi)容就是其中的第三步圖像立體匹配技術(shù)。一個完整的立體視覺過程大概可分為四步(圖2.3:一是通過圖像采集

31、設(shè)備獲取圖像;二是對攝像機進行標定以便確定成像模型中的幾何參數(shù);三是圖像特征提取、圖像匹配;最后2.3.2 深度信息的計算過程計算機視覺系統(tǒng)獲取的圖像一般是灰度圖像,即三維場景在二維平面上的投影。根據(jù)兩個對應(yīng)方向上得到的圖像獲取物體的三維深度信息12。雙目立體視覺中,深度信息的獲得是分下面兩步進行的:第一,在雙目立體圖像之間建立點點對應(yīng),也就是匹配問題;第二根據(jù)對應(yīng)點的視差計算出深度,這是視差問題。在最簡單的雙目立體視覺中,左、右攝像機彼此參數(shù)一致,只有水平方向的視差,簡化了對應(yīng)的過程。 圖2.4 雙目投影示意圖如圖2.3所示,對于空間物體表面上的任一點P ,用和兩個攝像機觀察,分別成像和,如

32、果只用一個攝像機觀察,那么無法由來確定P 的三維位置,因為任何在連線上的點的像都是。若同時用和兩個攝像機拍攝,和有唯一交點P ,這樣就確定了它的三維位置。如果能得到物體表面所有的點的三維坐標,或者物體表面關(guān)鍵點的三維坐標,那么該物體的形狀和位置就是唯一確定的。用立體視覺的方法獲取三維坐標是最基本的方法,下面具體分析計算過程。1C 2C 1N P 2N P 1C 1N P 1O P 1N P 1C 2C 1O P 2O P 假設(shè)和是已標定的攝像機,投影矩陣分別為1C 2C 1M 與2M ,得到兩幅左、右視圖,和分別是P 在左、右圖像中的像點,要進行坐標投影變換,將圖像坐標轉(zhuǎn)換為攝像機坐標,再通過

33、投影矩陣轉(zhuǎn)換為世界坐標有:1N P 2N P 11111111213141111112122232411113132333411c X u m m m m Y Z v m m m m Z m mmm =式(2-122222111213142222222122232422223132333411c X u m m m m YZ v m m m m Z m mmm = 式(2-2其中,與分別是和在左、右圖像中的圖像齊次坐標,11(,1u v 22(,1u v 1N P 2N P 111(,C C C X Y Z 和222(,C C C X Y Z 是空間點P 在攝像機坐標系下的坐標。,C C X

34、Y 可以由u ,v 表示,于是(,與,1u v C Z 相乘就將圖像坐標轉(zhuǎn)換為了攝像機坐標。(,1X Y Z 是P 點在世界坐標系中的齊次坐標,為(1,2;1,2,3;1,2,3,4kij m k i j =k M 的第行、第i j 列元素。做矩陣展開運算,將1C Z 和2C Z 可消去,得:式(2-3111111113111132121331314134111111113121132221332324134(u m m X u m m Y u m m Z m u m v m m X v m m Y v m m Z m v m +=+=11222 式(2-4 22222222311123212

35、2331314234222222223121232222332324234(u m m X u m m Y u m m Z m u m v m m X v m m Y v m m Z m v m +=+=公式(2-3和(2-4均為三維空間的平面方程聯(lián)立,代表了兩平面的交線和,P 點是這兩條線的交點,必然滿足這兩個方程。于是可以再聯(lián)立這兩個方程組四個方程求出三個未知數(shù)11N O P 2N O P ,X Y Z ,必定有解且解唯一,這樣就由圖像上兩像點坐標,求出了P 的真實三維坐標。2.4 雙目立體視覺技術(shù)的應(yīng)用如前文所述,雙目立體視覺技術(shù)已經(jīng)成為現(xiàn)代研究的熱點,也取得了很大的發(fā)展,在科學(xué)研究、軍

36、事、民事領(lǐng)域等都不斷地在應(yīng)用該技術(shù)。該技術(shù)的應(yīng)用主要分為以下幾個方面:首先,圖像分析,即利用雙目立體視覺軟件對已經(jīng)得到的圖像進行分析處理。這方面的典型應(yīng)用有醫(yī)學(xué)中的醫(yī)學(xué)影像檢測和醫(yī)學(xué)三維重建,根據(jù)拍攝的醫(yī)學(xué)影像圖片分析和恢復(fù)病灶的實際情況,醫(yī)務(wù)人員可更容易的得到疾病的真實情況,做出準確診斷。另外,軍事上,我國航空、航天領(lǐng)域大量的應(yīng)用了雙目視覺技術(shù)來處理分析圖像,我國探月衛(wèi)星嫦娥一號拍得的月球表面圖像,隨后經(jīng)技術(shù)手段恢復(fù)出月球表面立體形狀,這個過程中就包含了雙目立體視覺的技術(shù)的應(yīng)用,計算機視覺在國防科技領(lǐng)域中處于非常重要的位置。其次,數(shù)據(jù)分析,即利用雙目視覺軟件對拍攝的信息進行定位識別和監(jiān)控。典

37、型應(yīng)用有場景信息的識別、自然資源監(jiān)控等。這方面的應(yīng)用是設(shè)定好識別對象和監(jiān)控對象后,需要實時的或者定期的回饋識別和監(jiān)控的結(jié)果,對實時性的要求比較高。民事上的應(yīng)用有交通路況檢測、軍事上有特殊區(qū)域監(jiān)控等。第三,模式識別,即對特定的目標進行檢測、識別是否相符合的過程。這方面的應(yīng)用有目標跟蹤定位,指紋、角膜檢測,條碼分析等,可以說是雙目視覺技術(shù)應(yīng)用最為廣泛的方面。民事上可應(yīng)用于安保系統(tǒng)、工業(yè)生產(chǎn)線質(zhì)量檢測等,軍事上模式識別可應(yīng)用在檢測軍事目標、制導(dǎo)領(lǐng)域等方面。雙目立體視覺的應(yīng)用還有很多,比如計算機虛擬現(xiàn)實技術(shù)已經(jīng)應(yīng)用在電影拍攝中,使得電影特效更為逼真絢麗;立體影像技術(shù)應(yīng)用在三維場景恢復(fù)中,如動態(tài)車載導(dǎo)航

38、系統(tǒng)等,所有的應(yīng)用都有巨大的發(fā)展空間,也需要立體視覺技術(shù)的更進一步發(fā)展,克服很多技術(shù)難關(guān)和瓶頸,才能更理想的實現(xiàn),該技術(shù)具有長期的研究價值和實用價值。2.5本章小結(jié)本章主要研究了雙目立體視覺的相關(guān)原理。首先結(jié)合人類視覺原理介紹了計算機立體視覺的基本過程。概括的論述了Marr的視覺理論框架,介紹了與計算機視覺相關(guān)的學(xué)科內(nèi)容。其次,本章指出了立體視覺研究的步驟,給出了框架和原理示意圖,在數(shù)學(xué)方面證明了如何根據(jù)雙目圖像來計算得到物體在真實世界的三維坐標。最后,本章從技術(shù)分類的角度分析了雙目視覺在各個領(lǐng)域的應(yīng)用和未來的發(fā)展,總結(jié)得到了該技術(shù)的研究的長期性和重要性。第三章圖像立體匹配技術(shù)研究與對比分析圖

39、像匹配是指通過一定的匹配算法在兩幅或多幅圖像之間識別同名點的過程,其實是運用匹配準則的最佳搜索問題。圖像匹配目前研究主要是根據(jù)匹配基元的不同可分為以區(qū)域灰度為基礎(chǔ)的匹配、以特征為基礎(chǔ)的匹配等13。圖像立體匹配技術(shù)是雙目視覺研究中的關(guān)鍵,如果該技術(shù)停滯不前,計算機視覺方面的應(yīng)用研究就會受到很大的影響,所以對匹配技術(shù)的鉆研和改進從未停止過。目前雖然目前國內(nèi)外對圖像立體匹配算法的研究非常重視,各種各樣的圖像立體匹配算法都相繼被提出并得到實際應(yīng)用。但由于匹配算法是強依賴于圖像本身的,也就是說不同的圖像立體匹配算法往往針對的是不同類型圖像的匹配,因此迄今為止,尚不存在一種通用的得到大家公認的立體匹配算法

40、可以處理所有類型圖像的匹配問題。正如本文第一章研究意義中所述,匹配技術(shù)要達到理想的效果,即運算高速且效果好,甚至要達到全自動毫無人工參與的要求,還有許多要改進和發(fā)展的空間。本章內(nèi)容是對立體匹配技術(shù)的原理和應(yīng)用進行詳細說明,對比分析幾種立體匹配算法中的常用算子。3.1 圖像立體匹配概述圖像立體匹配是雙目立體視覺中最為關(guān)鍵復(fù)雜的過程,即在兩幅圖像中盡量精確的尋找現(xiàn)實世界中同一點的像對。以其中一幅為基準(一般是左圖像,確定某點的位置后在右圖像中找到與該點最為匹配的點,這之間的搜索規(guī)則,就是各種各樣的匹配算法14。3.1.1 視差分析只根據(jù)一幅圖像,要判斷其中物體的形狀、遠近或者相對位置關(guān)系,排除人類

41、的經(jīng)驗、感覺和心理因素,這樣直接判斷是比較困難的。比如圖 3.1(a中有兩個并排的不同大小的圓球,排除光照等其他因素,只根據(jù)這一幅圖像來判斷,拍攝的有可能是并排的一大一小圓球,但也可能小圓球只是因為距離遠而成像小,很難確定兩個圓球在真實世界中的位置和大小。但如果用兩個角度去拍攝,得到另外一個角度的圖像 3.1(b,找到圓球上同一點的像,根據(jù)它的偏移情況,就可以判斷兩圓球真實的遠近和相對位置,根據(jù)之后介紹的數(shù)學(xué)理論能夠計算它們的具體位置關(guān)系。 機焦距f ,物體上的點在左、右相機圖像面上的投影點分別為。令圖3.1 雙目視覺中的視差 從不同視角得到的相同場景的兩幅圖像中,同一個點在兩幅圖像中成像的位

42、置是不盡相同的,這之間的差值就稱之為視覺偏差,即視差。C lPA圖3.2 雙目視覺中的視差計算原理如圖3.1,l C r C 是兩個圖像采集設(shè)備的光心,l C 和r C 距離為b ,相為P l P r P l l a A P l =,r r b A P l =,r P B ,由相似三角形知識可得:a =bd f a d a l =+ 式(3-1a b b b l l a d f d b l a +=+ 式(3-2 由式(3-1和式(3-2有:a b a bbl a l l l = 式(3-3 b b a b a l bf d fl l l += 式(3-4 由式(3-4可以看出,距離d 的大小

43、與b 、f 和a b l l 有關(guān)。a b l l 就是點P 在左、右兩個圖像上形成的視差,它表示P 點在左、右兩幅圖像中成像點的位置差異。由于f 是已知的,因此,要得到物體上點的真實距離,關(guān)鍵就是要從圖像中求得a b l l 的值。要得到這個值,就要實現(xiàn)空間中同一點P 在左、右兩幅圖像上成像點的對應(yīng)。圖像匹配就是找到這樣像對的過程,找到兩幅圖像中同一原像的點,并求得視差d ,從而可以得到圖像中物體在真實場景中位置關(guān)系,匹配的b 、精度越高,得到的空間坐標點越多,就能更好的真實反應(yīng)出物體的三維情況。3.1.2 圖像匹配相關(guān)的變換基礎(chǔ)分析在圖像匹配技術(shù)中,因為是兩幅或多幅圖像的匹配,所以要建立坐

44、標變換模型,采用一定的數(shù)學(xué)方法將一種坐標系的坐標變換為另一種坐標系的坐標。這樣就可以建立一幅圖像坐標(,x y 與另一幅圖像坐標(','x y 間的對應(yīng)關(guān)系。下面介紹常用在二維空間中,設(shè)的幾種變換:剛體變換、仿射變換、投影變換、非線性變換。第一,剛體變換(Rigid Transformation。剛體變換適用于圖像平移、旋轉(zhuǎn)和反轉(zhuǎn)的情況。圖像中兩點間的距離在經(jīng)過剛體變換后,在另一幅圖像中距離不變。是旋轉(zhuǎn)角,是平移向量,(,T x y t t (,x y 到(','x y 的變換過程為:'cos sin 'sin cos x y t x x t y

45、 m y ±=+式(3-5 后,圖像上的直線經(jīng)過變換后在另一幅圖像中仍為直線且和原直線保持平行。在二維空間,設(shè)是平移向量,是一個實矩陣。變換過程為:第二,仿射變換(Affine Transformation。仿射變換由一個線性變換和一個平移變換結(jié)合而成,適用于圖像平移、旋轉(zhuǎn)、反轉(zhuǎn)和縮放的情況。在經(jīng)過仿射變換(,T x y t t 11122122a a a a 11122122''x y t a a x x t a a y y =+式(3-6 。在經(jīng)過投影變換后,圖像上的直線仍是直線,但不保證平行于變換前直線。第三,投影變換(Projective Transforma

46、tion。正如第二章介紹深度信息計算時描述的,投影變換,是使用投影矩陣來實現(xiàn)的。投影變換適用于除了扭曲之外的所有圖像變形在二維空間,設(shè)投影矩陣為a a a a a a ,投影變換可如式(2-1表示為齊次坐標的形式,也可表示為如下非齊次坐標的方程:111213a a a 212223313233111213212223'''313233x a a a x y a a a z a a a z =y 式(3-7 r Transformatio 線變換后不一定是直線也可能是曲線。非線性變換可以適用于任何的圖像變形,可表示為:第四,非線性變換(Nonlinea n。經(jīng)過非線性變換

47、,圖像上的直 (','(,x y F x y = 式(3-8其中,F 表示(,x y 到(','x y 的某種函數(shù)形式。不同的匹配方法或者圖像條件下,所用到的坐標變換不同,要根據(jù)具體情況適當選擇。本文研究的SIFT 匹配算法中的特征點描述部分就需要用到剛體坐標變換,是因為考慮到本文實現(xiàn)算法使用的圖像扭曲和變形較少,剛體變換的計算也最為簡便和快速。3.2 圖像立體匹配算法的分類可以應(yīng)用像的作用范圍,分為局部匹配和全局匹配。局部匹配時配結(jié)果。經(jīng)過多年的發(fā)展,形成了很多成熟的立體匹配算法15,根據(jù)不同的分類方法,可作如下總結(jié):第一,根據(jù)匹配的稠密程度分為稀疏視差匹配和

48、密集視差匹配。顧名思義,稀疏視差匹配以圖像的邊緣輪廓、線段等明顯的特征作為匹配的內(nèi)容,對兩幅圖像的這些區(qū)域進行匹配即可,得到的視差也是近似的結(jié)果,這樣的匹配方法到對具體數(shù)值不關(guān)心的定性分析上。相反,密集視差匹配則不只以圖像的明顯特征進行匹配,還包括圖像灰度和細節(jié)特征,候選點鄰域間的相關(guān)程度也作為判斷依據(jù)之一,并且之后還要采取一系列的優(yōu)化使匹配速度快、效果好。第二,根據(jù)匹配算法對圖,只根據(jù)局部的相似性來判斷對應(yīng)點的匹配程度,每個匹配相對的匹配過程是獨立的。而全局匹配算法在局部匹配的基礎(chǔ)上,加入了全局性的一些約束條件,試圖尋找最優(yōu)的匹第三,根據(jù)匹配基元的不同分為基于區(qū)域灰度的匹配算法、基于特征的匹

49、配算法和基于相位的匹配算法,這也是被人們最廣泛認同的分類方法。下面對各類別作簡要介紹:(1 基于區(qū)域灰度的匹配16以左圖像的待匹配點為中心創(chuàng)建一個鄰域窗口,分析 首先要對圖像進行預(yù)處理,在預(yù)處理的過程中提取圖像度,所以具有抗干。常用的相位匹配方法為頻率法,信號在空間域上的平移產(chǎn)生頻率域上成比例的相位平移,通常是利用傅里葉變換進行相位匹配。相位本身反映了結(jié)構(gòu)信息,對圖像的噪聲和畸變有抵抗能力,但當某個局部對初始假設(shè)不成立時就失去了有效性,實用性不高其灰度分布。然后在右圖像中創(chuàng)建同樣的鄰域窗口,將這個窗口遍歷右圖像,計算二者的相似性,尋找相似性最大時的鄰域位置,認為那個元素就是待匹配點的相應(yīng)匹配點

50、。該類算法適用于光源理想、畸變小的圖像間匹配,對紋理豐富且平坦的圖像可以得到比較好的匹配效果,但這類算法對圖像噪聲和畸變都缺乏魯棒性,圖像匹配窗口的大小比較難確定,需要多次試驗才能確定最優(yōu)值。 圖3.3 立體匹配算法的分類(2 基于特征的匹配算法的特征,用歐氏距離等方法計算特征間的差別,尋找到最相近的特征點對來確定匹配關(guān)系17 18。不同的特征匹配算法采用的特征描述方法不同,主要有點特征、邊緣特征、區(qū)域特征等。視差較大處往往就是圖像邊緣處,這樣就更容易識別圖像中物體的相對位置。這些特征描述了圖像中景物自身的性質(zhì),不強依賴于圖像的灰擾性,減少了噪聲的影響。另外,圖像特征只是圖像的一部分,因此計算

51、量小,速度較快。但是,特征提取方法的計算代價大,并且需要選出合適的閾值,這不便于實時應(yīng)用。在紋理較少的圖像中,局部特征提取困難,不如像素灰度匹配精度高。因此在很多應(yīng)用中,都將兩種匹配算法相結(jié)合應(yīng)用。(3 基于相位的匹配算法假定圖像中對應(yīng)點的局部相位是相等的,因此該方法的應(yīng)用不如前兩者廣泛,本文不作更多的介紹。3.3 匹配問題中涉及到的基本約束在Marr 的視覺理論中,視覺信息處理三個階段建立要素圖、提取特征等都是想要將圖像客觀物理因素加以利用19,作為匹配時的一些約束條件??偨Y(jié)如下:區(qū)域中灰度的變化情況是相似的,但不適用于遮擋比較多的情況;幾何相,一個待匹配點第三,連續(xù)性約束。與物體表面到攝像

52、機的距離相比,物體表面凹凸引起的變化很小,這樣,匹配得到的視差值變化在圖像中是連續(xù)平滑的。這三個約束條件是大多數(shù)匹配搜索策略的基礎(chǔ),在立體視覺匹配技術(shù)中,添加了約束條件后,能夠很好的提高匹配的正確性和匹配的速度。比分析基于圖像區(qū)域的匹配算子分布。這是最直接也最方便的圖像匹配方法。下面對幾種常見灰度匹配算法作介的搜索窗口之間像素灰度值的差,來度量二者的相關(guān)SAD 和NCC 。根據(jù)不同實現(xiàn)方便,但是,這樣的搜的情況,或待匹配圖是基準圖像中一部分的情況。下面將詳細的介紹這三個常用算子的原理和計算方法,分析各優(yōu)缺點和適用范圍。第一,相似性約束。在圖像立體匹配中,判斷兩個像對是否匹配時要根據(jù)匹配基元的相

53、似性。匹配的像對,是由同一點投影產(chǎn)生的。光學(xué)相似性方面,左、右圖像對應(yīng)似性方面,匹配像對的幾何結(jié)構(gòu)也是相似的。第二,唯一性約束。真實世界中物體表面上的點在左、右成像后在另一幅圖像中只有唯一的點與其匹配,也就是說每個匹配點對只存在一個視差值。3.4 對基于區(qū)域的匹配以左圖像的待匹配點為中心創(chuàng)建一個鄰域窗口,分析其灰度紹和對比分析優(yōu)缺點。3.4.1 ABS 算法ABS (Absolute Balance Search 完全對比搜索,這種算法的思想很簡單也很直接,用基準圖像和待匹配圖像上性。每一個可能的匹配點都對應(yīng)著一個搜索窗口,匹配的過程類似將搜索窗口在待匹配圖像上按照某一順序移動,每移動一次就進

54、行一次基準圖像和搜索窗口間的相關(guān)運算,以此來判斷是否匹配,如果差別小于一定的閾值,就可以認為匹配成功,否則就認為失敗。一般來說,ABS 值的測量主要有三種算子,SSD 、的情況可以選擇最合適的算子。ABS 算法思路簡單、索算法有著明顯的局限性。這種算法比較適用于兩圖像灰度值沒有發(fā)生劇烈變換3.4.2 傳統(tǒng)匹配算子解析(SSD SAD NCCD 、SA 下面分別簡在基于區(qū)域匹配的ABS 計算方法中,傳統(tǒng)的匹配算子有:SS D 、NCC 。要介紹分析。假定有待匹配的左、右圖像1I 和2I ,d 表示兩幅圖像的視差,1(,I x y 和2(,I x y 是兩幅圖像中的像素點。匹配的方法是在圖像2I

55、中尋找與點1(,I x y 匹配的點2(,I x y d +,設(shè)定鄰域大小為(2n+1+1。of Square Differences 差值的平方和,圖像序列中,對應(yīng)像素灰度值之差的平方和,如式域大小的選擇要斟酌,計算量也比較大, of Absolute Value Difference 差值絕對值之和,圖像序列中對應(yīng)像素灰度值之差的絕對值,如式(2m 下面使用不同的算子做圖像匹配:SSD (Sum (3-9。212(,(,(,n mi n j m SSD x y d I x i y j I x i y j d =+ 式(3-9在相應(yīng)鄰域內(nèi),尋找該值最小的點為匹配點。該算子的優(yōu)點是根據(jù)兩幅圖像

56、可直接進行計算,簡單實用,但缺點是鄰遍歷一次鄰域上所有的點才能找到一對匹配像對,效率不高,不具有實時性。SAD (Sum (3-10。12(,(,(,n mi n j m SAD x y d I x i y j I x i y j d =+ 式(3-10選取條件和SSD 相同,在相應(yīng)鄰域內(nèi)尋找該值最小的點為匹配點。該算子同樣簡單實用,但同樣有缺點:運算量大、效率不高、實時性差且鄰域大小在匹配前要反復(fù)測驗才能確定最佳取值。NCC (Normalized Cross Correlation 圖像的歸一化互相關(guān)性,計算公式為:1122(,(,(,(,n m (,I x i y j I x y I x

57、 i y j d I x y d +×+NCC x y d = 式(3-11 (,(,(21(21n m k i n j m k I x i y j I x y n m =+=+ 式 (3-12 (k I 式(3-13 =其中,(,k I x y 是圖像k I 中像素(,x y 的(2n+1(2m+1鄰域像素的平均灰度大小,(k I 是圖像k I 中像素(,x y 的(2n+1(2m+1鄰域像素灰度的標準差。在相應(yīng)鄰域基于圖像像素灰度的匹配算法原理簡單,實現(xiàn)容易,ABS 算法的這三個算子對于圖像的要求都比較高,要求圖像質(zhì)量好且灰度無線性變化。計算量都較大,其中匹配的運算的速度都有待提高。有旋轉(zhuǎn)不變性且對光照條件不敏感23,利用點特征對圖像進行處理既可以減少計算量,也不會損失重要的灰度信息,匹配的速度也會提高。征匹配算子進行介紹,分析其提取特征的過程、對比其優(yōu)缺點和適用范圍。取點特征的算子,該算子是著名的點特來出的基礎(chǔ)內(nèi)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論