計算機(jī)視覺發(fā)展史課件_第1頁
計算機(jī)視覺發(fā)展史課件_第2頁
計算機(jī)視覺發(fā)展史課件_第3頁
計算機(jī)視覺發(fā)展史課件_第4頁
計算機(jī)視覺發(fā)展史課件_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、29 七月 20221參考教材: 賈云得 機(jī)器視覺科學(xué)出版社,2000參考書目:1、圖像處理、分析與機(jī)器視覺(第二版) M.Sonka,V.Hlavac,R.Boyle著,艾海舟等譯, 人民郵電出版社,20032、機(jī)器視覺教程W.E.Snyder,H.Qi著 林學(xué)訚等譯,機(jī)械工業(yè)出版社,20053、計算機(jī)視覺馬頌德著,科學(xué)出版社,1999課程教材29 七月 202221. 引言 智能機(jī)器: 能模擬人類的功能,能感知外部世界并有效地解決人所能解決問題感知系統(tǒng):人類感知外部世界主要是通過視覺、觸覺、聽覺和嗅覺等感覺器官,其中約80%的信息是由視覺獲取的因此,對于智能機(jī)器來說,賦予機(jī)器以人類視覺功能

2、對發(fā)展智能機(jī)器是及其重要的,也由此形成了一門新的學(xué)科計算機(jī)視覺(也稱機(jī)器視覺或圖像分析與理解等)計算機(jī)視覺的發(fā)展不僅將大大推動智能系統(tǒng)的發(fā)展,也將拓寬計算機(jī)與各種智能機(jī)器的研究范圍和應(yīng)用領(lǐng)域 計算機(jī)視覺:研究用計算機(jī)來模擬生物視覺功能的科學(xué)和技術(shù)計算機(jī)視覺系統(tǒng)的首要目標(biāo)是用圖像創(chuàng)建或恢復(fù)現(xiàn)實(shí)世界模型,然后認(rèn)知現(xiàn)實(shí)世界29 七月 20223 20世紀(jì)50年代歸入模式識別-主要集中在二維圖像分析和識別上,如,光學(xué)字符識別,工件表面、顯微圖片和航空圖片的分析和解釋等60年代MIT 的Roberts通過計算機(jī)程序從數(shù)字圖像中提取出諸如立方體、楔形體、棱柱體等多面體的三維結(jié)構(gòu),并對物體形狀及物體的空間關(guān)

3、系進(jìn)行描述Roberts 的研究工作開創(chuàng)了以理解三維場景為目的的三維計算機(jī)視覺的研究Roberts對積木世界的創(chuàng)造性研究給人們以極大的啟發(fā),許多人相信,一旦由白色積木玩具組成的三維世界可以被理解,則可以推廣到理解更復(fù)雜的三維場景70年代,已經(jīng)出現(xiàn)了一些視覺應(yīng)用系統(tǒng)70年代中期,麻省理工學(xué)院(MIT)人工智能(AI)實(shí)驗(yàn)室正式開設(shè)“計算機(jī)視覺” (Machine Vision) 課程,由BKPHorn教授講授2. 計算機(jī)視覺發(fā)展29 七月 20224MIT AI 實(shí)驗(yàn)室吸引了國際上許多知名學(xué)者參與計算機(jī)視覺的理論、算法、系統(tǒng)設(shè)計的研究,David Marr教授就是其中的一位他于1973年應(yīng)邀在M

4、IT AI 實(shí)驗(yàn)室領(lǐng)導(dǎo)一個以博士生為主體的研究小組,1977年提出了不同于“積木世界”分析方法的計算視覺理論(computational vision),該理論在80年代成為計算機(jī)視覺研究領(lǐng)域中的一個十分重要的理論框架29 七月 20225研究熱潮是從 20世紀(jì)80年代開始的,到了80年代中期,計算機(jī)視覺獲得了蓬勃發(fā)展,新概念、新方法、新理論不斷涌現(xiàn),比如,基于感知特征群的物體識別理論框架,主動視覺理論框架,視覺集成理論框架等Marr的計算理論29 七月 20226許多會議論文集都反應(yīng)了該領(lǐng)域的最新進(jìn)展,比如:Int. Conf. on Computer Vision and Pattern

5、Recognition (CVPR); Int. Conf. on Computer Vision(ICCV); Int. Conf. on Pattern Recognition(ICPR); Int. Conf. on Robotics and Automation(ICRA); Workshop on Computer Vision, SPIE還有許多學(xué)術(shù)期刊也包含了這一領(lǐng)域的最新研究成果, 如:IEEE Trans. on Pattern Analysis and Machine Intelligence(PAMI); Computer Vision, Graphics, and Im

6、age Processing(CVGIP); IEEE Trans. on Image Processing; IEEE Trans. on Systems, Man, and Cybernetics(SMC); Machine Vision and Applications; Int. J on Computer Vision(IJCV); Image and Vision Computing; Pattern Recognition29 七月 202273. Marr的視覺計算理論Marr 的視覺計算理論Marr1982立足于計算機(jī)科學(xué),系統(tǒng)地概括了心理生理學(xué)、神經(jīng)生理學(xué)等方面取得的所有重

7、要成果,是視覺研究中迄今為止最為完善的視覺理論 Marr 建立的視覺計算理論,使計算機(jī)視覺研究有了一個比較明確的體系,并大大推動了計算機(jī)視覺研究的發(fā)展人們普遍認(rèn)為,計算機(jī)視覺這門學(xué)科的形成與Marr的視覺理論有著密切的關(guān)系29 七月 20228 3.1 信息處理三個層次29 七月 202293.2 視覺表示框架第一階段(也稱為早期階段)是將輸入的原始圖像進(jìn)行處理,抽取圖像中諸如角點(diǎn)、邊緣、紋理、線條、邊界等基本特征,這些特征的集合稱為基元圖(primitive sketch);第二階段(中期階段)是指在以觀測者為中心的坐標(biāo)系中,由輸入圖像和基元圖恢復(fù)場景可見部分的深度、法線方向、輪廓等,這些信

8、息的包含了深度信息,但不是真正的物體三維表示,因此,稱為二維半圖(25 dimensional sketch);第三階段(后期階段)是在以物體為中心的坐標(biāo)系中,由輸入圖像、基元圖、二維半圖來恢復(fù)、表示和識別三維物體。29 七月 202210表1-2 由圖像恢復(fù)形狀信息的表示框架名 稱目 的基 元圖像光強(qiáng)表示圖像中每一點(diǎn)的強(qiáng)度值基元圖表示二維圖像中的重要信息,主要是圖像中的強(qiáng)度變化位置及其幾何分布和組織結(jié)構(gòu)零交叉,斑點(diǎn),端點(diǎn)和不連續(xù)點(diǎn),邊緣片斷,有效線段,組合群,曲線組織,邊界 25維圖在以觀測者為中心的坐標(biāo)系中,表示可見表面的方向、深度值和不連續(xù)的輪廓局部表面朝向(“針”基元)離觀測者的距離深

9、度上的不連續(xù)點(diǎn)表面朝向的不連續(xù)點(diǎn)3維模型表示在以物體為中心的坐標(biāo)系中,用由體積基元和面積基元構(gòu)成的模塊化多層次表示,描述形狀及其空間組織形式分層次組成若干三維模型,每個三維模型都是在幾個軸線空間的基礎(chǔ)上構(gòu)成的,所有體積基元或面積形狀基元都附著在軸線上29 七月 202211Marr理論是計算機(jī)視覺研究領(lǐng)域的劃時代成就,但該理論不是十分完善的,許多方面還有爭議比如: 視覺處理框架基本上是自下而上,沒有反饋; 沒有足夠地重視知識的應(yīng)用Marr理論給了我們研究計算機(jī)視覺許多珍貴的哲學(xué)思想和研究方法,同時也給計算機(jī)視覺研究領(lǐng)域創(chuàng)造了許多研究起點(diǎn)。3.3 Marr 視覺理論的不足29 七月 202212

10、29 七月 2022134. 計算機(jī)視覺的應(yīng)用 零件識別與定位 (工業(yè)生產(chǎn)線) 產(chǎn)品檢驗(yàn) (紡織工業(yè)棉花質(zhì)量檢驗(yàn)) 移動機(jī)器人導(dǎo)航(星球機(jī)器人) 遙感圖像分析(植被分析) 醫(yī)學(xué)圖像分析(骨骼定位) 安全鑒別、監(jiān)視與跟蹤(門禁系統(tǒng)) 國防系統(tǒng)(目標(biāo)自動識別ATR與目標(biāo)跟蹤) 其它(動畫、體育、考古)29 七月 202214Sojourner 火星車前部圖,中部的兩個小突出是兩個黑白CCD攝像機(jī)29 七月 20221529 七月 202216Rocky 7 火星機(jī)器人29 七月 20221729 七月 202218 Rocky7視覺系統(tǒng)獲取的立體圖象對障礙物探測示意圖Rocky7 視覺系統(tǒng)對場景的

11、深度恢復(fù) 29 七月 202219CMU月球探測實(shí)驗(yàn)車Nomad漫游者29 七月 202220月球探測實(shí)驗(yàn)車Nomad漫游者29 七月 202221昆蟲機(jī)器人足球機(jī)器人足球機(jī)器人29 七月 202222日本 Honda 仿人機(jī)器人29 七月 202223具有立體視覺的機(jī)器人29 七月 202224人頭部跟蹤演示29 七月 202225MIT Media Lab ,與虛擬生物交互演示29 七月 202226基于恢復(fù)圖象序列的五角大樓三維重建29 七月 202227基于圖象序列的三維人臉恢復(fù)29 七月 202228視覺系統(tǒng)坐標(biāo)系像素坐標(biāo):表示圖像陣列中圖像像素的位置;圖像平面坐標(biāo):表示場景點(diǎn)在圖像

12、平面上的投 影;攝象機(jī)坐標(biāo):即以觀察者為中心的坐標(biāo),將場 景點(diǎn)表示成以觀察者為中心的數(shù)據(jù)形式場景坐標(biāo):也稱作絕對坐標(biāo)(或世界坐標(biāo)),用于 表示場景點(diǎn)的絕對坐標(biāo);29 七月 2022295. 計算機(jī)視覺的研究內(nèi)容一、輸入設(shè)備(input device) 包括成像設(shè)備和數(shù)字化設(shè)備成象設(shè)備是指通過光學(xué)攝像機(jī)或紅外、激光、超聲、X射線對周圍場景或物體進(jìn)行探測成象,得到關(guān)于場景或物體的二維或三維數(shù)字化圖像二、低層視覺(low level) 主要是對輸入的原始圖像進(jìn)行處理這一過程借用了大量的圖像處理技術(shù)和算法,如圖像濾波、圖像增強(qiáng)、邊緣檢測等,以便從圖像中抽取諸如角點(diǎn)、邊緣、線條、邊界以及色彩等關(guān)于場景的

13、基本特征;這一過程還包含了各種圖像變換(如校正)、圖像紋理檢測、圖像運(yùn)動檢測等29 七月 202230三、中層視覺(middle level) 主要任務(wù)是恢復(fù)場景的深度、表面法線方向、輪廓等有關(guān)場景的25維信息,實(shí)現(xiàn)的途徑有立體視覺(stereo vision)、測距成像(rangefinder)運(yùn)動估計(motion estimation)、明暗特征、紋理特征等. 系統(tǒng)標(biāo)定、系統(tǒng)成像模型等研究內(nèi)容一般也是在這個層次上進(jìn)行的四、高層視覺(high level) 主要任務(wù)是在以物體為中心的坐標(biāo)系中,在原始輸入圖像、圖像基本特征、25維圖的基礎(chǔ)上,恢復(fù)物體的完整三維圖,建立物體三維描述,識別三維物

14、體并確定物體的位置和方向29 七月 2022316. 計算機(jī)視覺研究面臨的困難(1) 圖像多義性: 三維場景被投影為二維圖像,深度和不可見部分的信息被丟失,因而會出現(xiàn)不同形狀的三維物體投影在圖像平面上產(chǎn)生相同圖像的問題另外,在不同角度獲取同一物體的圖像會有很大的差異(2)環(huán)境因素影響:場景中的諸多因素,包括照明、物體形狀、表面顏色、攝像機(jī)以及空間關(guān)系變化都會對成像有影響,(3)知識導(dǎo)引: 同樣的圖像在不同的知識導(dǎo)引下,將會產(chǎn)生不同的識別結(jié)果(4)大量數(shù)據(jù): 灰度圖像,彩色圖像,深度圖像的信息量十分巨大,巨大的數(shù)據(jù)量需要很大的存貯空間,同時不易實(shí)現(xiàn)快速處理29 七月 2022327. 計算機(jī)視覺

15、與其它學(xué)科領(lǐng)域的關(guān)系(1)圖像處理:圖像處理通常是把一幅圖像變換成另外一幅圖像,也就是說,圖像處理系統(tǒng)的輸入是圖像,輸出仍然是圖像,信息恢復(fù)任務(wù)則留給人來完成(2)計算機(jī)圖形學(xué):通過幾何基元,如線、圓和自由曲面,來生成圖像,它在可視化(Visualization)和虛擬現(xiàn)實(shí)(Virtual Reality)中起著很重要的作用計算機(jī)視覺正好是解決相反的問題,即從圖像中估計幾何基元和其它特征因此,計算機(jī)圖形學(xué)屬于圖像綜合,計算機(jī)視覺屬于圖像分析(3)模式識別:用于識別各種符號、圖畫等平面圖形模式一般指一類事物區(qū)別于其它事物所具有的共同特征。模式識別方法有統(tǒng)計方法和句法方法兩種,統(tǒng)計方法是指從模式抽

16、取一組特征值,并以劃分特征空間的方法來識別每一個模式29 七月 202233(4)人工智能(AI):涉及到智能系統(tǒng)的設(shè)計和智能計算的研究在經(jīng)過圖像處理和圖像特征提取過程后,接下來要用人工智能方法對場景特征進(jìn)行表示,并分析和理解場景人工智能有三個過程:感知、認(rèn)知和行動(5)人工神經(jīng)網(wǎng)絡(luò)(ANNs):是一種信息處理系統(tǒng),它是由大量簡單的處理單元(稱為神經(jīng)元)通過具有強(qiáng)度的連接相互聯(lián)系起來,實(shí)現(xiàn)并行分布式處理(PDP)人工神經(jīng)網(wǎng)絡(luò)的最大特點(diǎn)是可以通過改變連接強(qiáng)度來調(diào)整系統(tǒng),使之適應(yīng)復(fù)雜的環(huán)境,實(shí)現(xiàn)類似人的學(xué)習(xí)、歸納和分類等功能(6)神經(jīng)物理學(xué)與認(rèn)知科學(xué):將人類視覺作為主要的研究對象計算機(jī)視覺中已有的

17、許多方法與人類視覺極為相似許多計算機(jī)視覺研究者對研究人類視覺計算模型比研究計算機(jī)視覺系統(tǒng)更感興趣,希望計算機(jī)視覺更加自然化,更加接近生物視覺29 七月 2022348. 計算機(jī)視覺研究對策 研究人員不斷尋求新的途徑和手段,比如,主動視覺(active vision),面向任務(wù)的視覺(task-oriented vision),基于知識、基于模型的視覺,以及多傳感融合和集成視覺等方法,其中人們越來越重視對知識的應(yīng)用我們會看到,計算機(jī)視覺系統(tǒng)的最大特征是,在視覺的各個階段,系統(tǒng)盡可能地進(jìn)行自動運(yùn)算為此,系統(tǒng)需要使用各種知識,包括特征模型、成像過程、物體模型和物體間的關(guān)系如果計算機(jī)視覺系統(tǒng)不用這些知

18、識,則其應(yīng)用的范圍及其功能將十分有限因此,視覺系統(tǒng)應(yīng)該使用那些可以被明確表示的知識,以使系統(tǒng)具有更高的適應(yīng)性和魯棒性合理地使用知識不僅可以有效地提高系統(tǒng)的適應(yīng)性和魯棒性,而且可以求解計算機(jī)視覺中較難的問題29 七月 2022351基于視覺感知與認(rèn)知機(jī)理的圖像分析與識別系統(tǒng)研究目標(biāo):突破基于人類視覺感知與認(rèn)知機(jī)理的圖像處理模型、 關(guān)鍵技術(shù)和算法,建立個性化、高準(zhǔn)確度的圖像分析 與識別系統(tǒng)。研究內(nèi)容:分層交互的統(tǒng)計視覺計算模型與推理,基于感知整 合機(jī)制的視覺模式識別技術(shù),具有選擇性注意機(jī)制的 視覺信息搜索與多目標(biāo)跟蹤模型 。863計劃信息技術(shù)領(lǐng)域2006年度專題課題申請指南目標(biāo)導(dǎo)向類課題 :29 七月 2022362復(fù)雜應(yīng)用環(huán)境下的生物特征識別系統(tǒng)研究目標(biāo):突破安全便捷的、高可靠性的多生物特征獲取及識 別算法,建立面向典型應(yīng)用的生物特征識別與認(rèn)證原 型系統(tǒng)。研究內(nèi)容:臉相、虹膜、掌紋等多生物特征獲取技術(shù),大規(guī)模 生物特征庫的分類和檢索,具有魯棒性的生物

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論