版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第六章機(jī)器人視覺(jué)
第一部分響應(yīng)機(jī)器
“機(jī)器人視覺(jué)(computervision)”這個(gè)學(xué)科所研究的問(wèn)題領(lǐng)域十分廣闊,不僅包括通用技術(shù),而且也包括為數(shù)眾多的專用技術(shù)——如字符識(shí)別、相片解釋、臉譜識(shí)別、指紋識(shí)別和機(jī)器人控制等等。概念一??機(jī)器人視覺(jué)的困難主要來(lái)源于難以控制的照明、影像和復(fù)雜而難以描述的物體,如那些室外場(chǎng)景中的物體、非剛性物體或嚙合其他物體的物體。其中有些困難在人造環(huán)境中(如建筑物的室內(nèi)景觀)可得以減輕,而且在這種環(huán)境中研究計(jì)算機(jī)視覺(jué)往往更成功。
?概念二
計(jì)算機(jī)視覺(jué)首先是在一組感光性原件上,如電視攝像機(jī)的光電管,生成一個(gè)場(chǎng)景的圖像(對(duì)立體視覺(jué)需生成兩個(gè)或兩個(gè)以上的圖像)。這個(gè)圖像是攝像機(jī)通過(guò)鏡頭對(duì)在視野中的場(chǎng)景進(jìn)行一個(gè)透視投影,然后光電元件將其轉(zhuǎn)換成一個(gè)二維的、隨時(shí)間變化的亮度矩陣圖像I(x,y,t),其中x和y為光電元件在數(shù)組中的位置,t為時(shí)間(對(duì)有色視覺(jué),需形成三個(gè)這樣的矩陣來(lái)分別代表三原色。但我們?cè)谶@里只考慮單色的情況,同時(shí)排除了可變時(shí)間——即假設(shè)一個(gè)靜態(tài)場(chǎng)景)。一個(gè)由視覺(jué)引導(dǎo)的響應(yīng)agent必須通過(guò)處理這個(gè)矩陣來(lái)產(chǎn)生這個(gè)場(chǎng)景的圖標(biāo)模型或者一組特征,從而使它能直接計(jì)算一個(gè)動(dòng)作。透視投影是多對(duì)一的變換。多個(gè)不同的場(chǎng)景可能生成相同的圖像。
概念三?更麻煩的是,圖像易受到周圍光線不足或其他因素的干擾,這樣,我們就不能直接轉(zhuǎn)換圖像來(lái)重建場(chǎng)景。因此,agent通過(guò)運(yùn)用可能處于有關(guān)場(chǎng)景中的物體的特定知識(shí)、有關(guān)場(chǎng)景中的各種表面的特性以及由這些表面反射回?cái)z像機(jī)的周圍照明度等一般知識(shí)來(lái)從圖像中獲取有用的信息。概念四?
希望獲取信息的種類取決于agent的目的和任務(wù):若要讓一個(gè)agent平安地通過(guò)一個(gè)混亂的環(huán)境,這個(gè)agent必須了解其中物體的位置、邊界、通路以及它所經(jīng)路徑表面的特性。
agent若想要操縱物體,就必須知道這些物體的位置、大小、形狀、成分和構(gòu)造等。對(duì)其他目的而言,agent也許應(yīng)了解顏色并能識(shí)別它們的類別。agent也許還應(yīng)具備根據(jù)每隔一段時(shí)間所有以上信息的變化來(lái)預(yù)測(cè)將來(lái)可能的變化。從一個(gè)或多個(gè)圖像中獲取此類信息將極其困難。
示例基于神經(jīng)網(wǎng)絡(luò)的自治的地面車輛——ALVINN系統(tǒng)
系統(tǒng)的輸入來(lái)自一個(gè)低解析度(30x32)的電視圖像。一個(gè)電視攝像機(jī)被架在汽車上對(duì)準(zhǔn)前面的道路,電視圖像被采樣并為神經(jīng)網(wǎng)絡(luò)產(chǎn)生一系列960維的輸入向量。
網(wǎng)絡(luò)的第一層有5個(gè)隱藏單元,第二層有30個(gè)輸出單元,所有以上單元均為sigmoid單元。輸出單元通過(guò)線性排列來(lái)控制汽車的角度。若此輸出單元隊(duì)列的頂端附近的一個(gè)輸出單元的輸出比其他大多數(shù)輸出單元高,則車往左行駛;若在此隊(duì)列的底端附近的一個(gè)單元的輸出較高,則車往右行駛。計(jì)算出所有這些輸出單元的響應(yīng)的“質(zhì)心”,并且把此車的駕駛角度設(shè)置為完全向左和完全向右之間相應(yīng)的一個(gè)值。
說(shuō)明機(jī)器人視覺(jué)的兩個(gè)階段
有兩種計(jì)算機(jī)視覺(jué)技術(shù)對(duì)勾勒出與場(chǎng)景中的物體相關(guān)的各部分圖像的輪廓十分有用:一種技術(shù)是在圖像中尋找“邊緣”。一個(gè)圖像邊緣是圖像的一部分,圖像亮度或其他圖像的特性在此處陡然變化。另一種技術(shù)試圖把圖像分為幾個(gè)區(qū)域,一個(gè)區(qū)域也是圖像的一部分,圖像亮度或其他圖像的特性在此處緩慢變化。圖像中的邊緣和區(qū)域之間的邊界,經(jīng)常但不總是與場(chǎng)景中產(chǎn)生圖像的那些重要的、與物體相關(guān)的不連續(xù)點(diǎn)相對(duì)應(yīng)。
圖像處理階段主要把原始圖像轉(zhuǎn)換成更適合于景物分段的圖像。圖像處理包括降低噪聲、增強(qiáng)邊緣和尋找圖像區(qū)域等不同的濾波操作。
實(shí)際的機(jī)器人視覺(jué)涉及更多的階段,而且這些階段一般都相互影響。視覺(jué)處理過(guò)程可分成兩個(gè)主要階段:
景物分析階段主要試圖從已處理的圖像中產(chǎn)生一個(gè)對(duì)原始場(chǎng)景的圖標(biāo)描述或基于特征的描述,并提供agent所處場(chǎng)景中與特定任務(wù)有關(guān)的信息。示例首先,圖像處理排除偽造的噪聲并增強(qiáng)物體的邊緣以及其他不連續(xù)點(diǎn)。接著,已知世界中的物體的形狀均由直線邊界構(gòu)成,景物分析會(huì)產(chǎn)生一個(gè)對(duì)此世界的圖標(biāo)表示(與用于計(jì)算機(jī)圖形學(xué)中的模型相似)。通常,這個(gè)圖標(biāo)模型用來(lái)更新存儲(chǔ)在內(nèi)存中的更全面的環(huán)境模型,然后計(jì)算出適合于這個(gè)假設(shè)環(huán)境狀態(tài)的動(dòng)作。假設(shè)只有積木的布局比較重要。那么,圖標(biāo)模型應(yīng)為一個(gè)表結(jié)構(gòu)((CBAFLOOR)),它表示C在B上,B在A上,而A在地板上。若C被移到地板上,那么圖標(biāo)模型應(yīng)為((CFLOOR)(BAFLOOR))(也可以是((BAFLOOR)(CFLOOR)),但這里我們假設(shè)積木的相對(duì)水平位置無(wú)關(guān)緊要,這樣,表結(jié)構(gòu)的第一級(jí)元素的順序就無(wú)表達(dá)意義)。因?yàn)槊恳粋€(gè)元件的最后一個(gè)元素均為FLOOR,所以我們可以去掉這一項(xiàng)來(lái)縮短表結(jié)構(gòu)。
對(duì)于根本不用圖標(biāo)模型的機(jī)器人來(lái)說(shuō),景物分析會(huì)用另一種方法把處理過(guò)的圖像直接轉(zhuǎn)換成適合于機(jī)器人任務(wù)的特征。如,若機(jī)器人必須判定積木C上是會(huì)有其他積木,那么,一個(gè)對(duì)環(huán)境的描述應(yīng)包括一個(gè)特征值,如CLEAR_C,積木C上無(wú)其他物體時(shí)這個(gè)特征值為1,否則為0。圖像處理1.平均法假設(shè)初始圖像可表達(dá)為一個(gè)m×n數(shù)組I(x,y),我們稱之為“圖像亮度數(shù)組(imageintensityarray)”。它把圖像平面分成許多被稱為“象素(pixel)”的單元。這些數(shù)字表示這幅圖像中某點(diǎn)的光亮度。圖像中一些不規(guī)則之處可通過(guò)求平均數(shù)的方法得以平滑。這個(gè)平滑操作就是把一個(gè)求平均數(shù)的窗口在整個(gè)數(shù)組中滑動(dòng)。這一求平均數(shù)的窗口對(duì)準(zhǔn)每個(gè)像素的中心,并計(jì)算出在求平均數(shù)窗口內(nèi)的數(shù)字的加權(quán)總和,然后把此象素的初始值替換為這個(gè)加權(quán)總和。這種滑動(dòng)并求和的操作稱為“卷積(convolution)”。若我們希望所得的數(shù)組是二進(jìn)制數(shù)字(1或0),那么就必須把這些加權(quán)總和與一個(gè)閾值比較。平均法的作用:平均法不僅將壓縮孤立的噪音點(diǎn),而且將減小圖像的卷曲度(crispness),并放棄那些微不足道的圖像元素。
卷積是從信號(hào)處理中得來(lái)的操作。它通常被解釋成對(duì)波形(沿時(shí)間軸滑動(dòng))的一維的操作。若我們沿一個(gè)信號(hào)s(t)滑動(dòng)或卷積一個(gè)函數(shù)w(t)后,將得到平均信號(hào)s*(t):(用*來(lái)表示卷積)圖像處理中的二維離散式卷積如下:
這里,I(x,y)是初始圖像的數(shù)組,W(u,v)是卷積加權(quán)函數(shù)。假設(shè)I(x,y)=0當(dāng)且僅當(dāng)x<0或x≥n,且y<0或y≥m(這樣,這個(gè)卷積操作會(huì)在圖像的邊界附近產(chǎn)生一些“邊緣效應(yīng)”)。用于平滑的常用函數(shù)是一個(gè)二維高斯函數(shù)(Gaussian)
2.邊緣增強(qiáng)
獲取輪廓的方法之一是先增強(qiáng)圖像中的邊界和邊緣,邊緣可以是圖像各部分之間的任意邊界,這些邊緣的特性,如亮度,彼此之間明顯不同。
3.邊緣增強(qiáng)與平均法的結(jié)合
邊緣增強(qiáng)本身將在增強(qiáng)邊緣的同時(shí)突出圖像中的假噪聲元素。為了減小對(duì)噪聲的敏感度,可以先用平均法再用邊緣增強(qiáng)來(lái)把兩種操作結(jié)合起來(lái)。
首先用一維高斯函數(shù)對(duì)連續(xù)的一維圖像進(jìn)行平滑處理:隨后,通過(guò)邊緣增強(qiáng)得出:在二維空間中把邊緣增強(qiáng)和高斯平滑結(jié)合起來(lái),二維高斯函數(shù)的拉普拉斯變換有點(diǎn)像一頂?shù)怪玫拿弊樱?這里,移動(dòng)了坐標(biāo)空間)。它又被稱為“sombrero(寬邊帽)函數(shù)”,帽寬決定了平滑度。用這個(gè)帽函數(shù)來(lái)卷積圖像,就可以完成整個(gè)求平均和邊緣尋找的操作。這個(gè)操作又被稱為“拉普拉斯過(guò)濾(laplacianfiltering)”,它產(chǎn)生的圖像叫做“拉普拉斯過(guò)濾圖像”。
4.區(qū)域查找另—種處理圖像的方法試圖在圖像中查找亮度或其他特性,如紋理等變化不突然的“區(qū)域”。從某種意義上來(lái)講,查找區(qū)域是查找輪廓的對(duì)等物(dual);這兩種技術(shù)均把圖像分割成我們所希望的與場(chǎng)景相關(guān)的若干部分,但由于二者均對(duì)噪聲比較敏感,因此這兩種技術(shù)通常用來(lái)互補(bǔ)。一個(gè)區(qū)域就是一組滿足以下特性的相互連接的像素:1)一個(gè)區(qū)域由類似的成分組成。常用的同質(zhì)特性(homogeneityproperty)如下:
(a)在這個(gè)區(qū)域中,像素的亮度值之間的差別不超過(guò)某個(gè)ε。
(b)k次多項(xiàng)式(k的值比較低且事先指定)的表面可與此區(qū)域內(nèi)像素的亮度值以小于ε的最大誤差(即表面與區(qū)域亮度值之間的誤差)擬合。2)任意兩個(gè)毗鄰的區(qū)域內(nèi)的所有象素的組合不滿足同質(zhì)特性。
通常,把一個(gè)圖像分割成區(qū)域的方式不止一種,但每個(gè)區(qū)域總是與世界中的一個(gè)物體或其有意義的一部分相對(duì)應(yīng)。
5.運(yùn)用亮度以外的其他圖像的屬性邊緣增強(qiáng)和區(qū)域查找還可以基于除圖像亮度的同質(zhì)特性以外的其他圖像屬性。世界上眾多物體的表面反光度有細(xì)微的差別,我們稱之為視覺(jué)紋理。如一片草地、一塊地毯、一簇樹(shù)葉、動(dòng)物的皮毛等等,它們的表面反光度均彼此不同。而這些物體反光度的強(qiáng)異會(huì)在圖像高度上產(chǎn)生類似細(xì)微差別。
結(jié)構(gòu)化方法力圖用由原始“texels”(即是由黑白部分組成的微小形狀)構(gòu)成的棋盤(pán)形布置來(lái)表示圖像區(qū)域。
統(tǒng)計(jì)方法基于以下觀點(diǎn):圖像區(qū)域的亮度值的概率分布能很好地描述圖像的紋理。
場(chǎng)景分析
在用以上所討論的技術(shù)對(duì)圖像進(jìn)行處理后,我們力圖從中獲取所需的有關(guān)場(chǎng)景的信息。計(jì)算機(jī)視覺(jué)的這個(gè)階段被稱為“場(chǎng)景分析(sceneanalysis)”。由于場(chǎng)景——圖像的轉(zhuǎn)換是多對(duì)一的,場(chǎng)景分析需要其他補(bǔ)充圖像或有關(guān)將遇到的場(chǎng)景種類的大體信息。
表面反光度特性和圖像亮度的明暗常用來(lái)給出場(chǎng)景中光滑物體形狀的信息。而圖像明暗尤其能幫助我們計(jì)算物體的表面法線。
圖標(biāo)景物分析通常力圖建立一個(gè)場(chǎng)景或部分場(chǎng)景的模型。基于特征的景物分析僅獲取當(dāng)前任務(wù)所需的場(chǎng)景的特征。一種有代表性的基于特征的景物分析被稱作“面向任務(wù)的(task-oriented)”或“意圖(purposive)”視覺(jué)。
1.解釋圖像中的線條和曲線
可以通過(guò)采用把直線段與邊緣或區(qū)域的邊界擬合的技術(shù)來(lái)生成直線。對(duì)于包含曲線物體的場(chǎng)景,我們可以把圓錐截面(如橢圓、拋物線和雙曲線)與原始輪廓或區(qū)域的邊界擬合來(lái)生成曲線。在經(jīng)過(guò)去除短線、在端點(diǎn)處連接直線和曲線這些技術(shù)操作后,把圖像轉(zhuǎn)化成一個(gè)線條畫(huà)(linedrawing),這幅線條畫(huà)可用于進(jìn)一步解釋。有很多把場(chǎng)景特性與線條畫(huà)的元素相結(jié)合的策略。這樣的結(jié)合稱為“解釋(interpreting)”線條畫(huà)。
在這種策略中,已知場(chǎng)景僅包含平面,從而使相交于一點(diǎn)的平面不超過(guò)三個(gè)(這種平面組合體稱為“三面體頂點(diǎn)多面體(trihedralvertexpolyhedral)”)。一種解釋線條畫(huà)的策略典型例子:它是一個(gè)由邊界墻、地板、天花板和一地板上的正方體組成的室內(nèi)場(chǎng)景。在這樣的場(chǎng)景中,由兩個(gè)相交平面組成的場(chǎng)景的邊緣只有三種。一種邊緣的兩個(gè)相交平面的其中一個(gè)遮住了另一個(gè)(即在場(chǎng)景中只能看見(jiàn)其中的一個(gè)平面),這種邊緣稱為“occlude”。箭頭沿邊緣的指向使得遮住另一個(gè)平面的平面位于箭頭的右邊。另兩種邊緣的兩個(gè)相交平面在場(chǎng)景中均可見(jiàn)。其中形成的凸邊稱為“刀刃(blade)”,圖中的標(biāo)記為加號(hào)(十);形成的凹邊稱為“折痕(fold)”,圖中的標(biāo)記為減號(hào)(—)。標(biāo)記線條的景物分析過(guò)程如下:首先,根據(jù)線條連接的形狀,給圖像中所有的連接點(diǎn)分別標(biāo)上V、W、Y或T。在前圖的房間場(chǎng)景的圖像中,已經(jīng)按以上方法給連接點(diǎn)作好了標(biāo)記。然后,再給圖像中的線條分別標(biāo)上十、-或,但必須遵循上圖中的規(guī)則。而且,連接兩個(gè)連接點(diǎn)的圖像線條的標(biāo)記必須前后一致。這些約束條件通常(但不是總是)導(dǎo)致只能有一種標(biāo)記方法。若這些標(biāo)記前后不一致,那么,在把圖像轉(zhuǎn)化成線條畫(huà)時(shí)就會(huì)出錯(cuò),或者這時(shí)所用的場(chǎng)景不是三面體多面體。在給圖像線條作標(biāo)記時(shí),由這些約束條件產(chǎn)生的問(wèn)題在人工智能中稱為“約束滿足問(wèn)題”?;谀P偷囊曈X(jué)
我們可用不同的模型元素和模型擬合來(lái)生成一個(gè)整個(gè)場(chǎng)景的圖標(biāo)模型,或得到足夠的有關(guān)場(chǎng)景的信息來(lái)獲取當(dāng)前任務(wù)所需的特征。通過(guò)把實(shí)際圖像與用場(chǎng)景分析得來(lái)的圖標(biāo)模型構(gòu)建的模擬圖像進(jìn)行比較,基于模型的方法能測(cè)試這些模擬圖像的準(zhǔn)確度。這些模擬圖像必須由運(yùn)用參數(shù)的模型來(lái)繪制,而這些參數(shù)與圖像處理過(guò)程所用的參數(shù)(如攝像機(jī)角度等)相似。這樣,就需要照明、表面反光特征以及計(jì)算機(jī)圖形學(xué)的繪圖過(guò)程的其他各方面的所有合適的模型。立體視覺(jué)和深度信息
透視投影會(huì)使一個(gè)大而遠(yuǎn)的物體與一個(gè)與其相似的小而近的物體所產(chǎn)生的圖像相同。這樣,從單個(gè)圖像估量物體的距離就十分困難了。但我們可運(yùn)用立體視覺(jué)(
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 課題申報(bào)參考:巨災(zāi)指數(shù)保險(xiǎn)調(diào)節(jié)下政府應(yīng)急物資采儲(chǔ)策略優(yōu)化研究
- 課題申報(bào)參考:教育強(qiáng)國(guó)與新質(zhì)生產(chǎn)力研究
- 2025年度個(gè)人屋頂光伏安裝合同范本3篇
- 2025年塔城b2考貨運(yùn)資格證要多久
- 2025個(gè)人蝦池承包養(yǎng)殖資源整合與開(kāi)發(fā)合同3篇
- 十佳書(shū)香家庭事跡
- 二零二五版智能農(nóng)業(yè)監(jiān)測(cè)系統(tǒng)采購(gòu)合同提升農(nóng)業(yè)效率4篇
- 二零二五學(xué)校與家長(zhǎng)聯(lián)合實(shí)施家校共育行動(dòng)計(jì)劃3篇
- 2025年度北京商品房買賣合同(含智能家居系統(tǒng)升級(jí)承諾)3篇
- 2025年個(gè)人間信息保密與責(zé)任承擔(dān)協(xié)議書(shū)3篇
- 2024版?zhèn)€人私有房屋購(gòu)買合同
- 2024爆炸物運(yùn)輸安全保障協(xié)議版B版
- 2025年度軍人軍事秘密保護(hù)保密協(xié)議與信息安全風(fēng)險(xiǎn)評(píng)估合同3篇
- 《食品與食品》課件
- 讀書(shū)分享會(huì)《白夜行》
- 光伏工程施工組織設(shè)計(jì)
- DB4101-T 121-2024 類家庭社會(huì)工作服務(wù)規(guī)范
- 化學(xué)纖維的鑒別與測(cè)試方法考核試卷
- 2024-2025學(xué)年全國(guó)中學(xué)生天文知識(shí)競(jìng)賽考試題庫(kù)(含答案)
- 自動(dòng)駕駛汽車道路交通安全性探討研究論文
- 術(shù)后譫妄及護(hù)理
評(píng)論
0/150
提交評(píng)論