(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)視頻對象分割技術(shù)研究.pdf_第1頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)視頻對象分割技術(shù)研究.pdf_第2頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)視頻對象分割技術(shù)研究.pdf_第3頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)視頻對象分割技術(shù)研究.pdf_第4頁
(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)視頻對象分割技術(shù)研究.pdf_第5頁
已閱讀5頁,還剩56頁未讀 繼續(xù)免費(fèi)閱讀

(計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)論文)視頻對象分割技術(shù)研究.pdf.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

摘要 本文以視頻對象分割技術(shù)為研究課題,首先介紹視頻分割相關(guān)的理論與技術(shù), 然后對現(xiàn)有的基于運(yùn)動(dòng)和基于時(shí)空域相關(guān)兩大類分割算法進(jìn)行對比研究,并把重 點(diǎn)放在基于3 d 區(qū)域生長的時(shí)空域分割算法的分析上。 從時(shí)空域分割要著重解決的幾個(gè)關(guān)鍵問題入手,本文探討了3 d 區(qū)域生長的種 子分布和生成方法,給出了區(qū)域生長過程中的像素和元素之間的相似度準(zhǔn)則和后 處理過程,并構(gòu)建了相應(yīng)的時(shí)空域數(shù)據(jù)結(jié)構(gòu)來支持生長算法的進(jìn)行。通過區(qū)域生 長算法,輸出視頻中具有顏色同質(zhì)性的組件,接下來進(jìn)行運(yùn)動(dòng)估計(jì)和元素運(yùn)動(dòng)軌 跡分析得到這些同質(zhì)組件的運(yùn)動(dòng)信息,并用空間聚類算法將具有運(yùn)動(dòng)一致性的組 件合成視頻對象。此外,本文還對視頻時(shí)域分割、顏色空間選取、空域?yàn)V波等時(shí) 空域分割要解決關(guān)鍵問題進(jìn)行了探討,并提出了一種自適應(yīng)閩值切變鏡頭探測算 法和加權(quán)中值濾波算法來解決這些問題。最后,將上述算法結(jié)合起來形成一個(gè)視 頻對象分割方案,有效地解決運(yùn)動(dòng)前景和背景分離的問題,并成功地完成從視頻 圖像序列中抽取視頻對象板的任務(wù)。 關(guān)鍵詞:視頻分割視頻對象時(shí)空域分割3 d 區(qū)域生長m p e g 一4 a b s t r a c t v i d e oo b j e c ts e g m e n t a t i o nt e c h n i q u e sa r ed i s c u s s e d ,t h e o r i e sa n dt e c h n i q u e s r e l a t e dt ov i d e os e g m e n t a t i o na r ei n t r o d u c e da n dt h ee x i s t i n gt y p i c a la l g o r i t h m so f m o t i o n b a s e da n ds p a t i o t e r n p o r a ls e g m e n t a t i o na l ea n a l y z e da n dc o m p a r e dw i t ht h e e m p h a s i so na n a l y s i so fs p a t i o t e m p o r a ls e g m e n t a t i o na l g o r i t h m sb a s e do n3 dr e g i o n g r o w i n g p r o c e e d i n gw i t hs e v e r a lk e yp r o b l e m sa b o u ts p a t i o t e m p o r a ls e g m e n t a t i o n ,t h i s p a p e rd i s c u s s e st h eg e n e r a t i o na n dd i s t r i b u t i o no f s e e d si n3 dr e g i o ng r o w i n g ,p r o v i d e t h es i m i l a r i t ym e a s u r e m e n tb e t w e e n p i x e la n dv o l u m e ,d e s i g nt h ep o s tp r o c e s s i n ga n d c o n s t r u c ts p a t i o t e m p o r a ld a t as t r u c t u r et os u p p o r tt h ea l g o r i t h m h o m o g e n e o u sv i d e o c o m p o n e n t sw i t hs i m i l a rc o l o rf e a t u r ea l eo b t a i n e d ,t h e i rm o t i o nt r a j e c t o r yi sa n a l y z e d a n dm o t i o ne s t i m a t i o ni sm a d e ,a n dt h e s ec o m p o n e n t sa l ec l u s t e r e di n t oo b j e c t sw i t h m o t i o nc o h e r e n c e i na d d i t i o n ,o t h e rk e yp r o b l e m ss u c ha sv i d e ot e m p o r a l s e g m e n t a t i o n ,c o l o rs p a c es e l e c t i o na n dt e m p o r a lf i l t e r i n ga r ed i s c u s s e da n da n a d a p t i v et h r e s h o l dv i d e os h o tc u td e t e c t i o na l g o r i t h ma n daw e i g h t e dm e d i a n f i l t e r i n g a l g o r i t h ma r ep r e s e n t e da ss o l u t i o n a tl a s t ,t h ea l g o r i t h m sa r ec o m b i n e di n t oa n a u t o m a t i cv i d e oo b j e c ts e g m e n t a t i o ns c h e m a ,w h i c hc a ns e p a r a t em o t i o nf o r e g r o u n d f r o ms t a t i o n a r yb a c k g r o u n da n de x t r a c tv i d e oo b j e c tp l a n ef r o mv i d e oi m a g es e q u e n c e j ns u c c e e d k e y w o r d :v i d e os e g m e n t a t i o n v i d e o0 b j e c t3 dr e g i o ng r o w i n g s p a t i o t e m p o r a ls e g m e n t a t i o nm p e g - 4 獨(dú)創(chuàng)性( 或創(chuàng)新性) 聲明 y 5 8 3 3 0 2 本人聲明所呈交的論文是我個(gè)人在導(dǎo)師的指導(dǎo)下進(jìn)行的研究工作及所取得 的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外,論 文中不包含其它人已發(fā)表或撰寫過的研究成果:也不包含為獲得西安電子科技大 學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志為本研究 所做的任何貢獻(xiàn)均己在論文中做了明確的說明并表示了謝意。 申請學(xué)位論文與資料若有不實(shí)之處,本人承擔(dān)一切相關(guān)責(zé)任。 本人簽名:埠日期:皇絲壘雌 關(guān)于論文使用授權(quán)的說明 本人完全了解西安電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究 生在校攻讀學(xué)位論文期間論文工作的知識(shí)產(chǎn)權(quán)單位屬西安電子科技大學(xué)。本人保 證畢業(yè)離校后,發(fā)表論文或使用論文工作成果時(shí)署名單位仍然為西安電子科技大 學(xué)。學(xué)校有權(quán)保留送交論文的復(fù)印件,允許查閱和借閱論文;學(xué)??梢怨颊撐?的全部或部分內(nèi)容,可以允許采用影印、縮印、或其它復(fù)制手段保存論文。 日期:竺生! :壘 日期:皇竺蘭! : 第一章緒論 第一章緒論 1 ,1 研究背景 隨著信息技術(shù)的發(fā)展,多媒體技術(shù)日益受到人們的關(guān)注。多媒體系統(tǒng)是數(shù)據(jù)、 文字、聲音、圖形、圖像和動(dòng)畫等各種媒體的有機(jī)組合,并與先進(jìn)的計(jì)算機(jī)、通 信技術(shù)相結(jié)合。使人們交流信息的方式獲得了擴(kuò)展,并影響著人們的交互方式、 生活方式和工作方式。其中,數(shù)字視頻是尤為重要的一種多媒體數(shù)據(jù)形式,它有 著廣泛的應(yīng)用空間,是電影、電視、卡拉o k 、電子出版物等媒體信息進(jìn)行數(shù)字化 的重要基礎(chǔ)。但是數(shù)字化的視頻數(shù)據(jù)量非常巨大,這無疑給存儲(chǔ)器的存儲(chǔ)容量、 通信干線的通道傳輸率以及計(jì)算機(jī)的速度都增加了極大的壓力。為了解決多媒體 信息在存儲(chǔ)和傳輸過程的瓶頸龐大的信息量和計(jì)算機(jī)系統(tǒng)的處理能力之惻的 矛盾,單純用擴(kuò)大存儲(chǔ)器容量、增加傳輸率是不現(xiàn)實(shí)的,因此數(shù)字視頻的壓縮技 術(shù)受到了前所未有的關(guān)注。所以,數(shù)字視頻的編碼壓縮技術(shù)成為了多媒體領(lǐng)域的 一項(xiàng)重要的技術(shù),它為人們觀賞、存儲(chǔ)、交換和操縱視頻信息,提供了有利的支 持。新一代支持甚低碼率傳輸?shù)膲嚎s標(biāo)準(zhǔn)m p e g 4 ,提出了基于內(nèi)容編碼的重 要思想。正是多媒體領(lǐng)域產(chǎn)生的這種基于內(nèi)容的可視信息表達(dá)方法的強(qiáng)烈需求, 使視頻對象分割技術(shù)成為一個(gè)研究熱點(diǎn)。 視頻對象分割的主要目的是通過在一系列連續(xù)圖像幀中抽取感興趣的對象, 把視頻表示成一個(gè)視頻對象( v o ) ,為基于對象的編碼和基于內(nèi)容的表達(dá)提供技術(shù) 支持。視頻分割有以下的重要的應(yīng)用: 視頻壓縮和解壓縮 視頻對象操縱和編輯 視頻的索引和檢索 對象識(shí)別和鑒別 視頻場景理解 從壓縮角度看,基于對象的視頻壓縮標(biāo)準(zhǔn),如m p e g 4 ,需要視頻對象分割技 術(shù)。由于視頻數(shù)據(jù)的數(shù)據(jù)量非常大,在帶寬資源有限的網(wǎng)絡(luò)上傳輸視頻需要有效 的編碼技術(shù)。基于對象的表達(dá)方式可以標(biāo)出圖像幀中重要的部分,使得視頻可以 高效編碼來滿足傳輸?shù)男枰?。特別是在個(gè)人通訊終端如移動(dòng)電話、p d a 、可視電 話日益蓬勃發(fā)展的今天,強(qiáng)烈需要一種甚低碼率的編碼方式,來滿足用戶對多媒 體信息的需求。 有了好的分割方法,就可以訪問和操縱視頻中的對象,這為人造場景對象和 自然場景對象更好的融合在一起提供了有效的工具。實(shí)現(xiàn)更好的視頻的非線性編 視頻對象分割技術(shù)研究 輯功能,如剪切視頻中某些對象到其它的背景或場景中,就是一種很有用的功能。 另外,交互式電視技術(shù)的發(fā)展,出現(xiàn)了對可交互的媒體 2 1 的需要,例如交互式的 廣告,指用戶收看廣告時(shí)可選擇感興趣的商品,然后該商品的詳細(xì)信息同時(shí)呈現(xiàn) 在用戶的面前。為了實(shí)現(xiàn)這一點(diǎn),對視頻的分割是必不可少的。 目前,市面上的視頻數(shù)據(jù)庫只能通過像顏色、紋理和簡單的運(yùn)動(dòng)等簡單的統(tǒng) 計(jì)特征束檢索視頻數(shù)據(jù),它們或者檢索能力有限或者有應(yīng)用范圍限制。如果視頻 可以獨(dú)立的對象形式來存儲(chǔ),那么索引和檢索視頻信息就會(huì)象檢索和索引文本信 息那么簡單。能從根本上管理可視信息的工具必須具有以語義方式自動(dòng)描述和索 引視頻序列的能力。這種工具爿+ 可阻在巨大的視頻數(shù)據(jù)庫中查詢到想要的視頻片 斷和視頻對象。有效利用存儲(chǔ)影片和探測監(jiān)控視頻中的特定活動(dòng)都有廣闊的應(yīng)用 空涮,這需要引入對象的概念才能得到完滿的解決。 許多機(jī)器視覺問題都要借助視頻分割技術(shù)才能完成。安裝有自動(dòng)駕駛系統(tǒng)的 汽車要通過分析視頻來獲取周圍環(huán)境的信息。而且,它要求高層次的圖像理解和 解釋如監(jiān)控視頻中的場合和特殊事件的跟蹤能力。舉例子來說,步行道和高速交 通可以用分割出的人和車的密度來區(qū)分開。通過對象分割,還可以檢測到快速移 動(dòng)的汽車,路上障礙物,路面上其它的異?;顒?dòng)等。再加上行為識(shí)別的用戶接口, 就可以實(shí)現(xiàn)禁區(qū)、停車位、電梯都可以自動(dòng)監(jiān)控。 盡管人類可以快速解釋包含在各種形式信息的語義,但是計(jì)算機(jī)柬理解可視 信息還處在初級(jí)階段。未來的標(biāo)準(zhǔn)要成功,分割工具是非常關(guān)鍵的。但是把圖像 序列自動(dòng)分割成語義對象是一項(xiàng)很有挑戰(zhàn)性的工作。 盡管人們己對視頻信息處理的基本方法有了很好的理解,但是在這方面的還 有許多問題和困難等待解決。其中視頻分割是這些問題中需要首先解決的,說道 視頻分割,就不得不提多媒體壓縮標(biāo)準(zhǔn),因?yàn)橐曨l分割技術(shù)的發(fā)展,跟視頻的編 解碼標(biāo)準(zhǔn)的發(fā)展緊密相關(guān)的。 1 2 視頻編碼標(biāo)準(zhǔn) 未經(jīng)壓縮的音視頻數(shù)據(jù)需要巨大的存儲(chǔ)空間來存放傳輸和處理都不方便。 為了高效存儲(chǔ)和傳輸視頻,人們開發(fā)了各種壓縮算法和壓縮標(biāo)準(zhǔn)。在壓縮標(biāo)準(zhǔn)中, 編解碼技術(shù)是最關(guān)鍵的,編解碼技術(shù)的發(fā)展促使數(shù)字視頻得到廣泛應(yīng)用和傳播。 以不同的編碼技術(shù)為核心,運(yùn)動(dòng)圖像專家組( m o t i o n p i c t u r e s e x p e r t s g r o u p ) 定義了 數(shù)字多媒體內(nèi)容的的編碼和壓縮系統(tǒng),陸續(xù)推出m p e g - l 、m p e g - 2 、m p e g - 4 和 m p e g 7 等多媒體壓縮標(biāo)準(zhǔn)。 m p e g 1 和m p e d 2 m p e g 1 處理的是標(biāo)準(zhǔn)圖像交換格式( s t a n d a r di n t e r c h a n g ef o r m a t ,s 巧) 或者稱 第一章緒論 為源輸入格式( s o u r c ei n p u tf o r m a t ,s l f ) 的電視,即n t s c 制為3 5 2 像素x2 4 0 行 幀3 0 幀秒,p a l 制為3 5 2 像素2 8 8 行幀2 5 幀秒,壓縮的輸出速率定義在 1 5m b i t s 以下。這個(gè)標(biāo)準(zhǔn)主要是針對當(dāng)時(shí)具有這種數(shù)據(jù)傳輸率的c d r o m 和網(wǎng) 絡(luò)而開發(fā)的,用于在c d r o m 上存儲(chǔ)數(shù)字影視和在網(wǎng)絡(luò)上傳輸數(shù)字影視。 m p e g 一2 標(biāo)準(zhǔn)從1 9 9 0 年開始研究,1 9 9 4 發(fā)布d i s 。它是一個(gè)直接與數(shù)字電視 廣播有關(guān)的高質(zhì)量圖像和聲音編碼標(biāo)準(zhǔn)。m p e g - 2 可以說是m p e g _ l 的擴(kuò)充,因 為它們的基本編碼算法都相同。但m p e g 一2 增加了許多m p e g 一1 所沒有的功能, 例如增加了隔行掃描電視的編碼,提供了位速率的可變性能( s c a l a b i l i t y ) 功能。 m p e g 2 要達(dá)到的最基本目標(biāo)是:位速率為4 9m b i t s ,最高達(dá)1 5m b i t s 。 m p e g 一1 和m p e g 2 標(biāo)準(zhǔn)采用第一代編碼技術(shù),以信息論為理論基礎(chǔ),以象 素塊為編碼實(shí)體,把圖像分成許多小方塊來處理,依此適應(yīng)非靜態(tài)圖像的特性。 通常采用預(yù)測編碼、變換編碼和統(tǒng)計(jì)編碼等經(jīng)典編碼方法。雖然基于塊的算法參 數(shù)是可以改變的,但是現(xiàn)實(shí)場景中的對象可不是由方塊組成的。當(dāng)壓縮率增加時(shí), 這種塊結(jié)構(gòu)在解壓圖像中可被人眼察覺,這就是所謂的“塊效應(yīng)”。 m p e g - 7 m p e g 7 l 的工作于1 9 9 6 年啟動(dòng),名稱叫做多媒體內(nèi)容描述接口( m u l t i m e d i a c o n t e n td e s c r i p t i o ni n t e r f a c e ) ,目的是制定一套描述符標(biāo)準(zhǔn),用來描述各種類型 的多媒體信息及它們之間的關(guān)系,以便更快更有效地檢索信息。例如,用戶可能 想訪問一張關(guān)于視頻內(nèi)容的表,他可以從一個(gè)條目跳到另一個(gè)條目。這就要求把 視頻數(shù)據(jù)按照鏡頭和場景結(jié)構(gòu)化。 與其它m p e g 標(biāo)準(zhǔn)一樣,m p e g - 7 是為滿足特定需求而制定的視聽信息標(biāo)準(zhǔn)。 m p e g 7 標(biāo)準(zhǔn)也是建立在其它標(biāo)準(zhǔn)之上的,例如,p c m ,m p e g 1 ,m p e g 2 和 m p e g 4 等等。m p e g 一7 繼承了m p e g 4 中使用的形狀描述符、m p e g - 1 和m p e g 2 中使用的運(yùn)動(dòng)矢量( m o t i o nv e c t 0 0 。 1 3m p e g 一4 與視頻對象v o m p e g 一4 從1 9 9 4 年開始工作,它是為視聽( a u d i o 。v i s u a l ) 數(shù)據(jù)的編碼和交互播 放開發(fā)算法和工具,是一個(gè)甚低碼率多媒體通信標(biāo)準(zhǔn)。作為新一代多媒體應(yīng)用標(biāo) 準(zhǔn),它提供基于對象的高可交互性功能、通用訪問機(jī)制、健壯的錯(cuò)誤探測機(jī)制和 高效的壓縮。 m p e g 4 的目標(biāo)是要在異構(gòu)網(wǎng)絡(luò)環(huán)境下能夠高度可靠地工作,并且具有很強(qiáng) 的交互功能。為了達(dá)到這個(gè)目標(biāo),m p e g - 4 引入了對象基表達(dá)( o b i e c t - b a s e d r e p r e s e n t a t i o n ) 的概念,用來表達(dá)視聽對象( a u d i o v i s u a lo b j e c t s ,a v 0 1 。m p e g - 4 擴(kuò)充了編碼的數(shù)據(jù)類型,由自然數(shù)據(jù)對象擴(kuò)展到計(jì)算機(jī)生成的合成數(shù)據(jù)對象,采 4 視頻對象分割技術(shù)研究 用合成對象自然對象混合編碼( s y n t h e t i c n a t u r a l h y b r i dc o d i n g ,s n h c ) 算法;在 實(shí)現(xiàn)交互功能和重用對象中引入了組合、合成和編排等重要概念。m p e g 4 系統(tǒng) 構(gòu)造如圖1 1 所示。 剴i - 1m p e g - 4 的系統(tǒng)構(gòu)造圖 m p e g 一4 最重要的特點(diǎn)是它引入了v o ( v i d e oo b j e c t ) 的概念,并用于描述視頻 畫面。v o 是有實(shí)際意義的物理實(shí)體,而不是出于編碼效率分割出來的某些部件。 在視頻序列的一個(gè)畫面可由單個(gè)或者多個(gè)v o p ( v i d e oo b j e c tp l a n e ) 組成,它是v o 在某個(gè)時(shí)刻的一個(gè)表示,場景中屬于同一對象的連續(xù)的v o p 被稱作視頻對象。 m p e g - 4 編碼中最關(guān)鍵的部分是v o 的形成和表示。v o 的形成要用到最先進(jìn)的圖 像理解、識(shí)別和分割算法。m p e g 一4 標(biāo)準(zhǔn)本身并不定義這些算法,而是讓用戶自 己丌發(fā),這可能是用好m p e g 4 最難的部分?;趯ο蟮囊曨l分割目的是從視頻 序列中抽取v o 和v o p ,并把它們按定的形式組織存儲(chǔ)起來,所以說研究基于 對象的視頻分割技術(shù),是有很強(qiáng)的現(xiàn)實(shí)意義的。對象概念的引入,使m p e g 4 具 有了許多新的特性: 交互性:提供了基于內(nèi)容交互的機(jī)制,在編碼、解碼和物體合成階段 均可與每一個(gè)音視頻對象交互,這意味著在這樣的視聽通信系統(tǒng)中, 人不僅可以看見物體在什么地方,還容許我們采取行動(dòng)改變它的位 置: 通用性:能夠處理各種各樣的音視頻對象,不僅包括圖像和視頻,還 包括各種圖形、3 d 動(dòng)畫及文本,同時(shí)使自然目標(biāo)和人工合成目標(biāo)共 存。而且可根據(jù)各種網(wǎng)絡(luò)的不同特性,進(jìn)行高效率低碼率的信息傳輸。 實(shí)現(xiàn)通用的多媒體信息的存取和傳輸。; 第一章緒論 易用性:提出基于內(nèi)容的壓縮,使信息處理技術(shù)的方式更加接近人自 身的信息處理方式。這就使得人在進(jìn)行多媒體信息處理時(shí),直接和場 景中的物體打交道,而不是具有抽象概念的像素。 v i d er * s e a u e n c e v s ov s l 、i m 。m 。 南秘 洫fv ”r 爪冷 幽衄。,。i ,s i r l i ”w y 【t z v w o 一e 訛曲一 l 啪l 卯- l i 如0l 叮l “c r b i ,u k b l o c k # 1b l n c k s 2 lk 。 圖1 - 2m p e g - 4 視頻層次化數(shù)據(jù)結(jié)構(gòu) 不同于m p e g - l 和m p e g 2 那樣一幀一幀進(jìn)行編碼,基于對象編碼的m p e g 4 用層次化的數(shù)據(jù)結(jié)構(gòu)來表示視頻數(shù)據(jù)( 見圖1 2 ) ,引入了下列概念,: 視頻序列s :v i d e os e s s i o n ) :v s 是其它3 層數(shù)據(jù)的入口。一個(gè)完整 的視頻包括多個(gè)v s 。 視頻目標(biāo)( v o :v i d e oo b j e c t ) v o 即是場景中的特定目標(biāo)。是有實(shí)際 意義的物理實(shí)體,而不是出于編碼效率分割出來的某些部件。 視頻對象層( v o l :v i d e oo b j e c tl a y e r ) :v o l 是v o 的時(shí)間或空間的 伸縮性描述。v o 的描述可以在不同時(shí)間分辨率和空間分辨率上進(jìn)行 的。它可以只包括一個(gè)基本層,也可以包括多個(gè)分辨率增強(qiáng)層。目標(biāo) 的伸縮性是通過v o l 來實(shí)現(xiàn)的。 視頻對象板( v o p :v i d e oo b j e c tp l a n e ) :v o p 是v o 在某個(gè)時(shí)間的存 在。是v o 在不同v o l 層的時(shí)間序列。每一幀圖像都被分割成很多 任意形狀的v o p , 每個(gè)v o p 都覆蓋了一個(gè)特定的感興趣的視頻內(nèi)容。 因此,在基于對象的編碼中,輸入信息不再象基于d c t 的塊編碼那 樣,針對矩形區(qū)域進(jìn)行編碼。 視頻對象分割技術(shù)研究 m p e g 一4 還提供“對象層”概念,把不同的對象編碼到不同的位流層。這個(gè) 特征允許訪問和操縱場景中的不同的音頻對象( a o ) 和視頻對象( v o ) 。為了支持分 別解碼不同的對象,每個(gè)對象的形狀、運(yùn)動(dòng)、空間坐標(biāo)和編碼信息被分別編到不 同的“對象層”。用戶通過解壓所有的視頻對象層來重構(gòu)整個(gè)場景,也可以僅解壓 部分對象重構(gòu)場景。利用編碼到不同碼流的信息,操作對象進(jìn)行轉(zhuǎn)換、旋轉(zhuǎn)、標(biāo) 記和縮放等成為可能。另外,不屬于原始場景的新對象可以加入場景或者可以忽 略原有的對象。在接收端的構(gòu)造部件如圖1 3 所示。 幽1 3m p e g - 4 接收端的構(gòu)造部件 1 4 本文工作 本文以視頻對象分割技術(shù)為研究課題,深入地進(jìn)行國內(nèi)外視頻對象分割算法 的研究,對相關(guān)分割技術(shù)進(jìn)行了分類,對現(xiàn)有的基于運(yùn)動(dòng)的分割算法和基于時(shí)空 相關(guān)的分割算法進(jìn)行比較。以此為基礎(chǔ)。在時(shí)空域分割方面展開研究,對基于3 d 區(qū)域生長的時(shí)空域分割方法進(jìn)行了探索,并對實(shí)施算法要解決的關(guān)鍵問題提出了 自己的解決辦法。最后將相關(guān)算法組合在一起形成了以m p e g 4 為服務(wù)目標(biāo)的 視頻對象自動(dòng)分割方案,應(yīng)用該方案進(jìn)行v o p 的抽取,能取得比較好的效果。下 面介紹本文相關(guān)章節(jié)的內(nèi)容安排。 第一章緒論 第一章緒論。這一章主要闡述視頻對象分割技術(shù)的概念和應(yīng)用需求以及與 視頻分割技術(shù)的發(fā)展密切相關(guān)的多媒體壓縮標(biāo)準(zhǔn)。由于m p e g 一4 標(biāo)準(zhǔn)是視頻對象 分割技術(shù)的最重要應(yīng)用,所以重點(diǎn)介紹了該標(biāo)準(zhǔn)并引出視頻對象的概念。 第二章視頻分割相關(guān)理論與技術(shù)。這一章討論視頻分割要使用的技術(shù)與理 論,為后文的討論做理論鋪墊,分別討論了運(yùn)動(dòng)估計(jì)、塊運(yùn)動(dòng)分析、塊匹配技術(shù) 和空域圖像分割技術(shù),其中塊匹配、邊界分割、區(qū)域生長和空間聚類等方法是后 文分割算法的重要支撐技術(shù)。 第三章現(xiàn)有分割算法簡介。本章對現(xiàn)有的分割方法進(jìn)行了分類,同時(shí)介紹和 比較基于運(yùn)動(dòng)和時(shí)空相關(guān)的兩類算法。由于基于運(yùn)動(dòng)的方法有缺陷,所以把空域 信息與運(yùn)動(dòng)信息相結(jié)合是很重要的,本章重點(diǎn)分析以變化檢測模板、數(shù)學(xué)形態(tài)學(xué) 為工具的時(shí)空域算法和其它混合算法。 第四章時(shí)空域分割關(guān)鍵算法研究。本章重點(diǎn)解決時(shí)空域生長視頻分割的相關(guān) 問題,首先提出一種視頻自適應(yīng)閾值的視頻分段算法把視頻分成一個(gè)個(gè)鏡頭,在 鏡頭內(nèi)才可能對視頻內(nèi)容進(jìn)行分析。接著討論各種顏色空間的特性,選擇h s v 顏色空間進(jìn)行視頻分割。區(qū)域生長的算法對圖像噪聲十分敏感,本文使用快速的 加權(quán)中值濾波算法去除噪聲,取得了很好的效果。接下來對區(qū)域生長要解決的種 子選擇問題、相似性規(guī)則和后處理進(jìn)行了分析和討論最后對生長得到的同質(zhì)元 素進(jìn)行運(yùn)動(dòng)特征聚類,分割出視頻對象。 第五章時(shí)空域視頻對象分割方案。在這章中將相關(guān)的工作成果結(jié)合在一 起,提出一種基于三維區(qū)域生長時(shí)空域分割方案。使用該方案可以將視頻中的運(yùn) 動(dòng)前景和背景實(shí)施分離,并抽取v o p 。最后,給出了實(shí)驗(yàn)結(jié)果驗(yàn)證方案的有效性。 第六章總結(jié)全文內(nèi)容和工作,并對需要進(jìn)一步研究的問題進(jìn)行了展望。 第二章視頻分割相關(guān)理論與技術(shù) 第二章視頻分割相關(guān)理論與技術(shù) 2 1 數(shù)字視頻 數(shù)字視頻可以采用光柵掃描或直接用數(shù)字視頻攝像機(jī)獲得,在多媒體信息中, 它屬于一種視覺媒體信息。物體在成像平面的投影被采樣成離散的一幅幅數(shù)字圖 像,這些圖像也稱為幀。每一幀由水平和垂直離散化的陣列輸出值組成,每一個(gè) 象素點(diǎn)按照一定的存儲(chǔ)結(jié)構(gòu)在幀緩沖器中形成我們常說的位圖。對視頻信息按時(shí) 間逐幀進(jìn)行數(shù)字化得到數(shù)字圖像序列,如圖2 1 所示。 y o 圖2 - - 1 數(shù)字圖像序列形成示意圖 x 由上圖可以看出數(shù)字視頻由多幅連續(xù)的圖像序列構(gòu)成。其中,x 和y 軸表示 水平和垂直的空間維,t 表示時(shí)間維。沿著t 軸方向若劃隔x t ,利用人類視覺暫 留效應(yīng),可以形成連續(xù)的動(dòng)態(tài)圖像。沿著x 軸方向的掃描行上分布有象素點(diǎn),y 方向表示垂直方向的列數(shù)。這樣每一個(gè)象素點(diǎn)的顏色或亮度e 可以表示為x y 平 面的函數(shù)e ( x ,y ,t ) 。當(dāng)在監(jiān)視器上顯示數(shù)字視頻時(shí),每個(gè)象素被表示為具有指 定給該象素的一種恒定彩色的一個(gè)矩形區(qū)域。 0 視頻對象分割技術(shù)研究 2 2 運(yùn)動(dòng)分割理論 2 2 1 運(yùn)動(dòng)估計(jì) 研究表明,人眼對圖像的靜止部分具有較高的空間分辨力和較低的時(shí)間分辨 力。利用這種人眼的這種特性,可以進(jìn)行圖像序列的壓縮,首先將圖像分割成靜 止部分和運(yùn)動(dòng)部分分別進(jìn)行處理,靜止部分可以重復(fù)利用上一幀的數(shù)據(jù),而對運(yùn) 動(dòng)部分則設(shè)法測定其相對于上一幀的位移量,用位移量進(jìn)行運(yùn)動(dòng)部分的預(yù)測,這 樣就用存儲(chǔ)的靜態(tài)幀和用位移量作為補(bǔ)償?shù)玫筋A(yù)測幀,實(shí)現(xiàn)幀間預(yù)測效果,構(gòu)成 完整的圖像,把這種技術(shù)稱為運(yùn)動(dòng)補(bǔ)償技術(shù)【l ”。 在運(yùn)動(dòng)補(bǔ)償編碼中,運(yùn)動(dòng)補(bǔ)償和預(yù)測在壓縮中起了占非常重要的地位。運(yùn)動(dòng) 估計(jì)是對來自參考幀中的像素在當(dāng)前幀進(jìn)行的估計(jì)過程。運(yùn)動(dòng)估計(jì)技術(shù)是依賴于 兩個(gè)假設(shè):一個(gè)是物體運(yùn)動(dòng)的軌道上照明是恒定的。也就是認(rèn)為物體運(yùn)動(dòng)時(shí)照明 光線的不隨時(shí)間改變,只有這樣才能保證圖像上亮度模式的改變是由運(yùn)動(dòng)引起的, 而不是光照改變引起的。二是沒有遮擋的背景的問題。雖然這些假設(shè)不足以獲得 真實(shí)世界的視頻序列但是多數(shù)運(yùn)動(dòng)估算方法都建立在這些假設(shè)之上。運(yùn)動(dòng)估計(jì) 的一個(gè)關(guān)鍵問題是如何參數(shù)化運(yùn)動(dòng)場,也就是如何表示運(yùn)動(dòng)的問題i | 4 | 。通常按照 不同的運(yùn)動(dòng)表示法,把運(yùn)動(dòng)估計(jì)技術(shù)分為象素運(yùn)動(dòng)估計(jì)、塊運(yùn)動(dòng)估計(jì)、區(qū)域運(yùn)動(dòng) 估計(jì)和全局運(yùn)動(dòng)估計(jì)如圖2 1 。其中象素運(yùn)動(dòng)估計(jì)用光流模型、塊運(yùn)動(dòng)估計(jì)用塊 運(yùn)動(dòng)模型,基于對象的運(yùn)動(dòng)分割技術(shù)經(jīng)常用到區(qū)域運(yùn)動(dòng)估計(jì)和全局運(yùn)動(dòng)估計(jì)。 圈2 - 1 運(yùn)動(dòng)估計(jì)分類 ( a ) 像素運(yùn)動(dòng)估計(jì)( b ) 塊運(yùn)動(dòng)估計(jì) ( c ) 區(qū)域運(yùn)動(dòng)估計(jì)( d ) 全局運(yùn)動(dòng)估計(jì) 第二章視頻分割相關(guān)理論與技術(shù) 2 2 2 光流模型 光流的概念是g l i b s o n 于1 9 5 0 年首先提出的 2 ”。人眼是通過在不同的時(shí)刻認(rèn) 出相應(yīng)的一些點(diǎn)來感覺運(yùn)動(dòng)的,這種對應(yīng)性通常是由假定一個(gè)點(diǎn)的彩色和亮度在 運(yùn)動(dòng)以后不改變來確定的。當(dāng)物體在運(yùn)動(dòng)時(shí),物體表面的亮度模式發(fā)生改變,我 們就感覺到了運(yùn)動(dòng)。光流( o p t i c a lf l o w ) 是指圖象亮度模式的表觀運(yùn)動(dòng)。雖然光流可 能不等同于真實(shí)的二維運(yùn)動(dòng)。當(dāng)只能利用圖像的彩色信息時(shí),所能夠得到的最精 確估計(jì)就是光流。光流場( o p t i c a lf l o wf i e l d ) 是一種二維瞬時(shí)速度場,其中二維運(yùn) 動(dòng)速度矢量是三維速度矢量在成象表面的投影。光流不僅包括了被觀察物體的運(yùn) 動(dòng)信息,而且攜帶著有關(guān)景物結(jié)構(gòu)的豐富信息。 在運(yùn)動(dòng)估算算法中,光流方程起著關(guān)鍵的作用。下面介紹一下光流約束方程。 設(shè)i ( x ,y ,t ) 是圖像點(diǎn)( x ,y ) 在時(shí)刻t 的照度,如果u ( x ,”和v ( x ,y ) 是該點(diǎn)光流的 x 和y 分量,假定點(diǎn)在t + v t 時(shí)運(yùn)動(dòng)至l j ( x + v x ,y + v y ) 時(shí),照度保持不變,其中 v x = t l v t ,審y = v v t ,也就是 i ( x + v u t ,y + v v t ,t + v t ) = i ( x ,y ,t ) ( 2 1 ) 運(yùn)一約束處小能唯一求解u 、v ,通常要加上其他的約乘條件,比如,運(yùn)動(dòng)場 連續(xù)行的假設(shè)。如果亮度隨著x 、y 、t 光滑的變化,則可以將上式用泰勒級(jí)數(shù)展 丌, l ( x , y , t ) + 乳學(xué)+ w 罷+ v r 娶+ p :i ( x , y , t )( 2 0 x硎o t e 是高階無窮小??梢酝频?罷害+ 要害+ 罷:0 ( :3 ) 良西卻出國 上式實(shí)際上就是 d 1 ( x , y , t ) :o 西 令。= 豢 = 瓦0 1 ,i 0 a 1 ,“= 去,v = 砉 則可得到空間和時(shí)間梯度與速度分量之間的關(guān)系,其中u , 量的垂直分量和水平分量: l x u + i y v + 1 1 = 0 ( 24 ) v 分別像素點(diǎn)流矢 ( 2 5 ) 視頻對蒙分割技術(shù)研究 也可以表示成( 2 6 ) ,其中w 7 和l 分別是圖像序列的時(shí)域梯度和空域梯度, v ,7 v + ,:0( 2 6 ) 由上式可以看出我們不能單憑v i 和l 確定流矢量v 。為了解出兩個(gè)未知量 必須添加附加條件。通常的約束是流矢量在空間平滑變化,使我們能利用象索周 圍一個(gè)小的鄰域的亮度變化去估計(jì)該處的運(yùn)動(dòng)。一般采用再約束方程上加一個(gè)平 滑量來約束速度場,這樣運(yùn)動(dòng)場既滿足光流約束又滿足全局的平滑性,如 h o m s c h u n c k 方法【1 3 】。 幽2 - 2 心光流約束和h o r n s e h u n c k 方法得到光流場分布 2 2 3 塊運(yùn)動(dòng)分析 由于光流法的運(yùn)算復(fù)雜度,難以達(dá)到實(shí)時(shí)處理的要求,況且有些情況下并不 要求計(jì)算出每個(gè)象素的精確的運(yùn)動(dòng)矢量。因此基于塊的運(yùn)動(dòng)分析算法,在數(shù)字視 頻編碼技術(shù)中得到了廣泛的應(yīng)用。塊的運(yùn)動(dòng)通常分為平移、旋轉(zhuǎn)、仿射等運(yùn)動(dòng)形 式,一般情況下,塊運(yùn)動(dòng)是這些運(yùn)動(dòng)的組合,稱為變形運(yùn)動(dòng)。下面我們詳細(xì)討論 塊的運(yùn)動(dòng)模型。 1 、塊平移 基于塊的模型最簡單的形式是平移的塊,假設(shè)圖像中每一個(gè)塊都是作單純的 平移運(yùn)動(dòng)。在第k 幀中的一個(gè)中心位于x ( x ,y ) 的n x n 塊b 被模型化成為幀k + l ( 1 是整數(shù)) 中同樣尺寸塊的一個(gè)完全位移形式。也就是說,在第k 幀中,中心位于 x ( x ,y ) 的塊b ,在第k + 1 幀時(shí),塊b 的所有象素之間關(guān)系及其灰度值保持不變,但 中心位置移到了x ( x + 電,y + d y ) ,其中文,d y 是塊b 平移位移分量。 第二章視頻分割相關(guān)理論與技術(shù) s ( x ,y ,k ) = j ( z + d ,y + d y , k + 1 ) ( 2 7 ) ( a )( b ) 幽2 - 3 塊運(yùn)動(dòng)平移幽 參照圖2 3 所示,塊運(yùn)動(dòng)可能存在兩種情況:塊b 可能重疊或未重疊。在 未重疊的情況下,整個(gè)塊使用同一運(yùn)動(dòng)矢量,可以拷貝k 幀中每個(gè)象素,使k + l 幀中的相應(yīng)塊得到運(yùn)動(dòng)補(bǔ)償。對于重疊的情況,我們可以計(jì)算重疊范圍的運(yùn)動(dòng)矢 量的平均值作為整個(gè)塊的運(yùn)動(dòng)矢量。 基于塊的模型優(yōu)點(diǎn)在于不需要很多附加條件表示運(yùn)動(dòng)場,運(yùn)動(dòng)矢量的估算通 常采用塊匹配的辦法,相對于光流計(jì)算上較簡單。但是物體并不是由一個(gè)塊組成 的,特別是物體邊界處容易出現(xiàn)“塊效應(yīng)”。 2 、二維運(yùn)動(dòng)模型 物體在三維空削運(yùn)動(dòng),而我們看到的圖像是物體運(yùn)動(dòng)在攝像機(jī)平面上的投影, 為了推廣塊運(yùn)動(dòng),需要建立了二維運(yùn)動(dòng)模型,常見的模型出以下幾種【2 2 1 : ( 1 ) 透視變換模型 假定物體在z 方向沒有平移運(yùn)動(dòng),或者當(dāng)成像物體具有一個(gè)平坦表面 時(shí),透視變化可由式( 2 8 ) 來表示: z = 竿業(yè),:- b o + b t x + b 2 y ( 2 8 ) l 十c - 工+ c 2 yl 十c i x 十c 2 y 這就是所謂的8 參數(shù)模型,其中5 個(gè)運(yùn)動(dòng)參數(shù)和3 個(gè)物體表面參數(shù)。在 研究幀間運(yùn)動(dòng)和視頻配準(zhǔn)時(shí),這個(gè)投影映射是一個(gè)重要的關(guān)系式。 ( 2 ) 仿射運(yùn)動(dòng)模型 仿射運(yùn)動(dòng)是對投影映射的近似,仿射運(yùn)動(dòng)具有以下的形式,就是6 參數(shù) 習(xí) 4視頻對象分割技術(shù)研究 模型 :葛; = 。a o + + a 峨j 。x + + 。a :2 y y c :, ( 3 ) 雙線性模型 雙線性具有以下形式: f d ( x ,y 冰c t o + :,x + a :y + a ,x y l ( 2 1 0 ) l d r ( 五,) j l j 0 + 6 。x + b :y + b 3 x y j 、。 以上介紹了塊運(yùn)動(dòng)的4 種基本的運(yùn)動(dòng)模型,實(shí)現(xiàn)效果參加圖2 - - 4 所示。 綴霹 俅;瑚r f p := := 、h l 彤;,;舊l frf 卜) | = :| j 笠受老簍拶 甘計(jì)j 釜拶 恩豳 睦萎9匪蘭釜剿 幽2 4 基本運(yùn)動(dòng)模型 ( a ) 平移的;( b ) 仿射的;( c ) 雙線性的;( d ) 投影的 2 2 4 塊匹配 利用塊運(yùn)動(dòng)估計(jì)和光流計(jì)算的不同,它不用計(jì)算每一個(gè)像素的運(yùn)動(dòng),而只是 計(jì)算若干象素組成的象素塊的運(yùn)動(dòng),對于許多圖像的分析和估計(jì)應(yīng)用來說,塊運(yùn) 動(dòng)分析是一種很好的近似。雖然基于平移運(yùn)動(dòng)的塊運(yùn)動(dòng)補(bǔ)償不適于縮放、旋轉(zhuǎn)運(yùn) 動(dòng),但是,塊匹配算法跟蹤能力強(qiáng),實(shí)現(xiàn)簡單,得到了廣泛的應(yīng)用。 塊匹配的基本思想如圖2 5 示,其中幀k 的位移通過考慮一個(gè)中心定位于( x ,y ) 的位移通過考慮一個(gè)中心定位于( x ,y ) 的n l n 2 塊,同時(shí)搜索幀k 十1 來找出同樣 大小的最佳匹配塊的位鷺來確定。 第= 章視頻分割相關(guān)理論與技術(shù) k + 1 圈2 - - 5 塊匹配的基本思想不慈圈 為了檢測當(dāng)前幀的塊與參考幀候選塊的相似性,就定義了匹配的準(zhǔn)則,塊匹 配可以依據(jù)各種準(zhǔn)則來確定它的運(yùn)動(dòng)矢量大小,包括最小均方誤差函數(shù)( m s e ) 最 小平均絕對差值函數(shù)( m a d ) ,最大匹配象素統(tǒng)計(jì)( m p c ) 。 在最小均方誤差函數(shù)準(zhǔn)則中計(jì)算m s e ,定義成: m s e ( ) 2 高。磊睜y 扛h “”1 ) 】! 但1 1 ) 其中b 代表n 1 n 2 塊,作為可選擇的運(yùn)動(dòng)矢量( d 。,d ,) 的集合。最終塊的運(yùn)動(dòng) 矢量是使m s e 達(dá)到最小值的運(yùn)動(dòng)矢量( d x ,d y ) ,也就是 d ,d , 7 = a r g ( r a d 。i d n 。1 m s e ( d ,d ,) ( 2 1 2 ) 最小平均絕對差值函數(shù)( m a d ) 準(zhǔn)則定義成: 腳( d x , d y 卜彘( 囂。一卜“x + d ,, y + d y , k + 1 ) i 。1 3 位移估算用下式給出 d ,d , 7 = a r g ( r a 。,i 。n 。) m a d ( d z ,d ,) ( 2 1 4 ) 最大匹配象素統(tǒng)計(jì)準(zhǔn)則( m p c ) ,在這個(gè)方法中,塊b 中每一個(gè)象索依據(jù)下式 被劃分成匹配象素和非匹配象素,其中t 是估算閩值。 m p c ( d 。,d ,) = t ( x ,y :d x , d ,) , 其中,c 工,y ;d ,d ,;億i s ( x , y , k ) - s ( x + 其d , 它, y + d y , k + 1 ) l f 2 1 5 位移估算用下式給出 視頻對象分割技術(shù)研究 j ,i 。 7 = a r g 。m ,。a 。x 】m p c ( d ,d ,) ( 2 1 6 ) 為了得到晟優(yōu)的塊匹配,通常依據(jù)上面所講的評價(jià)準(zhǔn)則,采用搜索算法來得 到塊運(yùn)動(dòng)矢量的解算。最簡單的方法是全面搜索算法( e b m a ) ,在一個(gè)預(yù)定義大 小的窗口中,對每個(gè)可能的位移應(yīng)用匹配準(zhǔn)則,這種方法很費(fèi)時(shí)。為了加快搜索, 在犧牲估計(jì)精度的前提下,開發(fā)了各種快匹配算法快速算法。一種常用的快速算法 是三步搜索法【l ”,這種搜索的步長從等于或者略大于最大搜索范圍的一半開始。 每一步中,比較九個(gè)搜索點(diǎn)。它們包括搜索正方形的中心點(diǎn)和八個(gè)位于搜索區(qū)邊 界上的搜索點(diǎn)。每一步以后搜索步長減小一半,至搜索步長為一個(gè)象素時(shí)結(jié)束搜 索。在每一個(gè)新的搜索步中,搜索中心點(diǎn)移到由前一步得到的最佳匹配點(diǎn)。 2 3 空域分割技術(shù) 2 3 i 邊界分割 圖像分割是指把圖像分成各自具有特性的區(qū)域并提取出感興趣目標(biāo)區(qū)域的技 術(shù)和過程。這旱特性可以是灰度、顏色、紋理等,目標(biāo)可以對應(yīng)單個(gè)區(qū)域,也可 以對應(yīng)多個(gè)區(qū)域。而邊緣分割技術(shù)對于處理數(shù)字圖像分割非常重要,因?yàn)檫吘壥?所要提取目標(biāo)和背景的分界線分離出邊緣才能將目標(biāo)和背景區(qū)分開來。在圖像 中,邊界表明個(gè)個(gè)特征區(qū)域的終結(jié)和另一個(gè)特征區(qū)域的開始。下面從串行和并 行兩個(gè)方面討論邊界分割技術(shù)。 l 、串行邊界分割 串行邊界技術(shù)指采用串行的方法通過對目標(biāo)邊界的檢測來實(shí)現(xiàn)圖像分割的技 術(shù)。串行邊喬技術(shù)通常通過搜索邊界點(diǎn)來工作,所以實(shí)現(xiàn)起來需要注意以下三個(gè) 方面: ( 1 ) 確定起始邊界點(diǎn),順序搜索從這里開始; ( 2 ) 選擇合適的搜索策略,確定先前的結(jié)果對選擇下一個(gè)檢測象素和下一個(gè)結(jié) 果的影響,并根據(jù)一定的機(jī)理依次的檢測新的邊界點(diǎn); ( 3 ) 設(shè)定中止條件,用來結(jié)束搜索的進(jìn)行所需的條件。 串行分割技術(shù)主要可采取兩種策略:一、先檢查邊緣點(diǎn)。再連接它們;二、對 邊界點(diǎn)的檢查和連接交叉或結(jié)合進(jìn)行。 2 、并行邊界分割 并行邊界檢測技術(shù)指采用并行的方法通過對目標(biāo)邊界的檢測來實(shí)現(xiàn)圖像分割 的技術(shù)。并行邊界技術(shù)在確定圖像中區(qū)域邊界時(shí)是同步進(jìn)行的,從某種意義上說 圖像大部分信息都是集中在區(qū)域的邊界上。所以確定邊界對于場景的理解很重要。 第二章稅頻分割相關(guān)理論4 ,技術(shù) 所涉及的算法比較多,論文中主要用到了基本的梯度算子法和流行的e a a n y 方法, 下面分別介紹。 f 1 1 梯度算子法 梯度對應(yīng)一階導(dǎo)數(shù),梯度算子是一階導(dǎo)數(shù)算子。對一個(gè)連續(xù)函數(shù)廠0 ,y ) ,它 在位置0 ,y ) 的梯度可表示為一個(gè)矢量: 可c z ,y ,= g ,g ,】1 = l 善考l ( z s ) 這個(gè)矢量的幅度和方向角分別為 m a g ( v f ) :k + g ( 置y ) = a r c t a n g ,o xj ( 2 1 9 ) ( 2 2 0 ) 在實(shí)際中常用小區(qū)域模板卷積來近似計(jì)算偏導(dǎo)數(shù)。對g 和g ,各用一個(gè)模板, 所以需要兩個(gè)模板組合起來以構(gòu)成一個(gè)梯度算予。最簡單的梯度算子是r o b e , s 算子,見2 - - 6 圖( a ) 所示。比較常用的還有p r e w i t t 算子,見2 - - 6 圖( b ) ,s o b e l 算 子,見2 - - 6 圖( c ) ,其中s o b e l 算子是效果較好的一種。 田日口目目固 ( a ) r o b e r t s ( b ) p r e w i t t【c ) s o b e l 圖2 - - 6 幾種常見梯度算子模板 f 2 1 坎尼算子 坎尼( c a n n y ) 把邊緣檢測問題轉(zhuǎn)換為檢測單位函數(shù)極大值的問題25 1 。邊緣檢測 是一種比較新的邊緣檢測算子,具有很好的邊緣檢測性能,得到了越來越廣泛的 應(yīng)用。c a n n y 邊緣檢測法利用高斯函數(shù)的一階微分,它能在噪聲抑制和邊緣檢測 之間取得較好的平衡。具體步驟如下: 用高斯濾波器來對圖像濾波,可以去除圖像中的噪聲。 用高斯算子的一階微分對圖像進(jìn)行濾波,得到每個(gè)像素梯度的大d , i g i 和方 向口。 ,三 | g i : c 弘c 甜 億z , a n ??泣?z :, 視頻對象分割技術(shù)研究 其中,f 為濾波后的圖像。 對梯度進(jìn)行“非極大抑制”。 梯度的方向可以被定義為屬于4 個(gè)區(qū)之一,各個(gè)區(qū)別不同的鄰近像素用來進(jìn) 行比較,以決定局部極大值。這4 個(gè)區(qū)及其相應(yīng)的比較方向如圖表2 7 所示。 4 32 lxl 2 3 4 圖2 7 對梯度取兩次閾值得到兩個(gè)閾值t l 和t 2 ,t 1 = 0 4 t 2 。我們把梯度值小 于t l 的象索的坎度設(shè)為0 ,得到圖像1 。然后把梯度值小于t 2 的象素的灰度設(shè) 為0 ,得到圖像2 。由于圖像2 的閾值較高,去除了大部分噪聲,但同時(shí)也損失了 有用的邊緣信息。而圖像1 的閾值較低,保留了較多的信息。我們可以以圖像2 為基礎(chǔ)以圖像1 為補(bǔ)充來連接圖像的邊緣。 連接邊緣的具體步驟如下: ( 1 ) 對圖像2 進(jìn)行掃描,當(dāng)遇到一個(gè)非零狄度的像素p 時(shí),跟蹤以p 為丌始 點(diǎn)的輪廓線,直到該輪廓續(xù)的終點(diǎn)0 。 ( 2 ) 考察圖像i 中與圖像2 中q 點(diǎn)位置對應(yīng)的點(diǎn)q 的8 鄰近區(qū)域。如果q 點(diǎn) 的8 - 鄰近區(qū)域中有非零像素r 存在,則將其包括到圖像2 中,作為點(diǎn)r 。從r 開始,重復(fù)第( 1 ) 步,直到我們在圖像1 和圖像2 中都無法繼續(xù)為止。 ( 3 ) 當(dāng)完成對包含p 的輪廓線的連接之后,將這條輪廓線標(biāo)記為以訪問?;氐?第( 1 ) 步,尋找下一條輪廓線。重復(fù)步驟( 1 ) 、( 2 ) 、( 3 ) ,直到圖像2 中找不到新輪 廓線為止。 2 3 2 區(qū)域分割 1 、串行區(qū)域分割 串行區(qū)域分割技術(shù)指采用串行處理的策略通過對目標(biāo)區(qū)域的直接檢測來實(shí)現(xiàn) 圖像分割技術(shù)?;趨^(qū)域的串行分割技術(shù)有兩種基本形式,一種是從單個(gè)象素出 發(fā),逐漸合并以形成所需的分割區(qū)域,稱為區(qū)域生長。另一種是從全圖出發(fā),逐 漸分裂切割至所需的分割區(qū)域。論文后續(xù)內(nèi)容的實(shí)現(xiàn)采用了區(qū)域生長技術(shù),這里 我們展開介紹。 區(qū)域生長的基本思想是將具有相似性質(zhì)的象素集合起來構(gòu)成區(qū)域。具體先對 每個(gè)需要分割的區(qū)域找一個(gè)種子象素作為生長的起點(diǎn),然后將種子象素周圍鄰域 中與種子象素有相同或相似性質(zhì)的象素( 根據(jù)某種事先確定的生長或相似準(zhǔn)則來 第二章視頻分割相關(guān)理論與技術(shù) 判定) 合并到種子象素所在的區(qū)域中。將這些新象素當(dāng)作新的種子象素繼續(xù)進(jìn)行上 面的過程,直到再?zèng)]有滿足條件的象素可被包括進(jìn)來。這樣一個(gè)區(qū)域就長成了。 區(qū)域生長的一個(gè)關(guān)鍵是選擇合適的生長或相似準(zhǔn)則,生長準(zhǔn)則可以根據(jù)不同 原則制訂,而使用不同的生長準(zhǔn)則會(huì)影響區(qū)域生長的過程?;趨^(qū)域灰度差的方 法主要有如下步驟: f 1 ) 對圖像進(jìn)行逐行掃描,找出尚沒有歸屬的象素; ( 2 ) 以該象素為中心檢查它的鄰域象素,如果扶度差小于預(yù)先確定的閩值,將 它們合并: ( 3 ) 以新合并的象素為中心,返回步驟( 4 ) ,檢查新象素的鄰域,直到區(qū)域不能 進(jìn)一步擴(kuò)張: ( 4 ) 返回步驟( 1 ) ,繼續(xù)掃描直到不能發(fā)現(xiàn)沒有歸屬的象素,結(jié)束整個(gè)生長過程。 在采用區(qū)域生長方法時(shí),一般新象素所在區(qū)域的平均灰度值代替新象素的扶 度值與鄰域象素的灰度值比較,避免圖像存在緩慢變化時(shí)不同區(qū)域逐

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論