計算機(jī)視覺專業(yè)導(dǎo)論論文_第1頁
計算機(jī)視覺專業(yè)導(dǎo)論論文_第2頁
計算機(jī)視覺專業(yè)導(dǎo)論論文_第3頁
計算機(jī)視覺專業(yè)導(dǎo)論論文_第4頁
計算機(jī)視覺專業(yè)導(dǎo)論論文_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1計算機(jī)視覺概述人類對外界世界信息的感知80%以上是通過視覺得到的。隨著信號處理理論與計算機(jī)的出現(xiàn),人們試圖用攝像機(jī)獲取環(huán)境圖像并將其轉(zhuǎn)換成數(shù)字信號,用計算機(jī)實現(xiàn)對視覺信息處理的全過程,這樣就形成了一門新興的學(xué)科計算機(jī)視覺。計算機(jī)視覺是一門研究如何使機(jī)器“看”的科學(xué),具體的說,就是指用攝影機(jī)和電腦代替人眼對目標(biāo)進(jìn)行識別、跟蹤和測量等機(jī)器視覺,并進(jìn)一步做圖形處理,用電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。作為一個科學(xué)學(xué)科,計算機(jī)視覺研究相關(guān)的理論和技術(shù)是試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取“信息”的人工智能系統(tǒng)。計算機(jī)視覺的研究目標(biāo)是使計算機(jī)具有通過二維圖像認(rèn)識三維環(huán)境信息的能力。這種

2、能力不僅使機(jī)器能感知三維環(huán)境總物體的幾何信息,包括它的形狀、位置、姿態(tài)、運(yùn)動等,而且能對它們進(jìn)行描述、儲存、識別與理解,最終使計算機(jī)能象人那樣通過視覺觀察和理解世界,具有自主適應(yīng)環(huán)境的能力。作為一個工程學(xué)科,計算機(jī)視覺尋求基于相關(guān)理論與模型來建立計算機(jī)視覺系統(tǒng)。這類系統(tǒng)的組成部分包括:1. 程序控制(例如工業(yè)機(jī)器人和無人駕駛汽車)2. 事件監(jiān)測(例如圖像監(jiān)測)3. 信息組織(例如圖像數(shù)據(jù)庫和圖像序列的索引建立)4. 物體與環(huán)境建模(例如工業(yè)檢查,醫(yī)學(xué)圖像分析和拓?fù)浣#?. 交感互動(例如人機(jī)互動的輸入設(shè)備)計算機(jī)視覺同樣可以被看作是生物視覺的一個補(bǔ)充。在生物視覺領(lǐng)域中,人類和各種動物的視覺都

3、得到了研究,從而建立了這些視覺 系統(tǒng)感知信息過程中所使用的物理模型。另一方面,在計算機(jī)視覺中,靠軟件和硬件實現(xiàn)的人工智能系統(tǒng)得到了研究與描述。生物視 覺與計算機(jī)視覺進(jìn)行的學(xué)科間交流為彼此都帶來了巨大價值。計算機(jī)視覺包含如下一些分支:畫面重建,事件監(jiān)測,目標(biāo)跟蹤,目標(biāo)識別,機(jī)器學(xué)習(xí),索引建立,圖像恢復(fù)等。1.1 計算機(jī)視覺與其他科學(xué)領(lǐng)域的關(guān)系計算機(jī)視覺既是工程領(lǐng)域,也是科學(xué)領(lǐng)域中的一個富有挑戰(zhàn)性重要研究領(lǐng)域,是一門綜合性的學(xué)科,其中包括計算機(jī)科學(xué)和工程、信號處理、物理學(xué)、應(yīng)用數(shù)學(xué)和統(tǒng)計學(xué),神經(jīng)生理學(xué)和認(rèn)知科學(xué)等。在信號處理領(lǐng)域,計算機(jī)視覺與圖像處理,圖像分析,機(jī)器人視覺和機(jī)器視覺等學(xué)科有著緊密的

4、聯(lián)系。雖然在某些方面各學(xué)科之間存在著重疊的方向,但各個領(lǐng)域又存在著差異。計算機(jī)視覺的研究對象主要是映射到單幅或多幅圖像上的三維場景,例如三維場景的重建。計算機(jī)視覺的研究很大程度上針對圖像的內(nèi)容。圖像處理與圖像分析的研究對象主要是二維圖像,實現(xiàn)圖像的轉(zhuǎn)化,尤其針對像素級的操作,例如提高圖像對比度,邊緣提取,去噪聲和幾何變換如圖像旋轉(zhuǎn)。這一特征表明無論是圖像處理還是圖像分析其研究內(nèi)容都和圖像的具體內(nèi)容無關(guān)。而機(jī)器視覺主要是指工業(yè)領(lǐng)域的視覺研究,例如自主機(jī)器人的視覺,用于檢測和測量的視覺。這表明在這一領(lǐng)域通過軟件硬件,圖像感知與控制理論往往與圖像處理得到緊密結(jié)合來實現(xiàn)高效的機(jī)器人控制或各種實時操作。

5、同時,模式識別是使用各種方法從信號中提取信息,主要運(yùn)用統(tǒng)計學(xué)的理論。其中一個主要方向便是從圖像數(shù)據(jù)中提取信息。還有一個領(lǐng)域被稱為成像技術(shù),它最初的研究內(nèi)容主要是制作圖像,但有時也涉及到圖像分析和處理。例如,醫(yī)學(xué)成像就包含大量的醫(yī)學(xué)領(lǐng)域的圖像分析。1.2 計算機(jī)視覺發(fā)展1.3 Marr的計算視覺理論Marr 的計算視覺理論立足于計算機(jī)科學(xué),系統(tǒng)地概括了心理生理學(xué)、神經(jīng)生理學(xué)等方面取得的所有重要成果,是視覺研究中迄今為止最為完善的視覺理論。Marr 建立的視覺計算理論,使計算機(jī)視覺研究有了一個比較明確的體系,并大大推動了計算機(jī)視覺研究的發(fā)展。視覺研究的最終目標(biāo)是要闡明視覺系統(tǒng)究竟是怎樣完成視覺任務(wù)

6、的。Marr 理論認(rèn)為:神經(jīng)系統(tǒng)所作的信息處理與機(jī)器相似。視覺是一種復(fù)雜的信息處理任務(wù),目的是要把握對我們有用的外部世界的各種情況,并把它們表達(dá)出來。這種任務(wù)必須在計算理論、算法和硬件實現(xiàn)這三個不同的層次上來理解。Marr 對于計算機(jī)視覺理論的貢獻(xiàn)不僅在與他將信息處理歸納成為三個層次,同時在于從信息處理的觀點(diǎn)出發(fā)他將視覺處理的整個理論框架表達(dá)了出來。這個框架向我們提供了一個解決視覺問題的新的策略。這個理論框架主要由視覺所建立、保持、并予以解釋的三級表象結(jié)構(gòu)組成,即:1. 基元圖:由于圖像的密度變化可能與物體邊界這類具體的物理性質(zhì)相對應(yīng),因此它主要描述圖像的密度變化及其局部幾何關(guān)系。例如,抽取圖

7、像中的角點(diǎn)、邊緣、紋理、線條、邊界等基本特征。2. 2.5維圖:是指在與觀測者為中心的坐標(biāo)系中,由輸入圖像和基元圖恢復(fù)場景可見部分的深度、法線方向、輪廓等,這些信息包含了深度信息,但不是真正的物體三維表示。3. 3維模型表象:是在以物體為中心的坐標(biāo)中,由輸入圖像、基元圖、二維半圖來恢復(fù)、表示和識別物體的三維形狀表象。根據(jù)Marr 的觀點(diǎn),各種不同的視覺處理湊在一起產(chǎn)生各級表象,在表象中它們有機(jī)地結(jié)合起來(如圖1所示)。把視覺處理看成是一組相對獨(dú)立的功能塊,這一思想特別重要,也特別有用。它不但有計算的、進(jìn)化論的、方法論的論據(jù)支持,而且更重要的是某些視覺功能塊已經(jīng)用實驗方法分離出來。主要表象 解碼

8、處理(視覺功能塊)圖1 視覺信息處理的理論框架Marr 理論是計算機(jī)視覺研究領(lǐng)域的劃時代成就,但該理論不是十分完善的,許多方面還有爭議。比如:視覺處理框架基本上是自下而上,沒有反饋同時也沒有足夠的重視知識的應(yīng)用。但不可否認(rèn),Marr 理論給了我們研究計算機(jī)視覺許多珍貴的哲學(xué)思想和研究方法,同時也給計算機(jī)視覺研究領(lǐng)域創(chuàng)造了許多研究起點(diǎn)。2計算機(jī)視覺的應(yīng)用計算機(jī)視覺被稱為自動化的眼睛,在國民經(jīng)濟(jì)、科學(xué)研究及國防建設(shè)等領(lǐng)域都有著廣泛的應(yīng)用。視覺的最大優(yōu)點(diǎn)是與被觀測的對象無接觸,由此對觀測與被觀測者都不會產(chǎn)生任何損傷,十分安全可靠,這是其他感覺方式無法比擬的。另外視覺方法所能檢測的對象十分廣泛,可以說

9、是對對象不加選擇。理論上,人眼觀察不到的范圍計算機(jī)視覺也可以觀察,例如紅外線、微波、超聲波等人類就觀察不到。而計算機(jī)視覺則可以利用這方面的敏感器件形成紅外線、微波、超聲波等圖像。因此可以說是擴(kuò)展了人類視覺范圍。另外,由于人無法長時間地觀察對象,而計算機(jī)視覺則不知疲勞,如始如一地觀測,所以計算機(jī)視覺可以廣泛地用于長時問惡劣的工作環(huán)境。計算機(jī)視覺已經(jīng)大量應(yīng)用于工業(yè)生產(chǎn)的各個方面,例如在對煙葉品質(zhì)進(jìn)行圖像處理過程中,借助MATLAB 圖像處理工具箱和神經(jīng)網(wǎng)絡(luò)技術(shù),對各種類型的煙葉的數(shù)字圖像進(jìn)行計算機(jī)視覺分析,用圖像工具箱抽取煙葉數(shù)字圖像特征,將待測煙葉樣本與標(biāo)準(zhǔn)煙葉樣本進(jìn)行對比,最后達(dá)到自動識別待測

10、煙葉樣本的品質(zhì)的智能評定。又如在生產(chǎn)線上部件安裝、自動焊接,切割加工,大規(guī)模集成電路生產(chǎn)線上自動連接引線、對準(zhǔn)芯片和封裝,石油、煤礦等地質(zhì)鉆探中數(shù)據(jù)流自動監(jiān)測和濾波,在紡織、印染業(yè)進(jìn)行自動分色、配色都有著廣泛的應(yīng)用。近年來人臉識別技術(shù)在商業(yè)上和法律上有大量應(yīng)用,如身份證、護(hù)照、信用卡、駕駛執(zhí)照與實際持證人的核對,視頻監(jiān)控系統(tǒng)中的人物跟蹤、Video 圖像的實時匹配、公安系統(tǒng)的犯罪身份識別、銀行及海關(guān)的監(jiān)控系統(tǒng)和自動門衛(wèi)系統(tǒng)等。它是利用計算機(jī)對人臉圖像進(jìn)行分析,從中提取有效的識別信息,用來“辨別”身份的一門技術(shù)。它涉及到圖像處理、模式識別、計算機(jī)視覺和神經(jīng)網(wǎng)絡(luò)等。 X CT 、放射性同位素掃描、

11、B 型超聲、核磁共振成像,是現(xiàn)代醫(yī)學(xué)的四大成像技術(shù)。B 超檢測系統(tǒng)通過有規(guī)律的發(fā)射超聲波,接受從人體發(fā)射回來的聲音信號,形成灰度聲圖像線密度值。X CT 根據(jù)x 射線對人體組織各部分具有不同的透過和吸收作用的性質(zhì),利用CT 圖像重建技術(shù)對穿過人體截面的X 掃描線進(jìn)行測量和運(yùn)算,重建人體內(nèi)部的立體圖像。x 光機(jī)的圖像處理系統(tǒng)可進(jìn)行導(dǎo)管定標(biāo)、血管造影及血管動態(tài)分析。通過對x 光圖像的處理,可以分辨關(guān)節(jié)等部分的細(xì)節(jié),甚至人體內(nèi)的膽結(jié)石。利用計算機(jī)視覺的方法,對心血管管醫(yī)學(xué)圖像進(jìn)行建模和分析,結(jié)合心臟動態(tài)特征和臨床知識對醫(yī)學(xué)動態(tài)圖像進(jìn)行定量的運(yùn)動分析,為醫(yī)生的診斷和分析心血管疾病提供了一個有效的工具和

12、途徑。發(fā)達(dá)國家將計算機(jī)視覺技術(shù)應(yīng)用于農(nóng)作物種子質(zhì)量檢驗評價,至今已經(jīng)取得了較大發(fā)展。例如,通過計算機(jī)視覺技術(shù)來評價蠶豆品質(zhì)的方法。這一理論提出用兩種不同的離散方法來區(qū)分合格、破損、過小、異類蠶豆和石頭。利用彩色圖像中提取的 35 個特征參數(shù)進(jìn)行分類,分類結(jié)果與判別分析統(tǒng)計分類結(jié)果相比有 較好的一致度。另外在農(nóng)業(yè)機(jī)械自動化方面,計算機(jī)視覺系統(tǒng)為蘑菇采摘機(jī)器提 供分類所需的尺寸、面積信息,并引導(dǎo)機(jī)器手準(zhǔn)確抵達(dá)待采摘蘑菇的中心位置, 實現(xiàn)抓取。 總之,計算機(jī)視覺的應(yīng)用是多方面的。它已經(jīng)取得并將繼續(xù)取得越來越廣泛 的應(yīng)用。 6 3 課程感想 3.1 基于計算機(jī)視覺的人體運(yùn)動分析 近年來,人體運(yùn)動分析是

13、計算機(jī)視覺領(lǐng)域的熱點(diǎn)之一,其基本任務(wù)是從攝像 機(jī)攝取的視頻圖像序列中,跟蹤一些關(guān)鍵點(diǎn)或部分(關(guān)節(jié)) ,將其轉(zhuǎn)換成有用的 數(shù)學(xué)術(shù)語,然后合并恢復(fù)人體的結(jié)構(gòu)參數(shù),并對人的行為進(jìn)行識別、判斷、跟蹤 與理解,進(jìn)而實現(xiàn)計算機(jī)的智能監(jiān)控、虛擬現(xiàn)實、智能接口、運(yùn)動分析等應(yīng)用。 基于計算機(jī)視覺的人體運(yùn)動分析大致可分為四個過程:運(yùn)動目標(biāo)檢測、運(yùn)動 目標(biāo)分類、人體運(yùn)動跟蹤和行為識別與描述。 1. 運(yùn)動目標(biāo)檢測。運(yùn)動目標(biāo)檢測的目的是從視頻序列中將運(yùn)動目標(biāo)提取出 來。運(yùn)動目標(biāo)的有效提取對于目標(biāo)分類、跟蹤、行為識別與理解等后續(xù)步驟十分 重要背景圖像的動態(tài)變化,例如背景小幅度運(yùn)動(樹葉搖晃等)、光照變化、 攝像機(jī)運(yùn)動等,

14、都會給運(yùn)動目標(biāo)提取帶來困難。按照攝像機(jī)的運(yùn)動,可將運(yùn)動目 標(biāo)檢測分為攝像機(jī)靜止和攝像機(jī)運(yùn)動兩類,攝像機(jī)靜止相對容易處理。主要方法 有背景減除法 、最小化能量法、時間差分法和光流法。 2. 運(yùn)動目標(biāo)分類。主要方法有基于圖像信息的分類方法和基于運(yùn)動信息的 分類法?;趫D像信息的分類方法利用圖像的形狀、邊緣、顏色、紋理等信息從 多個運(yùn)動目標(biāo)中區(qū)分出人體。 基于運(yùn)動信息的分類方法利用人體運(yùn)動的周期性來 區(qū)分出人體運(yùn)動目標(biāo)。 3. 人體運(yùn)動跟蹤。 其目的是從圖像序列中獲得連續(xù)的人體位置和姿態(tài)信息, 人體運(yùn)動跟蹤是行為識別和理解的基礎(chǔ)。根據(jù)是否建立人體模型,可將人體運(yùn)動 跟蹤方法分為無模型跟蹤和基于模型的

15、跟蹤。 4. 行為識別與描述。行為識別是一個模式識別問題,將測試序列與預(yù)先標(biāo) 定的代表典型行為的參考序列進(jìn)行匹配,以確定測試序列的行為類別。行為識別 的困難在于:攝像機(jī)視角的變化,人體行為持續(xù)時間的變化,以及視頻序列中包 含未知的行為等。行為的語義描述應(yīng)用自然語言的概念,選擇一組運(yùn)動詞語或短 句來描述場景中運(yùn)動目標(biāo)的行為。 人體運(yùn)動分析主要應(yīng)用于醫(yī)學(xué)和體育領(lǐng)域。在醫(yī)學(xué)方面,可以利用運(yùn)動分析 對病人進(jìn)行步態(tài)分析。在體育方面,可以通過對運(yùn)動員的運(yùn)動分析幫助他們提高 運(yùn)動技能。針對現(xiàn)階段的研究以及應(yīng)用領(lǐng)域的不同要求,人體運(yùn)動分析存在著如 下的研究熱點(diǎn)和可能的趨勢: 1. 由單攝像機(jī)轉(zhuǎn)向多攝像機(jī)。融合

16、多攝像機(jī)之間的數(shù)據(jù)來克服難題。 2. 減少過多的假設(shè),或降低對環(huán)境,人體的各種限制,提高初始化的自動 程度。 7 3. 有效地組合各種數(shù)據(jù),使跟蹤系統(tǒng)更加健壯(保證長時間的跟蹤,不過多 的依賴于初始化,消除累積錯誤的影響,自動從因遮擋,變焦,幀間變化太大失 敗中恢復(fù)) 。 4. 從語音識別中獲得啟發(fā),記錄并標(biāo)記大量的訓(xùn)練數(shù)據(jù),表示為一些原子 語言,利用原子語言將估計問題變?yōu)樽R別問題,訓(xùn)練集合可以用商業(yè)系統(tǒng)或圖形 學(xué)方法生成。 5. 利用統(tǒng)計理論和機(jī)器學(xué)習(xí)理論對人體運(yùn)動進(jìn)行自動建模。使用圖形學(xué)的 相關(guān)技術(shù),使用更精細(xì)的人體模型。 3.2 計算機(jī)視覺在體育中的應(yīng)用 在查閱相關(guān)的文獻(xiàn)資料后發(fā)現(xiàn): 人

17、體運(yùn)動分析作為當(dāng)下計算機(jī)視覺研究的熱 點(diǎn)之一,得到了較為廣泛的應(yīng)用。例如,在訪問控制場合,通過人臉識別、步態(tài) 分析等來決定是否允許其進(jìn)入該安全區(qū)域;在銀行、飛機(jī)場等對安全要求較敏感 的場合,監(jiān)測場景并對出現(xiàn)者的可疑行為發(fā)出報警;或者利用視覺信息來完成更 加有效的人機(jī)交互等 但由于技術(shù)以及相關(guān)知識的局限性, 計算機(jī)視覺在體育方面并沒有得到廣泛 的應(yīng)用。如何將計算機(jī)視覺與體育運(yùn)動結(jié)合可能會成為以后的研究方向。現(xiàn)有的 運(yùn)動分析軟件如 Dartfish、SIMI SCOUT 無法在體育科學(xué)中得到普及,主要與其 軟、硬件價格、便攜式錄像采集和圖像處理系統(tǒng)的應(yīng)用有關(guān)。 設(shè)計實用并且能普及的運(yùn)動分析軟件是我今后想要研究的方向。 其涵蓋的基 本功能有: 1. 通過視頻圖像的采集,連續(xù)采集關(guān)鍵時的圖像,制作成連續(xù)的技術(shù)動作 圖片,再以此形式輸出,清晰解讀各動作表現(xiàn). 2. 可在同一背景下將運(yùn)動員的連續(xù)多個技術(shù)動作圖像提取在同一畫面內(nèi), 合成一個完整的技術(shù)圖片, 便于在同一背景下更清晰地觀察分析運(yùn)動特征的連續(xù) 變化過程。 3. 對運(yùn)動員的技術(shù)圖像進(jìn)行三維解析,模擬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論