版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
計算機視覺
計算機視覺是從圖像或視頻中提出符號或數(shù)值信息,分析計算該信息以進行目標的識別、檢測和跟蹤等。更形象地說,計算機視覺就是讓計算機像人類一樣能看到并理解圖像。
計算機視覺(ComputerVision,CV)是一門涉及圖像處理、圖像分析、模式識別和人工智能等多種技術(shù)的新興交叉學科,具有快速、實時、經(jīng)濟、一致、客觀、無損等特點。
計算機視覺是研究如何讓機器“看”的科學,其可以模擬、擴展和延伸人類智能,從而幫助人類解決大規(guī)模的復雜問題。因此,計算機視覺是人工智能主要應用領(lǐng)域之一。
計算機視覺技術(shù)的基本原理是利用圖像傳感器獲得目標對象的圖像信號,然后傳輸給專用的圖像處理系統(tǒng),將像素分布、顏色、亮度等圖像信息轉(zhuǎn)換成數(shù)字信號,并對這些信號進行多種運算與處理,提取出目標的特征信息進行分析和理解,最終實現(xiàn)對目標的識別、檢測和控制等。1966年,人工智能學家明斯基在給學生布置的作業(yè)中,要求學生通過編寫一個程序讓計算機描述它通過攝像頭看到了什么,這被認為是計算機視覺最早的任務描述。20世紀70~80年代,隨著現(xiàn)代電子計算機的出現(xiàn),計算機視覺技術(shù)也初步萌芽。MIT的人工智能實驗室院首次開設計算機視覺課程計算機視覺的發(fā)展歷史20世紀90年代,計算機視覺技術(shù)取得了更大的進步,開始廣泛應用于工業(yè)領(lǐng)域。進入21世紀,得益于互聯(lián)網(wǎng)的興起和數(shù)碼相機的出現(xiàn)帶來的海量數(shù)據(jù),以及機器學習方法被廣泛應用,計算機視覺發(fā)展迅速。2010年以后,借助于深度學習的力量,計算機視覺技術(shù)得到了爆發(fā)增長和產(chǎn)業(yè)化發(fā)展。通過深度神經(jīng)網(wǎng)絡,各類視覺相關(guān)任務的識別精度都得到了大幅提升。
計算機視覺在采集圖像、分析圖像、處理圖像的過程中,其靈敏度、精確度、快速性都是人類視覺所無法比擬的,它克服了人類視覺的局限性。計算機視覺系統(tǒng)的獨特性質(zhì),使它在各個領(lǐng)域的應用中顯示出強大生命力。計算機視覺的應用及面臨的挑戰(zhàn)
目前,在醫(yī)學上采用的圖像處理技術(shù)大致包括壓縮、存儲、傳輸和自動/輔助分類判讀,此外還可用于醫(yī)生的輔助訓練。與計算機視覺相關(guān)的工作包括分類、判讀和快速三維結(jié)構(gòu)的重建等方面。2.公共安全領(lǐng)域的應用
公共安全領(lǐng)域是計算機視覺技術(shù)的重要應用場景,尤其是人臉識別技術(shù),作為構(gòu)建立體化、現(xiàn)代化社會治安防控體系的重要抓手和技術(shù)突破點,在當前的安防領(lǐng)域中具有重要應用價值。3.在無人機與自動駕駛領(lǐng)域的應用
無人機與自動駕駛行業(yè)的興起,讓計算機視覺在這些領(lǐng)域的應用成為近年來的研究熱點。以無人機為例,簡單至航拍,復雜至救援救災和空中加油等應用,都需要高精度的視覺信號以保障決策與行動的可靠性。在無人機的核心導航系統(tǒng)中,很重要的一個子系統(tǒng)就是視覺系統(tǒng)4.工業(yè)領(lǐng)域的應用
計算機視覺在工業(yè)領(lǐng)域也有著極為重要的應用。在工業(yè)領(lǐng)域,計算機視覺是工業(yè)機器人領(lǐng)域的關(guān)鍵技術(shù),配合機械裝置能夠?qū)崿F(xiàn)產(chǎn)品外觀檢測、質(zhì)量檢測、產(chǎn)品分類、部件裝配等功能。5.其他領(lǐng)域的應用
計算機視覺的應用非常廣泛,除了上文提到的多個重要的領(lǐng)域之外,在其他產(chǎn)業(yè)(如農(nóng)業(yè)、服務業(yè))都有著大量的應用實踐,為人類生活提供了越來越多的便利。6.計算機視覺面臨的挑戰(zhàn)目前,計算機視覺技術(shù)的發(fā)展面臨的挑戰(zhàn)主要來自以下3個方面。(1)有標注的圖像和視頻數(shù)據(jù)較少(2)計算機視覺技術(shù)的精度有待提高(3)計算機視覺技術(shù)的處理速度有待提高圖像分類
圖像分類是根據(jù)不同類別的目標在圖像信息中所反映的不同特征,將它們區(qū)分開來的圖像處理方法。
圖像分類的任務就是輸入一個圖像,正確輸出該圖像所屬的類別。對于人類來說,判斷一個圖像的類別是件很容易的事,但是計算機并不能像人類那樣一下獲得圖像的語義信息。計算機能看到的只是一個個像素的數(shù)值,對于一個RGB圖像,假設其尺寸是32×32,那么計算機看到的就是一個3×32×32的矩陣,或者更正式地稱其為張量(可以簡單理解為高維的矩陣)。圖像分類就是尋找一個函數(shù)關(guān)系,這個函數(shù)關(guān)系能夠?qū)⑦@些像素的數(shù)值映射到一個具體的類別(類別可以用某個數(shù)值表示)。
假定一個可能的類別集categories={dog,cat,eagle},向分類系統(tǒng)輸入一張圖片。圖像分類系統(tǒng)的目標是根據(jù)輸入圖像,從類別集中分配一個類別,在此為dog類別。分類系統(tǒng)也可以根據(jù)概率給圖像分配多個標簽,如dog:90%,cat:6%,eagle:4%。圖像分類算法
1.傳統(tǒng)圖像分類算法
完整建立圖像識別模型一般包括底層特征提取、特征編碼、空間約束、分類器分類等幾個階段。2.基于深度學習的圖像分類算法
基于深度學習的圖像分類算法的原理是輸入一個元素為像素值的數(shù)組,然后給它分配一個分類標簽。CIFAR-10是一個非常流行的圖像分類數(shù)據(jù)集。這個數(shù)據(jù)集包含了60?000張32×32的小圖像,每張圖像都有10種分類標簽中的一種,這60000張圖像被分為包含50?000張圖像的訓練集和包含10?000張圖像的測試集。(1)VGG模型VGG模型與以往的模型相比,進一步加寬和加深了網(wǎng)絡結(jié)構(gòu)。它的核心是5組卷積操作,每2組之間做最大池化的空間降維。(2)GoogLeNet模型GoogLeNet模型由多組Inception模塊組成。該模型的設計借鑒了NIN(NetworkinNetwork)的一些思想。(3)ResNet模型
殘差網(wǎng)絡(ResidualNetwork,ResNet)是用于圖像分類、圖像物體定位和圖像物體檢測的深度學習模型。目標檢測
目標檢測需要定位出圖像目標的位置和相應的類別。由于各類物體有不同的外觀、形狀、姿態(tài),加上成像時光照、遮擋等因素的干擾,目標檢測一直是計算機視覺領(lǐng)域最具有挑戰(zhàn)性的問題。
目標檢測的任務是在圖像中找出所有感興趣的目標(物體),并確定它們的位置和大小,是計算機視覺領(lǐng)域的核心問題之一。圖像分類任務關(guān)心整體,給出的是整張圖片的內(nèi)容描述;而目標檢測則關(guān)注特定的物體目標,要求同時獲得該目標的類別信息和位置信息。
目標檢測需要解決目標可能出現(xiàn)在圖像的任何位置、目標有各種不同的大小以及目標可能有各種不同的形狀這3個核心問題目標檢測框架模型1.R-CNNR-CNN采用的是選擇性搜索(SelectiveSearch)算法,使用聚類的方法對圖像進行分組,得到多個候選框的層次組。2.SPP-NETSPP-NET是在R-CNN的基礎上提出的,由于R-CNN只能接受固定大小的輸入圖像,若對圖像進行裁剪以符合要求,會導致圖片信息不完整;若對原始圖像進行比例縮放又會導致圖像發(fā)生形變。在R-CNN中,需要輸入固定尺寸圖像的是第一個全連接層,而對卷積層的輸入并不做要求。3.FastR-CNN由于R-CNN在候選區(qū)域上進行特征提取時存在大量重復性計算,為了解決這個問題,提出了FastR-CNN。FastR-CNN借鑒SPP-NET對R-CNN進行了改進,檢測性能獲得提升。4.FasterR-CNNSPP-NET和Fast-CNN都需要單獨生成候選區(qū)域,該步驟的計算量非常大,并且難以用GPU進行加速。針對這個問題,在FastR-CNN的基礎上提出了FasterR-CNN,不再由原始圖片通過SelectiveSearch算法提取候選區(qū)域,而是先進行特征提取,在特征層增加區(qū)域生成網(wǎng)絡區(qū)域提取候選框(RPN,RegionProposalNetwork),每個單元按照規(guī)則選擇不同尺度的9個錨盒,利用錨盒計算預測框的偏移量,從而進行位置回歸。5.MaskR-CNNMaskR-CNN在FasterR-CNN中增加了并行的Mask分支,該分支是一個小全連接卷積網(wǎng)絡(FullyConvolutionalNetworksforSemanticSegmentation,F(xiàn)CN),對每個候選區(qū)域生成一個像素級別的二進制掩碼,該掩碼的作用是對目標區(qū)域空間布局進行二進制編碼。6.YOLOYOLO不同于以R-CNN為代表的兩步檢測算法,YOLO的網(wǎng)絡結(jié)構(gòu)更為簡單,而且在速度上比FasterR-CNN快10倍左右,可以滿足目標檢測對于實時性的要求。7.YOLOv2YOLOv2對YOLO的網(wǎng)絡結(jié)構(gòu)進行了改進,首先加入了批量歸一化,而且在訓練過程中采用高分辨率圖像,訓練448×448像素的高分辨率分類網(wǎng)絡,然后利用該網(wǎng)絡訓練檢測網(wǎng)絡。8.SSD因為YOLO對小目標檢測的準確率不高,SSD是對YOLO進行改進的成果,它可以既保持檢測準確率,又保證檢測的速度。圖像分割
圖像分割是圖像分析的第一步,是計算機視覺的基礎,是圖像理解的重要組成部分,同時也是圖像處理中最困難的問題之一。
圖像分割是利用圖像的灰度、顏色、紋理、形狀等特征,把圖像分成若干個互不重疊的區(qū)域,并使這些特征在同一區(qū)域內(nèi)呈現(xiàn)相似性,在不同的區(qū)域之間存在明顯的差異性。
圖像分割其實可以看成把圖像分成若干個無重疊的子區(qū)域的過程,即假設R是整個要分割的圖像區(qū)域,將此區(qū)域分成n個區(qū)域R1,R2,R3…Rn的過程就是圖像分割。圖像分割算法
1.基于閾值的圖像分割算法
閾值分割法具有易于操作、功能穩(wěn)定、計算簡單高效等優(yōu)點。閾值分割法的基本原理是根據(jù)圖像的整體或部分信息選擇閾值,依據(jù)灰度級別劃分圖像。2.基于邊緣檢測的圖像分割算法
邊緣檢測分割法的基本原理是通過檢測邊界來把圖像分割成不同的部分。在一幅圖像中,不同區(qū)域的邊緣通常是灰度值劇烈變化的地方,邊緣檢測分割法就是根據(jù)灰度突變來進行圖像分割的。3.基于區(qū)域的圖像分割算法
區(qū)域分割法的基本原理是連通含有相似特點的像素點,最終組合成分割結(jié)果。區(qū)域分割法主要利用圖像局部空間信息,能夠很好地避免其他算法圖像分割空間小的缺陷。4.基于神經(jīng)網(wǎng)絡技術(shù)的圖像分割算法
神經(jīng)網(wǎng)絡分割法的基本原理是將樣本圖像數(shù)據(jù)用來訓練多層感知機,得到?jīng)Q策函數(shù),進而用獲得的決策函數(shù)對圖像
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論