《人工智能基礎與應用》(樊重俊編著)第8章+計算機視覺

上傳人：建*** IP屬地：河北上傳時間：2024-10-25 格式：PPTX 頁數(shù)：31 大小：712.78KB 積分：35 舉報 版權申訴

已閱讀5頁，還剩26頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

計算機視覺第8章十月24第8章計算機視覺引言計算機視覺是一門研究如何對數(shù)字圖像或視頻進行高層理解的交叉學科。從人工智能的視角來看，計算機視覺要賦予機器“看”的智能，與語音識別賦予機器“聽”的智能類似，都屬于感知智能范疇。從工程視角來看，所謂理解圖像或視頻，就是用機器自動實現(xiàn)人類視覺系統(tǒng)的功能，包括圖像或視頻的獲取、處理、分析和理解等諸多任務。類比人的視覺系統(tǒng)，攝像機等成像設備是機器的眼睛，而計算機視覺就是要實現(xiàn)人的大腦(主要是視覺皮層區(qū))的視覺能力。計算機視覺(ComputerVision)是人工智能的一個重要學科分支，它是用人工智能的方法模擬人類視覺的能力。本章將主要介紹計算機視覺的相關內涵、圖像分析與理解及其典型應用領域。8.1計算機視覺概述ONTENTSC內容大綱8.2計算機視覺中圖像分析與理解的方法8.3計算機視覺的典型應用8.4本章小結第8章計算機視覺8.1計算機視覺概述ONTENTSC內容大綱8.2計算機視覺中圖像分析與理解的方法8.3計算機視覺的典型應用8.4本章小結第8章計算機視覺第8章計算機視覺計算機視覺概述計算機視覺模擬了人類“看”的能力，這種能力包括了對外界圖像、視頻的獲取、處理、分析理解和應用等一系列能力的綜合。計算機視覺模擬包含多種學科技術，如腦視覺結構理論、圖像處理技術、人工智能技術以及與領域相結合的多種應用學科技術。除此之外，計算機視覺還包括基于腦科學、認知科學以及心理學等基礎性的支撐學科。這些學科一方面極大受益于數(shù)字圖像處理、計算攝影學、計算機視覺等學科帶來的圖像處理和分析工具，另一方面它們所揭示的視覺認知規(guī)律、視皮層神經(jīng)機制等對于計算機視覺領域的發(fā)展也起到了積極的推動作用。第8章計算機視覺計算機視覺概述計算機視覺模擬過程在外部世界中存在動態(tài)、靜態(tài)等多種景物，它們可以通過攝像設備為代表的圖像傳感器轉化成計算機內的數(shù)字化圖像，這是一個n×m點陣結構，可用矩陣An×m表示。點陣中的每個點稱像素，可用數(shù)字表示，它反映圖像的灰度。這種圖像是一種最基本的2D黑白圖像。如果點陣中的每個點用矢量表示，矢量中的分量分別可表示顏色，顏色是由三個分量表示，分別反映紅、綠、藍三色，其分量的值則反映了對應顏色的濃度。這就組成了3D彩色的4D點陣圖像。外界景物的數(shù)字化就是將外界景物轉化成計算機內的用數(shù)字表示的圖像，可稱為數(shù)字化圖像，它是由攝像設備為代表的圖像傳感器所完成的，這種設備可以獲取外界圖像，它一般可以起到人類“眼睛”的作用。除了攝像設備外，目前還有很多相應的圖像傳感器以實現(xiàn)外界景物的數(shù)字化，如熱成像相機，高光譜成像儀雷達設備、激光設備、X射線儀、紅外線儀器、磁共振儀器、超聲儀器等多種接口設備與儀器，它們不僅具有人類“眼睛”的功能，還具有很多“眼睛”所無法觀察到的能力。從這個觀點看，計算機視覺的能力可以部分超過人類視覺的能力。數(shù)字化圖像的獲取第8章計算機視覺計算機視覺概述計算機視覺模擬過程圖像增強和復原圖像增強和復原可改善圖像的視覺效果和提高圖像的品質。圖像數(shù)據(jù)的變換和壓縮為了便于圖像的存儲和傳輸，可對圖像數(shù)據(jù)作變換和編碼壓縮。圖像分割圖像分割是根據(jù)幾何特性或圖像灰度選定的特征，將圖像中有意義的特征部分提取出來，這是進一步進行圖像識別、分析和理解的基礎。數(shù)字化圖像的處理第8章計算機視覺計算機視覺概述計算機視覺模擬過程圖像分解與拼接圖像分解指的是將圖像中的一個部分從整體中抽取出來。圖像拼接指的是將若干幅圖像組合成一幅圖像。圖像重建通過物體外部測量的數(shù)據(jù)，主要是攝像設備與物體間的距離，經(jīng)數(shù)字處理將2D平面物體轉換成3D立體物體的技術稱為圖像重建。圖像管理圖像管理也屬于圖像處理，它包括圖像的有組織的存儲，稱為圖像庫，同時也包括對圖像庫的操作管理，如圖像的調用、圖像的增、刪、改操作以及圖像庫的安全性保護和故障恢復等功能。數(shù)字化圖像的處理第8章計算機視覺計算機視覺概述計算機視覺模擬過程圖像的分析和理解是從現(xiàn)實世界中的景物提取高維數(shù)據(jù)以便產(chǎn)生數(shù)字或符號信息，并可以轉換為與其他思維過程交互且可引出適當行動的描述。圖像的分析和理解包括圖像描述、目標檢測、特征提取、目標跟蹤、物體識別與分類等，此外還包括高層次的信息分析，如動作分析、行為分析、場景語義分析等。圖像處理是通過計算機對圖像進行去除噪聲、增強、復原、分割、提取特征等處理的方法和技術。圖像的分析和理解是由圖像到模型、數(shù)據(jù)或抽象符號表示的語義信息，是人類大腦視覺的一種模擬。它一般需人工智能參與操作，因此又稱智能圖像處理，它也是計算機視覺的關鍵技術。圖像處理可以分成圖像分析與圖像理解兩個部分。圖像分析包括：圖像特征提取，圖像描述，圖像分類、識別。圖像的分析和理解計算機視覺應用主要應用領域范圍包括模式識別、機器視覺以及動態(tài)行為分析。8.1計算機視覺概述ONTENTSC內容大綱8.2計算機視覺中圖像分析與理解的方法8.3計算機視覺的典型應用8.4本章小結第8章計算機視覺第8章計算機視覺圖像分析與理解的方法盡管計算機視覺任務繁多，但大多數(shù)任務本質上可以建模為廣義的函數(shù)擬合問題。即對任意輸入圖像x，需要學習一個以θ為參數(shù)的函數(shù)F，使得y=Fθ(x)，其中y可能有兩大類：y為類別標簽，對應模式識別或機器學習中的“分類”問題，如場景分類、圖像分類、物體識別、精細物體類識別、人臉識別等視覺任務。這類任務的特點是輸出y為有限種類的離散型變量。y為連續(xù)變量或向量或矩陣，對應模式識別或機器學習中的“回歸”問題，如距離估計、目標檢測、語義分割等視覺任務。在這些任務中，y或者是連續(xù)的變量(如距離、年齡、角度等)，或者是一個向量(如物體的橫縱坐標位置和長寬)，或者是每個像素有一個所屬物體類別的編號(如分割結果)?？杀环殖蓛纱箢悾阂活愂腔跍\層模型和方法，另一類是基于深度模型和學習方法。第8章計算機視覺函數(shù)F通常都是非常復雜的。為此，一種可能的解法是遵循“分而治之”的思想，對其進行分步、分階段求解，其步驟如下：步驟1：圖像預處理過程p。這個過程是用于實現(xiàn)目標對齊、幾何歸一化、亮度或顏色矯正等處理，從而提高數(shù)據(jù)的一致性，該過程一般由人為設定。步驟2：特征設計與提取過程q。這個過程是從預處理后的圖像x'中提取描述圖像內容的特征，這些特征可能反映圖像的低層(如邊緣)、中層(如部件)或高層(如場景)特性，一般依據(jù)專家知識進行人工設計。常用的淺層視覺模型處理流程圖像分析與理解的方法基于淺層模型的方法第8章計算機視覺步驟3：特征匯聚或特征變換h。這個過程是對前一步提取的局部特征z(一般是向量)進行統(tǒng)計匯聚或降維處理，從而得到維度更低、更利于后續(xù)分類或回歸過程的特征z'。該過程一般通過專家設計的統(tǒng)計建模方法實現(xiàn)。例如，一種常用的模型是線性模型，即z'=Wz，其中W為矩陣形式表達的線性變換，一般需要在訓練集合進行學習得到。步驟4：分類器或回歸器函數(shù)g的設計與訓練。這個過程是采用機器學習或模式識別的方法，基于一個有導師的訓練{(xi,yi):i=1,?,N}(其中xi是訓練圖像，yi是其類別標簽)學習得到，通過有監(jiān)督的機器學習方法來實現(xiàn)。例如，假設我們采用線性模型，即y=Wz'，則可以通過優(yōu)化得到，其中z'為通過步驟3得到的xi的特征。常用的淺層視覺模型處理流程圖像分析與理解的方法基于淺層模型的方法第8章計算機視覺人工設計特征本質是一種專家知識驅動的方法，即研究者自己或通過咨詢特定領域專家，根據(jù)對所研究問題或目標的理解，設計某種流程來提取專家覺得“好”的特征。目前，多數(shù)人工設計的特征有兩大類，即全局特征和局部特征。前者通常建模的是圖像中全部像素或多個不同區(qū)域像素中所蘊含的信息，后者則通常只從一個局部區(qū)域內的少量像素中提取信息。特征設計與提取方法典型的全局特征對顏色、全圖結構或形狀等進行建模，例如在全圖上計算顏色直方圖，傅立葉頻譜也可以看作全局特征。與局部特征相比，全局特征往往粒度比較粗，適合于需要高效而無須精細分類的任務，比如場景分類或大規(guī)模圖像檢索等。相對而言，局部特征可以提取更為精細的特征，應用更為廣泛。圖像分析與理解的方法基于淺層模型的方法第8章計算機視覺特征匯聚方法典型的方法包括視覺詞袋模型、Fisher向量和局部聚合向量(VLAD)方法。特征變換方法典型的方法包括主成分分析(PCA)、線性判別分析、核方法、流形學習等。其中，主成分分析是一種在最小均方誤差意義下最優(yōu)的線性變換降維方法，在計算機視覺中應用極為廣泛。特征匯聚與特征變換方法圖像分析與理解的方法基于淺層模型的方法第8章計算機視覺圖像分析與理解的方法基于淺層模型的方法計算機視覺中的分類器基本都借鑒模式識別或機器學習領域，如最近鄰分類器、線性感知機、決策樹、隨機森林、支持向量機、AdaBoost、神經(jīng)網(wǎng)絡等都是適用的。需要特別注意的是，根據(jù)前述特征的屬性不同，分類器或回歸器中涉及的距離度量方法也有所差異。例如，對于直方圖類特征，一些面向分布的距離(如KLD、卡方距離等)可能更實用；對PCA、FLDA變換后的特征，歐氏距離或Cosine相似度可能更佳；對一些二值化的特征，海明距離可能帶來更優(yōu)的性能。分類器或回歸器設計第8章計算機視覺目標檢測是計算機視覺中的一個基礎問題，其定義某些感興趣的特定類別組成前景，其他類別為背景。R-CNN最早將深度學習應用在目標檢測中，一般包括以下步驟：基于深度模型的目標檢測技術步驟1：輸入一張圖像，使用無監(jiān)督算法提取約2000個物體的可能位置；步驟2：將所有候選區(qū)域取出并縮放為相同的大小，輸入卷積神經(jīng)網(wǎng)絡中提取特征；S步驟3：使用SVM對每個區(qū)域的特征進行分類。圖像分析與理解的方法基于深度模型的方法第8章計算機視覺對于像素級的分類和回歸任務，代表性的深度網(wǎng)絡模型是全卷積網(wǎng)絡(FullyConvolutionalNetwork，F(xiàn)CN)。FCN對圖像進行像素級的分類，從而解決了語義級別的圖像分割問題。。FCN有兩大明顯的優(yōu)點：一是可以接受任意大小的輸入圖像，而不用要求所有的訓練圖像和測試圖像具有同樣的尺寸；二是更加高效，避免了由于使用像素塊而帶來的重復存儲和計算卷積的問題。FCN的缺點也比較明顯：一是得到的結果還是不夠精細。二是對各個像素進行分類，沒有充分考慮像素與像素之間的關系，忽略了通常的基于像素分類的分割方法中使用的空間規(guī)整(SpatialRegularization)步驟，缺乏空間一致性?；谌矸e網(wǎng)絡的圖像分割圖像分析與理解的方法基于深度模型的方法第8章計算機視覺圖像分析與理解的方法基于深度模型的方法圖像自動標題(ImageCaptioning)的目標是生成輸入圖像的文字描述，即常說的“看圖說話”，這也是一個深度學習取得重要進展的研究方向。深度學習方法應用于該問題的代表性思路是使用CNN學習圖像表示，然后采用循環(huán)神經(jīng)網(wǎng)絡RNN或長短期記憶模型LSTM學習語言模型，并以CNN特征輸入初始化RNN/LSRM的隱層節(jié)點，組成混合網(wǎng)絡進行端到端的訓練。通過這種方法，有些系統(tǒng)在MSCOCO數(shù)據(jù)集上的部分結果甚至優(yōu)于人類給出的語言描述。融合圖像和語言模型的自動圖題生成8.1計算機視覺概述ONTENTSC內容大綱8.2計算機視覺中圖像分析與理解的方法8.3計算機視覺的典型應用8.4本章小結第8章計算機視覺第8章計算機視覺計算機視覺的典型應用計算機視覺的應用范圍與規(guī)模是目前人工智能應用中最為廣泛與普遍的，且早已深入日常生活與工作的多方面，以至于人們并未感覺到現(xiàn)代人工智能時刻刻存在著，如二維碼識別、聯(lián)機手寫輸入等。目前計算機視覺的大致應用領域包括模式識別、動態(tài)行為分析、機器視覺。第8章計算機視覺計算機視覺的典型應用模式識別二維碼識別(QRDroid)是一款基于ANDROID完整的QR二維碼識別軟件，主要用于生成和掃描QR碼?？梢酝ㄟ^三種方法獲取QR碼，第一種是通過攝像頭可以輕松掃描QR碼，第二種是存儲在設備上的QR碼圖片，第三種是在因特網(wǎng)上的帶URL鏈接的QR碼。二維碼是用特定的幾何圖形按一定規(guī)律在平面(二維方向上)分布的黑白相間的矩形方陣，記錄數(shù)據(jù)符號信息的新一代條碼技術，由一個二維碼矩陣圖形和一個二維碼號，以及下方的說明文字組成，具有信息量大、糾錯能力強、識讀速度快、全方位識讀等特點。聯(lián)機手寫漢字識別有時叫做“筆(式)輸入”。筆輸入系統(tǒng)中，由書寫筆傳送給計算機的信號是一個一維的筆畫串，而不是方塊漢字的二維圖形。在識別某一個待識漢字時，也利用書寫板把該漢字的筆畫串輸入計算機，然后把它跟字典中所有的筆畫串逐個加以比較，求得和它最相似的筆畫串，就得到識別的結果。二維碼識別與聯(lián)機手寫輸入第8章計算機視覺計算機視覺的典型應用模式識別生物識別技術就是，通過計算機與光學、聲學、生物傳感器和生物統(tǒng)計學原理等高科技手段密切結合，利用人體固有的生理特性(如指紋、臉象、虹膜等)和行為特征(如筆跡、聲音、步態(tài)等)來進行個人身份的鑒定。人臉識別作為一種生物特征識別技術，是計算機視覺領域的典型研究課題。一套典型的人臉識別系統(tǒng)包括6個步驟：人臉檢測、特征點定位、面部子圖預處理、特征提取、特征比對和決策。生物特征識別人臉識別的典型流程第8章計算機視覺計算機視覺的典型應用模式識別此外基于計算機視覺的生物特征識別技術還有很多，如指紋識別、虹膜識別、掌紋識別、指靜脈識別等。其中指紋識別是大家最熟悉、也是相對最成熟的。人類手掌及其手指、腳、腳趾內側表面的皮膚凹凸不平產(chǎn)生的紋路會形成各種各樣的圖像。這些皮膚的紋路的圖像是各不相同，且是唯一的。依靠這種唯一性，就可以將一個人同他的掌紋、指紋對應起來，通過比較他的掌紋、指紋和預先保存的掌紋、指紋進行比較便可以驗證他的真實身份。人體中具有唯一性的還有手背靜脈、指靜脈、虹膜特征的生物識別等其他多種生物體特征，它們可以用于人體識別。人的眼睛結構由鞏膜、虹膜、瞳孔晶狀體、視網(wǎng)膜等部分組成。虹膜在胎兒發(fā)育階段形成后，在整個生命歷程中將是保持不變的。這些特征決定了虹膜特征的唯一性，同時也決定了身份識別的唯一性。因此，可以將眼睛的虹膜特征作為每個人的身份識別對象。從理論上來講虹膜識別的精度較高，但虹膜識別需要分辨率比較高的攝像頭，以及合適的光學條件，成本也比較高。因此，其應用主要集中在高端市場，市場應用面較窄。生物特征識別第8章計算機視覺計算機視覺的典型應用模式識別光學字符識別(OpticalCharacterRecognition，OCR)也是目前應用最為普遍的模式識別。光學字符識別是指電子設備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符，通過檢測暗、亮的模式確定其形狀，然后用字符識別方法將形狀翻譯成計算機文字的過程，即針對印刷體字符，采用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件，并通過識別軟件將圖像中的文字轉換成文本格式，供文字處理軟件進一步編輯加工的技術。從影像到結果輸出，須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別，最后經(jīng)人工校正更正錯誤的文字并輸出結果。光學字符識別第8章計算機視覺計算機視覺的典型應用模式識別遙感技術是從遠距離感知目標反射或自身輻射的電磁波、可見光、紅外線，對目標進行探測和識別的技術。遙感器的種類很多，主要有照相機、電視攝像機、多光譜掃描儀、成像光譜儀、微波輻射計、合成孔徑雷達等。通過遙感技術所獲取的圖像識別，已廣泛用于軍事偵察、導彈預警、軍事測繪、海洋監(jiān)視、氣象觀測和互劑偵檢等。遙感醫(yī)學診斷模式識別在癌細胞檢測、X射線照片分析、血液化驗、染色體分析、心電圖診斷和腦電圖診斷等方面已取得了成效。第8章計算機視覺計算機視覺的典型應用動態(tài)行為分析運動目標跟蹤是計算機視覺中的一個重要問題。由圖像所組成的視頻中跟蹤某一個或多個特定的感興趣對象，通過目標跟蹤可以獲得目標圖像的參數(shù)信息及運動軌跡等。跟蹤的主要任務是從當前幀中匹配上一幀出現(xiàn)的感興趣目標的位置、形狀等信息，在連續(xù)的視頻序列中通過建立合適的運動模型確定跟蹤對象的位置、尺度和角度等狀態(tài)，并根據(jù)實際應用需求畫出并保存目標運動軌跡。運動目標跟蹤運動目標分析運動目標分析是指在對視頻中的運動物體進行跟蹤后，

人人文庫> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《人工智能基礎與應用》(樊重俊編著)第8章+計算機視覺

文檔簡介

溫馨提示

最新文檔

評論

《人工智能基礎與應用》(樊重俊編著)第8章+計算機視覺

文檔簡介

溫馨提示

最新文檔

評論

相關文檔