《人工智能應(yīng)用概論》課件第6章-計算機視覺技術(shù)_第1頁
《人工智能應(yīng)用概論》課件第6章-計算機視覺技術(shù)_第2頁
《人工智能應(yīng)用概論》課件第6章-計算機視覺技術(shù)_第3頁
《人工智能應(yīng)用概論》課件第6章-計算機視覺技術(shù)_第4頁
《人工智能應(yīng)用概論》課件第6章-計算機視覺技術(shù)_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

《人工智能應(yīng)用概論》第六章計算機視覺技術(shù)PART1神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)技術(shù)原理

重溫五四,你最像哪位文藝青年。

設(shè)計上,以白色為背景,紅藍色調(diào)交叉,表達出五四青年節(jié)的主題。體驗上,使用圖片識別的技術(shù),識別與用戶上傳的照片相似的有為青年,是一個很有意思的創(chuàng)意活動。技術(shù)上通過人臉檢測與分析技術(shù)和人臉檢索技術(shù),將用戶上傳的照片與特定形象進行臉部層面的檢索對比,通過匹配分析找出數(shù)據(jù)庫中外貌特征與用戶最為相似的一張照片。

該創(chuàng)意為后續(xù)人工智能娛樂產(chǎn)品設(shè)計提供了參考?!景咐?6.1 計算機視覺技術(shù)原理6.1.1.計算機視覺技術(shù)分類1.圖像分類

根據(jù)各自在圖像信息中所反映的不同特征,把不同類別的目標(biāo)區(qū)分開來的圖像處理方法。它利用計算機對圖像進行定量分析,把圖像或圖像中的每個像元或區(qū)域劃歸為若干個類別中的某一種,以代替人的視覺判讀。66.1 計算機視覺技術(shù)原理6.1.1.計算機視覺技術(shù)分類1.圖像分類目前較為流行的圖像分類架構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)(CNN)。66.1 計算機視覺技術(shù)原理6.1.1.計算機視覺技術(shù)分類2.對象檢測識別圖像中的對象這一任務(wù),通常會涉及到各個對象輸出邊界框和標(biāo)簽。對象檢測目標(biāo)是對很多對象進行分類和定位。在多對象檢測中,你必須使用邊界框檢測所給定圖像中的所有目標(biāo)。66.1 計算機視覺技術(shù)原理6.1.1.計算機視覺技術(shù)分類2.對象檢測神經(jīng)網(wǎng)絡(luò)研究人員建議使用區(qū)域(region)這一概念,這樣我們就會找到可能包含對象的“斑點”圖像區(qū)域。RCNN是將卷積神經(jīng)網(wǎng)絡(luò)CNN引入目標(biāo)檢測的開山之作,更快、更高效的檢測系統(tǒng)在YouOnlyLookOnce(YOLO),SingleShotMultiBoxDetector(SSD)和基于區(qū)域的全卷積網(wǎng)絡(luò)(R-FCN)算法中尤為明顯。66.1 計算機視覺技術(shù)原理6.1.1.計算機視覺技術(shù)分類3.目標(biāo)跟蹤視覺目標(biāo)跟蹤是計算機視覺中的一個重要研究方向,有著廣泛的應(yīng)用,如:視頻監(jiān)控、人機交互、無人駕駛等。66.1 計算機視覺技術(shù)原理6.1.1.計算機視覺技術(shù)分類3.目標(biāo)跟蹤視覺目標(biāo)(單目標(biāo))跟蹤任務(wù)就是在給定某視頻序列初始幀的目標(biāo)大小與位置的情況下,預(yù)測后續(xù)幀中該目標(biāo)的大小與位置。輸入初始化目標(biāo)框,在下一幀中產(chǎn)生眾多候選框(MotionModel)提取這些候選框的特征(FeatureExtractor),然后對這些候選框評分(ObservationModel)最后在這些評分中找一個得分最高的候選框,作為預(yù)測的目標(biāo)(PredictionA)66.1 計算機視覺技術(shù)原理6.1.1.計算機視覺技術(shù)分類4.語義分割語義分割是計算機視覺中十分重要的領(lǐng)域,它是指像素級地識別圖像,即標(biāo)注出圖像中每個像素所屬的對象類別。66.1 計算機視覺技術(shù)原理6.1.1.計算機視覺技術(shù)分類4.語義分割簡單來說,分割的目標(biāo)一般是將一張RGB圖像(高度x寬度x三通道rgb)或是灰度圖(高度x寬度x單通道1)作為輸入,輸出的是分割圖。66.1 計算機視覺技術(shù)原理6.1.2.計算機視覺技術(shù)發(fā)展歷程1.5億4千萬年前-寒武紀(jì)生命大爆發(fā)5億4千萬年前,生物很簡單,漂浮著,等待食物漂過嘴邊。因為有的生物進化出了眼睛,才促使大爆發(fā)的。所以,視覺的誕生促進了生命大爆發(fā).66.1 計算機視覺技術(shù)原理6.1.2.計算機視覺技術(shù)發(fā)展歷程1.照相暗盒——為了復(fù)制我們看到的世界達芬奇,在植物學(xué),物理,數(shù)學(xué),建筑等諸多領(lǐng)域都有很多貢獻。這些發(fā)明創(chuàng)造被后人編輯成冊,稱為《大西洋古抄本》。其中就描述了暗盒的裝置,它就是照相機的前身。通過小孔成像原理將外部的景象投影在暗盒的另一側(cè),再透過一個鏡面反射到上面的玻璃上就可以進行臨摹。66.1 計算機視覺技術(shù)原理6.1.2.計算機視覺技術(shù)發(fā)展歷程3.計算機視覺技術(shù)萌芽-現(xiàn)代機器視覺技術(shù)的產(chǎn)生七八十年代,隨著現(xiàn)代電子計算機的出現(xiàn),計算機視覺技術(shù)也初步萌芽。這一階段的應(yīng)用主要是一些光學(xué)字符識別、工件識別、顯微/航空圖片的識別等等。九十年代至二十一世紀(jì)初,計算機視覺技術(shù)取得了更大的發(fā)展,廣泛應(yīng)用于工業(yè)領(lǐng)域。66.1 計算機視覺技術(shù)原理6.1.2.計算機視覺技術(shù)發(fā)展歷程4.人工智能的眼睛-計算機視覺技術(shù)

七八十年代,隨著現(xiàn)代電子計算機的出現(xiàn),計算機視覺技術(shù)也初步萌芽。這一階段的應(yīng)用主要是一些光學(xué)字符識別、工件識別、顯微/航空圖片的識別等等。九十年代,計算機視覺技術(shù)取得了更大的發(fā)展,廣泛應(yīng)用于工業(yè)領(lǐng)域。機器視覺在ILSVRC的比賽成績屢創(chuàng)佳績,其錯誤率已經(jīng)低于人類視覺66.1 計算機視覺技術(shù)原理6.1.2.計算機視覺技術(shù)發(fā)展歷程4.人工智能的眼睛-計算機視覺技術(shù)

借助于機器學(xué)習(xí)與深度學(xué)習(xí)的力量,自動從海量數(shù)據(jù)中總結(jié)歸納物體的特征,然后進行識別和判斷。計算機視覺技術(shù)得到了爆發(fā)增長和產(chǎn)業(yè)化,包括典型的相機人臉檢測、安防人臉識別、車牌識別等等。機器視覺在ILSVRC的比賽成績屢創(chuàng)佳績,其錯誤率已經(jīng)低于人類視覺。圖像識別(imageidentification)轉(zhuǎn)向尚待開發(fā)的圖像理解(imageunderstanding)機器視覺在ILSVRC的比賽成績屢創(chuàng)佳績,其錯誤率已經(jīng)低于人類視覺66.1 計算機視覺技術(shù)原理6.1.3.計算機視覺技術(shù)應(yīng)用場景1.無人駕駛

計算機視覺在無人駕駛中起到了非常關(guān)鍵的作用,比如道路的識別,路標(biāo)的識別,紅綠燈的識別,行人識別等等平常駕駛過程中需要注意的。另外還包括三維重建及自主導(dǎo)航,通過激光雷達或者視覺傳感器可以重建三維模型,輔助汽車進行自主定位及導(dǎo)航,進行合理的路徑規(guī)劃和相關(guān)決策。機器視覺在ILSVRC的比賽成績屢創(chuàng)佳績,其錯誤率已經(jīng)低于人類視覺66.1 計算機視覺技術(shù)原理6.1.3.計算機視覺技術(shù)應(yīng)用場景2.人臉識別人臉識別技術(shù)目前已經(jīng)研究得相對比較成熟,并在很多地方得到了應(yīng)用,且人臉識別準(zhǔn)確率目前已經(jīng)高于人眼的識別準(zhǔn)確率,很多高鐵站及門禁的地方都用到了人臉識別,很多都有刷臉系統(tǒng),有些城市甚至在銀行取錢都可以直接刷臉。fu'zh機器視覺在ILSVRC的比賽成績屢創(chuàng)佳績,其錯誤率已經(jīng)低于人類視覺66.1 計算機視覺技術(shù)原理6.1.3.計算機視覺技術(shù)應(yīng)用場景3.?醫(yī)療影像輔助診斷

人工智能技術(shù)在醫(yī)療影像的應(yīng)用主要通過機器視覺技術(shù)對醫(yī)療影像進行快速讀片和智能診斷。通過快速準(zhǔn)確地標(biāo)記特定異常結(jié)構(gòu)來提高圖像分析的效率,以供放射科醫(yī)師參考。提高圖像分析效率,聚焦在需要更多解讀或判斷的內(nèi)容審閱上,從而有望緩解放射科醫(yī)生供給缺口問題。fu'zh機器視覺在ILSVRC的比賽成績屢創(chuàng)佳績,其錯誤率已經(jīng)低于人類視覺66.1 計算機視覺技術(shù)原理6.1.3.計算機視覺技術(shù)應(yīng)用場景4.?機器視覺及工業(yè)檢測

智能制造的核心要素之一是傳感器技術(shù)——機器視覺(MachineVision,MV)則是重中之重。近些年,3D視覺、智能視覺等創(chuàng)新技術(shù)為工業(yè)自動化打開了“新視界”。眼鏡框縮坑視覺檢測PART2

預(yù)備知識6世界坐標(biāo)系6.2.1計算機視覺成像6.2預(yù)備知識 物體成像6圖像:圖像可以定義為一個二維函數(shù)f(x,y),其中x和y是空間坐標(biāo),而f在任意坐標(biāo)(x,y)處的幅度稱為圖像在該點處的亮度(圖像的明亮程度)或者灰度。數(shù)字圖像:指圖像f(x,y)在空間坐標(biāo)和亮度的數(shù)字化,數(shù)字圖像由有限的元素組成,每一個元素都有一個特定的位置和幅值,這些元素稱為圖片元素、圖像元素或像素。數(shù)字圖像處理:是指借用數(shù)字計算機處理數(shù)字圖像,既包括輸入輸出都是圖像的處理,也包括從圖像中提取特征的過程。6.2.2數(shù)字圖像6.2預(yù)備知識 66.2.3圖像處理技術(shù)6.2預(yù)備知識 66.2.3圖像處理技術(shù)6.2預(yù)備知識 車牌檢測(PlateDetection):對一個包含車牌的圖像進行分析最終截取出只包含車牌的一個圖塊66.2 計算機視覺技術(shù)原理6.2.4.卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的代表算法之一。卷積神經(jīng)網(wǎng)絡(luò)具有表征學(xué)習(xí)能力,能夠按其階層結(jié)構(gòu)對輸入信息進行平移不變分類。66.2 計算機視覺技術(shù)原理6.2.4.卷積神經(jīng)網(wǎng)絡(luò)圖像處理解決方案深度學(xué)習(xí)圖像識別技術(shù),不再有人工特征抽取部分,而是使用多層卷積層來得到更深層次的特征圖,這也就是端到端的含義。66.2 計算機視覺技術(shù)原理6.2.4.卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的層級結(jié)構(gòu)數(shù)據(jù)輸入層/Inputlayer卷積計算層/CONVlayerReLU激勵層/ReLUlayer池化層/Poolinglayer全連接層/FClayer66.2 計算機視覺技術(shù)原理6.2.4.卷積神經(jīng)網(wǎng)絡(luò)卷積計算層這一層就是卷積神經(jīng)網(wǎng)絡(luò)最重要的一個層次,也是“卷積神經(jīng)網(wǎng)絡(luò)”的名字來源。在這個卷積層,有兩個關(guān)鍵操作:局部關(guān)聯(lián)。每個神經(jīng)元看做一個濾波器(filter)窗口(receptivefield)滑動,filter對局部數(shù)據(jù)計算先介紹卷積層遇到的幾個名詞:深度/depth(解釋見下圖)步長/stride(窗口一次滑動的長度)填充值/zero-padding66.2 計算機視覺技術(shù)原理6.2.4.卷積神經(jīng)網(wǎng)絡(luò)卷積計算層卷積層中每一個節(jié)點的輸入只是上一層神經(jīng)網(wǎng)絡(luò)的一小塊,這個小塊常用的大小有3×3或者5×5。卷積層試圖將神經(jīng)網(wǎng)絡(luò)中的每一小塊進行更加深入地分析從而得到抽象程度更高的特征。66.2 計算機視覺技術(shù)原理6.2.4.卷積神經(jīng)網(wǎng)絡(luò)卷積計算層5*5的圖片(一個格子一個像素),滑動窗口取2*2,步長取2,則還剩下1個像素沒法滑完,那怎么辦呢?

填充值的作用在原先的矩陣加了一層填充值,變成6*6的矩陣,那么窗口就可以剛好把所有像素遍歷完。66.2 計算機視覺技術(shù)原理6.2.4.卷積神經(jīng)網(wǎng)絡(luò)ReLU激勵層CNN采用的激勵函數(shù)一般為ReLU(TheRectifiedLinearUnit/修正線性單元),它的特點是收斂快,求梯度簡單。66.2 計算機視覺技術(shù)原理6.2.4.卷積神經(jīng)網(wǎng)絡(luò)池化層池化層夾在連續(xù)的卷積層中間,用于壓縮數(shù)據(jù)和參數(shù)的量,減小過擬合,但不會改變圖像的深度。簡而言之,池化層的最主要作用就是壓縮圖像,將一張分辨率較高的圖片轉(zhuǎn)化為分辨率較低的圖片。66.2 計算機視覺技術(shù)原理6.2.4.卷積神經(jīng)網(wǎng)絡(luò)全連接層在經(jīng)過多輪卷積層和池化層的處理之后,在卷積神經(jīng)網(wǎng)絡(luò)的最后一般會是由1到2個全連接層來給出最后的分類結(jié)果。其中Softmax主要用于分類問題,通過Softmax函數(shù),可以得到當(dāng)前樣本屬于不同種類的概率分布情況。PART3

小試牛刀66.3小試牛刀 6.3.1卷積神經(jīng)網(wǎng)絡(luò)解釋器(cnn-explainer)CNN解釋器(cnn-explainer)在線交互可視化工具是一個通過網(wǎng)頁瀏覽器就可以訓(xùn)練的簡單神經(jīng)網(wǎng)絡(luò)并實現(xiàn)了可視化訓(xùn)練過程的工具。這個解釋器展示了一個10層的神經(jīng)網(wǎng)絡(luò),包含卷積層、激活函數(shù)、池化層等多個概念。能顯示它的輸入是哪些、經(jīng)過了怎樣細微的變化,就能了解CNN究竟是怎么回事,為什么可以辨識物品。66.3小試牛刀 6.3.1卷積神經(jīng)網(wǎng)絡(luò)解釋器(cnn-explainer)66.3小試牛刀 6.3.2卷積神經(jīng)網(wǎng)絡(luò)解釋器應(yīng)用分析默認(rèn)10類圖片輸入層:輸入的圖片經(jīng)過裁剪,大小為64x64,Red、Green、Blue分別為彩色圖像的三個通道66.3小試牛刀 6.3.2卷積神經(jīng)網(wǎng)絡(luò)解釋器應(yīng)用分析卷積層卷積層為conv_1_1(62,62,10),其中62x62為圖像大小,10表示有10個神經(jīng)元。因為這里設(shè)置了10個不同的卷積核,分別對輸入圖像提取特征,結(jié)果就得到10個特征圖(10個神經(jīng)元)特征圖特征提取66.3小試牛刀 6.3.2卷積神經(jīng)網(wǎng)絡(luò)解釋器應(yīng)用分析激活函數(shù)層relu_1_1(62,62,10),表示對卷積結(jié)果conv_1_1(62,62,10)輸出的10張?zhí)卣鲌D進行激活

66.3小試牛刀 6.3.2卷積神經(jīng)網(wǎng)絡(luò)解釋器應(yīng)用分析池化層

66.3小試牛刀 6.3.2卷積神經(jīng)網(wǎng)絡(luò)解釋器應(yīng)用分析全連接輸出層

【本章小結(jié)】

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論