《數(shù)字圖像與視頻處理》第11章-圖像識(shí)別課件_第1頁
《數(shù)字圖像與視頻處理》第11章-圖像識(shí)別課件_第2頁
《數(shù)字圖像與視頻處理》第11章-圖像識(shí)別課件_第3頁
《數(shù)字圖像與視頻處理》第11章-圖像識(shí)別課件_第4頁
《數(shù)字圖像與視頻處理》第11章-圖像識(shí)別課件_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第11章圖像識(shí)別掌握?qǐng)D像識(shí)別系統(tǒng)的框架結(jié)構(gòu),熟悉數(shù)據(jù)獲取、預(yù)處理、特征提取以及分類器等各個(gè)模塊的作用。了解經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化和結(jié)構(gòu)風(fēng)險(xiǎn)最小化的含義以及它們之間的區(qū)別,掌握支持向量機(jī)(SVM)分類方法。掌握人工神經(jīng)元模型,熟悉常見的人工神經(jīng)網(wǎng)絡(luò),了解深度學(xué)習(xí)的概念。本章學(xué)習(xí)目標(biāo)11.1圖像識(shí)別概述11.2統(tǒng)計(jì)學(xué)習(xí)方法11.3人工神經(jīng)網(wǎng)絡(luò)11.4基于LeNet網(wǎng)絡(luò)的手寫數(shù)字識(shí)別11.5MATALAB編程實(shí)例第11章圖像識(shí)別圖像識(shí)別系統(tǒng)就是想讓計(jì)算機(jī)也能夠像人一樣,識(shí)別出場(chǎng)景中感興趣的目標(biāo)。設(shè)計(jì)一個(gè)圖像識(shí)別系統(tǒng),通常要涉及到如下的模塊:圖像獲取、數(shù)據(jù)預(yù)處理、特征提取、分類器設(shè)計(jì)、分類決策等。11.1圖像識(shí)別概述整個(gè)系統(tǒng)涉及到圖像處理的三個(gè)層次——低層、中層和高層。一個(gè)傳統(tǒng)的識(shí)別系統(tǒng)如圖11-1所示:圖11-1傳統(tǒng)的圖像識(shí)別系統(tǒng)的基本構(gòu)成圖像獲取是指通過光學(xué)攝像機(jī)、紅外攝像機(jī)或激光、超聲波、雷達(dá)等對(duì)現(xiàn)實(shí)世界進(jìn)行傳感,使計(jì)算機(jī)得到與現(xiàn)實(shí)世界相對(duì)應(yīng)的二維或高維圖像。這些圖像往往表示成數(shù)字形式,方便后續(xù)模塊的處理。(1)圖像獲取(2)預(yù)處理預(yù)處理目的是去除噪聲,加強(qiáng)有用信息,剔除干擾信號(hào),并對(duì)輸入測(cè)量?jī)x器或其他因素所造成的退化現(xiàn)象復(fù)原。涉及原理包括平滑、增強(qiáng)、復(fù)原、變換等技術(shù)。通過預(yù)處理后,為特征的正確、方便、和完整地獲取提供可能。圖像預(yù)處理屬于低層的操作。(3)

特征提取為了有效地實(shí)現(xiàn)分類識(shí)別,就要對(duì)原始數(shù)據(jù)進(jìn)行變換,得到最能反映分類的本質(zhì)特征。一般地,我們把原始數(shù)據(jù)所在的空間稱為測(cè)量空間,把分類識(shí)別依賴進(jìn)行的空間稱為特征空間。通過變換,可把在維數(shù)較高的測(cè)量空間中表示的模式變?yōu)樵诰S數(shù)較低的特征空間中表示的模式。在特征空間中,一個(gè)模式通常也叫做一個(gè)樣本,它往往表示為一個(gè)向量,即特征空間中的一個(gè)點(diǎn)。(4)分類決策分類決策就是在特征空間中,利用分類器把待識(shí)別對(duì)象判決為某一個(gè)類別。分類方法包括基于模板、基于統(tǒng)計(jì)理論、基于神經(jīng)網(wǎng)絡(luò)和基于聚類等多種。確定分類方法后,往往需要對(duì)這些方法中涉及到的參數(shù)進(jìn)行設(shè)置。這個(gè)過程稱為訓(xùn)練或者學(xué)習(xí)。通過訓(xùn)練樣本來訓(xùn)練分類器,使得根據(jù)這些參數(shù)來進(jìn)行分類決策時(shí),造成的錯(cuò)誤識(shí)別率最小或引起的損失最小。從上述構(gòu)成可以看出,傳統(tǒng)的圖像識(shí)別方法把特征提取和分類器設(shè)計(jì)分開,在應(yīng)用時(shí)再將它們合在一起。比如如果輸入是某種動(dòng)物(如貓)的一系列訓(xùn)練圖像,首先要對(duì)這些圖像的特征進(jìn)行提取,然后把表達(dá)出來的特征送到學(xué)習(xí)算法中進(jìn)行訓(xùn)練得到分類器。傳統(tǒng)的識(shí)別方法缺點(diǎn):需要手工設(shè)計(jì)和提取特征,這需要大量的經(jīng)驗(yàn),需要對(duì)這個(gè)領(lǐng)域和數(shù)據(jù)特別了解,然后設(shè)計(jì)出來特征還需要大量的調(diào)試工作。要有一個(gè)比較合適的分類器算法。只有特征和分類器是有效的,同時(shí)協(xié)調(diào)一致工作,才能使得系統(tǒng)識(shí)別達(dá)到最優(yōu)。基于深度學(xué)習(xí)的識(shí)別系統(tǒng):不手動(dòng)設(shè)計(jì)特征,不挑選分類器只需要將大量需要訓(xùn)練的圖像以及這些圖像的正負(fù)樣本類型輸入系統(tǒng),系統(tǒng)自動(dòng)完成特征提取和分類器的學(xué)習(xí),然后將待識(shí)別圖像輸入系統(tǒng),系統(tǒng)將直接輸出識(shí)別結(jié)果。圖11.2基于深度學(xué)習(xí)的圖像識(shí)別系統(tǒng)的基本構(gòu)成11.1圖像識(shí)別概述11.2統(tǒng)計(jì)學(xué)習(xí)方法11.3人工神經(jīng)網(wǎng)絡(luò)11.4基于LeNet網(wǎng)絡(luò)的手寫數(shù)字識(shí)別11.5MATALAB編程實(shí)例第11章圖像識(shí)別11.2.1經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化其中::期望風(fēng)險(xiǎn):輸入

:輸出

:損失函數(shù)

機(jī)器學(xué)習(xí)的目的必須要求使得期望風(fēng)險(xiǎn)最小化,從而得到需要的目標(biāo)函數(shù)。不難想象,可以利用給定的樣本集上的平均損失最小化來代替無法求得的期望風(fēng)險(xiǎn)最小化。利用已知的經(jīng)驗(yàn)數(shù)據(jù)(訓(xùn)練樣本)來計(jì)算得到的誤差,被稱之為經(jīng)驗(yàn)風(fēng)險(xiǎn)其中,為經(jīng)驗(yàn)風(fēng)險(xiǎn)。使用對(duì)參數(shù)求經(jīng)驗(yàn)風(fēng)險(xiǎn)來逐漸逼近理想的期望風(fēng)險(xiǎn)的最小值,就是我們常說的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(EmpiricalRiskMinimization,ERM)原則。當(dāng)樣本容量足夠大時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化能保證有很好的學(xué)習(xí)效果,在現(xiàn)實(shí)中被廣泛采用。11.2.2結(jié)構(gòu)風(fēng)險(xiǎn)最小化結(jié)構(gòu)風(fēng)險(xiǎn)最小化(StructuralRiskMinimization,SRM)是為了防止過擬合而提出的策略。結(jié)構(gòu)風(fēng)險(xiǎn)最小化等價(jià)于正則化。結(jié)構(gòu)風(fēng)險(xiǎn)在經(jīng)驗(yàn)風(fēng)險(xiǎn)的基礎(chǔ)上加上表模型復(fù)雜度的正則化項(xiàng):其中,J(f)為模型的復(fù)雜度。11.2.3支持向量機(jī)支持向量機(jī)(SupportVectorMachine,SVM)圖11-3最優(yōu)分類示意圖定義最優(yōu)分類線H,可以使得分類間隔最遠(yuǎn)。分類間隔指的是圖中H1和H2之間的距離。H1和H2分別是穿過正負(fù)樣本離H最近的平行線。把二維的概念擴(kuò)展到超平面上,最優(yōu)分類線也就成了最優(yōu)超平面。定義超平面的公式如下最優(yōu)超平面的表示形式多種多樣,通常用下面的表達(dá)式來表達(dá)最優(yōu)超平面支持向量(supportvector):假設(shè)x是距離超平面最近的一些點(diǎn),也就是圖中帶有圈的點(diǎn),這些點(diǎn)滿足樣本空間中任意一個(gè)點(diǎn)

到超平面

的距離

為定義

為間隔(margin),其取值為最近距離的2倍為了找到具有“最大間隔”(maximummargin)的劃分超平面,也就是要找到約束參數(shù)

和,使得最大,即最大化間隔,僅需要最大化

,等價(jià)最小化

這就是SVM的基本型。SVM是一個(gè)線性分類器,但是它也可以把特征分類運(yùn)用到非線性分類中。使用的方法是內(nèi)核映射的方法。圖11-4從樣本空間到特征空間的映射令φ是從原始樣本空間X到特征空間F的映射,φ(x)表示將x映射后的特征向量,于是在特征空間進(jìn)行劃分超平面可以表示為此時(shí)優(yōu)化問題為11.1圖像識(shí)別概述11.2統(tǒng)計(jì)學(xué)習(xí)方法11.3人工神經(jīng)網(wǎng)絡(luò)11.4基于LeNet網(wǎng)絡(luò)的手寫數(shù)字識(shí)別11.5MATALAB編程實(shí)例第11章圖像識(shí)別11.3人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)高度非線性網(wǎng)絡(luò),可用來描述認(rèn)知、決策及控制等智能行為,在目標(biāo)檢測(cè)、物體分類以及識(shí)別等領(lǐng)域取得了成功。它的研究和人腦結(jié)構(gòu)的認(rèn)識(shí)和研究有著密切關(guān)系。11.3.1人工神經(jīng)元模型神經(jīng)元是大腦處理信息的基本單元。它主要由細(xì)胞體、樹突、軸突和突觸(Synapse,又稱“神經(jīng)鍵”)組成。一個(gè)神經(jīng)元有許多輸入端(當(dāng)然也有較少的輸入,完成中繼放大的作用),即突觸,每個(gè)突觸的大小可以是不同的,也就是它們由接受輸入脈沖到刺激本神經(jīng)元的細(xì)胞膜的強(qiáng)度是不一樣的。人工神經(jīng)元有如下三個(gè)基本要素:連接強(qiáng)度。用來與其他神經(jīng)元的連接,模擬生物神經(jīng)元的突觸。求和單元。計(jì)算當(dāng)前神經(jīng)元的所有輸入信號(hào)的加權(quán)和。激勵(lì)函數(shù)(傳遞函數(shù))。將加權(quán)信號(hào)映射為輸出信號(hào)。圖11-5人工神經(jīng)元結(jié)構(gòu)模型常用的激活函數(shù)Sigmoid函數(shù)常用的激活函數(shù)Tanh函數(shù)常用的激活函數(shù)ReLU函數(shù)11.3.2前饋神經(jīng)網(wǎng)絡(luò)

前饋神經(jīng)網(wǎng)絡(luò)每個(gè)神經(jīng)元接受前一級(jí)輸入,并輸出到下一級(jí),層間無反饋。(1)感知器

最簡(jiǎn)單的前饋網(wǎng)絡(luò)在1958年由Rosenblatt等人提出的感知器(Perceptron,也稱為感知機(jī))模型。它是一種兩層神經(jīng)網(wǎng)絡(luò),即輸入層和輸出層。三層以及三層以上前饋神經(jīng)網(wǎng)絡(luò)通常又被稱為多層感知器。圖11-9含一個(gè)隱含層的前饋神經(jīng)網(wǎng)絡(luò)(2)RBF網(wǎng)絡(luò)

這種網(wǎng)絡(luò)只有一個(gè)隱層,隱層單元采用徑向基函數(shù)作為其激活函數(shù),輸入層到隱層之間的權(quán)值固定為1,輸出節(jié)點(diǎn)為線性求和單元,隱層到輸出節(jié)點(diǎn)之間的權(quán)值可調(diào),因此輸出為隱層的加權(quán)求和。圖11-10RBF網(wǎng)絡(luò)結(jié)構(gòu)11.3.3Hopfield網(wǎng)絡(luò)前饋網(wǎng)絡(luò)不考慮輸出與輸入之間在時(shí)間上的滯后影響,其輸出與輸入之間僅僅是一種映射關(guān)系。Hopfield網(wǎng)絡(luò)采用反饋連接,所有神經(jīng)元之間相互連接,考慮輸出與輸入在時(shí)間上的傳輸延遲,所表示的是一個(gè)動(dòng)態(tài)過程,需要用差分或微分方程來描述。Hopfield網(wǎng)絡(luò)權(quán)值對(duì)稱,通常也沒有自反饋。11.3.4卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域的一個(gè)新的分支,是一類復(fù)雜的機(jī)器學(xué)習(xí)算法。其研究的目的在于建立、模擬人腦的神經(jīng)網(wǎng)絡(luò),并模仿人腦的機(jī)制來解釋如圖像、聲音和文本之類的數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)是深度學(xué)習(xí)中應(yīng)用較為廣泛的一種模型。深度學(xué)習(xí)之所以被稱為“深度”,是相對(duì)SVM、提升算法(boosting)、最大熵方法、以及只含單隱層的多層感知器等“淺層學(xué)習(xí)”方法而言。其實(shí)質(zhì)是通過搭建具有多個(gè)隱層的學(xué)習(xí)模型,給其輸入海量的訓(xùn)練數(shù)據(jù),使其從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)獲得有用的特征,從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性?!吧疃饶P汀笔鞘侄?,“特征學(xué)習(xí)”是目的。與傳統(tǒng)的淺層學(xué)習(xí)相比,深度學(xué)習(xí)的不同在于模型有多個(gè)隱層,一般比較深,通常有5層、6層,甚至成百上千層;模型能夠從訓(xùn)練數(shù)據(jù)中自主提取特征。淺層學(xué)習(xí)依靠人工經(jīng)驗(yàn)抽取樣本特征,模型只用來負(fù)責(zé)分類和預(yù)測(cè)。深度學(xué)習(xí)自動(dòng)地學(xué)習(xí)得到層次化的特征表示。1958年,Hubel和Wiesel對(duì)貓視覺皮層電生理的研究激發(fā)了人們對(duì)于人類神經(jīng)系統(tǒng)的思考,F(xiàn)ukushima受此啟發(fā)提出了卷積神經(jīng)網(wǎng)絡(luò)的模型。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)不同的是,卷積神經(jīng)網(wǎng)絡(luò)在卷積階段使用了局部感受野和權(quán)值共享策略來減小網(wǎng)絡(luò)參數(shù)。此外,卷積網(wǎng)絡(luò)在卷積層后面引入下采樣層,可以擴(kuò)大感受野的同時(shí)降低網(wǎng)絡(luò)的參數(shù),實(shí)現(xiàn)平移不變性。圖11-11CNN網(wǎng)絡(luò)基本架構(gòu)各個(gè)網(wǎng)絡(luò)部分的結(jié)構(gòu)的功能如下:(1)輸入層:輸入層是即送入網(wǎng)絡(luò)的輸入數(shù)據(jù),在圖像識(shí)別中,就是一幅圖像數(shù)據(jù)矩陣。(2)卷積層:卷積神經(jīng)網(wǎng)絡(luò)的卷積層也稱為特征提取層,它往往用多個(gè)不同的卷積核(權(quán)重參數(shù)不同)來卷積,可以認(rèn)為不同的卷積核從輸入數(shù)據(jù)中提取的特征不相同。圖11-12二維卷積示意圖其中,(3)采樣層:也稱為下采樣層,或者pooling層(池化層)。

主要的目的就是在保留有用信息的基礎(chǔ)上減少數(shù)據(jù)的處理量,加快網(wǎng)絡(luò)的訓(xùn)練速度。圖11-13最大值池化和平均值池化示意(4)全連接層:經(jīng)過幾輪卷積層和池化層之后,可以認(rèn)為圖像中信息已經(jīng)轉(zhuǎn)變?yōu)楦叨瘸橄筇卣?。在特征提取完成后,需要全連接層完成分類任務(wù)。(5)輸出層:輸出層的神經(jīng)元節(jié)點(diǎn)需要根據(jù)具體任務(wù)而進(jìn)行具體設(shè)定。對(duì)圖像分類任務(wù),網(wǎng)絡(luò)輸出層為一個(gè)分類器,借助softmax可以得到當(dāng)前樣例屬于不同類別概率分布。11.1圖像識(shí)別概述11.2統(tǒng)計(jì)學(xué)習(xí)方法11.3人工神經(jīng)網(wǎng)絡(luò)11.4基于LeNet網(wǎng)絡(luò)的手寫數(shù)字識(shí)別11.5MATALAB編程實(shí)例第11章圖像識(shí)別11.4基于LeNet網(wǎng)絡(luò)的手寫數(shù)字識(shí)別第一層輸入層是32×32大小的圖像。第二層C1層為卷積層,包括6個(gè)特征圖,卷積核大小為5×5。第三層S2為下采樣層,有6個(gè)14×14大小的特征圖,每個(gè)特征圖的每個(gè)神經(jīng)元都和C1層對(duì)應(yīng)的特征圖的2×2區(qū)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論