神經(jīng)網(wǎng)絡與深度學習_第1頁
神經(jīng)網(wǎng)絡與深度學習_第2頁
神經(jīng)網(wǎng)絡與深度學習_第3頁
神經(jīng)網(wǎng)絡與深度學習_第4頁
神經(jīng)網(wǎng)絡與深度學習_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、神經(jīng)網(wǎng)絡 & 深度學習基礎知識圖像的特征m計算機圖像是由一定數(shù)量的點陣像素構成的。如上所示,我們看到的是一輛車,但實際上計算機理解的是一個由各像素點的灰度值組成的矩陣,它并不能直接理解“這是一輛車”。m我們需要將“這是一輛車”這個事實用完全邏輯化的語言描述出來,讓計算機建立一個函數(shù),這個矩陣自變量 x 所對應的結果因變量 y 就是“車”。難度可想而知。m我們先看一個簡單的例子。一個數(shù)字 9,我們如何描述它的形狀?m現(xiàn)在有這么一種描述方法:這個數(shù)字的上半部分是一個圓,下半部分是靠右的一撇。用數(shù)學語言表達就是,上半部分能夠以方程 x12 + y12 = r12 (r10)擬合,下半部分能以 x22

2、 + y22 = r22 (x20, y20) 擬合,那么就能說明這個圖形極有可能是數(shù)字 9。m特征:用來描述一個對象具體表現(xiàn)形式的邏輯語言。m如前頁所述,“上半部分是圓,下半部分是靠右的一撇”就是數(shù)字 9 的形狀特征。m特征是構成一個對象的必要但不充分條件,因為一個對象是由無數(shù)個特征組成的,在有限數(shù)量的特征里,我們永遠只能預估該對象,而不能 100% 確定該對象究竟是什么。經(jīng)典的圖像特征之Haar 特征m思考:我們一眼就能看出來這幅圖像上有一棟房子。但任何一幅圖像都是由一定數(shù)量的像素點組成的,我們是怎么從這些單純的像素點里發(fā)現(xiàn)了房子的呢?m這個問題還可以換一種問法:我們怎么知道一幅圖像中是有

3、前景對象的,對于一張純色畫布,我們?yōu)槭裁礋o法發(fā)現(xiàn)任何對象?m這涉及到一個現(xiàn)象:顏色突變。上圖所圈出的區(qū)域中,都是顏色變化較大的區(qū)域。而我們就會自然地認為,這是物體的邊緣,而由封閉邊緣構成的區(qū)域就是物體。m不僅是房子這個整體,房子里的門、窗戶等元素我們都能發(fā)現(xiàn),而原因自然也是顏色突變。m思考:人能看見絕對透明(100% 透明)的玻璃嗎?m我們定義一個形狀的時候,本質上就是在定義其產(chǎn)生顏色突變的像素點的大致相對位置。比如圓,在一個直角坐標系的圖象上上,存在所有滿足 (x-a)2+(y-b)2=r2 條件的坐標點的某個小鄰域內有較大的顏色突變,那么這幅圖像上就有一個圓的形狀。左上方是一幅色盲測試圖,

4、不色盲的朋友都能看到左下角有一個藍色的圓,而且是一個空心圓。m思考:我們該如何用顏色突變的方式定義一輛車?(先不考慮前身后身等復雜情況,假設所有的車都是像左下圖這樣固定角度)mHaar 特征:對大量同類的圖像樣本進行學習,找出這些圖像所有的產(chǎn)生了顏色突變的相對坐標位置,將這些同類圖片作為正樣本,同時給出不屬于該類的,遠多于同類圖片的負樣本,讓機器對這些樣本進行學習,并最終生成一個對象識別模型,用來正確尋找一幅圖像中你所需要尋找的元素。因此,Haar 特征廣義上來說就是圖像的形狀特征。mHaar 特征對于鄰域的規(guī)定有三種:邊緣特征、中心特征、對角線特征,其中邊緣特征又分橫向和縱向。通過計算白色區(qū)

5、域像素亮度和與黑色區(qū)域像素亮度和之差來反映圖像的顏色突變區(qū)域,即邊緣區(qū)域。特別地,對于 C 模型,需要將黑色區(qū)域乘以 2 作為其像素亮度和。Haar 特征實例人臉檢測m我們用 OpenCV 中的一個訓練得較好的人臉檢測 Haar 模型,對一張照片進行人臉檢測。結果如上。Haar 特征的不足之處mHaar 特征本質上是檢測圖像中的顏色突變的,所以對圖像的形狀較為敏感,同時對其他的特征(如顏色等)敏感度較低。而且 Haar 只適用于剛性運動物體的檢測,而不適用于物體精細化的識別。人臉檢測和人臉識別難度上完全不是一個數(shù)量級的。m事實上,任何一種單一圖像特征都是不全面的,是不能適應所有場景的。其實,圖

6、像本身只是由像素點組成的,圖像的特征那是我們人為整理出來的,嚴格地說它并不屬于圖像的一部分。那我們能不能從圖像的像素點本身來尋找一些算法呢?最基本的決策模型感知器m生活中我們經(jīng)常要對一些事情做出決策。但不論我們最終選擇了什么,都一定是有原因的,而且原因往往不止一個。m現(xiàn)在我們來玩一個情景游戲。假如周末公司組織員工外出旅游,你是去還是不去呢?這是一個最簡單的感知器,最終結果只有兩種,Yes 和 No。只是,結果雖然簡單,但是你會考慮諸多因素,最終決定結果。m假設你考慮以下三個因素:A. 天氣如何;B. 可否帶伙伴一起去;C. 費用、伙食、旅館等條件是否符合個人預期。m假設你是這樣想的:和同事一塊

7、出去玩,是很難得的一件事,能帶伙伴一起去那是錦上添花,不能也沒關系;但天氣是挺重要的,陰雨綿綿玩得不開心;旅館嘛,這么多人一起,不會太好,但也不會太差,最重要的是享受。那么這時候,你的決策就和當?shù)靥鞖馕ㄒ幌嚓P,其他兩個因素沒有任何影響。m感知器的本質就是對各個輸入量的加權和進行分析,做出 Yes or No 的決策的模型。m上述你考慮的三個因素可以作為感知器的三個輸入量 x1, x2, x3,并設積極的結果為 1,消極的結果為 0。三者都有對應的權重量w1, w2, w3?,F(xiàn)計算它們的加權和 w1x1 + w2x2 + w3x3,同時加上一個偏差值 b。若其為正(大于 0),則最終的回答是 Y

8、es,否則(小于或等于 0)回答 No。m如果你的想法如前所述,那么你的感知器模型可以是這樣的:w1 = 6, w2 = 2, w3 = 2, b = -5,即判斷 6x1 + 2x2 + 3x2 5 的正負。在所有的輸入量均只能取 0 和 1 的前提下,我們可以很明顯地看到,唯獨當 x1 = 1 時,結果才為正,即決策為 Yes,只要 x1 = 0,決策就必然為 No。m思考:若將 b 改為 -3,其他權重量不變,那么決策會變成什么樣?較為復雜的感知器多層感知器m非誠勿擾,一個非常流行的電視節(jié)目。男嘉賓上臺后,在場的女嘉賓首先給男嘉賓打印象分,然后通過前后播放的多個不同的 AVR 以及各種提

9、問對【自己是否愿意跟男嘉賓走】這個問題給出回答。m點評:m很多事情的決策,并不是評估多個彼此獨立的條件,往往某個條件是和之前的一些條件相關的。比如上面這個案例,第一印象好壞算作感知器的輸入量 x1,只有當它等于 1 時,后面的輸入量才有意義。但也不是它等于 1 就一定表示最終的結果是 Yes,還需要分析其他的輸入量才能得出最終結果。m那么,這種經(jīng)過多層判斷,得出最終結果的感知器,就叫多層感知器。如下圖所示,是一個雙層感知器,第二層的神經(jīng)元的決策是跟第一層的決策相關的。m其實,本質上來講,多層感知器也同樣可以展開成單層感知器,任何一個決策都是可以用標準與或式來表達的。而感知器的本質恰恰就是邏輯電

10、路。m那么感知器和邏輯電路兩者的區(qū)別是什么呢?兩個字:學習。感知器可以通過給定的數(shù)據(jù),通過一定的算法來學習各個輸入量的權重,以及全局偏差值。而這是已經(jīng)固定成型的邏輯電路所做不到的。m多層感知器的存在,也是為了建立一個符合常規(guī)思考方式的學習模型而存在的,展開成單層感知器后,學習目的不明顯,學習效果會下降。m學習是靠要大量樣本的積累的。每一個樣本都有一定數(shù)量的輸入量(考察條件)和一個理想輸出值(理應如此),不必給出各輸入量的權重以及最終偏差值,機器通過不斷自我調整尋找這些量,使得盡可能多的樣本匹配上其理想輸出值。(注:有時候樣本之間可能會因為各種原因出現(xiàn)矛盾的理想輸出值,所以不能保證所有的樣本都匹

11、配)m但是這里有一個問題,我們目前的決策是非此即彼的,非常機械化的決策。比如一個數(shù)字 9,如果下方的那一撇寫得不彎,變成了一條直線,那是不是這個數(shù)字就不是 9 了呢?我們是不是應該有一個過渡的過程呢?不再非此即彼Sigmoid 神經(jīng)元m回想一下我們以前的數(shù)學考試,一道解答題 12 分,老師批改時重點看的是過程,就算結果錯了,只要過程是對的,也絕不會把 12 分全扣完。m但是,現(xiàn)在的感知器,因為結果是非此即彼的,所以它做的就是把 12 分全扣完的事,俗話叫【一棍子打死】。這樣的話,即使我們知道做錯了,我們也并不知道錯在哪里,也很難修正錯誤。mSigmoid 神經(jīng)元解決了這樣的問題。每一個輸入量不

12、再像感知器那樣只能是 0 或 1,而可以是 01 之間的實數(shù)。最終輸出結果也一樣,不再是斬釘截鐵的 Yes (1) 或 No (0),同樣也可以是 Not sure (between 01)。我們的最終輸出結果其實是一種概率,結果為積極的概率,通常被叫做 Sigmoid 函數(shù)。它的表達式和圖像如上圖所示。mSigmoid 神經(jīng)元其實是由如左上所示的感知器函數(shù)圖像平滑而來的。函數(shù)圖像平滑,當任何一個輸入量 x 只變化了一點點 x 時,最終輸出量 y 也只會變化一點點 y。任何時候,當 x0 時,一定有 y0,而這是感知器做不到的。這使得決策不會產(chǎn)生突變,更有利于學習,如右上圖所示。多層 Sigm

13、oid 神經(jīng)元神經(jīng)網(wǎng)絡m神經(jīng)網(wǎng)絡的本質就是多層感知器/多層 Sigmoid 神經(jīng)元。它同樣由輸入樣本、輸入量、對應權重、全局偏差值,以及最終決策構成,只是最左端的輸入量成為了輸入層、最右側的最終決策成為了輸出層,中間的運算量構成了隱藏層。它并不是那么神秘的事物。建立神經(jīng)網(wǎng)絡自學習模型m現(xiàn)在,假設我們已經(jīng)有一個手寫體數(shù)字圖像數(shù)據(jù)集,并且都已正確歸類為 09 中的一種。那么我們要讓機器對這些模型進行學習,并能對一個未知的手寫體數(shù)字盡可能正確分類。m這些樣本都是 28x28 大小的黑白圖像,也就是說一個樣本有 28x28=784 個輸入量,它們非0(黑)即1(白)。輸出量一共有 10 個,分別代表對

14、應輸入量的數(shù)字是 09 各自的可能性,各輸出量之和必為 1。m如左圖所示,這就是我們建立的手寫體數(shù)字識別神經(jīng)網(wǎng)絡。它有若干個輸入樣本,每一個輸入樣本都有 784 個輸入量,隱藏層有 15 個隱藏神經(jīng)元,輸出量共 10 個,表示結果為各自對應數(shù)字的概率值。m最終我們要找的就是輸出值最大的那個輸出量所對應的數(shù)字,這也就是我們的神經(jīng)網(wǎng)絡所識別出的數(shù)字值。成本函數(shù)m我們知道,評價一個網(wǎng)絡最重要的是其識別精度。但這里我們引入一個中間量,叫成本函數(shù)。如果我們將每個輸入量 x 的理想決策值(即已經(jīng)規(guī)定好的決策值)設為 A,將實際決策值(即通過加權計算出的決策值)設為 y,這里 y 可以表示為 x 的函數(shù),即

15、 y=y(x),那么我們可以定義下面這樣一種成本函數(shù)。這實際上就是均方差。m很明顯,實際輸出值 A 越接近理想輸出值 y(x),成本(均方差)就越低,網(wǎng)絡的識別性能就越好。m我們學習的過程,其實是通過不斷微調各權重量和全局偏差值,以至于這樣的權重和偏差值可以使得成本函數(shù)盡可能小,精度盡可能高。m當然了,成本函數(shù)不只是均方差這一種,還有很多函數(shù)能擔當起成本函數(shù)的責任。尋找成本函數(shù)的極小值梯度下降算法m回歸簡單,我們將成本函數(shù) C 簡化為和兩個自變量相關的形式:C = f(v1, v2)。實際上這里 v1 就是權重向量,v2 就是全局偏差值,只是做了簡化而已。m那么,當我們對 v1 及 v2 做了

16、微小的變化時,成本函數(shù)的全微分 C 可以這樣表示:m現(xiàn)在定義一個新的概念“梯度”,它是一個函數(shù)針對所有自變量的偏導數(shù)所組成的矩陣的轉置。它和自變量的變化程度息息相關。我們知道,當 C 減少時,C 及 C 的梯度必然為負,我們也正是要尋找這樣一組權重量和全局偏差值,使得 C 及 C 的梯度為負。m我們之前所說的“顏色突變”,本意就是那個區(qū)域內的像素亮度梯度過大。m那么怎么才能讓梯度不斷下降呢?我們不妨設v = C = C2,在這里是一個很小的正數(shù),通常稱為學習率。然后,因為C2恒為正,C 就會不斷下降。m依此類推,對于我們的成本函數(shù),則相應的梯度下降規(guī)則就應當是下面這樣:梯度下降的改良隨機梯度下降m在深度學習的過程中,往往伴隨著大量訓練樣本的出現(xiàn)。梯度下降是針對每一個樣本都要做一次相應的運算,會浪費掉相當多的寶貴時間。m現(xiàn)在我們每次只隨機取部分樣本,然后對這一部分樣本統(tǒng)一進行梯度下降,然后再去抓取其他的樣本。等所有樣本都抓取完后,再重頭開始。這種方法叫做隨機梯度下降。很明顯,因為每次都不是所有樣本均參與訓練,所以最終的梯度下降幅度肯定是沒有完整梯度下降

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論