模式識(shí)別論文——手寫數(shù)字識(shí)別的GMM與最近鄰分類器系統(tǒng)比較(共24頁(yè))_第1頁(yè)
模式識(shí)別論文——手寫數(shù)字識(shí)別的GMM與最近鄰分類器系統(tǒng)比較(共24頁(yè))_第2頁(yè)
模式識(shí)別論文——手寫數(shù)字識(shí)別的GMM與最近鄰分類器系統(tǒng)比較(共24頁(yè))_第3頁(yè)
模式識(shí)別論文——手寫數(shù)字識(shí)別的GMM與最近鄰分類器系統(tǒng)比較(共24頁(yè))_第4頁(yè)
模式識(shí)別論文——手寫數(shù)字識(shí)別的GMM與最近鄰分類器系統(tǒng)比較(共24頁(yè))_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2015 年 秋季(qij) 季學(xué)期研究生課程(kchng)考核(讀書報(bào)告(bogo)、研究報(bào)告)考核科目: 模式識(shí)別 學(xué)生所在院(系): 航天學(xué)院學(xué)生所在學(xué)科: 控制科學(xué)與工程學(xué) 生 姓 名: 學(xué) 號(hào): 15S004001學(xué) 生 類 別: 學(xué)術(shù)型考核結(jié)果閱卷人模式識(shí)別課程結(jié)業(yè)(ji y)報(bào)告2015秋季(qij)學(xué)期姓 名: 學(xué) 號(hào):15S004001專 業(yè):控制科學(xué)(kxu)與工程哈爾濱工業(yè)大學(xué)2015年12月 兩種手寫(shuxi)數(shù)字識(shí)別系統(tǒng)的比較(bjio)摘要(zhiyo):手寫體數(shù)字識(shí)別是圖像識(shí)別中一個(gè)較成熟的研究課題,是模式識(shí)別(m sh sh bi)領(lǐng)域最成功的應(yīng)用之一。本論

2、文旨在(zh zi)研究GMM分類器和最近鄰分類器這兩種基本算法在數(shù)字識(shí)別這一問題上的應(yīng)用。實(shí)驗(yàn)直接調(diào)用MNIST中數(shù)據(jù)集,集中每個(gè)手寫數(shù)字存儲(chǔ)為一個(gè)784維的歸一化后的二值特征向量,因此可以省略數(shù)字的預(yù)處理過程,包括灰度化及二值化處理等。直接進(jìn)行特征提取即主成分分析,把重點(diǎn)放在不同樣本總數(shù)下二種方法的識(shí)別正確率的比較,驗(yàn)證最近鄰法的漸進(jìn)錯(cuò)誤率最優(yōu)極限為貝葉斯錯(cuò)誤率這一結(jié)論。關(guān)鍵詞:數(shù)字識(shí)別;特征提取;主成分分析;GMM分類器;最近鄰分類器;漸進(jìn)錯(cuò)誤率1課題的背景自上世紀(jì)六十年代以來,計(jì)算機(jī)視覺與圖像處理越來越受到人們的關(guān)注,并逐漸成為一門重要的學(xué)科領(lǐng)域。而作為它們的研究對(duì)象的數(shù)字圖像,也因?yàn)?/p>

3、它含有研究目標(biāo)的豐富信息而成為越來越重要的研究對(duì)象。圖像識(shí)別的目標(biāo)是用計(jì)算機(jī)自動(dòng)完成某些信息的處理,用來替代人工去處理圖像分類及識(shí)別的任務(wù)。而模式識(shí)別是六十年代初迅速發(fā)展起來的一門學(xué)科。由于它研究的是如何用機(jī)器來實(shí)現(xiàn)人及某些動(dòng)物對(duì)事物的學(xué)習(xí)、識(shí)別和判斷能力,因而受到了很多科技領(lǐng)域研究人員的注意,成為人工智能研究的一個(gè)重要方面。1.1 手寫數(shù)字識(shí)別的發(fā)展手寫數(shù)字識(shí)別是圖像識(shí)別學(xué)科下的一個(gè)分支,是圖像處理和模式識(shí)別領(lǐng)域研究的課題之一,由于其具有很強(qiáng)的實(shí)用性一直是多年來的研究熱點(diǎn)。由于手寫體數(shù)字的隨意性很大,例如,筆畫的粗細(xì),字體的大小,傾斜等等都直接影響到字符的正確識(shí)別。在過去的數(shù)十年中,研究者們

4、提出了許多的識(shí)別方法,取得了較大的成果。按提取的數(shù)字特征的不同,可以將這些方法分為兩類:基于結(jié)構(gòu)特征的方法和基于統(tǒng)計(jì)特征的方法。統(tǒng)計(jì)特征通常包括點(diǎn)密度的測(cè)量、矩、特征區(qū)域等;結(jié)構(gòu)特征通常包括圓、端點(diǎn)、交叉點(diǎn)、筆劃、輪廓等,一般來說,兩類特征各有優(yōu)勢(shì)。例如,使用統(tǒng)計(jì)特征的分類器易于訓(xùn)練,而且對(duì)于使用統(tǒng)計(jì)特征的分類器,在給定的訓(xùn)練集上能夠得到相對(duì)較高的識(shí)別率;而結(jié)構(gòu)特征的主要優(yōu)點(diǎn)之一是能描述字符的結(jié)構(gòu),在識(shí)別過程中能有效地結(jié)合幾何和結(jié)構(gòu)的知識(shí),因此能夠得到可靠性較高的識(shí)別結(jié)果。在此次的設(shè)計(jì)中使用的是統(tǒng)計(jì)特征。在近幾年國(guó)內(nèi)外對(duì)手寫數(shù)字識(shí)別系統(tǒng)的研究已經(jīng)取得了進(jìn)展,一些新的理論例如(lr)基于深度(s

5、hnd)置信神經(jīng)網(wǎng)絡(luò)、基于小波技術(shù)(jsh)、基于BP神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)的研究應(yīng)用在建立手寫數(shù)字識(shí)別系統(tǒng)平臺(tái),并且在多數(shù)數(shù)據(jù)庫(kù)中取得了較好的測(cè)試結(jié)果。但是目前仍然存在亟需深入研究解決的問題:一是識(shí)別的準(zhǔn)確度需要達(dá)到較好的水平;二是識(shí)別的效率要達(dá)到很高的水平。數(shù)字識(shí)別輸入的數(shù)據(jù)通常是很大的,而高精度與高速度是相互矛盾。這些難點(diǎn)存在的原因是:1)數(shù)字的筆劃簡(jiǎn)單,而且其筆劃差別相對(duì)較小,字形相差不大,使得準(zhǔn)確區(qū)分某些數(shù)字有一些困難;2)數(shù)字雖然只有10種,且筆劃簡(jiǎn)單,但同一數(shù)字寫法卻千差萬(wàn)別,全世界的各個(gè)國(guó)家各個(gè)地區(qū)的人都在用,則其書寫上帶有區(qū)域特性,很難做出可以兼顧世界各種寫法的、識(shí)別率極高的

6、通用性數(shù)字識(shí)別系統(tǒng)。3)特征庫(kù)的訓(xùn)練不夠會(huì)導(dǎo)致識(shí)別率不高。1.2 手寫數(shù)字識(shí)別研究的意義手寫體數(shù)字識(shí)別實(shí)用性很強(qiáng),在大規(guī)模數(shù)據(jù)統(tǒng)計(jì)(如例行年檢,人口普查),財(cái)務(wù),稅務(wù),郵件分揀等等應(yīng)用領(lǐng)域中都有廣闊的應(yīng)用前景。手寫體數(shù)字識(shí)別在特定的環(huán)境下,如郵政編碼自動(dòng)識(shí)別系統(tǒng),稅表和銀行支票自動(dòng)處理系統(tǒng)等一般情況都有應(yīng)用。當(dāng)涉及到數(shù)字識(shí)別時(shí),人們往往要求識(shí)別器有很高的識(shí)別可靠性,特別是有關(guān)金額的數(shù)字識(shí)別時(shí),如支票中填寫的金額部分,更是如此。針對(duì)這類問題的處理系統(tǒng)設(shè)計(jì)的關(guān)鍵環(huán)節(jié)之一就是設(shè)計(jì)出高可靠性和高識(shí)別率的手寫體數(shù)字識(shí)別方法。這個(gè)領(lǐng)域取得了飛速的發(fā)展,部分是由于更好的學(xué)習(xí)算法,部分是由于更優(yōu)良的訓(xùn)練集。美

7、國(guó)國(guó)家科學(xué)學(xué)會(huì)(NIST)建立了一個(gè)包含60000個(gè)經(jīng)過標(biāo)注的數(shù)字的數(shù)據(jù)庫(kù),它已經(jīng)成為對(duì)新的學(xué)習(xí)算法進(jìn)行比較的性能測(cè)試標(biāo)準(zhǔn)。然而可以說還沒有哪個(gè)手寫體數(shù)字識(shí)別器達(dá)到完美的識(shí)別效果。手寫數(shù)字識(shí)別的研究不僅(bjn)存在很大的應(yīng)用價(jià)值,由于手寫數(shù)字識(shí)別本身的特點(diǎn),對(duì)它的研究也存在著重要的理論價(jià)值:1) 阿拉伯?dāng)?shù)字作為唯一被世界各國(guó)通用的符號(hào)(fho),所以對(duì)手寫體數(shù)字識(shí)別的研究基本上與文化背景無關(guān),各地的研究工作者可以說是基于同一平臺(tái)開展工作的,有利于研究的比較和探討。2) 手寫數(shù)字識(shí)別應(yīng)用廣泛,如稅表系統(tǒng),銀行支票自動(dòng)處理和郵政編碼自動(dòng)識(shí)別等。在以前,這些工作需要大量(dling)的手工錄入,投

8、入的人力物力都相對(duì)較多,而且勞動(dòng)強(qiáng)度較大。為了適應(yīng)無紙化辦公的需要,大大提高工作效率,研究實(shí)現(xiàn)手寫數(shù)字識(shí)別系統(tǒng)是必須要做的。3) 由于數(shù)字類別只有0-9共10 個(gè),比其他字符識(shí)別率較高,可將其用于驗(yàn)證新的理論或做深入的分析研究。許多機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域的新理論和算法都是先用手寫數(shù)字識(shí)別進(jìn)行檢驗(yàn),驗(yàn)證其理論的有效性,然后才會(huì)將其應(yīng)用到更為復(fù)雜的領(lǐng)域當(dāng)中。在這方面的典型例子就是人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)。4) 手寫數(shù)字的識(shí)別方法很容易將其推廣到其它一些相關(guān)的問題上,如對(duì)英文之類拼音文字的識(shí)別。事實(shí)上,有許多學(xué)者就是把數(shù)字和英文字母的識(shí)別放在一起研究的。1.3數(shù)字識(shí)別系統(tǒng)的一般結(jié)構(gòu)小型的手寫體數(shù)字識(shí)

9、別系統(tǒng)需要完成以下主要方面的研究與設(shè)計(jì)工作: 手寫數(shù)字繪制的問題、數(shù)字的預(yù)處理問題、特征提取問題、特征庫(kù)的建立問題、數(shù)字識(shí)別問題。在本實(shí)驗(yàn)中數(shù)字識(shí)別程序用Python來實(shí)現(xiàn),程序?qū)崿F(xiàn)了手寫數(shù)字的輸入、學(xué)習(xí)、識(shí)別過程。在最初的訓(xùn)練樣本為數(shù)據(jù)集中全部60000個(gè)數(shù)據(jù)。在數(shù)字識(shí)別時(shí)分別使用了Bayes決策與最近鄰決策兩種方法。首先,通常小型手寫數(shù)字識(shí)別系統(tǒng)應(yīng)包含以下結(jié)果模塊:1)數(shù)字的獲取與預(yù)處理一般圖像系統(tǒng)的預(yù)處理需要對(duì)圖像進(jìn)行灰度化處理、去噪處理等基本操作。在手寫數(shù)字圖像識(shí)別系統(tǒng)中,預(yù)處理是為了突出手寫體數(shù)字的特征。圖像的二值化處理就是將圖像上的像素點(diǎn)的灰度值設(shè)置為0或255,也就是將整個(gè)圖像呈

10、現(xiàn)出明顯的黑白效果。在手寫數(shù)字識(shí)別系統(tǒng)中,我們利用程序保存的坐標(biāo)值就可以對(duì)生成一張二值化圖像,相當(dāng)于圖像處理系統(tǒng)的二值化處理。這樣內(nèi)存中圖像的數(shù)據(jù)區(qū)域的二維數(shù)組就跟手寫區(qū)域的坐標(biāo)相同,我們?cè)偃〕鍪謱憛^(qū)域的坐標(biāo)值,將這些坐標(biāo)值對(duì)應(yīng)到圖像圖像數(shù)據(jù)區(qū)域中,并且將它的灰度值置為255(白色),將圖像數(shù)據(jù)區(qū)域的其它坐標(biāo)值下的灰度值置為0(黑色),這樣我們就得到了一張手寫數(shù)字的二值化圖像。在數(shù)字圖像處理中,二值圖像占有非常重要的地位,圖像的二值化有利于圖像的進(jìn)一步處理,使圖像變得簡(jiǎn)單,而且數(shù)據(jù)量減小,能突顯出感興趣的目標(biāo)的輪廓。2)特征(tzhng)的提取若直接把預(yù)處理后的數(shù)據(jù)作為輸入量,進(jìn)行分類計(jì)算時(shí)數(shù)

11、據(jù)時(shí)數(shù)據(jù)量大,同時(shí)由于手寫字體的多樣化及圖像本身和預(yù)處理過程中附帶的某些干擾的影響,對(duì)系統(tǒng)的容錯(cuò)能力要求較高。特征提取的目的(md)就是從分析數(shù)字的拓?fù)浣Y(jié)構(gòu)入手,把它的某些結(jié)構(gòu)特征提取出來,使數(shù)字的位移、大小變化、字形畸形等干擾相對(duì)較小,也就是把那些反映數(shù)字特征的關(guān)鍵信息提供給系統(tǒng),這樣就等于間接地增加了系統(tǒng)的容錯(cuò)能力,而且經(jīng)過特征提取后數(shù)據(jù)量也大大減少了,這樣就提高了識(shí)別的效率。因此(ync)得到手寫數(shù)字的二值化圖像后,通常要進(jìn)行特征提取前需要對(duì)此圖像的數(shù)據(jù)區(qū)域進(jìn)行定位,在程序中我們遍歷此二值化圖像,找到手寫數(shù)字區(qū)域的上、下、左、右邊界,重新生成一張數(shù)字圖片,利用新生成的數(shù)字圖片分成N*N的

12、區(qū)域,統(tǒng)計(jì)每個(gè)區(qū)域的目標(biāo)像素個(gè)數(shù)和整個(gè)小區(qū)域像素個(gè)數(shù),計(jì)算目標(biāo)像素個(gè)數(shù)與整個(gè)小區(qū)域像素的比值,得到N*N個(gè)特征值,作為這個(gè)手寫數(shù)字的特征值。手寫數(shù)字識(shí)別的特征提取極大程度地影響著分類器的設(shè)計(jì)和性能,以及識(shí)別的效果和效率。為了保證所要求的分類識(shí)別的正確率和節(jié)省資源,希望依據(jù)最少的特征達(dá)到所要求的分類識(shí)別的正確率。在進(jìn)行手寫數(shù)字識(shí)別的過程中,特征提取應(yīng)遵循以下原則:1特征應(yīng)能盡量包含字符的有用信息;2特征的提取方法應(yīng)簡(jiǎn)單而且提取快速:3各個(gè)特征之間的相關(guān)性應(yīng)盡可能??;4特征數(shù)量盡可能少;5特征應(yīng)有較好的抗干擾能力,同時(shí)要考慮到算法的實(shí)時(shí)性、快速性和準(zhǔn)確性。3)特征庫(kù)的訓(xùn)練我們需要訓(xùn)練一個(gè)特征庫(kù),作

13、為識(shí)別的標(biāo)準(zhǔn)。我們可以手寫一個(gè)數(shù)字提取出它的特征值,再輸入這些手寫數(shù)字,將數(shù)字與這些特征值相對(duì)應(yīng)存儲(chǔ)到特征庫(kù)里面,在程序中將此輸入數(shù)字與所有特征值相對(duì)應(yīng),作為模板庫(kù)的一條記錄,初始化模板庫(kù)之后,就可以對(duì)手寫數(shù)字進(jìn)行識(shí)別,在識(shí)別的過程中我們不斷的豐富模板庫(kù),如果手寫數(shù)字識(shí)別成功則不需要將此數(shù)字存儲(chǔ)到模板庫(kù)中,如果識(shí)別失敗就需要將此數(shù)字存儲(chǔ)到模板庫(kù)中,這樣我們的模板庫(kù)將越來越豐富,特征庫(kù)越豐富,識(shí)別率越高。本實(shí)驗(yàn)我們簡(jiǎn)化了這一過程,直接使用MNIST數(shù)據(jù)庫(kù)中儲(chǔ)存樣本信息。4)數(shù)字(shz)識(shí)別在手寫數(shù)字(shz)識(shí)別中,即分類器準(zhǔn)則(zhnz)的設(shè)計(jì),是整個(gè)過程的核心。如本實(shí)驗(yàn)中使用的一個(gè)方法是最

14、近鄰法,其實(shí)質(zhì)就是提取出手寫數(shù)字的特征值,利用這些特征值與特征庫(kù)的數(shù)字的特征值進(jìn)行比對(duì),它是將從待識(shí)別的圖像提取的若干特征量與模板對(duì)應(yīng)的特征量進(jìn)行比較,計(jì)算圖像和模板特征量之間的距離,用最小距離法判定所屬類。模板匹配通常事先建立標(biāo)準(zhǔn)模板庫(kù)。這里,模板庫(kù)中的標(biāo)準(zhǔn)模板是數(shù)字樣本的特征向量。找出待識(shí)別數(shù)字特征值與特征庫(kù)里存儲(chǔ)的特征值最接近的數(shù)字,作為識(shí)別結(jié)果。5)性能需求分析得到數(shù)字識(shí)別系統(tǒng)后,我們要對(duì)這一系統(tǒng)的識(shí)別效果做出評(píng)價(jià),通常從以下三個(gè)方面入手:1正確性:根據(jù)手寫數(shù)字識(shí)別系統(tǒng)的設(shè)計(jì)流程,流程中的每個(gè)步驟在系統(tǒng)中都必須有所體現(xiàn),以保證程序的正確性;2精確性:根據(jù)手寫數(shù)字識(shí)別系統(tǒng)的應(yīng)用領(lǐng)域,該系

15、統(tǒng)的識(shí)別結(jié)果必須有很高的識(shí)別精度,這樣才能真正的實(shí)現(xiàn)該系統(tǒng)的價(jià)值;3效率性:根據(jù)該系統(tǒng)的應(yīng)用領(lǐng)域可知,系統(tǒng)一旦投入應(yīng)用需要處理大量的數(shù)據(jù),所以對(duì)系統(tǒng)的處理速度也有很高的要求。綜上所述,數(shù)字識(shí)別系統(tǒng)的基本結(jié)構(gòu)一般分為左右兩部分,左半部分完成未知類別模式的分類;右半部分屬于設(shè)計(jì)分類器的訓(xùn)練過程,利用樣品進(jìn)行訓(xùn)練,確定分類器的具體參數(shù),完成分類器的設(shè)計(jì)。而分類決策在識(shí)別過程中起作用,對(duì)待識(shí)別的樣品進(jìn)行分類決策。2理論基礎(chǔ)2.1貝葉斯分類理論Bayes方法是模式識(shí)別中的一種經(jīng)典方法。用Bayes方法進(jìn)行分類時(shí)需要滿足兩個(gè)前提條件。其一是各類別的總體概率分布是已知的,也即類條件概率密度P(X|Wi)和先

16、驗(yàn)概率P(Wi)是已知的;其二是決策類別數(shù)目已知。類條件概率密度函數(shù)P(X|Wi)是指在已知某類別Wi的特征空間中,出現(xiàn)特征值X的概率密度,也即在Wi條件下出現(xiàn)X的概率密度。其中對(duì)于待分類樣本數(shù)字X ,Bayes公式可以計(jì)算出該數(shù)字分屬與各個(gè)類別的概率,稱為后驗(yàn)概率。考察X屬于那個(gè)類的可能性最大,就把X歸于可能性最大的那個(gè)類。在Bayes決策中,后驗(yàn)概率作為識(shí)別待分類樣的類別依據(jù)。其公式可表示如下: 其中(qzhng),P(X|Wi)表示(biosh)在X出現(xiàn)(chxin)的條件下,待識(shí)別對(duì)象為Wi類的概率。基于Bayes決策的分類在已知先驗(yàn)概率和類條件概率密度函數(shù)的情況下,可以用Bayes方

17、法進(jìn)行分類。根據(jù)分類類別數(shù)目的不同,后驗(yàn)概率計(jì)算公式可以表示為不同的形式;下面分兩種情況進(jìn)行討論:兩類情況:待分類樣本分別屬于W1和W2類中的一類,在已知這兩類的類條件概率密度P(X|W1)和P(X|W2),先驗(yàn)概率分別為P(W1)和P(W2)時(shí),對(duì)于任一個(gè)待分類樣本X,X分屬于兩類的后驗(yàn)概率Bayes公式可以改寫為: 其中i=1或2,針對(duì)兩類情況,可以用后驗(yàn)概率進(jìn)行判別;后驗(yàn)概率較大的對(duì)應(yīng)的類別為該對(duì)象X所屬的類別。多類情況:待分類樣本可能的類別有N類,分別為W1、W2、Wn,各類的類的條件概率密度P(X|Wi)和先驗(yàn)概率P(Wi)已知。我們可以利用式子計(jì)算待分類樣本對(duì)應(yīng)的各個(gè)類的后驗(yàn)概率,

18、后驗(yàn)概率最大的對(duì)應(yīng)的類別為待分類樣本的類別。在本系統(tǒng)中將以使用者聯(lián)機(jī)手寫的數(shù)字作為測(cè)試樣本。當(dāng)手寫一個(gè)數(shù)字時(shí),就進(jìn)行分類識(shí)別測(cè)試,得出其所屬的類別,并可根據(jù)需要決定是否要學(xué)習(xí)該數(shù)字。在識(shí)別之前須首先知道先驗(yàn)概率和類條件概率密度函數(shù),其中先驗(yàn)概率P(Wi)可以由訓(xùn)練樣本集中的各類數(shù)字的個(gè)數(shù)和樣本總數(shù)之比近似計(jì)算;類條件概率密度函數(shù)P(X|Wi)可以按照模板匹配等方法進(jìn)行數(shù)字的區(qū)域劃分再進(jìn)行進(jìn)一步計(jì)算得到。在得到先驗(yàn)概率和類條件概率密度函數(shù)以后,可以運(yùn)用Bayes公式進(jìn)行后驗(yàn)概率P(Wi|X)的計(jì)算;由于手寫數(shù)字09共有十類,該公式可以表示如下: 在這是i為總類別數(shù),分別為0、1、9等。緊接著就可

19、以進(jìn)行后驗(yàn)概率的比較,其中值最大的所對(duì)應(yīng)的類別即為該手寫數(shù)字的所屬的類別,即:則xWi。2.2GMM分類器算法名稱:Gaussian-mixture-model Classifier(GMM Classifier)由于貝葉斯理論本身并未給出概率密度分布模型的估計(jì)方法,將貝葉斯分類理論中獲取的概率密度分布參數(shù)看做多個(gè)高斯分布混合模型,可以得到GMM算法,算法步驟如下:輸入(shr):降維后的訓(xùn)練樣本集,其中(qzhng)是降維后的數(shù)據(jù)(shj)維數(shù),是訓(xùn)練樣本個(gè)數(shù);降維后的測(cè)試樣本集,其中是降維后的數(shù)據(jù)維數(shù),是測(cè)試樣本個(gè)數(shù);CTrain是每個(gè)類別的訓(xùn)練樣本數(shù)目;是預(yù)設(shè)的每個(gè)類別最大的組件數(shù)目。步

20、驟一 估算訓(xùn)練數(shù)據(jù)的概率密度函數(shù)。采用BIC準(zhǔn)則來估算最優(yōu)值。步驟二 計(jì)算測(cè)試樣本集中每個(gè)樣本的歸屬類別。計(jì)算每個(gè)測(cè)試樣本對(duì)每個(gè)類別的概率密度函數(shù)值,取最大的函數(shù)值類別作為此測(cè)試樣本的歸屬類別。輸出: 測(cè)試樣本集的概率密度值和樣本所屬類別。一個(gè)GMM結(jié)構(gòu)可以看作兩個(gè)或更多常規(guī)高斯分布模型的混合。在一個(gè)典型的GMM分布中,的概率密度函數(shù)被寫為個(gè)高斯分布的和:其中:在上式中,是混合的高斯分布的個(gè)數(shù),是第個(gè)高斯分布的權(quán)重因子,表示每個(gè)高斯分量在總體中所占的比例,并且,是模型的期望,通常用樣本均值來代替,是模型方差,通常用樣本協(xié)方差矩陣來代替。最后這三個(gè)量能用一個(gè)參數(shù)向量來表示。當(dāng)組成每個(gè)GMM的高斯

21、分布最優(yōu)數(shù)目確定后,混合模型的參數(shù)能通過期望最大化算法(EM,一種迭代優(yōu)化策略)來估計(jì)。EM算法能找到參數(shù)的一個(gè)(局部)最大似然或最大后驗(yàn)概率估計(jì)。給定一個(gè)數(shù)據(jù)集,是第個(gè)高斯分布子集 中的數(shù)據(jù)向量,是中的樣本數(shù)目,由此產(chǎn)生的完整的數(shù)據(jù)對(duì)數(shù)似然函數(shù)是:其中(qzhng)是GMM中第個(gè)分布(fnb)的后驗(yàn)概率,可以寫為:每次迭代(di di)中,通過求最大似然函數(shù)式來求得參數(shù)(M步驟)。參數(shù)集隨后作為期望參數(shù)值更新式(2-30)來進(jìn)行下一次迭代(E步驟),其中更新參數(shù)為:直到式中完整的數(shù)據(jù)對(duì)數(shù)似然函數(shù)的連續(xù)的數(shù)值相對(duì)差異達(dá)到某些預(yù)設(shè)的收斂閾值時(shí)停止迭代。預(yù)估一個(gè)合適的組件/模型數(shù)值對(duì)于分類任務(wù)中成

22、功學(xué)習(xí)和使用GMM算法很重要。信息準(zhǔn)則(AIC)是一個(gè)常用的用來估計(jì)最優(yōu)值的度量。對(duì)于參數(shù)向量,AIC準(zhǔn)則表述為如下的似然函數(shù):其中是依據(jù)每個(gè)模型的最大對(duì)數(shù)似然函數(shù),是估算的高斯分布的數(shù)目。首選的模型是有最小數(shù)值的模型。貝葉斯信息準(zhǔn)則(BIC)是另一個(gè)常用來估算最優(yōu)值的度量,表示為:其中是樣本總數(shù),據(jù)悉模式識(shí)別領(lǐng)域的具體應(yīng)用中,AIC會(huì)過度估計(jì)值,而BIC由于會(huì)得到一個(gè)小的多的值而更有效。因此采用BIC作為GMM分類的度量。2.3主成分(chng fn)分析(PCA)算法(sun f)名稱:Principal Component Analysis(PCA)本實(shí)驗(yàn)(shyn)為了解決針對(duì)貝葉斯分

23、類器中特征矩陣奇異不可求逆,引入PCA降維算法。PCA是基于K-L變換思想的特征提取方法,它的出發(fā)點(diǎn)是從一組特征中計(jì)算出一組按重要性從大到小排列的新特征,它們是原有特征的線性組合,且相互之間是極大不相關(guān)的。PCA的目標(biāo)是使新特征的方差達(dá)到極大值,可用于線性分類,最大化類間離散度。方法具體可描述為,對(duì)于一幅個(gè)像素組成的圖像,可以將其看作一個(gè)特征為維向量的樣本。設(shè)訓(xùn)練樣本集有類樣本,每類樣本的個(gè)數(shù)為,則所有樣本個(gè)數(shù)為,樣本集表示為。樣本集的平均向量表示為,每個(gè)樣本減去平均向量,得到差值,協(xié)方差矩陣(也稱總體散布矩陣)表示為,其中,因?yàn)榫仃嚨木S度為,因此考慮另一個(gè)矩陣,它的維度為,通常。矩陣的特征方

24、程為,兩邊同時(shí)左乘,得,記,則上式可寫成因此(ync),維的矩陣(j zhn)和維矩陣(j zhn)具有相同的特征值,特征向量具有如下關(guān)系,兩規(guī)范化特征向量的關(guān)系為,將特征值從大到小排列,選取前個(gè)特征值,滿足一定的貢獻(xiàn)率,即則這個(gè)特征值在這些新的規(guī)范正交基上的投影構(gòu)成了對(duì)原圖像的降維表示,所在空間為特征臉空間。根據(jù)K-L變換的性質(zhì),這種降維表示是所有相同維數(shù)的線性表示中誤差最小的。特征空間可用矩陣表示,其列向量為規(guī)范正交基,即,表示的差值在其上投影,投影系數(shù)可表示為,而特征向量可通過下式重構(gòu)出原始圖像,??偟脕碚f,PCA算法通過利用規(guī)范正交基的線性組合描述、表達(dá)和逼近圖像,因此可以進(jìn)行圖片的識(shí)

25、別和重建。PCA 為了獲得數(shù)目和計(jì)算量最小的主成分需要從信息壓縮最大方向?qū)で髨D像的低維信息表達(dá),所以對(duì)應(yīng)的 K-L 變換的信息熵最小,獲得的識(shí)別空間也是對(duì)原圖像的最優(yōu)逼近。且歸一化后的特征向量的范圍被限制在0,1之間,簡(jiǎn)化了運(yùn)算過程,提高了運(yùn)算速度。采用主成分分析法對(duì)繁雜的特征向量進(jìn)行提取,以降低分類代價(jià),提高分類性能。然而,PCA具有兩點(diǎn)不足:其一,將二維圖像一維向量化,丟失了圖像中像素的鄰域相關(guān)信息;其二,圖像中所有像素點(diǎn)的權(quán)重相同,沒有突出重要信息PCA算法具體步驟如下:(1)對(duì)各維數(shù)據(jù)(shj)進(jìn)行無量綱化;設(shè) 那么(n me)得到其中(qzhng)是各維特征向量的均值,是各維特征向量

26、的標(biāo)準(zhǔn)差。(2)計(jì)算Y的協(xié)方差矩陣S: (3)解特征值和特征向量根據(jù)特征方程 求解S的特征值和特征向量u。而后將從大到小排列:,并找到與之對(duì)應(yīng)的: (4)計(jì)算主成分 這里 (5)選取主成分P的取值原則要讓主成分滿足最大程度包含原信息量最小值的條件。這里依據(jù)主成分貢獻(xiàn)率 選取主成分。2.4最近鄰分類器算法名稱:Nearest Neighbor Classification最近(zujn)鄰法是將分段線性分類器得思想推廣,把每一個(gè)訓(xùn)練樣本作為(zuwi)一個(gè)子類模板,利用兩兩樣本間的分類面構(gòu)造出非線性分類面,對(duì)于一個(gè)新樣本,逐一與已知樣本比較,找出距離新樣本最近的已知樣本類別作為決策,即最近鄰法。

27、可以表述為為樣本(yngbn)特征向量,為對(duì)應(yīng)樣本類別,設(shè)共有c個(gè)類別,定義兩個(gè)樣本間的距離度量,通常用歐式距離計(jì)算即可。則判別函數(shù)可以寫作決策規(guī)則可以寫作在已知樣本足夠多時(shí),這種直觀的最近鄰決策可以取得較好的效果,理論上最近鄰法的錯(cuò)誤率結(jié)果如下:設(shè)N個(gè)樣本下最近鄰法平均錯(cuò)誤率為 定義最近鄰法漸進(jìn)錯(cuò)誤率P為當(dāng)N趨于無窮時(shí)平均錯(cuò)誤率的極限,則可以證明 P*為理論最優(yōu)錯(cuò)誤率,即貝葉斯錯(cuò)誤率。由此可知,最近鄰法的漸進(jìn)錯(cuò)誤率最壞不會(huì)超出兩倍貝葉斯錯(cuò)誤率,當(dāng)樣本足夠多時(shí),最優(yōu)可以達(dá)到貝葉斯錯(cuò)誤率,如圖2.4所示。 圖2.4最近鄰法與貝葉斯法理論錯(cuò)誤率關(guān)系2.5K最近鄰分類器算法名稱:k-Nearest

28、Neighbor Classification ()最近鄰(k-Nearest Neighbor,)分類器算法是一種在理論上很成熟的分類算法,并且是最簡(jiǎn)單機(jī)器學(xué)習(xí)算法之一。K最近鄰法相當(dāng)于是最近鄰法的推廣,后者只是K=1的特例。算法的思想是:已知一個(gè)訓(xùn)練樣本集,并且訓(xùn)練樣本集中的每個(gè)樣本的類別是確定的。對(duì)于給定的待分類樣本,計(jì)算它和訓(xùn)練樣本集中所有樣本的距離度量,常見的距離度量包括歐氏距離,皮爾遜系數(shù),余弦函數(shù)。根據(jù)距離度量找出樣本的個(gè)最近的訓(xùn)練樣本,然后根據(jù)這個(gè)訓(xùn)練樣本的所屬類別來確定的類別,其中待分類樣本類別由這個(gè)訓(xùn)練樣本中類別最多的來確定。如圖2.5所示,相比較最近鄰法,K近鄰法的正確率

29、會(huì)顯著提高,但仍以貝葉斯錯(cuò)誤率為漸進(jìn)錯(cuò)誤率的極限。圖2.5 K近鄰(jn ln)法與貝葉斯法理論錯(cuò)誤率關(guān)系K近鄰(jn ln)算法步驟如下:輸入(shr):訓(xùn)練樣本集和測(cè)試樣本集,其中為訓(xùn)練樣本個(gè)數(shù),為測(cè)試樣本個(gè)數(shù),為樣本的維數(shù),為每個(gè)訓(xùn)練樣本所屬樣本類別的集合, ,近鄰域。步驟一 計(jì)算測(cè)試樣本集中每一個(gè)樣本與所有訓(xùn)練樣本的距離度量。計(jì)算測(cè)試樣本集中的每一個(gè)樣本與所有訓(xùn)練樣本的歐氏距離,尋找與測(cè)試樣本距離最小的個(gè)訓(xùn)練樣本,并記錄這個(gè)訓(xùn)練樣本所屬的類別。步驟二 統(tǒng)計(jì)個(gè)訓(xùn)練樣本中每個(gè)類別的樣本出現(xiàn)的頻率。統(tǒng)計(jì)中出現(xiàn)頻率最高的類別,并將這個(gè)類別作為測(cè)試樣本的預(yù)測(cè)類別。輸出: 測(cè)試樣本集所屬的類別向量

30、。 3實(shí)驗(yàn)設(shè)計(jì)3.1MNIST數(shù)據(jù)(shj)樣本(yngbn)集介紹(jisho)MNIST數(shù)據(jù)集是一個(gè)真實(shí)世界中采集的手寫數(shù)字圖像數(shù)據(jù)集,它由NIST會(huì)議收集并持有,讀者可到MNIST主頁(yè)免費(fèi)獲取該數(shù)據(jù)集。這個(gè)數(shù)據(jù)集一共含有4個(gè)文件,分別存儲(chǔ)訓(xùn)練數(shù)據(jù)、訓(xùn)練標(biāo)簽、測(cè)試數(shù)據(jù)、測(cè)試標(biāo)簽。文件以二進(jìn)制文件形式存儲(chǔ),不過我們可以很容易編寫一段小代碼將其轉(zhuǎn)換成圖像。訓(xùn)練集共含有60000個(gè)樣本,測(cè)試集含有10000個(gè)樣本,這些樣本收集自 500位不同的人的手寫字體。MNIST是手寫數(shù)字的數(shù)據(jù)庫(kù),其中包含有60000個(gè)樣本的訓(xùn)練樣本集以及10000個(gè)樣本的測(cè)試樣本集。這是從NIST這個(gè)更大的數(shù)據(jù)庫(kù)中截取的

31、。這些數(shù)據(jù)已經(jīng)進(jìn)行過歸一化,存儲(chǔ)在一個(gè)尺寸固定圖像的中心。NIST中原來的黑色和白色(雙層)圖像尺寸歸一化以存儲(chǔ)于一個(gè)20X20像素盒而保持縱橫比。所得到的圖像包含灰度級(jí)的歸一化算法所使用的抗混疊的技術(shù)。圖像被集中在一個(gè)28x28的圖像中。并通過計(jì)算像素的質(zhì)量中心,將圖像以位置中心點(diǎn)置于28x28場(chǎng)中心。對(duì)于基于模板的方法,圖像預(yù)處理時(shí),以像素盒邊界為中心識(shí)別的正確率要高于以數(shù)字圖像自身重心為中心的結(jié)果。手寫體數(shù)字的二進(jìn)制圖像:這其中的原因在于事實(shí)SD-3的數(shù)據(jù)集是在人口普查局職工中收集的,而SD-1收集自高中生。從學(xué)習(xí)實(shí)驗(yàn)中得出合理的結(jié)論,這就要求結(jié)果是獨(dú)立的訓(xùn)練集的選擇和測(cè)試的完整樣本集。

32、因此,有必要通過混合NIST的數(shù)據(jù)集建立一個(gè)新的數(shù)據(jù)庫(kù)。訓(xùn)練集和測(cè)試集中的樣本各有一半來自SD-3,一半來自SD-1。參與數(shù)據(jù)采集的書寫人一共約500人。 圖 3-1 MNIST數(shù)據(jù)(shj)集部分?jǐn)?shù)據(jù)樣本每個(gè)數(shù)據(jù)(shj)樣本是28 28像素的灰度圖像,由于(yuy)引入了抗鋸齒效果,所以圖像數(shù)值范圍是0 255而不是二值圖像。圖像已經(jīng)經(jīng)過預(yù)處理,因此圖像會(huì)集中在中心 20 20的區(qū)域內(nèi),此外,圖像的中心點(diǎn)與像素點(diǎn)的重心重合,所以如果要使用模板匹配的方法(比如k近鄰,GMM, SVM等)進(jìn)行分類的話對(duì)圖像再進(jìn)行一些預(yù)處理使得數(shù)字的幾何中心與圖像中心重合會(huì)改善你的算法性能。如圖3-1是MNIS

33、T數(shù)據(jù)集中的一小部分樣本的展示,原始的數(shù)據(jù)應(yīng)該是黑底白字的,為了美觀,我們將其顏色反轉(zhuǎn)并加上周圍的邊框。數(shù)據(jù)集鏈接:MNIST( HYPERLINK /exdb/mnist/ /exdb/mnist/)3.2實(shí)驗(yàn)流程介紹首先,讀入MNIST的SD-1、SD-3中含有的60000個(gè)含標(biāo)簽的訓(xùn)練樣本,樣本存儲(chǔ)類型為60000*784矩陣模式,即每個(gè)樣本對(duì)應(yīng)28*28為二值灰度矩陣,再存為784維特征向量,一種做GMM分類處理,先得到對(duì)應(yīng)的10個(gè)高斯混合分布模型,再根據(jù)PCA算法首先將樣本降為20維向量,最后利用貝葉斯最小錯(cuò)誤率決策理論,對(duì)數(shù)據(jù)集MNIST中的10000個(gè)手寫數(shù)據(jù)測(cè)試樣本集進(jìn)行分類,

34、分為09十個(gè)類別;另一種用最近鄰分類器處理,首先直接把訓(xùn)練所有樣本集都存儲(chǔ)為模板,然后根據(jù)最近鄰決策規(guī)則直接對(duì)測(cè)試樣本集進(jìn)行判別。改變訓(xùn)練樣本數(shù)目,從1000直到60000,記錄整個(gè)過程的識(shí)別率變化,比較并繪出曲線。最后輸出不同方法識(shí)別的正確個(gè)數(shù)以及識(shí)別正確率,對(duì)兩種方法的正確率,精確性及辨識(shí)效率進(jìn)行比較。實(shí)驗(yàn)流程圖如圖3.2所示。 圖3.2實(shí)驗(yàn)(shyn)流程圖4 實(shí)驗(yàn)(shyn)結(jié)果 實(shí)驗(yàn)(shyn)程序在Python環(huán)境運(yùn)行結(jié)果如下圖4.1所示,最終記錄的識(shí)別率如表4.1所示,將辨識(shí)率繪制成折線圖如圖4.2所示:?jiǎn)渭兙蛢煞N算法的識(shí)別正確率直觀來說,可以看出最近鄰法的識(shí)別正確率隨樣本數(shù)目升

35、高的明顯更快,最終正確率也要高于GMM,這表面上與最近鄰法的漸進(jìn)錯(cuò)誤率最優(yōu)極限為貝葉斯錯(cuò)誤率這一結(jié)論是相悖的。其實(shí)際原因主要有二:一是貝葉斯錯(cuò)誤率本身為理論最優(yōu)錯(cuò)誤率,而真實(shí)情況中由于在概率密度函數(shù)估計(jì)環(huán)節(jié)的近似,理論錯(cuò)誤率實(shí)際上是達(dá)不到的;二是由于本實(shí)驗(yàn)中特征矩陣奇異不可求逆,我們首先對(duì)樣本進(jìn)行了PCA降維操作,由原來的784維降至20維,雖然大大提高了辨識(shí)效率,確是基于降低了GMM辨識(shí)精度的基礎(chǔ)上,導(dǎo)致最終最近鄰法辨識(shí)正確率要高于GMM。但是從中卻可以看出貝葉斯理論本身對(duì)樣本數(shù)量的依賴不像最近鄰法那么高,在很大的訓(xùn)練樣本數(shù)范圍內(nèi)識(shí)別率都不會(huì)有過大的變化。訓(xùn)練樣本數(shù)1000500080001

36、00001500020000300004500060000GMM識(shí)別率(%)91.0894.3494.5594.5594.8295.0495.0495.1195.03最近鄰識(shí)別率(%)86.993.4394.2794.6395.4295.5796.1896.5796.91 表4.1兩種方法對(duì)應(yīng)(duyng)的識(shí)別率比較 圖4.1Python環(huán)境下程序最終(zu zhn)輸出結(jié)果圖4.2兩種方法(fngf)辨識(shí)正確率折線圖從識(shí)別的效率角度,貝葉斯方法即GMM整個(gè)辨識(shí)(bin sh)過程的時(shí)間均在二十秒至四十秒之間,前后差異不大,而最近鄰方法的辨識(shí)時(shí)間從1000個(gè)測(cè)試樣本時(shí)的一分鐘指數(shù)增長(zhǎng)為600

37、00個(gè)樣本時(shí)對(duì)應(yīng)的一個(gè)半小時(shí),可以看出GMM的識(shí)別速度較快,但識(shí)別正確率提升較低;最近鄰法的識(shí)別正確率雖然有顯著提升,但耗費(fèi)時(shí)間過長(zhǎng)。同時(shí)在訓(xùn)練樣本較少時(shí),二者時(shí)間雖然相差不大,但貝葉斯方法能保證的基礎(chǔ)識(shí)別率相對(duì)比較要更高。因此,我的結(jié)論是對(duì)于精度要求不大或者訓(xùn)練樣本比較少的情況GMM方法的識(shí)別效率更高,訓(xùn)練樣本數(shù)量在2000040000間時(shí),可以考慮用最近鄰方法。5參考文獻(xiàn)1張學(xué)工. 模式識(shí)別M北京:清華大學(xué)出版社,2010.82王有偉. 手寫體數(shù)字識(shí)別.D.山東:山東大學(xué)碩士學(xué)位論文.20043許東星.基于GMM和高層信息特征的識(shí)別研究.D.河北.中國(guó)科學(xué)技術(shù)大學(xué)博士學(xué)位論文.20094B

38、ishop C M. Pattern recognition and machine learningM. Vol. 1:springer New York,20065朱小燕. 手寫體字符識(shí)別研究J. 模式識(shí)別(m sh sh bi)與人工智能, 20006 張林娜. 手寫數(shù)字識(shí)別系統(tǒng)的設(shè)計(jì)(shj)與實(shí)現(xiàn).D北京(bi jn).北京理工大學(xué). 20096附錄具體實(shí)現(xiàn)在Python環(huán)境下的程序代碼:1.讀取MNIST數(shù)據(jù)集代碼:# -*- coding: utf-8 -*-from struct import * from numpy import *def getData(): #讀入訓(xùn)練集

39、trainingImageFile = open(rC:UsersAdministratorDesktopMNISTtrain-images.idx3-ubyte,rb) trainingImageFile.read(16) trainingData = fromfile(trainingImageFile, dtype = uint8)trainingData.shape = -1, 784#訓(xùn)練集數(shù)據(jù)標(biāo)簽切片trainingData = trainingData0:60000,: trainingImageFile.close() #讀入訓(xùn)練標(biāo)簽集trainingLabelFile = o

40、pen(rC:UsersAdministratorDesktopMNISTtrain-labels.idx1-ubyte,rb) trainingLabelFile.read(8)trainingLabel = fromfile(trainingLabelFile, dtype = uint8)#訓(xùn)練集標(biāo)簽切片trainingLabel = trainingLabel0:60000 trainingLabelFile.close() #讀入測(cè)試數(shù)據(jù) testImageFile = open(rC:UsersAdministratorDesktopMNISTt10k-images.idx3-ub

41、yte,rb) testImageFile.read(16) testData = fromfile(testImageFile, dtype = uint8) testData.shape = -1, 784 testImageFile.close() #讀入訓(xùn)練標(biāo)簽集 testLabelFile = open(rC:UsersAdministratorDesktopMNISTt10k-labels.idx1-ubyte,rb) testLabelFile.read(8) testLabel = fromfile(testLabelFile, dtype = uint8) testLabel

42、File.close()return trainingData, trainingLabel, testData, testLabel2. PCA降維算法(sun f) #-*- coding: utf-8 -*-from numpy import *def PCA(trainingData, k = 2): means = mean(trainingData) covariance = cov(trainingData.T) scatterMatrix = (covariance.shape0 - 1) * covariance eigVal, eigVct = linalg.eig(sca

43、tterMatrix) topK = argsort(eigVal)-k : DimReduVct = eigVct:,topK principal = (trainingData - means) principal = dot(principal, DimReduVct)return principal, DimReduVct,means3.貝葉斯決策(juc)分類器代碼# -*- coding: utf-8 -*-from numpy import *from MNISTData import *from PCA import *#降維到20維D = 20trainingData, trainingLabel, testData, testLabel = getData()trainingData,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論