數(shù)字圖像課程設(shè)計報告_第1頁
數(shù)字圖像課程設(shè)計報告_第2頁
數(shù)字圖像課程設(shè)計報告_第3頁
數(shù)字圖像課程設(shè)計報告_第4頁
數(shù)字圖像課程設(shè)計報告_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)字圖像處理課程設(shè)計報告手寫阿拉伯?dāng)?shù)字的識別1、課程設(shè)計目的1)、 提高分析問題、解決問題的能力,進(jìn)一步鞏固數(shù)字圖像處理系統(tǒng)中的基本原理與方法。2)、 掌握文獻(xiàn)檢索的方法與技巧。3)、 熟悉掌握一門計算機(jī)語言,可以進(jìn)行數(shù)字圖像的應(yīng)用處理的開發(fā)設(shè)計。2、方法綜述 字符識別處理的信息可分為兩大類:一類是文字信息,處理的主要是用各國家、各民族的文字(如:漢字,英文等)書寫或印刷的文本信息,目前在印刷體和聯(lián)機(jī)手寫方面技術(shù)已趨向成熟,并推出了很多應(yīng)用系統(tǒng);另一類是數(shù)據(jù)信息,主要是由阿拉伯?dāng)?shù)字及少量特殊符號組成的各種編號和統(tǒng)計數(shù)據(jù),如:郵政編碼、統(tǒng)計報表、財務(wù)報表、銀行票據(jù)等等,處理這類信息的核心技術(shù)是手

2、寫數(shù)字識別。本次實(shí)驗(yàn)是對手寫的阿拉伯?dāng)?shù)字進(jìn)行識別,主要步驟包括預(yù)處理模塊(其中用到圖像分割方法),特征提取和利用人工神經(jīng)網(wǎng)絡(luò)(具體運(yùn)用bp神經(jīng)網(wǎng)絡(luò)方法)進(jìn)行數(shù)字的識別。2.1圖像分割:圖像分割就是把圖像分成若干個特定的、具有獨(dú)特性質(zhì)的區(qū)域并提出感興趣目標(biāo)的技術(shù)和過程。它是由圖像處理到圖像分析的關(guān)鍵步驟?,F(xiàn)有的圖像分割方法主要分以下幾類:基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。2.1.1基于閾值的分割方法 灰度閾值分割1法是一種最常用的并行區(qū)域技術(shù),它是圖像分割中應(yīng)用數(shù)量最多的一類。閾值分割方法實(shí)際上是輸入圖像f到輸出圖像g的如下變換: 其中,t為

3、閾值,對于物體的圖像元素g(i,j)=l,對于背景的圖像元素g(i,j)=0。 由此可見,閾值分割算法的關(guān)鍵是確定閾值,如果能確定一個合適的閾值就可準(zhǔn)確地將圖像分割開來。閾值確定后,將閾值與像素點(diǎn)的灰度值比較和像素分割可對各像素并行地進(jìn)行,分割的結(jié)果直接給出圖像區(qū)域。閾值分割的優(yōu)點(diǎn)是計算簡單、運(yùn)算效率較高、速度快。在重視運(yùn)算效率的應(yīng)用場合(如用于硬件實(shí)現(xiàn)),它得到了廣泛應(yīng)用。人們發(fā)展了各種各樣的閾值處理技術(shù),包括全局閾值、自適應(yīng)閾值、最佳閾值等等。2.1.2基于邊緣的分割方法圖像分割的一種重要途徑是通過邊緣檢測,即檢測灰度級或者結(jié)構(gòu)具有突變的地方,表明一個區(qū)域的終結(jié),也是另一個區(qū)域開始的地方。

4、這種不連續(xù)性稱為邊緣。不同的圖像灰度不同,邊界處一般有明顯的邊緣,利用此特征可以分割圖像。圖像中邊緣處像素的灰度值不連續(xù),這種不連續(xù)性可通過求導(dǎo)數(shù)來檢測到。對于階躍狀邊緣,其位置對應(yīng)一階導(dǎo)數(shù)的極值點(diǎn),對應(yīng)二階導(dǎo)數(shù)的過零點(diǎn)(零交叉點(diǎn))。因此常用微分算子進(jìn)行邊緣檢測。常用的一階微分算子有roberts算子、prewitt算子和sobel算子,二階微分算子有l(wèi)aplace算子和kirsh算子等。在實(shí)際中各種微分算子常用小區(qū)域模板來表示,微分運(yùn)算是利用模板和圖像卷積來實(shí)現(xiàn)。這些算子對噪聲敏感,只適合于噪聲較小不太復(fù)雜的圖像。由于邊緣和噪聲都是灰度不連續(xù)點(diǎn),在頻域均為高頻分量,直接采用微分運(yùn)算難以克服噪

5、聲的影響。因此用微分算子檢測邊緣前要對圖像進(jìn)行平滑濾波。2.1.3基于小波變換的分割方法小波變換是近年來得到了廣泛應(yīng)用的數(shù)學(xué)工具,它在時域和頻域都具有良好的局部化性質(zhì),而且小波變換具有多尺度特性,能夠在不同尺度上對信號進(jìn)行分析,因此在圖像處理和分析等許多方面得到應(yīng)用。基于小波變換的閾值圖像分割方法的基本思想是首先由二進(jìn)小波變換將圖像的直方圖分解為不同層次的小波系數(shù),然后依據(jù)給定的分割準(zhǔn)則和小波系數(shù)選擇閾值門限,最后利用閾值標(biāo)出圖像分割的區(qū)域。整個分割過程是從粗到細(xì),有尺度變化來控制,即起始分割由粗略的l2(r)子空間上投影的直方圖來實(shí)現(xiàn),如果分割不理想,則利用直方圖在精細(xì)的子空間上的小波系數(shù)逐

6、步細(xì)化圖像分割。分割算法的計算饋與圖像尺寸大小呈線性變化。2.2特征提取特征提取是計算機(jī)視覺和圖像處理中的一個概念。它指的是使用計算機(jī)提取圖像信息,決定每個圖像的點(diǎn)是否屬于一個圖像特征。特征提取的結(jié)果是把圖像上的點(diǎn)分為不同的子集,這些子集往往屬于孤立的點(diǎn)、連續(xù)的曲線或者連續(xù)的區(qū)域。2.2.1結(jié)構(gòu)特征提取方法采用結(jié)構(gòu)特征提取對字符進(jìn)行結(jié)構(gòu)分析從而達(dá)到識別的目的,是一種非常直觀的方法,其思想與人認(rèn)字的原理有點(diǎn)相象,但又有所不同。其基本思想是:字符可以逐級分解成部件、筆劃乃至筆段,識別時可以自底向上,由象素得到筆段,由筆段結(jié)合成筆劃,由筆劃構(gòu)成部件,由部件組成字符,逐級分析字符圖象的結(jié)構(gòu),根據(jù)各元素

7、的屬性、數(shù)量及其相互關(guān)系,便可以判定待識字符。目前研究較成熟,效果比較好的是基于筆劃和基于筆段分析的手寫體字符識別。2.2.2統(tǒng)計特征提取方法 從統(tǒng)計模式識別的觀點(diǎn)來看,字符識別實(shí)際上是一個模式分類問題,人對自然物體的識別,是建立在對該物體進(jìn)行學(xué)習(xí)、特征分析的基礎(chǔ)上的,計算機(jī)模式識別的過程與人的識別過程有著相識的地方。實(shí)際上就是一種通過學(xué)習(xí)或者其它方法,形成一個一記憶知識庫,進(jìn)行模式識別時,清晰地表達(dá)出一種從物體到記憶知識庫的映像,從而得到識別結(jié)果。人在進(jìn)行物體識別時,是利用大腦中通過學(xué)習(xí)形成的記憶庫,對識別的物體進(jìn)行一種黑箱式的映像,從記憶庫中找出相匹配的類別。計算機(jī)要把人類識別物體時的這種

8、黑箱式的映像表達(dá)出來,一般是由兩個步驟來完成的:第一步,以適當(dāng)?shù)奶卣鱽砻枋鑫矬w,即由xi、f(xi)的映像;第二步,計算機(jī)執(zhí)行某種運(yùn)算完成由f(xi)*c(x)二x的映像。2.2.3紋理特征提取方法紋理特征和顏色特征類似,它也是一種整體性的特征近些年來,對紋理分析方法的各種理論或方法在紋理特征提取中的應(yīng)用已經(jīng)基本成形,和把紋理特征提取方法歸納為類,即結(jié)構(gòu)方法、信號處理方法、幾何方法、模型方法和統(tǒng)計方法這種分類方法被大多學(xué)者采納灰度共生矩陣()是被廣泛應(yīng)用的紋理提取算法,是分析圖像的基礎(chǔ),它運(yùn)用統(tǒng)計學(xué)中的概率來反映圖像灰度有關(guān)方向和間隔等整體信息2.3.識別的方法 本次實(shí)驗(yàn)采用人工神經(jīng)網(wǎng)絡(luò)的方法

9、進(jìn)行識別,人工神經(jīng)網(wǎng)絡(luò)(artificia neural network)至今還沒有一個比較科學(xué)和權(quán)威的定義。有一種定義是:“人工神經(jīng)網(wǎng)絡(luò)是生理學(xué)上的真實(shí)人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能,以及若干基本特征的某種理論抽象,簡化和模擬而構(gòu)成的一種信息處理系統(tǒng)?!睆南到y(tǒng)觀點(diǎn)看,人工神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元通過極其豐富和完善的聯(lián)接而成的,模擬大腦的基本特性的自適應(yīng)非線性動態(tài)系統(tǒng)。神經(jīng)元之間的連接方式不同,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)形態(tài)也就不同。具體的生理學(xué)上的定義本文不再展開贅述。2.3.1 bp神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)的應(yīng)用已經(jīng)滲透到各個領(lǐng)域中,包括金融、股票預(yù)測,自動控制,機(jī)器人,模式識別,計算機(jī)視覺和圖像處理,信號處理等等,

10、其中軟件模擬的bp網(wǎng)絡(luò)是應(yīng)用最多、最成功的網(wǎng)絡(luò)。本次課程設(shè)計是基于bp神經(jīng)網(wǎng)絡(luò)對手寫阿拉伯?dāng)?shù)字進(jìn)行識別,故下文介紹關(guān)于bp神經(jīng)網(wǎng)絡(luò)的概念。 bp(back propagation)網(wǎng)絡(luò)又叫誤差反向傳播網(wǎng)絡(luò),是由美國加利福尼亞大學(xué)的pdp小組提出的一種神經(jīng)網(wǎng)絡(luò)算法,實(shí)現(xiàn)了minsky和papert認(rèn)為不能實(shí)現(xiàn)的多層網(wǎng)絡(luò)的設(shè)想。bp算法的基本思想是,學(xué)習(xí)過程由信號的正向傳播與誤差的反向傳播兩個過程組成。正向傳播時,輸入樣本從輸入層傳入,經(jīng)各隱藏層逐層處理后,傳向輸出層。若輸出層的實(shí)際輸出與期望的輸出(教師信號)不符,則轉(zhuǎn)入誤差的反向傳播階段。誤差反傳是將輸出誤差以某種形式通過隱藏層向輸入層反傳,并

11、將誤差分?jǐn)偨o各層的所有單元,從而獲得各層單元的誤差信號,此誤差信號即作為修正各單元權(quán)值的依據(jù)。這種信號正向傳播與誤差反向傳播的各層權(quán)值調(diào)整過程,是周而復(fù)始地進(jìn)行的。權(quán)值不斷調(diào)整的過程,也就是網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過程。此過程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可接受到的程度,或進(jìn)行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為準(zhǔn)。 2.3.2bp網(wǎng)絡(luò)的優(yōu)缺點(diǎn) bp網(wǎng)絡(luò)的算法是最著名的多層前向網(wǎng)絡(luò)訓(xùn)練算法,盡管存在收斂速度慢,局部極值等缺點(diǎn),但可通過各種改進(jìn)措施來提高它的收斂速度,克服局部極值現(xiàn)象。而bp網(wǎng)絡(luò)算法的優(yōu)點(diǎn)也是顯而易見的,它具有簡單,易行,計算量小,并行性強(qiáng)等特點(diǎn),目前仍是許多數(shù)字識別的優(yōu)選算法。3、實(shí)驗(yàn)結(jié)果與分析 3.

12、1系統(tǒng)的流程圖 基于bp神經(jīng)網(wǎng)絡(luò)的手寫體數(shù)字識別系統(tǒng)大致可以分為輸入、預(yù)處理、特征提取、bp神經(jīng)網(wǎng)絡(luò)識別4個部分。輸入包括數(shù)字樣本集掃描輸入和待識別數(shù)字輸入,先用數(shù)字樣本集掃描輸入圖像經(jīng)預(yù)處理后特征提取的特征向量來訓(xùn)練神經(jīng)網(wǎng)絡(luò),再用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)來識別待識別數(shù)字。預(yù)處理部分包括二值化、分割,再對預(yù)處理后二值點(diǎn)陣圖像進(jìn)行特征提取。最后將所提取的特征量輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行識別,輸出識別結(jié)果?;赽p神經(jīng)網(wǎng)絡(luò)的手寫體數(shù)字識別系統(tǒng)的結(jié)構(gòu)及流程如圖2所示。 開始讀入需要識別數(shù)字的圖像將圖像轉(zhuǎn)化為灰度圖像將灰度圖像轉(zhuǎn)化為二值圖像圖像分割預(yù)處理模塊特征提取進(jìn)行數(shù)字的識別圖2:手寫阿拉伯?dāng)?shù)字識別系統(tǒng)的流

13、程圖3.2預(yù)處理模塊由于掃描輸入的圖像一般為rgb格式,預(yù)處理首先需要將其轉(zhuǎn)化為二值化的圖像,即只包含“0”、“1”的矩陣形式。先將原始圖像轉(zhuǎn)化為灰度圖像, 通過函數(shù)rgb2gray來實(shí)現(xiàn),再通過函數(shù)im2bw轉(zhuǎn)化為二值圖像,然后對二值化后的圖像進(jìn)行分割處理,本實(shí)驗(yàn)采用基于字符連通域的分割。由于對數(shù)字的書寫有一定要求,兩個字符之間不能出現(xiàn)連筆的情況,因此可以對二值圖像各個分離部分進(jìn)行標(biāo)注來分割字符,用函數(shù)bwlabel來實(shí)現(xiàn)。用函數(shù)regionprops來度量圖像區(qū)域?qū)傩裕?包括屬性boundingbox( 表示各標(biāo)注區(qū)域的最小矩形) 和centroid(表示各區(qū)域的質(zhì)心)。通過對各個區(qū)域標(biāo)注

14、及各個區(qū)域起點(diǎn)坐標(biāo)和區(qū)域范圍(包括寬度和高度)的確定來截取字符, 所用函數(shù)為imcrop,最后調(diào)用函數(shù)imresize對圖像進(jìn)行歸一化處理。通過歸一化以消除各數(shù)字在位置和大小上的差異,從而提高識別的準(zhǔn)確率。歸一化處理后的字符便可進(jìn)行特征向量提取。部分程序代碼如下所示:function img = edu_imgpreprocess(i)igray = rgb2gray(i);ibw = im2bw(igray,graythresh(igray);%將圖像轉(zhuǎn)化為二值圖像function bw2 = edu_imgcrop(bw)% 對圖像進(jìn)行裁剪(crop the image to the ed

15、ge)bw2=imcrop(bw,x1,y1,(x2-x1),(y2-y1); x1=1;y1=1;x2=x2temp;y2=y2temp;圖1:原始的圖像 圖2:進(jìn)行預(yù)處理之后的過程和圖像3.3特征提?。和ㄟ^粗網(wǎng)格方法來提取特征,粗網(wǎng)格特征是一組注重字符圖像整體的分布特征,此種特征對噪聲具有極強(qiáng)的抑制能力。首先對分割后的字符歸一化為7050的點(diǎn)陣,然后將此矩陣等分為75的網(wǎng)格,接著依次統(tǒng)計每一個網(wǎng)格內(nèi)黑像素點(diǎn)(即“1”)的個數(shù),得到一個以數(shù)字表示的75維的網(wǎng)格特征,將75維特征矩陣轉(zhuǎn)變?yōu)橐痪S特征,最后對其進(jìn)行歸一化操作。特征提取的是預(yù)處理之后圖像上的像素點(diǎn),然后送入到預(yù)設(shè)和訓(xùn)練好的bp神經(jīng)網(wǎng)

16、絡(luò)進(jìn)行識別。如圖3所示,黑色的小點(diǎn)為所定義的7*5的網(wǎng)格特征,圖中較明顯的黑色點(diǎn)為所提取的特征、圖3:對4進(jìn)行特征提取相關(guān)代碼:function lett = edu_imgresize(bw2)% this function will take the cropped binary image and change it to 5 x 7% character representation in single vector. bw_7050=imresize(bw2,70,50);%重新定義尺寸%粗網(wǎng)格的特征提取方法for cnt=1:7 for cnt2=1:5 atemp=sum(bw_

17、7050(cnt*10-9:cnt*10),(cnt2*10-9:cnt2*10); lett(cnt-1)*5+cnt2)=sum(atemp); endend lett=(100-lett)/100);%特征向量的歸一化lett=lett圖4:實(shí)驗(yàn)中對7進(jìn)行特征提取所得到的圖像3.4數(shù)字的識別本實(shí)驗(yàn)采用bp網(wǎng)絡(luò)的方法進(jìn)行數(shù)字的識別,bp網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖5所示,網(wǎng)絡(luò)由不同層次的節(jié)點(diǎn)集合組成,每一層節(jié)點(diǎn)的輸出送到下一層節(jié)點(diǎn)。這些輸出值由于連接權(quán)不同而被放大、衰減或抑制。除了輸入層外,每一節(jié)點(diǎn)的輸入為前一節(jié)點(diǎn)輸出值的加權(quán)和。每一節(jié)點(diǎn)的激勵輸出值由節(jié)點(diǎn)輸入、激勵函數(shù)及閉值決定。圖5:bp網(wǎng)絡(luò)模型

18、bp網(wǎng)絡(luò)的學(xué)習(xí)算法使用梯度搜索技術(shù),以期望網(wǎng)絡(luò)的實(shí)際輸出與期望輸出的均方差最小。網(wǎng)絡(luò)的學(xué)習(xí)是一種在誤差反向轉(zhuǎn)播的同時修正的過程。學(xué)習(xí)過程應(yīng)包括兩個階段:前向計算階段和反向調(diào)整階段。在具體的實(shí)驗(yàn)過程中采用三層bp神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)。通過實(shí)驗(yàn)測試設(shè)定隱含層神經(jīng)元數(shù)目為10,所以只需分類10個數(shù)字,設(shè)定輸出層神經(jīng)元數(shù)目為10。隱含層神經(jīng)元的傳遞函數(shù)采用s型對數(shù)函數(shù)logsig, 輸出層神經(jīng)元傳遞函數(shù)也采用s 型對數(shù)函數(shù)logsig,此神經(jīng)網(wǎng)絡(luò)的訓(xùn)練函數(shù)采用trainlm,性能函數(shù)采用sse,訓(xùn)練步數(shù)最長設(shè)為5000,性能目標(biāo)設(shè)為0.01。通過訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)能對需要識別的數(shù)字進(jìn)行識別。具體的代碼如下所示

19、:function net = edu_createnn(p,t)%創(chuàng)建神經(jīng)網(wǎng)絡(luò)alphabet = p;targets = t;r,q = size(alphabet);s2,q = size(targets);s1 = 10;s2=10;net = newff(minmax(alphabet),s1 s2,logsig logsig,trainlm);net.lw2,1 = net.lw2,1*0.01;net.b2 = net.b2*0.01;net.performfcn = sse; net.trainparam.goal = 0.01; net.trainparam.show = 2

20、0; net.trainparam.epochs = 5000; net.trainparam.mc = 0.95; p = alphabet;t = targets;net,tr = train(net,p,t); 圖6:gui界面及實(shí)驗(yàn)結(jié)果3.5實(shí)驗(yàn)分析在本次課程實(shí)驗(yàn)中我對0到9這10個手寫的數(shù)字進(jìn)行識別,在實(shí)驗(yàn)過程中,發(fā)現(xiàn)該系統(tǒng)沒辦法達(dá)到百分之百的準(zhǔn)確率,進(jìn)行多次程序的調(diào)試這個問題仍然沒辦法得到改進(jìn)。例如該系統(tǒng)有時會將8識別為1,將7識別為3,或者將7識別為2,但是對于4,5,6這三個數(shù),識別的準(zhǔn)確率能達(dá)到百分之百。存在錯誤的原因可能是在特征提取時一些手寫的數(shù)字在7*5這個模版中體現(xiàn)的不

21、夠獨(dú)一性,可以提高特征提取的維數(shù),比如改成16*16模版進(jìn)行提取,這樣可能可以提高識別的準(zhǔn)確率。還有一個原因可能是網(wǎng)絡(luò)結(jié)構(gòu)過于簡單,本次實(shí)驗(yàn)采用了傳統(tǒng)的bp網(wǎng)絡(luò)對樣本進(jìn)行了分類,要適應(yīng)各種變體是比較困難和不穩(wěn)定的。在實(shí)際的應(yīng)用中,可以采用多種方法改進(jìn)bp網(wǎng)絡(luò)的分類性能。比如說,對bp算法進(jìn)行改進(jìn),組建多級bp網(wǎng)絡(luò),構(gòu)建集成型神經(jīng)網(wǎng)絡(luò),將支持向量機(jī)和bp網(wǎng)絡(luò)結(jié)合等。實(shí)驗(yàn)中通過0-9這10個數(shù)字進(jìn)行比對的具體準(zhǔn)確率,如下表所示:數(shù)字樣本個數(shù)識別個數(shù)錯識個數(shù)準(zhǔn)確率11010990%21010880%3101099%4101010100%5101010100%6101010100%71010880%81010990%91010990%0101010100%5、課程設(shè)計總結(jié)與體會 通過本次的課程設(shè)計使得我對手寫阿拉伯?dāng)?shù)字識別系統(tǒng)的設(shè)計和運(yùn)行有了深入的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論