VC+手寫體數(shù)字識別_第1頁
VC+手寫體數(shù)字識別_第2頁
VC+手寫體數(shù)字識別_第3頁
VC+手寫體數(shù)字識別_第4頁
VC+手寫體數(shù)字識別_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、手寫體數(shù)字識別 第一章 緒論41.1課題研究的意義41.2國內(nèi)外究動態(tài)目前水平41.3手寫體數(shù)字識別簡介51.4識別的技術(shù)難點51.5主要研究工作6第二章 手寫體數(shù)字識別基本過程:62.1手寫體數(shù)字識別系統(tǒng)結(jié)構(gòu)62.2分類器設(shè)計72.2.1 特征空間優(yōu)化設(shè)計問題72.2.2分類器設(shè)計準則82.2.3分類器設(shè)計基本方法93.4 判別函數(shù)93.5訓(xùn)練與學(xué)習(xí)10第三章 貝葉斯方法應(yīng)用于手寫體數(shù)字識別113.1貝葉斯由來113.2貝葉斯公式113.3貝葉斯公式Bayes決策理論:123.4貝葉斯應(yīng)用于的手寫體數(shù)字理論部分:163.4.1.特征描述:163.4.2最小錯誤分類器進行判別分類17第四章 手

2、寫體數(shù)字識別的設(shè)計流程及功能的具體實現(xiàn)184.1 手寫體數(shù)字識別的流程圖184.2具體功能實現(xiàn)方法如下:19結(jié)束語25致謝詞25參考文獻26附錄27摘要數(shù)字識別就是通過計算機用數(shù)學(xué)技術(shù)方法來研究模式的自動處理和識別。隨著計算機技術(shù)的發(fā)展,人類對模式識別技術(shù)提出了更高的要求。特別是對于大量己有的印刷資料和手稿,計算機自動識別輸入己成為必須研究的課題,所以數(shù)字識別在文獻檢索、辦公自動化、郵政系統(tǒng)、銀行票據(jù)處理等方面有著廣闊的應(yīng)用前景。對手寫數(shù)字進行識別,首先將漢字圖像進行處理,抽取主要表達特征并將特征與數(shù)字的代碼存儲在計算機中,這一過程叫做“訓(xùn)練”。識別過程就是將輸入的數(shù)字圖像經(jīng)處理后與計算機中的

3、所有字進行比較,找出最相近的字就是識別結(jié)果。本文主要介紹了數(shù)字識別的基本原理和手寫的10個數(shù)字字符的識別系統(tǒng)的設(shè)計實現(xiàn)過程。第一章介紹了數(shù)字識別學(xué)科的發(fā)展?fàn)顩r。第二章手寫體數(shù)字識別基本過程。第三章貝葉斯方法應(yīng)用于手寫體數(shù)字識別。第四章手寫體數(shù)字識別的設(shè)計流程及功能的具體實現(xiàn),并對實驗結(jié)果做出簡單的分析。關(guān)鍵詞:手寫體數(shù)字識別 分類器 貝葉斯 vc+6.0IABSTRACTThe digital recognition researches how to treat with and recognize pattern automatically through computer with ma

4、th arithmetic. Along with the development of computer technology, human need more advanced digital recognition technology. Especially for large numbers of printed data and manuscript, the automatic recognition and input of Chinese characters becomes a stringent task, therefore the digital recognitio

5、n will have a broad application prospect on literature retrieval, office automation, postal service system, bank bill processing.In order to recognize digital characters, the first task we have to do is feature extraction of a map, after that we have to store the feature in the computer. This proces

6、s is called the training. This process compares the hand-written digitals feature and the stored features in the computer.This paper mainly introduces the basic principles of hand-written digital recognition and the design、 realization process of ten hand-written digital recognition system. The firs

7、t chapter mainly introduces the concepts related to the digital recognition and this disciplines development condition. The second chapter introduces the digital recognitions process. The third chapter mainly introduces digital recognition with Bayes. The fourth chapter introduces design process and

8、 functions carried out, the experimental result and the simple analysis.Kewords: Hand-Written Digital Rocognition Classification Bayes vc+6.0 第一章 緒論1.1課題研究的意義手寫體數(shù)字識別的研究有很大的實用價值,例如在郵政編碼、稅務(wù)報表、統(tǒng)計報表財務(wù)報表、銀行票據(jù)、海關(guān)等需要處理大量字符信息錄入的場合,在很大程度上要依賴數(shù)據(jù)信息的輸入。隨著人們生活水平的提高,經(jīng)濟活動的發(fā)展,通信聯(lián)系的需求使信函的互換量大幅度增加,我國函件業(yè)務(wù)量也在不斷增長,預(yù)計到201

9、0年,一些大城市的中心郵局每天處理量將高達幾百萬件,業(yè)務(wù)量的急劇上升使得郵件的分揀自動化成為大勢所趨。在郵件的自動分揀中,手寫數(shù)字識別(OCR)往往與光學(xué)條碼識別(OBR-Optical Bar Reading),人工輔助識別等手段相結(jié)合,完成郵政編碼的閱讀。目前使用量最大的OVCS分揀機的性能指標(biāo):OCR拒分率30%,OCR分揀差錯率1.1%。如果能通過手寫數(shù)字識別技術(shù)實現(xiàn)信息的自動錄入,將會促進這一事業(yè)的進展。手寫體數(shù)字識別的研究不僅有很大的應(yīng)用價值,而且有重要的理論價值,由于數(shù)字別的類別較小,有助于作深入分析及驗證一些新的理論。例如人工神經(jīng)網(wǎng)絡(luò),相當(dāng)一部分的ANN模型和算法都以手寫數(shù)字識

10、別作為具體的實驗平臺??梢哉f,手寫體數(shù)字識別的研究將有助于模式識別、機器理解、機器人技術(shù)的發(fā)展,對今后研究如何更好地進行人機交互,使計算機具有和人一樣的能力有很大的理論價值。1.2國內(nèi)外究動態(tài)目前水平 手寫體字符的識別在很早以前就開始了。國外從20世紀70年代初研制成“光學(xué)字符別機(OCR)”,能夠自動識別印刷體的英文文字及阿拉伯?dāng)?shù)字。20世紀70年代中期出現(xiàn)了能識別手寫數(shù)字的OCR。在20世紀70年代末和80年代初又出現(xiàn)了能識別手寫英文母的OCR。日本于20世紀80年代初研制了印刷體漢字識別樣機,這是最早的漢字OCR。我國從20世紀70年代就開始進行了字符(英文字母和數(shù)字)識別的研究,20世

11、紀80年代己進入實用階段,主要用于郵政信函自動分檢,人口普查和生產(chǎn)統(tǒng)計報表。手寫體數(shù)字識別是手寫字符識別的一個重要分支,它又分為在線手寫體識別和離線寫體識別。在線手寫體識別通過記錄文字圖像抬筆、落筆、筆跡上各像素的空間位,以及各筆段之間的時間關(guān)系等信息,對這些信息進行處理,在處理過程中,系統(tǒng)以定的規(guī)則提取信息特征,再由識別模塊將信息特征與識別庫的特征進行比較、加以識別,最后轉(zhuǎn)化為計算機所使用的文字代碼。在線手寫體識別的一個重要的不足就是要求寫入者必須在指定的設(shè)備上書寫。而離線手寫體識別則是通過使用任何一種圖像采集設(shè)備,如CCD、掃描儀、數(shù)碼相機等將手寫者已寫好的文字作為圖像輸入到計算機中,然后

12、由計算機去識別。在過去的數(shù)十年中,研究者們提出了許許多多的識別方法。按使用的特征不同,這方法主要可以分為三類:基于結(jié)構(gòu)特征的方法、基于統(tǒng)計特征的方法和人工神經(jīng)網(wǎng)結(jié)構(gòu)特征通常包括圓、端點、交叉點、筆劃、輪廓等,對于一個復(fù)雜的模式,采用分解的方法將其劃分為若干較簡單的子模式乃至基元,通過對基元和子模式識別的綜合建立在統(tǒng)計數(shù)學(xué),特別是貝葉斯決策理論基礎(chǔ)上,通過模式緊密性、距離和相似性度量等感念和假定,形成了統(tǒng)計決策方法的一系列結(jié)論。人工神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)和聯(lián)想功能,在字符識別中主要采用基于BP算法的多層感知機及多層卷積神經(jīng)網(wǎng)絡(luò);基于正規(guī)化方法構(gòu)建的徑向基函數(shù)網(wǎng)絡(luò);以及具有“拓撲保持”特性的自組織特征映

13、射(包括學(xué)習(xí)矢量量化LvQ)等。一般來說,各類特征各有優(yōu)勢。例如,使用統(tǒng)計特征的分類器易于訓(xùn)練,而且對于使用統(tǒng)計特征的分類器,在給定訓(xùn)練集上能夠得到相對較高識別率;而結(jié)構(gòu)特征的主要優(yōu)點之一是能描述字符的結(jié)構(gòu),在識別過程中能有效的結(jié)合幾何和結(jié)構(gòu)的知識,因此能夠得到可靠性較高的識別結(jié)果。神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)、容錯性、分類能力強和并行處理等特點。手寫體識別目前的研究方向是:特征提取問題,這個方面一是在現(xiàn)有基礎(chǔ)上進行組合,另一個是引入新的特征技術(shù);分類器研究,一是多分類器繼集成,另一個方向是研究新的分類器。、1.3手寫體數(shù)字識別簡介 手寫體數(shù)字識別是指利用電子計算機自動辨認手寫體阿拉伯?dāng)?shù)字的一種技術(shù),它

14、屬于光學(xué)字符識別(OCR)的范疇手寫體數(shù)字識別又分為聯(lián)機識別(on-line)和脫機識別(off-line)兩種。其中,最為困難的就是脫機手寫字符的識別。主要是因為脫機手寫體識別過程無法獲得字符書寫時的一些動態(tài)信息。然而,手寫體數(shù)字識別技術(shù)的研究是非常有價值的,它具有廣闊的應(yīng)用前景。手寫體數(shù)字識別系統(tǒng)性能的評價方法 作為一個識別系統(tǒng),我們最終要用某些參數(shù)來評價其性能的高低,手寫數(shù)字識別也不例外。評價的指標(biāo)除了借用一般文字識別里的通常做法外,還要根據(jù)數(shù)字識別的特點進行修改和補充。對一個手寫數(shù)字識別系統(tǒng),可以用兩方面的指標(biāo)表征系統(tǒng)的性能:識別率 A 正確識別樣本數(shù)/全部樣本數(shù)*100%誤識率 S

15、誤識樣本/全部樣本數(shù) *100%兩者的關(guān)系 A+S=100%數(shù)字識別的應(yīng)用中,人們往往很關(guān)心的一個指標(biāo)是“識別精度”,即在所有識別的字符中,正確識別的比例,表示如下:識別精度:P=A/(A+S)*100%一個理想的系統(tǒng)應(yīng)是S盡量小,然而A盡可能大。1.4識別的技術(shù)難點手寫體數(shù)字識別的研究是一項具有相當(dāng)難度的工作,此項工作的難點主要在于以下幾方面:1.阿拉伯?dāng)?shù)字的字形信息量很小,不同數(shù)字寫法字形相差不大,使得準確區(qū)分某些數(shù)字相當(dāng)困難。2.要識別的數(shù)字雖然只有十種,而且筆劃簡單,但同一數(shù)字寫法千差萬別,不同的人寫法也不盡相同,很難完全做到兼顧各種寫法的極高識別率的通用性數(shù)字識別系統(tǒng)。3.在實際應(yīng)用

16、中,對數(shù)字的單字識別正確率的要求要比文字要苛刻得多。這是因為文字有上下文關(guān)系,但數(shù)字沒有上下文關(guān)系,每個單字的識別都至關(guān)重要,而且數(shù)字識別經(jīng)常涉及的財會、金融領(lǐng)域,其嚴格性更是不言而喻的。因此,用戶的要求不是單純的高正確率,更重要的是極低的誤識率。4.大批量數(shù)據(jù)處理對系統(tǒng)速度又有相當(dāng)?shù)囊螅S多理論上很完美但速度過低的方法也是行不通的。綜上所述,研究高性能的手寫數(shù)字識別算法是一個有相當(dāng)?shù)奶魬?zhàn)性的課題,同樣的把高效的手寫體數(shù)字識別算法應(yīng)用于實際工作之中也是具有重要意義的。1.5主要研究工作 本論文主要介紹了手寫體數(shù)字識別的一些基本知識和發(fā)展概況,然后介紹了貝葉斯理論分類器原理,及貝葉斯分類器應(yīng)用

17、關(guān)于手寫體數(shù)字識別的設(shè)計原理,最后本文敘述了利用貝葉斯原理識別數(shù)字的開發(fā)過程。第二章 手寫體數(shù)字識別基本過程:2.1手寫體數(shù)字識別系統(tǒng)結(jié)構(gòu)一個典型的手寫體數(shù)字識別系統(tǒng)如圖2-1所示,由數(shù)據(jù)獲取、預(yù)處理、特征提取、分類決策及分類器設(shè)計五部分組成,一般分為上下兩部分。上半部分完成未知類別模式的分類;下半部分屬于設(shè)計分類器的訓(xùn)練過程,利用樣品進行訓(xùn)練,確定分類器的具體參數(shù),完成分類器的設(shè)計。而分類決策在識別過程中起作用,對待識別的樣品進行分類決策。未知類別模式的分類獲取數(shù)據(jù)預(yù)處理特征提取分類決策分類結(jié)果訓(xùn)練樣本輸入預(yù)處理特征選擇確定判別函數(shù)改進判別函數(shù)誤差檢驗分類器設(shè)計 圖2-1 手寫體數(shù)字識別系統(tǒng)

18、結(jié)構(gòu)數(shù)字識別組成單元功能介紹如下。1.數(shù)據(jù)獲取。用計算機可以運算的符號來表示所研究的對象,一般獲取的數(shù)據(jù)類型有以下幾種。二維圖像:文字、指紋、臉譜照片等。一維波形:腦電圖、心電圖、季節(jié)震動波形等。物理參量和邏輯值:體溫、化驗數(shù)據(jù)、參量正確與否的描述。2.預(yù)處理。對輸入測量儀器或其他因素所造成的退化現(xiàn)象進行復(fù)原、去噪聲、提取有用信息。3.特征提取。對原始數(shù)據(jù)進行變換,得到最能反映分類本質(zhì)的特征。將維數(shù)較高的測量空間轉(zhuǎn)變?yōu)榫S數(shù)較低的特征空間。4.分類決策。在特征空間中用模式識別方法把被識別的對象歸為某一類。5.分類器設(shè)計。基本做法是收集樣品訓(xùn)練集,在此基礎(chǔ)上確定判別函數(shù),改進判別函數(shù)和誤差檢驗。2

19、.2分類器設(shè)計2.2.1 特征空間優(yōu)化設(shè)計問題確定合適的特征空間是設(shè)計模式識別系統(tǒng)一個十分重要,甚至最為關(guān)鍵的問題。如果所選用的特征空間能使同類物體分布具有緊致性,不同類別物體彼此分開,即各類樣品能分布在該特征空間中彼此分割開的區(qū)域內(nèi),這就為分類器設(shè)計提供良好的基礎(chǔ)。反之,如果不同類別的樣品在該特征空間中混雜在一起,再好的設(shè)計方法也無法提高分類器的準確性。特征空間的設(shè)計往往是一個逐步優(yōu)化的過程,設(shè)計的初期階段,選擇的特征空間維數(shù)較高,需要對它進行改造,改造的目的在于提高某方面的性能,因此又稱為特征的優(yōu)化問題。一般說要對初始的特征空間進行優(yōu)化就是為了降維,即將初始的高維特征向量改成一個維數(shù)較低的

20、空間。優(yōu)化后的特征空間應(yīng)該更有利于后續(xù)的分類計算。對特征空間進行優(yōu)化有兩種基本方法,一是特征選擇,另一種是特征的優(yōu)化組合。1、特征選擇在模式識別中特征提取是首先要解決的問題。為了對樣品進行準確的識別,需要進行特征選擇或特征壓縮。特征選擇指對原始數(shù)據(jù)進行抽取,抽取那些對區(qū)別不同類別最為重要的特征,而舍去那些對分類并無多大貢獻的特征,能得到反映分類本質(zhì)的特征。如果區(qū)別不同類別的特征都能從輸入數(shù)據(jù)中找到,這時自動模式識別問題就簡化為匹配和查表,模式識別就不困難了。2、特征提取假設(shè)已有D維特征向量空間, ,特征的組合優(yōu)化問題涉及特征選擇和特征提取兩部分。特征選擇是指從原有的D維特征空間中刪去一些特征描

21、述量,從而得到精簡后的特征空間。在這個特征空間中,樣品由d維空間的特征向量描述:, dD。由于X只是Y的一個子集,因此每個分量xi必然能在原特征集中找到其對應(yīng)的描述量xi=yj。特征提取則是找到一個映射關(guān)系: A:Y X (3.1)使新樣品特征描述維數(shù)比原維數(shù)低。其中每個分量xi是原特征向量各分量的函數(shù),即 xi=xi(y1,y2,yD) (3.2)因此這兩種降維的基本方法是不同的。在實際應(yīng)用中可將兩者結(jié)合起來使用,比如先進行特征選擇,即從原有的D維特征空間,刪去一些特征描述量,從而得到精簡后的特征空間,然后再進一步特征提取,或反過來??傊卣鬟x擇與特征提取的任務(wù)是求出一組對分類最有效的特征

22、,有效是在特征維數(shù)減少到同等水平時,其分類性能最佳。2.2.2分類器設(shè)計準則模式識別分類問題是指根據(jù)待識別對象所呈現(xiàn)的觀察值,將其分到某個類別中去。具體步驟如下:第一步:建立特征空間中的訓(xùn)練集,已知訓(xùn)練集里每個點所屬類別。第二步:從這些條件出發(fā),尋求某種判別函數(shù)或判別準則,設(shè)計判決函數(shù)模型。第三步:根據(jù)訓(xùn)練集中的樣品確定模型中的參數(shù)。第四步:將這一模型用于判決,利用判決函數(shù)或判別準則去判別每個未知類別的點應(yīng)該屬于哪一類。模式識別的基本框架制定準則函數(shù),實現(xiàn)準則函數(shù)極值化。常用的準則有以下幾種。1、最小錯分率準則完全以減少分類錯誤為原則,這是一個通用原則,它使錯分類的樣品數(shù)量最小。2、最小風(fēng)險準

23、則當(dāng)接觸到實際問題時,可以發(fā)現(xiàn)使錯誤率最小不一定是一個普遍適用的最佳選擇。有的分類系統(tǒng)對錯誤率大小并不看重,而是要考慮錯分類的不同后果,為使總的損失最小,有時寧肯將錯分率加大。因此引入風(fēng)險、損失這些概念,以便在決策時兼顧不同后果的影響。在實際中計算損失與風(fēng)險是復(fù)雜的,在使用數(shù)學(xué)公式計算時,往往用賦予不同權(quán)值來表示。在做出決策時,要考慮所承擔(dān)的風(fēng)險?;谧钚★L(fēng)險的貝葉斯決策規(guī)則是為了體現(xiàn)這一點而產(chǎn)生的。3、近鄰準則近鄰準則是分段線形判別函數(shù)的一種典型方法。這種方法主要依據(jù)同類物體在特征空間具有聚類特性的原理。同類物體由于其性質(zhì)相近,它們在特征空間中應(yīng)具有聚類的現(xiàn)象,因此可以利用這種性質(zhì)產(chǎn)生分類決

24、策的規(guī)則。例如有兩類樣品,可以求出某一類的平均值,對于任何一個未知樣品,先求出它到各個類的平均值距離,判斷距離哪個類近就屬于哪個類。4、Fisher準則根據(jù)兩類樣品一般類內(nèi)密集,類間分離的特點,尋找線性分類器最佳的法線向量,使兩類樣品在該方向上的投影滿足類內(nèi)盡可能密集,類間盡可能分開。相反如果把它們投影到任意一根直線上,有可能不同類別的樣品就混在一起了,無法區(qū)分。如果把投影直線旋轉(zhuǎn)一定的角度,就有可能找到一個方向,樣品投影到這個方向直線上,各類樣品就能很好的分開。如何找到一個最好方向及如何實現(xiàn)向最好方向投影的變換,這正是Fisher算法要解決的基本問題。5、感知準則感知準則函數(shù)以使錯分類樣品到

25、分界面距離之和最小為原則。采用錯誤提供信息實現(xiàn)迭代修正的學(xué)習(xí)原理。用錯分類提供的信息修正錯誤,這種思想對機器學(xué)習(xí)的發(fā)展以及人工神經(jīng)元網(wǎng)絡(luò)的發(fā)生發(fā)展產(chǎn)生深遠影響。其優(yōu)點是通過錯分類樣品提供的信息對分類器函數(shù)進行修正,這種準則是人工神經(jīng)元網(wǎng)絡(luò)多層感知器的基礎(chǔ)。2.2.3分類器設(shè)計基本方法在d維特征空間已經(jīng)確定的前提下,討論的分類器設(shè)計問題是一個選擇什么準則,使用什么方法,將已確定的d 維特征空間劃分為決策域的問題。分類器設(shè)計有兩種基本方法:模板匹配法和判別函數(shù)法。1、模板匹配法將待分類樣品與標(biāo)準模板進行比較,看與哪個模板匹配程度更相似,從而確定待測試樣品的分類。而近鄰準則在原理上屬于模板匹配。它將

26、訓(xùn)練樣品集中的每個樣品都作為模板,用測試樣品與每個模板做比較,看與哪個模板最相似(即為近鄰),就按最近似的模板的類別作為自己的類別。2、判別函數(shù)法設(shè)計基于判別函數(shù)法的分類方法有兩種:基于概率統(tǒng)計的分類法和幾何分類法。直接使用Bayes決策需要首先得到有關(guān)樣品總體分布的知識,包括各類先驗概率P(w1)及類條件概率密度函數(shù),計算出樣品的后驗概率P(w1|X),并以此作為產(chǎn)生判別函數(shù)的必要數(shù)據(jù),設(shè)計出相應(yīng)的判別函數(shù)與決策面。當(dāng)各類樣品近似于正態(tài)分布時,可以算出使錯誤率最小或風(fēng)險最小的分界面及相應(yīng)的分界面方程。因此如果訓(xùn)練樣品處于近似的正態(tài)分布,可以用Bayes決策方法對分類器進行設(shè)計。幾何分類法由于

27、一個模式通過某種變換映射為一個特征向量后,該特征向量可以理解為特征空間的一個點,在特征空間中,屬于一個類的點集,總是在某種程度上與屬于另一個類的點集相分離,各個類之間是確定可分的。因此如果能夠找到一個分離函數(shù)(線性或非性形函數(shù)),把不同類的點集分開,則分類任務(wù)就解決了。幾何分類器不依賴于條件概率密度的知識,可以理解為通過幾何的方法,把特征空間分解為相應(yīng)與不同類別的子空間。而且呈線形的分離函數(shù),將使計算簡化。分離函數(shù)又分為線性判別函數(shù)和非線性判別函數(shù)。3.4 判別函數(shù)無論是設(shè)計一個基于概率統(tǒng)計的分類器,還是設(shè)計一個幾何分類器,最終都轉(zhuǎn)化為判別函數(shù)的形式。1、二類情況對于只有簡單的兩類情況,判別函

28、數(shù)形式如圖2-1所示,根據(jù)計算結(jié)果的符號將X分類。 dX1X2Xn+1W1-1W2決策判別計算閥值單元圖2-1 兩類分類器形式假定判別函數(shù)d(X)是X的線性函數(shù),d(X)=WTX+W0,用矢量X=T來表示模式,一般的線性判別函數(shù)形式為: (3.3)式中W0=稱為權(quán)矢量或參數(shù)矢量。2、多類情況對于多類別問題,假如有M類模式,它們對應(yīng)于M類圖像。對于M個類別,就要給出M個判別函數(shù):,各個判別函數(shù)構(gòu)成分類器,基本形式如圖3-1所示:d1d2dMMAX/MINX1X2Xn最值選擇器決策圖3-2 判別函數(shù)構(gòu)成的多類分類器對于線性情況,判別函數(shù)形式為 (3.4)其中,。3.5訓(xùn)練與學(xué)習(xí)所謂模式識別的學(xué)習(xí)與

29、訓(xùn)練是從訓(xùn)練樣品提供的數(shù)據(jù)中找出某種數(shù)學(xué)式子的最優(yōu)解,這個最優(yōu)解使分類器得到一組參數(shù),按這組參數(shù)設(shè)計的分類器使人們設(shè)計的某種準則達到極值。確定分類決策的具體數(shù)學(xué)公式是通過分類器設(shè)計這個過程確定的。這個過程稱為訓(xùn)練與學(xué)習(xí)的過程。訓(xùn)練與學(xué)習(xí)的過程中的訓(xùn)練集是指一個已知的樣品集,在監(jiān)督學(xué)習(xí)方法中用它來開發(fā)模式分類器。在本系統(tǒng)中,自己手寫的50個漢字字符,從這50個字符中提取信息組成特征庫,這50個字符就是訓(xùn)練集。訓(xùn)練與學(xué)習(xí)的過程中的測試集就是識別時隨機用手寫的漢字。第三章 貝葉斯方法應(yīng)用于手寫體數(shù)字識別3.1貝葉斯由來貝葉斯(R.T.Bayes,17021761)學(xué)派奠基性的工作,是英國學(xué)者貝葉斯的

30、一篇具有哲學(xué)性的論文關(guān)于幾率性問題求解的討論。著名數(shù)學(xué)家拉普拉斯利用貝葉斯的方法導(dǎo)出了重要的“相繼律”,從而引起人們對貝葉斯的方法和理論的重視。盡管利用貝葉斯方法可以推導(dǎo)出很多有意義的結(jié)果,但是,由于理論上和實際應(yīng)用中存在很多問題,在19世紀,貝葉斯理論并未被普遍接受。進入20世紀,意大利的菲納特、英國的杰弗萊、古特、薩凡奇、林德萊對貝葉斯學(xué)派的形成做出了重要貢獻,1958年英國歷史最長的統(tǒng)計雜志Biometrika重新全文刊載了貝葉斯的論文。20世紀50年代,羅賓斯(H.Robbins)將經(jīng)典統(tǒng)計學(xué)派的方法和貝葉斯學(xué)派的方法進行融合,提出了經(jīng)驗貝葉斯方法(EB方法)。如今,貝葉斯學(xué)派的思想方

31、法已滲透到了許多學(xué)科。貝葉斯理論在人工智能、機器學(xué)習(xí)、數(shù)據(jù)挖掘等方面也有廣泛應(yīng)用。20世紀80年代,貝葉斯網(wǎng)絡(luò)被用于專家系統(tǒng)的知識表示,90年代可學(xué)習(xí)的貝葉斯網(wǎng)絡(luò)被用于數(shù)據(jù)挖掘和機器學(xué)習(xí)。涉及因果推理、不確定性知識表達、聚類分析等方面的貝葉斯方法的文章大量涌現(xiàn)。并且出現(xiàn)了專門研究貝葉斯理論的組織和學(xué)術(shù)刊物ISBA。貝葉斯分類是一種統(tǒng)計學(xué)分類方法,可以預(yù)測類成員關(guān)系的可能性,如給定樣本屬于一個特定類的概率。目前,貝葉斯分類方法已在文本分類、字母識別、經(jīng)濟預(yù)測等領(lǐng)域獲得了成功的應(yīng)用。貝葉斯方法正在以其獨特的不確定性知識表達形式、豐富的概率表達能力、綜合先驗知識的增量學(xué)習(xí)等特性成為眾多數(shù)據(jù)挖掘方法中

32、最引人注目的焦點之一。3.2貝葉斯公式貝葉斯公式建立起先驗概率和后驗概率的聯(lián)系。先驗概率是指根據(jù)歷史資料或主觀判斷確定的各事件發(fā)生的概率,由于沒能經(jīng)過實驗證實,屬于檢驗前的概率,所以稱為先驗概率。先驗概率一般分為兩類,一是客觀先驗概率,指利用歷史資料計算得到的概率;二是主觀先驗概率,指在沒有歷史資料或歷史資料不全的情況下,僅僅憑借主觀經(jīng)驗判斷得到的概率。后驗概率是指利用貝葉斯公式,結(jié)合調(diào)查等方式獲取了新的附加信息,對先驗概率進行修正后得到的更符合實際的概率。1. 先驗概率 先驗概率針對M個事件出現(xiàn)的可能性而言,不考慮其他任何條件。例如,由統(tǒng)計資料表明總藥品數(shù)為N,其中正常的藥品數(shù)位,異常藥品數(shù)

33、位,則: 我們稱及為先驗概率。顯然在一般情況下正常藥品占比例大,即。僅按先驗概率來決策,就會吧所有藥品都劃歸為正常藥品,并沒有達到將正常藥品與異常藥品分開的目的。這表明由先驗概率所提供的信息太少。2.貝葉斯公式也稱為后驗概率公式或逆概率公式,有幾種不同的形式。通常采用事件形式或隨機變量形式表示。2.1.事件形式設(shè)A1, A2, An互不相容,并且有(必然事件),則對于任一事件B,有 (i=1, 2, n) (8.14)2.2隨機變量形式設(shè)x和為兩個隨機變量,x是觀測向量,是未知參數(shù)向量,其聯(lián)合分布密度是p(x,),p(x|)是x對的條件密度, ()是的先驗分布密度,于是對x的條件密度p(|x)

34、為 (8.15)貝葉斯假設(shè)指出,在沒有任何關(guān)于的信息時,可以認為的先驗分布是均勻分布。當(dāng)然,確定先驗分布的準則還包括杰弗萊準則、最大熵準則、共軛分布族等。總之,貝葉斯方法的重點在于研究如何合理地使用先驗信息。3.3貝葉斯公式Bayes決策理論:在分類的時候難免出現(xiàn)錯分類的情況,如何做出合理的判決就是Bayes決策理論所要討論的問題,其中具有代表性的是最小錯誤概率的Bayes決策3基于最小錯誤率的貝葉斯決策: 假定得到一個待識別量的特征X后,每個樣品X有n個特征,即,通過樣品庫,計算先驗概率及類別條件概率密度函數(shù),得到呈現(xiàn)狀態(tài)X時,該樣品分屬各類別的概率,顯然這個概率值可以作為識別對象判屬的依據(jù)

35、,從后驗概率分布圖44可見。在X值小時,藥品被判為正常比較合理的,判斷錯誤的可能性小?;谧钚″e誤概率的貝葉斯決策就是按后驗概率的大小判別的。這個判別又可以根據(jù)類別數(shù)目,寫成不同的集中等價形式。 1.兩類問題 若兩類樣品屬于類中的一類,已知兩類的先驗概率分別為,。兩類的類條件概率密度為,.則任給一X。判別X的類別。由貝葉斯公式可知: 由全概率公式可知 其中M為類別。對于兩類問題 所以用后驗概率來判別為 判別函數(shù)還有另外兩種形式。(1)似然比形式 其中上面公式中的在統(tǒng)計學(xué)中稱為似然比,而稱為似然比閥值。(2) 對數(shù)形式 上面三種判別函數(shù)是一致的,也可以用后驗概率來表示判別函數(shù)。2. 多類問題 現(xiàn)

36、在討論多類問題的情況。判別函數(shù)的一般形式如下圖:d1d2dMMAX/MINX1X2Xn最值選擇器決策若樣本分為M類,各類的先驗概率分別為 ,.,各類的類條件概率密度分別為,.,就有M個判別函數(shù)。在取得一個觀察特征X之后,在特征X的條件下,看哪個類的概率最大,就應(yīng)該把X歸于概率最大的那個類。因此對于任一模式X,可以通過比較各個判別函數(shù)來確定X的類別。 就是把X代入M個判別函數(shù)中,看哪個判別函數(shù)最大,就把X歸于這一類。 判別函數(shù)的對數(shù)形式為: 由于先驗概率通常是很容易求出來的,貝葉斯分類器的核心問題就是求出類條件概率密度如果求出了條件概率,則后驗概率就可以求出了,判別問題就可以解決了。在大多數(shù)情況

37、下,類條件密度可以采用多維變量的正態(tài)密度函數(shù)來模擬。在工程上的許多問題中,統(tǒng)計數(shù)據(jù)往往滿足正態(tài)分布規(guī)律,多維變量的正態(tài)密度函數(shù)為: 其中: 所以此時的正態(tài)分布的貝葉斯分類器判別函數(shù)為: 3.4貝葉斯應(yīng)用于的手寫體數(shù)字理論部分:3.4.1.特征描述:在模式識別技術(shù)中,被觀測的每個對象稱為樣品,例如本文中的每個手寫數(shù)字可以作為一個樣品,共寫了10個數(shù)字,所以就有10個樣品(X1,X2,X3,X4,X5,X6,X7,X8,X9,X10),一共有10個不同的類別。對于一個樣品來說,必須確定一些與識別有關(guān)的因素作為研究的根據(jù),每一個因素稱為一個特征。模式就是樣品所具有的特征描述。模式的特征集由處于同一個

38、特征空間的特征向量表示,特征向量的每個元素稱為特征,該向量也因此稱為特征向量。一般用小寫字母x, y, z來表示特征。如果一個樣品X有n 個特征,則可把X看成一個n維列向量,該向量稱為特征向量X,記作:X=T (1.1)抽取圖像特征的目的是為了進行分類,識別圖像。也就是把圖像變成n維空間的一個向量,實際上就是看成n維空間中的一個點,這樣有利于從幾何上考慮問題,計算上比較方便。 如果一個對象的特征觀察值為x1,x2,,xn,它可構(gòu)成一個n維的特征向量值X,即X=x1,x2,,xnT,式中x1,x2,,xn為特征向量X的各個分量。在模式識別的過程中,要對許多具體對象進行測量,以獲得許多觀測值,其中

39、有均值、方差、協(xié)方差與協(xié)方差矩陣。1.均值 N 個樣品的均值可表示為: (1.2) 其中是第i 個特征的平均值, (1.3)2.方差 方差用來描述一批數(shù)的分散程度,第i 個特征的N個數(shù)的方差公式是: (1.4) 3.協(xié)方差與協(xié)方差矩陣:在N個樣品中,第i個特征和第j個特征之間的協(xié)方差定義為: (1.5)對于同一批樣品來說,很明顯有: 如果一批樣品有n個特征x1,x2,,xn。求出沒兩個特征的協(xié)方差,總共得到n2個值,將這n2個值排列成以下的n維方陣,稱為協(xié)方差矩陣: ,協(xié)方差矩陣是對稱矩陣,而且主對角線元素sij就是特征xi的方差si2,i=1,2,3,n。3.4.2最小錯誤分類器進行判別分類

40、寫體數(shù)字,提取特征后,應(yīng)用Bayes分類器進行判別分類。在手寫體數(shù)字的識別屬于多類情況,可以認為每類樣品呈正態(tài)分布。 1)求出每一類手寫體數(shù)字樣品的均值: 公式中,代表類的樣品個數(shù);n代表特征數(shù)目。2) 求每一類的協(xié)方差矩陣: 公式中,l代表樣品在類中的序號,其中; 3) 計算出每一類的協(xié)方差矩陣的逆矩陣以及協(xié)方差矩陣的行列式4) 求出每一類的先驗概率 其中:5) 將各個數(shù)值代入判別函數(shù): 6) 判別函數(shù)最大值所對應(yīng)類別就是手寫體數(shù)字的類別第四章 手寫體數(shù)字識別的設(shè)計流程及功能的具體實現(xiàn)4.1 手寫體數(shù)字識別的流程圖系統(tǒng)設(shè)計的第一部分為讀取庫信息,這一部分是有監(jiān)督的訓(xùn)練學(xué)習(xí)過程;第二部分為用戶

41、手寫輸入一個漢字及識別功能。設(shè)計流程如圖4-1設(shè)計流程圖所示:圖4-1設(shè)計流程圖4.2具體功能實現(xiàn)方法如下: 開發(fā)環(huán)境:vc+6.01.數(shù)字樣品庫信息:1) 這些0,到9的數(shù)據(jù)樣品信息是在因特網(wǎng)上下載的,它是對每一個數(shù)字提取25個特征。2) 將數(shù)字區(qū)域平均分為5*5的小區(qū)域。3) 計算5*5的每一個小區(qū)域中黑像素所占比例,第一行的5個比例值保存到特征的前5個,第二行的對應(yīng)特征的610個,依次類推。4)讀取數(shù)據(jù)信息庫:程序首先打開template.dat文件,然后定義了一個CArchive類的對象, 把數(shù)據(jù)信息讀取出來存取在下面的結(jié)構(gòu)中struct pattern/pattern結(jié)構(gòu)體,保存某個

42、數(shù)字類別(09)的所有樣品特征int number;/該手寫數(shù)字樣品個數(shù)double feature20025;/各樣品特征,每類手寫數(shù)字最多有200個樣品,每個樣品有25個特征;5)用戶單擊“數(shù)據(jù)庫信息”“打開數(shù)據(jù)庫信息”可以看到每個數(shù)字的樣品個數(shù):然后然后在“數(shù)字”和“第幾個”中輸入數(shù)字和第幾個樣品,單擊“顯示”就可以查看對應(yīng)的數(shù)字特征(每個區(qū)域中黑像素所占的比例)2.手寫體數(shù)字輸入:系統(tǒng)中CPen畫筆的直徑設(shè)置為8個像素,畫圖的區(qū)域被限制在視圖客戶區(qū)CRect(0,0),(240,240)矩形內(nèi),畫筆的位置和圖像的數(shù)據(jù)指針相關(guān)聯(lián),設(shè)鼠標(biāo)焦點的坐標(biāo)為Point(x,y),m_pData 為

43、位圖的數(shù)據(jù)指針,則數(shù)據(jù)指針應(yīng)變換為:m_pData+240 *y+x,鼠標(biāo)的被按下(響應(yīng)消息LButtonDown時)以鼠標(biāo)焦點為中心,4像素為半徑的區(qū)域內(nèi)的像素值都賦值為0,同時刷新視圖。重要的幾個函數(shù):CPen pen(PS_DASH, 8, RGB(255, 0, 0);/畫筆函數(shù)dc.MoveTo(m_ptOrigin);/畫線函數(shù)dc.LineTo(point);3.特征提取在實驗中,對每一個數(shù)字提取25個特征。手寫數(shù)字的特征提取步驟如下:1 利用搜索m_pData數(shù)組中為0,找出手寫數(shù)字的上下左右邊界區(qū)域top,bottom, left, right2 利用top,bottom,l

44、eft,right將數(shù)字區(qū)域平均分為5*5的小區(qū)域。3 計算5*5的每一個小區(qū)域中黑像素(m_pData數(shù)組中為0,)所占比例,第一行的5個比例值保存到特征的前5個,第二行的對應(yīng)特征的610個,依次類推。(對于像素點大于0.1,用1標(biāo)注);4 具體用類CGetFeature類來實現(xiàn):5 用戶在畫板上輸入數(shù)字后,單擊“提取數(shù)據(jù)信息”中的“數(shù)據(jù)信息”就能查看待定樣品 class CGetFeature public:pattern pattern10;/手寫數(shù)字樣品特征庫double testsample25;/待測的手寫數(shù)字int width;/手寫數(shù)字的寬int height;/手寫數(shù)字的高d

45、ouble Cal(int row, int col, BYTE *m_Data);/計算分割好的55小區(qū)域中,黑像素所占的比例void SetFeature(BYTE *m_Data);/計算手寫數(shù)字的特征,賦值testsamplevoid GetPosition(BYTE *m_Data);/獲得手寫數(shù)字的位置CGetFeature();/構(gòu)造函數(shù)virtual CGetFeature();/析構(gòu)函數(shù)int BayesErzhishuju(); /貝葉斯方法int BayesLeasterror(); /貝葉斯最小錯誤;CMenuView *m_pMenuView;protected:in

46、t bottom;/手寫數(shù)字的底部int top;/手寫數(shù)字的頂部int left;/手寫數(shù)字的左邊int right;/手寫數(shù)字的右邊;4數(shù)字識別用戶只要在視圖的灰色區(qū)域中輸入合法的漢字,然后單擊“圖像操作”“識別”,系統(tǒng)就回自動提取漢字的特征,與樣品庫中漢字特征按照最小距離算法識別手寫漢字。實際效果如圖4-5漢字識別示意圖所示。四:實驗結(jié)果分析:結(jié)果分析:識別正確率雖然很高,在識別的過程中有誤判情況的發(fā)生,經(jīng)分析原因有以下幾種:1.每個數(shù)字特征的維數(shù)只有25,所以只能把圖象分割為25份精度不高。2.在輸入手寫漢字時,有時太小或者不規(guī)范,在特征提取時就會發(fā)生差錯。例如下圖:圖4-6誤判示意圖

47、結(jié)束語本文主要介紹了手寫體數(shù)字識別的基本理論和方法,并實現(xiàn)了用了最小錯誤的貝葉斯方法識別10個數(shù)字。在本系統(tǒng)設(shè)計中所涉及的技術(shù)如下:1、 手寫體數(shù)字識別基本過程。2、 分類器的設(shè)計方法。3、 VC+6.0的界面設(shè)計。歸納起來,在做畢業(yè)設(shè)計的過程中,我主要做了以下工作:第一階段:收集、閱讀和分析有關(guān)模式識別及手寫體數(shù)字識別的書籍,從中找到一種合理的設(shè)計方法。第二階段:學(xué)習(xí)VC+6.0界面設(shè)計的方法,掌握了MFC的基本構(gòu)架,文檔視圖結(jié)構(gòu),消息映射,對話框的使用等知識。第三階段:在VC的開發(fā)環(huán)境中編寫實現(xiàn)數(shù)字識別的代碼,讀取庫信息,特征提取,貝葉斯方法等,并對各個部分進行了調(diào)試。第四階段:撰寫論文。

48、限于我的水平有限,知識掌握不足,本系統(tǒng)還有許多有待改進的地方:1、 圖形界面還不完善,能夠支持的操作比較少。2、 識別率不是特高,有許多錯誤的判斷。3、 實現(xiàn)手寫數(shù)字識別的算法比較多,例如:基于概率統(tǒng)計的貝葉斯算法,神經(jīng)網(wǎng)絡(luò),分形幾何等算法,由于時間關(guān)系,只用了簡單的方法。模式識別是一門綜合性、交叉性學(xué)科,在理論上它涉及代數(shù)學(xué)、矩陣論、概率論、圖論、模糊數(shù)學(xué)、最優(yōu)化理論等等眾多學(xué)科的知識,在應(yīng)用上又與其他許多領(lǐng)域的工程技術(shù)密切相關(guān),其內(nèi)涵可以概括為信息處理、分析與決策。在模式識別學(xué)科中,并沒有一種普遍適應(yīng)的算法,模式識別的算法要根據(jù)具體的識別對象和任務(wù)來確定,所以模式識別學(xué)科中還有很多創(chuàng)新性的

49、工作,我打算在研究生學(xué)習(xí)階段在這方面做深入的研究。 致謝詞本論文是在李軍老師的親切關(guān)懷與精心指導(dǎo)下完成的,感謝我的導(dǎo)師李軍教授,他在我做畢業(yè)設(shè)計過程中,從選題到具體實施都給予我很多的幫助和指導(dǎo),他循循善誘的教導(dǎo)和不拘一格的思路給予我無盡的啟迪。真誠感謝理學(xué)院的領(lǐng)導(dǎo)和老師,感謝理學(xué)院教研室的各位老師,他們在我平常的學(xué)習(xí)與日常生活中,給了我許多關(guān)心與幫助。在此我表示深深的感謝! 感謝我的室友們,從遙遠的家來到這個陌生的城市里,是你們和我共同維系著彼此之間兄弟般的感情,維系著寢室那份家的融洽。 感謝我的父親母親,焉得諼草,言樹之背,養(yǎng)育之恩,無以回報,你們永遠健康快樂是我最大的心愿。 在論文即將完成

50、之際,我的心情無法平靜,從開始進入課題到論文的順利完成,有多少可敬的師長、同學(xué)、朋友給了我無言的幫助,在這里請接受我誠摯的謝意!參考文獻1楊淑瑩.圖像模式識別-VC+技術(shù)實現(xiàn).北京:清華大學(xué)出版社.20052徐士良.C常用算法程序集.北京:清華大學(xué)出版社.19963黃振華,吳誠一.模式識別原理.杭州:浙江大學(xué)出版社.19914沈清,湯霖.模式識別導(dǎo)輪.長沙:國防科技大學(xué)出版社.19915邊肇祺,張學(xué)工.模式識別.北京:清華大學(xué)出版社.20006羅耀光,盛立東.模式識別.北京:人民郵電出版社.19897譚浩強.C程序設(shè)計.北京:清華大學(xué)出版社.20018鄭莉,董淵.C+語言程序設(shè)計.北京:清華大

51、學(xué)出版社.20029黃維通.Visual C+ 面向?qū)ο笈c可視化程序設(shè)計. 北京:清華大學(xué)出版社.200210王育堅. Visual C+ 面向?qū)ο缶幊探坛? 北京:清華大學(xué)出版社.200411章毓晉.圖象處理和分析. 北京:清華大學(xué)出版社.200112HildebrandTH, LiuW. Optical recognition of handwritten Chinese characters: advances since 1980JPattern Recognition, 1993,26(2): 205-22513 Liao C W, Huang J S. Atransformatio

52、n invariant matching algorithm for handwritten Chinesecharacter recognition J. Pattern Recognition, 1990, 23(11):1 167-1 18814吳佑壽,丁曉青.漢字識別原理方法與實現(xiàn).高等教育出版社.1992.15英厄爾曼.文字、圖形識別技術(shù).人民郵電出版社.1983.16 孫偉.用Visual C+構(gòu)造用于手寫漢字識別的模擬系統(tǒng).微處理機,2002. 17 Carlos M. Travieso, Ciro R.Morales, Itziar G. Alonso, et al. Hand

53、written Digits Parameterizationfor HMM based recognition, Image Processing and its Applications. IEEE Conference Publication,1999, 465: 770-774.附錄1. BayesLeasterror()/* 函數(shù)名稱:BayesLeasterror()* 函數(shù)類型:int * 函數(shù)功能:最小錯誤概率的Bayes分類器 ,返回手寫數(shù)字的類別*/int CGetFeature:BayesLeasterror()double X25;/待測樣品double Xmeans2

54、5;/樣品的均值double S2525;/協(xié)方差矩陣double S_2525;/S的逆矩陣double Pw;/先驗概率double hx10;/判別函數(shù)int i,j,k,n;for(n=0;n10;n+)/循環(huán)類別09int num=patternn.number;/樣品個數(shù)/求樣品平均值for(i=0;i25;i+)Xmeansi=0.0;for(k=0;knum;k+)for(i=0;i0.10?1.0:0.0;for(i=0;i25;i+)Xmeansi/=(double)num;/求協(xié)方差矩陣double mode20025;for(i=0;inum;i+)for(j=0;j0

55、.10?1.0:0.0;for(i=0;i25;i+)for(j=0;j25;j+)double s=0.0;for(k=0;knum;k+)s=s+(modeki-Xmeansi)*(modekj-Xmeansj);s=s/(double)(num-1);Sij=s;/求先驗概率int total=0;for(i=0;i10;i+)total+=patterni.number;Pw=(double)num/(double)total;/求S的逆矩陣for(i=0;i25;i+)for(j=0;j25;j+)S_ij=Sij;double(*p)25=S_;brinv(*p,25);/S的逆矩

56、陣/求S的行列式double (*pp)25=S;double DetS;DetS=bsdet(*pp,25);/S的行列式/求判別函數(shù)for(i=0;i0.10?1.0:0.0;for(i=0;i25;i+)Xi-=Xmeansi;double t25;for(i=0;i25;i+)ti=0;brmul(X,S_,25,t);/矩陣的乘積double t1=brmul(t,X,25);double t2=log(Pw);double t3=log(DetS+1);hxn=-t1/2+t2-t3/2;double maxval=hx0;int number=0;/判別函數(shù)的最大值for(n=1

57、;nmaxval)maxval=hxn;number=n;return number;2.CGetFeature 的一些函數(shù):CGetFeature:CGetFeature()CFile TheFile(template.dat,CFile:modeRead);CArchive ar(&TheFile,CArchive:load,40960);TheFile.SeekToBegin();for(int i=0;ipatterni.number;for(int n=0;npatterni.number;n+)for(int j=0;jpatterni.featurenj;ar.Close();T

58、heFile.Close();CGetFeature:CGetFeature()/* 函數(shù)名稱:GetPosition()* 函數(shù)類型:void * 函數(shù)功能:搜索手寫數(shù)字的位置,賦值給bottom,down,right,left*/void CGetFeature:GetPosition(BYTE *m_Data)width = 240;height = 240;intLineBytes = 240;int i,j;BOOL flag;for(j=0;jheight;j+)flag=FALSE;for(i=0;i0;j-)flag=FALSE;for(i=0;iwidth;i+)if(m_D

59、ataj*LineBytes+i=0)flag=TRUE;break;if(flag)break;top=j;for(i=0;iwidth;i+)flag=FALSE;for(j=0;j0;i-)flag=FALSE;for(j=0;jheight;j+)if(m_Dataj*LineBytes+i=0)flag=TRUE;break;if(flag)break;right=i;/* 函數(shù)名稱:SetFeature()* 函數(shù)類型:void * 函數(shù)功能:將手寫數(shù)字特征保存在變量testsample中*/void CGetFeature:SetFeature(BYTE *m_Data)int

60、i,j;for(j=0;j5;j+)for(i=0;i0.10)?1:0;/testsamplej * 5 + i = Cal(j, i, m_Data);/* 函數(shù)名稱:Cal(int row, int col)* 函數(shù)類型:double * 參數(shù)說明:int row, int col:第row行,第col個區(qū)域* 函數(shù)功能:計算某一小區(qū)域內(nèi)黑像素所占比例,返回某一小區(qū)域內(nèi)黑像素所占比例*/double CGetFeature:Cal(int row, int col, BYTE *m_Data)double w,h,count;int LineBytes = 240;w=(right-left)/5;h=(top-bottom)/5;count=0; /注意是bottom,注意;for(int j=bottom + row*h; jbottom+(row+1)*h;

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論