《數(shù)字圖像處理》課件1第10章_第1頁
《數(shù)字圖像處理》課件1第10章_第2頁
《數(shù)字圖像處理》課件1第10章_第3頁
《數(shù)字圖像處理》課件1第10章_第4頁
《數(shù)字圖像處理》課件1第10章_第5頁
已閱讀5頁,還剩149頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第10章數(shù)字圖像處理的應(yīng)用10.1電站鍋爐火焰檢測及燃燒診斷10.2指紋識別系統(tǒng)

10.3OCR文字識別技術(shù)

10.4人臉識別

10.5生物醫(yī)學(xué)圖像分析

10.6生物醫(yī)學(xué)成像模態(tài)

10.7視頻檢索習(xí)題

數(shù)字圖像處理的應(yīng)用范圍很廣。本章通過一些實例介紹數(shù)字圖像處理的應(yīng)用,以使讀者對數(shù)字圖像處理的應(yīng)用有一個初步認識,激發(fā)讀者對數(shù)字圖像處理應(yīng)用的興趣,以使讀者更好地將所學(xué)知識運用于實踐當(dāng)中。

電站鍋爐燃燒的基本要求是建立并維持穩(wěn)定、均勻的燃燒火焰。火焰燃燒情況能夠很好地反映燃燒狀態(tài)是否穩(wěn)定。燃燒調(diào)整不好或者燃燒不穩(wěn)定都會導(dǎo)致鍋爐熱效率下降,而爐溫的高低及分布不合理會導(dǎo)致產(chǎn)生過多的氣體NOx;火焰中心溫度降低將導(dǎo)致難以提供維持煤粉著火的著火點,從而導(dǎo)致滅火;火焰中心的偏移則引起火焰直接沖刷水冷壁,增加水冷壁的應(yīng)力和磨損,嚴重時會導(dǎo)致水冷壁的爆裂事故。因此,對電站鍋爐進行有效的火焰檢測及燃燒診斷在實際生產(chǎn)中有重大意義。10.1電站鍋爐火焰檢測及燃燒診斷

為優(yōu)化對電站鍋爐的燃燒工況的調(diào)整,加強對鍋爐火焰的檢測和燃燒診斷,從而加強對燃燒過程的實時監(jiān)控,以適應(yīng)不斷提高的機組容量和環(huán)保標準的要求,基于火焰圖像的可視化研究和智能診斷已經(jīng)成為火焰檢測技術(shù)的熱點研究方向。目前,我國電站鍋爐普遍利用輻射能來檢測火焰。由于火焰輻射光覆蓋了紅外光、可見光和紫外光的頻率范圍,根據(jù)檢測的輻射光頻率范圍的不同,火焰檢測器可以分為紅外、可見光、紫外檢測器。但是,這種局部參數(shù)的測量方法只能對燃燒火焰“有”或“無”進行判斷,不能全面體現(xiàn)燃燒狀態(tài),不能測量爐內(nèi)的溫度場以及進行相應(yīng)的診斷。隨著計算機技術(shù)特別是多媒體技術(shù)的發(fā)展,出現(xiàn)了利用圖像采集卡將CCD攝像獲取的視頻信號轉(zhuǎn)化為計算機可以處理的數(shù)字化圖像,意味著火焰圖像信號可以進行計算機分析和處理?;跀?shù)字圖像處理的火焰監(jiān)測器成為火焰檢測技術(shù)發(fā)展的重要方向。

下面介紹一種基于數(shù)字圖像處理的火焰檢測及燃燒診斷的方法。

圖10.1.1所示為基于數(shù)字圖像處理的火焰檢測及燃燒診斷系統(tǒng)框圖。

該系統(tǒng)的主要功能之一就是對CCD獲取的火焰圖像進行處理,以從中獲取盡可能多的反映火焰燃燒狀態(tài)的圖像特征量,并在此基礎(chǔ)上畫出連續(xù)狀態(tài)變化圖,幫助判斷火焰燃燒的狀態(tài)。其具體工作流程為:10.1.1鍋爐火焰檢測及燃燒診斷系統(tǒng)結(jié)構(gòu)由CCD攝像機和傳像光纖組成的火焰圖像傳感器攝取各燃燒器著火區(qū)的火焰圖像,各路傳感器火焰圖像的視頻信號由同軸電纜送入視頻信號分配器,并不衰減地將每路信號分路送出,一路送往上位機圖像監(jiān)視管理系統(tǒng),一路送往火焰圖像錄放系統(tǒng),另一路送往下位機圖像處理系統(tǒng)。

圖10.1.1火焰檢測及燃燒診斷系統(tǒng)框圖

該火焰檢測系統(tǒng)結(jié)構(gòu)圖如圖10.1.2所示?;鹧鎴D像傳感器由傳像光纖和CCD攝像機組成。傳像光纖獲取火焰圖像并經(jīng)棱鏡轉(zhuǎn)向后直接投射在CCD攝像機靶面上。CCD攝像機具有光電變換和傳送圖像的功能。這種全電視模擬圖像信號需經(jīng)過圖像處理系統(tǒng)中的圖像采集卡進行A/D轉(zhuǎn)換。圖像處理系統(tǒng)中的軟件系統(tǒng)完成火焰特征量的提取。圖像監(jiān)視管理器接受圖像采集卡傳來的RGB模擬信號,實現(xiàn)偽彩色顯示,并且顯示燃燒強度直方圖、歷史曲線等?;鹧鎴D像錄放系統(tǒng)自動記錄24小時內(nèi)的火焰圖像原始信號,并可以按要求回放。由于光學(xué)系統(tǒng)位于爐內(nèi),為保證其在高溫且有大量污染物的惡劣環(huán)境下能長期可靠地運行,必須處理好系統(tǒng)的冷卻和清潔、吹掃,因此輔助系統(tǒng)包括冷卻、吹掃系統(tǒng)。

根據(jù)檢測對象的不同,圖像型火焰檢測可分為全爐膛火焰檢測和單角燃燒器火焰檢測。

全爐膛火焰圖像處理與監(jiān)測裝置的特點在于光學(xué)系統(tǒng)安裝于鍋爐上部,其視野能有效地覆蓋整個爐膛斷面,獲得全爐膛完整的火焰燃燒圖像;單角燃燒器火焰檢測裝置的特點在于通過對單只燃燒器局部火焰的監(jiān)視,構(gòu)成全爐膛火焰監(jiān)視和燃燒狀態(tài)判斷。

圖10.1.2火焰檢測系統(tǒng)結(jié)構(gòu)圖10.1.2火焰溫度場的測量

高溫火焰的溫度分布直接反映了煤粉爐的燃燒狀況,對于電廠煤粉燃燒器燃燒診斷和在線分析有著重要的意義?;鹧鏈囟葓龅膭討B(tài)測量直接反映了燃燒工況的組織是否合理,提供了判斷燃燒穩(wěn)定性和燃燒產(chǎn)物污染生成量的重要依據(jù)。

利用CCD系統(tǒng)三色法測溫原理,根據(jù)普朗克定律,校正后的測溫公式如下:

(10.1.1)

式中,T為熱力學(xué)溫度;C2為第二輻射常數(shù),C2=0.01438833m·K;lR、lG、lB分別表示獲取的圖像的R、G、B三通道光譜響應(yīng)曲線峰值所對應(yīng)的波長;在窄帶假設(shè)下,三色的亮度值可分別表示為Re、Ge、Be。f(Re,Ge,Be)具體的函數(shù)形式可通過黑體爐標定獲得。

1.濾波

一幅火焰圖像可能包含各種隨機噪聲,在燃燒檢測中為了得到更準確、更接近原始圖像的火焰特性,以便能提取出反映火焰燃燒狀態(tài)的特征量,有必要進行噪聲消除。圖10.1.3(a)和(b)所示為采用中值濾波的火焰濾波效果圖及直方圖。10.1.3火焰圖像處理

2.灰度變換

圖像內(nèi)各像素的灰度值是圖像的重要數(shù)據(jù),但由于成像時曝光不足或過度,成像、記錄設(shè)備的線性動態(tài)范圍太窄,或者濾波等因素的影響,都會產(chǎn)生對比度不足的現(xiàn)象,使圖像中的細節(jié)分辨不清。為此,可采用直方圖均衡量化將圖像的灰度范圍拉開,使圖像更清晰。圖10.1.3(c)和(d)所示為采用直方圖均衡量化進行灰度增強后的效果圖及其直方圖。

圖10.1.3灰度變換效果圖及其直方圖

3.偽彩色增強

偽彩色圖像是將一幅亮度圖像按照特定的彩色編碼進行彩色變換后得到的圖像。因為人眼對色彩變化的敏感程度遠大于亮度的變化,這樣就可以看到圖像更加精細的結(jié)構(gòu)。本系統(tǒng)采用一種簡單的變換函數(shù),其變換關(guān)系如圖10.1.4所示,圖10.1.5所示為相應(yīng)的火焰圖像偽彩色顯示效果。

圖10.1.4灰度—彩色變換關(guān)系

圖10.1.5火焰圖像偽彩色顯示

1.火焰特性

(1)火焰具有很寬的連續(xù)光譜,波長為200~40000nm。

(2)正常燃燒火焰可分為三個區(qū)。圖10.1.6為鍋爐火焰圖像示意圖。在燃料射出噴口后的預(yù)熱階段,其發(fā)射的紅外線光強很弱,頻率與光強的變化也很小,稱“黑龍區(qū)”;在初燃區(qū),燃燒不充分,火焰發(fā)光強度低,放熱少,但頻率變化卻達到最大;在燃燒區(qū)和燃盡區(qū),火焰發(fā)光強度達到最大,發(fā)熱也多,燃燒最穩(wěn)定,頻率變化最小。10.1.4火焰圖像特征量提取的方法

圖10.1.6鍋爐火焰圖像示意圖根據(jù)火焰特性,可以進行相應(yīng)圖像的特征量提取。

2.火焰特征量

(1)火焰平均溫度:反映實時火焰燃燒強度和火焰燃燒趨勢。

gav-i表示第i次采樣時圖像的平均灰度值:

(10.1.2)

其中,G為圖像像素個數(shù),gj-i表示第i次采樣時圖像中像素點j的灰度值,它可以通過調(diào)用相應(yīng)的圖像卡功能函數(shù)獲得。

(2)溫度場的二維分布:反映爐內(nèi)火焰溫度場梯度;反映三個區(qū)面積的大小以判斷燃燒階段;幫助判斷火焰中心區(qū)域是否偏斜等。

(3)火焰有效區(qū)域面積?;鹧嬷穑鸵欢ㄓ谢鹧嬗行^(qū)面積;火焰熄火,有效區(qū)面積就為0。因此,火焰有效區(qū)域面積是火焰檢測的一個重要判據(jù),其計算公式如下:

(10.1.3)

式中,gth為預(yù)先設(shè)定的閾值。閾值的合理選取對面積的計算至關(guān)重要。

(4)火焰高溫區(qū)域灰度及面積。燃燒火焰的骨干是火焰的高溫區(qū)域,火焰高溫區(qū)域的灰度及面積變化很小,閃爍頻率很低。只要燃燒火焰擁有一定的穩(wěn)定的高溫區(qū)域,那么火焰抵御干擾的能力就強,燃燒就會穩(wěn)定。因此,火焰有效區(qū)的溫度和高溫區(qū)域灰度能夠反映火焰的穩(wěn)定性。

(5)火焰形心坐標

:反映爐內(nèi)火焰燃燒形狀及中心位置,也是檢測區(qū)內(nèi)火焰圖像最亮的部分,不包括獨立點。實際應(yīng)用中取火焰溫度在最高溫度一定百分比以上的區(qū)域作為火焰中心顯示,更加簡單直觀。計算公式如下:

(10.1.4)

10.1.5試驗與分析

1.全爐膛火焰原始圖像

圖10.1.7所示為對某電廠實時監(jiān)測的25幀圖像中的火焰原始圖像。前8幀為點火不久時的圖像,中間9幀為向穩(wěn)定燃燒過渡時的圖像,后8幀為火焰穩(wěn)定燃燒時的圖像。

圖10.1.7火焰原始圖像

2.特征量提取

圖10.1.8至圖10.1.10所示是根據(jù)圖10.1.7所示的火焰原始圖像進行火焰平均灰度、火焰有效面積、火焰高溫區(qū)面積等特征量提取的結(jié)果。

圖10.1.11所示為一幅全爐膛火焰圖像,圖10.1.12所示為其對應(yīng)的溫度等值線圖。

圖10.1.825幀圖像的火焰平均灰度

圖10.1.925幀圖像的火焰有效面積

圖10.1.1025幀圖像的火焰高溫區(qū)面積

圖10.1.11全爐膛火焰圖像圖10.1.12火焰等溫線圖

3.分析

1)燃燒診斷

由火焰平均灰度圖像(圖10.1.8)可以看出:從起燃階段到向穩(wěn)燃過渡階段,火焰灰度越來越大,直到穩(wěn)燃階段,火焰灰度達到最大,并且火焰穩(wěn)定燃燒時,灰度變化很小。所以,火焰平均灰度可以作為火焰穩(wěn)定燃燒與否的判據(jù)。

由火焰有效面積圖(圖10.1.9)可以看出:起燃階段火焰面積最小,雖然在向穩(wěn)燃過渡階段中火焰面積可能大于穩(wěn)定火焰的面積,但它的面積變化很大。所以由火焰有效面積的均方差可以判斷出火焰的燃燒狀態(tài)。

由火焰高溫區(qū)面積圖(圖10.1.10)可以看出:穩(wěn)定火焰高溫區(qū)面積明顯大于起燃階段和向穩(wěn)燃過渡階段的火焰高溫區(qū)面積,并且高溫區(qū)面積變化不大。所以火焰高溫區(qū)面積是判斷火焰是否穩(wěn)定燃燒的判據(jù)。

由實時監(jiān)測中的一幅全爐膛火焰圖像(圖10.1.11)及其等溫線圖(圖10.1.12)可以看出:火焰邊沿溫度變化較為劇烈,等溫線形狀和實際比較吻合,火焰溫度變化較為連續(xù),且表現(xiàn)為一定的渦旋。根據(jù)火焰溫度場梯度,也可及時知道火焰中心區(qū)域是否偏斜,四角燃燒器是否有局部熄火。

2)爐膛火焰檢測的判據(jù)

根據(jù)現(xiàn)場情況設(shè)定了火焰正常燃燒時的有效火焰灰度作為判定閾值。Sgi為大于灰度閾值g0的火焰像素點的面積,gi為當(dāng)前爐膛火焰平均灰度。

當(dāng)gi>g0,即Sgi>0時,火焰安全燃燒;

當(dāng)gi>g0,且gi在一定時間內(nèi)持續(xù)下降,即Sgi>0且Sgi下降時,熄火預(yù)警;

當(dāng)gi<g0并持續(xù)數(shù)秒,且gi持續(xù)下降,即Sgi<0時,熄火警報。

3)試驗結(jié)果

利用前面介紹的基于數(shù)字圖像的火焰檢測及燃燒診斷的方法所設(shè)計的電站鍋爐火焰檢測及燃燒診斷系統(tǒng),對焦作某電廠200MW機組鍋爐進行了試驗。試驗前,首先通過黑體爐對系統(tǒng)進行標定,然后進行測量。圖10.1.13為電站鍋爐煤粉單角燃燒器出口處火焰圖像。圖10.1.14是圖10.1.13經(jīng)過系統(tǒng)處理后的火焰分布特征圖,可以看到火焰圖像被有效地分割為幾個等溫區(qū)域。

圖10.1.13燃燒區(qū)火焰示意圖圖10.1.14火焰分布特征圖分析可知,正常燃燒的火焰可以明顯地分為三個區(qū),即未燃燒區(qū)、初始燃燒區(qū)和完全燃燒區(qū)?;鹧娉跏既紵齾^(qū)溫度分布最陡,即灰度分布最陡,變化最大;而在完全燃燒區(qū)和未燃燒區(qū),灰度值變化不大?;鹧嫒紵厔輳拈_始燃燒到強烈燃燒的過渡區(qū)存在明顯的從灰暗到明亮的變化。以上所述可以作為燃燒診斷的一個判據(jù):觀測火焰特征區(qū)面積的大小來對燃燒情況做出判斷和預(yù)測。

設(shè)GⅠ、GⅡ、GⅢ分別為三個區(qū)域的平均灰度值,當(dāng)滿足GⅠ-GⅡ≥GⅠ,GⅡ-GⅢ≥GⅡ時,火焰燃燒正常,其中判斷閾值GⅠ、GⅡ在安裝調(diào)試時再設(shè)定;在燃燒區(qū)停止投粉后,三個區(qū)域內(nèi)的亮度幾乎相等,GⅠ=GⅡ=GⅢ=爐膛背景火焰亮度;當(dāng)“黑龍”存在時,GⅠ=GⅡ=GⅢ=煤粉灰度,這是判斷火焰燃燒情況的另一個判據(jù)。

試驗結(jié)果表明,該系統(tǒng)能在一幀時間內(nèi)完成一幅圖像的處理與特征量的提取,即在1s內(nèi)完成鍋爐燃燒狀況的診斷?;鹧嫣卣鞯挠行崛榛鹧娴娜紵\斷提供了可靠的數(shù)據(jù)。

由于指紋具有唯一性、永久性、可采集性等突出優(yōu)點,因此相對于其他身份識別技術(shù)而言,自動指紋識別技術(shù)是一種更為理想的身份確認技術(shù),很早就在身份鑒別方面得到了應(yīng)用。指紋識別中,通常采用全局和局部兩種層次的結(jié)構(gòu)特征。全局特征是指那些用肉眼直接就可以觀察到的特征,局部特征則是指紋紋路上節(jié)點的特征。因為指紋紋路經(jīng)常出現(xiàn)中斷、分叉或打折,所以形成了許多節(jié)點。兩枚指紋可能會具有相同的全局特征,但它們的局部特征卻不可能完全相同。10.2指紋識別系統(tǒng)

全局特征描述的是指紋的總體紋路結(jié)構(gòu),具體包括紋形、模式區(qū)、核心點、三角點和紋數(shù)五個特征;而局部特征是指指紋紋路上的節(jié)點的特征,它提供了指紋唯一性的確認信息。人們根據(jù)紋路的局部結(jié)構(gòu)特征共定義了150多種細節(jié)特征。通常,指紋鑒定系統(tǒng)只使用其中兩種主要的特征,即分叉點和端點,其他細節(jié)特征都可以用它們的組合來表示。

圖10.2.1給出了一個典型的指紋識別系統(tǒng),它包括指紋采集、圖像處理、特征提取、特征匹配和數(shù)據(jù)庫五個模塊。

圖10.2.1指紋識別系統(tǒng)10.2.1指紋圖像的獲取

現(xiàn)有的指紋圖像獲取設(shè)備包括三類:光學(xué)取像設(shè)備、晶體傳感器和超聲波掃描。

1.光學(xué)取像設(shè)備

光學(xué)取像設(shè)備依據(jù)的是光的全反射原理。光線照到壓有指紋的玻璃表面,反射光線由CCD、CMOS等圖像傳感器獲得,反射光的量依賴于壓在玻璃表面上指紋的脊和谷的深度以及皮膚與玻璃間的油脂和水分。經(jīng)玻璃射到谷的光線在玻璃與空氣的界面發(fā)生全反射,光線被反射到圖像傳感器,而射向脊的光線不發(fā)生全反射,而是被脊與玻璃的接觸面吸收或漫反射,這樣就在圖像傳感器上形成了指紋的圖像。利用CMOS圖像傳感器讀取的原始圖像如圖10.2.2所示。

圖10.2.2利用CMOS傳感器讀取的原始圖像

2.晶體傳感器

晶體傳感器有多種類型,最常見的硅電容傳感器通過電子度量計來捕捉指紋。另一種晶體傳感器是壓感式的,其表面的頂層是具有彈性的壓感介質(zhì)材料,它們依照指紋的外表形狀(凹凸)轉(zhuǎn)化為相應(yīng)的電子信號。其他的晶體傳感器還有溫度感應(yīng)傳感器,它通過感應(yīng)壓在設(shè)備上的脊和遠離設(shè)備的谷的溫度的不同獲得指紋圖像。晶體傳感器技術(shù)最主要的弱點是它容易受到靜電的影響,這使得晶體傳感器有時取不到圖像,甚至?xí)粨p壞。另外,它并不像玻璃一樣耐磨損,從而影響了使用壽命。

3.超聲波掃描

超聲波掃描被認為是指紋取像技術(shù)中非常好的一種技術(shù)。超聲波首先掃描指紋的表面,緊接著接收設(shè)備獲取其反射信號,最后測量它的范圍,得到谷的深度。與光學(xué)掃描不同,積累在皮膚上的臟物和油脂對超聲波獲得的圖像影響不大,所以這樣的圖像是實際指紋凹凸表面的真實反映,應(yīng)用起來更為方便。10.2.2指紋圖像預(yù)處理

指紋采集設(shè)備所獲得的原始圖像有很多噪聲,比如手指被弄臟,手指有刀傷、疤痕,手指干燥、濕潤或受傷等都會影響圖像的質(zhì)量。圖像預(yù)處理的目的是消除噪聲,增強脊和谷的對比度。圖像預(yù)處理部分包括圖像裁剪(分割)、平滑、銳化、二值化、修飾和細化等步驟,如圖10.2.3所示。

圖10.2.3指紋圖像的預(yù)處理過程

1.圖像裁剪

將原始指紋圖像應(yīng)用一定的算法進行剪切,在基本不損失有用指紋信息的基礎(chǔ)上產(chǎn)生一個比原始圖像小的指紋圖像,這樣可減少以后各步驟中所要處理的圖像的數(shù)據(jù)量。

2.圖像平滑

平滑處理的任務(wù)就是去除噪聲干擾,而又不使圖像失真。采用下式對多幅圖像取均值的方法,可進一步削弱噪聲:

(10.2.1)

式中,fk(x,y)為第k幅圖像(x,y)像元的灰度值。一般情況下,當(dāng)n=4時,圖像趨于穩(wěn)定。

3.圖像銳化

銳化是為強化指紋紋線間的界線,突出邊緣信息,增強脊和谷之間的對比度,以利于二值化。試驗表明,采用7×7的模板進行銳化是比較適宜的。

4.圖像二值化

對于銳化的指紋圖像,其直方圖有明顯的雙峰,易于采用閾值法進行指紋圖像的二值化。

5.圖像修飾

指紋圖像經(jīng)過二值化后,紋線邊緣往往凹凸不齊,受銳化的影響,畫面出現(xiàn)離散點。為使圖像整潔、邊緣圓滑,需要進行修飾處理。修飾后的指紋圖像如圖10.2.4(a)所示。

6.圖像細化

由于所關(guān)心的不是紋線的粗細,而是紋線的有無,因此,在不破壞圖像連通性的情況下必須去掉多余的信息。為此采用半旋轉(zhuǎn)式的細化方法,抽取紋線骨架。10.2.4(b)所示為細化后的圖像。

圖10.2.4指紋圖像的預(yù)處理10.2.3指紋的識別與分類

指紋的識別與分類流程如圖10.2.5所示。

圖10.2.5指紋識別與分類流程

1.定位

指紋定位是正確識別指紋的必要措施,任何的扭擺、錯位都會造成誤判。指紋定位有人工定位和自動定位兩種方法。這里采用人工查對指紋所遵循的一套規(guī)則(例如指紋三角點、中心點的確定等)進行人工定位。實際上,這項工作在指紋攝入時就已經(jīng)進行了。

人工定位按輸入指紋的箕、斗和弓形紋進行定位,可以迅速、準確地定位給定指紋,并由輸入程序把該指紋圖像送到計算機中。自動定位則由計算機確定相應(yīng)的三角點及中心點,并經(jīng)過適當(dāng)?shù)钠揭婆c旋轉(zhuǎn),達到匹配定位的目的。

2.分區(qū)

對已定位的圖像就可直接分區(qū)進行特征提取了。區(qū)的數(shù)量視定位的精確度及處理的效果而定。一方面,區(qū)的數(shù)量不宜過多,這樣,一旦稍有較大定位誤差,就會引起各區(qū)參數(shù)混亂,造成誤判;當(dāng)然,也不宜過少,過少會造成整個系統(tǒng)的識別率下降。

將指紋圖像劃分為縱橫8×4的32個區(qū),特征是按區(qū)域抽取的。把各區(qū)的特征量按序構(gòu)成“指紋字”,用以表征給定指紋,并以此作為指紋庫進行查對的基本單位。

由于提取特征是根據(jù)預(yù)處理后的圖像進行的,圖像的微小變異(如邊緣不齊等)都會影響識別效果,因此必須建立正確的提取規(guī)則。如對于分叉特征,先由八方向探索,判別有無三個分叉點,再考慮每個分叉的步數(shù);建立各個分叉時每叉判三步則為成功、反之為失敗的規(guī)則。這樣可有三種情況:每叉均為成功,記為分叉;有一叉失敗,不記;兩叉失敗,記為端點。對于偽端點,不汛傭說愕睦嘈(始、終點)、步長及分叉的關(guān)系中找出相應(yīng)的規(guī)則進行處理。

3.特征提取

找出指紋紋理特征的奇異所在,可使識別大大簡化。分析指紋的奇異細節(jié),可歸納為九種情況:起點、終點、小橋、小眼、小鉤、小點、小棒、分叉和結(jié)合。進一步分析又可把它們合并為端點和分叉這兩個特征。這些簡化既有利于計算機進行特征提取,又可節(jié)省大量的存儲空間。

方向數(shù)也是表征指紋紋理的重要參數(shù)。由于紋線走向在定位后已經(jīng)固定,因而累計的方向數(shù)也被固定了下來。盡管由于定位、量化等原因而出現(xiàn)一些差異,但同一指紋累加方向數(shù)的總趨勢是一樣的,可達到較高的吻合度。

在反復(fù)試驗的基礎(chǔ)上,選擇端點、分叉和方向數(shù)作為特征。

4.分類

人工分類法目前比較成熟的方法是把指紋分為三類九形,即弓(弧形和帳形)、箕(正箕和反箕)、斗(環(huán)形、螺形、雙箕形、囊形和雜形)。但這遠遠不能滿足分類的需要,而且計算機難以實現(xiàn)。為此,必須尋求新的分類法。采用下面三級分類方法是可行的。

(1)大分類:由操作者通過人機會話告訴計算機是何種紋形,例如是弓、箕或斗。

(2)中分類:利用圖像的總累計方向數(shù),把同一類指紋進一步分成若干組。

(3)小分類:利用指紋紋理的不對稱性,如上(或左)半部與下(或右)半部的累計方向數(shù)之比,進一步把同一組指紋分成若干部分。

由此所形成的大、中和小分類信息就構(gòu)成了“類別號”,它是到指紋庫進行查對的依據(jù)。10.2.4指紋庫的建立與查對

指紋庫系統(tǒng)是對指紋進行有效存儲、管理的系統(tǒng)。根據(jù)數(shù)據(jù)庫的一些設(shè)計思想和結(jié)構(gòu)方法,指紋庫采用分層模型和模塊結(jié)構(gòu),并與上述的識別與分類有機地結(jié)合起來,因此可迅速有效地查對指紋。

指紋經(jīng)過識別和分類,形成了“指紋字”、“類別號”及指紋的分類層次。指紋查對是按照給定的“指紋字”到指紋庫去查對有無該指紋。查對包括檢索、刪除及插入等操作。

指紋識別系統(tǒng)具有簡單、快速、有效及交互方便等特點,目前已廣泛用于公安、票證稽查等方面的業(yè)務(wù)。

光學(xué)文字讀取裝置(OpticalCharacterReader,OCR)主要由圖像掃描儀和裝有用于分析、識別文字圖像專用軟件的計算機構(gòu)成。通用的OCR是先用圖像掃描儀將文本以圖像方式輸入,計算機再對該圖像進行版面分析后提取出文字行,最后進行文字識別并把識別結(jié)果以文字代碼形式輸出。OCR技術(shù)在過去僅用于一些專門領(lǐng)域。隨著個人計算機性能的提高,現(xiàn)在市場上已經(jīng)可以買到低價值的通用OCR軟件。這些軟件通過版面分析技術(shù)來實現(xiàn)高精度的文字識別。圖10.3.1所示為一般的文字圖像處理流程圖。本節(jié)對通用OCR算法進行簡要說明。10.3OCR文字識別技術(shù)

圖10.3.1文字圖像處理流程10.3.1版面分析法

OCR先從文本中按行提取出文字序列,接下來再對其進行文字識別處理,最后按照文字的行序輸出文字編碼。在一般的文本中,除了文字以外,還有圖、表、公式等內(nèi)容,要求將各文字行從這些內(nèi)容中分離出來。由于在文字行中包含有正文、注音文字、腳注、圖表標題、題目、頁碼等屬性不同的文字,所以應(yīng)根據(jù)文字的屬性得到正確的文字行。提取包含在文本中的各要素并進行解釋的過程稱為版面分析。版面分析一般包括以下幾類。

1.圖像的輸入

文字圖像一般由圖像掃描儀輸入。分辨率可以按輸入對象的不同進行調(diào)整,其通常范圍為200~400dpi。圖像掃描儀都帶有二值化功能,可以很方便地進行圖像二值化。

2.文字區(qū)域的提取

輸入的文本限定在輸入圖像中的一部分,所以需要去除其周圍的非文字部分,限定文字區(qū)域。用邊界跟蹤法和貼標簽法將包圍黑色像素的矩形區(qū)域提取出來,檢測輸入的文本是否有傾斜。傾斜的檢測方法是對于文本圖像的某一局部區(qū)域,在某一角度方向上將黑色像素進行投影并統(tǒng)計其分布h(i),分布起伏的大小可用∑(h(i)-h(huán)(i-1))2

或h(i)的方差來衡量。按1°的間隔在±5°的范圍內(nèi)觀測該起伏量,將觀察值進行插值處理后求其最大值。據(jù)此可以估計出該最大值對應(yīng)的方向即為文字序列的正確方向。最后對圖像旋轉(zhuǎn)可實現(xiàn)傾斜的校正。3.區(qū)域分割

區(qū)域分割是指將文字圖像分割為幾個相對獨立的部分。文本的構(gòu)成要素中既有圖表、照片這種占有較大面積的部分,也有由文字集合組成的文字行部分。

1)圖表、照片的提取

在文本圖像中,先找出包圍各連接成分的最小矩形區(qū)域,大面積矩形對應(yīng)的部分是圖表或照片區(qū)域。將這些大面積區(qū)域從圖像中消除之后,剩下的便是由文字構(gòu)成的矩形群。對提取出的大面積矩形進行圖、表、照片的判斷時,利用矩形內(nèi)黑色像素所占面積的比率,連續(xù)的黑色像素的長度(黑線段)、白色像素的長度(白線段)的直方圖等統(tǒng)計判別方法進行區(qū)分。

2)文字行的提取

文字行的提取通常采用的是合并方式和分割方式。所謂合并方式,是指當(dāng)黑色像素塊與塊之間的空白部分(白線段長)小于某一指定閾值時,將這些白色像素用黑色像素來替代,將近鄰的連接黑色像素塊進行合并,由此生成文字行的方式。分割方式是利用格線或空白帶求分割點,對文字反復(fù)進行二次分割的方法。

對于提取出的各文字行,由行的起始位置、結(jié)束位置、行幅、行間距等行屬性來確定出行屬性集合,形成一個行塊。由各行塊的位置決定各個行的順序。

另外,為了使文字行的提取更具有一般性,要求它也能處理縱排的文本、橫排的文本以及縱橫混排的文本。對于縱排文本,可將其旋轉(zhuǎn)90°,按橫排文本處理得到各文字行。

4.文字區(qū)域的分割與文字識別

求得文字行后,需要將其中的每個文字區(qū)域一個一個地分割提取出來并對其進行文字識別。通常,文字區(qū)域的提取與文字識別分別屬于不同的處理,但是由于文字區(qū)域的提取處理本身很難判定其結(jié)果的正確性,所以通常是利用文字識別的評價值來判斷單個文字區(qū)域分割的正確性。

5.區(qū)域解釋

區(qū)域解釋是指利用生成的各對象的關(guān)系結(jié)構(gòu)和文字識別的結(jié)果,對同一處理對象賦予屬性的過程。例如,文本由標題、作者、所屬、正文、圖、頁碼等邏輯要素構(gòu)成,把文本作為一個整體來看時,需要找出這些邏輯要素與各對象之間的對應(yīng)關(guān)系。該方法的設(shè)計思想是:先將邏輯要素的特征作為知識存儲起來,再將其與觀測到的特性進行匹配比較,如果一個對象區(qū)域與多個要素都有關(guān)系,則需要利用邏輯要素的關(guān)系結(jié)構(gòu)去除其中具有矛盾關(guān)系的部分。10.3.2文字識別技術(shù)

文字識別的思想始于20世紀30年代左右,其依據(jù)的原理就是模板匹配,因為當(dāng)時還沒有計算機,所以無法具體實現(xiàn)。從1970年左右開始,隨著計算機的小型化和高性能化的發(fā)展,計算機在研究所和大學(xué)實驗室得到普及,到20世紀80年代,文字識別技術(shù)得到了廣泛的研究。這期間發(fā)表的研究論文在模式識別研究領(lǐng)域中所占的比重很大。歐美等使用羅馬字母的國家,文字種類少,對印刷文字的識別顯得容易些。漢字是歷史悠久的中華民族文化的重要結(jié)晶,閃爍著中國人民智慧的光芒。漢字數(shù)量眾多,僅清朝編纂的《康踝值洹肪桶49000多個漢字,其數(shù)量之大,構(gòu)思之精,為世界文明史所僅有。

由于漢字為非字母化、非拼音化的文字,所以漢字識別問題屬于超多類模式集合的分類問題。漢字識別技術(shù)可以分為印刷體識別及手寫體識別技術(shù)。而手寫體識別又可以分為聯(lián)機與脫機兩種,這種劃分方法可以用圖10.3.2來表示。

圖10.3.2文字識別的分類從識別技術(shù)的難度來說,手寫體識別的難度高于印刷體識別。在手寫體識別中,脫機手寫體識別的難度又遠遠超過了聯(lián)機手寫體識別。到目前為止,除了脫機手寫體數(shù)字的識別已有實際應(yīng)用外,漢字等文字的脫機手寫體識別還處在實驗室階段。聯(lián)機手寫體的輸入,是依靠電磁式或壓電式等手寫輸入板來完成的。20世紀90年代以來,聯(lián)機手寫體的識別正逐步走向?qū)嵱?,方興未艾。中國大陸及臺灣地區(qū)的科研工作者推出了多個聯(lián)機手寫體漢字識別系統(tǒng),國外的一些大公司也開始進入這一市場。與手寫體識別相比,印刷體漢字識別已經(jīng)實用化,而且在向更高的性能、更完善的用戶界面的方向發(fā)展。

文字識別系統(tǒng)很多,文字識別的大致步驟包括文字圖像的預(yù)處理、特征提取和分類。

1.文字圖像的預(yù)處理

在版面分析基礎(chǔ)上,分割出的單個文字所構(gòu)成的文字圖像為二值圖像,需對其進行尺寸的規(guī)格化處理和細線化處理等預(yù)處理。尺寸的規(guī)格化處理時,常將一個文字規(guī)格化為32×32~64×64的圖像。細線化處理是為了提取構(gòu)成文字線的像素特征。所謂像素特征是指端點、文字線上的端點、分支點、交叉點等,可根據(jù)像素的連接數(shù)來判斷。另外,由細線化處理后的圖像中也能提取出線段的方向。

2.文字圖像的特征提取

特征提取的目的是從圖像中提取出有關(guān)文字種類的信息,濾掉不必要的信息。特征提取方法雖然很多,但常用網(wǎng)格特征提取、周邊特征提取和方向特征提取三種方法。當(dāng)手寫文字作為識別對象時,采用文字線方向特征、線密度特征等提取方法。另外,還有注重背景而不是文字線的構(gòu)造集成特征的提取方法。

3.識別

識別方法是整個系統(tǒng)的核心。識別漢字的方法可以大致分為結(jié)構(gòu)模式識別、統(tǒng)計模式識別及二者的結(jié)合。

1)結(jié)構(gòu)模式識別法

漢字是一種特殊的模式,其結(jié)構(gòu)雖然比較復(fù)雜,但具有相當(dāng)嚴格的規(guī)律性。漢字圖形含有豐富的結(jié)構(gòu)信息,可以設(shè)法提取結(jié)構(gòu)特征及其組字規(guī)律,作為識別漢字的依據(jù)。這就是結(jié)構(gòu)模式識別。

結(jié)構(gòu)模式識別是早期漢字識別研究的主要方法,其主要出發(fā)點是依據(jù)漢字的組成結(jié)構(gòu)。從漢字的構(gòu)成上講,漢字是由筆畫(點、橫、豎、撇、捺等)、偏旁部首構(gòu)成的;還可以認為漢字是由更小的結(jié)構(gòu)基元構(gòu)成的。由這些結(jié)構(gòu)基元及其相互關(guān)系完全可以精確地對漢字加以描述,這在理論上是比較恰當(dāng)?shù)摹=Y(jié)構(gòu)模式識別的主要優(yōu)點在于對字體變化的適應(yīng)性強,區(qū)分相似字能力強。但它抗干擾能力差,因為實際得到的文本圖像中存在著各種干擾,如傾斜、扭曲、斷裂、粘連、紙張上的污點和對比度差等。這些因素直接影響到結(jié)構(gòu)基元的提取,假如結(jié)構(gòu)基元不能準確地得到,后面的推理過程就成了無源之水。此外,結(jié)構(gòu)模式識別的描述比較復(fù)雜,匹配過程的復(fù)雜度因而也較高。所以在印刷體漢字識別領(lǐng)域中,純結(jié)構(gòu)模式識別方法已經(jīng)逐漸衰落,該方法正日益受到挑戰(zhàn)。

2)統(tǒng)計模式識別

統(tǒng)計決策論發(fā)展較早,理論也較成熟。其要點是提取待識別模式的一組統(tǒng)計特征,然后按照由一定準則確定的決策函數(shù)進行分類判決。常用于文字識別的統(tǒng)計模式識別方法有以下幾種:

(1)模板匹配:模板匹配以字符的圖像作為特征,與字典中的模板比較,相似度最高的模板即為識別結(jié)果。這種方法簡單易行,可以并行處理。但是一個模板只能識別同樣大小、同種字體的字符,對于傾斜、粗細等均無良好的適應(yīng)能力。

(2)特征變換法:對字符圖像進行二進制變換(如Walsh、Hardama變換)或更復(fù)雜的變換(如K-L、Fourier、Cosine、Slant變換等),變換后的特征的維數(shù)大大降低。但是這些變換不是旋不變的,因此對于傾斜變形的字符的識別會有較大的偏差。二進制變換的計算雖然簡單,但變換后的特征沒有明顯的物理意義。K-L變換雖然從最小均方誤差角度來說是最佳的,但是運算量太大,難以實用。總之,變換持征的運算復(fù)雜度較高。

(3)投影直方圖法:利用字符圖像在水平及垂直方向的投影作為特征進行文字識別。該方法對傾斜旋轉(zhuǎn)非常敏感,細分能力差。

(4)幾何矩特征識別法:M.K.Hu提出利用矩不變量作為特征的想法,引起了研究矩的熱潮。研究人員又確定了數(shù)十個位移不變、比例不變的矩。人們總希望找到穩(wěn)定可靠的、對各種干擾適應(yīng)能力很的特征,在幾何矩方面的研究正反映了這一愿望。以上所涉及到的幾何矩均在線性中變換保持不變,但在實際環(huán)境中,很難保證線性變換這一前提條件。

(5)Spline曲線近似與傅立葉描述子法:這兩種方法都是針對字符圖像輪廓的。Spline曲線近似是在輪廓上找到曲率大的折點,用Spline曲線來近似相鄰折點之間的輪廓線;而傅立葉描述子則是利用傅立葉級數(shù)模擬封閉的輪廓線,將傅立葉級數(shù)的各個系數(shù)作為特征。前者對于旋轉(zhuǎn)很敏感;后者對于輪廓線不封閉的字符不適用,因此很難用于筆畫斷裂的字符的識別。

(6)筆畫密度特征法:字符圖像某一特定范圍的筆畫密度是在該范圍內(nèi),掃描線沿水平、垂直或?qū)蔷€方向掃描時的穿透次數(shù)。這種特征描述了漢字的各部分筆畫的疏密程度,提供了比較完整的信息。在圖像質(zhì)量可以保證的情況下,這種特征相當(dāng)穩(wěn)定。在脫機手寫體的識別中也經(jīng)常用到這種方法,但是在字符內(nèi)部筆畫粘連時誤差較大。

(7)外圍特征法:漢字的輪廓包含了豐富的特征,即使在字符內(nèi)部筆畫粘連的情況下也是比較完整的。這種特征非常適合于作為粗分類的特征。

(8)基于微結(jié)構(gòu)特征的方法:這種方法的出發(fā)點在于漢字是由筆畫組成的,而筆畫是由一定方向、一定位置關(guān)系與長寬比的矩形段組成的。這些矩形段稱為微結(jié)構(gòu)。利用微結(jié)構(gòu)及微結(jié)構(gòu)之間的關(guān)系組成的特征對漢字進行識別,尤其是對于多體漢字的識別,獲得了良好的效果。其不足之處是在內(nèi)部筆畫粘連時,微結(jié)構(gòu)的提取會遇到困難。

當(dāng)然還有許多統(tǒng)計特征識別法,諸如圖描述法、包含配選法、脫殼透視法、差筆畫法等。統(tǒng)計特征識別法的優(yōu)點是抗干擾性強、算法簡單、易于實現(xiàn);不足之處在于細分能力弱,區(qū)分相似字的能力差一些。

3)統(tǒng)計識別與結(jié)構(gòu)識別的結(jié)合

結(jié)構(gòu)模式識別與統(tǒng)計模式識別各有優(yōu)缺點,這兩種方法正在逐漸融合。網(wǎng)格化特征就是這種結(jié)合的產(chǎn)物。字符圖像被均勻地或非均勻地劃分為若干區(qū)域,這些區(qū)域稱為“網(wǎng)格”。在每一個網(wǎng)格內(nèi)尋找各種特征,如筆畫點與背景點的比例,交叉點、筆畫端點的個數(shù),細化后的筆畫的長度、網(wǎng)格部分的筆畫密度等。特征的統(tǒng)計以網(wǎng)格為單位,即使個別點的統(tǒng)計有誤差也不會造成大的影響,增強了特征的抗干擾性。這種方法正得到日益廣泛的應(yīng)用。

4)人工神經(jīng)網(wǎng)絡(luò)

在英文字母與數(shù)字的識別等類別數(shù)目較少的分類問題中,常常將字符的圖像點陣直接作為神經(jīng)網(wǎng)絡(luò)的輸入。不同于傳統(tǒng)的模式識別方法,神經(jīng)網(wǎng)絡(luò)所“提取”的特征并無明顯的物理含義,而是儲存在各個神經(jīng)元的連接之中,省去了由人來決定特征提取的方法與實現(xiàn)過程。從這個意義上來說,人工神經(jīng)網(wǎng)絡(luò)提供了一種“字符自動識別”的可能性。此外,人工神經(jīng)網(wǎng)絡(luò)分類器是一種非線性的分類器,它可以提供很難想象得到的復(fù)雜的類間分界面,這也為復(fù)雜分類問題的解決提供了一種可能的解決方式。10.3.3數(shù)字識別示例

下面以識別數(shù)字0~9為例,給出一種具體的識別方法。識別過程包括數(shù)字圖像預(yù)處理、數(shù)字端點數(shù)提取、數(shù)字編碼和識別四個階段。

1.數(shù)字圖像預(yù)處理

1)圖像的灰度化

手寫體數(shù)字圖像主要是通過掃描儀或攝像機等工具對紙張上的數(shù)字進行數(shù)據(jù)采集,在計算機中成為一幅圖像。在圖像預(yù)處理中,人們只關(guān)心筆畫,而不關(guān)心色彩,因此先要對讀入的圖像進行灰度化處理。

2)圖像的二值化

對數(shù)字字符圖像二值化后要能忠實地再現(xiàn)原數(shù)字,其基本要求為:筆畫中不出現(xiàn)空白點,二值化的筆畫基本保持原來文字的結(jié)構(gòu)特征。圖像二值化的關(guān)鍵在于閾值的選擇。圖像的二值化有很多成熟的算法,有整體閾值二值化法、局部閾值二值化法、動態(tài)閾值二值化法等。給定整體閾值法對誆煌的樣本圖橡要根據(jù)實際情況來設(shè)定閾值。因為所采集的樣本大部分底色都是白色,所以要將閾值定得大一些。圖10.3.3所示為圖像二值化前后的效果。

圖10.3.3圖像二值化前后的效果

3)平滑去噪

圖像在掃描的過程中有可能產(chǎn)生噪聲,這會給以后的工作帶來很多不便。因此,在處理圖像的時候就要盡量去除圖像中夾帶的噪聲。平滑的目的在于除去孤立的噪聲點、填充前景區(qū)域中的孤立白點、填充字符邊緣線上的凹陷或刪除其中小的凸起,以利于后續(xù)算法的進行。

4)字符分割

預(yù)處理中人們只關(guān)心字符圖像中的圖形,其他的部分對識別是沒有用的,而且圖像中一般會含有多個數(shù)字,識別的時候只能根據(jù)每個數(shù)字的特征單獨進行判別,因此需要對圖像進行字符分割,把圖像中的字符獨立地分割出來。主要是確定待分割的字符圖像位置,以矩形區(qū)域分割。分割字符時,首先自下向上對圖像進行逐行掃描,直至遇到第一個黑色的像素點,將它記錄下來,再由上向下對圖像進行逐行掃描,直至找到第一個黑色像素點,這樣就找到圖像大致的高度范圍。然后在這個高度范圍之內(nèi)再自左向右逐列進行掃描,遇到第一個黑色像素點時認為是字符分割的起始位置,再繼續(xù)掃描,直至遇到有一列中沒有黑色像素點,則認為這個字符分割結(jié)束,再次繼續(xù)掃描,直到掃描到圖像的最右端。這樣就得到了每個字符的比較精確的寬度范圍。最后在已知的每個字符比較精確的寬度范圍內(nèi),按照上述方法分別進行自上而下和自下而上的逐行掃描來獲取每個字符精確的高度范圍。

書寫時一行中每個字符的書寫位置有高有低,這樣在進行字符分割后,得到的單個字符會位于一個較大的矩形框中,如圖10.3.4所示。

圖10.3.4字符分割

5)圖像的歸一化處理

歸一化是預(yù)處理中非常重要的一環(huán),由于原始圖像在大小方面存在著很大的差異,因此必須進行歸一化處理,使其具有相同的大小(如32×32的圖像),這樣有利于減少網(wǎng)絡(luò)訓(xùn)練的時間,提高識別的準確率。標準的字符圖像就是把原來各不相同的字符統(tǒng)一到同一高度和寬度。歸一化有兩種方法,重心歸一化和外框歸一化,圖10.3.5采用的是外框歸一化,就是將字符外界邊框按比例線性放大或縮小成為規(guī)定尺寸的字符。要歸一化,首先要把原來字符的高度和寬度與要歸一化的高度和寬度做比較,得出變換系數(shù),然后把標準圖像中的點按照插值的方法映射到原圖像中。

圖10.3.5字符圖像歸一化前后

6)圖像的細化

在識別中只關(guān)注手寫數(shù)字圖形中的線型及線之間的組織關(guān)系,而不關(guān)心線的粗細。相同數(shù)字的幾幅圖像由于它們的筆畫線條的粗細不同,使得它們的差別很大,將它們的筆畫線條進行細化以后,統(tǒng)一到相同的寬度,如一個像素寬度時,這些圖像的差距就不那么明顯,容易提取字符的骨架特征,可以提高字符識別的效率和正確率。

2.數(shù)字端點數(shù)提取

像素為端點的條件是在其八鄰域中白色像素的個數(shù)只有一個。計算數(shù)字滿足端點條件的像素個數(shù)即為該數(shù)字的端點數(shù)。端點數(shù)為0的數(shù)字包括0、8;端點數(shù)為1的數(shù)字包括6、9;端點數(shù)為2的數(shù)字包括1、2、3、4、5和7。

3.數(shù)字編碼

數(shù)字的編碼采用方向鏈碼表示方法。數(shù)字編碼的起始點為從上向下掃描時最先遇到的端點。對于沒有端點的數(shù)字(0,8),以最上面的像素作為起始點。編碼后的數(shù)字在后續(xù)的識別階段用來與事先準備好的局部模式進行匹配。

4.識別

將經(jīng)過編碼的數(shù)字與事先存儲好的局部模式進行匹配,就可確定出該編碼數(shù)字對應(yīng)的數(shù)字。

目前用于數(shù)字識別的方法主要有基于矩特征的方法、協(xié)同學(xué)方法、神經(jīng)網(wǎng)絡(luò)方法、分形理論以及基于模型匹配的識別方法等,前者在提取數(shù)字圖像矩特征的基礎(chǔ)上利用神經(jīng)網(wǎng)絡(luò)、D-S證據(jù)理論等方法對數(shù)字進行識別。這些方法在一定的應(yīng)用范圍和應(yīng)用條件下,均取得了不錯的效果。

生物統(tǒng)計的識別系統(tǒng)在一些應(yīng)用中也是很有用的,例如商務(wù)和執(zhí)法應(yīng)用,特別是在犯罪識別、安全系統(tǒng)、可視電話、信用卡驗證、用于個人識別的身份證照片等方面。人臉表達了我們視覺系統(tǒng)每天遇到的一些最普通的生物統(tǒng)計模式。在常見的人臉識別中主要的策略是基于特征或人臉空間的,例如特征臉或Fisher臉。10.4人臉識別10.4.1使用特征臉的人臉識別

人臉識別特征臉(eigenface)表示方法依據(jù)主分量分析。其主要思想是將人臉圖像分解為特征臉集合(描述特征圖像小的集合),特征臉集合是原始圖像的主要成分。這些特征臉的函數(shù)作為線性子空間的正交集向量,稱為人臉空間(facespace)。人臉識別策略包括投影新的人臉圖像到人臉空間,然后在人臉空間中與已知人臉比較它的位置。在這個方法中,面部圖像的模式圖像訓(xùn)練集轉(zhuǎn)換成向量M×N×K,這里M×N是圖像的大小,K是訓(xùn)練樣本數(shù)。這個M×N維的空間確實非常大,在試圖進行人臉識別之前,降低這個空間的維數(shù)是很重要的。主分量分析(PrincipalComponentAnalysis,PCA)和線性判別式分析(LinearDiscriminantAnalysis,LDA)是降低這種大維數(shù)的兩種普遍方法。

圖10.4.1所示為AT&T劍橋?qū)嶒炇?AT&TLaboratoriesCambridge)的ORL人臉庫(http://www.cl.cam.ac.uk/Research/DTG/attarchive/facedatabase.html)。該標準人臉庫由40個人的400幅灰度圖像構(gòu)成。其中,每人10幅圖像,分別用自然數(shù)1~10標識。圖像格式為PGM,分辨率是92×112。

圖10.4.1ORL人臉庫圖像示例

PCA的基本原理是映射所有

M×N維人臉樣本xi,i={1,…,k},對單值向量yi而言,i={1,…,n},yi表示xi,即

yi=wTxi (10.4.1)

其中,xi表示人臉,w是表示尺度的權(quán)重向量。目標函數(shù)是變化的最大化,即

(10.4.2)

其中,

(10.4.3)

權(quán)重向量集w1,…,wk(k<MN)表示協(xié)方差矩陣的特征向量(eigenvector),根據(jù)樣本人臉集計算。這就意味著只需要選擇幾個特征向量對應(yīng)于主特征值,因此能降低面部特征的維數(shù)。

對于準確的人臉識別系統(tǒng),準確性應(yīng)該是相當(dāng)高的,并且測試人臉圖像的處理時間應(yīng)該很短。識別系統(tǒng)應(yīng)該不受頭的旋轉(zhuǎn)和平移以及照明強度的影響。10.4.2使用Fisher臉的人臉識別

Fisher臉的技術(shù)也使用特征臉和彈性分支圖匹配的線性投影概念。Fisher臉使用Fisher線性判別式函數(shù)分析(FisherLinearDiscriminantFunction,F(xiàn)LDF)生成線性離散空間,提高了人臉模式分類的準確性。

當(dāng)使用Fisher臉的方法時,人臉模式訓(xùn)練不僅包括單一人臉,還包括人臉模式的各種各樣的表情。讓第i個人臉類有ni個不同表情的樣本,而m(i)表示第i類的ni樣本的平均特征向量。在這種情況下目標函數(shù)最大化是

(10.4.4)

式中,SB是類之間的散射矩陣,為

(10.4.5)

而SW是類內(nèi)的散射矩陣,為

(10.4.6)

在式(10.4.4)~式(10.4.6)中,

m表示樣本平均向量,ni是在第i類中的樣本數(shù),

表示第i個人臉的第j個表情,W是投影矩陣。

當(dāng)使屬于同一個人的人臉圖像之間的距離減到最小時,目標函數(shù)JF試圖最大化屬于不同人的人臉圖像之間的歐幾里德距離。最大化JF產(chǎn)生投影矩陣W的列向量的投影方向。當(dāng)W列向量是

的特征向量時,目標函數(shù)JF最大化。值得注意的是,如果樣本空間的維數(shù)比在訓(xùn)練集中的樣本數(shù)大,則SW是奇異的,不存在逆。一些策略已經(jīng)試圖考慮這種情況。

PCA和LDA可保存人臉空間的全局結(jié)構(gòu),但是與特征臉相比,F(xiàn)isher臉的方法有更好的識別能力。

表10.4.1所示為“PCA特征臉(Eigface)+最小距離分類器”、“PCA特征臉(Eigface)+最近鄰分類器(NN)”、“小波變換(WT)+最小距離分類器”和“小波變換(WT)+最近鄰分類器(NN)”四種人臉識別算法相比較的實驗結(jié)果。WT+最小距離分類器和WT+NN方法均采用二維小波一級分解的低頻系數(shù)(8×8)作為分類器的輸入。Eigface+最小距離分類器和Eigface+NN中的特征臉維數(shù)為64。所有分類器均按列向讀取樣本圖像。表10.4.1通過10組比較實驗獲得,每組實驗的訓(xùn)練集均由200幅圖像構(gòu)成,每人5幅,其余的200幅用于測試。10組實驗訓(xùn)練集的選取方法是:將各類的10幅圖像按標識順序排序,并首尾銜接,即1,2,…,10,1,…。從標識為“i”的樣本起順次取5個樣本,i=1,…,10。10組訓(xùn)練集的相應(yīng)標識分別為{1,2,3,4,5},{2,3,4,5,6},…,{6,7,8,9,10},{7,8,9,10,1},{8,9,10,1,2},…,{10,1,2,3,4}。對比10組實驗的識別率及其平均識別率,可見現(xiàn)有算法已具有良好的人臉識別能力。

表10.4.1人臉識別對比實驗結(jié)果

生物醫(yī)療圖像處理可大致分為顯微圖像分析和宏觀圖像分析。10.5生物醫(yī)學(xué)圖像分析10.5.1顯微圖像分析

顯微圖像分析主要研究生物體。生物體指用顯微鏡可以看見的小物體,它對于理解生物和醫(yī)療科學(xué)非常重要。

數(shù)字圖像處理技術(shù)廣泛地用于增強顯微圖像的清晰度。一些技術(shù),像直方圖處理、圖像濾波等已經(jīng)廣泛用于得到關(guān)于生物有機體的定量和形態(tài)度量的信息。

圖像處理技術(shù)也已經(jīng)用于在血細胞中自動化規(guī)范化地診斷測試、歷史樣本子宮頸涂片檢查、染色體準備和染色體分析以及其他類型的顯微圖像中。

圖10.5.1所示為腎組織切片圖像的處理與識別。通過圖像分割技術(shù),獲得腎小球區(qū)域的邊界(閉合),最終對所提取出的腎小球內(nèi)部的細胞核進行定性與定量分析。

圖10.5.1腎組織切片圖像的處理與識別10.5.2宏觀圖像分析

宏觀圖像分析研究人體器官的圖像,例如心臟、大腦、眼睛等。而數(shù)字圖像處理的一些技術(shù),如圖像過濾、形狀建模、分割、分類和解譯技術(shù)等,已經(jīng)廣泛用于診斷放射科、心臟病學(xué)、牙科和許多其他領(lǐng)域。

醫(yī)療圖像工程學(xué)中使用到的技術(shù)包括計算機輔助常規(guī)造影、時變圖像、固定式非侵入性圖像、X線斷層照片重建、X光計算X線斷層照片、正電子放射X線電層照片、MRI、容量圖像重建、核成像、超聲波成像、腦電圖等。

這里簡要地介紹一些重要的生物醫(yī)學(xué)成像技術(shù)。10.6生物醫(yī)學(xué)成像模態(tài)10.6.1計算機斷層掃描成像

自20世紀70年代初第一臺電子計算機斷層掃描裝置問世以來,成像技術(shù)發(fā)展得異常迅速,設(shè)備不斷更新。以醫(yī)學(xué)成像為例,已實現(xiàn)了重大的突破。臟器清晰圖像的獲得,把生化病理研究推向分子結(jié)構(gòu)的水平,使醫(yī)學(xué)步入了斷層顯像的新時代。計算機斷層掃描和圖像重建技術(shù),是在不破壞物體的情況下,將物體每一個斷層面上的結(jié)構(gòu)和組分的分布情況顯示出來的一種實驗方法,它是利用計算機圖像重建的方法來得到物體內(nèi)部情況的。圖10.6.1是經(jīng)彩色計算機斷層掃描成像(CT)系統(tǒng)完成的人體肺部的肺、肌肉、骨骼等多器官三維成像圖。

圖10.6.1肺部多器官三維成像計算機斷層掃描成像技術(shù)應(yīng)用X光攝影的基本原理,根據(jù)物體表面障礙物的類型,發(fā)送不同強度的X光光束,再根據(jù)相應(yīng)獲取的映像對物體特征進行描述,并以切片形式進行成像。

由于CT為3D重建提供了對象的大量透視圖,使基于系統(tǒng)組織的計算機可以執(zhí)行高質(zhì)量的3D圖像處理,從而為診斷目標做出了突出貢獻。

同時,由于采用了基于數(shù)據(jù)采集和快速并行處理算法的微處理器,與其他成像技術(shù)相比,CT還具有不可比擬的速度優(yōu)勢。

CT廣泛使用在器官的成像中,一般用于大腦、肺、腎臟、肝臟、胰腺、骨盆和血管等的成像,還可用于結(jié)腸或支氣管仿真內(nèi)窺鏡。隨著成像技術(shù)的逐漸改善,CT也已應(yīng)用在癌癥檢測和心臟病、中風(fēng)等的診斷中。

除廣泛應(yīng)用于臨床診斷和生命科學(xué)、材料科學(xué)外,目前CT在工業(yè)和交通等方面也有重要的應(yīng)用,例如在線實時無損檢測工業(yè)CT等。10.6.2磁共振成像

磁共振成像(MRI)利用線斷層照片成像技術(shù)并以切片的形式獲得圖像。1946年,著名的物理學(xué)家Bloch和Purcell首先構(gòu)思了MRI的概念,即一種先進的堵塞成像技術(shù)類型。因為人體中不同的器官、組織中含有大量的氫。每個氫核表示一個體素,當(dāng)它們由磁性刺激激發(fā)時,就從這些氫核發(fā)出核磁共振的信號(MRI信號),這些信號可以用于成像,并且圖像像素的強度與對應(yīng)體素的核磁共振信號的強度成比例,因此單獨的組織映射可以積累,從而獲得整個器官的映射。

如今MRI已經(jīng)發(fā)展出各種各樣的技術(shù),例如多切片成像(MultislicedImaging)、傾斜成像(ObliqueImaging)、旋轉(zhuǎn)回波成像(SpinEchoImaging)、反轉(zhuǎn)恢復(fù)(InversionRecovery)、梯度回波成像(GradientRecalledEchoImaging)等,廣泛用于內(nèi)臟成像、腫瘤檢測和其他在脊椎、脖子、大腦中的相關(guān)應(yīng)用。除了能準確成像外,MRI最大的優(yōu)勢還在于在應(yīng)用中它是很安全的。圖10.6.2所示為腦部MRI的圖像。

圖10.6.2腦部MRI的圖像10.6.3核與超聲波成像

在核醫(yī)學(xué)中,放射性材料通常通過靜脈注射(IntravenousInjection,IV)、吞咽或吸氣進入人體。放射性物質(zhì)放射γ射線,被γ照相機捕獲而成像。盡管這些圖像的分辨率很差,但它們圖像化了生理功能,例如能讓人形象地看到新陳代謝的過程。

在超聲波圖像中,超聲波脈沖從安置在患者皮膚上的變換裝置傳播。反向散射的超聲回波信號被記錄下來,用于圖像重建。超聲波通過水進行傳播。囊腫是含水的可變結(jié)構(gòu),它不會發(fā)送任何回波到記錄器,而骨頭、硬化組織和脂肪吸收并反射超聲波射線,產(chǎn)生影區(qū)。因此使用超聲波圖像可以查出在任何一種器官中的囊腫。

圖10.6.3所示的超聲波圖像是由東芝黑白超聲儀SSA-240A采集獲得的,它顯示了正常肝、結(jié)節(jié)性肝癌和彌漫性肝癌的超聲波圖像。

圖10.6.3超聲波圖像

視頻挖掘已成為圖像處理應(yīng)用又一個方興未艾的發(fā)展分支。限于篇幅,這里僅簡要介紹一下視頻挖掘中視頻檢索技術(shù)的基本內(nèi)容。

目前,人們對基于內(nèi)容描述的多媒體數(shù)據(jù)挖掘的需求在不斷增長,內(nèi)容的搜索和檢索也不再限于傳統(tǒng)數(shù)據(jù)庫的檢索,例如在電視演播室經(jīng)常需要找到某個具體的視頻剪輯。在未來,客戶將以不同的形式根據(jù)內(nèi)容描述來檢索視頻剪輯,例如從Internet上檢索和下載視頻剪輯。10.7視頻檢索

為了滿足對視聽內(nèi)容檢索的需求,需要有高效率的解決方案用于搜索、辨別和過濾。正是認識到了這種需求,MPEG(運動圖像專家組)標準委員會在國際標準化組織的支持下進行了多媒體視聽內(nèi)容描述接口標準的制定工作,這些標準將有利于視頻數(shù)據(jù)的有效挖掘。視頻挖掘?qū)⑹菙?shù)據(jù)挖掘研究和發(fā)展的主流活躍領(lǐng)域。這里簡單介紹主要用于多媒體內(nèi)容描述接口以及視頻檢索系統(tǒng)服務(wù)的MPEG-7標準。10.7.1MPEG-7多媒體內(nèi)容描述接口

MPEG-7是一種視頻壓縮標準。MPEG-7的成功將影響圖像和視頻挖掘的未來發(fā)展。該標準及其子標準集可用于描述各種類型的多媒體信息以及不同描述子和它們結(jié)構(gòu)之間的關(guān)系。原則上,這些描述子并不取決于可用的內(nèi)容方式,也不取決于它們的存儲方式或格式。例如,視頻信息可以使用任何壓縮方案進行編碼(MPEG-1、MPEG-2、MPEG-4、JPEG、JPEG2000或其他專用的算法)或采用源格式(沒有經(jīng)過任何壓縮與編碼)。在MPEG-7中,視聽數(shù)據(jù)描述了圖片、圖表、視頻、音頻、三維模型和關(guān)于這些數(shù)據(jù)元素在多媒體表示中是如何結(jié)合在一起的信息。為此,MPEG-7標準引入了如下元素。

(1)描述子集(asetofdescription):描述子是特征的表示,例如顏色、形狀、紋理、圖像、拓撲結(jié)構(gòu)、運動或一些標題的命名等。描述子定義了特征表示的句法和語義。

(2)描述方案集(asetofdescriptionschemes):描述方案指定分量之間的關(guān)系結(jié)構(gòu)和語義。

(3)用于描述子的編碼方案集(asetofcodingscheme)。

(4)描述定義語言(adescriptiondefinitionlanguage,DDL):指定描述

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論