文字識別 PPT.ppt_第1頁
文字識別 PPT.ppt_第2頁
文字識別 PPT.ppt_第3頁
文字識別 PPT.ppt_第4頁
文字識別 PPT.ppt_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

圖像工程 文字識別技術 簡介 文字識別一般包括文字信息的采集 信息的分析與處理 信息的分類判別等幾個部分 信息采集將紙面上的文字灰度變換成電信號 輸入到計算機中去 信息采集由文字識別機中的送紙機構和光電變換裝置來實現(xiàn) 有飛點掃描 攝像機 光敏元件和激光掃描等光電變換裝置 信息分析和處理對變換后的電信號消除各種由于印刷質(zhì)量 紙質(zhì) 均勻性 污點等 或書寫工具等因素所造成的噪音和干擾 進行大小 偏轉(zhuǎn) 濃淡 粗細等各種正規(guī)化處理 信息的分類判別對去掉噪聲并正規(guī)化后的文字信息進行分類判別 以輸出識別結果 識別方法 模板匹配法將輸入的文字與給定的各類別標準文字 模板 進行相關匹配 計算輸入文字與各模板之間的相似性程度 取相似度最大的類別作為識別結果 這種方法的缺點是當被識別類別數(shù)增加時 標準文字模板的數(shù)量也隨之增加 這一方面會增加機器的存儲容量 另一方面也會降低識別的正確率 所以這種方式適用于識別固定字型的印刷體文字 這種方法的優(yōu)點是用整個文字進行相似度計算 所以對文字的缺損 邊緣噪聲等具有較強的適應能力 幾何特征抽取法抽取文字的一些幾何特征 如文字的端點 分叉點 凹凸部分以及水平 垂直 傾斜等各方向的線段 閉合環(huán)路等 根據(jù)這些特征的位置和相互關系進行邏輯組合判斷 獲得識別結果 這種識別方式由于利用結構信息 也適用于手寫體文字那樣變型較大的文字 模板匹配的流程 建立標準模板庫文字識別文字分割特征提取相似度比較模板比較和識別方法遇到未知字符則更新模板庫 標準模板庫 確定標準圖像待識別圖像的比較分辨率100 120 文字讀入與分割 1 讀入圖像并轉(zhuǎn)換為灰度圖將灰度圖進行二值化 文字讀入與分割 2 對列求和 若為0則可以作為分割線橫向求和 去除上下的黑邊 文字讀入與分割 3 執(zhí)行了分割對分割后圖片使用matlab內(nèi)置的imresize函數(shù)進行標準化 模板比較和識別 將輸入圖像與標準模板異或操作每個像素點的分量相加結果越小則匹配相似度越高 模板庫的更新 異或結果均得到較大值時經(jīng)過一定實驗得到了一個經(jīng)驗值4000如果和所有模板的結果都超過4000 則認為匹配失敗 需要更新 運行結果1 輸入了8個字母 其中X不在模板庫之中 運行結果2 X沒有識別出來 添加X的模板之后重新識別 能夠識別出來 局限性與不足 筆畫太細會造成無法識別有偏角和過于潦草的字無法識別相似度太大的字母無法識

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論