




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1 ocr簡(jiǎn)介ocr是英文optical character recognition的縮寫(xiě),意思是光學(xué)字符識(shí)別,也可簡(jiǎn)單地稱(chēng)為文字識(shí)別,是文字自動(dòng)輸入的一種方法。它通過(guò)掃描和攝像等光學(xué)輸入方式獲取紙張上的文字圖像信息,利用各種模式識(shí)別算法分析文字形態(tài)特征,判斷出漢字的標(biāo)準(zhǔn)編碼,并按通用格式存儲(chǔ)在文本文件中,從根本上改變了人們對(duì)計(jì)算機(jī)漢字人工編碼錄入的概念。使人們從繁重的鍵盤(pán)錄入漢字的勞動(dòng)中解脫出來(lái)。只要用掃描儀將整頁(yè)文本圖像輸入到計(jì)算機(jī),就能通過(guò)ocr軟件自動(dòng)產(chǎn)生漢字文本文件,這與人手工鍵入的漢字效果是一樣的,但速度比手工快幾十倍。比如用手機(jī)給名片拍照,名片中的姓名、電話號(hào)碼等信息就會(huì)自動(dòng)識(shí)別
2、進(jìn)入到手機(jī)中,從此查詢(xún)、撥打輕而易舉。目前支持該功能的手機(jī)主要有摩托羅拉a1200、索愛(ài)p990和lg g832等。所以,ocr是一種非??旖?、省力的文字輸入方式,也是在文字量比較大的今天,很受人們歡迎的一種輸入方式。2 ocr的發(fā)展概況20世紀(jì)70年代初,日本的學(xué)者開(kāi)始研究漢字識(shí)別,并做了大量的工作。我國(guó)研究漢字識(shí)別的起步比較晚,20世紀(jì)70年代末才開(kāi)始進(jìn)行ocr的研究工作。早期的ocr軟件,由于識(shí)別率及產(chǎn)品化等多方面的因素,未能達(dá)到實(shí)際要求。同時(shí),由于硬件設(shè)備成本高,運(yùn)行速度慢,也沒(méi)有達(dá)到實(shí)用的程度。只有個(gè)別部門(mén),如信息部門(mén)、新聞出版單位等使用ocr軟件。1986年以后我國(guó)的ocr研究有了
3、很大進(jìn)展,在漢字建模和識(shí)別方法上都有所創(chuàng)新,在系統(tǒng)研制和開(kāi)發(fā)應(yīng)用中都取得了豐碩的成果,不少單位相繼推出了中文ocr產(chǎn)品。進(jìn)入20世紀(jì)90年代以后,隨著平臺(tái)式掃描儀的廣泛應(yīng)用,以及我國(guó)信息自動(dòng)化和辦公自動(dòng)化的普及,大大推動(dòng)了ocr技術(shù)的進(jìn)一步發(fā)展,使ocr的識(shí)別正確率、識(shí)別速度滿(mǎn)足了廣大用戶(hù)的要求。目前,比較流行的ocr軟件很多,英文ocr主要有omnipage,中文ocr主要有清華紫光ocr、清華文通ocr、漢王ocr、中晶尚書(shū)ocr、丹青ocr、蒙恬ocr等。盡管漢字字量大、字形復(fù)雜,但ocr技術(shù)已經(jīng)走向成熟。許多ocr軟件不僅能識(shí)別黑白印刷體漢字,還能識(shí)別灰度和彩色印刷體漢字,識(shí)別速度很快
4、,識(shí)別正確率達(dá)到了99以上;可識(shí)別宋體、黑體、楷體等多種字體的簡(jiǎn)、繁體;可對(duì)多種字體、不同字號(hào)的混排進(jìn)行識(shí)別;有些ocr軟件還能識(shí)別圖像、表格。與此同時(shí),對(duì)于手寫(xiě)體漢字識(shí)別的研究也取得了很大進(jìn)展,正確識(shí)別率已達(dá)到了70以上。3 ocr系統(tǒng)的組成漢字識(shí)別軟件ocr的功能是將各種錄入漢字、印刷體或手寫(xiě)體中每個(gè)漢字的圖形或圖像通過(guò)計(jì)算機(jī)辨認(rèn)出來(lái),并標(biāo)出漢字類(lèi)別代碼。因此,漢字識(shí)別歸根結(jié)底是一個(gè)圖像識(shí)別問(wèn)題。由于漢字信息量很大,具有不同的字形、字體,而且結(jié)構(gòu)復(fù)雜,因此漢字識(shí)別的過(guò)程極其復(fù)雜。由于掃描儀的普及與廣泛應(yīng)用,ocr軟件只需提供與掃描儀的接口,利用掃描儀驅(qū)動(dòng)軟件即可。因此,ocr軟件主要是由圖
5、像處理模塊、版面劃分模塊、文字識(shí)別模塊和文字編輯模塊等4部分組成。1)圖像處理模塊 圖像處理模塊主要具有文稿掃描、圖像縮放、圖像旋轉(zhuǎn)等功能。通過(guò)掃描儀輸入后,文稿形成圖像文件,圖像處理模塊可對(duì)圖像進(jìn)行放大,去除污點(diǎn)和劃痕,如果圖像放置不正,可以手工或自動(dòng)旋轉(zhuǎn)圖像,目的是為文字識(shí)別創(chuàng)造更好的條件,使識(shí)別率更高。2)版面劃分模塊 版面劃分模塊主要包括版面劃分、更改劃分,即對(duì)版面的理解、字切分、歸一化等,可選擇自動(dòng)或手動(dòng)兩種版面劃分方式。目的是告訴ocr軟件將同一版面的文章、表格等分開(kāi),以便于分別處理,并按照怎樣的順序進(jìn)行識(shí)別。3)文字識(shí)別模塊 文字識(shí)別模塊是ocr軟件的核心部分,文字識(shí)別模塊主要對(duì)
6、輸入的漢字進(jìn)行"閱讀",但不能一目多行,必須逐行切割,對(duì)于漢字通常也是一個(gè)字一個(gè)字地辨認(rèn),即單字識(shí)別,再進(jìn)行歸一化。文字識(shí)別模塊通過(guò)對(duì)不同樣本漢字的特征進(jìn)行提取,完成識(shí)別,自動(dòng)查找可疑字,具有前后聯(lián)想等功能。4)文字編輯模塊 文字編輯模塊主要對(duì)ocr識(shí)別后的文字進(jìn)行修改、編輯,如系統(tǒng)識(shí)別認(rèn)為有誤,則文字會(huì)以醒目的紅色或藍(lán)色顯示,并提供相似的文字供選擇,選擇編輯器供輸出等。4 ocr識(shí)別的一般步驟(1)文稿掃描后,剛開(kāi)始出現(xiàn)在視窗中的要識(shí)別的文字畫(huà)面很小,首先選擇"放大"工具,對(duì)畫(huà)面進(jìn)行適當(dāng)放大,以使畫(huà)面看得更清楚。必要時(shí)還可以選擇"縮小&quo
7、t;工具,將畫(huà)面適當(dāng)縮小。(2)如果畫(huà)面需要旋轉(zhuǎn)90°,180°或270°,可使用"旋轉(zhuǎn)圖像"工具旋轉(zhuǎn)圖像。如果文字畫(huà)面傾斜,可選擇"傾斜校正"工具,將畫(huà)面調(diào)正。(3)識(shí)別時(shí)選擇"設(shè)定識(shí)別區(qū)域"工具,在文字畫(huà)面上框出要識(shí)別的區(qū)域,這時(shí)也可根據(jù)畫(huà)面情況框出多個(gè)區(qū)域。如果所框區(qū)域有誤,則可使用"刪除識(shí)別區(qū)域"工具,刪除所選識(shí)別區(qū)域。(4)為了提高識(shí)別率,如果所選識(shí)別區(qū)有雜點(diǎn)或有不能識(shí)別的圖像,則可選擇"擦除圖像雜點(diǎn)"工具,將雜點(diǎn)一點(diǎn)一點(diǎn)地擦除。如果需要成片地擦除,則可選
8、擇"擦拭圖像塊"工具。(5)點(diǎn)擊"識(shí)別"圖標(biāo),則ocr顯示正在進(jìn)行文字切分,然后轉(zhuǎn)入"正在識(shí)別"畫(huà)面,將識(shí)別的文字逐步顯示出來(lái),"文稿校對(duì)"窗口。許多ocr軟件都具有文字修改功能,被識(shí)別出可能有錯(cuò)誤的文字,用比較鮮明的顏色顯示出來(lái),并且可以進(jìn)行修改。(6) 將識(shí)別后的文件存儲(chǔ)成文本(txt)文件或word的rtf文件。 一個(gè)ocr識(shí)別系統(tǒng),其目的很簡(jiǎn)單,只是要把影像作一個(gè)轉(zhuǎn)換,使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字,一律變成計(jì)算機(jī)文字,使能達(dá)到影像資料的儲(chǔ)存量減少、識(shí)別出的文字可再使用及分析,當(dāng)然
9、也可節(jié)省因鍵盤(pán)輸入的人力與時(shí)間。5 ocr技術(shù)的應(yīng)用及其優(yōu)勢(shì) 目前ocr軟件與掃描儀的搭配已應(yīng)用到信息化時(shí)代的多個(gè)領(lǐng)域,如數(shù)字化圖書(shū)館,各種報(bào)表的識(shí)別,以及銀行、稅務(wù)系統(tǒng)票據(jù)的識(shí)別等。隨著網(wǎng)絡(luò)化、信息化的發(fā)展與普及,其應(yīng)用范圍將越來(lái)越廣泛。 無(wú)論是讓計(jì)算機(jī)對(duì)文字進(jìn)行排版輸出,還是要讓計(jì)算機(jī)認(rèn)識(shí)它看到文字,所有這一切都是為我們生活服務(wù)。信息化和數(shù)字化的進(jìn)程,讓我們不再安于用十指敲擊鍵盤(pán)來(lái)輸入數(shù)據(jù)。人們希望能將時(shí)間和精力投入到更具創(chuàng)造性的工作中去,因而希望計(jì)算機(jī)等輔助設(shè)備能更具智慧。ocr技術(shù)就是其中的一項(xiàng),跟打印技術(shù)相對(duì),它是讓計(jì)算機(jī)認(rèn)字的一種技術(shù),這遠(yuǎn)比打印復(fù)雜得多。經(jīng)濟(jì)競(jìng)爭(zhēng)帶來(lái)更多的商務(wù)活動(dòng)
10、,每個(gè)活動(dòng)上名片都是必不可少的主角,名片的管理產(chǎn)品也應(yīng)運(yùn)而生,名片識(shí)別管理工具同樣也是以ocr技術(shù)為核心的產(chǎn)品。通過(guò)名片識(shí)別工具將名片進(jìn)行掃描、識(shí)別、分類(lèi),不僅能夠?qū)胧謾C(jī)、pda等,而且還能為名片信息進(jìn)行備份,不用擔(dān)心遺失。文通e-card就是一款優(yōu)秀的名片識(shí)別管理產(chǎn)品,ocr技術(shù)能把商務(wù)生活打理得有條不紊,節(jié)約更多的時(shí)間。現(xiàn)在,幾乎所有的掃描儀和一體機(jī)上都配裝ocr軟件,比如hp、uniscan、epson、canon、 lenovo等掃描儀廠商捆綁的就是文通th-ocr。 在掃描儀市場(chǎng)上,許多類(lèi)型的辦公和家用掃描儀均配有ocr軟件,如紫光的掃描儀配備了紫光ocr,中晶的掃描儀配備了尚書(shū)o
11、cr,mustek的掃描儀配備了丹青ocr等。掃描儀與ocr軟件共同承擔(dān)著從文稿的輸入到文字識(shí)別的全過(guò)程。 文稿掃描在辦公領(lǐng)域中經(jīng)常用到,即將報(bào)紙、雜志等媒體上刊載的有關(guān)文稿通過(guò)掃描儀進(jìn)行掃描,隨后進(jìn)行ocr識(shí)別,或存儲(chǔ)成圖像文件,留待以后進(jìn)行ocr識(shí)別,將圖像文件轉(zhuǎn)換成文本文件或word文件進(jìn)行存儲(chǔ)。此外,數(shù)字化信息的存儲(chǔ)、傳輸、不僅成本低、效率高,而且能夠適應(yīng)排版,網(wǎng)絡(luò)傳輸?shù)炔粩喟l(fā)展的需要。目前我國(guó)有很多歷史遺留下來(lái)的大量圖書(shū)、報(bào)刊、雜志等紙質(zhì)珍品,急需將其轉(zhuǎn)換成電子信息。如電子圖書(shū)館的建立,就需要將圖書(shū)逐頁(yè)掃描,加上ocr軟件的識(shí)別,更替代了人工鍵入文字的工作,大大縮短了錄入時(shí)間,減輕了
12、勞動(dòng)強(qiáng)度,節(jié)省了人力且降低了費(fèi)用,提高了錄入正確率、工作效率和現(xiàn)代辦公自動(dòng)化程度。ocr技術(shù)的優(yōu)勢(shì)1) 創(chuàng)新著錄標(biāo)引方式ocr技術(shù)提供了一種新的著錄方式,使檔案條目通過(guò)計(jì)算機(jī)錄入成為可能。工作人員可以直接從ocr后的全文中找到著錄項(xiàng)(如題名、文號(hào)、責(zé)任者等),復(fù)制粘貼到目錄數(shù)據(jù)庫(kù)的相應(yīng)字段中去。但這么做必須先掃描檔案全文、ocr,然后再輸條目,顛覆了檔案數(shù)字化工作的一般工作流程,因此可行性并不高。還有一種方法是先將檔案卷內(nèi)目錄掃描、ocr處理,再?gòu)?fù)制粘貼條目,或通過(guò)特定的程序自動(dòng)采集條目信息。但由于很多卷內(nèi)目錄是手寫(xiě)的,ocr無(wú)法識(shí)別,只得依靠手工錄入。相信隨著未來(lái)技術(shù)的發(fā)展,ocr在這方面的應(yīng)用一定能夠有所突破。2 實(shí)現(xiàn)真正的全文檢索3支持雙層pdf技術(shù)雙層pdf技術(shù)既能較好地保證檔案的原真性,在用戶(hù)需要時(shí)又能對(duì)檔案中的文字進(jìn)行選擇、復(fù)制、搜
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025春季小學(xué)環(huán)境教育計(jì)劃
- 大廈物業(yè)后勤崗位職責(zé)
- 餐飲服務(wù)售后服務(wù)方案及措施
- 人教版七年級(jí)數(shù)學(xué)上冊(cè)家?;?dòng)計(jì)劃
- 2025屆高考作文創(chuàng)新訓(xùn)練題及范文
- 體育場(chǎng)館安全管理資源配置及措施
- 一年級(jí)勞動(dòng)技術(shù)課題研究計(jì)劃
- 2025年度田徑夏季體能強(qiáng)化計(jì)劃
- 我是中國(guó)人青年領(lǐng)袖發(fā)展計(jì)劃
- 2025年中小學(xué)雙減師資培訓(xùn)計(jì)劃
- 2025江蘇省惠隆資產(chǎn)管理限公司招聘30人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 《農(nóng)村基層干部廉潔履行職責(zé)規(guī)定》解讀與培訓(xùn)
- 安保部接管工作方案
- 交安工程勞務(wù)分包參考價(jià)格(范本)
- 護(hù)理敏感質(zhì)量指標(biāo)解讀ppt
- 三世演禽命理秘書(shū)講課教案
- DB44∕T 1702.2-2015 屋面并網(wǎng)光伏發(fā)電系統(tǒng) 第2部分:施工與驗(yàn)收規(guī)范
- 微小灶外賣(mài)訂餐系統(tǒng)
- 通風(fēng)與空調(diào)工程施工工藝流程圖
- 協(xié)議回款承諾書(shū)
- 商業(yè)發(fā)票模板(INVOICE)
評(píng)論
0/150
提交評(píng)論