RPA在財(cái)經(jīng)中的應(yīng)用 課件 chapter7:OCR文字識(shí)別自動(dòng)化_第1頁(yè)
RPA在財(cái)經(jīng)中的應(yīng)用 課件 chapter7:OCR文字識(shí)別自動(dòng)化_第2頁(yè)
RPA在財(cái)經(jīng)中的應(yīng)用 課件 chapter7:OCR文字識(shí)別自動(dòng)化_第3頁(yè)
RPA在財(cái)經(jīng)中的應(yīng)用 課件 chapter7:OCR文字識(shí)別自動(dòng)化_第4頁(yè)
RPA在財(cái)經(jīng)中的應(yīng)用 課件 chapter7:OCR文字識(shí)別自動(dòng)化_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

OCR文字識(shí)別自動(dòng)化OCR光學(xué)字符識(shí)別(OpticalCharacterRecognition,簡(jiǎn)稱OCR),是指對(duì)包含文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的技術(shù)。20世紀(jì)90年代以來(lái),隨著平臺(tái)式掃描儀的廣泛應(yīng)用以及辦公自動(dòng)化的普及,OCR技術(shù)的識(shí)別正確率、識(shí)別速度不斷提高,更好地滿足了用戶的需求。UiBot不但提供了原生的OCR功能模塊,還接入了第三方的OCR服務(wù),更是在MageAI產(chǎn)品中提供了豐富的文字識(shí)別功能,極大地方便了用戶的選擇與使用。12MageAI文字識(shí)別命令發(fā)票信息登記機(jī)器人01MageAI文字識(shí)別命令通用文字識(shí)別通用表格識(shí)別通用多票據(jù)識(shí)別通用卡證識(shí)別驗(yàn)證碼識(shí)別印章識(shí)別自定義模板識(shí)別MageAIUiBotMage(智能文檔處理平臺(tái))基于OCR、NLP等前沿深度學(xué)習(xí)算法,提供了文檔的識(shí)別、分類(lèi)、要素提取、校驗(yàn)、對(duì)比、糾錯(cuò)等功能,可幫助企業(yè)實(shí)現(xiàn)日常文檔處理工作的自動(dòng)化。Mage提供豐富的預(yù)訓(xùn)練的AI模型,使用者無(wú)需AI經(jīng)驗(yàn),開(kāi)箱即用。Mage的AI能力可分為預(yù)訓(xùn)練AI能力和定制化AI能力。預(yù)訓(xùn)練AI能力提供了開(kāi)箱即用的AI能力,能夠處理身份證、銀行卡、發(fā)票、火車(chē)票識(shí)別等普適場(chǎng)景的識(shí)別和抽取需求;定制化AI能力需要用戶上傳自己的數(shù)據(jù),通過(guò)無(wú)代碼的方式,標(biāo)注、訓(xùn)練、測(cè)評(píng)、優(yōu)化AI模型,使模型能夠理解專業(yè)領(lǐng)域的文檔。MageAI定制化程度能力用途預(yù)訓(xùn)練AI能力通用文字識(shí)別識(shí)別圖片中所有文字。通用表格識(shí)別識(shí)別圖片中的表外文字和表內(nèi)文字,并按照單元格的排列順序,輸出表格內(nèi)容。通用多票據(jù)識(shí)別識(shí)別普通發(fā)票、專用發(fā)票、電子發(fā)票、銷(xiāo)貨清單、卷式發(fā)票、出租車(chē)票、火車(chē)票、動(dòng)車(chē)票、飛機(jī)行程單、定額發(fā)票、購(gòu)車(chē)發(fā)票等全票種發(fā)票,并返回核心字段值。通用卡證識(shí)別識(shí)別銀行卡、身份證、社保卡、駕駛證、行駛證、戶口本、護(hù)照、結(jié)婚證、房產(chǎn)證、不動(dòng)產(chǎn)證、營(yíng)業(yè)執(zhí)照、開(kāi)戶許可證、組織機(jī)構(gòu)代碼證、車(chē)輛合格證、車(chē)輛登記證、基本存款賬戶信息,并返回核心字段值。驗(yàn)證碼識(shí)別識(shí)別由數(shù)字和字母組成的驗(yàn)證碼。印章識(shí)別識(shí)別印章的位置、顏色、內(nèi)容。定制化AI能力自定義模版上傳一組版面樣式相對(duì)固定的圖片文件,通過(guò)配置規(guī)則的方式,依賴位置關(guān)系抽取到業(yè)務(wù)需要的字段值。MageAI在UiBotCreator中使用MageAI文字識(shí)別服務(wù),需要進(jìn)行Mage配置。MageAI服務(wù)也是一種付費(fèi)服務(wù)。通用文字識(shí)別窗口文字識(shí)別“鼠標(biāo)點(diǎn)擊文本”、“鼠標(biāo)移動(dòng)到文本上”、“查找文本位置”三個(gè)命令使用UiBotMage對(duì)窗口范圍內(nèi)進(jìn)行指定文字識(shí)別,其功能與使用與本地“鼠標(biāo)點(diǎn)擊OCR文本”、“鼠標(biāo)移動(dòng)到OCR文本上”、“查找OCR文本位置”三個(gè)命令類(lèi)似。通用文字識(shí)別屏幕文字識(shí)別“屏幕文字識(shí)別”使用命令時(shí),需在屏幕上選擇目標(biāo),并指定識(shí)別范圍。下圖所示命令在識(shí)別屏幕窗口指定識(shí)別范圍內(nèi)的文字,識(shí)別結(jié)果為一個(gè)JSON對(duì)象。通過(guò)JSON閱讀器,可查看其結(jié)構(gòu)。通用文字識(shí)別“圖像文字識(shí)別”使用命令時(shí),需指定待識(shí)別的圖像,支持jpeg、jpg、png、bmp、tif、tiff等格式。圖片文字識(shí)別通用文字識(shí)別“PDF文字識(shí)別”需指定待識(shí)別的PDF文件路徑、文件訪問(wèn)密碼,是否識(shí)別全部頁(yè)。如果不識(shí)別全部頁(yè),還需指定頁(yè)碼。頁(yè)碼支持正整數(shù)和數(shù)組格式,如輸入2,則識(shí)別第2頁(yè);如輸入[1,3,5],則識(shí)別第1,3,5頁(yè);如輸入[1,[6,9],4],則識(shí)別1,4頁(yè)和第6到第9頁(yè)。當(dāng)識(shí)別全部頁(yè)碼設(shè)為"是",則識(shí)別指定頁(yè)碼的輸入失效。超出PDF頁(yè)碼總數(shù)的部分會(huì)報(bào)錯(cuò),頁(yè)碼重疊部分僅識(shí)別1次。PDF文字識(shí)別通用文字識(shí)別“屏幕文字識(shí)別”、“圖像文字識(shí)別”、“PDF文字識(shí)別”命令返回的是一個(gè)JSON對(duì)象,該對(duì)象列出了文本的結(jié)構(gòu),包括page、paragraph、row。UiBot提供了一系列獲取文本信息的命令來(lái)獲取文本的上述信息:“獲取全部文本”命令獲取通用文字識(shí)別結(jié)果的全部文本?!矮@取段落文本”命令獲取通用文字識(shí)別結(jié)果按段落劃分的全部文本?!矮@取每行文本”命令獲取通用文字識(shí)別結(jié)果按行劃分的全部文本?!矮@取所有文本元素”命令獲取文字識(shí)別結(jié)果按文本元素劃分的全部文本。獲取文本信息通用表格識(shí)別屏幕表格識(shí)別通用表格識(shí)別命令識(shí)別圖片中的表外文字和表內(nèi)文字,并按照單元格的排列順序,輸出表格內(nèi)容。圖像表格識(shí)別PDF表格識(shí)別“屏幕表格識(shí)別”、“圖像表格識(shí)別”、“PDF表格識(shí)別”命令使用UiBotMage,分別識(shí)別指定屏幕范圍、圖像、PDF文檔中的多個(gè)表格,識(shí)別結(jié)果返回JSON格式。通用表格識(shí)別獲取表格信息獲取表格信息命令從屏幕、圖像、PDF表格識(shí)別命令返回的識(shí)別結(jié)果中獲取相關(guān)信息。獲取非表格文字、獲取所有表格、獲取表格數(shù)、獲取指定表格命令執(zhí)行前,先要通過(guò)“屏幕表格識(shí)別”、“圖像表格識(shí)別”、“PDF表格識(shí)別”獲得表格識(shí)別結(jié)果。獲取表格區(qū)域、獲取表格行數(shù)、獲取表格列數(shù)、獲取表格行、獲取表格列、獲取表格單元格這幾個(gè)命令執(zhí)行前,首先要通過(guò)“獲取指定表格”命令獲取到相關(guān)表格。獲取表格數(shù)、獲取表格行數(shù)、獲取表格列數(shù)返回值為數(shù)值型,其他命令返回值均為數(shù)組。通用表格識(shí)別提取表格結(jié)果至EXCEL“提取表格結(jié)果至EXCEL”命令將“屏幕表格識(shí)別”、“圖像表格識(shí)別”、“PDF表格識(shí)別”命令的識(shí)別結(jié)果直接提取至Excel文件中。該命令有一個(gè)特殊屬性:“過(guò)濾非表格文本”,選擇“否”將完整識(shí)別結(jié)果寫(xiě)入Excel中的Sheet1頁(yè),選擇“是”則將識(shí)別的每個(gè)表格按順序分別寫(xiě)入Excel的多個(gè)Sheet頁(yè)。通用多票據(jù)識(shí)別屏幕多票據(jù)識(shí)別通用多票據(jù)識(shí)別命令可識(shí)別普通發(fā)票、專用發(fā)票、電子發(fā)票、銷(xiāo)貨清單、卷式發(fā)票、出租車(chē)票、火車(chē)票、動(dòng)車(chē)票、飛機(jī)行程單、定額發(fā)票、購(gòu)車(chē)發(fā)票等全票種發(fā)票,并返回核心字段值。圖像多票據(jù)識(shí)別PDF多票據(jù)識(shí)別“屏幕多票據(jù)識(shí)別”、“圖像多票據(jù)識(shí)別”、“PDF多票據(jù)識(shí)別”命令使用UiBotMage,分別識(shí)別指定屏幕范圍、圖像、PDF文檔中的多種票據(jù),識(shí)別結(jié)果返回?cái)?shù)組。通用多票據(jù)識(shí)別獲取票據(jù)類(lèi)型獲取票據(jù)內(nèi)容“獲取票據(jù)類(lèi)型”命令獲取通用多票據(jù)識(shí)別結(jié)果中的票據(jù)類(lèi)型。獲取票據(jù)類(lèi)型命令僅有“票據(jù)識(shí)別結(jié)果”這一必選屬性,指向多票據(jù)識(shí)別命令輸出數(shù)組的某一個(gè)元素,返回一個(gè)字符串,表示票據(jù)類(lèi)型?!矮@取票據(jù)內(nèi)容”命令獲取通用多票據(jù)識(shí)別結(jié)果中的票據(jù)內(nèi)容?!捌睋?jù)識(shí)別結(jié)果”屬性與“獲取票據(jù)類(lèi)型”命令一致。“提取類(lèi)型”指定發(fā)票的類(lèi)型,包括增值稅專用發(fā)票、機(jī)動(dòng)車(chē)銷(xiāo)售統(tǒng)一發(fā)票、增值稅普通發(fā)票、增值稅電子普通發(fā)票、增值稅普通發(fā)票(卷票)、增值稅電子普通發(fā)票(通行費(fèi))、二手車(chē)銷(xiāo)售統(tǒng)一發(fā)票、通用機(jī)打發(fā)票、通用定額發(fā)票、旅客運(yùn)輸普票、公路客運(yùn)發(fā)票、航運(yùn)客票、出租車(chē)發(fā)票、停車(chē)費(fèi)發(fā)票、過(guò)路過(guò)橋費(fèi)發(fā)票汽車(chē)通行費(fèi)、醫(yī)療費(fèi)收據(jù)、行程單、火車(chē)票、增值稅銷(xiāo)貨清單、商戶小票等。“提取字段”選擇獲取票據(jù)的字段,不同類(lèi)型發(fā)票的提取字段各不相同。通用卡證識(shí)別屏幕卡證識(shí)別通用卡證識(shí)別命令可識(shí)別銀行卡、身份證、社???、駕駛證、行駛證、戶口本、護(hù)照、結(jié)婚證、房產(chǎn)證、不動(dòng)產(chǎn)證、營(yíng)業(yè)執(zhí)照、開(kāi)戶許可證、組織機(jī)構(gòu)代碼證、車(chē)輛合格證、車(chē)輛登記證、基本存款賬戶信息,并返回核心字段值。圖像卡證識(shí)別PDF卡證識(shí)別“屏幕卡證識(shí)別”、“圖像卡證識(shí)別”、“PDF卡證識(shí)別”命令使用UiBotMage分別識(shí)別指定屏幕范圍、指定圖像、指定PDF文件中的卡證,“屏幕卡證識(shí)別”、“圖像卡證識(shí)別”返回的為JSON格式?!癙DF卡證識(shí)別”返回的是數(shù)組。通用卡證識(shí)別獲取卡證類(lèi)型獲取卡證內(nèi)容“獲取卡證類(lèi)型”命令獲取卡證識(shí)別結(jié)果中的卡證類(lèi)型。“獲取卡證內(nèi)容”命令獲取卡證識(shí)別結(jié)果中的卡證內(nèi)容。“屏幕卡證識(shí)別”、“圖像卡證識(shí)別”的返回結(jié)果可直接作為“獲取卡證類(lèi)型”、“獲取卡證內(nèi)容”命令的“卡證識(shí)別結(jié)果”屬性輸入;如果是“PDF卡證識(shí)別”的返回結(jié)果,則需使用遍歷數(shù)組的值。“獲取卡證內(nèi)容”命令可直接提取內(nèi)容的卡證類(lèi)型包括:銀行卡、名片、香港身份證、身份證、社???、駕駛證、行駛證、戶口本、護(hù)照、結(jié)婚證、離婚證、房產(chǎn)證、不動(dòng)產(chǎn)證、營(yíng)業(yè)執(zhí)照、開(kāi)戶許可證、稅務(wù)登記證、組織機(jī)構(gòu)代碼證、車(chē)輛合格證、車(chē)輛登記證、往來(lái)港澳通行證、往來(lái)臺(tái)灣通行證、承兌匯票等。驗(yàn)證碼識(shí)別屏幕驗(yàn)證碼識(shí)別驗(yàn)證碼識(shí)別包括屏幕驗(yàn)證碼識(shí)別、圖像驗(yàn)證碼識(shí)別,分別使用UiBotMage識(shí)別指定屏幕范圍、指定圖片中的驗(yàn)證碼,返回識(shí)別結(jié)果,為一個(gè)字符串。圖像驗(yàn)證碼識(shí)別印章識(shí)別印章識(shí)別包括屏幕印章識(shí)別、圖片印章識(shí)別、PDF印章識(shí)別,分別使用UiBotMage識(shí)別指定屏幕范圍、指定圖片、指定PDF文件中內(nèi)印章信息,識(shí)別結(jié)果為JSON格式。屏幕印章識(shí)別圖片印章識(shí)別PDF印章識(shí)別“提取印章信息”命令從印章識(shí)別結(jié)果中提取指定的印章信息,提取結(jié)果為數(shù)組格式,提取的印章信息內(nèi)容,包括文字、顏色、形狀、位置。提取印章信息自定義模板識(shí)別自定義模板識(shí)別支持用戶自定義模板,并根據(jù)這個(gè)模板對(duì)文檔進(jìn)行識(shí)別。這是一項(xiàng)用戶定制化的AI能力。通過(guò)自定義模板,用戶可以根據(jù)自己的業(yè)務(wù)需求,快速定制AI能力,對(duì)用戶固有的合同、票據(jù)、單據(jù)等文檔進(jìn)行處理。UiBotMage的自定義模板配置每個(gè)步驟都配有引導(dǎo),可無(wú)代碼完成數(shù)據(jù)管理->標(biāo)注->配置->評(píng)測(cè)->上線的全流程,手把手的教你如何打造一個(gè)可用于生產(chǎn)環(huán)境(即準(zhǔn)確率符合預(yù)期)的機(jī)器人。自定義模板識(shí)別“屏幕自定義模板識(shí)別”、“圖像自定義模板識(shí)別”、“PDF自定義模板識(shí)別”使用UiBotMage識(shí)別指定屏幕范圍、圖像、PDF文檔中自定義模板內(nèi)容。屏幕、圖片自定義模板識(shí)別,結(jié)果返回JSON格式。PDF自定義模板識(shí)別返回結(jié)果數(shù)組,在識(shí)別多頁(yè)過(guò)程中如果其中一頁(yè)失敗則整個(gè)識(shí)別會(huì)返回錯(cuò)誤,且會(huì)消耗配額。屏幕自定義模板識(shí)別圖像自定義模板識(shí)別PDF自定義模板識(shí)別“獲取自定義模板名稱”命令返回自定義模板識(shí)別結(jié)果中的模板名稱。“獲取模板的字段列表”命令從UiBotMage接口獲取識(shí)別器中自定義模板的字段列表?!矮@取模板識(shí)別結(jié)果”命令獲取自定義模板識(shí)別結(jié)果中指定字段的結(jié)果,返回一個(gè)數(shù)組。獲取自定義模板名稱獲取模板的字段列表獲取模板識(shí)別結(jié)果02發(fā)票信息登記機(jī)器人需求分析自動(dòng)化流程設(shè)計(jì)自動(dòng)化流程實(shí)現(xiàn)開(kāi)發(fā)步驟需求分析小王是部門(mén)的財(cái)務(wù)秘書(shū),部門(mén)員工需要報(bào)銷(xiāo)時(shí),會(huì)通過(guò)郵件的形式將電子發(fā)票交給小王,由小王對(duì)發(fā)票進(jìn)行初審。小王初審時(shí),需要關(guān)注發(fā)票的開(kāi)票日期、發(fā)票抬頭,還需要登錄全國(guó)增值稅發(fā)票查驗(yàn)平臺(tái)對(duì)發(fā)票進(jìn)行查驗(yàn)。通過(guò)前面的學(xué)習(xí),小王了解到可以通過(guò)發(fā)票驗(yàn)真機(jī)器人對(duì)每一張發(fā)票進(jìn)行自動(dòng)驗(yàn)真,但是需要提供“發(fā)票信息登記表”(示例如下),以記錄發(fā)票的相關(guān)信息。部門(mén)員工通過(guò)郵件發(fā)來(lái)的發(fā)票均以圖片形式保存,小王已按人名、報(bào)銷(xiāo)日期分別存放在“發(fā)票信息”文件夾中(文件夾的結(jié)構(gòu)如下),并在“發(fā)票信息登記表”中錄入了前三列?,F(xiàn)在,小王希望編寫(xiě)一個(gè)機(jī)器人來(lái)幫助他補(bǔ)充發(fā)票信息登記表中剩余列的信息。需求分析發(fā)票信息登記業(yè)務(wù)流程業(yè)務(wù)流程步驟操作說(shuō)明步驟1打開(kāi)“發(fā)票信息登記表.xlsx”。步驟2打開(kāi)發(fā)票信息文件夾。步驟3判斷發(fā)票信息文件夾下所有文件夾是否處理完畢?如果處理完畢,則進(jìn)入步驟8;否則,繼續(xù)處理下一個(gè)文件夾。步驟4打開(kāi)某一待處理文件夾。步驟5判斷待處理文件夾下所有文件是否處理完畢?如果處理完畢,則進(jìn)入步驟3;否則,繼續(xù)處理下一個(gè)文件。步驟6閱讀發(fā)票信息。步驟7在“發(fā)票信息登記表.xlsx”中登記發(fā)票信息。步驟8關(guān)閉“發(fā)票信息登記表.xlsx”。發(fā)票整理業(yè)務(wù)流程的操作步驟自動(dòng)化流程設(shè)計(jì)根據(jù)以上需求分析,設(shè)計(jì)發(fā)票信息登記機(jī)器人自動(dòng)化流程如下圖所示。在該流程中,機(jī)器人代替人工,逐一訪問(wèn)發(fā)票信息文件夾下的每一個(gè)文件夾,并識(shí)別該文件夾下的每一個(gè)電子發(fā)票文件,提取發(fā)票信息后,在發(fā)票信息登記表.xlsx中登記。發(fā)票信息登記機(jī)器人自動(dòng)化流程自動(dòng)化流程實(shí)現(xiàn)流程塊自動(dòng)化流程步驟功能描述命令名稱發(fā)票信息登記步驟11.1打開(kāi)“發(fā)票信息登記表.xlsx”打開(kāi)EXCEL工作簿1.2讀取數(shù)據(jù)總行數(shù)獲取行數(shù)步驟22.1獲取“發(fā)票信息”文件夾下的所有文件夾列表獲取文件或文件夾列表步驟33.1循環(huán)處理“發(fā)票信息”文件夾下的每一個(gè)文件夾依次讀取數(shù)組中每個(gè)元素步驟44.1獲取文件夾路徑字符串長(zhǎng)度獲取長(zhǎng)度4.2查找文件夾路徑中最后一個(gè)”\”位置倒序查找字符串4.3

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論