![計(jì)算機(jī)視覺(jué)應(yīng)用開(kāi)發(fā)課件:場(chǎng)景文字識(shí)別_第1頁(yè)](http://file4.renrendoc.com/view12/M02/33/04/wKhkGWdbCqmAFF8OAACJmI66boI260.jpg)
![計(jì)算機(jī)視覺(jué)應(yīng)用開(kāi)發(fā)課件:場(chǎng)景文字識(shí)別_第2頁(yè)](http://file4.renrendoc.com/view12/M02/33/04/wKhkGWdbCqmAFF8OAACJmI66boI2602.jpg)
![計(jì)算機(jī)視覺(jué)應(yīng)用開(kāi)發(fā)課件:場(chǎng)景文字識(shí)別_第3頁(yè)](http://file4.renrendoc.com/view12/M02/33/04/wKhkGWdbCqmAFF8OAACJmI66boI2603.jpg)
![計(jì)算機(jī)視覺(jué)應(yīng)用開(kāi)發(fā)課件:場(chǎng)景文字識(shí)別_第4頁(yè)](http://file4.renrendoc.com/view12/M02/33/04/wKhkGWdbCqmAFF8OAACJmI66boI2604.jpg)
![計(jì)算機(jī)視覺(jué)應(yīng)用開(kāi)發(fā)課件:場(chǎng)景文字識(shí)別_第5頁(yè)](http://file4.renrendoc.com/view12/M02/33/04/wKhkGWdbCqmAFF8OAACJmI66boI2605.jpg)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
場(chǎng)景文字識(shí)別場(chǎng)景文字識(shí)別概述場(chǎng)景文字識(shí)別的基本概念01任務(wù)文字識(shí)別的應(yīng)用場(chǎng)景02任務(wù)文字識(shí)別的分類03任務(wù)學(xué)習(xí)目標(biāo)了解場(chǎng)景文字識(shí)別的基本概念了解文字識(shí)別的應(yīng)用場(chǎng)景和分類1場(chǎng)景文字識(shí)別的基本概念1場(chǎng)景文字識(shí)別的基本概念OCR(OpticalCharacterRecognition,光學(xué)字符識(shí)別)傳統(tǒng)上指對(duì)輸入掃描文檔圖像進(jìn)行分析處理,識(shí)別出圖像中文字信息。圖為OCR的簡(jiǎn)易過(guò)程:具體流程如下:第一步,通過(guò)圖像信息采集(一般是相機(jī)),得到了一幅包含待識(shí)別字符的圖像,并對(duì)其結(jié)構(gòu)進(jìn)行了分析;第二步,采用閾值運(yùn)算等圖像處理方法對(duì)待測(cè)對(duì)象進(jìn)行去噪,并校正待檢測(cè)的物體;第三步,由于文本信息的特殊性,需要進(jìn)行行和列分割用于檢測(cè)單個(gè)或連續(xù)的字符;第四步,將分割后的字符圖像導(dǎo)入識(shí)別模型進(jìn)行處理,從而獲得原始圖像中的字符信息。1場(chǎng)景文字識(shí)別的基本概念圖為OCR文字識(shí)別的操作步驟:其中,OCR識(shí)別的關(guān)鍵技術(shù)在于文字檢測(cè)和文本識(shí)別部分,這也是深度學(xué)習(xí)技術(shù)可以充分發(fā)揮功效的地方。1場(chǎng)景文字識(shí)別的基本概念場(chǎng)景文字識(shí)別(SceneTextRecognition,STR)指識(shí)別自然場(chǎng)景圖片中的文字信息。自然場(chǎng)景圖像中的文字識(shí)別,其難度遠(yuǎn)大于掃描文檔圖像中的文字識(shí)別,因?yàn)樗奈淖终宫F(xiàn)形式極其豐富:允許多種語(yǔ)言文本混合,字符可以有不同的大小、字體、顏色、亮度、對(duì)比度等;文本行可能有橫向、豎向、彎曲、旋轉(zhuǎn)、扭曲等式樣;圖像中的文字區(qū)域還可能會(huì)產(chǎn)生變形(透視、仿射變換)、殘缺、模糊等現(xiàn)象;自然場(chǎng)景圖像的背景極其多樣。如下圖所示,文字可以出現(xiàn)在平面、曲面或折皺面上。文字區(qū)域附近有復(fù)雜的干擾紋理、或者非文字區(qū)域有近似文字的紋理,比如沙地、草叢、柵欄、磚墻等。1場(chǎng)景文字識(shí)別的基本概念也有人用OCR技術(shù)泛指所有圖像文字檢測(cè)和識(shí)別技術(shù),包括傳統(tǒng)OCR技術(shù)與場(chǎng)景文字識(shí)別技術(shù),其實(shí)場(chǎng)景文字識(shí)別技術(shù)可以被看成是傳統(tǒng)OCR技術(shù)的自然演進(jìn)與升級(jí)換代。2文字識(shí)別的應(yīng)用場(chǎng)景2文字識(shí)別的應(yīng)用場(chǎng)景圖像文字檢測(cè)和識(shí)別技術(shù)有著廣泛的應(yīng)用場(chǎng)景。目前許多互聯(lián)網(wǎng)公司的相關(guān)應(yīng)用已經(jīng)涉及了這個(gè)領(lǐng)域,比如識(shí)別名片,識(shí)別路牌,識(shí)別試卷,識(shí)別車牌號(hào)等。而且已經(jīng)有不少的服務(wù)商都在持續(xù)增強(qiáng)文字檢測(cè)和識(shí)別的技術(shù),比如騰訊,百度,阿里,亞馬遜,微軟,谷歌等大型云服務(wù)企業(yè),還有一些活躍在物流,教育,安防,視頻直播,商務(wù),旅游導(dǎo)航等服務(wù)企業(yè)。這些企業(yè)既可以使用提前訓(xùn)練好的模型直接提供場(chǎng)景圖文識(shí)別、卡證識(shí)別、掃描文檔識(shí)別等云服務(wù),也可以使用客戶提供的數(shù)據(jù)集訓(xùn)練定制化模型(如票據(jù)識(shí)別模型),以及提供定制化AI服務(wù)系統(tǒng)集成等。3文字識(shí)別的分類3文字識(shí)別的分類文字識(shí)別可根據(jù)待識(shí)別的文字特點(diǎn)采用不同的識(shí)別方法,一般分為定長(zhǎng)文字和不定長(zhǎng)文字。定長(zhǎng)文字:由于字符數(shù)量固定(比如車牌號(hào)),采用的網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單,識(shí)別也比較容易。一般構(gòu)建3層卷積層,2層全連接層便能滿足其識(shí)別。不定長(zhǎng)文字:由于字符數(shù)量不固定(比如廣告牌文字),因此需要更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和后處理環(huán)節(jié),識(shí)別具有一定的難度。不定長(zhǎng)文字識(shí)別的常用方法:LSTM+CTC、CRNN、chineseocr。ThankYOU!LSTMRNN概述01任務(wù)LSTM概述02任務(wù)學(xué)習(xí)目標(biāo)了解RNN的網(wǎng)絡(luò)結(jié)構(gòu)了解LSTM的基本概念1RNN概述1RNN概述之前講神經(jīng)網(wǎng)絡(luò)的時(shí)候,只能一次單獨(dú)處理一個(gè)圖像的輸入,并且前一個(gè)輸入和后一個(gè)輸入是完全沒(méi)有關(guān)系的。但是在某些任務(wù)中需要能夠更好地處理序列的信息,即前面的輸入和后面的輸入是有關(guān)系的。比如,當(dāng)理解一句話的時(shí)候,需要把組成這句話的所有詞關(guān)聯(lián)起來(lái),而不能去單獨(dú)地理解每個(gè)詞的意思。以自然語(yǔ)言處理的詞性標(biāo)注任務(wù)來(lái)講,一個(gè)句子中,前一個(gè)單詞其實(shí)對(duì)于當(dāng)前單詞的詞性預(yù)測(cè)是有很大影響的。比如“小明跳舞”,“關(guān)公舞大刀”,同樣是“舞”字,詞性卻不相同,前者是名詞,后者是動(dòng)詞。但是由于“小明跳舞”中“舞”子的前面“跳”是一個(gè)動(dòng)詞,那么很顯然“舞”作為名詞的概率就會(huì)遠(yuǎn)大于動(dòng)詞的概率。因?yàn)閯?dòng)詞后面接名詞很常見(jiàn),而動(dòng)詞后面接動(dòng)詞很少見(jiàn)。所以為了解決一些這樣類似的問(wèn)題,能夠更好的處理序列的信息,RNN就誕生了。1RNN概述RNN(RecurrentNeuralNetwork)循環(huán)神經(jīng)網(wǎng)絡(luò),是一類以序列數(shù)據(jù)為輸入,在序列的演進(jìn)方向進(jìn)行遞歸且所有節(jié)點(diǎn)(循環(huán)單元)按鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)。RNN是一種特殊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它是根據(jù)“人的認(rèn)知是基于過(guò)往的經(jīng)驗(yàn)和記憶”這一觀點(diǎn)提出的。它與DNN,CNN不同的是:它不僅考慮前一時(shí)刻的輸入,而且賦予了網(wǎng)絡(luò)對(duì)前面的內(nèi)容的一種‘記憶’功能。1RNN概述圖中展示的是一個(gè)簡(jiǎn)單的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖:可以看到,如果把上面的“W”去掉,它就變成了前面講的神經(jīng)網(wǎng)絡(luò)。X代表輸入層的值,S代表隱藏層的值,O代表輸入層的值,U和V分別代表層到層之間的權(quán)重。那W是什么呢?循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層的值S不僅僅取決于當(dāng)前這次的輸入X,還取決于上一次隱藏層的值S,
W就是隱藏層上一次的值作為這一次的輸入的權(quán)重。1RNN概述可以把W按照時(shí)間線展開(kāi),循環(huán)神經(jīng)網(wǎng)絡(luò)就變成如圖右側(cè)一樣:現(xiàn)在看上去就比較清楚了,這個(gè)網(wǎng)絡(luò)在t時(shí)刻接收到輸入
之后,隱藏層的值是
,輸出值是。關(guān)鍵一點(diǎn)是,
的值不僅僅取決于
,還取決于
。1RNN概述在t=1時(shí)刻,一般初始化輸入
=0,隨機(jī)初始化W,U,V,進(jìn)行下面的公式計(jì)算:其中,f和g均為激活函數(shù)。其中f可以是tanh,ReLu,sigmoid等激活函數(shù),g通常是softmax也可以是其他激活函數(shù)。1RNN概述時(shí)間就向前推進(jìn),此時(shí)的狀態(tài)
作為時(shí)刻1的記憶狀態(tài)將參與下一個(gè)時(shí)刻的預(yù)測(cè)活動(dòng),也就是:以此類推,可以得到最終的輸出值為:2LSTM概述2LSTM概述RNN的關(guān)鍵點(diǎn)之一就是它們可以用來(lái)連接先前的信息到當(dāng)前的任務(wù)上。但是當(dāng)相關(guān)信息和當(dāng)前預(yù)測(cè)位置之間的間隔變得非常大,RNN會(huì)喪失學(xué)習(xí)到連接如此遠(yuǎn)的信息的能力。LSTM就是專門設(shè)計(jì)出來(lái)解決這個(gè)問(wèn)題的。LSTM(LongShort-TermMemory),長(zhǎng)短期記憶網(wǎng)絡(luò),是一種特殊的RNN,是為了解決RNN長(zhǎng)期依賴問(wèn)題而專門設(shè)計(jì)出來(lái)的。所有的RNN都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)叫问健T跇?biāo)準(zhǔn)RNN中,這個(gè)重復(fù)的結(jié)構(gòu)模塊只有一個(gè)非常簡(jiǎn)單的結(jié)構(gòu),例如一個(gè)tanh層,如圖所示。2LSTM概述LSTM也擁有這種鏈狀結(jié)構(gòu),但是重復(fù)模塊則擁有不同的結(jié)構(gòu)。與神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單的一層相比,LSTM擁有四層,這四層以特殊的方式進(jìn)行交互。如圖所示。粉紅色圓圈表示點(diǎn)向運(yùn)算,如向量加法、點(diǎn)乘,而黃色框是學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)層。線的合并表示連接,而線的交叉表示其內(nèi)容正在復(fù)制,副本將轉(zhuǎn)到不同的位置。ThankYOU!LSTMLSTM結(jié)構(gòu)解析01任務(wù)LSTM實(shí)現(xiàn)方法01任務(wù)學(xué)習(xí)目標(biāo)了解LSTM網(wǎng)絡(luò)結(jié)構(gòu)了解LSTM的實(shí)現(xiàn)方法1LSTM結(jié)構(gòu)解析1LSTM結(jié)構(gòu)解析LSTM的關(guān)鍵是cell狀態(tài),水平線貫穿圖的頂部。cell狀態(tài)有點(diǎn)像傳送帶。它沿著整個(gè)鏈條一直沿直線運(yùn)動(dòng),只有一些小的線性相互作用。信息不加改變地流動(dòng)非常容易。如圖所示:1LSTM結(jié)構(gòu)解析LSTM具有刪除或添加信息到節(jié)點(diǎn)狀態(tài)的能力,這個(gè)能力是由被稱為門(Gate)的結(jié)構(gòu)所賦予的。門(Gate)是一種可選地讓信息通過(guò)的方式。它由一個(gè)sigmoid神經(jīng)網(wǎng)絡(luò)層和一個(gè)點(diǎn)乘法運(yùn)算組成。如圖所示:sigmoid神經(jīng)網(wǎng)絡(luò)層輸出0和1之間的數(shù)字,這個(gè)數(shù)字代表每個(gè)組件有多少比率的信息可以通過(guò),0表示不通過(guò)任何信息,1表示全部通過(guò)。LSTM具有三個(gè)gates,以保護(hù)和控制cell狀態(tài)。1LSTM結(jié)構(gòu)解析LSTM的第一步是決定要從節(jié)點(diǎn)狀態(tài)中丟棄什么信息。該決定由被稱為“忘記門”的sigmoid層實(shí)現(xiàn)。它查看
(前一個(gè)輸出)和
(當(dāng)前輸入),并為單元格狀態(tài)(上一個(gè)狀態(tài))中的每個(gè)數(shù)字輸出0和1之間的數(shù)字。1代表完全保留,而0代表徹底刪除?!巴涢T”的示意圖如圖所示:1LSTM結(jié)構(gòu)解析下一步是決定要在節(jié)點(diǎn)狀態(tài)中存儲(chǔ)什么信息,需要分兩步來(lái)進(jìn)行,首先,稱為“輸入門層”的sigmoid層決定了將更新哪些值。接下來(lái)一個(gè)tanh層創(chuàng)建候選向量
,該向量將會(huì)被加到節(jié)點(diǎn)的狀態(tài)中。存儲(chǔ)信息步驟如圖所示:現(xiàn)在是時(shí)候去更新上一個(gè)狀態(tài)值
了,將其更新為
。前面的步驟以及決定了應(yīng)該做什么,只需實(shí)際執(zhí)行即可。1LSTM結(jié)構(gòu)解析將上一個(gè)狀態(tài)值乘以
,以此表達(dá)期待忘記的部分。之后將得到的值加上
,得到的是新的候選值,按照更新每個(gè)狀態(tài)值的多少來(lái)衡量。更新上一個(gè)狀態(tài)值
的步驟如圖所示:1LSTM結(jié)構(gòu)解析最后,需要決定要輸出什么。此輸出將基于其中的細(xì)胞狀態(tài),但將是一個(gè)過(guò)濾版本。首先,運(yùn)行一個(gè)sigmoid層,它決定要輸出的細(xì)胞狀態(tài)的哪些部分。然后,將單元格狀態(tài)通過(guò)tanh(將值規(guī)范化到-1和1之間),并將其乘以sigmoid層的輸出,至此輸出決定的那些部分的值。輸出流程如圖所示:2LSTM實(shí)現(xiàn)方法2LSTM實(shí)現(xiàn)方法tf.keras.layers.LSTM(units,activation=“tanh”,recurrent_activation=“sigmoid”,#用于重復(fù)步驟的激活功能use_bias=True,#是否圖層使用偏置向量kernel_initializer=“glorot_uniform”,#kernel權(quán)重矩陣的初始化程序,用于輸入的線性轉(zhuǎn)換recurrent_initializer=“orthogonal”,#權(quán)重矩陣的初始化程序,用于遞歸狀態(tài)的線性轉(zhuǎn)換bias_initializer=“zeros”,#偏差向量的初始化程序unit_forget_bias=True,#則在初始化時(shí)將1加到遺忘門的偏置上kernel_regularizer=None,#正則化函數(shù)應(yīng)用于kernel權(quán)重矩陣recurrent_regularizer=None,#正則化函數(shù)應(yīng)用于權(quán)重矩陣bias_regularizer=None,#正則化函數(shù)應(yīng)用于偏差向量activity_regularizer=None,#正則化函數(shù)應(yīng)用于圖層的輸出(其“激活”)kernel_constraint=None,#約束函數(shù)應(yīng)用于kernel權(quán)重矩陣recurrent_constraint=None,#約束函數(shù)應(yīng)用于權(quán)重矩陣bias_constraint=None,#約束函數(shù)應(yīng)用于偏差向量dropout=0.0,#要進(jìn)行線性轉(zhuǎn)換的輸入單位的分?jǐn)?shù)recurrent_dropout=0.0,#為遞歸狀態(tài)的線性轉(zhuǎn)換而下降的單位小數(shù)return_sequences=False,#是否返回最后一個(gè)輸出。在輸出序列或完整序列中return_state=False,#除輸出外,是否返回最后一個(gè)狀態(tài)go_backwards=False,#如果為True,則向后處理輸入序列并返回反向的序列stateful=False,#如果為True,則批次中索引i的每個(gè)樣本的最后狀態(tài)將用作下一個(gè)批次中索引i的樣本的初始狀態(tài)。time_major=False,unroll=False,#如果為True,則將展開(kāi)網(wǎng)絡(luò),否則將使用符號(hào)循環(huán)。展開(kāi)可以加快RNN的速度,盡管它通常會(huì)占用更多的內(nèi)存。展開(kāi)僅適用于短序列。)ThankYOU!CTCCTC概述01任務(wù)CTC使用方法02任務(wù)學(xué)習(xí)目標(biāo)了解CTC的基本概念了解CTC的使用方法1CTC概述1CTC概述CTC(ConnectionistTemporalClassifier)聯(lián)結(jié)時(shí)間分類器,是一種改進(jìn)的RNN模型。它主要解決的是時(shí)序模型中,輸入數(shù)大于輸出數(shù),輸入輸出如何對(duì)齊的問(wèn)題。它由AlexGraves于2006年提出。由于文字的不同間隔或變形等問(wèn)題,導(dǎo)致相同文字有不同的表現(xiàn)形式,但實(shí)際上都是同一個(gè)文字。比如圖中,在識(shí)別時(shí)會(huì)將輸入圖像分塊后再去識(shí)別,得出每塊屬于某個(gè)字符的概率(無(wú)法識(shí)別的標(biāo)記為特殊字符“-”)。1CTC概述由于字符變形等原因,導(dǎo)致對(duì)輸入圖像分塊識(shí)別時(shí),相鄰塊可能會(huì)識(shí)別為相同結(jié)果,字符重復(fù)出現(xiàn)。因此,通過(guò)CTC來(lái)解決對(duì)齊問(wèn)題。模型訓(xùn)練后,對(duì)結(jié)果中去掉間隔字符、去掉重復(fù)字符(如果相同字符連續(xù)出現(xiàn),則表示只有1個(gè)字符,如果中間有間隔字符,則表示該字符出現(xiàn)多次)。可以把CTC理解為一種end-to-end(端到端)計(jì)算損失函數(shù)的方法,可以避開(kāi)輸入與輸出手動(dòng)對(duì)齊的一種方式,是非常適合語(yǔ)音識(shí)別或者OCR這種應(yīng)用的。1CTC概述CTC本身是不需要對(duì)齊的,但是我們需要知道X
的輸出路徑和最終輸出結(jié)果的對(duì)應(yīng)關(guān)系,因?yàn)樵贑TC中,多個(gè)輸出路徑可能對(duì)應(yīng)一個(gè)輸出結(jié)果,舉例來(lái)理解。例如在OCR的任務(wù)中,輸入X是含有“CAT”的圖片,輸出Y是文本[C,A,T]。將X分割成若干個(gè)時(shí)間片,每個(gè)時(shí)間片得到一個(gè)輸出,一個(gè)最簡(jiǎn)答的解決方案是合并連續(xù)重復(fù)出現(xiàn)的字母,如圖:1CTC概述這個(gè)問(wèn)題有兩個(gè)缺點(diǎn):(1)幾乎不可能將X的每個(gè)時(shí)間片都和輸出Y對(duì)應(yīng)上,例如OCR中字符的間隔,語(yǔ)音識(shí)別中的停頓;(2)不能處理有連續(xù)重復(fù)字符出現(xiàn)的情況,例如單詞“HELLO”,按照上面的算法,輸出的是“HELO”而非“HELLO”。為了解決上面的問(wèn)題,CTC引入了空白字符,例如OCR中的字符間距,語(yǔ)音識(shí)別中的停頓均表示為。所以,CTC的對(duì)齊涉及去除重復(fù)字母和去除兩部分。
1CTC概述這種對(duì)齊方式有三個(gè)特征:(1)X與Y之間的時(shí)間片映射是單調(diào)的,即如果X向前移動(dòng)一個(gè)時(shí)間片,Y保持不動(dòng)或者也向前移動(dòng)一個(gè)時(shí)間片;(2)X與Y之間的映射是多對(duì)一的,即多個(gè)輸出可能對(duì)應(yīng)一個(gè)映射,反之則不成立,所以也有了特征3;(3)X的長(zhǎng)度大于等于Y的長(zhǎng)度。2CTC使用方法2CTC使用方法在Keras中,通過(guò)以下函數(shù)計(jì)算ctc損失:importkeras.backendasKdefctc_loss(args):returnK.ctc_batch_cost(*args)ThankYOU!基于LSTM+CTC的文字識(shí)別案例描述01任務(wù)案例目標(biāo)02任務(wù)案例分析03任務(wù)案例實(shí)施04任務(wù)1案例描述1案例描述本案例將使用python的第三方庫(kù)captcha來(lái)生成驗(yàn)證碼,并搭建LSTM+CTC網(wǎng)絡(luò)結(jié)構(gòu)對(duì)生成的驗(yàn)證碼進(jìn)行文字識(shí)別。2案例目標(biāo)案例目標(biāo)學(xué)會(huì)使用第三方庫(kù)生成隨機(jī)驗(yàn)證碼;搭建LSTM+CTC的網(wǎng)絡(luò)架構(gòu)并對(duì)隨機(jī)生成的驗(yàn)證碼進(jìn)行識(shí)別。23案例分析案例分析如何生成驗(yàn)證碼,并分批次傳給神經(jīng)網(wǎng)絡(luò),這是一個(gè)問(wèn)題。使用captcha來(lái)生成驗(yàn)證碼,captcha使用Python寫(xiě)的生成驗(yàn)證碼的庫(kù),它支持圖片驗(yàn)證碼和語(yǔ)言驗(yàn)證碼,這里使用的則是生成圖片驗(yàn)證碼的功能。34案例實(shí)施4案例實(shí)施 1.導(dǎo)庫(kù)fromcaptcha.imageimportImageCaptchafromtensorflow.keras.callbacksimportCallbackfromtensorflow.keras.callbacksimportEarlyStopping,CSVLogger,ModelCheckpoint2.生成驗(yàn)證碼接著定義要生成的驗(yàn)證碼的內(nèi)容。這里使用0-9和大寫(xiě)的英文字母A-Z來(lái)隨機(jī)作為驗(yàn)證碼的內(nèi)容。characters=string.digits+string.ascii_uppercase4案例實(shí)施接下來(lái)就是生成驗(yàn)證碼的部分了。這里寫(xiě)了一個(gè)CaptchaSequence類,該類繼承自Sequence,功能類似于python的生成器,但限制較少,可遷移性更好。該類有三個(gè)方法:__init__():初始化,定義要使用的變量。__len__():生成的驗(yàn)證碼(數(shù)據(jù)集)的總數(shù)量。__getitem__():返回一個(gè)batch_size的數(shù)據(jù)。4案例實(shí)施3.搭建網(wǎng)絡(luò)
數(shù)據(jù)準(zhǔn)備之后,要開(kāi)始搭建網(wǎng)絡(luò)結(jié)構(gòu)了,在此之前,先編寫(xiě)計(jì)算CTC損失的函數(shù)ctc_lambda_func()。defctc_lambda_func(args):y_pred,labels,input_length,label_length=argsreturnK.ctc_batch_cost(labels,y_pred,input_length,label_length)接著開(kāi)始搭建網(wǎng)絡(luò)。提取特征部分用了10層卷積層。4案例實(shí)施4.訓(xùn)練模型接下來(lái)就開(kāi)始要進(jìn)入訓(xùn)練環(huán)節(jié)了。開(kāi)始訓(xùn)練之前,設(shè)置回調(diào)函數(shù),配置模型保存路徑,在每個(gè)epoch跑完之后驗(yàn)證準(zhǔn)確率等。pile(loss={'ctc':lambday_true,y_pred:y_pred},optimizer=Adam(lr=0.001,amsgrad=True))model.fit_generator(train_data,steps_per_epoch=10,epochs=100,validation_data=valid_data,workers=4,
callbacks=callbacks)ThankYOU!tesseracttesseract概述01任務(wù)tesseract安裝02任務(wù)學(xué)習(xí)目標(biāo)了解tesseract的基本概念掌握tesseract的安裝過(guò)程1tesseract概述1tesseract概述tesseract
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023二年級(jí)數(shù)學(xué)上冊(cè) 六 測(cè)量第2課時(shí) 課桌有多長(zhǎng)說(shuō)課稿 北師大版
- 《1 負(fù)數(shù) 》(說(shuō)課稿)-2023-2024學(xué)年六年級(jí)下冊(cè)數(shù)學(xué)人教版
- 2024秋四年級(jí)語(yǔ)文上冊(cè) 第六單元 第19課 一只窩囊的大老虎說(shuō)課稿 新人教版001
- 代銷材料合同范例
- 路塹紫穗槐種植施工方案
- 5《守株待兔》說(shuō)課稿-2024-2025學(xué)年語(yǔ)文三年級(jí)下冊(cè)統(tǒng)編版
- 慶城硅pu跑道施工方案
- 5《一個(gè)豆莢里的五粒豆》說(shuō)課稿-2024-2025學(xué)年四年級(jí)上冊(cè)語(yǔ)文統(tǒng)編版
- 京東店鋪運(yùn)營(yíng)合同范例
- 住宅劃地出售合同范本
- 高空作業(yè)車日常施工方案
- 材料力學(xué)之材料疲勞分析算法:S-N曲線法:疲勞分析案例研究與項(xiàng)目實(shí)踐.Tex.header
- 2024(新高考2卷)英語(yǔ)試題詳解解析 課件
- 天津2024年天津市規(guī)劃和自然資源局所屬事業(yè)單位招聘筆試歷年典型考題及考點(diǎn)附答案解析
- 中國(guó)醫(yī)美行業(yè)2024年度洞悉報(bào)告-德勤x艾爾建-202406
- 2024年江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)一套
- 藥用植物種植制度和土壤耕作技術(shù)
- 《火力發(fā)電企業(yè)設(shè)備點(diǎn)檢定修管理導(dǎo)則》
- 2024年呼和浩特職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)及答案解析
- 攤位安全責(zé)任書(shū)
- 重慶市渝北區(qū)2024年八年級(jí)下冊(cè)數(shù)學(xué)期末統(tǒng)考模擬試題含解析
評(píng)論
0/150
提交評(píng)論