深度學(xué)習(xí)算法_詳解_實(shí)例(自然場景文字定位)_第1頁
深度學(xué)習(xí)算法_詳解_實(shí)例(自然場景文字定位)_第2頁
深度學(xué)習(xí)算法_詳解_實(shí)例(自然場景文字定位)_第3頁
深度學(xué)習(xí)算法_詳解_實(shí)例(自然場景文字定位)_第4頁
深度學(xué)習(xí)算法_詳解_實(shí)例(自然場景文字定位)_第5頁
已閱讀5頁,還剩73頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、目錄TOC o 1-5 h z HYPERLINK l bookmark0第一章緒論11景1自然場景文字定位技術(shù)2基于的定位技術(shù)2基于的定位技術(shù)3的定位技術(shù)3自然場景文字定位的4文的5文的6 HYPERLINK l bookmark2第二章深度學(xué)習(xí)技術(shù)簡介778910112的121314152的16度17218章20 HYPERLINK l bookmark18第三章基于深度學(xué)習(xí)的自然場景文字定位方法的設(shè)計(jì)20自然場景文字定位方法的21212122設(shè)計(jì)目223設(shè)計(jì)23MSER深度23字2324自然場景文字定位方法的243章25第四章基于深度學(xué)習(xí)的自然場景文字定位關(guān)鍵算法的實(shí)現(xiàn)2526MSER算

2、法定位27E12728304字31313334354法354法364文3743838章結(jié)38第五章實(shí)驗(yàn)結(jié)果及討論38實(shí)驗(yàn)395實(shí)驗(yàn)415實(shí)驗(yàn)結(jié)果與41ICDAR2015結(jié)果41的465實(shí)驗(yàn)47MSER算法47CNN48與49章結(jié)51 HYPERLINK l bookmark40第六章總結(jié)與展望51文總結(jié)5252541的文字 # 第一章緒論1.1.研究背景和意義和Vr.章景一景一一景景研究論意義和研究景一一景景景景景景一背景景冃景景背景冃景研究景一景和一一11的文字 #1的文字 # 自然場景的文字的定位自然場景的文字定位技術(shù)現(xiàn)的自然技術(shù)研究技術(shù)1.2.自然場景文字定位技術(shù)研究現(xiàn)狀自然場景文字定位

3、技術(shù)1基于滑動窗口的定位的SVMAdaBoost2基于的文字定位的MSERSWT3的1.2.1.基于滑動窗口的定位技術(shù)基于滑動窗口的文字定滑動窗口字的文Jaderberg2Pan1滑動窗口WaldboostHOGPan1的文Pan11的文字 #CRFConditionalRandomFieldJaderberg2的的合的9的于的基于的的定位的的的的的的的的的1.2.2.基于連通域的定位技術(shù)基于連通域的定基于的的基于連通域的于連通域的的連通域通的的的連通域定位技術(shù)Regions定域的的于的連通域Neumann4ICDAR2011的MSER3MaximallyStableExtremal的連通域的

4、基于連通域的定位技術(shù)ER的variation定于ER的域的域的Sung6Yin5的基95的域域Yin5ER1的文字 # #1的文字 # #通的的ICDAR2013的定位30的域的的MSER的基于MSER的MSER基于MSER的域的1.2.3混合的定位技術(shù)混合的的的混合的的Zamberletti于25MSER的Huang26Zamberletti25的MSER的MSER的連Huang26MSER1的的1的的2景的文字3的的文的的的要1.4.本文的主要工作的文本文王要的文的的的文的MSER本文的主要MSER文文本本文的本文的本文的工作 CNNICDAR2015的本文的1的纟的吉構(gòu)的文文的MSER的

5、的文2MSER的的3的MSER的的1.5.本文的組織結(jié)構(gòu)本本文的的文的文的本文的結(jié)構(gòu)的的結(jié)構(gòu)本文的的本的本文的MSER文文本的文結(jié)MSERCNNICDAR2015文的的的的結(jié)本的的第二章深度學(xué)習(xí)技術(shù)簡介深度學(xué)習(xí)DeepLearning技術(shù)學(xué)習(xí)技術(shù)72012深度學(xué)習(xí)深度學(xué)習(xí)與深度學(xué)習(xí)學(xué)習(xí)1.深度學(xué)習(xí)學(xué)習(xí)ImageNet312012深度學(xué)習(xí)第82.學(xué)習(xí)特特深度學(xué)習(xí)特學(xué)習(xí)TOC o 1-5 h z特學(xué)習(xí)特特深度學(xué)習(xí)學(xué)習(xí)深度學(xué)習(xí)GPU深度學(xué)習(xí)性深度學(xué)習(xí)學(xué)習(xí)學(xué)習(xí)“學(xué)習(xí)”ShallowLearningSVMboostingKNN特性與發(fā)展歷史深度學(xué)習(xí)特學(xué)習(xí)unsupervisedfeaturelearni

6、ng學(xué)習(xí)學(xué)習(xí)深度學(xué)習(xí)學(xué)習(xí)特9深度學(xué)習(xí)特特學(xué)習(xí)深度學(xué)習(xí)特度發(fā)特深度第學(xué)習(xí)edge特第二第學(xué)習(xí)motifs特第學(xué)習(xí)part特特第第學(xué)習(xí)object特神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò) #神經(jīng)10神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)80backpropagation11神經(jīng)網(wǎng)絡(luò)111網(wǎng)絡(luò)網(wǎng)絡(luò)90神經(jīng)網(wǎng)絡(luò)72006GeofferyHinton神經(jīng)網(wǎng)絡(luò)pre-training神經(jīng)網(wǎng)絡(luò)12Hinton神經(jīng)網(wǎng)絡(luò)13神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)2012HintonImageNet31卷積神經(jīng)網(wǎng)絡(luò)Convolutionalneuralnetwork15%811神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)CNNRNN神經(jīng)網(wǎng)絡(luò)DNNRecurrentneuralnetwork神經(jīng)網(wǎng)絡(luò)

7、CNN網(wǎng)絡(luò)RNNCNNCNNCNN卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)14卷積神經(jīng)網(wǎng)絡(luò)感受野89*89感受野89*894局部28局部感受野局部局部局部局部96*96感受野感受野10096x96x100846400.(1)感受野8*8patch感受野8*8=6496*96局部局部局部8*8Eq.296-8,1x96-8,189x89.權(quán)值共享權(quán)值共享權(quán)值共享權(quán)值共享5權(quán)值共享288*8權(quán)值共享權(quán)值權(quán)值共享615權(quán)值Sobel權(quán)值Sobel featurerepresentationlearning615map2.2.3.子采樣子采樣子采樣子采樣subsample子采樣pooling7問 # 715的

8、神經(jīng)網(wǎng)絡(luò)的經(jīng)的的的的的89*89的經(jīng)2*2的45*45的的卷積神經(jīng)網(wǎng)絡(luò)卷積卷積卷積卷積神經(jīng)網(wǎng)絡(luò)卷積卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)的卷積的卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)卷積卷積22卷積nn12m的1n,2m1=22nm.的經(jīng)的的的卷積2.3.1.卷積層卷積層卷積層卷積卷積層8LeNet-517卷積層層卷積M*M(Mn+1)x(Mn+1).n*n(7)卷積卷積層12171217全連接層層全連接層層12171217全連接層層全連接層層C3層2.3.3.全連接層16S2層卷積OUTPUT網(wǎng)絡(luò)cost13TOC o 1-5 h zC5的5*5的的的的5*5F6的C5F6OUTPUT的的OUT

9、PUT10卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練的神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)的的14梯度下降梯度下降梯度xy度alpha梯度度s下14梯度下降15梯度t(11)s二talpha.梯度下降 #199020StochasticGradientDescent反向傳播反向傳播(BackPropagation,BP) # # # #傳播反向傳播向傳播反向傳播反向向傳播 # # # #157向傳播Y121Z 圖15前向傳播在前向傳播結(jié)束以后,運(yùn)行反向傳播。反向傳播的基礎(chǔ)原理非常簡單,就是函數(shù)求導(dǎo)中的鏈?zhǔn)椒▌t(chainrule)。鏈?zhǔn)椒▌t的說明可以見Eq.12。,=z_x通過鏈?zhǔn)椒▌t來計(jì)算殘差相對前一層的輸出的導(dǎo)數(shù),然后

10、再推出相對于權(quán)重的導(dǎo)數(shù),也就是梯度。使用反向傳播,可以減輕梯度計(jì)算的復(fù)雜性,讓計(jì)算量顯著降低。圖167是一個(gè)反向傳播的具體示意圖。16本2.5.本章小結(jié)本早本章本章LeNet結(jié)本章 第三章基于深度學(xué)習(xí)的自然場景文字定位方法的設(shè)計(jì)章自然場景文字定位的的文字定位方法的文的-深度學(xué)習(xí)的方法章文方法的需求分析方法的設(shè)計(jì)方法的自然場景文字定位方法的需求分析文的的深度學(xué)習(xí)設(shè)計(jì)自然場景文的自定位方法性自然場景的文字定位方法需的功能需求非功能需求需求3.1.1.功能性需求方法自然場景的性文字定位方法方法需的文字能定位場景景的字方法需分的文字能定位方法需求1性方法能的景方法于的定的性的方法能的文字的字字2方法能

11、文字的的的方法于文字的定的分能方法的的文字的80%非功能性需求1方法的定位的定的方法的性的能的定位功能的文字的定位方法2方法方法的的方法的需求的的功能性需求方法能非功能性需求非功能性需求的需求的求性的需求code需求OpenCV3.1.3.接口需求需接口需求MSER5標(biāo)設(shè)需需標(biāo)需需C+OpenCV3.0Caffe24設(shè)計(jì)目標(biāo)需求設(shè)計(jì)需標(biāo)190%ICDAR201560%285%ICDAR201555%3640*480Is3880*259254500MB250MB設(shè)計(jì)思想與依據(jù)MSER與CNN字設(shè)計(jì)思想2連體字符3處理3.3.1.與深度特征MSER度依特征與CNN計(jì)1MSER與深度特征字符MSER

12、度MSERCNN特征字MSERCNN字符據(jù)深度特征特征MSERCNN與CNN處特征CNN體連體字符處理MSER字符處理MSERCNN字符字符字符字符CNNCNN連體字連體字符連體字符MSER字符與連體字符處理連體字符處理連體字符與連體字符字符連體字符CNN連體字符 #CNN與字符字符LeNet17AlexNet8體字的檢測方法的的字字的字的字的字通的體字3.3.3.多通道檢測的文CrCbMSER法CrCb的Labcanny多通道檢測法6的法的景的的29的文字的YMSER法文多通道的檢測YCrCbLab通道的MSER的的方自然場景文字定位方法的總體框架文自然的文字定位方法的的文字定位的自然場景文

13、字定位方法測測方法MSER文字檢測文檢測的1的YCrCbLab然CrCbab通道法的2MSER文的MSER方法6MSERvariation定位的MSER的MSER字文字檢測字體字體字3文字檢測文的字的文的文字CNNLeNet-5的架自然場景的文字檢測文方法的體的的4文字檢測的字法文方法的的文方法的法文文17本本章小結(jié)本章本本章本章的自然場景的的自然場景的1818的18(a)18(b)度的185的法的算的度MSER的間T的間于5T的法的90%的的的OpenCV3.0的MSER算法實(shí)現(xiàn)間的MSER21算實(shí)算的19Rt定pq22ERB(P)B(q)vr(R),tR-Rt-deltatdeltaRt(

14、14)deltadelta5minArea和maxAreaERminArea0.00005maxAreaER20221920ER224.2.2.子路徑分割和裁剪MSER子6MSER1子路徑分割2子路徑裁剪子路徑分割MSERER路徑ER路徑和升了對字符提取的準(zhǔn)確率。圖21ER樹6圖21(a)說明了這種全路徑下variation最小但卻不是字符區(qū)域。21(b)是使用了子路徑后的算法效果。一個(gè)路徑被劃分為子路徑的依據(jù)是兩個(gè)相鄰的ER之間的一個(gè)度量-similarity,這個(gè)值由Eq.15來定義。(15)(15)s(R,R)=tt+1A(R)nA(R)tt+1A(R)A(R)tt+1ERsimilar

15、ity0.7774.2.3.正則化variation正則化“”Eq.16ERERERregularizedvariationvar+theta1x(a-a)ifaamaxmaxvar=var+theta2x(a-a)ifanext_)sub_path_length=0;if(wp.p.subPath)Rectrect_inter=rect&c-rect;Rectrect_union=rect|c-rect;floatarea_inter=float(rect_inter.area();floatarea_union=float(rect_union.area();floatsimilty=ar

16、ea_inter/area_union;if(similtyvar=0.f&varc-var)return;sub_path_length+;if(wp.p.realMSER)CompHistory*d=c-child_;CompHistory*parent=c;for(;d!=0;d=d-child_)if(wp.p.subPath)Rectrect_inter=parent-rect&d-rect;Rectrect_union=parent-rect|d-rect;floatarea_inter=float(rect_inter.area();floatarea_union=float(r

17、ect_union.area();floatsimilty=area_inter/area_union;if(similtyvar=0.f&vard-var)return;parent=d;sub_path_length+;if(wp.p.usePrune&sub_path_lengtha_max)var=var+theta_1*(aspect-a_max);elseif(aspecta_min)var=var+theta_2*(a_min-aspect);elsevar=var;5.4.2.識別CNN識別Caffe241識別stringmodel_file=model/char/char_t

18、otxt;stringtrained_file=model/char/char_network.caffemodel;stringmean_file=model/char/char_mean.binaryproto;stringlabel_file=model/char/char_labels.txt;Classifierclassifier_char(model_file,trained_file,mean_file,label_file);vectorpredictions=classifier_char.Classify(roi);Predictionpredict=prediction

19、s0;if(predict.first=isisChar&predict.second0.99)2stringtext_model_file=model/text/text_totxt;stringtext_trained_file=model/text/text_network.caffemodel;stringtext_mean_file=model/text/text_mean.binaryproto;stringtext_label_file=model/text/text_labels.txt;Classifierclassifier_text(text_model_file,tex

20、t_trained_file,text_mean_file,text_label_file);vectorpredictions=classifier_text.Classify(text_color);Predictionp=predictions0;if(p.first=isTextisText&p.second0.99)5.4.3.合并與分割合并與分割booluseSplit=true;if(1)size_trect_size=vecERRemove.size();if(rect_size=0)continue;vectorlabels;intnumbers=partition(vecE

21、RRemove,labels,&compareER);for(intj=0;jnumbers;j+)vectorcharrects;for(intt=0;trect_size;t+)intlabel=labelst;if(label=j)charrects.push_back(vecERRemovet.rect);sort(charrects.begin(),charrects.end(),rectSort);vectorvectorspiltvecvecrects;if(useSplit)intlast_spacing=0;vectorspiltvecrect;boolnew_word=tr

22、ue;for(intz=0;z3*last_spacing&last_spacing0)new_word=true,spacing=0;spiltvecvecrects.push_back(spiltvecrect);spiltvecrect=vector();continue;if(z=charrects.size()-2)spiltvecrect.push_back(charrectsz+1);spiltvecvecrects.push_back(spiltvecrect);last_spacing=spacing;elsespiltvecvecrects.push_back(charre

23、cts);本章小結(jié)本章本結(jié)本章本 # 1. 第六章總結(jié)與展望6.1.本文總結(jié)文與文工作第一步一步文本文文文下文下文與結(jié)本文工作下1展一2下文一結(jié)MSER與CNNMSERCNN文CNN與3CNN結(jié)本文CNN4ICDAR2015文本與本本文與1一結(jié)MSER與文MSER工作一MSER一步作工作MSER36.2.下一步工作下文文MSERj_R一一步MSER2本方法中在進(jìn)行文字檢測時(shí),舍棄了文字的筆畫等信息,因此造成了文字檢測的準(zhǔn)確率不高。同時(shí),CNN在訓(xùn)練時(shí),沒有使用預(yù)先初始化的非監(jiān)督訓(xùn)練方法以提高CNN的特征抽取能力,影響了CNN檢測的效果。3本方法在定位時(shí),會產(chǎn)生較多的負(fù)樣本,例如墻壁,草叢等等,

24、在后續(xù)的進(jìn)一步工作中,會考慮加大這些負(fù)樣本的權(quán)重,從而更好地排除類似的誤檢物體。 1. #Pan,Y.F.,Hou,X.,Liu,C.L.:Textlocalizationinnaturalsceneimagesbasedonconditionalrandomfield.In:Proc.ICDAR.(2009)JADERBERG,M.,SIMONYAN,K.,VEDALDI,A.,ANDZISSERMAN,A.2014.Readingtextinthewildwithconvolutionalneuralnetworks.arXivpreprintarXiv:1412.1842.J.Matas

25、,O.Chum,M.Urban,andT.Pajdla,“RobustWideBaselineStereofromMaximallyStableExtremalRegions,”Proc.BritishMachineVisionConf.,pp.384-393,2002.Neumann,L.,Matas,J.:Real-timescenetextlocalizationandrecognition.In:Proc.CVPR.(2012).X.-C.Yin,X.Yin,K.Huang,andH.-W.Hao,“Robusttextdetectioninnaturalsceneimages,”Pa

26、tternAnalysisandMachineIntelligence,IEEETransactionson,vol.36,no.5,pp.970983,May2014.M.-C.Sung,B.Jun,H.ChoandD.Kim,“SceneTextDetectionwithRobustCharacterCandidateExtractionMethod”In:Proc.ICDAR.(2015).YannLeCun,YoshuaBengio&GeoffreyHinton,Deeplearningdoi:10.1038/nature14539Krizhevsky,A.,Sutskever,I.&

27、Hinton,G.ImageNetclassificationwithdeepconvolutionalneuralnetworks.InProc.AdvancesinNeuralInformationProcessingSystems251090-1098(2012).Bengio,Y.,Lamblin,P.,Popovici,D.&Larochelle,H.Greedylayer-wisetrainingofdeepnetworks.InProc.AdvancesinNeuralInformationProcessingSystems19153-160(2006).Hubel,D.H.&W

28、iesel,T.N.Receptivefields,binocularinteraction,andfunctionalarchitectureinthecatsvisualcortex.J.Physiol.160,106-154(1962).Rumelhart,D.E.,Hinton,G.E.&Williams,R.J.Learningrepresentationsbyback-propagatingerrors.Nature323,533536(1986).Hinton,G.E.,Osindero,S.&Teh,Y.-W.Afastlearningalgorithmfordeepbelie

29、fnets.NeuralComp.18,15271554(2006).Hinton,G.E.&Salakhutdinov,R.Reducingthedimensionalityofdatawithneuralnetworks.Science313,504-507(2006).LeCun,Y.etal.Handwrittendigitrecognitionwithaback-propagationnetwork.InProc.AdvancesinNeuralInformationProcessingSystems396-404(1990).AndrewNg.etal.UnsupervisedFe

30、atureLearningandDeepLearningTutorial HYPERLINK /tutorial/tutorial/.Glorot,X.,Bordes,A.&Bengio.Y.Deepsparserectifierneuralnetworks.InProc.14thInternationalConferenceonArtificialIntelligenceandStatistics315-323(2011).LeCun,Y.,Bottou,L.,Bengio,Y.&Haffner,P.Gradient-basedlearningappliedtodocumentrecogni

31、tion.Proc.IEEE86,2278-2324(1998).Srivastava,N.,Hinton,G.,Krizhevsky,A.,Sutskever,I.&Salakhutdinov,R.Dropout:asimplewaytopreventneuralnetworksfromoverfitting.J.MachineLearningRes.15,1929-1958(2014).Dauphin,Y.etal.Identifyingandattackingthesaddlepointprobleminhigh-dimensionalnon-convexoptimization.InP

32、roc.AdvancesinNeuralInformationProcessingSystems272933-2941(2014).Choromanska,A.,Henaff,M.,Mathieu,M.,Arous,G.B.&LeCun,Y.Thelosssurfaceofmultilayernetworks.InProc.ConferenceonAIandStatistics/abs/1412.0233(2014).DavidNisterandHenrikStewenius.LinearTimeMaximallyStableExtremalRegions.In:Proc.ECCV.(2008

33、).MichaelD.andHorstB.,EfficientMaximallyStableExtremalRegion(MSER)Tracking.In:Proc.CVPR.(2006).ChristianWolfandJean-MichelJolion.Objectcount/AreaGraphsfortheEvaluationofObjectDetectionandSegmentationAlgorithms,In:Proc.ICDAR.(2006).Jia,YangqingandShelhamer,Evan.etal.Caffe:ConvolutionalArchitectureforFastFeatureEmb

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論