




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第1章 模式識別概 本白皮書內(nèi)容組 第2章模式識別研究現(xiàn) 模式識別基礎(chǔ)理 計(jì)算機(jī)視 應(yīng)用基礎(chǔ)研 生物特征識 文字識 語音識 第3章技術(shù)應(yīng)用情 圖像與視頻檢 智能視頻監(jiān) 生物特征識 文字識 語音識 第4章國內(nèi)研究特色與差 模式識別基 計(jì)算機(jī)視 生物特征識 文字識 語音識 第5章未來挑戰(zhàn)和發(fā)展趨 第6章結(jié)束 第1章 模式識別(PatternRecognition)是通過分析感知數(shù)據(jù)(圖像、視頻、語音2050術(shù)會議。1972(ICPR,IJCPR)召開。國際模式識別學(xué)會(IAPR)1974ICPR1978世紀(jì)出現(xiàn)的貝葉斯規(guī)則及后來的高斯分布、伯努利分布、Fisher等。20世紀(jì)70到80年代,句法和結(jié)構(gòu)模式識別方法受到高度重視。80年代末到90年代中,人工神經(jīng)網(wǎng)絡(luò)非常熱門,后來逐漸被支撐向量機(jī)和核方法蓋過了風(fēng)頭。90年代末到21世紀(jì)以來,隨著模式識別應(yīng)用普及和面對的問題越來越為當(dāng)前最熱門的方法。21世紀(jì)以來也是計(jì)算機(jī)視覺領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域快速發(fā)展的時期,相關(guān)學(xué)術(shù)會議Computer and InternationalConferenceonMachineLearning(ICML)等日益受到高度重征識別、文字識別、語音識別)34562UIUCJ.Wright[1]利用模式間的稀疏性設(shè)計(jì)出一種基于稀疏表示分類(Sparserepresentation-basedclassification)方法,該方法的基本思想是,一個待上,E.Elhamifar等[2]提出了結(jié)構(gòu)化的稀疏表示分類器。J.Yang等[3]討論了稀疏表示分類器的機(jī)理問題,為基于L1范數(shù)的稀疏表示分類提供了理論依據(jù)。他們指出,稀疏表示分類器只所以有效的根本原因在于L1-optimizer 的鄰近性,而不是L0-optimizer解的“稀疏”性。稀疏表示分類器的有效性依賴于L1-假設(shè)(鄰近性假設(shè)):在所有的樣本中,依賴于同類樣本的表示所產(chǎn)L1-optimizerL1LaplacianYang[4]借鑒穩(wěn)健回歸的思想,提出了正則化的穩(wěn)健稀疏編碼方法,R.He計(jì)。針對這一問題,E.J.Candes,Y.Ma,和J.Wright量分析(RobustPCA)理論與方法[6,7],該理論假設(shè)污染是稀疏的而數(shù)據(jù)矩陣是低秩的,從而將數(shù)據(jù)矩陣分解為兩部分:低秩部分(真實(shí)數(shù)據(jù)的估計(jì)項(xiàng))和
L+S=A A,L,S,受穩(wěn)健主分量分析啟發(fā),G.Liu[8]續(xù)遮擋所產(chǎn)生的噪聲往往是高度相關(guān)的;(2)Zhang11996SIGKDDDBSCAN[11]。除此之外,核方法[12]、多中心點(diǎn)模型[13]也是 (b)線性可分?jǐn)?shù)據(jù)集圖1.非線性可分?jǐn)?shù)據(jù)集與線性可分?jǐn)?shù)據(jù)集的傳統(tǒng)作法,集成聚類(ensembleclustering)可以將多個聚類算法所得的聚2:(1)基聚類加2.3.析(canonicalcorrelationanalysis)的多視圖聚類[18]與多視圖譜聚類3算法(BackPropagation,BP)訓(xùn)練機(jī)器(如:深度前饋網(wǎng)絡(luò)和遞歸網(wǎng)絡(luò)等)如何圖4.意的結(jié)果。2006HintonBP[22]45.YuCVPR'12源于神經(jīng)生物學(xué)的局部感受野原理,LeCunBP度卷積網(wǎng)絡(luò)(Deepconvolutionalnets,DConvNets)[23],它是由多個單層卷3階段,如圖5所示。此結(jié)構(gòu)對圖像的平移、小尺度縮放和扭曲等具有高度不變性。隨著GPU、ReLU激活函數(shù)、DropOut和數(shù)據(jù)增廣的引入,DConvNets在圖像分類問題上獲得了驚人的結(jié)果,即在ImageNet挑戰(zhàn)庫上將前5選項(xiàng)錯誤率從26.5%降到15.3%[24] 測、目標(biāo)跟蹤、場景識別和3D物體識別等方面取得了優(yōu)異的性能。圖6.遞歸神經(jīng)網(wǎng)絡(luò)與前饋神經(jīng)網(wǎng)絡(luò)不同之處是,遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetworks,6RNN(longshort-termmemorynetworks,LSTM)[26]能有效地學(xué)習(xí)和長期保存時間序列信息,并DConvNetsBoosting進(jìn)行有效結(jié)合、從而獲得學(xué)習(xí)效果更好、更魯棒的學(xué)習(xí)方法。Boosting方面:i)ShareBoost[33];ii)基于深度基學(xué)習(xí)(分類Marr“Whatis7.SVM件模型(DeformablePartModels)[41]。將形變部件模型與結(jié)構(gòu)化學(xué)習(xí)結(jié)合的隱條件隨機(jī)場模型(latentCRFs)[42],SVM2012深度學(xué)習(xí)方法[24]ImageNet物體分類的任務(wù)是判斷一幅圖像中是否存在某類別的物體。物體分類的一個應(yīng)用是基于關(guān)鍵詞的圖像搜索引擎。系統(tǒng)在離線階段對圖像庫中的圖像進(jìn)行分類(一幅圖像可以有多個類別。在在線階段,用戶只需輸入關(guān)鍵詞,搜索引擎就可以返回相關(guān)圖像。物體分類是一個很困難的問題,主要原因有類內(nèi)差異大(不同種類的椅子,具體物體本身的變化多(擺出各種姿態(tài)的狗,以及成像條件不同(拍照視角、光照等。但是近年來物體分類取得了很大發(fā)展,相關(guān)文獻(xiàn)很多,每年舉辦的競賽(PASCAL VOC競賽[46]和ImageNet競賽[47])吸引了眾多機(jī)構(gòu)參賽。2012年前,主流的物體分類方法采用的是詞袋(Bag-of-word)模型[48]加支持向量分類器。2012年之前每年P(guān)ASCAL VOC競賽的第一名采用的都是這一類方法。2012年Krzhevsky等人將卷積神經(jīng)網(wǎng)絡(luò)用到ImageNet物體分類競賽中,獲得了巨大的成功。ImageNet上2010和2011年的最佳算法的最低前五類錯誤率分別為28.2%和25.8%,而在2012年Krzhevsky等人的7層CNN將前五類錯誤率顯著降至16.4%。在此之后的ImageNet最優(yōu)算法也均使用了CNN。例如在2014年,最低前五類錯誤率達(dá)到6.7%,由Google公司的Szegedy等人實(shí)現(xiàn)。除了物體分類問題,場景分類也受到了很多關(guān)注[49,50]。圖像匹配:如何將不同圖像中的同一視覺特征(BRIEF[53]等二進(jìn)制特征描述子是目前最快的特征描述子計(jì)算方法。在魯棒性方面的描述子研究中,F(xiàn)an[54]提出的基于灰度序多視幾何理論:2000,HartleyZisserman[56]出版專著《ViewGeometry》一書,標(biāo)志著多視幾何理論的研究趨于成熟。2005,KahlHenrion[57]提出一個多視幾何中的統(tǒng)計(jì)優(yōu)化計(jì)算框架,解決了傳統(tǒng)算法中5[58-60]。在其它方面,Pajdla[61]全Naroditsky[62]給出最小幾何問題的優(yōu)化多項(xiàng)式求解方法。Ponce[63]研究了射影形狀的圖像輪廓。一些改進(jìn)和完善性的工作有:Fredriksson[64]研究了兩視圖相機(jī)之間的平移快速與可靠估計(jì);PonceHebert[65]應(yīng)用射影線幾何給出了三視下可相機(jī)標(biāo)定 最流行的相機(jī)標(biāo)定方法是Zhang[136]的基于平面已知點(diǎn)的[67]2001GeyerDaniilidis[68]提出反射折射相機(jī)球射影模型后,最新的相關(guān)工作有[69]。最近,相機(jī)標(biāo)定面向具體任務(wù)和深度相機(jī)(如或者給出更魯棒的標(biāo)定方法[72] 位,在小場景和大場景下的研究問題不同?;谝曨l的定位主要是SLAM(Simultaneouslylocalizationandmapping)SIFTLim[75],Galvez-LopezTardos[76]采用二進(jìn)SLAMGPUSLAMDTAM[78];SLAM[79]和基于圖的方法有[80];IMUSLAM[81]。針對動態(tài)物體,大多數(shù)方法使用深度相機(jī)[82][83];2D三維重建 基于圖像的三維重建,即從二維圖像恢復(fù)場景三維結(jié)構(gòu)是計(jì)88.動恢復(fù)結(jié)構(gòu)的方法(StructurefromMotion,SfM)進(jìn)行計(jì)算。SfMSfM方法[85],SfMSfM[86]。在獲得每幅圖像的相機(jī)內(nèi)外參數(shù)后,三維重建系統(tǒng)會MITStaufferGrimson[88]首先通過背景建模等方法檢測每幀圖像中的前景目標(biāo),并通過時TLD[91]Error!Referencesourcenotfound.算法在這些大規(guī)模數(shù)據(jù)Error! found.[93]與攝像頭網(wǎng)絡(luò)拓?fù)洌╰hetopologynetworkMEIMHI[95]以及馬爾科夫模型和動態(tài)題模型(TopicModel)[99]Ji[100]提出的三維卷積神經(jīng)網(wǎng)絡(luò),Karpathy[101]提出的慢融合模型(SlowFusionModel)[108]、眼動[109]、手機(jī)劃屏[110]等、新傳感(RGB-DKinect、光場相機(jī)、3D、新模型(SparseNetwork9.MCC[115]。一個中央細(xì)節(jié)點(diǎn)的MCCMCC10.MCCBolognaFVC-ongoing(https://biolab.csr.unibo.it/fvcongoing/0.1%左右的等錯誤率,在較低質(zhì)量測試庫0.687%的等錯誤率。重要進(jìn)展。例如,Wright示方法(SparseRepresentationClassification,SRC)[1],在人臉識別領(lǐng)域產(chǎn)生了重要影響。He學(xué)、Google、Facebook、Face++LFW據(jù)庫上識別精度屢創(chuàng)新高(99.77%的識別精度。但是更具挑戰(zhàn)收率條件下),說明非受控場景人臉識別仍然存在進(jìn)一步提升的空間。LiaoMulti-KeypointDescriptors(MKD)的人臉識別方法,該方法不vs;4)vs;5)低分辨率人臉識別92%。用場景中適應(yīng)遠(yuǎn)距離、行進(jìn)中、低質(zhì)量虹膜圖像的有效性,ProencaNICE神經(jīng)網(wǎng)絡(luò)進(jìn)行低質(zhì)量虹膜圖像分割[121]。在虹膜圖像特征表達(dá)方面,Sun提出了定序測量特征(OrdinalMeasures,OM)來表達(dá)虹膜紋理圖像的識別信OM征的加權(quán)匹配方法[123]和特征選擇方法[124]。Sun文字識別,更廣義地成為文檔分析(DocumentAnalysis),內(nèi)容包括文檔圖[127]CompetitiononHandwrittenDocumentImageBinarization(H-DIBCO2010,2012,2014)吸引了大量研究者參加。另一個預(yù)End-to-End[134]。在文本定位基礎(chǔ)于隱馬爾可夫模型(HMM)和神經(jīng)網(wǎng)絡(luò)混合的方法仍然被廣泛采用[139].在中文器,CNN10%,很展,以隱馬爾可夫模型(HiddenMarkovModel,HMM)和統(tǒng)計(jì)語言模型為基礎(chǔ)的語音識別技術(shù)[148],20212011[149],使用深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN)GMM-HMM神經(jīng)網(wǎng)絡(luò)(ConvolutionNeuralNetwork,CNN)[154]、長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)(LongShortTermMemoryRecurrentNeuralNetwork,LSTM-RNN)等 有限狀態(tài)機(jī)(WeightedFiniteStateTransducer,WFST)被應(yīng)用于語音識別雜度,也成為研究人員進(jìn)一步探索的目標(biāo)[159]此外,在說話人識別研究中,由于基于身份認(rèn)證矢量(identityvector,i-vector)[160],性能顯著優(yōu)于之前廣泛采用的高斯混合模型超矢量-支持矢量機(jī)(Gaussianmixturemodelsupervector-supportvectormachine,GSV-SVM)以及聯(lián)合因子分析(Jointfactoranalysis,JFA),近幾年已被廣泛使用,并促進(jìn)了說話人識別和語種識別的大3(URL201012201212;201366;201373011Idéetineye(/12tineye11.12.TineeyeTineyeTineye;3、查看圖片來源和相關(guān)信Tineye,市場上還有很多其他的圖像搜索引擎,比如(/flickerflicker;;Incogna(控系統(tǒng)被開發(fā),如早期卡內(nèi)基梅隆大學(xué)開發(fā)的VSAM(Visual andMonitoring)系統(tǒng)、IBM開發(fā)的SSS(SmartSurveillanceSystem)系統(tǒng)、中佛羅里達(dá)大學(xué)研發(fā)的Knight系統(tǒng)、中科院自動化所研發(fā)的Vstar系統(tǒng)京漢王科技、上海卓揚(yáng)科技、北京智安邦科技和北京文安科技等等。2013年到2018我國智能視頻監(jiān)控行業(yè)總產(chǎn)值預(yù)測如下圖,從中我們可以看出,智能視頻13.2013~20181008.8展。從2013年開始,蘋果和三星等開始在高端手機(jī)配置指紋傳感器,智能手機(jī)技術(shù)。根據(jù)Frost&Sullivan的市場分析報(bào)告“Biometrics Overview,20193.96,GoodeIntelligence"MobileandWearableBiometricAuthentication:MarketAnalysisandForecasts2014-2019"報(bào)告指出可穿戴設(shè)備包括智能眼鏡、智能個性化的駕駛、導(dǎo)航、娛樂和信息服務(wù),F(xiàn)ordIntelService了良好條件。2000碼筆(如Anoto ProjectNaptha,基于拍照識別的試題搜索等。Abbyy,Parascript,A2iA,微軟、Google、蘋果、智能手機(jī)、ATM、互聯(lián)網(wǎng)業(yè)務(wù)(如電子商務(wù)和內(nèi)容搜索)或綜合信息處理系14.目前,典型的語音云計(jì)算平臺有:蘋果Siri系統(tǒng)、Google 統(tǒng)、Nuance語音云、微軟Cortana系統(tǒng)、IBM Mashup系統(tǒng)、科大訊飛語音云、百度語音云、云之聲語音云、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 運(yùn)動損傷防護(hù)考核試卷
- 醫(yī)保相關(guān)審批管理制度
- 公司榮譽(yù)勛章管理制度
- 計(jì)算機(jī)四級軟件測試分析工具試題及答案
- 醫(yī)藥研發(fā)中心管理制度
- 安防公司安全管理制度
- 農(nóng)業(yè)項(xiàng)目引進(jìn)管理制度
- 培訓(xùn)機(jī)構(gòu)營運(yùn)管理制度
- 園林苗木施工管理制度
- 遠(yuǎn)程工作中的網(wǎng)絡(luò)技術(shù)試題及答案
- GB∕T 15762-2020 蒸壓加氣混凝土板
- 護(hù)士分層級培訓(xùn)與管理課件
- 廣州版五年級英語下冊期末知識點(diǎn)復(fù)習(xí)ppt課件
- 照明電氣安裝工程施工方案及工藝方法要求
- 產(chǎn)品研發(fā)流程管理制度管理辦法
- 計(jì)算方法全書課件完整版ppt整本書電子教案最全教學(xué)教程ppt課件
- 公路工程施工安全技術(shù)規(guī)范-JTG-F90-2015
- 單代號網(wǎng)絡(luò)圖
- Q∕GDW 11958-2020 國家電網(wǎng)有限公司應(yīng)急預(yù)案編制規(guī)范
- 城垃圾填埋場垃圾滲濾液處理成本核算
- 汽車設(shè)計(jì)-轉(zhuǎn)向系設(shè)計(jì)說明書
評論
0/150
提交評論