大熊貓識(shí)別技術(shù)規(guī)范_第1頁(yè)
大熊貓識(shí)別技術(shù)規(guī)范_第2頁(yè)
大熊貓識(shí)別技術(shù)規(guī)范_第3頁(yè)
大熊貓識(shí)別技術(shù)規(guī)范_第4頁(yè)
大熊貓識(shí)別技術(shù)規(guī)范_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大熊貓識(shí)別技術(shù)規(guī)范范圍本文件規(guī)定了大熊貓個(gè)體識(shí)別有關(guān)術(shù)語(yǔ)定義、數(shù)據(jù)采集、數(shù)據(jù)分析等。本文件適用于基于圖像和音頻的大熊貓個(gè)體識(shí)別。規(guī)范性引用文件下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。CJJ/T263-2017動(dòng)物園動(dòng)物管理技術(shù)規(guī)程GB/T26238-2010信息技術(shù)生物特征識(shí)別術(shù)語(yǔ)術(shù)語(yǔ)、定義和縮略語(yǔ)術(shù)語(yǔ)和定義下列術(shù)語(yǔ)和定義適用于本文件。生物特征識(shí)別 biometrics基于動(dòng)物個(gè)體的行為特征和生物學(xué)特征,對(duì)個(gè)體進(jìn)行的識(shí)別。目標(biāo)檢測(cè) objectdetection從圖像中找出目標(biāo)的位置坐標(biāo),一般用矩形框框出目標(biāo),并對(duì)該目標(biāo)進(jìn)行分類(lèi)。特征提取 featureextraction使用計(jì)算機(jī)提取大熊貓圖像中屬于特征性的特征序列的方法及過(guò)程。特征比對(duì) featurematching計(jì)算兩個(gè)特征向量之間的相似度。特征比對(duì)包括1:1比對(duì)驗(yàn)證和1:N比對(duì)識(shí)別兩種方式。相似度 similarity衡量?jī)蓚€(gè)特征的相似程度,數(shù)值越大說(shuō)明它們?cè)较嗨啤i撝祎hreshold做出判定所依據(jù)的邊界值或值集。錯(cuò)誤接受率 falseacceptrate在驗(yàn)證過(guò)程中,將新個(gè)體識(shí)別為數(shù)據(jù)庫(kù)中個(gè)體的比率,用百分比表示。錯(cuò)誤接受率也稱(chēng)認(rèn)假率。錯(cuò)誤拒絕率 falserejectrate在驗(yàn)證過(guò)程中,將數(shù)據(jù)庫(kù)中個(gè)體識(shí)別錯(cuò)誤的比率,用百分比表示。錯(cuò)誤拒絕率也稱(chēng)拒真率。殘差網(wǎng)絡(luò)residualnetwork殘差網(wǎng)絡(luò)其內(nèi)部的殘差塊使用了跳躍連接,緩解了在深度神經(jīng)網(wǎng)絡(luò)中增加深度帶來(lái)的梯度消失問(wèn)題。 聲紋voiceprint聲紋是各種常見(jiàn)聲學(xué)特征圖譜的集合,是指通過(guò)專(zhuān)門(mén)的電聲轉(zhuǎn)換儀器(聲譜儀、語(yǔ)圖儀等)將聲音繪制成波普?qǐng)D形。聲紋識(shí)別voiceprintrecognition聲紋識(shí)別常稱(chēng)為說(shuō)話人識(shí)別,該技術(shù)主要通過(guò)提取不同發(fā)聲者語(yǔ)音中的特征參數(shù),經(jīng)過(guò)模型訓(xùn)練和得分計(jì)算等過(guò)程,進(jìn)行語(yǔ)音區(qū)分和個(gè)體識(shí)別。Mel頻率倒譜系數(shù)Mel-FrequencyCepstralCoefficientsMel頻率倒譜系數(shù)是把人耳的聽(tīng)覺(jué)感知特性和語(yǔ)音的產(chǎn)生機(jī)理結(jié)合起來(lái)提取的聲紋特征。快速傅里葉變換fastfouriertransform利用計(jì)算機(jī)計(jì)算離散傅里葉變換(DFT)的高效、快速計(jì)算方法的統(tǒng)稱(chēng)。卷積神經(jīng)網(wǎng)絡(luò)convolutionalneuralnetworks以卷積計(jì)算為主的深度神經(jīng)網(wǎng)絡(luò),通常包含卷積層、批歸一化層、激活層、池化層、全連接層、損失函數(shù)層等基礎(chǔ)結(jié)構(gòu)。長(zhǎng)短期記憶longshort-termmemory長(zhǎng)短期記憶網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,其特殊的結(jié)構(gòu)設(shè)計(jì)使得它可以避免長(zhǎng)期依賴(lài)問(wèn)題,記住很早時(shí)刻的信息是LSTM的默認(rèn)行為,而不需補(bǔ)充專(zhuān)門(mén)為此付出很大代價(jià)。精準(zhǔn)率precision精準(zhǔn)率是指分類(lèi)正確的正樣本個(gè)數(shù)占分類(lèi)器判定為正樣本的個(gè)數(shù)的比例。交并比IntersectionoverUnion交并比是產(chǎn)生的候選框與原標(biāo)記框的交集與并集的比值。縮略語(yǔ)下列縮略語(yǔ)適用于本文件。MFCC:Mel頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients)FFT:快速傅里葉變換(fastfouriertransform)CNN:卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetworks)LSTM:長(zhǎng)短期記憶(longshort-termmemory)IOU:交并比(IntersectionoverUnion)數(shù)據(jù)采集大熊貓圖像采集大熊貓圖像采集流程大熊貓圖像數(shù)據(jù)采集流程如下:通過(guò)調(diào)取某一區(qū)域?qū)?yīng)大熊貓的監(jiān)控視頻或者野外紅外相機(jī)視頻數(shù)據(jù),將含有大熊貓的片段挑選出來(lái),并確認(rèn)視頻片段中每一只大熊貓的身份信息,將挑選的視頻片段與大熊貓身份信息一同記錄完成視頻數(shù)據(jù)采集,然后通過(guò)視頻拆幀的形式將視頻轉(zhuǎn)化成圖像數(shù)據(jù);借助野外紅外相機(jī)或者人工拍照設(shè)備,對(duì)大熊貓個(gè)體進(jìn)行多方位拍攝,將拍攝到的圖片與大熊貓身份信息一同記錄完成圖像數(shù)據(jù)采集工作。大熊貓全身圖像采集大熊貓全身圖像的采集需滿足以下要求:大熊貓全身圖像光線自然,無(wú)過(guò)度曝光,清晰完整;拍攝的畫(huà)面里只有一只目標(biāo)大熊貓;需對(duì)大熊貓進(jìn)行多角度、多方位拍攝,確保每一只大熊貓的正面姿態(tài)、側(cè)面姿態(tài)、背面姿態(tài)至少有一張圖像和一段視頻;大熊貓全身圖像的分辨率不低于QUOTE1080×7201080×720像素。大熊貓臉部圖像采集大熊貓臉部圖像的采集需滿足以下要求:大熊貓正臉圖像光照均勻,無(wú)過(guò)度曝光,清晰完整;大熊貓正臉在水平面方向和垂直面方向上的旋轉(zhuǎn)角度±10°;大熊貓兩眼、耳朵、鼻子、嘴清晰可見(jiàn),重點(diǎn)拍攝睜眼閉眼、張嘴閉嘴等部位姿態(tài),;在不影響關(guān)鍵部位的情況下,允許存在10%QUOTE10%—20%的遮擋;大熊貓臉部圖像的分辨率不低于QUOTE256×256256×256像素。大熊貓個(gè)體圖像檔案庫(kù)建立流程當(dāng)接收到大熊貓圖像數(shù)據(jù)時(shí),應(yīng)讓專(zhuān)業(yè)工作人員對(duì)圖像數(shù)據(jù)進(jìn)行標(biāo)注,確定每一張圖像中大熊貓的具體身份,然后根據(jù)工作人員的標(biāo)注創(chuàng)建多個(gè)文件夾,每一個(gè)文件夾對(duì)應(yīng)著圖像數(shù)據(jù)中的每一只大熊貓,并以對(duì)應(yīng)的該只大熊貓的身份信息命名(例:譜系號(hào)_個(gè)體名),把對(duì)應(yīng)的圖像數(shù)據(jù)存入文件夾中,最后將圖像數(shù)據(jù)的大熊貓身份信息與相應(yīng)的圖像數(shù)據(jù)存儲(chǔ)位置記錄在Excel表格中。大熊貓個(gè)體圖像檔案庫(kù)建立流程需滿足以下要求:每個(gè)文件夾中的圖像數(shù)據(jù)應(yīng)屬于同一只大熊貓,且圖片之間應(yīng)保證唯一,無(wú)重復(fù);每個(gè)文件夾應(yīng)保證唯一,無(wú)重復(fù);Excel表格中的每條記錄應(yīng)保證唯一且準(zhǔn)確。大熊貓聲音采集4.2.1大熊貓聲音采集流程大熊貓聲音采集需滿足以下要求:采樣頻率為44.1kHz,量化精度為16位;所錄制的音頻中包含目標(biāo)大熊貓的聲音;確保每一只大熊貓至少含有一段音頻。4.2.2大熊貓音頻整理收集到的音頻文件過(guò)大,為了便于網(wǎng)絡(luò)模型訓(xùn)練,需補(bǔ)充將原始文件手動(dòng)裁剪成時(shí)長(zhǎng)在規(guī)定范圍內(nèi)的音頻片段。大熊貓音頻整理需滿足以下要求:裁剪后的音頻片段應(yīng)在1秒—2秒之中;裁剪后的音頻應(yīng)保持叫聲清晰、波形完整;裁剪后的音頻應(yīng)保證有且僅包含單個(gè)大熊貓的叫聲。4.2.3大熊貓個(gè)體音頻檔案庫(kù)建立流程當(dāng)接收到大熊貓音頻數(shù)據(jù)時(shí),應(yīng)讓專(zhuān)業(yè)工作人員對(duì)音頻數(shù)據(jù)進(jìn)行標(biāo)注,確定每一段音頻中大熊貓的具體身份,然后根據(jù)工作人員的標(biāo)注創(chuàng)建多個(gè)文件夾,每一個(gè)文件夾對(duì)應(yīng)著音頻數(shù)據(jù)中的每一只大熊貓,并以對(duì)應(yīng)的該只大熊貓的身份信息命名(例:譜系號(hào)_個(gè)體名),把對(duì)應(yīng)的音頻數(shù)據(jù)存入文件夾中,最后將音頻數(shù)據(jù)的大熊貓身份信息與相應(yīng)的音頻數(shù)據(jù)存儲(chǔ)位置記錄在Excel表格中。大熊貓個(gè)體音頻檔案庫(kù)建立流程需滿足以下要求:每個(gè)文件夾中的音頻數(shù)據(jù)應(yīng)屬于同一只大熊貓,且音頻之間應(yīng)保證唯一,無(wú)重復(fù);每個(gè)文件夾應(yīng)保證唯一,無(wú)重復(fù);Excel表格中的每條記錄應(yīng)保證唯一且準(zhǔn)確。數(shù)據(jù)處理大熊貓圖像數(shù)據(jù)處理大熊貓臉部圖像檢測(cè)第一階段給定一張圖像,從這張圖像中通過(guò)矩形框框出大熊貓正臉區(qū)域。如果在一幅圖像中檢測(cè)到超過(guò)一個(gè)大熊貓臉,則只返回面積最大的那一個(gè)。得到邊界框后,根據(jù)該邊界框裁剪大熊貓的臉部圖像,裁剪后的圖像轉(zhuǎn)換為單通道灰度圖。大熊貓正臉圖像檢測(cè)算法需滿足以下要求:算法推理的實(shí)時(shí)性應(yīng)達(dá)到QUOTE20??????20FPS;當(dāng)無(wú)新個(gè)體圖像輸入時(shí),檢測(cè)算法Rank-1準(zhǔn)確度應(yīng)達(dá)到96%,Rank-5準(zhǔn)確度應(yīng)達(dá)到97%;當(dāng)交并比(IOU)達(dá)到70%時(shí),檢測(cè)精度應(yīng)達(dá)到90%QUOTE90%。大熊貓正臉圖像分割將檢測(cè)得到的大熊貓正臉圖像輸入至預(yù)訓(xùn)練后的殘差網(wǎng)絡(luò)中,提取特征,接著將輸出的特征圖輸入至面部分割網(wǎng)絡(luò)中,生成二元掩膜。二元掩膜與原輸入臉部圖像相乘,輸出分割后的大熊貓正臉圖像。大熊貓正臉圖像分割算法需滿足以下要求:大熊貓正臉圖像部分與分割后圖像IOU不低于90%。大熊貓正臉對(duì)齊將分割后的圖像輸入至面部對(duì)齊網(wǎng)絡(luò)中,提取正臉特征,并裁剪,接著確定裁剪后的圖像依據(jù)模板進(jìn)行校準(zhǔn)。大熊貓正臉圖像對(duì)齊算法需滿足以下要求:算法推理的實(shí)時(shí)性應(yīng)達(dá)到30FPS;關(guān)鍵點(diǎn)預(yù)測(cè)誤差應(yīng)不大于5像素。大熊貓音頻數(shù)據(jù)處理大熊貓音頻降噪處理大熊貓音頻樣本在錄制的過(guò)程中可能會(huì)參雜其他噪聲,影響音頻文件的質(zhì)量,在進(jìn)行特征提取之前需補(bǔ)充對(duì)音頻進(jìn)行降噪處理。大熊貓音頻降噪處理需滿足以下要求:降噪后的音頻信噪比應(yīng)不低于90db。大熊貓正臉數(shù)據(jù)庫(kù)通過(guò)智能成像設(shè)備采集,批量導(dǎo)入實(shí)現(xiàn)大熊貓正臉圖像數(shù)據(jù)注冊(cè)。在大熊貓臉部圖像登記過(guò)程中,實(shí)現(xiàn)大熊貓臉部圖像與大熊貓標(biāo)識(shí)之間綁定關(guān)系的建立。大熊貓臉部數(shù)據(jù)庫(kù)需滿足以下要求:對(duì)所有圖像,標(biāo)注大熊貓正臉目標(biāo)框區(qū)域的左上角和右下角坐標(biāo);對(duì)大熊貓正臉圖像使用多邊形來(lái)標(biāo)注左耳、右耳、左眼、右眼、鼻子、嘴巴、正臉;使用SSIM方法測(cè)量圖像間的像素及相似度,進(jìn)行圖像去重操作。大熊貓識(shí)別大熊貓正臉識(shí)別給定一張裁剪好并對(duì)齊后的大熊貓正臉圖像,使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取特征并用于身份識(shí)別。首先,使用ResNet-50卷積神經(jīng)網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練;接著,用處理好的大熊貓正臉圖像對(duì)該模型進(jìn)行微調(diào);最后,將微調(diào)得到的ResNet-50模型用于從輸入的大熊貓正臉圖像中提取特征?,并根據(jù)特征間的余弦距離計(jì)算兩幅大熊貓正臉圖像的相似度。為了確定輸入大熊貓正臉圖像的身份,首先如上所述提取其臉部特征,然后將其與注冊(cè)集中登記的所有大熊貓正臉圖像特征進(jìn)行比較。它的身份最終被確定為與它最相似的特征所屬的大熊貓身份。在最后輸出層會(huì)增設(shè)一個(gè)節(jié)點(diǎn),此節(jié)點(diǎn)會(huì)輸出此大熊貓不是注冊(cè)集中任意一只大熊貓的概率。指定一個(gè)閾值,若概率大于閾值,則輸入的大熊貓圖像被判定為未知的大熊貓新個(gè)體。大熊貓正臉圖像識(shí)別算法需滿足以下要求:當(dāng)錯(cuò)誤接受率為5%時(shí),算法識(shí)別出新個(gè)體準(zhǔn)確率不低于93%;當(dāng)無(wú)新個(gè)體輸入時(shí),算法Rank-1應(yīng)不低于96%,算法Rank-5應(yīng)不低于97%;當(dāng)存在新個(gè)體輸入時(shí),算法Rank-1應(yīng)不低于92%,Rank-5應(yīng)不低于95%。大熊貓聲紋識(shí)別MFCC是把人耳的聽(tīng)覺(jué)感知特性和語(yǔ)音的產(chǎn)生機(jī)理結(jié)合起來(lái)提取的聲紋特征。MFCC特征的提取流程如下:將語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀、加窗;進(jìn)行FFT變換到頻域,通過(guò)Mel尺度的濾波器陣列后,濾波器輸出后進(jìn)行離散余弦變換。給定一段音頻文件的MFCC特征,使用卷積神經(jīng)網(wǎng)絡(luò)提取MFCC中的關(guān)鍵性特征并用于身份識(shí)別。使用卷積神經(jīng)網(wǎng)絡(luò)提取MFCC中的關(guān)鍵性特征流程如下:使用CNN卷積神經(jīng)網(wǎng)絡(luò)在空間維度上提取表征能力強(qiáng)的高層特征;通過(guò)調(diào)整層將特征調(diào)整到一定的維度,輸入至LSTM網(wǎng)絡(luò),學(xué)習(xí)音頻段中更深層的時(shí)間信息;送入最后的全連接層,對(duì)音頻進(jìn)行識(shí)別,輸出對(duì)應(yīng)每個(gè)大熊貓的概率。大熊貓聲紋識(shí)別需滿足以下要求:預(yù)加重參數(shù)為0.85;b)分幀加窗時(shí)幀長(zhǎng)為2048,幀移

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論