版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第七章圖像數(shù)據(jù)分析5.1卷積神經(jīng)網(wǎng)絡(luò)5.2卷積神經(jīng)網(wǎng)絡(luò)CNN5.3RNN和LSTM5.4強(qiáng)化學(xué)習(xí)5.5貝葉斯圖網(wǎng)絡(luò)5.6自編碼器5.7生成對抗網(wǎng)絡(luò)目錄和內(nèi)容圖像數(shù)據(jù)分析的任務(wù)分類、檢測、分割、檢索、推薦、行人重識別。。。圖像數(shù)據(jù)分析的任務(wù)
分類任務(wù):針對給定的圖像或視頻,判斷其中的目標(biāo)包含什么類別。檢測任務(wù):針對給定的圖像和視頻,定位出某目標(biāo)的位置,進(jìn)一步判定目標(biāo)物的類別。分割任務(wù):針對給定的圖像或視頻,判斷不同像素區(qū)域?qū)儆谀囊粋€目標(biāo)物或場景。分為實例分割(Instance-level)、場景分割(Scene-level)和語義分割。檢索任務(wù):根據(jù)輸入圖像,查找具有相同或相似目標(biāo)、對象或內(nèi)容的其他圖像。推薦任務(wù):從用戶的歷史購買記錄中發(fā)掘其消費偏好,篩選出用戶感興趣的部分,提供個性化的服務(wù)。行人重識別任務(wù)(PersonRe-Identification,簡稱ReID):解決跨攝像頭跨場景下行人的識別與檢索?;诮?jīng)典特征的圖像系統(tǒng)分析框架圖像特征提取是數(shù)據(jù)分析系統(tǒng)的關(guān)鍵步驟基于深度學(xué)習(xí)的圖像分析系統(tǒng)框架
輸入圖像或視頻,系統(tǒng)輸出的結(jié)果為分類標(biāo)簽深度學(xué)習(xí)是端到端的系統(tǒng),特征嵌入在網(wǎng)絡(luò)架構(gòu)中權(quán)值通過網(wǎng)絡(luò)不斷的迭代和優(yōu)化獲得深度特征如何設(shè)計出有效的深度網(wǎng)絡(luò)架構(gòu)和損失函數(shù)是關(guān)鍵經(jīng)典特征和深度學(xué)習(xí)特征的區(qū)別圖像的經(jīng)典特征圖像的經(jīng)典特征分為全局特征和局部特征全局特征描述圖像的整體屬性,為像素級的低層特征例如統(tǒng)計特征、直方圖、顏色特征、紋理特征和形狀特征具有良好的不變性、計算簡單、表示直觀等特點但特征維數(shù)高、計算量大,圖像混疊和有遮擋情況有局限局部特征是對圖像特征的局部表達(dá)特征檢測重復(fù)率高、速度快、易于實現(xiàn)和快速匹配局部特征描述對光照、旋轉(zhuǎn)、視點變化具有魯棒性灰度級在范圍[0,L-1]的數(shù)字圖像的直方圖是一個離散函數(shù)h(rk)=
nknk是圖像中灰度級為rk的像素個數(shù)rk
是第k個灰度級k
=0,1,2,…,L-1rk的增量是1,直方圖可表示:
p(k)=nk圖像中不同灰度級像素出現(xiàn)的次數(shù)圖像的統(tǒng)計特征-灰度直方圖9圖像的統(tǒng)計特征-灰度直方圖統(tǒng)計了圖像像素的灰度級分布或單色彩分布可以看出圖像是否曝光不足或曝光過度圖像的統(tǒng)計特征-顏色直方圖彩色圖像直方圖可以看出各個顏色的規(guī)律性蘋果、大海、草原圖像都有紅、藍(lán)、綠三色直方圖看出主色調(diào)的像素數(shù)量多于其余兩色圖像直方圖的均衡化p(rk)
nk較亮圖象的直方圖當(dāng)圖像的灰度分布不均勻且集中在較窄區(qū)域時采用直方圖均衡化或直方圖規(guī)一化進(jìn)行優(yōu)化處理,使其分布均勻圖像信息熵描述一幅圖像含有的信息量。一幅圖像有K個灰度級,各個灰度級出現(xiàn)的頻率為P
i,圖像的信息熵H用以下公式計算:當(dāng)圖像中的各個灰度級出現(xiàn)的概率相等時,圖像的熵值最大。圖像信息熵圖像的方差和協(xié)方差
圖像的統(tǒng)計特征
圖像信息熵圖像信息熵描述一幅圖像含有的信息量圖像中的各個灰度級出現(xiàn)的概率相等時,圖像的熵值最大圖像的方差和協(xié)方差灰度平均值指一幅圖像中所有像素灰度值的算術(shù)平均值灰度方差反映圖像中各個像素的灰度值與整個圖像灰度平均值的離散程度遙感圖像和灰度圖像的不同之處是前者有多個波段,協(xié)方差也需要考慮各個波段之間的相關(guān)性圖象的顏色特征-顏色空間圖像的顏色特征-顏色矩
AMAStricker和MOrengo提出顏色矩可有效地表示圖像中的顏色分布顏色矩:簡單有效的顏色特征表示方法一階矩(均值mean)二階矩(方差variance)三階矩(斜度skewness)優(yōu)點:不需要顏色空間量化特征向量維數(shù)低缺點:該方法的檢索效率比較低實用中用來過濾圖像以縮小檢索范圍三個顏色矩的數(shù)學(xué)定義如下:
表示彩色圖像第j個像素的第i個顏色分量N表示圖像中的像素個數(shù)。圖像的三個分量Y,U,V圖像的前三階顏色矩組成一個9維直方圖向量,即圖像的顏色特征表示如下:StrickerAMA,OrengoM.SimilarityofColorImages[J].ProceedingsofSPIE-TheInternationalSocietyforOpticalEngineering,1970,2420:381--392.一階矩(均值)二階矩(方差)三階矩(斜度)圖像的形狀特征-傅里葉描述符圖像旋轉(zhuǎn)對傅里葉描述符的影響圖像的形狀特征-不變矩
圖像的形狀特征-形狀參數(shù)區(qū)域面積:描述區(qū)域的大小,對屬于區(qū)域的像素計數(shù),為區(qū)域中的像素總數(shù)。位置:用物體面積的中心表示物體位置,面積中心是單位面積恒定的相同形狀圖形的質(zhì)心。方向:如果物體是細(xì)長的,可以將較長方向的軸定義物體的方向。周長:區(qū)域邊界的長度,即位于區(qū)域邊界上的像素數(shù)目。長軸和短軸:用最小外接矩形法可以求物體的長軸和短軸。圓形度:根據(jù)區(qū)域周長及面積計算,F(xiàn)=(4π面積)/(周長*周長)偏心度:區(qū)域的偏心度常用區(qū)域主軸和輔軸的比來表示,另外一種方法是計算慣性主軸比。圖像的形狀特征-形狀編碼鏈碼是一種邊界的編碼表示法給每個線段邊界一個方向編碼有4-鏈碼和8-鏈碼兩種編碼方法從起點沿邊界編碼,至起點結(jié)束某對象的編碼0123014672354-鏈碼8-鏈碼通常稱之為Freeman鏈碼,表示曲線時需要曲線的起點邊界表達(dá)鏈碼(Freeman碼)圖像的形狀特征-鏈碼表示舉例
4-鏈碼:000033333322222211110011(7*7/24)01203圖像的形狀特征-鏈碼表示
鏈碼表示的問題:1)鏈碼可能很長2)噪音會產(chǎn)生鏈碼3)起點變,鏈碼變改進(jìn)方法:1)加大(寬)網(wǎng)格空間2)依據(jù)原始邊界與結(jié)果的接近程度,確定新點的位置圖像的形狀特征-鏈碼表示舉例4-鏈碼:003332221101(4*4)/120312問題2:1)由于起點的不同,造成編碼的不同2)由于角度的不同,造成編碼的不同改進(jìn)2:1)從固定位置作為起點(最左最上)開始編碼2)通過使用鏈碼的首差代替碼子本身的方式圖像的變換
圖像的灰度變換離散傅里葉變換離散余弦變換圖像的變換-灰度變換[0,L-1]為圖像的灰度級,黑的變白,白的變黑? 原圖動態(tài)范圍太大超出設(shè)備范圍,能丟失細(xì)節(jié)? 解決辦法是對原圖進(jìn)行灰度壓縮,如對數(shù)變換反轉(zhuǎn)變換:
s
L
1
r對數(shù)變換:
s
c
log
1
r
? c是常數(shù)r
026圖像灰度變換-冪次變換冪次變換:s
cr
c和
是正常數(shù)
1
提高灰度級,在正比函數(shù)上方,使圖像變亮
1
降低灰度級,在正比函數(shù)下方,使圖像變暗27
4離散傅立葉變換DFT
離散余弦變換DCT圖像經(jīng)過DCT變換后,其能量主要集中在中低頻分量上DCT變換是網(wǎng)絡(luò)上廣泛使用的JPEG格式中的標(biāo)準(zhǔn)變換圖像的局部特征局部特征提取一般包括特征檢測和特征描述基于局部特征SIFT的提取和匹配框圖圖像的局部特征-邊緣特征
為提取圖像邊緣,需要邊緣濾波器的幫助這類濾波器以矩陣形式存在,稱為卷積核圖像的局部特征-邊緣特征Sobel算子-101-202-101121000-1-2-1檢測水平邊沿模板檢測垂直平邊沿模板將水平模版和垂直模版得到的結(jié)果進(jìn)行方向梯度歸一化運算,得到梯度模版的圖像。計算梯度G值的大小如下圖像的局部特征-邊緣特征拉普拉斯算子拉普拉斯是二階偏導(dǎo)數(shù),對離散圖像:圖像的邊緣特征-拉普拉斯算子
-1-14-1-1-1-1-18-1-1-1-1-111-411111-811111常用Laplace梯度模板-1-15-1-1-1-1-19-1-1-1-1-111-311111-711111對應(yīng)Laplace銳化模板4鄰點模板8鄰點模板未通過平滑濾波邊緣檢測結(jié)果通過平滑濾波邊緣檢測結(jié)果原圖4鄰點模板8鄰點模板原圖8鄰點模板平滑濾波結(jié)果線性濾波器35線性濾波器:包含在濾波器鄰域內(nèi)像素的平均值,為均值濾波器作用:減小圖像灰度的尖銳變化,減小噪聲,但導(dǎo)致邊緣模糊對原始圖像的像素點
,在取局部鄰域加權(quán)和111111111010111010常用模板:1212421211111211113*3均值模板4鄰域均值模板高斯模板加權(quán)平均模板實現(xiàn)過程:將模板對應(yīng)的灰度值相加求平均,用均值代替
圖像的邊緣特征-其他算子Canny算子算法過程:圖像降噪平滑、計算圖像梯度、抑制非極大值、雙閾值篩選Harris角點提取與匹配找往任何方向移動窗口都會引起比較大的灰度變換的角點Harris角點提取結(jié)果圖像的局部特征-紋理特征
灰度共生矩陣GLCM局部二值模式LBP特征LBP特征提取紋理特征-灰度共生矩陣GLCM利用灰度共生矩陣可以得到一系列的紋理特征統(tǒng)計量如能量、對比度、相關(guān)、熵和方差圖像的局部特征-局部二值模式LBP特征
灰度不變性的基本LBP算法3*3的紋理單元窗口3*3窗口的LBP新灰度值圖像的局部特征-局部二值模式LBP特征灰度不變性的圓形LBP算法旋轉(zhuǎn)不變性的LBP算法如果最初得到的LBP特征值為225,它所對應(yīng)的8種LBP模式下的特征值最小為15,則無論圖像如何旋轉(zhuǎn),該像素點的LBP特征值都選擇為15。圖像的局部特征-HOG方向梯度直方圖
HOG(histogramoforientedgradients)步驟:顏色空間歸一化、計算梯度、構(gòu)建單元格生成方向梯度直方圖、區(qū)塊和梯度歸一化預(yù)處理Gamma矯正、灰度化等顏色空間歸一化2.計算圖像XY梯度和方向用sobel計算X和Y的梯度圖像計算梯度的大小和方向3.計算8×8單元格中梯度直方圖圖像的局部特征HOG特征:顏色空間歸一化、計算梯度、構(gòu)建單元格生成方向梯度直方圖、區(qū)塊和梯度歸一化直方圖包含9個箱,對應(yīng)于角度0、20、40...160.使用紅色包圍像素處的梯度角度為10度,星等為4。
10度介于0和20之間,像素的投票均勻分成兩個箱。如果角度大于160度,則介于160和180之間角度為165度的像素按比例貢獻(xiàn)0度箱和160度箱可視化方向梯度直方圖計算定向梯度特征向量的直方圖將8×8個單元格中所有像素的貢獻(xiàn)相加以構(gòu)建9箱直方圖/histogram-of-oriented-gradients/對直方圖進(jìn)行“歸一化”,以便它們不受光照變化的影響HOG特征的特點HOG特征描述子的優(yōu)點:圖像的幾何和光學(xué)形變?nèi)阅鼙3趾芎玫牟蛔冃詤^(qū)塊直方圖歸一化部分抵消了光照變化影響由于不需考慮光照影響,特征維數(shù)降低了HOG特征描述子的缺點:無法處理遮擋問題,對尺度變化敏感檢測窗口大小稍有改變時HOG的表現(xiàn)下降描述子生成速度慢,實時性較差圖像的局部特征-SIFTSIFT特征:(Scale-InvariantFeatureTransform)尺度空間構(gòu)造、關(guān)鍵點尋找、剔除不穩(wěn)定點、關(guān)鍵點方向參數(shù)確定、關(guān)鍵點描述子生成二維高斯核函數(shù)矩陣描述1.尺度空間構(gòu)造(DoG金字塔)圖像的局部特征-SIFTSIFT特征:尺度空間構(gòu)造、關(guān)鍵點尋找、剔除不穩(wěn)定點、關(guān)鍵點方向參數(shù)確定、關(guān)鍵點描述子生成關(guān)鍵點周圍鄰域選擇關(guān)鍵點鄰域塊劃分方向直方圖特征的距離度量
歐式距離:連接兩個點的線段長度余弦相似度:指兩個向量夾角的余弦漢明距離:漢明距離度量兩個向量之間異值個數(shù)漢明距離為2的A、B字符串用于比較兩個相同長度的二進(jìn)制字符串,使用XOR函數(shù)計算兩個向量之間的差。計算不同字符的數(shù)量能夠比較不同字符串之間的相似程度。特征的距離度量
閔科夫斯基距離不同參數(shù)p得到不同距離度量:p=1是曼哈頓距離p=2就是歐氏距離當(dāng)p=∞是切比雪夫距離p可迭代并找到最適合用例的距離度量。特征的匹配策略在特征空間中,距離近的特征被認(rèn)為是相似的,相似度得分高的排在前列.全局特征之間通過向量的歐氏距離、余弦距離等閾值進(jìn)行匹配,策略為:如特征之間的距離小于某個閾值,則認(rèn)為他們相互匹配。但閾值確定非常困難,目標(biāo)容易匹配上多個模型,產(chǎn)生大量的誤匹配。局部特征數(shù)量眾多,需要設(shè)計特殊的索引結(jié)構(gòu)來實現(xiàn)高效度量樹狀索引、倒排索引是最常用的局部描述子匹配方式。特征的匹配策略
馬氏距離圖像的深度分類方法
追溯CNN網(wǎng)絡(luò)的發(fā)展歷程:90年代的LeNet,針對ATM中支票的手寫數(shù)字進(jìn)行識別(Fukushima1980,LeCun1989)從ILSVRC圖像識別競賽,自2012年開始,網(wǎng)絡(luò)越來越深,架構(gòu)越來越復(fù)雜,準(zhǔn)確性越來越高下圖是ILSVRC從2010年到2015年歷年的圖像識別錯誤率
ImageNet圖像識別挑戰(zhàn)賽的網(wǎng)絡(luò)深度和Top-5的錯誤率
CNN網(wǎng)絡(luò)的主要架構(gòu)-LeNet網(wǎng)絡(luò)的架構(gòu)YannLecun在1990年開發(fā)LeNet,用于讀取郵政編碼和數(shù)字。一個5層的CNN,用5x5步長為1的卷積核,用池化層和全鏈接層在獨立字符識別中的準(zhǔn)確度達(dá)到了99.2%。卷積層
卷積層由一組在輸入數(shù)據(jù)上滑動的過濾器組成。每個內(nèi)核都一個寬度×高度的權(quán)重,提取輸入數(shù)據(jù)的特征。訓(xùn)練時權(quán)重用隨機(jī)值初始化,然后從訓(xùn)練集中進(jìn)行學(xué)習(xí)。CNN網(wǎng)絡(luò)的基本架構(gòu)包括:卷積層、池化層、全連接層。在幾乎每個CNN中,都會看到這三種主要的圖層類型。CNN網(wǎng)絡(luò)的主要架構(gòu)池化層池化層用于減少特征圖的維數(shù),保留特征圖中最關(guān)鍵的信息。在池化層中,可選擇最大、最小、平均池化操作。
全連接層
整個CNN網(wǎng)絡(luò)中的“分類器”。全連接層則是將前部分學(xué)習(xí)到的深度特征映射到樣本標(biāo)記空間上。全連接層的每一個結(jié)點都與上一層的所有結(jié)點相連,損失函數(shù)神經(jīng)網(wǎng)絡(luò)使用損失函數(shù)來量化給定訓(xùn)練樣本的預(yù)測輸出與基本事實之間的誤差損失函數(shù)可用于指導(dǎo)學(xué)習(xí)過程,即以提高未來預(yù)測準(zhǔn)確性的方式更新網(wǎng)絡(luò)權(quán)重梯度下降(優(yōu)化)
AlexNet網(wǎng)絡(luò)由5個卷積層、最大池化層和3個全連接層、1000分類的softmax組成,有6000萬參數(shù)和650,000神經(jīng)元。前面5層是卷積層,即兩次卷積-池化-歸一化連接的方式并增加了三層卷積最大池化層用ReLU作為激活函數(shù),后面3層是全連接層和dropout。輸入-卷積-池化-卷積-池化-卷積-卷積-卷積-池化-全連接-全連接-全連接-輸出。AlexNet是在2012年贏得ImageNet大規(guī)模視覺識別挑戰(zhàn)賽的冠軍框架以超過第二名10.9個百分點的絕對優(yōu)勢一舉奪冠,達(dá)到了84.6%的測試準(zhǔn)確度。(Krizhevskyetal.,2012)AlexNet網(wǎng)絡(luò)第1個卷積層:接收224*224*3大小的圖像作為輸入,使用96個11*11*3的卷積核提取特征,步長stride為4;第2個卷積層:使用第1個卷積層經(jīng)過響應(yīng)歸一化和池化層的輸出作為輸入,使用256個5*5*48的卷積核;第3個卷積層:使用384個3*3*256的卷積核;第4、5個卷積層:分別使用384個3*3*192、256個3*3*192的卷積核;全連接層:FC6,F(xiàn)C7等每個全連接層包含4096個神經(jīng)元第七層:輸出的4096個數(shù)據(jù)與第八層的1000個神經(jīng)元進(jìn)行全連接,經(jīng)過訓(xùn)練后輸出1000個float型的值,即預(yù)測結(jié)果。AlexNet網(wǎng)絡(luò)主要特點
AlexNet架構(gòu)具有更深的網(wǎng)絡(luò),,采用數(shù)據(jù)增廣技巧,使用ReLU代替Sigmoid來加快SGD(隨機(jī)梯度下降)的收斂速度;使用最大池化替代平均池化Dropout:選擇性地在訓(xùn)練期間剪掉某些神經(jīng)元,有效緩解了模型的過擬合。提出了局部響應(yīng)歸一層LRN(LocalResponceNormalization)的概念,即對局部神經(jīng)元的活動創(chuàng)建競爭機(jī)制,響應(yīng)比較大的值相對更大,抑制其他反饋較小的神經(jīng)元,增強(qiáng)了模型的泛化能力。VGG19網(wǎng)絡(luò)分類
2014年,牛津大學(xué)計算機(jī)視覺組和GoogleDeepMind公司的研究員共同研發(fā)出了VGGNet在ILSVRC2014取得了比賽分類項目的第二名,第一名是GoogLeNetVGG的主要貢獻(xiàn)是在構(gòu)建各種深度的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)時使用很小的卷積核(3×3)常用來提取圖像特征的VGG-16和VGG-19即使用類似大小的卷積核進(jìn)行模型構(gòu)建VGG19網(wǎng)絡(luò)分類
VGG16-卷積塊和池化層
在VGG-16的情況下,有五個卷積塊(Conv-1到Conv-5)VGG16-19網(wǎng)絡(luò)分類
VGG的輸入為224×224×3的圖像。均值預(yù)處理,將圖像上的每個像素減去在訓(xùn)練集上計算的RGB均值。用小卷積核(3×3)做連續(xù)卷積,固定步長為1,為保持卷積后圖像大小,邊緣填充1個像素。在一些卷積層之后(不是所有的卷積層之后都是最大池化)添加五個最大池化層卷積層后,增加3個全連接層,前兩層每層有4096個通道,第三層是輸出層1000個分類。隱藏層的激活函數(shù)都使用ReLU。為了添加非線性激活函數(shù)的個數(shù),同時對卷積層的感受野無影響,使用1×1的卷積核。ResNet網(wǎng)絡(luò)分類問題:增加網(wǎng)絡(luò)深度到一定程度時,更深的網(wǎng)絡(luò)意味著更高的訓(xùn)練誤差,導(dǎo)致退化。ResNet在增加網(wǎng)絡(luò)深度的同時,還能有效解決深層網(wǎng)絡(luò)梯度消失的問題,網(wǎng)絡(luò)更深時,參數(shù)空間更大,很難優(yōu)化,增加網(wǎng)絡(luò)深度導(dǎo)致訓(xùn)練誤差大深層網(wǎng)絡(luò)雖然收斂,但網(wǎng)絡(luò)層數(shù)卻產(chǎn)生了更大的誤差,產(chǎn)生了退化問題ResNet設(shè)計了如上圖的殘差模塊,以實現(xiàn)訓(xùn)練更深的網(wǎng)絡(luò),更好的性能ResNet網(wǎng)絡(luò)圖像的深度檢測方法
目標(biāo)檢測的兩步過程查找包含目標(biāo)的邊界框,以便每個邊界框只有一個目標(biāo)。對每個邊界框內(nèi)的圖像進(jìn)行分類,并為其分配一個標(biāo)簽。傳統(tǒng)目標(biāo)檢測流程:區(qū)域選擇、特征提取和分類器區(qū)域選擇:不同尺寸的滑動窗口遍歷整個圖像,重復(fù)操作導(dǎo)致時間復(fù)雜度很高。特征提?。河肧IFT、HOG等特征,但目標(biāo)形態(tài)、光照、背景改變時,魯棒性降低。傳統(tǒng)目標(biāo)檢測的主要問題:基于滑動窗口的區(qū)域選擇策略沒有針對性時間復(fù)雜度高,窗口冗余手工設(shè)計的特征對于復(fù)雜的變化不具備魯棒性圖像的深度檢測方法
深度學(xué)習(xí)的目標(biāo)檢測算法第一類是兩階段(two-stage)的算法將檢測分兩部分展開:物體類別(分類問題)和物體位置(回歸問題)?;赗egionProposal的RCNN系算法包括RCNN,F(xiàn)astRCNN,F(xiàn)asterRCNN等用算法產(chǎn)生目標(biāo)候選框RegionProposal,再對候選框做進(jìn)一步的分類與回歸。這類方法準(zhǔn)確度高,但速度慢。第二類是一階段(one-stage)算法直接用一個卷積神經(jīng)網(wǎng)絡(luò)CNN完成不同目標(biāo)類別與位置的預(yù)測,例如Yolo、SSD類。第二類算法速度快,準(zhǔn)確性要比一階段低一些。
目標(biāo)檢測方法發(fā)展里程碑
RCNN方法
給定圖像,用selectivesearch算法從下到上提取圖像中2000個獨立的候選區(qū)域RegionProposal;將每個RegionProposal輸入到預(yù)訓(xùn)練好的AlexNet中,將CNN的FC7層的4096維輸出作為特征;將每個RegionProposal提取到的CNN特征輸入分類器SVM,對每個目標(biāo)和背景進(jìn)行二分類,判斷某個候選區(qū)域是否包含目標(biāo)類別。4.對SVM分好類的RegionProposal做邊框回歸,讓regionproposal提取到的窗口跟目標(biāo)真實窗口更接近。RCNN的主要貢獻(xiàn)
使用了AlexNet進(jìn)行特征提取?在ImageNet數(shù)據(jù)集下,用AlexNet進(jìn)行訓(xùn)練。然后再在自己的數(shù)據(jù)集上fine-tuning,網(wǎng)絡(luò)結(jié)構(gòu)不變(除了最后一層輸出由1000改為21)輸入是前面的regionproposal進(jìn)行尺寸變換到一個統(tǒng)一尺寸227*227,保留f7的輸出特征2000*4096維。針對每個類別(一共20類)訓(xùn)練一個SVM分類器,以f7層的輸出作為輸入,訓(xùn)練SVM的權(quán)重4096*20維,測試時候會得到2000*20的得分輸出,且測試的時候會對這個得分輸出做非極大值抑制NMS,就是去掉重復(fù)框的過程。用回歸算法調(diào)整檢測框的大小。定位精度:用算法得出的物體檢測框(黃色)與實際標(biāo)注的物體邊界框(綠色)的IoU值來近似表示。IoU(交并比)兩個區(qū)域的重疊程度overlap:侯選區(qū)域和標(biāo)定區(qū)域的IoU值R-CNN將PASCALVOC上的檢測率從35.1%提升到53.7%FastRCNN方法
RCNN的缺點:訓(xùn)練耗時:會出現(xiàn)重復(fù)計算重疊區(qū)域,提取特征的操作冗余,訓(xùn)練時間84小時。模型非端到端:三個部分是分離式的,流程不易訓(xùn)練,存在大量的重復(fù)特征計算。SVM和回歸與深度學(xué)習(xí)網(wǎng)絡(luò)相互分離,在SVM和回歸過程中CNN特征沒有被學(xué)習(xí)更新。為提高了檢測效率,RossGirshick在2015年推出FastRCNN(Heetal.,2015)
對整張圖像只進(jìn)行一次ROI(RegionofInterest)提取,大幅縮短了運算時間。ROI(RegionofInterest)指SelectiveSearch提取的候選框。在VGG16的框架下,F(xiàn)astRCNN能夠達(dá)到RCNN檢測速度的9倍。與原RCNN方法對比,F(xiàn)astRCNN有兩處不同:最后一個卷積層后加了一個ROI池化層;損失函數(shù)使用了多任務(wù)損失函數(shù),在CNN網(wǎng)絡(luò)中直接加入邊框回歸,統(tǒng)一進(jìn)行訓(xùn)練。FastRCNN方法RossGirshich的FastR-CNN論文FastRCNN的主要貢獻(xiàn)
特征提取與分類的步驟都是用深度神經(jīng)網(wǎng)絡(luò)執(zhí)行的,區(qū)域搜索仍為傳統(tǒng)的方法。利用ROI池化直接對全局特征圖的候選區(qū)域進(jìn)行特征提取;將分類與邊界框調(diào)整整合進(jìn)神經(jīng)網(wǎng)絡(luò)可以一起訓(xùn)練。FastRCNN的局限:比較耗時:SelectiveSearch花費的2s還是難以實時檢測;模型非端到端,對于每一個ROI提取的候選區(qū)域特征圖,都需要訓(xùn)練后續(xù)部分的神經(jīng)網(wǎng)絡(luò),這也是采用SelectiveSearch的問題,即在區(qū)域候選上的瓶頸。FasterRCNN方法
FasterRCNN算法(Girshicketal.,2017)由同一個網(wǎng)絡(luò)同時完成生成proposal、特征提取、目標(biāo)分類、位置微調(diào)等多項工作。簡單流程為:輸入圖像、生成候選區(qū)域、特征提取、分類和位置精修。FasterR-CNN算法由兩大模塊組成:PRN候選框提取模塊+FastR-CNN檢測模塊。RPN是全卷積神經(jīng)網(wǎng)絡(luò),用于提取候選框;FastR-CNN識別其中的目標(biāo)。FasterRCNN在FastRCNN的基礎(chǔ)上添加了RPN結(jié)構(gòu)替代SelectiveSearch,用神經(jīng)網(wǎng)絡(luò)來完成整個目標(biāo)檢測過程。FasterRCNN在每個像素點產(chǎn)生9個anchorbox,以便對不同大小和不同比例的目標(biāo)設(shè)置不同的anchor參數(shù),再依據(jù)參數(shù)設(shè)置生成不同的box進(jìn)行目標(biāo)檢測,執(zhí)行FastRCNN的定位與分類過程。FasterRCNN方法FasterRCNN方法FasterRCNN由四部分組成:共享卷積層、RPN、ROIpooling以及分類和回歸先用共享卷積層提取特征featuremaps,再featuremaps送入RPN。RPN生成待檢測框的同時對ROI的包圍框進(jìn)行第一次修正;ROIPoolingLayer根據(jù)RPN的輸出,在featuremap上選取每個ROI對應(yīng)的特征;用全連接層(FCLayer)進(jìn)行分類,第二次修正目標(biāo)包圍框。FasterRCNN實現(xiàn)了端到端的訓(xùn)練(end-to-endtraining)特色是替換了SS算法,使用RPN來獲取ROI。YOLO系列深度檢測方法
YOLO系列是實時檢測算法系列把整個檢測問題視為邊界回歸問題直接通過網(wǎng)絡(luò)生成預(yù)測框?qū)⒄麄€檢測過程整合到一個系統(tǒng)中YOLOv1
YOLOv1:YouOnlyLookOnce,Redmonetal.,2016)是CVPR2016上的口頭文章原理是把目標(biāo)檢測中原本分離的組件整合到一個神經(jīng)網(wǎng)絡(luò)中。如何僅訓(xùn)練一個深度網(wǎng)絡(luò),就能回歸出目標(biāo)的位置和歸類,是YOLO需要解決的問題?;A(chǔ)YOLO檢測器的速度能夠達(dá)到45fps,更快的FastYOLO則能夠達(dá)到155fps。YOLOv1的訓(xùn)練模式整體流程
輸入圖像劃分成S*S的網(wǎng)格。如果物體的中心落在某個網(wǎng)格中,這個網(wǎng)格就負(fù)責(zé)對物體進(jìn)行檢測。如設(shè)S=7,將圖像劃分成7*7的網(wǎng)格。每個網(wǎng)格都需要預(yù)測個邊界框。每個預(yù)測框包含5個參數(shù):x,y,w,h,和置信度。x,y表示預(yù)測框的位置,w,h是預(yù)測框的寬度和高度。置信度反映當(dāng)前預(yù)測框是否包含物體。當(dāng)網(wǎng)格中沒有物體,類別置信度等于0;否則,置信度等于預(yù)測框和實際框的重合度為了得到預(yù)測框?qū)δ骋粋€類別的得分,在測試時將類別概率與預(yù)測框的置信度相乘,如下式:得到每個預(yù)測框的得分以后,設(shè)置閾值過濾低得分的預(yù)測框,對保留的預(yù)測框進(jìn)行NMS處理,就得到最終的檢測結(jié)果。YOLOv1優(yōu)點:通過一次前向計算就能得到檢測結(jié)果,算法快速、簡潔,背景誤檢率較低;缺點:檢測框精準(zhǔn)性較差;對于小物體的檢測容易漏檢。
YOLOv2與YOLOv3對小目標(biāo)的精度比較貨架商品的檢測和識別-商業(yè)需求零售企業(yè)需求:需要及時掌握人貨場狀態(tài),提供給銷售、營銷,支撐其運營策略。貨架巡檢:線下商超經(jīng)營者想了解貨架上的商品類別、可視排面占比、缺貨率等,需要貨架巡檢。自動理貨:“理貨”就是進(jìn)行貨架上商品SKU類別和數(shù)量的統(tǒng)計。自動理貨通過拍照自動生成店內(nèi)審計報告,實現(xiàn)鋪貨率、排面數(shù)、貨架占有率、促銷執(zhí)行度各項指標(biāo)的捕捉智能化。取貨識別結(jié)算:自動識別顧客從貨架上拿走的商品,用取物識別技術(shù)結(jié)算,降低成本。挑戰(zhàn)的問題:商品種類繁多:SKU數(shù)量可能達(dá)到百萬千萬級;貨架擺放密集:部分商品相似,同款商品不同規(guī)格;商品位置隨意:拍攝角度傾斜、照片模糊等都加大了商品識別的難度。應(yīng)用案例-標(biāo)準(zhǔn)商品檢測服務(wù)EasyDL零售版是百度對零售場景的訓(xùn)練和服務(wù)平臺,提供服務(wù):定制商品檢測服務(wù)標(biāo)準(zhǔn)商品檢測服務(wù)貨架拼接服務(wù)標(biāo)準(zhǔn)商品檢測服務(wù)五步體驗流程如下:創(chuàng)建模型:根據(jù)業(yè)務(wù)需求和陳列場景選擇模型類創(chuàng)建SKU:自定義創(chuàng)建SKU標(biāo)簽,名稱、品牌和規(guī)標(biāo)注圖集:上傳實際業(yè)務(wù)中的實景圖并標(biāo)注訓(xùn)練模型:選擇SKU和實景圖集訓(xùn)練模型模型部署:部署在云端,發(fā)布為云服務(wù)API進(jìn)行調(diào)用EasyDL檢測識別結(jié)果
陳列場景:普通貨架貨架總層數(shù):2層貨架利用率:95.8%空位數(shù):1商品總排面占比:34.7%商品標(biāo)簽1:冰紅茶_康師傅_500ml商品排面數(shù):5個商品位置:第1層,第5、6、7、8、9個商品標(biāo)簽2:綠茶_統(tǒng)一_500ml商品排面數(shù):3個商品位置:第2層,第3、4、5個商品的自動收銀結(jié)算自動收銀結(jié)算(AutomaticCheck-Out/ACO)旨在根據(jù)收銀場景進(jìn)行商品圖像識別,自動生成結(jié)算清單,實現(xiàn)零售行業(yè)的降本增效。面臨的挑戰(zhàn):大規(guī)模、細(xì)粒度、少樣本和跨模態(tài)曠視南京研究院提出商品識別數(shù)據(jù)集——RPC(RetailProductCheckout)。RPC的商品種類200,圖像總量83k,真實模擬零售場景。商品的自動收銀結(jié)算商品的自動收銀結(jié)算數(shù)據(jù)采集方式從不同角度0-360度模仿商品的拍攝視角模擬了真實商店進(jìn)行商品錄入的過程商品的自動收銀結(jié)算對商品在結(jié)算時的擺放模式分為簡單、中等、困難三種模式添加了三種不同強(qiáng)度的監(jiān)督標(biāo)簽,從弱到強(qiáng),最強(qiáng)的是邊界框商品的自動收銀結(jié)算基于“單品圖作訓(xùn)練、結(jié)算圖作測試”的思想,基準(zhǔn)方法三步:通過Saliencydetection和CRF將商品從原始數(shù)據(jù)中摳出來然后用自動合成方法,將這些商品圖像直接在結(jié)算背景上進(jìn)行組合。這樣合成的結(jié)果不夠真實,在第三步使用了渲染方法,把合成圖轉(zhuǎn)換成接近真實的圖像。用渲染以后的圖像來訓(xùn)練detector。在RPC數(shù)據(jù)集下執(zhí)行ACO任務(wù)的結(jié)果:百度的PaddleClas的通用圖像識別系統(tǒng)百度的PaddleClas的開源項目,是一個通用圖像識別系統(tǒng)快速搭建神器—PP-ShiTu,達(dá)到”開箱即用”的效果。商品識別、車輛、人臉、Logo、行人重識別。PP-ShiTu的步驟:通過目標(biāo)檢測模型,進(jìn)行主體檢測;對每個候選區(qū)域進(jìn)行特征提??;將特征提取的向量在檢索庫中進(jìn)行檢索、匹配,返回識別結(jié)果。PP-ShiTu使用流程
行人目標(biāo)重識別Personre-identification
行人再識別是指在多個不同的攝像設(shè)備,對行人進(jìn)行檢索以及識別同一行人。與人臉識別相比,人的姿態(tài)、行為、外觀會因為不同攝像機(jī)覆蓋的范圍彼此不重疊而發(fā)生變化。不同時間、場景的光照、背景和遮擋物各不相同,背景中存在不同的遮擋和干擾等,行人重識別既需要準(zhǔn)確還需要效率。商場行人目標(biāo)重識別商業(yè)需求:通過行人重識別技術(shù),將顧客的行為軌跡信息數(shù)字化,幫助商家挖掘其中的商業(yè)價值,實現(xiàn)為客戶定制化服務(wù)。行人重識別在零售場景內(nèi)嘗試全程無感知體驗,并對各種突發(fā)事件做出及時的響應(yīng)。行人重識別除了應(yīng)用在線下零售解決方案中,與其他技術(shù)的相結(jié)合可以用來打通線上、線下零售場景,提供“一站式”的消費服務(wù)體驗。PersonRe-ID從不同的攝像頭中,正確地匹配相同的人主要挑戰(zhàn):
較大的姿態(tài)變化;視覺角度變化;不同的光照條件;較低的分辨率;遮擋、截斷等。行人再識別的挑戰(zhàn)行人不對齊;不同行人之間細(xì)節(jié)的區(qū)分;相同行人之間存在遮擋。
圖像哈希函數(shù)的目標(biāo)
基于三元組深度哈希模型的行人再識別框架基于三元組深度哈希模型的行人再識別方法框架:包含網(wǎng)絡(luò)訓(xùn)練、特征提取和行人再識別三個過程。網(wǎng)絡(luò)訓(xùn)練是利用數(shù)據(jù)集中提供的訓(xùn)練樣本,根據(jù)行人的身份學(xué)習(xí)一個鑒別性的模型,使得相同行人彼此聚集,不同的行人彼此分離。特征提取是利用網(wǎng)絡(luò)訓(xùn)練得到的模型,獲得未知行人圖像的特征。行人再識別是通過特征之間的距離計算,來執(zhí)行跨攝像頭的行人特征檢索,通過返回排序列表得到最終的結(jié)果。基于三元組深度哈希模型的行人再識別框架如何劃分局部區(qū)域,按照人體的黃金分割。行人是:頭、軀干、腿等,理想上符合黃金分割比例(0.618:1),將行人劃分為3個或4個區(qū)域。行人樣本中各部位的比例并不固定。頭部和軀干不處于同一水平線會對行人的表達(dá)產(chǎn)生影響?;谌M深度哈希的行人再識別框架謝謝大家勤學(xué)/修德/明辨/篤實第八章音頻數(shù)據(jù)分析5.1卷積神經(jīng)網(wǎng)絡(luò)5.2卷積神經(jīng)網(wǎng)絡(luò)CNN5.3RNN和LSTM5.4強(qiáng)化學(xué)習(xí)5.5貝葉斯圖網(wǎng)絡(luò)5.6自編碼器5.7生成對抗網(wǎng)絡(luò)目錄和內(nèi)容本章內(nèi)容了解音頻數(shù)據(jù)分析的基本內(nèi)容掌握音頻數(shù)據(jù)特征提取的基本方法掌握語音增強(qiáng)和語音識別基本方法和原理了解語音合成的模型及框架和評估音頻數(shù)據(jù)音頻數(shù)據(jù)包括語音、音樂和其他聲音等聲音由聲源振動產(chǎn)生,在空氣等介質(zhì)中傳播音頻信號包括聲波的頻率、幅度變化等音頻數(shù)據(jù)的表示音頻信號是帶有語音、音樂和音效的有規(guī)律聲波用連續(xù)的曲線表示,圖示顯示出振幅、時間的變化等參數(shù)振幅,是聲音在振動過程中可能達(dá)到的最大強(qiáng)度范圍。振幅是標(biāo)量,在數(shù)值上等同于振動過程中最大位移的絕對值大小。周期,是信號的最小循環(huán)單位,記作??,單位為秒(s)。聲音波形的多種變化音量的大小取決于波的振幅(高度),振動越大時,聲音就會越響。音高由波的頻率(一定時間內(nèi)震動的次數(shù))決定,低頻波形成低音、高頻波形成高音。音色是發(fā)聲器的性質(zhì):兩種樂器可能發(fā)出相同的音調(diào),但聲音不同,音色由音波形狀決定。音頻分析的的類型音頻分析主要包括時域分析和頻域分析。時域分析:按照時序展開的聲音信號分析,時域數(shù)據(jù)包括幅度和時間頻域分析:數(shù)據(jù)經(jīng)過傅里葉變換后分析,頻域數(shù)據(jù)包括幅度和頻率語音數(shù)據(jù)的時域表示女聲“你好”對應(yīng)的時域波形圖語音的原始數(shù)據(jù)通常是與時間相關(guān)的不定長時序信號
音頻數(shù)據(jù)的頻域表示包括頻率、幅度變化的信息載體聲波或正弦波有三個重要參數(shù):幅度An
頻率ω0相位ψn音頻信號預(yù)處理-時域分幀:在后期的語音處理中要輸入的是平穩(wěn)信號,一段語音信號整體上看不是平穩(wěn)的,但是在局部上可以看作是平穩(wěn)的,要對整段語音信號分幀,即切分成很多段。幀移:分幀方法為交疊分段法,前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般為0~0.5,10-30ms范圍內(nèi)都可以認(rèn)為信號是穩(wěn)定的,一般以不少于20ms為一幀,1/2左右時長為幀移分幀每幀的長度為25毫秒,每兩幀之間有25-10=15毫秒的交疊,稱為以幀長25ms、幀移10ms分幀時域上的預(yù)處理-分幀(1)原始音頻和分幀的一幀(2)分幀后的某一幀數(shù)據(jù)展開時域上的預(yù)處理-幀長和幀移
幀長和幀移在語音片段中的示意一般幀移的長度為幀長的50%~60%,大約為10ms前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般為0~0.5時域上的預(yù)處理-加窗加窗是為了保證分析單元間的連續(xù)性。分幀本質(zhì)上就是一個音頻數(shù)據(jù)加矩形窗進(jìn)行的處理。矩形窗就是僅作截斷,不對信號內(nèi)容做任何修改的一種最簡單的窗。實際工程中通常選用更復(fù)雜的窗口以避免音頻信號信息泄露。hamming窗是一種常用窗函數(shù)疊加hanning窗例如:混合信號100Hz與200Hz混合信號的時域頻域?qū)?yīng)圖信號淹沒在嘯叫噪聲中;(b)信號與噪聲的功率譜;
(c)去噪后的功率譜;(d)重構(gòu)原語音信號混合語音信號消噪過程
短時傅里葉變換
頻域上的預(yù)處理傅里葉變換(DiscreteFourierTransform,DFT)的目的是將語音信號從時域轉(zhuǎn)化到頻域進(jìn)行分析。信號里包含的頻率可以用正弦波表示,由于正弦函數(shù)具有正交性,因此可以從語音信號中分離出不同頻率的正弦信號。任意周期函數(shù),通過傅里葉變換都可以表示為一組不同頻率的正弦波和余弦波之和。在傅里葉變換中,時域橫軸為時間,縱軸為聲音信號的幅度變化;頻域的圖像橫軸為頻率,縱軸為該頻率信號的幅度。FFT:FastFourierTransform
傅立葉變換將時域信號轉(zhuǎn)換為頻域信號,信號不同的觀察角度FFT是DFT的一種快速實現(xiàn),本質(zhì)上是對信號的分解1965年,Cooley-Turky發(fā)表文章《機(jī)器計算傅里葉級數(shù)的一種算法》,提出FFT算法解決DFT運算量太大,在實際使用中受限制的問題。DSP芯片實現(xiàn):TI公司的TMS320c30,10MHz時鐘,基2-FFT1024點FFT時間15ms。不同頻率成分FFT變換將一個時域信號分解為在頻域中表示,可以分析信號中的不同頻率成分。頻域中信號有助于發(fā)現(xiàn)信號中的干擾、噪聲和抖動傅里葉變換頻域可視化語音的基本特征基礎(chǔ)特征-響度一段音頻從主觀聽力角度可以從三個主要維度簡單衡量:響度、音色、音調(diào)。響度(loudness)是人對于聲音響亮程度的主觀感知。響度在波形上為振幅的大小,在物理上對應(yīng)到聲強(qiáng)(intensity),聲強(qiáng)為單位面積上的聲音功率,由于人耳對聲音的感知并非線性關(guān)系,因此聲強(qiáng)是一個對數(shù)增長的量,聲強(qiáng)的單位為分貝(dB)
響度除了和聲壓級、頻率有關(guān)外,和信號的持續(xù)時間也有關(guān)系。對于持續(xù)時間少于200ms的純音信號,人們會覺得聲音越來越響,持續(xù)時間超過200ms后響度趨于穩(wěn)定。音色(Timbre)是由聲源和聲道特性決定的特異性特征。發(fā)聲體的材質(zhì)、大小、結(jié)構(gòu)等特性的細(xì)微變化都會引起音色的變化?;A(chǔ)特征-音色不同的發(fā)聲體由于其材料、結(jié)構(gòu)不同,則發(fā)出聲音的音色也不同。例如鋼琴、小提琴和人發(fā)出的聲音不一樣,每一個人發(fā)出的聲音也不一樣。因此,可以把音色理解為聲音的特征。音色通過基音(Pitch)和泛音調(diào)節(jié),在頻譜圖中對應(yīng)基音的位置與共振峰的形狀和位置?;艟褪锹曉醋钪饕陌l(fā)聲頻率,也是人耳最容易聽到的部分?;粼谝纛l分析中通常稱之為F0,在小的片段中可以近似認(rèn)為F0是一個確定的值由于自然界的聲音大多為復(fù)合音,因此我們感知到的聲音里也包含泛音?;襞c泛音基音,泛音和疊加的過程如下圖:泛音所關(guān)聯(lián)的共振峰(Formant)在語音信號處理中通常被認(rèn)為反映了聲道的運動。由于人的發(fā)音需要整個聲道不同部位的協(xié)調(diào)運作,因此聲道的形狀和大小的改變隨時間變化,這種變化被反映在了語音信號的共振頻率中。泛音關(guān)聯(lián)的共振峰音調(diào)指人主觀感受到的調(diào)子的高低。音調(diào)主要與聲音頻率有關(guān),但也受到響度的調(diào)節(jié)。對于一段純音而言,高頻純音(1500Hz以上)的音調(diào)隨響度增加而增加,低頻純音(500Hz以下)的音調(diào)隨響度增加而降低。基礎(chǔ)特征-音調(diào)語音學(xué)特征語音學(xué)的特征就是音素。音素是根據(jù)語音的自然屬性劃分出來的最小語音單位。音素分為元音與輔音兩大類,不同語言中元音和輔音的劃分并不相同。以漢語為例,漢語中的元音分為單元音與復(fù)元音;以英語為例,英語中的輔音分為清輔音和濁輔音。元音與輔音的有序排列組合形成音節(jié),音節(jié)是自然語言中能感受到的最小語音片段。在英語中,可能出現(xiàn)連續(xù)輔音;在漢語中每個輔音必須后跟元音。漢語音節(jié)通過聲調(diào)表達(dá)不同含義,在語音處理中即表現(xiàn)為相對音高的變化。音素也根據(jù)上下文存在變形,例如弱讀、變調(diào)、協(xié)同發(fā)音、輔音濁化等。短時能量
短時能量:音頻信號的短時能量隨時間變化相對比較明顯,區(qū)分清音和濁音。識別靜音幀:當(dāng)短時能量值小于閾值時,這幀是靜音幀。把靜音幀看作是一段音樂開始或結(jié)尾,區(qū)分有聲和無聲的依據(jù)。理論分析:短時能量體現(xiàn)的是信號在不同時刻的強(qiáng)弱程度。語音的基本特征-短時能量音頻數(shù)據(jù)的特征-過零率
短時平均過零率表達(dá)式為:其中N為一幀的長度,n為對應(yīng)的幀數(shù),按幀處理。理論分析:過零率是信號過零點的次數(shù),體現(xiàn)的頻率特性。因為需要過零點,信號處理之前需要中心化處理。單位時間內(nèi)過零的次數(shù)就稱為過零率。一段長時間內(nèi)的過零率稱為平均過零率。短時平均過零率信噪比(SignalNoiseRatio)信噪比即電子系統(tǒng)或設(shè)備輸出信號與輸出噪聲的功率比值,單位是分貝(dB)。信噪比越高意味著系統(tǒng)產(chǎn)生的雜音越少、噪聲越小、錄音片段的質(zhì)量越高。
語音的頻域特征-頻譜圖頻譜圖是通過視覺表示信號隨時間變化的頻率。頻譜圖有時被稱為聲紋或語音圖。在二維陣列中,一是頻率,二是時間。Mel濾波器組Mel濾波希望模擬人耳對低頻敏感、對高頻不敏感的特點。經(jīng)過Mel濾波后,原本無法線性比較的頻率在Mel濾波后轉(zhuǎn)化為了線性可比的Mel頻率。
FBank濾波器FBank實際上是使用40個相互重疊的三角濾波器作用于傅里葉變換后得到的功率譜。每個濾波器對其中間的頻率最為敏感,對頻率的原振幅不做修改,隨后在兩側(cè)頻率上將對應(yīng)振幅線性衰弱到0,濾波器的效果可以用下式表達(dá)。
其中,f(m-1)為上一濾波器主要通過的頻率,f(m)為當(dāng)前濾波器主要通過的頻率同理,f(m+1)為下一濾波器主要通過頻率,由此可見相鄰的濾波器不斷疊加的過程。梅爾頻率倒譜系數(shù)MFCC梅爾頻率倒譜系數(shù)(MelFrequencyCepstrumCoefficient,MFCC)在FBank的基礎(chǔ)上增加了倒譜的過程。倒譜就是對Mel頻譜再進(jìn)行逆變換,在這里逆變換一般選用離散余弦變換(DiscreteCosineTransform,DCT)。MFCC的計算相當(dāng)復(fù)雜,書中不展開介紹DCT的計算過程,僅介紹結(jié)果。以自動語音識別(AutoSpeechRecognition,ASR)這一常見場景為例,離散余弦變換后得到的第2至13個參數(shù)即MFCC系數(shù)。語音情感識別語音情感識別是語音分析的重要組成部分,通過先前提到的特征提取以及預(yù)處理手段,將得到的特征放到算法中進(jìn)行模式識別進(jìn)而判斷說話人的情感狀態(tài)是一種常見的語音分析問題。在解決這些工程問題的過程中,涉及到情感識別特征集、訓(xùn)練數(shù)據(jù)、算法模型等多個環(huán)節(jié)的選擇和組合。語音情感的識別本質(zhì)是一個分類問題,因此模型的變化主要在于:(1)輸入特征的差異;(2)分類器的選取。輸入中可以選擇的特征有語譜圖、MFCC、手工特征(LLDs以及HSFs)、特定特征集(如:GeMAPS、eGeMAPS)。分類器的選擇中除了傳統(tǒng)的高斯混合模型(GMM)、支持向量機(jī)(SVM)、KNN、隱馬爾可夫模型(HMM),也可以選擇CNN、DBN、LSTM等深度學(xué)習(xí)模型。
語音合成語音合成指的是通過計算機(jī)或其他設(shè)備模擬得到語音的過程。其中,最常見的定義是將語音合成描述為書面文本轉(zhuǎn)換成機(jī)器生成的合成語音的過程(Keller1994),即文本轉(zhuǎn)語音(TTS)系統(tǒng)。以TTS系統(tǒng)為例,前端是文本分析模塊、后端是語音處理模塊。典型級聯(lián)式TTS系統(tǒng)處理流程
聽眾對各種應(yīng)用場景下TTS的需求TTS應(yīng)用合成語音質(zhì)量需求可行的評估維度和方法語音導(dǎo)航足夠的清晰、響亮和及時可理解性(o,s,b),任務(wù)成功率(b),綜合性(s,b)商場向?qū)逦?,悅耳可理解?o,s,b),喜愛度(b),交互時間(b),綜合性(s,b)對話系統(tǒng)及時,漸進(jìn),合適的話語標(biāo)記偏好與自愿交互時間(b),任務(wù)成功率與效率(b),適應(yīng)行為(b)教育性質(zhì)有聲讀物提升在線閱讀的可理解性全面性(s,b),任務(wù)成功率與效率(b)虛擬助手清晰,聲音悅耳親和性(s),可理解性(o,s,b),綜合性(b),喜愛度(b)、自愿互動時間(b)、任務(wù)成功率與效率(b)注:主觀評估(s)、客觀評估(o)、行為評估(b)阿里云語音識別和錄音服務(wù)阿里云智能語音服務(wù)(/nls)提供了“語音識別”和“語音合成”兩大智能語音服務(wù)。實現(xiàn)“能聽、會說、懂你”式的智能人機(jī)交互體驗適用于智能客服、質(zhì)檢、會議紀(jì)要、實時字幕等多個企業(yè)應(yīng)用場景。錄音文件內(nèi)容識別阿里云語音服務(wù)中的錄音文件轉(zhuǎn)寫服務(wù)阿里云語音識別服務(wù)“語音識別”產(chǎn)品:錄音文件識別、錄音文件極速版、一句話識別、實時語音識別;“語音合成”產(chǎn)品:語音合成、長文本語音合成“功能體驗”環(huán)節(jié):例如“語音識別”“語音合成”“錄音文件識別”“自學(xué)習(xí)平臺”,客戶可以自定義輸入文件,進(jìn)行免費的產(chǎn)品體驗。在注冊和登錄阿里云網(wǎng)站后,用戶可以免費試用當(dāng)達(dá)到使用次數(shù)或市場、客戶需要相應(yīng)地進(jìn)行付費購買謝謝大家勤學(xué)/修德/明辨/篤實第四部分場景典例篇
第9章典型非結(jié)構(gòu)數(shù)據(jù)分析案例智能零售案例行人再識別(ReID)與實體商業(yè)數(shù)智化案例背景
在人口紅利和流量紅利消退的大背景下,國內(nèi)消費品零售市場已經(jīng)出現(xiàn)線上電商增速趨緩,獲客成本水漲船高的問題,線下實體商業(yè)成為亟待開辟的掘金“新大陸”。隨著數(shù)字化建設(shè)的全面深化,AI從算力、算法向應(yīng)用場景全面落地,泛零售行業(yè)企業(yè)的數(shù)智化轉(zhuǎn)型需求迫在眉睫。中國30萬億線下實體零售市場開展線上線下一體化融合升級,為AI應(yīng)用提供了最佳實踐場景。我國零售市場線線下和線上的規(guī)模AI+線下零售的滲透贏識科技構(gòu)建的實體商業(yè)數(shù)字化底座贏識科技實體商業(yè)數(shù)智花流程框架購物中心、區(qū)域級別客流分析和客群洞察基于ReID的精準(zhǔn)客流洞察和門店轉(zhuǎn)化漏斗分析消費者全生命周期精細(xì)化運營閉環(huán)ReID的批次識別、客流洞察分析總結(jié)人、貨、場在實操中是三位一體,本案例從消費者鏈路介紹了ReID技術(shù)在實體商業(yè)場景中數(shù)據(jù)采集分析利用方面的應(yīng)用。贏識科技采用端-邊-云+全棧AI的系統(tǒng)架構(gòu),通過海量異構(gòu)智能設(shè)備抽象管控連接,形成線下數(shù)據(jù)“埋點”。結(jié)合全場景ReID、智能感知識別、行為語義化技術(shù),結(jié)合供給側(cè)與消費側(cè)的全鏈路營運服務(wù)工具,構(gòu)建消費者數(shù)據(jù)資產(chǎn)。實現(xiàn)以數(shù)據(jù)驅(qū)動的智能商業(yè)閉環(huán),為實體商業(yè)提供從精準(zhǔn)營銷到精細(xì)化管理的整體數(shù)字化解決方案。案例的思考和問題針對AI和零售的結(jié)合,簡述“人-貨-場”的全面在線化的過程?針對線下零售需求,如何結(jié)合商圈/購物中心場景,開展行人再識別應(yīng)用?如何利用數(shù)智化,進(jìn)行從獲客到轉(zhuǎn)化的全生命周期服務(wù)?開戶審核案例多模態(tài)識別在證券開戶業(yè)務(wù)應(yīng)用
案例背景
網(wǎng)上開戶業(yè)務(wù)可以改善客戶業(yè)務(wù)辦理體驗、緩解證券經(jīng)營機(jī)構(gòu)現(xiàn)場開戶壓力、降低證券公司業(yè)務(wù)拓展成本等在20全市場新開A股證券賬戶中,約99%的賬戶是通過網(wǎng)上開戶的方式開立。雙向視頻見證方式:指證券公司通過公安部身份信息核查系統(tǒng)核驗投資者所提交身份信息的真實性證券公司見證人員與投資者進(jìn)行雙向視頻,將視頻中的投資者相貌與其上傳的身份證件影像資料進(jìn)行比對確保二者一致,確認(rèn)本人自愿開戶。單向視頻見證方式:指投資者在證券公司提供的技術(shù)環(huán)境下實時錄制開戶申請視頻,記錄其本人自愿開戶的意思表達(dá)證券公司通過公安部身份信息核查系統(tǒng)核驗投資者所提交身份信息的真實性開戶代理機(jī)構(gòu)見證人員審核投資者提交的視頻,將視頻中的投資者相貌與其上傳的身份證件影像資料進(jìn)行比對確保二者一致,并確認(rèn)本人自愿開戶。2013年以前臨辦理2021單向視頻全面應(yīng)投資者開立證券賬戶應(yīng)當(dāng)向證券登記結(jié)算機(jī)構(gòu)提出申請。中國證券登記結(jié)算有限責(zé)任公司(以下簡稱“中國結(jié)算”)對證券賬戶實施統(tǒng)一管理,具體賬戶業(yè)務(wù)委托開戶代理機(jī)構(gòu)辦理。2013年中國結(jié)算首次發(fā)布《證券賬戶非現(xiàn)場開戶實施暫行辦法》,開啟非現(xiàn)場開戶業(yè)務(wù)(網(wǎng)上開戶)。2021年中國結(jié)算修訂發(fā)布《證券賬戶非現(xiàn)場開戶實施細(xì)則》,全面放開單向視頻非現(xiàn)場開戶,AI全面應(yīng)用。證券開戶業(yè)務(wù)真實意愿真實身份效率提升體驗更優(yōu)通過人工智能技術(shù)在開戶業(yè)務(wù)各環(huán)節(jié)的應(yīng)用一方面滿足非現(xiàn)場開戶的兩大核心需求:驗證投資者真實身份,記錄投資者開戶真實意愿表達(dá)。另一方面提高證券開戶業(yè)務(wù)的效率,提升投資者業(yè)務(wù)辦理的體驗。開戶業(yè)務(wù)需求業(yè)務(wù)流程概述驗證手機(jī)號碼采集身份證件影像并核查信息真實性采集基本客戶資料選擇三方存管銀行風(fēng)險測評并簽署確認(rèn)書股東賬戶選擇填寫問卷回訪視頻見證(單向或雙向)復(fù)核開戶申請資料:影像、視頻、填報信息并確認(rèn)開戶意愿真實通過審核并開通證券賬戶權(quán)限業(yè)務(wù)辦理環(huán)節(jié)數(shù)據(jù)形態(tài)與獲取應(yīng)用人工智能實現(xiàn)業(yè)務(wù)需求技術(shù)服務(wù)商身份信息采集圖片形式由投資者手機(jī)拍攝上傳光學(xué)字符識別OCR(OpticalCharacterRecognition)識別身份證信息自動填充,減少人工操作,提高效率。易道博識
驗證投資者身份信息真實性視頻形式由手機(jī)攝像頭實時拍攝活體檢測確保投資者為真人,實現(xiàn)風(fēng)控需求圖片形式由活體檢測過程抓拍人像對比與公安系統(tǒng)核驗確保投資者為本人,實現(xiàn)風(fēng)控需求開戶意愿確認(rèn)(單向視頻)文字轉(zhuǎn)語音由后臺上傳話術(shù)話術(shù)轉(zhuǎn)換語音合成通過AI語音完成開戶問答,客戶無需排隊等待人工客服雙向視頻科大訊飛語音轉(zhuǎn)文字由視頻錄制語義識別通過語義識別確認(rèn)客戶意愿,實現(xiàn)合規(guī)風(fēng)控要求視頻形式前流程錄制視頻質(zhì)檢通過AI實時質(zhì)檢、實時糾偏,確保錄制合規(guī)要求。減少人工復(fù)核和客戶重復(fù)提交財人匯非結(jié)構(gòu)數(shù)據(jù)的應(yīng)用形式客戶拍攝/上傳人像面過程中,系統(tǒng)自動檢測相片質(zhì)量是否合規(guī)。包括檢測照片是否為身份證人像面、是否存在曝光、缺角、遮擋、復(fù)印件、翻拍、PS、模糊等不合規(guī)情況。在符合規(guī)范的情況下,自動拍照并識別證件信息。圖像和OCR識別與質(zhì)檢活體檢測通過眨眼、張嘴、搖頭、點頭等組合動作,使用人臉關(guān)鍵點定位等技術(shù),驗證用戶是否為真實活體本人操作??捎行У钟掌?、換臉、面具、遮擋以及屏幕翻拍等常見的攻擊手段。通過活體檢測同時,系統(tǒng)會自動抓拍一張較為清晰的正面相貌照片提交到服務(wù)后臺。將投資者相貌與其上傳的身份證件影像資料進(jìn)行比對,確保二者一致?;铙w檢測與人臉識別系統(tǒng)通過語音播報的方式對客戶提問??蛻舾鶕?jù)情況及時回答,采用智能語音識別技術(shù)進(jìn)行開戶意愿確認(rèn)。系統(tǒng)實時對用戶的回答進(jìn)行語音識別,識別標(biāo)準(zhǔn)答案則進(jìn)行下一題。錯誤次數(shù)達(dá)到指定次數(shù),提示客戶轉(zhuǎn)到人工見證模式。語音合成與語義識別在視頻錄制過程中,增加人臉是否在人相框內(nèi)檢測。視頻錄制失敗達(dá)到指定次數(shù),提示客戶轉(zhuǎn)到人工見證模式。視頻錄制完成后,對用戶錄制視頻進(jìn)行實時審核若視頻審核不通過,實時提示客戶審核失敗原因。視頻檢測降本增效與傳統(tǒng)的臨柜開戶業(yè)務(wù)辦理相比,目前網(wǎng)上開戶業(yè)務(wù)通過人工智能的成熟應(yīng)用,大大提升了工作效率,降低了營業(yè)網(wǎng)點的人力成本和運營成本。“讓信息多跑路,群眾少跑腿”網(wǎng)上開戶的方式大大降低了投資者的開戶成本。通過AI技術(shù)手段快速識別身份信息、自動錄入信息并實現(xiàn)自動對比審核,簡化了業(yè)務(wù)辦理流程,有效提升了用戶體驗。合規(guī)監(jiān)管要求對于證券公司和合規(guī)監(jiān)管而言,通過AI技術(shù)手段,極大程度打擊了虛假偽造行為,確?!蹲C券法》規(guī)定的證券賬戶實名制要求得到有效落實,反洗錢風(fēng)控措施得到有效保障,大幅度提升了風(fēng)控安全水平。實際業(yè)務(wù)效果案例的思考和問題1.網(wǎng)上開戶利用多模態(tài)數(shù)據(jù)識別身份的優(yōu)點和缺點?2.這個案例介紹的開戶智能審核過程有哪些局限?3.針對以上提出的局限,提出幾點改進(jìn)的方案。智能制造案例空調(diào)主板檢測應(yīng)用和汽車裝配指導(dǎo)案例背景
格力空調(diào)公司為保證空調(diào)主板的裝配和焊接質(zhì)量,導(dǎo)入了AOI自動光學(xué)檢測設(shè)備對主板的元器件和焊點進(jìn)行檢驗,算法采用圖像數(shù)據(jù)分析和識別。先以一塊標(biāo)準(zhǔn)板制作檢測程序,將檢測的板與標(biāo)準(zhǔn)對比,判斷是否符合標(biāo)準(zhǔn)。模板在實際生產(chǎn)過程中受材料、環(huán)境等變化影響,焊接的圖像會存在差異,設(shè)備報出的差異非常多,與實際情況匹配度低。所以設(shè)備檢驗出的異常圖像,還需要人工進(jìn)行復(fù)判,一人負(fù)責(zé)兩臺設(shè)備的復(fù)盤,比較耗人工,且員工一直盯著屏幕,眼疲勞嚴(yán)重??照{(diào)主板的裝配和焊接系統(tǒng)AI檢測方案AOI設(shè)備人工復(fù)判智能缺陷分類系統(tǒng)產(chǎn)品掃描不良成像圖片收集自學(xué)習(xí)高效高產(chǎn)AI系統(tǒng)Defect標(biāo)注深度學(xué)習(xí)不良分類傳統(tǒng)機(jī)器視覺系統(tǒng)人眼識別
低效費力利用人工智能技術(shù),實現(xiàn)檢測方法的自主學(xué)習(xí)、檢測模型的自主優(yōu)化,取代AOI檢測人員復(fù)判。深度學(xué)習(xí)分析AOI設(shè)備判斷異常的照片深度學(xué)習(xí)分析AOI設(shè)備判斷異常圖像系統(tǒng)智能制造案例汽車裝配線AI輔助實時裝配指導(dǎo)和質(zhì)檢案例背景
目前,汽車生產(chǎn)企業(yè)已經(jīng)步如大規(guī)模流水線式生產(chǎn),并在逐步實現(xiàn)現(xiàn)代化和自動化,但生產(chǎn)細(xì)節(jié)部分仍然需要人工操作,重復(fù)性操作及記錄難免出現(xiàn)差錯。在汽車生產(chǎn)裝配過程中,因裝配的零部件多、工藝復(fù)雜、員工熟練度不一等,導(dǎo)致裝配過程容易產(chǎn)生零件錯裝、漏裝等質(zhì)量問題,造成損失。已有防呆技術(shù)方案為固定高速攝像頭搭配電腦系統(tǒng),識別較為固定單一的位置的錯裝漏裝,不具備類似作業(yè)指導(dǎo)的人機(jī)交互功能。吉利集團(tuán)針對以上問題,通過AR和AI技術(shù)構(gòu)建了輔助實時裝配指導(dǎo)和質(zhì)檢系統(tǒng)。
AI輔助實時裝配指導(dǎo)和質(zhì)檢案例的思考和問題
1. 這兩個智能制造案例用了什么樣的非結(jié)構(gòu)數(shù)據(jù)?2. 案例中需要用的數(shù)據(jù)和人的作用?如何結(jié)合的?3. 針對其他智能制造場景,提出人機(jī)結(jié)合的需求?智能教育案例
智云課堂-語音技術(shù)應(yīng)用案例智云課堂功能框架
智云課堂系統(tǒng)架構(gòu)
智能媒體處理平臺
智能媒體處理平臺分為媒體處理平臺、媒體AI平臺等兩大核心服務(wù)。媒體處理平臺主要是包含媒體匯聚、直播收錄、媒體編輯工具集、轉(zhuǎn)碼渲染,實現(xiàn)全流程的采編播存發(fā)布一體化內(nèi)核能力。媒體處理平臺:整體架構(gòu)使用了策略機(jī)制,策略由調(diào)度中心統(tǒng)一管理,策略中包含了復(fù)合任務(wù)的構(gòu)成、子任務(wù)的依賴關(guān)系和子任務(wù)工作參數(shù)三個主體部分。靈活的策略定義模式可適配教學(xué)場景下,不同來源的課程資源匯聚、多樣化處理流程。媒體AI平臺:實現(xiàn)智云課堂的文字識別能、語音識別能力、智能PPT識別能力、多語言轉(zhuǎn)譯能力。智云課堂應(yīng)用服務(wù)
1)教室流收錄與錄播系統(tǒng)進(jìn)行對接,實現(xiàn)教學(xué)信號流的自動收錄。在平臺中創(chuàng)建直播課程后會自動生成視頻流地址,在錄播主機(jī)上填寫推流地址實現(xiàn)資源收錄。2)PPT識別利用PPT識別技術(shù),將課堂內(nèi)教師播放的PPT實時同步顯示在課程直播頁面中,學(xué)生可通過多種終端實時查看,解決課堂中看不清的問題。對于識別出的PPT圖片,學(xué)生可以在課程觀看過程中進(jìn)行切換。3)語音識別通過語音識別技術(shù),將課堂內(nèi)教師授課的音頻信息進(jìn)行AI識別并轉(zhuǎn)寫成文字,學(xué)生在觀看課程直播的過程中可以翻動查看教師的授課語音信息,便于更好的理解授課內(nèi)容。4)熱詞標(biāo)簽通過自然語義理解技術(shù),提取教師授課內(nèi)容的核心詞匯形成熱詞標(biāo)簽,快速理解課堂內(nèi)容。智云課堂應(yīng)用服務(wù)
5)智能筆記觀看直播課程的同時,可以在筆記區(qū)域輸入需要記錄的文字內(nèi)容,同時學(xué)生可選擇涂鴉工具直接在ppt顯示框中進(jìn)行涂鴉筆記的勾畫,完成涂鴉筆記勾畫和文字筆記記錄后并自動保存到個人中心。6)課程直播管理對平臺中的直播課程進(jìn)行綜合管理,包含課表對接管理、課程管理以及教室管理等。直播課程由管理員批量創(chuàng)建,需要填寫教室、教學(xué)樓、上課時間等相關(guān)信息;之后通過課表導(dǎo)入的方式統(tǒng)一創(chuàng)建課程直播間。7)直播監(jiān)控與統(tǒng)計監(jiān)控直播狀態(tài)、語音識別狀態(tài)、ppt識別狀態(tài),展示所有課程的直播列表以及狀態(tài),包括ID、課程名稱、教師姓名、上課時間、教室、直播狀態(tài)、語音識別狀態(tài)、ppt識別狀態(tài)。監(jiān)控收錄任務(wù)狀態(tài)、收錄狀態(tài)、收錄結(jié)果,展示所
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年護(hù)士護(hù)理教育項目勞動合同3篇
- 二零二五年生物醫(yī)藥研發(fā)與臨床試驗合同6篇
- 二零二五版智能家居系統(tǒng)集成與裝飾設(shè)計合同范本3篇
- 二零二五版高標(biāo)準(zhǔn)預(yù)制混凝土構(gòu)件供應(yīng)合同3篇
- 二零二五版租賃住宅配套設(shè)施租賃服務(wù)合同2篇
- 二零二五版家居用品經(jīng)銷代理合同范本3篇
- 二零二五版互聯(lián)網(wǎng)公司高級經(jīng)理任職及期權(quán)激勵合同3篇
- 二零二五版便利店員工工作環(huán)境與設(shè)施改善服務(wù)合同3篇
- 湖南儲備糧代儲合同(2025年度)執(zhí)行細(xì)則范本3篇
- 二零二五版地鐵站商業(yè)廣告位租賃及裝修施工合同3篇
- 2024-2025學(xué)年成都高新區(qū)七上數(shù)學(xué)期末考試試卷【含答案】
- 定額〔2025〕1號文-關(guān)于發(fā)布2018版電力建設(shè)工程概預(yù)算定額2024年度價格水平調(diào)整的通知
- 2025年浙江杭州市西湖區(qū)專職社區(qū)招聘85人歷年高頻重點提升(共500題)附帶答案詳解
- 《數(shù)學(xué)廣角-優(yōu)化》說課稿-2024-2025學(xué)年四年級上冊數(shù)學(xué)人教版
- “懂你”(原題+解題+范文+話題+技巧+閱讀類素材)-2025年中考語文一輪復(fù)習(xí)之寫作
- 2025年景觀照明項目可行性分析報告
- 2025年江蘇南京地鐵集團(tuán)招聘筆試參考題庫含答案解析
- 2025年度愛讀書學(xué)長參與的讀書項目投資合同
- 電力系統(tǒng)分析答案(吳俊勇)(已修訂)
- 化學(xué)-河北省金太陽質(zhì)檢聯(lián)盟2024-2025學(xué)年高三上學(xué)期12月第三次聯(lián)考試題和答案
- 期末復(fù)習(xí)試題(試題)-2024-2025學(xué)年四年級上冊數(shù)學(xué) 北師大版
評論
0/150
提交評論