北郵郭軍web搜索chapter4

上傳人：0*** IP屬地：湖北上傳時(shí)間：2023-02-02 格式：PPT 頁(yè)數(shù)：52 大?。?65KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩47頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Web搜索

郭軍

北京郵電大學(xué)

第4章音頻檢索聲學(xué)特征提取

HMM模型連續(xù)語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音關(guān)鍵詞發(fā)現(xiàn)技術(shù)語(yǔ)音詞匯檢測(cè)技術(shù)非語(yǔ)音音頻檢索音樂(lè)檢索音頻檢索的策略音頻檢索起步較晚，但目前已經(jīng)成為一個(gè)新熱點(diǎn)語(yǔ)音類(lèi)音頻檢索的一個(gè)自然策略是語(yǔ)音識(shí)別文本檢索全文的轉(zhuǎn)換或關(guān)鍵詞的轉(zhuǎn)換直接基于聲學(xué)特征進(jìn)行檢索的策略越來(lái)越受到重視音頻檢索也有兩種基本模式基于示例/基于查詢(xún)?cè)~音頻檢索的困難音頻信號(hào)種類(lèi)繁多，環(huán)境噪聲差異性大聲學(xué)特征提取音頻信號(hào)常具有高度的時(shí)變性，只有在一個(gè)較短的時(shí)間段內(nèi)才可視為平穩(wěn)的分幀操作:語(yǔ)音信號(hào)，一般以20ms左右為一幀為去除邊界效應(yīng)，相鄰幀要相互重疊，常用的比例是1/2時(shí)域特征第n幀信號(hào)的短時(shí)能量第n幀信號(hào)的短時(shí)平均幅度第n幀信號(hào)的短時(shí)過(guò)零率頻域特征—LPC參數(shù)頻域上的語(yǔ)音譜S(z)是激勵(lì)譜E(z)通過(guò)傳遞函數(shù)為V(z)的線性系統(tǒng)后產(chǎn)生的輸出語(yǔ)音信號(hào)產(chǎn)生模型把實(shí)際聲道近似為P段不同截面積的短聲管的串聯(lián)，采用全極點(diǎn)模型將上式右側(cè)第二項(xiàng)看作s(n)的線性預(yù)測(cè)值s‘(n)，將Ge(n)看作誤差項(xiàng)，則聲道參數(shù)ai可以通過(guò)求解線性預(yù)測(cè)參數(shù)的最小均方誤差準(zhǔn)則求得轉(zhuǎn)換到時(shí)域，語(yǔ)音信號(hào)s(n)和激勵(lì)信號(hào)e(n)之間的關(guān)系為Mel倒譜系數(shù)MFCC人耳對(duì)臨界帶寬內(nèi)的音調(diào)具有掩蔽效應(yīng)當(dāng)兩個(gè)頻率相近的音調(diào)同時(shí)發(fā)出時(shí)只能聽(tīng)到一個(gè)音調(diào)MFCC的提取過(guò)程通過(guò)Mel頻率濾波器組得到信號(hào)的Mel頻率HMM模型Markov模型可用離散時(shí)域有限狀態(tài)機(jī)FSM描述FSM有N種狀態(tài)，用1～N表示，在時(shí)刻t所處的狀態(tài)用qt表示每個(gè)狀態(tài)下可能的輸出值的為O={o1,…,oM}FSM初始化時(shí)可位于N個(gè)狀態(tài)中的任何一個(gè)，其初始狀態(tài)分布為πi

=P(q1=i)，i=1,…,NFSM在當(dāng)前狀態(tài)以某種概率向任意的狀態(tài)跳轉(zhuǎn)，狀態(tài)轉(zhuǎn)移概率矩陣用A表示，A={aij}如果在任意時(shí)刻t，外界都看不到FSM的內(nèi)部狀態(tài)qt，只能得到一個(gè)觀測(cè)值ot，而ot與qt之間的關(guān)系可用條件概率P(ot|qt=j)來(lái)描述，則稱(chēng)此Markov模型HMMHMM的描述HMM可用符號(hào)λ={A,B,π}來(lái)描述A為狀態(tài)轉(zhuǎn)移概率矩陣A={aij}N×NB為觀測(cè)值概率矩陣B={bj(ot)}N×Tπ為初始狀態(tài)分布π={πi}前向HMM的示意圖HMM的三個(gè)基本問(wèn)題識(shí)別問(wèn)題對(duì)于給定的觀測(cè)序列O=(o1,…,oT)和模型λ={A,B,π}，計(jì)算由λ產(chǎn)生O的概率P(O|λ)，常用前向和后向算法譯碼問(wèn)題對(duì)于給定的O

和λ，求λ對(duì)應(yīng)于O的最佳狀態(tài)序列Q*,即尋找使P(O|λ)達(dá)到最大時(shí)，O所對(duì)應(yīng)的狀態(tài)序列，一般采用Viterbi算法求解訓(xùn)練問(wèn)題對(duì)于給定的O，如何獲得產(chǎn)生O的概率最大的模型λ，一般采用Baum-Welch算法求解HMM的基本問(wèn)題的經(jīng)典算法識(shí)別問(wèn)題前向、后向算法:從入口狀態(tài)或出口狀態(tài)開(kāi)始遞推的方法。兩種算法可以單獨(dú)使用，也可結(jié)合使用譯碼問(wèn)題Viterbi算法:基于動(dòng)態(tài)規(guī)劃的方法搜索HMM模型中對(duì)應(yīng)觀測(cè)序列O的可能性最大的狀態(tài)序列X*訓(xùn)練問(wèn)題Baum-Welch算法是一種廣義的EM算法，利用R個(gè)觀測(cè)序列迭代估計(jì)HMM的參數(shù)λ基于HMM的語(yǔ)音識(shí)別統(tǒng)一框架大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音關(guān)鍵詞發(fā)現(xiàn)(SKS)技術(shù)最初用在人機(jī)口語(yǔ)對(duì)話系統(tǒng)，現(xiàn)開(kāi)始在音頻檢索中應(yīng)用自底向上法:先將語(yǔ)音識(shí)別為一串串音素，然后再檢測(cè)音素串中是否包含關(guān)鍵詞自頂向下法:以關(guān)鍵詞的聲學(xué)模型為基礎(chǔ)進(jìn)行檢測(cè)基于垃圾(fillerorgarbage)模型的關(guān)鍵詞發(fā)現(xiàn)

垃圾模型的建立理想的垃圾模型應(yīng)有足夠的能力匹配所有非關(guān)鍵詞的語(yǔ)音特征，同時(shí)與關(guān)鍵詞模型之間有足夠遠(yuǎn)的距離垃圾模型的實(shí)現(xiàn)有顯式和在線兩種方法顯式垃圾模型有子詞垃圾和集外垃圾兩種實(shí)現(xiàn)方法子詞垃圾方法:Filler與Keyword共享一套子詞模型，Keyword是子詞的串接，F(xiàn)iller也是子詞的串接集外垃圾方法為Filler建立專(zhuān)門(mén)的聲學(xué)模型，與Keyword的聲學(xué)模型相獨(dú)立在線垃圾模型將每個(gè)語(yǔ)音幀與所有關(guān)鍵詞模型匹配最佳的N個(gè)單元的平均分作為該幀的在線垃圾模型得分，來(lái)衡量該幀是否與某個(gè)關(guān)鍵詞模型匹配

一個(gè)側(cè)重確認(rèn)的SKS系統(tǒng)以基于HMM的連續(xù)語(yǔ)音識(shí)別技術(shù)為核心采用I型搜索網(wǎng)絡(luò)高性能的檢出關(guān)鍵詞確認(rèn)聲學(xué)模型以擴(kuò)展的聲韻母單元為識(shí)別單元搜索網(wǎng)絡(luò)權(quán)值的設(shè)定減小垃圾模型組的權(quán)重/加大關(guān)鍵詞模型組的權(quán)重關(guān)鍵詞KWi的權(quán)重設(shè)為

基于似然比的檢出關(guān)鍵詞確認(rèn)假設(shè)檢驗(yàn):假定某段語(yǔ)音特征向量O被識(shí)別成某個(gè)詞W原假設(shè)H0：O的識(shí)別結(jié)果為W備擇假設(shè)H1：O的識(shí)別結(jié)果為非W則兩個(gè)假設(shè)成立的概率對(duì)數(shù)似然比

當(dāng)LR大于閾值t時(shí)選擇H0，否則選擇H1詞是由子詞串接而成時(shí)，可將LR的計(jì)算下移到子詞層，子詞層的似然比可以表示為(λ為目標(biāo)子詞對(duì)應(yīng)的HMM)

反詞概率密度的建模(1/2)訓(xùn)練顯式反詞模型把反詞模型分為兩部分稱(chēng)為背景模型，用所有的訓(xùn)練樣本生成稱(chēng)為冒充模型，用來(lái)對(duì)混淆音建模。利用與目標(biāo)子詞最容易混淆的前N個(gè)子詞的樣本訓(xùn)練得到。反詞概率密度的建模(2/2)利用目標(biāo)模型外的其它模型構(gòu)造反詞模型假定模型空間中除目標(biāo)模型λ之外的其它模型為{λi}簡(jiǎn)單的方法是在{λi}中找一個(gè)得分最高的模型與目標(biāo)模型比較，獲得目標(biāo)模型的得分這相當(dāng)于用1-Best競(jìng)爭(zhēng)模型表示反詞模型。如果取前M個(gè)競(jìng)爭(zhēng)模型的平均，則：一個(gè)通用的計(jì)算公式是：語(yǔ)音詞匯檢測(cè)STDSKS事先確定目標(biāo)詞的集合STD每次要檢測(cè)的詞是可變的STD系統(tǒng)一般由索引和搜索器組成索引利用語(yǔ)音識(shí)別對(duì)語(yǔ)音文檔中包含的音素串建立地址和長(zhǎng)度標(biāo)記搜索器根據(jù)用戶(hù)的查詢(xún)?cè)~對(duì)索引進(jìn)行訪問(wèn)索引詞是語(yǔ)音識(shí)別系統(tǒng)的詞匯集中的詞加上音素串所能生成的集外詞查詢(xún)?cè)~是用戶(hù)所關(guān)心的任意詞2006年NIST組織了第一次STD評(píng)測(cè)，引起了廣泛的關(guān)注基于Lattice建立索引的方法被多家采用

Lattice與混淆網(wǎng)絡(luò)音節(jié)Lattice:用“網(wǎng)格”的形式保留HMM搜索空間中各種可能的音節(jié)路徑

混淆網(wǎng)絡(luò):將Lattice中不同長(zhǎng)度的詞序列進(jìn)行時(shí)間對(duì)齊，將Lattice簡(jiǎn)化為一種線性結(jié)構(gòu)

混淆網(wǎng)絡(luò)的生成算法及定義1:在Lattice上利用前向-后向算法計(jì)算弧的后驗(yàn)概率2:剪枝:剪去后驗(yàn)概率小于指定閾值的弧3:詞內(nèi)聚類(lèi):合并對(duì)應(yīng)同一個(gè)詞的弧，并對(duì)它們的后驗(yàn)概率求和4:詞間聚類(lèi):將那些競(jìng)爭(zhēng)相同時(shí)間段并且具有類(lèi)似語(yǔ)音學(xué)特性的詞組成一組，不同的時(shí)間段形成不同的組，形成一個(gè)個(gè)混淆集混淆網(wǎng)絡(luò)的格式定義alignsliceIDsliceIDword1starttimedurationascoregscorephonesphonedurs

基于音節(jié)混淆網(wǎng)絡(luò)的STD系統(tǒng)STD的索引建立利用語(yǔ)音識(shí)別完成語(yǔ)音-文本轉(zhuǎn)換STT，生成音節(jié)Lattice將Lattice轉(zhuǎn)化為音節(jié)混淆網(wǎng)絡(luò)基于音節(jié)混淆網(wǎng)絡(luò)建立音節(jié)索引通過(guò)重疊的N-gram音節(jié)語(yǔ)法建立前向索引將前向索引倒排，獲得反向索引前向索引例(1～3元模型)tianPr:1Starttime:0.40Endtime:0.52SliceID:4tiancanPr:0.7Starttime:0.40Endtime:0.63SliceID:45tiansanPr:0.8Starttime:0.40Endtime:0.63SliceID:45tiancanxiePr:0.85Starttime:0.40Endtime:0.74SliceID:456tiancanyePr:0.95Starttime:0.40Endtime:0.74SliceID:456tiancanbiePr:0.80Starttime:0.40Endtime:0.74SliceID:456canPr:0.4Starttime:0.52Endtime:0.63SliceID:5canxiePr:0.35Starttime:0.52Endtime:0.74SliceID:56……反向索引及檢索將所有語(yǔ)音文件的前向索引按照音節(jié)串ID(詞ID)和置信度大小排序就可構(gòu)成用于檢索的音節(jié)串的反向索引兩個(gè)反向索引I:WordIDPrStarttimeEndtimeSliceIDII:SliceIDWordID-Ptr索引I是詞反向索引索引II是混淆集反向索引檢索音節(jié)串時(shí)兩個(gè)索引交替使用例如搜索“八達(dá)嶺長(zhǎng)城(badalingchangcheng)”時(shí)用“badaling”搜索索引I，根據(jù)返回結(jié)果得到結(jié)束SliceID序號(hào)將該SliceID加1后搜索索引II，得到一個(gè)指向索引I的入口WordID-Ptr，看從中是否可查到“changcheng”非語(yǔ)音音頻檢索非語(yǔ)音音頻，如音樂(lè)、鳥(niǎo)鳴、狗叫、虎嘯、馬達(dá)聲等無(wú)法通過(guò)語(yǔ)音識(shí)別的方法進(jìn)行文本標(biāo)注其檢索問(wèn)題需要采取與語(yǔ)音檢索不同的技術(shù)來(lái)解決，可用機(jī)器學(xué)習(xí)的方法建立聲學(xué)模型與語(yǔ)義模型之間的聯(lián)系相關(guān)的研究主要有音頻分類(lèi)、音頻檢索以及圖像視頻檢索音頻分類(lèi)的性能主要取決于聲學(xué)特征的選取MFCC比LPC更有效音頻檢索研究重點(diǎn)QBE:哼唱查詢(xún)(QuerybyHumming)QBK:研究的重點(diǎn)在聲音的語(yǔ)義建模，[Buchanan05]提出了一個(gè)完整的聲學(xué)—語(yǔ)義框架和一套建模方法Buchanan的聲學(xué)—語(yǔ)義框架分別建立聲音的聲學(xué)空間和語(yǔ)義空間在聲學(xué)空間中，對(duì)實(shí)際的音頻內(nèi)容進(jìn)行建模在語(yǔ)義空間中，對(duì)描述聲音的詞匯進(jìn)行建模兩個(gè)空間均采用統(tǒng)計(jì)方法建模，將實(shí)例表示為特征向量在聲學(xué)空間對(duì)不同聲音的相似性進(jìn)行推算在語(yǔ)義空間對(duì)不同聲音的文本描述間的相似性進(jìn)行推算兩個(gè)空間之間的聯(lián)系依靠已知聲音及其文本描述來(lái)建立這種聯(lián)系(對(duì)應(yīng)關(guān)系)形成了兩個(gè)空間分布之間的相互映射聲學(xué)模型—特征抽取建立聲學(xué)模型的第一步是確定采用的特征MFCC特征被證明是有效的幀尺寸應(yīng)小于20ms系數(shù)的數(shù)量可在8、12、16中間選擇外加能量項(xiàng)為捕捉聲音的時(shí)變特性，需加入Delta倒譜特征，設(shè)靜態(tài)倒譜為x(t)，Delta倒譜定義為必要時(shí)，還可以Delta倒譜為基礎(chǔ)計(jì)算二階差分，即DoubleDelta倒譜，以此反映靜態(tài)倒譜變化的加速性質(zhì)利用上述特征，每段聲音就會(huì)被映射為特征空間中大量的點(diǎn)，形成一個(gè)點(diǎn)分布聲學(xué)模型—點(diǎn)分布的概率建模GMM是對(duì)上述點(diǎn)分布進(jìn)行建模的理想方法將特征空間中的樣本當(dāng)作一個(gè)整體來(lái)建模，而不去區(qū)分它們?cè)跁r(shí)間上的先后順序盡管一段聲音不一定在聲學(xué)空間形成明顯的分布簇，但通過(guò)足夠的混合分量，它的分布能夠得到近似描述一個(gè)D維的聲學(xué)特征向量x，其概率密度函數(shù)p(x)的GMMGMM的參數(shù)常用EM算法進(jìn)行估計(jì)，一個(gè)訓(xùn)練任務(wù)需要估計(jì)混合權(quán)重πi和分布參數(shù)θi={μi,Σi}兩套參數(shù)，混合度K是一個(gè)需要預(yù)先確定的值GMM參數(shù)估計(jì)的EM算法E-step:估計(jì)各個(gè)樣本屬于各個(gè)混合分量的概率，令wij為在當(dāng)前的參數(shù)估計(jì)條件下數(shù)據(jù)xi屬于第j個(gè)混合分量的概率，則：M-step:利用所有訓(xùn)練數(shù)據(jù)計(jì)算新的權(quán)重、均值和協(xié)方差矩陣語(yǔ)義模型—VSM語(yǔ)義特征空間由各個(gè)聲音的描述文檔中的詞匯支撐VSM用m×n的詞—文檔矩陣對(duì)于包含詞匯t1,t2,…tm和文檔d1,d2,…dn的聲音描述文檔集合建模每一列代表一個(gè)文檔，每一行代表一個(gè)詞詞在各個(gè)文檔以及整個(gè)集合中的權(quán)重用TF-IDF表示TF取fij的二值形式bij，IDF取熵加權(quán)的方式pij=(fij/gi)，gi為ti在集合中出現(xiàn)的次數(shù)，n為集合中的文檔數(shù)語(yǔ)義模型—LSI通過(guò)將詞—文檔矩陣A向低維空間映射來(lái)獲取詞匯之間潛在的關(guān)系采用SVD的方法A=USVT只取前k個(gè)特征值關(guān)于LSI的維數(shù)k的實(shí)驗(yàn)當(dāng)k升至50左右時(shí)，LSI的效果已經(jīng)趕上VSM在k等于70左右達(dá)到最大，分類(lèi)錯(cuò)誤率在VSM基礎(chǔ)上降低50%左右在k等于70到100之間，性能基本保持穩(wěn)定超過(guò)100后，性能開(kāi)始緩慢下降聲學(xué)空間與語(yǔ)義空間的聯(lián)系雙向檢索(聲音語(yǔ)義/語(yǔ)義聲音)需要建立聲學(xué)模型和語(yǔ)義模型之間的映射關(guān)系依賴(lài)于訓(xùn)練集合中已知的聲音及其語(yǔ)義描述之間的關(guān)系在聲學(xué)空間中，n個(gè)訓(xùn)練樣本(聲音)各有一個(gè)GMM，每個(gè)GMM對(duì)每個(gè)訓(xùn)練樣本都有一個(gè)似然度，構(gòu)成n×n的似然度矩陣在語(yǔ)義空間中，每個(gè)聲音的描述文檔有一個(gè)LSI(或VSM)模型。這n個(gè)模型之間的相似度也可以用n×n的矩陣來(lái)表示觀察發(fā)現(xiàn)上述似然度矩陣和相似度矩陣盡管有相似之處，但卻是不同的，不能相互代替需分別建立聲學(xué)語(yǔ)義和語(yǔ)義聲學(xué)的聯(lián)系聲學(xué)語(yǔ)義的聯(lián)系基本原理:利用聲學(xué)模型計(jì)算測(cè)試聲音與各已知聲音的相似度，根據(jù)最相似的已知聲音的語(yǔ)義文檔來(lái)描述測(cè)試聲音具體過(guò)程:測(cè)試聲音MFCC各GMM對(duì)該MFCC的似然度似然度最高的語(yǔ)義文檔可將已知的n種聲音聚類(lèi)以建立測(cè)試聲音與混合聲音語(yǔ)義間的聯(lián)系采用匯合聚類(lèi)策略歸一化的相似度側(cè)度聚類(lèi)結(jié)束后，對(duì)所產(chǎn)生的層次結(jié)構(gòu)中的所有非葉子節(jié)點(diǎn)，都要利用其中包含的所有聲音訓(xùn)練一個(gè)GMM聚合類(lèi)用在所含子類(lèi)的描述中出現(xiàn)頻度最高的k個(gè)詞描述語(yǔ)義聲學(xué)的聯(lián)系基本原理：與輸入的語(yǔ)義查詢(xún)最相關(guān)的描述所對(duì)應(yīng)的聲音是最可能的查詢(xún)結(jié)果查詢(xún)和描述之間的語(yǔ)義相似度可以通過(guò)LSI來(lái)計(jì)算對(duì)未標(biāo)注的聲音數(shù)據(jù)庫(kù)進(jìn)行語(yǔ)義查詢(xún)的兩種方法利用與語(yǔ)義查詢(xún)最匹配的k個(gè)已知聲學(xué)模型GMM計(jì)算未標(biāo)注聲音X的似然度直接利用MFCC的點(diǎn)分布進(jìn)行計(jì)算在MFCC聲學(xué)空間中，一段聲音是一個(gè)點(diǎn)分布。可以直接利用各個(gè)點(diǎn)分布的質(zhì)心之間的距離來(lái)估測(cè)它們之間的相似性，減小計(jì)算量質(zhì)心之間的距離可用馬氏距離度量音樂(lè)檢索是非語(yǔ)音音頻檢索的典型代表，社會(huì)需求十分旺盛哼唱檢索研究較早，已有一些系統(tǒng)推向了商用語(yǔ)義檢索是新興的一種音樂(lè)檢索形式音樂(lè)中相關(guān)的基本概念(音樂(lè)語(yǔ)言的維度)音高(Pitch):聲音的振蕩頻率，將440Hz的聲音定為“A"音強(qiáng)(Intensity):與振動(dòng)的幅度（能量）成正比，也叫響度音色(Timbre)：人們能夠感知的與發(fā)音器官或器具的物理性質(zhì)有關(guān)，獨(dú)立于音高和音強(qiáng)的聲音特性音長(zhǎng)(Duration)：一個(gè)音所持續(xù)的時(shí)間長(zhǎng)度和聲(Harmony)：兩個(gè)以上的聲音按照一定規(guī)律同時(shí)發(fā)生形成的組合節(jié)奏(Rhythm)：一個(gè)聲音序列的長(zhǎng)短和強(qiáng)弱的變化旋律(Melody)：經(jīng)過(guò)藝術(shù)構(gòu)思而形成的若干聲音和諧的有節(jié)奏的結(jié)構(gòu)，也叫“曲調(diào)”音樂(lè)的表現(xiàn)形式及文件格式音樂(lè)的表現(xiàn)有創(chuàng)作和表演兩種形式樂(lè)譜是音樂(lè)作品的基本表現(xiàn)形式，是去除了表演風(fēng)格和方法的“純凈”版本對(duì)于同一個(gè)作品，不同的演奏（唱）者存在著風(fēng)格和方法上的差異音樂(lè)文件格式符號(hào)格式(Symbolicformat):面向樂(lè)譜的表示音頻格式(Audioformat):用于音樂(lè)演出的數(shù)字化記錄，常見(jiàn)的格式包括CD、AIFF、WAVE、AU、MP3等樂(lè)器數(shù)字接口MIDI(MusicalInstrumentDigitalInterface):是符號(hào)和音頻兩種格式的折衷，主要用于數(shù)字樂(lè)器之間的數(shù)據(jù)交換音樂(lè)檢索的特征表示旋律和節(jié)奏是最常用的音樂(lè)檢索特征旋律的表示絕對(duì)法：用字符或數(shù)字對(duì)音符的絕對(duì)音高、音長(zhǎng)進(jìn)行表示相對(duì)法：用后一個(gè)音符與前一個(gè)音符的音高之差作為音高的特征向量，而用后一個(gè)音符與前一個(gè)音符的音長(zhǎng)的比值作為音長(zhǎng)的特征向量輪廓法：常用S(same)、U(up)和D(down)表示一段樂(lè)曲中當(dāng)前音符與其前面的音符的相對(duì)高低節(jié)奏的表示排除樂(lè)曲的旋律，有多種簡(jiǎn)單的表示方法。例如分別用a,b,c,d,e,f.?表示八分之一音符、八分之二音符等等音樂(lè)檢索的特征提取旋律的提取符號(hào)文件十分易于提取旋律要獲得音頻文件的旋律需要獲得每一幀的音高幀內(nèi)音高提取可分別在時(shí)域和頻域進(jìn)行，時(shí)域有自相關(guān)函數(shù)法、平均幅度差分法等，頻域有和聲乘積頻譜法、倒譜法等節(jié)奏的提取對(duì)于絕大多數(shù)流行和搖滾音樂(lè)，通常采用“節(jié)拍跟蹤”技術(shù)進(jìn)行節(jié)奏識(shí)別從信號(hào)處理的角度，可以利用信號(hào)幅度包絡(luò)線的周期變化得到相應(yīng)的節(jié)奏信息，具體可通過(guò)自相似矩陣或者自相關(guān)函數(shù)得以實(shí)現(xiàn)哼唱檢索通過(guò)接收用戶(hù)哼唱的一段音樂(lè)(歌曲或樂(lè)曲)片段來(lái)對(duì)數(shù)據(jù)庫(kù)中的音樂(lè)進(jìn)行檢索是一種以聲學(xué)信號(hào)查詢(xún)聲學(xué)文檔的檢索，屬于QBE系統(tǒng)哼唱一段旋律或曲調(diào)來(lái)查詢(xún)音樂(lè)是一種自然的易于被用戶(hù)理解和接受的檢索方式需解決的關(guān)鍵問(wèn)題哼唱中旋律、節(jié)奏等關(guān)鍵特征的提取音樂(lè)文檔和查詢(xún)之間的相似度的計(jì)算對(duì)用戶(hù)不準(zhǔn)確的哼唱的“容錯(cuò)”提高系統(tǒng)的計(jì)算效率以使檢索可以面對(duì)大量音樂(lè)文檔若干代表系統(tǒng)MELDEX(新西蘭人開(kāi)發(fā))面向1萬(wàn)首民間流行的歌曲采用3級(jí)音高輪廓和節(jié)奏信息表示旋律利用哼唱的前20個(gè)音符進(jìn)行動(dòng)態(tài)規(guī)劃查詢(xún)Tunesever(德國(guó)人開(kāi)發(fā))面向1萬(wàn)首經(jīng)典音樂(lè)，1百首流行音樂(lè)，1萬(wàn)5千首民間歌曲和1百首國(guó)歌采用3級(jí)音高輪廓表示旋律用口哨查詢(xún)MiDiLib(德國(guó)人開(kāi)發(fā))面向2千首MIDI文檔采用大于3級(jí)的音高加節(jié)奏的方式表示旋律用口哨查詢(xún)旋律的表示和提取用3級(jí)或5級(jí)音高輪廓線表示旋律3級(jí)表示:U/D/S5級(jí)表示:++/+/0/-/--旋律提取方法將查詢(xún)信號(hào)或音樂(lè)文檔信號(hào)分割為不同的音符給每個(gè)音符賦予一個(gè)用頻率表示的音高比較相鄰音符的音高，獲得信號(hào)的U/D/S等序列查詢(xún)信號(hào)的旋律提取是一個(gè)有難度的問(wèn)題常要求用戶(hù)按限定的方式輸入查詢(xún)?nèi)缈谏?、da音、ta音等聲學(xué)信號(hào)的音高提取常采用自相關(guān)函數(shù)法

因?yàn)镽(τ)在基頻的整數(shù)倍處存在較大的峰值查詢(xún)與索引的匹配索引:音樂(lè)文檔中顯著的容易被人記憶的多個(gè)段落的旋律由于用戶(hù)的哼唱常包含錯(cuò)誤，因此查詢(xún)與索引的匹配需采用有彈性的方法基于最小編輯距離的動(dòng)態(tài)規(guī)劃方法被普遍應(yīng)用面向3級(jí)輪廓線的遞歸式最小編輯距離計(jì)算方法設(shè)旋律A和B的輪廓線分別為(a1,…,am)和(b1,…,bn)，則A和B的子串(a1,…,ai)和(b1,…,bj)之間最小編輯距離為查詢(xún)提交及結(jié)果反饋用戶(hù)查詢(xún)的提交在客戶(hù)端錄制用戶(hù)的查詢(xún)，將其傳到服務(wù)器后進(jìn)行旋律提取在客戶(hù)端就完成旋律提取，只向服務(wù)器提交表示旋律的字符序列檢索結(jié)果的反饋按照匹配度從高到低的順序反饋，為了提高用戶(hù)的感受度，應(yīng)當(dāng)設(shè)置匹配度閾值基于語(yǔ)義描述的音樂(lè)標(biāo)注及檢索CAL500(ComputerAuditionLab500-Song)[Turnbull07]包含500首不同年代不同風(fēng)格的西方流行歌曲每首歌曲至少得到了3個(gè)人的標(biāo)注使用備選的詞匯描述歌曲的風(fēng)格、情感、樂(lè)器、音質(zhì)等備選的描述詞237個(gè)，標(biāo)注完成后，只取了159個(gè)至少被使用了8次的描述詞構(gòu)成CAL500的詞匯表Turnbull借鑒SML進(jìn)行基于語(yǔ)義描述的音樂(lè)標(biāo)注及檢索將CAL500詞匯表中的每個(gè)詞作為一個(gè)類(lèi)通過(guò)包含該詞的歌曲的音頻特征學(xué)習(xí)類(lèi)模型GMM基于SML的音樂(lè)標(biāo)注及檢索系統(tǒng)元素的描述詞匯表用集合V={w1,…,w|V|}表示，其中包含|V|個(gè)描述音樂(lè)特征的語(yǔ)義詞，如“喜悅(happy)”、“藍(lán)調(diào)(blues)”“電吉他(electricguitar)”、“假聲(falsetto)”等。標(biāo)注過(guò)程:尋找一個(gè)詞的集合A={a1,…,a|A|}，ai∈V，來(lái)描述一首新歌sq檢索過(guò)程:給定一個(gè)查詢(xún)?cè)~的集合Q={q1,…,q|Q|}，qi∈V，按相關(guān)度由高到低的順序排列r個(gè)歌曲S={s1,…,sr}歌曲的文本描述:y=(y1,…,yi,…,y|v|)，如果語(yǔ)義詞wi與被標(biāo)注的歌曲有聯(lián)系，則0<yi≤1，否則yi=0，yi被稱(chēng)為語(yǔ)義權(quán)重，用來(lái)表示語(yǔ)義詞與歌曲之間的聯(lián)系強(qiáng)度一首歌的音頻內(nèi)容:X={x1,…,xi,…,xT}，其中xi為從歌曲的一個(gè)片段中抽取的特征向量(MFCCs)，T取決于歌曲的長(zhǎng)度歌曲標(biāo)注系統(tǒng)詞匯表中的每個(gè)語(yǔ)義詞被看作一個(gè)類(lèi)，一首歌將被詞匯表中多個(gè)詞賦予標(biāo)簽標(biāo)注的根據(jù)是歌曲音頻特征與語(yǔ)義詞之間的聯(lián)系，這種聯(lián)系可以通過(guò)音頻特征的詞似然度函數(shù)P(X|wi)，wi∈V來(lái)建模利用樸素Ba

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

北郵郭軍web搜索chapter4

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

北郵郭軍web搜索chapter4

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔