




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于內(nèi)容的音頻檢索關(guān)鍵技術(shù)的研究,問(wèn)題: 傳統(tǒng)的方法,其主要缺點(diǎn)有: 一是當(dāng)數(shù)據(jù)量越來(lái)越多時(shí),人工注釋的工作量加大; 二是人對(duì)音頻的感知有時(shí)難以用文字注釋表達(dá)清楚,人工注釋存在不完整性和主觀性; 三是不能支持實(shí)時(shí)音頻數(shù)據(jù)流的檢索。 這里主要綜述了音頻檢索方法,討論了一些音頻檢索中的關(guān)鍵技術(shù):音頻特征提取、音頻分類、語(yǔ)音識(shí)別技術(shù)等。,總體介紹,該圖給出音頻信息檢索的系統(tǒng)結(jié)構(gòu). 預(yù)處理:語(yǔ)音處理,音頻分割、特征提取、分類等等. 用戶的查詢:用戶查詢接口、檢索引擎. 元數(shù)據(jù)庫(kù):特征庫(kù)、索引和模型描述庫(kù)等. 一段長(zhǎng)音頻, 首先進(jìn)行分割處理,獲得音頻錄音的結(jié)構(gòu)關(guān)系。然后進(jìn)行特征提取.通過(guò)分割處理。音頻經(jīng)
2、過(guò)樣本的訓(xùn)練和分類,建立分類目錄.語(yǔ)音識(shí)別把語(yǔ)音信號(hào)轉(zhuǎn)換為文本,存入文本庫(kù).提取的聲音特征保存在特征數(shù)據(jù)庫(kù)中元數(shù)據(jù)庫(kù)中的記錄與音頻數(shù)據(jù)庫(kù)中的媒體記錄關(guān)聯(lián).,用戶通過(guò)用戶查詢接口檢索音頻信息.用戶可以查詢音頻信息,或?yàn)g覽分類目錄,對(duì)于長(zhǎng)段的音頻,可以進(jìn)行基于內(nèi)容的瀏覽,即根據(jù)音頻的結(jié)構(gòu)進(jìn)行非線性瀏覽.檢索引擎利用相似性和相關(guān)度來(lái)搜索用戶要求的信息.查詢矢量和庫(kù)中音頻矢量之間的相似性由距離測(cè)度.每類特征都可以有不同的距離測(cè)度方法,以便在特定應(yīng)用或?qū)崿F(xiàn)中更為有效.,從以下幾個(gè)方面分別細(xì)說(shuō) 1.基于內(nèi)容的音頻檢索操作步驟 2.音頻特征提取 3. 音頻分類 4.音頻檢索,1.基于內(nèi)容的音頻檢索操作步驟:
3、,(1)將音頻數(shù)據(jù)分類,分成語(yǔ)音、音樂(lè)及一般類型。 (2)不同類型的音頻數(shù)據(jù)可以以不同的方式進(jìn)行處理和索引。 (3)查詢音頻片段要同樣地進(jìn)行分類、處理和索引。 (4)根據(jù)查詢索引和數(shù)據(jù)庫(kù)中音頻索引之間的相似性,對(duì)音頻片段進(jìn)行檢索。再根據(jù)相關(guān)度進(jìn)行排序。,2.1 音頻特征提取,時(shí)域特征提取和頻域特征提取 (1) 音頻時(shí)域特征的提取 平均能量說(shuō)明了音頻信號(hào)的強(qiáng)度, 過(guò)零率指每秒內(nèi)信號(hào)值通過(guò)零值的次數(shù), 靜音比表示靜音的聲音片段的比例。,傅里葉變換可分解出音頻信號(hào)的頻率成分,可提取的音頻頻域特征有帶寬、頻譜中心、諧音、音調(diào)等。 帶寬說(shuō)明了聲音的頻率范圍。 頻譜中心也稱亮度,是一個(gè)聲音頻譜能量分布的中
4、心點(diǎn)。 諧音為最低頻率的倍數(shù)的頻譜成分。 音調(diào)是聽覺(jué)分辨聲音高低的特性,完全由頻率決定,可通過(guò)頻譜估計(jì),2.2 音頻頻域特征的提取,3.1 音頻分類,(1) 不同類型聲音的主要特征,3.2音頻分類方法及順序,首先計(jì)算輸入音頻片段的頻譜中心,如果比閾值高,則認(rèn)為是音樂(lè);否則是語(yǔ)音, 其次計(jì)算靜音比,如果靜音比低,則認(rèn)為是音樂(lè);否則,認(rèn)為它是語(yǔ)音或獨(dú)奏音樂(lè)。 最后計(jì)算平均過(guò)零率ZCR,如果ZCR 可變性高,則它是語(yǔ)音,否則它是獨(dú)奏音樂(lè)。 特征判定的順序是非常重要的,一般首先判定差別性大、復(fù)雜性低的特征,這樣可降低整個(gè)計(jì)算量。,4.音頻檢索,將音頻分為語(yǔ)音和音樂(lè),使用不同的技術(shù)對(duì)它們進(jìn)行單獨(dú)處理。
5、1. 語(yǔ)音識(shí)別和檢索 語(yǔ)音索引和檢索的基本方法是運(yùn)用語(yǔ)音識(shí)別技術(shù)把語(yǔ)音信號(hào)轉(zhuǎn)化為文本,然后應(yīng)用IR技術(shù)進(jìn)行索引和檢索。 1.1 語(yǔ)音識(shí)別 自動(dòng)的語(yǔ)音識(shí)別(ASR)問(wèn)題就是一個(gè)模式匹配問(wèn)題。一個(gè)ASR系統(tǒng)通常包括訓(xùn)練和模式匹配兩個(gè)階段。 在訓(xùn)練階段, ASR系統(tǒng)收集大量的發(fā)音者的語(yǔ)音序列,然后ASR系統(tǒng)提取每個(gè)語(yǔ)音單位的特征并存放在系統(tǒng)中。,在識(shí)別過(guò)程中,ASR系統(tǒng)用與訓(xùn)練階段相似的方法對(duì)輸入語(yǔ)音進(jìn)行處理,產(chǎn)生特征矢量,找到與輸入語(yǔ)音的特征矢量最匹配的特征矢量的單詞序列。 其中基于HMM 的技術(shù)是最為流行且語(yǔ)音識(shí)別性能最好的,下面將詳細(xì)介紹。 首先將每個(gè)音素分解成輸入狀態(tài)、中間狀態(tài)和輸出狀態(tài) 3
6、個(gè)可聽到的狀態(tài),每個(gè)狀態(tài)可持續(xù)超過(guò)一個(gè)幀的時(shí)間(通常為 10ms)。在訓(xùn)練階段,使用訓(xùn)練語(yǔ)音數(shù)據(jù)為每個(gè)可能的音素構(gòu)建 ASR 。每個(gè) ASR都具有以上3個(gè)狀態(tài),并由狀態(tài)轉(zhuǎn)換概率和符號(hào)發(fā)生概率來(lái)定義。由于時(shí)間只向前流動(dòng),,因此一些轉(zhuǎn)換是不允許的。 在訓(xùn)練階段末期,由不同的發(fā)音者、時(shí)間變化和周圍的聲音引起的變化,是每個(gè)音素都由捕獲不同幀的特征矢量變化的一個(gè) ASR表示。 在語(yǔ)音識(shí)別階段,按照幀的順序計(jì)算每個(gè)輸入音素的特征矢量。識(shí)別問(wèn)題的目的是去發(fā)現(xiàn)哪個(gè)音素 ASR最可能產(chǎn)生輸入音素的特征矢量序列。ASR對(duì)應(yīng)的音素被認(rèn)為是輸入音素,由于一個(gè)單詞含有大量的音素,因此通常把音素序列放在一起進(jìn)行識(shí)別。 1
7、.2發(fā)音者識(shí)別,(2)音樂(lè)索引和檢索,音樂(lè)的類型有兩種:結(jié)構(gòu)化的(或綜合的)音樂(lè)和基于樣本的音樂(lè)。 2.1 結(jié)構(gòu)化音樂(lè)的索引和檢索 結(jié)構(gòu)化音樂(lè)和聲音效果是由一系列指令或算法來(lái)表示的。最常見(jiàn)的結(jié)構(gòu)化音樂(lè)是 MIDI,它把音樂(lè)表示成大量的音符和控制指令。結(jié)構(gòu)化音樂(lè)和聲音效果非常適合于音頻基于精確匹配的查詢。用戶可指定一個(gè)音符序列作為查詢,盡管可以找到該音符序列的精確匹配,但是由于相同結(jié)構(gòu)化的聲音文件可以由不同的設(shè)備以不同的方式進(jìn)行表現(xiàn)。,目前一種可行的方法是基于音符序列的音調(diào)變化來(lái)檢索音樂(lè)。其基本思想是:將聲音文件中的每個(gè)音符(第一個(gè)音符除外) 轉(zhuǎn)換成相對(duì)前一個(gè)音符的音調(diào)變化。三種狀態(tài):該音符比前
8、一音符高(U)、該音符比前一音符低 (D)和該音符與前一音符相同或相似(S)。按這種規(guī)則,任意一段旋律可轉(zhuǎn)化為一個(gè)包含字母 U、D、S 的符號(hào)序列,檢索任務(wù)也就變成了一個(gè)字符串匹配過(guò)程。該方法是針對(duì)基于樣本的聲音檢索提出的,也同樣適用于結(jié)構(gòu)化聲音檢索。,2.2 基于樣本的音樂(lè)的索引和檢索,基于樣本的音樂(lè)的索引和檢索有兩種通用的方法: 一是基于抽取的聲音特征集合,二是基于音樂(lè)音符的音調(diào)。 1. 基于特征集的音樂(lè)檢索 對(duì)每種聲音抽取聽覺(jué)特征集,將其表示成一個(gè)矢量。通過(guò)計(jì)算查詢音樂(lè)和每個(gè)存儲(chǔ)音樂(lè)片段相應(yīng)的特征矢量之間的近似度來(lái)計(jì)算它們的相似性。該方法可應(yīng)用于一般的聲音中,包括音樂(lè)、語(yǔ)音和聲音效果。 2.基于音調(diào)的音樂(lè)檢索 該方法與基于音調(diào)的結(jié)構(gòu)化音樂(lè)檢索相似,兩者之間的主要區(qū)別在于基于音調(diào)的音樂(lè)檢索必須抽取或估計(jì)每個(gè)音符的音調(diào)。,將一段旋律轉(zhuǎn)化為一系列相對(duì)音調(diào)轉(zhuǎn)移序列的過(guò)程稱為音調(diào)跟蹤。音調(diào)跟蹤是自動(dòng)化音樂(lè)轉(zhuǎn)錄的簡(jiǎn)化形式,它把音樂(lè)聲音轉(zhuǎn)化成符號(hào)表示。 該方法的基本思想為:由于音樂(lè)的每個(gè)音符都是由它的音調(diào)表示的,因此一個(gè)音樂(lè)片段或部分可表示成一個(gè)序列或音調(diào)串。檢索是以查詢音樂(lè)和每個(gè)存儲(chǔ)音樂(lè)片段相應(yīng)的音調(diào)串之間的相似性為基礎(chǔ),音調(diào)跟蹤和串相似測(cè)量是檢索過(guò)程的關(guān)鍵
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年第十屆安全生產(chǎn)知識(shí)競(jìng)賽經(jīng)典題庫(kù)及答案(共六套)
- 高新科技研發(fā)居間存款合同
- 航空票務(wù)居間服務(wù)合同
- 建筑柴油供應(yīng)居間協(xié)議樣本
- 城市公共交通運(yùn)營(yíng)合同
- 停車場(chǎng)智能門禁管理系統(tǒng)
- 品牌形象建設(shè)與宣傳策略作業(yè)指導(dǎo)書
- 投資理財(cái)顧問(wèn)系統(tǒng)解決方案
- 太陽(yáng)能光伏項(xiàng)目可行性報(bào)告
- 電動(dòng)汽車充電樁前景
- 小學(xué)中年級(jí)數(shù)學(xué)戲劇劇本小熊賣魚
- 《有為神農(nóng)之言者許行》講讀課件
- 櫻桃課件完整
- 設(shè)計(jì)報(bào)價(jià)單模板
- 幼兒行為觀察與分析案例教程第2版全套教學(xué)課件
- 醫(yī)院會(huì)計(jì)制度科目表
- 校本研修教師手冊(cè)電子模板
- 應(yīng)急隊(duì)伍裝備參考目錄和急性傳染病預(yù)防控制技術(shù)資料清單
- 普通地質(zhì)學(xué)-第四章-巖石課件
- 《E時(shí)代大學(xué)英語(yǔ)-讀寫教程4》教案
- 一種陸空一體垂直起降飛行汽車的制作方法
評(píng)論
0/150
提交評(píng)論