版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于內(nèi)容的音頻信息檢索武港山Tel:83594243Office:蒙民偉樓608BEmail:gswu@2023/10/9WuGangshan:ModernInformationRetrieval2Contents概述查詢方式語音檢索音頻檢索音樂檢索2023/10/9WuGangshan:ModernInformationRetrieval31音頻檢索概述音頻是多媒體中的一種重要媒體。我們能夠聽見的音頻頻率范圍是60Hz~20kHz。其中語音大約分布在300Hz~4kHz之內(nèi),而音樂和其他自然聲響是全范圍分布的。聲音經(jīng)過模擬設(shè)備記錄或再生,成為模擬音頻,再經(jīng)數(shù)字化成為數(shù)字音頻。數(shù)字化時的采樣率必須高于信號帶寬的2倍,才能正確恢復(fù)信號。樣本可用8位或16位比特表示。2023/10/9WuGangshan:ModernInformationRetrieval41音頻檢索概述音頻是聲音信號的表示形式,作為一種信息載體,音頻可以分為三種類型:波形聲音對模擬聲音數(shù)字化而得到的數(shù)字音頻信號。它可以代表語音、音樂、自然界和合成的聲響。語音具有字詞、語法等語素,是一種高度抽象的概念交流媒體。語音經(jīng)過識別可以轉(zhuǎn)換為文本。文本是語音的一種腳本形式。音樂具有節(jié)奏、旋律或和聲等要素,是人聲或/和樂器音響等配合所構(gòu)成的一種聲音。音樂可以用樂譜來表示。2023/10/9WuGangshan:ModernInformationRetrieval5音頻信息的特征不同類型的聲音具有不同的內(nèi)在內(nèi)容。人們感受到的內(nèi)容不同。但從整體看,音頻內(nèi)容分為三個級別:最低層的物理樣本級、中間層的聲學(xué)特征級和最高層的語義級,如下圖所示。從低級到高級,其內(nèi)容逐級抽象,內(nèi)容的表示逐級概括。2023/10/9WuGangshan:ModernInformationRetrieval6音頻信息的特征音樂敘事、音頻對象描述、語音識別文本、事件……感知特征:音調(diào)、音高;旋律、節(jié)奏…聲學(xué)特征:能量、過零率、LPC系數(shù)…音頻結(jié)構(gòu)化表示采樣率、時間刻度樣本、格式、編碼……語義特征級物理特征級樣本數(shù)據(jù)級模糊匹配(基于內(nèi)容的檢索)嚴格匹配2023/10/9WuGangshan:ModernInformationRetrieval7
級別特征顯式表示可否用于檢索物理級聲學(xué)級語義級音頻信息的特征取樣頻率、量化精度、編碼方法、聲道數(shù)目、時間刻度信息(時:分:秒:幀)...音量、音高、音域、音色、….如一段語音的中心思想、包含的關(guān)鍵詞、類型等,一段音樂的旋律、情緒、主題等...是否否少部分部分全部2023/10/9WuGangshan:ModernInformationRetrieval81音頻檢索概述基于人工輸入的屬性和描述來進行音頻檢索是容易首先想到的方法。該方法的主要缺點反映在:當(dāng)數(shù)據(jù)量越來越多時,人工的注釋強度加大;人對音頻的感知,如音樂的旋律、音調(diào)、音質(zhì)等,難以用文字注釋表達清楚。這些正是基于內(nèi)容的音頻檢索需要研究和解決的問題。但同時應(yīng)該注意到音頻檢索可以利用的一個優(yōu)勢,那就是語音是一種特殊類型的音頻,它與文本可以互相轉(zhuǎn)換,因此,可以利用文本檢索技術(shù)進行概念檢索。2023/10/9WuGangshan:ModernInformationRetrieval9基于內(nèi)容的音頻檢索What?從聲學(xué)特征和語義特征進行音頻信息的檢索稱為基于內(nèi)容的音頻檢索。困難:1數(shù)字音頻是一種不透明的位流,它不顯式地包含可識別或可比較的語義實體;2人工輸入音頻數(shù)據(jù)的屬性和內(nèi)容描述,工作量極大,注釋的準確性依賴于人的水平、經(jīng)驗和工作態(tài)度;3人對音頻信息(特別是音樂)的感知,如音樂的旋律、音調(diào)、音質(zhì)等,難以用文字表達清楚。2023/10/9WuGangshan:ModernInformationRetrieval102、查詢方式:需求檢索包含特定內(nèi)容的一段講話(計算機,互連網(wǎng),多媒體技術(shù)...)檢索指定說話人的一段講話檢索指定類型的一段音頻(音樂、歌曲、報告、談話...)檢索指定旋律的一段音樂檢索指定樂器演奏的一段音樂2023/10/9WuGangshan:ModernInformationRetrieval112、查詢方式:用戶表達示例方式(byexample)也稱為擬聲方式(onomatopoeia)。用戶使用一個聲音例子表達其檢索要求,查找出與該聲音相似的所有聲音。例如:用戶可以發(fā)出嗡嗡聲來查找蜜蜂或電氣嘈雜聲檢索與飛機的轟鳴聲相似的所有聲音。直喻(simile)方式。通過選擇一些聲學(xué)/感知特性來描述檢索要求,如音色、音調(diào)等。2023/10/9WuGangshan:ModernInformationRetrieval122、查詢方式:用戶表達主觀特征方式。用描述語言來描述聲音,如尋找“歡快”的聲音。這需要預(yù)先訓(xùn)練系統(tǒng)理解這些描述語言的含義。瀏覽方式。對數(shù)據(jù)庫中所有的聲音逐個審聽,尋找所需要的聲音。這需要在分類的基礎(chǔ)上進行,最好預(yù)先為每一段聲音做好摘要。2023/10/9WuGangshan:ModernInformationRetrieval13基于內(nèi)容的檢索過程用戶的查詢說明示例一般性描述相似性匹配返回一組候選結(jié)果結(jié)束修改查詢說明從候選結(jié)果中選擇一個示例滿意?NY2023/10/9WuGangshan:ModernInformationRetrieval14基于內(nèi)容檢索的特點是一種相似檢索,得到的是與用戶指定要求相似的一組結(jié)果。檢索時可以指定返回結(jié)果的數(shù)目,或要求檢索結(jié)果能滿足一定的相似度??梢詮娬{(diào)或忽略某些特征,對指定特征施加“l(fā)ess”或“more”等模糊運算。3語音檢索2023/10/9WuGangshan:ModernInformationRetrieval16語音檢索的對象及應(yīng)用檢索對象:語音文檔(broadcastradio,TVprograms,videotapes,lectures,voicememo,voicemail,voicephonebook,etc.)查詢方式:textand/orspeech
技術(shù):語音識別技術(shù),應(yīng)用:在電臺節(jié)目、電話錄音、會議錄音、教學(xué)錄音的數(shù)據(jù)管理與應(yīng)用中極為有用。2023/10/9WuGangshan:ModernInformationRetrieval17(1)利用語音識別技術(shù)進行檢索利用自動語音識別技術(shù)預(yù)先把語音轉(zhuǎn)換為文本(腳本):誤識率較高,含噪音數(shù)據(jù),無格式信息:標(biāo)題,段落,標(biāo)點符號.需添加語音和文本的對齊信息:time-align含有語音的聲學(xué)特征信息和感知信息對腳本進行處理,抽取摘要、關(guān)鍵詞等信息,采用常規(guī)的文本檢索方法進行檢索。問題:OOV(OutofVocabulary)問題,1%是OOV詞匯,
2023/10/9WuGangshan:ModernInformationRetrieval18(2)基于說話人辨認進行檢索辨別出說話人語音的特點,來檢索出指定人的錄音資料,如某位教授的講課錄音等。實現(xiàn):根據(jù)說話人語音的變化分割錄音,預(yù)先建立錄音的結(jié)構(gòu)和索引;這種技術(shù)是簡單地辨別出說話人話音的差別,而不是識別出說的是什么。2023/10/9WuGangshan:ModernInformationRetrieval19(2)基于說話人辨認進行檢索它在合適的環(huán)境中可以做到非常準確。利用這種技術(shù),可以根據(jù)說話人的變化分割錄音,并建立錄音索引。用這種技術(shù)檢測視頻或多媒體資源的聲音軌跡中的說話人的變化,建立索引和確定某種類型的結(jié)構(gòu)(如對話)。例如,分割和分析會議錄音,分割的區(qū)段對應(yīng)于不同的說話人,可以方便地直接瀏覽長篇的會議資料。2023/10/9WuGangshan:ModernInformationRetrieval20(3)基于關(guān)鍵詞發(fā)現(xiàn)技術(shù)進行檢索“關(guān)鍵詞發(fā)現(xiàn)”(Spotting)技術(shù):在語音文檔中,自動地檢測出指定的詞或短語的技術(shù),(例如通過“進球”這個關(guān)鍵詞可以找到體育比賽實況錄音中進球前后的解說)實現(xiàn):預(yù)先識別出指定集合中的關(guān)鍵詞,建立索引。問題:關(guān)鍵詞集合固定,數(shù)量有限;語音數(shù)據(jù)以特征向量序列表示,索引很不方便.2023/10/9WuGangshan:ModernInformationRetrieval21Sub-wordLatticeBasedWordSpotting子詞(Sub-word)單位可以是音素、音節(jié)或半音節(jié)等.它是語音分析過程中的產(chǎn)物,與語種無關(guān).
Sub-wordLattice是一種有向無環(huán)圖.查詢時使用的關(guān)鍵詞,實時生成其子詞序列,子詞序列和Sub-wordLattice的進行相似度匹配(后向搜索).t-1t0.850.210.730.352023/10/9WuGangshan:ModernInformationRetrieval22語音識別技術(shù)的應(yīng)用領(lǐng)域Growinginterestinthisarea:Videomailretrieval(Cam,UK)BBCnewsretrieval.Digitallibraryprojects(CMU的Informedia,Michagen的MSU,Sheffield和Cam的THIRLProject,Maryland的VoiceGraph,AT&TSCAN).ARPAbroadcastnews和TREC6,7,8的SDRWorkshop.4基于聲學(xué)特征的音頻檢索2023/10/9WuGangshan:ModernInformationRetrieval244基于聲學(xué)特征的音頻檢索音頻檢索是以波形聲音為對象的檢索,這里的音頻可以是汽車發(fā)動機聲、雨聲、鳥叫聲,也可以是語音和音樂等,這些音頻都統(tǒng)一用聲學(xué)特征來檢索。雖然ASR可以對語音內(nèi)容給出有價值的線索,但是,還有大量其他的音頻數(shù)據(jù)需要處理,從聲音效果到動物叫聲以及合成聲音等。因此,對于一般的音頻,僅僅有語音技術(shù)是不夠的,使用戶能從大型音頻數(shù)據(jù)庫中或一段長錄音中找到感興趣的音頻內(nèi)容是音頻檢索要做的事。2023/10/9WuGangshan:ModernInformationRetrieval254基于聲學(xué)特征的音頻檢索音頻數(shù)據(jù)的訓(xùn)練、分類和分割方便了音頻數(shù)據(jù)庫的瀏覽和查找,基于聽覺特征的檢索為用戶提供高級的音頻查詢接口。這里指的音頻檢索就是針對廣泛的聲音數(shù)據(jù)的檢索,分析和檢索的音頻可以包含語音和音樂,但是采用的是更一般性的聲學(xué)特性分析方法。2023/10/9WuGangshan:ModernInformationRetrieval26(1)聲音訓(xùn)練和分類通過訓(xùn)練來形成一個聲音類。用戶選擇一些表達某類特性的聲音例子(樣本),如“腳步聲”。對于每個進入數(shù)據(jù)庫中的聲音,先計算其N維聲學(xué)特征矢量,然后計算這些訓(xùn)練樣本的平均矢量和協(xié)方差矩陣,這個均值和協(xié)方差就是用戶訓(xùn)練得出的表達某類聲音的類模型。2023/10/9WuGangshan:ModernInformationRetrieval27(1)聲音訓(xùn)練和分類聲音分類是把聲音按照預(yù)定的類組合。首先計算被分類聲音與以上類模型的距離,可以利用Euclidean距離等方式度量,然后距離值與門限(閾值)比較,以確定是否該聲音納入或不屬于比較的聲音類。也有某個聲音不屬于任何比較的類的情況發(fā)生,這時可以建立新的類,或納入一個“其他”類,或歸并到距離最近的類中。2023/10/9WuGangshan:ModernInformationRetrieval28(2)聽覺檢索聽覺感知特性,如基音和音高等,可以自動提取并用于聽覺感知的檢索,也可以提取其他能夠區(qū)分不同聲音的聲學(xué)特征,形成特征矢量用于查詢。例如:按時間片計算一組聽覺感知特征:基音、響度、音調(diào)等。考慮到聲音波形隨時間的變化,最終的特征矢量將是這些特征的統(tǒng)計值,例如用平均值、方差和自相關(guān)值表示。這種方法適合檢索和對聲音效果數(shù)據(jù)進行分類,如動物聲、機器聲、樂器聲、語音和其他自然聲等。2023/10/9WuGangshan:ModernInformationRetrieval29(3)音頻分割以上方法適合單體聲音的情況,如一小段電話鈴聲、汽車鳴笛聲等。但是,一般的情況是一段錄音包含許多類型的聲音,由多個部分組成。更為復(fù)雜的情況是,以上各種聲音可能會混在一起,如一個有背景音樂的朗誦、同聲翻譯等。這需要在處理單體聲音之前先分割長段的音頻錄音。另外,還涉及到區(qū)分語音、音樂或其他聲音。例如對電臺新聞節(jié)目進行分割,分割出語音、靜音、音樂、廣告聲和音樂背景上的語音等。2023/10/9WuGangshan:ModernInformationRetrieval30(3)音頻分割處理通過信號的聲學(xué)分析并查找聲音的轉(zhuǎn)變點就可以實現(xiàn)音頻的分割。轉(zhuǎn)變點是度量特征突然改變的地方。轉(zhuǎn)變點定義信號的區(qū)段,然后這些區(qū)段就可以作為單個的聲音處理。例如,對一段音樂會的錄音,可通過自動掃描找到鼓掌聲音,以確定音樂片斷的邊界。這些技術(shù)包括:暫停段檢測、說話人改變檢測、男女聲辨別,以及其他的聲學(xué)特征。2023/10/9WuGangshan:ModernInformationRetrieval31(3)音頻分割的好處音頻是時基線性媒體。現(xiàn)在我們看到的典型音頻播放接口是與磁帶錄音機相似的界面,具有停止、暫停、播放、快進、倒帶等按鈕。為了不丟失其中的重要東西,必須從頭到尾聽一遍聲音文件,這樣要花費很多時間,即使使用“快進”,也容易丟失重要的片斷,不能滿足信息技術(shù)的要求。因此,在分割的基礎(chǔ)上,就可以結(jié)構(gòu)化表示音頻的內(nèi)容,建立超越常規(guī)的順序瀏覽界面和基于內(nèi)容的音頻瀏覽接口。2023/10/9WuGangshan:ModernInformationRetrieval32補充:AudioFeaturesFeaturesderivedinthetimedomain:~averageenergy~zerocrossingrate(ZCR):Itindicatesthefreqofsignalamplitudesignchange.~silenceratio:Thresholdingmaybetricky.Featuresderivedinthefreqdomain~soundspectrum【頻譜】~bandwidth【帶寬】:Musicusuallyhasahigherbandwidththanspeech.~energydistribution【能量分布】:Musicusuallyhasmorehighfreqcomponentsthanspeech.=>spectralcentroid/brightness(midpointofthespec
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度餐飲企業(yè)員工健康管理與福利保障合同3篇
- 二零二五年度抹灰作業(yè)勞務(wù)分包合同(含后期維護)4篇
- 2024年09月江蘇2024年揚州農(nóng)村商業(yè)銀行校園招考筆試歷年參考題庫附帶答案詳解
- 2024版食堂餐飲供應(yīng)合同3篇
- 2025年度大型活動策劃公司臨時活動執(zhí)行人員合同范本4篇
- 2025年短視頻IP開發(fā)制作合同樣本3篇
- 2025年度個人貸款擔(dān)保責(zé)任保險合同標(biāo)準范本2篇
- 二零二五版苗木種植基地生態(tài)環(huán)境保護與恢復(fù)合同4篇
- 農(nóng)產(chǎn)品運輸與保鮮
- 2025年銷售合同發(fā)票管理臺賬模板(智能管理)2篇
- 上海車位交易指南(2024版)
- 醫(yī)學(xué)脂質(zhì)的構(gòu)成功能及分析專題課件
- 通用電子嘉賓禮薄
- 錢素云先進事跡學(xué)習(xí)心得體會
- 道路客運車輛安全檢查表
- 宋曉峰辣目洋子小品《來啦老妹兒》劇本臺詞手稿
- 附錄C(資料性)消防安全評估記錄表示例
- 噪音檢測記錄表
- 推薦系統(tǒng)之協(xié)同過濾算法
- 提高筒倉滑模施工混凝土外觀質(zhì)量QC成果PPT
- 小學(xué)期末班級頒獎典禮動態(tài)課件PPT
評論
0/150
提交評論