版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
VAD音頻事件檢測(cè)基本原理綜述目錄TOC\o"1-2"\h\u4170VAD音頻事件檢測(cè)基本原理綜述 1227432.1音頻事件與音頻庫(kù) 154772.1.1音頻事件檢測(cè)概述 139112.1.2音頻庫(kù)的獲取建立 1318542.2語(yǔ)音激活檢測(cè) 2103062.2.1語(yǔ)音激活檢測(cè)原理概述 2327332.2.2短時(shí)能量分析 222962.2.3短時(shí)過(guò)零分析 367372.3語(yǔ)音激活檢測(cè)實(shí)驗(yàn) 32.1音頻事件與音頻庫(kù)2.1.1音頻事件檢測(cè)概述任何人的聲音都可以聽(tīng)到作為一個(gè)音頻。在本文中,音頻事件的檢測(cè)可以分為兩種類型:語(yǔ)音和非語(yǔ)音。雖然不同的聲音信號(hào)需要不同的檢測(cè)方法,所有現(xiàn)有的聲音檢測(cè)和識(shí)別系統(tǒng)大致可以分為兩部分:特征提取算法和模式匹配算法[15]。音頻事件檢測(cè),主要是指給定的音頻周期,能夠準(zhǔn)確判斷音頻事件的開(kāi)始和結(jié)束,并對(duì)事件進(jìn)行正確的分類檢測(cè)。本節(jié)將介紹如何在音頻檢測(cè)事件中捕獲音頻。2.1.2音頻庫(kù)的獲取建立在本文中,我們建立了一個(gè)音頻庫(kù),包括腳步聲,門(mén)的聲音,門(mén)的聲音和聲音。音頻主要通過(guò)自己錄制和網(wǎng)絡(luò)下載兩種方式來(lái)獲取,并刪除音質(zhì)太模糊、聲音太大的噪聲,最終建立本實(shí)驗(yàn)的音頻庫(kù)。音頻庫(kù)有四種音頻事件,即,腳步聲,門(mén)的聲音,門(mén)和聲音。聲音庫(kù)中的腳步聲,解鎖聲音,開(kāi)關(guān)門(mén)聲音三種聲音通過(guò)網(wǎng)絡(luò)下載,然后得到剪輯的方法。從300種不同類型的鞋,不同的地面和不同的運(yùn)動(dòng)。解鎖聲音根據(jù)不同的鎖定材料和解鎖速度收集150種。根據(jù)門(mén)的質(zhì)量和開(kāi)關(guān)門(mén)的速度,收集了150種開(kāi)關(guān)聲音。而語(yǔ)音是在環(huán)境噪聲低于35dB的隔音室,由5名男性(22歲±QUOTE2)和5名女性(22歲±QUOTE2)分別錄制20種語(yǔ)音共200種,參與錄音的志愿者均為本校學(xué)生,普通話發(fā)音標(biāo)準(zhǔn),且沒(méi)有任何語(yǔ)言障礙和咽喉疾病病史。與其他研究者一樣,在語(yǔ)音樣本的獲取中使用了一些約束條件,為了建立最佳的語(yǔ)音數(shù)據(jù)采樣庫(kù),本文采用了一些折衷的方法。實(shí)驗(yàn)句子的選擇主要遵循以下原則:(1)中文表達(dá)采用標(biāo)準(zhǔn)普通話,不含帶各種方言;(2)盡可能避開(kāi)無(wú)聲輔音,如、、、,避免由這些音可能引起的基音周期軌跡的不連續(xù);(3)男性和女性均容易發(fā)聲。2.2語(yǔ)音激活檢測(cè)人類的發(fā)音器官包括肺、氣管、咽喉、聲帶、聲門(mén)、鼻子和嘴,在通道的上方喉嚨叫,并通過(guò)改變部分形狀不同的發(fā)音叫做聲門(mén)。[19]是一個(gè)收縮的肺人類語(yǔ)音壓縮支氣管氣流通過(guò)聲門(mén)和通道的音頻振蕩通道開(kāi)始引起和結(jié)束在口腔、聲門(mén)喉,包括口腔、鼻腔通道是從開(kāi)始到小舌鼻孔為止。當(dāng)小舌下垂、鼻道和鼻的聲音通道耦合產(chǎn)生的。聲音產(chǎn)生的過(guò)程,取決于整個(gè)舌、唇、頜和舌的通道橫截面積,功能通道的橫截面積隨垂直位置的變化而變化,稱為通道面積函數(shù)。人的發(fā)音過(guò)程有三種不同類型的激勵(lì),導(dǎo)致三種不同的聲音,是濁音,清音塞音。常用的語(yǔ)音激活檢測(cè)方法有短時(shí)能量法和短時(shí)過(guò)零率法。這兩種方法是時(shí)域算法,簡(jiǎn)單,快速,易于實(shí)現(xiàn)。語(yǔ)音激活檢測(cè)(語(yǔ)音活動(dòng)檢測(cè),VAD)的基本原理流程圖如圖2-1所示。VAD判決糾正糾正VAD判決特征提取預(yù)處理語(yǔ)音輸入VAD輸出VAD判決糾正糾正VAD判決特征提取預(yù)處理門(mén)限計(jì)算門(mén)限計(jì)算圖2-1VAD基本原理框圖2.2.1語(yǔ)音激活檢測(cè)原理概述語(yǔ)音激活檢測(cè)技術(shù)是一種區(qū)分語(yǔ)音和噪聲的技術(shù)。語(yǔ)音激活檢測(cè)在靜音壓縮技術(shù)中具有重要意義,同時(shí)在語(yǔ)音合成、回聲消除、語(yǔ)音編碼、噪聲消除、語(yǔ)音識(shí)別等方面有著良好的應(yīng)用[20]。語(yǔ)音激活檢測(cè)技術(shù)已經(jīng)發(fā)展得非常成熟,因此,VAD檢測(cè)的應(yīng)用擴(kuò)展到非語(yǔ)音應(yīng)用領(lǐng)域中,其目的是從語(yǔ)音信號(hào)流來(lái)識(shí)別和消除長(zhǎng)時(shí)間的沉默期的特點(diǎn),沉默的抑制效果,節(jié)省處理時(shí)間,系統(tǒng)分類。下面將根據(jù)語(yǔ)音信號(hào)的特點(diǎn)對(duì)語(yǔ)音激活檢測(cè)算法進(jìn)行介紹,并對(duì)聲音的腳步聲、門(mén)的聲音和聲音的測(cè)試算法進(jìn)行測(cè)試,以說(shuō)明鎖的合理性。2.2.2短時(shí)能量分析語(yǔ)音信號(hào)的能量隨時(shí)間的變化,清音和濁音之間的能量差異顯著。因此,短時(shí)能量分析可以描述語(yǔ)音的語(yǔ)音變化。對(duì)于短時(shí)間的能量值采樣幀和加權(quán)平方,定義如下:(2-1)式中為窗函數(shù),為窗長(zhǎng)。窗函數(shù)的選擇影響著短時(shí)能量的計(jì)算,如果窗長(zhǎng)過(guò)長(zhǎng),這個(gè)窗口相當(dāng)于低通濾波器,太強(qiáng)的平穩(wěn)信號(hào),短時(shí)能量幾乎沒(méi)有什么變化,不能反映時(shí)變特征的語(yǔ)音信號(hào);另一方面,如果窗口太小,不能提供足夠的平滑效果,語(yǔ)音振幅瞬時(shí)變化的細(xì)節(jié)被保留,有振幅信封沒(méi)有變化規(guī)律。2.2.3短時(shí)過(guò)零分析短時(shí)過(guò)零分析是語(yǔ)音信號(hào)處理的一種有效方法。對(duì)于連續(xù)的語(yǔ)音信號(hào),零交叉意味著時(shí)域波形通過(guò)時(shí)間軸。對(duì)于離散的語(yǔ)音信號(hào),零交叉意味著樣本的數(shù)量來(lái)改變符號(hào)。其中,X(n)的短時(shí)過(guò)零率定義如下(2-2)式中,是符號(hào)函數(shù),即(2-3)為窗函數(shù)。此外,利用短時(shí)平均過(guò)零數(shù)還可以從背景噪音中提取出有用的語(yǔ)音信號(hào)。2.3語(yǔ)音激活檢測(cè)實(shí)驗(yàn)利用MATLABR2008a開(kāi)發(fā)環(huán)境的語(yǔ)音活動(dòng)檢測(cè)實(shí)驗(yàn)中,幀的長(zhǎng)度是FrameLen=30和MS=10毫秒frameinc堆棧幀,語(yǔ)音活動(dòng)檢測(cè)的實(shí)驗(yàn)是在錄制的語(yǔ)音庫(kù)進(jìn)行,語(yǔ)音,測(cè)試結(jié)果的聲音,聲和門(mén)鎖開(kāi)關(guān)腳步2-5如圖2-2所示。通過(guò)觀察,利用短時(shí)能量、短時(shí)過(guò)零率的特征,語(yǔ)音活動(dòng)檢測(cè)可以檢測(cè)到語(yǔ)音和非語(yǔ)音的聲音和結(jié)束,并通過(guò)沉默切段,音頻信號(hào)的算法,刪除,保存為下面的語(yǔ)音特征提取和分類。腳步聲圖2-2基于語(yǔ)音的VAD檢測(cè)圖2-3基于開(kāi)鎖聲的VAD檢測(cè)圖2-4基于開(kāi)關(guān)門(mén)聲的VAD檢測(cè)圖2-5基于腳步聲的VAD檢測(cè)與上述實(shí)驗(yàn)結(jié)果相比,我們可以發(fā)現(xiàn),VAD檢測(cè)技術(shù)對(duì)語(yǔ)音有更好的效果,但
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025建筑施工合同風(fēng)險(xiǎn)的分析和對(duì)策
- 2025人民防空工程租賃使用合同示范
- 詩(shī)歌創(chuàng)作的靈感挖掘與表達(dá)技巧
- 民族藥理學(xué)視角下的少數(shù)民族醫(yī)藥研究進(jìn)展
- 2024年留置針項(xiàng)目資金申請(qǐng)報(bào)告
- 科技賦能現(xiàn)代小區(qū)的智能安防系統(tǒng)設(shè)計(jì)與應(yīng)用研究
- 游泳教育中的法律責(zé)任與風(fēng)險(xiǎn)控制
- 3D打印行業(yè)報(bào)告:消費(fèi)電子鈦浪起3D打印黎明至
- 二零二五年度物聯(lián)網(wǎng)大數(shù)據(jù)通信接入合同3篇
- 2025年蘇人新版選修化學(xué)下冊(cè)月考試卷含答案
- 2024年湖南高速鐵路職業(yè)技術(shù)學(xué)院高職單招數(shù)學(xué)歷年參考題庫(kù)含答案解析
- 2024年國(guó)家工作人員學(xué)法用法考試題庫(kù)及參考答案
- 國(guó)家公務(wù)員考試(面試)試題及解答參考(2024年)
- 《阻燃材料與技術(shù)》課件 第6講 阻燃纖維及織物
- 同等學(xué)力英語(yǔ)申碩考試詞匯(第六版大綱)電子版
- 人教版五年級(jí)上冊(cè)遞等式計(jì)算100道及答案
- 墓地個(gè)人協(xié)議合同模板
- 2024年部編版初中語(yǔ)文各年級(jí)教師用書(shū)七年級(jí)(上冊(cè))
- 2024年新課標(biāo)全國(guó)Ⅰ卷語(yǔ)文高考真題試卷(含答案)
- 湖南省退休人員節(jié)日慰問(wèn)政策
- QB/T 5998-2024 寵物尿墊(褲)(正式版)
評(píng)論
0/150
提交評(píng)論