語音端點檢測算法的研究與matla程序仿真與實現(xiàn)設(shè)計說明_第1頁
語音端點檢測算法的研究與matla程序仿真與實現(xiàn)設(shè)計說明_第2頁
語音端點檢測算法的研究與matla程序仿真與實現(xiàn)設(shè)計說明_第3頁
語音端點檢測算法的研究與matla程序仿真與實現(xiàn)設(shè)計說明_第4頁
語音端點檢測算法的研究與matla程序仿真與實現(xiàn)設(shè)計說明_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、摘要語音端點檢測是指從一段語音信號中準確的找出語音信號的起始點和結(jié)束點,它的目的是為了使有效的語音信號和無用的噪聲信號得以分離,因此在語音識別、語音增強、語音編碼、回聲抵消等系統(tǒng)中得到廣泛應用。 目前端點檢測方法大體上可以分成兩類,一類是基于閾值的方法,該方法根據(jù)語音信號和噪聲信號的不同特征,提取每一段語音信號的特征,然后把這些特征值與設(shè)定的閾值進行比較,從而達到語音端點檢測的目的,該方法原理簡單,運算方便,所以被人們廣泛使用,本文主要對基于閥值的方法進行研究。另一類方法是基于模式識別的方法,需要估計語音信號和噪聲信號的模型參數(shù)來進行檢測。由于基于模式識別的方法自身復雜度高,運算量大,因此很難

2、被人們應用到實時語音信號系統(tǒng)中去。端點檢測在語音信號處理中占有十分重要的地位,直接影響著系統(tǒng)的性能。本文首先對語音信號進行簡單的時域分析,其次利用短時能量和過零率算法、倒譜算法、譜熵算法進行語音端點檢測,并對這幾種算法進行端點檢測,并進行實驗分析。本文首先分別用各算法對原始語音信號進行端點檢測,并對各算法檢測結(jié)果進行分析和比較。其次再對語音信號加噪,對不同信噪比值進行端點檢測,分析比較各算法在不同信噪比下的端點檢測結(jié)果,實驗結(jié)果表明譜熵算法語音端點檢測結(jié)果比其他兩種方法好。關(guān)鍵詞語音端點檢測;語音信號處理;短時能量和過零率;倒譜;譜熵53 / 66AbstractEndpoint detect

3、ion is a voice signal from the accurate speech signal to the identify start and the end points, the purpose is to enable to separated the effective voice signals and un-useful noise. So, in the speech recognition system, speech enhancement, speech coding, echo cancellation and other systems are wide

4、ly used.In Current the endpoint detection can be roughly divided into two categories, one is based on the threshold method based on the different characteristics of speech signal and the noise signals, a voice signal for each extracted feature, and then set the values of these thresholds compare wit

5、h the values to achieve the endpoint detection purposes, This method is simple, it convenient operation, it is widely used, the main in this paper is based on the method of threshold method. Another method is based on the method of pattern recognition, it needs to estimate the speech signal and the

6、noise signal model parameters were detected. Because is based on the method of pattern recognition and high self-complexity, a large amount of computation, so it is difficult to be use in real-time voice signal system for people.The Endpoint detection is take a very important position inthe speech r

7、ecognition, it directly affects the performance of the system. In this article first domain analysis in simple speech signal time, than dual threshold algorithm, cepstrum algorithm, spectral entropy algorithm for endpoint detection, and these types of endpoint detection algorithms, and experimental

8、analysis points. Firstly, the algorithm were used to the original speech signal detection, and the algorithm to analyze and compare results. Secondly, the speech signal and then adding noise, SNR values for different endpoint detection, analysis and comparison of various algorithms under different S

9、NR endpoint detection results, experimental results show that the spectral entropy of speech endpoint detection algorithm results better than the other two methods.Keywordsvoice activity detection;Signal processing; Average energy use of short-term and short-time average zero-crossing rat; cepstrum;

10、 spectral entropy 畢業(yè)設(shè)計(論文)原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人重承諾:所呈交的畢業(yè)設(shè)計(論文),是我個人在指導教師的指導下進行的研究工作與取得的成果。盡我所知,除文中特別加以標注和致的地方外,不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果,也不包含我為獲得與其它教育機構(gòu)的學位或?qū)W歷而使用過的材料。對本研究提供過幫助和做出過貢獻的個人或集體,均已在文中作了明確的說明并表示了意。作 者 簽 名:日 期:指導教師簽名: 日期:使用授權(quán)說明本人完全了解大學關(guān)于收集、保存、使用畢業(yè)設(shè)計(論文)的規(guī)定,即:按照學校要求提交畢業(yè)設(shè)計(論文)的印刷本和電子版本;學校有權(quán)保存畢業(yè)設(shè)計(

11、論文)的印刷本和電子版,并提供目錄檢索與閱覽服務(wù);學??梢圆捎糜坝?、縮印、數(shù)字化或其它復制手段保存論文;在不以贏利為目的前提下,學??梢怨颊撐牡牟糠只蛉咳荨W髡吆灻?日 期:學位論文原創(chuàng)性聲明本人重聲明:所呈交的論文是本人在導師的指導下獨立進行研究所取得的研究成果。除了文中特別加以標注引用的容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫的成果作品。對本文的研究做出重要貢獻的個人和集體,均已在文中以明確方式標明。本人完全意識到本聲明的法律后果由本人承擔。作者簽名: 日期: 年 月 日學位論文使用授權(quán)書本學位論文作者完全了解學校有關(guān)保留、使用學位論文的規(guī)定,同意學校保留并向國家有關(guān)部門或

12、機構(gòu)送交論文的復印件和電子版,允許論文被查閱和借閱。本人授權(quán)大學可以將本學位論文的全部或部分容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。涉密論文按學校規(guī)定處理。作者簽名:日期: 年 月 日導師簽名: 日期: 年 月 日指導教師評閱書指導教師評價:一、撰寫(設(shè)計)過程1、學生在論文(設(shè)計)過程中的治學態(tài)度、工作精神 優(yōu) 良 中 與格 不與格2、學生掌握專業(yè)知識、技能的扎實程度 優(yōu) 良 中 與格 不與格3、學生綜合運用所學知識和專業(yè)技能分析和解決問題的能力 優(yōu) 良 中 與格 不與格4、研究方法的科學性;技術(shù)線路的可行性;設(shè)計方案的合理性 優(yōu) 良 中 與格 不與

13、格5、完成畢業(yè)論文(設(shè)計)期間的出勤情況 優(yōu) 良 中 與格 不與格二、論文(設(shè)計)質(zhì)量1、論文(設(shè)計)的整體結(jié)構(gòu)是否符合撰寫規(guī)? 優(yōu) 良 中 與格 不與格2、是否完成指定的論文(設(shè)計)任務(wù)(包括裝訂與附件)? 優(yōu) 良 中 與格 不與格三、論文(設(shè)計)水平1、論文(設(shè)計)的理論意義或?qū)鉀Q實際問題的指導意義 優(yōu) 良 中 與格 不與格2、論文的觀念是否有新意?設(shè)計是否有創(chuàng)意? 優(yōu) 良 中 與格 不與格3、論文(設(shè)計說明書)所體現(xiàn)的整體水平 優(yōu) 良 中 與格 不與格建議成績:優(yōu) 良 中 與格 不與格(在所選等級前的畫“”)指導教師: (簽名) 單位: (蓋章)年 月 日評閱教師評閱書評閱教師評價:一

14、、論文(設(shè)計)質(zhì)量1、論文(設(shè)計)的整體結(jié)構(gòu)是否符合撰寫規(guī)? 優(yōu) 良 中 與格 不與格2、是否完成指定的論文(設(shè)計)任務(wù)(包括裝訂與附件)? 優(yōu) 良 中 與格 不與格二、論文(設(shè)計)水平1、論文(設(shè)計)的理論意義或?qū)鉀Q實際問題的指導意義 優(yōu) 良 中 與格 不與格2、論文的觀念是否有新意?設(shè)計是否有創(chuàng)意? 優(yōu) 良 中 與格 不與格3、論文(設(shè)計說明書)所體現(xiàn)的整體水平 優(yōu) 良 中 與格 不與格建議成績:優(yōu) 良 中 與格 不與格(在所選等級前的畫“”)評閱教師: (簽名) 單位: (蓋章)年 月 日教研室(或答辯小組)與教學系意見教研室(或答辯小組)評價:一、答辯過程1、畢業(yè)論文(設(shè)計)的基本要

15、點和見解的敘述情況 優(yōu) 良 中 與格 不與格2、對答辯問題的反應、理解、表達情況 優(yōu) 良 中 與格 不與格3、學生答辯過程中的精神狀態(tài) 優(yōu) 良 中 與格 不與格二、論文(設(shè)計)質(zhì)量1、論文(設(shè)計)的整體結(jié)構(gòu)是否符合撰寫規(guī)? 優(yōu) 良 中 與格 不與格2、是否完成指定的論文(設(shè)計)任務(wù)(包括裝訂與附件)? 優(yōu) 良 中 與格 不與格三、論文(設(shè)計)水平1、論文(設(shè)計)的理論意義或?qū)鉀Q實際問題的指導意義 優(yōu) 良 中 與格 不與格2、論文的觀念是否有新意?設(shè)計是否有創(chuàng)意? 優(yōu) 良 中 與格 不與格3、論文(設(shè)計說明書)所體現(xiàn)的整體水平 優(yōu) 良 中 與格 不與格評定成績:優(yōu) 良 中 與格 不與格(在所選

16、等級前的畫“”)教研室主任(或答辯小組組長): (簽名)年 月 日教學系意見:系主任: (簽名)年 月 日目 錄摘要IAbstractII第1章 緒論11.1課題背景11.2 語音端點檢測現(xiàn)狀11.3 相關(guān)工作21.4 本文主要研究容3第2章 語音信號時頻域分析與預處理42.1 語音信號簡述42.2 語音信號分析42.2.1 時域分析52.2.2 頻域分析52.3 語音信號分析處理72.3.1 預加重72.3.2 加窗分幀82.4 本章小結(jié)9第3章 語音端點檢測算法研究103.1 語音端點檢測103.1.1 簡述103.1.2 語音端點檢測原理103.1.3 語音端點檢測算法與實施方案123.

17、2 基于短時能量和短時過零率的語音端點檢測143.2.1 短時平均能量143.2.2 短時過零率163.2.3 基于短時能量和短時過零率的雙門限端點檢測173.2.4 雙門限語音端點檢測實驗193.3 基于倒譜特征的語音端點檢測203.3.1 倒譜特征203.3.2 倒譜距離203.3.3 倒譜距離的檢測算法流程233.3.4 基于倒譜特征的語音端點檢測試驗分析253.4 基于譜熵的語音端點檢測263.4.1 譜熵特征263.4.2 基于譜熵的端點檢測流程273.4.4 基于譜熵特征的語音端點檢測試驗分析283.5 算法比較303.6 本章小結(jié)33結(jié) 論35參考文獻36致 37附錄139附錄2

18、45附錄353附錄461附錄569第1章 緒論1.1課題背景語音端點檢測在語音識別中占有十分重要的地位。語音信號處理中的端點檢測技術(shù),是指從一句簡單的話語中檢測出每一個字體或字節(jié)的兩個端點。是進行其它語音信號處理(如語音識別、講話人識別等)關(guān)鍵的第一步。進行有效的語音端點檢測能夠?qū)φZ音信號更好的進行分析和訓練,這樣語音識別才能有好的識別率1。實際運用中,通常要求首先對系統(tǒng)的輸入信號進行判斷,準確地找出語音信號的起始點和終止點。這樣才能采集真正的語音數(shù)據(jù),減少數(shù)據(jù)量和運算量,并減少處理時間。目前,語音技術(shù)進入了一個相對成熟點,很多廠商和研究機構(gòu)有了語音技術(shù)在輸入和控制上令人鼓舞的演示,輸入的硬件

19、和軟件平臺環(huán)境也日益向高級化邁進,但語音技術(shù)比起人類聽覺能力來還相差很遠,其應用也才剛剛開始,進一步規(guī)和建設(shè)語音輸入的硬件通道、軟件基本引擎和平臺,使語音技術(shù)能集成到需要語音功能的大量軟件中去。而且語音產(chǎn)業(yè)需要更加開放的環(huán)境,使有興趣和實力的企業(yè)都能加入到這方面的研究和開發(fā)中,逐步改變。隨著聲控電子產(chǎn)品的不斷研發(fā),語音識別技術(shù)在開發(fā)和研究上還有大量的工作需要做。1.2 語音端點檢測現(xiàn)狀一個比較好的語音識別或者語音端點檢測,不僅僅在其所用到的算法。大多數(shù)的語音識別都是對整個系統(tǒng)影響是非常大的,不僅僅是語音識別,也包括語音端點檢測。平常的用于實驗的也許差不多少,但對于一些高精度的檢測或者識別則謬以

20、千里。語音識別都是基于不同算法而進行的,所以每一種識別都要與不同算法相匹配。因此從信號段中檢測出語音信號或者語音端點是語音識別的必要的預先處理過程2。隨著科技的進步,技術(shù)的發(fā)展。語音識別、語音檢測、語音合進入了一個跟高的階段,語音識別在手機電腦上的應用也雖著科技進步而上升。然而,在一些比較嘈雜的環(huán)境下,或者專業(yè)一點的技術(shù)上的識別,隨著信噪比的降低,噪聲污染的多樣性,噪聲環(huán)境下的語音識別會大大的降低4。如,在我們身處的環(huán)境下,開門聲、風扇、水聲等等,都算背景噪聲。而語音信號所處理的信號時一些純語音信號,或者是把一些背景噪聲降下去。而語音端點檢測就是在語音中檢測出語音信號和非語音信號,并把語音信號

21、的兩個端點給標記處理。語音端點檢測是語音識別、語音增強以與語音編碼等中的一個非常重要的環(huán)節(jié)而且必不可少的。有效的端點檢測技術(shù)不僅能減少系統(tǒng)的處理時間、提高系統(tǒng)的處理實時性,而且能排除無聲段的噪聲干擾,從而使后面工作的性能得以較大提高5,6。隨著越來越多的學者對語音端點檢測技術(shù)的關(guān)注,大量的新的語音端點檢測算法相繼被提出,而基于同一種算法又有不同的方法。例如對于熵值參數(shù)特征的檢測算法,有基于信息熵7,8、基于自適應子帶譜熵9、子帶二次譜熵10、基于小波能量熵11、基于樣本熵等的方法12。信息愈來愈趨近多樣化。同樣也有檢測不同參數(shù)特征相結(jié)合來進行語音端點檢測13,比如倒譜的方法14,15和熵譜相結(jié)

22、合而形成的算法16。盡管算法和方法多種多樣,都是為了更簡便、更易于實現(xiàn)、運算量小、魯棒性好等特點,并且對于不同的信噪比具有較好的效果。1.3 相關(guān)工作隨著生活品質(zhì)的不斷提高,對聲控產(chǎn)品的要求越來越高。基于語音端點檢測的識別系統(tǒng)則有不可替代的作用,在不同的聲控產(chǎn)品語音識別系統(tǒng)中,有效準確地確定語音段端點不僅能使處理時間減到最小,而且能排除無聲段的噪聲干擾,從而使識別系統(tǒng)具有良好的性能。通過大量的文獻調(diào)研與實際研究發(fā)現(xiàn),現(xiàn)有的各種語音信號端點檢測技術(shù)都存在各自的不足。對于語音信號在低信噪比時的端點檢測的研究有待進一步深入研究。當前,語音端點檢測技術(shù)還處于比較初級階段,許多領(lǐng)域還有待解決,還遠遠跟不

23、上現(xiàn)代科技發(fā)展的腳步。對于現(xiàn)在噪聲污染的環(huán)境的加重,還有信噪比的一直變化,語音端點檢測還有待更深一步的研究。我們常常尋求新的方法,新的算法,或者在新算法上研究新的方法,更容易對人類聲音的識別,或者更適于人耳聽覺系統(tǒng)的算法。但這些算法都是基于一些舊的理論上研發(fā)出來的,因此這種領(lǐng)域是很難有更大的進步,但也正是考驗創(chuàng)新的能力17。根據(jù)語音信號參數(shù)的特點可以從兩個較大方向入手。一個是努力尋求新型的特征參數(shù),再一個就是利用現(xiàn)有的特征參數(shù)采用多特征融合。這兩大問題將是以后研究的主要對象18。1.4 本文主要研究容第2章 ,簡述了語音信號的一些基礎(chǔ)知識,包括預處理、分幀、加窗。分析了語音信號的時域和頻域,介

24、紹了幾種語音端點檢測算法,簡述了我的實施方案。第三章,從每一種算法的方程式入手,以原理簡便、運算量小等方面為標準,通過大量的文獻調(diào)研與實際研究,本課主題要研究語音起點和終點的檢測,以短時能量和短時過零率相結(jié)合的雙門限語音端點檢測算法以與倒譜分析和譜熵技術(shù)等進行語音端點檢測,并分析各算法在低信噪比和高信噪比條件下的檢測效果進行對比。對這種信號進行Matlab進行編程,對于不同信噪比的聲音片段,最后用前后的噪聲信號進行對比以得出結(jié)論。第2章 語音信號時頻域分析與預處理語音信號處理包括語音識別、語音合成、語音編碼、說話人識別等方面,但是其前提和基礎(chǔ)是對語音信號進行分析。語音端點檢測是語音識別系統(tǒng)的前

25、期處理,而語音信號的分析則是語音端點檢測的前期處理。2.1 語音信號簡述通過對人們所說的語音進行研究和對語音頻譜的分析,發(fā)現(xiàn)人們包括男女老少的語音頻譜很集中,大部分都集中在3003400Hz圍。我們可以對語音通過帶通濾波器來得到我們所需要的頻譜,就可以得到相應頻譜所對的語音。然后對頻譜圍的語音進行采集采樣,一般是8kHz左右的采樣率,這樣我們就可以得到離散時域的語音信號。如果想要更為精準的采樣或者更為完全的采樣域,我們可以相應的提高采樣率或者提高采樣圍,現(xiàn)在的語音檢測現(xiàn)狀都不在時傳統(tǒng)的采樣率,而是調(diào)整為自適應。語音信號有另一個非常重要的特性,就是要保持它的短時特點,所有的關(guān)于信號處理都是基于它

26、的短時特性而研發(fā)的。因為語音信號只有在短時才能保持它的穩(wěn)定和平滑。就如同我們經(jīng)常見到的短時能量、短時過零率,還有一些如同短時頻譜和短時自相關(guān)函數(shù)。我們在進行語音處理過程中,所用到的參數(shù)都是短時的參數(shù)特征,因此在預處理過程,必須有使信號保持短時的過程,即分幀,就是分為一個一個的短時。常常分的幀為幾十毫秒,在這幾十毫秒,我們認為語音信號是保持平穩(wěn)的。語音信號還有一個比較簡單的分類,是基于人類發(fā)音的音素所分類的。一般可以分為清音和濁音兩類。雖然中國與外國人的發(fā)音有所不同,但從音素上來說都是一樣的。如果從短時性上來分析,就會很直觀的發(fā)現(xiàn)清音和濁音的不同,一般來說,濁音在短時能量上擁有較高的波峰,而清音

27、則一般就低一點。還有一類是無聲,而無聲是處于波谷。2.2 語音信號分析平常的語音信號處理包括一些語音識別、語音檢測、語音編碼、說話人識別等方面,這所有的檢測都是基于對語音信號的識別,所以必須先對人們所說語音信號進行分析,則需要對語音信號短時性的特征參數(shù)進行提取分析。參數(shù)的提取,方法的創(chuàng)新,這都基于語音科技的發(fā)展。語音信號的處理歸根還是對語音短時的分析,語音端點檢測的好壞、語音識別的精準度,這都根據(jù)語音信號分析的準確度。2.2.1 時域分析從一般的語音信號處理仿真來看,橫坐標都是為時間,所以說,語音信號是時域信號,經(jīng)常處理的語音信號也是基于時域來分析的,這種方法一般就是利用仿真的波形來處理。通常

28、分析方法有基于短時能量、短時頻譜、短時過零率、短時自相關(guān)函數(shù)等,這些短時性參數(shù)更為直觀的顯示語音信號的特性,因此在語音信號數(shù)字處理技術(shù)占有很重要的地位。進行語音信號分析時,先接觸到并且直觀的就是它的時域波形。時域分析常用于基本的參數(shù)分析,語音信號的分割、預處理與檢測。這種分析方法的特點有:(1)表示語音信號比較直觀、物理意義明確;(2)實現(xiàn)起來比較簡單、運算量少;(3)可得到語音的一些重要參數(shù);(4)采用示波器通用設(shè)備進行觀測等。取樣之后對信號進行量化采樣,而量化過程會產(chǎn)生量化誤差,即量化后的信號與原信號之間的差值。2.2.2 頻域分析語音信號頻域分析,主要是對一些頻域參數(shù)進行分析,常用一些頻

29、域參數(shù)的有頻譜、功率譜等等,最常用頻域分析的方法有傅立葉變換法、線性預測法等。2.2.2.1 傅立葉變換法 傅里葉變換是語音信號頻域分析中最廣泛使用的方法,并且是分析線性系統(tǒng)和平穩(wěn)信號穩(wěn)態(tài)特性最有力的手段。對加窗分幀后的語音信號,進行傅里葉變換后再逆傅里葉變換,可以相應的得到頻譜、功率譜、倒譜距離、熵譜等特征。由于語音信號的特性是隨著時間變化,所以采用短時傅里葉變換,相應的求得的特征為短時頻域特征,這里的窗函數(shù)都采用漢明窗。(1)短時頻譜和短時功率譜 設(shè)信號經(jīng)過傅里葉變換后在頻域記為,則與關(guān)系如公式(2-1): (2-1)語音的頻譜為的幅度,則有: (2-2)語音的短時功率譜的是幅度的平方,其

30、公式為: (2-3)(2)倒譜距離 語音信號的倒譜分析是通過同態(tài)處理來實現(xiàn)的。同態(tài)信號處理也稱為同態(tài)濾波,是將非線性問題轉(zhuǎn)為線性問題進行處理的方法。由于語音信號可以視為聲門激勵信號和聲道沖擊響應進行的卷積,隨后可以對語音信號進行解卷。倒譜能很好表示語音的特征,在噪聲環(huán)境下,可通過倒譜系數(shù)而求得倒譜距離,使用倒譜距離來作為語音端點檢測的特征。信號的倒譜也可以定義為信號的能量譜密度函數(shù)的對數(shù)的傅里葉級數(shù)展開式的系數(shù),見式2-4:(2-4)即為倒譜系數(shù),通過倒譜系數(shù)求得倒譜距離為: (2-5)(3)熵 熵(用表示)是物質(zhì)的概率程度的一種反映。熵代表的信息量,當?shù)姆植几怕氏嗟葧r,熵取最大值,也就是說,

31、的概率分布越隨機,越難判斷,值也就越大。設(shè)是取有限個值的隨機變量則取的概率函數(shù)通常表示為:(2-6)則的熵為:(2-7)2.2.2.2 線性預測法 線性預測分析的基本原理如下:語音信號分幀采樣后,各個語音樣點之間存在著聯(lián)系,可以用前幾幀的采樣點來預測當前幀或者后幾幀的樣點值,即可以用先前的幀的參數(shù)值通過線性組合來近擬后面的幀的采樣值。這樣通過抽樣和線性組合得到的采樣值只有唯一的組合系數(shù)。這組預測系數(shù)就反應了語音信號與噪聲不同的參數(shù)特征,根據(jù)這種參數(shù)特征,就可以進行語音端點檢測和語音識別等一系列語音信號的處理。將線性預測應用與語音信號分析,不僅僅是因為它的預測功能,而且更為重要的是由于它可以提供

32、一個非常好的聲道模型和模型參數(shù)估計方法。線性預測的原理與語音信號數(shù)字模型相關(guān)。2.3 語音信號分析處理為了消除人類發(fā)聲器官本身和一些采集語音信號的設(shè)備等所引發(fā)的混疊、高次諧波失真現(xiàn)象,在對語音信號進行分析與處理之前,須對其進行預處理。語音信號的預處理應保證處理后得到的信號更平滑、均勻,而且能提高語音的質(zhì)量。2.3.1 預加重在進行語音信號數(shù)字處理時,它們的功率譜隨頻率的增加而減小,其大部分能量集中在低頻圍。這就造成消息信號高頻端的信噪比可能降到不能容許的程度。但是由于消息信號中較高頻率分 量的能量小,很少有足以產(chǎn)生最大頻偏的幅度,因此產(chǎn)生最大頻偏的信號幅度多數(shù)是由信號的低頻分量引起。平均來說,

33、幅度較小的高頻分量產(chǎn)生的頻偏小得多。為此在預處理中先進行預加重處理。目的是提升高頻部分,使信號變得平坦、平滑,使之不僅在低頻而且在高頻的整個頻帶中,可以用一樣信噪比求頻譜如圖2.1:采樣量化預加重加窗分幀參數(shù)提取語音信號圖2.1 語音信號的預處理預加重是在語音信號數(shù)字量化之后,用具有6dB/倍頻程的提升高頻特性的預加重數(shù)字濾波器來實現(xiàn),它通常是一階的數(shù)字濾波器: (2-8)式中的取值一般取1左右。有時需要恢復原信號,需要從做過預加重的信號來際的頻譜,需要對測量值進行去加重處理,即加上6dB/倍頻程的下降的頻率特性來恢復原來的特性。2.3.2 加窗分幀語音端點檢測首先要進行加窗分幀處理,然后依次

34、判斷每一幀的信號是否為語音的起點或終點。而在語音端點檢測時如果采用大的窗長,則幀長長,幀數(shù)少,這樣計算量會小些,而且進行語音端點檢測時速度會快些,但是這樣語音端點檢測的誤差會增加。如果采用小的窗長,則計算量增加,語音識別的速度可定會降低。所以我們在語音端點檢測時,采用適量的窗,可以確切判斷語音的起始點,會有比較快的速度,也不會有太大的運算量。但至于選幀,則需要根據(jù)實時而定,不同的算法也會有不同的窗長。在進行了預加重后,要對語音信號進行加窗分幀處理。通常將語音信號劃分為許多短時的語音時段,每個短時的語音段稱為一個幀。幀和幀之間可以連續(xù),也可以重疊。重疊是為了是語音信號各幀之間保持平滑,差別不至于

35、太大,更符合人們的語音特征。為了能夠符合實際而且能精準的描述語音信號能量的實際中的變化規(guī)律,通常將窗寬選為幾十毫秒左右。分幀一般采用交疊分段的方法,這就是為了使幀與幀之間能夠很好的平滑過渡,使其保持連續(xù)性。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般在00.5之間。分幀用可移動的窗口長度進行加權(quán)實現(xiàn),即用窗函數(shù)乘以語音信號s(n),從而形成加窗的語音信號:(2-9)由于窗函數(shù)一般取為S(n)中間大兩頭小的光滑函數(shù),這樣的沖激響應所對應的濾波器具有低通特性,其帶寬和頻率取決于窗函數(shù)的選取。用得最多的三種窗函數(shù)是矩形窗、漢明窗(Hamming)和漢寧窗(Hanning)。它們的定義如下:

36、 矩形窗:(2-10)漢明窗:(2-11)漢寧窗:(2-12)式中N為窗長,窗函數(shù)的選取(形狀和長度)對于短時分析參數(shù)的特性影響很大,為此應該選擇合適的窗口,使其短時參數(shù)能更好地反映語音信號的特性變化。2.4 本章小結(jié)本章分析了語音信號的時域和頻域的一些特征,并列舉了語音的幾個特征參數(shù),如熵、短時能量、倒譜特征等。介紹了語音信號前期處理的兩個步驟:預加重、加窗分幀。有時要恢復原信號,則需要從做過預加重的信號頻譜來際的頻譜時,并且要對測量值去加重處理,即加上6dB/倍頻程的下降的頻率特性來還原成原來的頻譜特性。語音信號為時域信號,分幀則有助于計算語音信號的各個參數(shù)特征,可以對語音信號進行平滑處理

37、,是進行語音端點檢測必不可少的步驟。第3章 語音端點檢測算法研究本章將重點介紹語音端點檢測的原理,本章還對語音端點檢測算法的進一步研究,列舉了三種不同的語音端點檢測算法,并對每一種語音端點檢測算法進行了實驗仿真,最后對各種算法優(yōu)缺點進行了比較。3.1 語音端點檢測3.1.1 簡述語音端點檢測是語音識別中的一個很重要的步驟,所謂語音端點檢測就是將輸入的語音信號從背景噪聲和環(huán)境噪聲中能夠準確地判斷出語音信號中各種語音的起始點和結(jié)束點。理想的端點檢測算法應當具有以下幾個特征:可靠性、自適應性、實時性、魯棒性和精確性。在語音識別系統(tǒng)中,正確的檢測出語音端點,不僅能夠快速且準確的進行語音識別,而且能夠減

38、小計算量,排除無聲段干擾,實驗發(fā)現(xiàn),不管在什么環(huán)境或者什么樣信噪比的環(huán)境下,語音端點檢測的錯誤將導致語音識別的錯誤。除此之外,在語音合成、編碼等一系列語音信號處理系統(tǒng)中,較好的語音端點檢測會影響語音識別系統(tǒng)的主要性能。因此,語音端點檢測的速度和準確率在語音處理系統(tǒng)中會非常重要,因此進一步的對語音端點檢測算法的研究,有一定的現(xiàn)實意義。3.1.2 語音端點檢測原理語音端點檢測的原理就是基于語音段和噪聲段對于一些語音信號的參數(shù)會表現(xiàn)出不同的特征,通過對特征參數(shù)的區(qū)別就能對語音信號進行端點檢測。得到一個語音信號,先對其進行預處理,使低頻和高頻在信噪比參數(shù)上表現(xiàn)的平滑,易于檢測。然后加窗分幀,使之在短時

39、特性上表現(xiàn)的連續(xù)、平滑。通常分幀時會有幀與幀之間的幀移,以防止信號的突變,影響端點檢測。再后面就是對特征參數(shù)的提取,不同信噪比會有不同的易于區(qū)別噪聲和語音的特征參數(shù)。端點判決就是根據(jù)噪聲和語音特征參數(shù)的不同,設(shè)置一定的門限,再設(shè)置一些相應的最短語音段以方便檢測。在檢測過程中,參數(shù)提取和端點的判決尤為顯得重要。參數(shù)提取意義在于提取的參數(shù)能夠分辨出語音和非語音信號。本文所進行的語音端點檢測,其就是檢測出噪聲與語音信號的差別,并標記出來。語音是人體所發(fā)出的聲音,其物理原理是源于聲帶的振動。而噪聲一般是源于外界物理碰撞所引起的振動。這兩者在頻率、能量上有很大的差別。如本文采用的短時能量和短時過零率相結(jié)

40、合的算法是基于能量差別,而倒譜和譜熵則是基于其他的特征參數(shù)。人的語音又可以分為清音和濁音兩類,其在能量上就可以分出來,而清音和濁音在短時過零率上可以分別出來。所以參數(shù)的提取,直接影響到語音端點檢測的性能。語音端點檢測流程如圖3-1所示:預處理參數(shù)提取端點判決是否信號最后一幀后處理 信號輸入 是 結(jié)果輸出圖3-1 語音端點檢測流程圖噪聲信號常常為說話人周圍的噪聲,不同環(huán)境下的噪聲信號也不同,所以特征參數(shù)會有變化。端點檢測時通過估計后噪聲比基于不同的噪聲而設(shè)定的不同門限。設(shè)定一定的門限后,當超過設(shè)定值,而且超過最小語音段的幾幀也可以超過設(shè)定值,則會被認為是語音信號。當最后幾幀值低于設(shè)定值,而且后幾

41、幀的值低于設(shè)定值且大于最小噪聲信號,則被認為是語音結(jié)束。最初為單門限,后逐漸改為雙門限,隨著科技的發(fā)展,又轉(zhuǎn)變?yōu)槟:碚摶蛘叨嗵卣鲄?shù)相結(jié)合的方式。一種較好的語音端點檢測算法通常應具備如下四個特征:(1)語音端點檢測的準確率高,尤其對于清音段端點能夠正確判決;(2)端點檢測算法須具有對絕大多數(shù)噪聲魯棒性、抗干擾能力;(2)端點判決準應具有自適應性,而不是僅僅簡單的門限判決;(4)檢測算法應較簡單,而且運算量較小,便于實現(xiàn)硬件仿真。以上特征分別是從語音端點檢測的自適應性、準確性、穩(wěn)定性、和運算量上對算法提出要求。3.1.3 語音端點檢測算法與實施方案語音端點檢測算法是各種語音信號分析的綜合處理,

42、到目前為止還沒有很正規(guī)的分類方法。但我們可以按照實際應用的圍分類,當然也可以按照所使用的特征參數(shù)準則分類。按照所采用的特征參數(shù)或分析方法的不同,本論文將語音端點檢測的算法或方法分為:(1)時域參數(shù)方法 主要是指基于短時能量、過零率和短時自相關(guān)與一些其他時域參數(shù)(如最小均方參數(shù)、對數(shù)能量、絕對值能量等)的方法。此外,基于自適應門限的方法也歸入這一類;(2)變換域參數(shù)方法 包括基于頻域參數(shù)、時頻域參數(shù)與小波域參數(shù)的方法。此外,還包括一些基于Walsh譜能量分布和Hilbert-Huang變換的檢測方法;(3)信息論方法 主要是根據(jù)概率等得出信號所包含的信息量,放到端點檢測算法中去,本文所選取的譜熵

43、也屬于這類。(4)距離和失真測度方法 最常用的是倒譜距離,由梅爾系數(shù)推出倒譜系數(shù),再得出梅爾倒譜距離,具有很好的語音檢測;(5)人工神經(jīng)網(wǎng)絡(luò)方法 包括基于前饋網(wǎng)絡(luò)、徑向基函數(shù)網(wǎng)絡(luò)、多層感知器網(wǎng)絡(luò)、自組織循環(huán)自組織模糊推理神經(jīng)網(wǎng)絡(luò)和自適應線性神經(jīng)元網(wǎng)絡(luò)等的方法;(6)統(tǒng)計模型和模式分類方法 主要是指基于HMM模型。此外,還會有一些基于其他如多統(tǒng)計模型、似然檢驗、模式識別、模糊邏輯等方法;短時能量和過零率相結(jié)合的方法常用于高信噪比下,而現(xiàn)實生活中的語音信號常為低信噪比。譜熵的大小取決的是功率譜的方差不是其大小,如果譜的分布保持不變,信號幅值的大小不會影響歸一化譜概率密度函數(shù),因而譜熵對于噪聲有一定

44、的魯棒性。倒譜能很好表示語音的特征,在強噪聲環(huán)境下,常常采用倒譜系數(shù)來作為端點檢測的特征量。因此在低信噪比下將選擇熵值或者倒譜特征參數(shù)來進行語音端點檢測。本文擬用短時能量和過零率相結(jié)合的方法檢測高信噪比,熵譜和倒譜系數(shù)來檢測低信噪比。流程圖如圖3-2所示:噪聲估計信噪比估計端點檢測短時能量和過零率熵譜算法倒譜算法高信噪比 低信噪比圖3-2 算法研究流程圖3.2 基于短時能量和短時過零率的語音端點檢測傳統(tǒng)常用的短時能量和過零率相結(jié)合的算法通常利用用短時能量來檢測濁音、短時過零率來檢測清音,或者兩者相配合以便實現(xiàn)語音信號信噪比較大情況下的端點檢測。算法對于輸入信號的檢測過程可分為短時能量檢測和短時

45、過零率檢測兩個部分。算法以短時能量檢測為主,短時過零率檢測為輔。跟據(jù)語音信號的特性與各語言的發(fā)音特性,把語音可以分為清音、濁音和無聲三種特性,在短時能量和過零率相結(jié)合的算法過程中,短時能量檢測可以能夠分辨出濁音和清音。由于清音能量比較小,會常常把其與無聲混淆。但由過零率檢測能夠清晰的分辨出清音和無聲。因此通過兩種算法相結(jié)合的方法,在高信噪比下,進行語音端點檢測能有很好的效果。3.2.1 短時平均能量從能量譜的實驗結(jié)果可以看出,語音和噪聲的能量值有很大的差別,根據(jù)這實驗結(jié)果就可以由能量值來區(qū)分噪聲和語音或者進行語音端點檢測。語音信號不是穩(wěn)定的,所以要經(jīng)過分幀。通過分幀后,形成短時語音信號,在短時

46、語音信號是保持平穩(wěn)的,對每一幀的能量幅度進行積和,得出每一幀的短時能量,根據(jù)每一幀的短時能量,設(shè)定一定的門限。經(jīng)實驗發(fā)現(xiàn),濁音的短時能量最大,清音次之,靜音最小。n時刻某語音信號x(n)的短時平均能量定義為: (3-1)式中,為漢明窗。令,則有:(3-2)式中,h(n)為窗函數(shù),其有一定的長度。語音信號一般在10ms到30ms之間,我們可以把它看成是平穩(wěn)的。為了處理語音信號,我們要對語音信號進行加窗,也就是一次僅處理窗中的數(shù)據(jù)。因為實際的語音信號是很長的,我們不能也不必對非常長的數(shù)據(jù)進行一次性處理。明智的解決辦法就是每次取一段數(shù)據(jù),進行分析,然后再取下一段數(shù)據(jù),再進行分析,這樣通過語音信號與窗

47、函數(shù)相乘等出一個類似窗的函數(shù)值,在此幀的前面幀和后面的幀都為零值,這樣是語音信號保持了短時性。短時能量用來區(qū)分清音和濁音。濁音比起清音來,有較高的短時能量。語音信號的短時平均幅度定義為:(3-3)一般比較清晰的語音根據(jù)短時能量就能夠檢測出語音端點,但是有的時候,一個字的后面為清音,而其的短時能量又很小,很難跟隨后的無聲片段分開,有人提出了基于短時過零率的算法來區(qū)分清音和濁音,語音和噪聲在其幅度穿越橫軸的次數(shù)上有很大的區(qū)別,根據(jù)這點,提出短時能量和短時過零率相結(jié)合的方法在高信噪比環(huán)境下的檢測。語音信號的短時能量可用以下幾種算法得到: (3-4)(3-5) (3-6)在計算機上實現(xiàn)仿真時,幅度表現(xiàn)

48、為波形的高度,高能量的信號波峰高,而低能量的信號波峰比較低,進行端點檢測時,設(shè)置門限則根據(jù)波峰的高度來設(shè)置。雙門限則是先設(shè)置低一點的幅度進行先判決,在選高一點的值進行判決。下面是通過windows錄的語音“1、2、3、4、5”,并通過matlab仿真來計算語音短時能量。如圖3-3所示:圖3-3 語音信號的短時能量從圖3-3中可以看出語音“12345”語音信號中語音部分的能量是最高的,由于語音部分又分成靜音段、清音段、濁音段。短時能量函數(shù)可用來區(qū)分清音段和濁音段。“23”的值比較大所以其對應于濁音段,而“145”值相對較小所以其對應于清音段。對于高信噪比的語音信號,無語音信號的噪聲能量很小,而有

49、語音信號的能量很大,設(shè)定某一數(shù)值,就可可以區(qū)分語音信號的起點和終點。3.2.2 短時過零率短時過零率表示一幀語音信號波形穿過橫軸的次數(shù)。由語音信號的波峰波谷之間的變化,然后對其進行歸一化處理,波峰波谷之間的變化轉(zhuǎn)為穿過橫軸的次數(shù),也是穿過零軸的次數(shù),稱為短時過零率。過零率就是樣本改變符號的次數(shù)。定義語音信號Xn(m)的短時過零率Zn為:(3-7)其中,sgn為符號函數(shù),即: (3-8)過零率有很重要的作用,如:用于粗略地描述信號的頻譜特性,就是用多帶濾波器將信號分為若干個通道,對各通道進行短時平均過零率和短時能量的計算。再個就是區(qū)分清音和靜音。當發(fā)清音時,多數(shù)能量出現(xiàn)在較高頻率上,而高頻就意味

50、著高的平均過零率。而噪聲總是處于間斷等情況,所以其頻率會比較低,低頻就意味著低的短時過零率,所以認為靜音時有低過零率,而清音具有高過零率。當然,這種高低僅是相對而言的,并沒有精確的數(shù)值關(guān)系。下面是語音信號通過matlab 仿真顯示過零率,如圖3-4所示:圖3-4語音信號的過零率 從圖3-4中可以看出語音信號的過零率,在語音信號中清音段的過零率情況,圖中幅度變化反映了過零率次數(shù)的高低?;诙虝r能量和短時過零率相結(jié)合語音端點檢測方法,充分利用能量和過零率的優(yōu)點,使用過零率區(qū)分清音和靜音。在區(qū)分濁音和清音時,由于兩者在短時能量的區(qū)別,所以根據(jù)短時能量分辨出清音和濁音,而在區(qū)分清音和無聲片段時,則由短

51、時過零率來區(qū)分。但隨著噪聲的增加,過零率占有稍微好點的優(yōu)勢,等加到一定的程度后,這兩種方法都將失去檢測的效果。3.2.3 基于短時能量和短時過零率的雙門限端點檢測這種方法是基于短時能量和短時過零率相結(jié)合的方法,既能分辨出清音和濁音,也能分辨出清音和靜音。通常每一個參數(shù)設(shè)兩個門限。首先設(shè)一個比較低的門限,當所測得的參數(shù)值大于這個門限,說明信號可能進入語音階段,再設(shè)一個稍微高一點的門限,當超過這個參數(shù)值的時候,說明信號進入語音段。隨后的幾幀一直大于這個值,而這幾幀大于最小語音值,則一定進入語音階段。由上述描述,可得其簡單步驟如下:(1)首先要計算每一幀的短時能量和短時過零率,然后又由每一幀的這兩個

52、參數(shù)值得出特征參數(shù),即能零比。(2)由特征參數(shù)值,先選一個比較低一點的門限,進行最先的預判,如果低于這個門限肯定不是語音信號。再就是設(shè)置另一個高一點的門限,如果低于這個門限,則有可能不是語音信號。(3)當進入語音階段時,就開始判決語音信號的終止點。先是比較高一點的門限判決。如果低于這個門限,則語音信號有可能進入語音結(jié)束,再往后搜索,如果繼續(xù)降低且低于較低的門限,則語音信號進入無聲階段。(4)檢測的高低門限要通過多次實驗并且根據(jù)當時的信噪比環(huán)境而確定的。語音的開始和結(jié)束由于時間上的差異,信噪比也會有差異,這樣決定著門限選擇的復雜性。檢測過程中也要設(shè)置最低語音段和對短靜音段,這更有效的提高了語音端

53、點檢測的準確度。從步驟上來看,可以把一個語音信號分成四個階段,靜音、開始過渡結(jié)束四個階段。在程序編寫過程中,常設(shè)置一個量來辨別當前的狀態(tài),以決定下一個是什么階段。在靜音時,超過門限,則進入語音段,低于門限,進入結(jié)束。整個過程都是以門限值為基礎(chǔ),最短語音和最短靜音為輔來進行和提高語音端點檢測。我們所設(shè)置的最短語音和最短靜音就是為了防止一些突發(fā)性的噪聲。我們說的話語有一定的幅度,短時能量就是根據(jù)語音信號的幅度檢測出語音端點的,而一些比較大的噪聲或者碰撞聲音也好導致短時能量或過零率的數(shù)值接近語音信號的數(shù)值,但是這種信號持續(xù)的時間比較短,在時域上表示出很短的又很高的一段語音。因此可以根據(jù)突發(fā)噪聲短時間性質(zhì),對語音長度設(shè)置一定的門限。當超過較高門限后,信號進入語音階段,但如果語音階段持續(xù)時間小于設(shè)定的時間長度,則被認為是突發(fā)性噪聲,所有值歸零,并重新開始進行語音檢測。兩個語音字之間發(fā)音是有一定的時間間隔,因此也需設(shè)定最短靜音,如果處于靜音段,而其長度小于最短靜音,則認為語音還沒結(jié)束,繼續(xù)語音段的檢測。3.2.4 雙門限語音端點檢測實驗雙門限語音端點檢測是在MATLAB軟件環(huán)境下進行仿真實驗。文中語音信號樣本是自己采用麥克風錄得語音“啊”,以wav格式存儲為較純凈的語音樣本。在語音端點檢測之前首先要對被測的語音信號進行預處理等,包括分幀加窗等。文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論