數(shù)字語音信號的處理.doc_第1頁
數(shù)字語音信號的處理.doc_第2頁
數(shù)字語音信號的處理.doc_第3頁
數(shù)字語音信號的處理.doc_第4頁
數(shù)字語音信號的處理.doc_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

語音信號的特征提取作者:李楊 指導老師:詹恩奇摘 要 語音信號的采集與分析技術是一門涉及面很廣的交叉科學,它的應用和發(fā)展與語音學、聲音測量學、電子測量技術以及數(shù)字信號處理等學科緊密聯(lián)系。其中語音采集和分析儀器的小型化、智能化、數(shù)字化以及多功能化的發(fā)展越來越快,分析速度較以往也有了大幅度的高。本文簡要介紹了語音信號采集與分析的發(fā)展史以及語音信號的特征、采集與分析方法,并通過PC機錄制自己的一段聲音,運用Matlab進行仿真分析,最后加入噪聲進行濾波處理,比較濾波前后的變化。關鍵詞:語音信號,特征提取, MatlabAudio signal acquisition and analysisAuthor: li yang Teacher guidance:zhan enqiAbstractSpeech signal acquisition and analysis techniques are a wide range of cross-scientific,Its application and development of voice study, sound measurement study, electronic measuring technology, and digital signal processing disciplines, such as close contact。Collection and analysis of voice one of the small-scale equipment, intelligence, digital and multi-functional development of more and more quickly, faster than the previous analysis has been substantially high。This paper introduces the voice signal acquisition and analysis of the history of the development, as well as the characteristics of speech signal,Collection and analysis methods,Recording machine through the PC section of my own voices,the use of Matlab for simulation analysis,finally add the noise filter to deal with,comparison of filter before and after Change。Keywords:audio signal, acquisition and analysis,MATLAB 目 錄摘 要Abstract目 錄1 緒 論1.1 課題的背景與意義1.2 國內外研究現(xiàn)狀1.3 本文主要工作1.4本文的仿真軟件Matlab2 語音信號的特點與采集2.1 語音信號的特點2.2語音信號的采集3 語音信號的分析3.1基于MATLAB的語音信號時域特征分析3.2基于MATLAB的語音信號時域特征分析3.3基于MATLAB的語音信號LPC分析總 結致 謝參 考 文 獻附錄一:附錄二:附錄三:1 緒 論1.1 課題的背景與意義通過語音傳遞倍息是人類最重要、最有效、最常用和最方便的交換信息的形式。語言是人類持有的功能聲音是人類常用的工具,是相互傳遞信息的最主要的手段。因此,語音信號是人們構成思想疏通和感情交流的最主要的途徑。并且,由于語言和語音與人的智力活動密切相關,與社會文化和進步緊密相連,所以它具有最大的信息容量和最高的智能水平?,F(xiàn)在,人類已開始進入了信息化時代,用現(xiàn)代手段研究語音信號,使人們能更加有效地產生、傳輸、存儲、獲取和應用語音信息,這對于促進社會的發(fā)展具有十分重要的意義。 讓計算機能聽懂人類的語言,是人類自計算機誕生以來夢寐以求的想法。隨著計算機越來越向便攜化方向發(fā)展,隨著計算環(huán)境的日趨復雜化,人們越來越迫切要求擺脫鍵盤的束縛而代之以語音輸人這樣便于使用的、自然的、人性化的輸人方式。作為高科鼓應用領域的研究熱點,語音信號采集與分析從理論的研究到產品的開發(fā)已經走過了幾十個春秋并且取得了長足的進步。它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語音咨詢與管理工業(yè)生產部門的語聲控制,電話、電信系統(tǒng)的自動撥號、輔助控制與查詢以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實際應用領域相接軌,并且有望成為下一代操作系統(tǒng)和應用程序的用戶界面。可見,語音信號采集與分析的研究將是一項極具市場價值和挑戰(zhàn)性的工作。我們今天進行這一領域的研究與開拓就是要讓語音信號處理技術走人人們的日常生活當中,并不斷朝更高目標而努力。語音信號采集與分析之所以能夠那樣長期地、深深地吸引廣大科學工作者去不斷地對其進行研究和探討,除了它的實用性之外,另一個重要原因是,它始終與當時信息科學中最活躍的前沿學科保持密切的聯(lián)系并且一起發(fā)展。語音信號采集與分析是以語音語言學和數(shù)字信號處理為基礎而形成的一門涉及面很廣的綜合性學科,與心理、生理學、計算機科學、通信與信息科學以及模式識別和人工智能等學科都有著非常密切的關系。對語音信號采集與分析的研究一直是數(shù)字信號處理技術發(fā)展的重要推動力量。因為許多處理的新方法的提出,首先是在語音信號處理中獲得成功,然后再推廣到其他領域。1.2 國內外研究現(xiàn)狀語音信號的采集與分析作為一個重要的研究領域,已經有很長的研究歷史1。但是它的快速發(fā)展可以說是從1940年前后Dudley的聲碼器(vocoder)和potter等人的可見語音Visible Speech)開始的。1952年貝爾(Bell)實驗室的Davis等人首次研制成功能識別十個英語數(shù)字的實驗裝置。1956年Olson和Belar等人采用8個帶通濾波器組提取頻譜參數(shù)作為語音的特征,研制成功一臺簡單的語音打字機。20世紀60年代初由于Faut和Steven的努力,奠定了語音生成理論的基礎,在此基礎上語音合成的研究得到了扎實的進展。 20世紀60年代中期形成的一系列數(shù)字信號處理方法和技術,如數(shù)字濾波器、快速博里葉變換(FFT)等成為語音信號數(shù)字處理的理論和技術基礎。在方法上,隨著電子計算機的發(fā)展,以往的以硬件為中心的研究逐漸轉化為以軟件為主的處理研究。然而,在語音識別領域內,初期有幾種語音打字機的研究也很活躍,但后來已全部停了下來,這說明了當時人們對話音識別難度的認識得到了加深。所以1969年美國貝爾研究所的Pierce感嘆地說“語音識別向何處去?”。 到了1970年,好似反駁Pierce的批評,單詞識別裝置開始了實用化階段,其后實用化的進程進一步高漲,實用機的生產銷售也上了軌道。此外社會上所宣傳的聲紋(Voice Print)識別,即說話人識別的研究也扎扎實實地開展起來,并很快達到了實用化的階段。到了1971年,以美國ARPA(American Research Projects Agency)為主導的“語音理解系統(tǒng)”的研究計劃也開始起步。這個研究計劃不僅在美國園內,而且對世界各國都產生了很大的影響,它促進了連續(xù)語音識別研究的興起。歷時五年的龐大的ARPA研究計劃,雖然在語音理解、語言統(tǒng)計模型等方面的研究積累了一些經驗,取得了許多成果,但沒能達到巨大投資應得的成果,在1976年停了下來,進入了深刻的反省階段。但是,在整個20世紀70年代還是有幾項研究成果對語音信號處理技術的進步和發(fā)展產生了重大的影響。這就是20世紀70年代初由板倉(Itakura)提出的動態(tài)時間規(guī)整(DTW)技術,使語音識別研究在匹配算法方面開辟了新思路;20世紀70年代中期線性預測技術(LPC)被用于語音信號處理,此后隱馬爾可夫模型法(HNMM)也獲得初步成功,該技術后來在語音信號處理的多個方面獲得巨大成功;20世紀70年代未,Linda、Buzo、Gray和Markel等人首次解決了矢量量化(VQ)碼書生成的方法,并首先將矢量量化技術用于語音編碼獲得成功。從此矢量量化技術不僅在語音識別、語音編碼和說話人識別等方面發(fā)揮了重要作用,而且很快推廣到其他許多領域。因此,20世紀80年代開始出現(xiàn)的語音信號處理技術產品化的熱溯,與上述語音信號處理新技術的推動作用是分不開的。 20世紀80年代,由于矢量量化、隱馬爾可夫模型和人工神經網絡(ANN)等相繼被應用于語音信號處理,并經過不斷改進與完善,使得語音信號處理技術產生了突破性的進展。其中,隱馬爾可夫模型作為語音信號的一種統(tǒng)計模型,在語音信號處理的各個領域中獲得了廣泛的應用。其理論基礎是1970年前后,由Baum等人建立起來的,隨后,由美國卡內基梅隆大學 (CMU)的Baker和美國IBM公司的Jelinek等人將其應用到語音識別中。由于美國貝爾實驗室的Babiner等人在20世紀80年代中期,對隱馬爾可夫模型深人淺出的介紹,才使世界各國從事語音信號處理的研究人員了解和熟悉,進而成為一個公認的研究熱點,也是目前語音識別等的主流研究途徑。進入20世紀90年代以來,語音信號采集與分析在實用化方面取得了許多實質性的研究進展。其中,語音識別逐漸由實驗室走向實用化。一方面,對聲學語音學統(tǒng)計模型的研究逐漸深入,魯棒的語音識別、基于語音段的建模方法及隱馬爾可夫模型與人工種經網絡的結合成為研究的熱點。另一方面,為了語音識別實用化的需要,講者自適應、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題倍受關注。 1.3 本文主要工作本文簡要介紹了語音信號采集與分析的發(fā)展史以及語音信號的特征、采集與分析方法,并通過PC機錄制自己的一段聲音,運用Matlab進行仿真分析,最后加入噪聲進行濾波處理,比較濾波前后的變化。第2章主要介紹語音信號的特點與采集,仿真主要是驗證奈奎斯特定理。第3章主要是對語音信號進行時域、頻域上的分析,如短時功率譜,短時能量,短時平均過零率,語譜圖分析等等。最后是對語音信號的線性預測分析1.4本文的仿真軟件MatlabMATLAB 是美國MathWorks公司出品的商業(yè)數(shù)學軟件,用于算法開發(fā)、數(shù)據可視化、數(shù)據分析以及數(shù)值計算的高級技術計算語言和交互式環(huán)境,主要包括MATLAB和Simulink兩大部分4。MATLAB是矩陣實驗室(Matrix Laboratory)的簡稱,和Mathematica、Maple并稱為三大數(shù)學軟件。它在數(shù)學類科技應用軟件中在數(shù)值計算方面首屈一指。MATLAB可以進行矩陣運算、繪制函數(shù)和數(shù)據、實現(xiàn)算法、創(chuàng)建用戶界面、連接其他編程語言的程序等,主要應用于工程計算、控制設計、信號處理與通訊、圖像處理、信號檢測、金融建模設計與分析等領域。MATLAB的基本數(shù)據單位是矩陣,它的指令表達式與數(shù)學、工程中常用的形式十分相似,故用MATLAB來解算問題要比用C,F(xiàn)ORTRAN等語言完相同的事情簡捷得多,并且mathwork也吸收了像Maple等軟件的優(yōu)點,使MATLAB成為一個強大的數(shù)學軟件。在新的版本中也加入了對C,F(xiàn)ORTRAN,C+,JAVA的支持??梢灾苯诱{用,用戶也可以將自己編寫的實用程序導入到MATLAB函數(shù)庫中方便自己以后調用,此外許多的MATLAB愛好者都編寫了一些經典的程序,用戶可以直接進行下載就可以用。2 語音信號的特點與采集2.1 語音信號的特點通過對大量語音信號的觀察和分析發(fā)現(xiàn),語音信號主要有下面兩個特點: 在頻域內,語音信號的頻譜分量主要集中在3003400Hz的范圍內。利用這個特點,可以用一個防混迭的帶通濾波器將此范圍內的語音信號頻率分量取出,然后按8kHz的采樣率對語音信號進行采樣,就可以得到離散的語音信號。 在時域內,語音信號具有“短時性”的特點,即在總體上,語音信號的特征是隨著時間而變化的,但在一段較短的時間間隔內,語音信號保持平穩(wěn)。在濁音段表現(xiàn)出周期信號的特征,在清音段表現(xiàn)出隨機噪聲的特征。下面是一段語音信號的時域波形圖(圖2.1)和頻域圖(圖2.2),由這兩個圖可以看出語音信號的兩個特點。 圖2.1語音信號時域波形圖 圖2.2語音信號頻域波形圖 2.2語音信號的采集在將語音信號進行數(shù)字化前,必須先進行防混疊預濾波,預濾波的目的有兩個:抑制輸入信導各領域分量中頻率超出fs/2的所有分量(fs為采樣頻率),以防止混疊干擾。抑制50Hz的電源工頻干擾。這樣,預濾波器必須是一個帶通濾波器,設其上、下截止顏率分別是fH和fL,則對于絕大多數(shù)語音編譯碼器,fH=3400Hz、fL60100Hz、采樣率為fs8kHz;而對丁語音識別而言,當用于電話用戶時,指標與語音編譯碼器相同。當使用要求較高或很高的場合時fH4500Hz或8000Hz、fL60Hz、fs10kHz或20kHz。為了將原始模擬語音信號變?yōu)閿?shù)字信號,必須經過采樣和量化兩個步驟,從而得到時間和幅度上均為離散的數(shù)字語音信號。采樣也稱抽樣,是信號在時間上的離散化,即按照一定時間間隔t在模擬信號x(t)上逐點采取其瞬時值。采樣時必須要注意滿足奈奎斯特定理,即采樣頻率fs必須以高于受測信號的最高頻率兩倍以上的速度進行取樣,才能正確地重建波它是通過采樣脈沖和模擬信號相乘來實現(xiàn)的。下圖時一段語音信號在采樣頻率44.1KHz情況下的頻譜圖。圖2.3 采樣頻率44.1KHz情況下的頻譜圖由圖可知,這段語音信號的頻率主要集中在1KHz左右,當采樣頻率為44.1KHz時,由于采樣頻率比較大,所以采樣點數(shù)就越密,所得離散信號就越逼近于原信號,頻譜也沒有發(fā)生混疊。圖2.4 采樣頻率500HZ情況下的頻譜圖對上述信號進行1/80采樣頻率抽取,即采樣頻率變?yōu)閷⒔?00Hz時,由于采樣頻率比較小,所以采樣點數(shù)就稀疏,所得離散信號就越偏離于原信號,頻譜也發(fā)生了混疊。在采樣的過程中應注意采樣間隔的選擇和信號混淆:對模擬信號采樣首先要確定采樣間隔。如何合理選擇t涉及到許多需要考慮的技術因素。一般而言,采樣頻率越高,采樣點數(shù)就越密,所得離散信號就越逼近于原信號。但過高的采樣頻率并不可取,對固定長度(T)的信號,采集到過大的數(shù)據量(N=T/t),給計算機增加不必要的計算工作量和存儲空間;若數(shù)據量(N)限定,則采樣時間過短,會導致一些數(shù)據信息被排斥在外。采樣頻率過低,采樣點間隔過遠,則離散信號不足以反映原有信號波形特征,無法使信號復原,造成信號混淆。根據采樣定理,當采樣頻率大于信號的兩倍帶寬時,采樣過程不會丟失信息,利用理想濾波器可從采樣信號中不失真地重構原始信號波形。量化是對幅值進行離散化,即將振動幅值用二進制量化電平來表示。量化電平按級數(shù)變化,實際的振動值是連續(xù)的物理量。具體振值用舍入法歸到靠近的量化電平上。 語音信號經過預濾波和采樣后,由AD變換器變換為二址制數(shù)字碼。這種防混疊濾波通常與模數(shù)轉換器做在一個集成塊內,因此目前來說,語音信號的數(shù)字化的質量還是有保證的。市面上購買到的普通聲卡在這方面做的都很好,語音聲波通過話筒輸入到聲卡后直接獲得的是經過防混疊濾波、A/D變換、量化處理的離散的數(shù)字信號。在實際工作中,我們可以利用windows自帶的錄音機錄制語音文件,圖2.5是基于PC機的語音信號采集過程,聲卡可以完成語音波形的A/D轉換,獲得WAVE文件,為后續(xù)的處理儲備原材料。調節(jié)錄音機保存界面的“更改”選項,可以存儲各種格式的WAVE文件。Windows自帶的錄音機聲音麥克風聲卡濾波采樣A/D轉換 Wav圖2.5 基于PC機的語音信號采集過程 采集到語音信號之后,需要對語音信號進行分析,如語音信號的時域分析、頻譜分析、語譜圖分析以及加噪濾波等處理。 3 語音信號的分析3.1基于MATLAB的語音信號時域特征分析3.1.1 原理分析語音信號是一種非平穩(wěn)的時變信號,它攜帶著各種信息。在語音編碼、語音合成、語音識別和語音增強等語音處理中無一例外需要提取語音中包含的各種信息。語音信號分析的目的就在與方便有效的提取并表示語音信號所攜帶的信息。語音信號分析可以分為時域和變換域等處理方法,其中時域分析是最簡單的方法,直接對語音信號的時域波形進行分析,提取的特征參數(shù)主要有語音的短時能量,短時平均過零率,短時自相關函數(shù)等。3.1.2 窗口的選擇通過對發(fā)聲機理的認識,語音信號可以認為是短時平穩(wěn)的。在550ms的范圍內,語音頻譜特性和一些物理特性參數(shù)基本保持不變。我們將每個短時的語音稱為一個分析幀。一般幀長取1030ms。我們采用一個長度有限的窗函數(shù)來截取語音信號形成分析幀。通常會采用矩形窗和漢明窗。圖3.1給出了這兩種窗函數(shù)在幀長N=50時的時域波形。圖3.1 矩形窗和Hamming窗的時域波形矩形窗的定義:一個N點的矩形窗函數(shù)定義為如下 hamming窗的定義:一個N點的hamming窗函數(shù)定義為如下 這兩種窗函數(shù)都有低通特性,通過分析這兩種窗的頻率響應幅度特性可以發(fā)現(xiàn)(如圖3.2):矩形窗的主瓣寬度小(4*pi/N),具有較高的頻率分辨率,旁瓣峰值大(-13.3dB),會導致泄漏現(xiàn)象;漢明窗的主瓣寬8*pi/N,旁瓣峰值低(-42.7dB),可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性。因此在語音頻譜分析時常使用漢明窗,在計算短時能量和平均幅度時通常用矩形窗。表1.1對比了這兩種窗函數(shù)的主瓣寬度和旁瓣峰值。 圖3.2 矩形窗和Hamming窗的頻率響應表3.1 矩形窗和hamming窗的主瓣寬度和旁瓣峰值窗函數(shù)主瓣寬度旁瓣峰值矩形窗4*pi/N13.3dBhamming8*pi/N42.7dB3.1.3 短時能量 由于語音信號的能量隨時間變化,清音和濁音之間的能量差別相當顯著。因此對語音的短時能量進行分析,可以描述語音的這種特征變化情況。定義短時能量為:,其中N為窗長 特殊地,當采用矩形窗時,可簡化為: 圖3.3和圖3.4給出了不同矩形窗和hamming窗長的短時能量函數(shù),我們發(fā)現(xiàn):在用短時能量反映語音信號的幅度變化時,不同的窗函數(shù)以及相應窗的長短均有影響。hamming窗的效果比矩形窗略好。但是,窗的長短影響起決定性作用。窗過大(N 很大),等效于很窄的低通濾波器,不能反映幅度En的變化;窗過?。?N 很?。虝r能量隨時間急劇變化,不能得到平滑的能量函數(shù)。在11.025kHz左右的采樣頻率下,N 選為100200比較合適。短時能量函數(shù)的應用:1)可用于區(qū)分清音段與濁音段。En值大對應于濁音段,En值小對應于清音段。2)可用于區(qū)分濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r間(根據En值的變化趨勢)。3)對高信噪比的語音信號,也可以用來區(qū)分有無語音(語音信號的開始點或終止點)。無信號(或僅有噪聲能量)時,En值很小,有語音信號時,能量顯著增大。 圖3.3 不同矩形窗長的短時能量函數(shù) 圖3.4 不同hamming窗長的短時能量函數(shù) 3.1.4 短時平均過零率過零率可以反映信號的頻譜特性。當離散時間信號相鄰兩個樣點的正負號相異時,我們稱之為“過零”,即此時信號的時間波形穿過了零電平的橫軸。統(tǒng)計單位時間內樣點值改變符號的次數(shù)具可以得到平均過零率。定義短時平均過零率: 其中為符號函數(shù),在矩形窗條件下,可以簡化為 短時過零率可以粗略估計語音的頻譜特性。由語音的產生模型可知,發(fā)濁音時,聲帶振動,盡管聲道有多個共振峰,但由于聲門波引起了頻譜的高頻衰落,因此濁音能量集中于3KZ以下。而清音由于聲帶不振動,聲道的某些部位阻塞氣流產生類白噪聲,多數(shù)能量集中在較高頻率上。高頻率對應著高過零率,低頻率對應著低過零率,那么過零率與語音的清濁音就存在著對應關系。.圖3.5為某一語音在矩形窗條件下求得的短時能量和短時平均過零率。分析可知:清音的短時能量較低,過零率高,濁音的短時能量較高,過零率低。清音的過零率為0.5左右,濁音的過零率為0.1左右,兩但者分布之間有相互交疊的區(qū)域,所以單純依賴于平均過零率來準確判斷清濁音是不可能的,在實際應用中往往是采用語音的多個特征參數(shù)進行綜合判決。短時平均過零率的應用:1)區(qū)別清音和濁音。例如,清音的過零率高,濁音的過零率低。此外,清音和濁音的兩種過零分布都與高斯分布曲線比較吻合。2)從背景噪聲中找出語音信號。語音處理領域中的一個基本問題是,如何將一串連續(xù)的語音信號進行適當?shù)姆指?,以確定每個單詞語音的信號,亦即找出每個單詞的開始和終止位置。3)在孤立詞的語音識別中,可利用能量和過零作為有話無話的鑒別。 圖3.5 形窗條件下的短時平均過零率3.1.5 短時自相關函數(shù)自相關函數(shù)用于衡量信號自身時間波形的相似性。清音和濁音的發(fā)聲機理不同,因而在波形上也存在著較大的差異。濁音的時間波形呈現(xiàn)出一定的周期性,波形之間相似性較好;清音的時間波形呈現(xiàn)出隨機噪聲的特性,樣點間的相似性較差。因此,我們用短時自相關函數(shù)來測定語音的相似特性。短時自相關函數(shù)定義為: 令,并且,可以得到: 圖3.6給出了清音的短時自相關函數(shù)波形,圖7給出了不同矩形窗長條件下(窗長分別為N=70,N=140,N=210,N=280)濁音的短時自相關函數(shù)波形。由圖3.6、圖3.7短時自相關函數(shù)波形分析可知:清音接近于隨機噪聲,清音的短時自相關函數(shù)不具有周期性,也沒有明顯突起的峰值,且隨著延時k的增大迅速減??;濁音是周期信號,濁音的短時自相關函數(shù)呈現(xiàn)明顯的周期性,自相關函數(shù)的周期就是濁音信號的周期,根據這個性質可以判斷一個語音信號是清音還是濁音,還可以判斷濁音的基音周期。濁音語音的周期可用自相關函數(shù)中第一個峰值的位置來估算。所以在語音信號處理中,自相關函數(shù)常用來作以下兩種語音信號特征的估計:1)區(qū)分語音是清音還是濁音;2)估計濁音語音信號的基音周期。 圖3.6 清音的短時自相關函數(shù)圖3.7 不同矩形窗長條件下的濁音的短時自相關函數(shù)3.2基于MATLAB的語音信號頻域特征分析3.2.1 原理分析 信號的傅立葉表示在信號的分析與處理中起著重要的作用。因為對于線性系統(tǒng)來說,可以很方便地確定其對正弦或復指數(shù)和的響應,所以傅立葉分析方法能完善地解決許多信號分析和處理問題。另外,傅立葉表示使信號的某些特性變得更明顯,因此,它能更深入地說明信號的各項紅物理現(xiàn)象。由于語音信號是隨著時間變化的,通常認為,語音是一個受準周期脈沖或隨機噪聲源激勵的線性系統(tǒng)的輸出。輸出頻譜是聲道系統(tǒng)頻率響應與激勵源頻譜的乘積。聲道系統(tǒng)的頻率響應及激勵源都是隨時間變化的,因此一般標準的傅立葉表示雖然適用于周期及平穩(wěn)隨機信號的表示,但不能直接用于語音信號。由于語音信號可以認為在短時間內,近似不變,因而可以采用短時分析法。3.2.2. 短時傅立葉變換由于語音信號是短時平穩(wěn)的隨機信號,某一語音信號幀的短時傅立葉變換的定義為: (1)其中w(n-m)是實窗口函數(shù)序列,n表示某一語音信號幀。令n-m=k,則得到 (2)于是可以得到 (3)假定 (4)則可以得到 (5)同樣,不同的窗口函數(shù),將得到不同的傅立葉變換式的結果。由上式可見,短時傅立葉變換有兩個變量:n和,所以它既是時序n的離散函數(shù),又是角頻率的連續(xù)函數(shù)。與離散傅立葉變換逼近傅立葉變換一樣,如令=2k/N,則得離散的短時傅立葉吧如下: (6)3.2.3 語譜圖水平方向是時間軸,垂直方向是頻率軸,圖上的灰度條紋代表各個時刻的語音短時譜。語譜圖反映了語音信號的動態(tài)頻率特性,在語音分析中具有重要的實用價值。被成為可視語言。語譜圖的時間分辨率和頻率分辨率是由窗函數(shù)的特性決定的。時間分辨率高,可以看出時間波形的每個周期及共振峰隨時間的變化,但頻率分辨率低,不足以分辨由于激勵所形成的細微結構,稱為寬帶語譜圖;而窄帶語譜圖正好與之相反。寬帶語譜圖可以獲得較高的時間分辨率,反映頻譜的快速時變過程;窄帶語譜圖可以獲得較高的頻率分辨率,反映頻譜的精細結構。兩者相結合,可以提供帶兩與語音特性相關的信息。語譜圖上因其不同的灰度,形成不同的紋路,稱之為“聲紋”。聲紋因人而異,因此可以在司法、安全等場合得到應用。3.2.4 復倒譜和倒譜復倒譜是x(n)的Z變換取對數(shù)后的逆Z變換,其表達式如下: (7)倒譜c(n)定義為x(n)取Z變換后的幅度對數(shù)的逆Z變換,即 (8)在時域上,語音產生模型實際上是一個激勵信號與聲道沖激響應的卷積。對于濁音,激勵信號可以由周期脈沖序列表示;對于清音,激勵信號可以由隨機噪聲序列表示。聲道系統(tǒng)相當于參數(shù)緩慢變化的零極點線性濾波器。這樣經過同態(tài)處理后,語音信號的復倒譜,激勵信號的復倒譜,聲道系統(tǒng)的復倒譜之間滿足下面的關系: (9)由于倒譜對應于復倒譜的偶部,因此倒譜與復倒譜具有同樣的特點,很容易知道語音信號的倒譜,激勵信號的倒譜以及聲道系統(tǒng)的倒譜之間滿足下面關系: (10)濁音信號的倒譜中存在著峰值,它的出現(xiàn)位置等于該語音段的基音周期,而清音的倒譜中則不存在峰值。利用這個特點我們可以進行清濁音的判斷,并且可以估計濁音的基音周期。3.2.5 基因周期估計濁音信號的倒譜中存在峰值,它的出現(xiàn)位置等于該語音段的基音周期,而清音的倒譜中則不存在峰值。利用倒譜的這個特點,我們可以進行語音的清濁音判決,并且可以估計濁音的基音周期。首先計算語音的倒譜,然后在可能出現(xiàn)的基因周期附近尋找峰值。如果倒譜峰值超過了預先設置的門限,則輸入語音判斷為濁音,其峰值位置就是基因周期的估計值;反之,如果沒有超出門限的峰值的話,則輸入語音為清音。3.2.6共振峰估計對倒譜進行濾波,取出低時間部分進行進行逆特征系統(tǒng)處理,可以得到一個平滑的對數(shù)譜函數(shù),這個對數(shù)譜函數(shù)顯示了輸入語音段的共振峰結構,同時譜的峰值對應于共振峰頻率。通過此對數(shù)譜進行峰值檢測,就可以估計出前幾個共振峰的頻率和強度。對于濁音的聲道特性,可以采用前三個共振峰來描述;清音不具備共振峰特點。3.2.7 結果分析 短時譜 圖3.8 短時譜 語譜圖 圖3.9 語譜圖 倒譜和復倒譜圖3.1.10、3.1.11是加矩形窗和漢明窗的倒譜圖和復倒譜圖,圖中橫軸的單位是Hz,縱軸的單位是dB。圖3.10 加矩形窗時的倒譜和復倒譜圖 圖3.11 加漢明窗時倒譜和復倒譜圖 基因周期和共振峰估計 圖3.12 倒譜圖分析第15幀其中第一峰值出現(xiàn)在第2個樣點,窗長為512(64ms),抽樣頻率為11KHz,說明基因頻率就在這個點上,其基因頻率為5.5KHz,基音周期為0.182ms。3.3 基于MATLAB的LPC分析3.3.1 技術介紹線性預測分析是最有效的語音分析技術之一,在語音編碼、語音合成、語音識別和說話人識別等語音處理領域中得到了廣泛的應用。語音線性預測的基本思想是:一個語音信號的抽樣值可以用過去若干個取樣值的線性組合來逼近。通過使實際語音抽樣值與線性預測抽樣值的均方誤差達到最小,可以確定唯一的一組線性預測系數(shù)。采用線性預測分析不僅能夠得到語音信號的預測波形,而且能夠提供一個非常好的聲道模型。如果將語音模型看作激勵源通過一個線性時不變系統(tǒng)產生的輸出,那么可以利用LP分析對聲道參數(shù)進行估值,以少量低信息率的時變參數(shù)精確地描述語音波形及其頻譜的性質。此外,LP分析還能夠對共振峰、功率譜等語音參數(shù)進行精確估計,LP分析得到的參數(shù)可以作為語音識別的重要參數(shù)之一。由于語音是一種短時平穩(wěn)信號,因此只能利用一段語音來估計模型參數(shù)。此時有兩種方案:一種是將長的語音序列加窗,然后對加窗語音進行LP分析,只要限定窗的長度就可以保證分析的短時性,這種方案稱為自相關法;另一種方案不對語音加窗,而是在計算均方預測誤差時限制其取和區(qū)間,這樣可以導出LP分析的自協(xié)方差法。3.3.2 LP分析基本原理驗原理LP分析為線性時不變因果穩(wěn)定系統(tǒng)V(z)建立一個全極點模型,并利用均方誤差準則,對已知的語音信號s(n)進行模型參數(shù)估計。如果利用P個取樣值來進行預測,則稱為P階線性預測。假設用過去P個取樣值的加權之和來預測信號當前取樣值,則預測信號為: (1)其中加權系數(shù)用表示,稱為預測系數(shù),則預測誤差為: (2)要使預測最佳,則要使短時平均預測誤差最小有: (3) (4)令 (5) 最小的可表示成: (6)顯然,誤差越接近于零,線性預測的準確度在均方誤差最小的意義上為最佳,由此可以計算出預測系數(shù)。通過LPC分析,由若干幀語音可以得到若干組LPC參數(shù),每組參數(shù)形成一個描繪該幀語音特征的矢量,即LPC特征矢量。由LPC特征矢量可以進一步得到很多種派生特征矢量,例如線性預測倒譜系數(shù)、線譜對特征、部分相關系數(shù)、對數(shù)面積比等等。不同的特征矢量具有不同的特點,它們在語音編碼和識別領域有著不同的應用價值。3.3.3 自相關法在最佳線性預測中,若用下式定義的時間平均最小均方準則代替(3)式的集合平均最小均方準則,即令 (7) 事實上就是短時自相關函數(shù),因而 (8) (9)根據平穩(wěn)隨機信號的自相關性質,可得 (10) 由(6)式,可得: (11) 綜上所述,可以得到如下矩陣形式: (12)值得注意的是,自相關法在計算預測誤差時,數(shù)據段的兩端都需要加P個零取樣值,因而可造成譜估計失真。特別是在短數(shù)據段的情況下,這一現(xiàn)實更為嚴重。另外,當預測系數(shù)量化時,有可能造成實際系統(tǒng)的不穩(wěn)定。自相關解法主要有杜賓算法、格型算法和舒爾算法等幾種高效遞推算法。3.3.4 協(xié)方差法如果在最佳線性預測中,用下式定義的時間平均最小均方準則代替(3)式的集合平均最小均方準則,則可得到類似的方程: (13) 可以看出,這里的數(shù)據段兩端不需要添加零取樣值。在理論上,協(xié)方差法計算出來的預測系數(shù)有可能造成預測誤差濾波器的不穩(wěn)定,但在實際上當每幀信號取樣足夠多時,其計算結果將與自相關法的結果很接近,因而穩(wěn)定性一般是能夠保證的 (當然這種方法也有量化效應可能引起不穩(wěn)定的缺點)。協(xié)方差解法的最大優(yōu)點在于不存在自相關法中兩端出現(xiàn)很大預測誤差的情況,在N和P相差不大時,其參數(shù)估值比自相關法要精確的多。但是在語音信號處理時,往往取N在200左右。此時,自相關法具有較大誤差的段落在整個語音段中所占的比例很小,參數(shù)估值也是比較準確的。在這種情況下,協(xié)方差法誤差較小的優(yōu)點就不再突出,其缺乏高效遞推算法的缺點成為了制約因素。所以,在語音信號處理中往往使用高效的自相關法。3.3.5 全極點聲道模型將線性預測分析應用于語音信號處理,不僅是為了利用其預測功能,更因為它提供了一個非常好的聲道模型。將式(2)所示的方程看成是濾波器在語音信號激勵下的輸入輸出方程,則該濾波器稱為預測誤差濾波器,其e(n)是輸出誤差。變換到z域,P階預測誤差濾波器的系統(tǒng)函數(shù)為 (14) 可以看出,如果將預測誤差e(n)作為激勵信號,使其通過預測誤差濾波器的逆濾波器H(Z),即 (15) 則H(Z)的輸出為語音信號s(n),也就是說,H(Z)在預測誤差e(n)的激勵下可以合成語音。因此,H(Z)被稱為語音信號的全極點模型,也稱為語音合成器。該模型的參數(shù)就是P階線性預測的預測系數(shù)。因為預測誤差含有語音信號的基音信息,所以對于濁音,模型的激勵信號源是以基音周期重復的單位脈沖;對于清音,激勵信號源e(n)是自噪聲。語音信號的全極點模型是一種很重要的聲道模型,是許多應用和研究的基礎。3.3.6 LPCC如果聲道特性H(Z)用式(14)所示的全極點模型表示,有 (16)式中,S(z)和I(z)分別為語音信號和激勵源的Z變換。對人的聽覺來說,濁音是最重要的語音信號。對于濁音,模型的激勵信號源e(n)是以基音周期重復的單位脈沖,此時有??傻玫腪變換S(z)為 (17)式中,為P階線性預測系數(shù)。根據倒譜的定義,對具有最小相位特征的語音信號,有 (18)式中,為語音信號的倒譜。將式(16)代入式(17),并對兩邊求導,得 (19)根據上式即可由線性預測系數(shù)通過遞推得到倒譜系數(shù),將這樣得到的倒譜稱為線性預測倒譜系數(shù)。3.3.7 結合語音幀能量構成LPC組合參數(shù)由于人能從聲音的音色、頻高等各種信息中感知說話人的個性,因此可以想象,利用特征的有效組合可以得到比較穩(wěn)定的識別性能。一般來說,如果組合的各參量之間相關性不大,則會更有效一些,因為它們分別反映了語音信號中的不同特征。多年來,人們對組合參數(shù)在說話人識別中的應用進行了大量研究 。實驗證明,組合參數(shù)可以提高系統(tǒng)的識別性能。組合參數(shù)雖然可以提高系統(tǒng)的性能,但很顯然,無論是在特征參數(shù)提取環(huán)節(jié),還是在模型訓練和模型匹配環(huán)節(jié)都使運算量有所增加。在特征參數(shù)提取環(huán)節(jié),要計算一種以上的特征參數(shù)。在模型訓練和模型匹配環(huán)節(jié),由于組合參數(shù)特征矢量的維數(shù)較多,使運算復雜度有所增加。運算量的增加會使系統(tǒng)的識別速度受到影響。為使運算量問題得到較好的解決,所以可以由LPC參數(shù)與語音幀能量構成組合參數(shù),能夠在運算量增加不明顯的情況下改進系統(tǒng)的性能。語音幀能量是指一幀語音信號的能量,它等于該幀語音樣值的平方和。選取與語音幀能量構成組合參數(shù)主要有以下考慮:1)語音幀能量是語音信號最基本的短時參數(shù)之一,它表征一幀語音信號能量的大小,是語音信號一個重要的時域特征;2)由一幀語音求出的語音幀能量是一個標量值,與其它參量構成組合參數(shù)不會使原特征矢量的維數(shù)明顯增加,特征矢量的維數(shù)越少,則需要的運算復雜度越小,另外,獲取語音幀能量的運算并不復雜;3)語音幀能量與LPC參數(shù)之間的相關性不大,它們反映的是語音信號的不同特征,應該有較好的效果。3.3.8 模型增益G模型的激勵信號表示為: (20) 預測誤差e(n)如式(2),這樣當實際的預測系數(shù)與模型系數(shù)相等時,有 (21) 這說明激勵信號正比于誤差信號,其比例常數(shù)等于模型增益G。通常假設誤差信號的能量等于輸入激勵信號的能量,因此可以得到: (22) 對于式中的激勵信號,主要分為濁音和清音兩種情況。其中為濁音時,考慮到此時實際的激勵信號為聲門脈沖,因此可以將激勵信號表示為時的單位抽樣。為了保證這個假設成立,要求分析的區(qū)間應該大致和語音基因周期的長度相等。當語音為清音時,我們假定激勵信號為一個零均值、單位方差的平穩(wěn)白噪聲過程。采用自相關解法時,濁音的模型增益為 (23)清音計算模型增益的公式和濁音相同。3.3.9 試驗結果分析我們使用的原始語音為“北風”,采樣頻率為11000Hz,運行程序見附錄。在這里我們取第30幀進行觀察,線性預測階數(shù)為12,看到圖3.13所示的原始語音幀的波形,預測語音幀波形和它們之間預測誤差的波形。圖3.14為原始語音幀和預測語音幀的短時譜和LPC譜的波形圖3.13 原始語音幀、預測語音幀和預測誤差的波形圖3.14 原始語音幀和預測語音幀的短時譜和LPC譜的波形這里我們可以改變線性誤差的階數(shù)來觀察語音幀的短時譜和LP譜的變化情況,如圖3.15。圖3.15 預測階數(shù)對語音幀短時譜和LPC譜的影響從圖中可以看出,P越大,LPC譜越能反映出語音短時譜的細節(jié)部分,但LPC譜的光滑度隨之下降。由于我們的目的只是用LPC譜反映聲道綜合效應的譜的表示式,而具體的諧波形狀是通過激勵譜來控制的,因此LPC譜只要能夠體現(xiàn)出語音的共振峰的結構和譜包絡就可以,因此從計算復雜性的角度分析,預測階數(shù)P應該適中。圖3.16是原始語音和預測誤差的倒譜波形,我們可以從中計算出原始語音的基音周期。從圖中看出兩峰值之間的間隔為40點左右,基音周期為40/11000=3.6ms,頻率為278Hz左右。圖3.16 原始語音和預測誤差的倒譜波形圖3.17給出了原始語音的語譜圖和預測語音的語譜圖,通過比較發(fā)現(xiàn),預測語音的預測效果還可以,基音頻率相差無幾。圖3.17 原始語音的語譜圖和預測語音的語譜圖總 結通過這次課程設計,使我對語音信號有了全面的認識,對數(shù)字信號處理的知識又有了深刻的理解,在之前數(shù)字信號與處理的學習以及完成課后的作業(yè)的過程中,已經使用過MATLAB,對其有了一些基礎的了解和認識。通過這次練習是我進一步了解了信號的產生、采樣及頻譜分析的方法。 以及其中產生信號和繪制信號的基本命令和一些基礎編程語言。讓我感受到只有在了解課本知識的前提下,才能更好的應用這個工具;并且熟練的應用MATLAB也可以很好的加深我對課程的理解,方便我的思維。這次設計使我了解了MATLAB的使用方法,學會分析濾波器的優(yōu)劣和性能,提高了分析和動手實踐能力。同時我相信,進一步加強對MATLAB的學習與研究對我今后的學習將會起到很大的幫助。致 謝非常感謝我的導師詹恩奇老師!在詹老師無微不至的教導下,我才能夠順順利

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論