基于DSP的語音信號處理系統(tǒng)設計_第1頁
基于DSP的語音信號處理系統(tǒng)設計_第2頁
基于DSP的語音信號處理系統(tǒng)設計_第3頁
基于DSP的語音信號處理系統(tǒng)設計_第4頁
基于DSP的語音信號處理系統(tǒng)設計_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

I摘要語音信號處理是研究用數字信號處理技術和語音學知識對語音信號進行處理的新興的學科,是目前發(fā)展最為迅速的信息科學研究領域的核心技術之一。通過語音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息形式。數字信號處理(DigitalSignalProcessing,簡稱 DSP)是利用計算機或專用處理設備,以數字形式對信號進行采集、變換、濾波、估值、增強、壓縮、識別等處理,以得到符合人們需要的信號形式。Matlab 語言是一種數據分析和處理功能十分強大的計算機應用軟件,它可以將聲音文件變換為離散的數據文件,然后利用其強大的矩陣運算能力處理數據,如數字濾波、傅里葉變換、時域和頻域分析、聲音回放以及各種圖的呈現(xiàn)等,它的信號處理與分析工具箱為語音信號分析提供了十分豐富的功能函數,利用這些功能函數可以快捷而又方便地完成語音信號的處理和分析以及信號的可視化,使人機交互更加便捷。信號處理是 Matlab 重要應用的領域之一。本設計針對現(xiàn)在大部分語音處理軟件內容繁多、操作不便等問題,采用MATLAB7.0 綜合運用 GUI 界面設計、各種函數調用等來實現(xiàn)語音信號的變頻、傅里葉變換及濾波,程序界面簡練,操作簡便,具有一定的實際應用意義。關鍵字:Matlab,語音信號,傅里葉變換,信號處理11 緒 論1.1 課題的背景與意義通過語音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息的形式。語言是人類持有的功能。聲音是人類常用的工具,是相互傳遞信息的最主要的手段。因此,語音信號是人們構成思想疏通和感情交流的最主要的途徑。并且,由于語言和語音與人的智力活動密切相關,與社會文化和進步緊密相連,所以它具有最大的信息容量和最高的智能水平。現(xiàn)在,人類已開始進入了信息化時代,用現(xiàn)代手段研究語音信號,使人們能更加有效地產生、傳輸、存儲、獲取和應用語音信息,這對于促進社會的發(fā)展具有十分重要的意義。讓計算機能聽懂人類的語言,是人類自計算機誕生以來夢寐以求的想法。隨著計算機越來越向便攜化方向發(fā)展,隨著計算環(huán)境的日趨復雜化,人們越來越迫切要求擺脫鍵盤的束縛而代之以語音輸人這樣便于使用的、自然的、人性化的輸人方式。作為高科技應用領域的研究熱點,語音信號采集與分析從理論的研究到產品的開發(fā)已經走過了幾十個春秋并且取得了長遠的進步。它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語音咨詢與管理。工業(yè)生產部門的語聲控制,電話、電信系統(tǒng)的自動撥號、輔助控制與查詢以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實際應用領域相接軌,并且有望成為下一代操作系統(tǒng)和應用程序的用戶界面。可見,語音信號采集與分析的研究將是一項極具市場價值和挑戰(zhàn)性的工作。我們今天進行這一領域的研究與開拓就是要讓語音信號處理技術走入人們的日常生活當中,并不斷朝更高目標而努力。語音信號采集與分析之所以能夠那樣長期地、深深地吸引廣大科學工作者去不斷地對其進行研究和探討,除了它的實用性之外,另一個重要原因是,它始終與當時信息科學中最活躍的前沿學科保持密切的聯(lián)系,并且一起發(fā)展。語音信號采集與分析是以語音語言學和數字信號處理為基礎而形成的一門涉及面很廣的綜合性學科,與心理、生理學、計算機科學、通信與信息科學以及模式識別和人工智能等學科都有著非常密切的關系。對語音信號采集與分析的研究一直是數字信號處理技術發(fā)展的重要推動力量。因為許多處理的新方法的提出,首先是在語音信號處理中獲得成功,然后再推廣到其他領域。1.2 國內外研究現(xiàn)狀語音信號的采集與分析作為一個重要的研究領域,已經有很長的研究歷史。2但是它的快速發(fā)展可以說是從 1940 年前后 Dudley 的聲碼器(vocoder)和 potter等人的可見語音(Visible Speech)開始的。1952 年貝爾(Bell)實驗室的 Davis等人首次研制成功能識別十個英語數字的實驗裝置。1956 年 Olson 和 Belar 等人采用 8 個帶通濾波器組提取頻譜參數作為語音的特征,研制成功一臺簡單的語音打字機。20 世紀 60 年代初由于 Faut 和 Steven 的努力,奠定了語音生成理論的基礎,在此基礎上語音合成的研究得到了扎實的進展。20 世紀 60 年代中期形成的一系列數字信號處理方法和技術,如數字濾波器、快速博里葉變換(FFT)等成為語音信號數字處理的理論和技術基礎。在方法上,隨著電子計算機的發(fā)展,以往的以硬件為中心的研究逐漸轉化為以軟件為主的處理研究。然而,在語音識別領域內,初期有幾種語音打字機的研究也很活躍,但后來已全部停了下來,這說明了當時人們對話音識別難度的認識得到了加深。所以 1969 年美國貝爾研究所的 Pierce 感嘆地說“語音識別向何處去?”。到了 1970 年,好似反駁 Pierce 的批評,單詞識別裝置開始了實用化階段,其后實用化的進程進一步高漲,實用機的生產銷售也上了軌道。此外社會上所宣傳的聲紋(Voice Print)識別,即說話人識別的研究也扎扎實實地開展起來,并很快達到了實用化的階段。到了 1971 年,以美國 ARPA(American Research Projects Agency)為主導的“語音理解系統(tǒng)”的研究計劃也開始起步。這個研究計劃不僅在美國園內,而且對世界各國都產生了很大的影響,它促進了連續(xù)語音識別研究的興起。歷時五年的龐大的 ARPA 研究計劃,雖然在語音理解、語言統(tǒng)計模型等方面的研究積累了一些經驗,取得了許多成果,但沒能達到巨大投資應得的成果,在 1976 年停了下來,進入了深刻的反省階段。但是,在整個 20 世紀70 年代還是有幾項研究成果對語音信號處理技術的進步和發(fā)展產生了重大的影響。這就是 20 世紀 70 年代初由板倉(Itakura)提出的動態(tài)時間規(guī)整(DTW)技術,使語音識別研究在匹配算法方面開辟了新思路;20 世紀 70 年代中期線性預測技術(LPC)被用于語音信號處理,此后隱馬爾可夫模型法(HNMM)也獲得初步成功,該技術后來在語音信號處理的多個方面獲得巨大成功;20 世紀 70 年代未,Linda、Buzo、Gray 和 Markel 等人首次解決了矢量量化(VQ)碼書生成的方法,并首先將矢量量化技術用于語音編碼獲得成功。從此矢量量化技術不僅在語音識別、語音編碼和說話人識別等方面發(fā)揮了重要作用,而且很快推廣到其他許多領域。因此,20 世紀 80 年代開始出現(xiàn)的語音信號處理技術產品化的熱潮,與上述語音信號處理新技術的推動作用是分不開的。20 世紀 80 年代,由于矢量量化、隱馬爾可夫模型和人工神經網絡(ANN)等相繼被應用于語音信號處理,并經過不斷改進與完善,使得語音信號處理技術產生了突破性的進展。其中,隱馬爾可夫模型作為語音信號的一種統(tǒng)計模型,在語音3信號處理的各個領域中獲得了廣泛的應用。其理論基礎是 1970 年前后,由 Baum等人建立起來的,隨后,由美國卡內基梅隆大學(CMU)的 Baker 和美國 IBM 公司的 Jelinek 等人將其應用到語音識別中。由于美國貝爾實驗室的 Babiner 等人在20 世紀 80 年代中期,對隱馬爾可夫模型深人淺出的介紹,才使世界各國從事語音信號處理的研究人員了解和熟悉,進而成為一個公認的研究熱點,也是目前語音識別等的主流研究途徑。進入 20 世紀 90 年代以來,語音信號采集與分析在實用化方面取得了許多實質性的研究進展。其中,語音識別逐漸由實驗室走向實用化。一方面,對聲學語音學統(tǒng)計模型的研究逐漸深入,魯棒的語音識別、基于語音段的建模方法及隱馬爾可夫模型與人工神經網絡的結合成為研究的熱點。另一方面,為了語音識別實用化的需要,講者自適應、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題倍受關注。1.3 數字信號處理(DSP)簡介數字信號處理(DigitalSignalProcessing,簡稱 DSP)是一門涉及許多學科而又廣泛應用于許多領域的新興學科。20 世紀 60 年代以來,隨著計算機和信息技術的飛速發(fā)展,數字信號處理技術應運而生并得到迅速的發(fā)展。在過去的二十多年時間里,數字信號處理已經在通信等領域得到極為廣泛的應用。數字信號處理是利用計算機或專用處理設備,以數字形式對信號進行采集、變換、濾波、估值、增強、壓縮、識別等處理,以得到符合人們需要的信號形式。數字信號處理是圍繞著數字信號處理的理論、實現(xiàn)和應用等幾個方面發(fā)展起來的。數字信號處理在理論上的發(fā)展推動了數字信號處理應用的發(fā)展。反過來,數字信號處理的應用又促進了數字信號處理理論的提高。而數字信號處理的實現(xiàn)則是理論和應用之間的橋梁。數字信號處理是以眾多學科為理論基礎的,它所涉及的范圍極其廣泛。例如,在數學領域,微積分、概率統(tǒng)計、隨機過程、數值分析等都是數字信號處理的基本工具,與網絡理論、信號與系統(tǒng)、控制論、通信理論、故障診斷等也密切相關。近來新興的一些學科,如人工智能、模式識別、神經網絡等,都與數字信號處理密不可分。可以說,數字信號處理是把許多經典的理論體系作為自己的理論基礎,同時又使自己成為一系列新興學科的理論基礎。41.4 本文主要工作本文簡要介紹了語音信號采集與分析的發(fā)展史以及語音信號的特征、采集與分析方法,并通過 PC 機錄制自己的一段聲音,運用 Matlab 進行仿真分析,最后加入噪聲進行濾波處理,比較濾波前后的變化。第 2 章主要介紹語音信號的特點與采集,仿真主要是驗證奈奎斯特定理。第 3 章主要是對語音信號進行時域、頻域上的分析,如短時功率譜,短時能量,短時平均過零率,語譜圖分析等等。第4 章是對語音信號的綜合和分析,包括語音信號的調制、疊加和濾波。52 語音信號的特點與采集2.1 語音信號的特點通過對大量語音信號的觀察和分析發(fā)現(xiàn),語音信號主要有下面兩個特點:在頻域內,語音信號的頻譜分量主要集中在 3003400Hz 的范圍內。利 1用這個特點,可以用一個防混迭的帶通濾波器將此范圍內的語音信號頻率分量取出,然后按 8kHz 的采樣率對語音信號進行采樣,就可以得到離散的語音信號。在時域內,語音信號具有“短時性”的特點,即在總體上,語音信號的 2特征是隨著時間而變化的,但在一段較短的時間間隔內,語音信號保持平穩(wěn)。在濁音段表現(xiàn)出周期信號的特征,在清音段表現(xiàn)出隨機噪聲的特征。下面是一段語音信號的時域波形圖(圖 2-1)和頻域圖(圖 2-2),由這兩個圖可以看出語音信號的兩個特點。0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5-0.8-0.6-0.4-0.200.20.40.6Time(s) 0 0.5 1 1.5 2 2.5x 10400.050.10.150.20.250.30.350.40.45Frequency(Hz)圖 2-1 語音信號時域波形圖 圖 2-2 語音信號頻域波形圖2.2 語音信號的采集在將語音信號進行數字化前,必須先進行防混疊預濾波,預濾波的目的有兩個: 抑制輸入信導各領域分量中頻率超出 fs/2 的所有分量(f s 為采樣頻率),以 1防止混疊干擾。 抑制 50Hz 的電源工頻干擾。這樣,預濾波器必須是一個帶通 2濾波器,設其上、下截止頻率分別是 fH 和 fL,則對于絕大多數語音編譯碼器,fH=3400Hz、f L60100Hz 、采樣率為 fs8kHz;而對丁語音識別而言,當用于電話用戶時,指標與語音編譯碼器相同。當使用要求較高或很高的場合時fH 4500Hz 或 8000Hz、f L60Hz、f s10kHz 或 20kHz。6為了將原始模擬語音信號變?yōu)閿底中盘枺仨毥涍^采樣和量化兩個步驟,從而得到時間和幅度上均為離散的數字語音信號。采樣也稱抽樣,是信號在時間上的離散化,即按照一定時間間隔t 在模擬信號(t)上逐點采取其瞬時值。采樣時必須要注意滿足奈奎斯特定理,即采樣頻率 fs 必須以高于受測信號的最高頻率兩倍以上的速度進行取樣,才能正確地重建波形,它是通過采樣脈沖和模擬信號相乘來實現(xiàn)的。下圖時一段語音信號在采樣頻率 44.1KHz 情況下的頻譜圖。0 1 2 3 4 5 6x 104-0.4-0.200.20.4 低低低低0 0.5 1 1.5 2 2.5x 104050100150200圖 2-3 原始信號時域波形圖和頻域波形圖由圖可知,這段語音信號的頻率主要集中在 1KHz 左右,當采樣頻率為44.1KHz 時,由于采樣頻率比較大,所以采樣點數就越密,所得離散信號就越逼近于原信號,頻譜也沒有發(fā)生混疊。70 1 2 3 4 5 6x 104-0.200.20.40.6 低低低低低低0 5000 10000 1500011.522.53圖 2-4 抽取后的信號時域波形圖和頻域波形圖對上述信號進行 1/80 采樣頻率抽取,即采樣頻率變?yōu)閷⒔?500Hz 時,由于采樣頻率比較小,所以采樣點數就稀疏,所得離散信號就越偏離于原信號,頻譜也發(fā)生了混疊。在采樣的過程中應注意采樣間隔的選擇和信號混淆:對模擬信號采樣首先要確定采樣間隔。如何合理選擇t 涉及到許多需要考慮的技術因素。一般而言,采樣頻率越高,采樣點數就越密,所得離散信號就越逼近于原信號。但過高的采樣頻率并不可取,對固定長度(T)的信號,采集到過大的數據量(N=T/t),給計算機增加不必要的計算工作量和存儲空間;若數據量(N)限

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論