語音信號處理概況_第1頁
語音信號處理概況_第2頁
語音信號處理概況_第3頁
語音信號處理概況_第4頁
語音信號處理概況_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

語音信號處理

鄭能恒nhzheng@人與人之間、人與機器之間的語音信息處理過程(人)行動意圖說話方收聽方○語言形成發(fā)音收聽認識·理解傳輸系統(tǒng)(編碼、解碼)空間傳播文本解析語音合成語音識別文章輸入(機器)語音理解計算機處理應(yīng)答文生成Ⅰ:第一類人機語音通信問題Ⅱ:第二類人機語音通信問題○Ⅰ人與人之間的語音通信Ⅱ語音信號處理的目標就是實現(xiàn)人-人以及人-機間的無障礙信息流通Youcandoit!課程目標初級目標:了解語音信號產(chǎn)生的基本機理;了解數(shù)字音頻數(shù)據(jù)(包括語音)的常見格式及應(yīng)用;掌握語音信號分析的基本原理、語音編碼、語音識別、說話人識別、語音合成的原理及其實現(xiàn)過程。高級目標:能夠利用所學(xué)知識進行語音信號分析與處理進階目標:能夠完成小型語音應(yīng)用系統(tǒng)的設(shè)計開發(fā)考核方式:考核方式和評分:考核形式次數(shù)評分比例考核時間平時作業(yè)240第6~8、11~14周課堂專題討論1第11~14周期末綜合性大作業(yè)160第15-18周學(xué)習(xí)要求:培養(yǎng)學(xué)生自主學(xué)習(xí)的能力。學(xué)生應(yīng)在老師課堂教授的基礎(chǔ)上,結(jié)合項目作業(yè)鍛煉自己的資料查找與分析、信號采集與分析、簡單系統(tǒng)設(shè)計、小組合作以及口頭報告等綜合能力。輔助分析軟件工具:MATLABWaveSurferhttp://www.speech.kth.se/wavesurfer/VoiceBoxhttp://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html語音識別系統(tǒng)開發(fā)工具緒論:語音信號處理的一些基本概念什么是語音信號處理?語音信號處理簡稱語音處理,是以語音學(xué)和數(shù)字信號處理為基礎(chǔ)而形成的一門綜合性學(xué)科,處理的目的是要得到一些語音參數(shù)以便高效的傳輸或存儲,或者通過信號處理以達到某種特定用途的要求,例如人工合成出語音,辨識出說話者,識別講話的內(nèi)容等。語音的定義語音是人類發(fā)音器官發(fā)出的、具有一定意義的、能起社會交際作用的聲音。能夠代表一定的意義,這是語言的聲音(語音)同自然界其他一切聲音的本質(zhì)區(qū)別。語音同它所代表的語義是相互依存的統(tǒng)一體,一方面,發(fā)音器官發(fā)出的聲音必須同語義緊密結(jié)合、成為一定意義的代表,才能成為語音;另一方面,意義必須借助聲音才能成為可被人感知、被人接受的東西,沒有聲音,意義便無法表達出來。語音是一種具有多重屬性的聲音。首先,它同自然界其他聲音一樣,是由物體振動產(chǎn)生聲波而形成的一種自然現(xiàn)象,所以它具有自然(物理)屬性;語音又是人類的生理現(xiàn)象,發(fā)音是人體器官的動作,因此,它同時具有生理屬性;作為語言這一特殊社會現(xiàn)象的物質(zhì)基礎(chǔ),語音又具有社會屬性,這是語音的本質(zhì)屬性。我們在分析語音現(xiàn)象的時候,這三種屬性都會涉及到。語音學(xué)語音學(xué)是研究語音過程的科學(xué),包括發(fā)音語音學(xué)、聲學(xué)語音學(xué)和聽覺語音學(xué)三大分支。發(fā)音語音學(xué)研究發(fā)音器官在發(fā)音過程中的運動和語音的音位特征;聲學(xué)語音學(xué)研究語音的物理屬性,如語音聲波的頻率、振幅以及頻譜特性等;聽覺語音學(xué)研究聽覺和語音感知。語音的屬性—物理(聲學(xué))屬性

物體由于某種外力的作用發(fā)生振動,并引起周圍空氣或其他媒介物質(zhì)的振動,產(chǎn)生了振動波─聲波,聲波作用于耳鼓膜,使之產(chǎn)生同樣的振動,刺激聽覺神經(jīng),人就感覺到了聲音。語音也是這樣產(chǎn)生、傳遞與接收的。物理聲學(xué)認為聲波具有音高、音強、音長、音色四種要素,語音同樣是這四種要素的統(tǒng)一體。

GO例:音高、音強、音長聲波頻率聲壓變化可以是周期性的和非周期性頻率概念循環(huán)(cycle)-壓縮/稀薄過程頻率(frequency):每秒cycle數(shù),單位hertz(Hz)周期–

cycle的持續(xù)時間(1/frequency)聲音信號一般由許多頻率不同的信號組成,稱為復(fù)合信號;而單一頻率的信號稱為純音信號。頻率范圍音頻(Audio)信號----人的聽覺器官能感知的聲音,頻率范圍約為20Hz~20000Hz;一般認為,語音信號中對于聽音辨義最有用的頻率成分在60-4000Hz之間,一般電話語音的頻帶在300-3400Hz之間。次聲波(subsonic)----頻率低于20Hz的信號;超聲波(ultrasonic)----頻率高于20kHz的信號。超聲波及次聲波一般不能引起人聽覺器官的感覺,但可借助一些儀器設(shè)備進行觀察和測量語音的物理屬性—音高

音高指聲音的高低,它取決于發(fā)音體振動的快慢(頻率)。發(fā)音體振動越快,發(fā)出的聲音越高,反之聲音則低。頻率的高低是由物體自身的質(zhì)量、松緊度、長短等項因素決定的,大而沉、粗而厚、長而松的物體振動慢,聲音低;小而輕、細而薄、短而緊的物體振動快,聲音高。語音的高低則與聲帶的長短、厚薄、松緊有關(guān)。通常,兒童和一般婦女的聲帶比成年男子的聲帶短而薄,所以聲音高;而聲音低的人的聲帶相對來說長而厚,如成年男子,女中、低音聲樂演員,老人等。同一個人發(fā)出的聲音有高低變化,則是靠控制聲帶的松緊來調(diào)節(jié)的。

跟音高對應(yīng)的物理量是頻率(基頻)語音的物理屬性—音強

音強是指聲音的強弱,它取決于發(fā)音體振動幅度的大小。振幅大,發(fā)出的聲音強度就大,振幅小,聲音就弱。振幅的大小由引起物體振動的外力的大小決定。語音的強弱同發(fā)音時呼出氣流量的大小和說話人用力的大小有關(guān)。發(fā)音時用力大,沖擊聲帶或其他發(fā)音部位的氣流強,語音就強。跟音強對應(yīng)的物理量是能量語音的物理屬性—音質(zhì)(音色)

音質(zhì)又叫音色,是一個聲音能區(qū)別于其他聲音的本質(zhì)特點。聲波的振動方式與共鳴器的共振作用,都決定著音質(zhì)的差別。

世界上的聲音很少是只有一種單純頻率的純音,絕大多數(shù)聲音都是由許多個頻率和振幅不同的聲波組成的復(fù)合音。復(fù)合音的各成分聲波之間頻率和振幅相互影響,形成了特定的波形,產(chǎn)生出特定的音質(zhì)。

從波形上看,音質(zhì)可分為兩類──噪音與樂音。噪音由許多無規(guī)則的音波合成,它們的音高和強度隨時在變化,相互之間沒有一定的關(guān)系,合成的波形雜亂而無規(guī)律。這種聲音聽起來刺耳、嘈雜,如剎車聲,電鋸鋸木聲,馬路上車馳笛鳴的喧鬧聲等等。語音中也有不少噪音成分,如輔聲中的塞音、擦音、塞擦音等等。

樂音由若干規(guī)則的純音組成,形成的復(fù)合音波有周期性,很有規(guī)律,這樣的聲音聽起來和諧、悅耳,歌聲、樂聲和語音中的元音,都是這樣的聲音。

語音的物理屬性—音質(zhì)從語音的產(chǎn)生上看,造成不同音質(zhì)的發(fā)音條件有三種:發(fā)音體不一樣,口琴和笛子的音質(zhì)不同,因為口琴的發(fā)音體是金屬簧片,笛子的發(fā)音體是竹膜。發(fā)音方法不一樣,拍手掌發(fā)出的是“啪啪”聲,兩手掌來回搓發(fā)出的是“擦擦”聲。在語音中,用阻礙氣流的方法發(fā)出的是輔音,用不阻礙氣流的方法發(fā)出是就是元音。共鳴器形狀不同。共鳴器有自己的振動頻率,它會同跟自己頻率相同或相近的音波產(chǎn)生共振,把它加強,其它頻率的音波就會被抑制或消耗。不同形狀的共鳴器頻率不一樣,產(chǎn)生的共振結(jié)果也不一樣。對于語音來說,口鼻腔就是共鳴器,一個人不斷改變口形就會發(fā)出不同的音。共鳴器形狀對語音音質(zhì)的區(qū)分還有另一方面的意義。倘若男女老少四人來發(fā)一個a音,他們的聲帶長短厚薄及韌性等各有差異,產(chǎn)生的音波肯定是不同形式的,但我們除了聽出是四個人的聲音外,總還是聽到了同一個韻母的音質(zhì)。語音的物理屬性—音長

音長指聲音的長短,也就是聲波延續(xù)的時間長度,它取決于發(fā)音體振動持續(xù)的時間。在語音中,再長的音實際上也很短,音長一般決定于發(fā)音動作持續(xù)的時間。

在四要素中,音高、音強、音色總是隨著聲波

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論