語音信號處理緒論課件_第1頁
語音信號處理緒論課件_第2頁
語音信號處理緒論課件_第3頁
語音信號處理緒論課件_第4頁
語音信號處理緒論課件_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、語音信號處理石 鈞2009.09第一章 緒論數(shù)字語音處理研究的內容語音處理的發(fā)展歷史語音信息的重要性 人類從大自然獲取信息的分布圖數(shù)字語音處理研究的內容語音信號處理的實質語音信號的數(shù)字表示語音信號數(shù)字處理的方法和技術數(shù)字語音處理的應用返回1.語音信號處理的實質1.實質:是研究用數(shù)字信號處理技術對語音信號進行處理的一門學科2.目的:通過處理得到一些反映語音信號重要特征的語音參數(shù)以便高效地傳輸或儲存語音信號所包含的信息。通過對語音信號進行某種運算以達到某種要求。1.語音信號處理的實質3.學科基礎:以語音語言學和數(shù)字信號處理為基礎而形成的一門涉及面很廣的學科,與心理學、生理學、計算機科學、通信與信息

2、科學、模式識別和人工智能等學科均有密切的關系。 返回2. 語音信號的數(shù)字表示語音表示方法的選擇要保存語音信號中的消息內容;表示形式要便于傳輸和存儲、變換和處理,不至于嚴重損害消息的內容,有用信息更易于被提??;2. 語音信號數(shù)字表示的優(yōu)點數(shù)字技術能完成許多很復雜的信號處理工作;語音可以看成是音素的組合,具有離散的性質,特別適合于數(shù)字處理;2. 語音信號的表示數(shù)字系統(tǒng)具有高可靠性、價廉、緊湊、快速等特點,很容易完成實時處理任務;數(shù)字語音適于在強干擾信道中傳輸,易于和數(shù)據(jù)一起在通信網(wǎng)中傳輸,也易于進行加密傳輸。語音信號的數(shù)字表示方法波形表示采樣和量化,保持波形參數(shù)表示激勵源和模型參數(shù)(第二章)3.

3、語音信號的數(shù)字處理方法語音信號的特點短時平穩(wěn)性短時時域處理方法短時能量、短時平均過零率以及短時自相關函數(shù)計算短時頻域分析短時傅立葉分析線性預測技術本質上屬于時域分析方法,但其結果可以是頻域參數(shù)倒譜和同態(tài)分析、矢量量化和隱馬爾可夫模型語音信號數(shù)字處理基本過程 以降低語音發(fā)音速率的處理過程為例4. 數(shù)字語音處理的應用語音壓縮和編碼語音通信數(shù)字化;語音合成自動報站、自動報時、自動警告、電話自動查詢和語音提示等;語音識別聲控應用、自動口語翻譯;說話人識別安全加密、銀行信息電話查詢服務以及破案和法庭取證;語音增強通常作為語音處理的前端。 各種語音產(chǎn)品返回語音處理的發(fā)展歷史1876年電話的發(fā)明,貝爾(Be

4、ll);1939年聲碼器的研制成功聲源聲道;1947年貝爾實驗室發(fā)明語譜圖儀語音識別研究的開始;50年代第一臺口授打字機和英語單詞語音識別器;60年代出現(xiàn)了第一臺以數(shù)字計算機為基礎的孤立詞語音識別器和有限連續(xù)語音識別器;語音處理的發(fā)展歷史70年代動態(tài)規(guī)劃技術、隱馬爾可夫模型、線性預測技術和矢量量化碼書生成方法用于語音編碼和識別;80、90年代語音處理技術產(chǎn)品化IBM Tangora-5和Tangora-20英語聽寫機,Dragon Dictate 詞匯翻譯系統(tǒng)(70000),漢語聽寫機。CMU語音組研制成功SPHINX系統(tǒng)(997,95.8%);國內,清華大學、中科院聲學所和中科院自動化所在漢

5、語聽寫機研究方面有一定成果。返回語音信號處理的概念語音信號處理簡稱語音處理,是以語音學和數(shù)字信號處理為基礎而形成的一門綜合性學科.處理的目的:是要得到一些語音參數(shù),以便高效的傳輸或存儲,或者通過處理的某種運算以達到某種用途的要求,例如人工合成出語音,辨識出說話者,識別講話的內容等。它包括語音編碼、語音合成、語音識別和說話人識別四大分支。語音的定義語音是人類發(fā)音器官發(fā)出的、具有一定意義的、能起社會交際作用的聲音。能夠代表一定的意義,這是語言的聲音同自然界其他一切聲音的本質區(qū)別。人體外的聲音自不必說(如鐘聲、風聲、動物叫聲、機器聲),就是人的發(fā)音器官發(fā)出的聲音,也并非都是語言。語音的定義如打噴嚏、

6、打嗝兒、打哈欠、咳嗽等等,雖然也傳遞出了某種信息病了,飽了,困了或是醒了,但聲音的發(fā)出不是為了交際,而是人體本能的生理反映;又如吹口哨、口技演員的表演、哭、笑等等,這些聲音的發(fā)出是有目的的,是一定的心理活動的表現(xiàn),不是單純的生理現(xiàn)象,但聲音同意義之間沒有固定的結合關系,不能成為代表意義的聲音符號,只能表示情緒,展示技巧。以上這些聲音都不是語言。語音的定義語言的聲音同它所代表的意義是相互依存的統(tǒng)一體,一方面,發(fā)音器官發(fā)出的聲音必須同意義緊密結合、成為一定意義的代表,才能成為語音;另一方面,意義必須借助聲音才能成為可被人感知、被人接受的東西,沒有聲音,意義便無法表達出來。語音的定義語音是一種具有多

7、重屬性的聲音。首先,它同自然界其他聲音一樣,是由物體振動產(chǎn)生聲波而形成的一種自然現(xiàn)象,所以它具有物理的屬性方面的自然屬性。語言又是人類的生理現(xiàn)象,發(fā)音是人體器官的動作。因此,它同時具有生理屬性。作為語言這一特殊社會現(xiàn)象的物質基礎,語音又具有社會屬性,這是語音的本質屬性。我們在分析語音現(xiàn)象的時候,這三種屬性都會涉及到。 語音學語音學是研究語音過程的科學,包括發(fā)音語音學、聲學語音學和聽覺語音學三大分支。發(fā)音語音學研究發(fā)音器官在發(fā)音過程中的運動和語音的音位特征;聲學語音學研究語音的物理屬性,如語音聲波的頻率、振幅以及頻譜特性等;聽覺語音學研究聽覺和語音感知。語音的屬性物理屬性 物體由于某種外力的作用

8、發(fā)生振動,并引起周圍空氣或其他媒介物質的振動,產(chǎn)生了振動波 聲波,聲波作用于耳鼓膜,使之產(chǎn)生同樣的振動,刺激聽覺神經(jīng),人就感覺到了聲音。語音也是這樣產(chǎn)生、傳遞與接收的。物理聲學認為聲波具有音高、音強、音長、音色四種要素,語音同樣是這四種要素的統(tǒng)一體。 聲波示意(L. A. Rowe )壓縮稀薄時間幅度正弦波聲波頻率聲壓變化可以是周期性的和非周期性頻率概念循環(huán)(cycle)- 壓縮/稀薄過程頻率(frequency):每秒cycle數(shù),單位 hertz (Hz)周期 cycle的持續(xù)時間 (1/frequency)聲音信號一般由許多頻率不同的信號組成,稱為復合信號;而單一頻率的信號稱為分量信號頻

9、率范圍頻率小于20Hz 一般稱為次聲波(subsonic)人的聽覺器官能感知的聲音頻率范圍約為20Hz20kHz的信號稱為音頻(Audio)信號人發(fā)音器官發(fā)聲頻率約是803400Hz,但人說話的信號頻率約為3003000Hz,即話音(speech)信號高于20kHz的信號稱為超聲波 (ultrasonic)超聲波及次聲波一般不能引起人聽覺器官的感覺,但可借助一些儀器設備進行觀察和測量語音的物理屬性音高 音高指聲音的高低,它取決于發(fā)音體振動的快慢。發(fā)音體振動越快,發(fā)出的聲音越高,反之聲音則低。物體每秒鐘振動的次數(shù)叫頻率,聲學把頻率作為測定物體振動快慢與聲音高低的標準。說聲音的頻率高就是說發(fā)音體在

10、單位時間里振動次數(shù)多,它振動得快,發(fā)出的聲音高,而頻率低也就表示聲音低。語音的物理屬性音高 頻率的高低是由物體自身的質量、松緊度、長短等項因素決定的,大而沉、粗而厚、長而松的物體振動慢,音低;小而輕、細而薄、短而緊的物體振動快,音高。語音的高低則與聲帶的長短、厚薄、松緊有關。通常,兒童和一般婦女的聲帶比成年男子的聲帶短而薄,所以聲音高;而聲音低的人聲帶相對說長而厚,如成年男子,女中、低音聲樂演員,老人等。同一個人發(fā)出的聲音有高低變化,則是靠控制聲帶的松緊來調節(jié)的。 典型聲門脈沖波形Tp為基音周期,倒數(shù)為基音頻率,用fp表示,取決于聲帶的尺寸和特性男性說話者的fp大致分布在60-200Hz范圍內

11、女性說話者和小孩的fp值在200-450Hz范圍內同一個人所發(fā)出的聲音有高低變化,是靠控制聲帶的松緊來調節(jié)的。語音的物理屬性音強 音強是指聲音的強弱,它取決于發(fā)音體振動幅度的大小。物體振動的幅度叫振幅,振幅大,發(fā)出的聲音強度就大,振幅小,聲音就弱。振幅的大小是由引起物體振動的外力的大小決定的。語音的強弱同發(fā)音時呼出氣流量的大小和說話人用力的大小有關。發(fā)音時用力大,沖擊聲帶或其他發(fā)音部位的氣流強,語音就強。語音的物理屬性音長 音長指聲音的長短,也就是聲波延續(xù)的長度,它取決于發(fā)音體振動持續(xù)的時間。在語音中,再長的音實際上也很短,音長一般決定于發(fā)音動作持續(xù)的時間。 語音的物理屬性音長 在四要素中,音

12、高音強音色總是隨著音波在時間上的延續(xù)表現(xiàn)出來的,音長的變化往往會影響到音質音高和音強,語音中就常會出現(xiàn)這種情況。發(fā)音,頭發(fā)如普通話的輕聲,讀輕聲的字,聲韻母的音質、聲調的音高、音節(jié)的強度都可能與讀它的本調時不同,但造成輕的決定性因素是音長縮短,輕聲字音節(jié)的長度只有重讀音節(jié)長度的一半左右,這使得聲韻調原有的音高音強音質來不及完全表現(xiàn),因而出現(xiàn)變化。 語音的物理屬性音質 音質又叫音色,是一個聲音能區(qū)別于其他聲音的本質特點。聲波的振動方式與共鳴器的共振作用,都決定著音質的差別。 世界上的聲音很少是只有一種單純頻率的純音,絕大多數(shù)聲音都是由許多個頻率和振幅不同的音波組成的復合音。復合音的各成分波之間頻

13、率和振幅相互影響,形成了特定的波形,產(chǎn)生出特定的音質。 語音的物理屬性音質 樂音則由若干規(guī)則的純音組成,形成的復合音波有周期性,很有規(guī)律,這樣的聲音聽起來和諧、悅耳,歌聲、樂聲和語音中的元音,都是這樣的聲音。 語音的物理屬性音質 從波形上看,音質可分為兩類噪音與樂音。噪音是由許多無規(guī)則的音波合成的,它們的音高和強度隨時在變化,相互之間沒有一定的關系,合成的波形雜亂而無規(guī)律。這種聲音聽起來刺耳、嘈雜。如剎車聲,電鋸鋸木聲,馬路上車馳笛鳴的喧鬧聲等等。語音中也有不少噪音成分,如輔聲中的塞音、擦音、塞擦音等等。 語音的物理屬性音質從音波的產(chǎn)生上看,造成不同音質的發(fā)音條件有三種:發(fā)音體不一樣,口琴和笛

14、子的音質不同,因為口琴的發(fā)音體是金屬簧片,笛子的發(fā)音體是竹膜。發(fā)音方法不一樣,拍手掌發(fā)出的是“啪啪”聲,兩手掌來回搓發(fā)出的是“擦擦”聲。在語音中,用阻礙氣流的方法發(fā)出的是輔音,用不阻礙氣流的方法發(fā)出是就是元音。語音的物理屬性音質共鳴器形狀不同。共鳴器有自己的振動頻率,它會同跟自己頻率相同或相近的音波產(chǎn)生共振,把它加強,其它頻率的音波就會被抑制或消耗。不同形狀的共鳴器頻率不一樣,即使是對同一束復合音波,產(chǎn)生的共振結果也不一樣。對于語音來說,口鼻腔就是共鳴器,一個人不斷改變口形就會發(fā)出不同的音。語音的物理屬性音質共鳴器形狀對語音音質的區(qū)分還有另一方面的意義。倘若男女老少四人來發(fā)一個a音,他們的聲帶

15、長短厚薄及韌性等各有差異,產(chǎn)生的音波肯定是不同形式的,但我們除了聽出是四個人的聲音外,總還是聽到了同一個韻母的音質。語音的物理屬性音質原因還在共鳴器的形狀。不同的人發(fā)同一個音時,口鼻腔形狀雖然不會絕對相同,但其形狀的基本特點是一致的,比如發(fā)a時都要把舌面壓低,口腔開大,舌根后部的咽腔相對窄小?,F(xiàn)在就是四束復合波與同一個形狀的共鳴器發(fā)生共振了,每人被共振加強的音波在絕對頻率上雖不見得一樣,但共振頻率分布的位置卻有共性,這使我們聽出了同樣的元音。在元音的識別中,音質并不決定于聲波的振動形式,而決定于共鳴器形狀對共振頻率的選擇。語音的物理屬性音質3.這也說明了在語音傳遞過程中,準確的發(fā)音動作有多么重

16、要,共鳴器形狀正是靠發(fā)音動作來調節(jié)的。 語音的生理屬性 人體沒有專門用來發(fā)音的器官,起發(fā)音作用的是呼吸器官和消化器官的一部分,它們的協(xié)同動作產(chǎn)生了語音。了解這部分器官的構造、活動方式及對語音的作用,是正確發(fā)音、辨音的基礎。 語音的生理屬性發(fā)音器官 發(fā)音器官可分三部分。 1 肺和氣管肺部呼吸產(chǎn)生的氣流是發(fā)音的動力,氣流通過氣管送到喉頭,沖擊聲帶或其他發(fā)音器官,使之振動,發(fā)出聲音。 肺本身不能自由擴張收縮,是依靠胸部腹部肌肉群的活動來進行呼吸的。這些肌肉群的活動還可以控制肺部吸入氣流量的大小、呼出氣流量的強弱及持續(xù)時間,影響聲音的強弱與長短。 語音的生理屬性發(fā)音器官 發(fā)音器官可分三部分。 2 喉頭

17、和聲帶氣管的頂端接著喉頭。喉頭由幾塊軟骨及它們相連的肌肉、韌帶組成,是個能活動的管腔體,聲帶就長在喉頭中間。 聲帶是一對唇形的韌帶,邊緣很薄,富有彈性。它一端合并固定在甲狀軟骨上,不能分開;另一端分別附在兩塊杓狀軟骨上。 杓狀軟骨小而靈活,能在肌肉牽引下轉動,使聲帶拉緊或放松,閉合或打開。 聲帶中間的空隙叫聲門,聲門有四種常見狀態(tài),語音的生理屬性發(fā)音器官 發(fā)音器官可分三部分。 2 喉頭和聲帶 聲帶中間的空隙叫聲門,聲門有四種常見狀態(tài),正常呼吸狀態(tài),聲門敞開,略呈三角形;深呼吸狀態(tài),聲門大開呈菱形;耳語狀,聲帶前半閉合后半接近,杓狀軟骨之間形成三角形空隙,叫氣聲門,氣流從這里擦出,基本不觸及聲帶

18、;發(fā)音狀態(tài),杓狀軟骨轉動向一起合,聲帶也并攏,聲門關閉 語音的生理屬性發(fā)音器官發(fā)聲狀態(tài)時聲門下的氣流受阻,壓力增加,氣流沖擊聲帶,聲帶被沖開又合上,再被沖開,再合上,這樣不停地開閉,形成有節(jié)奏的顫動。氣流從聲帶間一噴一噴地沖出來,產(chǎn)生了規(guī)律的周期波,這就是原始的聲帶音。聲帶音只是一種微弱的蜂鳴聲,我們是聽不見的,經(jīng)過咽腔、口腔、鼻腔的共鳴作用放大,我們才聽到響亮的樂音。聲帶的顫動是語音中樂音成分的聲源。語音的生理屬性發(fā)音器官聲帶還同語音的高低有密切關系。杓狀軟骨的轉動可以調節(jié)聲帶的松緊,聲帶繃緊時和放松時顫動的頻率是不一樣的,發(fā)出的聲音高低也不一樣。漢語中聲調的高低升降變化,就是通過控制聲帶松

19、緊來實現(xiàn)的。語音的生理屬性發(fā)音器官3 口腔、鼻腔、咽腔 這一部分器官既是聲帶音的共鳴器,又是語音中噪音成分的聲源。 喉頭到小舌之間的條狀空間就是咽腔,這是人類特有的。一般動物的聲門位置很高,聲門與口腔間幾乎沒有空腔。人的聲門位置較低,喉頭和口腔間距離拉長,形成了咽腔。有了它,舌頭和軟腭有了充分的活動空間,可以做出靈活多變的動作,發(fā)出動物發(fā)不出的復雜聲音。同時它還是口腔的延伸,是整個共鳴器的一部分。語音的生理屬性發(fā)音器官口腔是發(fā)音器官中活動最復雜的部分,除牙齒、牙齦、硬腭外,其余部位都可以活動。雙唇可做出開閉攏放各種動作,下唇還可以收回同上齒接觸。上腭后半部分的軟腭與小舌可以上升或下垂,它們的主

20、要作用是改變氣流方向。它們上升時,小舌抵住咽壁,擋住鼻腔通道,氣流進入口腔;下垂時,鼻腔通道打開,氣流可進入鼻腔。 語音的生理屬性發(fā)音器官舌頭是口腔中最活躍的部件,它柔軟而靈活,不僅整個舌頭可以前后上下移動,它的各部分(舌尖、舌面、舌根)都可以獨立活動。舌頭多變的動作是口腔形狀能出現(xiàn)豐富變化的重要條件。鼻腔不像口腔那樣可以變動,它是個形狀固定的共鳴腔,但當它與口腔連通時,口腔動作的改變也可以發(fā)出不同的鼻音。語音的生理屬性發(fā)音器官這部分器官通過復雜的動作不斷改變共鳴腔的形狀,用不同的共振把原始的聲帶音變成了我們聽見的各種聲音??谇贿€有一部分動作是由某些部位靠近或閉合,阻擋了氣流,氣流必須發(fā)力沖破

21、阻擋或從窄小的通道擠過去,才能到達口鼻腔外。在打通通道的同時,氣流就沖擊了阻擋它的部位,產(chǎn)生出不規(guī)則振動的噪聲波。這也就是語音中許多輔音的來源。語音處理研究的基本內容說的是什么內容?是誰在說話?計算機去說話?怎么把話說好?語音識別聲紋識別文語轉換說話水平評估說的是什么語言?語種識別語音信號處理的內容介紹一下語音學的基本知識語音產(chǎn)生模型清音、濁音的產(chǎn)生機理及特性語音的短時分析特性同態(tài)分析和線性預測分析目的:求得一組可以逼近聲道的特征矢量和相應的激勵信號序列話音編譯碼器A/D話音編碼信道編碼信道信道譯碼話音譯碼D/A語音合成(Text To Speech)定義:語音合成技術是指將文本信息轉換為語音

22、數(shù)據(jù),然后以語音的方式播放出來語音合成的應用:電話查詢業(yè)務、語音信箱、語音聊天室,公共汽車或電車的自動報站等語音合成與傳統(tǒng)的數(shù)字錄音技術不同數(shù)字錄音技術需要人工錄音,語音合成可以利用有限的系統(tǒng)資源將大量的、無限的文本信息轉換為語音。就工作量而言,錄音需要大量的人力,語音合成的大部分工作由計算機完成,只需要給出文本信息即可語音合成與傳統(tǒng)的數(shù)字錄音技術不同對于一些動態(tài)特別是要求實時性的信息,語音合成能夠進行實時轉換錄音信息的存儲、查詢、維護、修改不如語音合成方便。語音識別(Automatic Speech Recognition)定義:語音識別是指將人們說話的語音信號轉換為可以被計算機程序識別的文

23、字信息,從而識別說話人的語音指令以及文字內容應用:自動訂票系統(tǒng),電話查詢等語音識別的過程計算機語音識別的目的是讓計算機能夠聽懂人的話語音識別實際上是一個模式識別匹配的過程。首先根據(jù)人的語言特征建立語音模型,對輸入的語音信號進行分析,抽取相應的特征,建立所需要的模板,在識別過程中,將計算機中存放的語音模板與輸入的語音信號特征進行比較。語音識別的例子英國的Webflorists網(wǎng)上花站利用互聯(lián)網(wǎng)和語音識別技術接收和處理鮮花訂單。北京中科院研究一種將語音識別技術應用于電視,控制電視的開關和轉換頻道說話人識別技術(Speaker Recognition)定義:說話人識別技術是以話音對說話人進行區(qū)分,從

24、而進行身份鑒別與認證的技術,通過說話人識別可以利用人本身的生物特征進行身份鑒別。應用領域:公安部門進行語音驗證,為一般的用戶提供防盜門開啟功能,語音撥號,電話銀行,電話購物,語音E-mail,信息服務等說話認識別的基本原理通過分析人的發(fā)聲和聽覺,為每個人建立一個數(shù)學模型,然后由計算機對模型和實際輸入的語音進行精確的匹配,根據(jù)匹配的結果便人說話人是誰。語音的基本單位Phoneme (abstract, smallest)音素:清音,濁音 Morpheme 詞素 Syllable 音節(jié):元音和輔音構成;(聲母和韻母) Word 單詞 Phrase 短語 Sentence 句子 Paragraph 段落 Topics, Articles, Stories 主題文章 研究的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論