語音識別的特征參數(shù)的提取與研究的畢業(yè)論文_第1頁
語音識別的特征參數(shù)的提取與研究的畢業(yè)論文_第2頁
語音識別的特征參數(shù)的提取與研究的畢業(yè)論文_第3頁
語音識別的特征參數(shù)的提取與研究的畢業(yè)論文_第4頁
語音識別的特征參數(shù)的提取與研究的畢業(yè)論文_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

桂林航天工業(yè)學院畢業(yè)設計(論文)第PAGEI頁語音識別的特征參數(shù)的提取與研究的畢業(yè)論文目錄評語Ⅰ答辯記錄Ⅱ畢業(yè)設計任務書Ⅲ畢業(yè)設計開題報告Ⅳ中英文摘要V引言 11緒論 21.1語音識別發(fā)展歷史及發(fā)展趨勢 21.2語音識別系統(tǒng)的原理組成 31.3語音特征參數(shù)的提取在語音識別中的作用 42語音信號預處理 52.1語音信號的預加重 62.2語音信號的采樣與濾波 72.3語音信號的加窗與分幀 82.4語音端點檢測 92.4.1語音信號短時平均能量 102.4.2語音信號短時平均過零率 12 3語音特征參數(shù)提取 133.1線性預測倒譜系數(shù)LPCC 143.1.1線性預測分析 153.1.2線性預測倒譜分析 153.2MEL倒譜系數(shù)MFCC 163.2.1MEL頻率 163.2.2MFCC參數(shù)提取 173.2.3實驗仿真結果與分析 184結論 20謝辭 23參考文獻 24附錄 26桂林航天工業(yè)學院畢業(yè)設計(論文)PAGE29引言語音信號處理是語音學與數(shù)字信號處理技術相結合的交叉學科,它和認知科學、心理學、語言學、計算機科學、模式識別和人工智能等學科聯(lián)系緊密。語音信號處理技術的發(fā)展依賴于這些學科的發(fā)展,而語音信號處理技術的進步也會促成這些學科的進步。語音信號處理的目的是要得到某些語音特征參數(shù)以便高效地傳輸或存儲;或者是通過某種處理運算以達到某種用途的要求,如人工合成語音、辨識出講話者、識別出講話的內容等。語音合成技術、語音編碼技術及語音識別技術作為語音信號處理的三個分支。語言作為人類最重要的交流工具,是人類獲得信息的重要來源之一,讓計算機能“聽懂”人類的語言,也是人與計算機之間進行溝通最方便的形式之一。用語音來實現(xiàn)人與計算機之間的交互,主要包括三項技術,即語音識別、自然語言理解和語音合成。隨著計算機處理能力的迅速提高,語音識別技術得到了飛速發(fā)展。20世紀90年代,語音識別技術從實驗室走向應用,今天,語音識別技術受到了國內外研究機構的廣泛關注和高度重視,其應用也必將帶來良好的社會和經濟效益。1緒論人類的語言在人們的生活中起著極其重要的作用,人與人之間的交流方式有很多種,但是70%都是通過語音來有效的完成的。語音是人類相互之間進行交流時,使用最多、最自然、最基本的信息載體。與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。而語音識別技術就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹母呒夹g。1.1語音識別發(fā)展歷史及趨勢語音識別,就是讓計算機聽得懂人說的話,并能做出相應的處理,也是人機交互最重要的第一步。它是語音信號處理的一個重要研究方向,是模式識別的一個分支,它涉及到生理學、心理學、語言學、計算機科學、通信科學以及信號處理等諸多領域,甚至還涉及到人的體態(tài)語言。就語音識別技術而言,其基本任務是將輸入語音轉化為相應的文本或命令。語音識別的市場前景廣泛,在一些應用領域中正迅速成為一個關鍵的具有競爭力的技術。例如在聲控應用中,計算機識別輸入的語音內容,并根內容來執(zhí)行相應的動作,這包括聲控電話轉換、聲控語音撥號系統(tǒng)、聲控智能玩具、信息網絡查詢、家庭服務、賓館服務、醫(yī)療服務等等。語音識別也可用于將文字以口授的方式輸入到計算機中,即廣泛開展的聽寫機研究,如聲控打字機等。語音識別技術還可以用于自動口語翻譯,即通過將口語識別技術、機器翻譯技術、語音合成技術等相結合,可將一種語言輸入的語音翻譯成另一種語言的語音輸出,實現(xiàn)跨語言的交流。對說話人識別技術,近年來已經在安全加密、銀行信息電話查詢服務等方面得到了很好的應用。此外,在公安機關破案和法庭取證方面也發(fā)揮著重要的作用。語音識別技術的研究開始于上世紀40年代末,起初發(fā)展很慢。到了上世紀50年代初,當時AT&TBell實驗室實現(xiàn)了第一個可識別十個英文數(shù)字的語音識別系統(tǒng)——Audry系統(tǒng),也標志著語音識別技術的研究真正開始了。到了60年代,計算機應用更加的普遍,也推動了語音識別技術的發(fā)展,人們完成了幾項對今后20年語音識別發(fā)展產生重要影響的工作。到了70年代,語音識別領域取得了更大的突破在理論上,LP技術得到進一步發(fā)展,人們將在語音壓縮領域取得了巨大成功的線性預測編碼技術(LPC)引入了語音識別。動態(tài)時間歸整技術(DTW)基本成熟,并且在語音識別領域得到了全面的應用。80年代,語音識別研究更加的深入,語音識別領域出現(xiàn)了里程碑式的成果。進入90年代,多媒體時代的到來,人們對智能化的需求越來越迫切,這就要求語音識別系統(tǒng)走出實驗室走向市場。隨著科技的發(fā)展和人們對語音識別理論的逐漸深入化的研究,理論體系的日趨成熟,隨著數(shù)字信號處理技術的發(fā)展,在未來20年,語音識別技術將逐漸的進入工業(yè)、家電、通信、汽車電子、醫(yī)療以及各種電子設備中??梢钥隙ǖ卣f,語音識別技術必將成為未來信息產業(yè)中的一項關鍵的技術。但是也不可否認,它還有很長的一段路需要走,要真正的商業(yè)化,還需要在多方面取得突破性的進展,還需要借助于其它相關學科的發(fā)展。1.2語音識別系統(tǒng)原理的組成語音識別本質上是一種模式識別的過程,它主要包括語音信號預處理、特征提取、特征建模、測度估計、識別判決等幾個功能模塊。一個語音識別主要由學習和識別兩個過程組成,學習階段就是要采用語言的分析方法分析出某種識別方法所要求的語音特征參數(shù),這些參數(shù)被存儲起來作為模板。識別過程就是模式匹配的過程,它也是整個系統(tǒng)的核心,其作用是根據(jù)語音和不同的層面按照相應的準則求取待測語音特征參數(shù)和語音信息與模式庫中相應模板之間的測度,形成系最佳的識別輸出。語音識別基本結構預處理語音識別基本結構預處理特征提取模式匹配后處理語音模式庫圖1.11.預處理預處理包括預加重、反混疊濾波、模/數(shù)轉換、自動增益控制等處理過程,用于去除聲門激勵、口鼻輻射、高于1/2采樣頻率的高頻和噪聲信號的影響,實現(xiàn)語音信號的數(shù)字化。在語音識別中,預處理還包括在聲學參數(shù)分析之前正確選擇識別基本的問題。2.特征提取經過預處理后的語音信號,要對其進行特征提取,即特征參數(shù)分析。該過程就是從原始語音信號中抽取出能夠反映語音本質的特征參數(shù),形成特征矢量序列。3.語音模型庫語音模型庫即聲學參數(shù)模板,它是用聚類分析等方法,從一個講話者或多個講話者的多次重復的語音參數(shù),經過長時間的訓練得到的。4.模式匹配將輸入語音的特征參數(shù)同訓練得到的語音模式庫進行比較分析,從而得到初步識別結果。根據(jù)模式識別方法的不同,用于語音識別系統(tǒng)時有統(tǒng)計模式識別法和句法模式識別法兩類。統(tǒng)計模式識別法:建立在最大似然決策貝葉斯判決基礎之上,大致的識別過程是:首先,提取語音的特征,并訓練識別用的參數(shù)模板;然后,利用可以衡量未知模式和參考模式的似然度來測量函數(shù);最后,選用一種最佳準則及專家知識作為識別決策,對識別候選者進行最后判決,得到最好的識別結果作為輸出。(2)句法模式識別法:類似于文章中的句法分析。它不僅應用于語音識別,還廣泛的應用于手寫文字及圖像的識別上。5.后處理在大詞匯量連續(xù)語音識別系統(tǒng)中,為了提高識別正確率需要使用語言模式,利用語言識別單位之間連接時的相互制約關系,采取統(tǒng)計方法與語法相結合的方法建立語言模型,達到限制識別器譯碼時的自由度,提高系統(tǒng)的性能。目前后處理在嵌入式語音系統(tǒng)中還很難使用。1.3語音特征參數(shù)的提取在語音識別中的作用語音特征參數(shù)的提取是語音識別的一個重要步驟。所謂特征提取,即對不同的語音尋找其內在特征,由此來差別出未知語音,所以每個語音識別系統(tǒng)都必須進行特征提取。特征的選擇對識別效果至關重要,選擇的標準應體現(xiàn)對異音字之間的距離盡可能大,而同音字之間的距離應盡可能小。同時還要考慮特征參數(shù)的計算量,應在保持高識別率的情況下,盡可能減少特征以減小存儲要求和利于實時實現(xiàn)。孤立詞語音識別系統(tǒng)的特征提取一般需要解決兩個問題,一個是從語音信號中提取(或測量)有的合適的特征參數(shù);另一個是進行適當?shù)臄?shù)據(jù)壓縮。而對于非特定人語音識別來講,則希望特征參數(shù)盡可能多地反映主義信息,盡量減少說話人的個人信息。計算機語音識別是一個模式識別匹配的過程。在這個過程中,計算機首先要根據(jù)人的語音特點建立語音模型,對輸入的語音信號進行分析,并抽取所需的特征參數(shù),在此基礎上才能建立語音識別所需的模板。而計算機在識別過程中要根據(jù)語音識別的整體模型,將計算機中存放的語音模板與輸入的語音信號的特征進行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入的語音匹配的模板,求出識別結果。顯然,這種最優(yōu)的結果與特征的選擇、語音模型和語言模型的好壞、模板是否準確等都有直接的關系。因此,語音的特征提取在語音識別處理中具有舉足輕重的作用。語音的特征提取實質上是起降維的作用,用較少的維數(shù)來表示說話人的特征。常用的語音特征包括Pitch(基音)、Formant(共振峰)、LPCC(線性預測倒譜系數(shù))、MFCC(Mel頻率倒譜系數(shù))。近幾年,科學工作者在研究語音識別時,用的最多的特征提取方法就是基于線性預測倒譜系數(shù)方法。語音信號完成分幀處理和端點檢測后,下一步就是特征參數(shù)的提取。在語音識別中,我們不能將原始波形直接用于識別,必須通過一定的變換,提取語音特征參數(shù)來進行識別,而提取的特征必須滿足:1.特征參數(shù)應當反映語音的本質特征,對于非特定人語音識別,特征參數(shù)則應盡量不含有說話人的信息。2.特征參數(shù)各分量之間的耦合應盡可能地小,以起到壓縮數(shù)據(jù)的作用。3.特征參數(shù)要計算方便,最好有高效的算法。語音特征參數(shù)可以是能量、基音頻率、共振峰值等語音參數(shù),目前在語音識別中較為常用的特征參數(shù)為線性預測倒譜系數(shù)(LPCC)與Mel倒譜系數(shù)(MFCC)。二者都是將語音從時域變換到倒譜域上,前者從人的發(fā)聲模型角度出發(fā),利用線性預測編碼(LPC)技術求倒譜系數(shù)。后者則構造人的聽覺模型,以語音通過該模型(濾波器組)的輸出為聲學特征,直接通過離散傅利葉變換(DFT)進行變換。2語音信號預處理在語音信號進行分析和處理之前,必須要對所采集的語音信號進行預處理。預處理階段包括語音的采樣、量化、反混疊濾波、預加重、加窗、及端點檢測等。由于語音信號的平均功率譜受聲門激勵和口鼻輻射的影響,高頻端大約在8000以上按6dB/倍頻程跌落,為此要在預處理中進行預加重。預加重的目的是提升高頻部分,使信號的頻譜變得平坦,以便于進行頻譜分析或聲道參數(shù)分析。預加重可在A/D變換前,在反混疊濾波之后進行,也可在A/D變換之后進行。用具有6dB/倍頻程的提升高頻特性的預加重數(shù)字濾波器實現(xiàn),它一般是一階的,即:(2-1)式中,值接近1,典型值為0.96。由于語音信號是非平穩(wěn)過程,是時變的,但是人的發(fā)音器官的肌肉運動速度較慢,所以語音信號可以認為是局部平穩(wěn)的,或短時平穩(wěn)。因此,語音信號分析常分段或分幀來處理,一般每秒的幀數(shù)約為33-100,視實際情況而定,分幀既可以是連續(xù)的,也可用交疊分段的方法,在語音信號分析中常用“短時分析”表述。短時分析實際上是用一個窗截取信號。數(shù)字信號處理理論告訴我們,兩個信號的時域相乘,在頻域相卷積,如果采用矩形窗,則矩形窗頻譜高頻成分必將影響語音信號的高頻部分,一般用高頻分量幅度較小的窗型,以避免這些影響。對語音信號的各短段進行處理,實際上就是對各短段進行某種變換或施以某種運算。設該變換用符號表示,它可以是線性或非線性的,可以是時不變的或者時變的,所有各段經處理后可以得到時間序列,用表示:(2-2)2.1語音信號的預加重預加重的目的是為了提高信號中的高頻成分,語音信號的高頻成分幅值比較低,為了提高高頻分量的作用,有必要將其提升使得整個信號的頻譜比較平坦。此外還能抑制隨機噪聲。其方法是將原始信號通過一個一階FIR高通數(shù)字濾波器: (2-3)在時域內它可表示為(0.9<k<1)(2-4)圖2.1為k取0.98時所得高通濾波器的幅頻特性和相頻特性曲線。圖2.2分別為預加重前和預加重后的一段濁音信號時域波形及頻譜。從圖中可以看出,預加重后的頻譜在高頻部分的幅度得至了提升。圖2.1預加重濾波器的幅頻特性和相頻特性圖2.1預加重濾波器的幅頻特性和相頻特性

圖2.2預加重前后濁音信號及頻譜2.2語音信號的采樣與濾波圖2.2預加重前后濁音信號及頻譜模擬語音信號是連續(xù)信號,無法被計算機處理,所以語音信號處理的第一步,就是要將模擬信號轉換成數(shù)字信號。因此,必須經過取樣和量化兩個步驟,從而得到時間和幅度上均為離散的數(shù)字語音信號。根據(jù)Nyquist采樣定理,當取樣頻率大于語音特征參數(shù)提取方法研究頻率信號的兩倍帶寬時,取樣過程中不會丟失信息,且從取樣信號中可以精確地重構原始信號波形。通常電話語音地頻率范圍大約是60-3400Hz左右,一般說來,電話語音的采樣率為8kHz(G.711標淮),正常人語音的頻率一般在40一4000Hz的范圍內。成年男子的語音頻率較低,婦女和兒童的語音頻率較高。就語音信號而言,濁音語音的頻譜一般在4kHz以上便迅速下降,而清音語音信號的頻譜在4kHz以上頻段反而呈上升趨勢,甚至超過了8kHz,以后仍然沒有明顯下降的趨勢。因此為了精確表示語音信號,一般認為必須保留10kHz以下的所有頻譜成分,這意味著采樣頻率應當?shù)扔诨虼笥?0kHz。但是在許多實際應用中并不需要采用這么高的取樣頻率,實驗表明對語音清晰度和可懂度有明顯影響的成分,最高頻率約為5.7kHz。例如ITU(IntemationalTelecommunicationUnion國際電信聯(lián)盟)G.729中提出的語音編解碼系統(tǒng)采樣頻率為8kHz,只利用3.4kHz以內的語音信號分量,雖然這樣的采樣頻率對語音清晰度是有損害的,但受損失的只是少數(shù)輔音,而語音信號本身的冗余度又比較大,少數(shù)輔音清晰度下降并不明顯影響語句的可懂度。因此語音識別時常用的采樣頻率為8kHz,10kHz或16kHz??紤]到高頻噪聲的存在,為了防止頻率高于二分之一采樣頻率的高頻噪聲產生頻譜混疊,通常語音信號在采樣前要進行一次預濾波以濾掉高頻噪聲。預濾波還有一個目的是避免50Hz的電源干擾,因此預濾波要用一個帶通濾波器,其截止頻率由語音信號帶寬決定,并且希望其帶內波動和帶外衰減特性盡可能好。在實際應用中,常常希望從一個輸入信號中提取或增強所需要的頻率分量,濾除或衰減某些不需要的頻率分量,這個處理過程稱為信號的濾波。由于線性時不變系統(tǒng)的響應頻譜等于系統(tǒng)激勵信號頻譜和系統(tǒng)頻率響應的乘積,因此,只要適當選擇系統(tǒng)的頻率響應特性,就可以實現(xiàn)信號的濾波功能。

在線性時不變系統(tǒng)中,濾波是一個重要的應用,這方面的例子有很多,例如,在音響設備中,音樂欣賞者可根據(jù)自己的愛好,通過均衡器來調節(jié)聲音中高低頻分量的相對大小。又如,在無線廣播中,聽眾可根據(jù)自己的需要調節(jié)收音機上的電臺調諧按鈕,選擇自己想要收聽的電臺。這些功能都是通過信號濾波來實現(xiàn)的。濾波同樣可用于離散時間信號,在經濟數(shù)據(jù)序列的分析中也常常使用離散時間濾波器。例如,在股票市場上,股票價格的長期變化和短期變化一般具有不同的意義,往往需要將它們分開來進行單獨的研究。這里,股票價格的長期變化相應于低頻分量,它反映了較慢的變化規(guī)律;而短期變化則相應于高頻分量,它反映了較快的變化行情。為了分別對長期變化和短期變化進行單獨的研究,可以用離散時間濾波器來完成這一工作。此外,為了消除意外的隨機波動(這些隨機波動一般相應于高頻分量),也可以用離散時間濾波器對數(shù)據(jù)序列進行平滑濾波。信號的濾波包含有許多方面,例如濾波器的設計和實現(xiàn)等,濾波的基本概念是直接在傅里葉變換的概念和性質的基礎上建立起來的,因此,對濾波的討論不僅介紹傅里葉變換的一個重要的應用領域,而且,這種討論的本身也可加深對傅里葉變換的重要性及其性質的理解。2.3語音信號的加窗與分幀在對語音信號進行短時分析的過程中,信號流的處理用分幀或分段來實現(xiàn)。一般每秒的幀數(shù)為33-100,視實際情況而定。分幀即可連續(xù),也可采用交疊分段的方法。用可以移動的有限長度窗口進行加權的方法來實現(xiàn)。通常我們采用一個長度有限的窗函數(shù)來截取語音信號形成分析幀,數(shù)學形式如式:(2-5)語音信號常??杉俣ㄔ?0-20ms這樣的時間段內,語音信號是平穩(wěn)信號,其頻譜特性和某些物理特征參量可近似地看作是不變的,這樣,幾乎所有語音信號處理的方法都是基于這個假定,并且我們可以將平穩(wěn)過程的處理方法和理論引入到語音信號的短時處原始語音信號采樣序列為X(m),移動窗,T[]是對語音信號的某種變換,該變換可以是線性的,也可以是非線性的。例如T[]為時,相當于短時能量(抽樣點僅為N個點);時,為短時平均過零率。圖2.3漢明窗及其頻譜由于人自身的發(fā)音器官的運動,語音信號是一種典型的非平穩(wěn)信號,其特性是隨時間變化的信號。由于發(fā)聲器官的慣性運動,可以認為在一小段時間里(一般為10-30ms)語音信號近似不變,即語音信號具有適時平穩(wěn)性。在語音信號處理方理中,將語音信號分成若干個短段,每一個短時的語音段稱為一個分析幀,每個分析幀就好像是從一個具有固定特性的持續(xù)語音中截取出來的,對該分析幀進行處理就相當于對固定特性的持續(xù)語音進行處理,分析幀可以是連續(xù)的,也可以采用交疊分幀的方法。經過處理后將從原始語音序列產生一個新的依賴于時間的序列,被用于描述語音信號的特征。通常用一個長度有限的窗函數(shù)來截取語音信號形成分析幀,窗函數(shù)w(n)將需處理區(qū)域之外的樣點置零來獲得當前的語音幀,理想窗函數(shù)的頻率響應要求主瓣無限狹窄且沒有旁瓣(即無頻譜泄漏),但這種窗函數(shù)在實際工程中是無法實現(xiàn)的。常用的窗函數(shù)有Hamming窗。圖2.3是漢明窗的時域波形及幅頻特征。從圖中可以看出,Hamming窗的旁瓣衰減較大,能夠在較高的程度上反映適時信號的頻率特性。圖2.3漢明窗及其頻譜2.4語音端點檢測顧名思義,端點檢測的目的就是為了去掉語音信號中的靜音段,將有用信號的起點檢測出來。為了達到這樣的目的,主要要利用語音信號的兩個參數(shù)。一個是語音信號的短時幅度,另一個是短時過零率。它們的定義分別為:短時幅度(2-6)其中n為一幀信號開始的時刻,N為一幀信號中的采樣點數(shù)。短時過零率:(2-7)同樣,n為一幀信號的開始時刻,N為一幀信號中的采樣點數(shù)。有效的端點檢測不僅能使處理時間減到最少,而且能排除無聲段的噪聲干擾,從而使處理質量得到保證。端點檢測的困難在于無聲段或者發(fā)音前后人為呼吸等產生的雜音,使得語音的端點比較模糊。一般來說,要對高信噪比情況下錄制的語音鑒別端點是很容易的事,此時背景噪聲的能量遠遠低于語音能量,因此僅憑能量特征就可以很好的確定語音的起點和終點。但是,實際的應用中很難達到這么高的信噪比,所以不能僅憑能量來判斷,當端點處是弱摩擦音或弱爆破音,以及終點處是鼻音時,此時的能量很弱,極易與背景噪聲混淆,造成端點檢測不精確,檢測出來的語音就會不完整,影響識別的效果。為了解決這些問題,常常采用多種特征參數(shù)綜合的方法來檢測語音的始末點。端點檢測對于語音識別有著重要的意義。在孤立詞識別中,確定單詞語音信號的開始和終止可以減少非實時系統(tǒng)中的大量計算:連續(xù)語音識別中識別基元(字詞、音節(jié)、聲韻母)的切分,可用于語音數(shù)據(jù)庫訓練。實驗統(tǒng)計數(shù)字表明,起始點(beginningpoint)和終點(endpoint)的偏離對語音識別最終準確性影響明顯:30ms內的偏移對應精確度下降2%,當超過90ms時,影響達到30%。語音作為人類最自然、最直觀的信息載體,它必將成為未來人機交互界面的主要控制方式。而語音端點檢測就是從一段原始語音信號中通過一定的技術手段檢測出有用的語音成分進而進行其他語音信號處理。它是語音分析、語音合成和語音識別等語音信號處理中的最初始最基本的環(huán)節(jié)也是最重要的環(huán)節(jié)。在實際應用中,通常首先要對真正含有語音成分信號的起始點進行判定,如此收集到的真正語音數(shù)據(jù)可以大大減少后期處理的運算量和存儲空間,并能更減少處理時間。在噪聲環(huán)境下,端點檢測的準確性直接影響語音識別率。2.4.1語音信號短時平均能量 信號流的分幀是采取可移動的有限長度的窗口進行加權的方法實現(xiàn)。因此,我們可以定義以為標志的某幀語音信號的短時平均能量,如下式所示:(2-8)對短時能量有如下兩種解釋:(1)首先計算原始語音信號各個采樣值的平方,然后通過一個激勵響應為的濾波器,最后輸出能量序列,這里中。(2)首先計算原始語音信號各個采樣值的平方,然后用一個移動窗選取出一個一個的短時平方序列,并將各短段的平方值求和得到短時能量序列。不同窗函數(shù)的選擇將決定短時平均能量的性質。一般窗函數(shù)是中心對稱的,用得比較多的是矩形窗和哈明窗。選擇的原則是:使得短時能量既能及時跟蹤語音能量的緩變規(guī)律,同時又要對語音振幅一個基數(shù)周期周期內的瞬間變化有顯著平滑的作用。短時平均能量的主要用途是:1.可以區(qū)分清音段與濁音段,因為濁音時E。值比清音時大得多。2.可以用來區(qū)分聲母與韻母的分界,無聲與有聲的分界,連字的分界等。對于高信噪比的語音信號,E用來區(qū)分有無語音。此時,無語音信號的噪聲能量很小,而有語音信號的E顯著地增大到某一個數(shù)值,由此可區(qū)分語音信號的開始和終止點。3.作為一種超音段信息,用于語音識別中。圖2.4不同窗長,矩形窗和漢明窗短時量圖2.4不同窗長,矩形窗和漢明窗短時量2.4.2語音信號短時平均過零率信號的幅度值從正值到負值要經過零值,從負值到正值也要經過零值,稱其為過零,統(tǒng)計信號在一秒鐘內有幾次過零,就稱為過零率,這一秒鐘就是一個單位時間(還可以有其他單位時間)。如果信號按段分割,就稱為短時,把各段信號的過零率作統(tǒng)計平均年,就是短時平均過零率。語音信號X(n)的平均過零率:(2-9)式中,是符號函數(shù)短時平均過零率在語音信號分析中應用最多的是清/濁音判決。發(fā)濁音時身帶振動,這個振動頻率的聲壓波在聲道中共振,盡管有若干個共振峰,但其能量集中于低于3KHz的頻率范圍內;反之,發(fā)清音時,身帶不振動,聲道的某部分阻塞氣流產生類白噪聲,其能量集中于較高的頻率范圍。因此用過零率可以定量地分析清/濁音。圖2.5一句語音的短時平均能量及短時平均過零率短時過零率可應用于語音信號分析中。對于濁音語音,盡管聲道有若干個共振峰,但是由于聲門波引起了譜的高頻跌落,所以其語音能量約集中于3kHz以下。而對于清音語音時,多數(shù)能量出現(xiàn)在較高頻率上。高頻率對應著高的平均過零率,低頻率對應著低的平均過零率,那么可以認為濁音時具有較低的平均過零率,而清音時具有較高的平均過零率。利用短時平均過零率可以從背景噪聲中找出語音信號,可用于判斷寂靜無語音和有語音的起點和終點位置。在孤立詞語音識別中,必須要在一連串連續(xù)語音信號中進行適當?shù)姆指?,可以確定一個一個單詞的語音信號,即找出每一個單詞的開始和終止位置。另外,在背景噪聲較小時用平均能量識別較為有效,而在背景噪聲較大時用平均過零數(shù)識別較有效。圖2.5一句語音的短時平均能量及短時平均過零率短時平均過零率作為“頻率”來理解,在處理多頻率帶通信號的“頻率”特征方面有效。如果把語音信號用多通道帶通濾波器分割,統(tǒng)計每個子帶波形的短時平均過零率和短時平均能量,實質上就是對語音信號作頻域分析。圖2.5是一句語音的短時平均能量及短時平均過零率的仿真圖,從圖上可以看出,濁音信號的過零率低,清音信號的過零率高,噪聲的過零率高,一般在語音信號的清濁音判別時可采用短時平均能量與短時過零率結合來判斷,以降低誤判率。3語音特征參數(shù)提取語音信號完成分幀處理和端點檢測后,下一步就是特征參數(shù)的提取。在語音識別中,我們不能將原始波形直接用于識別,必須通過一定的變換,提取語音特征參數(shù)來進行識別,而提取的特征必須滿足:1.特征參數(shù)應當反映語音的本質特征,對于非特定人語音識別,特征參數(shù)則應盡量不含有說話人的信息。2.特征參數(shù)各分量之間的耦合應盡可能地小,以起到壓縮數(shù)據(jù)的作用。3.特征參數(shù)要計算方便,最好有高效的算法。語音特征參數(shù)可以是能量、基音頻率、共振峰值等語音參數(shù),目前在語音識別中較為常用的特征參數(shù)為線性預測倒譜系數(shù)(LPCC)與Mel倒譜系數(shù)(MFCC)。二者都是將語音從時域變換到倒譜域上,前者從人的發(fā)聲模型角度出發(fā),利用線性預測編碼(LPC)技術求倒譜系數(shù)。后者則構造人的聽覺模型,以語音通過該模型(濾波器組)的輸出為聲學特征,直接通過離散傅利葉變換(DFT)進行變換。語音特征參數(shù)提取是在語音預處理和語音端點檢測之后進行,語音特征的選擇與提取是語音識別的一個重要環(huán)節(jié)。原始的語音信號是時域上的連續(xù)波形,含有大量的冗余信息。如果直接對其進行數(shù)據(jù)處理,既費時費力也會對識別率產負面影響。所以,提取出語音信號中最能體現(xiàn)語音特征的參數(shù)是有效提高語音識別率至關重要的一步。提取語音特征的目的就是去掉原始語音信號的冗余部分,把最能體現(xiàn)語音本質的特征參數(shù)提取出來,并且突出那些對辨別語音有利的信息。此后的所有處理都是對語音特征參數(shù)的處理。特征提取是幾乎所有模式識別研究必須要面對的問題。人們早在上世紀40年度就提出了”visiblespeech”的概念,它指的是語譜圖對語音信號的描述問題。因此語譜信息被作為語音特征參數(shù)較早的應用于語音識別,至今仍有人提取語譜信息作為語音特征。進入50年代,隨著人們研究的深入,相繼提出了幅度、短時幀平均能量、短時幀過零率、短時自相關系數(shù)、平均幅度差函數(shù)等語音特征。隨著識別技術的發(fā)展,人們發(fā)現(xiàn)時域中的特征參數(shù)的穩(wěn)定性和區(qū)分能力都不是很好,于是開始利用頻域參數(shù)作為語音信號的特征,比如頻譜、共振峰、線性倒譜對等??偟膩碚f,提取的語音特征參數(shù)要滿足如下條件:(1)特征參數(shù)必須反映語音的本質特征,即特征參數(shù)必須是語音所包括的一般特性,對于非特定人的語音識別,特征參數(shù)中要盡可能的不包括說話人的特征信息。(2)特征參數(shù)各個分量之間的耦合要盡可能的小,以起到壓縮數(shù)據(jù)的作用。當前,較為常用的特征參數(shù)包括線性預測分析頻譜(LPC)、線性預測分析倒譜(LPCC)、Mel頻率倒譜系數(shù)(MFCC)、對數(shù)倒頻譜(LSF)、基頻(Pitch)、共振峰(Formant)等。然而在這些特征參數(shù)中,LPCC參數(shù)缺點是對噪聲影響敏感。由于語音信號的多變性,基頻特征的提取存在許多困難。共振峰作為語音參數(shù)存在虛假峰值以及相鄰共振峰靠太近難以分辨而帶來的不利影響等問題。綜合考慮特征參數(shù)的魯棒性和實際要求,目前最常用是基于人耳聽覺的MFCC參數(shù),它在有信道噪聲和頻譜失真的情況下具有較好的穩(wěn)健性,是目前語音識別研究中最常用的特征參數(shù),它運用了人耳聽覺感知方面的研究成果,用于語音識別有非常不錯的識別率。3.1線性預測倒譜系數(shù)LPCC一個遞歸數(shù)字濾波器可以采取多種不同的結構實現(xiàn),例如直接法、鏈接法和格形法等,相應地就有多種不同的濾波器參數(shù),但它們所實現(xiàn)的濾波器都是等價的。線性預測分析法求得的是一個全極點的系統(tǒng)函數(shù),形式上也是一個遞歸濾波器。在全極點語音產生模型假定下,這個濾波器被稱為聲道濾波器。也存在多種不同的參數(shù)表達方法,這些參數(shù)一般可看作是由線性預測系數(shù)推演出來的,但它們各有不同的物理意義和特性。其中最常用的是線性預測倒譜系數(shù)LPCC,倒譜實際上是一種同態(tài)信號處理方法。語音信號分析過程中經常要用到一個重要的語音產生模型—聲道模型。聲道模型是將人從喉到嘴唇這一段發(fā)音腔體用一系列截面積不同的均勻聲管來模擬。根據(jù)聲管的聲學模型,利用物理學知識,我們可以計算出這段聲管模型與信號處理中的全極點模型相類似。因此,我們可以應用信號處理中已有的算法對其進行處理。在這個語音產生的聲道模型中,語音中的濁音部分可以認為是由一連串有規(guī)律的周期信號(此周期與濁音的基音周期相吻合)來激勵不同形狀的聲道模型而產生;而清音部分則被認為是由一連串無規(guī)律的白噪聲信號激勵聲道模型而產生的。因此,若能準確地估計出聲道的形狀或模型參數(shù),我們就有望用此模型參數(shù)作為語音信號的特征來完成語音信號的識別任務。數(shù)字信號處理中,可以用LPC(線性預測編碼)的算法來估計出此全極點模型的參數(shù)。線性預測是最佳線性向前一步預測,語音信號線性預測的基本思想是:語音信號的每個取樣值,可以用它過去若干個取樣值的加權和(線性組合)來表示;各加權系數(shù)的確定原則是使預測誤差的均方值最小。在語音識別系統(tǒng)中,利用同態(tài)處理方法,通過對LPC系數(shù)求離散傅立葉變換(DFT)后取對數(shù),再求反變換DFT可得到線性預測倒譜系數(shù)LPCC[14][20]。3.1.1線性預測分析語音信號序列是一個隨機序列,其穩(wěn)態(tài)系統(tǒng)函數(shù)為:(3-1)把模型成一個階的AR過程序列 。對于濁音,系統(tǒng)受沖激序列的激勵,各種激勵之間的間隔為音調周期;對于清音,則受白噪聲序列激勵,它可簡單地由一個隨機數(shù)發(fā)生器完成。參考模型是現(xiàn)代譜估計的主要內容,經常采用的模型有三種:(1)自回歸線(AR)模型是一個全極點的模型;(2)移動平均模型(MA)是一個全零點模型;(3)自回歸線-移動平均模型(ARMA)是一個既有零點又有極點的模型。從數(shù)字信號處理的知識可知,AR模型易反應頻譜中的峰值,MA模型異反映頻譜中的谷值,而ARMA模型可以同時反映兩者??紤]到求解AR模型的正則方程是一組線性方程,而求解MA和ARMA的模型是非線性方程,因此在實際處理中,應用比較廣泛的是AR模型。又由于AR模型可以與基于級聯(lián)無損聲管的語音產生模型相聯(lián)系,因此在語音處理中它被廣泛采用的模型;而與相關的線性預測分析也是語音信號處理中普遍采用的核心技術之一。根據(jù)數(shù)字信號處理的知識可知,一個p階的AR模型總是等效于一個p階的線性預測器。因此目前提出的AR模型系數(shù)的求解,以及AR模型性能的討論大都建立在線性預測理論基礎上的。對語音信號進行線性預測分析的基本思想是:一個語音的采樣能夠用過去若干個語音采樣的線性組合來逼近。通過使線性預測到的采樣在最小均方誤差意義上逼近實際語音采樣,可以求取一組唯一的預測系數(shù)。這里的預測系數(shù)就是線性組合中所用的加權系數(shù)。這種能夠線性預測分析最早用于語音編碼中,因此常被簡稱為LPC3.1.2線性預測倒譜分析1947年,維納首次提出了線性預測(LinearPrediction,LP)這一名詞,并且在1967年,板倉等人將該技術應用在語音分析和合成中,開辟了語音識別技術的新思路。線性預測分析是從人的發(fā)聲機理入手,通過對聲道的短管級聯(lián)模型的研究,認為系統(tǒng)的傳遞函數(shù)符合全極點數(shù)字濾波器的形式,n時刻的信號可以用若干時刻的信號的線性組合來估計。由聲學理論可知,除鼻音和摩擦音外,一般聲道系統(tǒng)H(z)可用全極點模型來模擬:(3-2)其中P為預測器階數(shù),G為非負實數(shù),用于控制系統(tǒng)輸出序列s(n)的幅度大?。籄(z)稱為逆濾波器,其物理意義是進行反向線性預測。線性預測分析的基本思想是:利用語音抽樣點之間的相關性,一個語音的抽樣能用過去若干個語音抽樣的線性組合來逼近。在某個準則下,使實際語音抽樣和線性預測之間的差值最小來確定一組預測系數(shù)。這個準則通??梢圆捎米钚【秸`差準則。那么,語音信號的線性預測是指:語音信號的每個抽樣值,可以用它過去的若干個抽樣值的加權和來表示;這個加權系數(shù)的確定原則就是使得預測誤差的均方值最小。P階線性預測就是根據(jù)信號過去的P個抽樣值{s(n-1),s(n-2),...,s(n-p))的加權和來預測信號的當前抽樣值s(n)。在語音識別系統(tǒng)中,LPC系數(shù)是線性預測分析的基本參數(shù),很少直接使用LPC系數(shù),而是另一種由LPC系數(shù)推導出的另一種參數(shù):線性預測倒譜系數(shù)。研究表明,求倒譜可以提高參數(shù)的穩(wěn)定性,它可以將語音產生模型中激勵信號與聲道響應信號很好的分離。它是利用同態(tài)處理法,對語音信號求離散傅立葉變換后取對數(shù),再求反變換IDFT就能夠得到。實驗表明,使用倒譜參數(shù)可以提高特征參數(shù)的穩(wěn)定性。3.2MEL倒譜系數(shù)MFCCMEL倒譜系數(shù)(MelFrequencyCepstrumCoefficient)的提出是基于人的聽覺模型,MEL是音高單位,音高是一種主觀心理量,是人類聽覺系統(tǒng)對聲音頻率的感覺,近似公式可以表述為: (3-3)根據(jù)生理學的研究結果,人耳對不同頻率的聲波有不同的聽覺靈敏度,從200Hz到5kHz之間的語音信號對語音的清晰度影響最大。低音掩蔽高音容易,反之則難,在低頻處的聲音掩蔽的臨界帶寬較高頻端要小,當兩個頻率相近的音調同時發(fā)出時,人只能聽到一個音調,臨界帶寬就是這樣一種令人的主觀感覺發(fā)生突變的帶寬邊界,MEL刻度是對這一臨界帶寬的度量方法之。據(jù)此,人們從低頻到高頻這一段頻帶內按臨界帶寬的大小由密到稀安排一組帶通濾波器對輸入信號進行濾波。將每個帶通濾波器輸出的信號能量作為信號的基本特征。3.2.1MEL頻率對人的聽覺系統(tǒng)的生理研究表明,人耳對聲音音調的感受并不是線性的,根據(jù)這一原理,人們定義了一些新的頻率單位。新的頻率單位的劃分應該考慮到人耳聽覺系統(tǒng)的非線性特性,而不同于物理學對頻率的描述。物理上的頻率以Hz為單位,符合入耳聽覺特性的頻率則以Mel為單位。新的符合人耳的聽覺特性的頻率分布是按臨界頻率分布的,臨界帶寬是劃分Mel頻率刻度的重要依據(jù)。臨界帶寬的引入是為了描述窄帶噪聲對純音的隱蔽效應。一個純音可以被以該純音的頻率為中心頻率并且具有一定頻帶寬度的噪聲所隱蔽,這種窄帶噪聲對純音的隱蔽量當加寬噪聲帶寬時最初是隱蔽量增大,但超過某一帶寬后就不再增大,這一帶寬稱為臨界帶寬。因此,Mel頻率又稱為感知頻域,是著眼于入耳聽覺機理,依據(jù)聽覺實驗的結果來分析語音的頻譜,它比其它語音特征參數(shù)更加符合人耳對頻率高低的非線性心理感覺。實驗發(fā)現(xiàn),在1000Hz以下,感知能力與頻率成線性關系,但在1000Hz以上時,主觀心理感知能力與頻率成對數(shù)關系,這符合人的聽覺系統(tǒng)的頻率劃分應該在低頻上有較高的分辨率,在高頻上有較低的分辨率的特點。3.2.2MFCC參數(shù)提取MFCC參數(shù)的提取分為預處理(采樣/量化、數(shù)字濾波、預加重處理、加窗)和特征提取(包含求倒譜)。其過程如下圖(3.1)所示:圖(3.1)MFCC參數(shù)提取過程其算法流程為:(1)原始語音采樣后信號s(n)經過預加重、分幀、加窗等處理,得到每個幀的短時時域信號x(m)(2)將x(n)后補若干個0以形成長為N(一般可取為512)的序列,再將其進行離散傅立葉變換(DFT)得到線性頻譜X(K)。(3-4)(3)將上述線性頻譜x(K)通過Mel濾波器組得到Mel頻譜,并通過對數(shù)能量處理,得到對數(shù)頻譜s(m)。根據(jù)前述濾波器的組成,可得到總的傳遞函數(shù)關系式為:(3-5)(4)將s(m)經過離散余弦變換(DCT)變換到倒頻譜域,即得到MFCC參數(shù)C(n)。(3-6)式中M為三角濾波器個數(shù),s(m)為三角濾波器組輸出的對數(shù)能量,為MFCC的階數(shù),C(n)即為所求的MFCC參數(shù).標準的MFCC只反映了語音參數(shù)的靜態(tài)特性,而人耳對語音的動態(tài)特征更為敏感,可以用它們的差分參數(shù)來描述這種動態(tài)特性,通常將MFCC,AMFCC,A2MFCC組合一起作為MFCC參數(shù)。差分公式為:(3-7)3.2.3實驗仿真結果與分析實驗中,對一個語音信號樣本“yes”取其24階的LPCC參數(shù),仿真如圖(3.2)所示。橫軸是各階參數(shù),縱軸是各階參數(shù)對應的取值,圖中顯示的是對一個樣本“yes”進行預處理,分幀,濾波后,求取的前5幀LPCC參數(shù)的情況。由圖中可以看出,這幾幀的特征參數(shù)的曲線在某些點上非常的相似,比如第3、4、7階時。特征參數(shù)相似,在訓練和識別時,就越容易將不同類別的參數(shù)分成不同的類,有利于識別結果。但是,圖中也能看到有些參數(shù)并不理想,比如第2、6、9階等,參數(shù)特征曲線變化較大,如果用這樣的參數(shù)去訓練和識別,并不利于達到好的識別效果。LPCC參數(shù)提取仿真圖(3.2)論文中,對20組不同單詞1200多個語音信號樣本進行處理,對每個單詞每人發(fā)音4遍,其中3遍用來做訓練樣本,1遍用來做待識別的測試語音樣本,將訓練樣本預加重、濾波,用LPCC提取方法提取它的24階LPCC參數(shù),將參數(shù)通過矢量量化神經網絡進行訓練,建立起了對每個單詞的特征參考模板庫。對測試樣本經過動態(tài)時間彎折算法與參考模板匹配,統(tǒng)計的識別結果由表(3.3)給出。樣本正確數(shù)錯誤數(shù)識別率單詞yes13286.67%單詞there150100%單詞stop12380%單詞slow12380%單詞sing14193.3%單詞run150100%單詞one14193.3%單詞no13286.67%單詞left12380%單詞good13386.67%單詞go13286.67%單詞come12380%單詞bad150100%單詞four14193.3%單詞five12380%單詞jump14193.3%單詞laugh13286.67%單詞right150100%單詞down150100%單詞cry12380%平均識別率89.32%基于LPCC的語音識別圖(3.3)通過實驗證明,LPCC參數(shù)是根據(jù)人的發(fā)聲原理,從人的聲音提取出能量分布譜,從中獲得聲紋的獨特特征,它能比較徹底地去掉語音產生過程中的激勵信息,主要能夠反映聲道靜態(tài)特性,并且只需要十幾個倒譜系數(shù)就能較好地描述語音的共振峰特性,計算量小,但是它對噪聲的影響非常敏感,因此,影響了它對語音特征的描述。4結論本次課題我做的是基于語音識別的特征參數(shù)提取研究。一開始我覺得很茫然,但在老師的耐心指導下自己終于有了點眉目然后慢慢知道了要怎么去做。首先,我們去圖書館里借了很多的參考書,認真看了很多書上的內容才慢慢了解這一課題。論文從開展以來,已有一段時間。這段時間通過對語音識別的研究涉及,學習到了許多新的知識,也提高了自身的科研能力。下面簡要總結一下論文的工作情況:1.首先去找各種相關書籍上網查找資料初步了解所做課題的內容。2.從孤立詞語音識別入手,對語音識別基礎理論和體系作詳細的學習和研究,特別是總結和概括了對語音識別模型的理解,從層次的角度分解了語音識別的不同應用結構無論是對語音識別的學習還是以后系統(tǒng)的構建,都有一定的實踐意義。3.語音識別中的前端信號預處理和特征提取工作,大部分都是參考比較成功的結論和范例,這些基礎的理論對以后進一步的研究和學習做到很好的鋪墊。4.統(tǒng)觀全文,書上的作者在對語音識別設計的結果度量方面并未給出任何結論,但是論文研究的目的并不在于對于要求識別率提高對語音識別的細節(jié)上的苛求,而是在于對語音識別理論的掌握和學習;二是由于時間和實驗室條件的原因,無法完成大量的語音采集和前期處理工作,識別結果統(tǒng)計缺乏客觀和有效性;三是目前現(xiàn)有漢語語音識別的語音數(shù)據(jù)庫并不完整,對識別系統(tǒng)結果的度量缺乏統(tǒng)一標準。實際上大多數(shù)漢語語音識別系統(tǒng)的訓練、測試語料在數(shù)據(jù)規(guī)模、采樣格式、測試環(huán)境、任務內容存在很大差異,這也是漢語語音識別所面臨的難點和挑戰(zhàn)。在這段時間對語音識別的接觸,深深感受到語音識別充滿的樂趣和廣博。語音識別的學習是對知識應用的擴展,客觀角度上,語音信號處理各種方法和理論息息相關,更多都是基于相同的模型和算法。識別的問題著眼于語音信號處理領域,既可以深入到語音理解層次,也可以平行擴展到說話人識別和語種識別,當然也可以細化到情感或狀態(tài)分析等方面。而語音識別作為模式識別的一個領域,鮮明的具有自身的特點,或者說語音識別相對于其他識別,對象是結構復雜、內容極其豐富的人類語音信息,因此任務更具有困難性和挑戰(zhàn)性。我們期待著新的模型的提出來實現(xiàn)語音識別突破。近年來不斷有對人工神經網絡在語音識別中作深入研究,論文并未對這一方法及。神經網絡的獨特優(yōu)點及強大的分類能力和輸入輸出映射能力在語音識別領域很有吸引力,其具有自學、聯(lián)想、對比、推理和概括能力.這些是隱馬爾可夫模型所不具備。但訓練和識別實現(xiàn)起來較為復雜,目前該算法仍處于實驗室研究階段。論文的語音識別工作也是剛剛起步,很多問題和結論的給出還是非常的粗糙,有的還甚至有缺陷。對后繼工作的開展,一方面有必要大量查閱學習資料和與他人交流,吸收已有的成果來完善自己的研究,一方面對待具體問題可以進行細化,提出自己有特色的見解和結論。特別是在工程應用方面,若是有自己的方法,那將是十分有意義的嘗試。謝辭大學時光轉眼間就要過去了。回首這段短暫的時光,里面充實著忙碌,成長和收獲。在這里,我要感謝我的導師——潘丹青老師,在整個過程中,他無微不至的關懷和悉心的教導,給了我很大的鼓勵,不僅使我在學識上得到了提高,更讓我對整個人生充滿自信。感謝吳江老師對我學習和生活上的幫助,感謝系里每一個幫助過我的老師。同時還要感謝和我一起奮斗的同學們,我從他們身上看到了很多優(yōu)秀的品質,并獲得了很多幫助。最后,衷心地感謝所有在百忙中抽出寶貴時間來參加論文審閱和答辯的老師們!謝謝你們細心、嚴謹?shù)墓ぷ?參考文獻[1]王炳錫,屈丹,彭煊.實用語音識別基礎[M].北京:國防工業(yè)出版社,2005.[2]張雄偉,陳亮,楊吉斌.現(xiàn)代語音處理技術及應用[M].北京:機械工業(yè)出版社,2003.[3]胡航.語音信號處理[M].哈爾濱工業(yè)大學出版社,2005[4]闕大順,李星星.基于HMM的漢語語音關鍵詞檢測研究與實現(xiàn)[D].武漢理大學,2009[5]于迎霞,史家茂.一種改進的基于倒譜特征的帶噪端點檢測方法[J].計算機工程,2004,30(19):85~87.[6]李霄寒,戴蓓倩,方紹武,等.高階MFCC的話者識別性能及其噪聲魯棒性[J].信號處理,2001,17(2):124~129.[7]何強,何英.MATLAB擴展編程[M].北京:清華大學出版社,2002[8]L.R.Rabiner,BHJuang.FundamentalsofSpeechRecognition[J].NewJersey:PrenticeHall,1993[9]F-JelinekContinuousSpeechRecognitionbyStatisticalMethods[J].Proc.IEEE,1976,64(4):532-556.[10]李富強,萬紅,黃俊杰.基于MATLAB的語譜圖顯示與分析[J].微計算機信息,2005,21(10-3):172~174.[11]王秀麗.說話人識別系統(tǒng)中特征提取和端點檢測算法研究及系統(tǒng)的DSP實現(xiàn)[D].吉林:吉林大學,2006.[12]孫恒,李春.嵌入式語音識別系統(tǒng)的研究[J].計算機與現(xiàn)代化,2003(6):20~21.[13]劉曉明,覃勝,劉宗行,等.語音端點檢測的仿真研究[J].系統(tǒng)仿真學報,2005,17(8):1974~1976.[14]王曉亞.倒譜在語音的基音和共振峰提取中的應用[J].無線電工程,2004,34(1):57~58.[15]王碉.說話人識別中語音特征參數(shù)提取方法的研究[D].吉林大學,2009[16]L.ELee,etc.Abest.firstLanguageprocessingmodalintegratingunificationgrammarandmarkerlanguagemodalforspeechrecognitionapplication[J].IEEETrans.SAP,11993,1(2)221-240[17]吳莉莉,劉益成.線性預測及其DSP實現(xiàn)[J].電聲技術,2004,(01):40~42.[18]于明,袁玉倩,董浩,等.一種基于MFCC和LPCC的文本相關說話人識別方法[J].計算機應用,2006,26(4):883~885.[19]劉幺和,宋庭新.語音識別與控制應用技術[M].北京:科學出版社,2008.[20]何強,何英.MATLAB擴展編程[M].北京:清華大學出版社.2002.[21]張仁志,崔慧娟.基于短時能量的語音端點檢測算法研究[J].電聲技術,2005,(7):52~54.附錄%高通濾波器幅頻與相頻圖%H(z)=1-k/z(z=0.98)[h1,f1]=freqz([1,-0.98],[1],256,4000);pha=angle(h1);H1=abs(h1);subplot(211);plot(f1,H1),title('高通濾波器的幅頻特性');xlabel('頻率/Hz');ylabel('幅度');subplot(212);plot(f1,pha),tit

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論