修后-基于短時自相關(guān)法的周期估值+(1)_第1頁
修后-基于短時自相關(guān)法的周期估值+(1)_第2頁
修后-基于短時自相關(guān)法的周期估值+(1)_第3頁
修后-基于短時自相關(guān)法的周期估值+(1)_第4頁
修后-基于短時自相關(guān)法的周期估值+(1)_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于短時自相關(guān)法的基音周期估值 【摘要】 MATLAB 是一種科學計算的軟件,其具有處理數(shù)據(jù)的重要作用。且 MATLAB 運用的形式是矩陣形式。另外, MATLAB 把性能的數(shù)值計算與可視化 集合為一個整體, 還提供了大量的內(nèi)置函數(shù)。 也正是因為如此, 它在當代科學計 算工作、系統(tǒng)控制以及處理信息等領(lǐng)域得到廣泛的應(yīng)用和研究。 【關(guān)鍵詞】清音;濁音;基音周期;自相關(guān)函數(shù) ;研究 隨著現(xiàn)代語音處理技術(shù)的快速發(fā)展以及檢測方法的進一步提高,其在實施 過程中,想要去除聲音的刺激是否是完整的周期脈沖, 與聲道的影響是十分困難 的。照此一來, 基音周期就進行定位的定位間距是不可能的, 或者具有相當大的 困難

2、。除此之外,加上基音周期的變化范圍比較廣,因此,其個人發(fā)音的習慣、 性別、年齡、發(fā)音力度以及發(fā)音時情感等多重因素都對基音周期定量具有嚴重的 影響,并且不能夠準確確定。照此一來,在這樣的前提下,其健壯和準確的特性 就起不到應(yīng)有的作用。 直至今日, 還未發(fā)現(xiàn)任何一種萬能方法, 能夠確保其在任 何情況下都能準確地、 可靠地估計出基音的周期。 根據(jù)調(diào)查發(fā)現(xiàn), 當前運用的主 要方法主要有基于傳統(tǒng)的語音模型, 最具代表性的就是自相關(guān)法、 平均幅度差函 數(shù)法、線性預測分析方法、小波變換法及在四種算法上的基礎(chǔ)上的衍生算法等。 此外,由于語言的本身的語音聲學性能, 加上語言的自然性, 其成為當前人類傳 播的最有

3、效, 最方便的一種方式。 在當前信息化盛行的現(xiàn)代, 其針對語音處理技 術(shù)內(nèi)容所做的研究不僅具有現(xiàn)代意義, 同時還有助于其更有效的生產(chǎn), 運輸,存 儲,訪問應(yīng)用程序以及儲存語音信息, 更重要的一點是還推動了社會發(fā)展, 具有 不可替代的重要作用。因此,有必要對基音周期估計量進行研究。 一般情況下,信號與系統(tǒng)中 MATLAB 應(yīng)用的方式是通過用符號運算和數(shù)值 計算進行仿真分析的。 加上信號與系統(tǒng)課程中的許多內(nèi)容大都是基于公式而進行 演算,此外, MATLAB 又是借助數(shù)學符號工具箱來為工作提供的運算功能的, 這在一定程度上基本滿足設(shè)計的實際需求。 舉個簡單的例子, 解微分方程、 傅里 葉、拉普拉斯正

4、反及 Z 的正反變換等均有所體現(xiàn)。 一、關(guān)于語音信號時域的簡單分析 (一)、語音信號的時域分析 語音信號是一種非平穩(wěn)的時變信號, 攜帶著各種各樣的信息。 例如,在語音 編碼和語音合成時, 增強了語音識別和語音處理, 從而提取各種信息中包含的語 音。一般來說,語音處理的目的主要有兩個:第一個是特征提取和分析,基于語 音信號進行后續(xù)處理。 第二個是語音信號的處理。 例如,在背景噪聲抑制噪聲時, 其語音逐漸增強,語音獲得相對比較“干凈” 。且在語音合成和拼接平滑分段語 音,進行語音合成, 以便于獲得更高的主觀質(zhì)量, 這個應(yīng)用程序也是基于語音信 號的信息提取和分析的。 簡而言之, 語音信號分析的目的是

5、方便高效的提取和進 行語音信號的信息。 根據(jù)參數(shù)類型分析, 語音信號的分析可以分為: 時域分析和頻域(頻域分析, 倒譜域)。時域分析法是最簡單,最直觀的一種方法,其主要是直接對語音信號 的時域波形,平均幅度和短時能量特征參數(shù)的提取, 短時平均過零率, 短時間的 自相關(guān)函數(shù)和短時平均幅度差函數(shù)。 (二)、語音信號的預處理 實際意義上講,語音信號是模擬信號,從而在對語音信號的數(shù)字處理之前, 首先模擬語音信號S (t) t采樣的采樣周期,離散的(N),為了避免信號頻譜混 疊,其根據(jù)帶寬和采樣模擬語音信號定理來確定選擇采樣周期。另外, 在語音信 號的離散量化過程中還帶來了一定的量化噪聲和失真。 數(shù)字語

6、音的方式主要有兩 種:正式和非正式。 正式是指大型公司釋放語音或者是語音研究機構(gòu)中對語音數(shù) 據(jù)庫的確認等。非正式主要是指個別研究人員記錄在記錄軟件或硬件電路和麥克 風隨時隨地的一些發(fā)音和聲明。 通常情況下, 作為一個初學者, 我們可以先使用 多媒體計算機, 通過安裝相關(guān)的音頻處理軟件來獲取相應(yīng)的語音數(shù)據(jù)文件。 由于 語音信號的頻率范圍通常保持在 300 3400Hz 的范圍之內(nèi),從而一般采樣為頻 率為 8kHz 。其中語音數(shù)據(jù)文件包括:預處理的語音預加重和窗框。且語音信號 的預處理數(shù)字語音信號預加重的輸入, 其目的是語音的高頻部分明顯加重, 去除 唇部的輻射, 提高語音的頻率分辨率。 一階 F

7、IR 高通數(shù)字濾波器的傳遞函數(shù)來實 現(xiàn)預加重的聲音設(shè)置時間N x (n)的樣品,經(jīng)過預加重的輸出。 (三) 、語音信號的窗口 語音預加重的數(shù)字經(jīng)過濾波處理,然后進行窗框。語音信號本身是一種時 間變化的信號, 分為濁音和清音兩大類。 周期性的基音, 表示該信號的幅度和信 道參數(shù)是隨時間進行緩慢變化的。 由于發(fā)音器官的慣性運動, 可以在短時間內(nèi)(通 常是10 30ms)確認語音信號是大致相同的,也就是說語音信號的短時間具有 穩(wěn)特性。在這種方式中,可以把語音信號分成若干段(稱為分析框架)分別進行 處理。語音信號幀的電纜長度窗口移動加權(quán)法。 根據(jù)實際情況, 其一般每秒的幀 的數(shù)量大約是 33 100幀

8、。除此之外, 其框架可以用連續(xù)分段處理, 主要采用的 方法是重疊分割方法,能夠使其平滑。 二、關(guān)于基音周期估值的基本分析 在實驗中我們使用了三個實驗法檢測基音周期估計。 自相關(guān)函數(shù)法和平均幅 度差函數(shù)屬于時域, 而倒頻譜方法屬于頻域處理方法。 由于時域波形的語音信號 的變化是隨時間變化的聲激勵,基音提取的最基本的方法是對語音信號的波形, 并檢測來自波形的基本頻率。 提取頻率和頻率中的更多信息。 信號的頻率成分之 間的和諧關(guān)系。所以在頻率時域提取的基本頻率時有很多嘗試使用信息的方法。 (一) 、自相關(guān)函數(shù)的方法 (1) 自相關(guān)函數(shù) 對于離散的語音信號x(n),它的自相關(guān)函數(shù)定義為: R(k)=藝

9、 x(n)x(n-k), 如果信號x(n)自身有周期性,那么與它相關(guān)的自相關(guān)函數(shù)也是有周期性的, 更重要的一點是其周期與信號x( n)的周期性是相同的。自相關(guān)函數(shù)提供了一種方 法獲得的周期信號的周期。 在周期信號的周期的整數(shù)倍, 其自相關(guān)函數(shù)可以達到 最大值,所以我們可以不考慮起始時間, 并從自相關(guān)函數(shù)的最大值的第一位置估 計音調(diào)信號,使自相關(guān)函數(shù)作為一種工具來估計信號的音調(diào)。如果信號 x( n) 的周期自相關(guān)函數(shù),所以它是周期性的,和周期和信號x (n)相同的周期性。 (2) 短時自相關(guān)函數(shù) 語音信號是非平穩(wěn)信號,因此信號處理采用短時自相關(guān)函數(shù)。短時自相關(guān)函 數(shù)是在 N 采樣信號的信號的短時

10、窗口攔截附近,做自相關(guān)計算結(jié)果。 Rm(k)=工x(n)x(n-k)式中,n表示窗函數(shù)是從第n點開始加入。 (二) 、程序代碼 function pitch x=wavread(E:luyinwkxp.wav);% 讀取聲音文件 figure(1); stem(x,.); 取20ms的聲音片段,即160個樣點 對每一幀求短時自相關(guān)函數(shù) 顯示聲音信號的波形 n=160; % for m=1:length(x)/n; % for k=1:n; Rm(k)=0; for i=(k+1):n; Rm(k)=Rm(k)+x(i+(m-1)*n)*x(i-k+(m-1)*n); end end p=Rm(

11、10:n);% 防止誤判, 去掉前邊 10 個數(shù)值較大 的點 Rmax,N(m)=max(p); % 讀取第一個自相關(guān)函數(shù)的最大點 end% 補回前邊去掉的 10 個點 N=N+10; T=N/8; % 算出對應(yīng)的周期 figure(2);stem(T,.);axis(0 length(T) 0 10); xlabel(幀數(shù)(n);ylabel(周期(ms);title(各幀基音周期); T1= medfilt1(T,5);%去除野點 figure(3);stem(T1,.);axis(0 length(T1) 0 10); xlabel(幀數(shù)(n );ylabel( (三)、運行結(jié)果與分析

12、(1) 運行 x=wavread(E:luyinwkxp.wav);% figure(1); stem(x,.); 周期(ms);title( 各幀基音周期 ) 2 ; 讀取聲音文件 顯示聲音信號的波形 得到的波形如下 0.3 0.2 0.1 C -0.1 -0.2 -0.3 ”0 411i11111 00.511.522533.5445 3 4 X W 原來的聲音文件時長為t=5s,采樣率為8kHZ。故總共有5*8k=40000個采樣點 (詳情如圖所示)。圖中的三個波形分別對應(yīng)a,o,e 三、關(guān)于語音合成的基本原理分析 (一)、語音生成模型 通過對聲測管的研究,它可用在多段級聯(lián)的不段的統(tǒng)一管

13、道進行描述, 一般 被稱為級聯(lián)無損聲管模型。利用計算流體力學方法可以證明一個統(tǒng)一的頻率響應(yīng) 每個管道可以使用一個極點模型近似,所以由聲管管道可以由一個n階全極點濾 波器表示,即: 對于典型的男性, N = 10,所有桿分別形成共軛對確保系數(shù)是真實的??紤] 到聲音信號,可以得到語音信號的語音產(chǎn)生的離散模型,如圖所示 4: (二),語音預測模型 假設(shè)ai的系數(shù),如下圖輸入和輸出,構(gòu)成一個語音模型,語音信號 S (n) 到預測濾波器,得到預測殘差 e( n): 圖2:簡化的語音生 成 首先要分析一段(一般是10ms)語音得到它的最佳ai系數(shù)。給定這些系 數(shù)后,就可以適當?shù)妮斎雭砗铣烧Z音。 對于濁音信

14、號,一種可取的激勵模型就是 以特定頻率重復的單位樣值序列, 這個頻率就是基音頻率。對清音,最好選擇隨 機噪聲或者白噪聲作為輸入。但在不做清濁判決的情況下,全部采用周期激勵的 合成質(zhì)量也是可以接受的。 分析過程如下:首先,抽樣的語音信號被分成 10ms長的段;然后,對每 段數(shù)據(jù)進行統(tǒng)計分析,計算相鄰樣點的相關(guān)性并最終得到最佳預測系數(shù)。 合成過 程就是利用這些預測系數(shù),以及周期的單位樣值序列作為輸入,依次得到每段合 成語音。除此之外,還要分析變速不變調(diào)。所謂變速不變調(diào),是指聲音播放時, 速度的改變不會導致音調(diào)的變化。為了實現(xiàn)變速不變調(diào),必須要先把表示“調(diào)” 的內(nèi)容從語音中分離出來,由前述語音預測模

15、型,表示“調(diào)”的有兩個部分,一 是共振峰頻率,也就是預測模型的參數(shù);二是基音周期,也就是激勵信號的參數(shù)。 接下來的工作就是在不改變這兩種參數(shù)的前提下改變數(shù)據(jù)長度。也就是將10ms 的80個樣點的激勵變成20ms160個樣點(千萬注意保持單位樣值的周期不變), 在這20ms內(nèi)保持預測模型系數(shù)不變,就合成了 20ms語音了。新語音的聲調(diào)和 原有語音是完全相同的,只不過時間變長了而已 。 綜上所述,還必須考慮到激勵信號頻率增加(注意不改變信號的長度),而 共振峰頻率增加(即兩極的說法是增加的,或上半平面桿逆時針旋轉(zhuǎn),下半平面 桿順時針旋轉(zhuǎn),但注意,旋轉(zhuǎn)角度,同樣不轉(zhuǎn)負實軸),合成語音的頻率得到的 要

16、高。除此之外,還有語音重建模型多種內(nèi)容,由于篇幅問題,本人在此就不一 一詳細講述了。 四、基于短時平均幅度差函數(shù) AMD!法的基音周期估值 使用修正的短時平均幅度差函數(shù)并加矩形窗: jV-1 8 = 乂 忱 00 zQi + A) L ft = OjIj jV 1+j D AMDF方法尋找上述函數(shù)的最小值,第二個最小值與原點之間距離代表 語音信號的基音周期。 程序如下: %AMDFF于短時平均幅度差估計基音周期 clear all; fid=fope n(a.txt,rt); b,cou nt=fsca nf(fid,%f,1,i nf); fclose(fid); b仁b(6001:1200

17、0);%提取有用信號 N=320;%窗長 A=; for k=1:320%延遲長度 sum=0; for m=1:N sum=sum+abs(b1(m)-b1(m+k-1); end A(k)=sum; end s=b(6001:12000); figure(1) subplot(211); plot(s); subplot(212); plot(A); 上述程序運行結(jié)果如下圖: 五、基于短時自相關(guān)法的周期估值研究條件 (一)、主觀條件:基于課外學習語言的基礎(chǔ)處理,特別是在知識上有強烈的求 知欲望,盡管有許多的基音估計方法,但到目前為止沒有方法能夠準確地提取基 音周期。C編程學習的本科課程中的

18、計算機技能,但也有一定的基礎(chǔ),能夠與計 算機帳戶對該課題在一起研究。 (二八客觀條件:MATLAB是一個流行的,功能強大,易于理解,應(yīng)用軟件和 程序設(shè)計語言;學校圖書館資源,網(wǎng)絡(luò)資源可以在相關(guān)參考文獻和研究發(fā)現(xiàn),奠 定了本課題的進一步研究打下堅實的基礎(chǔ)。 基于主觀和客觀條件,我認為我可以 完成這個任務(wù)11 o (三八設(shè)計中遇到的問題 (1) 設(shè)計中遇到的問題: 由于每一幀短時自相關(guān),RM (K)幾點開始值比第一峰周期較大,因此無法 提取第一峰點。啟動程序運行結(jié)果如下圖所示: 圖2 于是經(jīng)過和老師討論之后決定舍棄 Rm開始幾個值較大的點,于是運行結(jié)果 就正常了。 電t直蘭T H- 圖3 【10】

19、 (2)心得體驗: 對基音檢測短時自相關(guān)函數(shù)法的主要原理是相似的原始信號,通過比較它轉(zhuǎn) 移到確定基音周期的信號之間,可移動的距離等于螺距,所以有一個或兩個最大 信號的相似性?;谧韵嚓P(guān)函數(shù)的基音估計算法是一種常用的方法,瀝青特別適 用于噪聲環(huán)境中提取。在基音周期自相關(guān)函數(shù)的峰值,兩個相鄰的一個基音周期 的峰值之間的間隔。但頻率和大量的短時自相關(guān)函數(shù)的計算方法,同時,要注意 低頻率的現(xiàn)象。 六、結(jié)束語 在本設(shè)計中我學到了很多知識。例如,區(qū)分濁音和清音,濾波matlab課程 設(shè)計周即將結(jié)束,通過這次設(shè)計,我深深地明白我的信號處理能力的嚴重短缺, MATLAB的應(yīng)用也很奇妙。 在設(shè)計過程中,很多理論

20、原理不能理解,在原來的時候是一團糟。沒有搜索 材料發(fā)揮作用。一些公式原理不能理解和程序的運行是不好的。 在設(shè)計中遇到的 問題,也是教師的講解和同學交流后的和自相關(guān)函數(shù)曲線無影響。 也許是因為天 氣,心情在設(shè)計過程中的煩惱,浪費了很多時間。但通過老師的指導和幫助,我 終于克服困難,堅持完成論文的全部工作 本文是在王曉麗老師精心指導和大力支持下完成的。 王曉麗老師以其嚴謹求 實的治學態(tài)度、 高度的敬業(yè)精神、 兢兢業(yè)業(yè)、 孜孜以求的工作作風和大膽創(chuàng)新的 進取精神對我產(chǎn)生重要影響。 她淵博的知識、 開闊的視野和敏銳的思維給了我深 深的啟迪。同時,在此次論文設(shè)計及寫作過程中我也學到了許多了關(guān)于基于短時 自相關(guān)法的基音周期估值方面的知識, 實驗技

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論