基于語音的性別判別系統(tǒng)設(shè)計(jì)與開發(fā)_第1頁
基于語音的性別判別系統(tǒng)設(shè)計(jì)與開發(fā)_第2頁
基于語音的性別判別系統(tǒng)設(shè)計(jì)與開發(fā)_第3頁
基于語音的性別判別系統(tǒng)設(shè)計(jì)與開發(fā)_第4頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、課 程 設(shè) 計(jì) 報(bào) 告課程名稱 語音信號處理課程設(shè)計(jì)基于語音的性別判別系統(tǒng)設(shè)計(jì)與開發(fā) 指導(dǎo)教師 起止日期 2016-5-16 至 2016-6-19 系 別 信息與通信工程 專 業(yè) 電子信息工程 班級/學(xué)號 學(xué)生姓名 成 績 _ _指導(dǎo)教師簽字 _ _歡迎下載摘要本文通過對男性和女性聲音的語音特征的研究,發(fā)現(xiàn)男女聲的基音頻率存在較大的差異,并設(shè)計(jì)了基于基音頻率分析的男女聲識別系統(tǒng)。本題目要求設(shè)計(jì)一個(gè)系統(tǒng),可以自動(dòng)判斷輸入的語音信號源,是男性聲音還是女性聲音,其理論依據(jù)是男性和女性的基音頻率存在著明顯的差異,人類的基音頻率范圍約為60Hz 450Hz,男性的聲音基音頻率大約在60HZ-200HZ

2、之間,女性聲音基音頻率大約在200HZ 450HZ之間,因此根據(jù)語音的基音頻率可以判別說話人的性別。關(guān)鍵字:基音頻率,13級“語音信號處理課程設(shè)計(jì)”任務(wù)書題目2基于語音的性別判別系統(tǒng)設(shè)計(jì)與開發(fā)主要內(nèi)容編程實(shí)現(xiàn)基于語音的性別判別系統(tǒng),可以實(shí)時(shí)判別說話人是男生還是女生。設(shè)計(jì)要求1. 編程實(shí)現(xiàn)語音的分幀。2. 編程實(shí)現(xiàn)語音基音周期的計(jì)算。3. 根據(jù)男女基音頻率的不同,設(shè)計(jì)一種算法,分辨男女。4. 編程實(shí)現(xiàn)基于語音的性別判別系統(tǒng)。5. 對說話人實(shí)時(shí)進(jìn)行判別6. 準(zhǔn)確率應(yīng)不低于80%。主要儀器設(shè)備計(jì)算機(jī)1臺(tái),安裝MATLAB軟件及cooledit錄音軟件主要參考文獻(xiàn)數(shù)字語音處理及MATLAB仿真M.北京

3、:電子工業(yè)出版社,2010.課程設(shè)計(jì)進(jìn)度計(jì)劃(起止時(shí)間、工作內(nèi)容)本課程設(shè)計(jì)共安排3個(gè)題目,這是其中題目之一。具體進(jìn)度如下:6學(xué)時(shí)復(fù)習(xí)題目相關(guān)知識,掌握實(shí)現(xiàn)的原理;16學(xué)時(shí)用MATLAB語言實(shí)現(xiàn)題目要求;6學(xué)時(shí)進(jìn)一步完善功能,現(xiàn)場檢查、答辯;4學(xué)時(shí)完成課程設(shè)計(jì)報(bào)告。課程設(shè)計(jì)開始日期2016.5.16課程設(shè)計(jì)完成日期2015.6.19課程設(shè)計(jì)實(shí)驗(yàn)室名稱電子信息技術(shù)實(shí)驗(yàn)室地點(diǎn)實(shí)驗(yàn)樓3-501,507資料下載地址一、實(shí)驗(yàn)原理及步驟1、語音信號進(jìn)行加窗分幀處理,語音信號具有短時(shí)平穩(wěn)性(10-30ms內(nèi)可以認(rèn)為語音信號近似不變),、這樣就可以把語音信號分為一些短段來來進(jìn)行處理,這就是分幀,語音信號的分幀

4、是采用可移動(dòng)的有限長度的窗口進(jìn)行加權(quán)的方法來實(shí)現(xiàn)的。一般每秒的幀數(shù)約為33100幀,視情況而定。一般的分幀方法為交疊分段的方法,前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般為00.5,。漢明窗函數(shù)如下:2、短時(shí)自相關(guān)函數(shù)法基音檢測的主要原理是利用短時(shí)自相關(guān)函數(shù)的第二條性質(zhì),通過比較原始信號和它移位后的信號之間的類似性來確定基音周期。3、語音線性預(yù)測的基本思想是:一個(gè)語音信號的抽樣值可以用過去若干個(gè)取樣值的線性組合來逼近。通過使實(shí)際語音抽樣值與線性預(yù)測抽樣值的均方誤差達(dá)到最小,可以確定唯一的一組線性預(yù)測系數(shù)。采用線性預(yù)測分析不僅能夠得到語音信號的預(yù)測波形,而且能夠提供一個(gè)非常好的聲道模

5、型。如果將語音模型看作激勵(lì)源通過一個(gè)線性時(shí)不變系統(tǒng)產(chǎn)生的輸出,那么可以利用LPC分析對聲道參數(shù)進(jìn)行估值,以少量低信息率的時(shí)變參數(shù)精確地描述語音波形及其頻譜的性質(zhì)。此外,LPC分析還能夠?qū)舱穹?、功率譜等語音參數(shù)進(jìn)行精確估計(jì),LPC分析得到的參數(shù)可以作為語音識別的重要參數(shù)之一。清音和濁音的判斷。在語音信號處理中,有聲段的清/濁音判決是語音信號預(yù)處理的一個(gè)重要環(huán)節(jié),其判決的復(fù)雜和準(zhǔn)確度對后續(xù)的語音處理有很大影響。能否準(zhǔn)確地對語音信號進(jìn)行清/濁音判決,決定著后續(xù)工作能否順利進(jìn)行。在信號處理中,語音按其激勵(lì)形式的不同可分為2類:(1)濁音當(dāng)氣流通過聲門時(shí),如果聲帶的張力剛好使聲帶發(fā)生張弛振蕩式的振蕩,

6、產(chǎn)生一股準(zhǔn)周期的氣流,這一氣流激勵(lì)聲道就產(chǎn)生了濁音。這種語音信號是1種激勵(lì)信號,它是由規(guī)則的全程激勵(lì)產(chǎn)生的,其時(shí)域波形具有準(zhǔn)周期性,語音頻率集中在比較低的頻率范圍內(nèi),短時(shí)能量較高,由于語音信號中的高頻成分有高的過零率而低頻有低的過零率,因此濁音的過零率低。通常,濁音信號可以由周期激勵(lì)通過線性濾波器合成。(2)清音當(dāng)氣流通過聲門時(shí),如果聲帶不振動(dòng),而在某處收縮,迫使氣流高速通過這一收縮部分而產(chǎn)生湍流,就得到清音。清音是由不規(guī)則的激勵(lì)產(chǎn)生的,發(fā)清音時(shí)聲帶不振動(dòng),其時(shí)域波形不具有周期性,自相關(guān)函數(shù)沒有很強(qiáng)的自相關(guān)周期峰,其語音頻率集中在較高的范圍內(nèi),短時(shí)能量較低,因而過零率較高。通常,清音信號可由白

7、噪聲通過線性濾波器合成。濁音信號的周期稱為基音周期,它是聲帶振動(dòng)頻率的倒數(shù),基音周期的估計(jì)稱為基音檢測?;魴z測是語音處理中的一項(xiàng)重要技術(shù),它在有調(diào)語音辨意、低速率語音編碼、說話人識別等方面起著非常關(guān)鍵的作用。但在實(shí)現(xiàn)過程中,由于聲門激勵(lì)波形不是一個(gè)完全的周期脈沖串,再加上聲道影響去除不易、基音周期定位困難、背景噪聲影響強(qiáng)烈等一系列因素,基音檢測面臨著很大的困難。現(xiàn)在已有很多性能優(yōu)越的基音檢測算法,自相關(guān)基因檢測算法就是一種基于語音時(shí)域分析理論較好的算法?;蛑芷谧鳛檎Z音信號處理中描述激勵(lì)源的重要參數(shù)之一,在語音合成、語音壓縮編碼、語音識別和說話人確認(rèn)等領(lǐng)域都有著廣泛而重要的問題,尤其對漢語更

8、是如此。漢語是一種有調(diào)語言,而基因周期的變化稱為聲調(diào),聲調(diào)對于漢語語音的理解極為重要。因?yàn)樵跐h語的相互交談中,不但要憑借不同的元音、輔音來辨別這些字詞的意義,還需要從不同的聲調(diào)來區(qū)別它,也就是說聲調(diào)具有辨義作用;另外,漢語中存在著多音字現(xiàn)象,同一個(gè)字的不同的語氣或不同的詞義下具有不同的聲調(diào)。因此準(zhǔn)確可靠地進(jìn)行基音檢測對漢語語音信號的處理顯得尤為重要。5、基音頻率的判斷和語音信號的鑒別。首先基因頻率的判斷可以利用時(shí)域分析(短時(shí)能量、短時(shí)自相關(guān))方法的特征或某幾個(gè)特征的結(jié)合,判定某一語音有效的清音和濁音段;其次,針對濁音段,可直接利用短時(shí)自相關(guān)函數(shù)估計(jì)基音頻率,方法是:估算濁音段第一最大峰值的位置

9、,再利用抽樣率計(jì)算基音頻率,例如:如果說某一語音濁音段的第一最大峰值約為35個(gè)抽樣點(diǎn),設(shè)抽樣頻率為8kHz,則基音頻率為8000/35=228Hz。然后語音信號的鑒別,基音頻率與個(gè)人聲帶的長短、薄厚、韌性、勁度和發(fā)音習(xí)慣等有關(guān)系,在很大程度上反應(yīng)了個(gè)人的特征。在生活中,由于男性和女性的生理結(jié)構(gòu)不同,通過耳朵就可以清楚地確定是男性聲音還是女性聲音,這是由于男性聲音與女性聲音體現(xiàn)出不同的聽覺效果來判斷的。本次實(shí)驗(yàn)的理論依據(jù)是男性和女性的基音頻率存在著明顯的差異,人類的基音頻率范圍約為60Hz 450Hz,男性的聲音基音頻率大約在60HZ-200HZ之間,女性聲音基音頻率大約在200HZ 450HZ

10、之間,因此根據(jù)語音的基音頻率可以判別說話人的性別。二、實(shí)驗(yàn)代碼及注釋%homework10.5:LPCclear all %清屏i=1; while i %等待命令input(按回車鍵開始說話,注意說完請等6秒鐘聽結(jié)果); %程序中斷,按回車鍵繼續(xù)y=wavrecord(50000,8000,1); %錄制音頻,500000個(gè)點(diǎn),采樣頻率8000Hz,單聲道% sound(y);% y=y(16000:32000);% input(錄音停止,按回車鍵聽);% err=input(重錄按1回車,確認(rèn)按回車鍵);% y,Fs,bits = wavread(female);%讀取語音文件% y=y(

11、6500:8000);% n=1:10000;% y=sin(100*n);%分幀%幀內(nèi)遍歷即遍歷每一幀的160個(gè)采樣點(diǎn)%幀外遍歷即遍歷整個(gè)語音段的L個(gè)幀frame = 160; %每幀160點(diǎn)L = round(length(y)/frame-0.5); %L為四舍五入計(jì)算的幀數(shù)。其中為了保證采集到的所有點(diǎn)都有效,將每幀的點(diǎn)數(shù)減小一個(gè)小于1的數(shù)以保證相除之后的結(jié)果大于實(shí)際值c=; %設(shè)置一個(gè)空矩陣cn=1:frame; %每幀中從點(diǎn)1到點(diǎn)160w=0.54-0.46*cos(2*pi*n/frame);%對每一幀加hamming wingdowp=10; %定義要求線性預(yù)測系數(shù)10個(gè)(10階

12、線性預(yù)測)cof=; %自定義空矩陣cofG=; %自定義空矩陣Gwave=; 自定義空矩陣wavefor i=1:L %定義循環(huán),幀外遍歷 re=zeros(1,frame); %創(chuàng)建re為1行,160列(即一維)的全零矩陣 s=y(i-1)*frame+1:i*frame); %求幀內(nèi)每個(gè)點(diǎn)的幅值e(i)=sum(s.2);%計(jì)算每一幀的能量e if e(i)max %如果幅度歸一化結(jié)果大于0 max=re(k)/re0;period(i)=k; %令max等于歸一化結(jié)果,基音周期中樣點(diǎn)數(shù)period(i)為kendend for k=8*3:8*15 %樣點(diǎn)24到120范圍中 if rs

13、s(k)max %如果自相關(guān)值大于0 max=rss(k);period(i)=k; %則自相關(guān)值賦給max,period(i)為基音周期中的樣點(diǎn)數(shù)endendmax; if max0.25 %如果max值小于0.25 period(i)=0; %將period(i)賦值為0 (舍掉,消除半頻和倍頻錯(cuò)誤)end if period(i)=16 %如果period(i)是16(即基音頻率為500Hz以上的幀) period(i)=0; %將period(i)賦值為0 (舍掉,非人聲范圍)endendendnonzero=0; %設(shè)置一個(gè)全1矩陣的大小為0,即濁音幀數(shù)初值為0for i=1:L %

14、所有幀中 if period(i)=0 %如果一幀中period(i)的值不為0 nonzero=nonzero+1; %即此幀為濁音,矩陣大小加1endendover200=0; %定義頻率超過200Hz的幀數(shù)初值為0for i=1:L %所有幀中 if period(i)=0&period(i)=max %如果比值大于等于最大值 你是女生 %輸出 你是女生 y fs=wavread(resultfemale); %讀取wav語音文件resultfemale(或其他名稱)wavplay(y,fs) %播放該語音endif ratiomin&ratiomax 你有點(diǎn)兒不男不女 yfs=wavread(femaleormale);wavplay(y,fs)endi=input(重新識別按1回車,結(jié)束按回車);end三、結(jié)束語這次語音信號處理課程以小組為單位進(jìn)行,分為查找文獻(xiàn),原理分析,預(yù)處理,自相關(guān)系數(shù)和基因檢測。我負(fù)責(zé)查找資料和最后的基因頻率判斷,難度較小一些,資料文獻(xiàn)通過上網(wǎng)查找到了,然后因?yàn)槌绦虻牟焕斫庀热フ伊素?fù)責(zé)原理分析的組員求教了一番后才明白了基因頻率可以利用時(shí)域分析方法的特

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論