基于語音的性別判別系統(tǒng)設(shè)計與開發(fā)_第1頁
基于語音的性別判別系統(tǒng)設(shè)計與開發(fā)_第2頁
基于語音的性別判別系統(tǒng)設(shè)計與開發(fā)_第3頁
基于語音的性別判別系統(tǒng)設(shè)計與開發(fā)_第4頁
基于語音的性別判別系統(tǒng)設(shè)計與開發(fā)_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

./課程設(shè)計報告課程名稱語音信號處理課程設(shè)計基于語音的性別判別系統(tǒng)設(shè)計與開發(fā)指導(dǎo)教師起止日期2016-5-16至2016-6-19系別信息與通信工程專業(yè)電子信息工程班級/學(xué)號學(xué)生成績_______________________指導(dǎo)教師簽字___________________.摘要本文通過對男性和女性聲音的語音特征的研究,發(fā)現(xiàn)男女聲的基音頻率存在較大的差異,并設(shè)計了基于基音頻率分析的男女聲識別系統(tǒng)。本題目要求設(shè)計一個系統(tǒng),可以自動判斷輸入的語音信號源,是男性聲音還是女性聲音,其理論依據(jù)是男性和女性的基音頻率存在著明顯的差異,人類的基音頻率圍約為60Hz~450Hz,男性的聲音基音頻率大約在60HZ-200HZ之間,女性聲音基音頻率大約在200HZ~450HZ之間,因此根據(jù)語音的基音頻率可以判別說話人的性別。關(guān)鍵字:基音頻率,13級"語音信號處理課程設(shè)計"任務(wù)書題目2基于語音的性別判別系統(tǒng)設(shè)計與開發(fā)主要容編程實現(xiàn)基于語音的性別判別系統(tǒng),可以實時判別說話人是男生還是女生。設(shè)計要求編程實現(xiàn)語音的分幀。編程實現(xiàn)語音基音周期的計算。根據(jù)男女基音頻率的不同,設(shè)計一種算法,分辨男女。編程實現(xiàn)基于語音的性別判別系統(tǒng)。對說話人實時進(jìn)行判別準(zhǔn)確率應(yīng)不低于80%。主要儀器設(shè)備計算機1臺,安裝MATLAB軟件及cooledit錄音軟件主要參考文獻(xiàn)數(shù)字語音處理及MATLAB仿真[M].:電子工業(yè),2010.課程設(shè)計進(jìn)度計劃〔起止時間、工作容本課程設(shè)計共安排3個題目,這是其中題目之一。具體進(jìn)度如下:6學(xué)時復(fù)習(xí)題目相關(guān)知識,掌握實現(xiàn)的原理;16學(xué)時用MATLAB語言實現(xiàn)題目要求;6學(xué)時進(jìn)一步完善功能,現(xiàn)場檢查、答辯;4學(xué)時完成課程設(shè)計報告。課程設(shè)計開始日期2016.5.16課程設(shè)計完成日期2015.6.19課程設(shè)計實驗室名稱電子信息技術(shù)實驗室地點實驗樓3-501,507資料下載地址一、實驗原理及步驟1、語音信號進(jìn)行加窗分幀處理,語音信號具有短時平穩(wěn)性〔10--30ms可以認(rèn)為語音信號近似不變,、這樣就可以把語音信號分為一些短段來來進(jìn)行處理,這就是分幀,語音信號的分幀是采用可移動的有限長度的窗口進(jìn)行加權(quán)的方法來實現(xiàn)的。一般每秒的幀數(shù)約為33~100幀,視情況而定。一般的分幀方法為交疊分段的方法,前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般為0~0.5,。漢明窗函數(shù)如下:2、短時自相關(guān)函數(shù)法基音檢測的主要原理是利用短時自相關(guān)函數(shù)的第二條性質(zhì),通過比較原始信號和它移位后的信號之間的類似性來確定基音周期。3、語音線性預(yù)測的基本思想是:一個語音信號的抽樣值可以用過去若干個取樣值的線性組合來逼近。通過使實際語音抽樣值與線性預(yù)測抽樣值的均方誤差達(dá)到最小,可以確定唯一的一組線性預(yù)測系數(shù)。采用線性預(yù)測分析不僅能夠得到語音信號的預(yù)測波形,而且能夠提供一個非常好的聲道模型。如果將語音模型看作激勵源通過一個線性時不變系統(tǒng)產(chǎn)生的輸出,那么可以利用LPC分析對聲道參數(shù)進(jìn)行估值,以少量低信息率的時變參數(shù)精確地描述語音波形及其頻譜的性質(zhì)。此外,LPC分析還能夠?qū)舱穹?、功率譜等語音參數(shù)進(jìn)行精確估計,LPC分析得到的參數(shù)可以作為語音識別的重要參數(shù)之一。清音和濁音的判斷。在語音信號處理中,有聲段的清/濁音判決是語音信號預(yù)處理的一個重要環(huán)節(jié),其判決的復(fù)雜和準(zhǔn)確度對后續(xù)的語音處理有很大影響。能否準(zhǔn)確地對語音信號進(jìn)行清/濁音判決,決定著后續(xù)工作能否順利進(jìn)行。在信號處理中,語音按其激勵形式的不同可分為2類:〔1濁音當(dāng)氣流通過聲門時,如果聲帶的力剛好使聲帶發(fā)生弛振蕩式的振蕩,產(chǎn)生一股準(zhǔn)周期的氣流,這一氣流激勵聲道就產(chǎn)生了濁音。這種語音信號是1種激勵信號,它是由規(guī)則的全程激勵產(chǎn)生的,其時域波形具有準(zhǔn)周期性,語音頻率集中在比較低的頻率圍,短時能量較高,由于語音信號中的高頻成分有高的過零率而低頻有低的過零率,因此濁音的過零率低。通常,濁音信號可以由周期激勵通過線性濾波器合成?!?清音當(dāng)氣流通過聲門時,如果聲帶不振動,而在某處收縮,迫使氣流高速通過這一收縮部分而產(chǎn)生湍流,就得到清音。清音是由不規(guī)則的激勵產(chǎn)生的,發(fā)清音時聲帶不振動,其時域波形不具有周期性,自相關(guān)函數(shù)沒有很強的自相關(guān)周期峰,其語音頻率集中在較高的圍,短時能量較低,因而過零率較高。通常,清音信號可由白噪聲通過線性濾波器合成。濁音信號的周期稱為基音周期,它是聲帶振動頻率的倒數(shù),基音周期的估計稱為基音檢測?;魴z測是語音處理中的一項重要技術(shù),它在有調(diào)語音辨意、低速率語音編碼、說話人識別等方面起著非常關(guān)鍵的作用。但在實現(xiàn)過程中,由于聲門激勵波形不是一個完全的周期脈沖串,再加上聲道影響去除不易、基音周期定位困難、背景噪聲影響強烈等一系列因素,基音檢測面臨著很大的困難?,F(xiàn)在已有很多性能優(yōu)越的基音檢測算法,自相關(guān)基因檢測算法就是一種基于語音時域分析理論較好的算法?;蛑芷谧鳛檎Z音信號處理中描述激勵源的重要參數(shù)之一,在語音合成、語音壓縮編碼、語音識別和說話人確認(rèn)等領(lǐng)域都有著廣泛而重要的問題,尤其對漢語更是如此。漢語是一種有調(diào)語言,而基因周期的變化稱為聲調(diào),聲調(diào)對于漢語語音的理解極為重要。因為在漢語的相互交談中,不但要憑借不同的元音、輔音來辨別這些字詞的意義,還需要從不同的聲調(diào)來區(qū)別它,也就是說聲調(diào)具有辨義作用;另外,漢語中存在著多音字現(xiàn)象,同一個字的不同的語氣或不同的詞義下具有不同的聲調(diào)。因此準(zhǔn)確可靠地進(jìn)行基音檢測對漢語語音信號的處理顯得尤為重要。5、基音頻率的判斷和語音信號的鑒別。首先基因頻率的判斷可以利用時域分析〔短時能量、短時自相關(guān)方法的特征或某幾個特征的結(jié)合,判定某一語音有效的清音和濁音段;其次,針對濁音段,可直接利用短時自相關(guān)函數(shù)估計基音頻率,方法是:估算濁音段第一最大峰值的位置,再利用抽樣率計算基音頻率,例如:如果說某一語音濁音段的第一最大峰值約為35個抽樣點,設(shè)抽樣頻率為8kHz,則基音頻率為8000/35=228Hz。然后語音信號的鑒別,基音頻率與個人聲帶的長短、薄厚、韌性、勁度和發(fā)音習(xí)慣等有關(guān)系,在很大程度上反應(yīng)了個人的特征。在生活中,由于男性和女性的生理結(jié)構(gòu)不同,通過耳朵就可以清楚地確定是男性聲音還是女性聲音,這是由于男性聲音與女性聲音體現(xiàn)出不同的聽覺效果來判斷的。本次實驗的理論依據(jù)是男性和女性的基音頻率存在著明顯的差異,人類的基音頻率圍約為60Hz~450Hz,男性的聲音基音頻率大約在60HZ-200HZ之間,女性聲音基音頻率大約在200HZ~450HZ之間,因此根據(jù)語音的基音頻率可以判別說話人的性別。二、實驗代碼及注釋%homework10.5:LPCclearall%清屏i=1;whilei%等待命令input<'按回車鍵開始說話,注意說完請等6秒鐘聽結(jié)果'>;%程序中斷,按回車鍵繼續(xù)y=wavrecord<50000,8000,1>;%錄制音頻,500000個點,采樣頻率8000Hz,單聲道%sound<y>;%y=y<16000:32000>;%input<'錄音停止,按回車鍵聽'>;%err=input<'重錄按1回車,確認(rèn)按回車鍵'>;%[y,Fs,bits]=wavread<'female'>;%讀取語音文件%y=y<6500:8000>;%n=1:10000;%y=sin<100*n>';%分幀%幀遍歷即遍歷每一幀的160個采樣點%幀外遍歷即遍歷整個語音段的L個幀frame=160;%每幀160點L=round<length<y>/frame-0.5>;%L為四舍五入計算的幀數(shù)。其中為了保證采集到的所有點都有效,將每幀的點數(shù)減小一個小于1的數(shù)以保證相除之后的結(jié)果大于實際值c=[];%設(shè)置一個空矩陣cn=1:frame;%每幀中從點1到點160w=0.54-0.46*cos<2*pi*n/frame>;%對每一幀加hammingwingdowp=10;%定義要求線性預(yù)測系數(shù)10個〔10階線性預(yù)測cof=[];%自定義空矩陣cofG=[];%自定義空矩陣Gwave=[];自定義空矩陣wavefori=1:L%定義循環(huán),幀外遍歷re=zeros<1,frame>;%創(chuàng)建re為1行,160列〔即一維的全零矩陣s=y<<i-1>*frame+1:i*frame>;%求幀每個點的幅值e<i>=sum<s.^2>;%計算每一幀的能量eife<i><0.0%如果第i幀的能量小于0period<i>=0;%將數(shù)組period的第i個值賦0else%如果第i幀的能量不小于0%s=s.*w';%對語音序列加窗加權(quán)〔本程序中不加權(quán)%計算自相關(guān)序列〔不加窗計算fork=1:frame%定義循環(huán),幀遍歷rss<k>=s<1:frame-k>'*s<1+k:frame>;%求出幀每一點的自相關(guān)值endwave=[waverss];%給空矩陣wave賦值為自相關(guān)序列%求線性預(yù)測系數(shù)[a,g]=lpc<s,p>;%用lpc函數(shù)對每幀所有的點求10個線性預(yù)測系數(shù)〔即10階,并且賦值給矩陣[下一個預(yù)測值a,系數(shù)g]a=real<a>;%取a的實數(shù)部分為新的aa=a<2:end>;%a取從第2個開始到最后一個預(yù)測值為新的a序列〔原值為1-10,預(yù)測值為2-11cof=[cofa];%將所得的預(yù)測值a賦給矩陣cof〔cof是預(yù)測值矩陣,是10階線性預(yù)測得出的新的10個值G=[Gg];%將所得的g值序列賦給矩陣G〔G是線性預(yù)測系數(shù)矩陣fork=1:pra<k>=a<1:p-k>*a<1+k:p>';%計算線性預(yù)測系數(shù)的自相關(guān)序列end%清音濁音判斷fork=1:frame-pre<k>=ra<1:p>*rss<k:k+p-1>';%對兩個自相關(guān)序列進(jìn)行互相關(guān)優(yōu)化endre0=re<1>;%將re<1>的幅值賦給re0作為歸一化標(biāo)準(zhǔn)max=0;period<i>=0;%max初值為0,樣點數(shù)初值為0fork=8*2:8*15%假定在樣點數(shù)16-120圍中尋找ifre<k>/re0>max%如果幅度歸一化結(jié)果大于0max=re<k>/re0;period<i>=k;%令max等于歸一化結(jié)果,基音周期中樣點數(shù)period<i>為kendendfork=8*3:8*15%樣點24到120圍中ifrss<k>>max%如果自相關(guān)值大于0max=rss<k>;period<i>=k;%則自相關(guān)值賦給max,period<i>為基音周期中的樣點數(shù)endendmax;ifmax<0.25%如果max值小于0.25period<i>=0;%將period<i>賦值為0〔舍掉,消除半頻和倍頻錯誤endifperiod<i>==16%如果period<i>是16〔即基音頻率為500Hz以上的幀period<i>=0;%將period<i>賦值為0〔舍掉,非人聲圍endendendnonzero=0;%設(shè)置一個全1矩陣的大小為0,即濁音幀數(shù)初值為0fori=1:L%所有幀中ifperiod<i>~=0%如果一幀中period<i>的值不為0nonzero=nonzero+1;%即此幀為濁音,矩陣大小加1endendover200=0;%定義頻率超過200Hz的幀數(shù)初值為0fori=1:L%所有幀中ifperiod<i>~=0&period<i><40%如果基音周期中有樣點,且樣點數(shù)少于40個over200=over200+1;%頻率超過200Hz的幀數(shù)加1endendratio=over200/nonzero%計算頻率超過200Hz的幀數(shù)占濁音幀數(shù)的比值max=0.7;min=0.5;ifratio>=max%如果比值大于等于最大值'你是女生'%輸出'你是女生'[yfs]=wavread<'resultfemale'>;%讀取wav語音文件'resultfemale〔或其他名稱'wavplay<y,fs>%播放該語音endifratio<=min%其后同理'你是純爺們兒'[yfs]=wavread<'resultmale'>;wavplay<y,fs>endifratio>min&ratio<max'你有點兒不男不女'[yfs]=wavread<'femaleormale'>;wavplay<y,fs>endi=input<'重新識別按1回車,結(jié)束按回車'>;end三、結(jié)束語這次語音信號處理課程以小組為單位進(jìn)行,分為查找文獻(xiàn),原理分析,預(yù)處理,自相關(guān)系數(shù)和基因檢測。我負(fù)責(zé)查找資料和最后的基因頻率判斷,難度較小一些,資料文獻(xiàn)通過上網(wǎng)查找到了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論