版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第5章提取聲音的基本特征LvDanju5.1Volume音量Theloudnessofaudiosignalsisthemostprominentfeaturesforhumanauralperception.Ingeneral,thereareseveraltermstodescribetheloudnessofaudiosignals,includingvolume,Intensityenergy.Hereweusetheterm“volume”forfurtherdiscussion.Volumeisabasicacousticfeaturethatiscorrelatedtothesampleamplitudeswithineachframe.一個音框內的抽樣信號震幅大小Volume的描述方法twomethodstocomputethevolumeofeachframe:sumofabsolutesamples:logorithmofthesumofsamplesquares:整數(shù)運算浮點數(shù)運算單位:分貝音量音量特性:有聲音的音量大于氣音的音量,而氣音的音量又大于噪聲的音量。音量是一個相對性的指標,受到麥克風設定的影響很大。應用:通常用在端點檢測,估測有聲的聲母或韻母的開始位置及結束位置。技巧:在計算音量前最好是先減去音頻信號信號的平均值,以避免信號的直流偏移(DCBias)所導致的誤差。舉例volume01.mwaveFile='my_sunday.wav';frameSize=256;overlap=128;[y,fs,nbits]=wavReadInt(waveFile);fprintf('Lengthof%sis%gsec.\n',waveFile,length(y)/fs);frameMat=buffer(y,frameSize,overlap);frameNum=size(frameMat,2);volume1=zeros(frameNum,1);volume2=zeros(frameNum,1);fori=1:frameNum
frame=frameMat(:,i); frame=frame-mean(frame); %zero-justified volume1(i)=sum(abs(frame)); %method1 volume2(i)=10*log10(sum(frame.^2)); %method2endtime=(1:length(y))/fs;frameTime=((0:frameNum-1)*(frameSize-overlap)+0.5*frameSize)/fs;subplot(3,1,1);plot(time,y);ylabel(waveFile);subplot(3,1,2);plot(frameTime,volume1,'.-');ylabel('Volume(Abs.sum)');subplot(3,1,3);plot(frameTime,volume2,'.-');ylabel('Volume(Decibels)');xlabel('Time(sec)');計算音量與主觀音量計算音量:使用音量來表示聲音的強弱,前述兩種計算音量的方法,用數(shù)學的公式來逼近人耳的感覺;主觀音量:和人耳的感覺有時候會有相當大的落差,為了區(qū)分,我們使用「主觀音量」來表示人耳所聽到的音量大小。例如,人耳對于同樣振福但不同頻率的聲音,所產生的主觀音量就會非常不一樣。主觀音量曲線以人耳為測試主體的「等主觀音量曲線」圖(CurvesofEqualLoudness)頻率對主觀音量的影響上面這一張圖,也代表人耳對于不同頻率的聲音的靈敏程度,這也就是人耳的頻率響應(FrequencyResponse)。如果你要測試你自己的耳朵的頻率響應,可以到這個網(wǎng)頁「EqualLoudnessTester」試試看:
主觀音量測試音色對主觀音量的影響
theperceivedloudnessisalsogreatlyinfluencedbythetimbre.
vowelsusingthesameloudnesslevel,plotthevolumecurvestoseehowtheyarerelatedtothetimbreorshapes/positionsoflips/tougue舉例volume02.mwaveFile='aeiou.wav';frameSize=512;overlap=0;[y,fs,nbits]=wavReadInt(waveFile);fprintf('Lengthof%sis%gsec.\n',waveFile,length(y)/fs);frameMat=buffer(y,frameSize,overlap);frameNum=size(frameMat,2);volume1=frame2volume(frameMat,1); %method1volume2=frame2volume(frameMat,2); %method2volume02.mtime=(1:length(y))/fs;frameTime=((0:frameNum-1)*(frameSize-overlap)+0.5*frameSize)/fs;subplot(3,1,1);plot(time,y);ylabel(waveFile);subplot(3,1,2);plot(frameTime,volume1,'.-');ylabel('Volume(Abs.sum)');subplot(3,1,3);plot(frameTime,volume2,'.-');ylabel('Volume(Decibels)');xlabel('Time(sec)');[aeiou]的音量主觀音量容易受到頻率和音色的影響,因此我們在進行語音或歌聲合成時,常常根據(jù)聲音的頻率和內容來對音頻信號的振幅進行校正,以免造成主觀音量忽大忽小的情況。ZeroCrossingRate(過零率)定義:ZCRisanotherbasicacousticfeaturesthatcanbecomputedeasily.Itisequaltothenumberofzero-crossingofthewaveformwithinagivenframe音頻信號通過零點的次數(shù).ZCRhasthefollowingcharacteristics:Ingeneral,ZCRofbothunvoicedsoundsandenvironmentnoisearelargerthanvoicedsounds(whichhasobservablefundamentalperiods).ItishardtodistinguishunvoicedsoundsfromenvironmentnoisebyusingZCRalonesincetheyhavesimilarZCRvalues.ZCRisoftenusedinconjunctionwiththevolumeforend-pointdetection.Inparticular,ZCRisusedfordetectingthestartandendpositingsofunvoicedsounds.SomepeopleuseZCRforfundamentalfrequencyestimation,butitishighlyunreliableunlessfurtherrefineprocedureistakenintoconsideration.
計算過零率在計算過零率時,需注意下列事項:由于有些信號若恰好位于零點,此時過零率的計算就有兩種,出現(xiàn)的效果也會不同。因此必須多加觀察,才能選用最好的作法。大部分都是使用音頻信號的原始整數(shù)值來計算,才不會因為使用浮點數(shù)信號,在減去直流偏移(DCBias)時,造成過零率的增加。舉例zcr01.mwaveFile='csNthu8b_S.wav';frameSize=256;overlap=0;[y,fs,nbits]=wavReadInt(waveFile);frameMat=buffer(y,frameSize,overlap);fori=1:frameNum frameMat(:,i)=frameMat(:,i)-round(mean(frameMat(:,i)));%Zerojustificationendzcr1=sum(frameMat(1:end-1,:).*frameMat(2:end,:)<0); %Method1zcr2=sum(frameMat(1:end-1,:).*frameMat(2:end,:)<=0);%Method2做圖部分time=(1:length(y))/fs;frameNum=size(frameMat,2);frameTime=((0:frameNum-1)*(frameSize-overlap)+0.5*frameSize)/fs;subplot(2,1,1);plot(time,y);ylabel(waveFile);subplot(2,1,2);plot(frameTime,zcr1,'.-',frameTime,zcr2,'.-');title('ZCR');xlabel('Time(sec)');legend('Method1','Method2');Fromtheaboveexample,itisobviousthatthesetwomethodsgeneratedifferentZCRcurves.Thefirstmethoddoesnotcount"zeropositioning"as"zerocrossing",therethecorrespondingZCRvaluesaresmaller.Moreover,silenceislikelytohavelowZCRofmethod1andhighZCRformethod2sincetherearelikelytohavemany"zeropositioning"上述的范例中,我們使用了兩種方式來計算過零率,得到的效果雖然不同,但趨勢是一致的。另外有一種情況,當錄音環(huán)境很安靜時,靜音的信號值都在零點或零點附近附近跳動時,此時是否計算位于零點的過零率,就會造成很大的差別。如果取樣頻率提高,得到的結果也會不同:waveFile='csNthu.wav';frameSize=256;overlap=0;[y,fs,nbits]=wavReadInt(waveFile);frameMat=buffer(y,frameSize,overlap);frameNum=size(frameMat,2);fori=1:frameNumframeMat(:,i)=frameMat(:,i)-round(mean(frameMat(:,i)));%Zerojustificationendzcr1=sum(frameMat(1:end-1,:).*frameMat(2:end,:)<0);%Method1zcr2=sum(frameMat(1:end-1,:).*frameMat(2:end,:)<=0);%Method2sampleTime=(1:length(y))/fs;frameTime=((0:frameNum-1)*(frameSize-overlap)+0.5*frameSize)/fs;subplot(2,1,1);plot(sampleTime,y);ylabel(waveFile);subplot(2,1,2);plot(frameTime,zcr1,'.-',frameTime,zcr2,'.-');title('ZCR');xlabel('Time(sec)');legend('Method1','Method2');Intheaboveexample,methods1and2returnsimilarZCRcurves.InordertousedZCRtodistinguishunvoicedsoundsfromenvironmentnoise,wecanshiftthewaveformbeforecomputingZCR.改進ZCR如何區(qū)分噪聲和氣音,如何較為精確計算每幀的ZCR?可采用Shift法,先對每幀的音量值作調整后再求各幀的ZCR音量值調整方法:音量/幀-最小音量幀中的最大峰峰值zcr03waveFile='csNthu_S.wav';frameSize=256;overlap=0;[y,fs,nbits]=wavReadInt(waveFile);frameMat=buffer(y,frameSize,overlap);frameNum=size(frameMat,2);volume=frame2volume(frameMat);[minVolume,index]=min(volume);shiftAmount=2*max(abs(frameMat(:,index))); %shiftAmountisequaltothemax.abs.samplewithintheframeofmin.volumezcr1=frame2zcr(frameMat,1);zcr2=frame2zcr(frameMat,1,shiftAmount);subplot(2,1,1);plot(time,y);ylabel(waveFile);subplot(2,1,2);plot(frameTime,zcr1,'.-',frameTime,zcr2,'.-');title('ZCR');xlabel('Time(sec)');legend('Method1withoutshift','Method2withshift');Inthisexample,theshiftamountisequaltothemaximalabsolutesamplevalueswithintheframewiththeminimumvolume.ThereforetheZCRofthesilenceisreduceddratically,makingiteasiertotellunvoicedsoundsfromsilenceusingZCR.若要檢測聲音的開始和結束,通常稱為「端點檢測」(EndpointDetection)或「語音檢測」(SpeechDetection),最簡單的方法就是使用音量和過零率來判別,相關細節(jié)會在后續(xù)章節(jié)說明。三、音高pitchPitchisanimportantfeatureofaudiosignals,especiallyforquasi-periodicsignalssuchasvoicedsoundsfromhumanspeech/singingandmonophonicmusicfrommostmusicinstruments.音高是一個語音信號的重要特征,尤其是對于似周期信號,如人類說話/唱歌的發(fā)聲音及樂器的單音演奏。三、音高PitchPitchrepresentthevibrationfrequency(振動頻率)
ofthesoundsourceofaudiosignals.(人與樂器)Pitchisthefundamentalfrequency
(基準頻率)ofaudiosignals,whichisequaltothereciprocal(倒數(shù))
ofthefundamentalperiod實驗觀察音叉Pitch
若直接觀察音訊的波形,只要聲音穩(wěn)定,并不難直接看到基本周期的存在,以一個3秒的音叉聲音來說,我們可以取一個256點的音框,將此音框畫出來后,就可以很明顯地看到基本周期pitchTuningFork01.m音叉Pitch觀察結果說明在上述范例中,上圖紅線的位置代表音框的位置,下圖即是256點的音框,其中紅線部分包含了5個基本周期,總共占掉了182單位點,因此對應的基本頻率是fs/(182/5)=16000/(182/5)=439.56Hz,相當于68.9827半音(Semitone),其中由基本頻率至半音的轉換公式如下:semitone=69+12*log2(frequency/440)
Pitch/Semiton當基本頻率是440Hz時,對應到的半音差是69,這就是鋼琴的「中央La」HintThefundamentalfrequencyofthetuningforkisdesignedtobe440Hz.Hencethetuningforkareusuallyusedtofinetunethepitchofapiano.一般音叉的震動頻率非常接近440Hz,因此我們常用音叉來校正鋼琴的音準。上述公式所轉換出來的半音差,也是MIDI音樂檔案所用的標準。從上述公式也可以看出:每個全音階包含12個半音(七個白鍵和五個黑鍵)。每向上相隔一個全音階,頻率會變成兩倍。例如,中央la是440Hz(69Semitones),向上平移一個全音階之后,頻率就變成880Hz(81Semitones)。人耳對音高的「線性感覺」是隨著基本頻率的對數(shù)值成正比。人的發(fā)聲音的Pitch觀察音叉的聲音非常干凈,整個波形非常接近弦波,所以基本周期顯而易見。若以我的聲音「清華大學信息系」來說,我們可以將「華」的部分放大,也可以明顯地看到基本周期。pitchVoice01.m“華”的波形結果分析上列范例的下圖,是從「華」的韻母附近抓出來的512點的音框,其中紅線部分包含了4個基本周期,總共占掉了442單位點,因此對應的基本頻率是fs/(442/4)=16000/(442/4)=145.125Hz,相當于49.7975半音,與「中央La」差了19.2個半音,接近但還不到兩個全音階(24個半音)。音高基準點PM在觀察音訊波形時,每一個基本周期的開始點,我們稱為「音高基準點」(PitchMarks,簡稱PM),PM大部分是波形的局部最大點或最小點,例如在上述音叉的范例中,我們抓取的兩個PM是局部最大點。PM通常用來調節(jié)一段聲音的音高,在語音合成方面很重要。男女生音高特點由于生理構造不同,男女生的音高范圍并不相同,一般而言:男生的音高范圍約在35~72半音,對應的頻率是62~523Hz。女生的音高范圍約在45~83半音,對應的頻率是110~1000Hz。但是我們分辨男女的聲并不是只憑音高,還需依照音色(共振峰)等特征信息,詳見后續(xù)說明。未解決的問題使用「觀察法」來算出音高,并不是太難的事,但是若要計算機自動算出音高,就需要更深入的研究——音高追蹤。有關音高追蹤的各種方法,會在后續(xù)章節(jié)詳細介紹。音色TimberTimbreisanacousticfeaturethatisdefinedconceptually.Timbrereferstothe"content"ofaframeofaudiosignals,whichisideallynotaffectedmuchbypitchandintensity.Forquasi-periodicaudiosignals,wecanusethewaveformwithinafundamentalperiodasthetimbreoftheframe.However,itisdifficulttoanalysisthewaveformwithinafundamentalperioddirectly.Instead,usuallyusethefastFouriertrans
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貨幣金融學寫作課程設計
- 年度動態(tài)心電圖監(jiān)測系統(tǒng)設備市場分析及競爭策略分析報告
- 2025年度綠色建材木糠原料采購合同2篇
- 市政施工方案優(yōu)化
- 飲品制作與服務課程設計
- 超強資料-臨床麻醉學課件嚴重創(chuàng)傷病人的麻醉
- 2025年度個人沙石行業(yè)合作與資源共享合同3篇
- 2025年度旅游度假村廣告合作與綜合服務合同4篇
- 二零二五年度2025版互聯(lián)網(wǎng)醫(yī)療合伙人合作合同模板3篇
- 二零二五年酒店特色餐飲品牌授權合同3篇
- 北師大版小學三年級上冊數(shù)學第五單元《周長》測試卷(含答案)
- 國家安全責任制落實情況報告3篇
- DB45T 1950-2019 對葉百部生產技術規(guī)程
- 2024年度順豐快遞冷鏈物流服務合同3篇
- 六年級下冊【默寫表】(牛津上海版、深圳版)(漢譯英)
- 合同簽訂培訓
- 新修訂《保密法》知識考試題及答案
- 電工基礎知識培訓課程
- 鐵路基礎知識題庫單選題100道及答案解析
- 金融AI:顛覆與重塑-深化理解AI在金融行業(yè)的實踐與挑戰(zhàn)
- 住宅樓安全性檢測鑒定方案
評論
0/150
提交評論