語(yǔ)言信號(hào)處理-第13章human voice production人類(lèi)聲音_第1頁(yè)
語(yǔ)言信號(hào)處理-第13章human voice production人類(lèi)聲音_第2頁(yè)
語(yǔ)言信號(hào)處理-第13章human voice production人類(lèi)聲音_第3頁(yè)
語(yǔ)言信號(hào)處理-第13章human voice production人類(lèi)聲音_第4頁(yè)
語(yǔ)言信號(hào)處理-第13章human voice production人類(lèi)聲音_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

21:20Chapter1:AudioSpeechProcessing(ASP)IntroductionDanjvLv2010-321:20AudioSpeechProcessing(ASP)語(yǔ)音處理是對(duì)語(yǔ)音信號(hào)和這些信號(hào)的處理方法的研究。目前,信號(hào)通常是由數(shù)字表示處理。因此語(yǔ)音信號(hào)處理的處理便可以被視為一個(gè)特殊的數(shù)字信號(hào)處理的過(guò)程。語(yǔ)音信號(hào)的處理也是與自然語(yǔ)言處理(NLP)緊密聯(lián)系在一起的,它的應(yīng)用可以實(shí)現(xiàn)輸入/輸出的自然語(yǔ)言處理的應(yīng)用程序。例如文本到語(yǔ)音合成可以使輸入的文本文字,經(jīng)語(yǔ)法分析器輸出語(yǔ)音信息;也可以進(jìn)行信息提取技術(shù)的應(yīng)用等。21:20語(yǔ)音處理分類(lèi)語(yǔ)音處理可分為以下幾類(lèi):語(yǔ)音識(shí)別,其中主要涉及的語(yǔ)言的語(yǔ)音信號(hào)的內(nèi)容分析。說(shuō)話人識(shí)別,其目的是要認(rèn)識(shí)到揚(yáng)聲器的身份。增強(qiáng)的語(yǔ)音信號(hào),例如音頻降噪。語(yǔ)音編碼,特殊形式的數(shù)據(jù)壓縮,在電信領(lǐng)域的重要。語(yǔ)音分析的醫(yī)療用途,例如聲帶負(fù)載和聲帶功能障礙的分析。語(yǔ)音合成:言論,這通常是指計(jì)算機(jī)生成的語(yǔ)音人工合成。語(yǔ)音增強(qiáng):加強(qiáng)消除噪音的破壞性影響,錄音設(shè)備的能力有限,損傷等的語(yǔ)音信號(hào)的感知質(zhì)量21:20課程內(nèi)容的重點(diǎn)

介紹語(yǔ)音信號(hào)處理(AudioSpeechProcessing)的基本原理。說(shuō)明如何以MATLAB進(jìn)行音頻信號(hào)處理與辨識(shí)的程序代碼實(shí)作。以實(shí)際生活中的數(shù)據(jù)來(lái)說(shuō)明音頻信號(hào)處理與辨識(shí)的各種相關(guān)應(yīng)用。21:20目標(biāo)希望達(dá)到下列目標(biāo):范例式的教學(xué):以簡(jiǎn)單的范例來(lái)說(shuō)明基本概念,然后再輔以正式的數(shù)學(xué)分析與推導(dǎo)。理論與實(shí)作并重:所有的算法都附有MATLAB的程序代碼,讓使用者能夠穩(wěn)扎穩(wěn)打、LearningbyDoing。應(yīng)用導(dǎo)向:所有的范例、理論與程序代碼,最后都會(huì)用在現(xiàn)實(shí)世界中的應(yīng)用,以讓讀者親自感受到各種算法的長(zhǎng)處和短處,以及程序代碼實(shí)作方面可能遇到的困難。21:201.ASP與ASR與相關(guān)學(xué)科

數(shù)學(xué):線性代數(shù):矩陣,矩陣運(yùn)算(乘),矩陣變換(特征值,特征向量)概率論與數(shù)理統(tǒng)計(jì)(Gauss)——(HMM,GMM))信號(hào)與系統(tǒng)

-信號(hào)處理(SignalProcessingandSystem):Filter(加強(qiáng),去噪),FFT-IDCT(數(shù)據(jù)壓縮);convolution(卷積)-MFCC

等模式識(shí)別:PatternRecognition動(dòng)態(tài)時(shí)間規(guī)整DynamicTimeWarping(DTW),隱馬爾可夫模型HiddenMarkovModels(HMM),高斯混合模型GaussMixtureModel(GMM)數(shù)據(jù)分類(lèi):DataClustering線性判別分析linearDiscriminativeAnalysis(LDA):對(duì)已分類(lèi)的數(shù)據(jù)進(jìn)行降維:多維1維

(Fisher準(zhǔn)則)主分量分析法PrincipleComponentAnalysis(PCA)保留數(shù)據(jù)中最有效、最重要的成分(維數(shù)),也即:原始N維新M維(N>M)21:20基本語(yǔ)音信號(hào)處理過(guò)程21:20Chapter2:MATLAB第1-2次上機(jī)內(nèi)容:2.1 使用變數(shù)與基本運(yùn)算 2.2 向量與矩陣的處理 2.3 常用數(shù)學(xué)函數(shù)

2.4 程序流程控制

2.5 M檔案2.6 搜尋路徑 2.7 工作空間與變數(shù)的儲(chǔ)存及載入 2.8 離開(kāi)MATLAB 21:20Chapter3:AudioSignals

音頻信號(hào)21:203-1音頻信號(hào)基本介紹1.AudioSignals音頻信號(hào):簡(jiǎn)稱(chēng)「音信」,泛指由人耳聽(tīng)到的各種聲音的信號(hào)。一般來(lái)說(shuō),發(fā)音體會(huì)產(chǎn)生震動(dòng),此震動(dòng)會(huì)對(duì)空氣產(chǎn)生壓縮與伸張的效果,形成聲波,以每秒大約

340公尺的速度在空氣中傳播,當(dāng)此聲波傳遞到人耳,耳膜會(huì)感覺(jué)到一伸一壓的壓力信號(hào),內(nèi)耳神經(jīng)再將此信號(hào)傳遞到大腦,并由大腦解析與判讀,來(lái)分辨該信號(hào)的意義。21:202.WaystoClassifyAudioSignals(1)AudioSignalSource聲源:音信可以有很多不同的分類(lèi)方式,例如,若以發(fā)音的來(lái)源,可以大概分類(lèi)如下:生物音:人聲、狗聲、貓聲humanvoices,dog'sbarking,cat'smewing,frog'scroaking等。非生物音:引擎聲、關(guān)門(mén)聲、打雷聲、樂(lè)器聲carengines,thunder,doorslamming,musicinstruments等。21:202.WaystoClassifyAudioSignals(2)SoundsPattern聲波形狀:若以信號(hào)的規(guī)律性,又可以分為以下兩類(lèi):準(zhǔn)周期音:波形具有規(guī)律性,可以看出周期的重復(fù)性,人耳可以感覺(jué)其穩(wěn)定音高的存在,例如單音弦樂(lè)器、人聲清唱monophonicalplaybackofmostmusicinstruments(suchaspianos,violins,guitars,etc)andhuman‘ssinging等。非周期音:波形不具規(guī)律性,看不出明顯的周期,人耳無(wú)法感覺(jué)出穩(wěn)定音高的存在,例如打雷聲、拍手聲、敲鑼打鼓聲、人聲中的氣音等thunderpounding,handclapping,unvoicedpartinahuman'sutterance,。21:203.TypesofHumanVoice

原則上講,以人聲而言,我們可以從每個(gè)短時(shí)信號(hào)(也就是語(yǔ)音框,其長(zhǎng)度約為20ms)中,看其是否具有音高而分為兩類(lèi),如下:(1)Voicedsound:(vibrationofvocalcords)

由聲帶振動(dòng)所發(fā)出的聲音,例如一般的元音等。由于聲帶振動(dòng),造成規(guī)律性的變化,所以我們可以感覺(jué)到音高的存在。(2)Unvoicedsound:

therapidflowofairthroughthemouse,thenose,ortheteeth.由嘴唇所發(fā)出的氣音,并不牽涉聲帶的震動(dòng)。由于波形沒(méi)有規(guī)律性,所以我們通常無(wú)法感受到穩(wěn)定音高的存在。21:203.TypesofHumanVoiceHowtoclassifythetypesofhumanvoice?要分辨這兩種聲音,其實(shí)很簡(jiǎn)單,你只要在發(fā)音時(shí),將手按在喉嚨上,若有感到震動(dòng),就是voicedsound,如果沒(méi)有感到震動(dòng),那就是unvoicedsound。21:20Sunday.wav中的ay發(fā)音21:20EXAMPLE1figure;[y,fs,nbits]=wavReadInt('sunday.wav');subplot(2,1,1)time=(1:length(y))/fs;plot(time,y);axis([min(time),max(time),-2^nbits/2,2^nbits/2]);xlabel('Time(seconds)');ylabel('Amplitude');title('Waveformsof"sunday"');frameSize=512;index1=0.606*fs;index2=index1+frameSize-1;line(time(index1)*[1,1],2^nbits/2*[-11],'color','r');line(time(index2)*[1,1],2^nbits/2*[-11],'color','r');subplot(2,1,2);time2=time(index1:index2);y2=y(index1:index2);plot(time2,y2,'.-');axis([min(time2),max(time2),-2^nbits/2,2^nbits/2]);xlabel('Time(seconds)');ylabel('Amplitude');title('Waveformsofthevoiced"ay"in"sunday"');

21:20Sunday.wav中的s發(fā)音21:20Example2[y,fs,nbits]=wavReadInt('sunday.wav');subplot(2,1,1)time=(1:length(y))/fs;plot(time,y);axis([min(time),max(time),-2^nbits/2,2^nbits/2]);xlabel('Time(seconds)');ylabel('Amplitude');title('Waveformsof"sunday"');frameSize=512;index1=0.18*fs;index2=index1+frameSize-1;line(time(index1)*[1,1],2^nbits/2*[-11],'color','r');line(time(index2)*[1,1],2^nbits/2*[-11],'color','r');subplot(2,1,2);time2=time(index1:index2);y2=y(index1:index2);plot(time2,y2,'.-');axis([min(time2),max(time2),-infinf]);xlabel('Time(seconds)');ylabel('Amplitude');title('Waveformsoftheunvoiced"s"in"sunday"');21:204.DigitizeAudioSignals

聲音代表了空氣的密度隨時(shí)間的變化,基本上是一個(gè)連續(xù)的函數(shù),但是若要將此信號(hào)儲(chǔ)存在計(jì)算機(jī)里,就必須先將此信號(hào)數(shù)字化。一般而言,當(dāng)我們將聲音儲(chǔ)存到計(jì)算機(jī)時(shí),有下列幾個(gè)參數(shù)需要考慮:(1)Samplerate:取樣頻率:每秒鐘所取得的聲音數(shù)據(jù)點(diǎn)數(shù),以Hertz(簡(jiǎn)寫(xiě)Hz)為單位。點(diǎn)數(shù)越高,聲音質(zhì)量越好,但是數(shù)據(jù)量越大,常用的取樣頻率如下:8kHz:電話的音質(zhì)、一般玩具內(nèi)語(yǔ)音IC的音質(zhì)16KHz:一般語(yǔ)音辨識(shí)所采用44.1KHz:CD音質(zhì)實(shí)際上,通過(guò)抽樣后,聲音信號(hào)在時(shí)間軸上由連續(xù)的變成了離散的信號(hào)。21:204.DigitizeAudioSignals2)Bitresolution取樣分辨率:每個(gè)聲音數(shù)據(jù)點(diǎn)所用的位數(shù),常用的數(shù)值如下:8-bit:可表示的數(shù)值范圍為0~255或-128~12716-bit:可表示的數(shù)值范圍為-32768~32767換句話說(shuō),每個(gè)取樣點(diǎn)的數(shù)值都是整數(shù),以方便儲(chǔ)存。但是在MATLAB的表示法,通常把音信的值正規(guī)化到[-1,1]范圍內(nèi)的浮點(diǎn)數(shù),因此若要轉(zhuǎn)回原先的整數(shù)值,就必須再乘上2^nbits/2,其中nbits是取樣分辨率。21:204.DigitizeAudioSignals(3)Channels:聲道:一般只分單聲道(Mono)或立體聲(Stereo),立體音即是雙聲道。以我所錄的「sunday」來(lái)說(shuō),這是單聲道的聲音,取樣頻率是16000(16KHz),分辨率是16Bits(2Byte),總共包含了15716點(diǎn)(等于15716/16000=0.98秒),所以檔案大小就是15716*2=31432bytes=31.4KB左右。由此可以看出聲音數(shù)據(jù)的龐大如果我以相同的參數(shù)來(lái)進(jìn)行錄音一分鐘,所得到的檔案大小大約就是60秒x16KHzx2Byte=1920KB或?qū)⒔?MB。以一般音樂(lè)CD來(lái)說(shuō),大部分是立體聲,取樣頻率是44.1KHz,分辨率是16Bits,所以一首三分鐘的音樂(lè),數(shù)據(jù)量的大小就是180秒x44.1KHzx2Bytex2=31752KB=32MB。(由此可知,MP3的壓縮率大概是10倍左右。)21:203.2BasicAcousticFeatures

(基本聲學(xué)特征)

1.What’sBasicAcousticFeatures?

當(dāng)我們?cè)诜治雎曇魰r(shí),通常以「短時(shí)分析」(Short-termAnalysis)為主,因?yàn)檎Z(yǔ)音信號(hào)在短時(shí)間內(nèi)是相對(duì)穩(wěn)定的。我們通常將聲音先切成音框(Frame),每個(gè)音框長(zhǎng)度大約在20ms左右,再根據(jù)音框內(nèi)的信號(hào)來(lái)進(jìn)行分析。在一個(gè)特定音框內(nèi),我們可以觀察到的三個(gè)主要聲音特征可說(shuō)明如下:21:201.What’sBasicAcousticFeatures(1)Volume(音量):代表聲音的大小,可由聲語(yǔ)音信號(hào)號(hào)的震幅來(lái)模擬,又稱(chēng)為能量(Energy)或強(qiáng)度(Intensity)等。(2)Pitch:音高

代表聲音的高低,可由基本頻率(FundamentalFrequency)來(lái)模擬,這是基本周期(FundamentalPeriod)的倒數(shù)。21:201.What’sBasicAcousticFeatures(3)Timbre:音色

代表聲音的內(nèi)容(例如英文的元音),可由每一個(gè)波形在一個(gè)基本周期的變化來(lái)模擬。21:202.AcousticFeaturescorrelatephysicalquantities物理意義

音量:compressionofyourlungs.Alargevolumeofaudiosignalscorrespondstoalargecompression.代表肺部壓縮力量的大小,力量越大,音量越大。音高:thevibrationfrequencyofyourvocalcord.Ahighpitchcorrespondstoahighvibrationfrequency.代表聲帶震動(dòng)的快慢,震動(dòng)越快,音高會(huì)越高。21:202.AcousticFeaturescorrelatephysicalquantities物理意義音色Timbre:thepositionsandshapesofyourlipsandtongue.Differenttimbrescorrespondtodifferentpositionsandshapesofyourlipsandtongue.代表嘴唇和舌頭的位置和形狀,不同的位置和形狀,就會(huì)產(chǎn)生不同的語(yǔ)音內(nèi)容。21:202.AcousticFeaturescorrelatephysicalquantities物理意義有關(guān)這些語(yǔ)音特征的抓取和分析,會(huì)在后續(xù)章節(jié)有詳細(xì)說(shuō)明。特別要注意的是,這些特征都是代表「人耳的感覺(jué)」,并沒(méi)有一定的數(shù)學(xué)公式可尋,所以當(dāng)我們?cè)囍凇噶炕惯@些特征時(shí),只是根據(jù)一些數(shù)據(jù)和經(jīng)驗(yàn)來(lái)量化,來(lái)盡量逼近人耳的感覺(jué),但并不代表這些「量化」后的數(shù)據(jù)或公式就可以完全代表聲音的特征。21:203.BasicApproachtotheExtractionofAcousticFeatures

語(yǔ)音信號(hào)特征抽取的基本方式1.Performframeblocking構(gòu)造語(yǔ)音框

將語(yǔ)音信號(hào)切成一個(gè)個(gè)音框,音框長(zhǎng)度大約是20~30ms。若音框太大,就無(wú)法抓出語(yǔ)音信號(hào)隨時(shí)間變化的特性;反之,若音框太小,就無(wú)法抓出語(yǔ)音信號(hào)的特性。一般而言,音框必須能夠包含數(shù)個(gè)語(yǔ)音信號(hào)的基本周期。(另,音框長(zhǎng)度通常是

2的整數(shù)次方,若不是,則在進(jìn)行「傅立葉轉(zhuǎn)換」時(shí),需補(bǔ)零至2的整數(shù)次方,以便使用「快速傅立葉轉(zhuǎn)換」。)21:203.BasicApproachtotheExtractionofAcousticFeatures2.FrameOverlap音框重疊量

若是希望相鄰音框之間的變化不是太大,可以允許音框之間有重疊,重疊部分可以是音框長(zhǎng)度的1/2到2/3不等。(重疊部分越多,對(duì)應(yīng)的計(jì)算量也就越大。)3.Stationaryframe:穩(wěn)定的語(yǔ)音框

假設(shè)在一個(gè)音框內(nèi)的語(yǔ)音信號(hào)是穩(wěn)定的,對(duì)此音框求取特征,如過(guò)零率、音量、音高、MFCC參數(shù)、LPC參數(shù)等。21:203.BasicApproachtotheExtractionofAcousticFeatures4.EndpointDetection:端點(diǎn)檢測(cè)

根據(jù)過(guò)零率、音量及音高等,進(jìn)行端點(diǎn)檢測(cè)(EndpointDetection),并保留端點(diǎn)內(nèi)的特征信息,以便進(jìn)行分析或辨識(shí)。

21:20常用名詞在進(jìn)行上述分析時(shí),有幾個(gè)名詞常用到,說(shuō)明如下:音框點(diǎn)數(shù)(FrameSize):每一個(gè)音框所含有的點(diǎn)數(shù)。音框重疊量(FrameOverlap):音框之間重疊的點(diǎn)數(shù)。音框跳距(FrameSteporHopSize):此音框起點(diǎn)和下一個(gè)音框起點(diǎn)的距離點(diǎn)數(shù),等于音框點(diǎn)數(shù)減去音框重疊。音框率(FrameRate):每秒出現(xiàn)的音框數(shù)目,等于取樣頻率除以音框跳距。21:20舉例取樣頻率fs=16000且每一個(gè)音框所對(duì)應(yīng)的時(shí)間是25ms,重疊15ms,那么Framesize=fs*25/1000=400點(diǎn)。Frameoverlap=fs*15/1000=240點(diǎn)。Framestep(orhopsize)=400-240=160點(diǎn)。Framerate=fs/160=100frames/sec。21:20Chap3-3HumanVoiceProduction人類(lèi)聲音的產(chǎn)生DanjvLvswfc21:201.TheProcedureOfHumanVoice1.Rapidopenandcloseofyourvocalcords(orglottis)togeneratethevibrationinairflow.

聲門(mén)的快速打開(kāi)與關(guān)閉,產(chǎn)生氣流振動(dòng)2.Resonanceofthepharyngealcavity,nasalcavity,andoralcavity.喉腔、鼻腔、口腔的共振3.Thevibrationofair.空氣的波動(dòng)

4.Thevibrationoftheeardrum(ortympanum).

接收者耳膜的振動(dòng)

5.Thereceptionoftheinnerear.內(nèi)耳神經(jīng)的接收6.Therecognitionbythebrain.大腦的辨識(shí)21:20Theproductionmechanismofhumanvoices

人聲的發(fā)音機(jī)制21:20Duetothepressureoftheglottisandtheairpushedfromthelungs,thevocalcordscanopenandcloseveryquickly,whichgeneratesvibrationsintheair.Thevibrationismodulatedbytheresonancesofpharyngeal/nasal/oralcavities,formingdifferenttimbreofyourvoices.由于聲門(mén)(Glottis)的肌肉張力,加上由肺部壓迫出來(lái)的空氣,就會(huì)造成聲門(mén)的快速打開(kāi)與關(guān)閉,這個(gè)一疏一密的空氣壓力,就是人聲的源頭,在經(jīng)由聲道、口腔、鼻腔的共振,就會(huì)產(chǎn)生不同的聲音(音色)。21:20Thecompressionfromyourlungsdeterminethe

loudness/volumeofthevoices.

肺部壓縮空氣的力量大小,決定音量大小。

Thevibrationfrequencyofthevocalcordsdeterminesthepitch

ofthevoices.

聲門(mén)震動(dòng)的快,決定聲音的基本頻率(即音高)。

Thepositions/shapesofyourlips,tongue,andnosedeterminethetimbre.

口腔、鼻腔、舌頭的位置、嘴型等,決定聲音的內(nèi)容(即音色)。21:20Airflowvelocityaroundtheglottisandtheresultantvoicessignals

聲門(mén)附近的空氣流速,以及最后在嘴巴附近所量測(cè)到的聲波21:20Youcanobservethemovementofthevocalcordsfromthefollowinglink:通過(guò)下面這個(gè)連結(jié),可以看到聲門(mén)運(yùn)動(dòng)的現(xiàn)象:

localYoucanobservethemovementofthevocalcordsfromthefollowinglink:通過(guò)下面這個(gè)連結(jié),可以看到聲門(mén)運(yùn)動(dòng)的現(xiàn)象:

local21:20high-speedcamerasInfact,itisnoteasytocapturethemovementsofvocalcordsduetoitshighfrequencyinmovement.Soweneedtohavehigh-speedcamerasf

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論