第二章-多媒體數(shù)據(jù)處理技術(shù)2014-

上傳人：0*** IP屬地：湖北上傳時間：2023-02-03 格式：PPT 頁數(shù)：119 大?。?.16MB 積分：28 舉報 版權(quán)申訴

已閱讀5頁，還剩114頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

多媒體技術(shù)及應(yīng)用第1頁本章內(nèi)容數(shù)字音頻基礎(chǔ)音頻卡工作原理音頻編碼音頻信息處理（核心章節(jié)）視覺媒體信息的處理（核心章節(jié)）

第2頁2.1數(shù)字音頻基礎(chǔ)數(shù)字音頻的采樣與量化音頻數(shù)字化：模擬音頻信號有限個數(shù)字表示的離散序列音頻的采樣：按一定的時間間隔（T）取值，得到x(nT).T稱為采樣周期，1/T稱為采樣頻率。稱x(nT)為離散信號。

常用的采樣頻率：8kHz,11.025kHz,22.050kHz,44.1kHz,8kHz，16kHz,48kHz.第3頁數(shù)字音頻的采樣與量化音頻的量化：先將整個幅度劃分為有限個小幅度（量化階距）的集合，把落入某個階距內(nèi)的樣本值歸為一類，并賦予相同的量化值。如果量化值是均勻分布的，稱為均勻量化。

設(shè)Δ為量化階距，Xmax為量化器最大范圍，則：對于樣值s,如果，則其量化值均為。2.1數(shù)字音頻基礎(chǔ)第4頁2.1數(shù)字音頻基礎(chǔ)音頻信息的采集（錄制）用MicrosoftWindows——錄音機進(jìn)行錄音，形成.wav格式文件。第5頁2.1數(shù)字音頻基礎(chǔ)音頻信息的采集（錄制）用CoolEditPro的錄音功能進(jìn)行錄音第6頁2.1數(shù)字音頻基礎(chǔ)音頻信息的采集（錄制）用Matlab語言實現(xiàn)錄音，存儲，播放（DEMO）％用單聲道錄音，存儲，播放Fs=11025;y=wavrecord(5*Fs,Fs,'double');wavplay(y,Fs);wavwrite(y,Fs,'testlininrecord.wav')％用雙聲道錄音，存儲，播放Fs=11025;y=wavrecord(5*Fs,Fs,2,'double');wavplay(y,Fs);wavwrite(y,Fs,'testlininrecord2.wav')探究式學(xué)習(xí)audiorecorder();audioplayer;pause();resume();play();stop();第7頁2.1數(shù)字音頻基礎(chǔ)音頻信息的顯示與理解聲音是由于空氣振動產(chǎn)生的，其表現(xiàn)形式就是聲波。聲波的振幅決定音量的大小聲波的頻率決定音調(diào)第8頁wav文件格式wav文件：Microsoft公司的音頻文件格式。記錄聲音波形。利用該格式記錄的聲音文件能夠和原聲基本一致，質(zhì)量非常高，但這樣做的代價就是文件太大。wav文件所需存儲空間（byte/sec）采樣頻率(Hz)×量化位數(shù)(bit)×聲道數(shù)/82.1數(shù)字音頻基礎(chǔ)常用音頻文件格式第9頁2.1數(shù)字音頻基礎(chǔ)mp3數(shù)字音頻的文件格式

MPEG-1，Layer-3，擴(kuò)展名MP3：現(xiàn)在最流行的聲音文件格式，因其壓縮率大，在網(wǎng)絡(luò)可視電話通信方面應(yīng)用廣泛，但和CD唱片相比，音質(zhì)不能令人非常滿意。RealAudio數(shù)字音頻的文件格式RealAudio，擴(kuò)展名rm：壓縮比大，失真小。與MP3相同，它也是為了解決網(wǎng)絡(luò)傳輸帶寬資源而設(shè)計的，因此主要目標(biāo)是壓縮比和容錯性，其次才是音質(zhì)。常用音頻文件格式第10頁2.1數(shù)字音頻基礎(chǔ)音頻信號的分類語音信號，有復(fù)雜的語義和語法信息（<4kHz）非語音信號，分為樂音和雜音（頻帶比較寬20Hz~20kHz）音頻信號處理的特點：時序性要求高，若有25ms延遲，人就會感到斷續(xù)。由于人接受聲音有兩個通道，理想的合成聲音應(yīng)是立體聲。第11頁2.2音頻卡工作原理音頻卡的功能和分類音頻錄制和播放編輯和合成MIDI和音樂合成文語轉(zhuǎn)換和語音識別游戲桿接口音頻卡第12頁2.2音頻卡工作原理音頻錄制和播放使用音頻卡錄制和播放聲音的過程常用音頻錄放采用：

數(shù)字化音頻采樣頻率范圍：8k～44.1kHz，8000,11025,22050,44100

量化器：8位/16位/24位通道數(shù)：立體聲/單聲道基本編碼方法：PCM（脈沖編碼調(diào)制）

壓縮編碼方法：ADPCM，CCITT(國際電話電報咨詢委員會)A律，

CCITT律錄音聲源：麥克風(fēng)、立體聲線路輸入、CD

輸出功放：直接驅(qū)動揚聲器，且輸出音量可調(diào)

第13頁2.2音頻卡工作原理文語轉(zhuǎn)換和語音識別文語轉(zhuǎn)換（texttospeech）語音識別軟件（IBM—Viavoice，MicrosoftSoundSystem—VoicePilot，SoundBlaster—VoiceAssist）游戲棒接口可接一至兩個游戲棒。MIDI（MusicalInstrumentDigitalInterface）接口與音樂合成聲音的編輯與合成第14頁2.2音頻卡工作原理音頻卡的工作原理聲音的合成與處理混合信號處理器及功放計算機總線接口及控制器第15頁2.2音頻卡工作原理音頻卡的工作原理聲音的合成與處理（核心），完成聲波信號的A/D,D/A轉(zhuǎn)換，利用調(diào)頻技術(shù)控制聲音的音調(diào)、音色和幅度數(shù)字聲音處理器FM音樂合成器MIDI控制器混合信號處理器及功放，內(nèi)置D/A混音器，聲源可以是MIDI信號，線入，CD音頻，MIC，揚聲器等?？蛇x擇一或多聲源混合錄音。計算機接口與控制器，總線接口與控制器由數(shù)據(jù)總線雙向控制器、總線接口控制邏輯、總線中斷邏輯及DMA控制邏輯構(gòu)成。第16頁2.2音頻卡工作原理音頻卡的接口第17頁時域信息的冗余度語音幅度的非均勻分布（小幅度樣本出現(xiàn)概率高）樣本間的相關(guān)性（鄰近樣本之間樣本存在相關(guān)性）例：采樣頻率為8kHz時，相鄰取樣值之間相關(guān)系數(shù)大于0.852.3音頻編碼音頻編碼基礎(chǔ)FFT變換結(jié)果小幅度樣本出現(xiàn)概率高DEMOFreq_main.m第18頁時域信息的冗余度靜止系數(shù)（話音間隔是一種冗余）周期之間的相關(guān)性（某一聲音在特定瞬間內(nèi)，往往只是該頻帶內(nèi)的少數(shù)頻率成分起作用，且周期之間，存在相關(guān)性）2.3音頻編碼音頻編碼基礎(chǔ)第19頁2.3音頻編碼音頻編碼基礎(chǔ)時域信息的冗余度基音之間的相關(guān)性（男聲基音周期5~20ms，女聲基音周期2.5~10ms）?濁音：由聲帶振動產(chǎn)生，激勵聲道的各股氣流之間的間隔稱為音調(diào)間隔或基音周期。濁音具有周期性（2~20ms）

?清音：分為摩擦音和爆破音兩種。比濁音更具隨機性。濁音段波形清音段波形8ms第20頁2.3音頻編碼音頻編碼基礎(chǔ)人的聽覺感知機理人的聽覺具有掩蔽效應(yīng)，可分為：

?同時掩蔽：強聲弱聲同時存在，強聲使弱聲難以聽見的現(xiàn)象

?異時掩蔽：聲音在不同時間先后發(fā)生，強聲使其周圍的弱聲難以聽見的現(xiàn)象。人耳對于不同頻段的聲音的敏感程度不同人耳對低頻端較之高頻端敏感人耳對語音信號的相位變化不敏感對于人耳聽不到或感知極不靈敏的聲音分量可以視為冗余第21頁2.3音頻編碼音頻編碼標(biāo)準(zhǔn)由國際電報電話咨詢委員會（CCITT）和國際標(biāo)準(zhǔn)化組織（ISO）提出音頻編碼建議G.711（1972）G.721（1984,1986修訂）G.722G.728（1992）MPEG（MovingPictureExpertGroup）DOLBYAC－3第22頁2.3音頻編碼幾種重要的音頻編碼——PCM脈沖編碼調(diào)制PCM（pulsecodemodulation）概念最簡單，理論上最完善，應(yīng)用最廣泛的編碼系統(tǒng)數(shù)據(jù)量最大PCM編碼原理?防失真濾波器濾除聲音頻帶以外的信號（20Hz～20kHz）；?波形編碼器可理解為“采樣器”?量化器可理解為“量化間隔”生成器或“量化階大小”生成器

第23頁2.3音頻編碼量化的基本方法分為:均勻量化和非均勻量化均勻量化是指采用相等的量化間隔對采樣得到的信號作量化的方法，也稱為線性量化。非均勻量化是指采用不等的量化間隔對采樣得到的信號作量化的方法，也稱為非線性量化。

幾種重要的音頻編碼——PCM第24頁量化箱等寬，量化誤差大2.3音頻編碼幾種重要的音頻編碼——PCM?均勻量化第25頁?非均勻量化（非線性量化）

量化箱不等寬，可以在滿足精度要求的條件下，得到較高的壓縮率！2.3音頻編碼幾種重要的音頻編碼——PCM第26頁?量化特征曲線2.3音頻編碼幾種重要的音頻編碼——PCM非均勻量化特征曲線示意圖均勻量化特征曲線示意圖X(輸入)y(輸出)000001010011000001010011非均勻量化間隔第27頁?對于均勻量化而言量化級數(shù)越多，量化誤差越小，而壓縮率也??；量化級數(shù)越少，量化誤差越大，而壓縮率越大。矛盾2.3音頻編碼幾種重要的音頻編碼——PCM?采用相同量化級數(shù)，均勻量化與非均勻量化比較而言均勻量化——量化誤差大，但易于硬件實現(xiàn)；非均勻量化——量化誤差小，但難于硬件實現(xiàn)。第28頁2.3音頻編碼幾種重要的音頻編碼——PCM脈沖編碼調(diào)制PCM（pulsecodemodulation）律(

-law)壓擴(kuò)（非均勻量化，對數(shù)PCM）（G.711）主要用在北美和日本等地區(qū)的數(shù)字電話通信中，量化輸入和輸出之間的關(guān)系式中：x為輸入信號幅度，規(guī)格化成

為確定壓縮量的參數(shù)，它反映最大量化間隔和最小量化間隔之比，取第29頁2.3音頻編碼幾種重要的音頻編碼——PCM脈沖編碼調(diào)制PCM（pulsecodemodulation）

A律(A-law)壓擴(kuò)（另一種非均勻量化方法）（G.711）主要用在歐洲和中國等地區(qū)的數(shù)字電話通信中，量化輸入和輸出之間的關(guān)系式中：x為輸入信號幅度，規(guī)格化成A律壓擴(kuò)前一部分是線性的，其余部分與律壓擴(kuò)相同。A＝87.56第30頁2.3音頻編碼幾種重要的音頻編碼——PCM脈沖編碼調(diào)制PCM（pulsecodemodulation）對于采樣頻率為8kHz，樣本精度為13bit，14bit，16bit的輸入信號，使用律壓擴(kuò)編碼，經(jīng)過PCM編碼器之后，每個樣本的精度為8bit，輸出的數(shù)據(jù)率為64kb/s.

此數(shù)據(jù)即為CCITT推薦的G.711標(biāo)準(zhǔn)——

話音頻率脈沖編碼調(diào)制（PCMofVoiceFrequencies）第31頁2.3音頻編碼幾種重要的音頻編碼——PCMPCM在通信中的應(yīng)用頻分多路復(fù)用（Frequency-divisionMultiplexing,FDM）

把傳輸信道的頻帶分成幾個窄帶，每個窄帶傳送一路信號。?間隔240Hz，保證信道之間不相互干擾；?每對用戶僅占用一個信道；?模擬載波通信的主要手段。第32頁2.3音頻編碼幾種重要的音頻編碼——PCMPCM在通信中的應(yīng)用時分多路復(fù)用（Time-divisionMultiplexing,TDM）

把傳輸信道按時間分割，每個用戶指定一個時間間隔，每個間隔里傳輸信號的一部分。是數(shù)字通信的主要手段。舉例：若采樣頻率f=8000Hz，它的采樣周期=125，稱為1幀，一幀可容納的話路數(shù)有兩種規(guī)格：24路制和30路制。第33頁2.3音頻編碼幾種重要的音頻編碼——PCMPCM在通信中的應(yīng)用24路制的重要參數(shù)每秒傳送8000幀，每幀125每幀24個信道和1個同步位每個信道每次傳送8bit代碼，一幀共有8×24＋1＝193bit數(shù)據(jù)傳輸率：R＝8k×193＝1544kb/s每一個電話（每個信道）的數(shù)據(jù)傳輸率：R=8k×8＝64kb/s30路制的重要參數(shù)每秒傳送8000幀，每幀12516幀組成1個復(fù)幀（用于同步）每幀由32個時間片（信道）組成每個信道每次傳送8bit代碼數(shù)據(jù)傳輸率：R＝8k×32×8＝2048kb/s每一個電話（每個信道）的數(shù)據(jù)傳輸率：R=8k×8＝64kb/s第34頁2.3音頻編碼幾種重要的音頻編碼——PCMTDM技術(shù)已在數(shù)字電話網(wǎng)中廣泛應(yīng)用，反映PCM信號復(fù)用的復(fù)雜程度的指標(biāo)是“群（group）”一次群（基群）：30路（24路）（2048kb/s或1544kb/s）二次群：120路（96路）（8448kb/s或6312kb/s）三次群：480路（384路）（……）二次復(fù)用示意圖第35頁2.3音頻編碼幾種重要的音頻編碼——APCMAPCM（AdaptivePCM,自適應(yīng)脈沖編碼調(diào)制）

根據(jù)輸入信號幅度大小來改變量化階大小的波形編碼技術(shù)。分為：前向自適應(yīng)（ForwardAdaptation）和后向自適應(yīng)（BackwardAdaptation）?前向自適應(yīng)是根據(jù)未量化的樣本值的均方根值來估算輸入信號的電平，并以此確定量化階大小。并作為邊信息傳送到接收端。?后向自適應(yīng)是從剛輸出的過去樣本中提取量化階信息。由于收發(fā)兩段可以自動生成量化階，不需傳送邊信息S(k)為發(fā)送端編碼器的輸入信號，Sr(K)為輸出端譯碼器的輸出信號。第36頁2.3音頻編碼幾種重要的音頻編碼——DPCMDPCM（DifferentialPCM,差分脈沖編碼調(diào)制）

利用樣本與樣本之間存在的信息冗余度來進(jìn)行編碼的一種數(shù)據(jù)壓縮技術(shù)。根據(jù)過去的樣本去估算下一個樣本信號的幅度的大小（預(yù)測值），然后對實際信號值與預(yù)測值之差進(jìn)行量化編碼。?

Se(k-1)是對S(k)的預(yù)測值，而不是過去樣本的實際值。對差值d(k)進(jìn)行量化編碼，用來補償過去編碼中產(chǎn)生的量化誤差。?

DPCM是一個負(fù)反饋系統(tǒng)，可以避免量化誤差的積累。?

發(fā)送端和接收端使用相同的逆量化器和預(yù)測器。重構(gòu)信號可以從Sr(k)獲得。第37頁2.3音頻編碼幾種重要的音頻編碼——ADPCMADPCM（自適應(yīng)差分脈沖編碼調(diào)制）

綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性。自適應(yīng)改變量化階的大小，小的量化階編碼小的差值，大的量化階編碼大的差值。使用過去的樣本值估算下一個輸入的預(yù)測值，使實際樣本值與預(yù)測值之間差值最小。第38頁2.3音頻編碼幾種重要的音頻編碼——GSM編譯碼器GSM（GlobalSystemforMobileCommunications,全球數(shù)字移動通信系統(tǒng)）1992年柏林技術(shù)大學(xué)根據(jù)GSM協(xié)議開發(fā)的。

GSM的輸入是幀(Frame)數(shù)據(jù)每幀20ms，由160個帶符號樣本組成采樣頻率8KHz每個樣本為13bit或16bit的線性PCM碼GSM編碼器把一幀（160×16bit）的數(shù)據(jù)壓縮成260bit的GSM幀，數(shù)據(jù)率為260×（1000/20)=13kb/s由于260位不是8位的整數(shù)倍，因此，編碼器輸出的GSM幀為264位的線性PCM碼。壓縮率的計算：未壓縮數(shù)據(jù)率為：8k×16位＝128Kb/sGSM壓縮后264×(1000/20)=13.2kb/s壓縮比近似10：1}第39頁2.4音頻信息的處理過去：硬件實現(xiàn)，設(shè)備昂貴，功能不靈活?，F(xiàn)在：軟件實現(xiàn)，數(shù)字信號處理，功能靈活。倒播(demo:wav_back.m)音量放大縮小(demo:musiclower.m)增加回音(demo:wav_echo.m)濾波(demo:voicefilter.m)聲音合成(demo:musicmerge.m)淡入和淡出(demo:wav_fade_in.m,wav_fade_out.m)交換聲道(demo:wav_exchange.m)第40頁2.4音頻信息的處理倒播(demo:wav_back.m)原聲聲音試聽倒播聲音試聽第41頁2.4音頻信息的處理音量的放大/縮小?用Matlab語言實現(xiàn)音量的縮?。╩usiclower.m）figure(1)origin=wavread('linein.wav');plot(origin)wavplay(origin,22050);figure(2)lower=origin/4;plot(lower)wavplay(lower,22050);

wavwrite(lower,22050,'lineinlower.wav');?音量的大小是和聲音信號幅值的大小有關(guān)的，對于相同的聲音信號（頻率相同），幅值越大，音量越大，幅值越小，音量越低。試聽原始聲音信息音量縮小后結(jié)果試聽第42頁2.4音頻信息的處理音量縮小后聲音波形的比較原始聲音波形音量縮小后聲音波形第43頁2.4音頻信息的處理聲音的濾波處理?用Matlab語言實現(xiàn)簡單的聲音濾波（d:\chapter2\filter\voicefilter_mainf.m）?DEMO無噪聲有噪聲IIR帶通濾波器濾波后Note:ellip(…),8階橢圓低通數(shù)組濾波器，通帶(passband)允許起伏0.05db,阻帶(stopband)衰減最小值80dbIIR：無限沖激響應(yīng)；FIR有限沖激響應(yīng)第44頁2.4音頻信息的處理聲音的濾波處理?用Matlab語言實現(xiàn)簡單的聲音濾波（voicefilter_mainf.m）v=wavread('hello2');o=voicefilter(v);wavplay(v,22050);wavplay(o,22050);wavwrite(o,22050,'hello_filtered');subplot(3,1,2);plot(v);xlabel('Time');ylabel('Mag.');subplot(3,1,3);sf=filter(b,a,v);plot(sf);xlabel('Time');ylabel('Mag.');out=sf;?voicefilter.mfunctionout=voicefilter(v)Fs=22050;[b,a]=ellip(8,0.05,80,[1504000]*2/Fs);subplot(3,1,1);[H,w]=freqz(b,a,512);(數(shù)字濾波頻率響應(yīng)函數(shù))plot(w*Fs/(2*pi),abs(H));xlabel('Frequency(Hz)');ylabel('Mag.offrequencyresponse');第45頁2.4音頻信息的處理聲音的濾波處理濾波器頻帶特性原始聲音信號濾波后聲音信號第46頁2.4音頻信息的處理聲音的合成?用Matlab語言實現(xiàn)簡單的聲音合成（musicmerge.m）a=wavread('linein.wav');a=a/4;b=wavread('microphone.wav');a1=a(1:120000);b1=b(1:120000);c=a1+b1;wavplay(c,22050);wavwrite(c,22050,'merge.wav');?DEMO聲音1合成結(jié)果+聲音2第47頁2.4音頻信息的處理音頻卡的合成功能——混合信號處理器實驗課后實驗：LineinMP3＋WAV第48頁2.4音頻信息的處理增加回音(demo:wav_echo.m)v=wavread('linein.wav');w1=[v;zeros(10000,1)];w2=[zeros(10000,1);v];w3=w1+w2/2;wavplay(w3,22050);第49頁2.4音頻信息的處理聲音的淡入(demo:wav_fade_in.m)v=wavread('linein.wav');len=length(v);w=v;fori=1:(len/2)%淡入過程

w(i)=v(i)*i/(len/2);%線性漸強end%到一半處達(dá)到原始音量subplot(2,1,1);plot(v);subplot(2,1,2);plot(w);wavplay(w,22050);wavwrite(w,22050,'linein_grad_in.wav');第50頁2.4音頻信息的處理聲音的淡出(demo:wav_fade_out.m)v=wavread('linein.wav');len=length(v);w=v;fori=1:(len/2)%淡出過程

w(len-i)=v(len-i)*i/(len/2);end%從一半處開始線性衰減subplot(2,1,1);plot(v);subplot(2,1,2);plot(w);wavplay(w,22050);wavwrite(w,22050,'linein_grad_out.wav');

第51頁2.4音頻信息的處理交換聲道(demo:wav_exchange.m)v=wavread('lq.wav');len=length(v);w=v;fori=1:len%交換聲道

w(i,1)=v(i,2);%又不破壞原聲w(i,2)=v(i,1);endsubplot(2,2,1);plot(v(:,1),'r');subplot(2,2,2);plot(v(:,2));subplot(2,2,3)plot(w(:,1));subplot(2,2,4)plot(w(:,2),'r');wavplay(v,2*22050);wavplay(w,2*22050);wavwrite(w,2*22050,'lq_tc.wav');第52頁2.4音頻信息的處理交換聲道(demo:wav_exchange.m)變換之前：左聲道：渴望著血脈相通無限個千萬弟兄….（周杰倫《龍拳》）右聲道：渴望著血脈相通無限個千萬弟兄….

第53頁人機交互手段的變革2.4音頻信息的處理語音識別語音顯示器交互計算機系統(tǒng)音響鍵盤、鼠標(biāo)顯示器交互計算機系統(tǒng)第54頁人機交互計算機語言學(xué)(Computerphonetics)語音編碼(speechcoding)語音合成(speechsynthesis)語音識別(speechrecognition)語種識別(languageidentification)說話人識別(speakerrecognition)說話人確認(rèn)(speakerverification)2.4音頻信息的處理語音識別第55頁語音識別的發(fā)展和分類發(fā)展1952年，美國Davis等，世界第一套，識別10個英文數(shù)字發(fā)音試驗系統(tǒng)50年代后期，我國第一套，識別漢語10個元音1960年，Denes等，第一個計算機語音識別系統(tǒng)70年代后期，小詞匯量、特定人、孤立詞識別研究取得成果，算法上主要有預(yù)測分析技術(shù)(LPC)、動態(tài)時間規(guī)劃(DTW)、矢量化技術(shù)(VQ)2.4音頻信息的處理語音識別第56頁語音識別的發(fā)展和分類(Cont.)發(fā)展80年代開始，沿三個方向開始研究：特定人－>非特定人，孤立詞－>連續(xù)詞、小詞匯量－>大詞匯量算法：聚類、基于動態(tài)規(guī)則的匹配80年代中期，隱馬爾可夫模型(HMM)為基礎(chǔ)的各種系統(tǒng)，美國CMU的Sphinx系統(tǒng)IBM的Tangora20和VoiceType3.0系統(tǒng)DRAGON公司的DragonDictate系統(tǒng)現(xiàn)在：關(guān)鍵時期，新模型、新方法及實用化系統(tǒng)研究2.4音頻信息的處理語音識別第57頁語音識別的發(fā)展和分類(Cont.)分類按識別詞匯量大小分小詞表語音識別(識別詞匯<100)中詞表語音識別(100<識別詞匯<1000)大詞表語音識別(識別詞匯>1000)按語音的輸入方式分孤立詞：以單音節(jié)或短語為條目，條目內(nèi)音節(jié)連續(xù)，條目間有明顯停頓，如：0～9數(shù)字，人名、地名、控制命令、英語單詞、漢語音節(jié)、短語連接詞：多條目，需拆分連續(xù)語音：自然語言2.4音頻信息的處理語音識別第58頁語音識別的發(fā)展和分類(Cont.)分類按發(fā)音人特定人：用特定人聲音訓(xùn)練后使用限定人：多個特定人訓(xùn)練非特定人：不需要訓(xùn)練按實現(xiàn)技術(shù)分基于模板匹配的基于概率統(tǒng)計模型2.4音頻信息的處理語音識別第59頁音節(jié)性很強：每個字都是以單音節(jié)為單位，共有400多音節(jié)，加上四聲共1340個，識別基元少音節(jié)構(gòu)成，簡單規(guī)整：聲母＋韻母、韻母有調(diào)語言：音節(jié)發(fā)音時間長，有穩(wěn)定的有調(diào)段音節(jié)偕同發(fā)音與音變少優(yōu)勢難點2.4音頻信息的處理語音識別漢語語音識別漢語特點（相對于英語）同音字多內(nèi)涵語言，語義與上下文、語氣均關(guān)連，語法簡單、變化靈活憑據(jù)-評劇-萍聚意義-異議-意譯中國隊大勝（大?。┟绹牭?0頁漢語語音識別漢語語音識別系統(tǒng)工作原理數(shù)據(jù)采集波形自動切分預(yù)處理與特征參數(shù)提取聲學(xué)模型時間對準(zhǔn)組句分析識別結(jié)果整句輸出聲學(xué)基元模型庫語言模型庫統(tǒng)計信息與規(guī)則分幀后的語言特征矢量集合聲學(xué)音節(jié)候選語句候選語音流切分參數(shù)提取模板識別2.4音頻信息的處理語音識別第61頁漢語語音識別(Cont.)漢語語音識別系統(tǒng)工作原理連續(xù)語音流預(yù)處理：模擬語音數(shù)字化信號處理，包括帶通濾波、變換等波形切分：找出語音信號中的各種識別基元（音素、音節(jié)、半音節(jié)、聲韻母、單詞、意群）的起點和終點位置，將連續(xù)語音處理變?yōu)閷Ω鱾€語言單元的處理特征參數(shù)提取：表達(dá)語音特征又能彼此區(qū)別的參數(shù)，是語音識別基礎(chǔ)如：線性預(yù)測參數(shù)、倒頻譜系數(shù)、………（Ref..\..\Chapter2\語音識別\倒頻譜系數(shù).doc）參數(shù)模板庫識別判決2.4音頻信息的處理語音識別第62頁漢語語音識別(Cont.)語音識別系統(tǒng)的最終目的不限制說話人，即非特定人不限制詞匯量，即基于大詞匯表不限制發(fā)音方式，即識別連續(xù)自然發(fā)音高識別率，應(yīng)達(dá)到人對自然語言的識別能力2.4音頻信息的處理語音識別第63頁漢語語音識別(Cont.)語音識別系統(tǒng)的困難使用者的差別大，排除差異、保留共性難（口音、年齡、性別、發(fā)音速度、發(fā)音強度、發(fā)音習(xí)慣）識別的詞匯量大,將導(dǎo)致系統(tǒng)的識別性能急劇下降而失去可用性，原因是：1）需要的時間和空間開銷多；2）詞與詞之間的差異細(xì)微；基元的識別有一定的局限性，而連續(xù)音識別又不能實現(xiàn)實用的系統(tǒng)要求高可靠性，因此參數(shù)的魯棒性、抗噪聲能力，環(huán)境適應(yīng)性等要求高，太復(fù)雜2.4音頻信息的處理語音識別第64頁漢語語音識別(Cont.)語音識別技術(shù)的應(yīng)用

作為人機交互的手段，語音識別是為了實現(xiàn)聽寫和命令控制辦公自動化：在多種場合方便文件起草和編輯電話商業(yè)服務(wù)：電話和計算機語音識別的結(jié)合,將為語音識別開辟一個很大的應(yīng)用領(lǐng)域。2.4音頻信息的處理語音識別30/downloads/big/2005/01/02/0000033406.html4/pub/software/office/IBM的語音認(rèn)證系統(tǒng)第65頁漢語語音識別(Cont.)演示(Vista;WindowsPhone7Tellme;iPhone4sSiri)2.4音頻信息的處理語音識別/v_show/id_XMjk1NTcxODA=.html/v_show/id_XMjE0MDcwODQw.html/v_show/id_XMzEzMTk0Mjcy.html第66頁2.4音頻信息的處理說話人識別與語音識別的區(qū)別說話人識別（SpeakerRecognition,SR）：從相同的一段語言中，識別出是誰在講話。語音識別：關(guān)注說話的內(nèi)容，把其轉(zhuǎn)換成對應(yīng)的文字，主要用于語音信息錄入。而不關(guān)注是誰在講。第67頁2.4音頻信息的處理說話人識別技術(shù)說話人識別（SpeakerRecognition,SR）：以語音對說話人進(jìn)行區(qū)分，從而進(jìn)行身份鑒別與認(rèn)證的技術(shù)。SR基本問題：（1）如何選取能夠唯一表征人的有效而可靠的參量，如何對它進(jìn)行處理（2）如何規(guī)定相似性的測度，使相似性的計算既簡單又可靠；（3）考慮到人的狀況在不斷變化，為使系統(tǒng)能夠可靠工作，如何使它的參考量不斷更新以適應(yīng)使用者。第68頁2.4音頻信息的處理說話人識別技術(shù)說話人識別常用技術(shù)（1）模板匹配法（2）概率模型法（如:HMM）（3）矢量量化法（VQ）第69頁2.5視覺媒體信息的采集視頻信息的采集計算機常用圖像及其獲取手段一張用掃描儀掃描的圖像2400dpi(dotperinch)圖形靜態(tài)圖像動態(tài)圖像計算機軟件掃描儀視頻數(shù)字化設(shè)備數(shù)碼相機第70頁2.5視覺媒體信息的采集視頻信息的采集計算機常用圖像及其獲取手段第71頁2.5視覺媒體信息的采集視頻采集卡的分類和特點按輸入信號類型分為：數(shù)字視頻輸入卡模擬視頻輸入卡數(shù)字視頻卡USB接口：當(dāng)前最流行，低接口成本，傳輸速度（USB2.0為480Mbps，USB1.1為12Mbps

）1394接口：低接口成本(100-300元)，傳輸速度(30-40Mbps)CameraLink接口：接口成本(1萬元)，傳輸速度(>600Mbps)視頻信息的采集——視頻采集卡1394第72頁視頻采集卡的分類和特點(Cont.)模擬視頻卡黑白/彩色Video(包括：P制、N制和多制)分量輸入（包括：YUV（亮度和色差），電視臺常用；RBG，醫(yī)學(xué)上常用）S-Video輸入：亮度和色度分離壓縮卡、非壓縮卡2.5視覺媒體信息的采集視頻信息的采集——視頻采集卡第73頁視頻采集卡的供應(yīng)商及特點國外最大廠商：加拿大Matrox其次：比利時Euresys特點：價格高出國內(nèi)或合資一個數(shù)量級，信噪比高，多用于非批量及專業(yè)圖像處理2.5視覺媒體信息的采集視頻信息的采集——視頻采集卡第74頁視頻采集卡的供應(yīng)商及特點(Cont.)國內(nèi)最大廠商：大恒圖像

特點：支持多操作系統(tǒng)，各特殊需求或行業(yè)的技術(shù)支持強，適合中批量的產(chǎn)品開發(fā)合資企業(yè)：德加拉、圖碼

特點：低價格，不重視個性服務(wù)（或者說技術(shù)來源于國外其他企業(yè)，技術(shù)服務(wù)成本高），大量產(chǎn)品（硬盤錄像機）用臺灣：Liseview

特點：分工明確，研發(fā)、生產(chǎn)、銷售由不同的企業(yè)完成，OEM(OriginalEquipmentManufacturer)造成多品牌，單家企業(yè)生產(chǎn)，批量很大成本很低，適合家庭使用2.5視覺媒體信息的采集視頻信息的采集——視頻采集卡第75頁視頻采集卡的工作原理2.5視覺媒體信息的采集視頻信息的采集——視頻采集卡第76頁2.5視覺媒體信息的采集視頻采集卡的硬件安裝與VGA卡連接視頻信息的采集——視頻采集卡第77頁2.5視覺媒體信息的采集視頻采集卡的硬件安裝與VGA顯示器連接視頻信息的采集——視頻采集卡第78頁2.5視覺媒體信息的采集視頻采集卡的硬件安裝與視頻信號源的連接

視頻信息的采集——視頻采集卡視頻線（同軸電纜）第79頁2.5視覺媒體信息的處理圖像類型真彩色圖像(24bit)又稱RGB圖像，用R、G、B三個顏色分量表示一個像素的顏色，通過三基色可以合成出任意顏色。對一個尺寸為m×n的彩色圖像來說，在MATLAB中存儲為一個m×n×3的多維數(shù)組。圖像a中任意一點（x,y）處的像素值a(x,y,1:3);真彩色圖像可用“double”型存儲，亮度值的范圍[0,1]，(0,0,0)代表黑色，(1,1,1)代表白色真彩色圖像也可用“uint”型存儲，亮度值范圍[0,255]第80頁2.5視覺媒體信息的處理圖像類型索引色圖像不同顏色對應(yīng)不同序號，各像素存儲的是顏色的序號，而不是顏色本身。索引色圖像包含兩個結(jié)構(gòu)：調(diào)色板和圖像數(shù)據(jù)矩陣。最多64K。調(diào)色板是一個m×3的色彩映射矩陣，矩陣的每一行代表一種色彩，通過三基色顏色強度的雙精度數(shù)，形成一種特定的顏色。用Matlab的hot(m)產(chǎn)生一個m×3的調(diào)色板。顏色從黑經(jīng)過紅、橘紅、黃到白。第81頁2.5視覺媒體信息的處理圖像類型索引色圖像（Demo）Demo：每個豎線代表一個顏色索引但是具體顯示顏色由colormap決定imagesc(1:63);colormap(bone);colormap(pink);colormap(hot);Colormap有：Autumn，bone，colorcube，cool，copper，flag，gray，hotHsv，jet，lines，pink，prism，summer，white，winter第82頁2.5視覺媒體信息的處理圖像類型Demo：RGB—索引色m1=imread('cyx.JPG');imagesc(dither(m1,bone));imagesc(dither(m1,hot));imagesc(dither(m1,cool));imagesc(dither(m1,pink));imagesc(dither(m1,bone));colormap(bone);DITHERConvertimageusingdithering.X=DITHER(RGB,MAP)createsanindexedimageapproximationoftheRGBimageinthearrayRGBbyditheringthecolorsincolormapMAP.MAPcannothavemorethan65536colors.Demo：RGB—索引色RGB=imread('cyx.jpg');[X,map]=rgb2ind(RGB,16);imshow(X,map);IMAGESCScaledataanddisplayasimage.IMAGESC(...)isthesameasIMAGE(...)exceptthedataisscaledtousethefullcolormap.第83頁2.5視覺媒體信息的處理圖像類型灰度圖像灰度圖像只有強度信息，而沒有顏色信息。存儲灰度圖像只需要一個數(shù)據(jù)矩陣，每個元素表示對應(yīng)位置的像素的灰度值。灰度圖像的數(shù)據(jù)類型可以是double型，也可以是uint型。二值圖像只有黑白兩種值的圖像。每個像素只取0或者1兩個數(shù)。第84頁2.5視覺媒體信息的處理彩色空間（review）RGBHSV（HSI）：面向用戶的一種符合主觀感覺的色彩模型，比RGB更接近人們對顏色的感知。H（Hue）色度，表示顏色的種類；由0變到1，HSV顏色由紅變?yōu)辄S，綠、青（cyan）、洋紅（magenta）、然后變回紅色。S（Saturation）飽和度；由0變到1，顏色由不飽和變?yōu)轱柡?。V（Value）亮度；由0變到1，顏色越來越亮。第85頁2.5視覺媒體信息的處理彩色空間的理解DEMO:用PHOTOSHOP體會HSV和RGB彩色空間第86頁2.5視覺媒體信息的處理RGB圖像空間的理解DEMO:D:\Chapter2\imrender.m第87頁2.5視覺媒體信息的處理RGB圖像空間的理解如何繪制二次色圖呢？第88頁2.5視覺媒體信息的處理RGB圖像空間的理解RGB第89頁2.5視覺媒體信息的處理靜態(tài)圖像的文件格式圖形變換格式(graphicsinterchangeformat,GIF)由Compu-Serve公司于1987年為制定彩色圖像傳輸協(xié)議而開發(fā)的，它支持64000像素的圖像，256到16M色的調(diào)色板

支持一個文件包含多個子圖像（也稱子文件subfiles）圖像文件格式及其轉(zhuǎn)換GIF格式文件第90頁2.5視覺媒體信息的處理靜態(tài)圖像的文件格式圖形變換格式(graphicsinterchangeformat,GIF)

圖像文件格式及其轉(zhuǎn)換DEMO:用FLASH制作含多個子圖像的GIF格式文件制作步驟：（1）插入文本（2）右鍵，轉(zhuǎn)換為圖形元件（3）20幀處插入關(guān)鍵幀（4）用變形工具將文字變形（5）插入補間動畫（6）發(fā)布設(shè)置，選中GIF（7）在GIF選項卡中將“動畫”選中（8）導(dǎo)出成GIF格式動畫第92頁2.5視覺媒體信息的處理靜態(tài)圖像的文件格式標(biāo)記圖像文件格式(tagimagefileformat,TIFF)，也支持一個文件包含多個子圖像圖像文件格式及其轉(zhuǎn)換TIFF格式文件第93頁2.5視覺媒體信息的處理靜態(tài)圖像的文件格式目標(biāo)圖像格式(targetimageformat,TGA)

TIPS軟件使用的文件格式。由描述圖像屬性的文件頭(header)和描述各點像素值的文件體（body）組成圖像文件格式及其轉(zhuǎn)換TGA圖像文件結(jié)構(gòu)原理圖第94頁2.5視覺媒體信息的處理靜態(tài)圖像的文件格式位圖(bitmap,BMP)與設(shè)備無關(guān)

Windows推薦使用位映射的存儲形式圖像文件格式及其轉(zhuǎn)換BMP圖像文件結(jié)構(gòu)原理圖第95頁2.5視覺媒體信息的處理動態(tài)圖像的文件格式AVI格式文件轉(zhuǎn)換為MPEG格式DEMO(AimOne)DEMO(WinMPG)圖像文件格式及其轉(zhuǎn)換Drive.aviDrive.mpg第96頁2.5視覺媒體信息的處理動態(tài)圖像的文件格式AVI格式文件轉(zhuǎn)換為.GIF格式圖像DEMO(AniMake)：用WindowsMovieMaker錄像，用AniMake進(jìn)行文件格式轉(zhuǎn)換，保存為序列GIF圖，改變播放速度，改變播放順序，改變圖片方向，在某（些）幀增加說明性文字。用Photoshop處理，然后返回保存圖像文件格式及其轉(zhuǎn)換Drive.aviDrive.gif第97頁用Matlab實現(xiàn)圖像的讀寫和顯示命令1:imread

Imread函數(shù)，用于讀入各種圖像文件舉例：img1=imread(‘huangguoshu.jpg’);命令2:imwriteImwrite函數(shù)，用于讀入各種圖像文件舉例：img1=imwrite(‘huangguoshu.jpg’);命令3:imageImage函數(shù)，用于顯示圖像文件舉例image(img1);2.5視覺媒體信息的處理視頻信息的處理——讀寫和顯示圖像文件第98頁用Matlab實現(xiàn)圖像的疊加效果（DEMO）m1=imread('koala.JPG');m2=imread('penguins.JPG');axes('position',[0011]);image((double(m1)/2+double(m2)/2)/256);colorbar;2.5視覺媒體信息的處理視頻信息的處理——圖像的疊加、二值化、邊緣提取用Matlab實現(xiàn)圖像的二值化m1=imread('koala.JPG');im2bw(m1);第99頁2.5視覺媒體信息的處理圖像信息的處理——邊緣提取與圖像切割用Matlab實現(xiàn)邊緣提?。ǚ椒ㄒ唬﹎1=imread('cyx.JPG');imshow(bwperim(im2bw(m1)));用Matlab實現(xiàn)邊緣提?。ǚ椒ǘ﹎1=imread('cyx.JPG');imshow(edge(rgb2gray(m1),'canny'));用Matlab實現(xiàn)圖像切割m1=imread('huangguoshu.JPG');subplot(1,2,1);axisequal;image(m1);subplot(1,2,2);axisequal;image(m1(300:1300,200:1200,:));試驗另一種算子：‘prewitt’第100頁用Matlab實現(xiàn)移動目標(biāo)提取（幀差法）functionimgdiffimg1=imread('i1.bmp');img2=imread('i2.bmp');h=figure(1);set(h,'Position',[1040300*3200]);sub1=subplot(1,3,1);set(sub1,'Position',[001/31]);image(img1);axisoff;sub2=subplot(1,3,2);set(sub2,'Position',[1/301/31]);image(img2);axisoff;sub3=subplot(1,3,3);set(sub3,'Position',[2/301/31]);image(uint8(abs(double(img2)-double(img1))));axisoff;return;2.5視覺媒體信息的處理視頻信息的處理——移動目標(biāo)提取第101頁2.5視覺媒體信息的處理Demo（D:\Chapter2\imageprocessing\imgdiff.m）視頻信息的處理——移動目標(biāo)提取背景圖一幀圖像幀差法處理后圖像第102頁2.5視覺媒體信息的處理基于文字本質(zhì)特征的方法視頻信息的處理——文字提取文字有線段構(gòu)成每個線段寬度基本相同每個線段長寬比例適中第103頁2.5視覺媒體信息的處理Demo視頻信息的處理——文字提取原始視頻信息文字提取結(jié)果第104頁2.5視覺媒體信息的處理視頻信息的處理——文字提取系統(tǒng)構(gòu)成第105頁2.5視覺媒體信息的處理視頻信息的處理——文字提取系統(tǒng)工作原理OCR(OpticalCharacterRecognition,光學(xué)字符識別)中國OCR信息網(wǎng)

第106頁2.5視覺媒體信息的處理視頻信息的處理——文字提取OCR在線識別DEMO原文件。A.ImageCuttingandRotationAfterdetectingthecharacters,weshouldintegratesomesinglecharactersintoone

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第二章-多媒體數(shù)據(jù)處理技術(shù)2014-

文檔簡介

溫馨提示

最新文檔

評論

第二章-多媒體數(shù)據(jù)處理技術(shù)2014-

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔