版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
多媒體技術(shù)及應(yīng)用第1頁(yè)本章內(nèi)容數(shù)字音頻基礎(chǔ)音頻卡工作原理音頻編碼音頻信息處理(核心章節(jié))視覺(jué)媒體信息的處理(核心章節(jié))
第2頁(yè)2.1數(shù)字音頻基礎(chǔ)數(shù)字音頻的采樣與量化音頻數(shù)字化:模擬音頻信號(hào)有限個(gè)數(shù)字表示的離散序列音頻的采樣:按一定的時(shí)間間隔(T)取值,得到x(nT).T稱為采樣周期,1/T稱為采樣頻率。稱x(nT)為離散信號(hào)。
常用的采樣頻率:8kHz,11.025kHz,22.050kHz,44.1kHz,8kHz,16kHz,48kHz.第3頁(yè)數(shù)字音頻的采樣與量化音頻的量化:先將整個(gè)幅度劃分為有限個(gè)小幅度(量化階距)的集合,把落入某個(gè)階距內(nèi)的樣本值歸為一類,并賦予相同的量化值。如果量化值是均勻分布的,稱為均勻量化。
設(shè)Δ為量化階距,Xmax為量化器最大范圍,則:對(duì)于樣值s,如果,則其量化值均為。2.1數(shù)字音頻基礎(chǔ)第4頁(yè)2.1數(shù)字音頻基礎(chǔ)音頻信息的采集(錄制)用MicrosoftWindows——錄音機(jī)進(jìn)行錄音,形成.wav格式文件。第5頁(yè)2.1數(shù)字音頻基礎(chǔ)音頻信息的采集(錄制)用CoolEditPro的錄音功能進(jìn)行錄音第6頁(yè)2.1數(shù)字音頻基礎(chǔ)音頻信息的采集(錄制)用Matlab語(yǔ)言實(shí)現(xiàn)錄音,存儲(chǔ),播放(DEMO)%用單聲道錄音,存儲(chǔ),播放Fs=11025;y=wavrecord(5*Fs,Fs,'double');wavplay(y,Fs);wavwrite(y,Fs,'testlininrecord.wav')%用雙聲道錄音,存儲(chǔ),播放Fs=11025;y=wavrecord(5*Fs,Fs,2,'double');wavplay(y,Fs);wavwrite(y,Fs,'testlininrecord2.wav')探究式學(xué)習(xí)audiorecorder();audioplayer;pause();resume();play();stop();第7頁(yè)2.1數(shù)字音頻基礎(chǔ)音頻信息的顯示與理解聲音是由于空氣振動(dòng)產(chǎn)生的,其表現(xiàn)形式就是聲波。聲波的振幅決定音量的大小聲波的頻率決定音調(diào)第8頁(yè)wav文件格式wav文件:Microsoft公司的音頻文件格式。記錄聲音波形。利用該格式記錄的聲音文件能夠和原聲基本一致,質(zhì)量非常高,但這樣做的代價(jià)就是文件太大。wav文件所需存儲(chǔ)空間(byte/sec)采樣頻率(Hz)×量化位數(shù)(bit)×聲道數(shù)/82.1數(shù)字音頻基礎(chǔ)常用音頻文件格式第9頁(yè)2.1數(shù)字音頻基礎(chǔ)mp3數(shù)字音頻的文件格式
MPEG-1,Layer-3,擴(kuò)展名MP3:現(xiàn)在最流行的聲音文件格式,因其壓縮率大,在網(wǎng)絡(luò)可視電話通信方面應(yīng)用廣泛,但和CD唱片相比,音質(zhì)不能令人非常滿意。RealAudio數(shù)字音頻的文件格式RealAudio,擴(kuò)展名rm:壓縮比大,失真小。與MP3相同,它也是為了解決網(wǎng)絡(luò)傳輸帶寬資源而設(shè)計(jì)的,因此主要目標(biāo)是壓縮比和容錯(cuò)性,其次才是音質(zhì)。常用音頻文件格式第10頁(yè)2.1數(shù)字音頻基礎(chǔ)音頻信號(hào)的分類語(yǔ)音信號(hào),有復(fù)雜的語(yǔ)義和語(yǔ)法信息(<4kHz)非語(yǔ)音信號(hào),分為樂(lè)音和雜音(頻帶比較寬20Hz~20kHz)音頻信號(hào)處理的特點(diǎn):時(shí)序性要求高,若有25ms延遲,人就會(huì)感到斷續(xù)。由于人接受聲音有兩個(gè)通道,理想的合成聲音應(yīng)是立體聲。第11頁(yè)2.2音頻卡工作原理音頻卡的功能和分類音頻錄制和播放編輯和合成MIDI和音樂(lè)合成文語(yǔ)轉(zhuǎn)換和語(yǔ)音識(shí)別游戲桿接口音頻卡第12頁(yè)2.2音頻卡工作原理音頻錄制和播放使用音頻卡錄制和播放聲音的過(guò)程常用音頻錄放采用:
數(shù)字化音頻采樣頻率范圍:8k~44.1kHz,8000,11025,22050,44100
量化器:8位/16位/24位通道數(shù):立體聲/單聲道基本編碼方法:PCM(脈沖編碼調(diào)制)
壓縮編碼方法:ADPCM,CCITT(國(guó)際電話電報(bào)咨詢委員會(huì))A律,
CCITT律錄音聲源:麥克風(fēng)、立體聲線路輸入、CD
輸出功放:直接驅(qū)動(dòng)揚(yáng)聲器,且輸出音量可調(diào)
第13頁(yè)2.2音頻卡工作原理文語(yǔ)轉(zhuǎn)換和語(yǔ)音識(shí)別文語(yǔ)轉(zhuǎn)換(texttospeech)語(yǔ)音識(shí)別軟件(IBM—Viavoice,MicrosoftSoundSystem—VoicePilot,SoundBlaster—VoiceAssist)游戲棒接口可接一至兩個(gè)游戲棒。MIDI(MusicalInstrumentDigitalInterface)接口與音樂(lè)合成聲音的編輯與合成第14頁(yè)2.2音頻卡工作原理音頻卡的工作原理聲音的合成與處理混合信號(hào)處理器及功放計(jì)算機(jī)總線接口及控制器第15頁(yè)2.2音頻卡工作原理音頻卡的工作原理聲音的合成與處理(核心),完成聲波信號(hào)的A/D,D/A轉(zhuǎn)換,利用調(diào)頻技術(shù)控制聲音的音調(diào)、音色和幅度數(shù)字聲音處理器FM音樂(lè)合成器MIDI控制器混合信號(hào)處理器及功放,內(nèi)置D/A混音器,聲源可以是MIDI信號(hào),線入,CD音頻,MIC,揚(yáng)聲器等??蛇x擇一或多聲源混合錄音。計(jì)算機(jī)接口與控制器,總線接口與控制器由數(shù)據(jù)總線雙向控制器、總線接口控制邏輯、總線中斷邏輯及DMA控制邏輯構(gòu)成。第16頁(yè)2.2音頻卡工作原理音頻卡的接口第17頁(yè)時(shí)域信息的冗余度語(yǔ)音幅度的非均勻分布(小幅度樣本出現(xiàn)概率高)樣本間的相關(guān)性(鄰近樣本之間樣本存在相關(guān)性)例:采樣頻率為8kHz時(shí),相鄰取樣值之間相關(guān)系數(shù)大于0.852.3音頻編碼音頻編碼基礎(chǔ)FFT變換結(jié)果小幅度樣本出現(xiàn)概率高DEMOFreq_main.m第18頁(yè)時(shí)域信息的冗余度靜止系數(shù)(話音間隔是一種冗余)周期之間的相關(guān)性(某一聲音在特定瞬間內(nèi),往往只是該頻帶內(nèi)的少數(shù)頻率成分起作用,且周期之間,存在相關(guān)性)2.3音頻編碼音頻編碼基礎(chǔ)第19頁(yè)2.3音頻編碼音頻編碼基礎(chǔ)時(shí)域信息的冗余度基音之間的相關(guān)性(男聲基音周期5~20ms,女聲基音周期2.5~10ms)?濁音:由聲帶振動(dòng)產(chǎn)生,激勵(lì)聲道的各股氣流之間的間隔稱為音調(diào)間隔或基音周期。濁音具有周期性(2~20ms)
?清音:分為摩擦音和爆破音兩種。比濁音更具隨機(jī)性。濁音段波形清音段波形8ms第20頁(yè)2.3音頻編碼音頻編碼基礎(chǔ)人的聽(tīng)覺(jué)感知機(jī)理人的聽(tīng)覺(jué)具有掩蔽效應(yīng),可分為:
?同時(shí)掩蔽:強(qiáng)聲弱聲同時(shí)存在,強(qiáng)聲使弱聲難以聽(tīng)見(jiàn)的現(xiàn)象
?異時(shí)掩蔽:聲音在不同時(shí)間先后發(fā)生,強(qiáng)聲使其周圍的弱聲難以聽(tīng)見(jiàn)的現(xiàn)象。人耳對(duì)于不同頻段的聲音的敏感程度不同人耳對(duì)低頻端較之高頻端敏感人耳對(duì)語(yǔ)音信號(hào)的相位變化不敏感對(duì)于人耳聽(tīng)不到或感知極不靈敏的聲音分量可以視為冗余第21頁(yè)2.3音頻編碼音頻編碼標(biāo)準(zhǔn)由國(guó)際電報(bào)電話咨詢委員會(huì)(CCITT)和國(guó)際標(biāo)準(zhǔn)化組織(ISO)提出音頻編碼建議G.711(1972)G.721(1984,1986修訂)G.722G.728(1992)MPEG(MovingPictureExpertGroup)DOLBYAC-3第22頁(yè)2.3音頻編碼幾種重要的音頻編碼——PCM脈沖編碼調(diào)制PCM(pulsecodemodulation)概念最簡(jiǎn)單,理論上最完善,應(yīng)用最廣泛的編碼系統(tǒng)數(shù)據(jù)量最大PCM編碼原理?防失真濾波器濾除聲音頻帶以外的信號(hào)(20Hz~20kHz);?波形編碼器可理解為“采樣器”?量化器可理解為“量化間隔”生成器或“量化階大小”生成器
第23頁(yè)2.3音頻編碼量化的基本方法分為:均勻量化和非均勻量化均勻量化是指采用相等的量化間隔對(duì)采樣得到的信號(hào)作量化的方法,也稱為線性量化。非均勻量化是指采用不等的量化間隔對(duì)采樣得到的信號(hào)作量化的方法,也稱為非線性量化。
幾種重要的音頻編碼——PCM第24頁(yè)量化箱等寬,量化誤差大2.3音頻編碼幾種重要的音頻編碼——PCM?均勻量化第25頁(yè)?非均勻量化(非線性量化)
量化箱不等寬,可以在滿足精度要求的條件下,得到較高的壓縮率!2.3音頻編碼幾種重要的音頻編碼——PCM第26頁(yè)?量化特征曲線2.3音頻編碼幾種重要的音頻編碼——PCM非均勻量化特征曲線示意圖均勻量化特征曲線示意圖X(輸入)y(輸出)000001010011000001010011非均勻量化間隔第27頁(yè)?對(duì)于均勻量化而言量化級(jí)數(shù)越多,量化誤差越小,而壓縮率也??;量化級(jí)數(shù)越少,量化誤差越大,而壓縮率越大。矛盾2.3音頻編碼幾種重要的音頻編碼——PCM?采用相同量化級(jí)數(shù),均勻量化與非均勻量化比較而言均勻量化——量化誤差大,但易于硬件實(shí)現(xiàn);非均勻量化——量化誤差小,但難于硬件實(shí)現(xiàn)。第28頁(yè)2.3音頻編碼幾種重要的音頻編碼——PCM脈沖編碼調(diào)制PCM(pulsecodemodulation)律(
-law)壓擴(kuò)(非均勻量化,對(duì)數(shù)PCM)(G.711)主要用在北美和日本等地區(qū)的數(shù)字電話通信中,量化輸入和輸出之間的關(guān)系式中:x為輸入信號(hào)幅度,規(guī)格化成
為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比,取第29頁(yè)2.3音頻編碼幾種重要的音頻編碼——PCM脈沖編碼調(diào)制PCM(pulsecodemodulation)
A律(A-law)壓擴(kuò)(另一種非均勻量化方法)(G.711)主要用在歐洲和中國(guó)等地區(qū)的數(shù)字電話通信中,量化輸入和輸出之間的關(guān)系式中:x為輸入信號(hào)幅度,規(guī)格化成A律壓擴(kuò)前一部分是線性的,其余部分與律壓擴(kuò)相同。A=87.56第30頁(yè)2.3音頻編碼幾種重要的音頻編碼——PCM脈沖編碼調(diào)制PCM(pulsecodemodulation)對(duì)于采樣頻率為8kHz,樣本精度為13bit,14bit,16bit的輸入信號(hào),使用律壓擴(kuò)編碼,經(jīng)過(guò)PCM編碼器之后,每個(gè)樣本的精度為8bit,輸出的數(shù)據(jù)率為64kb/s.
此數(shù)據(jù)即為CCITT推薦的G.711標(biāo)準(zhǔn)——
話音頻率脈沖編碼調(diào)制(PCMofVoiceFrequencies)第31頁(yè)2.3音頻編碼幾種重要的音頻編碼——PCMPCM在通信中的應(yīng)用頻分多路復(fù)用(Frequency-divisionMultiplexing,FDM)
把傳輸信道的頻帶分成幾個(gè)窄帶,每個(gè)窄帶傳送一路信號(hào)。?間隔240Hz,保證信道之間不相互干擾;?每對(duì)用戶僅占用一個(gè)信道;?模擬載波通信的主要手段。第32頁(yè)2.3音頻編碼幾種重要的音頻編碼——PCMPCM在通信中的應(yīng)用時(shí)分多路復(fù)用(Time-divisionMultiplexing,TDM)
把傳輸信道按時(shí)間分割,每個(gè)用戶指定一個(gè)時(shí)間間隔,每個(gè)間隔里傳輸信號(hào)的一部分。是數(shù)字通信的主要手段。舉例:若采樣頻率f=8000Hz,它的采樣周期=125,稱為1幀,一幀可容納的話路數(shù)有兩種規(guī)格:24路制和30路制。第33頁(yè)2.3音頻編碼幾種重要的音頻編碼——PCMPCM在通信中的應(yīng)用24路制的重要參數(shù)每秒傳送8000幀,每幀125每幀24個(gè)信道和1個(gè)同步位每個(gè)信道每次傳送8bit代碼,一幀共有8×24+1=193bit數(shù)據(jù)傳輸率:R=8k×193=1544kb/s每一個(gè)電話(每個(gè)信道)的數(shù)據(jù)傳輸率:R=8k×8=64kb/s30路制的重要參數(shù)每秒傳送8000幀,每幀12516幀組成1個(gè)復(fù)幀(用于同步)每幀由32個(gè)時(shí)間片(信道)組成每個(gè)信道每次傳送8bit代碼數(shù)據(jù)傳輸率:R=8k×32×8=2048kb/s每一個(gè)電話(每個(gè)信道)的數(shù)據(jù)傳輸率:R=8k×8=64kb/s第34頁(yè)2.3音頻編碼幾種重要的音頻編碼——PCMTDM技術(shù)已在數(shù)字電話網(wǎng)中廣泛應(yīng)用,反映PCM信號(hào)復(fù)用的復(fù)雜程度的指標(biāo)是“群(group)”一次群(基群):30路(24路)(2048kb/s或1544kb/s)二次群:120路(96路)(8448kb/s或6312kb/s)三次群:480路(384路)(……)二次復(fù)用示意圖第35頁(yè)2.3音頻編碼幾種重要的音頻編碼——APCMAPCM(AdaptivePCM,自適應(yīng)脈沖編碼調(diào)制)
根據(jù)輸入信號(hào)幅度大小來(lái)改變量化階大小的波形編碼技術(shù)。分為:前向自適應(yīng)(ForwardAdaptation)和后向自適應(yīng)(BackwardAdaptation)?前向自適應(yīng)是根據(jù)未量化的樣本值的均方根值來(lái)估算輸入信號(hào)的電平,并以此確定量化階大小。并作為邊信息傳送到接收端。?后向自適應(yīng)是從剛輸出的過(guò)去樣本中提取量化階信息。由于收發(fā)兩段可以自動(dòng)生成量化階,不需傳送邊信息S(k)為發(fā)送端編碼器的輸入信號(hào),Sr(K)為輸出端譯碼器的輸出信號(hào)。第36頁(yè)2.3音頻編碼幾種重要的音頻編碼——DPCMDPCM(DifferentialPCM,差分脈沖編碼調(diào)制)
利用樣本與樣本之間存在的信息冗余度來(lái)進(jìn)行編碼的一種數(shù)據(jù)壓縮技術(shù)。根據(jù)過(guò)去的樣本去估算下一個(gè)樣本信號(hào)的幅度的大?。A(yù)測(cè)值),然后對(duì)實(shí)際信號(hào)值與預(yù)測(cè)值之差進(jìn)行量化編碼。?
Se(k-1)是對(duì)S(k)的預(yù)測(cè)值,而不是過(guò)去樣本的實(shí)際值。對(duì)差值d(k)進(jìn)行量化編碼,用來(lái)補(bǔ)償過(guò)去編碼中產(chǎn)生的量化誤差。?
DPCM是一個(gè)負(fù)反饋系統(tǒng),可以避免量化誤差的積累。?
發(fā)送端和接收端使用相同的逆量化器和預(yù)測(cè)器。重構(gòu)信號(hào)可以從Sr(k)獲得。第37頁(yè)2.3音頻編碼幾種重要的音頻編碼——ADPCMADPCM(自適應(yīng)差分脈沖編碼調(diào)制)
綜合了APCM的自適應(yīng)特性和DPCM系統(tǒng)的差分特性。自適應(yīng)改變量化階的大小,小的量化階編碼小的差值,大的量化階編碼大的差值。使用過(guò)去的樣本值估算下一個(gè)輸入的預(yù)測(cè)值,使實(shí)際樣本值與預(yù)測(cè)值之間差值最小。第38頁(yè)2.3音頻編碼幾種重要的音頻編碼——GSM編譯碼器GSM(GlobalSystemforMobileCommunications,全球數(shù)字移動(dòng)通信系統(tǒng))1992年柏林技術(shù)大學(xué)根據(jù)GSM協(xié)議開(kāi)發(fā)的。
GSM的輸入是幀(Frame)數(shù)據(jù)每幀20ms,由160個(gè)帶符號(hào)樣本組成采樣頻率8KHz每個(gè)樣本為13bit或16bit的線性PCM碼GSM編碼器把一幀(160×16bit)的數(shù)據(jù)壓縮成260bit的GSM幀,數(shù)據(jù)率為260×(1000/20)=13kb/s由于260位不是8位的整數(shù)倍,因此,編碼器輸出的GSM幀為264位的線性PCM碼。壓縮率的計(jì)算:未壓縮數(shù)據(jù)率為:8k×16位=128Kb/sGSM壓縮后264×(1000/20)=13.2kb/s壓縮比近似10:1}第39頁(yè)2.4音頻信息的處理過(guò)去:硬件實(shí)現(xiàn),設(shè)備昂貴,功能不靈活?,F(xiàn)在:軟件實(shí)現(xiàn),數(shù)字信號(hào)處理,功能靈活。倒播(demo:wav_back.m)音量放大縮小(demo:musiclower.m)增加回音(demo:wav_echo.m)濾波(demo:voicefilter.m)聲音合成(demo:musicmerge.m)淡入和淡出(demo:wav_fade_in.m,wav_fade_out.m)交換聲道(demo:wav_exchange.m)第40頁(yè)2.4音頻信息的處理倒播(demo:wav_back.m)原聲聲音試聽(tīng)倒播聲音試聽(tīng)第41頁(yè)2.4音頻信息的處理音量的放大/縮小?用Matlab語(yǔ)言實(shí)現(xiàn)音量的縮?。╩usiclower.m)figure(1)origin=wavread('linein.wav');plot(origin)wavplay(origin,22050);figure(2)lower=origin/4;plot(lower)wavplay(lower,22050);
wavwrite(lower,22050,'lineinlower.wav');?音量的大小是和聲音信號(hào)幅值的大小有關(guān)的,對(duì)于相同的聲音信號(hào)(頻率相同),幅值越大,音量越大,幅值越小,音量越低。試聽(tīng)原始聲音信息音量縮小后結(jié)果試聽(tīng)第42頁(yè)2.4音頻信息的處理音量縮小后聲音波形的比較原始聲音波形音量縮小后聲音波形第43頁(yè)2.4音頻信息的處理聲音的濾波處理?用Matlab語(yǔ)言實(shí)現(xiàn)簡(jiǎn)單的聲音濾波(d:\chapter2\filter\voicefilter_mainf.m)?DEMO無(wú)噪聲有噪聲IIR帶通濾波器濾波后Note:ellip(…),8階橢圓低通數(shù)組濾波器,通帶(passband)允許起伏0.05db,阻帶(stopband)衰減最小值80dbIIR:無(wú)限沖激響應(yīng);FIR有限沖激響應(yīng)第44頁(yè)2.4音頻信息的處理聲音的濾波處理?用Matlab語(yǔ)言實(shí)現(xiàn)簡(jiǎn)單的聲音濾波(voicefilter_mainf.m)v=wavread('hello2');o=voicefilter(v);wavplay(v,22050);wavplay(o,22050);wavwrite(o,22050,'hello_filtered');subplot(3,1,2);plot(v);xlabel('Time');ylabel('Mag.');subplot(3,1,3);sf=filter(b,a,v);plot(sf);xlabel('Time');ylabel('Mag.');out=sf;?voicefilter.mfunctionout=voicefilter(v)Fs=22050;[b,a]=ellip(8,0.05,80,[1504000]*2/Fs);subplot(3,1,1);[H,w]=freqz(b,a,512);(數(shù)字濾波頻率響應(yīng)函數(shù))plot(w*Fs/(2*pi),abs(H));xlabel('Frequency(Hz)');ylabel('Mag.offrequencyresponse');第45頁(yè)2.4音頻信息的處理聲音的濾波處理濾波器頻帶特性原始聲音信號(hào)濾波后聲音信號(hào)第46頁(yè)2.4音頻信息的處理聲音的合成?用Matlab語(yǔ)言實(shí)現(xiàn)簡(jiǎn)單的聲音合成(musicmerge.m)a=wavread('linein.wav');a=a/4;b=wavread('microphone.wav');a1=a(1:120000);b1=b(1:120000);c=a1+b1;wavplay(c,22050);wavwrite(c,22050,'merge.wav');?DEMO聲音1合成結(jié)果+聲音2第47頁(yè)2.4音頻信息的處理音頻卡的合成功能——混合信號(hào)處理器實(shí)驗(yàn)課后實(shí)驗(yàn):LineinMP3+WAV第48頁(yè)2.4音頻信息的處理增加回音(demo:wav_echo.m)v=wavread('linein.wav');w1=[v;zeros(10000,1)];w2=[zeros(10000,1);v];w3=w1+w2/2;wavplay(w3,22050);第49頁(yè)2.4音頻信息的處理聲音的淡入(demo:wav_fade_in.m)v=wavread('linein.wav');len=length(v);w=v;fori=1:(len/2)%淡入過(guò)程
w(i)=v(i)*i/(len/2);%線性漸強(qiáng)end%到一半處達(dá)到原始音量subplot(2,1,1);plot(v);subplot(2,1,2);plot(w);wavplay(w,22050);wavwrite(w,22050,'linein_grad_in.wav');第50頁(yè)2.4音頻信息的處理聲音的淡出(demo:wav_fade_out.m)v=wavread('linein.wav');len=length(v);w=v;fori=1:(len/2)%淡出過(guò)程
w(len-i)=v(len-i)*i/(len/2);end%從一半處開(kāi)始線性衰減subplot(2,1,1);plot(v);subplot(2,1,2);plot(w);wavplay(w,22050);wavwrite(w,22050,'linein_grad_out.wav');
第51頁(yè)2.4音頻信息的處理交換聲道(demo:wav_exchange.m)v=wavread('lq.wav');len=length(v);w=v;fori=1:len%交換聲道
w(i,1)=v(i,2);%又不破壞原聲w(i,2)=v(i,1);endsubplot(2,2,1);plot(v(:,1),'r');subplot(2,2,2);plot(v(:,2));subplot(2,2,3)plot(w(:,1));subplot(2,2,4)plot(w(:,2),'r');wavplay(v,2*22050);wavplay(w,2*22050);wavwrite(w,2*22050,'lq_tc.wav');第52頁(yè)2.4音頻信息的處理交換聲道(demo:wav_exchange.m)變換之前:左聲道:渴望著血脈相通無(wú)限個(gè)千萬(wàn)弟兄….(周杰倫《龍拳》)右聲道:渴望著血脈相通無(wú)限個(gè)千萬(wàn)弟兄….
第53頁(yè)人機(jī)交互手段的變革2.4音頻信息的處理語(yǔ)音識(shí)別語(yǔ)音顯示器交互計(jì)算機(jī)系統(tǒng)音響鍵盤、鼠標(biāo)顯示器交互計(jì)算機(jī)系統(tǒng)第54頁(yè)人機(jī)交互計(jì)算機(jī)語(yǔ)言學(xué)(Computerphonetics)語(yǔ)音編碼(speechcoding)語(yǔ)音合成(speechsynthesis)語(yǔ)音識(shí)別(speechrecognition)語(yǔ)種識(shí)別(languageidentification)說(shuō)話人識(shí)別(speakerrecognition)說(shuō)話人確認(rèn)(speakerverification)2.4音頻信息的處理語(yǔ)音識(shí)別第55頁(yè)語(yǔ)音識(shí)別的發(fā)展和分類發(fā)展1952年,美國(guó)Davis等,世界第一套,識(shí)別10個(gè)英文數(shù)字發(fā)音試驗(yàn)系統(tǒng)50年代后期,我國(guó)第一套,識(shí)別漢語(yǔ)10個(gè)元音1960年,Denes等,第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)70年代后期,小詞匯量、特定人、孤立詞識(shí)別研究取得成果,算法上主要有預(yù)測(cè)分析技術(shù)(LPC)、動(dòng)態(tài)時(shí)間規(guī)劃(DTW)、矢量化技術(shù)(VQ)2.4音頻信息的處理語(yǔ)音識(shí)別第56頁(yè)語(yǔ)音識(shí)別的發(fā)展和分類(Cont.)發(fā)展80年代開(kāi)始,沿三個(gè)方向開(kāi)始研究:特定人->非特定人,孤立詞->連續(xù)詞、小詞匯量->大詞匯量算法:聚類、基于動(dòng)態(tài)規(guī)則的匹配80年代中期,隱馬爾可夫模型(HMM)為基礎(chǔ)的各種系統(tǒng),美國(guó)CMU的Sphinx系統(tǒng)IBM的Tangora20和VoiceType3.0系統(tǒng)DRAGON公司的DragonDictate系統(tǒng)現(xiàn)在:關(guān)鍵時(shí)期,新模型、新方法及實(shí)用化系統(tǒng)研究2.4音頻信息的處理語(yǔ)音識(shí)別第57頁(yè)語(yǔ)音識(shí)別的發(fā)展和分類(Cont.)分類按識(shí)別詞匯量大小分小詞表語(yǔ)音識(shí)別(識(shí)別詞匯<100)中詞表語(yǔ)音識(shí)別(100<識(shí)別詞匯<1000)大詞表語(yǔ)音識(shí)別(識(shí)別詞匯>1000)按語(yǔ)音的輸入方式分孤立詞:以單音節(jié)或短語(yǔ)為條目,條目?jī)?nèi)音節(jié)連續(xù),條目間有明顯停頓,如:0~9數(shù)字,人名、地名、控制命令、英語(yǔ)單詞、漢語(yǔ)音節(jié)、短語(yǔ)連接詞:多條目,需拆分連續(xù)語(yǔ)音:自然語(yǔ)言2.4音頻信息的處理語(yǔ)音識(shí)別第58頁(yè)語(yǔ)音識(shí)別的發(fā)展和分類(Cont.)分類按發(fā)音人特定人:用特定人聲音訓(xùn)練后使用限定人:多個(gè)特定人訓(xùn)練非特定人:不需要訓(xùn)練按實(shí)現(xiàn)技術(shù)分基于模板匹配的基于概率統(tǒng)計(jì)模型2.4音頻信息的處理語(yǔ)音識(shí)別第59頁(yè)音節(jié)性很強(qiáng):每個(gè)字都是以單音節(jié)為單位,共有400多音節(jié),加上四聲共1340個(gè),識(shí)別基元少音節(jié)構(gòu)成,簡(jiǎn)單規(guī)整:聲母+韻母、韻母有調(diào)語(yǔ)言:音節(jié)發(fā)音時(shí)間長(zhǎng),有穩(wěn)定的有調(diào)段音節(jié)偕同發(fā)音與音變少優(yōu)勢(shì)難點(diǎn)2.4音頻信息的處理語(yǔ)音識(shí)別漢語(yǔ)語(yǔ)音識(shí)別漢語(yǔ)特點(diǎn)(相對(duì)于英語(yǔ))同音字多內(nèi)涵語(yǔ)言,語(yǔ)義與上下文、語(yǔ)氣均關(guān)連,語(yǔ)法簡(jiǎn)單、變化靈活憑據(jù)-評(píng)劇-萍聚意義-異議-意譯中國(guó)隊(duì)大勝(大?。┟绹?guó)隊(duì)第60頁(yè)漢語(yǔ)語(yǔ)音識(shí)別漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)工作原理數(shù)據(jù)采集波形自動(dòng)切分預(yù)處理與特征參數(shù)提取聲學(xué)模型時(shí)間對(duì)準(zhǔn)組句分析識(shí)別結(jié)果整句輸出聲學(xué)基元模型庫(kù)語(yǔ)言模型庫(kù)統(tǒng)計(jì)信息與規(guī)則分幀后的語(yǔ)言特征矢量集合聲學(xué)音節(jié)候選語(yǔ)句候選語(yǔ)音流切分參數(shù)提取模板識(shí)別2.4音頻信息的處理語(yǔ)音識(shí)別第61頁(yè)漢語(yǔ)語(yǔ)音識(shí)別(Cont.)漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)工作原理連續(xù)語(yǔ)音流預(yù)處理:模擬語(yǔ)音數(shù)字化信號(hào)處理,包括帶通濾波、變換等波形切分:找出語(yǔ)音信號(hào)中的各種識(shí)別基元(音素、音節(jié)、半音節(jié)、聲韻母、單詞、意群)的起點(diǎn)和終點(diǎn)位置,將連續(xù)語(yǔ)音處理變?yōu)閷?duì)各個(gè)語(yǔ)言單元的處理特征參數(shù)提?。罕磉_(dá)語(yǔ)音特征又能彼此區(qū)別的參數(shù),是語(yǔ)音識(shí)別基礎(chǔ)如:線性預(yù)測(cè)參數(shù)、倒頻譜系數(shù)、………(Ref..\..\Chapter2\語(yǔ)音識(shí)別\倒頻譜系數(shù).doc)參數(shù)模板庫(kù)識(shí)別判決2.4音頻信息的處理語(yǔ)音識(shí)別第62頁(yè)漢語(yǔ)語(yǔ)音識(shí)別(Cont.)語(yǔ)音識(shí)別系統(tǒng)的最終目的不限制說(shuō)話人,即非特定人不限制詞匯量,即基于大詞匯表不限制發(fā)音方式,即識(shí)別連續(xù)自然發(fā)音高識(shí)別率,應(yīng)達(dá)到人對(duì)自然語(yǔ)言的識(shí)別能力2.4音頻信息的處理語(yǔ)音識(shí)別第63頁(yè)漢語(yǔ)語(yǔ)音識(shí)別(Cont.)語(yǔ)音識(shí)別系統(tǒng)的困難使用者的差別大,排除差異、保留共性難(口音、年齡、性別、發(fā)音速度、發(fā)音強(qiáng)度、發(fā)音習(xí)慣)識(shí)別的詞匯量大,將導(dǎo)致系統(tǒng)的識(shí)別性能急劇下降而失去可用性,原因是:1)需要的時(shí)間和空間開(kāi)銷多;2)詞與詞之間的差異細(xì)微;基元的識(shí)別有一定的局限性,而連續(xù)音識(shí)別又不能實(shí)現(xiàn)實(shí)用的系統(tǒng)要求高可靠性,因此參數(shù)的魯棒性、抗噪聲能力,環(huán)境適應(yīng)性等要求高,太復(fù)雜2.4音頻信息的處理語(yǔ)音識(shí)別第64頁(yè)漢語(yǔ)語(yǔ)音識(shí)別(Cont.)語(yǔ)音識(shí)別技術(shù)的應(yīng)用
作為人機(jī)交互的手段,語(yǔ)音識(shí)別是為了實(shí)現(xiàn)聽(tīng)寫和命令控制辦公自動(dòng)化:在多種場(chǎng)合方便文件起草和編輯電話商業(yè)服務(wù):電話和計(jì)算機(jī)語(yǔ)音識(shí)別的結(jié)合,將為語(yǔ)音識(shí)別開(kāi)辟一個(gè)很大的應(yīng)用領(lǐng)域。2.4音頻信息的處理語(yǔ)音識(shí)別30/downloads/big/2005/01/02/0000033406.html4/pub/software/office/IBM的語(yǔ)音認(rèn)證系統(tǒng)第65頁(yè)漢語(yǔ)語(yǔ)音識(shí)別(Cont.)演示(Vista;WindowsPhone7Tellme;iPhone4sSiri)2.4音頻信息的處理語(yǔ)音識(shí)別/v_show/id_XMjk1NTcxODA=.html/v_show/id_XMjE0MDcwODQw.html/v_show/id_XMzEzMTk0Mjcy.html第66頁(yè)2.4音頻信息的處理說(shuō)話人識(shí)別與語(yǔ)音識(shí)別的區(qū)別說(shuō)話人識(shí)別(SpeakerRecognition,SR):從相同的一段語(yǔ)言中,識(shí)別出是誰(shuí)在講話。語(yǔ)音識(shí)別:關(guān)注說(shuō)話的內(nèi)容,把其轉(zhuǎn)換成對(duì)應(yīng)的文字,主要用于語(yǔ)音信息錄入。而不關(guān)注是誰(shuí)在講。第67頁(yè)2.4音頻信息的處理說(shuō)話人識(shí)別技術(shù)說(shuō)話人識(shí)別(SpeakerRecognition,SR):以語(yǔ)音對(duì)說(shuō)話人進(jìn)行區(qū)分,從而進(jìn)行身份鑒別與認(rèn)證的技術(shù)。SR基本問(wèn)題:(1)如何選取能夠唯一表征人的有效而可靠的參量,如何對(duì)它進(jìn)行處理(2)如何規(guī)定相似性的測(cè)度,使相似性的計(jì)算既簡(jiǎn)單又可靠;(3)考慮到人的狀況在不斷變化,為使系統(tǒng)能夠可靠工作,如何使它的參考量不斷更新以適應(yīng)使用者。第68頁(yè)2.4音頻信息的處理說(shuō)話人識(shí)別技術(shù)說(shuō)話人識(shí)別常用技術(shù)(1)模板匹配法(2)概率模型法(如:HMM)(3)矢量量化法(VQ)第69頁(yè)2.5視覺(jué)媒體信息的采集視頻信息的采集計(jì)算機(jī)常用圖像及其獲取手段一張用掃描儀掃描的圖像2400dpi(dotperinch)圖形靜態(tài)圖像動(dòng)態(tài)圖像計(jì)算機(jī)軟件掃描儀視頻數(shù)字化設(shè)備數(shù)碼相機(jī)第70頁(yè)2.5視覺(jué)媒體信息的采集視頻信息的采集計(jì)算機(jī)常用圖像及其獲取手段第71頁(yè)2.5視覺(jué)媒體信息的采集視頻采集卡的分類和特點(diǎn)按輸入信號(hào)類型分為:數(shù)字視頻輸入卡模擬視頻輸入卡數(shù)字視頻卡USB接口:當(dāng)前最流行,低接口成本,傳輸速度(USB2.0為480Mbps,USB1.1為12Mbps
)1394接口:低接口成本(100-300元),傳輸速度(30-40Mbps)CameraLink接口:接口成本(1萬(wàn)元),傳輸速度(>600Mbps)視頻信息的采集——視頻采集卡1394第72頁(yè)視頻采集卡的分類和特點(diǎn)(Cont.)模擬視頻卡黑白/彩色Video(包括:P制、N制和多制)分量輸入(包括:YUV(亮度和色差),電視臺(tái)常用;RBG,醫(yī)學(xué)上常用)S-Video輸入:亮度和色度分離壓縮卡、非壓縮卡2.5視覺(jué)媒體信息的采集視頻信息的采集——視頻采集卡第73頁(yè)視頻采集卡的供應(yīng)商及特點(diǎn)國(guó)外最大廠商:加拿大Matrox其次:比利時(shí)Euresys特點(diǎn):價(jià)格高出國(guó)內(nèi)或合資一個(gè)數(shù)量級(jí),信噪比高,多用于非批量及專業(yè)圖像處理2.5視覺(jué)媒體信息的采集視頻信息的采集——視頻采集卡第74頁(yè)視頻采集卡的供應(yīng)商及特點(diǎn)(Cont.)國(guó)內(nèi)最大廠商:大恒圖像
特點(diǎn):支持多操作系統(tǒng),各特殊需求或行業(yè)的技術(shù)支持強(qiáng),適合中批量的產(chǎn)品開(kāi)發(fā)合資企業(yè):德加拉、圖碼
特點(diǎn):低價(jià)格,不重視個(gè)性服務(wù)(或者說(shuō)技術(shù)來(lái)源于國(guó)外其他企業(yè),技術(shù)服務(wù)成本高),大量產(chǎn)品(硬盤錄像機(jī))用臺(tái)灣:Liseview
特點(diǎn):分工明確,研發(fā)、生產(chǎn)、銷售由不同的企業(yè)完成,OEM(OriginalEquipmentManufacturer)造成多品牌,單家企業(yè)生產(chǎn),批量很大成本很低,適合家庭使用2.5視覺(jué)媒體信息的采集視頻信息的采集——視頻采集卡第75頁(yè)視頻采集卡的工作原理2.5視覺(jué)媒體信息的采集視頻信息的采集——視頻采集卡第76頁(yè)2.5視覺(jué)媒體信息的采集視頻采集卡的硬件安裝與VGA卡連接視頻信息的采集——視頻采集卡第77頁(yè)2.5視覺(jué)媒體信息的采集視頻采集卡的硬件安裝與VGA顯示器連接視頻信息的采集——視頻采集卡第78頁(yè)2.5視覺(jué)媒體信息的采集視頻采集卡的硬件安裝與視頻信號(hào)源的連接
視頻信息的采集——視頻采集卡視頻線(同軸電纜)第79頁(yè)2.5視覺(jué)媒體信息的處理圖像類型真彩色圖像(24bit)又稱RGB圖像,用R、G、B三個(gè)顏色分量表示一個(gè)像素的顏色,通過(guò)三基色可以合成出任意顏色。對(duì)一個(gè)尺寸為m×n的彩色圖像來(lái)說(shuō),在MATLAB中存儲(chǔ)為一個(gè)m×n×3的多維數(shù)組。圖像a中任意一點(diǎn)(x,y)處的像素值a(x,y,1:3);真彩色圖像可用“double”型存儲(chǔ),亮度值的范圍[0,1],(0,0,0)代表黑色,(1,1,1)代表白色真彩色圖像也可用“uint”型存儲(chǔ),亮度值范圍[0,255]第80頁(yè)2.5視覺(jué)媒體信息的處理圖像類型索引色圖像不同顏色對(duì)應(yīng)不同序號(hào),各像素存儲(chǔ)的是顏色的序號(hào),而不是顏色本身。索引色圖像包含兩個(gè)結(jié)構(gòu):調(diào)色板和圖像數(shù)據(jù)矩陣。最多64K。調(diào)色板是一個(gè)m×3的色彩映射矩陣,矩陣的每一行代表一種色彩,通過(guò)三基色顏色強(qiáng)度的雙精度數(shù),形成一種特定的顏色。用Matlab的hot(m)產(chǎn)生一個(gè)m×3的調(diào)色板。顏色從黑經(jīng)過(guò)紅、橘紅、黃到白。第81頁(yè)2.5視覺(jué)媒體信息的處理圖像類型索引色圖像(Demo)Demo:每個(gè)豎線代表一個(gè)顏色索引但是具體顯示顏色由colormap決定imagesc(1:63);colormap(bone);colormap(pink);colormap(hot);Colormap有:Autumn,bone,colorcube,cool,copper,flag,gray,hotHsv,jet,lines,pink,prism,summer,white,winter第82頁(yè)2.5視覺(jué)媒體信息的處理圖像類型Demo:RGB—索引色m1=imread('cyx.JPG');imagesc(dither(m1,bone));imagesc(dither(m1,hot));imagesc(dither(m1,cool));imagesc(dither(m1,pink));imagesc(dither(m1,bone));colormap(bone);DITHERConvertimageusingdithering.X=DITHER(RGB,MAP)createsanindexedimageapproximationoftheRGBimageinthearrayRGBbyditheringthecolorsincolormapMAP.MAPcannothavemorethan65536colors.Demo:RGB—索引色RGB=imread('cyx.jpg');[X,map]=rgb2ind(RGB,16);imshow(X,map);IMAGESCScaledataanddisplayasimage.IMAGESC(...)isthesameasIMAGE(...)exceptthedataisscaledtousethefullcolormap.第83頁(yè)2.5視覺(jué)媒體信息的處理圖像類型灰度圖像灰度圖像只有強(qiáng)度信息,而沒(méi)有顏色信息。存儲(chǔ)灰度圖像只需要一個(gè)數(shù)據(jù)矩陣,每個(gè)元素表示對(duì)應(yīng)位置的像素的灰度值?;叶葓D像的數(shù)據(jù)類型可以是double型,也可以是uint型。二值圖像只有黑白兩種值的圖像。每個(gè)像素只取0或者1兩個(gè)數(shù)。第84頁(yè)2.5視覺(jué)媒體信息的處理彩色空間(review)RGBHSV(HSI):面向用戶的一種符合主觀感覺(jué)的色彩模型,比RGB更接近人們對(duì)顏色的感知。H(Hue)色度,表示顏色的種類;由0變到1,HSV顏色由紅變?yōu)辄S,綠、青(cyan)、洋紅(magenta)、然后變回紅色。S(Saturation)飽和度;由0變到1,顏色由不飽和變?yōu)轱柡?。V(Value)亮度;由0變到1,顏色越來(lái)越亮。第85頁(yè)2.5視覺(jué)媒體信息的處理彩色空間的理解DEMO:用PHOTOSHOP體會(huì)HSV和RGB彩色空間第86頁(yè)2.5視覺(jué)媒體信息的處理RGB圖像空間的理解DEMO:D:\Chapter2\imrender.m第87頁(yè)2.5視覺(jué)媒體信息的處理RGB圖像空間的理解如何繪制二次色圖呢?第88頁(yè)2.5視覺(jué)媒體信息的處理RGB圖像空間的理解RGB第89頁(yè)2.5視覺(jué)媒體信息的處理靜態(tài)圖像的文件格式圖形變換格式(graphicsinterchangeformat,GIF)由Compu-Serve公司于1987年為制定彩色圖像傳輸協(xié)議而開(kāi)發(fā)的,它支持64000像素的圖像,256到16M色的調(diào)色板
支持一個(gè)文件包含多個(gè)子圖像(也稱子文件subfiles)圖像文件格式及其轉(zhuǎn)換GIF格式文件第90頁(yè)2.5視覺(jué)媒體信息的處理靜態(tài)圖像的文件格式圖形變換格式(graphicsinterchangeformat,GIF)
圖像文件格式及其轉(zhuǎn)換DEMO:用FLASH制作含多個(gè)子圖像的GIF格式文件制作步驟:(1)插入文本(2)右鍵,轉(zhuǎn)換為圖形元件(3)20幀處插入關(guān)鍵幀(4)用變形工具將文字變形(5)插入補(bǔ)間動(dòng)畫(6)發(fā)布設(shè)置,選中GIF(7)在GIF選項(xiàng)卡中將“動(dòng)畫”選中(8)導(dǎo)出成GIF格式動(dòng)畫第92頁(yè)2.5視覺(jué)媒體信息的處理靜態(tài)圖像的文件格式標(biāo)記圖像文件格式(tagimagefileformat,TIFF),也支持一個(gè)文件包含多個(gè)子圖像圖像文件格式及其轉(zhuǎn)換TIFF格式文件第93頁(yè)2.5視覺(jué)媒體信息的處理靜態(tài)圖像的文件格式目標(biāo)圖像格式(targetimageformat,TGA)
TIPS軟件使用的文件格式。由描述圖像屬性的文件頭(header)和描述各點(diǎn)像素值的文件體(body)組成圖像文件格式及其轉(zhuǎn)換TGA圖像文件結(jié)構(gòu)原理圖第94頁(yè)2.5視覺(jué)媒體信息的處理靜態(tài)圖像的文件格式位圖(bitmap,BMP)與設(shè)備無(wú)關(guān)
Windows推薦使用位映射的存儲(chǔ)形式圖像文件格式及其轉(zhuǎn)換BMP圖像文件結(jié)構(gòu)原理圖第95頁(yè)2.5視覺(jué)媒體信息的處理動(dòng)態(tài)圖像的文件格式AVI格式文件轉(zhuǎn)換為MPEG格式DEMO(AimOne)DEMO(WinMPG)圖像文件格式及其轉(zhuǎn)換Drive.aviDrive.mpg第96頁(yè)2.5視覺(jué)媒體信息的處理動(dòng)態(tài)圖像的文件格式AVI格式文件轉(zhuǎn)換為.GIF格式圖像DEMO(AniMake):用WindowsMovieMaker錄像,用AniMake進(jìn)行文件格式轉(zhuǎn)換,保存為序列GIF圖,改變播放速度,改變播放順序,改變圖片方向,在某(些)幀增加說(shuō)明性文字。用Photoshop處理,然后返回保存圖像文件格式及其轉(zhuǎn)換Drive.aviDrive.gif第97頁(yè)用Matlab實(shí)現(xiàn)圖像的讀寫和顯示命令1:imread
Imread函數(shù),用于讀入各種圖像文件舉例:img1=imread(‘huangguoshu.jpg’);命令2:imwriteImwrite函數(shù),用于讀入各種圖像文件舉例:img1=imwrite(‘huangguoshu.jpg’);命令3:imageImage函數(shù),用于顯示圖像文件舉例image(img1);2.5視覺(jué)媒體信息的處理視頻信息的處理——讀寫和顯示圖像文件第98頁(yè)用Matlab實(shí)現(xiàn)圖像的疊加效果(DEMO)m1=imread('koala.JPG');m2=imread('penguins.JPG');axes('position',[0011]);image((double(m1)/2+double(m2)/2)/256);colorbar;2.5視覺(jué)媒體信息的處理視頻信息的處理——圖像的疊加、二值化、邊緣提取用Matlab實(shí)現(xiàn)圖像的二值化m1=imread('koala.JPG');im2bw(m1);第99頁(yè)2.5視覺(jué)媒體信息的處理圖像信息的處理——邊緣提取與圖像切割用Matlab實(shí)現(xiàn)邊緣提?。ǚ椒ㄒ唬﹎1=imread('cyx.JPG');imshow(bwperim(im2bw(m1)));用Matlab實(shí)現(xiàn)邊緣提?。ǚ椒ǘ﹎1=imread('cyx.JPG');imshow(edge(rgb2gray(m1),'canny'));用Matlab實(shí)現(xiàn)圖像切割m1=imread('huangguoshu.JPG');subplot(1,2,1);axisequal;image(m1);subplot(1,2,2);axisequal;image(m1(300:1300,200:1200,:));試驗(yàn)另一種算子:‘prewitt’第100頁(yè)用Matlab實(shí)現(xiàn)移動(dòng)目標(biāo)提?。◣罘ǎゝunctionimgdiffimg1=imread('i1.bmp');img2=imread('i2.bmp');h=figure(1);set(h,'Position',[1040300*3200]);sub1=subplot(1,3,1);set(sub1,'Position',[001/31]);image(img1);axisoff;sub2=subplot(1,3,2);set(sub2,'Position',[1/301/31]);image(img2);axisoff;sub3=subplot(1,3,3);set(sub3,'Position',[2/301/31]);image(uint8(abs(double(img2)-double(img1))));axisoff;return;2.5視覺(jué)媒體信息的處理視頻信息的處理——移動(dòng)目標(biāo)提取第101頁(yè)2.5視覺(jué)媒體信息的處理Demo(D:\Chapter2\imageprocessing\imgdiff.m)視頻信息的處理——移動(dòng)目標(biāo)提取背景圖一幀圖像幀差法處理后圖像第102頁(yè)2.5視覺(jué)媒體信息的處理基于文字本質(zhì)特征的方法視頻信息的處理——文字提取文字有線段構(gòu)成每個(gè)線段寬度基本相同每個(gè)線段長(zhǎng)寬比例適中第103頁(yè)2.5視覺(jué)媒體信息的處理Demo視頻信息的處理——文字提取原始視頻信息文字提取結(jié)果第104頁(yè)2.5視覺(jué)媒體信息的處理視頻信息的處理——文字提取系統(tǒng)構(gòu)成第105頁(yè)2.5視覺(jué)媒體信息的處理視頻信息的處理——文字提取系統(tǒng)工作原理OCR(OpticalCharacterRecognition,光學(xué)字符識(shí)別)中國(guó)OCR信息網(wǎng)
第106頁(yè)2.5視覺(jué)媒體信息的處理視頻信息的處理——文字提取OCR在線識(shí)別DEMO原文件。A.ImageCuttingandRotationAfterdetectingthecharacters,weshouldintegratesomesinglecharactersintoone
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 微生物學(xué)檢驗(yàn)技術(shù) 課件 32項(xiàng)目三十二:檢驗(yàn)結(jié)果報(bào)告
- 城建大棚合同范本
- 柴油行業(yè)供需現(xiàn)狀與發(fā)展戰(zhàn)略規(guī)劃
- 買賣合同范本真實(shí)
- 捕魚合同范本
- 《控制系統(tǒng)計(jì)算機(jī)輔助設(shè)計(jì)在數(shù)控系統(tǒng)中的應(yīng)用研究》
- 幼兒園安全教育主題班會(huì)
- 《內(nèi)部控制視角下圣萊達(dá)公司財(cái)務(wù)舞弊案例研究》
- 《基于S-O-R理論的虛擬求職社群互動(dòng)對(duì)求職傾向的影響機(jī)制研究》
- 《免充氣經(jīng)腋窩入路腔鏡甲狀腺手術(shù)與傳統(tǒng)頸前開(kāi)放手術(shù)的臨床對(duì)比研究》
- 在中職課堂教學(xué)中實(shí)施“任務(wù)驅(qū)動(dòng)教學(xué)法”研究課題研究 方案
- zwk系列微機(jī)控制熱變形維卡試驗(yàn)機(jī)使用書說(shuō)明書
- 中國(guó)剪紙文化英文ppt
- 石化廠審計(jì)報(bào)告參考范本
- 抗風(fēng)柱計(jì)算(2012年版規(guī)范)
- 山東省醫(yī)院目錄
- 蔬菜采購(gòu)合同水果蔬菜采購(gòu)合同
- BBC美麗中國(guó)英文字幕
- 鋼軌尺寸規(guī)格
- 民航概論課程標(biāo)準(zhǔn)
- 鋼管及支架除銹及防腐施工方案
評(píng)論
0/150
提交評(píng)論