第二章——多媒體數(shù)據(jù)處理技術(shù)2014-_第1頁
第二章——多媒體數(shù)據(jù)處理技術(shù)2014-_第2頁
第二章——多媒體數(shù)據(jù)處理技術(shù)2014-_第3頁
第二章——多媒體數(shù)據(jù)處理技術(shù)2014-_第4頁
第二章——多媒體數(shù)據(jù)處理技術(shù)2014-_第5頁
已閱讀5頁,還剩114頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第1頁n 數(shù)字音頻基礎(chǔ)n 音頻卡工作原理n 音頻編碼n 音頻信息處理(核心章節(jié))n 視覺媒體信息的處理(核心章節(jié)) 第2頁n 數(shù)字音頻的采樣與量化n音頻數(shù)字化:模擬音頻信號音頻數(shù)字化:模擬音頻信號有限個數(shù)字表示的離散有限個數(shù)字表示的離散序列序列n音頻的采樣:按一定的時(shí)間間隔(音頻的采樣:按一定的時(shí)間間隔(T)取值,得到)取值,得到x(nT).T稱為采樣周期,稱為采樣周期,1/T稱為采樣頻率。稱稱為采樣頻率。稱x(nT)為為離散信號。離散信號。 n常用的采樣頻率:常用的采樣頻率:8kHz, 11.025kHz, 22.050kHz, 44.1kHz, 8kHz,16kHz, 48kHz.第3頁n

2、 數(shù)字音頻的采樣與量化n音頻的量化:先將整個幅度劃分為有限個小幅度(量音頻的量化:先將整個幅度劃分為有限個小幅度(量化階距)的集合,把落入某個階距內(nèi)的樣本值歸為一化階距)的集合,把落入某個階距內(nèi)的樣本值歸為一類,并賦予相同的量化值。如果量化值是均勻分布的,類,并賦予相同的量化值。如果量化值是均勻分布的,稱為均勻量化。稱為均勻量化。 設(shè)設(shè)為量化階距,為量化階距,Xmax為量化器最大范圍,則:為量化器最大范圍,則:對于樣值對于樣值s, , 如果如果 ,則其量化值,則其量化值均為均為 。max22BX1122isi i第4頁n 音頻信息的采集(錄制)n用Microsoft Windows錄音機(jī)進(jìn)行錄

3、音,形成.wav格式文件。第5頁n 音頻信息的采集(錄制)n用CoolEditPro的錄音功能進(jìn)行錄音第6頁n 音頻信息的采集(錄制)n用Matlab語言實(shí)現(xiàn)錄音,存儲,播放(DEMO) 用單聲道錄音,存儲,播放Fs=11025;y=wavrecord(5*Fs, Fs, double);wavplay(y,Fs);wavwrite(y, Fs, testlininrecord.wav)用雙聲道錄音,存儲,播放Fs=11025;y=wavrecord(5*Fs, Fs, 2, double);wavplay(y,Fs);wavwrite(y, Fs, testlininrecord2.wav)

4、audiorecorder();audioplayer;pause();resume();play();stop();第7頁n 音頻信息的顯示與理解聲音是由于空氣振動產(chǎn)聲音是由于空氣振動產(chǎn)生的,其表現(xiàn)形式就是生的,其表現(xiàn)形式就是聲波。聲波。聲波的振幅決定音量的聲波的振幅決定音量的大小大小聲波的頻率決定音調(diào)聲波的頻率決定音調(diào)第8頁nwav文件格式nwav文件:文件:Microsoft公司的音頻文件格式。記錄公司的音頻文件格式。記錄聲音波形。聲音波形。n利用該格式記錄的聲音文件能夠和原聲基本一致,利用該格式記錄的聲音文件能夠和原聲基本一致,質(zhì)量非常高,但這樣做的代價(jià)就是文件太大。質(zhì)量非常高,但這樣

5、做的代價(jià)就是文件太大。nwav文件所需存儲空間(文件所需存儲空間(byte/sec) 采樣頻率采樣頻率(Hz)量化位數(shù)量化位數(shù)(bit)聲道數(shù)聲道數(shù)/8n常用音頻文件格式第9頁nmp3數(shù)字音頻的文件格式 MPEG-1,Layer-3,擴(kuò)展名,擴(kuò)展名MP3:現(xiàn)在最流行的聲:現(xiàn)在最流行的聲音文件格式,因其壓縮率大,在網(wǎng)絡(luò)可視電話通信方面應(yīng)音文件格式,因其壓縮率大,在網(wǎng)絡(luò)可視電話通信方面應(yīng)用廣泛,但和用廣泛,但和CD唱片相比,音質(zhì)不能令人非常滿唱片相比,音質(zhì)不能令人非常滿意意。nReal Audio數(shù)字音頻的文件格式 Real Audio,擴(kuò)展名,擴(kuò)展名rm:壓縮比大,失真小。壓縮比大,失真小。與與

6、MP3相同,它也是為了解決網(wǎng)絡(luò)傳輸帶寬資源而設(shè)計(jì)的,因此相同,它也是為了解決網(wǎng)絡(luò)傳輸帶寬資源而設(shè)計(jì)的,因此主要目標(biāo)是主要目標(biāo)是壓縮比和容錯性,其次才是音質(zhì)壓縮比和容錯性,其次才是音質(zhì)。n常用音頻文件格式第10頁n音頻信號的分類n語音信號,有復(fù)雜的語義和語法信息(語音信號,有復(fù)雜的語義和語法信息(非特非特定人,孤立詞定人,孤立詞連續(xù)詞、小詞匯量連續(xù)詞、小詞匯量大詞匯量大詞匯量 算法算法:聚類、基于動態(tài)規(guī)則的匹配:聚類、基于動態(tài)規(guī)則的匹配n80年代中期,年代中期,隱馬爾可夫模型隱馬爾可夫模型(HMM)為基礎(chǔ)的各種系為基礎(chǔ)的各種系統(tǒng),美國統(tǒng),美國CMU的的Sphinx系統(tǒng)系統(tǒng) IBM的的Tangor

7、a20和和VoiceType3.0系統(tǒng)系統(tǒng) DRAGON公司的公司的Dragon Dictate系統(tǒng)系統(tǒng)n現(xiàn)在:關(guān)鍵時(shí)期,新模型、新方法及實(shí)用化系統(tǒng)研究現(xiàn)在:關(guān)鍵時(shí)期,新模型、新方法及實(shí)用化系統(tǒng)研究n 語音識別第57頁n 語音識別的發(fā)展和分類(Cont.)n分類n按識別詞匯量大小分按識別詞匯量大小分n小詞表語音識別小詞表語音識別(識別詞匯識別詞匯100)n中詞表語音識別中詞表語音識別(100識別詞匯識別詞匯1000)n按語音的輸入方式分按語音的輸入方式分n孤立詞:以單音節(jié)或短語為條目,條目內(nèi)音節(jié)連續(xù),孤立詞:以單音節(jié)或短語為條目,條目內(nèi)音節(jié)連續(xù),條目間有明顯停頓,如:條目間有明顯停頓,如:09

8、數(shù)字,人名、地名、控?cái)?shù)字,人名、地名、控制命令、英語單詞、漢語音節(jié)、短語制命令、英語單詞、漢語音節(jié)、短語n連接詞:多條目,需拆分連接詞:多條目,需拆分n連續(xù)語音:自然語言連續(xù)語音:自然語言n 語音識別第58頁n 語音識別的發(fā)展和分類(Cont.)n分類n按發(fā)音人按發(fā)音人n特定人:用特定人聲音訓(xùn)練后使用特定人:用特定人聲音訓(xùn)練后使用n限定人:多個特定人訓(xùn)練限定人:多個特定人訓(xùn)練n非特定人:不需要訓(xùn)練非特定人:不需要訓(xùn)練n按實(shí)現(xiàn)技術(shù)分按實(shí)現(xiàn)技術(shù)分n基于模板匹配的基于模板匹配的n基于概率統(tǒng)計(jì)模型基于概率統(tǒng)計(jì)模型n 語音識別第59頁n音節(jié)性很強(qiáng):每個字都是以單音節(jié)為單位,共有音節(jié)性很強(qiáng):每個字都是以單

9、音節(jié)為單位,共有400400多音多音節(jié),加上四聲共節(jié),加上四聲共13401340個,識別基元少個,識別基元少n音節(jié)構(gòu)成,簡單規(guī)整:聲母韻母、韻母音節(jié)構(gòu)成,簡單規(guī)整:聲母韻母、韻母n有調(diào)語言:音節(jié)發(fā)音時(shí)間長,有穩(wěn)定的有調(diào)段有調(diào)語言:音節(jié)發(fā)音時(shí)間長,有穩(wěn)定的有調(diào)段n音節(jié)偕同發(fā)音與音變少音節(jié)偕同發(fā)音與音變少優(yōu)勢優(yōu)勢難點(diǎn)難點(diǎn)n 語音識別n 漢語語音識別n漢語特點(diǎn)(相對于英語)n同音字多同音字多n內(nèi)涵語言,語義與上下文、語氣均關(guān)連,語法簡單、變化內(nèi)涵語言,語義與上下文、語氣均關(guān)連,語法簡單、變化靈活靈活憑據(jù)憑據(jù)-評劇評劇-萍聚萍聚意義意義-異議異議-意譯意譯中國隊(duì)大勝(大敗)美國隊(duì)中國隊(duì)大勝(大?。┟绹?/p>

10、隊(duì)第60頁n 漢語語音識別n漢語語音識別系統(tǒng)工作原理數(shù)據(jù)采集波形自動切分預(yù)處理與特征參數(shù)提取聲學(xué)模型時(shí)間對準(zhǔn)組句分析識別結(jié)果整句輸出聲學(xué)基元模型庫語言模型庫統(tǒng)計(jì)信息與規(guī)則分幀后的語言特征矢量集合聲學(xué)音節(jié)候選語句候選語音流切分參數(shù)提取模板識別n 語音識別第61頁n 漢語語音識別(Cont.)n漢語語音識別系統(tǒng)工作原理n連續(xù)語音流預(yù)處理:連續(xù)語音流預(yù)處理:n模擬語音數(shù)字化模擬語音數(shù)字化n信號處理,包括帶通濾波、變換等信號處理,包括帶通濾波、變換等n波形切分:找出語音信號中的各種識別基元(音素、音節(jié)、波形切分:找出語音信號中的各種識別基元(音素、音節(jié)、半音節(jié)、聲韻母、單詞、意群)的起點(diǎn)和終點(diǎn)位置,將

11、連半音節(jié)、聲韻母、單詞、意群)的起點(diǎn)和終點(diǎn)位置,將連續(xù)語音處理變?yōu)閷Ω鱾€語言單元的處理續(xù)語音處理變?yōu)閷Ω鱾€語言單元的處理n特征參數(shù)提?。禾卣鲄?shù)提?。簄表達(dá)語音特征又能彼此區(qū)別的參數(shù),是語音識別基礎(chǔ)表達(dá)語音特征又能彼此區(qū)別的參數(shù),是語音識別基礎(chǔ)n如:線性預(yù)測參數(shù)、倒頻譜系數(shù)、如:線性預(yù)測參數(shù)、倒頻譜系數(shù)、(RefRef.Chapter 2.Chapter 2語音識別語音識別 倒頻譜系數(shù)倒頻譜系數(shù).doc.doc)n參數(shù)模板庫參數(shù)模板庫n識別判決識別判決n 語音識別第62頁n 漢語語音識別(Cont.)n語音識別系統(tǒng)的最終目的n不限制說話人,即非特定人不限制說話人,即非特定人n不限制詞匯量,即基

12、于大詞匯表不限制詞匯量,即基于大詞匯表n不限制發(fā)音方式,即識別連續(xù)自然發(fā)音不限制發(fā)音方式,即識別連續(xù)自然發(fā)音n高識別率,應(yīng)達(dá)到人對自然語言的識別能力高識別率,應(yīng)達(dá)到人對自然語言的識別能力n 語音識別第63頁n 漢語語音識別(Cont.)n語音識別系統(tǒng)的困難n使用者的差別大,排除差異、保留共性難(口音、年齡、使用者的差別大,排除差異、保留共性難(口音、年齡、性別、發(fā)音速度、發(fā)音強(qiáng)度、發(fā)音習(xí)慣)性別、發(fā)音速度、發(fā)音強(qiáng)度、發(fā)音習(xí)慣)n識別的詞匯量大識別的詞匯量大, ,將導(dǎo)致系統(tǒng)的識別性能急劇下降而失去將導(dǎo)致系統(tǒng)的識別性能急劇下降而失去可用性,原因是:可用性,原因是:1 1)需要的時(shí)間和空間開銷多;)

13、需要的時(shí)間和空間開銷多;2 2)詞與)詞與詞之間的差異細(xì)微;詞之間的差異細(xì)微;n基元的識別有一定的局限性,而連續(xù)音識別又不能實(shí)現(xiàn)基元的識別有一定的局限性,而連續(xù)音識別又不能實(shí)現(xiàn)n實(shí)用的系統(tǒng)要求高可靠性,因此參數(shù)的魯棒性、抗噪聲能實(shí)用的系統(tǒng)要求高可靠性,因此參數(shù)的魯棒性、抗噪聲能力,環(huán)境適應(yīng)性等要求高,力,環(huán)境適應(yīng)性等要求高,太復(fù)雜太復(fù)雜n 語音識別第64頁n 漢語語音識別(Cont.)n語音識別技術(shù)的應(yīng)用 作為人機(jī)交互的手段,語音識別是為了實(shí)現(xiàn)聽寫和命令控制n辦公自動化:在多種場合方便文件起草和編輯辦公自動化:在多種場合方便文件起草和編輯n電話商業(yè)服務(wù):電話和計(jì)算機(jī)語音識別的結(jié)合電話商業(yè)服務(wù):

14、電話和計(jì)算機(jī)語音識別的結(jié)合, ,將為將為語音識別開辟一個很大的應(yīng)用領(lǐng)域。語音識別開辟一個很大的應(yīng)用領(lǐng)域。n 語音識別30/downloads/bighttp:/ 漢語語音識別(Cont.)n演示 (Vista; Windows Phone 7 Tellme; iPhone 4s Siri)n 語音識別http:/ 說話人識別與語音識別的區(qū)別n 說話人識別(Speaker Recognition, SR):從相同的一段語言中,識別出是誰在講話。n 語音識別:關(guān)注說話的內(nèi)容,把其轉(zhuǎn)換成對應(yīng)的文字,主要用于語音信息錄入。而不關(guān)注是誰在講。第67頁n 說話人識別技術(shù)

15、n 說話人識別(Speaker Recognition, SR):以語音對說話人進(jìn)行區(qū)分,從而進(jìn)行身份鑒別與認(rèn)證的技術(shù)。n SR基本問題: (1)如何選取能夠唯一表征人的有效而可靠的參量,如何對它進(jìn)行處理 (2)如何規(guī)定相似性的測度,使相似性的計(jì)算既簡單又可靠; (3)考慮到人的狀況在不斷變化,為使系統(tǒng)能夠可靠工作,如何使它的參考量不斷更新以適應(yīng)使用者。第68頁n 說話人識別技術(shù)n 說話人識別常用技術(shù) (1)模板匹配法 (2)概率模型法(如:HMM) (3)矢量量化法(VQ)第69頁n 視頻信息的采集n計(jì)算機(jī)常用圖像及其獲取手段計(jì)算機(jī)常用圖像及其獲取手段一張用掃描儀掃描的圖像2400dpi(d

16、ot per inch)圖形靜態(tài)圖像動態(tài)圖像計(jì)算機(jī)軟件掃描儀視頻數(shù)字化設(shè)備數(shù)碼相機(jī)第70頁n 視頻信息的采集n計(jì)算機(jī)常用圖像及其獲取手段計(jì)算機(jī)常用圖像及其獲取手段第71頁n 視頻采集卡的分類和特點(diǎn)n按輸入信號類型分為:n數(shù)字視頻輸入卡數(shù)字視頻輸入卡n模擬視頻輸入卡模擬視頻輸入卡n數(shù)字視頻卡nUSB接口:當(dāng)前最流行,低接口成本,傳輸速度(接口:當(dāng)前最流行,低接口成本,傳輸速度(USB2.0為為 480Mbps,USB1.1為為12Mbps )n1394接口:低接口成本接口:低接口成本(100-300元元),傳輸速度傳輸速度(30-40Mbps)nCamera Link接口:接口成本接口:接口成本

17、(1萬元萬元),傳輸速度傳輸速度(600Mbps)n 視頻信息的采集視頻采集卡1394第72頁n 視頻采集卡的分類和特點(diǎn)(Cont.)n模擬視頻卡n黑白黑白/彩色彩色nVideo(包括:包括:P制、制、N制和多制制和多制)n分量輸入(包括:分量輸入(包括:YUV(亮度和色差),電視臺常用;(亮度和色差),電視臺常用;RBG,醫(yī)學(xué)上常用),醫(yī)學(xué)上常用)nS-Video輸入:亮度和色度分離輸入:亮度和色度分離n壓縮卡、非壓縮卡壓縮卡、非壓縮卡n 視頻信息的采集視頻采集卡第73頁n 視頻采集卡的供應(yīng)商及特點(diǎn)n國外n最大廠商:加拿大最大廠商:加拿大Matroxn其次:比利時(shí)其次:比利時(shí)Euresysn

18、特點(diǎn):價(jià)格高出國內(nèi)或合資一個數(shù)量級,信噪比高,特點(diǎn):價(jià)格高出國內(nèi)或合資一個數(shù)量級,信噪比高,多用于非批量及專業(yè)圖像處理多用于非批量及專業(yè)圖像處理n 視頻信息的采集視頻采集卡第74頁n 視頻采集卡的供應(yīng)商及特點(diǎn)(Cont.)n國內(nèi)n最大廠商:大恒圖像最大廠商:大恒圖像 特點(diǎn):特點(diǎn):支持多操作系統(tǒng),各特殊需求或行業(yè)的技術(shù)支持強(qiáng),支持多操作系統(tǒng),各特殊需求或行業(yè)的技術(shù)支持強(qiáng),適合中批量的產(chǎn)品開發(fā)適合中批量的產(chǎn)品開發(fā)n合資企業(yè):德加拉、圖碼合資企業(yè):德加拉、圖碼 特點(diǎn):特點(diǎn):低價(jià)格,不重視個性服務(wù)(或者說技術(shù)來源于國外低價(jià)格,不重視個性服務(wù)(或者說技術(shù)來源于國外其他企業(yè),技術(shù)服務(wù)成本高),大量產(chǎn)品(硬

19、盤錄像機(jī))用其他企業(yè),技術(shù)服務(wù)成本高),大量產(chǎn)品(硬盤錄像機(jī))用n臺灣:臺灣:Liseview 特點(diǎn):特點(diǎn):分工明確,研發(fā)、生產(chǎn)、銷售由不同的企業(yè)完成,分工明確,研發(fā)、生產(chǎn)、銷售由不同的企業(yè)完成,OEM (Original Equipment Manufacturer)造成多品牌,單造成多品牌,單家企業(yè)生產(chǎn),批量很大成本很低,適合家庭使用家企業(yè)生產(chǎn),批量很大成本很低,適合家庭使用n 視頻信息的采集視頻采集卡第75頁n 視頻采集卡的工作原理復(fù)合視頻輸入1 或Y1復(fù)合視頻輸入2 或C2復(fù)合視頻輸入3 或Y2復(fù)合視頻輸入4 或C3多路開關(guān)數(shù)字解碼A/DYUV4:2:2緩存PCI總線 VGA顯示卡系統(tǒng)

20、內(nèi)存DH-VRT-CG200 圖像板復(fù)合視頻輸入5 或Y3復(fù)合視頻輸入6 或C1驅(qū)動監(jiān)視器n 視頻信息的采集視頻采集卡第76頁n 視頻采集卡的硬件安裝n與VGA卡連接 n 視頻信息的采集視頻采集卡第77頁n 視頻采集卡的硬件安裝n與VGA顯示器連接 n 視頻信息的采集視頻采集卡第78頁n 視頻采集卡的硬件安裝n與視頻信號源的連接 n 視頻信息的采集視頻采集卡視頻線(同軸電纜)第79頁n 圖像類型n 真彩色圖像(24bit)n又稱又稱RGB圖像,用圖像,用R、G、B三個顏色分量表示一個三個顏色分量表示一個像素的顏色,通過三基色可以合成出任意顏色。像素的顏色,通過三基色可以合成出任意顏色。n對一個

21、尺寸為對一個尺寸為mn的彩色圖像來說,在的彩色圖像來說,在MATLAB中存儲為一個中存儲為一個mn3的多維數(shù)組。的多維數(shù)組。n圖像圖像a中任中任意意一點(diǎn)(一點(diǎn)(x,y)處的像素值)處的像素值 a(x,y,1:3);n真彩色圖像可用真彩色圖像可用“double”型存儲,亮度值的范圍型存儲,亮度值的范圍0,1,(0,0,0)代表黑色,代表黑色,(1,1,1)代表白色代表白色n真彩色圖像也可用真彩色圖像也可用“uint”型存儲,亮度值范圍型存儲,亮度值范圍0,255第80頁n 圖像類型n 索引色圖像n不同顏色對應(yīng)不同序號,各像素不同顏色對應(yīng)不同序號,各像素存儲的是顏色的序號存儲的是顏色的序號,而不是

22、顏色本身。而不是顏色本身。n索引色圖像包含兩個結(jié)構(gòu):調(diào)色板和圖像數(shù)據(jù)矩陣。索引色圖像包含兩個結(jié)構(gòu):調(diào)色板和圖像數(shù)據(jù)矩陣。最多最多64K。n調(diào)色板是一個調(diào)色板是一個m3的色彩映射矩陣,矩陣的每一行代的色彩映射矩陣,矩陣的每一行代表一種色彩,通過三基色顏色強(qiáng)度的雙精度數(shù),形成表一種色彩,通過三基色顏色強(qiáng)度的雙精度數(shù),形成一種特定的顏色。一種特定的顏色。n用用Matlab的的hot(m)產(chǎn)生一個產(chǎn)生一個m3的調(diào)色板。顏色從的調(diào)色板。顏色從黑經(jīng)過紅、橘紅、黃到白。黑經(jīng)過紅、橘紅、黃到白。第81頁n 圖像類型n 索引色圖像(Demo)Demo:每個豎線代表一個顏色索引但是具體顯示顏色由colormap決

23、定imagesc(1:63);colormap(bone);colormap(pink);colormap(hot);Colormap有:Autumn,bone,colorcube,cool,copper,flag,gray,hotHsv,jet,lines,pink,prism,summer,white,winter第82頁n 圖像類型Demo:RGB索引色m1=imread(cyx.JPG);imagesc(dither(m1,bone);imagesc(dither(m1,hot);imagesc(dither(m1,cool);imagesc(dither(m1,pink);image

24、sc(dither(m1,bone);colormap(bone);DITHER Convert image using dithering. X = DITHER(RGB,MAP) creates an indexed image approximation of the RGB image in the array RGB by dithering the colors in colormap MAP. MAP cannot have more than 65536 colors.Demo:RGB索引色RGB = imread(cyx.jpg);X,map = rgb2ind(RGB,16

25、);imshow(X,map);IMAGESC Scale data and display as image. IMAGESC(.) is the same as IMAGE(.) except the data is scaled to use the full colormap.第83頁n 圖像類型n 灰度圖像n灰度圖像只有強(qiáng)度信息,而沒有顏色信息?;叶葓D像只有強(qiáng)度信息,而沒有顏色信息。n存儲灰度圖像只需要一個數(shù)據(jù)矩陣,每個元素表示對應(yīng)位置的存儲灰度圖像只需要一個數(shù)據(jù)矩陣,每個元素表示對應(yīng)位置的像素的灰度值。像素的灰度值。n灰度圖像的數(shù)據(jù)類型可以是灰度圖像的數(shù)據(jù)類型可以是double型,

26、也可以是型,也可以是uint型。型。n 二值圖像n只有黑白兩種值的圖像。只有黑白兩種值的圖像。n每個像素只取每個像素只取0或者或者1兩個數(shù)。兩個數(shù)。第84頁n 彩色空間(review)n RGBn HSV(HSI):面向用戶的一種符合主觀感覺的色彩模型,比RGB更接近人們對顏色的感知。nH(Hue)色度,表示顏色的種類;由)色度,表示顏色的種類;由0變到變到1,HSV顏色顏色由紅變?yōu)辄S,綠、青(由紅變?yōu)辄S,綠、青(cyan)、洋紅()、洋紅(magenta)、然)、然后變回紅色。后變回紅色。nS(Saturation)飽和度;由)飽和度;由0變到變到1,顏色由不飽和變?yōu)椋伾刹伙柡妥優(yōu)轱柡汀?/p>

27、飽和。nV (Value)亮度;由)亮度;由0變到變到1,顏色越來越亮。,顏色越來越亮。第85頁n 彩色空間的理解DEMO:用用PHOTOSHOP體會體會HSV和和RGB彩色空間彩色空間第86頁n RGB圖像空間的理解DEMO:D:Chapter 2imrender.m第87頁n RGB圖像空間的理解如何繪制二次色圖呢?第88頁n RGB圖像空間的理解10020030050100150200250300100200300501001502002503001002003005010015020025030010020030050100150200250300RGB第89頁n 靜態(tài)圖像的文件格式n

28、圖形變換格式圖形變換格式(graphics interchange format, GIF) 由由Compu-Serve公司于公司于1987年為制定彩色圖像傳輸協(xié)議而開發(fā)年為制定彩色圖像傳輸協(xié)議而開發(fā)的,它支持的,它支持64000像素的圖像,像素的圖像,256到到16M色的調(diào)色板色的調(diào)色板 支持一個文件包含多個子圖像(也稱子文件支持一個文件包含多個子圖像(也稱子文件subfiles)n 圖像文件格式及其轉(zhuǎn)換GIF格式文件第90頁n 靜態(tài)圖像的文件格式n圖形變換格式圖形變換格式(graphics interchange format, GIF) n 圖像文件格式及其轉(zhuǎn)換DEMO:用用FLASH制

29、作含多個子制作含多個子圖像的圖像的GIF格式文件格式文件制作步驟:(1)插入文本(2)右鍵,轉(zhuǎn)換為圖形元件(3)20幀處插入關(guān)鍵幀(4)用變形工具將文字變形(5)插入補(bǔ)間動畫(6)發(fā)布設(shè)置,選中GIF(7)在GIF選項(xiàng)卡中將“動畫”選中(8)導(dǎo)出成GIF格式動畫第92頁n 靜態(tài)圖像的文件格式n標(biāo)記圖像文件格式標(biāo)記圖像文件格式(tag image file format, TIFF),也,也支持一個文件包含多個子圖像支持一個文件包含多個子圖像n 圖像文件格式及其轉(zhuǎn)換TIFF格式文件第93頁n 靜態(tài)圖像的文件格式n目標(biāo)圖像格式目標(biāo)圖像格式(target image format, TGA) TIP

30、S軟件使用的文件格式。由描述圖像屬性的軟件使用的文件格式。由描述圖像屬性的文件頭文件頭(header)和描述各點(diǎn)像素值的和描述各點(diǎn)像素值的文件體(文件體(body)組成組成n 圖像文件格式及其轉(zhuǎn)換TGA圖像文件結(jié)構(gòu)原理圖第94頁n 靜態(tài)圖像的文件格式n位圖位圖(bitmap, BMP) 與設(shè)備無關(guān)與設(shè)備無關(guān) Windows推薦使用推薦使用 位映射的存儲形式位映射的存儲形式n 圖像文件格式及其轉(zhuǎn)換BMP圖像文件結(jié)構(gòu)原理圖第95頁n 動態(tài)圖像的文件格式nAVI格式文件轉(zhuǎn)換為格式文件轉(zhuǎn)換為MPEG格式格式DEMO (AimOne) DEMO (WinMPG)n 圖像文件格式及其轉(zhuǎn)換Drive.avi

31、Drive.mpg第96頁n 動態(tài)圖像的文件格式nAVI格式文件轉(zhuǎn)換為格式文件轉(zhuǎn)換為.GIF格式圖像格式圖像 DEMO (AniMake) :用Windows Movie Maker錄像,用AniMake進(jìn)行文件格式轉(zhuǎn)換,保存為序列GIF圖,改變播放速度,改變播放順序,改變圖片方向,在某(些)幀增加說明性文字。用Photoshop處理,然后返回保存n 圖像文件格式及其轉(zhuǎn)換Drive.aviDrive.gif第97頁n 用Matlab實(shí)現(xiàn)圖像的讀寫和顯示n命令命令1: imread Imread函數(shù),用于讀入各種圖像文件函數(shù),用于讀入各種圖像文件 舉例:舉例:img1=imread(huangg

32、uoshu.jpg);n命令命令2: imwrite Imwrite函數(shù),用于讀入各種圖像文件函數(shù),用于讀入各種圖像文件 舉例:舉例:img1=imwrite(huangguoshu.jpg);n命令命令3: imageImage函數(shù),用于顯示圖像文件函數(shù),用于顯示圖像文件舉例舉例 image(img1);n 視頻信息的處理讀寫和顯示圖像文件第98頁n 用Matlab實(shí)現(xiàn)圖像的疊加效果(DEMO)m1=imread(koala.JPG);m2=imread(penguins.JPG);axes(position,0 0 1 1);image(double(m1)/2+double(m2)/2)

33、/256);colorbar;n 視頻信息的處理圖像的疊加、二值化、邊緣提取n 用Matlab實(shí)現(xiàn)圖像的二值化m1=imread(koala.JPG);im2bw(m1);第99頁n 圖像信息的處理邊緣提取與圖像切割n 用Matlab實(shí)現(xiàn)邊緣提?。ǚ椒ㄒ唬﹎1=imread(cyx.JPG);imshow(bwperim(im2bw(m1);n 用Matlab實(shí)現(xiàn)邊緣提?。ǚ椒ǘ﹎1=imread(cyx.JPG);imshow(edge(rgb2gray(m1),canny); n 用Matlab實(shí)現(xiàn)圖像切割m1=imread(huangguoshu.JPG);subplot(1,2,1)

34、;axis equal;image(m1);subplot(1,2,2);axis equal;image(m1(300:1300,200:1200,:);試驗(yàn)另一種算子: prewitt第100頁n 用Matlab實(shí)現(xiàn)移動目標(biāo)提?。◣罘ǎゝunction imgdiffimg1=imread(i1.bmp);img2=imread(i2.bmp);h=figure(1);set(h,Position,10 40 300*3 200);sub1=subplot(1,3,1);set(sub1,Position,0 0 1/3 1);image(img1);axis off;sub2=subp

35、lot(1,3,2);set(sub2,Position,1/3 0 1/3 1);image(img2);axis off;sub3=subplot(1,3,3);set(sub3,Position,2/3 0 1/3 1);image(uint8(abs(double(img2)-double(img1);axis off;return;n 視頻信息的處理移動目標(biāo)提取第101頁nDemo(D:Chapter 2imageprocessingimgdiff.m)n 視頻信息的處理移動目標(biāo)提取背景圖一幀圖像幀差法處理后圖像第102頁n 基于文字本質(zhì)特征的方法基于文字本質(zhì)特征的方法n 視頻信息的

36、處理文字提取 A 上上 (English) (Chinese) (Japanese) 文字有線段構(gòu)成 每個線段寬度基本相同 每個線段長寬比例適中第103頁n Demon 視頻信息的處理文字提取 原始視頻信息 文字提取結(jié)果第104頁n 視頻信息的處理文字提取 Wearable Computer Display Digital Camera n 系統(tǒng)構(gòu)成系統(tǒng)構(gòu)成第105頁n 視頻信息的處理文字提取n 系統(tǒng)工作原理系統(tǒng)工作原理OCRSystemImageTextDetectionCutting &RotationBinarisationImageSize, Location &DirectionTr

37、anslatorCameraCut andRotatedImageBinarizedImageTranslated TextDisplayWearable ComputerRecognized TextOCR (Optical Character Recognition,光學(xué)字符識別) 中國OCR信息網(wǎng)http:/ 第106頁n 視頻信息的處理文字提取n OCROCR在線識別在線識別DEMODEMOhttp:/原文件原文件。A. Image Cutting and Rotation After detecting the characters, we should integrate some

38、 single characters into one wo涌which is much easier to be企derstood眷the we企er. We realize this function based on clustering. According to the difference of character size for different languages, we can predefine some thresholds. If the distance between some characters is less than the threshold, the

39、n they are clustered into one class (In English, it may be a word or some words). We use rectangles to confine the extracted words, seeing Figure 7. In order to speedup the recognition企OCR system, only the confined rectangle images are input into OCR system.,Wearable Robot Intelligent Glasses OCR識別結(jié)果識別結(jié)果第107頁n 視頻信息的處理文字提取n OCROCR在線識別在線識別DEMO-DEMO-漢王漢王PDF OCRPDF OCR系統(tǒng)系統(tǒng)原文件原文件圖像文件格式及其轉(zhuǎn)換_靜態(tài)圖像的文件格式_圖形變換格式(graphics interchange format, GIF) 由Compu-Serve公司于1987年為制定彩色圖像傳輸協(xié)議而開發(fā) 的,它支持64000像素的圖像,256到16M色的調(diào)色板GIF格式文件OCR識別結(jié)果識別結(jié)果第108頁n 視頻信息的處理文字提取n DemoChapter 2視頻信息處理視頻信息處理wear_new.avi第109頁n 視頻信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論