數(shù)字媒體技術(shù)概論(融媒體版) 課件 2數(shù)字圖像及視頻技術(shù)_第1頁
數(shù)字媒體技術(shù)概論(融媒體版) 課件 2數(shù)字圖像及視頻技術(shù)_第2頁
數(shù)字媒體技術(shù)概論(融媒體版) 課件 2數(shù)字圖像及視頻技術(shù)_第3頁
數(shù)字媒體技術(shù)概論(融媒體版) 課件 2數(shù)字圖像及視頻技術(shù)_第4頁
數(shù)字媒體技術(shù)概論(融媒體版) 課件 2數(shù)字圖像及視頻技術(shù)_第5頁
已閱讀5頁,還剩82頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第2講:數(shù)字圖像及視頻技術(shù)數(shù)字媒體技術(shù)概論第2章:數(shù)字圖像及視頻技術(shù)1數(shù)字圖像基礎(chǔ)知識2數(shù)字圖像處理的關(guān)鍵技術(shù)3數(shù)字視頻基礎(chǔ)知識4數(shù)字視頻關(guān)鍵技術(shù)5圖像及視頻技術(shù)的應(yīng)用一、圖像和數(shù)字圖像的定義§2.1數(shù)字圖像基礎(chǔ)知識圖像就是所有具有視覺效果的畫面。圖像的存在形式:紙介質(zhì)、底片或照片、電視屏幕、投影儀、計(jì)算機(jī)屏幕等。1.圖像一、圖像和數(shù)字圖像的定義數(shù)字圖像,又稱數(shù)碼圖像或數(shù)位圖像,它是二維圖像用有限數(shù)字、數(shù)值像素的表示。數(shù)字圖像由數(shù)組或矩陣表示,其光照位置和強(qiáng)度都是離散的。將(模擬)圖像數(shù)字化后可以得到數(shù)字圖像,它以像素為基本元素并且可以用數(shù)字計(jì)算機(jī)或數(shù)字電路存儲和處理。2.數(shù)字圖像模擬圖像數(shù)字化過程如果(數(shù)字)圖像是黑白圖像(也稱為灰度圖像)那么圖像的通道數(shù)為1。黑白圖像中的每個(gè)像素可以由0(黑色)到255(白色)之間的單個(gè)數(shù)字表示。2.數(shù)字圖像一、圖像和數(shù)字圖像的定義黑白圖像文件片段如果(數(shù)字)圖像是彩色圖像那么圖像的通道數(shù)為3。彩色圖像中的每個(gè)像素由三個(gè)數(shù)字分別表示三個(gè)顏色通道:紅色、綠色和藍(lán)色,也就是三原色的構(gòu)成。各通道的顏色深淺(函數(shù)的幅值)也用0(淺)到255(深)之間的數(shù)字表示。2.數(shù)字圖像一、圖像和數(shù)字圖像的定義彩色圖像文件片段

3.圖像和數(shù)字圖像之間的關(guān)系一、圖像和數(shù)字圖像的定義分辨率為M×N的二維數(shù)字圖像的像素矩陣數(shù)字圖像由有限數(shù)量的元素組成,每個(gè)元素都有一個(gè)特定的位置和數(shù)值,這些元素被稱為像素。像素是廣泛用于表示數(shù)字圖像元素的術(shù)語。在計(jì)算機(jī)內(nèi)通常用二維數(shù)組來表示數(shù)字圖像的矩陣。3.圖像和數(shù)字圖像之間的關(guān)系一、圖像和數(shù)字圖像的定義原圖像采樣得到具體像素的示意圖二、數(shù)字圖像的歷史歷史上第一張數(shù)字相片誕生于1957年。羅素·基爾施(RussellKirsch)就用數(shù)碼掃描的方法,將他兒子的膠片照掃描成圖中這張正方形的數(shù)字相片歷史上第一張數(shù)字圖像二、數(shù)字圖像的歷史20世紀(jì)60年代到70年代,數(shù)字成像技術(shù)了避免膠卷相機(jī)的操作缺點(diǎn),被用于相關(guān)的科學(xué)和軍事任務(wù)。隨著數(shù)字成像技術(shù)在隨后的幾十年中變得越來越便捷,它取代了舊的成像方法。20世紀(jì)60年代初,位于加利福尼亞州埃爾塞貢多的自動化工業(yè)公司的弗雷德里克·G·威特和詹姆斯·F·麥克納爾蒂(美國無線電工程師)共同發(fā)明了世界上第一臺實(shí)時(shí)生成數(shù)字圖像的設(shè)備。這種設(shè)備生成的圖像是熒光透視數(shù)字射線照片,在熒光鏡的熒光屏上檢測到方波信號以創(chuàng)建數(shù)字圖像。二、數(shù)字圖像的歷史隨著20世紀(jì)60年代金屬氧化物半導(dǎo)體(MetalOxideSemiconductor,MOS)集成電路和70年代初微處理器的引入,以及相關(guān)計(jì)算機(jī)內(nèi)存存儲、顯示技術(shù)和數(shù)據(jù)壓縮算法的進(jìn)步,數(shù)字圖像技術(shù)得到了快速發(fā)展。微處理器技術(shù)的進(jìn)步推動了用于圖像捕獲設(shè)備的電荷耦合器件(ChargeCoupledDevice,CCD)的發(fā)展,并在20世紀(jì)末逐漸取代了攝影和攝像中模擬膠片和磁帶的使用。隨著計(jì)算機(jī)計(jì)算能力的提高,計(jì)算機(jī)生成的數(shù)字圖像可以達(dá)到接近真實(shí)照片的精細(xì)程度。三、數(shù)字圖像的獲取手機(jī)已經(jīng)逐步取代了數(shù)碼相機(jī)成為了人們?nèi)粘+@取數(shù)碼圖像的主要方式。通過手機(jī)中內(nèi)置的相機(jī)和數(shù)碼相機(jī)拍攝得到的是聯(lián)合圖像組(JointPictureGroup,JPG)這種通用照片格式,以這種格式存儲的數(shù)碼照片可以在電腦和智能手機(jī)的圖片瀏覽器中正常顯示。短短十幾年時(shí)間,從11萬像素到1億像素,手機(jī)獲取數(shù)字圖像的成像質(zhì)量越來越好,甚至今后有可能完全取代傳統(tǒng)數(shù)碼相機(jī)。1.手機(jī)和數(shù)碼相機(jī)智能手機(jī)拍攝的數(shù)字圖像三、數(shù)字圖像的獲取通過手機(jī)和電腦系統(tǒng)中自帶的截圖功能,可以方便及時(shí)地將當(dāng)前屏幕上的內(nèi)容保存成JPG格式的數(shù)字圖像。2.電子設(shè)備屏幕截圖微軟的PowerPoint可以將PPT格式的文件導(dǎo)出成JPEG、PNG、GIF、JPG等不同格式的數(shù)字圖像。AdobeAcrobat可以將PDF格式的文件導(dǎo)出成JPEG、TIFF、PNG等不同格式的數(shù)字圖像。PhotoShop的PSD格式的文件也可以方便地導(dǎo)出成不同格式的數(shù)字圖像。3.軟件中導(dǎo)出數(shù)字圖像三、數(shù)字圖像的獲取使用Windows系統(tǒng)自帶的畫圖軟件,既可以自己繪制圖像然后保存成數(shù)字圖像格式,也可以在文件欄選擇來自掃描儀,直接得到位圖(Bitmap,BMP)格式的圖片。4.繪圖軟件創(chuàng)建數(shù)字圖像第2章:數(shù)字圖像及視頻技術(shù)1數(shù)字圖像基礎(chǔ)知識2數(shù)字圖像處理的關(guān)鍵技術(shù)3數(shù)字視頻基礎(chǔ)知識4數(shù)字視頻關(guān)鍵技術(shù)5圖像及視頻技術(shù)的應(yīng)用一、圖像增強(qiáng)§2.2數(shù)字圖像處理的關(guān)鍵技術(shù)增強(qiáng)圖像中的有用信息,目的是改善圖像的視覺效果。針對給定圖像的應(yīng)用場合,有目的地強(qiáng)調(diào)圖像的整體或局部特性,將原來不清晰的圖像變得清晰或強(qiáng)調(diào)某些人們通常感興趣的特征,擴(kuò)大圖像中不同物體特征之間的差別,抑制通常不感興趣的特征,使圖像質(zhì)量得到改善、豐富信息量,加強(qiáng)圖像判讀和識別效果,滿足某些特殊分析的需要。圖像增強(qiáng)是一個(gè)失真的過程。一、圖像增強(qiáng)圖像反轉(zhuǎn)主要思路是將產(chǎn)生的負(fù)片用作投影片。轉(zhuǎn)換方程:1.圖像反轉(zhuǎn)一、圖像增強(qiáng)處理后的圖像的動態(tài)范圍遠(yuǎn)遠(yuǎn)超過顯示設(shè)備的顯示能力時(shí),只有圖像最亮的部分在顯示屏上可見,需要對圖像進(jìn)行動態(tài)范圍壓縮。轉(zhuǎn)換方程:c:度量常數(shù);r:當(dāng)前像素的灰度;s:轉(zhuǎn)換后該像素的灰度。2.動態(tài)范圍壓縮將圖像的[0,255]壓縮到[0,150],動態(tài)范圍壓縮效果對比一、圖像增強(qiáng)

3.對比度拉伸圖像對比度拉伸二、圖像去噪量化噪聲乘性噪聲加性噪聲按噪聲組成來分圖像噪聲是指存在于圖像數(shù)據(jù)中不必要的或多余的干擾信息。噪聲的存在嚴(yán)重影響了遙感圖像的質(zhì)量,因此在圖像增強(qiáng)處理和分類處理之前,必須予以糾正。二、圖像去噪

1.加性噪聲此類噪聲與圖像信號有關(guān),含噪聲的圖像可表示為:飛點(diǎn)掃描器在掃描圖像時(shí)的噪聲、電視圖像中的相關(guān)噪聲、膠片中的顆粒噪聲均屬于此類噪聲。2.乘性噪聲此類噪聲與輸入圖像信號無關(guān)。由于在量化過程存在量化誤差,這種誤差反應(yīng)到接收端就產(chǎn)生了量化噪聲。3.量化噪聲二、圖像去噪按照噪聲密度分布來分:這類噪聲服從高斯分布,即某個(gè)強(qiáng)度的噪聲點(diǎn)個(gè)數(shù)最多,離這個(gè)強(qiáng)度越遠(yuǎn)噪聲點(diǎn)個(gè)數(shù)越少,且這個(gè)規(guī)律服從高斯分布。高斯噪聲是一種加性噪聲,即噪聲直接加到原圖像上,因此可以用線性濾波器濾除。1.高斯噪聲這類噪聲是指功率譜密度(信號功率在頻域的分布狀況)在整個(gè)頻域內(nèi)是常數(shù)的噪聲。所有頻率具有相同能量密度的隨機(jī)噪聲稱為白噪聲。2.均勻噪聲二、圖像去噪這類噪聲類似把椒鹽撒在圖像上,因此得名。它是一種在圖像上出現(xiàn)很多白點(diǎn)或黑點(diǎn)的噪聲,如電視里的雪花噪聲等。椒鹽噪聲可以認(rèn)為是一種邏輯噪聲,用線性濾波器濾除的結(jié)果不好,一般采用中值濾波器濾波可以得到較好的結(jié)果。胡椒噪聲是指隨機(jī)用0,-1替換像素,屬于低灰度噪聲。鹽噪聲是指隨機(jī)用1替換像素,屬于高灰度噪聲。椒鹽噪聲是兩種噪聲同時(shí)出現(xiàn),從而呈現(xiàn)出黑白雜點(diǎn)。3.椒鹽噪聲(脈沖噪聲)二、圖像去噪概率密度函數(shù)服從泊松分布的噪聲。4.泊松噪聲概率密度函數(shù)服從瑞利分布的噪聲。5.瑞利噪聲概率密度函數(shù)服從指數(shù)分布的噪聲。6.指數(shù)噪聲概率密度函數(shù)服從伽馬曲線分布的噪聲。7.伽馬噪聲圖像增加了各種類噪聲后的效果二、圖像去噪減少數(shù)字圖像中噪聲的過程稱為圖像去噪?,F(xiàn)實(shí)中的數(shù)字圖像在數(shù)字化和傳輸過程中常受到成像設(shè)備與外部環(huán)境噪聲干擾等影響,稱為含噪圖像或噪聲圖像。圖像去噪主要有均值濾波、方框?yàn)V波、中值濾波等方法。二、圖像去噪

1.均值濾波二、圖像去噪與均值濾波不同,方框?yàn)V波可自由選擇采用計(jì)算鄰域像素值還是其均值作為濾波結(jié)果。2.方框?yàn)V波中值濾波法是一種非線性平滑技術(shù),其原理與均值濾波基本相同,只是將每像素的灰度值設(shè)置為該像素某鄰域窗口內(nèi)的所有像素灰度值的中值。由于中值濾波需要對像素值進(jìn)行排序,因此其需要的運(yùn)算量較大。在處理過程中噪聲成分很難被選上,可以有效地去除噪聲。3.中值濾波二、圖像去噪雙邊濾波在去噪處理時(shí)不僅考慮距離信息,還要考慮色彩信息,故其能夠有效保護(hù)圖像的邊緣信息。4.雙邊濾波用特定的卷積核實(shí)現(xiàn)卷積操作。5.二維卷積維納濾波是一種基于最小均方誤差準(zhǔn)則、對平穩(wěn)過程的最優(yōu)估計(jì)器。這種濾波器的輸出與期望輸出之間的均方誤差為最小,是一個(gè)最佳濾波系統(tǒng),可用于提取被平穩(wěn)噪聲所污染的信號。6.維納濾波二、圖像去噪高斯濾波是一種線性平滑濾波,適用于消除高斯噪聲,廣泛應(yīng)用于圖像處理的減噪過程。通俗的講,高斯濾波就是對整幅圖像進(jìn)行加權(quán)平均的過程,每像素的值都由其本身和鄰域內(nèi)的其他像素值經(jīng)過加權(quán)平均后得到。高斯濾波的具體操作:用一個(gè)模板掃描圖像中的每像素,用模板確定的鄰域內(nèi)像素的加權(quán)平均灰度值去替代模板中心像素的值。7.高斯濾波二、圖像去噪一維高斯分布公式:二維高斯分布公式:7.高斯濾波一維高斯分布圖像高斯濾波器的三維透視圖二、圖像去噪傅里葉濾波采用的主要技術(shù)是快速傅里葉變換(FastFourierTransform,F(xiàn)FT),它通過對圖片信號在頻域里進(jìn)行濾波,從而達(dá)到去噪效果。8.傅里葉濾波部分濾波去噪方法的效果圖三、空間域上圖像的幾何變換

1.平移變換像素平移的示意圖三、空間域上圖像的幾何變換

1.平移變換三、空間域上圖像的幾何變換由上述敘述可知,只需構(gòu)造平移變換矩陣,然后將這個(gè)矩陣作用于(矩陣左乘)原圖像的每像素,即可實(shí)現(xiàn)圖像平移的效果。1.平移變換圖像先向右平移100像素,再向下平移100像素的效果三、空間域上圖像的幾何變換

2.旋轉(zhuǎn)變換三、空間域上圖像的幾何變換以圖像中心為旋轉(zhuǎn)中心,逆時(shí)針旋轉(zhuǎn)30°后的效果:三、空間域上圖像的幾何變換

3.縮放變換三、空間域上圖像的幾何變換

3.縮放變換三、空間域上圖像的幾何變換將512×512大小的圖像縮小成190×400大小的圖像效果:四、頻率域上圖像的變換傅里葉變換是一種線性積分變換,用于信號在時(shí)域和頻域之間的變換。其基本思想首先由法國學(xué)者約瑟夫·傅里葉系統(tǒng)地提出。傅里葉變換將信號分成不同的頻率成分,被稱為數(shù)學(xué)棱鏡。對應(yīng)到數(shù)字圖像中,高頻信號往往是圖像中的邊緣信號和噪聲信號,而低頻信號包含圖像輪廓及背景等信號。1.傅里葉變換傅里葉變換作用類似于數(shù)學(xué)棱鏡四、頻率域上圖像的變換數(shù)字圖像進(jìn)行傅里葉變換后得到的頻譜圖傅里葉變換的數(shù)學(xué)公式:1.傅里葉變換四、頻率域上圖像的變換離散余弦轉(zhuǎn)換(DiscreteCosineTransformation,DCT)是與傅里葉變換相關(guān)的一種變換,它類似于離散傅里葉變換,但是只使用實(shí)數(shù)。離散余弦變換相當(dāng)于一個(gè)長度大概是它兩倍的離散傅里葉變換,是對一個(gè)實(shí)偶函數(shù)進(jìn)行的(因?yàn)橐粋€(gè)實(shí)偶函數(shù)的傅里葉變換仍然是一個(gè)實(shí)偶函數(shù)),在有些變形里面需要將輸入或者輸出的位置移動半個(gè)單位。離散余弦變換經(jīng)常被信號處理和圖像處理使用,用于對信號和圖像(包括靜止圖像和運(yùn)動圖像)進(jìn)行有損數(shù)據(jù)壓縮。離散余弦變換具有很強(qiáng)的“能量集中”特性。2.離散余弦變換四、頻率域上圖像的變換離散余弦變換的公式如下:2.離散余弦變換數(shù)字圖像離散余弦變換的效果第2章:數(shù)字圖像及視頻技術(shù)1數(shù)字圖像基礎(chǔ)知識2數(shù)字圖像處理的關(guān)鍵技術(shù)3數(shù)字視頻基礎(chǔ)知識4數(shù)字視頻關(guān)鍵技術(shù)5圖像及視頻技術(shù)的應(yīng)用一、視頻的定義§2.3數(shù)字視頻基礎(chǔ)知識根據(jù)維基百科:視頻是一種電子媒體,是用于記錄、復(fù)制、播放、廣播和顯示運(yùn)動的視覺媒體。視頻最初是為機(jī)械電視系統(tǒng)開發(fā)的,很快被陰極射線管(CathodeRayTube,CRT)系統(tǒng)取代,后來又被幾種類型的平板顯示器所取代。視頻存在模擬和數(shù)字變體,并且可以在各種媒體上進(jìn)行傳輸,包括無線電廣播、磁帶、光盤、計(jì)算機(jī)文件和網(wǎng)絡(luò)流媒體。二、視頻的歷史視頻技術(shù)最初是為機(jī)械電視系統(tǒng)開發(fā)的,最初只是一種現(xiàn)場技術(shù)。查爾斯·金斯堡(CharlesGinsburg)領(lǐng)導(dǎo)著Ampex研究團(tuán)隊(duì),開發(fā)了第一臺實(shí)用的磁帶錄像機(jī)(VideotapeRecorder,VTR)。11951年,第一臺VTR通過將攝像機(jī)的電信號寫入磁性錄像帶來捕獲電視攝像機(jī)的實(shí)時(shí)圖像。1971年,索尼開始在消費(fèi)市場上銷售盒式磁帶錄像機(jī)(VideoCassetteRecorder,VCR)唱盤和磁帶。1.模擬視頻階段二、視頻的歷史DCT編碼使實(shí)用的數(shù)字視頻成為可能,這是20世紀(jì)70年代初開發(fā)的有損壓縮過程。在20世紀(jì)80年代后期,DCT編碼被應(yīng)用于運(yùn)動補(bǔ)償?shù)腄CT視頻壓縮。H.261是第一個(gè)實(shí)用的數(shù)字技術(shù)視頻編碼標(biāo)準(zhǔn)。在1997年數(shù)字化視頻光盤(DigitalVideoDisk,DVD)發(fā)明以及2006年藍(lán)光光盤發(fā)明之后,錄像帶和記錄設(shè)備的銷量直線下降。隨著計(jì)算機(jī)技術(shù)的進(jìn)步,進(jìn)一步降低了視頻制作成本,使節(jié)目制作人和廣播公司可以轉(zhuǎn)向無磁帶制作。數(shù)字廣播的出現(xiàn)以及隨后的數(shù)字電視過渡正在將模擬視頻降級為世界上大多數(shù)地區(qū)的傳統(tǒng)技術(shù)。2.數(shù)字視頻階段三、視頻流的特征每單位時(shí)間視頻的靜態(tài)圖片數(shù)被稱為幀速率。范圍從舊的機(jī)械相機(jī)的每秒6或8幀到新的專業(yè)相機(jī)的每秒120或更多幀。電影膠片以每秒24幀的較慢幀速率拍攝,這使將電影動態(tài)影像轉(zhuǎn)換為視頻的過程稍微復(fù)雜化了。實(shí)現(xiàn)運(yùn)動圖像的舒適視錯(cuò)覺的最小幀速率約為16幀/秒;要達(dá)成最基本的視覺暫留效果大約需要10幀/秒的速度。1.幀速率三、視頻流的特征隔行掃描是為了減少早期機(jī)械和CRT視頻顯示器中的閃爍而又不增加每秒完整幀數(shù)的一種方法。與逐行掃描相比,隔行掃描保留了細(xì)節(jié),同時(shí)需要較低的帶寬。在隔行掃描視頻中,每個(gè)完整幀的水平掃描線被視為連續(xù)編號,并捕獲為兩個(gè)場:由奇數(shù)行組成的奇數(shù)場(上場)和由偶數(shù)行組成的偶數(shù)場(下場)。NTSC、PAL和SECAM都是隔行掃描格式。當(dāng)在逐行掃描設(shè)備上顯示本機(jī)隔行掃描信號時(shí),總空間分辨率會因簡單的行加倍而降低。去隔行掃描過程可以優(yōu)化來自DVD或衛(wèi)星源的隔行掃描視頻信號在逐行掃描設(shè)備上的顯示,但是去隔行掃描不能產(chǎn)生與真正的逐行掃描源素材相當(dāng)?shù)囊曨l質(zhì)量。2.隔行掃描與逐行掃描三、視頻流的特征長寬比在圖像中也稱圖像的縱橫比,是其寬度除以它的高度所得的比例,通常用兩個(gè)數(shù)字表示,中間用冒號分隔,如16:9。對于x:y的寬高比,圖像的寬度為x個(gè)單位,高度為y個(gè)單位。廣泛使用的寬高比包括:電影攝影中的1.85:1和2.39:1,電視中的4:3和16:9,以及靜態(tài)照相機(jī)攝影中的3:2。長寬比描述了視頻屏幕和視頻像素的寬度和高度之間的比例關(guān)系。傳統(tǒng)電視屏幕的寬高比為4:3,或約為1.33:1。高清晰度電視使用的寬高比為16:9,即大約1.78:1。完整的35毫米帶有聲帶的膠卷鏡框的縱橫比(也稱為學(xué)院比例)為1.375:13.長寬比三、視頻流的特征4:3標(biāo)準(zhǔn)歷史最久的比例,它在電視機(jī)發(fā)明之初就已經(jīng)存在,現(xiàn)今仍在使用,并且用于許多電腦顯示器上。16:9標(biāo)準(zhǔn)高清晰度電視的國際標(biāo)準(zhǔn),用于澳洲、日本、加拿大和美國,還有歐洲的衛(wèi)星電視和一些非高清的擴(kuò)展清晰度電視(ExtendedDefinitionTelevision,EDTV)。寬屏DVD將16:9的畫面壓縮為4:3用作資料存儲,并依照電視的處理能力作出應(yīng)變。如果電視支持寬屏,那么將影像還原就可以播放,如果不支持,就由DVD播放器將畫面剪裁再送至電視上。3.長寬比三、視頻流的特征14:9標(biāo)準(zhǔn)該標(biāo)準(zhǔn)最早源自英國,曾在英國、愛爾蘭、法國、俄羅斯等國家使用,作為當(dāng)?shù)啬M電視的傳輸格式,目前大多已被淘汰。3.長寬比以對角線表示的五種標(biāo)準(zhǔn)比例16:9、16:10、3:2、4:3、5:4三、視頻流的特征顏色模型通常指某個(gè)三維顏色空間中的一個(gè)可見光子集,它包含某個(gè)色彩域的所有色彩。常見的顏色模型主要有下面幾種表示形式:典型的顏色亮度信息YIQ模式被用于NTSC電視;亮度色度參量YUV模式被用于PAL電視;YDbDr色彩空間被用于SECAM電視;YCbCr色彩空間被用于數(shù)字視頻。4.顏色模型和深度三、視頻流的特征色調(diào)飽和度亮度(HueIntensitySaturation,HIS)是從人的視覺系統(tǒng)出發(fā)的一種色彩模型紅綠藍(lán)(RedGreenBlue,RGB)被用于彩色陰極射線管等彩色光柵圖形顯示設(shè)備中,青色、洋紅、黃色、黑色(CyanMagentaYellowBlack,CMYK)作為印刷色彩模型被應(yīng)用于印刷工業(yè)。像素可以代表不同顏色的數(shù)量取決于每像素的位數(shù)表示的顏色深度。減少數(shù)字視頻中所需數(shù)據(jù)量的常用方法是通過色度二次采樣(例如4:4:4、4:2:2等)。4.顏色模型和深度三、視頻流的特征視頻質(zhì)量是量化一段視頻通過視頻傳輸或處理系統(tǒng)時(shí)畫面質(zhì)量變化(通常是下降)程度的方法。視頻質(zhì)量可以用諸如正式度量來測量峰值信噪比(PeakSignaltoNoiseRatio,PSNR)或者針對主觀視頻質(zhì)量采用專家觀察評估。峰值信噪比是一個(gè)工程術(shù)語,表示信號的最大可能功率與影響其表示保真度的破壞噪聲功率之間的比率。由于許多信號具有非常寬的動態(tài)范圍,因此PSNR使用分貝作為單位,通常用對數(shù)量進(jìn)行表示。PSNR也常用于量化有損壓縮圖像和視頻的重建質(zhì)量。5.視頻質(zhì)量三、視頻流的特征在多種用于壓縮視頻流的方法中,最有效的方法是使用圖片組(GroupofPicture,GOP)減少空間和時(shí)間冗余。廣義上講,通過記錄單個(gè)幀之間的差異來減少空間冗余,此任務(wù)稱為幀內(nèi)壓縮,與圖像壓縮密切相關(guān)。同樣可以通過記錄幀之間的差異來減少時(shí)間冗余,此任務(wù)稱為幀間壓縮,包括運(yùn)動補(bǔ)償和其他技術(shù)。最常見的現(xiàn)代壓縮標(biāo)準(zhǔn)是MPEG-2(用于DVD,藍(lán)光和衛(wèi)星電視)和MPEG-4(用于移動電話和互聯(lián)網(wǎng))。6.數(shù)字視頻壓縮方法三、視頻流的特征顯示三維(3Dimensional,3D)電影和其他應(yīng)用程序的立體視頻的方法:兩個(gè)通道:通過使用兩個(gè)視頻投影儀上彼此偏軸成90度的偏光濾鏡,可以同時(shí)查看兩個(gè)頻道。戴上帶有匹配偏振濾光鏡的眼鏡可以分別看到這些偏振的通道。浮雕3D:其中一個(gè)通道覆蓋有兩個(gè)顏色編碼的圖層,這種左和右分層技術(shù)有時(shí)用于DVD上3D電影的網(wǎng)絡(luò)廣播或最近的立體浮雕。交替遮擋:使用與視頻同步的LCD快門眼鏡交替為每個(gè)眼睛的左眼和右眼幀提供一個(gè)通道,以交替遮擋每只眼睛的圖像,使得適當(dāng)?shù)难劬梢钥吹秸_的幀。7.立體視頻四、視覺暫留物體在快速運(yùn)動時(shí),當(dāng)人眼所看到的影像消失后,人眼仍能繼續(xù)保留其影像0.1-0.4秒左右的圖像,這種現(xiàn)象被稱為視覺暫留現(xiàn)象。視覺暫留現(xiàn)象是光對視網(wǎng)膜所產(chǎn)生的視覺在光停止作用后仍保留一段時(shí)間的現(xiàn)象,其具體應(yīng)用主要有電影的拍攝和放映。視覺暫留是動畫、電影等視覺媒體形成和傳播的依據(jù)。視覺暫留現(xiàn)象很早就被中國人運(yùn)用,走馬燈便是歷史記載中最早的視覺暫留運(yùn)用。春節(jié)期間的走馬燈五、主要的視頻編碼標(biāo)準(zhǔn)國際標(biāo)準(zhǔn)化組織(InternationalStandardizationOrganization,ISO)國際電工技術(shù)委員會(InternationalElectrotechnicalCommission,IEC)與ITU是制定視頻編碼標(biāo)準(zhǔn)的兩大組織,他們制定的視頻編碼標(biāo)準(zhǔn)主要有MPEG系列和H.26X系列。此外,中國自主知識產(chǎn)權(quán)的數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)(AudioVideoStandard,AVS)也已經(jīng)得到了廣泛的應(yīng)用。五、主要的視頻編碼標(biāo)準(zhǔn)標(biāo)準(zhǔn)制定的機(jī)構(gòu)與發(fā)布日期標(biāo)準(zhǔn)編號標(biāo)題典型應(yīng)用MPEG-1ISO/IEC(1992.11)ISO/IEC11172用于數(shù)據(jù)速率高達(dá)大約1.5Mbps的數(shù)字存儲媒體的活動圖像和伴音編碼數(shù)字視頻存儲、VCDMPEG-2ISO/IEC(1994.11)ISO/IEC13818活動圖像和伴音信息的通用編碼數(shù)字電視、DVDMPEG-4ISO/IEC(1999.5)ISO/IEC14496-2視音頻對象編碼因特網(wǎng)、流媒體H.264/AVCITU-T/ISO(2003.3)ISO/IEC14496-10MPEG-4的第10部分或者先進(jìn)的視頻編碼數(shù)字電視、IPTV、可視電話、網(wǎng)絡(luò)視頻點(diǎn)播、數(shù)字視頻存儲HEVC/H.265ITU-T(2013)ISO/IEC高效視頻編碼支持4K和全高清DVSMPTE(1999.7)SMPTE314M基于DV的25Mb/s、50Mb/s視頻壓縮格式錄像機(jī)AVS國家標(biāo)準(zhǔn)化管理委員會(2006.2)GB/T20090.2-2006先進(jìn)音視頻編碼第2部分:視頻數(shù)字電視、IPTV、可視電話、網(wǎng)絡(luò)視頻點(diǎn)播數(shù)字視頻存儲國際上主要的視頻編碼標(biāo)準(zhǔn):五、主要的視頻編碼標(biāo)準(zhǔn)MPEG系列由ISO下屬的運(yùn)動圖像專家組開發(fā)。MPEG視頻編碼包括MPEG-1(VCD)、MPEG-2(DVD)、MPEG-4、MPEG-4AVC;音頻編碼主要包括MPEGAudioLayer1/2、MPEGAudioLayer3(MP3)、MPEG-2AAC、MPEG-4AAC等。H.26X系列由國際電信聯(lián)盟ITU主導(dǎo),側(cè)重網(wǎng)絡(luò)傳輸。ITU-T的視頻標(biāo)準(zhǔn)包括H.261、H.263、H.264,主要應(yīng)用于實(shí)時(shí)視頻通信領(lǐng)域,如視頻會議,而MPEG系列主要應(yīng)用于視頻存儲、廣播電視、互聯(lián)網(wǎng)或無線網(wǎng)絡(luò)的流媒體等。五、主要的視頻編碼標(biāo)準(zhǔn)DV的英文全稱是DigitalVideo,由索尼、松下、JVC等多家廠商聯(lián)合提出的一種家用數(shù)字視頻格式。數(shù)碼攝像機(jī)主要就是使用這種格式記錄視頻數(shù)據(jù)的,這種視頻格式的文件擴(kuò)展名一般是.avi,所以習(xí)慣地叫它為DV-AVI格式。AVS音視頻編碼是由中國主導(dǎo)制訂的新一代編碼標(biāo)準(zhǔn),視頻壓縮效率比MPEG-2增加了一倍以上,能夠使用更小的帶寬傳輸同樣的內(nèi)容。AVS已經(jīng)成為國際上三大視頻編碼標(biāo)準(zhǔn)之一,它已經(jīng)在國家廣播電視總局正式全面推廣,并在廣電行業(yè)中普及。第2章:數(shù)字圖像及視頻技術(shù)1數(shù)字圖像基礎(chǔ)知識2數(shù)字圖像處理的關(guān)鍵技術(shù)3數(shù)字視頻基礎(chǔ)知識4數(shù)字視頻關(guān)鍵技術(shù)5圖像及視頻技術(shù)的應(yīng)用一、運(yùn)動特征提取§2.4數(shù)字視頻關(guān)鍵技術(shù)要分析視頻的運(yùn)動特征,首先要提取視頻序列中的運(yùn)動矢量。運(yùn)動矢量是對物體或攝像機(jī)在3維場景中的運(yùn)動所造成的在2維圖像平面上投影變化的一種估計(jì),運(yùn)動矢量估計(jì)在計(jì)算機(jī)視覺和視頻壓縮中有著重要的作用。一、運(yùn)動特征提取從視頻序列計(jì)算運(yùn)動矢量的方法中,基于塊匹配的相關(guān)性技術(shù)是最直觀且被廣泛應(yīng)用的方法。在塊匹配技術(shù)中,可以通過在一定大小的窗口中搜索出唯一匹配的灰度塊來得到圖像序列的運(yùn)動矢量。塊匹配算法的最大不足是計(jì)算的復(fù)雜性。目前,已經(jīng)提出了許多方法來提高塊匹配算法的性能,如窗口亞采樣法、快速搜索算法、查找表法等。塊匹配算法計(jì)算出的運(yùn)動矢量一、運(yùn)動特征提取在80年代早期建立的光流分析法,也是運(yùn)動估計(jì)的重要方法。目前,光流場計(jì)算技術(shù)的研究大致有以下幾個(gè)方向:研究解決光流場計(jì)算不適定問題的方法;研究光流場計(jì)算基本公式的不連續(xù)性;研究直線和曲線的光流場計(jì)算技術(shù);研究由光流場重建物體三維運(yùn)動和結(jié)構(gòu)。根據(jù)運(yùn)動矢量場,可以進(jìn)一步提取更高層次的運(yùn)動特征,例如建立全局運(yùn)動模型對攝像機(jī)運(yùn)動進(jìn)行估計(jì)、運(yùn)動對象分割并對物體運(yùn)動模型進(jìn)行估計(jì)等。二、視頻修復(fù)利用AI視頻轉(zhuǎn)換技術(shù),可以將老舊低清視頻畫質(zhì)修復(fù)與重生,使得視覺感知清晰度得到提升,從而提升視頻畫質(zhì)質(zhì)量。人工智能修復(fù)的100年前北京街景影像片段的截圖這段影像由加拿大攝影師拍攝而成,而給它重新上色修復(fù)的是中國一位年輕的獨(dú)立游戲開發(fā)者大谷。原本色彩單調(diào)、輪廓模糊的人影,變得面目清晰、動作流暢,再加上后期逼真的音效,生動再現(xiàn)了當(dāng)時(shí)的歷史風(fēng)貌。二、視頻修復(fù)新中國成立70周年時(shí),《開國大典》等經(jīng)過AI和人工修復(fù)的獻(xiàn)禮片驚艷了公眾,許多觀眾看后熱淚盈眶。通過人工智能深度學(xué)習(xí)的方式,老片中常見的噪點(diǎn)、色偏、模糊、抖動、劃痕等“小傷小痛”得以被批量化修復(fù)。但是,一些老片畫面由于損失嚴(yán)重或存在大片污漬,人工智能無法通過時(shí)間、空間信息“腦補(bǔ)”,在這種情況下,必須依靠有經(jīng)驗(yàn)的修復(fù)專家來完成。修復(fù)版《開國大典》可見,有些場景中,人工智能實(shí)際上不能完全代替手工勞動,人機(jī)共同協(xié)作才能產(chǎn)生最好的結(jié)果。三、視頻檢索在傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)中,信息的檢索一般以數(shù)值和字符型為主,而在多媒體數(shù)據(jù)庫中集成圖像、視頻、音頻等非格式化信息。每一種媒體數(shù)據(jù)都有一些難以用字符和數(shù)字符號描述的內(nèi)容線索,如圖像中某一對象的形狀顏色和紋理、視頻中的運(yùn)動、聲音的音調(diào)等。當(dāng)用戶要利用這些線索對數(shù)據(jù)進(jìn)行檢索時(shí),首先要將其人工轉(zhuǎn)化為文本或關(guān)鍵詞形式,這種轉(zhuǎn)換帶有一定的主觀性,且極其費(fèi)時(shí),因而僅基于關(guān)鍵詞的檢索已不能滿足用戶的檢索要求。數(shù)據(jù)庫及其他信息系統(tǒng)不僅要能對圖像、視頻和聲音等媒體進(jìn)行存儲以及基于關(guān)鍵字的檢索,而且要對多媒體數(shù)據(jù)內(nèi)容進(jìn)行自動語義分析、表達(dá)和檢索。三、視頻檢索視頻檢索就是要從海量的視頻數(shù)據(jù)中找到所需的視頻片段。根據(jù)提交視頻內(nèi)容的不同,視頻檢索一般分為鏡頭檢索和片段檢索。目前,視頻檢索的多數(shù)研究還集中在鏡頭檢索上。而片段檢索方面的研究則剛剛開始。片段檢索分為以下兩種類型:精確檢索和相似性檢索。一個(gè)完整的視頻檢索系統(tǒng)的關(guān)鍵技術(shù)主要有:關(guān)鍵幀提取、圖像特征提取、圖像特征的相似性度量、查詢方式以及視頻片段匹配等方法。視頻檢索是一門交叉學(xué)科,以圖像處理、模式識別、計(jì)算機(jī)視覺、圖像理解等領(lǐng)域的知識為基礎(chǔ),從認(rèn)知科學(xué)、人工智能、數(shù)據(jù)庫管理系統(tǒng)及人機(jī)交互、信息檢索等領(lǐng)域,引入媒體數(shù)據(jù)表示和數(shù)據(jù)模型,從而設(shè)計(jì)出可靠、有效的檢索算法,系統(tǒng)結(jié)構(gòu)以及友好的人機(jī)界面。三、視頻檢索國內(nèi)外已研發(fā)出了多個(gè)基于內(nèi)容的視頻檢索系統(tǒng),主要有以下幾種:由IBMAlmaden研究中心開發(fā)的,是“基于內(nèi)容”檢索系統(tǒng)的典型代表。此系統(tǒng)主要利用顏色、紋理、形狀、攝像機(jī)和對象運(yùn)動等描述視頻內(nèi)容,并以此實(shí)現(xiàn)其檢索。QBIC提供了對靜止圖像及視頻信息基于內(nèi)容的檢索手段,允許用戶使用例子圖像、構(gòu)建草圖、以及顏色和紋理模式、鏡頭和目標(biāo)運(yùn)動等信息對大型圖像和視頻數(shù)據(jù)庫進(jìn)行查詢。在視頻數(shù)據(jù)分析方面包括了鏡頭檢測、運(yùn)動估計(jì)、層描述、代表幀生成等多種視頻處理手段。1.圖像內(nèi)容查詢系統(tǒng)(QueryByImageContent,QBIC)三、視頻檢索美國哥倫比亞大學(xué)電子工程系與電信研究中心圖像和高級電視實(shí)驗(yàn)室共同研究的、一種在互聯(lián)網(wǎng)上使用的“基于內(nèi)容”的檢索系統(tǒng)。實(shí)現(xiàn)了互聯(lián)網(wǎng)上的“基于內(nèi)容”的圖像/視頻檢索系統(tǒng),提供了一套供人們在網(wǎng)頁上搜索和檢索圖像及視頻的工具。2.VisualSeek系統(tǒng)由美國哥倫比亞大學(xué)研究開發(fā)的一套全自動的基于內(nèi)容的視頻查詢系統(tǒng)。它擴(kuò)充了傳統(tǒng)關(guān)鍵字和主題導(dǎo)航的查詢方法,允許用戶使用視覺特征和時(shí)空關(guān)系來檢索視頻。3.VideoQ清華大學(xué)開發(fā)的視頻節(jié)目管理系統(tǒng)(TsinghuaVideoFindIt,TVFI)可提供視頻數(shù)據(jù)入庫、基于內(nèi)容的瀏覽、檢索等功能;提供多種數(shù)據(jù)訪問模式,包括基于關(guān)鍵字查詢、示例查詢、按視頻結(jié)構(gòu)瀏覽及按用戶自定義類別進(jìn)行瀏覽等。4.視頻節(jié)目管理系統(tǒng)三、視頻檢索基于內(nèi)容的視頻分析和檢索研究的目的:通過對視頻內(nèi)容進(jìn)行計(jì)算機(jī)處理、分析和理解,建立結(jié)構(gòu)和索引,以實(shí)現(xiàn)方便有效的視頻信息獲取?;趦?nèi)容的視頻檢索包括很多技術(shù),如:視頻結(jié)構(gòu)的分析(鏡頭檢測技術(shù))、視頻數(shù)據(jù)的自動索引和視頻聚類等。目前在基于內(nèi)容的視頻檢索技術(shù)的研究方面,除了識別和描述圖像的顏色、紋理、形狀和空間關(guān)系外,其他主要集中在視頻鏡頭分割、特征的提取和描述、關(guān)鍵幀提取和結(jié)構(gòu)分析等方面?;趦?nèi)容的視頻檢索的系統(tǒng)框圖第2章:數(shù)字圖像及視頻技術(shù)1數(shù)字圖像基礎(chǔ)知識2數(shù)字圖像處理的關(guān)鍵技術(shù)3數(shù)字視頻基礎(chǔ)知識4數(shù)字視頻關(guān)鍵技術(shù)5圖像及視頻技術(shù)的應(yīng)用一、OCR文字識別§2.5圖像及數(shù)字視頻技術(shù)的應(yīng)用光學(xué)字符識別(OpticalCharacterRecognition,OCR)是指對文本資料的圖像文件進(jìn)行分析識別處理,獲取文字及版面信息的過程。OCR的概念是在1929年由德國科學(xué)家Tausheck最先提出來的,并申請了專利。我國研究漢字識別的起步比較晚,20世紀(jì)70年代末才開始OCR的研究工作。90年代以后,隨著平臺式掃描儀的廣泛應(yīng)用,以及我國信息自動化和辦公自動化的普及,大大推動了OCR技術(shù)的進(jìn)一步發(fā)展,使OCR的識別正確率、識別速度滿足了廣大用戶的要求。處理過程主要包括五個(gè)步驟:輸入、前期處理、中期處理、后期處理、輸出。其中,前期處理包括:二值化、圖像降噪、傾斜矯正;中期處理包括:版面分析、字符切割、字符識別、版面還原。一、OCR文字識別§2.5圖像及數(shù)字視頻技術(shù)的應(yīng)用OCR的處理過程輸入:輸入數(shù)字圖像,對于不同的圖像格式,有著不同的存儲格式、不同的壓縮方式。二值化:為了讓計(jì)算機(jī)更快更好地進(jìn)行OCR相關(guān)計(jì)算,我們需要先對彩色圖進(jìn)行處理,使圖片只剩下前景信息與背景信息。圖像降噪:根據(jù)噪點(diǎn)的特征進(jìn)行去噪的過程稱為降噪。傾斜矯正:拍出來的圖片會不可避免的產(chǎn)生傾斜,這就需要使用圖像處理軟件對其進(jìn)行校正。版面分析:將不同字符之間分割開。字符識別:早期以模板匹配為主,后期以特征提取為主。版面還原:識別后的文字不變地輸出到Word文檔、PDF文檔。后期處理:根據(jù)特定的語言上下文的關(guān)系,對識別結(jié)果進(jìn)行校正。輸出:將識別出的字符以某一格式的文本輸出。二、多媒體通信§2.5圖像及數(shù)字視頻技術(shù)的應(yīng)用多媒體通信技術(shù)是多媒體技術(shù)與通信技術(shù)的有機(jī)結(jié)合,突破了計(jì)算機(jī)、通信、電視、等傳統(tǒng)產(chǎn)業(yè)間相對獨(dú)立發(fā)展的界限,是計(jì)算機(jī)、通信和電視領(lǐng)域的一次革命。多媒體通信技術(shù)在計(jì)算機(jī)的控制下,對多媒體信息進(jìn)行采集、處理、表示、存儲和傳輸。多媒體通信系統(tǒng)的出現(xiàn)大大縮短了計(jì)算機(jī)、通信和電視之間的距離,將計(jì)算機(jī)的交互性、通信的分布性和電視的真實(shí)性完美地結(jié)合在一起,向人們提供全新的信息服務(wù)。三、視頻檢索視頻通話分為通過互聯(lián)網(wǎng)協(xié)議(InternetProtocol,IP)線路和通過普通電話線路兩種方式。視頻通話通常指基于互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)端,通過手機(jī)之間實(shí)時(shí)傳送人的語音和圖像的一種通信方式。日常中常用的視頻通話軟件有蘋果公司的FaceTime和帶有視頻通話功能的微信。1.視頻通話在全球新型冠狀病毒大流行大背景下,居家上課、遠(yuǎn)程教學(xué)成為了一股新的潮流。新冠肺炎疫情期間,遠(yuǎn)程教學(xué)、在線教育等需求量激增,并推動在線教育行業(yè)爆發(fā)式增長。截至2020年12月,我國在線教育用戶規(guī)模達(dá)2.43億,占網(wǎng)民整體的34.6%。2.遠(yuǎn)程教學(xué)多媒體通信主要應(yīng)用場景如下:三、視頻檢索此前的一場遠(yuǎn)程手術(shù)讓凌至培名聲大噪:2019年3月16日,凌至培主導(dǎo)完成了世界首例5G遠(yuǎn)程手術(shù),在三亞對北京的患者進(jìn)行“腦起搏器”植入。2019年6月27日,北京積水潭醫(yī)院院長田偉順利完成了全球首例骨科手術(shù)機(jī)器人多中心遠(yuǎn)程手術(shù)。遠(yuǎn)程醫(yī)療的發(fā)展,拉近了病人與醫(yī)生之間的距離,使醫(yī)生在無需患者親臨的情況下,對患者的病情作出及時(shí)的診斷,節(jié)省了患者的就診時(shí)間。3.遠(yuǎn)程醫(yī)療三、遙感圖像遙感與現(xiàn)場觀測不同,是在不與物體發(fā)生實(shí)際接觸的情況下獲取關(guān)于物體或現(xiàn)象的信息。遙感應(yīng)用于許多領(lǐng)域,包括地理學(xué)、土地測量和大多數(shù)地球科學(xué)學(xué)科;它還有軍事、情報(bào)、商業(yè)、經(jīng)濟(jì)、規(guī)劃和人道主義等應(yīng)用?!斑b感”

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論