《IP網絡多媒體通信技術及應用》課件第4章

上傳人：1*** IP屬地：廣東上傳時間：2024-12-10 格式：PPT 頁數：292 大小：2.21MB 積分：15 舉報 版權申訴

已閱讀5頁，還剩287頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

第4章多媒體信息處理技術及標準

4.1多媒體信息4.2語音壓縮及編碼技術4.3視頻壓縮及編碼技術

4.1多媒體信息

4.1.1信息與媒體

1.信息的概念

英文信息(Information)一詞的含義是情報、資料、消息、報導、知識等。長期以來人們就把信息看做是消息的同義語,簡單地把信息定義為能夠帶來新內容、新知識的消息。目前關于信息大致的說法有:

(1)信息是用語言、文字、數字、符號、圖像、聲音、情景、表情、狀態(tài)等方式傳遞的內容。

(2)1948年,信息論的奠基人之一香農(Shanon,美國數學家)第一個以信息公式的方式定義“信息是熵的減少”,這里用到的“熵”是不確定性的度量。香農的信息定義實際上是說,信息是“用來消除不確定性的東西”。

(3)控制論的奠基人維納(Wiener)在1948年指出:“信息就是信息,不是物質,也不是能量”,專門指出了信息是區(qū)別于物質與能量的第三類資源。

(4)根據信息與通信的關系,信息可分為技術信息(物質屬性的反映,例如事物運動的狀態(tài)與方式等)、語義信息(人們適應外部世界,并同外部進行內容交換的標記,例如各種知識與技能等)和價值信息(具有價值性、有效性、經濟性及其他特性的知識)。

信息的定義很多,但信息關心的是內容。從此觀點出發(fā),信息是通過交流得到的關于特定事物的知識。信息的獲得是通過人類感知系統的活動來完成的,其中視覺是感知信息(主要對文字、圖畫和視頻圖像)的重要途徑,視覺所感知到的信息約占人類從外部世界獲取信息總量的80％;聽覺是感知信息(主要對聲音)的次要途徑,其所感知到的信息約占人類從外部世界獲取信息總量的10％;另外,嗅覺、味覺和觸覺所感知到的信息共約占１０％。

2.媒體的概念

媒體(Media)是信息表示、傳輸、存儲的形式載體。常見的表示媒體有文字、圖畫、語言、音樂、動畫和視頻圖像等;傳輸媒體有電話線、同軸電纜、光纖、電磁波、宇宙射線、空氣等;存儲媒體有碑石、石窟、紙張、磁帶、磁盤、光盤、半導體存儲器等。

3.信息與媒體的關系

信息與媒體是內容與形式的關系,二者有著緊密的聯系。自然界的聲音、圖像以及經過人腦加工處理后形成的語言文字等構成了多媒體信息。也就是說,多媒體信息包含了信息和信息的表示形式。而一般意義上的媒體則指信息傳輸、存儲的形式載體。4.1.2文字與數據

文字(Text)是最基本的多媒體信息,也稱為字元。文字的有序排列和組合形成字(Word)和數據(Data)。文字用二進制編碼表示,不同的二進制編碼代表不同的文字。

西文文字采用ASCII碼表示。ASCII碼是美國信息交換標準代碼(AmericanStandardCodeforInformationInterchange)的簡稱,由美國國會圖書館交換代碼(LibraryofCongress,LC)發(fā)展而來,其后演變成ISO646國際標準。依ASCII和ISO646的規(guī)定,ASCII碼包括大小寫英文字母、標點符號和阿拉伯數字。ASCII碼是信息交換的基礎,故稱為網絡的奠基標準,至今仍被廣泛應用。

ASCII碼簡單,字母、數學符號、控制字符共128個,采用7位二進制編碼方式表示。ASCII碼的缺點是明顯的,它無法滿足世界多種民族語言文字的交換要求。

漢字數目較多,常用的漢字就有3000多個,因此漢字編碼必須采用多于7位的二進制編碼方案。例如二級漢字編碼,國家標準GB2312-80規(guī)定,采用2×7個二進制位表示一個漢字,共可表示6763個漢字和850個符號。為容納世界上多種語言的字元和符號,ISO－WG2工作組制定了UCS(ISO/IEC－10646)標準。該標準規(guī)定采用16位(雙8位)編碼,具有65563個編碼空間,可以容納漢字、日文、韓文、希臘文、阿拉伯文、希伯萊文、中歐文字、德語、俄語等。同時為了配合8、16、32和64位運算處理器,該標準規(guī)定字元碼長度為定長的4個8位元(Octet)。

另一種由美國Xerox、JoeBecker等公司提出的Unicode標準,將字元編碼的基本單位由7或8個位元直接擴充為16個位元。這一結構后被ISO－WG2工作組采納,同時將Unicode標準融入ISO/IEC－10646標準。4.1.3聲音與MIDI

音頻信息有兩類:獲取的聲音和合成的聲音。

1.聲音

聲音也稱聲波或音頻。聲音的屬性包括響度、音調和音色。響度指聲音的大小,通常用聲壓級(SPL)或聽力級(HL)表示;音調指聲音的高低,對應聲音的頻率;音色指聲音的諧波特性。

音頻(Audio)是指人耳可聞的聲音信息,頻率一般在20Hz～20kHz范圍內。語音(Voice)是指人們正常講話時發(fā)出的聲音,頻率范圍為100Hz～7kHz。語音可以看做是音頻的一段,具有較窄的頻率范圍。正確理解二者的區(qū)別,對于多媒體系統的硬件及軟件設計具有重要的意義。對應于不同的系統應用,音頻的含義是不一樣的。電話系統語音的頻率范圍為200Hz～3.4kHz,調幅廣播的音頻頻率范圍為50Hz～7kHz,調頻廣播的音頻頻率范圍為20Hz～15kHz,高保真立體調頻廣播的音頻頻率范圍為20Hz～20kHz。

多媒體音頻信號一般指經過采樣(Sampling)和量化后的數字化聲音。采樣有時也稱取樣。采樣的目的是去掉模擬音頻信號的時間相關性。常用的采樣頻率有8kHz(主要用于語音通信系統)、11.025kHz、22.05kHz、44.1kHz(主要用于CD級音質的編碼系統)。量化是指把不同的采樣值(某一時刻音頻信號的幅度)用不同的二進制碼表示。二進制碼位數越多,分辨率就越高。國際標準的語音編碼采用8位(8bit,即256個等級)量化。

音頻文件的大小可按下列公式計算:

其中:S表示文件的大小,以字節(jié)B(Byte)為單位;T為采樣時間,以s為單位;D為采樣頻率,以kHz為單位;N為聲道數目,單聲道(Mono)取值為1,立體聲(Stereo)取值為2;R為二進制量化等級,通常為8或16bit。對于8kHz采樣、8bit量化的電話系統,10s的語音文件大小為80kB;對于44.1kHz采樣、8bit量化的立體聲系統,10s的音頻文件大小為441kB?？梢?通過采樣直接獲取的音頻文件需要很大的存儲空間。為了對音頻文件進行處理,必須解決音頻信號的數據壓縮問題。

2.常見音頻文件格式

1)Wave文件(后綴為.wav)

Wave格式是Microsoft公司開發(fā)的一種聲音文件格式,它符合RIFF(ResourceInterchangeFileFormat)文件規(guī)范,用于保存Windows平臺的音頻信息資源,被Windows平臺及其應用程序所廣泛支持。Wave格式支持MSADPCM、CCITTALaw、CCITTμLaw和其它壓縮算法,支持多種音頻位數、采樣頻率和聲道,是PC機上最為流行的聲音文件格式,但其文件尺寸較大,多用于存儲簡短的聲音片斷。

2)AIFF文件(后綴為.aif/.aiff)

AIFF是音頻交換文件格式(AudioInterchangeFileFormat)的英文縮寫,是蘋果計算機公司開發(fā)的一種聲音文件格式,被Macintosh平臺及其應用程序所支持。NetscapeNavigator瀏覽器中的LiveAudio也支持AIFF格式,SGI及其它專業(yè)音頻軟件包也同樣支持這種格式。AIFF支持ACE－2、ACE－8、MAC－3和MAC－6壓縮,支持16位44.1kHz立體聲。

3)Audio文件(后綴為.au)

Audio文件是SunMicrosystems公司推出的一種經過壓縮的數字聲音格式,是Internet中常用的聲音文件格式。NetscapeNavigator瀏覽器中的LiveAudio也支持Audio格式的聲音文件。

4)Sound文件(后綴為.snd)

Sound文件是NeXTComputer公司推出的數字聲音文件格式,支持壓縮。

5)Voice文件(后綴為.voc)

Voice文件是CreativeLabs開發(fā)的聲音文件格式,多用于保存CreativeSoundBlaster系列聲卡所采集的聲音數據,被Windows平臺和DOS平臺所支持,支持CCITTALaw和CCITTμLaw等壓縮算法。

6)MPEG音頻文件(后綴為.mp1/.mp2/.mp3)

MPEG是運動圖像專家組(MovingPictureExpertsGroup)的英文縮寫,代表MPEG運動圖像壓縮標準。這里的音頻文件格式指的是MPEG標準中的音頻部分,即MPEG音頻層(MPEGAudioLayer)。MPEG音頻文件的壓縮是一種有損壓縮,根據壓縮質量和編碼復雜程度的不同可分為三層(MPEGAudioLayer1/2/3),分別對應MP1、MP2和MP3這三種聲音文件。MPEG音頻編碼具有很高的壓縮率。MP1和MP2的壓縮率分別為4∶1和6∶1～8∶1,而MP3的壓縮率則高達10∶1～12∶1。也就是說,一分鐘CD音質的音樂,未經壓縮需要10MB存儲空間,而經過MP3壓縮編碼后只需1MB左右,同時其音質基本保持不失真,因此,MP3文件格式目前使用的最多。

7)RealAudio文件(后綴為.ra/.rm/.ram)

RealAudio文件是RealNetworks公司開發(fā)的一種新型流式音頻(StreamingAudio)文件格式,它包含在RealNetworks公司所制定的音頻、視頻壓縮規(guī)范RealMedia中,主要用于在低速率的廣域網上實時傳輸音頻信息。采用這種文件格式,網絡連接速率不同,客戶端所獲得的聲音質量也不盡相同:對于14.4kb/s的網絡連接,可獲得調幅質量的音質;對于28.8kb/s的連接,可以達到廣播級的聲音質量;如果擁有ISDN或更快的線路連接,則可獲得CD音質的聲音。

3.合成聲音

1)MIDI(樂器數字接口)

合成音樂與MIDI(MusicalInstrumentDigitalInterface)緊密相關,已形成標準;合成語言目前處在研究階段,還未形成實用化標準。

MIDI是20世紀80年代初提出的數字音樂/電子合成樂器的統一國際標準。它定義了計算機音樂程序、合成器及其它電子設備交換音樂信號的方式,還規(guī)定了不同廠家的電子樂器與計算機連接的電纜和硬件及設備間數據傳輸的協議,可用于為不同樂器創(chuàng)建數字聲音,可以模擬大提琴、小提琴、鋼琴等常見樂器的聲音。

2)MIDI文件(后綴為.mid/.rmi)

MIDI并不是數字化的聲音,MIDI信息實際上是一段音樂的數字形式描述。在MIDI文件中,只包含產生某種聲音的指令,這些指令包括使用什么MIDI設備的音色、聲音的強弱、聲音持續(xù)的時間等,計算機將這些指令發(fā)送給聲卡,聲卡按照指令將聲音合成出來。MIDI聲音在重放時可以有不同的效果,這取決于音樂合成器的質量。相對于保存真實采樣數據的聲音文件,MIDI文件顯得更加緊湊,其文件尺寸通常比聲音文件小得多。

3)模塊文件(后綴為.mod/.s3m/.xm/.mtm/.far/.kar/.it)

模塊(Module)格式是一種已經存在了很長時間的聲音記錄方式,它同時具有MIDI與數字音頻的共同特性。模塊文件中既包括如何演奏樂器的指令,又保存了數字聲音信號的采樣數據,因此,其聲音回放質量對音頻硬件的依賴性較小,也就是說,在不同的機器上可以獲得基本相似的聲音回放質量。模塊文件根據不同的編碼方法有MOD、S3M、XM、MTM、FAR、KAR、IT等多種不同格式。

4.獲取聲音與MIDI的比較

獲取聲音是聲音的實際表示,包含了聲音的瞬時特性,與設備無關,每次播放時具有較好的一致性;其缺點是文件數據量大,需要較大的存儲空間。

MIDI文件與設備有關,與獲取聲音相比,其優(yōu)點為:

(1)文件緊湊,所占空間小,其文件大小與回放質量完全無關。通常情況下,MIDI文件比CD質量級的獲取聲音文件小200到1000倍。

(2)在某些情況下,如果所用的MIDI聲源較好,MIDI有可能發(fā)出比獲取聲音更好的質量。

(3)在不需要改變音調或降低音質的情況下,可以改變MIDI文件的長度(通過改變其速度)。

(4)MIDI數據是完全可編輯的,我們可以用多種方法來處理它的每一個細節(jié)。

MIDI文件的缺點是:

(1)因MIDI文件并不是聲音,故僅當MIDI回放設備與產生時所指定的設備相同時,回放的結果才是精確的。

(2)MIDI目前還不能很容易地用來回放語音對話。在視頻會議系統中,音頻一般為獲取的聲音,且以語音對話為主,較少使用MIDI。4.1.4圖像與圖形

圖像(Image)是可視的多媒體信息。在使用圖像這一概念時,一般指靜態(tài)圖像(StillImage)。根據圖像產生和表示的方式不同,圖像可分為位圖(Bitmap)和矢量畫(Vector－drawn)。位圖和矢量畫是計算機圖像顯示的主要方式。單獨使用圖像這一概念時,我們更多側重于計算機圖像的含義。另一個容易混淆的概念是圖形(Graphics)。圖形是指用計算機繪圖工具繪制的圖畫(Picture)。構成圖形的要素包括刻畫形狀的點、線、面、體等幾何要素以及反映物體表面屬性或材質的灰度顏色等非幾何要素。圖形一般按各個成分的參數形式存儲,可以對各個成分進行移動、縮放、旋轉和扭曲等變換,可以在繪圖儀上將各個成分輸出。對人眼而言,圖形和圖像沒有區(qū)別。圖形方式是計算機顯示的另一種主要方式,在制作Web頁面時使用較多。典型的圖形標準有:

CGM——計算機圖形元語言;

STEP——工程圖紙在計算機中的描述;

SPDL——標準頁面描述語言標準。

1.位圖

位圖用于表示逼真照片或要求精細的圖像。位圖由點(Dot)組成,點是位圖圖像的最小元素,通常也稱為像素(Pixel)。每個像素可以具有不同的顏色和亮度。

一幅圖像由若干個像素組成,其位圖文件存放著與該幅圖像每一個像素相對應的數字矩陣。矩陣中的每一個元素就是像素值,它反映所對應的像素的某些特征(顏色編碼或灰度級),該矩陣就稱為該幅圖像的“位圖”。簡單理解位圖即像素信息矩陣。單色位圖用一維矩陣表示,只有兩種顏色(黑和白),更多的顏色則要用較大的“深度”(彩色),即多位編碼表示,稱之為顏色深度,常用的有4位、8位、16位、24位顏色。以24位位圖為例,每個像素可以有1600多萬種顏色。

位圖產生的方法有:

(1)用畫圖程序獲取。

(2)用屏幕抓圖程序獲取。

(3)用掃描儀、數碼相機或通過數字化視頻處理設備獲取。

2.位圖處理和位圖文件的格式

如上所述,位圖適合于表現含有大量細節(jié)(如明暗變化、復雜場景和多種顏色等)的畫面,并可直接、快速地在屏幕上顯示出來。位圖占用的存儲空間較大,一般需要進行數據壓縮。位圖圖形的一個不利條件是它們在縮放時清晰度降低并且出現鋸齒,如圖４－1所示;而矢量圖在縮放時清晰度不降低,如圖４－2所示。圖4－1位圖放大時會導致鋸齒圖4－2矢量圖放大時沒有鋸齒處理位圖時,輸出圖像的質量決定于處理過程開始時設置的分辨率的高低。分辨率是一個籠統的術語,它指一個圖像文件中包含的細節(jié)和信息的大小,以及輸入、輸出或顯示設備能夠產生的細節(jié)程度。操作位圖時,分辨率既會影響最后輸出的質量,也會影響文件的大小。處理位圖需要三思而后行,因為給圖像選擇的分辨率通常在整個過程中都伴隨著文件。無論是在一個300dpi的打印機上還是在一個2570dpi的照排設備上印刷位圖文件,文件總是以創(chuàng)建圖像時所設的分辨率大小印刷的,除非打印機的分辨率低于圖像的分辨率。如果希望最終輸出看起來和屏幕上顯示的一樣,那么在開始工作前,就需要了解圖像的分辨率和不同設備分辨率之間的關系。為了便于位圖的存儲和交流,產生了種類繁多的文件格式,常見的有BMP(后綴為.bmp/.rle)、GIF(后綴為.gif)、PCX(后綴為.pcx)和TIFF(后綴為.tif)等。

(1)BMP是由微軟及IBM公司聯合開發(fā)Windows平臺上最常用的圖像文件格式,RLE格式文件可以壓縮的形式存盤。

(2)GIF格式主要用于在不同平臺上進行圖像交換,文件最大為64MB,顏色數最多256色,壓縮率為2∶1,多用于網頁顯示及制作。

(3)PCX將以壓縮編碼的形式存儲圖像文件。

(4)TIFF文件格式廣泛用于高質量的圖像文件處理中。TIFF格式文件有壓縮和非壓縮兩大類,這種格式文件是許多圖像應用軟件所支持的主要文件格式之一。

(5)JPEG是由JointPohotgraphicExpertsGroup(聯合圖像專家組)提出的一個標準,主要用于靜止圖像的壓縮,其最大優(yōu)點是以極小的失真進行高壓縮比壓縮,失真度一般都低于10%,但不能進行較大的放大操作。

(6)TGA格式大量用于電視廣播。

(7)PCD是由柯達相片公司開發(fā)的光盤相片格式,文件較大,保存圖像較為逼真。

(8)PSD為AdobePhotoshop圖像格式,這種格式僅在Photoshop中出現,為Photoshop所特有,能存儲所有Photoshop文件信息(如通道、圖層、路徑等)和各種色彩模式。它以壓縮文件形式存儲,以節(jié)約磁盤空間,是一種不失真壓縮。在Photoshop處理圖像時可盡量采用這種存盤格式。

(9)PCT/PCI格式,此格式大量用于蘋果系統的圖像應用中,對于有大量相同色彩的文件能進行有效的壓縮。

(10)PXR格式主要用于3D動畫,只支持灰度圖像及RGB模式。

(11)EPS格式常用于繪圖和排版軟件中。

(12)RAW格式比較原始,它將所有像素以依次記錄的方式存盤,不對圖像壓縮,占用較大的磁盤空間。

(13)SCT格式可以記錄圖像間的連續(xù)層次,主要用于印刷系統。處理位圖的軟件非常多,主要的軟件工具有:

(1)Adobe公司的Photoshop,它是專門的位圖和矢量圖處理工具,歷史悠久,技術成熟,功能強大,是制作專業(yè)圖片的較好選擇。

(2)Ulead公司的photoImpact。

(3)Macromedia公司的Fireworks,主要用于網頁制作。

(4)Painshop。

(5)ACDSee。

3.矢量圖

矢量圖像,也稱為面向對象的圖像或繪圖圖像,在數學上定義為一系列由線連接的點。矢量文件中的圖形元素稱為對象。每個對象都是一個自成一體的實體,它具有顏色、形狀、輪廓、大小和屏幕位置等屬性。既然每個對象都是一個自成一體的實體,就可以在維持它原有清晰度和彎曲度的同時,多次移動和改變它的屬性,而不會影響圖例中的其它對象。這些特征使基于矢量的程序特別適用于圖例和三維建模,因為它們通常要求能創(chuàng)建和操作單個對象。基于矢量的繪圖同分辨率無關。這意味著矢量圖可以按最高分辨率顯示到輸出設備上。矢量圖用一組指令或參數來描述其中的各個成分,易于對各個成分進行移動、縮放、旋轉和扭曲等變換。矢量圖適合于描述由多種比較規(guī)則的圖形元素構成的圖形,但輸出圖像畫面時將轉換成位圖形式。

矢量圖形文件格式有IGS、DXF、WMF等。

(1)DXF是由AutoDesk公司開發(fā)的,作為AutoCAD中的ASCII繪圖交換文件,現為許多計算機輔助設計軟件應用。

(2)IGS/IGES/作為CAD圖形的一個廣泛標準,也多用于三維及二維動畫設計軟件中。

4.位圖與矢量圖的轉換

就簡單幾何圖形而言,采用矢量圖方式具有較小的數據量;對于復雜的圖像,用位圖方式可以比用矢量圖對象作圖得到更快的屏幕刷新速度。

大多數繪圖程序都提供幾種文件格式來保存圖像。矢量圖構成的畫圖可以保存為位圖格式文件。位圖變換成矢量圖對象則相對困難一些,然而也有許多程序可以計算位圖圖像的邊界或彩色塊的形狀,然后得出用來描述該圖像的多邊形對象,這種處理過程叫做“自動跟蹤”。在一些位圖和矢量圖的創(chuàng)作系統中就集成了這種功能。

5.計算機監(jiān)視器

監(jiān)視器是圖像的輸出顯示設備,了解監(jiān)視器的工作原理和主要特點有助于加深對圖像屬性的理解。這里只作簡單的敘述。

依據色度學原理和彩色電視原理,我們可知自然界的彩色大部分是復合色,其所包含的顏色的種類很多。人眼對彩色的分辨能力是有限的。監(jiān)視器采用有限的三種基色(紅、綠、藍)光來重現自然界的彩色,這種重現是有限的,但同時也基本滿足人的要求,我們稱之為RGB彩色模型。對于圖像處理軟件,為了適應顯示、印刷、打印等不同輸出的需要,一般有多種色彩模式。例如,Photoshop圖像處理軟件中就有位圖、灰度、雙色調、索引、RGB、Lab、CMYK、多通道等8種色彩模式,它們之間具有某些特定的聯系,當輸出一個印刷文件或需要對一個圖像進行特殊處理時,還需要從一個模式轉換到另一個模式。計算機監(jiān)示器總是使用RGB模型顯示顏色,這意味著在非RGB顏色模式(如CMYK)下工作時,Photoshop會臨時將數據轉換成RGB數據再在屏幕上顯示。監(jiān)示器最主要的屬性有顏色、分辨率和刷新頻率,通過調整顯示適配器設置可以對這些屬性進行調整。

顏色代表監(jiān)示器像素點紅色、綠色、藍色的總量,一般用二進制位數表示,如8位、16位、24位。8位可以表示256種顏色(紅、綠、藍分別用3位、2位、3位表示),這對表示彩色圖像來說一般足夠了;16位可以表示32768種顏色(紅、綠、藍分別用5位表示),具有較好的彩色質量;24位可以表示16777216種顏色,一般稱為真彩色。顏色設置要等于或大于欲顯示的圖像顏色種類。監(jiān)示器的分辨率包括屏幕分辨率和像素分辨率。屏幕分辨率指屏幕水平方向可顯示的點數和垂直方向的掃描線數。我們所說的VGA、SVGA、XGA、SXGA顯示標準所對應的分辨率即指屏幕分辨率。像素分辨率指屏幕上紅、綠、藍三色熒光粉的點數,所以也稱為物理分辨率。欲顯示的圖像分辨率小于或等于屏幕分辨率時,才可能完整地顯示。

監(jiān)示器刷新頻率指每秒鐘顯示圖像的幅數。刷新頻率越高,屏幕上顯示的圖像越穩(wěn)定,但同時會占用更多的顯存空間。4.1.5動畫

動畫(Animation)是一系列內容相似但又有區(qū)別的圖像,按照一定的速度播放,依靠人的“視覺暫留”現象,使人產生一種物體在連續(xù)運動的感覺的技術。

動畫由關鍵幀(Keyframe)和插入幀(Tweening)構成。關鍵幀一般由動畫設計師設計,要能體現動作過程的主要特點;插入幀一般由計算機根據一定的算法自動產生。

動畫播放速度與圖像幀的數量有關。圖像幀數較少時,播放速度可以快一些;圖像幀數較多時,播放速度相應要慢一些。合適的播放速度才能體現出較好的動畫效果?；脽羝梢哉J為是效果很差的動畫,而電影則是最好的動畫。4.1.6視頻

1.視頻圖像及產生

視頻圖像是自然界景物通過人類的視覺在人腦中形成的主觀映像,人眼所感覺的圖像是時間和空間的函數。人的大腦具有對歷史圖像回放的特性,這種特性建立在對現實世界的感知和存儲記憶的基礎之上。然而,人的記憶是有限的,不可能記得很多,也不可能記得太久。從空間上講,人不可能看到離自身很遠的宏觀世界,也不可能看到極其微小的微觀世界。攝取客觀世界的圖像,并通過一定的存儲、記錄和傳輸,再由一定的顯示設備重現所記錄的光像,這種技術我們稱之為電視。它包括圖像的攝取(光電轉換)、傳輸(記錄發(fā)送)和顯示(電光轉換)這三個過程。

2.光的基本特性與人的視覺特性

視頻圖像是可見的光像,所以研究視頻圖像時必須了解一下光的特性。

光是一種電磁波,有紅外光、可見光、紫外線等,如圖4－3所示。可見光為電磁波中很窄的一部分,波長從780～380nm依次為紅、橙、黃、綠、青、藍、紫。具有單一波長的光稱為單色光。復合光包含多種波長的單色光成分,給人以復合色的感覺。太陽光便是一種給人以白色感覺的復合光。光源包括自然光源(日光、月光和星光等)和人工光源(各種照明燈及發(fā)光器件)。色源包括反射光引起的色源(不發(fā)光體的彩色)和發(fā)光體本身的色源。色彩與照明密切相關。白光是視頻技術中使用的主要光源,為了對具有不同光譜特性的白光進行比較和色度計算,經常使用色溫這個概念。當絕對黑體在某一特定溫度下,其輻射光譜與某一光源的光譜具有相同的特性時,則絕對黑體的這一溫度就定義為該光源的色溫;具有近似特性時,則稱為相關色溫。絕對黑體(也稱全輻射體)是指既不反射也不透射而完全吸收入射輻射的物體。色溫的單位是開氏度(K)。色溫不等于發(fā)光體的溫度。例如,鎢絲燈在2800K時發(fā)出的光,色溫為2854K。圖4－3電磁波譜圖

視頻技術中常用的標準白光光源有A光源(相關色溫為2854K)、B光源(相關色溫為4800K)、C光源(相關色溫為6770K)、D65光源(相關色溫為6500K)和E光源(相關色溫為5500K)。NTSC制式采用C光源,我國PAL制式采用D65光源,E光源為假想等量白光。目前電視演播室和視頻會議室多采用新式鹵素鎢燈,色溫為3200K,而顯像管的色溫多為9300K。色溫高的白光給人以偏藍的感覺,色溫低的白光給人以偏紅的感覺。視頻圖像是人的主觀感覺,視頻系統應當精確地模擬人的視覺特性。人眼對不同波長光的敏感程度不同,對波長為555nm(黃綠光)最為敏感,其視敏度定義為Km=K(555)。其它任意光的視敏度與它的比值稱為相對視敏函數V(λ)。

人眼視網膜上具有桿狀和錐狀兩種光敏細胞。明視覺過程主要由錐狀細胞完成,它既產生明暗感覺,又產生彩色感覺。在光線很暗時,只有桿狀細胞起作用,不能分辨顏色。為明確表示某一彩色光,必須采用三個基本參量:亮度(也稱明度)、色調和飽和度。這三個量在視覺中組成一個統一的總效果,并嚴格描述了彩色光。亮度是光作用于人眼時所引起的明亮程度的感覺,色調反映了顏色的類別,飽和度指彩色光所呈現彩色的深淺程度。色調和飽和度合稱色度。人的視覺范圍(人眼所能感覺到的亮度范圍)是有限的,并與平均照度有關,人眼的對比度一般為1000∶1。人的亮度感覺與景物的亮度的對數呈線性關系(韋勃－費赫涅爾定律),同時還與周圍環(huán)境的亮度有關,即與景物的對比度有關。人眼的分辨力是有限的,并且和照明強度及景物的相對對比度有關。人眼對彩色細節(jié)的分辨力很差,對色調的分辨力也很差。當飽和度減少時,色調分辨力將下降;當亮度太大或太小時,色調分辨力也會下降。人眼對不同顏色的飽和度分辨力不完全一樣,在黃色區(qū),只能分辨出4級飽和度;而在紅色和藍色區(qū),可以分辨25個等級的飽和度。

3.三基色原理

根據人眼彩色視覺的特性,彩色重現過程并不需要恢復原景物輻射光的光譜成分,更重要的是應獲得與原景物相同的彩色感覺。不同波長的單色光會引起不同的彩色感覺,但相同的彩色感覺卻可以來源于不同的光譜成分的組合,比例決定色度感覺,亮度之和決定亮度感覺,這便是三基色原理的基礎。所謂基色,就是相互獨立的顏色,也就是說,其中任一基色都不能由其它兩色混合產生,這樣就能配出較多的彩色,這就是三基色原理的主要內容。彩色電視采用相加混色法。將三種基色光按一定順序輪流投射到同一表面上,輪換速度足夠快,利用人的視覺惰性產生混色的方法稱為時間混色法,它是順序制彩色電視的基礎,例如DLP投影顯示器即采用這種混色方法。將三種基色光分別投射到同一表面上臨近的三個點上,只要這些點相距足夠近,利用人眼分辨率有限的特點,就能產生三種基色相混合的彩色感覺,這稱為空間混色法,它是同時制彩色電視的基礎。利用兩只眼睛同時觀看兩種不同顏色的同一景像,也可以獲得混色效果,這稱為生理混色法。常用的三基色計色方法有RGB制、XYZ制(CIE制)、UCS制和ULCS制。XYZ計色制應用最廣,XYZ制色域圖比RGB制色域圖更容易理解。CIE是國際照明委員會的簡稱。

彩色CRT顯像是利用空間混色法來重現彩色的。它以紅、綠、藍三種熒光粉作為顯像三基色,而不能直接采用CIE規(guī)定的標準光譜三基色［R］、［G］、［B］。顯像基色選用要在重現色域和重現彩色亮度之間折中考慮。不同制式的彩色電視所選取的顯像三基色并不相同,所用標準白光和色度坐標也不相同。PAL制顯像三基色構成的重現色域與NTSC制的重現色域大面積重合,PAL制的重現色域略小一些,但PAL制所選三基色熒光粉效率高,所配出的彩色比較鮮艷。需要注意的是,電視系統中定義的飽和度和色度學中的飽和度不同。色度學中定義自然界中100%飽和度的色光為單波長光,它位于CIE色度圖的譜色軌跡上。但在電視系統中,在重現三基色所組成的三角形的三邊上,各點所代表的彩色被稱為100%飽和度的彩色,白光坐標點所代表的飽和度為零,三角形內其它各點彩色的飽和度都是相對于三邊上的飽和度而言的。在電視及視頻會議系統中,彩色飽和度均指后者。NTSC制的亮度方程(由顯像三基色配出的任意彩色光的光通量)為

Y=0.299Re+0.587Ge+0.114Be

對于PAL制,理論亮度方程為

Y=0.222Re+0.707Ge+0.071Be

但是,由于NTSC制彩色電視系統的采用比PAL制早十幾年,所以PAL制并未采用上述理論亮度方程,而沿用了NTSC制的亮度方程。其結果是,NTSC制的亮度雖然存在誤差,但在主要特性上仍能滿足視覺對亮度的要求。視頻圖像的最終顯示是由RGB三基色信號完成的,而在傳輸和處理過程中多采用色差和亮度信號。三基色信號既含有亮度信號又含有色度信號,其幅度決定了亮度(亮度方程),相對比例決定了色度(彩色變換系數)。因此,亮度信號和色差信號均可由三基色信號導出:

Y=0.299R+0.587G+0.114B

R-Y=0.701R-0.587G-0.114B

B-Y=-0.299R-0.587G+0.886B

G-Y=-0.299R+0.413G-0.114B

當彩色攝像機的光譜響應曲線(分色曲線)與顯像三基色分布色系數曲線(混色曲線)相匹配時,就可實現彩色圖像的正確重現。當攝像和顯像制式不同時,應采用校色矩陣電路進行處理。攝像機光電轉換特性的非線性會引起圖像的灰度畸變(γ畸變),為消除這種畸變,在傳輸通道中必須設置γ校正電路。理論上,系統總的傳輸特性經校正后應為一直線,但實驗證明,當系統總的γs=1.28時效果最好。因此,在近代彩色顯像管的γ約為2.8,攝像管的γ約為1的情況下,通道的γ應等于0.45。在圖像處理時,應根據不同的輸出設備,選擇不同的γ校正系數。模擬γ校正電路通常由具有非線性特性的二極管構成。4.圖像的基本特征參數表4－1視頻圖像的基本參數表中所列的參數大多數意義明確,比較好理解,在此只介紹容易產生歧義的幾個參數。

1)清晰度

(1)系統清晰度。清晰度是主觀感覺到的圖像細節(jié)呈現的清晰程度,與系統傳送圖像細節(jié)的能力有關,通常稱為系統的分解力。

垂直分解力(M)指沿垂直方向區(qū)分黑白相間條紋的數目。其表達式為

M=K1(1-β)Z

其中:K1<1;β為逆程寬度;Z為掃描行數;(1-β)Z為有效行數。水平分解力(N)指沿水平方向區(qū)分黑白相間條紋的數目,其表達式為

N=KK1(1-β)Z

其中:K為幅型比。

水平分解力大于垂直分解力。視頻傳輸通道的通頻帶應適應這一水平分解力的要求。水平分解力與垂直分解力二者相當時圖像質量最佳。通常我們所說的電視清晰度都是指垂直清晰度。

(2)顯示器分辨率。顯示器分辨率通常用熒光粉的點距(DotPitch)或節(jié)距表示。點距是顯示器上兩個相鄰發(fā)光點中心到中心之間的水平距離。點距越小,代表屏幕上可以容納更多構成影像的點,也代表著清晰度越高。顯示器分辨率是圖像顯示系統清晰度的物理上限,故又稱物理清晰度或基本分辨率(也叫固有分辨率)。

(3)圖像信號清晰度。對于模擬視頻圖像信號,采用電視線的概念來描述其清晰度。對于數字視頻圖像信號,圖像信號清晰度采用與計算機監(jiān)視器中相同的描述方法(像素)來表示。圖像信號清晰度又稱原始分辨率。常用的數字視頻圖像的基本參量見表4－2。

(4)視頻帶寬與圖像信號清晰度的關系。圖像信號清晰度與視頻信號帶寬有關。視頻帶寬越高,代表畫面的品質越好,也代表解像度越高。在PAL或NTSC制式狀態(tài)下,通常1MHz視頻頻寬可以換算為大約80線水平解像度。彩色電視測試圖卡包含5組清晰度測試用黑白條紋信號,如表4－3所示。表4－3清晰度測試用黑白條紋

(5)支持顯示分辨率。支持顯示分辨率指通過視頻處理電路采取重新計算或抽行方式,將高于基本分辨率格式的圖像降頻顯示到屏幕上。如屏幕基本分辨率為1024×768,通過圖形處理電路,可支持分辨率為1600×1200的圖像顯示。但是,實際清晰度只有1024×768,和真正的1600×1200基本分辨率顯示屏畫質是有差距的。

2)對比度

對比度反映圖像的亮度層次。亮度層次也稱黑白層次、圖像亮度梯度級數或灰度等級。圖像一般由許多亮度不同的像素組成,如果從圖像中最亮部分到最暗部分之間能分辨的亮度層次越多,則圖像越清晰和逼真。

圖像對比度定義為最大亮度與最小亮度的比值,即實際上在提出圖像對比度要求時,應考慮到人眼黑白分辨率有限的特點,過高的對比度要求有時并不能產生希望的效果。人眼所能分辨的亮度層次與圖像對比度的對數成正比,并受圖像最大對比度的限制,也受觀看環(huán)境亮度的影響。當系統非線性系數大于1時,圖像對比度隨亮度的增加而增大;當系統非線性系數小于1時,圖像對比度隨亮度的增加反而減小。人眼可分辨的亮度層次級數表達式為:

其中:ξ為費赫涅爾系數,又稱人眼的對比度靈敏度閾值(最小可區(qū)分亮度梯度與平均亮度的比值),一般取值為0.005～0.02。

3)幾個常用的光學量

有幾個光學量,它們與圖像亮度密切相關,故在此略作敘述。

(1)光通量(Φ)。

定義:光通量是光源在單位時間內發(fā)出的經過人眼視覺加權后的光能量。

單位:流明(lm),光瓦(W),1光瓦=680流明。

表達式:

(2)發(fā)光強度(L)。

定義:點光源在單位立體角內輻射的光通量。

單位:坎德拉(cd)。

表達式:

(3)亮度(B)。

定義:發(fā)光面在某一給定方向上的發(fā)光強度與該發(fā)光面的面積在此方向上的投影之比。

單位:尼特(nt),英尺朗伯(ft.lm),英尺燭光(ft.cd),熙提(stilb),亞熙提。

(4)照度(I)。定義:單位面積上接受的光通量。單位:勒克司(lux)。表達式:

5.標準彩條信號

標準彩條信號是一種測試信號,在會議電視系統中可用來對視頻編解碼器、傳輸系統和顯示輸出設備特性進行測試和調整。標準彩條信號可由彩條信號發(fā)生器產生,也可由嵌入式CPU運行相應的應用程序產生。

標準彩條信號為8條等寬的豎條,顏色自左至右依次為白、黃、青、綠、品、紅、藍、黑。白條對應的電平定為1.0,黑條對應的電平定為0,構成彩條的三基色信號電平非1即0,此時稱為100%飽和度、100%幅度彩條信號。常用的標準彩條信號有100－0－100－0彩條、100－0－75－0彩條、100－0－100－25彩條。我國采用100－0－75－0彩條,也稱EBU(歐洲廣播聯盟)彩條。第一位和第二位數字表示組成無色條所對應的R、G、B的最大值和最小值;第三位和第四位數字表示組成有色條所對應的R、G、B的最大值和最小值。4數碼命名的彩條中,各信號均指經γ校正后的信號。

標準彩條信號數據和信號波形可參見相應的標準。

6.模擬廣播電視視頻三大標準

現有的彩色電視標準稱為兼容制標準,即兼容黑白制電視標準。根據對彩色信號處理方式的不同,模擬廣播電視主要有NTSC、PAL和SECAM三大標準。不同標準制式的模擬廣播電視信號之間的模擬轉換幾乎是不可能的。

彩色電視信號為了能與黑白電視兼容,總是把R、G、B三基色信號組合為亮度信號Y和兩個色差信號C1和C2。色差是指基色信號中的R、G、B三個分量信號與亮度信號Y之差,色差C1和C2的含義與具體的應用有關。兼容制的特點是亮度信號和色差信號同頻帶傳輸,同時色度信號的帶寬相對較窄。為了減少亮色信號間的干擾,色度信號一般采用平衡調幅,并精確選擇彩色副載波頻率,實現亮度信號和色度信號的頻譜交錯。在PAL彩色電視制式中,C1、C2分別表示U、V兩個色差信號,故PAL制又稱YUV系統。U、V分別表示經過幅度壓縮的藍色差(B-Y)和紅色差(R-Y)信號(壓縮的目的是將亮色復合信號電平的最大擺動范圍限制在-0.33和+1.33之間,從而避免視頻信號對圖像載波調幅時引起嚴重的過調制):

U=0.493(B-Y)

V=0.877(R-Y)

YUV與RGB彩色空間的變換關系為

在NTSC彩色電視制式中,C1、C2分別表示Q、I(壓縮色差)兩個色差信號,故NTSC制又稱YQI系統。Q、I分別表示經過頻域帶寬壓縮的U、V信號。壓縮的目的是為了適應NTSC制4.2MHz視頻帶寬的要求,減少串色。人眼不敏感的Q信號帶寬為0.5MHz,人眼敏感的I信號帶寬為1.5MHz。

Q、I正交軸與U、V正交軸有33°的夾角,兩坐標系間存在下式關系:或

YQI與RGB彩色空間的變換關系為

1)NTSC制

NTSC制是由美國國家電視系統委員會(NationalTelevisionSystemsCommittee)在1953年制定的一種兼容制彩色電視標準,是最早采用的彩色電視制式,應用的國家有美國、日本及英聯邦國家。為了減少色度副載波對黑白圖像的干擾,NTSC制采用了平衡調幅和頻譜交錯原理,故又稱為正交平衡調幅制。

NTSC制采用隔行掃描方式,即一幀視頻圖像由奇、偶兩場構成,可以有效克服屏幕閃爍。一幀視頻由525行水平掃描線構成,以每秒30幀的速率傳送,采用YIQ彩色空間。在三種兼容制彩色電視標準中,NTSC制的接收和處理最簡單,色度信號每行以同一方式傳送,因而不存在對圖像質量有損害的行順序效應(PAL、SECAM制都有行順序效應);亮度信號與色度信號以最大間距錯開,兼容性好,亮色串擾較小。其缺點是色度信號的幅度失真會影響重現彩色的飽和度,特別是當整個傳輸系統中存在非線性特性時,系統對色度副載波的增益將與所疊加的亮度信號的電平有關(稱為微分增益DG);色度信號的相位失真對重現彩色的色調有明顯的影響,即存在相位敏感性,特別是當整個傳輸系統中存在非線性特性時,色度信號產生的相移與所疊加的亮度信號的電平有關(稱為微分相位DP)。

NTSC制視頻的主要技術參數:

掃描方式:525行/幀(262.5行/場,奇、偶兩場);

消隱行數:40行/幀(20行/場,奇、偶兩場);

有效行數:485行/幀;

幀速率:30幀/秒(或29.97幀/秒);

彩色副載波頻率:3.579545MHz;

視頻帶寬:4.2MHz;

行頻:15734Hz;

行周期:63.5μs;行消隱期:(10.9±0.2)μs;

行同步脈沖寬度:4.7μs;

場頻:60Hz;

場周期:16.67ms;

場消隱期:20H+10.9μs(H為1個行周期時間);

場同步脈沖寬度:2.5H;

同步信號極性:負極性。

2)PAL制

PAL制是德國1962年制定的一種兼容制彩色電視制式。中國和大部分西歐國家使用這種制式。

PAL(PhaseAlternateLine)是“相位逐行交換”的意思,故PAL制又稱逐行倒相正交平衡調制。彩色信號在發(fā)送端逐行改變相序(一行為NTSC行,下一行則為PAL行或倒相行),在接收端采用副載波延遲線或其它平均法,同時利用人的視覺惰性的輔助平均作用補償小幅度串色所引起的彩色偏差,這樣就可以減少傳輸誤差帶來的影響。為了減少亮色串擾,PAL制副載波采用1/4行頻偏置,同時附加25Hz半場頻偏置。根據接收時解調方式的不同,PAL制又細分為PALD、PALA、PALN、PALS等。

PAL制的特點是:對相位誤差不敏感,重現彩色受傳輸誤差影響小;對傳輸通道頻率特性缺陷具有抗御能力;微分相位影響較小;多徑接收的影響小;亮色信號頻譜交錯,相互干擾小,可以采用延時線或數字梳狀濾波器分離;微分增益與NTSC制相當;易出現行順序效應(行蠕動、爬行或百葉窗效應);處理技術和設備復雜。

PAL制視頻的主要技術參數:

掃描方式:625行/幀(312.5行/場,奇、偶兩場);

消隱行數:50行/幀(25行/場,奇、偶兩場);

有效行數:575行/幀;

幀速率:25幀/秒;

彩色副載波頻率:4.433618MHz;

視頻帶寬:6MHz;

行頻:15625Hz;

行周期:64μs;行消隱期:(12.0±0.3)μs;

行同步脈沖寬度:(4.7±0.2)μs;

場頻:50Hz;

場周期:20ms;

場消隱期:25H±12μs;

場同步脈沖寬度:2.5H;

同步信號極性:負極性。

3)SECAM制式

SECAM(SéquentialCouleuràMèmoire)是法國1966制定的兼容制彩色電視制式,為法國、俄羅斯、蒙古等少數國家所使用。SECAM與PAL制同屬于525行/50場的系統。

與PAL制采用頻分方式處理色度信號的兩個分量方式不同,SECAM制采用時分原則來避免串色及由其造成的彩色失真,兩個色差信號在傳送行使用一次,在未被傳送行,將存儲在延時線中的信號再利用一次,亮度信號仍每行傳送,從而重現R、G、B三色信號,因此SECAM制是一種順序－同時制。

SECAM制的特點是:受傳輸失真的影響小,大面積彩色部分幾乎不受DP、DG影響;接收機可以不設色調與飽和度調整旋鈕;存在行順序效應;復雜性居于NTSC與PAL之間。

兼容制彩色電視三大制式的選用,一定程度上受到二戰(zhàn)后冷戰(zhàn)思維的影響,其應用國家或地區(qū)的廣泛程度并不能完全反映其技術的優(yōu)缺點。三大制式的存在顯然不利于人類的信息交流,好在目前大規(guī)模集成電路得到應用,全制式彩色解調技術已在接收機上普遍采用,同時數字視頻處理技術的應用也為視頻信息的交流建立了一個統一的平臺。

7.數字電視及標準

數字電視(DigitalTelevision)有時也稱為數碼電視。狹義的數字電視泛指把模擬電視信號轉換成數字信號,或采用數字攝像機直接獲得數字視頻信號,并以數字形式進行處理、傳輸、存儲或顯示。廣義的數字電視泛指同電視廣播有關的全部數字技術,除了狹義的內容外,還包括各種數字控制、監(jiān)測及附加信息的數字形式傳輸。

數字電視具有數字信號系統的特點,如信噪比高、受傳輸系統影響小、信道適應性好、便于多工傳輸、便于存儲、設備可靠、維護簡單等特點。數字電視系統由編碼器、傳輸信道和解碼器組成,對應于我們常說的攝、錄、編、播系統。針對編解碼形式不同,形成了許多數字電視制式。

高清晰度電視(HighDefinitionTelevision,HDTV)是數字電視的一種主要形式,目的是采用數字技術,以解決畫面清晰度、色彩還原度、聲音保真度為主要目標。HDTV的低端標準一般兼容現有的模擬電視制式,屬于過渡性標準,主要有IDTV(ImprovedDefinitionTV)和EDTV(ExtendedDefinitionTV)。HDTV的高端標準基本上不再考慮與現有模擬電視制式的兼容問題。目前世界上主要有三種HDTV系統。一是日本在1984年提出的MUSE制HDTV系統,該系統屬數字模擬混合制,采用MPEG－2數字壓縮技術和模擬傳送方式;二是歐洲電信協會公布的DVB－S／C／T標準,主要有北歐的HD－DIVINE系統和德國的HDTV－T系統;三是美國聯邦通信委員會(FCC)于1996年12月公布的DTV標準,這是世界上第一個全數字HDTV標準。另一種新型的多媒體廣播業(yè)務ISDB(綜合業(yè)務數字廣播)技術,系統地綜合了各項數字內容,每一項內容可以包括從LDTV到HDTV的多節(jié)目視頻、多節(jié)目音頻、圖形、文本等。ISDB幾乎包攬了目前世界上的電視、電信等不同業(yè)務,其傳輸系統涵蓋各種業(yè)務不同的需求,比目前的DVB、HDTV和其它通信服務技術用途更廣泛。另一種新型的多媒體廣播業(yè)務ISDB(綜合業(yè)務數字廣播)技術,系統地綜合了各項數字內容,每一項內容可以包括從LDTV到HDTV的多節(jié)目視頻、多節(jié)目音頻、圖形、文本等。ISDB幾乎包攬了目前世界上的電視、電信等不同業(yè)務,其傳輸系統涵蓋各種業(yè)務不同的需求,比目前的DVB、HDTV和其它通信服務技術用途更廣泛。

1995年,由原廣電部、電子部等部委負責成立了我國第一個HDTV協調小組。1998年HDTV實驗試播成功,并且中央電視臺于1999年10月1日采用數字電視地面廣播方式,對國慶節(jié)閱兵式進行了試播,并計劃于2005年開始數字電視地面廣播。我國目前對于HDTV標準的研究主要集中在HDTV地面廣播標準上,參與研究的高校主要有清華大學與上海交通大學。

我國目前關于HDTV的規(guī)范主要有:高端彩電(EDTV)基本規(guī)范,見表4－4;中國高端(HD兼容顯示)數字彩電(HDTV－READY或稱HDTV顯示器)標準,見表4－5;中國高清晰度數字彩電(IntegratedHDTV)標準,見表4－6。

表4－4高端彩電(EDTV)基本規(guī)范表4－5中國高端數字彩電(HDTV－READY)標準

表4－6中國高清晰度數字彩電

8.計算機數字視頻和視頻卡

計算機數字視頻就是在計算機平臺上對視頻進行數字處理。為了在計算機屏幕上顯示模擬視頻,必須先把模擬視頻變?yōu)閿底中盘?這一工作一般由插在計算機上的視頻數字化覆蓋卡(也稱視頻捕捉卡、視頻采樣卡或視頻卡)來接收模擬視頻信號,并進行采樣和量化,然后可以和圖像、圖形、動畫及文字等多媒體信息一起顯示。視頻卡選用時應考慮的問題:

(1)視頻采樣分辨率的大小。

(2)視頻采樣速率及實時性要求。

(3)特殊的處理功能,如凍結、淡入淡出、旋轉、鏡像、透明、縮放等。

(4)音頻輸入的處理功能及質量。

(5)顯存的大小與存儲幀的數量。

(6)音視頻輸出功能。

(7)CATV接收功能。

(8)數字視頻接口等。

9.計算機視頻和電視視頻的區(qū)別

(1)掃描方式與掃描線數不同。電視視頻采用隔行掃描方式,對于每一種電視制式,其掃描線數都是固定的525行或625行,場頻與行頻也是固定的。計算機視頻采用逐行掃描方式,掃描線數、行頻與幀頻根據顯示適配器的設置而變化。例如在SVGA方式下幾乎全屏的圖像,在XGA方式顯示為一個小的窗口,而在VGA方式下只能部分顯示。

(2)過掃描問題。在電視廣播中,電視臺播送的畫面總是比標準電視屏面所能容納的畫面略大,因此電視觀眾看到的圖像“邊界”總是受到電視的物理幀大小的限制。這種現象一般稱為“過掃描”(Overscan)。相比之下,計算機監(jiān)視器上顯示的圖像較屏幕稍小,這樣當數字化的視頻圖像顯示在計算機監(jiān)視器上時,在圖像周圍就會有一個邊框。而當計算機監(jiān)視器屏幕上的圖像變換成電視視頻時,該圖像的外邊界就會超出電視屏幕。

(3)視頻的顏色。在電視和計算機之間,顏色的再現和顯示是不同的。計算機監(jiān)視器使用的是RGB組合視頻,其顏色比電視屏幕上所能看到的那些顏色更精確。當一個計算機的屏幕圖像變換成視頻時,顯示出來的顏色就有差異。在電視中,使用有限顏色的調色板以及有限制的亮度電平和黑色電平。在計算機上產生的某些顏色,在RGB監(jiān)視器上顯示得很好,但在電視上就可能是不正確的。

(4)隔行掃描的影響。在RGB監(jiān)視器中,掃描線為一個像素厚度的逐行掃描線,這在監(jiān)視器上看起來沒有問題,但在電視上就會出現閃爍。為了避免閃爍,應確保掃描線的寬度大于兩個像素的厚度,這也可通過圖像編輯器中的去閃爍濾波器來解決。

10.視頻測量及視頻圖像質量評價

視頻信號是一種電信號,具有客觀性;視頻圖像是人的主觀感覺,具有主觀性。對視頻的評價可從電信號測量和主觀評價兩方面著手進行。

視頻測量的目的就是通過各種裝置對視頻處理設備和傳輸通道的工作狀態(tài)進行監(jiān)視,并對其光學、電氣指標以及模擬、數字處理變換特性進行測量,通過各種參數來反映視頻系統信息處理及傳輸的質量。視頻測量通常對視頻通道進行。所有對信號的處理過程在測量時均視為視頻通道。通道的測試項目包括反射損耗、插入損耗、雜波(信噪比)、非線性失真(亮度信號非線性幅度失真、色度信號對亮度信號的互調失真、色度信號微分增益、色度信號微分相位、色度信號非線性幅度失真、同步信號非線性失真等)、線性失真、壓縮損失等。測量可在頻域和時域進行。

視頻測量一般采用監(jiān)視矢量示波器和專用的視頻特性參數測試儀(系統測試平臺)來完成。視頻圖像的質量最終由觀看者評價,包含著十分復雜的主觀因素。主觀評價一般采用統計學的方法進行。

我國電視圖像質量評價標準一般采用5分制的主觀評價與統計分析方法,即請大量不同觀眾對多種圖像評分,再用統計方法作出總的評價。

圖像質量評分為:5分——很好;4分——好;3分——可以;2分——差;1分——不能用。圖像受損五級評分標準為:5級——察覺不到;4級——剛可察覺;3級——察覺,但不討厭;2級——肯定討厭;1級——不能用。對評分結果進行統計計算的方法有多種。一種常用的方法是:先求第i級(i=1～5)評分次數ni對評分總次數N所占的相對評分率Pi,然后計算平均評價Q,即圖像質量的主觀評價與圖像各種失真的客觀測量數據緊密相關,各種失真的測量參數可以反映圖像質量的好壞。我國規(guī)定,國家質量等級P與五項主要失真的換算關系為P=1.982+0.535×10-1x1-0.254×10-4x2-0.600×10-2x3-0.346×10-2x4-0.326×10-1x5

式中:x1為統一加權隨機信雜比(分貝);x2為亮－色延時差(毫微秒);x3為微分增益(百分數);x4為微分相位(度);x5為亮－色增益差(百分數)。 4.2語音壓縮及編碼技術

4.2.1語音壓縮技術

1.波形編碼

波形編碼就是根據語音信號波形導出相應的數字編碼形式,它會盡可能構造出包括背景噪聲在內的模擬波形,輸出信號的波形和相位跟蹤輸入信號。波形編碼的語音信息是波形,編碼率在9.6～64kb/s之間,屬中頻帶編碼,重構的聲音質量較高。波形編碼易受量化噪聲的影響。

G.711規(guī)范采用8kHz抽樣、8bit量化的PCM編碼方式,比特率為64kb/s。為了降低語音波形編碼速率,目前主要采用差分脈沖編碼(DPCM)、自適應量化與自適應線性預測編碼(ADPCM)及子帶編碼(SBC),語音比特率可降低到32kb/s或16kb/s,再低就十分困難了。

1)非均勻量化壓擴法

在PCM編碼中,語音信號的最大幅度影響著量化信噪比。在編碼位數一定的條件下,語音信號的幅度越小,量化信噪比也就越差。因此,為了達到信噪比和信號幅度無關的目的,那就要采用非均勻量化的方法,壓擴法就是其中之一。在這種方法中,我們根據語音樣值非均勻分布的特點,設法讓量化階距隨著概率密度的減小而增大,或者說對大信號用大量化階距,對小信號用小量化階距,從而使量化信噪比不隨信號幅度而變。量化前用對數函數進行幅度壓縮,解碼后再用指數函數進行幅度擴張,其效果是量化器的信噪比對信號幅度不敏感。

在壓擴法編碼中,又分為A律和μ律兩種壓縮方法。其中μ律是美國、日本、加拿大等國采用的一種壓縮律,A律主要是中國和歐洲使用的一種壓縮律。

2)差分脈碼調制(DPCM)

統計表明,相鄰語音樣值之間存在著很大的相關性,即從一個樣值到另一個相鄰的樣值,信號的變化一般都不大。因此,我們可以不用傳輸信號樣值本身,而只傳輸相鄰信號之間的差值。由于這類差值取值為0或取值很小的概率很大,因而我們可用較少的碼位來對差值進行編碼,從而達到數據壓縮的目的。在解碼部分,在所恢復的前一樣值的基礎上加上當前的差值信號就可以恢復出當前的樣值,這就是差分脈碼調制。如果在DPCM的基礎上再采取自適應措施,就形成了ADPCM的方法(AdaptiveDPCM),即自適應差分脈碼調制,還可進一步壓縮數據率。ADPCM的主要改進在于它的量化器和預測器都是以自適應的方式工作的,量化器和預測器能根據輸入信號的統計特性自適應地處于最佳或接近最佳的工作狀態(tài)。

3)子帶編碼

在子帶編碼(Sub－BandCoding,SBC)中,首先采用一組帶通濾波器,將輸入信號的頻譜分成若干個頻帶,每個頻帶就是一個子帶。為了降低比特率,對每個較窄的子帶分配給一個自適應編碼器分別進行編碼,最后將各個子帶編碼器編好的碼流復接起來送到對端。在接收端,再將它們分接、解碼,并組合起來恢復出原始的輸入信號。由于量化噪聲在全部話音頻帶上不具有相同的可檢測性,因此通過控制話音信號頻帶范圍中的量化噪聲失真,可以大大改善編碼信號的質量。子帶編碼充分利用了這一性質,首先,它把量化噪聲限制在各個子帶中,從而阻止了一個子帶的量化噪聲引入到整個頻帶。其次,它在每個子帶中可以使用獨立的量化階距,使低信號能量的子帶使用較小的量化階距,所產生的量化噪聲相應地也較小;對于具有較高能量的子帶,可以使用較大的量化階距,從而使量化噪聲的頻譜與信號的短時頻譜相匹配,這樣就避免能量較小的頻帶內的輸入信號被其它頻段的量化噪聲所遮蓋。最后,根據感性判斷來分配各個子帶中的比特數,使得在必須精確保持音調和元音音帶的共振峰結構的較低子帶中,每個樣值用較多的比特數來編碼,而且語音中出現磨擦音和類似磨擦音的較高子帶中,每個樣值用較少的比特數來編碼。這樣,在相同的碼率下,子帶編碼能獲得明顯優(yōu)于全頻帶編碼的信號質量,或者說在相同信號質量的情況下,子帶編碼可以用明顯低于全頻帶編碼的比特率來傳輸。例如,16kb/s的子帶編碼器其編碼質量接近于32kb/s的自適應差分脈碼調制的水平。

2.參數編碼

參數編碼又稱聲碼器(Vocoder),它根據聲音的形成原理模型來提取一組參數,將這組參數送到接收端,用來導出語音,產生模擬聲音。再生的聲音的波形并非原始波形。

人的話音包含濁音和清音音素。濁音形成音調,稱之為基音?；舴l特性在某些頻率點呈現共振峰特點,可以用來識別音素,一個音素持續(xù)時間較短,頻譜包絡反映了話音的短時相關性。基音頻譜的精細結構具有周期性,周期對應基音頻率,頻率變化慢,反映語音的長時間相關性。頻譜能量主要集中在4kHz以內。清音頻譜特性和濁音完全不同,無峰值特點和周期性,類似白噪聲。圖4－4參數編碼數字語音模型聲源包括激勵信號和增益,濁音的激勵源為一串周期性的脈沖,清音的激勵源為噪聲信號,增益表示信號的強弱,開關表示清音與濁音的判別,聲源決定了語音信號頻譜的精細結構,即語音的長時相關性。聲道由濾波器組成,濾波器用來模擬說話人的聲道輸出(參見WEST96),決定了語音信號頻譜的包絡特性,即反映了語音的短時相關性。

根據模型,語音編碼需要4類參數:濾波器系數(定義聲道共振特性)、增益系數、開關參數和脈沖周期值。參數編碼根據結構不同可分為5類:通道聲碼器、共振峰聲碼器、同態(tài)聲碼器、線性預測編碼(LPC)聲碼器和余弦聲碼器。前兩種聲碼器語音質量不夠好,在IP電話系統中使用很少,目前主要使用的是LPC聲碼器。

LPC聲碼器和ADPCM類似,采用線性預測來模擬聲道特性,通過對時域抽樣信號的相關計算得到預測系數,再將預測系數轉換成表征各個級聯濾波器的反射系數,利用線性代數方法求解N維線性聯立方程,求得N個預測系數,從而由時域信號數據獲得聲道的頻域估計參數,參數按幀進行自適應調整。編碼比特率取決于預測器的階數N和每個參數的量化精度。20世紀80年代末,人們又對LPC聲碼器作了大量的改進,提出混合激勵、規(guī)則激勵等LPC聲碼器算法。參數編碼以語音信號生成的數字模型為基礎,以各種聲碼器為代表,根據輸入語音信號分析出模型參數(主要是指表征聲門振動的激勵參數和表征聲道特性的聲道參數),然后在解碼端根據這些模型參數來恢復語音。

參數編碼器基于分析合成模型,可以用相當少的參數表示語音信號,這些參數通常每隔20～40ms就會從語音信號中提取并量化,不但可以利用樣值間的相關性,還可以充分利用幀與幀之間的信息冗余,有效地降低編碼比特率。參數編碼器的編碼率為0.8～4.8kb/s,主要用于在窄帶信道上提供低速率語音通信和一些對延時要求較寬

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《IP網絡多媒體通信技術及應用》課件第4章

文檔簡介

溫馨提示

最新文檔

評論

《IP網絡多媒體通信技術及應用》課件第4章

文檔簡介

溫馨提示

最新文檔

評論

相關文檔