基于卷積神經(jīng)網(wǎng)絡(luò)的視頻軟廣播-第1篇_第1頁(yè)
基于卷積神經(jīng)網(wǎng)絡(luò)的視頻軟廣播-第1篇_第2頁(yè)
基于卷積神經(jīng)網(wǎng)絡(luò)的視頻軟廣播-第1篇_第3頁(yè)
基于卷積神經(jīng)網(wǎng)絡(luò)的視頻軟廣播-第1篇_第4頁(yè)
基于卷積神經(jīng)網(wǎng)絡(luò)的視頻軟廣播-第1篇_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 基于卷積神經(jīng)網(wǎng)絡(luò)的視頻軟廣播 尹文斌 范曉鵬摘 要:隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,無(wú)線視頻廣播越來(lái)越受到人們的歡迎,成為流行的多媒體應(yīng)用之一。然而,傳統(tǒng)的數(shù)字編碼和傳輸方法很難適應(yīng)于向多個(gè)具有不同信道質(zhì)量的用戶同時(shí)發(fā)送視頻的場(chǎng)景,通常會(huì)遭遇懸崖效應(yīng)。近期,一種新穎的無(wú)線視頻廣播方法稱為SoftCast被提出,其保存在信道中傳輸?shù)男盘?hào)與視頻像素值之間所具有線性關(guān)系并利用有效的能量分配方法,使得視頻重構(gòu)質(zhì)量隨著信道噪聲的增加而平緩下降。在本文中,提出了一種新型的無(wú)線視頻廣播方法,其利用深度卷積網(wǎng)絡(luò)和基于圖像組的稀疏表示模型,通過(guò)解碼端估計(jì)的信道質(zhì)量,優(yōu)化視頻的解碼過(guò)程并減輕多種由信源編碼和

2、信道噪聲造成的視覺(jué)失真。通過(guò)視頻軟傳輸技術(shù),本文提出的方法具有出色的視頻廣播質(zhì)量可伸縮性并避免了懸崖效應(yīng)的發(fā)生,同時(shí)還能提供視覺(jué)友好的主客觀重構(gòu)質(zhì)量。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在視頻廣播場(chǎng)景下能夠獲得優(yōu)于傳統(tǒng)SoftCast最高1.2 dB的重建質(zhì)量。Key: 無(wú)線視頻廣播; 卷積神經(jīng)網(wǎng)絡(luò); 基于圖像組的稀疏表示; 視頻軟廣播【Abstract】 With the continuous development of information technology and Internet technology, video broadcasting is becoming more and m

3、ore popular in wireless networks. However, the existing digital coding and transmission approaches can hardly accommodate users with diverse channel conditions, which is called the cliff effect. Recently, a novel video broadcasting method called SoftCast has been proposed. It achieves graceful degra

4、dation with increasing noise by making the magnitude of the transmitted signal proportional to the pixel value and using a novel power allocation scheme. This paper proposes a novel video broadcast method that exploits deep convolutional networks and group based sparse representation. They utilize t

5、he channel condition information generated from decoder to optimize the decoding process and reduce the various artifacts caused by source and channel coding. By utilizing soft video broadcast transmission, it achieves good broadcasting performance, avoids the cliff effect, and also can provide visu

6、ally friendly subjective and objective reconstruction quality. The experimental results show that the proposed scheme provides better performance compared with the traditional SoftCast with up to 1.2 dB coding gain.【Key words】 wireless video broadcasting; Convolutional Neural Networks; group based s

7、parse representation; soft video broadcast0 引 言隨著科技的不斷發(fā)展,人們開(kāi)始更多地使用圖片或者視頻來(lái)交流和分享信息。在無(wú)線通信技術(shù)進(jìn)步的推動(dòng)下,關(guān)于無(wú)線視頻廣播技術(shù)研究已然成為當(dāng)前學(xué)界熱點(diǎn),其研發(fā)成果也在陸續(xù)涌現(xiàn)。與此同時(shí),3G、4G技術(shù)的逐漸應(yīng)用和近年來(lái)智能手機(jī)與平板電腦的處理能力越來(lái)越強(qiáng)而且日趨普及,人們也越來(lái)越青睞使用這些移動(dòng)終端來(lái)觀看視頻,因?yàn)檫@樣做更方便、更智能、也更快捷。傳統(tǒng)數(shù)字視頻廣播標(biāo)準(zhǔn)1中主要包含2部分。一部分是分層傳輸方法2-3,另一部分則是可伸縮視頻編碼技術(shù)(SVC)4-5。其中,可伸縮編碼技術(shù)是指編碼端將視頻信號(hào)編碼為一個(gè)基

8、本層(BL)和多個(gè)增強(qiáng)層(EL)。分層調(diào)制(HM)6可用于將基本層和增強(qiáng)層的比特流疊加到一個(gè)需要傳輸?shù)臒o(wú)線信號(hào)中,如此一來(lái)也就實(shí)現(xiàn)了同一編碼端對(duì)于信道質(zhì)量不同的用戶進(jìn)行視頻廣播的目的。傳統(tǒng)偽模擬傳輸應(yīng)用Softcast7-8軟廣播技術(shù)的主要貢獻(xiàn)是將所要傳輸?shù)男盘?hào)的線性變換直接在模擬信道上進(jìn)行傳輸,這些信號(hào)只需要執(zhí)行能量分配而不需要進(jìn)行量化、編碼和調(diào)制。因此信道噪聲也就直接轉(zhuǎn)化為了重構(gòu)噪聲,具有質(zhì)量可伸縮性。為了緩解塊效應(yīng),學(xué)者們提出了很多去塊效應(yīng)的后處理方案,大體上可分為2類(lèi)9-10,即:基于圖像增強(qiáng)的去塊效應(yīng)方法和基于圖像恢復(fù)的去塊效應(yīng)方法??偟貋?lái)說(shuō),對(duì)于圖像增強(qiáng)類(lèi)的方法,其基本思路是將去塊

9、效應(yīng)視為一種圖像增強(qiáng)過(guò)程,通過(guò)在空域和頻域進(jìn)行濾波來(lái)平滑可見(jiàn)的失真效應(yīng)。對(duì)于圖像復(fù)原類(lèi)的方法,去塊效應(yīng)通常被表述為一個(gè)病態(tài)圖像優(yōu)化問(wèn)題并利用一些圖像先驗(yàn)知識(shí)和觀測(cè)數(shù)據(jù)進(jìn)行求解。全變差11、基于塊的稀疏表示12-14以及馬爾科夫隨機(jī)場(chǎng)(MRF)均被作為圖像先驗(yàn)?zāi)P陀糜趯ふ以紙D像的MAP估計(jì)。在各類(lèi)研究中,文獻(xiàn)15將量化失真作為高斯噪聲,使用FoE作為圖像先驗(yàn)來(lái)建立圖像去塊效應(yīng)最優(yōu)化問(wèn)題。深度神經(jīng)網(wǎng)絡(luò)在圖像處理、視頻分析、自然語(yǔ)義理解等方面取得了可觀進(jìn)展。深度神經(jīng)網(wǎng)絡(luò)是一種多層的神經(jīng)網(wǎng)絡(luò),通過(guò)網(wǎng)絡(luò)學(xué)習(xí),從原始數(shù)據(jù)中提取不同層級(jí)的抽象信息。這種方法自然地體現(xiàn)了底層視覺(jué)特征到高層語(yǔ)義特征的演變。使用

10、深度學(xué)習(xí)方法可以自適應(yīng)地捕獲到目標(biāo)的多層次表示特征,相比于人工設(shè)計(jì)的特征,通常有著更好的應(yīng)用性能。以圖像去噪為例,文獻(xiàn)16提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像去噪方法并證明卷積神經(jīng)網(wǎng)絡(luò)具有對(duì)馬爾科夫隨機(jī)場(chǎng)相近、甚至更高的表達(dá)能力。文獻(xiàn)17成功地將多層感知器應(yīng)用于圖像去噪問(wèn)題。文獻(xiàn)18利用稀疏去噪自編碼器來(lái)處理高斯噪聲去除問(wèn)題,并取得了與K-SVD相近的結(jié)果。文獻(xiàn)19中,提出了一個(gè)可訓(xùn)練的非線性映射傳遞模型,而且可以通過(guò)一個(gè)前饋神經(jīng)網(wǎng)絡(luò)得以實(shí)現(xiàn)。1 提出的基于卷積神經(jīng)網(wǎng)絡(luò)的無(wú)線視頻廣播方案時(shí)下,無(wú)線視頻廣播面臨3個(gè)主要問(wèn)題就是可伸縮性、魯棒性和重建視頻質(zhì)量。傳統(tǒng)的SoftCast無(wú)線視頻廣播系統(tǒng)雖然

11、能夠避免懸崖效應(yīng)的發(fā)生,但是由于其采用基于塊的編碼方式且信道噪聲直接疊加在傳輸信號(hào)上,所以其重構(gòu)視頻中不可避免地含有編碼失真和傳輸失真,極大地降低了重構(gòu)視頻的主客觀質(zhì)量,因此如何去除編碼與傳輸失真是亟待解決的研究課題。針對(duì)圖像復(fù)原問(wèn)題,稀疏表示理論利用先驗(yàn)知識(shí)和重構(gòu)圖像進(jìn)行稀疏表示優(yōu)化求解;深度網(wǎng)絡(luò)模型可以通過(guò)強(qiáng)大的特征提取能力對(duì)自然圖像的深層次特征進(jìn)行學(xué)習(xí),提取降質(zhì)圖像中的有效信息。根據(jù)稀疏表示理論,本文擬利用視頻幀的局部稀疏性和非局部自相似性,通過(guò)基于組的稀疏表示模型減輕信重構(gòu)視頻中的編碼失真。基于深度神經(jīng)網(wǎng)絡(luò)特性,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)視頻幀進(jìn)行緊致而高效的表達(dá),從而區(qū)分重構(gòu)幀中的信道噪聲與

12、有效視頻信息,以便于提升重構(gòu)幀質(zhì)量。實(shí)驗(yàn)結(jié)果表明,本文提出的方案不僅具有良好的視頻廣播可伸縮性,還能提供視覺(jué)友好的主客觀重構(gòu)質(zhì)量。1.1 編碼框架基于卷積神經(jīng)網(wǎng)絡(luò)的無(wú)線視頻廣播框架如圖1所示。本文提出的基于深度神經(jīng)網(wǎng)絡(luò)的無(wú)線視頻傳輸方案的編碼框架主要包含:視頻壓縮、視頻軟傳輸、基于圖像組的稀疏表示以及深度卷積網(wǎng)絡(luò)。在編碼端,通過(guò)BDCT (Block based DCT) 去除視頻幀中的冗余,對(duì)視頻進(jìn)行壓縮處理。利用對(duì)視頻的頻域系數(shù)的伸縮來(lái)最小化信號(hào)在信道傳輸中的總體失真。編碼后的信號(hào)直接經(jīng)過(guò)稠密的64K-QAM星座圖發(fā)送給具有不同信道質(zhì)量的多個(gè)用戶。傳統(tǒng)的數(shù)字視頻傳輸方案中,懸崖效應(yīng)嚴(yán)重影響

13、了各用戶的解碼體驗(yàn)。在本文提出的方案中,通過(guò)軟傳輸?shù)姆绞街苯訉⒕幋a后的信號(hào)發(fā)送給客戶端,為用戶提供具有良好的視頻質(zhì)量可伸縮性。在解碼端,其利用LLSE對(duì)接收到的信號(hào)進(jìn)行解碼?;趫D像組的稀疏表示模型能夠同時(shí)利用視頻幀的局部稀疏性和非局部自相似性,本文利用基于圖像組的稀疏表示模型降低由BDCT編碼所造成的塊效應(yīng)。由于深度神經(jīng)網(wǎng)絡(luò)可以通過(guò)學(xué)習(xí)的方式提取不同程度的信道噪聲特征,在獲得具有平滑屬性的解碼視頻幀后,本文利用卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化由軟傳輸中信道噪聲引起的失真。1.2 基于塊的變換由于視頻幀內(nèi)通常具有較強(qiáng)的空域相關(guān)性,本文的方法利用這一性質(zhì),通過(guò)BDCT變換的方式對(duì)視頻幀內(nèi)信息進(jìn)行緊致表達(dá)。傳統(tǒng)的

14、視頻編碼方法需要已知信道條件,根據(jù)信道條件選擇碼率并對(duì)頻域系數(shù)進(jìn)行量化。這類(lèi)的量化方案會(huì)迫使所有的用戶觀看質(zhì)量一致的解碼視頻。本文提出的方案將視頻幀劃分為圖像塊,再利用BDCT變換將視頻幀由空域轉(zhuǎn)換到頻域。通常來(lái)說(shuō),DCT系數(shù)具有能量集中的特性,也就是具有較高重要性的低頻系數(shù)集中的變換系數(shù)矩陣的左上角,而具有較低重要性的高頻系數(shù)集中在系數(shù)矩陣的右下角,數(shù)值通常是接近或等于零。由于高頻DCT系數(shù)對(duì)于視頻幀內(nèi)信息的影響較輕微,所以采用丟棄DCT系數(shù)中的零值的方式對(duì)視頻數(shù)據(jù)進(jìn)行壓縮。當(dāng)帶寬受限時(shí),本文的方案會(huì)根據(jù)DCT系數(shù)的分布特性,根據(jù)帶寬要求進(jìn)一步丟棄當(dāng)前最不重要的DCT系數(shù)。然而這樣的方式需要

15、面臨的問(wèn)題是編碼端不得不發(fā)送大量的元數(shù)據(jù)來(lái)標(biāo)識(shí)丟棄的DCT系數(shù)所在的位置。為了減少傳輸被丟棄頻域系數(shù)位置所需的元數(shù)據(jù),本文的方法將不同塊的頻域系數(shù)按照頻率劃分為band,以band為單元對(duì)視頻進(jìn)行壓縮。具體來(lái)說(shuō),可將不同塊的同一位置系數(shù)放入一個(gè)band。而后根據(jù)壓縮率及帶寬需求,以band為單位判別是否丟棄其中的DCT系數(shù)。不同圖像塊變換系數(shù)的高頻信息通常處于接近或者一致的區(qū)域,所以對(duì)band進(jìn)行丟棄操作與對(duì)獨(dú)立的DCT系數(shù)進(jìn)行丟棄操作具有接近的壓縮性能,卻大幅減少了元數(shù)據(jù)規(guī)模。1.3 能量分配與傳輸1.6 深度神經(jīng)網(wǎng)絡(luò)去噪傳統(tǒng)的軟傳輸方案直接將信號(hào)通過(guò)raw OFDM信道進(jìn)行發(fā)送,可以取得良

16、好的可伸縮性能,為不同用戶提供與其信道質(zhì)量相一致的重構(gòu)視頻。但是由于信道噪聲直接疊加在接收的噪聲中,會(huì)導(dǎo)致重構(gòu)視頻中存在噪聲模糊效應(yīng)。借助于深度神經(jīng)網(wǎng)絡(luò)從原始數(shù)據(jù)中提取不同層級(jí)的抽象信息的能力。研究利用卷積神經(jīng)網(wǎng)絡(luò)提取由不同信道噪聲所形成的特征,對(duì)解碼端重構(gòu)的視頻進(jìn)行復(fù)原。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。由圖3中可以看出,所有基于H.264的傳統(tǒng)視頻廣播方案,無(wú)論信道編碼率如何,都會(huì)遭遇嚴(yán)重的懸崖效應(yīng)。舉例來(lái)說(shuō),H.264+BPSK方案在CSNR為35 dB時(shí)表現(xiàn)良好,但是當(dāng)CSNR低于3 dB時(shí),會(huì)導(dǎo)致信道保護(hù)編碼失效,視頻無(wú)法解碼;而當(dāng)CSNR高于10 dB時(shí),由于信源編碼率的限制,導(dǎo)致CS

17、NR上升時(shí)用戶的視頻質(zhì)量無(wú)法進(jìn)一步提升。相反地,SoftCast與本文的方案都較好地避免了懸崖效應(yīng),為用戶提供了具有良好可伸縮性的平滑性能曲線。隨著CSNR的提高,用戶解碼的視頻質(zhì)量也有相應(yīng)的提升。但是由于本文利用GSR以及卷積神經(jīng)網(wǎng)絡(luò)對(duì)重構(gòu)幀中的失真進(jìn)行了優(yōu)化,本文方案的重構(gòu)質(zhì)量在全部CSNR范圍內(nèi)都優(yōu)于SoftCast。2.3.2 視覺(jué)質(zhì)量本文方法的主觀質(zhì)量對(duì)比如圖4所示。在相同CSNR條件下,可以清晰看到本文提出的方案具有更好的重建質(zhì)量。SoftCast的重構(gòu)幀中有較為明顯的塊效應(yīng)和噪聲干擾,而本文方案的重構(gòu)幀中幾乎沒(méi)有塊效應(yīng)。實(shí)驗(yàn)證明,基于GSR的方法表現(xiàn)出優(yōu)秀的去塊效應(yīng)性能。在相似P

18、SNR條件下,本文方案的重構(gòu)幀具有平滑的紋理以及清晰的邊界,在主觀視覺(jué)感受上更易于被接受。本文方案與SoftCast在不同序列上的測(cè)試結(jié)果如圖5所示。由于GSR需要在視頻幀內(nèi)尋找相似塊,使得當(dāng)視頻內(nèi)容運(yùn)動(dòng)劇烈時(shí),會(huì)在一定程度上影響去塊效應(yīng)結(jié)果,例如bus.cif中的測(cè)試結(jié)果。但是從圖5中可以看出,本文的方案具有良好的魯棒性,對(duì)于不同的視頻序列都取得了高于SoftCast的重構(gòu)質(zhì)量。2.3.3 多播性能文中使用3種方案服務(wù)一組客戶(3個(gè)具有不同信道質(zhì)量的客戶),每個(gè)客戶的CSNR分別為5 dB、10 dB和20 dB。傳統(tǒng)的數(shù)字視頻廣播方案采用H.264+BPSK的組合。多播性能的效果對(duì)比即如圖

19、6所示。由于3個(gè)客戶中信道最差的CSNR只有5 dB,所以傳統(tǒng)方案將必須采用BPSK進(jìn)行調(diào)制,否則會(huì)導(dǎo)致CSNR為5 dB的客戶無(wú)法做到正確解碼。在SoftCast與本文方案的對(duì)比中,發(fā)送端可以同時(shí)適應(yīng)多種信道條件。而在本文方案的測(cè)試結(jié)果中,雖然客戶1的重構(gòu)質(zhì)量略低于傳統(tǒng)方案,但是其余客戶均獲得了高于傳統(tǒng)方案的視頻質(zhì)量。從圖6中可以看出,本文較傳統(tǒng)方案具有更好的可伸縮性,較SoftCast有著更好重構(gòu)質(zhì)量。3 結(jié)束語(yǔ)在本文中,提出了基于深度神經(jīng)網(wǎng)絡(luò)的無(wú)線視頻傳輸方案。針對(duì)傳統(tǒng)視頻軟傳輸系統(tǒng)中存在的不足,利用深度神經(jīng)網(wǎng)絡(luò)、基于圖像組的稀疏表示和軟傳輸技術(shù)設(shè)計(jì)了一種高效的無(wú)線視頻廣播方案。利用基于

20、圖像組的稀疏表示對(duì)基于塊的編碼方案進(jìn)行低質(zhì)圖像復(fù)原處理。充分發(fā)揮卷積神經(jīng)網(wǎng)絡(luò)對(duì)于數(shù)據(jù)深層特征的挖掘能力,對(duì)信道噪聲引起失真進(jìn)行優(yōu)化。通過(guò)軟傳輸?shù)姆绞剑疚姆桨冈趶V播場(chǎng)景下避免了懸崖效應(yīng)的發(fā)生,并展示了出色的質(zhì)量可伸縮性。實(shí)驗(yàn)結(jié)果表明本文提出的基于深度神經(jīng)網(wǎng)絡(luò)的無(wú)線視頻廣播方案在性能上明顯優(yōu)于傳統(tǒng)數(shù)字視頻廣播系統(tǒng)。Reference1Digital Video Broadcasting (DVB)EB/OL.2009. http:/deliver /etsien/300700300799/300744/01.06.0160/en300744v010601p.pdf.2SHACHAM N. Mul

21、tipoint communication by hierarchically encoded data C/INFOCOM 92. Eleventh Annual Joint Conference of the IEEE Computer and Communications Societies.Florence, Italy: IEEE, 1992:2107-2114.3MCCANNE S, JACOBSON V, VETTERLI M. Receiver-driven layered multicastM/Readings in multimedia computing and netw

22、orking.San Francisco, CA, USA: Morgan Kaufmann Publishers Inc, 2001:593-606.4WU Feng, LI Shipeng, ZHANG Yaqin. A framework for efficient progressive fine granularity scalable video codingJ. IEEE Trans. Circuits and Systems for Video Technology,2001,11(3):332-344.5SCHWARZ H, MARPE D, WIEGAND T. Overv

23、iew of the scalable video coding extension of the H.264/AVC standardJ. IEEE Transactions on Circuits and Systems for Video Technology, 2007,17(9):1103-1120.6JAKUBCZAK S, KATABI D. A cross-layer design for scalable mobile videoC/Proceedings of the 17th Annual International Conference on Mobile Computing and Networking, MOBICOM 2011. Las Vegas, N

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論