新型視頻語義編碼技術(shù)白皮書 2024_第1頁
新型視頻語義編碼技術(shù)白皮書 2024_第2頁
新型視頻語義編碼技術(shù)白皮書 2024_第3頁
新型視頻語義編碼技術(shù)白皮書 2024_第4頁
新型視頻語義編碼技術(shù)白皮書 2024_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

中國移動新型視頻語義編碼技術(shù)白皮書(2024)1 2 5 52.2基于語義通信的編碼傳輸 7 21.視頻編碼技術(shù)總體發(fā)展態(tài)勢l多元視覺指標升級,引發(fā)超高清視頻編碼技術(shù)需求類別高清HD全高清FHD超高清UHD30fps60fpsl從“看得清”向“看得真”轉(zhuǎn)變,催生編碼技術(shù)升級中國移動新型視頻語義編碼技術(shù)白皮書(2024)3l視頻編碼不只追求人眼視覺質(zhì)量,還要高效地服務(wù)于機器視覺處理任務(wù)l新應(yīng)用引發(fā)新需求,語義編碼技術(shù)“呼之欲出”場景介紹需求/特點中國移動5G新通話,微信、QQ、監(jiān)控視頻通常是全天候無間斷拍攝固定位置的場景,產(chǎn)生了海量的監(jiān)控視頻數(shù)據(jù),亟需高效的語義視頻編碼技術(shù)來減在工業(yè)視覺任務(wù)及應(yīng)用場景中,如機器需提取與機器視覺任務(wù)強相關(guān)的中國移動新型視頻語義編碼技術(shù)白皮書(2024)4視頻語義編碼技術(shù)應(yīng)運而生。視頻語義編碼,即基于視頻內(nèi)容和語義特征(圖1-1)進行編碼,同時追求信號保真度、感知自然性和語義質(zhì)量,有望突破傳統(tǒng)視頻編碼方法的性能瓶頸,為視頻產(chǎn)業(yè)注入新的活力,進一步提升產(chǎn)業(yè)勢能,成為助推視頻產(chǎn)業(yè)高質(zhì)量發(fā)展的新動能。中國移動新型視頻語義編碼技術(shù)白皮書(2024)52.視頻編碼技術(shù)發(fā)展概述2.1視頻編碼視頻編碼技術(shù)歷經(jīng)幾十年的發(fā)展,國內(nèi)外視頻編碼標準更新迭代,如圖框架制定的視頻編碼標準包括:MPEG-1/2/4,H.261/2/3,H.264/AVC(Advanced編碼框架基本結(jié)構(gòu)如圖2-2所示。中國移動新型視頻語義編碼技術(shù)白皮書(2024)6基于預(yù)測/變換和熵編碼的混合編碼框架,但其諸多編碼工具和環(huán)節(jié)與前代視頻升。然而,在帶來顯著編碼性能提升的同時,編解碼的復(fù)雜度也顯著增加,這對實時編碼提出了巨大的挑戰(zhàn),同時壓縮效率的進一步提升遭遇瓶頸?,F(xiàn)更智能化、更高效的圖像視頻編碼,以期突破傳統(tǒng) 絡(luò)進行替換[3] 中國移動新型視頻語義編碼技術(shù)白皮書(2024)7方法優(yōu)點缺點突破傳統(tǒng)編碼方法的效率瓶頸;可解碼復(fù)雜度較高;不同的模將傳統(tǒng)混合編碼框架中的主要模塊替換為經(jīng)離線訓(xùn)練過的深度學習模只是替代部分模塊,導(dǎo)致不同的模塊無法共同優(yōu)化以達目前,基于神經(jīng)網(wǎng)絡(luò)的視頻編碼更多的是探索網(wǎng)絡(luò)模型的組合堆積和復(fù)雜模塊的引入,未深入分析設(shè)計網(wǎng)絡(luò)模型特性、結(jié)構(gòu)特性等,如何設(shè)計并提出高效的端到端視頻編碼技術(shù)和解碼方法是亟需解決的問題。同時,如何實現(xiàn)不同模型的碼流互通,降低解碼端模型推理的硬件要求,實現(xiàn)移動端的高效部署也是該技術(shù)落地的關(guān)鍵。視頻語義編碼,衍生于傳統(tǒng)視頻編碼框架和基于神經(jīng)網(wǎng)絡(luò)的視頻編碼框架,同時也是兩種框架的全新引擎,可進一步提升兩種編碼路線的編碼效率。2.2基于語義通信的編碼傳輸識,從信道中提取語義特征,知識和特征(語義標簽、參數(shù)模型、知識圖譜等)中國移動新型視頻語義編碼技術(shù)白皮書(2024)8編碼;2)變換編碼方法,信源首先經(jīng)過非線性變換,提取隱式表征,然后在隱需要消耗大量的計算資源[4],特別是移動端的部署較為困難。中國移動新型視頻語義編碼技術(shù)白皮書(2024)9處理對象常見的評價指標特點屬于頂層架構(gòu)設(shè)計,處于前沿探索階綜上,語義通信的大框架涵蓋視頻語義編碼傳輸環(huán)節(jié),但該頂層框架整體處于前沿研究與實驗探索,向技術(shù)研發(fā)與落地應(yīng)用過渡的早期階段。而視頻語義編碼技術(shù)則是從視頻編碼標準框架出發(fā),提供了一系列具體且可落地的技術(shù)方案。具體對比分析見表2-2。在接下來的章節(jié),將對視頻語義編碼的關(guān)鍵技術(shù)中國移動新型視頻語義編碼技術(shù)白皮書(2024)3.視頻語義編碼傳輸關(guān)鍵技術(shù)率。目前,主要的技術(shù)方案可分為兩類:1)利用語義信息作為先驗信息(語義中國移動新型視頻語義編碼技術(shù)白皮書(2024)3.1視覺感知編碼中國移動新型視頻語義編碼技術(shù)白皮書(2024)3.1.1JND編碼因此,引入恰可察覺失真(JustNoticeableDistortion,JND)自適應(yīng)編碼技術(shù),以有效地去除視覺冗余。例如,大量的工作探索了建立像素域JND模型和DCT(DiscreteCosineTransfo從機器感知出發(fā),北京大學馬思偉教授團隊提出的恰可識別失真(JustRecognizableDistortion,JRD)[7],旨在表分析了影響不同JRD值的因素。同時,還提出了一個基于集成學習的JRD預(yù)測3.1.2ROI編碼它驅(qū)使視網(wǎng)膜中央凹(Fovea)注意到更高保真度的內(nèi)容,也被稱為感興趣區(qū)域(Regionofinterest,ROI)。通常,HVS更容易被高對比度的區(qū)域所吸引,中國移動新型視頻語義編碼技術(shù)白皮書(2024)分類技術(shù)MaskR-CNN等3.2生成式編碼1)一種是直接用對抗損失引導(dǎo)全神經(jīng)網(wǎng)絡(luò)編碼的優(yōu)化,以恢復(fù)高頻紋理細分類原理代表性工作在視頻傳送過程中,發(fā)送關(guān)鍵通過生成網(wǎng)絡(luò)合成其他面部視送時,僅需發(fā)送一個關(guān)鍵幀和其他幀的表情、面部表情的運動參數(shù),將其編碼為比特流傳通過處理多層次信息達到高層表3-3基于生成對抗網(wǎng)絡(luò)的圖像視頻方面背景/問題圖像與視頻資料包含了豐富的在有限帶寬內(nèi)選擇最重要的信息進行不同的應(yīng)用環(huán)境對比特率和圖編碼架構(gòu)可能僅適用于某一特在各種圖像視頻數(shù)據(jù)集中保持紋理和生成對抗網(wǎng)絡(luò)編碼與傳統(tǒng)編碼3.3跨模態(tài)編碼碼器、壓縮域編碼器和壓縮域解碼器四個子模塊組成[10]。中國移動新型視頻語義編碼技術(shù)白皮書(2024)保留CMC編碼器和解碼器中的語義信息來優(yōu)化失真。3.4機器視覺編碼前,機器視覺編碼的技術(shù)方案主要包括1)兼容傳統(tǒng)視頻編碼標準的面向機器視覺的優(yōu)化2)面向機器視覺的端到端壓縮框架:可進一步分為基于神經(jīng)練基于學習的編解碼器來壓縮第一階段學習到的特征;3)特征對下游任務(wù)的支重構(gòu)等[12],從而完成一系列機器感知任務(wù)。3.5編碼數(shù)據(jù)傳輸中國移動新型視頻語義編碼技術(shù)白皮書(2024)越多應(yīng)用場景涌現(xiàn),并擴展出多元化流媒體3.5.1媒體封裝封裝格式來源特點是一種標準容器格式,用于進一步封裝PES(Packetized音頻、視頻和節(jié)目系統(tǒng)信息等,目的是作為規(guī)范化傳輸?shù)淖钚卧?,保證傳輸?shù)目煽啃裕赃m應(yīng)不太可靠的傳輸。該協(xié)議擴展性比較友好,可以支持多種流媒體協(xié)議碼格式,使用時有很大的靈活性,并可針對業(yè)務(wù)需求和新的編儲的主流方式,主要應(yīng)用在MPEG-DASH、HLS等流媒體協(xié)議中,可支持多種音視頻編碼類型,其fragment-MP4的封裝格式可支持Low-LatencyHLS,CMAF等超低時延的流媒體協(xié)議對組成,可將其數(shù)據(jù)看為二進制字節(jié)流。其封裝的媒體文件具有體積輕巧、封裝播放簡單等特點,適合網(wǎng)絡(luò)應(yīng)用。目前各瀏覽器普遍使用FlashPlayer作為網(wǎng)頁播放器信息。目前,VR視頻等沉浸式媒體在其封裝文件中,增添了如感興趣區(qū)域、觀看的顯著區(qū)域、視頻內(nèi)容中的對象及區(qū)域等媒體描述元數(shù)據(jù),有利于用戶對數(shù)據(jù)的部分訪問和處理,以提高傳輸處理的效率。3.5.2流媒體傳輸傳輸協(xié)議來源特點及內(nèi)容,能夠根據(jù)當前帶寬容量、網(wǎng)絡(luò)性能等情況自適現(xiàn)不同碼率之間的靈活切換,在為用戶提供低卡頓體驗播、點播等傳輸,對VR視頻等新型視頻編碼格式有更好的適性、穿墻能力強、碼率自適應(yīng)、負載均衡等優(yōu)點。它的放時客戶端可以選擇從許多不同的備用源中以不同的速同樣的資源,允許流媒體會話適應(yīng)不同的數(shù)據(jù)速率。HLS在web服務(wù)器和客戶端廣泛支持,主要應(yīng)用于視頻直播點播據(jù)無序到達的檢測機制,但并不保證傳送或防止無序傳不確定底層網(wǎng)絡(luò)的可靠性。RTP廣泛應(yīng)用于流媒體相關(guān)的通訊和娛樂,可提供實時的媒體傳輸服務(wù),如VR音視頻數(shù)據(jù)。目前,市場上大多數(shù)采用RTP來實時傳輸媒體數(shù)據(jù)。傳輸?shù)臄?shù)據(jù)的基本單元為Message,實際傳輸中的最小單中國移動新型視頻語義編碼技術(shù)白皮書(2024)需一個會話即可相互通信,具有效率高、速度快、穩(wěn)定性高等特點,廣泛應(yīng)用于直播、視頻會議、在線教育、在線游戲等實時流媒體傳輸。術(shù)保證傳輸?shù)姆€(wěn)定性,并可支持高吞吐量文件和超清視時傳輸。SRT協(xié)議應(yīng)用廣泛,包括直播、視頻會議、廣播、監(jiān)控系統(tǒng)等。中國移動新型視頻語義編碼技術(shù)白皮書(2024)4.標準化進展及建議標準工作組JPEG(JointPhotographicExpertsMPEG(MovingPictureExpertsGrDCSC(DataCompressionStandardCommiMPAI(MovingPicture,AudioandDataCodingAOM(AllianceforOpen模態(tài)編碼技術(shù)目前屬于前沿探索階段,未來有望進入AI視頻編碼標準;針對機器視覺,國內(nèi)外標準工作組開展了一系列面向機器的中國移動新型視頻語義編碼技術(shù)白皮書(2024)4.1AI視頻編碼出新的工作,以提升基于神經(jīng)網(wǎng)絡(luò)的圖像和視頻壓縮效率,并推動AI視頻編碼組織工作組/標準正式進入端到端圖像編碼標準制定進程,進一步規(guī)范了訓(xùn)練方前后處理技術(shù)、熵編碼加速和碼率控制等多個方面推動全神經(jīng)網(wǎng)絡(luò)圖像編碼的發(fā)展[13]-[15]。目前,該標準的參考軟件相比基于HEVC的圖像壓縮器BPG性能提升超過50%。有編碼工具。MPAIEVC標準項目旨在從MPEG-5EVCbase檔次出發(fā),通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)編碼工具并與混合框架進行聯(lián)合目前EVC標準已研究了基于自編碼器的方形塊預(yù)測和基于卷積神經(jīng)網(wǎng)絡(luò)的幀級上-下采樣編碼,分別相比EVCbaseline檔次在低碼率下(QP32-47)提升1%和5%左右,后續(xù)EVC計案論證和參考軟件開發(fā)階段。北京大學和鵬城實驗室正在領(lǐng)導(dǎo)參考軟件EEV-0.4。目前,在相同配置下主觀編碼效率超過VVC/H.266[16],在低延遲編碼配置項下與傳統(tǒng)編碼標準H.265/HEVC性能相當。中國移動新型視頻語義編碼技術(shù)白皮書(2024)NNVCITU-TVCEG(Q6/16)的聯(lián)合視頻專家組(JVET)和ISO/IECModAI平臺對基于卷積神經(jīng)網(wǎng)絡(luò)的環(huán)路以替代傳統(tǒng)編碼濾波器并具有更好的性能。在RA配置下VRF)和神經(jīng)網(wǎng)絡(luò)幀內(nèi)預(yù)測兩項技術(shù),綜合性能相比AVS3標準提升15%以上,相比H.266/VVC提升超過10%。高效的端到端視頻編碼技術(shù),是AI視頻編碼標準邁向大規(guī)模應(yīng)用的關(guān)鍵。4.2VR視頻編碼IEEE1857.9工作組致力于推動高效編碼工具的標準化。該標準針對的應(yīng)用場景和服務(wù)間的許多技術(shù)共性,MIV規(guī)范定義了一種稱為可視體積視頻編碼(Visual動了VR編碼標準的制定,即信息技術(shù)-虛擬現(xiàn)實內(nèi)容表達第2部分:視頻中國移動新型視頻語義編碼技術(shù)白皮書(2024)4.3多視點視頻編碼Depth,MVD)和自由視點視頻(Free-viewpointVideo,FVV)的技術(shù)研究和標準制定HEVC和其他視頻編碼標準的多視圖和3D視頻編碼擴展。組織標準所屬基本標準特點可以利用HEVC編碼框架進行編碼,輸入的所4.4面向機器的視頻編碼中國移動新型視頻語義編碼技術(shù)白皮書(2024)些探索和嘗試,并形成了一系列標準,主要包括視覺搜索緊湊描述子標準(CompactDescriptorforVisualSearch,CDVS)、視頻分析緊湊描述子標準標準組織特點于2010年開始制定,并于2015年正式發(fā)布。C像檢索和匹配兩種視覺任務(wù),定義了圖像特征進制碼流語法格式,構(gòu)建了大規(guī)模的數(shù)據(jù)集以主要面向視頻分析,其特征由VGG-16模型提取。緊湊的碼流,這種碼流所包含的數(shù)據(jù)可以是視頻,也可以頻上提取到的特征。相比于主要追求壓縮效率的傳統(tǒng)視頻編VCM還需要同時追求機器視覺分析性能、計算負載節(jié)省和隱私一條路線是面向機器視覺的特征壓縮,另一條路線是面向[19]能的數(shù)據(jù)編碼,僅針對機器視覺任務(wù)進行編混合智能的數(shù)據(jù)編碼,需要同時滿足人類消向機器輔助智能的數(shù)據(jù)編碼,主要是為了滿會使用人工智能的手段對數(shù)據(jù)進行處理,例中國移動新型視頻語義編碼技術(shù)白皮書(2024)5.總結(jié)與展望預(yù)訓(xùn)練多模態(tài)大模型有望成為推動視頻語義編碼效率進一步提升的新縮略語列表ThreeDegreesofFreedom5thGenerationMobiSixDegreesofFreedomArtificialIntelligeARAudioVideoCodingStandaBjontegaard’sdeltaCompactDescriptorforVideoCompactDescriptorfor

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論