全息視頻VR通信技術(shù)_第1頁
全息視頻VR通信技術(shù)_第2頁
全息視頻VR通信技術(shù)_第3頁
全息視頻VR通信技術(shù)_第4頁
全息視頻VR通信技術(shù)_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

“全息”(Holography)即“全部信息”,這一概念是在1947年由英國匈牙利裔物理學家丹尼斯?蓋伯首次提出,他也因此獲得了1971年的諾貝爾物理學獎。全息技術(shù)是一種利用干涉和衍射原理來記錄物體的反射,透射光波中的振幅相位信息進而再現(xiàn)物體真實三維圖像的技術(shù)。它與物理學、計算機科學、電子通信及人機交互等學科領(lǐng)域有著密切的聯(lián)系。廣義上說,全息通信業(yè)務是高沉浸、多維度交互應用場景數(shù)據(jù)的采集、編碼、傳輸、渲染及顯示的整體應用方案,包含了從數(shù)據(jù)采集到多維度感官數(shù)據(jù)還原的整個端到端過程,是一種高沉浸式、高自然度交互的業(yè)務形態(tài)。結(jié)合6G技術(shù),進行擴展與挖掘可獲得包括數(shù)字攣生、高質(zhì)量全息、沉浸XR、新型智慧城市、全域應急通信搶險、智能工廠、網(wǎng)聯(lián)機器人等相關(guān)全息通信場景與業(yè)務形態(tài),體現(xiàn)“人-機-物-境”的完美協(xié)作。傳統(tǒng)光學全息:光學全息的全部過程分為信息數(shù)據(jù)采集與信息圖像重構(gòu)兩個階段,采集階段相當于照相機的拍攝過程,而信息圖像重構(gòu)階段相當于洗照片的過程。數(shù)字全息:由于全息圖只是對物體的物光束和參考光波進行相干疊加時產(chǎn)生的一些列干涉條紋進行了記錄,而要得到物體的再現(xiàn)像,就必須對全息圖進行重新處理,數(shù)字全息是利用電荷耦合器件來代替?zhèn)鹘y(tǒng)的光學記錄材料來記錄全息圖,將物體的物光信息數(shù)字化記錄,便于存儲、數(shù)字處理以及重現(xiàn)。它最早是由Goodman在1967年提出的。計算全息:計算全息最早是由Kozma和Kelly提出,但是限于當時計算機技術(shù)水平的不足,計算全息一直沒有發(fā)展起來,直到21世紀初期數(shù)碼照相機的普及和計算機技術(shù)的發(fā)展成熟才又進入了發(fā)展時期。計算全息是一種數(shù)字全息領(lǐng)域的分支,這種新型的方法是利用計算機去模擬物體的光場分布,用算法去進行全息圖的制作,該方法可以不依賴實物,而是基于該物體的數(shù)學描述進行全息圖制作,實現(xiàn)了全息術(shù)從實際物體到虛擬物體的突破。計算全息三維顯示技術(shù)是近年來將全息術(shù)、光電技術(shù)及計算機高速計算技術(shù)相結(jié)合發(fā)展起來的最具潛力的三維顯示技術(shù),與傳統(tǒng)光學全息術(shù)相比具有靈活、可重復性好的特點。目前,遠程通信用戶面臨的痛點主要為:語音通話、視頻通話存在著臨場感差和交互通道單一等弊端;受限于通信網(wǎng)絡性能,視頻通話常存在網(wǎng)絡波動影響通訊質(zhì)量等問題;傳輸高質(zhì)量的視覺通訊內(nèi)容受制于傳輸帶寬而難以實現(xiàn)的問題。線跟蹤法光線跟蹤算法可以生成質(zhì)量很高的全息圖像,直接加載至二維顯示面板或投影機上即可顯示。光線跟蹤算法一般由三部分構(gòu)成[10],即光線的生成、光線的碰撞和像素的著色。傳統(tǒng)顯示設(shè)備的光線跟蹤與全息顯示設(shè)備的光線跟蹤區(qū)別在于光線的生成部分。如圖8所示,光線從虛擬攝影機出發(fā)經(jīng)透鏡到達基元圖像像素,像素和光線滿足一一對應的關(guān)系。通過顯示器的像素生成光線,之后是碰撞檢測,最后通過著色程序就可以生成相應的光場圖像。光線跟蹤具有天然的并行性,可以很方便地提高光線跟蹤的效率。光線跟蹤的計算復雜度與屏幕的分辨率大小正相關(guān),現(xiàn)有的實時光線跟蹤硬件管線基本面向2K以下的顯示設(shè)備且可繪制的場景有限[7]?;谏疃刃畔⒌某嘁朁c渲染基于深度信息的渲染(Depth-Image-BasedRendering,DIBR)在虛擬場景的渲染過程中十分常用。DIBR算法是利用深度信息和其他附加信息通過插值產(chǎn)生其他視點的圖像。它有效地降低了圖形渲染的復雜度,渲染速度大大加快,缺點是造成渲染質(zhì)量的下降。根據(jù)參考視點的數(shù)目,可分兩類:一類為單參考視點的DIBR,一類為多參考視點的DIBRo單參考視點的DIBR可以只使用一幅深度參考圖像和彩色圖像就可以生成場景所需要的全部視點,當視角較大時空洞較大,填補困難,適用于10°以內(nèi)觀看視角的光場顯示設(shè)備。多參考視點的DIBR需要多個深度參考視點,能夠有效地增大視角,消除空洞。多參考視點一般使用左右兩個視點來插值出中間視點。DIBR技術(shù)具有帶寬需求小、輸入圖像數(shù)量少和繪制速度快的優(yōu)點。單參考視點的DIBR技術(shù)映射速度快,雙參考視點的DIBR技術(shù)能夠利用左右視圖實現(xiàn)對遮擋區(qū)域的信息互補?;趲缀蜗嚓P(guān)性的超多視點渲染假設(shè)由三個點場景組成的三維場景,虛擬攝影機陣列為錯切式排列,如圖9所示,其對應的EPI圖像為三條直線。則對應的EPI的圖像是斜率為正的直線;若點位于零平面外,則對應的EPI圖像是斜率為負的直線。因此,點的渲染就可以轉(zhuǎn)化最左側(cè)虛擬相機和最右側(cè)相機對這一點的渲染,并在EPI圖像上由這兩視點生成相應的EPI直線,最終再轉(zhuǎn)換為視點圖像,這樣就會大大簡化渲染的流程。多平面圖像渲染技術(shù)多平面圖像渲染技術(shù)是一種基于圖像渲染環(huán)境復雜真實場景的技術(shù)。例如在渲染具有遮擋或鏡面反射等具有挑戰(zhàn)性的復雜場景時,這種表示比傳統(tǒng)的3D網(wǎng)格渲染更有效。多平面圖像(multi-planeimage,MP1)能夠表示幾何體和紋理(包括遮擋元素),并且使用alpha通道可以處理部分反射或透明對象以及處理柔軟邊界。增加平面數(shù)可以使MPI表示更寬的深度范圍,并允許更大程度的相機移動。此外,從MPI渲染生成新視點非常高效,并且可以支持實時應用程序?;赟FM或基于RGB-D相機的新視圖生成方法完全依賴于精確的幾何估計,然后從附近的視圖重投影到新視圖并混合紋理。這些方法側(cè)重于輸入視圖之間的差值而不能預測場景中被遮擋的內(nèi)容?;诠鈭鲣秩镜姆椒ㄍǔP枰褂脭?shù)十個相機來對場景進行非常密集的采樣。MPI具有精度高,渲染速度快,輸入視角少等特點。相比于其他基于深度學習的新視圖生成方法,例如DeepStereo.NeRF等,MPI具有更強的泛化性和更快的訓練速度以及渲染速度,以滿足實時應用的需求。5顯示技術(shù)全息視頻的展示方式分為穿戴式設(shè)備和裸眼3D顯示設(shè)備兩種?;谌⑼ㄐ诺奶攸c,人們更傾向于使用裸眼3D設(shè)備構(gòu)成解決方案。穿戴式設(shè)備VR頭顯是“虛擬現(xiàn)實頭戴式顯示器設(shè)備”的簡稱,VR頭顯不是通過過濾來自外部屏幕的內(nèi)容來工作的,而是生成自己的雙眼圖像,并直接呈現(xiàn)給相應的眼睛。VR頭顯通常包含兩個微型顯示器(左眼一個,右眼一個),經(jīng)過光學元件的放大和調(diào)整,顯示在用戶眼前的特定位置上。AR眼鏡,又稱作“增強現(xiàn)實頭顯”。當前增強現(xiàn)實頭顯變得越來越普遍,增強現(xiàn)實技術(shù)可以把數(shù)字世界和現(xiàn)實世界融合在一起。為了確保真實感,增強現(xiàn)實系統(tǒng)不僅需要追蹤用戶在真實世界的頭部運動,同時也要考慮自己所在的現(xiàn)實3D環(huán)境?,F(xiàn)實世界的光線從不同的方向進入瞳孔之中,這樣我們雙眼可以看到真實的世界。裸眼3D顯示設(shè)備如果不想利用這些穿戴式設(shè)備,又想同時以多個視角看到全息影像,則需要用到裸眼全息屏。目前主流的裸眼全息屏技術(shù)有基于雙目視差和視覺暫留效應的狹縫光柵技術(shù)、柱狀透鏡技術(shù)和人眼追蹤技術(shù),以及基于空間中三維物體光場重構(gòu)的體三維技術(shù)和光場立體顯示技術(shù)。狹縫光柵技術(shù)的原理是在屏幕前加了一個狹縫式光柵,應該由左眼看到的圖像顯示在液晶屏上時,不透明的條紋會遮擋右眼;同理,應該由右眼看到的圖像顯示在液晶屏上時,不透明的條紋會遮擋左眼,通過將左眼和右眼的可視畫面分開,使觀者看到3D影像。柱狀透鏡技術(shù)的原理是通過透鏡的折射,將左右眼對應的像素點分別投射在左右眼中,實現(xiàn)圖像分離。對比狹縫光柵技術(shù),其最大的優(yōu)點是透鏡不會遮擋光線,所以亮度有了很大改善[14]。傳統(tǒng)的狹縫光柵及柱狀透鏡全息屏技術(shù)只在空間中形成有限的最佳視點,當用戶頭部移動到最佳視點之外時,雙眼會看到串擾的立體圖像,影響了立體視覺體驗。針對這種問題,通過人眼追蹤技術(shù)實時定位人眼的空間坐標,再由人眼坐標對圖像像素進行重新排布改變最佳視點的區(qū)域很好的擴展了全息視野不過,由人眼追蹤的技術(shù)原理可知,目前帶有人眼追蹤技術(shù)的裸眼全息屏只能支持單人觀看,即使多人同時看,也只能追蹤到一人的視線。而傳統(tǒng)的狹縫光柵等技術(shù)實現(xiàn)的全息屏則在可視范圍內(nèi)可以多人多視點觀看。體三維顯示是一種全新的三維圖像顯示技術(shù)通過適當方式激勵點亮位于顯示空間內(nèi)的物質(zhì),利用可見輻射的產(chǎn)生、吸收或散射形成大量的體像素,從而構(gòu)建出三維圖像[15]o體三維顯示技術(shù)呈現(xiàn)的圖像就像是一個真實的三維物體一樣,符合人類觀察普通三維圖像的任何特點,幾乎能滿足所有的生理和心理深度暗示,可實現(xiàn)多人、多角度、同一時間裸眼觀察。光場三維顯示技術(shù)如圖11所示,這種技術(shù)的原理是利用帶有方向的光束來構(gòu)建空間三維物體的光場空間中任意一個三維物體都可以看作是由無數(shù)個發(fā)光點組成任意一個點能夠主動或者被動地向空間中各個方向發(fā)出攜帶自身特性的光線[16]。通過設(shè)計控光單元的結(jié)構(gòu)、對2D顯示設(shè)備上加載圖像進行有規(guī)律的編碼等方式,調(diào)制有控光單元出射的攜帶三維場景信息的方向光,使其能夠在空間中會聚并構(gòu)建出向不同方向投射不同空間信息的體像素,用這些體像素來模擬真實物體的發(fā)光點,從而實現(xiàn)裸眼觀看真三維的顯示技術(shù),使人眼獲得更真實,自然的3D影像。其中全息通信主要解決第一個問題,而諸如6G等高性能網(wǎng)絡主要解決后兩個問題,賦能全息通信應用?;谌⑼ㄐ啪哂姓鎸嵍雀?、參與感強和沉浸感佳的特點,全息通信可以應用于以下三類場景:一對多場景、一對一場景和多對多場景。全息通信的關(guān)鍵技術(shù)包括內(nèi)容采集、算法處理、傳輸、渲染和顯示。1內(nèi)容采集全息通信所需的動態(tài)三維內(nèi)容又稱作“體積視頻”(VolumetricVideo),其采集方式可以分為純彩色相機陣列采集和深度相機+彩色相機陣列采集。彩色相機用幾十甚至上百個彩色相機從多個角度捕捉人像和其動作,為了后期方便數(shù)據(jù)提取,通常會在周圍布置綠幕。拍攝時,通過時間控制器控制相機陣列同步啟動拍攝。根據(jù)應用場景等不同,彩色相機陣列又可分為局部圍繞式和360°圍繞式。當僅需采集單面人體時,可以搭建小于180。的相機陣列,僅用單反相機圍成半圈甚至更小的范圍。如果要采集人體3600全方位的數(shù)據(jù),需要將相機陣列圍成一圈,做成影棚的形態(tài),這樣可以同時采集人體各個角度的影像。深度相機+彩色相機陣列相較于純彩色相機陣列,目前市場上的主流做法是通過深度相機搭載彩色相機陣列來完成。和單純用彩色相機相比,加上深度相機后,生成的人物三維數(shù)據(jù)更加精細,細節(jié)表現(xiàn)會更好。例如臉部的三維效果更明顯,可以清晰看到鼻梁的高度、嘴唇的輪廓等細節(jié)。2算法處理非三維重建處理主要指自由視點技術(shù),自由視點技術(shù)對于不同的視角顯示不同的圖像,是一種相對“粗糙”的處理方式。三維重建處理包括基于深度學習的三維重建和傳統(tǒng)的三維重建。近年來,基于深度學習的三維重建算法的發(fā)展有雨后春筍之勢,在某種程度上,它們預示著未來全息通信技術(shù)的發(fā)展方向一一實時重建+減少對多相機的依賴,更加“輕便”、“快捷”。而傳統(tǒng)三維重建方式比基于深度學習的三維重建更加穩(wěn)定成熟,但也更依賴于硬件結(jié)構(gòu),如相機陣列等。當然,將深度學習與傳統(tǒng)三維重建算法相結(jié)合,可以提高其性能和效果,這也是未來發(fā)展的可能方向之一。非三維重建自由視點技術(shù)一般采用此種方式處理,可以理解成多相機之間的“切換”,也就是切換成觀看者想要看到的視角。當然,也會通過生成“虛擬視角”的方式以彌補相機的密集度不足。“虛擬視角合成”是指利用已知的參考相機拍攝的圖像合成出參考相機之間的虛擬相機位置拍攝的圖像,這樣能夠獲取更多視角下的圖片,是讓自由視點觀看方式變得“自由”的關(guān)鍵。其合成方式為利用相鄰兩個相機成像上的差異一一即視差圖,在同一行上平移虛擬相機位置,從而生成新的視角圖像。假設(shè)相鄰兩個相機拍攝的圖像像素點的視差值為1,我們要生成兩個相機正中間虛擬相機的視角,則可以將左邊相機拍攝圖像的像素點均向右移0.5,或者將右邊相機拍攝圖像的像素點向左移動0.5。以此類推。合成虛擬視圖既可以利用左參考圖像和對應的左視差圖,也可以利用右參考圖像和對應的右視差圖,更好的是都利用上得到兩幅虛擬視點圖像,然后做圖像融合,比如基于距離的線性融合等。傳統(tǒng)三維重建算法傳統(tǒng)三維重建算法可分為兩大類:純彩色相機陣列的被動式和深度相機加彩色相機的主動式。被動式三維重建算法是直接根據(jù)2D圖片信息,不依靠發(fā)射信號,對物體進行重建。傳統(tǒng)的被動式三維重建算法,如SFM主要是通過還原點云進行三維重建。SFM是一種全自動相機標定離線算法,以一系列無序的圖像集作為輸入,估計出的相機參數(shù)矩陣和稀疏點云為輸出。由于SFM算法得到的點云是稀疏的,因此需要再進行MVS算法對稀疏點云進行處理,轉(zhuǎn)換為稠密點云。主動式三維重建算法需要通過傳感器對物體發(fā)射信號,然后通過解析返回的信號對物體進行重建。代表性的算法有結(jié)構(gòu)光、T0F等。其中,以紅外結(jié)構(gòu)光為例,依靠紅外投射器將編碼的紅外光投射到被拍攝物體上,然后由紅外相機進行拍攝,獲取被拍攝物體上編碼紅外光的變化,將其轉(zhuǎn)換為深度信息,進而獲取物體三維輪廓;T0F法通過投射器向目標連續(xù)發(fā)送光脈沖,然后依據(jù)傳感器接收到返回光的時間或相位差來計算距離目標的距離。主動式算法如結(jié)構(gòu)光法和T0F法能夠精準構(gòu)建3D模型,但二者都需要較為精密的傳感器。動式三維重建算法SFMSFM,StructurefromMotion,顧名思義,用于從“動作”中重建3D結(jié)構(gòu),也就是從時間系列的2D圖像中推算3D信息。人的大腦可以從動的物體中取得其三維的信息,是因為大腦在動的2D圖像中找到了匹配的地方,即重疊區(qū)域。然后通過匹配點之間的視差得到相對的深度信息,在這一點上,原理和基于雙目視覺的三維重建相同。SFM的輸入是一段動作或者一時間系列的2D圖群,然后通過2D圖之間的匹配可以推斷出相機的各項參數(shù)。重疊點可以用SIFT,SURF來匹配,也可以用最新的AKAZE(SIFT的改進版)來匹配。在SFM中,誤匹配會造成較大的錯誤,所以要對匹配進行篩選,目前流行的方法是RANSAC(RandomSampleConsensus)。2D的誤匹配點可以應用3D的幾何特征來進行排除。Bundler[2]就是一種SFM的方法,Bundler使用了基于SIFT的匹配算法,并且對匹配進行了過濾去噪處理。動式三維重建算法MVSSFM的重建成果是稀疏三維點云,為了得到更好的深度結(jié)果,需要使用多視角立體視覺(MultipleViewStereo,MVS)算法。某種意義上講,SFM其實和MVS是類似的,只是前者是攝像頭運動,后者是多個攝像頭視角。也可以說,前者可以在環(huán)境里面“穿行”,而后者更像在環(huán)境外“旁觀”。SFM中我們用來做重建的點是由特征匹配提供的,這些圖像特征的表示為圖像中的一個小區(qū)域(即一堆相鄰像素)。而MVS則幾乎對照片中的每個像素點都進行匹配,幾乎重建每一個像素點的三維坐標,這樣得到的點的密集程度可以較接近圖像為我們展示出的清晰度。其實現(xiàn)的理論依據(jù)在于,多視圖照片間對于拍攝到的相同的三維幾何結(jié)構(gòu)部分存在極線幾何約束。主動式三維重建算法結(jié)構(gòu)光算法結(jié)構(gòu)光(StructuredLight)三維成像的硬件主要由相機和投射器組成,結(jié)構(gòu)光就是通過投射器投射到被測物體表面的主動結(jié)構(gòu)信息,如激光條紋、格雷碼、正弦條紋等,然后通過單個或多個相機拍攝被測表面即得結(jié)構(gòu)光圖像,最后基于三角測量原理經(jīng)過圖像三維解析計算從而實現(xiàn)三維重建。結(jié)構(gòu)光技術(shù)就是使用提前設(shè)計好的具有特殊結(jié)構(gòu)的圖案(比如離散光斑、條紋光、編碼結(jié)構(gòu)光等),將圖案投影到三維空間物體表面上,使用另外一個相機觀察在三維物理表面成像的畸變情況。如果結(jié)構(gòu)光圖案投影在該物體表面是一個平面,那么觀察到的成像中結(jié)構(gòu)光的圖案就和投影的圖案類似,沒有變形,只是根據(jù)距離遠近產(chǎn)生一定的尺度變化。但是,如果物體表面不是平面,那么觀察到的結(jié)構(gòu)光圖案就會因為物體表面不同的幾何形狀而產(chǎn)生不同的扭曲變形,而且根據(jù)距離的不同而不同,根據(jù)已知的結(jié)構(gòu)光圖案及觀察到的變形,就能根據(jù)算法計算被測物的三維形狀及深度信息。結(jié)構(gòu)光3D成像技術(shù)主要由4大部分組成:1)不可見光紅外線發(fā)射模組(IRProjector):用于發(fā)射經(jīng)過特殊調(diào)制的不可見紅外光至被拍攝物體;2)不可見光紅外線接收模組(IR):接收由被拍攝物體反射回來的不可見紅外光;3)彩色相機模組(RGB):采用普通彩色鏡頭模組,用于2D彩色圖片拍攝;4)圖像處理芯片(非必須,有些結(jié)構(gòu)光供應商提供的解決方案可利用主機CPU,如手機AP處理):將紅外相機拍攝得到的紅外照片通過計算,得到被拍物體的深度信息。主動式三維重建算法T0F算法TOF(TimeofFlight)(光)飛行時間,字面理解就是通過光的飛行時間來計算距離。T0F的基本原理是通過紅外發(fā)射器發(fā)射調(diào)制過的光脈沖,遇到物體反射后,用接收器接收反射回來的光脈沖,并根據(jù)光脈沖的往返時間計算與物體之間的距離。由于光的速度快,這種調(diào)制方式對發(fā)射器和接收器的要求較高,對于時間的測量有極高的精度要求。直接測量光飛行時間的T0F算法又叫DTOF(DirectTOF)o在實際應用中,通常調(diào)制成脈沖波(一般是正弦波),當遇到障礙物發(fā)生漫反射,再通過特制的CMOS傳感器接收反射的正弦波,這時波形已經(jīng)產(chǎn)生了相位偏移,通過相位偏移可以計算物體到深度相機的距離。這種TOF算法又叫做ITOF(IndirectTOF)o基于深度學習的三維重建除了上述傳統(tǒng)的被動和主動三維重建,利用深度學習模型對數(shù)據(jù)集的學習獲取先驗知識,再在少量圖片的基礎(chǔ)上進行重建,相比原先傳統(tǒng)算法,可以大大減少對圖片的依賴。早期Saxena等提出了利用監(jiān)督學習的辦法去預測照片的像素對應的深度。同樣,ECCV2022收錄的來自Niantic和UCL等機構(gòu)的研究者關(guān)于“沒有3D卷積的3D重建方法”則是基于前者的提升,無論從效果到性能均顯著優(yōu)于前者。近期,華盛頓大學計算機科學院的GRAIL圖形和成像實驗室發(fā)布了一項基于NeRF合成的新技術(shù)HumanNeRF,該方案的最大特點就是利用AI算法將2D視頻合成高保真3D全身模型,該論文被收錄在CVPR2022。無3D卷積實時三維重建從姿態(tài)圖像重建3D室內(nèi)場景通常分為兩個階段:圖像深度估計,深度合并(DepthMerging)和表面重建(SurfaceReconstruction)。過去的研究依賴于昂貴的3D卷積層,限制了其在資源受限環(huán)境中的應用。來自Niantic和UCL等機構(gòu)的研究者利用強大的圖像先驗以及平面掃描特征量和幾何損失,設(shè)計了一個2DCNN。所提方法(SimpleRecon)在深度估計方面效果顯著,更重要的是允許在線實時低內(nèi)存重建,每幀僅用約70ms。而實時三維重建正是全息通信的關(guān)鍵技術(shù)之一。該研究的關(guān)鍵是將現(xiàn)有的元數(shù)據(jù)與典型的深度圖像特征一起注入到代價體積(CostVolume)中,以允許網(wǎng)絡訪問有用的信息,如幾何和相對相機姿態(tài)信息。通過整合這些之前未開發(fā)的信息,該研究的模型能夠在深度預測方面顯著優(yōu)于之前的方法,而無需昂貴的3D卷積層、復雜的時間融合以及高斯過程。從2D視頻提取動態(tài)人像,并轉(zhuǎn)換為3D模型NeRF方法是2020年ECCV的論文提出的。僅僅過去不到2年,關(guān)于NeRF的論文數(shù)量已經(jīng)十分可觀。NeRF是NeuralRadianceFields的縮寫,中文譯作神經(jīng)輻射場,它是一種小型神經(jīng)網(wǎng)絡,可通過2D圖片來學習3D建模和渲染。把GRAIL實驗室的研究HumanNeRF提出來,是因為它和全息通信息息相關(guān)——人物三維重建。HumanNeRF解決了3D人像渲染的兩大難題:神經(jīng)網(wǎng)絡渲染動態(tài)對象和對于多攝像頭方案的依賴。此外還可學習人體T型姿態(tài),并通過運動場來學習剛性骨骼運動和非剛性運動。運動場和姿態(tài)預測學習信息可根據(jù)2D視頻中的姿態(tài)去修改3D模型,并在NeRF中渲染。當然,目前該技術(shù)還需繼續(xù)優(yōu)化,譬如環(huán)境光變化對結(jié)果的影響等。HumanNeRF方法將稀疏圖像作為輸入,在大型人類數(shù)據(jù)集上使用預先訓練的網(wǎng)絡,然后就可以從一個新的視角有效地合成一個照片級的真實感圖像。通過一小時對特定數(shù)據(jù)的微調(diào),即可生成改進后的結(jié)果。3傳輸全息通信本身并不帶來新的傳輸技術(shù),但是由于三維顯示帶來的高真實性和沉浸感以及對實時性的需求,導致了對網(wǎng)絡提出了更高的要求,主要表現(xiàn)為以下四個方面:高帶寬、低時延、強安全和大算力。-4+b*與傳統(tǒng)高清或雙目立體視頻相比,全息通信傳輸?shù)牧髅襟w對網(wǎng)絡帶寬的需求將達數(shù)百Mbps。例如一個包含10個攝像頭傳感器的全息通信系統(tǒng),每個攝像頭輸出1080P彩色圖像,每個像素有32位的彩色數(shù)據(jù),輸出分辨率為512dpiX424dpi的深度圖像,每個像素有16位的深度數(shù)據(jù)。按照60的幀率和100倍的壓縮率計算,需要上行帶寬約為420Mbps。隨著對圖像精度的提升,傳感器數(shù)量、視點數(shù)量和幀率也會隨之增加,對網(wǎng)絡帶寬的要求將更高。目前實現(xiàn)全息采集傳輸顯示的技術(shù)路線有多條,不同的技術(shù)方案所需要的網(wǎng)絡帶寬也不同,從幾百M到幾個G。使用更高效的圖像壓縮技術(shù)和編解碼方案(例如H.266),在一定程度上可以緩解全息通信的帶寬需求,但仍需未來網(wǎng)絡具有超高的帶寬。對毫米波、太赫茲、可見光等更高工作頻段的研究表明,未來網(wǎng)絡可提供的用戶體驗速率可以有效的滿足全息通信的帶寬需求。時延全息通信中的時延可以分為數(shù)據(jù)處理時延和網(wǎng)絡傳輸時延。為了減少整體時延,需要處理節(jié)點具有高算力,并進一步縮減網(wǎng)絡本身的傳輸時延。全息通信的過程可描述為,首先通過采集端設(shè)備獲取對象信息,計算處理后,經(jīng)過編碼壓縮進行網(wǎng)絡傳輸,在終端側(cè)解碼渲染并顯示全息圖像。獲取真實度高的全息圖像往往需要很高的算力,當前的主要矛盾集中在處理帶來的時延往往直接帶來了非實時性的感受,而實時性稍好的處理方式又往往導致真實感偏差。因此對于處理算法的優(yōu)化研究是當前的熱門方向。對于網(wǎng)絡本身的傳輸時延,5G端到端傳輸時延可以控制在20ms以內(nèi),隨著未來網(wǎng)絡的研究和部署,6G網(wǎng)絡的傳輸時延會進一步減少。安全通過全息通信傳輸?shù)臄?shù)據(jù)中含有大量的信息數(shù)據(jù),包括人臉特征、聲音等敏感信息,需要網(wǎng)絡提供絕對安全的保障,而現(xiàn)有安全技術(shù)的使用會增加端到端時延。對時延和安全性的折中考慮是未來網(wǎng)絡需要面對的難題之一。算力由于全息通信包含的信息和數(shù)據(jù)量巨大,計算時間過長,除了會帶來極大的帶寬負擔外,還會造成很大的MTP時延。隨著云計算和MEC技術(shù)的快速發(fā)展,未來網(wǎng)絡可通過云端和邊緣端的快速部署解決全息通信的算力需求。4渲染技術(shù)通過采集設(shè)備獲取的圖像數(shù)據(jù)經(jīng)過算法處理后,生成的數(shù)據(jù)模型使用渲染技術(shù)在顯示設(shè)備上展示。目前,全息技術(shù)涉及的渲染方法主要有多視圖立體渲染技術(shù)、超多視點的虛擬立體內(nèi)容渲染技術(shù)和多平面圖像技術(shù)。在以上三類渲染技術(shù)中,多視圖立體渲染技術(shù)作為已經(jīng)成熟的技術(shù)被廣泛應用于VR商業(yè)市場,超多視點的虛擬立體內(nèi)容渲染技術(shù)和多平面圖像技術(shù)多應用于裸眼3D顯示設(shè)備?;谌⑼ㄐ诺奶攸c,人們更傾向于使用裸眼3D設(shè)備構(gòu)成解決方案。多視圖立體渲染技術(shù)多視圖立體渲染技術(shù)主要用于虛擬現(xiàn)實(VR)設(shè)備的圖像渲染。當圖像通過虛擬現(xiàn)實眼鏡等設(shè)備呈現(xiàn)在人眼前,設(shè)備呈現(xiàn)的畫面質(zhì)量直接決定用戶的觀看感受。在該類設(shè)備上,圖形硬件廠商在提升畫面視野,降低圖形畸變,提高圖形質(zhì)量等方面不斷努力,并推出一系列技術(shù)與解決方案。虛擬現(xiàn)實圖形管道原理圖形應用程序為顯示設(shè)備渲染一個3D場景時將在3D空間中創(chuàng)建一個虛擬攝像機并根據(jù)攝像機的位置對場景中的幾何圖形執(zhí)行計算。渲染引擎執(zhí)行像素陰影,并將單幀投影到顯示設(shè)備上。虛擬現(xiàn)實的圖形管道則不同,它需要渲染多個視圖。一個典型的VR設(shè)備有兩個鏡頭。每個鏡頭都會在觀看者的左右眼中投射出一個單獨的視圖,即3D應

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論