光場相機(jī)的技術(shù)原理_第1頁
光場相機(jī)的技術(shù)原理_第2頁
光場相機(jī)的技術(shù)原理_第3頁
光場相機(jī)的技術(shù)原理_第4頁
光場相機(jī)的技術(shù)原理_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、什么是光場?在人類的五大感知途徑中,視覺占據(jù)了70%~80%的信息來源;而大腦有大約50%的能力都用于處理視覺信息[1]。借助視覺,我們能準(zhǔn)確抓取杯子,能在行走中快速躲避障礙物,能自如地駕駛汽車,能完成復(fù)雜的裝配工作。從日常行為到復(fù)雜操作都高度依賴于我們的視覺感知。然而,現(xiàn)有的圖像采集和顯示丟失了多個維度的視覺信息。這迫使我們只能通過二維“窗口”去觀察三維世界。例如醫(yī)生借助單攝像頭內(nèi)窺鏡進(jìn)行腹腔手術(shù)時,因無法判斷腫瘤的深度位置,從而需要從多個角度多次觀察才能緩慢地下刀切割。從光場成像的角度可以解釋為:因為缺乏雙目視差,只能依靠移動視差來產(chǎn)生立體視覺。再例如遠(yuǎn)程機(jī)械操作人員通過觀看監(jiān)視器平面圖像進(jìn)行機(jī)械遙控操作時,操作的準(zhǔn)確性和效率都遠(yuǎn)遠(yuǎn)低于現(xiàn)場操作。人眼能看見世界中的物體是因為人眼接收了物體發(fā)出的光線(主動或被動發(fā)光),而光場就是三維世界中光線集合的完備表示?!癓ightField”這一術(shù)語最早出現(xiàn)在AlexanderGershun于1936年在莫斯科發(fā)表的一篇經(jīng)典文章中,后來由美國MIT的ParryMoon和GregoryTimoshenko在1939年翻譯為英文[2]。但Gershun提出的“光場”概念主要是指空間中光的輻射可以表示為關(guān)于空間位置的三維向量,這與當(dāng)前“計算成像”、“裸眼3D”等技術(shù)中提及的光場不是同一個概念。學(xué)術(shù)界普遍認(rèn)為ParryMoon在1981年提出的“PhoticField”[3]才是當(dāng)前學(xué)術(shù)界所研究的“光場”。隨后,光場技術(shù)受到MIT、Stanford等一些頂級研究機(jī)構(gòu)的關(guān)注,其理論逐步得到完善,多位相關(guān)領(lǐng)域?qū)W者著書立作逐步將光場技術(shù)形成統(tǒng)一的理論體系,尤其是在光場的采集[4]和3D顯示[5,6]兩個方面。歐美等部分高校還開設(shè)了專門的課程——計算攝像學(xué)(ComputationalPhotography)。如圖1所示,人眼位于三維世界中不同的位置進(jìn)行觀察所看到的圖像不同,用(x,y,z)表示人眼在三維空間中的位置坐標(biāo)。光線可以從不同的角度進(jìn)入人眼,用(θ,Φ)表示進(jìn)入人眼光線的水平夾角和垂直夾角。每條光線具有不同的顏色和亮度,可以用光線的波長(λ)來統(tǒng)一表示。進(jìn)入人眼的光線隨著時間(t)的推移會發(fā)生變化。因此三維世界中的光線可以表示為7個維度的全光函數(shù)(PlenopticFunction,Plen-前綴具有“全能的、萬金油”的意思)[7]。P(x,y,z,θ,Φ,λ,t)圖1.7D全光函數(shù)示意圖上述光場的描述是以人眼為中心。光路是可逆的,因此光場也可以以物體為中心等效的描述。與“光場”相類似的另一個概念是“反射場(ReflectanceField)”。如圖2所示,物體表面發(fā)光點的位置可以用(x,y,z)三個維度來表示;對于物體表面的一個發(fā)光點,總是向180度半球范圍內(nèi)發(fā)光,其發(fā)光方向可以用水平角度和垂直角度(θ,Φ)來表示;發(fā)出光線的波長表示為(λ);物體表面的光線隨著時間(t)的推移會發(fā)生變化。同理,反射場可以等效表示為7維函數(shù),但其中的維度卻表示不同的意義。圖2.7D反射場示意圖對比光場與反射場可以發(fā)現(xiàn):光場與反射場都可以用7個維度來表征,光場是以人眼為中心描述空間中所有的光線,反射場是以物體表面發(fā)光點為中心描述空間中所有的光線。光場所描述的光線集合與反射場所描述的光線集合是完全一致的。換句話說,光場中的任一條光線都可以在反射場中找到。2、為什么要研究光場?【從光場采集的角度來看】以自動駕駛為例,首先需要通過多種傳感器去“感知”外界信息,然后通過類腦運算進(jìn)行“決策”,最后將決策以機(jī)械結(jié)構(gòu)為載體進(jìn)行“執(zhí)行”?,F(xiàn)階段人工智能的發(fā)展更傾向于“類腦”的研究,即如何使計算機(jī)具有人腦類似的決策能力。然而卻忽略了“眼睛”作為一種信息感知入口的重要性。設(shè)想一個人非?!奥斆鳌钡且暳τ姓系K,那么他將無法自如的駕駛汽車。而自動駕駛正面臨著類似的問題。如果攝像機(jī)能采集到7個維度所有的信息,那么就能保證視覺輸入信息的完備性,而“聰明”的大腦才有可能發(fā)揮到極致水平。研究光場采集將有助于機(jī)器看到更多維度的視覺信息。【從光場的顯示角度來看】以LCD/OLED顯示屏為例,顯示媒介只能呈現(xiàn)光場中(x,y,λ,t)四個維度的信息,而丟失了其他三個維度的信息。在海陸空軍事沙盤、遠(yuǎn)程手術(shù)等高度依賴3D視覺的場景中,傳統(tǒng)的2D顯示媒介完全不能達(dá)到期望的效果。實現(xiàn)類似《阿凡達(dá)》中的全息3D顯示,是人類長久以來的一個夢想。當(dāng)光場顯示的角度分辨率和視點圖像分辨率足夠高時可以等效為動態(tài)數(shù)字彩色全息。研究光場顯示將有助于人類看到更多維度的視覺信息。從1826全世界第一臺相機(jī)誕生[8]至今已經(jīng)有近兩百年歷史,但其成像原理仍然沒有擺脫小孔成像模型。在介紹小孔成像模型之前,先看看如果直接用成像傳感器(e.g.CCD)采集圖像會發(fā)生什么事呢?如圖3所示,物體表面A、B、C三點都在向半球180度范圍內(nèi)發(fā)出光線,對于CCD上的感光像素A'會同時接收到來自A、B、C三點的光線,因此A'點的像素值近似為物體表面上A、B、C三點的平均值。類似的情況也會發(fā)生在CCD上的B'和C'點的像素。因此,如果把相機(jī)上的鏡頭去掉,那么拍攝的圖片將是噪聲圖像。圖3.無小孔的噪聲成像如果在CCD之前加一個小孔,那么就能正常成像了,如圖4所示。CCD上A'點只接收到來自物體表面A點的光線。類似的,CCD上B'和C'點也相應(yīng)只接收到物體表面B點和C的點光線。因此,在CCD上可以成倒立的像。圖4.小孔成像實際的相機(jī)并沒有采用如圖4中的理想小孔成像模型,因為小孔直徑較小會導(dǎo)致通光亮非常小,信噪比非常低,成像傳感器無法采集到有效的信號;如果小孔直徑足夠小,當(dāng)與光波長相當(dāng)時還會產(chǎn)生衍射現(xiàn)象。而小孔直徑過大會導(dǎo)致成像模糊。現(xiàn)代的成像設(shè)備用透鏡來替代小孔,從而既能保證足夠的通光量,又避免了成像模糊。如圖5所示,物體表面A點在一定角度范圍內(nèi)發(fā)出的光線經(jīng)過透鏡聚焦在成像傳感器A’點,并對該角度范圍內(nèi)所有光線進(jìn)行積分,積分結(jié)果作為A點像素值。這大大增加了成像的信噪比,但同時也將A點在該角度范圍內(nèi)各方向的光線耦合在一起。圖5.透鏡小孔成像小孔成像模型是光場成像的一種降維形式,只采集了(x,y,λ,t)四個維度的信息。RGB-D相機(jī)多了一個維度信息(x,y,z,λ,t)。相比全光函數(shù),其主要丟失的維度信息是光線的方向信息(θ,Φ)。缺失的維度信息造成了現(xiàn)有成像/呈像設(shè)備普遍存在的一系列問題。在圖像采集方面,可以通過調(diào)節(jié)焦距來選擇聚焦平面,然而無論如何調(diào)節(jié)都只能確保一個平面清晰成像,而太近或太遠(yuǎn)的物體都會成像模糊,這給大場景下的AI識別任務(wù)造成了極度的挑戰(zhàn)。在渲染顯示方面,由于(θ,Φ)維度信息的缺失會引起渲染物體缺乏各向異性的光線,從而顯得不夠逼真。好萊塢電影大片中渲染的逼真人物大多采用了光場/反射場這一技術(shù)才得以使得各種科幻的飛禽走獸能栩栩如生。3、光場4D參數(shù)化根據(jù)7D全光函數(shù)的描述,如果有一個體積可以忽略不計的小球能夠記錄從不同角度穿過該小球的所有光線的波長,把該小球放置在某個有限空間中所有可以達(dá)到的位置并記錄光線波長,那么就可以得到這個有限空間中某一時刻所有光線的集合。在不同時刻重復(fù)上述過程,就可以實現(xiàn)7D全函數(shù)的完備采集。GoogleDaydream平臺PaulDebevec團(tuán)隊在Steam平臺上推出的《WelcomeToLightField》就是采用了類似的思想實現(xiàn)的。然而,采集的數(shù)據(jù)量巨大。按照當(dāng)前的計算機(jī)技術(shù)水平,難以對7D光場這么龐大的數(shù)據(jù)進(jìn)行實時處理和傳輸。因此有必要對7D光場進(jìn)行簡化降維。如圖6所示,美國斯坦福大學(xué)的MarcLevoy將全光函數(shù)簡化降維,提出(u,v,s,t)4D光場模型[9]。Levoy假設(shè)了兩個不共面的平面(u,v)和(s,t),如果一條光線與這兩個平面各有一個交點,則該光線可以用這兩個交點唯一表示。Levoy提出的光場4D模型有一個重要的前提假設(shè):在沿光線傳播方向上的任意位置采集到的光線是一樣的。換句話說,假設(shè)任意一條光線在傳播的過程中光強(qiáng)不發(fā)生衰減且波長不變??紤]到日常生活中光線從場景表面到人眼的傳播距離非常有限,光線在空氣中的衰減微乎其微,上述Levoy提出的假設(shè)完全合理。Levoy提出的光場4D模型并不能完備地描述三維空間中所有的光線,與(u,v)或(s,t)平面所平行的光線就不能被該4D模型所表示,例如圖6中紅色標(biāo)示的光線。盡管Levoy提出的4D模型不能完備描述三維空間中所有的光線,但可以完備描述人眼接收到的光線。因為當(dāng)光線與人眼前視方向垂直時,該光線不會進(jìn)入人眼。因此,這部分光線并不影響人眼視覺成像。Levoy提出的4D模型既降低了表示光場所需的維度,同時又能完備表示人眼成像所需要的全部光線。光場4D模型得到了學(xué)術(shù)界的廣泛認(rèn)可,關(guān)于光場的大量研究都是在此基礎(chǔ)上展開。圖6.4D光場模型4D光場模型具有可逆性,既能表示光場采集,又能表示光場顯示。如圖7所示,對于光場采集模型,右側(cè)物體發(fā)出的光線經(jīng)過(s,t)和(u,v)平面的4D參數(shù)化表示,被記錄成4D光場。對于光場顯示模型,經(jīng)過(u,v)和(s,t)平面的調(diào)制可以模擬出左側(cè)物體表面的光線,從而使人眼“看見”并不存在的物體。圖7.4D光場模型的可逆性如圖8所示,物體表面A、B、C三點發(fā)出的光線首先到達(dá)(u,v)平面,假設(shè)(u,v)平面上有三個小孔h1、h2、h3,則A、B、C三點發(fā)出的光線經(jīng)三個小孔分別到達(dá)(s,t)平面。A、B、C三點在半球范圍內(nèi)三個不同方向的光線被同時記錄下來,例如A點三個方向的光線分別被(s,t)平面上A3’、B3’、C3’記錄。如果(u,v)平面上小孔數(shù)量更多,且(s,t)平面上的像素足夠密集,則可以采集到空間中更多方向的光線。需要說明的是,圖8中展示的是(u,v)(s,t)光場采集模型在垂直方向上的切面圖,實際上可以采集到A、B、C三點9個不同方向(3x3)的光線。圖8.4D光場采集空間光線示意圖圖像分辨率和FOV(FieldOfView)是傳統(tǒng)相機(jī)成像性能的主要指標(biāo)。衡量4D光場的指標(biāo)不僅有圖像分辨率和FOV,還有角度分辨率和FOP(FieldOfParallax)。圖9展示了基于微透鏡陣列的光場相機(jī)的光路示意圖,物體表面發(fā)出的光線進(jìn)入相機(jī)光圈,然后被解耦和并分別被記錄下來。以B點為例,發(fā)光點B在半球范圍內(nèi)發(fā)出各向異性的光線,但并不是所有的光線都進(jìn)入相機(jī)光圈,只有一定角度內(nèi)的光線被成功采集,被光場相機(jī)采集到的光線的角度范圍決定了能夠觀察的最大視差范圍,我們記這個角度為FOP。換句話說,圖9中光場相機(jī)只能采集到B點FOP角度范圍內(nèi)的光線。但FOP的大小隨著發(fā)光點與光場相機(jī)的距離遠(yuǎn)近而不同,因此通常采用基線的長度來衡量FOP的大小,圖9中主鏡頭的光圈直徑等效為基線長度。圖9中B點在FOP角度范圍內(nèi)的光線被微透鏡分成4x4束光線,光場相機(jī)的角度分辨率即為4x4,光場相機(jī)的角度分辨率表征了一個發(fā)光點在FOP角度范圍內(nèi)的光線被離散化的程度。而基于小孔成像模型相機(jī)的角度分辨率始終為1x1。光場的視點圖像分辨率同樣表征了被采集場景表面離散化程度,成像傳感器分辨率除以角度分辨率即為視點圖像分辨率。圖9.透鏡陣列4D光場的圖像分辨率和角度分辨率基于相機(jī)陣列的光場相機(jī)同樣可以用視點圖像分辨率、角度分辨率、FOV、FOP四個參數(shù)來衡量光場相機(jī)的各方面性能。如圖10所示為4x4相機(jī)陣列,B點半球范圍內(nèi)發(fā)出的光線中FOP角度范圍內(nèi)的光線被相機(jī)陣列分成4x4束并分別被采集。相機(jī)的個數(shù)4x4即為角度分辨率,單個相機(jī)成像傳感器的分辨率即為視點圖像分辨率。所有相機(jī)FOV的交集可以等效為光場相機(jī)的FOV?;谙鄼C(jī)陣列的光場相機(jī)的基線長度為兩端相機(jī)光心之間的距離。一般而言,基于相機(jī)陣列的光場相機(jī)比基于微透鏡陣列的光場相機(jī)具有更長的基線,也就具有更大的FOP角度。圖10.相機(jī)陣列4D光場的圖像分辨率和角度分辨率4、光場4D可視化4D光場數(shù)據(jù)可以表示為(Vx,Vy,Rx,Ry),其中(Vx,Vy)表征了角度分辨率,表示有Vx*Vy個視點(View)圖像;(Rx,Ry)表征視點圖像分辨率,表示單個視點圖像的分辨率為Rx*Ry。如圖11中上側(cè)圖展示了7x7光場的可視化,表示共有49個視點圖像,每個視點的圖像分辨率為384x512。視點圖像分辨率越高,包含的細(xì)節(jié)越多。角度分辨率越高,單位角度內(nèi)視點數(shù)量越多,視差過度就越平滑。角度分辨率越低,視點就越稀疏,觀看光場時視點跳躍感越明顯。假設(shè)在10度的可視角度內(nèi)水平方向上包含了7個視點,相鄰視點間的角度為1.67度,在2米的觀看距離,相鄰兩個視點的水平距離為29毫米。當(dāng)視點個數(shù)減少,相鄰視點的空間距離變大,觀看者移動觀看位置時就會感到明顯的視點跳躍。光場中任意兩個視點間都存在視差,將光場(Vx,Vy,Rx,Ry)中的部分視點圖像放大,如圖11中下側(cè)所示;同一行所有視點圖像之間只有水平視差,沒有垂直視差;同一列所有視點圖像之間只有垂直視差,沒有水平視差。圖11.光場角度分辨率和視點分辨率可視化分析光場作為高維數(shù)據(jù),不便于可視化分析。為了更好的分析光場中的視差,往往將光場中某一個水平/垂直視點上所有圖像的同一行/列像素堆成一幅2D圖像,稱之為光場切片數(shù)據(jù)(LightFieldSlice)。光場切片圖像可以將光場中的水平視差和垂直視差可視化,便于直觀分析。如圖12中藍(lán)色線條所在的行像素堆疊后就形成了圖12中下側(cè)的光場切片圖像。類似的,如圖11中將光場中同一垂直視點上所有綠色線條所在的列像素堆疊后就形成了圖11中右側(cè)的光場切片圖像。圖12.光場切片圖例5、光場相機(jī)光場相機(jī)的硬件結(jié)構(gòu)是由主透鏡、微透鏡陣列和CCD/CMOS感光器三大塊組成。這個結(jié)構(gòu)模型看

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論