動(dòng)態(tài)三維人體的隱式神經(jīng)表示方法研究_第1頁
動(dòng)態(tài)三維人體的隱式神經(jīng)表示方法研究_第2頁
動(dòng)態(tài)三維人體的隱式神經(jīng)表示方法研究_第3頁
動(dòng)態(tài)三維人體的隱式神經(jīng)表示方法研究_第4頁
動(dòng)態(tài)三維人體的隱式神經(jīng)表示方法研究_第5頁
已閱讀5頁,還剩235頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

分類號(hào):TP391.4單位代碼:10335博士學(xué)位論文中文論文題目:動(dòng)態(tài)三維人體的 隱式神經(jīng)表?方法研究英文論文題目:ImplicitNeuralRepresentations forDynamicHumanBodies指導(dǎo)教師:周曉巍學(xué)科(專業(yè)):計(jì)算機(jī)科學(xué)與技術(shù)研究方向:三維計(jì)算機(jī)視覺所在學(xué)院:計(jì)算機(jī)科學(xué)與技術(shù)論文遞交日期二。二三年四月十二日動(dòng)態(tài)三維人體的隱式神經(jīng)表?方法研究論文作者簽名:指導(dǎo)教師簽名:園晚魏答辯委員會(huì)主席:金小剛教授浙江大學(xué)ImplicitNeuralRepresentationsforDynamicHumanBodiesAuthor,ssignature:supervisor,ssignature:Externalreviewers:Name Name Name Name NameExaminingcommitteechairperson:prof.XiaogangJinzhejianguniversityExaminingcommitteeMembers:prof.yebinLiuTsinghuauniversityprof.chunhuashenzhejianguniversityprof.weiweiXuzhejianguniversityprof.weiHuazhejiangLabDateoforaldefence:June2,2023浙江大學(xué)研究生學(xué)位論文獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得浙江大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝學(xué)位論文作者簽名:簽字日期:2023年學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解浙江大學(xué)有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交本論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)浙江大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索和傳播,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后適用本授權(quán)書)學(xué)位論文作者簽名:導(dǎo)師簽名:簽字日期:2023年6月21日簽字日期:2023年6月21日浙江大學(xué)博士學(xué)位論文致謝I二十一年的學(xué)生生涯結(jié)束了。我很幸運(yùn),能一路上持續(xù)地享受學(xué)習(xí)的快樂,并最終寫下這一份博士學(xué)位論文,作為個(gè)人學(xué)業(yè)成果的總結(jié)。時(shí)常慶幸自己能較為純粹地?zé)釔蹖W(xué)習(xí),在很大程度上單純地享受著獲取知識(shí)和自我提升帶來的快樂。很感謝各個(gè)階段的老師、我的父母、我的妻子、一路上認(rèn)識(shí)的同學(xué)對我這方面性格的影響。在高二之前,我對學(xué)習(xí)的意義其實(shí)沒有什么概念,只是因?yàn)楸容^乖、聽家長老師的話,按部就班地走著。老師布置作業(yè),我就認(rèn)真完成,如果要考試了,我就好好復(fù)習(xí)。在做完被布置的事情以后,就找點(diǎn)其他事情打發(fā)時(shí)間。如果一直是這種狀態(tài),我很可能在大學(xué)的時(shí)候會(huì)荒廢自己的時(shí)間,開始蹉跎歲月了。很慶幸在高二的時(shí)候遇到馮淑珍老師這么好的班主任,她讓我意識(shí)到學(xué)習(xí)的意義,讓我對更好的自己有了期盼,也讓我在高二、高三兩年里養(yǎng)成了持續(xù)學(xué)習(xí)的習(xí)慣。馮老師經(jīng)常找我談話,聊日常學(xué)習(xí)、聊人生規(guī)劃,無償?shù)仡~外花時(shí)間幫我查缺補(bǔ)漏。我永遠(yuǎn)忘不了她在每次和我談話以后對我期盼的目光,感覺自己真的被寄予厚望。作為教育的受益者,馮老師對我的培養(yǎng)以及我后續(xù)的成長讓我深深地信仰教書育人的價(jià)值。有人說:“教育是一個(gè)靈魂喚醒另一個(gè)靈魂?!痹谖疑砩?是馮老師喚醒了我,以她無條件的好培養(yǎng)了我的學(xué)習(xí)觀。人生中很多事情可能是沒有意義的,但我非常確信,學(xué)習(xí)和教育肯定是有意義的。到了本科,課余時(shí)間變得很多,一周經(jīng)常有好幾天以上可以自由分配的時(shí)間,我拿這些時(shí)間學(xué)了很多課外的知識(shí)。記得第一次接觸編程的時(shí)候,發(fā)現(xiàn)用幾行代碼就能在電腦上顯示酷炫的效果,讓我很震撼。因此我本科一直有個(gè)愿望是搞清楚操作系統(tǒng)的運(yùn)行原理,后面也確實(shí)學(xué)了很多這方面的知識(shí),為我科研的實(shí)驗(yàn)?zāi)芰Υ蛳铝嘶A(chǔ)。本科一個(gè)非常正確的決定是加入工高班,這是一個(gè)技術(shù)極客扎堆的地方,我遇到了很多趣味相投的人,比如利軍、栗橙、曉剛。記得大二的時(shí)候經(jīng)常和利軍、栗橙一起去自習(xí),然后晚上十點(diǎn)多一起回宿舍。我很懷念那個(gè)時(shí)候。那段時(shí)間學(xué)課外知識(shí)真的完全憑興趣,甚至沒有什么目標(biāo),只是覺得什么有意思就學(xué)什么,沒有壓力。雖然本科前三年學(xué)了挺多東西,但比較可惜的是缺少一個(gè)好的向?qū)?導(dǎo)致沒有學(xué)得很深入的方向。很幸運(yùn)的是,大四上我遇到了求學(xué)路上另一位重要的老師,周曉巍老師。在接下來的幾年里,我在他的引導(dǎo)下進(jìn)行了深入的系統(tǒng)性科研訓(xùn)練。教育在我這一段經(jīng)歷中再一次閃耀起了光輝,馮淑珍老師培養(yǎng)了我持續(xù)學(xué)習(xí)的習(xí)慣,而周曉巍老師培養(yǎng)了我解決技浙江大學(xué)博士學(xué)位論文致謝II術(shù)難題的科研能力和性格品質(zhì)。周老師不僅是我的科研導(dǎo)師,更是我的人生導(dǎo)師。堅(jiān)持是他教給我的一個(gè)珍貴品質(zhì)。記得剛認(rèn)識(shí)的那一段時(shí)間,他常和我談堅(jiān)持的重要性,他讓我不用擔(dān)心現(xiàn)在沒啥基礎(chǔ),只要堅(jiān)持做科研,總能變得很厲害。我通過博士這幾年的實(shí)踐深刻理解了堅(jiān)持的含義。學(xué)習(xí)過程中經(jīng)常會(huì)遇到很難的算法,我一開始會(huì)畏難,后來我發(fā)現(xiàn),只要堅(jiān)持去學(xué)習(xí)這個(gè)算法,學(xué)個(gè)幾天或者一個(gè)月,原本很難的算法真的慢慢變得簡單、變得形象、變得親切。我讀博期間反復(fù)經(jīng)歷了這樣的體驗(yàn),讓我驚訝于人腦的神奇和堅(jiān)持的可貴。做實(shí)驗(yàn)、寫論文也是這樣。開始一個(gè)新項(xiàng)目時(shí)的未知感或工作量可能讓人畏懼,但只要我規(guī)劃有度,每天堅(jiān)持去完成一部分內(nèi)容,就能體會(huì)到“進(jìn)一步有進(jìn)一步的歡喜”。在實(shí)驗(yàn)室管理方面,我常常感概周老師是個(gè)有大智慧的人,想著自己何時(shí)才能達(dá)到他的境界。他會(huì)制定一個(gè)明確的科研目標(biāo),穩(wěn)步推動(dòng)著實(shí)驗(yàn)室的進(jìn)展,不會(huì)急于一時(shí)地去完成。有時(shí)候我們進(jìn)度慢了或者沒做,他從來不會(huì)說我們什么,而是再次規(guī)劃要做的事情和時(shí)間點(diǎn),似乎一切都在把握之中,最后也確實(shí)大多完成了。周老師在學(xué)生面前一直情緒穩(wěn)定,總是有條有理、不急躁地做科研。我感覺能做到這一點(diǎn)真的很難,特別是對于一個(gè)青年教師而言。周老師會(huì)是我一直學(xué)習(xí)的目標(biāo)。感謝鮑虎軍老師建立了這樣世界一流的科研團(tuán)隊(duì),讓我有機(jī)會(huì)能在團(tuán)隊(duì)中學(xué)習(xí)科研,接受頂級的科研訓(xùn)練。感謝劉緣在我第一個(gè)科研項(xiàng)目中的幫助,他讓我見識(shí)到了怎樣是靠譜的合作者。在博士期間我們進(jìn)行了多次合作,劉緣總是能讓我不由自主地佩服他的能力之強(qiáng)和效率之高。感謝實(shí)驗(yàn)室的學(xué)弟學(xué)妹們,在和他們的交流討論中我完善了自己的科研方法,感受到了與頂尖學(xué)生相處的快樂。感謝我的父母,他們總是很信任我,讓我有勇氣去完成這二十一年的求學(xué)之路。感謝我的妻子,她教會(huì)了我如何更好地與人相處、如何去關(guān)心人和愛人。浙江大學(xué)博士學(xué)位論文摘要III從觀測視頻中重建動(dòng)態(tài)三維人體表示是計(jì)算機(jī)視覺和圖形學(xué)領(lǐng)域的前沿?zé)狳c(diǎn)問題,是數(shù)字內(nèi)容制作、遠(yuǎn)程虛擬會(huì)議、影視制作等應(yīng)用的重要技術(shù)。傳統(tǒng)的人體建模技術(shù)可以構(gòu)建高精度的數(shù)字人體模型,但這些方法依賴于復(fù)雜的硬件設(shè)備,比如深度相機(jī)、稠密相機(jī)陣列,限制了這些工作的使用場景,并且提高了建模成本和用戶門檻。近年來,神經(jīng)輻射場展現(xiàn)了從觀測圖片中重建高質(zhì)量三維場景的能力。但此類方法需要稠密視角圖片的輸入,并且無法建??沈?qū)動(dòng)的動(dòng)態(tài)人體模型。除此之外,此類方法的渲染速度較慢,無法滿足實(shí)時(shí)應(yīng)用的需求?;诙嘁晥D幾何理論與深度學(xué)習(xí)方法相融合的思想,本文提出了一系列面向動(dòng)態(tài)人體建模與渲染的隱式神經(jīng)表示方法,致力于解決稀疏視角建模、可驅(qū)動(dòng)人體模型、幾何表面重建、實(shí)時(shí)渲染這四個(gè)人體建模領(lǐng)域的關(guān)鍵問題,實(shí)現(xiàn)了從稀疏視角視頻中創(chuàng)建具有高質(zhì)量的可驅(qū)動(dòng)人體模型。本文主要的研究成果如下:(1)針對從稀疏視角視頻重建動(dòng)態(tài)三維人體模型的問題,本文提出了一種基于結(jié)構(gòu)化隱變量的人體神經(jīng)輻射場表示,可以有效地整合輸入視頻中不同時(shí)刻的觀測信息。實(shí)驗(yàn)結(jié)果表明本方法可以從稀疏視角視頻甚至單目視頻中重建高質(zhì)量的三維人體。(2)針對可驅(qū)動(dòng)的數(shù)字人建模問題,本文提出了一種基于骨骼蒙皮驅(qū)動(dòng)的人體神經(jīng)輻射場表示,將動(dòng)態(tài)人體建模為空間變形場和標(biāo)準(zhǔn)空間下的神經(jīng)輻射場。本文在Hu-man3.6M和ZJU-Mocap數(shù)據(jù)集上驗(yàn)證了該方法的有效性。(3)針對從視頻中重建高質(zhì)量人體幾何的問題,本文提出了一種基于符號(hào)距離場的動(dòng)態(tài)人體幾何表示,利用程函方程對幾何優(yōu)化過程施加正則化。在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本方法在人體幾何重建方面大幅度地超過了之前的方法。(4)針對動(dòng)態(tài)人體的實(shí)時(shí)渲染問題,本文提出了一種基于多層感知機(jī)圖的動(dòng)態(tài)場景表示,通過一組小型多層感知機(jī)網(wǎng)絡(luò)建模三維場景,從而降低了網(wǎng)絡(luò)的推理成本,提升了渲染速度。在NHR和ZJU-Mocap數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本方法在渲染速度方面遠(yuǎn)遠(yuǎn)超過了之前的方法,并且在渲染質(zhì)量上表現(xiàn)出了最好的效果。關(guān)鍵詞:三維人體建模,隱式神經(jīng)表示,神經(jīng)渲染浙江大學(xué)博士學(xué)位論文AbstractIVAbstractReconstructingdynamichumanbodyrepresentationsfromRGBvideosisanimportantproblemincomputervisionandgraphics,whichhasmanyapplications,suchasdigitalcontentcreation,immersivetelepresence,andmovieproduction.Traditionalmethodshaveshownim-pressiveresultsinreconstructinghumangeometryandappearance,buttheyrelyoncomplexhardware,suchasdepthsensorsanddensecameraarrays,whichlimitstheirapplicationsinreal-worldscenariosandimprovesthemodelingcost.Recently,neuralradiancefieldshaveex-hibitedgreatperformanceonreconstructing3Dscenesfromobservedimages.However,suchmethodsrequiredenseinputviewsandcannothandledynamichumans.Moreover,itsrenderingspeedisslow,whichisnotsuitableforreal-timeapplications.Basedonthetheoryofcomputervision,graphicsanddeeplearning,weproposesseveralimplicitneuralrepresentationsfordynamichumanbodies,whichaimtosolvethekeyproblemsofsparse-viewmodeling,animatablehumanmodels,geometrysurfacereconstruction,andreal-timerendering.withtheproposedrepresentations,weareabletocreatehigh-qualityanimatablehumanmodelsfromsparse-viewvideos.Themaincontributionsofthispaperareasfollows:(1)Toaddresstheproblemofreconstructingdynamic3Dhumanmodelsfromsparse-viewvideos,weproposeanovelneuralhumanneuralfieldbasedonstructuredlatentvariables,whicheffectivelyintegratestheobservedinformationacrossvideoframes.Experimentsshowthatourmethodcanreconstructhigh-quality3Dhumanmodelsfromsparse-viewvideos.(2)Toaddressthechallengeofmodelinganimatabledigitalhumansfromvideos,wepro-poseanovelneuralhumanradiancefieldbasedontheskeleton-drivendeformationframework,whichmodelsadynamichumanasaneuralradiancefieldinthecanonicalspaceandadefor-mationfield.ExperimentsontheHuman3.6MandzJU-Mocapdatasetsshowthatourmethodnotonlyachieveshigh-qualitynovelviewsynthesis,butalsooutperformspreviousmethodsbyalargemarginintermsofnovelposesynthesis.(3)Toreconstructthehigh-qualitygeometryofhumanbodies,weproposeanoveldy-namicgeometryrepresentationbasedonsigneddistancefields(SDF),whichregularizestheoptimizationprocesswiththeEikonalloss.Experimentsonmultipledatasetsdemonstratethat浙江大學(xué)博士學(xué)位論文AbstractVourmethodsignificantlyoutperformspreviousmethodsintermsofgeometryreconstruction.(4)Toachievereal-timerenderingofdynamichumanbodies,weproposeanoveldynamicscenerepresentationbasedonmultilayerperceptron(MLP)maps,whichmodels3DsceneswithasetofsmallMLPnetworks,thusreducingtheinferencecostofMLPnetworksandimprov-ingrenderingspeed.Tovalidateourmethod,weconductextensiveexperimentsontheNHRandZJU-Mocapdatasets.Experimentalresultsshowthatourmethodexhibitsstate-of-the-artperformanceintermsofrenderingqualityandspeed.keywords:3DHumanModeling,ImplicitNeuralRepresentations,NeuralRendering浙江大學(xué)博士學(xué)位論文AbstractVI浙江大學(xué)博士學(xué)位論文目錄VII致謝 摘要 IIIAbstract IV VII圖目錄 XI表目錄 XIII 1.1研究的背景與意義 1.2研究目標(biāo)與面臨的挑戰(zhàn) 1.3本文內(nèi)容與結(jié)構(gòu) 第2章相關(guān)文獻(xiàn)綜述 2.1傳統(tǒng)方法 2.1.1基于多視角相機(jī)陣列的人體建模 2.1.2基于深度相機(jī)的人體建模 2.2基于數(shù)據(jù)驅(qū)動(dòng)的方法 2.2.1多邊形網(wǎng)格表示 2.2.2體素網(wǎng)格表示 2.2.3隱式神經(jīng)表示 2.3基于可微分渲染的方法 202.3.1可微分渲染技術(shù) 202.3.2靜態(tài)場景的建模與渲染 212.3.3動(dòng)態(tài)人體的建模與渲染 24第3章基于結(jié)構(gòu)化隱變量的人體神經(jīng)輻射場表? 27 273.2方法 293.2.1方法概述 293.2.2結(jié)構(gòu)化隱變量 30浙江大學(xué)博士學(xué)位論文目錄VIII3.2.3隱變量擴(kuò)散 303.2.4體素密度和顏色的預(yù)測 323.2.5模型訓(xùn)練細(xì)節(jié) 323.2.6應(yīng)用 333.3實(shí)驗(yàn)分析 333.3.1ZJU-Mocap數(shù)據(jù)集上的實(shí)驗(yàn) 333.3.2people-snapshot數(shù)據(jù)集上的實(shí)驗(yàn) 373.3.3ZJU-Mocap數(shù)據(jù)集上的消融實(shí)驗(yàn) 403.4總結(jié)與討論 41第4章基于骨骼蒙皮驅(qū)動(dòng)的人體神經(jīng)輻射場表? 434.1引言 434.2方法 454.2.1方法概述 454.2.2基于神經(jīng)輻射場的動(dòng)態(tài)場景表示 454.2.3神經(jīng)蒙皮權(quán)重場 464.2.4模型訓(xùn)練細(xì)節(jié) 484.2.5人體模型驅(qū)動(dòng) 484.3實(shí)現(xiàn)細(xì)節(jié) 494.4實(shí)驗(yàn)分析 4.4.1數(shù)據(jù)集和實(shí)驗(yàn)指標(biāo) 4.4.2圖像合成的實(shí)驗(yàn)結(jié)果 4.4.3三維重建的實(shí)驗(yàn)結(jié)果 4.4.4消融實(shí)驗(yàn) 4.4.5模型渲染速度 4.5總結(jié)與討論 第5章基于符號(hào)距離場的人體幾何表? 5.2方法 5.2.1方法概述 浙江大學(xué)博士學(xué)位論文目錄IX5.2.2動(dòng)態(tài)人體模型 5.2.3神經(jīng)位移場 5.2.4模型訓(xùn)練 5.3實(shí)驗(yàn)分析 5.3.1數(shù)據(jù)集和實(shí)驗(yàn)指標(biāo) 5.3.2圖片合成的實(shí)驗(yàn)結(jié)果 5.3.3三維幾何重建的實(shí)驗(yàn)結(jié)果 5.3.4消融實(shí)驗(yàn) 745.4總結(jié)與討論 76第6章基于多層感知機(jī)圖的動(dòng)態(tài)場景表? 77 776.2方法 796.2.1基于多層感知機(jī)圖的三維場景建模 796.2.2基于動(dòng)態(tài)多層感知機(jī)圖的體積視頻表示 6.2.3加速渲染過程 6.3實(shí)現(xiàn)細(xì)節(jié) 6.4實(shí)驗(yàn)分析 6.4.1數(shù)據(jù)集 6.4.2消融實(shí)驗(yàn) 6.4.3和基線方法的比較 6.5總結(jié)與討論 92第7章總結(jié)與展望 937.1全文總結(jié) 937.2未來發(fā)展方向的展望 95參考文獻(xiàn) 97攻讀博士期間主要研究成果 浙江大學(xué)博士學(xué)位論文目錄X浙江大學(xué)博士學(xué)位論文圖目錄XI圖1-1動(dòng)態(tài)三維人體建模與渲染的相關(guān)應(yīng)用 圖1-2本文的內(nèi)容與結(jié)構(gòu) 圖2-1基于多視角立體匹配的人體建模流程 圖2-2常見的渲染技術(shù) 20圖3-1稀疏視角人體建模的輸入與輸出 27圖3-2結(jié)構(gòu)化隱變量的示意圖 28圖3-3基于結(jié)構(gòu)化隱變量的動(dòng)態(tài)人體隱式神經(jīng)表示方法 30圖3-4ZJU-Mocap數(shù)據(jù)集上的新視角合成的定性比較 36圖3-5ZJU-Mocap數(shù)據(jù)集上的三維人體幾何重建的定性比較 37圖3-6單目視頻上的新視角合成效果 38圖3-7單目視頻上的三維幾何重建效果 39圖4-1構(gòu)建可驅(qū)動(dòng)人體模型的輸入與輸出 43圖4-2基于骨骼蒙皮驅(qū)動(dòng)模型的人體神經(jīng)輻射場 45圖4-3神經(jīng)體素密度場和顏色場的網(wǎng)絡(luò)結(jié)構(gòu) 49圖4-4神經(jīng)蒙皮權(quán)重場的網(wǎng)絡(luò)結(jié)構(gòu) 49圖4-5Human3.6M數(shù)據(jù)集上的新視角合成的量化結(jié)果 圖4-6Human3.6M數(shù)據(jù)集上的新人體姿態(tài)合成的定性結(jié)果 圖4-7ZJU-Mocap數(shù)據(jù)集上的新人體姿態(tài)合成的定性比較 圖4-8標(biāo)準(zhǔn)空間和觀測空間下的人體三維模型 圖4-9視頻序列“S9”上優(yōu)化得到的參差向量場FΔw的可視化 圖4-10視頻序列“S9”上使用基于標(biāo)記和無標(biāo)記系統(tǒng)的人體姿態(tài)訓(xùn)練的模型的定量比較結(jié)果 圖4-11視頻序列“S9”上使用不同數(shù)量視頻幀進(jìn)行訓(xùn)練的模型的定量比較結(jié)果.58圖4-12視頻序列“S9”上使用不同數(shù)量視角進(jìn)行訓(xùn)練的模型的定量比較結(jié)果 圖5-1本方法的人體幾何重建效果圖 圖5-2基于符號(hào)距離場的動(dòng)態(tài)人體幾何表示 圖5-3ZJU-Mocap和Human3.6M數(shù)據(jù)集上的訓(xùn)練姿態(tài)下的新視角合成結(jié)果 70浙江大學(xué)博士學(xué)位論文圖目錄XII圖5-4ZJU-Mocap、Monocap和Human3.6M數(shù)據(jù)集上的新人體姿態(tài)合成結(jié)果71圖5-5syntheticHuman數(shù)據(jù)集上的三維人體幾何重建結(jié)果 74圖5-6Human3.6M和Monocap數(shù)據(jù)集上的三維人體幾何重建結(jié)果 75圖6-1動(dòng)態(tài)MLP圖的基本思想 78圖6-2定義在YZ平面上的動(dòng)態(tài)MLP圖的示意圖 圖6-3ZJU-Mocap數(shù)據(jù)集上不同MLP圖分辨率的模型的定性結(jié)果 圖6-4NHR數(shù)據(jù)集上動(dòng)態(tài)MLP圖和單個(gè)MLP網(wǎng)絡(luò)的比較 圖6-5NHR數(shù)據(jù)集上正交MLP圖的消融實(shí)驗(yàn) 圖6-6NHR數(shù)據(jù)集上的定性比較 圖6-7ZJU-Mocap數(shù)據(jù)集上的定性比較 91浙江大學(xué)博士學(xué)位論文表目錄XIII表目錄表2-1代表性的人體建模方法 表3-1三維卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)層結(jié)構(gòu) 31表3-2ZJU-Mocap數(shù)據(jù)集上的新視角合成的PSNR結(jié)果 34表3-3ZJU-Mocap數(shù)據(jù)集上的新視角合成的SSIM結(jié)果 35表3-4ZJU-Mocap數(shù)據(jù)集視頻序列“Twirl”上在不同視角數(shù)目訓(xùn)練的模型的量化比較 40表3-5視頻序列“Twirl”上使用不同視頻幀數(shù)訓(xùn)練的模型的量化比較 40表3-6ZJU-Mocap數(shù)據(jù)集視頻序列“Twirl”上使用不同的擴(kuò)散方法的模型的量化比較 41表4-1Human3.6M數(shù)據(jù)集上的新視角合成結(jié)果 表4-2Human3.6M數(shù)據(jù)集上的新人體姿態(tài)合成結(jié)果 表4-3ZJU-Mocap數(shù)據(jù)集上訓(xùn)練人體姿態(tài)和新人體姿態(tài)的新視角合成的量化比較 表4-4視頻序列“S9”上的神經(jīng)蒙皮權(quán)重場和SMPL蒙皮權(quán)重場的新人體姿態(tài)合成結(jié)果 表4-5視頻序列“S9”上的新人體姿態(tài)合成結(jié)果 表4-6視頻序列“S9”上使用不同長度的視頻進(jìn)行訓(xùn)練的模型的新人體姿態(tài)合成結(jié)果 表4-7視頻序列“S9”上使用不同數(shù)量的視角進(jìn)行訓(xùn)練的模型的新人體姿態(tài)合成結(jié)果 表5-1Human3.6M數(shù)據(jù)集上的訓(xùn)練人體姿態(tài)的新視角合成結(jié)果 表5-2Human3.6M數(shù)據(jù)集上的新人體姿態(tài)合成結(jié)果 表5-3Monocap數(shù)據(jù)集上的訓(xùn)練人體姿態(tài)的新視角合成結(jié)果 70表5-4Monocap數(shù)據(jù)集上的新人體姿態(tài)合成結(jié)果 72表5-5ZJU-Mocap數(shù)據(jù)集上的新視角合成結(jié)果 72表5-6SyntheticHuman數(shù)據(jù)集上的三維幾何重建結(jié)果 73表5-7SyntheticHuman數(shù)據(jù)集上的三維幾何重建結(jié)果 73浙江大學(xué)博士學(xué)位論文表目錄XIV表6-1各個(gè)模塊對渲染質(zhì)量的貢獻(xiàn) 表6-2ZJU-Mocap和NHR數(shù)據(jù)集上的消融實(shí)驗(yàn) 表6-3NHR數(shù)據(jù)集上的量化結(jié)果 表6-4NHR數(shù)據(jù)集上的平均渲染時(shí)間和存儲(chǔ) 表6-5ZJU-Mocap數(shù)據(jù)集上的量化結(jié)果 90表6-6ZJU-Mocap數(shù)據(jù)集上的平均渲染時(shí)間和存儲(chǔ) 90浙江大學(xué)博士學(xué)位論文第1章緒論11.1研究的背景與意義三維人體數(shù)字化技術(shù)致力于創(chuàng)建人們在數(shù)字空間中的虛擬化身。該虛擬化身不僅要有高質(zhì)量的幾何與外觀,還要實(shí)現(xiàn)逼真自然的肢體表達(dá)。人體數(shù)字化是計(jì)算機(jī)視覺和圖形學(xué)領(lǐng)域的前沿?zé)狳c(diǎn)問題,具有廣泛的應(yīng)用,比如遠(yuǎn)程虛擬會(huì)議、影視制作、游戲建模、元宇宙、數(shù)字孿生、虛擬助手、數(shù)字內(nèi)容制作等。圖1-1展示了一些典型應(yīng)用。GoogleRelightables[1]利用稠密視角陣列重建人體幾何與材質(zhì),從而能將數(shù)字人體放置于不同光照的數(shù)字場景中,為影視制作提供技術(shù)支持;Googlestarline[2]基于多視角深度相機(jī)實(shí)時(shí)地重建人體,將數(shù)字人體傳輸?shù)竭h(yuǎn)程,使得參會(huì)者能更立體地呈現(xiàn)在對方屏幕,提升了遠(yuǎn)程會(huì)議的體驗(yàn);嘖深數(shù)字科技[3]通過神經(jīng)網(wǎng)絡(luò)記錄非物質(zhì)文化遺產(chǎn),實(shí)現(xiàn)了非物質(zhì)文化遺產(chǎn)的數(shù)字化,為非物質(zhì)文化遺產(chǎn)的保護(hù)提供了新的方式。三維人體的數(shù)字化技術(shù)也是我國在信息領(lǐng)域優(yōu)先發(fā)展的技術(shù)之一。我國2021年印發(fā)的《十四五規(guī)劃和2035遠(yuǎn)景目標(biāo)綱要》將動(dòng)態(tài)環(huán)境建模和實(shí)時(shí)動(dòng)作捕捉列為發(fā)展數(shù)字經(jīng)濟(jì)的重點(diǎn)方向。長久以來,研究人員一直在追求以更便捷的設(shè)備和更低的成本構(gòu)建更高質(zhì)量的虛擬數(shù)字人。傳統(tǒng)的人體建模技術(shù)主要有兩類,分別是基于三維重建的方法和基于圖像插值的方法。之前的研究工作[4-7]借助多個(gè)RGB-D相機(jī)拍攝目標(biāo)人體的RGB圖片和深度圖片,然后使用多視角深度融合、表面重建和紋理貼圖等技術(shù)獲得帶紋理的三維網(wǎng)格模型。雖然這些方法能實(shí)時(shí)地生成可渲染的網(wǎng)格模型,但多視角深度相機(jī)的使用限制了這些工作的應(yīng)用場景,并且提高了使用難度和用戶門檻。除此之外,由于貼圖質(zhì)量和幾何精度有限,基于帶紋理的三維網(wǎng)格模型進(jìn)行渲染得到的圖片往往不夠真實(shí)。為了實(shí)現(xiàn)照(a)影視制作(b)全息視頻會(huì)議(c)非物質(zhì)文化遺產(chǎn)數(shù)字化圖1-1動(dòng)態(tài)三維人體建模與渲染的相關(guān)應(yīng)用。圖片分別來自GoogleRelightables[1]、Googlestarline[2]、嘖深數(shù)字科技[3]。浙江大學(xué)博士學(xué)位論文第1章緒論2片級的渲染,一些研究工作[1,8-9]搭建了稠密相機(jī)陣列用于拍攝目標(biāo)人體的多視角圖片,并使用光場技術(shù)[10-11]插值圖片得到新視角下的圖片。盡管這些方法能實(shí)現(xiàn)非常逼真的渲染,但這依賴于稠密的多視角圖片,從而導(dǎo)致了巨大的存儲(chǔ)和傳輸成本。近年來,一些工作[12-15]提出將三維場景建模為隱式神經(jīng)表示,利用神經(jīng)網(wǎng)絡(luò)編碼目標(biāo)場景。隱式神經(jīng)輻射場NeRF[15]是其中的代表性工作。具體而言,該工作使用神經(jīng)網(wǎng)絡(luò)預(yù)測場景中任意三維點(diǎn)的體素密度和顏色,可以建模高分辨率的三維場景。盡管隱式神經(jīng)輻射場[15]在三維場景建模上取得了很好的效果,這個(gè)技術(shù)在動(dòng)態(tài)人體建模與渲染上仍然存在一些局限性。首先,神經(jīng)輻射場只用神經(jīng)網(wǎng)絡(luò)編碼了場景三維點(diǎn)在特定時(shí)刻的狀態(tài),導(dǎo)致其只能建模靜態(tài)場景。除此之外,隱式神經(jīng)輻射場的訓(xùn)練需要稠密的觀測圖片作為監(jiān)督信號(hào),才能從圖片中恢復(fù)出高真實(shí)感的三維場景。然而,動(dòng)態(tài)人體需要搭建稠密相機(jī)陣列才能獲得稠密視角的觀測圖片。其次,用戶通常有操作數(shù)字人的需求,用于表達(dá)一些肢體語言或者操作虛擬世界中的一些物體。目前隱式神經(jīng)輻射場用一個(gè)神經(jīng)網(wǎng)絡(luò)表示三維場景,缺少顯式的可操作性,因而無法表示可驅(qū)動(dòng)的數(shù)字人。再次,隱式神經(jīng)輻射場雖然能實(shí)現(xiàn)照片級的渲染,但重建出的三維場景幾何一般比較粗糙,和真實(shí)幾何有較大的差距。而一些數(shù)字人應(yīng)用需要比較好的幾何質(zhì)量,比如重光照、游戲角色制作、虛擬換衣等應(yīng)用。最后,渲染隱式神經(jīng)輻射場需要大量次數(shù)的神經(jīng)網(wǎng)絡(luò)推理,以致于渲染過程比較慢。對于遠(yuǎn)程虛擬會(huì)議等應(yīng)用,實(shí)時(shí)渲染是必備的功能。針對現(xiàn)有動(dòng)態(tài)三維人體建模和渲染所面臨的問題與挑戰(zhàn),本文基于多視圖幾何理論與深度學(xué)習(xí)方法相融合的思想,提出了一系列人體數(shù)字化技術(shù),實(shí)現(xiàn)了從稀疏視角視頻中創(chuàng)建具有高質(zhì)量的可驅(qū)動(dòng)數(shù)字人體模型。具體而言,首先,為了從稀疏視角視頻中建模數(shù)字人體,本文提出了基于結(jié)構(gòu)化隱變量的神經(jīng)輻射場,用于表示動(dòng)態(tài)人體,并實(shí)現(xiàn)了時(shí)序信息的整合。其次,針對數(shù)字人體模型的可驅(qū)動(dòng)性問題,本文研究了神經(jīng)輻射場與骨骼蒙皮驅(qū)動(dòng)模型的結(jié)合,實(shí)現(xiàn)從圖片中優(yōu)化得到蒙皮權(quán)重場,從而支持了通過人體姿態(tài)顯式地操作基于神經(jīng)輻射場的數(shù)字人體。然后,為了提升人體三維幾何的重建質(zhì)量,本文提出了基于符號(hào)距離場的動(dòng)態(tài)人體幾何表示,在網(wǎng)絡(luò)訓(xùn)練過程中為幾何優(yōu)化提供了有效的約束,在保持高質(zhì)量渲染的基礎(chǔ)上,獲得了高質(zhì)量的人體幾何模型。最后,針對動(dòng)態(tài)場景的渲染問題,本文研究了神經(jīng)輻射場的空間解耦,通過一組搭載小型神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)平面表示動(dòng)態(tài)場景,從而降低了神經(jīng)輻射場的網(wǎng)絡(luò)推理成本,并以此為基礎(chǔ)構(gòu)建了一個(gè)面向動(dòng)態(tài)場景的實(shí)時(shí)渲染流程。浙江大學(xué)博士學(xué)位論文第1章緒論31.2研究目標(biāo)與面臨的挑戰(zhàn)本文致力于研究動(dòng)態(tài)三維人體的建模與渲染技術(shù),通過設(shè)計(jì)新穎的隱式神經(jīng)表示,實(shí)現(xiàn)基于較為便捷的采集設(shè)備重建高精度的可驅(qū)動(dòng)人體模型以及高效的動(dòng)態(tài)場景渲染,從而促進(jìn)虛擬數(shù)字人在元宇宙、遠(yuǎn)程虛擬會(huì)議、自由視角視頻和虛擬助手等應(yīng)用的落地。為了實(shí)現(xiàn)該目標(biāo),本文主要面臨以下四個(gè)挑戰(zhàn):(1)如何從稀疏視角視頻重建動(dòng)態(tài)三維人體:相比于稠密相機(jī)陣列,稀疏相機(jī)陣列易于部署且成本低,用戶門檻較低,因此基于稀疏相機(jī)陣列建模數(shù)字人具有很高的實(shí)際價(jià)值。然而,即使是最近提出的隱式神經(jīng)輻射場NeRF,在該問題上也面臨諸多挑戰(zhàn)。首先是神經(jīng)輻射場局限于靜態(tài)場景的建模,無法表征動(dòng)態(tài)人體。因?yàn)樯窠?jīng)輻射場只預(yù)測場景三維點(diǎn)在特定時(shí)刻下的幾何和外觀,沒有將時(shí)間作為輸入變量,所以無法表示時(shí)變的場景。除此之外,稠密觀測圖片的輸入是最優(yōu)化神經(jīng)輻射場的必要條件,而稀疏相機(jī)陣列只有少數(shù)相機(jī)視角,無法滿足輸入數(shù)據(jù)的條件,因此造成了另一個(gè)挑戰(zhàn)。之所以優(yōu)化過程依賴于稠密的觀測視角,是因?yàn)槿S場景投影到二維圖片時(shí)丟失了深度信息,導(dǎo)致從二維圖片恢復(fù)三維場景的過程存在歧義性,一張二維圖片往往對應(yīng)了多種可能的三維場景。稠密的多視角圖片可以很大程度地消除歧義性。因此,如何設(shè)計(jì)動(dòng)態(tài)人體表示以及如何消除稀疏視角下優(yōu)化的歧義性是基于稀疏相機(jī)陣列建模數(shù)字人的兩個(gè)關(guān)鍵難點(diǎn)。(2)如何構(gòu)建可驅(qū)動(dòng)的人體模型:數(shù)字人模型的可驅(qū)動(dòng)性是諸多數(shù)字人應(yīng)用的關(guān)鍵,例如數(shù)字內(nèi)容創(chuàng)作通常需要操作數(shù)字人完成特定的動(dòng)作,或者社交應(yīng)用中人們需要驅(qū)動(dòng)數(shù)字化身表達(dá)肢體語言、與對方進(jìn)行互動(dòng)。傳統(tǒng)的可驅(qū)動(dòng)數(shù)字人大多是基于骨骼蒙皮驅(qū)動(dòng)算法的三維網(wǎng)格模型。這樣的人體模型主要有三個(gè)局限:首先,獲取高精度的三維網(wǎng)格模型需要復(fù)雜硬件設(shè)備的支持;其次,帶紋理的三維網(wǎng)格模型的渲染真實(shí)感有限;最后,建模師需要精心設(shè)計(jì)目標(biāo)數(shù)字人的蒙皮權(quán)重以支持骨骼蒙皮驅(qū)動(dòng)算法。考慮到神經(jīng)輻射場易于從圖片中建模、渲染真實(shí)感高等優(yōu)點(diǎn),設(shè)計(jì)基于神經(jīng)輻射場的可驅(qū)動(dòng)人體是可靠的發(fā)展方向。然而,神經(jīng)輻射場使用單個(gè)全連接神經(jīng)網(wǎng)絡(luò)表示三維場景,而實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的可操作性并不直觀。為此,本文將動(dòng)態(tài)數(shù)字人解耦為標(biāo)準(zhǔn)姿態(tài)下的靜態(tài)人體模型和任意姿態(tài)下的連續(xù)空間變形場,靜態(tài)人體模型由神經(jīng)輻射場建模,連續(xù)空間變形場由骨骼蒙皮驅(qū)動(dòng)算法建模。該表示解決了神經(jīng)輻射場可驅(qū)動(dòng)性的問題。但是,基于骨骼蒙皮驅(qū)動(dòng)算法表示連續(xù)的空間變形場帶來了另一個(gè)挑戰(zhàn):為了驅(qū)動(dòng)某一空間三維點(diǎn),骨浙江大學(xué)博士學(xué)位論文第1章緒論4骼蒙皮驅(qū)動(dòng)算法需要已知該三維點(diǎn)的蒙皮權(quán)重,因此實(shí)現(xiàn)連續(xù)的空間變形場需要獲得任意空間三維點(diǎn)的蒙皮權(quán)重。如何定義任意三維點(diǎn)的蒙皮權(quán)重和從圖片中預(yù)測蒙皮權(quán)重是數(shù)字人自動(dòng)化建模亟需解決的難點(diǎn)。(3)如何從視頻中重建高質(zhì)量的人體幾何:高精度的數(shù)字人幾何模型是一些數(shù)字人應(yīng)用的基礎(chǔ)。例如影視制作大多會(huì)將虛擬數(shù)字人放置于新的環(huán)境,并根據(jù)環(huán)境光照進(jìn)行數(shù)字人的重光照,實(shí)現(xiàn)數(shù)字人與新環(huán)境的融合。該應(yīng)用要求數(shù)字人在擁有高真實(shí)感外觀的同時(shí)也要有精細(xì)的三維幾何,從而能支持傳統(tǒng)圖形學(xué)的渲染管線達(dá)成高質(zhì)量的重光照。因此,從多視角視頻中建模具有高精度幾何的數(shù)字人在實(shí)際中有著很大的應(yīng)用潛力。雖然神經(jīng)輻射場可以從圖片中恢復(fù)出支持高真實(shí)感渲染的三維場景模型,但該工作難以基于圖片解耦幾何與外觀,導(dǎo)致從神經(jīng)輻射場抽取得到的場景幾何往往比較粗糙,而且空間中容易存在漂浮物。原因在于神經(jīng)輻射場在優(yōu)化過程中缺少對場景幾何的約束,而且一些幾何上的瑕疵容易被外觀所彌補(bǔ)。如何有效約束由神經(jīng)網(wǎng)絡(luò)編碼的三維幾何是重建精細(xì)幾何模型的關(guān)鍵難點(diǎn)。一個(gè)解決思路是引入符號(hào)距離場(signeddistancefunction)[16-18],代替神經(jīng)輻射場中的體素密度表示場景幾何,并施加程函方程(Eikonalequation)來正則化符號(hào)距離場的優(yōu)化過程。然而,如何從視頻中學(xué)習(xí)基于符號(hào)距離場的動(dòng)態(tài)數(shù)字人也是一個(gè)需要探索的研究內(nèi)容。(4)如何實(shí)現(xiàn)動(dòng)態(tài)人體的實(shí)時(shí)渲染:面向動(dòng)態(tài)場景的實(shí)時(shí)高真實(shí)感渲染,是實(shí)現(xiàn)沉浸式虛擬會(huì)議、可交互數(shù)字人、自由視角視頻等應(yīng)用的關(guān)鍵技術(shù)。然而,神經(jīng)輻射場NeRF的渲染速度遠(yuǎn)遠(yuǎn)未能達(dá)到實(shí)時(shí)。其原因在于神經(jīng)輻射場采用了八層全連接神經(jīng)網(wǎng)絡(luò)編碼三維場景,保證神經(jīng)網(wǎng)絡(luò)有足夠的容量記錄場景的幾何和外觀。因?yàn)樯窠?jīng)輻射場的體積渲染過程需要大量次數(shù)的網(wǎng)絡(luò)推理,所以即使是八層全連接網(wǎng)絡(luò)也會(huì)造成較慢的渲染速度。為了突破神經(jīng)輻射場在渲染速度上的局限性,本文提出使用一組小型全連接網(wǎng)絡(luò)共同編碼動(dòng)態(tài)場景,通過讓每個(gè)小型全連接網(wǎng)絡(luò)負(fù)責(zé)場景的每一小塊區(qū)域,實(shí)現(xiàn)了高效且高質(zhì)量的渲染。雖然該方案具有理論上的可行性,但在實(shí)際實(shí)現(xiàn)中需要存儲(chǔ)大量的小型神經(jīng)網(wǎng)絡(luò),導(dǎo)致存儲(chǔ)成本高以及訓(xùn)練時(shí)間長。一種解決思路是使用一個(gè)超網(wǎng)絡(luò)(Hypernetwork)[13,19]記錄大量的小型神經(jīng)網(wǎng)絡(luò),但仍存在兩個(gè)挑戰(zhàn):首先,簡單地借助超網(wǎng)絡(luò)預(yù)測大量小型神經(jīng)網(wǎng)絡(luò)將帶來較大的計(jì)算成本,降低模型推理速度;其次,網(wǎng)絡(luò)參數(shù)通常有非常高的維度,準(zhǔn)確地編碼網(wǎng)絡(luò)參數(shù)要求超網(wǎng)絡(luò)具有高性能的網(wǎng)絡(luò)結(jié)構(gòu)。因此,如何通過超網(wǎng)絡(luò)高效且準(zhǔn)確地預(yù)測小型神經(jīng)網(wǎng)絡(luò)是亟需研究的關(guān)鍵技術(shù)。浙江大學(xué)博士學(xué)位論文第1章緒論51.3本文內(nèi)容與結(jié)構(gòu)研究問題:研究問題:動(dòng)態(tài)三維人體的建模與渲染面臨的挑戰(zhàn)如何從稀疏視角視頻如何從稀疏視角視頻建模動(dòng)態(tài)三維人體如何構(gòu)建可驅(qū)動(dòng)的數(shù)如何構(gòu)建可驅(qū)動(dòng)的數(shù)字人體模型如何從視頻中重建高如何從視頻中重建高質(zhì)量的人體幾何如何實(shí)現(xiàn)動(dòng)態(tài)三維人如何實(shí)現(xiàn)動(dòng)態(tài)三維人體的實(shí)時(shí)渲染第三章基于結(jié)構(gòu)化隱變量的人體神經(jīng)輻射場表示第三章基于結(jié)構(gòu)化隱變量的人體神經(jīng)輻射場表示(CVPR,21,TPAMI,23)第四章基于骨骼蒙皮驅(qū)動(dòng)的人體神經(jīng)輻射場表示(ICCV,21)第五章基于符號(hào)距離場的人體幾何表示(TPAMI,24)第六章基于多層感知機(jī)圖的動(dòng)態(tài)場景表示(CVPR,23)研究應(yīng)用:應(yīng)用:遠(yuǎn)程虛擬會(huì)議、影視制作、非物質(zhì)文化遺產(chǎn)數(shù)字化、游戲建模、數(shù)字孿生、虛擬助手等圖1-2本文的內(nèi)容與結(jié)構(gòu)。本文圍繞動(dòng)態(tài)人體建模與渲染展開研究,通過探索稀疏視角重建、可驅(qū)動(dòng)數(shù)字人、幾何建模、實(shí)時(shí)渲染這四個(gè)數(shù)字人領(lǐng)域的關(guān)鍵問題,實(shí)現(xiàn)從稀疏視角視頻中重建高質(zhì)量可驅(qū)動(dòng)的動(dòng)態(tài)人體模型,并支持動(dòng)態(tài)場景的實(shí)時(shí)渲染。圖1-2總結(jié)了本文主要的研究內(nèi)容,分為:如何構(gòu)建基于隱式神經(jīng)表示的動(dòng)態(tài)人體,并在訓(xùn)練中累積時(shí)序觀測信息,實(shí)現(xiàn)從視頻中重建支持高真實(shí)感渲染的人體模型;如何結(jié)合神經(jīng)輻射場與骨骼蒙皮驅(qū)動(dòng)算法,并有效穩(wěn)定地從輸入數(shù)據(jù)中自動(dòng)獲取基于隱式神經(jīng)表示的蒙皮權(quán)重場,從而構(gòu)建可驅(qū)動(dòng)人體模型;如何基于符號(hào)距離場構(gòu)建動(dòng)態(tài)人體幾何,并使用可微分體積渲染優(yōu)化符號(hào)距離場,從而重建高精度的幾何模型;如何高效地表示一組小型全連接神經(jīng)網(wǎng)絡(luò),并通過超網(wǎng)絡(luò)來準(zhǔn)確地預(yù)測網(wǎng)絡(luò)參數(shù),從而以一組小型神經(jīng)網(wǎng)絡(luò)表示動(dòng)態(tài)場景,降低網(wǎng)絡(luò)預(yù)測的推理成本,實(shí)現(xiàn)實(shí)時(shí)且高真實(shí)感的渲染。本文在結(jié)構(gòu)上分為七個(gè)章節(jié),在本章介紹了研究的背景和意義和研究目標(biāo)與面臨的挑戰(zhàn)。本文后續(xù)章節(jié)的主要內(nèi)容如下:第二章對相關(guān)的研究工作進(jìn)行了綜述。本章首先介紹了三維人體建模的傳統(tǒng)技術(shù),包括基于深度相機(jī)的方法和基于稠密視角陣列的方法。然后,本章介紹了基于深度學(xué)習(xí)的人體建模方法。此類方法通過在真實(shí)三維人體數(shù)據(jù)集上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人體數(shù)據(jù)的先驗(yàn),實(shí)現(xiàn)了從稀疏的人體觀測數(shù)據(jù)中預(yù)測完整人體的三維幾何和外觀。最后,本章介紹了可微分渲染器,以及基于可微分渲染的靜態(tài)場景和動(dòng)態(tài)人體建模與渲染技術(shù)。第三章提出了一種支持稀疏視角重建的動(dòng)態(tài)人體隱式神經(jīng)表示NeuralBody。該人浙江大學(xué)博士學(xué)位論文第1章緒論6體表示基于隱變量模型(Latentvariablemodel)假設(shè)不同視頻幀中觀察得到的人體模型可以被同一組隱變量編碼,并通過可微分渲染優(yōu)化這組隱變量以擬合不同視頻幀中的人體圖片,從而整合了視頻的時(shí)序信息。具體而言,本章預(yù)定義了一組可學(xué)習(xí)的結(jié)構(gòu)化隱變量,即這組隱變量固定在可變形人體參數(shù)模型的頂點(diǎn)上,其空間位置與人體參數(shù)模型的頂點(diǎn)位置綁定,隨人體姿態(tài)的變化而變化。為了生成特定視頻幀下的數(shù)字人體模型,本章首先從輸入的稀疏視角圖片中估計(jì)目標(biāo)人體姿態(tài),然后基于人體姿態(tài)對結(jié)構(gòu)化隱變量的空間位置進(jìn)行變換。最后,本章設(shè)計(jì)了一個(gè)基于三維卷積的神經(jīng)網(wǎng)絡(luò),對變換位置后的結(jié)構(gòu)化隱變量進(jìn)行卷積編碼,提取得到一個(gè)三維特征向量體,隨后預(yù)測任意三維點(diǎn)的體素密度和顏色,即得到了目標(biāo)視頻幀下的數(shù)字人體模型。為了優(yōu)化模型參數(shù),本章通過可微分的體積渲染將數(shù)字人體模型投影為二維圖片,并與目標(biāo)視頻幀下相應(yīng)的觀測圖片做比對,通過最小化渲染誤差以更新結(jié)構(gòu)化隱變量與神經(jīng)網(wǎng)絡(luò)的參數(shù)。為了評估本章方法的有效性,本文創(chuàng)建了一個(gè)多視角數(shù)據(jù)集,稱為ZJU-Mocap。該數(shù)據(jù)集采集了多段動(dòng)態(tài)人體進(jìn)行復(fù)雜運(yùn)動(dòng)的視頻。在所有采集的視頻中,本章提出的方法在自由視角視頻合成方面表現(xiàn)出最先進(jìn)的性能。本章還在公開數(shù)據(jù)集people-snapshot[20]上展示了上述方法可從單目RGB視頻中重建支持高真實(shí)感渲染的數(shù)字人體模型。第四章提出了一種基于骨骼蒙皮驅(qū)動(dòng)算法的可驅(qū)動(dòng)隱式神經(jīng)輻射場AnimatableNeRF,用于表示可驅(qū)動(dòng)數(shù)字人。本章將可驅(qū)動(dòng)數(shù)字人分解為兩個(gè)部分:標(biāo)準(zhǔn)坐標(biāo)系下的人體模型和變換到任意人體姿態(tài)的空間變形場。本文使用隱式神經(jīng)輻射場表示標(biāo)準(zhǔn)人體模型,而通過骨骼蒙皮驅(qū)動(dòng)算法產(chǎn)生連續(xù)的變形場。具體而言,給定多視角視頻,本方法從多視角圖片中預(yù)測三維人體骨架,并使用一個(gè)多層全連接神經(jīng)網(wǎng)絡(luò)表示蒙皮權(quán)重場,用于預(yù)測任意一個(gè)三維點(diǎn)的蒙皮權(quán)重。對于世界坐標(biāo)系下的任意一個(gè)三維點(diǎn),本方法基于骨骼蒙皮驅(qū)動(dòng)算法[21]將蒙皮權(quán)重和三維人體骨架相結(jié)合,得到該三維點(diǎn)的變換矩陣,然后將其從世界坐標(biāo)系變換到標(biāo)準(zhǔn)坐標(biāo)系,最后索引標(biāo)準(zhǔn)坐標(biāo)系下的隱式神經(jīng)輻射場,得到數(shù)字人體模型的外觀和幾何。這種表示方法有兩個(gè)優(yōu)點(diǎn)。首先,由于三維人體骨骼易于預(yù)測[22],因此不需要聯(lián)合優(yōu)化,從而減少了優(yōu)化空間,并對變形場的學(xué)習(xí)提供有效的正則化。其次,通過在標(biāo)準(zhǔn)坐標(biāo)系學(xué)習(xí)額外的蒙皮權(quán)重場,本方法實(shí)現(xiàn)通過輸入人體骨架以顯式地驅(qū)動(dòng)神經(jīng)輻射場。本章在Human3.6M數(shù)據(jù)集[23]和第3章提出的數(shù)據(jù)集ZJU-Mocap上評估了上述所提出的方法。在數(shù)據(jù)集的所有視頻序列上,本文的方法在新視圖合成和新姿態(tài)合成方面表現(xiàn)出最先進(jìn)的性能。浙江大學(xué)博士學(xué)位論文第1章緒論7第五章提出了一種基于符號(hào)距離場的動(dòng)態(tài)人體幾何模型AnimatableSDF來實(shí)現(xiàn)高質(zhì)量幾何重建。相比于第四章中在標(biāo)準(zhǔn)坐標(biāo)系下用神經(jīng)輻射場建模人體的方法,本章提出的模型使用符號(hào)距離場表示標(biāo)準(zhǔn)空間中的人體幾何。與體素密度場相比,符號(hào)距離場在零水平集(Zerolevelset)處具有明確定義的表面,這有助于在優(yōu)化人體幾何的過程中施加直接的正則化。這里的一個(gè)挑戰(zhàn)是如何從視頻中學(xué)習(xí)標(biāo)準(zhǔn)標(biāo)準(zhǔn)坐標(biāo)系下的符號(hào)距離場。球體追蹤(Spheretracing)[16,24]是渲染符號(hào)距離場的經(jīng)典方法。然而,由于世界坐標(biāo)系和標(biāo)準(zhǔn)坐標(biāo)系之間可能存在復(fù)雜的人體運(yùn)動(dòng),因此很難在世界坐標(biāo)系中沿著相機(jī)射線找到表面點(diǎn)。為了解決這個(gè)問題,本章使用骨骼蒙皮驅(qū)動(dòng)算法計(jì)算標(biāo)準(zhǔn)坐標(biāo)系和空間坐標(biāo)系之間的非剛性變換,然后使用基于符號(hào)距離場的體積渲染技術(shù)[17]將動(dòng)態(tài)人體模型渲染到觀測到的圖片空間。本章提出的方法在單目視頻和多視角視頻中進(jìn)行了評估,實(shí)驗(yàn)結(jié)果表明這種新穎的動(dòng)態(tài)人體模型有效提升了幾何重建的精度。第六章提出了一種基于多層感知機(jī)(MLP)圖的神經(jīng)體積視頻表示DYnamicMLPMaps,實(shí)現(xiàn)了動(dòng)態(tài)場景的實(shí)時(shí)渲染。本章提出的方法的關(guān)鍵思想是將動(dòng)態(tài)場景的每一幀表示一組小型全連接神經(jīng)網(wǎng)絡(luò),其參數(shù)存儲(chǔ)在稱為MLP圖的二維圖片中。這個(gè)MLP圖由所有幀共享的二維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測。具體而言,給定一個(gè)多視圖視頻,本渲染方法從中選擇一組視圖并將其輸入到二維卷積編碼器中,以獲得每一個(gè)視頻幀的隱變量,然后二維卷積解碼器從隱變量中回歸得到一張二維圖片。該圖片的每一個(gè)像素存儲(chǔ)一個(gè)小型全連接神經(jīng)網(wǎng)絡(luò)的參數(shù)向量。本章將這樣的二維圖片稱為MLP圖。為了使用MLP圖建模每一幀的三維場景,本方法將三維空間中的任意三維點(diǎn)投影到MLP圖上,得到三維點(diǎn)在MLP圖上的二維投影坐標(biāo),從而從MLP圖索引得到相應(yīng)的全連接神經(jīng)網(wǎng)絡(luò)參數(shù),隨后載入對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu),最后預(yù)測三維點(diǎn)的體素密度和顏色。本渲染方法使用一組小型全連接神經(jīng)網(wǎng)絡(luò)表示三維場景降低了網(wǎng)絡(luò)推理成本,從而顯著提高了渲染速度。此外,相比于存儲(chǔ)每一幀的全連接神經(jīng)網(wǎng)絡(luò)參數(shù),本方法通過一個(gè)共享的二維卷積神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)預(yù)測全連接神經(jīng)網(wǎng)絡(luò)的參數(shù),大大降低了存儲(chǔ)成本。本章在NHR數(shù)據(jù)集[25]和第3章提出的ZJU-Mocap數(shù)據(jù)集上評估了上述提出的渲染方法。這些數(shù)據(jù)集呈現(xiàn)了復(fù)雜運(yùn)動(dòng)的動(dòng)態(tài)場景。在所有數(shù)據(jù)集上,本章提出的方法在渲染質(zhì)量和速度方面表現(xiàn)出了最先進(jìn)的水平,同時(shí)占用的存儲(chǔ)空間較低。實(shí)驗(yàn)表明,本方法的渲染速度比第七章總結(jié)了全文的內(nèi)容,并展望了動(dòng)態(tài)人體建模與渲染領(lǐng)域未來的研究方向。浙江大學(xué)博士學(xué)位論文第1章緒論89浙江大學(xué)博士學(xué)位論文第2章相關(guān)文獻(xiàn)綜述第2章相關(guān)文獻(xiàn)綜述動(dòng)態(tài)三維人體的建模與渲染是計(jì)算機(jī)視覺與圖形學(xué)領(lǐng)域的重要問題,已經(jīng)經(jīng)歷了很多年的發(fā)展。為了從觀測數(shù)據(jù)中創(chuàng)建高質(zhì)量的數(shù)字人,領(lǐng)域內(nèi)的研究人員提出了眾多技術(shù)并取得了令人矚目的成果。本章首先回顧傳統(tǒng)的數(shù)字人建模方法,介紹這些方法的基本步驟和所需的硬件設(shè)備。其次,基于數(shù)據(jù)驅(qū)動(dòng)的方法近年來發(fā)展迅速,已經(jīng)成了數(shù)字人建模領(lǐng)域重要的技術(shù)方向。因此本章對基于數(shù)據(jù)驅(qū)動(dòng)的數(shù)字人建模方法進(jìn)行總結(jié)與歸納。最后,由于可微分渲染技術(shù)是目前數(shù)字人領(lǐng)域熱門的研究思路之一,并且本文的建模技術(shù)也以可微分渲染為基礎(chǔ),因此本章對基于可微分渲染技術(shù)的相關(guān)研究工作進(jìn)行了綜述。表2-1列出了代表性的研究工作。2.1傳統(tǒng)方法傳統(tǒng)的人體建模管線依賴復(fù)雜的硬件設(shè)備來采集目標(biāo)人體的觀測數(shù)據(jù),如多視角圖片、深度信息,從而為重建算法提供足夠的觀測。到目前為止,研究人員已經(jīng)設(shè)計(jì)并建立了各種人體捕捉系統(tǒng)。這些系統(tǒng)通常由大量的相機(jī)組成,這些相機(jī)被精心地?cái)[放在固定的位置,用于捕捉各個(gè)視角下目標(biāo)人體的顏色和深度信息。傳統(tǒng)的重建算法一般分為基于多視圖立體匹配的重建和基于深度融合的重建。通過采集高質(zhì)量的觀測數(shù)據(jù),這兩類算法可以得到高精度的可渲染人體模型。本節(jié)將對這兩類算法分別加以介紹。2.1.1基于多視角相機(jī)陣列的人體建模多視角三維重建[95-97]是一個(gè)廣泛應(yīng)用的三維重建系統(tǒng)。首先,該系統(tǒng)采集目標(biāo)物體在多個(gè)相機(jī)視角下的RGB圖片,然后使用運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)算法(structurefrommotion,sfM)[96]獲得每一張RGB圖片的相機(jī)姿態(tài)。隨后,該系統(tǒng)使用多視圖立體匹配(Multi-viewstereo,MVs)[95,97]計(jì)算每張圖片的深度信息,最后使用深度融合技術(shù)得到目標(biāo)三維網(wǎng)格模型。為了獲得可渲染模型,該系統(tǒng)往往還會(huì)利用表面紋理貼圖[98-99]的方法,將圖片中的觀測映射到網(wǎng)格模型的紋理空間。多視角三維重建系統(tǒng)面臨的主要挑戰(zhàn)是難以準(zhǔn)確恢復(fù)弱紋理區(qū)域的相機(jī)位姿和深度圖,從而難以重建完整的三維網(wǎng)格模型。因?yàn)槿梭w往往有弱紋理區(qū)域,比如頭發(fā)和皮膚,導(dǎo)致基于多視角系統(tǒng)得到的人體模型往往不夠完浙江大學(xué)博士學(xué)位論文第2章相關(guān)文獻(xiàn)綜述表2-1代表性的人體建模方法。傳統(tǒng)方法基于多視角相機(jī)陣列的方法Debevec[8],Relightables[1],collet[9]基于深度相機(jī)的方法DynamicFusion[4]、VolumeDeform[5]、BodyFusion[6]、DoubleFusion[27]、RobustFusion[28]、POSEFusion[29]、Fusion4D[7]、Function4D[30]基于數(shù)據(jù)驅(qū)動(dòng)的方法多邊形網(wǎng)格SMPLify[31]、HMR[32]、cMR[33]、Tex2Shape[34]、Deep-cap[35]、METRO[36]、SPIN[37]、ROMP[38]、HybrIk[39]、PyMAF[40]、Totalcapture[22]、MVPose[41]、zhang[42]、QuickPose[43]、kanazawa[44]、VIBE[45]、HuMoR[46]、MonoPerfcap[47]、Livecap[48]、XNect[49]、SimPoE[50]、GLAMR[51]體素網(wǎng)格BodyNet[52]、DeepHuman[53]、Gilbert[54]、caliskan[55]隱式神經(jīng)表示PIFu[56]、PIFuHD[57]、Geo-PIFu[58]、MonoPort[59]、ARcH[60]、PAMIR[61]、ARcH++[62]、IcON[63]、Huang[64]、StereoPIFu[65]、DoubleField[66]、NHP[67]、DeepMulticap[68]、Function4D[30]基于可微分渲染的方法靜態(tài)場景的建模與渲染NeRF[15]、IDR[17]、NeuS[18]、Mip-NeRF[69360[70][72]soRF[78]、NeRFactor[79]、zhang[80]動(dòng)態(tài)人體的建模與渲染NeuralVolumes[81]、DyNeRF[26]、NHR[25]、Nerfies[82]、NeuralBody[83]、D-NeRF[84]、NeuralActor[85]、Ani-matableNeRF[86]、MVP[87]、FourierPlenOctrees[88]、Shuai[89]、HumanNeRF[90]、Relighting4D[91]、TiNeu-Vox[92]、InstantAvatar[93]、MPS-NeRF[94]浙江大學(xué)博士學(xué)位論文第2章相關(guān)文獻(xiàn)綜述32個(gè)紅外相機(jī)58個(gè)顏色相機(jī)32個(gè)紅外相機(jī)58個(gè)顏色相機(jī)輸入的圖片深度圖圖2-1基于多視角立體匹配的人體建模流程[1]。人體幾何整。為了提升相機(jī)位姿估計(jì)魯棒性和準(zhǔn)確性,schonberger等人[96]提出了一種新穎的增量sfM算法,引入了一系列的幾何驗(yàn)證策略、最佳視角選擇、三角剖分、捆綁調(diào)整和漂移效應(yīng)緩解。而在MVs這一步,schonberger等人[97]基于patchMatch[95]的框架,提出了逐像素選取相機(jī)視角的策略,提升了稠密重建的效果。除了在算法層面提升多視角重建的效果,一些方法[1,8-9]利用復(fù)雜的硬件設(shè)備來提升重建效果。這些研究工作搭建了一個(gè)稠密視角的相機(jī)陣列,將相機(jī)擺放在固定的位置,并通過預(yù)先的相機(jī)標(biāo)定[96]獲得準(zhǔn)確的相機(jī)位姿。比如,TheRelightables[1]構(gòu)建了一個(gè)大的球形穹頂,將58個(gè)高分辨率的RGB相機(jī)均勻擺放在球形穹頂。此外,該方法引入了32了紅外攝像機(jī),用于獲得精度更高的深度圖。通過深度融合技術(shù),該方法獲得了稠密的人體點(diǎn)云,然后通過泊松重建[100]從點(diǎn)云中恢復(fù)出三維網(wǎng)格模型。圖2-1展示了TheRelightables[1]的人體重建流程。在獲得高質(zhì)量人體幾何和外觀的基礎(chǔ)上,Debevec等人[8]進(jìn)一步地恢復(fù)了人體的材質(zhì)屬性,用于重光照(Relighting)等應(yīng)用。該工作[8]設(shè)計(jì)了光場(Lightstage),在稠密相機(jī)陣列上搭載了可編程的光源,從而實(shí)現(xiàn)在預(yù)設(shè)的照明條件下從多個(gè)視角捕捉目標(biāo)人體的圖片,然后從圖片中恢復(fù)人體的材質(zhì)屬性。然而,該工作要求目標(biāo)人體在數(shù)據(jù)采集過程中保持靜止,時(shí)間約為一分鐘。這樣的采集過程對被拍攝者的要求較高,在實(shí)際重建中是一個(gè)比較嚴(yán)重的缺陷。為了捕捉動(dòng)態(tài)人體,TheRelightables[1]首先恢復(fù)出每一時(shí)刻的靜態(tài)人體網(wǎng)格模型,然后匹配不同時(shí)刻的人體網(wǎng)格模型,實(shí)現(xiàn)不同的網(wǎng)格模型共享一個(gè)紋理圖片,從而完成從視頻中恢復(fù)人體的材質(zhì)參浙江大學(xué)博士學(xué)位論文第2章相關(guān)文獻(xiàn)綜述數(shù)。為了提升材質(zhì)參數(shù)的準(zhǔn)確性,該系統(tǒng)使用了331個(gè)可編程的定制LED燈,增加了觀測數(shù)據(jù)的光照多樣性。雖然TheRelightables可以重建出高精度的可渲染人體模型,但這個(gè)系統(tǒng)的弱點(diǎn)也比較明顯。除了該系統(tǒng)所用的硬件設(shè)備非常復(fù)雜之外,其算法計(jì)算成本也很高,重建一個(gè)10秒的視頻大約需要8個(gè)小時(shí)。2.1.2基于深度相機(jī)的人體建模盡管基于多視角RGB相機(jī)陣列的人體重建取得了很好的效果,但此類系統(tǒng)漫長的計(jì)算時(shí)間無法應(yīng)用于一些需要即時(shí)交互的應(yīng)用中,比如遠(yuǎn)程會(huì)議、AR/VR游戲。為了降低計(jì)算成本、實(shí)現(xiàn)實(shí)時(shí)重建,研究人員已經(jīng)提出了一系列基于深度相機(jī)的人體建模技術(shù)[4-6,27-30,101]。作為此類方法的開創(chuàng)性工作,DynamicFusion[4]實(shí)現(xiàn)了通過一個(gè)深度相機(jī)重建動(dòng)態(tài)人體模型。具體而言,該工作使用深度相機(jī)獲得目標(biāo)人體每一時(shí)刻的深度圖,并將深度圖反投影得到世界坐標(biāo)系下的點(diǎn)云。DynamicFusion將第一幀的點(diǎn)云轉(zhuǎn)為三維網(wǎng)格作為標(biāo)準(zhǔn)坐標(biāo)系下的人體模型,而且在人體網(wǎng)格上定義變形圖(Deformationgraph)[102]用于表示人體運(yùn)動(dòng)。當(dāng)新的一幀點(diǎn)云輸入時(shí),該方法首先將點(diǎn)云與前一時(shí)刻的人體模型建立稠密匹配,然后基于該的匹配結(jié)果構(gòu)建能量函數(shù),隨后通過最小化能量函數(shù)來優(yōu)化得到變形圖的參數(shù),從而將前一時(shí)刻的人體模型變形到最新時(shí)刻,最后使用TSDFFusion算法[103]將點(diǎn)云融入人體模型中。通過不斷地融合時(shí)序輸入的深度圖,該工作得到完整且精準(zhǔn)的人體模型。然而,DynamicFusion往往無法穩(wěn)定地重建快速移動(dòng)的人體。這是因?yàn)楫?dāng)人體快速運(yùn)動(dòng)時(shí),深度相機(jī)獲得的深度圖與前一時(shí)刻的人體模型的偏移較大,導(dǎo)致難以建立準(zhǔn)確的匹配。而且深度圖可能與前一時(shí)刻的人體模型重合面積較少,以至于無法優(yōu)化得到正確的變形圖。為了克服這個(gè)問題,DoubleFusion[27]引入了人體參數(shù)化模型SMPL[104]用于捕捉粗糙的人體運(yùn)動(dòng),并以此作為正則項(xiàng)約束變形圖的優(yōu)化過程,防止優(yōu)化陷入局部最優(yōu)解。雖然DobuleFusion實(shí)現(xiàn)了快速運(yùn)動(dòng)人體的重建,但該工作仍然無法很好地重建運(yùn)動(dòng)中的寬松衣物。這是因?yàn)镾MPL模型沒有建模衣物的運(yùn)動(dòng),導(dǎo)致無法正確地正則化寬松衣物的變形圖的優(yōu)化過程。其他的一些研究工作[7,105]利用硬件設(shè)備解決DynamicFusion遇到的問題。比如,Fusion4D[7]架設(shè)了多個(gè)深度相機(jī)用于獲得多個(gè)視角的深度圖,實(shí)現(xiàn)基于一個(gè)時(shí)刻的觀測即可重建出較為完整的人體模型,因此前后兩個(gè)時(shí)刻的模型匹配和變形圖估計(jì)也變得相對準(zhǔn)確和穩(wěn)定。而Motion2Fusion[105]使用高速深度傳感器拍攝目標(biāo)浙江大學(xué)博士學(xué)位論文第2章相關(guān)文獻(xiàn)綜述人體,通過提高幀率減小了兩幀之間的人體運(yùn)動(dòng)幅度,從而能更精確地恢復(fù)出變形圖。為了簡化采集設(shè)備,RobustFusion[106]引入了數(shù)據(jù)驅(qū)動(dòng)的模型重建算法,從單目RGB-D圖片中恢復(fù)出完整的人體模型,用于幫助前后兩幀人體點(diǎn)云的匹配與融合。該工作實(shí)現(xiàn)了基于單目RGB-D相機(jī)的動(dòng)態(tài)人體高質(zhì)量重建。盡管基于深度相機(jī)的建模方法可以獲得實(shí)時(shí)地重建高質(zhì)量的可渲染人體模型,但深度傳感器只適用于室內(nèi)場景。這個(gè)問題很大程度地限制了此類重建技術(shù)的廣泛應(yīng)用。近年來,隨著深度學(xué)習(xí)的發(fā)展,數(shù)字人領(lǐng)域的研究人員開始探索深度學(xué)習(xí)技術(shù),通過數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)人體幾何和外觀的先驗(yàn),實(shí)現(xiàn)從更少的觀測數(shù)據(jù)中重建完整的人體模型,從而減少了對采集設(shè)備的要求。2.2基于數(shù)據(jù)驅(qū)動(dòng)的方法為了降低人體建模的成本、提升建模系統(tǒng)的易用性,近年來的研究工作[53,56-57,107]嘗試使用深度學(xué)習(xí)技術(shù)從稀疏的相機(jī)視角中預(yù)測人體的幾何和外觀。這些研究工作表明,深度神經(jīng)網(wǎng)絡(luò)可以從三維真實(shí)數(shù)據(jù)(Ground-truthdata)中學(xué)習(xí)得到三維人體模型的分布,并利用這一分布從不完整的觀測(單目RGB圖片、稀疏點(diǎn)云)中估計(jì)完整的人體模型。目前大多數(shù)研究工作主要采用三類的人體表示,包括多邊形網(wǎng)格(Mesh)、體素網(wǎng)格(voxelgrid)、隱式神經(jīng)表示(Implicitneuralrepresentation)。本節(jié)根據(jù)三維人體表示對基于數(shù)據(jù)驅(qū)動(dòng)的人體建模方法進(jìn)行分類。2.2.1多邊形網(wǎng)格表示多邊形網(wǎng)格(Mesh)在計(jì)算機(jī)圖形學(xué)中被廣泛應(yīng)用。人體建模領(lǐng)域中常見的多邊形網(wǎng)格表示是參數(shù)化人體模型[104,108-109]。此類模型使用一組低維的參數(shù)向量表示三維人體,因此較為容易被神經(jīng)網(wǎng)絡(luò)擬合其分布,在單目人體重建等任務(wù)中具有很強(qiáng)的泛化能力。經(jīng)過多年的發(fā)展,研究人員已經(jīng)提出了很多種參數(shù)化人體表示,大體可分為三類:基于三角變形的模型[110-111]、基于頂點(diǎn)偏移的模型[104,108,112]、基于神經(jīng)網(wǎng)絡(luò)的模型[109,113-119]。這些模型通常定義了一個(gè)基準(zhǔn)的三維網(wǎng)格,通過變形網(wǎng)格來得到不同姿態(tài)下的人體模型?;谌亲冃蔚哪P蛯W(wǎng)格三角面片施加變形函數(shù)以得到目標(biāo)姿態(tài)下的人體,而基于頂點(diǎn)偏移的模型將網(wǎng)格頂點(diǎn)作為變形對象。一些研究工作[109,113-114]使用深浙江大學(xué)博士學(xué)位論文第2章相關(guān)文獻(xiàn)綜述度編解碼架構(gòu)回歸三維網(wǎng)格的變形函數(shù),從而表示更精細(xì)的人體模型。SMPL模型[104]是一種基于頂點(diǎn)偏移的參數(shù)化人體模型,因?yàn)槠溥m用于傳統(tǒng)圖形學(xué)的渲染流程,并且計(jì)算效率較高,所以被人體建模領(lǐng)域的研究工作廣泛使用。具體而言,該模型是一個(gè)由形狀(Shape)和姿態(tài)(Pose)參數(shù)決定的函數(shù),其輸出是一個(gè)具有6890個(gè)頂點(diǎn)的三維網(wǎng)格模型。SMPL模型定義了一個(gè)基準(zhǔn)的三維網(wǎng)格模型。為了表示不同形狀的人體,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論