綜合金融服務(wù)行業(yè)生成式AI下一顆最閃亮的星:視頻+引擎_第1頁
綜合金融服務(wù)行業(yè)生成式AI下一顆最閃亮的星:視頻+引擎_第2頁
綜合金融服務(wù)行業(yè)生成式AI下一顆最閃亮的星:視頻+引擎_第3頁
綜合金融服務(wù)行業(yè)生成式AI下一顆最閃亮的星:視頻+引擎_第4頁
綜合金融服務(wù)行業(yè)生成式AI下一顆最閃亮的星:視頻+引擎_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2023年10月15日生成式AI下一顆最閃亮的星:視頻+引擎請(qǐng)務(wù)必閱讀正文之后的信息披露和免責(zé)申明模和視頻更重要的在于和傳統(tǒng)工具與工作流的結(jié)合。請(qǐng)務(wù)必閱讀正文之后的信息披露和免責(zé)申明1、生成式AI在視頻/3D/游戲等領(lǐng)域的滲透加速2、生成式AI下游應(yīng)用場景展望3、風(fēng)險(xiǎn)提示請(qǐng)務(wù)必閱讀正文之后的信息披露和免責(zé)申明1.1生成算法模型不斷突破創(chuàng)新,下游應(yīng)用場景不斷拓展基礎(chǔ)的生成算法模型不斷突破創(chuàng)新,基礎(chǔ)能力日新月異,從圖像向視頻和3D擴(kuò)展,更廣泛地應(yīng)用于下游應(yīng)生成對(duì)抗網(wǎng)絡(luò)(GAN)是早期最著名的生成模型之一,盡管在圖像生成上產(chǎn)生了卓越的效果,但其訓(xùn)練常常受到梯度消失和模式崩等),訓(xùn)練時(shí)僅需模仿一個(gè)簡單的前向過程對(duì)應(yīng)的逆過程,實(shí)現(xiàn)簡練過程的簡化。擴(kuò)散模型相對(duì)GAN來說具有更靈活的模型架構(gòu)和更精確的對(duì)數(shù)似然計(jì)算,生成圖像質(zhì)量明顯優(yōu)于GAN,已經(jīng)成-圖像數(shù)據(jù)的大規(guī)模數(shù)據(jù)集上訓(xùn)練出視頻擴(kuò)散模型。NeRF(神經(jīng)輻射場)的出現(xiàn)為3D場景生成帶來了新的可能性,進(jìn)一步拓寬生成算法領(lǐng)域下游的應(yīng)用場景。NeRF(NeuralRadianceField)是一種基于神經(jīng)網(wǎng)絡(luò)的3D重建技術(shù),不同于傳統(tǒng)的三維重建方法把場景表示為點(diǎn)云、網(wǎng)格、體素等顯NeRF將場景建模成一個(gè)連續(xù)的5D輻射場隱式存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)中,輸入多角度的2D圖像,通過訓(xùn)練得到神經(jīng)輻射場模型,根據(jù)模圖:生成式算法模型對(duì)比GANsNeRF生成對(duì)抗網(wǎng)絡(luò)(GAN)是一種深度學(xué)習(xí)模型,通過同基于2D圖像輸入,將3D場景展現(xiàn)為一組可以學(xué)習(xí)且連續(xù)的神經(jīng)輻射場,不直接生成3D模型,而是由輸入清晰的數(shù)據(jù)樣本,質(zhì)量明顯優(yōu)于GANs模型GAN的訓(xùn)練過程需要生成器和額外的判別器,且穩(wěn)定應(yīng)用場景GANs常用于圖像生成、圖像超分辨率、風(fēng)格遷移等4資料來源:NeRF:RepresentingScenesasNeuralRadianceFieldsforViewSynthesis(BMildenhall等GenerativeAImeets3D:ASurveyonText-to-3D),41.2Runway:生成式AI內(nèi)容平臺(tái),Gen-1可實(shí)現(xiàn)用文字和圖像從現(xiàn)有視頻中生成新視頻Runway是一家生成式AI內(nèi)容平臺(tái),致力于讓所有人都能進(jìn)行內(nèi)容多資本青睞,獲得谷歌領(lǐng)投的D輪融資。創(chuàng)立以來,Runway已獲得Felicis、Coatue、投的1億美元的D輪融資,這筆融資交易包括三年內(nèi)7500萬美元的谷歌云積分和其他服務(wù),估值達(dá)到15億美元。主要產(chǎn)品為Gen-1和Gen-2,Gen-1可實(shí)現(xiàn)用文字和圖像從現(xiàn)有視頻中生成新視頻,Gen-2可實(shí)現(xiàn)文字生成視頻功能。Gen-1:不需要燈光、相機(jī)和動(dòng)捕,通過將圖像或文本提示的結(jié)構(gòu)和風(fēng)格應(yīng)用于源視風(fēng)格轉(zhuǎn)移到視頻的每一幀;2)Storyboard:將模型變成完全風(fēng)格化和動(dòng)畫的渲染。3)Mask:隔離視頻中的主題并使用簡單的文本提示對(duì)其進(jìn)行修改;4)Render:通過應(yīng)Gen-1的性能優(yōu)勢(shì):基于用戶研究,GEN-1的結(jié)果優(yōu)于現(xiàn)有的圖像到圖像和視頻到視頻的轉(zhuǎn)換方法,比StableDiffusion1.5提升73.83%,比Text2Live提升88.24%。圖:Gen-1和Gen-2生成的作品Mask(下)51.2Runway:生成式AI內(nèi)容平臺(tái),最新產(chǎn)品Gen-2可實(shí)現(xiàn)文字生成視頻功能Gen-2在Gen-1的基礎(chǔ)上迭代,保留通過將圖像或文本提示的結(jié)構(gòu)和風(fēng)格應(yīng)用于源視Gen-2已于2023年6月上線,用戶可以通過網(wǎng)頁端和移動(dòng)端App免費(fèi)體驗(yàn)文字生成視credits)、更長的視頻長度、更高的分辨率等。圖:Gen-2創(chuàng)作界面:直接通過文字生成約4秒的視頻圖:Gen-2新增的三種模式演示:TexttoVideo(上)、Text+61.2Runway技術(shù)路徑剖析:Gen-1基于擴(kuò)散模型的視頻生成技術(shù)擴(kuò)散模型是一種概率生成模型,通過添加噪聲逐步解構(gòu)數(shù)計(jì),旨在將數(shù)據(jù)分布轉(zhuǎn)換為一個(gè)簡單的先驗(yàn)分布(例如,標(biāo)準(zhǔn)高斯分布)而后者的馬爾科夫鏈通過學(xué)習(xí)由深度神經(jīng)網(wǎng)絡(luò)參數(shù)化的轉(zhuǎn)換核來逆轉(zhuǎn)前者。新的數(shù)據(jù)點(diǎn)隨后通過首先從先驗(yàn)分布中抽樣一個(gè)隨機(jī)圖:擴(kuò)散模型(DiffusionModel)通過添加噪聲對(duì)數(shù)據(jù)進(jìn)行平滑擾動(dòng),然后反轉(zhuǎn)這一過程來生成新數(shù)據(jù)。1.2Runway技術(shù)路徑剖析:Gen-1-基于擴(kuò)散模型的視頻生成技術(shù)Gen-1提出了一個(gè)可控的結(jié)構(gòu)和內(nèi)容感知的視頻擴(kuò)散模型,將時(shí)間層引入預(yù)訓(xùn)練的圖像模型,將擴(kuò)散模型擴(kuò)展到視頻生成,在大規(guī)模的未標(biāo)注視頻和配對(duì)的文本-圖像數(shù)據(jù)上進(jìn)行訓(xùn)練。Gen-1用單眼深度估計(jì)來表示結(jié)構(gòu),用預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)預(yù)測的嵌入來表示內(nèi)容。編輯完全在推理時(shí)進(jìn)行,無需額外的每個(gè)視頻訓(xùn)練或預(yù)Gen-1實(shí)現(xiàn)了對(duì)時(shí)間、內(nèi)容和結(jié)構(gòu)一致性的完全控制,首次展示了在圖像和視頻數(shù)據(jù)上聯(lián)合訓(xùn)練可以在推理時(shí)控制時(shí)間一致性。對(duì)于結(jié)圖:Gen-1在保持輸入視頻(中間)的結(jié)構(gòu)的同時(shí),通過文本(上)或圖像(下)描述的內(nèi)容來指導(dǎo)視頻(上和下)的合成。Gen1視頻生成技術(shù)的實(shí)現(xiàn)路徑資料來源:StructureandContent-GuidedVideoSynthesiswithDiffusionModels(PEsser等DiffusionModels:AComprApplications(LYang)等,天風(fēng)證券研究所8圖:LumaAI視頻轉(zhuǎn)3D功能演示圖:LumaAI視頻轉(zhuǎn)3D功能演示3D視覺、機(jī)器學(xué)習(xí)、實(shí)時(shí)圖形學(xué)上有所建樹:CCofounderAlexYu致力于推動(dòng)神經(jīng)渲染和實(shí)時(shí)圖形領(lǐng)域的發(fā)展,研究成果包括Plenoxels、PlenOctrees和pixelNeRF。文生3D模型功能;23年1月iOS版App開始支持NeRFReshoot;23年2月推出網(wǎng)頁版全體積NeRF渲染器;23年3年iOS版App支持AR預(yù)覽,同月推UnrealEnginealpha,幫助開發(fā)者在Unreal5中進(jìn)行完全體積化的渲染,無需對(duì)幾何結(jié)構(gòu)或材LumaApp:目前只推出iOS客戶端,可以通過iPhone上傳視頻,基于NeRF生成3D場景。拍攝位置;自由模式,支持非360度(部分視角)拍攝,App不會(huì)給出明確提示框,需要盡可能圖:LumaAI文字轉(zhuǎn)3D模型產(chǎn)品演示圖:LumaAI文字轉(zhuǎn)3D模型產(chǎn)品演示API:效果基本和網(wǎng)頁版一致。收費(fèi)模式為按次收費(fèi),轉(zhuǎn)換一個(gè)視頻費(fèi)用為1美元,轉(zhuǎn)換時(shí)間在9),和渲染逼真的3D場景。NeRF可以從任何新視角生成2D圖像,而無需生成完整的傳統(tǒng)3D模型圖:NeRF通過周圍半球上隨機(jī)捕獲的100個(gè)架子鼓的輸入視圖,呈現(xiàn)了架子鼓的兩個(gè)新視圖。技術(shù)原理:通過場景投射相機(jī)光線以生成一組采樣的3D點(diǎn)使用這些點(diǎn)及其對(duì)應(yīng)的2D觀察方向作為神經(jīng)網(wǎng)絡(luò)的輸入,以輸出一組顏色和密度值使用體渲染技術(shù)將這些顏色和密度累積成任意角度的2D圖像該過程自然可微,可以采用梯度下降的方式,即最小化每個(gè)觀察到的圖像和表示的相應(yīng)視圖之間的誤差來優(yōu)化這個(gè)小化這個(gè)誤差即可以預(yù)測出一個(gè)連貫的場景模型,將體圖:NeRF場景表示和可微分渲染程序的概述(b)將這些位置輸入到一個(gè)MLP中以產(chǎn)生顏色和(d)通過最小化合成圖像和真實(shí)觀察圖像之間的殘差來進(jìn)資料來源:NeRF:RepresentingScenesasNeuralRadianceFieldsforViewSynthesis(BMildenhall等),天風(fēng)證券研究所對(duì)比來看,多邊形光線追蹤(PolygonRaytracing)以高幀率渲染高分辨率和真實(shí)的場景,需要昂貴的圖形卡。LumaAI與Epic合作將NeRF引入了UnrealEngine實(shí)現(xiàn)實(shí)時(shí)渲染,可應(yīng)用于游戲和電影應(yīng)用UnrealEngine是一款強(qiáng)大的游戲開發(fā)引擎,被廣泛用于視頻游戲制作,電影和電視業(yè)、建LumaUnrealEngine插件使用戶可以將這些LumaField文件導(dǎo)入U(xiǎn)nrealEngine5,該插件可以將這些LumaField文件導(dǎo)入到虛幻引擎中作為環(huán)境使用,自動(dòng)生成一組用戶可以從捕獲的場景中選擇照明或從虛幻引擎場景中選擇動(dòng)態(tài)照?qǐng)D:NeRF場景重建后導(dǎo)出至UnrealEngine再創(chuàng)作資料來源:GenerativeAImeets3D:ASurveyonText-to-3DinAIGCErUnity是一家全球領(lǐng)先的制作和運(yùn)營交互式實(shí)時(shí)3D引擎公司。收購ironSource之后,其主營業(yè)務(wù)包括與開發(fā)相關(guān)的引擎類產(chǎn)品Create和與廣告營陸并支持蘋果IOS平臺(tái)、OS平臺(tái)、Windows平臺(tái)等,伴隨著iPhone以及整個(gè)移動(dòng)互聯(lián)網(wǎng)的發(fā)一一個(gè)將AI模型嵌入到實(shí)時(shí)3D引擎中的跨平臺(tái)解決方案。Sentis在用戶的設(shè)備而非云端運(yùn)行程開發(fā)進(jìn)程和提供解決方案。Replica,Atlas等,涵蓋圖像生成,人工智能對(duì)話,以及投資領(lǐng)域等。圖:UnityMuse模型執(zhí)行自然語言“后空翻”指令圖:AppleVisionPro產(chǎn)品介紹圖2023年6月,Apple發(fā)布了旗下首款圖:AppleVisionPro產(chǎn)品介紹圖命性的空間計(jì)算設(shè)備,突破了傳統(tǒng)顯示屏的限制,為用戶帶來全新的3D交互體驗(yàn)。VisionPro搭載了全球首創(chuàng)的空間操作系統(tǒng)visionOS,該系統(tǒng)通過用戶與數(shù)字內(nèi)容互動(dòng)的模式,讓數(shù)字內(nèi)容如同存在于真實(shí)世界。Unity作為本次大會(huì)上公布的ApplevisionOS原生合作方之一,為全新發(fā)布的Apple意味著除了ARFoundation和XRInteractionToolkit等廣為人知的功能外,開發(fā)者還能在自己的應(yīng)用中加入諸如Pass-through(穿透)和DynamicFoveatedRendering(動(dòng)通過Unity新的PolySpatial技術(shù)與visionOS之間深度集成,應(yīng)用程序可以在共享空間(SharedSpace)中與其他應(yīng)用程序一起運(yùn)行。并且通過將Unity的創(chuàng)作工具與RealityKit的托管應(yīng)用渲染相結(jié)合,開發(fā)者將能輕松使用Unity在圖:UnityXR交互系統(tǒng)者可使用他們熟悉的強(qiáng)大框架著手構(gòu)建visionOSapp,并利用RealityComposerPro等新的創(chuàng)新工具和技術(shù)進(jìn)一發(fā)者關(guān)系副總裁SusanPrescott表示,“空間計(jì)算技術(shù)利全新方式幫助用戶聯(lián)絡(luò)彼此、提升效率、享受新型娛樂。我們迫不及待地想見證開發(fā)者社區(qū)的奇思妙想。”1.5OpenAI:3D生成技術(shù)Point-E與Shap-E的更新迭代圖:Point-E與圖:Point-E與Shap-E對(duì)比圖Point-E本身包括兩個(gè)模型:GLIDE模型和image-to-3D模型。前者類似于DALL-E或StableDiffusion等系統(tǒng),可以從文本描述生成圖像。第二個(gè)模型由OpenAI使用圖像和相關(guān)的3D物體進(jìn)行訓(xùn)練,學(xué)習(xí)從圖像中生成相應(yīng)的點(diǎn)圖:使用給定的文本提示由Point-E生成的點(diǎn)云2023年5月,OpenAI再次發(fā)布了一款升級(jí)模型Shap-E。Shap-E的訓(xùn)練分兩個(gè)階段:相比基于點(diǎn)云的顯式生成模型Point-E,Shap-E直接生成隱函數(shù)的參數(shù)來渲染紋理網(wǎng)格和神經(jīng)輻射場,收斂速度更快,在更高維的多圖:使用給定的文本提示由Shap-E生成的條件網(wǎng)格資料來源:Point·E:ASystemforGenerating3DPointCloudsfromComplexPrompts(AlexNichol等Shap·E:GeneratingConditional3DImplicitFunctions(HeewooJun&AlexNichol),天風(fēng)證券研究所Point-E:基于目前主流的兩種text-to-3D模型進(jìn)行融合嘗試,結(jié)合了文本-圖像模型與圖像-三維模型這兩類方法的優(yōu)點(diǎn)。使用文本到圖像的擴(kuò)散模型生成一個(gè)單一的合成視圖,然后使用第二個(gè)擴(kuò)散模型生成一個(gè)三維點(diǎn)云,該模型以生成的圖像為條件。Point-E在采樣質(zhì)量方面達(dá)不到最先進(jìn)的水平,但它的采樣速度要快一到兩個(gè)首先,對(duì)來自數(shù)據(jù)集的渲染3D模型進(jìn)行了微調(diào),使用30億參數(shù)的GLIDE模型,生成一接下來,使用一個(gè)有條件的、排列不變的擴(kuò)散模型,在合成視圖的辨率點(diǎn)云(1024個(gè)點(diǎn))。最后,在低分辨率點(diǎn)云和合成視圖的條件下,生成一個(gè)精細(xì)點(diǎn)云(4096個(gè)點(diǎn))。圖:圖:Point-E管道的簡要概述圖:Point-E的點(diǎn)云擴(kuò)散模型架構(gòu)圖:Point-E模型被誤用的例子Point-E模型的技術(shù)優(yōu)勢(shì):Point-E可以在短時(shí)間內(nèi)產(chǎn)生樣本,較此前的先進(jìn)Point-E的兩個(gè)步驟可以在幾秒鐘內(nèi)完成,不需要Point-E假設(shè)圖像包含來自文本的相關(guān)信息,無需Point-E模型的技術(shù)缺陷:模型具有一定的偏差,如DALL·E2系統(tǒng),其中的許多資料來源:Point·E:ASystemforGenerating3DPointCloudsfromComplexPrompts(AlexNichol等),天風(fēng)證券研究所3D編碼器:給定一個(gè)已知三維資產(chǎn)的稠密顯式如下圖編碼器架構(gòu)所示,給編碼器提供點(diǎn)云和三維資產(chǎn)的渲染視圖,輸出多層感知器(MLP)的參數(shù),將資產(chǎn)表示為一個(gè)隱式函數(shù)。Shap-E只用NeRF渲染目標(biāo)對(duì)編碼器進(jìn)行預(yù)訓(xùn)練,因?yàn)檠芯咳藛T在實(shí)驗(yàn)中發(fā)現(xiàn)這個(gè)操作比基于網(wǎng)格(mesh-based)的目標(biāo)潛表征為shape1024×1024的序列,可以將其作為1024個(gè)token的序列送入Transformer,其中每個(gè)token對(duì)應(yīng)于MLP權(quán)重矩陣的不同行。因此,該模型在計(jì)算上與基本的Point-E模型大致相當(dāng)(即具有相同的上下文長度和寬度),同時(shí)由于輸入和輸出通文本條件下,Shap-E在CLIPR-precision和CLIP分?jǐn)?shù)兩個(gè)指標(biāo)上都比Point-E模型有所提高。圖像條件下,Shap-E和Point-E模型達(dá)到了大致相同的最終評(píng)估性能,Shap-E在CLIP圖:Shap-E的編碼器架構(gòu)R-precision方面略有優(yōu)勢(shì),在CLIP分?jǐn)?shù)方面略有劣勢(shì)。這表明顯式和圖:圖像條件下Point-E與Shap-E的比較資料來源:Shap·E:GeneratingConditional3DImplicitFunctions(HeewooJun&AlexNichol),天風(fēng)證券研究所NVIDIApicassoserviceNVIDIApicassoservice3DMoMa:從二維圖像中提取三維物體。2022年6月,NVIDIA推出3DMoMa,可通過圖像輸入生成三角網(wǎng)格組成的3D模型,并可直接導(dǎo)入圖形引擎。這項(xiàng)方案的重點(diǎn)是,可直接導(dǎo)入支持三角形建模的3D建模引擎、游戲引擎、電影渲染器,可以在手機(jī)、瀏覽器上運(yùn)行。3DMoMa生成的3D模型自帶三角形網(wǎng)格,將3D模型生成自動(dòng)化,將有望加速藝術(shù)、游戲、影視等內(nèi)容創(chuàng)作。Magic3D:高分辨率的文本到3D內(nèi)容創(chuàng)建技術(shù)。2022年11月,英偉達(dá)推出Magic3D,采用了與DreamFusion類似的兩段式生成技術(shù)路線,但使用不同的生成模型。Magic3D可以在40分鐘內(nèi)創(chuàng)建高質(zhì)量的三維網(wǎng)格模型,比DreamFusion快2倍,并實(shí)現(xiàn)了更高的分辨率NVIDIAPicasso:用于構(gòu)建生成式AI視覺應(yīng)用程序的云服務(wù)。2023年3月,英偉達(dá)推出NVIDIAPicasso,企業(yè)、軟件創(chuàng)建者和服務(wù)提供商可以在其模型上運(yùn)行推理,在專有數(shù)據(jù)上訓(xùn)練NVIDIAEdify基礎(chǔ)模型,或者從預(yù)訓(xùn)練的模型開始,從文本提示生成圖像、視頻和3D內(nèi)容。Picasso服務(wù)針對(duì)GPU進(jìn)行了全面優(yōu)化,并在NVIDIADGXCloud上簡化了訓(xùn)練、優(yōu)化和推理。此外,NVIDIA也與Adobe、GettyImages、Shutterstock等企業(yè)進(jìn)行了合作,共同開發(fā)NVIDIAPicasso模型。圖:Neuralangelo:高保真的神經(jīng)表面重建技術(shù)。2023年6月,英偉達(dá)提出了Neuralangelo,將多分辨率3D哈希網(wǎng)格的表示能力與神經(jīng)表面渲染相結(jié)合,該方法由兩個(gè)關(guān)鍵成分實(shí)現(xiàn):1)用于計(jì)算高階導(dǎo)數(shù)的數(shù)值梯度作為平滑操作;2)對(duì)控制不同細(xì)節(jié)級(jí)別的哈希網(wǎng)格進(jìn)行粗-細(xì)優(yōu)化。即使沒有輔助深度,Neuralangelo也可以有效地從多視圖圖像中恢復(fù)密集的3D表面結(jié)構(gòu),其保真度顯著超過之前的方法,可以從RGB視頻捕獲中進(jìn)行詳細(xì)的大規(guī)模場景重建。圖:NVIDIAPicasso運(yùn)行機(jī)制示意圖資料來源:NVIDIA官網(wǎng),ExtractReconstruction(ZLi等FranksWorld,青亭網(wǎng)公眾號(hào),天風(fēng)證券研究所):它特別之處在于,通過采用“即時(shí)神經(jīng)圖形基元”3)使用三個(gè)優(yōu)化目標(biāo)(RGB合成損失、Eikonal損失、曲率損失)進(jìn)行優(yōu)化。圖:NeuralAngelo使用數(shù)值梯度來計(jì)算高階導(dǎo)數(shù)資料來源:ExtractingTriangular3DReconstruction(ZLi等),天風(fēng)證券研究所1.7Apple:發(fā)布3D生成APIObjectCapture與3D場景生成模型GAUDI2021年6月,蘋果發(fā)布了面向Mac的攝影測量API“ObjectCapture”。AppleObjectCapture以將物理對(duì)象轉(zhuǎn)換為數(shù)字對(duì)象。使用iPhone或iPad,可Monterey上新的對(duì)象捕獲API將其轉(zhuǎn)換為針對(duì)增強(qiáng)現(xiàn)實(shí)(AR)進(jìn)行優(yōu)化的3D模型。物體捕捉功能使用攝影測量技術(shù)將iPhone或iPad上拍攝的一系列照片轉(zhuǎn)換為USDZ文件,這些文件可以在“AR快速查看”中查看,無縫整合到Xcode項(xiàng)目中,或在專業(yè)的3D內(nèi)容工作流程中使用。2022年7月,來自蘋果的AI團(tuán)隊(duì)推出了3D場景生成的最新神經(jīng)架構(gòu)——GAUDI。GAUDI是一了一種可擴(kuò)展但強(qiáng)大的方法來解決這個(gè)具有挑戰(zhàn)性的問題。研究人員首先優(yōu)化一個(gè)隱表征,將輻射場景。GAUDI在多個(gè)數(shù)據(jù)集的無條件生成設(shè)置中取得了sota的性能,并允許在給定條件變量(如稀疏的圖像觀測或描述場景的文本)的情況下有條件地圖:GAUDI效果演示資料來源:GAUDI:ANeuralArchitectforImmersive3D圖:ObjectCapture作用機(jī)制演示ObjectCapture主要基于Swift編程語言構(gòu)建,并通過RealityKit2(蘋果的新一代AR引擎)在macOSMonterey上運(yùn)行。ObjectCapture的實(shí)現(xiàn)基于多張圖片或視頻流的數(shù)據(jù),機(jī)視覺分析,從而創(chuàng)建高質(zhì)量的3D模型。這種技術(shù)利用了蘋果公司設(shè)備的攝像頭和傳感器,以及強(qiáng)大的硬件和軟件性能,能夠快速一是潛在和網(wǎng)絡(luò)參數(shù)的優(yōu)化:為每個(gè)示例x∈X獲取一個(gè)潛在表示z=[zscene,zpose],用于表達(dá)場景輻射場和在單獨(dú)的解糾纏向量中的位姿。個(gè)場景有效的相機(jī)姿態(tài)進(jìn)行編碼。二是使用擴(kuò)散模型在潛在表示上學(xué)習(xí)生成模型:給定一組潛在的Z={zi∈{0,...,n}},學(xué)習(xí)分布p(Z),從而能夠在有條件和無條件的推理任務(wù)中都能很好地建模。前者是根據(jù)文本或圖像提示來生成3D場景,后者則是根圖:GAUDI解碼器模型架構(gòu)圖:GAUDI擴(kuò)散模型架構(gòu)Drive直接運(yùn)行,也可以部署到本地運(yùn)行。它利用了一種名為CLIP-GuidedDifDreamFields是由Google團(tuán)隊(duì)在2022年所推出的3DAIGC模型?;驹硎菍penAI的圖像分析模型CLIP與神經(jīng)輻射場(NeRF)相結(jié)合,再利用了Nerf進(jìn)行3D視圖的生成,再通過Clip判斷其生成的模型是否達(dá)到效果,本質(zhì)上就是通過CLIP/DALL-E+NeRF來實(shí)現(xiàn)其3D內(nèi)容的生成。圖:DreamFields通過詳細(xì)的標(biāo)題來表達(dá)特定的藝術(shù)風(fēng)格圖:DreamFusion從文本提示中生成仿真的三維模型資料來源:Zero-ShotText-GuidedObjectGenerationwithDreamFields(AJain等DREAMFUSION:TEXT-TO-3DUSING2DDIFFUSION(B估文本生成圖像的準(zhǔn)確性。文本輸入至DreamFields后,未訓(xùn)練的NeRF模型會(huì)從單個(gè)視角生成隨機(jī)視圖,然后通過CLIP來評(píng)估生成圖像的準(zhǔn)確性。也就是說,CLIP可以用來糾正和訓(xùn)練NeRF模型生成圖像。這個(gè)過程將從不同的視角重復(fù)2萬次,直到生成符合文本描述的3D模型。先使用一個(gè)預(yù)訓(xùn)練2D擴(kuò)散模型基于文本提示生成一張二維圖像。然后引入一個(gè)基于概率密度蒸餾的損失函數(shù),通過梯度下降法優(yōu)化一個(gè)隨機(jī)初始化的神經(jīng)輻射場NeRF模型。它逐步改進(jìn)初始的隨機(jī)3D模型,以匹配從方法。然而,與InstantNeRF不同,參考不是真實(shí)物體的照片,而是由OpenAI的DALL-E2和Stability.ai的StableDiffusion使用圖:DreamFields圖:DreamFields的訓(xùn)練程序資料來源:Zero-ShotText-GuidedObjectGenerationwithDreamFields(AJain等渲云官網(wǎng),DREAMFUSION:TEXT-TO-3DUSING2DDIFFUSION(B),為了簡化AR/VR內(nèi)容開發(fā)方式,Meta于2023年1月研發(fā)了一種RGB-D圖像生成3D模型方案:MCC。MMC全稱是多視圖壓縮編碼,它是一種基于Transformer的編碼器-解碼器模型,可根據(jù)一幀RGB-D圖像合成/重建3D模型,潛在應(yīng)用場景包括AR/VR、3D視覺重建、機(jī)器人導(dǎo)航、數(shù)字孿生/虛擬仿真等等。Transformer:一種采用自注意力機(jī)制的深度學(xué)習(xí)模型,谷歌曾使用它來增強(qiáng)搜索引擎,而近期熱門的ChatGPT模型也是基于Transformer。起初,Transformer更常用與自然語言處理領(lǐng)域,而隨著它與大規(guī)模、通用類別的學(xué)習(xí)模型結(jié)合,便也開始被用于語言處理之外的領(lǐng)域,比如圖像合成、圖像分析。RGB-D:與普通彩色2D圖像不同,RGB-D是具有深度的彩色圖像,相當(dāng)于普通RGB三通道彩色圖像加上深度圖(DepthMap)。在2018年的F8大會(huì)上,Meta就曾公布3D照片研究,可通過雙攝手機(jī)拍攝出具有3D效果的照片,其中包含一定的深度信息。其甚至還研發(fā)了將2D圖像轉(zhuǎn)3D的CNN模型,特點(diǎn)是支持單攝手機(jī)。這意味著,它如果結(jié)合MCC方案,或許可以將單攝手機(jī)捕捉的2D圖像合成為3D模型。利用MCC方案,3D開發(fā)/合成將有望實(shí)現(xiàn)規(guī)?;?。隨著深度傳感器、深度捕捉AI模型在手機(jī)上普及,具有深度信息的圖像越來越容易獲得,因此MCC可使用的數(shù)據(jù)規(guī)模足夠大。圖:MCC的概述及其3D重建效果圖:MetaMCC圖:MetaMCC可從單張圖像合成完整的3D模型資料來源:MultiviewCompressiveCodingfMCC采用簡單的解碼器-編碼器架構(gòu),將RGB-D圖像輸入到MCC中會(huì)產(chǎn)生輸入編碼,然后解碼器將在輸入編碼中訪問3D點(diǎn)數(shù)據(jù),以預(yù)或場景,通用性比網(wǎng)格和立體像素更好,因此用大規(guī)模RGB-D圖像數(shù)據(jù)就能訓(xùn)練模型。另外,RGB-D圖像可通過手機(jī)的LiDAR傳感器來捕捉,或是由深度模型來計(jì)算(比如MiDas、COLMAP)。科研人員利用來自不同數(shù)據(jù)集的深度圖像/視頻來訓(xùn)練MCC,這些數(shù)據(jù)部分未包含3D場景、3D對(duì)象的全部角度,而這將需要AI重新構(gòu)建。無需具有注釋的3D數(shù)據(jù),成本更低、數(shù)據(jù)更容易收集普適性好,對(duì)于未見過的新對(duì)象類別,支持零樣本學(xué)習(xí),可直接處理成3D模型易于擴(kuò)展,且將來可以輕松生成大型數(shù)據(jù)集,為3D重建帶來規(guī)?;幚韴D:MCC將輸入RGB圖像的像素解投影到相應(yīng)的3D點(diǎn)1、生成式AI在視頻/3D/游戲等領(lǐng)域的滲透加速2、生成式AI下游應(yīng)用場景展望3、風(fēng)險(xiǎn)提示請(qǐng)務(wù)必閱讀正文之后的信息披露和免責(zé)申明生成式AI在視頻和3D模型領(lǐng)域的發(fā)展相對(duì)較慢,但隨著海外科技大廠及初創(chuàng)公司紛紛布局并推出基礎(chǔ)的3D和視頻生成模型和域(如電影、游戲、VR、建筑和實(shí)體產(chǎn)品設(shè)計(jì))的應(yīng)用潛力廣闊。圖:生成式AI模型的進(jìn)展與相關(guān)應(yīng)用的發(fā)展進(jìn)程時(shí)間表Sohl-Dickstein等發(fā)布NeRF20152017Google發(fā)布20152017Google發(fā)布Transformer20202021OpenAI發(fā)布并開源CLIP生成式AI在生成式AI在等提出GANNVIDIA發(fā)布LumaAI推出文生3DPoint-ERunway發(fā)布Gen-1NVIDIA發(fā)布Runway發(fā)布Gen-22022.052022.062022.072022.12Google發(fā)布蘋果推出GAUDI;DreamFieldsGoogle發(fā)布DreamFusion2023.012023.022023.05Meta發(fā)布OpenAI發(fā)布升MCC級(jí)模型Shap-E資料來源:GenerativeAdversaria等),NeRF:RepresentingScenesasNeuralRadianceFieldsforViewSynthesis(B.Mildenhall等),OpenAI官網(wǎng),Nividia官網(wǎng),新智元公眾號(hào)等,天風(fēng)證券研究所2023.0627原生產(chǎn)品有望融入工作流,增強(qiáng)用戶體驗(yàn)、降低用表:AI原生產(chǎn)品有望融入現(xiàn)有工具流中實(shí)現(xiàn)互補(bǔ)分類推出時(shí)間應(yīng)用場景專門為抖音開發(fā)的剪輯軟件2019.05快手云剪”將傳統(tǒng)剪輯工具搬到“云”上,實(shí)現(xiàn)素材共享、多人協(xié)同剪輯視頻剪輯、視頻摳像、直播剪輯、文字轉(zhuǎn)視頻、數(shù)據(jù)視HDR畫質(zhì)增強(qiáng)。2021.04微信推出的視頻編輯App一鍵成片;還有濾鏡;轉(zhuǎn)場;字幕等視頻編輯功能2020.09“拍-剪-投-優(yōu)”全鏈路短視頻運(yùn)營所需功能,提供一站式視頻生產(chǎn)解決方案2020.10AISandbox廣告工具,包括文本變化、背景生成和圖像突出等工具,使廣告文本更吸引人并改進(jìn)部分創(chuàng)意界面(如Stories或Reels)的不同長寬比2023.05創(chuàng)意生成式AI模型集,將成為跨Adobe云端產(chǎn)品的全新AdobeSensei生成式AI服務(wù)的一部分2023.03圖像,通過Discord聊天應(yīng)用程序工作2023.06在創(chuàng)作過程中提供ai驅(qū)動(dòng)輔助的擴(kuò)展平臺(tái)逼真的紋理;與ChatGPT一樣生成文案2023.06EpicRealityScan一款可以將智能手機(jī)照片轉(zhuǎn)換為高保真3D模型的免費(fèi)3D掃描應(yīng)用3D模型生成2022.04RealityCapture1.2.2適用于Windows的攝影測量軟件,能夠從一組2023.06TafiDaz3D一款突破性的文本到3D角色引擎通過輸入文本來快速創(chuàng)建附帶UV和拓?fù)涞?D模型,輸2023.06我們的觀點(diǎn):和傳統(tǒng)工具與工作流的結(jié)合。海外接下來半年關(guān)注什么?我們認(rèn)為從能力來看,圖片生成的可控性快1、生成式AI在視頻/3D/游戲等領(lǐng)域的滲透加速2、生成式AI下游應(yīng)用場景展望3、風(fēng)險(xiǎn)提示請(qǐng)務(wù)必閱讀正文之后的信息披露和免責(zé)申明

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論