綜合金融服務行業(yè)生成式AI下一顆最閃亮的星:視頻+引擎_第1頁
綜合金融服務行業(yè)生成式AI下一顆最閃亮的星:視頻+引擎_第2頁
綜合金融服務行業(yè)生成式AI下一顆最閃亮的星:視頻+引擎_第3頁
綜合金融服務行業(yè)生成式AI下一顆最閃亮的星:視頻+引擎_第4頁
綜合金融服務行業(yè)生成式AI下一顆最閃亮的星:視頻+引擎_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

2023年10月15日生成式AI下一顆最閃亮的星:視頻+引擎請務必閱讀正文之后的信息披露和免責申明模和視頻更重要的在于和傳統(tǒng)工具與工作流的結(jié)合。請務必閱讀正文之后的信息披露和免責申明1、生成式AI在視頻/3D/游戲等領域的滲透加速2、生成式AI下游應用場景展望3、風險提示請務必閱讀正文之后的信息披露和免責申明1.1生成算法模型不斷突破創(chuàng)新,下游應用場景不斷拓展基礎的生成算法模型不斷突破創(chuàng)新,基礎能力日新月異,從圖像向視頻和3D擴展,更廣泛地應用于下游應生成對抗網(wǎng)絡(GAN)是早期最著名的生成模型之一,盡管在圖像生成上產(chǎn)生了卓越的效果,但其訓練常常受到梯度消失和模式崩等),訓練時僅需模仿一個簡單的前向過程對應的逆過程,實現(xiàn)簡練過程的簡化。擴散模型相對GAN來說具有更靈活的模型架構(gòu)和更精確的對數(shù)似然計算,生成圖像質(zhì)量明顯優(yōu)于GAN,已經(jīng)成-圖像數(shù)據(jù)的大規(guī)模數(shù)據(jù)集上訓練出視頻擴散模型。NeRF(神經(jīng)輻射場)的出現(xiàn)為3D場景生成帶來了新的可能性,進一步拓寬生成算法領域下游的應用場景。NeRF(NeuralRadianceField)是一種基于神經(jīng)網(wǎng)絡的3D重建技術,不同于傳統(tǒng)的三維重建方法把場景表示為點云、網(wǎng)格、體素等顯NeRF將場景建模成一個連續(xù)的5D輻射場隱式存儲在神經(jīng)網(wǎng)絡中,輸入多角度的2D圖像,通過訓練得到神經(jīng)輻射場模型,根據(jù)模圖:生成式算法模型對比GANsNeRF生成對抗網(wǎng)絡(GAN)是一種深度學習模型,通過同基于2D圖像輸入,將3D場景展現(xiàn)為一組可以學習且連續(xù)的神經(jīng)輻射場,不直接生成3D模型,而是由輸入清晰的數(shù)據(jù)樣本,質(zhì)量明顯優(yōu)于GANs模型GAN的訓練過程需要生成器和額外的判別器,且穩(wěn)定應用場景GANs常用于圖像生成、圖像超分辨率、風格遷移等4資料來源:NeRF:RepresentingScenesasNeuralRadianceFieldsforViewSynthesis(BMildenhall等GenerativeAImeets3D:ASurveyonText-to-3D),41.2Runway:生成式AI內(nèi)容平臺,Gen-1可實現(xiàn)用文字和圖像從現(xiàn)有視頻中生成新視頻Runway是一家生成式AI內(nèi)容平臺,致力于讓所有人都能進行內(nèi)容多資本青睞,獲得谷歌領投的D輪融資。創(chuàng)立以來,Runway已獲得Felicis、Coatue、投的1億美元的D輪融資,這筆融資交易包括三年內(nèi)7500萬美元的谷歌云積分和其他服務,估值達到15億美元。主要產(chǎn)品為Gen-1和Gen-2,Gen-1可實現(xiàn)用文字和圖像從現(xiàn)有視頻中生成新視頻,Gen-2可實現(xiàn)文字生成視頻功能。Gen-1:不需要燈光、相機和動捕,通過將圖像或文本提示的結(jié)構(gòu)和風格應用于源視風格轉(zhuǎn)移到視頻的每一幀;2)Storyboard:將模型變成完全風格化和動畫的渲染。3)Mask:隔離視頻中的主題并使用簡單的文本提示對其進行修改;4)Render:通過應Gen-1的性能優(yōu)勢:基于用戶研究,GEN-1的結(jié)果優(yōu)于現(xiàn)有的圖像到圖像和視頻到視頻的轉(zhuǎn)換方法,比StableDiffusion1.5提升73.83%,比Text2Live提升88.24%。圖:Gen-1和Gen-2生成的作品Mask(下)51.2Runway:生成式AI內(nèi)容平臺,最新產(chǎn)品Gen-2可實現(xiàn)文字生成視頻功能Gen-2在Gen-1的基礎上迭代,保留通過將圖像或文本提示的結(jié)構(gòu)和風格應用于源視Gen-2已于2023年6月上線,用戶可以通過網(wǎng)頁端和移動端App免費體驗文字生成視credits)、更長的視頻長度、更高的分辨率等。圖:Gen-2創(chuàng)作界面:直接通過文字生成約4秒的視頻圖:Gen-2新增的三種模式演示:TexttoVideo(上)、Text+61.2Runway技術路徑剖析:Gen-1基于擴散模型的視頻生成技術擴散模型是一種概率生成模型,通過添加噪聲逐步解構(gòu)數(shù)計,旨在將數(shù)據(jù)分布轉(zhuǎn)換為一個簡單的先驗分布(例如,標準高斯分布)而后者的馬爾科夫鏈通過學習由深度神經(jīng)網(wǎng)絡參數(shù)化的轉(zhuǎn)換核來逆轉(zhuǎn)前者。新的數(shù)據(jù)點隨后通過首先從先驗分布中抽樣一個隨機圖:擴散模型(DiffusionModel)通過添加噪聲對數(shù)據(jù)進行平滑擾動,然后反轉(zhuǎn)這一過程來生成新數(shù)據(jù)。1.2Runway技術路徑剖析:Gen-1-基于擴散模型的視頻生成技術Gen-1提出了一個可控的結(jié)構(gòu)和內(nèi)容感知的視頻擴散模型,將時間層引入預訓練的圖像模型,將擴散模型擴展到視頻生成,在大規(guī)模的未標注視頻和配對的文本-圖像數(shù)據(jù)上進行訓練。Gen-1用單眼深度估計來表示結(jié)構(gòu),用預訓練神經(jīng)網(wǎng)絡預測的嵌入來表示內(nèi)容。編輯完全在推理時進行,無需額外的每個視頻訓練或預Gen-1實現(xiàn)了對時間、內(nèi)容和結(jié)構(gòu)一致性的完全控制,首次展示了在圖像和視頻數(shù)據(jù)上聯(lián)合訓練可以在推理時控制時間一致性。對于結(jié)圖:Gen-1在保持輸入視頻(中間)的結(jié)構(gòu)的同時,通過文本(上)或圖像(下)描述的內(nèi)容來指導視頻(上和下)的合成。Gen1視頻生成技術的實現(xiàn)路徑資料來源:StructureandContent-GuidedVideoSynthesiswithDiffusionModels(PEsser等DiffusionModels:AComprApplications(LYang)等,天風證券研究所8圖:LumaAI視頻轉(zhuǎn)3D功能演示圖:LumaAI視頻轉(zhuǎn)3D功能演示3D視覺、機器學習、實時圖形學上有所建樹:CCofounderAlexYu致力于推動神經(jīng)渲染和實時圖形領域的發(fā)展,研究成果包括Plenoxels、PlenOctrees和pixelNeRF。文生3D模型功能;23年1月iOS版App開始支持NeRFReshoot;23年2月推出網(wǎng)頁版全體積NeRF渲染器;23年3年iOS版App支持AR預覽,同月推UnrealEnginealpha,幫助開發(fā)者在Unreal5中進行完全體積化的渲染,無需對幾何結(jié)構(gòu)或材LumaApp:目前只推出iOS客戶端,可以通過iPhone上傳視頻,基于NeRF生成3D場景。拍攝位置;自由模式,支持非360度(部分視角)拍攝,App不會給出明確提示框,需要盡可能圖:LumaAI文字轉(zhuǎn)3D模型產(chǎn)品演示圖:LumaAI文字轉(zhuǎn)3D模型產(chǎn)品演示API:效果基本和網(wǎng)頁版一致。收費模式為按次收費,轉(zhuǎn)換一個視頻費用為1美元,轉(zhuǎn)換時間在9),和渲染逼真的3D場景。NeRF可以從任何新視角生成2D圖像,而無需生成完整的傳統(tǒng)3D模型圖:NeRF通過周圍半球上隨機捕獲的100個架子鼓的輸入視圖,呈現(xiàn)了架子鼓的兩個新視圖。技術原理:通過場景投射相機光線以生成一組采樣的3D點使用這些點及其對應的2D觀察方向作為神經(jīng)網(wǎng)絡的輸入,以輸出一組顏色和密度值使用體渲染技術將這些顏色和密度累積成任意角度的2D圖像該過程自然可微,可以采用梯度下降的方式,即最小化每個觀察到的圖像和表示的相應視圖之間的誤差來優(yōu)化這個小化這個誤差即可以預測出一個連貫的場景模型,將體圖:NeRF場景表示和可微分渲染程序的概述(b)將這些位置輸入到一個MLP中以產(chǎn)生顏色和(d)通過最小化合成圖像和真實觀察圖像之間的殘差來進資料來源:NeRF:RepresentingScenesasNeuralRadianceFieldsforViewSynthesis(BMildenhall等),天風證券研究所對比來看,多邊形光線追蹤(PolygonRaytracing)以高幀率渲染高分辨率和真實的場景,需要昂貴的圖形卡。LumaAI與Epic合作將NeRF引入了UnrealEngine實現(xiàn)實時渲染,可應用于游戲和電影應用UnrealEngine是一款強大的游戲開發(fā)引擎,被廣泛用于視頻游戲制作,電影和電視業(yè)、建LumaUnrealEngine插件使用戶可以將這些LumaField文件導入UnrealEngine5,該插件可以將這些LumaField文件導入到虛幻引擎中作為環(huán)境使用,自動生成一組用戶可以從捕獲的場景中選擇照明或從虛幻引擎場景中選擇動態(tài)照圖:NeRF場景重建后導出至UnrealEngine再創(chuàng)作資料來源:GenerativeAImeets3D:ASurveyonText-to-3DinAIGCErUnity是一家全球領先的制作和運營交互式實時3D引擎公司。收購ironSource之后,其主營業(yè)務包括與開發(fā)相關的引擎類產(chǎn)品Create和與廣告營陸并支持蘋果IOS平臺、OS平臺、Windows平臺等,伴隨著iPhone以及整個移動互聯(lián)網(wǎng)的發(fā)一一個將AI模型嵌入到實時3D引擎中的跨平臺解決方案。Sentis在用戶的設備而非云端運行程開發(fā)進程和提供解決方案。Replica,Atlas等,涵蓋圖像生成,人工智能對話,以及投資領域等。圖:UnityMuse模型執(zhí)行自然語言“后空翻”指令圖:AppleVisionPro產(chǎn)品介紹圖2023年6月,Apple發(fā)布了旗下首款圖:AppleVisionPro產(chǎn)品介紹圖命性的空間計算設備,突破了傳統(tǒng)顯示屏的限制,為用戶帶來全新的3D交互體驗。VisionPro搭載了全球首創(chuàng)的空間操作系統(tǒng)visionOS,該系統(tǒng)通過用戶與數(shù)字內(nèi)容互動的模式,讓數(shù)字內(nèi)容如同存在于真實世界。Unity作為本次大會上公布的ApplevisionOS原生合作方之一,為全新發(fā)布的Apple意味著除了ARFoundation和XRInteractionToolkit等廣為人知的功能外,開發(fā)者還能在自己的應用中加入諸如Pass-through(穿透)和DynamicFoveatedRendering(動通過Unity新的PolySpatial技術與visionOS之間深度集成,應用程序可以在共享空間(SharedSpace)中與其他應用程序一起運行。并且通過將Unity的創(chuàng)作工具與RealityKit的托管應用渲染相結(jié)合,開發(fā)者將能輕松使用Unity在圖:UnityXR交互系統(tǒng)者可使用他們熟悉的強大框架著手構(gòu)建visionOSapp,并利用RealityComposerPro等新的創(chuàng)新工具和技術進一發(fā)者關系副總裁SusanPrescott表示,“空間計算技術利全新方式幫助用戶聯(lián)絡彼此、提升效率、享受新型娛樂。我們迫不及待地想見證開發(fā)者社區(qū)的奇思妙想?!?.5OpenAI:3D生成技術Point-E與Shap-E的更新迭代圖:Point-E與圖:Point-E與Shap-E對比圖Point-E本身包括兩個模型:GLIDE模型和image-to-3D模型。前者類似于DALL-E或StableDiffusion等系統(tǒng),可以從文本描述生成圖像。第二個模型由OpenAI使用圖像和相關的3D物體進行訓練,學習從圖像中生成相應的點圖:使用給定的文本提示由Point-E生成的點云2023年5月,OpenAI再次發(fā)布了一款升級模型Shap-E。Shap-E的訓練分兩個階段:相比基于點云的顯式生成模型Point-E,Shap-E直接生成隱函數(shù)的參數(shù)來渲染紋理網(wǎng)格和神經(jīng)輻射場,收斂速度更快,在更高維的多圖:使用給定的文本提示由Shap-E生成的條件網(wǎng)格資料來源:Point·E:ASystemforGenerating3DPointCloudsfromComplexPrompts(AlexNichol等Shap·E:GeneratingConditional3DImplicitFunctions(HeewooJun&AlexNichol),天風證券研究所Point-E:基于目前主流的兩種text-to-3D模型進行融合嘗試,結(jié)合了文本-圖像模型與圖像-三維模型這兩類方法的優(yōu)點。使用文本到圖像的擴散模型生成一個單一的合成視圖,然后使用第二個擴散模型生成一個三維點云,該模型以生成的圖像為條件。Point-E在采樣質(zhì)量方面達不到最先進的水平,但它的采樣速度要快一到兩個首先,對來自數(shù)據(jù)集的渲染3D模型進行了微調(diào),使用30億參數(shù)的GLIDE模型,生成一接下來,使用一個有條件的、排列不變的擴散模型,在合成視圖的辨率點云(1024個點)。最后,在低分辨率點云和合成視圖的條件下,生成一個精細點云(4096個點)。圖:圖:Point-E管道的簡要概述圖:Point-E的點云擴散模型架構(gòu)圖:Point-E模型被誤用的例子Point-E模型的技術優(yōu)勢:Point-E可以在短時間內(nèi)產(chǎn)生樣本,較此前的先進Point-E的兩個步驟可以在幾秒鐘內(nèi)完成,不需要Point-E假設圖像包含來自文本的相關信息,無需Point-E模型的技術缺陷:模型具有一定的偏差,如DALL·E2系統(tǒng),其中的許多資料來源:Point·E:ASystemforGenerating3DPointCloudsfromComplexPrompts(AlexNichol等),天風證券研究所3D編碼器:給定一個已知三維資產(chǎn)的稠密顯式如下圖編碼器架構(gòu)所示,給編碼器提供點云和三維資產(chǎn)的渲染視圖,輸出多層感知器(MLP)的參數(shù),將資產(chǎn)表示為一個隱式函數(shù)。Shap-E只用NeRF渲染目標對編碼器進行預訓練,因為研究人員在實驗中發(fā)現(xiàn)這個操作比基于網(wǎng)格(mesh-based)的目標潛表征為shape1024×1024的序列,可以將其作為1024個token的序列送入Transformer,其中每個token對應于MLP權(quán)重矩陣的不同行。因此,該模型在計算上與基本的Point-E模型大致相當(即具有相同的上下文長度和寬度),同時由于輸入和輸出通文本條件下,Shap-E在CLIPR-precision和CLIP分數(shù)兩個指標上都比Point-E模型有所提高。圖像條件下,Shap-E和Point-E模型達到了大致相同的最終評估性能,Shap-E在CLIP圖:Shap-E的編碼器架構(gòu)R-precision方面略有優(yōu)勢,在CLIP分數(shù)方面略有劣勢。這表明顯式和圖:圖像條件下Point-E與Shap-E的比較資料來源:Shap·E:GeneratingConditional3DImplicitFunctions(HeewooJun&AlexNichol),天風證券研究所NVIDIApicassoserviceNVIDIApicassoservice3DMoMa:從二維圖像中提取三維物體。2022年6月,NVIDIA推出3DMoMa,可通過圖像輸入生成三角網(wǎng)格組成的3D模型,并可直接導入圖形引擎。這項方案的重點是,可直接導入支持三角形建模的3D建模引擎、游戲引擎、電影渲染器,可以在手機、瀏覽器上運行。3DMoMa生成的3D模型自帶三角形網(wǎng)格,將3D模型生成自動化,將有望加速藝術、游戲、影視等內(nèi)容創(chuàng)作。Magic3D:高分辨率的文本到3D內(nèi)容創(chuàng)建技術。2022年11月,英偉達推出Magic3D,采用了與DreamFusion類似的兩段式生成技術路線,但使用不同的生成模型。Magic3D可以在40分鐘內(nèi)創(chuàng)建高質(zhì)量的三維網(wǎng)格模型,比DreamFusion快2倍,并實現(xiàn)了更高的分辨率NVIDIAPicasso:用于構(gòu)建生成式AI視覺應用程序的云服務。2023年3月,英偉達推出NVIDIAPicasso,企業(yè)、軟件創(chuàng)建者和服務提供商可以在其模型上運行推理,在專有數(shù)據(jù)上訓練NVIDIAEdify基礎模型,或者從預訓練的模型開始,從文本提示生成圖像、視頻和3D內(nèi)容。Picasso服務針對GPU進行了全面優(yōu)化,并在NVIDIADGXCloud上簡化了訓練、優(yōu)化和推理。此外,NVIDIA也與Adobe、GettyImages、Shutterstock等企業(yè)進行了合作,共同開發(fā)NVIDIAPicasso模型。圖:Neuralangelo:高保真的神經(jīng)表面重建技術。2023年6月,英偉達提出了Neuralangelo,將多分辨率3D哈希網(wǎng)格的表示能力與神經(jīng)表面渲染相結(jié)合,該方法由兩個關鍵成分實現(xiàn):1)用于計算高階導數(shù)的數(shù)值梯度作為平滑操作;2)對控制不同細節(jié)級別的哈希網(wǎng)格進行粗-細優(yōu)化。即使沒有輔助深度,Neuralangelo也可以有效地從多視圖圖像中恢復密集的3D表面結(jié)構(gòu),其保真度顯著超過之前的方法,可以從RGB視頻捕獲中進行詳細的大規(guī)模場景重建。圖:NVIDIAPicasso運行機制示意圖資料來源:NVIDIA官網(wǎng),ExtractReconstruction(ZLi等FranksWorld,青亭網(wǎng)公眾號,天風證券研究所):它特別之處在于,通過采用“即時神經(jīng)圖形基元”3)使用三個優(yōu)化目標(RGB合成損失、Eikonal損失、曲率損失)進行優(yōu)化。圖:NeuralAngelo使用數(shù)值梯度來計算高階導數(shù)資料來源:ExtractingTriangular3DReconstruction(ZLi等),天風證券研究所1.7Apple:發(fā)布3D生成APIObjectCapture與3D場景生成模型GAUDI2021年6月,蘋果發(fā)布了面向Mac的攝影測量API“ObjectCapture”。AppleObjectCapture以將物理對象轉(zhuǎn)換為數(shù)字對象。使用iPhone或iPad,可Monterey上新的對象捕獲API將其轉(zhuǎn)換為針對增強現(xiàn)實(AR)進行優(yōu)化的3D模型。物體捕捉功能使用攝影測量技術將iPhone或iPad上拍攝的一系列照片轉(zhuǎn)換為USDZ文件,這些文件可以在“AR快速查看”中查看,無縫整合到Xcode項目中,或在專業(yè)的3D內(nèi)容工作流程中使用。2022年7月,來自蘋果的AI團隊推出了3D場景生成的最新神經(jīng)架構(gòu)——GAUDI。GAUDI是一了一種可擴展但強大的方法來解決這個具有挑戰(zhàn)性的問題。研究人員首先優(yōu)化一個隱表征,將輻射場景。GAUDI在多個數(shù)據(jù)集的無條件生成設置中取得了sota的性能,并允許在給定條件變量(如稀疏的圖像觀測或描述場景的文本)的情況下有條件地圖:GAUDI效果演示資料來源:GAUDI:ANeuralArchitectforImmersive3D圖:ObjectCapture作用機制演示ObjectCapture主要基于Swift編程語言構(gòu)建,并通過RealityKit2(蘋果的新一代AR引擎)在macOSMonterey上運行。ObjectCapture的實現(xiàn)基于多張圖片或視頻流的數(shù)據(jù),機視覺分析,從而創(chuàng)建高質(zhì)量的3D模型。這種技術利用了蘋果公司設備的攝像頭和傳感器,以及強大的硬件和軟件性能,能夠快速一是潛在和網(wǎng)絡參數(shù)的優(yōu)化:為每個示例x∈X獲取一個潛在表示z=[zscene,zpose],用于表達場景輻射場和在單獨的解糾纏向量中的位姿。個場景有效的相機姿態(tài)進行編碼。二是使用擴散模型在潛在表示上學習生成模型:給定一組潛在的Z={zi∈{0,...,n}},學習分布p(Z),從而能夠在有條件和無條件的推理任務中都能很好地建模。前者是根據(jù)文本或圖像提示來生成3D場景,后者則是根圖:GAUDI解碼器模型架構(gòu)圖:GAUDI擴散模型架構(gòu)Drive直接運行,也可以部署到本地運行。它利用了一種名為CLIP-GuidedDifDreamFields是由Google團隊在2022年所推出的3DAIGC模型?;驹硎菍penAI的圖像分析模型CLIP與神經(jīng)輻射場(NeRF)相結(jié)合,再利用了Nerf進行3D視圖的生成,再通過Clip判斷其生成的模型是否達到效果,本質(zhì)上就是通過CLIP/DALL-E+NeRF來實現(xiàn)其3D內(nèi)容的生成。圖:DreamFields通過詳細的標題來表達特定的藝術風格圖:DreamFusion從文本提示中生成仿真的三維模型資料來源:Zero-ShotText-GuidedObjectGenerationwithDreamFields(AJain等DREAMFUSION:TEXT-TO-3DUSING2DDIFFUSION(B估文本生成圖像的準確性。文本輸入至DreamFields后,未訓練的NeRF模型會從單個視角生成隨機視圖,然后通過CLIP來評估生成圖像的準確性。也就是說,CLIP可以用來糾正和訓練NeRF模型生成圖像。這個過程將從不同的視角重復2萬次,直到生成符合文本描述的3D模型。先使用一個預訓練2D擴散模型基于文本提示生成一張二維圖像。然后引入一個基于概率密度蒸餾的損失函數(shù),通過梯度下降法優(yōu)化一個隨機初始化的神經(jīng)輻射場NeRF模型。它逐步改進初始的隨機3D模型,以匹配從方法。然而,與InstantNeRF不同,參考不是真實物體的照片,而是由OpenAI的DALL-E2和Stability.ai的StableDiffusion使用圖:DreamFields圖:DreamFields的訓練程序資料來源:Zero-ShotText-GuidedObjectGenerationwithDreamFields(AJain等渲云官網(wǎng),DREAMFUSION:TEXT-TO-3DUSING2DDIFFUSION(B),為了簡化AR/VR內(nèi)容開發(fā)方式,Meta于2023年1月研發(fā)了一種RGB-D圖像生成3D模型方案:MCC。MMC全稱是多視圖壓縮編碼,它是一種基于Transformer的編碼器-解碼器模型,可根據(jù)一幀RGB-D圖像合成/重建3D模型,潛在應用場景包括AR/VR、3D視覺重建、機器人導航、數(shù)字孿生/虛擬仿真等等。Transformer:一種采用自注意力機制的深度學習模型,谷歌曾使用它來增強搜索引擎,而近期熱門的ChatGPT模型也是基于Transformer。起初,Transformer更常用與自然語言處理領域,而隨著它與大規(guī)模、通用類別的學習模型結(jié)合,便也開始被用于語言處理之外的領域,比如圖像合成、圖像分析。RGB-D:與普通彩色2D圖像不同,RGB-D是具有深度的彩色圖像,相當于普通RGB三通道彩色圖像加上深度圖(DepthMap)。在2018年的F8大會上,Meta就曾公布3D照片研究,可通過雙攝手機拍攝出具有3D效果的照片,其中包含一定的深度信息。其甚至還研發(fā)了將2D圖像轉(zhuǎn)3D的CNN模型,特點是支持單攝手機。這意味著,它如果結(jié)合MCC方案,或許可以將單攝手機捕捉的2D圖像合成為3D模型。利用MCC方案,3D開發(fā)/合成將有望實現(xiàn)規(guī)模化。隨著深度傳感器、深度捕捉AI模型在手機上普及,具有深度信息的圖像越來越容易獲得,因此MCC可使用的數(shù)據(jù)規(guī)模足夠大。圖:MCC的概述及其3D重建效果圖:MetaMCC圖:MetaMCC可從單張圖像合成完整的3D模型資料來源:MultiviewCompressiveCodingfMCC采用簡單的解碼器-編碼器架構(gòu),將RGB-D圖像輸入到MCC中會產(chǎn)生輸入編碼,然后解碼器將在輸入編碼中訪問3D點數(shù)據(jù),以預或場景,通用性比網(wǎng)格和立體像素更好,因此用大規(guī)模RGB-D圖像數(shù)據(jù)就能訓練模型。另外,RGB-D圖像可通過手機的LiDAR傳感器來捕捉,或是由深度模型來計算(比如MiDas、COLMAP)??蒲腥藛T利用來自不同數(shù)據(jù)集的深度圖像/視頻來訓練MCC,這些數(shù)據(jù)部分未包含3D場景、3D對象的全部角度,而這將需要AI重新構(gòu)建。無需具有注釋的3D數(shù)據(jù),成本更低、數(shù)據(jù)更容易收集普適性好,對于未見過的新對象類別,支持零樣本學習,可直接處理成3D模型易于擴展,且將來可以輕松生成大型數(shù)據(jù)集,為3D重建帶來規(guī)?;幚韴D:MCC將輸入RGB圖像的像素解投影到相應的3D點1、生成式AI在視頻/3D/游戲等領域的滲透加速2、生成式AI下游應用場景展望3、風險提示請務必閱讀正文之后的信息披露和免責申明生成式AI在視頻和3D模型領域的發(fā)展相對較慢,但隨著海外科技大廠及初創(chuàng)公司紛紛布局并推出基礎的3D和視頻生成模型和域(如電影、游戲、VR、建筑和實體產(chǎn)品設計)的應用潛力廣闊。圖:生成式AI模型的進展與相關應用的發(fā)展進程時間表Sohl-Dickstein等發(fā)布NeRF20152017Google發(fā)布20152017Google發(fā)布Transformer20202021OpenAI發(fā)布并開源CLIP生成式AI在生成式AI在等提出GANNVIDIA發(fā)布LumaAI推出文生3DPoint-ERunway發(fā)布Gen-1NVIDIA發(fā)布Runway發(fā)布Gen-22022.052022.062022.072022.12Google發(fā)布蘋果推出GAUDI;DreamFieldsGoogle發(fā)布DreamFusion2023.012023.022023.05Meta發(fā)布OpenAI發(fā)布升MCC級模型Shap-E資料來源:GenerativeAdversaria等),NeRF:RepresentingScenesasNeuralRadianceFieldsforViewSynthesis(B.Mildenhall等),OpenAI官網(wǎng),Nividia官網(wǎng),新智元公眾號等,天風證券研究所2023.0627原生產(chǎn)品有望融入工作流,增強用戶體驗、降低用表:AI原生產(chǎn)品有望融入現(xiàn)有工具流中實現(xiàn)互補分類推出時間應用場景專門為抖音開發(fā)的剪輯軟件2019.05快手云剪”將傳統(tǒng)剪輯工具搬到“云”上,實現(xiàn)素材共享、多人協(xié)同剪輯視頻剪輯、視頻摳像、直播剪輯、文字轉(zhuǎn)視頻、數(shù)據(jù)視HDR畫質(zhì)增強。2021.04微信推出的視頻編輯App一鍵成片;還有濾鏡;轉(zhuǎn)場;字幕等視頻編輯功能2020.09“拍-剪-投-優(yōu)”全鏈路短視頻運營所需功能,提供一站式視頻生產(chǎn)解決方案2020.10AISandbox廣告工具,包括文本變化、背景生成和圖像突出等工具,使廣告文本更吸引人并改進部分創(chuàng)意界面(如Stories或Reels)的不同長寬比2023.05創(chuàng)意生成式AI模型集,將成為跨Adobe云端產(chǎn)品的全新AdobeSensei生成式AI服務的一部分2023.03圖像,通過Discord聊天應用程序工作2023.06在創(chuàng)作過程中提供ai驅(qū)動輔助的擴展平臺逼真的紋理;與ChatGPT一樣生成文案2023.06EpicRealityScan一款可以將智能手機照片轉(zhuǎn)換為高保真3D模型的免費3D掃描應用3D模型生成2022.04RealityCapture1.2.2適用于Windows的攝影測量軟件,能夠從一組2023.06TafiDaz3D一款突破性的文本到3D角色引擎通過輸入文本來快速創(chuàng)建附帶UV和拓撲的3D模型,輸2023.06我們的觀點:和傳統(tǒng)工具與工作流的結(jié)合。海外接下來半年關注什么?我們認為從能力來看,圖片生成的可控性快1、生成式AI在視頻/3D/游戲等領域的滲透加速2、生成式AI下游應用場景展望3、風險提示請務必閱讀正文之后的信息披露和免責申明

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論