生成式AI行業(yè)市場分析1_第1頁
生成式AI行業(yè)市場分析1_第2頁
生成式AI行業(yè)市場分析1_第3頁
生成式AI行業(yè)市場分析1_第4頁
生成式AI行業(yè)市場分析1_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

生成式AI行業(yè)市場分析1、生成式AI在視頻/3D/游戲等領(lǐng)域的滲透加速生成算法模型不斷突破創(chuàng)新,下游應用場景不斷拓展基礎(chǔ)的生成算法模型不斷突破創(chuàng)新,基礎(chǔ)能力日新月異,從圖像向視頻和3D擴展,更廣泛地應用于下游應用場景。生成對抗網(wǎng)絡(luò)(GAN)是早期最著名的生成模型之一,盡管在圖像生成上產(chǎn)生了卓越的效果,但其訓練常常受到梯度消失和模式崩潰等問題的影響。與GAN相比,擴散模型(DiffusionModel)只需要訓練“生成器”,不需要訓練別的網(wǎng)絡(luò)(判別器、后驗分布等),訓練時僅需模仿一個簡單的前向過程對應的逆過程,實現(xiàn)簡練過程的簡化。擴散模型相對GAN來說具有更靈活的模型架構(gòu)和更精確的對數(shù)似然計算,生成圖像質(zhì)量明顯優(yōu)于GAN,已經(jīng)成為目前最先進的圖像生成模型。此前擴散模型主要適用于生成2D圖像,23年Runway的最新研究成果將擴散模型擴展到視頻領(lǐng)域,在未加字幕的視頻和配對的文本-圖像數(shù)據(jù)的大規(guī)模數(shù)據(jù)集上訓練出視頻擴散模型。NeRF(神經(jīng)輻射場)的出現(xiàn)為3D場景生成帶來了新的可能性,進一步拓寬生成算法領(lǐng)域下游的應用場景。NeRF(NeuralRadianceField)是一種基于神經(jīng)網(wǎng)絡(luò)的3D重建技術(shù),不同于傳統(tǒng)的三維重建方法把場景表示為點云、網(wǎng)格、體素等顯式的表達,NeRF將場景建模成一個連續(xù)的5D輻射場隱式存儲在神經(jīng)網(wǎng)絡(luò)中,輸入多角度的2D圖像,通過訓練得到神經(jīng)輻射場模型,根據(jù)模型渲染出任意視角下的清晰照片。Runway:生成式AI內(nèi)容平臺,Gen-1可實現(xiàn)用文字和圖像從現(xiàn)有視頻中生成新視頻Runway是一家生成式AI內(nèi)容平臺,致力于讓所有人都能進行內(nèi)容創(chuàng)作。Runway創(chuàng)立于2018年,總部位于紐約,提供圖片、視頻領(lǐng)域的生成式AI服務(wù)。Runway得到眾多資本青睞,獲得谷歌領(lǐng)投的D輪融資。創(chuàng)立以來,Runway已獲得Felicis、Coatue、Amplify、Lux、Compound等頂級投資機構(gòu)投資。23年6月,Runway獲得由谷歌領(lǐng)投的1億美元的D輪融資,這筆融資交易包括三年內(nèi)7500萬美元的谷歌云積分和其他服務(wù),估值達到15億美元。主要產(chǎn)品為Gen-1和Gen-2,Gen-1可實現(xiàn)用文字和圖像從現(xiàn)有視頻中生成新視頻,Gen-2可實現(xiàn)文字生成視頻功能。Gen-1:不需要燈光、相機和動捕,通過將圖像或文本提示的結(jié)構(gòu)和風格應用于源視頻的結(jié)構(gòu),逼真且一致地合成新視頻,且具有表現(xiàn)力、電影感和一致性。Gen-1提供給用戶五種不同的視頻制作模式:1)Stylization:將任何圖像或提示的風格轉(zhuǎn)移到視頻的每一幀;2)Storyboard:將模型變成完全風格化和動畫的渲染。3)Mask:隔離視頻中的主題并使用簡單的文本提示對其進行修改;4)Render:通過應用輸入圖像或提示,將無紋理渲染變成逼真的輸出;5)Customization:通過自定義模型以獲得更高保真度的結(jié)果,釋放Gen-1的全部功能。Gen-1的性能優(yōu)勢:基于用戶研究,GEN-1的結(jié)果優(yōu)于現(xiàn)有的圖像到圖像和視頻到視頻的轉(zhuǎn)換方法,比StableDiffusion1.5提升73.83%,比Text2Live提升88.24%。Gen-2是一個多模態(tài)的人工智能系統(tǒng),可以用文字、圖像或視頻片段生成新穎的視頻。Gen-2在Gen-1的基礎(chǔ)上迭代,保留通過將圖像或文本提示的結(jié)構(gòu)和風格應用于源視頻的結(jié)構(gòu)合成新視頻的功能,新增了只用文字便可生成視頻的的功能。Gen-2在Gen-1的五種視頻制作模式上新增了三項新的模式:1)TexttoVideo:僅通過文本提示合成任何風格的視頻;2)Text+ImagetoVideo:使用圖像和文本提示生成視頻;3)ImagetoVideo:用一張圖片生成視頻(變體模式)。Gen-2已于2023年6月上線,用戶可以通過網(wǎng)頁端和移動端App免費體驗文字生成視頻的功能。收費模式上,Runway采用訂閱模式,分為Standard和Pro兩個版本:Standard15美元/月;Pro35美元/月。訂閱版本提供更高的credits(制作視頻消耗credits)、更長的視頻長度、更高的分辨率等。LumaAI:3D內(nèi)容解決方案平臺,基于NeRF上線文字轉(zhuǎn)3D和視頻轉(zhuǎn)3D功能LumaAI是一家3D內(nèi)容解決方案平臺。LumaAI創(chuàng)立于2021年,總部位于加州。公司創(chuàng)始人在3D視覺、機器學習、實時圖形學上有所建樹:CEO&CofounderAmitJain曾于蘋果任職,在3D計算機視覺、攝像頭、ML、系統(tǒng)工程和深度技術(shù)產(chǎn)品方面有者豐富經(jīng)驗;CTO&CofounderAlexYu致力于推動神經(jīng)渲染和實時圖形領(lǐng)域的發(fā)展,研究成果包括Plenoxels、PlenOctrees和pixelNeRF。LumaAI深耕3D領(lǐng)域,也發(fā)布多項3D生成產(chǎn)品。22年10月開放網(wǎng)頁版Luma;22年12月推出文生3D模型功能;23年1月iOS版App開始支持NeRFReshoot;23年2月推出網(wǎng)頁版全體積NeRF渲染器;23年3年iOS版App支持AR預覽,同月推出視頻轉(zhuǎn)3DAPI。23年4月發(fā)布LumaUnrealEnginealpha,幫助開發(fā)者在Unreal5中進行完全體積化的渲染,無需對幾何結(jié)構(gòu)或材質(zhì)進行修補。主要產(chǎn)品:LumaApp:目前只推出iOS客戶端,可以通過iPhone上傳視頻,基于NeRF生成3D場景。LumaApp支持導入視頻,以及引導模式和自由模式三種:導入模式,和Web模式功能類似,對設(shè)備和視頻理論上要求最低;引導模式,需要360度拍攝,App將具體提示框提醒拍攝視角、拍攝位置;自由模式,支持非360度(部分視角)拍攝,App不會給出明確提示框,需要盡可能拍攝多個角度。網(wǎng)頁端:目前集成了三大主流功能:網(wǎng)頁版Luma、文字轉(zhuǎn)3D模型、視頻轉(zhuǎn)3DAPI。網(wǎng)頁版Luma:上傳照片、視頻來進行三維重建,網(wǎng)頁版可以上傳更大的文件,目前視頻和圖片(ZIP壓縮包)體積最大限制5GB;文字轉(zhuǎn)3D模型:輸入文字描述生成對應的3D模型。視頻轉(zhuǎn)3DAPI:效果基本和網(wǎng)頁版一致。收費模式為按次收費,轉(zhuǎn)換一個視頻費用為1美元,轉(zhuǎn)換時間在30分鐘左右。Unity:制作和運營交互式實時3D(RT3D)內(nèi)容平臺,結(jié)合AI大模型賦能游戲業(yè)務(wù)Unity是一家全球領(lǐng)先的制作和運營交互式實時3D(RT3D)內(nèi)容的平臺,也是全球最大的游戲引擎公司。收購ironSource之后,其主營業(yè)務(wù)包括與開發(fā)相關(guān)的引擎類產(chǎn)品Create和與廣告營銷相關(guān)的產(chǎn)品Grow。Unity成立于2004年,起初為OvertheEdgeEntertainment并進行游戲開發(fā)工作,2005年公司在游戲開發(fā)基礎(chǔ)上轉(zhuǎn)型工具,并于2005年發(fā)布Unity1.0版本。20余載,Unity先后登陸并支持蘋果IOS平臺、OS平臺、Windows平臺等,伴隨著iPhone以及整個移動互聯(lián)網(wǎng)的發(fā)展,Unity迎來用戶數(shù)量的快速增長。同時,經(jīng)過長期的迭代升級以及并購,公司逐步建立起游戲以及其他領(lǐng)域的業(yè)務(wù),形成當前公司的主要業(yè)務(wù)架構(gòu),實現(xiàn)全平臺全產(chǎn)業(yè)鏈覆蓋的高兼容特性。2023年,公司發(fā)布AI產(chǎn)品:UnityMuse、UnitySentis,宣布結(jié)合AI大模型賦能游戲業(yè)務(wù)。主要產(chǎn)品:UnityMuse:提供AI驅(qū)動協(xié)助的擴展平臺,它加速了像視頻游戲和數(shù)字孿生這樣的實時3D應用和體驗的生成。在Muse上,用戶能夠通過自然語言在Unity編輯器中開發(fā)游戲,打破技術(shù)壁壘。UnitySentis:嵌入神經(jīng)網(wǎng)絡(luò),解鎖全新實時體驗。在技術(shù)層面,UnitySentisl連接神經(jīng)網(wǎng)絡(luò)與UnityRuntime,因此,AI模型能夠在Unity運行的任何設(shè)備上運行。Sentis是第一個也是唯一一個將AI模型嵌入到實時3D引擎中的跨平臺解決方案。Sentis在用戶的設(shè)備而非云端運行程序,因此其復雜性、延遲和成本都大大降低。MuseChat:基于AI,用戶可以搜索跨越Unity文檔、培訓資源和支持內(nèi)容,以獲取來自Unity的準確且最新的信息。MuseChat能夠幫助開發(fā)者快速獲取相關(guān)信息,包括工作代碼樣本,以加速開發(fā)進程和提供解決方案。OpenAI:3D生成技術(shù)Point-E與Shap-E的更新迭代Point-E是一個3D模型生成器,可以在幾分鐘內(nèi)生成3D圖像。Point-E是一個機器學習系統(tǒng),可以通過文本輸入制作3D物體,由OpenAI于2022年12月發(fā)布到開源社區(qū)。Point-E本身包括兩個模型:GLIDE模型和image-to-3D模型。前者類似于DALL-E或StableDiffusion等系統(tǒng),可以從文本描述生成圖像。第二個模型由OpenAI使用圖像和相關(guān)的3D物體進行訓練,學習從圖像中生成相應的點云。NVIDIA:3DMoMa、Magic3D、NVIDIAPicasso與Neuralangelo3DMoMa:從二維圖像中提取三維物體。2022年6月,NVIDIA推出3DMoMa,可通過圖像輸入生成三角網(wǎng)格組成的3D模型,并可直接導入圖形引擎。這項方案的重點是,可直接導入支持三角形建模的3D建模引擎、游戲引擎、電影渲染器,可以在手機、瀏覽器上運行。3DMoMa生成的3D模型自帶三角形網(wǎng)格,將3D模型生成自動化,將有望加速藝術(shù)、游戲、影視等內(nèi)容創(chuàng)作。Magic3D:高分辨率的文本到3D內(nèi)容創(chuàng)建技術(shù)。2022年11月,英偉達推出Magic3D,采用了與DreamFusion類似的兩段式生成技術(shù)路線,但使用不同的生成模型。Magic3D可以在40分鐘內(nèi)創(chuàng)建高質(zhì)量的三維網(wǎng)格模型,比DreamFusion快2倍,并實現(xiàn)了更高的分辨率NVIDIAPicasso:用于構(gòu)建生成式AI視覺應用程序的云服務(wù)。2023年3月,英偉達推出NVIDIAPicasso,企業(yè)、軟件創(chuàng)建者和服務(wù)提供商可以在其模型上運行推理,在專有數(shù)據(jù)上訓練NVIDIAEdify基礎(chǔ)模型,或者從預訓練的模型開始,從文本提示生成圖像、視頻和3D內(nèi)容。Picasso服務(wù)針對GPU進行了全面優(yōu)化,并在NVIDIADGXCloud上簡化了訓練、優(yōu)化和推理。此外,NVIDIA也與Adobe、GettyImages、Shutterstock等企業(yè)進行了合作,共同開發(fā)NVIDIAPicasso模型。Apple:發(fā)布3D生成APIObjectCapture與3D場景生成模型GAUDI2021年6月,蘋果發(fā)布了面向Mac的攝影測量API“ObjectCapture”。AppleObjectCapture為Apple設(shè)備用戶提供了一種相對快速和簡單的方法來創(chuàng)建現(xiàn)實世界對象的3D表示——這意味著可以將物理對象轉(zhuǎn)換為數(shù)字對象。使用iPhone或iPad,可拍攝對象的照片,并使用macOSMonterey上新的對象捕獲API將其轉(zhuǎn)換為針對增強現(xiàn)實(AR)進行優(yōu)化的3D模型。物體捕捉功能使用攝影測量技術(shù)將iPhone或iPad上拍攝的一系列照片轉(zhuǎn)換為USDZ文件,這些文件可以在“AR快速查看”中查看,無縫整合到Xcode項目中,或在專業(yè)的3D內(nèi)容工作流程中使用。2022年7月,來自蘋果的AI團隊推出了3D場景生成的最新神經(jīng)架構(gòu)——GAUDI。GAUDI是一個能夠捕捉復雜而真實的三維場景分布的生成模型,可以從移動的攝像機中進行沉浸式渲染,采用了一種可擴展但強大的方法來解決這個具有挑戰(zhàn)性的問題。研究人員首先優(yōu)化一個隱表征,將輻射場和攝像機的位置分開,然后將其用于學習生成模型,從而能夠以無條件和有條件的方式生成三維場景。GAUDI在多個數(shù)據(jù)集的無條件生成設(shè)置中取得了sota的性能,并允許在給定條件變量(如稀疏的圖像觀測或描述場景的文本)的情況下有條件地生成三維場景。Google技術(shù)路徑剖析:從DreamFields到DreamFusion的迭代升級DreamFields:訓練DreamFields算法時需要多角度2D照片,完成訓練后便可生成3D模型、合成新視角。而CLIP的作用,依然是評估文本生成圖像的準確性。文本輸入至DreamFields后,未訓練的NeRF模型會從單個視角生成隨機視圖,然后通過CLIP來評估生成圖像的準確性。也就是說,CLIP可以用來糾正和訓練NeRF模型生成圖像。這個過程將從不同的視角重復2萬次,直到生成符合文本描述的3D模型。DreamFusion是一種從文本提示生成3D模型的新方法,它采用了與DreamField類似的方法,但模型中的損失函數(shù)基于概率密度蒸餾,最小化基于【擴散中前向過程共享的高斯分布族】與【預訓練的擴散模型所學習的分數(shù)函數(shù)】之間的KL散度。技術(shù)步驟:先使用一個預訓練2D擴散模型基于文本提示生成一張二維圖像。然后引入一個基于概率密度蒸餾的損失函數(shù),通過梯度下降法優(yōu)化一個隨機初始化的神經(jīng)輻射場NeRF模型。DreamFusion結(jié)合了兩種關(guān)鍵方法:神經(jīng)輻射場和二維擴散。它逐步改進初始的隨機3D模型,以匹配從不同角度顯示目標對象的2D參考圖像:現(xiàn)有AI模型(如Nvidia的InstantNeRF)使用的方法。然而,與InstantNeRF不同,參考不是真實物體的照片,而是由OpenAI的DALL-E2和Stability.ai的StableDiffusion使用的類型的2D文本到圖像模型生成的合成圖像。在這種情況下,2D擴散模型是Google自己的Imagen,但總體結(jié)果是相同的:生成的3D模型與原始文本描述生成的2D參考圖像相匹配。至關(guān)重要的是,整個過程既不需要3D訓練數(shù)據(jù),也無需修改圖像擴散模型,完全依賴預訓練擴散模型作為先驗——這可能為開發(fā)實用的、大眾市場的基于AI的文本到3D工具鋪平了道路。2、生成式AI下游應用場景展望生成式AI將實現(xiàn)對視頻/3D/游戲等下游應用場景的滲透今年以來,我們已經(jīng)看到生成式AI在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論