2024年AI視頻生成研究報(bào)告_第1頁(yè)
2024年AI視頻生成研究報(bào)告_第2頁(yè)
2024年AI視頻生成研究報(bào)告_第3頁(yè)
2024年AI視頻生成研究報(bào)告_第4頁(yè)
2024年AI視頻生成研究報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI視頻生成研究報(bào)告量子位智庫(kù)insights分析師:Xuanhao

2024.73.玩家格局1.技術(shù)側(cè)2.應(yīng)用側(cè)insights2視頻是圖像模態(tài)的進(jìn)一步擴(kuò)展,但由于技術(shù)復(fù)雜,對(duì)于算力、·2022年10月,Google、Meta發(fā)布Phenaki、Make-A-Video數(shù)據(jù)等資源要求較高,成熟相對(duì)文本、圖像較慢

·

2023年下半年,創(chuàng)業(yè)公司推出Runway-Gen2,Stable·領(lǐng)軍企業(yè)已經(jīng)做出標(biāo)桿,顯著加速領(lǐng)域發(fā)展,已出現(xiàn)多家視

VideoDiffusion

、Pika等產(chǎn)品頻生成領(lǐng)域創(chuàng)業(yè)公司,但商業(yè)化、產(chǎn)品化進(jìn)展較慢

·

2024年2月,OpenA

I發(fā)布Sora引發(fā)全球關(guān)注·

目前主要是音樂(lè)生成(語(yǔ)音識(shí)別、克隆暫不納入討論),市

·

2024年2月,Suno.ai發(fā)布Suno

V3場(chǎng)不如圖片生成、視頻生成等領(lǐng)域熱門,比視頻更加早期·

2024年6月,Stability.AI

推出文生音頻模型Stable·

明星創(chuàng)業(yè)公司較少,但有加速的發(fā)展的態(tài)勢(shì)

Audio

Open·

技術(shù)路線目前尚不清晰,垂直明星創(chuàng)業(yè)公司較少,產(chǎn)品大多

·

2020年8月,NeRF

論文發(fā)表處于早期階段,但正在加速發(fā)展·2022年9月,谷歌發(fā)布DreamFusion·

2023年5月,OpenA

I開源Shape-E模型·

2024年7月,Meta

發(fā)布Meta

3D

Gen

1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局

量子位智庫(kù)insights大模型各模態(tài)總覽:多模態(tài)發(fā)展趨勢(shì)清晰,文本、圖像商業(yè)化規(guī)模和成熟度較高,Al視頻生成正在迅速發(fā)展·大語(yǔ)言模型在文字處理上面的卓越表現(xiàn)開啟了生成式AI的浪潮,基礎(chǔ)模型能夠基于語(yǔ)言進(jìn)行推理是智能的重要表現(xiàn)·在各個(gè)領(lǐng)域應(yīng)用最為成熟,例如ChatGPT

日活用戶已經(jīng)突破1

,OpenAI

在2024年6月ARR

的達(dá)到34億美元·

2018年6月,由Alec

Radford主導(dǎo)在0penAI推

出GPT-1·

2020年6月,OpenAl推出GPT-3,

引發(fā)業(yè)界關(guān)注,驗(yàn)證scaling

路線·

2022年11月,ChatGPT

掀起技術(shù)浪潮·ChatGPT·Character.AI●

GeminiAnthropic·Stable

Diffusion

·

Midjourney·Dall-E

3·SoraRunway·

快手可靈·Pixverse·Suno·StableAudio·Luma.AIMeshy量創(chuàng)作者和用戶關(guān)注,成熟度僅次于文本模態(tài)·Midjhouney

已有超過(guò)2000萬(wàn)用戶,在無(wú)投資的情況自我造血,在2023年的營(yíng)收超過(guò)2億美元·

2022年8月,StableDiffusion在Stability.ai的支持下開源,推動(dòng)社區(qū)在圖像領(lǐng)域快速發(fā)展·

2023年3月,Midjourney

V5發(fā)布,迅速成為現(xiàn)象級(jí)應(yīng)用更點(diǎn)視頻圖像文本音頻3D·

文生圖領(lǐng)域產(chǎn)生了僅次于基礎(chǔ)模型的殺手級(jí)應(yīng)用,獲得了大

·

2021年1月,OpenA

I發(fā)布初代文生圖模型DALL-E概況

關(guān)鍵節(jié)點(diǎn)信息來(lái)源:量子位智庫(kù)代表應(yīng)用成熟度3····采用傳統(tǒng)的計(jì)算機(jī)視覺(jué)

(CV)

、計(jì)算機(jī)圖形學(xué)(CG)技術(shù),但生成功能有限,主要是一些局

部的垂點(diǎn)功能·例如效果生成,在現(xiàn)有視頻上添加多種效果,如濾鏡、光影、風(fēng)格化、美顏特效等。也可以

做局部動(dòng)態(tài)化,如人物的面部表情生成、搞笑

表情、爆款特效、舞蹈動(dòng)作生成等·

有一定創(chuàng)意空間,生成部分新元素,成本低但應(yīng)用的場(chǎng)景有限·采用基于Transformer或者擴(kuò)散模型的大模型路線,可以通過(guò)自然語(yǔ)言或者指導(dǎo)圖進(jìn)行全局生成(但也可以嵌入已有內(nèi)容),視頻的內(nèi)容、風(fēng)格、長(zhǎng)短、分辨率、寬高比都可以進(jìn)行靈活調(diào)整·例如生成天馬行空的創(chuàng)意視頻、藝術(shù)視頻、卡通視頻等等,非常靈活·

創(chuàng)意空間無(wú)限,所有的元素都是全新生成,現(xiàn)階段成本高昂,但天花板高,應(yīng)用場(chǎng)景廣泛技術(shù)趨勢(shì):視頻生成正在由檢索生成、局部生成走向依靠自然語(yǔ)言提

示詞的全量生成,生成內(nèi)容更加靈活豐富,應(yīng)用空間廣闊無(wú)新增內(nèi)容

部分新增內(nèi)容

全量新增內(nèi)容信息來(lái)源:量子位智庫(kù)

4特點(diǎn)僅針對(duì)視頻的一部分進(jìn)行生成,例如視頻中人物角色、

動(dòng)作、背景、風(fēng)格化、特殊

效果等·通過(guò)文字、圖片、視頻作為提示

詞來(lái)進(jìn)行憑空生成,不依賴外部

素材,核心在于大模型的能力特點(diǎn)特點(diǎn)·采用傳統(tǒng)的跨模態(tài)視頻檢索技術(shù),通過(guò)視頻標(biāo)簽的或者視頻語(yǔ)義理解的方式從數(shù)據(jù)庫(kù)中的檢

索,再將這些素材進(jìn)行剪輯、組合拼接在一起,

本質(zhì)上還是鍵值對(duì)匹配的邏輯·例如短視頻平臺(tái)的知識(shí)類視頻、解說(shuō)類視頻,

通過(guò)文本關(guān)鍵字在數(shù)據(jù)庫(kù)中進(jìn)行素材檢索,然

后在進(jìn)行拼接組合生成·

創(chuàng)意空間有限,沒(méi)有貢獻(xiàn)增量素材,但成本極

低,生成速度極快提示詞生成

檢索生成主要是對(duì)現(xiàn)有的視頻素材根據(jù)關(guān)鍵詞和標(biāo)簽進(jìn)

行檢索匹配,再進(jìn)行相應(yīng)的

拼接和排列組合1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局局部生成

--insights檢索生成·

2022年12月Diffusion

Transformer論文發(fā)表·

2024年2月OpenA

I發(fā)布Sora,取得驚艷的生成效果,驗(yàn)證了

Diffusion和Transformer結(jié)合的有效性·Sora、Videopoet、W.A.L.T·

由于領(lǐng)軍企業(yè)的示范效應(yīng),Diffusion

Transformer已經(jīng)成為視頻

生成領(lǐng)域的核心路線,領(lǐng)域內(nèi)其他玩家都開始聚焦DiT并取得進(jìn)展·

目前業(yè)界對(duì)于Sora的架構(gòu)大多是猜想,從架構(gòu)大方向上接近,但

具體細(xì)節(jié)上不同模型、產(chǎn)品各異·

可擴(kuò)展性強(qiáng):基于擴(kuò)散模型的視頻模型,核心的構(gòu)件是卷積神經(jīng)網(wǎng)絡(luò)U-Net,隨著模型規(guī)模scaleup增益會(huì)放緩甚至消失。DiT(Diffusion

Transformer)

將傳統(tǒng)擴(kuò)散模型的U-Net替換為

Transformer,從而能夠?qū)崿F(xiàn)更強(qiáng)的可拓展性·

長(zhǎng)期來(lái)看語(yǔ)言模型路線1可成為主要路線,可以將多種模態(tài)融合到

一起(由于架構(gòu)的成熟和優(yōu)良的擴(kuò)展性)技術(shù)趨勢(shì):視頻生成正由擴(kuò)散模型主導(dǎo)的格局走向與語(yǔ)言模型結(jié)合的路

,Transformer

將在視頻生成方面發(fā)揮主導(dǎo)作用

探索期-

早期增長(zhǎng)期-未來(lái)方向

·

2014年GAN發(fā)表,2016年左右開始用于視頻生成·

2013年VAE出現(xiàn),可以通過(guò)編

碼器和解碼器的機(jī)制學(xué)習(xí)數(shù)據(jù)

的潛在表示Text2Filter、TGANs-C,VGAN、TGAN、VideoGPT、MoCoGAN、

DVD-GAN、DIGAN·

應(yīng)用范圍有限(只能總特定生成,例如數(shù)字),生成分辨率低、生

成時(shí)長(zhǎng)極短·

生成多樣性差:生成器-判別

器對(duì)抗的模型架構(gòu)決定生成效

果逼真但多樣性、創(chuàng)造性差,

很難泛化·

生成速度快:

GAN可以一次出

圖,無(wú)需做多步推理·

2020年DDPM論文發(fā)表●2021年LatentDiffusionModels論文發(fā)表·2022年

VideoDiffusionModel

發(fā)

表·Stable

Video

Diffusion、

Make-A-Video、RunwayGen1/2、Video

LDM·

由于SD的開源激發(fā)社區(qū)創(chuàng)新,推動(dòng)擴(kuò)散模型在視覺(jué)生成領(lǐng)

域占據(jù)主導(dǎo)地位·生成質(zhì)量高:

生成效果好,細(xì)

節(jié)豐富清晰,訓(xùn)練要遠(yuǎn)比GAN

穩(wěn)定·顯存開銷大:

視頻生成有大量

相關(guān)依賴關(guān)系的圖片同時(shí)生成,

對(duì)計(jì)算顯存有極高要求·2017年Transformer發(fā)表,逐步向各個(gè)領(lǐng)域滲透,早期在視

頻生成領(lǐng)域也有嘗試·

2021年Google發(fā)布VideoVision

Transformer·GODIVA、VideoGPT、Phenaki、CogVideo、NUWA·早期基于Transformer的視頻生成效果有限,在當(dāng)時(shí)的成本

比較高·可擴(kuò)展性強(qiáng):Scaleup路線上

目前最好的架構(gòu)·

生成速度慢、開銷大:需要把圖片進(jìn)行分割再轉(zhuǎn)換成超長(zhǎng)

序列,計(jì)算量隨分辨率增加平

方級(jí)增加,復(fù)雜度高GAN

TransformerDiffusionModel

Diffusion+Transformer技

術(shù)

節(jié)

點(diǎn)案

例特

點(diǎn)1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局信息來(lái)源:量子位智庫(kù),1)在視頻生成的語(yǔ)境insights5·視頻訓(xùn)練數(shù)據(jù)示例·

高質(zhì)量數(shù)據(jù)少:

最佳的訓(xùn)練數(shù)據(jù)是高質(zhì)量的視頻-文本

對(duì),即針對(duì)一段視頻,有與之對(duì)應(yīng)詳細(xì)準(zhǔn)確的文字描述,

互聯(lián)網(wǎng)上大部分的視頻數(shù)據(jù)都難以滿足需求(如數(shù)據(jù)不

準(zhǔn)確甚至是錯(cuò)的),此外視頻數(shù)據(jù)的寬高比、分辨率、時(shí)長(zhǎng)各異,需要進(jìn)一步處理。數(shù)據(jù)量方面,Sora

的訓(xùn)

練數(shù)據(jù)可能超過(guò)500萬(wàn)小時(shí)的精良視頻·

公開數(shù)據(jù)質(zhì)量低:

公開數(shù)據(jù)集例如WebVid(1070

萬(wàn)個(gè)文本視頻對(duì),僅5.2萬(wàn)小時(shí))、

HowTo100M總時(shí)長(zhǎng)超10萬(wàn),

但都是4s的短視頻)、CelebV-Text

(超7萬(wàn)個(gè)人臉-文本

片段描述),數(shù)據(jù)量小且質(zhì)量低·

版權(quán)數(shù)據(jù)獲取難:

例如電影、記錄片、動(dòng)漫、MV等影

視作品,內(nèi)容平臺(tái)版權(quán)庫(kù),以及YouTube

、抖音等UGC內(nèi)

容,成本高且有版權(quán)限制Sora架構(gòu)(推測(cè))·

時(shí)間維度增加復(fù)雜性:視頻生成在圖像的基礎(chǔ)上增加

了時(shí)間維度,例如針對(duì)時(shí)間維度和空間維度結(jié)合做數(shù)據(jù)

表示,這對(duì)可擴(kuò)展性、視頻生成的時(shí)長(zhǎng)和生成效果一致

性方面有重大影響·

視頻生成更難規(guī)?;?/p>

(scale)

:對(duì)于語(yǔ)言模型而言,

可以進(jìn)行大規(guī)模的自監(jiān)督學(xué)習(xí),而圖像和視頻生成模型

需要進(jìn)行圖像-文本或視頻-文本對(duì)標(biāo)注做監(jiān)督學(xué)習(xí),規(guī)

?;碾y度更大,這是視頻模型和LLM的本質(zhì)差異·Tokenizer

設(shè)計(jì)更復(fù)雜:文本模態(tài)的tokenizer更成熟,

語(yǔ)言已經(jīng)過(guò)人類智能的一次壓縮,但圖像是現(xiàn)實(shí)世界的

原始信息,信息密度較低,需要重新設(shè)計(jì)更好的tokenizer量子位智庫(kù)insights技術(shù)挑戰(zhàn):算力需求大,數(shù)據(jù)要求高,算法復(fù)雜是目前制約視頻生成模型能力的三大挑戰(zhàn)AI計(jì)算卡示例·

訓(xùn)練視頻生成大模型所需要的計(jì)算量遠(yuǎn)高于一般的

文本和圖像模型,這導(dǎo)致開源社區(qū)和學(xué)術(shù)界等相對(duì)

業(yè)界算力不足的玩家難以參與,學(xué)界在視頻基礎(chǔ)模

型上工作較少,相關(guān)的模型和科研成果多出自互聯(lián)

網(wǎng)公司和主打視頻生成的商業(yè)技術(shù)公司·

以Sora為例,從訓(xùn)練側(cè)看,訓(xùn)練成本大約為數(shù)十萬(wàn)英偉達(dá)H100GPU

hours

(據(jù)估算),需要千卡GPU

的計(jì)算集群,以H100的使用價(jià)格約為3$/h估算,Sora

的訓(xùn)練成本可能達(dá)數(shù)千萬(wàn)至上億美元·

從推理側(cè)看1,價(jià)格方面目前Sora每分鐘的推理成本

約數(shù)十美元,成本高昂;生成時(shí)長(zhǎng)方面,單個(gè)視頻

生成時(shí)長(zhǎng)超過(guò)10min,推理速度很慢PixelVideoSpaceCompactLatent

SpaceCean(HxWT4CTmcuelNosr

LsrentteratxCodlicmt信息來(lái)源:量子位智庫(kù),OpenAI,

英偉達(dá),《s

,1)推理速度除模型外也看算力供給

6Alarge,vibrantbirdwithanimpressivewingspanswOopsdownfrom

thesky,let-

tingoutapiercing

call

as

it

approaches

a

weathered

scarecrow

in

a

sunlit

field.Thescarecrow,dressedintatteredcloth-

ing

and

a

straw

hat,appears

to

tremble,

almost

asifit's

comingto

life

in

fear

of

theapproachingbird.1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局算

大數(shù)

據(jù)

高算

復(fù)

雜<圖像\視頻,文字描述>ImagesQryideofamConditioringPmmp·

英偉達(dá)目前占據(jù)全球高端GPU市場(chǎng)超95%的市場(chǎng)份額,是事實(shí)上生成式AI全行業(yè)算力市場(chǎng)

供給量的決定者·

英偉達(dá)的人工智能GPU在2022年出貨量約270

萬(wàn),主要以A100為主;2023年出貨量約380萬(wàn)

塊,主要以A100和H100為主;預(yù)計(jì)2024年出貨量可能達(dá)到450萬(wàn)塊,以H100和最近發(fā)布的

Blackwell系列為主·預(yù)計(jì)英偉達(dá)GPU交付量將保持20%的增速,并在每年進(jìn)行芯片架構(gòu)的升級(jí),穩(wěn)步提升芯片

和系統(tǒng)的計(jì)算能力·

目前北美最頭部的科技公司都在重金押注AI

數(shù)據(jù)中心建設(shè),以規(guī)模最大的4家公司為例,

預(yù)計(jì)2024年在數(shù)據(jù)中心上的投入將達(dá)到1500

億美元左右,在一定程度代表了領(lǐng)軍玩家對(duì)

于大模型的信心和預(yù)期云廠商旗下的數(shù)據(jù)中心既支持內(nèi)部業(yè)務(wù)需求,也對(duì)外提供GPU算力,將逐步滿足市場(chǎng)對(duì)于

算力的需求,支持各類模型的訓(xùn)練和推理·數(shù)據(jù)中心成本主要包括AI服務(wù)器的采買、土建成本、電力系統(tǒng)、制冷系統(tǒng)、監(jiān)控系統(tǒng)等amazon5003804002302001000Meta

AmazonGoogleMicrosoft900+20%NVIDIA。600450270300A100GB20002022OpenAISora示

例·

從OpenAISora的實(shí)踐成果來(lái)看,繼續(xù)增加模型的數(shù)據(jù)量和相應(yīng)的參數(shù)規(guī)

(Scale

up)依然是AI發(fā)展的核心

路線,強(qiáng)大算力支持是模型進(jìn)步的必

要支撐·

模型能力:scale之后可以涌現(xiàn)出更

多高級(jí)特性,例如:1)隨著鏡頭的

旋轉(zhuǎn)和移動(dòng),人物、對(duì)象、場(chǎng)景在三

維世界中保持穩(wěn)定真實(shí),2)模型可

以模擬距離關(guān)系和空間關(guān)系,生成針

對(duì)一個(gè)角色的多個(gè)鏡頭,3)模擬生

成內(nèi)容中的物理交互關(guān)系·

應(yīng)用成本:視頻模型的推理成本較高,需要大規(guī)模的推理算力來(lái)支持市場(chǎng)的

大規(guī)模應(yīng)用,充沛的算力供給將推動(dòng)

視頻生成從實(shí)驗(yàn)階段推向商業(yè)化普及技術(shù)驅(qū)動(dòng):視頻生成模型的能力將在算力驅(qū)動(dòng)下快速進(jìn)步,穩(wěn)定性、可控性、豐富度將持續(xù)提升,解鎖更多應(yīng)用空間

北美巨頭數(shù)據(jù)中心2024年Capex投入預(yù)期(億/美元)

關(guān)

計(jì)算量x1

計(jì)算量x4計(jì)算量x32

英偉達(dá)人工智能GPU出貨量持續(xù)增加(萬(wàn)張)1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局540GB200

十B系列

UItra2025E信息來(lái)源:量子位智庫(kù),MorganStanleyG400insightsRubin系列380A100H10020232024E2026EH1006504403006007技術(shù)驅(qū)動(dòng):視頻生成的推理成本將持續(xù)下降,生成速度進(jìn)一步提高,

加速應(yīng)用層技術(shù)擴(kuò)散和商業(yè)化規(guī)模增長(zhǎng)英偉達(dá)GPU產(chǎn)品及其算

力(FP16,TFLOPS)5,0004,0002,0006201300Ampere

Hopper

Blackwell

Robin2

模型應(yīng)用的成本將不斷降低·

降本趨勢(shì):視覺(jué)模型的價(jià)格快速下降

尚未開始,但隨著市場(chǎng)需求驅(qū)動(dòng)和產(chǎn)

品化的成熟,類似LLM的降價(jià)趨勢(shì)也

將出現(xiàn)在視頻模型上·FLOPs

成本下降:?jiǎn)挝挥?jì)算量的成本

將持續(xù)降低,主要來(lái)源于芯片架構(gòu)的

提升和服務(wù)器、數(shù)據(jù)中心系統(tǒng)優(yōu)化·

軟件層優(yōu)化:從LLM來(lái)看,推理成本

正在迅速降低,頭部模型在過(guò)去一年

降幅約90%,降本趨勢(shì)將持續(xù)·

當(dāng)前痛點(diǎn):目前制約視頻生成應(yīng)用普

及的重要因素之一是生成速度,生成

5s左右的視頻需要等待數(shù)分鐘,且需

要嘗試多次才能獲得理想結(jié)果,對(duì)用

戶體驗(yàn)造成的影響較大●

加速生成:?jiǎn)慰ㄐ酒懔μ嵘拖到y(tǒng)、集群上面的優(yōu)化可以大幅增加模型推

理速度(tokens/秒),縮短視頻生成的等待時(shí)間10

硬件的計(jì)算能力、推理速度不斷提升英偉達(dá)GPU的算力成本估算(美元/TFLOPs)

OpenAI旗艦?zāi)P偷耐评沓杀?美元/百萬(wàn)token)1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局B系統(tǒng)層性能提升A

芯片層成本優(yōu)化A

芯片層性能提升關(guān)鍵分析信息來(lái)源:量子位智庫(kù),英偉達(dá),OpenAI,MorgB系統(tǒng)層成本優(yōu)化insights8,0006,0002,000Volta3008物理世界交互·

具身智能·

自動(dòng)駕駛●數(shù)字世界交互·

智能管家·

擬Agent●

●System

復(fù)雜推理·

長(zhǎng)線規(guī)劃●

●Scaling

LawsGPT-3.5語(yǔ)言模型DALL-E視覺(jué)模型Whisper音頻模型早期階段·

內(nèi)容生成和理解獨(dú)立·

不同模態(tài)相互獨(dú)立GPT-4V多模態(tài)大模型“Everything

to

Everything”

統(tǒng)一生成和理解Sora目前各個(gè)模態(tài)正在相互融合:·Text-to-Video:OpenAISora打通文字與視覺(jué)·Audio-to-Audio:GPT-4o

實(shí)現(xiàn)音頻交流·Text-to-Audio:Suno

打通文字與音樂(lè)·Video-to-Audio:Deepmind

發(fā)布匹配Veo的視頻生音頻技術(shù)關(guān)鍵分析·

生成和理解在本質(zhì)上是統(tǒng)一的,語(yǔ)言模型的next

tokenprediction

越準(zhǔn)確,意味著

模型對(duì)于語(yǔ)言和世界的理解

越準(zhǔn)確。對(duì)于視頻模型,對(duì)

下一幀或下一個(gè)patch1的預(yù)

測(cè)的越準(zhǔn)確,上代表了模型

對(duì)物理世界的理解越準(zhǔn)確●視頻模態(tài)包含大量信息:從仿生的角度看,人腦有80%

的信息來(lái)自視覺(jué),因此視覺(jué)

信息的理解與生成對(duì)于多模

態(tài)大模型至關(guān)重要·

視覺(jué)模型可以壓縮一切:“當(dāng)多模態(tài)訓(xùn)練達(dá)到一定規(guī)

模時(shí),語(yǔ)言智能就會(huì)融入到

視覺(jué)智能中,這是一條獲得

世界模擬器的路徑,可以通

過(guò)這樣的模擬器獲得任何東西?!?--Aditya

Ramesh,

OpenAI

Sora及DALL-E

項(xiàng)目

負(fù)責(zé)人9技術(shù)展望:視頻生成模型不僅限于生成視頻內(nèi)容,長(zhǎng)期將統(tǒng)一多模態(tài)的生成和理解,成為通向AGI的重要路徑1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局信息來(lái)源:量子位智庫(kù),1)patch是OpenAI

So量子位智庫(kù)insights多模態(tài)生成多模態(tài)理解數(shù)據(jù)算法算力2.應(yīng)用側(cè)3.玩家格局1.技術(shù)側(cè)insights10海外視頻應(yīng)壓平

臺(tái)用戶年?duì)I收長(zhǎng)視頻平臺(tái)D

YouTube25

億MAU2.7億315億美元

340億美元1.5億MAU84億美元短視頻平臺(tái)

TikTok20億MAU

1

6

億MAU100億美元+

160億美元電影市場(chǎng)(年度票房)N/A330億美元(全球)1000視頻流量占互聯(lián)網(wǎng)網(wǎng)絡(luò)流量比例(%)2017·

2017到2022年,全球互聯(lián)網(wǎng)視頻流量

占消費(fèi)互聯(lián)網(wǎng)流量的比例從73%增長(zhǎng)到

82%,成為流量最大的內(nèi)容形式·2022年,每月有500萬(wàn)年的視頻內(nèi)容通

過(guò)互聯(lián)網(wǎng)傳輸。相當(dāng)于每秒鐘有110萬(wàn)

分鐘的視頻被流式傳輸或下載人4

小時(shí)·

內(nèi)容視頻化是大勢(shì)所趨,移動(dòng)互聯(lián)網(wǎng)的

用戶使用總時(shí)長(zhǎng)占比中,短視頻穩(wěn)居第

一達(dá)到28%·移動(dòng)視頻行業(yè)用戶規(guī)模達(dá)10.76億,月人均時(shí)長(zhǎng)為64.2小時(shí),視頻平臺(tái)成為流量

核心,可以將用戶引向電商、音樂(lè)、影

視、本地生活、旅游服務(wù)等等垂直賽道·

從消費(fèi)端來(lái)看,視頻是用

戶消費(fèi)時(shí)間最長(zhǎng)的內(nèi)容形態(tài),有豐富的應(yīng)用的場(chǎng)景

和大型內(nèi)容分發(fā)平臺(tái),長(zhǎng)

期或有誕生超級(jí)應(yīng)用的機(jī)

會(huì)·

著AI視頻生成的能力不

,AI生成視頻占視

頻消費(fèi)內(nèi)容的比例將不斷提升,推動(dòng)內(nèi)容供給端變

革,逐步滲透視頻消費(fèi)市

場(chǎng)場(chǎng)景廣闊:互聯(lián)網(wǎng)內(nèi)容正在全面視頻化,視頻內(nèi)容的消費(fèi)場(chǎng)景豐富,

AI視頻內(nèi)容生成的潛在市場(chǎng)規(guī)模巨大230億

1500億1135億視頻流量是主要的互聯(lián)網(wǎng)信息流量騰訊視頻4

億MAU

3.4億MAU1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局視頻是移動(dòng)互聯(lián)網(wǎng)最大的內(nèi)容消費(fèi)形式抖音8

+MAU平

臺(tái)用戶

關(guān)鍵分析faIYI愛奇藝信息來(lái)源:量子位智庫(kù),Questmobile,Cisco本土視頻應(yīng)用7

+MAU

N/Ainsights年?duì)I收快手550億(本土)100億+320億5

億MAU量子位智11電影制作電視劇制作2027游戲設(shè)計(jì)微電影動(dòng)漫劇集2025

短視頻創(chuàng)

意MV動(dòng)畫短片

早期階段模型能力品

牌TVC

的提升將是驅(qū)動(dòng)應(yīng)2023

短劇

用的主導(dǎo)因素繪本故事空鏡素材·模型能力:

實(shí)現(xiàn)復(fù)雜語(yǔ)義理解,同時(shí)滿足多個(gè)生成條件,視頻的活動(dòng)度、豐富度、穩(wěn)定性可以媲美影視級(jí)內(nèi)容,有效時(shí)長(zhǎng)超過(guò)一分鐘,在部分場(chǎng)景可以充分滿足需求。1分鐘的視頻片段生成時(shí)間縮短到到分鐘級(jí)·

經(jīng)濟(jì)性:推理成本下降1個(gè)數(shù)量級(jí)·

產(chǎn)品:視頻模型與傳統(tǒng)工作流進(jìn)行深度集成,同時(shí)萌生

AI原生工作流,商業(yè)化規(guī)模達(dá)到Midjourney

的水平●

模型能力:

生成視頻時(shí)長(zhǎng)度短、活動(dòng)度低、穩(wěn)定差,人

物對(duì)象、背景經(jīng)?;?。語(yǔ)言理解能力有限,只能理解

簡(jiǎn)單指令,難以同時(shí)滿足多個(gè)生成條件,指令遵從能力

差,10秒左右視頻片段需要3-5分鐘生成·經(jīng)濟(jì)性:成本高昂,每分鐘視頻約3美元1·產(chǎn)品:簡(jiǎn)單的文成視頻、圖生視頻功能,以網(wǎng)頁(yè)端和移

動(dòng)的簡(jiǎn)單應(yīng)用為主,功能較為單薄應(yīng)用趨勢(shì):2024年將成為Al視頻的應(yīng)用元年,未來(lái)3-5年更多應(yīng)用場(chǎng)景

將隨著模型能力提升和推理成本下降逐步解鎖推理經(jīng)濟(jì)性信息來(lái)源:量子位智庫(kù),1)參考Runway的公開

12·

模型能力:

通過(guò)自然語(yǔ)言及其他方式可以實(shí)現(xiàn)對(duì)內(nèi)容的精準(zhǔn)控制,深度理解物理世界規(guī)律,穩(wěn)定性、豐富度達(dá)

到在各個(gè)領(lǐng)全面達(dá)到商用水準(zhǔn)。1分鐘的視頻片段生成

時(shí)間達(dá)到縮短到數(shù)秒,接近實(shí)時(shí)生成·

經(jīng)濟(jì)性:視頻生成的成本繼續(xù)降低1個(gè)數(shù)量級(jí)·產(chǎn)品:新一代視頻交互界面開始普及,視頻生成內(nèi)容融

入大部分視頻制作場(chǎng)景,重塑內(nèi)容生態(tài)新內(nèi)容形式?新消費(fèi)平臺(tái)?互動(dòng)式電影確認(rèn)PMF后推理成本的下降將成為大規(guī)模普及的主導(dǎo)因素1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局發(fā)展階段早期階段量子位智insights模型能力2029AI視頻生成成本約300美元/分鐘1·AI

視頻生成的成本遠(yuǎn)遠(yuǎn)低于影視行

業(yè)的制作成本,有若干個(gè)數(shù)量級(jí)的降

本效果,但目前阻礙應(yīng)用的主要因素

是模型能力不足,生成效果尚無(wú)法與

傳統(tǒng)制作方式競(jìng)爭(zhēng),但預(yù)期模型能力

將持續(xù)迭代,未來(lái)3-5年達(dá)到可以與

傳統(tǒng)制作方式的媲美的水平·

動(dòng)畫類電影的制作成本尤其高,需要

渲染大量的2D和3D內(nèi)容,傳統(tǒng)制作方

式包括角色建模、場(chǎng)景貼膜、紋理貼

圖、渲染合成等環(huán)節(jié),需要數(shù)百人耗

時(shí)數(shù)月進(jìn)行制作,工程量非常大,視

頻生成可以大量削減制作成本的·

局部應(yīng)用已經(jīng)開始:在對(duì)于制作質(zhì)量

要求較低、制作方式和內(nèi)容較為模板

化的短劇行業(yè),已經(jīng)出現(xiàn)Al短劇生成

的應(yīng)用,例如Reel.AI成本驅(qū)動(dòng):AI生成視頻的成本遠(yuǎn)低于各類現(xiàn)有視頻內(nèi)容的制作成本,

將逐漸驅(qū)動(dòng)視頻生成內(nèi)容滲透到各內(nèi)容種類每分鐘制作成本(美元)200萬(wàn)50萬(wàn)10萬(wàn)2000030003000

視頻種類

不同類型視頻內(nèi)容制作成本1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局動(dòng)畫、動(dòng)漫本土流水線短劇本土動(dòng)畫電影(《白蛇緣起》、《哪吒》、《熊出沒(méi)系列》等)關(guān)鍵分析頂級(jí)動(dòng)畫電影(出自迪士尼、皮克斯等)信息來(lái)源:量子位智庫(kù),專家訪談,1)Runway

量子位智庫(kù)insights21STCENTURYFOX好萊塢電影平均成本P

I

X

A

RM

A

T普通UGC視頻本土TVC視頻UNIVERSAL13廣告領(lǐng)域已具備應(yīng)用價(jià)值,但仍存在諸多局限1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局

智庫(kù)insights

應(yīng)用案例-MV、品牌廣告:Sora作為目前頭部模型,在創(chuàng)意視頻和品牌創(chuàng)意短片《Air

Head》--

2024年3月可控性差······

時(shí)長(zhǎng)1分20秒,由Shy

Kids團(tuán)隊(duì)3人花費(fèi)2

周時(shí)間完成制作,總體呈現(xiàn)效果精良抽卡率高,生成素材可用率約300:1片段間一致性差:

難以保證人物在不同

視頻片段之間的一致性,目前只能通過(guò)

詳細(xì)的提示詞描述來(lái)彌補(bǔ),但效果欠佳

鏡頭難以控制:對(duì)于專業(yè)攝影術(shù)語(yǔ)理解

有限,類似鏡頭平移的功能需要通過(guò)后

期裁剪實(shí)現(xiàn)生成穩(wěn)定性低:同樣的提示詞會(huì)產(chǎn)生不同的生成內(nèi)容,例如要求生成黃色氣球

但實(shí)際生成式紅色生成能力局限:生成的氣球上總會(huì)有面

部表情,需要后期抹除,不同片段畫面

風(fēng)格難以保持一致,需要后期統(tǒng)一調(diào)色

14·

時(shí)長(zhǎng)1分06秒,由玩具反斗城團(tuán)隊(duì)和導(dǎo)演Nik

Kleverov共同構(gòu)思制作,并在戛

納國(guó)際創(chuàng)意節(jié)亮相·Sora

生成的第一個(gè)商業(yè)廣告,效果接近

可以和傳統(tǒng)品牌短片的水準(zhǔn),可以傳

達(dá)品牌方的關(guān)鍵視覺(jué)元素和風(fēng)格·人物角色的細(xì)節(jié)在不同片段一致性不足(例如衣物細(xì)節(jié)顏色、紋理、眼鏡樣式、

細(xì)節(jié)面部特征等細(xì)節(jié)有輕微畸變)·

背景元素存在畸變,例如背景中的自行

車的有畸變特征·

然Sora

原生支持1080P視頻生成,但由于生成速度太慢團(tuán)隊(duì)選擇生成480P的視

頻,再用其他工具再后期進(jìn)行超分處理,

生成3-20秒的視頻需要10-20分鐘的生成

時(shí)間(和云算力供給也有關(guān))·

為了避免版權(quán)問(wèn)題,OpenAI對(duì)提示詞進(jìn)行了限制,例如拒絕生成“35mm膠卷,

未來(lái)宇宙飛船中,

一名男子拿著光劍靠

近”類似星球大戰(zhàn)的提示詞品牌廣告《玩具反斗城的起源》

---2024年6月信息來(lái)源:量子位智庫(kù),量子位,Shy

kids,T生成速度慢版權(quán)限制不足之處

Reel.Al一

ReelDiffusion·Al

短片《M.A.D》(俱皆

毀滅),在全球AI電影馬

拉松大賽上榮獲B站觀眾

選擇獎(jiǎng)。該短片利用CreativeFitting

自研的

視頻大模型ReelDiffusion

生成,效果媲美傳統(tǒng)動(dòng)畫短片·ReelDiffusion

大模型在敘事型視頻的生成

方面能力領(lǐng)先·模型支持人物角色的細(xì)膩

情感表達(dá)及復(fù)雜場(chǎng)景的生

成,從算法到訓(xùn)練數(shù)據(jù)及

工程實(shí)現(xiàn),都進(jìn)行了專門

設(shè)計(jì),幫助創(chuàng)作者講述引

人入勝的故事·

動(dòng)畫短劇生成要比普通

短劇生成更加成熟(井英科技生成的AI短劇)30分鐘用戶日均使用時(shí)長(zhǎng)15%付費(fèi)用戶長(zhǎng)期留存·

市場(chǎng)空間大:2024年短劇在國(guó)內(nèi)的市場(chǎng)規(guī)模為400-500億元,已經(jīng)接近國(guó)內(nèi)電影

市場(chǎng)規(guī)模,海外市場(chǎng)發(fā)展情況和滲透率要低于本土,市場(chǎng)空間更加廣闊·

制作效果接近成熟:目前AI短劇的制作水平還難以與傳統(tǒng)實(shí)拍模式媲美,但在的

動(dòng)畫短劇領(lǐng)域已基本達(dá)到可用水平。隨著模型能力逐步迭代,未來(lái)一年內(nèi)普通的

短劇生成也將達(dá)到用戶可消費(fèi)的水平·

制作流程介紹:目前采用與外部導(dǎo)演合作的模式,1)由導(dǎo)演進(jìn)行劇本創(chuàng)作,并

將其分解為分鏡劇本,2)井英科技將分鏡劇本轉(zhuǎn)化為提示詞并輸入視頻生成模

型中(該環(huán)節(jié)替代了短劇演員)獲得結(jié)果,3)導(dǎo)演從生成結(jié)果中中選擇滿意的

分鏡視頻,或再通過(guò)提示詞進(jìn)行二次生成調(diào)整,4)選定視頻后在傳統(tǒng)視頻工作

流中進(jìn)行后期的剪輯和處理·

互動(dòng)功能:用戶在App內(nèi)可與短劇主角聊天,類似Character.AI,可增加用戶粘性

1.技術(shù)側(cè)2.應(yīng)用側(cè)

3.玩家格局

量子位智insights應(yīng)用案例-短劇、動(dòng)畫:井英科技發(fā)布Al短劇APP

Reel.AI,自研短劇

視頻生成模型Reel

Diffusion,生成效果接近可消費(fèi)水平

15(Reel

Diffusion生成的動(dòng)畫短劇)信息來(lái)源:量子位智庫(kù),井英科技insights

應(yīng)用趨勢(shì):視頻生成模型正在賦能傳統(tǒng)視頻制作工作流,目前主要價(jià)值在于素材生成環(huán)節(jié),其他環(huán)節(jié)有少量滲透中期制作后期制作素材拍攝

素材選取

剪輯

渲染/音效·

視頻生成模型縮短視頻生產(chǎn)周期,快速進(jìn)行創(chuàng)意驗(yàn)證,

生成粗略的原型視頻,加快

創(chuàng)意、情節(jié)構(gòu)思規(guī)劃過(guò)程·

通過(guò)大量新素材和創(chuàng)意素材

可以進(jìn)一步激發(fā)創(chuàng)造力,提

升內(nèi)容創(chuàng)作質(zhì)量·

添加視覺(jué)特效,確保效果自然、完成顏色校正、調(diào)色與整體風(fēng)格一致·

同步處理音頻素材,確

保對(duì)白清晰、搭配音效,

增強(qiáng)視頻的聽覺(jué)效果·

故事創(chuàng)意、主題風(fēng)格構(gòu)

思,明確故事大綱,如

主要情節(jié)和角色發(fā)展·

將大綱擴(kuò)展成完整的劇

本,包括對(duì)白、場(chǎng)景描

述和情節(jié)細(xì)節(jié)·

根據(jù)情節(jié)和主題需要進(jìn)行素材整理、分類、剔

除無(wú)效素材·

對(duì)于無(wú)須拍攝類內(nèi)容,

需要從素材庫(kù)進(jìn)行素材

選取文字劇本視覺(jué)化,確定鏡頭類型、鏡頭運(yùn)動(dòng)、

角色位置和動(dòng)作編制鏡頭列表,包括每

個(gè)鏡頭的編號(hào)、描述、

拍攝角度、鏡頭運(yùn)動(dòng)等·

傳統(tǒng)工作流在后期階段對(duì)于質(zhì)量的要求較為精

細(xì),目前視頻生成模型

的后期編輯功能還不能

充分滿足需求·

初步剪輯、邏輯剪輯,

拼接出粗略的視頻版本·精剪微調(diào),對(duì)影片進(jìn)行精細(xì)剪輯,調(diào)整鏡頭長(zhǎng)

度、順序、節(jié)奏等前期制作大綱腳本

分鏡規(guī)劃·

根據(jù)分鏡規(guī)劃制定拍攝計(jì)劃,完成器材準(zhǔn)備和

技術(shù)測(cè)試、準(zhǔn)備演員、

服化道及布景設(shè)置1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局Office365

+各種生產(chǎn)力軟件A

Adobeshutterstsck信息來(lái)源:量子位智庫(kù),OpenAI相互激發(fā)

通用素材生成視

點(diǎn)Au

內(nèi)

容工具量子位智16傳統(tǒng)混合

Office365

+各種生產(chǎn)力軟件·

快速進(jìn)行創(chuàng)意驗(yàn)證,生成粗略的原型視頻,

加快創(chuàng)意、情節(jié)構(gòu)思規(guī)劃過(guò)程。通過(guò)大量新

素材和創(chuàng)意素材可以進(jìn)一步激發(fā)創(chuàng)造力,提

升內(nèi)容創(chuàng)作質(zhì)量AdobeshutterstsckR

runway

區(qū)·

目前主要有三種模式:文生視頻、圖生視頻、文生圖-圖生視頻。目前頭部文生圖產(chǎn)品的圖

片生成質(zhì)量最好,

一般先用文生圖應(yīng)用生成指·

不會(huì)涉及專業(yè)級(jí)影視剪輯,視頻大部分關(guān)鍵元素在生

成階段完成,用戶主要的做一些簡(jiǎn)單的邏輯剪輯或者

音效編輯,可以快速出片應(yīng)用趨勢(shì):新一代AI視頻工作流正在萌生,將整合音視頻創(chuàng)作全流程

提高創(chuàng)作效率,降低AI視頻內(nèi)容的制作摩擦前期制作

中期制作

后期制作導(dǎo)幀,然后再作為視頻生成的輸入進(jìn)行動(dòng)態(tài)化整合音視頻生成、編輯等所有功能的一站式應(yīng)用,可能產(chǎn)生新的交互界面添加視覺(jué)特效,確保效果自然、完成顏色校正、調(diào)色與整體風(fēng)格一致·

同步處理音頻素材,確保對(duì)白清晰、搭配音效,增強(qiáng)視頻的聽覺(jué)效果·

故事創(chuàng)意、主題風(fēng)格構(gòu)思,明確故事大綱,如

主要情節(jié)和角色發(fā)展·

將大綱擴(kuò)展成完整的劇

本,包括對(duì)白、場(chǎng)景描

述和情節(jié)細(xì)節(jié)·

根據(jù)情節(jié)和主題需要進(jìn)行素材整理、分類、剔

除無(wú)效素材·

對(duì)于無(wú)須拍攝類內(nèi)容,需要從素材庫(kù)進(jìn)行素材

選取文字劇本視覺(jué)化,確定鏡頭類型、鏡頭運(yùn)動(dòng)、

角色位置和動(dòng)作編制鏡頭列表,包括每

個(gè)鏡頭的編號(hào)、描述、

拍攝角度、鏡頭運(yùn)動(dòng)等·初步剪輯、邏輯剪輯,拼接出粗略的視頻版本

精剪微調(diào),對(duì)影片進(jìn)行

精細(xì)剪輯,調(diào)整鏡頭長(zhǎng)

度、順序、節(jié)奏等根據(jù)分鏡規(guī)劃制定拍攝計(jì)劃,完成器材準(zhǔn)備和

技術(shù)測(cè)試、準(zhǔn)備演員、

服化道及布景設(shè)置已經(jīng)

成熟過(guò)渡

階段正在

萌生1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局R

runwaystability.aiinsights信息來(lái)源:量子位智庫(kù)分鏡規(guī)劃渲染/音效素材拍攝素材選取大綱腳本回OpenAl

SORA剪輯內(nèi)容原

生17量子位智庫(kù)(nsights應(yīng)用案例-工作流(精細(xì)化生成)

:阿里達(dá)摩院發(fā)布尋光視頻制作平臺(tái),通過(guò)圖層編輯方式和工作流整合提升創(chuàng)作全流程效率全局型元素·視頻風(fēng)格化:莫奈、浮世繪、水彩、水墨、卡通等20種風(fēng)格·鏡頭運(yùn)鏡控制:左右平移、上下平移、推進(jìn)拉遠(yuǎn)、左右環(huán)繞等·

幀率控制:修改不同鏡頭的幀率修改使得視頻更加一致絲滑·

清晰度控制:提供不同清晰度的生成選擇·

畫質(zhì)增強(qiáng):提供視頻超分工具局部型元素·

目標(biāo)編輯:可以消除、替換、新增視頻中的各類目標(biāo)·移動(dòng)目標(biāo):通過(guò)拖拽可以實(shí)現(xiàn)目標(biāo)的運(yùn)動(dòng)效果,人體控制:控制視頻中角色的肢體動(dòng)作·人臉控制:批量替換、編輯人臉·前景、背景控制圖層拆解·

用戶也可以上傳自己視頻,尋光平臺(tái)可以對(duì)

視頻進(jìn)行圖層拆解,分解出創(chuàng)作者需要的視·針對(duì)每個(gè)分鏡視頻提供一攬子的的編輯功能整合大量Al編輯功能圖層融合·

可以把用戶自己生成的視頻內(nèi)容或者上傳內(nèi)

容進(jìn)行圖層組合,可以實(shí)現(xiàn)視頻背景、人物

的任意切換,以解決目前Al視頻生成的場(chǎng)景

一致性問(wèn)題,增加可用性。支持場(chǎng)景和人物

的批量替換,功能強(qiáng)大類PPT的圖形化操作界面·將視頻分解為多個(gè)場(chǎng)景的組合,

再將每個(gè)場(chǎng)景分解為多個(gè)分鏡視

頻,方便用戶預(yù)覽整個(gè)視頻,對(duì)

每個(gè)鏡頭進(jìn)行精細(xì)編輯,可以直

接通過(guò)拖拽完成順序調(diào)整,在任

意位置進(jìn)行添加、刪除圖層生成·

用戶可以單獨(dú)生成視頻中的角色、物體和環(huán)

境對(duì)象,生成的視頻為透明背景,可以整合

覆蓋到其他視頻內(nèi)容中,實(shí)現(xiàn)對(duì)于視頻內(nèi)容

的細(xì)顆粒度操作和局部編輯基于圖層組合的編輯方式

18頻內(nèi)容,例如人物角色,方便用于其他視頻內(nèi)容的組合、編輯信息來(lái)源:量子位智庫(kù),達(dá)摩院上傳素材生成素材·

多元化團(tuán)隊(duì)背景:主要是技術(shù)人員+創(chuàng)作者的組合,例如來(lái)自

Cruise、Waymo、Tesla、Microsoft、Meta

和NVIDIA

等公司的技術(shù)人員,首席工程師來(lái)自《孢子》、

《模擬城市》、《模擬人生》、

《異形:隔離》等視頻游戲,藝術(shù)家則曾參與制作《沙丘2》、《哥斯拉》、《造物主》、《復(fù)仇者聯(lián)盟:奧創(chuàng)紀(jì)元》、

《艾麗塔:戰(zhàn)斗天使》和《侏羅紀(jì)世界:失落王國(guó)》等電影·

投資方:

包括谷歌風(fēng)投、

EladGil

、GarryTan

、JeffDean等以及來(lái)自0penAI、Deepmin、Meta、Midjourney、Pixar

的研究人員信息來(lái)源:量子位智庫(kù),Odyssey

19Q

量子位智nsights應(yīng)用案例-工作流(精細(xì)化生成)

:

Odyssey

結(jié)合4種生成模型,可以實(shí)現(xiàn)對(duì)視頻內(nèi)容的精確控制和生成,主打好萊塢級(jí)的視頻內(nèi)容生成·

主打高端影視場(chǎng)景:能夠生成好萊塢級(jí)的山脈、平原、植被、海洋、河流、火焰、煙霧、建筑、人物以及任何其他東西創(chuàng)作者可以完全控制場(chǎng)景中生

成的每個(gè)元素和位置方向,無(wú)論是幾何形狀、材質(zhì)、燈光、動(dòng)作還是其他

方面。場(chǎng)景由可提示和可操作的對(duì)象組成,這些對(duì)象可以獨(dú)立運(yùn)行,同時(shí)幾何圖形生成模型Odyssey可控運(yùn)動(dòng)生成模型還能保持上下文感知

光影生成(不用強(qiáng)度、方位、風(fēng)格)

對(duì)象紋理生成影像級(jí)材質(zhì)生成模型光影生成模型材質(zhì)生成(如荒漠、草地、土地)對(duì)象生成(如樹木、石塊、森林)應(yīng)用案例-工作流(流程整合化)

:美圖發(fā)布Al短劇制作平臺(tái)MOKI,

整合包括創(chuàng)意生成、后期編輯、音效制作等視頻創(chuàng)作全流程修改分鏡圖驅(qū)動(dòng)角色說(shuō)話輸入故事創(chuàng)意:捕快在竹林里追緝兒時(shí)摯友,展開了

場(chǎng)充滿

事成智能剪輯Al配樂(lè)1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局選擇旁白配音磁性

活脆

量子位智insights性別d溫梁用可制作各類短信息來(lái)源:量子位智庫(kù),美圖片

故事繪本性別d活力通用視頻生視頻角色設(shè)計(jì)Al音效穩(wěn)重炎前

期中

期6+導(dǎo)入?yún)⒖紘笃诮巧?:云龍儒雅20分LTXsudo

LaA

The

Lost

Planet

Storyboard

Shot

EditorProjectsettingsCast

Soundtrack

g]:Volceover#Scene

1

角色設(shè)定

背景音

旁白Sam

stargazing

through

his

telescope

inhis

backyardScenesettingLOCATION場(chǎng)景位置.Generate

vildeo

Shot

editorDim

場(chǎng)景光影PROMPr鏡

2

@SamJohnson'sface,illuminatedbythetelescope's

lght,filled

with

wonder.鏡頭提示詞SHOTTYPEClose-upg]:voICEOVEBHey,I'mSam.So,thereIw..SOUND

FFFECTsSCENES0UNDScene

2

場(chǎng)

2Sam

and

Lucy

excitedly

pointing

atsomething

in

the

night

skyScenesetting10CATIONBackyard應(yīng)用案例-工作流(流程整合化)

:

LTX

Studio采用基于故事版和分鏡的生成編輯方式,同時(shí)整合音效、旁白等功能(LTX

界面)故事板界面:用戶需要先進(jìn)行角色設(shè)定,包括人物的肖像、風(fēng)格、名字等,然后故事版可以幫助用戶構(gòu)思視頻的整體內(nèi)容,包括從場(chǎng)景和分鏡頭兩個(gè)層次,可以設(shè)定每個(gè)場(chǎng)景的

基本情況,如位置、光影、天氣等,也可以添加該場(chǎng)景的音效和旁白。鏡頭編輯界面:可以對(duì)每個(gè)鏡頭進(jìn)行精細(xì)化編輯,例如鏡頭的控制

(LTX提供了超過(guò)10種鏡頭運(yùn)動(dòng)方式)、分辨率調(diào)整、視頻幀率控制、音效旁白等,確認(rèn)好基本參數(shù)后可以開始

生成視頻

21NEGATIVE

PROMPISHO

YPEClose-upSCENE

OVERRIDEMotion

鏡頭控制1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局LTXsudio

A

The

Lost

Planet

Storyboard

Shot

Editor

鏡頭編輯器WEATHER

場(chǎng)景天氣

Clear

nightskySound

旁白ED幀率控制6tp

24fos時(shí)長(zhǎng)控制信息來(lái)源:量子位智庫(kù),LTX

Studio

量子位智庫(kù)insightsND

EFFECrs開始生成Generate

Video@SamJohnsonadjustingthetelescope,

peering

intentlyatthe

nightsky.Dimly

lit

backyardwith@SamJohnsongazingatthestarsthrough

hisDimly

Iit

backyard

with

0Sam

Johnsongazing

at

the

stars

through

his

telesoope.,Generate

video

Shot

editor(LTX

界面)故事板鏡頭類型SHOTTYPEMedium-shotShoteditor鏡頭1場(chǎng)景1鏡頭3+.Generate

vldeo超分Project

settingsJul

16,2024,03:28PMCast

8Soundtracktelescope.?

PreviewSOUND

EFFECTs6sec

OUND

EFFECTSBackyardClose-upSou

undVoiceoverHOTTYPELIGHTINGPROMPTExpoROMPTsCSEE通用類·

場(chǎng)景廣泛:不針對(duì)某一類風(fēng)格、行業(yè)、角色

或其他方面進(jìn)行垂直優(yōu)化,旨在用視覺(jué)信息

建模物理世界,通過(guò)自然語(yǔ)言作為提示詞生

成視頻天花板高:通用生成的想象空間更大大,創(chuàng)

意性強(qiáng),未來(lái)將有更多應(yīng)用形態(tài)涌現(xiàn),預(yù)計(jì)

未來(lái)視頻的生成和理解將會(huì)逐步統(tǒng)一,強(qiáng)大

的視頻生成能力也代表視覺(jué)理解的進(jìn)步"As

great

as

Sora

is

generatingthingsthat

appear

real-what

excites

us

is

its

ability

to

makethingsthataretotallysurreal."---Shy

Kids特點(diǎn)OpenAIPika

R

runway

PixVerse

△lsphErEKLING

可靈大模型

詩(shī)SORA垂直類·

場(chǎng)景細(xì)分:垂直類視頻生成主

要指圍繞細(xì)分需求進(jìn)行視頻生

成,主要是針對(duì)細(xì)分場(chǎng)景,用

垂類數(shù)據(jù)或者私有數(shù)據(jù)做適配

訓(xùn)練和可控性、穩(wěn)定性優(yōu)化·

商業(yè)化路徑清晰,有穩(wěn)定的商特點(diǎn)

業(yè)模式和營(yíng)收·

需要的算力資源和數(shù)據(jù)資源少,主要是用少量

垂類場(chǎng)景數(shù)據(jù)和算法對(duì)模型進(jìn)行加強(qiáng),模型不

追求“大”,且在模型層選擇靈活,可以把文

生視頻、圖生視頻作為外部能力接入傳統(tǒng)模型

作為輔助增強(qiáng),核心要素還是行業(yè)知識(shí)·

目前垂直類產(chǎn)品主要是在營(yíng)銷場(chǎng)景下,針對(duì)人

物、或者某一類風(fēng)格進(jìn)行微調(diào),幾千條數(shù)據(jù)就

可以顯著增強(qiáng)模型在垂直領(lǐng)域的表現(xiàn)案例FancyTech

年BOOLVCreotiveFittgng·

研發(fā)難度大、算力、數(shù)據(jù)資源要求高:模型本身是對(duì)數(shù)據(jù)集

的擬合,要求模型能夠生成任意內(nèi)容的視頻,本質(zhì)上是要求

訓(xùn)練數(shù)據(jù)集的場(chǎng)景豐富程度極高、內(nèi)容質(zhì)量好,標(biāo)注質(zhì)量詳

盡、準(zhǔn)確,以及經(jīng)過(guò)大規(guī)模scale

來(lái)學(xué)習(xí)視頻中包含的各類知

識(shí)和物理規(guī)律,目前大多數(shù)視頻生成技術(shù)公司都屬于此類案例·

內(nèi)容合規(guī)和本土化問(wèn)題難以避免:視頻輸出內(nèi)容可以包含更多維度的信息,其

中可能涉及內(nèi)容安全、意識(shí)形態(tài)及不同

文化背景的偏好差異,例如本土模型對(duì)

本土文化理解力更好,海外模型的輸出

會(huì)凸顯歐美審美偏好和價(jià)值觀產(chǎn)品路線:視頻生成目前仍處于早期階段,從應(yīng)用路線上看主要分為通用類生成和垂直類生成兩類產(chǎn)品1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

量子位智庫(kù)insights信息來(lái)源:量子位智庫(kù),OpenAI22·

目前主要客戶以各行業(yè)頭部公司為主,預(yù)算比較充足且愿意擁抱Al新技術(shù),一般大客戶都會(huì)要求部分定制化服務(wù)·

視頻生成領(lǐng)域的定制化一般不涉及技術(shù)上的二次開發(fā),工作

量主要在具體的需求溝通、微調(diào)模型,幫助客戶熟悉產(chǎn)品,

以及提供技術(shù)支持服務(wù)等·

一些場(chǎng)景需要客戶和公司結(jié)合行業(yè)知識(shí)進(jìn)行共創(chuàng),例如營(yíng)銷

視頻在內(nèi)容結(jié)構(gòu)、風(fēng)格、審美等方面的選擇·

海外市場(chǎng)的定制化目前較少,主要是SaaS服務(wù),但頭部公司

也會(huì)提供模型訓(xùn)練服務(wù)和API定制化,例如Adobe和Runway·

創(chuàng)業(yè)公司也會(huì)做一些大客戶或者知名案例,但主要目的是打

造知名度,同時(shí)探索用戶需求、打磨產(chǎn)品,例如Runway曾

參與《瞬息全宇宙》的制作、Sora

完成《Air

Head》制作·

本土市場(chǎng):如果不同視頻

生成模型之間能力沒(méi)有顯

著差異化,很可能出現(xiàn)類

似大語(yǔ)言模型領(lǐng)域的價(jià)格

戰(zhàn),產(chǎn)品盈利將面臨較大

壓力。C端市場(chǎng)、專業(yè)消

費(fèi)者是最理想的市場(chǎng),但

如果場(chǎng)營(yíng)收不好,可能要

持續(xù)做B端服務(wù)·

本土市場(chǎng)目前的商業(yè)化

路徑一般是“從大到小”,例如從大B的影視公司,到中B的影視工作

室,游戲工作室、廣告工

作室、短劇團(tuán)隊(duì),再到自

媒體創(chuàng)作者、專業(yè)創(chuàng)作者

等Prosumer、小

B用戶·

海外市場(chǎng):C端會(huì)是長(zhǎng)期

主線,目前競(jìng)爭(zhēng)并不激烈,處在逐步拓展市場(chǎng)的階段商業(yè)模式:通用視頻生成在海外市場(chǎng)以SaaS產(chǎn)品為主,國(guó)內(nèi)市場(chǎng)項(xiàng)目制為主,服務(wù)內(nèi)容多樣化,但訂閱制有待成熟·

海外市場(chǎng)是文生視頻類應(yīng)用的主打市場(chǎng),生成式Al的創(chuàng)意市場(chǎng)已有類似產(chǎn)品完成市場(chǎng)驗(yàn)證,例如Midjourney年

收入已經(jīng)超過(guò)2億美元、超2000萬(wàn)用戶·

海外市場(chǎng)的用戶主要是一些C端用戶或者中小B端用戶,

主要通過(guò)在社交媒體和創(chuàng)意工作者人群中構(gòu)建社群并以PLG的方式進(jìn)行增長(zhǎng)·

目前主流的通用視頻生成應(yīng)用大都采用SaaS應(yīng)用服務(wù)模

式,向用戶收取每月訂閱費(fèi)用或者生成視頻的消耗量分

不同付費(fèi)版本靈活計(jì)費(fèi)·

目前本土的SaaS市場(chǎng)成熟度相比海外仍有欠缺,用戶的主要畫像是自媒體創(chuàng)作者、創(chuàng)意工作者,覆蓋人群比較

垂直,商業(yè)化規(guī)模有限·

隨著新一代用戶的年輕化、專業(yè)化,為內(nèi)容工具的付費(fèi)

的習(xí)慣正在逐漸形成,但仍需時(shí)間培育海外市場(chǎng)生成點(diǎn)數(shù)

生成時(shí)長(zhǎng)

生成速度

團(tuán)隊(duì)協(xié)作增值功能(視頻超分、音效功能、編輯功能、各類動(dòng)效)本土市場(chǎng)1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局關(guān)鍵分析量子位智庫(kù)insights客戶專員支持私有化部署生成數(shù)量業(yè)務(wù)溝通模型訓(xùn)練API

化信息來(lái)源:量子位智庫(kù)SaaS產(chǎn)品定制化付費(fèi)點(diǎn)23對(duì)比分析:視頻生成相比圖片生成的應(yīng)用復(fù)雜度更高,大規(guī)模普及或需要從模型到工作流的全面進(jìn)步才能打開市場(chǎng)·

生成視頻存在畸變、分辨率低、指令遵從差、穩(wěn)定性差等問(wèn)題·

目前抽卡率非常高,可能到幾百,例如Shykids團(tuán)隊(duì)用Sora制作的MV作

品抽卡率約300,需要進(jìn)行大量嘗試·視頻生成對(duì)于創(chuàng)作者的要求更高,功能和提示詞的復(fù)雜度更高·

不同模型各異,取決于生成視頻的質(zhì)量和長(zhǎng)度,Runway的價(jià)格約為3美

元每分鐘,Sora可能高達(dá)數(shù)十美元每分鐘·

生成片段并不足以構(gòu)成可用作品,實(shí)際場(chǎng)景需要大量的視頻生成片段組

合為完整的視頻(時(shí)長(zhǎng)數(shù)分鐘或更長(zhǎng)),進(jìn)一步推高了應(yīng)用成本視頻生成環(huán)節(jié)復(fù)雜、昂貴、緩慢

視頻編輯修改難度大信息來(lái)源:量子位智庫(kù),1、2均代表2023年數(shù)打

·

1分鐘左右·輸入一次提示詞可以生成4張圖片供用戶選擇(以Midjourney為例)·

生成的大部分圖片可以滿足普通用戶的需求標(biāo)準(zhǔn),技術(shù)已經(jīng)比較成熟·

抽卡次數(shù)較低,一般生成5次左右可以得到理想結(jié)果·

約0.03美元/張(以Midjourney

為例)耗時(shí)產(chǎn)出數(shù)量·

2分鐘左右(以最新的Runway

Gen-3為例)·

10秒左右的視頻片段(以最新的Runway

Gen-3為例)·

修改難度大:在視頻生成內(nèi)容上做編輯很難,例如人物對(duì)象、·

音頻需求:視頻和圖像的

另一個(gè)的不同是視頻需要內(nèi)容生成編輯修改

后期效果環(huán)境等內(nèi)容發(fā)生畸變的修改難

度和工作量非常大·

一致性難題:視頻制作要保證

多個(gè)視頻片段中人物角色、物

體和周圍環(huán)境的一致性,如何

精準(zhǔn)銜接多個(gè)片段,目前還沒(méi)

有很好的解決,對(duì)二次編輯的

依賴度較高Rrunway約500萬(wàn)美元年?duì)I收224匹配音頻內(nèi)容,需要考慮背景音樂(lè)、旁白等內(nèi)容,

增加了額外的復(fù)雜度·視頻需要考慮時(shí)間維度和

視頻邏輯,在后期需要邏

輯剪輯等環(huán)節(jié)耗時(shí)產(chǎn)出數(shù)量產(chǎn)出質(zhì)量·

圖片生成的二次編輯比較簡(jiǎn)單,

一般用Photoshop或者其他編輯

軟件就可以滿足需求,主要是

在細(xì)節(jié)和特殊需求上做精調(diào)1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局應(yīng)用規(guī)模2億美元年?duì)I收

1量子位智庫(kù)insights成本視頻后期環(huán)節(jié)多產(chǎn)出質(zhì)量成本1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局insights25·

外接場(chǎng)景:通過(guò)的視頻生成模型API賦能其他場(chǎng)景,給其

·

外接場(chǎng)景:Sora、Runway

給Adobe、Canvas提供他產(chǎn)品輸出模型能力,為其它產(chǎn)品集成API

型API·

應(yīng)用場(chǎng)景:可以直接接入現(xiàn)有應(yīng)用,作為增值功能,獲得

·應(yīng)用場(chǎng)景:OpenAI把DALL-E集成到ChatGPT中,用戶流量資源,支撐應(yīng)用、功能啟動(dòng)

營(yíng)銷視頻模型有直接的視頻消費(fèi)場(chǎng)景,Al

視頻營(yíng)銷、AI

影視制作、AI游戲設(shè)計(jì)、自媒體創(chuàng)作、

泛娛樂(lè)創(chuàng)作等·

交互界面:目前視頻生成產(chǎn)品的交互界比較早期,就是輸

·

交互界面:目前主要是三種形式,Discord

對(duì)話入提示詞輸出視頻結(jié)果,主要是網(wǎng)頁(yè)和本地兩種方式

框,WebUI或者移動(dòng)應(yīng)用,以及節(jié)點(diǎn)式ComfyUI·應(yīng)用類模型:在基礎(chǔ)模型之上進(jìn)行局部?jī)?yōu)化、調(diào)整、編輯

·應(yīng)用類模型:已經(jīng)產(chǎn)品化的包括動(dòng)態(tài)筆刷,鏡·存量場(chǎng)景:主要針對(duì)各行業(yè)已有場(chǎng)景的賦能,隨著視頻生成能力提升將逐漸滲透·增量場(chǎng)景:還處在早期階段,需要用戶和產(chǎn)品進(jìn)行雙向探索,需要時(shí)間等待涌現(xiàn)·

交互界面:

尚不清晰,但基礎(chǔ)模型的推理速度

提升和推理成本下降可能是本質(zhì)因素·

應(yīng)用類模型:視頻生成下一階段的核心核心是

可控性的提升,例如如何保持一個(gè)角色在多個(gè)

生成片段中的一致性,預(yù)計(jì)短期會(huì)有明顯進(jìn)步

·工作流:但生成式內(nèi)容正在滲透?jìng)鹘y(tǒng)的工作流,

但是比較碎片化,需要試用多個(gè)工具各取所需·優(yōu)化方向:模型架構(gòu)優(yōu)化、

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論