2024年AI視頻生成研究報(bào)告

上傳人：緣*** IP屬地：四川上傳時(shí)間：2024-09-28 格式：PPTX 頁(yè)數(shù)：45 大小：32.62MB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩40頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI視頻生成研究報(bào)告量子位智庫(kù)insights分析師：Xuanhao

2024.73.玩家格局1.技術(shù)側(cè)2.應(yīng)用側(cè)insights2視頻是圖像模態(tài)的進(jìn)一步擴(kuò)展，但由于技術(shù)復(fù)雜，對(duì)于算力、·2022年10月，Google、Meta發(fā)布Phenaki、Make-A-Video數(shù)據(jù)等資源要求較高，成熟相對(duì)文本、圖像較慢

2023年下半年，創(chuàng)業(yè)公司推出Runway-Gen2,Stable·領(lǐng)軍企業(yè)已經(jīng)做出標(biāo)桿，顯著加速領(lǐng)域發(fā)展，已出現(xiàn)多家視

VideoDiffusion

、Pika等產(chǎn)品頻生成領(lǐng)域創(chuàng)業(yè)公司，但商業(yè)化、產(chǎn)品化進(jìn)展較慢

2024年2月，OpenA

I發(fā)布Sora引發(fā)全球關(guān)注·

目前主要是音樂(lè)生成(語(yǔ)音識(shí)別、克隆暫不納入討論),市

2024年2月，Suno.ai發(fā)布Suno

V3場(chǎng)不如圖片生成、視頻生成等領(lǐng)域熱門，比視頻更加早期·

2024年6月，Stability.AI

推出文生音頻模型Stable·

明星創(chuàng)業(yè)公司較少，但有加速的發(fā)展的態(tài)勢(shì)

Audio

Open·

技術(shù)路線目前尚不清晰，垂直明星創(chuàng)業(yè)公司較少，產(chǎn)品大多

2020年8月，NeRF

論文發(fā)表處于早期階段，但正在加速發(fā)展·2022年9月，谷歌發(fā)布DreamFusion·

2023年5月，OpenA

I開源Shape-E模型·

2024年7月，Meta

發(fā)布Meta

Gen

1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局

量子位智庫(kù)insights大模型各模態(tài)總覽：多模態(tài)發(fā)展趨勢(shì)清晰，文本、圖像商業(yè)化規(guī)模和成熟度較高，Al視頻生成正在迅速發(fā)展·大語(yǔ)言模型在文字處理上面的卓越表現(xiàn)開啟了生成式AI的浪潮，基礎(chǔ)模型能夠基于語(yǔ)言進(jìn)行推理是智能的重要表現(xiàn)·在各個(gè)領(lǐng)域應(yīng)用最為成熟，例如ChatGPT

日活用戶已經(jīng)突破1

億

，OpenAI

在2024年6月ARR

的達(dá)到34億美元·

2018年6月，由Alec

Radford主導(dǎo)在0penAI推

出GPT-1·

2020年6月，OpenAl推出GPT-3,

引發(fā)業(yè)界關(guān)注，驗(yàn)證scaling

路線·

2022年11月，ChatGPT

掀起技術(shù)浪潮·ChatGPT·Character.AI●

GeminiAnthropic·Stable

Diffusion

Midjourney·Dall-E

3·SoraRunway·

快手可靈·Pixverse·Suno·StableAudio·Luma.AIMeshy量創(chuàng)作者和用戶關(guān)注，成熟度僅次于文本模態(tài)·Midjhouney

已有超過(guò)2000萬(wàn)用戶，在無(wú)投資的情況自我造血，在2023年的營(yíng)收超過(guò)2億美元·

2022年8月，StableDiffusion在Stability.ai的支持下開源，推動(dòng)社區(qū)在圖像領(lǐng)域快速發(fā)展·

2023年3月，Midjourney

V5發(fā)布，迅速成為現(xiàn)象級(jí)應(yīng)用更點(diǎn)視頻圖像文本音頻3D·

文生圖領(lǐng)域產(chǎn)生了僅次于基礎(chǔ)模型的殺手級(jí)應(yīng)用，獲得了大

2021年1月，OpenA

I發(fā)布初代文生圖模型DALL-E概況

關(guān)鍵節(jié)點(diǎn)信息來(lái)源：量子位智庫(kù)代表應(yīng)用成熟度3····采用傳統(tǒng)的計(jì)算機(jī)視覺(jué)

(CV)

、計(jì)算機(jī)圖形學(xué)(CG)技術(shù)，但生成功能有限，主要是一些局

部的垂點(diǎn)功能·例如效果生成，在現(xiàn)有視頻上添加多種效果，如濾鏡、光影、風(fēng)格化、美顏特效等。也可以

做局部動(dòng)態(tài)化，如人物的面部表情生成、搞笑

表情、爆款特效、舞蹈動(dòng)作生成等·

有一定創(chuàng)意空間，生成部分新元素，成本低但應(yīng)用的場(chǎng)景有限·采用基于Transformer或者擴(kuò)散模型的大模型路線，可以通過(guò)自然語(yǔ)言或者指導(dǎo)圖進(jìn)行全局生成(但也可以嵌入已有內(nèi)容),視頻的內(nèi)容、風(fēng)格、長(zhǎng)短、分辨率、寬高比都可以進(jìn)行靈活調(diào)整·例如生成天馬行空的創(chuàng)意視頻、藝術(shù)視頻、卡通視頻等等，非常靈活·

創(chuàng)意空間無(wú)限，所有的元素都是全新生成，現(xiàn)階段成本高昂，但天花板高，應(yīng)用場(chǎng)景廣泛技術(shù)趨勢(shì)：視頻生成正在由檢索生成、局部生成走向依靠自然語(yǔ)言提

示詞的全量生成，生成內(nèi)容更加靈活豐富，應(yīng)用空間廣闊無(wú)新增內(nèi)容

部分新增內(nèi)容

全量新增內(nèi)容信息來(lái)源：量子位智庫(kù)

4特點(diǎn)僅針對(duì)視頻的一部分進(jìn)行生成，例如視頻中人物角色、

動(dòng)作、背景、風(fēng)格化、特殊

效果等·通過(guò)文字、圖片、視頻作為提示

詞來(lái)進(jìn)行憑空生成，不依賴外部

素材，核心在于大模型的能力特點(diǎn)特點(diǎn)·采用傳統(tǒng)的跨模態(tài)視頻檢索技術(shù)，通過(guò)視頻標(biāo)簽的或者視頻語(yǔ)義理解的方式從數(shù)據(jù)庫(kù)中的檢

索，再將這些素材進(jìn)行剪輯、組合拼接在一起，

本質(zhì)上還是鍵值對(duì)匹配的邏輯·例如短視頻平臺(tái)的知識(shí)類視頻、解說(shuō)類視頻，

通過(guò)文本關(guān)鍵字在數(shù)據(jù)庫(kù)中進(jìn)行素材檢索，然

后在進(jìn)行拼接組合生成·

創(chuàng)意空間有限，沒(méi)有貢獻(xiàn)增量素材，但成本極

低，生成速度極快提示詞生成

檢索生成主要是對(duì)現(xiàn)有的視頻素材根據(jù)關(guān)鍵詞和標(biāo)簽進(jìn)

行檢索匹配，再進(jìn)行相應(yīng)的

拼接和排列組合1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局局部生成

--insights檢索生成·

2022年12月Diffusion

Transformer論文發(fā)表·

2024年2月OpenA

I發(fā)布Sora,取得驚艷的生成效果，驗(yàn)證了

Diffusion和Transformer結(jié)合的有效性·Sora、Videopoet、W.A.L.T·

由于領(lǐng)軍企業(yè)的示范效應(yīng)，Diffusion

Transformer已經(jīng)成為視頻

生成領(lǐng)域的核心路線，領(lǐng)域內(nèi)其他玩家都開始聚焦DiT并取得進(jìn)展·

目前業(yè)界對(duì)于Sora的架構(gòu)大多是猜想，從架構(gòu)大方向上接近，但

具體細(xì)節(jié)上不同模型、產(chǎn)品各異·

可擴(kuò)展性強(qiáng)：基于擴(kuò)散模型的視頻模型，核心的構(gòu)件是卷積神經(jīng)網(wǎng)絡(luò)U-Net,隨著模型規(guī)模scaleup增益會(huì)放緩甚至消失。DiT(Diffusion

Transformer)

將傳統(tǒng)擴(kuò)散模型的U-Net替換為

Transformer,從而能夠?qū)崿F(xiàn)更強(qiáng)的可拓展性·

長(zhǎng)期來(lái)看語(yǔ)言模型路線1可成為主要路線，可以將多種模態(tài)融合到

一起(由于架構(gòu)的成熟和優(yōu)良的擴(kuò)展性)技術(shù)趨勢(shì)：視頻生成正由擴(kuò)散模型主導(dǎo)的格局走向與語(yǔ)言模型結(jié)合的路

線

，Transformer

將在視頻生成方面發(fā)揮主導(dǎo)作用

探索期-

早期增長(zhǎng)期-未來(lái)方向

2014年GAN發(fā)表，2016年左右開始用于視頻生成·

2013年VAE出現(xiàn)，可以通過(guò)編

碼器和解碼器的機(jī)制學(xué)習(xí)數(shù)據(jù)

的潛在表示Text2Filter、TGANs-C,VGAN、TGAN、VideoGPT、MoCoGAN、

DVD-GAN、DIGAN·

應(yīng)用范圍有限(只能總特定生成，例如數(shù)字),生成分辨率低、生

成時(shí)長(zhǎng)極短·

生成多樣性差：生成器-判別

器對(duì)抗的模型架構(gòu)決定生成效

果逼真但多樣性、創(chuàng)造性差，

很難泛化·

生成速度快：

GAN可以一次出

圖，無(wú)需做多步推理·

2020年DDPM論文發(fā)表●2021年LatentDiffusionModels論文發(fā)表·2022年

VideoDiffusionModel

論

文

發(fā)

表·Stable

Video

Diffusion、

Make-A-Video、RunwayGen1/2、Video

LDM·

由于SD的開源激發(fā)社區(qū)創(chuàng)新，推動(dòng)擴(kuò)散模型在視覺(jué)生成領(lǐng)

域占據(jù)主導(dǎo)地位·生成質(zhì)量高：

生成效果好，細(xì)

節(jié)豐富清晰，訓(xùn)練要遠(yuǎn)比GAN

穩(wěn)定·顯存開銷大：

視頻生成有大量

相關(guān)依賴關(guān)系的圖片同時(shí)生成，

對(duì)計(jì)算顯存有極高要求·2017年Transformer發(fā)表，逐步向各個(gè)領(lǐng)域滲透，早期在視

頻生成領(lǐng)域也有嘗試·

2021年Google發(fā)布VideoVision

Transformer·GODIVA、VideoGPT、Phenaki、CogVideo、NUWA·早期基于Transformer的視頻生成效果有限，在當(dāng)時(shí)的成本

比較高·可擴(kuò)展性強(qiáng)：Scaleup路線上

目前最好的架構(gòu)·

生成速度慢、開銷大：需要把圖片進(jìn)行分割再轉(zhuǎn)換成超長(zhǎng)

序列，計(jì)算量隨分辨率增加平

方級(jí)增加，復(fù)雜度高GAN

TransformerDiffusionModel

Diffusion+Transformer技

術(shù)

節(jié)

點(diǎn)案

例特

點(diǎn)1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局信息來(lái)源：量子位智庫(kù)，1)在視頻生成的語(yǔ)境insights5·視頻訓(xùn)練數(shù)據(jù)示例·

高質(zhì)量數(shù)據(jù)少：

最佳的訓(xùn)練數(shù)據(jù)是高質(zhì)量的視頻-文本

對(duì)，即針對(duì)一段視頻，有與之對(duì)應(yīng)詳細(xì)準(zhǔn)確的文字描述，

互聯(lián)網(wǎng)上大部分的視頻數(shù)據(jù)都難以滿足需求(如數(shù)據(jù)不

準(zhǔn)確甚至是錯(cuò)的),此外視頻數(shù)據(jù)的寬高比、分辨率、時(shí)長(zhǎng)各異，需要進(jìn)一步處理。數(shù)據(jù)量方面，Sora

的訓(xùn)

練數(shù)據(jù)可能超過(guò)500萬(wàn)小時(shí)的精良視頻·

公開數(shù)據(jù)質(zhì)量低：

公開數(shù)據(jù)集例如WebVid(1070

萬(wàn)個(gè)文本視頻對(duì)，僅5.2萬(wàn)小時(shí))、

HowTo100M總時(shí)長(zhǎng)超10萬(wàn)，

但都是4s的短視頻)、CelebV-Text

(超7萬(wàn)個(gè)人臉-文本

片段描述),數(shù)據(jù)量小且質(zhì)量低·

版權(quán)數(shù)據(jù)獲取難：

例如電影、記錄片、動(dòng)漫、MV等影

視作品，內(nèi)容平臺(tái)版權(quán)庫(kù)，以及YouTube

、抖音等UGC內(nèi)

容，成本高且有版權(quán)限制Sora架構(gòu)(推測(cè))·

時(shí)間維度增加復(fù)雜性：視頻生成在圖像的基礎(chǔ)上增加

了時(shí)間維度，例如針對(duì)時(shí)間維度和空間維度結(jié)合做數(shù)據(jù)

表示，這對(duì)可擴(kuò)展性、視頻生成的時(shí)長(zhǎng)和生成效果一致

性方面有重大影響·

視頻生成更難規(guī)?；?/p>

(scale)

:對(duì)于語(yǔ)言模型而言，

可以進(jìn)行大規(guī)模的自監(jiān)督學(xué)習(xí)，而圖像和視頻生成模型

需要進(jìn)行圖像-文本或視頻-文本對(duì)標(biāo)注做監(jiān)督學(xué)習(xí)，規(guī)

?；碾y度更大，這是視頻模型和LLM的本質(zhì)差異·Tokenizer

設(shè)計(jì)更復(fù)雜：文本模態(tài)的tokenizer更成熟，

語(yǔ)言已經(jīng)過(guò)人類智能的一次壓縮，但圖像是現(xiàn)實(shí)世界的

原始信息，信息密度較低，需要重新設(shè)計(jì)更好的tokenizer量子位智庫(kù)insights技術(shù)挑戰(zhàn)：算力需求大，數(shù)據(jù)要求高，算法復(fù)雜是目前制約視頻生成模型能力的三大挑戰(zhàn)AI計(jì)算卡示例·

訓(xùn)練視頻生成大模型所需要的計(jì)算量遠(yuǎn)高于一般的

文本和圖像模型，這導(dǎo)致開源社區(qū)和學(xué)術(shù)界等相對(duì)

業(yè)界算力不足的玩家難以參與，學(xué)界在視頻基礎(chǔ)模

型上工作較少，相關(guān)的模型和科研成果多出自互聯(lián)

網(wǎng)公司和主打視頻生成的商業(yè)技術(shù)公司·

以Sora為例，從訓(xùn)練側(cè)看，訓(xùn)練成本大約為數(shù)十萬(wàn)英偉達(dá)H100GPU

hours

(據(jù)估算),需要千卡GPU

的計(jì)算集群，以H100的使用價(jià)格約為3$/h估算，Sora

的訓(xùn)練成本可能達(dá)數(shù)千萬(wàn)至上億美元·

從推理側(cè)看1,價(jià)格方面目前Sora每分鐘的推理成本

約數(shù)十美元，成本高昂；生成時(shí)長(zhǎng)方面，單個(gè)視頻

生成時(shí)長(zhǎng)超過(guò)10min,推理速度很慢PixelVideoSpaceCompactLatent

SpaceCean(HxWT4CTmcuelNosr

LsrentteratxCodlicmt信息來(lái)源：量子位智庫(kù)，OpenAI,

英偉達(dá)，《s

,1)推理速度除模型外也看算力供給

6Alarge,vibrantbirdwithanimpressivewingspanswOopsdownfrom

thesky,let-

tingoutapiercing

call

approaches

weathered

scarecrow

sunlit

field.Thescarecrow,dressedintatteredcloth-

ing

and

straw

hat,appears

tremble,

almost

asifit's

comingto

life

fear

theapproachingbird.1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局算

力

需

求

大數(shù)

據(jù)

要

求

高算

法

復(fù)

雜<圖像\視頻，文字描述>ImagesQryideofamConditioringPmmp·

英偉達(dá)目前占據(jù)全球高端GPU市場(chǎng)超95%的市場(chǎng)份額，是事實(shí)上生成式AI全行業(yè)算力市場(chǎng)

供給量的決定者·

英偉達(dá)的人工智能GPU在2022年出貨量約270

萬(wàn)，主要以A100為主；2023年出貨量約380萬(wàn)

塊，主要以A100和H100為主；預(yù)計(jì)2024年出貨量可能達(dá)到450萬(wàn)塊，以H100和最近發(fā)布的

Blackwell系列為主·預(yù)計(jì)英偉達(dá)GPU交付量將保持20%的增速，并在每年進(jìn)行芯片架構(gòu)的升級(jí)，穩(wěn)步提升芯片

和系統(tǒng)的計(jì)算能力·

目前北美最頭部的科技公司都在重金押注AI

數(shù)據(jù)中心建設(shè)，以規(guī)模最大的4家公司為例，

預(yù)計(jì)2024年在數(shù)據(jù)中心上的投入將達(dá)到1500

億美元左右，在一定程度代表了領(lǐng)軍玩家對(duì)

于大模型的信心和預(yù)期云廠商旗下的數(shù)據(jù)中心既支持內(nèi)部業(yè)務(wù)需求，也對(duì)外提供GPU算力，將逐步滿足市場(chǎng)對(duì)于

算力的需求，支持各類模型的訓(xùn)練和推理·數(shù)據(jù)中心成本主要包括AI服務(wù)器的采買、土建成本、電力系統(tǒng)、制冷系統(tǒng)、監(jiān)控系統(tǒng)等amazon5003804002302001000Meta

AmazonGoogleMicrosoft900+20%NVIDIA。600450270300A100GB20002022OpenAISora示

例·

從OpenAISora的實(shí)踐成果來(lái)看，繼續(xù)增加模型的數(shù)據(jù)量和相應(yīng)的參數(shù)規(guī)

模

(Scale

up)依然是AI發(fā)展的核心

路線，強(qiáng)大算力支持是模型進(jìn)步的必

要支撐·

模型能力：scale之后可以涌現(xiàn)出更

多高級(jí)特性，例如：1)隨著鏡頭的

旋轉(zhuǎn)和移動(dòng)，人物、對(duì)象、場(chǎng)景在三

維世界中保持穩(wěn)定真實(shí)，2)模型可

以模擬距離關(guān)系和空間關(guān)系，生成針

對(duì)一個(gè)角色的多個(gè)鏡頭，3)模擬生

成內(nèi)容中的物理交互關(guān)系·

應(yīng)用成本：視頻模型的推理成本較高，需要大規(guī)模的推理算力來(lái)支持市場(chǎng)的

大規(guī)模應(yīng)用，充沛的算力供給將推動(dòng)

視頻生成從實(shí)驗(yàn)階段推向商業(yè)化普及技術(shù)驅(qū)動(dòng)：視頻生成模型的能力將在算力驅(qū)動(dòng)下快速進(jìn)步，穩(wěn)定性、可控性、豐富度將持續(xù)提升，解鎖更多應(yīng)用空間

北美巨頭數(shù)據(jù)中心2024年Capex投入預(yù)期(億/美元)

關(guān)

鍵

分

析

計(jì)算量x1

計(jì)算量x4計(jì)算量x32

英偉達(dá)人工智能GPU出貨量持續(xù)增加(萬(wàn)張)1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局540GB200

十B系列

UItra2025E信息來(lái)源：量子位智庫(kù)，MorganStanleyG400insightsRubin系列380A100H10020232024E2026EH1006504403006007技術(shù)驅(qū)動(dòng)：視頻生成的推理成本將持續(xù)下降，生成速度進(jìn)一步提高，

加速應(yīng)用層技術(shù)擴(kuò)散和商業(yè)化規(guī)模增長(zhǎng)英偉達(dá)GPU產(chǎn)品及其算

力(FP16,TFLOPS)5,0004,0002,0006201300Ampere

Hopper

Blackwell

Robin2

模型應(yīng)用的成本將不斷降低·

降本趨勢(shì)：視覺(jué)模型的價(jià)格快速下降

尚未開始，但隨著市場(chǎng)需求驅(qū)動(dòng)和產(chǎn)

品化的成熟，類似LLM的降價(jià)趨勢(shì)也

將出現(xiàn)在視頻模型上·FLOPs

成本下降：?jiǎn)挝挥?jì)算量的成本

將持續(xù)降低，主要來(lái)源于芯片架構(gòu)的

提升和服務(wù)器、數(shù)據(jù)中心系統(tǒng)優(yōu)化·

軟件層優(yōu)化：從LLM來(lái)看，推理成本

正在迅速降低，頭部模型在過(guò)去一年

降幅約90%,降本趨勢(shì)將持續(xù)·

當(dāng)前痛點(diǎn)：目前制約視頻生成應(yīng)用普

及的重要因素之一是生成速度，生成

5s左右的視頻需要等待數(shù)分鐘，且需

要嘗試多次才能獲得理想結(jié)果，對(duì)用

戶體驗(yàn)造成的影響較大●

加速生成：?jiǎn)慰ㄐ酒懔μ嵘拖到y(tǒng)、集群上面的優(yōu)化可以大幅增加模型推

理速度(tokens/秒),縮短視頻生成的等待時(shí)間10

硬件的計(jì)算能力、推理速度不斷提升英偉達(dá)GPU的算力成本估算(美元/TFLOPs)

OpenAI旗艦?zāi)Ｐ偷耐评沓杀?美元/百萬(wàn)token)1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局B系統(tǒng)層性能提升A

芯片層成本優(yōu)化A

芯片層性能提升關(guān)鍵分析信息來(lái)源：量子位智庫(kù)，英偉達(dá)，OpenAI,MorgB系統(tǒng)層成本優(yōu)化insights8,0006,0002,000Volta3008物理世界交互·

具身智能·

自動(dòng)駕駛●數(shù)字世界交互·

智能管家·

虛

擬Agent●

●System

2·

復(fù)雜推理·

長(zhǎng)線規(guī)劃●

●Scaling

LawsGPT-3.5語(yǔ)言模型DALL-E視覺(jué)模型Whisper音頻模型早期階段·

內(nèi)容生成和理解獨(dú)立·

不同模態(tài)相互獨(dú)立GPT-4V多模態(tài)大模型“Everything

Everything”

統(tǒng)一生成和理解Sora目前各個(gè)模態(tài)正在相互融合：·Text-to-Video:OpenAISora打通文字與視覺(jué)·Audio-to-Audio:GPT-4o

實(shí)現(xiàn)音頻交流·Text-to-Audio:Suno

打通文字與音樂(lè)·Video-to-Audio:Deepmind

發(fā)布匹配Veo的視頻生音頻技術(shù)關(guān)鍵分析·

生成和理解在本質(zhì)上是統(tǒng)一的，語(yǔ)言模型的next

tokenprediction

越準(zhǔn)確，意味著

模型對(duì)于語(yǔ)言和世界的理解

越準(zhǔn)確。對(duì)于視頻模型，對(duì)

下一幀或下一個(gè)patch1的預(yù)

測(cè)的越準(zhǔn)確，上代表了模型

對(duì)物理世界的理解越準(zhǔn)確●視頻模態(tài)包含大量信息：從仿生的角度看，人腦有80%

的信息來(lái)自視覺(jué)，因此視覺(jué)

信息的理解與生成對(duì)于多模

態(tài)大模型至關(guān)重要·

視覺(jué)模型可以壓縮一切：“當(dāng)多模態(tài)訓(xùn)練達(dá)到一定規(guī)

模時(shí)，語(yǔ)言智能就會(huì)融入到

視覺(jué)智能中，這是一條獲得

世界模擬器的路徑，可以通

過(guò)這樣的模擬器獲得任何東西?！?--Aditya

Ramesh,

OpenAI

Sora及DALL-E

項(xiàng)目

負(fù)責(zé)人9技術(shù)展望：視頻生成模型不僅限于生成視頻內(nèi)容，長(zhǎng)期將統(tǒng)一多模態(tài)的生成和理解，成為通向AGI的重要路徑1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局信息來(lái)源：量子位智庫(kù)，1)patch是OpenAI

So量子位智庫(kù)insights多模態(tài)生成多模態(tài)理解數(shù)據(jù)算法算力2.應(yīng)用側(cè)3.玩家格局1.技術(shù)側(cè)insights10海外視頻應(yīng)壓平

臺(tái)用戶年?duì)I收長(zhǎng)視頻平臺(tái)D

YouTube25

億MAU2.7億315億美元

340億美元1.5億MAU84億美元短視頻平臺(tái)

TikTok20億MAU

億MAU100億美元+

160億美元電影市場(chǎng)(年度票房)N/A330億美元(全球)1000視頻流量占互聯(lián)網(wǎng)網(wǎng)絡(luò)流量比例(%)2017·

2017到2022年，全球互聯(lián)網(wǎng)視頻流量

占消費(fèi)互聯(lián)網(wǎng)流量的比例從73%增長(zhǎng)到

82%,成為流量最大的內(nèi)容形式·2022年，每月有500萬(wàn)年的視頻內(nèi)容通

過(guò)互聯(lián)網(wǎng)傳輸。相當(dāng)于每秒鐘有110萬(wàn)

分鐘的視頻被流式傳輸或下載人4

小時(shí)·

內(nèi)容視頻化是大勢(shì)所趨，移動(dòng)互聯(lián)網(wǎng)的

用戶使用總時(shí)長(zhǎng)占比中，短視頻穩(wěn)居第

一達(dá)到28%·移動(dòng)視頻行業(yè)用戶規(guī)模達(dá)10.76億，月人均時(shí)長(zhǎng)為64.2小時(shí)，視頻平臺(tái)成為流量

核心，可以將用戶引向電商、音樂(lè)、影

視、本地生活、旅游服務(wù)等等垂直賽道·

從消費(fèi)端來(lái)看，視頻是用

戶消費(fèi)時(shí)間最長(zhǎng)的內(nèi)容形態(tài)，有豐富的應(yīng)用的場(chǎng)景

和大型內(nèi)容分發(fā)平臺(tái)，長(zhǎng)

期或有誕生超級(jí)應(yīng)用的機(jī)

會(huì)·

隨

著AI視頻生成的能力不

斷

提

升

，AI生成視頻占視

頻消費(fèi)內(nèi)容的比例將不斷提升，推動(dòng)內(nèi)容供給端變

革，逐步滲透視頻消費(fèi)市

場(chǎng)場(chǎng)景廣闊：互聯(lián)網(wǎng)內(nèi)容正在全面視頻化，視頻內(nèi)容的消費(fèi)場(chǎng)景豐富，

AI視頻內(nèi)容生成的潛在市場(chǎng)規(guī)模巨大230億

1500億1135億視頻流量是主要的互聯(lián)網(wǎng)信息流量騰訊視頻4

億MAU

3.4億MAU1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局視頻是移動(dòng)互聯(lián)網(wǎng)最大的內(nèi)容消費(fèi)形式抖音8

億

+MAU平

臺(tái)用戶

關(guān)鍵分析faIYI愛奇藝信息來(lái)源：量子位智庫(kù)，Questmobile,Cisco本土視頻應(yīng)用7

億

+MAU

N/Ainsights年?duì)I收快手550億(本土)100億+320億5

億MAU量子位智11電影制作電視劇制作2027游戲設(shè)計(jì)微電影動(dòng)漫劇集2025

短視頻創(chuàng)

意MV動(dòng)畫短片

早期階段模型能力品

牌TVC

的提升將是驅(qū)動(dòng)應(yīng)2023

短劇

用的主導(dǎo)因素繪本故事空鏡素材·模型能力：

實(shí)現(xiàn)復(fù)雜語(yǔ)義理解，同時(shí)滿足多個(gè)生成條件，視頻的活動(dòng)度、豐富度、穩(wěn)定性可以媲美影視級(jí)內(nèi)容，有效時(shí)長(zhǎng)超過(guò)一分鐘，在部分場(chǎng)景可以充分滿足需求。1分鐘的視頻片段生成時(shí)間縮短到到分鐘級(jí)·

經(jīng)濟(jì)性：推理成本下降1個(gè)數(shù)量級(jí)·

產(chǎn)品：視頻模型與傳統(tǒng)工作流進(jìn)行深度集成，同時(shí)萌生

AI原生工作流，商業(yè)化規(guī)模達(dá)到Midjourney

的水平●

模型能力：

生成視頻時(shí)長(zhǎng)度短、活動(dòng)度低、穩(wěn)定差，人

物對(duì)象、背景經(jīng)?；?。語(yǔ)言理解能力有限，只能理解

簡(jiǎn)單指令，難以同時(shí)滿足多個(gè)生成條件，指令遵從能力

差，10秒左右視頻片段需要3-5分鐘生成·經(jīng)濟(jì)性：成本高昂，每分鐘視頻約3美元1·產(chǎn)品：簡(jiǎn)單的文成視頻、圖生視頻功能，以網(wǎng)頁(yè)端和移

動(dòng)的簡(jiǎn)單應(yīng)用為主，功能較為單薄應(yīng)用趨勢(shì)：2024年將成為Al視頻的應(yīng)用元年，未來(lái)3-5年更多應(yīng)用場(chǎng)景

將隨著模型能力提升和推理成本下降逐步解鎖推理經(jīng)濟(jì)性信息來(lái)源：量子位智庫(kù)，1)參考Runway的公開

12·

模型能力：

通過(guò)自然語(yǔ)言及其他方式可以實(shí)現(xiàn)對(duì)內(nèi)容的精準(zhǔn)控制，深度理解物理世界規(guī)律，穩(wěn)定性、豐富度達(dá)

到在各個(gè)領(lǐng)全面達(dá)到商用水準(zhǔn)。1分鐘的視頻片段生成

時(shí)間達(dá)到縮短到數(shù)秒，接近實(shí)時(shí)生成·

經(jīng)濟(jì)性：視頻生成的成本繼續(xù)降低1個(gè)數(shù)量級(jí)·產(chǎn)品：新一代視頻交互界面開始普及，視頻生成內(nèi)容融

入大部分視頻制作場(chǎng)景，重塑內(nèi)容生態(tài)新內(nèi)容形式?新消費(fèi)平臺(tái)?互動(dòng)式電影確認(rèn)PMF后推理成本的下降將成為大規(guī)模普及的主導(dǎo)因素1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局發(fā)展階段早期階段量子位智insights模型能力2029AI視頻生成成本約300美元/分鐘1·AI

視頻生成的成本遠(yuǎn)遠(yuǎn)低于影視行

業(yè)的制作成本，有若干個(gè)數(shù)量級(jí)的降

本效果，但目前阻礙應(yīng)用的主要因素

是模型能力不足，生成效果尚無(wú)法與

傳統(tǒng)制作方式競(jìng)爭(zhēng)，但預(yù)期模型能力

將持續(xù)迭代，未來(lái)3-5年達(dá)到可以與

傳統(tǒng)制作方式的媲美的水平·

動(dòng)畫類電影的制作成本尤其高，需要

渲染大量的2D和3D內(nèi)容，傳統(tǒng)制作方

式包括角色建模、場(chǎng)景貼膜、紋理貼

圖、渲染合成等環(huán)節(jié)，需要數(shù)百人耗

時(shí)數(shù)月進(jìn)行制作，工程量非常大，視

頻生成可以大量削減制作成本的·

局部應(yīng)用已經(jīng)開始：在對(duì)于制作質(zhì)量

要求較低、制作方式和內(nèi)容較為模板

化的短劇行業(yè)，已經(jīng)出現(xiàn)Al短劇生成

的應(yīng)用，例如Reel.AI成本驅(qū)動(dòng)：AI生成視頻的成本遠(yuǎn)低于各類現(xiàn)有視頻內(nèi)容的制作成本，

將逐漸驅(qū)動(dòng)視頻生成內(nèi)容滲透到各內(nèi)容種類每分鐘制作成本(美元)200萬(wàn)50萬(wàn)10萬(wàn)2000030003000

視頻種類

不同類型視頻內(nèi)容制作成本1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局動(dòng)畫、動(dòng)漫本土流水線短劇本土動(dòng)畫電影(《白蛇緣起》、《哪吒》、《熊出沒(méi)系列》等)關(guān)鍵分析頂級(jí)動(dòng)畫電影(出自迪士尼、皮克斯等)信息來(lái)源：量子位智庫(kù)，專家訪談，1)Runway

量子位智庫(kù)insights21STCENTURYFOX好萊塢電影平均成本P

T普通UGC視頻本土TVC視頻UNIVERSAL13廣告領(lǐng)域已具備應(yīng)用價(jià)值，但仍存在諸多局限1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局

位

智庫(kù)insights

應(yīng)用案例-MV、品牌廣告：Sora作為目前頭部模型，在創(chuàng)意視頻和品牌創(chuàng)意短片《Air

Head》--

2024年3月可控性差······

時(shí)長(zhǎng)1分20秒，由Shy

Kids團(tuán)隊(duì)3人花費(fèi)2

周時(shí)間完成制作，總體呈現(xiàn)效果精良抽卡率高，生成素材可用率約300:1片段間一致性差：

難以保證人物在不同

視頻片段之間的一致性，目前只能通過(guò)

詳細(xì)的提示詞描述來(lái)彌補(bǔ)，但效果欠佳

鏡頭難以控制：對(duì)于專業(yè)攝影術(shù)語(yǔ)理解

有限，類似鏡頭平移的功能需要通過(guò)后

期裁剪實(shí)現(xiàn)生成穩(wěn)定性低：同樣的提示詞會(huì)產(chǎn)生不同的生成內(nèi)容，例如要求生成黃色氣球

但實(shí)際生成式紅色生成能力局限：生成的氣球上總會(huì)有面

部表情，需要后期抹除，不同片段畫面

風(fēng)格難以保持一致，需要后期統(tǒng)一調(diào)色

14·

時(shí)長(zhǎng)1分06秒，由玩具反斗城團(tuán)隊(duì)和導(dǎo)演Nik

Kleverov共同構(gòu)思制作，并在戛

納國(guó)際創(chuàng)意節(jié)亮相·Sora

生成的第一個(gè)商業(yè)廣告，效果接近

可以和傳統(tǒng)品牌短片的水準(zhǔn)，可以傳

達(dá)品牌方的關(guān)鍵視覺(jué)元素和風(fēng)格·人物角色的細(xì)節(jié)在不同片段一致性不足(例如衣物細(xì)節(jié)顏色、紋理、眼鏡樣式、

細(xì)節(jié)面部特征等細(xì)節(jié)有輕微畸變)·

背景元素存在畸變，例如背景中的自行

車的有畸變特征·

雖

然Sora

原生支持1080P視頻生成，但由于生成速度太慢團(tuán)隊(duì)選擇生成480P的視

頻，再用其他工具再后期進(jìn)行超分處理，

生成3-20秒的視頻需要10-20分鐘的生成

時(shí)間(和云算力供給也有關(guān))·

為了避免版權(quán)問(wèn)題，OpenAI對(duì)提示詞進(jìn)行了限制，例如拒絕生成“35mm膠卷，

未來(lái)宇宙飛船中，

一名男子拿著光劍靠

近”類似星球大戰(zhàn)的提示詞品牌廣告《玩具反斗城的起源》

---2024年6月信息來(lái)源：量子位智庫(kù)，量子位，Shy

kids,T生成速度慢版權(quán)限制不足之處

Reel.Al一

ReelDiffusion·Al

短片《M.A.D》(俱皆

毀滅),在全球AI電影馬

拉松大賽上榮獲B站觀眾

選擇獎(jiǎng)。該短片利用CreativeFitting

自研的

視頻大模型ReelDiffusion

生成，效果媲美傳統(tǒng)動(dòng)畫短片·ReelDiffusion

視

頻

大模型在敘事型視頻的生成

方面能力領(lǐng)先·模型支持人物角色的細(xì)膩

情感表達(dá)及復(fù)雜場(chǎng)景的生

成，從算法到訓(xùn)練數(shù)據(jù)及

工程實(shí)現(xiàn)，都進(jìn)行了專門

設(shè)計(jì)，幫助創(chuàng)作者講述引

人入勝的故事·

動(dòng)畫短劇生成要比普通

短劇生成更加成熟(井英科技生成的AI短劇)30分鐘用戶日均使用時(shí)長(zhǎng)15%付費(fèi)用戶長(zhǎng)期留存·

市場(chǎng)空間大：2024年短劇在國(guó)內(nèi)的市場(chǎng)規(guī)模為400-500億元，已經(jīng)接近國(guó)內(nèi)電影

市場(chǎng)規(guī)模，海外市場(chǎng)發(fā)展情況和滲透率要低于本土，市場(chǎng)空間更加廣闊·

制作效果接近成熟：目前AI短劇的制作水平還難以與傳統(tǒng)實(shí)拍模式媲美，但在的

動(dòng)畫短劇領(lǐng)域已基本達(dá)到可用水平。隨著模型能力逐步迭代，未來(lái)一年內(nèi)普通的

短劇生成也將達(dá)到用戶可消費(fèi)的水平·

制作流程介紹：目前采用與外部導(dǎo)演合作的模式，1)由導(dǎo)演進(jìn)行劇本創(chuàng)作，并

將其分解為分鏡劇本，2)井英科技將分鏡劇本轉(zhuǎn)化為提示詞并輸入視頻生成模

型中(該環(huán)節(jié)替代了短劇演員)獲得結(jié)果，3)導(dǎo)演從生成結(jié)果中中選擇滿意的

分鏡視頻，或再通過(guò)提示詞進(jìn)行二次生成調(diào)整，4)選定視頻后在傳統(tǒng)視頻工作

流中進(jìn)行后期的剪輯和處理·

互動(dòng)功能：用戶在App內(nèi)可與短劇主角聊天，類似Character.AI,可增加用戶粘性

1.技術(shù)側(cè)2.應(yīng)用側(cè)

3.玩家格局

量子位智insights應(yīng)用案例-短劇、動(dòng)畫：井英科技發(fā)布Al短劇APP

Reel.AI,自研短劇

視頻生成模型Reel

Diffusion,生成效果接近可消費(fèi)水平

15(Reel

Diffusion生成的動(dòng)畫短劇)信息來(lái)源：量子位智庫(kù)，井英科技insights

應(yīng)用趨勢(shì)：視頻生成模型正在賦能傳統(tǒng)視頻制作工作流，目前主要價(jià)值在于素材生成環(huán)節(jié)，其他環(huán)節(jié)有少量滲透中期制作后期制作素材拍攝

素材選取

剪輯

渲染/音效·

視頻生成模型縮短視頻生產(chǎn)周期，快速進(jìn)行創(chuàng)意驗(yàn)證，

生成粗略的原型視頻，加快

創(chuàng)意、情節(jié)構(gòu)思規(guī)劃過(guò)程·

通過(guò)大量新素材和創(chuàng)意素材

可以進(jìn)一步激發(fā)創(chuàng)造力，提

升內(nèi)容創(chuàng)作質(zhì)量·

添加視覺(jué)特效，確保效果自然、完成顏色校正、調(diào)色與整體風(fēng)格一致·

同步處理音頻素材，確

保對(duì)白清晰、搭配音效，

增強(qiáng)視頻的聽覺(jué)效果·

故事創(chuàng)意、主題風(fēng)格構(gòu)

思，明確故事大綱，如

主要情節(jié)和角色發(fā)展·

將大綱擴(kuò)展成完整的劇

本，包括對(duì)白、場(chǎng)景描

述和情節(jié)細(xì)節(jié)·

根據(jù)情節(jié)和主題需要進(jìn)行素材整理、分類、剔

除無(wú)效素材·

對(duì)于無(wú)須拍攝類內(nèi)容，

需要從素材庫(kù)進(jìn)行素材

選取文字劇本視覺(jué)化，確定鏡頭類型、鏡頭運(yùn)動(dòng)、

角色位置和動(dòng)作編制鏡頭列表，包括每

個(gè)鏡頭的編號(hào)、描述、

拍攝角度、鏡頭運(yùn)動(dòng)等·

傳統(tǒng)工作流在后期階段對(duì)于質(zhì)量的要求較為精

細(xì)，目前視頻生成模型

的后期編輯功能還不能

充分滿足需求·

初步剪輯、邏輯剪輯，

拼接出粗略的視頻版本·精剪微調(diào)，對(duì)影片進(jìn)行精細(xì)剪輯，調(diào)整鏡頭長(zhǎng)

度、順序、節(jié)奏等前期制作大綱腳本

分鏡規(guī)劃·

根據(jù)分鏡規(guī)劃制定拍攝計(jì)劃，完成器材準(zhǔn)備和

技術(shù)測(cè)試、準(zhǔn)備演員、

服化道及布景設(shè)置1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局Office365

+各種生產(chǎn)力軟件A

Adobeshutterstsck信息來(lái)源：量子位智庫(kù)，OpenAI相互激發(fā)

通用素材生成視

頻

模

型

賦

能

點(diǎn)Au

內(nèi)

容工具量子位智16傳統(tǒng)混合

Office365

+各種生產(chǎn)力軟件·

快速進(jìn)行創(chuàng)意驗(yàn)證，生成粗略的原型視頻，

加快創(chuàng)意、情節(jié)構(gòu)思規(guī)劃過(guò)程。通過(guò)大量新

素材和創(chuàng)意素材可以進(jìn)一步激發(fā)創(chuàng)造力，提

升內(nèi)容創(chuàng)作質(zhì)量AdobeshutterstsckR

runway

區(qū)·

目前主要有三種模式：文生視頻、圖生視頻、文生圖-圖生視頻。目前頭部文生圖產(chǎn)品的圖

片生成質(zhì)量最好，

一般先用文生圖應(yīng)用生成指·

不會(huì)涉及專業(yè)級(jí)影視剪輯，視頻大部分關(guān)鍵元素在生

成階段完成，用戶主要的做一些簡(jiǎn)單的邏輯剪輯或者

音效編輯，可以快速出片應(yīng)用趨勢(shì)：新一代AI視頻工作流正在萌生，將整合音視頻創(chuàng)作全流程

提高創(chuàng)作效率，降低AI視頻內(nèi)容的制作摩擦前期制作

中期制作

后期制作導(dǎo)幀，然后再作為視頻生成的輸入進(jìn)行動(dòng)態(tài)化整合音視頻生成、編輯等所有功能的一站式應(yīng)用，可能產(chǎn)生新的交互界面添加視覺(jué)特效，確保效果自然、完成顏色校正、調(diào)色與整體風(fēng)格一致·

同步處理音頻素材，確保對(duì)白清晰、搭配音效，增強(qiáng)視頻的聽覺(jué)效果·

故事創(chuàng)意、主題風(fēng)格構(gòu)思，明確故事大綱，如

主要情節(jié)和角色發(fā)展·

將大綱擴(kuò)展成完整的劇

本，包括對(duì)白、場(chǎng)景描

述和情節(jié)細(xì)節(jié)·

根據(jù)情節(jié)和主題需要進(jìn)行素材整理、分類、剔

除無(wú)效素材·

對(duì)于無(wú)須拍攝類內(nèi)容，需要從素材庫(kù)進(jìn)行素材

選取文字劇本視覺(jué)化，確定鏡頭類型、鏡頭運(yùn)動(dòng)、

角色位置和動(dòng)作編制鏡頭列表，包括每

個(gè)鏡頭的編號(hào)、描述、

拍攝角度、鏡頭運(yùn)動(dòng)等·初步剪輯、邏輯剪輯，拼接出粗略的視頻版本

精剪微調(diào)，對(duì)影片進(jìn)行

精細(xì)剪輯，調(diào)整鏡頭長(zhǎng)

度、順序、節(jié)奏等根據(jù)分鏡規(guī)劃制定拍攝計(jì)劃，完成器材準(zhǔn)備和

技術(shù)測(cè)試、準(zhǔn)備演員、

服化道及布景設(shè)置已經(jīng)

成熟過(guò)渡

階段正在

萌生1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局R

runwaystability.aiinsights信息來(lái)源：量子位智庫(kù)分鏡規(guī)劃渲染/音效素材拍攝素材選取大綱腳本回OpenAl

SORA剪輯內(nèi)容原

生17量子位智庫(kù)(nsights應(yīng)用案例-工作流(精細(xì)化生成)

:阿里達(dá)摩院發(fā)布尋光視頻制作平臺(tái)，通過(guò)圖層編輯方式和工作流整合提升創(chuàng)作全流程效率全局型元素·視頻風(fēng)格化：莫奈、浮世繪、水彩、水墨、卡通等20種風(fēng)格·鏡頭運(yùn)鏡控制：左右平移、上下平移、推進(jìn)拉遠(yuǎn)、左右環(huán)繞等·

幀率控制：修改不同鏡頭的幀率修改使得視頻更加一致絲滑·

清晰度控制：提供不同清晰度的生成選擇·

畫質(zhì)增強(qiáng)：提供視頻超分工具局部型元素·

目標(biāo)編輯：可以消除、替換、新增視頻中的各類目標(biāo)·移動(dòng)目標(biāo)：通過(guò)拖拽可以實(shí)現(xiàn)目標(biāo)的運(yùn)動(dòng)效果，人體控制：控制視頻中角色的肢體動(dòng)作·人臉控制：批量替換、編輯人臉·前景、背景控制圖層拆解·

用戶也可以上傳自己視頻，尋光平臺(tái)可以對(duì)

視頻進(jìn)行圖層拆解，分解出創(chuàng)作者需要的視·針對(duì)每個(gè)分鏡視頻提供一攬子的的編輯功能整合大量Al編輯功能圖層融合·

可以把用戶自己生成的視頻內(nèi)容或者上傳內(nèi)

容進(jìn)行圖層組合，可以實(shí)現(xiàn)視頻背景、人物

的任意切換，以解決目前Al視頻生成的場(chǎng)景

一致性問(wèn)題，增加可用性。支持場(chǎng)景和人物

的批量替換，功能強(qiáng)大類PPT的圖形化操作界面·將視頻分解為多個(gè)場(chǎng)景的組合，

再將每個(gè)場(chǎng)景分解為多個(gè)分鏡視

頻，方便用戶預(yù)覽整個(gè)視頻，對(duì)

每個(gè)鏡頭進(jìn)行精細(xì)編輯，可以直

接通過(guò)拖拽完成順序調(diào)整，在任

意位置進(jìn)行添加、刪除圖層生成·

用戶可以單獨(dú)生成視頻中的角色、物體和環(huán)

境對(duì)象，生成的視頻為透明背景，可以整合

覆蓋到其他視頻內(nèi)容中，實(shí)現(xiàn)對(duì)于視頻內(nèi)容

的細(xì)顆粒度操作和局部編輯基于圖層組合的編輯方式

18頻內(nèi)容，例如人物角色，方便用于其他視頻內(nèi)容的組合、編輯信息來(lái)源：量子位智庫(kù)，達(dá)摩院上傳素材生成素材·

多元化團(tuán)隊(duì)背景：主要是技術(shù)人員+創(chuàng)作者的組合，例如來(lái)自

Cruise、Waymo、Tesla、Microsoft、Meta

和NVIDIA

等公司的技術(shù)人員，首席工程師來(lái)自《孢子》、

《模擬城市》、《模擬人生》、

《異形：隔離》等視頻游戲，藝術(shù)家則曾參與制作《沙丘2》、《哥斯拉》、《造物主》、《復(fù)仇者聯(lián)盟：奧創(chuàng)紀(jì)元》、

《艾麗塔：戰(zhàn)斗天使》和《侏羅紀(jì)世界：失落王國(guó)》等電影·

投資方：

包括谷歌風(fēng)投、

EladGil

、GarryTan

、JeffDean等以及來(lái)自0penAI、Deepmin、Meta、Midjourney、Pixar

的研究人員信息來(lái)源：量子位智庫(kù)，Odyssey

19Q

量子位智nsights應(yīng)用案例-工作流(精細(xì)化生成)

Odyssey

結(jié)合4種生成模型，可以實(shí)現(xiàn)對(duì)視頻內(nèi)容的精確控制和生成，主打好萊塢級(jí)的視頻內(nèi)容生成·

主打高端影視場(chǎng)景：能夠生成好萊塢級(jí)的山脈、平原、植被、海洋、河流、火焰、煙霧、建筑、人物以及任何其他東西創(chuàng)作者可以完全控制場(chǎng)景中生

成的每個(gè)元素和位置方向，無(wú)論是幾何形狀、材質(zhì)、燈光、動(dòng)作還是其他

方面。場(chǎng)景由可提示和可操作的對(duì)象組成，這些對(duì)象可以獨(dú)立運(yùn)行，同時(shí)幾何圖形生成模型Odyssey可控運(yùn)動(dòng)生成模型還能保持上下文感知

光影生成(不用強(qiáng)度、方位、風(fēng)格)

對(duì)象紋理生成影像級(jí)材質(zhì)生成模型光影生成模型材質(zhì)生成(如荒漠、草地、土地)對(duì)象生成(如樹木、石塊、森林)應(yīng)用案例-工作流(流程整合化)

:美圖發(fā)布Al短劇制作平臺(tái)MOKI,

整合包括創(chuàng)意生成、后期編輯、音效制作等視頻創(chuàng)作全流程修改分鏡圖驅(qū)動(dòng)角色說(shuō)話輸入故事創(chuàng)意：捕快在竹林里追緝兒時(shí)摯友，展開了

一

場(chǎng)充滿

武

俠

情

懷

的

故

事成智能剪輯Al配樂(lè)1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局選擇旁白配音磁性

活脆

量子位智insights性別d溫梁用可制作各類短信息來(lái)源：量子位智庫(kù)，美圖片

故事繪本性別d活力通用視頻生視頻角色設(shè)計(jì)Al音效穩(wěn)重炎前

期中

期6+導(dǎo)入?yún)⒖紘笃诮巧?:云龍儒雅20分LTXsudo

LaA

The

Lost

Planet

Storyboard

Shot

EditorProjectsettingsCast

Soundtrack

g]:Volceover#Scene

角色設(shè)定

背景音

旁白Sam

stargazing

through

his

telescope

inhis

backyardScenesettingLOCATION場(chǎng)景位置.Generate

vildeo

Shot

editorDim

場(chǎng)景光影PROMPr鏡

頭

@SamJohnson'sface,illuminatedbythetelescope's

lght,filled

with

wonder.鏡頭提示詞SHOTTYPEClose-upg]:voICEOVEBHey,I'mSam.So,thereIw..SOUND

FFFECTsSCENES0UNDScene

場(chǎng)

景

2Sam

and

Lucy

excitedly

pointing

atsomething

the

night

skyScenesetting10CATIONBackyard應(yīng)用案例-工作流(流程整合化)

LTX

Studio采用基于故事版和分鏡的生成編輯方式，同時(shí)整合音效、旁白等功能(LTX

界面)故事板界面：用戶需要先進(jìn)行角色設(shè)定，包括人物的肖像、風(fēng)格、名字等，然后故事版可以幫助用戶構(gòu)思視頻的整體內(nèi)容，包括從場(chǎng)景和分鏡頭兩個(gè)層次，可以設(shè)定每個(gè)場(chǎng)景的

基本情況，如位置、光影、天氣等，也可以添加該場(chǎng)景的音效和旁白。鏡頭編輯界面：可以對(duì)每個(gè)鏡頭進(jìn)行精細(xì)化編輯，例如鏡頭的控制

(LTX提供了超過(guò)10種鏡頭運(yùn)動(dòng)方式)、分辨率調(diào)整、視頻幀率控制、音效旁白等，確認(rèn)好基本參數(shù)后可以開始

生成視頻

21NEGATIVE

PROMPISHO

YPEClose-upSCENE

OVERRIDEMotion

鏡頭控制1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局LTXsudio

The

Lost

Planet

Storyboard

Shot

Editor

鏡頭編輯器WEATHER

場(chǎng)景天氣

Clear

nightskySound

旁白ED幀率控制6tp

24fos時(shí)長(zhǎng)控制信息來(lái)源：量子位智庫(kù)，LTX

Studio

量子位智庫(kù)insightsND

EFFECrs開始生成Generate

Video@SamJohnsonadjustingthetelescope,

peering

intentlyatthe

nightsky.Dimly

lit

backyardwith@SamJohnsongazingatthestarsthrough

hisDimly

Iit

backyard

with

0Sam

Johnsongazing

the

stars

through

his

telesoope.,Generate

video

Shot

editor(LTX

界面)故事板鏡頭類型SHOTTYPEMedium-shotShoteditor鏡頭1場(chǎng)景1鏡頭3+.Generate

vldeo超分Project

settingsJul

16,2024,03:28PMCast

8Soundtracktelescope.?

PreviewSOUND

EFFECTs6sec

OUND

EFFECTSBackyardClose-upSou

undVoiceoverHOTTYPELIGHTINGPROMPTExpoROMPTsCSEE通用類·

場(chǎng)景廣泛：不針對(duì)某一類風(fēng)格、行業(yè)、角色

或其他方面進(jìn)行垂直優(yōu)化，旨在用視覺(jué)信息

建模物理世界，通過(guò)自然語(yǔ)言作為提示詞生

成視頻天花板高：通用生成的想象空間更大大，創(chuàng)

意性強(qiáng)，未來(lái)將有更多應(yīng)用形態(tài)涌現(xiàn)，預(yù)計(jì)

未來(lái)視頻的生成和理解將會(huì)逐步統(tǒng)一，強(qiáng)大

的視頻生成能力也代表視覺(jué)理解的進(jìn)步"As

great

Sora

generatingthingsthat

appear

real-what

excites

its

ability

makethingsthataretotallysurreal."---Shy

Kids特點(diǎn)OpenAIPika

runway

PixVerse

△lsphErEKLING

可靈大模型

愛

詩(shī)SORA垂直類·

場(chǎng)景細(xì)分：垂直類視頻生成主

要指圍繞細(xì)分需求進(jìn)行視頻生

成，主要是針對(duì)細(xì)分場(chǎng)景，用

垂類數(shù)據(jù)或者私有數(shù)據(jù)做適配

訓(xùn)練和可控性、穩(wěn)定性優(yōu)化·

商業(yè)化路徑清晰，有穩(wěn)定的商特點(diǎn)

業(yè)模式和營(yíng)收·

需要的算力資源和數(shù)據(jù)資源少，主要是用少量

垂類場(chǎng)景數(shù)據(jù)和算法對(duì)模型進(jìn)行加強(qiáng)，模型不

追求“大”,且在模型層選擇靈活，可以把文

生視頻、圖生視頻作為外部能力接入傳統(tǒng)模型

作為輔助增強(qiáng)，核心要素還是行業(yè)知識(shí)·

目前垂直類產(chǎn)品主要是在營(yíng)銷場(chǎng)景下，針對(duì)人

物、或者某一類風(fēng)格進(jìn)行微調(diào)，幾千條數(shù)據(jù)就

可以顯著增強(qiáng)模型在垂直領(lǐng)域的表現(xiàn)案例FancyTech

興

光

年BOOLVCreotiveFittgng·

研發(fā)難度大、算力、數(shù)據(jù)資源要求高：模型本身是對(duì)數(shù)據(jù)集

的擬合，要求模型能夠生成任意內(nèi)容的視頻，本質(zhì)上是要求

訓(xùn)練數(shù)據(jù)集的場(chǎng)景豐富程度極高、內(nèi)容質(zhì)量好，標(biāo)注質(zhì)量詳

盡、準(zhǔn)確，以及經(jīng)過(guò)大規(guī)模scale

來(lái)學(xué)習(xí)視頻中包含的各類知

識(shí)和物理規(guī)律，目前大多數(shù)視頻生成技術(shù)公司都屬于此類案例·

內(nèi)容合規(guī)和本土化問(wèn)題難以避免：視頻輸出內(nèi)容可以包含更多維度的信息，其

中可能涉及內(nèi)容安全、意識(shí)形態(tài)及不同

文化背景的偏好差異，例如本土模型對(duì)

本土文化理解力更好，海外模型的輸出

會(huì)凸顯歐美審美偏好和價(jià)值觀產(chǎn)品路線：視頻生成目前仍處于早期階段，從應(yīng)用路線上看主要分為通用類生成和垂直類生成兩類產(chǎn)品1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

量子位智庫(kù)insights信息來(lái)源：量子位智庫(kù)，OpenAI22·

目前主要客戶以各行業(yè)頭部公司為主，預(yù)算比較充足且愿意擁抱Al新技術(shù)，一般大客戶都會(huì)要求部分定制化服務(wù)·

視頻生成領(lǐng)域的定制化一般不涉及技術(shù)上的二次開發(fā)，工作

量主要在具體的需求溝通、微調(diào)模型，幫助客戶熟悉產(chǎn)品，

以及提供技術(shù)支持服務(wù)等·

一些場(chǎng)景需要客戶和公司結(jié)合行業(yè)知識(shí)進(jìn)行共創(chuàng)，例如營(yíng)銷

視頻在內(nèi)容結(jié)構(gòu)、風(fēng)格、審美等方面的選擇·

海外市場(chǎng)的定制化目前較少，主要是SaaS服務(wù)，但頭部公司

也會(huì)提供模型訓(xùn)練服務(wù)和API定制化，例如Adobe和Runway·

創(chuàng)業(yè)公司也會(huì)做一些大客戶或者知名案例，但主要目的是打

造知名度，同時(shí)探索用戶需求、打磨產(chǎn)品，例如Runway曾

參與《瞬息全宇宙》的制作、Sora

完成《Air

Head》制作·

本土市場(chǎng)：如果不同視頻

生成模型之間能力沒(méi)有顯

著差異化，很可能出現(xiàn)類

似大語(yǔ)言模型領(lǐng)域的價(jià)格

戰(zhàn)，產(chǎn)品盈利將面臨較大

壓力。C端市場(chǎng)、專業(yè)消

費(fèi)者是最理想的市場(chǎng)，但

如果場(chǎng)營(yíng)收不好，可能要

持續(xù)做B端服務(wù)·

本土市場(chǎng)目前的商業(yè)化

路徑一般是“從大到小”,例如從大B的影視公司，到中B的影視工作

室，游戲工作室、廣告工

作室、短劇團(tuán)隊(duì)，再到自

媒體創(chuàng)作者、專業(yè)創(chuàng)作者

等Prosumer、小

B用戶·

海外市場(chǎng)：C端會(huì)是長(zhǎng)期

主線，目前競(jìng)爭(zhēng)并不激烈，處在逐步拓展市場(chǎng)的階段商業(yè)模式：通用視頻生成在海外市場(chǎng)以SaaS產(chǎn)品為主，國(guó)內(nèi)市場(chǎng)項(xiàng)目制為主，服務(wù)內(nèi)容多樣化，但訂閱制有待成熟·

海外市場(chǎng)是文生視頻類應(yīng)用的主打市場(chǎng)，生成式Al的創(chuàng)意市場(chǎng)已有類似產(chǎn)品完成市場(chǎng)驗(yàn)證，例如Midjourney年

收入已經(jīng)超過(guò)2億美元、超2000萬(wàn)用戶·

海外市場(chǎng)的用戶主要是一些C端用戶或者中小B端用戶，

主要通過(guò)在社交媒體和創(chuàng)意工作者人群中構(gòu)建社群并以PLG的方式進(jìn)行增長(zhǎng)·

目前主流的通用視頻生成應(yīng)用大都采用SaaS應(yīng)用服務(wù)模

式，向用戶收取每月訂閱費(fèi)用或者生成視頻的消耗量分

不同付費(fèi)版本靈活計(jì)費(fèi)·

目前本土的SaaS市場(chǎng)成熟度相比海外仍有欠缺，用戶的主要畫像是自媒體創(chuàng)作者、創(chuàng)意工作者，覆蓋人群比較

垂直，商業(yè)化規(guī)模有限·

隨著新一代用戶的年輕化、專業(yè)化，為內(nèi)容工具的付費(fèi)

的習(xí)慣正在逐漸形成，但仍需時(shí)間培育海外市場(chǎng)生成點(diǎn)數(shù)

生成時(shí)長(zhǎng)

生成速度

團(tuán)隊(duì)協(xié)作增值功能(視頻超分、音效功能、編輯功能、各類動(dòng)效)本土市場(chǎng)1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局關(guān)鍵分析量子位智庫(kù)insights客戶專員支持私有化部署生成數(shù)量業(yè)務(wù)溝通模型訓(xùn)練API

定

制

化信息來(lái)源：量子位智庫(kù)SaaS產(chǎn)品定制化付費(fèi)點(diǎn)23對(duì)比分析：視頻生成相比圖片生成的應(yīng)用復(fù)雜度更高，大規(guī)模普及或需要從模型到工作流的全面進(jìn)步才能打開市場(chǎng)·

生成視頻存在畸變、分辨率低、指令遵從差、穩(wěn)定性差等問(wèn)題·

目前抽卡率非常高，可能到幾百，例如Shykids團(tuán)隊(duì)用Sora制作的MV作

品抽卡率約300,需要進(jìn)行大量嘗試·視頻生成對(duì)于創(chuàng)作者的要求更高，功能和提示詞的復(fù)雜度更高·

不同模型各異，取決于生成視頻的質(zhì)量和長(zhǎng)度，Runway的價(jià)格約為3美

元每分鐘，Sora可能高達(dá)數(shù)十美元每分鐘·

生成片段并不足以構(gòu)成可用作品，實(shí)際場(chǎng)景需要大量的視頻生成片段組

合為完整的視頻(時(shí)長(zhǎng)數(shù)分鐘或更長(zhǎng)),進(jìn)一步推高了應(yīng)用成本視頻生成環(huán)節(jié)復(fù)雜、昂貴、緩慢

視頻編輯修改難度大信息來(lái)源：量子位智庫(kù)，1、2均代表2023年數(shù)打

1分鐘左右·輸入一次提示詞可以生成4張圖片供用戶選擇(以Midjourney為例)·

生成的大部分圖片可以滿足普通用戶的需求標(biāo)準(zhǔn)，技術(shù)已經(jīng)比較成熟·

抽卡次數(shù)較低，一般生成5次左右可以得到理想結(jié)果·

約0.03美元/張(以Midjourney

為例)耗時(shí)產(chǎn)出數(shù)量·

2分鐘左右(以最新的Runway

Gen-3為例)·

10秒左右的視頻片段(以最新的Runway

Gen-3為例)·

修改難度大：在視頻生成內(nèi)容上做編輯很難，例如人物對(duì)象、·

音頻需求：視頻和圖像的

另一個(gè)的不同是視頻需要內(nèi)容生成編輯修改

后期效果環(huán)境等內(nèi)容發(fā)生畸變的修改難

度和工作量非常大·

一致性難題：視頻制作要保證

多個(gè)視頻片段中人物角色、物

體和周圍環(huán)境的一致性，如何

精準(zhǔn)銜接多個(gè)片段，目前還沒(méi)

有很好的解決，對(duì)二次編輯的

依賴度較高Rrunway約500萬(wàn)美元年?duì)I收224匹配音頻內(nèi)容，需要考慮背景音樂(lè)、旁白等內(nèi)容，

增加了額外的復(fù)雜度·視頻需要考慮時(shí)間維度和

視頻邏輯，在后期需要邏

輯剪輯等環(huán)節(jié)耗時(shí)產(chǎn)出數(shù)量產(chǎn)出質(zhì)量·

圖片生成的二次編輯比較簡(jiǎn)單，

一般用Photoshop或者其他編輯

軟件就可以滿足需求，主要是

在細(xì)節(jié)和特殊需求上做精調(diào)1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局應(yīng)用規(guī)模2億美元年?duì)I收

1量子位智庫(kù)insights成本視頻后期環(huán)節(jié)多產(chǎn)出質(zhì)量成本1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局insights25·

外接場(chǎng)景：通過(guò)的視頻生成模型API賦能其他場(chǎng)景，給其

外接場(chǎng)景：Sora、Runway

給Adobe、Canvas提供他產(chǎn)品輸出模型能力，為其它產(chǎn)品集成API

模

型API·

應(yīng)用場(chǎng)景：可以直接接入現(xiàn)有應(yīng)用，作為增值功能，獲得

·應(yīng)用場(chǎng)景：OpenAI把DALL-E集成到ChatGPT中，用戶流量資源，支撐應(yīng)用、功能啟動(dòng)

營(yíng)銷視頻模型有直接的視頻消費(fèi)場(chǎng)景，Al

視頻營(yíng)銷、AI

影視制作、AI游戲設(shè)計(jì)、自媒體創(chuàng)作、

泛娛樂(lè)創(chuàng)作等·

交互界面：目前視頻生成產(chǎn)品的交互界比較早期，就是輸

交互界面：目前主要是三種形式，Discord

對(duì)話入提示詞輸出視頻結(jié)果，主要是網(wǎng)頁(yè)和本地兩種方式

框，WebUI或者移動(dòng)應(yīng)用，以及節(jié)點(diǎn)式ComfyUI·應(yīng)用類模型：在基礎(chǔ)模型之上進(jìn)行局部?jī)?yōu)化、調(diào)整、編輯

·應(yīng)用類模型：已經(jīng)產(chǎn)品化的包括動(dòng)態(tài)筆刷，鏡·存量場(chǎng)景：主要針對(duì)各行業(yè)已有場(chǎng)景的賦能，隨著視頻生成能力提升將逐漸滲透·增量場(chǎng)景：還處在早期階段，需要用戶和產(chǎn)品進(jìn)行雙向探索，需要時(shí)間等待涌現(xiàn)·

交互界面：

尚不清晰，但基礎(chǔ)模型的推理速度

提升和推理成本下降可能是本質(zhì)因素·

應(yīng)用類模型：視頻生成下一階段的核心核心是

可控性的提升，例如如何保持一個(gè)角色在多個(gè)

生成片段中的一致性，預(yù)計(jì)短期會(huì)有明顯進(jìn)步

·工作流：但生成式內(nèi)容正在滲透?jìng)鹘y(tǒng)的工作流，

但是比較碎片化，需要試用多個(gè)工具各取所需·優(yōu)化方向：模型架構(gòu)優(yōu)化、

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2024年AI視頻生成研究報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2024年AI視頻生成研究報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔