版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目
錄Part
02AIGC視頻生成推動(dòng)世界走向“AI創(chuàng)生時(shí)代”Part
03“提示交互式”視頻制作范式重塑視頻產(chǎn)業(yè)鏈Part
04文娛領(lǐng)域有望開啟第二輪投資浪潮Part
01AIGC視頻生成的技術(shù)路線與產(chǎn)品演進(jìn)趨勢(shì)1.1
Sora讓文生視頻迎來(lái)“GPT-3”時(shí)刻OpenAI發(fā)布文生視頻模型Sora,堪稱視頻生成領(lǐng)域的“GPT-3”時(shí)刻“Sora”一詞在微信指數(shù)及百度指數(shù)的關(guān)注度快速上升2月16日微信指數(shù)快速上升百度關(guān)鍵詞搜索趨勢(shì)處于高位效果逼真:普通人一時(shí)難以分辨時(shí)長(zhǎng)感人:60秒高清視頻生成“百萬(wàn)”
剪輯:堪比專業(yè)的鏡頭語(yǔ)言多模態(tài):文字、圖片、視頻皆可生成視頻春節(jié)假期甚至還未結(jié)束,Sora已引發(fā)全民關(guān)注“炸裂”視頻效果成為討論熱點(diǎn)1.2
Sora的展現(xiàn)效果Sora模型展現(xiàn)自身超強(qiáng)視頻生成及剪輯能力,超出其他競(jìng)品一個(gè)段位能力項(xiàng) Sora 其他模型基本視頻生成視頻時(shí)長(zhǎng)60秒視頻長(zhǎng)寬比1920*1080之間的任意尺寸20秒以內(nèi)固定尺寸比例,例如16:9,9:16,1:1等視頻清晰度1080p部分upscale后達(dá)到4k多模態(tài)生成語(yǔ)言理解能力強(qiáng)弱文本生成視頻支持支持圖片生成視頻強(qiáng)支持視頻生成視頻支持支持視頻編輯文本編輯視頻支持支持?jǐn)U展視頻向前/向后擴(kuò)展僅支持向后視頻的無(wú)縫連接支持不支持獨(dú)特模擬能力3D一致性強(qiáng)弱或不支持遠(yuǎn)程相干性和物體持久性強(qiáng)弱世界交互強(qiáng)弱數(shù)字世界模擬支持不支持Sora的語(yǔ)言理解能力更強(qiáng),可將簡(jiǎn)短的用戶提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)描述Sora還可以生成圖片,最高可達(dá)到2048*2048分辨率Sora通過(guò)插幀技術(shù),實(shí)現(xiàn)完全不同主題和場(chǎng)景構(gòu)圖的視頻之間的流暢自然的過(guò)渡效果Sora可生成具有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)效果的視頻,隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人和場(chǎng)景元素在三維空間中保持一致移動(dòng)Sora可以對(duì)短期和長(zhǎng)期依賴關(guān)系進(jìn)行建模,保持各個(gè)主體的時(shí)空連貫性和一致性Sora以簡(jiǎn)單的方式模擬影響世界狀態(tài)的行為,比如一個(gè)人吃完漢堡可以在上面留下咬痕Sora還能夠模擬人工過(guò)程,比如視頻游戲,同時(shí)通過(guò)基本策略控制玩家,同時(shí)以高保真度渲染世界及其動(dòng)態(tài)模型Gen-2pika1.0Stable
VideoDiffusionEmu
VideoW.A.L.T開發(fā)團(tuán)隊(duì)RunwayPika
LabsStablity
AIMeta李飛飛及其學(xué)生團(tuán)隊(duì)、谷歌時(shí)間2023年11月2023年11月2023年11月2023年11月2023年12月長(zhǎng)度4-18秒3-7秒2-4秒4秒3秒分辨率768*448,1536*896,4096*21601280*7202560*1440576*1024512*512512*896是否開源非開源非開源開源非開源非開源其他模型情況1.2
Sora的展現(xiàn)效果3D一致性:確保景別切換時(shí)運(yùn)鏡的連貫1234以上四個(gè)鏡頭由遠(yuǎn)及近,保證了視頻鏡頭中人和場(chǎng)景的一致性,是其他AI生成視頻中少見的。遠(yuǎn)程相關(guān)性和物體持久性1 23 4以上四個(gè)鏡頭在同一視頻中生成,包括機(jī)器人的多個(gè)角度。畫家可以在畫布上留下新的筆觸,并隨著時(shí)間的推移而持續(xù)存在。與世界互動(dòng):Sora有時(shí)可以用簡(jiǎn)單的方式模擬影響世界狀況的動(dòng)作模擬數(shù)字世界例如,Sora可以同時(shí)通過(guò)基本策略控制《我的世界》中的玩家,同時(shí)以高保真度渲染世界及其動(dòng)態(tài)。不同主題場(chǎng)景視頻的無(wú)縫連接一鍵進(jìn)行風(fēng)格渲染基于時(shí)空雙維度的視頻擴(kuò)展大模型訓(xùn)練的“暴力美學(xué)”在視頻生成領(lǐng)域再次涌現(xiàn)卓越特性O(shè)penAI發(fā)現(xiàn)視頻模型在大規(guī)模訓(xùn)練時(shí)表現(xiàn)出許多有趣的“涌現(xiàn)”能力,使Sora能夠從物理世界中模擬人、動(dòng)物和環(huán)境。值得一提的是OpenAI官網(wǎng)所說(shuō)的“theyare
purely
phenomenaof
scale”——它們純粹是“規(guī)?,F(xiàn)象”,這再一次驗(yàn)證了“暴力美學(xué)”。文/圖像/視頻生視頻的功能 視頻剪輯功能1.3
Sora的出現(xiàn)意味著AGI的又一個(gè)里程碑時(shí)刻備注說(shuō)明:信能比,是甲子光年智庫(kù)發(fā)明的概念,反映單位能源所能駕馭的信息量。信能比通過(guò)單位時(shí)間內(nèi)產(chǎn)生/傳輸/使用/存儲(chǔ)的信息量除以單位時(shí)間內(nèi)所消耗的能源量計(jì)算得出,反映單位能源所能調(diào)用的信息量水平的高低。信能比可以體現(xiàn)數(shù)據(jù)智能技術(shù)的先進(jìn)性和能源效率的高效性:它能夠反映整個(gè)社會(huì)數(shù)字化、智能化水平的高低;它能體現(xiàn)能源體系的可持續(xù)發(fā)展能力;它能反映生產(chǎn)力的高低和生產(chǎn)效率的提升;它能體現(xiàn)社會(huì)經(jīng)濟(jì)發(fā)展的先進(jìn)性、創(chuàng)新性、可持續(xù)性。原始時(shí)代 農(nóng)業(yè)時(shí)代 工業(yè)時(shí)代第一臺(tái)計(jì)算機(jī)…第一代PCiPhone4GPT-1 GPT-2GPT-3ChatGPTGPT-4SoraAGI50002001946198520102018
2019
2020
20222023
2025
2030>300Sora意味著scaling
law(規(guī)模法則)再次驗(yàn)證,推動(dòng)文生視頻進(jìn)入“GPT-3”時(shí)刻Scaling
law(規(guī)模法則)的再次驗(yàn)證:雖然Sora并不十全十美,但它通過(guò)scaling
law和原有模型拉開了差距,為視頻生成領(lǐng)域提供了另一條可以走通的路線,推動(dòng)行業(yè)進(jìn)入全新的階段。文生視頻的“GPT-3”時(shí)刻:從發(fā)展階段類比,Sora更像文本模型的GPT-3時(shí)刻。ChatGPT讓人類看到實(shí)現(xiàn)AGI的雛形,Sora讓實(shí)現(xiàn)AGI的目標(biāo)又進(jìn)一步。智能新世代:Sora向AGI再進(jìn)一步0信能比+∞<
AI賦能生產(chǎn)力躍遷<
AI賦能生產(chǎn)力二次躍遷,開啟智能新世代無(wú)窮小信息時(shí)代數(shù)字時(shí)代智能新世代信能比>300信能比>100宙線:時(shí)間(人類文明進(jìn)化歷程)當(dāng)下文本生成模型推動(dòng)人類向AGI邁過(guò)第一個(gè)里程碑文生視頻模型推動(dòng)人類向AGI邁過(guò)又一個(gè)里程碑1.4
Sora開啟“明牌游戲”,推動(dòng)AIGC應(yīng)用時(shí)間軸進(jìn)一步被壓縮詐騙垃圾信息識(shí)別翻譯基礎(chǔ)問(wèn)答回應(yīng)基礎(chǔ)文案撰寫初稿更長(zhǎng)的文本二稿垂直領(lǐng)域的文案撰寫實(shí)現(xiàn)可精調(diào)(論文等)終稿,水平接近人類平均值終稿,水平高于人類平均值終稿,水平高于專業(yè)寫手單行代碼補(bǔ)足多行代碼生成更長(zhǎng)的代碼更精確的表達(dá)支持更多語(yǔ)種領(lǐng)域更垂直根據(jù)文本生成初版應(yīng)用程序根據(jù)文本生成初版應(yīng)用程序根據(jù)文本生成終版應(yīng)用程序,比全職開發(fā)者水平更高藝術(shù)圖標(biāo)攝影模仿(產(chǎn)品設(shè)計(jì)、建筑等)終稿(海報(bào)設(shè)計(jì)、產(chǎn)品設(shè)計(jì)等)終稿(產(chǎn)品設(shè)計(jì)、建筑等)終稿,水平高于專職藝術(shù)家、設(shè)計(jì)師等視頻和3D文件的基礎(chǔ)版/初稿根據(jù)文本生成初版的短視頻根據(jù)文本生成初版的長(zhǎng)視頻,并實(shí)際應(yīng)用于制作環(huán)節(jié)AI版Roblox可依個(gè)人夢(mèng)想定制的游戲與電影領(lǐng)域類型2020年之前2025年E2030年E文本領(lǐng)域代碼領(lǐng)域圖像領(lǐng)域視頻/3D/游戲領(lǐng)域大模型成熟難度: 初級(jí)嘗試2020年 2022年接近成熟2023年成熟應(yīng)用2024年E51.9%37.6%32.4%27.6%26.2%22.4%17.1%文本生成類圖像生成類科研文字生成類視頻生成類代碼生成類語(yǔ)音生成類多模態(tài)生成類歷史反復(fù)表明,一旦先行者模式驗(yàn)證,后來(lái)者整體的應(yīng)用進(jìn)程時(shí)間表將加快先行者往往要花費(fèi)大量時(shí)間精力試錯(cuò),一旦模式跑通,“明牌游戲”就開啟了。后來(lái)者會(huì)有更好的參考系和聚焦方向。ChatGPT后續(xù)的文本生成模型進(jìn)展就說(shuō)明了這一點(diǎn)。過(guò)去一年,AI文本生成和圖像生成相繼走向成熟,Sora的發(fā)布意味著視頻生成應(yīng)用走向成熟的時(shí)間比原先預(yù)計(jì)的更早出現(xiàn),AIGC已經(jīng)加速邁入視頻生成階段。對(duì)此,甲子光年智庫(kù)更新了生成式AI技術(shù)的成熟應(yīng)用進(jìn)程時(shí)間表。2024年可實(shí)現(xiàn)根據(jù)文本提示生成初版短視頻,2025年有望實(shí)現(xiàn)根據(jù)文本生成初版長(zhǎng)視頻,并在視頻制作環(huán)節(jié)真實(shí)使用落地。圖1:AIGC用戶偏好使用的大模型產(chǎn)品類型 圖2:生成式AI技術(shù)的成熟應(yīng)用進(jìn)程時(shí)間表1.5
Sora驗(yàn)證視頻生成的新技術(shù)范式Sora的出現(xiàn)意味著視頻生成的DiT技術(shù)路線得到有力驗(yàn)證視頻生成技術(shù)路線在過(guò)去主要有兩條,一條是基于Transformer的路線,以Phenaki為代表,第二條是Diffusion
Model(擴(kuò)散模型)路線,該路線在2023年是主流路線,誕生了Meta的Make-A-Video、英偉達(dá)的Video
LDM,Runway的Gen1、Gen2,字節(jié)的MagicVideo等代表性產(chǎn)品。Sora的發(fā)布,對(duì)Transformer
+
Diffusion
Model(DiT)路線進(jìn)行了成果矚目的驗(yàn)證。時(shí)間2024生成視頻質(zhì)量Transformer+Diffusion
Model早期20222023TransformerGAN+
VAE早期路線Transformer路線DiT路線代表產(chǎn)品:SoraDiffusionModel擴(kuò)散模型路線代表產(chǎn)品:Make-A-VideoVideo
LDMText2Video-ZeroRunway-Gen2通義千問(wèn)視頻大模型代表產(chǎn)品:PhenakiCog
VideoVideoGPT代表產(chǎn)品:Text2FilterGen-2stable
videoW.Ad.Li.fTfusionEmu
VideoPika1.0Sora010203040506070圖2:Sora技術(shù)優(yōu)勢(shì)與競(jìng)品的對(duì)比情況720P高清1080P最大生成時(shí)長(zhǎng)(秒)視頻分辨率圖1:AIGC視頻生成的技術(shù)演進(jìn)路徑1.6
Sora的技術(shù)原理PixelVideo
SpaceEncoderLatentSpacetime
PatchesPatchifyZTZT-1Denoised
latentZ′ε
RHΧ
W
Χ
T
Χ
dZε
RHΧ
W
Χ
T
Χ
dNoised
LatentZTεRHΧWΧTΧ
dDiffusionTransformerBlockDecoderLower-DimensionalLatentSpaceClean
LatentConditioningHumaninstructionsCLIPGPT-4AugmentedpromptImagesorvideo
framesPatch(時(shí)空編碼思路)+DiT(Diffusion和Transformer模型的結(jié)合)+Scaling
Law(規(guī)模效應(yīng))Sora模型將視頻壓縮到低維空間(latent
space),并使用時(shí)空補(bǔ)?。⊿pacetime
latent
patches)來(lái)表示視頻。這個(gè)過(guò)程類似于將文本轉(zhuǎn)換為Token表示,而視頻則轉(zhuǎn)換為patches表示。Sora模型主要在壓縮的低維空間進(jìn)行訓(xùn)練,并使用解碼器將低維空間映射回像素空間,以生成視頻。Sora使用了diffusion模型,給定輸入的噪聲塊+文本prompt,它被訓(xùn)練來(lái)預(yù)測(cè)原始的“干凈”分塊。Sora是diffusion
transformer,而transformer在各個(gè)領(lǐng)域都表現(xiàn)出顯著的規(guī)模效應(yīng)。圖:業(yè)內(nèi)推測(cè)出的Sora技術(shù)架構(gòu)圖1.6
Sora的技術(shù)原理EncoderBlockLatentSpacetime
PatchesPatchifyDenoised
latentZTZT-1Z′ε
RHΧ
W
Χ
T
Χ
dZTεRHΧWΧTΧ
dDiffusionNoised
LatentDecoderSora模型的實(shí)施路徑可拆分為四個(gè)部分Sora模型的實(shí)施路徑有四個(gè)核心部分:Part1:使用文生圖模型(DALLE
3)把文本和圖像對(duì)<text,
image>聯(lián)系起來(lái)。Part2:視頻數(shù)據(jù)切分為Patches,通過(guò)編碼器壓縮成低維空間表示,解決了時(shí)間和空間兩個(gè)維度的注意力交互(patch化是訓(xùn)練生成式模型的一個(gè)非常scalable和高效的圖像/視頻表征形式)。Part3:Diffusion
Transformer。Denoising
Diffusion
Probabilistic
Models
(DDPMs):通過(guò)逐步添加噪聲來(lái)模擬數(shù)據(jù)分布,然后學(xué)習(xí)逆向過(guò)程去除噪聲,以生成新的數(shù)據(jù)。DiT是DDPM在圖像生成中的應(yīng)用。Latent
Diffusion
Models
(LDMs):使用變分自編碼器將圖像壓縮到低維表示,然后在低維空間中訓(xùn)練DDPM。這樣可以降低計(jì)算成本,并使DiT成為基于Transformer的DDPM的適用框架。Part4:DiT生成的低維空間表示,可通過(guò)解碼器恢復(fù)成像素級(jí)的視頻數(shù)據(jù)。圖:業(yè)內(nèi)推測(cè)的模型實(shí)施路徑解析Pixel
Video
Space Lower-DimensionalLatent
Space ConditioningHumaninstructionsGPT-4Imagesorvideo
framesClean
LatentZε
RHΧ
W
Χ
T
Χ
dPart2Part4TransformePr
art3AugmentedpromptPart1CLIP1.7
Sora的局限性Sora仍存在三大方面局限性,會(huì)短期制約其商業(yè)化、規(guī)?;瘧?yīng)用技術(shù)局限性倫理合規(guī)性普適制約性物理現(xiàn)實(shí)主義的挑戰(zhàn)Sora對(duì)復(fù)雜場(chǎng)景中物理原理的處理不一致,導(dǎo)致無(wú)法準(zhǔn)確復(fù)制因果關(guān)系,偶爾會(huì)偏離物理合理性。例如物體的不自然變換或?qū)傂越Y(jié)構(gòu)的不正確模擬,導(dǎo)致不切實(shí)際的物理交互。此外,描繪復(fù)雜的動(dòng)作或捕捉微妙的面部表情是模型可以增強(qiáng)的領(lǐng)域。以上,導(dǎo)致Sora現(xiàn)階段更擅長(zhǎng)幽默的結(jié)果而非嚴(yán)肅的內(nèi)容。時(shí)空連續(xù)性的挑戰(zhàn)Sora生成的視頻中可能會(huì)出現(xiàn)物體無(wú)緣無(wú)故消失或出現(xiàn),
Sora有時(shí)會(huì)誤解給定提示中與物體的放置或排列相關(guān)的指令,從而導(dǎo)致方向混亂。此外,它在保持事件的時(shí)間準(zhǔn)確性方面面臨挑戰(zhàn),可能會(huì)導(dǎo)致預(yù)期時(shí)間流發(fā)生偏差,影響生成內(nèi)容的可靠性和連貫性。人機(jī)交互的限制Sora生成視頻的隨機(jī)性很強(qiáng),類似人類的“做夢(mèng)”,用戶可能很難精確指定或調(diào)整視頻中特定元素的呈現(xiàn),這限制了Sora在視頻編輯和增強(qiáng)方面的潛力,也讓Sora在長(zhǎng)視頻應(yīng)用中面臨挑戰(zhàn)。數(shù)據(jù)合規(guī)性可能涉及到他人的隱私信息,例如在視頻中出現(xiàn)的人物、場(chǎng)景或個(gè)人數(shù)據(jù)等。未經(jīng)授權(quán)或未經(jīng)允許的情況下,生成和傳播涉及他人隱私的虛假視頻可能導(dǎo)致隱私泄露問(wèn)題。版權(quán)風(fēng)險(xiǎn)生成的視頻內(nèi)容可能涉及到他人的知識(shí)產(chǎn)權(quán)/版權(quán),如果未經(jīng)授權(quán)使用他人的作品或內(nèi)容進(jìn)行生成,就可能涉嫌侵犯他人的版權(quán)權(quán)益,引發(fā)版權(quán)糾紛或法律訴訟。AI安全問(wèn)題可能導(dǎo)致深度偽造視頻的增加,即利用技術(shù)手段在視頻中替換現(xiàn)實(shí)中的人物或場(chǎng)景,使得偽造的視頻無(wú)法通過(guò)肉眼識(shí)別真?zhèn)?,給社會(huì)帶來(lái)信任危機(jī)和安全隱患。確保Sora的輸出始終安全且公正是一項(xiàng)主要挑戰(zhàn)。經(jīng)濟(jì)賬與成本問(wèn)題OpenAI自從推出文本生成大模型再到推出視頻生成大模型,一直沒(méi)有解決商業(yè)化問(wèn)題,大模型的訓(xùn)練需要較高成本投入,如何算好經(jīng)濟(jì)賬是影響規(guī)?;瘧?yīng)用的前提。需要依賴高質(zhì)量、大規(guī)模的視頻數(shù)據(jù)Sora的訓(xùn)練路徑需要依賴龐大規(guī)模的視頻數(shù)據(jù),并需要較高的數(shù)據(jù)標(biāo)注、合成能力,后期的迭代升級(jí)會(huì)受到底層訓(xùn)練數(shù)據(jù)的影響與限制。算力瓶頸問(wèn)題Sora視頻模型的訓(xùn)練需要很高的算力支撐,如何平衡算力、成本、能源消耗等關(guān)系是值得關(guān)注的制動(dòng)因素,也將是影響Sora大規(guī)模商業(yè)化運(yùn)營(yíng)的瓶頸。數(shù)據(jù)來(lái)源:甲子光年智庫(kù)梳理,2024年;文案創(chuàng)作辦公文本改寫/擴(kuò)寫搜索引擎文本摘要?dú)w納知識(shí)問(wèn)答智能客服科研學(xué)術(shù)翻譯海報(bào)設(shè)計(jì)視頻拍攝與制作6062646668707274(25)(15)(5)5152535451.7
Sora的局限性視頻生成處于用戶滿意但不推薦象限,說(shuō)明現(xiàn)有視頻生成工具雖然驚艷,但尚無(wú)法支持實(shí)際工作數(shù)據(jù)來(lái)源:甲子光年智庫(kù),N=476,2023年問(wèn)卷調(diào)研;X
NPSY滿意度星團(tuán)象限星辰象限星云象限領(lǐng)導(dǎo)者 光年象限先行者挑戰(zhàn)者新勢(shì)力甲子星空坐標(biāo)系:
用戶對(duì)AIGC產(chǎn)品不同應(yīng)用場(chǎng)景的滿意度與NPS值1.8
Sora引發(fā)的世界模型之爭(zhēng)Sora被OpenAI定義為“世界模擬器”,由此引發(fā)了世界模型的實(shí)施路線之爭(zhēng)OpenAI把Scale
作為核心價(jià)值觀之一:我們相信規(guī)?!谖覀兊哪P汀⑾到y(tǒng)、自身、過(guò)程以及抱負(fù)中——具有魔力。當(dāng)有疑問(wèn)時(shí),就擴(kuò)大規(guī)模。VSOpenAI是自回歸生成式路線(Auto-regressive
models),遵循“大數(shù)據(jù)、大模型、大算力”的暴力美學(xué)路線。從
ChatGPT
到Sora,都是這一思路的代表性產(chǎn)物。Yann
LeCun,圖靈獎(jiǎng)獲得者和Meta首席科學(xué)家,最近表達(dá)了對(duì)Sora的生成式技術(shù)路線的質(zhì)疑,并指出該路線可能面臨失敗的風(fēng)險(xiǎn)。Yann
LeCun認(rèn)為,僅憑文字提示生成逼真視頻并不代表模型真正理解物理世界。他指出生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同。在2月19日的發(fā)文中,他再次反駁了通過(guò)生成像素來(lái)建模世界的觀點(diǎn),認(rèn)為這種方法是浪費(fèi),就像被廣泛拋棄的“通過(guò)合成來(lái)分析”的想法一樣,注定會(huì)失敗。Yann
LeCun認(rèn)為文本生成之所以可行是因?yàn)槲谋颈旧硎请x散的,具有有限數(shù)量的符號(hào)。在這種情況下,處理預(yù)測(cè)中的不確定性相對(duì)容易。而在處理高維連續(xù)的感覺輸入時(shí),基本上不可能處理預(yù)測(cè)的不確定性,這也是為什么針對(duì)感覺輸入的生成模型注定會(huì)失敗的原因。Keras
之父
Fran?ois
Chollet
也持有類似觀點(diǎn)。他認(rèn)為僅僅通過(guò)讓
AI
觀看視頻是無(wú)法完全學(xué)習(xí)到世界模型的。盡管像Sora
這樣的視頻生成模型確實(shí)融入了物理模型,問(wèn)題在于這些模型的準(zhǔn)確性及其泛化能力——即它們是否能夠適應(yīng)新的、非訓(xùn)練數(shù)據(jù)插值的情況。Artificial
Intuition的作者Carlos
E.
Perez認(rèn)為,Sora并沒(méi)有真正學(xué)會(huì)物理規(guī)律,只是表面上看起來(lái)像學(xué)會(huì)了,就像幾年前的煙霧模擬一樣。知名
AI
學(xué)者、Meta
AI
研究科學(xué)家田淵棟也表示,關(guān)于Sora是否有潛力學(xué)到精確物理(當(dāng)然現(xiàn)在還沒(méi)有)的本質(zhì)是:為什么像“預(yù)測(cè)下一個(gè)token
”或“重建”這樣簡(jiǎn)單的思路會(huì)產(chǎn)生如此豐富的表示?正方:
OpenAI
把它定義為一個(gè)“世界模擬器”(World
Simulator)反方:僅根據(jù)文字提示生成逼真的視頻,并不代表模型理解了物理世界!OpenAI
表示:“
Sora是能夠理解和模擬現(xiàn)實(shí)世界模型的基礎(chǔ),我們相信這種能力將成為實(shí)現(xiàn)
AGI
的重要里程碑?!庇ミ_(dá)高級(jí)研究科學(xué)家
Jim
Fan
更是直接斷言:“Sora是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎,是一個(gè)可學(xué)習(xí)的模擬器,或世界模型?!蹦?/p>
錄Part
01AIGC視頻生成的技術(shù)路線與產(chǎn)品演進(jìn)趨勢(shì)Part
03“提示交互式”視頻制作范式重塑視頻產(chǎn)業(yè)鏈Part
04文娛領(lǐng)域有望開啟第二輪投資浪潮Part
02AIGC視頻生成推動(dòng)世界走向“AI創(chuàng)生時(shí)代”2.1
走向AI創(chuàng)生時(shí)代,改變世界剛剛開始AIGC視頻生成提示交互式制作范式終極?技術(shù)成熟度改變世界的進(jìn)程AIGC視頻生成開啟AI創(chuàng)生時(shí)代,重塑視頻產(chǎn)業(yè)鏈僅僅是第一步甲子光年智庫(kù)將AIGC視頻生成對(duì)世界的影響分為如下四個(gè)階段:L1:AI生產(chǎn)時(shí)代/AI工業(yè)時(shí)代。AIGC引發(fā)內(nèi)容相關(guān)產(chǎn)業(yè)的生產(chǎn)力變革,視頻產(chǎn)業(yè)將是首先被重塑的領(lǐng)域,AI驅(qū)動(dòng)內(nèi)容領(lǐng)域迎來(lái)“工業(yè)革命”,大幅提升內(nèi)容生產(chǎn)效率,形成第二生產(chǎn)力。L2:AI原生時(shí)代。AIGC將進(jìn)一步引發(fā)生產(chǎn)關(guān)系變革,引發(fā)角色與分工的變遷。視頻成為人類信息表達(dá)的第二語(yǔ)言,人類語(yǔ)言將告別“詞不達(dá)意”階段,重塑人、內(nèi)容、機(jī)器間的生產(chǎn)關(guān)系與交互關(guān)系。在這一階段,AI滲透率將無(wú)限逼近人類在數(shù)字世界的生產(chǎn)活動(dòng)行為邊界——人在數(shù)字世界可以做的事情,AI都可以做。L3:AI創(chuàng)生時(shí)代。AI與物理世界進(jìn)一步融合,逐漸滲透逼近人在物理世界的生產(chǎn)活動(dòng)行為邊界。從AI
for
science到生產(chǎn)制造,從人形機(jī)器人到世界模型,AI將逐漸突破人類為主語(yǔ)的創(chuàng)造范疇,世界模型將創(chuàng)造人類智慧之外的“第二智慧體系”。L4:AI文明時(shí)代。AI推動(dòng)人類認(rèn)知重塑,開啟AI文藝復(fù)興。AI會(huì)深度參與人類的物理世界和心靈世界,人類智慧與AI將互相影響、共同進(jìn)化,人類文明進(jìn)入“雙生時(shí)代”,形成“AI的歸AI,人類的歸人類”的有序分工和共生模式。圖:AIGC視頻生成改變世界的進(jìn)程展望L1:AI生產(chǎn)時(shí)代L2:AI原生時(shí)代L3:AI創(chuàng)生時(shí)代L4:AI文明時(shí)代數(shù)字科研世界模型人形機(jī)器人AI+生產(chǎn)制造智能融合文化共生重塑文明新型社交網(wǎng)絡(luò)人機(jī)交互數(shù)字人元宇宙第二生產(chǎn)力第二語(yǔ)言第二智慧體系雙生文明2.2
L1-AI生產(chǎn)時(shí)代:“拍扁”視頻制作鏈條,開啟“提示交互式”
新范式數(shù)據(jù)來(lái)源:甲子光年智庫(kù),2024年基于AIGC視頻生成工具的提示交互式視頻制作范式將重塑傳統(tǒng)視頻制作流程AIGC視頻生成工具可對(duì)視頻生產(chǎn)流程進(jìn)行重塑,由傳統(tǒng)視頻制作范式進(jìn)化到“提示交互式”新范式?!疤崾窘换ナ健毙路妒较啾葌鹘y(tǒng)范式具有三方面的重塑:“拍扁”制作過(guò)程:傳統(tǒng)視頻制作流程涉及多個(gè)階段和專業(yè)團(tuán)隊(duì)的合作,耗費(fèi)大量時(shí)間和資源;而AIGC視頻生成可將視頻生成、剪輯、后期等環(huán)節(jié)集于一體,僅需要輸入提示詞即可生成視頻,省去了很多繁瑣步驟,尤其可將攝影、素材收集、后期等環(huán)節(jié)取消或縮短。提升創(chuàng)意和剪輯自由度:傳統(tǒng)視頻制作通常由制作團(tuán)隊(duì)提出創(chuàng)意、編寫劇本,受人的能力局限;提示交互式視頻生成用更可視化的方式激發(fā)創(chuàng)作者想象力,支持創(chuàng)作者調(diào)用AI模型探索每個(gè)鏡頭的無(wú)限可能,而且剪輯過(guò)程可以隨時(shí)發(fā)生。節(jié)省制作成本和時(shí)間:傳統(tǒng)視頻制作流程需要投入較多的人力、物力和時(shí)間,而提示交互式視頻生成的流程成本和時(shí)間較少,可在提示交互的飛輪中迭代生成最終滿足需要的內(nèi)容。策劃拍攝后期籌備制定視頻內(nèi)容的概念和主題。編寫劇本或提綱,規(guī)劃視頻的情節(jié)和內(nèi)容。確定目標(biāo)受眾和傳達(dá)的信息。確定拍攝地點(diǎn)、演員、道具等資源。制定拍攝計(jì)劃和時(shí)間表。準(zhǔn)備拍攝設(shè)備和技術(shù)團(tuán)隊(duì)。實(shí)際拍攝視頻素材。確保拍攝質(zhì)量和符合劇本要求。視頻剪輯和編輯。添加音效、音樂(lè)、特效等元素。調(diào)整畫面色調(diào)、字幕等。最終呈現(xiàn)和渲染視頻。1234用戶提示1用戶提供關(guān)于期望視頻內(nèi)容的提示詞或描述性文本。生成滿足用戶要求的最終視頻內(nèi)容。模型根據(jù)用戶反饋進(jìn)行調(diào)整,并重新生成視頻內(nèi)容。內(nèi)容進(jìn)行反饋,提出修改或調(diào)整意見。模型解析用戶提示詞,理解用戶的需求。模型生成視頻內(nèi)容,包括圖像、場(chǎng)景、角色等元素。2 3內(nèi)容 反饋生成 交互提示交互飛輪用戶對(duì)生成的4重新生成最終生成5傳統(tǒng)視頻制作執(zhí)行流程基于AIGC工具的提示交互式視頻生成制作流程2.2
L1-AI生產(chǎn)時(shí)代:AIGC視頻生成將“多點(diǎn)開花”,開源是下個(gè)關(guān)鍵節(jié)點(diǎn)伴隨開源模型的出現(xiàn),AI視頻生成將迎來(lái)多元化的入局者Sora雖未公測(cè),根據(jù)當(dāng)下的視頻效果,模型及對(duì)應(yīng)的技術(shù)路線與其他公司已經(jīng)拉開差距,但猜測(cè)其模型可能仿照ChatGPT,不提供開源模型非開源開源?……AI+視頻創(chuàng)業(yè)公司以生成式AI技術(shù)為底色,已經(jīng)完成部分技術(shù)積累,正在進(jìn)行技術(shù)追趕和體驗(yàn)創(chuàng)新。數(shù)字人技術(shù)提供商數(shù)字人本身可以完成部分視頻錄制,雖然暫且無(wú)法完成端到端生成(文字直接生成視頻),但可以快速滿足部
分場(chǎng)景需求。 AI+影視公司對(duì)視頻,尤其是專業(yè)視頻(影視、廣告、動(dòng)畫或游戲)具備深刻理解,AI技術(shù)可以充分提供視頻創(chuàng)作、分發(fā)的工具。互聯(lián)網(wǎng)科技企業(yè)具備充分的技術(shù)積累,產(chǎn)品豐富,平臺(tái)用戶量高,可迅速在內(nèi)容產(chǎn)業(yè)中實(shí)現(xiàn)價(jià)值。徐圖智能………………相關(guān)賽道企業(yè)若想具備先發(fā)優(yōu)勢(shì),要么技術(shù)更強(qiáng),建立技術(shù)壁壘,要么產(chǎn)品對(duì)用戶需求的理解更深,建立用戶粘性和數(shù)據(jù)飛輪文生視頻領(lǐng)域迫切需要如LLama2的模型,讓更多應(yīng)用層公司節(jié)省從0-1的成本C端用戶全民視頻創(chuàng)作的浪潮正蓄勢(shì)而來(lái),未來(lái)人人都會(huì)成為導(dǎo)演,每個(gè)人都會(huì)擁有個(gè)人平臺(tái)
。2.3
L2-AI原生時(shí)代:視頻用戶身份實(shí)現(xiàn)“三位一體”角色變遷:視頻用戶變?yōu)锳I原生居民,實(shí)現(xiàn)生產(chǎn)者、消費(fèi)者、擁有者“三位一體”越來(lái)越多視頻用戶將成為AI原生居民:他們同時(shí)是內(nèi)容生產(chǎn)者、消費(fèi)者和擁有者。個(gè)體在視頻內(nèi)容生產(chǎn)、消費(fèi)和擁有方面擁有更大的主動(dòng)權(quán)和自主性。這將改變?nèi)伺c內(nèi)容、人與人的生產(chǎn)關(guān)系與交互關(guān)系。信息時(shí)代數(shù)字時(shí)代AI原生時(shí)代階段內(nèi)容消費(fèi)者PGC內(nèi)容生產(chǎn)形式角色轉(zhuǎn)換初次內(nèi)容生產(chǎn)者UGCAI原生居民【生產(chǎn)、消費(fèi)、擁有一體】AIGC專業(yè)人工專業(yè)設(shè)備專業(yè)內(nèi)容平臺(tái)用戶模糊推送主動(dòng)檢索用戶設(shè)備內(nèi)容AIGC視頻生產(chǎn)制播一體核心環(huán)節(jié)演進(jìn)消費(fèi)者生產(chǎn)者擁有者提問(wèn)交互生產(chǎn)數(shù)量少、質(zhì)量有限、無(wú)法自動(dòng)化生產(chǎn)數(shù)量多、質(zhì)量有限、無(wú)法自動(dòng)化平臺(tái)用戶精準(zhǔn)推送主動(dòng)檢索階段>古代媒體時(shí)代網(wǎng)絡(luò)時(shí)代數(shù)字時(shí)代AI原生時(shí)代投放渠道>牌匾媒體刊物互聯(lián)網(wǎng)視頻平臺(tái)元宇宙、虛擬世界交互變遷>離線離線在線,單向在線,雙向?qū)崟r(shí)、沉浸角色變遷>高門檻的內(nèi)容生產(chǎn)、消費(fèi)者高門檻的內(nèi)容生產(chǎn)、消費(fèi)者內(nèi)容消費(fèi)者內(nèi)容生產(chǎn)者生產(chǎn)、消費(fèi)、擁有三位一體內(nèi)容形態(tài)>文字文字+圖片文字+圖片+廣告視頻視頻可交互、可編輯、可定制的視頻2.3
L2-AI原生時(shí)代:視頻成為“第二語(yǔ)言”視頻成為人類的第二語(yǔ)言,人類語(yǔ)言告別“詞不達(dá)意”階段伴隨視頻生產(chǎn)成本的無(wú)限降低,以及視頻可交互、可編輯、可定制的靈活能力,人人可駕馭視頻表達(dá)的時(shí)代到來(lái)。視頻將成為人類的第二語(yǔ)言,大量用戶會(huì)進(jìn)行行為遷移——原本用文字表達(dá)的場(chǎng)景,將用視頻直接表達(dá)。視頻具有連續(xù)性,視頻表達(dá)將不受限于“詞匯量”,比文字表達(dá)擁有更豐富、更沉浸的特征,可以表達(dá)更準(zhǔn)確的場(chǎng)景、承載更豐富的情感、抵達(dá)更深刻的共情。文本與視頻的無(wú)縫切換,讓人類語(yǔ)言告別“詞不達(dá)意”、“意在言外”的階段。圖:人類傳遞信息的內(nèi)容載體形態(tài)演變歷程視頻語(yǔ)言:視頻語(yǔ)言指利用視頻和圖像等視覺元素進(jìn)行交流表達(dá)的語(yǔ)言形式。視頻語(yǔ)言的特點(diǎn):視覺化表達(dá):與文字語(yǔ)言相比,視頻語(yǔ)言主要通過(guò)視覺影像來(lái)表達(dá)信息,通過(guò)圖像、顏色、動(dòng)作等元素傳達(dá)更加直觀、生動(dòng)、豐富的信息。多媒體結(jié)合:視頻語(yǔ)言通常結(jié)合了圖像、聲音、文字等多種媒體形式,豐富了表達(dá)手段和效果。情感共鳴:視覺和聲音的傳達(dá)方式更容易引起情感共鳴。多樣化形式:視頻語(yǔ)言可以呈現(xiàn)為電影、電視、短視頻、動(dòng)畫等多種形式,適應(yīng)不同場(chǎng)景和需求。視頻成為第二語(yǔ)言2.3
L2-AI原生時(shí)代:AI滲透率無(wú)限逼近人類在數(shù)字世界生產(chǎn)活動(dòng)行為邊界場(chǎng)景:平面展示等L1:Tool主要依賴人工制作形象和動(dòng)畫效果L2依賴外部動(dòng)捕設(shè)備采集肢體、表情和口型信息L2:Chatbot場(chǎng)景:視頻錄播等L3依賴算法驅(qū)動(dòng)肢體、姿態(tài)、口型、表情等L3:Copilot場(chǎng)景:虛擬化身進(jìn)行實(shí)時(shí)互動(dòng)直播等L4語(yǔ)音交互智能化,但在特定場(chǎng)合需要人工接管L4:AgentL5完全實(shí)現(xiàn)智能交互的數(shù)字人智能化水平數(shù)字人可自主理解世界、形成關(guān)系互動(dòng)場(chǎng)景:數(shù)字人可以自行基于文本、視頻等語(yǔ)言理解物理世界,自行實(shí)現(xiàn)數(shù)字人與數(shù)字人的交互溝通文本生成大模型場(chǎng)景:垂直領(lǐng)域逐步代替真人服務(wù)等視頻生成大模型場(chǎng)景:個(gè)性化AI助手、視頻自動(dòng)生成、虛擬人物自動(dòng)生成等多模態(tài)大模型?數(shù)字人與視頻生成大模型的結(jié)合,推動(dòng)數(shù)字人發(fā)展進(jìn)入L5級(jí)數(shù)字人與AIGC的結(jié)合一直是重要發(fā)展方向。在Sora出現(xiàn)之前,主要是數(shù)字人與文本生成模型(如GPT系列)的結(jié)合,生成虛擬角色的對(duì)話和互動(dòng)內(nèi)容,主要應(yīng)用于虛擬助手、客服機(jī)器人、虛擬主持人等基于文本的交互和對(duì)話場(chǎng)景。AIGC視頻生成技術(shù)的發(fā)展將會(huì)推動(dòng)數(shù)字人進(jìn)入全新階段。數(shù)字人與視頻生成大模型(如Sora)的結(jié)合,提升了數(shù)字人的逼真度和互動(dòng)性,其應(yīng)用場(chǎng)景會(huì)進(jìn)一步拓寬,涵蓋虛擬演員、虛擬教育導(dǎo)師等需要視覺交流和場(chǎng)景互動(dòng)的領(lǐng)域。未來(lái),數(shù)字人還會(huì)探索與多模態(tài)大模型的融合發(fā)展,繼續(xù)提升仿真度和互動(dòng)性、拓展應(yīng)用場(chǎng)景、
探索人機(jī)交互的新可能,豐富人們感知和改變世界的方式?!肮杌睂⒓铀俚絹?lái),無(wú)限逼近人類在數(shù)字世界的生產(chǎn)活動(dòng)行為邊界。圖:AIGC視頻生成技術(shù)與數(shù)字人的結(jié)合推動(dòng)硅基生命的探索擬人化程度終極:硅基生命L5:Species2.3
L2-AI原生時(shí)代:元宇宙相關(guān)產(chǎn)業(yè)將加速到來(lái)交互層通用場(chǎng)景應(yīng)用層虛擬人 虛擬活動(dòng)人形機(jī)器人 營(yíng)銷出行虛擬辦公泛娛樂(lè) 購(gòu)物社交 教培政務(wù)黨建工業(yè)制造C端B端/G端XR頭顯/眼鏡觸控設(shè)備手勢(shì)識(shí)別及控制設(shè)備新一代交互技術(shù)智能體腦機(jī)接口 影音機(jī)聲控設(shè)備硬件交互設(shè)備嗅覺面罩人機(jī)交互NFTVR互動(dòng)平臺(tái)數(shù)字支付平臺(tái)DAO游戲內(nèi)容創(chuàng)作者平臺(tái)社交AI芯片公司AIDC智算中心文本數(shù)據(jù) 視頻數(shù)據(jù) 圖片數(shù)據(jù)類公司 類公司 類公司算法層平臺(tái)層算力層數(shù)據(jù)平臺(tái)視頻生成中間層視頻生成基礎(chǔ)層共識(shí)機(jī)制密碼學(xué)技術(shù)智能合約鏈?zhǔn)酱鎯?chǔ)區(qū)塊鏈未來(lái)發(fā)展重心在應(yīng)用內(nèi)容構(gòu)建應(yīng)用層與交互層在B端C端都將帶來(lái)無(wú)窮想象空間由于視頻和C端有天然的聯(lián)系,AIGC視頻生成技術(shù)的快速發(fā)展將推動(dòng)應(yīng)用層和交互層的快速發(fā)展。通過(guò)簡(jiǎn)單的操作用戶即可快速生成高質(zhì)量的視頻內(nèi)容,將大大提升用戶體驗(yàn)和參與度,推動(dòng)元宇宙生態(tài)的蓬勃發(fā)展。因此,在傳統(tǒng)AI技術(shù)棧上,應(yīng)用層和交互層將誕生豐富的創(chuàng)新機(jī)會(huì),在B端和C端都迎來(lái)無(wú)窮的想象空間。圖:AIGC視頻生成將加速元宇宙世界的內(nèi)容構(gòu)建2.4
L3-AI創(chuàng)生時(shí)代:重塑人與機(jī)器的交互文本傳遞信息為主的人機(jī)交互>多模態(tài)物理世界圖片視頻信息數(shù)字世界+物理世界ABBBC人/機(jī)器ABCD文本信息數(shù)字世界物理世界人機(jī)器視頻等多模態(tài)傳遞信息為主的人機(jī)交互交互語(yǔ)言:文字為主,傳統(tǒng)人機(jī)交互主要依賴于鍵盤、鼠標(biāo)、觸摸屏等輸入設(shè)備以及文字、圖像、聲音等輸出方式進(jìn)行交流。信息表達(dá):信息含量低。傳統(tǒng)人機(jī)交互以文字、圖像、聲音等為主要表達(dá)方式,信息相對(duì)單一。感知能力:傳統(tǒng)人機(jī)交互主要依賴于計(jì)算機(jī)對(duì)文字、圖像、聲音等信息的理解和處理能力。交互體驗(yàn):?jiǎn)蜗蚪换ツP?。傳統(tǒng)人機(jī)交互通常是靜態(tài)的,用戶通過(guò)鍵盤、鼠標(biāo)等輸入設(shè)備與計(jì)算機(jī)進(jìn)行交互,交互過(guò)程相對(duì)單一。交互語(yǔ)言:聲音、動(dòng)作、表情、場(chǎng)景……都可以作為機(jī)器理解人的指令的輸入形式,再配以攝像頭等傳感器的機(jī)器將會(huì)主動(dòng)理解世界。信息表達(dá):信息含量大且多樣化。視頻語(yǔ)言時(shí)代的人機(jī)交互更加豐富多樣,信息以視頻為載體,可以包含文字、圖像、聲音、動(dòng)作等多種元素,表達(dá)更加生動(dòng)和直觀。感知能力:視頻語(yǔ)言時(shí)代的人機(jī)交互需要計(jì)算機(jī)具備更強(qiáng)的視頻感知和理解能力,能夠識(shí)別、理解和分析視頻中的內(nèi)容和情境。交互體驗(yàn):實(shí)時(shí)、沉浸式交互。視頻語(yǔ)言時(shí)代的人機(jī)交互更加動(dòng)態(tài)和生動(dòng),用戶可以通過(guò)拍攝、錄制視頻、實(shí)時(shí)互動(dòng)來(lái)與計(jì)算機(jī)進(jìn)行交互,交互過(guò)程更加自然和直觀。視頻成為機(jī)器理解物理世界的主要媒介,推動(dòng)AI與物理世界進(jìn)一步融合人機(jī)交互進(jìn)入視頻語(yǔ)言時(shí)代。與傳統(tǒng)人機(jī)交互相比,視頻語(yǔ)言在信息表達(dá)形式、感知方式、交互體驗(yàn)和個(gè)性化定制等方面都有較大差異點(diǎn),為用戶提供了更加豐富、直觀和個(gè)性化的交互體驗(yàn)。視頻等多模態(tài)內(nèi)容的信息含量更大、更多元,讓機(jī)器更容易理解物理世界,讓機(jī)器人真正成為數(shù)字世界與物理世界的橋梁。AIGC視頻生成與具身智能、工業(yè)視覺、工業(yè)元宇宙等方向的結(jié)合,將會(huì)推動(dòng)AI突破數(shù)字世界,與物理世界進(jìn)一步融合。B D1
D2文本具身智能工業(yè)視覺工業(yè)元宇宙人形機(jī)器人數(shù)字孿生工業(yè)仿真2.4
L3-AI創(chuàng)生時(shí)代:數(shù)字科研推動(dòng)新一輪“科學(xué)革命”AIGC生成技術(shù)與數(shù)字孿生、仿真等融合,可驅(qū)動(dòng)科技研發(fā)進(jìn)入全新范式AIGC生成技術(shù)與數(shù)字孿生、仿真等技術(shù)的融合可以探索出一條基于虛擬世界仿真的科技研發(fā)模型。這種模型可以通過(guò)在虛擬世界中建立逼真的數(shù)字孿生模型和仿真環(huán)境進(jìn)行科技研究和實(shí)驗(yàn),大大提高科研的效率,解放科研工作者的人力,降低綜合科研成本。甲子光年智庫(kù)將這種基于虛擬世界仿真的科技研發(fā)模型稱之為數(shù)字科研模型,將通過(guò)數(shù)字科研模型進(jìn)行研發(fā)的模式稱為“數(shù)字科研”。當(dāng)前,AI已經(jīng)在藥物研發(fā)、合成生物等基礎(chǔ)科學(xué)研究中得到廣泛應(yīng)用。AI的進(jìn)一步發(fā)展,將推動(dòng)數(shù)字科研加快實(shí)現(xiàn)。未來(lái)數(shù)字科研模型有望成為科學(xué)研究的通用基礎(chǔ)設(shè)施,在各個(gè)學(xué)科普及,這將催生新一輪科學(xué)范式革命。在虛擬世界中建立逼真的數(shù)字孿生模型和仿真環(huán)境,包括各種物體、場(chǎng)景、情境等,以模擬真實(shí)世界的各種情況。通過(guò)AIGC生成技術(shù),可以生成逼真的虛擬世界內(nèi)容,包括各種場(chǎng)景、人物、物體、聲光等,以豐富和完善虛擬世界的仿真環(huán)境。在虛擬世界中進(jìn)行科技研究和實(shí)驗(yàn),利用數(shù)字孿生模型和仿真環(huán)境,模擬各種情況和場(chǎng)景,探索新的科技解決方案和創(chuàng)新思路。在虛擬世界中得到的研究成果和解決方案可以在現(xiàn)實(shí)物理世界進(jìn)行驗(yàn)證和實(shí)踐,通過(guò)實(shí)驗(yàn)和測(cè)試驗(yàn)證其可行性和有效性。基于虛擬世界仿真的科技研發(fā)模型,可以為科研人員提供更加靈活、高效、低成本的研究平臺(tái),加速科技創(chuàng)新和成果轉(zhuǎn)化,推動(dòng)科研方式轉(zhuǎn)型和升級(jí)。第一步第二步第三步第四步第五步建立數(shù)字孿生模型和仿真環(huán)境AIGC生成虛擬世界內(nèi)容進(jìn)行科技研究和實(shí)驗(yàn)物理世界驗(yàn)證和實(shí)踐構(gòu)建新型科研范式圖1:AIGC在基礎(chǔ)科學(xué)研究中應(yīng)用于眾多領(lǐng)域圖2:數(shù)字科研的實(shí)施步驟化學(xué)規(guī)劃化學(xué)合成途徑與視覺呈現(xiàn)生命科學(xué)生物醫(yī)學(xué)序列的語(yǔ)言建模超分辨率
3D活細(xì)胞成像地球科學(xué)天氣預(yù)報(bào)真實(shí)模擬假設(shè)空間中的導(dǎo)航醫(yī)學(xué)視頻化手術(shù)導(dǎo)航醫(yī)療資源調(diào)配視覺化呈現(xiàn)材料科學(xué)新材料發(fā)現(xiàn)與設(shè)計(jì)優(yōu)化物理粒子碰撞中的稀有事件選擇核聚變反應(yīng)堆的磁控制與呈現(xiàn)2.4
L3-AI創(chuàng)生時(shí)代:世界模型創(chuàng)造人類智慧之外的“第二智慧體系”預(yù)測(cè)感知匹配/思考形成認(rèn)知感知前的預(yù)測(cè)階段,大腦基于內(nèi)部模型、先前經(jīng)驗(yàn)和期望,預(yù)測(cè)可能發(fā)生的情況。對(duì)外界刺激的感知,接受外部刺激,形成感知信號(hào),并進(jìn)行感知輸入。在預(yù)測(cè)與感知的匹配階段,大腦將外界刺激與先前的預(yù)測(cè)進(jìn)行匹配,并調(diào)節(jié)、更新預(yù)測(cè),以使其與感知一致。在意義建構(gòu)和理解階段,大腦解釋、理解感知到的信息,并將其納入更廣泛的認(rèn)知框架中。圖1:大腦理解世界的四個(gè)環(huán)節(jié)預(yù)測(cè)輸入預(yù)測(cè)輸出②感知③匹配/思考①④形成認(rèn)知預(yù)測(cè)感知輸入生成輸出匹配/思考 形成認(rèn)知④① ② ③第一智慧體系:預(yù)測(cè)式模型對(duì)世界的理解邏輯 Meta的V-JEPAOpenAI的Sora第二智慧體系:生成式模型對(duì)世界的理解邏輯路徑1:在感知前先預(yù)測(cè),然后接收外部刺激信號(hào)進(jìn)行思考匹配并形成認(rèn)知,基于預(yù)測(cè)輸出對(duì)世界理解的內(nèi)容。認(rèn)知后是輸出階段。預(yù)測(cè)式模型:將路徑1對(duì)世界的理解邏輯稱為預(yù)測(cè)式模型。世界模型代表:Meta的V-JEPA。路徑2:第一步是直接接收外部刺激信號(hào)進(jìn)行思考匹配后形成認(rèn)知,基于認(rèn)知預(yù)測(cè)生成對(duì)世界理解的內(nèi)容。預(yù)測(cè)后是生產(chǎn)輸出階段。生成式模型:將路徑2對(duì)世界的理解邏輯稱為生成式模型。世界模型代表:OpenAI的Sora。預(yù)輸入兩種世界模型:預(yù)測(cè)式模型和生成式模型世界模型的核心路徑分歧來(lái)自于:世界是不是真的需要一個(gè)解析解?人類依靠大腦來(lái)理解世界。美國(guó)藝術(shù)與科學(xué)學(xué)院院士、加拿大皇家學(xué)會(huì)院士莉莎·費(fèi)德曼·巴瑞特在《認(rèn)識(shí)大腦》一書中提出了人類大腦通過(guò)對(duì)外界刺激進(jìn)行預(yù)測(cè)來(lái)解釋和理解世界的過(guò)程。甲子光年將這個(gè)過(guò)程概括為四個(gè)階段:預(yù)測(cè)階段、感知階段、匹配/思考階段、形成認(rèn)知階段,可簡(jiǎn)稱為“預(yù)測(cè)式模型”。是否遵循大腦理解世界的模式構(gòu)成了世界模型的不同思路,將催生不同技術(shù)路線。伴隨AI創(chuàng)生時(shí)代到來(lái),我們將迎來(lái)人類大腦智慧之外的“第二智慧體系”。甲子光年將世界模型大體劃分為兩類:第一智慧體系:預(yù)測(cè)式世界模型,代表是人類大腦,Meta的V-JEPA也屬于預(yù)測(cè)式模型。第二智慧體系:生成式世界模型,代表是ChatGPT、Sora等深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)流派。深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)流派的核心思路是:通過(guò)大量數(shù)據(jù)模擬世界所得到的結(jié)果可能會(huì)比一個(gè)解析解更能反映世界的真實(shí)物理,更能體現(xiàn)智能。人類智慧只是智慧的一種范式,ChatGPT、Sora等范式已能夠通過(guò)大量模擬世界學(xué)習(xí)到世界規(guī)律。因此,用一個(gè)物理公式概括現(xiàn)實(shí)世界的思路并不一定正確,深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)流派開啟的“第二智慧體系”也可能成為理解世界最終奧妙的一把鑰匙,而非追求解析解。2.5
L4-AI文明時(shí)代:AI驅(qū)動(dòng)文藝復(fù)興AI文化認(rèn)知重塑信息傳遞載體變化角色變遷行為變遷交互行為、角色、載體形態(tài)的變化推動(dòng)人類認(rèn)知重塑,并形成新文化圈層視頻作為一種生動(dòng)、直觀的傳播媒介,能夠更好地激發(fā)人們的情感,與文字、圖片相比,視頻更能引發(fā)觀眾的深度共鳴和參與。信息載體的變化會(huì)重塑人類的認(rèn)知與觀念,并將具有相同認(rèn)知觀念的人群逐步集合到一起,形成新的文化圈層,推動(dòng)文化的變遷,并進(jìn)一步推動(dòng)AI版本的文藝復(fù)興。行為變遷:AIGC視頻生成技術(shù)若能在視頻領(lǐng)域規(guī)?;瘧?yīng)用,將首先打破視頻生產(chǎn)的固化流程,讓視頻實(shí)現(xiàn)一鍵生成,實(shí)現(xiàn)視頻生產(chǎn)的流程歸一,行為歸一。信息傳遞載體形態(tài)變化:視頻形態(tài)從傳統(tǒng)的不可編輯的單向輸出版式轉(zhuǎn)變?yōu)楦咏换?、可編輯和可定制的形式,使得視頻成為了更加靈活多樣的信息傳遞載體。角色變遷:由內(nèi)容消費(fèi)者變?yōu)锳I原生居民,是內(nèi)容沉浸生產(chǎn)者、擁有者和消費(fèi)者,集內(nèi)容生產(chǎn)、內(nèi)容消費(fèi)、內(nèi)容擁有于一體。認(rèn)知重塑:隨著信息載體的變遷,人們的認(rèn)知和觀念也會(huì)發(fā)生重塑。通過(guò)視頻內(nèi)容的傳播和互動(dòng)交流,人們可能會(huì)形成共享的認(rèn)知觀念,理念和價(jià)值觀的統(tǒng)一性會(huì)得到加強(qiáng)。AI文化:基于AI的新文化圈層的形成,具有相似認(rèn)知觀念的人群可能會(huì)因?yàn)楣蚕硐嗨频囊曨l內(nèi)容和信息,逐步形成新的文化圈層,形成共享的文化認(rèn)同和價(jià)值體系,帶來(lái)AI文藝復(fù)興。新形態(tài)的視頻圖:AI驅(qū)動(dòng)文藝復(fù)興符號(hào)世界物理世界心靈世界無(wú)限的創(chuàng)意和想象世界模型眼耳鼻舌身意2.5
L4-AI文明時(shí)代:重塑人類文明AI符號(hào)世界物理世界心靈世界無(wú)限的創(chuàng)意和想象世界模型波普爾世界三元組眼耳鼻舌身意備注說(shuō)明:波普爾的世界三元組第一元:物理世界(World
1):指的是客觀存在的實(shí)體世界,包括物質(zhì)和能量等自然現(xiàn)象。物理世界是獨(dú)立于我們的意識(shí)和思想存在的,是客觀存在的。第二元:心靈世界(World
2):指的是個(gè)體的主觀意識(shí)和心理活動(dòng)所構(gòu)成的世界,包括思想、感覺、情緒、意識(shí)等心理現(xiàn)象。心靈世界是個(gè)體內(nèi)部的心理體驗(yàn)領(lǐng)域,是主觀存在的。第三元:符號(hào)世界(World
3):指的是人類通過(guò)語(yǔ)言、符號(hào)和文化制度等共同建構(gòu)的文化世界,包括科學(xué)理論、藝術(shù)作品、社會(huì)制度、文化傳統(tǒng)等。符號(hào)世界是人類共同的文化積累和認(rèn)知產(chǎn)物,是客觀存在的,但是不同于物理世界,是通過(guò)人類的創(chuàng)造和交流而存在的。路徑①路徑②AI文明波普爾世界三元組人類文明文明的演進(jìn):人類文明進(jìn)入與AI共建共生的“雙生時(shí)代”,AI的歸AI,人類的歸人類波普爾的世界三元組是哲學(xué)家卡爾·波普爾提出的概念,用于描述對(duì)世界的基本認(rèn)知,包括三個(gè)要素:物理世界、心靈世界和符號(hào)世界。AI從符號(hào)世界出發(fā),參與物理世界的方式是逐漸建立通用的世界模型,參與心靈世界的方式是生成無(wú)限的創(chuàng)意和想象。最終,AI會(huì)深度參與人類的物理世界和心靈世界,人類智慧與AI將互相影響、共同進(jìn)化,人類文明進(jìn)入“雙生時(shí)代”,形成“AI的歸AI,人類的歸人類”的有序的分工。圖1:AI主導(dǎo)的世界及其兩條影響路徑 圖2:人與AI共建共生的“雙生時(shí)代”目
錄Part
01AIGC視頻生成的技術(shù)路線與產(chǎn)品演進(jìn)趨勢(shì)Part
04文娛領(lǐng)域有望開啟第二輪投資浪潮Part
02AIGC視頻生成推動(dòng)世界走向“AI創(chuàng)生時(shí)代”Part
03“提示交互式”視頻制作范式重塑視頻產(chǎn)業(yè)鏈短視頻類長(zhǎng)視頻類3.1
視頻內(nèi)容的兩大類型:短視頻和長(zhǎng)視頻數(shù)據(jù)來(lái)源:甲子光年智庫(kù),2024年;文學(xué)游戲動(dòng)漫音樂(lè)電影電視劇動(dòng)畫體育衍生品演出渠道IP→內(nèi)容→衍生,是視頻內(nèi)容價(jià)值鏈的主要邏輯鏈條,長(zhǎng)視頻與短視頻是兩大核心類型上游 中游 下游IP類 內(nèi)容類 衍生類上游產(chǎn)業(yè)更加注重版權(quán)的再開發(fā),特別是可改編成內(nèi)容的版權(quán)中游產(chǎn)業(yè)偏向內(nèi)容展示為主,影像類居多,可以按視頻內(nèi)容的長(zhǎng)度劃分為短視頻和長(zhǎng)視頻兩大類型下游產(chǎn)業(yè)偏向以內(nèi)容為基礎(chǔ)的再開發(fā)廣告新聞資訊微短劇生活記錄豎屏劇綜藝節(jié)目3.2
傳統(tǒng)視頻產(chǎn)業(yè)鏈:完整產(chǎn)業(yè)鏈視頻產(chǎn)業(yè)鏈包含七個(gè)關(guān)鍵環(huán)節(jié),制作環(huán)節(jié)是最核心環(huán)節(jié),也是AI視頻生成工具現(xiàn)階段主要服務(wù)環(huán)節(jié)數(shù)據(jù)來(lái)源:甲子光年智庫(kù),2024年;IP投資制作宣發(fā)播映映后開發(fā)產(chǎn)品鏈>核心角色>主要職責(zé)>內(nèi)容播放內(nèi)容生產(chǎn)制作投資評(píng)估劇本開發(fā)與策劃IP評(píng)估與交易內(nèi)容宣傳發(fā)行制作公司文學(xué)平臺(tái)制作公司編劇工作室制作公司投資公司制作公司經(jīng)紀(jì)公司后期公司視頻平臺(tái)營(yíng)銷公司視頻平臺(tái)數(shù)字平臺(tái)傳統(tǒng)電視臺(tái)視頻制作工具策劃/劇本衍生品開發(fā)出版社游戲公司策劃工作室商務(wù)公司發(fā)行公司票務(wù)平臺(tái)院線衍生品設(shè)計(jì)衍生品開發(fā)海外視頻平臺(tái)圖:傳統(tǒng)視頻產(chǎn)業(yè)鏈及關(guān)鍵核心角色3.3
傳統(tǒng)視頻產(chǎn)業(yè)鏈:長(zhǎng)視頻與短視頻的核心產(chǎn)業(yè)鏈環(huán)節(jié)數(shù)據(jù)來(lái)源:甲子光年智庫(kù),2024年;IP投資制作宣發(fā)播映映后開發(fā)長(zhǎng)視頻>策劃/劇本圖:長(zhǎng)視頻與短視頻的核心產(chǎn)業(yè)鏈環(huán)節(jié)制作分發(fā)短視頻>變現(xiàn)長(zhǎng)視頻需覆蓋完整視頻產(chǎn)業(yè)鏈,短視頻則更注重分發(fā)和變現(xiàn)長(zhǎng)視頻與短視頻在產(chǎn)業(yè)鏈中的各自側(cè)重點(diǎn)有顯著性差異。長(zhǎng)視頻需要完整覆蓋視頻產(chǎn)業(yè)鏈,并非常注重制作環(huán)節(jié)的投入。短視頻則對(duì)上游IP、策劃、投資等環(huán)節(jié)依賴度極低,通常關(guān)注中下游的制作、分發(fā)與變現(xiàn)環(huán)節(jié)。3.4
不同形態(tài)視頻細(xì)分領(lǐng)域的應(yīng)用進(jìn)程長(zhǎng)視頻工業(yè)短視頻社交終極?術(shù)成熟度AI改變世界的進(jìn)程L1:AI生產(chǎn)時(shí)代L2:AI原生時(shí)代L3:AI創(chuàng)生時(shí)代L4:AI文明時(shí)代短視頻正在進(jìn)入AI原生時(shí)代,長(zhǎng)視頻正在進(jìn)入AI生產(chǎn)時(shí)代AIGC視頻生成技術(shù)在不同形態(tài)的視頻內(nèi)容領(lǐng)域的應(yīng)用進(jìn)程各不相同。概括而言,長(zhǎng)視頻領(lǐng)域AIGC視頻生成技術(shù)仍然處于L1階段,由于現(xiàn)階段AIGC視頻生成技術(shù)的局限性,導(dǎo)致一些具有高度專業(yè)性的領(lǐng)域僅僅將其作為生產(chǎn)工具,例如為電影、劇集等提供素材來(lái)源,尚無(wú)法帶來(lái)顛覆性重塑,但會(huì)壓縮原有產(chǎn)業(yè)鏈。而對(duì)于新聞這類需要高度準(zhǔn)確性的內(nèi)容,則暫時(shí)只能滿足情景復(fù)現(xiàn)等少量場(chǎng)景。短視頻領(lǐng)域則會(huì)首先面臨AIGC視頻生成技術(shù)的顛覆,甲子光年智庫(kù)判斷短視頻領(lǐng)域?qū)?huì)進(jìn)入L2即AI原生時(shí)代,短視頻產(chǎn)業(yè)鏈將不復(fù)存在,而會(huì)誕生AI原生的短視頻模式和平臺(tái)。圖:AIGC視頻生成對(duì)不同視頻形態(tài)的應(yīng)用進(jìn)程情況技長(zhǎng)視頻處在L1階段 短視頻已邁入L2階段3.5
短視頻重塑后的產(chǎn)業(yè)鏈角色分工導(dǎo)演編劇藝人攝影剪輯特效美術(shù)武指制片…工作流概念腳本選景道具分鏡拍攝剪輯音效渲染…AI原生平臺(tái)All
in
One,鏈條縮短,環(huán)節(jié)融合無(wú)序、沉浸、實(shí)時(shí)、互動(dòng)、聚聯(lián)式平臺(tái)AI克隆音色圖文成片數(shù)字人口播視頻生成素材生成個(gè)人平臺(tái)數(shù)字時(shí)代短視頻的工作流數(shù)字時(shí)代短視頻的角色分工AI原生時(shí)代的短視頻平臺(tái)短視頻進(jìn)入AI原生時(shí)代,產(chǎn)業(yè)鏈被壓縮,催生AI原生模式的新型平臺(tái)PC互聯(lián)網(wǎng)時(shí)代催生出了長(zhǎng)視頻平臺(tái),移動(dòng)互聯(lián)網(wǎng)催生出了短視頻平臺(tái),雖然短視頻平臺(tái)已經(jīng)在大幅度應(yīng)用AI技術(shù)進(jìn)行賦能,但仍然存在顯著的短視頻生產(chǎn)工作流和短視頻制作的角色分工體系。AIGC視頻生成技術(shù)將會(huì)打破短視頻的原有產(chǎn)業(yè)鏈,大幅度壓縮簡(jiǎn)化生產(chǎn)制作流程和角色分工,實(shí)現(xiàn)一鍵生成的all
in
one原生模式。AI原生視頻流程的歸一,將會(huì)帶來(lái)AI原生時(shí)代的短視頻平臺(tái)新范式,新的視頻平臺(tái)范式將具有無(wú)序、沉浸,實(shí)時(shí)、互動(dòng)、聚聯(lián)的AI原生特征。無(wú)序是指打破傳統(tǒng)固化的視頻生產(chǎn)流程。沉浸是指實(shí)現(xiàn)全面體驗(yàn)的沉浸式視頻生產(chǎn)。實(shí)時(shí)是低延時(shí)的視頻快速生成?;?dòng)是指一邊交互對(duì)話一邊進(jìn)行視頻調(diào)整的個(gè)性化、定制化的互動(dòng)視頻。聚聯(lián)是指去中心化的生產(chǎn)方式。3.5
短視頻重塑后的產(chǎn)業(yè)鏈數(shù)據(jù)來(lái)源:甲子光年智庫(kù),2024年;去中心化平臺(tái)B端用戶自媒體機(jī)構(gòu)MCN快消品……C端用戶創(chuàng)意故事IP版權(quán)……AI創(chuàng)意工具AI原生視頻工具分發(fā)變現(xiàn)平臺(tái)負(fù)責(zé)創(chuàng)意的生產(chǎn)提供,既可以是B端用戶也可以是C端用戶自行產(chǎn)生。負(fù)責(zé)視頻的生成制作,以提問(wèn)交互的方式進(jìn)行視頻生成,平臺(tái)負(fù)責(zé)為用戶提供全套的視頻生成工具。負(fù)責(zé)生成視頻的流量分發(fā)與內(nèi)容變現(xiàn),將會(huì)催生三大類型的變現(xiàn)平臺(tái):最中心的流量分發(fā)平臺(tái)、外圍的直播平臺(tái)、用戶平臺(tái)。新型制播一體的AI原生內(nèi)容平臺(tái),有望顛覆短視頻平臺(tái)格局,每個(gè)用戶既是導(dǎo)演又是平臺(tái)在AIGC視頻生成對(duì)視頻產(chǎn)業(yè)鏈的技術(shù)變革下,有望孵化出新一代的集短視頻制作、分發(fā)、變現(xiàn)為一體的全新形態(tài)的視頻平臺(tái)。新型的制播一體的AI原生內(nèi)容平臺(tái)應(yīng)該是融合AI創(chuàng)意工具+AI原生視頻工具+變現(xiàn)平臺(tái)三大環(huán)節(jié)的AI原生短視頻平臺(tái)。在實(shí)現(xiàn)AI原生范式的轉(zhuǎn)換后,過(guò)去短視頻平臺(tái)和內(nèi)容創(chuàng)作者將會(huì)出現(xiàn)一些變革:短視頻平臺(tái):將會(huì)向AI創(chuàng)意工具+AI原生視頻工具+變現(xiàn)平臺(tái)的融合式的平臺(tái)轉(zhuǎn)變,提供AI原生視頻工具和流量分發(fā)平臺(tái)。用戶平臺(tái):用戶將不僅僅是作為生產(chǎn)者和消費(fèi)者,真正做到人人都是導(dǎo)演型的創(chuàng)作者,并且人人都是一個(gè)小型的平臺(tái)。個(gè)人用戶可以建立個(gè)人平臺(tái),企業(yè)用戶可以建立企業(yè)平臺(tái),直播機(jī)構(gòu)可以建立直播平臺(tái)。內(nèi)容創(chuàng)作者的價(jià)值將更注重創(chuàng)意能力、解決實(shí)際問(wèn)題的能力、個(gè)人IP影響力等。圖:新型制播一體的AI原生內(nèi)容平臺(tái)的業(yè)務(wù)模式流量分發(fā)平臺(tái)直播平臺(tái)用戶平臺(tái)個(gè)人平臺(tái)1直播平臺(tái)2個(gè)人平臺(tái)2個(gè)人平臺(tái)3個(gè)人平臺(tái)N企業(yè)平臺(tái)N企業(yè)平臺(tái)3企業(yè)平臺(tái)2企業(yè)平臺(tái)1直播平臺(tái)1直播平臺(tái)3直播平臺(tái)NAIGC視頻生成大模型剪輯工具渲染工具AI克隆音色工具 數(shù)字人工具圖文生成工具 素材生成工具……用戶以導(dǎo)演的角色進(jìn)行交互式生成3.6
長(zhǎng)視頻重塑后的產(chǎn)業(yè)鏈制作環(huán)節(jié)難度下降,將會(huì)助推產(chǎn)業(yè)鏈上游的創(chuàng)意環(huán)節(jié)和下游宣發(fā)播映環(huán)節(jié)重要程度上升,數(shù)據(jù)來(lái)源:甲子光年智庫(kù),2024年;IP投資制作宣發(fā)播映映后開發(fā)產(chǎn)品鏈>策劃/劇本新核心環(huán)節(jié)>視頻制作環(huán)節(jié)難度下降,成本降低,將會(huì)推動(dòng)產(chǎn)業(yè)鏈上游和下游發(fā)展更注重向上游拓展優(yōu)質(zhì)IP和創(chuàng)意能力注重向下游尋找發(fā)行資源和播映渠道創(chuàng)意生成環(huán)節(jié)視頻生成環(huán)節(jié)宣發(fā)播映環(huán)節(jié)好故事、好腳本、好平臺(tái)將成為視頻產(chǎn)業(yè)的核心競(jìng)爭(zhēng)力AIGC視頻生成工具會(huì)降低視頻制作的準(zhǔn)入門檻、拋棄對(duì)專業(yè)設(shè)備的依賴、降低生產(chǎn)成本、提升制作效率。隨著制作環(huán)節(jié)難度下降,好故事、好腳本等產(chǎn)業(yè)鏈上游的創(chuàng)意環(huán)節(jié)將成為視頻產(chǎn)業(yè)的核心競(jìng)爭(zhēng)力。AI視頻產(chǎn)量的大幅增加需要更符合AI視頻特征的播映平臺(tái),產(chǎn)業(yè)鏈也將更為注重下游宣發(fā)播映平臺(tái)渠道的建設(shè)更新。原有產(chǎn)業(yè)鏈的投資環(huán)節(jié)主要針對(duì)內(nèi)容制造環(huán)節(jié),未來(lái)文娛和技術(shù)投資將走向融合。圖:AIGC視頻生成簡(jiǎn)化傳統(tǒng)視頻產(chǎn)業(yè)鏈3.6
長(zhǎng)視頻重塑后的產(chǎn)業(yè)鏈重塑后的視頻產(chǎn)業(yè)鏈將整合簡(jiǎn)化為三大環(huán)節(jié):創(chuàng)意生成—視頻生成—宣發(fā)播映數(shù)據(jù)來(lái)源:甲子光年智庫(kù),2024年;IP制作宣發(fā)播映策劃/ 映后劇本 開發(fā)視頻生成應(yīng)用層視頻生成中間層視頻生成基礎(chǔ)層
文本+劇本文本+小說(shuō)圖片+設(shè)計(jì)圖片+海報(bào)視頻+剪輯音頻+配樂(lè)創(chuàng)意生成環(huán)節(jié)視頻生成環(huán)節(jié)宣發(fā)播映環(huán)節(jié)細(xì)節(jié)說(shuō)明文本生成模型圖片生成模型音頻生成長(zhǎng)視頻生成模型音頻生成短視頻生成模型圖片生成模型視頻+特效視頻+3D視頻+動(dòng)作視頻+渲染圖片+美術(shù)圖片+設(shè)計(jì)視頻+剪輯音頻+配樂(lè)視頻+元宇宙視頻+人機(jī)交互文本+創(chuàng)意文本+策劃創(chuàng)意生成:主要包括原IP、策劃/劇本和映后開發(fā)環(huán)節(jié)。主要以講好故事、做好創(chuàng)意策劃為目的。需要整合文本生成和圖像生成模型。視頻生成:主要包括制作環(huán)節(jié)。主要負(fù)責(zé)將故事由文本變?yōu)橐曨l內(nèi)容。需要具備長(zhǎng)視頻生成和音頻生成模型。宣發(fā)播映:主要包括宣發(fā)與播映環(huán)節(jié)。主要負(fù)責(zé)將生成視頻內(nèi)容進(jìn)行宣傳和播放。需要具備短視頻生成、音頻生成和圖片生成模型。3.6
長(zhǎng)視頻重塑后的產(chǎn)業(yè)鏈重塑后的視頻產(chǎn)業(yè)鏈將會(huì)變?yōu)榛谌竽P腕w系的全新產(chǎn)業(yè)鏈,并帶來(lái)全新的生產(chǎn)方式重塑后的視頻產(chǎn)業(yè)鏈將基于三大環(huán)節(jié)產(chǎn)生三大產(chǎn)業(yè)體系:基于創(chuàng)意生成模型的產(chǎn)業(yè)體系、基于視頻生成模型的產(chǎn)業(yè)體系、基于宣發(fā)播映模型的產(chǎn)業(yè)體系。數(shù)據(jù)來(lái)源:甲子光年智庫(kù),2024年;圖:AIGC視頻生成整合重塑后的全新視頻產(chǎn)業(yè)鏈算法層視頻生成應(yīng)用層創(chuàng)意生成模型產(chǎn)業(yè)體系視頻生成模型產(chǎn)業(yè)體系宣發(fā)播映模型產(chǎn)業(yè)體系A(chǔ)I芯片公司平臺(tái)層算力層AIDC智算中心視頻生成中間層視頻生成基礎(chǔ)層文學(xué)平臺(tái)制作公司 編劇工作室策劃工作室出版社 衍生品設(shè)計(jì)游戲公司 衍生品開發(fā)長(zhǎng)視頻平臺(tái)營(yíng)銷公司短視頻平臺(tái)數(shù)字平臺(tái)傳統(tǒng)電視臺(tái)發(fā)行公司票務(wù)平臺(tái)院線制作公司 動(dòng)畫公司經(jīng)紀(jì)公司 教育培訓(xùn)后期公司 廣告公司視頻制作工具 傳媒公司文本生成+圖片生成的大模型廠商長(zhǎng)視頻生成+音頻生成的大模型廠商短視頻+音頻+圖片生成的多模態(tài)大模型廠商文本生成工具廠商圖片生成工具廠商音頻生成工具廠商長(zhǎng)視頻生成工具廠商
音頻生成工具廠商
短視頻生成工具廠商
圖片生成工具廠商 文本數(shù)據(jù)類公司視頻數(shù)據(jù)類公司圖片數(shù)據(jù)類公司數(shù)據(jù)平臺(tái)3.6
長(zhǎng)視頻重塑后的產(chǎn)業(yè)鏈機(jī)會(huì):創(chuàng)意生成體系IP版權(quán)生產(chǎn)交易開發(fā)一體化的平臺(tái)有望成為新的發(fā)展機(jī)遇數(shù)據(jù)來(lái)源:甲子光年智庫(kù),2024年;IP版權(quán)交易模式>生產(chǎn)出版發(fā)行用戶消費(fèi)獲取授權(quán)再開發(fā)內(nèi)容推廣版權(quán)方:作者版權(quán)擁有方平臺(tái)方:出版社閱讀平臺(tái)用戶:普通用戶專業(yè)用戶版權(quán)采購(gòu)方:內(nèi)容開發(fā)方:內(nèi)容主控方:內(nèi)容公司影視公司影視公司版權(quán)代理方游戲公司游戲公司平臺(tái)方動(dòng)漫公司動(dòng)漫公司………………授權(quán)授權(quán)授權(quán)閱讀IP版權(quán)生產(chǎn)模式>觀看內(nèi)容生成內(nèi)容上傳版權(quán)確認(rèn)定價(jià)和許可設(shè)置數(shù)字簽約支付使用監(jiān)控傳統(tǒng)的版權(quán)生產(chǎn)與交易模式IP版權(quán)生產(chǎn)交易開發(fā)一體化的平臺(tái)傳統(tǒng)IP版權(quán)的生產(chǎn)非常依賴作家的能力,而在版權(quán)交易環(huán)節(jié)通常是由版權(quán)持有者直接與使用方(如出版商、電影制作公司等)之間進(jìn)行的,可交易范圍較窄。使用AIGC技術(shù)后,版權(quán)生成環(huán)節(jié)可以直接使用大模型來(lái)生成內(nèi)容,并且可以是文本文章、圖片、音頻剪輯、視頻片段等各種形式的內(nèi)容。版權(quán)交易不再是人與人之間的交易,而是創(chuàng)作者與技術(shù)平臺(tái)之間的交易。因此,IP版權(quán)生產(chǎn)和交易開發(fā)一體化的新型平臺(tái)有望迎來(lái)機(jī)遇。創(chuàng)作者VS技術(shù)平臺(tái)3.6
長(zhǎng)視頻重塑后的產(chǎn)業(yè)鏈機(jī)會(huì):創(chuàng)意生成體系白金作家群體不再成為稀有資源,未來(lái)人人都是小說(shuō)家,中小型文學(xué)平臺(tái)將可能迎來(lái)春天數(shù)據(jù)來(lái)源:甲子光年智庫(kù),2024年;行業(yè)的代表性人物,數(shù)量極少行業(yè)的中堅(jiān)力量,數(shù)量不多行業(yè)的基礎(chǔ)力量,數(shù)量眾多行業(yè)的主要群體,數(shù)量龐大白金作家大神作家普通作家公眾作家90.6%0.004%0.001%9.4%現(xiàn)階段的作家群體分布呈現(xiàn)金字塔狀態(tài)人人都是小說(shuō)家使用AIGC模型撰寫小說(shuō)可以幫助小說(shuō)作家快速生成大量文本,并為創(chuàng)作提供靈感和創(chuàng)意的啟發(fā),可以顯著降低撰寫小說(shuō)的門檻,未來(lái)小說(shuō)家將不再是特點(diǎn)人群,而是人人都是小說(shuō)家。伴隨內(nèi)容供給的增加,傳統(tǒng)寡頭壟斷型的文學(xué)平臺(tái)有望被打破,中小型文學(xué)平臺(tái)的發(fā)展將迎來(lái)春天。準(zhǔn)備工作選擇一個(gè)用于生成文本的AIGC模型,可以是一個(gè)預(yù)訓(xùn)練好的通用語(yǔ)言模型,也可以是經(jīng)過(guò)特定領(lǐng)域或風(fēng)格微調(diào)的模型。確定故事基本框架,包括主要人物、情節(jié)發(fā)展、背景設(shè)定等方面的內(nèi)容。這些信息將作為生成文設(shè)定故事框
本的基礎(chǔ),引導(dǎo)模型生成與故事相關(guān)的內(nèi)容。架生成文本基于設(shè)定好的故事框架使用AIGC模型生成文本。通過(guò)向模型提供一些關(guān)鍵詞、句子或段落作為輸入,然后模型會(huì)基于這些輸入生成相應(yīng)的文本。篩選和編輯生成的文本可能包含不符合故事情節(jié)或風(fēng)格的部分,因此需要進(jìn)行篩選和編輯,刪除不需要的內(nèi)容、調(diào)整語(yǔ)言表達(dá)、補(bǔ)充細(xì)節(jié)等
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年別墅式熱水器項(xiàng)目可行性研究報(bào)告
- 2024至2030年采暖爐補(bǔ)水箱項(xiàng)目投資價(jià)值分析報(bào)告
- 2024至2030年中國(guó)向心滾針軸承行業(yè)投資前景及策略咨詢研究報(bào)告
- 醫(yī)療器械行業(yè)法規(guī)與標(biāo)準(zhǔn)解讀
- 2024年鹽酸多塞平片項(xiàng)目可行性研究報(bào)告
- 反恐防暴演練幼兒園
- 2024年中國(guó)鹽漬蘿卜切菜機(jī)市場(chǎng)調(diào)查研究報(bào)告
- 心血管流行病學(xué)
- 成功營(yíng)銷策略匯報(bào)揭秘銷售技巧
- 青海建筑職業(yè)技術(shù)學(xué)院《生物多樣性保護(hù)概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 護(hù)理員服務(wù)外包投標(biāo)方案(技術(shù)方案)
- 票據(jù)賬戶主動(dòng)管理服務(wù)操作手冊(cè)
- 2023年10月自考00051管理系統(tǒng)中計(jì)算機(jī)應(yīng)用真題及答案含評(píng)分標(biāo)準(zhǔn)
- 心力衰竭患者的運(yùn)動(dòng)康復(fù)
- 班主任如何做好班級(jí)建設(shè)工作
- 德能勤績(jī)考核表
- 《夏天里的成長(zhǎng)》的說(shuō)課課件
- 03X502 空氣采樣早期煙霧探測(cè)系統(tǒng)
- 頸脊神經(jīng)后支射頻技術(shù)
- 河南省鄭州市管城區(qū)卷2023-2024學(xué)年數(shù)學(xué)四年級(jí)第一學(xué)期期末聯(lián)考試題含答案
- 班主任考核細(xì)則評(píng)分表
評(píng)論
0/150
提交評(píng)論