AIGC行業(yè)從文生圖到文生視頻技術(shù)框架與商業(yè)化_第1頁
AIGC行業(yè)從文生圖到文生視頻技術(shù)框架與商業(yè)化_第2頁
AIGC行業(yè)從文生圖到文生視頻技術(shù)框架與商業(yè)化_第3頁
AIGC行業(yè)從文生圖到文生視頻技術(shù)框架與商業(yè)化_第4頁
AIGC行業(yè)從文生圖到文生視頻技術(shù)框架與商業(yè)化_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

請務必閱讀報告附注中的風險提示和免責聲明2表現(xiàn)1M3M12M港股互聯(lián)網(wǎng)-8.6014.7950.09恒生指數(shù)-5.72-10.231.47相對恒生指數(shù)表現(xiàn)(%)最近一年走勢相關(guān)報告《從Roblox進化看AIGC游戲未來—Roblox(RBLX.N)深度復盤:二十年沉淀,四階段演繹(增持)*海外*楊仁文,馬川琪,陳夢竹,姚蕾》——2023-09-24《創(chuàng)新奇智(02121)動態(tài)研究報告:業(yè)績維持高速增長,“AI+制造”賦能長期發(fā)展(買入)*IT服務Ⅱ*陳夢竹》——2023-09-14《商湯-W(00020)2023H1業(yè)績點評:生成式AI有望成為業(yè)務新驅(qū)動,整體虧損收窄(增持)*IT服務Ⅱ*陳夢竹》——2023-09-08《網(wǎng)易-S(9999.HK)公司動態(tài)研究:利潤超預期,新游表現(xiàn)強勁,期待后續(xù)業(yè)績釋放(買入)*游戲Ⅱ*陳夢竹,尹芮》——2023-09-03《焦點科技(002315)2023H1財報點評:業(yè)務調(diào)整拖累營收增速,利潤端實現(xiàn)穩(wěn)健增長(買入)*互聯(lián)網(wǎng)電商*陳夢竹》——2023-09-0360%50%40%30%20%10%0%-10%-20%港股互聯(lián)網(wǎng)指數(shù)恒生指數(shù)請務必閱讀報告附注中的風險提示和免責聲明3核心提要1、底層模型技術(shù)框架梳理文生圖和文生視頻的底層技術(shù)框架較為相似,主要包括GAN、自回歸和擴散模型三大路徑,其中擴散模型(Diffusion

model)為當前主流生成模型,多個指標對比下綜合占優(yōu),能在較為可控的算力成本和較快的速度下生成具備多樣性、高質(zhì)量的圖像:①圖像質(zhì)量:擴散模型>自回歸模型>GAN模型。FID值(Fréchet

Inception

Distance

score)是用于評估模型生成的圖像質(zhì)量的指標,是用來計算真實圖像與生成圖像的特征向量間距離的一種度量。FID值越小,可以認為圖像質(zhì)量在一定程度上越優(yōu)。從不同模型的FID得分來看,擴散模型平均數(shù)較小,反應圖像質(zhì)量較高。②參數(shù)量:自回歸模型>擴散模型>GAN模型。GAN的參數(shù)量一般在千萬級別,整體較為輕巧,擴散模型的參數(shù)量在十億級別,自回歸模型在十億到百億級不等。③生成速度(由快到慢):GAN模型>擴散模型>自回歸模型。生成速度與參數(shù)量級為負相關(guān)關(guān)系。④訓練成本:自回歸>擴散模型>GAN模型。由于參數(shù)量級較小,GAN模型訓練成本小且開源模型多,仍具備一定優(yōu)勢。而自回歸模型參數(shù)量級較大,整體訓練成本更高。在單張A100GPU下,120億參數(shù)的DALL-E需要18萬小時,200億參數(shù)的

Parti更是需要超過100萬小時,擴散模型參數(shù)量在十億級別,整體訓練成本較為適中。2、商業(yè)化模式及成本拆分文生圖商業(yè)化模型:當前主要的商業(yè)化方式包括基于GPU時間/生成次數(shù)/API接口調(diào)用/個性化定價等方式。根據(jù)我們調(diào)研,以Midjourney為例,單張圖片生成成本約0.03~0.04美金,單張收入約0.05美金,毛利率約30%~40%,凈利率約20%。文生圖領(lǐng)域整體創(chuàng)業(yè)門檻低于大語言模型:①模型層看:圖像生成領(lǐng)域已有生成質(zhì)量較高的開源預訓練模型Stable

Diffusion,且SD具有較為豐富的開發(fā)者生態(tài),有許多插件供選擇。創(chuàng)業(yè)公司可基于Stable

Diffusion基礎(chǔ)版本進行進一步調(diào)優(yōu)和個性化數(shù)據(jù)訓練。②成本端看:從主流模型參數(shù)規(guī)???,文生圖參數(shù)量級多在1-10B之間,而通用大模型入門級門檻達到了70B,文生圖整體參數(shù)量級較小,成本遠低于通用大模型。通過調(diào)研文生圖初創(chuàng)公司,實際小團隊利用開源模型,初期在用戶不到1萬情況下甚至無需購買A100,通過購買RTX30\40系列、IBS3060(5000~1w/張)也可以啟動。我們對文生圖推理算力需求也進行了測算,以10億級參數(shù)量的模型、在100萬DAU的用戶量級為例,若想控制單次推理延遲時間,需部署約143張A100,整體芯片算力需求低于大語言通用模型。文生圖商業(yè)模式仍存疑問,長期競爭需要技術(shù)+產(chǎn)品+場景能力結(jié)合突破:①對于垂類AI應用:短期看頭部應用通過技術(shù)/產(chǎn)品/成本/數(shù)據(jù)等優(yōu)勢突破,在C端率先開啟變現(xiàn),長期看針對垂類場景C端天花板相對明確,搭建工程化能力可技術(shù)輸出到B端場景,探索更多變現(xiàn)可能。②對于現(xiàn)有應用疊加AI功能:短期通過AI功能引入提升產(chǎn)品體驗和用戶粘性;長期看基于現(xiàn)有高頻場景,用戶壁壘更強、不易流失,用戶ARPU和付費率有望提升。3、文生圖代表模型及應用從模型和應用看,海外OpenAI、谷歌、微軟、Meta、Midjourney、Stability

AI都推出了各自的文生圖模型,國內(nèi)百度、美圖、萬興科技、新國都等均推出各自AI應用。從生成效果看Midjourney、Adobe和Stable

Diffusion綜合較優(yōu),OpenAI最新升級DALL-E3模型將與ChatGPT集成,多模態(tài)交互能力持續(xù)提升,有望帶來新的場景突破。4、行業(yè)評級及理由:文生圖和文生視頻底層技術(shù)不斷演進、模型持續(xù)迭代,涌現(xiàn)出一批優(yōu)質(zhì)原生AI應用,在C端開創(chuàng)了全新的應用體驗,同時在B端游戲、營銷、影視制作、文旅、電商等多個行業(yè)均開啟應用,實現(xiàn)降本增效,長期有望進一步打開商業(yè)化空間。我們看好AI多模態(tài)行業(yè)投資機會,維持行業(yè)“推薦”評級,建議關(guān)注微軟、Meta、Adobe、谷歌、百度、阿里巴巴、美圖、萬興科技、新國都等相關(guān)標的。5、風險提示:競爭加劇風險、內(nèi)容質(zhì)量不佳風險、用戶流失風險、政策監(jiān)管風險、變現(xiàn)不及預期風險、估值調(diào)整風險等。請務必閱讀報告附注中的風險提示和免責聲明4報告目錄一、底層模型技術(shù)框架梳理.............................................................................................................................

.......................................................................................................5文生圖:基于文本生成圖像,Stable

Diffusion開源后迎來快速發(fā)展文生視頻:與文生圖底層技術(shù)一致,自回歸和擴散模型為主流生成技術(shù)路徑:從GAN到Diffusion,模型持續(xù)優(yōu)化迭代文生圖模型競爭格局人工智能監(jiān)管:中歐美均發(fā)布相關(guān)條例,引導生成式AI規(guī)范發(fā)展GAN:通過生成器和判別器對抗訓練提升圖像生成能力GAN:在早期文本生成視頻領(lǐng)域也有所應用自回歸模型:采用Transformer結(jié)構(gòu)中的自注意力機制自回歸模型:生成視頻相比GAN更加連貫和自然擴散模型:當前主流路徑,通過添加噪聲和反向降噪推斷生成圖像CLIP:實現(xiàn)文本和圖像特征提取和映射,訓練效果依賴大規(guī)模數(shù)據(jù)集擴散模型:當前也為文生視頻主流技術(shù)路徑模型對比:擴散模型圖像質(zhì)量最優(yōu),自回歸模型相對訓練成本最高圖像生成模型的困境:多個指標中求取平衡,目前Diffusion綜合占優(yōu)文本生成視頻模型仍存在許多技術(shù)難點,生成效果有待提升二、商業(yè)化模式及成本拆分.............................................................................................................................

.......................................................................................................22文生圖商業(yè)化圖片生成模型成本拆分:以Midjourney為例平均來看自回歸模型成本最高,生成視頻成本遠高于生成圖片圖像生成應用的競爭壁壘依賴技術(shù)和產(chǎn)品能力雙驅(qū)動下的飛輪效應文生圖領(lǐng)域整體創(chuàng)業(yè)門檻低于大語言模型,商業(yè)模式仍存疑問部分文生圖&視頻應用商業(yè)化情況文生圖推理算力需求測算文生視頻推理算力需求測算如何看待文生圖競爭格局?與高頻場景結(jié)合更容易突圍三、文生圖代表模型及應用.............................................................................................................................

.......................................................................................................

32圖像生成模型一覽:國內(nèi)外廠商積極布局探索請務必閱讀報告附注中的風險提示和免責聲明5報告目錄主流商用文生圖模型效果對比:綜合看Midjourney和Adobe相對領(lǐng)先Open

AI:先后推出自回歸和擴散圖像模型,最新發(fā)布DALL-E3谷歌:先后推出基于擴散模型的imagen和基于自回歸模型的PartiMeta:公布基于自回歸的模型CM3Leon,生成質(zhì)量媲美主流擴散模型Midjourney:基于擴散模型的文生圖龍頭,用戶規(guī)模超千萬Stability

AI:發(fā)布Stable

Diffusion開源模型Stability

AI:最新發(fā)布SDXL1.0開源版本,圖像生成能力進一步提升Clipdrop被Stability

AI收購,融入多項AI功能圖像處理能力優(yōu)秀,數(shù)據(jù)顯著增長Adobe

Firefly:與Adobe旗下圖像編輯軟件結(jié)合,具備較強可編輯性百度:理解生成篩選三步走,不斷優(yōu)化文心一格的文生圖效果萬興科技:持續(xù)加碼AIGC,萬興愛畫升級,Pixpic落地美圖:著手布局B端市場,官宣自研視覺大模型,美圖AI產(chǎn)品生態(tài)初步形成美圖:產(chǎn)品測評妙鴨相機:多模板AI寫真相機,新晉爆款產(chǎn)品,但成熟度仍待提高新國都:PicSo在海外率先上線,營收占比較小二、文生視頻代表模型及應用..................................................................................................................................................................................................................................49清華CogVi

de

o:首個開源的中文文本生成視頻模型,基于自回歸模型文生圖推理算力需求測算微軟:

NUWA系列從自回歸到擴散模型,視頻生成長度增加谷歌

Phenaki:首個可生成長視頻的自回歸模型谷歌

Imagen

Video:應用級聯(lián)模型和漸進式蒸餾加速提升視頻質(zhì)量Meta

Make-A-Video:創(chuàng)新采用無監(jiān)督學習,加速模型訓練字節(jié)跳動Magic

Video:平滑視頻剪輯助力商業(yè)應用NVIDIA:側(cè)重擴散模型,實現(xiàn)高質(zhì)量視頻合成Zeroscope:擁有較高質(zhì)量輸出的中國開源模型Runway

Gen-1:基于潛在擴散模型,助力商用發(fā)展Runway

Gen-1

&

Gen-2:商用文生視頻的明星應用Synthesia:海外領(lǐng)先的AI視頻應用,已開啟商業(yè)化Lumen5:可將文本轉(zhuǎn)化為視頻,自動生成對應的場景和角色請務必閱讀報告附注中的風險提示和免責聲明 6底層模型技術(shù)框架梳理請務必閱讀報告附注中的風險提示和免責聲明7文生圖:基于文本生成圖像,

S

t

a

b

l

e D

i

f

f

u

s

i

o

n

開源后迎來快速發(fā)展Disco

Diffusion論文發(fā)布Google發(fā)布partiOpenAI發(fā)布模型GLIDE;Midjourney推出;Meta發(fā)布Make-A-Scene論文Google

發(fā)

布Imagen百度發(fā)

布ERNIE-VILG

2.02021年5月2022年3月2022年6月2022年4月StableDiffusion論文發(fā)布;OpenAI

發(fā)

具DALL·E

2;2023年3月2022年5月清 華 發(fā) 布CogView2》歐洲議會通過

《人工智能法案(AI

Act)草案

2023年6月

阿里云宣布推出通義萬相AI繪畫大模型2023年7月國家網(wǎng)信辦聯(lián)合國家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部、廣電總局公布《生成式人工智能服務管理暫行辦法》2021年11月論文/模型商業(yè)應用法律法規(guī)文生圖(Text-to-Image)是基于文本通過生成式AI生成圖像的模式。近3年時間,文生圖的技術(shù)已實現(xiàn)大幅的進步,海外的Stable

Diffusion、Midjourney已經(jīng)能夠提供較高質(zhì)量的圖像,國內(nèi)的萬興科技的萬興愛畫、百度的文心·一格也投入商用。文本生成圖像的底層模型可以分為GAN、擴散模型、自回歸模型三類。目前行業(yè)內(nèi)的明星模型主要基于擴散模型。探索階段:GAN、自回歸生成并行2021年逐漸成熟:擴散模型占據(jù)主流2022年~至今海外國內(nèi)海內(nèi)外主要文本生成圖像模型大事件萬興科技AI

繪畫開啟公測2022年11月美圖發(fā)布AI視覺大模型MiracleVision2022年8月百度發(fā)布文心·一格Disco

Diffusion發(fā)布2021年10月清 華 發(fā) 布CogView百度發(fā)布

ERNIE-VILGStability AI開

源StableDiffusion資料來源:論文見附錄1

,網(wǎng)信中國,央視網(wǎng),36氪,新智元,智元社區(qū),百度官網(wǎng),澎湃新聞,證券時報,潮新聞客戶端,界面新聞,百度AI微信公眾號,百度智能云,國海證券研究所2019年3月Nvidia發(fā)布GauGAN2021年1月OpenAI發(fā)布第一代繪圖工具DALL·E論文;Google發(fā)

布XMC-GANNvidia發(fā)布GauGAN2請務必閱讀報告附注中的風險提示和免責聲明8文生視頻:與文生圖底層技術(shù)一致,自回歸和擴散模型為主流2021.04微軟亞洲研究院發(fā)布GODIVA圖像拼接生成階段2016年以前GAN/VAE/Flow-Based生成階段2016年~2019年自回歸和擴散模型階段2020年~至今2016.10VGAN2016.01 2017.01 2018.01資料來源:易觀,IT之家,36氪,論文見附錄2,國海證券研究所2019.012020.012021.012022.012023.012021.11

微軟亞洲研究院發(fā)布NUWA(女媧)2023.04

Nvidia發(fā)布Video

LDM2023.03

微軟亞洲研究院發(fā)布NUWA-XL2023.03

Runway發(fā)布Gen-22023.02

Runway發(fā)布Gen-12022.05

清華發(fā)布CogVideo2022.07

微軟亞洲研究院發(fā)布NUWA-Infinity2022.09

Meta發(fā)布Make-A-Video2022.10Google發(fā)布Phenaki2022.10

Google發(fā)布Imagen

Video2023.11字節(jié)跳動發(fā)布MagicVideo2023.05Nvidia發(fā)布PYoCo2017.08TGAN2017.12

MoCoGAN2022.02

DIGAN自回歸模型及擴散模型生成階段2020年~至今2019.09

DVD-GAN文生視頻(Text-to-Video)是基于文本通過生成式AI生成視頻的模式。隨著文生圖技術(shù)的精進與成熟,對于文生視頻的技術(shù)的發(fā)展和關(guān)注逐漸演變及增加,近3年時間,以Runway為代表的文生視頻公司在不斷涌現(xiàn),互聯(lián)網(wǎng)行業(yè)的巨頭,比如谷歌、Meta、微軟,同樣投入人員和精力參與其中,國內(nèi)目前文生視頻技術(shù)還在初期發(fā)展階段,目前魔搭社區(qū)(Model

Scope)里的開源模型ZeroScope表現(xiàn)亮眼。文本生成視頻模型的發(fā)展經(jīng)歷三個階段:圖像拼接生成階段、GAN/VAE/Flow-Based生成階段、自回歸和擴散模型階段。文本生成視頻三大發(fā)展階段2017.04

VideoGPT請務必閱讀報告附注中的風險提示和免責聲明9生成技術(shù)路徑:從GAN到Diffusion,模型持續(xù)優(yōu)化迭代資料來源:

論文見附錄,國海證券研究所結(jié)構(gòu)改進方向運行原理存在問題圖像

視頻商用生成式對抗網(wǎng)絡(GAN)自回歸模型擴散模型生成器(Generator):一個神經(jīng)網(wǎng)絡或者其他方式擬合出的函數(shù),給定輸入,負責生成整個GAN所需的輸出判別器(Discriminator):一個判斷輸入真假的二分類器函數(shù)Transformer:整體主要分為Encoder和Decoder兩大部分,能夠模擬像素和高級屬性(紋理、語義和比例)之間的空間關(guān)系,利用多頭自注意力機制進行編碼和解碼通過對純高斯噪聲反向降噪推斷來生成圖像生成器將抓取數(shù)據(jù)、產(chǎn)生新的生成數(shù)據(jù),并將其混入原始數(shù)據(jù)中送交判別器區(qū)分。這一過程將反復進行,直到判別器無法以超過50%的準確度分辨出真實樣本通過編碼器將文本轉(zhuǎn)化成token或序列,應用自回歸預測經(jīng)過訓練好的模型解碼輸出圖像定義一個擴散步驟的馬爾可夫鏈,逐漸向數(shù)據(jù)添加隨機噪聲,然后學習逆擴散過程,從噪聲中構(gòu)建所需的數(shù)據(jù)樣本訓練不穩(wěn)定:GAN

的相互博弈過程容易造成訓練不穩(wěn)定,使得訓練難以收斂。近期突破思路有Relativistic

GAN。有別于傳統(tǒng)

GAN

測量生成樣本是否為真的概率這一做法,Relativistic

GAN

將關(guān)注點放在測量生成樣本比真實樣本“更真”的概率,使得

GAN

獲得了更好的收斂性計算成本消耗大:模型受制于計算效率與訓練數(shù)據(jù)的規(guī)模自回歸模型的參數(shù)通常是擴散模型參數(shù)量的10倍以上采樣速度慢:連續(xù)模型使用高斯噪聲,很難處理離散數(shù)據(jù)生成樣本大量重復相似:模式坍塌被認為是應用

GAN

進行圖像生成時最難解決的問題之一,它會造成訓練結(jié)果冗余、生成圖像質(zhì)量差、樣本單一等問題。近期突破性思路有包含兩個判別網(wǎng)絡的D2GAN大量的訓練數(shù)據(jù):自回歸模型需要大規(guī)模的、高質(zhì)量的數(shù)據(jù)進行訓練,尤其在文本生成視頻的訓練中,目前缺少高質(zhì)量的文本-視頻對是文生視頻自回歸模型的一大難題計算消耗過大:蘊含多個(原始模型可能要上千個)前向傳播過程,對顯卡硬件需求大,計算較慢結(jié)構(gòu)改善:將

GAN

與機器學習中最新的理論成果進行交叉訓練,引入遷移學習、強化學習等,使

GAN

與計算機圖形學等技術(shù)更好地融合,推動結(jié)構(gòu)的改善創(chuàng)新生成模式:改進圖像生成的方式,比如在視頻生成過程中,從“逐像素”改進至逐幀生成,減少計算量訓練方式改進:知識蒸餾促進模型壓縮和加速,改進擴散過程以減少采樣時間,調(diào)整噪聲尺度優(yōu)化采樣程序,數(shù)據(jù)分布替換降低預測誤差無訓練采樣:以更少的步驟和更高的精度從預訓練的模型中獲取知識模型壓縮:目前圖像生成技術(shù)想要落地,勢必要根據(jù)需求調(diào)整模型的大小,結(jié)合基于“知識蒸餾”的模型壓縮方法,進行匹配需求的優(yōu)化和壓縮,從而內(nèi)嵌入小型軟件中,拓寬應用領(lǐng)域提升數(shù)據(jù)質(zhì)量:在文本生成視頻中,聯(lián)合文本-圖像對進行訓練,規(guī)避因為文本-視頻對不足的劣勢混合模型改進:在擴散模型的中加入額外生成模型,以利用其他模型的高采樣速度分數(shù)與擴散統(tǒng)一:確定擴散模型和去噪分數(shù)匹配之間的聯(lián)系,有助于統(tǒng)一廣義擴散的加速方法StackGAN++、DF-GANDALL-E、CogView、

CogView2、Parti、CM3leonStable

Diffusion、GLIDE、DALL-E

2VGAN、TGAN、VideoGPT、MoCoGAN、DVD-GAN、DIGANCogVideo、GODIVA、NUWA、PhenakiVideo

Diffusion

Model、Make-A-Video、ImagenVideo、Tune-A-Video、Dreamix、NUWA-XL、Text2Video-Zero、VideoLDM、PYoCo圖像:Midjourney;Stable

Diffusion;文心一格視頻:Runway請務必閱讀報告附注中的風險提示和免責聲明10文生圖模型競爭格局資料來源:各公司官網(wǎng),國海證券研究所應用代表模型底層架構(gòu)GAN(生成式對抗網(wǎng)絡)擴散模型自回歸模型Stable

Diffusion、GLIDE、DALL-E

2DALL-E、CogView、CogView2、Parti、CM3leonStackGAN++、DF-GAN國內(nèi)海外萬興愛畫請務必閱讀報告附注中的風險提示和免責聲明11人工智能監(jiān)管:中歐美均發(fā)布相關(guān)條例,引導生成式AI

規(guī)范發(fā)展人工智能主要發(fā)展地區(qū)的監(jiān)管發(fā)展時間地區(qū)法律、法規(guī)及監(jiān)管條例發(fā)布主要內(nèi)容2022年10月美國美國白宮發(fā)布《人工智能權(quán)利法案藍圖》提出了建立安全和有效的系統(tǒng)、避免算法歧視,以公平方式使用和設計系統(tǒng)、保護數(shù)據(jù)隱私等五項基本原則,且將公平和隱私保護視為法案的核心宗旨,后續(xù)擬圍繞這兩點制定完善細則。2023年1月美國美國商務部下屬機構(gòu)美國國家標準與技術(shù)研究院(NIST)發(fā)布《人工智能風險管理框架》鼓勵用戶全面規(guī)劃人工智能系統(tǒng),包括預期的商業(yè)目的和使用人工智能可能造成的潛在危害。要求有道德的人工智能從業(yè)者確定如何以定量和定性的方式衡量人工智能系統(tǒng)所產(chǎn)生的影響。組織將使用測量的結(jié)果來幫助其持續(xù)管理人工智能系統(tǒng):RMF框架為用戶提供了管理已部署人工智能系統(tǒng)風險的工具,并根據(jù)評估的風險和風險優(yōu)先級分配風險管理資源。2023年6月歐洲歐洲議會通過《人工智能法案》(AI

Act)草案全球范圍內(nèi)首部系統(tǒng)化規(guī)制人工智能的法律,草案提出對人工智能采取分級管理的思路,基于人工智能的四個風險等級(從低風險或無風險、有限風險、高風險、不可接受風險)進行區(qū)別管理,要求生成式人工智能的設計和開發(fā)符合歐盟法律和基本權(quán)利。2023年7月中國國家網(wǎng)信辦聯(lián)合國家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部、廣電總局公布《生成式人工智能服務管理暫行辦法》提出國家堅持發(fā)展和安全并重、促進創(chuàng)新和依法治理相結(jié)合的原則,采取有效措施鼓勵生成式人工智能創(chuàng)新發(fā)展,對生成式人工智能服務實行包容審慎和分類分級監(jiān)管,明確了提供和使用生成式人工智能服務總體要求。資料來源:中國網(wǎng)信網(wǎng),全球技術(shù)地圖,AI時代前沿,國海證券研究所請務必閱讀報告附注中的風險提示和免責聲明12G

AN

:通過生成器和判別器對抗訓練提升圖像生成能力資料來源:機器之心,《StackGAN++:

Realistic

Image

Synthesis

with

Stacked

Generative

Adversarial

Networks》(Han

Zhang等),《DF-GAN:

A

Simple

and

Effective

Baseline

for

Text-to-Image

Synthesis》(Ming

Tao等),易觀,國海證券研究所GAN的特點:相比于其他模型,GAN的模型參數(shù)量較少,比較輕便,因此GAN擅長對單個或多個對象類進行建模。但由于訓練過程的不穩(wěn)定性,擴展

GAN

需要仔細調(diào)整網(wǎng)絡架構(gòu)和訓練因素,擴展到復雜數(shù)據(jù)集則極具挑戰(zhàn)性,穩(wěn)定性較差、生成圖像缺乏多樣性。GANs(GAN,

Generative

Adversarial

Networks),生成對抗網(wǎng)絡是擴散模型前的主流圖像生成模型,通過生成器和判別器進行對抗訓練來提升模型的圖像生成能力和圖像鑒別能力,使得生成式網(wǎng)絡的數(shù)據(jù)趨近真實數(shù)據(jù),從而圖像趨近真實圖像。GAN常見的模型結(jié)構(gòu)單級生成網(wǎng)絡:代表有DF-GAN等。只使用一個生成器、一個鑒別器、一個預訓練過的文本編碼器,使用一系列包含仿射變換的UPBlock塊學習文本與圖像之間的映射關(guān)系,由文本生成圖像特征。堆疊結(jié)構(gòu):多階段生成網(wǎng)絡,代表有stackGAN++、GoGAN等。GAN

對于高分辨率圖像生成一直存在許多問題,層級結(jié)構(gòu)的

GAN

通過逐層次,分階段生成,一步步提生圖像的分辨率。在每個分支上,生成器捕獲該尺度的圖像分布,鑒別器分辨來自該尺度樣本的真假,生成器G1接收上一階段的生成圖像不斷對圖像進行細化并提升分辨率,并且以交替方式對生成器和鑒別器進行訓練。多階段GAN相比二階段表現(xiàn)出更穩(wěn)定的訓練行為。(一般來說,GAN的訓練是不穩(wěn)定的,會發(fā)生模式倒塌的現(xiàn)象mode

collapse,即生成器結(jié)果為真但多樣性不足)生成對抗網(wǎng)絡實現(xiàn)文本生成圖像主要分為三大部分:文本編碼器、生成器和鑒別器。文本編碼器由RNN或者Bi-LSTM組成,生成器可以做成堆疊結(jié)構(gòu)或者單階段生成結(jié)構(gòu),生成模型捕捉樣本數(shù)據(jù)的分布,不斷生成圖像,判別模型判別輸入是來自是真實數(shù)據(jù)還是來自生成模型,鑒別器用于鑒別生成器生成的圖像是否為真和是否符合文本語義。兩者在對抗中,不斷提升各自的能力,生成器逐漸提升生成圖像的能力,生成圖像的分布接近真實圖像分布,從而提高判別器的判別能力,判別器對真實圖像和生成圖像進行判別,來提高生成器的生成能力。stackGAN++的文字生成圖片架構(gòu)原理請務必閱讀報告附注中的風險提示和免責聲明13G

AN

:在早期文本生成視頻領(lǐng)域也有所應用資料來源:論文見附錄3,易觀,國海證券研究所*模型在

UCF-101

數(shù)據(jù)集上的

IS

得分(分值越高越好)在圖像拼接階段后,生成對抗網(wǎng)絡(GAN)開始應用在文本生成視頻領(lǐng)域,因為它們可以在沒有第一幀的情況下執(zhí)行無條件或類條件視頻合成,但由于其穩(wěn)定性不足,逐漸被自回歸模型和擴散模型替代。經(jīng)典GAN模型在視頻領(lǐng)域應用梳理模型名稱發(fā)布時間生成方式IS*(↑)VGAN2016.10第一個將GAN用于視頻生成的模型,它將視頻分解為靜態(tài)背景和移動前景,通過分別生成背景和移動對象來生成視頻。生成器由兩個卷積網(wǎng)絡組成:第一個是3D時空卷積網(wǎng)絡,用于捕獲前景中的移動對象,而第二個是靜態(tài)背景的2D空間卷積模型。從雙流生成器生成的幀被組合在一起,然后饋送到鑒別器以區(qū)分真實視頻和虛假視頻。8.31±.09VideoGPT2017.04模型采用了變分自動編碼器(VAE)和生成對抗網(wǎng)絡(GAN)從文本中提取靜態(tài)和動態(tài)信息,靜態(tài)特征用于草繪文本條件背景顏色和對象布局結(jié)構(gòu)。通過將輸入文本轉(zhuǎn)換為圖像過濾器來考慮動態(tài)特征,模型從公開可用的在線視頻中自動創(chuàng)建匹配文本視頻語料庫。24.69±.30TGAN2017.08模型學習未標記視頻的語義表示,使用由3D反卷積層組成的單個生成器生成視頻,模型利用了兩種不同類型的生成器:時間生成器和圖像生成器。時間生成器將單個潛在變量作為輸入并輸出一組潛在變量,每個潛在變量對應于視頻中的一個圖像幀,圖像生成器將一組此類潛在變量轉(zhuǎn)換為視頻。11.85±.07MoCoGAN2017.12MoCoGAN將視頻分解成內(nèi)容和運動兩個部分,通過將一系列隨機向量映射到一系列視頻幀來生成視頻。每個隨機向量由一個內(nèi)容部分和一個運動部分組成。當內(nèi)容部分保持固定時,運動部分通過隨機過程實現(xiàn)。12.42±.07DVD-GAN2019.09雙視頻鑒別器GAN(DVD-GAN)基于復雜的數(shù)據(jù),從噪聲矢量生成視頻,生成48幀高達256

*

256的高質(zhì)量圖像。DVD-GAN是在Kinetics-600

數(shù)據(jù)集上訓練的,以前的工作僅使用子集和預處理的樣本。與MoCoGAN

類似,有兩個鑒別器來處理視頻的時間和空間方面。32.97±1.7DIGAN2022.02模型將隱式神經(jīng)表示應用于視頻編碼,包含(a)基于隱式神經(jīng)表征(INR)的視頻生成器,它通過以不同的方式操縱空間和時間坐標來改善運動動態(tài),以及(b)運動鑒別器,無需觀察整個長幀序列即可有效識別不自然運動??梢栽?/p>

128

×128分辨率的

128

幀視頻上進行訓練,比之前最先進的方法的

48

幀長

80

幀。29.71±.53請務必閱讀報告附注中的風險提示和免責聲明14自回歸模型(Auto-regressive

Model)采用Transformer進行自回歸圖像生成。Transformer整體主要分為Encoder和Decoder兩大部分,能夠模擬像素和高級屬性(紋理、語義和比例)之間的空間關(guān)系,利用多頭自注意力機制進行編碼和解碼。采用該架構(gòu)模型的文生圖通常將文本和圖像分別轉(zhuǎn)化成tokens序列,然后利用生成式的Transformer

架構(gòu)從文本序列(和可選圖像序列)中預測圖像序列,最后使用圖像生成技術(shù)(VAE、GAN等)對圖像序列進行解碼,得到最終生成圖像。自回歸模型:采用Tr

ans

f

or

m

e

r

結(jié)構(gòu)中的自注意力機制資料來源:《Hierarchical

Text-Conditional

Image

Generation

with

CLIP

Latents》Aditya

Ramesh等,《CogView:

Mastering

Text-to-Image

Generation

via

Transformers》Ming

Ding等,Google

Research,易觀,電腦學習網(wǎng),機器之心,國海證券研究所自回歸模型的特點:1)相比于其他模型,自回歸模型的穩(wěn)定性及生成圖像的邏輯相對合理。2)但計算效率總體較低,生成速度較慢,訓練成本相對較高,其實際應用受限于計算效率和訓練成本相對不足,目前Meta發(fā)布的CM3leon在計算效率有較大的提高,優(yōu)化了模型的計算速度。結(jié)合VQ-VAE(矢量量化變分自動編碼器):清華的

CogView

與百度的ERNIE-ViLG

均使用

VQ-VAE

+

Transformer

的架構(gòu)設計。先將文本部分轉(zhuǎn)換成token,然后將圖像部分通過一個離散化的AE(Auto-Encoder)轉(zhuǎn)換為token,將文本token和圖像token拼接到一起,之后輸入到GPT模型中學習生成圖像。結(jié)合ViT-VQGAN:谷歌Parti將ViT-VQGAN作為圖像標記器將圖像編碼為離散標記序列(使用Transformer

GPT-2作為編碼生成工具),它將文本到圖像的生成視為序列到序列的建模問題,圖像標記序列是目標輸出,并利用其將此類圖像標記序列重建為高質(zhì)量、視覺多樣化圖像。首先將一組圖像轉(zhuǎn)換為一系列代碼條目,類似于拼圖,然后將給定的文本提示轉(zhuǎn)換為這些代碼條目并「拼成」一個新圖像。經(jīng)典自回歸模型請務必閱讀報告附注中的風險提示和免責聲明15與GANs相比,自回歸模型具有明確的密度建模和穩(wěn)定的訓練優(yōu)勢,自回歸模型可以通過幀與幀之間的聯(lián)系,生成更為連貫且自然視頻。但是自回歸模型受制于計算資源、訓練所需的數(shù)據(jù)、時間,模型本身參數(shù)數(shù)量通常比擴散模型大,對于計算資源要求及數(shù)據(jù)集的要求往往高于其他模型,隨著擴散模型的火熱,自回歸模型的熱潮逐漸降低,基于文本生成圖像的文本生成視頻的熱潮漸起。自回歸模型:生成視頻相比G

AN

更加連貫和自然資料來源:《NUWA:

Visual

Synthesis

Pre-training

for

Neural

visUal

World

creAtion》Chenfei

Wu等,《CogVideo:Large-scale

Pretraining

for

Text-to-Video

Generation

via

Transformers》Wenyi

Hong等,國海證券研究所早期自回歸模型:生成質(zhì)量差,成本高早期的視覺自回歸模型,如,以“逐像素”的方式進行視覺合成。然而,其只能應用于低分辨率圖像或視頻,并且難以放大,是因為模型高維視覺數(shù)據(jù)上的計算成本很高。模型代表:

PixelCNN,PixelRNN,ImageTransformer,iGPT

和Video

Transformer中期自回歸模型:生成質(zhì)量提升,生成規(guī)模增大隨后,VQ-VAE

作為一種離散視覺標記化方法的出現(xiàn),高效和大規(guī)模的預訓練可以應用于圖像和視頻的視覺合成任務。模型代表:GODIVA、VideoGPT自回歸模型現(xiàn)狀:高質(zhì)量生成,訓練成本降低后續(xù),出現(xiàn)利用預先訓練的文本到圖像模型來生成高質(zhì)量的視頻的方法,視頻被視為圖像的時間序列,這減少了視頻token的數(shù)量,并降低了訓練成本。但這可能導致動力學建模不佳并產(chǎn)生運動偽影。模型代表:NUWA、CogVideo、Phenaki請務必閱讀報告附注中的風險提示和免責聲明16擴散模型:當前主流路徑,通過添加噪聲和反向降噪推斷生成圖像資料來源:易觀,《Hierarchical

Text-Conditional

Image

Generation

with

CLIP

Latents》Aditya

Ramesh等,《Denoising

Diffusion

ProbabilisticModels》Jonathan

Ho等,《High-Resolution

Image

Synthesis

with

Latent

Diffusion

Models

》Robin

Rombach等,中國日報,國海證券研究所擴散模型的特點:1)相比先前的模型,擴散模型在訓練穩(wěn)定性和結(jié)果準確性能力提升明顯,替代了GAN成為目前主流模型。2)當應對大量跨模態(tài)圖像生成的需求,通過結(jié)合CLIP,能夠?qū)崿F(xiàn)圖像生成速度和質(zhì)量的顯著提升,生成的圖片具有較好的多樣性和寫實性。3)相比于其他模型,擴散模型有較強的表現(xiàn)及相對中等的計算成本。擴散模型(Diffusion

Model)是通過定義一個擴散步驟的馬爾可夫鏈,通過連續(xù)向數(shù)據(jù)添加隨機噪聲,直到得到一個純高斯噪聲數(shù)據(jù),然后再學習逆擴散的過程,經(jīng)過反向降噪推斷來生成圖像,通過系統(tǒng)地擾動數(shù)據(jù)中的分布,再恢復數(shù)據(jù)分布,逐步優(yōu)化過程。擴散模型在圖像生成應用結(jié)合CLIP:比如DALLE-2,采用Diffusion

Model結(jié)合CLIP,

CLIP文本嵌入首先被饋送到自回歸或擴散先驗以產(chǎn)生圖像嵌入,然后該嵌入用于調(diào)節(jié)擴散解碼器,后由擴散解碼器產(chǎn)生最終圖像。結(jié)合潛在空間(Latent

Space):

Stable

Diffusion將模型應用于預訓練自動編碼器的潛在空間(Latent

Space),這使得擴散模型的訓練能夠在一個有限的計算資源的環(huán)境下進行,并且能夠保持圖像的質(zhì)量和靈活性。Latent

Diffusion

Models通過在一個潛在表示空間中迭代“去噪”數(shù)據(jù)來生成圖像,然后將表示結(jié)果解碼為完整的圖像,讓文圖生成任務能夠在消費級GPU上,在10秒級別時間生成圖片,大大降低落地門檻。請務必閱讀報告附注中的風險提示和免責聲明17C

L

I

P

:實現(xiàn)文本和圖像特征提取和映射,訓練效果依賴大規(guī)模數(shù)據(jù)集資料來源:巴比特資訊,Nvidia

Developer,機器之心,《Improving

Language

Understanding

by

Generative

Pre-Training》,《

Learning

Transferable

Visual

Models

From

Natural

Language

Supervision

》,國海證券研究所CLIP(Contrastive

Language-image

Pre-training)是基于對比學習的文本-圖像跨模態(tài)預訓練模型,由文本編碼器(TextEncoder)和圖像編碼器(Image

Encoder)組成,編碼器分別對文本和圖像進行特征提取,將文本和圖像映射到同一表示空間,通過文本-圖像對的相似度和差異度計算來訓練模型,從標簽文本創(chuàng)建數(shù)據(jù)集分類器,從而能夠根據(jù)給定的文本生成符合描述的圖像。CLIP的特點優(yōu)點:由于CLIP完成了基于多模態(tài)的對比學習和預訓練,在過程中已經(jīng)將文本特征和圖像特征進行對齊,該模型無需事先標注數(shù)據(jù),減少了標注數(shù)據(jù)的工作量及對應成本,能夠在零樣本圖像文本分類任務中高質(zhì)量運行。缺點:1)CLIP在包含時間序列數(shù)據(jù)和需要推理計算的任務中由于模型本身的局限性,生成圖像的效果不佳。2)CLIP的訓練效果依賴大規(guī)模的文本-圖像對數(shù)據(jù)集,對訓練資源的消耗比較大,CLIP是由OpenAI團隊通過4億對圖像-文本對訓練后提出的。預訓練模型:預先在數(shù)據(jù)量龐大的代表性數(shù)據(jù)集上訓練模型,當遷移到自定義的數(shù)據(jù)中,通過權(quán)重和偏差調(diào)優(yōu)后,使模型達到需要的性能

。預訓練模型能夠節(jié)省從零開始的高昂時間成本和計算成本,降低模型對標注數(shù)據(jù)數(shù)量的要求,能夠處理一些難以獲得大量標注數(shù)據(jù)的場景。請務必閱讀報告附注中的風險提示和免責聲明18擴散模型:當前也為文生視頻主流技術(shù)路徑資料來源:論文見附錄4,國海證券研究所當前主要的文本到視頻模式主要采用基于擴散的架構(gòu),由于擴散模型在圖像生成方面的成功,其啟發(fā)了基于擴散模型的視頻生成的模型。VideoDiffusion

Model的提出標志著擴散模型在視頻生成領(lǐng)域的應用,該模型將擴散模型拓展到視頻領(lǐng)域。經(jīng)典擴散模型在視頻生成領(lǐng)域應用梳理模型名稱組織發(fā)布時間生成方式Video

Diffusion

ModelGoogle2022.04視頻擴散模型(Video

Diffusion

Model)是標準圖像擴散架構(gòu)的自然延伸,是首個將擴散模型延展到視頻生成領(lǐng)域的模型,模型支持圖像和視頻數(shù)據(jù)的聯(lián)合訓練,這能夠減少小批量梯度(Variance

ofminibatch)的方差并加快優(yōu)化,生成長和更高分辨率的視頻。Make-A-VideoMeta2022.09Make-A-Video通過時空分解擴散模型將基于擴散的T2I模型擴展到T2V,利用聯(lián)合文本-圖像先驗來繞過對配對文本

-

視頻數(shù)據(jù)的需求,這使得潛在地擴展到更多的視頻數(shù)據(jù)。Imagen

VideoGoogle2022.10Imagen

Video基于Imagen圖像生成模型,采用級聯(lián)擴散視頻模型,并驗證了在高清視頻生成中的簡單性和有效性,文本生成圖像設置中的凍結(jié)編碼器文本調(diào)節(jié)和無分類器指導轉(zhuǎn)移到視頻生成仍具有有效性。Tune-A-Video新加坡國立大學、騰訊2022.12Tune-A-Video是第一個使用預訓練T2I模型生成T2V的框架,引入了用于

T2V

生成的一次性視頻調(diào)諧的新設置,消除了大規(guī)模視頻數(shù)據(jù)集訓練的負擔,提出了有效的注意力調(diào)整和結(jié)構(gòu)反轉(zhuǎn),可以顯著提高時間一致性。Gen-1Runway2023.02Gen-1將潛在擴散模型擴展到視頻生成,通過將時間層引入到預訓練的圖像模型中并對圖像和視頻進行聯(lián)合訓練,無需額外訓練和預處理。DreamixGoogle2023.02Dreamix提出了第一個基于文本的真實視頻外觀和運動編輯的方法,通過一種新穎的混合微調(diào)模型,可顯著提高運動編輯的質(zhì)量。通過在簡單的圖像預處理操作之上應用視頻編輯器方法,為文本引導的圖像動畫提供新的框架。NUWA-XL微軟亞洲研究院2023.03NUWA-XL是一種“擴散超過擴散”(Diffusion

over

Diffusion)的架構(gòu),“從粗到細”生成長視頻,NUWA-XL支持并行推理,這大大加快了長視頻的生成速度。Text2Video-ZeroPicsart

AI

Resarch

(PAIR),UT

Austin,U

of

Oregon,UIUC2023.03Text2Video-Zero提出零樣本的文本生成視頻的方法,僅使用預先訓練的文本到圖像擴散模型,而無需任何進一步的微調(diào)或優(yōu)化,通過在潛在代碼中編碼運動動力學,并使用新的跨幀注意力重新編程每個幀的自我注意力,強制執(zhí)行時間一致的生成。VideoLDM英偉達2023.04VideoLDM提出了一種有效的方法用于訓練基于LDM的高分辨率、長期一致的視頻生成模型,主要是利用預先訓練的圖像DM并將其轉(zhuǎn)換為視頻生成器通過插入學習以時間一致的方式對齊圖像的時間層。PYoCo英偉達2023.05PYoCo提出一種視頻擴散噪聲,用于微調(diào)文本到視頻的文本到圖像擴散模型,通過用噪聲先驗微調(diào)預訓練的eDiff-I模型來構(gòu)建大規(guī)模的文本到視頻擴散模型,并實現(xiàn)最先進的結(jié)果。請務必閱讀報告附注中的風險提示和免責聲明19GAN模型圖像質(zhì)量良參數(shù)量優(yōu)生成速度優(yōu)易擴展性優(yōu)優(yōu)勢原因基于馬爾可夫鏈的正向及反的保持能力更強,具備多樣

大規(guī)模參數(shù)的模型訓練性和真實感生成器和判別器動態(tài)對向擴散過程,未對圖片進行

Transformer的多頭自

抗的特點,避免了馬爾降維壓縮,能夠更加準確地

注意力機制提升了生成

科夫鏈式的學習機制,還原真實數(shù)據(jù),對圖像細節(jié)

的穩(wěn)定性,可以實現(xiàn)更

無需在學習過程中進行推斷優(yōu)點生成的質(zhì)量高相比GAN生成質(zhì)量較高,采樣速度較快,靈活的生成分布更加均勻 設計框架缺點大量擴散步驟導致采樣速度慢、模型成本較高需要將圖像轉(zhuǎn)為token進行自回歸預測,采樣速度慢、模型成本高可解釋性差,容易出現(xiàn)模式崩潰模型對比:擴散模型圖像質(zhì)量最優(yōu),自回歸模型相對訓練成本最高資料來源:論文見附錄,電腦學習網(wǎng),國海證券研究所①圖像質(zhì)量:擴散模型>自回歸模型>GAN模型FID值(Fréchet

InceptionDistance

score)是用于評估模型生成的圖像質(zhì)量的指標,是用來計算真實圖像與生成圖像的特征向量間距離的一種度量。如果FID值越小,則相似程度越高,可以認為圖像質(zhì)量在一定程度上越優(yōu)。從不同模型的FID得分來看,擴散模型平均數(shù)較小,反應圖像質(zhì)量較高。②參數(shù)量:自回歸模型>擴散模型>GAN模型GAN的參數(shù)量一般在千萬級別,整體較為輕巧,擴散模型的參數(shù)量在十億級別,自回歸模型在十億到百億級不等。③生成速度(由快到慢):GAN模型>擴散模型>自回歸模型生成速度與參數(shù)量級為負相關(guān)關(guān)系。④訓練成本:自回歸>擴散模型>GAN模型由于參數(shù)量級較小,GAN模型訓練成本小且開源模型多,仍具備一定優(yōu)勢。而自回歸模型參數(shù)量級較大,整體訓練成本更高。在單張A100GPU下,120億參數(shù)的DALL-E需要18萬小時,200億參數(shù)的

Parti

更是需要超過100萬小時。擴散模型則較為適中。主要圖像生成模型比較擴散模型 自回歸模型優(yōu) 良+中 差中 差中 中模型名模型類型參數(shù)量級GLIDE擴散模型35億DALLE-2擴散模型35億Imagen擴散模型34億Re-Imagen擴散模型36億DALLE自回歸模型120億Cogview自回歸模型40億Cogview2自回歸模型60億Parti自回歸模型200億DFGAN生成對抗網(wǎng)絡0.19億請務必閱讀報告附注中的風險提示和免責聲明20圖像生成模型的困境:多個指標中求取平衡,目前D

i

f

fu

s

i

o

n

綜合占優(yōu)資料來源:稀土掘金,易觀,新智元,36kr,論文見附錄,國海證券研究所生成式學習框架有四個關(guān)鍵要素:樣本高質(zhì)量、樣本多樣和模式覆蓋、低廉的計算成本和快速的計算能力,目前沒有一個模型能夠充分滿足四個要素。OpenAI提出的全新圖像生成模型Consistency

Models,不僅能夠解決擴散模型迭代步驟多、采樣速度慢的問題,并且無需對抗訓練可以直接生成高質(zhì)量樣本,可以快速完成圖像修復、圖像超分辨率等多種圖像任務,表現(xiàn)出了更強的應用潛力。Meta的CM3Leon采用了基于

token

的自回歸模型方法,但計算量僅相當于以往基于Transformer

方法的五分之一,因此既具備自回歸模型的功能多樣性和有效性,也保持著較低的訓練成本和良好的推理效率,并獲得了

4.88

FID。GAN的潛力仍然存在:來自浦項科技大學(韓國)、卡內(nèi)基梅隆大學和Adobe研究院的研究人員提出了一種全新的生成對抗網(wǎng)絡架構(gòu)GigaGAN,打破了模型的規(guī)模限制,在推理速度和圖像生成效果方面展現(xiàn)了更好的性能,對應解決傳統(tǒng)的GAN在增加架構(gòu)容量導致的不穩(wěn)定問題,可以看到GAN在圖像編輯、圖像轉(zhuǎn)換等場景的應用潛力仍然存在。高質(zhì)量樣本樣本多樣行和模式覆蓋低廉的計算成本較快生成速度 現(xiàn)狀擴散模型√√×√(部分) 圖片生成質(zhì)量較高且速度尚可,具有較強的多樣性,目前是主流模型,但模型成本相較GAN仍然偏高。自回歸模型√難以同時滿足難以同時滿足×樣本多樣性和低廉計算成本難以同時滿足,自回歸模型先驗的學習使用的是文本到中間離散表征的映射,依賴于大規(guī)模數(shù)據(jù)集,導致其很難在低廉的計算成本下產(chǎn)生較為多樣的樣本。生成對抗網(wǎng)絡(GAN)√×√√能夠快速生成高質(zhì)量樣本且成本低,但模式覆蓋率較差,容易出現(xiàn)模式崩塌。高質(zhì)量樣本樣本多樣性和模式覆蓋較快生成速度生成學習四角低廉的計算成本技術(shù)改進探索請務必閱讀報告附注中的風險提示和免責聲明21文本生成視頻模型仍存在許多技術(shù)難點,生成效果有待提升視頻生成除了考慮空間信息,

還需要考慮時間信息,

高質(zhì)量的視頻的生成需要更高強度的計算及復雜的推理能力,在考量視頻質(zhì)量時,視頻長度、逼真度、連貫性目前還無法完全達到。被人眼識別為連貫的視頻需要幀率為每秒24

幀以上,目前在幀率上雖然技術(shù)有達到,但是圖像質(zhì)量和前后幀的邏輯聯(lián)系等仍有待進一步改進。資料來源:易觀,Runway官網(wǎng),國海證券研究所缺少大規(guī)模、高質(zhì)量的文本-視頻對高維度視頻數(shù)據(jù)建模的復雜性用戶Prompt表達不確定性在文本生成圖像的情景中,

收集高質(zhì)量的文本-

圖像對是可能的,但是高質(zhì)量的文本-

視頻對是稀缺的,許多數(shù)據(jù)庫中的視頻很少和文本強相關(guān),并且許多只描述了場景而缺少時間信息。文本生成視頻模型需要大量數(shù)據(jù)來學習字幕相關(guān)性、幀照片寫實感和時間動態(tài),

但與豐富的圖像數(shù)據(jù)資源相比,

視頻數(shù)據(jù)在樣式、數(shù)量和質(zhì)量方面受到更多限制。除此以外,

視頻片段的長度是不等的,

為了訓練將視頻切成固定幀數(shù)的片段,

會破壞文本和時間之間的“

對齊”情況(

文本和時間信息不匹配)

,

進而影響模型的訓練。用戶在進行文字描述(

pr

ompt

)時,通常有個性化的用語和表達方式,模型對于文字描述的理解(

pr

ompt

)會較大的影響生成,同時在此中,模型可能無法詳細理解多主體交互關(guān)系、動作在時間軸上的演進、一詞多義等。用戶在表達時,

可能會出現(xiàn)要素的缺失、描述模糊等情況,

致使模型沒有獲得足夠的信息進行生成,

而產(chǎn)生用戶預期與模型生成的差異。同樣,

AI

GC

平臺是否能夠“突破”用戶表達的瓶頸,生成更具創(chuàng)新性的內(nèi)容,提高優(yōu)質(zhì)內(nèi)容的含量,

也是目前的困境。Prompt:agirlischasingacatonthegrass,full

shot,classicPrompt:amaniswalkingthedogintheschool,wide

angle,cinematic請務必閱讀報告附注中的風險提示和免責聲明22商業(yè)化模式及成本拆分請務必閱讀報告附注中的風險提示和免責聲明23文生圖商業(yè)化模型算力成本主要包括芯片采購和電費前期訓練+后期推理調(diào)用主要成本費用拆解人力成本運維成本銷售費用模型開發(fā)訓練等人員產(chǎn)品運營和維護產(chǎn)品買量、營銷等主要商業(yè)化方式基于GPU時間基于生成次數(shù)主要應用場景圖像分類圖像分割圖像生成圖像風格轉(zhuǎn)換圖像修復圖像超分辨率可以在工業(yè)、工程設計等領(lǐng)域輔助進行目標識別、圖像相似度檢索,輔助CAD設計等;在醫(yī)學領(lǐng)域可以幫助進行醫(yī)學影像標注、解剖、病理結(jié)構(gòu)變化分析等。在藝術(shù)設計、產(chǎn)品設計、動畫與游戲制作等方面均有商業(yè)化潛力,可以根據(jù)設計者的草稿圖、創(chuàng)意概念來生成圖像,以及圖像合成、圖像編輯、增強圖像藝術(shù)性等,從而能夠幫助設計師、建模師進行動漫人物、游戲場景的制作,幫助完成海報、產(chǎn)品LOGO和產(chǎn)品包裝設計等工作。在電商的應用方面,圖像生成可以在虛擬試衣間、模擬商品展示等場景提升用戶的在線購物體驗。能夠根據(jù)已有圖像的上下文信息修復缺失部分,對圖像對比度、銳度或色彩鮮艷度等圖像要素的增強等,可以應用于數(shù)字化歷史文獻的修復、圖像修補等。在攝影與影視制作方面應用于老照片、老電影的修復和畫質(zhì)提升。能夠從低分辨率圖像恢復和重建高分辨率圖像,在醫(yī)學影像處理場景中能夠幫助醫(yī)生創(chuàng)建逼真的病例和解剖結(jié)構(gòu),生成CT掃描圖像,輔助進行病情的分析診斷。另外,在天文觀測和衛(wèi)星遙感觀測等方面,利用圖像超分辨率能夠提升成像設備的性能,并克服時間差異、氣象變化等因素引起的圖像場景變化,為天文探索發(fā)現(xiàn)增加了更多可能性。資料來源:易觀,國海證券研究所個性化定價運維成本訓練數(shù)據(jù)集獲取成本API接口調(diào)用請務必閱讀報告附注中的風險提示和免責聲明24圖片生成模型成本拆分:以M

i

dj

our

ne

y

為例芯片投入電力消耗考慮Midjourney龐大的用戶規(guī)模,按照使用1萬張英偉達A100卡計算總成本約1.8-1.9億美金左右,按照3年折舊攤銷一年平均約花費6000萬美金。數(shù)據(jù)成本人力成本硅谷一線公司比如OPENAI或者Midjourney人均人力成本大概是80-90萬美金/年,目前Midjourney總共11個員工,人力成本約1000萬美金/年。數(shù)據(jù)購買相對一次性,約1000萬~2000萬美金,假設每年攤銷500萬美金按照A100算力的每一張卡的功率是250瓦,一年大概需要400萬美金的電費。80%10%5%5%Midjourney成本拆分算力 人力 數(shù)據(jù) 其他資料來源:產(chǎn)業(yè)調(diào)研,國海證券研究所總成本約7500~8000萬美金/年約0.03~0.04美金/張圖片年收入約1億美金約0.05美金/張圖片毛利率~30%-40%凈利率~20%請務

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論