AIGC行業(yè)市場(chǎng)簡(jiǎn)析_第1頁(yè)
AIGC行業(yè)市場(chǎng)簡(jiǎn)析_第2頁(yè)
AIGC行業(yè)市場(chǎng)簡(jiǎn)析_第3頁(yè)
AIGC行業(yè)市場(chǎng)簡(jiǎn)析_第4頁(yè)
AIGC行業(yè)市場(chǎng)簡(jiǎn)析_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AIGC行業(yè)市場(chǎng)簡(jiǎn)析底層模型技術(shù)框架梳理文生圖:基于文本生成圖像,StableDiffusion開(kāi)源后迎來(lái)快速發(fā)展文生圖(Text-to-Image)是基于文本通過(guò)生成式AI生成圖像的模式。近3年時(shí)間,文生圖的技術(shù)已實(shí)現(xiàn)大幅的進(jìn)步,海外的StableDiffusion、Midjourney已經(jīng)能夠提供較高質(zhì)量的圖像,國(guó)內(nèi)的萬(wàn)興科技的萬(wàn)興愛(ài)畫、百度的文心·一格也投入商用。文本生成圖像的底層模型可以分為GAN、擴(kuò)散模型、自回歸模型三類。目前行業(yè)內(nèi)的明星模型主要基于擴(kuò)散模型。文生視頻:與文生圖底層技術(shù)一致,自回歸和擴(kuò)散模型為主流文生視頻(Text-to-Video)是基于文本通過(guò)生成式AI生成視頻的模式。隨著文生圖技術(shù)的精進(jìn)與成熟,對(duì)于文生視頻的技術(shù)的發(fā)展和關(guān)注逐漸演變及增加,近3年時(shí)間,以Runway為代表的文生視頻公司在不斷涌現(xiàn),互聯(lián)網(wǎng)行業(yè)的巨頭,比如谷歌、Meta、微軟,同樣投入人員和精力參與其中,國(guó)內(nèi)目前文生視頻技術(shù)還在初期發(fā)展階段,目前魔搭社區(qū)(ModelScope)里的開(kāi)源模型ZeroScope表現(xiàn)亮眼。文本生成視頻模型的發(fā)展經(jīng)歷三個(gè)階段:圖像拼接生成階段、GAN/VAE/Flow-Based生成階段、自回歸和擴(kuò)散模型階段。GAN:通過(guò)生成器和判別器對(duì)抗訓(xùn)練提升圖像生成能力GANs(GAN,GenerativeAdversarialNetworks),生成對(duì)抗網(wǎng)絡(luò)是擴(kuò)散模型前的主流圖像生成模型,通過(guò)生成器和判別器進(jìn)行對(duì)抗訓(xùn)練來(lái)提升模型的圖像生成能力和圖像鑒別能力,使得生成式網(wǎng)絡(luò)的數(shù)據(jù)趨近真實(shí)數(shù)據(jù),從而圖像趨近真實(shí)圖像。自回歸模型:采用Transformer結(jié)構(gòu)中的自注意力機(jī)制自回歸模型(Auto-regressiveModel)采用Transformer進(jìn)行自回歸圖像生成。Transformer整體主要分為Encoder和Decoder兩大部分,能夠模擬像素和高級(jí)屬性(紋理、語(yǔ)義和比例)之間的空間關(guān)系,利用多頭自注意力機(jī)制進(jìn)行編碼和解碼。采用該架構(gòu)模型的文生圖通常將文本和圖像分別轉(zhuǎn)化成tokens序列,然后利用生成式的Transformer架構(gòu)從文本序列(和可選圖像序列)中預(yù)測(cè)圖像序列,最后使用圖像生成技術(shù)(VAE、GAN等)對(duì)圖像序列進(jìn)行解碼,得到最終生成圖像。擴(kuò)散模型:當(dāng)前主流路徑,通過(guò)添加噪聲和反向降噪推斷生成圖像擴(kuò)散模型(DiffusionModel)是通過(guò)定義一個(gè)擴(kuò)散步驟的馬爾可夫鏈,通過(guò)連續(xù)向數(shù)據(jù)添加隨機(jī)噪聲,直到得到一個(gè)純高斯噪聲數(shù)據(jù),然后再學(xué)習(xí)逆擴(kuò)散的過(guò)程,經(jīng)過(guò)反向降噪推斷來(lái)生成圖像,通過(guò)系統(tǒng)地?cái)_動(dòng)數(shù)據(jù)中的分布,再恢復(fù)數(shù)據(jù)分布,逐步優(yōu)化過(guò)程。CLIP:實(shí)現(xiàn)文本和圖像特征提取和映射,訓(xùn)練效果依賴大規(guī)模數(shù)據(jù)集CLIP(ContrastiveLanguage-imagePre-training)是基于對(duì)比學(xué)習(xí)的文本-圖像跨模態(tài)預(yù)訓(xùn)練模型,由文本編碼器(TextEncoder)和圖像編碼器(ImageEncoder)組成,編碼器分別對(duì)文本和圖像進(jìn)行特征提取,將文本和圖像映射到同一表示空間,通過(guò)文本-圖像對(duì)的相似度和差異度計(jì)算來(lái)訓(xùn)練模型,從標(biāo)簽文本創(chuàng)建數(shù)據(jù)集分類器,從而能夠根據(jù)給定的文本生成符合描述的圖像。商業(yè)化模式及成本拆分平均來(lái)看自回歸模型成本最高,生成視頻成本遠(yuǎn)高于生成圖片但在實(shí)際模型應(yīng)用中,成本不僅取決于參數(shù)量大小,也取決于訓(xùn)練時(shí)間和用戶規(guī)模。前期訓(xùn)練階段,若對(duì)模型訓(xùn)練時(shí)間沒(méi)有要求,可以通過(guò)延長(zhǎng)訓(xùn)練時(shí)間降低GPU成本;若對(duì)訓(xùn)練時(shí)間要求較短,則需要布局更多芯片提高訓(xùn)練速度。上線階段,如果用戶體量很大,比如OpenAI和Midjourney規(guī)模用戶體量,線上運(yùn)營(yíng)推理的成本可能占到整體成本80-90%,訓(xùn)練階段成本只占10-20%。人眼看到的視頻是透過(guò)一連串的靜態(tài)影像連續(xù)快速播放的結(jié)果,由于每一張靜態(tài)畫面的差異很小,因此連續(xù)快速播放時(shí),一張張快速閃過(guò)的靜態(tài)畫面在人眼視網(wǎng)膜上產(chǎn)生“視覺(jué)暫留”現(xiàn)象,原本靜態(tài)的圖像仿佛連貫運(yùn)動(dòng)了起來(lái)。通常來(lái)說(shuō),人看到視頻是連貫的需要幀率為每秒24幀以上,電影放映的標(biāo)準(zhǔn)也是每秒24幀以上。如果文生圖一次性消耗的算力是一個(gè)單元,文生視頻一次產(chǎn)生消耗約24個(gè)單元。實(shí)際應(yīng)用可能是小于24,但不會(huì)小特別多,并且很有可能大于24,因?yàn)槲纳曨l不僅僅是簡(jiǎn)單的把圖片快速播放起來(lái),還需要內(nèi)容具備多維性和多元性。目前主流文生視頻模型生成視頻長(zhǎng)度僅支持2秒~4秒。文生圖領(lǐng)域整體創(chuàng)業(yè)門檻低于大語(yǔ)言模型,商業(yè)模式仍存疑問(wèn)模型層看:圖像生成領(lǐng)域已有生成質(zhì)量較高的開(kāi)源預(yù)訓(xùn)練模型StableDiffusion,且SD具有較為豐富的開(kāi)發(fā)者生態(tài),有許多插件供選擇。創(chuàng)業(yè)公司可基于StableDiffusion基礎(chǔ)版本進(jìn)行進(jìn)一步調(diào)優(yōu)和個(gè)性化數(shù)據(jù)訓(xùn)練,StableDiffusion最新發(fā)布的開(kāi)源模型SDXL1.0采用更大參數(shù)量級(jí)進(jìn)一步提升了生成圖像質(zhì)量。例如初創(chuàng)公司?界AI便是國(guó)內(nèi)最早基于SD模型推出AI繪畫?具的平臺(tái)之?。成本端看:從主流模型參數(shù)規(guī)???,文生圖參數(shù)量級(jí)多在1-10B之間,而通用大模型入門級(jí)門檻達(dá)到了70B,文生圖整體參數(shù)量級(jí)較小,成本遠(yuǎn)低于通用大模型。通過(guò)調(diào)研文生圖初創(chuàng)公司,實(shí)際小團(tuán)隊(duì)利用開(kāi)源模型,初期在用戶不到1萬(wàn)情況下甚至無(wú)需購(gòu)買A100,通過(guò)購(gòu)買RTX30\40系列、IBS3060(5000~1w/張)也可以啟動(dòng)。用戶1萬(wàn)左右的文生圖公司,生成單張圖片的成本在0.1元左右。文生圖領(lǐng)域雖然創(chuàng)業(yè)門檻低,但商業(yè)模式仍存疑問(wèn)。但國(guó)內(nèi)C端用戶付費(fèi)意愿偏低,B端則需要和場(chǎng)景強(qiáng)相關(guān),會(huì)有較多定制化的場(chǎng)景,要針對(duì)不同客戶的產(chǎn)品需求去打造相應(yīng)的圖片生成的引擎,對(duì)工程化能力有很高的要求,長(zhǎng)期看大公司可能具備更強(qiáng)的場(chǎng)景和工程化能力。以無(wú)界AI為例,其用戶量接近300萬(wàn),C端付費(fèi)率約20%,營(yíng)收主要來(lái)源于B端客戶。文生圖代表模型及應(yīng)用Meta:公布基于自回歸的模型CM3Leon,生成質(zhì)量媲美主流擴(kuò)散模型7月16日,Meta在官網(wǎng)公布CM3leon,是首個(gè)使用純文本語(yǔ)言模型配方改編和訓(xùn)練而成的多模態(tài)模型,使用了30億文本token,并經(jīng)歷了大規(guī)模檢索增強(qiáng)預(yù)訓(xùn)練和隨后的多任務(wù)監(jiān)督微調(diào)(SFT)階段。Midjourney:基于擴(kuò)散模型的文生圖龍頭,用戶規(guī)模超千萬(wàn)Midjourney是AI基于文字生成圖像的工具,由DavidHolz創(chuàng)立于2021年。Midjourney以擁有充沛流量的Discord為載體,實(shí)現(xiàn)低成本獲客和低成本營(yíng)銷,在此中擁有超過(guò)1000萬(wàn)人的社區(qū),不到一年完成了1億美元的營(yíng)收,但至今未融資。Midjourney的模型是閉源的,參考CLIP及Diffusion開(kāi)源模型的基礎(chǔ)上抓取公開(kāi)數(shù)據(jù)進(jìn)行訓(xùn)練。StabilityAI:發(fā)布StableDiffusion開(kāi)源模型StableDiffusion是StabilityAI下的一款基于生成式AI的文本生成圖像的模型,于2022年8月首次推出。2022年10月StabilityAI獲得了由全球風(fēng)險(xiǎn)投資公司LightspeedVenturePartners和CoatueManagement領(lǐng)投的1.01億美元融資,估值突破10億美元,是AI繪畫領(lǐng)域的第一家“獨(dú)角獸”。Clipdrop被StabilityAI收購(gòu),融入多項(xiàng)AI功能圖像處理能力優(yōu)秀,數(shù)據(jù)顯著增長(zhǎng)公司簡(jiǎn)介:Clipdrop是InitML公司旗下的AI圖像編輯和生成應(yīng)用。該應(yīng)用包含超過(guò)10種圖像處理工具,也加入了AI智能生成圖片功能。母公司InitML于2020年創(chuàng)立于法國(guó),于2023年3月被AI圖像生成模型StableDiffusion的母公司Stability.AI收購(gòu)。2022年6月,Stability.AI發(fā)布SDXL0.9,表示其是“StableDiffusion文本-圖像模型套件”的最先進(jìn)開(kāi)發(fā)版本。在收購(gòu)Clipdrop后,SDXL0.9功能應(yīng)用于Clipdrop中。2023年7月26日,Stability.AI發(fā)布SDXL1.0,進(jìn)一步提升Clipdrop性能。其后數(shù)據(jù)出現(xiàn)明顯增長(zhǎng),2023年7月網(wǎng)站訪問(wèn)量接近1500萬(wàn)。AdobeFirefly:與Adobe旗下圖像編輯軟件結(jié)合,具備較強(qiáng)可編輯性Firefly是Adobe的一款基于生成式AI的工具,能夠通過(guò)100多種語(yǔ)言,使用簡(jiǎn)單的文字建立影像、生成填色、對(duì)文字套用樣式和效果、生成式重新上色、3D轉(zhuǎn)換為影像、延展影像等。目前的Firefly生成式AI模式使用AdobeStock資料集、開(kāi)放授權(quán)作品和著作權(quán)已到期的公共內(nèi)容進(jìn)行訓(xùn)練。2023年9月,Adobe公布旗下AIGC工具FireflyAI的商業(yè)化方案:點(diǎn)數(shù)制收費(fèi),用戶使用AI作圖時(shí)消耗生成點(diǎn)數(shù),每個(gè)點(diǎn)數(shù)對(duì)應(yīng)一張圖,每月可免費(fèi)獲得25點(diǎn)生成點(diǎn)數(shù),同時(shí)可以付費(fèi)購(gòu)買額外點(diǎn)數(shù)。以單獨(dú)購(gòu)買AdobeFirefly的價(jià)格計(jì)算,生成每幅圖像的價(jià)格大約為5美分。文生視頻代表模型及應(yīng)用視頻生成模型:行業(yè)迎來(lái)小幅高潮,生成質(zhì)量仍有提升空間在一定程度上,文本生成視頻可以看作是文本生成圖像的進(jìn)階版技術(shù),同樣是以Token為中介,關(guān)聯(lián)文本和圖像生成,逐幀生成所需圖片,最后逐幀生成完整視頻。據(jù)量子位發(fā)布的《AIGC/AI生成內(nèi)容產(chǎn)業(yè)展望報(bào)告》,視頻生成將成為近期跨模態(tài)生成領(lǐng)域的中高潛力場(chǎng)景,其背后邏輯是不同技術(shù)帶來(lái)的主流內(nèi)容形式的變化。清華CogVideo:首個(gè)開(kāi)源的中文文本生成視頻模型,基于自回歸模型CogVideo是由清華團(tuán)隊(duì)2022年發(fā)布的基于預(yù)訓(xùn)練的CogView2(文本生成圖像模型)9B-參數(shù)轉(zhuǎn)換器。CogVideo是當(dāng)時(shí)最大的、首個(gè)開(kāi)源的文本生成視頻模型,支持中文prompt,參數(shù)高達(dá)94億。CogVideo采用的Transformer結(jié)構(gòu),和CogView的幾乎一致,例如使用夾層范數(shù)(SandwichLayerNorm)和PB-Relax來(lái)穩(wěn)定訓(xùn)練。谷歌Phenaki:首個(gè)可生成長(zhǎng)視頻的自回歸模型Phenaki由GoogleResearch開(kāi)發(fā)制作,該模型是第一個(gè)能夠從開(kāi)放域時(shí)間變量提示中生成視頻的模型,能夠根據(jù)一系列開(kāi)放域文本提示生成可變長(zhǎng)度的視頻。通過(guò)將視頻壓縮為離散的令牌的小型表示形式,詞例化程序使用時(shí)間上的因果注意力,允許處理可變長(zhǎng)度的視頻。轉(zhuǎn)換器以預(yù)先計(jì)算的文本令牌為條件,使用雙向屏蔽轉(zhuǎn)換器使得文本生成視頻令牌,生成的視頻令牌隨后被取消標(biāo)記化以創(chuàng)建實(shí)際視頻。RunwayGen-1&Gen-2:商用文生視頻

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論