人工智能行業(yè)AI文生視頻市場(chǎng)分析_第1頁(yè)
人工智能行業(yè)AI文生視頻市場(chǎng)分析_第2頁(yè)
人工智能行業(yè)AI文生視頻市場(chǎng)分析_第3頁(yè)
人工智能行業(yè)AI文生視頻市場(chǎng)分析_第4頁(yè)
人工智能行業(yè)AI文生視頻市場(chǎng)分析_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能行業(yè)AI文生視頻市場(chǎng)分析1文生視頻,多模態(tài)AIGC圣杯文生視頻當(dāng)前處于起步階段,隨著文生圖、圖片對(duì)話(huà)技術(shù)的成熟,文生視頻成為多模態(tài)大模型下一步發(fā)展的重點(diǎn)。目前國(guó)內(nèi)亦有文生視頻功能,但主要停留在圖片組合階段。我們認(rèn)為,多模態(tài),尤其是文生視頻的發(fā)展將為應(yīng)用的爆發(fā)提供更立體的基礎(chǔ)設(shè)施,同時(shí)對(duì)算力的需求也將指數(shù)級(jí)增長(zhǎng),對(duì)AI下階段的發(fā)展至關(guān)重要。本文所介紹的文生視頻是指內(nèi)容之間有關(guān)聯(lián)性與協(xié)同性,能生成有連續(xù)邏輯的視頻模型。1.1相較于文字和圖片,視頻能承載的信息量更大相較于文字和圖片,視頻在多維信息表達(dá)、畫(huà)面豐富性及動(dòng)態(tài)性方面有更大優(yōu)勢(shì)。視頻可以結(jié)合文本、圖像、聲音及視覺(jué)效果,在單一媒體中融合多種信息形式。從視頻生視頻到文生視頻、圖生視頻,多模態(tài)的發(fā)展重視用更少的用戶(hù)輸入信息量實(shí)現(xiàn)更豐富的AI生成結(jié)果。自Runway推出Gen-1視頻生視頻工具后,AI處理視頻、圖片功能在社交平臺(tái)爆火,其背后即是多模態(tài)大模型發(fā)展的表現(xiàn)之一。在多模態(tài)應(yīng)用方面,當(dāng)前可應(yīng)用的模態(tài)轉(zhuǎn)化主要集中在文字、圖片、視頻的轉(zhuǎn)化。1.2當(dāng)前公測(cè)的文生視頻應(yīng)用數(shù)量較少文生圖領(lǐng)域,2021年1月5日,OpenAI發(fā)布其首個(gè)基于Clip模型的文生圖模型DALL·E,但并未開(kāi)源,自此眾多公司爭(zhēng)先研發(fā)文生圖模型;2022年3月13日,Midjourney發(fā)布可公測(cè)的文生圖模型,其效果優(yōu)越,引發(fā)了公眾關(guān)于A(yíng)I藝術(shù)的討論。目前已積累較多用戶(hù)、可穩(wěn)定使用的文生圖模型主要有Midjourney、StableDiffusion、DALL·E等。文生視頻領(lǐng)域,目前公眾可使用的主要有RunwayGen-1、RunwayGen-2、ZeroScope、PikaLabs。其中,除Runway收費(fèi)外,ZeroScope、PikaLabs均可免費(fèi)使用。文生視頻發(fā)展速度慢于文生視頻,在視頻質(zhì)量、視頻時(shí)長(zhǎng)等方面突破較為困難,相比于文生圖的快速優(yōu)化迭代,文生視頻的進(jìn)展較慢。即便是Meta和Google這樣的硅谷人工智能巨頭,在文生視頻方面也進(jìn)展緩慢。她們分別推出的Make-A-Video和Phenaki均尚未公測(cè),從官方公布的Demo看,Phenaki雖然可生成任意長(zhǎng)度視頻,但其質(zhì)量較差且欠缺真實(shí)性;Make-A-Video無(wú)需“文本-視頻”配對(duì)數(shù)據(jù)集,視頻質(zhì)量相對(duì)較好,但時(shí)長(zhǎng)短。1.3文生視頻,難在哪里?文生視頻更困難。技術(shù)實(shí)現(xiàn)本身更困難。從本質(zhì)看,視頻是連續(xù)的多幀圖像,然而文生圖到文生視頻并非簡(jiǎn)單的圖片組合,而文生視頻在文生圖的基礎(chǔ)上增加了時(shí)間維度。文生視頻需突破瓶頸多??捎玫奈纳曨l需具備一定的時(shí)長(zhǎng),優(yōu)良的畫(huà)面質(zhì)量,一定的創(chuàng)意邏輯性及還原指令要求能力。計(jì)算難度大計(jì)算成本高。通過(guò)文本生成高質(zhì)量圖片對(duì)算力的要求已經(jīng)達(dá)到了一定程度,由于生成視頻模型復(fù)雜度提升及其時(shí)長(zhǎng)、分辨率提高等因素,文生視頻對(duì)算力的需求進(jìn)一步加大。計(jì)算復(fù)雜性提升。文生視頻需要進(jìn)行高維特征融合,模型復(fù)雜度顯著提升。數(shù)據(jù)要求高缺乏高質(zhì)量配對(duì)數(shù)據(jù)集。視頻的合理性及連貫性體現(xiàn)模型的架構(gòu)能力、創(chuàng)造力、理解能力。例如,當(dāng)用戶(hù)輸入“一只大象在廚房做飯”這類(lèi)文字指令時(shí),模型需理解文字指令內(nèi)容,并根據(jù)訓(xùn)練數(shù)據(jù)庫(kù)選取畫(huà)面及對(duì)象組合,過(guò)程中可能出現(xiàn)缺乏相應(yīng)素材、難以合理組合人物、難以合理架構(gòu)場(chǎng)景等問(wèn)題。文生視頻需要大量的文本-視頻配對(duì)數(shù)據(jù),但當(dāng)前缺乏相應(yīng)數(shù)據(jù)集,數(shù)據(jù)標(biāo)注工作量極高。缺乏具備多樣性的數(shù)據(jù)集。由于用戶(hù)的文本指令要求各異,缺乏多樣數(shù)據(jù)集使得模型無(wú)法生成預(yù)期效果。技術(shù)融合難度大多領(lǐng)域融合技術(shù)復(fù)雜性提升。文生視頻涉及自然語(yǔ)言處理、視覺(jué)處理、畫(huà)面合成等領(lǐng)域,跨學(xué)科多領(lǐng)域使其需攻克的技術(shù)難點(diǎn)增加。2技術(shù)路線(xiàn)沿革:文生視頻,哪種技術(shù)更強(qiáng)?同文生圖及大語(yǔ)言模型的發(fā)展類(lèi)似,文生視頻也在不斷探索中尋找更為高效且效果更佳的基礎(chǔ)模型。目前主流的文生視頻模型主要依托Transformer模型和擴(kuò)散模型。目前阿里ModelScope社區(qū)中提供了可用的、基于擴(kuò)散模型的開(kāi)源文生視頻模型,促進(jìn)了如ZeroScope高質(zhì)量文生視頻模型的發(fā)展,有利于后續(xù)文生視頻的技術(shù)迭代優(yōu)化。2.1階段一:基于GAN和VAE,以Text2Filter為代表原理:文生視頻發(fā)展早期主要基于GAN(GenerativeAdversarialNets,生成式對(duì)抗網(wǎng)絡(luò))和VAE(Variationalautoencoder,變分自編碼器)進(jìn)行視頻生成。GAN由生成器和判別器構(gòu)成,生成器類(lèi)似于小偷,生成器生成圖片;判別器類(lèi)似于警察,負(fù)責(zé)判斷是生成器生成圖片還是真實(shí)圖片。VAE由編碼器及解碼器構(gòu)成,其使得圖片能夠編碼成易于表示的形態(tài),并且這一形態(tài)能夠盡可能無(wú)損地解碼回原真實(shí)圖像。生成過(guò)程分為兩步:首先,利用條件VAE模型從文本中提取出要點(diǎn),即靜態(tài)和通用的特征,生成視頻的基本背景;再借助GAN框架中的神經(jīng)網(wǎng)絡(luò)生成視頻細(xì)節(jié)。問(wèn)題:應(yīng)用范圍窄;僅適用靜態(tài)、單一畫(huà)面;分辨率低。代表:Text2Filter。2.2階段二:基于Transformer,以Phenaki為代表原理:Transformer模型在文本及圖像生成中均得到了廣泛應(yīng)用,因此也成為文生視頻使用較多的框架之一,但各模型在具體應(yīng)用上仍有差別。主要思路即輸入文本后利用Transformer模型編碼,將文本轉(zhuǎn)化為視頻令牌,進(jìn)行特征融合后輸出視頻。問(wèn)題:訓(xùn)練成本高;對(duì)配對(duì)數(shù)據(jù)集需求大。代表:Phenaki、CogVideo、VideoGPT。Phenaki是基于Transformer框架進(jìn)行文生視頻的代表之一,其突破了文生視頻的時(shí)長(zhǎng)限制進(jìn)行任意時(shí)長(zhǎng)視頻生成。Phenaki模型基于1.4s左右的短視頻進(jìn)行訓(xùn)練,通過(guò)連續(xù)的文字指令生成連續(xù)的較短時(shí)長(zhǎng)的視頻并串聯(lián)成1分鐘左右的長(zhǎng)視頻。例如,通過(guò)輸入一段類(lèi)似故事的文字指令,從而實(shí)現(xiàn)逐個(gè)短視頻的銜接成為長(zhǎng)視頻。2.3階段三:基于擴(kuò)散模型,以Make-A-Video和阿里通義為代表原理:當(dāng)前擴(kuò)散模型是文生視頻領(lǐng)域使用更廣的架構(gòu)之一。通過(guò)預(yù)訓(xùn)練模型進(jìn)行文本特征提取后,再進(jìn)行文本到圖片,圖片到視頻的生成,過(guò)程中需基于擴(kuò)散模型進(jìn)行。簡(jiǎn)單來(lái)說(shuō),擴(kuò)散模型即在圖片上逐漸添加高斯噪聲再進(jìn)行反向操作。以擴(kuò)散模型為基礎(chǔ)的文生視頻模型,一般是在文生圖基礎(chǔ)上增加時(shí)間維度實(shí)現(xiàn)視頻生成。擴(kuò)散模型在語(yǔ)義理解、內(nèi)容豐富性上更有優(yōu)勢(shì)。問(wèn)題:耗時(shí)長(zhǎng)。代表:Make-A-Video、VideoLDM、Text2Video-Zero、Runway-Gen1、RunwayGen2以及NUWA-XL。2.3.1Meta:Make-A-VideoMake-A-Video是基于擴(kuò)散模型的代表之一,其重點(diǎn)在于提升視頻品質(zhì)。其模型訓(xùn)練時(shí)間較短,無(wú)需“文本-視頻”配對(duì)數(shù)據(jù)即可生成視頻。Make-A-Video生成視頻主要思路為首先接受文字指令,后利用CLIP文字解碼將其轉(zhuǎn)化為向量;接著先驗(yàn)網(wǎng)絡(luò)將CLIP文本向量“翻譯”到對(duì)應(yīng)的CLIP圖像向量;后利用BaseDiffusionModel(一種文生圖的模型)生成視頻的基本框架;此處得到額外的卷積層和注意力層到時(shí)間維度;后利用TemporalSuper-Resolution(TSR)進(jìn)行幀插值以補(bǔ)充關(guān)鍵細(xì)節(jié),最后利用兩個(gè)空間超分辨率模型升級(jí)各個(gè)幀的分辨率。2.3.2阿里達(dá)摩院:通義文生視頻大模型通義-文本生成視頻大模型-英文-通用領(lǐng)域-v1.0是由阿里達(dá)摩院提供的、發(fā)布在阿里ModelScope平臺(tái)上的開(kāi)源文生視頻大模型,目前仍在集成中,暫未開(kāi)放公測(cè)。通義文本生成視頻大模型僅支持英文輸入,基于多階段文本到視頻生成擴(kuò)散模型。根據(jù)ModelScope官網(wǎng),該模型整體參數(shù)約60億,由五個(gè)子網(wǎng)格構(gòu)成:文本特征提?。豪脠D文預(yù)訓(xùn)練模型CLIPViT-L/14@336px的textencoder來(lái)提取文本特征。文本到圖像特征擴(kuò)散模型:Diffusionprior部分,以CLIPtextembedding為條件,輸出CLIPimageembedding。圖像特征到64x64視頻生成模型:同樣采用diffusionmodel,以GLIDE模型中UNet結(jié)構(gòu)為基礎(chǔ)改造UNet3D結(jié)構(gòu),采用crossattention實(shí)現(xiàn)imageembedding嵌入,輸出16x64x64視頻。視頻插幀擴(kuò)散模型(16X64x64到64X64x64):diffusion視頻插幀模型,輸入包括16x64x64視頻、imageembedding,輸出64X64x64視頻,其中16x64x64視頻復(fù)制4次到64X64x64以concat形式輸入、imageembedding同樣以crossattention形式嵌入。視頻超分?jǐn)U散模型(64X64x64到64X256x256):diffusion視頻超分模型,同樣為UNet3D結(jié)構(gòu),推理過(guò)程輸入64X64x64視頻,輸出64X256x256視頻。2.3.3Zeroscope:由阿里達(dá)摩院Modelscope文生視頻模型優(yōu)化得出在我們找到的三個(gè)文生視頻模型(RunwayGen-2、PikaLabs和Zeroscope)中,Zeroscope明確提出其由開(kāi)源模型優(yōu)化而來(lái)。我們認(rèn)為,這在一定程度上代表了一種新的技術(shù)路線(xiàn)——基于開(kāi)源,開(kāi)枝散葉。ZeroScope所依托的文本生成視頻大模型是阿里達(dá)摩院vilab“modelscope-damo-textto-video-synthesis”,后者由文本特征提取、文本特征到視頻隱空間擴(kuò)散模型、視頻隱空間到視頻視覺(jué)空間這3個(gè)子網(wǎng)絡(luò)組成,整體模型參數(shù)約17億。ZeroScope由兩個(gè)組件構(gòu)成:Zerscope_v2567w(用于以較低分辨率快速創(chuàng)建內(nèi)容)和Zeroscope_v2XL(用于將內(nèi)容升級(jí)到高清分辨率)。ZeroScopeV3目前在Discord服務(wù)器內(nèi)測(cè)試,即將推出。3實(shí)測(cè):文生視頻模型當(dāng)前風(fēng)格各異,總體質(zhì)量較低對(duì)于文生視頻應(yīng)用,用戶(hù)主要關(guān)注視頻生成質(zhì)量、是否可定制化生成特定內(nèi)容(如風(fēng)格、可對(duì)生成內(nèi)容調(diào)整細(xì)節(jié)等)、使用簡(jiǎn)易程度等。盡管當(dāng)前已有可公測(cè)的應(yīng)用,但由于生成結(jié)果粗糙等問(wèn)題,文生視頻并未在實(shí)際的媒體內(nèi)容生成、創(chuàng)意制作領(lǐng)域得到廣泛應(yīng)用。具體來(lái)看,當(dāng)前可測(cè)試的產(chǎn)品風(fēng)格各異、總體質(zhì)量較低:RunwayGen-1、Gen-2:是當(dāng)前文生視頻領(lǐng)域?qū)嶋H應(yīng)用最“出圈”的模型,具有較好的畫(huà)面質(zhì)感,其功能眾多,可在文字、圖片、視頻中自由轉(zhuǎn)化。ZeroScope:是目前文生視頻領(lǐng)域高質(zhì)量的開(kāi)源大模型之一。ZeroScope在ModelScope的模型基礎(chǔ)上優(yōu)化而來(lái),能提供更高的分辨率。ZeroScope可供用戶(hù)免費(fèi)使用,盡管視頻分辨率、生成質(zhì)量與RunwayGen-2有一定差距,但其后續(xù)潛力大。PikaLabs:為近期發(fā)布的文生視頻平臺(tái),該模型一經(jīng)發(fā)布便因其真實(shí)感、動(dòng)作連續(xù)性效果好引發(fā)關(guān)注。從生成時(shí)間看,當(dāng)前的文生視頻結(jié)果時(shí)間短,目前RunwayGen-2最長(zhǎng)可生成18秒視頻內(nèi)容,一般其他可公測(cè)使用文生視頻模型生成結(jié)果均在4s左右,且無(wú)法融合音頻。從生成平臺(tái)看,與Runway、ZeroScope不同,PikaLabs采取了與Midjourney相同的應(yīng)用平臺(tái),當(dāng)前可通過(guò)申請(qǐng)?jiān)贒iscord端試用(Discord是一款可進(jìn)行社群交流的數(shù)字發(fā)行平臺(tái),用戶(hù)可發(fā)布文字、圖片、視頻、音頻等內(nèi)容)。3.1復(fù)雜人物動(dòng)作生成幀連續(xù)效果較差復(fù)雜人物動(dòng)作的視頻生成考驗(yàn)文生視頻模型的幀連續(xù)效果及動(dòng)作理解能力。從測(cè)試效果看:RunwayGen2:基本完成文字指令要求,突出“一個(gè)女孩”人物主題,跳舞動(dòng)作有一定流暢性,但后續(xù)出現(xiàn)身體器官重疊問(wèn)題;PikaLabs:未理解文字指令主題“一個(gè)女孩”,出現(xiàn)多個(gè)人物,但其舞蹈動(dòng)作連續(xù)流暢性相對(duì)較好;ZeroScope:人物模糊,但身體部位變化自然,且未出現(xiàn)變型、消失等問(wèn)題。3.2非日常場(chǎng)景的視頻架構(gòu)能力連續(xù)能力一般非日常場(chǎng)景的視頻生成考驗(yàn)文生視頻模型的指令理解及架構(gòu)能力。從“貓拿遙控器看電視”這一虛構(gòu)場(chǎng)景文字指令的要求生成效果看:RunwayGen-2:整體仍然最為出色,但后續(xù)動(dòng)作變化不自然且幅度小,出現(xiàn)臉部變形等情況;PikaLabs:對(duì)文字指令的理解有一定問(wèn)題,并未體現(xiàn)“拿遙控器”的動(dòng)作,但其視頻畫(huà)面細(xì)節(jié)如毛發(fā)、飄動(dòng)動(dòng)作更為連貫順暢;ZeroScope:真實(shí)性較強(qiáng),但動(dòng)作僵硬且幅度較小。3.3多主體視頻生成缺乏邏輯連續(xù)性多主體的視頻生成考驗(yàn)文生視頻模型的復(fù)雜場(chǎng)景處理能力及細(xì)微語(yǔ)言理解能力。當(dāng)前文生視頻模型出現(xiàn)直接忽略文字指令中的如“手牽手”,“一個(gè)男孩和一個(gè)女孩”等細(xì)微要求問(wèn)題。RunwayGen-2:對(duì)畫(huà)面及人物動(dòng)作細(xì)節(jié)及雙人互動(dòng)如“牽手”指令的處理較好,生成人物符合邏輯但人物動(dòng)作幅度不明顯;PikaLabs:未體現(xiàn)雙人“牽手“細(xì)節(jié),但跑步動(dòng)作自然連貫;ZeroScope:在多人物互動(dòng)及跑步動(dòng)作上處理較好,但畫(huà)面粗糙。總體來(lái)看,三個(gè)文生視頻模型的不同生成效果體現(xiàn)其背后模型及訓(xùn)練數(shù)據(jù)特點(diǎn)。RunwayGen-2:畫(huà)面精細(xì)度、清晰度及藝術(shù)美感均較強(qiáng),視頻動(dòng)作幅度均較小,視頻動(dòng)感主要體現(xiàn)在如頭發(fā)的飄動(dòng)上;PikaLabs:擅于生成連貫動(dòng)作;ZeroScope:表現(xiàn)較為平均。4從圖片生成看文生視頻的商業(yè)前景4.1為什么選擇圖片生成作為對(duì)標(biāo)對(duì)象?4.1.1圖片生成相對(duì)成熟圖片生成類(lèi)在多模態(tài)大模型中的商業(yè)程度較高,可為視頻生成的商業(yè)化前景可提供一定參考。以相對(duì)成熟的美國(guó)市場(chǎng)為例,據(jù)七麥數(shù)據(jù)8月13日IOS應(yīng)用榜單,以“AI”作為搜索關(guān)鍵詞,榜內(nèi)共計(jì)247個(gè)應(yīng)用,其中“攝影與錄像”、“圖形與設(shè)計(jì)”類(lèi)的圖像生成類(lèi)應(yīng)用占比31.6%;而“音樂(lè)”類(lèi)應(yīng)用僅占比2.8%;“效率”類(lèi)語(yǔ)言生成或?qū)υ?huà)式應(yīng)用占比20.2%。可見(jiàn)圖片生成類(lèi)的商業(yè)化程度最高,且從實(shí)際案例來(lái)看,目前已有圖片生成類(lèi)應(yīng)用表現(xiàn)出較強(qiáng)的收費(fèi)能力。4.1.2已經(jīng)收費(fèi)的視頻生成應(yīng)用,商業(yè)模式與圖片生成趨同目前,從類(lèi)別上看,圖片生成類(lèi)為現(xiàn)階段多模態(tài)大模型相對(duì)成熟的商業(yè)化場(chǎng)景,視頻生成類(lèi)的商業(yè)前景可參考圖片生成類(lèi)的商業(yè)化發(fā)展歷程。整體來(lái)看,圖片生成類(lèi)的商業(yè)模式較為單一,收費(fèi)模式和收費(fèi)依據(jù)較為趨同,即按照人工智能生成產(chǎn)品的生成量、生成速度計(jì)算收費(fèi),現(xiàn)已出現(xiàn)的視頻生成模型的收費(fèi)依據(jù)也與其類(lèi)似。另外,市場(chǎng)上已出現(xiàn)個(gè)別破圈現(xiàn)象級(jí)圖片生成類(lèi)應(yīng)用,以及與其原有業(yè)務(wù)協(xié)同的AI增強(qiáng)功能產(chǎn)品,也可為未來(lái)視頻生成類(lèi)應(yīng)用的發(fā)展提供一定參考。RunwayGen-2是文生視頻領(lǐng)域最先形成商業(yè)模式的多模態(tài)大模型案例,其收費(fèi)標(biāo)準(zhǔn)為文生視頻領(lǐng)域大模型及應(yīng)用端樹(shù)立了標(biāo)桿,與廣泛的圖片生成類(lèi)模型及應(yīng)用的商業(yè)模式類(lèi)似,RunwayGen-2也按照生成量、附加權(quán)益等區(qū)分不同套餐定價(jià)。自發(fā)布以來(lái),RunwayGen-2引起關(guān)注度很高,由于是為數(shù)不多的開(kāi)放公測(cè)的文生視頻大模型,很多玩家前往其官網(wǎng)進(jìn)行文生視頻的嘗試,2023年9月其網(wǎng)站總訪(fǎng)問(wèn)人次為760萬(wàn),平均停留時(shí)長(zhǎng)為3分37秒。4.2細(xì)分領(lǐng)域:看好人像生成,短期內(nèi)變現(xiàn)較快4.2.1LensaAI:人像生成功能推出后用戶(hù)付費(fèi)意愿高LensaAI切入人像生成領(lǐng)域,新功能推出后收入可觀(guān),但是否可若想形成持續(xù)性付費(fèi)收入仍需探索。LensaAIApp于2018年上線(xiàn),原本的主要用途是圖片編輯和美化。2022年11月21日,LensaAI上線(xiàn)的新功能“魔法頭像”(MagicAvatars)讓其在全球人氣迅速飆升。用戶(hù)上傳人像圖,可通過(guò)“魔法頭像”自動(dòng)生成各種不同風(fēng)格的人臉照,包括搖滾風(fēng)格、時(shí)尚風(fēng)、科幻風(fēng)、動(dòng)漫風(fēng)等。11月30日至12月14日,連續(xù)兩周位列美國(guó)AppStore免費(fèi)榜榜首,還拿下十多個(gè)國(guó)家的免費(fèi)榜Top1。從商業(yè)模式上看,該應(yīng)用提供三種不同的購(gòu)買(mǎi)方案,主要的區(qū)別是生成的照片的數(shù)量差異。用戶(hù)可以選50、100、200張照片,分別對(duì)應(yīng)3.99、5.99、7.99美元。根據(jù)分析公司SensorTower的數(shù)據(jù),該應(yīng)用程序在12月的前12天在全球范圍內(nèi)安裝了約1350萬(wàn)次,是11月200萬(wàn)次的六倍多。這12天消費(fèi)者在A(yíng)pp上花費(fèi)了大約2930萬(wàn)美元(日流水超百萬(wàn)美元)。根據(jù)SensorTower的最新數(shù)據(jù),LensaAI在今年7月的全球下載量?jī)H為40萬(wàn)人次,同月全球收入僅為100萬(wàn)美元??梢?jiàn)人像生成類(lèi)應(yīng)用若想維持熱度、形成長(zhǎng)期穩(wěn)定的收費(fèi)能力,市場(chǎng)玩家仍需繼續(xù)探索。4.2.2妙鴨相機(jī):國(guó)內(nèi)首個(gè)“破圈”應(yīng)用,寫(xiě)真生成引起社交裂變?nèi)讼裆蓪?xiě)真應(yīng)用妙鴨相機(jī)上架即火爆,迅速爬升社交類(lèi)應(yīng)用第一名。妙鴨相機(jī)是國(guó)內(nèi)第一個(gè)出圈的圖片生成類(lèi)應(yīng)用。用戶(hù)通過(guò)上傳一張正面照以及不少于20張的補(bǔ)充照片,就能利用妙鴨相機(jī)生成各式寫(xiě)真。妙鴨相機(jī)收費(fèi)9.9元,可以解鎖現(xiàn)有模板,包括證件照、古裝寫(xiě)真、晚禮服寫(xiě)真等。妙鴨相機(jī)上線(xiàn)后非?;鸨蓤D片的等待時(shí)長(zhǎng)一路走高,7月20日晚間高峰期有4000-5000人排隊(duì),需等待十幾個(gè)小時(shí)才能生成圖片。據(jù)七麥數(shù)據(jù),妙鴨相機(jī)近自發(fā)布以來(lái),熱度高漲,截至8月13日,妙鴨相機(jī)在iPhone社交類(lèi)應(yīng)用中排名第一。妙鴨相機(jī)現(xiàn)階段收入規(guī)??捎^(guān),但市場(chǎng)對(duì)其復(fù)購(gòu)及持續(xù)收費(fèi)能力存疑,后續(xù)須不停上線(xiàn)新模板、開(kāi)創(chuàng)新玩法。據(jù)七麥數(shù)據(jù),妙鴨相機(jī)近自上線(xiàn)以來(lái),半個(gè)月時(shí)間收入預(yù)估總計(jì)超過(guò)29萬(wàn)美元,近七日日均收入超過(guò)3萬(wàn)美元,在國(guó)內(nèi)圖像生成領(lǐng)域的應(yīng)用中遙遙領(lǐng)先,可以算作破圈的現(xiàn)象級(jí)產(chǎn)品。但目前還處于拉新階段,后期用戶(hù)的復(fù)購(gòu)收入持續(xù)增長(zhǎng)的能力亟待驗(yàn)證。4.3競(jìng)爭(zhēng)優(yōu)勢(shì):看好有算力儲(chǔ)備的公司目前,國(guó)內(nèi)外圖像生成類(lèi)模型及模應(yīng)用大多按照生成量、生成速度等來(lái)區(qū)分定價(jià),但不同點(diǎn)是國(guó)外產(chǎn)品的付費(fèi)套餐中多有“無(wú)限量”套餐,而國(guó)內(nèi)產(chǎn)品未出現(xiàn)“無(wú)限量”套餐,可看出國(guó)內(nèi)算力仍為瓶頸,因此,具有算力儲(chǔ)備的云服務(wù)廠(chǎng)商在發(fā)展視頻生成類(lèi)應(yīng)用時(shí)具有天然優(yōu)勢(shì)。4.3.1Midjourney:“無(wú)限量”套餐攏獲用戶(hù),映射市場(chǎng)對(duì)算力的高需求Midjourney作為文生圖領(lǐng)域的代表性多模態(tài)大模型,相比于大多數(shù)有限生成量的圖片生成類(lèi)模型及應(yīng)用,Midjourney的“無(wú)限量”套餐具有天然優(yōu)勢(shì),其用戶(hù)規(guī)模和營(yíng)收已建立起一定壁壘。據(jù)SimilarWeb數(shù)據(jù),Midjourney官網(wǎng)在2023年8月網(wǎng)站訪(fǎng)問(wèn)量為2850萬(wàn)人次,平均停留時(shí)長(zhǎng)達(dá)到6分30秒。且從市場(chǎng)公開(kāi)信息得知,Midjourney的日活用戶(hù)已達(dá)到1500萬(wàn),超過(guò)開(kāi)源模型StableDiffusion的1000萬(wàn)日活,其年?duì)I收也超過(guò)1億美元。4.3.2騰訊云:云服務(wù)廠(chǎng)商加緊多模態(tài)生成布局反過(guò)來(lái)看,由于本身具有算力能力優(yōu)勢(shì),云服務(wù)大廠(chǎng)也開(kāi)始注重多模態(tài)生成的能力建設(shè),上線(xiàn)圖像生成類(lèi)產(chǎn)品。以騰訊為例,騰訊的AI繪畫(huà)產(chǎn)品作為功能模塊,集成在騰訊云解決方案平臺(tái)上,客戶(hù)可選擇開(kāi)通AI繪畫(huà)服務(wù),便可使用此項(xiàng)功能。目前,用戶(hù)可在騰訊云上體驗(yàn)“智能文生圖”及“智能圖生圖”功能,兩種功能每月共提供20次體驗(yàn)額度,正式服務(wù)需接入API使用。騰訊云AI繪畫(huà)功能分為PaaS和SaaS兩種產(chǎn)品形態(tài),PaaS需要二次開(kāi)發(fā),SaaS版開(kāi)箱即用。4.3.3無(wú)界AI:“按時(shí)長(zhǎng)付費(fèi)”和“潮汐生成模式”彰顯算力底座特性無(wú)界AI于2022年5月入局AI繪畫(huà),為國(guó)內(nèi)較早起步的AI作畫(huà)工具平臺(tái)之一。用戶(hù)可通過(guò)直接開(kāi)通會(huì)員享受基本權(quán)益,價(jià)格為100元/月、1000元/年,能實(shí)現(xiàn)文生圖,選擇畫(huà)面大小、主題、風(fēng)格等元素,還享有潮汐模式免費(fèi)無(wú)限創(chuàng)作、解鎖全部專(zhuān)用模型、存儲(chǔ)無(wú)限擴(kuò)容、精繪折扣、選擇更多參數(shù)等會(huì)員權(quán)益。其中,潮汐模式下會(huì)員可以免費(fèi)無(wú)限創(chuàng)作?!俺毕J健庇梢归g生成更便宜的“夜間生成模式”發(fā)展而來(lái),旨在利用算力資源空閑時(shí)段作畫(huà),實(shí)現(xiàn)“以時(shí)間換價(jià)格”。用戶(hù)還可開(kāi)通權(quán)益卡或購(gòu)買(mǎi)時(shí)長(zhǎng)。其中,1)開(kāi)通權(quán)益卡能獲得更多積分,適用于對(duì)普通文生圖有更多需求(如更多超分辨次數(shù)、更多單張加速次數(shù))的用戶(hù)。2)購(gòu)買(mǎi)時(shí)長(zhǎng)適用于需要更多生成類(lèi)型(如圖生圖、條件生圖)和功能(如局部重繪、多區(qū)域控制繪圖等)的用戶(hù),即專(zhuān)業(yè)版用戶(hù)。按時(shí)長(zhǎng)付費(fèi)也是阿里云、騰訊云等AI云算力服務(wù)商常用的收費(fèi)方式,我們認(rèn)為,這在一定程度上,反映出AI圖片生成應(yīng)用與底層算力服務(wù)的高度相關(guān)性。4.4業(yè)務(wù)協(xié)同:看好多模態(tài)生成與原有業(yè)務(wù)有協(xié)同的公司4.4.1Adobe:AI生成工具有望帶來(lái)增量付費(fèi)用戶(hù)Adobe上線(xiàn)AI創(chuàng)意生成工具Firefly(螢火蟲(chóng)),或?yàn)锳dobe帶來(lái)增量付費(fèi)用戶(hù)。Photoshop于2023年3月發(fā)布AI創(chuàng)意生成

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論