互聯(lián)網(wǎng)-傳媒行業(yè)深度研究報(bào)告:多模態(tài)AI的五重奏國(guó)產(chǎn)大模型的探索序章_第1頁(yè)
互聯(lián)網(wǎng)-傳媒行業(yè)深度研究報(bào)告:多模態(tài)AI的五重奏國(guó)產(chǎn)大模型的探索序章_第2頁(yè)
互聯(lián)網(wǎng)-傳媒行業(yè)深度研究報(bào)告:多模態(tài)AI的五重奏國(guó)產(chǎn)大模型的探索序章_第3頁(yè)
互聯(lián)網(wǎng)-傳媒行業(yè)深度研究報(bào)告:多模態(tài)AI的五重奏國(guó)產(chǎn)大模型的探索序章_第4頁(yè)
互聯(lián)網(wǎng)-傳媒行業(yè)深度研究報(bào)告:多模態(tài)AI的五重奏國(guó)產(chǎn)大模型的探索序章_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

證券研究報(bào)告證券研究報(bào)告證監(jiān)會(huì)審核華創(chuàng)證券投資咨詢(xún)業(yè)務(wù)資格批文號(hào):證監(jiān)許可(2009)1210號(hào)多模態(tài)AI的五重奏,國(guó)產(chǎn)大模型的探索序章為什么要探討多模態(tài)?從大模型賦能企業(yè)發(fā)展的三種模式出發(fā)。我們認(rèn)為大模型的多模態(tài)迭代將直接影響下列三種模式的應(yīng)用水平——1)大模型+原有業(yè)務(wù):常見(jiàn)于科技大廠(chǎng),利用大模型提升傳統(tǒng)業(yè)務(wù)的智能化程度,同時(shí)用傳統(tǒng)業(yè)務(wù)的龐大數(shù)據(jù)資源反哺大模型迭代。2)開(kāi)源大模型+AI產(chǎn)品:大量中小開(kāi)發(fā)者申請(qǐng)部署開(kāi)源大模型去開(kāi)發(fā)各自的AI產(chǎn)品,降低研發(fā)成本。3)垂類(lèi)模型+行業(yè)數(shù)據(jù):適合擁有海量高質(zhì)垂類(lèi)數(shù)據(jù)的中大型企業(yè),需要基于一個(gè)通用大模型作為底座。這三種模式包羅各行各業(yè)的大中小企業(yè)、沒(méi)有優(yōu)劣之分,會(huì)隨著多模態(tài)AI的迭代不斷碰撞出新的火花。多模態(tài)方面,建議關(guān)注預(yù)計(jì)確定性較強(qiáng)的【文本】、后續(xù)期待值高的【視頻】、短期爆發(fā)力強(qiáng)的【音頻】三大方向。1)文本:面對(duì)海外大模型的一超多強(qiáng),國(guó)產(chǎn)大模型在追趕中已探索出差異化優(yōu)勢(shì)。Kimi(月之暗面)和冒泡鴨/MoE(階躍星辰)在中文語(yǔ)義、長(zhǎng)文本方面表現(xiàn)亮眼。預(yù)計(jì)下一階段的文本差異化競(jìng)爭(zhēng)可能是用戶(hù)的定制化競(jìng)爭(zhēng)——基于在手用戶(hù)的特征搜集,形成更深卷。愛(ài)詩(shī)科技在發(fā)展早期就探索當(dāng)前大火的DiT架構(gòu),其產(chǎn)品PixVerse在測(cè)評(píng)表現(xiàn)中不輸Runway、Pika等頭部廠(chǎng)商。AI生成視頻已經(jīng)可以希冀商業(yè)化用途,進(jìn)而衍生出對(duì)視頻語(yǔ)料庫(kù)和IP、版權(quán)的強(qiáng)烈需求,擁有高質(zhì)量視頻語(yǔ)料庫(kù)的公司將具有競(jìng)爭(zhēng)優(yōu)勢(shì)。3)音頻:在TTS、語(yǔ)音設(shè)計(jì)、SVC三種產(chǎn)品類(lèi)型里,我們認(rèn)為前兩者的市場(chǎng)潛力更大,TTS發(fā)展更成熟,特別是科技大廠(chǎng)未來(lái)可能會(huì)與傳統(tǒng)業(yè)務(wù)結(jié)合釋放巨大潛力。語(yǔ)音設(shè)計(jì)技術(shù)難度更高,看好Suno的研發(fā)投入空間和后續(xù)迭代,長(zhǎng)期有望改寫(xiě)音樂(lè)創(chuàng)作市場(chǎng)格局。SVC更工具化,OpenAI發(fā)布的產(chǎn)品猜想會(huì)是一個(gè)中間形態(tài),遠(yuǎn)期價(jià)值在于與AI視頻、或其他模態(tài)的結(jié)合?!緢D片】發(fā)展趨于成熟,【3D】則處于萌芽期,兩者都有望反哺AI視頻。雖然圖片和視頻都對(duì)素材訓(xùn)練要求極高,但是AI圖片的產(chǎn)品/社區(qū)成熟度顯著高于視頻,頭部AI圖片產(chǎn)品的用戶(hù)訪(fǎng)問(wèn)量更趨穩(wěn)定(榜單變化?。?。目前風(fēng)格和角色一致性都有不錯(cuò)的進(jìn)展,后續(xù)關(guān)注場(chǎng)景一致性若得以解決,或意味著AI生圖正式進(jìn)入規(guī)?;虡I(yè)進(jìn)程,連帶AI視頻的一致性也可能受益并得以突破。AI生成3D模型目前仍處早期,精度不足限制商業(yè)化,長(zhǎng)期看有望助力AI視頻和游戲、電影行業(yè)的發(fā)展。投資建議:基于全球AI產(chǎn)業(yè)發(fā)展階段判斷,我們認(rèn)為中國(guó)廠(chǎng)商進(jìn)入快速追趕期,可重點(diǎn)關(guān)注文本、視頻、音頻三大方向,并基于此關(guān)注AI產(chǎn)業(yè)鏈投資機(jī)AI+文本語(yǔ)料:中文在線(xiàn)、南方傳媒、掌閱科技、榮信文化、山東出版、中原傳媒、中國(guó)科傳、新華文軒;AI+視頻數(shù)據(jù):相較于文本語(yǔ)料,視頻語(yǔ)料更具稀缺性,商業(yè)化邏輯順暢。建議關(guān)注華數(shù)傳媒、華策影視、中廣天擇、電廣傳媒、捷成股份。2)下游:B端/C端應(yīng)用場(chǎng)景AI+游戲/社交:愷英網(wǎng)絡(luò)、神州泰岳、巨人網(wǎng)絡(luò)、昆侖萬(wàn)維、盛天網(wǎng)絡(luò);AI+影視/IP:全年維度看好,電影大盤(pán)高景氣度,疊加AI+視頻或?yàn)榻衲贻^高確定性進(jìn)展方向。建議關(guān)注:光線(xiàn)傳媒、萬(wàn)達(dá)電影、上海電影、博納影業(yè)、中國(guó)電影等。風(fēng)險(xiǎn)提示:AI技術(shù)發(fā)展水平不及預(yù)期,國(guó)內(nèi)廠(chǎng)商競(jìng)爭(zhēng)格局惡化,法律監(jiān)管趨嚴(yán)風(fēng)險(xiǎn),地緣政治導(dǎo)致的供應(yīng)鏈風(fēng)險(xiǎn),應(yīng)用端消費(fèi)需求不及預(yù)期等。證券分析師:劉欣聯(lián)系人:郭子萱行業(yè)基本數(shù)據(jù)相對(duì)指數(shù)表現(xiàn)相對(duì)表現(xiàn)-0.7%-0.9%2023-04-03~2024-04-0216%-1%-18%23/0423/06-35%傳媒滬深300相關(guān)研究報(bào)告《傳媒行業(yè)周觀(guān)察(2024325-20240329給予《傳媒行業(yè)周觀(guān)察(2024318-20240322階躍星辰大模型發(fā)布,國(guó)產(chǎn)AI文本領(lǐng)域進(jìn)入爆發(fā)《傳媒行業(yè)周觀(guān)察(20240311-20240315GDC23/0823/1124/0124/04傳媒行業(yè)深度研究報(bào)告投資主題報(bào)告亮點(diǎn)本報(bào)告系統(tǒng)復(fù)盤(pán)了AI五大模態(tài)(文本、圖片、視頻、音頻、3D)的當(dāng)前進(jìn)展,并梳理海內(nèi)外發(fā)展趨勢(shì),判斷中國(guó)廠(chǎng)商進(jìn)入快速追趕期,可重點(diǎn)關(guān)注文本、視頻、音頻三大方向,并基于此重視AI產(chǎn)業(yè)鏈投資機(jī)會(huì)。文本方面,我們花了較大篇幅去解釋國(guó)產(chǎn)廠(chǎng)商在長(zhǎng)文本的差異化優(yōu)勢(shì),以及長(zhǎng)文本的競(jìng)爭(zhēng)壁壘,我們認(rèn)為隨著大廠(chǎng)下場(chǎng)深入大模型的長(zhǎng)文本領(lǐng)域,國(guó)產(chǎn)大模型在中文語(yǔ)義方向的優(yōu)勢(shì)將會(huì)持續(xù)放大(相較于海外大模型)。視頻和音頻方面,我們對(duì)比海內(nèi)外產(chǎn)品并對(duì)該模態(tài)的未來(lái)商業(yè)化/競(jìng)爭(zhēng)格局做了一些猜想。投資邏通過(guò)梳理五大模態(tài),我們建議關(guān)注預(yù)計(jì)確定性較強(qiáng)的【文本】、后續(xù)期待AI+文本語(yǔ)料:中文在線(xiàn)、南方傳媒、掌閱科技、榮信文化、山東出版、中原傳媒、中國(guó)科傳、新華文軒;AI+視頻數(shù)據(jù):相較于文本語(yǔ)料,視頻語(yǔ)料更具稀缺性,商業(yè)化邏輯順暢。建議關(guān)注華數(shù)傳媒、華策影視、中廣天擇、電廣傳媒、捷成股份。2)下游:B端/C端應(yīng)用場(chǎng)景AI+音樂(lè)社交/游戲:盛天網(wǎng)絡(luò)、巨人網(wǎng)絡(luò)、愷英網(wǎng)絡(luò)、神州泰岳;AI+廣告/電商:值得買(mǎi)、易點(diǎn)天下、因賽集團(tuán)等;AI+影視/IP:全年維度看好,電影大盤(pán)高景氣度,疊加AI+視頻或?yàn)榻衲贻^高確定性進(jìn)展方向。建議關(guān)注:光線(xiàn)傳媒、萬(wàn)達(dá)電影、上海電影、博納影業(yè)、中國(guó)電影等。 5 6 6 8 10 10 13 13 13 15 17 17 18 19 19 19 20 22 5 6 7 7 8 8 9 10 11 11 11 11 12 12 13 14 15 15 15 15 16 17 17 18 19 20 20 20 21看,技術(shù)層面的突破離不開(kāi)強(qiáng)大的算力基礎(chǔ)設(shè)施+海量高質(zhì)數(shù)據(jù)的支持和訓(xùn)練+在據(jù)中國(guó)電信研究院分析,國(guó)外行業(yè)大模型發(fā)展模式主要有三種,一是“龍頭大模型+原業(yè)大模型”。結(jié)合中國(guó)電信研究院的觀(guān)點(diǎn),我們認(rèn)為海內(nèi)外的大模型賦能企業(yè)發(fā)展主要有三種模式:各自原有的強(qiáng)勢(shì)業(yè)務(wù)線(xiàn),做產(chǎn)業(yè)升級(jí)。比如微軟用GPT-4賦能Azure云服務(wù)、Office365、搜索業(yè)務(wù)等;谷歌和Meta利用大模型生成創(chuàng)意廣告文案/圖片賦能廣告主,抑或是在廣告業(yè)務(wù)的多個(gè)環(huán)節(jié)提升精準(zhǔn)度和效率。該模式常見(jiàn)于大廠(chǎng),+原有業(yè)務(wù)即利用大模型的語(yǔ)言能力提升傳統(tǒng)業(yè)務(wù)的智能化水平,同時(shí)利用傳統(tǒng)業(yè)高性能開(kāi)源大模型的出現(xiàn)削弱了國(guó)產(chǎn)大模型的競(jìng)爭(zhēng)力;但另一方面,大量中小開(kāi)發(fā)者和企業(yè)申請(qǐng)部署開(kāi)源大模型去開(kāi)發(fā)各自的AI產(chǎn)品,大大降低了開(kāi)發(fā)成本。但是Llama的開(kāi)源也存在弊端,例如僅適用于英文環(huán)境,而百川智能的開(kāi)源模型則彌補(bǔ)3)垂類(lèi)模型+行業(yè)數(shù)據(jù):雖然通用大模型適用景需求(營(yíng)銷(xiāo)/金融/電商/新聞/教育等訓(xùn)練數(shù)據(jù)更聚焦,輸出結(jié)果更符合用戶(hù)偏好。此類(lèi)模型需要選擇一個(gè)通用大模型作為底座,并用垂類(lèi)行業(yè)大模型BlueAI、易點(diǎn)天下的KreadoAI、因賽集團(tuán)的InsightGPT等。大模型基座的重要特征是擁有多模態(tài)能力,后文我們也將從文本、圖像、音頻、視頻、(一)文本1、多模態(tài)&邏輯推理:海外大模型一超多強(qiáng)從海外主流大模型看其迭代路徑,基本可以歸納達(dá)能力越強(qiáng),也能夠捕捉更復(fù)雜的數(shù)據(jù)模式,當(dāng)然也意味著更多的訓(xùn)練數(shù)據(jù)和算力。多則能增加模型的可處理信息量,使得模型在長(zhǎng)內(nèi)容方面突破。根據(jù)谷歌官方披露,模型名稱(chēng)訓(xùn)練參數(shù)模態(tài)上下文窗口(tokens)是否開(kāi)源所屬公司否否-否AnthropicLLaMA2-70BNLP(文本)是NLP(文本)是大模型評(píng)測(cè)中很重要的一個(gè)步驟是衡量模型的性能,通過(guò)常識(shí)、邏輯、數(shù)學(xué)、代碼能力按能力由弱到強(qiáng)排列,分別是Haiku、Sonnet和Opus,其中Opus的各項(xiàng)資料來(lái)源:Claude轉(zhuǎn)引自36氪《OpenAI勁敵出手!Cl2、長(zhǎng)文本:國(guó)內(nèi)大模型“卷”出差異化優(yōu)勢(shì)參數(shù)規(guī)模和算力支持要求更高,芯片供給側(cè)的緊缺也一定程度上成為各平臺(tái)算力擴(kuò)張的模型名稱(chēng)模態(tài)否-是是-否-是算力的差距或是國(guó)內(nèi)大模型掣肘的一個(gè)重要因素。英偉達(dá)的GPU被認(rèn)為是科技行業(yè)資料來(lái)源:OmediaResearch轉(zhuǎn)引自財(cái)聯(lián)社《今年英偉達(dá)H100GPU都流向了哪?微軟和Meta是最大為什么“長(zhǎng)文本”能力讓用戶(hù)覺(jué)得大模型很“聰明”?根據(jù)月之暗面相關(guān)負(fù)責(zé)人訪(fǎng)的解釋?zhuān)m然過(guò)往的大模型產(chǎn)品也支持百萬(wàn)、千萬(wàn)字的文檔輸入,但通常采用的是RAG(檢索增強(qiáng)生成)方案,而不是“無(wú)損上下文窗口”方案。前者通過(guò)檢索文檔中的關(guān)鍵信息給到大模型推理,實(shí)際閱讀量仍然是3萬(wàn)字左右,好比讀了幾個(gè)“摘抄片段”就對(duì)內(nèi)容進(jìn)行討論。但是kimi采用的無(wú)損上下文的窗口的模型是逐字讀完全文,對(duì)文檔有更深入和全面的解釋。證券圖表8長(zhǎng)文本的“不可能三角”我們認(rèn)為隨著大廠(chǎng)下場(chǎng)深入大模型的長(zhǎng)文本能力,國(guó)產(chǎn)大模型在中文長(zhǎng)文本方向的差異化優(yōu)勢(shì)將會(huì)持續(xù)放大(相較于海外大模型)。對(duì)于大模型企業(yè)而言,手里最重要的牌還是用戶(hù),下一階段的文本差異化競(jìng)爭(zhēng)很可能是關(guān)于用戶(hù)的定制化競(jìng)爭(zhēng)——基于龐大在手用戶(hù)數(shù)據(jù)的特征搜集,形成更深的產(chǎn)品護(hù)城河。為互聯(lián)網(wǎng)數(shù)字經(jīng)濟(jì)催生出以視覺(jué)中國(guó)、Shut6%6%6%6%6%6%81%StableDiffusion開(kāi)源社區(qū)生態(tài)MidjourneyAdobeFireflyDALL-E2資料來(lái)源:Everypixel轉(zhuǎn)引自中國(guó)AIGC產(chǎn)業(yè)聯(lián)盟&無(wú)界AI《2023數(shù)據(jù)截至2023年8月,下同16000單位:億14000120001000080006000400020000資料來(lái)源:Everypixel轉(zhuǎn)引自中國(guó)AIGC產(chǎn)業(yè)聯(lián)盟&無(wú)界AI《2023AI應(yīng)用日新月異,AI+圖片類(lèi)產(chǎn)品的訪(fǎng)問(wèn)量表現(xiàn)好+掉隊(duì)率最低。海外風(fēng)投機(jī)構(gòu)a16z分類(lèi)中占比最高的。AI圖片類(lèi)產(chǎn)品掉出新榜單的數(shù)量也是所有分類(lèi)中最少的,掉出率部AI圖片產(chǎn)品的用戶(hù)訪(fǎng)問(wèn)量更趨穩(wěn)定(榜單變化小意味著商業(yè)化進(jìn)程或更快;而AI視頻類(lèi)的訪(fǎng)問(wèn)量波動(dòng)較大,或也意味著產(chǎn)品競(jìng)爭(zhēng)更激烈、更易跑出超預(yù)期的黑馬新8%8%12%32%22%26%AI生圖/修圖AI聊天/搜索其他工具類(lèi)AI視頻生成AI音頻數(shù)據(jù)截至2023年1月,下同50單位:個(gè)86%71%67%單位:個(gè)86%71%67%8%8%掉出最新Top50的產(chǎn)品數(shù)(左軸)入圍2023上半年Top50的產(chǎn)品數(shù)(左軸) 掉出率(右軸)100%50%0%測(cè)算的成像效果已經(jīng)十分成熟,但也需要建立在給出明晰提示詞的基礎(chǔ)上。通過(guò)多維度公眾號(hào)“數(shù)字生命卡茲克”的作者為四大平臺(tái)進(jìn)行打分:1)在細(xì)節(jié)質(zhì)量方面,3;3)風(fēng)格多樣化方面,Dalle-3>Adobe=Midjourney>Meta;4)語(yǔ)義理解方面,Dalle-3>Adobe>Meta>Midjourney?;绢I(lǐng)先;Midjourney也較為均衡,但在審美上有明顯優(yōu)勢(shì);Meta表現(xiàn)中規(guī)中矩;Dalle-3偏科嚴(yán)重,語(yǔ)義理解出色,但細(xì)節(jié)質(zhì)華創(chuàng)證券整理注:圖片生成時(shí)間為2023年12月華創(chuàng)證券Midjourney是AI生圖應(yīng)用中最早上線(xiàn)的產(chǎn)品之一,需要集成在discord平臺(tái)使用,但用現(xiàn)主體的“一致性”概念貫穿始終,而這也是AI生圖最重要的部分——圖像的連貫性風(fēng)格/角色/場(chǎng)景一致性的難度逐漸遞增,目前場(chǎng)景一致性還未解決。根據(jù)下表可以看出入風(fēng)格一致性(--sref)與角色一致性(--cref)功能,意味著這兩項(xiàng)指標(biāo)已經(jīng)可以程序化應(yīng)用于作品,并且在非真人領(lǐng)域(游戲、動(dòng)漫、繪本等)的角色一致性精度優(yōu)于真人領(lǐng)域。場(chǎng)景一致性目前暫未看到明顯突破,這也是AI生圖最具挑戰(zhàn)的部分之一。場(chǎng)景包含大量的細(xì)節(jié)、元素以及角色之間的邏輯關(guān)系,大模型把握的不僅是視覺(jué)層面的一致圖正式進(jìn)入規(guī)?;纳虡I(yè)進(jìn)程。相應(yīng)的,AI視頻的場(chǎng)景一致性或也可能受益并得以突覺(jué)風(fēng)格的“風(fēng)格調(diào)整器”數(shù)的全范圍響應(yīng)更快;角色一致性提升增強(qiáng)了風(fēng)格一致性、角色一致性,應(yīng)用于非真人領(lǐng)域(游戲、動(dòng)漫、繪本等)的角色一致性精度優(yōu)于真人領(lǐng)大模型在視頻領(lǐng)域主要有三個(gè)發(fā)展方向,其中視頻生成挑戰(zhàn)最大:1)視頻生成,又包含文生視頻、圖片/視頻生視頻、編輯視頻元素等多種形式,海外以Sora、Runway、視頻生成模型的早期嘗試:1)基于預(yù)設(shè)規(guī)則組合素材,應(yīng)用于天氣預(yù)報(bào)等程序化場(chǎng)景;2)基于GAN的文本生成視頻模型,但控制難度大、時(shí)序建模較弱;3)基于自回歸種方式訓(xùn)練穩(wěn)定性好,長(zhǎng)視頻建模、時(shí)序建模能力強(qiáng),缺點(diǎn)是計(jì)算量大。頻生成模型。三維空間的連貫性、持久性,包括數(shù)字世界的模擬方面都有更好的表現(xiàn)。但由于視頻增出挑戰(zhàn)。Background,Technology,Limitations,a2、國(guó)內(nèi)視頻模型的探索與追趕的模型中,字節(jié)跳動(dòng)的MagicVideo-V2在人工投票中優(yōu)于StableVideoDiffusion模型公司/團(tuán)隊(duì)視頻視頻視覺(jué)質(zhì)量語(yǔ)義運(yùn)動(dòng)質(zhì)量??Pika??Hotshot-XL?8VideoCrafter1騰訊??8?8?8?8ZeroScope?8資料來(lái)源:YaofangLiu,XiaodongCun,XueboLiuetal.《EvalCrafter:BenchmarkingandEvaluatingLargeVideoGenerationModels》,華創(chuàng)證券注:論文數(shù)據(jù)截至2023年10月口形、局部修改、控制鏡頭運(yùn)動(dòng)、控制物體運(yùn)動(dòng)等功能,產(chǎn)品形態(tài)一直保持快速迭代。國(guó)內(nèi)公司愛(ài)詩(shī)科技與MorphAI是較早入局的,其中愛(ài)詩(shī)科技是少數(shù)在公司發(fā)布時(shí)間測(cè)Pika頻;支持通過(guò)筆刷控制特定物體運(yùn)動(dòng);支持改變視頻風(fēng)格與控制鏡頭運(yùn)動(dòng)放公測(cè)布網(wǎng)頁(yè)端,網(wǎng)頁(yè)端將視頻生成、剪輯、后期集于一體;可以控制鏡頭運(yùn)動(dòng);在模型和生態(tài)方面與Stability達(dá)成券整理在一份來(lái)自“歸藏的AI工具箱”的自媒體評(píng)測(cè)中,PixVerse總分甚至超過(guò)Pika和產(chǎn)品中最平衡的,在較強(qiáng)的運(yùn)動(dòng)幅度中依然可以維持較好的一致性。成像質(zhì)量主題一致性運(yùn)動(dòng)Runway運(yùn)動(dòng)程度平滑度PixVerse Pika我們認(rèn)為能引發(fā)市場(chǎng)轟動(dòng)的AI模型/應(yīng)用往往有更清晰、更遠(yuǎn)大的商業(yè)化預(yù)期。特別是上線(xiàn),降本邏輯不僅沒(méi)被證偽,甚至Sora的產(chǎn)品質(zhì)量已經(jīng)可以希冀于商業(yè)化用途,進(jìn)難度更大,高質(zhì)量的視頻語(yǔ)料庫(kù)相對(duì)稀缺,因此使得擁有高質(zhì)量視頻語(yǔ)料庫(kù)的公司具有AI音頻產(chǎn)品可歸為三類(lèi):TTS(TexttoSpeech語(yǔ)音合成)、SVC(Speech-to-Speech熟度更高,海外已落地的產(chǎn)品代表為ElevenLabs,支持29種語(yǔ)言的語(yǔ)音合成;國(guó)內(nèi)代1)TTS是一種文生聲音的技術(shù),核心在于模擬人聲發(fā)音過(guò)程。使用場(chǎng)景包括智能助出現(xiàn)了更多控制語(yǔ)音風(fēng)格的技術(shù),如Styler(改變輸出風(fēng)格)、DiffTTS(聲音自然2)SVC是一種復(fù)制原聲并模擬的聲音克隆技術(shù)。通過(guò)對(duì)聲音的采集、分析、建模后合于配音、社交等場(chǎng)景。樂(lè)本身門(mén)檻較高,因?yàn)槁曇羰沁B續(xù)的波型信號(hào),無(wú)法像文字一樣輕易拆解再拼接。樂(lè)小白也可以創(chuàng)建從歌詞到人聲和配器的所有內(nèi)容,且曲風(fēng)多變、聲音質(zhì)量清晰穩(wěn)2、商業(yè)化及競(jìng)爭(zhēng)格局猜想目前AI音頻產(chǎn)品的主要參與者有三類(lèi):科技巨頭、開(kāi)源項(xiàng)目和創(chuàng)業(yè)公司,競(jìng)爭(zhēng)自身云平臺(tái)深度集成,未來(lái)或?qū)①x能傳統(tǒng)業(yè)務(wù)(分項(xiàng)目也已開(kāi)源代碼和模型??萍即髲S(chǎng)可能短期內(nèi)不會(huì)直接將AI音頻3)創(chuàng)業(yè)公司的競(jìng)爭(zhēng)賽道更廣,也有OpenAI的身影。TTS賽道的硅谷明星項(xiàng)目包括(應(yīng)用場(chǎng)景廣泛、技術(shù)迭代快、競(jìng)爭(zhēng)者多雖然國(guó)內(nèi)產(chǎn)品仍處初期,但存在極大空間迎頭追趕。其中TTS發(fā)展更成熟,特別是科技大廠(chǎng)未來(lái)可能會(huì)與傳研發(fā)投入空間和后續(xù)迭代,長(zhǎng)期有望改寫(xiě)音樂(lè)創(chuàng)作市場(chǎng)格局。SVC相對(duì)更工具化, OpenAI發(fā)布的產(chǎn)品猜想會(huì)是一個(gè)中間形態(tài),遠(yuǎn)期價(jià)值在于與AI視頻、或其他模態(tài)的結(jié)某些方法可以直接存儲(chǔ)模型的空間結(jié)構(gòu),而一些隱式方法采用集合或函數(shù)的形式表現(xiàn)模型公司模型架構(gòu)NeRFXiaoshuiHuangetal.《AComprehensiveSurveyon3DContentGeneration》,HeewooJun,AlexNicholetal.《Shap-E:GeneratingConditional3DImplicitFunctions》,Chen-HsuanLin,JunGaoetal.《Magic3D:High-ResolutionText-to-3DContentCreation》,ZhengyiWang,ChengLuetal.《ProlificDreamer:High-FidelityandDiverseText-to-3DGenerationwithVariationalScoreDistilla3D應(yīng)用前景廣闊,但目前的生成效果精度欠佳。3D生成模型可持材料屬性。證監(jiān)會(huì)審核華創(chuàng)證券投資咨詢(xún)業(yè)務(wù)資格批文號(hào):證監(jiān)許可(2009)1210公司發(fā)布時(shí)間畫(huà)否VoxCraft找映射,但實(shí)質(zhì)上國(guó)內(nèi)大模型本身能力與海外存在不小差距,且并未真正意義上實(shí)現(xiàn)用點(diǎn)爆發(fā)于【國(guó)內(nèi)大模型的實(shí)質(zhì)進(jìn)展和出圈】。從Kimi、階躍星辰等創(chuàng)業(yè)公司,到此基于全球AI產(chǎn)業(yè)發(fā)展階段判斷,我們認(rèn)為中國(guó)廠(chǎng)商進(jìn)入快速追趕期,部分領(lǐng)域體現(xiàn)較強(qiáng)競(jìng)爭(zhēng)力。可重點(diǎn)關(guān)注文本(預(yù)計(jì)確定性較強(qiáng))、視頻(預(yù)計(jì)后續(xù)期待值最高)、音頻 AI+文本語(yǔ)料:中文在線(xiàn)、南方傳媒、掌閱科技、榮信文化、山東出版、中原傳媒、證監(jiān)會(huì)審核華創(chuàng)證券投資咨詢(xún)業(yè)務(wù)資格批文號(hào):證監(jiān)許可(2009)1210AI+視頻數(shù)據(jù):相較于文本語(yǔ)料,視頻語(yǔ)料更具稀缺性,商業(yè)化邏輯順暢。建議關(guān)AI+影視/IP:全年維度看好,電影大盤(pán)高景氣度,疊加AI+視頻或?yàn)榻衲贻^高確定公司大語(yǔ)言模型“天工2.0”+新版“天工AI智能助手”APP+“天工SkyMusic”針對(duì)媒體行業(yè)的傳播大模型“傳播大腦”研發(fā)AIGC一鍵成片系統(tǒng)“ChatPV”與小冰公司達(dá)成戰(zhàn)略合作協(xié)議,共同推進(jìn)“IP+AI”購(gòu)物

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論