互聯(lián)網(wǎng)-傳媒行業(yè)深度研究報(bào)告：多模態(tài)AI的五重奏國(guó)產(chǎn)大模型的探索序章

上傳人：策*** IP屬地：山西上傳時(shí)間：2024-04-08 格式：DOCX 頁(yè)數(shù)：42 大?。?.24MB 積分：19.9 舉報(bào) 版權(quán)申訴

互聯(lián)網(wǎng)-傳媒行業(yè)深度研究報(bào)告：多模態(tài)AI的五重奏國(guó)產(chǎn)大模型的探索序章_第2頁(yè)

互聯(lián)網(wǎng)-傳媒行業(yè)深度研究報(bào)告：多模態(tài)AI的五重奏國(guó)產(chǎn)大模型的探索序章_第3頁(yè)

互聯(lián)網(wǎng)-傳媒行業(yè)深度研究報(bào)告：多模態(tài)AI的五重奏國(guó)產(chǎn)大模型的探索序章_第4頁(yè)

互聯(lián)網(wǎng)-傳媒行業(yè)深度研究報(bào)告：多模態(tài)AI的五重奏國(guó)產(chǎn)大模型的探索序章_第5頁(yè)

已閱讀5頁(yè)，還剩37頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

證券研究報(bào)告證券研究報(bào)告證監(jiān)會(huì)審核華創(chuàng)證券投資咨詢(xún)業(yè)務(wù)資格批文號(hào)：證監(jiān)許可（2009）1210號(hào)多模態(tài)AI的五重奏，國(guó)產(chǎn)大模型的探索序章為什么要探討多模態(tài)？從大模型賦能企業(yè)發(fā)展的三種模式出發(fā)。我們認(rèn)為大模型的多模態(tài)迭代將直接影響下列三種模式的應(yīng)用水平——1）大模型+原有業(yè)務(wù)：常見(jiàn)于科技大廠(chǎng)，利用大模型提升傳統(tǒng)業(yè)務(wù)的智能化程度，同時(shí)用傳統(tǒng)業(yè)務(wù)的龐大數(shù)據(jù)資源反哺大模型迭代。2）開(kāi)源大模型+AI產(chǎn)品：大量中小開(kāi)發(fā)者申請(qǐng)部署開(kāi)源大模型去開(kāi)發(fā)各自的AI產(chǎn)品，降低研發(fā)成本。3）垂類(lèi)模型+行業(yè)數(shù)據(jù)：適合擁有海量高質(zhì)垂類(lèi)數(shù)據(jù)的中大型企業(yè)，需要基于一個(gè)通用大模型作為底座。這三種模式包羅各行各業(yè)的大中小企業(yè)、沒(méi)有優(yōu)劣之分，會(huì)隨著多模態(tài)AI的迭代不斷碰撞出新的火花。多模態(tài)方面，建議關(guān)注預(yù)計(jì)確定性較強(qiáng)的【文本】、后續(xù)期待值高的【視頻】、短期爆發(fā)力強(qiáng)的【音頻】三大方向。1）文本：面對(duì)海外大模型的一超多強(qiáng)，國(guó)產(chǎn)大模型在追趕中已探索出差異化優(yōu)勢(shì)。Kimi(月之暗面)和冒泡鴨/MoE(階躍星辰)在中文語(yǔ)義、長(zhǎng)文本方面表現(xiàn)亮眼。預(yù)計(jì)下一階段的文本差異化競(jìng)爭(zhēng)可能是用戶(hù)的定制化競(jìng)爭(zhēng)——基于在手用戶(hù)的特征搜集，形成更深卷。愛(ài)詩(shī)科技在發(fā)展早期就探索當(dāng)前大火的DiT架構(gòu)，其產(chǎn)品PixVerse在測(cè)評(píng)表現(xiàn)中不輸Runway、Pika等頭部廠(chǎng)商。AI生成視頻已經(jīng)可以希冀商業(yè)化用途，進(jìn)而衍生出對(duì)視頻語(yǔ)料庫(kù)和IP、版權(quán)的強(qiáng)烈需求，擁有高質(zhì)量視頻語(yǔ)料庫(kù)的公司將具有競(jìng)爭(zhēng)優(yōu)勢(shì)。3）音頻：在TTS、語(yǔ)音設(shè)計(jì)、SVC三種產(chǎn)品類(lèi)型里，我們認(rèn)為前兩者的市場(chǎng)潛力更大，TTS發(fā)展更成熟，特別是科技大廠(chǎng)未來(lái)可能會(huì)與傳統(tǒng)業(yè)務(wù)結(jié)合釋放巨大潛力。語(yǔ)音設(shè)計(jì)技術(shù)難度更高，看好Suno的研發(fā)投入空間和后續(xù)迭代，長(zhǎng)期有望改寫(xiě)音樂(lè)創(chuàng)作市場(chǎng)格局。SVC更工具化，OpenAI發(fā)布的產(chǎn)品猜想會(huì)是一個(gè)中間形態(tài)，遠(yuǎn)期價(jià)值在于與AI視頻、或其他模態(tài)的結(jié)合?！緢D片】發(fā)展趨于成熟，【3D】則處于萌芽期，兩者都有望反哺AI視頻。雖然圖片和視頻都對(duì)素材訓(xùn)練要求極高，但是AI圖片的產(chǎn)品/社區(qū)成熟度顯著高于視頻，頭部AI圖片產(chǎn)品的用戶(hù)訪(fǎng)問(wèn)量更趨穩(wěn)定（榜單變化?。?。目前風(fēng)格和角色一致性都有不錯(cuò)的進(jìn)展，后續(xù)關(guān)注場(chǎng)景一致性若得以解決，或意味著AI生圖正式進(jìn)入規(guī)?；虡I(yè)進(jìn)程，連帶AI視頻的一致性也可能受益并得以突破。AI生成3D模型目前仍處早期，精度不足限制商業(yè)化，長(zhǎng)期看有望助力AI視頻和游戲、電影行業(yè)的發(fā)展。投資建議：基于全球AI產(chǎn)業(yè)發(fā)展階段判斷，我們認(rèn)為中國(guó)廠(chǎng)商進(jìn)入快速追趕期，可重點(diǎn)關(guān)注文本、視頻、音頻三大方向，并基于此關(guān)注AI產(chǎn)業(yè)鏈投資機(jī)AI+文本語(yǔ)料：中文在線(xiàn)、南方傳媒、掌閱科技、榮信文化、山東出版、中原傳媒、中國(guó)科傳、新華文軒；AI+視頻數(shù)據(jù)：相較于文本語(yǔ)料，視頻語(yǔ)料更具稀缺性，商業(yè)化邏輯順暢。建議關(guān)注華數(shù)傳媒、華策影視、中廣天擇、電廣傳媒、捷成股份。2）下游：B端/C端應(yīng)用場(chǎng)景AI+游戲/社交：愷英網(wǎng)絡(luò)、神州泰岳、巨人網(wǎng)絡(luò)、昆侖萬(wàn)維、盛天網(wǎng)絡(luò)；AI+影視/IP：全年維度看好，電影大盤(pán)高景氣度，疊加AI+視頻或?yàn)榻衲贻^高確定性進(jìn)展方向。建議關(guān)注：光線(xiàn)傳媒、萬(wàn)達(dá)電影、上海電影、博納影業(yè)、中國(guó)電影等。風(fēng)險(xiǎn)提示：AI技術(shù)發(fā)展水平不及預(yù)期，國(guó)內(nèi)廠(chǎng)商競(jìng)爭(zhēng)格局惡化，法律監(jiān)管趨嚴(yán)風(fēng)險(xiǎn)，地緣政治導(dǎo)致的供應(yīng)鏈風(fēng)險(xiǎn)，應(yīng)用端消費(fèi)需求不及預(yù)期等。證券分析師：劉欣聯(lián)系人：郭子萱行業(yè)基本數(shù)據(jù)相對(duì)指數(shù)表現(xiàn)相對(duì)表現(xiàn)-0.7%-0.9%2023-04-03~2024-04-0216%-1%-18%23/0423/06-35%傳媒滬深300相關(guān)研究報(bào)告《傳媒行業(yè)周觀(guān)察（2024325-20240329給予《傳媒行業(yè)周觀(guān)察（2024318-20240322階躍星辰大模型發(fā)布，國(guó)產(chǎn)AI文本領(lǐng)域進(jìn)入爆發(fā)《傳媒行業(yè)周觀(guān)察（20240311-20240315GDC23/0823/1124/0124/04傳媒行業(yè)深度研究報(bào)告投資主題報(bào)告亮點(diǎn)本報(bào)告系統(tǒng)復(fù)盤(pán)了AI五大模態(tài)（文本、圖片、視頻、音頻、3D）的當(dāng)前進(jìn)展，并梳理海內(nèi)外發(fā)展趨勢(shì)，判斷中國(guó)廠(chǎng)商進(jìn)入快速追趕期，可重點(diǎn)關(guān)注文本、視頻、音頻三大方向，并基于此重視AI產(chǎn)業(yè)鏈投資機(jī)會(huì)。文本方面，我們花了較大篇幅去解釋國(guó)產(chǎn)廠(chǎng)商在長(zhǎng)文本的差異化優(yōu)勢(shì)，以及長(zhǎng)文本的競(jìng)爭(zhēng)壁壘，我們認(rèn)為隨著大廠(chǎng)下場(chǎng)深入大模型的長(zhǎng)文本領(lǐng)域，國(guó)產(chǎn)大模型在中文語(yǔ)義方向的優(yōu)勢(shì)將會(huì)持續(xù)放大（相較于海外大模型）。視頻和音頻方面，我們對(duì)比海內(nèi)外產(chǎn)品并對(duì)該模態(tài)的未來(lái)商業(yè)化/競(jìng)爭(zhēng)格局做了一些猜想。投資邏通過(guò)梳理五大模態(tài)，我們建議關(guān)注預(yù)計(jì)確定性較強(qiáng)的【文本】、后續(xù)期待AI+文本語(yǔ)料：中文在線(xiàn)、南方傳媒、掌閱科技、榮信文化、山東出版、中原傳媒、中國(guó)科傳、新華文軒；AI+視頻數(shù)據(jù)：相較于文本語(yǔ)料，視頻語(yǔ)料更具稀缺性，商業(yè)化邏輯順暢。建議關(guān)注華數(shù)傳媒、華策影視、中廣天擇、電廣傳媒、捷成股份。2）下游：B端/C端應(yīng)用場(chǎng)景AI+音樂(lè)社交/游戲：盛天網(wǎng)絡(luò)、巨人網(wǎng)絡(luò)、愷英網(wǎng)絡(luò)、神州泰岳；AI+廣告/電商：值得買(mǎi)、易點(diǎn)天下、因賽集團(tuán)等；AI+影視/IP：全年維度看好，電影大盤(pán)高景氣度，疊加AI+視頻或?yàn)榻衲贻^高確定性進(jìn)展方向。建議關(guān)注：光線(xiàn)傳媒、萬(wàn)達(dá)電影、上海電影、博納影業(yè)、中國(guó)電影等。 5 6 6 8 10 10 13 13 13 15 17 17 18 19 19 19 20 22 5 6 7 7 8 8 9 10 11 11 11 11 12 12 13 14 15 15 15 15 16 17 17 18 19 20 20 20 21看，技術(shù)層面的突破離不開(kāi)強(qiáng)大的算力基礎(chǔ)設(shè)施+海量高質(zhì)數(shù)據(jù)的支持和訓(xùn)練+在據(jù)中國(guó)電信研究院分析，國(guó)外行業(yè)大模型發(fā)展模式主要有三種，一是“龍頭大模型+原業(yè)大模型”。結(jié)合中國(guó)電信研究院的觀(guān)點(diǎn)，我們認(rèn)為海內(nèi)外的大模型賦能企業(yè)發(fā)展主要有三種模式：各自原有的強(qiáng)勢(shì)業(yè)務(wù)線(xiàn)，做產(chǎn)業(yè)升級(jí)。比如微軟用GPT-4賦能Azure云服務(wù)、Office365、搜索業(yè)務(wù)等；谷歌和Meta利用大模型生成創(chuàng)意廣告文案/圖片賦能廣告主，抑或是在廣告業(yè)務(wù)的多個(gè)環(huán)節(jié)提升精準(zhǔn)度和效率。該模式常見(jiàn)于大廠(chǎng)，+原有業(yè)務(wù)即利用大模型的語(yǔ)言能力提升傳統(tǒng)業(yè)務(wù)的智能化水平，同時(shí)利用傳統(tǒng)業(yè)高性能開(kāi)源大模型的出現(xiàn)削弱了國(guó)產(chǎn)大模型的競(jìng)爭(zhēng)力；但另一方面，大量中小開(kāi)發(fā)者和企業(yè)申請(qǐng)部署開(kāi)源大模型去開(kāi)發(fā)各自的AI產(chǎn)品，大大降低了開(kāi)發(fā)成本。但是Llama的開(kāi)源也存在弊端，例如僅適用于英文環(huán)境，而百川智能的開(kāi)源模型則彌補(bǔ)3）垂類(lèi)模型+行業(yè)數(shù)據(jù)：雖然通用大模型適用景需求（營(yíng)銷(xiāo)/金融/電商/新聞/教育等訓(xùn)練數(shù)據(jù)更聚焦，輸出結(jié)果更符合用戶(hù)偏好。此類(lèi)模型需要選擇一個(gè)通用大模型作為底座，并用垂類(lèi)行業(yè)大模型BlueAI、易點(diǎn)天下的KreadoAI、因賽集團(tuán)的InsightGPT等。大模型基座的重要特征是擁有多模態(tài)能力，后文我們也將從文本、圖像、音頻、視頻、（一）文本1、多模態(tài)&邏輯推理：海外大模型一超多強(qiáng)從海外主流大模型看其迭代路徑，基本可以歸納達(dá)能力越強(qiáng)，也能夠捕捉更復(fù)雜的數(shù)據(jù)模式，當(dāng)然也意味著更多的訓(xùn)練數(shù)據(jù)和算力。多則能增加模型的可處理信息量，使得模型在長(zhǎng)內(nèi)容方面突破。根據(jù)谷歌官方披露，模型名稱(chēng)訓(xùn)練參數(shù)模態(tài)上下文窗口（tokens）是否開(kāi)源所屬公司否否-否AnthropicLLaMA2-70BNLP（文本）是NLP（文本）是大模型評(píng)測(cè)中很重要的一個(gè)步驟是衡量模型的性能，通過(guò)常識(shí)、邏輯、數(shù)學(xué)、代碼能力按能力由弱到強(qiáng)排列，分別是Haiku、Sonnet和Opus，其中Opus的各項(xiàng)資料來(lái)源：Claude轉(zhuǎn)引自36氪《OpenAI勁敵出手！Cl2、長(zhǎng)文本：國(guó)內(nèi)大模型“卷”出差異化優(yōu)勢(shì)參數(shù)規(guī)模和算力支持要求更高，芯片供給側(cè)的緊缺也一定程度上成為各平臺(tái)算力擴(kuò)張的模型名稱(chēng)模態(tài)否-是是-否-是算力的差距或是國(guó)內(nèi)大模型掣肘的一個(gè)重要因素。英偉達(dá)的GPU被認(rèn)為是科技行業(yè)資料來(lái)源：OmediaResearch轉(zhuǎn)引自財(cái)聯(lián)社《今年英偉達(dá)H100GPU都流向了哪？微軟和Meta是最大為什么“長(zhǎng)文本”能力讓用戶(hù)覺(jué)得大模型很“聰明”？根據(jù)月之暗面相關(guān)負(fù)責(zé)人訪(fǎng)的解釋?zhuān)m然過(guò)往的大模型產(chǎn)品也支持百萬(wàn)、千萬(wàn)字的文檔輸入，但通常采用的是RAG（檢索增強(qiáng)生成）方案，而不是“無(wú)損上下文窗口”方案。前者通過(guò)檢索文檔中的關(guān)鍵信息給到大模型推理，實(shí)際閱讀量仍然是3萬(wàn)字左右，好比讀了幾個(gè)“摘抄片段”就對(duì)內(nèi)容進(jìn)行討論。但是kimi采用的無(wú)損上下文的窗口的模型是逐字讀完全文，對(duì)文檔有更深入和全面的解釋。證券圖表8長(zhǎng)文本的“不可能三角”我們認(rèn)為隨著大廠(chǎng)下場(chǎng)深入大模型的長(zhǎng)文本能力，國(guó)產(chǎn)大模型在中文長(zhǎng)文本方向的差異化優(yōu)勢(shì)將會(huì)持續(xù)放大（相較于海外大模型）。對(duì)于大模型企業(yè)而言，手里最重要的牌還是用戶(hù)，下一階段的文本差異化競(jìng)爭(zhēng)很可能是關(guān)于用戶(hù)的定制化競(jìng)爭(zhēng)——基于龐大在手用戶(hù)數(shù)據(jù)的特征搜集，形成更深的產(chǎn)品護(hù)城河。為互聯(lián)網(wǎng)數(shù)字經(jīng)濟(jì)催生出以視覺(jué)中國(guó)、Shut6%6%6%6%6%6%81%StableDiffusion開(kāi)源社區(qū)生態(tài)MidjourneyAdobeFireflyDALL-E2資料來(lái)源：Everypixel轉(zhuǎn)引自中國(guó)AIGC產(chǎn)業(yè)聯(lián)盟&無(wú)界AI《2023數(shù)據(jù)截至2023年8月，下同16000單位：億14000120001000080006000400020000資料來(lái)源：Everypixel轉(zhuǎn)引自中國(guó)AIGC產(chǎn)業(yè)聯(lián)盟&無(wú)界AI《2023AI應(yīng)用日新月異，AI+圖片類(lèi)產(chǎn)品的訪(fǎng)問(wèn)量表現(xiàn)好+掉隊(duì)率最低。海外風(fēng)投機(jī)構(gòu)a16z分類(lèi)中占比最高的。AI圖片類(lèi)產(chǎn)品掉出新榜單的數(shù)量也是所有分類(lèi)中最少的，掉出率部AI圖片產(chǎn)品的用戶(hù)訪(fǎng)問(wèn)量更趨穩(wěn)定（榜單變化小意味著商業(yè)化進(jìn)程或更快；而AI視頻類(lèi)的訪(fǎng)問(wèn)量波動(dòng)較大，或也意味著產(chǎn)品競(jìng)爭(zhēng)更激烈、更易跑出超預(yù)期的黑馬新8%8%12%32%22%26%AI生圖/修圖AI聊天/搜索其他工具類(lèi)AI視頻生成AI音頻數(shù)據(jù)截至2023年1月，下同50單位：個(gè)86%71%67%單位：個(gè)86%71%67%8%8%掉出最新Top50的產(chǎn)品數(shù)（左軸）入圍2023上半年Top50的產(chǎn)品數(shù)（左軸）掉出率（右軸）100%50%0%測(cè)算的成像效果已經(jīng)十分成熟，但也需要建立在給出明晰提示詞的基礎(chǔ)上。通過(guò)多維度公眾號(hào)“數(shù)字生命卡茲克”的作者為四大平臺(tái)進(jìn)行打分：1）在細(xì)節(jié)質(zhì)量方面，3；3）風(fēng)格多樣化方面，Dalle-3>Adobe=Midjourney>Meta；4）語(yǔ)義理解方面，Dalle-3>Adobe>Meta>Midjourney?；绢I(lǐng)先；Midjourney也較為均衡，但在審美上有明顯優(yōu)勢(shì)；Meta表現(xiàn)中規(guī)中矩；Dalle-3偏科嚴(yán)重，語(yǔ)義理解出色，但細(xì)節(jié)質(zhì)華創(chuàng)證券整理注：圖片生成時(shí)間為2023年12月華創(chuàng)證券Midjourney是AI生圖應(yīng)用中最早上線(xiàn)的產(chǎn)品之一，需要集成在discord平臺(tái)使用，但用現(xiàn)主體的“一致性”概念貫穿始終，而這也是AI生圖最重要的部分——圖像的連貫性風(fēng)格/角色/場(chǎng)景一致性的難度逐漸遞增，目前場(chǎng)景一致性還未解決。根據(jù)下表可以看出入風(fēng)格一致性（--sref）與角色一致性（--cref）功能，意味著這兩項(xiàng)指標(biāo)已經(jīng)可以程序化應(yīng)用于作品，并且在非真人領(lǐng)域（游戲、動(dòng)漫、繪本等）的角色一致性精度優(yōu)于真人領(lǐng)域。場(chǎng)景一致性目前暫未看到明顯突破，這也是AI生圖最具挑戰(zhàn)的部分之一。場(chǎng)景包含大量的細(xì)節(jié)、元素以及角色之間的邏輯關(guān)系，大模型把握的不僅是視覺(jué)層面的一致圖正式進(jìn)入規(guī)?；纳虡I(yè)進(jìn)程。相應(yīng)的，AI視頻的場(chǎng)景一致性或也可能受益并得以突覺(jué)風(fēng)格的“風(fēng)格調(diào)整器”數(shù)的全范圍響應(yīng)更快；角色一致性提升增強(qiáng)了風(fēng)格一致性、角色一致性，應(yīng)用于非真人領(lǐng)域（游戲、動(dòng)漫、繪本等）的角色一致性精度優(yōu)于真人領(lǐng)大模型在視頻領(lǐng)域主要有三個(gè)發(fā)展方向，其中視頻生成挑戰(zhàn)最大：1）視頻生成，又包含文生視頻、圖片/視頻生視頻、編輯視頻元素等多種形式，海外以Sora、Runway、視頻生成模型的早期嘗試：1）基于預(yù)設(shè)規(guī)則組合素材，應(yīng)用于天氣預(yù)報(bào)等程序化場(chǎng)景；2）基于GAN的文本生成視頻模型，但控制難度大、時(shí)序建模較弱；3）基于自回歸種方式訓(xùn)練穩(wěn)定性好，長(zhǎng)視頻建模、時(shí)序建模能力強(qiáng)，缺點(diǎn)是計(jì)算量大。頻生成模型。三維空間的連貫性、持久性，包括數(shù)字世界的模擬方面都有更好的表現(xiàn)。但由于視頻增出挑戰(zhàn)。Background,Technology,Limitations,a2、國(guó)內(nèi)視頻模型的探索與追趕的模型中，字節(jié)跳動(dòng)的MagicVideo-V2在人工投票中優(yōu)于StableVideoDiffusion模型公司/團(tuán)隊(duì)視頻視頻視覺(jué)質(zhì)量語(yǔ)義運(yùn)動(dòng)質(zhì)量??Pika??Hotshot-XL?8VideoCrafter1騰訊??8?8?8?8ZeroScope?8資料來(lái)源：YaofangLiu,XiaodongCun,XueboLiuetal.《EvalCrafter:BenchmarkingandEvaluatingLargeVideoGenerationModels》，華創(chuàng)證券注：論文數(shù)據(jù)截至2023年10月口形、局部修改、控制鏡頭運(yùn)動(dòng)、控制物體運(yùn)動(dòng)等功能，產(chǎn)品形態(tài)一直保持快速迭代。國(guó)內(nèi)公司愛(ài)詩(shī)科技與MorphAI是較早入局的，其中愛(ài)詩(shī)科技是少數(shù)在公司發(fā)布時(shí)間測(cè)Pika頻；支持通過(guò)筆刷控制特定物體運(yùn)動(dòng)；支持改變視頻風(fēng)格與控制鏡頭運(yùn)動(dòng)放公測(cè)布網(wǎng)頁(yè)端，網(wǎng)頁(yè)端將視頻生成、剪輯、后期集于一體；可以控制鏡頭運(yùn)動(dòng)；在模型和生態(tài)方面與Stability達(dá)成券整理在一份來(lái)自“歸藏的AI工具箱”的自媒體評(píng)測(cè)中，PixVerse總分甚至超過(guò)Pika和產(chǎn)品中最平衡的，在較強(qiáng)的運(yùn)動(dòng)幅度中依然可以維持較好的一致性。成像質(zhì)量主題一致性運(yùn)動(dòng)Runway運(yùn)動(dòng)程度平滑度PixVerse Pika我們認(rèn)為能引發(fā)市場(chǎng)轟動(dòng)的AI模型/應(yīng)用往往有更清晰、更遠(yuǎn)大的商業(yè)化預(yù)期。特別是上線(xiàn)，降本邏輯不僅沒(méi)被證偽，甚至Sora的產(chǎn)品質(zhì)量已經(jīng)可以希冀于商業(yè)化用途，進(jìn)難度更大，高質(zhì)量的視頻語(yǔ)料庫(kù)相對(duì)稀缺，因此使得擁有高質(zhì)量視頻語(yǔ)料庫(kù)的公司具有AI音頻產(chǎn)品可歸為三類(lèi)：TTS（TexttoSpeech語(yǔ)音合成）、SVC（Speech-to-Speech熟度更高，海外已落地的產(chǎn)品代表為ElevenLabs，支持29種語(yǔ)言的語(yǔ)音合成；國(guó)內(nèi)代1）TTS是一種文生聲音的技術(shù)，核心在于模擬人聲發(fā)音過(guò)程。使用場(chǎng)景包括智能助出現(xiàn)了更多控制語(yǔ)音風(fēng)格的技術(shù)，如Styler（改變輸出風(fēng)格）、DiffTTS（聲音自然2）SVC是一種復(fù)制原聲并模擬的聲音克隆技術(shù)。通過(guò)對(duì)聲音的采集、分析、建模后合于配音、社交等場(chǎng)景。樂(lè)本身門(mén)檻較高，因?yàn)槁曇羰沁B續(xù)的波型信號(hào)，無(wú)法像文字一樣輕易拆解再拼接。樂(lè)小白也可以創(chuàng)建從歌詞到人聲和配器的所有內(nèi)容，且曲風(fēng)多變、聲音質(zhì)量清晰穩(wěn)2、商業(yè)化及競(jìng)爭(zhēng)格局猜想目前AI音頻產(chǎn)品的主要參與者有三類(lèi)：科技巨頭、開(kāi)源項(xiàng)目和創(chuàng)業(yè)公司，競(jìng)爭(zhēng)自身云平臺(tái)深度集成，未來(lái)或?qū)①x能傳統(tǒng)業(yè)務(wù)（分項(xiàng)目也已開(kāi)源代碼和模型?？萍即髲S(chǎng)可能短期內(nèi)不會(huì)直接將AI音頻3）創(chuàng)業(yè)公司的競(jìng)爭(zhēng)賽道更廣，也有OpenAI的身影。TTS賽道的硅谷明星項(xiàng)目包括（應(yīng)用場(chǎng)景廣泛、技術(shù)迭代快、競(jìng)爭(zhēng)者多雖然國(guó)內(nèi)產(chǎn)品仍處初期，但存在極大空間迎頭追趕。其中TTS發(fā)展更成熟，特別是科技大廠(chǎng)未來(lái)可能會(huì)與傳研發(fā)投入空間和后續(xù)迭代，長(zhǎng)期有望改寫(xiě)音樂(lè)創(chuàng)作市場(chǎng)格局。SVC相對(duì)更工具化， OpenAI發(fā)布的產(chǎn)品猜想會(huì)是一個(gè)中間形態(tài)，遠(yuǎn)期價(jià)值在于與AI視頻、或其他模態(tài)的結(jié)某些方法可以直接存儲(chǔ)模型的空間結(jié)構(gòu)，而一些隱式方法采用集合或函數(shù)的形式表現(xiàn)模型公司模型架構(gòu)NeRFXiaoshuiHuangetal.《AComprehensiveSurveyon3DContentGeneration》，HeewooJun,AlexNicholetal.《Shap-E:GeneratingConditional3DImplicitFunctions》，Chen-HsuanLin,JunGaoetal.《Magic3D:High-ResolutionText-to-3DContentCreation》，ZhengyiWang,ChengLuetal.《ProlificDreamer:High-FidelityandDiverseText-to-3DGenerationwithVariationalScoreDistilla3D應(yīng)用前景廣闊，但目前的生成效果精度欠佳。3D生成模型可持材料屬性。證監(jiān)會(huì)審核華創(chuàng)證券投資咨詢(xún)業(yè)務(wù)資格批文號(hào)：證監(jiān)許可（2009）1210公司發(fā)布時(shí)間畫(huà)否VoxCraft找映射，但實(shí)質(zhì)上國(guó)內(nèi)大模型本身能力與海外存在不小差距，且并未真正意義上實(shí)現(xiàn)用點(diǎn)爆發(fā)于【國(guó)內(nèi)大模型的實(shí)質(zhì)進(jìn)展和出圈】。從Kimi、階躍星辰等創(chuàng)業(yè)公司，到此基于全球AI產(chǎn)業(yè)發(fā)展階段判斷，我們認(rèn)為中國(guó)廠(chǎng)商進(jìn)入快速追趕期，部分領(lǐng)域體現(xiàn)較強(qiáng)競(jìng)爭(zhēng)力。可重點(diǎn)關(guān)注文本（預(yù)計(jì)確定性較強(qiáng)）、視頻（預(yù)計(jì)后續(xù)期待值最高）、音頻 AI+文本語(yǔ)料：中文在線(xiàn)、南方傳媒、掌閱科技、榮信文化、山東出版、中原傳媒、證監(jiān)會(huì)審核華創(chuàng)證券投資咨詢(xún)業(yè)務(wù)資格批文號(hào)：證監(jiān)許可（2009）1210AI+視頻數(shù)據(jù)：相較于文本語(yǔ)料，視頻語(yǔ)料更具稀缺性，商業(yè)化邏輯順暢。建議關(guān)AI+影視/IP：全年維度看好，電影大盤(pán)高景氣度，疊加AI+視頻或?yàn)榻衲贻^高確定公司大語(yǔ)言模型“天工2.0”+新版“天工AI智能助手”APP+“天工SkyMusic”針對(duì)媒體行業(yè)的傳播大模型“傳播大腦”研發(fā)AIGC一鍵成片系統(tǒng)“ChatPV”與小冰公司達(dá)成戰(zhàn)略合作協(xié)議，共同推進(jìn)“IP+AI”購(gòu)物

人人文庫(kù)> 全部分類(lèi)> 應(yīng)用文書(shū) > 研究報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

互聯(lián)網(wǎng)-傳媒行業(yè)深度研究報(bào)告：多模態(tài)AI的五重奏國(guó)產(chǎn)大模型的探索序章

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

互聯(lián)網(wǎng)-傳媒行業(yè)深度研究報(bào)告：多模態(tài)AI的五重奏國(guó)產(chǎn)大模型的探索序章

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔