【量子位智庫(kù)】AI音樂(lè)應(yīng)用產(chǎn)業(yè)報(bào)告

上傳人：緣*** IP屬地：四川上傳時(shí)間：2024-09-06 格式：PPTX 頁(yè)數(shù)：23 大?。?.12MB 積分：12 舉報(bào) 版權(quán)申訴

【量子位智庫(kù)】AI音樂(lè)應(yīng)用產(chǎn)業(yè)報(bào)告_第2頁(yè)

【量子位智庫(kù)】AI音樂(lè)應(yīng)用產(chǎn)業(yè)報(bào)告_第3頁(yè)

【量子位智庫(kù)】AI音樂(lè)應(yīng)用產(chǎn)業(yè)報(bào)告_第4頁(yè)

【量子位智庫(kù)】AI音樂(lè)應(yīng)用產(chǎn)業(yè)報(bào)告_第5頁(yè)

已閱讀5頁(yè)，還剩18頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI音樂(lè)應(yīng)用產(chǎn)業(yè)報(bào)告2024.07量子位智庫(kù)QbitAI

Insights

分析師丁喬

dingqiao@02

產(chǎn)業(yè)篇01

技術(shù)篇04

產(chǎn)品案例目

錄03

展望篇核心結(jié)論u音樂(lè)符號(hào)模型打開AI音樂(lè)生成的大門，音頻模型找到AI落地音樂(lè)應(yīng)用的方式u音頻路線成為研究熱點(diǎn)，為應(yīng)用爆發(fā)奠定技術(shù)基礎(chǔ)u生成式AI改變音樂(lè)產(chǎn)業(yè)，簡(jiǎn)化音樂(lè)制作流程，提供音樂(lè)創(chuàng)作新思路u流媒體平臺(tái)或成為AI音樂(lè)商業(yè)化中最確定的一方，傳統(tǒng)的音樂(lè)工程在此輪變革中是受沖擊最大的一方u數(shù)據(jù)是技術(shù)迭代和商業(yè)化過(guò)程中最關(guān)鍵的一環(huán)，生成音樂(lè)中對(duì)情感表達(dá)的把控是產(chǎn)品迭代的關(guān)鍵01技術(shù)篇?

谷歌Megenta項(xiàng)目音樂(lè)生成進(jìn)入神經(jīng)網(wǎng)絡(luò)時(shí)代?

OpenAI發(fā)布JukeBox奠定了Transformer文生音樂(lè)

的基本架構(gòu)；采用壓縮技術(shù)讓Jukebox能夠

處理更復(fù)雜的音樂(lè)，更好地理解音樂(lè)文本?

谷歌發(fā)布MusicLM2023年1月，谷歌發(fā)布MusicLM，搭

建在之前發(fā)布的語(yǔ)音模型AudioLM之

上?

Meta入局2023年6月，

Meta推出AudioCraft系列產(chǎn)品，包括負(fù)責(zé)生成音效的AudioGen，生成音樂(lè)的MusicGen以及一個(gè)全新的壓縮編碼方式Encodec?

Suno音樂(lè)生成領(lǐng)域的「集大成者」，實(shí)現(xiàn)AI生成完整歌曲；2024年3月發(fā)布V3模型?

Udio4月11

日，AI音樂(lè)生成工具

Udio完成測(cè)試，正式上線?

天工SkyMusic4月，昆侖萬(wàn)維發(fā)布基于「天工

3.0」打造的「天工SkyMusic」

產(chǎn)品定義：AI音樂(lè)生成是指通過(guò)對(duì)大量音樂(lè)數(shù)據(jù)進(jìn)行學(xué)習(xí)和分析，掌握音樂(lè)的基本規(guī)律和風(fēng)格特征，從而創(chuàng)作出音樂(lè)片段或完整的音樂(lè)。發(fā)

展關(guān)

鍵

節(jié)

點(diǎn)AI音樂(lè)生成2023202420162020?

對(duì)生成的音樂(lè)作品進(jìn)行評(píng)估，包括主觀評(píng)估

和客觀指標(biāo)，如音樂(lè)理論的一致性和聽覺效

果的愉悅度；?

根據(jù)評(píng)估結(jié)果，模型會(huì)進(jìn)一步的調(diào)整和優(yōu)化評(píng)估和優(yōu)化生成新的音樂(lè)訓(xùn)練階段數(shù)據(jù)預(yù)處理數(shù)據(jù)收集特征提取生成不同類型的音樂(lè)?

包含人聲的完整歌曲?背景音樂(lè)……?

對(duì)收集到的音樂(lè)數(shù)據(jù)進(jìn)行預(yù)處理，包括去噪、分割、

標(biāo)準(zhǔn)化等?

選擇合適的模型進(jìn)行訓(xùn)練?

模型通過(guò)不斷調(diào)整內(nèi)部參

數(shù)來(lái)最小化預(yù)測(cè)誤差?提取音樂(lè)數(shù)據(jù)里的特征，包括音高、音色、節(jié)奏、

動(dòng)態(tài)變化等AI音樂(lè)生成的基本流程?音頻文件、MIDI序列、樂(lè)譜或其他音樂(lè)數(shù)據(jù)音樂(lè)符號(hào)模型打開AI音樂(lè)生成的大門，音頻模型找到AI落地音樂(lè)應(yīng)用的方式符號(hào)模型的研究要早于音頻模型的研究，但符號(hào)模型生成的音樂(lè)在最終效果上存在明顯的機(jī)械、不自然特征，因此在應(yīng)用側(cè)難以落地。而音頻路線在近兩年取得了突破性進(jìn)展，生成的作品更加流暢自然。因此，這條路線成為目前業(yè)內(nèi)更受歡迎的一條路線。此外，音頻模型路線因其生成音樂(lè)的完整性更高，且能夠直接生成歌曲，對(duì)于用戶來(lái)說(shuō)可以做到零門檻創(chuàng)作，在商業(yè)化上也更具潛力。?

原理直接用海量音頻數(shù)據(jù)訓(xùn)練模型，使用深度神經(jīng)網(wǎng)絡(luò)和VAE或Transformer等方法，端到端直接生成音樂(lè)?

局限算力成本高昂；音頻生成的侵權(quán)風(fēng)險(xiǎn)相較于符號(hào)生成更大（后者學(xué)習(xí)樂(lè)理規(guī)則，前者直接模仿成品音樂(lè)）?

原理提取出音頻中的各類音樂(lè)信息，如歌詞、旋律、樂(lè)器等，并對(duì)這些信息進(jìn)行標(biāo)注，拆分成音樂(lè)的各個(gè)環(huán)節(jié)來(lái)生成詞、曲等?

局限生成的是音樂(lè)的不同部分而非成品音樂(lè)，需要通過(guò)傳統(tǒng)的音樂(lè)制作流程，將各部分融合起來(lái)，制作成音頻內(nèi)容?

可根據(jù)文本直接生成音頻?

樂(lè)譜生成，并且支持對(duì)已生成的

樂(lè)譜進(jìn)行自動(dòng)編輯操作?

案例：騰訊的「琴樂(lè)大模型」，同時(shí)支持文

本生成音樂(lè)，以及樂(lè)譜生成音頻+音樂(lè)符號(hào)協(xié)同生成音

頻

生

成

模

型

符

號(hào)

生

成

模

型兩種技術(shù)路線音頻路線成為研究熱點(diǎn)，為應(yīng)用爆發(fā)奠定技術(shù)基礎(chǔ)MusicLM在跨模態(tài)創(chuàng)作和個(gè)性化音樂(lè)生成上表現(xiàn)出色，而MusicGen則在音樂(lè)質(zhì)量和風(fēng)格適應(yīng)性方面具有優(yōu)勢(shì)。

MusicLM的出現(xiàn)標(biāo)志著音樂(lè)生成技術(shù)向更高級(jí)別的藝術(shù)創(chuàng)作

和智能化方向發(fā)展，而MusicGen則代表了音樂(lè)生成技術(shù)在音樂(lè)制作和質(zhì)量方面的進(jìn)一步提升。MusicGen同樣基于Transformer架構(gòu)，但更側(cè)重于生成高質(zhì)量的音樂(lè)樣本。MusicGen能夠生成具有高度復(fù)雜性和多樣性的音樂(lè)作品，同時(shí)保持音

樂(lè)的結(jié)構(gòu)和風(fēng)格一致性，生成的音樂(lè)聽起來(lái)更加自然。MusicLM是一個(gè)基于Transformer架構(gòu)的模型。MusicLM的一個(gè)顯著特點(diǎn)是能夠生成多音軌作品，生成的音樂(lè)更具藝術(shù)性

和個(gè)性化。結(jié)合了文本和音樂(lè)兩種模態(tài)，能夠?qū)崿F(xiàn)跨模

態(tài)的創(chuàng)意表達(dá)模型能夠生成具有豐富和聲和旋律的音樂(lè)，接近專業(yè)音樂(lè)作品的水準(zhǔn)通過(guò)文本描述，模型能夠更好地理解用戶的需求和創(chuàng)作意圖通過(guò)優(yōu)化模型結(jié)構(gòu)和訓(xùn)練過(guò)程，

MusicGen能夠快速生成音樂(lè)，提高創(chuàng)作效率能夠?qū)W習(xí)和模仿各種音樂(lè)風(fēng)格，從而生成符合特定風(fēng)格的音樂(lè)作品模型能夠捕捉音樂(lè)序列中的長(zhǎng)距離依賴關(guān)

系，生成連貫的音樂(lè)作品高效生成高質(zhì)量

音樂(lè)生成多模態(tài)能力風(fēng)格適應(yīng)性音頻模型的代表MetaMusicGen谷歌MusicLM長(zhǎng)距離依

賴處理上下文理解02產(chǎn)業(yè)篇音樂(lè)制作流程簡(jiǎn)化，提供創(chuàng)作新思路音樂(lè)產(chǎn)業(yè)的核心動(dòng)力來(lái)自于創(chuàng)作部分，屬于音樂(lè)從0到1的階段；而音樂(lè)制作是音樂(lè)從1到100的過(guò)程，包含大量的音樂(lè)工程。音樂(lè)產(chǎn)業(yè)在進(jìn)入工業(yè)化階段后，存在供過(guò)于求，創(chuàng)新力不足等問(wèn)題。AI音樂(lè)生成的出現(xiàn)，為音樂(lè)產(chǎn)業(yè)帶來(lái)新的創(chuàng)作思路，讓越來(lái)越多的人加入到音樂(lè)創(chuàng)作當(dāng)中。此外，AI對(duì)于音樂(lè)產(chǎn)業(yè)的一大變革在于音樂(lè)流程的極大簡(jiǎn)化。原先不同步驟的工序需要不同的人/團(tuán)隊(duì)來(lái)完成。AI出現(xiàn)后，一個(gè)人可以完成所有工序。其中，生成式AI更多運(yùn)用在創(chuàng)作部分，在制作和發(fā)行流程中，也會(huì)加入其他AI技術(shù)。本報(bào)告主要聚焦于生成式AI對(duì)音樂(lè)產(chǎn)業(yè)中部分環(huán)節(jié)的變革。由唱片公司代理，承包藝人的宣發(fā)工作藝人可以在流媒體平臺(tái)發(fā)布自己的專輯或單曲，平臺(tái)為用戶匹配適合的歌曲風(fēng)

格，并提供個(gè)性化音樂(lè)推薦通過(guò)學(xué)習(xí)大量樂(lè)理知識(shí)來(lái)形成對(duì)音樂(lè)的理解，花費(fèi)大量

時(shí)間來(lái)構(gòu)思和設(shè)計(jì)音樂(lè)結(jié)構(gòu)通過(guò)學(xué)習(xí)海量音樂(lè)數(shù)據(jù)來(lái)掌

握音樂(lè)的基本規(guī)律，并進(jìn)行

創(chuàng)作音頻工程師、母帶工程師等對(duì)音樂(lè)進(jìn)行處理作為自動(dòng)化音頻處理工具，

保證音樂(lè)最終的質(zhì)量音樂(lè)制作?

錄音?剪輯?混聲?母帶處理?作詞?作曲?唱片發(fā)行音樂(lè)創(chuàng)作推廣發(fā)行AI改變音樂(lè)產(chǎn)業(yè)傳統(tǒng)方式AI編曲AI制作走向成熟，

AI創(chuàng)作處于發(fā)展上升期AI在音樂(lè)制作中的應(yīng)用已經(jīng)相對(duì)成熟，在母帶處理、混音等工程含量較高的環(huán)節(jié)已經(jīng)的到很好的應(yīng)用，如Landr通過(guò)AI進(jìn)行母帶處理并由此形成穩(wěn)定的商業(yè)模式。然而，在音樂(lè)創(chuàng)作中，AI的應(yīng)用處在早期階段。Suno屬于這個(gè)賽道上第一家出圈的公司。昆侖萬(wàn)維、網(wǎng)易天音等是中國(guó)市場(chǎng)中的領(lǐng)先者。這份報(bào)告在產(chǎn)品側(cè)主要聚焦于生成式AI在音樂(lè)創(chuàng)作上的應(yīng)用。選擇場(chǎng)景、心情、

環(huán)境等描述情感

/氛圍的關(guān)鍵詞，

或輸入創(chuàng)作靈感，

AI一鍵生成歌詞輸入提示詞生成音樂(lè)，

大致分為兩類：1）

一鍵生成完整音樂(lè)2）

一鍵生成完整音軌創(chuàng)作各種風(fēng)格的

編曲，提供音樂(lè)

編排等建議根據(jù)用戶提供的參

數(shù)自動(dòng)生成旋律、

和弦等在音樂(lè)創(chuàng)作中，AI不僅需要理解和模仿復(fù)雜的

音樂(lè)結(jié)構(gòu)、和聲、旋律、

節(jié)奏等元素，還需要讓

人聲和樂(lè)器完美結(jié)合根據(jù)創(chuàng)作者的要求，自動(dòng)平衡軌道間的音量，調(diào)整均衡器設(shè)置自動(dòng)檢測(cè)音樂(lè)特點(diǎn)，并自動(dòng)應(yīng)用適當(dāng)?shù)哪笌幚硇Ч笌幚砘煲籼幚硪纛l信號(hào)處理音樂(lè)

創(chuàng)

作音樂(lè)

制

作AI音樂(lè)現(xiàn)狀自動(dòng)去除音頻中的雜音、噪音，音頻壓縮等AI作曲AI作詞一鍵生成AI編曲注：未窮盡，重點(diǎn)展示關(guān)鍵工序/環(huán)節(jié)的AI應(yīng)用無(wú)需音樂(lè)基礎(chǔ)需要音樂(lè)基礎(chǔ)具體體現(xiàn)AI音樂(lè)創(chuàng)作AI音樂(lè)制作SUNO

Ydiooo

j,a

udo

BGM貓Loudly?ai

masteringAI作詞AI作曲一鍵生成AI音樂(lè)產(chǎn)業(yè)圖譜音頻處理混音處理母帶處理本土產(chǎn)品產(chǎn)品是什么產(chǎn)品特點(diǎn)網(wǎng)易天音使用AI進(jìn)行編曲、作詞或一鍵生成音樂(lè)支持一鍵生成、AI作曲/AI作詞天工SkyMusic一鍵生成音樂(lè)平臺(tái)作品的情感表達(dá)力豐富，人聲逼真海綿音樂(lè)字節(jié)跳動(dòng)推出的免費(fèi)AI音樂(lè)創(chuàng)作和分享

平臺(tái)音樂(lè)風(fēng)格更符合國(guó)人喜好BGM貓靈動(dòng)音推出的一鍵生成背景音樂(lè)產(chǎn)品音樂(lè)高能點(diǎn)可調(diào)節(jié)海外產(chǎn)品產(chǎn)品是什么產(chǎn)品特點(diǎn)Suno由AI驅(qū)動(dòng)的音頻和音樂(lè)生成工具高品質(zhì)、多語(yǔ)言、完整性高的歌曲生成Udio由AI驅(qū)動(dòng)的音樂(lè)創(chuàng)作和分享平臺(tái)在合成人聲中捕捉情感的能力StableAudioAI生成音樂(lè)平臺(tái)生成長(zhǎng)度可調(diào)節(jié)CassetteAIAI驅(qū)動(dòng)的音樂(lè)生成平臺(tái)一鍵生成完整音軌產(chǎn)品密集發(fā)布，初步實(shí)現(xiàn)「人人皆可創(chuàng)作」今年3月，Suno發(fā)布V3模型。用戶只需給出風(fēng)格和主題詞，幾秒鐘便可以生成一首兩分鐘的原創(chuàng)歌曲。一個(gè)月后，另一款有相似功能的產(chǎn)品Udio也正式推向市場(chǎng)?！敢绘I生成」成為了AI音樂(lè)市場(chǎng)最熱的話題，中國(guó)市場(chǎng)中網(wǎng)易、昆侖萬(wàn)維、騰訊等公司也推出了音樂(lè)生成產(chǎn)品。生成式AI在音樂(lè)領(lǐng)域，開啟了「人人皆可創(chuàng)作」的時(shí)代。產(chǎn)品的可觀表現(xiàn)，也激發(fā)了資本對(duì)于生成式AI落地的信心。Suno在5月22日完成A輪1.25億美元融資，

Udio在4月正式上線之際也宣布完成1000萬(wàn)美元的種子輪融資。Suno最新發(fā)布的V3.5，已經(jīng)能夠完成4分鐘的音樂(lè)創(chuàng)作，在歌曲的完整度和情感表現(xiàn)上，都較V3.0版本有所提升。在中文歌曲的呈現(xiàn)上，Suno等海外產(chǎn)品在人聲上會(huì)出現(xiàn)明顯的瑕疵（如聲音不夠穩(wěn)），而中國(guó)本土的音樂(lè)生成軟件不論是對(duì)中文歌的旋律、節(jié)奏等的把控，還是對(duì)歌詞的理解上，都有更好的表現(xiàn)力。也因此，本土產(chǎn)品在生成音樂(lè)的曲風(fēng)上更加符合本土市場(chǎng)需求。一鍵生成類產(chǎn)品

一鍵生成類產(chǎn)品對(duì)音樂(lè)人群的作用專業(yè)人士的「降本增效」工具，愛好者的音樂(lè)入門產(chǎn)品對(duì)于非專業(yè)人士來(lái)說(shuō)，AI生成音樂(lè)主要解決了缺乏樂(lè)理的難題。而對(duì)于專業(yè)人士來(lái)說(shuō)，目前AI更多是在制作環(huán)節(jié)幫助音樂(lè)人更高效地完成工作。在產(chǎn)品提供的多種風(fēng)格中進(jìn)行選擇，只需要輸入合適的提示詞，就能夠生成音樂(lè)作品。即使用戶沒有樂(lè)理知識(shí)，只需對(duì)自己想要的音樂(lè)流派和風(fēng)格有所了解，即可生成完整的音樂(lè)作品。音樂(lè)制作進(jìn)入工業(yè)化階段后，在創(chuàng)新性上呈現(xiàn)乏力態(tài)勢(shì)，而生成式AI所帶來(lái)的不可預(yù)測(cè)性恰好為創(chuàng)作者提供了一個(gè)擺脫已有創(chuàng)作習(xí)慣的路徑，讓多樣化的音樂(lè)創(chuàng)作變得更有可能。相比于傳統(tǒng)的音樂(lè)制作流程，AI一鍵生成音樂(lè)的成本要低得多，并且在創(chuàng)作效率上也有大幅提高。對(duì)于專業(yè)的創(chuàng)作者來(lái)說(shuō)，AI生成音樂(lè)盡管不會(huì)成為他們的最終作品，卻能夠生成全新的音樂(lè)結(jié)構(gòu)，為創(chuàng)作者提供靈感的同時(shí)提升創(chuàng)作效率。?一鍵生成音樂(lè)作品提供多樣化的音樂(lè)表達(dá)?音樂(lè)制作的各個(gè)流程

都可以用AI來(lái)完成生成的音樂(lè)需要后期處理來(lái)提高其質(zhì)量，通過(guò)算法可自動(dòng)優(yōu)化混音、母帶處理、聲音優(yōu)化等。這些工序往往涉及大量的重復(fù)性工作和對(duì)已有數(shù)據(jù)的處理，也可以由AI完成且成本更低。降低創(chuàng)作門檻音樂(lè)人無(wú)需掌握復(fù)雜的工程能力，也能高效完成自己的作品。提升創(chuàng)作效率提升制作效率AI非專業(yè)

用戶

專業(yè)

用戶

創(chuàng)意助理

?降低制作成本音頻工程師創(chuàng)意助理短劇市場(chǎng)將率先接受AI音樂(lè)成品，

電影市場(chǎng)中AI僅用于音樂(lè)生產(chǎn)的部分環(huán)節(jié)AI音樂(lè)在影視上的應(yīng)用可大致分為兩個(gè)方向：電影配樂(lè)和短劇音樂(lè)。

電影配樂(lè)既是觀眾情緒的助推器，也是電影劇情的“提示詞”

，這意味著AI想要達(dá)到影視配樂(lè)的標(biāo)準(zhǔn)，需要對(duì)電影從整體和細(xì)節(jié)上都準(zhǔn)確把握。目前,生成式AI類產(chǎn)品尚無(wú)法做到這點(diǎn)。在電影配樂(lè)環(huán)節(jié)，生成式AI更多地是充當(dāng)靈感激發(fā)和效率提升的作用，在創(chuàng)作環(huán)節(jié)還是由作曲家來(lái)把控。而在短劇領(lǐng)域，對(duì)于音樂(lè)的要求更簡(jiǎn)單，更加注重音樂(lè)傳播度，音樂(lè)首先服務(wù)于傳播效果。因此，在音樂(lè)的選擇上也偏向于有記憶點(diǎn)，旋律簡(jiǎn)單易于傳唱的類型。生成式AI已經(jīng)能夠很好地完成這種類型的音樂(lè)創(chuàng)作。正因?yàn)檫@樣的適配度，使得AI音樂(lè)率先落地在短劇領(lǐng)域。?

保持創(chuàng)作一致性電影配樂(lè)需要導(dǎo)演與作曲家在拍攝過(guò)程中保持充分溝通作曲家在拍攝過(guò)程中需要制作小樣（demo）給到導(dǎo)演。傳統(tǒng)的

方式是導(dǎo)演與作曲家溝通音樂(lè)訴求，由后者使用MIDI技術(shù)制作小

樣。由于MIDI制作需要耗費(fèi)一定時(shí)間，因此難以快速呈現(xiàn)音樂(lè)與視覺同步后的效果。使用AI音樂(lè)工具，作曲家能夠根據(jù)導(dǎo)演訴求快速生成音樂(lè)小樣來(lái)做視聽同步測(cè)試，并及時(shí)調(diào)整，確保音樂(lè)跟電影在創(chuàng)作上的一致性。?

提升基礎(chǔ)工作的效率大型電影中的配樂(lè)通常涉及交響樂(lè)，由作曲家?guī)ьI(lǐng)團(tuán)隊(duì)分工協(xié)作。AI音樂(lè)工具能夠完成一些基礎(chǔ)工作，如樂(lè)器的組合、和聲寫作。谷歌DeepMind研發(fā)的模型Lyria能夠?qū)⑤斎氲囊纛l轉(zhuǎn)化成不同風(fēng)

格并加入伴奏，從而讓作曲家快速甄別出最適合演奏的樂(lè)器。?

供給端角度一部短劇的制作周期通常在幾周左右，意味著跟劇集相關(guān)的所有內(nèi)容都要在這個(gè)時(shí)間內(nèi)完成，包括音樂(lè)制作。此外，由于短劇通常以

小制作低成本的方式投入，可能沒有足夠的預(yù)算購(gòu)買版權(quán)。因此，通過(guò)AI音樂(lè)平臺(tái)創(chuàng)作與劇情相匹配的歌曲也成為短劇的選擇。?市場(chǎng)需求側(cè)近兩年短劇市場(chǎng)呈井噴式增長(zhǎng)，僅2023年前8月，全國(guó)備案拍攝的

微短劇有3574部。據(jù)機(jī)構(gòu)數(shù)據(jù)顯示，2023年國(guó)內(nèi)微短劇市場(chǎng)規(guī)模

373.9億元。短劇市場(chǎng)的繁榮，也將給AI音樂(lè)帶來(lái)更多市場(chǎng)空間。?

用戶需求側(cè)短劇的觀眾對(duì)于整體內(nèi)容水平的包容度更高，AI音樂(lè)已經(jīng)能夠達(dá)到

為短劇配樂(lè)的水平。應(yīng)用場(chǎng)景-影視

短劇音樂(lè)電影配樂(lè)游戲主題曲角色定制歌曲多音軌音效難度逐漸增加單音軌音效AI音效制作較為成熟，配樂(lè)生成最先用在休閑類游戲音樂(lè)、音效、語(yǔ)言是游戲聲音設(shè)計(jì)中的三個(gè)基本元素。這份報(bào)告主要討論生成式AI對(duì)游戲中音樂(lè)和音效的影響。音效可簡(jiǎn)單分為單音軌音效和多音軌音效，前者在生成上難度最低。在音樂(lè)生成上，主要有角色定制曲和游戲主題曲兩類，二者在音樂(lè)風(fēng)格上有較大差異。游戲主題曲的商業(yè)價(jià)值和品牌影響力更高，其對(duì)音樂(lè)的要求更加嚴(yán)格，創(chuàng)作和制作過(guò)程也更加復(fù)雜，因此也是生成難度最高的。精品游戲中，配樂(lè)已經(jīng)成為穩(wěn)固世界觀、建立游戲與玩家之間紐帶的重要載體。游戲開發(fā)商會(huì)對(duì)配樂(lè)有非常高的要求，目前

AI尚且無(wú)法取代，僅局限于對(duì)創(chuàng)作者產(chǎn)生一定的靈感激發(fā)作用。

而對(duì)于休閑游戲，如消消樂(lè)這類低成本、輕敘事的游戲來(lái)說(shuō)，對(duì)配樂(lè)沒有特別高的需求且更注重成本控制。在這個(gè)細(xì)分領(lǐng)域中，開發(fā)者通常會(huì)向商業(yè)曲庫(kù)購(gòu)買音軌。有了AI音樂(lè)生成后，

游戲開發(fā)者可以通過(guò)更低廉的成本來(lái)完成配樂(lè)。音效合成通常是由調(diào)音師創(chuàng)作demo，時(shí)間長(zhǎng)容易出現(xiàn)靈感枯竭的情況。通過(guò)AI生成音效，能夠?yàn)檎{(diào)音師提供不同

風(fēng)格demo的形式，從而保持創(chuàng)作能力在線。AI音效生成目前在游戲領(lǐng)域已有一定應(yīng)用，如OptimizerAI，

能夠根據(jù)提示詞生成適合多場(chǎng)景的音效。應(yīng)用場(chǎng)景-游戲

音效生成配樂(lè)生成更具通用性，需要更復(fù)雜的音樂(lè)結(jié)構(gòu)，以及

對(duì)游戲世界觀的理解和詮釋；通常會(huì)加入人

聲的部分，

在技術(shù)實(shí)現(xiàn)上最為復(fù)雜更加關(guān)注對(duì)角色特質(zhì)的捕捉和準(zhǔn)確的音

樂(lè)表達(dá)，同時(shí)要與畫面和故事敘述相協(xié)

調(diào)，需要考慮更多外部因素需要協(xié)調(diào)不同的聲音元素，確保最終效

果在節(jié)奏、音量、音色等方面保持一致，

從而增強(qiáng)玩家的沉浸感游戲中的音效多為單音軌音效，如一

陣風(fēng)聲、

一聲槍響，

AI已經(jīng)能夠生成

非常逼真的流媒體平臺(tái)或成為商業(yè)化中最確定的一方，

傳統(tǒng)的音樂(lè)工程在此輪變革中是受沖擊最大的一方目前，AI生成音樂(lè)能夠觸達(dá)的是中低端音樂(lè)市場(chǎng)，也就是長(zhǎng)尾部分。在這個(gè)市場(chǎng)中，平臺(tái)模式是最合適的商業(yè)化手段。這個(gè)階段，付費(fèi)群體主要是C端用戶。個(gè)人創(chuàng)作者通過(guò)音樂(lè)生成軟件創(chuàng)作音樂(lè)，在網(wǎng)易云音樂(lè)、Spotify等平臺(tái)發(fā)布并收取版費(fèi)。此外，生成式AI工具的出現(xiàn)，為音樂(lè)產(chǎn)業(yè)帶來(lái)了新的生產(chǎn)工具，也因此為音樂(lè)產(chǎn)業(yè)帶來(lái)變化。首先，音樂(lè)生成軟件的出現(xiàn)，將創(chuàng)作者的范圍進(jìn)一步擴(kuò)大。中低端音樂(lè)市場(chǎng)的競(jìng)爭(zhēng)加劇，高端市場(chǎng)受到的沖擊較小。其次，音樂(lè)生成軟件極大便利了創(chuàng)作者的創(chuàng)作流程，處在中間環(huán)節(jié)的工程化部分的成本得到大幅下降，這部分的工作也將減少。最后，音樂(lè)生成軟件公司將會(huì)在軟件的基礎(chǔ)上，搭建音樂(lè)分享平臺(tái)，以此來(lái)保持網(wǎng)站的訪問(wèn)量和使用量。

內(nèi)容生產(chǎn)方

相互影響支付費(fèi)用內(nèi)容消費(fèi)方支付費(fèi)用生產(chǎn)工具AI音樂(lè)生成平臺(tái)用戶判斷?音樂(lè)喜好分析?

個(gè)性化需求分析版稅支付度上升AI音樂(lè)生成產(chǎn)品是一類新生產(chǎn)工具，能夠幫助創(chuàng)作者降

低創(chuàng)作成本，同時(shí)增加流媒體平臺(tái)的作品豐富度。此外，AI音樂(lè)生成產(chǎn)品如Suno為音樂(lè)市場(chǎng)帶來(lái)最大的變

化是將創(chuàng)作者擴(kuò)大為大眾群體，實(shí)現(xiàn)人人皆可創(chuàng)作音樂(lè)。AI音樂(lè)生成平臺(tái)作為新生產(chǎn)工具應(yīng)用聽眾選擇增加，并對(duì)

音樂(lè)進(jìn)行鑒別并反饋創(chuàng)作門檻降低、生產(chǎn)成本減少創(chuàng)作者群

體擴(kuò)大商業(yè)模式

音樂(lè)生成平臺(tái)和音樂(lè)發(fā)布平臺(tái)屬于兩個(gè)不同的平臺(tái)方。音樂(lè)生成平臺(tái)商通過(guò)會(huì)員制向創(chuàng)作者收取費(fèi)用；創(chuàng)作者將生成好的音樂(lè)在流媒體平臺(tái)發(fā)布，可賺取版費(fèi)。?

AI作詞/AI作曲?

AI一鍵生成音樂(lè)作品，

包含詞曲及MV?

AI后期編輯音樂(lè)發(fā)布平

臺(tái)內(nèi)容豐富樂(lè)發(fā)布平臺(tái)音?

為了捕捉到聲音的所有細(xì)節(jié)，音頻通常以高采樣率進(jìn)行錄制。高采樣

率導(dǎo)致音頻數(shù)據(jù)量巨大，增加超長(zhǎng)序列建模難度。生成30s的音樂(lè)需要生成超過(guò)一百萬(wàn)個(gè)采樣點(diǎn)，而在文生文大模型中，十萬(wàn)個(gè)token的

上下文支持已經(jīng)屬于超長(zhǎng)上下文的范疇?

音頻數(shù)據(jù)具有時(shí)間維度上的強(qiáng)關(guān)聯(lián)，且難以用文字精準(zhǔn)描述數(shù)據(jù)是技術(shù)迭代和商業(yè)化過(guò)程中最關(guān)鍵的一環(huán)，情感把控是產(chǎn)品迭代的關(guān)鍵盡管音樂(lè)生成產(chǎn)品已經(jīng)有可觀的表現(xiàn)，但仍然面臨各方挑戰(zhàn)。量子位智庫(kù)從技術(shù)、音樂(lè)屬性、商業(yè)三個(gè)層面對(duì)音樂(lè)生成類產(chǎn)品面臨的挑戰(zhàn)進(jìn)行分析。音樂(lè)生成面臨的挑戰(zhàn)

生成的音樂(lè)不滿意只能重新生成。對(duì)于Suno這類一鍵生成音樂(lè)的產(chǎn)品來(lái)說(shuō)，無(wú)法支持修改。而更專業(yè)的AI音樂(lè)生成工具，在操作性

上對(duì)非專業(yè)人士并不友好?

音樂(lè)是節(jié)奏、和聲、音色、歌詞的混合體，是一種綜合的復(fù)雜感覺，很難用文字精準(zhǔn)描述，提示詞無(wú)法充分表達(dá)出創(chuàng)作者需要的情感/情緒技術(shù)層面商業(yè)層面音樂(lè)屬性層面?

人類的聽覺系統(tǒng)異常敏感，對(duì)細(xì)節(jié)要求很苛刻，一旦AI音樂(lè)作品中出現(xiàn)不和諧的音符或人聲，會(huì)影響整首歌的聽感?當(dāng)有AI生成的音樂(lè)作品與現(xiàn)有作品相似時(shí)，難以界定AI的原創(chuàng)性以及作品的版權(quán)歸屬人類聽感精細(xì)化控制數(shù)據(jù)收集數(shù)據(jù)處理情感表達(dá)版權(quán)歸屬?高質(zhì)量音頻數(shù)據(jù)有限，導(dǎo)致生成音樂(lè)的品質(zhì)不穩(wěn)定03展望篇多模態(tài)音樂(lè)模型是未來(lái)音樂(lè)生成走向音樂(lè)高端市場(chǎng)的必要技術(shù)支撐。目前，音樂(lè)生成僅能夠滿足中低端音樂(lè)市場(chǎng)的部分需求，而這部分

市場(chǎng)通常是以量取勝。對(duì)于普通創(chuàng)作者來(lái)說(shuō)，通過(guò)AI生成音樂(lè)賺錢往往是薄利多銷的手段。想要在高端市場(chǎng)中占有一定的份額，需要在生成音樂(lè)的質(zhì)量上做進(jìn)一步提升。一方面，需要讓生成的音樂(lè)在局部修改后，還能夠保持整體的一致性。目前音樂(lè)生成的大部分產(chǎn)品不支持編輯功能，如果第一遍沒有達(dá)到效果，修改提示詞后生成的音樂(lè)同樣不可控。在B端場(chǎng)景中，如果客戶對(duì)生成作品有新的需求，無(wú)法在現(xiàn)有基礎(chǔ)上進(jìn)

行更改，這也阻礙了音樂(lè)生成類產(chǎn)品在B端的發(fā)展。另一方面，音樂(lè)模型需要做到多模態(tài)理解，通過(guò)結(jié)合其他藝術(shù)形式，如文學(xué)（字）、視覺藝術(shù)等，進(jìn)行多模態(tài)學(xué)習(xí)，從而更全面地理解

和表達(dá)情感。解決情感表達(dá)匱乏是音樂(lè)生成類產(chǎn)品商業(yè)化的關(guān)鍵，用戶增長(zhǎng)依賴AI音樂(lè)的社交屬性目前，音樂(lè)生成產(chǎn)品在情感理解和表達(dá)上相對(duì)簡(jiǎn)單，無(wú)法完成更高水準(zhǔn)的音樂(lè)創(chuàng)作。一方面是當(dāng)前的模型在情感的理解上有局限。未來(lái)，跨模態(tài)理解有望幫助AI模型更

好地理解人類情感。此外，AI音樂(lè)也將通過(guò)強(qiáng)社交屬性打開音樂(lè)市場(chǎng)，獲得更多受眾。AI音樂(lè)+社交的組合帶來(lái)“人人皆可創(chuàng)作”的效應(yīng)，使其成為天然的社交高地。類比于短視頻時(shí)代的視頻創(chuàng)作，當(dāng)創(chuàng)作門檻被拉低后，每個(gè)人都能夠成為創(chuàng)作者和分享者。創(chuàng)作平臺(tái)不僅承擔(dān)了發(fā)布渠道的功能，也衍生出分享和社交的功能。Suno創(chuàng)始人對(duì)于音樂(lè)生成的愿景是“讓音樂(lè)成為一種社交載體，所有人隨時(shí)隨地制作音樂(lè)并且分享出

來(lái)”

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

【量子位智庫(kù)】AI音樂(lè)應(yīng)用產(chǎn)業(yè)報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

【量子位智庫(kù)】AI音樂(lè)應(yīng)用產(chǎn)業(yè)報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔