傳媒行業(yè)AIGC市場(chǎng)分析_第1頁
傳媒行業(yè)AIGC市場(chǎng)分析_第2頁
傳媒行業(yè)AIGC市場(chǎng)分析_第3頁
傳媒行業(yè)AIGC市場(chǎng)分析_第4頁
傳媒行業(yè)AIGC市場(chǎng)分析_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

傳媒行業(yè)AIGC市場(chǎng)分析技術(shù)助力AIGC發(fā)展,長期看大模型+多模態(tài)成趨勢(shì)AI由分析轉(zhuǎn)向創(chuàng)造,22年AIGC產(chǎn)品集中發(fā)布AI技術(shù)逐漸實(shí)現(xiàn)從分析到創(chuàng)造的迭代。AI(ArtificialIntelligence)即人工智能,傳統(tǒng)的AI技術(shù)被稱為分析式AI(AnalyticalAI),偏向于分析數(shù)據(jù)并總結(jié)規(guī)律,同時(shí)將規(guī)律運(yùn)用到其他用途,比如運(yùn)用AI技術(shù)進(jìn)行垃圾郵件檢測(cè)、向用戶推薦感興趣的短視頻等。但隨著技術(shù)的迭代,AI已經(jīng)不僅僅局限于分析已有事物,而是開始創(chuàng)造有意義、具備美感的東西,即完成感知世界到創(chuàng)造世界的變遷,這種新型的技術(shù)被稱為生成式AI(GenerativeAI)。從定義上看,AIGC既是一種內(nèi)容形態(tài),也是一種內(nèi)容生成的技術(shù)合集,即生成式AI。從狹義上看,AIGC(AIGeneratedContent)是繼PGC(ProfessionalGeneratedContent)與UGC(UserGeneratedContent)之后的一種內(nèi)容形式,即利用人工智能技術(shù)生成的內(nèi)容。從廣義上看,AIGC指的是自動(dòng)化內(nèi)容生成的技術(shù)合集,基于生成算法、訓(xùn)練數(shù)據(jù)、芯片算力,生成包括文本、音樂、圖片、代碼、視頻等多樣化內(nèi)容。AIGC起源于20世紀(jì)50年代,經(jīng)過多年發(fā)展,在2022年AIGC產(chǎn)品集中發(fā)布,多款產(chǎn)品出圈,引發(fā)社會(huì)廣泛關(guān)注。據(jù)中國信通院,AIGC起源于20世紀(jì)50年代,萊杰倫·希勒和倫納德·艾薩克森完成歷史上第一只由計(jì)算機(jī)創(chuàng)作的音樂作品《依利亞克組曲》,但受制于技術(shù)水平,截至1990年,AIGC均僅限于小范圍實(shí)驗(yàn)。1990-2010年是AIGC的沉淀積累階段,AIGC逐漸從實(shí)驗(yàn)向?qū)嵱棉D(zhuǎn)變,但受限于算法瓶頸,效果仍有待提升。2010年以來,伴隨著生成算法、預(yù)訓(xùn)練模型、多模態(tài)技術(shù)的迭代,AIGC快速發(fā)展,2022年多款產(chǎn)品出圈。2022年8月,StabiltyAI發(fā)布StableDiffusion模型,為后續(xù)AI繪圖模型的發(fā)展奠定基礎(chǔ),由Midjourney繪制的《太空歌劇院》在美國科羅拉多州藝術(shù)博覽會(huì)上獲得“數(shù)字藝術(shù)”類別的冠軍,引發(fā)社會(huì)廣泛關(guān)注。2022年11月OpenAI推出基于GPT-3.5與RLHF(ReinforcementLearningfromHumanFeedback,人類反饋強(qiáng)化學(xué)習(xí))機(jī)制的ChatGPT,推出僅2月日活超1,300萬,據(jù)Forbes,2023年1月OpenAI的估值從2021年的140億美元提升到2023年1月的290億美元。此外,科技巨頭亦加碼布局AIGC,如微軟表示將自己的消費(fèi)者和企業(yè)產(chǎn)品中部署OpenAI的模型,宣布將OpenAI語言模型整合到Bing引擎和Edge瀏覽器中;谷歌在ChatGPT發(fā)布后亦加快AI自研,2023年2月7日正式發(fā)布下一代AI對(duì)話系統(tǒng)Bard,此外谷歌還投資ChatGPT的競(jìng)品Anthropic;國內(nèi)方面,據(jù)百度官網(wǎng),2023年2月7日,百度公布了大模型新項(xiàng)目文心一言(ERNIEBot),據(jù)彭博社,百度計(jì)劃在2023年3月將最初的版本將內(nèi)嵌到搜索服務(wù)中。生成算法、預(yù)訓(xùn)練模型、多模態(tài)技術(shù)成為AIGC發(fā)展的關(guān)鍵從技術(shù)上看,生成算法、預(yù)訓(xùn)練模型、多模態(tài)技術(shù)是AIGC發(fā)展的關(guān)鍵。從流程上看,算法接收數(shù)據(jù),進(jìn)行運(yùn)算并生成預(yù)訓(xùn)練模型,多模態(tài)技術(shù)則是將不同模型融合的關(guān)鍵。長期看大模型+多模態(tài)將成為趨勢(shì):#1生成算法持續(xù)優(yōu)化算法即解決問題的策略和機(jī)制,2014年伊恩·古德費(fèi)洛提出的GAN(GenrativeAdversarialNetwork,生成對(duì)抗網(wǎng)絡(luò))成為最早的AI生成算法。隨后Diffusion、Transformer、基于流的生成模型(Flow-basedmodels)、CLIP(ContrastiveLanguageImagePre-Training)等深度學(xué)習(xí)算法相繼被推出,其中Diffusion逐漸代替GAN成為圖像生成的主流模型,Transformer的推出為預(yù)訓(xùn)練模型奠定了基礎(chǔ),CLIP則廣泛應(yīng)用在多模態(tài)技術(shù)中。#2預(yù)訓(xùn)練模型持續(xù)完善2015年以前,小模型一度被認(rèn)為是行業(yè)發(fā)展的方向,但這些小模型更偏向處理分析性任務(wù),生成能力較弱。2017年谷歌研究院在《AttentionisAllYouNeed》中提出Transformer算法的概念,而Transformer能夠有效提取長序列特征,具備較高的計(jì)算效率和可擴(kuò)展性,大大降低訓(xùn)練時(shí)間。2018年谷歌發(fā)布基于Transformer的NLP(NaturalLanguageProcessing,自然語言處理)預(yù)處理模型BERT,標(biāo)志著人工智能進(jìn)入預(yù)訓(xùn)練模型時(shí)代。從流程上看,預(yù)訓(xùn)練模型采用兩階段學(xué)習(xí)法,即首先在大量的通用數(shù)據(jù)上訓(xùn)練并具備基礎(chǔ)能力,再結(jié)合多樣的垂直行業(yè)和場(chǎng)景對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),從而有效提升開發(fā)效率。隨著參數(shù)規(guī)模的擴(kuò)大,預(yù)訓(xùn)練模型在語言理解,圖像識(shí)別等領(lǐng)域迅速取得突破,所需的計(jì)算量也急劇增長。據(jù)紅杉資本,2015-2020年,用于模型訓(xùn)練的計(jì)算量增加了6個(gè)數(shù)量級(jí)。據(jù)騰訊研究院,按照類型分類,預(yù)訓(xùn)練模型包括:1)NLP(自然語言處理)模型,使得人與計(jì)算機(jī)能夠用自然語言有效通信,包括OpenAI的GPT系列,F(xiàn)acebook的M2M100;2)CV模型(ComputerVision,計(jì)算機(jī)視覺),運(yùn)用計(jì)算機(jī)及相關(guān)設(shè)備對(duì)生物視覺進(jìn)行模擬,比如微軟的Florence;3)多模態(tài)預(yù)訓(xùn)練模型,包含圖像、文字、視頻等多種形式,如谷歌的Image、StabilityAI的StableDuffusion等。#3多模態(tài)技術(shù)快速發(fā)展多模態(tài)技術(shù)(MultimodalTechnology)即將圖像、語音、視頻、文字等多模態(tài)融合的機(jī)器學(xué)習(xí)技術(shù),而CLIP(ContrastiveLanguage–ImagePre-training)的推出成為跨模態(tài)應(yīng)用生成的重要節(jié)點(diǎn)。CLIP在2021年由OpenAI開源推出,能夠?qū)⑽淖趾蛨D像進(jìn)行關(guān)聯(lián)且關(guān)聯(lián)特征豐富,后續(xù)“CLIP+其他模型”成為跨模態(tài)生成領(lǐng)域的較通用的做法,如DiscoDiffusion便是將CLIP與Diffusion模型進(jìn)行關(guān)聯(lián),用戶輸入文字指令便能夠生成相關(guān)的圖片。在多模態(tài)技術(shù)的加持下,預(yù)訓(xùn)練模型已經(jīng)從早期單一的NLP、CV向多模態(tài)、跨模態(tài)的方向發(fā)展。AIGC產(chǎn)業(yè)鏈基礎(chǔ)層/中間層/應(yīng)用層,中外差距約3年從產(chǎn)業(yè)鏈結(jié)構(gòu)來看,AIGC主要包括基礎(chǔ)層、中間層和應(yīng)用層,中外差距在3年左右。由于技術(shù)與投資環(huán)境差異,AIGC在我國大多作為公司的部分業(yè)務(wù)進(jìn)行開發(fā),獨(dú)立的初創(chuàng)公司數(shù)量較少,導(dǎo)致AIGC實(shí)際的場(chǎng)景開發(fā)較國外仍有差距。據(jù)量子位,中外公司的整體差距在3年左右,底層技術(shù)是核心原因。#1基礎(chǔ)層基礎(chǔ)層即預(yù)訓(xùn)練模型,構(gòu)成了AIGC的基礎(chǔ)。隨著預(yù)訓(xùn)練模型參數(shù)的增加,預(yù)訓(xùn)練所需要的數(shù)據(jù)量同樣快速提升,帶來較高的成本投入。據(jù)中國信通院與京東探索研究院發(fā)布的《人工智能生成內(nèi)容白皮書2022》,模型參數(shù)量已從最初的千萬級(jí)發(fā)展到了千億級(jí)別,訓(xùn)練代價(jià)也從數(shù)十天增長到幾十萬天(按在單張V100GPU計(jì)算)。據(jù)北京智源人工智能研究院,2020年OpenAI發(fā)布的NLP模型GPT-3的參數(shù)量約1,750億,訓(xùn)練數(shù)據(jù)量達(dá)45TB,模型訓(xùn)練成本近1,200萬美元。因此該領(lǐng)域的參與者主要是科技巨頭與頭部的研究機(jī)構(gòu),如OpenAI、谷歌、微軟、Meta、百度等。#2中間層中間層即垂直化、場(chǎng)景化、個(gè)性化的模型。在預(yù)訓(xùn)練模型的基礎(chǔ)上,能夠快速生成垂直化的小模型,實(shí)現(xiàn)流水線式的開發(fā),降低開發(fā)成本,提升效率。如StableDiffusion開源后多個(gè)繪畫模型基于StableDiffusion開發(fā),二次元繪畫領(lǐng)域包括知名的NovelAI,而昆侖萬維的天工巧繪SkyPaint模型則采用全球第一款多語言StableDiffusion分支模型,兼容StableDiffusion。據(jù)騰訊研究院,隨著大模型+多模態(tài)加速成長為通用性技術(shù)平臺(tái),模型即服務(wù)(Model-as-a-Service,MaaS)逐漸實(shí)現(xiàn),通過API授權(quán)有望助力AIGC變現(xiàn)。#3應(yīng)用層應(yīng)用層即面向C端的AIGC應(yīng)用。從模態(tài)上看,應(yīng)用層包括圖像、音頻、文本、視頻等,其中圖像領(lǐng)域代表產(chǎn)品包括MidJourney、DreamStudio等;音頻包括DeepMusic等;文本包括ChatGPT、Sudowrite等;視頻包括Runway等。從形式上看,應(yīng)用層包括App、網(wǎng)頁、小程序、聊天機(jī)器人等,將C端用戶與模型聯(lián)通,已經(jīng)逐漸滲透到生活中的各個(gè)領(lǐng)域,如MidJourney搭載在聊天軟件Discord中推出,ChatGPT則支持網(wǎng)頁直接登錄,國內(nèi)的如昆侖萬維的天工巧繪SkyPaint能夠通過微信小程序登錄,滿足用戶的多樣化需求。AIGC顛覆傳統(tǒng)生產(chǎn)模式,掀起全場(chǎng)景內(nèi)容生產(chǎn)力革命AIGC從效率、質(zhì)量、多樣性為內(nèi)容生產(chǎn)帶來革命AIGC技術(shù)的突破性進(jìn)展引發(fā)內(nèi)容生產(chǎn)方式變革,內(nèi)容生產(chǎn)由PGC(專業(yè)制作)和UGC(用戶創(chuàng)作)時(shí)代逐漸步入AIGC時(shí)代。AIGC順應(yīng)了內(nèi)容行業(yè)發(fā)展的內(nèi)在需求,一方面內(nèi)容消費(fèi)量增加,急需降低生產(chǎn)門檻,提升生產(chǎn)效率;另一方面用戶端表達(dá)意愿明顯上升,消費(fèi)者對(duì)內(nèi)容形態(tài)要求更高,內(nèi)容生成個(gè)性化和開放化趨勢(shì)明顯。AIGC通過其強(qiáng)大的生成能力廣泛服務(wù)于內(nèi)容生產(chǎn)的各類場(chǎng)景和內(nèi)容生產(chǎn)者,在內(nèi)容行業(yè)的應(yīng)用場(chǎng)景不斷增加和拓展,將在內(nèi)容生產(chǎn)中產(chǎn)生變革性影響。具體來看主要有以下三點(diǎn):1)自動(dòng)內(nèi)容生成,提升內(nèi)容生產(chǎn)效率,降低內(nèi)容生產(chǎn)門檻和內(nèi)容制作成本。當(dāng)前大量文本、圖像、音頻、視頻等內(nèi)容都可以通過AIGC技術(shù)自動(dòng)生成,高效的智能創(chuàng)作工具可以輔助藝術(shù)、影視、廣告、游戲、編程等創(chuàng)意行業(yè)從業(yè)者提升日常內(nèi)容生產(chǎn)效率。此外,自動(dòng)內(nèi)容生成可以降低內(nèi)容生產(chǎn)門檻和內(nèi)容制作成本,例如,借助AI編曲軟件可以自動(dòng)生成編曲,而人為創(chuàng)作大概需要7-10年的經(jīng)驗(yàn)積累。2)提升內(nèi)容質(zhì)量,增加內(nèi)容多樣性。AIGC生成的內(nèi)容可能比普通的人類創(chuàng)建的內(nèi)容質(zhì)量更高,大量數(shù)據(jù)學(xué)習(xí)積累的知識(shí)可以產(chǎn)生更準(zhǔn)確和信息更豐富的內(nèi)容,谷歌的Imagen生成的AI繪畫作品效果已經(jīng)接近中等畫師水平。而且AIGC可以幫助企業(yè)和專業(yè)人士創(chuàng)建更多樣化、更有趣的內(nèi)容,VQGAN可以生成抽象繪畫作品,不咕剪輯Cooclip內(nèi)置豐富的貼紙、音頻、經(jīng)典“?!彼夭牡?,可以增加視頻本身的玩法與樂趣。3)助力內(nèi)容創(chuàng)新,實(shí)現(xiàn)個(gè)性化內(nèi)容生成。AIGC將內(nèi)容創(chuàng)作中的創(chuàng)意和實(shí)現(xiàn)分離,替代創(chuàng)作者的可重復(fù)勞動(dòng),可以幫助有經(jīng)驗(yàn)的創(chuàng)作者捕捉靈感,創(chuàng)新互動(dòng)形式,助力內(nèi)容創(chuàng)新。例如AICG在設(shè)計(jì)初期生成大量草圖可以幫助美術(shù)創(chuàng)作者生成更多創(chuàng)作靈感。根據(jù)個(gè)人用戶的喜好生成個(gè)性化內(nèi)容,也有利于多種創(chuàng)意落地。AIGC發(fā)展中仍面臨法律、安全、倫理和環(huán)境等問題。首先,AIGC引發(fā)了新型版權(quán)侵權(quán)風(fēng)險(xiǎn),因版權(quán)爭(zhēng)議,國外藝術(shù)作品平臺(tái)ArtStation上的畫師們掀起了抵制AIGC生成圖像的活動(dòng)。其次,AIGC濫用容易引發(fā)信息內(nèi)容安全、內(nèi)生安全、詐騙違法犯罪行為等安全隱患,詐騙團(tuán)隊(duì)利用AIGC換臉偽造埃隆·馬斯克的視頻,半年詐騙價(jià)值超過2億人民幣的數(shù)字貨幣。再次,算法歧視等倫理問題依然存在,人工智能大規(guī)模替代人類勞動(dòng)引發(fā)爭(zhēng)議。最后,AIGC模型訓(xùn)練消耗大量算力,碳排放量巨大,對(duì)環(huán)境保護(hù)造成壓力。文本、音頻和圖像生成等落地相對(duì)較快,游戲等方向仍待成熟細(xì)分場(chǎng)景眾多,文本、音頻、圖像領(lǐng)域發(fā)展較快?;谀B(tài),我們認(rèn)為目前AIGC下游落地場(chǎng)景有文本、音頻、圖像、視頻、游戲、代碼、3D生成等。較之國外,我國AIGC行業(yè)仍處于剛起步階段,體系化發(fā)展等仍待完善。文本生成:AIGC目前可以較好地完成新聞播報(bào)等結(jié)構(gòu)化寫作、推薦相關(guān)內(nèi)容、幫助潤色等非結(jié)構(gòu)化內(nèi)容,同時(shí)在虛擬男/女友、心理咨詢等閑聊機(jī)器人中應(yīng)用較為廣泛。劇情續(xù)寫、營銷文本等非結(jié)構(gòu)化寫作與文本交互游戲等應(yīng)用尚未實(shí)現(xiàn)規(guī)?;瘧?yīng)用,未來或可實(shí)現(xiàn)文本生成的終稿達(dá)到人類平均水平甚至專業(yè)水平。圖像生成:隨著算法模型的不斷迭代,AI作畫水平不斷提高。在圖像編輯工具上,去除水印、提高分辨率、特點(diǎn)濾鏡等已較廣泛應(yīng)用。根據(jù)隨機(jī)或按照特點(diǎn)屬性生成畫作等的創(chuàng)意圖像生成,與根據(jù)指定要求生成營銷類海報(bào)、模特圖等的功能性圖像生成發(fā)展接近成熟。當(dāng)前圖像生成水平與專職藝術(shù)家、設(shè)計(jì)師和攝影師的產(chǎn)品設(shè)計(jì)作品存在一定差距。音頻生成:發(fā)展較為成熟,消費(fèi)與企業(yè)級(jí)的應(yīng)用正在鋪開。AIGC目前在語音克隆、生成虛擬人的特定歌聲/播報(bào)等的文本生成特定語言、包含作曲與編曲的樂曲/歌曲生成上得到廣泛應(yīng)用,代表企業(yè)和應(yīng)用的有倒映有聲、Deepmusic、網(wǎng)易-有靈智能創(chuàng)作平臺(tái)等。AI降噪去除壓縮和采樣中的噪音仍需改善,AI作曲不再機(jī)械化與人類創(chuàng)作音樂水平相仿,在未來值得期待。視頻生成:AIGC目前對(duì)于刪除特定主體、生成特效、跟蹤剪輯等的視頻屬性編輯已較廣泛應(yīng)用,視頻換臉等的視頻部分剪輯預(yù)計(jì)不久將規(guī)?;瘧?yīng)用,對(duì)特定片段進(jìn)行檢測(cè)與合成的視頻自動(dòng)剪輯發(fā)展仍不完善。當(dāng)前,全自動(dòng)生成長時(shí)間的視頻作品還不能實(shí)現(xiàn),距離依個(gè)人夢(mèng)想定制電影和劇集還較為遙遠(yuǎn)。其他(游戲/代碼/3D):代碼補(bǔ)全生成來替代程序員重復(fù)性勞動(dòng)的發(fā)展較為成熟,大量應(yīng)用已落地。游戲中游戲操作策略生成和NPC邏輯及劇情生成尚需進(jìn)一步完善,3D生成尚處于早期階段,3D模型、3D角色制作和3D場(chǎng)景尚未實(shí)現(xiàn)規(guī)模化應(yīng)用。3D、游戲、代碼自動(dòng)生成更加智能將成為未來的增長方向。AIGC的商業(yè)模式同樣處于持續(xù)探索的階段,由按量收費(fèi)等傳統(tǒng)方式向SaaS訂閱模式等應(yīng)用場(chǎng)景更靈活的方式拓展。AIGC讓AI公司為更多中小型企業(yè)甚至個(gè)人提供服務(wù),可規(guī)模化地降本增效,為AI行業(yè)帶來一種全新的可能性和商業(yè)模式。1)按量收費(fèi):AI技術(shù)傳統(tǒng)應(yīng)用模式主要以API接口對(duì)外開放,以實(shí)際使用量/訓(xùn)練量計(jì)算收費(fèi),如OpenAI的GPT3語言模型服務(wù)以每千tokens定價(jià)(OpenAI使用的字符計(jì)算單位,一千tokens約等于750個(gè)單詞),Ada/Babbage/Curie/Davinci四種模型的能力和產(chǎn)出速度不同,單價(jià)也有所不同,分別為$0.0004/0.0005/0.0020/0.0200每千tokens。圖像生成方面,DALL`E模型同樣按次收費(fèi),不同尺寸的圖像收費(fèi)不同,生成一張256x256/512x512/1024x1024像素的圖片,單次收費(fèi)$0.016/0.018/0.020。2)SaaS模式:AIGC為B端及C端用戶提供了會(huì)員SaaS收費(fèi)的模式,降低了傳統(tǒng)AI公司的客戶服務(wù)規(guī)?;碾y度。據(jù)OpenAI官網(wǎng),2023年OpenAI推出付費(fèi)版本的ChatGPTPlus,起價(jià)為每月20美元,提供更快的響應(yīng)速度,以及新功能和更新的有限使用權(quán)。美國AIGC公司Jasper主打AI生成文案服務(wù),以類SaaS服務(wù)收費(fèi),2021年成立當(dāng)年?duì)I收達(dá)4,500萬美元,以其Starter模式為例,基礎(chǔ)收費(fèi)是24美元/月,可以使用不超過2萬字;最高332美元/月,可以使用32萬字。3)其他:通過降本增效來增利、定制化服務(wù)付費(fèi)、個(gè)性化產(chǎn)品銷售等。市場(chǎng)積極探索其他場(chǎng)景商業(yè)化:在廣告營銷、影視、音樂、游戲、藝術(shù)品等領(lǐng)域AIGC有望繼續(xù)拓展更多樣化的商業(yè)化形式。藍(lán)色光標(biāo)推出的“銷博特”發(fā)布AIGC“創(chuàng)策圖文”營銷套件,該套件的定制版服務(wù)將銷博特營銷能力服務(wù)部署為企業(yè)自有云服務(wù),并根據(jù)企業(yè)個(gè)性化需求進(jìn)行二次開發(fā),構(gòu)建企業(yè)內(nèi)部營銷創(chuàng)意基礎(chǔ)設(shè)施平臺(tái),為企業(yè)提供專屬營銷策劃和創(chuàng)意內(nèi)容。AIGC的商業(yè)模式同樣處于持續(xù)探索的階段,由按量收費(fèi)等傳統(tǒng)方式向SaaS訂閱模式等應(yīng)用場(chǎng)景更靈活的方式拓展。AIGC讓AI公司為更多中小型企業(yè)甚至個(gè)人提供服務(wù),可規(guī)?;亟当驹鲂?,為AI行業(yè)帶來一種全新的可能性和商業(yè)模式。AIGC多場(chǎng)景快速落地,文本/圖像關(guān)注度較高文本:ChatGPT引領(lǐng)熱潮,大廠加碼布局交互式文本據(jù)量子位,AI文本生成分為交互式與非交互式。非交互式包括結(jié)構(gòu)化寫作,非結(jié)構(gòu)化寫作和輔助性寫作,其中結(jié)構(gòu)化寫作指基于數(shù)據(jù)或規(guī)范格式,在特定情況下生成的文本,如新聞、簡訊等;非結(jié)構(gòu)化寫作以創(chuàng)作型文本生成為主,具備更高的開放度。作為AIGC最早發(fā)展的技術(shù),AI文本生成已經(jīng)在新聞報(bào)道、商業(yè)營銷、客服機(jī)器人等領(lǐng)域廣泛落地。2022年11月30日,OpenAI推出的智能聊天工具ChatGPT引入RLHF機(jī)制,降低訓(xùn)練成本且效果優(yōu)化,不僅能夠?qū)栴}作出回答,還能完成短文和詩歌創(chuàng)作、代碼寫作、數(shù)學(xué)和邏輯運(yùn)算等任務(wù),據(jù)Similarweb,ChatGPT推出僅2月平均日活超1,300萬,引發(fā)社會(huì)廣泛關(guān)注??萍季揞^亦加碼布局交互式文本,微軟在2023年1月追加投資OpenAI,未來還計(jì)劃將ChatGPT整合到旗下的搜索引擎Bing中;谷歌通過內(nèi)部研發(fā)與投資ChatGPT的競(jìng)品Anthropic來應(yīng)對(duì)挑戰(zhàn),23年2月6日公布了與ChatGPT類似的對(duì)話服務(wù)Bard;據(jù)彭博社,百度計(jì)劃將ChatGPT類似程序嵌入搜索服務(wù)中。#1交互式文本在交互式文本當(dāng)中,最近熱度較高的ChatGPT是代表性應(yīng)用,展現(xiàn)出較強(qiáng)的智能水平。ChatGPT是OpenAI在2022年11月30日推出的人工智能聊天工具,其不僅能夠模仿人類的風(fēng)格作出問題回答,還能完成短文和詩歌創(chuàng)作、代碼寫作、數(shù)學(xué)和邏輯運(yùn)算等任務(wù)。據(jù)騰訊研究院,ChatGPT目前可以駕馭各種風(fēng)格和文體,能夠做到回答后續(xù)問題、承認(rèn)錯(cuò)誤、質(zhì)疑不正確的前提和拒絕不適當(dāng)?shù)恼?qǐng)求等。ChatGPT的內(nèi)容輸出質(zhì)量、內(nèi)容覆蓋維度,已經(jīng)可以直面“搜索引擎”與“問答社區(qū)”。據(jù)CNBC,ChatGPT通過了Google3級(jí)工程師的編碼面試,據(jù)NBCNews,沃頓商學(xué)院教授ChristianTerwiesch發(fā)現(xiàn)ChatGPT能夠以B-到B的成績通過該校MBA核心課程運(yùn)營管理的期末考試,展現(xiàn)出較強(qiáng)的智能水平。ChatGPT的出現(xiàn)迅速引起廣泛關(guān)注,僅推出2月平均日活超1,300萬,成為一款現(xiàn)象級(jí)的產(chǎn)品。ChatGPT用戶數(shù)在5天內(nèi)突破了100萬,據(jù)Similarweb,2023年1月每天平均有1,300萬獨(dú)立訪客使用ChatGPT,超12月的2倍,而這距離ChatGPT的推出僅2個(gè)月。ChatGPT強(qiáng)大的性能引發(fā)了社會(huì)的廣泛關(guān)注,特斯拉CEO馬斯克在Twitter上表示“許多人已經(jīng)陷入了ChatGPT的瘋狂循環(huán)中”,“我們離強(qiáng)大到危險(xiǎn)的AI不遠(yuǎn)了”;2023年2月,微軟創(chuàng)始人比爾蓋茨接受Forbes采訪時(shí)表示“AI將成為2023年最熱門的話題,ChatGPT這種人工智能技術(shù)出現(xiàn)的意義不亞于互聯(lián)網(wǎng)和PC的誕生”。ChatGPT引入RLHF機(jī)制,通過引入人類反饋,持續(xù)優(yōu)化模型效果。據(jù)OpenAI官網(wǎng),ChatGPT的模型在GPT-3.5的基礎(chǔ)上引入了RLHF(ReinforcementLearningfromHumanFeedback,人類反饋強(qiáng)化學(xué)習(xí))機(jī)制,這一模式增強(qiáng)了人類對(duì)于模型輸出結(jié)果的調(diào)整,對(duì)結(jié)果進(jìn)行更具理解性的排序,并提升訓(xùn)練效率,加速模型收斂。ChatGPT再獲微軟投資,合作持續(xù)加深,未來將集成至Bing搜索引擎與Edge瀏覽器中。據(jù)路透社,OpenAI在2019年獲得微軟10億美元的投資,2021年微軟對(duì)OpenAI追加了投資。據(jù)微軟官網(wǎng),微軟在2023年1月表示,作為兩家公司合作的第三階段,微軟將加大對(duì)supercomputingsystems的投資以支持OpenAI的發(fā)展。此外微軟未來會(huì)把自己的消費(fèi)者和企業(yè)產(chǎn)品中部署OpenAI的模型,并為客戶引入基于OpenAI技術(shù)的體驗(yàn),將OpenAI的技術(shù)構(gòu)建到GitHubCopilot和MicrosoftDesigner等,同時(shí)微軟仍然為OpenAI的獨(dú)家云提供商。從具體的落地層面看,2023年1月微軟CEO薩提亞·納德拉表示微軟旗下的Azure云服務(wù)即將整合ChatGPT技術(shù),2023年2月,微軟旗下的Teams推出嵌入ChatGPT的高級(jí)服務(wù),同時(shí)微軟宣布將OpenAI的語言模型整合到Bing搜索引擎和Edge瀏覽器中。據(jù)Theinformation,截至2023年1月,OpenAI估值達(dá)290億美元。ChatGPT在商業(yè)化路徑上持續(xù)探索,推出付費(fèi)版本ChatGPTPlus。OpenAI的CEOSamAltman在Twitter上表示,ChatGPT平均一次聊天成本在個(gè)位數(shù)美分,除了API外,公司正在探索更多的商業(yè)化變現(xiàn)模式,而ChatGPTPlus便是其中之一。據(jù)OpenAI官網(wǎng),2023年OpenAI推出付費(fèi)版本的ChatGPTPlus,起價(jià)為每月20美元,目前只對(duì)美國的用戶開放。據(jù)OpenAI官網(wǎng),ChatGPTPlus即使在高峰時(shí)段也可以訪問,有更快的響應(yīng),可以優(yōu)先使用新功能和改進(jìn)。谷歌通過內(nèi)部研發(fā)與投資應(yīng)對(duì)ChatGPT或帶來的顛覆性挑戰(zhàn)。據(jù)Insider,2022年12月,谷歌為ChatGPT帶來的威脅發(fā)布了“紅色警報(bào)”,著手進(jìn)行緊急應(yīng)對(duì)。應(yīng)對(duì)措施方面,谷歌一方面加快內(nèi)部研發(fā),據(jù)谷歌官網(wǎng),美國時(shí)間2023年2月6日,谷歌發(fā)布了與ChatGPT類似的對(duì)話服務(wù)Bard,目前Bard向測(cè)試人員開放,未來幾周將持續(xù)向公眾開放該服務(wù)。Bard基于谷歌的LaMDA模型(LanguageModelforDialogueApplications,用于對(duì)話場(chǎng)景的語言模型),能夠利用網(wǎng)絡(luò)上的信息提供最新的、高質(zhì)量的回答。此外,據(jù)TheIndependent,谷歌或?qū)⒃?023年通過子公司DeepMind推出聊天機(jī)器人Sparrow,可通過谷歌搜索引用特定的信息源,準(zhǔn)確性更強(qiáng)。谷歌也在通過投資持續(xù)布局相關(guān)領(lǐng)域。據(jù)金融時(shí)報(bào),2023年2月,谷歌投資AIGC初創(chuàng)公司Anthropic超3億美元,獲得了約10%股份。據(jù)Anthropic官網(wǎng),谷歌已經(jīng)與Anthroic簽署了一份大型云計(jì)算合同,Anthropic從谷歌云購買計(jì)算資源,谷歌提供AI模型算力。Anthropic在2021年由前OpenAI研究副總裁DarioAmodei建立,核心產(chǎn)品是與ChatGPT類似的聊天機(jī)器人Claude。國內(nèi)大廠對(duì)于ChatGPT的發(fā)展持樂觀態(tài)度,百度將集成文心一言至搜索引擎。騰訊研究院在2023年1月發(fā)布《AIGC趨勢(shì)報(bào)告2023》,對(duì)于ChatGPT的發(fā)展持樂觀態(tài)度,指出AIGC有望作為數(shù)據(jù)與內(nèi)容的強(qiáng)大生產(chǎn)引擎,升級(jí)甚至重塑內(nèi)容工具,申請(qǐng)的“人機(jī)對(duì)話方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)”專利可實(shí)現(xiàn)人機(jī)順暢溝通;京東集團(tuán)副總裁何曉冬表示京東會(huì)不斷結(jié)合ChatGPT的方法和技術(shù)點(diǎn),融入到產(chǎn)品服務(wù)中推動(dòng)人工智能的產(chǎn)業(yè)落地;據(jù)百度官網(wǎng),2023年2月7日,百度公布了大模型新項(xiàng)目文心一言(ERNIEBot),據(jù)彭博社,百度計(jì)劃在2023年3月將最初的版本將內(nèi)嵌到搜索服務(wù)中;阿里巴巴達(dá)摩院申請(qǐng)了“人機(jī)對(duì)話及預(yù)訓(xùn)練語言模型訓(xùn)練方法、系統(tǒng)及電子設(shè)備”的專利,積極布局AIGC。#2非交互式文本結(jié)構(gòu)化寫作已經(jīng)在新聞寫作、公司財(cái)報(bào)、客服類聊天問答等場(chǎng)景廣泛應(yīng)用。國外方面,代表性的垂直公司AutomatedInsights成立于2007年,旗下的Wordsmith是一個(gè)自然語言生成平臺(tái),能夠借助NLP技術(shù)將數(shù)據(jù)轉(zhuǎn)化成描述性的語言,據(jù)公司官網(wǎng),目前AutomatedInsights已經(jīng)在新聞寫作中具有較廣泛的應(yīng)用,下游的客戶包括雅虎、美聯(lián)社等主流媒體。國內(nèi)方面,小冰公司、騰訊、百度、字節(jié)、瀾舟科技等公司均有布局。瀾舟科技成立于2021年,主要產(chǎn)品是基于“孟子輕量化預(yù)訓(xùn)練模型”打造的一系列SaaS功能引擎,被廣泛應(yīng)用于包括搜索、生成、翻譯、對(duì)話等領(lǐng)域。字節(jié)推出的Xiaomingbot是新聞寫作機(jī)器人,該機(jī)器人在里約奧運(yùn)會(huì)上,共撰寫了457篇關(guān)于羽毛球、乒乓球、網(wǎng)球的消息簡訊和賽事報(bào)道。整體來看,目前結(jié)構(gòu)化寫作已具備較成熟的應(yīng)用,長期來看,NarrativeScience創(chuàng)始人預(yù)測(cè)到2030年90%以上的新聞將有AI寫作完成。非結(jié)構(gòu)化寫作開放度和技術(shù)要求更高,主要運(yùn)用在營銷和劇情寫作領(lǐng)域。據(jù)量子位,非結(jié)構(gòu)化寫作主要運(yùn)用在劇情寫作、營銷文本等領(lǐng)域,開放度和自由度更高,對(duì)于生成技術(shù)亦有更高的要求,而目前長篇文字在內(nèi)部邏輯上仍然有較明顯的問題,暫不適合直接使用,預(yù)計(jì)未來的4-5年或取得一定的突破。國外方面,代表性的公司包括谷歌、Anyword、Pencil、Copy.ai、Jasper等,其中Jasper成立于2021年,基于GPT-3訓(xùn)練模型,通過AI技術(shù)幫助企業(yè)完成社交媒體、廣告營銷、電子郵件等多種內(nèi)容,2022年10月,Jasper宣布獲得1.25億美元的A輪融資,估值達(dá)15億美元;谷歌的AI劇本寫作模型Dramatron則能夠自動(dòng)產(chǎn)生人物、位置、情節(jié)的描述并生成對(duì)話。國內(nèi)代表性公司為中文在線、彩云小夢(mèng)等,在彩云小夢(mèng)App中創(chuàng)作頁面輸入一段文字,便能夠生成三條不同的故事走向,用戶可以點(diǎn)擊選擇繼續(xù)或者讓彩云小夢(mèng)重新續(xù)寫,從而讓故事走向更加符合用戶的設(shè)定。中文在線的AI文字創(chuàng)作功能已在17K小說上線,作者在使用該功能時(shí),通過針對(duì)不同的描寫場(chǎng)景填寫關(guān)鍵詞和輔助短語,即可生成對(duì)應(yīng)的文字內(nèi)容描寫為作品使用。圖像:預(yù)訓(xùn)練模型迭代升級(jí),AI圖像生成迎機(jī)遇據(jù)量子位,AIGC圖像包括文字生成圖像、圖像屬性編輯、圖像部分編輯與圖像端到端生成,其中由文字到圖像的跨模態(tài)生成成為重點(diǎn)探索方向。從底層技術(shù)上看,Diffusion逐漸取代GAN成為圖像生成的主流模型,助推了AIGC圖像的發(fā)展。2022年8月,由Midjourney生成的《太空歌劇院》出圈,引發(fā)AI圖像生成的熱潮;2022年8月,StabilityAI推出StableDiffusion模型,成為AI圖像生成的里程碑,為后續(xù)圖像模型的更迭打下基礎(chǔ)。此外,OpenAI、谷歌在圖像模型上亦持續(xù)迭代;百度文心·一格則支持中國風(fēng)AI創(chuàng)作。據(jù)6pen,未來5年全球10-30%的圖像有望由AI生成或輔助生成,AI圖像領(lǐng)域展現(xiàn)出較大的潛力。早期AIGC圖像主要基于GAN模型,但生成效果欠佳。GAN模型主要由生成器(Generator)和判別器(Discriminator)兩部分組成,生成器負(fù)責(zé)模擬出與真實(shí)訓(xùn)練樣本類似的假數(shù)據(jù),并將假數(shù)據(jù)混入原始數(shù)據(jù)交由判別器區(qū)分,兩個(gè)模型相互博弈,直到生成器的假數(shù)據(jù)能夠以假亂真。早期的AIGC圖像主要基于GAN模型生產(chǎn),但是GAN存在訓(xùn)練難以收斂、模型坍塌、梯度消失等問題,造成訓(xùn)練結(jié)果冗余、圖像生成質(zhì)量差。Diffusion模型逐漸取代GAN成為主流模型,推動(dòng)圖像生成技術(shù)的發(fā)展。Diffussion受熱力學(xué)模型啟發(fā),通過增加高斯噪聲破壞訓(xùn)練數(shù)據(jù),然后通過反轉(zhuǎn)噪聲來恢復(fù)學(xué)習(xí)的數(shù)據(jù),經(jīng)過訓(xùn)練的模型便能夠應(yīng)用去噪方法來生成干凈的數(shù)據(jù)。Diffussion相對(duì)于GAN具有更靈活的模型框架和精確的對(duì)數(shù)似然,所需數(shù)據(jù)更少,但圖像生成效果較更佳,目前逐漸取代GAN成為新一代圖像生成的主流模型。#1文字生成圖像由Midjourney生成的《太空歌劇院》出圈,引發(fā)社會(huì)廣泛討論。Midjourney是一款搭載在Discord上的聊天機(jī)器人,玩家只需要@機(jī)器人并輸入相關(guān)的提示詞(Prompts)即可在1分鐘以內(nèi)生成4張圖片。憑借著極低的上手門檻和Discord社區(qū)加持,截至2023年2月4日,Discord數(shù)據(jù)顯示Midjourney在Discord約有980萬成員。2022年8月,由Midjourney生成的《太空歌劇院》在美國科羅拉多州藝術(shù)博覽會(huì)上獲得“數(shù)字藝術(shù)”類別的冠軍,使得AI繪畫引發(fā)了廣泛的關(guān)注,圍繞AI能夠替代藝術(shù)創(chuàng)作的討論熱度較高。StableDiffusion模型成為AI圖像領(lǐng)域的里程碑,Stability估值達(dá)10億美元。2022年8月,StabilityAI推出StableDiffusion模型,隨著算法和模型的持續(xù)優(yōu)化,StableDiffusion的運(yùn)行速度快、消費(fèi)資源及內(nèi)容較少,使用消費(fèi)級(jí)顯卡即可迅速生成高質(zhì)量的圖像,且該模型完全免費(fèi)開源,所有的代碼均在GitHub上公開,因此也為后續(xù)整個(gè)圖像模型的更迭打下基礎(chǔ)。據(jù)TechCrunch,截至2022年10月,已有超20萬開發(fā)者下載和獲得StableDiffusion的授權(quán),各渠道的累計(jì)日活已經(jīng)超過1,000萬;基于StableDiffusion,面向消費(fèi)者的AI智能繪圖軟件DreamStudio用戶數(shù)超150萬,已生成1.7億張圖片。2022年10月,StabiltyAI宣布獲得Coatue、LightspeedVenturePartners和O'ShaughnessyVenturesLLC投資的1.01億美元,估值達(dá)10億美元,躋身獨(dú)角獸行業(yè)。OpenAI持續(xù)迭代DALL·E模型,圖片畫質(zhì)、生成效率均有提升。2021年1月OpenAI發(fā)布模型DALL·E,能夠根據(jù)文本描述生成圖像,2022年4月,OpenAI公布了DALL·E2研發(fā)進(jìn)展。據(jù)量子位,從原理上看,DALL·E2是CLIP與Diffusion模型的結(jié)合,其中CLIP將文本嵌入轉(zhuǎn)變?yōu)閳D像嵌入,而圖像嵌入將通過調(diào)節(jié)擴(kuò)散(DiffusionDecoder)生成最終的圖像。DALL·E2與前一代相比圖像質(zhì)量提升了3倍,DALL·E2生成圖像畫質(zhì)為1024×1024,DALL·E畫質(zhì)為256×256,且生成的速度更快。此外DALL·E2能夠在更細(xì)的顆粒度上實(shí)現(xiàn)文本到圖像的轉(zhuǎn)化,能夠根據(jù)自然語言進(jìn)行P圖,同時(shí)會(huì)反饋陰影、紋理等元素的變化。谷歌的Imagen在寫實(shí)場(chǎng)景表現(xiàn)優(yōu)秀,Muse圖像生成效率更高。2022年5月,Google公布了自研的Imagen模型。據(jù)量子位,從技術(shù)上看,該模型并未采用CLIP+GAN或CLIP+Diffusion的常規(guī)做法,語言模型采用谷歌的T5-XXL,并僅負(fù)責(zé)編碼文本特征,圖像生成由一系列Diffusion模型構(gòu)成;從效果上看,Imagen在寫實(shí)場(chǎng)景中表現(xiàn)更加優(yōu)秀。2023年1月,Google發(fā)布了從文本生成圖像的Transformer模型Muse,與Imagen和DALL·E2等Diffusion模型相比,Muse由于采用離散標(biāo)記且需要更少的采樣迭代,生成效率顯著提升,據(jù)GoogleResearch與Dataconomy,在TPUv4芯片上,Muse生成512x512分辨率的圖像僅需1.3秒,較StableDiffusion1.4的3.7秒更快。百度推出國產(chǎn)基礎(chǔ)模型ERNIE-ViLG2.0,文心·一格支持中國風(fēng)AI創(chuàng)作。伴隨AI繪圖的火熱,國內(nèi)也出現(xiàn)了眾多的AI作圖產(chǎn)品,但這些產(chǎn)品大多基于DALL·E2或StableDiffusion等海外大模型,百度在2022年10月發(fā)布的ERNIE-ViLG2.0是國內(nèi)首個(gè)在基礎(chǔ)模型方向取得突破的產(chǎn)品。據(jù)百度AI官網(wǎng),從技術(shù)上看,ERNIE-ViLG2.0通過引入視覺知識(shí)和語言知識(shí),提升模型跨模態(tài)語義理解能力與可控生成能力;在擴(kuò)散降噪過程中,通過混合專家網(wǎng)絡(luò)建模,增強(qiáng)模型建模能力,提升圖像的生成質(zhì)量;此外百度構(gòu)建了近2億的高質(zhì)量中文圖文數(shù)據(jù)對(duì)比,具備強(qiáng)大的中文語義理解能力,助力中國風(fēng)元素構(gòu)建。從應(yīng)用上看,ERNIE-ViLG2.0可以用于工業(yè)設(shè)計(jì)、動(dòng)漫設(shè)計(jì)、游戲制作、攝影藝術(shù)等場(chǎng)景,通過簡單描述,在幾十秒內(nèi)生成設(shè)計(jì)圖,提升效率、降低門檻?;贓RNIE-ViLG2.0,百度也推出了AI藝術(shù)與創(chuàng)意輔助平臺(tái)文心·一格,目前支持國風(fēng)、油畫、水彩、水粉、動(dòng)漫、寫實(shí)等十余種不同風(fēng)格高清畫作的生成。#2圖像屬性編輯據(jù)量子位,AI圖像屬性編輯包括去水印、自動(dòng)調(diào)整光影、設(shè)置濾鏡、修改顏色紋理、復(fù)刻/修改圖像風(fēng)格、提升分辨率等,類似于低門檻的PS(Photoshop)。在該領(lǐng)域布局的初創(chuàng)公司較多,并且谷歌、Adobe等大廠亦有涉及。國外方面,以Prisma為例,作為一款照片編輯器,在全球擁有1.2億用戶以及500款樣式庫,借助Prisma的AI自動(dòng)生成框架,用戶無需投入精力即可將照片轉(zhuǎn)化為藝術(shù)品;谷歌的RawNeRF技術(shù)能夠?qū)⒁雇碚掌翟耄送饽軐?D照片合成3D效果并調(diào)節(jié)焦點(diǎn);國內(nèi)的代表產(chǎn)品為美圖公司,旗下的美圖AI開放平臺(tái)專注于人臉技術(shù)、人體技術(shù)、圖像識(shí)別、圖像處理、圖像生成等核心領(lǐng)域,為客戶提供經(jīng)市場(chǎng)驗(yàn)證的專業(yè)AI算法服務(wù)和解決方案,目前接入的客戶包括歐萊雅、蘭蔻、寶潔等,助力圖像屬性處理;面向C端的美圖秀秀則通過醫(yī)美級(jí)去皺、面部豐盈、一鍵更換劉海等增值功能收費(fèi)。#3圖像部分編輯據(jù)量子位,圖像部分編輯包括部分更改圖像部分構(gòu)成與修改面部特征。英偉達(dá)的CycleGAN能夠自動(dòng)將一類圖片替換為另一類圖片,如支持將圖內(nèi)的斑馬和馬、蘋果和橘子等內(nèi)容進(jìn)行互換。修改面部特征方面,據(jù)量子位,Metaphysics支持調(diào)節(jié)照片的情緒、年齡和微笑,Metaphysics還是電影《Here》的唯一制定AI視覺特效供應(yīng)商。國內(nèi)方面,萬興科技推出的萬興愛畫App,支持AI修改局部畫面,支持通過文本修改,如輸入珍珠項(xiàng)鏈,可在圖片中添加。#4圖像端到端生成據(jù)量子位,AI圖像端到端生成包括草圖生成完整圖像、有機(jī)組合多張圖像生成新圖像、根據(jù)指定屬性生成目標(biāo)圖像等,按照?qǐng)鼍皠澐?,包括?chuàng)意圖像生成和功能型圖像生成,其中創(chuàng)意圖像多為NFT產(chǎn)品,功能性圖像包括營銷海報(bào)、用戶頭像等。國外方面,谷歌推出的ChimeraPainter可以將粗略草圖生成3D怪物圖像,垂直類公司包括VanceAI、DeepdreamGenerator、Rosebud.ai等,其中VanceAI旗下的VansPortrait,可在5秒內(nèi)將圖片變成繪畫、素描或動(dòng)畫。國內(nèi)的代表產(chǎn)品包括阿里鹿班、詩云科技、藍(lán)色光標(biāo)等,其中阿里鹿班支持海報(bào)、LOGO等設(shè)計(jì),據(jù)阿里技術(shù),阿里鹿班平均1秒鐘就能完成8,000張海報(bào)設(shè)計(jì),一天可以制作4,000萬張,2017年雙11設(shè)計(jì)約4億張banner海報(bào)。藍(lán)色光標(biāo)的銷博特通過結(jié)合人工智能、統(tǒng)計(jì)算法和多維數(shù)據(jù)庫,一鍵自動(dòng)化生成策劃案、消費(fèi)者洞察、營銷創(chuàng)意等內(nèi)容。音頻:集中應(yīng)用于TTS場(chǎng)景和樂曲/歌曲生成AIGC通過提取信息生成音頻,主要應(yīng)用于TTS(Text-to-speech)場(chǎng)景和樂曲/歌曲生成。其中,TTS技術(shù)已相當(dāng)成熟,廣泛應(yīng)用于客服及硬件機(jī)器人、有聲讀物制作、語音播報(bào)等,覆蓋新聞、電子書、虛擬IP、短視頻配音等多個(gè)領(lǐng)域,代表公司有倒映有聲、DeepMind、喜馬拉雅、百度等。通過AIGC可以簡化樂曲/歌曲生成的流程,降低音樂創(chuàng)作的門檻,可應(yīng)用于流行歌曲、樂曲、有聲書的內(nèi)容創(chuàng)作,以及視頻、游戲、影視等領(lǐng)域的配樂創(chuàng)作,大大降低音樂版權(quán)的采購成本,代表公司有AmperMusic、DeepMusic、騰訊、網(wǎng)易等。#1TTS場(chǎng)景:廣泛應(yīng)用于客服硬件機(jī)器人、有聲讀物制作、語音播報(bào)等TTS(Text-to-speech)技術(shù)為文字內(nèi)容有聲化提供規(guī)模化能力,在AIGC領(lǐng)域下技術(shù)已相當(dāng)成熟,廣泛應(yīng)用于客服及硬件機(jī)器人、有聲讀物制作、語音播報(bào)等。TTS技術(shù)是一種文字轉(zhuǎn)語音技術(shù),可以從文本中獲取足夠的信息用于語音合成。基于深度學(xué)習(xí)的端到端語音合成模式正在逐步替代傳統(tǒng)的拼接及參數(shù)法,可以通過豐富文本信息(如文本的深層情感、深層語義了解等)更好的表現(xiàn)其中的抑揚(yáng)頓挫,以及基于用戶較少的個(gè)性化數(shù)據(jù)得到整體的復(fù)制能力,代表模型包括WaveNet、DeepVoice及Tacotron等。TTS技術(shù)覆蓋新聞、電子書、虛擬IP、短視頻配音等多個(gè)領(lǐng)域。以倒映有聲為例,公司致力于打造AIGC神經(jīng)渲染引擎,率先布局AI數(shù)字分身IP生態(tài),并通過數(shù)字分身IP的人工智能來自主生成內(nèi)容。其獨(dú)家研發(fā)的無人驅(qū)動(dòng)數(shù)字分身可以實(shí)現(xiàn)內(nèi)容播報(bào)與交互功能輸出,覆蓋新聞資訊播報(bào)、有聲讀物制作、自媒體有聲化、虛擬IP聲音定制、短視頻配音、金融領(lǐng)域數(shù)字人服務(wù)、文旅領(lǐng)域互動(dòng)、游戲娛樂聊天等多種場(chǎng)景,幫助提升內(nèi)容制作產(chǎn)能超200%,節(jié)省90%的制作成本。語音克隆對(duì)于電子書、動(dòng)畫、電影、以及虛擬人行業(yè)等有重要意義。語音克隆是本質(zhì)上屬于指定了目標(biāo)語音(如特定發(fā)言人)的TTS,該技術(shù)目前被應(yīng)用于虛擬歌手演唱、自動(dòng)配音等。喜馬拉雅運(yùn)用TTS技術(shù)在電子書、新聞等領(lǐng)域?qū)崿F(xiàn)了較廣的應(yīng)用,能夠高效地將新聞、書籍和文章中的大量文字信息轉(zhuǎn)為音頻,大幅提升了音頻的生產(chǎn)效率。運(yùn)用TTS技術(shù)喜馬拉雅重現(xiàn)單田芳聲音版本的《毛氏三兄弟》和歷史類作品,“單田芳聲音重現(xiàn)”賬號(hào)已經(jīng)上線6部專輯作品。百度語音合成團(tuán)隊(duì)使用李彥宏約1小時(shí)音頻素材,通過AIGC技術(shù)生成了《智能交通》有聲書。podcast.ai通過喬布斯的傳記和收集網(wǎng)絡(luò)上關(guān)于他的所有錄音,利用Play.ht的語言模型大量訓(xùn)練生成JoeRogan采訪喬布斯的播客內(nèi)容。#2樂曲/歌曲生成:已推出AI音樂創(chuàng)作平臺(tái)和作曲軟件AIGC可以簡化樂曲/歌曲生成的流程,降低音樂創(chuàng)作的門檻。AIGC在詞曲創(chuàng)作中的功能可被逐步拆解為作詞(NLP中的文本創(chuàng)作/續(xù)寫)、作曲、編曲、人聲錄制和整體混音。AIGC能通過強(qiáng)大的數(shù)字處理能力兼顧歌曲從制作到演唱的全流程,實(shí)現(xiàn)化繁為簡,在短時(shí)間內(nèi)完成音樂作品創(chuàng)作。目前,AIGC已經(jīng)支持基于開頭旋律、圖片、文字描述、音樂類型、情緒類型等生成特定樂曲。AI編曲基于主旋律和創(chuàng)作者個(gè)人的偏好,生成不同樂器的對(duì)應(yīng)和弦完成整體編配,多家公司已推出AI音樂創(chuàng)作平臺(tái)和作曲軟件。AI編曲在特定樂曲/情緒風(fēng)格內(nèi)學(xué)習(xí)主旋律和特定要素間的映射關(guān)系,從而基于主旋律生成自身所需和弦。AmperMusic于2019年推出首個(gè)人工智能作曲平臺(tái)AmperScoreTM,可以根據(jù)項(xiàng)目的獨(dú)特性創(chuàng)作出符合風(fēng)格、長度和結(jié)構(gòu)的定制音樂,幫助使用素材音樂庫的視頻編輯者節(jié)省90%選擇音樂和編輯音樂的時(shí)間。DeepMusic開發(fā)了針對(duì)視頻生成配樂的配樂貓、支持非音樂專業(yè)人員創(chuàng)作的口袋音樂、可AI生成歌詞的LYRICA、AI作曲軟件LAZYCOMPOSER,從作詞、作曲、編曲、演唱、混音等方面全方位降低音樂創(chuàng)作及制作門檻。自動(dòng)編曲功能已在國內(nèi)主流音樂平臺(tái)上線,與虛擬偶像演出一同成為重點(diǎn)關(guān)注領(lǐng)域。QQ音樂成為AI音樂公司Ampermusic的API合作伙伴,騰訊AILab開發(fā)AI識(shí)圖作曲技術(shù)并推出AI虛擬偶像“艾靈”,可通過用戶提供的關(guān)鍵詞自動(dòng)生成歌詞并演唱;2022年1月網(wǎng)易推出首個(gè)人工智能音樂創(chuàng)作平臺(tái)網(wǎng)易天音;快手通過自主研究,推出了AI音樂創(chuàng)作模型和AI歌手,并邀請(qǐng)平臺(tái)內(nèi)的音樂人使用AI模型進(jìn)行歌曲創(chuàng)作。視頻:可實(shí)現(xiàn)視頻自動(dòng)編輯、視頻自動(dòng)生成和文字生成視頻等AIGC視頻生成可以降低視頻制作時(shí)間,主要應(yīng)用于視頻自動(dòng)編輯、視頻自動(dòng)生成和文字生成視頻等。其中,視頻自動(dòng)編輯具備視頻屬性編輯和視頻自動(dòng)剪輯兩大功能,視頻屬性編輯能幫助節(jié)省視頻制作時(shí)間,增加視頻玩法,視頻自動(dòng)剪輯在短視頻和直播領(lǐng)域被大量使用。代表公司有RunwayML、不咕剪輯、Adobe、IBM、網(wǎng)達(dá)軟件、閃剪、字節(jié)跳動(dòng)剪映和快手的云剪。視頻完全自動(dòng)生成仍處于技術(shù)嘗試階段,所生成視頻的時(shí)長、清晰度、邏輯程度等仍有較大的提升空間,已在動(dòng)畫制作應(yīng)用落地,代表公司和產(chǎn)品包括百度文心一格、小冰公司和Synthesia。文本生成視頻可以看作文本生成圖像的進(jìn)階版技術(shù),目前已有成熟產(chǎn)品,代表公司和產(chǎn)品包括Meta、谷歌、百度智能視頻合成平臺(tái)VidPress、Gliacloud、Pencil等。#1視頻自動(dòng)編輯:主要應(yīng)用于視頻屬性編輯和視頻自動(dòng)剪輯AIGC在視頻自動(dòng)編輯領(lǐng)域的應(yīng)用主要為視頻屬性編輯和視頻自動(dòng)剪輯兩類。針對(duì)視頻屬性編輯,AIGC可以實(shí)現(xiàn)視頻畫質(zhì)修復(fù)、刪除畫面中特定主體、自動(dòng)跟蹤主題剪輯、生成視頻特效、自動(dòng)添加特定內(nèi)容、視頻自動(dòng)美顏等;對(duì)于視頻自動(dòng)剪輯,AIGC可以基于視頻中的畫面、聲音等多模態(tài)信息的特征融合進(jìn)行學(xué)習(xí),按照氛圍、情緒等高級(jí)語義限定,對(duì)滿足條件片段進(jìn)行檢測(cè)并合成。視頻屬性編輯:視頻修復(fù)等功能幫助節(jié)省制作時(shí)間,特效等功能可以增加視頻玩法。RunwayML推出AI視頻創(chuàng)意工具平臺(tái)Runway,主打的AI輔助功能有三個(gè):綠幕功能,可以把選擇的對(duì)象以綠幕的方式作為視頻主題剪裁出來,通過點(diǎn)選的方式AI自動(dòng)補(bǔ)全貼合主題的輪廓;視頻修復(fù)功能,類似圖片的PS功能,周圍的背景通過AI計(jì)算進(jìn)行填充;運(yùn)動(dòng)功能,視頻效果(如標(biāo)題)可以跟隨主體運(yùn)動(dòng)。不咕剪輯Cooclip可以通過人工智能進(jìn)行視頻摳像分軌,內(nèi)置豐富的貼紙、音頻、經(jīng)典“?!彼夭牡?,可以增加視頻本身的玩法與樂趣。視頻自動(dòng)剪輯:目前主要在技術(shù)嘗試階段。Adobe與斯坦福共同研發(fā)的AI視頻剪輯系統(tǒng),可以將所有鏡頭包括多個(gè)角度拍攝的畫面按照腳本進(jìn)行組織,準(zhǔn)確的識(shí)別出需要剪輯的內(nèi)容,系統(tǒng)會(huì)利用面部識(shí)別和情緒識(shí)別系統(tǒng),對(duì)每一幀畫面進(jìn)行分析。IBMWatson自動(dòng)剪輯科幻電影《摩根》的預(yù)告片,制作預(yù)告片的時(shí)間縮減到24小時(shí),而通常需要10天到一個(gè)月。我國的公司影譜科技推出了相關(guān)產(chǎn)品,能夠基于視頻中的畫面、聲音等多模態(tài)信息的特征融合進(jìn)行學(xué)習(xí),按照氛圍、情緒等高級(jí)語義限定,對(duì)滿足條件片段進(jìn)行檢測(cè)并合成。AIGC在短視頻和直播領(lǐng)域被大量使用,短視頻自動(dòng)剪輯內(nèi)容更快更高效。網(wǎng)達(dá)視頻實(shí)時(shí)智能云剪系統(tǒng),可以邊直播、邊錄制、邊剪輯,實(shí)現(xiàn)分鐘級(jí)短視頻智能剪輯發(fā)布,具有集錦自動(dòng)制作、智能封面提取、熱點(diǎn)視頻自動(dòng)制作、全景直播拆條等功能。智能直播切片系統(tǒng)通過AI識(shí)別直播間的精彩片段,實(shí)現(xiàn)直播間內(nèi)容智能剪輯,再通過矩陣化運(yùn)營,帶來增量曝光與二次轉(zhuǎn)化。抖音和抖音的短視頻剪輯軟件剪映與云剪支持AI識(shí)別字幕和文本朗讀,智能封面、智能摳圖和綠幕摳圖等各功能,提升短視頻制作效率。#2視頻自動(dòng)生成:全自動(dòng)生成技術(shù)仍在嘗試,在動(dòng)畫、廣告和特定商務(wù)場(chǎng)景應(yīng)用落地不引用現(xiàn)有素材完全從頭生成視頻仍處于技術(shù)嘗試階段,在圖像生成的基礎(chǔ)上可以實(shí)現(xiàn)簡單的視頻短片制作,所生成視頻的時(shí)長、清晰度、邏輯程度等仍有較大的提升空間。目前的AI技術(shù)不僅可以生成圖片,也能夠生成序列幀,通過AI逐幀完成圖片生成,制作視頻短片。如2022年12月我國新華社與百度文心一格聯(lián)合推出AIGC視頻短片《AI描繪天宮盛宴》,進(jìn)一步提升了AI作畫的可控性、復(fù)雜構(gòu)圖和細(xì)節(jié)刻畫能力,AI作畫不再單純地輸出一幀幀高質(zhì)量圖片,而是基于統(tǒng)一的風(fēng)格,嘗試連續(xù)地講述一個(gè)完整的故事。AIGC在動(dòng)畫制作領(lǐng)域已經(jīng)開始商業(yè)化落地?!度c少年》由小冰公司日本分部(rinna)、WITSTUDIO與合作伙伴共同創(chuàng)作,該片采用rinna開發(fā)的AI輔助背景進(jìn)行制作,極大地簡化了從導(dǎo)演分鏡表到Layout“設(shè)計(jì)圖”的工序環(huán)節(jié),將手工著色的“設(shè)計(jì)圖”提交至AI生成細(xì)化并優(yōu)化背景,再對(duì)AI生成的背景圖進(jìn)行修正,進(jìn)而通過人工智能技術(shù)繪制完整動(dòng)畫場(chǎng)景。人臉合成等技術(shù)可以在廣告和特定商務(wù)場(chǎng)景得到應(yīng)用。廣告方面,可以選擇服務(wù)于明星,在多語言廣告、碎片化內(nèi)容生成等領(lǐng)域使用,快速提升明星的IP價(jià)值。例如Synthesia為SnoopDogg制作的廣告,通過使用deepfake改變其嘴部動(dòng)作,就能夠?qū)⒃紡V告匹配到另一品牌。除deepfake外,AIGC還可以實(shí)現(xiàn)在視頻中的虛擬內(nèi)容植入生成個(gè)性化廣告,也即利用計(jì)算機(jī)圖形學(xué)和目標(biāo)檢測(cè)在視頻中生成物理世界并不存在的品牌虛擬元素,如logo、產(chǎn)品、吉祥物等。在特定商務(wù)場(chǎng)景,AIGC可以應(yīng)用于培訓(xùn)材料分發(fā)(如WPP的全球培訓(xùn)視頻)、素人直播及短視頻拍攝等。#3文字生成視頻:已有成熟產(chǎn)品,Meta和谷歌競(jìng)爭(zhēng)激烈文本生成視頻可以看作文本生成圖像的進(jìn)階版技術(shù)。一方面,文本生成視頻同樣是以Token為中介,關(guān)聯(lián)文本和圖像生成,逐幀生成所需圖片,最后逐幀生成完整視頻。而另一方面,視頻生成會(huì)面臨不同幀之間連續(xù)性的問題。對(duì)生成圖像間的長序列建模問題要求更高,以確保視頻整體連貫流程。從數(shù)據(jù)基礎(chǔ)來看,視頻所需的標(biāo)注信息量遠(yuǎn)高于圖像。目前已經(jīng)進(jìn)入可商用階段,國外有較為成熟的產(chǎn)品。文字生成視頻需要基于文字(涉及NLP語義理解)搜索合適的配圖、音樂等素材,在已有模板的參考下完成自動(dòng)剪輯。代表公司/產(chǎn)品方面,ToC的包括百度智能視頻合成平臺(tái)VidPress、慧川智能、Gliacloud、Synths.video、lumen5,ToB端代表公司為Pencil。以百度智能視頻合成平臺(tái)VidPress為例,其工作原理與編輯制作視頻的步驟相似,先準(zhǔn)備文本腳本,收集媒體材料后將材料處理成視頻片段,將腳本配音與視頻對(duì)齊,最后編輯檢查。通過AI技術(shù),VidPress可以實(shí)現(xiàn)文字分析和摘要、視頻內(nèi)容搜索、素材智能化處理、音視頻對(duì)齊,以及智能剪輯等5個(gè)步驟的自動(dòng)化。兩大巨頭M

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論