




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
人工智能生成內(nèi)容(AIGC)白皮書前 言(ArtificialIntelligenceGenerated正在悄AIGC在AIGC在AIGCAIGCAIGC目 錄一、人工智能生成內(nèi)容的發(fā)展歷程與概念 1(一)AIGC歷史沿革 1(二)AIGC的概念與內(nèi)涵 4二、人工智能生成內(nèi)容的技術(shù)體系及其演進(jìn)方向 7(一)AIGC技術(shù)升級步入深化階段 7(二)AIGC大模型架構(gòu)潛力凸顯 10(三)AIGC技術(shù)演化出三大前沿能力 18三、人工智能生成內(nèi)容的應(yīng)用場景 26(一)AIGC+傳媒:人機(jī)協(xié)同生產(chǎn),推動媒體融合 27(二)AIGC+電商:推進(jìn)虛實交融,營造沉浸體驗 29(三)AIGC+影視:拓展創(chuàng)作空間,提升作品質(zhì)量 32(四)AIGC+娛樂:擴(kuò)展輻射邊界,獲得發(fā)展動能 35(五)AIGC+其他:推進(jìn)數(shù)實融合,加快產(chǎn)業(yè)升級 37四、人工智能生成內(nèi)容發(fā)展面臨的問題 38五、發(fā)展建議與展望 43(一)發(fā)展建議 43(二)未來展望 48圖目錄圖1AIGC發(fā)展歷程 4圖2AIGC多模態(tài)大模型生成結(jié)果圖 17圖3OpenAIAIGC多模態(tài)大模型DALLE2生成結(jié)果圖 18圖4AIGC的三大前沿能力 19圖5AIGC應(yīng)用視圖 27PAGEPAGE10一、人工智能生成內(nèi)容的發(fā)展歷程與概念1950年,艾倫·圖靈(AlanTuring)在其論文《計算機(jī)器與智能(ComputingMachineryandIntelligence)201843.25(ArtificialIntelligenceGenerated的(一)AIGC歷史沿革IC(205090年代中期(20902110(21世紀(jì)10年代中期至今)。早期萌芽階段(1950s-1990s),受限于當(dāng)時的科技水平,AIGC僅限于小范圍實驗。1957年,萊杰倫希勒(LejarenHiller)和倫納德(Leonard音符完成了歷史上第一支由計算機(jī)創(chuàng)作的音樂作品——弦樂四重奏(Illiac1966(Joseph和肯尼斯科爾比(KennethColby)重組完成交互任務(wù)。80年代中期,IBM基于隱形馬爾科夫鏈模型(HiddenMarkovModel,HMM)創(chuàng)造了語音控制打字機(jī)“坦戈拉20000個單詞。8090AIGC變。2006年,深度學(xué)習(xí)算法取得重大突破,同時期圖形處理器(rhcsroesgit,PsrPocsignt,AIGC20071TheRoad2012了一個全自動同聲傳譯系統(tǒng),基于深層神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,(2010s-至今2014AdversarialNetwork,GAN)AIGC2017100%2018達(dá)發(fā)布的StyleGAN第四代模型tleN-2019年DVD-GAN2021年,OpenAIDALL-E并于一年后推出了升級版本DALL-E-2,DALL-E-2來源:中國信息通信研究院圖1AIGC發(fā)展歷程(二)AIGC的概念與內(nèi)涵AIGC學(xué)研各界對于AIGC的理解是“繼專業(yè)生成內(nèi)容(ProfessionalGeneratedContent,PGC)和用戶生成內(nèi)容(UserGeneratedContent,國際上對應(yīng)的術(shù)語是“人工智能合成媒體(AI-generatedMedia或SyntheticAIGC既是從內(nèi)AIGC含義1維基百科:“人工智能合成媒體(AI-generatedMedia或SyntheticMedia)”/wiki/Synthetic_media中的技術(shù)部分。為了幫助不同領(lǐng)域的受眾群體更好的理解AIGC,我們從發(fā)展背景、技術(shù)能力、應(yīng)用價值三個方面對其概念進(jìn)行深入剖析。AIGCAIGC可用性AIGCAIGC技海量需求牽引AIGCMetaAIGCAIGC(AIGCAIGCAIGCAIGCAIGCAIGC加速二、人工智能生成內(nèi)容的技術(shù)體系及其演進(jìn)方向AIGC作為人工智能技術(shù)和產(chǎn)業(yè)應(yīng)用的要素之一,隨著技術(shù)能力的不斷迭代升級,正在降低內(nèi)容創(chuàng)作門檻、釋放創(chuàng)作能力,未來將推動數(shù)實融合趨勢下內(nèi)容創(chuàng)作的范式轉(zhuǎn)變。探討其能力體系的構(gòu)成,即賦能內(nèi)容創(chuàng)作的技術(shù)路徑,對制定領(lǐng)域內(nèi)標(biāo)準(zhǔn)、建立行業(yè)生態(tài)、爭取更加廣泛的開發(fā)者和應(yīng)用場景具有十分重要的意義。AIGCAIGCAIGCAIGC(一)AIGC技術(shù)升級步入深化階段AIGCAIGC早期的AIGCAIGCAIGC深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)范式2和網(wǎng)絡(luò)結(jié)構(gòu)上的不斷迭代極大的提升AIGC不AlexNet[1]ImageNet10.82013[2]AIGC技2人工智能的學(xué)習(xí)范式是指人工智能模型從數(shù)據(jù)中進(jìn)行學(xué)習(xí)的方法。2014[4][5][6]AIGC深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)升級是推動AIGC快速發(fā)展的另一主要因TransformerAIGC技術(shù)能力[7][8]AIGCAIGC[9,10]等(二)AIGC大模型架構(gòu)潛力凸顯超級深度學(xué)習(xí)近年來的快速發(fā)展帶來了深度神經(jīng)網(wǎng)絡(luò)技術(shù)在大AIGCAIGC態(tài)大型神經(jīng)網(wǎng)絡(luò)將引領(lǐng)AIGC3。AIGC感知能力3百度文心大模型:/;OpenAIDALL·E2大模型:/dall-e-2/;智源研究院大模型:/s/j8q018Lck1TWHO3NxQDiJQ向量機(jī)模型(SVM),其能完成的任務(wù)類型和感知能力都非常有限;在深度學(xué)習(xí)時代,主要基于深度神經(jīng)網(wǎng)絡(luò)模型,例如深度殘差網(wǎng)絡(luò)AIGC以視覺Transformer]2-3飛猛進(jìn)的發(fā)展。無監(jiān)督學(xué)習(xí)技術(shù),包括對比式自監(jiān)督學(xué)習(xí)(例如SiCR和MCo(例如ME技術(shù),即可在多種場景,線上線下均取得優(yōu)異的性能。近年來基于Transformer衍生出來一系列網(wǎng)絡(luò)結(jié)構(gòu),例如SwinTransformer[13]、Transformer[14,15]像解譯等多個感知任務(wù)上取得了相比于過去精心設(shè)計的多種算法模型更加優(yōu)異的性能和表現(xiàn)[16,17],有望成為基礎(chǔ)視覺模型Model),AIGCTransformerAIGCAIGCAIGC認(rèn)知能力AIGC在如今信息復(fù)雜的場景中,數(shù)據(jù)質(zhì)量參差不齊、任務(wù)種類多,導(dǎo)工智能的到來。例如,谷歌和OpenAI分別提出大規(guī)模預(yù)訓(xùn)練模型B[]和P[1]MetaV100上計算。(20226月v1基于語言的超級深度學(xué)習(xí)技術(shù)的發(fā)展趨勢主要體現(xiàn)在訓(xùn)練模型AIGCAIGC內(nèi)容創(chuàng)作能力大模型則可以學(xué)習(xí)到人類文明的抽象概念以及認(rèn)知的能力。然而AIGCAIGC4/leaderboardAIGCAIGC能力是進(jìn)行AIGC圖2 AIGC多模態(tài)大模型生成結(jié)果
來源:京東探索研究院如圖2所示,只需給定用戶簡單手繪的語義圖或是素描圖,多模OpenAIDALL-E23(3處添(1處5AIGC來源:OpenAI圖3 OpenAIAIGC多模態(tài)大模型DALLE2生成結(jié)果圖對于人工智能而言,能夠高質(zhì)量的完成多模態(tài)數(shù)據(jù)的對齊、轉(zhuǎn)換5/dall-e-2/AIGCAIGC(三)AIGC技術(shù)演化出三大前沿能力AIGCAIGC(4所示來源:京東探索研究院圖4AIGC的三大前沿能力增強(qiáng)與轉(zhuǎn)譯構(gòu)建數(shù)字內(nèi)容孿生能力內(nèi)容數(shù)字化是現(xiàn)今所有數(shù)字系統(tǒng)得以存在和運轉(zhuǎn)的前提,其過程的研究。智能數(shù)字內(nèi)容孿生可大致分為智能增強(qiáng)技術(shù)和智能轉(zhuǎn)譯技術(shù)兩[22]。數(shù)字內(nèi)容孿生中的智能轉(zhuǎn)譯技術(shù)是建立在對客觀世界內(nèi)容感知相比于較為成熟的語音/字幕合成,視覺內(nèi)容描述[23]是近年間學(xué)(智能轉(zhuǎn)譯技術(shù)更加關(guān)注數(shù)字世界中不同模態(tài)的數(shù)字內(nèi)容間相互理解、((理解與控制組成內(nèi)容編輯能力應(yīng)的知識和技能,這些知識可以被用來反哺解決現(xiàn)實世界中的問題6。6https:///omniverse/media-entertainment/不同年齡照片等新興應(yīng)用程序。模仿與概念學(xué)習(xí)造就內(nèi)容創(chuàng)作能力上述的數(shù)字內(nèi)容的孿生和編輯能力主要面向客觀世界中的真實內(nèi)容,通過對現(xiàn)實內(nèi)容的智能孿生、理解、控制和編輯,AIGC算法的智能創(chuàng)作旨在讓人工智能算法具備類似甚至超越人的創(chuàng)作能力。196854型在2487001771500014世紀(jì)207https:///a/557118794_362042AIGC應(yīng)用。三、人工智能生成內(nèi)容的應(yīng)用場景AIGC2AIGC
來源:中國信息通信研究院(一)AIGC+傳媒:人機(jī)協(xié)同生產(chǎn),推動媒體融合AIGC產(chǎn)過程中錄音整理方面的重復(fù)工作,進(jìn)一步保障了新聞的時效性。2022220143洛杉磯時報網(wǎng)站的機(jī)器人記者Quakebot,在洛杉磯地震發(fā)生后僅3分鐘,就寫出相關(guān)消息并進(jìn)行發(fā)布;美聯(lián)社使用的智能寫稿平臺20007DT1680字[26]。2020[27]2022年冬奧會期AIAIGCAIAI合成主播開創(chuàng)了新聞領(lǐng)域?qū)崟r語音及人物動畫合AIAI合AI合成主播開始陸續(xù)支持多語種播報和手語播報。2020順應(yīng)了信息化時代信息共享的發(fā)展潮流[28]。2022年冬奧會期間,百2D3DSaaS化平臺3DAIGCAIGC對傳媒從業(yè)者來說,AIGC可助力生產(chǎn)更具人文關(guān)懷、社會意義和經(jīng)濟(jì)價值的新聞作品;AIGC(二)AIGC+電商:推進(jìn)虛實交融,營造沉浸體驗隨著數(shù)字技術(shù)的發(fā)展和應(yīng)用、消費的升級和加快,購物體驗沉浸AIGC3DVR3D3D3D3D2D3D模型可720°全方位展示商品主體外觀,可大幅度降低用戶選品和溝通時間,3D202143D版3D3DAI生成服務(wù)3D購物的轉(zhuǎn)化率9Gucci[29]AIGC3D24一是0924二是IP20205IP人設(shè)崩塌,為品牌帶來負(fù)面新聞、差評及資金損失。3DGucciGucciGardenArchetypesRoblox20217360°2021月,Nike和RobloxNikelandRoblox3D(三)AIGC+影視:拓展創(chuàng)作空間,提升作品質(zhì)量AIGC20166Sunspring(Sci-FiLondon)48[30]2020OpenAI的大模型30000/8000多部、網(wǎng)絡(luò)小說超過500萬部。AIGC擴(kuò)展角色和場景創(chuàng)作空間。一是通過人工智能合成人臉、20202021FlawlessAI二是2017[31]。AIGC一是AIAIAI二是IBM90Morgan624小時。2D3D3D3D1000多倍。(四)AIGC+娛樂:擴(kuò)展輻射邊界,獲得發(fā)展動能而且間接滿足了現(xiàn)代人對歸屬感的渴望,重要性與日俱增。借助于AIGCCAI換臉為代表的AIGCFaceAPPAppStore免費下70567.382020年3QQ等多打造虛擬偶像,釋放IP價值。一是實現(xiàn)與用戶共創(chuàng)合成歌曲,是基于VOCALOID2012712二是AIVRIP次世文化共同打造的網(wǎng)紅翎Ling20205C2017AnimojiAI20203DAI攝一張照片,就能在幾秒內(nèi)快速生成一個可以模仿“我”的表情、動作的虛擬形象。在2021年的云棲大會開發(fā)者展區(qū),阿里云展示了最新技術(shù)2000(五)AIGC+其他:推進(jìn)數(shù)實融合,加快產(chǎn)業(yè)升級AIGCAIGC于AIGC原本字教學(xué)IC一方面AIGCAIGC通道的AIGC賦能診療全過程。在輔助診斷方面,AIGC可用于改善醫(yī)學(xué)圖像質(zhì)量、AIGCCAD(Computer-aidedDesign),AIGC還支持在設(shè)計中引入變化,實現(xiàn)動態(tài)模擬。如寶馬公司在其BMWVISIONNEXT100AIGC3D總體來看,AIGC正在發(fā)展成與其他各類產(chǎn)業(yè)深度融合的橫向結(jié)合體,四、人工智能生成內(nèi)容發(fā)展面臨的問題AIGCAIGC引發(fā)了一系列亟待解決的問題。AIGC定數(shù)據(jù)集上測試性能良好的算法很可能被少量隨機(jī)噪聲的輕微擾動AIAIGC語音隨著數(shù)字技術(shù)的開源開放,AIGC技術(shù)研發(fā)門檻、制作成本等不斷降低,近年來,各AIGC企業(yè)通過建立內(nèi)容審核機(jī)制的方式落實互聯(lián)網(wǎng)內(nèi)容治理主體責(zé)任,“機(jī)審人審”已成為其基本審核方式。在機(jī)審方面,審核準(zhǔn)確率受AIGCAIGC投入應(yīng)用,為抄襲侵權(quán)、內(nèi)容造假、惡意營銷等灰黑產(chǎn)業(yè)鏈提供溫床。三是當(dāng)前AIGC很2021320225AIGC技術(shù)在AIGC當(dāng)前創(chuàng)作20192020AIGC著作權(quán)AIGC技術(shù)8中華人民共和國國家互聯(lián)網(wǎng)信息辦公室:“人工智能生成內(nèi)容的著作權(quán)”,/2019-08/21/c_1124902661.htm.還有可能因人工智能的海量摹寫行為稀釋既有作品權(quán)利人的獨創(chuàng)性,五、發(fā)展建議與展望(一)發(fā)展建議深化正向引導(dǎo)、穩(wěn)步推進(jìn)監(jiān)管治理AIGCAIGCAIGCAIGCAIGCAIGCAIGCAIGC步完善保障AIGC((索明確AIGC會責(zé)任違法有害的AIGCAIGCAIGC作AIGC呼吁自律自治、共建產(chǎn)業(yè)發(fā)展生態(tài)AIGCAIAIGCAIGCAIGCAIGCAIGC加速工程實踐、積極履行社會責(zé)任AIGCAIGCAIGC職責(zé)構(gòu)建全民共享和多元共治發(fā)展格局AIGCAIGCAIGCMAIGC化公眾對于AIGC息保護(hù)和對不良AIGC眾作為AIGC(二)未來展望核心技術(shù)持續(xù)演進(jìn)AIGCAIGC對于圖像AIGCAIGCAIGC通過應(yīng)用大規(guī)模分布式AIGC交互算法的研究是時下緊迫且熱門的主題,也是AIGCAIGC模分布式深度學(xué)習(xí)技術(shù)和多智能體強(qiáng)化學(xué)習(xí)技術(shù)。大規(guī)模分布式AIGCGPU算平臺,如Pathways,DeepSpeed二是大規(guī)模多智能體網(wǎng)絡(luò)在分布式計算的框架下通過個體間的合作AIGC關(guān)鍵能力顯著增強(qiáng)AIGCXR套細(xì)節(jié)更豐富的虛擬鏡像,并依托新一代傳感器以及云邊端協(xié)同作業(yè),隨著AIGCAIGC(PGC)(UGC)AIGC產(chǎn)品類型逐漸豐富人是未來AIGCAR等技術(shù)和新AIGCAIGC來的某一天,人工智能能創(chuàng)造出酸甜苦辣外的另一種味道也未可知。場景應(yīng)用趨于多元目前,AIGCAIGC+數(shù)據(jù)科學(xué)1%Gartner2025AIGC+AIGC+Gartner2025(AIGC的工具之一[33]AIGC+AIGC+NFT(Non-Fungible)以外,AIGC旅+AIGC業(yè)字藏品將從目前缺乏實質(zhì)內(nèi)涵的虛擬貨品蛻變?yōu)閾碛刑囟o(jì)念意義生態(tài)建設(shè)日益完善AIGCAIGC賦能產(chǎn)業(yè)升級還是以AIGC自主釋放價值都將在此框架下健康有序發(fā)展。標(biāo)準(zhǔn)規(guī)范為AIGCAIGCAIGC,技術(shù)研更接近人類智力水平和審美標(biāo)準(zhǔn),同時應(yīng)用于各類行業(yè)各種場景。AIGCAIGC等AIGC參考文獻(xiàn)KrizhevskyA.,etal.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[J].AdvancesinNeuralInformationProcessingSystems,2012.KingmaD.,etal.Auto-encodingvariationalbayes[C].InInternationalConferenceonLearningRepresentations,2014.GoodfellowI.,etal.Generativeadversarialnets[J].AdvancesinNeuralInformationProcessingSystems,2014. Ganin,etal.Synthesizingprogramsforimagesusingreinforcedadversariallearning[C].InInternationalConferenceonMachineLearning,pages1666-1675,2018.RezendeD.,etal.InferencewithNormalizingFlows[C].InInternationalConferenceonMachineLearning,pages1530-1538,2015.Ho,J.,etal.Denoisingdiffusionprobabilisticmodels[J].AdvancesinNeuralInformationProcessingSystems,pages6840-6851,2020.Karras,etal.Astyle-basedgeneratorarchitectureforgenerativeadversarialnetworks[C].InComputerandPatternRecognition,pages4401-4410,2019.Mildenhall,B.,etal.Nerf:Representingscenesasneuralradiancefieldsforviewsynthesis[C].InEuropeanconferenceoncomputervision,pages405-421,2020.Repecka,D.,etal.Expandingfunctionalproteinsequencespacesusinggenerativeadversarialnetworks[J].NatureMachineIntelligence,pages324-333,2021.LuH.,etal.Machinelearning-aidedengineeringofhydrolasesforPETdepolymerization[J].Nature,pages662-667,2022.ZhangJ.,etal.Empoweringthingswithintelligence:asurveyoftheprogress,challenges,andopportunitiesinartificialintelligenceofthings[J].IEEEInternetofThingsJournal,2020,8(10):7789-7817.DosovitskiyA.,etal.Animageisworth16x16words:transformersforimagerecognitionatscale[C].InInternationalConferenceonLearningRepresentations.2021.Xuetal.visiontransformeradvancedbyexploringintrinsicinductivebias[J].AdvancesinNeuralInformationProcessingSystems,2021.ZhangQ.,etal.visiontransformeradvancedbyexploringinductivebiasforimagerecognitionandbeyond[J].arXivpreprintarXiv:2202.10108,2022.Xuetal.SimpleTransformerBaselinesforHumanPoseEstimation[J].arXivpreprintarXiv:2204.12484,2022.LiuZ.,etal.Swintransformerv2:scalingupcapacityandresolution[J].arXivpreprintarXiv:2111.09883,2021.D.,etal.AnEmpiricalStudyofRemoteSensingPretraining[J].IEEETransactionsonGeoscienceandRemoteSensing,2022.Devlin,J.,etal.Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding[C].InProceedingsoftheConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics.2019.Radford,A.,etal.Improvinglanguageunderstandingbygenerativepre-training[J].OpenAIReport.2018.Brown,etal.Languagemodelsarefew-shotlearners.InAnnualConferenceonNeuralInformationProcessingSystems[J].2020.JewittC..K.O'Halloran:multimodaldiscourseanalysis:systemicfunctionalperspectives.continuum,2004[J].AppliedLinguistics,Pages335–337,2006.Martin-BruallaR.,etal.Nerfinthewild:neuralradiancefieldsforuncons
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 綜合校準(zhǔn)系統(tǒng)戰(zhàn)略市場規(guī)劃報告
- 《生物化學(xué)》課程標(biāo)準(zhǔn)
- 冷庫貨物儲存合同范本
- 辦公材料訂購合同范本
- 化工空調(diào)采購合同范本
- 個人自我反省檢討書
- 個人工作犯錯檢討書
- 口腔治療合同范本
- 單位承包小區(qū)合同范例
- 養(yǎng)生館招募合伙人合同范本
- 2024-2025學(xué)年六年級數(shù)學(xué)人教版上冊寒假作業(yè)(綜合基礎(chǔ)復(fù)習(xí)篇含答案)
- DB33T 1134-2017 靜鉆根植樁基礎(chǔ)技術(shù)規(guī)程
- 樓梯塑料滴水線施工方案
- 《用電檢查與稽查》課件
- 心理健康主題班會課件73
- 缺血性心臟病麻醉
- 丙戊酸鈉與中樞神經(jīng)系統(tǒng)損傷保護(hù)的研究進(jìn)展
- 小紅書的運營技巧培訓(xùn)
- 員工上下班交通安全培訓(xùn)課件
- 2024年全國職業(yè)院校技能大賽中職組(短視頻制作賽項)考試題庫-下(多選、判斷題)
- 《ISO 41001-2018 設(shè)施管理- 管理體系 要求及使用指南》專業(yè)解讀與應(yīng)用指導(dǎo)材料之9:“6 策劃-6.2 設(shè)施管理目標(biāo)及其實現(xiàn)的策劃”(雷澤佳編制-2024)
評論
0/150
提交評論