深度解密人工智能內(nèi)容生成的發(fā)展與現(xiàn)狀_第1頁
深度解密人工智能內(nèi)容生成的發(fā)展與現(xiàn)狀_第2頁
深度解密人工智能內(nèi)容生成的發(fā)展與現(xiàn)狀_第3頁
深度解密人工智能內(nèi)容生成的發(fā)展與現(xiàn)狀_第4頁
深度解密人工智能內(nèi)容生成的發(fā)展與現(xiàn)狀_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

工智能內(nèi)容生成的發(fā)展與現(xiàn)狀 去中心化媒體和研究組織DAOrayaki公開資助THUBADAO展開獨立課題研究,并進行公開成果分享。研究主題主要聚焦在Web3、DAO等相關(guān)領(lǐng)Web3.0與區(qū)塊鏈的應(yīng)用則決定生產(chǎn)關(guān)系與用戶主權(quán)。但我們必須認識到AIGC和Web3是兩個不同的方向。AIGC作為使用AI技術(shù)的生產(chǎn)工具,既可以應(yīng)用于Web2世界,也可以應(yīng)用于Web3世界。到目前為止,大多數(shù)已經(jīng)開發(fā)的項目仍然在Web2領(lǐng)域。把兩者放在一起談話是不合適的。而Web3希望借助區(qū)塊鏈和智能合約技術(shù),讓用戶擁有虛擬資產(chǎn)的主權(quán)。它與創(chuàng)建模式之間本沒有直接聯(lián)系。本文將從以下四個方面解密AIGC的發(fā)展與現(xiàn)狀進行:內(nèi)容創(chuàng)造形式的演變技術(shù)測概況AIGC的行業(yè)應(yīng)用AIGC與Web3第一部分:內(nèi)容創(chuàng)造形式的演變可以分成三個階段:第一個階段是PGC(Professionally-GeneratedContent),專家生成內(nèi)容,由擁有內(nèi)容相關(guān)領(lǐng)域資質(zhì)的專業(yè)團隊進行創(chuàng)作,門檻與成本較高,質(zhì)量有一定保障,追求電視劇電影等商業(yè)化渠道的收益,代表項目就是以愛優(yōu)騰為首的視頻平臺。在這些平臺上,用戶更多地是去接收和搜索視頻資源來收看,類似于Web1.0的概念。但這一階段創(chuàng)作權(quán)掌握在少數(shù)專業(yè)人士手中,普通創(chuàng)作者的成果很難被大眾看見。在第二階段衍生出了一系列的UGC平臺(User-generatedContent,用戶生產(chǎn)內(nèi)容),如Twitter,YouTube,國內(nèi)愛優(yōu)騰等視頻平臺。在這些平臺上用戶不僅是接收者,也可以是內(nèi)容的提供方,內(nèi)容生產(chǎn)的規(guī)模極大地擴張了,但用戶生產(chǎn)的內(nèi)容質(zhì)量則參差不齊,可以將它看作是Web2.0時代的內(nèi)容創(chuàng)作。那么Web3.0時代的內(nèi)容創(chuàng)作生態(tài)是?AIGC和web3的關(guān)聯(lián)在哪里?AIGC(AIgeneratedContent,人工智能生成內(nèi)容),指由人工智能幫助甚至取代人類進行內(nèi)容創(chuàng)作,可以作為強大的生產(chǎn)力工具,幫助解決Web3.0和元宇宙中的一些實際問題。它生產(chǎn)頻率更快,并且可以定制風格,滿足每個人的需求。它擁有無限規(guī)模的內(nèi)容創(chuàng)作靈感,效果也不會太第二部分:技術(shù)測概況AIGC技術(shù)的快速發(fā)展始于GAN(生成對抗網(wǎng)絡(luò),2014)模型的發(fā)表。它由兩個模型組成:生成模型和判別模型。生成器生成“假”數(shù)據(jù)并試圖欺騙鑒別器;鑒別器驗證生成的數(shù)據(jù),并嘗試正確識別所有“假”數(shù)據(jù)。在訓練迭代的過程中,兩個網(wǎng)絡(luò)對抗中提升,直到達到平衡狀態(tài)。AIGC技術(shù)的快速發(fā)展始于GAN(生成對抗網(wǎng)絡(luò),2014)模型的發(fā)表。它由兩個模型組成:生成模型和判別模型。生成器生成“假”數(shù)據(jù)并試圖欺騙鑒別器;鑒別器驗證生成的數(shù)據(jù),并嘗試正確識別所有“假”數(shù)據(jù)。在訓練迭代的過程中,兩個網(wǎng)絡(luò)對抗中提升,直到達到平衡狀態(tài)。在GAN發(fā)表后的兩三年時間里,業(yè)內(nèi)對GAN模型進行了各種改造和應(yīng)用。2016年和2017年,在語音合成、情緒檢測、換臉等領(lǐng)域產(chǎn)生了一大谷歌在2017年開發(fā)的Transformer模型逐漸取代了LongandShortTermmemory(LSTM)等傳統(tǒng)RNN模型,成為NLP問題的首選模型。作為Seq2seq模型,它提出了注意力機制,計算每個單詞與其上下文的相關(guān)性,以確定哪些信息對手頭的任務(wù)最重要。與其他模型相比,Transformer速度更快,并且可以更長時間地保留有效信息。BERT(來自Transformer的雙向編碼器表示,2018)使用Transformer構(gòu)建了一個用于自然語言處理的完整模型框架。它在處理一系列自然語言處理任務(wù)上超越了現(xiàn)有的模型。BERT(來自Transformer的雙向編碼器表示,2018)使用Transformer構(gòu)建了一個用于自然語言處理的完整模型框架。它在處理一系列自然語言處理任務(wù)上超越了現(xiàn)有的模型。從那時起,模型的大小不斷增加,在最近兩年出現(xiàn)了GPT-3、InstructGPT和ChatGPT等一批大模型,其成本也呈幾何級數(shù)上升。現(xiàn)今的語言模型有三個特點:大模型、大數(shù)據(jù)、大計算能力。在上方的圖中可以看到模型參數(shù)的數(shù)量增加得有多快。有人甚至提出了語言模型的摩爾定律,——一年增長十倍。最新發(fā)布的ChatGPT模型有1750億個參數(shù),很難想象在這之后GPT-4中還有多少參數(shù)。ChatGPT的優(yōu)勢:引入了HFRL(HumanFeedbackRL,2022.03)技術(shù),在訓練數(shù)據(jù)集中增加了人的反饋,基于人的反饋進行優(yōu)化,但由于需要大量的人的注釋,成本進一步擴大。第二點是模型在回答問題時會有自己的原則。之前的聊天機器人在與用戶聊天時會將一些負面和敏感的內(nèi)容一并學習,最后學會謾罵,發(fā)表歧視言論。與之前的模型不同,ChatGPT可以識別惡意消息,然后拒絕給出答案。有記憶:ChatGPT支持連續(xù)對話,并能記住與用戶之前對話的內(nèi)容,因此經(jīng)過多輪對話用戶會發(fā)現(xiàn)它的答案在不斷提升。在參加2022年奇績創(chuàng)壇秋季營的55家公司中,有19家AI主題公司、15家元宇宙主題公司和16家大型模型主題公司。與AIGC相關(guān)的項目有十余個,其中一半以上是與圖像相關(guān)的。每個項目的詳細信息附在下Link:/rain/a/20221121A04ZNE00當下AIGC最火的細分賽道當屬圖像領(lǐng)域,歸功于StableDiffusion的行業(yè)應(yīng)用,圖像AIGC在2022年迎來了爆發(fā)式的增長。具體地,圖像AIGC賽道具有以下優(yōu)勢:與自然語言處理中的大模型相比,CV領(lǐng)域的模型尺寸相對較小,與Web3的契合度也更高,可以與NFT、元宇宙緊密聯(lián)系在一起。與文字相比,人們對圖片的閱讀成本更低,一直是一種更直觀和更容易被接受的表達形式。圖片的趣味性和多樣性更高,且該部分技術(shù)目前趨于成熟,正在快速在參加2022年奇績創(chuàng)壇秋季營的55家公司中,有19家AI主題公司、15家元宇宙主題公司和16家大型模型主題公司。與AIGC相關(guān)的項目有十余個,其中一半以上是與圖像相關(guān)的。每個項目的詳細信息附在下擴散模型2022年CVPR的論文《High-ResolutionImageSynthesiswithLatentDiffusionModels》通過向圖像中添加噪聲,可以將一張圖片變成隨機的噪聲圖片,擴散模型與之相反,學習如何去除噪聲。然后,該模型將這種去噪過程應(yīng)用于隨機的噪聲圖片,最終生成逼真的圖像。當前圖像AIGC領(lǐng)域也存在一些局限性,具體有下面幾點:模型需要在效果和效率之間做權(quán)衡,在秒級別還是難以生成準確的,用戶期待的定制效果。這些公司的運營和維護成本很高,需要大量的圖形顯卡設(shè)備來帶動他賽道中近期涌現(xiàn)大量初創(chuàng)公司,競爭激烈,但缺乏殺手級應(yīng)用程序。接下來再來討論下3D-AIGC,這是一個潛力較大的賽道,目前模型尚不成熟,但未來會成為元宇宙中的剛需的基礎(chǔ)設(shè)施。類似于2D圖像的生成,3D-AIGC項目能夠生成三維物品,進而甚至自動地渲染與構(gòu)建三維場景。當未來元宇宙得到普及之后,會對虛擬的三位資產(chǎn)有大量的需求。當用戶處于三維場景中時,用戶需要的不再是二維的圖片,而是三維的物體和場景。相比于生成二維圖像,在三維上生成虛擬資產(chǎn)需要考慮更多的東西。一個三維的虛擬物體由兩部分組成,一個是三維形狀,另一個是物體表面的花紋和圖案,我們稱之為紋理。因此一個模型需要選取三維虛擬資產(chǎn)可以分兩步生成。在我們獲得了一個3D對象的幾何圖形后,我們就可以通過紋理映射,環(huán)境貼圖等多種方法來賦予它表面的紋理。而在描述三維物體的幾何形狀時也需要考慮多種的表達方式有顯式的表達形式,比如網(wǎng)格和點云;也有代數(shù)、NeRF(神經(jīng)輻射場)等隱式的表達方式。具體需要選取適配模型的方式??傊覀冏罱K需要將所有的這些過程都集成到一起,組成一個文本到3D圖像的流程管線,管線比較長,在當下也尚未有成熟的應(yīng)用端模型出現(xiàn)。但擴散模型的流行會促使許多研究者進一步研究三維圖像生成技術(shù)。目前這一方向的技術(shù)模型也在快速迭代。相對于VR、XR等需要與人互動、對實時性有嚴格要求的技術(shù)。3DAIGC推的實時性要求更低低,應(yīng)用門檻和速度會更快一些。都說AIGC是web3.0時代的生產(chǎn)力工具,AIGC提供大量的生產(chǎn)力,而web3.0與區(qū)塊鏈的應(yīng)用則決定生產(chǎn)關(guān)系與用戶主權(quán)。但我們必須認識到AIGC和Web3是兩個不同的方向。AIGC作為使用AI技術(shù)的生產(chǎn)工具,既可以應(yīng)用于web2世界,也可以應(yīng)用于Web3世界。到目前為止,大多數(shù)已經(jīng)開發(fā)的項目仍然在Web2領(lǐng)域。把兩者放在一起談話是不合適的。而Web3希望借助區(qū)塊鏈和智能合約技術(shù),讓用戶擁有虛擬資產(chǎn)的主權(quán)。它與創(chuàng)建模式之間本沒有直接聯(lián)系。但兩者之間確實又有很多趨同之處:一方面,它們都依靠程序來優(yōu)化現(xiàn)有的生產(chǎn)和創(chuàng)作模型。AIGC用AI取代人類進行創(chuàng)造,Web3用智能合約、區(qū)塊鏈等去中心化程序取代人工中心化機構(gòu)。用機器代替人,不會有主觀的誤差和偏差,效率也會顯著提高。另一方面,Web3和元宇宙將對二維的圖片和音頻,三維的虛擬物體和場景有很大的需求,而AIGC是一個很好的滿足方式。但在web3.0的概念尚未普及到普羅大眾的當下,我們能看到涌現(xiàn)出的項目幾乎還是Web2的項目,在web3領(lǐng)域的應(yīng)用目前大量地還是停留在圖像生成的AIGC上,用于NFT的創(chuàng)作。其實在應(yīng)用端,AIGC和web3.0的聯(lián)系不能僅僅依靠“生產(chǎn)力”和“生產(chǎn)關(guān)系”之間的聯(lián)系,因為AIGC同樣也能給web2項目帶來生產(chǎn)力的提升,而web3項目的優(yōu)勢是不明顯的。所以,為了抓住AIGC發(fā)展的機遇,我認為當前web3項目需要在以下兩個優(yōu)化:一是尋求AIGC加持下的Web3.0原生項目,即只在Web3端能夠應(yīng)用的項目?;蛘邠Q句話說,去思考如何用AIGC解決Web3項目目前面臨的困境,這樣的解決方案也是Web3原生的。例如ReadOn用AIGC去生成文章quiz,開辟了ProofofRead的新模式,解決了ReadFi一直以來存在的刷幣問題,為真正閱讀的用戶提供代幣獎勵。這很難做到,但web3需要這樣的模式創(chuàng)新。二是用AIGC優(yōu)化現(xiàn)存Web3應(yīng)用的效率和用戶體驗。目前AIGC的應(yīng)用主要存在于圖像和NFT上,但其實創(chuàng)作是一個很寬泛的概念,除圖片外還有很多種其他的創(chuàng)作方式。上文提到的3D-AIGC是元宇宙中可供思考的應(yīng)用渠道,quiz生成也是一個眼前一亮的DAO和開發(fā)者平臺可以思考用AIGC來賦能教育,用于出題或者修改模塊化的代碼、生成單測等等;GameFi可以思考是否能用AIGC來充當游戲里的NPC;甚至能否借助AIGC的coding能力生成智能合約。視頻鏈接:/video/BV17D4y1p7EY/spm_id_from=333.99HYPERLINK"/video/B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論