2023AIGC智能創(chuàng)作時代_第1頁
2023AIGC智能創(chuàng)作時代_第2頁
2023AIGC智能創(chuàng)作時代_第3頁
2023AIGC智能創(chuàng)作時代_第4頁
2023AIGC智能創(chuàng)作時代_第5頁
已閱讀5頁,還剩188頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

AIGC智能創(chuàng)作時代2023PAGEPAGE102022年,在集群式和聚變式的科技革命中,人工智能生成內(nèi)容(AIGC,AIGeneratedContent)的科技革命系統(tǒng)、格局和生態(tài),進而深刻改變了思想、經(jīng)濟、政治和社會的演進模式。第一,AIGC的意義是實現(xiàn)人工智能“內(nèi)容”表達,以及人文科學、藝術和自然科學都要以具有實質(zhì)性的內(nèi)容作為基礎和前提。所以,沒有內(nèi)容就沒有人類文明。進入互聯(lián)網(wǎng)時代后,產(chǎn)生了所謂專業(yè)生成內(nèi)容(PGC),也出現(xiàn)了以此作為職業(yè)獲得報酬的職業(yè)生成內(nèi)容(OGC)。與此同時,“用戶生成內(nèi)容”(UGC)的概念和技術也逐漸發(fā)展,由此形成了用戶內(nèi)容生態(tài)。Web2.0的成熟和Web3.0時代的來臨。相較于PGC和OGC、UGC,AIGC通過人工智能技術實現(xiàn)內(nèi)容生成,并在生成中注入了“創(chuàng)作”,意味著自然智能所“獨有”和“壟斷”的寫作、繪畫、音樂、教育等創(chuàng)造性工作的歷史走向終結(jié)。內(nèi)容生成的四個階段如圖0-1所示。圖0-1內(nèi)容生成的四個階段第二,AIGC的核心技術價值是實現(xiàn)了“自然語言”括詞法、詞性、句法、語義的體系,也是不斷演進的動態(tài)體系。代表AIGC最新進展的是由OpenAI公司開發(fā)的ChatGPT(ChatGenerativePre-trainedTransformer)。它完成了機器學習算法發(fā)展中,自然語言處理領域的歷史性跨越,即通過大規(guī)模預訓練模型,形成人工智能技術理解自然語言和文本生成能力,可以生成文字、語音、代碼、圖像、視頻,且能完成腳本編寫、文案撰寫、翻譯等任務。這是人類文明史上翻天覆地的革命,開啟了任何階層、任何職業(yè)都可以以任何自然語言和人工智能交流,并且生產(chǎn)出從美術作品到學術論文的多樣化內(nèi)容產(chǎn)品。在這樣的過程中,AIGC“異化”為一種理解、超越和生成各種自然語言文本的超級“系統(tǒng)”。第三,AIGC的絕對優(yōu)勢是其邏輯能力。是否存在可以逐漸發(fā)展的邏輯推理能力是人工智能與生俱來的挑戰(zhàn)。AIGC之所以迅速發(fā)展,是因為AIGC基于代碼、云計算、技術操控數(shù)據(jù)、模式識別,以及通過機器對文本內(nèi)容進行描述、分辨、分類和解釋,實現(xiàn)了基于語言模型提示學習的推理,甚至是知識增強的推理,構(gòu)建了堅實的“底層邏輯”。不僅如此,AIGC于準確和規(guī)?;瘮?shù)據(jù),形成包括學習、抉擇、嘗試、修正、推理,甚至根據(jù)環(huán)境反饋調(diào)整并修正自己行為的能力;它可以突破線性思維框架并實現(xiàn)非線性推理,也可以通過歸納、演繹、分析,實現(xiàn)對復雜邏輯關系的描述。可以毫不夸張地說,AIGC已經(jīng)并繼續(xù)改變著21面貌。第四,AIGC實現(xiàn)了機器學習的集大成。21世紀的機器學習演化到了深度學習(Deeplearning)景挑戰(zhàn)。2014年生成對抗網(wǎng)絡(GAN)的出現(xiàn),加速了深度學習在AIGC領域的應用。AIGC實現(xiàn)了機器學習的集大成(圖0-2)。圖0-2機器學習常用算法資料來源:程序員zhenguo(2023),“梳理機器學習常用算法(含深度學習)”第五,AIGC開創(chuàng)了“模型”工智能內(nèi)容生成并行的時代,進而進入后者逐漸走向主導位置的時代。這意味著傳統(tǒng)人類內(nèi)容創(chuàng)作互動模式轉(zhuǎn)換為AIGC模型互動模式。2022年是重要的歷史拐點(圖0-3)。圖0-3人類生成內(nèi)容向AIGC轉(zhuǎn)換趨勢而在自然語言處理(NLP)系統(tǒng)中,“Transformer”是一種融入注意力機制和神經(jīng)網(wǎng)絡模型領域的主流模型和關鍵技術。Transformer具有將所處理的任何文字和句子“向量”或者“矢量”化,最大限度反映精準意義的能力。總之,沒有Transformer,就沒有NLP的突破;沒有大模型化的AIGC,ChatGPT升級就沒有可能。多種重要、高效的Transformer的集合模型如圖0-4所示。圖0-4多種重要、高效的Transformer的集合模型資料來源:Tayetal(2022),“EfficientTransformers:ASurvey”,doi:10.48550/arXiv.2009.06732第六,AIGC開放性創(chuàng)造力的重要來源是擴散(Diffusion)模型。擴散模型的概念最早在2015年的論文《利用非均衡熱力學的深度非監(jiān)督學習》(DeepUnsupervisedLearningUsingNonequilibriumThermodynamics)中被提出。[1]2020年,論文《去噪擴散概率模型》(DenoisingDiffusionProbabilisticModels)中提出DDPM模型用于圖像生成。[2]從技術的角度來看,擴散模型是一個潛在變量(LatentVariable)模型,通過馬爾可夫鏈(Markovchain)映射到潛在空間。[3]一般來說,AIGC因為吸納和依賴擴散模型,而擁有開放性創(chuàng)造力。2021年8月,斯坦福大學聯(lián)合眾多學者撰寫論文,將基于Transformer架構(gòu)等的模型稱為“基礎模型”(Foundationmodel),也常譯作大模型。Transformer推動了AI整個范式的轉(zhuǎn)變(圖0-5)。圖0-5基礎模型“Transformer”資料來源:Bommasanietal(2022),“OntheOpportunitiesandRisksofFoundationModels”,doi:10.48550/arXiv.2108.07258第七,AIGC的進化是參數(shù)以幾何級數(shù)擴展為基礎。AIGC的訓練過程,就是調(diào)整變量和優(yōu)化參數(shù)的過程。所以,參數(shù)的規(guī)模是重要前提。聊天機器人ChatGPT的問世,標志著AIGC形成以Transformer為架構(gòu)的大型語言模型(LargeLanguageModel,簡稱LLM)機器學習系統(tǒng),通過自主地從數(shù)據(jù)中學習,在對大量的文本數(shù)據(jù)集進行訓練后,可以輸出復雜的、類人的作品。AIGC形成的學習能力取決于參數(shù)的規(guī)模。GPT-2大約有15億個參數(shù),而GPT-3最大的模型有1750億個參數(shù),上升了兩個數(shù)量級。而且,它不僅參數(shù)規(guī)模更大,訓練所需的數(shù)據(jù)也更多。根據(jù)媒體報道但還未被證實的消息,GPT-4的參數(shù)可能將達到100萬億規(guī)模(圖0-6)。圖0-6GPT-4的參數(shù)規(guī)模根據(jù)學界經(jīng)驗,深度神經(jīng)網(wǎng)絡的學習能力和模型的參數(shù)規(guī)模呈正相關。人類的大腦皮層有140多億個神經(jīng)細胞,每個神經(jīng)細胞又有3萬多個突觸。所以,大腦皮層的突觸總數(shù)超過100億個。所謂的神經(jīng)細胞就是通過這些突觸相互建立聯(lián)系。假設GPT-4實現(xiàn)100萬億參數(shù)規(guī)模,堪比人的大腦,意味著它達到與人類大腦神經(jīng)觸點規(guī)模的同等水平。第八,AIGC的算力需求呈現(xiàn)顯著增長。數(shù)據(jù)、算法、算力是人工智能的穩(wěn)定三要素。根據(jù)OpenAI分析,自2012年以來,6年間AI算力需求增長約30萬倍(圖0-7)。圖0-7從AlexNet到AlphaGoZero:30萬倍的運算量增長資料來源:OpenAI(2018),“AIandCompute”,https:///blog/ai-and-compute/在可以預見的未來,在摩爾定律(Moore’sLaw)已走向失效的情況下,AI模型所需算力被預測每100天翻一倍,也就是“5年后AI所需算力超100萬倍”。[4]造成這樣需求的根本原因是AI的算力不再是傳統(tǒng)算力,而是“智能算力”,是以多維度的“向量”集合作為算力基本單位。和硬技術相輔相成。從廣義上講,AIGC的硬技術是AI芯片,而且是經(jīng)過特殊設計和定制的AI芯片。AI芯片需要實現(xiàn)CPU、GPU、FPGA和DSP共存。隨著AIGC的發(fā)展,計算技術的發(fā)展不再僅僅依靠通用芯片在制程工藝上的創(chuàng)新,而是結(jié)合多種創(chuàng)新方式,形成智能計算和計算智能技術。例如,根據(jù)應用需求重新審視芯片、硬件和軟件的協(xié)同創(chuàng)新,即思考和探索新的計算架構(gòu),滿足日益巨大、復雜、多元的各種計算場景。其間,量子計算會得到突破性發(fā)展。將為區(qū)塊鏈、NFT、Web3.0和元宇宙帶來深層改變。AIGC不可枯竭的創(chuàng)造資源和能力,將從根本上改變目前的NFT概念生態(tài)。Web3.0結(jié)合區(qū)塊鏈、智能合約、加密貨幣等技術,實現(xiàn)去中心化理念,而AIGC是滿足這個目標的最佳工具和模式。沒有懸念,在Web3.0的環(huán)境下,AIGC內(nèi)容將出現(xiàn)指數(shù)級增長。元宇宙的本質(zhì)是社會系統(tǒng)、信息系統(tǒng)、物理環(huán)境形態(tài)通過數(shù)字構(gòu)成了一個動態(tài)耦合的大系統(tǒng),需要大量的數(shù)字內(nèi)容來支撐,人工來設計和開發(fā)根本無法滿足需求,AIGC隨著AIGC體將是虛擬人,即經(jīng)過AIGC技術,特別融合ChatGPT技術,以代碼形式呈現(xiàn)的模型化的虛擬人。簡言之,區(qū)塊鏈、NFT、Web3.0,將賦予AIGC進化的契機。AIGC的進化,將加速廣義數(shù)字孿生形態(tài)與物理形態(tài)的平行世界形成。第十一,AIGC催生出全新的產(chǎn)業(yè)體系和商業(yè)化特征。AIGC利用人工智能學習各類數(shù)據(jù)自動生成內(nèi)容,不僅能幫助提高內(nèi)容生成的效率,還能提高內(nèi)容的多樣性。文字生成、圖片繪制、視頻剪輯、游戲內(nèi)容生成皆可由AI替代,并正在加速實現(xiàn),使得AIGC產(chǎn)業(yè)結(jié)構(gòu)。在產(chǎn)業(yè)生態(tài)方面,AIGC領域正在加速形成三層產(chǎn)業(yè)生態(tài)并持續(xù)創(chuàng)新發(fā)展,正走向模型即服務(MaaS)的未來(圖0-8)。圖0-8AIGC產(chǎn)業(yè)生態(tài)資料來源:騰訊《AIGC發(fā)展趨勢報告》,2023年1月31日發(fā)布伴隨AIGC生成算法的優(yōu)化與改進,AIGC對于普通人來說也不再是一種遙不可及的尖端技術。AIGC在文字、圖像、音頻、游戲和代碼生成中的商業(yè)模型漸顯。2B(toBusiness的簡稱)將是AIGC的主要商業(yè)模式,因為它有助于B端提高效率和降低成本,以填補數(shù)字鴻溝。但可以預見,由于AIGC“原住民”的成長,2C(toConsumer的簡稱)的商業(yè)模式將接踵而來。根據(jù)有關機構(gòu)預測,2030年的AIGC市場規(guī)模將超過萬億人民幣,其產(chǎn)業(yè)規(guī)模生態(tài)如圖0-9所示。圖0-9AIGC產(chǎn)業(yè)規(guī)模生態(tài)分布資料來源:陳李,張良衛(wèi)(2023),“ChatGPT:又一個“人形機器人”,東吳證券,https:///report/view_5185573.html現(xiàn)在,AIGC,特別是在語言模型領域的全方位競爭已經(jīng)開始。所以,發(fā)生了微軟對OpenAI的大規(guī)模投資,因為有這樣一種說法:“微軟下個十年的想象力,藏在ChatGPT里?!苯?,谷歌宣布推出基于“對話應用語言模型”(LaMDA)的Bard,實現(xiàn)其搜索引擎將包括人工智ChatGPT刺激谷歌開始“創(chuàng)新者困境”突圍。未來很可能出現(xiàn)Bard和ChatGPT的對決或共存,也就是LaMDA和GPT-3.5的對決和共存,構(gòu)成AIGC競爭和自然壟斷的新生態(tài)。組,相當多的職業(yè)可能衰落和消亡;其二,原本支持IT和AI產(chǎn)業(yè)的碼農(nóng)隊伍面臨嚴重萎縮。因為AIGC將極大地刺激全球外包模式并取代碼農(nóng)。第十二,AIGC的法律影響和監(jiān)管。雖然AIGC這樣的新技術提供了很多希望,但也會給法律、社會和監(jiān)管帶來挑戰(zhàn)。在中國,繼2022年1公安部、國家市場監(jiān)督管理總局聯(lián)合發(fā)布《互聯(lián)網(wǎng)信息服務算法推薦管理規(guī)定》后,2022年11月,國家互聯(lián)網(wǎng)信息辦公室再次會同工業(yè)和信息化部、公安部聯(lián)合發(fā)布《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》。該規(guī)定的第五章第二十三條,對“深度合成技術”內(nèi)涵做了規(guī)定:“利用深度學習、虛擬現(xiàn)實等生成合成類算法制作文本、圖像、音頻、視頻、虛擬場景等網(wǎng)絡信息的技術?!钡梢灶A見,由于AIGC技術日趨復雜,并將得到高速發(fā)展,國家很難避免監(jiān)管缺乏專業(yè)性和滯后性。第十三,AIGC正在引領人類加速逼近“科技奇點”正在經(jīng)歷一波人工智能驅(qū)動的全球思想、文化、經(jīng)濟、社會和政治的轉(zhuǎn)型浪潮。AIGC呈現(xiàn)指數(shù)級的發(fā)展增速,開始重塑各個行業(yè)乃至全球的“數(shù)字化轉(zhuǎn)型”。說到底,這就是以AIGC為代表,以ChatGPT為標志的轉(zhuǎn)型。這一切,在2023年會有長足的發(fā)展,特別是在資本和財富效益領域。[5]如果說,2022年8月的AI繪畫作品《太空歌劇院》(ThéatreD’opéraSpatial)推動AIGC進入大眾視野,那么,ChatGPT的底層模型GPT-3.5是一個劃時代的產(chǎn)物。它與之前常見的語言模型(BERT/BART/T5)的區(qū)別幾乎是導彈與弓箭的區(qū)別?,F(xiàn)在,呼之欲出的GPT-4,很可能通過圖靈測試。[6]如果是這樣,不僅意味著GPT-4系統(tǒng)可以改造人類的思想和創(chuàng)作能力,形成人工智能超越專業(yè)化族群和大眾化趨勢,而且意味著這個系統(tǒng)開始具備人類思維能力,并有可能在某些方面和越來越多的方面替代人類。[7]特別值得關注的是被稱為“人工智能激進變革先鋒”的BLOOM(大型開放科學獲取多語言模型)的誕生。從2021年3月11日到2022年7月6日,60個國家和250多個機構(gòu)的1000人員,在法國巴黎南部的超級計算機上整整訓練了117天,創(chuàng)造了BLOOM。這無疑是一場意義深遠的歷史變革的前奏。斯坦福大學心理學和計算機科學助理教授丹尼爾·亞明斯(DanielYamins)說過:“人工和自然之間似乎發(fā)生了某種趨同演化。[8]2005年,雷·庫茨維爾(RayKurzweil,1948—)的巨著《奇點臨近:當計算機智能超越人類》(TheSingularityIsNear:WhenHumansTranscendBiology)出版。該書通過推算奇異點指數(shù)方程,得出了這樣一個結(jié)論:“在2045在某項重要科技上,突然有了爆炸性的突破,而這項科技將完全顛覆現(xiàn)有的人類社會。它不是像手機這種小的奇異點,而是可以和人類誕生對等的超大奇異點,甚至大到可以改變整個地球所有生命的運作模式。”現(xiàn)在處于狂飆發(fā)展狀態(tài)的AIGC,一方面已經(jīng)開始呈指數(shù)形式膨脹,另一方面其“溢出效應”都開始了向AIGC速超越數(shù)字化時代,進入數(shù)字化和智能化時代,逼近可能發(fā)生在2045年的“科技奇點”。PAGEPAGE100前言從機器學習到智能創(chuàng)造不知道你有沒有想過這樣一個問題:是什么讓我們得以思考?從如同一張白紙的嬰兒,成長為洞悉世事的成人,正是長輩的教誨和十年寒窗塑造了我們?nèi)缃竦乃伎剂ΑW習,似乎就是智能形成的最大奧秘。迎來信息革命,一次又一次對生產(chǎn)力的改造讓人們相信,人類的智能最終也能創(chuàng)造出人工的智能。數(shù)十年前,圖靈拋出的時代之問“機器能思考嗎?”將人工智能從科幻拉至現(xiàn)實,奠定了后續(xù)人工智能發(fā)展的基礎。之后,無數(shù)計算機科學的先驅(qū)開始解構(gòu)人類智能的形成,希望找到賦予機器智能的蛛絲馬跡。正如塞巴斯蒂安·特倫所言:“人工智能更像是一門人文學科。其本質(zhì)在于嘗試理解人類的智能與認知?!比缤祟愅ㄟ^學習獲得智能一樣,自20世紀80器學習成為人工智能發(fā)展的重要力量。機器學習在造福人類的同時,似乎也暴露出了一些問題,這樣的人工智能并非人類最終期望的模樣,它缺少了人類“智能”二字所涵蓋的基本特質(zhì)——創(chuàng)造力。這個問題就好像電影《我,機器人》中所演繹的一樣,主角曾與機器人展開了激烈的辯論,面對“機器人能寫出交響樂嗎?”“機器人能把畫布變成美麗的藝術品嗎?”等一連串提問,機器人只能譏諷一句:“會?”這也讓創(chuàng)造力成為區(qū)分人類與機器最本質(zhì)的標準之一。面對廬山雄壯的瀑布時,李白寫出“飛流直下三千尺,疑是銀河落九天”慨眼前的壯麗美景;偶遇北宋繁榮熱鬧的街景時,張擇端繪制出《清明上河圖》這樣的傳世名畫,記錄下當時的市井風光與淳樸民風;邂逅漢陽江口的知音時,伯牙譜寫出《高山流水》,拉近了秋夜里兩位知己彼此的心靈。我們寫詩,我們作畫,我們譜曲,我們盡情發(fā)揮著創(chuàng)造力去描繪我們的所見所聞,我們因此成為人類的一分子,這既是智能的意義,也是我們生活的意義。但是,人類的創(chuàng)造力真的不能賦予機器創(chuàng)造力嗎?答案顯然是否定的。在埃米爾·博雷爾1913驗:假設猴子學會了隨意按下打字機的按鈕,當無限只猴子在無限臺打字機上隨機亂敲,并持續(xù)無限久的時間,在某個時刻,將會有猴子能打出莎士比亞的全部著作。雖然最初這只是一個說明概率理論的例子,但它也詮釋了機器具備創(chuàng)造力的可能性。只不過具備的條件過于苛刻,需要在隨機性上疊加無窮的時間量度。在科學家們的不懈努力下,這個時間量度被從無限縮減至了有限。隨著深度學習的發(fā)展和大模型的廣泛應用,生成型人工智能已經(jīng)走向成熟,人們沿著機器學習的路,探索出了如今的智能創(chuàng)造。在智能創(chuàng)作時代,機器能夠?qū)懺?,能夠作畫,能夠譜曲,甚至能夠與人類自然流暢地對話。人工智能生成內(nèi)容(AIGC)們工作與生活的方方面面。本書希望通過生動的比喻和有趣的案例,用淺顯易懂的語言,讓每個人都能真切地參與到這一次轟轟烈烈的科技革命中,一起迎接全新的智能創(chuàng)作時代。本書由杜雨、張孜銘負責統(tǒng)籌和編寫,其他對本書內(nèi)容做出貢獻的編寫者包括:胡宇節(jié)。AIGCPGC、UGC到AIGCAIGC助力元宇宙和Web3.0第二章AIGC的技術思想AIGC時代的技術奠基AIGCAI繪畫的推動者:Diffusion模型Transformer第三章AIGC的職能應用第AIGC第AIGC第AIGC第四章AIGC的行業(yè)應用AIGCAIGCAIGCAIGCAIGCAIGC第五章AIGC的產(chǎn)業(yè)地圖第六章AIGC的未來第一節(jié)AIGC的技術趨勢AIGCAIGC的風險與監(jiān)管AIGC產(chǎn)業(yè)地圖標的公司列表(部分AIGC術語及解釋AIGC后記專家推薦第一章AIGC:內(nèi)容生產(chǎn)力的大變革AIGC如何從生產(chǎn)力角度促進當今數(shù)字經(jīng)濟的發(fā)展?萬物的智能成本無限降低,人類的生產(chǎn)力與創(chuàng)造力得到解放?!侥贰ぐ柼芈⊿amAltman)人工智能經(jīng)歷了從科幻小說走向現(xiàn)實應用的漫長歷程,如今已走進人們的日常生活。幾十年前,科學家的普遍觀念也許如阿達·洛芙萊斯(AdaLovelace)所言:“機器不會自命不凡地創(chuàng)造任何事物,它只能根據(jù)我們能夠給出的任何指令完成任務。”計算機科學的先驅(qū)也許預料到了人工智能的迅猛發(fā)展,但我們相信他們依然會對今天人工智能取得的成就感到震驚。自工業(yè)革命以來,“是否具備創(chuàng)造力”就被視為人類和機器最本質(zhì)的區(qū)別之一。然而,今天的人工智能卻打破了持續(xù)數(shù)百年的鐵律。人工智能可以表現(xiàn)出與人類一樣的智慧與創(chuàng)意,例如撰寫詩歌、創(chuàng)作繪畫、譜寫樂曲,而人類創(chuàng)造出的智能又將反哺人類自身的智能。AIGC(ArtificialIntelligenceGeneratedContent,人工智能生成內(nèi)容)的興起極大地解放了人類的內(nèi)容生產(chǎn)力,將數(shù)字文明送入智能創(chuàng)作時代。我們有幸處于時代浪潮之巔,見證由技術進步帶來的全新變革。下面就讓我們一起走進AIGC的世界,探索智能創(chuàng)作時代的無限可能。第一節(jié)從PGC、UGC到AIGC生產(chǎn)力是推進社會變革的根本動力,而生產(chǎn)工具則是衡量生產(chǎn)力發(fā)展水平的客觀尺度,也是劃分經(jīng)濟時代的物質(zhì)標志。從鉆木取火到機器大生產(chǎn),生產(chǎn)力的發(fā)展推動了從農(nóng)業(yè)社會到工業(yè)社會的社會躍遷。自第三次科技革命之后,互聯(lián)網(wǎng)成為連接人類社會的主要媒介,內(nèi)容則是人們生產(chǎn)和消費的主要產(chǎn)品。互聯(lián)網(wǎng)經(jīng)歷了Web1.0、Web2.0、Web3.0與元宇宙時代,不同互聯(lián)網(wǎng)形態(tài)下也孕育了相輔相成的內(nèi)容生產(chǎn)方式,并一直沿用至今。表1-1呈現(xiàn)了內(nèi)容生產(chǎn)方式從PGC(Professional-GeneratedContent,專業(yè)生成內(nèi)容)到UGC(User-GeneratedContent,用戶生成內(nèi)容),再到AIGC的發(fā)展歷程。下面就讓我們一起來了解一下每個內(nèi)容生產(chǎn)時代的特點與故事吧!表1-1從PGC到UGC,再到AIGC的發(fā)展歷程一、PGC:專家創(chuàng)作時代20世紀90年代,伴隨著萬維網(wǎng)的誕生與推廣,互聯(lián)網(wǎng)領域迎來了投資創(chuàng)業(yè)的熱潮,正式進入了Web1.0階段。在這個階段,一種基于“信息經(jīng)濟”的全新商業(yè)模式孕育而生,互聯(lián)網(wǎng)技術提供商不僅提供技術服務,還能從生產(chǎn)與組織內(nèi)容的流量曝光中獲得收益。此時的互聯(lián)網(wǎng)是靜態(tài)互聯(lián)網(wǎng),大多數(shù)用戶只能在網(wǎng)上瀏覽和讀取信息,內(nèi)容的創(chuàng)建與發(fā)布只掌握在極少數(shù)專家手中。不過,這里的專家未必是內(nèi)容領域的專家,他們只是通過專業(yè)的方式將信息聚合在一起,便利地提供給用戶瀏覽,門戶網(wǎng)站、瀏覽器、搜索引擎是當時最主要的產(chǎn)品。通過專業(yè)方式聚量內(nèi)容,這種內(nèi)容生產(chǎn)方式被稱為PGC。雅虎的綜合指南網(wǎng)站以及亞馬遜的互聯(lián)網(wǎng)電影資料庫(IMDb)就是典型的產(chǎn)品代表,前者提供包含頻內(nèi)容的相關信息。在Web1.0階段,雖然互聯(lián)網(wǎng)上的主要內(nèi)容大多是由專家生產(chǎn)的,可以說是專家創(chuàng)作的時代,但后來諸多內(nèi)容平臺、互聯(lián)網(wǎng)媒體機構(gòu)、知識付費公司的創(chuàng)立與發(fā)展,才真正促使現(xiàn)在普遍意義上PGC概念的形成?,F(xiàn)在的PGC主要是指由專家與專業(yè)機構(gòu)負責生產(chǎn)內(nèi)容,因為他們具備專業(yè)的內(nèi)容生產(chǎn)能力,能夠保證內(nèi)容的專業(yè)性。對于內(nèi)容本身是否專業(yè)或許有不同的評價標準,但人們更多是從創(chuàng)作主體的性質(zhì)來界定內(nèi)容生產(chǎn)方式是否屬于PGC。根據(jù)創(chuàng)作主體過往的作品質(zhì)量,人們可以更統(tǒng)一地界定內(nèi)容的“專業(yè)性”。創(chuàng)作者一般會根據(jù)明確的用戶需求對內(nèi)容進行加工,借助高質(zhì)量內(nèi)容本身的原創(chuàng)性和價值賺取收益,例如版權(quán)作品、在線課程的銷售等。而高價值的內(nèi)容也會收獲更多用戶的關注,在獲得一定流量的基礎上,通過廣告等方式進行變現(xiàn)也是常見路徑之一。直至今日,這種最早出現(xiàn)的互聯(lián)網(wǎng)內(nèi)容生產(chǎn)方式依然陪伴在我們左右,無論是愛奇藝、騰訊視頻采購的影視劇綜,還是36氪、虎嗅等專業(yè)媒體平臺的新聞報道,抑或是得到、網(wǎng)易云課堂等平臺的音視頻課程,都屬于PGC的范疇。PGC雖然具有高質(zhì)量、易變現(xiàn)、針對性強等優(yōu)勢,但也存在著明顯長,由此帶來了產(chǎn)量不足、多樣性有限的問題。此外,由于生產(chǎn)成本上述原因,互聯(lián)網(wǎng)需要新的內(nèi)容生產(chǎn)形式來解決這些問題。二、UGC:用戶創(chuàng)作時代伴隨著互聯(lián)網(wǎng)的發(fā)展和網(wǎng)民數(shù)量的增多,用戶對多樣化和個性化內(nèi)容的需求也日漸增加。同時,許多用戶也不再滿足于單向的內(nèi)容接收,而是希望自己也能夠參與到內(nèi)容的創(chuàng)作之中。21世紀初,眾多社交媒體的出現(xiàn)迎合了這一需求,也宣告了互聯(lián)網(wǎng)演化到了Web2.0形態(tài)——互聯(lián)網(wǎng)。在Web2.0階段,用戶不僅是內(nèi)容的消費者,也是內(nèi)容的創(chuàng)作者,每一位用戶的創(chuàng)造力都得到了前所未有的彰顯。雖然PGC內(nèi)容生產(chǎn)方式依然存在,但井噴式增長的UGC內(nèi)容生產(chǎn)方式已成為時代的趨勢所向。所謂UGC,指的是由所有普通用戶生產(chǎn)內(nèi)容,這些內(nèi)容具有多樣化的特征,并借由推薦系統(tǒng)等平臺工具觸達與內(nèi)容匹配、具有相應個性化需求的用戶。專業(yè)與否早已不是互聯(lián)網(wǎng)內(nèi)容創(chuàng)作的門檻,非專業(yè)人士也可以創(chuàng)作出大眾喜歡的內(nèi)容,這也讓互聯(lián)網(wǎng)迎來了用戶創(chuàng)作時代。在用戶創(chuàng)作時代,整個互聯(lián)網(wǎng)的內(nèi)容豐富度都大大提升。貼吧、豆瓣等論壇平臺上,志同道合的用戶可以自由交流,一起探討感興趣的電影與書籍;微信、微博等社交平臺上,每個人都可以用圖文記錄自己的生活,同時也能了解到他人的生活;抖音、快手等自媒體平臺上,用戶可以拍攝并上傳自己創(chuàng)作的短視頻,在獲取大眾關注的同時,還能獲得各種流量變現(xiàn)的獎勵。各類內(nèi)容平臺的角逐,也逐漸從高質(zhì)量PGC內(nèi)容的生產(chǎn),轉(zhuǎn)向有利于UGC創(chuàng)作者生態(tài)的構(gòu)建。與PGC類似,UGC突出的內(nèi)容優(yōu)勢也必然伴隨著不可避免的痛點,極其豐富的內(nèi)容背后存在著內(nèi)容質(zhì)量參差不齊的問題,平臺方需要投入大量精力和成本去進行創(chuàng)作者教育、內(nèi)容審核、版權(quán)把控等方面的工作。此外,雖然從平臺層面,內(nèi)容生產(chǎn)供給的問題得到了解決,但對于每個創(chuàng)作者個體而言,依然面臨著內(nèi)容質(zhì)量、原創(chuàng)程度和更新頻率的不可能三角,即上述三個方面不可能同時做到。相較于PGC的團隊工作,UGC況下還能兼顧更新頻率。而與此同時,創(chuàng)作者數(shù)量的增多使競爭變得更者的窘境呼吁著內(nèi)容生產(chǎn)方式的全新變革,生產(chǎn)效率的提升已迫在眉睫。三、AIGC:智能創(chuàng)作時代面對互聯(lián)網(wǎng)內(nèi)容生產(chǎn)效率提升的迫切需求,人們突發(fā)奇想,是否能夠利用人工智能去輔助內(nèi)容生產(chǎn)呢?這種繼PGC、UGC之后形成的、完全由人工智能生成內(nèi)容的創(chuàng)作形式被稱為AIGC。正如人們最初眺望Web3.0時構(gòu)想的“語義網(wǎng)”一樣,未來的互聯(lián)網(wǎng)應該是更加智能的互聯(lián)網(wǎng),它不僅能夠讀懂各種語義信息,還能從信息角度解放人類的生產(chǎn)力。即便后來區(qū)塊鏈技術的蓬勃發(fā)展改變了Web3.0現(xiàn)出互聯(lián)網(wǎng)浩瀚的未來,但內(nèi)容的價值確權(quán)和虛擬空間的發(fā)展仍然需要更高效的內(nèi)容生產(chǎn)方式,AIGC也就凝聚了人們對于未來的期待。讓人工智能這樣的非人機器學會創(chuàng)作絕非易事,科學家在過往做了諸多嘗試,并將這一研究領域稱為生成式人工智能(GenerativeAI),主要研究人工智能如何被用于創(chuàng)建文本、音頻、圖像、視頻等各種模態(tài)的信息。為了便于理解,本書并不打算對生成式人工智能和AIGC的概念加以區(qū)分,在后續(xù)的內(nèi)容中將全部以AIGC作為指代。最初的AIGC通?;谛∧P驼归_,這類模型一般需要特殊的標注數(shù)據(jù)訓練,以解決特定的場景任務,通用性較差,很難被遷移,而且高度依賴人工調(diào)參。后來,這種形式的AIGC逐漸被基于大數(shù)據(jù)量、大參數(shù)量、強算法的大模型(FoundationModel)取代,這種形式的AIGC無須經(jīng)過調(diào)整或只經(jīng)過少量微調(diào)(Fine-tuning)就可以遷移到多種生成任務。2014年誕生的GAN(GenerativeAdversarialNetworks,生成對抗網(wǎng)絡)是AIGC早期轉(zhuǎn)向大模型的重要嘗試,它利用生成器和判別器的相互對抗并結(jié)合其他技術模塊,可以實現(xiàn)各種模態(tài)內(nèi)容的生成。而到了2017年,Transformer(變換器)架構(gòu)的提出,使得深度學習模型參數(shù)在后續(xù)的發(fā)展中得以突破1億大關,這種基于超大參數(shù)規(guī)模的大模型,為AIGC領域帶來了前所未有的機遇。此后,各種類型的AIGC應用開始涌現(xiàn),但并未獲得全社會的廣泛關注。2022年下半年,兩個重要事件激發(fā)了人們對AIGC的關注。2022年8月,美國科羅拉多州博覽會上,數(shù)字藝術類冠軍頒發(fā)給了由AI自動生成并經(jīng)由Photoshop潤色的畫作《太空歌劇院》,該消息一經(jīng)發(fā)布就引起了軒然大波。該畫作兼具古典神韻和太空的深邃奧妙,如此恢宏細膩的畫風很難讓人相信它是由AI自動生成的作品,而它奪得冠軍的結(jié)果也大大沖擊了人們過往對于“人工智能的創(chuàng)造力遠遜于人”的固有認知,自此徹底引爆了人們對于AIGC的興趣與討論,AIGC也從看似遙遠的概念逐步以生動有趣的方式走入人們的生活,帶來了過去令人難以想象的豐富體驗。2022年11月30日,OpenAI發(fā)布了名為ChatGPT的超級AI對話模型,再次引爆了人們對于AIGC的討論熱潮。ChatGPT不僅可以清晰地理解用戶的問題,還能如同人類一般流暢地回答用戶的問題,并完成一些復雜任務,包括按照特定文風撰寫詩歌、假扮特定角色對話、修改錯誤代碼等。此外,ChatGPT還表現(xiàn)出一些人類特質(zhì),例如承認自己的錯誤,按照設定的道德準則拒絕不懷好意的請求等。ChatGPT一上線,就引發(fā)網(wǎng)民爭相體驗,到處都是體驗與探討ChatGPT的文章和視頻。但也有不少人對此表示擔憂,擔心作家、畫家、程序員等職業(yè)在未來都將被人工智能所取代。雖然存在這些擔憂,但人類的創(chuàng)造物終究會幫助人類自身的發(fā)展,AIGC無疑是一種生產(chǎn)力的變革,將世界送入智能創(chuàng)作時代。在智能創(chuàng)作時代,創(chuàng)作者生產(chǎn)力的提升主要表現(xiàn)為三個方面:·代替創(chuàng)作中的重復環(huán)節(jié),提升創(chuàng)作效率。·將創(chuàng)意與創(chuàng)作相分離,內(nèi)容創(chuàng)作者可以從人工智能的生成作品中找尋靈感與思路?!ぞC合海量預訓練的數(shù)據(jù)和模型中引入的隨機性,有利于拓展創(chuàng)新的邊界,創(chuàng)作者可以生產(chǎn)出過去無法想出的杰出創(chuàng)意。即便如此,AIGC也并非完美無缺的,“人工智能生成的內(nèi)容如何確定版權(quán)歸屬”“AIGC是否會被不法分子利用,生成具有風險性的內(nèi)容或用于違法犯罪活動”等一系列問題都是現(xiàn)在人們爭論的焦點。目前,學界與業(yè)界在嘗試從各個方面解決這些問題。但不管怎樣,AIGC的迅猛發(fā)展已成不可逆轉(zhuǎn)之勢,智能創(chuàng)作時代的序幕正在緩緩拉開。第二節(jié)人工智能賦能內(nèi)容創(chuàng)作的四大模態(tài)本節(jié)將從文本、音頻、圖像、視頻四大模態(tài)角度介紹人工智能賦能內(nèi)容創(chuàng)作的相關案例。不過,為了更全面地介紹不同模態(tài)內(nèi)容的生成應用,本節(jié)提供的案例將不僅僅包括引起本次AIGC熱潮的大模型應用,還包括利用傳統(tǒng)小模型的相關生成應用。一、AI文本生成2014年,在洛杉磯地震發(fā)生三分鐘后,《洛杉磯時報》就立刻發(fā)表了一篇相關報道?!堵迳即墪r報》之所以能夠在這么短的時間內(nèi)完成這一創(chuàng)作壯舉,是因為公司早在2011年就開始研發(fā)名為Quakebot的自動化新聞生成機器人,它可以根據(jù)美國地質(zhì)調(diào)查局產(chǎn)生的數(shù)據(jù)自動撰寫文章。這些新聞媒體機構(gòu)最初撰稿借助的AI智能創(chuàng)作時代的背景下,許多媒體機構(gòu)已經(jīng)開發(fā)了內(nèi)部AI播公司(BBC)的“Juicer”、《華盛頓郵報》的“Heliograf”,而彭博社發(fā)布的內(nèi)容有近三分之一是由一個叫“Cyborg”的系統(tǒng)生成的。[1]中國媒體在AI撰稿領域也有相關嘗試。例如,2016年5月,四川綿陽發(fā)生4.3級地震時,中國地震臺網(wǎng)開發(fā)的地震信息播報機器人在6秒內(nèi)寫出了560字的快速報道;2017年8月,當四川省阿壩州九寨溝縣發(fā)生7.0級地震時,該機器人不僅翔實地撰寫了有關地震發(fā)生地及周邊的人口聚集情況、地形地貌特征、當?shù)氐卣鸢l(fā)生歷史及發(fā)生時的天氣情況等基本信息,還配有5張圖片,全過程不超過25秒;在后續(xù)的余震報道中,該機器人的最快發(fā)布速度僅為5秒。[2]以上便是AI進行結(jié)構(gòu)化寫作的典型范例,雖然上述案例都與新聞撰寫相關,但AI在文本生成領域的應用絕不僅限于此。AI文本生成的方式大體分為兩類:非交互式文本生成與交互式文本生成。非交互式文本生成的主要應用方向包括結(jié)構(gòu)化寫作(如標題生成與新聞播報)、非結(jié)構(gòu)化寫作(如劇情續(xù)寫與營銷文本)、輔助性寫作。其中,輔助性寫作主要包括相關內(nèi)容推薦及潤色幫助,通常不被認為是嚴格意義上的AIGC。交互式文本生成則多用于虛擬男/戲等涉及互動的場景。前文提到的新聞播報就屬于結(jié)構(gòu)化寫作,通常具有比較強的規(guī)律不具備個人色彩,行文相對嚴謹、客觀,因此在地震信息播報、體育快訊報道、公司年報數(shù)據(jù)、股市訊息等領域具有較大優(yōu)勢。國內(nèi)許多知名媒體旗下都有這種類型的AI小編,包括新華社的“快筆小新”、第一財經(jīng)的“DT稿王”、《南方都市報》的“小南”、封面新聞的“小封”、騰訊財經(jīng)的“Dreamwriter”,以及今日頭條的“Xiaomingbot”等。AI結(jié)構(gòu)化寫作還可以被用于生成自動標題與摘要,它可以通過自然語言處理(NaturalLanguageProcessing,簡稱NLP)對一篇純文本內(nèi)容進行讀取與加工,從而生成標題與摘要。以Github上標題生成的GPT2-NewsTitle項目為例,輸入文本內(nèi)容:“今日,中國三條重要高鐵干線——首條高原高鐵,全長1776公里,最高票價658元。貴廣鐵路最高票價320元,南廣鐵路最高票價206.5元,這兩條線路大大縮短西南與各地的時空距離?!笨梢缘玫紸I返回的標題:“中國‘高鐵版圖’再擴容,三條重要高鐵今日開通”[3]提煉的標題簡約而精準,具有很高的實用價值。而相較于這種結(jié)構(gòu)化寫作,非結(jié)構(gòu)化寫作會更有難度。非結(jié)構(gòu)化寫作任務,比如詩歌、小說/劇情續(xù)寫、營銷文本等,都需要一定的創(chuàng)意與個性化,然而即便如此,AI也展現(xiàn)出了令人驚嘆的寫作潛力。以詩歌為例,2017年微軟推出的人工智能虛擬機器人“小冰”出版了人類史上第一部AI編寫的詩集《陽光失了玻璃窗》,其中包含139首現(xiàn)代詩。諸如“而人生是萍水相逢/在不提防的時候降臨/你和我一同住在我的夢中/偶然的夢/這樣的肆意并不常見/用一天經(jīng)歷一世的歡喜”,雖然在邏輯性上有所欠缺,但整體上富有韻律與情感,同時帶有意象的朦朧感。你如果對此感到好奇,不妨前往小冰寫詩的網(wǎng)站親自嘗試。在首頁,就會看到一則有趣的聲明:“小冰宣布放棄她創(chuàng)作的詩歌版權(quán),所以你可以任意發(fā)表最終的作品,甚至不必提及她參與了你的創(chuàng)作?!边@段聲明讓人不禁好奇,這兩年看到的很多現(xiàn)代詩會不會都是AI按照官網(wǎng)提示,點擊“馬上開始”便會來到輸入“靈感”的頁面,頁面景而抒懷。例如,我們上傳了一張在海邊拍攝的夕陽照片(圖1-1),等待了大約10秒鐘處理時間,便可以看到小冰寫詩處理過程的展現(xiàn)界面。圖1-1海邊日落圖(攝于2022年7月9日)在經(jīng)歷完意象抽取、靈感激發(fā)、文學風格模型構(gòu)思、首句試寫、詩句迭代和完成全篇的流程后,小冰生成了一首十四行詩,我們從中截取兩段分享給各位讀者。每一條溫水下的微風每一條溫水下的微風青春就是人生的美酒雖然是夢中的幻境喝的是人們認識的人縱使千萬人的美酒會化成灰燼乘你的眼睛里藏著深情又如天空徘徊讀罷,我們仿佛看見一位佇立在夕陽下的詩人,舉起手中的酒杯,對天吟詠,感慨著青春易逝、物是人非。而當我們點擊“復制初稿”進行粘貼時,連帶詩歌一起粘貼過來的,除了再次出現(xiàn)的“放棄版權(quán)聲明”,還有這樣一段話:“未來世界,每個人類創(chuàng)作者的身邊,都將有一個人工智能少女小冰,而你今天已經(jīng)擁有。”看到這里,很難不讓人幻想未來世界人類與機器攜手創(chuàng)作的畫面。除了詩歌,AI也能進行故事、劇本和小說的寫作。在2016年的倫敦科幻電影節(jié)上誕生了人類史上第一部由AI撰寫劇本的電影《陽春》(Sunspring)。這部影片的機器人編劇“本杰明”由紐約大學研究人員開發(fā),雖然影片只有9分鐘,但本杰明在寫作前經(jīng)過了上千部科幻電影的訓練學習,包括經(jīng)典影片《2001太空漫游》《超時空圣戰(zhàn)》《第五元素》等。[4]2021年10月初,美國熱門流媒體平臺網(wǎng)飛(Netflix)與知名喜劇人基頓·帕蒂(KeatonPatti)在YouTube上合作發(fā)布了一部AI劇本創(chuàng)作的電影《謎題先生希望你少活一點》(Mr.PuzzlesWantsYoutoBeLessAlive)。AI被基頓·帕蒂強迫著“觀看”了超過40萬個小時的恐怖電影劇本之后,創(chuàng)作出了這部電影作品,并收獲了用戶的廣泛關注。截至2022年12月11日,該電影在YouTube上的播放量已超過420萬,遠高于網(wǎng)飛頻道其他視頻的播放量。在這部電影中,我們能夠看到向《電鋸驚魂》《德州電鋸殺人狂》《猛鬼街》等知名恐怖電影致敬的畫面。不過,真正賦予這部影片討論度的,并非其中的恐怖元素,而是作為一部恐怖影片,它的笑點非常密集,“我爸會花錢贖我,但我媽不會”“請不要殺我,我有好幾個家庭”“他醉了,但被清醒所困擾”等金句頻出,很難不讓人印象深刻。評論區(qū)有網(wǎng)友的感嘆道出了很多人的心聲:“怎么恐怖元素沒抓住,喜劇精髓倒是拿捏死了。”整部影片充滿了毫無邏輯的荒誕設定和出其不意的笑點,也不怪乎有人感嘆:“真正可怕的是,這些機器人已經(jīng)掌握了人類的幽默感?!蓖瑯恿钊艘贿咉@嘆AI智慧、一邊忍俊不禁的還有BotnikStudios公司研發(fā)的AI機器人的作品。AI機器人在拜讀了《哈利·波特》整套小說后寫出了續(xù)集《哈利·波特與看起來像一堆灰燼的肖像》(HarryPotterandthePortraitofWhatLookedLikeaLargePileofAsh),故事情節(jié)異想天開,比如“懷孕的伏地魔”“他看到了哈利,然后立刻開始吃赫敏的全家”“羅恩打算變成一只蜘蛛”。[5]當然,這種腦洞大開的故事類寫作并不局限于非交互式文本生成類型,交互式文本生成也可以撰寫故事。2017年萬圣節(jié)期間,MIT媒體實驗室推出了一個講恐怖故事的人工智能系統(tǒng)“Shelly”,它可以生成恐怖故事的開頭,然后與人類讀者合作把一個個令人毛骨悚然的故事續(xù)寫下去。Shelly每隔一個小時就會在推特上發(fā)布一個新故事開篇,當有人回應、故事足夠受歡迎時,Shelly就會回復新的句子,讓故事繼續(xù)下去。[6]這種交互式的故事寫作模式也可以用來制作文字類冒險游戲。2021年,開發(fā)者尼克·沃爾頓(NickWalton)就曾推出過這樣一款游戲《AI2》(AIDungeon2)。這是一款能夠無限生成的文字冒險游戲,玩家可以從生成的幾個設定和角色中進行選擇,然后用動詞開頭的祈使句來輸入行動,游戲AI除了上面介紹的這些應用,最令人印象深刻的交互式文本內(nèi)容生成應用要屬ChatGPT。與前文所展示的例子不同,ChatGPT可以同時作為問答、聊天及創(chuàng)作AI存在,它的使用場景日常且多樣,融合了文案生成、小說續(xù)寫、代碼生成、代碼漏洞修復、在線問診等場景,甚至展現(xiàn)出了超越搜索引擎的潛力。下面我們來直觀感受一下ChatGPT的強大功能(后文ChatGPT針對問題的回答均用AI表示)。何作答。問:問:ChatGPT是什么?AI:ChatGPT是一個由OpenAI開發(fā)的聊天機器人模型,它是基于大型語言模型GPT-3訓練的,可以自然地對話,并回答用戶的問題。它能夠以人類般流暢的方式進行交流,并能夠模仿各種風格和口吻。ChatGPT是一個非常強大的工具,可以用來輔助客服、創(chuàng)建聊天機器人等。關于本書的寫作貌似沒什么思路了,讓我們嘗試著從ChatGPT這里獲得啟發(fā)。問:我想寫一本關于問:我想寫一本關于AIGC的書,該怎么擬定大綱框架?AI:第一部分:AIGC的概述·介紹AIGC是什么,它的基本概念和特點?!ぶv述AIGC的發(fā)展歷程,以及它的技術背景。第二部分:AIGC的應用·討論AIGC在各個領域的應用情況?!づe例說明AIGC在客服、語音識別和翻譯等方面的具體應用。第三部分:第三部分:AIGC的未來·展望AIGC的發(fā)展趨勢。·探討AIGC在未來可能的應用場景。第四部分:總結(jié)除了寫作輔導,我們也來試一下它能不能教人表白。問:我想要在問:我想要在2022年結(jié)束前,和我喜歡的人告白,請幫我想一段誠摯的告白的話。AI:親愛的,在這個即將結(jié)束的2022歡和你在一起的感覺,感覺你陪伴的溫暖。你是我一生中遇見的最特別的人,我希望我們能一直在一起,共度余生,請讓我成為你的伴侶,與你共同走過這段旅程。不會發(fā)朋友圈?不會寫賀卡?也可以試試求助人工智能!問:請幫我寫一條朋友圈,表達我失眠的心情,同時體現(xiàn)我的文學才華。問:請幫我寫一條朋友圈,表達我失眠的心情,同時體現(xiàn)我的文學才華。AI:朋友們,今晚我又失眠了。我坐在床上,面對著漆黑的天花板,想象著各種奇怪的事情,掙扎著想要入睡,卻始終如故。失眠之苦,唯有身在其中的人才能體會。我想起了莎士比亞的名句:“夜深人靜,空氣中彌漫著一種詭異的氣息?!笔堑?,失眠之夜,就像漆黑的夜空,讓人感到不安和孤獨。朋友們,你們有沒有好的方法,能幫助我入睡呢?敬請指教。這還不是最有趣的。最有趣的是,ChatGPT具有很強的上下文連接與多輪對話的能力。ChatGPT還具有記憶能力,當向它追問“能不能再夸張一點”時,它可以在之前生成的文案基礎上進行改寫。這種連續(xù)對話大幅提高了人機交互體驗。問:能不能再夸張一點?問:能不能再夸張一點?AI:朋友們,今晚我又失眠了。我翻來覆去,把被子打成了螺旋形,繃得緊繃繃的,就像擰緊了彈簧一樣。失眠之苦,實在是令人難以忍受。我想起了莎士比亞先生的名言:“夜深人靜,空氣中彌漫著一種詭異的氣息?!泵咧梗拖衿岷诘囊箍?,讓人感到不安和孤獨,我想,失眠之人,應該像受傷的勇士一樣,堅強地挺過難關。我們要不屈不撓,不懈地努力,才能擺脫失眠的折磨,才能重新健康地入睡。朋友們,你們有沒有好的方法,能幫助我入睡呢?敬請指教。當不會撰寫代碼的時候,你也可以嘗試求助于ChatGPT。問:如何在問:如何在LaTex上寫一個積分方程?AI:在LaTeX中,可以使用\int命令來表示積分。例如,要在LaTeX中寫出下面的積分方程:$$\int_0^1x^2dx$$可以使用如下的LaTeX代碼:\int_0^1x^2dx完整的LaTeX代碼如下:\documentclass{article}\usepackage{amsmath}\begin{document}\[\int_0^1x^2dx\]\end{document}不只是輔助編程,ChatGPT甚至在一些測試中可以直接修改代碼,并給出可以直接復制的代碼示例,這在未來將極大減輕程序員的工作強度。人類在想方設法地釋放AI的力量。例如,產(chǎn)品經(jīng)理試圖引導ChatGPT生成產(chǎn)品需求文檔,訓練ChatGPT根據(jù)自己之前寫的周報自主修改周報。根據(jù)用戶Jiayuan@Tisoga在推特上分享的案例,ChatGPT目前生成的產(chǎn)品需求文檔內(nèi)容完備且?guī)в屑夹g方案,未來產(chǎn)品經(jīng)理需要做的可能只是和ChatGPT聊一下自己的想法以及項目相關背景,讓AI生成一份草稿文檔,再進行修改潤色即可。同樣,用戶也可以通過不斷的提問引導ChatGPT,層層遞進完成從研究框架到研究報告的輸出。先讓ChatGPT生成報告大綱,再通過類似專家訪談一樣一步步提問讓ChatGPT補充報告內(nèi)容,并在這個過程中根據(jù)其答案進行衍生提問,不斷完善它的邏輯。例如,按照上面第(2)個回答中的寫作大綱,我們可以讓ChatGPT繼續(xù)寫下去:什么是AIGC?它的基本概念與特點是什么?面對這樣強大的功能,很難不讓人幻想AI生成文本的未來:程序員、研究員、產(chǎn)品經(jīng)理等涉及重復性工作的腦力勞動者可能都將被AI代,這些職業(yè)可能都演變成了新的職業(yè)——提示詞(Prompt)工程師,目的就是幫助人類更好地與AI互動。二、AI音頻生成目前,AIGC在音頻生成領域已經(jīng)相當成熟,并廣泛應用于有聲讀物制作、語音播報、短視頻配音、音樂合成等領域。AI音頻生成主要分為兩種類型:語音合成與歌曲生成,這兩種類型都有許多經(jīng)典案例。在語音合成領域,喜馬拉雅曾采集著名評書表演藝術大師單田芳生前的演出聲音,運用文本轉(zhuǎn)語音(TexttoSpeech,簡稱TTS)技術,推出單田芳聲音重現(xiàn)版的《毛氏三兄弟》和歷史類作品。在QQ瀏覽器首頁的“免費小說”頻道中的聽書功能模塊,用戶也可以選擇自己喜歡的AI語音包進行播放,語音包有六種AI音色可供選擇:清朗男聲、標準男聲、軟萌音、御姐音、東北女聲、溫柔淑女音,并且合成的語音節(jié)奏分明、情緒自然,能夠很好地解放雙眼。除了語音讀書,短視頻配音也是一個常見的音頻生成應用領域?!白⒁饪矗@個男人叫小帥?!倍桃曨l平臺的很多電影解說都伴隨這句話開始,隨后很可能還會聽到女主角“小美”的名字。抑揚頓挫的男聲搭配一些電影的高潮情節(jié)畫面,再加上相似的解說套路和背景音樂,這其實也是AI生成語音的典型應用,用戶只需3~5分鐘就可以看完一部“電影”。當然,語音合成不僅可以應用于說話語音,也可以應用于唱歌語音,歌手歌聲合成軟件Xstudio就能夠為用戶提供具有不同音色和唱腔的虛擬歌聲。而對于AI歌曲生成,在OpenAI發(fā)布的最新項目MuseNet中,用戶可以使用AI生成多達10種樂器演奏的歌曲,甚至還可以制作多達15種風格的音樂,模仿莫扎特和肖邦等古典作曲家、LadyGaga等當代藝術家,也可以模仿電子游戲音樂等類型。除了直接生成音樂,AI歌曲在實際應用中常用來自動作詞。“醒來燦爛星光透過了窗臺,海岸線連接了那片山川大海。涌動夢境邊緣像是空曠舞臺,在眼前忽然展開。”看到這段文字,你的腦海中是否浮現(xiàn)出星河璀璨、山川河海一望無際的絢麗景象呢?這段頗具畫面感和動態(tài)美的歌詞正是由網(wǎng)易新開發(fā)的人工智能所創(chuàng)作。網(wǎng)易伏羲利用自主研發(fā)的“有靈智能創(chuàng)作平臺”,讓AI學會人類語言組織的基本邏輯。借助大規(guī)模的語料訓練,用戶可以僅憑借輸入預設風格、標簽、情緒和韻腳便可以得到一首極富韻律美和意境感的歌詞。例如,在設定好古風的預設風格之后,加入“夜晚”“梧桐”“葉落”“深秋”“鄉(xiāng)愁”等標簽并選定江陽韻,便得到了由人工智能創(chuàng)作的歌詞。不遠處竹影悠長那一片片梧桐葉落我心上梧桐心悲涼低語道不盡半世情傷深深秋雨讓人惆悵天上彎彎的月亮思念的人兒在他鄉(xiāng)心愛的姑娘你在何方留下一根琴弦唱著你的憂傷梧桐雨巷人影茫?!肮聼簦狄癸L霜”渲染了蕭瑟凄涼的異鄉(xiāng)秋景,“天上彎彎的月亮,思念的人兒在他鄉(xiāng)”能生成音樂遠比我們想象的更加熟練靈活。當然,除了根據(jù)伴奏配歌一站式的音樂編曲平臺,不過,編曲的生成相對于歌詞生成會更有難輯。此外,AI歌曲生成還有一些更有趣的玩法,比如騰訊在2020年攜手明星王俊凱推出了AI歌姬“艾靈”:當用戶選擇關鍵詞后,可以輸入個人的名字或昵稱,AI便能自動生成帶有用戶名字的歌詞,并會生成歌聲與王俊凱共同演唱。三、AI圖像生成你是否在生活中使用過修圖軟件?如果使用過,那么很有可能在你未曾注意到的時候,就已經(jīng)在接觸AI生成圖像了,比如去除水印、添加濾鏡等都屬于廣義上AI圖像生成的范疇。目前,AIGC在圖像生成方面有兩種最成熟的落地使用場景:圖像編輯工具與圖像自主生成。圖像編輯工具的功能包括去除水印、提高分辨率、特定濾鏡等。圖像自主生成其實就是近期興起的AI繪畫,包括創(chuàng)意圖像生成(隨機或按照特定屬性生成畫作)與功能性圖像生成(生成logo、模特圖、營銷海報等)。2022年下半年,AI繪圖無疑成為熱門應用,不少人都樂此不疲地在自己的朋友圈分享各種形式的AI繪畫作品。從參與感與可玩度來看,AI繪畫大致可以分為三類:借助文字描述生成圖像、借助已有圖像生成新圖像,以及兩者的結(jié)合版。當被問及周圍最早一批使用AI繪畫軟件的用戶為什么喜歡AI繪畫時,有人這樣回答道:“我小時候就喜歡畫畫,但天賦實在有限,家里覺得既然走不了藝考,還是好好學習更重要,就沒有花太多精力在上面。但現(xiàn)在,AI繪畫實現(xiàn)了我曾經(jīng)的夢想?!痹?jīng),那些因為各種各樣一段文字,就能得到一張還不錯的繪畫作品。如圖1-2所示,在AI繪畫工具StableDiffusion上輸入“一座復古未來主義的空中浮島”的英文,便可以得到一張生動的圖片。圖1-2“一座復古未來主義的空中浮島”生成圖像生成來源:StableDiffusion你是否也覺得這很神奇,仿佛魔法一般?事實上,從文本到圖像的生成真的有“咒語”存在,這個“咒語”就是被用來激發(fā)創(chuàng)作與思考的提示詞。提示詞可以是一個問題、一個主題、一個想法或一個概念,在AI繪畫的語境下可以簡單理解為“喂給”AI進行創(chuàng)作的一組靈感詞組,通常是對自己設想作品的簡要描述?,F(xiàn)在流行的國外AI繪畫工具StableDiffusion、DALL·E2、Midjourney等,以及國內(nèi)AI繪畫工具文心一格、意間AI繪畫、AICreator等,都會在創(chuàng)作時引導你輸入“咒語”。如果你暫時缺乏靈感,有些平臺也會提供“自動生成”選項,讓AI幫你自主搭配,然后在其基礎上進行你想要的修改。如此一來,AI的人也能通過文字描述表達自己的創(chuàng)作靈感,滿足自己的創(chuàng)作欲望。比如,我想得到一幅中國風的山水畫,我可以這樣輸入提示詞:水、林木、云霧、山石、溪流、山巒、霞光、水墨畫、中國風、低飽和。AI功讀取了我的“咒語”,然后返回了我下面這幅畫(圖1-3)。圖1-3中國山水畫生成圖像生成來源:Midjourney如果你對畫家及其作畫風格有所了解,你還可以在編寫“咒語”時加入這些畫家的名字進行畫風定制。AI繪畫工具不只支持知名畫家如達·芬奇、梵高、畢加索等的畫風,還支持眾多現(xiàn)代畫家的畫風。假如你想要復古神秘的畫風,可以嘗試加入英國插畫師湯姆·巴肖(TomBagshaw)的名字;想要CG(計算機動畫)人物畫,則可以加入代表性畫師Artgerm、阮佳(RuanJia)的名字。為了方便讀者直觀地感受融入了特定風格生成畫作的效果,我們利用Jasper.AI生成了具有張大千與梵高畫風的畫作(圖1-4和圖1-5)。圖1-4“輕舟已過萬重山”生成圖像(張大千風格)生成來源:Jasper.AI圖1-5“手捧玫瑰花的少女”生成圖像(梵高風格)生成來源:Jasper.AIAI的能力超乎你的想象,除了一鍵構(gòu)圖與風格調(diào)整,它甚至可以辨別2D與3D,滿足用戶的精細化定制需求。例如,當我們想在人物畫上生成小狗時,DALL·E2會把小狗畫入畫中,如圖1-6所示。圖1-6AI生成畫中的二次元小狗生成來源:DALL·E2而當我們想要把一只3D小狗畫在座位上的時候,DALL·E2便生成了一只真實的、三次元的小狗,如圖1-7所示。圖1-7AI生成座位上的三次元小狗生成來源:DALL·E2伴隨著AI繪畫技術的逐漸成熟,AI插畫也被用作一些具有功能性的場景中。例如,2022年6月11日,著名雜志《經(jīng)濟學人》首次采用了AI插畫作為封面,作品名為《AI的新邊界》(AI’snewfrontier)。在封面油畫風格的分割色塊背后,有著一張具備少量機械特征的人臉,預示著AI將以全新的面貌出現(xiàn)在我們面前,拓展人類技術的新邊界。除了可能提高封面插圖類的設計效率外,AI繪畫目前也被用于游戲開發(fā)環(huán)節(jié),包括前期的場景與人物圖輔助等,此外也有部分游戲工作者正在探索基于StableDiffusion生成游戲資產(chǎn),比如游戲圖標及游戲內(nèi)的道具。雖然AI繪畫對內(nèi)容生產(chǎn)力的提升具有很大幫助,但與此同時也引發(fā)了許多人的憂慮,許多藝術家擔心AI繪畫可能會因為訓練樣本的選取而剽竊自己的作品元素,也擔心這些AI生成的作品被用于一些欺騙性的用途,危害到人類自身。針對AI與人類的辯題,Midjourney的創(chuàng)始人大衛(wèi)·霍爾茲(DavidHolz)這樣評價:“AI是水,而非老虎。水固然危險,但你可以學著游泳,可以造舟,可以造堤壩,還能借此發(fā)電;水固然危險,卻是文明的驅(qū)動力,人類之所以進步,正是因為我們知道如何與水相處并利用好它。水給予更多的是機會?!盵7]藝術家是否買單尚且不論,投資人已經(jīng)開始競相押注。2022年10月17日,StableDiffusion的母公司StabilityAI宣布完成1.01億美元融資,成為估值10億美金的超級獨角獸。隨后,不到一個月,另一家AI繪畫平臺Jasper.AI宣布完成了1.25億美元A輪融資,估值達15億美元,距離產(chǎn)品上線也不過18個月的時間。在圖像生成領域,我們正看到日益成熟的應用場景以及商業(yè)化的可能性。四、AI視頻生成目前,AI技術不僅可以生成圖片,也能夠生成序列幀,組成一個完整的視頻。2022年10月,AI重置版《幻覺東京》發(fā)布?!痘糜X東京》原本是一部記錄日本亞文化人物的紀錄片,作者將經(jīng)過剪輯的短片交給AI美術大師,經(jīng)過160小時生成3萬張獨立插畫,再進行人工手動微調(diào),連成了一部賽博朋克大幻想。雖然目前還只是在原腳本和視頻的基礎上,通過AI逐幀完成圖片生成,但這讓我們看到了AIGC參與到視頻創(chuàng)作中的可能性。當然,除了這種連接AI生成圖片組成視頻的生成方式,也有直接利用文字描述生成視頻的方法。2022年9月,Meta推出的Make-A-Video工具就具有根據(jù)文本描述生成相應短視頻的能力。Make-A-Video推出不久,谷歌就推出了主打高清生成的ImagenVideo和主打更長視頻內(nèi)容生成的Phenaki。ImagenVideo是由谷歌在2022年5月推出的AI繪圖工具Imagen進化而來,它繼承了Imagen對于文字的準確理解能力,能夠生成1280×768分辨率、每秒24幀的高清視頻片段。除了分辨率高以外,它還能理解并生成不同藝術風格的作品,比如水彩畫風格、像素畫風格、梵高風格。同時,它還能理解物體的3D結(jié)構(gòu),在旋轉(zhuǎn)展示中不會變形。而谷歌推出的另一款AI視頻生成工具Phenaki則可以根據(jù)200個詞左右的提示語生成2分鐘以上的長鏡頭,講述一個完整的故事,并能根據(jù)提示語自由切換風格場景,讓人人都能夠成為導演。[8]除了剛提到的這些新興的視頻AIGC技術,AIGC在視頻生成方面的常見傳統(tǒng)應用場景還包括視頻屬性編輯、視頻自動剪輯及視頻部分編輯。視頻屬性編輯包括刪除特定主體、生成特效、跟蹤剪輯等,能夠高效節(jié)省人力和時間。AI能夠通過對畫面人物的動態(tài)追蹤,自動搜索人物,定位關鍵時間節(jié)點,極大提升剪輯效率。此外,AI的拍攝抖動,修復視頻畫質(zhì)。視頻自動剪輯是對特定片段進行檢測及合成。2020年全國兩會期間,《人民日報》創(chuàng)造性地推出“5G+AI”模式的新聞報道,打造的智慧平臺iMedia、iMonitor、iNews等可以第一時間對素材進行智能處理,只中迅速生成剪輯視頻片段,并自動匹配字幕。此外,從廣義上講,AI主播也可以看作一種AIGC生成視頻的應用,只不過是將生成的音頻內(nèi)容去對應到虛擬人的口型與動作進行綜合剪輯。2020年5月,由新華社與搜狗公司聯(lián)合推出的身穿藍白正裝的“新小微”第一次亮相演播室。“新小微”是全球首位3D版AI合成主播,能夠像真人一樣走動和轉(zhuǎn)身,并擺出各種復雜動作與姿態(tài)。同時,她還在不斷迭代,比如從“職業(yè)微笑”到增加了許多微表情,從單一妝發(fā)到根據(jù)播報場景變更妝發(fā)等。[9]事實上,“新小微”并非新華社推出的第一個AI主播,在她之前已經(jīng)誕生了由“新小萌”“新小浩”等組成的AI合成主播家族。其中,中國首個AI合成女主播“新小萌”在2019年上崗時就驚艷了全球媒體圈,被外媒評價為“幾乎可以以假亂真”。除了新華社,中央廣播電視總臺、人民日報社等國家級媒體以及湖南衛(wèi)視等省市媒體也在積極布局應用AI合成主播,先后推出了央視AI主播“AI王冠”、湖南衛(wèi)視AI主持人“小漾”、安徽衛(wèi)視AI主持人“安小豚”、央視網(wǎng)AI小編“小C”等。與“新小微”一樣,這些AI主播在全國兩會、冬季奧運會、冬季殘奧會等重大活動期間被廣泛應用,極大地提升了新聞產(chǎn)出與傳播效率。除此之外,像AI視頻換臉這種視頻部分編輯的形式從廣義上來說也屬于AIGC的范疇。2019年,一款名為ZAO的AI換臉軟件刷屏各大社交網(wǎng)絡,人們樂于把自己的臉替換進經(jīng)典影視劇如《甄嬛傳》《權(quán)力的游戲》,并進行分享。雖然ZAO后來因為侵犯個人隱私被下架,但類似的AI視頻換臉軟件卻層出不窮,這在某種程度上也反映了人們的內(nèi)容創(chuàng)作熱情以及對于自由表達的欲望,但合法合規(guī)問題則是AI視頻換臉長久發(fā)展需要重點解決的問題。第三節(jié)AIGC助力元宇宙和Web3.0元宇宙與Web3.0的未來近在眼前,而AIGC作為全新的內(nèi)容生產(chǎn)方式無疑能為這些美好的圖景注入新的活力。本節(jié)將對AIGC如何助力元宇宙和Web3.0展開諸多暢想與探討。一、AIGC在元宇宙方向的應用起源于1992年科幻小說《雪崩》的“元宇宙”概念,在2021年伴隨著“Roblox的上市”和“Facebook更名為Meta”兩大事件掀起了前所未有的擬世界。這樣一個“世界級”的工程項目,單靠人力創(chuàng)作可能難以做到盡善盡美,而AIGC的介入將可能大大提升元宇宙的構(gòu)建效率。虛擬形象就像《頭號玩家》《失控玩家》等描繪元宇宙藍圖的科幻電影中表現(xiàn)的一樣,每個人都需要通過自己的虛擬化身接入元宇宙之中。過去,人們想要生成這樣的虛擬化身,大多是依靠系統(tǒng)內(nèi)置好的幾種模型,通過調(diào)整不同的五官、身材、服裝等搭配方式,來生成屬于自己的虛擬化身。從用戶角度來看,這種生成方式不僅十分煩瑣,而且也很難定向生成一些與自己真實形象相關聯(lián)的特征,甚至一不小心還可能就和其他人撞形象,難以凸顯個人的獨特性。而從開發(fā)者的角度來看,想要生成足夠多的虛擬化身不僅費時費力,而且也難以生成讓大多數(shù)用戶滿意的化身形象。AIGC有助于解決這一問題。例如,Roblox在2020年末就收購了初創(chuàng)公司Loom.ai,利用AI技術解決虛擬化身的生成問題。用戶使用Loom.ai的組件,可以直接利用單張圖片生成3D寫實風格或卡通風格的虛擬化身形象。不僅如此,Loom.ai還可以提供精確的面部動畫生成能力,可以讓虛擬形象生成包括嘟嘴、皺眉等復雜的表情,讓虛擬化身之間進行更加沉浸式的交流。虛擬物品在元宇宙世界,除了虛擬化身之外,還有許多各式各樣的虛擬物品。不少元宇宙選擇同時利用PGC和UGC是專業(yè)機構(gòu)還是感興趣的個人,都可以借助官方提供的編輯器來創(chuàng)作各種類型的3D物品模型,或者在創(chuàng)作好3D物品模型后導入元宇宙世界。除了PGC和UGC外,虛擬物品的生成在未來同樣可以借助AIGC來實現(xiàn)。例如,2022年9月底,谷歌就發(fā)布了文本生成3D模型的工具DreamFusion,而在此之后不久,英偉達也推出了類似工具Magic3D,并將DreamFusion視為直接對標,在生成速度和分辨率上都實現(xiàn)了一定程度的提升。這些由文字生成的模型除了可以通過文本輸入自動渲染3D模型,也可以提供額外的提示語對原有的模型進行修改、編輯。而在2022年12月,OpenAI也推出了自己的文本生成3D模型的工具Point·E。雖然該模型采用點云模型的生成方式,不能直接生成渲染完畢的3D模型,但它的生成速度可以達到谷歌DreamFusion的數(shù)百倍。如果未來能將這些模型大規(guī)模落地推廣并應用于元宇宙中,可以大大提高虛擬物品的生成效率。虛擬場景對于元宇宙來說,最重要的就是沉浸式的場景體驗。而一個完善的元宇宙場景,可能不僅包括各式各樣的虛擬物品,還包括場景內(nèi)的背景音樂、與部分物品之間的交互效果,等等。對于背景音樂,可以利用AIGC進行音頻生成;對于交互效果,也可以利用AIGC進行相關代碼的生成。除了這種通過拼接不同類型元素的元宇宙場景生成,整個元宇宙場景中的每個元素,在未來可能都將使用AIGC去構(gòu)建。例如,Meta在2022年初就公布了AIGC生成元宇宙場景的概念系統(tǒng)“BuilderBot”,用戶在元宇宙中只要通過語音說出自己想要的環(huán)境,周圍的虛擬空間就會自動生成相應的場景。在MetaAI公示的Demo中,用戶說出“帶我們?nèi)ス珗@吧”,周圍的環(huán)境就變成了公園;當用戶說出“天上來一些云吧”,天上就會生成許多白云。如果未來能夠廣泛地實現(xiàn)這種形式的AIGC,將大大降低元宇宙場景的創(chuàng)作門檻,元宇宙的場景也能變得更豐富、更多樣。二、AIGC在Web3.0方向的應用這里的Web3.0主要指基于區(qū)塊鏈技術所構(gòu)建的價值互聯(lián)網(wǎng)。在Web3.0中,用戶可以借助NFT(Non-FungibleToken,非同質(zhì)化代幣)將自己的創(chuàng)作物添加至代幣上鏈,來確認自己對于創(chuàng)作物的創(chuàng)作權(quán)益。結(jié)合NFT的這一特質(zhì),AIGC在Web3.0方向也可以有諸多有趣的應用。AIGC生成制作NFT目前,許多NFT綁定的創(chuàng)作物都是以圖像的形式存在。既然如此,自然也可以用AIGC的方式生成圖像并制作成NFT,這樣可以幫助NFT項目方更快捷地生成全套的NFT形象。除了為項目方提供創(chuàng)作工具外,普通人無須任何繪畫基礎也可以參與到圖像類NFT的制作中,并通過銷售NFT獲得收益。繪畫風格確權(quán)對于藝術創(chuàng)作者來說,繪畫風格是藝術創(chuàng)作者的核心資產(chǎn),但如何對這類資產(chǎn)進行確權(quán)和變現(xiàn)是困擾著很多創(chuàng)作者的問題。對于需要大量原畫的游戲廠商來說,他們也希望能采購特定創(chuàng)作者的繪畫風格,并高效穩(wěn)定地生產(chǎn)出大量滿足游戲場景風格的插畫。而通過“NFT+AIGC”的方式,就可以實現(xiàn)這種繪畫風格的確權(quán)。藝術家可以將自己的繪畫風格制作成NFT進行交易,而購買了繪畫風格NFT的客戶就可以利用AIGC批量生成該風格下的各種類型的插畫,這就是AIGC在繪畫風格確權(quán)方面的應用。Hiiimeta就是這樣一個集藝術風格的確權(quán)、授權(quán)和使用為一體的AI藝術生態(tài)。在Hiimeta提供的工具內(nèi),用戶可以先上傳指定風格的原型素材,然后Hiimeta團隊自主研發(fā)的算法會對整體風格、布局、紋理等基礎元素,以及感情色彩、哲學思想等進行提煉,生成對應風格的“AI機器人”。購買了特定風格的AI機器人后,用戶就可以生成具有相似風格的虛擬角色、自由插圖、批量頭像等。生成之后,用戶還可以對細節(jié)進行微調(diào)處理。在保障創(chuàng)作者的版權(quán)基礎上,這大大提升了藝術風格采購者的內(nèi)容生產(chǎn)力。結(jié)合AIGC的GameFiGameFi是一種結(jié)合區(qū)塊鏈技術的游戲形式,通常會對游戲內(nèi)的資產(chǎn)NFT化,并設計有一定的經(jīng)濟體系維持游戲的運轉(zhuǎn)。在開發(fā)GameFi游戲過程中,人物、場景、動畫甚至邏輯代碼等都可以由AIGC創(chuàng)作,通過這種方式可以大大縮短游戲的創(chuàng)作周期,也能產(chǎn)生一些意想不到的創(chuàng)新應用。MirrorWorld就是將AIGC相關技術應用在GameFi領域的代表性項目。MirrorWorld曾在2021年9月推出過首款可交互NFT產(chǎn)品:MirrorGameFi平臺內(nèi)的虛擬生命“Mirrors”活了過來。每一個MirrorNFT都具備獨一無二的外形特征以及特定的語言模型,持有者第一次能夠與自己的NFT自由地溝通與交流。在交流過程中,所有的對話數(shù)據(jù)均由AI生成,用戶可以借此享受到有趣且無盡的對話體驗。此外,依托于YCombinator孵化的初創(chuàng)公司rctAI在游戲AI領域的不斷探索,MirrorWorld在完成三款GameFi游戲開發(fā)后,根據(jù)自身在區(qū)塊鏈技術領域的研究,研發(fā)出了一整套MirrorWorldSmartSDK,致力于幫助更多優(yōu)質(zhì)的游戲類項目在“低代碼、零門檻”AI技術。journalism/?sh=2415c20f2c46。參考自https:///ai/4797279.html。參考自https:///liucongg/GPT2-NewsTitle。參考自https:///4146.html。[5]參考自https:///a/212719545_752829。theyresurprisingly-scary。參考自https:///s/u4XYV8Tg6epHyBcKKgRRsg。參考自https:///baijiahao_20196224。參考自https:///article/4419244.html。第二章AIGC的技術思想哪些技術思想對AIGC的演進做出了重要貢獻?人們總喜歡活在舒適區(qū)內(nèi),用粗暴的斷言安慰自己,例如機器永遠無法模仿人類的某些特性。但我給不了這樣的安慰,因為我認為并不存在無法模仿的人類特性?!瑐悺D靈(AlanTuring)人工智能技術歷經(jīng)了漫長的演進過程,見證了基于規(guī)則、機器學和跨模態(tài)生成領域取得了傲人成績。本章將回顧前AIGC時代各種奠基對目前推動AIGC進行商業(yè)落地的重要技術和理念進行介紹。需要特別了解技術脈絡的讀者可以閱讀相關科技文獻。第一節(jié)前AIGC時代的技術奠基一、圖靈測試與人工智能的誕生1950年,艾倫·圖靈發(fā)表了一篇劃時代的論文《計算機器與智能》(ComputingMachineryandIntelligence),探討了讓機器具備人類一樣智能的可能性。論文在開篇就拋出了一個有趣的問題:“機器能思考嗎?”雖然在過去眾多科幻作品中,對此已有諸多不同的解讀,但在一篇嚴肅的科技論文中探討這件事似乎是少見的。在論文里,圖靈并沒有一上來就解答這個問題,而是提出了一種模仿游戲,想要借助思想實驗的方式,為確定“什么樣的機器才是具備智能的”給出具有可操作性的定義方式。下面我們依照圖靈的設計來模擬這樣的游戲場景。場景:小明、小紅和小剛?cè)齻€人決定一起來玩這個模仿游戲,小剛被關在密閉的屋子里,只能使用兩臺遠程打印機分別與小紅、小剛進行交流,但他并不知道每臺打印機的背后是誰在回答他的問題。在游戲結(jié)束時,三個人的勝利目標是不同的?!ば∶鳎涸谟螒蚪Y(jié)束后,需要根據(jù)提問和回答的記錄,猜出每臺遠程打印機背后對應的是小紅還是小剛?!ば〖t:盡可能地幫助小明猜對自己是小紅?!ば偅罕M可能地干擾小明,讓他以為自己才是小紅。對于小剛來說,一個很自然的游戲策略就是在回答時故意模仿小紅,因此這個游戲被稱為模仿游戲?,F(xiàn)在,我們不妨微調(diào)一下這個游戲,把里面的人類“小剛”,更換成機器“小鋼”。如果機器小鋼能夠借助是否具備智能,這也就是著名的“圖靈測試”(圖2-1)。雖然“圖靈測試”作為一種簡易的思想實驗存在著諸多缺陷,但它第一次讓人們能夠中,為后世圍繞人工智能展開科學實踐指引了方向。圖2-1圖靈測試最初版本示意圖雖然此時圖靈已經(jīng)從理論角度給出了機器擁有智能的可能性,但是讓“人工智能”這個科學領域正式形成的是1956年在美國達特茅斯學院舉行的人工智能夏季研討會。這次會議的組織方包括后來的圖靈獎獲得者馬文·明斯基(MarvinLeeMinsky)和約翰·麥卡錫(JohnMcCarthy)、信息論創(chuàng)始人香農(nóng)(ClaudeElwoodShannon)、IBM工程師羅徹斯特(Rochester),而其余參會者也均是后來對人工智能發(fā)展做出過重要貢獻的科學家。通過達特茅斯會議,“人工智能”的名稱和任務被真正界定下來,因而該會議也被廣泛認為是人工智能誕生的標志,開啟了人工智能領域曲折向上的技術發(fā)展之路。二、符號主義、聯(lián)結(jié)主義和行為主義在人工智能誕生早期,就出現(xiàn)了“符號主義”和“聯(lián)結(jié)主義”兩種不同的發(fā)展流派,并都取得了一系列階段性的成果。符號主義認為人的智能來自邏輯推理,世界上所有信息都可以抽象為各種符號,而人類的認知過程可以看作運用邏輯規(guī)則操作這些符號的過程。在這樣的前提假設下,如果計算機能夠自動化地執(zhí)行和人腦一樣的各種規(guī)則,說不定就可以實現(xiàn)完全的智能化。由艾倫·紐厄爾(AllenNewell)在達特茅斯會議報告的邏輯理論家(LogicTheorist)項目就是符號主義早期的代表性成果,這個程序能夠證明《數(shù)學原理》第二章52個定理中的38個,甚至找到了相對于原著更加精巧的證明方式。而聯(lián)結(jié)主義則認為,讓機器模擬人類智能的關鍵不是去想辦法實現(xiàn)跟思考有關的功能,而是應該模仿人腦的結(jié)構(gòu)。聯(lián)結(jié)主義把智能歸結(jié)為人腦中神經(jīng)元彼此聯(lián)結(jié)成網(wǎng)絡共同處理信息的結(jié)果,希望能夠運用計算機模擬出神經(jīng)網(wǎng)絡的工作模式來打造人工智能,并在“人工智能”領域正式形

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論