CIC灼識咨詢-大模型與AIGC藍皮書-2023_第1頁
CIC灼識咨詢-大模型與AIGC藍皮書-2023_第2頁
CIC灼識咨詢-大模型與AIGC藍皮書-2023_第3頁
CIC灼識咨詢-大模型與AIGC藍皮書-2023_第4頁
CIC灼識咨詢-大模型與AIGC藍皮書-2023_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

CIC灼識咨詢

大模型與AIGC藍皮書

?2023ChinaInsightsConsultancy.Allrightsreserved.Thisdocumentcontainshighlyconfidentialinformationandissolelyfortheuseofourclient.

Nopartofitmaybecirculated,quoted,copiedorotherwisereproducedwithoutthewrittenconsentofChinaInsightsConsultancy.1

灼識咨詢是一家知名咨詢公司。其服務包括IPO行業(yè)咨詢、商業(yè)盡職調(diào)查、戰(zhàn)略咨詢、專家網(wǎng)絡(luò)

服務等。其咨詢團隊長期追蹤物流、互聯(lián)網(wǎng)、消費品、大數(shù)據(jù)、高科技、能源電力、供應鏈、

人工智能、金融服務、醫(yī)療、教育、文娛、環(huán)境和樓宇科技、化工、工業(yè)、制造業(yè)、農(nóng)業(yè)等方

面最新的市場趨勢,并擁有上述行業(yè)最相關(guān)且有見地的市場信息。

灼識咨詢通過運用各種資源進行一手研究和二手研究。一手研究包括訪談行業(yè)專家和業(yè)內(nèi)人士。

二手研究包括分析各種公開發(fā)布的數(shù)據(jù)資源,數(shù)據(jù)來源包括中華人民共和國國家統(tǒng)計局、上市

公司公告等。灼識咨詢使用內(nèi)部數(shù)據(jù)分析模型對所收集的信息和數(shù)據(jù)進行分析,通過對使用各

類研究方法收集的數(shù)據(jù)進行參考比對,以確保分析的準確性。

所有統(tǒng)計數(shù)據(jù)真實可靠,并是基于截至本報告發(fā)布日的可用信息。

若您希望獲取CIC灼識咨詢的詳細資料、與灼識建立媒體/市場合作,或加入灼識行業(yè)交流群,

歡迎掃碼、致致函marketing@。

2

目錄

I.大模型如今已展現(xiàn)出卓越的能力,隨著其不斷演進和完善,

必將引領(lǐng)AI的未來道路,開創(chuàng)智能時代的新紀元

II.受益于大模型技術(shù)的日益成熟,AIGC有望掀起新一輪產(chǎn)業(yè)革

命,開啟人類發(fā)展的智能新時代

III.GPGPU高度并行的計算資源為大型模型的訓練和推理提供了

不可或缺的支持,推動了大模型與AI領(lǐng)域的不斷進步和創(chuàng)新

IV.彩蛋:生成式AI如何提升工作效率

3

AI應用現(xiàn)狀

全球AI市場預計將于2030年達到1萬億美元,并且全球超過15%的GDP將由AI驅(qū)動;AI在各垂直領(lǐng)域的應用滲

透率也將繼續(xù)提升。

AI在垂直領(lǐng)域中的應用強/主要的弱/次要的

數(shù)據(jù)及AI基礎(chǔ)設(shè)施建設(shè)中國AI應用情況

行業(yè)占支出比例AI應用的挑戰(zhàn)

中國AI支出占AI市場AIITAI支出CAGR,

數(shù)據(jù)量數(shù)據(jù)質(zhì)量IT系統(tǒng)成熟度

比例,

202220222027E22-27E

?不同機構(gòu)之間的數(shù)據(jù)孤島

金融12.1%11.8%19.8%28.1%

?數(shù)據(jù)系統(tǒng)安全及隱私

?傳統(tǒng)零售商獲取結(jié)構(gòu)化/高度可用的數(shù)據(jù)

零售5.7%3.7%5.7%26.6%

?供應鏈機器學習算法優(yōu)化

?專注單點技術(shù)突破,但無法跨場景規(guī)模化應用

制造業(yè)8.6%1.8%4.4%43.6%?數(shù)據(jù)整合程度低,管理欠佳

?AI解決方案供應商分散

能源2.6%5.1%9.8%41.4%?AI應用/轉(zhuǎn)型進度較慢

?數(shù)據(jù)分散在各醫(yī)院/管理機構(gòu)

醫(yī)療5.6%5.5%8.2%27.6%

?數(shù)據(jù)系統(tǒng)安全及隱私

汽車12.3%19.5%25.5%21.0%?自動駕駛數(shù)據(jù)融合難度高

?不同機構(gòu)之間的數(shù)據(jù)孤島

政府27.1%21.6%28.3%18.7%

?數(shù)據(jù)系統(tǒng)安全及隱私

資料來源:灼識咨詢4

大模型的定義

大模型是基于海量多源數(shù)據(jù)打造的模型,其是實現(xiàn)通用人工智能(AGI)的重要路徑。大模型可以整合多種不

同類型的數(shù)據(jù)和信息,實現(xiàn)多模態(tài)處理和分析,從而更全面地理解和解決復雜問題,其具備通用性、涌現(xiàn)性等

諸多特點。

定義

?AI可分為ANI(ArtificialNarrowIntelligence)、AGI(ArtificialGeneralIntelligence)和ASI(ArtificialSuperIntelligence)。ANI是專注于執(zhí)行某一領(lǐng)域任務的經(jīng)過訓練的人工智能,是目前大多數(shù)的AI

形式;AGI是通用人工智能,是指一種具有與人類相當?shù)恼J知能力的智能系統(tǒng),能夠理解、學習、計劃和解決問題;ASI是超級人工智能,指在幾乎所有領(lǐng)域都超過最優(yōu)秀的人類所具備的智能、知

識、創(chuàng)造力、智慧和社交能力的智能系統(tǒng)。目前,ANI已經(jīng)廣泛應用,AGI處于研發(fā)階段,而大模型是實現(xiàn)AGI的重要路徑。

AI的三種類型比較大模型是實現(xiàn)AGI的重要路徑,其具有諸多特點

擅長領(lǐng)域具備能力發(fā)展成熟度

?通用性?高投入

大模型可以快速并大模型具有重投入、

大規(guī)模地與云計算、長周期的特點,如每

互聯(lián)網(wǎng)等其他技術(shù)次測試需要海量的算

某一特定領(lǐng)域具備執(zhí)行能力已應用廣泛結(jié)合,廣泛地應用力資源,訓練一次成

專用人工智能

(ANI)在經(jīng)濟的各個領(lǐng)域。本高達千萬美元。

四大特點

擁有能夠與人類相媲美

大部分領(lǐng)域處于研發(fā)階段?工程化

通用人工智能(AGI)的智慧?涌現(xiàn)性

大模型對數(shù)據(jù)、算法、

大模型參數(shù)超過百

算力要求極高,需要

億級時,模型性能

工程化的經(jīng)營思路。

會呈現(xiàn)出指數(shù)級增

需要嚴格把控數(shù)據(jù)清

長,同時能夠?qū)ξ?/p>

洗,把控用于關(guān)鍵性

經(jīng)專門訓練的問題

訓練的數(shù)據(jù),和構(gòu)建

所有領(lǐng)域全知全能尚處早期舉一反三。

超級人工智能(ASI)大規(guī)模高質(zhì)量訓練的

算力。

資料來源:灼識咨詢5

大模型產(chǎn)業(yè)圖譜

大模型產(chǎn)業(yè)涵蓋了行業(yè)應用、產(chǎn)品服務、模型工具和基礎(chǔ)設(shè)施四個關(guān)鍵層面,廣泛應用于各行業(yè)與垂直場景,

前景廣闊。

大模型相關(guān)產(chǎn)業(yè)圖譜

金融教育藝術(shù)設(shè)計游戲醫(yī)藥文化娛樂其他

業(yè)

文本圖像音頻視頻虛擬空間代碼

產(chǎn)

算法模型

工工具平臺模型托管/交易

基數(shù)據(jù)芯片云平臺

礎(chǔ)

設(shè)

資料來源:中國信通院,灼識咨詢6

大模型的演變

大模型的演變經(jīng)歷3個階段:基礎(chǔ)大模型具備大量知識儲備,能理解并生成內(nèi)容,質(zhì)量差強人意;精調(diào)大模型能

按照人類偏好及普世價值取向、并保證一定安全性的前提下,生成高度可用的內(nèi)容;而出現(xiàn)能力涌現(xiàn)的大模型

所生成的內(nèi)容接近人類水平。

大模型演變概覽高/強低/弱

1基礎(chǔ)大模型2精調(diào)大模型3能力涌現(xiàn)的大模型

模型示意圖,以GPT-3模型為例指令精調(diào)示意圖能力涌現(xiàn)示意圖

取余數(shù)國際音單詞解謎修辭手法

學習輸出模板運算標轉(zhuǎn)寫

每層

…千個人工對大量問題的回答形成模板供模型學習準準準

確準確確

性確性性

節(jié)點性

每層

…千個建立評分機制

模節(jié)點人工對模型的數(shù)個輸出進行排序,建立獎勵模型真實場景映射多任務自然語境理解

型并為后續(xù)結(jié)果進行打分問答語言理解

變每層

準準準準

化…千個確確確確

根據(jù)結(jié)果重復優(yōu)化過程性性性性

節(jié)點

…模型根據(jù)打分結(jié)果調(diào)整后續(xù)輸出,并不斷重復上

述過程以優(yōu)化模型

共128層

模型規(guī)模

?GPT-3采用了96層的多頭Transformer,參數(shù)量達?指令精調(diào)在于確保模型輸出結(jié)果的準確性及安全性,?隨著模型參數(shù)的指數(shù)級增長,大模型能力呈現(xiàn)明顯

到1,750億,并使用45TB數(shù)據(jù)進行訓練。在該階段需要使用較多的人工標注介入。在此基礎(chǔ)上,的爆發(fā)增長,呈現(xiàn)能力涌現(xiàn)的情況。

引入獎勵模型,讓模型脫落人工指引,實現(xiàn)自優(yōu)化。

特?具備大量知識儲備,能理解并生成語言,質(zhì)量差強?能按照人類偏好及普世價值取向,并保證一定安全?具備邏輯推理能力及上下文理解能力,更接近人類

征人意。性的前提下生成高度可用的內(nèi)容。水平。

資料來源:“AreEmergentAbilitiesofLargeLanguageModelsaMirage?”,灼識咨詢7

大模型的終端用戶

大模型的終端用戶包括C端、B端和企業(yè)自用三類。C端用戶一般使用標準化的模型產(chǎn)品,B端用戶更傾向于選擇

能滿足行業(yè)或企業(yè)特定需求的個性化解決方案,而企業(yè)自用的模型則旨在降低運營成本、提高運營效率、優(yōu)化

產(chǎn)品的用戶體驗。

大模型的終端用戶分類

主要特點主要變現(xiàn)模式應用案例

?主要用于個人娛樂、學習和創(chuàng)作

?標準化程度高,普適性強?C端用戶訂閱

C端

?強調(diào)用戶友好性與互動性

?針對企業(yè)和機構(gòu),提供針對性解決方案的大

模型

?通?;诨A(chǔ)大模型,根據(jù)不同企業(yè)、行業(yè)

?B端企業(yè)用戶訂閱或購買非

的需求進行一定程度的定制,模型較為異質(zhì)

定制化行業(yè)模型

B端化、用途多樣

?強調(diào)模型在不同領(lǐng)域的專業(yè)能力,以及客戶

的數(shù)據(jù)隱私和安全

?主要用于內(nèi)部業(yè)務優(yōu)化

?無直接變現(xiàn),主要作用在于

企業(yè)自用?個性化定制,解決企業(yè)獨特的問題和需求

降低企業(yè)自身運營成本并提

?數(shù)據(jù)保密性至關(guān)重要,強調(diào)內(nèi)部控制和數(shù)據(jù)升效率

安全

資料來源:灼識咨詢8

大模型的表現(xiàn)

大模型在多領(lǐng)域表現(xiàn)卓越,在自然語言理解、學習能力、視覺聽覺識別等領(lǐng)域可以媲美甚至超越人類。提高大

模型的創(chuàng)造能力、減少對數(shù)據(jù)的依賴性、加強隱私保護等將會是大模型迭代的重點。

大模型在不同場景中與人類表現(xiàn)對比

MNISTMNIST(handwriting(手寫識別)recognition)SwitchboardSwitchboard(speech(語音識別)recognition)

ImageNetImageNet(image(圖像識別)recognition)SQuADSQuAD1.11.1(reading(綜合閱讀)comprehension)

聽覺識別

直覺視覺SQuADSQuAD2.02.0(reading(綜合閱讀)comprehension)2GLUEGLUE(language(語言理解)understanding)

識別

0.2

創(chuàng)造性思維

抽象思維

倫理是非人類表現(xiàn)

學習能力判斷

自然語言0

理解

藝術(shù)表現(xiàn)

情感判斷

大模型尚不具備-0.2

大模型具備但仍需改進

大模型具備且可與人類媲美

-0.4

?視覺/聽覺識別:基本達到甚至一定程度上超越人類,準確率較高

?學習能力:具備自動學習能力,在特定任務和數(shù)據(jù)集上可以超越

人類

-0.6

?自然語言理解:熟練掌握多種人類語言,基本達到甚至一定程度

上超越人類,存在一定語言不夠自然(機械化)的問題

?創(chuàng)造性思維:能夠生成創(chuàng)造性內(nèi)容,但通常是在已知樣本的基礎(chǔ)

上進行創(chuàng)作或是需要人類指導/二次修改

?抽象思維:相對有限,依賴于數(shù)據(jù)與模型參數(shù)-0.8

?藝術(shù)表現(xiàn):可以生成藝術(shù)作品,但通常缺乏情感和創(chuàng)新

?情感判斷:能夠進行情感分析,但不具備真實情感體驗

?倫理是非判斷:不具備,可能引發(fā)錯誤或數(shù)據(jù)隱私等安全問題

?直覺:不具備-1

19982003200820132018

資料來源:“ComputersaceIQtestsbutstillmakedumbmistakes.Candifferenttestshelp?”,灼識咨詢9

大模型的發(fā)展現(xiàn)狀

隨著大模型的不斷演進,它們的參數(shù)規(guī)模也呈現(xiàn)出指數(shù)級增長的趨勢;與此同時,它們的復雜性和功能愈發(fā)提

升,使得大模型能夠在各領(lǐng)域擔任更加多樣和復雜的任務。

大模型的發(fā)展及參數(shù)量

參數(shù)數(shù)量

WuDao2.0

3.2e+12Megatron-GPT-4(1.8T)

TuringNLG

530BPaLM(540B)

GPT-3175BMinerva(540B)

BLOOM

HyperClovaGopherErnieBot(260B)

(davinci)PanGu-uOPT-175B

3.2e+11日日新

Jurassic-1-GLM-130B(180B)

JumboChinchillaSparrow(70B)

Claude(52B)

3.2e+10TuringNLG

T5-11BDALL-ECodexGPT-NeoX-20B

Megatron-LM通義千問(7B)

GPT-J-6BERNIE3.0

(Original,8.3B)Jurassic-XChatGL

T5-3BM-6B

CogViewDALL·E2

3.2e+9MeenaGPT-Neo

WuDao-WenStableDiffusion

Yuan(LDM-KL-8-G)

GPT-2Grover-Mega

ERNIE-GEN

3.2e+8(large)

20192020202120222023時間

分析

?在大模型出現(xiàn)之前,機器學習算法的參數(shù)量以平均每5-6年翻一個數(shù)量級的速度快速增長,而大模型的出現(xiàn)使模型參數(shù)量的增長速度大幅提升。

?舉例而言,大模型及多模態(tài)模型的鼻祖之一GPT-2發(fā)布于2019年,參數(shù)量為15億;GPT-3發(fā)布于2020年,參數(shù)量即達到了1,750億,相比GPT-2增長了100多倍。粗略計算,在大模型興起的前幾年,

大模型的參數(shù)量每年即可增長1-2個數(shù)量級。

?在目前已公開參數(shù)量的大模型中,參數(shù)量最多的達到了1.75萬億。

資料來源:HAI,灼識咨詢10

大模型的應用

大模型正在各應用場景嶄露頭角,其應用場景廣泛且多樣化。從自然語言處理到圖像生成,從音頻處理到視頻、

3D場景創(chuàng)建,大模型能夠應對多領(lǐng)域的挑戰(zhàn)。未來,大模型有望為更多應用場景帶來更多機會和創(chuàng)新。

大模型的應用場景

應用場景主要用途相關(guān)大模型描述

GPTCohere?模型比較擅長通用的短/中篇幅寫作,通常用于初稿

及更新稿撰寫

?營銷(內(nèi)容)?通用寫作GopherAnthropic

文本?模型能夠理解上下文,生成更自然的文本,準確性

?銷售(郵件)?記筆記

OPTAI2逐漸接近人類水平,廣泛應用于智能客服、文本摘

要、內(nèi)容生成等領(lǐng)域

BloomYandex

?代碼生成可能在短期內(nèi)對開發(fā)人員的生產(chǎn)力帶來重

?代碼生成?文本到SQLGPT

編程大影響

?代碼文檔化?網(wǎng)頁應用構(gòu)建Stability.ai

Tabnine?能降低非開發(fā)人員編程的門檻

?在圖像識別、分割、風格轉(zhuǎn)換等領(lǐng)域有廣泛應用,

?圖像生成?媒體/廣告Dall-E2

圖像能夠處理復雜的視覺任務

?消費者/社交應用?設(shè)計Craiyon

StableDiffusion?不同風格的圖像模型以及編輯和修改生成圖像技術(shù)

?對聲音和語音的理解能力逐漸提高,生成的音頻逐

音頻?語音合成

OpenAI漸自然、不機械,且接近人類水平

?用于自動剪輯、特效創(chuàng)作、噪音修復、虛擬場景制

視頻?視頻編輯/生成

X-CLIPMake-A-Video作等,大大提升了編輯效率

DreamFusion?在游戲、電影、虛擬現(xiàn)實、建筑和實體產(chǎn)品設(shè)計等

3D?3D模型/場景搭建

MDM(MotionDiffusionModel)大型創(chuàng)意市場極具潛力

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論