從算力、算法、數據和應用看AIGC_第1頁
從算力、算法、數據和應用看AIGC_第2頁
從算力、算法、數據和應用看AIGC_第3頁
從算力、算法、數據和應用看AIGC_第4頁
從算力、算法、數據和應用看AIGC_第5頁
已閱讀5頁,還剩39頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

目錄核心觀點生成式AI:ChatGPT引燃市場,數字經濟未來已至數據:大模型訓練的基礎資源算力:大模型發(fā)展帶來高算力需求算法:大模型算法助力AIGC突破產業(yè)應用:各領域應用加速落地,商業(yè)化前景廣闊生成式AI海外受益標的風險提示1核心觀點報告亮點:作為海外團隊,我們期待該篇報告能夠盡可能呈現海外市場當前在生成式AI

(AIGC)領域的布局和進展,從算力、算法、數據和應用入手,看清趨勢,尋找差異。一是盡可能減少我們對海外認知的信息差,更重要的是,他山之石,可以攻玉,海外映射是國內可以持續(xù)關注的重點。核心要點:AIGC未來已來,超預期持續(xù)出現從2018到2023年,四代GPT模型高速進步,從簡單的問答、閱讀理解、文本總結,到在眾多測試中獲得“人類級別表現”評級,AI迭代進化的速度越來越快??梢灶A期,AI達到人類智能水平、乃至超越人類智能水平的時代會以超預期的形態(tài)和速度出現。數據、算力、算法為AIGC核心要素,海內外廠商各占鰲頭數據,通過算力,最后產生了算法或者應用。數據作為新興生產要素,數據的擁有者、加工者是產業(yè)發(fā)展的基礎。算力作為基礎設施,是AIGC資本開支的主要受益者,核心參與者英偉達、AMD競爭優(yōu)勢顯著。AIGC的技術壁壘主要體現在算法上,當前通用型AI由GPT領跑,而在細分領域上,行業(yè)內的主要參與者包括谷歌、Meta、Anthropic、Hugging

Face和百度等公司。隨著細分龍頭競相研發(fā)創(chuàng)新算法和優(yōu)化現有技術、以及模型迭代下對數據、算力的需求高速膨脹,AIGC行業(yè)技術壁壘將不斷提高,現有優(yōu)秀參與者護城河極深。AIGC市場潛力巨大,應用領域迎來生產力解放根據Tractica的預測數據顯示,全球AI軟件市場規(guī)模將在2025年達到1260億美元,2021年到2025年年復合增長率為41.02%。一級市場的火熱也反映了AIGC發(fā)展的確定性趨勢。在大模型的快速迭代推動下,搜索引擎、辦公軟件、汽車、媒體、AI繪畫設計、AI廣告營銷、智能工作助理等應用率先落地的行業(yè)將具備較強商業(yè)化機會。投資建議:我們認為生成式AI模型不斷加速迭代,將快速推動生成式AI技術的商業(yè)化推廣應用的進程,帶動產業(yè)三大要素—數據、算力、算法和應用的高速發(fā)展。后續(xù)建議密切關注生成式AI產業(yè)鏈上四條投資主線:數據是大模型訓練的基礎資源,隨著大模型項目迭代發(fā)展,對訓練用數據集需求將不斷上升,受益標的為數據提供商龍頭Appen(APX.AX);大模型發(fā)展帶來高算力需求,人工智能芯片市場巨大,受益標的為英偉達(NVDA.O)、AMD(AMD.O);各大廠商布局大模型算法項目,龍頭科技企業(yè)具有技術優(yōu)勢,受益標的為微軟(MSFT.O)、谷歌(GOOG.O)、Meta(META.O)、百度(BIDU.O/9888.HK);生成式AI商業(yè)化應用落地領先領域,受益標的為自動駕駛技術公司Mobileye(MBLY.O)、數字媒體Buzzfeed(BZFD.O)、辦公軟件微軟(MSFT.O)。風險提示:技術落地商業(yè)化不及預期人工智能在部分領域應用的監(jiān)管風險外部環(huán)境導致芯片、軟件等供應限制核心觀點目錄核心觀點生成式AI:ChatGPT引燃市場,數字經濟未來已至數據:大模型訓練的基礎資源算力:大模型發(fā)展帶來高算力需求算法:大模型算法助力AIGC突破產業(yè)應用:各領域應用加速落地,商業(yè)化前景廣闊生成式AI海外受益標的風險提示4AIGC(AI

Generated

Content)即生成式AI,多領域應用逐漸成熟。AIGC涉及無監(jiān)督和半監(jiān)督學習算法,截至目前其發(fā)展歷程主要分為三個階段:統(tǒng)計機器學習方法階段(2010年前):首先對數據進行手工標注,然后構建其重要特征,最后構建概率模型并進行參數優(yōu)化,從而將概率最大的輸出作為結果;基于深度學習的神經網絡模型(2010年-2017年):深度學習算法被引入,本質上是通過大量數據訓練神經網絡,主要表現形式為:CNN(卷積神經網絡)、RNN(循環(huán)神經網絡)等。相比統(tǒng)計學習方法,省去了復雜且手工的特征構建;

基于Transformer結構的預訓練模型(2017年至今):利用大量無標注數據進行自監(jiān)督學習,然后再使用少量的標注數據對下游任務進行微調(即遷移學習)。在應用方面,按場景分類AIGC已經較為成熟地應用于文本和代碼撰寫、圖像識別和生成,以GPT為首的AIGC模型也正在探索消費級AI技術的變現方式。展望未來,AIGC不僅會在現有應用領域持續(xù)進步,也將逐步拓展到視頻和游戲領域,AIGC將會在更多的領域得到廣泛應用,為各個行業(yè)和領域的發(fā)展和進步提供更多可能性。表1:AI應用發(fā)展進程預測2020前20202022預計2025預計2030預計2050文本垃圾郵件檢測翻譯基礎問答基礎文案撰寫生成草案撰寫更長文章完善文稿對科學論文等進行垂直微調文章終稿超過人類平均水平文章終稿超過專業(yè)作者水平代碼單行自動完成多行代碼生產更長代碼更高準確度更多語言深度提高文本到產品(草稿)文本到產品(終稿),超過大部分開發(fā)者圖像藝術Logo攝影產品設計、建筑等模型產品設計、建筑等終稿終稿超過大部分專業(yè)藝術家、設計師、攝影師水平視頻/3D/游戲視頻和3D制作的初稿完善版本AI創(chuàng)作平臺游戲和電影實現個性化定制開始嘗試基本完成黃金時期生成式AI:自然語言處理演變十余年,迎來變現階段OpenAI創(chuàng)立于2015年12月,發(fā)布ChatGPT引燃AI行業(yè)熱度。GPT系列是OpenAI打造的自然語言處理模型,采用以Transformer結構為核心的模型,其最大特點是使用了大量的未標注的語料進行無監(jiān)督的預訓練,然后在各種有監(jiān)督的任務上進行微調。OpenAI于2022年11月先后推出了GPT-3.5和ChatGPT,GPT-3.5使用了更新的語料進行預訓練,而ChatGPT是基于GPT-3.5的對話機器人,能夠根據用戶的輸入生成流暢、有邏輯的回答,以及完成撰寫論文報告、翻譯文字、編寫代碼等文本生成任務,并且能根據聊天的上下文進行互動。ChatGPT發(fā)布后爆火,僅用5天時間用戶量便破百萬,推出2個月后用戶量破億,成為史上用戶增長速度最快的消費級應用程序。3月14日,OpenAI進一步推出GPT-4.0,相比當前ChatGPT使用的GPT-3.5,增加了輸入圖像的功能;擴寫能力增強,能處理超過25000個單詞的文本;更具創(chuàng)造力,并且能夠處理更細微的指令。GPT模型迭代的參數量及訓練量均呈指數級增長,使得AI從實驗技術成長為穩(wěn)定生產力。圖1:ChatGPT僅發(fā)布5天便達到百萬用戶100012001400ChatGPTInstagramSpotifyFacebookFoursquareTwitterAirbnbNetflix0 200 400 600 800用戶量達到100萬時間(天)資料來源:Statista,TRTWorld,

華西證券研究所生成式AI:

GPT模型迭代四大版本,進化速度不斷提升GPT模型穩(wěn)定進步,AI已是成熟生產工具。從GPT-1到最新發(fā)布的GPT-4模型,其應用已經不僅局限于問答、閱讀理解等文本處理,雖然目前GPT-4在現實場景中的能力可能不如人類,但在各種專業(yè)和學術考試上表現出明顯超越人類水平的能力,GPT-4在模擬律師考試中,分數排在前10%;相比之下,GPT-3.5的得分則在倒數10%附近。隨著算力、算法、數據量的演進,行業(yè)內不斷出現高質量的AI產品,微軟New

Bing、AI繪畫、智能駕駛等等,體現出AI未來在多個領域的應用潛力。ChatGPT版Office、百度“文心一言”兩大產品正式推

出,或將AI的生產力推向新的高度。圖2:GPT

4.0

數學能力大幅提升生成式AI:

AI產品全面開花,生產力將達新高度AI行業(yè)星辰大海,數字經濟未來已至。從2018到2023年,四代GPT模型高速進步,從簡單的問答、閱讀理解、文本總結,到在眾多測試中獲得“人類級別表現”評級,此外近期AI衍生產品的層出不窮,顯現出背后AI行業(yè)的星辰大海。2020年,馬斯克預言五年內人工智能將比人類更聰明,當前AI迭代進化的速度越來越快,雖然GPT還未通過圖靈測試,距離真正的“智能”還有距離,

但我們認為,AI達到人類水平、乃至超越人類的時代

即將到來。表2:歷代GPT學習目標及表現情況模型發(fā)布時間參數量預訓練數據量學習目標模型表現GPT-12018年6月1.17億約5GB無監(jiān)督語言模型(Pre-training)有監(jiān)督fine-tune在9/12任務中獲得“先進”表現:問答、閱讀理解、文本總結GPT-22019年2月15億40GB多任務零次學習ZeroShortTaskTransfer在7/8任務中超過“先進”表現隨著模型參數變多,模型的表現呈現log-linear上升,沒有到達瓶頸GPT-32020年5月1,750億45TB語境學習小樣本學習在小樣本學習、單樣本學習、零樣本學習中表現突出GPT-42023年3月待公布基于規(guī)則的獎勵模型(RBRM)在GLUE,

SuperGLUE,

SQuAD等測試中獲得“人類級別表現”擁有圖像處理能力生成式AI:

AI進化加速,數字經濟未來已至數據,通過算力,最后產生了算法或者應用。AIGC是人工智能、大數據、云計算、5G等多個技術領域的整合,是一種跨領域的合作發(fā)展模式。在AIGC行業(yè)中,算力、算法、數據是三個核心概念,它們共同構成了這個領域的基礎設施。未來隨著技術的進步和應用場景的不斷拓展,這三個概念將繼續(xù)發(fā)揮重要作用,推動整個行業(yè)的創(chuàng)新和發(fā)展。算力(Computing

Power):算力是指計算設備執(zhí)行算法、處理數據的能力,包括CPU、GPU、FPGA、ASIC等。云計算技術和5G通信技術的發(fā)展使得算力的分布和調度更加靈活,有助于滿足各種場景下對高性能計算的需求。

算法(Algorithm):算法是一系列解決問題、實現特定功能的有序指令和步驟。在AIGC行業(yè)中,算

法是模型的基礎,用于實現數據分析、人工智能模型訓練等功能。數據(Data):在AIGC行業(yè)中,數據是支撐決策和優(yōu)化的基礎,是算法發(fā)揮作用的前提。大數據技術可以對海量數據進行有效處理、分析和存儲,而人工智能技術可以通過對數據進一步學習,實現各種智能化應用,如圖像識別、自然語言處理等。表3:AIGC行業(yè)三大核心概念核心概念描述應用及關聯技術算力(ComputingPower)衡量計算設備執(zhí)行算法、處理數據的能力,關系到系統(tǒng)的運行效率和任務完成速度。數據中心、分布式計算、云計算、邊緣計算、高性能計算(HPC)算法(Algorithm)解決問題、實現特定功能的有序指令和步驟,是計算機程序的基礎,用于實現各種功能。機器學習(ML)、深度學習(DL)、自然語言處理(NLP)、計算機視覺(CV)、推薦系統(tǒng)等數據(Data)對現實世界的描述和反映,以數字、文字、圖像等形式表現,是支撐決策和優(yōu)化的基礎。數據挖掘、數據分析、數據倉庫、數據可視化、數據安全、隱私保護等生成式AI:算力、算法、數據三位一體目錄核心觀點生成式AI:ChatGPT引燃市場,數字經濟未來已至數據:大模型訓練的基礎資源算力:大模型發(fā)展帶來高算力需求算法:大模型算法助力AIGC突破產業(yè)應用:各領域應用加速落地,商業(yè)化前景廣闊生成式AI海外受益標的風險提示10模型數據集概要GPT-1BooksCorpus(7000不同的未發(fā)表的書籍,包括冒險、幻想、浪漫等題材,數據集中包含大量連續(xù)文本)GPT-2在Reddit上爬取的外鏈,構建了WebText數據集,包含了這4500萬個鏈接的文字子集,移除了所有的Wikipedia文檔,因為它是很多下游任務的數據源,這是為了避免數據集重疊而影響評估GPT-3使用Common

Crawl數據集(幾乎包含整個互聯網的數據),進行了3步過濾操作,增加了一些高質量數據集,最終采用混合數據集輸入。數據集大小合計將近5千億tokens數據是訓練大模型的基礎資源,以GPT系列模型為例,對比三代模型間使用的數據集,訓練所需的數據集在質量和數量方面均不斷提升。隨著人工智能模型迭代發(fā)展,高質量數據集的需求將進一步增長。表4:GPT系列模型訓練使用數據集概要圖3:GPT-3模型訓練使用數據集概況數據:大模型訓練的基礎資源,需求不斷擴大公司主營業(yè)務公司優(yōu)勢海天瑞聲AI訓練數據的研發(fā)設計、生產及銷售業(yè)務擁有的成品訓練數據集數量大,在產品領域覆蓋方面比較完善已取得專利授權28項,計算機軟件著作權159項,對比同業(yè)公司在專利技術儲備方面具備一定優(yōu)勢公司的產品和服務已獲得字節(jié)跳動、阿里巴巴、騰訊、百度、科大訊飛、??低?、微軟、亞馬遜、三星、中國科學院、清華大學等國內外客戶的認可,市場認可度較高澳鵬(Appen)數據采集和標注解決方案1.覆蓋超過235個語種/方言,語言覆蓋面具有優(yōu)勢2、成立于1996年,經營歷史較長,規(guī)模較大,擁有人工智能輔助數據注釋平臺,在全球170多個國家與100多萬名專業(yè)承包合作3.客戶包括亞馬遜、微軟、谷歌等全球大型科技公司,產品質量得到認可標貝科技智能語音交互和AI數據服務擁有語音合成模型和算法,可覆蓋音樂類訓練數據。擁有TOBI標注體系,通過自主研發(fā)的TTS評測系統(tǒng),提供高質量的數據服務。已與微軟、百度、阿里、騰訊、京東、滴滴、字節(jié)跳動等國內外百余家企業(yè)客戶建立合作,服務項目累計超過1000項從自然數據源簡單收集取得的原料數據并不能直接用于有監(jiān)督的深度學習算法訓練,必須經過專業(yè)化的采集、加工,形成相應的工程化訓練數據集后才能供深度學習算法等訓練使用。目前,帶有監(jiān)督學習的算法對于訓練數據的需求遠大于現有的標注效率和投入預算,基礎數據服務將持續(xù)釋放其對于算法模型的基礎支撐價值。表5:數據服務商部分公司概況數據:大模型訓練的基礎資源,需求不斷擴大目錄核心觀點生成式AI:ChatGPT引燃市場,數字經濟未來已至數據:大模型訓練的基礎資源算力:大模型發(fā)展帶來高算力需求算法:大模型算法助力AIGC突破產業(yè)應用:各領域應用加速落地,商業(yè)化前景廣闊生成式AI海外受益標的風險提示13334.74,773.701,0003,0002,0004,0005,00020212030E全球GPU市場規(guī)模(億美元)AIGC模型硬件以GPGPU為主,GPU市場規(guī)模有望在2030年超過4000億美元。GPU在并行計算方面具有性能優(yōu)勢,在AI領域分化成兩條分支:一條是傳統(tǒng)意義的GPU,專門用于圖形圖像處理用途;另一條是GPGPU,作為運算協處理器,增加了專用指令來滿足不同領域的計算需求。

使用GPGPU在云端進行

模型訓練算法能夠顯著縮短海量訓練數據的訓練時長,減少能源消耗,從而降低人工智能的應用成本,目

前全球人工智能相關處理器解決方案仍以GPGPU為主。根據VerifiedMarketResearch報告,2021年全球GPU芯片市場規(guī)模已經達到了334.7億美元,并預計到2030年將達到4,773.7億美元,CAGR高達33.3%。GPU市場保持著高速增長態(tài)勢,其在人工智能領域中仍然是不可或缺的計算資源之一。圖4:全球GPU市場規(guī)模預測6,000CAGR:33.3%算力:算力需求不斷攀升,GPU行業(yè)市場巨大英偉達:高算力芯片龍頭,AI芯片市場地位領先。人工智能平臺需要巨大的數據處理能力,英偉達的A100顯卡適合于支持ChatGPT、Bard等工具的機器學習模型,

這款芯片能夠同時執(zhí)行眾多簡單的計算,而

這對于訓練和使用神經網絡模型很重要,使得A100顯卡成為目前主流AI芯片。長期展望,AI芯片市場快速增長將帶動英偉達營收快速增長,根據中商產業(yè)研究院數據顯示,預計全球AI芯片市場規(guī)模有望從2020年的約175億美元提升到2025年的726億美元,年復合增長率32.9%。根據花

旗集團預估,ChatGPT

的使用可能會在

12

個月內為英偉達帶來

30

億至

110

億美元的銷售額。算力:英偉達芯片龍頭市場地位穩(wěn)固圖5:A100等顯卡大模型訓練速度圖6:A100等顯卡機器學習性能AMD:高算力芯片代表企業(yè),即將推出世界首款集成數據中心CPU和GPU的APU產品。在2023年的CES上,AMD預覽了AI推理加速器AMD

Alveo

V70,主打高能效,峰值AI算力可達到400TOPS,TDP僅75W。AMD稱這是最強AI算力的75W

TDP級產品。AMD還預覽了其首款集成數據中心CPU和GPU的APU產品AMD

Instinct

MI300。該款產品采用了Chiplet封裝理念。Chiplet策略是一項重要的硬件創(chuàng)新,擺脫了單芯片微縮的限制,同時能夠優(yōu)化設備的性能、功耗和性價比。MI300加速器專為領先的高性能計算(HPC)和AI性能而設計,借助3D封裝技術將CPU和加速計算單元集成在一起,總共有1460億個晶體管。圖7:AMD在CES上介紹V70圖8:AMD在CES上介紹MI300算力:AMD封裝理念Chiplet領先,推出高性能APU算力:英偉達、AMD壟斷全球,國產芯片奮起直追全球GPU市場中英偉達和AMD占據96%份額,國內GPU主要研發(fā)企業(yè)為海光信息、寒武紀等。根據Wccftech,2022Q3獨立GPU市場中英偉達和AMD分別占據88%、8%市場份額。根據海光信息招股書公布技術指標數據,當前國內高端GPU相比國際巨頭在顯存頻率、帶寬等參數上還有一定差距,但在典型應用場景下,深算一號已基本能夠達到國際上同類型高端產品的水平。在國際市場上,英偉達和AMD在高性能計算和人工智能領域具有豐富的產品線和完善的生態(tài)系統(tǒng),疊加長期積累的技術優(yōu)勢和市場地位,預計仍將長期維持AI算力芯片領域的龍頭地位。表6:深算一號與NVIDIA、AMD高端產品技術規(guī)格對比核心概念海光NVIDIAAMD品牌深算一號Ampere

100MI100生產工藝7nm

FinFET7nm

FinFET7nm

FinFET核心數量4096(64

Cus)2560CUDA

processors640Tensor

processors120

CUs內核頻率Upto1.5GHz

(FP64)Upto1.7GHz

(FP32)Upto1.53

GHzUpto1.5GHz

(FP64)Upto1.7GHz

(FP32)顯存容量32GB

HBM280GB

HBM2e32GB

HBM2顯存位寬4096

bit5120

bit4096

bit顯存頻率2.0

GHz3.2

GHz2.4

GHz顯存帶寬1024

GB/s2039

GB/s1228

GB/sTDP350

W400

W300

WCPU

to

GPU互聯PCIeGen4x

16PCIeGen4x

16PCIeGen4x

16GPU

to

CPU互聯xGMIx

2Upto184

GB/sNVLinkUpto600

GB/sInfinityFabricx

3Upto276

GB/s算力:國產芯片發(fā)展迅速,填補AI市場空缺高端芯片進口受限,國產芯片需求加速擴大。在NVIDIA、AMD高端產品被限制向中國出售的情況下,國產大模型算力需求將快速推動國產芯片市場增長,當前國產GPGPU芯片的研發(fā)和生產已經取得了一定的進展,海光、炬芯、寒武紀等企業(yè)均擁有具備自主知識產權的GPU芯片,為國內高性能計算和人工智能領域的發(fā)展提供了重要支持。

根據前瞻產業(yè)研究院,國產人工智能芯片自2020年來呈爆發(fā)式增長,2023年市場空間預計將超過1,300億元,2020-2023年CAGR為95.86%??傮w而言,在國際關系緊張、芯片進口受限的前提下國產人工智能芯片市場未來的發(fā)展前景廣闊,隨著國內廠商加大研發(fā)投入和技術創(chuàng)新力度,進一步提升產品性能,看好其在國內乃至國際市場中獲得更多的份額和競爭優(yōu)勢。圖9:中國人工智能芯片行業(yè)規(guī)模(億元)59.45112.87177.18429.90843.711,331.2289.8656.98142.6396.2657.7802040608010012014016002004006008001,0001,2001,4002018201920202021E2022E2023E目錄投資要點生成式AI:ChatGPT引燃市場,數字經濟未來已至數據:大模型訓練的基礎資源算力:大模型發(fā)展帶來高算力需求算法:大模型算法助力AIGC突破產業(yè)應用:各領域應用加速落地,商業(yè)化前景廣闊生成式AI海外受益標的風險提示19

在算法領域,目前通用型AI的領軍者是OpenAI,其發(fā)布的GPT-4模型是一種多模態(tài)語言模型,能接受圖像和文本輸入,再輸出正確的文本回復。相較于ChatGPT基于的GPT-3.5模型,它擁有強大的識圖能力,文字輸入限制提升,準確性顯著提高,風格上也有了變化,例如能夠生成歌詞和創(chuàng)意文本。在細分領域中,行業(yè)內的主要參與者包括以下公司:谷歌的PaLM-E模型是目前已知最大的視覺語言模型,并且將模型接入至機器人,實現可通過機器人執(zhí)行命令,深耕將AI大模型應用到機器人領域。Meta的FAIR團隊專注于研發(fā)用于輔助研究群體進行研究工作的大模型,其“LLaMA”模型參數量較少,但同樣基準測試結果同樣優(yōu)秀。而較小的模型大小帶來的是模型訓練、運行成本的降低,實現以低成本使用大模型AI。Anthropic專注于人工智能的安全道德領域,其聊天機器人Claude在對有害性輸入的應對上表現得更加優(yōu)異,更擅長拒絕有害詞。其提出的Constitutional

AI(CAI)技術有望在未來對所有AI實施有效性安全監(jiān)督。HuggingFace致力于構建開源模型庫,集成了諸多人工智能模型,并在TensorFlow和Pytorch上做了一層抽象,屏蔽了機器學習框架的細節(jié),并非常重視易用性。作為一個開源社區(qū),其中立的第三方平臺身份有助于聚集行業(yè)頂尖的社區(qū)貢獻者,吸引社區(qū)貢獻者將其模型集成到公司模型庫中,或者是在公司模型庫中構建模型。百度作為國內首個發(fā)布類ChatGPT聊天機器人產品的公司,是國產大模型的領導者。其產品“文心一言”盡管與ChatGPT有一定差距,但在中文領域展現出了獨特的中文理解能力,并且出于數據安全、外部因素限制等角度考慮,國產大模型仍是必需,具備硬性市場需求。算法:OpenAI領跑通用型AI,各大廠商各有千秋Azure算力支持,數億投入始現回報。GPT系列是OpenAI打造的自然語言處理模型,基于文本預訓練的GPT-1,GPT-2,GPT-3三代模型都采用以Transformer結構為核心的模型。微軟在2019年向OpenAI投資10億美元,并為OpenAI建造了一臺由數萬個A100

GPU組成的大型AI超級計算機,成本或超過數億美元。GPT模型正是由這臺超級計算機提供支持,OpenAI試圖訓練更多需要學習海量數據、擁有超大參數規(guī)模的AI模型,需要長期訪問強大的云計算服務,GPT-3的參數量達到了1,750億,微軟構建了一個可在非常大的范圍內運行且可靠的系統(tǒng)架構,這使得ChatGPT成為可能。圖10:微軟發(fā)布NDm

A100

v4

PublicAI

超級計算機在ChatGPT的成功后,微軟近日宣布了

NDm

A100

v4Public

AI超級計算機,并在21世紀超級計算大會的TOP500

榜單中取得了前十的優(yōu)異成績。隨著GPT模型的參數規(guī)模和數據量持續(xù)膨脹,Azure的強大算力支持

是GPT持續(xù)完善的保障。算法:微軟Azure超算為GPT提供保障OpenAI正式發(fā)布多模態(tài)預訓練大模型

GPT-4,識圖能力強大,實現多模態(tài)能力。相較前一代GPT-3.5,其主要在兩方面實現飛躍式提升:

(1)具備了強大的識圖能力,可以接受圖像和文本輸入;(2)回

答準確性顯著提高。OpenAI目前已升級ChatGPT,ChatGPT

Plus

訂閱者可以獲得具有使用上限的

GPT-4訪問權限,開發(fā)者則可以通過注冊等待以獲取GPT-4的API訪問權限。GPT-4

可以接受文本和圖像形式的

prompt,新能力與純文本設置并行,允許用戶指定任何視覺或語言任務。具體來說,它能在用戶給定由散布的文本和圖像組成的輸入的情況下生成相應的文本輸出(自然語言、代碼等)。圖12:GPT-4識別論文圖片生成概要圖11:GPT-4識圖能力實例算法:ChatGPT引入最新模型GPT-4具備識圖能力相較GPT-3.5,回答準確性顯著提高。根據OpenAI公布數據顯示,GPT-4在專業(yè)和學術方面表現優(yōu)異,在諸多標準化考試中均取得了優(yōu)秀的分數。比如其能通過模擬律師考試,且分數在應試者的前10%

左右,相比之下,GPT-3.5的得分在倒數

10%

左右。GPT-4在GRE(Graduate

Record

Examination)數學考試中取得應試者前20%左右成績,而GPT-3.5僅能排在應試者后25%。GPT-4在大部分語言上的準確性均超過了GPT-3.5在英語上的表現。OpenAI使用

Azure

Translate將

MMLU

基準

——

一套涵蓋

57

個主題的

14000

個多項選擇題——

翻譯成多種語言。在測試的

26

種語言的

24種中,GPT-4

優(yōu)于

GPT-3.5

和其他大語言模型(Chinchilla、PaLM)的英語語言性能。圖13:GPT-4標準化考試成績圖14:GPT-4在不同語言上的準確性算法:GPT-4模型回答準確性顯著提高谷歌:發(fā)布目前最大視覺語言模型PaLM-E,有望率先落地智能機器人相關產品。PaLM-E是一種多模態(tài)視覺語言模型(VLM),具有

5620億個參數,是全球已知的最大視覺語言模型。根據谷歌公布的演示視頻顯示,只需要給

PalM-E

下達一條高級命令,比如“把抽屜里的薯片拿給我”,它就可以給一個帶機械臂的移動機器人平臺(由谷歌機器人開發(fā))生成行動計劃,然后自行執(zhí)行。PaLM-E

通過分析來自機器人攝像頭的數據來實現這一點,整個過程不需要對場景表示進行預處理。并且,PaLM-E表現出了“正遷移”,又稱助長式遷移,它能把一項任務中學到的知識和技能遷移至另一項任務,而且與單任務機器人模型相比具有“明顯更高的性能水平”圖15:PaLM-E具備能力一覽資料來源:Google

research,華西證券研究所算法:最大視覺語言模型PaLM-E,可操控機器人Meta:“LLaMA”致力于輔助學術研究人員完成研究工作。LLaMA

(Large

Language

ModelMeta

AI)模型參數相對少,意味著運行模型算力要求較低,但基準測試表現優(yōu)秀。同ChatGPT、NewBing不同,LLaMA是一個開源的“研究工具”,旨在完成在文本生成、問題回答、書面材料總結,以及自

動證明數學定理、預測蛋白質結構等工作幫助研究人員推進研究工作。根據Meta發(fā)布的信息,LLaMA包含4個基礎模型,參數分別為70億、130億、330億和650億。其中,LLaMA

65B

LLaMA

33B在1.4萬億個tokens上訓練,而最小的模型LLaMA

7B也經過了1萬億個tokens的訓練。在大多數基準測試中,參數小的多的LLaMA-13B的性能優(yōu)于GPT3.5的前身GPT3-175B,而LLaMA-65B更可與業(yè)內最佳的Chinchilla-70B和PaLM-540B競爭。圖16:LLaMA的訓練損失函數圖圖17:LLaMA在基礎問題解決中的表現算法:針對研究群體的模型“LLaMA”,目標明確Anthropic:聚焦“安全”的人工智能,或將成為AI安全領域專家。隨著大語言模型的發(fā)展,AI在很多任務上的能力將會超過人類,這將讓人類無法監(jiān)督模型。為了確保

AI

在超過人類能力后仍保持安全性,需要開發(fā)一種可擴展的模型監(jiān)督技術。CAI(

Constitutional

AI

)技術即是這種模型監(jiān)督技術,原理是人類可以指定一套行為規(guī)范或原則,而不需要手工為每個有害輸出打標簽,模型根據這套行為規(guī)范和準則選擇最佳結果。Anthropic所開發(fā)的

聊天機器人Claude,在對話安全領域上做得更為突出,更擅長拒絕有害詞或有害的引導,與人類價值觀更

加相符。并且CAI技術有望對未來所有人工智能模型實施有效安全性監(jiān)督。圖18:Constitutional

AI(CAI)技術流程示意圖算法:對人工智能的安全性監(jiān)督日益重要Hugging

Face:與亞馬遜旗下云計算部門AWS擴大合作,將在AWS上構建下一個版本語言模型。近日,AWS宣布與美國明星AI創(chuàng)企Hugging

Face擴大合作,以加速構建生成式AI應用的大型語言模型和大型視覺模型的訓練、微調和部署。Hugging

Face是OpenAI的主要競爭對手之一,其主要業(yè)務包括生產AI產品和托管其他公司開發(fā)的產品,已發(fā)展成AI開發(fā)者共享開源代碼和模型的在線中心之一。據AWS數據庫、分析和機器學習副總裁Swami

Sivasubramanian透露,Hugging

Face將在AWS上構建其語言模型的下一個版本BLOOM。

該開源AI模型在規(guī)模和范圍上將與OpenAI用于研發(fā)ChatGPT的大

型語言模型競爭,將運行在AWS自研AI訓練芯片Trainium上。圖19:BLOOM模型結構算法:構建AI開發(fā)平臺,加速AI模型迭代更新百度:國內首個類GPT產品,有望在外部壓力驅動下快速推動國內應用結合落地?!拔男囊谎浴北M管模型能力水平上與ChatGPT等有一定差距,但

在下游應用逐步對接后,有望依靠合作伙伴的高質量數據集快速提

升模型能力。由于國內無法使用ChatGPT的API接口,且出于數據安全等角度考慮,勢必需要國產大模型,百度“文心一言”作為國產大模型的先行者,在國內政策扶持和產業(yè)鏈協同發(fā)展的背景下,將進一步加速國內AI技術進步和產業(yè)化進程,填補市場空缺。根據百度文心大模型的布局全景,“文心一言”有望通過飛槳開源開放平臺、百度智能云等賦能到工業(yè)、能源、金融、通信、媒體、教育等各行各業(yè),通過接入合作伙伴的方式,進一步獲取高質量數據集以強化模型訓練調整,快速提升模型性能。圖20:百度文心大模型布局全景算法:國產大模型奮力追趕,行業(yè)布局廣泛盡管當前版本“文心一言”仍具備提升空間,但在中文理解能力上,相較ChatGPT等國外模型,其具備一定的“主場優(yōu)勢”,有望在國內中文環(huán)境下實現較好的應用效果。在關于東北燒烤店取名的提問中,ChatGPT的回答中夾雜了“周家烤鴨店”、“炸醬三絕串串香”等看似具有相似性,但實際不符合問題要求的答案;而文心一言則回答答案均符合要求,且呈現出了不同答案的取名邏輯。在創(chuàng)作藏頭詩的任務中,ChatGPT沒有能夠正確理解“藏頭詩”的含義,而文心一言的創(chuàng)作明顯更勝一籌。由此可見,文心一言在中文理解領域上確實相較更有優(yōu)勢,或更加適合中國市場。圖21:ChatGPT關于燒烤店取名回答 圖22:“文心一言”關于燒烤店取名回答圖23:ChatGPT關于藏頭詩創(chuàng)作圖24:“文心一言”關于藏頭詩創(chuàng)作算法:相比ChatGPT,“文心一言”在中文理解領域上具備優(yōu)勢目錄投資要點生成式AI:ChatGPT引燃市場,數字經濟未來已至數據:大模型訓練的基礎資源算力:大模型發(fā)展帶來高算力需求算法:大模型算法助力AIGC突破產業(yè)應用:各領域應用加速落地,商業(yè)化前景廣闊生成式AI海外受益標的風險提示30AIGC市場潛力巨大,即將實現多領域應用。根據Tractica的預測數據顯示,全球AI軟件市場規(guī)模將在2025年達到1260億美元,2021年到2025年年復合增長率為41.02%。在大模型的快速迭代推動下,AIGC市場預計將保持高速增長,市場潛力巨大。生成式AI領域在一級市場同樣受到青睞,全球早期資金調研機構CBInsights最新報告顯示,2022年有110筆創(chuàng)投交易和ChatGPT概念有關,投資資金超過26億美元。我們預計搜索引擎、辦公軟件、汽車、媒體、AI繪畫設計、AI廣告營銷等應用率先落地的行業(yè)將具備較強商業(yè)化機會,AI服務將極大解放生產力,帶來行業(yè)新模式。8705,9908,29011,48015,91037.7037.7337.8538.0038.1838.4038.4838.5937.237.437.637.838.038.238.438.638.8-2,0004,0006,0008,00010,00012,00014,00016,000圖25:全球AI軟件市場規(guī)模18,00020211,1982022E1,6502023E2,2752024E3,1392025E38.104,3352026E2027E2028E2029E2030EAI產業(yè)全球市場規(guī)模(億美元)YOY產業(yè)應用:AIGC市場潛力巨大,落地領域迎來生產力解放搜索引擎的主要代表為微軟Bing。根據用戶搜索內容,必應將生成相應問題答案的方案,比如當用戶輸入“

計劃一次為期五天的墨西哥之旅”

的命令時,

除了返回一些網址鏈接供你參考之外,

跟使用ChatGPT

一樣,必應對話框會直接給你寫出一個方案,用戶可以直接復制這個答案,不滿意的話也可以要求它再生成一個另外的方案,而必應可能會在回復中給出與搜索內容相關的廣告。由于生成式搜索下回復將

對用戶具有更高的匹配度,因此廣告也將更符合用戶需求。例如,當用戶搜索《精靈寶可夢:朱/紫》時,聊天機器人在對其進行介紹后,詢問用戶“是否有興趣購買朱與紫?”并附帶了相應廣告鏈接。在另一個關于羅尼-科爾曼的搜索中,Bing提供了關于這位退休的職業(yè)健美運動員的詳細信息,并生成了帶有圖片、鏈接和價格的健美產品。圖26:Bing搜索寶可夢朱/紫結果 圖27:Bing搜索羅尼-科爾曼結果【搜索引擎】微軟(MSFT.O):高質量廣告更加符合用戶需求微軟于3月6日表示,其

Power

Platform

平臺上的一系列商業(yè)智能和應用程序開發(fā)工具,包括

Power虛擬代理(Power

Virtual

Agent)和

AI

Builder,均已更新

ChatGPT

功能。Power

虛擬代理是一款供企業(yè)構建聊天機器人的工具,如今可以連接到公司內部資源,生成周報和客戶查詢的摘要。而用

AI

Builder,則可以很容易地使用

GPT

模型創(chuàng)建文本。比如,研究人員可以從每周發(fā)布的報告中總結文本,發(fā)到自己的郵箱里,一遍快速提供信息,識別當前趨勢。3月17日,微軟宣布GPT-4全面接入Office,以插件助手Microsoft

365

Copilot形式輔助辦公。PPT、Word、Excel均可使用該AI功能:Word,可以直接給一句簡短的描述讓它幫你生成文檔初稿;Excel,根據輸入需求自動分析、整理數據;PPT,可以通過其他文件內容生成精美PPT,并可以根據要求快速修改(簡化內容、替換圖片等)。預計隨著Copilot的應用,將為辦公模式帶來全面變革,提升辦公效率,解放生產力。圖28:Power

Virtual

Agent使用界面圖29:Copilot通過一句話分析excel數據趨勢【辦公軟件】微軟(MSFT.O):AI助手解放生產力,辦公模式迎來變革 自動駕駛:

Mobileye

自動駕駛技術領先,

若能加入AIGC

大模型將如虎添翼。根據GuidehouseInsights的報告,

以技術成熟度、產品能力等因素評價,

自動駕駛領域由Mobileye、Waymo、百度和Cruise

領先?;赥ransformer

架構設計的模型思路對自動駕駛領域有很強的借鑒作用,

比如ViT

V

i

s

i

o

nTransformer)模型,它是一種基于Transformer的視覺模型,可以在不使用CNN卷積神經網絡的情況下進行圖像分類,在自動駕駛圖像識別中應用;生成式AI技術有望進一步推動自動駕駛技術的快速發(fā)展,為未來的

出行帶來更加安全、便捷和智能的解決方案,實現更高等級的自動駕駛系統(tǒng)。圖31:VIT模型結構【汽車】Mobileye(MBLY.O):自動駕駛或達新高度圖30:全球自動駕駛系統(tǒng)排名資料來源:GuidehouseInsights,華西證券研究所智能語音助手:大模型下的語言訓練,可以通過微調進入汽車領域用于汽車語音識別系統(tǒng),幫助駕駛員實現語音控制,如語音導航,電話,音樂等。之后從汽車客戶服務上來講,幫助提供快速,準確和個性化的客戶服務,從而提高客戶滿意度。通用汽車幾乎是國外第一家正式宣布引入ChatGPT的車企,其正在與OpenAI合作開發(fā)一個基于支持ChatGPT的相同機器學習模型的車內數字助理,以幫助客戶幫助車主獲取車輛使用的相關信息,比如車主可以使用自然語言詢問如何處理某種情況,例如如果用戶輪胎被刺破了如何更換輪胎;儀表盤跳出某個指示燈建議駕駛員采取什么行動等等。圖32:通用汽車或實現車載GPT數字助理【汽車】通用汽車(GM.N):與OpenAI達成合作,提升車載助手智能程度 資料來源:New

York

Post,華西證券研究所根據CBS消息,美國知名媒體BuzzFeed宣布與OpenAI合作,將從“Quizzes”欄目入手,引入生成式AI進行內容創(chuàng)作。該欄目主要由一系列有趣的問題測試組成,比如包括“測測你是迪士尼里的哪位公主”,“你最像復仇者聯盟里的哪位超級英雄”之類等,根據用戶回答生成個人報告。ChatGPT接入到Buzzfeed后,將被用于為每位客戶生成個性報告的編寫過程中,AI的自動化生產內容將為這一工作縮減不必要的人工勞動,從而降低內容生產的成本,有望迎來人力成本的解放。根據Buzzfeed同創(chuàng)辦人兼執(zhí)行長Jonah

Peretti表示,AI將會被應用在建立測驗、集思廣益,并協助為閱聽眾提供客制化內容,幫助媒體作者提高效率。圖33:BuzzFeed的Quizzes欄目【媒體】Buzzfeed(BZFD.O):率先落地AI,互動更加個性化資料來源:Stability

AI,公開資料整理、華西證券研究所目前該行業(yè)領域暫無對應上市公司,主要公司之一為Stability

AI。Stability

AI是一家元宇宙及數字媒體工具開發(fā)商,構建了可制作數字藝術的AI繪畫平臺“Stable

Diffusion”,該工具是一種根據描述生成圖片的AI技術模型。只需輸入簡單的文字描述,其就能在幾秒鐘內自動生成一幅真實的畫作。AI技術的發(fā)展讓人們的想象逐漸成為現實。無論是需要一個角色立繪,還是設計場景背景,均可以通過AI繪圖工具迅速完成。該類AI繪圖

應用有望為設計繪畫行業(yè)帶來效率的極大提升,釋放大量人工勞動力,人類所扮演得角色將更傾向于提出意

見,而不是親自做圖。目前AI繪畫已能通過不斷修改調整“提示詞”生成高水平的藝術畫作,名叫杰森·艾倫(Jason

Allen)的藝術家通過AI繪圖工具生成的作品,在美國科羅拉多州博覽會的藝術比賽中獲得了第一名。圖34:Stable

Diffusion模仿畢加索生成的畫作 圖35:美國科羅拉多州博覽會的美術比賽中獲獎AI畫作【設計繪畫】StabilityAI:AI高效繪圖,改變行業(yè)工作模式資料來源:Stability

AI,公開資料整理、華西證券研究所游戲資產生成:Scenario

允許創(chuàng)建由游戲開發(fā)人員或游戲藝術家訓練的自定義生成器,以僅匹配他們自己圖像的風格。

在用戶上傳了一組定義給定游戲或項目的角色、物品、環(huán)境或其他資產的視覺效果后,Scenario平臺可以根據用戶上傳數據快速生成相應游戲資產,大大降低了游戲開發(fā)成本。增強交互體驗:近期網易旗下手游《逆水寒》官方宣布,實裝國內首個游戲內類GPT技術,采用了大量來自網易伏羲人工智能實驗室以及網易雷火事業(yè)群的AI

技術。從官方公布演示視頻來看,《逆水寒》手游已經能讓智能

NPC

和玩家自由生成對話,同時也能基于對話內容做出合適的邏輯行為反饋,包括聲音和形體動作。生成式AI在游戲中的應用可以大大增強玩家劇情代入感,大幅提高游戲交互體驗,提升玩家對游戲的探

索欲望。圖36:在Scenario上生成游戲資產圖37:網易《逆水寒》手游實裝游戲內類GPT技術【游戲】Scenario、網易(9999.HK):生成游戲素材,增強交互體驗

Jasper

AI是一個AI文本生成工具,用戶可以通過其自動創(chuàng)建博客文章、社交媒體文章、廣告、電子書、登陸頁面副本、故事、小說等等。一旦用戶給出一些輸入文本(關于需要生成的內、標題、相關關鍵詞等的簡介),它就會生成對應的原創(chuàng)內容。其深耕廣告營銷領域,有望成為垂直領域行業(yè)龍頭,主要具備以下三個優(yōu)勢:精細的營銷模板:用戶可以根據想要生成的內容形式,選擇更加符合需求的模板,平臺提供50個簡短的文案模板,可幫助用戶為各種日常任務創(chuàng)建文案,其中包括用于為電子郵件、網站、博客、廣告、電子商務、社交媒體、視頻等編寫內容的

AI模板。產品交互體驗優(yōu)秀:該平臺工具交互界面清晰易上手,產品符合用戶使用邏輯,且會根據用戶反饋頻繁更新

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論