![大模型改變開發(fā)及交互環(huán)境處于高速迭代創(chuàng)新周期_第1頁](http://file4.renrendoc.com/view12/M01/05/2E/wKhkGWXdd8aAdZrnAADOc8cGNOg292.jpg)
![大模型改變開發(fā)及交互環(huán)境處于高速迭代創(chuàng)新周期_第2頁](http://file4.renrendoc.com/view12/M01/05/2E/wKhkGWXdd8aAdZrnAADOc8cGNOg2922.jpg)
![大模型改變開發(fā)及交互環(huán)境處于高速迭代創(chuàng)新周期_第3頁](http://file4.renrendoc.com/view12/M01/05/2E/wKhkGWXdd8aAdZrnAADOc8cGNOg2923.jpg)
![大模型改變開發(fā)及交互環(huán)境處于高速迭代創(chuàng)新周期_第4頁](http://file4.renrendoc.com/view12/M01/05/2E/wKhkGWXdd8aAdZrnAADOc8cGNOg2924.jpg)
![大模型改變開發(fā)及交互環(huán)境處于高速迭代創(chuàng)新周期_第5頁](http://file4.renrendoc.com/view12/M01/05/2E/wKhkGWXdd8aAdZrnAADOc8cGNOg2925.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
分析師:金榮(S0010521080002)2024年2月6日華安證券研究所AIGC行業(yè):大模型改變開發(fā)及交互環(huán)境,處于高速迭代創(chuàng)新周期證券研究報告2投資建議GPTs上線2個月后用戶便創(chuàng)建了超過300萬個應用,GPT提供了基于大模型的原生開發(fā)環(huán)境,用戶可通過更加自然的語言交互方式,減少對傳統(tǒng)GUI的依賴,同時多模態(tài)的趨勢仍在繼續(xù),大模型仍處于高速創(chuàng)新迭代周期,頭部公司對2024年的Gen
AI的資本開支保持積極,建議關注AI算力及大模型布局廠商
NVIDIA,AMD,Intel,IBM,Microsoft,Alphabet,Amazon,Arista,百度集團-SW,阿里巴巴-SW,騰訊控股等。上游算力側(cè):受AI產(chǎn)業(yè)驅(qū)動影響,算力需求持續(xù)擴張,AI大模型的持續(xù)優(yōu)化及多樣化AI應用終端的入市商用持續(xù)提升全球算力需求,推動AI基礎設施建設,在AI基建需求出現(xiàn)井噴的情況下,全球主流AI芯片廠商最新季度業(yè)績均超市場預期,建議關注算力板塊機會。1)臺積電:2023Q4
營業(yè)收入
196.7
億美元,基本符合預期。調(diào)整后凈利潤
75.1
億美元,超一致預期5.4
。AI
方面,公司預計未來
AI
收入的
CAGR
有望達到
50
。2)AMD:23Q3營收58億美元,yoy+4
,qoq+21
,超過彭博一致預期57億美元。1月30日,公司對AI芯片業(yè)務收入上調(diào)指引75
,預計2024年AMD人工智能芯片的銷售額將達到35億美元以上(此前指引為20億美元)。3)Meta:1月19日,扎克伯格宣布Meta內(nèi)部正在訓練下一代模型Llama
3,而到2024年底Meta將擁有35萬塊H100,擁有近60萬個GPU等效算力,這些算力很大部分將用于訓練Llama
3大模型。4)NVIDIA:FY24Q3,公司收入同比上升206
至181.2億美元,大超此前160億美元的指引,四季度指引收入200±2
億美元,這也是由于大語言模型帶動的訓練和推理算力需求較為強勁,各大數(shù)據(jù)中心均加大了對英偉達AI芯片(H100、A100等)和HGX平臺的采購力度導致的。建議關注:臺積電、AMD、Nvidia等。23年以來大模型重點發(fā)展方向:1)NLP領域:23年隨著GPT4、GPT4
Turbo、Gemini的陸續(xù)推出,我們可以看出NLP領域大模型的發(fā)展趨勢體現(xiàn)在兩方面:①模型參數(shù)量呈現(xiàn)增長趨勢;②由單模態(tài)向多模態(tài)演變。其中,參數(shù)量規(guī)模的增長在很大程度上推動了大模型的學習能力(但不絕對,也取決于模型的算法和參數(shù)質(zhì)量,過多的參數(shù)也會導致過擬合情況發(fā)生),而大模型由單模態(tài)向多模態(tài)的演變,也意味著模型能夠處理和理解來自不同數(shù)據(jù)模態(tài)的信息,這些模態(tài)可以包括但不限于圖像、文本、音頻、視頻等,實現(xiàn)復雜生成任務。建議關注在相關領域持續(xù)探索AI算法的公司,關注阿里巴巴-SW、京東集團-SW、焦點科技、值得買、網(wǎng)易-S、騰訊控股、吉比特、三七互娛、巨人網(wǎng)絡、天娛數(shù)科、科大訊飛、昆侖萬維等。敬請參閱末頁重要聲明及評級說明3敬請參閱末頁重要聲明及評級說明投資建議CV領域:通過復盤CV領域主流應用(Midjourney、Dall·E和Stable
Diffusion)的版本迭代,其發(fā)展方向除了生成內(nèi)容的質(zhì)量優(yōu)化外(如清晰度、生成時長),也向多模態(tài)、更具可控性(指模型對Prompt理解能力的躍升等)。在技術升級方面,23年3D
GS推出,相較于原始的NeRF方法,3D
GS在實現(xiàn)高質(zhì)量渲染的同時可以做到實時渲染。此外,2023年初ControlNet
橫空出世,與傳統(tǒng)的生成對抗網(wǎng)絡不同,ControlNet
允許用戶對生成的圖像進行精細的控制,給出了一條完美解決
AI
繪畫發(fā)展進程中“精準控制”難題的道路。我們認為新的底層技術為其產(chǎn)品的可用性賦能,會使得用戶使用學習成本更低,吸引更多B或者C的用戶,并提升用戶的留存及復購,建議關注布局大模型的阿里巴巴-SW、騰訊控股、百度集團-SW、美圖公司、昆侖萬維、科大訊飛等。此外,CV領域的發(fā)展會提高電影、動畫片制作、游戲建模的生產(chǎn)效率,從而生產(chǎn)更多優(yōu)質(zhì)內(nèi)容,建議關注兼具IP的上海電影、光線傳媒、華策影視、奧飛娛樂等,以及游戲相關板塊的騰訊控股、網(wǎng)易-S、三七互娛、盛天網(wǎng)絡等。應用側(cè):海內(nèi)外AI應用相繼落地,2024年1月份GPTStore的上線催生出了新的商業(yè)模式,AI大模型應用將迎來新一輪熱潮,建議關注海內(nèi)外AI應用的落地情況。GPTStore上線后,OpenAI把GPT-4
vision(視覺)、Code
interpreter(代碼)、DALLE-3(圖像)、TTS(語音)的API進行開放,并且新推出了Assistants
API。所以用戶除了可以使用除了目前已有的300多萬個應用之外,ChatGPT
Plus用戶也可以自己創(chuàng)建新的GPT上架到GPTStore中供其他用戶付費使用。此外,微軟也于2023年11月1日正式上線包含Copilot集成的Microsoft
365應用程序,為企業(yè)客戶提供商用服務,24年1月15日,微軟宣布
Copilot
Pro正式面向個人,用戶可以
Edge瀏覽器和
Microsoft
Office
365上使用Copilot
Pro。國內(nèi)方面,以豆包、天工、文心一言等為代表的AI應用用戶規(guī)模呈現(xiàn)持續(xù)增長勢頭,建議關注具有AI應用布局的公司:Microsoft、阿里巴巴-SW、騰訊控股、科大訊飛、美圖公司等。硬件側(cè):當前手機和PC受AI驅(qū)動影響,預計將迎來新一輪換機潮,主流手機廠商已經(jīng)陸續(xù)自研大模型,部分旗艦款手機已經(jīng)側(cè)端搭載大模型發(fā)售,以聯(lián)想、戴爾、華碩為代表的主流PC廠商也將在今年陸續(xù)發(fā)售自家旗艦AIPC,建議關注AI手機和AIPC產(chǎn)品的落地情況,建議關注小米集團-W、聯(lián)想集團、戴爾科技等。風險提示:人工智能相關政策風險;AI模型等技術進步不及預期;用戶增長不及預期等。4敬請參閱末頁重要聲明及評級說明目錄LLM發(fā)展歷程與變遷趨勢LLM爆發(fā)關鍵節(jié)點:2017年Transformer架構的出現(xiàn)海外LLM大模型布局:科技巨頭領銜行業(yè),版本持續(xù)迭代國內(nèi)主流玩家大模型布局:互聯(lián)網(wǎng)大廠大模型相繼落地,主要賦能自身旗下產(chǎn)品CV領域發(fā)展歷程與變遷趨勢CV領域工具&模型變遷之路:SD成為開源之王,多模態(tài)成為下一階段演進方向23年以來CV領域技術升級:3D渲染能力增強,生成內(nèi)容更為精準可控CV領域主流應用迭代歷程:生成內(nèi)容更為精細,Prompt理解能力進一步深入AI手機+AIPC主流廠家布局盤點:AI驅(qū)動新一輪換機潮,關注AI產(chǎn)品落地情況海內(nèi)外熱門AI應用盤點:聊天類機器人仍是主流,海內(nèi)外主流應用用戶規(guī)模持續(xù)擴大國內(nèi)熱門AI應用:豆包、天工、文心一言海外熱門AI應用:ChatGPT、Bard、Poe、Notion、Bing、Character.ai5資料來源:CNDS,華安證券研究所整理注:Xt為輸入值,ht為輸出值LLM大模型爆發(fā)的關鍵節(jié)點:
2017年“Transformer”模型的出現(xiàn)在“Transformer”模型還未出現(xiàn)時,NLP(自然語言處理)領域的主流架構基本采用RNN(循環(huán)神經(jīng)網(wǎng)絡),RNN的痛點可以總結(jié)為兩點:①由于遞歸性質(zhì),訓練過程中通常無法并行計算;RNN在工作過程中將會對內(nèi)容按順序逐字處理,每一步的輸出取決于先前的隱藏狀態(tài)和當前的輸入,需要等到上一個步驟完成后才能進行當前計算,因此無法進行并行計算,訓練效率較低。②不擅長處理長序列、長文本;當
RNN
處理長序列時,由于信息的不斷累積,時間步長增加時,梯度會不斷變小,這會導致梯度消失或梯度爆炸問題,使得網(wǎng)絡難以學習長期依賴(long-term
dependency)的關系。當梯度消失時,前面的信息無法有效地傳遞到后面,也就導致詞之間距離越遠,前面對后面的影響越弱,所以RNN難以有效的捕獲長距離的語義關系,當梯度爆炸時,網(wǎng)絡的權重會變得極大,導致網(wǎng)絡不穩(wěn)定。雖然之后也出現(xiàn)了如LSTM(Long
Short-Term
Memory)和GRU(Gated
Recurrent
Unit)等的RNN變體,但解決長期依賴問題的能力也有限,也依舊無法解決無法并行計算的痛點。注:長期依賴(long-term
dependency):在一個序列中,后面的某個位置的輸出,可能會依賴于前面的若干個位置的輸入,這種依賴跨越了很長的時間間隔。圖表1:RNN(循環(huán)神經(jīng)網(wǎng)絡)架構示意圖敬請參閱末頁重要聲明及評級說明6LLM大模型爆發(fā)的關鍵節(jié)點:
2017年“Transformer”模型的出現(xiàn)“Transformer”是谷歌的研究團隊在2017年6月在論文《Attention
is
All
YouNeed》中首次發(fā)布的。該論文提出了一種全新的序列轉(zhuǎn)換架構,完全基于自注意力機制,摒棄了循環(huán)神經(jīng)網(wǎng)絡(RNN)在處理序列數(shù)據(jù)時的局限性?!癟ransformer”有能力學習輸入序列里所有詞的相關性,不會受到短時記憶的影響。我們可以將“Transformer”的創(chuàng)新總結(jié)為兩點:①自注意力機制;②位置編碼。其中,“Transformer”的自注意力機制簡單來說就是“Transformer”在處理每個詞的時候,不僅會關注這個詞本身以及附近的詞,還會去注意輸入序列里所有其他的詞,然后給予每個詞不一樣的注意力權重(權重是模型通過大量文本訓練習得的)。圖表2:Transformer架構示意圖Encoder(編碼器)圖表3:Transformer多頭自注意力機制(Multi-Head
Attention)Decoder(解碼器)例:“Theanimaldidn'tcrossthestreetbecauseitwastoo
tired”,其中“it”可以代指任何東西,“Transformer”中的注意力機制可以關注到輸入序列里所有詞,并給予不同權重,而像這樣的自注意力機制有很多個,每個自注意力機制都有自己的注意力權重,用來關注文本里不同特征,每個權重互不影響,也就意味著可以實現(xiàn)并行計算。資料來源:《Attention
is
all
your
need》,華安證券研究所整理資料來源:CNDS,華安證券研究所整理敬請參閱末頁重要聲明及評級說明7LLM大模型爆發(fā)的關鍵節(jié)點:
2017年“Transformer”模型的出現(xiàn)Transformer模型拋棄了RNN、CNN作為序列學習的基本模型,循環(huán)神經(jīng)網(wǎng)絡本身就是一種順序結(jié)構,天生就包含了詞在序列中的位置信息。當拋棄循環(huán)神經(jīng)網(wǎng)絡結(jié)構,完全采用Attention取而代之,這些詞序信息就會丟失,模型就沒有辦法知道每個詞在句子中的相對和絕對的位置信息。因此,有必要把詞序信號加到詞向量上幫助模型學習這些信息,位置編碼(PositionalEncoding)就是用來解決這種問題的方法。圖表4:Transformer架構示意圖例:當接收到輸入內(nèi)容后,“Transformer”與其他NLP模型一樣,會將詞轉(zhuǎn)化為詞向量(這里舉例維度為4個,但在Transformer中詞向量維度為512個,每個維度都代表不同特征),此外還會根據(jù)每個詞所在文中的不同位置,給予位置向量。這樣就可以實現(xiàn)讓模型既理解每個詞的意義,又能夠捕獲每個詞在文中的位置,從而理解不同詞之間的順序關系。借助位置編碼,詞可以不按順序輸入給神經(jīng)網(wǎng)絡,模型可以同時處理輸入序列里的所有位置,不需要像RNN那樣依次處理。圖表5:位置編碼(PositionalEncoding)示意圖資料來源:《Attention
is
all
your
need》,華安證券研究所整理資料來源:CNDS,華安證券研究所整理敬請參閱末頁重要聲明及評級說明8資料來源:CNDS,華安證券研究所整理基于Transformer架構的LLM發(fā)展圖譜:Decoder-only成為主流圖表6:基于Transformer架構的LLM發(fā)展圖譜敬請參閱末頁重要聲明及評級說明①粉色枝:Encoder-Only(僅用解碼器)。代表LLM為BERT,該類模型主要用于處理輸入數(shù)據(jù),專注于理解和編碼信息,而不是生成新的文本。②綠色枝:Encoder-Decoder(編碼器+解碼器)。代表LLM為T5,該類模型擅長處理需要理解輸入然后生成相關輸出的任務,比如翻譯或問答系統(tǒng)。③藍色枝:Decoder-Only(僅解碼器)。代表LLM為GPT系、LLaMA、Bard等。該類模型擅長創(chuàng)造性的寫作,比如寫小說或自動生成文章。它更多關注于從已有的信息(開頭)擴展出新的內(nèi)容。這種架構能夠更好地理解和預測語言模式,尤其適合處理開放式的、生成性的任務。*注:實心方框為開源模型,空心方框為閉源模型9敬請參閱末頁重要聲明及評級說明目錄LLM發(fā)展歷程與變遷趨勢LLM爆發(fā)關鍵節(jié)點:2017年Transformer架構的出現(xiàn)海外LLM大模型布局:科技巨頭領銜行業(yè),版本持續(xù)迭代國內(nèi)主流玩家大模型布局:互聯(lián)網(wǎng)大廠大模型相繼落地,主要賦能自身旗下產(chǎn)品CV領域發(fā)展歷程與變遷趨勢CV領域工具&模型變遷之路:SD成為開源之王,多模態(tài)成為下一階段演進方向23年以來CV領域技術升級:3D渲染能力增強,生成內(nèi)容更為精準可控CV領域主流應用迭代歷程:生成內(nèi)容更為精細,Prompt理解能力進一步深入AI手機+AIPC主流廠家布局盤點:AI驅(qū)動新一輪換機潮,關注AI產(chǎn)品落地情況海內(nèi)外熱門AI應用盤點:聊天類機器人仍是主流,海內(nèi)外主流應用用戶規(guī)模持續(xù)擴大國內(nèi)熱門AI應用:豆包、天工、文心一言海外熱門AI應用:ChatGPT、Bard、Poe、Notion、Bing、Character.ai10敬請參閱末頁重要聲明及評級說明圖表7:海外公司大模型布局海外LLM大模型布局:科技巨頭領銜行業(yè),版本持續(xù)迭代模型公司大模型分類版本技術能力微軟/OpenAIGPTGPT-12018年6月,GPT-1發(fā)布,參數(shù)量達到1.17億個,語言泛化能力不足,無法解決通用的語言任務;GPT-22019年2月,GPT-2發(fā)布,參數(shù)量達到15億個,舍棄模型微調(diào),通過大模型進行預訓練,開始能夠解決多語言任務能力;GPT-32020年5月,GPT-3發(fā)布,參數(shù)量達到1750億個,引入In-context訓練方式學習上下文,翻譯、聊天問答和文本填空等任務表現(xiàn)出色,能夠生成難辯真假新聞的能力;InstructGP2022年3月,InstructGPT發(fā)布,參數(shù)量達到5400億個;ChatGPT2022年11月,推出對話式AI模型ChatGPT,由GPT-3.5大型語言模型微調(diào)而來,并引入人工反饋的強化學習(RLHF)。能夠處理復雜語言工作,包括自動文本生成、自動問答、編寫和調(diào)試計算機程序及創(chuàng)作故事;GPT-42023年3月,GPT-4發(fā)布,參數(shù)量為1.8萬億,能夠閱讀文字和識別圖像并生成文本結(jié)果,回復的準確性較歷史版本有提升;GPT-4
Turbo和GPTs2023年11月,GPT-4
Turbo和GPTs發(fā)布,GPT-4
Turbo上下文理解能力強化,控制權更靈活,價格更具競爭力,GPTs可以通過適當指令構建GPT;GoogleGeminiUltra谷歌最強大的模型,在廣泛的高度復雜的任務中提供最先進的性能,包括推理和多模態(tài)任務,可以在TPU加速器上有效地提供服務,能夠完成高度復雜的任務,主要面向數(shù)據(jù)中心和企業(yè)級應用。Pro在成本和延遲方面的性能優(yōu)化模型,在廣泛的任務中提供顯著的性能。該模型具有較強的推理性能和廣泛的多模態(tài)能力。NanoGemini
Nano是三個版本中最小、最高效的模型,本專為移動設備和特定任務設計,這使得它成為在智能手機和其他便攜設備上實現(xiàn)先進AI功能的理想選擇。其中,Nano-1的參數(shù)為1.8B,Nano-2為3.25B,分別針對低內(nèi)存和高內(nèi)存設備。BERTBERT-baseGoogle在2018年推出的一種革命性的預訓練語言模型。它基于Transformer架構,摒棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(RNN)或卷積神經(jīng)網(wǎng)絡(CNN),使得模型并行計算成為可能,大大提升了訓練效率。其中參數(shù)方面,BERT-base具有12層Transformer塊(encoder層),每層有12個自注意力頭,參數(shù)量大約在110M左右,BERT-large參數(shù)量大約是340M左右。BERT-largeT5T5一種統(tǒng)一文本到文本轉(zhuǎn)換框架的預訓練模型,由Google在2020年提出。該模型的設計理念是將所有自然語言處理任務都轉(zhuǎn)化為文本到文本的任務,即無論是機器翻譯、問答、摘要生成還是文本分類等任務,輸入和輸出都是文本形式。T5家族包含多個版本,參數(shù)量從60M到11B不等LaMDALaMDA
1.0是一款專門針對對話應用設計的大型預訓練語言模型,于2021年推出。該模型是Google在自然語言處理領域的一項重要突破,旨在通過深度學習技術提供更為流暢、連貫和有意義的對話體驗,具備開放式對話能力。參數(shù)量方面,LaMDA
1.0參數(shù)量未知,LaMDA
2.0參數(shù)量為1370億個。LaMDA
2.0MUM模型于2021年5月在Google
I/O大會上首次被推出,MUM通過訓練來完成多種復雜的NLP任務,例如問題解答、文檔摘要生成、語義相似度計算等,與BERT等前一代模型相比,MUM更擅長理解復雜查詢的上下文,包括用戶的潛在需求和意圖。PaLMPaLM最初公開的PaLM模型版本之一,其參數(shù)量達到5400億,2022年4月前發(fā)布PaLM-2在
2023谷歌
I/O大會上,谷歌
CEO皮查伊宣布推出對標
GPT-4的大模型
PaLM2,并正式發(fā)布預覽版本,改進了數(shù)學、代碼、推理、多語言翻譯和自然語言生成能力,訓練參數(shù)量達3400億,分為S\M\L三個規(guī)模的版本。PaLM-E2023年3月6日,谷歌和德國柏林工業(yè)大學的人工智能研究人員公布了PaLM-E,PaLM-E由兩部分組成,PaLM(5400億)+ViT-22B(220億),也就是
540B
的語言參數(shù)+
22B
的圖像參數(shù)。PaLM-E整合了視覺信息處理能力,能夠理解圖像并結(jié)合文本進行生成和推理,成為當時已知的最大規(guī)模的“通才”AI模型。11敬請參閱末頁重要聲明及評級說明資料來源:各公司官網(wǎng),Wikipedia,華安證券研究所整理海外LLM大模型布局:科技巨頭領銜行業(yè),版本持續(xù)迭代模型公司大模型分類版本技術能力MetaLLaMALLaMA1是MetaAI公司于2023年2月發(fā)布的大型語言模型。它訓練了各種模型,這些模型的參數(shù)從70億到650億不等。LLaMA22023年7月,Meta推出了LLaMA2,Meta訓練并發(fā)布了三種模型大小的
Llama
2:70、130
和
700億個參數(shù),模型架構與
Llama
1模型基本保持不變Code
LLaMA2023年8月,Meta繼發(fā)布用于生成文本、翻譯語言和創(chuàng)建音頻的人工智能模型之后,開源了
Code
Llama。這是一個機器學習系統(tǒng),可以用自然語言(特別是英語)生成和解釋代碼。可以免費商用和研究。OPT-175BOPT-175B是由Meta
AI于2022年發(fā)布的一個大型預訓練語言模型,擁有約1750億個參數(shù)。作為一款開源模型,OPT-175B在規(guī)模上與GPT-3相當,但它的主要特點是完全免費開放給研究社區(qū)使用。OPT-175B通過大規(guī)模文本數(shù)據(jù)集進行訓練,旨在提供強大的自然語言處理能力,包括但不限于文本生成、問答系統(tǒng)、語義理解和對話交互等方面。SeamlessM4TSeamlessM4T-Large
v2是Meta于2023年發(fā)布的一款先進的人工智能模型,專門針對多語言翻譯和轉(zhuǎn)錄任務設計。該模型能夠支持近100種不同語言之間的文本到文本、文本到語音以及語音到語音的翻譯,并且在語音識別和合成方面表現(xiàn)出強大的能力。參數(shù)方面,Large
v1和v2均為2.3B,medium版本為1.2B.SeamlessM4T-Large
(v1)SeamlessM4T-Medium
(v1)AmazonAmazon
TitanTitanText
Express可用于檢索增強生成、開放式文本生成、頭腦風暴、摘要、代碼生成、表格創(chuàng)建、數(shù)據(jù)格式化、釋義、思維鏈、重寫、提取、問答和聊天。支持100+語言,最高輸出8ktokensTitanText
Lite適合文本生成任務和微調(diào),僅支持英語,最高輸出4ktokens。TitanText
Embeddings適用于文本檢索、語義相似性和聚類,支持25+種語言,最高輸出8ktokens。TitanMultimodal
Embeddings可提供準確的多模式搜索,僅支持英語,最高輸出128tokens,最大輸出圖片大小為25MB。TitanImage
Generator適用于文本到圖像生成、圖像編輯、圖像變體,最高輸出77tokens,最大輸入圖片大小為25MBOlympus暫無細節(jié)披露AnthropicClaudeClaude初代版本包括Claude1.0、claude-instant-1、
claude-1.2、
claude-1.3等Claude2.0全球公測開始于2023年12月24日前后,該版本增強了AI模型,并支持文檔上傳識別功能Claude2.1發(fā)布日期為2023年11月,這個版本支持輸入多達20萬個Token,并且改進了準確度,同時增加了新的系統(tǒng)預設功能或其他增強特性。InflectionInflection
1.0發(fā)布于2023年6月22日,在大規(guī)模多任務語言理解(MMLU)中,優(yōu)于Meta的LLAMA、OpenAI的GPT
3.5和谷歌的PaLM
(540B)。Inflection
2.0發(fā)布于2023年11月22日,在
MMLU上評估中,Inflection-2
是
GPT-4之外性能最高的模型,甚至思維鏈推理優(yōu)于
Claude
2。xAIGrokGrok
1.0于
2023年
11月發(fā)布,上下文長度為
8,192個token,用于自然語言處理任務,包括問答、信息檢索、創(chuàng)意寫作和編碼輔助。圖表7:海外公司大模型布局(續(xù)表)12敬請參閱末頁重要聲明及評級說明模型名稱模型類型應用軟件應用上線時間軟件所屬公司公司是否上市軟件所屬公司融資情況應用描述商業(yè)模式戰(zhàn)略合作關系GPT3NLPCopy.ai2020-10-1CopyAI
Inc否種子輪:CraftVentures領投,融資數(shù)額290萬美金文本生成類:用于自動化文案生成包括廣告文案、博客
文章、社交媒體帖子、產(chǎn)品描述免費(有收費Pro版)groove、zoom、hubspot、confluent、seismic、datadogA輪:WingVentureCapital領投,紅杉、Tiger、個人天使投資人EladGil跟投,融資數(shù)額1100萬美金Jasper
AI2021-1-1Jasper否2022年10月:融資額1.31億美金,估值15億美元文本生成類:用于自動化生成高質(zhì)量的營銷和廣告文案、
博客文章、產(chǎn)品描述、電子郵件、社交媒體帖子等收費,基礎版$29.99每月intel、klarna、
zoomDeloitte、
ibm、Google、
airbnb、digital
marketerNotion.AI2022-11-1Notion否天使輪:2013年融資200萬美元A輪:2019年7月融資1800萬美金B(yǎng)輪:2020年4月融資5000萬美金C輪:2021年10月融資2.5億美元,投后估值103億美元文本生成類:能幫助用戶快速生成和修改文本內(nèi)容,可運
用在文學、會議日程、新聞稿、銷售文案等內(nèi)容的輔助性
創(chuàng)作中免費(有收費Pro版)airbnb、nike、Amazon、uber、toyota、ibm等Replica2016-02Luka
Inc否A1輪:2016年4月獲442萬美元融資文本生成類:可以模擬人類對話,對用戶的輸入提供真實的反應,可用于心理健康咨詢、語言學習、娛樂等。免費(有收費Pro版)A2輪:2017年11月獲650萬美元融資Elai2021Elai.io否2022年獲5萬美元融資視頻生成類:只需要文本就能制作出有真人主持的專業(yè)視
頻,可用于教育、營銷、企業(yè)溝通、帶貨等用途收費,基礎版$29每月partner:NVidia、Amazon、Microsoft、thinkific、Googlefor
startupInworld:AI2022-04Inworld:AI否種子輪:21年11月融資700萬美元(投資方包括Meta);Pre-A輪:22年3月融資1000萬美元;A輪:22年8月獲得Intel
Capital領投的5000萬美元3D生成類:文生NPC,可創(chuàng)建角色設定場景、設定世界觀
常識等免費,(有收
費基礎版$10/
月、專業(yè)版、
定制版)DisneyDALL·E多模態(tài)Craiyon2021-06Boris
Dayma(個人)否圖像生成類:只需要在搜索框中輸入相應場景的文字描述,就能生成各種或唯美、搞笑又或者是畫面驚悚的圖片。免費(有收費Pro版)CLIP多模態(tài)starryai2021o
Kahn(個人否圖像生成類:能生成各種風格和主題的藝術作品,可為客戶
提供所創(chuàng)建圖像的完全所有權,可用于個人或商業(yè)用途。免費(有收費
會員和積分制
度)GPT-4多模態(tài)GitHubCopilot
X2023-03GitHub否A輪:2012年由AndreessenHorowitz領投,融資1億美元代碼生成類:具備對話、文本生成代碼、語音生成代碼、自動修復代碼Bug,以及解釋代碼等功能收費,個人版$10每月微軟旗下的公司,與Open
AI合作開發(fā)B輪:2015年由SequoiaCapital領投,融資2.5億美元GPT-4
Turbo多模態(tài)MicrosoftCopilot2023-12Microsoft是2013年,微軟曾發(fā)行了80億美元的債券;2015年,微軟進行了一次大舉發(fā)債融資,金額高達107.5億美元2016年,為了籌集收購領英的資金,微軟發(fā)債融資達到197.5億美元。人工智能輔助工具:具備代碼編寫;文檔創(chuàng)作、辦公協(xié)同、搜索與問答自定義助手構建、部分用戶免費,Microsoft365
Copilot定$30每/月微軟旗下的公司,與Open
AI合作開發(fā))海外LLM大模型布局:科技巨頭領銜行業(yè),版本持續(xù)迭代圖表8:海外大模型主要應用13敬請參閱末頁重要聲明及評級說明模型所屬公司模型名稱模型類型應用軟件應用上線時間軟件所屬公司公司是否上市軟件所屬公司融資情況應用描述商業(yè)模式戰(zhàn)略合作關系DeepMindBigGANCVArtbreeder2019-05StudioMorphoge(工作室)否圖像生成類:用于創(chuàng)作人物肖像、人物形
象、動漫角色、建筑畫作、自然景觀等還包括改變面部特征的能力、免費(有收費Pro版)英偉達StyleGANCVGoogleViTCVMurf2020-10Murf否種子輪:Elevation
Capital領投,獲150萬美元融資音頻生成類:支持文本轉(zhuǎn)語音、添加視頻
旁白、幻燈片旁白、語音克隆,可用于
Youtubers、播客、有聲讀物、游戲、產(chǎn)
品和解說視頻中免費(有收費基礎版、專業(yè)版、企業(yè)版)A輪:Matrix
Partners領投,獲1000萬美元融資基于
transformerNLPMem2021-06Mem
Labs否A輪:22年11月獲得OpenAI領投的2350萬美元輔助決策類:AI驅(qū)動的辦公記事應用,可以幫助用戶快速記錄和整理個人信息數(shù)據(jù)
并利用AI將這些數(shù)據(jù)連接成有意義的知識
圖譜免費(有收費個人版$8/月,企業(yè)版$15/月、定制版)Open
AI為其投資方;為Twitter打造專屬功能Mem
itGemini
Pro多模態(tài)Bard2023-3-21Google是N.A.人工智能技術的聊天軟件:多角度回答問題、智能搜索集成、交互體驗優(yōu)化、支持多語言交流、持續(xù)學習與提升、應用場景廣泛免費(計劃推出付費版本)NotebookLM2023-12-09筆記應用軟件:智能搜索和整理、內(nèi)容分析與理解、個性化學習輔助、增強交互體驗、跨平臺整合免費Gemini
Nano多模態(tài)AICore2023系統(tǒng)級模塊:允許開發(fā)者更加便捷地集成和利用AI模型在應用程序中,以實現(xiàn)諸如語音識別、自然語言處理、圖像識別等智能化功能。為Google
Pixel
8Pro提供支持LaMDA
2.0NLPAITestKitchen2023-08實驗性應用程序:允許用戶在安全、可控的環(huán)境中測試和體驗谷歌正在研發(fā)中的自然語言處理模型,如LaMDA(對話應用模型)及其后續(xù)版本。PaLMNLPBard2023-3-21人工智能技術的聊天軟件:多角度回答問題、智能搜索集成、交互體驗優(yōu)化、支持多語言交流、持續(xù)學習與提升、應用場景廣泛免費(計劃推出付費版本)PaLM-2多模態(tài)Bard2023-3-21人工智能技術的聊天軟件:多角度回答問題、智能搜索集成、交互體驗優(yōu)化、支持多語言交流、持續(xù)學習與提升、應用場景廣泛免費(計劃推出付費版本)Gmail2004網(wǎng)絡郵件服務:支持實時郵件同步、多賬戶管理、智能回復、自定義通知設置等諸多功能免費PaLM-E多模態(tài)GoogleSearch1996搜索服務:通過這款應用輕松查找互聯(lián)網(wǎng)上的各種信息,包括網(wǎng)頁、圖片、視頻、新聞和本地商家信息等。日常搜索服務免費GoogleAssistant2017智能語音助手:提供語音交互、多語言支持、智能家居控制、日程管理、信息獲取、娛樂功能、第三方應用整合、情境感知服務免費Google
Docs2005在線文檔處理軟件:允許用戶創(chuàng)建、編輯和共享多種類型的文檔并支持實時協(xié)作功能基本功能免費、企業(yè)版$15/月MetaLLaMA2NLPAzure2010Microsoft是N.A.云計算服務平臺:為用戶提供了廣泛的云服務選項,涵蓋了計算存儲、網(wǎng)絡、數(shù)據(jù)庫、人工智能、物聯(lián)網(wǎng)(IoT)、數(shù)據(jù)分析等多個領域收費,其收費情況、根據(jù)所使用的服務類型、資源量、使用時長等因素而定海外LLM大模型布局:科技巨頭領銜行業(yè),版本持續(xù)迭代14敬請參閱末頁重要聲明及評級說明模型所屬公司模型名稱模型類型應用軟件應用上線時間軟件所屬公司公司是否上市軟件所屬公司融資情況應用描述商業(yè)模式戰(zhàn)略合作關系AmazonAmazonTitan多模態(tài)AmazonBedrock2023-09AWS否N.A.全托管服務:允許用戶和開發(fā)者訪問多種領先的AI模型根據(jù)使用量、模型類型、計算資源消耗以及API調(diào)用次數(shù)等因素而定InflectionNLPStability.aiStableDiffusion(基于LatentDiffusionModels)多模態(tài)Stability.
ai2022-08Stabilityai否種子輪:22年10月,由Coatue
和Lightspeed領投,融資額1.01
億美金,估值10億美元圖像生成類:根據(jù)所需圖像的文本描述,
生成符合匹配該描述的高質(zhì)量圖像。免費(有收費Pro版)partner:Krikey.ai、亞馬遜、GeeneeMidjourneyMidjourneyV5(基于DiffusionModels)多模態(tài)Midjourney2022-03Midjourney否N.A.圖像生成類:根據(jù)所需圖像的文本描述,
生成相對應的圖片,可以選擇不同畫家的
藝術風格例如安迪華荷、達芬奇、達利
和畢加索等,還能識別特定鏡頭或攝影術語。收費,基礎版$10每月partner:MirrorX、Discard、NFT加州大學伯克利分校、谷歌加州大學圣地亞哥分校、NeRF多模態(tài)Luma2021-09Luma
AI否種子輪:2021年10月,獲得SouthPark
Commons、Matrix
Partners等投資,數(shù)額為430萬美元;A輪:23年3月,由AmplifyPartners領投,NVIDIA(Nventures)等跟投,融資數(shù)額為2000萬美元3D生成類:基于神經(jīng)渲染技術,可以拍攝
少量照片來生成、著色和渲染產(chǎn)品的逼真3D模型。按次收費,每個視頻1美元,容量限
制5GBAmplifyPartners、GeneralCatalyst投
資Runwaygen-2多模態(tài)RunwayAI2023-03Runway否B輪:21年12月融資3500萬美元;C輪:22年12月融資5000萬美元視頻生成類:允許用戶從零開始生成視頻
可以文生視頻、文本+參考圖像生視頻、
靜態(tài)圖片轉(zhuǎn)視頻gen-1免費,gen-2處于內(nèi)測階段,
尚未開放使用參與開發(fā)StableDiffusion模型海外LLM大模型布局:科技巨頭領銜行業(yè),版本持續(xù)迭代資料來源:各公司官網(wǎng),華安證券研究所整理15資料來源:各公司官網(wǎng),Wikipedia,華安證券研究所整理圖表9:主流大模型發(fā)展趨勢大模型發(fā)展趨勢:參數(shù)規(guī)模擴大+向多模態(tài)演進模型名稱公司參數(shù)量(億)發(fā)布日期模態(tài)Gemini-UltraGoogle未知2023多模態(tài)GPT-4OpenAI180002023多模態(tài)PaLM-EGoogle56202023多模態(tài)GPT-3OpenAI17502020NLPT5Google112020NLPGPT-2OpenAI152019NLPBERTGoogle3.42018NLP資料來源:公司官網(wǎng),華安證券研究所整理敬請參閱末頁重要聲明及評級說明通過回溯主流模型迭代情況,我們可以將LLM大模型的發(fā)展趨勢總結(jié)為兩點:①模型參數(shù)量呈現(xiàn)增長趨勢;②由單模態(tài)向多模態(tài)演變。其中,參數(shù)量規(guī)模的增長在很大程度上推動了大模型的學習能力(但不絕對,也取決于模型的算法和參數(shù)質(zhì)量,過多的參數(shù)也會導致過擬合情況發(fā)生),而大模型由單模態(tài)向多模態(tài)的演變,也意味著模型能夠處理和理解來自不同數(shù)據(jù)模態(tài)的信息,這些模態(tài)可以包括但不限于圖像、文本、音頻、視頻等,實現(xiàn)復雜生成任務。圖表10:ChatGPT4可以實現(xiàn)圖像輸入識別16敬請參閱末頁重要聲明及評級說明目錄LLM發(fā)展歷程與變遷趨勢LLM爆發(fā)關鍵節(jié)點:2017年Transformer架構的出現(xiàn)海外LLM大模型布局:科技巨頭領銜行業(yè),版本持續(xù)迭代國內(nèi)主流玩家大模型布局:互聯(lián)網(wǎng)大廠大模型相繼落地,主要賦能自身旗下產(chǎn)品CV領域發(fā)展歷程與變遷趨勢CV領域工具&模型變遷之路:SD成為開源之王,多模態(tài)成為下一階段演進方向23年以來CV領域技術升級:3D渲染能力增強,生成內(nèi)容更為精準可控CV領域主流應用迭代歷程:生成內(nèi)容更為精細,Prompt理解能力進一步深入AI手機+AIPC主流廠家布局盤點:AI驅(qū)動新一輪換機潮,關注AI產(chǎn)品落地情況海內(nèi)外熱門AI應用盤點:聊天類機器人仍是主流,海內(nèi)外主流應用用戶規(guī)模持續(xù)擴大國內(nèi)熱門AI應用:豆包、天工、文心一言海外熱門AI應用:ChatGPT、Bard、Poe、Notion、Bing、Character.ai17敬請參閱末頁重要聲明及評級說明資料來源:國務院,發(fā)改委,科技部,工信部,華安證券研究所整理AI政策整理年份政策名稱頒布單位政策內(nèi)容2016.05《“互聯(lián)網(wǎng)+”人工智能三年行動實施方案》國家發(fā)展改革委等對人工智能芯片發(fā)展方向提出多項要求,并促進智能終端可穿戴設備的推廣落地。2017.07《新一代人工智能發(fā)展規(guī)劃》國務院提出前瞻布局新一代人工智能重大科技項目,在“核高基”(核心電子器件、高端通用芯片、基礎軟件)、集成電路裝備等國家科技重大專項中支持人工智能軟硬件發(fā)展。對人工智能領域進行了總體戰(zhàn)略部署,規(guī)劃確定了人工智能產(chǎn)業(yè)三步走的發(fā)展目標。2019.03《關于促進人工智能和實體經(jīng)濟深度融合的指導意見》科技部等把握新一代人工智能的發(fā)展特點,結(jié)合不同行業(yè),不同區(qū)域特點探索創(chuàng)新成果應用轉(zhuǎn)化的路徑和方法,構建數(shù)據(jù)驅(qū)動、人機協(xié)同跨界融合的智能經(jīng)濟形態(tài)。2021.03《“十四五”規(guī)劃和2035遠景目標綱要》國務院打造數(shù)字經(jīng)濟新優(yōu)勢,加強關鍵數(shù)字技術創(chuàng)新應用。加快推進高端芯片、操作系統(tǒng)、人工智能關鍵算法、傳感器、通用處理器等領域研發(fā)突破和迭代應用。2022.08《關于支持建設新一代人工智能示范應用場景的通知》科技部充分發(fā)揮人工智能賦能經(jīng)濟社會發(fā)展的作用,圍繞構建全鏈條、全過程的人工智能行業(yè)應用生態(tài),支持一批基礎較好的人工智能應用場景,加強研發(fā)上下游配合與新技術集成,打造形成一批可復制、可推廣的標桿型示范應用場景。2023.02《數(shù)字中國建設整體布局規(guī)劃》國務院系統(tǒng)優(yōu)化算力基礎設施布局,促進東西部算力高效互補和協(xié)同聯(lián)動,引導通用數(shù)據(jù)中心、超算中心、智能計算中心、邊緣數(shù)據(jù)中心等合理梯次布局。2023.04《生成式人工智能服務管理辦法(征求意見稿)》國家互聯(lián)網(wǎng)信息辦公室首次明確了生成式人工智能“提供者”內(nèi)容生產(chǎn)、數(shù)據(jù)保護、隱私安全等方面的法定責任及法律依據(jù),確立了人工智能產(chǎn)品的安全評估規(guī)定及管理辦法。2023.04《關于推進IPv6技術演進和應用創(chuàng)新發(fā)展的實施意見》工信部等推動IPv6和5G、人工智能、云計算等技術的融合創(chuàng)新,支持企業(yè)加快應用感知網(wǎng)絡、新型IPv6測量等“IPv6+”創(chuàng)新技術在各類網(wǎng)絡環(huán)境和業(yè)務場景中的應用。2023.07《生成式人工智能服務管理暫行辦法國家互聯(lián)網(wǎng)信息辦公室等國家堅持發(fā)展和安全并重、促進創(chuàng)新和依法治理相結(jié)合的原則,采取有效措施鼓勵生成式人工智能創(chuàng)新發(fā)展,對生成式人工智能服務實行包容審慎和分類分級監(jiān)管。2023.09《關于實施專精特新中小企業(yè)就業(yè)創(chuàng)業(yè)楊帆計劃的通知》工業(yè)和信息化部等按照國家有關規(guī)定,動態(tài)調(diào)整職稱專業(yè)設置,根據(jù)當?shù)禺a(chǎn)業(yè)發(fā)展和專精特新中小企業(yè)需要,增設人工智能、大數(shù)據(jù)、工業(yè)互聯(lián)網(wǎng)等新專業(yè)。2023.12《關于加快推進視聽電子產(chǎn)業(yè)高質(zhì)量發(fā)展的指導意見》工業(yè)和信息化部等支持骨干企業(yè)做大做強,支持人工智能企業(yè)研發(fā)視聽應用大模型2023.12《“數(shù)據(jù)要素x”三年行動計劃(2024—2026年)(征求意見稿)》國家數(shù)據(jù)局以科學數(shù)據(jù)支持大模型開發(fā),建設高質(zhì)量語料庫和基礎科學數(shù)據(jù)集,支持開展通用人工智能大模型和垂直領域人工智能大模型訓練。,、。圖表11:近年AI政策整理18敬請參閱末頁重要聲明及評級說明國內(nèi)主流玩家大模型布局一覽圖表12:國內(nèi)主流玩家大模型布局一覽(含llm+cv)模型公司模型類型大模型分類技術能力應用場景落地產(chǎn)品(軟件)百度文心大模型2023年5月,百度推出文心大模型3.5,基于飛槳深度學習平臺和文心知識增強大模型,持續(xù)從海量數(shù)據(jù)和大規(guī)模知識中融合學習,具備知識增強、檢索增強和對話增強的技術特色。2023年10月,百度推出文心大模型4.0,百度當時最新且最強大的版本,實現(xiàn)了基礎模型的全面升級,在理解、生成、邏輯推理及多模態(tài)處理等方面有顯著提升。應用于用于企業(yè)服務、自動駕駛、文化創(chuàng)意等多個產(chǎn)業(yè)領域。百度搜索、百度旗下各類APP等。NLP文心
·NLP大模型業(yè)界首個開放的千億參數(shù)中文生成API智能創(chuàng)作、
摘要生成、問答、語義檢索、情感分析、信息抽取、文本匹配、文本糾錯等各類自然語言理解和生成任務。文心一格、文心百中(網(wǎng)頁&小程序)CV文心
·CV大模型文心VIMER-UFO2.0是文心旗下目前最先進的統(tǒng)一任務大模型,主要應用場景為智慧城市。整體具備包含170億參數(shù),多個任務的數(shù)據(jù)訓練一個功能強大的通用模型??杀恢苯討糜谔幚砣四槨⑷梭w、車輛、商品、食物細粒度分類等20+CV基礎任務。多模態(tài)文心·跨模態(tài)大模型基于知識增強的跨模態(tài)語義理解關鍵技術,實現(xiàn)跨模態(tài)檢索、圖文生成、圖片文檔的信息抽取等應用圖像生成、藝術制作、虛擬現(xiàn)實、AI輔助設計等文心·生物計算大模型HelixGEM是業(yè)界首個基于幾何構象增強的化合物表征模型,引入化合物的三維空間信息,在14個藥物屬性預測相關的benchmarks上效果達到業(yè)界最優(yōu);HelixFold-Single,秒級別的蛋白結(jié)構預測模型,是業(yè)界首個開源的基于單序列語言模型的蛋白結(jié)構預測大模型;HelixFold利用大規(guī)模無標注數(shù)據(jù)強化蛋白質(zhì)表示能力,構建的全國產(chǎn)化軟硬件適配的高效蛋白質(zhì)結(jié)構分析大模型。小分子研發(fā)——文心·行業(yè)大模型與各行業(yè)頭部企合作,
在通用大模型的基礎上學習特色數(shù)據(jù)與知識,建設行業(yè)AI基礎設施能源、
金融、航天、傳媒、城市、影視、制造、社科騰訊NLP混元大模型2023年9月推出,混元大模型是騰訊自主研發(fā)的一款超大規(guī)模預訓練語言模型,擁有超過千億參數(shù)規(guī)模和強大的自然語言處理能力。該模型在預訓練過程中學習了海量文本數(shù)據(jù),從而具備了跨領域的知識理解、邏輯推理以及創(chuàng)造性生成等多種能力。智能客服與問答系統(tǒng)、內(nèi)容創(chuàng)作與編輯、教育輔助、搜索引擎優(yōu)化、游戲交互、騰訊云服務、騰訊廣告、騰訊游戲、騰訊會議、騰訊文檔等多個內(nèi)部產(chǎn)品——騰訊醫(yī)療大模型2023年9月推出,該模型專注于醫(yī)療健康領域,通過深度學習技術,提供智能問答、醫(yī)療文檔理解和輔助決策等功能。醫(yī)療咨詢、患者服務、醫(yī)生輔助工具、醫(yī)療知識圖譜構建騰訊健康的智能醫(yī)療解決方案中,如智能家庭醫(yī)生助手、數(shù)智醫(yī)療影像平臺等。字節(jié)跳動ChitChop2023年11月推出,是字節(jié)跳動在海外推出的一款基于大模型的人工智能助理工具。它涵蓋了AI創(chuàng)作、AI繪畫、娛樂、AI學習、工作和生活六大場景,能夠為用戶提供多方面的智能化服務。內(nèi)容創(chuàng)作、圖像生成、在線學習、辦公協(xié)助以及日常生活中的多種任務處理。ChitChop作為獨立的App在Google
Play和AppStore上線。多模態(tài)PixelLMPixelLM是由字節(jié)跳動智能創(chuàng)作團隊聯(lián)合北京交通大學、北京科技大學研究人員推出的高效像素級推理大模型。該模型可以實現(xiàn)無需依賴特定加速模塊(如SAM)的像素級語言模型推理。適用于各種需要結(jié)合文本與圖像理解及生成的任務,例如圖像描述、基于文本指令生成圖像或編輯圖像等。LLM云雀大模型2023年8月推出,旨在提升AI在理解、生成和交互等方面的綜合性能,其特點是能夠廣泛應用于各種自然語言處理任務中,如文本生成、問答系統(tǒng)、語義分析等,并具有較高的泛化能力和適應性。內(nèi)容創(chuàng)作與編輯、智能客服與在線助手、教育輔導與知識問答、搜索優(yōu)化與信息檢索、社交媒體和社區(qū)互動豆包、抖音、今日頭條等APPLLMBuboGPT2023年8月推出,能夠?qū)⑽谋?、圖像和音頻等多模態(tài)輸入進行整合,并具有將回復與視覺對象進行對接的獨特能力。對話系統(tǒng)、內(nèi)容生成、智能客服、圖像描述聲音定位19國內(nèi)主流玩家大模型布局一覽、模型公司模型類型大模型分類技術能力應用場景落地產(chǎn)品(軟件)阿里巴巴多模態(tài)通義千問2023年4月推出,超大規(guī)模的語言模型,功能包括多輪對話、文案創(chuàng)作、邏輯推理、多模態(tài)理解、多語言支持。智能客服、內(nèi)容生成、知識問答、多模態(tài)應用、內(nèi)部工具升級淘寶問問、阿里云平臺服務通義千問APP、天貓、釘釘、高德地圖、優(yōu)酷、盒馬等——Qwen模型2023年8月推出Qwen-7B和Qwen-7B-Chat,Qwen-7B是一款通用型的70億參數(shù)規(guī)模的大語言模型,主要用于自然語言理解和生成任務。Qwen-7B-Chat是基于Qwen-7B開發(fā)的對話模型;2023年8月推出Qwen-VL,一款大規(guī)模視覺語言模型,基于通義千問70億參數(shù)模型Qwen-7B研發(fā)的,支持圖文輸入,具備多模態(tài)信息理解能力;2023年9月推出Qwen-14B與Qwen-14B-Chat,Qwen-14B是一個具有140億參數(shù)的大規(guī)模預訓練模型,相應的Qwen-14B-Chat則是一個更強大的對話系統(tǒng)模型;2023年11月推出Qwen-Audio,一款音頻語言模型,能夠處理和理解人類語音、自然聲音等多種音頻類型,并應用于超過30種不同的任務場景;2023年12推出,具有720億參數(shù)規(guī)模的大規(guī)模語言模型,基于大量的高質(zhì)量數(shù)據(jù)進行訓練,旨在提供卓越的語言理解和生成能力;自然語言處理服務、對話式AI助手、多模態(tài)內(nèi)容生成、智能搜索優(yōu)化、企業(yè)級解決方案、AI創(chuàng)作輔助、機器人操控與導航、視覺搜索與推薦、圖像問答NLP通義-AliceMind達摩院開源的深度語言模型體系,涵蓋預訓練模型、多語言預訓練模型、超大中文預訓練模型;2023年8月推出Alice-Mind模型2.0,該模型基于飛槳深度學習平臺,在多項技術上進行了革新,并且取得了顯著的提升。閱讀理解、機器翻譯、對話問答、文檔處理多模態(tài)通義-M62021年11月推出的多模態(tài)大模型,參數(shù)由萬億躍遷至10萬億,成為當時全球最大的AI預訓練模型。使用521張GPU在10天訓練具有可用水平的10萬億模型,相比GPT-3,M6同等參數(shù)規(guī)模,能耗僅為其1。模型實現(xiàn)架構、模態(tài)和任務統(tǒng)一,便于在M6基礎上精調(diào)得到豐富的小模型CV通義-視覺基于英偉達A10
GPU、阿里云CIPU芯片以及IaaS+軟件加速,實現(xiàn)新一代的GPU云服務,在AI計算和視覺計算能力獲得大幅提升圖像搜索與匹配、視頻分析、AI輔助設計、醫(yī)療影像診斷、AI繪畫、——行業(yè)模型層平臺解決方案服務商以通義大模型為底座,開發(fā)SaaS應用提供增值服務;傳媒和游戲運用AIGC實現(xiàn)體驗升級電子商務、AI醫(yī)療、智能農(nóng)業(yè)、自動駕駛、城市大腦、工業(yè)視覺、AIOTNLP夸克大模型阿里巴巴在2023年11月推出全棧自研、千億級參數(shù)的夸克大模型。主要應用在通用搜索、醫(yī)療健康、教育學習、職場辦公等眾多場景,以提供更智能的搜索和推薦功能。夸克App華為NLP盤古NLP大模型2023年7月推出盤古大模型3.0,其中盤古NLP大模型專注于自然語言處理任務,如文本理解、生成、問答、對話系統(tǒng)構建等。智能輿論、智能營銷CV盤古CV大模型2023年7月推出盤古大模型3.0,其中盤古CV大模型能夠處理圖像識別、目標檢測、視頻分析等多種視覺相關的AI任務。智能巡檢、智慧物流多模態(tài)盤古多模態(tài)大模型2023年7月推出盤古大模型3.0,其中盤古多模態(tài)大模型可以同時處理文本、語音、圖像等多種輸入數(shù)據(jù),實現(xiàn)跨模態(tài)的信息交互與理解,例如結(jié)合文字描述生成圖像或者通過語音指令執(zhí)行任務。智能內(nèi)容生成與編輯、跨媒體檢索與推薦、醫(yī)療影像診斷輔助、智能制造與質(zhì)量檢測、VR/AR、智能家居、智慧城市管理、教育科技科學計算盤古科學計算大模型2023年7月推出盤古大模型3.0,其中盤古科學計算大模型用于物理模擬、化學反應預測、生物數(shù)據(jù)分析等復雜問題的求解。氣象預報、臺風路徑預測——行業(yè)定制化子模型盤古大模型3.0強調(diào)面向行業(yè)的應用,因此會有一系列經(jīng)過針對性訓練或微調(diào)的模型,適用于金融、醫(yī)療、教育、制造等行業(yè)特定場景下的智能決策支持、業(yè)務流程優(yōu)化、客戶服務自動化等任務。金融風控、醫(yī)療診斷、教育個性化輔導、智能制造、零售業(yè)客戶關系管理、法律文檔審查、新聞傳媒內(nèi)容生成敬請參閱末頁重要聲明及評級說明20國內(nèi)主流玩家大模型布局一覽模型公司模型類型大模型分類技術能力應用場景落地產(chǎn)品(軟件)昆侖萬維多模態(tài)天工巧繪丨SkyPaint文本生成圖片模型,即提示詞文本編碼器模型和擴散模型領大部分;2023年4月推出天工大模型3.5;2023年7月推出天工大模型4.0;產(chǎn)生高質(zhì)量圖片多模態(tài)天工樂府丨SkyMusic商用級作曲AI模型;2023年4月推出天工大模型3.5;2023年7月推出天工大模型4.0;音樂和娛樂NLP天工妙筆丨SkyText采用了生成效果領先的開源GPT中文預訓練大模型,針對中文領域構建了千億級別的高質(zhì)量數(shù)據(jù)集;2023年4月推出天工大模型3.5;2023年7月推出天工大模型4.0;文字創(chuàng)作NLP天工智碼丨SkyCode多語言開源編程大模型,支持多種主流代碼語言。它可以生成包括Python、Java、C等使用廣泛的編程語言,以及PHP、Go、Swift等共計十余種編程語言;2023年4月推出天工大模型3.5;2023年7月推出天工大模型4.0;編程NLPSkyChat基于中文GPT3
API研發(fā)的項目,可以像ChatGPT一樣,實現(xiàn)人機聊天、問答、中英文互譯、對對聯(lián)和寫古詩任務聊天機器人科大訊飛——訊飛星火認知大模型2023年5月推出,一款大規(guī)模預訓練語言模型,它基于深度學習技術,擁有強大的跨領域知識理解和生成能力;2023年6月發(fā)布了訊飛星火認知大模型V1.5,在原有基礎上實現(xiàn)了顯著的能力升級;2023年8月推出訊飛星火認知大模型V2.0,在多個核心能力上取得了顯著提升,包括但不限于文本生成能力提高了72
,語言理解性能提升了78
,知識問答方面的能力也有了大幅提升。2023年10月推出訊飛星火認知大模型V3.0,在前代基礎上進一步擴大了參數(shù)規(guī)模和優(yōu)化了算法架構,加強了啟發(fā)式對話和AI人設功能。學習教育、辦公商務、醫(yī)療健康、工業(yè)制造、智能助手AI學習機LUMIE
10系列、訊飛智能辦公本、智能錄音筆智能麥克風、星火助手中心與星火APPNLP訊飛星火醫(yī)療大模型2023年10月推出,結(jié)合了自然語言處理、深度學習和大數(shù)據(jù)分析能力,致力于提高醫(yī)療服務效率、減輕醫(yī)生負擔,并為患者提供便捷的健康管理服務。智能預問診與導診、輔助診斷與決策支持、醫(yī)療文檔理解和生成、AI智醫(yī)助理AI心理伙伴、科研助手、教育應用、智譜——ChatGLM系列大模型ChatGLM:智譜AI推出的首款基座大模型,專為對話場景設計。ChatGLM2:繼ChatGLM之后的迭代版本,進一步提升了性能和適用范圍。ChatGLM3:智譜AI于2023年10月在中國計算機大會上發(fā)布的第三代基座大模型,采用了多階段增強預訓練方法,并且特別強調(diào)了其可部署在手機等移動設備上的特性,以及對國產(chǎn)芯片的支持。智能客服系統(tǒng)、在線教育輔助工具、內(nèi)容創(chuàng)作平臺、社交聊天機器人、游戲及娛樂行業(yè)、企業(yè)決策支持、移動應用部署敬請參閱末頁重要聲明及評級說明、資料來源:各公司官網(wǎng),華安證券研究所整理21敬請參閱末頁重要聲明及評級說明目錄LLM發(fā)展歷程與變遷趨勢LLM爆發(fā)關鍵節(jié)點:2017年Transformer架構的出現(xiàn)海外LLM大模型布局:科技巨頭領銜行業(yè),版本持續(xù)迭代國內(nèi)主流玩家大模型布局:互聯(lián)網(wǎng)大廠大模型相繼落地,主要賦能自身旗下產(chǎn)品CV領域發(fā)展歷程與變遷趨勢CV領域工具&模型變遷之路:SD成為開源之王,多模態(tài)成為下一階段演進方向23年以來CV領域技術升級:3D渲染能力增強,生成內(nèi)容更為精準可控CV領域主流應用迭代歷程:生成內(nèi)容更為精細,Prompt理解能力進一步深入AI手機+AIPC主流廠家布局盤點:AI驅(qū)動新一輪換機潮,關注AI產(chǎn)品落地情況海內(nèi)外熱門AI應用盤點:聊天類機器人仍是主流,海內(nèi)外主流應用用戶規(guī)模持續(xù)擴大國內(nèi)熱門AI應用:豆包、天工、文心一言海外熱門AI應用:ChatGPT、Bard、Poe、Notion、Bing、Character.ai22資料來源:華安證券研究所繪制CV領域工具&模型變遷之路:SD成為開源之王,多模態(tài)成為下一階段演進方向GAN:早期的AI繪畫技術,AI繪畫工具的起源。GAN模型一問世就風靡AI學術界,
在多個領域得到了廣泛的應用.
它也隨即成為了很多AI繪畫模型的基礎框架,
其中內(nèi)置的生成器用來生成圖片,
判別器用來判斷圖片質(zhì)量。GAN的出現(xiàn)大大推動了AI繪畫的發(fā)展。GAN模型進行AI繪畫有比較明顯的缺陷,
一方面是對輸出結(jié)果的控制力很弱,
容易產(chǎn)生隨機圖像,
另外一個問題是生成圖像的分辨率比較低。Disco
Diffusion:Disco
Diffusion
是第一個基于CLIP
+
Diffusion
模型的實用化AI繪畫產(chǎn)品。它利用生成對抗網(wǎng)絡(GAN)和擴散模型技術來創(chuàng)建藝術作品,尤其是從文本描述生成圖像。2022年初在谷歌Colab云服務上正式對世界開放使用。Disco
Diffusion的痛點也有兩個:1)
AI繪畫細節(jié)還不夠深入,達不到商業(yè)水準;2)
渲染時間過長,需要大量內(nèi)存。DALL·E2:DALL-E是一個可以通過文本描述中生成圖像的人工智能程序,于2021年1月5日由OpenAI發(fā)表。2022年4月,OpenAI宣布了新版本的DALL-E
2,它可以從文本描述中生成照片般逼真的圖像,另外還有一個允許對輸出進行簡單修改的編輯器。Midjourney:2022年7月12日,MidJourney進入公開測試階段,用戶可以通過Discord的機器人指令來使用MidJourney生成圖像。MidJourney是一個基于大規(guī)模預訓練的自然語言處理模型,可以根據(jù)文本生成圖像。同月,MidJourney開始向所有用戶開放注冊,引起了廣泛的關注和討論。MidJourney展示了其對各種復雜和超現(xiàn)實的圖像生成任務的能力,并被認為是與DALL-E相媲美的人工智能模型。StableDiffusion:2022年7月StableDiffusion的問世,相比前輩們,Stable
Diffusion已經(jīng)成功的解決了細節(jié)及效率問題,通過算法迭代將AI繪圖的精細度提升到了藝術品級別,并將生產(chǎn)效率提升到了秒級,創(chuàng)作所需的設備門檻也被拉到了民用水準。由于擁有發(fā)展良好的開源社區(qū),它的用戶關注度和應用廣度都超越Midjourney和DALL-E。多模態(tài):AI繪畫逐漸成為大模型核心模態(tài)之一,如GPT-4V/DALL-E3。圖表13:CV領域關鍵工具變遷GANDiscoDiffusionDALL·E2MidjourneyStableDiffusion多模態(tài)敬請參閱末頁重要聲明及評級說明23OpenAICLIP2021-01GlideMidjourneyImaginePartiMidjourneyV5AdobeFireflyDall-E3MetaImagineMidjourneyV6LatentDiffusionStableDiffusionDreamBoothLoRAControlNetSDXLLCMSDXLTurboOpenAIMidjourneyOpenAIGoogleAdobeMeta2021-122022-03Dall-E22022-042022-052022-06MidjourneyV42022-112023-032023-102023-12CompVisJupyternotebookStabilityAIStabilityAIStabilityAISemtechGoogle清華大學2021-122022-03DiscoDiffusion52022-082022-082023-012023-02敬請參閱末頁重要聲明及評級說明2023-072023-11閉源模型開源模型圖表14:CV領域模型重要發(fā)展節(jié)點資料來源:華安證券研究所繪制CV領域工具&模型變遷之路:SD成為開源之王,多模態(tài)成為下一階段演進方向24敬請參閱末頁重要聲明及評級說明資料來源:華安證券研究所繪制CV領域文生圖模型的起源于Clip開源。CLIP
是一個通過自然語言監(jiān)督有效地學習視覺概念的神經(jīng)網(wǎng)絡,通過使用CLIP
可將文本和圖像連接在一起。2021年:21
年
1
月
CLIP
發(fā)布后(與
CLIP
一起發(fā)布的還有
DALL·E
第一代文生圖模型,生成能力有限),基于它的各種文生圖模型相繼出現(xiàn),Disco
Diffusion
也是在這個時候誕生,此時它們的生成效果都并不理想。21年
12
月,OpenAI
發(fā)布了
Glide,同月,Compvis
實驗室發(fā)布了
Latent
Diffusion
的論文,成為生成能力實現(xiàn)重大突破基礎?;?/p>
Glide
的論文和各種探索,T2I
開源社區(qū)開啟了
Disco
Diffusion
項目。2022年:22
年
3
月
Disco
Diffusion
v5
發(fā)布,這是圖像生成模型第一次出圈。同一個月,Midjourney
通過包裝使用DiscoDiffusion,進行了商業(yè)應用。22
年
4
月,OpenAI
發(fā)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年企業(yè)機器質(zhì)押借款合同
- 2025年勞動解除合同標準條款
- 2025年抗瘧藥項目申請報告模范
- 2025年貨車租賃與運輸服務合同樣本
- 2025年國際貨物買賣合同與慣例
- 2025年專業(yè)清潔人員派遣協(xié)議
- 2025年二手車購買合同范本
- 2025年三板市場股權買賣協(xié)議
- 2025年伙伴開設教育機構合作協(xié)議書模板
- 2025年繼電器研發(fā)策劃技術協(xié)議書范本
- 小報:人工智能科技科學小報手抄報電子小報word小報
- GB/T 41509-2022綠色制造干式切削工藝性能評價規(guī)范
- 全面介紹現(xiàn)貨中遠期交易
- 公安系防暴安全03安檢
- 孫權勸學教案全國一等獎教學設計
- 企業(yè)生產(chǎn)現(xiàn)場6S管理知識培訓課件
- 五年級下冊數(shù)學課件 第10課時 練習課 蘇教版(共11張PPT)
- 電梯口包邊施工方案正式
- 三年級道德與法治下冊我是獨特的
- 青年卒中 幻燈
- 典型倒閘操作票
評論
0/150
提交評論