人工智能大模型專題報(bào)告:方興未艾并驅(qū)爭(zhēng)先_第1頁
人工智能大模型專題報(bào)告:方興未艾并驅(qū)爭(zhēng)先_第2頁
人工智能大模型專題報(bào)告:方興未艾并驅(qū)爭(zhēng)先_第3頁
人工智能大模型專題報(bào)告:方興未艾并驅(qū)爭(zhēng)先_第4頁
人工智能大模型專題報(bào)告:方興未艾并驅(qū)爭(zhēng)先_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人工智能大模型專題報(bào)告:方興未艾,并驅(qū)爭(zhēng)先報(bào)告緣起:AI趨勢(shì)明確,大模型為關(guān)鍵環(huán)節(jié)全球AI產(chǎn)業(yè)發(fā)展趨勢(shì)明確,波動(dòng)中前行。自1956年約翰·麥卡錫首次提出“人工智能”的概念以來,全球人工智能產(chǎn)業(yè)逐漸進(jìn)入學(xué)術(shù)研究和產(chǎn)業(yè)實(shí)操并進(jìn)的階段。盡管在算力性能、數(shù)據(jù)量、硬件成本等多重因素影響下,人工智能產(chǎn)業(yè)經(jīng)歷了“三起兩落”的螺旋式發(fā)展,但全球人工智能發(fā)展的趨勢(shì)仍然明確,通用人工智能(AGI)仍然是人工智能行業(yè)發(fā)展的主線。ChatGPT

加速推進(jìn)AI產(chǎn)業(yè)發(fā)展,需求爆發(fā)倒逼供給創(chuàng)新。ChatGPT在全球范圍內(nèi)快速傳播,在短時(shí)間內(nèi)完成了對(duì)企業(yè)和用戶的市場(chǎng)教育,需求端的爆發(fā)驅(qū)動(dòng)著供給端加速創(chuàng)新,加快推動(dòng)全球AI產(chǎn)業(yè)發(fā)展進(jìn)程。IDC預(yù)測(cè),2026年全球AI市場(chǎng)規(guī)模有望達(dá)3082.8億美元,2023-2026年CAGR約26.7%。而AI作為下一代全球科技競(jìng)速的重要領(lǐng)域,我國(guó)從頂層設(shè)計(jì)到科技企業(yè)均積極參與,有望進(jìn)一步帶動(dòng)國(guó)內(nèi)AI產(chǎn)業(yè)發(fā)展。IDC預(yù)測(cè),2026年,我國(guó)AI市場(chǎng)規(guī)模有望達(dá)264.4億美元,2023-2026年CAGR約21.5%。政策重點(diǎn)支持,人工智能有望維持高景氣。人工智能作為展現(xiàn)大國(guó)國(guó)際競(jìng)爭(zhēng)力的重要領(lǐng)域,我國(guó)在頂層設(shè)計(jì)方面始終重視對(duì)人工智能產(chǎn)業(yè)發(fā)展的鼓勵(lì)和引導(dǎo),在關(guān)鍵技術(shù)投入、人才培養(yǎng)、人工智能賦能實(shí)體經(jīng)濟(jì)、基本倫理要求等方面均推出相關(guān)政策。政策積極支持下,我國(guó)人工智能行業(yè)有望維持高景氣。9月1日,網(wǎng)信辦發(fā)布第二批境內(nèi)深度合成服務(wù)算法備案信息,百度文心大模型、抖音云雀大模型、京東言犀大模型、騰訊混元助手大模型等110款深度合成服務(wù)算法通過備案。隨著國(guó)產(chǎn)大模型陸續(xù)向公眾開放服務(wù),有望加速產(chǎn)品落地進(jìn)程及模型迭代飛輪,并驅(qū)動(dòng)AI的商業(yè)化變現(xiàn)。產(chǎn)業(yè)結(jié)構(gòu):大模型是重要一環(huán),AI時(shí)代的入口之爭(zhēng)。從AI產(chǎn)業(yè)結(jié)構(gòu)來看,大模型是連接底層算力和上層應(yīng)用的重要一環(huán),成熟的大模型能力和生態(tài)是真正實(shí)現(xiàn)通用人工智能和未來應(yīng)用端繁榮的基礎(chǔ),擁有更強(qiáng)計(jì)算和推理能力、更高通用性的大模型企業(yè)有望把握AI時(shí)代的流量入口和話語權(quán)。競(jìng)爭(zhēng)態(tài)勢(shì):格局明晰尚需時(shí)間,看好互聯(lián)網(wǎng)巨頭領(lǐng)先優(yōu)勢(shì)發(fā)展階段:國(guó)內(nèi)大模型百家爭(zhēng)鳴,格局明晰尚需時(shí)間全球:中美領(lǐng)先發(fā)展,但行業(yè)格局或?qū)⑾鄬?duì)獨(dú)立。從全球范圍來看,中美在大模型領(lǐng)域引領(lǐng)全球發(fā)展。其中,基于在算法模型研發(fā)上的領(lǐng)先優(yōu)勢(shì),美國(guó)大模型數(shù)量居全球首位,根據(jù)中國(guó)科學(xué)技術(shù)信息研究所、科技部新一代人工智能發(fā)展研究中心聯(lián)合發(fā)布的《中國(guó)人工智能大模型地圖研究報(bào)告》,截至2023年5月,美國(guó)已發(fā)布100個(gè)參數(shù)規(guī)模10億以上的大模型。中國(guó)亦積極跟進(jìn)全球大模型發(fā)展趨勢(shì),自2021年以來加速產(chǎn)出,如2021年6月北京智源人工智能研究院發(fā)布1.75萬億參數(shù)量的悟道2.0、2021年11月阿里M6大模型參數(shù)量達(dá)10萬億等。截至2023年5月,我國(guó)已發(fā)布79個(gè)大模型,在全球范圍占據(jù)先發(fā)優(yōu)勢(shì)。但考慮到數(shù)據(jù)安全、隱私合規(guī)以及科技監(jiān)管等因素,我們認(rèn)為中美的大模型市場(chǎng)有望形成相對(duì)獨(dú)立的行業(yè)格局。海外:OpenAI

及谷歌雙龍頭+Meta開源追趕+垂類特色廠商的格局已較為清晰。從海外大模型格局來看,目前已經(jīng)形成較為清晰的雙龍頭領(lǐng)先+Meta開源追趕+垂類繁榮的格局。同時(shí),基于通用大模型能力已相對(duì)成熟可用,其上的應(yīng)用生態(tài)已逐漸繁榮。得益于對(duì)先進(jìn)算法模型的集成以及較早的產(chǎn)品化,OpenAI不僅展現(xiàn)了GPT在人機(jī)對(duì)話中的超預(yù)期表現(xiàn),同時(shí)基于GPT的應(yīng)用生態(tài)也已逐漸繁榮,微軟數(shù)款產(chǎn)品(Bing、Windows操作系統(tǒng)、Office、瀏覽器、PowerPlatform等)、代碼托管平臺(tái)GitHub、AI營(yíng)銷創(chuàng)意公司Jasper等均已接入GPT。谷歌在人工智能領(lǐng)域持續(xù)投入,其提出的IeNet卷積神經(jīng)網(wǎng)絡(luò)模型、Transformer語言架構(gòu)、BERT大語言模型等均對(duì)全球人工智能產(chǎn)業(yè)產(chǎn)生重要推動(dòng)。但由于公司團(tuán)隊(duì)變動(dòng)及更謹(jǐn)慎的產(chǎn)品化落地的態(tài)度,谷歌前期尚未大規(guī)模推出面向C端的AI產(chǎn)品。在ChatGPT快速流行的帶動(dòng)下,谷歌亦推出聊天機(jī)器人Bard及PaLM2,并將接入谷歌的協(xié)作與生產(chǎn)力工具Workspace以及與Spotify、沃爾瑪、UberEats等外部應(yīng)用融合。Meta通過開源方式快速追趕,7月發(fā)布最新開源大模型LLaMA2,使用2萬億tokens訓(xùn)練,上下文長(zhǎng)度翻倍,實(shí)現(xiàn)了更強(qiáng)大的表現(xiàn)能力和更廣泛的應(yīng)用場(chǎng)景。此外,Anthropic、Cohere、HuggingFace等基于各自的垂類特色和定制化服務(wù)也在海外AI市場(chǎng)中扮演著重要角色。國(guó)內(nèi):大模型投入如火如荼,格局明晰仍需時(shí)間。ChatGPT獲得良好用戶反響并在全球范圍引發(fā)關(guān)注以來,中國(guó)頭部科技企業(yè)(阿里、百度、騰訊、華為、字節(jié)等)、新興創(chuàng)業(yè)公司(百川智能、MiniMax等)、傳統(tǒng)AI企業(yè)(科大訊飛、商湯科技等)以及高校研究院(復(fù)旦大學(xué)、中科院等)亦加速大模型領(lǐng)域投入。當(dāng)前國(guó)內(nèi)大模型仍處研發(fā)和迭代的早期階段,各個(gè)大模型的性能差異及易用性仍在市場(chǎng)檢驗(yàn)的過程當(dāng)中,我們預(yù)計(jì)國(guó)內(nèi)大模型領(lǐng)域競(jìng)爭(zhēng)格局的明晰仍需一定時(shí)間。競(jìng)爭(zhēng)要素:技術(shù)投入、核心人才和應(yīng)用場(chǎng)景構(gòu)成核心壁壘技術(shù)投入、核心人才和應(yīng)用場(chǎng)景構(gòu)成核心壁壘。我們認(rèn)為,大模型是一個(gè)重資源稟賦、高進(jìn)入門檻的賽道,其對(duì)算法模型的有效性、高質(zhì)量的數(shù)據(jù)、算力的支撐能力均有極高要求,模型的優(yōu)化迭代亦有賴于資金和人才的持續(xù)投入。此外,大模型的實(shí)際落地和行業(yè)應(yīng)用能力也是市場(chǎng)檢驗(yàn)的重要標(biāo)準(zhǔn)。模型架構(gòu):理論創(chuàng)新與工程實(shí)踐有效分離,加速AI技術(shù)創(chuàng)新效率。2017年transformer模型的出現(xiàn),以及引入的自注意力機(jī)制,推動(dòng)AI在語言類問題(NLP等)上取得快速進(jìn)展的同時(shí),亦先后擴(kuò)展至圖像生成、音視頻生成、計(jì)算機(jī)視覺等領(lǐng)域,并逐步成為眾多AI算法的底層基礎(chǔ)。各類算法輸入數(shù)據(jù)規(guī)模、模型參數(shù)的指數(shù)級(jí)增長(zhǎng),以及模型scale帶來更優(yōu)的計(jì)算精度、問題泛化求解能力等,推動(dòng)大模型快速普及,據(jù)PercyLiang、RishiBommasani、李飛飛等人在2021年論文《OntheOpportunitiesandRiskofFoundationModels》中提及,具有“表達(dá)能力、可擴(kuò)展性、多模態(tài)性、記憶容量和組合性”特征的大模型將成為學(xué)術(shù)研究的核心方向,并成為AI產(chǎn)業(yè)的底層基礎(chǔ)模型(foundationmodel)。ChatGPT的成功表明,算法架構(gòu)+工程實(shí)踐的有效結(jié)合,經(jīng)過fine-tuning之后的基礎(chǔ)模型部署于各類應(yīng)用場(chǎng)景,將能顯著改善AI技術(shù)研發(fā)效率、產(chǎn)業(yè)化門檻。我們判斷,基礎(chǔ)模型理論創(chuàng)新將逐步回歸至科研機(jī)構(gòu)、科技巨頭等,而眾多算法企業(yè)的差異化能力將進(jìn)一步向工程實(shí)踐領(lǐng)域遷移,并成為下游應(yīng)用場(chǎng)景廠商緊密的合作伙伴。大模型訓(xùn)練對(duì)算力及資金均提出極高要求。我們對(duì)ChatGPT單次訓(xùn)練成本進(jìn)行測(cè)算,假定預(yù)訓(xùn)練單次,且訓(xùn)練過程中沒有出現(xiàn)錯(cuò)誤時(shí)的成本。實(shí)際情形中,考慮到訓(xùn)練過程中出現(xiàn)工程類錯(cuò)誤的可能性,實(shí)際成本會(huì)高于我們計(jì)算的理想情況成本。假設(shè)參數(shù)量為175B、訓(xùn)練數(shù)據(jù)500BTokens的情況下,根據(jù)《ScalingLawsforNeuralLanguageModels》(JaredKaplan,SamMcCandlish,TomHenighan等)的分析,在使用256個(gè)英偉達(dá)HGXA100服務(wù)器(包含2048個(gè)A100GPU卡)的情況下,模型FLOPsUtilization(MFU)假設(shè)為Megatron-LM的51.04%,我們推測(cè)單次訓(xùn)練時(shí)長(zhǎng)約為30.7天,對(duì)應(yīng)約151萬GPU小時(shí)。假設(shè)訓(xùn)練使用成本價(jià)約為1美元/GPU小時(shí)的情況下,耗費(fèi)服務(wù)器端成本約為151萬美元。數(shù)據(jù):高質(zhì)量的數(shù)據(jù),能夠?yàn)槟P妥陨淼膶W(xué)習(xí)、迭代,以及對(duì)推理能力的訓(xùn)練帶來正向影響。按照當(dāng)前LLM的技術(shù)范式,數(shù)據(jù)集主要應(yīng)用于預(yù)訓(xùn)練和模型調(diào)優(yōu)階段。預(yù)訓(xùn)練階段需要大規(guī)模、多類別、高質(zhì)量的訓(xùn)練數(shù)據(jù),在模型調(diào)優(yōu)階段,垂類小數(shù)據(jù)集、提示詞工程同樣重要。近年來全球數(shù)據(jù)量呈現(xiàn)爆發(fā)式增長(zhǎng),據(jù)IDC統(tǒng)計(jì),2019年全球產(chǎn)生的數(shù)據(jù)量為41ZB,過去十年的CAGR接近50%,IDC預(yù)計(jì)到2025年全球數(shù)據(jù)量或高達(dá)175ZB,2019-2025年仍將維持近30%的復(fù)合增速,其中超過80%的數(shù)據(jù)都將是處理難度較大的文本、圖像、音視頻等非結(jié)構(gòu)化數(shù)據(jù)。從Bert開始到GPT-3再到谷歌的PALM,網(wǎng)絡(luò)中的公開語言數(shù)據(jù)源已經(jīng)在被盡可能地利用(論壇、新聞、維基百科等),但模型優(yōu)化仍需更多數(shù)據(jù),這要求模型開發(fā)商有能力接觸到優(yōu)質(zhì)私有數(shù)據(jù)來源,從而才能在模型的數(shù)據(jù)底層取得差異性優(yōu)勢(shì)。場(chǎng)景:應(yīng)用落地時(shí)檢驗(yàn)?zāi)P湍芰Φ闹匾獦?biāo)準(zhǔn)。一方面,通用大模型與行業(yè)場(chǎng)景結(jié)合,在帶來生產(chǎn)力和效率的實(shí)質(zhì)性提升后才能真正實(shí)現(xiàn)普及。另一方面,大模型結(jié)合行業(yè)應(yīng)用落地后,更多的真實(shí)用戶反饋也有望加速大模型的優(yōu)化迭代,從而不斷強(qiáng)化模型能力。格局推演:有望形成互聯(lián)網(wǎng)巨頭主導(dǎo)+垂類廠商共存的格局歷史積累:互聯(lián)網(wǎng)巨頭具備先發(fā)優(yōu)勢(shì),芯片層、模型層、應(yīng)用層布局完備?;ヂ?lián)網(wǎng)巨頭在AI領(lǐng)域投入已久,百度2014年即成立人工智能實(shí)驗(yàn)室,阿里、騰訊、字節(jié)跳動(dòng)也于2016年成立人工智能實(shí)驗(yàn)室,此后各家在芯片層、模型層及應(yīng)用層持續(xù)探索,不斷完善布局,在研發(fā)、模型、數(shù)據(jù)、應(yīng)用等方面已積累顯著的先發(fā)優(yōu)勢(shì)。算法模型:追隨海外技術(shù)進(jìn)展,研發(fā)突破是競(jìng)爭(zhēng)關(guān)鍵。從技術(shù)路線來看,國(guó)內(nèi)大模型主要追隨海外進(jìn)展?;诠雀柙谌斯ぶ悄茴I(lǐng)域更高的影響力以及BERT開源代碼,前期我國(guó)企業(yè)在大模型領(lǐng)域的探索更多參考BERT路線。隨著ChatGPT在人機(jī)對(duì)話領(lǐng)域的超預(yù)期表現(xiàn)驗(yàn)證了高質(zhì)量數(shù)據(jù)+反饋激勵(lì)(大模型預(yù)訓(xùn)練+小數(shù)據(jù)微調(diào))的有效性,國(guó)內(nèi)大模型技術(shù)路線也逐漸向GPT方向收斂。我們認(rèn)為,盡管模型架構(gòu)設(shè)計(jì)的不同對(duì)特定任務(wù)上的表現(xiàn)有一定影響,但國(guó)內(nèi)大模型廠商在技術(shù)上基本同源,從而導(dǎo)致了現(xiàn)階段較為相似的模型能力,而下一階段對(duì)于GPT方向的研發(fā)突破將是競(jìng)爭(zhēng)關(guān)鍵。算力:互聯(lián)網(wǎng)廠商在算力資源上具備優(yōu)勢(shì)。隨著模型參數(shù)和復(fù)雜度的提升,大模型對(duì)算力的需求也在加速增長(zhǎng)。當(dāng)前國(guó)內(nèi)已發(fā)布的大模型中,參數(shù)規(guī)模達(dá)到千億及以上的廠商僅為10個(gè)左右,一定程度上體現(xiàn)出各廠商之間算力能力的差異。我們認(rèn)為,互聯(lián)網(wǎng)廠商在算力資源上具備相對(duì)優(yōu)勢(shì),主要原因系:1)互聯(lián)網(wǎng)企業(yè)業(yè)務(wù)布局多元,用戶基數(shù)龐大,海量數(shù)據(jù)高頻更新,使得互聯(lián)網(wǎng)企業(yè)自身對(duì)算力有大量需求,阿里、字節(jié)、百度、騰訊等頭部互聯(lián)網(wǎng)企業(yè)是全球芯片及服務(wù)器領(lǐng)域的重要客戶。2)阿里云、百度云、騰訊云等為國(guó)內(nèi)頭部云廠商,在云計(jì)算中心、AI算力平臺(tái)、超算中心等新型高性能計(jì)算基礎(chǔ)設(shè)施上布局領(lǐng)先,如阿里云推出PAI靈駿智算服務(wù),提供覆蓋AI開發(fā)全流程的平臺(tái)和分布式異構(gòu)計(jì)算優(yōu)化能力;騰訊云發(fā)布新一代HCC(High-PerformanceComputingCluster)高性能計(jì)算集群,算力性能較前代提升高達(dá)3倍。數(shù)據(jù):優(yōu)質(zhì)開源中文數(shù)據(jù)集稀缺,自有數(shù)據(jù)及處理能力構(gòu)成模型訓(xùn)練壁壘。得益于開源共創(chuàng)的互聯(lián)網(wǎng)生態(tài),海外已有大量?jī)?yōu)質(zhì)、結(jié)構(gòu)化的開源數(shù)據(jù)庫,文本來源既包含嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)寫作、百科知識(shí),也包含文學(xué)作品、新聞媒體、社交網(wǎng)站、流行內(nèi)容等,更加豐富的語料數(shù)據(jù)能夠提高模型在不同情景下的對(duì)話能力。而受制于搭建數(shù)據(jù)集較高的成本以及尚未成熟的開源生態(tài),國(guó)內(nèi)開源數(shù)據(jù)集在數(shù)據(jù)規(guī)模和語料質(zhì)量上相比海外仍有較大差距,數(shù)據(jù)來源較為單一,且更新頻率較低,從而導(dǎo)致模型的訓(xùn)練效果受限。因此,大模型廠商的自有數(shù)據(jù)和處理能力構(gòu)成模型訓(xùn)練效果差異化的核心。受益于移動(dòng)互聯(lián)網(wǎng)時(shí)代積累的海量用戶、應(yīng)用和數(shù)據(jù),互聯(lián)網(wǎng)企業(yè)在自有數(shù)據(jù)上更具特色化和獨(dú)占性,疊加更強(qiáng)大的數(shù)據(jù)處理能力,從而能夠通過數(shù)據(jù)優(yōu)勢(shì)帶來模型訓(xùn)練成果的差異。例如,阿里在研發(fā)M6時(shí),構(gòu)建了最大的中文多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集M6-Corpus,包含超過1.9TB圖像和292GB文本,涵蓋百科全書、網(wǎng)頁爬蟲、問答、論壇、產(chǎn)品說明等數(shù)據(jù)來源,并設(shè)計(jì)了完善的清潔程序以確保數(shù)據(jù)質(zhì)量。百度

ERNIE

模型的訓(xùn)練數(shù)據(jù)集中也運(yùn)用了大量百度百科、百度搜索以及百度知識(shí)圖譜等生態(tài)內(nèi)數(shù)據(jù),通過更高質(zhì)量的數(shù)據(jù)保障了模型的訓(xùn)練效果。資源投入:互聯(lián)網(wǎng)廠商重研發(fā)投入,資金及人才實(shí)力領(lǐng)先。大模型的訓(xùn)練需要較高且可持續(xù)的研發(fā)投入,頭部互聯(lián)網(wǎng)企業(yè)兼具高資本密度和高人才密度優(yōu)勢(shì)。資金方面,2022年,騰訊/阿里/百度研發(fā)費(fèi)用達(dá)614/567/233億元,明顯領(lǐng)先于行業(yè)相關(guān)公司。人才方面,根據(jù)脈脈人才庫,在計(jì)算機(jī)視覺、深度學(xué)習(xí)、語音識(shí)別、自然語言處理4個(gè)人工智能重要的技術(shù)方向上,互聯(lián)網(wǎng)大廠是人才儲(chǔ)備最豐富的企業(yè)。持續(xù)的高研發(fā)投入以及極高的人才密度有望驅(qū)動(dòng)頭部互聯(lián)網(wǎng)企業(yè)保持在AI及大模型領(lǐng)域的領(lǐng)先優(yōu)勢(shì)。場(chǎng)景:業(yè)務(wù)豐富多元,互聯(lián)網(wǎng)廠商天然具備落地實(shí)踐場(chǎng)景??紤]到數(shù)據(jù)隱私和安全合規(guī),初期通用大模型在行業(yè)落地時(shí)可能會(huì)面臨一定的信任問題,從而導(dǎo)致較高的獲客成本。而頭部互聯(lián)網(wǎng)平臺(tái)基于自身在電商、搜索、游戲、金融等領(lǐng)域豐富的業(yè)務(wù)積累,天然具備落地實(shí)踐場(chǎng)景。在提高產(chǎn)品效率的同時(shí),也有望率先形成示范效應(yīng),從而有助于外部客戶和應(yīng)用的拓展。格局推演:互聯(lián)網(wǎng)巨頭有望保持領(lǐng)先地位,中小廠商或?qū)⒚媾R路徑選擇。綜合上述分析,結(jié)合行業(yè)競(jìng)爭(zhēng)要素,并參考海外當(dāng)前競(jìng)爭(zhēng)格局,我們認(rèn)為,國(guó)內(nèi)大模型賽道有望形成與海外相似的產(chǎn)業(yè)趨勢(shì),兼具技術(shù)、資金、人才和場(chǎng)景優(yōu)勢(shì)的頭部互聯(lián)網(wǎng)企業(yè)有望成為大模型領(lǐng)域的重要玩家,而中小廠商或?qū)⒚媾R路徑選擇。一方面,中小廠商可以利用自身在垂類場(chǎng)景和數(shù)據(jù)層面積累的優(yōu)勢(shì),成為聚焦垂類的核心特色玩家;另一方面,基于訓(xùn)練和用戶調(diào)用帶來的算力需求的激增,考慮到資源優(yōu)勢(shì)和經(jīng)濟(jì)性,中小廠商或?qū)で笤茝S商的支持和合作?;ヂ?lián)網(wǎng)大模型對(duì)比:短看技術(shù)突破,長(zhǎng)看生態(tài)壁壘歷史積累:百度、阿里技術(shù)積累深厚,大模型已實(shí)現(xiàn)良好性能本章節(jié),我們對(duì)國(guó)內(nèi)頭部互聯(lián)網(wǎng)企業(yè)在AI領(lǐng)域的發(fā)展現(xiàn)狀、自研布局以及對(duì)外投資進(jìn)行了梳理。從時(shí)間線上看,國(guó)內(nèi)頭部互聯(lián)網(wǎng)企業(yè)阿里、百度、騰訊、字節(jié)均在2014-2016年間成立人工智能實(shí)驗(yàn)室,但此后在發(fā)展思路和框架布局上各有側(cè)重。我們認(rèn)為,阿里、百度更偏重對(duì)底層技術(shù)的投入,兼具先發(fā)優(yōu)勢(shì)和完備自研布局,目前推出的大模型產(chǎn)品已實(shí)現(xiàn)良好的中文對(duì)話能力。騰訊在AI領(lǐng)域亦積極跟進(jìn),并于2022年12月公布萬億中文NLP預(yù)訓(xùn)練模型混元的最新進(jìn)展;同時(shí),騰訊在大模型領(lǐng)域也保持了開放的投資風(fēng)格,與企業(yè)共同成長(zhǎng)。字節(jié)此前在AI領(lǐng)域的投入更多與自身業(yè)務(wù)相關(guān),如音視頻識(shí)別、內(nèi)容創(chuàng)作、AR/VR等,算法能力突出,但在大模型領(lǐng)域的積累則相對(duì)薄弱,推出火山方舟,通過MaaS的方式積極參與行業(yè)競(jìng)爭(zhēng)。阿里巴巴:AI自研投入已久,數(shù)據(jù)、算法及算力積累上已占據(jù)領(lǐng)先身位。作為國(guó)內(nèi)頭部科技企業(yè),阿里在人工智能等前沿科技方向上早有投入,2014年即成立了數(shù)據(jù)科學(xué)與技術(shù)研究院,2016年成立人工智能實(shí)驗(yàn)室,2017年成立達(dá)摩院,后續(xù)成立AI芯片自研團(tuán)隊(duì)作為算力支持,并陸續(xù)發(fā)布了中文社區(qū)最大規(guī)模預(yù)訓(xùn)練語言模型PLUG和多模態(tài)大模型M6。同時(shí),阿里在電商、智慧城市等業(yè)務(wù)中積極運(yùn)用深度學(xué)習(xí)等智能化技術(shù),通過技術(shù)進(jìn)步提升業(yè)務(wù)效率。我們認(rèn)為,基于在數(shù)據(jù)、算法和算力上的沉淀,阿里在國(guó)內(nèi)人工智能和大模型競(jìng)速中已占據(jù)領(lǐng)先身位。對(duì)外投資:廣泛布局,打造AI生態(tài)圈實(shí)現(xiàn)共贏。除自研投入外,阿里也在AI核心產(chǎn)業(yè)環(huán)節(jié)積極進(jìn)行對(duì)外投資,在芯片領(lǐng)域投資寒武紀(jì)、深鑒科技等,機(jī)器視覺和深度學(xué)習(xí)領(lǐng)域投資商湯科技、曠視科技等,應(yīng)用領(lǐng)域投資小鵬、小i機(jī)器人等。通過AI領(lǐng)域的廣泛布局,阿里巴巴有望與相關(guān)企業(yè)形成協(xié)同效應(yīng)和戰(zhàn)略合作,進(jìn)一步實(shí)現(xiàn)效率提升和業(yè)務(wù)拓展,通過打造AI生態(tài)圈的方式實(shí)現(xiàn)共贏。技術(shù)架構(gòu):IaaS+PaaS+MaaS重新定義AI架構(gòu)。面向新的AI時(shí)代,阿里云重新定義了IaaS+PaaS+MaaS的三層技術(shù)體系。IaaS層,阿里云專門為AI設(shè)計(jì)了云基礎(chǔ)設(shè)施,包括異構(gòu)計(jì)算、高效高速的網(wǎng)絡(luò)存儲(chǔ)等。同時(shí),在訓(xùn)練方面提供靈駿計(jì)算集群,在推理方面提供彈性計(jì)算ECS集群,通過更加穩(wěn)定高效的基礎(chǔ)設(shè)施為AI發(fā)展提供堅(jiān)實(shí)的基礎(chǔ)。PaaS層,阿里云基于長(zhǎng)期的技術(shù)和軟件能力積累提供了豐富的大數(shù)據(jù)及機(jī)器學(xué)習(xí)產(chǎn)品,從數(shù)據(jù)清洗、特征工程訓(xùn)練等方面助力模型訓(xùn)練。此外,阿里云于2022年11月推出魔搭社區(qū),提出MaaS(modelasaservice),通過打造大模型開源社區(qū)和生態(tài)共建的方式加速模型發(fā)展及迭代。百度:深耕十年,全棧自研構(gòu)筑核心壁壘?;谧陨順I(yè)務(wù)需求和濃厚的工程師文化,百度始終重視對(duì)AI的投入,2011年在硅谷開設(shè)辦公室,并在2017年提出“AllinAI”的公司戰(zhàn)略。從AI技術(shù)體系來看,百度是國(guó)內(nèi)少數(shù)在AI領(lǐng)域全棧自研布局的公司之一,在芯片層、框架層、模型層和應(yīng)用層均有自研投入,已形成一定的產(chǎn)業(yè)生態(tài)和影響力。對(duì)外投資:長(zhǎng)期投入,加速布局大模型領(lǐng)域。百度長(zhǎng)期關(guān)注人工智能賽道,堅(jiān)持布局前沿科技領(lǐng)域,在芯片、大模型、AI+制藥、應(yīng)用等領(lǐng)域均有投資。2023年以來,隨著ChatGPT引發(fā)新一輪AI產(chǎn)業(yè)熱潮,百度亦加速在AIGC及多模態(tài)大模型領(lǐng)域的布局,先后投資text-to-video生成技術(shù)與社區(qū)的初創(chuàng)企業(yè)MorphStudio、人工智能公司西湖心辰及多模態(tài)大模型公司生數(shù)科技,有望進(jìn)一步完善公司的AI生態(tài)布局并加快協(xié)同發(fā)展。芯片+框架+模型+應(yīng)用全棧自研布局,強(qiáng)化內(nèi)部反饋迭代。百度在AI領(lǐng)域全棧自研布局,芯片層,百度已有兩代自研昆侖芯實(shí)現(xiàn)量產(chǎn),預(yù)計(jì)第三代昆侖芯將于2024年初實(shí)現(xiàn)規(guī)模上市;框架層,百度飛槳經(jīng)過6年開發(fā)并逐漸成熟后,成為中國(guó)首個(gè)開源開放、功能完備的端到端深度學(xué)習(xí)平臺(tái),截至2022年11月,百度飛槳已有535萬開發(fā)者,服務(wù)了20萬家企事業(yè)單位,創(chuàng)建了67萬個(gè)模型;模型層,百度最早于2019年推出文心大模型并不斷迭代,并于2021年發(fā)布百億級(jí)大模型文心ERNIE3.0和千億級(jí)大模型文心ERNIE3.0Titan;應(yīng)用層,百度推出生成式AI對(duì)話產(chǎn)品文心一言以及面向企業(yè)客戶的文心千帆大模型平臺(tái),積極通過實(shí)踐場(chǎng)景驗(yàn)證大模型能力。我們認(rèn)為,百度全棧自研布局的優(yōu)勢(shì)在于各層之間的反饋有望進(jìn)一步驅(qū)動(dòng)技術(shù)能力的優(yōu)化,提升迭代效率。騰訊:重視AI發(fā)展,內(nèi)生+外延雙輪并驅(qū)。騰訊2016年成立

AILab,并在2017年提出“makeAIeverywhere”的戰(zhàn)略愿景,2018年建立以人工智能與前沿科技為基礎(chǔ)的兩大實(shí)驗(yàn)室矩陣。根據(jù)騰訊RoboticsX實(shí)驗(yàn)室微信公眾號(hào),截至2022年底,騰訊AILab已累計(jì)在AAAI、CVPR、ACL、ICML、NeurIPS等國(guó)際頂級(jí)AI學(xué)術(shù)會(huì)議或期刊發(fā)表超780篇文章,并持續(xù)推動(dòng)AI與機(jī)器人、數(shù)字內(nèi)容生成、生命科學(xué)、醫(yī)療醫(yī)藥、游戲等行業(yè)應(yīng)用的結(jié)合。對(duì)外投資方面,根據(jù)IT桔子,截至2022年底,騰訊共投資53家國(guó)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論