AI專題報(bào)告:再談人工智能AI投資的短期與長(zhǎng)期_第1頁(yè)
AI專題報(bào)告:再談人工智能AI投資的短期與長(zhǎng)期_第2頁(yè)
AI專題報(bào)告:再談人工智能AI投資的短期與長(zhǎng)期_第3頁(yè)
AI專題報(bào)告:再談人工智能AI投資的短期與長(zhǎng)期_第4頁(yè)
AI專題報(bào)告:再談人工智能AI投資的短期與長(zhǎng)期_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI專題報(bào)告:再談人工智能,AI投資的短期與長(zhǎng)期市場(chǎng)回顧:美股科技板塊、算力板塊領(lǐng)漲隨著ChatGPT以及AI的持續(xù)發(fā)展,全球投資者對(duì)人工智能期待甚多,資本市場(chǎng)亦在尋找相關(guān)領(lǐng)域的投資機(jī)會(huì)。復(fù)盤2023年全球主要資本市場(chǎng)走勢(shì),我們看到幾個(gè)明顯的特征:1)投資機(jī)遇主要圍繞算力領(lǐng)域,英偉達(dá)及其產(chǎn)業(yè)鏈公司領(lǐng)漲,例如美股市場(chǎng)上英偉達(dá),A股市場(chǎng)的工業(yè)富聯(lián)、中際旭創(chuàng)等。2)從市場(chǎng)類別看,美股納斯達(dá)克(+27.9%)和費(fèi)城半導(dǎo)體(+36.8%)指數(shù)領(lǐng)漲。中國(guó)人工智能和科技相關(guān)指數(shù)表現(xiàn)平淡。具體來(lái)看,截至9月28日,A股市場(chǎng),中信半導(dǎo)體指數(shù)(-5.3%)下跌,中信電子指數(shù)(1.3%)和中信計(jì)算機(jī)指數(shù)(+8.4%)小幅上漲。港股恒生科技指數(shù)(-10.8%),表現(xiàn)略強(qiáng)于恒生指數(shù)(-13.8%)。個(gè)股方面,英偉達(dá)(+201.1%)、臉書(+143.7%)、特斯拉(+127.9%)領(lǐng)漲美股,英偉達(dá)產(chǎn)業(yè)鏈公司中繼旭創(chuàng)(+309.9%)、工業(yè)富聯(lián)(+116.9%)領(lǐng)漲A股,理想汽車(+64.6%)表現(xiàn)顯著優(yōu)于其他港股科網(wǎng)公司。雖然市場(chǎng)上已經(jīng)反映了大量的AI預(yù)期,但在當(dāng)前技術(shù)和應(yīng)用仍在快速迭代的過(guò)程中,投資者依舊關(guān)注:1)英偉達(dá)及其產(chǎn)業(yè)鏈公司的股價(jià)是否已經(jīng)PriceIn太多市場(chǎng)預(yù)期,是否還有上行動(dòng)力;2)人工智能投資機(jī)會(huì)未來(lái)是否將進(jìn)一步向算力領(lǐng)域外延伸,云計(jì)算、大模型、AI應(yīng)用領(lǐng)域投資能否醞釀下一波投資機(jī)遇。在本篇報(bào)告中,我們將系統(tǒng)性總結(jié)、反思過(guò)去一年乃至更長(zhǎng)時(shí)間周期內(nèi),AI的演進(jìn)及市場(chǎng)預(yù)期變化,梳理人工智能的投資框架全景圖,全面梳理A股、港股、美股市場(chǎng)上的人工智能相關(guān)公司,供投資者參考。技術(shù)邏輯:走向更人性化、更多元化的人機(jī)交互模式技術(shù)復(fù)盤:OpenAI主導(dǎo)的生成式人工智能AIGC路徑,建立在超大規(guī)模的數(shù)據(jù)學(xué)習(xí)基礎(chǔ)上,基于模型訓(xùn)練和RLHF人類反饋強(qiáng)化學(xué)習(xí),可用于文本、圖片、代碼等多模態(tài)信息生成和交互。而ChatGPT的技術(shù)根基來(lái)自于2016發(fā)表的Transformer模型(由谷歌最先提出),用通俗的語(yǔ)言來(lái)解釋,這一模型的工作就是通過(guò)分析數(shù)據(jù)單字間的統(tǒng)計(jì)學(xué)關(guān)聯(lián),從而預(yù)測(cè)句子中將要出現(xiàn)的下一個(gè)詞或者空缺的詞的概率。通過(guò)不斷計(jì)算空缺單詞的概率分布,模型最終通過(guò)統(tǒng)計(jì)學(xué)的原理生成出一個(gè)完整的句子?;仡橭penAI的發(fā)展歷程,ChatGPT的成功并非是橫空出世,而是經(jīng)歷了超過(guò)7年、多于三代的技術(shù)積累與迭代,并在這一過(guò)程中走出了自己的開創(chuàng)性道路。OpenAI成立于2015年,在當(dāng)時(shí)的學(xué)術(shù)界仍然以深度學(xué)習(xí)為核心的小模型占據(jù)主流:這類模型以LSTM及CNN模型作為典型的特征抽取器,根據(jù)特定領(lǐng)域標(biāo)注數(shù)據(jù)訓(xùn)練,在一些任務(wù)上可以達(dá)到接近人類的水準(zhǔn)。但是硬件算力不夠?qū)е箩槍?duì)其他領(lǐng)域重新訓(xùn)練成本過(guò)高,讓其通用型任務(wù)的完成情況很差。從2018年開始,OpenAI開始活躍在大語(yǔ)言模型的學(xué)術(shù)圈內(nèi),并提出了開創(chuàng)性的GPT-2模型。2017年谷歌Bert為代表的雙向預(yù)訓(xùn)練+FineTuning(微調(diào))的Transformer模型橫空出世成為了人工智能的主流方向,OpenAI緊隨谷歌之后提出了GPT-2在Bert的模式上做了改進(jìn),以讓其更適合生成式的任務(wù)。盡管GPT-2模型仍然十分不完善,基準(zhǔn)成績(jī)不算優(yōu)秀,但Bert與后續(xù)GPT-2等模型的推出統(tǒng)一了自然語(yǔ)言模型(NLP)的研究范式。這類模型以預(yù)訓(xùn)練的方式學(xué)習(xí)語(yǔ)言學(xué)特征,大幅簡(jiǎn)化了過(guò)去NLP繁瑣的研究種類。Transformer作為特征提取器效果好于CNN、LSTM模型等,讓AI首次能在語(yǔ)言任務(wù)的部分場(chǎng)景中追平人類。2020年是OpenAI產(chǎn)生廣泛影響力的開端,GPT-3的出現(xiàn)證明了OpenAI自回歸模型的優(yōu)勢(shì),并驗(yàn)證了模型大小與數(shù)據(jù)質(zhì)量的重要性。在這段時(shí)間內(nèi)產(chǎn)業(yè)界與學(xué)術(shù)界繼續(xù)沿著Transformer的道路前進(jìn),但開始嘗試不同于Bert的其他Transformer架構(gòu),通過(guò)預(yù)訓(xùn)練無(wú)監(jiān)督學(xué)習(xí)的方法不斷增加模型大小成為了這一時(shí)段的主流。以O(shè)penAI1750億參數(shù)的GPT-3為代表,各大互聯(lián)網(wǎng)巨頭不斷嘗試增加模型體積以獲得更好的效果。GPT模型相比于其他模型的不同之處在于其更好的產(chǎn)品化能力。相比于Bert,GPT-3的自回歸+Prompting在產(chǎn)品化能力上展現(xiàn)出了兩個(gè)優(yōu)點(diǎn):1)Fine-tuning對(duì)于小公司更難部署,從產(chǎn)品化的角度上更加困難;2)Prompting的方法更符合我們對(duì)以人類的方式使用AI的愿望。谷歌等巨頭在這一階段也意識(shí)到了Prompting方法的重要性,逐漸開始轉(zhuǎn)向。國(guó)內(nèi)AI研究在這一段時(shí)間內(nèi)明顯落后,仍然沿著Bert模型的方向繼續(xù)前進(jìn),對(duì)GPT-3的研究很少;同時(shí)受制于中文優(yōu)質(zhì)語(yǔ)料的相對(duì)稀缺,模型大小也較難提升。ChatGPT的成功證明了GPT模型的Prompting道路的正確性,同時(shí)也強(qiáng)調(diào)了數(shù)據(jù)質(zhì)量的重要性。ChatGPT最重要的成功是在產(chǎn)品化上更進(jìn)一步:ChatGPT在模型精度上并沒(méi)有飛躍性的突破,但從FewShotprompt(需要輸入范例示范)轉(zhuǎn)換到Instruct(用人類語(yǔ)言描述想做什么)更加貼合用戶的習(xí)慣。從產(chǎn)品邏輯上,ChatGPT的Prompting模式雖然犧牲了部分精度,但無(wú)需用任務(wù)區(qū)分器區(qū)別不同的任務(wù),更接近于大眾所理解的“人工智能”。此前大眾接觸的人工智能如·Siri、小愛、小度音箱等,通過(guò)以任務(wù)分類的形式運(yùn)行,準(zhǔn)備不同任務(wù)的標(biāo)注數(shù)據(jù)分別進(jìn)行訓(xùn)練,是傳統(tǒng)的Bert類模型。簡(jiǎn)單來(lái)說(shuō),將預(yù)先設(shè)置好的任務(wù)類型放于模型背后,使用者通過(guò)描述任務(wù)類型系統(tǒng)來(lái)匹配對(duì)應(yīng)的模塊,缺點(diǎn)是使用者的指令需要清晰且無(wú)法執(zhí)行沒(méi)有預(yù)先設(shè)置的任務(wù)類型。而GPT類模型面對(duì)用戶不同的輸入,模型可以自行判斷給了用戶更好的體驗(yàn),這也更接近于大眾理解的“通用人工智能”。隨著GPT模型的成功,OpenAI等人工智能頭部廠商從開源走向閉源,利用其資源優(yōu)勢(shì)來(lái)打造差異化的AI模型。在GPT與PalM交出出色表現(xiàn)后,谷歌與OpenAI作為行業(yè)內(nèi)的技術(shù)領(lǐng)先者已經(jīng)明確選擇了閉源模式:OpenAI推出GPT-4的形式與以往模型的發(fā)布都有所不同,OpenAI既沒(méi)有公開發(fā)布GPT-4的相關(guān)論文,也沒(méi)有提供詳細(xì)的框架說(shuō)明,僅僅提供了一份98頁(yè)的技術(shù)文檔(主要描述模型能力以及相關(guān)評(píng)測(cè)的得分,幾乎沒(méi)有任何技術(shù)細(xì)節(jié))。通過(guò)這一方式,OpenAI阻斷了所有借鑒者參考的直接途徑(模型大小、數(shù)據(jù)集構(gòu)建、訓(xùn)練方法等),將閉源的路線堅(jiān)持到底。通過(guò)這一方式,OpenAI迫使想要融入GPT-4能力的軟件服務(wù)商與其合作,OpenAI提供對(duì)應(yīng)的API接口以及部署指導(dǎo)。相較于頭部廠商,Meta等追趕者更傾向于培養(yǎng)開源社區(qū),發(fā)布Llama2共同迭代模型。頭部廠商閉源模型后,落后一到兩個(gè)身位的公司(Meta、Amazon、NVIDIA等)可能會(huì)選擇開源路線,寄希望通過(guò)社區(qū)的力量加速迭代。2023年7月19日,Meta發(fā)布了其最新開源可商用版本Llama2大語(yǔ)言模型。模型層面的最大亮點(diǎn)在于開源了與GPT-3.5相同的SFT與RLHF(人類反饋強(qiáng)化學(xué)習(xí))的步驟,成為目前開源類別中最接近GPT-3.5的大語(yǔ)言模型。從Meta論文中公布的數(shù)據(jù)指標(biāo),Llama270B在部分指標(biāo)上甚至追平了GPT-3.5,大部分指標(biāo)超過(guò)GPT-3,成為如今性能較為領(lǐng)先的開源模型之一。總體來(lái)看,Meta的LLaMA2論文向業(yè)內(nèi)拆解了SFT以及RLHF等的技術(shù)過(guò)程,并給出了可以直接使用的版本,我們認(rèn)為這將會(huì)統(tǒng)一目前開源領(lǐng)域的研究框架,加速開源模型的迭代速度。除去上述提到的幾家互聯(lián)網(wǎng)巨頭外,海外的初創(chuàng)模型公司中也有如Anthropic、Cohere以及Adept等市場(chǎng)參與者:AnthropicAnthropic是由OpenAI前員工DanielaAmodei和DarioAmodei創(chuàng)辦,他們是GPT2和GPT3的核心研發(fā)人員。在ChatGPT發(fā)布兩個(gè)月后,Anthropic公司就迅速開發(fā)出了競(jìng)品Claude,又在2023年7月初完成了Claude2的升級(jí)。相比初代版本,Claude2性能有所提升,并且能夠?qū)崿F(xiàn)更長(zhǎng)文本的響應(yīng),在編程、數(shù)學(xué)、推理等方面都有大幅提升。根據(jù)其論文公布的相關(guān)參數(shù),Claude2在一些核心數(shù)據(jù)集中的表現(xiàn)可以與GPT-3.5相當(dāng)。依托亞馬遜硬件平臺(tái),尋求快速擴(kuò)大模型規(guī)模。根據(jù)TechCrunch的報(bào)道,Anthropic的目標(biāo)是在未來(lái)兩年內(nèi)籌集多達(dá)50億美元,以訓(xùn)練一個(gè)強(qiáng)大的模型,并進(jìn)入十幾個(gè)主要行業(yè)。作為OpenAI的挑戰(zhàn)者,Anthropic在2022年早些時(shí)候獲得了谷歌4億美元的投資,并于2023年獲得亞馬遜40億美元的初期投資。根據(jù)亞馬遜的披露,通過(guò)與亞馬遜的合作,Anthropic將使用AWSTrainium和Inferentia芯片來(lái)構(gòu)建、訓(xùn)練和部署其未來(lái)的基礎(chǔ)模型。并且,兩家公司還將合作開發(fā)未來(lái)的Trainium和Inferentia技術(shù)。CohereCohere2019年成立于加拿大多倫多,其創(chuàng)立者AidenGomez是2017年大模型的開創(chuàng)論文《Attentionisallyouneed》的署名八位作者之一。這8位作者均已離開谷歌,其中6人選擇創(chuàng)建自己的AI公司,分別是Cohere、Adept、Character.ai、Inceptive以及NEAR.AI。Gomez創(chuàng)立的Cohere主要業(yè)務(wù)是給用戶提供應(yīng)用大語(yǔ)言模型的API,可以幫助用戶創(chuàng)建針對(duì)客戶特有的使用場(chǎng)景和獨(dú)有數(shù)據(jù)的大模型。Cohere可以提供生成語(yǔ)言模型(generativelanguagemodel,如GPT2和GPT3直接生成文字)和表示模型(

reprensentationlanguagemodel,如BERT,生成Embedding向量)。在2023年中端大模型競(jìng)爭(zhēng)愈發(fā)激烈后,Cohere也改變此前不單獨(dú)推出模型的戰(zhàn)略,發(fā)布了其協(xié)同類助手Coral,主要針對(duì)的是辦公場(chǎng)景中不同工作流的協(xié)同任務(wù)。Cohere在2021年9月獲得4000萬(wàn)美元A輪融資;2022年2月獲得1.59億美元B輪融資,投資方包括AI領(lǐng)域資深學(xué)者深度學(xué)習(xí)三巨頭之一GeoffreyHinton、李飛飛、PieterAbbeel,還有知名基金TigerGlobal,IndexVenture等。2023年5月獲得2.5億美元的融資,估值達(dá)到20億美元,投資方包括SalesforceVentures,英偉達(dá),InoviaCapital和IndexVentures等。AdeptAdept成立于2022年,專注于人工智能模型開發(fā)領(lǐng)域,其創(chuàng)始人是之前提到的論文《Attentionisallyouneed》另外兩位作者AshishVaswani和NikiParmar。截至2023年3月,Adept累計(jì)融資4.15億美元,最新的估值至少為10億美元。AdeptAI目前的主要目標(biāo)是基于生成式AI技術(shù)來(lái)做的一款通用操作工具,讓用戶可以通過(guò)使用語(yǔ)音或文字來(lái)下指令,由人工智能理解后來(lái)幫助完成各種操作和任務(wù)。Adept的產(chǎn)品更接近于AIAgent的概念,這也導(dǎo)致他目前的實(shí)際落地進(jìn)度較慢。簡(jiǎn)單來(lái)說(shuō),AdeptAI的目標(biāo)是基于生成式AI來(lái)建立一個(gè)全新的操作系統(tǒng)或者說(shuō)是平臺(tái),徹底改變過(guò)去人們使用應(yīng)用程序或網(wǎng)頁(yè)來(lái)進(jìn)行軟件操作的流程。目前,該產(chǎn)品主要由AdeptAI自研的大模型ActionTransformer(ACT-1)來(lái)實(shí)現(xiàn)。國(guó)產(chǎn)大模型:諸多玩家入場(chǎng),科網(wǎng)巨頭目前投入較為激進(jìn)。國(guó)內(nèi)市場(chǎng)亦與海外市場(chǎng)類似,大量科技互聯(lián)網(wǎng)巨頭、初創(chuàng)公司參與到競(jìng)爭(zhēng)當(dāng)中。從類型來(lái)看,主要分為四類玩家:1)科技互聯(lián)網(wǎng)巨頭,以BATT、華為等為代表,力爭(zhēng)實(shí)現(xiàn)通用模型的建設(shè)。2)初創(chuàng)公司,以Minimax等為代表,獨(dú)立創(chuàng)業(yè)進(jìn)行大模型的研發(fā)。3)科研院校,圍繞科研資源,進(jìn)行大模型的研發(fā)。4)其他科技公司,如云知聲、科大訊飛、昆侖萬(wàn)維等。應(yīng)用潛力:AI+SaaS將成為最有潛力的模式目前的AI應(yīng)用端尚不成熟,我們認(rèn)為AIAgent將會(huì)是AI浪潮的下一個(gè)風(fēng)口機(jī)會(huì)。通過(guò)將語(yǔ)言模型與外部記憶規(guī)劃工具結(jié)合,AIAgent進(jìn)一步簡(jiǎn)化了交互難度并提高穩(wěn)定性。OpenAI的應(yīng)用研究主管LiLianWeng在接受采訪時(shí)表示Agent是大語(yǔ)言模型+記憶+規(guī)劃+外部工具的集合體,其中大語(yǔ)言模型是整個(gè)系統(tǒng)的大腦。通過(guò)一些列的封裝操作以及對(duì)外部數(shù)據(jù)的引用,Agent能夠極大程度減輕幻覺所帶來(lái)的錯(cuò)誤問(wèn)題。業(yè)界認(rèn)為到目前為止,Agent仍然是一個(gè)理想中的概念,實(shí)際產(chǎn)品仍然受到目前較慢的算力傳輸、高昂的成本以及難以互通的外部API的限制,但在未來(lái)3-5年后Agent最終可能成為ToC領(lǐng)域,人機(jī)交互的入口級(jí)平臺(tái)。微軟CopilotAI助手是目前進(jìn)度最快的Agent產(chǎn)品,通過(guò)整合GPT技術(shù),有助提升用戶效率,且有助公司挖掘用戶價(jià)值。Copilot是微軟生成式的AI助手,此前已被應(yīng)用在類似于Github等代碼開發(fā)場(chǎng)景。根據(jù)微軟在其技術(shù)文檔中的表示,Copilot采用了OpenAI推出的GPT-4模型,并且進(jìn)一步優(yōu)化了輸出內(nèi)容的可靠性以及使用數(shù)據(jù)的隱私問(wèn)題,為企業(yè)級(jí)的應(yīng)用做好了準(zhǔn)備。AI功能被直接集成到Word、Excel、PowerPoint、Outlook和Teams等應(yīng)用中,用戶可以提出問(wèn)題并提示AI撰寫草稿、制作演示文稿、編輯電子郵件、制作演示文稿、總結(jié)會(huì)議等。Copilot將以兩種方式與Microsoft365客戶合作:1)嵌入到Word,Excel,PowerPoint,Outlook,Teams等。2)提供聊天功能。商務(wù)聊天功能覆蓋LLM、Microsoft365應(yīng)用和客戶的日歷、電子郵件、聊天、文檔、會(huì)議和聯(lián)系人工作等,通過(guò)自然語(yǔ)言提示(如“告訴我的團(tuán)隊(duì)我們?nèi)绾胃庐a(chǎn)品策略”),商務(wù)聊天將根據(jù)上午的會(huì)議、電子郵件和聊天線程生成狀態(tài)更新。Copilot最早基于Windows11,后支持Office365,面向企業(yè)用戶定價(jià)為每用戶30美元/月。我們認(rèn)為,微軟Copilot是最值得關(guān)注的AI應(yīng)用,如果其訂閱數(shù)據(jù)保持持續(xù)穩(wěn)定增長(zhǎng),意味著SaaS+AI商業(yè)模式被用戶接受,具有顯著的示范效應(yīng)。業(yè)務(wù)邏輯:實(shí)現(xiàn)應(yīng)用、數(shù)據(jù)、模型的業(yè)務(wù)閉環(huán)。在Copilot的業(yè)務(wù)邏輯中,從用戶的輸入到最終模型完成并自我迭代大約有以下流程:1)由用戶給出實(shí)際需求的prompt,微軟根據(jù)已經(jīng)授權(quán)獲取的用戶數(shù)據(jù)圖譜當(dāng)中,提取所需數(shù)據(jù)。2)將數(shù)據(jù)以及識(shí)別后的prompt輸入至語(yǔ)言模型。3)由語(yǔ)言模型處理,并進(jìn)行多模態(tài)的關(guān)聯(lián)落地(grounding),返回至用戶的數(shù)據(jù)圖譜。4)基于用戶的數(shù)據(jù)圖譜,返回至應(yīng)用,完成輸出以及命令的執(zhí)行。關(guān)聯(lián)落地(Grounding)是Copilot在用戶級(jí)別對(duì)于指令的微調(diào),是確保大語(yǔ)言模型生成的內(nèi)容可靠的關(guān)鍵步驟。根據(jù)微軟在其公開的技術(shù)文檔中的表述,Copilot將會(huì)通過(guò)Grounding這一過(guò)程來(lái)提高其接收提示的質(zhì)量,以確保模型最大程度上準(zhǔn)確執(zhí)行用戶的指令。如果用戶要求Word根據(jù)相應(yīng)的數(shù)據(jù)創(chuàng)建文檔,Copilot會(huì)將該提示發(fā)送到MicrosoftGraph以檢索上下文和數(shù)據(jù),然后修改并優(yōu)化用戶的提示(例如加入用戶真實(shí)業(yè)務(wù)場(chǎng)景的數(shù)據(jù)的示例以提高準(zhǔn)確性)并將其發(fā)送到GPT-4大語(yǔ)言模型。響應(yīng)結(jié)果然后被發(fā)送到MicrosoftGraph進(jìn)行額外的Grounding、安全性和合規(guī)性檢查,最后將響應(yīng)和命令發(fā)送回Microsoft365應(yīng)用程序。通過(guò)Grounding這一過(guò)程,Copilot本質(zhì)上將人類語(yǔ)言的表述根據(jù)實(shí)際的數(shù)據(jù)情況更換成更符合大語(yǔ)言模型理解的Prompting(提示),然后以此完成多模態(tài)之間的轉(zhuǎn)換并提升指令的準(zhǔn)確性。具體形式:Microsoft365Copilot無(wú)縫集成到不同應(yīng)用中。根據(jù)微軟的演示,未來(lái)Copilot能夠無(wú)縫植入到Microsoft365當(dāng)中,并在多個(gè)場(chǎng)景發(fā)揮作用,具體包括:Word中的Copilot在人們工作時(shí)能夠進(jìn)行編寫、編輯、總結(jié)和創(chuàng)建。例如“創(chuàng)建一個(gè)關(guān)于銷售數(shù)據(jù)的報(bào)告”,Copilot就會(huì)根據(jù)提示,并基于可使用的數(shù)據(jù)文件,生成一個(gè)文檔的初稿。然后,可以根據(jù)需要編輯生成的文本,選擇接受或拒絕AI的修改。用戶可以通過(guò)點(diǎn)擊工具欄中的“Copilot”圖標(biāo)來(lái)激活Copilot在Word中的功能。在微軟的演示中,展示了:1)根據(jù)文檔的數(shù)據(jù),起草初稿。2)調(diào)整文檔段落語(yǔ)氣。3)根據(jù)大綱輸出文檔。PowerPoint中的Copilot通過(guò)自然語(yǔ)言命令將想法轉(zhuǎn)化為設(shè)計(jì)的演示文稿。Copilot會(huì)利用MicrosoftGraph和大型語(yǔ)言模型的信息和能力,生成包含相關(guān)內(nèi)容、圖片和動(dòng)畫的演示文稿。Copilot還可以幫助優(yōu)化和調(diào)整演示文稿,讓它更符合用戶的偏好和風(fēng)格。目前能夠支持創(chuàng)建、新增素材、文字文檔與備注的切換、格式與布局的優(yōu)化、數(shù)據(jù)可視化等能力。Excel中的Copilot有助于在很短的時(shí)間內(nèi)給出結(jié)論、識(shí)別趨勢(shì)或創(chuàng)建具有專業(yè)外觀的數(shù)據(jù)可視化效果。在微軟的演示中,包括:1)按類型和渠道分解銷售數(shù)據(jù),并插入表格。2)預(yù)測(cè)變量變化,生成可視化圖表。3)模擬數(shù)據(jù)變化對(duì)計(jì)算結(jié)果的影響。Outlook中的Copilot可以幫助合成和管理收件箱,以便將更多時(shí)間花在實(shí)際通信上。包括回顧過(guò)去郵件的內(nèi)容并標(biāo)記要點(diǎn)、根據(jù)收到的郵件起草回復(fù)、撰寫新郵件草稿等能力,降低閱讀和撰寫郵件的實(shí)際時(shí)間成本。Teams中的Copilot通過(guò)直接在對(duì)話上下文中的實(shí)時(shí)摘要和操作項(xiàng)使會(huì)議更高效。Copilot能夠組織關(guān)鍵討論點(diǎn),并總結(jié)關(guān)鍵行動(dòng)。根據(jù)聊天記錄創(chuàng)建會(huì)議議程、確定正確的人員進(jìn)行后續(xù)跟進(jìn),并安排下一次檢查。PowerPlatform中的Copilot將在PowerApps和PowerVirtualAgent中引入兩項(xiàng)新功能,幫助所有技能水平的開發(fā)人員使用低代碼工具加速和簡(jiǎn)化開發(fā)。GitHub數(shù)據(jù)顯示,使用GitHubCopilot的開發(fā)人員中,有88%的人表示使用該工具后他們更加高效,77%的人表示該工具幫助他們減少了搜索信息的時(shí)間,74%的人表示他們可以將自己的精力集中在更令人滿意的工作上。商務(wù)聊天匯集了來(lái)自文檔、演示文稿、電子郵件、日歷、便箋和聯(lián)系人的數(shù)據(jù),以幫助匯總聊天、編寫電子郵件、查找關(guān)鍵日期,甚至根據(jù)其他項(xiàng)目文件編寫計(jì)劃。讓整個(gè)團(tuán)隊(duì)保持在同一頁(yè)面,并共同推動(dòng)工作?;ǜ俚臅r(shí)間關(guān)注工具,更多的時(shí)間關(guān)注最重要的工作。除了微軟Copilot外,Adobe和Salesforce也推出基于AI的服務(wù)。以Adobe為例,F(xiàn)irefly通過(guò)獨(dú)立網(wǎng)址被訪問(wèn)期間,在2023年的3月21日到6月8日的2個(gè)多月時(shí)間里幫助用戶生成超過(guò)2億張圖片,被整合進(jìn)入Photoshop應(yīng)用后,在5月23日到6月8日的2周多時(shí)間內(nèi)幫助用戶生成超過(guò)1.5億張圖片。軟件SaaS應(yīng)用的流量基礎(chǔ)優(yōu)勢(shì)顯現(xiàn),疊加AI應(yīng)用提升用戶體驗(yàn),可以進(jìn)一步顯著提升用戶粘性。如果微軟Copilot能夠證明“加量可加價(jià)”邏輯的成立,意味著軟件SaaS公司的市場(chǎng)空間TAM將被進(jìn)一步打開。未來(lái)一旦進(jìn)入美元降息周期,疊加SaaS行業(yè)TAM擴(kuò)大,美股SaaS板塊或?qū)⒂瓉?lái)一波重估機(jī)遇。中國(guó)軟件公司亦有望有對(duì)標(biāo)機(jī)會(huì)。長(zhǎng)期機(jī)會(huì):市場(chǎng)對(duì)AI長(zhǎng)期潛力的認(rèn)知存在預(yù)期差市場(chǎng)目前對(duì)AI的短期落地能力存在一定高估,但對(duì)AI長(zhǎng)期潛力的認(rèn)知仍存在一定的不足。PC和移動(dòng)互聯(lián)網(wǎng)等科技大潮的經(jīng)驗(yàn)表明,人們傾向于高估新技術(shù)帶來(lái)的短期變化,低估技術(shù)浪潮的長(zhǎng)期潛力。在PC、互聯(lián)網(wǎng)、智能手機(jī)等技術(shù)興起時(shí),我們?cè)?000年、2012年都遇到了市場(chǎng)泡沫的挑戰(zhàn),市場(chǎng)總會(huì)在短期內(nèi)高估新技術(shù)帶來(lái)的影響力。但在長(zhǎng)期新技術(shù)又會(huì)證明它們的長(zhǎng)期潛力,根據(jù)IDC數(shù)據(jù),PC的峰值年銷量約3.5億臺(tái),互聯(lián)網(wǎng)產(chǎn)業(yè)巔峰市值約千億美元量級(jí);智能手機(jī)的峰值銷量約14億部,移動(dòng)互聯(lián)網(wǎng)產(chǎn)業(yè)市值以萬(wàn)億美元計(jì)。我們認(rèn)為人工智能AI也即將加入上述技術(shù)的行列。長(zhǎng)期來(lái)看,人工智能AI將帶來(lái)傳統(tǒng)千行百業(yè)數(shù)字化和智能化,有望打開萬(wàn)億美元潛在市場(chǎng)空間和更大規(guī)模的市值空間,甚至孕育下一代科技硬件。ChatGPT的出現(xiàn)所帶來(lái)的內(nèi)容生成能力將會(huì)為當(dāng)今從用戶創(chuàng)作(UGC)到AI創(chuàng)作(AIGC)的轉(zhuǎn)型提供關(guān)鍵的輔助支持。目前我們正經(jīng)歷從Web2.0開始向Web3.0轉(zhuǎn)型的啟航階段,在過(guò)去五年我們已經(jīng)看到內(nèi)容創(chuàng)造從專業(yè)創(chuàng)作(PFC)轉(zhuǎn)型為了用戶創(chuàng)作(UGC)。而在不遠(yuǎn)的將來(lái),AI協(xié)助內(nèi)容生成(AIUGC)與AI創(chuàng)作(AIGC)將為我們提供更低的創(chuàng)作門檻以及更豐富的創(chuàng)作思路。在這兩個(gè)階段中,內(nèi)容生產(chǎn)主體從人類本身開始向人工智能遷移,主要區(qū)別體現(xiàn)在內(nèi)容的生產(chǎn)效率、知識(shí)圖譜的多樣性以及提供更加動(dòng)態(tài)且可交互的內(nèi)容上。人腦只能基于自己的知識(shí)圖譜進(jìn)行少數(shù)方向的信息處理,而AI能從更龐大的知識(shí)體系中進(jìn)行多個(gè)方向的處理,進(jìn)而提供更多的創(chuàng)作思路。Gartner預(yù)計(jì),到2025年,生成式人工智能將占所有生成數(shù)據(jù)的10%。此外我們會(huì)看到,空間計(jì)算、智能汽車、機(jī)器人等行業(yè),亦有望隨著AI的發(fā)展迎來(lái)下一輪的重構(gòu)。算力的快速發(fā)展是我們?cè)谧罱迥陜?nèi)看到的確定性最強(qiáng)的趨勢(shì)。根據(jù)英偉達(dá)官網(wǎng)公布的數(shù)據(jù),從2016至2022年,訓(xùn)練相同ResNet模型的速度快了15倍。2022年英偉達(dá)新推出的H100芯片搭載Transformer引擎,使用每層統(tǒng)計(jì)分析來(lái)確定模型每一層的最佳精度(FP16或FP8),在保持模型精度的同時(shí)實(shí)現(xiàn)最佳性能,相較于上一代產(chǎn)品提供9倍的訓(xùn)練吞吐量,性能提升6倍,但發(fā)展迭代速度仍慢于當(dāng)前需求增長(zhǎng)。OpenAI預(yù)計(jì)人工智能科學(xué)研究要想取得突破,所需消耗的計(jì)算資源每3-4個(gè)月就要翻一倍,資金也需要通過(guò)指數(shù)級(jí)增長(zhǎng)獲得匹配。此外如蘋果VisionPro首次提出“空間計(jì)算”等概念,我們也意識(shí)到未來(lái)AI+硬件的結(jié)合可望帶來(lái)更多科技進(jìn)步可能。蘋果VisionPro的空間計(jì)算,本質(zhì)上是基于現(xiàn)實(shí)空間進(jìn)行計(jì)算,并通過(guò)AI技術(shù)加以輔助。用戶通過(guò)VisionPro看到的所有虛擬畫面,都可以理解為,是在真實(shí)世界上疊加了實(shí)時(shí)計(jì)算的可能。交互方式將會(huì)從移動(dòng)互聯(lián)時(shí)代的2D轉(zhuǎn)換為3D,更符合人類現(xiàn)實(shí)生活場(chǎng)景的交互,僅用眼睛、雙手、聲音進(jìn)行控制。通過(guò)AI技術(shù)的幫助疊加已有的AR硬件,我們看到了技術(shù)間組合進(jìn)步的更多可能性。但在這些巨大的長(zhǎng)期潛力背后,AI在短期內(nèi)需要更多時(shí)間來(lái)改變行業(yè)。AI的產(chǎn)業(yè)鏈結(jié)構(gòu)由底層的算力與云平臺(tái)到中層的模型、數(shù)據(jù)及基礎(chǔ)軟件服務(wù)再到上層的應(yīng)用服務(wù)構(gòu)成。當(dāng)前,我們看到在算力平臺(tái)與模型方面都取得了巨大的進(jìn)步,然而數(shù)據(jù)端的困境拖慢了AI在短期內(nèi)落地商業(yè)化的進(jìn)度。我們認(rèn)為以傳統(tǒng)行業(yè)為代表的數(shù)據(jù)治理仍需要進(jìn)一步提升,來(lái)為AI補(bǔ)充更好的“彈藥”。在預(yù)訓(xùn)練過(guò)程中,廠商需要把數(shù)據(jù)進(jìn)行系統(tǒng)性的清洗、整理,并將句子進(jìn)行切割,備注標(biāo)簽。在進(jìn)行實(shí)例封裝的過(guò)程中,需要將現(xiàn)有的數(shù)據(jù)進(jìn)行詳細(xì)的標(biāo)注,并統(tǒng)一格式,為后續(xù)任務(wù)輸出提供基礎(chǔ),將計(jì)算機(jī)語(yǔ)言與人類實(shí)際需求對(duì)齊。而數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)規(guī)?;群诵沫h(huán)節(jié)既需要時(shí)間,更需要傳統(tǒng)產(chǎn)業(yè)決策者的認(rèn)知提升。算法方面,幻覺(Hallucination)仍是制約前進(jìn)的關(guān)鍵因素。大語(yǔ)言模型幻覺指的是大語(yǔ)言模型在回答的時(shí)候仍會(huì)產(chǎn)生大量的虛假內(nèi)容甚至虛構(gòu)事實(shí)進(jìn)行回答。這一現(xiàn)象的主要原因之一在于用于訓(xùn)練LLM的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)大部分是基于互聯(lián)網(wǎng)上的各種新聞、文章、書籍、網(wǎng)站等覆蓋的文本資料。大語(yǔ)言模型的訓(xùn)練過(guò)程大多數(shù)是基于預(yù)測(cè)單詞的方式進(jìn)行預(yù)訓(xùn)練,因此它只能保證文本生成的流暢性,而無(wú)法辨別所遇到的信息是否真實(shí)或準(zhǔn)確。因此如果訓(xùn)練數(shù)據(jù)中包含一些矛盾或者錯(cuò)誤的表述,就可能導(dǎo)致大語(yǔ)言模型也在學(xué)習(xí)這些錯(cuò)誤的表達(dá),從而一定程度導(dǎo)致了幻覺的產(chǎn)生。為了減輕幻覺的問(wèn)題,這要求開發(fā)者針對(duì)不同的垂直場(chǎng)景的數(shù)據(jù)進(jìn)一步微調(diào)模型。我們堅(jiān)信,AI在中長(zhǎng)期將徹底再造千行百業(yè),帶來(lái)長(zhǎng)期投資機(jī)遇,但市場(chǎng)預(yù)期提升過(guò)快,AI產(chǎn)業(yè)化的大規(guī)模落地仍需時(shí)間。投資分析:算力先行,靜待AI應(yīng)用大規(guī)模落地在上文中,我們對(duì)AI的技術(shù)演進(jìn)、短期應(yīng)用場(chǎng)景、遠(yuǎn)期機(jī)會(huì)等進(jìn)行了系統(tǒng)性的分析,而落地到投資維度,考慮到各環(huán)節(jié)不同的成熟度以及商業(yè)化時(shí)間,其投資節(jié)奏亦存在一定的時(shí)間差,在本部分,我們將詳細(xì)分析AI產(chǎn)業(yè)鏈(算力、模型、數(shù)據(jù)、應(yīng)用)上不同環(huán)節(jié)的落地成熟度,以及對(duì)應(yīng)的投資機(jī)會(huì)。1)算力:中短期仍是率先受益、確定性最高的方向。算力層面,目前市場(chǎng)關(guān)注GPU及其配套,但在廣義的算力維度,除高性能計(jì)算芯片之外,亦包括云計(jì)算、IDC以及相關(guān)配套,具體而言:云平臺(tái):作為計(jì)算層面最為理想的承載者,有望持續(xù)受益全球AI產(chǎn)業(yè)的發(fā)展。目前,全球云計(jì)算巨頭均發(fā)布與LLM以及生成式AI相關(guān)的產(chǎn)品。以海外為例,云廠商在布局思路、商業(yè)化路徑等方面存在一定分叉,微軟、谷歌依靠閉源模型,全力打造閉環(huán)的AI生態(tài),而AWS則以相對(duì)開放的心態(tài),嘗試從不同角度進(jìn)行AI與云計(jì)算的融合。我們判斷,三大云廠商在云基礎(chǔ)設(shè)施、模型應(yīng)用以及商業(yè)細(xì)分場(chǎng)景有望持續(xù)受益,并有望為產(chǎn)業(yè)鏈帶來(lái)可觀的業(yè)績(jī)?cè)隽?。?duì)應(yīng)國(guó)內(nèi)市場(chǎng),互聯(lián)網(wǎng)云、運(yùn)營(yíng)商云等均具備潛在的投資機(jī)會(huì)。產(chǎn)業(yè)鏈:IDC及液冷等領(lǐng)域有望持續(xù)受益。根據(jù)Trendforce的統(tǒng)計(jì),2022年Top4的云與互聯(lián)網(wǎng)公司貢獻(xiàn)了全球大約65%的AI服務(wù)器采購(gòu)量。AI的演進(jìn)將帶來(lái)數(shù)據(jù)中心相關(guān)產(chǎn)業(yè)的持續(xù)推進(jìn)。在全球市場(chǎng)上,Equinix、DLR等第三方數(shù)據(jù)中心已成為主力供應(yīng)商。中國(guó)市場(chǎng)上,運(yùn)營(yíng)商仍占據(jù)主導(dǎo)位置,第三方數(shù)據(jù)中心快速崛起,數(shù)據(jù)中心廠商雖短期仍有需求壓力,但隨著產(chǎn)業(yè)出清、AI帶來(lái)數(shù)據(jù)需求,有望再次受益。而在液冷等環(huán)節(jié),隨著AI服務(wù)器和智能聯(lián)動(dòng)系統(tǒng)的普及,柜級(jí)全液冷搭配浸沒(méi)式液冷,以及動(dòng)環(huán)監(jiān)控系統(tǒng)和AI調(diào)節(jié)的“零碳”數(shù)據(jù)中心的合并應(yīng)用,能夠進(jìn)一步將數(shù)據(jù)中心的PUE降低。GPU:中短期確定性依舊較高。目前英偉達(dá)數(shù)據(jù)中心加速卡銷量仍主要以高端的A100/H100系列卡為主,網(wǎng)絡(luò)業(yè)務(wù)主要和其配套銷售。需求層面,短期科技巨頭的軍備競(jìng)賽、創(chuàng)業(yè)公司的積極涌入等,疊加主要參與者在模型構(gòu)建環(huán)節(jié)的極大熱情等,均有望構(gòu)成持續(xù)的需求支撐;供給層面,目前A100/H100仍主要受制于HBM(高帶寬內(nèi)存)、先進(jìn)封裝(CoWoS)等,其中臺(tái)積電CoWoS環(huán)節(jié)產(chǎn)能為主要約束,考慮到封測(cè)設(shè)備的交貨周期等因素,我們預(yù)計(jì)臺(tái)積電CoWoS產(chǎn)能實(shí)現(xiàn)實(shí)質(zhì)性改善最早要到2024Q2左右。同時(shí)參考?xì)v史經(jīng)驗(yàn),短期偏緊的供給、供需的嚴(yán)重錯(cuò)配等,預(yù)計(jì)將導(dǎo)致下游客戶出現(xiàn)doublebooking、overbooking等現(xiàn)象。因此,短期維度(至少2024Q2之前),無(wú)論是從訂單流入、交付量、價(jià)格等維度,英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)均有望維持強(qiáng)勁,且持續(xù)保持季度環(huán)比向上,該種情形亦是周期股理想投資周期。2)算法:互聯(lián)網(wǎng)巨頭有望受益,同時(shí)關(guān)注初創(chuàng)公司進(jìn)展?;ヂ?lián)網(wǎng)巨頭在AI領(lǐng)域投入已久,百度2014年即成立人工智能實(shí)驗(yàn)室,阿里巴巴、騰訊、字節(jié)跳動(dòng)也于2016年成立人工智能實(shí)驗(yàn)室,此后各家在芯片層、模型層及應(yīng)用層持續(xù)探索,不斷完善布局,在研發(fā)、模型、數(shù)據(jù)、應(yīng)用等方面已積累顯著的先發(fā)優(yōu)勢(shì)。而對(duì)初創(chuàng)公司而言,與頭部廠商的合作與綁定大概率將成為高確定性趨勢(shì)。算法模型:追隨海外技術(shù)進(jìn)展,研發(fā)突破是競(jìng)爭(zhēng)關(guān)鍵。從技術(shù)路線來(lái)看,國(guó)內(nèi)大模型主要追隨海外進(jìn)展。基于谷歌在人工智能領(lǐng)域更高的影響力以及BERT開源代碼,前期我國(guó)企業(yè)在大模型領(lǐng)域的探索更多參考BERT路線。隨著ChatGPT在人機(jī)對(duì)話領(lǐng)域的超預(yù)期表現(xiàn)驗(yàn)證了高質(zhì)量數(shù)據(jù)+反饋激勵(lì)(大模型預(yù)訓(xùn)練+小數(shù)據(jù)微調(diào))的有效性,國(guó)內(nèi)大模型技術(shù)路線也逐漸向GPT方向收斂。我們認(rèn)為,盡管模型架構(gòu)設(shè)計(jì)的不同對(duì)特定任務(wù)上的表現(xiàn)有一定影響,但國(guó)內(nèi)大模型廠商在技術(shù)上基本同源,從而導(dǎo)致了現(xiàn)階段較為相似的模型能力,而下一階段對(duì)于GPT方向的研發(fā)突破將是競(jìng)爭(zhēng)關(guān)鍵。算力:互聯(lián)網(wǎng)廠商在算力資源上具備優(yōu)勢(shì)。隨著模型參數(shù)和復(fù)雜度的提升,大模型對(duì)算力的需求也在加速增長(zhǎng)。當(dāng)前國(guó)內(nèi)已發(fā)布的大模型中,參數(shù)規(guī)模達(dá)到千億及以上的廠商僅為10個(gè)左右,一定程度上體現(xiàn)出各廠商之間算力能力的差異。我們認(rèn)為,互聯(lián)網(wǎng)廠商在算力資源上具備相對(duì)優(yōu)勢(shì),主要原因系:1)互聯(lián)網(wǎng)企業(yè)業(yè)務(wù)布局多元,用戶基數(shù)龐大,海量數(shù)據(jù)高頻更新,使得互聯(lián)網(wǎng)企業(yè)自身對(duì)算力有大量需求,阿里巴巴、字節(jié)跳動(dòng)、百度、騰訊等頭部互聯(lián)網(wǎng)企業(yè)是全球芯片及服務(wù)器領(lǐng)域的重要客戶。2)阿里云、百度云、騰訊云等為國(guó)內(nèi)頭部云廠商,在云計(jì)算中心、AI算力平臺(tái)、超算中心等新型高性能計(jì)算基礎(chǔ)設(shè)施上布局領(lǐng)先,如阿里云推出PAI靈駿智算服務(wù),提供覆蓋AI開發(fā)全流程的平臺(tái)和分布式異構(gòu)計(jì)算優(yōu)化能力;騰訊云發(fā)布新一代HCC(High-PerformanceComputingCluster)高性能計(jì)算集群,算力性能較前代提升高達(dá)3倍。數(shù)據(jù):優(yōu)質(zhì)開源中文數(shù)據(jù)集稀缺,自有數(shù)據(jù)及處理能力構(gòu)成模型訓(xùn)練壁壘。得益于開源共創(chuàng)的互聯(lián)網(wǎng)生態(tài),海外已有大量?jī)?yōu)質(zhì)、結(jié)構(gòu)化的開源數(shù)據(jù)庫(kù),文本來(lái)源既包含嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)寫作、百科知識(shí),也包含文學(xué)作品、新聞媒體、社交網(wǎng)站、流行內(nèi)容等,更加豐富的語(yǔ)料數(shù)據(jù)能夠提高模型在不同情景下的對(duì)話能力。而受制于搭建數(shù)據(jù)集較高的成本以及尚未成熟的開源生態(tài),國(guó)內(nèi)開源數(shù)據(jù)集在數(shù)據(jù)規(guī)模和語(yǔ)料質(zhì)量上相比海外仍有較大差距,數(shù)據(jù)來(lái)源較為單一,且更新頻率較低,從而導(dǎo)致模型的訓(xùn)練效果受限。因此,大模型廠商的自有數(shù)據(jù)和處理能力構(gòu)成模型訓(xùn)練效果差異化的核心。受益于移動(dòng)互聯(lián)網(wǎng)時(shí)代積累的海量用戶、應(yīng)用和數(shù)據(jù),互聯(lián)網(wǎng)企業(yè)在自有數(shù)據(jù)上更具特色化和獨(dú)占性,疊加更強(qiáng)大的數(shù)據(jù)處理能力,從而能夠通過(guò)數(shù)據(jù)優(yōu)勢(shì)帶來(lái)模型訓(xùn)練成果的差異。例如,阿里巴巴在研發(fā)M6時(shí),構(gòu)建了最大的中文多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集M6-Corpus,包含超過(guò)1.9TB圖像和292GB文本,涵蓋百科全書、網(wǎng)頁(yè)、問(wèn)答、論壇、產(chǎn)品說(shuō)明等數(shù)據(jù)來(lái)源,并設(shè)計(jì)了完善的清潔程序以確保數(shù)據(jù)質(zhì)量。百度ERNIE模型的訓(xùn)練數(shù)據(jù)集中也運(yùn)用了大量百度百科、百度搜索以及百度知識(shí)圖譜等生態(tài)內(nèi)數(shù)據(jù),通過(guò)更高質(zhì)量的數(shù)據(jù)保障了模型的訓(xùn)練效果。資源投入:互聯(lián)網(wǎng)廠商重視研發(fā)投入,資金及人才實(shí)力領(lǐng)先。大模型的訓(xùn)練需要較高且可持續(xù)的研發(fā)投入,頭部互聯(lián)網(wǎng)企業(yè)兼具高資本密度和高人才密度優(yōu)勢(shì)。資金方面,2022年,騰訊/阿里巴巴/百度研發(fā)費(fèi)用達(dá)614/567/233億元,明顯領(lǐng)先于行業(yè)相關(guān)公司。人才方面,根據(jù)脈脈人才庫(kù),在計(jì)算機(jī)視覺、深度學(xué)習(xí)、語(yǔ)音識(shí)別、自然語(yǔ)言處理4個(gè)人工智能重要的技術(shù)方向上,互聯(lián)網(wǎng)大廠是人才儲(chǔ)備最豐富的企業(yè)。持續(xù)的高研發(fā)投入以及極高的人才密度有望驅(qū)動(dòng)頭部互聯(lián)網(wǎng)企業(yè)保持在AI及大模型領(lǐng)域的領(lǐng)先優(yōu)勢(shì)。場(chǎng)景:業(yè)務(wù)豐富多元,互聯(lián)網(wǎng)廠商天然具備落地實(shí)踐場(chǎng)景??紤]到數(shù)據(jù)隱私和安全合規(guī),初期通用大模型在行業(yè)落地時(shí)可能會(huì)面臨一定的信任問(wèn)題,從而導(dǎo)致較高的獲客成本。而頭部互聯(lián)網(wǎng)平臺(tái)基于自身在電商、搜索、游戲、金融等領(lǐng)域豐富的業(yè)務(wù)積累,天然具備落地實(shí)踐場(chǎng)景。在提高產(chǎn)品效率的同時(shí),也有望率先形成示范效應(yīng),從而有助于外部客戶和應(yīng)用的拓展。格局推演:互聯(lián)網(wǎng)巨頭有望保持領(lǐng)先地位,中小廠商或?qū)⒚媾R路徑選擇。綜合上述分析,結(jié)合行業(yè)競(jìng)爭(zhēng)要素,并參考海外當(dāng)前競(jìng)爭(zhēng)格局,我們認(rèn)為,國(guó)內(nèi)大模型賽道有望形成與海外相似的產(chǎn)業(yè)趨勢(shì),兼具技術(shù)、資金、人才和場(chǎng)景優(yōu)勢(shì)的頭部互聯(lián)網(wǎng)企業(yè)有望成為大模型領(lǐng)域的重要玩家,而中小廠商或?qū)⒚媾R路徑選擇。一方面,中小廠商可以利用自身在垂類場(chǎng)景和數(shù)據(jù)層面積累的優(yōu)勢(shì),成為聚焦垂類的核心特色玩家;另一方面,基于訓(xùn)練和用戶調(diào)用帶來(lái)的算力需求的激增,考慮到資源優(yōu)勢(shì)和經(jīng)濟(jì)性,中小廠商或?qū)で笤茝S商的支持和合作。3)數(shù)據(jù):AI的血液與糧食。按照當(dāng)前LLM的技術(shù)范式,數(shù)據(jù)集主要應(yīng)用于預(yù)訓(xùn)練、模型調(diào)優(yōu)階段。預(yù)訓(xùn)練階段需要大規(guī)模、多類別、高質(zhì)量的訓(xùn)練數(shù)據(jù),在模型調(diào)優(yōu)階段,垂類小數(shù)據(jù)集、提示詞工程同樣重要。近年來(lái)全球數(shù)據(jù)量呈現(xiàn)爆發(fā)式增長(zhǎng),IDC統(tǒng)計(jì),2019年全球產(chǎn)生的數(shù)據(jù)量為41ZB,過(guò)去十年的CAGR接近50%,且預(yù)計(jì)到2025年全球數(shù)據(jù)量或高達(dá)175ZB,對(duì)應(yīng)2019-2025年仍將維持近30%的復(fù)合增速,其中超過(guò)80%的數(shù)據(jù)都將是處理難度較大的文本、圖像、音視頻等非結(jié)構(gòu)化數(shù)據(jù)。從Bert開始到GPT-3再到谷歌的PALM,網(wǎng)絡(luò)中的公開語(yǔ)言數(shù)據(jù)源已經(jīng)在被盡可能地利用(論壇、新聞、維基百科等),但模型優(yōu)化仍需更多數(shù)據(jù),這要求模型開發(fā)商有能力接觸到優(yōu)質(zhì)私有數(shù)據(jù)來(lái)源,從而才能在模型的數(shù)據(jù)底層取得差異性的優(yōu)勢(shì)。數(shù)據(jù)篩選:為AI提供高質(zhì)量數(shù)據(jù)。ChatGPT以GPT3.5(生成式預(yù)訓(xùn)練)模型進(jìn)行調(diào)優(yōu),注重?cái)?shù)據(jù)質(zhì)量,以及人類反饋強(qiáng)化學(xué)習(xí),讓模型在早期開放給大眾測(cè)試并收集人類反饋數(shù)據(jù),從而顯著增強(qiáng)了模型在海量歷史數(shù)據(jù)中挖掘知識(shí)的能力,并最終在人機(jī)對(duì)話領(lǐng)域獲得理想效果。由于不同的行業(yè)、不同的業(yè)務(wù)場(chǎng)景對(duì)數(shù)據(jù)標(biāo)注的需求存在一定的差異性,高質(zhì)量的數(shù)據(jù)集成為提高數(shù)據(jù)標(biāo)注質(zhì)量的關(guān)鍵。公開數(shù)據(jù)集可以幫助數(shù)據(jù)標(biāo)注團(tuán)隊(duì)減少?gòu)牧汩_始創(chuàng)建和標(biāo)注大量數(shù)據(jù)所需的時(shí)間和成本,且通常由專業(yè)團(tuán)隊(duì)或機(jī)構(gòu)創(chuàng)建,其數(shù)據(jù)質(zhì)量往往較高。這有助于提高數(shù)據(jù)標(biāo)注項(xiàng)目的準(zhǔn)確性和可靠性,從而提高整體項(xiàng)目的質(zhì)量。根據(jù)IDC發(fā)布的《2021年中國(guó)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)研究報(bào)告》,預(yù)計(jì)中國(guó)AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)近5年復(fù)合年增長(zhǎng)率將達(dá)到47%,預(yù)期2025年將突破120億元。數(shù)據(jù)管理:AI產(chǎn)業(yè)趨勢(shì)的核心受益者之一。數(shù)據(jù)庫(kù)管理系統(tǒng)是大數(shù)據(jù)時(shí)代的底層軟件和核心支撐。AI時(shí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論