版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
證券分析師執(zhí)業(yè)證書:S0600518120001yjs_chenl@證券分析師張良衛(wèi)執(zhí)業(yè)證書:S0600516070001zhanglw@研究助理郭若娜執(zhí)業(yè)證書:S0600122080017guorn@研究助理張文佳執(zhí)業(yè)證書:S0600122080015dwzqcomcn主要內(nèi)容2?ChatGPT是2022年11月30日OpenAI推出的一款對話式AI模型,是其GPT系列新作,功能更全面&更類人,潛在應(yīng)用空間更為廣泛。Transformer和產(chǎn)出更類人的RLHF算法。?應(yīng)用上,GPT的升級推動AIGC的發(fā)展,AIGC滲透率有望在2025年提升至10%,市場規(guī)?;?qū)⒂?030年逾萬億。?ChatGPT橫空出世,利好相關(guān)基礎(chǔ)設(shè)施和應(yīng)用:–算法、數(shù)據(jù)、算力是AI大模型訓(xùn)練的基礎(chǔ),建議關(guān)注基礎(chǔ)設(shè)施相關(guān)標(biāo)的:科大訊飛、海天瑞聲、拓爾思等;–ChatGPT上線推動文本類AI滲透于文本生產(chǎn)、智能批閱等應(yīng)用領(lǐng)域,同時其對訓(xùn)練模型的改進對AIGC的全面發(fā)展有廣泛意義,建議關(guān)注在相關(guān)領(lǐng)域布局的:微軟、Meta、百度、閱文集團、中文在線、粉筆等。?風(fēng)險提示:ChatGPT技術(shù)發(fā)展不完善、應(yīng)用不及預(yù)期;AI基礎(chǔ)設(shè)施不及預(yù)期;AI倫理風(fēng)險等1ChatGPT:突破式的GPT新作2GPT的升級意味AI技術(shù)進步顯著,打開萬億規(guī)模AIGC的入口3ChatGPT橫空出世,利好相關(guān)基礎(chǔ)設(shè)施(算力與存儲、數(shù)據(jù)、算法)及應(yīng)用(AIGC)4風(fēng)險提示1ChatGPT:突破式的GPT新作1.1.1ChatGPT:突破性的對話式AI模型?ChatGPT是一款對話式AI模型,根據(jù)用戶輸入的文本,自動生成回復(fù)內(nèi)容。2022年11月30日,OpenAI發(fā)布了對話式AI新模型ChatGPT。該模型使用簡單,只需向ChatGPT文字提出需求,即可讓其完成回答問題、書寫代碼、創(chuàng)作文本等指令。?ChatGPT的功能包括:交互,以及基于交互的文本/代碼創(chuàng)造、信息檢索等。實際應(yīng)用上,ChatGPT等文本AI可能幫助文本創(chuàng)造類行業(yè)完成智能內(nèi)容生成,并一定程度上替代搜索引擎。圖:ChatGPT使用示意5資資料來源:OpenAI,東吳證券研究所1.1.2ChatGPT:GPT系列新作,功能更全面,表現(xiàn)更類人?ChatGPT是GPT-3和GPT-4之間的過渡版本。GPT即生成型預(yù)訓(xùn)練變換模型(GenerativePre-trainedTransformer),是解決NLP(自然語言處理)任務(wù)的訓(xùn)練模型之一。該預(yù)訓(xùn)練模型基于Transformer架構(gòu)(具有自注意力機制,可以捕捉句子中的上下文關(guān)系),可以根據(jù)給定文本預(yù)測下一個單詞的概率分布,從而生成人類可以理解的自然語言。ChatGPT從GPT-3.5模型微調(diào)而來,Chat強調(diào)了其為了對話而優(yōu)化,具有記憶能力,可以完成連續(xù)性對話。?從GPT-1到ChatGPT,使用更先進的訓(xùn)練模型、更海量的訓(xùn)練數(shù)據(jù),功能越來越全面,表現(xiàn)越來越類人。表:GPT系列產(chǎn)品升級情況6資資料來源:WalmartGlobalTechBlog,OpenAI,澎湃,東吳證券研究所Elicit:人工智能研究助理Elicit從大量研究論文中找到與研究問題最相關(guān)的摘要,然后應(yīng)用Elicit:人工智能研究助理Elicit從大量研究論文中找到與研究問題最相關(guān)的摘要,然后應(yīng)用GPT-3總結(jié)論文對這個問題的主張。GPT-3使得結(jié)果更容易理解(改進了24%)、更準(zhǔn)確 (改進了17%)、總體上更好(改進了33%)。Algolia:搜索引擎Algolia將GPT-3與其先進的搜索技術(shù)集成,幫助出版商和客戶以自然語言查詢問題的答案。在對210萬篇新聞文章進行GPT-3測試后,Algolia精確回答問題的精度為91%或更高。7?ChatGPT得到的關(guān)注空前。2022年12月5日,上線僅5天的ChatGPT用戶數(shù)量突破100萬,而GPT-3耗時將近24個月才達到該用戶規(guī)模。?ChatGPT應(yīng)用空間廣泛,潛在市場規(guī)??捎^。以過往版本GPT-3為例,截止2021年3月,上線9個月的GPT-3已經(jīng)有了300+應(yīng)用客戶,領(lǐng)域涵蓋智能客服、教育與科研、游戲、搜索引擎等。出于更出色的表現(xiàn)和更高的關(guān)注度,ChatGPT及其背后的GPT-3.5的應(yīng)用空間有望較GPT-3更為廣闊。圖:GPT-3應(yīng)用示例ViableViable:幫助公司分析客戶反饋借助GPT-3,Viable將大量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為可讀的自然語言報告,包括客戶的投訴、贊美、請求和問題等。GPT-3將Viable總結(jié)客戶反饋的準(zhǔn)確性從66%提高到90%,為公司產(chǎn)品決策提供信息。FableFableStudio:VR游戲工作室在VR游戲《墻中狼》中,F(xiàn)ableStudio借助GPT-3,塑造了陪伴式虛擬角色Lucy,可以實現(xiàn)與人們自然的對話,加深玩家與游戲角色的情感牽絆。資料來源:OpenAI,雷峰網(wǎng),東吳證券研究所1.2.1ChatGPT仍然有改進空間?ChatGPT仍有改進的空間:當(dāng)前偶爾可能生成不正確或荒謬的信息;可能會有違反倫理道德的答案;由于其所基于的訓(xùn)練數(shù)據(jù)庫僅截止2021年(而非基于實時數(shù)據(jù)),回答可能已經(jīng)過時等。圖:ChatGPT可能會有違反倫理道德的答案圖:ChatGPT可能會生成不正確或荒謬的信息圖:ChatGPT回答可能過時8資資料來源:OpenAI,東吳證券研究所1750MeenaBlenderGPT-3悟道2.0GPT-407311.2.2預(yù)計GPT-4效果更優(yōu)、成本更低,催化更多應(yīng)用場景落地1750MeenaBlenderGPT-3悟道2.0GPT-40731.生成式預(yù)訓(xùn)練模型GPT-4預(yù)計將于2022年12月至2023年2月發(fā)布。GPT文本模型會有大幅改進:.規(guī)模提升:訓(xùn)練數(shù)據(jù)量、token數(shù)、模型參數(shù)量或均有所提升,從而優(yōu)化模型.圖靈測試:此前一些AI模型僅部分能力通過圖靈測試,而GPT-4有望完全通過.成本下降:通常模型訓(xùn)練成本隨著模型規(guī)模提升而提升,但GPT-4的訓(xùn)練成本GPT范圍內(nèi),從而降低AI技術(shù)的使用門檻。GPT用的潛在影響:AIAI心理咨詢、營銷文本等成更加“專業(yè)”的文字,對應(yīng)金融、醫(yī)學(xué)、新聞、工業(yè)等垂直行圖:文本模型規(guī)模:GPT-4模型參數(shù)量或提升至10萬億級別20000100003300330049950034158949950034188.8409.42.6token數(shù)(B)模token數(shù)(B)模型參數(shù)量(B)GoogleMetaOpenAI北京智源OpenAI2020/01發(fā)布2020/04發(fā)布2020/05發(fā)布2021/06發(fā)布預(yù)計2022/12-2023/2發(fā)布圖:文本模型圖靈測試:GPT-4或?qū)⑼耆ㄟ^測試,達到人類水平7972565564831XiaoiceDialoGPTCleverbotMitsukuMeena(Base)MeenaGPT-4微軟WorswickGoogleGoogleOpenAI2018發(fā)布2018發(fā)布2019發(fā)布2020發(fā)布2020發(fā)布2021發(fā)布預(yù)計2022/12-2023/2發(fā)布圖:文本模型訓(xùn)練成本(萬美元):總體呈上升趨勢,但GPT-4相比GPT-3顯著下降4814GPT-2OpenAI2019/02發(fā)布GPTGPT-2OpenAI2019/02發(fā)布GPT-3OpenAI2020/05發(fā)布GPT-4OpenAI預(yù)計2022/12-2023/2發(fā)布9NMTGoogle2016/09發(fā)布BERTGoogle2018/11發(fā)布Google2020/01發(fā)布 資料來源:機器之心,新智元,MITTechnologyReview,Engadget,AI科技評論,聆心智能,Github,AppleAPPStore,Botpenguin,虎嗅網(wǎng),GoogleAI,ARKinvest,東吳證券研究所1.3OpenAI:ChatGPT的源頭公司圖:圖:ChatGPT源頭公司OpenAI?OpenAI是ChatGPT的源頭公司,公司主要歷史如下:–2015年,馬斯克和SamAltman等人共同創(chuàng)立了OpenAInonprofit,使命為確保通用人工智能(ArtificialGeneralIntelligence,AGI),即一種高度自主且在大多數(shù)具有經(jīng)濟價值的工作上超越人類的系統(tǒng),將為全人類帶來福祉。–2018年,由于特斯拉和AI技術(shù)的關(guān)聯(lián)越來越深、外界越發(fā)擔(dān)憂特斯拉將運用OpenAI的技術(shù)實現(xiàn)系統(tǒng)和產(chǎn)品升級,馬斯克于2018年離開OpenAI的董事會,轉(zhuǎn)變?yōu)橘澲吆皖檰?。–2019年,在訓(xùn)練模型的高成本壓力下,OpenAI劃分出有利潤上限的盈利性組織OpenAILP。緊隨其后,微軟宣布為OpenAI注資10億美元,并獲得了將OpenAI部分AI技術(shù)商業(yè)化、賦能產(chǎn)品的許可,后續(xù)微軟可能會將OpenAI的技術(shù)與搜索引擎、辦公軟件等相整合。?OpenAI2022年營業(yè)收入約8000萬美元,且據(jù)OpenAI預(yù)測,2023、2024年營業(yè)收入將分別達到2億和10億。(路透社)?目前,OpenAI董事會由董事長兼總裁GregBrockman、首席科學(xué)家IlyaSutskever和首席執(zhí)行官SamAltman等人組成。其中,首席科學(xué)家IlyaSutskever是AI領(lǐng)域全球最有影響力的學(xué)者之一,文獻引用量高達36萬,單篇最高引用量12萬,主導(dǎo)或參與了AlexNet,AlphaGo,GPT、CLIP、DALL-E和Codex的研發(fā)。?OpenAI主要投資者包括微軟、ReidHoffman’scharitablefoundation和KhoslaVentures。路透社稱,微軟希望向OpenAI追加投資100億美元,如談判達成,微軟將持有OpenAI49%的股權(quán),OpenAI的非營利性母公司持有2%,其余投資者持有剩余49%。資資料來源:OpenAI,GoogleSchooler,最話,金色財經(jīng),新智元,OneFlow,澎湃新聞,東吳證券研究所文本生成/編輯代碼生成/編輯/解釋圖像生成/編輯模型定制化微調(diào)文本搜索/分類/比較?在AGI(通用人工智能)愿景的驅(qū)動下,OpenAI的AI能力全面。OpenAI當(dāng)前模型幾乎涉及所有需要解決自然語言/代碼的理解/生成任務(wù)的領(lǐng)域,其API(ApplicationProgrammingInterface,應(yīng)用程序編程接口,編程人員可以通過API調(diào)用相關(guān)代碼文本生成/編輯代碼生成/編輯/解釋圖像生成/編輯模型定制化微調(diào)文本搜索/分類/比較圖:除ChatGPT外,OpenAI當(dāng)前的精選模型圖:OpenAI當(dāng)前API主要應(yīng)用領(lǐng)域創(chuàng)建逼真的繪畫作品,包括從0到1根據(jù)所提供元素作畫、拓展原有繪畫、根據(jù)指示修改原有繪畫等等。 “騎馬”、“逼真風(fēng)格”三個元素完成的作畫)WisperWisper:語音識別Wisper在語音識別上可以達到人類的魯棒性水平和英語語音識別的準(zhǔn)確性,并且支持多種語言的轉(zhuǎn)錄及翻譯成為英語。資資料來源:OpenAI,東吳證券研究所2GPT的升級意味AI技術(shù)進步顯著,打開萬億規(guī)模AIGC的入口GPT味著語言AI和AI整進步GPT動AIGC的發(fā)展,迎2.1技術(shù)上,GPT的升級意味著語言AI和AI整體的顯著進步?GPT基于AI的語言技術(shù)領(lǐng)域。AI的子領(lǐng)域包括計算機視覺、語言、語音、推理,不同子領(lǐng)域基于不同的底層技術(shù)(例如語言領(lǐng)域基于NLP,即自然語言處理),但訓(xùn)練算法在直覺上相通(例如視覺領(lǐng)域可以參考語言領(lǐng)域使用的Transformer改進自身的訓(xùn)練模型)。其中,GPT代表語言AI的一種實現(xiàn)方式。?ChatGPT的出現(xiàn)意味著語言AI和AI領(lǐng)域整體的顯著進步。GPT所基于的預(yù)訓(xùn)練模型Transformer在語言AI甚至AI整體領(lǐng)先,可以實現(xiàn)低成本、高效率、大規(guī)模的訓(xùn)練;ChatGPT進一步使用RLHF算法,使得產(chǎn)出更加擬人。圖:AI底層技術(shù)領(lǐng)域分類、醫(yī)學(xué)圖像分析、消費應(yīng)用(如谷歌照片)、安全應(yīng)用(如監(jiān)控、衛(wèi)星圖像分析)、工業(yè)應(yīng)用(如檢測制造和裝配中的缺陷零件)等碼生成、機器翻譯、問答和其他,比如智能客服、智能公文寫作等言人識別等資料來源:斯坦福大學(xué),資料來源:斯坦福大學(xué),OpenAI,東吳證券研究所2.2應(yīng)用上,GPT的升級推動AIGC的發(fā)展,迎萬億市場規(guī)模?AIGC(AIGeneratedContent)即AI生產(chǎn)內(nèi)容,利用AI技術(shù)賦能文本、音頻、視覺等高自由度、低門檻的內(nèi)容生產(chǎn)。?內(nèi)容消費量增加,急需降低生產(chǎn)門檻、提升生產(chǎn)效率,AIGC是大勢所趨:1.PGC、UGC受限于效率和成本,難以滿足迅速增長的內(nèi)容需求。PGC(ProfessinalGeneratedContent,專業(yè)生產(chǎn)內(nèi)容,例如愛奇藝)依賴優(yōu)質(zhì)的專業(yè)化團隊完成內(nèi)容生產(chǎn)或采購,內(nèi)容生成量級有限、成本較高;UGC(UserGeneratedContent,用戶生產(chǎn)內(nèi)容,例如抖音)依賴大體量的創(chuàng)作用戶來實現(xiàn)內(nèi)容生產(chǎn),內(nèi)容生成量級大幅提升、成本較低,但內(nèi)容質(zhì)量良2.相比PGC、UGC,AIGC(AIGeneratedContent,AI生產(chǎn)內(nèi)容,例如GPT系列)具有效率和成本上的優(yōu)勢:–AIGC效率更高:截止2021年3月,推出9個月后的GPT-3日均文本生成量45億,而2021年閱文集團新增文字量僅360億,僅相當(dāng)于GPT-38天的文字內(nèi)容生成量;–AIGC成本更低:目前OpenAI定價最高的文字模型達芬奇(基于GPT-3)為每750詞約0.02美元,2021年閱文集團內(nèi)容成本為17.74億元(每750詞約37元),是調(diào)用OpenAI的API完成相同文字量生產(chǎn)所需的成本(約672萬元)的264倍?!硐霠顩r下,如果閱文集團將2021年全年文字內(nèi)容生產(chǎn)量(360億)交給GPT-3,耗時8天即可完成,節(jié)約成本99%+,毛利率空間幾乎100%釋放。資資料來源:OpenAI,a16z,閱文集團公告,東吳證券研究所2.2應(yīng)用上,GPT的升級推動AIGC的發(fā)展,迎萬億市場規(guī)模?GPT的升級增強了AIGC能力,釋放更多潛在市場空間:GPT系列的不斷升級,增強了AIGC在編程語言(代碼生成、軟件行為生成)、自然語言(新聞撰寫、文案創(chuàng)作、對話機器人、創(chuàng)作性文本)等方面的表現(xiàn),我們離AIGC時代更進一步。?AIGC在內(nèi)容生成中的滲透率將快速提升,應(yīng)用規(guī)??焖贁U增。根據(jù)Gartner《2021年預(yù)測:人工智能對人類和社會的影響》,到2025年AIGC產(chǎn)生的數(shù)據(jù)將占所有數(shù)據(jù)的10%,而該比例在2021年不足1%。而量子位智庫根據(jù)現(xiàn)有技術(shù)及需求成熟度預(yù)測,2030年AIGC市場規(guī)模將超過萬億人民幣。圖:AIGC市場規(guī)模預(yù)測及細(xì)分場景拆分資料資料來源:OpenAI,中國AI數(shù)字商業(yè)展望2021-2025,Gartner,量子位,東吳證券研究所3ChatGPT橫空出世,利好相關(guān)基礎(chǔ)設(shè)施(算力與存儲、數(shù)據(jù)、算法)及應(yīng)用(AIGC)標(biāo)的3ChatGPT橫空出世,利好相關(guān)基礎(chǔ)設(shè)施及應(yīng)用?我們認(rèn)為,ChatGPT上線象征著文本類AI進入新階段,利好其基礎(chǔ)設(shè)施及應(yīng)用:1.基礎(chǔ)設(shè)施:–算力與存儲:如芯片、計算機等–數(shù)據(jù)–算法:訓(xùn)練大模型和NLP2.應(yīng)用–文本創(chuàng)造:有海量文本創(chuàng)造需求的公司,可以借助ChatGPT完成內(nèi)容快速、低成本地擴增,如網(wǎng)文平臺、新聞平臺等–教育:教育及科研工具類平臺,可以借助ChatGPT實現(xiàn)定制化、擬人化的教學(xué)和輔助,如智能問答、智能批閱、輔導(dǎo)資料智能撰寫等–……?同時,建議關(guān)注人工智能的其他子領(lǐng)域:受益于ChatGPT推動的預(yù)訓(xùn)練算法的進步,后續(xù)可能有突破性技術(shù)進展?ChatGPT強大的交互和信息檢索能力,對傳統(tǒng)搜索引擎形成挑戰(zhàn),利空搜索引擎相關(guān)企業(yè):微軟或?qū)hatGPT應(yīng)用于其搜索引擎Bing,利空谷歌;且谷歌搶在OpenAI創(chuàng)建之前開源了其名下的TensorFlow人工智能引擎,OpenAI從創(chuàng)立起就和谷歌存在著直接競爭關(guān)系。但是,由于ChatGPT潛在的收費可能,我們認(rèn)為其尚不能完全取代傳統(tǒng)搜索引擎。3.1.1基礎(chǔ)設(shè)施(1)-算力、存儲?高算力、海量訓(xùn)練數(shù)據(jù)是訓(xùn)練全球領(lǐng)先的AI模型的基礎(chǔ),推薦關(guān)注云基礎(chǔ)設(shè)施和AI芯片。微軟入資OpenAI后,2020年5月,微軟宣布“專門為OpenAI打造世界排名前五的超級計算機之一”;同時,雙方達成一項多年的合作協(xié)議,OpenAI開始接入微軟的Azure云平臺開發(fā)AI技術(shù)。高算力的底層基礎(chǔ)設(shè)施是完成對海量數(shù)據(jù)處理、訓(xùn)練的基礎(chǔ)。海量數(shù)據(jù)匯集也為AI模型提供強大的數(shù)據(jù)集支撐。例如GPT-3由互聯(lián)網(wǎng)上大多數(shù)英文文本訓(xùn)練而成,整個英文維基百科只占它訓(xùn)練數(shù)據(jù)整體的0.6%。?云計算提供了社會級的超大算力計算平臺和海量數(shù)據(jù)存儲平臺。云計算在數(shù)字中國建設(shè)和數(shù)字經(jīng)濟發(fā)展中起著重要的基礎(chǔ)性、先導(dǎo)性和戰(zhàn)略性作用,已成為經(jīng)濟社會數(shù)字化轉(zhuǎn)型的基石,有望在政府、企事業(yè)單位和其他組織中廣泛積累應(yīng)用和數(shù)。–地方政府方面:2022年10月28日《全國一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南》中提出要整合構(gòu)建標(biāo)準(zhǔn)統(tǒng)一、布局合理、管理協(xié)同、自主可控的全國一體化政務(wù)大數(shù)據(jù)體系,并要求到2025年政務(wù)數(shù)據(jù)全部納入目錄管理;–央國企方面:加強國企的數(shù)據(jù)安全保障,強化對國企數(shù)據(jù)資源的監(jiān)管。國資云是指由各地國資委牽頭投資、設(shè)立、運營,通過建設(shè)高安全防護水平的數(shù)據(jù)安全基礎(chǔ)設(shè)施底座。?底層硬件來看,需要高算力的AI芯片。AI芯片即專門用于處理人工智能應(yīng)用中大量計算任務(wù)的模塊,近年來國家高度關(guān)注人工智能芯片產(chǎn)業(yè)的發(fā)展,發(fā)布一系列產(chǎn)業(yè)支持政策,億歐智庫預(yù)測2025年中國AI芯片市場規(guī)模約為1780億元,目前很多企業(yè)還在發(fā)展初期。?相關(guān)公司:–云基礎(chǔ)設(shè)施:深桑達A(中國電子云成為央國企和地方政府開展國資云建設(shè)的主力軍)、易華錄(參與政務(wù)云建設(shè),數(shù)據(jù)要素市場化先發(fā)優(yōu)勢顯著)、中國移動、中國聯(lián)通、中國電信、微軟等。–AI芯片:寒武紀(jì)、地平線、華為海思、平頭哥等。3.1.1基礎(chǔ)設(shè)施(2)-數(shù)據(jù)?數(shù)據(jù)資源是人工智能技術(shù)產(chǎn)業(yè)創(chuàng)新發(fā)展的驅(qū)動力之一。數(shù)據(jù)集作為數(shù)據(jù)資源的核心組成部分,是指經(jīng)過專業(yè)化設(shè)計、采集、清洗、標(biāo)注和管理,生產(chǎn)出來的專供人工智能算法模型訓(xùn)練的數(shù)據(jù)。大數(shù)據(jù)的核心始終是面向海量數(shù)據(jù)的存儲、計算、處理等基礎(chǔ)技術(shù)。?GPT-4或不再以“大”取勝,數(shù)據(jù)在精不在多,依靠提高模型效率和數(shù)據(jù)質(zhì)量達成改進。–此前OpenAI信奉“擴展假說”,即海量數(shù)據(jù)和大量算力是通往AGI的唯一路徑。因此,OpenAI所訓(xùn)練的GPT系列參數(shù)越來越多,模型表現(xiàn)也相應(yīng)潤色。–但是,DeepMind的研究或意味著模型效率和數(shù)據(jù)質(zhì)量的提升才是未來方向。DeepMind的研究成果表明,在參數(shù)數(shù)量少一個數(shù)量級的情況下,模型依然可以獲得與常規(guī)Transformer相當(dāng)?shù)男阅埽⒃诙鄠€語言建?;鶞?zhǔn)測試中獲得最先進的性能。這意味著,在當(dāng)前文本AI模型已經(jīng)普遍使用海量數(shù)據(jù)集的背景下,通過模型效率和數(shù)據(jù)質(zhì)量的提高來改進AI性能的路徑或?qū)⑷〈蕾嚁?shù)據(jù)量提升的路徑,進一步挖掘AI的潛力。–關(guān)于GPT-4參數(shù)數(shù)量亦有兩派預(yù)測:萬億級參數(shù)數(shù)量,以“大”取勝vs略高于GPT-3的參數(shù)數(shù)量,以“精”取勝,有待GPT-4正式上線給出答案。?未來數(shù)據(jù)類企業(yè)的競爭力或體現(xiàn)在數(shù)據(jù)質(zhì)量,對數(shù)據(jù)清洗和標(biāo)注提出較高要求:根據(jù)Google的研究,數(shù)據(jù)質(zhì)量在高風(fēng)險人工智能領(lǐng)域具有更高的重要性,但人們往往只關(guān)注于模型,而忽略數(shù)據(jù)質(zhì)量,并且該結(jié)論可以或多或少地適用于所有AI領(lǐng)域。如果GPT-4更多依賴模型效率和數(shù)據(jù)質(zhì)量的提升來實現(xiàn)改進,將啟示我們重視數(shù)據(jù)清洗和標(biāo)注,關(guān)注能夠提供高質(zhì)量數(shù)據(jù)的企業(yè)。4055.344.40偏重計算機視覺4055.344.40偏重計算機視覺?數(shù)據(jù)標(biāo)注是大部分人工智能算法得以有效運行的關(guān)鍵環(huán)節(jié)。簡單來說,數(shù)據(jù)標(biāo)注是對未經(jīng)處理過的語音、圖片、文本、視頻等數(shù)據(jù)進行加工處理,從而轉(zhuǎn)變成機器可識別信息的過程。在ChatGPT訓(xùn)練的三個階段中,只有第三階段不需要使用人工標(biāo)注數(shù)據(jù),而第一、第二階段都需要大量的人工標(biāo)注。?根據(jù)智研咨詢,2015-2021年,我國數(shù)據(jù)標(biāo)注與審核行業(yè)市場規(guī)模保持穩(wěn)步增長態(tài)勢,2021年達到44.40億元。預(yù)計2028年我國數(shù)據(jù)標(biāo)注與審核行業(yè)市場規(guī)模將達262.74億元。?現(xiàn)有數(shù)據(jù)標(biāo)注以人工標(biāo)注為主,屬于勞動密集型產(chǎn)業(yè)。隨著機器學(xué)習(xí)不斷完善,自動標(biāo)注成為大趨勢。?目前我國的數(shù)據(jù)標(biāo)注與審核業(yè)務(wù)的參與者主要包括兩類,一是人工智能公司內(nèi)部的標(biāo)注部門,二是商務(wù)流程外包公司。?相關(guān)標(biāo)的:海天瑞聲(AI訓(xùn)練數(shù)據(jù)專業(yè)提供商)等。圖:2015-2022年我國數(shù)據(jù)標(biāo)注與審核行業(yè)市場規(guī)模走勢(億元)2015年2016年2017年2018年2019年2020年2021年2022年E圖:頭部數(shù)據(jù)標(biāo)注企業(yè)概況圖音2005年早期進入音2005年早期進入資資料來源:智研咨詢,信通院,東吳證券研究所3.1.1基礎(chǔ)設(shè)施(3)-算法?ChatGPT所基于的自然語言處理是AI的核心課題之一。自然語言處理(NLP,Naturallanguageprocessing)主要包括自然語言理解類任務(wù)和自然語言生成類任務(wù),其使得計算機可以理解和反饋自然語言;在NLP發(fā)展之前,人類只能通過固定模式的指令來與計算機溝通。?近兩年,對話機器人使得與智能語音相關(guān)NLP產(chǎn)品迎來了發(fā)展機遇。艾瑞統(tǒng)計研究,2021年,中國NLP核心產(chǎn)品的市場規(guī)模為171億元,帶動規(guī)模為450億元,到2026年,核心產(chǎn)品規(guī)模將達到459億元,CAGR=24.8%,帶動規(guī)模將超過1000億元。?當(dāng)前國內(nèi)領(lǐng)先的對話交互類AI算法企業(yè)主要包括兩類:–以語音識別為核心業(yè)務(wù)的企業(yè),延生到NLP領(lǐng)域,如科大訊飛,從語音識別延生到語音合成、機器翻譯、圖文識別、圖像理解、閱讀理解、機器推理等算法,并在消費者、智慧教育、智慧城市、智慧司法、智能服務(wù)、智能汽車、智慧醫(yī)療、運營商等領(lǐng)域?qū)崿F(xiàn)深度應(yīng)用。–以NLP為核心業(yè)務(wù),專注語義識別的企業(yè),如拓爾思。拓爾思是國內(nèi)最早從事自然語言處理(NLP)研發(fā)的企業(yè)之一,在語義智能領(lǐng)域具備自主可控的底層技術(shù),可以提供預(yù)訓(xùn)練模型和閱讀理解等技術(shù)成果。?相關(guān)標(biāo)的:科大訊飛(國內(nèi)AI龍頭,率先落地教育信息化等場景)、拓爾思(語義智能先鋒,搜索引擎數(shù)據(jù)庫未來可期)等。圖:2019-2026年中國NLP核心產(chǎn)品及帶動相關(guān)產(chǎn)業(yè)規(guī)模)0201920202021E2022E2023E2024E2025E2026E資資料來源:CSDN,艾瑞咨詢,東吳證券研究所3.1.2基礎(chǔ)設(shè)施標(biāo)的(1)-科大訊飛:AI語音龍頭,技術(shù)實力領(lǐng)先?科大訊飛從人工智能技術(shù)及產(chǎn)品應(yīng)用出發(fā),致力于讓機器“能聽會說,能理解會思考”。公司從語音識別延生到語音合成、機器翻譯、圖文識別、圖像理解、閱讀理解、機器推理等算法,并在消費者、智慧教育、智慧城市、智慧司法、智能服務(wù)、智能汽車、智慧醫(yī)療、運營商等領(lǐng)域?qū)崿F(xiàn)深度應(yīng)用。?公司技術(shù)實力領(lǐng)先??拼笥嶏w兩次榮獲“國家科技進步獎”及中國信息產(chǎn)業(yè)自主創(chuàng)新榮譽“信息產(chǎn)業(yè)重大技術(shù)發(fā)明獎”,被任命為中文語音交互技術(shù)標(biāo)準(zhǔn)工作組組長單位,牽頭制定中文語音技術(shù)標(biāo)準(zhǔn)。圖:科大訊飛營業(yè)收入及其同比增長情況圖:科大訊飛歸母凈利潤及其同比增長情況20020000500201720182019202020212022H50%科大訊飛營業(yè)科大訊飛營業(yè)收入(億元)30%20%yoy10%0%050100%50%0%-50%201720182019202020212022H科大訊飛歸母凈利潤(億元)yoy圖:科大訊飛PEBand資料來源:公司公告,Wind,東吳證券研究所3.1.2基礎(chǔ)設(shè)施標(biāo)的(2)-海天瑞聲:一站式數(shù)據(jù)服務(wù)提供商?海天瑞聲是我國領(lǐng)先的AI訓(xùn)練數(shù)據(jù)專業(yè)提供商。自2005年成立以來,公司始終致力于為AI產(chǎn)業(yè)鏈上的各類機構(gòu)提供AI算法模型開發(fā)訓(xùn)練所需的專業(yè)數(shù)據(jù)集。公司所提供的訓(xùn)練數(shù)據(jù)覆蓋智能語音(語音識別、語音合成等)、計算機視覺、自然語言等多個AI核心領(lǐng)域,全面服務(wù)于人機交互、智能駕駛、智慧城市等多種創(chuàng)新應(yīng)用場景。公司的產(chǎn)品和服務(wù)已獲得阿里巴巴、騰訊、百度、科大訊飛、??低?、微軟、亞馬遜、三星等國內(nèi)外客戶的認(rèn)可。?提供一站式數(shù)據(jù)服務(wù),有望受益于AI發(fā)展對上游數(shù)據(jù)訓(xùn)練集的需求。海天瑞聲提供從設(shè)計到實施(采集-清洗-脫敏-標(biāo)注)的一站式數(shù)據(jù)服務(wù)解決方案。其擁有1050+數(shù)據(jù)成品庫,包含190種語言,內(nèi)容覆蓋智能家居、智能駕駛、虛擬主播、有聲書、智慧金融、智能安防、智能搜索等數(shù)十個業(yè)務(wù)場景。同時,自研一體化數(shù)據(jù)平臺,平臺內(nèi)上千款自研標(biāo)注工具聯(lián)合打通,支持復(fù)雜業(yè)務(wù)場景標(biāo)注需求。圖:海天瑞聲營業(yè)收入及其同比增長情況圖:海天瑞聲PEBand2.502.001.501.000.500.0020182019202020212022H12018201920202021營業(yè)收入(億元)同比70%60%50%40%30%20%10%0%-20%資資料來源:公司公告,Wind,東吳證券研究所3.1.2基礎(chǔ)設(shè)施標(biāo)的(3)-拓爾思:領(lǐng)先的大數(shù)據(jù)和人工智能提供商?拓爾思是領(lǐng)先的大數(shù)據(jù)、人工智能、數(shù)據(jù)安全產(chǎn)品和服務(wù)提供商,其主營業(yè)務(wù)包括:①人工智能:專注于語義智能(也經(jīng)常被稱為語言智能或者認(rèn)知智能)技術(shù)(包括NLP)的研發(fā)和產(chǎn)業(yè)化。②大數(shù)據(jù):以數(shù)據(jù)獲取、數(shù)據(jù)治理、數(shù)據(jù)檢索、數(shù)據(jù)分析挖掘全生命周期的技術(shù)能力提供大數(shù)據(jù)產(chǎn)品及服務(wù)。③數(shù)據(jù)安全:全資子公司天行網(wǎng)安提供數(shù)據(jù)安全傳輸和交換產(chǎn)品及服務(wù)。?公司人工智能和大數(shù)據(jù)兩大業(yè)務(wù)(合計占比72%)有望受益于ChatGPT帶來的市場增益。?人工智能-文本AI算法:公司是國內(nèi)最早從事自然語言處理(NLP)研發(fā)的企業(yè)之一,在語義智能領(lǐng)域具備自主可控的底層技術(shù),可以提供預(yù)訓(xùn)練模型和閱讀理解等技術(shù)成果。?大數(shù)據(jù)-文本AI數(shù)據(jù):公司是最早從事中文全文檢索技術(shù)研發(fā)的企業(yè),現(xiàn)已將領(lǐng)先優(yōu)勢拓展到數(shù)據(jù)采集、治理、分析挖掘等大數(shù)據(jù)核心技術(shù)的全生命周期。圖:2022H1拓爾思營業(yè)收入產(chǎn)品結(jié)構(gòu)圖圖:拓爾思PEBand資資料來源:公司公告,Wind,東吳證券研究所3.2.1應(yīng)用-關(guān)注在文/音/圖/視頻等AIGC領(lǐng)域布局的國內(nèi)外公司?海內(nèi)外公司已經(jīng)廣泛在文/音/圖/視頻等AIGC領(lǐng)域布局。代碼代碼公司公司AIAI生成文字AIAI生成聲音AIAI生成圖像AIAI生成視頻AIAI生成虛擬人AIAI生成游戲AIAI多模態(tài)300624萬興科技萬興AI繪畫√200264中文在線√300418昆侖萬維MusicXlab002230科大訊飛√√300058藍色光標(biāo)銷銷博特營銷數(shù)據(jù)平臺藍標(biāo)分身分身有數(shù)0020.HK商湯科技商湯智影DI-star0700.HK騰訊DDreamwriter絕悟AI9999.HK伏羲1357.HK美圖秀秀美圖AI開放平臺美圖影像研究院BABA.USDTDT稿王鹿班塔璣阿里M6-10TBIDU.US百度AIAI助理AI助理文心一格Vidpress曦靈ERNIE-ViLG未上市思必馳√未上市字節(jié)XiXiaomingbotJukedeck,剪映智能創(chuàng)作語音SAMI剪映火山引擎未上市RctAI混沌球未上市影譜科技視頻自動剪輯√未上市倒映有聲√一視同人MFST.US微軟MegatronMegatronTuringNLG小冰框架GODIVA微軟&北大(女媧)GOOG.USGoogleAVAV-HuBERT,PaLMMagentaImagen,Parti,NeRF,NeRVImagenVideo,PhenakiMETA.USMetaMetaMeta&哥大(VX2Text)MakeaSceneMakeAVideoGato、Data2vecNVDA.USNVIDAMegatronMegatronTuringNLGGauGAN、GauGAN2PoE-GANADBE.USAdobeInsetGANSensei未上市OpenAIGPTGPT-3.5,ChatGPTGLIDE,DALLE,DALLE2CLIP未上市StableDiffusion其他公司(產(chǎn)品)聆聆心智能寫作貓寫作狐Latitude.io靈動音科技ReadspeakerDeepZenSonanticAIVA,IBM盜夢師智源(悟道文瀾)數(shù)字力場Discord(MidJourney)帝視科技央視網(wǎng)(AI編輯部)IBM(Watson)RunwayMLWisecut,Kaleido拓爾思搜狗數(shù)字力場數(shù)字王國相芯科技超參數(shù)中科院(紫東太初)?我們認(rèn)為ChatGPT是AIGC應(yīng)用又一個起點,隨著深度學(xué)習(xí)模型不斷完善、開源模式的推動、大模型探索商業(yè)化的可能,AIGC有望加速發(fā)展,互資資料來源:各公司公告,界面新聞,新浪新聞,商湯官網(wǎng),機器之心,量子位,網(wǎng)易伏羲,互動易,美圖AI開放平臺,中國科學(xué)網(wǎng),果殼硬科技,微軟,超參數(shù)科技,電商在線,百度智能云,Google,BroadhurstDigital,MetaAI,MSN,NVIDA,thedecoder,Adobe,東吳證券研究所3.2.2應(yīng)用標(biāo)的(1)-微軟:投資OpenAI,或成為AI時代最大玩家?微軟已在AI領(lǐng)域多個細(xì)分賽道取得成就,并正嘗試將AI成果與自身產(chǎn)品相融合(如將DALLE-2和ChatGPT接入Bing搜索引擎,將GPT接入MSOffice全家桶等),前景向好:–AI編程:微軟旗下Github發(fā)布AI自動編程工具Copilot,在業(yè)內(nèi)引發(fā)轟動;–AI科研:23年初推出算法VALL-E,只需三秒即可復(fù)刻人類聲音,被大量科學(xué)家評為2023年迄今質(zhì)量最高的AIGC論文。–投資OpenAI:2019年向OpenAI投資10億美元;2023年初正在與OpenAI就投資100億美元開展談判,如談判達成,微軟將持有OpenAI49%的股權(quán)。?微軟在元宇宙領(lǐng)域綜合實力亦十分強勁,B端&C端均有布局。在B端,微軟第一個提出“企業(yè)元宇宙”概念的公司,通過打造企業(yè)元宇宙技術(shù)堆棧,提供一系列數(shù)據(jù)基礎(chǔ)設(shè)施和工具,為后疫情時代企業(yè)組織結(jié)構(gòu)的變動及生產(chǎn)效率的提升提供助力;在C端,微軟在游戲內(nèi)容、游戲社區(qū)、云游戲及硬件上實現(xiàn)了全方位覆蓋。我們認(rèn)為,微軟的元宇宙路徑扎實,在未來數(shù)字化時代的競爭中占據(jù)有利位置;同時也看好微軟在AIGC上的技術(shù)積淀為元宇宙業(yè)務(wù)服務(wù),元宇宙業(yè)務(wù)為其提供應(yīng)用場景。3.2.2應(yīng)用標(biāo)的(2)-META:看好視頻AIGC工具與內(nèi)容業(yè)務(wù)共振?自2021年10月改名META(原為FACEBOOK)、全面進軍元宇宙以來,META2022年在AIGC領(lǐng)域也有進一步動作。–2022年7月,公布自研的文本生成圖像AI模型Make-A-Scene。–2022年9月下旬,發(fā)布從文本生成視頻的AI系統(tǒng)“Make-A-Video”,即根據(jù)輸入的自然語言文本生成一段5秒鐘左右的短視頻;也可以從圖像和視頻生成視頻。?AI生成視頻難度顯著大于生成圖像,該模型的發(fā)布彰顯了META在AI領(lǐng)域的潛力。系統(tǒng)除了要正確生成每個像素外,還需預(yù)測像素將如何隨時間變化。Make-A-Video能夠理解物理世界中的運動,并將其應(yīng)用于傳統(tǒng)的文本生成圖像AI技術(shù)中。?META本身在元宇宙內(nèi)容領(lǐng)域深度布局(云和VR游戲等),我們看好其AIGC產(chǎn)品與元宇宙內(nèi)容業(yè)務(wù)產(chǎn)生協(xié)同。圖:Make-A-Video工作原理示意圖資料來源:東西游戲,東吳證券研究資料來源:東西游戲,東吳證券研究所3.2.2應(yīng)用標(biāo)的(3)-百度:AIGC全面賦能業(yè)務(wù),打出組合拳百度聯(lián)合AIGC多個領(lǐng)域打出組合拳:文心大模型:百度通過大模型與深度學(xué)習(xí)框架融合打造的自主創(chuàng)新AI底座,大幅降低AI開發(fā)和應(yīng)用的門檻。圖:百度文心大模型全景圖–創(chuàng)作者AI助理團:包括AI圖:百度文心大模型全景圖以及圖片轉(zhuǎn)換成視頻等,為創(chuàng)作者提供視頻制作助理”,幫助創(chuàng)作者實現(xiàn)“一個人成為一支隊伍”,低門檻、高效率地生產(chǎn)高質(zhì)量內(nèi)容。例如,中青網(wǎng)借助百家號的AIGC圖文轉(zhuǎn)視頻技術(shù),視頻內(nèi)容產(chǎn)量提升了80%,圖文轉(zhuǎn)視頻作品播放量超過同款–百度APP數(shù)字人計劃:將數(shù)字人技術(shù)與AIGC圖文轉(zhuǎn)視頻、TTS語音合成技術(shù)結(jié)合,為媒體及創(chuàng)作者定制真人孿生數(shù)字人。創(chuàng)作者輸入文本即可生成有數(shù)字主持人口播的視頻,不僅保證信息播報準(zhǔn)確性,還具備多國語言口播、情緒識別等人格化功能,實時不停播。–AIGC媒體聯(lián)盟:目前,百度已經(jīng)和數(shù)十家權(quán)威媒體成立“AIGC媒體聯(lián)盟”,推動AI能媒體行業(yè)。資料資料來源:百度2022Create大會,澎湃新聞,文匯網(wǎng),東吳證券研究所3.2.2應(yīng)用標(biāo)的(4)-閱文集團:攜手微軟AI賦能網(wǎng)絡(luò)文學(xué)?閱文集團旗下囊括QQ閱讀、起點中文網(wǎng)、新麗傳媒等業(yè)界知名品牌,匯聚了強大的創(chuàng)作者陣營、豐富的作品儲備,覆蓋200多種內(nèi)容品類,觸達數(shù)億用戶,已成功輸出《慶余年》《贅婿》《鬼吹燈》《全職高手》《斗羅大陸》《瑯琊榜》等大量優(yōu)秀網(wǎng)文IP,改編為動漫、影視、游戲等多業(yè)態(tài)產(chǎn)品。?閱文集團已經(jīng)有AI融入業(yè)務(wù)的嘗試:例如,攜手彩云科技完成30部AI翻譯作品;攜手微軟推出AI賦能網(wǎng)絡(luò)文學(xué)“IP喚起方案”(復(fù)建小說角色為可互動虛擬人)。圖:閱文旗下紅袖讀書攜手微軟推出“IP喚醒計劃”資資料來源:公司公告,環(huán)球網(wǎng),云庫科技,東吳證券研究所3.2.2應(yīng)用標(biāo)的(5)-中文在線:AI輔助創(chuàng)作上線,大幅提升效率?中文在線以自有原創(chuàng)平臺、知名作家、版權(quán)機構(gòu)為正版數(shù)字內(nèi)容來源,積累數(shù)字內(nèi)容資源超510萬種,網(wǎng)絡(luò)原創(chuàng)駐站作者440萬名;旗下?lián)碛?7K小說網(wǎng)、四月天小說網(wǎng)、萬丈書城、科幻廠牌“奇想宇宙”、懸疑廠牌“謎想計劃”等原創(chuàng)平臺。在對數(shù)字內(nèi)容進行聚合和管理后,向多終端、多平臺、全媒體分發(fā)數(shù)字閱讀產(chǎn)品;以文學(xué)IP為核心,對優(yōu)質(zhì)網(wǎng)文進行音頻、中短劇、動漫
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 技術(shù)職業(yè)學(xué)院招標(biāo)文件延長公告
- 中原地產(chǎn)房屋買賣合同問答
- 標(biāo)準(zhǔn)磚塊采購合同樣本
- 進口購銷合同
- 盾構(gòu)工程分包合同勞務(wù)
- 方式選購協(xié)議案例
- 互聯(lián)網(wǎng)服務(wù)合同協(xié)議
- 家電行業(yè)聯(lián)盟合同
- 產(chǎn)權(quán)房屋買賣合同范本模板
- 酒精制品購銷合同
- 小工 日工勞務(wù)合同范本
- 幼兒園教師職稱五套試題及答案
- 廣東2024年廣東省通信管理局局屬單位招聘筆試歷年典型考題及考點附答案解析
- 報告文學(xué)研究
- 棄土綜合利用協(xié)議
- 幼兒園中班語言課件:《小花貓交朋友》
- SH/T 3065-2024 石油化工管式爐急彎彎管工程技術(shù)規(guī)范(正式版)
- 2024年《藝術(shù)概論》知識考試題庫(附答案)
- GB/T 43878-2024旋挖鉆機截齒
- 攤位安全責(zé)任書
- 《紙質(zhì)文物修復(fù)與保護》課件-03紙質(zhì)文物病害類型
評論
0/150
提交評論