ChatGPT:又一個“人形機器人”主題_第1頁
ChatGPT:又一個“人形機器人”主題_第2頁
ChatGPT:又一個“人形機器人”主題_第3頁
ChatGPT:又一個“人形機器人”主題_第4頁
ChatGPT:又一個“人形機器人”主題_第5頁
已閱讀5頁,還剩60頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

證券分析師執(zhí)業(yè)證書:S0600518120001yjs_chenl@證券分析師張良衛(wèi)執(zhí)業(yè)證書:S0600516070001zhanglw@研究助理郭若娜執(zhí)業(yè)證書:S0600122080017guorn@研究助理張文佳執(zhí)業(yè)證書:S0600122080015dwzqcomcn主要內(nèi)容2?ChatGPT是2022年11月30日OpenAI推出的一款對話式AI模型,是其GPT系列新作,功能更全面&更類人,潛在應(yīng)用空間更為廣泛。Transformer和產(chǎn)出更類人的RLHF算法。?應(yīng)用上,GPT的升級推動AIGC的發(fā)展,AIGC滲透率有望在2025年提升至10%,市場規(guī)?;?qū)⒂?030年逾萬億。?ChatGPT橫空出世,利好相關(guān)基礎(chǔ)設(shè)施和應(yīng)用:–算法、數(shù)據(jù)、算力是AI大模型訓(xùn)練的基礎(chǔ),建議關(guān)注基礎(chǔ)設(shè)施相關(guān)標(biāo)的:科大訊飛、海天瑞聲、拓爾思等;–ChatGPT上線推動文本類AI滲透于文本生產(chǎn)、智能批閱等應(yīng)用領(lǐng)域,同時其對訓(xùn)練模型的改進對AIGC的全面發(fā)展有廣泛意義,建議關(guān)注在相關(guān)領(lǐng)域布局的:微軟、Meta、百度、閱文集團、中文在線、粉筆等。?風(fēng)險提示:ChatGPT技術(shù)發(fā)展不完善、應(yīng)用不及預(yù)期;AI基礎(chǔ)設(shè)施不及預(yù)期;AI倫理風(fēng)險等1ChatGPT:突破式的GPT新作2GPT的升級意味AI技術(shù)進步顯著,打開萬億規(guī)模AIGC的入口3ChatGPT橫空出世,利好相關(guān)基礎(chǔ)設(shè)施(算力與存儲、數(shù)據(jù)、算法)及應(yīng)用(AIGC)4風(fēng)險提示1ChatGPT:突破式的GPT新作1.1.1ChatGPT:突破性的對話式AI模型?ChatGPT是一款對話式AI模型,根據(jù)用戶輸入的文本,自動生成回復(fù)內(nèi)容。2022年11月30日,OpenAI發(fā)布了對話式AI新模型ChatGPT。該模型使用簡單,只需向ChatGPT文字提出需求,即可讓其完成回答問題、書寫代碼、創(chuàng)作文本等指令。?ChatGPT的功能包括:交互,以及基于交互的文本/代碼創(chuàng)造、信息檢索等。實際應(yīng)用上,ChatGPT等文本AI可能幫助文本創(chuàng)造類行業(yè)完成智能內(nèi)容生成,并一定程度上替代搜索引擎。圖:ChatGPT使用示意5資資料來源:OpenAI,東吳證券研究所1.1.2ChatGPT:GPT系列新作,功能更全面,表現(xiàn)更類人?ChatGPT是GPT-3和GPT-4之間的過渡版本。GPT即生成型預(yù)訓(xùn)練變換模型(GenerativePre-trainedTransformer),是解決NLP(自然語言處理)任務(wù)的訓(xùn)練模型之一。該預(yù)訓(xùn)練模型基于Transformer架構(gòu)(具有自注意力機制,可以捕捉句子中的上下文關(guān)系),可以根據(jù)給定文本預(yù)測下一個單詞的概率分布,從而生成人類可以理解的自然語言。ChatGPT從GPT-3.5模型微調(diào)而來,Chat強調(diào)了其為了對話而優(yōu)化,具有記憶能力,可以完成連續(xù)性對話。?從GPT-1到ChatGPT,使用更先進的訓(xùn)練模型、更海量的訓(xùn)練數(shù)據(jù),功能越來越全面,表現(xiàn)越來越類人。表:GPT系列產(chǎn)品升級情況6資資料來源:WalmartGlobalTechBlog,OpenAI,澎湃,東吳證券研究所Elicit:人工智能研究助理Elicit從大量研究論文中找到與研究問題最相關(guān)的摘要,然后應(yīng)用Elicit:人工智能研究助理Elicit從大量研究論文中找到與研究問題最相關(guān)的摘要,然后應(yīng)用GPT-3總結(jié)論文對這個問題的主張。GPT-3使得結(jié)果更容易理解(改進了24%)、更準(zhǔn)確 (改進了17%)、總體上更好(改進了33%)。Algolia:搜索引擎Algolia將GPT-3與其先進的搜索技術(shù)集成,幫助出版商和客戶以自然語言查詢問題的答案。在對210萬篇新聞文章進行GPT-3測試后,Algolia精確回答問題的精度為91%或更高。7?ChatGPT得到的關(guān)注空前。2022年12月5日,上線僅5天的ChatGPT用戶數(shù)量突破100萬,而GPT-3耗時將近24個月才達到該用戶規(guī)模。?ChatGPT應(yīng)用空間廣泛,潛在市場規(guī)??捎^。以過往版本GPT-3為例,截止2021年3月,上線9個月的GPT-3已經(jīng)有了300+應(yīng)用客戶,領(lǐng)域涵蓋智能客服、教育與科研、游戲、搜索引擎等。出于更出色的表現(xiàn)和更高的關(guān)注度,ChatGPT及其背后的GPT-3.5的應(yīng)用空間有望較GPT-3更為廣闊。圖:GPT-3應(yīng)用示例ViableViable:幫助公司分析客戶反饋借助GPT-3,Viable將大量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為可讀的自然語言報告,包括客戶的投訴、贊美、請求和問題等。GPT-3將Viable總結(jié)客戶反饋的準(zhǔn)確性從66%提高到90%,為公司產(chǎn)品決策提供信息。FableFableStudio:VR游戲工作室在VR游戲《墻中狼》中,F(xiàn)ableStudio借助GPT-3,塑造了陪伴式虛擬角色Lucy,可以實現(xiàn)與人們自然的對話,加深玩家與游戲角色的情感牽絆。資料來源:OpenAI,雷峰網(wǎng),東吳證券研究所1.2.1ChatGPT仍然有改進空間?ChatGPT仍有改進的空間:當(dāng)前偶爾可能生成不正確或荒謬的信息;可能會有違反倫理道德的答案;由于其所基于的訓(xùn)練數(shù)據(jù)庫僅截止2021年(而非基于實時數(shù)據(jù)),回答可能已經(jīng)過時等。圖:ChatGPT可能會有違反倫理道德的答案圖:ChatGPT可能會生成不正確或荒謬的信息圖:ChatGPT回答可能過時8資資料來源:OpenAI,東吳證券研究所1750MeenaBlenderGPT-3悟道2.0GPT-407311.2.2預(yù)計GPT-4效果更優(yōu)、成本更低,催化更多應(yīng)用場景落地1750MeenaBlenderGPT-3悟道2.0GPT-40731.生成式預(yù)訓(xùn)練模型GPT-4預(yù)計將于2022年12月至2023年2月發(fā)布。GPT文本模型會有大幅改進:.規(guī)模提升:訓(xùn)練數(shù)據(jù)量、token數(shù)、模型參數(shù)量或均有所提升,從而優(yōu)化模型.圖靈測試:此前一些AI模型僅部分能力通過圖靈測試,而GPT-4有望完全通過.成本下降:通常模型訓(xùn)練成本隨著模型規(guī)模提升而提升,但GPT-4的訓(xùn)練成本GPT范圍內(nèi),從而降低AI技術(shù)的使用門檻。GPT用的潛在影響:AIAI心理咨詢、營銷文本等成更加“專業(yè)”的文字,對應(yīng)金融、醫(yī)學(xué)、新聞、工業(yè)等垂直行圖:文本模型規(guī)模:GPT-4模型參數(shù)量或提升至10萬億級別20000100003300330049950034158949950034188.8409.42.6token數(shù)(B)模token數(shù)(B)模型參數(shù)量(B)GoogleMetaOpenAI北京智源OpenAI2020/01發(fā)布2020/04發(fā)布2020/05發(fā)布2021/06發(fā)布預(yù)計2022/12-2023/2發(fā)布圖:文本模型圖靈測試:GPT-4或?qū)⑼耆ㄟ^測試,達到人類水平7972565564831XiaoiceDialoGPTCleverbotMitsukuMeena(Base)MeenaGPT-4微軟WorswickGoogleGoogleOpenAI2018發(fā)布2018發(fā)布2019發(fā)布2020發(fā)布2020發(fā)布2021發(fā)布預(yù)計2022/12-2023/2發(fā)布圖:文本模型訓(xùn)練成本(萬美元):總體呈上升趨勢,但GPT-4相比GPT-3顯著下降4814GPT-2OpenAI2019/02發(fā)布GPTGPT-2OpenAI2019/02發(fā)布GPT-3OpenAI2020/05發(fā)布GPT-4OpenAI預(yù)計2022/12-2023/2發(fā)布9NMTGoogle2016/09發(fā)布BERTGoogle2018/11發(fā)布Google2020/01發(fā)布 資料來源:機器之心,新智元,MITTechnologyReview,Engadget,AI科技評論,聆心智能,Github,AppleAPPStore,Botpenguin,虎嗅網(wǎng),GoogleAI,ARKinvest,東吳證券研究所1.3OpenAI:ChatGPT的源頭公司圖:圖:ChatGPT源頭公司OpenAI?OpenAI是ChatGPT的源頭公司,公司主要歷史如下:–2015年,馬斯克和SamAltman等人共同創(chuàng)立了OpenAInonprofit,使命為確保通用人工智能(ArtificialGeneralIntelligence,AGI),即一種高度自主且在大多數(shù)具有經(jīng)濟價值的工作上超越人類的系統(tǒng),將為全人類帶來福祉。–2018年,由于特斯拉和AI技術(shù)的關(guān)聯(lián)越來越深、外界越發(fā)擔(dān)憂特斯拉將運用OpenAI的技術(shù)實現(xiàn)系統(tǒng)和產(chǎn)品升級,馬斯克于2018年離開OpenAI的董事會,轉(zhuǎn)變?yōu)橘澲吆皖檰?。–2019年,在訓(xùn)練模型的高成本壓力下,OpenAI劃分出有利潤上限的盈利性組織OpenAILP。緊隨其后,微軟宣布為OpenAI注資10億美元,并獲得了將OpenAI部分AI技術(shù)商業(yè)化、賦能產(chǎn)品的許可,后續(xù)微軟可能會將OpenAI的技術(shù)與搜索引擎、辦公軟件等相整合。?OpenAI2022年營業(yè)收入約8000萬美元,且據(jù)OpenAI預(yù)測,2023、2024年營業(yè)收入將分別達到2億和10億。(路透社)?目前,OpenAI董事會由董事長兼總裁GregBrockman、首席科學(xué)家IlyaSutskever和首席執(zhí)行官SamAltman等人組成。其中,首席科學(xué)家IlyaSutskever是AI領(lǐng)域全球最有影響力的學(xué)者之一,文獻引用量高達36萬,單篇最高引用量12萬,主導(dǎo)或參與了AlexNet,AlphaGo,GPT、CLIP、DALL-E和Codex的研發(fā)。?OpenAI主要投資者包括微軟、ReidHoffman’scharitablefoundation和KhoslaVentures。路透社稱,微軟希望向OpenAI追加投資100億美元,如談判達成,微軟將持有OpenAI49%的股權(quán),OpenAI的非營利性母公司持有2%,其余投資者持有剩余49%。資資料來源:OpenAI,GoogleSchooler,最話,金色財經(jīng),新智元,OneFlow,澎湃新聞,東吳證券研究所文本生成/編輯代碼生成/編輯/解釋圖像生成/編輯模型定制化微調(diào)文本搜索/分類/比較?在AGI(通用人工智能)愿景的驅(qū)動下,OpenAI的AI能力全面。OpenAI當(dāng)前模型幾乎涉及所有需要解決自然語言/代碼的理解/生成任務(wù)的領(lǐng)域,其API(ApplicationProgrammingInterface,應(yīng)用程序編程接口,編程人員可以通過API調(diào)用相關(guān)代碼文本生成/編輯代碼生成/編輯/解釋圖像生成/編輯模型定制化微調(diào)文本搜索/分類/比較圖:除ChatGPT外,OpenAI當(dāng)前的精選模型圖:OpenAI當(dāng)前API主要應(yīng)用領(lǐng)域創(chuàng)建逼真的繪畫作品,包括從0到1根據(jù)所提供元素作畫、拓展原有繪畫、根據(jù)指示修改原有繪畫等等。 “騎馬”、“逼真風(fēng)格”三個元素完成的作畫)WisperWisper:語音識別Wisper在語音識別上可以達到人類的魯棒性水平和英語語音識別的準(zhǔn)確性,并且支持多種語言的轉(zhuǎn)錄及翻譯成為英語。資資料來源:OpenAI,東吳證券研究所2GPT的升級意味AI技術(shù)進步顯著,打開萬億規(guī)模AIGC的入口GPT味著語言AI和AI整進步GPT動AIGC的發(fā)展,迎2.1技術(shù)上,GPT的升級意味著語言AI和AI整體的顯著進步?GPT基于AI的語言技術(shù)領(lǐng)域。AI的子領(lǐng)域包括計算機視覺、語言、語音、推理,不同子領(lǐng)域基于不同的底層技術(shù)(例如語言領(lǐng)域基于NLP,即自然語言處理),但訓(xùn)練算法在直覺上相通(例如視覺領(lǐng)域可以參考語言領(lǐng)域使用的Transformer改進自身的訓(xùn)練模型)。其中,GPT代表語言AI的一種實現(xiàn)方式。?ChatGPT的出現(xiàn)意味著語言AI和AI領(lǐng)域整體的顯著進步。GPT所基于的預(yù)訓(xùn)練模型Transformer在語言AI甚至AI整體領(lǐng)先,可以實現(xiàn)低成本、高效率、大規(guī)模的訓(xùn)練;ChatGPT進一步使用RLHF算法,使得產(chǎn)出更加擬人。圖:AI底層技術(shù)領(lǐng)域分類、醫(yī)學(xué)圖像分析、消費應(yīng)用(如谷歌照片)、安全應(yīng)用(如監(jiān)控、衛(wèi)星圖像分析)、工業(yè)應(yīng)用(如檢測制造和裝配中的缺陷零件)等碼生成、機器翻譯、問答和其他,比如智能客服、智能公文寫作等言人識別等資料來源:斯坦福大學(xué),資料來源:斯坦福大學(xué),OpenAI,東吳證券研究所2.2應(yīng)用上,GPT的升級推動AIGC的發(fā)展,迎萬億市場規(guī)模?AIGC(AIGeneratedContent)即AI生產(chǎn)內(nèi)容,利用AI技術(shù)賦能文本、音頻、視覺等高自由度、低門檻的內(nèi)容生產(chǎn)。?內(nèi)容消費量增加,急需降低生產(chǎn)門檻、提升生產(chǎn)效率,AIGC是大勢所趨:1.PGC、UGC受限于效率和成本,難以滿足迅速增長的內(nèi)容需求。PGC(ProfessinalGeneratedContent,專業(yè)生產(chǎn)內(nèi)容,例如愛奇藝)依賴優(yōu)質(zhì)的專業(yè)化團隊完成內(nèi)容生產(chǎn)或采購,內(nèi)容生成量級有限、成本較高;UGC(UserGeneratedContent,用戶生產(chǎn)內(nèi)容,例如抖音)依賴大體量的創(chuàng)作用戶來實現(xiàn)內(nèi)容生產(chǎn),內(nèi)容生成量級大幅提升、成本較低,但內(nèi)容質(zhì)量良2.相比PGC、UGC,AIGC(AIGeneratedContent,AI生產(chǎn)內(nèi)容,例如GPT系列)具有效率和成本上的優(yōu)勢:–AIGC效率更高:截止2021年3月,推出9個月后的GPT-3日均文本生成量45億,而2021年閱文集團新增文字量僅360億,僅相當(dāng)于GPT-38天的文字內(nèi)容生成量;–AIGC成本更低:目前OpenAI定價最高的文字模型達芬奇(基于GPT-3)為每750詞約0.02美元,2021年閱文集團內(nèi)容成本為17.74億元(每750詞約37元),是調(diào)用OpenAI的API完成相同文字量生產(chǎn)所需的成本(約672萬元)的264倍?!硐霠顩r下,如果閱文集團將2021年全年文字內(nèi)容生產(chǎn)量(360億)交給GPT-3,耗時8天即可完成,節(jié)約成本99%+,毛利率空間幾乎100%釋放。資資料來源:OpenAI,a16z,閱文集團公告,東吳證券研究所2.2應(yīng)用上,GPT的升級推動AIGC的發(fā)展,迎萬億市場規(guī)模?GPT的升級增強了AIGC能力,釋放更多潛在市場空間:GPT系列的不斷升級,增強了AIGC在編程語言(代碼生成、軟件行為生成)、自然語言(新聞撰寫、文案創(chuàng)作、對話機器人、創(chuàng)作性文本)等方面的表現(xiàn),我們離AIGC時代更進一步。?AIGC在內(nèi)容生成中的滲透率將快速提升,應(yīng)用規(guī)??焖贁U增。根據(jù)Gartner《2021年預(yù)測:人工智能對人類和社會的影響》,到2025年AIGC產(chǎn)生的數(shù)據(jù)將占所有數(shù)據(jù)的10%,而該比例在2021年不足1%。而量子位智庫根據(jù)現(xiàn)有技術(shù)及需求成熟度預(yù)測,2030年AIGC市場規(guī)模將超過萬億人民幣。圖:AIGC市場規(guī)模預(yù)測及細(xì)分場景拆分資料資料來源:OpenAI,中國AI數(shù)字商業(yè)展望2021-2025,Gartner,量子位,東吳證券研究所3ChatGPT橫空出世,利好相關(guān)基礎(chǔ)設(shè)施(算力與存儲、數(shù)據(jù)、算法)及應(yīng)用(AIGC)標(biāo)的3ChatGPT橫空出世,利好相關(guān)基礎(chǔ)設(shè)施及應(yīng)用?我們認(rèn)為,ChatGPT上線象征著文本類AI進入新階段,利好其基礎(chǔ)設(shè)施及應(yīng)用:1.基礎(chǔ)設(shè)施:–算力與存儲:如芯片、計算機等–數(shù)據(jù)–算法:訓(xùn)練大模型和NLP2.應(yīng)用–文本創(chuàng)造:有海量文本創(chuàng)造需求的公司,可以借助ChatGPT完成內(nèi)容快速、低成本地擴增,如網(wǎng)文平臺、新聞平臺等–教育:教育及科研工具類平臺,可以借助ChatGPT實現(xiàn)定制化、擬人化的教學(xué)和輔助,如智能問答、智能批閱、輔導(dǎo)資料智能撰寫等–……?同時,建議關(guān)注人工智能的其他子領(lǐng)域:受益于ChatGPT推動的預(yù)訓(xùn)練算法的進步,后續(xù)可能有突破性技術(shù)進展?ChatGPT強大的交互和信息檢索能力,對傳統(tǒng)搜索引擎形成挑戰(zhàn),利空搜索引擎相關(guān)企業(yè):微軟或?qū)hatGPT應(yīng)用于其搜索引擎Bing,利空谷歌;且谷歌搶在OpenAI創(chuàng)建之前開源了其名下的TensorFlow人工智能引擎,OpenAI從創(chuàng)立起就和谷歌存在著直接競爭關(guān)系。但是,由于ChatGPT潛在的收費可能,我們認(rèn)為其尚不能完全取代傳統(tǒng)搜索引擎。3.1.1基礎(chǔ)設(shè)施(1)-算力、存儲?高算力、海量訓(xùn)練數(shù)據(jù)是訓(xùn)練全球領(lǐng)先的AI模型的基礎(chǔ),推薦關(guān)注云基礎(chǔ)設(shè)施和AI芯片。微軟入資OpenAI后,2020年5月,微軟宣布“專門為OpenAI打造世界排名前五的超級計算機之一”;同時,雙方達成一項多年的合作協(xié)議,OpenAI開始接入微軟的Azure云平臺開發(fā)AI技術(shù)。高算力的底層基礎(chǔ)設(shè)施是完成對海量數(shù)據(jù)處理、訓(xùn)練的基礎(chǔ)。海量數(shù)據(jù)匯集也為AI模型提供強大的數(shù)據(jù)集支撐。例如GPT-3由互聯(lián)網(wǎng)上大多數(shù)英文文本訓(xùn)練而成,整個英文維基百科只占它訓(xùn)練數(shù)據(jù)整體的0.6%。?云計算提供了社會級的超大算力計算平臺和海量數(shù)據(jù)存儲平臺。云計算在數(shù)字中國建設(shè)和數(shù)字經(jīng)濟發(fā)展中起著重要的基礎(chǔ)性、先導(dǎo)性和戰(zhàn)略性作用,已成為經(jīng)濟社會數(shù)字化轉(zhuǎn)型的基石,有望在政府、企事業(yè)單位和其他組織中廣泛積累應(yīng)用和數(shù)。–地方政府方面:2022年10月28日《全國一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南》中提出要整合構(gòu)建標(biāo)準(zhǔn)統(tǒng)一、布局合理、管理協(xié)同、自主可控的全國一體化政務(wù)大數(shù)據(jù)體系,并要求到2025年政務(wù)數(shù)據(jù)全部納入目錄管理;–央國企方面:加強國企的數(shù)據(jù)安全保障,強化對國企數(shù)據(jù)資源的監(jiān)管。國資云是指由各地國資委牽頭投資、設(shè)立、運營,通過建設(shè)高安全防護水平的數(shù)據(jù)安全基礎(chǔ)設(shè)施底座。?底層硬件來看,需要高算力的AI芯片。AI芯片即專門用于處理人工智能應(yīng)用中大量計算任務(wù)的模塊,近年來國家高度關(guān)注人工智能芯片產(chǎn)業(yè)的發(fā)展,發(fā)布一系列產(chǎn)業(yè)支持政策,億歐智庫預(yù)測2025年中國AI芯片市場規(guī)模約為1780億元,目前很多企業(yè)還在發(fā)展初期。?相關(guān)公司:–云基礎(chǔ)設(shè)施:深桑達A(中國電子云成為央國企和地方政府開展國資云建設(shè)的主力軍)、易華錄(參與政務(wù)云建設(shè),數(shù)據(jù)要素市場化先發(fā)優(yōu)勢顯著)、中國移動、中國聯(lián)通、中國電信、微軟等。–AI芯片:寒武紀(jì)、地平線、華為海思、平頭哥等。3.1.1基礎(chǔ)設(shè)施(2)-數(shù)據(jù)?數(shù)據(jù)資源是人工智能技術(shù)產(chǎn)業(yè)創(chuàng)新發(fā)展的驅(qū)動力之一。數(shù)據(jù)集作為數(shù)據(jù)資源的核心組成部分,是指經(jīng)過專業(yè)化設(shè)計、采集、清洗、標(biāo)注和管理,生產(chǎn)出來的專供人工智能算法模型訓(xùn)練的數(shù)據(jù)。大數(shù)據(jù)的核心始終是面向海量數(shù)據(jù)的存儲、計算、處理等基礎(chǔ)技術(shù)。?GPT-4或不再以“大”取勝,數(shù)據(jù)在精不在多,依靠提高模型效率和數(shù)據(jù)質(zhì)量達成改進。–此前OpenAI信奉“擴展假說”,即海量數(shù)據(jù)和大量算力是通往AGI的唯一路徑。因此,OpenAI所訓(xùn)練的GPT系列參數(shù)越來越多,模型表現(xiàn)也相應(yīng)潤色。–但是,DeepMind的研究或意味著模型效率和數(shù)據(jù)質(zhì)量的提升才是未來方向。DeepMind的研究成果表明,在參數(shù)數(shù)量少一個數(shù)量級的情況下,模型依然可以獲得與常規(guī)Transformer相當(dāng)?shù)男阅埽⒃诙鄠€語言建?;鶞?zhǔn)測試中獲得最先進的性能。這意味著,在當(dāng)前文本AI模型已經(jīng)普遍使用海量數(shù)據(jù)集的背景下,通過模型效率和數(shù)據(jù)質(zhì)量的提高來改進AI性能的路徑或?qū)⑷〈蕾嚁?shù)據(jù)量提升的路徑,進一步挖掘AI的潛力。–關(guān)于GPT-4參數(shù)數(shù)量亦有兩派預(yù)測:萬億級參數(shù)數(shù)量,以“大”取勝vs略高于GPT-3的參數(shù)數(shù)量,以“精”取勝,有待GPT-4正式上線給出答案。?未來數(shù)據(jù)類企業(yè)的競爭力或體現(xiàn)在數(shù)據(jù)質(zhì)量,對數(shù)據(jù)清洗和標(biāo)注提出較高要求:根據(jù)Google的研究,數(shù)據(jù)質(zhì)量在高風(fēng)險人工智能領(lǐng)域具有更高的重要性,但人們往往只關(guān)注于模型,而忽略數(shù)據(jù)質(zhì)量,并且該結(jié)論可以或多或少地適用于所有AI領(lǐng)域。如果GPT-4更多依賴模型效率和數(shù)據(jù)質(zhì)量的提升來實現(xiàn)改進,將啟示我們重視數(shù)據(jù)清洗和標(biāo)注,關(guān)注能夠提供高質(zhì)量數(shù)據(jù)的企業(yè)。4055.344.40偏重計算機視覺4055.344.40偏重計算機視覺?數(shù)據(jù)標(biāo)注是大部分人工智能算法得以有效運行的關(guān)鍵環(huán)節(jié)。簡單來說,數(shù)據(jù)標(biāo)注是對未經(jīng)處理過的語音、圖片、文本、視頻等數(shù)據(jù)進行加工處理,從而轉(zhuǎn)變成機器可識別信息的過程。在ChatGPT訓(xùn)練的三個階段中,只有第三階段不需要使用人工標(biāo)注數(shù)據(jù),而第一、第二階段都需要大量的人工標(biāo)注。?根據(jù)智研咨詢,2015-2021年,我國數(shù)據(jù)標(biāo)注與審核行業(yè)市場規(guī)模保持穩(wěn)步增長態(tài)勢,2021年達到44.40億元。預(yù)計2028年我國數(shù)據(jù)標(biāo)注與審核行業(yè)市場規(guī)模將達262.74億元。?現(xiàn)有數(shù)據(jù)標(biāo)注以人工標(biāo)注為主,屬于勞動密集型產(chǎn)業(yè)。隨著機器學(xué)習(xí)不斷完善,自動標(biāo)注成為大趨勢。?目前我國的數(shù)據(jù)標(biāo)注與審核業(yè)務(wù)的參與者主要包括兩類,一是人工智能公司內(nèi)部的標(biāo)注部門,二是商務(wù)流程外包公司。?相關(guān)標(biāo)的:海天瑞聲(AI訓(xùn)練數(shù)據(jù)專業(yè)提供商)等。圖:2015-2022年我國數(shù)據(jù)標(biāo)注與審核行業(yè)市場規(guī)模走勢(億元)2015年2016年2017年2018年2019年2020年2021年2022年E圖:頭部數(shù)據(jù)標(biāo)注企業(yè)概況圖音2005年早期進入音2005年早期進入資資料來源:智研咨詢,信通院,東吳證券研究所3.1.1基礎(chǔ)設(shè)施(3)-算法?ChatGPT所基于的自然語言處理是AI的核心課題之一。自然語言處理(NLP,Naturallanguageprocessing)主要包括自然語言理解類任務(wù)和自然語言生成類任務(wù),其使得計算機可以理解和反饋自然語言;在NLP發(fā)展之前,人類只能通過固定模式的指令來與計算機溝通。?近兩年,對話機器人使得與智能語音相關(guān)NLP產(chǎn)品迎來了發(fā)展機遇。艾瑞統(tǒng)計研究,2021年,中國NLP核心產(chǎn)品的市場規(guī)模為171億元,帶動規(guī)模為450億元,到2026年,核心產(chǎn)品規(guī)模將達到459億元,CAGR=24.8%,帶動規(guī)模將超過1000億元。?當(dāng)前國內(nèi)領(lǐng)先的對話交互類AI算法企業(yè)主要包括兩類:–以語音識別為核心業(yè)務(wù)的企業(yè),延生到NLP領(lǐng)域,如科大訊飛,從語音識別延生到語音合成、機器翻譯、圖文識別、圖像理解、閱讀理解、機器推理等算法,并在消費者、智慧教育、智慧城市、智慧司法、智能服務(wù)、智能汽車、智慧醫(yī)療、運營商等領(lǐng)域?qū)崿F(xiàn)深度應(yīng)用。–以NLP為核心業(yè)務(wù),專注語義識別的企業(yè),如拓爾思。拓爾思是國內(nèi)最早從事自然語言處理(NLP)研發(fā)的企業(yè)之一,在語義智能領(lǐng)域具備自主可控的底層技術(shù),可以提供預(yù)訓(xùn)練模型和閱讀理解等技術(shù)成果。?相關(guān)標(biāo)的:科大訊飛(國內(nèi)AI龍頭,率先落地教育信息化等場景)、拓爾思(語義智能先鋒,搜索引擎數(shù)據(jù)庫未來可期)等。圖:2019-2026年中國NLP核心產(chǎn)品及帶動相關(guān)產(chǎn)業(yè)規(guī)模)0201920202021E2022E2023E2024E2025E2026E資資料來源:CSDN,艾瑞咨詢,東吳證券研究所3.1.2基礎(chǔ)設(shè)施標(biāo)的(1)-科大訊飛:AI語音龍頭,技術(shù)實力領(lǐng)先?科大訊飛從人工智能技術(shù)及產(chǎn)品應(yīng)用出發(fā),致力于讓機器“能聽會說,能理解會思考”。公司從語音識別延生到語音合成、機器翻譯、圖文識別、圖像理解、閱讀理解、機器推理等算法,并在消費者、智慧教育、智慧城市、智慧司法、智能服務(wù)、智能汽車、智慧醫(yī)療、運營商等領(lǐng)域?qū)崿F(xiàn)深度應(yīng)用。?公司技術(shù)實力領(lǐng)先??拼笥嶏w兩次榮獲“國家科技進步獎”及中國信息產(chǎn)業(yè)自主創(chuàng)新榮譽“信息產(chǎn)業(yè)重大技術(shù)發(fā)明獎”,被任命為中文語音交互技術(shù)標(biāo)準(zhǔn)工作組組長單位,牽頭制定中文語音技術(shù)標(biāo)準(zhǔn)。圖:科大訊飛營業(yè)收入及其同比增長情況圖:科大訊飛歸母凈利潤及其同比增長情況20020000500201720182019202020212022H50%科大訊飛營業(yè)科大訊飛營業(yè)收入(億元)30%20%yoy10%0%050100%50%0%-50%201720182019202020212022H科大訊飛歸母凈利潤(億元)yoy圖:科大訊飛PEBand資料來源:公司公告,Wind,東吳證券研究所3.1.2基礎(chǔ)設(shè)施標(biāo)的(2)-海天瑞聲:一站式數(shù)據(jù)服務(wù)提供商?海天瑞聲是我國領(lǐng)先的AI訓(xùn)練數(shù)據(jù)專業(yè)提供商。自2005年成立以來,公司始終致力于為AI產(chǎn)業(yè)鏈上的各類機構(gòu)提供AI算法模型開發(fā)訓(xùn)練所需的專業(yè)數(shù)據(jù)集。公司所提供的訓(xùn)練數(shù)據(jù)覆蓋智能語音(語音識別、語音合成等)、計算機視覺、自然語言等多個AI核心領(lǐng)域,全面服務(wù)于人機交互、智能駕駛、智慧城市等多種創(chuàng)新應(yīng)用場景。公司的產(chǎn)品和服務(wù)已獲得阿里巴巴、騰訊、百度、科大訊飛、??低?、微軟、亞馬遜、三星等國內(nèi)外客戶的認(rèn)可。?提供一站式數(shù)據(jù)服務(wù),有望受益于AI發(fā)展對上游數(shù)據(jù)訓(xùn)練集的需求。海天瑞聲提供從設(shè)計到實施(采集-清洗-脫敏-標(biāo)注)的一站式數(shù)據(jù)服務(wù)解決方案。其擁有1050+數(shù)據(jù)成品庫,包含190種語言,內(nèi)容覆蓋智能家居、智能駕駛、虛擬主播、有聲書、智慧金融、智能安防、智能搜索等數(shù)十個業(yè)務(wù)場景。同時,自研一體化數(shù)據(jù)平臺,平臺內(nèi)上千款自研標(biāo)注工具聯(lián)合打通,支持復(fù)雜業(yè)務(wù)場景標(biāo)注需求。圖:海天瑞聲營業(yè)收入及其同比增長情況圖:海天瑞聲PEBand2.502.001.501.000.500.0020182019202020212022H12018201920202021營業(yè)收入(億元)同比70%60%50%40%30%20%10%0%-20%資資料來源:公司公告,Wind,東吳證券研究所3.1.2基礎(chǔ)設(shè)施標(biāo)的(3)-拓爾思:領(lǐng)先的大數(shù)據(jù)和人工智能提供商?拓爾思是領(lǐng)先的大數(shù)據(jù)、人工智能、數(shù)據(jù)安全產(chǎn)品和服務(wù)提供商,其主營業(yè)務(wù)包括:①人工智能:專注于語義智能(也經(jīng)常被稱為語言智能或者認(rèn)知智能)技術(shù)(包括NLP)的研發(fā)和產(chǎn)業(yè)化。②大數(shù)據(jù):以數(shù)據(jù)獲取、數(shù)據(jù)治理、數(shù)據(jù)檢索、數(shù)據(jù)分析挖掘全生命周期的技術(shù)能力提供大數(shù)據(jù)產(chǎn)品及服務(wù)。③數(shù)據(jù)安全:全資子公司天行網(wǎng)安提供數(shù)據(jù)安全傳輸和交換產(chǎn)品及服務(wù)。?公司人工智能和大數(shù)據(jù)兩大業(yè)務(wù)(合計占比72%)有望受益于ChatGPT帶來的市場增益。?人工智能-文本AI算法:公司是國內(nèi)最早從事自然語言處理(NLP)研發(fā)的企業(yè)之一,在語義智能領(lǐng)域具備自主可控的底層技術(shù),可以提供預(yù)訓(xùn)練模型和閱讀理解等技術(shù)成果。?大數(shù)據(jù)-文本AI數(shù)據(jù):公司是最早從事中文全文檢索技術(shù)研發(fā)的企業(yè),現(xiàn)已將領(lǐng)先優(yōu)勢拓展到數(shù)據(jù)采集、治理、分析挖掘等大數(shù)據(jù)核心技術(shù)的全生命周期。圖:2022H1拓爾思營業(yè)收入產(chǎn)品結(jié)構(gòu)圖圖:拓爾思PEBand資資料來源:公司公告,Wind,東吳證券研究所3.2.1應(yīng)用-關(guān)注在文/音/圖/視頻等AIGC領(lǐng)域布局的國內(nèi)外公司?海內(nèi)外公司已經(jīng)廣泛在文/音/圖/視頻等AIGC領(lǐng)域布局。代碼代碼公司公司AIAI生成文字AIAI生成聲音AIAI生成圖像AIAI生成視頻AIAI生成虛擬人AIAI生成游戲AIAI多模態(tài)300624萬興科技萬興AI繪畫√200264中文在線√300418昆侖萬維MusicXlab002230科大訊飛√√300058藍色光標(biāo)銷銷博特營銷數(shù)據(jù)平臺藍標(biāo)分身分身有數(shù)0020.HK商湯科技商湯智影DI-star0700.HK騰訊DDreamwriter絕悟AI9999.HK伏羲1357.HK美圖秀秀美圖AI開放平臺美圖影像研究院BABA.USDTDT稿王鹿班塔璣阿里M6-10TBIDU.US百度AIAI助理AI助理文心一格Vidpress曦靈ERNIE-ViLG未上市思必馳√未上市字節(jié)XiXiaomingbotJukedeck,剪映智能創(chuàng)作語音SAMI剪映火山引擎未上市RctAI混沌球未上市影譜科技視頻自動剪輯√未上市倒映有聲√一視同人MFST.US微軟MegatronMegatronTuringNLG小冰框架GODIVA微軟&北大(女媧)GOOG.USGoogleAVAV-HuBERT,PaLMMagentaImagen,Parti,NeRF,NeRVImagenVideo,PhenakiMETA.USMetaMetaMeta&哥大(VX2Text)MakeaSceneMakeAVideoGato、Data2vecNVDA.USNVIDAMegatronMegatronTuringNLGGauGAN、GauGAN2PoE-GANADBE.USAdobeInsetGANSensei未上市OpenAIGPTGPT-3.5,ChatGPTGLIDE,DALLE,DALLE2CLIP未上市StableDiffusion其他公司(產(chǎn)品)聆聆心智能寫作貓寫作狐Latitude.io靈動音科技ReadspeakerDeepZenSonanticAIVA,IBM盜夢師智源(悟道文瀾)數(shù)字力場Discord(MidJourney)帝視科技央視網(wǎng)(AI編輯部)IBM(Watson)RunwayMLWisecut,Kaleido拓爾思搜狗數(shù)字力場數(shù)字王國相芯科技超參數(shù)中科院(紫東太初)?我們認(rèn)為ChatGPT是AIGC應(yīng)用又一個起點,隨著深度學(xué)習(xí)模型不斷完善、開源模式的推動、大模型探索商業(yè)化的可能,AIGC有望加速發(fā)展,互資資料來源:各公司公告,界面新聞,新浪新聞,商湯官網(wǎng),機器之心,量子位,網(wǎng)易伏羲,互動易,美圖AI開放平臺,中國科學(xué)網(wǎng),果殼硬科技,微軟,超參數(shù)科技,電商在線,百度智能云,Google,BroadhurstDigital,MetaAI,MSN,NVIDA,thedecoder,Adobe,東吳證券研究所3.2.2應(yīng)用標(biāo)的(1)-微軟:投資OpenAI,或成為AI時代最大玩家?微軟已在AI領(lǐng)域多個細(xì)分賽道取得成就,并正嘗試將AI成果與自身產(chǎn)品相融合(如將DALLE-2和ChatGPT接入Bing搜索引擎,將GPT接入MSOffice全家桶等),前景向好:–AI編程:微軟旗下Github發(fā)布AI自動編程工具Copilot,在業(yè)內(nèi)引發(fā)轟動;–AI科研:23年初推出算法VALL-E,只需三秒即可復(fù)刻人類聲音,被大量科學(xué)家評為2023年迄今質(zhì)量最高的AIGC論文。–投資OpenAI:2019年向OpenAI投資10億美元;2023年初正在與OpenAI就投資100億美元開展談判,如談判達成,微軟將持有OpenAI49%的股權(quán)。?微軟在元宇宙領(lǐng)域綜合實力亦十分強勁,B端&C端均有布局。在B端,微軟第一個提出“企業(yè)元宇宙”概念的公司,通過打造企業(yè)元宇宙技術(shù)堆棧,提供一系列數(shù)據(jù)基礎(chǔ)設(shè)施和工具,為后疫情時代企業(yè)組織結(jié)構(gòu)的變動及生產(chǎn)效率的提升提供助力;在C端,微軟在游戲內(nèi)容、游戲社區(qū)、云游戲及硬件上實現(xiàn)了全方位覆蓋。我們認(rèn)為,微軟的元宇宙路徑扎實,在未來數(shù)字化時代的競爭中占據(jù)有利位置;同時也看好微軟在AIGC上的技術(shù)積淀為元宇宙業(yè)務(wù)服務(wù),元宇宙業(yè)務(wù)為其提供應(yīng)用場景。3.2.2應(yīng)用標(biāo)的(2)-META:看好視頻AIGC工具與內(nèi)容業(yè)務(wù)共振?自2021年10月改名META(原為FACEBOOK)、全面進軍元宇宙以來,META2022年在AIGC領(lǐng)域也有進一步動作。–2022年7月,公布自研的文本生成圖像AI模型Make-A-Scene。–2022年9月下旬,發(fā)布從文本生成視頻的AI系統(tǒng)“Make-A-Video”,即根據(jù)輸入的自然語言文本生成一段5秒鐘左右的短視頻;也可以從圖像和視頻生成視頻。?AI生成視頻難度顯著大于生成圖像,該模型的發(fā)布彰顯了META在AI領(lǐng)域的潛力。系統(tǒng)除了要正確生成每個像素外,還需預(yù)測像素將如何隨時間變化。Make-A-Video能夠理解物理世界中的運動,并將其應(yīng)用于傳統(tǒng)的文本生成圖像AI技術(shù)中。?META本身在元宇宙內(nèi)容領(lǐng)域深度布局(云和VR游戲等),我們看好其AIGC產(chǎn)品與元宇宙內(nèi)容業(yè)務(wù)產(chǎn)生協(xié)同。圖:Make-A-Video工作原理示意圖資料來源:東西游戲,東吳證券研究資料來源:東西游戲,東吳證券研究所3.2.2應(yīng)用標(biāo)的(3)-百度:AIGC全面賦能業(yè)務(wù),打出組合拳百度聯(lián)合AIGC多個領(lǐng)域打出組合拳:文心大模型:百度通過大模型與深度學(xué)習(xí)框架融合打造的自主創(chuàng)新AI底座,大幅降低AI開發(fā)和應(yīng)用的門檻。圖:百度文心大模型全景圖–創(chuàng)作者AI助理團:包括AI圖:百度文心大模型全景圖以及圖片轉(zhuǎn)換成視頻等,為創(chuàng)作者提供視頻制作助理”,幫助創(chuàng)作者實現(xiàn)“一個人成為一支隊伍”,低門檻、高效率地生產(chǎn)高質(zhì)量內(nèi)容。例如,中青網(wǎng)借助百家號的AIGC圖文轉(zhuǎn)視頻技術(shù),視頻內(nèi)容產(chǎn)量提升了80%,圖文轉(zhuǎn)視頻作品播放量超過同款–百度APP數(shù)字人計劃:將數(shù)字人技術(shù)與AIGC圖文轉(zhuǎn)視頻、TTS語音合成技術(shù)結(jié)合,為媒體及創(chuàng)作者定制真人孿生數(shù)字人。創(chuàng)作者輸入文本即可生成有數(shù)字主持人口播的視頻,不僅保證信息播報準(zhǔn)確性,還具備多國語言口播、情緒識別等人格化功能,實時不停播。–AIGC媒體聯(lián)盟:目前,百度已經(jīng)和數(shù)十家權(quán)威媒體成立“AIGC媒體聯(lián)盟”,推動AI能媒體行業(yè)。資料資料來源:百度2022Create大會,澎湃新聞,文匯網(wǎng),東吳證券研究所3.2.2應(yīng)用標(biāo)的(4)-閱文集團:攜手微軟AI賦能網(wǎng)絡(luò)文學(xué)?閱文集團旗下囊括QQ閱讀、起點中文網(wǎng)、新麗傳媒等業(yè)界知名品牌,匯聚了強大的創(chuàng)作者陣營、豐富的作品儲備,覆蓋200多種內(nèi)容品類,觸達數(shù)億用戶,已成功輸出《慶余年》《贅婿》《鬼吹燈》《全職高手》《斗羅大陸》《瑯琊榜》等大量優(yōu)秀網(wǎng)文IP,改編為動漫、影視、游戲等多業(yè)態(tài)產(chǎn)品。?閱文集團已經(jīng)有AI融入業(yè)務(wù)的嘗試:例如,攜手彩云科技完成30部AI翻譯作品;攜手微軟推出AI賦能網(wǎng)絡(luò)文學(xué)“IP喚起方案”(復(fù)建小說角色為可互動虛擬人)。圖:閱文旗下紅袖讀書攜手微軟推出“IP喚醒計劃”資資料來源:公司公告,環(huán)球網(wǎng),云庫科技,東吳證券研究所3.2.2應(yīng)用標(biāo)的(5)-中文在線:AI輔助創(chuàng)作上線,大幅提升效率?中文在線以自有原創(chuàng)平臺、知名作家、版權(quán)機構(gòu)為正版數(shù)字內(nèi)容來源,積累數(shù)字內(nèi)容資源超510萬種,網(wǎng)絡(luò)原創(chuàng)駐站作者440萬名;旗下?lián)碛?7K小說網(wǎng)、四月天小說網(wǎng)、萬丈書城、科幻廠牌“奇想宇宙”、懸疑廠牌“謎想計劃”等原創(chuàng)平臺。在對數(shù)字內(nèi)容進行聚合和管理后,向多終端、多平臺、全媒體分發(fā)數(shù)字閱讀產(chǎn)品;以文學(xué)IP為核心,對優(yōu)質(zhì)網(wǎng)文進行音頻、中短劇、動漫

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論