ChatGPT：又一個“人形機器人”主題

上傳人：策*** IP屬地：山西上傳時間：2023-01-30 格式：DOCX 頁數(shù)：65 大?。?.36MB 積分：19.9 舉報 版權(quán)申訴

已閱讀5頁，還剩60頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

證券分析師執(zhí)業(yè)證書:S0600518120001yjs_chenl@證券分析師張良衛(wèi)執(zhí)業(yè)證書:S0600516070001zhanglw@研究助理郭若娜執(zhí)業(yè)證書:S0600122080017guorn@研究助理張文佳執(zhí)業(yè)證書:S0600122080015dwzqcomcn主要內(nèi)容2?ChatGPT是2022年11月30日OpenAI推出的一款對話式AI模型，是其GPT系列新作，功能更全面&更類人，潛在應(yīng)用空間更為廣泛。Transformer和產(chǎn)出更類人的RLHF算法。?應(yīng)用上，GPT的升級推動AIGC的發(fā)展，AIGC滲透率有望在2025年提升至10%，市場規(guī)?；?qū)⒂?030年逾萬億。?ChatGPT橫空出世，利好相關(guān)基礎(chǔ)設(shè)施和應(yīng)用：–算法、數(shù)據(jù)、算力是AI大模型訓(xùn)練的基礎(chǔ)，建議關(guān)注基礎(chǔ)設(shè)施相關(guān)標(biāo)的：科大訊飛、海天瑞聲、拓爾思等；–ChatGPT上線推動文本類AI滲透于文本生產(chǎn)、智能批閱等應(yīng)用領(lǐng)域，同時其對訓(xùn)練模型的改進對AIGC的全面發(fā)展有廣泛意義，建議關(guān)注在相關(guān)領(lǐng)域布局的：微軟、Meta、百度、閱文集團、中文在線、粉筆等。?風(fēng)險提示：ChatGPT技術(shù)發(fā)展不完善、應(yīng)用不及預(yù)期；AI基礎(chǔ)設(shè)施不及預(yù)期；AI倫理風(fēng)險等1ChatGPT：突破式的GPT新作2GPT的升級意味AI技術(shù)進步顯著，打開萬億規(guī)模AIGC的入口3ChatGPT橫空出世，利好相關(guān)基礎(chǔ)設(shè)施(算力與存儲、數(shù)據(jù)、算法)及應(yīng)用(AIGC)4風(fēng)險提示1ChatGPT：突破式的GPT新作1.1.1ChatGPT：突破性的對話式AI模型?ChatGPT是一款對話式AI模型，根據(jù)用戶輸入的文本，自動生成回復(fù)內(nèi)容。2022年11月30日，OpenAI發(fā)布了對話式AI新模型ChatGPT。該模型使用簡單，只需向ChatGPT文字提出需求，即可讓其完成回答問題、書寫代碼、創(chuàng)作文本等指令。?ChatGPT的功能包括：交互，以及基于交互的文本/代碼創(chuàng)造、信息檢索等。實際應(yīng)用上，ChatGPT等文本AI可能幫助文本創(chuàng)造類行業(yè)完成智能內(nèi)容生成，并一定程度上替代搜索引擎。圖：ChatGPT使用示意5資資料來源：OpenAI，東吳證券研究所1.1.2ChatGPT：GPT系列新作，功能更全面，表現(xiàn)更類人?ChatGPT是GPT-3和GPT-4之間的過渡版本。GPT即生成型預(yù)訓(xùn)練變換模型(GenerativePre-trainedTransformer)，是解決NLP(自然語言處理)任務(wù)的訓(xùn)練模型之一。該預(yù)訓(xùn)練模型基于Transformer架構(gòu)(具有自注意力機制，可以捕捉句子中的上下文關(guān)系)，可以根據(jù)給定文本預(yù)測下一個單詞的概率分布，從而生成人類可以理解的自然語言。ChatGPT從GPT-3.5模型微調(diào)而來，Chat強調(diào)了其為了對話而優(yōu)化，具有記憶能力，可以完成連續(xù)性對話。?從GPT-1到ChatGPT，使用更先進的訓(xùn)練模型、更海量的訓(xùn)練數(shù)據(jù)，功能越來越全面，表現(xiàn)越來越類人。表：GPT系列產(chǎn)品升級情況6資資料來源：WalmartGlobalTechBlog，OpenAI，澎湃，東吳證券研究所Elicit：人工智能研究助理Elicit從大量研究論文中找到與研究問題最相關(guān)的摘要，然后應(yīng)用Elicit：人工智能研究助理Elicit從大量研究論文中找到與研究問題最相關(guān)的摘要，然后應(yīng)用GPT-3總結(jié)論文對這個問題的主張。GPT-3使得結(jié)果更容易理解(改進了24%)、更準(zhǔn)確 (改進了17%)、總體上更好(改進了33%)。Algolia：搜索引擎Algolia將GPT-3與其先進的搜索技術(shù)集成，幫助出版商和客戶以自然語言查詢問題的答案。在對210萬篇新聞文章進行GPT-3測試后，Algolia精確回答問題的精度為91%或更高。7?ChatGPT得到的關(guān)注空前。2022年12月5日，上線僅5天的ChatGPT用戶數(shù)量突破100萬，而GPT-3耗時將近24個月才達到該用戶規(guī)模。?ChatGPT應(yīng)用空間廣泛，潛在市場規(guī)?？捎^。以過往版本GPT-3為例，截止2021年3月，上線9個月的GPT-3已經(jīng)有了300+應(yīng)用客戶，領(lǐng)域涵蓋智能客服、教育與科研、游戲、搜索引擎等。出于更出色的表現(xiàn)和更高的關(guān)注度，ChatGPT及其背后的GPT-3.5的應(yīng)用空間有望較GPT-3更為廣闊。圖：GPT-3應(yīng)用示例ViableViable：幫助公司分析客戶反饋借助GPT-3，Viable將大量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為可讀的自然語言報告，包括客戶的投訴、贊美、請求和問題等。GPT-3將Viable總結(jié)客戶反饋的準(zhǔn)確性從66%提高到90%，為公司產(chǎn)品決策提供信息。FableFableStudio：VR游戲工作室在VR游戲《墻中狼》中，F(xiàn)ableStudio借助GPT-3，塑造了陪伴式虛擬角色Lucy，可以實現(xiàn)與人們自然的對話，加深玩家與游戲角色的情感牽絆。資料來源：OpenAI，雷峰網(wǎng)，東吳證券研究所1.2.1ChatGPT仍然有改進空間?ChatGPT仍有改進的空間：當(dāng)前偶爾可能生成不正確或荒謬的信息；可能會有違反倫理道德的答案；由于其所基于的訓(xùn)練數(shù)據(jù)庫僅截止2021年(而非基于實時數(shù)據(jù))，回答可能已經(jīng)過時等。圖：ChatGPT可能會有違反倫理道德的答案圖：ChatGPT可能會生成不正確或荒謬的信息圖：ChatGPT回答可能過時8資資料來源：OpenAI，東吳證券研究所1750MeenaBlenderGPT-3悟道2.0GPT-407311.2.2預(yù)計GPT-4效果更優(yōu)、成本更低，催化更多應(yīng)用場景落地1750MeenaBlenderGPT-3悟道2.0GPT-40731.生成式預(yù)訓(xùn)練模型GPT-4預(yù)計將于2022年12月至2023年2月發(fā)布。GPT文本模型會有大幅改進：.規(guī)模提升：訓(xùn)練數(shù)據(jù)量、token數(shù)、模型參數(shù)量或均有所提升，從而優(yōu)化模型.圖靈測試：此前一些AI模型僅部分能力通過圖靈測試，而GPT-4有望完全通過.成本下降：通常模型訓(xùn)練成本隨著模型規(guī)模提升而提升，但GPT-4的訓(xùn)練成本GPT范圍內(nèi)，從而降低AI技術(shù)的使用門檻。GPT用的潛在影響：AIAI心理咨詢、營銷文本等成更加“專業(yè)”的文字，對應(yīng)金融、醫(yī)學(xué)、新聞、工業(yè)等垂直行圖：文本模型規(guī)模：GPT-4模型參數(shù)量或提升至10萬億級別20000100003300330049950034158949950034188.8409.42.6token數(shù)(B)模token數(shù)(B)模型參數(shù)量(B)GoogleMetaOpenAI北京智源OpenAI2020/01發(fā)布2020/04發(fā)布2020/05發(fā)布2021/06發(fā)布預(yù)計2022/12-2023/2發(fā)布圖：文本模型圖靈測試：GPT-4或?qū)⑼耆ㄟ^測試，達到人類水平7972565564831XiaoiceDialoGPTCleverbotMitsukuMeena(Base)MeenaGPT-4微軟WorswickGoogleGoogleOpenAI2018發(fā)布2018發(fā)布2019發(fā)布2020發(fā)布2020發(fā)布2021發(fā)布預(yù)計2022/12-2023/2發(fā)布圖：文本模型訓(xùn)練成本(萬美元)：總體呈上升趨勢，但GPT-4相比GPT-3顯著下降4814GPT-2OpenAI2019/02發(fā)布GPTGPT-2OpenAI2019/02發(fā)布GPT-3OpenAI2020/05發(fā)布GPT-4OpenAI預(yù)計2022/12-2023/2發(fā)布9NMTGoogle2016/09發(fā)布BERTGoogle2018/11發(fā)布Google2020/01發(fā)布資料來源：機器之心，新智元，MITTechnologyReview，Engadget，AI科技評論，聆心智能，Github,AppleAPPStore,Botpenguin,虎嗅網(wǎng)，GoogleAI，ARKinvest，東吳證券研究所1.3OpenAI：ChatGPT的源頭公司圖：圖：ChatGPT源頭公司OpenAI?OpenAI是ChatGPT的源頭公司，公司主要歷史如下：–2015年，馬斯克和SamAltman等人共同創(chuàng)立了OpenAInonprofit，使命為確保通用人工智能(ArtificialGeneralIntelligence,AGI)，即一種高度自主且在大多數(shù)具有經(jīng)濟價值的工作上超越人類的系統(tǒng)，將為全人類帶來福祉。–2018年，由于特斯拉和AI技術(shù)的關(guān)聯(lián)越來越深、外界越發(fā)擔(dān)憂特斯拉將運用OpenAI的技術(shù)實現(xiàn)系統(tǒng)和產(chǎn)品升級，馬斯克于2018年離開OpenAI的董事會，轉(zhuǎn)變?yōu)橘澲吆皖檰?。–2019年，在訓(xùn)練模型的高成本壓力下，OpenAI劃分出有利潤上限的盈利性組織OpenAILP。緊隨其后，微軟宣布為OpenAI注資10億美元，并獲得了將OpenAI部分AI技術(shù)商業(yè)化、賦能產(chǎn)品的許可，后續(xù)微軟可能會將OpenAI的技術(shù)與搜索引擎、辦公軟件等相整合。?OpenAI2022年營業(yè)收入約8000萬美元，且據(jù)OpenAI預(yù)測，2023、2024年營業(yè)收入將分別達到2億和10億。(路透社)?目前，OpenAI董事會由董事長兼總裁GregBrockman、首席科學(xué)家IlyaSutskever和首席執(zhí)行官SamAltman等人組成。其中，首席科學(xué)家IlyaSutskever是AI領(lǐng)域全球最有影響力的學(xué)者之一，文獻引用量高達36萬，單篇最高引用量12萬，主導(dǎo)或參與了AlexNet，AlphaGo，GPT、CLIP、DALL-E和Codex的研發(fā)。?OpenAI主要投資者包括微軟、ReidHoffman’scharitablefoundation和KhoslaVentures。路透社稱，微軟希望向OpenAI追加投資100億美元，如談判達成，微軟將持有OpenAI49%的股權(quán)，OpenAI的非營利性母公司持有2%，其余投資者持有剩余49%。資資料來源：OpenAI，GoogleSchooler，最話，金色財經(jīng)，新智元，OneFlow，澎湃新聞，東吳證券研究所文本生成/編輯代碼生成/編輯/解釋圖像生成/編輯模型定制化微調(diào)文本搜索/分類/比較?在AGI(通用人工智能)愿景的驅(qū)動下，OpenAI的AI能力全面。OpenAI當(dāng)前模型幾乎涉及所有需要解決自然語言/代碼的理解/生成任務(wù)的領(lǐng)域，其API(ApplicationProgrammingInterface,應(yīng)用程序編程接口，編程人員可以通過API調(diào)用相關(guān)代碼文本生成/編輯代碼生成/編輯/解釋圖像生成/編輯模型定制化微調(diào)文本搜索/分類/比較圖：除ChatGPT外，OpenAI當(dāng)前的精選模型圖：OpenAI當(dāng)前API主要應(yīng)用領(lǐng)域創(chuàng)建逼真的繪畫作品，包括從0到1根據(jù)所提供元素作畫、拓展原有繪畫、根據(jù)指示修改原有繪畫等等。 “騎馬”、“逼真風(fēng)格”三個元素完成的作畫)WisperWisper：語音識別Wisper在語音識別上可以達到人類的魯棒性水平和英語語音識別的準(zhǔn)確性，并且支持多種語言的轉(zhuǎn)錄及翻譯成為英語。資資料來源：OpenAI，東吳證券研究所2GPT的升級意味AI技術(shù)進步顯著，打開萬億規(guī)模AIGC的入口GPT味著語言AI和AI整進步GPT動AIGC的發(fā)展，迎2.1技術(shù)上，GPT的升級意味著語言AI和AI整體的顯著進步?GPT基于AI的語言技術(shù)領(lǐng)域。AI的子領(lǐng)域包括計算機視覺、語言、語音、推理，不同子領(lǐng)域基于不同的底層技術(shù)(例如語言領(lǐng)域基于NLP，即自然語言處理)，但訓(xùn)練算法在直覺上相通(例如視覺領(lǐng)域可以參考語言領(lǐng)域使用的Transformer改進自身的訓(xùn)練模型)。其中，GPT代表語言AI的一種實現(xiàn)方式。?ChatGPT的出現(xiàn)意味著語言AI和AI領(lǐng)域整體的顯著進步。GPT所基于的預(yù)訓(xùn)練模型Transformer在語言AI甚至AI整體領(lǐng)先，可以實現(xiàn)低成本、高效率、大規(guī)模的訓(xùn)練；ChatGPT進一步使用RLHF算法，使得產(chǎn)出更加擬人。圖：AI底層技術(shù)領(lǐng)域分類、醫(yī)學(xué)圖像分析、消費應(yīng)用(如谷歌照片)、安全應(yīng)用(如監(jiān)控、衛(wèi)星圖像分析)、工業(yè)應(yīng)用(如檢測制造和裝配中的缺陷零件)等碼生成、機器翻譯、問答和其他，比如智能客服、智能公文寫作等言人識別等資料來源：斯坦福大學(xué)，資料來源：斯坦福大學(xué)，OpenAI，東吳證券研究所2.2應(yīng)用上，GPT的升級推動AIGC的發(fā)展，迎萬億市場規(guī)模?AIGC(AIGeneratedContent)即AI生產(chǎn)內(nèi)容，利用AI技術(shù)賦能文本、音頻、視覺等高自由度、低門檻的內(nèi)容生產(chǎn)。?內(nèi)容消費量增加，急需降低生產(chǎn)門檻、提升生產(chǎn)效率，AIGC是大勢所趨：1.PGC、UGC受限于效率和成本，難以滿足迅速增長的內(nèi)容需求。PGC(ProfessinalGeneratedContent，專業(yè)生產(chǎn)內(nèi)容，例如愛奇藝)依賴優(yōu)質(zhì)的專業(yè)化團隊完成內(nèi)容生產(chǎn)或采購，內(nèi)容生成量級有限、成本較高；UGC(UserGeneratedContent，用戶生產(chǎn)內(nèi)容，例如抖音)依賴大體量的創(chuàng)作用戶來實現(xiàn)內(nèi)容生產(chǎn)，內(nèi)容生成量級大幅提升、成本較低，但內(nèi)容質(zhì)量良2.相比PGC、UGC，AIGC(AIGeneratedContent，AI生產(chǎn)內(nèi)容，例如GPT系列)具有效率和成本上的優(yōu)勢：–AIGC效率更高：截止2021年3月，推出9個月后的GPT-3日均文本生成量45億，而2021年閱文集團新增文字量僅360億，僅相當(dāng)于GPT-38天的文字內(nèi)容生成量；–AIGC成本更低：目前OpenAI定價最高的文字模型達芬奇(基于GPT-3)為每750詞約0.02美元，2021年閱文集團內(nèi)容成本為17.74億元(每750詞約37元)，是調(diào)用OpenAI的API完成相同文字量生產(chǎn)所需的成本(約672萬元)的264倍?！硐霠顩r下，如果閱文集團將2021年全年文字內(nèi)容生產(chǎn)量(360億)交給GPT-3，耗時8天即可完成，節(jié)約成本99%+，毛利率空間幾乎100%釋放。資資料來源：OpenAI，a16z,閱文集團公告，東吳證券研究所2.2應(yīng)用上，GPT的升級推動AIGC的發(fā)展，迎萬億市場規(guī)模?GPT的升級增強了AIGC能力，釋放更多潛在市場空間：GPT系列的不斷升級，增強了AIGC在編程語言(代碼生成、軟件行為生成)、自然語言(新聞撰寫、文案創(chuàng)作、對話機器人、創(chuàng)作性文本)等方面的表現(xiàn)，我們離AIGC時代更進一步。?AIGC在內(nèi)容生成中的滲透率將快速提升，應(yīng)用規(guī)?？焖贁U增。根據(jù)Gartner《2021年預(yù)測：人工智能對人類和社會的影響》，到2025年AIGC產(chǎn)生的數(shù)據(jù)將占所有數(shù)據(jù)的10%，而該比例在2021年不足1%。而量子位智庫根據(jù)現(xiàn)有技術(shù)及需求成熟度預(yù)測，2030年AIGC市場規(guī)模將超過萬億人民幣。圖：AIGC市場規(guī)模預(yù)測及細(xì)分場景拆分資料資料來源：OpenAI，中國AI數(shù)字商業(yè)展望2021-2025，Gartner，量子位，東吳證券研究所3ChatGPT橫空出世，利好相關(guān)基礎(chǔ)設(shè)施(算力與存儲、數(shù)據(jù)、算法)及應(yīng)用(AIGC)標(biāo)的3ChatGPT橫空出世，利好相關(guān)基礎(chǔ)設(shè)施及應(yīng)用?我們認(rèn)為，ChatGPT上線象征著文本類AI進入新階段，利好其基礎(chǔ)設(shè)施及應(yīng)用：1.基礎(chǔ)設(shè)施：–算力與存儲：如芯片、計算機等–數(shù)據(jù)–算法：訓(xùn)練大模型和NLP2.應(yīng)用–文本創(chuàng)造：有海量文本創(chuàng)造需求的公司，可以借助ChatGPT完成內(nèi)容快速、低成本地擴增，如網(wǎng)文平臺、新聞平臺等–教育：教育及科研工具類平臺，可以借助ChatGPT實現(xiàn)定制化、擬人化的教學(xué)和輔助，如智能問答、智能批閱、輔導(dǎo)資料智能撰寫等–……?同時，建議關(guān)注人工智能的其他子領(lǐng)域：受益于ChatGPT推動的預(yù)訓(xùn)練算法的進步，后續(xù)可能有突破性技術(shù)進展?ChatGPT強大的交互和信息檢索能力，對傳統(tǒng)搜索引擎形成挑戰(zhàn)，利空搜索引擎相關(guān)企業(yè)：微軟或?qū)hatGPT應(yīng)用于其搜索引擎Bing，利空谷歌；且谷歌搶在OpenAI創(chuàng)建之前開源了其名下的TensorFlow人工智能引擎，OpenAI從創(chuàng)立起就和谷歌存在著直接競爭關(guān)系。但是，由于ChatGPT潛在的收費可能，我們認(rèn)為其尚不能完全取代傳統(tǒng)搜索引擎。3.1.1基礎(chǔ)設(shè)施(1)-算力、存儲?高算力、海量訓(xùn)練數(shù)據(jù)是訓(xùn)練全球領(lǐng)先的AI模型的基礎(chǔ)，推薦關(guān)注云基礎(chǔ)設(shè)施和AI芯片。微軟入資OpenAI后，2020年5月，微軟宣布“專門為OpenAI打造世界排名前五的超級計算機之一”；同時，雙方達成一項多年的合作協(xié)議，OpenAI開始接入微軟的Azure云平臺開發(fā)AI技術(shù)。高算力的底層基礎(chǔ)設(shè)施是完成對海量數(shù)據(jù)處理、訓(xùn)練的基礎(chǔ)。海量數(shù)據(jù)匯集也為AI模型提供強大的數(shù)據(jù)集支撐。例如GPT-3由互聯(lián)網(wǎng)上大多數(shù)英文文本訓(xùn)練而成，整個英文維基百科只占它訓(xùn)練數(shù)據(jù)整體的0.6%。?云計算提供了社會級的超大算力計算平臺和海量數(shù)據(jù)存儲平臺。云計算在數(shù)字中國建設(shè)和數(shù)字經(jīng)濟發(fā)展中起著重要的基礎(chǔ)性、先導(dǎo)性和戰(zhàn)略性作用，已成為經(jīng)濟社會數(shù)字化轉(zhuǎn)型的基石，有望在政府、企事業(yè)單位和其他組織中廣泛積累應(yīng)用和數(shù)。–地方政府方面：2022年10月28日《全國一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南》中提出要整合構(gòu)建標(biāo)準(zhǔn)統(tǒng)一、布局合理、管理協(xié)同、自主可控的全國一體化政務(wù)大數(shù)據(jù)體系，并要求到2025年政務(wù)數(shù)據(jù)全部納入目錄管理；–央國企方面：加強國企的數(shù)據(jù)安全保障，強化對國企數(shù)據(jù)資源的監(jiān)管。國資云是指由各地國資委牽頭投資、設(shè)立、運營，通過建設(shè)高安全防護水平的數(shù)據(jù)安全基礎(chǔ)設(shè)施底座。?底層硬件來看，需要高算力的AI芯片。AI芯片即專門用于處理人工智能應(yīng)用中大量計算任務(wù)的模塊，近年來國家高度關(guān)注人工智能芯片產(chǎn)業(yè)的發(fā)展，發(fā)布一系列產(chǎn)業(yè)支持政策，億歐智庫預(yù)測2025年中國AI芯片市場規(guī)模約為1780億元，目前很多企業(yè)還在發(fā)展初期。?相關(guān)公司：–云基礎(chǔ)設(shè)施：深桑達A(中國電子云成為央國企和地方政府開展國資云建設(shè)的主力軍)、易華錄(參與政務(wù)云建設(shè)，數(shù)據(jù)要素市場化先發(fā)優(yōu)勢顯著)、中國移動、中國聯(lián)通、中國電信、微軟等。–AI芯片：寒武紀(jì)、地平線、華為海思、平頭哥等。3.1.1基礎(chǔ)設(shè)施(2)-數(shù)據(jù)?數(shù)據(jù)資源是人工智能技術(shù)產(chǎn)業(yè)創(chuàng)新發(fā)展的驅(qū)動力之一。數(shù)據(jù)集作為數(shù)據(jù)資源的核心組成部分，是指經(jīng)過專業(yè)化設(shè)計、采集、清洗、標(biāo)注和管理，生產(chǎn)出來的專供人工智能算法模型訓(xùn)練的數(shù)據(jù)。大數(shù)據(jù)的核心始終是面向海量數(shù)據(jù)的存儲、計算、處理等基礎(chǔ)技術(shù)。?GPT-4或不再以“大”取勝，數(shù)據(jù)在精不在多，依靠提高模型效率和數(shù)據(jù)質(zhì)量達成改進。–此前OpenAI信奉“擴展假說”，即海量數(shù)據(jù)和大量算力是通往AGI的唯一路徑。因此，OpenAI所訓(xùn)練的GPT系列參數(shù)越來越多，模型表現(xiàn)也相應(yīng)潤色。–但是，DeepMind的研究或意味著模型效率和數(shù)據(jù)質(zhì)量的提升才是未來方向。DeepMind的研究成果表明，在參數(shù)數(shù)量少一個數(shù)量級的情況下，模型依然可以獲得與常規(guī)Transformer相當(dāng)?shù)男阅埽⒃诙鄠€語言建?；鶞?zhǔn)測試中獲得最先進的性能。這意味著，在當(dāng)前文本AI模型已經(jīng)普遍使用海量數(shù)據(jù)集的背景下，通過模型效率和數(shù)據(jù)質(zhì)量的提高來改進AI性能的路徑或?qū)⑷〈蕾嚁?shù)據(jù)量提升的路徑，進一步挖掘AI的潛力。–關(guān)于GPT-4參數(shù)數(shù)量亦有兩派預(yù)測：萬億級參數(shù)數(shù)量，以“大”取勝vs略高于GPT-3的參數(shù)數(shù)量，以“精”取勝，有待GPT-4正式上線給出答案。?未來數(shù)據(jù)類企業(yè)的競爭力或體現(xiàn)在數(shù)據(jù)質(zhì)量，對數(shù)據(jù)清洗和標(biāo)注提出較高要求：根據(jù)Google的研究，數(shù)據(jù)質(zhì)量在高風(fēng)險人工智能領(lǐng)域具有更高的重要性，但人們往往只關(guān)注于模型，而忽略數(shù)據(jù)質(zhì)量，并且該結(jié)論可以或多或少地適用于所有AI領(lǐng)域。如果GPT-4更多依賴模型效率和數(shù)據(jù)質(zhì)量的提升來實現(xiàn)改進，將啟示我們重視數(shù)據(jù)清洗和標(biāo)注，關(guān)注能夠提供高質(zhì)量數(shù)據(jù)的企業(yè)。4055.344.40偏重計算機視覺4055.344.40偏重計算機視覺?數(shù)據(jù)標(biāo)注是大部分人工智能算法得以有效運行的關(guān)鍵環(huán)節(jié)。簡單來說，數(shù)據(jù)標(biāo)注是對未經(jīng)處理過的語音、圖片、文本、視頻等數(shù)據(jù)進行加工處理，從而轉(zhuǎn)變成機器可識別信息的過程。在ChatGPT訓(xùn)練的三個階段中，只有第三階段不需要使用人工標(biāo)注數(shù)據(jù)，而第一、第二階段都需要大量的人工標(biāo)注。?根據(jù)智研咨詢，2015-2021年，我國數(shù)據(jù)標(biāo)注與審核行業(yè)市場規(guī)模保持穩(wěn)步增長態(tài)勢，2021年達到44.40億元。預(yù)計2028年我國數(shù)據(jù)標(biāo)注與審核行業(yè)市場規(guī)模將達262.74億元。?現(xiàn)有數(shù)據(jù)標(biāo)注以人工標(biāo)注為主，屬于勞動密集型產(chǎn)業(yè)。隨著機器學(xué)習(xí)不斷完善，自動標(biāo)注成為大趨勢。?目前我國的數(shù)據(jù)標(biāo)注與審核業(yè)務(wù)的參與者主要包括兩類，一是人工智能公司內(nèi)部的標(biāo)注部門，二是商務(wù)流程外包公司。?相關(guān)標(biāo)的：海天瑞聲(AI訓(xùn)練數(shù)據(jù)專業(yè)提供商)等。圖：2015-2022年我國數(shù)據(jù)標(biāo)注與審核行業(yè)市場規(guī)模走勢(億元)2015年2016年2017年2018年2019年2020年2021年2022年E圖：頭部數(shù)據(jù)標(biāo)注企業(yè)概況圖音2005年早期進入音2005年早期進入資資料來源：智研咨詢，信通院，東吳證券研究所3.1.1基礎(chǔ)設(shè)施(3)-算法?ChatGPT所基于的自然語言處理是AI的核心課題之一。自然語言處理(NLP，Naturallanguageprocessing)主要包括自然語言理解類任務(wù)和自然語言生成類任務(wù)，其使得計算機可以理解和反饋自然語言；在NLP發(fā)展之前，人類只能通過固定模式的指令來與計算機溝通。?近兩年，對話機器人使得與智能語音相關(guān)NLP產(chǎn)品迎來了發(fā)展機遇。艾瑞統(tǒng)計研究，2021年，中國NLP核心產(chǎn)品的市場規(guī)模為171億元，帶動規(guī)模為450億元，到2026年,核心產(chǎn)品規(guī)模將達到459億元，CAGR=24.8%，帶動規(guī)模將超過1000億元。?當(dāng)前國內(nèi)領(lǐng)先的對話交互類AI算法企業(yè)主要包括兩類：–以語音識別為核心業(yè)務(wù)的企業(yè)，延生到NLP領(lǐng)域，如科大訊飛，從語音識別延生到語音合成、機器翻譯、圖文識別、圖像理解、閱讀理解、機器推理等算法，并在消費者、智慧教育、智慧城市、智慧司法、智能服務(wù)、智能汽車、智慧醫(yī)療、運營商等領(lǐng)域?qū)崿F(xiàn)深度應(yīng)用。–以NLP為核心業(yè)務(wù)，專注語義識別的企業(yè)，如拓爾思。拓爾思是國內(nèi)最早從事自然語言處理(NLP)研發(fā)的企業(yè)之一，在語義智能領(lǐng)域具備自主可控的底層技術(shù)，可以提供預(yù)訓(xùn)練模型和閱讀理解等技術(shù)成果。?相關(guān)標(biāo)的：科大訊飛(國內(nèi)AI龍頭，率先落地教育信息化等場景)、拓爾思(語義智能先鋒，搜索引擎數(shù)據(jù)庫未來可期)等。圖：2019-2026年中國NLP核心產(chǎn)品及帶動相關(guān)產(chǎn)業(yè)規(guī)模)0201920202021E2022E2023E2024E2025E2026E資資料來源：CSDN，艾瑞咨詢，東吳證券研究所3.1.2基礎(chǔ)設(shè)施標(biāo)的(1)-科大訊飛：AI語音龍頭，技術(shù)實力領(lǐng)先?科大訊飛從人工智能技術(shù)及產(chǎn)品應(yīng)用出發(fā)，致力于讓機器“能聽會說，能理解會思考”。公司從語音識別延生到語音合成、機器翻譯、圖文識別、圖像理解、閱讀理解、機器推理等算法，并在消費者、智慧教育、智慧城市、智慧司法、智能服務(wù)、智能汽車、智慧醫(yī)療、運營商等領(lǐng)域?qū)崿F(xiàn)深度應(yīng)用。?公司技術(shù)實力領(lǐng)先?？拼笥嶏w兩次榮獲“國家科技進步獎”及中國信息產(chǎn)業(yè)自主創(chuàng)新榮譽“信息產(chǎn)業(yè)重大技術(shù)發(fā)明獎”，被任命為中文語音交互技術(shù)標(biāo)準(zhǔn)工作組組長單位，牽頭制定中文語音技術(shù)標(biāo)準(zhǔn)。圖：科大訊飛營業(yè)收入及其同比增長情況圖：科大訊飛歸母凈利潤及其同比增長情況20020000500201720182019202020212022H50%科大訊飛營業(yè)科大訊飛營業(yè)收入(億元)30%20%yoy10%0%050100%50%0%-50%201720182019202020212022H科大訊飛歸母凈利潤(億元)yoy圖：科大訊飛PEBand資料來源：公司公告，Wind，東吳證券研究所3.1.2基礎(chǔ)設(shè)施標(biāo)的(2)-海天瑞聲：一站式數(shù)據(jù)服務(wù)提供商?海天瑞聲是我國領(lǐng)先的AI訓(xùn)練數(shù)據(jù)專業(yè)提供商。自2005年成立以來，公司始終致力于為AI產(chǎn)業(yè)鏈上的各類機構(gòu)提供AI算法模型開發(fā)訓(xùn)練所需的專業(yè)數(shù)據(jù)集。公司所提供的訓(xùn)練數(shù)據(jù)覆蓋智能語音(語音識別、語音合成等)、計算機視覺、自然語言等多個AI核心領(lǐng)域，全面服務(wù)于人機交互、智能駕駛、智慧城市等多種創(chuàng)新應(yīng)用場景。公司的產(chǎn)品和服務(wù)已獲得阿里巴巴、騰訊、百度、科大訊飛、?？低?、微軟、亞馬遜、三星等國內(nèi)外客戶的認(rèn)可。?提供一站式數(shù)據(jù)服務(wù)，有望受益于AI發(fā)展對上游數(shù)據(jù)訓(xùn)練集的需求。海天瑞聲提供從設(shè)計到實施(采集-清洗-脫敏-標(biāo)注)的一站式數(shù)據(jù)服務(wù)解決方案。其擁有1050+數(shù)據(jù)成品庫，包含190種語言，內(nèi)容覆蓋智能家居、智能駕駛、虛擬主播、有聲書、智慧金融、智能安防、智能搜索等數(shù)十個業(yè)務(wù)場景。同時，自研一體化數(shù)據(jù)平臺，平臺內(nèi)上千款自研標(biāo)注工具聯(lián)合打通，支持復(fù)雜業(yè)務(wù)場景標(biāo)注需求。圖：海天瑞聲營業(yè)收入及其同比增長情況圖：海天瑞聲PEBand2.502.001.501.000.500.0020182019202020212022H12018201920202021營業(yè)收入(億元)同比70%60%50%40%30%20%10%0%-20%資資料來源：公司公告，Wind，東吳證券研究所3.1.2基礎(chǔ)設(shè)施標(biāo)的(3)-拓爾思：領(lǐng)先的大數(shù)據(jù)和人工智能提供商?拓爾思是領(lǐng)先的大數(shù)據(jù)、人工智能、數(shù)據(jù)安全產(chǎn)品和服務(wù)提供商，其主營業(yè)務(wù)包括：①人工智能：專注于語義智能(也經(jīng)常被稱為語言智能或者認(rèn)知智能)技術(shù)(包括NLP)的研發(fā)和產(chǎn)業(yè)化。②大數(shù)據(jù)：以數(shù)據(jù)獲取、數(shù)據(jù)治理、數(shù)據(jù)檢索、數(shù)據(jù)分析挖掘全生命周期的技術(shù)能力提供大數(shù)據(jù)產(chǎn)品及服務(wù)。③數(shù)據(jù)安全：全資子公司天行網(wǎng)安提供數(shù)據(jù)安全傳輸和交換產(chǎn)品及服務(wù)。?公司人工智能和大數(shù)據(jù)兩大業(yè)務(wù)(合計占比72%)有望受益于ChatGPT帶來的市場增益。?人工智能-文本AI算法：公司是國內(nèi)最早從事自然語言處理(NLP)研發(fā)的企業(yè)之一，在語義智能領(lǐng)域具備自主可控的底層技術(shù)，可以提供預(yù)訓(xùn)練模型和閱讀理解等技術(shù)成果。?大數(shù)據(jù)-文本AI數(shù)據(jù)：公司是最早從事中文全文檢索技術(shù)研發(fā)的企業(yè)，現(xiàn)已將領(lǐng)先優(yōu)勢拓展到數(shù)據(jù)采集、治理、分析挖掘等大數(shù)據(jù)核心技術(shù)的全生命周期。圖：2022H1拓爾思營業(yè)收入產(chǎn)品結(jié)構(gòu)圖圖：拓爾思PEBand資資料來源：公司公告，Wind，東吳證券研究所3.2.1應(yīng)用-關(guān)注在文/音/圖/視頻等AIGC領(lǐng)域布局的國內(nèi)外公司?海內(nèi)外公司已經(jīng)廣泛在文/音/圖/視頻等AIGC領(lǐng)域布局。代碼代碼公司公司AIAI生成文字AIAI生成聲音AIAI生成圖像AIAI生成視頻AIAI生成虛擬人AIAI生成游戲AIAI多模態(tài)300624萬興科技萬興AI繪畫√200264中文在線√300418昆侖萬維MusicXlab002230科大訊飛√√300058藍色光標(biāo)銷銷博特營銷數(shù)據(jù)平臺藍標(biāo)分身分身有數(shù)0020.HK商湯科技商湯智影DI-star0700.HK騰訊DDreamwriter絕悟AI9999.HK伏羲1357.HK美圖秀秀美圖AI開放平臺美圖影像研究院BABA.USDTDT稿王鹿班塔璣阿里M6-10TBIDU.US百度AIAI助理AI助理文心一格Vidpress曦靈ERNIE-ViLG未上市思必馳√未上市字節(jié)XiXiaomingbotJukedeck，剪映智能創(chuàng)作語音SAMI剪映火山引擎未上市RctAI混沌球未上市影譜科技視頻自動剪輯√未上市倒映有聲√一視同人MFST.US微軟MegatronMegatronTuringNLG小冰框架GODIVA微軟&北大(女媧)GOOG.USGoogleAVAV-HuBERT，PaLMMagentaImagen,Parti,NeRF,NeRVImagenVideo，PhenakiMETA.USMetaMetaMeta&哥大(VX2Text)MakeaSceneMakeAVideoGato、Data2vecNVDA.USNVIDAMegatronMegatronTuringNLGGauGAN、GauGAN2PoE-GANADBE.USAdobeInsetGANSensei未上市OpenAIGPTGPT-3.5，ChatGPTGLIDE,DALLE,DALLE2CLIP未上市StableDiffusion其他公司(產(chǎn)品)聆聆心智能寫作貓寫作狐Latitude.io靈動音科技ReadspeakerDeepZenSonanticAIVA,IBM盜夢師智源(悟道文瀾)數(shù)字力場Discord(MidJourney)帝視科技央視網(wǎng)(AI編輯部)IBM(Watson)RunwayMLWisecut,Kaleido拓爾思搜狗數(shù)字力場數(shù)字王國相芯科技超參數(shù)中科院(紫東太初)?我們認(rèn)為ChatGPT是AIGC應(yīng)用又一個起點，隨著深度學(xué)習(xí)模型不斷完善、開源模式的推動、大模型探索商業(yè)化的可能，AIGC有望加速發(fā)展，互資資料來源：各公司公告，界面新聞，新浪新聞，商湯官網(wǎng)，機器之心，量子位，網(wǎng)易伏羲，互動易，美圖AI開放平臺，中國科學(xué)網(wǎng)，果殼硬科技，微軟，超參數(shù)科技，電商在線，百度智能云，Google，BroadhurstDigital，MetaAI，MSN，NVIDA，thedecoder，Adobe，東吳證券研究所3.2.2應(yīng)用標(biāo)的(1)-微軟：投資OpenAI，或成為AI時代最大玩家?微軟已在AI領(lǐng)域多個細(xì)分賽道取得成就，并正嘗試將AI成果與自身產(chǎn)品相融合(如將DALLE-2和ChatGPT接入Bing搜索引擎，將GPT接入MSOffice全家桶等)，前景向好：–AI編程：微軟旗下Github發(fā)布AI自動編程工具Copilot，在業(yè)內(nèi)引發(fā)轟動；–AI科研：23年初推出算法VALL-E，只需三秒即可復(fù)刻人類聲音，被大量科學(xué)家評為2023年迄今質(zhì)量最高的AIGC論文。–投資OpenAI：2019年向OpenAI投資10億美元；2023年初正在與OpenAI就投資100億美元開展談判，如談判達成，微軟將持有OpenAI49%的股權(quán)。?微軟在元宇宙領(lǐng)域綜合實力亦十分強勁，B端&C端均有布局。在B端，微軟第一個提出“企業(yè)元宇宙”概念的公司，通過打造企業(yè)元宇宙技術(shù)堆棧，提供一系列數(shù)據(jù)基礎(chǔ)設(shè)施和工具，為后疫情時代企業(yè)組織結(jié)構(gòu)的變動及生產(chǎn)效率的提升提供助力；在C端，微軟在游戲內(nèi)容、游戲社區(qū)、云游戲及硬件上實現(xiàn)了全方位覆蓋。我們認(rèn)為，微軟的元宇宙路徑扎實，在未來數(shù)字化時代的競爭中占據(jù)有利位置；同時也看好微軟在AIGC上的技術(shù)積淀為元宇宙業(yè)務(wù)服務(wù)，元宇宙業(yè)務(wù)為其提供應(yīng)用場景。3.2.2應(yīng)用標(biāo)的(2)-META：看好視頻AIGC工具與內(nèi)容業(yè)務(wù)共振?自2021年10月改名META(原為FACEBOOK)、全面進軍元宇宙以來，META2022年在AIGC領(lǐng)域也有進一步動作。–2022年7月，公布自研的文本生成圖像AI模型Make-A-Scene。–2022年9月下旬，發(fā)布從文本生成視頻的AI系統(tǒng)“Make-A-Video”，即根據(jù)輸入的自然語言文本生成一段5秒鐘左右的短視頻；也可以從圖像和視頻生成視頻。?AI生成視頻難度顯著大于生成圖像，該模型的發(fā)布彰顯了META在AI領(lǐng)域的潛力。系統(tǒng)除了要正確生成每個像素外，還需預(yù)測像素將如何隨時間變化。Make-A-Video能夠理解物理世界中的運動，并將其應(yīng)用于傳統(tǒng)的文本生成圖像AI技術(shù)中。?META本身在元宇宙內(nèi)容領(lǐng)域深度布局(云和VR游戲等)，我們看好其AIGC產(chǎn)品與元宇宙內(nèi)容業(yè)務(wù)產(chǎn)生協(xié)同。圖：Make-A-Video工作原理示意圖資料來源：東西游戲，東吳證券研究資料來源：東西游戲，東吳證券研究所3.2.2應(yīng)用標(biāo)的(3)-百度：AIGC全面賦能業(yè)務(wù)，打出組合拳百度聯(lián)合AIGC多個領(lǐng)域打出組合拳：文心大模型：百度通過大模型與深度學(xué)習(xí)框架融合打造的自主創(chuàng)新AI底座，大幅降低AI開發(fā)和應(yīng)用的門檻。圖：百度文心大模型全景圖–創(chuàng)作者AI助理團：包括AI圖：百度文心大模型全景圖以及圖片轉(zhuǎn)換成視頻等，為創(chuàng)作者提供視頻制作助理”，幫助創(chuàng)作者實現(xiàn)“一個人成為一支隊伍”，低門檻、高效率地生產(chǎn)高質(zhì)量內(nèi)容。例如，中青網(wǎng)借助百家號的AIGC圖文轉(zhuǎn)視頻技術(shù)，視頻內(nèi)容產(chǎn)量提升了80%，圖文轉(zhuǎn)視頻作品播放量超過同款–百度APP數(shù)字人計劃：將數(shù)字人技術(shù)與AIGC圖文轉(zhuǎn)視頻、TTS語音合成技術(shù)結(jié)合，為媒體及創(chuàng)作者定制真人孿生數(shù)字人。創(chuàng)作者輸入文本即可生成有數(shù)字主持人口播的視頻，不僅保證信息播報準(zhǔn)確性，還具備多國語言口播、情緒識別等人格化功能，實時不停播。–AIGC媒體聯(lián)盟：目前，百度已經(jīng)和數(shù)十家權(quán)威媒體成立“AIGC媒體聯(lián)盟”，推動AI能媒體行業(yè)。資料資料來源：百度2022Create大會，澎湃新聞，文匯網(wǎng)，東吳證券研究所3.2.2應(yīng)用標(biāo)的(4)-閱文集團：攜手微軟AI賦能網(wǎng)絡(luò)文學(xué)?閱文集團旗下囊括QQ閱讀、起點中文網(wǎng)、新麗傳媒等業(yè)界知名品牌，匯聚了強大的創(chuàng)作者陣營、豐富的作品儲備，覆蓋200多種內(nèi)容品類，觸達數(shù)億用戶，已成功輸出《慶余年》《贅婿》《鬼吹燈》《全職高手》《斗羅大陸》《瑯琊榜》等大量優(yōu)秀網(wǎng)文IP，改編為動漫、影視、游戲等多業(yè)態(tài)產(chǎn)品。?閱文集團已經(jīng)有AI融入業(yè)務(wù)的嘗試：例如，攜手彩云科技完成30部AI翻譯作品；攜手微軟推出AI賦能網(wǎng)絡(luò)文學(xué)“IP喚起方案”(復(fù)建小說角色為可互動虛擬人)。圖：閱文旗下紅袖讀書攜手微軟推出“IP喚醒計劃”資資料來源：公司公告，環(huán)球網(wǎng)，云庫科技，東吳證券研究所3.2.2應(yīng)用標(biāo)的(5)-中文在線：AI輔助創(chuàng)作上線，大幅提升效率?中文在線以自有原創(chuàng)平臺、知名作家、版權(quán)機構(gòu)為正版數(shù)字內(nèi)容來源，積累數(shù)字內(nèi)容資源超510萬種，網(wǎng)絡(luò)原創(chuàng)駐站作者440萬名；旗下?lián)碛?7K小說網(wǎng)、四月天小說網(wǎng)、萬丈書城、科幻廠牌“奇想宇宙”、懸疑廠牌“謎想計劃”等原創(chuàng)平臺。在對數(shù)字內(nèi)容進行聚合和管理后，向多終端、多平臺、全媒體分發(fā)數(shù)字閱讀產(chǎn)品；以文學(xué)IP為核心，對優(yōu)質(zhì)網(wǎng)文進行音頻、中短劇、動漫

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

ChatGPT：又一個“人形機器人”主題

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔