ChatGPT人工智能行業(yè)分析_第1頁(yè)
ChatGPT人工智能行業(yè)分析_第2頁(yè)
ChatGPT人工智能行業(yè)分析_第3頁(yè)
ChatGPT人工智能行業(yè)分析_第4頁(yè)
ChatGPT人工智能行業(yè)分析_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ChatGPT人工智能行業(yè)分析焦點(diǎn):ChatGPT帶火AIGC,OpenAI引領(lǐng)技術(shù)和生態(tài)焦點(diǎn):憑借AIGC爆款應(yīng)用ChatGPT,OpenAI強(qiáng)勢(shì)出圈2022年11月30日,由OpenAI開(kāi)發(fā)的聊天機(jī)器人ChatGPT推出并席卷了整個(gè)行業(yè),短短5天,注冊(cè)用戶(hù)數(shù)就超過(guò)100萬(wàn),僅兩個(gè)月月活用戶(hù)數(shù)已經(jīng)破億。2023年1月,全球每天約有1300萬(wàn)獨(dú)立訪問(wèn)者使用ChatGPT。ChatGPT擁有強(qiáng)大的語(yǔ)言理解和文本生成能力,能夠很好地支持聊天對(duì)話(huà)、代碼撰寫(xiě)、文案創(chuàng)作等任務(wù)。與之前的AI聊天機(jī)器人相比,ChatGPT能夠理解上下文并給出合理的回復(fù),對(duì)話(huà)連續(xù)性大幅提升,可以稱(chēng)為人工智能發(fā)展史上的劃時(shí)代產(chǎn)品。憑借著ChatGPT的成功,OpenAI成為全球AI行業(yè)關(guān)注的焦點(diǎn)。OPENAI:GPT模型技術(shù)領(lǐng)先,ChatGPT發(fā)布引發(fā)變革AIGC(AIGeneratedContent)是人工智能生成內(nèi)容,也稱(chēng)為生成式AI,涉及無(wú)監(jiān)督和半監(jiān)督學(xué)習(xí)算法,能夠使計(jì)算機(jī)用先前創(chuàng)建的內(nèi)容(諸如文本、音頻、視頻、圖像和代碼等)來(lái)生成新的內(nèi)容,以此響應(yīng)用戶(hù)輸入的提示語(yǔ)。OPENAI是全球領(lǐng)先的AIGC公司。OPENAI成立于2015年,其最初定位為“非盈利性研究機(jī)構(gòu)”,2018年,OPANAI發(fā)布了GPT-1模型,2019年,公司改制為“有上限的盈利性機(jī)構(gòu)”,并于同年發(fā)布GPT-2模型;2022年3月,OPANAI發(fā)布InstructGPT模型;2022年11月,OPENAI發(fā)布ChatGPT。此外,公司還擁有自然語(yǔ)言轉(zhuǎn)圖片的應(yīng)用DELLE2。OPENAI:微軟持續(xù)提供資金、算力和生態(tài)支持,助力成就爆款微軟高度重視人工智能領(lǐng)域,在資金投入、計(jì)算資源、應(yīng)用開(kāi)發(fā)等方面與OPENAI形成了密切的合作關(guān)系,兩者優(yōu)勢(shì)互補(bǔ)、合作共贏。資金投入:2019年,微軟向OPENAI投資10億美元;2021年,微軟再次向OPENAI投資,數(shù)額未披露;2023年1月,微軟宣布將通過(guò)一項(xiàng)花費(fèi)數(shù)年、數(shù)十億美金的投資深化與OPENAI的合作,根據(jù)美國(guó)財(cái)富雜志信息,該投資可能高達(dá)100億美元。計(jì)算資源:微軟Azure是OPENAI的獨(dú)家云供應(yīng)商,且微軟將加大在超級(jí)計(jì)算機(jī)方面的投資以支持OPENAI的發(fā)展,同時(shí)OPENAI也可以反哺增強(qiáng)微軟Azure的AI能力,兩者能夠很好的合作共贏。應(yīng)用開(kāi)發(fā):2月8日,微軟推出基于OPENAI模型的Edge瀏覽器和Bing搜索引擎,且微軟表示未來(lái)所有產(chǎn)品將全線(xiàn)整合ChatGPT,包括Office三件套、Azure云服務(wù)、企業(yè)定制版產(chǎn)品等。百度:文心大模型國(guó)內(nèi)全面領(lǐng)先,有望打造成國(guó)產(chǎn)ChatGPT百度在大模型領(lǐng)域擁有較強(qiáng)的技術(shù)實(shí)力和平臺(tái)積累,其文心大模型總體位于行業(yè)前列。2019年3月,百度首次發(fā)布預(yù)訓(xùn)練模型ERNIE1.0,之后針對(duì)大模型的技術(shù)創(chuàng)新與產(chǎn)業(yè)應(yīng)用持續(xù)發(fā)力,目前已經(jīng)實(shí)陸續(xù)實(shí)現(xiàn)了一定程度的突破:2021年,百度發(fā)布最新版大模型ERNIE3.0;2022年,百度發(fā)布鵬城-百度文心大模型,其參數(shù)規(guī)模達(dá)到2600億,較GPT-3參數(shù)量高50%;2023年2月,百度宣布其最新的大模型“文心一言”將于三月份完成內(nèi)測(cè),并面向公眾開(kāi)放。根據(jù)IDC對(duì)國(guó)內(nèi)大模型市場(chǎng)的評(píng)估,百度文心大模型在產(chǎn)品能力、應(yīng)用能力、生態(tài)能力等方面處于全面領(lǐng)先的業(yè)界地位。百度:創(chuàng)新性引入大規(guī)模知識(shí),文心大模型性能大幅提升百度文心大模型擁有NLP、CV、跨模態(tài)、生物計(jì)算等大模型組合,具有產(chǎn)業(yè)級(jí)和知識(shí)增強(qiáng)兩大特點(diǎn)。文心大模型源于產(chǎn)業(yè)、服務(wù)于產(chǎn)業(yè),可以滿(mǎn)足真實(shí)場(chǎng)景中的諸多應(yīng)用需求,真正發(fā)揮大模型驅(qū)動(dòng)AI規(guī)?;瘧?yīng)用的產(chǎn)業(yè)價(jià)值;文心大模型在海量文本數(shù)據(jù)的基礎(chǔ)上引入大規(guī)模知識(shí)圖譜,促進(jìn)了結(jié)構(gòu)化知識(shí)和無(wú)結(jié)構(gòu)化文本之間的融合與共享,模型能力大幅提升。2021年百度發(fā)布了ERNIE3.0模型,首次在百億級(jí)預(yù)訓(xùn)練中引入了大規(guī)模知識(shí),模型學(xué)習(xí)效率和可解釋性大幅增強(qiáng)??蚣芊矫?,ERNIE3.0模型框架分為“通用表示”和“任務(wù)表示”兩層,同時(shí)具備語(yǔ)言理解和語(yǔ)言生成兩種功能;性能方面,ERNIE3.0刷新了54個(gè)中文NLP任務(wù)基準(zhǔn),且其英文模型在復(fù)雜語(yǔ)言理解任務(wù)評(píng)測(cè)中超過(guò)了人類(lèi)水平0.8個(gè)百分點(diǎn)。百度:“文心一言”生態(tài)建設(shè)取得進(jìn)展,具備商用拓展?jié)摿ξ男腘LP大模型面向語(yǔ)言理解、語(yǔ)言生成等場(chǎng)景,具備超強(qiáng)的語(yǔ)言理解、對(duì)話(huà)生成、文學(xué)創(chuàng)作等能力。文心NLP模型將大數(shù)據(jù)預(yù)訓(xùn)練與多源豐富知識(shí)相結(jié)合,通過(guò)持續(xù)學(xué)習(xí),不斷吸收海量文本數(shù)據(jù)中詞匯、結(jié)構(gòu)、語(yǔ)義等方面的新知識(shí),實(shí)現(xiàn)模型效果不斷進(jìn)化?!拔男囊谎裕ㄓ⑽拿篍RNIEBot)”是百度基于文心大模型技術(shù)推出的生成式對(duì)話(huà)產(chǎn)品。2023年2月7日,百度宣布將于2023年3月份發(fā)布“文心一言”,目前已經(jīng)有大量下游客戶(hù)參與文心一言的生態(tài)建設(shè),行業(yè)覆蓋面廣泛,包括新聞、傳媒、互聯(lián)網(wǎng)、家裝、汽車(chē)、金融等,其中新聞傳媒業(yè)積極性最高,反映出“文心一言”這類(lèi)AIGC產(chǎn)品將給媒體創(chuàng)作類(lèi)行業(yè)帶來(lái)巨大影響。在2023AI+工業(yè)互聯(lián)網(wǎng)高峰論壇上,百度智能云宣布“文心一言”將通過(guò)百度智能云對(duì)外提供服務(wù),率先在內(nèi)容和信息相關(guān)的行業(yè)和場(chǎng)景落地。變革:AIGC與人更為神似,模型和數(shù)據(jù)是主要助力改變:AIGC實(shí)現(xiàn)了從分析預(yù)測(cè)到生成創(chuàng)造的跨越,AI開(kāi)始更像人AIGC為人工智能技術(shù)帶來(lái)技術(shù)變革。相比于之前的分析式AI,AIGC不再局限于分析已有數(shù)據(jù)的規(guī)律,而是實(shí)現(xiàn)了從分析內(nèi)容到創(chuàng)造生成新內(nèi)容的跨越,讓AI更像人。事實(shí)上,早在2014年,隨著一種深度學(xué)習(xí)架構(gòu)生成對(duì)抗網(wǎng)絡(luò)(GAN)的出現(xiàn),生成式AI就開(kāi)始流行。但近年來(lái),生成式AI在模型、數(shù)據(jù)、算力都大幅度提升和改進(jìn),行業(yè)進(jìn)入爆發(fā)期,其中模型的演進(jìn)影響最為深遠(yuǎn)。突破|模型:預(yù)訓(xùn)練大模型Transformer助力,AIGC實(shí)現(xiàn)里程碑式飛躍預(yù)訓(xùn)練大模型為生成式AI帶來(lái)里程碑式飛躍。2017年Transformer架構(gòu)的出現(xiàn)改善了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的局限性,標(biāo)志性特征是采用了self-attention機(jī)制,可為輸入數(shù)據(jù)的各部分分配不同權(quán)重,支持GPT-3和LaMDA等大型語(yǔ)言模型(LLM)。Transformer模型可并行訓(xùn)練,使GPU性能改善所帶來(lái)的模型訓(xùn)練效果顯著提升,同時(shí)可以通過(guò)不斷增加模型參數(shù)量以及預(yù)訓(xùn)練使用的數(shù)據(jù)量來(lái)提升模型性能。大模型(又稱(chēng)基礎(chǔ)模型)可經(jīng)過(guò)海量、多樣化數(shù)據(jù)(通常無(wú)標(biāo)注文本)的預(yù)訓(xùn)練,再針對(duì)廣泛的下游任務(wù)進(jìn)行微調(diào)或適應(yīng)。針對(duì)不同的任務(wù)和應(yīng)用場(chǎng)景,只需要將大模型遷移學(xué)習(xí)到下游任務(wù)即可實(shí)現(xiàn),避免了傳統(tǒng)NLP技術(shù)需要從頭開(kāi)始訓(xùn)練下游任務(wù)的痛點(diǎn)。突破|模型:Transformer衍生出三類(lèi)模型,打下生成式AI算法的基礎(chǔ)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)升級(jí)引發(fā)AIGC技術(shù)開(kāi)發(fā)新范式,各類(lèi)預(yù)訓(xùn)練模型層出不窮,可用于NLP(諸如GTP-3)、CV(諸如Florence)或多模態(tài)領(lǐng)域(諸如StableDiffusion)。以Transformer架構(gòu)為基礎(chǔ)衍生出的典型預(yù)訓(xùn)練語(yǔ)言模型大致可以分為三類(lèi):1)Encoder模型(以BERT為代表):又稱(chēng)自編碼模型,適用于內(nèi)容理解任務(wù),例如需要理解輸入語(yǔ)義的任務(wù),例如情感分析;2)Decoder模型(以GPT為代表):又稱(chēng)自回歸模型,適用于生成式任務(wù),例如文本生成;3)Encoder-Decoder模型(以T5為代表):又稱(chēng)Seq2Seq模型,通常用于需要內(nèi)容理解和生成的任務(wù),例如翻譯。突破|模型:GPT系列大模型演進(jìn)和應(yīng)用較快,最終掀起AIGC熱潮Transformer三條路線(xiàn)中,GPT模型進(jìn)展較快:2018年,由OpenAI提出的生成式預(yù)訓(xùn)練模型GPT誕生,提出了半監(jiān)督學(xué)習(xí)方法,即通過(guò)“預(yù)訓(xùn)練+微調(diào)”的方式讓模型通過(guò)大量無(wú)標(biāo)注數(shù)據(jù)學(xué)習(xí),從而緩解人工標(biāo)注數(shù)據(jù)有限的問(wèn)題;2019年,GPT-2去除finetune,參數(shù)量增加,采用zero-shot(零樣本)學(xué)習(xí),模型的泛化能力提升;2020年,GPT-3采用few-shot(小樣本),并將訓(xùn)練參數(shù)又提升兩個(gè)數(shù)量級(jí),模型準(zhǔn)確率和性能再次提升;2022年,InstructGPT在GPT-3基礎(chǔ)上采用獎(jiǎng)勵(lì)機(jī)制,通過(guò)人為標(biāo)注和強(qiáng)化學(xué)習(xí)的方法提升模型輸出結(jié)果的真實(shí)性、無(wú)害性和有用性,13億參數(shù)版本實(shí)現(xiàn)了比1750億參數(shù)版本GPT-3更好的模型性能。突破|數(shù)據(jù)集:數(shù)據(jù)量、多樣性、數(shù)據(jù)質(zhì)量是關(guān)鍵要素語(yǔ)料庫(kù)的數(shù)據(jù)量、多樣性、數(shù)據(jù)質(zhì)量成為訓(xùn)練數(shù)據(jù)集的關(guān)鍵要素。GPT使用了包含7000本書(shū)的BookCorpus數(shù)據(jù)集;GPT-2則收集了更加廣泛、數(shù)量更多的語(yǔ)料組成數(shù)據(jù)集,包含800萬(wàn)篇Reddit上高贊的文章網(wǎng)頁(yè),大小為40GB,Reddit上的數(shù)據(jù)會(huì)包括各個(gè)領(lǐng)域,所以既保證了數(shù)據(jù)質(zhì)量、數(shù)量又保證了數(shù)據(jù)的多樣性;GPT-3則采用了5種語(yǔ)料庫(kù)(5000億tokens),大小增至45TB;InstructGPT的預(yù)訓(xùn)練和GPT3相同,但用標(biāo)注數(shù)據(jù)和提示語(yǔ)進(jìn)行了微調(diào)和優(yōu)化,OPENAI雇傭了40名標(biāo)注人員(labeler)且進(jìn)行了培訓(xùn),通過(guò)指示學(xué)習(xí)構(gòu)建訓(xùn)練樣本來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型,最后通過(guò)獎(jiǎng)勵(lì)模型的打分排序來(lái)指導(dǎo)強(qiáng)化學(xué)習(xí)模型的訓(xùn)練。市場(chǎng):大模型需要大算力,推動(dòng)AI服務(wù)器市場(chǎng)增長(zhǎng)算力:ChatGPT是基于InstructGPT模型,大幅擴(kuò)大數(shù)據(jù)量級(jí)而得到ChatGPT模型訓(xùn)練結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),具體的訓(xùn)練方法分為三步:1)收集數(shù)據(jù)集并進(jìn)行人工標(biāo)注,輸入到GPT-3.5模型中進(jìn)行GPT-3.5模型微調(diào),訓(xùn)練輸出一個(gè)監(jiān)督模型(SFT);2)收集SFT模型生成的多輸出比較數(shù)據(jù)集,對(duì)諸多答案進(jìn)行排序打分(人工標(biāo)注),訓(xùn)練輸出一個(gè)獎(jiǎng)勵(lì)模型(RM);3)利用RM模型作為獎(jiǎng)勵(lì)函數(shù),通過(guò)PPO算法對(duì)SFT模型進(jìn)行強(qiáng)化學(xué)習(xí),持續(xù)迭代生成模型,此過(guò)程無(wú)需人工標(biāo)注。算力:大模型的實(shí)現(xiàn)需要十分強(qiáng)大的算力來(lái)支持訓(xùn)練過(guò)程和推理過(guò)程大模型的實(shí)現(xiàn)需要十分強(qiáng)大的算力來(lái)支持訓(xùn)練過(guò)程和推理過(guò)程。根據(jù)OPENAI數(shù)據(jù),訓(xùn)練GPT-3175B的模型,需要的算力高達(dá)3640PF-days(即以1PetaFLOP/s的效率要跑3640天)。2018年以來(lái),大模型的參數(shù)量級(jí)已達(dá)到數(shù)千億參數(shù)的量級(jí)規(guī)模,對(duì)算力的需求將呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。算力:AI芯片的性能提升成為決定大模型從理論實(shí)踐到大規(guī)模應(yīng)用的關(guān)鍵要素根據(jù)《COMPUTETRENDSACROSSTHREEERASOFMACHINELEARNING》研究結(jié)果,大模型時(shí)代,算力翻倍的需求時(shí)間是9.9個(gè)月。AI芯片的性能提升成為決定大模型從理論實(shí)踐到大規(guī)模應(yīng)用的關(guān)鍵要素。在供給端,AI芯片廠商推出了性能越來(lái)越強(qiáng)的新產(chǎn)品來(lái)應(yīng)對(duì)人工智能發(fā)展的算力需求。以英偉達(dá)為例,2020年,英偉達(dá)推出了A100GPU芯片,相比上一代V100GPU芯片,A100GPU芯片性能大幅提升。針對(duì)大模型,A100GPU芯片相比V100GPU芯片可提供高達(dá)3倍的訓(xùn)練速度。算力:ChatGPT的訓(xùn)練成本和推理成本高昂在訓(xùn)練端:據(jù)報(bào)道,2020年,微軟宣布與OpenAI合作,建成了一臺(tái)超級(jí)計(jì)算機(jī),專(zhuān)門(mén)用來(lái)在Azure公有云上訓(xùn)練超大規(guī)模的人工智能模型。這臺(tái)為OpenAI開(kāi)發(fā)的超級(jí)計(jì)算機(jī)擁有超過(guò)28.5萬(wàn)個(gè)CPU核心,擁有超過(guò)1萬(wàn)個(gè)GPU(V100GPU芯片)。以此規(guī)格,如果自建IDC,以A100GPU芯片替代V100GPU芯片,依照A100和V100的性能換算,需要約3000個(gè)A100GPU芯片。根據(jù)英偉達(dá)網(wǎng)站信息,NVIDIADGXA100服務(wù)器搭載8塊A100芯片,估算需要375臺(tái)NVIDIADGXA100服務(wù)器,每臺(tái)NVIDIADGXA100服務(wù)器的價(jià)格為19.9萬(wàn)美元,則自建IDC的訓(xùn)練服務(wù)器的算力成本為7462.5萬(wàn)美元。若在云端訓(xùn)練,據(jù)LambdaLabs首席科學(xué)官Chuanli介紹,擁有1750億個(gè)參數(shù)的GPT-3單次訓(xùn)練成本達(dá)到460萬(wàn)美元。應(yīng)用:行業(yè)將逐步回歸理性,能否突破需要看B端AIGC將逐步回歸理性,未來(lái)2-3年重點(diǎn)培育應(yīng)用和教育市場(chǎng)未來(lái)2-3年是AIGC走向成熟的關(guān)鍵時(shí)期。類(lèi)似于計(jì)算機(jī)視覺(jué)等相對(duì)成熟的技術(shù),AIGC在經(jīng)歷了近期的炒作熱潮結(jié)束之后,預(yù)計(jì)行業(yè)將經(jīng)歷一段下沉期,市場(chǎng)趨向理性。AIGC則需要加快開(kāi)始教育和融入市場(chǎng),培育產(chǎn)品和應(yīng)用。如果能夠像計(jì)算機(jī)視覺(jué)一樣,找到合適的商業(yè)化場(chǎng)景,行業(yè)后續(xù)將逐步得到市場(chǎng)認(rèn)可,并持續(xù)做大;如果不能,這項(xiàng)技術(shù)也可能持續(xù)停留在低谷期,甚至被市場(chǎng)淘汰。ChatGPT的快速推進(jìn),標(biāo)志著AIGC在C端有著巨大潛力,但B端、G端相關(guān)產(chǎn)品應(yīng)該將是公司的主要收入來(lái)源。C端看,主要是來(lái)自于內(nèi)容生成等工具性的需求,一般都是輕應(yīng)用,嘗鮮之后的付費(fèi)意愿值得觀察,主流的產(chǎn)品收費(fèi)模式將是SaaS應(yīng)用訂閱;B端看,是含金量最大的市場(chǎng),需要將技術(shù)轉(zhuǎn)化成工具和解決方案,為企業(yè)和行業(yè)賦能,收費(fèi)模式可能包括項(xiàng)目定制+后續(xù)訂閱收入。國(guó)內(nèi)AIGC垂直應(yīng)用起步較晚,文本、圖像等領(lǐng)域都還是藍(lán)海賽道相較美國(guó)市場(chǎng),國(guó)內(nèi)AIGC在相對(duì)成熟

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論