ChatGPT人工智能行業(yè)分析_第1頁
ChatGPT人工智能行業(yè)分析_第2頁
ChatGPT人工智能行業(yè)分析_第3頁
ChatGPT人工智能行業(yè)分析_第4頁
ChatGPT人工智能行業(yè)分析_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

ChatGPT人工智能行業(yè)分析焦點:ChatGPT帶火AIGC,OpenAI引領技術和生態(tài)焦點:憑借AIGC爆款應用ChatGPT,OpenAI強勢出圈2022年11月30日,由OpenAI開發(fā)的聊天機器人ChatGPT推出并席卷了整個行業(yè),短短5天,注冊用戶數(shù)就超過100萬,僅兩個月月活用戶數(shù)已經(jīng)破億。2023年1月,全球每天約有1300萬獨立訪問者使用ChatGPT。ChatGPT擁有強大的語言理解和文本生成能力,能夠很好地支持聊天對話、代碼撰寫、文案創(chuàng)作等任務。與之前的AI聊天機器人相比,ChatGPT能夠理解上下文并給出合理的回復,對話連續(xù)性大幅提升,可以稱為人工智能發(fā)展史上的劃時代產(chǎn)品。憑借著ChatGPT的成功,OpenAI成為全球AI行業(yè)關注的焦點。OPENAI:GPT模型技術領先,ChatGPT發(fā)布引發(fā)變革AIGC(AIGeneratedContent)是人工智能生成內(nèi)容,也稱為生成式AI,涉及無監(jiān)督和半監(jiān)督學習算法,能夠使計算機用先前創(chuàng)建的內(nèi)容(諸如文本、音頻、視頻、圖像和代碼等)來生成新的內(nèi)容,以此響應用戶輸入的提示語。OPENAI是全球領先的AIGC公司。OPENAI成立于2015年,其最初定位為“非盈利性研究機構(gòu)”,2018年,OPANAI發(fā)布了GPT-1模型,2019年,公司改制為“有上限的盈利性機構(gòu)”,并于同年發(fā)布GPT-2模型;2022年3月,OPANAI發(fā)布InstructGPT模型;2022年11月,OPENAI發(fā)布ChatGPT。此外,公司還擁有自然語言轉(zhuǎn)圖片的應用DELLE2。OPENAI:微軟持續(xù)提供資金、算力和生態(tài)支持,助力成就爆款微軟高度重視人工智能領域,在資金投入、計算資源、應用開發(fā)等方面與OPENAI形成了密切的合作關系,兩者優(yōu)勢互補、合作共贏。資金投入:2019年,微軟向OPENAI投資10億美元;2021年,微軟再次向OPENAI投資,數(shù)額未披露;2023年1月,微軟宣布將通過一項花費數(shù)年、數(shù)十億美金的投資深化與OPENAI的合作,根據(jù)美國財富雜志信息,該投資可能高達100億美元。計算資源:微軟Azure是OPENAI的獨家云供應商,且微軟將加大在超級計算機方面的投資以支持OPENAI的發(fā)展,同時OPENAI也可以反哺增強微軟Azure的AI能力,兩者能夠很好的合作共贏。應用開發(fā):2月8日,微軟推出基于OPENAI模型的Edge瀏覽器和Bing搜索引擎,且微軟表示未來所有產(chǎn)品將全線整合ChatGPT,包括Office三件套、Azure云服務、企業(yè)定制版產(chǎn)品等。百度:文心大模型國內(nèi)全面領先,有望打造成國產(chǎn)ChatGPT百度在大模型領域擁有較強的技術實力和平臺積累,其文心大模型總體位于行業(yè)前列。2019年3月,百度首次發(fā)布預訓練模型ERNIE1.0,之后針對大模型的技術創(chuàng)新與產(chǎn)業(yè)應用持續(xù)發(fā)力,目前已經(jīng)實陸續(xù)實現(xiàn)了一定程度的突破:2021年,百度發(fā)布最新版大模型ERNIE3.0;2022年,百度發(fā)布鵬城-百度文心大模型,其參數(shù)規(guī)模達到2600億,較GPT-3參數(shù)量高50%;2023年2月,百度宣布其最新的大模型“文心一言”將于三月份完成內(nèi)測,并面向公眾開放。根據(jù)IDC對國內(nèi)大模型市場的評估,百度文心大模型在產(chǎn)品能力、應用能力、生態(tài)能力等方面處于全面領先的業(yè)界地位。百度:創(chuàng)新性引入大規(guī)模知識,文心大模型性能大幅提升百度文心大模型擁有NLP、CV、跨模態(tài)、生物計算等大模型組合,具有產(chǎn)業(yè)級和知識增強兩大特點。文心大模型源于產(chǎn)業(yè)、服務于產(chǎn)業(yè),可以滿足真實場景中的諸多應用需求,真正發(fā)揮大模型驅(qū)動AI規(guī)?;瘧玫漠a(chǎn)業(yè)價值;文心大模型在海量文本數(shù)據(jù)的基礎上引入大規(guī)模知識圖譜,促進了結(jié)構(gòu)化知識和無結(jié)構(gòu)化文本之間的融合與共享,模型能力大幅提升。2021年百度發(fā)布了ERNIE3.0模型,首次在百億級預訓練中引入了大規(guī)模知識,模型學習效率和可解釋性大幅增強??蚣芊矫?,ERNIE3.0模型框架分為“通用表示”和“任務表示”兩層,同時具備語言理解和語言生成兩種功能;性能方面,ERNIE3.0刷新了54個中文NLP任務基準,且其英文模型在復雜語言理解任務評測中超過了人類水平0.8個百分點。百度:“文心一言”生態(tài)建設取得進展,具備商用拓展?jié)摿ξ男腘LP大模型面向語言理解、語言生成等場景,具備超強的語言理解、對話生成、文學創(chuàng)作等能力。文心NLP模型將大數(shù)據(jù)預訓練與多源豐富知識相結(jié)合,通過持續(xù)學習,不斷吸收海量文本數(shù)據(jù)中詞匯、結(jié)構(gòu)、語義等方面的新知識,實現(xiàn)模型效果不斷進化。“文心一言(英文名:ERNIEBot)”是百度基于文心大模型技術推出的生成式對話產(chǎn)品。2023年2月7日,百度宣布將于2023年3月份發(fā)布“文心一言”,目前已經(jīng)有大量下游客戶參與文心一言的生態(tài)建設,行業(yè)覆蓋面廣泛,包括新聞、傳媒、互聯(lián)網(wǎng)、家裝、汽車、金融等,其中新聞傳媒業(yè)積極性最高,反映出“文心一言”這類AIGC產(chǎn)品將給媒體創(chuàng)作類行業(yè)帶來巨大影響。在2023AI+工業(yè)互聯(lián)網(wǎng)高峰論壇上,百度智能云宣布“文心一言”將通過百度智能云對外提供服務,率先在內(nèi)容和信息相關的行業(yè)和場景落地。變革:AIGC與人更為神似,模型和數(shù)據(jù)是主要助力改變:AIGC實現(xiàn)了從分析預測到生成創(chuàng)造的跨越,AI開始更像人AIGC為人工智能技術帶來技術變革。相比于之前的分析式AI,AIGC不再局限于分析已有數(shù)據(jù)的規(guī)律,而是實現(xiàn)了從分析內(nèi)容到創(chuàng)造生成新內(nèi)容的跨越,讓AI更像人。事實上,早在2014年,隨著一種深度學習架構(gòu)生成對抗網(wǎng)絡(GAN)的出現(xiàn),生成式AI就開始流行。但近年來,生成式AI在模型、數(shù)據(jù)、算力都大幅度提升和改進,行業(yè)進入爆發(fā)期,其中模型的演進影響最為深遠。突破|模型:預訓練大模型Transformer助力,AIGC實現(xiàn)里程碑式飛躍預訓練大模型為生成式AI帶來里程碑式飛躍。2017年Transformer架構(gòu)的出現(xiàn)改善了循環(huán)神經(jīng)網(wǎng)絡(RNN)的局限性,標志性特征是采用了self-attention機制,可為輸入數(shù)據(jù)的各部分分配不同權重,支持GPT-3和LaMDA等大型語言模型(LLM)。Transformer模型可并行訓練,使GPU性能改善所帶來的模型訓練效果顯著提升,同時可以通過不斷增加模型參數(shù)量以及預訓練使用的數(shù)據(jù)量來提升模型性能。大模型(又稱基礎模型)可經(jīng)過海量、多樣化數(shù)據(jù)(通常無標注文本)的預訓練,再針對廣泛的下游任務進行微調(diào)或適應。針對不同的任務和應用場景,只需要將大模型遷移學習到下游任務即可實現(xiàn),避免了傳統(tǒng)NLP技術需要從頭開始訓練下游任務的痛點。突破|模型:Transformer衍生出三類模型,打下生成式AI算法的基礎深度神經(jīng)網(wǎng)絡結(jié)構(gòu)升級引發(fā)AIGC技術開發(fā)新范式,各類預訓練模型層出不窮,可用于NLP(諸如GTP-3)、CV(諸如Florence)或多模態(tài)領域(諸如StableDiffusion)。以Transformer架構(gòu)為基礎衍生出的典型預訓練語言模型大致可以分為三類:1)Encoder模型(以BERT為代表):又稱自編碼模型,適用于內(nèi)容理解任務,例如需要理解輸入語義的任務,例如情感分析;2)Decoder模型(以GPT為代表):又稱自回歸模型,適用于生成式任務,例如文本生成;3)Encoder-Decoder模型(以T5為代表):又稱Seq2Seq模型,通常用于需要內(nèi)容理解和生成的任務,例如翻譯。突破|模型:GPT系列大模型演進和應用較快,最終掀起AIGC熱潮Transformer三條路線中,GPT模型進展較快:2018年,由OpenAI提出的生成式預訓練模型GPT誕生,提出了半監(jiān)督學習方法,即通過“預訓練+微調(diào)”的方式讓模型通過大量無標注數(shù)據(jù)學習,從而緩解人工標注數(shù)據(jù)有限的問題;2019年,GPT-2去除finetune,參數(shù)量增加,采用zero-shot(零樣本)學習,模型的泛化能力提升;2020年,GPT-3采用few-shot(小樣本),并將訓練參數(shù)又提升兩個數(shù)量級,模型準確率和性能再次提升;2022年,InstructGPT在GPT-3基礎上采用獎勵機制,通過人為標注和強化學習的方法提升模型輸出結(jié)果的真實性、無害性和有用性,13億參數(shù)版本實現(xiàn)了比1750億參數(shù)版本GPT-3更好的模型性能。突破|數(shù)據(jù)集:數(shù)據(jù)量、多樣性、數(shù)據(jù)質(zhì)量是關鍵要素語料庫的數(shù)據(jù)量、多樣性、數(shù)據(jù)質(zhì)量成為訓練數(shù)據(jù)集的關鍵要素。GPT使用了包含7000本書的BookCorpus數(shù)據(jù)集;GPT-2則收集了更加廣泛、數(shù)量更多的語料組成數(shù)據(jù)集,包含800萬篇Reddit上高贊的文章網(wǎng)頁,大小為40GB,Reddit上的數(shù)據(jù)會包括各個領域,所以既保證了數(shù)據(jù)質(zhì)量、數(shù)量又保證了數(shù)據(jù)的多樣性;GPT-3則采用了5種語料庫(5000億tokens),大小增至45TB;InstructGPT的預訓練和GPT3相同,但用標注數(shù)據(jù)和提示語進行了微調(diào)和優(yōu)化,OPENAI雇傭了40名標注人員(labeler)且進行了培訓,通過指示學習構(gòu)建訓練樣本來訓練獎勵模型,最后通過獎勵模型的打分排序來指導強化學習模型的訓練。市場:大模型需要大算力,推動AI服務器市場增長算力:ChatGPT是基于InstructGPT模型,大幅擴大數(shù)據(jù)量級而得到ChatGPT模型訓練結(jié)合了監(jiān)督學習和強化學習,具體的訓練方法分為三步:1)收集數(shù)據(jù)集并進行人工標注,輸入到GPT-3.5模型中進行GPT-3.5模型微調(diào),訓練輸出一個監(jiān)督模型(SFT);2)收集SFT模型生成的多輸出比較數(shù)據(jù)集,對諸多答案進行排序打分(人工標注),訓練輸出一個獎勵模型(RM);3)利用RM模型作為獎勵函數(shù),通過PPO算法對SFT模型進行強化學習,持續(xù)迭代生成模型,此過程無需人工標注。算力:大模型的實現(xiàn)需要十分強大的算力來支持訓練過程和推理過程大模型的實現(xiàn)需要十分強大的算力來支持訓練過程和推理過程。根據(jù)OPENAI數(shù)據(jù),訓練GPT-3175B的模型,需要的算力高達3640PF-days(即以1PetaFLOP/s的效率要跑3640天)。2018年以來,大模型的參數(shù)量級已達到數(shù)千億參數(shù)的量級規(guī)模,對算力的需求將呈現(xiàn)指數(shù)級增長。算力:AI芯片的性能提升成為決定大模型從理論實踐到大規(guī)模應用的關鍵要素根據(jù)《COMPUTETRENDSACROSSTHREEERASOFMACHINELEARNING》研究結(jié)果,大模型時代,算力翻倍的需求時間是9.9個月。AI芯片的性能提升成為決定大模型從理論實踐到大規(guī)模應用的關鍵要素。在供給端,AI芯片廠商推出了性能越來越強的新產(chǎn)品來應對人工智能發(fā)展的算力需求。以英偉達為例,2020年,英偉達推出了A100GPU芯片,相比上一代V100GPU芯片,A100GPU芯片性能大幅提升。針對大模型,A100GPU芯片相比V100GPU芯片可提供高達3倍的訓練速度。算力:ChatGPT的訓練成本和推理成本高昂在訓練端:據(jù)報道,2020年,微軟宣布與OpenAI合作,建成了一臺超級計算機,專門用來在Azure公有云上訓練超大規(guī)模的人工智能模型。這臺為OpenAI開發(fā)的超級計算機擁有超過28.5萬個CPU核心,擁有超過1萬個GPU(V100GPU芯片)。以此規(guī)格,如果自建IDC,以A100GPU芯片替代V100GPU芯片,依照A100和V100的性能換算,需要約3000個A100GPU芯片。根據(jù)英偉達網(wǎng)站信息,NVIDIADGXA100服務器搭載8塊A100芯片,估算需要375臺NVIDIADGXA100服務器,每臺NVIDIADGXA100服務器的價格為19.9萬美元,則自建IDC的訓練服務器的算力成本為7462.5萬美元。若在云端訓練,據(jù)LambdaLabs首席科學官Chuanli介紹,擁有1750億個參數(shù)的GPT-3單次訓練成本達到460萬美元。應用:行業(yè)將逐步回歸理性,能否突破需要看B端AIGC將逐步回歸理性,未來2-3年重點培育應用和教育市場未來2-3年是AIGC走向成熟的關鍵時期。類似于計算機視覺等相對成熟的技術,AIGC在經(jīng)歷了近期的炒作熱潮結(jié)束之后,預計行業(yè)將經(jīng)歷一段下沉期,市場趨向理性。AIGC則需要加快開始教育和融入市場,培育產(chǎn)品和應用。如果能夠像計算機視覺一樣,找到合適的商業(yè)化場景,行業(yè)后續(xù)將逐步得到市場認可,并持續(xù)做大;如果不能,這項技術也可能持續(xù)停留在低谷期,甚至被市場淘汰。ChatGPT的快速推進,標志著AIGC在C端有著巨大潛力,但B端、G端相關產(chǎn)品應該將是公司的主要收入來源。C端看,主要是來自于內(nèi)容生成等工具性的需求,一般都是輕應用,嘗鮮之后的付費意愿值得觀察,主流的產(chǎn)品收費模式將是SaaS應用訂閱;B端看,是含金量最大的市場,需要將技術轉(zhuǎn)化成工具和解決方案,為企業(yè)和行業(yè)賦能,收費模式可能包括項目定制+后續(xù)訂閱收入。國內(nèi)AIGC垂直應用起步較晚,文本、圖像等領域都還是藍海賽道相較美國市場,國內(nèi)AIGC在相對成熟

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論