信息技術行業(yè)大模型技術進化論系列二:性能進階的GPT2與GPT3_第1頁
信息技術行業(yè)大模型技術進化論系列二:性能進階的GPT2與GPT3_第2頁
信息技術行業(yè)大模型技術進化論系列二:性能進階的GPT2與GPT3_第3頁
信息技術行業(yè)大模型技術進化論系列二:性能進階的GPT2與GPT3_第4頁
信息技術行業(yè)大模型技術進化論系列二:性能進階的GPT2與GPT3_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

分析師及聯(lián)系人SACS0030004后評級說明和重要聲明OpenAI于2019年推出了GPT-2,于2020年推出了GPT-3。GPT-2與GPT-3沿襲了初代力上升,所以省略了調參步驟;3)小樣本學習(fewshotlearning)能力迅速提高。帶來性能提升在自然語言處理任務上的性能相對于初代GPT有了明顯提升,可以較好的實現(xiàn)文本生成、文GPT-3在大多數(shù)任務中的表現(xiàn)超過了絕大多數(shù)的當時存在的經(jīng)過小樣本學習的最先進的模型 GPTGPT化能力,在提高訓練數(shù)據(jù)T本學習的性能與樣本幾乎成正比;當樣本數(shù)超過10時,性能增長的邊際變化下降,逐漸趨于GPTGPT以商業(yè)化落地的階段,業(yè)界OpenAIGPT如今浪潮之巔的ChatGPT。后評級說明和重要聲明-20投資評級看好丨維持 術滬深300指數(shù)%%2022/42022/82022/122023/4研究?《商湯推出日日新,大算力+大裝置共筑繁華未?《阿里通義千問邀測,風好正是揚帆時》2023-04-?《Meta發(fā)布SAM,CV領域迎來GPT時刻》2023-04-10行業(yè)研究|專題報告3/3/14 圖1:Attention機制給不同的詞賦予不同的權重 4 T GPT 6圖7:GPT-2(1542M)在9個任務上的表現(xiàn)都超越了初代GPT(117M) 7圖8:GPT-2模型文本總結任務的性能在參數(shù)量提升后稍有下滑 7圖9:初代GPT與BERT通過無監(jiān)督預訓練+調參來得到最終模型 8 圖13:如果將大模型的調參和小樣本學習類比成考試 9GPT-3性能會隨著可學樣本數(shù)量提高而提高 10 圖17:GPT-2的性能稍弱于BERT 11圖18:當任務數(shù)據(jù)規(guī)模提高后,GPT-2的性能可以追上BERT 11BERTRoERTaGPT-2與GPT-3 11BERTGPT式的影響 12T 4/4/14GPTGPT-3有哪些技術突破?《大模型技術演進系列一》報告,我們比較了初代GPT與BERT兩類大模型的技術路線,得出了初代GPT采用的Decoder架構+自回歸的訓練模式更有發(fā)展前景的習方法進行。任意兩個位置之間的距離縮小為一個常量,并且在處理序列數(shù)據(jù)時對相關部分進下文關注。Attention資料來源:Github,長江證券研究所資料來源:Github,長江證券研究所?Decoder架構與自回歸訓練模式:此外,GPT-2與GPT-3同樣采用了大模型kedselfAttention5/5/14無標注數(shù)據(jù) (7000本書)無標注數(shù)據(jù) (40GBReddit網(wǎng)站資料)練無標注數(shù)據(jù) (45TB多種來源數(shù)據(jù))搭建初代GPT模型12層Decoder512Token長度搭建GPT-3模型9無標注數(shù)據(jù) (7000本書)無標注數(shù)據(jù) (40GBReddit網(wǎng)站資料)練無標注數(shù)據(jù) (45TB多種來源數(shù)據(jù))搭建初代GPT模型12層Decoder512Token長度搭建GPT-3模型96層Decoder2048Token長度無目的性預訓練無目的性預訓練得到1.17億參數(shù)的GPT-1性能弱、泛化能力弱得到1750億參數(shù)的GPT-3性能強、泛化能力強監(jiān)督數(shù)據(jù)調參泛化能力強,所以省略了調參步驟出現(xiàn)AI任務出現(xiàn)AI任務將大模用于N型直接LP任務通過小樣本學習提升性能習勉強完成任務基本完成任務較好完成任務tionMaskedselfAttention資料來源:Github,長江證券研究所升;3)小樣本學習(fewshotlearning)能力T搭搭建GPT-2模型48層Decoder1024Token長度無無目的性預訓練得到15.4億參數(shù)的GPT-2性能中等、泛化能力中等泛化能力以省略了調參步驟出現(xiàn)AI任務將大模用于N直接LP任務資料來源:機器之心,Sigmoid,lambdalab,長江證券研究所6/6/14升RedditGPT的10TBGPT系列大模型技術突破參數(shù)(億)大小類型本學習能力Corpus低低層DecoderGBeddit中低DecoderTBooksWikipedia高高資料來源:機器之心,Sigmoid,lambdalab,長江證券研究所GPT-2與GPT-3的Token長度從初代GPT的512上漲到1024和2048。大模型的Token長度與每次可輸入的文本長短有直接聯(lián)系,長度升級使得GPT大模型處理長文1400詞(1Token≈0.7單詞)。GPTGPT不斷提升。在訓練資料來源:《LanguageModelsareFew-ShotLearners》OpenAI,長江證券研究所T資料來源:《LanguageModelsareFew-ShotLearners》OpenAI,長江證券研究所7/7/14語言任務上,結果證明GPT-2在8項任務上的表現(xiàn)遠超當時最先進的自然語言處理模得它在自然語言處理任務上的性能相對于初代GPT有了明顯提升,可以較好的實現(xiàn)文圖7:GPT-2(1542M)在9個任務上的表現(xiàn)都超越了初代GPT(117M)資料來源:《LanguageModelsareUnsupervisedMultitaskLearners》OpenAI,長江證券研究所SOTAGPT多復雜的NLPSOTA卷問答、模式解析、機器翻譯等。當GPT-2的參數(shù)量從7.62億上升到15.4億,模型性能反而略微下滑。出現(xiàn)這一結果資料來源:《LanguageModelsareUnsupervisedMultitaskLearners》OpenAI,長江證券研究所GPTBERTNLP務中比較主流的模式是預訓練+調參。這種模式。GPTBERT模型預訓練+調參=目標模型大規(guī)模無標注數(shù)據(jù)模型預訓練 (Pre-training)泛用性增強任務特定訓練數(shù)據(jù)模型微調 (Fine-tuning)根據(jù)場景調整數(shù)據(jù)最終模型得到特定所需資料來源:清華NLP團隊,openBMB,長江證券研究所高泛化能力允許oqT-S與oqT-t大模型都省略了調參步驟。GPT-2論文標題為reUnsupervisedMultitaskLearnersGPTTGPTGPT-3拋棄調資料來源:《LanguageModelsareFew-ShotLearners》OpenAI,長江證券研究所oqTSGPT之后雖然在大部分任務中已經(jīng)有oqT-t通過小樣本學習提高模型泛化能力。GPT-3大模型不再去追求極致的不需要任個任務。9/9/14小樣本學習不復習,簡單瀏覽考題流程簡單但性能不如調參小樣本學習不復習,簡單瀏覽考題流程簡單但性能不如調參資料來源:《LanguageModelsareFew-ShotLearners》OpenAI,長江證券研究所資料來源:斯坦福AI實驗室,長江證券研究所調參調參考考前認真復習性性能較高但流程復雜資料來源:長江證券研究所GPTGPT的結果來看,對于1750億的10/10/14資料來源:《LanguageModelsareFew-ShotLearners》OpenAI,長江證券研究所T-13億之間,模型無樣本學習的表現(xiàn)反而高于小樣本學習。通俗來講:小參數(shù)量的大模資料來源:《LanguageModelsareFew-ShotLearners》OpenAI,長江證券研究所資料來源:《LanguageModelsareFew-ShotLearners》OpenAI,長江證券研究所性能提升,但市場表現(xiàn)不及預期GPTGPT。11/11/14資料來源:《iReason:MultimodalCommonsenseReasoningusingVideosandNaturalLanguagewithInterpretability》Chadhaetal.,長江證券研究所RT資料來源:《AStudyonPrompt-basedFew-ShotLearningMethodsforBeliefStateTrackinginTask-orientedDialogSystems》Sahaetal.,長江證券研究所為了解決GPT-3性能不足的問題,OpenAI在2023年推出了根據(jù)GPT-3調參的ChatGPT了Decoder架構與訓練模式帶來的問題,越過了文本推理與文本資料來源:Paperwithcode,長江證券研究所12/12/14資料來源:長江證券研究所13/13/14風險提示AI型創(chuàng)新伴隨參數(shù)量及模態(tài)的增速能力天花板尚未達到,但模型效果本身仍存瓶頸及問題,倘若AI技術發(fā)展不及預期,投入廠商仍然存在2、下游應用需求不及預期,人工智能本質是通過供給創(chuàng)新催生需求擴容,目前大模型行業(yè)研究|專題報告14/14/142個月內行業(yè)股票指數(shù)的漲跌幅相對同期相關證券市場代表性指數(shù)的漲跌幅為基準,投資建議的評平公司評級報告發(fā)布日后的12個月內公司的漲跌幅相對同期相關證券市場代表性指數(shù)的漲跌幅為基準,投資建議的評級標準為:相關證券市場代表性指數(shù)說明:A股市場以滬深300指數(shù)為基準;新三板市場以三板成指(針對協(xié)議轉讓標的)或三板做市指數(shù) (針對做市轉讓標的)為基準;香港市場以恒生指數(shù)為基準。AddAdd區(qū)淮海路88號長江證券大廈37樓P.C/(430015)Add/深圳市福田區(qū)中心四路1號嘉里建設廣場3期36樓P.C/(518048)Add/浦東新區(qū)世紀大道1198號世紀匯廣場一座29層P.C/(200122)Add/西城區(qū)金融街33號通泰大廈15層P.C/(100032)作者具有中國證券業(yè)協(xié)會授予的證券投資咨詢執(zhí)業(yè)資格并注冊為證券分析師,以勤勉的職業(yè)態(tài)度,獨立、客觀地出具本報告。分析邏輯基于作者的職業(yè)理解,本報告清晰準確地反映了作者的研究觀點。作者所得報酬的任何部分不曾與,不與,也不將與本報告中的具體推薦意見或觀點而有直接或間接聯(lián)系,特此聲明。長江證券股份有限公司具有證券投資咨詢業(yè)務資格,經(jīng)營證券業(yè)務許可證編號:10060000。本報告僅限中國大陸地區(qū)發(fā)行,僅供長江證券股份有限公司(以下簡稱:本公司)的客戶使用。本公司不會因接收人收到本報告而視其為客戶。本報告的信息均來源于公開資料,本公司

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論