版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
證券研究報告2023年4月27日行業(yè):傳媒增持
(維持)GPT-4引領(lǐng)認知革命Deep
Speed加速行業(yè)發(fā)展——GPT系列專題之二主要觀點我們將“AI+傳媒”的研究框架體系定義為“通用大模型”+“行業(yè)小樣本”的技術(shù)架構(gòu),“AI+傳媒”在應用層表現(xiàn)效力優(yōu)劣的關(guān)鍵取決于通用大模型對垂直應用的適配程度及迭代速度,1、適配程度是指:多模態(tài)的輸入及輸出是否匹配應用層的輸入及輸出。比如GPT-4屬于“圖+文”多模態(tài)輸入+“文”單模態(tài)輸出,因此輸入模態(tài)為“圖或文”且輸出模態(tài)為“文”的垂直應用更適配GPT-4。2、迭代速度是指:應用層產(chǎn)生的“行業(yè)小樣本”的數(shù)據(jù)量是否匹配大模型的迭代要求。根據(jù)我們對GPT模型的理解,比如BingAI產(chǎn)生的“行業(yè)小樣本”源自Bing的搜索結(jié)果,ChatGPT產(chǎn)生的“行業(yè)小樣本”源自用戶的反饋和互動。因此我們認為,對于超出GPT所使用的預訓練數(shù)據(jù)庫范圍(2021年9月前)的事實性表述,BingAI反饋的是搜索的結(jié)果,ChatGPT反饋的是用戶主動的觀點,BingAI反饋的效果比ChatGPT更好。我們認為“行業(yè)小樣本”的價值取決于數(shù)據(jù)數(shù)量及數(shù)據(jù)質(zhì)量,數(shù)量大且質(zhì)量高(多模態(tài))的應用場景復用及迭代AI能力的效力更強,因此更進一步理解我們的研究框架,我們將“行業(yè)小樣本”的結(jié)構(gòu)分層(中層小模型+下層應用及內(nèi)容),并將“行業(yè)小樣本”的結(jié)合方式分類(調(diào)用+訓練):1、“行業(yè)小樣本”的數(shù)據(jù)集來自小模型或應用及內(nèi)容:AI產(chǎn)業(yè)鏈包括上層大模型、中層小模型、下層應用及內(nèi)容,包括應用及內(nèi)容直接接入大模型或通過小模型接入大模型兩種方式,即“大模型+應用及內(nèi)容”或“大模型+小模型+應用或內(nèi)容”,其中具備特定功能的AIGC軟件產(chǎn)品及MaaS我們理解為“小模型”+“應用”的技術(shù)范式,本身具備較高質(zhì)量的AI能力,若接入匹配的多模態(tài)大模型,有望實現(xiàn)能力上的質(zhì)變突破。2主要觀點2、“行業(yè)小樣本”的結(jié)合方式包括“能力調(diào)用”及“能力訓練”兩類:(1)“能力調(diào)用”是指下游垂類場景直接調(diào)用通用大模型的通用能力,并基于垂類場景內(nèi)產(chǎn)生的特性化數(shù)據(jù)不斷提升調(diào)用能力在垂類場景內(nèi)的適配程度。我們認為現(xiàn)階段下游應用及內(nèi)容主要采取此類方式接入大模型能力,此類方式可高效快速調(diào)用大模型先進能力,在時間上及成本上具備優(yōu)勢。我們認為“能力調(diào)用”匹配“AI+傳媒”的第一層利好,即通過AI降本增效,大幅提高數(shù)據(jù)及內(nèi)容的供給量。內(nèi)容產(chǎn)業(yè)本質(zhì)由供給決定需求,因此內(nèi)容供給量的明顯提升將有效帶動傳媒基本面拐點及增量空間出現(xiàn)。(2)“能力訓練”是指下游垂類場景將通用大模型針對特性化數(shù)據(jù)集進行再訓練,從而形成垂類場景專屬大模型。例如利用自身豐富的金融數(shù)據(jù)源,基于開源的GPT-3框架再訓練,開發(fā)出了金融專屬大模型BloombergGPT。我們認為“能力訓練”匹配“AI+傳媒”的第二層利好,即下游垂類場景本身的數(shù)據(jù)或內(nèi)容反過來“再訓練”通用大模型(或開源大模型),形成傳媒內(nèi)容場景專屬大模型,形成更穩(wěn)定且高質(zhì)的內(nèi)容輸出。我們認為訓練難度文本<圖片<視頻<影視<游戲,且內(nèi)容數(shù)量逐步遞減但內(nèi)容質(zhì)量逐步遞增,即偏后端的影視、游戲在內(nèi)容數(shù)量上訓練量級不足,因此高質(zhì)量的內(nèi)容形態(tài)首先通過“能力調(diào)用”輸出AIGC內(nèi)容,再將AIGC內(nèi)容“再訓練”大模型以解決高質(zhì)量內(nèi)容數(shù)量不足的問題(合成數(shù)據(jù)“再訓練”范疇)。3主要觀點從投資的角度,按照我們的研究框架,傳媒對應垂類場景的“行業(yè)小樣本”,其核心價值取決于數(shù)據(jù)與內(nèi)容,第一層對應數(shù)據(jù)與內(nèi)容的輸入模態(tài)是否匹配大模型的輸出模態(tài);第二層對應數(shù)據(jù)與內(nèi)容的數(shù)量及質(zhì)量是否匹配大模型的能力再訓練:1、按照“模態(tài)匹配”的邏輯,AI+文本/虛擬人預計率先兌現(xiàn)案例及業(yè)績,其次AI+圖片可通過“大模型”+“小模型”組合方式實現(xiàn)(如GPT+StableDiffusion、GPT+Midjourney)。隨著未來GPT-5提供更多模態(tài)的輸入及輸出,下游垂類場景的適配范圍有望擴大,通過“能力調(diào)用”適配的應用及內(nèi)容場景更為豐富,因此后續(xù)“AI+視頻/影視/游戲”的案例兌現(xiàn)度存在新的催化空間。OpenAI最新發(fā)布的GPT-4核心特征包括:(1)多模態(tài)輸入(圖+文),單模態(tài)輸出(文),可以閱讀并總結(jié)論文內(nèi)容、解答較高難度的物理題目、具備較強的OCR能力(如識別網(wǎng)頁草稿并按要求反饋網(wǎng)頁代碼)、理解人類社會常識;(2)具備長文字處理及推理判斷能力,GPT-4上下文上限約2.5萬字,允許使用長格式內(nèi)容創(chuàng)建、擴展對話以及文檔搜索和分析等,能夠閱讀并記憶更多信息,且具備更高的推理判斷能力;(3)可靠性大幅提升,分辨能力提高,有效減少“虛構(gòu)”或“有害”信息輸出。2、按照“能力再訓練”的邏輯,AI+內(nèi)容/IP預計空間及價值更大,其價值核心取決于數(shù)據(jù)與內(nèi)容/IP的數(shù)量及質(zhì)量的高低。微軟本周發(fā)布的DeepSpeed-Chat大幅提升大模型預訓練速度并大幅降低訓練成本,我們認為最核心意義為大幅降低垂類場景專屬大模型的訓練門檻,小模型層及應用層有望明顯受益。掌握數(shù)據(jù)及優(yōu)質(zhì)內(nèi)容(多模態(tài)數(shù)據(jù))的下游場景具備核心競爭力,因此內(nèi)容及IP(
)的價值有望重估。DeepSpeed-Chat集成預訓練語言大模型完整三個步驟,其中針對第三步RLHF訓練集成了高效且經(jīng)濟的DeepSpeed-RLHF系統(tǒng),使復雜的RLHF訓練變得快速、經(jīng)濟并且易于大規(guī)模推廣(相比現(xiàn)有系統(tǒng)提速15倍以上,且大幅降低算力要求及成本)。風險提示:宏觀經(jīng)濟風險,地緣政治風險;技術(shù)發(fā)展不及預期;AIGC行業(yè)發(fā)展不及預期。4目錄Content一、GPT-4:多模態(tài)、高認知、更安全二、DeepSpeed:更快速、更經(jīng)濟、更普及三、投資建議四、風險提示1.1
GPT-4:多模態(tài)、高認知、更安全u
深耕AIGC領(lǐng)域,AI滲透全方面、各領(lǐng)域。OPENAI致力于用AI改變工作和創(chuàng)意,除ChatGPT的語言模型外,還通過API平臺向開發(fā)者提供最新模型和指南,不斷提高應用性能和用戶活躍度。u
GPT-4是大型多模態(tài)模型。相較于只能接受文字/代碼輸入的GPT-3.5,GPT-4接受圖片+文字的多模態(tài)輸入+高認知的結(jié)合,并反饋文字輸出。GPT-4是OpenAI新一代自然語言處理模型,繼承了GPT-3.5的優(yōu)點的同時改進了模型結(jié)構(gòu)、訓練數(shù)據(jù)量和算法優(yōu)化,應用范圍跨越數(shù)學、編碼、視覺、醫(yī)學、法律、心理學等領(lǐng)域,GPT-4模型多領(lǐng)域的廣泛運用和超高任務(wù)表現(xiàn)力接近甚至超越人類水平,因此GPT-4是AGI的開創(chuàng)性研究,也是邁向AGI的重要一步。圖1
ChatGPT3.5與4的主要區(qū)別最多回復3000字,如果你要求回復4000字,它會說“超過限制”,這時候就得分段提問ChatGPT4和3.5的主要區(qū)別67文字限制有害信息最多回復25000字ChatGPT-3.5ChatGPT-4.0如果提問醫(yī)療建議、自我傷害、違反道德的問題,
4.0拒絕回答有害信息的概率更高,不被允3.5有時會如實作答許的回答4.0則會直接拒絕12打字速度掉線頻率慢、高峰期更慢普遍說4.0更慢,但實際用起來差別不大對于想利用ChatGPT來進行二次開發(fā)的程序員、二次開發(fā)能力
運營者來說,3.5有很多不支持,以及調(diào)用接口次支持更多次數(shù)的api調(diào)用,支持更多的調(diào)用場景基本上每隔幾分鐘不用就會出現(xiàn)紅框、掉線。掉線后需要刷新網(wǎng)頁89基本不掉線數(shù)限制文本過長的時候,生成幾百字就自動停止了,分段生成能力
這時候回復:“繼續(xù)”,3.5就可以繼續(xù)生
4.0基本是完美的連貫生成成,但3.5的生成往往不夠連貫支持圖像輸入、分析圖像(例如拍照幫你做題)。支持圖片輸出,但是不是自己生成的,是網(wǎng)絡(luò)上有的圖34圖片能力無1小時100次提問,基本夠用,但是人多的使用頻率限制
時候,你即使用不到100次也會提示“當前
每3小時25次提問,不會受當前使用人數(shù)影響提問人數(shù)太多,請一小時后再試”10
聯(lián)網(wǎng)能力無,訓練數(shù)據(jù)庫到2021年無,訓練數(shù)據(jù)庫到2021年9月11
防止被誘導一般更難被誘導,拒絕被訓練成為壞壞的AI能記住大約相當于8000個詞之前的指令,但是再多,它就會忘記之前的話了12
連續(xù)對話能力能記住相當于大約64000個單詞和其他AI相比,chatgpt是公認的最強AI,
全球最頂尖的AI,沒有之一。能解決的問題種類基本能滿足我們的日常工作需要。但是和
比3.5多一些,同一個問題,4.0的回復會更好4.0相比,差距還是有的,目測能力值相當
一些。尤其是考試做題能力、邏輯推理能力、5回答質(zhì)量26種語言,且語言水平普遍比3.5的更高,對中文的理解更是達到了和3.5對英語的理解一樣的水平理解不同語言水平13支持24種語言于4.0的70%吧角色扮演能力更強資料:
信息元公眾號,上海證券研究所61.2
多模態(tài):接受圖片+文字形式輸入u
根據(jù)OpenAI技術(shù)文檔給出的案例,GPT-4,對于圖片的理解能力極強。1)同時識別多張圖片內(nèi)容。如圖2,將3張圖片拼湊成1張,GPT-4能夠同時識別多張圖片的內(nèi)容。2)根據(jù)圖片進行算數(shù)運算。如圖3,將題目發(fā)給GPT-4,它能根據(jù)圖片信息進行算數(shù)運算。圖2GPT-4可以同時識別多張圖片內(nèi)容圖3GPT-4可以根據(jù)圖片信息進行推理運算用戶提問:這張圖片有什么有趣的地方?分圖片描述。用戶提問:格魯吉亞和西亞平均每日肉類消費量的總和是多少?在回答之前,請?zhí)峁┲鸩酵评怼PT-4從圖示3處地名識別出用戶要求的2處,然后進行算數(shù)推演,并得到正確答案。成功識別出上圖包含3張圖片,并分別描述了圖片內(nèi)容。資料:《GPT-4TechnicalReport》,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所71.2
多模態(tài):接受圖片+文字形式輸入u
3)閱讀并總結(jié)論文。如圖4、圖5,將論文中部分頁面截圖給GPT-4,即可閱讀并總結(jié)主要內(nèi)容并回答用戶追加的相關(guān)問題。u
4)解答高難度物理題目。如圖6,將écolePolytechnique(巴黎綜合理工大學)物理考試題目傳給GPT-4,并指定其解答某一問題,即可順利識別任務(wù)并正確解答。圖4
GPT-4可以閱讀和總結(jié)論文圖5
GPT-4可以根據(jù)論文內(nèi)容回答相關(guān)問題圖6
GPT-4可以根據(jù)圖片信息進行推理運算正確回答了é
colePolytechnique(巴黎綜合理工大學)物理考試中的題目,該考試主要面向數(shù)學和物理學科的頂尖本科和研究生。用戶提問:請按步驟解答第1小問用戶提問:請總結(jié)以下InstructGPT論文部分的內(nèi)容GPT-4解釋了論文中某一圖表的推導步驟資料:
《GPT-4TechnicalReport》,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所81.2
多模態(tài):接受圖片+文字形式輸入u
5)識別手寫網(wǎng)頁草圖,并根據(jù)草圖寫出網(wǎng)頁前端代碼。如圖7,將手寫“MyJokeWebsite”網(wǎng)頁樣式傳給GPT-4,GPT-4將反饋相應的前端代碼,該代碼不但可以順利運行,也完全符合手繪草稿要求的內(nèi)容和樣式,具有極強的OCR(文字識別)能力。u
6)理解人類社會常識,可讀懂“網(wǎng)絡(luò)梗圖”,具有更明顯的“人性化”特征。如圖8,用戶提問“該圖片中有什么特別之處?”GPT-4回答“男人在移動的出租車車頂燙衣服”是不符合人類社會常識之處,展示出驚人的理解力。如圖9,用戶請GPT-4回答圖中的“?!?,GPT-4能夠?qū)ⅰ半u塊”和“世界地圖”相聯(lián)系,展示出強大的聯(lián)想能力。圖7GPT-4可以根據(jù)手繪圖片返回網(wǎng)站代碼圖8GPT-4可以識別圖片中不符合常理之處用戶:圖片中有什么特別之處?圖9
GPT-4具有強聯(lián)想能力用戶提問:請解釋下圖中的“?!盙PT-4反饋相關(guān)代碼代碼成功運行后的網(wǎng)頁截圖GPT-4解釋了圖中的“梗”在于把雞塊擺放成世界地圖的樣子手寫網(wǎng)頁草稿這張圖片的不尋常之處在于,男人在移動的出租車的車頂上燙衣服,燙衣板也固定在車頂上。資料:差評公眾號,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所91.3
高認知:長文字處理+推理判斷能力u
GPT-4具有更強的長文字處理能力。GPT-4的上下文上限約為2.5萬字,是Chat
GPT的近8倍,允許使用長格式內(nèi)容創(chuàng)建、擴展對話及文檔搜索和分析等,能夠閱讀并記憶更多信息。u
GPT-4有更高的推理判斷能力。如圖11、圖12,向Chat
GPT和GPT-4提出相同問題“給定3個人物各自的空閑時間,求3人的共同空閑時段以安排會議?!盋hatGPT給出了錯誤答案,而GPT-4成功完成這一要求。圖10GPT-4可處理的上下文上限為2.5萬字圖11ChatGPT回答錯誤圖12
GPT-4給出了正確答案ChatGPT回答錯誤,Andrew下午四點沒有空閑時間。GPT-4給出了合理解答。資料:OpenAI官網(wǎng),上海證券研究所資料:OpenAI官網(wǎng),上海證券研究所資料:
OpenAI官網(wǎng),上海證券研究所101.3
高認知:長文字處理+推理判斷能力u
GPT-4具有更高的認知水平。根據(jù)OpenAI給出的專業(yè)測試結(jié)果,GPT-4在高等數(shù)學、法律、生物、化學、英語、高級微觀經(jīng)濟等學科的考試成績遠超GPT-3.5。u
GPT-4在多領(lǐng)域的專業(yè)認知超過平均水準。在律師資格考試中,GPT-4的分數(shù)排名可以達到所有考生的前10%,而GPT-3.5只能排倒數(shù)10%,是GPT-4優(yōu)化幅度最大的科目。此外,在GRE、SAT、歷史、化學、生物、微觀經(jīng)濟、宏觀經(jīng)濟等科目中均超過至少80%以上的考生。編程能力(CodeforcesRating)反而是GPT-4最弱的科目,排名在倒數(shù)5%。圖13GPT-4在專業(yè)測試中的表現(xiàn)圖14GPT-4在專業(yè)測試中的排名80%50%資料:
《GPT-4TechnicalReport》,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所111.3
高認知:長文字處理+推理判斷能力u
GPT-4在評估語言模型的傳統(tǒng)基準上優(yōu)于其他模型。在語言模型基準測試中,分別將GPT-4、GPT-3.5與現(xiàn)有最佳性能語言模型(LM
SOTA)和現(xiàn)有最佳模型(SOTA)的性能通過小樣本(few-shot)測試進行比對,除DROP(閱讀理解基準測試)外,GPT-4在多語言學習、常識推理、語音識別、人類評估測試均超越現(xiàn)有最佳模型。u
GPT-4擁有卓越的外語能力,包括英語和其他小語種。如圖16,GPT-4在包括英語在內(nèi)的27種語言測試中準確率均達到62%以上。通過與GPT-3.5、PaLM、Chinchilla模型英語水平進行對比,GPT-4以85.5%的準確性遠超其他模型。圖15GPT-4顯著優(yōu)于現(xiàn)有模型圖16GPT-4多語言能力更強多語言學習基于自然語言的常識推理測試人類評估除DROP(閱讀理解基準測試)外,GPT-4全方位超越現(xiàn)有最佳模型。語音識別資料:
《GPT-4TechnicalReport》,上海證券研究所資料:
《GPT-4TechnicalReport》,上海證券研究所121.3
高認知:長文字處理+推理判斷能力u
GPT-4的高認知特征具體體現(xiàn)在以下方面:1)高常識推理能力。分別問ChatGPT和GPT-4“1+1什么情況等于3”時,ChatGPT只會從數(shù)學計算的角度思考,但GPT-4可以從常識推理的角度思考。2)高可塑性。與ChatGPT不同,GPT-4能夠以不同的語言風格與用戶交流。當被設(shè)定為某個角色時,GPT-4將不會聽從違背角色特征的指令。3)高解決問題能力。GPT-4能夠處理復雜問題,比如運用學習到的稅務(wù)知識幫助用戶解決稅務(wù)問題。結(jié)合稅法的高時效性與GPT-4的長文字處理能力,用戶可以將最新的稅法傳給GPT-4后要求其為自己解決稅務(wù)籌劃問題。圖17
分別問Chat
GPT和GPT-4“1+1什么情況等于3”圖18
GPT-4具有較強的可塑性圖19
GPT-4能夠處理復雜問題設(shè)置角色:假設(shè)GPT-4是TaxGPT,運用內(nèi)置的Tax知識幫助客戶解決稅務(wù)規(guī)劃問題設(shè)置角色:假設(shè)GPT-4是蘇格拉底風格的導師資料:APPSO公眾號,上海證券研究所資料:差評公眾號,上海證券研究所資料:知識分子公眾號,上海證券研究所131.4
更安全:分辨能力提高u
GPT-4的可靠性大幅提升。相較于GPT-3.5(會隨著持續(xù)迭代而改善),GPT-4顯著減少了“虛構(gòu)”現(xiàn)象。在內(nèi)部設(shè)計的對抗性準確度評估中,GPT-4各科目平均得分比GPT-3.5高出19%。其中,提升幅度在歷史和數(shù)學科目上的表現(xiàn)尤為突出。u
GPT-4的分辨能力有顯著提升,但仍存在改進空間。相較于GPT-3.5,GPT-4在公開基準測試TruthfulQA(測試模型真實性性能好壞的一個測試集)中取得了進步,體現(xiàn)為較高的分辨事實能力。如圖21,在零樣本(0-shot)提示、小樣本(few-shot)提示和人類反饋強化學習(RLHF)微調(diào)后的表現(xiàn)中,GPT-4均明顯優(yōu)于GPT-3.5和Anthropic-LM,但GPT-4對TruthfulQA中的某些問題依然給出了錯誤的回答。圖20GPT-4在9個內(nèi)部設(shè)計的對抗性準確度評估中的表現(xiàn)圖21GPT-4在TruthfulQA中的表現(xiàn)資料:《GPT-4TechnicalReport》,上海證券研究所資料:《GPT-4TechnicalReport》,上海證券研究所141.4
更安全:分辨能力提高u
GPT-4優(yōu)化了安全性指標,能夠有效減少有害風險信息的提供。從響應率來看,GPT-4對違規(guī)內(nèi)容(如制作炸彈的方法)請求的響應率相較于GPT-3.5降低了82%,對敏感內(nèi)容請求(如醫(yī)療建議和自我傷害建議等)的響應率降低了29%,RLHF后的GPT-4的響應率則更低。從反饋“有害信息”的可能性來看,GPT-4在RealToxicityPrompts
數(shù)據(jù)集的測試中僅有0.73%的概率生成“有害信息”,而GPT-3.5的概率為6.48%。圖22敏感提示和禁用提示的錯誤行為比率資料:《GPT-4TechnicalReport》,上海證券研究所151.5
GPT-4仍存在不足之處結(jié)合對現(xiàn)有其他語言模型的研究,GPT-4仍存在信息迭代受限、準確性不足、反饋違規(guī)內(nèi)容等不足之處。u
信息迭代受限。GPT-4信息更迭能力受限,且模型本身不具主動學習能力。根據(jù)GPT-4技術(shù)報告,由于模型于2021年9月預訓練完畢,GPT-4缺乏對此后事件的了解,且無法從經(jīng)驗中學習新內(nèi)容。ChatGPT通過植入插件系統(tǒng)形成了對世界新事物的“觸覺”。根據(jù)OpenAI官網(wǎng)介紹,Web瀏覽器插件將利用NewBing的API,通過在互聯(lián)網(wǎng)上搜索相關(guān)信息,給出用戶具體答案。u
準確性不足。GPT-4的回答準確性相較于GPT-3.5有較大提升,但仍存在虛構(gòu)傾向。在TruthfulQA測試中,GPT-4在某些問題上依然給出了錯誤的回答。隨著GPT-4使用范圍的擴大,虛構(gòu)傾向不僅會誤導用戶,更會降低模型本身的整體可信度。u
存在道德風險。GPT-4可能根據(jù)用戶發(fā)出的指令產(chǎn)生各種有害內(nèi)容,包括違反OpenAI政策以及對不利于社會發(fā)展的內(nèi)容。如歧視性內(nèi)容、誤導性內(nèi)容、策劃襲擊或暴力活動內(nèi)容等。u
其他風險。結(jié)合對現(xiàn)有其他語言模型的研究,GPT-4還可能存在如侵犯隱私權(quán)、危害網(wǎng)絡(luò)安全、出現(xiàn)不受控的新能力、系統(tǒng)交互等潛在風險。162.1
DeepSpeed
更高速度
更大規(guī)模u
DeepSpeed是PyTorch的開源的兼容庫,在深度學習訓練和推理方面具有極高的速度和規(guī)模。DeepSpeed通過提高規(guī)模、速度、成本和可用性來改進大型模型訓練,可訓練超100億個參數(shù)的模型,實現(xiàn)了自然語言處理(NLP)和多模態(tài)(結(jié)合語言圖像、視頻和語音)等領(lǐng)域的突破。u
Deep
Speed
Chat基于微軟Deep
Speed深度學習優(yōu)化庫開發(fā)而成。DeepSpeedChat可在模型訓練中加入完整RLHF流程,用于RLHF訓練的低成本開源解決方案,使得復雜的RLHF訓練變得快速、經(jīng)濟、輕松訪問,實現(xiàn)類似ChatGPT模型的端到端RLHF訓練,從而幫助我們生成自己的高質(zhì)量ChatGPT模型。相較于ChatGPT,DeepSpeedChat普及RLHF(基于人工反饋機制的強化學習)訓練到AI社區(qū),削弱了ChatGPT的局限性。圖23
DeepSpeed三大創(chuàng)新支柱——訓練、推理、壓縮圖24
DeepSpeed
Chat——便捷快速的類chatgpt模型資料:DeepSpeed,上海證券研究所資料:Github,上海證券研究所172.2
不斷強化模型質(zhì)量?
DeepSpeed支持在AMD?
通過DeepSpeed-MII實現(xiàn)亞秒級穩(wěn)定的擴散圖像生成?
ZeRO推理:大眾化大規(guī)模模型推理GPU上進行高效的大型模型訓練2022.52022.92022.112021.102022.72022.102022.12?
DeepSpeed幫助訓練了176億個參數(shù)的BLOOM模型?
DeepSpeedCompression用于極端壓縮的可組合庫Azure?
DeepSpeed支持易于使用的高性能模型訓練?
實現(xiàn)推理(MII)深速模型?
DeepSpeed數(shù)據(jù)效率庫:實現(xiàn)更少的數(shù)據(jù)、更快的訓練和更高的模型質(zhì)量?
DeepSpeed訓練了世界上最強大的語言模型:威震天-圖靈NLG530B182.3
Deep
Speed
三大核心功能在微軟開源DeepSpeed
Chat之后,普通用戶可通過簡單的操作,即可訓練類ChatGPT等大語言模型,降低了ChatGPT類模型使用的門檻和成本,主要通過以下三個核心功能來達到:u
簡化ChatGPT類型模型的訓練并強化推理體驗:DeepSpeed-Chat僅需一個腳本即可實現(xiàn)多個訓練步驟,如使用Huggingface預訓練模型、使用DeepSpeed-RLHF系統(tǒng)運行InstructGPT訓練的所有三個步驟、生成自己的ChatGPT模型。此外,在模型訓練后可以利用推理API進行對話交互測試。u
DeepSpeed-RLHF模塊:DeepSpeed-RLHF模塊復刻InstructGPT論文中的訓練模式,并確保監(jiān)督微調(diào)
(SFT)、獎勵模型微調(diào)和人類反饋強化學習
(RLHF)的三個步驟與其一一對應,提供數(shù)據(jù)抽象和混合功能來支持開發(fā)者使用多個不同數(shù)據(jù)源進行訓練。u
DeepSpeed-RLHF系統(tǒng):DeepSpeed-RLHF系統(tǒng)將DeepSpeed的訓練和推理能力整合成統(tǒng)一混合引擎
(DeepSpeed-HE)
中,用于RLHF訓練。DeepSpeedHybridEngine是為RLHF訓練提供更高性能和效率的混合引擎,它結(jié)合了DeepSpeed的訓練引擎和推理引擎,在訓練和推理模式之間自由切換,為RLHF的訓練和推理提供了更快的速度,也優(yōu)化了內(nèi)存和緩存數(shù)據(jù)。圖25
用于加速RLHF流程中最耗時部分的DeepSpeed混合引擎設(shè)計資料:Github,上海證券研究所192.4
DeepSpeed
Hybrid
Engine
優(yōu)勢u
高效性和經(jīng)濟性:DeepSpeed-HE提供高效的RLHF訓練模式,訓練速度較現(xiàn)有系統(tǒng)快15倍以上,使RLHF訓練快速且經(jīng)濟實惠。u
卓越的擴展性:DeepSpeed-HE能支持訓練擁有數(shù)千億參數(shù)的模型,并在多節(jié)點多GPU系統(tǒng)上展現(xiàn)出其卓越的擴展性。因此,即使是擁有130億參數(shù)的模型,也僅需1.25小時即可完成訓練。對擁有1750億參數(shù)的龐大模型,使用DeepSpeed-HE進行訓練也只需不到一天的時間。u
普及RLHF訓練:DeepSpeed-HE憑借單個GPU即可支持訓練超1300億參數(shù)的模型,使無法多GPU系統(tǒng)的數(shù)據(jù)科學家既可以輕松創(chuàng)建輕量級的RLHF模型,又可以創(chuàng)建功能強大、能用于不同場景的的大型模型。圖26
單節(jié)點在Azure云上使用DeepSpeed-HE訓練不同模型的時長和相應花費圖27
多節(jié)點在Azure云上使用DeepSpeed-HE訓練不同模型的時長和相應花費圖28
DeepSpeed-HE支持單GPU大型模型資料:Github,上海證券研究所資料:Github,上海證券研究所資料:Github,上海證券研究所202.5
訓練步驟Deep
Speed
的訓練生成流程分為三個步驟:1)監(jiān)督微調(diào)(SFT)。預訓練語言模型通過監(jiān)督微調(diào)(SFT)進行微調(diào),使用精選的人類回答來調(diào)整訓練的語言模型。2)獎勵微調(diào)模型。使用人類對同一查詢的多個答案打分的數(shù)據(jù)集,去訓練一個不同的(通常小于SFT)獎勵模型(RW)。3)RLHF訓練。使用近端策略優(yōu)化(ProximalPolicyOptimization,PPO)算法,利用獎勵模型的獎勵反饋,進一步調(diào)整SFT模型。圖29
完整的RLHF訓練概述圖資料:Github,上海證券研究所212.6
訓練性能評估(1/2)與現(xiàn)有RLHF系統(tǒng)(如Colossal-AI或HuggingFace)相比,DeepSpeed-RLHF在系統(tǒng)性能和模型可擴展性表現(xiàn)出色,DeepSpeed-HE的吞吐量提高了一個數(shù)量級以上,能夠在相同的延遲預算下訓練更大的模型。1)吞吐量方面:多GPU上比Colossal-AI
提速6
–
19倍,比HuggingFaceDDP提速1.4–10.5
倍單GPU上,DeepSpeed使RLHF訓練的吞吐量提升超10倍圖30
DeepSpeedChat與Colossal-AI和HuggingFace的RLHF吞吐量比較圖31
訓練第三步:最耗時的端到端訓練吞吐量比較資料:Github,上海證券研究所資料:Github,上海證券研究所222.6
訓練性能評估(2/2)2)擴展性方面:Colossal-AI在單GPU和單A100
40G(服務(wù)器)節(jié)點上最大可分別運行1.3B和6.7B的模型;DeepSpeed-HE在同樣的硬件上可分別運行6.5B和50B模型,最大可達Colossal-AI的7.5倍。u
DeepSpeed-Chat的高效率主要是DeepSpeed-HE在RLFH生產(chǎn)階段的優(yōu)化加速。利用DeepSpeed的高性能推理內(nèi)核,DeepSpeed-HE在生產(chǎn)階段實現(xiàn)比HuggingFace高9倍的吞吐量,比Colossal-AI高15倍的吞吐量。圖32
1.3B參數(shù)模型在RLHF訓練的時間分解資料:Github,上海證券研究所232.7
Deep
Speed
Chat開源意義u
開源DeepSpeedChat,降低垂類場景大模型訓練門檻。ChatGPT只用了幾個月便席卷全球,成為史上用戶增長速度最快的消費級應用,推動世界的經(jīng)濟發(fā)展和科技研發(fā)。但龐大的資金資源投入限制了很多企業(yè)和個人用戶的使用,微軟為解決這一限制,開源DeepSpeedChat模型。u
解決訓練類Ch
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 沈陽理工大學《變頻控制技術(shù)》2022-2023學年期末試卷
- 合同法第52條5項
- 新入職員工的意識培訓
- 2025版高考英語一輪復習第1部分人與自我主題群1生活與學習主題語境5認識自我豐富自我完善自我2教師用書教案
- 新高考2025屆高考政治小題必練1神奇的貨幣
- 大班音樂嘗葡萄課件
- 2024年拉薩客運資格證答題軟件下載
- 2024賓館轉(zhuǎn)讓合同范文
- 2024屋頂防水合同范文
- 2024小額貸款擔保合同范本
- 淺議小升初數(shù)學教學銜接
- 設(shè)備安裝應急救援預案
- 深基坑工程降水技術(shù)及現(xiàn)階段發(fā)展
- 暫堵壓裂技術(shù)服務(wù)方案
- 《孔乙己》公開課一等獎PPT優(yōu)秀課件
- 美的中央空調(diào)故障代碼H系列家庭中央空調(diào)(第一部分多聯(lián)機)
- 物料承認管理辦法
- 業(yè)主委員會成立流程圖
- (完整版)全usedtodo,beusedtodoing,beusedtodo辨析練習(帶答案)
- 廣聯(lián)達辦公大廈工程施工組織設(shè)計
- 疑難病例HELLP綜合征
評論
0/150
提交評論