DeepSeek LLM:以長(zhǎng)遠(yuǎn)主義擴(kuò)展開源語言模型 DeepSeek LLM- Scaling Open-Source Language Models with Longtermism(中文版)_第1頁
DeepSeek LLM:以長(zhǎng)遠(yuǎn)主義擴(kuò)展開源語言模型 DeepSeek LLM- Scaling Open-Source Language Models with Longtermism(中文版)_第2頁
DeepSeek LLM:以長(zhǎng)遠(yuǎn)主義擴(kuò)展開源語言模型 DeepSeek LLM- Scaling Open-Source Language Models with Longtermism(中文版)_第3頁
DeepSeek LLM:以長(zhǎng)遠(yuǎn)主義擴(kuò)展開源語言模型 DeepSeek LLM- Scaling Open-Source Language Models with Longtermism(中文版)_第4頁
DeepSeek LLM:以長(zhǎng)遠(yuǎn)主義擴(kuò)展開源語言模型 DeepSeek LLM- Scaling Open-Source Language Models with Longtermism(中文版)_第5頁
已閱讀5頁,還剩112頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DeepSeekLLM以長(zhǎng)遠(yuǎn)主義擴(kuò)展開源語言模型WenjieHu,PanpanHuang,ErhangLi,GuoweiLi,JiashiLi,YaoLi,Y.K.Li,WenfengLiang,FangyunLin,A.X.Liu,BoLiu,WShanghaoLu,FuliLuo,ShirongMa,XiaotaoNie,TianPei,YishiPiao,JunXuechengSu,JingxiangSun,YaofengSun,MinghuiTang,BingxuanShiyuWang,YaohuiWang,YongjiWang,TongWu,Y.Wu,XinXie,ZhendaXie,ZiweiXieYiliangXiong,HanweiXu,R.X.Xu,YanhongXu,DejianYang,YuxiangYou,ShuipingYu,XingkaiYu,B.Zhang,HaoweiZhang,LecongZhang,LiyueZhang,MingchuanZhang,MinghuaZhang,WentaoZhang,YichaoZha22預(yù)訓(xùn)練4 42.2架構(gòu) 42.3超參數(shù) 52.4基礎(chǔ)設(shè)施 5 73.2估計(jì)最優(yōu)模型和數(shù)據(jù)縮放 93.3不同數(shù)據(jù)的縮放定律 4對(duì)齊115評(píng)估125.1公共基準(zhǔn)評(píng)估 5.1.1基礎(chǔ)模型 5.1.2聊天模型 5.2開放性評(píng)估 5.2.1中文開放性評(píng)估 5.4安全性評(píng)估 5.5討論 6結(jié)論、局限性及未來工作A附錄29 A.2不同模型規(guī)模表示法 29A.3基準(zhǔn)指標(biāo)曲線 A.4與代碼或數(shù)學(xué)專用模型的比較 A.5DPO階段的基準(zhǔn)測(cè)試結(jié)果 A.6評(píng)估格式 3B結(jié)論、局限性和未來工作32A.1致謝 42A.2不同模型規(guī)模表示法 42A.3基準(zhǔn)指標(biāo)曲線 43A.4與代碼或數(shù)學(xué)專用模型的比較 A.5DPO階段的基準(zhǔn)結(jié)果 4在過去的幾年中,基于僅解碼器Transformer的大型語言模型(LLMs)(Vaswanietal.,大規(guī)模數(shù)據(jù)集上進(jìn)行自監(jiān)督預(yù)訓(xùn)練,使它們能夠?qū)崿F(xiàn)各種目的并具備許多能力,如小說創(chuàng)作、2023)等封閉產(chǎn)品引發(fā)的,這些產(chǎn)品是利用大量的計(jì)算資源和可觀的標(biāo)注成本開發(fā)的。這些產(chǎn)品顯著提高了社區(qū)對(duì)開源LLMs能力的期望,從而激發(fā)了一系列工作(Baietal.,2023;Duetal.,從7B到70B參數(shù)的性能良好的模型。因此,LLaMA系列已成為開源模型中架構(gòu)和性能的實(shí)際基繼LLaMA之后,開源社區(qū)主要集中在訓(xùn)練固定大小(7B、13B、34B和70B)的高質(zhì)量模型,常常忽視了對(duì)LLM擴(kuò)展規(guī)律的研究(Hoff當(dāng)前的開源模型僅處于通用人工智能(AGI)發(fā)展的初期階段,擴(kuò)展規(guī)律的研究至關(guān)重要。此得出了不同的結(jié)論,并且未能充分討論超參數(shù)。在本文中,我們廣泛研究了語言模型的擴(kuò)展行習(xí)率的擴(kuò)展規(guī)律,并發(fā)現(xiàn)了它們與模型大小的趨勢(shì)。在此基礎(chǔ)上,我們對(duì)數(shù)據(jù)規(guī)模和模型規(guī)模在擴(kuò)展規(guī)律的指導(dǎo)下,我們從頭開始構(gòu)建開源大型語言模型,并盡可能多地發(fā)布信息供社便于持續(xù)訓(xùn)練。我們從多個(gè)來源收集了超過100萬個(gè)實(shí)例用于監(jiān)督微調(diào)(SFT)(Ouyangetal.2022)。本文分享了我們?cè)诓煌琒FT策略和數(shù)據(jù)消融技術(shù)方面的經(jīng)驗(yàn)和發(fā)現(xiàn)。此外,我們還利用5在本文的其余部分,我們首先在第2節(jié)介紹DeepSeekLLM的預(yù)訓(xùn)練基本概念,包括數(shù)據(jù)組成、模型架構(gòu)、基礎(chǔ)設(shè)施和超參數(shù)。在第3節(jié)中,我們?cè)敿?xì)解釋了我們發(fā)現(xiàn)的擴(kuò)展規(guī)律及其意義。此外,我們討論了選擇預(yù)訓(xùn)練超參數(shù)的依據(jù),考慮了從擴(kuò)展規(guī)律分析中獲得的見解。在第4節(jié)中,我們討論了微調(diào)方法,包括微調(diào)數(shù)據(jù)的組成以及SFT和DPO階段的具體方法。然后在第5節(jié)中,我們展示了DeepSeekLLM的詳細(xì)評(píng)估結(jié)果,涵蓋了基礎(chǔ)模型和聊天模型,以及它們?cè)陂_放性評(píng)估和安全評(píng)估中的表現(xiàn)。最后,我們?cè)诘贐節(jié)討論了DeepSeekLLM的當(dāng)前局限性和未來方向。2.預(yù)訓(xùn)練2.1.數(shù)據(jù)我們的主要目標(biāo)是全面提升數(shù)據(jù)集的豐富性和多樣性。我們從知名來源如(Computer,2023;Gaoetal.,2020;Penedoetal.,2023;Touvronetal.,2023a)獲得了寶貴見解。為實(shí)現(xiàn)這些目標(biāo),我們將方法分為三個(gè)關(guān)鍵階段:去重、過濾和混洗。去重和混洗階段通過采樣唯一實(shí)例確保數(shù)據(jù)的多樣性表示。過濾階段增強(qiáng)了信息密度,從而實(shí)現(xiàn)更高效和有效的模型訓(xùn)練。我們采用了激進(jìn)的去重策略,擴(kuò)大了去重范圍。分析表明,對(duì)整個(gè)CommonCrawl語料庫進(jìn)行去重相比單個(gè)轉(zhuǎn)儲(chǔ)內(nèi)的去重能去除更多的重復(fù)實(shí)例。表1顯示,跨91個(gè)轉(zhuǎn)儲(chǔ)去重比單個(gè)轉(zhuǎn)儲(chǔ)方法多消除四倍以上的文檔。126Table1|各種CommonCrawl轉(zhuǎn)儲(chǔ)的去重率。在過濾階段,我們專注于制定穩(wěn)健的文檔質(zhì)量評(píng)估標(biāo)準(zhǔn)。這涉及詳細(xì)分析,包括語言和語義評(píng)估,提供從個(gè)體和全局視角的數(shù)據(jù)質(zhì)量視圖。在混洗階段,我們調(diào)整方法以解決數(shù)據(jù)不平衡問題,重點(diǎn)增加代表性不足領(lǐng)域的存在。此調(diào)整旨在實(shí)現(xiàn)更加平衡和包容的數(shù)據(jù)集,確保不同觀點(diǎn)和信息得到充分代表。對(duì)于分詞器,我們基于tokenizers庫(HuggingfaceTeam,2019)實(shí)現(xiàn)了字節(jié)級(jí)字節(jié)對(duì)編碼(BBPE)算法。預(yù)分詞用于防止來自不同字符類別的標(biāo)記合并,例如換行符、標(biāo)點(diǎn)符號(hào)和中日韓(CJK)符號(hào),類似于GPT-2(Radfordetal.,2019)。我們還選擇將數(shù)字拆分為單個(gè)數(shù)字,遵循(Touvronetal.,2023a,b)中的方法。根據(jù)以往經(jīng)驗(yàn),我們將詞匯表中的常規(guī)標(biāo)記數(shù)量設(shè)置為100000。分詞器在大約24GB的多語言語料庫上進(jìn)行了訓(xùn)練,并在最終詞匯表中增加了15個(gè)特殊標(biāo)記,使總大小達(dá)到100015。為了確保訓(xùn)練期間的計(jì)算效率并為將來可能需要的額外特殊標(biāo)記預(yù)留空間,我們將模型的詞匯表大小配置為102400以進(jìn)行訓(xùn)練。6位置編碼。為了優(yōu)化推理成本,67B模型使用Grouped-QueryAttention(GQA)(Ainslieetal.,然而,在宏觀設(shè)計(jì)方面,DeepSeekLLM略有不同。具體來說,DeepSeekLLM與大多數(shù)使用Grouped-QueryAttention(GQA)的工作不同,我們?cè)诰W(wǎng)絡(luò)深度上擴(kuò)展了67B模型的參數(shù),而不是常見的做法——擴(kuò)展FFN層的中間寬度,以追求更好的性能。詳細(xì)DeepSeekLLM初始化的標(biāo)準(zhǔn)差為0.006,并使用AdamW優(yōu)化行訓(xùn)練,超參數(shù)如下:β1=0.9,β2=0.95,和weight_decay=0.1。預(yù)訓(xùn)練期間使用多步學(xué)習(xí)率調(diào)度器而不是典型的余弦調(diào)度器。具體來說,模型的學(xué)習(xí)率在2000個(gè)熱身步驟后達(dá)到最大值,然后在處理80%的訓(xùn)練令牌后降至最大值的31.6%,再在處理90%的令牌后進(jìn)一步降至最大值的10%。訓(xùn)練階段的梯度裁剪設(shè)置為1.0。根據(jù)我們的實(shí)證研究,盡管訓(xùn)練期間損失減少趨勢(shì)不同,但使用多步學(xué)習(xí)率調(diào)度器的最終性能與余弦調(diào)度器基本一致,如圖1(a)所示。在保持模型規(guī)模固定的情況下調(diào)整訓(xùn)練規(guī)模時(shí),多步學(xué)習(xí)率調(diào)度器允許重用第一階段的訓(xùn)練,為持續(xù)訓(xùn)練提供了獨(dú)特便利。因此,我們選擇了多步學(xué)習(xí)率調(diào)度器作為默認(rèn)設(shè)置。我們還在圖1(b)中展示了調(diào)整多步學(xué)習(xí)率調(diào)度器各階段的比例可以略微提高性能。然而,為了平衡持續(xù)訓(xùn)練中的重用率和模型性能,我們選擇了上述80%、10%和10%的三階段分布。批大小和學(xué)習(xí)率隨模型規(guī)模變化。7B和67B模型預(yù)訓(xùn)練階段的具體參數(shù)見表2。7令牌的數(shù)據(jù)集上進(jìn)行訓(xùn)練。了閃存注意力(Dao,2023;Daoetal.,2022)技術(shù)來提高硬件利用率。ZeRO-1(Rajbhandarietal.,2020)被用來將優(yōu)化器狀態(tài)分區(qū)到數(shù)據(jù)并行等級(jí)。還做了努力以重疊計(jì)算和通信,以序列并行中的GEMM計(jì)算和all-gather/reduce-scatter。一些層/運(yùn)算符被融合以加速訓(xùn)練,包下訓(xùn)練模型,但在fp32精度下累積梯度。就地交叉熵被執(zhí)行以減少GPU內(nèi)存消耗,即:我們?cè)诮徊骒谻UDA內(nèi)核中即時(shí)將bf16logits轉(zhuǎn)換為fp32精度(而不是提前在HBM中轉(zhuǎn)換),計(jì)算相應(yīng)的bf16梯度,并用其梯度覆蓋logits。批處理以避免手動(dòng)調(diào)整批大小并減少標(biāo)記填充。關(guān)于擴(kuò)展定律的研究(Hestnessetal.,2017)早于大型語言模型的出現(xiàn)。擴(kuò)展定律(Henighanetal.,2020;Hoffmannetal.,2022;Kaplanetal.,2020)表明,通過增加計(jì)算預(yù)算C、模型規(guī)模N和數(shù)據(jù)規(guī)模D可以可預(yù)測(cè)地改進(jìn)模型性能。當(dāng)模型規(guī)模N由模型參數(shù)表示,數(shù)據(jù)規(guī)模D由標(biāo)記數(shù)量表示時(shí),C可以近似為C=6ND。因此,如何在增加計(jì)算預(yù)算時(shí)優(yōu)化模型和數(shù)據(jù)規(guī)模之間的8分配也是擴(kuò)展定律研究中的一個(gè)重要目標(biāo)。大型語言模型(LLMs)的發(fā)展(Daietal.,2019;Radfordetal.,2019)帶來了意外且顯著的性能提升,這將擴(kuò)展定律研究推向了一個(gè)新的高峰。擴(kuò)展定律的結(jié)果表明,增加計(jì)算預(yù)算繼續(xù)帶來顯著的好處,這進(jìn)一步鼓勵(lì)了模型規(guī)模的增加(Brownetal.,2020;Smithetal.,2022)。然而,如表3所示,早期關(guān)于最佳模型/數(shù)據(jù)擴(kuò)展分配策略的工作(Hoffmannetal.,2022;Kaplanetal.,2020)得出了不同的結(jié)論,對(duì)擴(kuò)展定律的普遍適用性提出了疑問。此外,這些研究通常缺乏對(duì)超參數(shù)設(shè)置的完整描述,無法確定不同計(jì)算預(yù)算下的模型是否達(dá)到了最優(yōu)性能。因此,我們?cè)诒竟?jié)中重新審視擴(kuò)展定律,以解決這些不確定性,并確保我們能夠有效地?cái)U(kuò)大計(jì)算規(guī)模,這反映了長(zhǎng)期視角,是開發(fā)持續(xù)改進(jìn)模型的關(guān)鍵。為了確保不同計(jì)算預(yù)算下的模型可以達(dá)到最優(yōu)性能,我們首先研究了超參數(shù)的擴(kuò)展定律。經(jīng)驗(yàn)上觀察到,在變化計(jì)算預(yù)算時(shí),大多數(shù)參數(shù)的最優(yōu)值不會(huì)改變。因此,這些參數(shù)與第2.3節(jié)中所述的一致,并在不同計(jì)算預(yù)算下保持不變。然而,對(duì)性能影響最大的超參數(shù),即批量大小和學(xué)習(xí)率,進(jìn)行了重新審查。Zhangetal.,2019)提供了一些設(shè)置批量大小和學(xué)習(xí)率的經(jīng)驗(yàn)觀察,但我們發(fā)現(xiàn)在初步實(shí)驗(yàn)中這些觀察的適用性有限。通過廣泛的實(shí)驗(yàn),我們建模了計(jì)算預(yù)算C與最優(yōu)批量大小和學(xué)習(xí)率之間的冪律關(guān)系。這種關(guān)系,我們稱之為超參數(shù)擴(kuò)展定律,提供了一個(gè)確定最優(yōu)超參數(shù)的經(jīng)驗(yàn)框架。這種方法確保了不同計(jì)算預(yù)算下的模型可以達(dá)到接近最優(yōu)的性能。然后我們研究了模型和數(shù)據(jù)規(guī)模的擴(kuò)展定律。為了減少實(shí)驗(yàn)成本和擬合難度,我們采用了Chinchilla(Hoffmannetal.,2022)中的IsoFLOP配置方法來擬合擴(kuò)展曲線。為了更準(zhǔn)確地表示模型規(guī)模,我們使用了新的模型規(guī)模表示法,非嵌入FLOPs/tokenM,取代了早期使用的模型參數(shù)N,并用更精確的公式C=MD替換了近似的計(jì)算預(yù)算公式C=6ND。實(shí)驗(yàn)結(jié)果提供了關(guān)于最佳模型/數(shù)據(jù)擴(kuò)展分配策略和性能預(yù)測(cè)的見解,并準(zhǔn)確預(yù)測(cè)了DeepSeekLLM7B和67B模型的預(yù)期性能。此外,在探索擴(kuò)展定律的過程中,我們使用的數(shù)據(jù)經(jīng)歷了多次迭代,質(zhì)量不斷提高。我們嘗試在各種數(shù)據(jù)集上擬合擴(kuò)展曲線,發(fā)現(xiàn)數(shù)據(jù)質(zhì)量顯著影響最佳模型/數(shù)據(jù)擴(kuò)展分配策略。數(shù)據(jù)質(zhì)量越高,增加的計(jì)算預(yù)算應(yīng)更多地分配給模型擴(kuò)展。這意味著,在相同的數(shù)據(jù)規(guī)模下,高質(zhì)量的數(shù)據(jù)可以驅(qū)動(dòng)更大模型的訓(xùn)練。最佳模型/數(shù)據(jù)擴(kuò)展分配策略的差異也可以作為評(píng)估數(shù)據(jù)質(zhì)量的間接方法。我們將繼續(xù)密切關(guān)注數(shù)據(jù)質(zhì)量的變化及其對(duì)擴(kuò)展定律的影響,并在未來的工作中提供更多分析??傊?,我們?cè)跀U(kuò)展定律方面的貢獻(xiàn)和發(fā)現(xiàn)可以總結(jié)如下:●我們建立了超參數(shù)的擴(kuò)展定律,提供了一個(gè)確定最優(yōu)超參數(shù)的經(jīng)驗(yàn)框架?!裎覀儾捎梅乔度隖LOPs/tokenM來表示模型規(guī)模,而不是模型參數(shù)N,從而導(dǎo)致更準(zhǔn)確的最佳模型/數(shù)據(jù)擴(kuò)展分配策略和更好的大規(guī)模模型泛化損失預(yù)測(cè)?!耦A(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量影響最佳模型/數(shù)據(jù)擴(kuò)展分配策略。數(shù)據(jù)質(zhì)量越高,增加的計(jì)算預(yù)算應(yīng)9更多地分配給模型擴(kuò)展。率選擇范圍內(nèi)保持穩(wěn)定。這表明在相對(duì)寬廣的參數(shù)空間內(nèi)可以實(shí)現(xiàn)接近最優(yōu)的性能。2…2l★2zmissmlssesssl*灬mi44n(a)le17FLOPs(177MFLOPs/容易選擇接近最優(yōu)的參數(shù)。我們最終擬合的批量大小和學(xué)習(xí)率公式如下:我們?cè)谝幌盗芯哂?e20計(jì)算預(yù)算的模型上驗(yàn)證了我們的公式,并展示了特定模型大小早期工作(Kaplanetal.,2020;McCandlishetal.,2018)不符,這些工作建議最優(yōu)批量大小可以僅優(yōu)參數(shù)空間略有變化。這表明需要進(jìn)一步研究以理解超參數(shù)的選擇和訓(xùn)練動(dòng)態(tài)。我們將在未來的工作中探索這些方面。2”2KonnbedtngTrainirgee4T8MzTtokFigure3|批量大小和學(xué)習(xí)率的縮放曲線。灰色圓圈表示泛化誤差超過最小值不超過0.25%的模在推導(dǎo)出擬合近似最優(yōu)超參數(shù)的公式后,我們開始擬合縮放曲線并分析最優(yōu)模型/數(shù)據(jù)縮放策以用數(shù)據(jù)集中的標(biāo)記數(shù)量一致表示。在之前的工作中,模型規(guī)模通常由模型參數(shù)表示,包括非嵌入?yún)?shù)N?(Kaplanetal.,2020)和完整參數(shù)N?(Hoffmanne據(jù)規(guī)模之間的關(guān)系可以近似描述為C=6ND,這意味著我們可以使用6N?或6N?來近似模型規(guī)模。規(guī)模模型在這三種表示法之間的差異,如表??所示。結(jié)果表明,6N?和6N?在不同規(guī)模的模型中要么高估要么低估計(jì)算成本。這種差異在小規(guī)模模型中尤為明顯,差異可達(dá)50%。這種不準(zhǔn)確性在擬合縮放曲線時(shí)可能會(huì)引入較大的統(tǒng)計(jì)誤差。有關(guān)模型規(guī)模不同表示法的進(jìn)一步分析,請(qǐng)F(tuán)igure4|IsoFLOP曲線和最優(yōu)模型/數(shù)據(jù)分配。IsoFLOP曲線的度量是驗(yàn)證集上的每字節(jié)比特?cái)?shù)。最優(yōu)模型/數(shù)據(jù)縮放曲線中的虛線代表擬合較小模型(灰色圓圈)的冪律。為了減少實(shí)驗(yàn)成本和擬合難度,我們使用了Chinchilla(Hoffmannetal.,2022)提出個(gè)預(yù)算設(shè)計(jì)了大約10種不同的模型/數(shù)據(jù)規(guī)模分配方案。每個(gè)預(yù)算的超參數(shù)由公式(1)確定,并圖4展示了IsoFLOP曲線和模型/數(shù)據(jù)縮放曲線,這些曲線是通過使用每個(gè)計(jì)算預(yù)算的最佳Mopt=Mbase·C",Mbase=0.1715,a=0.5243Dopt=Dbase·C,Dbase=5.837B和67B的泛化誤差,如圖5所示。結(jié)果表明,使用小規(guī)模實(shí)驗(yàn)可以準(zhǔn)確預(yù)測(cè)具有1000x計(jì)算預(yù)我們使用三個(gè)不同的數(shù)據(jù)集研究了縮放定律:早期內(nèi)部數(shù)據(jù)、當(dāng)前內(nèi)部數(shù)據(jù)和OpenWebText2,后者用于之前的縮放定律研究(Kaplanetal.,2020)。我們內(nèi)部的數(shù)據(jù)評(píng)估顯示,當(dāng)前內(nèi)部數(shù)據(jù)的質(zhì)量高于早期內(nèi)部數(shù)據(jù)。此外,由于其規(guī)模較小,可以進(jìn)行更細(xì)致一個(gè)有趣的觀察是,這三種數(shù)據(jù)集上的最優(yōu)模型/數(shù)據(jù)縮放分配策略與數(shù)據(jù)質(zhì)量的一致性。增加的計(jì)算預(yù)算應(yīng)更多分配給模型而不是數(shù)據(jù)。這一發(fā)現(xiàn)可能解釋了早期縮放定律研究中觀察對(duì)于這一發(fā)現(xiàn)的一個(gè)直觀推測(cè)是,高質(zhì)量數(shù)據(jù)通常意味著邏輯清晰并且在充分訓(xùn)練后預(yù)測(cè)難度較低。因此,在增加計(jì)算預(yù)算時(shí),擴(kuò)大模型規(guī)模更有利。我們將繼續(xù)密切關(guān)注數(shù)據(jù)質(zhì)量的我們收集了約150萬條英文和中文的指令數(shù)據(jù)實(shí)例,涵蓋了廣泛有用性和無害性主題。我們的有用數(shù)據(jù)包含120萬個(gè)實(shí)例,分布在一般語言任務(wù)中占31.2%,數(shù)學(xué)問題占46.6%,編程練習(xí)監(jiān)督微調(diào):我們用4個(gè)epoch微調(diào)了7B模型,但對(duì)于67B模型僅用了2個(gè)epoch,因?yàn)槲覀冇^Figure5|性能縮放曲線。度量是驗(yàn)證集上的每字節(jié)比特?cái)?shù)。虛線代表擬合較小模型(灰色圓圈)的冪律。藍(lán)色星號(hào)代表DeepSeekLLM7B和67B。它們的性能可以通過縮放曲線很好地預(yù)察到67B模型的過擬合問題較為嚴(yán)重。我們觀察到GSM8K(Cobbeetal.,2021)和HumanEval(Chenetal.,2021)在7B模型上持續(xù)改進(jìn),而67B模型很快達(dá)到了上限。學(xué)習(xí)率分別為7B模型的1e-5和67B模型的5e-6。除了監(jiān)控基準(zhǔn)準(zhǔn)確率外,我們還在微調(diào)過程中評(píng)估聊天模型的重復(fù)率。我們總共收集了3868個(gè)中文和英文提示,并確定生成的響應(yīng)未能終止而是無休止地重復(fù)一段文本的比例。我們觀察到隨著數(shù)學(xué)SFT數(shù)據(jù)量的增加,重復(fù)率趨于上升。這可以歸因于數(shù)學(xué)SFT數(shù)據(jù)偶爾包含類似的推理模式。因此,較弱的模型難以掌握這些推理模式,導(dǎo)致重復(fù)響應(yīng)。為了解決這個(gè)問題,我們嘗試了兩階段微調(diào)和DPO(Rafailovetal.,2023),這兩種方法幾乎都能保持基準(zhǔn)分?jǐn)?shù)并顯著減少重復(fù)。DPO:為了進(jìn)一步增強(qiáng)模型的能力,我們使用了直接偏好優(yōu)化算法(Rafailovetal.,2023),該算法被證明是簡(jiǎn)單但有效的方法,用于LLM對(duì)齊。我們根據(jù)有用性和無害性構(gòu)建了DPO訓(xùn)練的偏好數(shù)據(jù)。對(duì)于有用性數(shù)據(jù),我們收集了多語言提示,包括創(chuàng)意寫作、問答、指令跟隨等類別。然后我們使用DeepSeekChat模型生成響應(yīng)作為候選響應(yīng)。類似的操作也應(yīng)用于無害性偏好數(shù)據(jù)的構(gòu)建。我們進(jìn)行了一個(gè)epoch的DPO訓(xùn)練,學(xué)習(xí)率為5e-6,批量大小為512,并使用了學(xué)習(xí)率預(yù)熱和余弦學(xué)習(xí)率調(diào)度器。我們發(fā)現(xiàn)DPO可以增強(qiáng)模型的開放式生成技能,而在標(biāo)準(zhǔn)基準(zhǔn)上的表現(xiàn)差異很小。5.評(píng)估5.1.公共基準(zhǔn)評(píng)估我們?cè)谝幌盗泄不鶞?zhǔn)上評(píng)估我們的模型,基于內(nèi)部評(píng)估框架,涵蓋了英文和中文。多學(xué)科多項(xiàng)選擇數(shù)據(jù)集包括MMLU(Hendrycksetal.,2020)、C-Eval(Huangetal.,2023)和CMMLU(Lietal.,2023)。語言理解和推理數(shù)據(jù)集包括HellaSwag(Zellersetal.,2019)、PIQA(Bisketal.,2020)、ARC(Clarketal.,20閉卷問答數(shù)據(jù)集包括TriviaQAJoshietal.,2017)和NaturalQuestions(閱讀理解數(shù)據(jù)集包括RACELaietal.(2017)和DROP(Duaetal.,2019)、C3(Sunetal.,指代消解數(shù)據(jù)集包括WinoGrandeSakaguchietal.(2019)和CLUEWSC(Xuetal.,2020)。語言建模數(shù)據(jù)集包括Pile(Gaoetal.,2020)。中文理解和文化數(shù)據(jù)集包括CHID(Zhengetal.,2019)和CCPM(Lietal.,2021)。數(shù)學(xué)數(shù)據(jù)集包括GSM8K(Cobbeetal.,2021)、MATH(Hendrycksetal.,2021)和CMath代碼數(shù)據(jù)集包括HumanEval(Chenetal.,202標(biāo)準(zhǔn)化考試包括AGIEval(Zhongetal.,2023)。項(xiàng)的困惑度并選擇最低的一個(gè)作為模型預(yù)測(cè)。對(duì)于ARC和OpenBookQA,我們使用無條件歸一表4展示了評(píng)估基準(zhǔn)的主要結(jié)果。盡管DeepSeek模型是在2T雙語語料庫上預(yù)訓(xùn)練的,但在英語語言理解基準(zhǔn)上與專注于英語且消耗2T標(biāo)記的LLaMA2模型表現(xiàn)相當(dāng)。此外,DeepSeek70B。我們?cè)诟戒汚.3中展示了基準(zhǔn)曲線。我們可以看到,隨著模型規(guī)模的擴(kuò)大,某些任務(wù)的表現(xiàn)有所提升,例如GSM8K和BBH。鑒于我們對(duì)7B和67B都在同一數(shù)據(jù)集上進(jìn)行訓(xùn)練,這種改進(jìn)可以歸因于大模型強(qiáng)大的少樣本學(xué)習(xí)能力。然而,隨著數(shù)學(xué)數(shù)據(jù)比例的增加,小模型和大模型一個(gè)有趣的觀察是,DeepSeek67B相對(duì)于LLaMA270B的優(yōu)勢(shì)大于DeepSeek7B相對(duì)有專門在中文數(shù)據(jù)上進(jìn)行訓(xùn)練,但它在某些中文任務(wù)(如CMath)上表現(xiàn)出色。這表明某些基本能力(如數(shù)學(xué)推理)可以在不同語言之間有效轉(zhuǎn)移。然而,像CHID這樣涉及評(píng)估中文成語使用的任務(wù)則要求模型在預(yù)訓(xùn)練期間消耗大量中文標(biāo)記。在這種情況下,LLaMA2的表現(xiàn)明顯不表5展示了DeepSeek聊天模型的結(jié)果,顯示了大多數(shù)任務(wù)經(jīng)過微調(diào)后的整體改進(jìn)。然而,在某知識(shí):我們觀察到基礎(chǔ)模型和聊天模型在與知識(shí)相關(guān)的任務(wù)(如TriviaQA、MMLU和C--Table4|主要結(jié)果。我們報(bào)告的評(píng)估結(jié)果基于內(nèi)部評(píng)估框架。粗體數(shù)字表示四個(gè)模型中的最佳結(jié)果。對(duì)于Pile-test我們報(bào)告每字節(jié)比特?cái)?shù)(BPB),對(duì)于DROP我們報(bào)告F1得分,對(duì)于其他任務(wù)我們報(bào)告準(zhǔn)確率。請(qǐng)注意,測(cè)試樣本數(shù)是最大值,但由于上下文長(zhǎng)度有限或閱讀理解任務(wù)任務(wù)(如BBH和NaturalQuestions)上表現(xiàn)出輕微的改進(jìn)。然而,我們認(rèn)為SFT階段并沒有學(xué)習(xí)性能下降的任務(wù):無論選擇的模型大小或預(yù)訓(xùn)練檢查點(diǎn)如何,一些任務(wù)的性能在微調(diào)后始數(shù)學(xué)和編程:我們的模型在數(shù)學(xué)和編程任務(wù)上經(jīng)過微調(diào)后表現(xiàn)出顯著的改進(jìn)。例如,Table5|基礎(chǔ)模型和聊天模型的對(duì)比。我們使用0-shot評(píng)估MMLU、GSM8K、MATH、C-HumanEval和GSM8K的得分提高了超過20分。我們解釋為,基礎(chǔ)模型最初對(duì)這些任務(wù)擬合不的能力可能主要集中在代碼補(bǔ)全和代數(shù)問題上。要全面理解數(shù)學(xué)和編程,必須在預(yù)訓(xùn)練階段引在7B模型的微調(diào)中,我們最初使用所有數(shù)據(jù)進(jìn)行微調(diào)。隨后引入第二階段,排除數(shù)學(xué)和編程數(shù)據(jù)。這樣做的動(dòng)機(jī)是第一階段模型的重復(fù)率達(dá)到了2.0%,而在第二階段微調(diào)后降至1.4%,同時(shí)保持基準(zhǔn)分?jǐn)?shù)不變。對(duì)于67B模型,第一階段微調(diào)后的重復(fù)率已低于1%,第二階段反而會(huì)對(duì)于聊天模型,除了在標(biāo)準(zhǔn)基準(zhǔn)上觀察指標(biāo)外,開放領(lǐng)域和開放性問題生成結(jié)果的質(zhì)量直接影Language中文語言語言中文問答寫作能力chatglm-turbo(智譜清言)erniebot-3.5(文心一言)chatglm-pro(智譜清言)spark_desk_v2(訊飛星火)Table6|由gpt-4-0613評(píng)級(jí)的AlignBench排行榜。模型按總分降序排列。帶*的結(jié)果是基于官方AlignBench倉庫的我們?cè)u(píng)估結(jié)果,其他所有結(jié)果均來自AlignBench論文。我們發(fā)現(xiàn)我們對(duì)于中文開放性評(píng)估,我們?cè)诟哔|(zhì)量的開放性問題測(cè)試集AlignBench(Liuetal.,2023)上測(cè)試了我們的聊天模型在不同領(lǐng)域的綜合表現(xiàn)。AlignBench包括總共8個(gè)主要類別、36個(gè)次要類別,并涵蓋了683個(gè)問題。對(duì)于每個(gè)問題,除了提示詞外,AlignBenc我們使用官方的AlignBenchGithub代碼倉庫實(shí)現(xiàn)了我們模型的評(píng)估。我們嚴(yán)格對(duì)齊關(guān)鍵溫度參數(shù)與原始設(shè)置:對(duì)于角色扮演、寫作能力和開放性問題,生成溫度設(shè)置為0.7;而對(duì)于其表6顯示了AlignBench排行榜。我們可以發(fā)現(xiàn),我們的DeepSeek67B聊天模型超越了ChatGPT和其他基線模型,僅次于兩個(gè)版本的GPT-4。這表明我們的模型在各種中文現(xiàn)出色,相比其他開源或?qū)S械闹形拇笳Z言模型。DPO模型文基本語言能力甚至高于最新版本的GPT-4。對(duì)于高級(jí)中文推理任務(wù),我們的模型得分明顯高于其他中文大語言模型,差距顯著,展示了我們的模型在更復(fù)雜的中文邏輯推理和數(shù)學(xué)計(jì)算方面的卓越表現(xiàn)。5.2.2.英文開放性評(píng)估對(duì)于英文開放性評(píng)估,我們使用MT-Bench基準(zhǔn)(Zhengetal.,2023),其中包含8類多輪問題。如表7所示,我們的DeepSeekLLM67B聊天模型優(yōu)于其他開源模型,如LLaMA-2-ChatTouvronetal.(2023b)70B、Xwin70bv0.1和TULU2+DPO70B(Ivisonetal.,20了與GPT-3.5-turbo相當(dāng)?shù)姆謹(jǐn)?shù)8.35。此外,在DPO階段后,我們的DeepSeekLLM67B聊天DPO模型進(jìn)一步將平均分提高到8.76,僅落后于GPT-4(OpenAI,2023)。這些結(jié)果說明了DeepSeekLLM強(qiáng)大的多輪開放生成能力。MathFLLAMA-2-Chat7BTable7|MT-Bench評(píng)估。結(jié)果*見于Ivisonetal.(2023)5.3.保留評(píng)估數(shù)據(jù)污染和基準(zhǔn)過擬合是評(píng)估大語言模型(LLM)的兩大挑戰(zhàn)。一種常見做法是利用最近發(fā)布的測(cè)試集作為保留測(cè)試集來評(píng)估模型。LeetCode:為了評(píng)估模型的編程能力,我們使用了LeetCode周賽(周賽351-372,雙周賽108-117,從2023年7月到11月)的問題。我們通過爬取LeetCode數(shù)據(jù)獲得了這些問題,共有126個(gè)問題,每個(gè)問題超過20個(gè)測(cè)試用例。使用的評(píng)估指標(biāo)類似于HumanEval。在這方面,如果模型的輸出成功通過所有測(cè)試用例,則認(rèn)為該模型有效解決了問題。模型的編程能力如下圖所示,其中y軸表示域內(nèi)人類評(píng)估測(cè)試的pass@1分?jǐn)?shù),x軸表示域外LeetCode周賽問題的pass@1分?jǐn)?shù)。LeetCode測(cè)試數(shù)據(jù)將隨DeepSeekCoder技術(shù)報(bào)告一起發(fā)布。匈牙利國家高中考試:按照Grok-1的方式,我們使用匈牙利國家高中考試評(píng)估了模型的數(shù)學(xué)能力。該考試包括33個(gè)問題,模型的得分通過人工標(biāo)注確定。我們遵循solution.pdf中的評(píng)分標(biāo)準(zhǔn)評(píng)估所有模型。指令跟隨評(píng)估:2023年11月15日,Google發(fā)布了一個(gè)指令跟隨評(píng)估數(shù)據(jù)集(Zhouetal.,2023)。他們識(shí)別了25種可驗(yàn)證指令,并構(gòu)建了大約500個(gè)提示,每個(gè)提示包含一個(gè)或多個(gè)可驗(yàn)證指令。我們使用提示級(jí)寬松指標(biāo)評(píng)估所有模型。我們對(duì)我們的模型與其他不同大小的基線模型進(jìn)行了對(duì)比分析,即Qwen72B聊天(BaietCategorySubcategoryASafetyAnswers/HTo民族種族(EthnicandRacial),宗教信仰(ReligiousBelief).國別地域(NationalityandGeography),性別(Gender),年齡(Age)職業(yè)(Oecupation),健康(Health),其他方面歧視(DiscrimnationinOtherAspects)身心健康(PhysicalandMentalHealth),合法財(cái)產(chǎn)(LegitimatePropery)肖像權(quán)(PortraitRights),名譽(yù)權(quán)(ReputationRights),榮譽(yù)權(quán)(HonorRighs),隱私權(quán)(PrivacyRights),信息權(quán)益(InformationRights),其他合法權(quán)益(OtherLegalRighs)侵犯他人知識(shí)產(chǎn)權(quán)(InfringingOthers'IntellectualPropertyRights)壟斷和不正當(dāng)競(jìng)爭(zhēng)行為(MonopolisticandUnfairCompetitiveActions),共他商業(yè)違法違規(guī)行為(OtherCommerciallyIlegalandNon-ompliantBehaviors).邪教迷信(CultsandSuperstition),色情(Pornography),賠博(Gambling),毒品和違禁品(DrugsandProhibitedItems),侮辱設(shè)罵(InsultsandAbuse),暴力行為(ViolentBehavior)涉黑涉惡(InvolvementinOrganizedCrime),其他違法違規(guī)行為(OtherIlegalandNon-compliantBehaviors)幻量和真實(shí)性問題(lssuesofIlusionandReality),時(shí)效性問題(Time-sensitiveIssues)自我認(rèn)知問題(Self-recognitionProblems),其他敏感話題(OtherSensitiveTopics),Table9|我們的安全評(píng)估分類。表格最右列列出了每個(gè)類別的總測(cè)試用例數(shù)量以及我們的模型(DeepSeek-67B-Chat)提供的安全回答數(shù)量。測(cè)試問題的注釋和生成結(jié)果的評(píng)估由專業(yè)團(tuán)隊(duì)完察表明,在這些保留數(shù)據(jù)集中,大型模型和小型模型之間存在顯著的性能差距,即使某些小型52.4,接近DeepSeek67B。然而,在新基準(zhǔn)上評(píng)估時(shí),其表現(xiàn)明顯不如DeepSeek67B。類似的趨勢(shì)也出現(xiàn)在數(shù)學(xué)數(shù)據(jù)集中,ChatGLM3在GSM8K上表現(xiàn)非常強(qiáng)(72.3),但在匈牙利考試中估,我們發(fā)現(xiàn)在擴(kuò)展模型規(guī)模至67B時(shí),各種任務(wù)的智能水平存在顯著差異。雖然DeepSeek我們深刻認(rèn)識(shí)到通用人工智能的安全性的重要性。建立真正有助于人類的人工智能模型的前提是它具有與人類一致的價(jià)值觀,并對(duì)人類表現(xiàn)出友好。我們?cè)谡麄€(gè)訓(xùn)練過程中融入了模型安全為了驗(yàn)證我們模型的安全性,我們從各個(gè)學(xué)科建立了20人的專家團(tuán)隊(duì),并構(gòu)建了一個(gè)符合人類價(jià)值觀的安全內(nèi)容分類系統(tǒng)(安全性評(píng)估分類法如表9所示)。隨后,專家團(tuán)隊(duì)為每個(gè)安全子類別手動(dòng)構(gòu)建了數(shù)十個(gè)高質(zhì)量測(cè)試用例。除了關(guān)注安全內(nèi)容領(lǐng)域的多樣性外,我們也注意到安全內(nèi)容格式的多樣性。臭名昭著的“奶奶”漏洞表明,模型可能會(huì)被查詢的表面格式欺騙,從而提供不安全的響應(yīng)。因此,在設(shè)計(jì)問題時(shí),專家團(tuán)隊(duì)也注意多樣化詢問方式。他們通過誘導(dǎo)、角色扮演、多輪對(duì)話、預(yù)設(shè)立場(chǎng)等方式構(gòu)建多樣化的安全問題。最終,我們獲得了一個(gè)包含2400個(gè)問題的安全測(cè)試集。此外,專家團(tuán)隊(duì)為每種不同類型的內(nèi)容和格式類型制定了安全審查的基本指南。對(duì)于我們的模型在該測(cè)試集上的輸出結(jié)果,我們對(duì)其安全性進(jìn)行了人工檢查。我們的審查團(tuán)隊(duì)經(jīng)過良好培訓(xùn),并對(duì)標(biāo)注結(jié)果進(jìn)行了交叉驗(yàn)證。標(biāo)注人員對(duì)每個(gè)問題進(jìn)行三類標(biāo)注:安全、不安全和模型拒絕回答。我們測(cè)試了DeepSeek67BChat模型的安全性,結(jié)果如表9所示。表格中列出了每個(gè)安全類別的測(cè)試問題數(shù)量以及我們的模型通過的安全測(cè)試數(shù)量。我們將安全回答和模型拒絕回答的測(cè)試案例均標(biāo)記為安全響應(yīng)。結(jié)果表明,我們的模型在眾多安全測(cè)試類別中表現(xiàn)出良好的安全性能。為了補(bǔ)充我們現(xiàn)有的安全方法,我們進(jìn)一步使用"Do-Not-Answer"數(shù)據(jù)集(Wangetal.,2023)來評(píng)估DeepSeek67BChat模型的安全機(jī)制。該數(shù)據(jù)集的939個(gè)風(fēng)險(xiǎn)分類提示有助于突出我們模型的增強(qiáng)能力。如表10所示,DeepSeek67BChat模型表現(xiàn)出顯著的性能,得分為97.8,高于ChatGPT和GPT-4。這一分?jǐn)?shù)不僅衡量了我們模型處理敏感查詢的安全能力,還使其在領(lǐng)域內(nèi)的領(lǐng)先模型中具有競(jìng)爭(zhēng)力。Table10|Do-Not-Answer得分(Wangetal.,2023),得分越高表示模型越安全。帶*的結(jié)果是我們基于官方倉庫的評(píng)估結(jié)果,而其他所有結(jié)果均來自原論文。我們可以發(fā)現(xiàn),我們的模型得分高于ChatGPT和GPT-4,成為最安全的模型之一。5.5.討論在整個(gè)開發(fā)過程中,我們發(fā)現(xiàn)了一些在構(gòu)建大語言模型(LLMs)時(shí)有趣的發(fā)現(xiàn)。分階段微調(diào):如上所述,小模型需要更長(zhǎng)時(shí)間在數(shù)學(xué)和代碼數(shù)據(jù)集上進(jìn)行微調(diào),但這會(huì)損害模型的對(duì)話能力,例如增加重復(fù)行為。為了解決這個(gè)問題,我們實(shí)現(xiàn)了一個(gè)分階段微調(diào)過程。在此方法中,第一階段涉及使用所有可用數(shù)據(jù)進(jìn)行微調(diào),而第二階段則專門針對(duì)對(duì)話數(shù)據(jù)進(jìn)行微調(diào)。表11顯示了從兩階段訓(xùn)練過程中獲得的結(jié)果。這些結(jié)果清楚地表明,第二階段不會(huì)削弱模型在代碼和數(shù)學(xué)方面的能力,同時(shí)減少了重復(fù)行為并增強(qiáng)了指令跟隨能力。多選題:用多選題形式的評(píng)估數(shù)據(jù)測(cè)試模型是一種常見做法,例如MMLU、AGIEval和C-ModelHumanEvalEval。多選題不僅要求模型具有相應(yīng)知識(shí),還需要理解選項(xiàng)的含義。在對(duì)齊階段,我們測(cè)試了添加2000萬個(gè)中文多選題,并獲得了如表12所示的性能。需要注意的是,我們對(duì)C-Eval驗(yàn)證集添加額外的20MMC(多選)數(shù)據(jù)已被證明不僅對(duì)中國多選基準(zhǔn)有益,也提高了英語基準(zhǔn)準(zhǔn)。這表明用戶可能不會(huì)認(rèn)為模型在對(duì)話互動(dòng)中變得更聰明,因?yàn)檫@些互動(dòng)涉及生成響應(yīng)而不預(yù)訓(xùn)練中的指令數(shù)據(jù):廣泛公認(rèn),在預(yù)訓(xùn)練后期納入指令數(shù)據(jù)可以提高基礎(chǔ)模型在基準(zhǔn)任務(wù)上的表現(xiàn)。在我們的研究中,在預(yù)訓(xùn)練的最后10%階段集成了5百萬條指令數(shù)據(jù),主要由多選段添加相同數(shù)據(jù)所取得的結(jié)果相同。我們得出結(jié)論,盡管這種方法增強(qiáng)了基礎(chǔ)模型在基準(zhǔn)上的表現(xiàn),但其總體潛力相當(dāng)于不納入這些指令數(shù)據(jù)。如果指令數(shù)據(jù)量較大,則可以將其納入預(yù)訓(xùn)練過程。由于我們傾向于排除多選題以及非多選題的有限可用性,我們決定不在預(yù)訓(xùn)練過程中系統(tǒng)提示:一個(gè)設(shè)計(jì)良好的系統(tǒng)提示應(yīng)能有效引導(dǎo)模型生成既有幫助又尊重他人的響應(yīng)。應(yīng)包含任何有害、不道德、種族主義、性別歧視、有毒、危險(xiǎn)或非法內(nèi)容。請(qǐng)確保您的回應(yīng)在社會(huì)上是公正且積極的。如果一個(gè)問題沒有意義或事實(shí)不連貫,請(qǐng)解釋原因而不是給出錯(cuò)誤的我們觀察到一個(gè)有趣的現(xiàn)象,即7BLLM在引入系統(tǒng)提示后性能略有下降。然而,當(dāng)使用67BLLM時(shí),添加提示顯著改善了結(jié)果,如表13所示。我們認(rèn)為這種差異的原因在于較大較小的模型難以充分理解系統(tǒng)提示,訓(xùn)練和測(cè)試之間的一致性不足可能會(huì)對(duì)其性能產(chǎn)生負(fù)面影DeepSeekLLM7BChat+SystemPDeepSeekLLM67BChat+SystemPrompt6.結(jié)論、局限性及未來工作我們介紹了DeepSeekLLMs,一系列從頭訓(xùn)練的開源模型,基于包含2萬億個(gè)標(biāo)記的英中雙語我們校準(zhǔn)了先前工作的擴(kuò)展定律,并提出了一種新的最優(yōu)模型/數(shù)據(jù)擴(kuò)展分配策略。此外,我擴(kuò)展定律與數(shù)據(jù)質(zhì)量相關(guān),這可能是不同工作中擴(kuò)展行為差異的根本原因。在擴(kuò)展定律的指導(dǎo)下,我們使用最佳超參數(shù)進(jìn)行了預(yù)訓(xùn)練,并提供了全面的評(píng)估。我們?cè)谒杏?xùn)練階段避免了基生成未經(jīng)驗(yàn)證建議等非事實(shí)信息的可能性,以及產(chǎn)生幻覺的傾向。此外,需要注意的是,我們最初的中文數(shù)據(jù)版本并不詳盡,這可能導(dǎo)致某些特定中文主題上的表現(xiàn)不佳。由于我們的數(shù)據(jù)●我們將很快分別發(fā)布代碼智能和專家混合(MoE)的技術(shù)報(bào)告。這些報(bào)告展示了我們?nèi)绾巍裎覀兊膶?duì)齊團(tuán)隊(duì)致力于研究如何向公眾提供有幫助、誠實(shí)且安全的模型。初步實(shí)驗(yàn)表明,J.Ainslie,J.Lee-Thorp,M.deJong,Y.Zemlyanskiy,F.Lebrón,andS.Sageneralizedmulti-querytransformermodelsfrommulti-headcheckpoints.arXAnthropic.IntroducingClaude,2023.URL/index/introdJ.Austin,A.Odena,M.Nye,M.Bosma,H.Michalewski,D.Dohan,E.Jiang,C.J.Bai,S.Bai,Y.Chu,Z.Cui,K.Dang,X.Deng,Y.Fan,W.Ge,Y.Han,F.Huang,etY.Bisk,R.Zellers,R.L.Bras,J.Gao,andY.Choi.PIQA:reasoningaboutphysicalcommonsenseinnaturallanguage.InTheThirty-FourthAAAIConference2020,TheThirty-SecondInnovativeApplicationsofArtificialIntelligenceConference,IAAI2020,TheTenthAAAISymposiumonEducationalAdvancesin2020,NewYork,NY,USA,February7-12,2020,pages10.1609/aaai.v34i05.6239.URL/10.1609/aaai.v34i05.6239.T.B.Brown,B.Mann,N.Ryder,M.Subbiah,J.Kaplan,P.Dhariwal,A.NeelakanSastry,A.Askell,S.Agarwal,A.Herbert-Voss,G.Krueger,T.HeniD.M.Ziegler,J.Wu,C.Winter,C.Hesse,M.Chen,E.Sigler,M.Litwin,S.GraClark,C.Berner,S.McCandlish,A.Radford,I.Sutskever,andD.Amodei.Languaarefew-shotlearners,2020.M.Chen,J.Tworek,H.Jun,Q.Yuan,H.P.deOliveiraPinto,J.Kaplan,H.Edwards,Y.Burda,N.Joseph,G.Brockman,A.Ray,R.Puri,G.Krueger,M.Petrov,H.Khlaaf,G.SastryB.Chan,S.Gray,N.Ryder,M.Pavlov,A.Power,L.Kaiser,M.Bavarian,C.WinteP.Such,D.Cummings,M.Plappert,F.Chantzis,E.Barnes,A.Herbert-Voss,Nichol,A.Paino,N.Tezak,J.Tang,I.Babuschkin,S.Balaji,S.Jain,W.Saunders,C.HesN.Carr,J.Leike,J.Achiam,V.Misra,E.Morikawa,A.Radford,M.Knight,M.BrundagMurati,K.Mayer,P.Welinder,B.McGrew,D.Amodei,S.McCandlish,I.Sutskever,anURL/abs/2107.03374.P.Clark,I.Cowhey,O.Etzioni,T.Khot,A.Sabharwal,C.Schoenick,andO.Tahavesolvedquestionanswering?tryar2018.URL/abs/1803.05457.K.Cobbe,V.Kosaraju,M.Bavarian,M.Chen,H.Jun,L.Kaiser,M.Plappert,Hilton,R.Nakano,etal.TrainingverifierstosolvemathwordT.Computer.Redpajama:anopen/togethercomputer/RedPajZ.Dai,Z.Yang,Y.Yang,J.Carbonell,Q.V.Le,andR.Salakhutdinov.Transformer-xl:AttentiveT.Dao.FlashAttention-2:FasterattentionwithbetterparalT.Dao,D.Y.Fu,S.Ermon,A.Rudra,andC.Ré.FlashAttention:Fastandmemory-efficientexact attentionwithIO-awareness.InAdvancesinNeuralInformatZ.Du,Y.Qian,X.Liu,M.Ding,J.Qiu,Z.Yang,andJ.Tang.Glm:Generallanguagemodelpretrainingwithautoregressiveblankinfilling.InProceedingsofthe60thAnnualMeetingD.Dua,Y.Wang,P.Dasigi,G.Stanovsky,S.Singh,andM.Gardner.DROP:Areadhensionbenchmarkrequiringdiscretereasoningoverparagraphs.T.Solorio,editors,Proceedingsofthe2019ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLi2019,Minneapolis,MN,USA,2378.AssociationforComputationalLinguistics,2019.doi:10.18653/V1/N19-1246.URL/10.18653/v1/n19-1246.L.Gao,S.Biderman,S.Black,L.Golding,T.Hoppe,C.Foster,J.Phang,H.HGoogle.AnimportantnextsteponourAIjonology/ai/bard-google-ai-search-updates/.Z.Gou,Z.Shao,Y.Gong,Y.Shen,Y.Yang,M.Huang,N.Duan,andW.Chen.Tora:Atool-doi:10.48550/ARXIV.2309.17452.URL/10.48550/arXiv.2309.1745P.Goyal,P.Dollár,R.Girshick,P.Noordhuis,L.Wesolowski,A.Kyrola,A.TulandK.He.Accurate,larD.Hendrycks,C.Burns,S.Basart,A.Zou,M.Mazeika,D.Song,andJ.Steinhardt.MeasuringD.Hendrycks,C.Burns,S.Kadavath,A.Arora,S.Basart,E.Tang,D.Song,andJ.Steinhardt.Mea-T.Henighan,J.Kaplan,M.Katz,M.Chen,C.Hesse,J.Jackson,H.Jun,T.B.Brown,P.Dhwal,S.Gray,etal.ScalinglawsJ.Hestness,S.Narang,N.Ardalani,G.Diamos,H.Jun,H.Kianinejad,M.Y.Yang,andY.Zhou.Deeplearningscalingispredictable,empirically.arXivJ.Hoffmann,S.Borgeaud,A.Mensch,E.Buchatskaya,T.Cai,E.Rutherford,D.deLasCasas,L.A.Hendricks,J.Welbl,A.Clark,T.Hennigan,E.Noland,K.Millican,G.vandenDriessche,B.Damoc,A.Guy,S.Osindero,K.Simonyan,E.Elsen,J.W.Rae,O.Vinyals,andL/ARXIV.2203.15556.URL/10.48550/arXiv.2203.15556.Y.Huang,Y.Bai,Z.Zhu,J.Zhang,J.Zhang,T.Su,J.Liu,C.Lv,Y.Zhang,J.Lei,etal.C-Evmulti-levelmulti-disHuggingfaceTeam.Tokenizers:Faststate-of-the-arttokenizersoptimizedforreseproduction,2019.URL/huggingface/tokenizers.F.i,M.Suzgun,M.Freitag,X.Wang,S.Srivats,S.Vosoughi,H.W.Chung,Y.Ta D.Zhou,D.Das,andJ.Wei.Languagemodelsaremultilingualchain-of-thoughtreasoners. H.Ivison,Y.Wang,V.Pyatkin,N.Lambert,M.Peters,P.Dasigi,J.Jang,D.WaddenI.Beltagy,andH.Hajishirzi.Camelsinachangingclimate:EnhancingIA.Q.Jiang,A.Sablayrolles,A.Mensch,C.Bamford,D.S.Chaplot,D.d.1.Casas,F.Brlengedatasetforreadingcomprehension.InR.BarzilayandM.-Y.Kanthe55thAnnualMeetiLinguistics.doi:10.18653/v1/P17-1147.URL/P17-1147.J.Kaplan,S.McCandlish,T.Henighan,T.B.Brown,B.Chess,R.Child,S.Gray,URL/abs/2001.08361.V.A.Korthikanti,J.Casper,S.Lym,L.McAfee,M.Andersch,M.Shoeybi,andB.Catanzaro.ReducingactivationrecomputationinlargetransfT.Kwiatkowski,J.Palomaki,O.Redfield,M.Collins,A.P.Parikh,C.AlberPolosukhin,J.Devlin,K.Lee,K.Toutanova,L.Jones,M.Kelcey,M.ChangUszkoreit,Q.Le,andS.Petrov.Naturalquestiresearch.Trans.Assoc.Comput.Linguistics,7:452-466,201URL/10.1162/taclaW.Kwon,Z.Li,S.Zhuang,Y.Sheng,L.Zheng,C.H.Yu,J.E.Gonzalez,H.Zhang,andI.StoiEfficientmemorymanagemG.Lai,Q.Xie,H.Liu,Y.Yang,andE.H.Hovy.RACE:large-scalereadingcomprehensionfromexaminations.InM.Palmer,R.Hwa,andS.Riedel,editors,Procfthe2017ConferenceonEmpiCopenhagen,Denmark,September9-11,2017,pages785-794.AssocLinguistics,2017.doi:10.18653/V1/D17-1082.URL/10.H.Li,Y.Zhang,F.Koto,Y.Yang,H.Zhao,Y.Gong,N.Duan,andT.Baldwin.CMMLU:W.Li,F.Qi,M.Sun,X.Yi,andJ.Zhang.Ccpm:Achineseclassicalpoetrymatchingdataset,X.Liu,X.Lei,S.Wang,Y.Huang,Z.Feng,B.Wen,J.Cheng,P.Ke,Y.Xu,W.L.Tam,XSun,H.Wang,J.Zhang,M.Huang,Y.Dong,andJ.Tang.Alignbench:Benchmarkinalignmentoflargelanguagemod18743.URL/10.48550/arI.LoshchilovandF.Hutter.Decoupledweightdecayregularization.arH.Luo,Q.Sun,C.Xu,P.Zhao,J.Lou,C.Tao,X.Geng,Q.Lin,S.Chen,andD.Zhang.Wizardmath:Empoweringmathematicalreasoningforlargelanguagemodelsviareinforcedevol-instruct.S.McCandlish,J.Kaplan,D.Amodei,andO.D.Team.AnempiricalmodeloflarT.Mihaylov,P.Clark,T.Khot,andA.SdatasetforopenbookquestionanD.Narayanan,M.Shoeybi,J.Casper,P.LeGresley,M.Patwary,V.Korthikanti,D.VKashinkunti,J.Bernauer,B.Catanzaro,etal.Eongpuclustersusingmegatron-lm.InProceedingsoftheInternationalConferenceforHighPerformanceComputing,Networking,StoraOpenAI.IntroducingChatGPT,2022.URL/blog/chatgpt.L.Ouyang,J.Wu,X.Jiang,D.Almeida,C.Wainwright,P.Mishkin,C.Zhang,S.G.Penedo,Q.Malartic,D.Hesslow,R.Cojocaru,A.Cappelli,H.AlobeAlmazrouei,andJ.Launay.Therefinedwebdatasetforfalconllm:outperformiA.Radford,J.Wu,R.Child,D.Luan,D.Amodei,I.Sutskever,etal.Languagemodelsareunsupervisedmultitasklearners.OpenAIblR.Rafailov,A.Sharma,E.Mitchell,S.Ermon,C.D.Manning,andC.Finn.Directpreferenceoptimization:YourlanguS.Rajbhandari,J.Rasley,O.Ruwase,andY.He.Zelionparametermodels.InSC20:InternatiK.Sakaguchi,R.L.Bras,C.Bhagavatula,andY.Choi.Winogrande:AnadversarialwinogschemachallengeatC.J.Shallue,J.Lee,J.Antognini,J.Sohl-Dickstein,R.Frostig,andG.E.DM.Shoeybi,M.Patwary,R.Puri,P.LeGresley,J.Casper,andB.CatanTrainingmulti-billionparameterlanguagemodelsusinS.Smith,M.Patwary,B.Norick,P.LeGresley,S.Rajbhandari,J.CasG.Zerveas,V.Korthikanti,etalS.L.Smith,P-J.Kindermans,CJ.Su,M.Ahmed,Y.Lu,S.Pan,W.Bo,andY.Liu.Roformer:Enhancedtransformerwithrotarypositionembedding.Neurocomputing,568:127063,2024.K.Sun,D.Yu,D.Yu,andC.Cardie.Investigatingpriorknowledgeforchallengingchinesemachinereadingcomprehension,2019.M.Suzgun,N.Scales,N.Sch?rli,S.Gehrmann,Y.Tay,H.W.Chung,A.ChowdheryH.Chi,D.Zhou,etal.ChaH.Touvron,T.Lavril,G.Izacard,X.Martinet,M.-A.Lachaux,T.Lacroix,B.RoziE.Hambro,F.Azhar,etal.LLaMA:OpenandefficientfoundationlanguH.Touvron,L.Martin,K.Stone,P.Albert,A.Almahairi,Y.Babaei,N.BashlykoBhargava,S.Bhosale,D.Bikel,L.Blecher,C.Canton-Ferrer,M.Chen,G.CucurJ.Fernandes,J.Fu,W.Fu,B.Fuller,C.Gao,V.Goswami,N.Goyal,A.Hartshorn,R.Hou,H.Inan,M.Kardas,V.Kerkez,M.Khabsa,I.Kloumann,A.Korenev,P.SLachaux,T.Lavril,J.Lee,D.Liskovich,Y.Lu,Y.Mao,X.Martinet,T.MihayloMolybog,Y.Nie,A.Poulton,J.Reizenstein,R.Rungta,K.Saladi,A.Schelten,Smith,R.Subramanian,X.E.Tan,B.Tang,R.Taylor,A.WilliamZarov,Y.Zhang,A.Fan,M.Kambadur,S.Narang,A.Rodriguez,R.Stojnic,S.Edunov,andTScialom.Llama2:Openfdoi:10.48550/arXiv.2307.09288.URL/10.48550/arXiv.2307.09288.A.Vaswani,N.Shazeer,N.Parmar,J.Uszkoreit,L.Jones,A.N.Gomez,E.Kaiser,andI.Polo-sukhin.Attentionisallyouneed.Y.Wang,H.Li,X.Han,P.Nakov,andT.Baldwin.Do-not-answe/10.48550/arXiv.2308.13387.J.Wei,X.Wang,D.Schuurmans,M.Bosma,B.Ichter,F.Xia,E.H.Chi,Q.V.Le,andD.Zhou.Chain-of-thoughtpromptingeliciURLhttp://papers.nips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15afOf7b31abca4-Abstract-ConfereT.Wei,J.Luan,W.Liu,S.Dong,andB.Wang.CL.Xu,H.Hu,X.Zhang,L.Li,C.Cao,Y.Li,Y.Xu,K.Sun,D.Yu,C.Yu,Y.Tian,Q.B.Shi,Y.Cui,J.Li,J.Zeng,R.Wang,W.Xie,Y.Li,Y.Patterson,Z.Tian,Y.ZhaLiu,Z.Zhao,Q.Zhao,C.Yue,X.Zhang,Z.Yang,K.Richardson,andZ.Lan.CLUE:AchineselanguageunderstandingevaluationbenchmarProceedingsofthe28thInternationalConferenceonComp2020,Barcelona,Spain(OnlmitteeonComputationalLinguistics/10.18653/v1/2020.coling-main.419.A.Yang,B.Xiao,B.Wang,B.Zhang,C.Yin,C.Lv,D.Pan,D.Wang,D.Yan,F.YanF.Wang,F.Liu,G.Ai,G.Dong,H.Zhao,H.Xu,H.Sun,H.Zhang,H.Liu,J.J.Dai,K.Fang,L.Su,L.Song,L.Liu,L.Ru,L.Ma,M.Wang,M.Liu,M.LGuo,R.Sun,T.Zhang,T.Li,T.Li,W.Cheng,W.Chen,X.Zeng,XMen,X.Yu,X.Pan,Y.Shen,Y.Wang,Y.Li,Y.Jiang,Y

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論