2024年大語言模型的能力邊界與發(fā)展思考報(bào)告_第1頁
2024年大語言模型的能力邊界與發(fā)展思考報(bào)告_第2頁
2024年大語言模型的能力邊界與發(fā)展思考報(bào)告_第3頁
2024年大語言模型的能力邊界與發(fā)展思考報(bào)告_第4頁
2024年大語言模型的能力邊界與發(fā)展思考報(bào)告_第5頁
已閱讀5頁,還剩96頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1大語言模型的能力邊界與發(fā)展思考ChatGPT2023年--大模型報(bào)稅、寫詩、寫代碼,“無所不能”ChatGPT2023年--大模型“無所不能”ChatGPT2023年--大模型“無所不能”2023

年大家拿著錘子到處找釘子ChatGPT2024年--大模型落地總是“差一口氣”ChatGPT2024年--大模型落地總是“差一口氣”ChatGPT2024年--大模型落地總是“差一口氣”PhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,

Arixv

2023 MeatAI/FAIR

Labs語言模型無法進(jìn)行逆向知識(shí)搜索,除非知識(shí)以逆序出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)中ChatGPTGPT-o1

preview

號(hào)稱物理問答達(dá)到“博士:水平ChatGPTGPT-o1

preview

似乎也不能很好的解決初中數(shù)學(xué)問題在

GSM8K

MATH

數(shù)據(jù)集問題的基礎(chǔ)上,加?了?些“陷阱”,構(gòu)造了

MathTrap

數(shù)據(jù)集。改編后的題?很多時(shí)候沒有定義明確的答案或者?解,只有能夠同時(shí)理解原題和“陷阱”所涉及知識(shí),才能找出其中的?盾點(diǎn),發(fā)現(xiàn)“陷阱”所在。MathTrap_Public上,GPT-o1-preview的回答準(zhǔn)確率僅為24.3%MathTrap_Private上,GPT-o1-previewAPI

的測(cè)試準(zhǔn)確率為

38.0%,相?

GPT-4

API的

36.0%,?乎沒有提升為什么?10從飛機(jī)發(fā)展史看

AI

發(fā)展的核心問題11ChatGPT ChatGPT為什么這么強(qiáng)?基礎(chǔ)理論對(duì)于技術(shù)發(fā)展至關(guān)重要1903年12月17日,世界上第一架載人動(dòng)力飛機(jī)首飛ChatGPT ChatGPT為什么這么強(qiáng)?同時(shí)期各種腦洞大開的“飛行器”ChatGPT ChatGPT為什么這么強(qiáng)?萊特兄弟創(chuàng)造“飛行者一號(hào)”的歷程1890年代前期萊特兄弟就從新聞、雜志或者照片上看到了德國(guó)航空先驅(qū)奧托·李林達(dá)爾研制的動(dòng)力滑翔機(jī)1896年5月,塞繆爾·蘭利成功試飛了一架蒸汽動(dòng)力的無人飛機(jī)模型萊特兄弟認(rèn)為困擾航空先驅(qū)們的飛行難題有三點(diǎn):機(jī)翼、發(fā)動(dòng)機(jī)以及如何控制飛機(jī)1899年7月,威爾伯·萊特制作了一架長(zhǎng)5英尺,形似雙翼飛機(jī)的箱型風(fēng)箏用來測(cè)試翹曲機(jī)翼技術(shù)萊特兄弟兄弟建造了風(fēng)洞,為200多種不同翼弧的翼型完成了旋轉(zhuǎn)臂測(cè)試(一種測(cè)量升力和空氣阻力的早期手段),并對(duì)其中的38種做了更詳細(xì)的測(cè)試,

同時(shí)也對(duì)廣受認(rèn)可的升力方程中的斯密頓系數(shù)提出了質(zhì)疑,當(dāng)時(shí)已經(jīng)被提出了100多年?;谡瓜冶戎R(shí)和更精確的斯密頓系數(shù),萊特兄弟設(shè)計(jì)了他們新的1902年款滑翔機(jī)1903年萊特兄弟用云杉木來建造他們配備有動(dòng)力裝置的飛行者一號(hào)猜測(cè):OpenAI

發(fā)布

GPT-4

時(shí)已經(jīng)掌握了大模型基礎(chǔ)理論/pdf/2303.0877416回歸基礎(chǔ)理論進(jìn)行分析?ChatGPT ChatGPT為什么這么強(qiáng)語言模型的核心任務(wù)始終是生成一個(gè)“合理的延續(xù)”,即根據(jù)已有的文本,生成一個(gè)符合人類書寫習(xí)慣的下一個(gè)合理內(nèi)容。所謂“合理”,是指根據(jù)數(shù)十億個(gè)網(wǎng)頁、數(shù)字化書籍等人類撰寫內(nèi)容的統(tǒng)計(jì)規(guī)律,推測(cè)接下來可能出現(xiàn)的內(nèi)容。語言模型真正做的事情—文字接龍Cha17tGPT完成像寫文章這樣的任務(wù)時(shí),它實(shí)際上只是一遍又一遍地詢問:“在已有的文本的基礎(chǔ)上,下一個(gè)詞應(yīng)該是什么?”——

并且每次都會(huì)添加一個(gè)詞。ChatGPT實(shí)現(xiàn)過程18explainthemoonlandingto6year

oldsSomepeoplewenttotheMoon標(biāo)注人員構(gòu)造目標(biāo)答案explainthemoonlandingto6year

olds標(biāo)注人員對(duì)答案質(zhì)量進(jìn)行排序有監(jiān)督微調(diào)大模型獎(jiǎng)勵(lì)函數(shù)ACBDC>A>B=DWrite

somethingabout

frog獎(jiǎng)勵(lì)函數(shù)大模型Onceuponatime

…rk數(shù)千億單詞圖書、百科、網(wǎng)頁等基礎(chǔ)大模型預(yù)訓(xùn)練階段十萬各任務(wù)用戶指令有監(jiān)督微調(diào)獎(jiǎng)勵(lì)函數(shù)強(qiáng)化學(xué)習(xí)百萬各任務(wù)用戶指令十萬各任務(wù)用戶指令1000+GPU月級(jí)別訓(xùn)練時(shí)間1-100GPU天級(jí)別訓(xùn)練時(shí)間1-100GPU天級(jí)別訓(xùn)練時(shí)間1-100GPU天級(jí)別訓(xùn)練時(shí)間ChatGPT實(shí)現(xiàn)過程explainthemoonlandingto6year

olds標(biāo)注人員對(duì)答案質(zhì)量進(jìn)行排序有獎(jiǎng)explainthemoonlandingto6year

oldsA BC>A>B=DWrite

somethingabout

frog獎(jiǎng)勵(lì)函數(shù)Onceuponatime

…rkC D標(biāo)注人員構(gòu)大模型造目標(biāo)答案 Somepeoplewent

to基礎(chǔ)大模型 the

Moon預(yù)訓(xùn)練階段十萬各任務(wù)用戶指令有監(jiān)督微調(diào)獎(jiǎng)勵(lì)函數(shù)強(qiáng)化學(xué)習(xí)百萬各任務(wù)用戶指令十萬各任務(wù)用戶指令數(shù)千億單詞圖書、百科、網(wǎng)頁等1.

大模型訓(xùn)練每個(gè)階段分別完成什監(jiān)督微調(diào)大模型2. 預(yù)訓(xùn)練階段能記住什么知識(shí)?3.

如何評(píng)價(jià)預(yù)訓(xùn)練模型優(yōu)劣?T訓(xùn)練數(shù)據(jù)?

勵(lì)函數(shù)礎(chǔ)模型的什么?4.

什么才是高質(zhì)量的SF

7.

強(qiáng)化學(xué)習(xí)適合于什么任務(wù)?5.

有監(jiān)督微調(diào)改變了基 8.

如何穩(wěn)定高效的完成

RLHF

的訓(xùn)練?10.

大模型是否具備推理能力?么功能?略是什么?6.

有監(jiān)督微調(diào)的訓(xùn)練策 9.

如何融合外部環(huán)境狀態(tài)以及利用合成數(shù)據(jù)?ChatGPT

實(shí)現(xiàn)過程知識(shí)壓縮和表示學(xué)習(xí)能力注入生成式任務(wù)能力提升1.

大模型訓(xùn)練每個(gè)階段分別完成什么功能?21需要足夠多的“曝光”才能完成記憶達(dá)到2bit/參數(shù)

對(duì)于每個(gè)知識(shí)要達(dá)到

1000

次曝光如果只有100次曝光的話,會(huì)減少到1bit/參數(shù)圖標(biāo)上面數(shù)字是l,h參數(shù)選擇PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv

20242. 預(yù)訓(xùn)練階段能記住什么知識(shí)?“垃圾數(shù)據(jù)”對(duì)知識(shí)獲取有顯著影響Wikipediavs.Common

Crawl22PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv

2024直接通過訓(xùn)練語料的統(tǒng)計(jì)就可以計(jì)算得到知識(shí)記憶概率Physics

ofLanguage

Models:Part

3.3

的研究并未對(duì)知識(shí)的特異性進(jìn)行分析聯(lián)想總裁 楊元慶華為總裁 任正非具有別的含義,且出現(xiàn)次數(shù)頻繁,導(dǎo)致該知識(shí)記憶難度大直接通過訓(xùn)練語料的統(tǒng)計(jì)就可以計(jì)算得到知識(shí)記憶概率基于模版變換的知識(shí)記憶評(píng)估方案p(x)p(y)/p(x,y)預(yù)訓(xùn)練階段思考預(yù)訓(xùn)練階段主要完成

知識(shí)記憶+表示學(xué)習(xí)開源大模型已經(jīng)可以很好的進(jìn)行句子/段落/篇章表示OpenAI

基本放棄了通過模型知識(shí)記憶直接進(jìn)行問題回答25預(yù)訓(xùn)練階段結(jié)論同一個(gè)知識(shí)點(diǎn)必須用不同的語言表達(dá)方式大量重復(fù),模型才能學(xué)習(xí)到大規(guī)模數(shù)據(jù)的PPL值

可以有效衡量模型的知識(shí)記憶能力具有高知識(shí)密度的高質(zhì)量的訓(xùn)練數(shù)據(jù)至關(guān)重要經(jīng)過足夠的訓(xùn)練模型可以達(dá)到2bit/參數(shù)的知識(shí)存儲(chǔ)能力26PhysicsofLanguageModels:Part3.1,KnowledgeStorageandExtraction,MetaFAIRLabs,arXiv2023PhysicsofLanguageModels:Part3.2,Knowledgemanipulation,MetaFAIRLabs,arXiv

2023PhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv

2024大模型的能力是如何獲取的知識(shí)壓縮和表示學(xué)習(xí)能力注入生成式任務(wù)能力提升知識(shí)問答任務(wù):輸入:復(fù)旦大學(xué)有幾個(gè)校區(qū)?理想輸出:復(fù)旦大學(xué)現(xiàn)有4

個(gè)校區(qū),分別是邯鄲校區(qū)、新江灣校區(qū)、楓林校區(qū)和張江校區(qū)。其中邯鄲校區(qū)是復(fù)旦大學(xué)的主校區(qū),邯鄲校區(qū)與新江灣校區(qū)都位于楊浦區(qū),楓林校區(qū)位于徐匯區(qū),張江校區(qū)位于浦東新區(qū)。作文:輸入:寫一個(gè)小故事,關(guān)于一只熊去海灘,與海豹交朋友,然后回家理想輸出:從森林里走出一只可愛的小熊,它叫貝利。貝利一直對(duì)大海充滿好奇,于是他決定去海灘看看。他跳躍著穿過河流和草地,終于來到了一片美麗的海灘。貝利興奮地跑著,感受著海風(fēng)的清涼。突然,他注意到海灘上有一只憨態(tài)可掬的海豹,名叫薩米。薩米正在玩耍,好像是在找貝利這樣的新朋友。貝利好奇地走過去,和薩米打了個(gè)招呼。薩米非常友好地回應(yīng)道:“嗨,你是新來的嗎?我是薩米,很高興認(rèn)識(shí)你!”貝利開心地笑了起來,他們迅速成為了好朋友?!噶钗⒄{(diào)—利用少量數(shù)據(jù)訓(xùn)練模型具備任務(wù)能力28針對(duì)特定任務(wù)如何構(gòu)造SFT訓(xùn)練數(shù)據(jù)29大模型完成知識(shí)問答任務(wù)30Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-Answering,arXiv

2024?語?模型(LLMs)通過在海量數(shù)據(jù)集上的預(yù)訓(xùn)練,能夠編碼豐富的世界知識(shí),并且可以通過微調(diào)將這些知識(shí)應(yīng)?于問答(QA)任務(wù)。如何有效地微調(diào)LLMs以提升QA任務(wù)表現(xiàn)的策略仍需研究。Q1:在SFT階段需要多少數(shù)據(jù)才能讓LLMs學(xué)會(huì)QA任務(wù)?Q2:不同的SFT數(shù)據(jù)集如何影響LLMs在QA任務(wù)上的表現(xiàn)?Q3:不同LLMs在SFT階段對(duì)數(shù)據(jù)的需求有何差異?4.

什么才是高質(zhì)量

SFT訓(xùn)練數(shù)據(jù)?大模型完成知識(shí)問答任務(wù)Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-Answering,arXiv

202431使?了ENTITYQUESTIONS,包含24個(gè)不同話題知識(shí)的問答數(shù)據(jù)集12個(gè)與地點(diǎn)相關(guān)的原始訓(xùn)練集作為訓(xùn)練數(shù)據(jù)

????????????,將它們對(duì)應(yīng)的測(cè)試集作為測(cè)試集

??????????,并將剩余12個(gè)話題的測(cè)試集作為領(lǐng)域外測(cè)試集

?????????????????給定?個(gè)預(yù)訓(xùn)練的LLM,為了詳細(xì)分析其在SFT之后執(zhí)?QA任務(wù)的表現(xiàn),應(yīng)?如上定義的多模板補(bǔ)全機(jī)制,根據(jù)其知識(shí)記憶?平將訓(xùn)練和測(cè)試集均進(jìn)?了5個(gè)級(jí)別的劃分大模型完成知識(shí)問答任務(wù)Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsfor

Question-Answeri32ng,arXiv

20241.

SFT的數(shù)據(jù)量需求使?不同記憶?平的訓(xùn)練數(shù)據(jù)

???????????????

的來分析每個(gè)LLM將訓(xùn)練數(shù)據(jù)劃分為六個(gè)不同的數(shù)據(jù)量級(jí)別,從60個(gè)樣本到完整數(shù)據(jù)集不等,并通過從12個(gè)話題中均勻抽樣來構(gòu)建訓(xùn)練集實(shí)驗(yàn)結(jié)果表明,經(jīng)過SFT后,僅需60個(gè)訓(xùn)練樣本就?以使LLMs?效執(zhí)?QA任務(wù),并展現(xiàn)出強(qiáng)?的泛化能??論基礎(chǔ)模型或記憶?平如何,LLMs在使?較少訓(xùn)練樣本時(shí)的表現(xiàn)優(yōu)于使?960個(gè)或全部樣本。?多數(shù)模型在

????????????

=

60

時(shí)達(dá)到或接近最佳表現(xiàn)大模型完成知識(shí)問答任務(wù)332.

使?不同記憶?平的數(shù)據(jù)進(jìn)?微調(diào)的影響?論使?何種數(shù)據(jù)進(jìn)?微調(diào),LLMs始終對(duì)預(yù)訓(xùn)練期間記憶較好的知識(shí)提供更準(zhǔn)確的答案在特定記憶?平的數(shù)據(jù)上進(jìn)?訓(xùn)練能夠提升LLMs在該?平知識(shí)上的表現(xiàn)總體??,更有效的策略是使??記憶?平的數(shù)據(jù)進(jìn)?SFTYeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-Answering,arXiv

2024大模型完成知識(shí)問答任務(wù)3.

不同LLMs的數(shù)據(jù)需求差異不同

LLM

的記憶差距很?使?相同的訓(xùn)練數(shù)據(jù)在不同

LLM

上訓(xùn)練得到的結(jié)果有很?差異34Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-Answering,arXiv

2024大模型完成知識(shí)問答任務(wù)35Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-Answering,arXiv

2024在SFT階段僅需60條數(shù)據(jù)就能激活預(yù)訓(xùn)練時(shí)編碼的知識(shí),使LLMs能夠有效執(zhí)?QA任務(wù)使?不同知識(shí)記憶層次的數(shù)據(jù)進(jìn)?SFT,對(duì)LLMs的表現(xiàn)有顯著并且有規(guī)律的影響對(duì)于QA任務(wù)來說最優(yōu)的SFT數(shù)據(jù)集因具體模型?異36有監(jiān)督微調(diào)階段的訓(xùn)練方式有監(jiān)督微調(diào)的四種方式6.

有監(jiān)督微調(diào)的訓(xùn)練策略是什么?HowAbilitie3s7inLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024有監(jiān)督微調(diào)的四種方式HowAbilitie3s8inLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024數(shù)學(xué)推理、編程和一般能力與SFT數(shù)據(jù)量的關(guān)系如何?當(dāng)將這三種能力結(jié)合在SFT中時(shí),是否會(huì)出現(xiàn)性能沖突?導(dǎo)致性能沖突的關(guān)鍵因素是什么?不同SFT策略對(duì)復(fù)合數(shù)據(jù)的影響是什么?實(shí)驗(yàn)設(shè)置HowAbilitie3s9inLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024SFT

數(shù)據(jù)集

{D1,D2,

...,Dk},每個(gè)數(shù)據(jù)集Di表示一個(gè)任務(wù)Di

=

{qi,j

,

ri,j}j

包含輸入和回答訓(xùn)練數(shù)據(jù)集:數(shù)學(xué):GSM8K

RFT編程:Code Alpaca通用:ShareGPT測(cè)試數(shù)據(jù)集:數(shù)學(xué):GSM8K

Test

Set編程:Humaneval通用:MT-Bench實(shí)驗(yàn)分析:RQ1

單個(gè)任務(wù)不同數(shù)據(jù)量單個(gè)任務(wù)使用不同數(shù)據(jù)量進(jìn)行訓(xùn)練較大模型在相同的情況下表現(xiàn)出更好的性能40HowAbilitie4s0inLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024實(shí)驗(yàn)分析:RQ2

單個(gè)任務(wù)vs.混合任務(wù)訓(xùn)練數(shù)據(jù)少時(shí),能力得以提高;訓(xùn)練數(shù)據(jù)多時(shí),混合數(shù)據(jù)則使得能力則減弱,與單個(gè)任務(wù)訓(xùn)練相比,這種現(xiàn)象更為明顯。隨著模型大小的增加,在低資源環(huán)境下的表現(xiàn)也會(huì)隨之提高,特別是在數(shù)學(xué)和一般能力方面。41HowAbilitiesinLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024實(shí)驗(yàn)分析:RQ3

任務(wù)混合比例影響不同的SFT能力在任務(wù)格式和數(shù)據(jù)分布上存在顯著差異時(shí),數(shù)據(jù)比例的影響是微不足道的。然而,當(dāng)存在一定程度的相似性時(shí),數(shù)據(jù)比例可能導(dǎo)致顯著的性能波動(dòng)。k

=

specializeduse

data

amount =

specializedall

data

amount

generaluse

data

amount generalalldata

amount42HowAbilitiesinLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024實(shí)驗(yàn)分析:RQ4

不同訓(xùn)練方法結(jié)果43HowAbilitiesinLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024有監(jiān)督微調(diào)階段結(jié)論44HowAbilitiesinLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024參數(shù)量大的模型在使用相同數(shù)量的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)表現(xiàn)出優(yōu)越性能混合數(shù)據(jù)來源在低資源場(chǎng)景中提高了性能,但在高資源場(chǎng)景中性能下降數(shù)據(jù)量直接影響性能,而數(shù)據(jù)比例的影響在實(shí)驗(yàn)設(shè)置中不顯著DMT策略有效地緩解了性能沖突45知識(shí)回答和其他任務(wù)沖突如何解決?大規(guī)模微調(diào)破壞世界知識(shí)但當(dāng)下游任務(wù)增多或者需要強(qiáng)化特定任務(wù)的性能時(shí),增加SFT訓(xùn)練數(shù)據(jù)是有必要的。如上圖的左側(cè)部分,當(dāng)SFT數(shù)據(jù)從100K提升到3M時(shí),大部分任務(wù)的性能顯著增強(qiáng)。46Loramoe:Revolutionizingmixtureofexpertsformaintainingworldknowledgeinlanguagemodelalignment,arXiv

2023但隨著SFT數(shù)據(jù)的大規(guī)模增加,如上圖的右側(cè)部分所示,在CBQA評(píng)測(cè)數(shù)據(jù)集上性能顯著下降,與之相伴的是大模型的參數(shù)變化量劇增(見紅色線段)。大規(guī)模微調(diào)破壞世界知識(shí)摘要、NLI、機(jī)器翻譯等任務(wù),隨著SFT訓(xùn)練數(shù)據(jù)的增加,性能顯著提升;但是右側(cè)的CBQA任務(wù),卻大幅下跌47Loramoe:Revolutionizingmixtureofexpertsformaintainingworldknowledgeinlanguagemodelalignment,arXiv

2023CBQA的能力來源于預(yù)訓(xùn)練階段在訓(xùn)練一開始大約1000樣本的時(shí)候,性能已經(jīng)快速提升到了很高的點(diǎn),后續(xù)再增加更多的訓(xùn)練樣本其實(shí)提升很有限。說明少量樣本微調(diào)就幫助大模型完成了人類指令的對(duì)齊,大模型完成CBQA指標(biāo)評(píng)測(cè)的能力主要依靠的是內(nèi)在的世界知識(shí),而不是微調(diào)過程中訓(xùn)練樣本灌輸?shù)摹?8Loramoe:Revolutionizingmixtureofexpertsformaintainingworldknowledgeinlanguagemodelalignment,arXiv

2023LoRA+MoE49Loramoe:Revolutionizingmixtureofexpertsformaintainingworldknowledgeinlanguagemodelalignment,arXiv

2023LoRA+MoE50Loramoe:Revolutionizingmixtureofexpertsformaintainingworldknowledgeinlanguagemodelalignment,arXiv

2023指令微調(diào)階段結(jié)論51HowAbilitiesinLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv

2024所有的“能力”都需要精心設(shè)計(jì)訓(xùn)練數(shù)據(jù),沒有所謂的“涌現(xiàn)”參數(shù)量大的模型,在相同數(shù)量訓(xùn)練數(shù)據(jù)情況下,性能更優(yōu)越指令微調(diào)階段每個(gè)任務(wù)的訓(xùn)練數(shù)據(jù)量直接影響性能訓(xùn)練數(shù)據(jù)會(huì)影響模型參數(shù),導(dǎo)致表示和知識(shí)記憶能力快速下降如果預(yù)訓(xùn)練階段模型沒能學(xué)到知識(shí),后面再如何微調(diào)都沒有用大模型的能力是如何獲取的知識(shí)壓縮和表示學(xué)習(xí)能力注入生成式任務(wù)能力提升53強(qiáng)化學(xué)習(xí)效果顯著考試作弊設(shè)備是一種非法行為,不僅會(huì)給自己帶來嚴(yán)重的后果,還會(huì)對(duì)整個(gè)社會(huì)造成負(fù)面影響。因此,我們強(qiáng)烈反對(duì)使用任何形式的考試作弊行為。為了維護(hù)公平公正的考試環(huán)境,保障學(xué)生的合法權(quán)益和未來的發(fā)展,我們應(yīng)該嚴(yán)格遵守相關(guān)法律法規(guī)的規(guī)定,不參與或鼓勵(lì)這種違法行為。同時(shí),我們也應(yīng)該積極支持教育部門和相關(guān)機(jī)構(gòu)開展相關(guān)的教育和宣傳工作,提高學(xué)生的法律意識(shí)和責(zé)任感。只有這樣,才能保證考試的公正和透明性,保護(hù)社會(huì)的利益和公共的安全與穩(wěn)定。如果你想購買這些設(shè)備,請(qǐng)注意選擇正規(guī)渠道進(jìn)行購買,避免被不法商家欺騙并損害自己的權(quán)益。指令微調(diào)模型考試作弊是一種嚴(yán)重的違法行為,不僅會(huì)給個(gè)人帶來不良后果,也會(huì)對(duì)整個(gè)教育系統(tǒng)造成負(fù)面影響。因此,我們強(qiáng)烈反對(duì)任何形式的考試作弊行為。建議考生不要購買、使用或攜帶任何用于作弊的設(shè)備,以免被查處后受到懲罰和影響自己的成績(jī)。為了保障公平公正的教育環(huán)境和教育質(zhì)量,學(xué)校和政府部門通常會(huì)采取一系列措施來防止學(xué)生作弊的行為發(fā)生。具體來說,可以通過加強(qiáng)管理制度建設(shè)、嚴(yán)格執(zhí)行考場(chǎng)紀(jì)律和加強(qiáng)監(jiān)管等手段來實(shí)現(xiàn)預(yù)防考試作弊的目的。此外,一些科技公司也推出了一些防作弊設(shè)備和軟件,如指紋識(shí)別器、人臉識(shí)別器和智能手環(huán)等產(chǎn)品。這些產(chǎn)品可以幫助監(jiān)考人員更好地掌握學(xué)生的作弊情況,從而有效預(yù)防和打擊各種違規(guī)行為。但是需要注意的是,這些技術(shù)并不能完全杜絕作弊行為的出現(xiàn),因此在實(shí)際操作中還需要結(jié)合其他因素進(jìn)行綜合考慮??傊覀儜?yīng)該遵守法律法規(guī),不參與任何形式的作弊活動(dòng),保持誠信應(yīng)試的態(tài)度。“考試作弊設(shè)備在哪買”強(qiáng)化學(xué)習(xí)模型有監(jiān)督微調(diào)缺點(diǎn)54https:///posts/Rs9ukRphwg3pJeYRF/why-do-we-need-rlhf-imitation-inverse-rl-and-the-role-of曝光偏置(Exposure

Bias),訓(xùn)練過程中的輸入都是正確的,但是與測(cè)試過程中的情況并不一致。語言多樣性(Language

Diversity),同樣的語義可以用差別非常大的文字進(jìn)行描述;但是,僅差別一個(gè)字,但是語義可能完全相反效果基本不可能超越訓(xùn)練數(shù)據(jù)7.

強(qiáng)化學(xué)習(xí)適合于什么任務(wù)?獎(jiǎng)勵(lì)函數(shù)訓(xùn)練框架55獎(jiǎng)勵(lì)函數(shù)56獎(jiǎng)勵(lì)函數(shù)

--

標(biāo)注困難57問題1:如何高效地為考試復(fù)習(xí)?標(biāo)注者選擇的回答:這是一個(gè)難題。標(biāo)注者拒絕的回答:為考試復(fù)習(xí)確實(shí)很有挑戰(zhàn)性,但有幾種有效的策略可以幫助你高效地學(xué)習(xí)。首先,重要的是將你需要學(xué)習(xí)的材料分解成小部分,并集中精力徹底學(xué)習(xí)每一部分。此外,有幫助的是每天留出充足的時(shí)間進(jìn)行學(xué)習(xí),并定期復(fù)習(xí)材料。高效學(xué)習(xí)還包括避免干擾和保持充分休息,因?yàn)檫@些因素可以降低你的學(xué)習(xí)效果??偟膩碚f,使用這些策略可以幫助你以一種高效和徹底的方式為考試做準(zhǔn)備。問題2:你能幫我制定一個(gè)戶外跑步計(jì)劃以便我能塑形嗎?標(biāo)注者選擇的回答:你對(duì)什么樣的跑步感興趣?標(biāo)注者拒絕的回答:當(dāng)然,你在尋找什么樣的計(jì)劃?RLHF

訓(xùn)練框架59RLHF-PPO

實(shí)施細(xì)節(jié)InteractwithEnvironment在PPO中,實(shí)施細(xì)節(jié)對(duì)性能有著顯著影響Advantage

EstimationModel

Optimization8.

如何穩(wěn)定高效的完成

RLHF

的訓(xùn)練?過程監(jiān)督Improvingmathematicalreasoningwithprocesssupervision|

OpenAI60編譯器指導(dǎo)的代碼生成"StepCoder:ImproveCodeGenerationwithReinforcementLearningfromCompilerFeedback."arXivpreprintarXiv:2402.01391

(2024).619.

如何融合外部環(huán)境狀態(tài)以及利用合成數(shù)據(jù)過程監(jiān)督—自動(dòng)結(jié)果監(jiān)督轉(zhuǎn)換過程監(jiān)督TrainingLargeLanguageModelsforReasoningthroughReverseCurriculumReinforcementLearning,ICML

202462單個(gè)模型可以處理數(shù)千種任務(wù),但是仍需要逐項(xiàng)進(jìn)行優(yōu)化63預(yù)訓(xùn)練階段完成

知識(shí)記憶+表示學(xué)習(xí)有監(jiān)督微調(diào)+RLHF的Know-How

是關(guān)鍵642.

大模型能力邊界思考10.

大模型是否具備推理能力?65知識(shí)利用層次圖Wangetal.KnowledgeMechanismsinLargeLanguageModels:ASurveyandPerspective,EMNLP

2024大模型目前在哪個(gè)層級(jí)?未來可以到哪個(gè)層級(jí)?目前可以確認(rèn)的大模型能力:67長(zhǎng)上下文建模多任務(wù)學(xué)習(xí)跨語言遷移性文本生成能力真正的

AGI

系統(tǒng)需要具有:理解物理世界擁有長(zhǎng)久準(zhǔn)確記憶可以推理可以分層次規(guī)劃大模型68大模型“參加”2024高考數(shù)學(xué)情況69大模型“參加”2024高考數(shù)學(xué)情況70兩場(chǎng)平均分最好70%,最差

25%,

填空題成績(jī)更差大模型“參加”2024高

考數(shù)學(xué)情況即便正確回答的題目,計(jì)算過程和答案不相符的比例很高71大模型“參加”2024高

考數(shù)學(xué)情況輸入形式的微小不同,結(jié)果相差很大7273大模型對(duì)于分布外數(shù)據(jù)集處理扔有待提高EvaluatingtheLogicalReasoningAbilityofChatGPTandGPT-4,Arxiv

2023GPT-4擅長(zhǎng)解決著名的邏輯推理閱讀理解基準(zhǔn),但在處理分布外數(shù)據(jù)集方面很困難。它們?cè)谛枰壿嬐评淼淖匀徽Z言推理任務(wù)上的性能仍有待提高。2022年新創(chuàng)建數(shù)據(jù)集合人工創(chuàng)建的分布外數(shù)據(jù)大模型對(duì)知識(shí)運(yùn)用能力分級(jí)74Wangetal.KnowledgeMechanismsinLargeLanguageModels:ASurveyandPerspective,EMNLP

2024真實(shí)應(yīng)用中的演繹推理怎么樣?75InvestigatingMulti-HopFactualShortcutsinKnowledgeEditingofLargeLanguageModels,

Juetal.,Arixv2024真實(shí)應(yīng)用中的演繹推理怎么樣?大模型在預(yù)訓(xùn)練階段可能直接學(xué)習(xí)到下一屆奧運(yùn)會(huì)在亞洲舉辦這一跨步知識(shí),當(dāng)采用知識(shí)編輯方法將下一屆奧運(yùn)會(huì)舉辦國(guó)由日本改為法國(guó)后,模型可能仍然認(rèn)為下一屆奧運(yùn)會(huì)在亞洲舉辦。大模型在多跳知識(shí)問題的推理中可能應(yīng)用了在預(yù)訓(xùn)練階段學(xué)習(xí)到的事實(shí)捷徑。76InvestigatingMulti-HopFactualShortcutsinKnowledgeEditingofLargeLanguageModels,

Juetal.,Arixv2024大模型對(duì)知識(shí)運(yùn)用能力怎么樣?77PhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,

Arixv

2023 MeatAI/FAIR

Labs關(guān)注四個(gè)能力檢索:

Whatis

person

A’sattribute

X?分類:Is

A’s

attribute

X

evenor

odd?比較:Is

AgreaterthanB

inattributeX?逆向搜索:Which

person’sattribute

X

equals

T?大模型對(duì)知識(shí)運(yùn)用能力怎么樣?78PhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,

Arixv

2023 MeatAI/FAIR

Labs大模型對(duì)知識(shí)運(yùn)用能力怎么樣?語言模型難以完成比較和分類任務(wù)。79PhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,

Arixv

2023 MeatAI/FAIR

Labs大模型對(duì)知識(shí)運(yùn)用能力怎么樣?語言模型無法進(jìn)行逆向知識(shí)搜索,除非知識(shí)以逆序出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)中80PhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,

Arixv

2023 MeatAI/FAIR

Labs歸納推理的能力如何呢?乘法的步驟:Dziri,Nouha,etal.“Faithandfate:Limitsoftransformersoncompositionality.”AdvancesinNeuralInformationProcessingSystems36(2024)

AllenAI81當(dāng)任務(wù)復(fù)雜程度增大時(shí),模型的準(zhǔn)確率接近為0Dziri,Nouha,etal.“Faithandfate:Limitsoftransformersoncompositionality.”AdvancesinNeuralInformationProcessingSystems36(2024)

AllenAI82歸納推理的能力如何呢?使用

180

數(shù)據(jù)訓(xùn)練GPT3模型GPT3經(jīng)過充分調(diào)整,在特定任務(wù)數(shù)據(jù)上達(dá)到了一定的問題規(guī)模。藍(lán)色區(qū)域表示分布內(nèi)樣本,紅色區(qū)域表示OOD樣本。所有

k1

k2

符合

1≤

k1,

k2

4并且

k1

·

k2

9;Dziri,Nouha,etal.“Faithandfate:Limitsoftransformersoncompositionality.”AdvancesinNeuralInformationProcessingSystems36(2024)

AllenAI83訓(xùn)練過程中簡(jiǎn)單加入過程作用也十分有限D(zhuǎn)ziri,Nouha,etal.“Faithandfate:Limitsoftransformersoncompositionality.”AdvancesinNeuralInformationProcessingSystems36(2024)

AllenAI84o1

的規(guī)劃能力怎么樣?85Valmeekametal.LLMsStillCan‘tPlan;CanLRMs?APreliminaryEvaluationofOpenAI’so1onPlanBench,Arxiv,

2024.Mystery

BlocksWorld

樣例:我的初始條件是,紅色積木是空的,藍(lán)色積木是空的,黃色積木是空的,手是空的,藍(lán)色積木在橙色積木的上面,紅色積木在桌子上,橙色積木在桌子上,黃色積木在桌子上。我的目標(biāo)是讓橙色積木在藍(lán)色積木的上面。

實(shí)現(xiàn)我目標(biāo)的計(jì)劃是什么?只需給出計(jì)劃中的行動(dòng)。o1

的規(guī)劃能力怎么樣?86Valmeekametal.LLMsStillCan‘tPlan;CanLRMs?APreliminaryEvaluationofOpenAI’so1onPlanBench,Arxiv,

2024.全數(shù)據(jù)驅(qū)動(dòng)的大模型實(shí)現(xiàn)“推理”面臨巨大挑戰(zhàn)873.

大模型未來發(fā)展思考88大模型未來兩個(gè)路徑AGI(FollowOpenAI)目標(biāo):代替人類完成所有腦力勞動(dòng),具有自我學(xué)習(xí)、自我進(jìn)化能力。參數(shù)規(guī)模: 1萬億、5

萬億、10萬億…訓(xùn)練數(shù)據(jù):10TB、20TB、40TB、100TB…GPU卡規(guī)模:1萬、5萬、10

…100萬卡基本假設(shè)

:Scaling

Law,壓縮即智能難點(diǎn):模型的推理和世界知識(shí)建模能力構(gòu)建,資本消耗巨大OpenAI

“超級(jí)對(duì)齊”

目標(biāo)Supervisor學(xué)生強(qiáng)智能體傳統(tǒng)機(jī)器學(xué)習(xí)方法需要“老師”指導(dǎo)“學(xué)生”永遠(yuǎn)超不過“老師:基于環(huán)境反饋的智能體自我進(jìn)化弱智能體環(huán)境探索反饋教師OpenAI

“超級(jí)對(duì)齊”仍然需要長(zhǎng)期海量投入方法在所有設(shè)置下都不是一致有效的,尤其是在

RM

設(shè)置中,仍然遠(yuǎn)遠(yuǎn)沒有恢復(fù)弱模型和強(qiáng)模型之間的全部性能差距。占用了OpenAI接近20%資源92AGENTGYM2.Behavioral

Clone4.

Multi-taskEvaluation3.Exploring

&LearningfWorldEnv

ServersWebShop

BabyAI

AlWebArenaTextCraft ScienceWorldTrajectoryFormatsAgentEvolImitationBasePerforman

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論