2025大語言模型的能力邊界與發(fā)展思考_第1頁
2025大語言模型的能力邊界與發(fā)展思考_第2頁
2025大語言模型的能力邊界與發(fā)展思考_第3頁
2025大語言模型的能力邊界與發(fā)展思考_第4頁
2025大語言模型的能力邊界與發(fā)展思考_第5頁
已閱讀5頁,還剩96頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大語言模型的能力邊界與發(fā) 2023年大家拿著錘子到處找釘語言模型無法進(jìn)行逆向知識搜索,除非知識以逆序出現(xiàn)在預(yù)訓(xùn)練PhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,Arixv GSM8KMATH數(shù)據(jù)集問題的基礎(chǔ)上,加■“陷阱”MathTrap數(shù)據(jù)集。只有能夠同時(shí)理解原題和“陷阱”所涉及知識發(fā)現(xiàn)“陷阱”所在。測試準(zhǔn)確率38.0%,相■GPT-436.0% 手段),并對其中的38種做了更詳細(xì)的測試時(shí)也對廣受認(rèn)可的升力方程中的斯密頓系數(shù)提出了質(zhì)疑, 符合人類書寫習(xí)慣的下一個(gè)合理內(nèi)容。所謂“合理”,是指根據(jù)數(shù)十億個(gè)網(wǎng)頁、數(shù) Ch1tGPT有的文本的基礎(chǔ)上,下一個(gè)詞應(yīng)該是什么?”——并且每次都會添加一個(gè)詞。預(yù)訓(xùn)練階

有監(jiān)督微

強(qiáng)化學(xué)數(shù)千圖書網(wǎng)頁

十萬各任用戶

landingto6year

百萬各任用戶

landingto6year

十萬各任Onceuponatime

造目標(biāo)

totheMoon

天預(yù)訓(xùn)練階

有監(jiān)督微

強(qiáng)化學(xué)數(shù)千圖書網(wǎng)頁

十萬各任用戶

landingto6year

百萬各任用戶

landingto6year

十萬各任用戶

標(biāo)注人員造目標(biāo)答 標(biāo)注人員造目標(biāo)答 the型訓(xùn)練每個(gè)階段分別標(biāo)注人

Onceuponatime有監(jiān)督微調(diào)2.預(yù)訓(xùn)練階段能記住什什么才是高質(zhì)量的SF7.強(qiáng)化學(xué)習(xí)適合于什么任務(wù)3如何評價(jià)預(yù)訓(xùn)練模型優(yōu)

礎(chǔ)模型的什么有監(jiān)督微調(diào)改變了基8如何穩(wěn)RLHF礎(chǔ)模型的什么是什么是什么有監(jiān)督微調(diào)的訓(xùn)練9.如何融合外部環(huán)境狀態(tài) ChatGPT實(shí)現(xiàn)過

1大模型訓(xùn)練每個(gè)階段分別完成什么 PhysicsPhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIRLabs,arXiv2024 達(dá)到2bit/對于每個(gè)知識1000次曝光

2.預(yù)訓(xùn)練階段能記住什么知識Wikipediavs.CommonPhysicsofLanguageModelsPart3.3的研究并未對知識的特異性進(jìn)行聯(lián)總裁楊元裁任正非具有別的含義,且出現(xiàn)次數(shù)聯(lián)總裁楊元裁任正非基于模版變換的知識記憶評OpenAI基本放棄了通過模型知識記憶直接進(jìn)行問題同一個(gè)知識點(diǎn)必須用不同的語言表達(dá)方式大量重復(fù),模型才能學(xué)習(xí)具有高知識密度的高質(zhì)量的訓(xùn)練數(shù)據(jù)至關(guān)arXiv2023PhysicsofLanguageModels:Part3.2,Knowledgemanipulation,Meta PhysicsofLanguagePhysicsofLanguageModels:Part3.3,KnowledgeCapacityScalingLaws,MetaFAIR

理想輸出:復(fù)旦大學(xué)現(xiàn)有4個(gè)校區(qū),分別是邯鄲校區(qū)、新江灣校區(qū)、楓林校區(qū)和張其中邯鄲校區(qū)是復(fù)旦大學(xué)的主校區(qū),邯鄲校區(qū)與新江灣校區(qū)都位于楊浦區(qū),楓匯區(qū),張江校區(qū)位于浦東理想輸出:從森林里走出一只可愛的小熊,它叫貝利。貝利一直對大海充滿定去海灘看看。他跳躍著穿過河流和草地,終于來到了一片美麗的海灘。貝利興奮地回應(yīng)道:“嗨,你是新來的嗎?我是薩米,很高興認(rèn)識你!”貝利開心地笑了起來,他們迅SFT訓(xùn)練

什么才是高質(zhì)SFT訓(xùn)練并且可以通過微調(diào)將這些知識應(yīng)問答(QA)任務(wù)。如何有效地微調(diào)LLMs以Q1:在SFT階段需要多少數(shù)據(jù)才能讓LLMs學(xué)會QA任務(wù)?Q2:不同的SFT數(shù)據(jù)集如何影響LLMs在QA任務(wù)上的表現(xiàn)?Q3:不同LLMs在SFT階段對數(shù)據(jù)的需求有何差異?Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion- arXivENTITYQUESTIONS,包含24個(gè)不同話題知識的問

個(gè)話題的測試集作為領(lǐng)域外測試給預(yù)訓(xùn)練的LLM,為了詳細(xì)分析其在SFT之后執(zhí)任務(wù)的表現(xiàn),應(yīng)義補(bǔ)全機(jī)制,根據(jù)其知識記憶訓(xùn)練和測試集均進(jìn)5個(gè)級別Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion- Yeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforng,arXivSFT記憶訓(xùn)練?每將訓(xùn)練數(shù)據(jù)劃分為六個(gè)不同的數(shù)據(jù)量級別,從60個(gè)樣實(shí)驗(yàn)結(jié)果表明,經(jīng)過SFT后,僅需60個(gè)訓(xùn)練樣本就■LLMs論基礎(chǔ)模型或記憶LLMs較少960=60時(shí)達(dá)到或接近最佳表YeYeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-論種數(shù)據(jù)進(jìn)調(diào),LLMs始終對預(yù)訓(xùn)練期間記在特定記憶進(jìn)訓(xùn)練能夠提升LLMs在識上的表總體■記憶進(jìn)■SFTYeetal.EmpiricalInsightsonFine-TuningLargeLanguageModelsforQuestion-不同LLMsLLM的記憶訓(xùn)練LLM上訓(xùn)練得到的結(jié)在SFT階段僅需60條數(shù)據(jù)就能激活預(yù)訓(xùn)練時(shí)編碼的知識,使LLMs能夠執(zhí)任識記憶層次的數(shù)據(jù)進(jìn)SFT,對LLMs的表現(xiàn)有顯著并且有規(guī)律HowHowAbilitie3sPAGE7inLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv2024 6.有監(jiān)督微調(diào)的訓(xùn)練策略是什么?數(shù)學(xué)推理、編程和一般能力與SFT數(shù)據(jù)量的關(guān)當(dāng)將這三種能力結(jié)合在SFT中時(shí),是否會出現(xiàn)導(dǎo)致性能沖突的關(guān)鍵因素是什么不同SFT策略對復(fù)合數(shù)據(jù)的影響是什么實(shí)驗(yàn)設(shè)實(shí)驗(yàn)設(shè)Di={qi,j,ri,j}j包含輸數(shù)學(xué):GSM8K編程

編HowHowAbilitie4s0inLargeLanguageModelsareAffectedbySupervisedFine-tuningDataComposition,arXiv2024實(shí)驗(yàn)實(shí)驗(yàn)分析:RQ2單個(gè)任vs混合任數(shù)據(jù)比例可能導(dǎo)致顯著的性能波動k= specializedusedataamount =specializedalldataamount generalusedataamount generalalldataamount參數(shù)量大的模型在使用相同數(shù)量的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)表現(xiàn)出優(yōu)混合數(shù)據(jù)來源在低資源場景中提高了性能,但在高資源場數(shù)據(jù)量直接影響性能,而數(shù)據(jù)比例的影響在實(shí)驗(yàn)設(shè)置中不顯

變化量劇增(色線段)對齊,大模型完成CBQA指標(biāo)評測的能力主要依靠的是參數(shù)量大的模型,在相同數(shù)量訓(xùn)練數(shù)據(jù)情況下,性能更優(yōu)指令微調(diào)階段每個(gè)任務(wù)的訓(xùn)練數(shù)據(jù)量訓(xùn)練數(shù)據(jù)會影響模型參數(shù),導(dǎo)致表示和知識記憶能力如果預(yù)訓(xùn)練階段模型沒能學(xué)到知識,后面再如何微調(diào)

指令微調(diào)

如果你想購買這些設(shè)備,請注意選擇正規(guī)渠道進(jìn)購買,避免被不法商家欺騙并損害自己的權(quán)

現(xiàn),因此在實(shí)際操作中還需要結(jié)合其他因素進(jìn)行綜合考慮總之,我們應(yīng)該遵守法律法規(guī),不參與任何形式的作弊活動 保持誠信應(yīng)試的態(tài)

強(qiáng)化學(xué)習(xí)適合于什么任務(wù)語言多樣性(LanguageDiversity),\h標(biāo)注者選擇的回答:這是一個(gè)難題標(biāo)注者拒絕的回答:為考試復(fù)習(xí)確實(shí)很有挑戰(zhàn)性,但有幾種有效的策略可以幫助你高效地學(xué)習(xí)。首先,重要的是將你需要學(xué)習(xí)的材料分解成小部分,并集中精力徹底學(xué)習(xí)每一部分。此外,有幫助的是每天留出充足的時(shí)間進(jìn)行學(xué)習(xí),并定期復(fù)習(xí)材料。高效學(xué)習(xí)還包括避免干擾和保持充分休息,因?yàn)檫@些因素可以降低你的學(xué)習(xí)效果??偟膩碚f,使用這些策略可以幫助你以一種高效和徹底的方式為考試做準(zhǔn)備。標(biāo)注者選擇的回答:你對什么樣的跑步感興標(biāo)注者拒絕的回答:當(dāng)然,你在尋找什么樣的計(jì)RLHFRLHF訓(xùn)練 RLHF-PPO實(shí)施細(xì)

如何穩(wěn)RLHF的

t實(shí)施細(xì)節(jié)對性能有著顯

Improvingmathematicalreasoningwithprocesssupervision|

如何融合外部環(huán)境狀態(tài) "StepCoder:ImproveCodeGenerationwithReinforcementLearningfromCompilerFeedback."arXivpreprintarXiv:22.01391TrainingLargeLanguageModelsforReasoningthroughReverseCurriculumReinforcementLearning,ICML2024預(yù)訓(xùn)練階識記憶+表示學(xué) 10大模型是否具備

EMNLPWangetal.KnowledgeMechanismsinLargeLanguageModels:ASurveyandEMNLP

大模型“大模型“參加2024大模型大模型“參加2024 即便正確回答的題目,計(jì)算過輸入形式的微小不同,結(jié)難。它們在需要邏輯推理的自然語言推理任務(wù) 人工創(chuàng)建的分布外數(shù)ArxivEvaluatingtheLogicalReasoningAbilityofChatGPTandGPT-ArxivEMNLPWangetal.KnowledgeMechanismsinLargeLanguageModels:ASurveyandEMNLPInvestigatingMulti-HopFactualShortcutsinKnowledgeEditingofLargeLanguageModels,Juetal.,Arixv大模型在多跳知識問題的推理中可能應(yīng)用了在預(yù)訓(xùn)練階段學(xué)習(xí)到的事實(shí)PhysicsPhysicsofLanguageModels:Part3.2,KnowledgeManipulation,Allen-ZhuZ.,LiY.,Arixv檢WhatispersonA’sattribute分類:IsA’sattributeXevenor比較:IsAgreaterthanBinattribute逆向搜索:Whichperson’sattributeXequals語言模型難以完成比較和分類任務(wù)語言模型無法進(jìn)行逆向知識搜索,除非知識以逆序出現(xiàn)在預(yù)訓(xùn)練Dziri,Dziri,Nouha,etal.“Faithandfate:Limitsoftransformersoncompositionality.”AdvancesinNeuralInformationProcessingSystems36(2024)AllenAI乘法的步驟180數(shù)據(jù)訓(xùn)練GPT3GPT3達(dá)到了一定的問題規(guī)模。藍(lán)色區(qū)域表示分樣本,紅色區(qū)域表示OOD樣本。k1k21k1k2≤4k1·k2≤o1o1的規(guī)劃能力怎么樣Mysterysd樣例:我的初始條件是,紅色積木是空的,藍(lán)色積木是空的,黃色積木是空的,手是空的,藍(lán)色積木在橙色積木的上面,紅色積木在桌子上,橙色積木在桌子上,黃色積木在桌子上。我的目標(biāo)是讓橙色積木在藍(lán)色積實(shí)現(xiàn)我目標(biāo)的計(jì)劃是什么只需給出計(jì)劃中的行動。Valmeekametal.LLMsStillCan‘tPlan;CanLRMs?APreliminaryEvaluationofOpenAI’so1onPlanBench,Arxiv,o1o1的規(guī)劃能力怎么樣Valmeekametal.LLMsStillCan‘tPlan;CanLRMs?APreliminaryEvaluationofOpenAI’so1onPlanBench,Arxiv, 全數(shù)據(jù)驅(qū)動實(shí)現(xiàn)“推理”面臨巨大挑AGI(Follow參數(shù)規(guī)模:1萬億、5萬億、10萬億GPU卡規(guī)模:1萬、5萬、10100基本假ScalingLaw,壓縮OpenAI超級對齊目OpenAI超級對齊目教

強(qiáng)學(xué) 弱智能傳統(tǒng)機(jī)器學(xué)習(xí)方法需要“老師”指“學(xué)生”永遠(yuǎn)超不過“老師

OpenAIOpenAI超級對齊”仍然需要長期海量方法在所有設(shè)置下都不是一致有效RM設(shè)置中,仍然遠(yuǎn)遠(yuǎn)沒有恢復(fù)弱OpenAI20%資ReasoningandInstruction:Findmeapillowwithblueand…Thought:IthinkIshouldsearchforpillows…Action:search[pillow]Observation:Results:[Sep]Item1[Sep]…

AgentGymSingleTaskGeneralData

Env

EnvEnv GeneralDomainInstruction:Hello!CanyoutranslatethisintoChineseforme?Response:Sure!

Data4.Multi-task

BehavioralExploring&

MAZE/ Tool BIRD-ther/ vie/ the

AGE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論