版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大語言模型通識微課
分布式訓(xùn)練策略分布式訓(xùn)練是指將機器學(xué)習(xí)或深度學(xué)習(xí)模型訓(xùn)練任務(wù)分解成多個子任務(wù),并在多個計算設(shè)備上并行地進(jìn)行訓(xùn)練。圖7-5給出單個計算設(shè)備和多個計算設(shè)備的示例,這里的計算設(shè)備可以是中央處理器(CPU)、圖形處理器(GPU)、張量處理器(TPU),也可以是神經(jīng)網(wǎng)絡(luò)處理器(NPU)。
圖7-5單個計算設(shè)備和多個計算設(shè)備的示例微課7.2分布式訓(xùn)練策略一個模型訓(xùn)練任務(wù)往往會有大量的訓(xùn)練樣本作為輸入,可以利用一個計算設(shè)備完成,也可以將訓(xùn)練任務(wù)拆分成多個子任務(wù),分發(fā)給不同的計算設(shè)備,實現(xiàn)并行計算。此后,還需要對每個計算設(shè)備的輸出進(jìn)行合并,最終得到與單個計算設(shè)備等價的計算結(jié)果,最終實現(xiàn)對整個計算過程的加速。機器學(xué)習(xí)模型快速發(fā)展,模型參數(shù)規(guī)模迅速增大的同時,對訓(xùn)練數(shù)據(jù)量的要求也呈指數(shù)級增長,加劇了對算力的需求,只有通過分布式訓(xùn)練系統(tǒng)才可以匹配模型不斷增長的算力需求,滿足機器學(xué)習(xí)模型的發(fā)展需要。分布式訓(xùn)練的總體目標(biāo)就是提升總的訓(xùn)練速度,減少模型訓(xùn)練的總體時間。微課7.2分布式訓(xùn)練策略分布式訓(xùn)練系統(tǒng)需要克服計算墻、顯存墻、通信墻等挑戰(zhàn),以確保集群內(nèi)的所有資源得到充分利用,從而加速訓(xùn)練過程并縮短訓(xùn)練周期?!び嬎銐Γ簡蝹€計算設(shè)備所能提供的計算能力與大模型所需的總計算量之間存在巨大差異?!わ@存墻:單個計算設(shè)備無法完整存儲一個大模型的參數(shù)?!ねㄐ艍Γ悍植际接?xùn)練系統(tǒng)中各計算設(shè)備之間需要頻繁地進(jìn)行參數(shù)傳輸和同步。由于通信的延遲和帶寬限制,這可能成為訓(xùn)練過程的瓶頸。微課7.2分布式訓(xùn)練策略數(shù)據(jù)并行性關(guān)注的問題是在大批量下,如何降低顯存的開銷。模型中間計算過程都會有中間狀態(tài),通常占用的空間和批量大小成正比。在數(shù)據(jù)并行系統(tǒng)中,每個計算設(shè)備都有整個神經(jīng)網(wǎng)絡(luò)模型的模型副本,進(jìn)行迭代時,每個計算設(shè)備只分配一個批次數(shù)據(jù)樣本的子集,并根據(jù)該批次樣本子集的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)模型的前向計算。7.2.1數(shù)據(jù)并行性數(shù)據(jù)并行訓(xùn)練系統(tǒng)可以通過增加計算設(shè)備,有效提升整體訓(xùn)練吞吐量,即每秒全局批次數(shù),它需要在所有計算設(shè)備中進(jìn)行同步,以保證每個計算設(shè)備上最終得到的是所有進(jìn)程上梯度的平均值。常見的神經(jīng)網(wǎng)絡(luò)框架中都有數(shù)據(jù)并行方式的具體實現(xiàn)。由于基于Transformer結(jié)構(gòu)的大模型中每個算子都依賴單個數(shù)據(jù)而非批次數(shù)據(jù),因此數(shù)據(jù)并行并不會影響其計算邏輯。一般情況下,各訓(xùn)練設(shè)備中前向計算是獨立的,不涉及同步問題。數(shù)據(jù)并行訓(xùn)練加速比最高,但要求每個設(shè)備上都備份一份模型,顯存占用比較高。7.2.1數(shù)據(jù)并行性解決模型并行單節(jié)點內(nèi)存不足的問題,可以用以下兩種形式進(jìn)行切分。(1)按模型的層切分到不同設(shè)備,即層間(算子間)并行或流水線并行。(2)將計算圖層內(nèi)的參數(shù)切分到不同設(shè)備,即層內(nèi)并行或張量并行。模型并行性的基本含義是把模型本身進(jìn)行切分,使得每個GPU卡只需要存模型的一部分。多個GPU配合起來完成一個完整的小批量。7.2.2模型并行性流水線并行性使用了經(jīng)典的管道思想。在模型計算流水線上,每個GPU只負(fù)責(zé)模型的一個分片,計算完就交給下一個GPU完成下一個模型分片的計算。當(dāng)下個GPU在計算時,上一個GPU開始算下一個小批量屬于它的模型分片。這里需要注意到不同模型分片使用的參數(shù)分片是否同步的問題,防止流水線更新參數(shù)的問題。圖7-9流水線并行7.2.3流水線并行性混合并行是將多種并行策略如數(shù)據(jù)并行、流水線并行和張量并行等混合使用。通
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 玉溪師范學(xué)院《籃球》2021-2022學(xué)年第一學(xué)期期末試卷
- 電力設(shè)備生產(chǎn)成本的核算-記賬實操
- 2024年胚毒滅活苗項目評估分析報告
- 2019湘美版 高中美術(shù) 選擇性必修6 現(xiàn)代媒體藝術(shù)《第二單元 攝像》大單元整體教學(xué)設(shè)計2020課標(biāo)
- 2024屆河北省張家口一中開學(xué)摸底考試高三數(shù)學(xué)試題
- 2024屆河北省定興中學(xué)高三3月月考數(shù)學(xué)試題(解析版)
- 如何解決研究院的科研工作者在實驗室內(nèi)部高效溝通等問題-TIKOOL太酷無線內(nèi)通
- 餐椅質(zhì)保合同范本
- 病人協(xié)議書范本
- 北京市商品房現(xiàn)房買賣合同示范文本
- 和易充智能充電系統(tǒng)(PPT課件)
- 30MW光伏項目送出系統(tǒng)工程施工組織總設(shè)計1
- 建筑抗震設(shè)計規(guī)范2010
- 100以內(nèi)退位減法經(jīng)典實用
- HGO GNSS數(shù)據(jù)處理軟件
- (核電站)反應(yīng)堆棚和水補給系統(tǒng)(REA)
- 抗菌藥物使用強度整改的PDCA案例
- 昔日中國數(shù)學(xué)物理奧賽選手今何在
- 自來水廠操作規(guī)程手冊
- 酒店弱電工程預(yù)算清單2ok
- 企業(yè)檔案分類方案及編號辦法(范例)
評論
0/150
提交評論