大語言模型通識微課課件:分布式訓(xùn)練策略_第1頁
大語言模型通識微課課件:分布式訓(xùn)練策略_第2頁
大語言模型通識微課課件:分布式訓(xùn)練策略_第3頁
大語言模型通識微課課件:分布式訓(xùn)練策略_第4頁
大語言模型通識微課課件:分布式訓(xùn)練策略_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大語言模型通識微課

分布式訓(xùn)練策略分布式訓(xùn)練是指將機器學(xué)習(xí)或深度學(xué)習(xí)模型訓(xùn)練任務(wù)分解成多個子任務(wù),并在多個計算設(shè)備上并行地進(jìn)行訓(xùn)練。圖7-5給出單個計算設(shè)備和多個計算設(shè)備的示例,這里的計算設(shè)備可以是中央處理器(CPU)、圖形處理器(GPU)、張量處理器(TPU),也可以是神經(jīng)網(wǎng)絡(luò)處理器(NPU)。

圖7-5單個計算設(shè)備和多個計算設(shè)備的示例微課7.2分布式訓(xùn)練策略一個模型訓(xùn)練任務(wù)往往會有大量的訓(xùn)練樣本作為輸入,可以利用一個計算設(shè)備完成,也可以將訓(xùn)練任務(wù)拆分成多個子任務(wù),分發(fā)給不同的計算設(shè)備,實現(xiàn)并行計算。此后,還需要對每個計算設(shè)備的輸出進(jìn)行合并,最終得到與單個計算設(shè)備等價的計算結(jié)果,最終實現(xiàn)對整個計算過程的加速。機器學(xué)習(xí)模型快速發(fā)展,模型參數(shù)規(guī)模迅速增大的同時,對訓(xùn)練數(shù)據(jù)量的要求也呈指數(shù)級增長,加劇了對算力的需求,只有通過分布式訓(xùn)練系統(tǒng)才可以匹配模型不斷增長的算力需求,滿足機器學(xué)習(xí)模型的發(fā)展需要。分布式訓(xùn)練的總體目標(biāo)就是提升總的訓(xùn)練速度,減少模型訓(xùn)練的總體時間。微課7.2分布式訓(xùn)練策略分布式訓(xùn)練系統(tǒng)需要克服計算墻、顯存墻、通信墻等挑戰(zhàn),以確保集群內(nèi)的所有資源得到充分利用,從而加速訓(xùn)練過程并縮短訓(xùn)練周期?!び嬎銐Γ簡蝹€計算設(shè)備所能提供的計算能力與大模型所需的總計算量之間存在巨大差異?!わ@存墻:單個計算設(shè)備無法完整存儲一個大模型的參數(shù)?!ねㄐ艍Γ悍植际接?xùn)練系統(tǒng)中各計算設(shè)備之間需要頻繁地進(jìn)行參數(shù)傳輸和同步。由于通信的延遲和帶寬限制,這可能成為訓(xùn)練過程的瓶頸。微課7.2分布式訓(xùn)練策略數(shù)據(jù)并行性關(guān)注的問題是在大批量下,如何降低顯存的開銷。模型中間計算過程都會有中間狀態(tài),通常占用的空間和批量大小成正比。在數(shù)據(jù)并行系統(tǒng)中,每個計算設(shè)備都有整個神經(jīng)網(wǎng)絡(luò)模型的模型副本,進(jìn)行迭代時,每個計算設(shè)備只分配一個批次數(shù)據(jù)樣本的子集,并根據(jù)該批次樣本子集的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)模型的前向計算。7.2.1數(shù)據(jù)并行性數(shù)據(jù)并行訓(xùn)練系統(tǒng)可以通過增加計算設(shè)備,有效提升整體訓(xùn)練吞吐量,即每秒全局批次數(shù),它需要在所有計算設(shè)備中進(jìn)行同步,以保證每個計算設(shè)備上最終得到的是所有進(jìn)程上梯度的平均值。常見的神經(jīng)網(wǎng)絡(luò)框架中都有數(shù)據(jù)并行方式的具體實現(xiàn)。由于基于Transformer結(jié)構(gòu)的大模型中每個算子都依賴單個數(shù)據(jù)而非批次數(shù)據(jù),因此數(shù)據(jù)并行并不會影響其計算邏輯。一般情況下,各訓(xùn)練設(shè)備中前向計算是獨立的,不涉及同步問題。數(shù)據(jù)并行訓(xùn)練加速比最高,但要求每個設(shè)備上都備份一份模型,顯存占用比較高。7.2.1數(shù)據(jù)并行性解決模型并行單節(jié)點內(nèi)存不足的問題,可以用以下兩種形式進(jìn)行切分。(1)按模型的層切分到不同設(shè)備,即層間(算子間)并行或流水線并行。(2)將計算圖層內(nèi)的參數(shù)切分到不同設(shè)備,即層內(nèi)并行或張量并行。模型并行性的基本含義是把模型本身進(jìn)行切分,使得每個GPU卡只需要存模型的一部分。多個GPU配合起來完成一個完整的小批量。7.2.2模型并行性流水線并行性使用了經(jīng)典的管道思想。在模型計算流水線上,每個GPU只負(fù)責(zé)模型的一個分片,計算完就交給下一個GPU完成下一個模型分片的計算。當(dāng)下個GPU在計算時,上一個GPU開始算下一個小批量屬于它的模型分片。這里需要注意到不同模型分片使用的參數(shù)分片是否同步的問題,防止流水線更新參數(shù)的問題。圖7-9流水線并行7.2.3流水線并行性混合并行是將多種并行策略如數(shù)據(jù)并行、流水線并行和張量并行等混合使用。通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論