大語言模型通識微課課件：分布式訓(xùn)練策略

上傳人：熊*** IP屬地：山東上傳時間：2024-10-12 格式：PPTX 頁數(shù)：10 大?。?43.29KB 積分：25 舉報 版權(quán)申訴

已閱讀5頁，還剩5頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大語言模型通識微課

分布式訓(xùn)練策略分布式訓(xùn)練是指將機器學(xué)習(xí)或深度學(xué)習(xí)模型訓(xùn)練任務(wù)分解成多個子任務(wù)，并在多個計算設(shè)備上并行地進(jìn)行訓(xùn)練。圖7-5給出單個計算設(shè)備和多個計算設(shè)備的示例，這里的計算設(shè)備可以是中央處理器（CPU）、圖形處理器（GPU）、張量處理器（TPU），也可以是神經(jīng)網(wǎng)絡(luò)處理器（NPU）。

圖7-5單個計算設(shè)備和多個計算設(shè)備的示例微課7.2分布式訓(xùn)練策略一個模型訓(xùn)練任務(wù)往往會有大量的訓(xùn)練樣本作為輸入，可以利用一個計算設(shè)備完成，也可以將訓(xùn)練任務(wù)拆分成多個子任務(wù)，分發(fā)給不同的計算設(shè)備，實現(xiàn)并行計算。此后，還需要對每個計算設(shè)備的輸出進(jìn)行合并，最終得到與單個計算設(shè)備等價的計算結(jié)果，最終實現(xiàn)對整個計算過程的加速。機器學(xué)習(xí)模型快速發(fā)展，模型參數(shù)規(guī)模迅速增大的同時，對訓(xùn)練數(shù)據(jù)量的要求也呈指數(shù)級增長，加劇了對算力的需求，只有通過分布式訓(xùn)練系統(tǒng)才可以匹配模型不斷增長的算力需求，滿足機器學(xué)習(xí)模型的發(fā)展需要。分布式訓(xùn)練的總體目標(biāo)就是提升總的訓(xùn)練速度，減少模型訓(xùn)練的總體時間。微課7.2分布式訓(xùn)練策略分布式訓(xùn)練系統(tǒng)需要克服計算墻、顯存墻、通信墻等挑戰(zhàn)，以確保集群內(nèi)的所有資源得到充分利用，從而加速訓(xùn)練過程并縮短訓(xùn)練周期?！び嬎銐Γ簡蝹€計算設(shè)備所能提供的計算能力與大模型所需的總計算量之間存在巨大差異?！わ@存墻：單個計算設(shè)備無法完整存儲一個大模型的參數(shù)?！ねㄐ艍Γ悍植际接?xùn)練系統(tǒng)中各計算設(shè)備之間需要頻繁地進(jìn)行參數(shù)傳輸和同步。由于通信的延遲和帶寬限制，這可能成為訓(xùn)練過程的瓶頸。微課7.2分布式訓(xùn)練策略數(shù)據(jù)并行性關(guān)注的問題是在大批量下，如何降低顯存的開銷。模型中間計算過程都會有中間狀態(tài)，通常占用的空間和批量大小成正比。在數(shù)據(jù)并行系統(tǒng)中，每個計算設(shè)備都有整個神經(jīng)網(wǎng)絡(luò)模型的模型副本，進(jìn)行迭代時，每個計算設(shè)備只分配一個批次數(shù)據(jù)樣本的子集，并根據(jù)該批次樣本子集的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)模型的前向計算。7.2.1數(shù)據(jù)并行性數(shù)據(jù)并行訓(xùn)練系統(tǒng)可以通過增加計算設(shè)備，有效提升整體訓(xùn)練吞吐量，即每秒全局批次數(shù)，它需要在所有計算設(shè)備中進(jìn)行同步，以保證每個計算設(shè)備上最終得到的是所有進(jìn)程上梯度的平均值。常見的神經(jīng)網(wǎng)絡(luò)框架中都有數(shù)據(jù)并行方式的具體實現(xiàn)。由于基于Transformer結(jié)構(gòu)的大模型中每個算子都依賴單個數(shù)據(jù)而非批次數(shù)據(jù)，因此數(shù)據(jù)并行并不會影響其計算邏輯。一般情況下，各訓(xùn)練設(shè)備中前向計算是獨立的，不涉及同步問題。數(shù)據(jù)并行訓(xùn)練加速比最高，但要求每個設(shè)備上都備份一份模型，顯存占用比較高。7.2.1數(shù)據(jù)并行性解決模型并行單節(jié)點內(nèi)存不足的問題，可以用以下兩種形式進(jìn)行切分。（1）按模型的層切分到不同設(shè)備，即層間（算子間）并行或流水線并行。（2）將計算圖層內(nèi)的參數(shù)切分到不同設(shè)備，即層內(nèi)并行或張量并行。模型并行性的基本含義是把模型本身進(jìn)行切分，使得每個GPU卡只需要存模型的一部分。多個GPU配合起來完成一個完整的小批量。7.2.2模型并行性流水線并行性使用了經(jīng)典的管道思想。在模型計算流水線上，每個GPU只負(fù)責(zé)模型的一個分片，計算完就交給下一個GPU完成下一個模型分片的計算。當(dāng)下個GPU在計算時，上一個GPU開始算下一個小批量屬于它的模型分片。這里需要注意到不同模型分片使用的參數(shù)分片是否同步的問題，防止流水線更新參數(shù)的問題。圖7-9流水線并行7.2.3流水線并行性混合并行是將多種并行策略如數(shù)據(jù)并行、流水線并行和張量并行等混合使用。通

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大語言模型通識微課課件：分布式訓(xùn)練策略

文檔簡介

溫馨提示

最新文檔

評論

大語言模型通識微課課件：分布式訓(xùn)練策略

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔