大語言模型通識微課課件:什么是分布式處理_第1頁
大語言模型通識微課課件:什么是分布式處理_第2頁
大語言模型通識微課課件:什么是分布式處理_第3頁
大語言模型通識微課課件:什么是分布式處理_第4頁
大語言模型通識微課課件:什么是分布式處理_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大語言模型通識微課

什么是分布式處理大語言模型的模型參數(shù)量和所需訓(xùn)練數(shù)據(jù)量的規(guī)模持續(xù)急速增長,更大的模型可以進(jìn)一步提升效果,同時(shí)也展現(xiàn)出解決多種不同類型任務(wù)等能力。但是,訓(xùn)練巨大的模型必然需要底層基礎(chǔ)軟件和芯片支撐。這時(shí),單個(gè)機(jī)器有限的資源已無法滿足訓(xùn)練要求,GPU在過去幾年中增長在10倍數(shù)量級,顯然跟不上模型10000倍的規(guī)模增長。硬件不夠,軟件來湊。深度學(xué)習(xí)框架的分布式訓(xùn)練技術(shù)強(qiáng)勢地支撐起了模型的快速增長。分布式訓(xùn)練系統(tǒng)被設(shè)計(jì)來解決海量計(jì)算和內(nèi)存資源需求問題,其中涉及集群架構(gòu)、并行策略、模型架構(gòu)、內(nèi)存優(yōu)化、計(jì)算優(yōu)化等技術(shù)。微課7.1什么是分布式處理為滿足大數(shù)據(jù)處理需求,將一組計(jì)算機(jī)組織到一起形成集群,利用集群來處理大數(shù)據(jù)的工程實(shí)踐逐漸成為主流,這種使用集群進(jìn)行計(jì)算的方式被稱為分布式計(jì)算,當(dāng)前幾乎所有的大數(shù)據(jù)系統(tǒng)都是在集群進(jìn)行分布式計(jì)算的。分布式計(jì)算概念背后的思想十分樸素,即分而治之,它是將一個(gè)原始問題分解為子問題,多個(gè)子問題分別在多臺機(jī)器上求解,借助必要的數(shù)據(jù)交換和合并策略,將子結(jié)果匯總即可求出最終結(jié)果。

圖7-1分而治之的算法思想7.1.1分而治之分布式計(jì)算有很多成熟的方案,其中比較有名的有消息傳遞接口(MPI)和MapReduce。MPI是一個(gè)老牌的分布式計(jì)算框架,主要解決節(jié)點(diǎn)間的數(shù)據(jù)通信問題。在前MapReduce時(shí)代,MPI是分布式計(jì)算的業(yè)界標(biāo)準(zhǔn),現(xiàn)在依然廣泛運(yùn)行在全球各大超級計(jì)算中心、大學(xué)、政府和軍隊(duì)下屬研究機(jī)構(gòu)中,許多物理、生物、化學(xué)、能源、航空航天等基礎(chǔ)學(xué)科的大規(guī)模分布式計(jì)算都依賴MPI。7.1.1消息傳遞接口MPI圖7-2展示了MPI架構(gòu)在4臺服務(wù)器上進(jìn)行并行計(jì)算。在實(shí)際的代碼開發(fā)過程中,用戶需要自行設(shè)計(jì)分治算法,將復(fù)雜問題切分為子問題,手動調(diào)用MPI庫,將數(shù)據(jù)發(fā)送給指定的進(jìn)程。

圖7-2MPI并行計(jì)算示意圖7.1.1消息傳遞接口MPI為了解決分布式計(jì)算學(xué)習(xí)和使用成本高的問題,研究人員提出了更簡單易用的MapReduce編程模型。MapReduce編程模型只需要程序員定義兩個(gè)操作:map(映射)和reduce(減少)。比起MPI,MapReduce編程模型將更多的中間過程做了封裝,程序員只需要將原始問題轉(zhuǎn)化為更高層次的API,至于原始問題如何切分為更小的子問題、中間數(shù)據(jù)如何傳輸和交換、如何將計(jì)算伸縮擴(kuò)展到多個(gè)節(jié)點(diǎn)等一系列細(xì)節(jié)問題可以交給大數(shù)據(jù)框架來解決。因此,MapReduce相對來說學(xué)習(xí)門檻更低,使用更方便,編程開發(fā)速度更快。7.1.2MapReduce數(shù)據(jù)與數(shù)據(jù)流。在現(xiàn)代通信技術(shù)中,數(shù)據(jù)的容量大且產(chǎn)生速度快。從時(shí)間維度上講,數(shù)據(jù)源源不斷地產(chǎn)生,形成一個(gè)無界的數(shù)據(jù)流(見圖7-4)。

圖7-4有界與無界數(shù)據(jù)流7.1.3批處理和流處理例如每時(shí)每刻的運(yùn)動數(shù)據(jù)都會累積到手機(jī)傳感器上,金融交易隨時(shí)隨地發(fā)生著,傳感器會持續(xù)監(jiān)控并生成數(shù)據(jù)。數(shù)據(jù)流中的某段有界數(shù)據(jù)流可以組成一個(gè)數(shù)據(jù)集。我們通常所說的對某份數(shù)據(jù)進(jìn)行分析,指的是對某個(gè)數(shù)據(jù)集進(jìn)行分析。隨著數(shù)據(jù)的產(chǎn)生速度越來越快,數(shù)據(jù)源越來越多,人們對時(shí)效性的重視程度越來越高,如何處理數(shù)據(jù)流成了大家更為關(guān)注的問題。7.1.3批處理和流處理批處理。這是對一批數(shù)據(jù)進(jìn)行處理。批量計(jì)算比比皆是,最簡單的批量計(jì)算例子有:微信運(yùn)動把用戶好友一天所走的步數(shù)統(tǒng)計(jì)一遍,生成排序結(jié)果后推送給用戶;銀行信用卡中心每月賬單日有一個(gè)批量任務(wù),把一個(gè)月的消費(fèi)總額統(tǒng)計(jì)一次,生成用戶月度賬單;國家統(tǒng)計(jì)局每季度對經(jīng)濟(jì)數(shù)據(jù)做一次統(tǒng)計(jì),公布季度GDP增速??梢姡咳蝿?wù)是對一段時(shí)間的數(shù)據(jù)聚合后進(jìn)行處理。對于數(shù)據(jù)量龐大的應(yīng)用,一段時(shí)間內(nèi)積累的數(shù)據(jù)總量非常大,計(jì)算非常耗時(shí)。批量計(jì)算應(yīng)用最為廣泛的是數(shù)據(jù)倉庫的ETL(提取-轉(zhuǎn)換-加載)數(shù)據(jù)轉(zhuǎn)化。7.1.3批處理和流處理流處理。數(shù)據(jù)其實(shí)是以流方式持續(xù)不斷地產(chǎn)生著,流處理就是對數(shù)據(jù)流進(jìn)行分析和處理,時(shí)間對流處理獲取實(shí)時(shí)數(shù)據(jù)價(jià)值越發(fā)重要。例如電商大促銷中管理者要以秒級的響應(yīng)時(shí)間查看實(shí)時(shí)銷售業(yè)績、庫存信息以及與競品的對比結(jié)果,以爭取更多的決策時(shí)間;股票交易要以毫秒級的速度來對新信息做出響應(yīng);風(fēng)險(xiǎn)控制要對每一份欺詐交易迅速做出處理,以減少不必要的損失;網(wǎng)絡(luò)運(yùn)營商要以極快速度發(fā)現(xiàn)網(wǎng)絡(luò)和數(shù)據(jù)中心的故障等等。以上這些場景,一旦出現(xiàn)故障,造成服務(wù)延遲,損失都難以估量,因此,響應(yīng)速度越快,越能減少損失,增加收入。7.1.3批處理和流處理分布式處理和并行處理是為了提高并行處理速度采用的兩種不同的體系架構(gòu)。并行處理是利用多個(gè)功能部件或多個(gè)處理機(jī)同時(shí)工作來提高系統(tǒng)性能或可靠性的計(jì)算機(jī)系統(tǒng),這種系統(tǒng)至少包含指令級或指令級以上的并行。分布式處理則是將不同地點(diǎn)的,具有不同功能的,或擁有不同數(shù)據(jù)的多臺計(jì)算機(jī)通過通信網(wǎng)絡(luò)連接起來,在控制系統(tǒng)的統(tǒng)一管理控制下,協(xié)調(diào)地完成大規(guī)模信息處理任務(wù)的計(jì)算機(jī)系統(tǒng)。并行處理系統(tǒng)與分布式處理系統(tǒng)有密切的關(guān)系,隨著通信技術(shù)的發(fā)展,兩者的界限越來越模糊。廣義上說,分布式處理也可以認(rèn)為是一種并行處理形式。7.1.4分布式處理和并行處理分布式處理系統(tǒng)包含硬件、控制系統(tǒng)、接口、數(shù)據(jù)、應(yīng)用程序和人等六個(gè)要素??刂葡到y(tǒng)中包含了分布式操作系統(tǒng),分布式數(shù)據(jù)庫以及通信協(xié)議等。分布式計(jì)算環(huán)境是在具有多地址空間的多計(jì)算機(jī)系統(tǒng)上進(jìn)行計(jì)算和信息處理的軟件環(huán)境。而分布式軟件系統(tǒng)是支持分布式處理的軟件系統(tǒng),它包括分布式操作系統(tǒng),分布式程序設(shè)計(jì)語言及其

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論