2023算網(wǎng)操作系統(tǒng)白皮書(shū)-_第1頁(yè)
2023算網(wǎng)操作系統(tǒng)白皮書(shū)-_第2頁(yè)
2023算網(wǎng)操作系統(tǒng)白皮書(shū)-_第3頁(yè)
2023算網(wǎng)操作系統(tǒng)白皮書(shū)-_第4頁(yè)
2023算網(wǎng)操作系統(tǒng)白皮書(shū)-_第5頁(yè)
已閱讀5頁(yè),還剩150頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本白皮書(shū)版權(quán)屬于網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室及其合作單位網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室、北京郵電大學(xué)江蘇省未來(lái)網(wǎng)絡(luò)創(chuàng)新研究院張晨、黃韜、周俊、謝人超、汪碩、霍如、劉韻潔):羅曙暉、汪年、張玉軍、夏令明、潘鳳薇、孫蟬娟、高新平、肖玉明、高松、李偉、趙芷晴、吳海喬I用的實(shí)際運(yùn)行和應(yīng)用間通信的流量傳輸,因此也 I 1 1 3 7 7 1本,并憑借這一優(yōu)勢(shì)在互聯(lián)網(wǎng)、金融等行業(yè)得2支付服務(wù)器的費(fèi)用,無(wú)法實(shí)現(xiàn)真正的按實(shí)際用量付費(fèi)。而Serverless速地進(jìn)行函數(shù)發(fā)布與在線運(yùn)行,并首次提出了FaaS(Functionasa34商將自身核心云上的技術(shù)體系以新的產(chǎn)品形態(tài)和全局統(tǒng)一的管理架上以單個(gè)公有云服務(wù)為主流目標(biāo)。在第二階段,Gartner提出了明確一問(wèn)題:1)從算力視角出發(fā),將分布在不同地理位置和網(wǎng)絡(luò)位置的源調(diào)度,使這些集群形成了一個(gè)邏輯上的算力網(wǎng);2)在第一種基礎(chǔ)算力互連的實(shí)現(xiàn)路徑。算力互連可以分為不同的實(shí)5通過(guò)光通道連接直接連接算力集群,將網(wǎng)絡(luò)看作算力間的透明連接;2)通過(guò)在路由器上引入確定性傳輸能力,以保證算力間方問(wèn)題,同時(shí)還能夠滿足應(yīng)用服務(wù)/任務(wù)間靈活的流量傳輸需求;3)北向的算網(wǎng)協(xié)同關(guān)注終端用戶與應(yīng)用/任務(wù)之間的交互質(zhì)量,側(cè)重于純的網(wǎng)絡(luò)上下行傳輸時(shí)間短或云端渲染時(shí)間短都可能無(wú)法滿足用戶業(yè)務(wù)需求;2)在東西向的人工智能訓(xùn)練場(chǎng)景中,工作節(jié)點(diǎn)需要強(qiáng)大6礎(chǔ)設(shè)施的理想形態(tài)就是算力資源在全網(wǎng)任意分布并為用戶統(tǒng)一呈現(xiàn)戶無(wú)需感知應(yīng)用/內(nèi)容在廣域網(wǎng)中的具體分布位置,同時(shí)應(yīng)用/內(nèi)容可7需求到資源側(cè)的算力/網(wǎng)絡(luò)資源的調(diào)度。算網(wǎng)操作系統(tǒng)在設(shè)計(jì)之初就上述概念體現(xiàn)了兩個(gè)方面的含義:1)從硬件角度來(lái)看,這些獨(dú)立的計(jì)算機(jī)是彼此自主的,即每臺(tái)計(jì)算機(jī)都有自身專屬的內(nèi)存;2) 8統(tǒng),并盡可能地在最大程度上實(shí)現(xiàn)分布式系統(tǒng)的透明性:1)位置透行拷貝而無(wú)需通知用戶;4)并發(fā)透明,多個(gè)用戶可以安全地共享程在分布式操作系統(tǒng)的技術(shù)發(fā)展史上,Google公司做出了巨大的9用同時(shí)運(yùn)行時(shí)對(duì)帶寬資源進(jìn)行靈活、細(xì)致的調(diào)配,3)網(wǎng)絡(luò)資源的無(wú)功能:1)協(xié)同調(diào)度負(fù)責(zé)實(shí)現(xiàn)對(duì)于算力和網(wǎng)感知、算網(wǎng)協(xié)同、分級(jí)跨域、接口適配等主要能力;2)閉環(huán)監(jiān)控負(fù)發(fā)、調(diào)度反饋、日志追蹤等主要能力;3)資源管理負(fù)責(zé)實(shí)現(xiàn)對(duì)于算限、算網(wǎng)拓?fù)涞戎饕芰Γ?)標(biāo)識(shí)治理負(fù)責(zé)實(shí)現(xiàn)服務(wù)標(biāo)識(shí)的全生命4.2)閉環(huán)監(jiān)控判斷當(dāng)前應(yīng)用程序/應(yīng)用間連接的運(yùn)行操作系統(tǒng)的核心功能在于管理底層硬件資源以便上層應(yīng)用使用。節(jié)點(diǎn)描述方法,實(shí)現(xiàn)了對(duì)于核心云、邊緣云、零散節(jié)點(diǎn)、邊緣網(wǎng)關(guān)、 “資源數(shù)量”維度從網(wǎng)絡(luò)資源所能提供的“帶寬、時(shí)延、抖動(dòng)”蔽底層網(wǎng)絡(luò)層復(fù)雜邏輯把網(wǎng)絡(luò)資源抽象為一組可量化服務(wù)能力的虛 業(yè)務(wù)建模旨在通過(guò)構(gòu)建一種通用的模型來(lái)描繪業(yè)務(wù)系統(tǒng)的自身三大要素構(gòu)成:1)負(fù)載描述用以表征應(yīng)用本身的屬性信息,包括運(yùn)與定性資源需求的不同點(diǎn)在于不需要對(duì)資源的剩余量進(jìn)行扣減;3)如圖3-5所示,業(yè)務(wù)流量建模描述了應(yīng)用訪問(wèn)/被訪問(wèn)的流量的成:1)負(fù)載描述用于描述流量本身的屬性信息,與應(yīng)用的載描述的2)部署要求則是描述承載該流量的網(wǎng)絡(luò)資源需求。這些描述信息旨在量化訪問(wèn)路徑上流量的需求特征,同樣分為定量需求與定性需求。訪問(wèn)路徑對(duì)網(wǎng)絡(luò)資源供應(yīng)商、地理位置的限定;3)預(yù)期狀態(tài)則是描并進(jìn)一步描述了應(yīng)用與流量的關(guān)系,以此構(gòu)成業(yè)務(wù)系統(tǒng)的拓?fù)浣Y(jié)構(gòu)。定量調(diào)度模型則是根據(jù)應(yīng)用的定量資源需求匹配合適的算力資量資源需求的算力資源的同時(shí),需要扣減該算力資源的可用資源量??諏傩浴比齻€(gè)方面進(jìn)行定性和定量的描述。根據(jù)流量建模,流量以<源標(biāo)識(shí),目的標(biāo)識(shí)>為單元描述該流量傳輸中對(duì)網(wǎng)絡(luò)資源需求與預(yù)期上述應(yīng)用調(diào)度建模與流量調(diào)度建模僅能實(shí)現(xiàn)應(yīng)用和流量各自獨(dú)首先,資源供應(yīng)方需要對(duì)算力資源和網(wǎng)絡(luò)資源進(jìn)行信息的錄用間服務(wù)訪問(wèn)的網(wǎng)絡(luò)時(shí)延/帶寬需求。協(xié)同調(diào)度引擎會(huì)根據(jù)用戶藍(lán)圖算網(wǎng)協(xié)同調(diào)度的核心任務(wù)是實(shí)現(xiàn)業(yè)務(wù)藍(lán)圖與算網(wǎng)拓?fù)渲g的匹送最新業(yè)務(wù)數(shù)據(jù)到APP1,無(wú)明確的網(wǎng)絡(luò)服協(xié)同調(diào)度將對(duì)業(yè)務(wù)藍(lán)圖的需求進(jìn)行分解并與相應(yīng)的資源進(jìn)行匹在核心云,以滿足數(shù)據(jù)分析的算力資源需求為實(shí)現(xiàn)應(yīng)用/流量在初始部署時(shí)的分發(fā)/轉(zhuǎn)發(fā),以及在運(yùn)行狀態(tài)下度功能模塊分別從算網(wǎng)拓?fù)渲泻Y選出符合部署要求的算力資源與網(wǎng)此小節(jié)將重點(diǎn)描述算網(wǎng)協(xié)同調(diào)度中三種典型的算網(wǎng)協(xié)同調(diào)度聯(lián)僅當(dāng)算力和網(wǎng)絡(luò)資源能夠同時(shí)滿足應(yīng)用和流量需求時(shí)才視為一次成對(duì)等式結(jié)構(gòu)常見(jiàn)于多個(gè)業(yè)務(wù)關(guān)系緊密但運(yùn)營(yíng)耦合程度較低的主以作為其子集群的父集群,如此迭代即可形成一個(gè)樹(shù)狀的分層形態(tài),持這種父子關(guān)系在各個(gè)層次之間的可傳遞性以及調(diào)用接口的冪等性。同時(shí),級(jí)聯(lián)式結(jié)構(gòu)天然具備對(duì)多個(gè)廣域網(wǎng)進(jìn)行拼接的流量調(diào)度能力,定后,再在相應(yīng)的算力資源和網(wǎng)絡(luò)資源上完成整個(gè)業(yè)務(wù)藍(lán)圖的部署。(5)區(qū)域2協(xié)同調(diào)度接收到子業(yè)務(wù)藍(lán)圖,得出APP2可部署在核度引擎將藍(lán)圖進(jìn)行拆分,根據(jù)業(yè)務(wù)藍(lán)圖描述的負(fù)載類型與預(yù)期狀態(tài),局協(xié)同調(diào)度進(jìn)行指標(biāo)分拆,如藍(lán)圖中聲明的應(yīng)用總副本數(shù)約束需求。(5)區(qū)域2協(xié)同調(diào)度接收到子業(yè)務(wù)藍(lán)圖,得出APP2可部署在核并觸發(fā)區(qū)域2協(xié)同調(diào)度,對(duì)應(yīng)步驟4;算網(wǎng)操作系統(tǒng)在設(shè)計(jì)之初就旨在解決東數(shù)西算將面臨的挑戰(zhàn)和資源就近地接入到主板上面;2)需要有一個(gè)“新型桌面”為用戶提跨集群的情況需要分配相應(yīng)的路由器隊(duì)列/光通道等廣域網(wǎng)資源,以一抽象,并進(jìn)行“計(jì)算+網(wǎng)絡(luò)”的協(xié)同調(diào)度,同要用戶提前在有意向的公有云或其他資源供應(yīng)方分別進(jìn)行賬號(hào)與權(quán)雖然它們能夠通過(guò)容器/擴(kuò)縮容的形式將應(yīng)用自動(dòng)地跑在物理機(jī)或者系統(tǒng)可以根據(jù)應(yīng)用在測(cè)試環(huán)境中的運(yùn)行效果來(lái)判斷其在實(shí)際部署運(yùn)傳統(tǒng)只能在終端側(cè)實(shí)現(xiàn)的實(shí)時(shí)處理能力與云端的并發(fā)處理能力相結(jié)充分鼓勵(lì)區(qū)域和地方間的點(diǎn)對(duì)點(diǎn)或者多方合作,允許各大算力集群、A100GPU約71296片。天氣預(yù)報(bào)、氣候模擬、基因組學(xué)研究、藥物研發(fā)等科學(xué)計(jì)算領(lǐng)域需要進(jìn)行復(fù)雜的數(shù)值模擬和大規(guī)模數(shù)據(jù)處理,《Nature》一篇研究化合物篩選的文章表明1慧園區(qū)場(chǎng)景要求跨域協(xié)作來(lái)實(shí)現(xiàn)跨多個(gè)地理位置的設(shè)備互聯(lián)和數(shù)據(jù)用戶進(jìn)行超低延遲的實(shí)時(shí)交互,多種感官信號(hào)需要高精度同步傳輸。更快的并行計(jì)算,但并不擅長(zhǎng)邏輯控制,CPU和GPU如何高效協(xié)作力集群內(nèi)部也可能發(fā)生在核心云和邊緣云的算力集群之間并對(duì)網(wǎng)絡(luò)脹以及高端算力芯片的零散分布,分布式訓(xùn)練有必要從“多機(jī)多卡”任務(wù)/模型部署、任務(wù)/模型間通信的結(jié)構(gòu)顯得更加固定。以數(shù)據(jù)并行超算業(yè)務(wù)場(chǎng)通常依賴于專用的超級(jí)計(jì)算或高性能計(jì)算進(jìn)群來(lái)處計(jì)算進(jìn)行數(shù)據(jù)文件和任務(wù)程序的切割并調(diào)度到空閑集群上實(shí)現(xiàn)協(xié)同式因而更加固定,相比于智算業(yè)務(wù)(以數(shù)據(jù)并行為例超算業(yè)務(wù)的行,任務(wù)程序間需要通過(guò)專用的集合通信來(lái)實(shí)現(xiàn)高性能的并方之間的橋梁,平臺(tái)自身并不以任何形式直接提供算力與網(wǎng)絡(luò)資源。術(shù)上能夠?qū)崿F(xiàn)責(zé)任判定是算網(wǎng)調(diào)度中心在該模式下面臨的一個(gè)挑某種形式的入口,因此在平臺(tái)的渠道壟斷也受到了一定程度的制約。建議:1)制定“邏輯并網(wǎng)”標(biāo)準(zhǔn),減輕算網(wǎng)平臺(tái)與算力集群間“一集群一議”的API對(duì)接負(fù)擔(dān);2)加強(qiáng)推動(dòng)“物理并網(wǎng)”進(jìn)在此進(jìn)行單點(diǎn)的賬號(hào)登錄即可由入口在后臺(tái)自動(dòng)打通用戶在多區(qū)域、建議:1)制定用戶身份認(rèn)證與授權(quán)標(biāo)準(zhǔn),以實(shí)現(xiàn)跨算力集群間的業(yè)務(wù)互操作能力;2)加強(qiáng)對(duì)于算網(wǎng)平臺(tái)的政策宣貫與市場(chǎng)引導(dǎo),建議:1)探索匯聚多主體的算力聯(lián)盟生態(tài),打通算網(wǎng)平臺(tái)生態(tài)的商業(yè)閉環(huán);2)加強(qiáng)對(duì)于數(shù)字人民幣、開(kāi)放許可鏈等技術(shù)路線在算力交易中的試驗(yàn)示范,實(shí)現(xiàn)算力交易從“下單、計(jì)費(fèi)、分賬、付費(fèi)”識(shí)、權(quán)限、性能等方面的設(shè)計(jì)中都隱式地植入了這種假設(shè),而在其TCP/IP的設(shè)計(jì)中則顯式地區(qū)分了本地與網(wǎng)絡(luò),這些都與分布式操作圖7-2從“存算耦合”到“存算分離”應(yīng)用/任務(wù)間通信的時(shí)延不必準(zhǔn)時(shí)但需要及時(shí),帶寬則需要隨應(yīng)用彈上述光電融合的廣域網(wǎng)將傳統(tǒng)路由器和光的松散結(jié)合變?yōu)榫o密等不同的算力芯片均有不同的使用接口,應(yīng)用程序編碼時(shí)需按特異構(gòu)算力驅(qū)動(dòng)的目標(biāo)是解決不同算力芯片使用接口的多樣性和(1)制定算力驅(qū)動(dòng)程序的接口標(biāo)準(zhǔn)。制定一套統(tǒng)一程序編譯成中間指令集或WASM,并由驅(qū)動(dòng)程序?qū)⑵浞g成特定硬 傳統(tǒng)的通用編譯器無(wú)法適應(yīng)異構(gòu)算力并生成高效的跨平臺(tái)代碼。(1)靜態(tài)推斷式優(yōu)化。通過(guò)對(duì)源代碼進(jìn)行靜態(tài)分析,識(shí)別潛在 \\\ApplicationprogrammInformationandCommun\UserNetworkInterfaceNNINetworktoNetworkInterfaceBroadcastMultipleAcNBMANon-BroadcastMultipleAccessMultiprotocolLabelSwitPeertoPeerParameterServerFloatingPointOperationsHorizontalPodAutoscaIntermediateRepresNaaS[2]GoogleBlog.https://cloudplatfor[3]AWSEC2Post.ann

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論