通信行業(yè)AI超算互聯(lián)網(wǎng)市場(chǎng)分析_第1頁
通信行業(yè)AI超算互聯(lián)網(wǎng)市場(chǎng)分析_第2頁
通信行業(yè)AI超算互聯(lián)網(wǎng)市場(chǎng)分析_第3頁
通信行業(yè)AI超算互聯(lián)網(wǎng)市場(chǎng)分析_第4頁
通信行業(yè)AI超算互聯(lián)網(wǎng)市場(chǎng)分析_第5頁
已閱讀5頁,還剩34頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

通信行業(yè)AI超算互聯(lián)網(wǎng)市場(chǎng)分析1.AI超算互聯(lián)網(wǎng)——算力的后周期市場(chǎng)當(dāng)下,隨著大模型訓(xùn)練的興起,全球顯卡與算力正在進(jìn)入一段時(shí)間的快速膨脹期,國內(nèi)外均欲打造AI超算互聯(lián)網(wǎng)。與此同時(shí),算力后周期市場(chǎng)也正在快速興起?!昂笾芷凇敝械暮?,與傳統(tǒng)市場(chǎng)中的行業(yè)末期,行業(yè)后期不同,“后”指的更多的是后服務(wù)市場(chǎng),我們認(rèn)為的后服務(wù),包括了顯卡服務(wù)器到貨IDC后,從形成穩(wěn)定算力到輸出穩(wěn)定的商業(yè)推理結(jié)果的全過程。其中主要的環(huán)節(jié)包括了云化、調(diào)優(yōu)、調(diào)度、部署、落地、數(shù)據(jù)管理等等軟硬結(jié)合的數(shù)個(gè)環(huán)節(jié),參與其中的既包括全球一線大廠,也包括許多海外優(yōu)秀的創(chuàng)業(yè)公司。算力的后周期的市場(chǎng)需求迸發(fā),我們認(rèn)為核心原因在于大模型訓(xùn)練的難、大模型商用的貴以及大模型安全的憂。大模型訓(xùn)練的難在于,超大規(guī)模的參數(shù)和運(yùn)算量遠(yuǎn)超單張或者單服務(wù)器顯卡的容量,各個(gè)顯卡之間如何實(shí)現(xiàn)數(shù)據(jù)并行與運(yùn)算合作,是整個(gè)業(yè)界面臨的首要問題,為此,誕生出了云化、調(diào)優(yōu)、調(diào)度等后周期需求。大模型商用的貴體現(xiàn)在參數(shù)、效果、費(fèi)用三者的矛盾之上,參數(shù)越多的模型,其對(duì)于實(shí)際問題的準(zhǔn)確度越高,但其反應(yīng)時(shí)間和消耗費(fèi)用也越高,同時(shí),如何將新迭代的模型快速部署至應(yīng)用場(chǎng)景,也是開發(fā)者需要面臨的問題。大模型安全的憂則更多的體現(xiàn)在數(shù)據(jù)層面,如何實(shí)現(xiàn)安全情況下,企業(yè)原有數(shù)據(jù)庫與訓(xùn)練系統(tǒng)的相互調(diào)用,如何實(shí)現(xiàn)原有數(shù)據(jù)對(duì)于“AI”訓(xùn)練的可用等等??v觀全球算力后周期的發(fā)展態(tài)勢(shì),我們認(rèn)為正在形成兩個(gè)迥然不同的生態(tài),首先,在涉及算力使用和大模型訓(xùn)練的等上層建筑時(shí),整個(gè)行業(yè)對(duì)于資本支出、模型經(jīng)驗(yàn)積累等等方面的壁壘正在逐漸加深,正如黃仁勛在發(fā)布會(huì)上經(jīng)常提到的“buymoresavemore”,大模型時(shí)代,天量資本支出已經(jīng)成為這一領(lǐng)域的入場(chǎng)券,模型研究從“巧奪天工”到“重劍無鋒”的轉(zhuǎn)變,使得大算力,大模型的壁壘不斷提高,行業(yè)格局加速走向巨頭通吃。但在涉及到商業(yè)落地,數(shù)據(jù)安全,平臺(tái)可視化等等模型偏下游環(huán)節(jié)時(shí),我們反而從北美的創(chuàng)業(yè)公司上看到了百花齊放的生態(tài),在訓(xùn)練過程與資源可視化,數(shù)據(jù)庫調(diào)用,模型加速部署與性價(jià)比調(diào)節(jié)等方面,都涌現(xiàn)出了一批優(yōu)秀的創(chuàng)業(yè)公司與解決方案,同時(shí)原有領(lǐng)域內(nèi)的龍頭軟件公司也在積極開發(fā)方案,對(duì)接AI需求。與大模型和算力戰(zhàn)爭(zhēng)中的巨頭壟斷局面相比,這里的各個(gè)環(huán)節(jié)更加富有生機(jī),也更容易在細(xì)分環(huán)節(jié)中成長出新的優(yōu)秀獨(dú)角獸公司。最后,復(fù)盤海外前沿,展望國內(nèi)發(fā)展,我們認(rèn)為隨著國內(nèi)算力資源起量與模型訓(xùn)練深入,對(duì)于算力和模型層面的投資將會(huì)再度聚焦,聚焦大廠,聚焦通信能力。同時(shí)國內(nèi)相關(guān)軟件市場(chǎng)仍處于萌芽階段,對(duì)標(biāo)海外優(yōu)秀創(chuàng)業(yè)產(chǎn)品,提早滿足客戶需求,將給國內(nèi)軟件和創(chuàng)業(yè)公司帶來新一輪機(jī)會(huì)。同時(shí),國內(nèi)由于海外算力制裁等影響,國內(nèi)如昇騰等國產(chǎn)優(yōu)秀生態(tài)發(fā)展和起量過程中,可能也會(huì)涌現(xiàn)出一批優(yōu)秀的行業(yè)加速庫、生態(tài)軟件公司,基于此再擴(kuò)展出中國特色的相關(guān)模型服務(wù)體系,有望走出一條有中國特色的模型服務(wù)體系之路。2.云化/調(diào)優(yōu)/調(diào)度——巨頭戰(zhàn)場(chǎng),技術(shù)為骨,通信為魂2.1算力云化:算力租賃勢(shì)起,被AI重定義的云計(jì)算2.1.1AGI時(shí)代到來,GPU算力需求爆發(fā),云計(jì)算面臨新挑戰(zhàn)云計(jì)算是科技行業(yè)過去十年發(fā)展最為迅速的領(lǐng)域之一,伴隨的是全球數(shù)字化程度的持續(xù)提升?;ヂ?lián)網(wǎng)的高速發(fā)展,眾多中小型及初創(chuàng)公司數(shù)字化需求爆發(fā),通過自購ICT基礎(chǔ)設(shè)施的形式支出巨且運(yùn)維難度高,不適合具有靈活需求高速發(fā)展的長尾客戶。而通過云計(jì)算,使用者可以隨時(shí)獲取云上資源,按需使用按需付費(fèi),可無限擴(kuò)展。云計(jì)算將計(jì)算資源池化,通過軟件實(shí)現(xiàn)自動(dòng)化管理,讓資源高效輸出,并發(fā)展出IAAS、PAAS、SAAS以及其他眾多形式,極大的促進(jìn)了互聯(lián)網(wǎng)發(fā)展和全球數(shù)字化進(jìn)程。生成式AI興起,算力需求從CPU向GPU躍遷。隨著openai旗下chatgpt的涌現(xiàn),在全球范圍內(nèi)引爆了生成式AI的發(fā)展浪潮,作為下一代最重要的技術(shù)方向,企業(yè)人工智能發(fā)展需求正在爆發(fā),擁有能夠支持開發(fā)人員創(chuàng)建新一波人工智能應(yīng)用程序需求的基礎(chǔ)設(shè)施至關(guān)重要。許多企業(yè)正在轉(zhuǎn)向云計(jì)算,但與主流企業(yè)工作負(fù)載不同,人工智能提出了傳統(tǒng)云基礎(chǔ)設(shè)施無法充分支持的新需求。從CPU到GPU再到GPU集群,企業(yè)發(fā)現(xiàn)自己正在采用越來越復(fù)雜的基礎(chǔ)設(shè)施來滿足其人工智能模型訓(xùn)練的需求。大模型持續(xù)發(fā)展,高速互聯(lián)高性能GPU集群是門檻。以openai為例,其gpt3具有1750億個(gè)參數(shù),是上一代版本的117倍,模型的持續(xù)發(fā)展迭代需要前所未有的規(guī)模,而對(duì)于大模型訓(xùn)練而言,多GPU互聯(lián)基礎(chǔ)設(shè)施是門檻,不僅僅是gpu,更重要的是gpu之間的高速互聯(lián),是gpu與交換機(jī)、光模塊等基礎(chǔ)設(shè)施共同互聯(lián)后的集群,其資本開支和技術(shù)難度相較于以cpu和存儲(chǔ)服務(wù)器為主的傳統(tǒng)基礎(chǔ)設(shè)施,有明顯的提升,這也進(jìn)一步抬高了大模型的門檻。大模型訓(xùn)練需要數(shù)千片甚至上萬片GPU集群連續(xù)訓(xùn)練數(shù)月時(shí)間,海量計(jì)算的同時(shí)還有海量數(shù)據(jù)交換需求,與傳統(tǒng)cpu和存儲(chǔ)集群比較,內(nèi)部通信互聯(lián)要求提高十分明顯。在傳統(tǒng)云計(jì)算時(shí)代,只有超大型數(shù)據(jù)中心核心節(jié)點(diǎn)才會(huì)用到高速光模塊和高端交換機(jī),如400G和對(duì)應(yīng)光模塊,而在超算集群中,以H100集群為例,其中第一層便使用400G光模塊,向上則使用800G光模塊和對(duì)應(yīng)交換機(jī),網(wǎng)絡(luò)互聯(lián)要求提升十分明顯。AI云計(jì)算對(duì)應(yīng)能力要求全面提升。云服務(wù)能力對(duì)于致力于布局AGI的企業(yè)而言,傳統(tǒng)的云基礎(chǔ)設(shè)施即服務(wù)產(chǎn)品并沒有針對(duì)企業(yè)規(guī)模的人工智能進(jìn)行優(yōu)化,隨著基礎(chǔ)設(shè)施的日益復(fù)雜,宕機(jī)的風(fēng)險(xiǎn)也越來越大,需要花費(fèi)越來越多的精力和資源在維持運(yùn)行上,開發(fā)企業(yè)人工智能不僅需要基礎(chǔ)設(shè)施服務(wù),更需要的是全棧能力,人工智能企業(yè)需要將所有這些功能集成到他們的平臺(tái)中,從而避免與基礎(chǔ)設(shè)施的作斗爭(zhēng):1、用于開發(fā)和部署特定于領(lǐng)域的端到端人工智能工作流的框架和工具——從數(shù)據(jù)準(zhǔn)備和訓(xùn)練到推理和部署。2、一個(gè)以開發(fā)人員為中心的平臺(tái),用于管理從最簡(jiǎn)單的計(jì)算機(jī)視覺應(yīng)用程序到最復(fù)雜的大型語言模型的一切。3、智能編排層和調(diào)度程序,為每個(gè)作業(yè)提供適當(dāng)大小的資源,動(dòng)態(tài)高效地回收和重新分配資源。4、自動(dòng)化的基礎(chǔ)設(shè)施管理,最大限度地提高了平臺(tái)的性能和正常運(yùn)行時(shí)間,使每項(xiàng)工作都可以無憂地執(zhí)行。5、超高帶寬、低延遲的網(wǎng)絡(luò)集群,專門用于多節(jié)點(diǎn)訓(xùn)練,可以在許多加速計(jì)算節(jié)點(diǎn)上并行處理大型人工智能模型。2.1.2DGXCloud發(fā)布,云算力進(jìn)入GPU新時(shí)代2023年3月21日,英偉達(dá)正式發(fā)布了DGXCloud,這款多節(jié)點(diǎn)AI訓(xùn)練即服務(wù)解決方案,針對(duì)企業(yè)AI的獨(dú)特需求進(jìn)行了優(yōu)化。英偉達(dá)表示,DGXCloud將改變傳統(tǒng)的計(jì)算框架,為現(xiàn)代深度學(xué)習(xí)提供理想的環(huán)境。英偉達(dá)一直處于AI技術(shù)的前沿,其DGXCloud將人工智能和云計(jì)算結(jié)合,旨在為企業(yè)提供最先進(jìn)的AI訓(xùn)練服務(wù)。該平臺(tái)基于NVIDIADGXSuperPOD架構(gòu),可進(jìn)行分布式訓(xùn)練,其速度是不支持NVIDIA網(wǎng)絡(luò)的服務(wù)的兩倍以上。DGXCloud由BaseCommand平臺(tái)提供支持,BaseCommand是一個(gè)全面的AI工作流管理SaaS,涵蓋云和內(nèi)部資源,這個(gè)平臺(tái)可以幫助AI開發(fā)人員更有效地構(gòu)建、部署和管理AI應(yīng)用。通過將BaseCommand與DGXCloud相結(jié)合,企業(yè)可以更靈活地滿足其獨(dú)特的AI需求。對(duì)于希望構(gòu)建自定義生成式AI模型的企業(yè)來說,DGXCloud提供了完整的AI開發(fā)環(huán)境,包括訓(xùn)練、優(yōu)化和部署等環(huán)節(jié),降低了AI開發(fā)的門檻,同時(shí)也極大地提高了開發(fā)效率。英偉達(dá)DGXCloud為現(xiàn)代AI開發(fā)樹立了新的標(biāo)桿。DGXCloud是世界上第一個(gè)專門用于開發(fā)生成式人工智能的人工智能平,英偉達(dá)推出DGXCloud專門針對(duì)了傳統(tǒng)laaS產(chǎn)品在AI時(shí)代面臨的困境,根據(jù)英偉達(dá)官網(wǎng)表述,DGXCloud的使用效率是傳統(tǒng)基礎(chǔ)設(shè)施的三倍,其集成了NVIDIA基礎(chǔ)命令平臺(tái),簡(jiǎn)化了人工智能開發(fā)。BaseCommandPlatform有效地配置和管理人工智能工作負(fù)載,提供集成的數(shù)據(jù)集管理,并在從單個(gè)GPU到大規(guī)模多節(jié)點(diǎn)集群的適當(dāng)大小的資源上執(zhí)行它們。DGXCloud還包括NVIDIAAIEnterprise,它提供加速的數(shù)據(jù)科學(xué)庫、優(yōu)化的框架和預(yù)訓(xùn)練的模型,使開發(fā)人員能夠更快地獲得生產(chǎn)就緒的模型。DGXCloud全面領(lǐng)先傳統(tǒng)IaaS。DGXCloud基于領(lǐng)先的NVIDIADGX技術(shù),這是一個(gè)加速每個(gè)行業(yè)創(chuàng)新的解決方案。借助DGXCloud,企業(yè)可以專注于人工智能創(chuàng)新,而不用糾結(jié)于基礎(chǔ)設(shè)施,企業(yè)可獲得到可靠、快速的資源分配、完全優(yōu)化的執(zhí)行工作負(fù)載以及更少的時(shí)間精力,從而降低總體擁有成本。根據(jù)英偉達(dá)官網(wǎng)給出的比較,DGXCloud相比較傳統(tǒng)IssS服務(wù),有著2-3倍的訓(xùn)練速度,通過算力調(diào)優(yōu)有三倍的GPU利用率。以GPT-3為例,其具有400億個(gè)參數(shù)和3000億個(gè)token,訓(xùn)練GPT-3大約需要160塊NVIDIAA100gpu訓(xùn)練約一個(gè)月。從比較上來看,選擇DGXCloud的企業(yè)訓(xùn)練速度將是傳統(tǒng)IaaS的2-3倍,僅需約一個(gè)月的時(shí)間僅可完成模型訓(xùn)練,若升級(jí)采用DGXCloudH100則僅需20天,而傳統(tǒng)IaaS則需要超過3個(gè)月時(shí)間。DGXCloud能夠幫助企業(yè)快速迭代模型,降低成本的同時(shí)搶占先機(jī)。英偉達(dá)DGXCloud發(fā)布后,標(biāo)志著英偉達(dá)正式入局AI云計(jì)算,考慮到英偉達(dá)GPU在AI領(lǐng)域的一家獨(dú)大,云計(jì)算行業(yè)正在進(jìn)入新的時(shí)代。與此同時(shí),甲骨文通過與英偉達(dá)深度綁定,正在越來越多的拿下AI領(lǐng)域的客戶,而亞馬遜aws、微軟azure、谷歌云為代表的頭部公有云也正在加速布局AI領(lǐng)域,英偉達(dá)憑借自身優(yōu)勢(shì)在AI云計(jì)算領(lǐng)域領(lǐng)先眾對(duì)手,云計(jì)算格局正在發(fā)生變化。而國內(nèi),算力租賃也在高速發(fā)展,擁有算力資源的公司和具備算力運(yùn)營能力的企業(yè)正在逐漸體現(xiàn)出相應(yīng)優(yōu)勢(shì),伴隨國內(nèi)AI產(chǎn)業(yè)的高速發(fā)展,算力租賃行業(yè)也進(jìn)入高速發(fā)展階段。2.1.3GPUVS比特幣礦機(jī)——爆發(fā)的需求、緊缺的供給和極短的回款周期算力行業(yè)正處于茁壯成長期,眾多企業(yè)“各顯神通”參與其中。我們認(rèn)為,算力租賃生態(tài)鏈還遠(yuǎn)未到格局固化的階段,可以積極關(guān)注新進(jìn)入者。利通電子:算力租賃新“玩家”。公司此前披露已訂購255臺(tái)GPU服務(wù)器,近期公司表示,DGX服務(wù)器已批量到貨,預(yù)計(jì)10月全部完成交付。中科金財(cái):算力租賃+AI應(yīng)用雙布局。公司9月公告擬2億元投資設(shè)立全資子公司,主營算力租賃、AI應(yīng)用生態(tài)服務(wù)等AGI業(yè)務(wù)。東方材料:算力調(diào)度平臺(tái)匯聚全國分布式算力群。子公司東方超算的“銀河”算力調(diào)度平臺(tái)聯(lián)合13家IDC打造全國一體化算力集群,現(xiàn)已提供基于英偉達(dá)A100、A800、H800、華為910B等GPU算力服務(wù),面向全國政企用戶提供現(xiàn)貨算力資源服務(wù)。2.1.4現(xiàn)狀:GPU禁令,國產(chǎn)算力進(jìn)程加速,合理分配利用資源重要性突顯高端人工智能芯片被禁售。根據(jù)英偉達(dá)2023年10月23日提交給SEC的8-K文件,美國政府通知英偉達(dá),題為“實(shí)施附加出口管制:某些先進(jìn)計(jì)算項(xiàng)目;超級(jí)計(jì)算機(jī)和半導(dǎo)體最終用途;更新和更正”,適用于“總處理性能”為4800或更高并為數(shù)據(jù)中心設(shè)計(jì)或銷售的產(chǎn)品,立即生效。本次影響的公司產(chǎn)品有:A100、A800、H100、H800和L40S。這些產(chǎn)品在10月17日被要求將于30天后限制出售。美國實(shí)體清單更新,無理加強(qiáng)對(duì)我國先進(jìn)芯片限制。BIS將13家實(shí)體添加單實(shí)體清單中,其中包括壁仞高科技和摩爾線程兩家涉及先進(jìn)計(jì)算芯片開發(fā)的中國實(shí)體及其子公司,這些實(shí)體還將受到使用美國技術(shù)生產(chǎn)的海外產(chǎn)品的限制。代工廠為這些列出的各方生產(chǎn)芯片將需要BIS許可證,然后代工廠才能將此類芯片發(fā)送給這些實(shí)體或代表這些實(shí)體行事的各方。被新列入實(shí)體清單的13家實(shí)體包括壁仞科技及其子公司、摩爾線程及其子公司、光線云(杭州)科技有限公司、超燃半導(dǎo)體(南京)有限公司,實(shí)體清單新規(guī)的生效日期為2023年10月17日。算力國產(chǎn)進(jìn)程提速。國內(nèi)人工產(chǎn)業(yè)發(fā)展如火如荼,但隨著高端算力芯片禁令的立即生效,包括英偉達(dá)、AMD、intel在內(nèi)的眾多AI芯片均將無法購買,算力作為最核心的基本戰(zhàn)備物資,其國產(chǎn)進(jìn)程必然將加速。目前來看華為、寒武紀(jì)、海光、壁仞、摩爾線程等均國產(chǎn)算力芯片商業(yè)化和生態(tài)建設(shè)有望加速,此前科大訊飛曾表示已與華為昇騰啟動(dòng)專項(xiàng)攻關(guān),合力打造通用人工智能新底座,當(dāng)前華為昇騰910B能力已經(jīng)基本做到可對(duì)標(biāo)英偉達(dá)A100。目前云計(jì)算形式獲取被限AI算力仍被允許。盡管市場(chǎng)擔(dān)心美國有可能禁止我國通過企業(yè)訪問AWS、Azure、谷歌云等在內(nèi)的公有云獲取AI算力資源,但截止到本報(bào)告發(fā)出日期為止,尚未有正式文件發(fā)布,AWS、Azure等云計(jì)算仍對(duì)中國地區(qū)開放如nvdaA100gpu等產(chǎn)品的云服務(wù)購買權(quán)限,用戶可通過其部署在全球各地的云計(jì)算資源來選擇需要的云服務(wù)滿足自身需求?,F(xiàn)貨AI服務(wù)器持續(xù)漲價(jià),合理分配利用資源重要性突顯。禁令落地生效后,AI服務(wù)器短期確定性漲價(jià),渠道及第三方、個(gè)人等屯貨的AI服務(wù)器產(chǎn)品數(shù)量不容小覷。在被禁大背景下,如何利用好這些零散分布在各種渠道的現(xiàn)貨AI服務(wù)器成為一個(gè)現(xiàn)實(shí)問題,若能統(tǒng)籌規(guī)劃,則將大大緩解產(chǎn)業(yè)算力困境。此外消費(fèi)級(jí)顯卡如rtx4090也有著不錯(cuò)性能,若能將長尾消費(fèi)級(jí)顯卡利用在如推理測(cè)等要求較低的場(chǎng)景,也能緩解部分算力需求。2.1.5跨區(qū)域、跨集群、跨架構(gòu)的算力調(diào)度調(diào)優(yōu)能力日益重要在大規(guī)模訓(xùn)練上,和傳統(tǒng)云計(jì)算比較,需要考慮的問題更加復(fù)雜。首先,面對(duì)單卡無法裝載的大模型,如何利用多卡來突破內(nèi)存限制的瓶頸是個(gè)問題。其次,大規(guī)模訓(xùn)練會(huì)用到大量的計(jì)算資源,大量計(jì)算資源間如何通信、協(xié)作是另一個(gè)難題。最后,如何平衡各類層出不窮的大規(guī)模訓(xùn)練技術(shù),使得眾多技術(shù)形成一個(gè)完整高效的訓(xùn)練方案,更是系統(tǒng)性工程。我們將大規(guī)模訓(xùn)練技術(shù)面臨的挑戰(zhàn)分為四個(gè)部分:內(nèi)存、通訊、計(jì)算和調(diào)優(yōu)。內(nèi)存墻(GPUMemoryWall):在計(jì)算過程中,神經(jīng)網(wǎng)絡(luò)模型每一層的卷積或者全連接計(jì)算,都會(huì)把權(quán)重W_m長期保存下來,用作網(wǎng)絡(luò)的權(quán)重參數(shù)更新(靜態(tài)內(nèi)存)。另外針對(duì)諸如ADAM的優(yōu)化器,會(huì)存儲(chǔ)優(yōu)化器的動(dòng)量等信息,用于優(yōu)化器計(jì)算(動(dòng)態(tài)內(nèi)存)。一塊有16G顯存的AI芯片,最大能塞滿20+億參數(shù)的模型,但是這時(shí)候已經(jīng)沒有額外空間,留給動(dòng)態(tài)內(nèi)存進(jìn)行分配了。靜態(tài)內(nèi)存和動(dòng)態(tài)內(nèi)存都可能造成內(nèi)存墻的問題。通訊墻:大模型通過模型并行、流水線并行切分到AI集群后,通訊便成了主要的性能瓶頸。隨著機(jī)器規(guī)模的擴(kuò)大,基于同步的AllReduce通訊聚合方式,會(huì)因?yàn)榇罅康腁I芯片和服務(wù)器之間頻繁進(jìn)行同步,出現(xiàn)水桶效應(yīng),也就是最慢的一路通訊,將會(huì)決定整個(gè)AI集群的通訊的高度。如果采用目前比較流行的Ring-AllReduce的通信聚合方式,當(dāng)通訊的環(huán)越大,通訊的延長將會(huì)不斷地被擴(kuò)大。另外網(wǎng)絡(luò)協(xié)議的多次握手的方式,諸如此類的開銷會(huì)導(dǎo)致訓(xùn)練無法有效利用帶寬。性能墻:性能墻呢主要是指計(jì)算資源利用率的問題。隨著大模型的提出,對(duì)算力需求更加迫切,理論上在4K的集群上每塊卡快1分鐘,總體就快了68個(gè)小時(shí)。大模型會(huì)增加對(duì)算力的需求,但是隨著大模型引入各項(xiàng)分布式并行技術(shù)的同時(shí),會(huì)降低計(jì)算資源的利用率。調(diào)優(yōu)墻:所以在數(shù)千節(jié)點(diǎn)的集群上,需要考慮到提升算法工程師分布式調(diào)試調(diào)優(yōu)的效率,另外還要考慮降低工程師對(duì)大模型進(jìn)行并行切分的難度。除了對(duì)人的考慮,還要對(duì)硬件集群的管理,需要保證計(jì)算的正確性、性能、可用性。要是有一臺(tái)機(jī)器壞了,如何快速恢復(fù)訓(xùn)練中的參數(shù)??偨Y(jié)來看,現(xiàn)階段大模型訓(xùn)練上,最核心的兩個(gè)要素分別是數(shù)據(jù)和算力,過去AI的發(fā)展方向聚焦在用少量的數(shù)據(jù)和參數(shù)做出模型,而隨著openAI現(xiàn)象級(jí)產(chǎn)品爆發(fā)后,人們發(fā)現(xiàn)用海量的數(shù)據(jù)和算力訓(xùn)練出來的模型能力有了質(zhì)的飛躍,當(dāng)前大模型還處在早期階段,現(xiàn)階段模型參數(shù)和算力需求依舊有這極大的提升空間,因此我們判斷,在很長一段時(shí)間,不斷地提高參數(shù)量和提升算力集群規(guī)模,是大模型發(fā)展的主要思路,通過“大力出奇跡”的形式反而更容易訓(xùn)練出高質(zhì)量大模型。我們以百度為例,為了支撐超大規(guī)模的這張AIPod網(wǎng)絡(luò),百度選擇了3層無收斂的CLOS組網(wǎng)結(jié)構(gòu)。服務(wù)器在最下面,連接到Leaf層交換機(jī),也就是圖里的LF,然后Leaf交換再通過Spine交換機(jī)連接起來,就是圖里的SP。最后Spine交換機(jī)再通過SuperSpine,也就是SSP互聯(lián)起來。根據(jù)百度的數(shù)據(jù),平均單GPU的Allreduce帶寬有5GB/s的時(shí)候,大規(guī)模分布式的整體加速比只有70%。想要獲得90%的加速比,單GPU的AllReduce帶寬則需要做到20GB/s,相當(dāng)于單GPU跑滿400G網(wǎng)卡。百度AIPod網(wǎng)絡(luò)采用了8通道的架構(gòu)。每個(gè)服務(wù)器上的8個(gè)網(wǎng)口,對(duì)應(yīng)8個(gè)GPU,分別連接8個(gè)不同的Leaf交換機(jī)。這8個(gè)Leaf交換機(jī)一組,構(gòu)成了一個(gè)匯聚組Group。這樣的一個(gè)匯聚組下最大可以有512張GPU。進(jìn)一步,8個(gè)Leaf交換機(jī)再往上連入不同的8個(gè)通道,每個(gè)通道內(nèi)Spine交換機(jī)和Leaf交換機(jī)之間做fullmesh全互聯(lián)。這樣的一個(gè)集群最大可以支持超過16KGPU。雖然主要的通信發(fā)生在同一個(gè)通道內(nèi),但總還是會(huì)存在跨通道的通信。百度通過SuperSpine把不同的通道的Spine交換機(jī)連接起來,打通各個(gè)通道。這就是AIPod的組網(wǎng)方式。AIPod的網(wǎng)絡(luò)采用了無收斂,或者說收斂比為1:1的方案,交換機(jī)的上聯(lián)帶寬等于下聯(lián)帶寬,確保集群內(nèi)互通帶寬充足。為了盡可能支撐更大的規(guī)模,百度在選擇交換機(jī)的時(shí)候,會(huì)選用當(dāng)前頂級(jí)容量的交換芯片,比如曾經(jīng)的12.8T或者25.6T芯片,現(xiàn)在已經(jīng)演進(jìn)到了單芯片51.2T的交換機(jī)。AI算力全球龍頭英偉達(dá)的通信之路。英偉達(dá)作為全球GPU領(lǐng)軍企業(yè),早在十年前就開始布局AI領(lǐng)域,對(duì)AI發(fā)展有著深刻思考和理解。我們回顧英偉達(dá)超算方案,從DGXA100到DGXH100,再到最新的DGXGH200,我們可以清楚的看到,除了GPU芯片計(jì)算能力的提升以外,通信能力的大幅度持續(xù)增長,是另一個(gè)最明顯的變化。在AI領(lǐng)域,通信的作用不亞于計(jì)算,通信能力的不足或確實(shí)將直接限制GPU芯片計(jì)算能力的發(fā)揮,英偉達(dá)早在2019年收購網(wǎng)絡(luò)交換公司Mellanox,加碼布局?jǐn)?shù)據(jù)中心網(wǎng)絡(luò)交換領(lǐng)域,充分體現(xiàn)英偉達(dá)的超前眼光和對(duì)于通信的重視。我們以GH200為例,NVlink雙向?qū)拵?00GB/s,單向?qū)拵?50GB/s,8張卡即3.6Tbps,總帶寬28.8Tbps,分?jǐn)偟饺齻€(gè)NVlinkSwitch,單個(gè)NVlinkSwitch的上下行帶寬為9.6Tbps,對(duì)應(yīng)800G光模塊為9.6T/800g*2=24只,一臺(tái)服務(wù)器共有72只800G光模塊,GPU與800G光模塊比例為1:9。而此前DGXH100架構(gòu)GPU與800G光模塊比例約為1:3,DGXA100則主要以400G光模塊為主。從英偉達(dá)產(chǎn)品的迭代來看,我們也清晰的看到算力龍頭在通信上的持續(xù)發(fā)力,通信匹配計(jì)算能力的提升將會(huì)一直演繹。打破通信墻,是目前高效發(fā)揮算力集群能力的無二之選。集群中顯卡數(shù)量的增長,對(duì)應(yīng)算力若不能匹配線性提升,則無法發(fā)揮出高價(jià)買入的GPU能力。當(dāng)前,最佳的發(fā)揮集群中GPU能力的方式,便是打破通信強(qiáng),通過更高速率的互聯(lián),允許萬卡規(guī)模集群中跨GPU之間的數(shù)據(jù)交換,保證數(shù)據(jù)交換不出現(xiàn)阻塞,可以說,通信能力的提高,是當(dāng)前最高效的“調(diào)優(yōu)”方式,再出色的調(diào)度和調(diào)優(yōu),也比不上廣泛使用高性能交換機(jī)和高端高速率光模塊修建的集群內(nèi)部“高速公路”。次外,目前跨架構(gòu)、跨集群的算力調(diào)度也是現(xiàn)實(shí)問題,英偉達(dá)不同代際產(chǎn)品之間并不能混合組網(wǎng),而不同數(shù)據(jù)中心之間的算力調(diào)度難度也不小。東數(shù)西算等跨區(qū)域算力調(diào)度需求也正在增長。具體到模型訓(xùn)練層面,調(diào)優(yōu)也是一個(gè)重要方面。2.1.6從比特幣算力演變看AI算力發(fā)展1)根源:都有增長的內(nèi)驅(qū)力在過去的十年中,抖音、小紅書等平臺(tái)大幅降低了內(nèi)容創(chuàng)作、分享的壁壘,UGC模式的內(nèi)容豐富程度和規(guī)模遠(yuǎn)超過往。而當(dāng)前無論是帶貨直播還是內(nèi)容創(chuàng)作,門檻均比之前有所提高,UGC也“卷”了起來。而當(dāng)AIGC來臨時(shí),內(nèi)容競(jìng)爭(zhēng)又將升維,例如數(shù)字虛擬人將實(shí)現(xiàn)包括外形、聲紋、對(duì)話內(nèi)容的模擬,我們看到的很多內(nèi)容將是AI生成,作為個(gè)體需要保證自身的內(nèi)容生產(chǎn)、進(jìn)化速度快于行業(yè)均值,背后的算力投入將首當(dāng)其沖,否則將直接影響賬號(hào)盈利能力。我們認(rèn)為,市場(chǎng)忽略了算力的競(jìng)爭(zhēng)性,考慮商業(yè)因素,算力生意存在分子與分母端。對(duì)比特幣挖礦而言,其分子是個(gè)體的算力,分母是全網(wǎng)算力,個(gè)體礦工能挖得的比特幣數(shù)量取決于其自身算力占全網(wǎng)算力的比例。而對(duì)AIGC而言,其能獲得的用戶注意力的分子是個(gè)體算力驅(qū)動(dòng)下的內(nèi)容生產(chǎn)能力,分母是全網(wǎng)的內(nèi)容膨脹速度。從UGC到AIGC的升維中,誰的內(nèi)容生產(chǎn)力提升更快,誰就能獲得更多商業(yè)利益,因此產(chǎn)業(yè)自驅(qū)之下,市場(chǎng)將追求更高的算力、更優(yōu)的模型算法、更高功耗比的網(wǎng)絡(luò)架構(gòu)以及更便宜的電力。2)需求端:都增長迅猛根據(jù)BitInfoCharts,2023年10月31日比特幣全網(wǎng)日平均算力達(dá)476.73EH/s,相比2009年全網(wǎng)算力5MH/s上下波動(dòng),14年時(shí)間,比特幣算力增長超過89萬億倍。AI這端,在ChatGPT引發(fā)AI浪潮后,國內(nèi)大模型也開始于3、4月份密集發(fā)布,自研AI大模型進(jìn)入“百花齊放”階段,而大模型的涌現(xiàn)開啟了算力“軍備賽”。根據(jù)OpenAI測(cè)算,自2012年至2018年,用于訓(xùn)練AI所需要的算力大約每隔3-4個(gè)月翻倍,總共增長了30萬倍(而摩爾定律在相同時(shí)間只有7倍的增長),每年頭部訓(xùn)練模型所需算力增長幅度高達(dá)10倍,整體呈現(xiàn)指數(shù)級(jí)上漲。舉例來說,AI大模型所需算力與模型參數(shù)及模型訓(xùn)練使用的數(shù)據(jù)量正相關(guān)。2017年以來,AIGC模型的參數(shù)量逐年增加,2021年以來,這一趨勢(shì)呈現(xiàn)出明顯加快的狀態(tài),從ELMo的9400萬個(gè)參數(shù)一路飆升,至2020年年中,GPT-3引領(lǐng)行業(yè)走入千億參數(shù)時(shí)代,參數(shù)達(dá)1750億個(gè),截至2021年年中,英偉達(dá)大語言模型MT-NLG更是超過了5300億。3)業(yè)態(tài):都在從個(gè)體戶走向集中化與云化從2009年1月中本聰使用多核CPU挖出比特幣創(chuàng)世區(qū)塊,到液冷礦機(jī)面市,比特幣礦機(jī)的發(fā)展經(jīng)歷了一個(gè)短暫而迅速的發(fā)展歷程。對(duì)比特幣挖礦而言,個(gè)體礦工能挖得的比特幣數(shù)量取決于其自身算力所占全網(wǎng)算力的比例。隨著全網(wǎng)算力持續(xù)增長,比特幣產(chǎn)出競(jìng)爭(zhēng)逐漸成為芯片性能競(jìng)爭(zhēng),算力競(jìng)爭(zhēng)推動(dòng)礦機(jī)技術(shù)和挖礦模式產(chǎn)生變革。芯片更專業(yè):比特幣挖礦最初用CPU,后來用計(jì)算能力更強(qiáng)的GPU,后來用FPGA,目前用更專業(yè)的ASIC礦機(jī)。集中化與云化:挖礦模式方面,最初的礦工個(gè)人挖礦逐漸被礦場(chǎng)、礦池、云挖礦的方式取代。礦場(chǎng):將大量礦機(jī)在物理上集中起來,共同運(yùn)維管理。礦場(chǎng)負(fù)責(zé)尋找優(yōu)質(zhì)電力資源、通過風(fēng)冷、液冷等方式為礦機(jī)散熱、檢測(cè)有無礦機(jī)宕機(jī)。礦池:突破了地理位置的限制,將分散在全球的礦工及礦場(chǎng)算力聯(lián)結(jié),云端合作“挖礦”。云挖礦:云挖礦服務(wù)提供商在云端向散戶出租算力。與比特幣挖礦相比,AI云算力發(fā)展也經(jīng)歷了類似過程。芯片更專業(yè)、計(jì)算能力更強(qiáng):2012年,多倫多大學(xué)的研究人員AlexKrizhevsky在ImageNet計(jì)算機(jī)視覺挑戰(zhàn)賽中,首次使用GPU驅(qū)動(dòng)的深度學(xué)習(xí)網(wǎng)絡(luò)擊敗其他競(jìng)爭(zhēng)對(duì)手。由此,在深度學(xué)習(xí)算法中使用GPU驅(qū)動(dòng)逐漸變?yōu)橹髁鳎鞔髲S商開始使用GPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。我們統(tǒng)計(jì)了部分英偉達(dá)有代表性的顯卡,發(fā)現(xiàn)2017年以來,2022年3月面世的H100較2017年3月推出的GTX1080ti,在單精度(FP32)上,是后者的12倍(134/11.34),在AIGC常用的雙精度(FP64)算力上,是后者的192倍(68/0.35)。集中化:我們注意到,多個(gè)上市公司涉足AIDC行業(yè),類似于比特幣礦場(chǎng),它們集中管理GPU,負(fù)責(zé)尋找優(yōu)質(zhì)電力、檢測(cè)GPU宕機(jī)情況并維修、調(diào)度算力與散熱等等。云化:面臨暴增的AI算力需求,大模型訓(xùn)練模型使用的算力資源GPU陷入了供應(yīng)短缺,“云算力”模式興起。它能讓AI大模型廠商無需購買英偉達(dá)A100顯卡等硬件,而直接按需租用云算力平臺(tái)算力,這使得初創(chuàng)企業(yè)或非頭部模型廠商也能嘗試進(jìn)入AIGC領(lǐng)域。2.2算力調(diào)優(yōu):大模型時(shí)代,通信即調(diào)優(yōu)2.2.1算力調(diào)優(yōu)是算力發(fā)展的終身課題算力調(diào)優(yōu)概念范疇龐大,囊括軟硬件技術(shù),涵蓋宏微觀場(chǎng)景?!八懔φ{(diào)優(yōu)”概念伴隨AI引發(fā)的算力需求熱潮隨之誕生,本質(zhì)上算力調(diào)優(yōu)是將算力作為一種資源,資源都是有限的,將有限的算力資源進(jìn)行重新配置并達(dá)到帕累托最優(yōu)的過程即可稱之為“算力調(diào)優(yōu)”。算力調(diào)優(yōu)可以區(qū)分為宏觀和微觀兩大場(chǎng)景:微觀層面:微觀層面的算力調(diào)優(yōu)聚焦于模型調(diào)優(yōu)。一方面,大模型訓(xùn)練最直接接觸到算力資源,伴隨深度學(xué)習(xí)模型越來越大,訓(xùn)練模型需要的GPU越來越多,通過算力調(diào)優(yōu),可以減少模型訓(xùn)練時(shí)占據(jù)的顯存,是降本增效的關(guān)鍵步驟;另一方面在大模型的推理領(lǐng)域,將模型放入嵌入式系統(tǒng)的需求相當(dāng)普遍,通過算力調(diào)優(yōu)減少模型推理時(shí)的內(nèi)存也至關(guān)重要。宏觀層面:宏觀層面算力調(diào)優(yōu)包含模型調(diào)優(yōu)、網(wǎng)絡(luò)調(diào)優(yōu)、算力調(diào)度三大層級(jí),除了直接影響算力使用效率的模型調(diào)優(yōu),網(wǎng)絡(luò)調(diào)優(yōu)的重要性也日益提高,在大模型對(duì)大規(guī)模分布式并行訓(xùn)練有更強(qiáng)訴求的背景下,適應(yīng)AI大模型的高性能網(wǎng)絡(luò)至少具備超大規(guī)模、超高帶寬和超長穩(wěn)定三大性能;算力調(diào)度本質(zhì)上是將算力作為資源,進(jìn)行資源分配和優(yōu)化的過程,核心解決了算力資源供需不匹配的問題。算力發(fā)展產(chǎn)生三大邊際變化,推動(dòng)算力調(diào)優(yōu)成為核心議題。算力調(diào)優(yōu)概念的誕生與興起,主要伴隨了算力及網(wǎng)絡(luò)的三大變化,算力需求總量、擴(kuò)散趨勢(shì)和需求特征均在5G、AI等產(chǎn)業(yè)加速發(fā)展的背景下發(fā)生邊際變化:算力需求總量增加:一方面通用算力需求不斷增加,5G推進(jìn)逐步落地,各類應(yīng)用逐漸興起,對(duì)算力需求逐步提升,此外大數(shù)據(jù)、智能汽車、智慧城市、物聯(lián)網(wǎng)等各類新業(yè)態(tài)新平臺(tái)的興起也加大通用算力的需求量;另一方面智能算力需求提升迅速,伴隨AIGC產(chǎn)業(yè)的加速發(fā)展,國內(nèi)大模型訓(xùn)練及推理快速推進(jìn),智算成為大模型落地必不可缺的生產(chǎn)力之一,需求空間龐大,根據(jù)IDC及浪潮預(yù)測(cè),到2026年國內(nèi)通用算力規(guī)模將達(dá)到111.3EFLOPS,智能算力規(guī)模將達(dá)到1271.4EFLOPS。算力需求擴(kuò)散:算力需求期初主要集中在單一設(shè)備上如計(jì)算機(jī)、工業(yè)智能設(shè)備等,伴隨5G和AI時(shí)代的到來,海量數(shù)據(jù)擴(kuò)散到各類設(shè)備上,汽車、公路、城市智慧屏等各類終端都需要數(shù)據(jù)處理能力,算力需求從數(shù)據(jù)中心向網(wǎng)絡(luò)邊緣和終端設(shè)備擴(kuò)散。算力需求多樣化:隨著數(shù)字經(jīng)濟(jì)的崛起,算力需求逐漸走向多元化,如自動(dòng)駕駛對(duì)算力需求集中在高性能、低延遲、實(shí)時(shí)性;而生成式AI由于需要大量GPU并行計(jì)算,對(duì)算力需求集中在穩(wěn)定長時(shí)間輸出能力上;邊緣計(jì)算的需求點(diǎn)主要在于短距離和低時(shí)延。未來伴隨AI、5G、數(shù)字經(jīng)濟(jì)的持續(xù)發(fā)展,算力資源持續(xù)緊缺,算力調(diào)優(yōu)將成為算力使用者的終身課題。無論是傳統(tǒng)算力、智算算力、或邊緣算力,都對(duì)算力具備相當(dāng)持久的需求,未來技術(shù)的迭代創(chuàng)新、各類AI應(yīng)用的漸次爆發(fā)、算力輻射范圍從B端到C端的擴(kuò)大,都會(huì)進(jìn)一步加大算力資源的緊缺,無論是從效用角度、成本角度出發(fā),算力調(diào)優(yōu)都將成為算力使用方必須重視和投資的關(guān)鍵環(huán)節(jié)。2.2.2網(wǎng)絡(luò)調(diào)優(yōu):算力調(diào)優(yōu)的核心手段1)源起:從GPU的通信出發(fā)AI時(shí)代GPU成為核心處理器,分布式訓(xùn)練訴求提升。GPU采用并行計(jì)算方式,擅長處理大量、簡(jiǎn)單的運(yùn)算,因此多適用于圖像圖形處理和AI推理。但是大模型復(fù)雜度日益提升,單卡GPU顯存有限,無法滿足訓(xùn)練需求,比如百度文心一言大模型有2600億個(gè)參數(shù),但是實(shí)際上一個(gè)80G顯存的A800,算上訓(xùn)練中間的計(jì)算狀態(tài),只能存放10-20億參數(shù),存放2600億的模型就需要100-200塊GPU;此外,后續(xù)大模型訓(xùn)練需要更多參數(shù)和更多計(jì)算,由此產(chǎn)生的GPU需求更為龐大。為適應(yīng)算力需求,需要聯(lián)合多張GPU甚至多臺(tái)服務(wù)器協(xié)同工作,分布式訓(xùn)練成為核心訓(xùn)練方式。網(wǎng)絡(luò)連接在分布式系統(tǒng)中擔(dān)任重要角色。網(wǎng)絡(luò)在分布式系統(tǒng)中提供了連接作用,可以根據(jù)連接層級(jí)區(qū)分為單卡、多卡、多機(jī)互聯(lián),單卡內(nèi)的網(wǎng)絡(luò)為計(jì)算用的神經(jīng)網(wǎng),多卡之間的連接(即GPU互聯(lián))通常采用PCIe或各種高帶寬通信網(wǎng)絡(luò),多機(jī)之間的連接(即服務(wù)器互聯(lián))通常采用RDMA網(wǎng)絡(luò)。①多卡互聯(lián):傳統(tǒng)PCIe與NVLINK/CAPI/GenZ/CCIX/CXL的“百家爭(zhēng)鳴”總線是數(shù)據(jù)通信必備管道,PCIe是最泛使用的總線協(xié)議??偩€是服務(wù)器主板上不同硬件互相進(jìn)行數(shù)據(jù)通信的管道,對(duì)數(shù)據(jù)傳輸速度起到?jīng)Q定性作用,目前最普及的總線協(xié)議為英特爾2001年提出的PCIe(PCI-Express)協(xié)議,PCIe主要用于連接CPU與其他高速設(shè)備如GPU、SSD、網(wǎng)卡、顯卡等,2003年P(guān)CIe1.0版本發(fā)布,后續(xù)大致每過三年會(huì)更新一代,目前已經(jīng)更新到6.0版本,傳輸速率高達(dá)64GT/s,16通道的帶寬達(dá)到256GB/s,性能和可擴(kuò)展性不斷提高。PCIe總線樹形拓?fù)浜投说蕉藗鬏敺绞较拗屏诉B接數(shù)量和速度,PCIeSwitch誕生。PCIe采用端對(duì)端數(shù)據(jù)傳輸鏈路,PCIe鏈路的兩端只能各接入一個(gè)設(shè)備,設(shè)備識(shí)別數(shù)量有限,無法滿足有大量設(shè)備連接或需要高速數(shù)據(jù)傳輸?shù)膱?chǎng)景,因此PCIeSwitch誕生。PCIeSwitch具備連接和交換雙重功能,可以讓一個(gè)PCIe端口識(shí)別和連接更多設(shè)備,解決通道數(shù)量不夠的問題,并可以將多條PCIe總線連接在一起,從而形成一個(gè)高速網(wǎng)絡(luò),實(shí)現(xiàn)多設(shè)備通信,簡(jiǎn)言之PCIeSwitch相當(dāng)于PCIe的拓展器。GPU互聯(lián)時(shí)代,PCIe傳輸速率和網(wǎng)絡(luò)延遲無法滿足需求,NVLINK/CAPI/GenZ/CCIX/CXL等“百家爭(zhēng)鳴”時(shí)代開啟。AIGC的發(fā)展極大刺激算力需求的增加,GPU多卡組合成為趨勢(shì),GPU互聯(lián)的帶寬通常需要在數(shù)百GB/S以上,PCIe的數(shù)據(jù)傳輸速率成為瓶頸,鏈路接口的串并轉(zhuǎn)換會(huì)網(wǎng)絡(luò)延時(shí),影響GPU并行計(jì)算效率,還由于GPU發(fā)出的信號(hào)需要先傳遞到PCIeSwitch,PCIeSwitch涉及到數(shù)據(jù)的處理又會(huì)造成額外的網(wǎng)絡(luò)延時(shí),此外PCIe總線與存儲(chǔ)器地址分離,每次訪問內(nèi)存會(huì)加重網(wǎng)絡(luò)延遲,因此PCIe協(xié)議在GPU多卡通信中效率并不高。為了將總線通信效率提升,降低延時(shí),各家紛紛推出替代協(xié)議:CAPI協(xié)議:由IBM最早推出,后逐漸演化成OpenCAPI,本質(zhì)是現(xiàn)有高速I/O標(biāo)準(zhǔn)之上的應(yīng)用程序擴(kuò)展,添加了緩存一致性和更低延遲等內(nèi)容,但由于IBM服務(wù)器份額的持續(xù)下降,CAPI協(xié)議缺少用戶基礎(chǔ),最終未能廣泛流傳。GenZ協(xié)議:GenZ是不依賴于任何芯片平臺(tái)的開放性組織,眾多廠家參與其中包括AMD、ARM、IBM、Nvidia、Xilinx等,GenZ將總線協(xié)議拓展成交換式網(wǎng)絡(luò)并加入GenZSwitch提高了拓展性。CXL協(xié)議(陸續(xù)兼并上述兩個(gè)協(xié)議):2019年由Intel推出,與CAPI協(xié)議思路類似,2021年底吸收GenZ協(xié)議共同發(fā)展,2022年兼并OpenCAPI協(xié)議,CXL具備內(nèi)存接口,逐漸成長為設(shè)備互連標(biāo)準(zhǔn)的重要主導(dǎo)協(xié)議之一。CCIX協(xié)議:ARM加入的另一個(gè)開放協(xié)議,功能類似GenZ但未被吸收兼并。NVLINK協(xié)議:英偉達(dá)提出的高速GPU互聯(lián)協(xié)議,對(duì)比傳統(tǒng)PCIe總線協(xié)議,NVLINK主要在三個(gè)方面做出較大改變:1)支持網(wǎng)狀拓?fù)淠?,解決通道有限問題;2)統(tǒng)一內(nèi)存,允許GPU共享公共內(nèi)存池,減少GPU之間復(fù)制數(shù)據(jù)的需要,從而提高效率;3)直接內(nèi)存訪問,不需要CPU參與,GPU可直接讀取彼此的內(nèi)存,從而降低網(wǎng)絡(luò)延遲。此外,為解決GPU之間通訊不均衡問題,英偉達(dá)還引入NVSwitch,一種類似交換機(jī)ASIC的物理芯片,通過NVLink接口將多個(gè)GPU高速互聯(lián),創(chuàng)建高帶寬多節(jié)點(diǎn)GPU集群。2023年5月29日,英偉達(dá)推出AI超級(jí)計(jì)算機(jī)DGXGH200,通過NVLink和NVSwitch連接256個(gè)GH200芯片,所有GPU連接成一個(gè)整體協(xié)同運(yùn)行,可訪問內(nèi)存突破100TB。②多機(jī)互聯(lián):IB網(wǎng)絡(luò)與以太網(wǎng)絡(luò)并存分布式訓(xùn)練下RDMA網(wǎng)絡(luò)成為最佳選擇,包含IB網(wǎng)絡(luò)和以太網(wǎng)絡(luò)。傳統(tǒng)的TCP/IP網(wǎng)絡(luò)通信是通過內(nèi)核發(fā)送消息,涉及較多數(shù)據(jù)移動(dòng)和數(shù)據(jù)復(fù)制,不適用高性能計(jì)算、大數(shù)據(jù)分析等需要IO高并發(fā)、低時(shí)延的場(chǎng)景。RDMA是一種計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),可以直接遠(yuǎn)程訪問內(nèi)存數(shù)據(jù),無需操作系統(tǒng)內(nèi)核介入,不占用CPU資源,可以顯著提高數(shù)據(jù)傳輸?shù)男阅懿⑶医档脱舆t,因此更適配于大規(guī)模并行計(jì)算機(jī)集群的網(wǎng)絡(luò)需求。目前有三種RDMA:Infiniband、RoCE、iWARP,后兩者是基于以太網(wǎng)的技術(shù):Infiniband:是專為RDMA設(shè)計(jì)的網(wǎng)絡(luò),從硬件級(jí)別保證可靠傳輸,具備更高的帶寬和更低的時(shí)延。但是成本高,需要配套IB網(wǎng)卡和IB交換機(jī)。RoCE:基于以太網(wǎng)做RDMA,可以使用普通的以太網(wǎng)交換機(jī),成本較低,但是需要支持RoCE的網(wǎng)卡。iWARP:基于TCP的RDMA網(wǎng)絡(luò),利用TCP達(dá)到可靠傳輸。相比RoCE,在大型組網(wǎng)的情況下,iWARP的大量TCP連接會(huì)占用大量的內(nèi)存資源,對(duì)系統(tǒng)規(guī)格要求更高??梢允褂闷胀ǖ囊蕴W(wǎng)交換機(jī),但是需要支持iWARP的網(wǎng)卡。2.2.3現(xiàn)狀:AI的網(wǎng)絡(luò)新需求AI大模型的訓(xùn)練和推理對(duì)網(wǎng)絡(luò)提出了有三大新的需求:超大規(guī)模、超高帶寬以及超長穩(wěn)定。1)超大規(guī)模-訓(xùn)練快慢:規(guī)模的大小直接決定模型訓(xùn)練的快慢。一個(gè)1750億的模型,如果采用2千張GPU,需要訓(xùn)練100天以上。采用8千卡則可以把時(shí)間壓縮到30天左右。2)超高帶寬-效率:Allreduce帶寬直接決定大規(guī)模分布式下的整體效率。平均單GPU的Allreduce帶寬有5GB/s的時(shí)候,大規(guī)模分布式的整體加速比只有約70%;平均單GPU的Allreduce帶寬20GB/s才能獲得約90%的加速比,相當(dāng)于單GPU跑滿400G網(wǎng)卡。3)超長穩(wěn)定-訓(xùn)練不中斷:大模型訓(xùn)練時(shí)長至少是幾個(gè)星期,長時(shí)間下的穩(wěn)定性尤為重要。穩(wěn)定性又可以細(xì)分為GPU可用性+網(wǎng)絡(luò)可用性:GPU可用性:根據(jù)百度智能云技術(shù)站測(cè)算,假定單GPU的月可用性是99.9%,那么在千卡規(guī)模下模型訓(xùn)練一月內(nèi)遇到故障發(fā)生中斷的概率是60%,而如果采用8千卡中斷概率就有99%。即使GPU的可用性提升到99.99%,8千卡下的中斷概率仍然在50%左右。網(wǎng)絡(luò)可用性:存儲(chǔ)的讀寫性能也對(duì)大模型的訓(xùn)練非常重要,這里面就包括了數(shù)據(jù)集的讀取以及訓(xùn)練過程中checkpoint的讀寫。網(wǎng)絡(luò)必須保證更高的可用性,才能盡可能減少模型的訓(xùn)練中斷,降低模型做checkpoint的頻率以及開銷。超長穩(wěn)定性能在三大基礎(chǔ)性能中,屬于必不可少的剛需地位,直接影響模型訓(xùn)練和后續(xù)推理的延續(xù)性以及成功率。保持任務(wù)長時(shí)間不中斷對(duì)于大模型訓(xùn)練至關(guān)重要,一旦硬件出現(xiàn)故障,在光模塊集群中容易造成“多米諾骨牌”式失誤,即演變成1*N個(gè)硬件出錯(cuò),影響模型訓(xùn)練的整個(gè)流程,根據(jù)百度智能云技術(shù)站測(cè)算,一個(gè)可以承載16000卡的集群會(huì)有將近10萬個(gè)光模塊,假定一個(gè)模塊的MTBF(一個(gè)硬件設(shè)備在故障前的平均使用時(shí)長)是1千萬小時(shí),由于模塊基數(shù)太大,哪怕是1000萬小時(shí)的MTBF,也會(huì)導(dǎo)致平均下來4天左右就會(huì)發(fā)生一個(gè)故障發(fā)生,在大基數(shù)背景下,單體的小概率事件會(huì)演變成總體的大概率事件。大模型訓(xùn)練中,網(wǎng)絡(luò)極其復(fù)雜度,一些硬件故障無法被顯式直接感知,為保障模型訓(xùn)練的長期穩(wěn)定性,各大平臺(tái)均在不同程度上應(yīng)用智算可視化工具,對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)控采集。百度百舸平臺(tái)大模型配備兩大核心工具,任務(wù)可視化工具+故障診斷工具。其高精度可視化工具可以把一個(gè)任務(wù)的幾百上千個(gè)實(shí)例的監(jiān)控?cái)?shù)據(jù)合并到一起來看,用于判斷任務(wù)是否正常訓(xùn)練。openAI在訓(xùn)練過程中加checkpoint保證連續(xù)性。在OpenAI和機(jī)器學(xué)習(xí)的背景下,checkpoint(檢查點(diǎn))是指在訓(xùn)練過程中保存的已訓(xùn)練模型的特定時(shí)間點(diǎn)的版本,包含模型的權(quán)重、參數(shù)和其他重要信息。在訓(xùn)練過程中加入checkpoint以后,一旦出現(xiàn)訓(xùn)練中斷,可以隨時(shí)返回并使用已保存的checkpoint處的模型,無需從頭開始訓(xùn)練。此外,checkpoint除了能提供恢復(fù)訓(xùn)練功能,還有其他幾個(gè)作用,如實(shí)驗(yàn)可重現(xiàn)性、模型評(píng)估、遷移學(xué)習(xí)等。2.2.4未來:網(wǎng)絡(luò)為主,可視化為輔面對(duì)AI大模型對(duì)算力網(wǎng)絡(luò)通信功能提出的新需求,核心在于網(wǎng)絡(luò)通信能力的提升,輔助以智算可視化等必備硬件。超大規(guī)模、超高帶寬、以及超長穩(wěn)定三大新需求,核心都在于網(wǎng)絡(luò)通信能力的提升,一方面可以采用英偉達(dá)全套架構(gòu),搭配以專業(yè)的IB網(wǎng)絡(luò),另一條出路在于自研高規(guī)格的網(wǎng)絡(luò)架構(gòu),其本質(zhì)都是集中精力提升網(wǎng)絡(luò)性能。此外,輔助以核心硬件如網(wǎng)絡(luò)可視化,也是調(diào)優(yōu)的重要部分。在一個(gè)算力集群中,無論是使用以太網(wǎng)還是InfiniBand協(xié)議搭建通信網(wǎng)絡(luò),數(shù)據(jù)都是以若干個(gè)包(packet)的形式進(jìn)行傳輸。為了實(shí)現(xiàn)對(duì)通信網(wǎng)絡(luò)的流量監(jiān)控,避免網(wǎng)絡(luò)擁堵或硬件失效影響整個(gè)系統(tǒng)的效率,就需要實(shí)時(shí)監(jiān)測(cè)每條通信鏈路的的工作狀態(tài)。例如,在一個(gè)常規(guī)的三層網(wǎng)絡(luò)架構(gòu)中,有一種經(jīng)典的調(diào)優(yōu)方式DPFR(DataPlaneFastRecovery),可以做到毫秒級(jí)收斂。網(wǎng)絡(luò)調(diào)優(yōu)最核心的原理就是利用軟件或硬件技術(shù)抓取數(shù)據(jù)包進(jìn)行分析。數(shù)據(jù)包的嗅探抓取分為軟件實(shí)現(xiàn)和硬件實(shí)現(xiàn)兩種路徑。以軟件實(shí)現(xiàn)的數(shù)據(jù)抓包最常用,國內(nèi)外知名產(chǎn)品有Wireshark(處理TCP/UDP)、Fiddler(處理HTTP/HTTPS)、tcpdump&windump、solarwinds、nast、Kismet等。以Wireshark為例,其基本工作原理是:程序?qū)⒕W(wǎng)卡的工作模式設(shè)置為“混雜模式”(普通模式下,網(wǎng)卡只處理屬于自己的MAC地址的數(shù)據(jù)包,混雜模式下,網(wǎng)卡會(huì)處理所有流經(jīng)的數(shù)據(jù)包),同時(shí)由Wireshark進(jìn)行數(shù)據(jù)包的截獲、重發(fā)、編輯和轉(zhuǎn)存。軟件抓包會(huì)占用部分系統(tǒng)性能。首先,混雜模式下網(wǎng)卡處于“廣播模式”,會(huì)處理網(wǎng)絡(luò)下層收發(fā)的所有數(shù)據(jù)包,本身就會(huì)消耗網(wǎng)卡一部分性能;其次,軟件抓包不是在鏈路層串行或并行抓取,而是將數(shù)據(jù)包進(jìn)行復(fù)制和存儲(chǔ),占用了一部分CPU和存儲(chǔ)的資源。同時(shí),類似Wireshark這種軟件大多只能做到對(duì)系統(tǒng)里的單一網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行流量監(jiān)控,難以覆蓋到全局網(wǎng)絡(luò),適合被動(dòng)的故障排除作業(yè),不適用于主動(dòng)風(fēng)險(xiǎn)監(jiān)測(cè)。為不影響系統(tǒng)整體性能,并行或串行接入的軟硬件結(jié)合工具應(yīng)運(yùn)而生,常用的工具有DPI和DFI。DPI(DeepPacketInspection,深度報(bào)文檢測(cè))是一種基于報(bào)文的應(yīng)用層信息對(duì)流量進(jìn)行檢測(cè)和控制的功能。DPI著重對(duì)應(yīng)用層的分析,能夠識(shí)別各種應(yīng)用及其內(nèi)容。當(dāng)IP數(shù)據(jù)包、TCP或UDP數(shù)據(jù)流通過支持DPI技術(shù)的硬件設(shè)備時(shí),設(shè)備會(huì)通過深入讀取報(bào)文載荷來進(jìn)行重組和分析,從而識(shí)別整個(gè)應(yīng)用程序的內(nèi)容,然后按照設(shè)備定義的管理策略對(duì)流量進(jìn)行后續(xù)處理。DFI(Deep/DynamicFlowInspection,深度/動(dòng)態(tài)流檢測(cè))采用的是一種基于流量行為的應(yīng)用識(shí)別技術(shù),即不同的應(yīng)用類型體現(xiàn)在會(huì)話連接或數(shù)據(jù)流上的狀態(tài)各有不同。DPI技術(shù)適用于需要精細(xì)和準(zhǔn)確識(shí)別、精細(xì)管理的環(huán)境;而DFI技術(shù)適用于需要高效識(shí)別、粗放管理的環(huán)境。DPI/DFI由獨(dú)立硬件串/并接在物理層,不會(huì)影響物理層的性能表現(xiàn)。以浩瀚深度的DPI軟硬件產(chǎn)品為例,其可以部署在電信網(wǎng)絡(luò)的各層級(jí)網(wǎng)絡(luò)節(jié)點(diǎn),同時(shí)通過SaaS/PaaS完成對(duì)各層級(jí)監(jiān)測(cè)節(jié)點(diǎn)數(shù)據(jù)收集、分析和呈現(xiàn)。DPI硬件串接或并接在通信物理層,通過鏡像數(shù)據(jù)包實(shí)現(xiàn)近乎無損的網(wǎng)絡(luò)監(jiān)測(cè)。DPI軟件嵌入在DPI硬件、獨(dú)立服務(wù)器或交換機(jī)/路由器中,實(shí)現(xiàn)網(wǎng)絡(luò)監(jiān)測(cè)。網(wǎng)絡(luò)可視化——流量監(jiān)控高效工具。流量監(jiān)控SaaS/PaaS用來實(shí)現(xiàn)對(duì)各層級(jí)DPI監(jiān)測(cè)節(jié)點(diǎn)的數(shù)據(jù)收集、分析和呈現(xiàn),將網(wǎng)絡(luò)數(shù)據(jù)以客戶和應(yīng)用所需要的方式展示,幫助用戶精準(zhǔn)掌握網(wǎng)絡(luò)運(yùn)行情況,以及其中蘊(yùn)含的有價(jià)值信息;同時(shí)結(jié)合大數(shù)據(jù)分析與挖掘、多維度數(shù)據(jù)關(guān)聯(lián)分析、流量控制和管理等手段,實(shí)現(xiàn)網(wǎng)絡(luò)管理、信息安全與商業(yè)智能的一類應(yīng)用系統(tǒng),通常稱為網(wǎng)絡(luò)可視化。恒為科技進(jìn)一步投入智算可視化研發(fā),從傳統(tǒng)網(wǎng)絡(luò)可視化、信創(chuàng)基礎(chǔ)產(chǎn)品,向智算基礎(chǔ)架構(gòu)方向積極擴(kuò)展,新產(chǎn)品以及新技術(shù)研發(fā)持續(xù)推進(jìn),其中包括針對(duì)智算系統(tǒng)100G以太網(wǎng)/IB網(wǎng)、200G以太網(wǎng)/IB網(wǎng)的智算可視化運(yùn)維系統(tǒng),以及100G類IB的低延時(shí)國產(chǎn)智算加速網(wǎng)卡和交換機(jī)系統(tǒng)。2.2.5模型調(diào)優(yōu)模型層面調(diào)優(yōu),亦或者是軟件層面調(diào)優(yōu),與我們平時(shí)所認(rèn)為的例如對(duì)于游戲,軟件等等的性能優(yōu)化有一定區(qū)別。在當(dāng)下模型快速迭代,參數(shù)戰(zhàn)爭(zhēng)依然如火如荼的當(dāng)下,如何削減參數(shù),如何減少訓(xùn)練時(shí)所需的GPU總數(shù)亦或是算力總量,并不是頭部玩家關(guān)注的重點(diǎn),頭部玩家關(guān)心的是,如何讓自己重金投入的GPU集群快速達(dá)到滿載算力,從而進(jìn)一步實(shí)現(xiàn)領(lǐng)先于對(duì)手的模型迭代與參數(shù)擴(kuò)張。綜上,模型層面的調(diào)優(yōu),在當(dāng)下的業(yè)界,可以理解為,如何通過模型架構(gòu)的設(shè)計(jì),進(jìn)一步壓榨GPU的性能,而并非壓縮模型的非必要環(huán)節(jié),從而節(jié)省模型的訓(xùn)練所需的算力。當(dāng)前的AI模型訓(xùn)練過程主要基于兩個(gè)主要框架進(jìn)行,即TensorFlow和PyTorch。這兩個(gè)框架除了給予AI訓(xùn)練所必須的基本環(huán)境,包括了操作系統(tǒng)、工具和運(yùn)算流程,也在壓榨GPU算力層面給予了較為完善的框架。模型訓(xùn)練過程與我們?nèi)粘Ia(chǎn)中的流水線類似,即一個(gè)模型中有幾層訓(xùn)練步驟,對(duì)應(yīng)了生產(chǎn)線上有幾道工序。模型架構(gòu)層面優(yōu)化GPU使用能力的方法主要是并行,即對(duì)流水線的工人的任務(wù)分配或者流水線的優(yōu)化。模型層面的并行主要有兩種,第一種是數(shù)據(jù)并行,第二種是模型并行。首先,第一種數(shù)據(jù)并行。數(shù)據(jù)并行,是指將一層模型運(yùn)算中所需要的數(shù)據(jù)切分至N張顯卡進(jìn)行運(yùn)算,N張顯卡運(yùn)算出結(jié)果后,即可匯總進(jìn)行下一層。模型并行指的是將一次模型訓(xùn)練需要的N層運(yùn)算,分別放入N張顯卡進(jìn)行運(yùn)算,但隨著模型體積愈發(fā)龐大,單個(gè)顯卡難以容納一整層的計(jì)算,所以模型并行在當(dāng)下正在加速被數(shù)據(jù)并行所替代,數(shù)據(jù)并行的瓶頸則在于數(shù)據(jù)實(shí)時(shí)的切分與溝通,并行方式的變化,也在一定程度上,進(jìn)一步提高了通信能力的重要性。此外除了框架或者訓(xùn)練原理層面自帶的并行能力外,專用的訓(xùn)練過程中調(diào)優(yōu)工具也進(jìn)一步方便了用戶的使用,當(dāng)下,全球模型訓(xùn)練者使用的訓(xùn)練調(diào)優(yōu)工具基本以微軟提供的開源工具庫Deepspeed為主,DeepSpeed通過將訓(xùn)練數(shù)據(jù)預(yù)處理等方式,優(yōu)化了數(shù)據(jù)進(jìn)入GPU的效率和所需空間,從而為發(fā)揮GPU集群性能或者提高小GPU訓(xùn)練上限提供了解決方案。有了模型調(diào)優(yōu)層面的兩大工具,框架與Deepspeed,接下來的調(diào)優(yōu)便是利用這兩個(gè)環(huán)節(jié)提供的能力,進(jìn)行經(jīng)驗(yàn)的積累,例如數(shù)據(jù)并行的時(shí)候如何保證各個(gè)環(huán)節(jié)的先后順序,數(shù)據(jù)塊分配,如何利用Deepspeed進(jìn)行進(jìn)一步的數(shù)據(jù)處理等等,經(jīng)驗(yàn)的積累會(huì)進(jìn)一步加深各個(gè)頭部大模型廠商的訓(xùn)練能力壁壘,從而使得大模型格局更集中。正如本節(jié)開頭所說,當(dāng)下大模型時(shí)代,模型的算法層面調(diào)優(yōu),或者是去優(yōu)化模型訓(xùn)練中所需要的算力與金錢性價(jià)比這種路線已經(jīng)逐漸式微。在過往的小模型時(shí)代,由于資金投入的有限,對(duì)于快速商業(yè)化的追求,行業(yè)內(nèi)和實(shí)驗(yàn)室會(huì)更多的關(guān)注小算力下的小模型優(yōu)化。但是隨著以GPT為代表的大模型的橫空出世,重劍無鋒的參數(shù)、數(shù)據(jù)、算力堆疊,被業(yè)界逐漸認(rèn)為是走向AGI的必經(jīng)之路,當(dāng)下,模型算法層面的調(diào)優(yōu),模型性價(jià)比的提升可能會(huì)在一定程度上放緩,模型層面的進(jìn)化,可能更多的會(huì)發(fā)生于訓(xùn)練系統(tǒng)和工具庫層面如何去更好的調(diào)用GPU算力。2.3算力調(diào)度:全局最強(qiáng)輔助2.3.1What-算力調(diào)度是什么算力調(diào)度本質(zhì)上是將算力作為資源,進(jìn)行資源分配和優(yōu)化的過程。從宏觀來看,算力調(diào)度是通過智能分配策略實(shí)現(xiàn)算力的靈活流動(dòng),解決國內(nèi)算力需求與資源分布不均的矛盾;從微觀來看,算力調(diào)度是對(duì)用戶的各種需求匹配合適的資源,根據(jù)不同業(yè)務(wù)場(chǎng)景對(duì)多樣性算力資源進(jìn)行自動(dòng)的需求匹配和調(diào)度。算力調(diào)度核心解決了算力資源供需不匹配的問題。算力調(diào)度主要用于解決算力供需矛盾、算力網(wǎng)絡(luò)傳輸問題、以及算力資源普惠問題,根據(jù)算力資源提供方的供給能力和應(yīng)用需求方的動(dòng)態(tài)資源需求,進(jìn)行算力資源整合和分配,涉及基礎(chǔ)設(shè)施底層的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等多維資源的一致性管理、一體化編排和統(tǒng)一調(diào)度。2.3.2Where-算力在哪里調(diào)度算力調(diào)度的場(chǎng)景較為廣泛,既可以按照產(chǎn)業(yè)鏈分為云與云之間、云和數(shù)據(jù)中心之間、云網(wǎng)端之間,也可以按照行業(yè)、地區(qū)、層級(jí)進(jìn)行劃分,目前較為典型的兩個(gè)調(diào)度場(chǎng)景存在于跨區(qū)域和跨層級(jí):跨區(qū)域調(diào)度:即“東數(shù)西算”,東部科技企業(yè)數(shù)量較多對(duì)算力的依賴性較高,且由于數(shù)據(jù)中心建設(shè)相對(duì)較早,缺乏統(tǒng)籌規(guī)劃,對(duì)需求估計(jì)不足,打通東西部算力資源、實(shí)現(xiàn)東西部算力協(xié)同,是建立在算力資源跨區(qū)域調(diào)度核心能力至上的??鐚蛹?jí)調(diào)度:算力不僅僅集中于數(shù)據(jù)中心,更是擴(kuò)散到邊緣網(wǎng)關(guān)、甚至各類終端,因此云—邊—端的算力資源協(xié)調(diào)也稱為算力調(diào)度的重要應(yīng)用場(chǎng)景之一。2.3.3How-如何實(shí)施算力調(diào)度目前尚處于逐步落地階段,具體實(shí)施步驟有待在執(zhí)行中逐漸完善,但是根據(jù)算力分布分散、需求具備多樣性和靈活性等特質(zhì),通常情況下算力調(diào)度至少需要包含三大步驟:整合多元異構(gòu)資源:算力調(diào)度首先需要標(biāo)準(zhǔn)化底層算力資源,如CPU、GPU、神經(jīng)網(wǎng)絡(luò)處理器等,建立度量模型,形成評(píng)估標(biāo)準(zhǔn)。然后,摸清算力調(diào)度區(qū)域的基礎(chǔ)設(shè)施和資源情況,整合不同所有方的閑置資源。搭建算力調(diào)度平臺(tái):通過統(tǒng)一的平臺(tái)整合如實(shí)時(shí)感知、供需匹配、智能調(diào)度、服務(wù)運(yùn)營和監(jiān)測(cè)管理等多種功能,平臺(tái)充當(dāng)算網(wǎng)大腦,根據(jù)資源分布情況動(dòng)態(tài)計(jì)算最佳調(diào)度策略,實(shí)現(xiàn)統(tǒng)一的算力交易和售賣。建立標(biāo)準(zhǔn)規(guī)范體系:標(biāo)準(zhǔn)規(guī)范體系包括算力交易、管理和安全規(guī)則,涉及產(chǎn)品定價(jià)、自動(dòng)結(jié)算、賬本記錄、權(quán)利義務(wù)和可信服務(wù)機(jī)制。2.3.4Who-誰在參與算力調(diào)度平臺(tái)作為算網(wǎng)大腦,通過整合不同來源、類型和架構(gòu)的算力資源,按需調(diào)動(dòng)分配算力,在算力發(fā)展中后期重要性將會(huì)進(jìn)一步提升,目前國內(nèi)已經(jīng)涌現(xiàn)多個(gè)算力調(diào)度平臺(tái),按照主導(dǎo)方的不同可以分為四大類,其中運(yùn)營商算力調(diào)度平臺(tái)的基礎(chǔ)能力優(yōu)勢(shì)較為顯著:電信運(yùn)營商主導(dǎo)平臺(tái):由中國電信、中國移動(dòng)、中國聯(lián)通牽頭或參與建設(shè)并運(yùn)營的算力調(diào)度平臺(tái),擁有強(qiáng)大的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,能夠在全國范圍內(nèi)實(shí)現(xiàn)算力資源的高速互聯(lián),保障數(shù)據(jù)和算力的快速傳輸和穩(wěn)定運(yùn)行。比如中國移動(dòng)推出移動(dòng)云智能算力調(diào)度平臺(tái),中國電信天翼云下的“息壤”平臺(tái)即具備智能高效算力調(diào)度能力,中國聯(lián)通推出算網(wǎng)一體化編排調(diào)度體系進(jìn)行算網(wǎng)資源的智能調(diào)配。地方政府主導(dǎo)平臺(tái):由西部一些節(jié)點(diǎn)城市牽頭或建設(shè)運(yùn)營的算力調(diào)度平臺(tái),依托西部地區(qū)的自然資源和能源優(yōu)勢(shì),建設(shè)低成本且符合低碳要求。比如貴州大數(shù)據(jù)與實(shí)體經(jīng)濟(jì)深度融合公共服務(wù)平臺(tái),將建成面向全省專注于服務(wù)大數(shù)據(jù)與實(shí)體經(jīng)濟(jì)深度融合、數(shù)字化產(chǎn)業(yè)轉(zhuǎn)型的公共服務(wù)平臺(tái)。企業(yè)主導(dǎo)平臺(tái):由部分互聯(lián)網(wǎng)或科技巨頭企業(yè)牽頭或參與的算力調(diào)度平臺(tái),依托企業(yè)在AI、大數(shù)據(jù)、云計(jì)算等方面的技術(shù)積累和客戶積累,整合算力資源并實(shí)現(xiàn)跨區(qū)域、跨境、跨平臺(tái)的互聯(lián)互通和優(yōu)化配置。比如阿里云發(fā)布的洛神云網(wǎng)絡(luò)具備云企業(yè)網(wǎng)的全球化智能云網(wǎng)調(diào)度能力,中科曙光推出的曙光云計(jì)算平臺(tái)可提供云服務(wù)器、云存儲(chǔ)、云數(shù)據(jù)庫、云安全等服務(wù)。行業(yè)機(jī)構(gòu)主導(dǎo)型平臺(tái):主要由行業(yè)機(jī)構(gòu)牽頭或參與參與的算力調(diào)度平臺(tái),以強(qiáng)大的政策支撐力和行業(yè)影響力為基礎(chǔ),促進(jìn)算力資源的整合和共享,保證算力調(diào)度平臺(tái)的穩(wěn)定性和安全性。如中國信通院聯(lián)合中國電信發(fā)布全國一體化算力算網(wǎng)調(diào)度平臺(tái)可以實(shí)現(xiàn)跨資源池/跨架構(gòu)/跨廠商的異構(gòu)算力資源調(diào)度,目前已接入天翼云、華為云、阿里云等。3.軟件服務(wù)——海外先行,百花齊放,部署先行3.1軟件服務(wù)的三個(gè)方向:數(shù)據(jù)管理、模型落地、訓(xùn)練可視化3.1.1數(shù)據(jù)管理模型微調(diào)的基礎(chǔ)是數(shù)據(jù)管理。優(yōu)質(zhì)的、結(jié)構(gòu)化的數(shù)據(jù)要素,推動(dòng)大模型訓(xùn)練向著高精確度、高安全性和垂直化專業(yè)化的方向前進(jìn)。現(xiàn)有的開源LLM稱為“預(yù)訓(xùn)練模型”,也就是說其他人已經(jīng)收集了大量的訓(xùn)練數(shù)據(jù)并提前訓(xùn)練了模型,例如NVIDIANeMo和MetaLlama都是“多面手”,它們能流利地使用英各種語言,并且對(duì)各種話題都有不同程度的了解,但是礙于訓(xùn)練時(shí)的數(shù)據(jù),這些LLM往往對(duì)某個(gè)專業(yè)領(lǐng)域不夠深入。以sno

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論