DPU金融行業(yè)發(fā)展白皮書(shū) 2023_第1頁(yè)
DPU金融行業(yè)發(fā)展白皮書(shū) 2023_第2頁(yè)
DPU金融行業(yè)發(fā)展白皮書(shū) 2023_第3頁(yè)
DPU金融行業(yè)發(fā)展白皮書(shū) 2023_第4頁(yè)
DPU金融行業(yè)發(fā)展白皮書(shū) 2023_第5頁(yè)
已閱讀5頁(yè),還剩70頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DPU金融行業(yè)發(fā)展白皮書(shū)VI 1(一)發(fā)展趨勢(shì) 1(二)行業(yè)挑戰(zhàn) 5 11 11 17 19 24(一)統(tǒng)一部署彈性調(diào)度 25(二)計(jì)算實(shí)例高可用 28(三)加速云原生網(wǎng)絡(luò) 29(四)加速云原生存儲(chǔ) 31(五)加速微服務(wù)應(yīng)用 33(六)加速云原生安全 34(七)加速大模型訓(xùn)練 35 36 41(一)彈性裸金屬 41(二)零信任安全 43(三)高性能扁平化容器網(wǎng)絡(luò) 45(四)人工智能大模型 47 50 52 54 551一、云原生浪潮下金融行業(yè)云基礎(chǔ)設(shè)施的發(fā)展趨勢(shì)和挑戰(zhàn)在云原生技術(shù)快速發(fā)展、經(jīng)濟(jì)與商業(yè)模式正發(fā)生深刻變化的背景下,金融云平臺(tái)作為金融行業(yè)數(shù)字化轉(zhuǎn)型的依托,在金融行業(yè)生態(tài)格局中扮演著非常重要的角色。金融云包含平臺(tái)基礎(chǔ)設(shè)施(IaaS)、應(yīng)用平臺(tái)(PaaS)和金融生態(tài)(SaaS)3個(gè)層面(如圖1所示),其中基礎(chǔ)設(shè)施是構(gòu)建體系完備、規(guī)模超大、自主可控和靈活高效的金融云平臺(tái)的基石。1.綠色計(jì)算與低碳發(fā)展在碳達(dá)峰碳中和的雙碳背景下,金融機(jī)構(gòu)也在綠色轉(zhuǎn)型和數(shù)字化轉(zhuǎn)型升級(jí)中尋求突破,促進(jìn)綠色計(jì)算和數(shù)字低碳技術(shù)創(chuàng)新。有數(shù)據(jù)顯示,我國(guó)數(shù)據(jù)中心年用電量在全社會(huì)用電量中的比2重正在逐年升高,為確保實(shí)現(xiàn)碳達(dá)峰碳中和目標(biāo),就需要在數(shù)據(jù)中心建設(shè)模式、技術(shù)、標(biāo)準(zhǔn)和可再生能源利用等方面進(jìn)一步挖掘節(jié)能減排潛力。近年來(lái),云計(jì)算發(fā)展迅猛,其本身就是一種綠色技術(shù),提高了CPU的整體利用率。通過(guò)聚集計(jì)算資源和轉(zhuǎn)移工作負(fù)載,云的資源利用率持續(xù)得到提高。推動(dòng)數(shù)據(jù)中心綠色可持續(xù)發(fā)展,加快節(jié)能低碳技術(shù)的研發(fā)應(yīng)用,提升能源利用效率,降低數(shù)據(jù)中心能耗,從而實(shí)現(xiàn)綠色計(jì)算與低碳的發(fā)展目標(biāo)。2.部署模式多樣化金融領(lǐng)域云計(jì)算部署模式主要包括私有云、團(tuán)體云以及由其組成的混合云等。在實(shí)際的落地部署中,不論是采用私有云建設(shè)方式,還是采用與第三方合作的公有云建設(shè)方式,亦或混合云建設(shè)方式,越來(lái)越多的金融企業(yè)都在嘗試?yán)迷朴?jì)算技術(shù)來(lái)降低運(yùn)營(yíng)成本,促進(jìn)產(chǎn)品創(chuàng)新。當(dāng)前,越來(lái)越多的金融機(jī)構(gòu)開(kāi)始嘗試將IT業(yè)務(wù)搭建在云上,而未來(lái)這一趨勢(shì)還將不斷深化。私有云或者混合云的建設(shè)模式在傳統(tǒng)銀行、證券等企業(yè)中得到青睞,而公有云模式則成為大量新興互聯(lián)網(wǎng)金融企業(yè)的選擇,通過(guò)與第三方公有云廠商合作,得以實(shí)現(xiàn)自身業(yè)務(wù)的快速擴(kuò)展,業(yè)務(wù)快速上線(xiàn)。金融業(yè)務(wù)上云呈現(xiàn)多樣化的趨勢(shì),不同的金融企業(yè)也正在根據(jù)自身情況選擇適合自身發(fā)展的建設(shè)模式。3.穩(wěn)定與敏捷并存當(dāng)前金融業(yè)務(wù)的發(fā)展中,既有針對(duì)穩(wěn)態(tài)業(yè)務(wù)的高穩(wěn)定性、高3可靠性、高安全性要求,也有針對(duì)大數(shù)據(jù)、人工智能、區(qū)塊鏈等新數(shù)字化技術(shù)業(yè)務(wù)的敏捷支持要求。隨著金融業(yè)務(wù)規(guī)模的不斷擴(kuò)大,以及面向互聯(lián)網(wǎng)業(yè)務(wù)場(chǎng)景的不斷豐富,傳統(tǒng)金融行業(yè)的信息管理系統(tǒng)已經(jīng)嚴(yán)重制約了金融行業(yè)向數(shù)字化轉(zhuǎn)型的發(fā)展。一方面,越來(lái)越多的用戶(hù)通過(guò)互聯(lián)網(wǎng)進(jìn)行經(jīng)濟(jì)活動(dòng)(例如查詢(xún)信息、購(gòu)物和理財(cái)?shù)龋?。另一方面,金融行業(yè)也正在借助與互聯(lián)網(wǎng)技術(shù)的結(jié)合推出更多業(yè)務(wù),增加用戶(hù)量及用戶(hù)黏性。因此對(duì)未來(lái)的金融云平臺(tái)提出了新的需求。在資源利用上,需要對(duì)資源進(jìn)行池化管理,解耦計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和安全,從而實(shí)現(xiàn)對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和安全資源的統(tǒng)一高效調(diào)度管理,進(jìn)而實(shí)現(xiàn)透明、按需供給的資源管理模式。在安全上,不僅是現(xiàn)有的應(yīng)用層數(shù)據(jù)需要安全監(jiān)控和管理能力,隨著金融業(yè)務(wù)的不斷變化,虛擬化層的引入以及基于云原生的容器、微服務(wù)的應(yīng)用部署也需要依賴(lài)整個(gè)云原生平臺(tái)的安全監(jiān)控和管理能力??傮w上,需要在實(shí)現(xiàn)保證具有高容災(zāi)和高可用性。4.安全可信與可控隨著金融業(yè)務(wù)上云的不斷深化,經(jīng)濟(jì)活動(dòng)安全越來(lái)越受到國(guó)家和監(jiān)管部門(mén)的重視。金融行業(yè)對(duì)于數(shù)據(jù)的安全性和合規(guī)性要求非常高,金融云需要提供高度安全的數(shù)據(jù)存儲(chǔ)和傳輸機(jī)制,確??蛻?hù)敏感信息的保護(hù)和隱私安全。因?yàn)榻鹑跇I(yè)務(wù)中涉及大量的資金、交易、用戶(hù)隱私信息等敏感數(shù)據(jù),所以對(duì)數(shù)據(jù)和隱私保護(hù)有更高的安全要求,這直接關(guān)系到國(guó)家的經(jīng)濟(jì)安全,同時(shí)也影響著4老百姓生活的方方面面,使得金融云服務(wù)的安全可靠、可信、可控成為其發(fā)展必須滿(mǎn)足的條件。當(dāng)前,金融云發(fā)展所面臨的安全問(wèn)題并沒(méi)有完全有效解決,已成為阻礙金融云發(fā)展的障礙之一。對(duì)數(shù)據(jù)加密性要求最高的金融行業(yè)將整體系統(tǒng)上云之后,建設(shè)更高的安全、可信、可控的金融云平臺(tái)是未來(lái)的必然趨勢(shì)。5.高可用需求金融行業(yè)對(duì)規(guī)劃、建設(shè)和運(yùn)維的專(zhuān)業(yè)性要求也非常高,從規(guī)劃、建設(shè)到各個(gè)系統(tǒng)的遷移和管理,都與其他行業(yè)的云服務(wù)有著很大的不同,在行業(yè)和系統(tǒng)內(nèi)部都有著嚴(yán)格的規(guī)范要求。針對(duì)高可用性,規(guī)范就要求云計(jì)算平臺(tái)應(yīng)具備軟件、主機(jī)、存儲(chǔ)、網(wǎng)絡(luò)節(jié)點(diǎn)、數(shù)據(jù)中心等層面的高可用保障能力,能夠從嚴(yán)重故障或錯(cuò)誤中快速恢復(fù),保障應(yīng)用系統(tǒng)的連續(xù)正常運(yùn)行,滿(mǎn)足金融領(lǐng)域業(yè)務(wù)連續(xù)性要求。由于金融行業(yè)的特殊性,高可用是金融云基礎(chǔ)設(shè)施建設(shè)中需要重點(diǎn)關(guān)注的問(wèn)題。隨著金融應(yīng)用數(shù)量和類(lèi)型的不斷增加,以及對(duì)網(wǎng)絡(luò)復(fù)雜度的要求也越來(lái)越高,高可用性成為金融云持續(xù)發(fā)展的重要保障。6.數(shù)據(jù)分析和AI能力支撐隨著AI的發(fā)展,金融行業(yè)越來(lái)越多地使用數(shù)據(jù)分析和人工智能來(lái)優(yōu)化業(yè)務(wù)決策和風(fēng)險(xiǎn)管理。因此,金融云通常會(huì)提供數(shù)據(jù)分析和AI訓(xùn)練推理的能力。此外,通用人工智能(AGI)所取得的成果使人們看到了一種可能性,即依托基礎(chǔ)大模型的訓(xùn)練結(jié)果,5針對(duì)垂直領(lǐng)域特定場(chǎng)景和行業(yè)進(jìn)行精細(xì)化模型訓(xùn)練,使AI在垂直領(lǐng)域?qū)崿F(xiàn)落地應(yīng)用,提高生產(chǎn)率。金融云平臺(tái)在這個(gè)層面也在逐步加大投入,為AI訓(xùn)練提供網(wǎng)絡(luò)和算力的基礎(chǔ)設(shè)施支撐??傮w而言,在金融云基礎(chǔ)設(shè)施向云計(jì)算架構(gòu)的發(fā)展過(guò)程中,需要著力打造具有快速響應(yīng)、彈性伸縮、高可用、低成本和安全的云計(jì)算環(huán)境。在整體的演進(jìn)過(guò)程中,也面臨著諸多挑戰(zhàn)需要一一克服,這些挑戰(zhàn)主要體現(xiàn)在以下方面。(二)行業(yè)挑戰(zhàn)1.資源利用率低為支撐應(yīng)用平臺(tái)(PaaS)和金融生態(tài)(SaaS)的服務(wù)功能,在基礎(chǔ)設(shè)施(IaaS)層需要對(duì)計(jì)算、網(wǎng)絡(luò)以及安全等基礎(chǔ)資源進(jìn)行優(yōu)化和管理。目前在PaaS和SaaS層,金融云的應(yīng)用有著向以微服務(wù)為主,采用容器、K8s集群、ServiceMesh等管理框架實(shí)現(xiàn)管理和部署的趨勢(shì)。這種“容器+微服務(wù)”的方式將基礎(chǔ)設(shè)施的計(jì)算資源釋放給上層使用,容器技術(shù)擁有自身獨(dú)特的優(yōu)勢(shì),尤其是在金融云平臺(tái)的生產(chǎn)環(huán)境中得到了廣泛應(yīng)用。然而容器技術(shù)的發(fā)展卻對(duì)基礎(chǔ)設(shè)施的資源管控提出了新的挑戰(zhàn),通過(guò)微服務(wù),將復(fù)雜系統(tǒng)拆分為易于開(kāi)發(fā)和維護(hù)的服務(wù)單元,從而實(shí)現(xiàn)敏捷性開(kāi)發(fā),例如Kubernetes,Istio等框架和方案都是這種思想的應(yīng)用和實(shí)踐。但是,隨著各種應(yīng)用程序組件分布在不同的服務(wù)器和虛擬機(jī)之中,帶來(lái)了東西向流量業(yè)務(wù)激增。這些激增的東西向流量主要是來(lái)自不同虛擬機(jī)之間、不同容器應(yīng)用之間的通信流量。6這種微服務(wù)架構(gòu)帶來(lái)了分布式系統(tǒng)的復(fù)雜性,每個(gè)服務(wù)需要進(jìn)行管理、調(diào)度和監(jiān)控,這些管理組件的引入,無(wú)疑加重了額外的資源管理開(kāi)銷(xiāo)。隨著容器和微服務(wù)部署規(guī)模的擴(kuò)大,Kubernetes、Istio組件消耗的主機(jī)HOST算力資源的比重將逐漸增大,最終將導(dǎo)致云計(jì)算平臺(tái)無(wú)法提供有效的算力資源給容器和微服務(wù)應(yīng)用,極大降低了金融云平臺(tái)對(duì)計(jì)算資源的有效利用。2.部署模式的挑戰(zhàn)在云計(jì)算技術(shù)金融用規(guī)范的要求中,明確金融云平臺(tái)在實(shí)際的部署過(guò)程中,首先必須秉持安全優(yōu)先、對(duì)用戶(hù)負(fù)責(zé)的原則,根據(jù)信息系統(tǒng)所承載業(yè)務(wù)的重要性和數(shù)據(jù)的敏感性、發(fā)生安全事件的危害程度等,充分評(píng)估可能存在的風(fēng)險(xiǎn)隱患,謹(jǐn)慎選用與業(yè)務(wù)系統(tǒng)相適應(yīng)的部署模式。所以,如何選擇金融云平臺(tái)系統(tǒng)的部署模式是極具挑戰(zhàn)的任務(wù)。為了承載不同的業(yè)務(wù)需求就需要靈活的部署模式,這是未來(lái)的發(fā)展方向,但當(dāng)前面臨的問(wèn)題是如何有效管理這種靈活多變的部署模式。從私有云的這個(gè)單點(diǎn)上來(lái)看,私有云是企業(yè)傳統(tǒng)數(shù)據(jù)中心的延伸和優(yōu)化,可以針對(duì)各種功能提供網(wǎng)絡(luò)、存儲(chǔ)、計(jì)算資源。在金融云領(lǐng)域,私有云是金融企業(yè)單獨(dú)使用并構(gòu)建的,對(duì)數(shù)據(jù)、安全和服務(wù)質(zhì)量有自身的要求,需要根據(jù)特定的應(yīng)用場(chǎng)景進(jìn)行適配,這就對(duì)私有云部署過(guò)程中具體軟件和硬件的底層基礎(chǔ)設(shè)施技術(shù)的支撐提出了要求。通常,金融機(jī)構(gòu)和企業(yè)更加關(guān)注自身業(yè)務(wù)7的研發(fā)和應(yīng)用,對(duì)底層基礎(chǔ)設(shè)施技術(shù)的掌控和管理并不是強(qiáng)項(xiàng)。這就增加了金融企業(yè)在部署私有云過(guò)程中的成本和技術(shù)風(fēng)險(xiǎn),因?yàn)樵趯?shí)現(xiàn)自身私有云應(yīng)用需求的時(shí)候,很難根據(jù)來(lái)自不同軟硬件供應(yīng)商的軟件、硬件組件增加符合自身業(yè)務(wù)需求的功能。另一個(gè)層面,從私有云、團(tuán)體云和混合云相組合的這個(gè)面上來(lái)看,也更具挑戰(zhàn)性。不同云部署模式下的管理和互聯(lián)互通也是目前面臨的挑戰(zhàn)之一??傮w而言,金融云平臺(tái)在部署模式上的挑戰(zhàn)是沒(méi)有成熟和標(biāo)準(zhǔn)的云平臺(tái)部署方案,需要金融企業(yè)投入大量的自有研發(fā)力量來(lái)進(jìn)行定制化開(kāi)發(fā)。3.資源彈性不足資源彈性不足主要體現(xiàn)在如下方面。一是金融云平臺(tái)面對(duì)的業(yè)務(wù)類(lèi)型復(fù)雜多變,為了應(yīng)對(duì)不同的業(yè)務(wù)需求通常會(huì)存在多數(shù)據(jù)中心以及多集群部署情況,資源的調(diào)度和編排受到跨集群能力的限制。二是實(shí)際業(yè)務(wù)運(yùn)行過(guò)程中存在峰值波動(dòng)的情況,這就需要整個(gè)云平臺(tái)具有自動(dòng)伸縮能力,當(dāng)前的資源管控在面對(duì)跨集群、跨資源(例如計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源池化之后的管理和調(diào)度)管控時(shí)能力不足。三是裸金屬服務(wù)器的彈性不足,目前裸金屬服務(wù)器需要進(jìn)行操作系統(tǒng)自動(dòng)安裝,創(chuàng)建和回收速度較慢,并且無(wú)法遷移。四是受到容災(zāi)和高可用技術(shù)實(shí)現(xiàn)的限制,為了保證可靠的業(yè)8務(wù)服務(wù)能力,不得不采用折中的雙備份資源的方式,但是這樣的實(shí)現(xiàn)模式限制了資源的靈活調(diào)配能力。4.安全防護(hù)的挑戰(zhàn)云原生技術(shù)在金融云平臺(tái)的使用促進(jìn)了金融云的數(shù)字化進(jìn)程,以容器和微服務(wù)為代表的云原生技術(shù)得到了大力發(fā)展,同時(shí)基于云原生技術(shù)的安全性也得到了更多的關(guān)注。在基于容器和微這里的安全尤其指基于Docker和K8s的容器安全。從云原生平臺(tái)的架構(gòu)來(lái)看會(huì)面對(duì)來(lái)自不同層面的挑戰(zhàn)。首先,在容器及K8s層面,鏡像安全、容器運(yùn)行時(shí)安全、容器網(wǎng)絡(luò)安全、權(quán)限安全等問(wèn)題需要進(jìn)行管理和監(jiān)控。其次,在平臺(tái)層面,集群隔離、租戶(hù)安全、用戶(hù)隔離等問(wèn)題也對(duì)云平臺(tái)提出了要求,當(dāng)前云平臺(tái)對(duì)資源的分散管理更凸顯了這個(gè)問(wèn)題?;谌缟弦蛩?,一個(gè)典型的挑戰(zhàn)來(lái)自針對(duì)東西向流量的安全管控。如上所述,云原生技術(shù)的應(yīng)用大大增加了數(shù)據(jù)中心服務(wù)器之間的數(shù)據(jù)交換(東西向流量有數(shù)據(jù)表明東西向流量在數(shù)據(jù)中心總流量中的占比接近80%,這就面臨一個(gè)問(wèn)題,一旦攻擊者繞過(guò)南北向流量的邊界防御,就可能在內(nèi)網(wǎng)中肆意蔓延,如何有效控制內(nèi)網(wǎng)中的東西向流量成為一個(gè)重要的安全問(wèn)題。采取更嚴(yán)格的細(xì)粒度安全模型是解決這個(gè)挑戰(zhàn)的路徑之一,其中分布式防火墻技術(shù)可以將安全和工作負(fù)載在細(xì)粒度上聯(lián)系起來(lái)。但是,是9采用純軟件方式、還是其他軟硬一體的解決策略也需要具體分析和討論。這些因素都對(duì)金融云平臺(tái)在安全防護(hù)上提出了持續(xù)的挑5.高可用的挑戰(zhàn)云原生技術(shù)在企業(yè)實(shí)際場(chǎng)景中的實(shí)施落地,特別是在金融場(chǎng)景的實(shí)施落地,仍然面臨諸多挑戰(zhàn)。如何實(shí)現(xiàn)金融云平臺(tái)的高可用性是當(dāng)前的挑戰(zhàn)之一。金融云平臺(tái)的高可用是一個(gè)系統(tǒng)級(jí)平臺(tái)層面的要求,是分布式系統(tǒng)架構(gòu)設(shè)計(jì)中必須考慮的因素之一。架構(gòu)實(shí)現(xiàn)上可以通過(guò)冗余和自動(dòng)故障遷移來(lái)實(shí)現(xiàn),在故障遷移方面,首先就需要能夠識(shí)別故障,能夠在技術(shù)風(fēng)險(xiǎn)事件中有全鏈路的監(jiān)控和管理能力。這就包括事件發(fā)生前、發(fā)展中、發(fā)生后的連續(xù)的業(yè)務(wù)監(jiān)控和追溯能力。具體到風(fēng)險(xiǎn)事件發(fā)生前,就需要具備日常業(yè)務(wù)巡檢、故障演練、業(yè)務(wù)監(jiān)控,建立風(fēng)險(xiǎn)發(fā)現(xiàn)等手段;在風(fēng)險(xiǎn)事件發(fā)生時(shí),需要具備應(yīng)急管理快速拉起應(yīng)急流程的能力,完成故障快速診斷,并通過(guò)應(yīng)急預(yù)案、容災(zāi)切換實(shí)現(xiàn)故障在風(fēng)險(xiǎn)事件結(jié)束后,需要具備風(fēng)險(xiǎn)管理回溯、復(fù)盤(pán)等機(jī)制,加固風(fēng)險(xiǎn)事件發(fā)現(xiàn)和診斷能力。這些能力和手段保證了高可用性的實(shí)現(xiàn),但這些功能的具體實(shí)現(xiàn)依托于具體的基礎(chǔ)設(shè)施(IaaS)所能提供的能力。在高可用層面一個(gè)有代表性的挑戰(zhàn)來(lái)自裸金屬的應(yīng)用,在裸金屬應(yīng)用中需要額外的網(wǎng)關(guān)服務(wù)器來(lái)承擔(dān)虛擬化網(wǎng)絡(luò)的開(kāi)銷(xiāo),在PXE裝機(jī),本地盤(pán)遷移等能力上性能不高且耗時(shí)長(zhǎng)?;谶@些基本的能力現(xiàn)狀,裸金屬服務(wù)器在出現(xiàn)硬件故障時(shí),無(wú)法像虛擬機(jī)一樣在短時(shí)間內(nèi)恢復(fù)或遷移,不能滿(mǎn)足故障應(yīng)急需要,無(wú)法提供高可用能力。另外還有其他的情形,例如容器平臺(tái)的宿主節(jié)點(diǎn)使用了IaaS虛擬機(jī)且啟用了SDN網(wǎng)絡(luò),當(dāng)容器平臺(tái)啟用CNI特性時(shí),容器平臺(tái)上的應(yīng)用就可以和IaaS虛擬機(jī)的業(yè)務(wù)應(yīng)用直接通信。如果和傳統(tǒng)網(wǎng)絡(luò)中的舊應(yīng)用通信,則需要開(kāi)啟IaaS的NAT特性或者為宿主節(jié)點(diǎn)配置EIP地址。可以看到,不同業(yè)務(wù)部署和實(shí)現(xiàn)方法對(duì)保證高可用性需要提供針對(duì)性的功能實(shí)現(xiàn),一方面增加了適配開(kāi)發(fā)的工作量和維護(hù)成本,另一方面無(wú)法解耦軟件與軟件之間、軟件與硬件之間的耦合性。6.人工智能大模型訓(xùn)練難度大大模型通過(guò)海量數(shù)據(jù)的訓(xùn)練學(xué)習(xí),具備了強(qiáng)大的語(yǔ)言理解和表達(dá)、思維鏈推理等能力,在文本圖像理解、內(nèi)容生成等人工智能任務(wù)中表現(xiàn)出顯著優(yōu)勢(shì)和巨大潛力。相較于傳統(tǒng)人工智能算法一事一議的建模方式,大模型具備更強(qiáng)的通用能力,可處理多種任務(wù),可較好解決傳統(tǒng)模型的碎片化問(wèn)題。大模型作為一種新型人工智能技術(shù),在金融領(lǐng)域的應(yīng)用范圍涵蓋了風(fēng)險(xiǎn)管理、欺詐檢測(cè)、語(yǔ)音識(shí)別和自然語(yǔ)言處理等方面。通過(guò)人工智能大模型可以提高金融行業(yè)的應(yīng)用效率,降低成本,提高精確性和安全性,并且為客戶(hù)和投資者提供更好的服務(wù)和體驗(yàn)。訓(xùn)練一個(gè)大模型當(dāng)前主要面臨以下幾方面挑戰(zhàn)。(1)內(nèi)存墻。GPT3模型擁有1700億的參數(shù),光內(nèi)存消耗需要近800GB。訓(xùn)練過(guò)程因?yàn)闀?huì)有權(quán)重、激活、優(yōu)化器狀態(tài),再加上自動(dòng)微分所產(chǎn)生臨時(shí)變量,需要3500GB內(nèi)存,一個(gè)大模型的訓(xùn)練就需要100多塊具有32GB內(nèi)存的GPU。隨著大模型的發(fā)展,參數(shù)會(huì)變得越來(lái)越大。而GPU與GPU之間的內(nèi)存如何高效的進(jìn)行交換,對(duì)大模型的訓(xùn)練效率有直接影響。(2)通信墻。大模型通過(guò)模型并行、流水線(xiàn)并行切分到大模型訓(xùn)練集群后,通訊便成了主要的性能瓶頸。對(duì)于大規(guī)模的深度學(xué)習(xí)模型,動(dòng)輒需要幾百甚至幾千張GPU卡的算力,服務(wù)器節(jié)點(diǎn)多,跨服務(wù)器通信需求巨大,使得網(wǎng)絡(luò)性能成為GPU集群系統(tǒng)的瓶頸。傳統(tǒng)基于以太網(wǎng)絡(luò)的TCP通信方式,不僅時(shí)延高,而且極大消耗了寶貴的計(jì)算資源和內(nèi)存帶寬資源,不能滿(mǎn)足大規(guī)模的深度學(xué)習(xí)的網(wǎng)絡(luò)通信需求。(3)存儲(chǔ)墻。大模型訓(xùn)練過(guò)程中需要讀取和存放海量數(shù)據(jù)到磁盤(pán)中,如何高效存放這些數(shù)據(jù),以及集群中的GPU如何共享這些數(shù)據(jù)將直接影響到大模型訓(xùn)練的時(shí)間。二、DPU發(fā)展與趨勢(shì)隨著云計(jì)算、虛擬化技術(shù)的發(fā)展,網(wǎng)卡也隨之發(fā)展,從功能和硬件結(jié)構(gòu)上基本可劃分為4個(gè)階段。1.傳統(tǒng)基礎(chǔ)網(wǎng)卡(NIC)。負(fù)責(zé)數(shù)據(jù)報(bào)文的收發(fā),具有較少的硬件卸載能力。硬件上以ASIC硬件邏輯實(shí)現(xiàn)網(wǎng)絡(luò)物理鏈路層,以及MAC層的報(bào)文處理,后期NIC標(biāo)卡也支持了,諸如CRC校驗(yàn)的功能。不具有編程能力。2.智能網(wǎng)卡(SmartNIC)。具備一定的數(shù)據(jù)平面硬件卸載能力,例如OVS/vROuter硬件卸載。硬件結(jié)構(gòu)上以FPGA或者是帶有FPGA和處理器內(nèi)核的集成處理器(這里處理器功能較弱)來(lái)實(shí)現(xiàn)數(shù)據(jù)面硬件卸載。3.FPGA+CPU的DPU網(wǎng)卡(FPGA-BasedDPU)。兼具智能網(wǎng)卡功能的同時(shí),可以支持?jǐn)?shù)據(jù)面和控制面的卸載以及一定的控制平面與數(shù)據(jù)平面的可編程能力。硬件結(jié)構(gòu)的發(fā)展上,基于FPGA增加了通用CPU處理器,例如IntelCPU。4.DPUSOC網(wǎng)卡(Single-ChipDPU)。單芯片的通用可編程DPU芯片,具備豐富的硬件卸載加速和可編程能力,支持不同云計(jì)算場(chǎng)景和資源統(tǒng)一管理特性。硬件上,采用單芯片的SOC形態(tài),兼顧性能和功耗。FPGA-BasedDPU在硬件設(shè)計(jì)上的挑戰(zhàn)主要來(lái)自芯片面積和功耗。面積上,PCIe接口的結(jié)構(gòu)尺寸限定了板上的芯片面積;功耗上,板卡的散熱設(shè)計(jì)與芯片和整板的功耗密切相關(guān)。這兩個(gè)因素制約著FPGA方案的持續(xù)發(fā)展。DPUSOC方案吸取了從NIC到FPGA-BasedDPU的發(fā)展過(guò)程的軟硬件經(jīng)驗(yàn)和成果,是目前以DPU為中心的數(shù)據(jù)中心架構(gòu)的重要演進(jìn)路徑。DPU作為軟件定義芯片的典型代表,基于“軟件定義、硬件加速”的理念,是集數(shù)據(jù)處理為核心功能于芯片的通用處理器。DPU通用處理單元用來(lái)處理控制平面業(yè)務(wù),專(zhuān)用處理單元保證了數(shù)據(jù)平面的處理性能,從而達(dá)到了性能與通用性的平衡。DPU專(zhuān)用處理單元用來(lái)解決通用基礎(chǔ)設(shè)施虛擬化的性能瓶頸,通用處理單元?jiǎng)t保證DPU的通用性,使得DPU能夠廣泛適用于云基礎(chǔ)設(shè)施的各種場(chǎng)景中,實(shí)現(xiàn)虛擬化軟件框架向DPU的平滑遷移。1.NIC的發(fā)展和應(yīng)用傳統(tǒng)基礎(chǔ)網(wǎng)卡NIC,又稱(chēng)網(wǎng)絡(luò)適配器,是構(gòu)成計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)中最基本和最重要的連接設(shè)備,其主要工作是將需要傳輸?shù)臄?shù)據(jù)轉(zhuǎn)換為網(wǎng)絡(luò)設(shè)備能夠識(shí)別的格式(如圖2所示)。在網(wǎng)絡(luò)技術(shù)發(fā)展的帶動(dòng)下,傳統(tǒng)基礎(chǔ)網(wǎng)卡的功能也更加豐富,LSO/LRO、VLAN等支持SR-IOV和流量管理QoS,傳統(tǒng)基礎(chǔ)網(wǎng)卡的網(wǎng)絡(luò)接口帶寬也由原來(lái)的百兆、千兆發(fā)展到10G、25G乃至在云計(jì)算虛擬化網(wǎng)絡(luò)中,傳統(tǒng)基礎(chǔ)網(wǎng)卡向虛擬機(jī)提供網(wǎng)絡(luò)接入的方式主要分為以下3種。(1)網(wǎng)卡接收流量經(jīng)操作系統(tǒng)內(nèi)核協(xié)議棧轉(zhuǎn)發(fā)至虛擬機(jī)。(2)由DPDK用戶(hù)態(tài)驅(qū)動(dòng)接管網(wǎng)卡,讓數(shù)據(jù)包繞過(guò)操作系統(tǒng)內(nèi)核協(xié)議棧直接拷貝到虛擬機(jī)內(nèi)存。(3)使用SR-IOV技術(shù),將物理網(wǎng)卡PF虛擬化成多個(gè)具有網(wǎng)卡功能的虛擬VF,再將VF直通到虛擬機(jī)中。隨著VxLAN等隧道協(xié)議以及OpenFlow、OVS等虛擬交換技術(shù)的應(yīng)用,網(wǎng)絡(luò)處理的復(fù)雜度在逐漸增大,需要消耗更多的CPU資源,因此智能網(wǎng)卡SmartNIC誕生了。2.SmartNIC的發(fā)展和應(yīng)用智能網(wǎng)卡SmartNIC除了具備傳統(tǒng)基礎(chǔ)網(wǎng)卡的網(wǎng)絡(luò)傳輸功能外,還提供豐富的硬件卸載加速能力,能夠提升云計(jì)算網(wǎng)絡(luò)的轉(zhuǎn)發(fā)速率,釋放主機(jī)CPU計(jì)算資源(如圖3所示)。智能網(wǎng)卡SmartNIC上沒(méi)有通用處理器CPU,需要主機(jī)CPU進(jìn)行控制面管理。智能網(wǎng)卡SmartNIC主要卸載加速對(duì)象是數(shù)據(jù)但是隨著云計(jì)算應(yīng)用中網(wǎng)絡(luò)速率的不斷提高,主機(jī)仍會(huì)消耗大量寶貴的CPU資源對(duì)流量進(jìn)行分類(lèi)、跟蹤和控制,如何實(shí)現(xiàn)主機(jī)CPU的“零消耗”成了云廠商下一步的研究方向。3.FPGA-BasedDPU網(wǎng)卡的發(fā)展和應(yīng)用相比智能網(wǎng)卡SmartNIC,F(xiàn)PGA-BasedDPU網(wǎng)卡在硬件架構(gòu)上增加了通用CPU處理單元,組合成FPGA+CPU的架構(gòu)形態(tài),從而便于實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)、存儲(chǔ)、安全和管控等通用基礎(chǔ)設(shè)施的加速和在這個(gè)階段中,DPU的產(chǎn)品形態(tài)主要以FPGA+CPU為主?;贔PGA+CPU硬件架構(gòu)的DPU具有良好的軟硬件可編程性,在DPU發(fā)展初期大部分DPU廠商都選擇了這個(gè)方案。該方案開(kāi)發(fā)時(shí)間相對(duì)較短且迭代快速,能夠迅速完成定制化功能開(kāi)發(fā),便于DPU廠商快速推出產(chǎn)品,搶占市場(chǎng)。但是隨著網(wǎng)絡(luò)帶寬從25G向100G的遷移,基于FPGA+CPU硬件架構(gòu)的DPU受到芯片制程和FPGA結(jié)構(gòu)的限制,導(dǎo)致在追求更高吞吐能力時(shí),難以做到對(duì)芯片面積和功耗的很好控制,從而制約了這種DPU架構(gòu)的持續(xù)發(fā)展。4.DPUSOC網(wǎng)卡的發(fā)展和應(yīng)用DPUSOC是基于ASIC的硬件架構(gòu),結(jié)合了ASIC和CPU的優(yōu)勢(shì),兼顧了專(zhuān)用加速器的優(yōu)異性能和通用處理器的可編程靈活性的單芯片DPU技術(shù)方案,是驅(qū)動(dòng)云計(jì)算技術(shù)發(fā)展的重要因素。如前一段所述,雖然DPU在云計(jì)算扮演著重要的作用,但傳統(tǒng)的DPU方案多以FPGA-based方案呈現(xiàn),隨著服務(wù)器從25G向下一代100G服務(wù)器遷移,其成本、功耗、功能等諸多方面受到了嚴(yán)重的挑戰(zhàn)。單芯片的DPUSOC不僅在成本、功耗方面有著巨容器的應(yīng)用管理部署,也支持裸金屬應(yīng)用(如圖5所示)。隨著DPU技術(shù)的不斷發(fā)展,通用可編程的DPUSOC正在成為云廠商在數(shù)據(jù)中心建設(shè)中的關(guān)鍵部件。DPUSOC可以實(shí)現(xiàn)對(duì)數(shù)據(jù)中心中的計(jì)算資源和網(wǎng)絡(luò)資源的經(jīng)濟(jì)高效管理,具備豐富功能和可編程能力的DPUSOC可以支持不同云計(jì)算場(chǎng)景和資源統(tǒng)一管理,優(yōu)化數(shù)據(jù)中心計(jì)算資源利用率。(二)DPU生態(tài)發(fā)展可以看到DPU技術(shù)是由需求驅(qū)動(dòng),然后快速發(fā)展起來(lái)的新技術(shù)形態(tài)。近幾年來(lái),經(jīng)過(guò)國(guó)內(nèi)外互聯(lián)網(wǎng)公司在不同應(yīng)用場(chǎng)景下的嘗試和驗(yàn)證,取得了不錯(cuò)的成本收益。例如在國(guó)外AWS使用NiDPU系統(tǒng)把網(wǎng)絡(luò)、存儲(chǔ)、安全和監(jiān)控等功能分解并轉(zhuǎn)移到專(zhuān)用的硬件和軟件上,將服務(wù)器上幾乎所有資源都提供給服務(wù)實(shí)例,降低了數(shù)據(jù)中心總體的運(yùn)行成本;在國(guó)內(nèi)阿里云發(fā)布了云基礎(chǔ)設(shè)施處理器CIPU,實(shí)現(xiàn)了網(wǎng)絡(luò)、存儲(chǔ)、虛擬化全硬件卸載。隨著DPU技術(shù)的不斷完善和功能定位的逐步明晰,DPU的生態(tài)建設(shè)也在積極推進(jìn),在行業(yè)內(nèi)取得了很大的進(jìn)展。在國(guó)外,首先Nvidia推動(dòng)DOCA軟件棧的發(fā)展,促進(jìn)和降低終端用戶(hù)對(duì)DPU的使用門(mén)檻。從CUDA軟件生態(tài)之于NvidiaGPU的作用,可以看到DPU軟件生態(tài)對(duì)DPU技術(shù)發(fā)展的重要性,因此DOCA廣泛受到了業(yè)界的持續(xù)關(guān)注。其次,除了DOCA之外,OPI(OpenProgrammableInfrastructure,開(kāi)放可編程基礎(chǔ)設(shè)施在2022年6月由Linux基金會(huì)發(fā)布,旨在為基于DPU/IPU等可編程硬件承載的軟件開(kāi)發(fā)框架培育一個(gè)由社區(qū)驅(qū)動(dòng)的開(kāi)放生態(tài),簡(jiǎn)化應(yīng)用程序中的網(wǎng)絡(luò)、存儲(chǔ)和安全API,從而在開(kāi)發(fā)運(yùn)維、安全運(yùn)維以及網(wǎng)絡(luò)運(yùn)維之間的云和數(shù)據(jù)中心中實(shí)現(xiàn)更具可移植性和高性能的應(yīng)用程序。進(jìn)行了發(fā)布,在DPU管理、計(jì)算卸載、存儲(chǔ)卸載、網(wǎng)絡(luò)卸載、安全卸載和RDMA支持等方面提供通用軟件開(kāi)發(fā)框架和兼容性接口。與此同時(shí),如中國(guó)信息通信研究院、中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)等部門(mén)和組織,也在制定積極制定相應(yīng)的標(biāo)準(zhǔn),從多個(gè)維度,例如兼容性規(guī)范、硬件編程規(guī)范、應(yīng)用生態(tài)接口規(guī)范等維度,來(lái)實(shí)現(xiàn)DPU的軟硬件解耦和互聯(lián)互通的互操作能力。當(dāng)前,國(guó)內(nèi)外都在圍繞著DPU這個(gè)新興技術(shù)積極推進(jìn)相關(guān)軟硬件生態(tài)的開(kāi)發(fā)和迭代。并且,立足于國(guó)內(nèi),無(wú)論從行業(yè)本身還是來(lái)自政策的引導(dǎo),都在積極推動(dòng)著DPU的生態(tài)建設(shè)和標(biāo)準(zhǔn)化進(jìn)程。不過(guò)需要強(qiáng)調(diào)的是,目前DPU的生態(tài)發(fā)展還處在早期。軟硬件都還面臨諸多挑戰(zhàn)。例如在硬件層面,服務(wù)器中的電源管理、BMC帶外管控邏輯與DPU的需求并不完全匹配;在軟件層面還沒(méi)有形成統(tǒng)一的軟件棧(包括SDK和運(yùn)行時(shí)環(huán)境也沒(méi)有完善的定義清晰的API接口實(shí)現(xiàn)與云平臺(tái)軟件系統(tǒng)的兼容性對(duì)接;在操作系統(tǒng)層面,例如Linux、windows、VMware以及各類(lèi)國(guó)產(chǎn)操作系統(tǒng)(openEuler等),也面臨適配的需求。長(zhǎng)期來(lái)看,DPU生態(tài)建設(shè)是一個(gè)不斷迭代長(zhǎng)期完善的過(guò)程。(三)DPU典型案例在DPU的設(shè)計(jì)、開(kāi)發(fā)和使用中,國(guó)內(nèi)外芯片巨頭和頭部云服務(wù)商都投入了大量的研發(fā)資源,經(jīng)過(guò)不斷探索和實(shí)踐,取得了很好的成本收益。1.DPU在AWS(亞馬遜云)中的應(yīng)用AWS是全球領(lǐng)先的云計(jì)算服務(wù)和解決方案提供商,AWSNitroDPU系統(tǒng)已經(jīng)成為AWS云服務(wù)的技術(shù)基石。AWS借助NitroDPU系統(tǒng)把網(wǎng)絡(luò)、存儲(chǔ)、安全和監(jiān)控等功能分解并轉(zhuǎn)移到專(zhuān)用的硬件和軟件上,將服務(wù)器上幾乎所有資源都提供給服務(wù)實(shí)例,極大地降低了成本。NitroDPU在亞馬遜云中的應(yīng)用可以使一臺(tái)服務(wù)器每年可以多獲得幾千美元的收益。20NitroDPU系統(tǒng)主要分為以下幾個(gè)部分(如圖6所示)。(1)Nitro卡。一系列用于網(wǎng)絡(luò)、存儲(chǔ)和管控的專(zhuān)用硬件,以提高整體系統(tǒng)性能。(2)Nitro安全芯片。將虛擬化和安全功能轉(zhuǎn)移到專(zhuān)用的硬件和軟件上,減少攻擊面,實(shí)現(xiàn)安全的云平臺(tái)。(3)Nitro控制卡。一種輕量型Hypervisor管理程序,可以管理內(nèi)存和CPU的分配,并提供與裸機(jī)無(wú)異的性能。NitroDPU系統(tǒng)提供了密鑰、網(wǎng)絡(luò)、安全、服務(wù)器和監(jiān)控等功能支持,釋放了底層服務(wù)資源供客戶(hù)的虛擬機(jī)使用,并且DPU使AWS可以提供更多的裸金屬實(shí)例類(lèi)型,甚至將特定實(shí)例的網(wǎng)絡(luò)性能提升到100Gbps。2.NvidiaDPU的應(yīng)用Nvidia是一家以設(shè)計(jì)和銷(xiāo)售圖形處理器GPU為主的半導(dǎo)體公司,GPU產(chǎn)品在AI和高性能計(jì)算HPC領(lǐng)域被廣泛應(yīng)用。2020年4月,Nvidia以69億美元的價(jià)格收購(gòu)了網(wǎng)絡(luò)芯片和設(shè)備公司Mellanox,隨后陸續(xù)推出BlueField系列DPU。21DPU的先進(jìn)特性,是首款為AI和加速計(jì)算而設(shè)計(jì)的DPU。BlueField-3DPU提供了最高400Gbps網(wǎng)絡(luò)連接,可以卸載、加速和隔離,支持軟件定義網(wǎng)絡(luò)、存儲(chǔ)、安全和管控功能。3.IntelIPU的應(yīng)用IntelIPU是一種具有硬化加速器和以太網(wǎng)連接的高級(jí)網(wǎng)絡(luò)設(shè)備,可使用緊密耦合的專(zhuān)用可編程內(nèi)核來(lái)加速和管理基礎(chǔ)設(shè)施功能。IPU提供完整的基礎(chǔ)設(shè)施卸載,并充當(dāng)運(yùn)行基礎(chǔ)設(shè)施應(yīng)用的主機(jī)控制點(diǎn),以提供額外的安全層。使用IntelIPU,可以將全部基礎(chǔ)設(shè)施業(yè)務(wù)從服務(wù)器卸載到IPU上,釋放服務(wù)器CPU資源,也為云服務(wù)提供商提供了一個(gè)獨(dú)立且安全的控制點(diǎn)。222021年,Intel在IntelArchitectureDay上發(fā)布了oakSpringsCanyon和MountEvansIPU產(chǎn)品(如圖8所示)。其中,oakSpringsCanyon是基于FPGA的IPU產(chǎn)品,MountEvansInteloakSpringsCanyonIPU配備了IntelAgilexFPGA和Xeon-DCPU。IntelMountEvansIPU是Intel與Google共同設(shè)計(jì)的SoC(System-on-a-Chip),MountEvans主要分為Io子系統(tǒng)和計(jì)算子系統(tǒng)兩個(gè)部分。網(wǎng)絡(luò)部分用ASIC進(jìn)行數(shù)據(jù)包處理,性能相比FPGA高很多,且功耗更低。計(jì)算子系統(tǒng)使用了16個(gè)ARMNeoverseN1核心,擁有極強(qiáng)的計(jì)算能力。4.DPU在阿里云中的應(yīng)用阿里云也在DPU的技術(shù)上不斷進(jìn)行著探索。2022年阿里云峰會(huì)上,阿里云正式發(fā)布了云基礎(chǔ)設(shè)施處理器CIPU,CIPU的前23身是基于神龍架構(gòu)的MoC卡(MicroServeronaCard),從功能和定位符合DPU的定義。MoC卡擁有獨(dú)立的IO、存儲(chǔ)和處理單元,承擔(dān)了網(wǎng)絡(luò)、存儲(chǔ)和設(shè)備虛擬化的工作。第一代和第二代MoC卡解決了狹義上的計(jì)算虛擬化零開(kāi)銷(xiāo)問(wèn)題,網(wǎng)絡(luò)和存儲(chǔ)部分的虛擬化仍由軟件實(shí)現(xiàn)。第三代MoC卡實(shí)現(xiàn)了部分網(wǎng)絡(luò)轉(zhuǎn)發(fā)功能硬化,網(wǎng)絡(luò)性能大幅提升。第四代MoC卡實(shí)現(xiàn)了網(wǎng)絡(luò)、存儲(chǔ)全硬件卸載,還支持了RDMA能力。阿里云CIPU作為一顆為飛天系統(tǒng)設(shè)計(jì)的數(shù)據(jù)中心處理器系統(tǒng),對(duì)于阿里云構(gòu)建新一代完整的軟硬件云計(jì)算架構(gòu)體系有著重大意義。5.DPU在火山引擎中的應(yīng)用火山引擎同樣在不斷探索自研DPU的道路,其自研DPU采用軟硬一體虛擬化技術(shù),旨在為用戶(hù)提供可彈性伸縮的高性能計(jì)算服務(wù)。在火山引擎彈性計(jì)算產(chǎn)品中,第二代彈性裸金屬服務(wù)器和第三代云服務(wù)器都搭載了自研DPU,在產(chǎn)品能力和應(yīng)用場(chǎng)景上進(jìn)行了廣泛驗(yàn)證。2022年正式對(duì)外商用的火山引擎第二代EBM實(shí)例首次搭載火山自研DPU,在整體性能上既保留了傳統(tǒng)物理機(jī)的穩(wěn)定性和安全性?xún)?yōu)勢(shì),能夠?qū)崿F(xiàn)安全物理隔離,又兼具虛擬機(jī)的彈性和靈活性?xún)?yōu)勢(shì),是新一代多優(yōu)勢(shì)兼具的高性能云服務(wù)器。2023年上半年發(fā)布的火山引擎第三代ECS實(shí)例同樣結(jié)合了火山引擎自研最新DPU的架構(gòu)和自研虛擬交換機(jī)、虛擬化技術(shù),網(wǎng)絡(luò)及存儲(chǔ)IO性能均實(shí)現(xiàn)了大幅提升。24三、基于DPU構(gòu)建綠色低碳金融云近年來(lái),為落實(shí)雙碳等國(guó)家重大戰(zhàn)略,金融業(yè)積極實(shí)施綠色發(fā)展轉(zhuǎn)型。數(shù)據(jù)中心作為金融業(yè)的關(guān)鍵基礎(chǔ)設(shè)施以及數(shù)字經(jīng)濟(jì)的重要基礎(chǔ),是金融業(yè)發(fā)展和數(shù)字化轉(zhuǎn)型中的重要抓手。而在數(shù)字化轉(zhuǎn)型中,數(shù)據(jù)中心一方面需要支撐大量數(shù)據(jù)吞吐和運(yùn)算能力,另一方面還要面對(duì)來(lái)自服務(wù)器等IT產(chǎn)品的散熱與功耗挑戰(zhàn),需要大量運(yùn)維成本和能源消耗,已經(jīng)成為金融機(jī)構(gòu)的主要開(kāi)支。黨的二十大報(bào)告最新提出,要加快發(fā)展方式綠色轉(zhuǎn)型,完善支持綠色發(fā)展的金融政策和標(biāo)準(zhǔn)體系,發(fā)展綠色低碳產(chǎn)業(yè)。如何讓金融業(yè)數(shù)據(jù)中心建設(shè)既滿(mǎn)足大量數(shù)據(jù)吞吐和運(yùn)算能力的要求,又滿(mǎn)足綠色低碳的發(fā)展方針成為當(dāng)前一大難題。當(dāng)前金融云計(jì)算平臺(tái)架構(gòu)體系可分為基礎(chǔ)硬件設(shè)施與設(shè)備、DPU具備高效數(shù)據(jù)處理、內(nèi)置安全、網(wǎng)絡(luò)可編程、彈性資源25調(diào)度等能力,作為資源調(diào)度的中心,可以將計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等硬件設(shè)備與云計(jì)算架構(gòu)中的資源抽象層有機(jī)結(jié)合起來(lái)(如圖10所示),充分利用軟件定義計(jì)算、軟件定義網(wǎng)絡(luò)、軟件定義存儲(chǔ)等技術(shù)提升資源利用率,使得金融云更加靈活彈性,從而助力金融業(yè)建設(shè)綠色、安全和高效的數(shù)據(jù)中心,積極踐行國(guó)家戰(zhàn)略。(一)統(tǒng)一部署彈性調(diào)度隨著云原生技術(shù)的快速發(fā)展和大規(guī)模應(yīng)用,當(dāng)前云原生在金融行業(yè)中的落地應(yīng)用也越來(lái)越多,通過(guò)將云計(jì)算、大數(shù)據(jù)、區(qū)塊鏈等技術(shù)和云原生理念有機(jī)結(jié)合在一起,以實(shí)現(xiàn)數(shù)據(jù)中心計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源的彈性調(diào)度和彈性伸縮,從而構(gòu)建跨層級(jí)、跨區(qū)域的智能化云原生數(shù)據(jù)中心,最終提升金融行業(yè)的運(yùn)營(yíng)效率。云原生技術(shù)平臺(tái)可以通過(guò)混合云對(duì)接多種基礎(chǔ)設(shè)施,例如容器、虛擬機(jī)、裸金屬服務(wù)器等計(jì)算資源。用戶(hù)可以通過(guò)申請(qǐng)或釋26放云化的計(jì)算資源來(lái)實(shí)現(xiàn)成本的最優(yōu)化,同時(shí)通過(guò)云原生的混合調(diào)度能力實(shí)現(xiàn)各種資源的個(gè)性化配置,做到業(yè)務(wù)的多樣化部署。在傳統(tǒng)的數(shù)據(jù)中心中,要滿(mǎn)足云原生架構(gòu)下不同業(yè)務(wù)對(duì)計(jì)算資源的個(gè)性化需求,一般需要對(duì)整個(gè)數(shù)據(jù)中心的資源進(jìn)行預(yù)先分配,劃分出容器、虛擬機(jī)、裸金屬服務(wù)器所占資源的比例,并以此比例注冊(cè)相應(yīng)的計(jì)算資源。同時(shí),為了實(shí)現(xiàn)裸金屬服務(wù)器和虛擬化平臺(tái)或者容器云平臺(tái)的互通,一般需要為裸金屬服務(wù)器單獨(dú)劃定專(zhuān)用的物理交換機(jī)來(lái)實(shí)現(xiàn)裸金屬服務(wù)器與虛擬化網(wǎng)絡(luò)的互在這種架構(gòu)下,虛擬機(jī)、容器、裸金屬服務(wù)器所使用的資源都是預(yù)先固定的,因此計(jì)算資源的類(lèi)型屬于不可調(diào)度狀態(tài),并不符合云原生的理念。在云原生時(shí)代,應(yīng)用的發(fā)展非常迅速,而計(jì)算資源實(shí)例類(lèi)型的使用是不可預(yù)測(cè)的,很可能出現(xiàn)虛擬化資源不夠滿(mǎn)足需求的情況,而為了滿(mǎn)足虛擬化資源就只能通過(guò)增加虛擬化服務(wù)器來(lái)解決資源不足的問(wèn)題。而此時(shí),若裸金屬或者容器所預(yù)先分配的資源處于空閑狀態(tài),但因?yàn)槲锢砩系念A(yù)先限制而無(wú)法轉(zhuǎn)換為虛擬化所需要的資源,依然會(huì)占用數(shù)據(jù)中心的空間和運(yùn)維等成本,導(dǎo)致計(jì)算資源沒(méi)有完全充分利用,最終出現(xiàn)數(shù)據(jù)中心的整體利用率不高,而所消耗的運(yùn)維和能源成本卻很高的情況。27為使云原生技術(shù)在金融行業(yè)實(shí)現(xiàn)標(biāo)計(jì)算資源標(biāo)準(zhǔn)化和更加靈活的彈性調(diào)度,并能更好地支撐對(duì)計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)等資源進(jìn)行彈性伸縮,同時(shí)又降本增效,讓數(shù)據(jù)中心的計(jì)算資源發(fā)揮更大的價(jià)值,DPU應(yīng)運(yùn)而生。在以DPU為中心構(gòu)建云原生金融數(shù)據(jù)中心的架構(gòu)下(如圖12所示),數(shù)據(jù)中心的建設(shè)從一開(kāi)始就不需要從硬件層面預(yù)分配虛擬機(jī)、容器、裸金屬服務(wù)器等計(jì)算資源,特別是裸金屬服務(wù)器不再需要為其單獨(dú)配置專(zhuān)用的交換機(jī)以及相應(yīng)的裸金屬鏡像PXE服務(wù)器。通過(guò)DPU特有的云盤(pán)啟動(dòng)能力支持,能夠以分鐘級(jí)提供裸金屬計(jì)算實(shí)例,同時(shí)DPU能夠?yàn)槁憬饘賹?shí)例提供彈性磁盤(pán)內(nèi)置虛擬交換機(jī),用戶(hù)可以根據(jù)自己的需要配置相應(yīng)的虛擬網(wǎng)絡(luò),實(shí)現(xiàn)原先需要專(zhuān)用交換機(jī)才能實(shí)現(xiàn)的功能。28通過(guò)DPU對(duì)數(shù)據(jù)中心的計(jì)算資源虛擬機(jī)、容器、裸金屬服務(wù)器進(jìn)行統(tǒng)一并池管理,可以大幅提升數(shù)據(jù)中心空間利用率,降低數(shù)據(jù)中心能耗,使得數(shù)據(jù)中心運(yùn)維更加簡(jiǎn)單方便,實(shí)現(xiàn)從數(shù)據(jù)中心建設(shè)層面踐行云原生的理念,打造符合金融行業(yè)綠色、高效、靈活、高度集成的云原生數(shù)據(jù)中心。(二)計(jì)算實(shí)例高可用金融云平臺(tái)對(duì)外提供的計(jì)算實(shí)例主要包括虛擬機(jī)、容器、裸金屬。在以DPU為中心構(gòu)建的數(shù)據(jù)中心,通過(guò)DPU的云盤(pán)啟動(dòng)能力,每臺(tái)服務(wù)器可以進(jìn)行分鐘級(jí)別的靈活調(diào)整,切換角色。根據(jù)該特性,云平臺(tái)對(duì)裸金屬實(shí)例進(jìn)行生命周期管理,當(dāng)發(fā)現(xiàn)服務(wù)器故障或裸金屬實(shí)例不可達(dá)時(shí),首先通過(guò)云平臺(tái)的高可用機(jī)制將業(yè)務(wù)引導(dǎo)到正常狀態(tài)節(jié)點(diǎn),同時(shí)利用DPU提供的云盤(pán)啟動(dòng)方式將故障的裸金屬實(shí)例在另外的服務(wù)器迅速拉起恢復(fù)業(yè)務(wù)集群到正常29狀態(tài),實(shí)現(xiàn)裸金屬實(shí)例的高可用。在虛擬機(jī)實(shí)例方面,DPU提供硬件級(jí)熱遷移能力,可以將使用Passthrough技術(shù)的虛擬機(jī)根據(jù)云平臺(tái)在監(jiān)控到宿主機(jī)異常或虛擬機(jī)異常后,對(duì)虛擬機(jī)進(jìn)行熱遷移以實(shí)現(xiàn)虛擬機(jī)實(shí)例對(duì)外業(yè)務(wù)的高可用。在容器實(shí)例方面,通過(guò)把servicemesh卸載到DPU將多個(gè)由DPU提供網(wǎng)絡(luò)和存儲(chǔ)的容器構(gòu)建為一個(gè)服務(wù)網(wǎng)格,通過(guò)服務(wù)鏈的方式提供對(duì)外服務(wù),當(dāng)出現(xiàn)容器故障時(shí),利用servicemesh的自動(dòng)選路功能保證對(duì)外服務(wù)正常工作,同時(shí)利用云原生平臺(tái)提供的容器副本監(jiān)控機(jī)制可以快速的將故障容器進(jìn)行重建,在這兩種機(jī)制的配合下保證容器實(shí)例的高可用。(三)加速云原生網(wǎng)絡(luò)隨著云計(jì)算和容器化技術(shù)的發(fā)展,云原生架構(gòu)已經(jīng)成為現(xiàn)代應(yīng)用程序的主流架構(gòu)之一。云原生網(wǎng)絡(luò)是一種專(zhuān)門(mén)為云原生應(yīng)用程序設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu),是指在云環(huán)境下構(gòu)建、管理和運(yùn)行應(yīng)用程序的網(wǎng)絡(luò)。這種網(wǎng)絡(luò)的特點(diǎn)是高度自動(dòng)化和可編程,以適應(yīng)云原生下快速變化的應(yīng)用需求和規(guī)模。在云原生網(wǎng)絡(luò)中,網(wǎng)絡(luò)功能通常以虛擬化的方式存在,以提供更好的靈活性并做到兼容原有的物理網(wǎng)絡(luò)設(shè)備。在云原生大浪潮下,金融業(yè)務(wù)相較于傳統(tǒng)金融業(yè)務(wù)更加多元化和規(guī)?;?,需要更靈活、敏捷的業(yè)務(wù)和技術(shù)架構(gòu)來(lái)支撐。傳統(tǒng)的集中式單體業(yè)務(wù)架構(gòu)和多層架構(gòu)已經(jīng)無(wú)法滿(mǎn)足業(yè)務(wù)變化和行30業(yè)發(fā)展的需求。云原生的應(yīng)用程序通常采用分布式微服務(wù)架構(gòu),一個(gè)應(yīng)用程序由多個(gè)微服務(wù)組成,這些微服務(wù)之間會(huì)頻繁地通信和交換,這種架構(gòu)的特點(diǎn)是能夠提升應(yīng)用程序的可伸縮性和靈活性,這就對(duì)網(wǎng)絡(luò)提出了更高的要求,要做到穩(wěn)定、高帶寬和低時(shí)目前主流的網(wǎng)絡(luò)方案還是基于內(nèi)核協(xié)議棧或者虛擬交換機(jī),當(dāng)業(yè)務(wù)對(duì)帶寬和時(shí)延的要求比較高時(shí),當(dāng)前架構(gòu)就無(wú)法滿(mǎn)足應(yīng)用程序?qū)W(wǎng)絡(luò)的需求。特別是在統(tǒng)一資源管理的需求下,容器、虛擬機(jī)、裸金屬服務(wù)器需要在同一網(wǎng)絡(luò)平面下,若虛擬機(jī)使用虛擬網(wǎng)卡的方式接入網(wǎng)絡(luò),網(wǎng)絡(luò)的帶寬和時(shí)延都不能得到保證。為了滿(mǎn)足應(yīng)用程序的網(wǎng)絡(luò)需求,只能增加更多的工作負(fù)載,這在另一種程度上降低了數(shù)據(jù)中心的真實(shí)利用率,并帶來(lái)了更多的運(yùn)維和DPU作為數(shù)據(jù)處理的核心,借由半虛擬化幾乎能夠達(dá)到物理設(shè)備性能的特性,DPU為主機(jī)側(cè)提供硬件實(shí)現(xiàn)的半虛擬化設(shè)備virtio-net,使容器、裸金屬服務(wù)器和虛擬機(jī)都使用統(tǒng)一的網(wǎng)絡(luò)設(shè)備類(lèi)型進(jìn)行通信。另外,DPU內(nèi)置硬件包處理引擎,可以做到完全卸載虛擬交換機(jī)的快速路徑到硬件,實(shí)現(xiàn)高帶寬、低時(shí)延的可編程虛擬網(wǎng)絡(luò)(如圖13所示)。31(四)加速云原生存儲(chǔ)云原生存儲(chǔ)是一種針對(duì)云原生應(yīng)用設(shè)計(jì)的存儲(chǔ)架構(gòu),可更好地適應(yīng)動(dòng)態(tài)的云環(huán)境,提高應(yīng)用的可用性和可伸縮性。云原生存儲(chǔ)通常采用分布式存儲(chǔ)技術(shù),將數(shù)據(jù)分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,提高存儲(chǔ)系統(tǒng)的可靠性和可用性,并支持動(dòng)態(tài)擴(kuò)展和收縮。常見(jiàn)的云原生存儲(chǔ)技術(shù)包括如下幾種。1.對(duì)象存儲(chǔ)(objectStorage)。對(duì)象存儲(chǔ)是一種分布式存適用于存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)。2.分布式塊存儲(chǔ)(DistributedBlockStorage)。分布式塊存儲(chǔ)將數(shù)據(jù)分割成塊,然后將塊分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,可以提供高可靠性和高性能,適用于存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)和虛擬機(jī)磁盤(pán)。3.分布式文件系統(tǒng)(DistributedFileSystem)。分布式文件系統(tǒng)將文件分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,并提供文件系統(tǒng)接口,32支持多個(gè)客戶(hù)端訪(fǎng)問(wèn),可以提供高可靠性和高性能,適用于存儲(chǔ)大型文件和共享文件。其中虛擬機(jī)、裸金屬服務(wù)器以及一些應(yīng)用對(duì)塊存儲(chǔ)的性能和普遍的做法是優(yōu)化存儲(chǔ)協(xié)議、緩存,采用支持多種存儲(chǔ)協(xié)議和接口的分布式存儲(chǔ)系統(tǒng)。但隨著數(shù)據(jù)規(guī)模和數(shù)量越來(lái)越大,各種應(yīng)用對(duì)存儲(chǔ)的帶寬、時(shí)延等性能指標(biāo)的要求越來(lái)越高,存儲(chǔ)系統(tǒng)也變得越來(lái)越龐大和復(fù)雜。DPU作為數(shù)據(jù)處理的核心,一方面可以對(duì)裸金屬服務(wù)器、虛擬機(jī)提供標(biāo)準(zhǔn)的半虛擬化設(shè)備virtio-blk和nvme設(shè)備,同時(shí)這RBD等從而節(jié)省大量的非計(jì)算損耗。另一方面,通過(guò)DPU提供的RDMA技術(shù)和內(nèi)置的存儲(chǔ)協(xié)議加速引擎,為計(jì)算實(shí)例提供高帶寬、低時(shí)延的數(shù)據(jù)讀寫(xiě),提升數(shù)據(jù)中心存儲(chǔ)資源的效率,降低數(shù)據(jù)中心存儲(chǔ)資源的運(yùn)維和能耗等成本(如圖14所示)。33(五)加速微服務(wù)應(yīng)用伴隨著云原生和微服務(wù)的技術(shù)在金融行業(yè)的普及,以及服務(wù)網(wǎng)格(ServiceMesh)技術(shù)的逐漸成熟,解決了金融行業(yè)分布式系統(tǒng)的歷史包袱。服務(wù)網(wǎng)格架構(gòu)引入SideCar使現(xiàn)有的服務(wù)可以在不改造的情況下引入了服務(wù)治理能力,大大降低了中間件的研發(fā)投入和演進(jìn)成本,也降低了業(yè)務(wù)和中間件的耦合,基礎(chǔ)架構(gòu)與業(yè)務(wù)架構(gòu)可以獨(dú)立演進(jìn)。服務(wù)網(wǎng)格架構(gòu)也為多語(yǔ)言棧提供了服務(wù)治理能力。面向大規(guī)模金融級(jí)的微服務(wù)應(yīng)用,引入新系統(tǒng)架構(gòu)服務(wù)網(wǎng)格以實(shí)現(xiàn)分布式平臺(tái)的架構(gòu)轉(zhuǎn)型和技術(shù)組件能力進(jìn)化。服務(wù)網(wǎng)格通過(guò)SideCar接管業(yè)務(wù)進(jìn)程的出入口流量,將微服務(wù)治理的邏輯從業(yè)務(wù)中獨(dú)立出來(lái),由服務(wù)網(wǎng)格框架提供服務(wù)鑒定、過(guò)載保護(hù)、負(fù)載均衡等分布式服務(wù)治理的功能。盡管Sidecar在服務(wù)網(wǎng)格中帶來(lái)許多好處,但它也可能會(huì)帶來(lái)一些缺點(diǎn)。其中一種常見(jiàn)的缺點(diǎn)是延遲,這主要是因?yàn)樵S多服務(wù)網(wǎng)格解決方案需要通過(guò)Sidecar來(lái)處理網(wǎng)絡(luò)流量、域名解析和負(fù)載均衡等復(fù)雜的工作。當(dāng)本來(lái)應(yīng)該直接在進(jìn)程內(nèi)部完成的工作被轉(zhuǎn)移到了Sidecar中可能成為瓶頸,導(dǎo)致服務(wù)的性能下降。并且,隨著微服務(wù)規(guī)模不斷擴(kuò)大,服務(wù)網(wǎng)格資源占用量較大的問(wèn)題逐漸凸顯,同時(shí)由于服務(wù)網(wǎng)格代理進(jìn)程與業(yè)務(wù)進(jìn)程部署在一起共享資源,也存在相互影響的情況。34利用DPU異構(gòu)計(jì)算進(jìn)行卸載和加速的技術(shù)正不斷發(fā)展和演進(jìn),通過(guò)將SideCar卸載到DPU上,業(yè)務(wù)和服務(wù)網(wǎng)格的關(guān)系從“邏輯隔離”演進(jìn)為“物理隔離”,服務(wù)器上只運(yùn)行業(yè)務(wù)邏輯。在保持多語(yǔ)言的RPCSDK向業(yè)務(wù)輸出能力的同時(shí),對(duì)于卸載到DPU上的SideCar部分,通過(guò)軟硬件結(jié)合等方式,將SideCar重復(fù)性、高頻的操作用硬件卸載和加速,從而解決了服務(wù)網(wǎng)格鏈路延遲和資源隔離的問(wèn)題。(六)加速云原生安全云原生作為一種新的軟件開(kāi)發(fā)和部署理念,它強(qiáng)調(diào)應(yīng)用程序的可移植性、可擴(kuò)展性和彈性。云原生環(huán)境中有許多不同的組件和服務(wù),包括容器、微服務(wù)、自動(dòng)化部署工具等。這些新的組件和服務(wù)使得安全方面的需求也發(fā)生了變化。金融行業(yè)是對(duì)安全性要求最高的行業(yè)之一,因此金融行業(yè)的云原生架構(gòu)需要具備高可用、高可靠、高安全等特點(diǎn),需要采用一系列安全解決方案來(lái)保證整個(gè)云原生平臺(tái)的安全性。在云原生網(wǎng)絡(luò)中,mTLS是確保云原生應(yīng)用程序中微服務(wù)之間的通信安全的首選協(xié)議。DPU作為云原生架構(gòu)中數(shù)據(jù)處理的核心,對(duì)虛擬機(jī)、容器、裸金屬網(wǎng)絡(luò)進(jìn)行卸載加速的同時(shí),可以將防火墻等安全軟件部署在DPU上并使用DPI硬件引擎進(jìn)行加速,將計(jì)算實(shí)例產(chǎn)生的流量導(dǎo)入到這些安全軟件中,從而構(gòu)建零信任的網(wǎng)絡(luò)解決方案,對(duì)東西向流量進(jìn)行節(jié)點(diǎn)級(jí)的防護(hù)。同時(shí),DPU35支持國(guó)密硬件引擎,能夠?yàn)閿?shù)據(jù)的加解密提供更高安全的防護(hù)。(七)加速大模型訓(xùn)練隨著AI模型的規(guī)模越來(lái)越大,分布式訓(xùn)練成為AI大模型訓(xùn)練的主要方式。所謂分布式訓(xùn)練,即跨越單臺(tái)GPU服務(wù)器的算力限制,使用數(shù)據(jù)中心不同的物理服務(wù)器的GPU算力卡,通過(guò)高速低延遲網(wǎng)絡(luò)及存儲(chǔ)構(gòu)建GPU計(jì)算集群,實(shí)現(xiàn)更大規(guī)模的、多機(jī)多卡的GPU并行計(jì)算。通過(guò)GPU分布式訓(xùn)練技術(shù),可以在更短時(shí)間內(nèi)將模型訓(xùn)練到滿(mǎn)足工業(yè)級(jí)應(yīng)用的精度。GPU分布式訓(xùn)練優(yōu)化涉及計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)硬件層面,也包括數(shù)據(jù)并行、模型并行、GPU參數(shù)同步通信的算法和軟件實(shí)現(xiàn)層面,GPU集群任何一點(diǎn)出現(xiàn)性為了解決“內(nèi)存墻”與“通信墻”,通常會(huì)使用RDMA技術(shù)和100G帶寬的網(wǎng)卡。傳統(tǒng)的RDMA網(wǎng)卡通過(guò)SR-IOV技術(shù)可以拆分出多個(gè)VF以供虛擬機(jī)使用。在云原生架構(gòu)下,為了資源利用率的最大化,大模型的訓(xùn)練需要做到快速部署訓(xùn)練,需要每個(gè)容器、虛擬機(jī)都有使用RDMA設(shè)備的能力,DPU通常可以支持上千個(gè)RDMA設(shè)備可以充分滿(mǎn)足通信需求。同時(shí),通過(guò)基于DPU的內(nèi)存和存儲(chǔ)交換方案,可以加速GPU與存儲(chǔ)設(shè)備之間,GPU與GPU之間的信息交換,降低通信時(shí)延,從而降低大模型訓(xùn)練的消耗時(shí)36(八)提升計(jì)算資源利用率虛擬化和容器化是云原生技術(shù)的核心技術(shù)之一,通過(guò)虛擬化技術(shù)和容器化技術(shù)提供的計(jì)算資源是云計(jì)算基礎(chǔ)設(shè)施的核心組成部分,也是計(jì)算能力的基礎(chǔ)。充分利用計(jì)算資源是云計(jì)算技術(shù)一直努力的方向。當(dāng)前主要通過(guò)以下途徑來(lái)提升計(jì)算資源的利用1.資源虛擬化。通過(guò)虛擬化技術(shù),可以將物理計(jì)算資源劃分為多個(gè)虛擬計(jì)算資源,從而使得計(jì)算資源可以更好地被多個(gè)租戶(hù)共享,提高計(jì)算資源的利用率。2.彈性計(jì)算。通過(guò)資源動(dòng)態(tài)調(diào)度技術(shù),根據(jù)應(yīng)用程序的需要?jiǎng)討B(tài)調(diào)整計(jì)算資源的分配,從而實(shí)現(xiàn)計(jì)算資源的最大化利用,減少計(jì)算資源浪費(fèi),提高計(jì)算資源利用率。3.自動(dòng)化管理。通過(guò)自動(dòng)化管理技術(shù),減少人工操作和管理通過(guò)自動(dòng)化方式完成計(jì)算資源的管理和調(diào)度,提高計(jì)算資源的利用率。隨著云原生業(yè)務(wù)的發(fā)展和應(yīng)用,云原生業(yè)務(wù)也變得越來(lái)越龐大和復(fù)雜,各個(gè)應(yīng)用對(duì)網(wǎng)絡(luò)和存儲(chǔ)等IO的需求也越來(lái)越高,單臺(tái)服務(wù)的帶寬需求開(kāi)始從10Gb到25Gb甚至100Gb、200Gb開(kāi)始轉(zhuǎn)變。為了應(yīng)對(duì)網(wǎng)絡(luò)和存儲(chǔ)對(duì)帶寬的挑戰(zhàn),各種解決方案也應(yīng)運(yùn)而生(如圖15所示),比如網(wǎng)絡(luò)使用XDP技術(shù)加速內(nèi)核協(xié)議棧,使用DPDK技術(shù)旁路內(nèi)核協(xié)議棧,存儲(chǔ)采用ROCEv2來(lái)加速存儲(chǔ)提供更低的帶寬和時(shí)延等。37但這些軟件方案隨著云原生業(yè)務(wù)對(duì)帶寬的要求越來(lái)越高,也逐漸面臨很多問(wèn)題。以一臺(tái)56核的服務(wù)器,采用DPDK技術(shù)對(duì)網(wǎng)絡(luò)進(jìn)行加速為例:?jiǎn)畏?wù)器帶寬需求為10Gb時(shí),需要消耗大概4個(gè)核作為網(wǎng)絡(luò)轉(zhuǎn)發(fā)、52核作為業(yè)務(wù),計(jì)算資源利用率為92%;單服務(wù)器帶寬需求為25Gb時(shí),需要消耗大概10個(gè)核作為網(wǎng)絡(luò)轉(zhuǎn)發(fā)、46核作為業(yè)務(wù),計(jì)算資源利用率為82%;當(dāng)服務(wù)器帶寬需求為100Gb時(shí),可能需要消所有的CPU核作為網(wǎng)絡(luò)轉(zhuǎn)發(fā),已經(jīng)沒(méi)有資源留給業(yè)務(wù)了(如圖16所示)。38圖12基于HOST轉(zhuǎn)發(fā)的CPU利用率從以上案例中可以看到,隨著IO的越大,傳統(tǒng)的各種IO加速方案已引入新的解決方案,那么只能靠更多、更強(qiáng)的服務(wù)器來(lái)滿(mǎn)足業(yè)務(wù)的IO需求,這使得數(shù)據(jù)中心的真實(shí)計(jì)算資源利用率十分低下,并大幅提升數(shù)據(jù)中心的能耗和運(yùn)維成本。DPU作為數(shù)據(jù)處理的核心,內(nèi)置可編程報(bào)文處理引擎,可以將網(wǎng)絡(luò)、存儲(chǔ)所消耗的IO資源全部卸載到DPU上,完全釋放服務(wù)器的CPU資源,讓云原生業(yè)務(wù)可以100%利用服務(wù)器的計(jì)算資39在以DPU為中心的數(shù)據(jù)中心架構(gòu)下,所有IO由DPU來(lái)處理和加速,一方面因?yàn)镈PU低功耗的特點(diǎn),數(shù)據(jù)中心IO的能耗可以大幅降低。另一方面,計(jì)算資源可以100%用于計(jì)算,這提升了單臺(tái)服務(wù)器的計(jì)算密度,與同等規(guī)模的數(shù)據(jù)中心相比,該架構(gòu)可以提供更多的計(jì)算資源,提升數(shù)據(jù)中心的計(jì)算資源利用率。的硬件配置為例,每臺(tái)服務(wù)器要預(yù)留出20%左右的資源給虛擬機(jī)的網(wǎng)絡(luò)、存儲(chǔ)和虛擬機(jī)生命周期管理。當(dāng)前服務(wù)器的網(wǎng)絡(luò)帶寬一般在100萬(wàn)pps左右,按照2vcore,4G內(nèi)存的虛擬機(jī)規(guī)格可以分出30個(gè)左右網(wǎng)絡(luò)帶寬為5MB(3萬(wàn)pps)帶寬的虛擬機(jī)。宿主機(jī)CPU支持超分的能力,一般按1比2或者更多但是由于網(wǎng)絡(luò)IO瓶頸的存在,無(wú)法充分利用CPU的能力。DPU可以提供超過(guò)1000萬(wàn)pps的網(wǎng)絡(luò)性能,可以將虛擬機(jī)的超分比40基于以上,綜合硬件和運(yùn)維等成本因素,可以從兩個(gè)方面計(jì)算DPU所帶來(lái)的收益:在提供同等算力的情況下DPU可以節(jié)省20%的服務(wù)器數(shù)量,與之對(duì)應(yīng)的成本下降13%,功耗下降28%,空間收益30%。在1000臺(tái)服務(wù)器數(shù)量不變的情況下,虛擬機(jī)的超分比可以進(jìn)一步提升,可以新增40%的虛擬機(jī)售賣(mài)資源(如圖18金融行業(yè)普遍都使用Kubernetes作為容器編排平臺(tái),來(lái)管理容器化應(yīng)用程序。盡管這些組件對(duì)于Kubernetes的正常運(yùn)行至關(guān)重要,但它們也會(huì)占用大量的計(jì)算資源和存儲(chǔ)空間。在以DPU為中心的數(shù)據(jù)中心架構(gòu)下,通過(guò)將節(jié)點(diǎn)組件(如kubelet、containerd和runtime)卸載到DPU上,可以釋放出較多計(jì)算資源和大量的存儲(chǔ)空間,從而提升主機(jī)資源售賣(mài)率。41在云原生應(yīng)用中,runV容器是一種基于輕量級(jí)虛擬機(jī)技術(shù)的容器化解決方案。它利用虛擬化技術(shù)提升了容器的隔離性、穩(wěn)定性和安全性等,同時(shí)也支持彈性計(jì)算和自動(dòng)化管理技術(shù),可以根據(jù)應(yīng)用程序的需要?jiǎng)討B(tài)調(diào)整計(jì)算資源的分配,從而實(shí)現(xiàn)計(jì)算資源的最大化利用,減少計(jì)算資源浪費(fèi)。并且runV容器與傳統(tǒng)虛擬機(jī)相比,具有單節(jié)點(diǎn)實(shí)例密度高的特點(diǎn):傳統(tǒng)虛擬機(jī)一般最小的虛擬機(jī),進(jìn)而使得單節(jié)點(diǎn)有著更高的實(shí)例密度;通過(guò)將runV容器卸載到DPU上,可以實(shí)現(xiàn)更高效的網(wǎng)絡(luò)通信和存儲(chǔ)訪(fǎng)問(wèn),減少網(wǎng)絡(luò)和存儲(chǔ)對(duì)主機(jī)CPU的占用,從而提高容器實(shí)例密度以及提高計(jì)算資源的售賣(mài)率。四、DPU在金融云的應(yīng)用分析DPU作為一種專(zhuān)用于數(shù)據(jù)處理的芯片,能夠在金融行業(yè)云計(jì)算架構(gòu)中實(shí)現(xiàn)高效的數(shù)據(jù)處理和分析,為彈性裸金屬、零信任安全等多種應(yīng)用提供支撐,同時(shí)也帶來(lái)多種優(yōu)勢(shì)(例如高性能扁平化容器網(wǎng)絡(luò)、人工智能大模型加速、微服務(wù)應(yīng)用加速等)。(一)彈性裸金屬基于虛擬機(jī)加容器的方案,相比裸金屬服務(wù)器中間多了Hypervisor層,可能會(huì)導(dǎo)致很多硬件創(chuàng)新無(wú)法及時(shí)、高效地提供給應(yīng)用使用,性能也會(huì)存在10%—20%的損耗。因此,越來(lái)越多的應(yīng)用選擇直接部署在裸金屬服務(wù)器上。42可以提供高帶寬低時(shí)延的高性能網(wǎng)絡(luò),但存在裸金屬實(shí)例部署交付周期長(zhǎng)、運(yùn)維復(fù)雜、架構(gòu)僵化等問(wèn)題,同時(shí)需要額外的配套設(shè)施對(duì)服務(wù)器進(jìn)行管理以實(shí)現(xiàn)VPC、SLB等云平臺(tái)業(yè)務(wù)。在傳統(tǒng)裸金屬的生命周期管理中,運(yùn)維交付涉及大量的手工操作,產(chǎn)品靈活性較低,一旦物理機(jī)出現(xiàn)故障,就無(wú)法像虛擬機(jī)一樣進(jìn)行遷移快速恢復(fù)業(yè)務(wù)。DPU能夠在云計(jì)算場(chǎng)景實(shí)現(xiàn)全卸載,作為服務(wù)器的數(shù)據(jù)出入口,使用硬件為服務(wù)器提供標(biāo)準(zhǔn)的virtio網(wǎng)絡(luò)和存儲(chǔ)設(shè)備,并將網(wǎng)絡(luò)和存儲(chǔ)的數(shù)據(jù)面和控制面下移,釋放主機(jī)CPU算力資源的同時(shí)提升IO性能(如圖19所示)。DPU支持掛載遠(yuǎn)端云盤(pán),通過(guò)該盤(pán)作為服務(wù)器的啟動(dòng)盤(pán)實(shí)現(xiàn)裸金屬的快速拉起,實(shí)現(xiàn)像虛擬機(jī)一樣管理裸金屬實(shí)例。因此,基于DPU的彈性裸金屬具備如下關(guān)鍵特征。431.分鐘級(jí)交付。DPU支持云盤(pán)啟動(dòng)的能力,彈性裸金屬在交付時(shí)不再需要經(jīng)過(guò)漫長(zhǎng)的PXE裝機(jī)服務(wù),通過(guò)DPU直接掛載遠(yuǎn)端云盤(pán),服務(wù)器啟動(dòng)所需要的時(shí)間就是裸金屬實(shí)例交付的時(shí)間,實(shí)現(xiàn)分鐘級(jí)交付。2.兼容VPC/SLB等云平臺(tái)全業(yè)務(wù)?;贒PU的彈性裸金屬可以完全兼容現(xiàn)有云平臺(tái)的業(yè)務(wù)。以VPC為例,彈性裸金屬可以做到和虛擬機(jī)保持完全一致的虛擬化網(wǎng)絡(luò)接入能力和安全隔離能3.兼容虛擬機(jī)鏡像。實(shí)現(xiàn)物理機(jī)和虛擬機(jī)之間的相互平滑切換,提升業(yè)務(wù)部署的彈性和靈活性。4.網(wǎng)絡(luò)和存儲(chǔ)設(shè)備動(dòng)態(tài)熱插拔。支持裸金屬實(shí)例根據(jù)需要對(duì)存儲(chǔ)和網(wǎng)絡(luò)設(shè)備進(jìn)行熱插拔操作,無(wú)需像傳統(tǒng)服務(wù)器一樣需要人工運(yùn)維增加網(wǎng)卡或者硬盤(pán)等硬件。通過(guò)將該服務(wù)器的云盤(pán)在另外一臺(tái)裸金屬拉起的方式,實(shí)現(xiàn)業(yè)務(wù)的快速遷移恢復(fù)。(二)零信任安全傳統(tǒng)的網(wǎng)絡(luò)安全方案是在業(yè)務(wù)的網(wǎng)絡(luò)邊緣部署相關(guān)的安全設(shè)備,主要對(duì)南北向流量進(jìn)行掃描監(jiān)控。隨著虛擬化云計(jì)算等技術(shù)的普及,基于虛擬化安全的解決方案應(yīng)運(yùn)而生,通過(guò)將原有物理安全設(shè)備的功能虛擬化,按需部署到計(jì)算實(shí)例中或者構(gòu)建一個(gè)虛擬化安全資源池,將特定的流量導(dǎo)入其中實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)的保護(hù)。44云原生架構(gòu)下,容器的生命周期非常短暫,其網(wǎng)絡(luò)配置也在不斷變化,虛擬化安全資源池的網(wǎng)絡(luò)安全防護(hù)已經(jīng)無(wú)法滿(mǎn)足云原生網(wǎng)絡(luò)的安全需求,通過(guò)微分段防火墻可以實(shí)現(xiàn)容器之間的網(wǎng)絡(luò)隔離,防止未經(jīng)授權(quán)的訪(fǎng)問(wèn)和橫向移動(dòng)的威脅。微分段防火墻可以提供容器粒度的訪(fǎng)問(wèn)控制,做到根據(jù)單個(gè)容器進(jìn)行安全策略定義和執(zhí)行。當(dāng)前容器網(wǎng)絡(luò)微分段防火墻也面臨較大的挑戰(zhàn),一方面,對(duì)于高密度容器環(huán)境,微分段防火墻需要處理大量的網(wǎng)絡(luò)流量和執(zhí)行復(fù)雜的安全策略,這會(huì)帶來(lái)額外的性能開(kāi)銷(xiāo),影響容器網(wǎng)絡(luò)的帶寬和時(shí)延。另一方面,隨著容器數(shù)量的不斷增加,微分段防火墻本身也會(huì)擠占容器業(yè)務(wù)的資源(如圖20所示)。DPU能夠?yàn)樵圃W(wǎng)絡(luò)提供以下能力。1.安全監(jiān)測(cè)。對(duì)數(shù)據(jù)流的安全監(jiān)測(cè),通過(guò)監(jiān)測(cè)網(wǎng)絡(luò)流量、檢測(cè)入侵攻擊、發(fā)現(xiàn)漏洞等安全事件,保護(hù)云原生應(yīng)用的安全。452.數(shù)據(jù)保護(hù)。DPU提供加密、解密和壓縮的硬件加速引擎,保護(hù)敏感數(shù)據(jù)機(jī)密性和完整性的同時(shí),提高計(jì)算資源的利用效率。3.信息分析。DPU作為每一個(gè)計(jì)算節(jié)點(diǎn)的數(shù)據(jù)入口,可以對(duì)整個(gè)系統(tǒng)進(jìn)行安全分析和風(fēng)險(xiǎn)評(píng)估,從而識(shí)別和解決潛在的安全威脅。在以DPU為基礎(chǔ)構(gòu)建的高性能、高密度的容器網(wǎng)絡(luò)中,可以將微分段防火墻、入侵防御、防病毒等安全業(yè)務(wù)部署到DPU中,宿主機(jī)上容器所產(chǎn)生的網(wǎng)絡(luò)流量都會(huì)先經(jīng)過(guò)DPU進(jìn)行處理,DPU上運(yùn)行的安全業(yè)務(wù)利用硬件加速引擎提升業(yè)務(wù)處理能力,減少微分段防火墻、入侵防御等安全業(yè)務(wù)對(duì)容器網(wǎng)絡(luò)的性能影響,構(gòu)建零信任的網(wǎng)絡(luò)架構(gòu)。同時(shí),將主機(jī)側(cè)的安全業(yè)務(wù)下沉到DPU側(cè),可以釋放更多的資源,運(yùn)行更多的容器業(yè)務(wù)。容器是通過(guò)Linux的Cgroup和namespace來(lái)實(shí)現(xiàn)底層基礎(chǔ)資源隔離的一種輕量級(jí)虛擬化技術(shù),每一個(gè)容器都擁有屬于自己的命名空間,包括網(wǎng)絡(luò)堆棧、接口、路由表、套接字和iptable規(guī)則表等。一個(gè)網(wǎng)絡(luò)接口只能屬于一個(gè)命名空間,多個(gè)容器就需要多個(gè)接口。通常使用虛擬化技術(shù)來(lái)實(shí)現(xiàn)硬件資源共享,通過(guò)將虛擬化設(shè)備連接到真實(shí)的物理設(shè)備上,具體分為3種實(shí)現(xiàn)方式1.虛擬網(wǎng)橋。創(chuàng)建一個(gè)虛擬網(wǎng)卡對(duì)(vethpair),一端在46或者OVS來(lái)連接兩個(gè)不同的namespace內(nèi)的網(wǎng)卡對(duì),這樣容器內(nèi)發(fā)出的數(shù)據(jù)包就可以通過(guò)網(wǎng)橋進(jìn)入宿主機(jī)網(wǎng)絡(luò),發(fā)往容器的數(shù)據(jù)包也可以經(jīng)過(guò)網(wǎng)橋進(jìn)入容器,實(shí)現(xiàn)容器間的網(wǎng)絡(luò)通信。2.多路復(fù)用。使用一個(gè)中間網(wǎng)絡(luò)設(shè)備,暴露多個(gè)虛擬網(wǎng)卡接口,容器網(wǎng)卡都可以接入到這個(gè)中間設(shè)備,并通過(guò)mac地址、ip地址來(lái)區(qū)分報(bào)文應(yīng)該轉(zhuǎn)發(fā)給哪一個(gè)容器網(wǎng)卡。3.硬件直通。大多數(shù)網(wǎng)卡都支持SR-IOV的功能,該功能可以將物理網(wǎng)卡虛擬成多個(gè)VF接口,每一個(gè)VF接口都有單獨(dú)虛擬PCIe通道,這些虛擬PCIe通道共用物理設(shè)備的PCIe,可以將VF直接分配給容器,實(shí)現(xiàn)容器和容器之間近乎物理網(wǎng)絡(luò)的通信。隨著云原生的不斷發(fā)展,越來(lái)越多的應(yīng)用都在往容器化轉(zhuǎn)變,這對(duì)容器網(wǎng)絡(luò)提出了很高的要求?,F(xiàn)有的基于虛擬網(wǎng)橋、多路復(fù)用的網(wǎng)絡(luò)方案在滿(mǎn)足大規(guī)模容器網(wǎng)絡(luò)高帶寬、低時(shí)延的需求方面存在一定困難,而基于硬件直通的方案雖然能夠帶來(lái)更好的網(wǎng)絡(luò)性能,但由于普通網(wǎng)卡硬件自身的限制,一方面網(wǎng)卡的SR-IOV能力不足以滿(mǎn)足單臺(tái)計(jì)算節(jié)點(diǎn)承載上千個(gè)容器的需求,另一方面47SR-IOV的網(wǎng)絡(luò)功能相對(duì)比較簡(jiǎn)單,無(wú)法支撐比較復(fù)雜的容器網(wǎng)絡(luò)功能。DPU充分結(jié)合了SR-IOV和虛擬網(wǎng)橋的優(yōu)勢(shì),能夠提供超過(guò)提供的每一個(gè)VF的后端都是掛載在DPU上OVS的端口,可以通過(guò)標(biāo)準(zhǔn)的Openflow對(duì)網(wǎng)絡(luò)流量進(jìn)行編程,為容器提供扁平化的網(wǎng)絡(luò)架構(gòu),在這種架構(gòu)下可以實(shí)現(xiàn)百萬(wàn)級(jí)可編程、高性能、扁平化的容器網(wǎng)絡(luò)(如圖22所示)。(四)人工智能大模型AI模型越龐大,模型參數(shù)越多,訓(xùn)練過(guò)程中參數(shù)同步的通信消耗越大。一些大型AI模型訓(xùn)練過(guò)程,其參數(shù)同步的通信時(shí)間消耗占比已經(jīng)超過(guò)50%,很容易因?yàn)榫W(wǎng)絡(luò)擁塞造成性能急劇下48降。為解決GPU分布式訓(xùn)練過(guò)程中的“通信墻”,使用DPU提供的DDPR(DataDirectPathRDMA)技術(shù)是非常有效的性能優(yōu)化方案(如圖23所示),通過(guò)DDPR技術(shù)調(diào)用RDMA通信庫(kù),服務(wù)器節(jié)點(diǎn)上的GPU可以直接將數(shù)據(jù)從GPU內(nèi)存發(fā)送到目標(biāo)服務(wù)器節(jié)點(diǎn)的GPU內(nèi)存中,而不需要經(jīng)過(guò)兩個(gè)節(jié)點(diǎn)上的系統(tǒng)內(nèi)存。AI訓(xùn)練過(guò)程中的每一個(gè)數(shù)據(jù)字節(jié),不需要繞路到系統(tǒng)內(nèi)存進(jìn)行嚴(yán)重拉低性能的內(nèi)核拷貝,從而顯著提升計(jì)算效率。AI訓(xùn)練過(guò)程需要加載外置存儲(chǔ)系統(tǒng)中的數(shù)據(jù)到GPU,將存儲(chǔ)數(shù)據(jù)加載到GPU中需要消耗大量的CPU同時(shí)涉及存儲(chǔ)到host內(nèi)存再到GPU內(nèi)存的搬移,會(huì)產(chǎn)生較大的通信時(shí)延,影響AI訓(xùn)練性能。利用DPU提供的DDPS(DataDirectPathStorage)技術(shù)(如圖24所示),可以將存儲(chǔ)于外置存儲(chǔ)系統(tǒng)中的訓(xùn)練數(shù)據(jù)直接加載到GPU內(nèi)存進(jìn)行預(yù)處理和后續(xù)的訓(xùn)練計(jì)算,縮短了訓(xùn)練數(shù)據(jù)加載的流程通路,同時(shí)可以降低對(duì)CPU的處理開(kāi)銷(xiāo)。49單機(jī)多卡訓(xùn)練,可以通過(guò)GPU服務(wù)器本地配置高性能NVMESSD或者SSD硬盤(pán),對(duì)服務(wù)器運(yùn)維要求較高。在AI的分布式訓(xùn)練集群環(huán)境,當(dāng)部署幾十張到上百?gòu)圙PU卡規(guī)模,會(huì)有更大數(shù)據(jù)規(guī)模的存儲(chǔ)空間要求,掛載遠(yuǎn)端存儲(chǔ)可以滿(mǎn)足需要,但會(huì)消耗較多的CPU資源,通過(guò)DPU掛載遠(yuǎn)端磁盤(pán),并為Host提供彈性virtio-blk/Nvme設(shè)備,不再需要服務(wù)器上插很多物理磁盤(pán)(如降低AI集群的運(yùn)維復(fù)雜度,同時(shí)提升AI訓(xùn)練效率。5

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論