




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
北京金融科技產(chǎn)業(yè)聯(lián)盟2023
年
11
月DPU
金融行業(yè)發(fā)展白皮書版權(quán)聲明本報(bào)告版權(quán)屬于北京金融科技產(chǎn)業(yè)聯(lián)盟,并受法律保護(hù)。轉(zhuǎn)載、編摘或利用其他方式使用本白皮書文字或觀點(diǎn)的,應(yīng)注明來源。違反上述聲明者,將被追究相關(guān)法律責(zé)任。IDPU
金融行業(yè)發(fā)展白皮書編委會(huì)主編:聶麗琴編委:劉承巖
張學(xué)利
沈
健執(zhí)筆:王
鑫
沈震宇
楊曉峰
王啟宇
黃明飛
陳文斌
郭建強(qiáng)趙
真
孫傳明
杜
沖
鄧德源
劉繼江
張乾海
闞立宸杜建成參編單位:北京金融科技產(chǎn)業(yè)聯(lián)盟秘書處中國(guó)工商銀行金融科技研究院深圳云豹智能有限公司北京火山引擎科技有限公司IIDPU
金融行業(yè)發(fā)展白皮書前
言黨的二十大報(bào)告提出,要增強(qiáng)國(guó)內(nèi)大循環(huán)內(nèi)生動(dòng)力和可靠性,提升國(guó)際循環(huán)質(zhì)量和水平。這既離不開金融對(duì)資源配置的引導(dǎo)優(yōu)化,也離不開科技創(chuàng)新在激發(fā)市場(chǎng)活力方面的重要作用?!笆奈濉睍r(shí)期,我國(guó)開啟全面建設(shè)社會(huì)主義現(xiàn)代化國(guó)家新征程,數(shù)據(jù)成為新的生產(chǎn)要素,數(shù)據(jù)技術(shù)成為新的發(fā)展引擎,數(shù)字經(jīng)濟(jì)浪潮已勢(shì)不可擋。2023
年
2
月,中共中央、國(guó)務(wù)院印發(fā)《數(shù)字中國(guó)建設(shè)整體布局規(guī)劃》(以下簡(jiǎn)稱《規(guī)劃》),指出建設(shè)數(shù)字中國(guó)是數(shù)字時(shí)代推進(jìn)中國(guó)式現(xiàn)代化的重要引擎,是構(gòu)筑國(guó)家競(jìng)爭(zhēng)新優(yōu)勢(shì)的有力支撐。加快數(shù)字中國(guó)建設(shè),對(duì)全面建設(shè)社會(huì)主義現(xiàn)代化國(guó)家、全面推進(jìn)中華民族偉大復(fù)興具有重要意義和深遠(yuǎn)影響?!兑?guī)劃》明確了數(shù)字中國(guó)建設(shè)將按照“2522”的整體框架進(jìn)行布局,“2522”中的第一個(gè)“2”即夯實(shí)數(shù)字基礎(chǔ)設(shè)施和數(shù)據(jù)資源體系“兩大基礎(chǔ)”。數(shù)字中國(guó)建設(shè)是數(shù)字金融發(fā)展的重要契機(jī),對(duì)金融行業(yè)的數(shù)字化發(fā)展指出了明確的方向,也契合了我國(guó)促進(jìn)數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的總體規(guī)劃。在云計(jì)算、大數(shù)據(jù)、5G、人工智能等技術(shù)的蓬勃發(fā)展下,金融云也迎來了發(fā)展的契機(jī)。金融云依據(jù)自身特點(diǎn)對(duì)云計(jì)算基礎(chǔ)設(shè)施建設(shè)提出了更加嚴(yán)苛的要求,提供高效、安全、高容災(zāi)和高可用的云基礎(chǔ)設(shè)施是金融云發(fā)展的重要關(guān)切點(diǎn)。中國(guó)工商銀行高級(jí)金融科技專家劉承巖談到:“以云計(jì)算為核心的數(shù)據(jù)中心,是金融機(jī)構(gòu)數(shù)字化轉(zhuǎn)型的核心基礎(chǔ)設(shè)施。與公I(xiàn)IIDPU
金融行業(yè)發(fā)展白皮書有云不同,金融行業(yè)在追求計(jì)算多樣化、高性能的同時(shí),更加注重系統(tǒng)的安全可靠、綠色高效和開放兼容。當(dāng)前,軟件定義的云計(jì)算架構(gòu)主要依靠
CPU
算力進(jìn)行相關(guān)云資源的抽象,而隨著計(jì)算規(guī)模和網(wǎng)絡(luò)帶寬的增大,用于云管控和
IO
處理的
CPU
開銷越來越大,以
CPU
為核心的云計(jì)算架構(gòu)正在向軟硬協(xié)同的新型架構(gòu)演進(jìn)。從業(yè)界實(shí)踐來看,以數(shù)據(jù)加速處理為核心,具備通用可編程能力的
DPU
處理器是支撐軟硬協(xié)同云計(jì)算架構(gòu)的關(guān)鍵。通過將云平臺(tái)的控制面和數(shù)據(jù)面卸載至
DPU,并根據(jù)金融場(chǎng)景進(jìn)行定向優(yōu)化,實(shí)現(xiàn)更低的單位算力成本,更高的
IO
性能,以及更靈活安全的云管控,將是更加云原生的計(jì)算架構(gòu)。然而,當(dāng)前
DPU、服務(wù)器、云操作系統(tǒng)之間的生態(tài)并不完善,制約著金融云架構(gòu)的演進(jìn),需要產(chǎn)業(yè)側(cè)和用戶側(cè)共同推進(jìn)構(gòu)建良性、開放的生態(tài),以促進(jìn)云原生金融云算力的全行業(yè)落地”。面向云基礎(chǔ)設(shè)施的通用數(shù)據(jù)處理器(Data
Processing
Unit,以下簡(jiǎn)稱
DPU)是連接算力資源和網(wǎng)絡(luò)資源的關(guān)鍵節(jié)點(diǎn)。DPU
要解決的不僅是云基礎(chǔ)設(shè)施“降本增效”的問題,也要解決現(xiàn)有云計(jì)算應(yīng)用中網(wǎng)絡(luò)資源與算力資源發(fā)展不協(xié)調(diào)的問題。隨著各種應(yīng)用在云環(huán)境中部署的復(fù)雜度持續(xù)增高和規(guī)模的不斷擴(kuò)展,數(shù)據(jù)交換不再僅僅是簡(jiǎn)單的服務(wù)器之間的數(shù)據(jù)搬運(yùn),還需要對(duì)數(shù)據(jù)進(jìn)行有效的智能化處理。傳統(tǒng)網(wǎng)卡(NIC)及其后續(xù)的智能網(wǎng)卡(SmartNIC)由于自身技術(shù)結(jié)構(gòu)的限制,無法在飛速發(fā)展的云計(jì)算應(yīng)用中滿足數(shù)據(jù)交換和智能化處理的需求,正在被
DPU
這種通IVDPU
金融行業(yè)發(fā)展白皮書用數(shù)據(jù)處理器所取代。DPU
作為通用的數(shù)據(jù)處理器,不是對(duì)
NIC或
SmartNIC
的簡(jiǎn)單替代,而是對(duì)網(wǎng)絡(luò)基礎(chǔ)架構(gòu)的本質(zhì)改變。DPU本身所具有的通用可編程特性、低時(shí)延網(wǎng)絡(luò)、統(tǒng)一資源管控以及持續(xù)發(fā)展的加速卸載特性,使得
DPU
正在促進(jìn)云計(jì)算應(yīng)用從架構(gòu)上實(shí)現(xiàn)優(yōu)化和重構(gòu)。DPU
作為通用數(shù)據(jù)處理的基礎(chǔ)部件,主要聚焦當(dāng)前應(yīng)用中消耗
CPU、GPU
算力資源的網(wǎng)絡(luò)、存儲(chǔ)、安全以及和應(yīng)用相關(guān)的數(shù)據(jù)處理任務(wù)。DPU
將這些任務(wù)從
CPU、GPU
中卸載下來,釋放
CPU、GPU
的算力,支撐
CPU、GPU
發(fā)揮更大的效能。針對(duì)金融云的發(fā)展需求,DPU
本身具有的特點(diǎn)和能力,能很好地促進(jìn)金融行業(yè)的數(shù)字化轉(zhuǎn)型。本白皮書分析了金融行業(yè)在云部署中的發(fā)展趨勢(shì)及面臨的行業(yè)挑戰(zhàn),概述了
DPU
的技術(shù)演進(jìn)歷程、生態(tài)發(fā)展和典型案例,系統(tǒng)闡述了
DPU
技術(shù)在促進(jìn)金融云綠色低碳發(fā)展方面的重要作用和應(yīng)用實(shí)踐,加快助力金融行業(yè)構(gòu)建開放共享、穩(wěn)定可靠、高效綠色、自主可控的金融級(jí)安全云平臺(tái)。VDPU
金融行業(yè)發(fā)展白皮書目
錄一、云原生浪潮下金融行業(yè)云基礎(chǔ)設(shè)施的發(fā)展趨勢(shì)和挑戰(zhàn)
...........
1(一)發(fā)展趨勢(shì)
...........................................
1(二)行業(yè)挑戰(zhàn)
...........................................
5二、DPU
發(fā)展與趨勢(shì)
..........................................
11(一)DPU
歷史演進(jìn)
......................................
11(二)DPU
生態(tài)發(fā)展
......................................
17(三)DPU
典型案例
......................................
19三、基于
DPU
構(gòu)建綠色低碳金融云
..............................
24(一)統(tǒng)一部署彈性調(diào)度
..................................
25(二)計(jì)算實(shí)例高可用
....................................
28(三)加速云原生網(wǎng)絡(luò)
....................................
29(四)加速云原生存儲(chǔ)
....................................
31(五)加速微服務(wù)應(yīng)用
....................................
33(六)加速云原生安全
....................................
34(七)加速大模型訓(xùn)練
....................................
35(八)提升計(jì)算資源利用率
................................
36四、DPU
在金融云的應(yīng)用分析
..................................
41(一)彈性裸金屬
........................................
41(二)零信任安全
........................................
43(三)高性能扁平化容器網(wǎng)絡(luò)
..............................
45(四)人工智能大模型
....................................
47五、DPU
在金融云平臺(tái)發(fā)展中的展望
............................
50六、結(jié)語(yǔ)
....................................................
52插圖附錄
....................................................
54縮略語(yǔ)
......................................................
55VIDPU
金融行業(yè)發(fā)展白皮書一、云原生浪潮下金融行業(yè)云基礎(chǔ)設(shè)施的發(fā)展趨勢(shì)和挑戰(zhàn)(一)發(fā)展趨勢(shì)在云原生技術(shù)快速發(fā)展、經(jīng)濟(jì)與商業(yè)模式正發(fā)生深刻變化的背景下,金融云平臺(tái)作為金融行業(yè)數(shù)字化轉(zhuǎn)型的依托,在金融行業(yè)生態(tài)格局中扮演著非常重要的角色。金融云包含平臺(tái)基礎(chǔ)設(shè)施(IaaS)、應(yīng)用平臺(tái)(PaaS)和金融生態(tài)(SaaS)3個(gè)層面(如圖1所示),其中基礎(chǔ)設(shè)施是構(gòu)建體系完備、規(guī)模超大、自主可控和靈活高效的金融云平臺(tái)的基石。圖
1
金融云平臺(tái)1.綠色計(jì)算與低碳發(fā)展在碳達(dá)峰碳中和的雙碳背景下,金融機(jī)構(gòu)也在綠色轉(zhuǎn)型和數(shù)字化轉(zhuǎn)型升級(jí)中尋求突破,促進(jìn)綠色計(jì)算和數(shù)字低碳技術(shù)創(chuàng)新。有數(shù)據(jù)顯示,我國(guó)數(shù)據(jù)中心年用電量在全社會(huì)用電量中的比1DPU
金融行業(yè)發(fā)展白皮書重正在逐年升高,為確保實(shí)現(xiàn)碳達(dá)峰碳中和目標(biāo),就需要在數(shù)據(jù)中心建設(shè)模式、技術(shù)、標(biāo)準(zhǔn)和可再生能源利用等方面進(jìn)一步挖掘節(jié)能減排潛力。近年來,云計(jì)算發(fā)展迅猛,其本身就是一種綠色技術(shù),提高了CPU的整體利用率。通過聚集計(jì)算資源和轉(zhuǎn)移工作負(fù)載,云的資源利用率持續(xù)得到提高。推動(dòng)數(shù)據(jù)中心綠色可持續(xù)發(fā)展,加快節(jié)能低碳技術(shù)的研發(fā)應(yīng)用,提升能源利用效率,降低數(shù)據(jù)中心能耗,從而實(shí)現(xiàn)綠色計(jì)算與低碳的發(fā)展目標(biāo)。2.部署模式多樣化金融領(lǐng)域云計(jì)算部署模式主要包括私有云、團(tuán)體云以及由其組成的混合云等。在實(shí)際的落地部署中,不論是采用私有云建設(shè)方式,還是采用與第三方合作的公有云建設(shè)方式,亦或混合云建設(shè)方式,越來越多的金融企業(yè)都在嘗試?yán)迷朴?jì)算技術(shù)來降低運(yùn)營(yíng)成本,促進(jìn)產(chǎn)品創(chuàng)新。當(dāng)前,越來越多的金融機(jī)構(gòu)開始嘗試將IT
業(yè)務(wù)搭建在云上,而未來這一趨勢(shì)還將不斷深化。私有云或者混合云的建設(shè)模式在傳統(tǒng)銀行、證券等企業(yè)中得到青睞,而公有云模式則成為大量新興互聯(lián)網(wǎng)金融企業(yè)的選擇,通過與第三方公有云廠商合作,得以實(shí)現(xiàn)自身業(yè)務(wù)的快速擴(kuò)展,業(yè)務(wù)快速上線。金融業(yè)務(wù)上云呈現(xiàn)多樣化的趨勢(shì),不同的金融企業(yè)也正在根據(jù)自身情況選擇適合自身發(fā)展的建設(shè)模式。3.穩(wěn)定與敏捷并存當(dāng)前金融業(yè)務(wù)的發(fā)展中,既有針對(duì)穩(wěn)態(tài)業(yè)務(wù)的高穩(wěn)定性、高2DPU
金融行業(yè)發(fā)展白皮書可靠性、高安全性要求,也有針對(duì)大數(shù)據(jù)、人工智能、區(qū)塊鏈等新數(shù)字化技術(shù)業(yè)務(wù)的敏捷支持要求。隨著金融業(yè)務(wù)規(guī)模的不斷擴(kuò)大,以及面向互聯(lián)網(wǎng)業(yè)務(wù)場(chǎng)景的不斷豐富,傳統(tǒng)金融行業(yè)的信息管理系統(tǒng)已經(jīng)嚴(yán)重制約了金融行業(yè)向數(shù)字化轉(zhuǎn)型的發(fā)展。一方面,越來越多的用戶通過互聯(lián)網(wǎng)進(jìn)行經(jīng)濟(jì)活動(dòng)(例如查詢信息、購(gòu)物和理財(cái)?shù)龋?。另一方面,金融行業(yè)也正在借助與互聯(lián)網(wǎng)技術(shù)的結(jié)合推出更多業(yè)務(wù),增加用戶量及用戶黏性。因此對(duì)未來的金融云平臺(tái)提出了新的需求。在資源利用上,需要對(duì)資源進(jìn)行池化管理,解耦計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和安全,從而實(shí)現(xiàn)對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和安全資源的統(tǒng)一高效調(diào)度管理,進(jìn)而實(shí)現(xiàn)透明、按需供給的資源管理模式。在安全上,不僅是現(xiàn)有的應(yīng)用層數(shù)據(jù)需要安全監(jiān)控和管理能力,隨著金融業(yè)務(wù)的不斷變化,虛擬化層的引入以及基于云原生的容器、微服務(wù)的應(yīng)用部署也需要依賴整個(gè)云原生平臺(tái)的安全監(jiān)控和管理能力。總體上,需要在實(shí)現(xiàn)安全和高效的前提下,保證具有高容災(zāi)和高可用性。4.安全可信與可控隨著金融業(yè)務(wù)上云的不斷深化,經(jīng)濟(jì)活動(dòng)安全越來越受到國(guó)家和監(jiān)管部門的重視。金融行業(yè)對(duì)于數(shù)據(jù)的安全性和合規(guī)性要求非常高,金融云需要提供高度安全的數(shù)據(jù)存儲(chǔ)和傳輸機(jī)制,確??蛻裘舾行畔⒌谋Wo(hù)和隱私安全。因?yàn)榻鹑跇I(yè)務(wù)中涉及大量的資金、交易、用戶隱私信息等敏感數(shù)據(jù),所以對(duì)數(shù)據(jù)和隱私保護(hù)有更高的安全要求,這直接關(guān)系到國(guó)家的經(jīng)濟(jì)安全,同時(shí)也影響著3DPU
金融行業(yè)發(fā)展白皮書老百姓生活的方方面面,使得金融云服務(wù)的安全可靠、可信、可控成為其發(fā)展必須滿足的條件。當(dāng)前,金融云發(fā)展所面臨的安全問題并沒有完全有效解決,已成為阻礙金融云發(fā)展的障礙之一。對(duì)數(shù)據(jù)加密性要求最高的金融行業(yè)將整體系統(tǒng)上云之后,建設(shè)更高的安全、可信、可控的金融云平臺(tái)是未來的必然趨勢(shì)。5.高可用需求金融行業(yè)對(duì)規(guī)劃、建設(shè)和運(yùn)維的專業(yè)性要求也非常高,從規(guī)劃、建設(shè)到各個(gè)系統(tǒng)的遷移和管理,都與其他行業(yè)的云服務(wù)有著很大的不同,在行業(yè)和系統(tǒng)內(nèi)部都有著嚴(yán)格的規(guī)范要求。針對(duì)高可用性,規(guī)范就要求云計(jì)算平臺(tái)應(yīng)具備軟件、主機(jī)、存儲(chǔ)、網(wǎng)絡(luò)節(jié)點(diǎn)、數(shù)據(jù)中心等層面的高可用保障能力,能夠從嚴(yán)重故障或錯(cuò)誤中快速恢復(fù),保障應(yīng)用系統(tǒng)的連續(xù)正常運(yùn)行,滿足金融領(lǐng)域業(yè)務(wù)連續(xù)性要求。由于金融行業(yè)的特殊性,高可用是金融云基礎(chǔ)設(shè)施建設(shè)中需要重點(diǎn)關(guān)注的問題。隨著金融應(yīng)用數(shù)量和類型的不斷增加,以及對(duì)網(wǎng)絡(luò)復(fù)雜度的要求也越來越高,高可用性成為金融云持續(xù)發(fā)展的重要保障。6.數(shù)據(jù)分析和AI能力支撐隨著
AI
的發(fā)展,金融行業(yè)越來越多地使用數(shù)據(jù)分析和人工智能來優(yōu)化業(yè)務(wù)決策和風(fēng)險(xiǎn)管理。因此,金融云通常會(huì)提供數(shù)據(jù)分析和
AI
訓(xùn)練推理的能力。此外,通用人工智能(AGI)所取得的成果使人們看到了一種可能性,即依托基礎(chǔ)大模型的訓(xùn)練結(jié)果,4DPU
金融行業(yè)發(fā)展白皮書針對(duì)垂直領(lǐng)域特定場(chǎng)景和行業(yè)進(jìn)行精細(xì)化模型訓(xùn)練,使
AI
在垂直領(lǐng)域?qū)崿F(xiàn)落地應(yīng)用,提高生產(chǎn)率。金融云平臺(tái)在這個(gè)層面也在逐步加大投入,為
AI
訓(xùn)練提供網(wǎng)絡(luò)和算力的基礎(chǔ)設(shè)施支撐??傮w而言,在金融云基礎(chǔ)設(shè)施向云計(jì)算架構(gòu)的發(fā)展過程中,需要著力打造具有快速響應(yīng)、彈性伸縮、高可用、低成本和安全的云計(jì)算環(huán)境。在整體的演進(jìn)過程中,也面臨著諸多挑戰(zhàn)需要一一克服,這些挑戰(zhàn)主要體現(xiàn)在以下方面。(二)行業(yè)挑戰(zhàn)1.資源利用率低為支撐應(yīng)用平臺(tái)(PaaS)和金融生態(tài)(SaaS)的服務(wù)功能,在基礎(chǔ)設(shè)施(IaaS)層需要對(duì)計(jì)算、網(wǎng)絡(luò)以及安全等基礎(chǔ)資源進(jìn)行優(yōu)化和管理。目前在
PaaS
和
SaaS
層,金融云的應(yīng)用有著向以微服務(wù)為主,采用容器、K8s
集群、Service
Mesh
等管理框架實(shí)現(xiàn)管理和部署的趨勢(shì)。這種“容器+微服務(wù)”的方式將基礎(chǔ)設(shè)施的計(jì)算資源釋放給上層使用,容器技術(shù)擁有自身獨(dú)特的優(yōu)勢(shì),尤其是在金融云平臺(tái)的生產(chǎn)環(huán)境中得到了廣泛應(yīng)用。然而容器技術(shù)的發(fā)展卻對(duì)基礎(chǔ)設(shè)施的資源管控提出了新的挑戰(zhàn),通過微服務(wù),將復(fù)雜系統(tǒng)拆分為易于開發(fā)和維護(hù)的服務(wù)單元,從而實(shí)現(xiàn)敏捷性開發(fā),例如
Kubernetes,
Istio
等框架和方案都是這種思想的應(yīng)用和實(shí)踐。但是,隨著各種應(yīng)用程序組件分布在不同的服務(wù)器和虛擬機(jī)之中,帶來了東西向流量業(yè)務(wù)激增。這些激增的東西向流量主要是來自不同虛擬機(jī)之間、不同容器應(yīng)用之間的通信流量。5DPU
金融行業(yè)發(fā)展白皮書這種微服務(wù)架構(gòu)帶來了分布式系統(tǒng)的復(fù)雜性,每個(gè)服務(wù)需要進(jìn)行管理、調(diào)度和監(jiān)控,這些管理組件的引入,無疑加重了額外的資源管理開銷。隨著容器和微服務(wù)部署規(guī)模的擴(kuò)大,Kubernetes、Istio
組件消耗的主機(jī)
HOST
算力資源的比重將逐漸增大,最終將導(dǎo)致云計(jì)算平臺(tái)無法提供有效的算力資源給容器和微服務(wù)應(yīng)用,極大降低了金融云平臺(tái)對(duì)計(jì)算資源的有效利用。2.部署模式的挑戰(zhàn)在云計(jì)算技術(shù)金融用規(guī)范的要求中,明確金融云平臺(tái)在實(shí)際的部署過程中,首先必須秉持安全優(yōu)先、對(duì)用戶負(fù)責(zé)的原則,根據(jù)信息系統(tǒng)所承載業(yè)務(wù)的重要性和數(shù)據(jù)的敏感性、發(fā)生安全事件的危害程度等,充分評(píng)估可能存在的風(fēng)險(xiǎn)隱患,謹(jǐn)慎選用與業(yè)務(wù)系統(tǒng)相適應(yīng)的部署模式。所以,如何選擇金融云平臺(tái)系統(tǒng)的部署模式是極具挑戰(zhàn)的任務(wù)。目前,金融領(lǐng)域云包括私有云,團(tuán)體云和混合云等多種模式,為了承載不同的業(yè)務(wù)需求就需要靈活的部署模式,這是未來的發(fā)展方向,但當(dāng)前面臨的問題是如何有效管理這種靈活多變的部署模式。從私有云的這個(gè)單點(diǎn)上來看,私有云是企業(yè)傳統(tǒng)數(shù)據(jù)中心的延伸和優(yōu)化,可以針對(duì)各種功能提供網(wǎng)絡(luò)、存儲(chǔ)、計(jì)算資源。在金融云領(lǐng)域,私有云是金融企業(yè)單獨(dú)使用并構(gòu)建的,對(duì)數(shù)據(jù)、安全和服務(wù)質(zhì)量有自身的要求,需要根據(jù)特定的應(yīng)用場(chǎng)景進(jìn)行適配,這就對(duì)私有云部署過程中具體軟件和硬件的底層基礎(chǔ)設(shè)施技術(shù)的支撐提出了要求。通常,金融機(jī)構(gòu)和企業(yè)更加關(guān)注自身業(yè)務(wù)6DPU
金融行業(yè)發(fā)展白皮書的研發(fā)和應(yīng)用,對(duì)底層基礎(chǔ)設(shè)施技術(shù)的掌控和管理并不是強(qiáng)項(xiàng)。這就增加了金融企業(yè)在部署私有云過程中的成本和技術(shù)風(fēng)險(xiǎn),因?yàn)樵趯?shí)現(xiàn)自身私有云應(yīng)用需求的時(shí)候,很難根據(jù)來自不同軟硬件供應(yīng)商的軟件、硬件組件增加符合自身業(yè)務(wù)需求的功能。另一個(gè)層面,從私有云、團(tuán)體云和混合云相組合的這個(gè)面上來看,也更具挑戰(zhàn)性。不同云部署模式下的管理和互聯(lián)互通也是目前面臨的挑戰(zhàn)之一??傮w而言,金融云平臺(tái)在部署模式上的挑戰(zhàn)是沒有成熟和標(biāo)準(zhǔn)的云平臺(tái)部署方案,需要金融企業(yè)投入大量的自有研發(fā)力量來進(jìn)行定制化開發(fā)。3.資源彈性不足資源彈性不足主要體現(xiàn)在如下方面。一是金融云平臺(tái)面對(duì)的業(yè)務(wù)類型復(fù)雜多變,為了應(yīng)對(duì)不同的業(yè)務(wù)需求通常會(huì)存在多數(shù)據(jù)中心以及多集群部署情況,資源的調(diào)度和編排受到跨集群能力的限制。二是實(shí)際業(yè)務(wù)運(yùn)行過程中存在峰值波動(dòng)的情況,這就需要整個(gè)云平臺(tái)具有自動(dòng)伸縮能力,當(dāng)前的資源管控在面對(duì)跨集群、跨資源(例如計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源池化之后的管理和調(diào)度)管控時(shí)能力不足。三是裸金屬服務(wù)器的彈性不足,目前裸金屬服務(wù)器需要進(jìn)行操作系統(tǒng)自動(dòng)安裝,創(chuàng)建和回收速度較慢,并且無法遷移。四是受到容災(zāi)和高可用技術(shù)實(shí)現(xiàn)的限制,為了保證可靠的業(yè)7DPU
金融行業(yè)發(fā)展白皮書務(wù)服務(wù)能力,不得不采用折中的雙備份資源的方式,但是這樣的實(shí)現(xiàn)模式限制了資源的靈活調(diào)配能力。4.安全防護(hù)的挑戰(zhàn)云原生技術(shù)在金融云平臺(tái)的使用促進(jìn)了金融云的數(shù)字化進(jìn)程,以容器和微服務(wù)為代表的云原生技術(shù)得到了大力發(fā)展,同時(shí)基于云原生技術(shù)的安全性也得到了更多的關(guān)注。在基于容器和微服務(wù)提供高可靠、高靈活、高性能的情況下,高安全也非常重要。這里的安全尤其指基于
Docker
和
K8s
的容器安全。從云原生平臺(tái)的架構(gòu)來看會(huì)面對(duì)來自不同層面的挑戰(zhàn)。首先,在容器及
K8s
層面,鏡像安全、容器運(yùn)行時(shí)安全、容器網(wǎng)絡(luò)安全、權(quán)限安全等問題需要進(jìn)行管理和監(jiān)控。其次,在平臺(tái)層面,集群隔離、租戶安全、用戶隔離等問題也對(duì)云平臺(tái)提出了要求,當(dāng)前云平臺(tái)對(duì)資源的分散管理更凸顯了這個(gè)問題?;谌缟弦蛩兀粋€(gè)典型的挑戰(zhàn)來自針對(duì)東西向流量的安全管控。如上所述,云原生技術(shù)的應(yīng)用大大增加了數(shù)據(jù)中心服務(wù)器之間的數(shù)據(jù)交換(東西向流量),有數(shù)據(jù)表明東西向流量在數(shù)據(jù)中心總流量中的占比接近
80%,這就面臨一個(gè)問題,一旦攻擊者繞過南北向流量的邊界防御,就可能在內(nèi)網(wǎng)中肆意蔓延,如何有效控制內(nèi)網(wǎng)中的東西向流量成為一個(gè)重要的安全問題。采取更嚴(yán)格的細(xì)粒度安全模型是解決這個(gè)挑戰(zhàn)的路徑之一,其中分布式防火墻技術(shù)可以將安全和工作負(fù)載在細(xì)粒度上聯(lián)系起來。但是,是8DPU
金融行業(yè)發(fā)展白皮書采用純軟件方式、還是其他軟硬一體的解決策略也需要具體分析和討論。這些因素都對(duì)金融云平臺(tái)在安全防護(hù)上提出了持續(xù)的挑戰(zhàn)。5.高可用的挑戰(zhàn)云原生技術(shù)在企業(yè)實(shí)際場(chǎng)景中的實(shí)施落地,特別是在金融場(chǎng)景的實(shí)施落地,仍然面臨諸多挑戰(zhàn)。如何實(shí)現(xiàn)金融云平臺(tái)的高可用性是當(dāng)前的挑戰(zhàn)之一。金融云平臺(tái)的高可用是一個(gè)系統(tǒng)級(jí)平臺(tái)層面的要求,是分布式系統(tǒng)架構(gòu)設(shè)計(jì)中必須考慮的因素之一。架構(gòu)實(shí)現(xiàn)上可以通過冗余和自動(dòng)故障遷移來實(shí)現(xiàn),在故障遷移方面,首先就需要能夠識(shí)別故障,能夠在技術(shù)風(fēng)險(xiǎn)事件中有全鏈路的監(jiān)控和管理能力。這就包括事件發(fā)生前、發(fā)展中、發(fā)生后的連續(xù)的業(yè)務(wù)監(jiān)控和追溯能力。具體到風(fēng)險(xiǎn)事件發(fā)生前,就需要具備日常業(yè)務(wù)巡檢、故障演練、業(yè)務(wù)監(jiān)控,建立風(fēng)險(xiǎn)發(fā)現(xiàn)等手段;在風(fēng)險(xiǎn)事件發(fā)生時(shí),需要具備應(yīng)急管理快速拉起應(yīng)急流程的能力,完成故障快速診斷,并通過應(yīng)急預(yù)案、容災(zāi)切換實(shí)現(xiàn)故障的快速恢復(fù);在風(fēng)險(xiǎn)事件結(jié)束后,需要具備風(fēng)險(xiǎn)管理回溯、復(fù)盤等機(jī)制,加固風(fēng)險(xiǎn)事件發(fā)現(xiàn)和診斷能力。這些能力和手段保證了高可用性的實(shí)現(xiàn),但這些功能的具體實(shí)現(xiàn)依托于具體的基礎(chǔ)設(shè)施(IaaS)所能提供的能力。在高可用層面一個(gè)有代表性的挑戰(zhàn)來自裸金屬的應(yīng)用,在裸金屬應(yīng)用中需要額外的網(wǎng)關(guān)服務(wù)器來承擔(dān)虛擬化網(wǎng)絡(luò)的開銷,在
PXE
裝機(jī),本地盤遷移等能力上性能不高且耗時(shí)長(zhǎng)?;谶@些基本的能力現(xiàn)狀,裸金屬服務(wù)器在出現(xiàn)硬件故障時(shí),無法9DPU
金融行業(yè)發(fā)展白皮書像虛擬機(jī)一樣在短時(shí)間內(nèi)恢復(fù)或遷移,不能滿足故障應(yīng)急需要,無法提供高可用能力。另外還有其他的情形,例如容器平臺(tái)的宿主節(jié)點(diǎn)使用了
IaaS
虛擬機(jī)且啟用了
SDN
網(wǎng)絡(luò),當(dāng)容器平臺(tái)啟用CNI
特性時(shí),容器平臺(tái)上的應(yīng)用就可以和
IaaS
虛擬機(jī)的業(yè)務(wù)應(yīng)用直接通信。如果和傳統(tǒng)網(wǎng)絡(luò)中的舊應(yīng)用通信,則需要開啟
IaaS的
NAT
特性或者為宿主節(jié)點(diǎn)配置
EIP
地址??梢钥吹?,不同業(yè)務(wù)部署和實(shí)現(xiàn)方法對(duì)保證高可用性需要提供針對(duì)性的功能實(shí)現(xiàn),一方面增加了適配開發(fā)的工作量和維護(hù)成本,另一方面無法解耦軟件與軟件之間、軟件與硬件之間的耦合性。6.人工智能大模型訓(xùn)練難度大大模型通過海量數(shù)據(jù)的訓(xùn)練學(xué)習(xí),具備了強(qiáng)大的語(yǔ)言理解和表達(dá)、思維鏈推理等能力,在文本圖像理解、內(nèi)容生成等人工智能任務(wù)中表現(xiàn)出顯著優(yōu)勢(shì)和巨大潛力。相較于傳統(tǒng)人工智能算法一事一議的建模方式,大模型具備更強(qiáng)的通用能力,可處理多種任務(wù),可較好解決傳統(tǒng)模型的碎片化問題。大模型作為一種新型人工智能技術(shù),在金融領(lǐng)域的應(yīng)用范圍涵蓋了風(fēng)險(xiǎn)管理、欺詐檢測(cè)、語(yǔ)音識(shí)別和自然語(yǔ)言處理等方面。通過人工智能大模型可以提高金融行業(yè)的應(yīng)用效率,降低成本,提高精確性和安全性,并且為客戶和投資者提供更好的服務(wù)和體驗(yàn)。訓(xùn)練一個(gè)大模型當(dāng)前主要面臨以下幾方面挑戰(zhàn)。(1)內(nèi)存墻。GPT3
模型擁有
1700
億的參數(shù),光內(nèi)存消耗需要近
800GB。訓(xùn)練過程因?yàn)闀?huì)有權(quán)重、激活、優(yōu)化器狀態(tài),再10DPU
金融行業(yè)發(fā)展白皮書加上自動(dòng)微分所產(chǎn)生臨時(shí)變量,需要
3500GB
內(nèi)存,一個(gè)大模型的訓(xùn)練就需要
100
多塊具有
32GB
內(nèi)存的
GPU。隨著大模型的發(fā)展,參數(shù)會(huì)變得越來越大。而
GPU
與
GPU
之間的內(nèi)存如何高效的進(jìn)行交換,對(duì)大模型的訓(xùn)練效率有直接影響。(2)通信墻。大模型通過模型并行、流水線并行切分到大模型訓(xùn)練集群后,通訊便成了主要的性能瓶頸。對(duì)于大規(guī)模的深度學(xué)習(xí)模型,動(dòng)輒需要幾百甚至幾千張
GPU
卡的算力,服務(wù)器節(jié)點(diǎn)多,跨服務(wù)器通信需求巨大,使得網(wǎng)絡(luò)性能成為
GPU
集群系統(tǒng)的瓶頸。傳統(tǒng)基于以太網(wǎng)絡(luò)的
TCP
通信方式,不僅時(shí)延高,而且極大消耗了寶貴的計(jì)算資源和內(nèi)存帶寬資源,不能滿足大規(guī)模的深度學(xué)習(xí)的網(wǎng)絡(luò)通信需求。(3)存儲(chǔ)墻。大模型訓(xùn)練過程中需要讀取和存放海量數(shù)據(jù)到磁盤中,如何高效存放這些數(shù)據(jù),以及集群中的
GPU
如何共享這些數(shù)據(jù)將直接影響到大模型訓(xùn)練的時(shí)間。二、DPU
發(fā)展與趨勢(shì)(一)DPU
歷史演進(jìn)隨著云計(jì)算、虛擬化技術(shù)的發(fā)展,網(wǎng)卡也隨之發(fā)展,從功能和硬件結(jié)構(gòu)上基本可劃分為
4
個(gè)階段。1.傳統(tǒng)基礎(chǔ)網(wǎng)卡(NIC)。負(fù)責(zé)數(shù)據(jù)報(bào)文的收發(fā),具有較少的硬件卸載能力。硬件上以
ASIC
硬件邏輯實(shí)現(xiàn)網(wǎng)絡(luò)物理鏈路層,以及
MAC
層的報(bào)文處理,后期
NIC
標(biāo)卡也支持了,諸如
CRC
校驗(yàn)的功能。不具有編程能力。11DPU
金融行業(yè)發(fā)展白皮書2.智能網(wǎng)卡(SmartNIC)。具備一定的數(shù)據(jù)平面硬件卸載能力,例如
OVS/vRouter
硬件卸載。硬件結(jié)構(gòu)上以
FPGA
或者是帶有
FPGA
和處理器內(nèi)核的集成處理器(這里處理器功能較弱)來實(shí)現(xiàn)數(shù)據(jù)面硬件卸載。3.FPGA+CPU
的
DPU
網(wǎng)卡(FPGA-Based
DPU)。兼具智能網(wǎng)卡功能的同時(shí),可以支持?jǐn)?shù)據(jù)面和控制面的卸載以及一定的控制平面與數(shù)據(jù)平面的可編程能力。硬件結(jié)構(gòu)的發(fā)展上,基于
FPGA增加了通用
CPU
處理器,例如
Intel
CPU。4.DPU
SoC
網(wǎng)卡(Single-Chip
DPU)。單芯片的通用可編程
DPU
芯片,具備豐富的硬件卸載加速和可編程能力,支持不同云計(jì)算場(chǎng)景和資源統(tǒng)一管理特性。硬件上,采用單芯片的
SoC
形態(tài),兼顧性能和功耗。FPGA-Based
DPU
在硬件設(shè)計(jì)上的挑戰(zhàn)主要來自芯片面積和功耗。面積上,PCIe
接口的結(jié)構(gòu)尺寸限定了板上的芯片面積;功耗上,板卡的散熱設(shè)計(jì)與芯片和整板的功耗密切相關(guān)。這兩個(gè)因素制約著
FPGA
方案的持續(xù)發(fā)展。DPU
SoC方案吸取了從
NIC
到
FPGA-Based
DPU
的發(fā)展過程的軟硬件經(jīng)驗(yàn)和成果,是目前以
DPU
為中心的數(shù)據(jù)中心架構(gòu)的重要演進(jìn)路徑。DPU
作為軟件定義芯片的典型代表,基于“軟件定義、硬件加速”的理念,是集數(shù)據(jù)處理為核心功能于芯片的通用處理器。DPU
通用處理單元用來處理控制平面業(yè)務(wù),專用處理單元保證了數(shù)據(jù)平面的處理性能,從而達(dá)到了性能與通用性的平衡。DPU
專用處理單元用來解決通用基礎(chǔ)設(shè)施虛擬化的性能瓶頸,通用處理12DPU
金融行業(yè)發(fā)展白皮書單元?jiǎng)t保證
DPU
的通用性,使得
DPU
能夠廣泛適用于云基礎(chǔ)設(shè)施的各種場(chǎng)景中,實(shí)現(xiàn)虛擬化軟件框架向
DPU
的平滑遷移。1.NIC的發(fā)展和應(yīng)用傳統(tǒng)基礎(chǔ)網(wǎng)卡
NIC,又稱網(wǎng)絡(luò)適配器,是構(gòu)成計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)中最基本和最重要的連接設(shè)備,其主要工作是將需要傳輸?shù)臄?shù)據(jù)轉(zhuǎn)換為網(wǎng)絡(luò)設(shè)備能夠識(shí)別的格式(如圖
2
所示)。圖
2
NIC
在虛擬化中應(yīng)用在網(wǎng)絡(luò)技術(shù)發(fā)展的帶動(dòng)下,傳統(tǒng)基礎(chǔ)網(wǎng)卡的功能也更加豐富,已經(jīng)初步具備了一些簡(jiǎn)單的硬件卸載能力(如
CRC
校驗(yàn)、TSO/UFO、LSO/LRO、VLAN
等),支持
SR-IOV
和流量管理
QoS,傳統(tǒng)基礎(chǔ)網(wǎng)卡的網(wǎng)絡(luò)接口帶寬也由原來的百兆、千兆發(fā)展到
10G、25G
乃至100G。在云計(jì)算虛擬化網(wǎng)絡(luò)中,傳統(tǒng)基礎(chǔ)網(wǎng)卡向虛擬機(jī)提供網(wǎng)絡(luò)接入的方式主要分為以下
3
種。13DPU
金融行業(yè)發(fā)展白皮書(1)網(wǎng)卡接收流量經(jīng)操作系統(tǒng)內(nèi)核協(xié)議棧轉(zhuǎn)發(fā)至虛擬機(jī)。(2)由
DPDK
用戶態(tài)驅(qū)動(dòng)接管網(wǎng)卡,讓數(shù)據(jù)包繞過操作系統(tǒng)內(nèi)核協(xié)議棧直接拷貝到虛擬機(jī)內(nèi)存。(3)使用
SR-IOV
技術(shù),將物理網(wǎng)卡
PF
虛擬化成多個(gè)具有網(wǎng)卡功能的虛擬
VF,再將
VF
直通到虛擬機(jī)中。隨著
VxLAN
等隧道協(xié)議以及
OpenFlow、OVS
等虛擬交換技術(shù)的應(yīng)用,網(wǎng)絡(luò)處理的復(fù)雜度在逐漸增大,需要消耗更多的
CPU
資源,因此智能網(wǎng)卡
SmartNIC
誕生了。2.SmartNIC的發(fā)展和應(yīng)用智能網(wǎng)卡
SmartNIC
除了具備傳統(tǒng)基礎(chǔ)網(wǎng)卡的網(wǎng)絡(luò)傳輸功能外,還提供豐富的硬件卸載加速能力,能夠提升云計(jì)算網(wǎng)絡(luò)的轉(zhuǎn)發(fā)速率,釋放主機(jī)
CPU
計(jì)算資源(如圖
3
所示)。圖
3
SmartNIC
在虛擬化中應(yīng)用14DPU
金融行業(yè)發(fā)展白皮書智能網(wǎng)卡
SmartNIC
上沒有通用處理器
CPU,需要主機(jī)
CPU進(jìn)行控制面管理。智能網(wǎng)卡
SmartNIC
主要卸載加速對(duì)象是數(shù)據(jù)平面,如虛擬交換機(jī)
OVS/vRouter
等數(shù)據(jù)面
Fastpath
卸載、RDMA網(wǎng)絡(luò)卸載、NVMe-oF
存儲(chǔ)卸載以及
IPsec/TLS
數(shù)據(jù)面安全卸載等。但是隨著云計(jì)算應(yīng)用中網(wǎng)絡(luò)速率的不斷提高,主機(jī)仍會(huì)消耗大量寶貴的
CPU
資源對(duì)流量進(jìn)行分類、跟蹤和控制,如何實(shí)現(xiàn)主機(jī)
CPU
的“零消耗”成了云廠商下一步的研究方向。3.FPGA-Based
DPU網(wǎng)卡的發(fā)展和應(yīng)用相比智能網(wǎng)卡
SmartNIC,F(xiàn)PGA-Based
DPU
網(wǎng)卡在硬件架構(gòu)上增加了通用
CPU
處理單元,組合成
FPGA+CPU
的架構(gòu)形態(tài),從而便于實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)、存儲(chǔ)、安全和管控等通用基礎(chǔ)設(shè)施的加速和卸載(如圖
4
所示)。圖
4
DPU
在虛擬化中應(yīng)用15DPU
金融行業(yè)發(fā)展白皮書在這個(gè)階段中,DPU
的產(chǎn)品形態(tài)主要以
FPGA+CPU
為主?;?/p>
FPGA+CPU
硬件架構(gòu)的
DPU
具有良好的軟硬件可編程性,在
DPU發(fā)展初期大部分
DPU
廠商都選擇了這個(gè)方案。該方案開發(fā)時(shí)間相對(duì)較短且迭代快速,能夠迅速完成定制化功能開發(fā),便于
DPU
廠商快速推出產(chǎn)品,搶占市場(chǎng)。但是隨著網(wǎng)絡(luò)帶寬從
25G
向
100G的遷移,基于
FPGA+CPU
硬件架構(gòu)的
DPU
受到芯片制程和
FPGA
結(jié)構(gòu)的限制,導(dǎo)致在追求更高吞吐能力時(shí),難以做到對(duì)芯片面積和功耗的很好控制,從而制約了這種
DPU
架構(gòu)的持續(xù)發(fā)展。4.DPU
SoC網(wǎng)卡的發(fā)展和應(yīng)用DPU
SoC
是基于
ASIC
的硬件架構(gòu),結(jié)合了
ASIC
和
CPU
的優(yōu)勢(shì),兼顧了專用加速器的優(yōu)異性能和通用處理器的可編程靈活性的單芯片
DPU
技術(shù)方案,是驅(qū)動(dòng)云計(jì)算技術(shù)發(fā)展的重要因素。如前一段所述,雖然
DPU
在云計(jì)算扮演著重要的作用,但傳統(tǒng)的
DPU
方案多以
FPGA-based
方案呈現(xiàn),隨著服務(wù)器從
25G
向下一代
100G
服務(wù)器遷移,其成本、功耗、功能等諸多方面受到了嚴(yán)重的挑戰(zhàn)。單芯片的
DPU
SoC
不僅在成本、功耗方面有著巨大優(yōu)勢(shì),同時(shí)也兼具高吞吐和高靈活編程能力,不僅支持虛擬機(jī)、容器的應(yīng)用管理部署,也支持裸金屬應(yīng)用(如圖
5
所示)。16DPU
金融行業(yè)發(fā)展白皮書圖
5
DPU
SoC
在虛擬化和裸金屬中的應(yīng)用隨著
DPU
技術(shù)的不斷發(fā)展,通用可編程的
DPU
SoC
正在成為云廠商在數(shù)據(jù)中心建設(shè)中的關(guān)鍵部件。DPU
SoC
可以實(shí)現(xiàn)對(duì)數(shù)據(jù)中心中的計(jì)算資源和網(wǎng)絡(luò)資源的經(jīng)濟(jì)高效管理,具備豐富功能和可編程能力的
DPU
SoC
可以支持不同云計(jì)算場(chǎng)景和資源統(tǒng)一管理,優(yōu)化數(shù)據(jù)中心計(jì)算資源利用率。(二)DPU
生態(tài)發(fā)展可以看到
DPU
技術(shù)是由需求驅(qū)動(dòng),然后快速發(fā)展起來的新技術(shù)形態(tài)。近幾年來,經(jīng)過國(guó)內(nèi)外互聯(lián)網(wǎng)公司在不同應(yīng)用場(chǎng)景下的嘗試和驗(yàn)證,取得了不錯(cuò)的成本收益。例如在國(guó)外
AWS
使用
NitroDPU
系統(tǒng)把網(wǎng)絡(luò)、存儲(chǔ)、安全和監(jiān)控等功能分解并轉(zhuǎn)移到專用的硬件和軟件上,將服務(wù)器上幾乎所有資源都提供給服務(wù)實(shí)例,降低了數(shù)據(jù)中心總體的運(yùn)行成本;在國(guó)內(nèi)阿里云發(fā)布了云基礎(chǔ)設(shè)施處理器
CIPU,實(shí)現(xiàn)了網(wǎng)絡(luò)、存儲(chǔ)、虛擬化全硬件卸載。17DPU
金融行業(yè)發(fā)展白皮書隨著
DPU
技術(shù)的不斷完善和功能定位的逐步明晰,DPU
的生態(tài)建設(shè)也在積極推進(jìn),在行業(yè)內(nèi)取得了很大的進(jìn)展。在國(guó)外,首先
Nvidia
推動(dòng)
DOCA
軟件棧的發(fā)展,促進(jìn)和降低終端用戶對(duì)
DPU
的使用門檻。從
CUDA
軟件生態(tài)之于
Nvidia
GPU的作用,可以看到
DPU
軟件生態(tài)對(duì)
DPU
技術(shù)發(fā)展的重要性,因此DOCA
廣泛受到了業(yè)界的持續(xù)關(guān)注。其次,除了
DOCA
之外,OPI(Open
Programmable
Infrastructure,開放可編程基礎(chǔ)設(shè)施),在
2022
年
6
月由
Linux
基金會(huì)發(fā)布,旨在為基于
DPU/IPU
等可編程硬件承載的軟件開發(fā)框架培育一個(gè)由社區(qū)驅(qū)動(dòng)的開放生態(tài),簡(jiǎn)化應(yīng)用程序中的網(wǎng)絡(luò)、存儲(chǔ)和安全
API,從而在開發(fā)運(yùn)維、安全運(yùn)維以及網(wǎng)絡(luò)運(yùn)維之間的云和數(shù)據(jù)中心中實(shí)現(xiàn)更具可移植性和高性能的應(yīng)用程序。在國(guó)內(nèi),也在積極推進(jìn)
DPU
產(chǎn)業(yè)的軟件生態(tài)建設(shè)。例如,2023年
6
月
ODPU
作為算網(wǎng)云開源操作系統(tǒng)(CNCOS)項(xiàng)目
1.0
的子項(xiàng)進(jìn)行了發(fā)布,在
DPU
管理、計(jì)算卸載、存儲(chǔ)卸載、網(wǎng)絡(luò)卸載、安全卸載和
RDMA
支持等方面提供通用軟件開發(fā)框架和兼容性接口。與此同時(shí),如中國(guó)信息通信研究院、中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)等部門和組織,也在制定積極制定相應(yīng)的標(biāo)準(zhǔn),從多個(gè)維度,例如兼容性規(guī)范、硬件編程規(guī)范、應(yīng)用生態(tài)接口規(guī)范等維度,來實(shí)現(xiàn)
DPU的軟硬件解耦和互聯(lián)互通的互操作能力。當(dāng)前,國(guó)內(nèi)外都在圍繞著
DPU
這個(gè)新興技術(shù)積極推進(jìn)相關(guān)軟硬件生態(tài)的開發(fā)和迭代。并且,立足于國(guó)內(nèi),無論從行業(yè)本身還18DPU
金融行業(yè)發(fā)展白皮書是來自政策的引導(dǎo),都在積極推動(dòng)著
DPU
的生態(tài)建設(shè)和標(biāo)準(zhǔn)化進(jìn)程。不過需要強(qiáng)調(diào)的是,目前
DPU
的生態(tài)發(fā)展還處在早期。軟硬件都還面臨諸多挑戰(zhàn)。例如在硬件層面,服務(wù)器中的電源管理、BMC
帶外管控邏輯與
DPU
的需求并不完全匹配;在軟件層面還沒有形成統(tǒng)一的軟件棧(包括
SDK
和運(yùn)行時(shí)環(huán)境),也沒有完善的定義清晰的
API
接口實(shí)現(xiàn)與云平臺(tái)軟件系統(tǒng)的兼容性對(duì)接;在操作系統(tǒng)層面,例如
Linux、windows、VMware
以及各類國(guó)產(chǎn)操作系統(tǒng)(OpenEuler
等),也面臨適配的需求。長(zhǎng)期來看,DPU
生態(tài)建設(shè)是一個(gè)不斷迭代長(zhǎng)期完善的過程。(三)DPU
典型案例在
DPU
的設(shè)計(jì)、開發(fā)和使用中,國(guó)內(nèi)外芯片巨頭和頭部云服務(wù)商都投入了大量的研發(fā)資源,經(jīng)過不斷探索和實(shí)踐,取得了很好的成本收益。1.DPU在AWS(亞馬遜云)中的應(yīng)用AWS
是全球領(lǐng)先的云計(jì)算服務(wù)和解決方案提供商,AWS
NitroDPU
系統(tǒng)已經(jīng)成為
AWS
云服務(wù)的技術(shù)基石。AWS
借助
Nitro
DPU系統(tǒng)把網(wǎng)絡(luò)、存儲(chǔ)、安全和監(jiān)控等功能分解并轉(zhuǎn)移到專用的硬件和軟件上,將服務(wù)器上幾乎所有資源都提供給服務(wù)實(shí)例,極大地降低了成本。Nitro
DPU
在亞馬遜云中的應(yīng)用可以使一臺(tái)服務(wù)器每年可以多獲得幾千美元的收益。19DPU
金融行業(yè)發(fā)展白皮書圖
6
AWS
Nitro
DPU(來源
AWS
官網(wǎng))Nitro
DPU
系統(tǒng)主要分為以下幾個(gè)部分(如圖
6
所示)。(1)Nitro
卡。一系列用于網(wǎng)絡(luò)、存儲(chǔ)和管控的專用硬件,以提高整體系統(tǒng)性能。(2)Nitro
安全芯片。將虛擬化和安全功能轉(zhuǎn)移到專用的硬件和軟件上,減少攻擊面,實(shí)現(xiàn)安全的云平臺(tái)。(3)Nitro
控制卡。一種輕量型
Hypervisor
管理程序,可以管理內(nèi)存和
CPU
的分配,并提供與裸機(jī)無異的性能。Nitro
DPU
系統(tǒng)提供了密鑰、網(wǎng)絡(luò)、安全、服務(wù)器和監(jiān)控等功能支持,釋放了底層服務(wù)資源供客戶的虛擬機(jī)使用,并且
NitroDPU
使
AWS
可以提供更多的裸金屬實(shí)例類型,甚至將特定實(shí)例的網(wǎng)絡(luò)性能提升到
100Gbps。2.Nvidia
DPU的應(yīng)用Nvidia
是一家以設(shè)計(jì)和銷售圖形處理器
GPU
為主的半導(dǎo)體公司,GPU
產(chǎn)品在
AI
和高性能計(jì)算
HPC
領(lǐng)域被廣泛應(yīng)用。2020年
4
月,Nvidia
以
69
億美元的價(jià)格收購(gòu)了網(wǎng)絡(luò)芯片和設(shè)備公司Mellanox,隨后陸續(xù)推出
BlueField
系列
DPU。20DPU
金融行業(yè)發(fā)展白皮書圖
7
Nvidia
BlueField-3
DPU
介紹(來源
Nvidia
官網(wǎng))Nvidia
BlueField-3
DPU(如圖
7
所示)延續(xù)了
BlueField-2DPU
的先進(jìn)特性,是首款為
AI
和加速計(jì)算而設(shè)計(jì)的
DPU
。BlueField-3
DPU
提供了最高
400Gbps
網(wǎng)絡(luò)連接,可以卸載、加速和隔離,支持軟件定義網(wǎng)絡(luò)、存儲(chǔ)、安全和管控功能。3.Intel
IPU的應(yīng)用Intel
IPU
是一種具有硬化加速器和以太網(wǎng)連接的高級(jí)網(wǎng)絡(luò)設(shè)備,可使用緊密耦合的專用可編程內(nèi)核來加速和管理基礎(chǔ)設(shè)施功能。IPU
提供完整的基礎(chǔ)設(shè)施卸載,并充當(dāng)運(yùn)行基礎(chǔ)設(shè)施應(yīng)用的主機(jī)控制點(diǎn),以提供額外的安全層。使用
Intel
IPU,可以將全部基礎(chǔ)設(shè)施業(yè)務(wù)從服務(wù)器卸載到
IPU
上,釋放服務(wù)器
CPU
資源,也為云服務(wù)提供商提供了一個(gè)獨(dú)立且安全的控制點(diǎn)。21DPU
金融行業(yè)發(fā)展白皮書圖
8
Intel
IPU
產(chǎn)品
roadmap(來源
Intel
官網(wǎng))2021
年,Intel
在
Intel
Architecture
Day
上發(fā)布了
OakSprings
Canyon
和
Mount
Evans
IPU
產(chǎn)品(如圖
8
所示)。其中,Oak
Springs
Canyon
是基于
FPGA
的
IPU
產(chǎn)品,Mount
EvansIPU
是基于
ASIC
的
IPU
產(chǎn)品。Intel
Oak
Springs
Canyon
IPU
配備了
Intel
Agilex
FPGA和
Xeon-D
CPU。Intel
Mount
Evans
IPU
是
Intel
與
共同設(shè)計(jì)的
SoC
(System-on-a-Chip),Mount
Evans
主要分為
IO子系統(tǒng)和計(jì)算子系統(tǒng)兩個(gè)部分。網(wǎng)絡(luò)部分用
ASIC
進(jìn)行數(shù)據(jù)包處理,性能相比
FPGA
高很多,且功耗更低。計(jì)算子系統(tǒng)使用了
16個(gè)
ARM
Neoverse
N1
核心,擁有極強(qiáng)的計(jì)算能力。4.DPU在阿里云中的應(yīng)用阿里云也在
DPU
的技術(shù)上不斷進(jìn)行著探索。2022
年阿里云峰會(huì)上,阿里云正式發(fā)布了云基礎(chǔ)設(shè)施處理器
CIPU,CIPU
的前22DPU
金融行業(yè)發(fā)展白皮書身是基于神龍架構(gòu)的
MoC
卡(Micro
Server
on
a
Card),從功能和定位符合
DPU
的定義。MoC
卡擁有獨(dú)立的
IO、存儲(chǔ)和處理單元,承擔(dān)了網(wǎng)絡(luò)、存儲(chǔ)和設(shè)備虛擬化的工作。第一代和第二代MoC
卡解決了狹義上的計(jì)算虛擬化零開銷問題,網(wǎng)絡(luò)和存儲(chǔ)部分的虛擬化仍由軟件實(shí)現(xiàn)。第三代
MoC
卡實(shí)現(xiàn)了部分網(wǎng)絡(luò)轉(zhuǎn)發(fā)功能硬化,網(wǎng)絡(luò)性能大幅提升。第四代
MoC
卡實(shí)現(xiàn)了網(wǎng)絡(luò)、存儲(chǔ)全硬件卸載,還支持了
RDMA
能力。阿里云
CIPU
作為一顆為飛天系統(tǒng)設(shè)計(jì)的數(shù)據(jù)中心處理器系統(tǒng),對(duì)于阿里云構(gòu)建新一代完整的軟硬件云計(jì)算架構(gòu)體系有著重大意義。5.DPU在火山引擎中的應(yīng)用火山引擎同樣在不斷探索自研
DPU
的道路,其自研
DPU
采用軟硬一體虛擬化技術(shù),旨在為用戶提供可彈性伸縮的高性能計(jì)算服務(wù)。在火山引擎彈性計(jì)算產(chǎn)品中,第二代彈性裸金屬服務(wù)器和第三代云服務(wù)器都搭載了自研
DPU,在產(chǎn)品能力和應(yīng)用場(chǎng)景上進(jìn)行了廣泛驗(yàn)證。2022
年正式對(duì)外商用的火山引擎第二代
EBM
實(shí)例首次搭載火山自研
DPU,在整體性能上既保留了傳統(tǒng)物理機(jī)的穩(wěn)定性和安全性優(yōu)勢(shì),能夠?qū)崿F(xiàn)安全物理隔離,又兼具虛擬機(jī)的彈性和靈活性優(yōu)勢(shì),是新一代多優(yōu)勢(shì)兼具的高性能云服務(wù)器。2023
年上半年發(fā)布的火山引擎第三代
ECS
實(shí)例同樣結(jié)合了火山引擎自研最新
DPU
的架構(gòu)和自研虛擬交換機(jī)、虛擬化技術(shù),網(wǎng)絡(luò)及存儲(chǔ)
IO
性能均實(shí)現(xiàn)了大幅提升。23DPU
金融行業(yè)發(fā)展白皮書三、基于DPU構(gòu)建綠色低碳金融云近年來,為落實(shí)雙碳等國(guó)家重大戰(zhàn)略,金融業(yè)積極實(shí)施綠色發(fā)展轉(zhuǎn)型。數(shù)據(jù)中心作為金融業(yè)的關(guān)鍵基礎(chǔ)設(shè)施以及數(shù)字經(jīng)濟(jì)的重要基礎(chǔ),是金融業(yè)發(fā)展和數(shù)字化轉(zhuǎn)型中的重要抓手。而在數(shù)字化轉(zhuǎn)型中,數(shù)據(jù)中心一方面需要支撐大量數(shù)據(jù)吞吐和運(yùn)算能力,另一方面還要面對(duì)來自服務(wù)器等
IT
產(chǎn)品的散熱與功耗挑戰(zhàn),需要大量運(yùn)維成本和能源消耗,已經(jīng)成為金融機(jī)構(gòu)的主要開支。黨的二十大報(bào)告最新提出,要加快發(fā)展方式綠色轉(zhuǎn)型,完善支持綠色發(fā)展的金融政策和標(biāo)準(zhǔn)體系,發(fā)展綠色低碳產(chǎn)業(yè)。如何讓金融業(yè)數(shù)據(jù)中心建設(shè)既滿足大量數(shù)據(jù)吞吐和運(yùn)算能力的要求,又滿足綠色低碳的發(fā)展方針成為當(dāng)前一大難題。當(dāng)前金融云計(jì)算平臺(tái)架構(gòu)體系可分為基礎(chǔ)硬件設(shè)施與設(shè)備、資源抽象與控制、云服務(wù)、運(yùn)維運(yùn)營(yíng)管理等部分(如圖
9
所示)。圖
9
云計(jì)算平臺(tái)架構(gòu)體系DPU
具備高效數(shù)據(jù)處理、內(nèi)置安全、網(wǎng)絡(luò)可編程、彈性資源24DPU
金融行業(yè)發(fā)展白皮書調(diào)度等能力,作為資源調(diào)度的中心,可以將計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等硬件設(shè)備與云計(jì)算架構(gòu)中的資源抽象層有機(jī)結(jié)合起來(如圖
10所示),充分利用軟件定義計(jì)算、軟件定義網(wǎng)絡(luò)、軟件定義存儲(chǔ)等技術(shù)提升資源利用率,使得金融云更加靈活彈性,從而助力金融業(yè)建設(shè)綠色、安全和高效的數(shù)據(jù)中心,積極踐行國(guó)家戰(zhàn)略。圖
10
基于
DPU
的云平臺(tái)架構(gòu)體系(一)統(tǒng)一部署彈性調(diào)度隨著云原生技術(shù)的快速發(fā)展和大規(guī)模應(yīng)用,當(dāng)前云原生在金融行業(yè)中的落地應(yīng)用也越來越多,通過將云計(jì)算、大數(shù)據(jù)、區(qū)塊鏈等技術(shù)和云原生理念有機(jī)結(jié)合在一起,以實(shí)現(xiàn)數(shù)據(jù)中心計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源的彈性調(diào)度和彈性伸縮,從而構(gòu)建跨層級(jí)、跨區(qū)域的智能化云原生數(shù)據(jù)中心,最終提升金融行業(yè)的運(yùn)營(yíng)效率。云原生技術(shù)平臺(tái)可以通過混合云對(duì)接多種基礎(chǔ)設(shè)施,例如容器、虛擬機(jī)、裸金屬服務(wù)器等計(jì)算資源。用戶可以通過申請(qǐng)或釋25DPU
金融行業(yè)發(fā)展白皮書放云化的計(jì)算資源來實(shí)現(xiàn)成本的最優(yōu)化,同時(shí)通過云原生的混合調(diào)度能力實(shí)現(xiàn)各種資源的個(gè)性化配置,做到業(yè)務(wù)的多樣化部署。在傳統(tǒng)的數(shù)據(jù)中心中,要滿足云原生架構(gòu)下不同業(yè)務(wù)對(duì)計(jì)算資源的個(gè)性化需求,一般需要對(duì)整個(gè)數(shù)據(jù)中心的資源進(jìn)行預(yù)先分配,劃分出容器、虛擬機(jī)、裸金屬服務(wù)器所占資源的比例,并以此比例注冊(cè)相應(yīng)的計(jì)算資源。同時(shí),為了實(shí)現(xiàn)裸金屬服務(wù)器和虛擬化平臺(tái)或者容器云平臺(tái)的互通,一般需要為裸金屬服務(wù)器單獨(dú)劃定專用的物理交換機(jī)來實(shí)現(xiàn)裸金屬服務(wù)器與虛擬化網(wǎng)絡(luò)的互通(如圖
11
所示)。在這種架構(gòu)下,虛擬機(jī)、容器、裸金屬服務(wù)器所使用的資源都是預(yù)先固定的,因此計(jì)算資源的類型屬于不可調(diào)度狀態(tài),并不符合云原生的理念。在云原生時(shí)代,應(yīng)用的發(fā)展非常迅速,而計(jì)算資源實(shí)例類型的使用是不可預(yù)測(cè)的,很可能出現(xiàn)虛擬化資源不夠滿足需求的情況,而為了滿足虛擬化資源就只能通過增加虛擬化服務(wù)器來解決資源不足的問題。而此時(shí),若裸金屬或者容器所預(yù)先分配的資源處于空閑狀態(tài),但因?yàn)槲锢砩系念A(yù)先限制而無法轉(zhuǎn)換為虛擬化所需要的資源,依然會(huì)占用數(shù)據(jù)中心的空間和運(yùn)維等成本,導(dǎo)致計(jì)算資源沒有完全充分利用,最終出現(xiàn)數(shù)據(jù)中心的整體利用率不高,而所消耗的運(yùn)維和能源成本卻很高的情況。26DPU
金融行業(yè)發(fā)展白皮書圖
11
傳統(tǒng)數(shù)據(jù)中心架構(gòu)為使云原生技術(shù)在金融行業(yè)實(shí)現(xiàn)標(biāo)計(jì)算資源標(biāo)準(zhǔn)化和更加靈活的彈性調(diào)度,并能更好地支撐對(duì)計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)等資源進(jìn)行彈性伸縮,同時(shí)又降本增效,讓數(shù)據(jù)中心的計(jì)算資源發(fā)揮更大的價(jià)值,DPU
應(yīng)運(yùn)而生。在以
DPU
為中心構(gòu)建云原生金融數(shù)據(jù)中心的架構(gòu)下(如圖12
所示),數(shù)據(jù)中心的建設(shè)從一開始就不需要從硬件層面預(yù)分配虛擬機(jī)、容器、裸金屬服務(wù)器等計(jì)算資源,特別是裸金屬服務(wù)器不再需要為其單獨(dú)配置專用的交換機(jī)以及相應(yīng)的裸金屬鏡像PXE
服務(wù)器。通過
DPU
特有的云盤啟動(dòng)能力支持,能夠以分鐘級(jí)提供裸金屬計(jì)算實(shí)例,同時(shí)
DPU
能夠?yàn)槁憬饘賹?shí)例提供彈性磁盤和彈性網(wǎng)卡,大幅降低了運(yùn)維和部署的成本和復(fù)雜度。此外,DPU內(nèi)置虛擬交換機(jī),用戶可以根據(jù)自己的需要配置相應(yīng)的虛擬網(wǎng)絡(luò),實(shí)現(xiàn)原先需要專用交換機(jī)才能實(shí)現(xiàn)的功能。27DPU
金融行業(yè)發(fā)展白皮書圖
12
基于
DPU
的金融云架構(gòu)通過
DPU
對(duì)數(shù)據(jù)中心的計(jì)算資源虛擬機(jī)、容器、裸金屬服務(wù)器進(jìn)行統(tǒng)一并池管理,可以大幅提升數(shù)據(jù)中心空間利用率,降低數(shù)據(jù)中心能耗,使得數(shù)據(jù)中心運(yùn)維更加簡(jiǎn)單方便,實(shí)現(xiàn)從數(shù)據(jù)中心建設(shè)層面踐行云原生的理念,打造符合金融行業(yè)綠色、高效、靈活、高度集成的云原生數(shù)據(jù)中心。(二)計(jì)算實(shí)例高可用金融云平臺(tái)對(duì)外提供的計(jì)算實(shí)例主要包括虛擬機(jī)、容器
、裸金屬。在以
DPU
為中心構(gòu)建的數(shù)據(jù)中心,通過
DPU
的云盤啟動(dòng)能力,每臺(tái)服務(wù)器可以進(jìn)行分鐘級(jí)別的靈活調(diào)整,切換角色。根據(jù)該特性,云平臺(tái)對(duì)裸金屬實(shí)例進(jìn)行生命周期管理,當(dāng)發(fā)現(xiàn)服務(wù)器故障或裸金屬實(shí)例不可達(dá)時(shí),首先通過云平臺(tái)的高可用機(jī)制將業(yè)務(wù)引導(dǎo)到正常狀態(tài)節(jié)點(diǎn),同時(shí)利用
DPU
提供的云盤啟動(dòng)方式將故障的裸金屬實(shí)例在另外的服務(wù)器迅速拉起恢復(fù)業(yè)務(wù)集群到正常28DPU
金融行業(yè)發(fā)展白皮書狀態(tài),實(shí)現(xiàn)裸金屬實(shí)例的高可用。在虛擬機(jī)實(shí)例方面,DPU
提供硬件級(jí)熱遷移能力,可以將使用
Passthrough
技術(shù)的虛擬機(jī)根據(jù)需要遷移到合適的節(jié)點(diǎn),在遷移過程中業(yè)務(wù)不中斷。依靠該特性,云平臺(tái)在監(jiān)控到宿主機(jī)異?;蛱摂M機(jī)異常后,對(duì)虛擬機(jī)進(jìn)行熱遷移以實(shí)現(xiàn)虛擬機(jī)實(shí)例對(duì)外業(yè)務(wù)的高可用。在容器實(shí)例方面,通過把
service
mesh
卸載到
DPU
將多個(gè)由
DPU
提供網(wǎng)絡(luò)和存儲(chǔ)的容器構(gòu)建為一個(gè)服務(wù)網(wǎng)格,通過服務(wù)鏈的方式提供對(duì)外服務(wù),當(dāng)出現(xiàn)容器故障時(shí),利用
service
mesh
的自動(dòng)選路功能保證對(duì)外服務(wù)正常工作,同時(shí)利用云原生平臺(tái)提供的容器副本監(jiān)控機(jī)制可以快速的將故障容器進(jìn)行重建,在這兩種機(jī)制的配合下保證容器實(shí)例的高可用。(三)加速云原生網(wǎng)絡(luò)隨著云計(jì)算和容器化技術(shù)的發(fā)展,云原生架構(gòu)已經(jīng)成為現(xiàn)代應(yīng)用程序的主流架構(gòu)之一。云原生網(wǎng)絡(luò)是一種專門為云原生應(yīng)用程序設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu),是指在云環(huán)境下構(gòu)建、管理和運(yùn)行應(yīng)用程序的網(wǎng)絡(luò)。這種網(wǎng)絡(luò)的特點(diǎn)是高度自動(dòng)化和可編程,以適應(yīng)云原生下快速變化的應(yīng)用需求和規(guī)模。在云原生網(wǎng)絡(luò)中,網(wǎng)絡(luò)功能通常以虛擬化的方式存在,以提供更好的靈活性并做到兼容原有的物理網(wǎng)絡(luò)設(shè)備。在云原生大浪潮下,金融業(yè)務(wù)相較于傳統(tǒng)金融業(yè)務(wù)更加多元化和規(guī)?;?,需要更靈活、敏捷的業(yè)務(wù)和技術(shù)架構(gòu)來支撐。傳統(tǒng)的集中式單體業(yè)務(wù)架構(gòu)和多層架構(gòu)已經(jīng)無法滿足業(yè)務(wù)變化和行29DPU
金融行業(yè)發(fā)展白皮書業(yè)發(fā)展的需求。云原生的應(yīng)用程序通常采用分布式微服務(wù)架構(gòu),一個(gè)應(yīng)用程序由多個(gè)微服務(wù)組成,這些微服務(wù)之間會(huì)頻繁地通信和交換,這種架構(gòu)的特點(diǎn)是能夠提升應(yīng)用程序的可伸縮性和靈活性,這就對(duì)網(wǎng)絡(luò)提出了更高的要求,要做到穩(wěn)定、高帶寬和低時(shí)延。目前主流的網(wǎng)絡(luò)方案還是基于內(nèi)核協(xié)議?;蛘咛摂M交換機(jī),當(dāng)業(yè)務(wù)對(duì)帶寬和時(shí)延的要求比較高時(shí),當(dāng)前架構(gòu)就無法滿足應(yīng)用程序?qū)W(wǎng)絡(luò)的需求。特別是在統(tǒng)一資源管理的需求下,容器
、虛擬機(jī)、裸金屬服務(wù)器需要在同一網(wǎng)絡(luò)平面下,若虛擬機(jī)使用虛擬網(wǎng)卡的方式接入網(wǎng)絡(luò),網(wǎng)絡(luò)的帶寬和時(shí)延都不能得到保證。為了滿足應(yīng)用程序的網(wǎng)絡(luò)需求,只能增加更多的工作負(fù)載,這在另一種程度上降低了數(shù)據(jù)中心的真實(shí)利用率,并帶來了更多的運(yùn)維和能耗成本。DPU
作為數(shù)據(jù)處理的核心,借由半虛擬化幾乎能夠達(dá)到物理設(shè)備性能的特性,DPU
為主機(jī)側(cè)提供硬件實(shí)現(xiàn)的半虛擬化設(shè)備virtio-net,使容器、裸金屬服務(wù)器和虛擬機(jī)都使用統(tǒng)一的網(wǎng)絡(luò)設(shè)備類型進(jìn)行通信。另外,DPU
內(nèi)置硬件包處理引擎,可以做到完全卸載虛擬交換機(jī)的快速路徑到硬件,實(shí)現(xiàn)高帶寬、低時(shí)延的可編程虛擬網(wǎng)絡(luò)(如圖
13
所示)。30DPU
金融行業(yè)發(fā)展白皮書圖
13
基于
DPU
的網(wǎng)絡(luò)卸載加速(四)加速云原生存儲(chǔ)云原生存儲(chǔ)是一種針對(duì)云原生應(yīng)用設(shè)計(jì)的存儲(chǔ)架構(gòu),可更好地適應(yīng)動(dòng)態(tài)的云環(huán)境,提高應(yīng)用的可用性和可伸縮性。云原生存儲(chǔ)通常采用分布式存儲(chǔ)技術(shù),將數(shù)據(jù)分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,提高存儲(chǔ)系統(tǒng)的可靠性和可用性,并支持動(dòng)態(tài)擴(kuò)展和收縮。常見的云原生存儲(chǔ)技術(shù)包括如下幾種。1.對(duì)象存儲(chǔ)(Object
Storage)。對(duì)象存儲(chǔ)是一種分布式存儲(chǔ)方式,將數(shù)據(jù)分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,并使用元數(shù)據(jù)管理數(shù)據(jù)。對(duì)象存儲(chǔ)通常具有高可靠性、高擴(kuò)展性、高性能和低成本等優(yōu)點(diǎn),適用于存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)。2.分布式塊存儲(chǔ)(Distributed
Block
Storage)。分布式塊存儲(chǔ)將數(shù)據(jù)分割成塊,然后將塊分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,可以提供高可靠性和高性能,適用于存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)和虛擬機(jī)磁盤。3.分布式文件系統(tǒng)(Distributed
File
System)。分布式文件系統(tǒng)將文件分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,并提供文件系統(tǒng)接口,31DPU
金融行業(yè)發(fā)展白皮書支持多個(gè)客戶端訪問,可以提供高可靠性和高性能,適用于存儲(chǔ)大型文件和共享文件。其中虛擬機(jī)、裸金屬服務(wù)器以及一些應(yīng)用對(duì)塊存儲(chǔ)的性能和延遲、兼容性和互操作性有強(qiáng)烈的需求。目前為了應(yīng)對(duì)這些挑戰(zhàn),普遍的做法是優(yōu)化存儲(chǔ)協(xié)議、緩存,采用支持多種存儲(chǔ)協(xié)議和接口的分布式存儲(chǔ)系統(tǒng)。但隨著數(shù)據(jù)規(guī)模和數(shù)量越來越大,各種應(yīng)用對(duì)存儲(chǔ)的帶寬、時(shí)延等性能指標(biāo)的要求越來越高,存儲(chǔ)系統(tǒng)也變得越來越龐大和復(fù)雜。DPU
作為數(shù)據(jù)處理的核心,一方面可以對(duì)裸金屬服務(wù)器、虛擬機(jī)提供標(biāo)準(zhǔn)的半虛擬化設(shè)備
virtio-blk
和
nvme
設(shè)備,同時(shí)這些設(shè)備的存儲(chǔ)后端通過
DPU
可連接各種存儲(chǔ)后端(如
iSCSI、NVME、RBD
等
),從而節(jié)省大量的非計(jì)算損耗。另一方面,通過
DPU
提供的
RDMA
技術(shù)和內(nèi)置的存儲(chǔ)協(xié)議加速引擎,為計(jì)算實(shí)例提供高帶寬、低時(shí)延的數(shù)據(jù)讀寫,提升數(shù)據(jù)中心存儲(chǔ)資源的效率,降低數(shù)據(jù)中心存儲(chǔ)資源的運(yùn)維和能耗等成本(如圖
14
所示)。圖
14
基于
DPU
的存儲(chǔ)卸載加速32DPU
金融行業(yè)發(fā)展白皮書(五)加速微服務(wù)應(yīng)用伴隨著云原生和微服務(wù)的技術(shù)在金融行業(yè)的普及,以及服務(wù)網(wǎng)格(Service
Mesh)技術(shù)的逐漸成熟,解決了金融行業(yè)分布式系統(tǒng)的歷史包袱。服務(wù)網(wǎng)格架構(gòu)引入
SideCar
使現(xiàn)有的服務(wù)可以在不改造的情況下引入了服務(wù)治理能力,大大降低了中間件的研發(fā)投入和演進(jìn)成本,也降低了業(yè)務(wù)和中間件的耦合,基礎(chǔ)架構(gòu)與業(yè)務(wù)架構(gòu)可以獨(dú)立演進(jìn)。服務(wù)網(wǎng)格架構(gòu)也為多語(yǔ)言棧提供了服務(wù)治理能力。面向大規(guī)模金融級(jí)的微服務(wù)應(yīng)用,引入新系統(tǒng)架構(gòu)服務(wù)網(wǎng)格以實(shí)現(xiàn)分布式平臺(tái)的架構(gòu)轉(zhuǎn)型和技術(shù)組件能力進(jìn)化。服務(wù)網(wǎng)格通過
SideCar
接管業(yè)務(wù)進(jìn)程的出入口流量,將微服務(wù)治理的邏輯從業(yè)務(wù)中獨(dú)立出來,由服務(wù)網(wǎng)格框架提供服務(wù)鑒定、過載保護(hù)、負(fù)載均衡等分布式服務(wù)治理的功能。盡管
Sidecar
在服務(wù)網(wǎng)格中帶來許多好處,但它也可能會(huì)帶來一些缺點(diǎn)。其中一種常見的缺點(diǎn)是延遲,這主要是因?yàn)樵S多服務(wù)網(wǎng)格解決方案需要通過Sidecar
來處理網(wǎng)絡(luò)流量、域名解析和負(fù)載均衡等復(fù)雜的工作。當(dāng)本來應(yīng)該直接在進(jìn)程內(nèi)部完成的工作被轉(zhuǎn)移到了
Sidecar
中時(shí),會(huì)額外增加一定的延遲。另外,在高負(fù)載情況下,Sidecar
還可能成為瓶頸,導(dǎo)致服務(wù)的性能下降。并且,隨著微服務(wù)規(guī)模不斷擴(kuò)大,服務(wù)網(wǎng)格資源占用量較大的問題逐漸凸顯,同時(shí)由于服務(wù)網(wǎng)格代理進(jìn)程與業(yè)務(wù)進(jìn)程部署在一起共享資源,也存在相互影響的情況。33DPU
金融行業(yè)發(fā)展白皮書利用
DPU
異構(gòu)計(jì)算進(jìn)行卸載和加速的技術(shù)正不斷發(fā)展和演進(jìn),通過將
SideCar
卸載到
DPU
上,業(yè)務(wù)和服務(wù)網(wǎng)格的關(guān)系從“邏輯隔離”演進(jìn)為“物理隔離”,服務(wù)器上只運(yùn)行業(yè)務(wù)邏輯。在保持多語(yǔ)言的
RPC
SDK
向業(yè)務(wù)輸出能力的同時(shí),對(duì)于卸載到DPU
上的
SideCar
部分,通過軟硬件結(jié)合等方式,將
SideCar重復(fù)性、高頻的操作用硬件卸載和加速,從而解決了服務(wù)網(wǎng)格鏈路延遲和資源隔離的問題。(六)加速云原生安全云原生作為一種新的軟件開發(fā)和部署理念,它強(qiáng)調(diào)應(yīng)用程序的可移植性、可擴(kuò)展性和彈性。云原生環(huán)境中有許多不同的組件和服務(wù),包括容器、微服務(wù)、自動(dòng)化部署工具等。這些新的組件和服務(wù)使得安全方面的需求也發(fā)生了變化。金融行業(yè)是對(duì)安全性要求最高的行業(yè)之一,因此金融行業(yè)的云原生架構(gòu)需要具備高可用、高可靠、高安全等特點(diǎn),需要采用一系列安全解決方案來保證整個(gè)云原生平臺(tái)的安全性。在云原生網(wǎng)絡(luò)中,mTLS
是確保云原生應(yīng)用程序中微服務(wù)之間的通信安全的首選協(xié)議。DPU
作為云原生架構(gòu)中數(shù)據(jù)處理的核心,對(duì)虛擬機(jī)、容器、裸金屬網(wǎng)絡(luò)進(jìn)行卸載加速的同時(shí),可以將mTLS
卸載到
DPU
上,加速微服務(wù)安全應(yīng)用,可以將
IPS,防病毒,防火墻等安全軟件部署在
DPU
上并使用
DPI
硬件引擎進(jìn)行加速,將計(jì)算實(shí)例產(chǎn)生的流量導(dǎo)入到這些安全軟件中,從而構(gòu)建零信任的網(wǎng)絡(luò)解決方案,對(duì)東西向流量進(jìn)行節(jié)點(diǎn)級(jí)的防護(hù)。同時(shí),DPU34DPU
金融行業(yè)發(fā)展白皮書支持國(guó)密硬件引擎,能夠?yàn)閿?shù)據(jù)的加解密提供更高安全的防護(hù)。(七)加速大模型訓(xùn)練隨著
AI
模型的規(guī)模越來越大,分布式訓(xùn)練成為
AI
大模型訓(xùn)練的主要方式。所謂分布式訓(xùn)練,即跨越單臺(tái)
GPU
服務(wù)器的算力限制,使用數(shù)據(jù)中心不同的物理服務(wù)器的
GPU
算力卡,通過高速低延遲網(wǎng)絡(luò)及存儲(chǔ)構(gòu)建
GPU
計(jì)算集群,實(shí)現(xiàn)更大規(guī)模的、多機(jī)多卡的
GPU
并行計(jì)算。通過
GPU
分布式訓(xùn)練技術(shù),可以在更短時(shí)間內(nèi)將模型訓(xùn)練到滿足工業(yè)級(jí)應(yīng)用的精度。GPU
分布式訓(xùn)練優(yōu)化涉及計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)硬件層面,也包括數(shù)據(jù)并行、模型并行、GPU參數(shù)同步通信的算法和軟件實(shí)現(xiàn)層面,GPU
集群任何一點(diǎn)出現(xiàn)性能短板,都可能會(huì)成為整體訓(xùn)練過程中的性能瓶頸關(guān)鍵點(diǎn),其中,“內(nèi)存墻”與“通信墻”是
GPU
分布式訓(xùn)練最主要的性能瓶頸點(diǎn)。為了解決“內(nèi)存墻”與“通信墻”,通常會(huì)使用
RDMA
技術(shù)和
100G
帶寬的網(wǎng)卡。傳統(tǒng)的
RDMA
網(wǎng)卡通過
SR-IOV
技術(shù)可以拆分出多個(gè)
VF
以供虛擬機(jī)使用。在云原生架構(gòu)下,為了資源利用率的最大化,大模型的訓(xùn)練需要做到快速部署訓(xùn)練,需要每個(gè)容器、虛擬機(jī)都有使用
RDMA
設(shè)備的能力,DPU
通??梢灾С稚锨€(gè)
RDMA
設(shè)備可以充分滿足通信需求。同時(shí),通過基于
DPU
的內(nèi)存和存儲(chǔ)交換方案,可以加速
GPU
與存儲(chǔ)設(shè)備之間,GPU
與
GPU之間的信息交換,降低通信時(shí)延,從而降低大模型訓(xùn)練的消耗時(shí)間。35DPU
金融行業(yè)發(fā)展白皮書(八)提升計(jì)算資源利用率虛擬化和容器化是云原生技術(shù)的核心技術(shù)之一,通過虛擬化技術(shù)和容器化技術(shù)提供的計(jì)算資源是云計(jì)算基礎(chǔ)設(shè)施的核心組成部分,也是計(jì)算能力的基礎(chǔ)。充分利用計(jì)算資源是云計(jì)算技術(shù)一直努力的方向。當(dāng)前主要通過以下途徑來提升計(jì)算資源的利用率。1.資源虛擬化。通過虛擬化技術(shù),可以將物理計(jì)算資源劃分為多個(gè)虛擬計(jì)算資源,從而使得計(jì)算資源可以更好地被多個(gè)租戶共享,提高計(jì)算資源的利用率。2.彈性計(jì)算。通過資源動(dòng)態(tài)調(diào)度技術(shù),根據(jù)應(yīng)用程序的需要?jiǎng)討B(tài)調(diào)整計(jì)算資源的分配,從而實(shí)現(xiàn)計(jì)算資源的最大化利用,減少計(jì)算資源浪費(fèi),提高計(jì)算資源利用率。3.自動(dòng)化管理。通過自動(dòng)化管理技術(shù),減少人工操作和管理通過自動(dòng)化方式完成計(jì)算資源的管理和調(diào)度,提高計(jì)算資源的利用率。隨著云原生業(yè)務(wù)的發(fā)展和應(yīng)用,云原生業(yè)務(wù)也變得越來越龐大和復(fù)雜,各個(gè)應(yīng)用對(duì)網(wǎng)絡(luò)和存儲(chǔ)等
IO
的需求也越來越高,單臺(tái)服務(wù)的帶寬需求開始從
10Gb
到
25Gb
甚至
100Gb、200Gb
開始轉(zhuǎn)變。為了應(yīng)對(duì)網(wǎng)絡(luò)和存儲(chǔ)對(duì)帶寬的挑戰(zhàn),各種解決方案也應(yīng)運(yùn)而生(如圖
15
所示),比如網(wǎng)絡(luò)使用
XDP
技術(shù)加速內(nèi)核協(xié)議棧,使用
DPDK
技術(shù)旁路內(nèi)核協(xié)議棧,存儲(chǔ)采用
RoCEv2
來加速存儲(chǔ)提供更低的帶寬和時(shí)延等。36DPU
金融行業(yè)發(fā)展白皮書圖
15
旁路內(nèi)核加速數(shù)據(jù)處理但這些軟件方案隨著云原生業(yè)務(wù)對(duì)帶寬的要求越來越高,也逐漸面臨很多問題。以一臺(tái)
56
核的服務(wù)器,采用
DPDK
技術(shù)對(duì)網(wǎng)絡(luò)進(jìn)行加速為例:?jiǎn)畏?wù)器帶寬需求為
10Gb
時(shí),需要消耗大概4
個(gè)核作為網(wǎng)絡(luò)轉(zhuǎn)發(fā)、52
核作為業(yè)務(wù),計(jì)算資源利用率為
92%;單服務(wù)器帶寬需求為
25Gb
時(shí),需要消耗大概
10
個(gè)核作為網(wǎng)絡(luò)轉(zhuǎn)發(fā)、46
核作為業(yè)務(wù),計(jì)算資源利用率為
82%;當(dāng)服務(wù)器帶寬需求為
100Gb
時(shí),可能需要消所有的
CPU
核作為網(wǎng)絡(luò)轉(zhuǎn)發(fā),已經(jīng)沒有資源留給業(yè)務(wù)了(如圖
16
所示)。37DPU
金融行業(yè)發(fā)展白皮書圖
16
基于
CPU
轉(zhuǎn)發(fā)的
CPU
利用率圖
12
基于
HOST
轉(zhuǎn)發(fā)的
CPU
利用率從以上案例中可以看到,隨著
IO
的越大,傳統(tǒng)的各種
IO
加速方案已經(jīng)不再適用,如果不引入新的解決方案,那么只能靠更多、更強(qiáng)的服務(wù)器來滿足業(yè)務(wù)的
IO
需求,這使得數(shù)據(jù)中心的真實(shí)計(jì)算資源利用率十分低下,并大幅提升數(shù)據(jù)中心的能耗和運(yùn)維成本。DPU
作為數(shù)據(jù)處理的核心,內(nèi)置可編程報(bào)文處理引擎,可以將網(wǎng)絡(luò)、存儲(chǔ)所消耗的
IO
資源全部卸載到
DPU
上,完全釋放服務(wù)器的
CPU
資源,讓云原生業(yè)務(wù)可以
100%利用服務(wù)器的計(jì)算資源(如圖
17
所示)。38DPU
金融行業(yè)發(fā)展白皮書圖
17
基于
DPU
轉(zhuǎn)發(fā)的
CPU
利用率在以
DPU
為中心的數(shù)據(jù)中心架構(gòu)下,所有
IO
由
DPU
來處理和加速,一方面因?yàn)?/p>
DPU
低功耗的特點(diǎn),數(shù)據(jù)中心
IO
的能耗可以大幅降低。另一方面,計(jì)算資源可以
100%用于計(jì)算,這提升了單臺(tái)服務(wù)器的計(jì)算密度,與同等規(guī)模的數(shù)據(jù)中心相比,該架構(gòu)可以提供更多的計(jì)算資源,提升數(shù)據(jù)中心的計(jì)算資源利用率。以構(gòu)建一個(gè)
1000
臺(tái)服務(wù)器的
IaaS
集群,每臺(tái)服務(wù)器
80core的硬件配置為例,每臺(tái)服務(wù)器要預(yù)留出
20%左右的資源給虛擬機(jī)的網(wǎng)絡(luò)、存儲(chǔ)和虛擬機(jī)生命周期管理。當(dāng)前服務(wù)器的網(wǎng)絡(luò)帶寬一般在
100
萬(wàn)
pps
左右,按照
2vcore,4G
內(nèi)存的虛擬機(jī)規(guī)格可以分出
30
個(gè)左右網(wǎng)絡(luò)帶寬為
5MB(3
萬(wàn)
pps)帶寬的虛擬機(jī)。宿主機(jī)
CPU
支持超分的能力,一般按
1
比
2
或者更多來超分虛擬機(jī),但是由于網(wǎng)絡(luò)
IO
瓶頸的存在,無法充分利用
CPU
的能力。DPU可以提供超過
1000
萬(wàn)
pps
的網(wǎng)絡(luò)性能,可以將虛擬機(jī)的超分比39DPU
金融行業(yè)發(fā)展白皮書做到
1
比
4
甚至
1
比
8?;谝陨希C合硬件和運(yùn)維等成本因素,可以從兩個(gè)方面計(jì)算
DPU
所帶來的收益:在提供同等算力的情況下
DPU
可以節(jié)省20%的服務(wù)器數(shù)量,與之對(duì)應(yīng)的成本下降
13%,功耗下降
28%,空間收益
30%。在
1000
臺(tái)服務(wù)器數(shù)量不變的情況下,虛擬機(jī)的超分比可以進(jìn)一步提升,可以新增
40%的虛擬機(jī)售賣資源(如圖
18所示)。圖
18
DPU
帶來的算力收益金融行業(yè)普遍都使用
Kubernetes
作為容器編排平臺(tái),Kubernetes
通過節(jié)點(diǎn)組件(如
kubelet、containerd
和
runtime)來管理容器化應(yīng)用程序。盡管這些組件對(duì)于
Kubernetes
的正常運(yùn)行至關(guān)重要,但它們也會(huì)占用大量的計(jì)算資源和存儲(chǔ)空間。在以
DPU
為中心的數(shù)據(jù)中心架構(gòu)下,通過將節(jié)點(diǎn)組件(如
kubelet、containerd
和
runtime)卸載到
DPU
上,可以釋放出較多計(jì)算資源和大量的存儲(chǔ)空間,從而提升主機(jī)資源售賣率。40DPU
金融行業(yè)發(fā)展白皮書在云原生應(yīng)用中,runV
容器是一種基于輕量級(jí)虛擬機(jī)技術(shù)的容器化解決方案。它利用虛擬化技術(shù)提升了容器的隔離性、穩(wěn)定性和安全性等,同時(shí)也支持彈性計(jì)算和自動(dòng)化管理技術(shù),可以根據(jù)應(yīng)用程序的需要?jiǎng)討B(tài)調(diào)整計(jì)算資源的分配,從而實(shí)現(xiàn)計(jì)算資源的最大化利用,減少計(jì)算資源浪費(fèi)。并且
runV
容器與傳統(tǒng)虛擬機(jī)相比,具有單節(jié)點(diǎn)實(shí)例密度高的特點(diǎn):傳統(tǒng)虛擬機(jī)一般最小支持一核的虛擬機(jī),而
runV
容器可以支持小數(shù)核(例如
0.5
核)的虛擬機(jī),進(jìn)而使得單節(jié)點(diǎn)有著更高的實(shí)例密度;通過將
runV容器卸載到
DPU
上,可以實(shí)現(xiàn)更高效的網(wǎng)絡(luò)通信和存儲(chǔ)訪問,減少網(wǎng)絡(luò)和存儲(chǔ)對(duì)主機(jī)
CPU
的占用,從而提高容器實(shí)例密度以及
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度新能源充電樁建設(shè)訂單合同
- 2025年建筑工地安全防護(hù)設(shè)施采購(gòu)合同
- 2025年化學(xué)品物流與運(yùn)輸服務(wù)承包經(jīng)營(yíng)合同
- 新能源項(xiàng)目勞務(wù)分包合同規(guī)范樣本(2025年)
- 酒店入住住房合同7篇
- 裝修工程單項(xiàng)承包合同范本5篇
- 2025年住宅購(gòu)買合同定金協(xié)議策劃樣本
- 2025年交通銀行職工住宅抵押貸款合同綜述
- 2025年商業(yè)貸款合同
- 業(yè)主咨詢策劃工程師專業(yè)服務(wù)合同2025版
- 勞務(wù)派遣勞務(wù)外包項(xiàng)目方案投標(biāo)文件(技術(shù)方案)
- 2025年安全員C證(專職安全員)考試題庫(kù)
- 地理-天一大聯(lián)考2025屆高三四省聯(lián)考(陜晉青寧)試題和解析
- 2025年廣州市公安局招考聘用交通輔警200人高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 貴州省貴陽(yáng)市2024-2025學(xué)年九年級(jí)上學(xué)期期末語(yǔ)文試題(含答案)
- 2025年江蘇海事職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試近5年??及鎱⒖碱}庫(kù)含答案解析
- 2024年尖葉菠菜種子項(xiàng)目可行性研究報(bào)告
- 計(jì)件工資計(jì)算表格模板
- 兩癌防治知識(shí)培訓(xùn)
- 《moldflow學(xué)習(xí)資料》課件
- 2025中國(guó)移動(dòng)安徽分公司春季社會(huì)招聘高頻重點(diǎn)提升(共500題)附帶答案詳解
評(píng)論
0/150
提交評(píng)論