英特爾中國公有云和互聯(lián)網(wǎng)創(chuàng)新實踐_第1頁
英特爾中國公有云和互聯(lián)網(wǎng)創(chuàng)新實踐_第2頁
英特爾中國公有云和互聯(lián)網(wǎng)創(chuàng)新實踐_第3頁
英特爾中國公有云和互聯(lián)網(wǎng)創(chuàng)新實踐_第4頁
英特爾中國公有云和互聯(lián)網(wǎng)創(chuàng)新實踐_第5頁
已閱讀5頁,還剩320頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇構(gòu)建云創(chuàng)新基石云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇2云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇2071317263035414548525704前言騰訊云依托傲騰?持久內(nèi)存深度優(yōu)化云硬盤CBS產(chǎn)品,打造極速云存儲體驗百度智能云基于英特爾?IPU打造全新計算平臺,提升云平臺管理能力更兼顧成本效益字節(jié)跳動采用英特爾?RDT和英特爾?PRM緩解底層硬件干擾,提升混布集群性能京東利用英特爾MCA+MFP降低內(nèi)存故障下的宕機率,構(gòu)建穩(wěn)定、高效的云服務(wù)青云科技采用英特爾軟硬件升級新一代QKCP企業(yè)級容器平臺,加速企業(yè)云原生落地金山云采用英特爾?To?no?可編程交換芯片實現(xiàn)高帶寬、低延遲的運營商線路網(wǎng)絡(luò)轉(zhuǎn)發(fā)快手以英特爾CPU+FPGA+PMEM為底座,基于LaoFeNDP架構(gòu)提供多元算力OPPO基于英特爾?QAT加速云安全網(wǎng)關(guān)HTTP3-QUIC,顯著降低網(wǎng)絡(luò)時延AI65697276798465697276798488阿里巴巴采用英特爾多樣化硬件,構(gòu)建開源稀疏模型訓(xùn)練和預(yù)測引擎DeepRec螞蟻集團基于英特爾?SGX和英特爾?DLBoost加速端到端PPML解決方案美團基于至強?可擴展平臺深度優(yōu)化TensorFlow,提升推薦系統(tǒng)性能壹沓科技基于至強?+OpenVINO?,加速基于RPA+AI的智能平臺創(chuàng)新搜狐采用至強?可擴展處理器提升AI推理58同城使用英特爾?傲騰?持久內(nèi)存打造高經(jīng)濟性的Redis與云搜系統(tǒng)10693綜述——至強10697騰訊云使用至強?可擴展處理器,實現(xiàn)HTTPS性能優(yōu)化,提升安全服務(wù)OPPO基于英特爾?服務(wù)器GPU打造云游戲平臺,全面提升游戲體驗贊奇科技采用英特爾?oneAPI渲染工具包,加速三維視覺計算效率蔚領(lǐng)時代、硅基大陸采用英特爾CPU+GPU,提供高密度、流暢的游戲云服務(wù)愛奇藝引入傲騰?+SPDK+OCF深度優(yōu)化MySQL性能,提供優(yōu)質(zhì)客戶體驗云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇3Contents目錄124125云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇3Contents目錄124125126126127127128129130132134135136137139139140140142142143143144144145145146146147147148149英特爾?oneAPIDPC++/C++編譯器英特爾?VTune?Ampli?er英特爾?高速緩存加速軟件(英特爾?CAS)存儲性能開發(fā)套件(SPDK)ClearLinuxKataContainerStarlingXKubernetes英特爾?OneAPI工具套件英特爾?DAAL技術(shù)篇以數(shù)據(jù)為中心的技術(shù)篇以數(shù)據(jù)為中心的(英特爾?DLBoost)技術(shù)(英特爾?AVX-512)英特爾?SpeedSelect技術(shù)(英特爾?SST)英特爾?軟件防護擴展(英特爾?SGX)英特爾?數(shù)據(jù)中心GPUFlex系列英特爾?服務(wù)器GPU英特爾?FPGA和SoCFPGA英特爾?傲騰?持久內(nèi)存200系列英特爾?傲騰?固態(tài)盤P5800XPonteVecchio英特爾?基礎(chǔ)設(shè)施處理器(IPU)和SmartNICBigDL英特爾?MKL-DNNOpenVINO?工具套件面向英特爾?架構(gòu)優(yōu)化的Hadoop和Spark英特爾?Crypto-NI英特爾?oneVPLSVT云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇 44云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇當(dāng)今時代,數(shù)字技術(shù)正作為世界科技革命和產(chǎn)業(yè)變革的先導(dǎo)力量,日益融入經(jīng)濟社會發(fā)展各領(lǐng)域的全過程,為生產(chǎn)方式、生活方式和社會治理方式帶來顛覆性改變。同時,這一輪新的科技革命和產(chǎn)業(yè)變革又推動數(shù)字技術(shù)快速發(fā)展,也將見證技術(shù)的真正魔力,讓五大超級技術(shù)力量,也就是無所不在的計算、無處不在的連接、從云到端的基礎(chǔ)設(shè)施、人工智能,以及傳感與感知相互增強和賦能,共同驅(qū)動線上服務(wù)這樣的新模式、新場景變得普及,一系列面向生產(chǎn)與管理效率提升、商業(yè)與技術(shù)模式創(chuàng)新、用戶與服務(wù)體驗優(yōu)化的數(shù)字化、智能化轉(zhuǎn)型新方案,諸如算網(wǎng)融合、綠色節(jié)能、分布式數(shù)據(jù)庫、分布系統(tǒng)化的基礎(chǔ)設(shè)施以及端到端的技術(shù)能力,從而成為用戶關(guān)鍵業(yè)務(wù)的核心內(nèi)驅(qū)力,也成為各云服務(wù)提供商和各企業(yè)之間贏得競爭的關(guān)鍵籌碼。但這顯然需要一系列強勁且可應(yīng)對多樣化負(fù)載的計算平臺和英特爾的產(chǎn)品與技術(shù),無疑是啟動并引領(lǐng)這些引擎的可靠選擇。圍繞至強?可擴展平臺,英特爾所提供的豐富軟、硬件產(chǎn)品體系及創(chuàng)新技術(shù)實現(xiàn),不僅涵蓋了云服務(wù)中面向計算、存儲、網(wǎng)絡(luò)的全量基礎(chǔ)這些軟、硬件產(chǎn)品及技術(shù)實現(xiàn),既包括跨不同架構(gòu)的算力和硬件加速設(shè)備(如CPU、GPU、IPU、FPGA、以太網(wǎng)產(chǎn)品及其它打破封閉式編程模型的限制,也包含加速卓越性能和生產(chǎn)力交付的軟件與框架(如英特爾?oneAPI工具套件、OpenVINO?工具套件、英特爾?MediaSDK及其它)。通過分層的軟件棧構(gòu)建和優(yōu)化來充分發(fā)揮底層硬件技術(shù)的威力,兼具多云環(huán)境的可靠性、靈活性和安本白皮書不僅介紹了英特爾推出的一系列軟硬件產(chǎn)品組合,還展示了與阿里云、騰訊云、百度云、火山引擎、京東云、快手、金山云、青云、OPPO等合作伙伴,面向云數(shù)據(jù)中心基礎(chǔ)設(shè)施、人工智能、互聯(lián)網(wǎng)與媒體服務(wù)等應(yīng)用場景的創(chuàng)新方案與成功案例。通過這些全球領(lǐng)先的技術(shù)合作成果,可以了解展望未來,英特爾將持續(xù)與合作伙伴、開發(fā)者和用戶一起,共同挖掘蘊含于方寸之間的無窮硅力量,55云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇66■阿里巴巴■中國電信■AWS■阿里巴巴■中國電信■AWS■華為■騰訊■其他9.0%云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇724.6%34.5%8.1%10.3%11.6%11.0%依托于云服務(wù),各種前沿技術(shù)落地到了更多的數(shù)字化場景。在此進程中,企業(yè)多種新需求、新機會也被激發(fā)。數(shù)據(jù)中心與云服務(wù)提供商必須更加精準(zhǔn)且前瞻性地洞察到當(dāng)前行業(yè)正在發(fā)生的改變,并通過基礎(chǔ)設(shè)施架構(gòu)優(yōu)化、技術(shù)與服務(wù)創(chuàng)新等方了數(shù)據(jù)的海量集聚以及對于云服務(wù)需求的快速增長。IDC發(fā)布的《中國公有云服務(wù)市場(2022上半年)跟蹤》報告顯示1,2022上半年中國公有云服務(wù)市場整體規(guī)模達(dá)到165.8億美元,其中IaaS(InfrastructureasaService,基礎(chǔ)設(shè)施即服務(wù))市場同比增長27.3%,PaaS(PlatformasaService,平臺即服務(wù))市場同比增速為45.4%;同時有報告預(yù)測未來5年,中國公有云市場會以復(fù)合增長率30.9%繼續(xù)高速增市場規(guī)模將達(dá)到1,057.6億美元,中國公有云服務(wù)市場的全球占比將從2021年的6.7%提升到9.9%2。圖1中國TOP5公有云IaaS廠商市場份額占比(2022H1)在云計算市場快速發(fā)展的同時,云服務(wù)也走向細(xì)分和深化,整個產(chǎn)業(yè)在技術(shù)、應(yīng)用、管理等方面呈現(xiàn)出新的發(fā)展特點。比如隨著傳統(tǒng)行業(yè)、政企行業(yè)對云需求的高增長,以及更多的企業(yè)選擇深度用云而不是簡單遷移上云,其不僅帶來了更多云基礎(chǔ)資源和云平臺產(chǎn)品的消耗,對安全、性能以及時延等提出了更算力服務(wù)等成為目前備受關(guān)注的領(lǐng)域,驅(qū)動著云服務(wù)廠商加大對云產(chǎn)品性價比、安全、技術(shù)優(yōu)化等的投資,促進云服務(wù)進入26.3%33.5%■阿里巴巴■騰訊■AWS■華為■中國電信■其他9.4%10.7%圖2中國TOP5公有云IaaS+PaaS廠商市場份額占比(2022H1)■云上負(fù)載日趨動態(tài)化、多元化數(shù)據(jù)援引自:/s/QFNKwfjzDvknPLahaUZWnw數(shù)據(jù)援引自:/news/d_1o3u5a5gq4rl1.html數(shù)據(jù)援引自/s/QFNKwfjzDvknPLahaUZWnw云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇8元化、更敏捷、更安全的方向發(fā)展5。到2024年將會有50%的組織采用多云數(shù)據(jù)治理工具,使用統(tǒng)一的數(shù)據(jù)獲取、遷移,安全和保護策略。隨著到2025年,云計企業(yè)在全面數(shù)字化轉(zhuǎn)型的過程中,其業(yè)務(wù)創(chuàng)依賴于任何時間任何地點盡快地開發(fā)和使用創(chuàng)新技術(shù)和服務(wù)8。云服務(wù)正在逐步成為市場“新寵”。據(jù)IDC在2022年7月發(fā)布的市場分析報告稱6,2021下半年,中國專有云服務(wù)市場規(guī)模已經(jīng)達(dá)130億元人民幣,同比增長27.2%;顯示了私有云作為集中公有云彈性擴展、配置便利以及私有云安全提供更加安全、合規(guī)、符合行業(yè)屬性的解決方案7。借由能夠?qū)崿F(xiàn)公有云以及企業(yè)自身本地和邊緣計算存儲資源統(tǒng)■混合云/多云快速增長業(yè)自身本地和邊緣計算存儲資源統(tǒng)一管理的新型混合云與多云IT基礎(chǔ)設(shè)施進行混合搭建,來滿足企業(yè)在新時期的IT需求,也■分布式與算力服務(wù)漸露頭角也讓云服務(wù)逐漸向算力服務(wù)演進。而算力服務(wù)促進算力服務(wù)普惠化9。同時,隨著企業(yè)希望通過邊緣云實現(xiàn)應(yīng)■云原生推動基礎(chǔ)設(shè)施全面升級服務(wù)器無感知技術(shù)Serverless)、編排及管理技術(shù)(如基礎(chǔ)設(shè)施即代碼IaC)、安全技術(shù)、監(jiān)測分析技術(shù)(如擴展包過濾器能夠有力支撐企業(yè)組織和流程、架構(gòu)和設(shè)計、技面覆蓋邊緣自治、混合多云、云邊一體的典型資源監(jiān)控、日志、審計能力延伸至混合多云架構(gòu)。也是如欲了解更多詳情請訪問:/getdoc.jsp?containerId=prCHC48774222數(shù)據(jù)援引自:/5G/162/726009662.shtml如欲了解更多詳情請訪問:/getdoc.jsp?containerId=CHC48746022&pageType=PRINTFRIENDLY如欲了解更多詳情請查閱:IDCFutureScape:2022年中國云計算市場十大預(yù)測如欲了解更多詳情請查閱:中國信通院云計算白皮書(2022年)云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇9由云原生、分布式、專有云、混合云、云安全、算力服務(wù)等趨勢驅(qū)動的云市場變革,為云與數(shù)據(jù)中心發(fā)展帶來了巨大且全新高度依賴網(wǎng)絡(luò)質(zhì)量,同時微服務(wù)等云原生技術(shù)架構(gòu)的采用,讓應(yīng)用之間存在錯綜復(fù)雜的依賴關(guān)系,加之云上系統(tǒng)的故障率會隨設(shè)備的增加而呈指數(shù)級增長,使得單一節(jié)點問題可能會被無限放大,給日常運行過程帶來不可避免的異常狀況。此外,新舊系統(tǒng)的共存和過渡也帶來潛在風(fēng)險,在云遷移過程中如何做好新舊系統(tǒng)共存狀態(tài)下的穩(wěn)定性保障成為重要命題,尤其是用戶核心業(yè)務(wù)系統(tǒng)上云用云,往往對運行連續(xù)性要求高、并發(fā)請求量大,且業(yè)務(wù)激增隨機性強,對云上系統(tǒng).跨多種平臺的可擴展性與敏捷性:為了進一步提升敏捷性,用戶常常希望應(yīng)用負(fù)載能夠跨越多種云平臺進行流動、調(diào)度與分配,因此實現(xiàn)公有云、私有云、混合云等多種平臺的靈活擴展,提供一致的跨云體驗就尤為重要。這不僅需要交付具有自動化、自主運行和管理功能的企業(yè)級云基礎(chǔ)設(shè)施,還另外,軟件定義基礎(chǔ)設(shè)施(SoftwareDe?nedInfrastructure,現(xiàn)性能、服務(wù)質(zhì)量(QualityofService,QoS)和總擁有成本(TotalCostofOwnership,TCO)的輕松調(diào)配,以滿足基礎(chǔ).支持AI、數(shù)據(jù)分析等新型負(fù)載:IDC在《中國人工智能與大數(shù)據(jù)技術(shù)現(xiàn)狀及趨勢分析,2022》研究報告中指出10,中國業(yè)實踐中不斷迭代,服務(wù)商正聚焦于數(shù)據(jù)智能決策、數(shù)據(jù)智能服務(wù)以及AI增強等未來的市場趨勢,幫助用戶構(gòu)建統(tǒng)一的.應(yīng)對低碳發(fā)展帶來的挑戰(zhàn):2021年,碳達(dá)峰、碳中和被首次寫入中國政府工作報告,而數(shù)據(jù)中心作為一個高耗能且能耗仍在快速增長的行業(yè),實現(xiàn)低碳化發(fā)展至關(guān)重要。工信部發(fā)布的《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023年)》提出堅持綠色發(fā)展理念,全面提高新型數(shù)據(jù)中心能源利用效率;發(fā)改委等部門發(fā)布《深入開展公共機構(gòu)綠色低碳引領(lǐng)行動促進碳達(dá)峰實施方案》,更是明確提出新建大型、超大型數(shù)據(jù)中心能效目標(biāo),驅(qū)動數(shù)據(jù)中心行業(yè)加速優(yōu)化算力、存儲景和商業(yè)模式11,幫助企業(yè)管理應(yīng)用、協(xié)作應(yīng)用等工作負(fù)載順利?將芯片解決方案作為跨數(shù)據(jù)中心基礎(chǔ)設(shè)施的控制點,變革基支持在單個計算實例中進行協(xié)同工作,并通過共享內(nèi)存和存專用的可編程內(nèi)核加速和管理基礎(chǔ)架構(gòu)功能,提供全面的基?部署優(yōu)化的開源軟件框架,采用針對硬件架構(gòu)和平臺進行優(yōu)化的云平臺管理和資源編排軟件,并通過軟件對常見的工作?將安全功能集成到基礎(chǔ)設(shè)計中,確保無論數(shù)據(jù)駐留在何處,英特爾一直走在超大規(guī)模云服務(wù)前沿,擁有廣泛、優(yōu)化的軟件生態(tài),并兼具跨多云環(huán)境的可靠性、靈活性和安全性。英特爾與全球領(lǐng)先云服務(wù)提供商開展的聯(lián)合研發(fā)及業(yè)務(wù)合作,已經(jīng)交付了數(shù)代專為云規(guī)模打造和優(yōu)化的定制芯片,幫助實現(xiàn)從邊緣如欲了解更多詳情請訪問:/getdoc.jsp?containerId=CHC48744522&pageType=PRINTFRIENDLY/news/ziben/chany/79931.html如欲了解更多詳情請訪問:/cn/media-center/analyst-viewpoint云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇具備多項優(yōu)勢,為各種云上負(fù)載提供一致的、經(jīng)優(yōu)化的性能,包括通過英特爾?深度學(xué)習(xí)加速(英特爾?DLBoost)、面向英特爾?架構(gòu)優(yōu)化的框架等實現(xiàn)的人工智能就緒;通過英特爾?傲騰?持久內(nèi)存實現(xiàn)的內(nèi)存計算;通過英特爾?AVX-512、架構(gòu)與軟件等加速的高性能計算;由英特爾?以太網(wǎng)、英特爾?QuickAssist技術(shù)(英特爾?QAT)、英特爾?數(shù)據(jù)直接I/O技術(shù)(英特爾?DDIO)等賦能的網(wǎng)絡(luò)能力;由英特爾?QAT、英特爾?傲騰?固態(tài)盤、英特爾?卷管理設(shè)備(器,包括新的指令集架構(gòu)和集成IP,能夠高效應(yīng)對人工智能、工作負(fù)載進行優(yōu)化。同時,通過全新的英特英特爾軟硬件組合構(gòu)建基礎(chǔ)設(shè)施基石英特爾軟硬件組合構(gòu)建基礎(chǔ)設(shè)施基石-多樣化硬件傳輸更快存儲更多混合云軟件和系統(tǒng)級優(yōu)化軟件和系統(tǒng)級優(yōu)化應(yīng)用優(yōu)化操作系統(tǒng)和編排層優(yōu)化基礎(chǔ)設(shè)施優(yōu)化AI框架及軟件工具數(shù)據(jù)處理與分析用框架及軟件工具媒體服務(wù)用軟件工具ClearLinuxStarlingXKataContainersKubernetes算力優(yōu)化存儲優(yōu)化網(wǎng)絡(luò)優(yōu)化英特爾通過平臺創(chuàng)新,為數(shù)據(jù)中心現(xiàn)代化構(gòu)建更新和更全面的架構(gòu)策略,提供新的產(chǎn)品。采用Intel7制程工藝的第四代英特爾?至強?可擴展處理器,支持DDR5、PCIe5.0和CXL1.1,內(nèi)置全新的集成加速器,是迄今為止英特爾功能最豐富的至強?處理器,增強了其在人工智能、安全性等幾大關(guān)鍵數(shù)據(jù)中心領(lǐng)域的領(lǐng)導(dǎo)地位。與第三代至強?可擴展處理器相比,可以更好地處理數(shù)多代虛擬化技術(shù)優(yōu)化和集成庫,確??缭骗h(huán)境的無縫遷移。例如,配合虛擬化系統(tǒng),英特爾?虛擬化技術(shù)(英特爾?VT)可以提供實時遷移功能。ISV和用于測試、驗證和優(yōu)化英特爾?至強?可擴展處理器的開源項目可提供跨處理器的兼容性和擴展性,針對常見的工作大量的英特爾?至強?可擴展處理器已部署在當(dāng)今的云環(huán)境中,廣泛兼容當(dāng)前和未來的工作負(fù)載,可以實現(xiàn)出色的性能、可用性和可擴展性。英特爾?至強?可擴展處理器提供經(jīng)過優(yōu)化的性能和每核虛擬機密度,是數(shù)據(jù)中心的重要選擇。英特爾?至強?可擴展處理器和英特爾?傲騰?持久內(nèi)存可幫助提高每核虛擬機密度,降低每核平均時延,打造高效的云和數(shù)據(jù)中心基英特爾與合作伙伴成立了機密計算聯(lián)盟,旨在提高在用數(shù)據(jù)的安全性。英特爾投資打造多層保護,提供經(jīng)過驗證的技術(shù),在不影響性能的情況下盡可能降低風(fēng)險。例如,英特爾?SGX提供基于硬件的隔離和內(nèi)存加密,可 騰訊云與英特爾一起,以全新的存儲引擎設(shè)計和英特爾?傲騰?持久內(nèi)存重構(gòu)和優(yōu)化騰訊云的極速型固態(tài)盤CBS產(chǎn)品,并重構(gòu)數(shù)據(jù)落盤方案。新方案以更佳的帶寬、更低的時延和更高的每秒讀寫次數(shù),為性能密集型用通過搭載大容量、低延遲的英特爾通過搭載大容量、低延遲的英特爾?傲騰?持久內(nèi)存,百度推出全新一代用戶態(tài)單機存儲引擎,為百度離線與部分在線業(yè)務(wù)提供高效穩(wěn)定、低延遲、低成本、可擴展的存儲服務(wù),挖掘數(shù)據(jù)價值。借力英特爾?IPU平臺參考設(shè)計,百度智能云自研百度太行DPU1.0產(chǎn)品,有效提升云數(shù)據(jù)中心管理及虛擬化水平,并通過在裸金屬服字節(jié)跳動利用英特爾字節(jié)跳動利用英特爾?RDT和英特爾?PlatformResourceManager,緩解底層硬件資源對其混布集群的干擾云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇 OPPO基于第三代英特爾?至強?可擴展處理器,以及通過與英特爾在節(jié)點管理與空閑電源優(yōu)化等方面的技術(shù)合作,京東云面向可持續(xù)數(shù)據(jù)中心,推出冷板液冷參考解決方案。實際部署表明,該方案可將數(shù)據(jù)中心PUE(PowerUsageE?ectiveness,電能利用效率)從1.3降低到1.1,每個服務(wù)器節(jié)點可節(jié)電約4%12。京東云在英特爾?C5000X-PL上研發(fā)了自主的智能網(wǎng)卡,并基于英特爾?至強?可擴展處理器,推出了最新一代裸金屬云主機—京剛裸金屬云主機,在提供了出色性能的同時,具備分鐘級一鍵交付、無縫集成云產(chǎn)品和統(tǒng)一管理等特性,能夠出色支撐性能敏感型以及對于數(shù)據(jù)安全和隱私要求較高的應(yīng)用。同時通過引入英特爾?MCARecovery與MemoryFailurePrediction(MFP)技術(shù),結(jié)合京東云的故障恢復(fù)系統(tǒng),降低內(nèi)存錯誤對青云科技攜手英特爾,采用英特爾多項技術(shù)與產(chǎn)品,推出新一代QKCP企業(yè)級容器平臺?;谌律壍腝KCP,英特爾憑借獨特的硬件黑科技助力青云科技打造更高效的企業(yè)級云原生容器平臺,雙方攜手搭建測試環(huán)境,并通過軟硬件調(diào)優(yōu),在產(chǎn)品的硬件性能得到質(zhì)的提升的同時,軟件層面的性能也得到了極大優(yōu)化,特別離解決方案,優(yōu)化KingStorage-BDG大數(shù)據(jù)存儲網(wǎng)關(guān)、KingStorage-OBS對象存儲性能,同時提升了平臺同時金山云與英特爾合作,在運營商線路網(wǎng)關(guān)中使用了基于P4可編程技術(shù)的英特爾?To?no?可編程交換芯而且大幅節(jié)省了服務(wù)器的部署規(guī)模需求,顯著降低了TCO。采用第三代英特爾?至強?可擴展處理器和傲騰?持久內(nèi)存等產(chǎn)品,實施混合云平臺全面升級,實現(xiàn)能耗、性能、可靠性以及成本等方面的優(yōu)化,為后續(xù)服務(wù)推廣和端到端云原生產(chǎn)品及解決方案等的部署提供了數(shù)據(jù)支持快手推出LaoFeNDP架構(gòu),實現(xiàn)異構(gòu)計算,采用英特爾?至強?可擴展處理器、英特爾?Agilex?FPGA和為了解決QUIC引入后帶來的加解密性能問題,OPPO采用英特爾?QAT來進行加速,使得HTTP3-QUIC的如欲了解更多詳情,請訪問:/content/www/cn/zh/now/data-centric/jd-cloud-liquid-cooling-solution.html如欲了解更多詳情,請訪問:/content/www/cn/zh/customer-spotlight/cases/oppo-cloud-security-gateway-http3-quic-based-qat.html儲系統(tǒng)作為業(yè)務(wù)數(shù)據(jù)的重要載體,其性能表現(xiàn)正受到越來越多的關(guān)注。作為全球領(lǐng)先的云服務(wù)提供商之一,騰訊云通過先進的云硬盤CBS(CloudBlockStorage儲系統(tǒng)作為業(yè)務(wù)數(shù)據(jù)的重要載體,其性能表現(xiàn)正受到越來越多的關(guān)注。作為全球領(lǐng)先的云服務(wù)提供商之一,騰訊云通過先進的云硬盤CBS(CloudBlockStorage)產(chǎn)品為眾多行業(yè)用戶提供高效、可靠的持久性塊存儲服務(wù),并在核心數(shù)據(jù)庫、內(nèi)容分發(fā)網(wǎng)絡(luò)(ContentDeliveryNetwork,CDN)及電商系統(tǒng)等用戶場景中獲得了廣為向用戶提供性能更為卓越的企業(yè)級云存儲服務(wù),騰訊云與深度合作伙伴英特爾一起,以全新的存儲引擎設(shè)計和英特爾?傲騰?持久內(nèi)存來重構(gòu)和優(yōu)化騰訊云的極速型固態(tài)盤CBS產(chǎn)品。驗證表明,新的產(chǎn)品方案能以更佳的帶寬、更低的時延和更高的每秒讀寫次數(shù)(Input/OutputPerSecond,IOPS為性能密集型用戶業(yè)深度優(yōu)化云硬盤CBS產(chǎn)品,無論是正興的互聯(lián)網(wǎng)、大數(shù)據(jù)或人工智能等領(lǐng)域,還是傳統(tǒng)的金融、醫(yī)療和制造等行業(yè),云服務(wù)都已逐漸成為企業(yè)下一代IT基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)之一;而作為企業(yè)未來業(yè)務(wù)數(shù)據(jù)的重要載體,包括云硬盤在內(nèi)的云存儲產(chǎn)作為全球領(lǐng)先的云服務(wù)提供商之一,騰訊云一直以先進的云硬盤CBS產(chǎn)品為用戶提供持久性塊存儲服務(wù)。典型的騰訊云CBS產(chǎn)品存儲系統(tǒng)架構(gòu)如圖5所示,由CBS接入、MDS控制集群以及C當(dāng)CBS接入收到CVM云主機集群的數(shù)據(jù)讀寫請求后,會根據(jù)MDS提供的集群路由信息,將讀寫請求轉(zhuǎn)發(fā)至對應(yīng)的CBS存儲節(jié)點中。云主機(CVM)集群 CBS接入MDS控制集群 CBS存儲集群MDS控制集群圖5騰訊云CBS產(chǎn)品存儲系統(tǒng)架構(gòu)依托于雄厚的技術(shù)積累以及持續(xù)不斷的技術(shù)優(yōu)化與演進,騰訊云CBS基于英特爾高性能NVMe固態(tài)盤和騰訊云創(chuàng)新自研存儲引擎的有效組合,CBS產(chǎn)品目前已可為用戶業(yè)務(wù)場景提供單盤最大110W的隨機IOPS性能,以及最高4Gbps每秒的帶寬能力;云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇通過高可用和容災(zāi)設(shè)計,CBS產(chǎn)品能有效降低系統(tǒng)不可防止因篡改和誤刪導(dǎo)致數(shù)據(jù)丟失,保證在業(yè)務(wù)故障時能99.9999999%的數(shù)據(jù)可靠性;而借助優(yōu)異的數(shù)據(jù)復(fù)制CBS產(chǎn)品允許用戶根據(jù)業(yè)務(wù)需求自由配置存儲容量,按需擴容。目前系統(tǒng)單磁盤容量最大可支持32TB,單個云主機累計可掛載640TB,使用戶能夠從容應(yīng)對TB/憑借以上優(yōu)勢,騰訊云CBS產(chǎn)品在不同用戶業(yè)務(wù)場景,如高負(fù)載OLTP(On-lineTransactionProcessing,聯(lián)機事務(wù)處理)系統(tǒng),以及高并發(fā)的CDN網(wǎng)絡(luò)等中都具有不俗表現(xiàn),并獲得了從而與本地化存儲產(chǎn)生差異。這也是用戶在核心數(shù)據(jù)庫、CDN網(wǎng)絡(luò)等性能敏感場景中對采用CBS產(chǎn)品仍抱有遲疑的原因之一。核心業(yè)務(wù)數(shù)據(jù)讀寫需求正驅(qū)動著騰訊云對極速型CBS產(chǎn)品開展進一步深度優(yōu)化以提升性能,消除用戶對CBS產(chǎn)品的顧慮。針對CBS產(chǎn)品的架構(gòu)、存儲引擎以及硬件基礎(chǔ)設(shè)施,騰訊云加入了對遠(yuǎn)程直接數(shù)據(jù)存?。≧emoteDirectMemoryAccess,.加入輪詢、算法優(yōu)化、消除競爭以及消除鎖等機制,優(yōu)化CBS存儲引擎;Kit)開發(fā)套件,優(yōu)化NVMe固態(tài)盤的IOPS和時延性能。品本身的時延性能也成為進一步提升CBS產(chǎn)品整體性能的障礙?!昂诳萍肌?,以英特爾?傲騰?持久內(nèi)存作為新一代極速型CBS時延上的更高要求。極速型CBS產(chǎn)品打造更佳性能在騰訊云既有的極速型固態(tài)盤CBS產(chǎn)品設(shè)計中,數(shù)據(jù)的落盤過程如圖6所示,來自計算集群的云主機數(shù)據(jù)首先通過HASH找到或分配到對應(yīng)的塊節(jié)點(BlockNode)中,然后數(shù)據(jù)會被緩存到不同的Page。接下來,系統(tǒng)需要執(zhí)行兩次寫操作,一次將業(yè)務(wù)數(shù)據(jù)寫入固態(tài)盤對應(yīng)的數(shù)據(jù)區(qū);另一次是將元數(shù)據(jù)(Metadata)以LOG方式追加(wAppend)寫入固態(tài)盤中。DRAM內(nèi)存HASHBlockNodePageBlockNodeBlockNodeNode…PagePagePage(SPDK)數(shù)據(jù)區(qū)元數(shù)據(jù)區(qū)數(shù)據(jù)區(qū)圖6騰訊云既有極速型CBS產(chǎn)品數(shù)據(jù)落盤過程可以看到,這一過程需要對固態(tài)盤執(zhí)行兩次寫操作。基于NAND閃存構(gòu)建的固態(tài)盤寫入時延通常為數(shù)十微秒,因此兩次寫入過程就會帶來數(shù)十乃至近百微秒的時延來很小,但在端到端網(wǎng)絡(luò)時延可達(dá)1毫秒(1,000微秒)的5G時代,其顯然還是會制約CBS產(chǎn)品的整體性能。同時,NAND固態(tài)盤數(shù)據(jù)寫入需要以塊為單位,且寫入前需要大幅降低了其使用壽命(即所謂的“寫入放以幫助CBS產(chǎn)品有效應(yīng)對以上問題。英特爾?傲騰?技術(shù)通過圖7英特爾?傲騰?持久內(nèi)存200系列與傳統(tǒng)DRAM內(nèi)存相比,由英特爾?傲騰?技術(shù)與其它英特爾其次,AppDirect模式下的英特爾?傲騰?持久內(nèi)存所具備的持久性特性,使之可以有效充當(dāng)CBS產(chǎn)品的數(shù)據(jù)持久化存儲DRAM內(nèi)存HASHBlockNodePageBlockNodeBlockBlockNode…PagePagePage英特爾?傲騰TM持久內(nèi)存元數(shù)據(jù)區(qū)Page數(shù)據(jù)區(qū)元數(shù)據(jù)區(qū)后臺Page下刷固態(tài)盤(SPDK)數(shù)據(jù)區(qū)圖8優(yōu)化后騰訊云極速型CBS產(chǎn)品數(shù)據(jù)落盤過程得益于英特爾?傲騰?持久內(nèi)存的創(chuàng)新特性,極速型CBS產(chǎn)品的數(shù)據(jù)落盤過程,如圖8所示得以優(yōu)化。首先來自計算集群的數(shù)據(jù)會通過HASH分配到對應(yīng)的塊節(jié)點并緩存到Page中,然時Page/Block的元數(shù)據(jù)也會原地更新到對應(yīng)的數(shù)據(jù)區(qū)中。有效降低CBS產(chǎn)品的TCO。在提供先進存儲硬件產(chǎn)品的基礎(chǔ)上,持久內(nèi)存開發(fā)工具包(PersistentMemoryDevelopmentKit,PMDK)為CBS產(chǎn)以其中的libpmem庫為例,作為PMDK中的底層庫,其支持映射到應(yīng)用程序的虛擬內(nèi)存空間進行操作。通過同時,libpmem庫也可以檢測處理器的特性而使用最為高效的持久化指令(例如CLWB、CLFHASHOPT等)將數(shù)據(jù)寫入到持久內(nèi)存中。CLWB指令具有并發(fā)能力,同時可在刷新數(shù)據(jù)后仍然保證處理器緩存有效。除此之外,libpmem還封裝了NTW(NonTemporalWrite)指令,該指令能利用寫合并方式來繞過處理器緩存(Cache),直接將數(shù)據(jù)從StoreBu?er中寫入內(nèi)存控制器的WPQ中,從而提高性能。得益于以上特性,libpmem庫不僅能以豐富的接口幫助用戶實現(xiàn)對整個寫入流程更加細(xì)致和準(zhǔn)確的控制,也通過使用內(nèi)存映射(MemoryMapping)的訪問方式,并結(jié)合NTW寫入指令提升整個系統(tǒng)基于持久內(nèi)存訪問的寫入性能,從而讓英特爾?傲騰?持久內(nèi)存的各項特性在CBS新方案設(shè)計中發(fā)揮效能。效果:創(chuàng)新硬件與優(yōu)化設(shè)計為CBS與既有方案相比,基于英特爾?傲騰?持久內(nèi)存設(shè)計的CBS產(chǎn).數(shù)據(jù)讀寫時延大幅縮短:一方面,相比NAND固態(tài)盤數(shù)十微秒的讀寫時延,英特爾?傲騰?持久內(nèi)存的讀寫時延可控制在1微秒以內(nèi);另一方面,借助PMDK提供的函數(shù)庫與工具,英特爾?傲騰?持久內(nèi)存可對整個寫入流程實現(xiàn)更加細(xì).系統(tǒng)使用壽命有效提升:一方面,英特爾?傲騰?持久內(nèi)存可按字節(jié)尋址的特性有效解決了以往NAND固態(tài)盤的“寫入.增強存儲空間使用效率:英特爾?傲騰?技術(shù)允許單獨訪問和更新內(nèi)存單元,所以英特爾?傲騰?持久內(nèi)存無需再執(zhí)行垃圾收集,進而避免了以往NAND固態(tài)盤面臨的回收毛刺云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇為驗證新硬件與優(yōu)化設(shè)計對CBS產(chǎn)品產(chǎn)生的效果,騰訊云與英特爾合作開展了多方位的驗證測試。測試結(jié)果如圖9所示,采用英特爾?傲騰?持久內(nèi)存構(gòu)建的CBS產(chǎn)品方案與優(yōu)化前相比,整體寫時延從120微秒下降到60微秒,整體讀時延從130微秒下降到40微秒,同時IOPS可高達(dá)200W以上,性能獲得了有效提升14?;疌BS等云服務(wù)產(chǎn)品。例如雙方計劃在基于英特爾?傲騰?持久內(nèi)存的方案設(shè)計中加入RDMA協(xié)議,從而有效降低處理器和更強性能助力,也能與英特爾?傲騰?持久內(nèi)存200系列形成良好的配合,為用戶數(shù)據(jù)打造更佳云存儲體驗,使CBS等云存越低越好整體寫時延60傳統(tǒng)方案優(yōu)化方案越低越好整體讀時延40傳統(tǒng)方案優(yōu)化方案圖9新方案令CBS產(chǎn)品讀寫時延顯著下降如欲了解更多詳情,請訪問:/content/www/cn/zh/cloud-computing/tencent-cloud-cloud-disk-cbs-cloud-storage.html云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇百度智能云基于英特爾?IPU隨著5G、人工智能、邊緣計算等前沿技術(shù)在更多行業(yè)獲得落地應(yīng)用,.更呈分布式的云服務(wù)部署:云服務(wù)由傳統(tǒng)的中心云逐漸向“云邊端”協(xié)同演進,更多云服務(wù)被部署在貼近應(yīng)用的邊緣端;.更為廣泛的云服務(wù)應(yīng)用場景:云服務(wù)正成為更多行業(yè)的IT基礎(chǔ)設(shè)施.更復(fù)雜的工作負(fù)載需求:不同場景的工作負(fù)載對算力、內(nèi)存或加速實例多樣化以及資源池化驅(qū)動向未來數(shù)部署方案與應(yīng)用場景的變化,讓云數(shù)據(jù)中心服務(wù)器在管理與應(yīng)用上面臨更多挑戰(zhàn)。例如,更多虛擬機(VirtualMachine,VM)的部署使管理任務(wù)變得更加復(fù)雜。同時,其能力輸出也逐漸從傳統(tǒng)單體式應(yīng)用向微服務(wù)化發(fā)展,進一步提高了云數(shù)據(jù)中心管理的復(fù)雜度,更多占用既要對虛擬機、微服務(wù),甚至裸金屬服務(wù)器等實例開展高效管理,又要對相關(guān)的云數(shù)據(jù)中心的網(wǎng)絡(luò)、存儲等基礎(chǔ)設(shè)施實現(xiàn)加速,其中的復(fù)雜性和資源開銷不斷增加,傳統(tǒng)基礎(chǔ)架構(gòu)何以滿足未來數(shù)據(jù)中心要求就成為隨著微服務(wù)模型越來越多地用于云數(shù)據(jù)中心的應(yīng)用,可以預(yù)測的是,未.云原生應(yīng)用的出現(xiàn)和快速增長推高了對專用基礎(chǔ)設(shè)施的需求,并大幅.云服務(wù)的微服務(wù)化,推動了分布式異構(gòu)計算環(huán)境的發(fā).微服務(wù)模型的廣泛采用也催生出數(shù)據(jù)中心編排系統(tǒng),使各異構(gòu)計算服.使用微服務(wù)、虛擬機、容器以及容器編排的場景不斷增加,讓服務(wù)網(wǎng)高度智能的基礎(chǔ)設(shè)施加速系統(tǒng)級安全性、控制和隔離通用軟件框架高度智能的基礎(chǔ)設(shè)施加速系統(tǒng)級安全性、控制和隔離通用軟件框架硬件和軟件可編輯根據(jù)客戶需求構(gòu)建云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇同時,由于不同工作負(fù)載或者用戶不同時段對于資源需求的不同,通過資源池化可以更優(yōu)配置資源以滿足彈性擴容的要求。因此,未來數(shù)據(jù)中心的架構(gòu)將更多地面向于服務(wù)不同的實例且日益資源池化的方向發(fā)展,以便更好利用異構(gòu)計算帶來的加速處理能力。這一異構(gòu)計算的核心將由傳統(tǒng)的處理器平臺,以及由英特爾推出的IPU(InfrastructureProcessingUnit)等基礎(chǔ)設(shè)施處理設(shè)備來組成。在基于這種架構(gòu)的數(shù)據(jù)中心內(nèi),服務(wù)器與執(zhí)行網(wǎng)絡(luò)、存儲等加速的IPU設(shè)備互聯(lián)互通,不僅傳統(tǒng)的服務(wù)器節(jié)點處理能力可在專用計算節(jié)點的支持下得到增強,同時存儲、網(wǎng)絡(luò)服務(wù),以及云服務(wù)管理包括裸金屬服務(wù)器和微服英特爾?IPU助力數(shù)據(jù)中心應(yīng)對變革隨著多種實例服務(wù)以及資源池化等越來越普遍地用于云數(shù)據(jù)中心的架構(gòu)中,通常借助傳統(tǒng)的網(wǎng)卡(NetworkInterfaceCard,NIC)產(chǎn)品來負(fù)責(zé)執(zhí)行物理層與數(shù)據(jù)鏈路層的數(shù)據(jù)流量處理,而而在提供云服務(wù)的過程中,這一情況則更為突出。不僅OpenvSwitch(OVS)等虛擬交換技術(shù)、RDMAoverConvergedEthernet(RoCE)等傳輸存儲協(xié)議以及相應(yīng)的數(shù)據(jù)安全技術(shù)被這一趨勢,伴隨著數(shù)據(jù)規(guī)模的不斷增大(端口帶寬正逐步從.數(shù)據(jù)處理的增長速度始終高于算力增長速度,對處理器資源.為保障核心業(yè)務(wù)的高效執(zhí)行,數(shù)據(jù)中心不得不購置更多處理器資源,帶來云服務(wù)TCO的增加;.更大的數(shù)據(jù)規(guī)模和處理復(fù)雜度,也對數(shù)據(jù)中心的各項基礎(chǔ)設(shè)在這一背景下,英特爾通過對數(shù)據(jù)中心基礎(chǔ)設(shè)施能力進一步分析與整合,推出了英特爾?IPU(Intel?InfrastructureProcessingUnit來全面幫助云數(shù)據(jù)中心構(gòu)建新的基礎(chǔ)設(shè)施.卸載高密集的基礎(chǔ)設(shè)施應(yīng)用任務(wù)到IPU并進行加速,如加密.在極端情況下,IPU可以卸載整個虛擬機管理程序,釋放處理器所有內(nèi)核為應(yīng)用和微服務(wù)提供支持,這對于裸金屬服務(wù).減少了主機側(cè)處理器中虛擬機管理程序和基礎(chǔ)設(shè)施堆棧的開銷,并可以從主機側(cè)處理器中卸載存儲堆棧,使更多的處理如圖10所示,英特爾?IPU產(chǎn)品在配置了FPGA芯片或者ASIC控制面功能實現(xiàn)卸載。這種將專用可編程硬件與通用處理器相((ASIC和/或FPGA)圖10英特爾?IPU架構(gòu)以目前英特爾面向市場的IPU主力產(chǎn)品英特爾?FPGAIPUC5000X-PL(代號“BigSpringCanyon”)為例,如圖11所示,其具備2個25G端口(使用SFP28光口可提供50G的網(wǎng)絡(luò)吞吐能力;核心處理能力則由所搭載的英特爾?Stratix?10DXFPGA芯片與英特爾?至強?D處理器擔(dān)綱。DD圖11英特爾?FPGAIPUC5000X-PL云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇核心/管理程序加密安全性vSwitchIPU核心/管理程序加密vSwitch安全性IPU加速安全性核心裸金屬云基施服加密vSwitch安全性IPU基施理多租云其中,英特爾?Stratix?10DXFPGA可編程邏輯芯片能充分發(fā)一代FPGA擁有更多的收發(fā)器并支持硬核PCIeGen4接口從的單核性能來承載控制面的各項功能,支持Hypervisor,還能以良好的x86兼容性以及與其它基于英特爾?架構(gòu)的硬件形成■卸載基礎(chǔ)設(shè)施能力與釋放算力存儲、安全以及基礎(chǔ)設(shè)施管理等多種能力從處理器卸載到IPU,.網(wǎng)絡(luò)加速:將承載網(wǎng)絡(luò)I/O、數(shù)據(jù)轉(zhuǎn)發(fā)等功能的虛擬交換機軟件,如OVS等從主機側(cè)處理器卸載到IPU,提升網(wǎng)絡(luò)吞.存儲加速:將virtio-blk、NVMe-oF等存儲接口、協(xié)議棧從主機側(cè)處理器轉(zhuǎn)移到IPU,提高存儲彈性和靈活性,并降低.安全加速:可以從主機側(cè)處理器卸載加密/解密、壓縮和其.基礎(chǔ)設(shè)施處理:將云服務(wù)管理功能從主機側(cè)處理器卸載到此外,英特爾還正以加速開發(fā)平臺(AccelerationDevelopmentPlatform,ADP)為抓手,優(yōu)化生態(tài)系統(tǒng)。在規(guī)劃中,ADP平臺將為用戶提供通過英特爾?開放式FPGA堆棧(英特爾?■對接英特爾?至強?可擴展處理器,提升云數(shù)據(jù)通過英特爾?IPU開展能力卸載,對基礎(chǔ)設(shè)施進行性能加速,也可以引入英特爾?至強?可擴展處理器來進一步加強算力。.更多的內(nèi)核、更優(yōu)的架構(gòu)帶來算力性能的大幅提升,可有效.多項內(nèi)置增強技術(shù),如英特爾?深度學(xué)習(xí)加速(英特爾?DL能夠有效提升卸載能力的效率和平滑性。由于主機側(cè)和IPU都和英特爾?至強?D處理器這樣將原先主機側(cè)運行的應(yīng)用遷移到IPU上就變的非常方便,甚至無需編譯即可遷移。例如DPDK、SPDK等軟件就可以從主機側(cè)直接遷移到IPU上運行,這一算力架構(gòu)正幫助云數(shù)據(jù)中心形成更高效的能屬服務(wù)器為例,借助英特爾?IPU提供的云管理能力卸載,可以實現(xiàn)基礎(chǔ)設(shè)施管理面與租戶間的物理隔離,利用VirtIO設(shè)備熱核心/管理程序加密安全性vSwitchIPU圖12英特爾?IPU面向不同基礎(chǔ)功能卸載的場景云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇20云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇20百度太行百度太行DPU太行DPU2.0數(shù)據(jù)路徑硬件加速.BVS:25G->100G,10MPPS->50MPPS.NVME,200k->1MIOPS.RDMA:10usHostVMVMDPUDPUHypervisorBVS硬件化NVMeoFDPUHypervisorHostVMVM.VirtIO-Net/VirtIO-Blk.主機CPU太行DPU3.0云原生IOEngineBVC太行DPU1.0裸金屬虛機容器CPUCPUHDDSSD圖13百度太行DPU發(fā)展路徑圖14百度太行DPU圖14百度太行DPU1.0產(chǎn)品圖主機側(cè)處理器卸載到專門的基礎(chǔ)設(shè)施處理單元上并實施性能加帶寬接入和更低網(wǎng)絡(luò)時延的挑戰(zhàn)。以百度智能云獨具優(yōu)勢的AI云服務(wù)為例,目前AI算力需求比之前已提升數(shù)個數(shù)量級,元宇宙的算力需求還要再提升1,000倍15。因此要貫徹上述理念,需為此,百度智能云通過自研的百度太行DPU系列產(chǎn)品,并融合如圖14和表1所示,百度太行DPU1.0產(chǎn)品配備了2個25G帶寬的光口,并引入英特爾?FPGA與英特爾?至強?D處理器通過將云管控平面卸載到百度太行DPU1.0中,也可以實現(xiàn)虛度。來自百度智能云的測試驗證表明,百度太行DPU1.0產(chǎn)品能夠為用戶提供1,000萬PPS的轉(zhuǎn)發(fā)率以及20萬IOPS的存儲性能16。?支持網(wǎng)絡(luò)卸載及加速,實現(xiàn)裸金屬和虛擬機物理機型統(tǒng)一?支持彈性熱插拔,為裸金屬和虛擬機提供彈性網(wǎng)卡、彈性擴?支持熱升級、熱恢復(fù)、熱遷移(虛擬機)百度太行DPU1.0:虛擬化功能卸載?云管控平面卸載到DPU,虛擬機和裸金屬共池?2*25G,10MPPS,200KIOPS百度太行DPU產(chǎn)品功能亮點與配置數(shù)據(jù)表1百度太行DPU產(chǎn)品功能亮點與配置數(shù)據(jù)幫助百度智能云保持優(yōu)勢。在百度智能云的計劃中,這一DPU產(chǎn)品也將作為其智能云服務(wù)的核心組件,助力其構(gòu)建IaaS資源的統(tǒng)一彈性底座,進而為用戶依托百度智能云開展各類業(yè)務(wù)創(chuàng)數(shù)據(jù)援引自公開媒體報道:https://?/chanjing/cyxw/2022-03-10/doc-imcwiwss5271286.shtml百度太行DPU產(chǎn)品數(shù)據(jù)來源于百度內(nèi)部。百度太行DPU產(chǎn)品數(shù)據(jù)來源于/m/media/pclive/pchome/live.html?room_id=5073343376&source=h5pre云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇字節(jié)跳動采用英特爾?RDT和英特爾?PRM緩解底層硬在同一服務(wù)器上混布(co-locate)不同優(yōu)先級的工作負(fù)載是一種提高服務(wù)器總利用率的新方法。按照傳統(tǒng)方式,一臺服務(wù)器只運行一種時延關(guān)鍵型工作負(fù)載,但這種方式通常無法做到CPU的全時段充分利用,因此為安排低優(yōu)先級工作負(fù)載將這些CPU未用時間利用起來提供了機會,但前提是,不違反時延關(guān)鍵型工作負(fù)載的服務(wù)級別協(xié)議(ServiceLevelAgreement,SLA)。遵守時延關(guān)鍵型工作負(fù)載的SLA對工作負(fù)載混布而言是一個巨大挑戰(zhàn),隨著SLA定義越來越嚴(yán)格,這一挑戰(zhàn)也變得更加嚴(yán)峻。為了提供更好的用戶體驗,工作負(fù)載所有者會將尾時延作為其關(guān)鍵工作負(fù)載的SLA。實現(xiàn)這個目標(biāo)頗有難度,即使在所有計算資源都指定給一項工作負(fù)載的當(dāng)集群中出現(xiàn)違反工作負(fù)載SLA的情況時,必須排查所有可能造成的影響,從軟件代碼變更到運行時配置,從上層資源管理到底層資源分配逐一進行,如果一個集群中運行的工作負(fù)載達(dá)數(shù)十種,要耗時冗長逐一云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇22云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇22字節(jié)跳動運營著多個基于機器學(xué)習(xí)的內(nèi)容平臺,建立了混布集群,并利用觀察到的某些工作負(fù)載的CPU日常使用模式,通過混布機器學(xué)習(xí)等低優(yōu)先級任務(wù)來利用CPU的空閑時間。在字節(jié)跳動混布集群內(nèi)混布的工作負(fù)載有兩種:在線工作負(fù)載。在線工作負(fù)載屬于遠(yuǎn)程過程調(diào)用(RPC)服務(wù),有著嚴(yán)格的SLA要求。而Hadoop任務(wù)和視頻轉(zhuǎn)碼等多數(shù)離線工作負(fù)要維持在線工作負(fù)載的性能,需要將CPU資源妥善分配給離線工作負(fù)載和在線工作負(fù)載:離線工作負(fù)載須在在線工作負(fù)載發(fā)出請求時盡快歸還CPU時間。這一過程由cpuset實施。所有在線工作負(fù)載都在一個cpuset內(nèi)運行,離線工作負(fù)載在另一個cpuset內(nèi)運行。它們并不共用邏輯CPU內(nèi)核或物理CPU內(nèi)核。資源控制器會根據(jù)所有在線工作負(fù)載的CPU負(fù)載持續(xù)調(diào)整cpuset配置。當(dāng)所有在線工作負(fù)載的CP制器會將更多CPU分配給在線工作負(fù)載的cpuset。而當(dāng)CPU在在線工作負(fù)載cpuset中的任何CPU上運行,離線工作負(fù)載工作負(fù)載性能模型是基于底層性能計數(shù)器構(gòu)建的。性能計數(shù)器是平臺提供的一種記錄特定硬件執(zhí)行行為的硬件功能。我們從CPU角度選擇了三種計數(shù)器作為工作負(fù)載性能的指標(biāo):unhaltedCPUcycles、retiredinstructions、cachemisses。Cyclesperinstruction(CPI)指執(zhí)行每條指令平均所需的CPU周期數(shù)量。CPI越高意味著完成指令需要的CPU周期越多。當(dāng)CPI高到一定程度時,工作負(fù)載的性能可能會受到影響。Cachemissesperkilo-instructions(MPKI)指的是工作負(fù)載每千條指令的三級緩存缺失數(shù),用來確定CPI高于常規(guī)值時的根本原因。如果CPI和MPKI同時高于常規(guī)值,則表明工作負(fù)載的性能很可能已經(jīng)受到緩存缺失的影響。只要密切監(jiān)控一種工作負(fù)載在運行時的這些指標(biāo),就能知道底層共享資源對性能有哪些干擾(如有)。在本文所述的情況中,尾時延等傳統(tǒng)性能指標(biāo)無法用于性能評為分析字節(jié)跳動混布集群中離線工作負(fù)載的性能,我們每30秒針對各在線工作負(fù)載收集性能計數(shù)器、緩存占用大小(cacheoccupancy)和其他輔助指標(biāo)(如CPU利用率和工作負(fù)載強英特爾?資源調(diào)配技術(shù)(英特爾?RDT)把對應(yīng)用、虛擬機(VM)和容器使用三級緩存(LLC)和內(nèi)存帶寬等共享資源的監(jiān)測和控性的同時,降低TCO。隨著軟件定義基礎(chǔ)設(shè)施和高級資源感知編排技術(shù)在行業(yè)中影響力的不斷上升,英特爾?RDT已經(jīng)成為英特爾?RDT提供了一個由多個組件功能(包括CMT、CAT、MBM和MBA)組成的框架,用于實現(xiàn)高速緩存和內(nèi)存帶寬監(jiān)控及分配功能。這些技術(shù)可以跟蹤和控制平臺(CAT)(MBM)CPU核(CMT)(MBA)?圖16英特爾?RDT功能云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇23cpus‘L3’‘L3_MON’‘MB’M2云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇23cpus‘L3’‘L3_MON’‘MB’M2taskstasksmon_datacpusschematatasksmon_datamon_datamon_L3_00mbm_local_bytesllc_occupancy 圖17英特爾?RDT內(nèi)核架構(gòu)如圖17所示,英特爾?RDT內(nèi)核架構(gòu)描述的是英特爾?RDT功能的Linux內(nèi)核框架和實現(xiàn)。核級和線程級MSR寄存器操作,如功能枚舉、監(jiān)控和分配配置、CLOS/RMID與線程關(guān)聯(lián)、讀取監(jiān)控計數(shù)器,均納入文件系統(tǒng)操作。從最終用戶的角度來看,英特爾?RDT的監(jiān)控和分配功能是通過默認(rèn)裝載在/sys/fs/resctrl下的資源控制文件系統(tǒng)來實現(xiàn)的。見圖18:英特爾?RDT在resctrl文件系統(tǒng)中的分層結(jié)構(gòu)),為“tasks”:讀取該文件會顯示該群組所有任務(wù)的列表。將寫入文件會添加任務(wù)到群組。“cpus”:讀取該文件組擁有的邏輯CPU的位掩碼。將掩碼寫入文件會添加CPU到啟用RDT監(jiān)控功能后,根目錄和其他頂層目錄會包含“mon_見圖18:英特爾?RDT在resctrl文件系統(tǒng)中的分層結(jié)構(gòu)),以監(jiān)控任務(wù)群組?!癕on_data”目錄包含一組按照資源域和RDT文件(“l(fā)lc_occupancy”、“mbm_total_bytes”和“mbm_local_bytes”)。這些文件為群組中的所有任務(wù)提供了事件當(dāng)前值的計英特爾?RDT在resctrl文件系統(tǒng)中的分層結(jié)構(gòu)類似于控制組(Cgroup)。與Cgroup相比,resctrl文件系統(tǒng)界面有著類似的進程管理生命周期和用戶界面。但不同于Cgroup的分層結(jié)構(gòu),resctrl文件系統(tǒng)界面是單層文件系統(tǒng)結(jié)構(gòu)。資源組在resctrl文件系統(tǒng)中表示為目錄。默認(rèn)組為根目錄,在文件系統(tǒng)裝載后即擁有系統(tǒng)中的全部任務(wù)和CPU,可以充分使英特爾?PlatformResourceManager英特爾?PlatformResourceManager(英特爾?PRM)是一套軟件包,可幫用戶將盡力而為型(best-e?orts)任務(wù)和時延關(guān)?代理(eris代理),可監(jiān)測和控制各節(jié)點上的平臺資源(CPU周期、三級緩存、內(nèi)存帶寬等);?分析工具(分析工具),可建立平臺資源沖突檢測模型。CG2CG2mon_groupsCG1mon_dataschematatasksmon_groupsmon_L3_01圖18英特爾?RDT在resctrl文件系統(tǒng)中的監(jiān)測和控制示意圖高/低離線高/低離線工作負(fù)載CPU利用率CPI估算云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇24回歸模型旨在為在線工作負(fù)載建立CPI和MPKI模型。該模型利用混布離線工作負(fù)載的周期數(shù)和CPU總利用率來為CPI和MPKI建模。CPI=f(CPU_cycles,O?ine_workload_utilization)MPKL=f(CPU_cycles,O?ine_workload_utilization)CPI和MPKI與工作負(fù)載強度有關(guān)。我們將離線工作負(fù)載利用率如果在同等工作負(fù)載強度下,CPI隨著離線工作負(fù)載利用率的提如果MPKI有同樣的相關(guān)性,則影響很可能來自三級緩存干我們?yōu)槊宽梺碜韵嗤a庫的在線服務(wù)建立一個回歸模型。CPI和MPKI模型均基于七天運行時指標(biāo)建立。我們將指標(biāo)拆分20次以進行模型篩選,最后隨機選擇500個樣本建立模型。我們還設(shè)計了兩個測試集來檢驗離線工作負(fù)載利用率與CPI/MPKI之間的相關(guān)性。第一個測試集為不同的CPU周期組合,離線工作負(fù)載利用率較低。離線工作負(fù)載低利用率的抽樣范圍是低于總離線工作負(fù)載利用率10%;另一測試集的樣本來自離線工作負(fù)載利用率較高的不同的CPU周期。離線工作負(fù)載高利用率的抽樣范圍是高于總離線利用率90%。將兩個測試集用于CPI/MPKI模型是為了觀察CPI或MPKI是否會隨著離線工作負(fù)載利我們發(fā)現(xiàn),對于某些在線工作負(fù)載,CPI/MPKI與離線工作負(fù)載利用率之間存在相關(guān)性。一種在線工作負(fù)載的結(jié)果見圖19:性此外,我們還收集了英特爾?RDT指標(biāo)來驗證此評估結(jié)果。同兩個NUMA域運行。離線工作負(fù)載在其中一個NUMA域中高強度運行,與其他在線工作負(fù)載爭奪該域中的三級緩存,最終性能造成了影響。為緩解干擾,字節(jié)跳動部署了英特爾?RDT來管理離線工作負(fù)載的緩存占用情況。下文所述■RDT配置■評估范圍擁有超過9,000臺服務(wù)器且服務(wù)器均已部署RDT配置的混布0.950.90低離線低離線高離線012345周期數(shù)高/低離線工作負(fù)載CPU利用率MPKI估算4.754.504.254.003.753.503.253.00低離線低離線高離線012345周期數(shù)左:CPI模型(離線工作負(fù)載CPU利用率低/高)右:MPKI模型(離線工作負(fù)載CPU利用率低/高)■評估方法在線工作負(fù)載第99百分位的時延波動用于指示緩存管理配置的波動t=|99th_latencyt-99th_latencyt-1|/99th_latencyt首次收集的工作負(fù)載第99百分位的時延波動數(shù)據(jù)來自未啟用緩存管理的混布集群和非混布集群。在混布集群■評估結(jié)果工作負(fù)載A對于工作負(fù)載A,混布集群中有超過9,000個實例,非混布集群中有超過3,000個實例。在不啟用緩存管理的條件下,混布集群中尾時延的波動明顯高于非混布集群中的尾時延波動{見圖20:工作負(fù)載A(啟用前)}。若在混布集群中啟用緩存管理,在混布集群中啟用緩存管理后,工作負(fù)載B的結(jié)果同樣表現(xiàn)較好。工作負(fù)載B在混布集群中有超過10,000個實例,在非混布集群中有超過5,500個實例。圖22:工作負(fù)載B(啟用前)所示為該工作負(fù)載在混布集群中運行(未啟用緩存管理)與在非混所示為在混布集群中啟用緩存管理后的對比。兩圖20工作負(fù)載A(啟用前):工作負(fù)載A在非混布集群和圖21工作負(fù)載A(啟用后):工作負(fù)載A在非混布集群和圖22工作負(fù)載B(啟用前):工作負(fù)載B在非混布集群和圖23工作負(fù)載B(啟用后):工作負(fù)載B在非混布集群和字節(jié)跳動利用英特爾?RDT和英特爾?PlatformResourceManager,來緩解底層硬件資源對混布集群的干擾,驗證了英特爾?RDT和英特爾?PRM可以減少工作負(fù)載混布時底層資源對時延關(guān)鍵型工作負(fù)載的干擾,進而提云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇25京東云基于至強?處理器打造冷板液冷參考解決方案,有效京東云基于至強?處理器打造冷板液冷參考解決方案,有效蓬勃發(fā)展的數(shù)字化轉(zhuǎn)型使得數(shù)據(jù)中心的能耗處于持續(xù)的增長中,而在數(shù)據(jù)中心的能源消耗中,加熱、通風(fēng)和空調(diào)(HVAC)系統(tǒng)能耗值得關(guān)注。以京東云數(shù)據(jù)中心為例,有超過70%的數(shù)據(jù)中心能源由信息技術(shù)設(shè)備(ITE)消耗,HVAC系統(tǒng)消耗的能源達(dá)到12%,居第二位18。因此,除了提升數(shù)據(jù)中心IT使得具備動態(tài)頻率調(diào)節(jié)能力的XPU等關(guān)鍵組件能夠以較高頻率進行穩(wěn)定運于工作溫度的降低,IT設(shè)備的運行壽命得以提升,在冷卻方面耗費的成本也傳統(tǒng)數(shù)據(jù)中心多采用空氣作為冷卻介質(zhì),但其存在無法在垂直機架陣列的IT設(shè)備入口處提供均勻溫度的空氣,冷卻系統(tǒng)效率也相對較低等諸多缺陷,讓液.在液冷系統(tǒng)中,熱量能夠在更靠近其來源的地方與液冷介質(zhì)進行交換,避.水等液體比空氣具有更高的熱容量和更低的熱阻—一般來說,冷卻液的導(dǎo)熱系數(shù)是空氣的6倍,單位體積的熱容是空氣的1,000倍;.與傳統(tǒng)的冷卻方式相比,冷卻液的傳熱次數(shù)更少,容量衰減更小,冷卻效冷板液冷主要方法是組建冷卻液回路,利用CDU分配冷卻液。在通過冷板收集計算節(jié)點的熱量后,冷卻液不斷流向另一個冷的CPU,并通過另一個連接器離開服務(wù)器冷板管道,實現(xiàn)液冷計算節(jié)點的液冷循環(huán)。冷板液冷技術(shù)目前在行業(yè)內(nèi)相對成熟,在傳統(tǒng)數(shù)據(jù)中心改造、數(shù)據(jù)中心基礎(chǔ)設(shè)施復(fù)用等方面具備一但同時,由于液冷與空氣冷卻系統(tǒng)在設(shè)計上有較大的差異,很多技術(shù)仍缺乏充26CPUTDPEnvelope,WPower/Core云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇27RackServerManifoldColdPlateTube/PipeCLeakageompatibilityTube/PipeCPUTDPEnvelope,WPower/Core云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇27RackServerManifoldColdPlateTube/PipeCLeakageompatibilityTube/Pipe面向XPU的冷卻系統(tǒng)設(shè)計挑戰(zhàn)包括CPU在內(nèi)的XPU芯片功耗是服務(wù)器能效的重要考量因素,在很大程度上決定著數(shù)據(jù)中心的總功耗。由于人工智能、數(shù)據(jù)分析、數(shù)據(jù)庫等工作負(fù)載對計算能力的需求不斷增長,以及半導(dǎo)體工藝的巨大改進,XPU已經(jīng)集成了極多的晶體管。盡管單核功耗因工藝技術(shù)的改進而不斷下降,但芯片整體的熱設(shè)計功率(TDP)卻由于性能大幅增長而在不斷增加,這將導(dǎo)致芯片的TDP超過空氣冷卻的能力。CoreCountCoreCountYear→YearYear→TDP,W6005004003002001000TodayLiquidTodayLiquid35030020520514514513013013095XeonThermalDesignPower(TDP)以京東云服務(wù)器系統(tǒng)為例,其x86處理器的典型TDP在2013年為105瓦,而在2022年部署時,這個數(shù)字將提升到350瓦以上19。此外,行業(yè)普遍預(yù)計,XPU的TDP在接下來的幾年中熱量,減少了風(fēng)冷風(fēng)扇,將熱阻顯著降低到典型范圍0.3~0.5。C/W21。如今,處理器制造商允許XPU在受控范圍內(nèi)超出其基本(或標(biāo)稱)頻率運行。在大多數(shù)情況下,處理器在最低頻率和基本頻率之間的保證范圍內(nèi)運行。只有在熱量和功率預(yù)算允許的情況下,它們才能在更高的頻率運行。由于液冷系統(tǒng)具有非常高的冷卻能力,使其能夠支持XPU運行在較高的頻率上,從而提升京東云冷板液冷解決方案是從數(shù)據(jù)中心級到系統(tǒng)級的整體解決方案,涵蓋了CDU、機架、服務(wù)器等不同層級的產(chǎn)品與技術(shù),在CDU、工作液、歧管、服務(wù)器等方面進行了針對性的設(shè)計。京東云服務(wù)器CPU的TDP處于持續(xù)的上升通道中LiquidCoolingSolutiLiquidCoolingSolution-OpenLoopDataCenterDataCenterCDUCDUHeatExchangerorkingFluidLeakageTube/PipeWPumpReliabilityTestingReliabilityTesting圖25京東云冷板液冷參考解決方案架構(gòu)數(shù)據(jù)援引自京東云內(nèi)部測試結(jié)果。英特爾并不控制或?qū)徲嫷谌綌?shù)據(jù)。請您審查該內(nèi)容,咨詢其他來源,并確認(rèn)提及云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇28CDU在整體液冷解決方案中,CDU作為服務(wù)器側(cè)二級回路和數(shù)據(jù)中心側(cè)一級回路的關(guān)鍵傳熱路徑,必須具有泵、在液體冷卻系統(tǒng)的一次回路側(cè),選擇去離子水+乙二醇作為工作流體。去離子水具有低電阻特性,乙二醇則確保了流體在低環(huán)境溫度下凍結(jié)而導(dǎo)致管道破裂的低風(fēng)安裝在機架上的歧管將冷流體分配到每個服務(wù)器節(jié)點。在歧管頂部的快速連接器可方便機架部署。歧管底端設(shè)服務(wù)器液冷方案主要由冷板、管路、快速接頭和檢漏線組成。其中,數(shù)據(jù)中心單相冷板供液溫度范圍為40~45。C,工作液兼容乙二醇溶液(去離子水)。為了防范液體泄露風(fēng)險,京東云采用檢漏線將液冷系統(tǒng)包裹起來,特別是在冷板和管路接頭處,確保在漏液的情況LeakageSensorTubeColdPlateTubeQuickConnector圖26京東云服務(wù)器液冷方案組成京東云已于2021年第二季度在其數(shù)據(jù)中心部署了冷板液冷解決調(diào)整了核心數(shù)、基礎(chǔ)和Turbo頻率、TDP、RAS特性、T機箱方案部署后,在相同服務(wù)器節(jié)點配置下,京東云對比了空氣冷卻與冷板液體冷卻在25。C和35。C環(huán)境溫度下的冷卻效果,數(shù)據(jù)如表2所示。在25。C和35。C環(huán)境溫度下,對比空氣冷卻,采用冷板液體冷卻的服務(wù)器節(jié)點的風(fēng)扇功率顯著降低18%dBA,對維護人員非常友好22。2°52°5CC3°53°5CCCPU機箱溫度風(fēng)扇負(fù)載降低5%風(fēng)扇功率(節(jié)點級)降低44%服務(wù)器節(jié)點出口溫度噪音降低7.0dBA備注1.具有相同服務(wù)器節(jié)點配置的空氣冷卻是比較的基準(zhǔn)。2.“-”表示低于基線3.用于風(fēng)冷的CPU散熱器高度為64mm,而冷板液冷則為17mm。表2京東云數(shù)據(jù)中心空氣冷卻與冷板液體冷卻的冷卻效果對比可用性、可維護性)特性以及內(nèi)存故障預(yù)測已統(tǒng)服務(wù)器相比,該服務(wù)器計算節(jié)點主機的宕機率降低了40%,保證了云主機服務(wù)99.99%的可用性SLA24。數(shù)據(jù)援引自京東云內(nèi)部測試結(jié)果。英特爾并不控制或?qū)徲嫷谌綌?shù)據(jù)。請您審查該內(nèi)容,咨詢其他來源,并確認(rèn)提及數(shù)據(jù)是否準(zhǔn)確。云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇29.液體冷卻的傳熱比空氣冷卻的傳熱系數(shù)高數(shù)百倍,冷卻能力.高性能的處理器通常會具備高頻和多核特性,解決最高性能.通過冷卻高性能的處理器和增加服務(wù)器機架功率密度來實現(xiàn).采用冷板液冷解決方案,可以將數(shù)據(jù)中心50%~80%的散熱轉(zhuǎn)移到外部冷卻塔,減少冷卻塔的使用,最終降低PUE和碳.液體冷卻提高了云主機服務(wù)等級協(xié)議,以及處理器、服務(wù)器.冷板液冷是一種將傳統(tǒng)風(fēng)冷數(shù)據(jù)中心改造成液冷的循環(huán)經(jīng)濟數(shù)據(jù)中心的PUE從1.3降低到1.1,每個14KW機柜可節(jié)電31,031度,碳減排24.4噸。在服務(wù)器系統(tǒng)方面,每個服務(wù)器節(jié)點可以節(jié)省大約4%的電量26。機架電源服務(wù)器節(jié)點省電10.96PUE值1.3總功率比(包括直流)10.813總電力成本10.81321,722節(jié)電(千瓦時/年)31,031碳排放量(公斤)24,360碳減排量(噸)24.4表3京東云數(shù)據(jù)中心冷板液冷與空氣冷卻節(jié)能減排效果對比數(shù)據(jù)援引自京東云內(nèi)部測試結(jié)果。英特爾并不控制或?qū)徲嫷谌綌?shù)據(jù)。請您審查該內(nèi)容,咨詢其他來源,并確認(rèn)提及數(shù)據(jù)是否準(zhǔn)確。3030京東利用英特爾MCA+MFP京東云是京東科技集團旗下領(lǐng)先的云計算品牌,依托于京東科技集團在人工智正式商用,進軍中國云計算市場;2017年6月,京東業(yè)務(wù)全部上云;2021年4月,京東云IaaS市場占有率升至中國第五,躋身國內(nèi)云計算第一梯隊28。作為全球容器化最徹底的云平臺之一,京東云擁有全球最大規(guī)模的Docker集群、全球最大規(guī)模的Kubernetes集群,支撐萬億級電商交易,實現(xiàn)京東618購物節(jié)訂單100%云上完成、以及京東物流、京東健康全量上云。歷經(jīng)京東育、游戲等客戶,服務(wù)最高可用性保證達(dá)99.995%29。如今京東云覆蓋各個行業(yè)領(lǐng)域超過2,500家的合作伙伴,隨著用戶規(guī)模不斷增大,特定行業(yè)與云原生類用戶對應(yīng)用開發(fā)和運營模式提出許多新的要求,傳統(tǒng)用戶也正在將更多復(fù)雜業(yè)務(wù)遷移上云,這些持續(xù)變化的技術(shù)需求對京東云服作為云服務(wù)的核心資源云主機,它的可靠性、可用性、可維護性直接決定了云服務(wù)的質(zhì)量和水平。如今硬件故障的發(fā)生是造成主機宕機的重要因素。傳統(tǒng)方式下,一組服務(wù)停止工作只會影響到自己的業(yè)務(wù)和用戶,但是在云環(huán)境下,服務(wù)終止將會導(dǎo)致云服務(wù)提供商違反SLA并造成巨大的經(jīng)濟損失。在眾多的硬件故障中,內(nèi)存錯誤是當(dāng)今數(shù)據(jù)中心中所面對的最嚴(yán)重的故障之一。目前京東云數(shù)據(jù)中心內(nèi)存錯誤在整體硬件故障中的占比達(dá)到37%,為此京東云建立了完善的云主機故障預(yù)測和恢復(fù)系統(tǒng),希望通過對內(nèi)存錯誤的發(fā)現(xiàn)與預(yù)測,通過在37%Memory32%Disk11%CPU7%Mainboard5%Others4%Power4%Network圖27京東云硬件故障分布如欲了解更多詳情,請訪問:/content/www/cn/zh/cloud-computing/mca-mfp-jd-stability-cloud.html云與數(shù)據(jù)中心基礎(chǔ)設(shè)施云與數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用篇定性與可靠性,提高終端用戶的SLA,降低京東云數(shù)據(jù)中心的TCO都有極大的幫助。英特爾?MCARecovery+MFP,京東云與英特爾在云計算領(lǐng)域一直保持著緊密而廣泛的合作,為終端用戶提供專業(yè)且高性價比的云服務(wù)是了解決內(nèi)存錯誤的困擾,雙方再次攜手,通過引入英特爾MCARecovery與MemoryFailurePrediction(MFP)技術(shù),結(jié)合京■內(nèi)存錯誤UncorrectedUncorrectedError圖28內(nèi)存錯誤分類1目前主機出現(xiàn)的內(nèi)存錯誤主要分為可糾正錯誤(CorrectedError,簡稱CE)和不可糾正錯誤(UncorrectedError,簡稱不可糾正錯誤(UE)通常會造成比較嚴(yán)重的災(zāi)難性后果,如主機操作系統(tǒng)掛起,系統(tǒng)崩潰、宕機。UE錯誤也可以分為FatalError、SRAR、SRAO以及UCNA。.FatalError:非常嚴(yán)重的UE錯誤。此類錯誤系統(tǒng)無法對其只能通過復(fù)位系統(tǒng)進行恢復(fù)。出現(xiàn)這種UE錯誤目前暫無好.RAR(SoftwareRecoverableActionRequired發(fā)生這種錯誤后,操作系統(tǒng)/應(yīng)用程序需要執(zhí)行某種操作(例如隔離/終止失敗線程)來恢復(fù)此無法糾正的錯誤。此類錯誤是恢復(fù).SRA(SoftwareRecoverableActionO

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論