IP網(wǎng)絡(luò)系列叢書 超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案_第1頁
IP網(wǎng)絡(luò)系列叢書 超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案_第2頁
IP網(wǎng)絡(luò)系列叢書 超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案_第3頁
IP網(wǎng)絡(luò)系列叢書 超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案_第4頁
IP網(wǎng)絡(luò)系列叢書 超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案主編:張艷琳明主編:張艷琳主要參與人員:樂、張帆、高洋洋、楊華、姚成霞、虞玲玲、陳貴香、李學(xué)昭發(fā)布日期:發(fā)布版本:版權(quán)所有華為技術(shù)有限公司2021。保留一切權(quán)利。非經(jīng)本公司書面許可,任何單位和個(gè)人不得擅自摘抄、復(fù)制本文檔內(nèi)容的部分或全部,并不得以任何形式傳播。商標(biāo)聲明和其他華為商標(biāo)均為華為技術(shù)有限公司的商標(biāo)。本文檔提及的其他所有商標(biāo)或注冊商標(biāo),由各自的所有人擁有。注意您購買的產(chǎn)品、服務(wù)或特性等應(yīng)受華為公司商業(yè)合同和條款的約束,本文檔中描述的全部或部分產(chǎn)品、服務(wù)或特性可能不在您的購買或使用范圍之內(nèi)。除非合同另有約定,華為公司對本文檔內(nèi)容不做任何明示或默示的聲明或保證。由于產(chǎn)品版本升級或其他原因,本文檔內(nèi)容會(huì)不定期進(jìn)行更新。除非另有約定,本文檔僅作為使用指導(dǎo),本文檔中的所有陳述、信息和建議不構(gòu)成任何明示或暗示的擔(dān)保。ii前言換機(jī)資料工程師,2020年加入華為,從事數(shù)據(jù)通信產(chǎn)品文檔開發(fā)工作?,F(xiàn)和案例,最后描述了超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案的演進(jìn)方向,使您深度了解超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案。本書適合運(yùn)維人員和企業(yè)的中高層管理人員、以及對超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案感興趣的讀者。前言對正文中重點(diǎn)信息的補(bǔ)充說明?!罢f明”不是安全警示信息,不涉及人身、設(shè)備及環(huán)境傷害信息。表示如不避免則可能導(dǎo)致輕微或中度傷害的具有低等級風(fēng)險(xiǎn)的危害。第1章為什么超融合數(shù)據(jù)中心網(wǎng)絡(luò)需要智能運(yùn)維 1第2章業(yè)界應(yīng)對之道 4第3章華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案 8第4章業(yè)務(wù)變更的技術(shù)和案例 144.1仿真驗(yàn)證 144.2網(wǎng)絡(luò)變更差異實(shí)時(shí)可見 16 4.4配置回滾 204.5服務(wù)器擴(kuò)容 234.6業(yè)務(wù)變更案例 25第5章日常巡檢的技術(shù)和案例 265.1網(wǎng)絡(luò)健康度全面評估 265.2主動(dòng)預(yù)測設(shè)備異常 295.3連通性檢測 30 第6章應(yīng)急恢復(fù)的技術(shù)和案例 346.1智能故障閉環(huán) 346.2應(yīng)急恢復(fù)案例 38第7章故障根因定位的技術(shù)和案例 407.1故障根因定位 407.2故障根因定位案例 44第8章智能運(yùn)維方案的演進(jìn) 4611為什么超融合數(shù)據(jù)中心網(wǎng)絡(luò)需要智能運(yùn)維為什么超融合數(shù)據(jù)中心網(wǎng)絡(luò)需運(yùn)維摘要本章主要介紹了超融合數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維在業(yè)務(wù)變更、日常巡檢、應(yīng)急恢復(fù)、故障根因定位中面臨的諸多挑戰(zhàn)。連接起來的通信系統(tǒng)和其它與之配套的管理監(jiān)控系統(tǒng)等,從而可供周邊網(wǎng)絡(luò)化的企業(yè)或組織貯存、管理和傳播信息。隨著SDN時(shí)代、云計(jì)算時(shí)代的到來,計(jì)算資源池化、存儲(chǔ)資源池化、網(wǎng)絡(luò)資源池化、網(wǎng)絡(luò)及業(yè)務(wù)自動(dòng)化,讓企業(yè)的數(shù)字化轉(zhuǎn)型變得更元系超融合數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維面臨的挑戰(zhàn)22為什么超融合數(shù)據(jù)中心網(wǎng)絡(luò)需要智能運(yùn)維業(yè)務(wù)變更方面資源占用難評估。在業(yè)務(wù)批量、模塊下發(fā)的情況下,運(yùn)維人員人工登錄設(shè)備查看網(wǎng)絡(luò)變更量大難感知。網(wǎng)絡(luò)設(shè)備的配置實(shí)際由SDN控制器根據(jù)具體的業(yè)務(wù)來進(jìn)行翻譯和配置自動(dòng)化批量下發(fā),管理員無法像傳統(tǒng)網(wǎng)絡(luò)那樣完全掌握所有的網(wǎng)絡(luò)節(jié)?;貪L配置復(fù)雜。運(yùn)維人員在應(yīng)急處理故障后,經(jīng)常會(huì)忘記回滾這些操作,就像員效率低耗時(shí)長,無法滿足業(yè)務(wù)快速上線的需要。缺乏全網(wǎng)級的評估能力。當(dāng)前運(yùn)維是面向單一的告警事件,但數(shù)據(jù)中心網(wǎng)絡(luò)需要維護(hù)Underlay物理網(wǎng)絡(luò)和Overlay虛擬網(wǎng)絡(luò),面向告警的運(yùn)維能力沒有辦法覆蓋整個(gè)層面的內(nèi)容。不具備預(yù)測性能力。傳統(tǒng)的運(yùn)維模式以被動(dòng)響應(yīng)為主,缺乏故障的提前預(yù)測預(yù)防需要提升故障的預(yù)測預(yù)防能力,提前進(jìn)行預(yù)防性處理,減少故障發(fā)生概率。連通性檢測不全面。運(yùn)維人員一般會(huì)用ping、trace等常規(guī)測試方法進(jìn)行驗(yàn)證,主要依靠運(yùn)維人員的人力和經(jīng)驗(yàn),且驗(yàn)證難以覆蓋完整,無法滿足當(dāng)今數(shù)據(jù)中心超大規(guī)模、業(yè)務(wù)下發(fā)虛擬化等特點(diǎn)。應(yīng)急恢復(fù)方面近來年,無論是互聯(lián)網(wǎng)、金融等行業(yè)的大型企業(yè),還是各大科技園區(qū)都在如火如荼地建設(shè)數(shù)據(jù)中心,數(shù)據(jù)中心的穩(wěn)定運(yùn)行關(guān)系著國家信息安全和社會(huì)穩(wěn)定。為了防范標(biāo)準(zhǔn)。對于金融行業(yè)而言,若單機(jī)構(gòu)單省中斷半小時(shí),那么定位為III級事故并上報(bào)銀求遇到故障首先要在最短時(shí)間內(nèi)恢復(fù)業(yè)務(wù),不一定是清除故障根因。故障根因定位方面33為什么超融合數(shù)據(jù)中心網(wǎng)絡(luò)需要智能運(yùn)維數(shù)據(jù)中心網(wǎng)絡(luò)為了提供高可靠和高帶寬,往往被設(shè)計(jì)成用ECMP(EqualCostMultiPath,等價(jià)多路徑)方式轉(zhuǎn)發(fā)流量,此時(shí)會(huì)使節(jié)點(diǎn)間流量經(jīng)由哈希算法選擇路通過網(wǎng)絡(luò)中什么樣的路徑轉(zhuǎn)發(fā)。在接入側(cè),服務(wù)器和網(wǎng)卡的類型眾多,存在對協(xié)議解析和流量轉(zhuǎn)發(fā)的差異,這也增加了接入側(cè)故障定位的難度。同時(shí),網(wǎng)絡(luò)中還存在防火墻、負(fù)載均衡器等多廠商、很難快速地進(jìn)行故障定位和排查。長、嚴(yán)重依賴運(yùn)維人員的個(gè)人經(jīng)驗(yàn)。44業(yè)界應(yīng)對之道第2章摘要本章主要介紹了當(dāng)前業(yè)界對數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維的一些理念和關(guān)鍵技術(shù)。從上面的例子可以看到,在云化時(shí)代,SDN數(shù)據(jù)中心的運(yùn)維不能再是傳統(tǒng)的依靠管理員運(yùn)維經(jīng)驗(yàn)的、手工運(yùn)維的方式了,必須建立一套專有的、全新的、智能化的主動(dòng)性:SDN場景下要求能快速動(dòng)態(tài)地下發(fā)業(yè)務(wù),如按需創(chuàng)建和刪除邏輯網(wǎng)絡(luò),網(wǎng)絡(luò)或業(yè)務(wù)配置變更相對會(huì)比較頻繁。而頻繁的變更也增加了故障概率,需要運(yùn)維系統(tǒng)能主動(dòng)、智能地感知這些故障,并借助大數(shù)據(jù)分析、經(jīng)驗(yàn)數(shù)據(jù)庫幫助用戶快速進(jìn)行故障定界和故障恢復(fù)。新的運(yùn)維方式從投訴驅(qū)動(dòng)轉(zhuǎn)變?yōu)橹鲃?dòng)業(yè)務(wù)感知。常。例如某企業(yè)客戶抱怨其輕載的網(wǎng)絡(luò),存在瞬態(tài)的突發(fā)丟包,懷疑存在毫秒級別的微突發(fā)流量,但是在分鐘級別的SNMP機(jī)制下,無法感知更無法優(yōu)化。因此新運(yùn)維系統(tǒng)的采集機(jī)制要從分鐘級的輪詢機(jī)制變更為準(zhǔn)實(shí)時(shí)的新機(jī)制55業(yè)界應(yīng)對之道析,數(shù)據(jù)規(guī)模則進(jìn)一步擴(kuò)大。運(yùn)維系統(tǒng)應(yīng)能支撐海量數(shù)據(jù)的采集、存儲(chǔ)、分析和為了主動(dòng)感知業(yè)務(wù)、實(shí)時(shí)感知網(wǎng)絡(luò),業(yè)界通常使用Telemetry技術(shù)和ERSPANTelemetrySNMP越來越高,數(shù)據(jù)不精準(zhǔn):SNMP一般3~5分鐘會(huì)輪詢設(shè)備(例如詢問設(shè)備你接口流量多少、內(nèi)存占用多少、CPU使用率有多少等等),讓設(shè)備響應(yīng)并反饋這些數(shù)據(jù)。這導(dǎo)致兩次輪詢之間的實(shí)際數(shù)據(jù)無法被運(yùn)維人員準(zhǔn)確獲知,往往遺漏了很多真相。發(fā)丟包,懷疑存在毫秒級SNMP常(藍(lán)色虛線描繪的帶寬使用監(jiān)控圖),其實(shí)微突發(fā)流量已經(jīng)造成了丟包(下圖中黑色鋸齒),影響業(yè)務(wù)體驗(yàn)。占用設(shè)備資源較多:如果將SNMP輪詢時(shí)間設(shè)置很短,則設(shè)備會(huì)不停地響應(yīng)輪詢、收集數(shù)據(jù)、發(fā)送反饋,對網(wǎng)絡(luò)設(shè)備系統(tǒng)負(fù)擔(dān)影響明顯。包,就會(huì)造成業(yè)務(wù)部門已經(jīng)投訴但運(yùn)維系統(tǒng)仍然顯示網(wǎng)絡(luò)正常的情況。面對SNMP的劣勢,業(yè)界普遍采用Telemetry技術(shù)來應(yīng)對越來越復(fù)雜網(wǎng)絡(luò)的運(yùn)導(dǎo)出實(shí)時(shí)的數(shù)據(jù),并主動(dòng)發(fā)送給運(yùn)維系統(tǒng)。板卡導(dǎo)出的數(shù)據(jù)是線速發(fā)送的,使Telemetry不僅能近乎實(shí)時(shí)地發(fā)送數(shù)據(jù),也能向運(yùn)維系統(tǒng)提供各類豐富的數(shù)據(jù),使運(yùn)66業(yè)界應(yīng)對之道維人員更加準(zhǔn)確地了解設(shè)備和網(wǎng)絡(luò)的實(shí)際狀況。因此這種準(zhǔn)實(shí)時(shí)的、豐富運(yùn)維數(shù)據(jù)的77業(yè)界應(yīng)對之道N數(shù)據(jù)中心里大部分的應(yīng)用是基于TCP協(xié)議的,因此如何判斷應(yīng)用之間訪問是否正常、用戶體驗(yàn)是否下降,以及出現(xiàn)TCP連接異常時(shí)如何快速定位每條流的轉(zhuǎn)發(fā)路業(yè)界通常采用對數(shù)據(jù)中心交換機(jī)中TCP特征報(bào)文(如SYN、FIN、RST報(bào)文)實(shí)報(bào)文轉(zhuǎn)發(fā)路徑信息;TCP開始時(shí)間、結(jié)束時(shí)間;傳輸?shù)腂ytes(FIN的序列號(hào)減去SYN的序列號(hào)的值);運(yùn)維系統(tǒng)根據(jù)收到的這些信息,結(jié)合自身一定的算法可以還原TCP流的網(wǎng)絡(luò)轉(zhuǎn)發(fā)路徑,并提示可能的故障點(diǎn)和故障原因。服務(wù)器集群與應(yīng)用架構(gòu)息,因此要求運(yùn)維系統(tǒng)具備針對海量數(shù)據(jù)的收集、分析處理、存儲(chǔ)以及界面顯示的能力。因此新運(yùn)維系統(tǒng)往往具備以下特征:使用專用的硬件設(shè)備(如服務(wù)器)來構(gòu)建;分工,還可細(xì)分為采集集群內(nèi)部均由多臺(tái)服務(wù)器承擔(dān)相應(yīng)的功能;部署,使整個(gè)系統(tǒng)具備高可高吞吐的分布式消息系統(tǒng)的數(shù)據(jù)完成功能展示。88華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能方案摘要本章主要介紹了超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案的基本概念和方案架絡(luò)運(yùn)維勢在必行。華為數(shù)據(jù)中心智能運(yùn)維方案從“看病”和“體檢”兩個(gè)維度守護(hù)數(shù)據(jù)中心健康運(yùn)99華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案1Overlay務(wù)五層進(jìn)行評估,為客戶提供全面的網(wǎng)絡(luò)健康體檢報(bào)告。實(shí)現(xiàn)基于異常檢測和風(fēng)險(xiǎn)預(yù)測的主動(dòng)性防護(hù)。華為數(shù)據(jù)中心智能運(yùn)維方案架構(gòu)如圖3-1所示,邏輯上分為網(wǎng)絡(luò)層、控制層和分文或性能、日志等信息給分析層做進(jìn)一步處理和呈現(xiàn)。網(wǎng)絡(luò)層是分析層的數(shù)據(jù)來分鐘級故障定位定界的主動(dòng)智能運(yùn)維目標(biāo)。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案iMasterNCE-FabricInsightiMasterNCE-FabricInsight基于華為大數(shù)據(jù)平臺(tái)構(gòu)建,接收來自網(wǎng)絡(luò)設(shè)備的Telemetry報(bào),運(yùn)用智能算法對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析、呈現(xiàn)。如圖3-2所華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案實(shí)例之間無狀態(tài),外部HTTP請求由消息總線進(jìn)行分發(fā)到各個(gè)節(jié)點(diǎn)處理。分析器南向接入EFabricInsightiMasterNCE-FabricInsight采集器iMasterNCE-FabricInsight分析器華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案。iMasterNCE-Fabric控制器為了應(yīng)對數(shù)據(jù)中心網(wǎng)絡(luò)的運(yùn)維管理挑戰(zhàn),華為公司開發(fā)了數(shù)據(jù)中心控制器SDN實(shí)現(xiàn)網(wǎng)絡(luò)配置自動(dòng)下發(fā),視化、精細(xì)化的運(yùn)維能力,提供高可靠性、開放性。析APP層、公共服務(wù)組件層、統(tǒng)一南向采集服務(wù)層、南向接設(shè)備的標(biāo)準(zhǔn)接口層。其華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案又分N前面我們提到數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維在業(yè)務(wù)變更、日常巡檢、應(yīng)急恢復(fù)、故障根因定位,這四大方面有諸多困難,在了解華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)智能運(yùn)維方案的架構(gòu)業(yè)務(wù)變更的技術(shù)和案例業(yè)務(wù)變更的技術(shù)和案例摘要本章主要介紹了智能運(yùn)維在業(yè)務(wù)變更場景下的應(yīng)用,包括如何實(shí)現(xiàn)仿真驗(yàn)證、網(wǎng)絡(luò)變更差異實(shí)時(shí)可見、VM全生命周期跟蹤、配置回滾、服務(wù)器擴(kuò)容,以及在行業(yè)中的應(yīng)用案例。驗(yàn)證真驗(yàn)證隨著SDN網(wǎng)絡(luò)的大規(guī)模部署以及使用,自動(dòng)化部署以及多維度運(yùn)維等給用戶在網(wǎng)絡(luò)部署、變更、維護(hù)等方面帶來了巨大的便利以及增值服務(wù);但隨著業(yè)務(wù)量的增長,一個(gè)迫切的問題也隨之而來:SDN技術(shù)做到業(yè)務(wù)批量、模塊化下發(fā)的情況下,理設(shè)備所剩的資源范圍內(nèi)?而不是出現(xiàn)下發(fā)報(bào)錯(cuò),甚至下發(fā)過程中出現(xiàn)資源搶占,影響原有業(yè)務(wù)的情況。業(yè)務(wù)變更的技術(shù)和案例傳統(tǒng)情況下的網(wǎng)絡(luò)變更影響評估,主要是運(yùn)維人員人工登錄設(shè)備查看當(dāng)前資源使以保為了解決以上問題,華為iMasterNCE-Fabric控制器的仿真驗(yàn)證功能,通過對設(shè)備資源持續(xù)監(jiān)控獲取實(shí)時(shí)設(shè)備資源利用率,并通過CPV仿真建模準(zhǔn)確預(yù)估單次業(yè)以滿足待下發(fā)業(yè)務(wù)的需求,以避免網(wǎng)絡(luò)設(shè)備資源不足導(dǎo)致業(yè)務(wù)下發(fā)失敗或其他故障。這個(gè)歡、家具尺寸是否合適都一目了然。真正做到用數(shù)據(jù)驗(yàn)證,避免人的“考慮不周”。提供資源消耗預(yù)算功能。計(jì)算業(yè)務(wù)下發(fā)后會(huì)消耗的設(shè)備資源,包括VRF、VNIBDL,幫助用戶判斷當(dāng)前業(yè)務(wù)編排是否能夠達(dá)到預(yù)業(yè)務(wù)下發(fā)后,提供驗(yàn)證業(yè)務(wù)的原宿節(jié)點(diǎn)(即VM/BM的IP地址)在Overlay網(wǎng)絡(luò)中的連通性是否符合預(yù)期。發(fā)生狀態(tài)變更的鏈路。Fabric設(shè)計(jì)態(tài):進(jìn)行VPC業(yè)務(wù)編排、仿真驗(yàn)證的過程。設(shè)計(jì)態(tài)下所做的業(yè)務(wù)編排會(huì)下發(fā)到設(shè)計(jì)態(tài)數(shù)據(jù)庫,不會(huì)下發(fā)到真實(shí)設(shè)備。用戶點(diǎn)擊提交后,才會(huì)將數(shù)據(jù)提交到生產(chǎn)態(tài),下發(fā)至設(shè)備。生產(chǎn)態(tài):進(jìn)行VPC業(yè)務(wù)編排、下發(fā)設(shè)備的過程。生產(chǎn)態(tài)下所做的業(yè)務(wù)編排會(huì)下發(fā)到真實(shí)的物理設(shè)備。ic計(jì)態(tài)下所做的業(yè)務(wù)編排進(jìn)行仿真驗(yàn)證。業(yè)務(wù)變更的技術(shù)和案例到網(wǎng)所有結(jié)果均符合預(yù)期,再由運(yùn)維人員正式在生產(chǎn)態(tài)下發(fā)。4.2網(wǎng)絡(luò)變更差異實(shí)時(shí)可見數(shù)據(jù)中心網(wǎng)絡(luò)在運(yùn)行期間,經(jīng)常會(huì)進(jìn)行網(wǎng)絡(luò)變更操作。在每次業(yè)務(wù)變更后,都需萬業(yè)務(wù)變更的技術(shù)和案例時(shí)仍無法完整完成驗(yàn)證。絡(luò)變更點(diǎn)一目了然。設(shè)備變更前后快照數(shù)據(jù)及表項(xiàng)變化,從而輔助分析網(wǎng)絡(luò)狀態(tài)。如圖4-2所示,是某臺(tái)設(shè)備兩個(gè)時(shí)間點(diǎn)快照的變更對比結(jié)果,從運(yùn)行時(shí)配置 度呈現(xiàn)變更對比的結(jié)果。修改行數(shù)、新增行數(shù)、刪除行數(shù)、快照時(shí)間。業(yè)務(wù)變更的技術(shù)和案例4.3VM生命周期跟蹤為什么需要VM生命周期跟蹤勻等信息??偟膩碚f,處于網(wǎng)絡(luò)側(cè)被動(dòng)運(yùn)維狀態(tài)。PVM助網(wǎng)絡(luò)提前合理規(guī)劃資源。如有異常,支持整網(wǎng)VM生命周期管理,VM下線、遷移、上線記錄實(shí)時(shí)可視,并提供整網(wǎng)IP快照分析,對比網(wǎng)絡(luò)變更前后的所有IP變化,是否存在下線等異常。業(yè)務(wù)變更的技術(shù)和案例IP子網(wǎng):提供用戶規(guī)劃的系統(tǒng)子網(wǎng)的統(tǒng)計(jì)信息,包括子網(wǎng)地址、名稱、所在Fabric、VRF、地址空間、在線率等信息,支持批量編輯刪除子網(wǎng)、單個(gè)添加子未上線、不包含、非法IP標(biāo)識(shí)。同時(shí)呈現(xiàn)當(dāng)前視圖下IP使用的TOP10和入IP、網(wǎng)關(guān)接口、首次發(fā)現(xiàn)時(shí)間、最近發(fā)現(xiàn)時(shí)間、活躍狀態(tài)、發(fā)現(xiàn)方式IPIP快照對比:提供快照對比功能,對比定時(shí)保存的快照中IP上線、下線、遷移、通過IP地址維度的方式向用戶呈現(xiàn)設(shè)備IP地址和主機(jī)IP地址變更前后的IP狀FabricVMIP地址的全生命周期跟蹤,包括VM上線、遷移、2020業(yè)務(wù)變更的技術(shù)和案例下線的接入位置詳情。如圖4-4所示,IP360追蹤VMIP地址和設(shè)備IP地址,統(tǒng)計(jì)P行詳細(xì)展示?;貪L置回滾傳統(tǒng)運(yùn)維人員在進(jìn)行響應(yīng)故障的時(shí)候,不可避免需要在交換機(jī)上做一些臨時(shí)的變更,比如創(chuàng)建一個(gè)臨時(shí)VLAN,在應(yīng)急處理完之后,經(jīng)常會(huì)忘記回滾這些操作,就像務(wù)中斷損失。全網(wǎng)回滾變更不當(dāng)導(dǎo)致業(yè)務(wù)大面積受損,極端場景需要快速回恢復(fù)周期過長而造成重大損失。如圖4-5所示,該功能支持備份和恢復(fù)iMasterNCE-ECE置在不重啟系統(tǒng)的條件下回退到用戶認(rèn)為合適的配置點(diǎn)。業(yè)務(wù)變更的技術(shù)和案例租戶回滾租戶業(yè)務(wù)變更場景,如發(fā)生變更錯(cuò)誤或者不符合預(yù)期的問題,需要恢復(fù)單個(gè)租戶動(dòng)和據(jù)恢復(fù)能力,在執(zhí)行單租戶回滾時(shí)不影響其他租戶的業(yè)務(wù)發(fā)放。需要先對指定租戶的網(wǎng)絡(luò)配置進(jìn)行備份后生成快照,以便用戶租戶業(yè)務(wù)回滾。如生成快照后,將租戶當(dāng)前的配置回滾至指定快照點(diǎn)的配置即為配置回滾。如圖的邏輯對象,提供差異項(xiàng)瀏覽。222業(yè)務(wù)變更的技術(shù)和案例異恢復(fù):iMasterNCE-Fabric調(diào)用南向設(shè)備接口下發(fā)差異配置,進(jìn)行同步回滾。2323業(yè)務(wù)變更的技術(shù)和案例器擴(kuò)容服務(wù)器擴(kuò)容在數(shù)據(jù)中心網(wǎng)絡(luò)的日常維護(hù)中,服務(wù)器擴(kuò)容是一個(gè)經(jīng)常性且關(guān)鍵的工作,通常情、業(yè)務(wù)網(wǎng)等多個(gè)網(wǎng)絡(luò)平面。如圖4-8所示,傳統(tǒng)的運(yùn)維模式下通過人工按規(guī)劃設(shè)計(jì)對交換率低耗時(shí)長,無法滿足業(yè)務(wù)快速上線的需要。服務(wù)器上線的速度越來越跟不上業(yè)務(wù)的節(jié)奏,急需一種自動(dòng)化、智能化的方案。華為224業(yè)務(wù)變更的技術(shù)和案例華為iMasterNCE-Fabric的服務(wù)器擴(kuò)容過程如圖4-9所示。運(yùn)維人員在完成預(yù)配置后,通過在華為iMasterNCE-Fabric控制器界面的“服務(wù)器擴(kuò)容”中創(chuàng)建任E戶可通過一次性編排輸入服務(wù)器通用上線網(wǎng)絡(luò)參數(shù),控制器通過讀取交換機(jī)的LLDP批量服務(wù)器快速、高效的上線的效果。225業(yè)務(wù)變更的技術(shù)和案例務(wù)變更案例某企業(yè)的業(yè)務(wù)繁多,每周都有網(wǎng)絡(luò)變更需求。在某一次執(zhí)行業(yè)務(wù)遷移后,發(fā)現(xiàn)遷行人工恢復(fù),業(yè)務(wù)恢復(fù)時(shí)間超過2小時(shí)。助力某企業(yè)全網(wǎng)配置回滾,實(shí)現(xiàn)業(yè)務(wù)快速恢復(fù)對全網(wǎng)設(shè)備變更前的配置生成一個(gè)快照(配置回退點(diǎn))。在某一次業(yè)務(wù)變更后,突然發(fā)現(xiàn)網(wǎng)絡(luò)大范圍異常,立即執(zhí)行全網(wǎng)回滾,將全網(wǎng)設(shè)備配置恢復(fù)到變更實(shí)施前的快照備份點(diǎn),僅10分鐘就使整網(wǎng)業(yè)務(wù)恢復(fù)如初,再?zèng)]有出現(xiàn)長時(shí)間無法恢復(fù)業(yè)務(wù)的情2626技術(shù)和案例摘要本章主要介紹了智能運(yùn)維在日常巡檢場景下的應(yīng)用,包括如何實(shí)現(xiàn)網(wǎng)絡(luò)健康度全面評估、主動(dòng)預(yù)測設(shè)備異常、連通性檢測,以及在行業(yè)中的應(yīng)用案絡(luò)健康度全面評估要網(wǎng)絡(luò)健康度全面評估當(dāng)前的網(wǎng)絡(luò)運(yùn)維主要還是面向單一的告警事件,但是由于現(xiàn)網(wǎng)的告警事件比較多,所以會(huì)針對告警做一些過濾,這樣會(huì)導(dǎo)致缺乏網(wǎng)絡(luò)級的完整評估能力。尤其在ay層面的內(nèi)容,這也成為數(shù)據(jù)中心運(yùn)維的一個(gè)新的問題。2727技術(shù)和案例ghtOverlay、業(yè)務(wù)”的五層評估體系?;赥elemetry技術(shù)實(shí)時(shí)獲取網(wǎng)絡(luò)多種全場景數(shù)據(jù),7*24小時(shí)直觀呈現(xiàn)全網(wǎng)質(zhì)量;同時(shí)動(dòng)態(tài)檢測關(guān)鍵指標(biāo)異常,主動(dòng)預(yù)測容量、流量風(fēng)險(xiǎn)。FabricInsight可實(shí)時(shí)或定期推送健康評估報(bào)告,幫助運(yùn)維人員“看網(wǎng)識(shí)icInsight模、智能化健康狀態(tài)評估、網(wǎng)絡(luò)問題分析和閉環(huán)。建模絡(luò)進(jìn)行建模,構(gòu)建設(shè)備、網(wǎng)絡(luò)、協(xié)議、Overlay、業(yè)務(wù)五層評估體系。檢測和評估的維度和要素如圖5-1所示,其中:設(shè)備層是數(shù)據(jù)中心基礎(chǔ)構(gòu)成的核心要素,設(shè)備層會(huì)包含網(wǎng)絡(luò)設(shè)備主機(jī)上安裝的單板、電源、風(fēng)扇等硬件物理資源。等資源信息。協(xié)議是用于配置硬件資源之間的互聯(lián)互通或配置可靠性保護(hù)等,比如OSPF、Overlay層配通后,會(huì)實(shí)現(xiàn)業(yè)務(wù)的上線,包括接入數(shù)據(jù)中心網(wǎng)絡(luò)的設(shè)備主機(jī)、在2828技術(shù)和案例智能化健康狀態(tài)評估Telemery的KPI性能數(shù)據(jù)、網(wǎng)絡(luò)的設(shè)備配置數(shù)據(jù),以及主機(jī)交互的業(yè)務(wù)流等多個(gè)維度的數(shù)據(jù)。結(jié)合智能分析算法,智能化評估數(shù)據(jù)中心網(wǎng)路每個(gè)層面的健康狀態(tài)。網(wǎng)絡(luò)如下:性能類,包括交換機(jī)CPU超閾值、交換機(jī)內(nèi)存超閾值、交換機(jī)端口擁塞導(dǎo)致業(yè)ARPNDMAC項(xiàng)超閾值等問題;229技術(shù)和案例異常、交換機(jī)主控板異常等連接類,包括接入側(cè)單IP異常、服務(wù)器接入異常、TCP服務(wù)端口未打開等問題;路、整網(wǎng)存在路由黑洞的那個(gè)問題。通過FabricInsight運(yùn)維人員可以直觀地了解到每個(gè)層面是否有問題發(fā)生、當(dāng)前收發(fā)光功率、電流、電壓、溫度、光模塊所在端口的狀態(tài)等多個(gè)維度的數(shù)據(jù),并結(jié)合避免造成業(yè)務(wù)損失。同時(shí)FabricInsight還支持周期性生成網(wǎng)絡(luò)健康度評估報(bào)告,能夠使得管理員能夠便捷地了解當(dāng)前網(wǎng)絡(luò)的健康情況。例如過去一段時(shí)間發(fā)生了哪些問題,哪些問題已經(jīng)關(guān)閉,哪些問題當(dāng)前仍在持續(xù)。析和閉環(huán)在Issues詳情中查看問題發(fā)生的時(shí)間、具體問題發(fā)生的對象、問題發(fā)生的原因以及可能對業(yè)務(wù)的影響。預(yù)測預(yù)防能力,提前進(jìn)行預(yù)防性處理,減少故障的發(fā)生機(jī)率。我們通過長期的調(diào)研發(fā)現(xiàn),數(shù)據(jù)中心在一個(gè)月內(nèi)網(wǎng)絡(luò)的告警統(tǒng)計(jì)中,丟包、光鏈路、流量等問題占比64%,而現(xiàn)有靜態(tài)閾值告警檢測方式誤報(bào)率約50%,問題發(fā)生后處理時(shí)間較長。如何在業(yè)務(wù)異常前及時(shí)感知故障發(fā)生?3030案例務(wù)發(fā)量預(yù)測,網(wǎng)絡(luò)先于業(yè)務(wù)發(fā)現(xiàn)隱患。預(yù)期結(jié)果至關(guān)重要。為了能驗(yàn)證數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備上線后的連通性,以及路由轉(zhuǎn)發(fā)實(shí)現(xiàn)替代傳統(tǒng)運(yùn)維方式,SDN組網(wǎng)場景下運(yùn)維人員也希望能采用一種自動(dòng)化方式來達(dá)到此種目的。華為iMasterNCE-Fabric控制器可提供單路徑探測和多路徑探測,iMaster務(wù)流,報(bào)文中封裝了正常業(yè)務(wù)流相關(guān)的五元組(源IP、目的IP、源Port、目的文,并結(jié)合實(shí)際鏈路,計(jì)算出探測路徑。技術(shù)和案例單路徑探測使用單路徑探測用戶可以查看兩個(gè)VM之間業(yè)務(wù)流在Fabric內(nèi)的實(shí)際物理路徑,并檢測業(yè)務(wù)流是否存在異常中斷。單路徑探測可以探測虛擬機(jī)之間、物理服務(wù)器查網(wǎng)絡(luò)規(guī)劃的正確性,以及在網(wǎng)絡(luò)發(fā)生故障時(shí)進(jìn)行定位診斷。驟:1.探測報(bào)文的封裝控制器根據(jù)探測的性質(zhì)以及用戶的輸入?yún)?shù)封裝探測報(bào)文??刂破鞲鶕?jù)報(bào)文的五數(shù)據(jù)庫中。3.路徑的解析控制器根據(jù)保存的數(shù)據(jù)和鏈路信息解析路徑,拼接路徑信息。4.路徑的展示探測報(bào)文轉(zhuǎn)發(fā)的路徑信息。3232技術(shù)和案例多路徑探測不同的是多路徑探測需要用戶填寫報(bào)文轉(zhuǎn)發(fā)的個(gè)數(shù),控制器基于報(bào)文個(gè)數(shù)封裝多個(gè)探測路徑上去。徑探測報(bào)文一起上報(bào)給控制器,并將該路徑探測報(bào)文轉(zhuǎn)發(fā)出去。控制器根據(jù)設(shè)備上報(bào)的信息,計(jì)算出流量經(jīng)過的完整路徑。一旦網(wǎng)絡(luò)中發(fā)生流量中斷,運(yùn)維人員可以據(jù)此楚地了解到網(wǎng)絡(luò)中兩個(gè)VTEPIP之間的實(shí)際轉(zhuǎn)發(fā)路徑,未探測到的鏈路以及所鏈接的設(shè)備端口則有故障嫌疑。333技術(shù)和案例某保險(xiǎn)公司數(shù)據(jù)中心網(wǎng)絡(luò)的現(xiàn)狀:SDN和傳統(tǒng)網(wǎng)絡(luò)并存,整網(wǎng)共計(jì)19個(gè)N賴省心FabricInsight7*24小時(shí)的大數(shù)據(jù)分析和運(yùn)維管理,通過健康評估體系,幫助客戶及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)與應(yīng)用問題,如圖5-3所t多次發(fā)現(xiàn)客戶網(wǎng)絡(luò)存在處于亞健康狀態(tài)的光模塊,參考FabricInsight提出的處發(fā)現(xiàn)現(xiàn)網(wǎng)中由于誤操作導(dǎo)致的主控板供電不足等硬件問題,快速排障,保障網(wǎng)絡(luò)應(yīng)用持續(xù)穩(wěn)定運(yùn)行。3434應(yīng)急恢復(fù)的技術(shù)和案例應(yīng)急恢復(fù)的技術(shù)和案例摘要本章主要介紹了智能運(yùn)維在應(yīng)急恢復(fù)場景下的應(yīng)用,包括如何實(shí)現(xiàn)智能智能故障閉環(huán)在數(shù)據(jù)中心網(wǎng)絡(luò)的日常維護(hù)中,非常重要的一項(xiàng)工作就是網(wǎng)絡(luò)故障的快速發(fā)現(xiàn)、的維護(hù)經(jīng)驗(yàn),網(wǎng)絡(luò)中的故障發(fā)現(xiàn)主要通過以下兩種途徑:途徑一:網(wǎng)管系統(tǒng)收集的告警、日志及設(shè)備上報(bào)的統(tǒng)計(jì)數(shù)據(jù)等。通過網(wǎng)管系統(tǒng)告警發(fā)現(xiàn)故障有幾個(gè)顯而易見的問題:335應(yīng)急恢復(fù)的技術(shù)和案例時(shí)效性比較差,網(wǎng)管收集設(shè)備數(shù)據(jù)本身有一定的時(shí)延,管理員在網(wǎng)管系統(tǒng)上發(fā)現(xiàn)得到管理員的關(guān)注和處理。復(fù)雜故障的發(fā)現(xiàn)需要依靠管理員的經(jīng)驗(yàn),通過對多種網(wǎng)管數(shù)據(jù)、指標(biāo)的綜合分析才能最終斷定。由于設(shè)備算法或底層芯片故障導(dǎo)致的流轉(zhuǎn)發(fā)類異常的,目前并無有效的發(fā)現(xiàn)和定位手段,往往需要廠商技術(shù)支持人員現(xiàn)場排查才能準(zhǔn)確判斷。擊導(dǎo)致的異常等等。在傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維模式下,這些網(wǎng)絡(luò)問題往往業(yè)務(wù)上報(bào)故障時(shí)間會(huì)早于網(wǎng)絡(luò)管理員主動(dòng)發(fā)現(xiàn)問題的時(shí)間,而且這類問題的排除定位通常也會(huì)費(fèi)時(shí)費(fèi)在數(shù)據(jù)中心網(wǎng)絡(luò)中,為了能跟上業(yè)務(wù)發(fā)放、變更的高效節(jié)奏,需要具備對網(wǎng)絡(luò)故障快速發(fā)現(xiàn)、定位以及恢復(fù)的能力。這就需要網(wǎng)管運(yùn)維系統(tǒng)除了收集傳統(tǒng)的日志告警類信息外,還需要收集更多的指標(biāo)類、資源類、表項(xiàng)類甚至是會(huì)話交互數(shù)據(jù),同時(shí)還要具備海量數(shù)據(jù)的分析處理能力,并能從海量數(shù)據(jù)中找出故障間的關(guān)聯(lián)線索,實(shí)現(xiàn)快具備恢復(fù)預(yù)案的自動(dòng)生成能力,必要時(shí)這些預(yù)案可實(shí)現(xiàn)一鍵式下發(fā)從而實(shí)現(xiàn)對故障的快速恢復(fù)或隔離。icasterNCEFabric恢復(fù)或隔離。在此過程中iMasterNCE-FabricInsight還可根據(jù)具體故障信息給出對戶展示對應(yīng)預(yù)案下發(fā)后對網(wǎng)絡(luò)或業(yè)務(wù)將產(chǎn)生哪些影響,以便用戶進(jìn)行決策。3636應(yīng)急恢復(fù)的技術(shù)和案例于從設(shè)備獲取的信息,可以通過TCP流異常、告警日志、網(wǎng)絡(luò)監(jiān)控對象的周期性采樣數(shù)據(jù)、周期性探測網(wǎng)絡(luò)連通性這四種方式,來發(fā)現(xiàn)故障:TCP障:iMasterNCE-FabricInsight分析器通過捕獲TCPFlag報(bào)身會(huì)產(chǎn)生告警,并上報(bào)網(wǎng)管或emetry樣數(shù)據(jù),如設(shè)備接口收發(fā)報(bào)文的統(tǒng)計(jì)數(shù)據(jù),光模塊的指標(biāo)數(shù)據(jù),丟包統(tǒng)計(jì)數(shù)據(jù)等。。周期性探測網(wǎng)絡(luò)連通性:對應(yīng)因網(wǎng)絡(luò)可達(dá)性異常導(dǎo)致的故障,iMasterNCE-備管理通道中斷故障。在故障發(fā)現(xiàn)能力的基礎(chǔ)上,通過iMasterNCE-FabricInsight分析器的大數(shù)據(jù)分障根因的判斷準(zhǔn)確性。337應(yīng)急恢復(fù)的技術(shù)和案例338應(yīng)急恢復(fù)的技術(shù)和案例ic控制器根據(jù)發(fā)生的網(wǎng)絡(luò)故障事件,來判斷是否可通過配置手段對故障進(jìn)行修復(fù),如果可行則會(huì)給出相應(yīng)的修復(fù)預(yù)案。用戶在故障事件管理界面中選擇修復(fù)預(yù)案后,iMasterNCEFabric一個(gè)或多個(gè)處理建議,建議包括操作對象和對應(yīng)的影響分析。提供下發(fā)配置的影響分析,運(yùn)維人員可以結(jié)合影響VXLAN25+,10+純運(yùn)維手段已無法滿足客戶日益增大的運(yùn)維需求。智能故障演練,實(shí)現(xiàn)故障1-3-5閉環(huán)恢3939應(yīng)急恢復(fù)的技術(shù)和案例練比賽,演練中隨機(jī)抽簽選取故障case,模擬突破故障方式,比較通過傳統(tǒng)網(wǎng)管定優(yōu)于傳統(tǒng)網(wǎng)管。Fabric的狀態(tài)、應(yīng)440故障根因定位的技術(shù)和案例第7章故障根因定位的技術(shù)和案例摘要故障根因定位數(shù)據(jù)中心網(wǎng)絡(luò)為了提供高可靠和高帶寬,往往被設(shè)計(jì)成用ECMP(EqualCostMultiPath,等價(jià)多路徑)方式轉(zhuǎn)發(fā)流量,此時(shí)會(huì)使節(jié)點(diǎn)間流量經(jīng)由哈希算法選擇路通過網(wǎng)絡(luò)中什么樣的路徑轉(zhuǎn)發(fā)。在接入側(cè),服務(wù)器和網(wǎng)卡的類型眾多,存在對協(xié)議解析和故障根因定位的技術(shù)和案例生異常時(shí),管理員很難快速地進(jìn)行故障定位和排查;數(shù)據(jù)中心網(wǎng)絡(luò)規(guī)模大、配置復(fù)。華為通過iMasterNCE-FabricInsight的大數(shù)據(jù)分析引擎對收集的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行定位算法進(jìn)行處理,以提高故障根因的判斷準(zhǔn)確性。通過TCP流異常發(fā)現(xiàn)的故障定位邏輯如圖7-1所示,iMasterNCE-FabricInsight分析器通過設(shè)備實(shí)時(shí)上送的TCP建鏈報(bào)文,對TCP會(huì)話狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控。當(dāng)發(fā)現(xiàn)有TCP鏈接異常事件發(fā)生時(shí), “知識(shí)推理引擎”根據(jù)建鏈異常流量的發(fā)生位置,對該設(shè)備上故障時(shí)刻和此前正常時(shí),然后給出故障根因。4242故障根因定位的技術(shù)和案例故障定位邏輯有兩種:第一種是告警可以直接定位問題根因的,例如設(shè)備資源超閾值類告警,設(shè)備上報(bào)CPU不是其他故障發(fā)生后引發(fā)的連鎖反應(yīng),這種問題的根因定位比較復(fù)雜,傳統(tǒng)網(wǎng)絡(luò)對于這類問題的排障通常頗費(fèi)理引擎。譜”推理引擎:“知識(shí)圖譜”推理引擎通過構(gòu)建故障在網(wǎng)絡(luò)對象間的傳播方式,對故443故障根因定位的技術(shù)和案例模,確定網(wǎng)絡(luò)對象間的依賴關(guān)系。在收到設(shè)備產(chǎn)生的告警時(shí),iMasterNCE-FabricInsight分析器基于知識(shí)圖譜進(jìn)行故障溯源,定位出故障的真正原因所如圖7-3所示,為知識(shí)圖譜在“接口故障導(dǎo)致BGPPeer會(huì)話故障”中的應(yīng)用舉時(shí),會(huì)根據(jù)知識(shí)圖譜查找該BGPPeer綁定的BGP進(jìn)程,并進(jìn)一步查找承載該BGP在L3接口的狀態(tài)異常,最終根據(jù)知識(shí)圖譜確認(rèn)為轉(zhuǎn)對象的周期性采樣數(shù)據(jù)故障

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論