云平臺下存儲運維的變革與實踐_第1頁
云平臺下存儲運維的變革與實踐_第2頁
云平臺下存儲運維的變革與實踐_第3頁
云平臺下存儲運維的變革與實踐_第4頁
云平臺下存儲運維的變革與實踐_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

現(xiàn)有運維體系的建設(shè)現(xiàn)狀隨著銀行數(shù)字化轉(zhuǎn)型升級進程的加快,IT系統(tǒng)架構(gòu)越來越復(fù)雜,軟件更新迭代越來越快。銀行信息化建設(shè)中的大量業(yè)務(wù)和數(shù)據(jù)需要依靠信息系統(tǒng)來完成,這使得構(gòu)建穩(wěn)定可用的IT系統(tǒng)成為業(yè)務(wù)發(fā)展的基礎(chǔ)條件,而IT運維管理也隨之成為銀行信息化建設(shè)的重要環(huán)節(jié)。近年來,因為IT系統(tǒng)突然出現(xiàn)故障導(dǎo)致業(yè)務(wù)癱瘓甚至造成巨額損失的現(xiàn)象頻出不窮。而銀行大型數(shù)據(jù)中心由于對系統(tǒng)、數(shù)據(jù)的高度依賴,IT風(fēng)險更大,對IT運維管理的重視也就更高。在銀行IT基礎(chǔ)架構(gòu)層中最重要的就是存儲設(shè)備,存儲最基本的功能就是對外提供高可靠、高性能的數(shù)據(jù)存取能力。完善的存儲運維不僅要對所有IT系統(tǒng)以數(shù)據(jù)容量超PB級別的快速精準(zhǔn)管理,更要面對年增長超20%的設(shè)備/容量增長,不僅包括SAN/NAS/IPSAN,更包括上千個SAN端口、異構(gòu)設(shè)備的挑戰(zhàn),時刻面對呈指數(shù)級增長的應(yīng)用的壓力。就當(dāng)前的現(xiàn)狀來看,基于存儲的復(fù)制,系統(tǒng)恢復(fù)仍然需要較長時間,高可用方案,包括存儲層面的高可用,OS層的卷鏡像,Oracle的ASM,基于應(yīng)用的復(fù)制方案等,管理上也更復(fù)雜。云平臺下運維的變革隨著云計算、大數(shù)據(jù)以及新興的區(qū)塊鏈等技術(shù)體系的迅猛發(fā)展,數(shù)據(jù)中心的擴容建設(shè)進入高峰期,云數(shù)據(jù)中心運維需求應(yīng)運而生。傳統(tǒng)的運維直接接觸硬件,如服務(wù)器、存儲設(shè)備和網(wǎng)絡(luò)設(shè)備;但是在云數(shù)據(jù)中心時代,運維已經(jīng)從面向物理設(shè)備,轉(zhuǎn)變?yōu)槊嫦蛱摂M化、云的管理方式。因此,云平臺下的運維提出了新的能力要求——不僅要熟悉傳統(tǒng)硬件設(shè)備,同時要掌握虛擬化、云系統(tǒng)的部署、監(jiān)控和管理等運維能力。存儲系統(tǒng)作為IT基礎(chǔ)設(shè)施的主要部件,也在探索如何利用AI技術(shù)提升其各項能力。銀行的業(yè)務(wù)千差萬別,而不同的業(yè)務(wù)對可靠性、性能的需求也不盡相同。為滿足這些需求,存儲設(shè)備提供了不同的介質(zhì)、緩存、特性選項。如何合理配置這些選項,實現(xiàn)存儲設(shè)備的最大化利用,就成為了云平臺存儲運維復(fù)雜性的重要來源。云平臺下存儲運維實踐1.存儲選型:針對云下存儲,首先需要劃定對接不同業(yè)務(wù)類型的存儲服務(wù)。交易類服務(wù)器:裸機+FCSAN,適用于核心交易類、數(shù)據(jù)庫類應(yīng)用,要求極致高性能的傳統(tǒng)關(guān)鍵應(yīng)用;OpenStack云平臺:1)集中式塊存儲資源池:對接裸金屬服務(wù)器和KVM云主機;2)分布式塊存儲資源池:對接KVM云主機;3)分布式對象存儲資源池;容器平臺:1)分布式塊存儲資源池:對接無狀態(tài)容器主機;2)集中式文件資源池:對接有狀態(tài)高性能容器需求;大數(shù)據(jù)平臺:使用服務(wù)器本地盤,存算分離場景使用對象存儲;數(shù)據(jù)共享與交換:1)集中式NAS用于文件共享、票據(jù)影像等小文件場景,性能更優(yōu);2)分布式NAS:用于視頻監(jiān)控、HPC等大文件場景;數(shù)據(jù)備份:1)分布式對象存儲池:用于存儲數(shù)據(jù)在線備份;2)磁帶庫或藍(lán)光存儲:用于存儲數(shù)據(jù)離線歸檔;如圖1所示。圖1:不同業(yè)務(wù)類型的存儲方案2.基于應(yīng)用感知的存儲運維優(yōu)化通過存儲設(shè)備內(nèi)置的控制器、緩存、盤等使用情況去實時感知應(yīng)用的特征、存儲的性能、消耗的資源等數(shù)據(jù),并基于獲取的海量實時數(shù)據(jù)的進行數(shù)據(jù)分析、挖掘、建模和預(yù)測,準(zhǔn)確的判斷出應(yīng)用的業(yè)務(wù)特點和行為模式,也就是應(yīng)用的“DNA”。在后期新業(yè)務(wù)或者未知業(yè)務(wù)的識別和分析中,通過業(yè)務(wù)特有的“DNA”,便可準(zhǔn)確獲知其應(yīng)用類型(如OLTP、OLAP、文件共享、VDI等)。更進一步,基于長周期序列數(shù)據(jù)的分析和預(yù)測,存儲可以預(yù)測應(yīng)用性能需求的峰值和低谷,甚至是某個時刻的具體IOPS值,以及應(yīng)用的趨勢變化。例如,以應(yīng)用讀寫的IO大小分布作為橫坐標(biāo),時間作為縱坐標(biāo),顏色深淺表示所占比例大小,可畫出應(yīng)用在一個業(yè)務(wù)周期內(nèi)IO大小的熱力圖。將不同應(yīng)用若干天的熱力圖放在一起比較,可以清晰的看到不同應(yīng)用的特征區(qū)別顯著,而同一個應(yīng)用特征相對穩(wěn)定,如下圖(圖2)所示。顯而易見,通過這些特征可以準(zhǔn)確區(qū)分出不用應(yīng)用。圖2:不同應(yīng)用業(yè)務(wù)周期內(nèi)IO大小熱力圖具備了感知應(yīng)用的能力,在云環(huán)境中就可以清楚的知道運行在不同存儲上的應(yīng)用類型。而基于應(yīng)用的特征,配合存儲設(shè)備內(nèi)置的接口,來調(diào)整和優(yōu)化存儲的配置、參數(shù)、前臺特性、后臺任務(wù)等等,最終保障應(yīng)用高效,平穩(wěn)地運行。3.提前預(yù)警和快速消除隱患通過設(shè)備隱患的主動識別和提前預(yù)防,提高系統(tǒng)的穩(wěn)定性和數(shù)據(jù)的可靠性,是每個銀行云平臺存儲運維人都十分關(guān)心的內(nèi)容。故障預(yù)測:整個存儲系統(tǒng)是各類子硬件模塊如控制器、盤、接口卡、緩存和軟件構(gòu)成的復(fù)雜系統(tǒng),每個部件都有可能出現(xiàn)故障,從而影響整個系統(tǒng)的穩(wěn)定性。雖然存儲系統(tǒng)做了很多的容錯機制,如不同類型的RAID,陣列雙活等,防止出現(xiàn)數(shù)據(jù)不可用或數(shù)據(jù)丟失等情況,但是若能提前獲知某個部件即將發(fā)生故障,如硬盤的失效,通過硬盤的SMART信息,學(xué)習(xí)硬盤在失效前的模式,構(gòu)建機器學(xué)習(xí)模型,提前預(yù)測出故障盤,及時進行更換,可極大程度避免由于多盤故障導(dǎo)致的數(shù)據(jù)丟失問題?;谠贫说闹悄艽鎯\維,通過收集大量的存儲上報信息,可實時獲知每個陣列設(shè)備的健康狀態(tài)。當(dāng)發(fā)生故障時,云端ML/AL可以迅速進行根因分析,指導(dǎo)故障修復(fù),同時總結(jié)故障指紋,立即在全網(wǎng)積極排查,避免同類故障在其它局點出現(xiàn)。系統(tǒng)瓶頸識別:基于歷史數(shù)據(jù)對存儲設(shè)備的運行情況進行預(yù)測,如容量和性能的預(yù)測,給出建議。可以清楚業(yè)務(wù)在未來一段時間的容量和性能需求,并提前進行相應(yīng)的擴容或SLA(ServiceLevelAgreement)等級調(diào)整等工作,避免臨時出現(xiàn)資源不足導(dǎo)致的生產(chǎn)事故。4.主動識別并準(zhǔn)確定位問題大部分情況下,當(dāng)存儲設(shè)備出現(xiàn)故障時,往往都有一些異常征兆:如控制器CPU占用率上升,或許是短時間內(nèi)大量告警日志。若這些異常能夠被提前預(yù)警,將會極大提升云下存儲系統(tǒng)可靠性,降低運維風(fēng)險。對于云下存儲設(shè)備來說,需要識別的異常有兩類,一類是KPI(KeyPerformanceIndicator)異常,如CPU占用率、時延、IOPS、帶寬等指標(biāo)異常;另一類是日志異常,如異常打印。KPI異常通常分為三類:點異常(Pointanomalies),上下文異常(Contextureanomalies)和群集異常(Collectiveanomalies)。點異常和上下文異常較好理解,群集異常略顯復(fù)雜。例如,在存儲設(shè)備中,通??刂破鞯腃PU利用率會隨著IOPS的增高或后臺任務(wù)的增多而增高,當(dāng)IOPS以及后臺任務(wù)不變的情況下,CPU利用率增高(但尚未到達(dá)告警的閾值),這就是一個群集異?,F(xiàn)象。識別這類異常的方法很多,簡單的方法是基于規(guī)則,通過設(shè)定閾值來檢測。但是,當(dāng)監(jiān)控指標(biāo)很多,業(yè)務(wù)特征很復(fù)雜時,管理這些規(guī)則和閾值就成了不可完成的任務(wù)。更智能的方法,是利用傳統(tǒng)的ARIMA、Holtwinter方法,或LSTM,CNN等深度學(xué)習(xí)方法,學(xué)習(xí)出預(yù)測模型,監(jiān)控預(yù)測值與實際值的偏差;或者通過最近鄰、聚類和馬爾科夫鏈等方法直接找出異常點。日志異常:日志類的異常檢測在運維已有不少成功的先例。其核心思想如下:通過分析大量日志,將類似的日志標(biāo)記為一個事件。通過學(xué)習(xí)正常日志來歸納總結(jié)這些事件的正常模式。當(dāng)系統(tǒng)發(fā)生異常,產(chǎn)生不正常的日志時,就可判斷出這時的事件發(fā)生模式有異常,可將其標(biāo)記為不正常的時間段,如圖3所示。圖3:機器學(xué)習(xí)在問題定位中的應(yīng)用監(jiān)控升級,云存儲運維向AIOps演進隨著堆棧變得越來越復(fù)雜和關(guān)鍵,在云平臺存儲運維流程建立完備后,需要整體的AIOps的功能。特別是在云下混合、虛擬化和異構(gòu)環(huán)境中,應(yīng)用于基礎(chǔ)設(shè)施性能管理(IPM)的AIOps能夠有效地確保最佳性能,可以監(jiān)督業(yè)務(wù)關(guān)鍵型面向客戶的應(yīng)用程序的運行狀況和利用率,能夠在數(shù)據(jù)中心基礎(chǔ)設(shè)施中出現(xiàn)任何潛在阻塞或延遲問題之前提供警報。未來存儲監(jiān)控平臺可結(jié)合整體智能運維分層立體的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論