版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
備豐富的運(yùn)維平臺(tái)產(chǎn)品建設(shè)經(jīng)驗(yàn);了云技術(shù)快速發(fā)展的關(guān)鍵時(shí)期,有從云平臺(tái)底層到業(yè)務(wù)最教育、泛娛樂等行業(yè)客戶,基于客戶業(yè)務(wù)打造托管式的云上智能運(yùn)維解決方案,擅長(zhǎng)用云最佳實(shí)踐、產(chǎn)品管理、研發(fā)管理、業(yè)務(wù)重保、疑難問題攻堅(jiān)等。多角度洞察運(yùn)維痛點(diǎn)企業(yè)演進(jìn)過程中運(yùn)維解決之道阿里集團(tuán)用云最佳實(shí)踐企業(yè)運(yùn)維平臺(tái)的未來多角度洞察運(yùn)維痛點(diǎn)企業(yè)演進(jìn)過程中運(yùn)維解決之道阿里集團(tuán)用云最佳實(shí)踐企業(yè)運(yùn)維平臺(tái)的未來農(nóng)業(yè)時(shí)代蒸汽時(shí)代工業(yè)時(shí)代智能時(shí)代維本運(yùn)維當(dāng)企業(yè)IT系統(tǒng)發(fā)展到一定規(guī)模后,就會(huì)了一小部分場(chǎng)景邏輯,使用shell來實(shí)現(xiàn)一蒸汽時(shí)代。自動(dòng)化運(yùn)維工具和平臺(tái)大幅度提升人力成本不斷提高,漸漸地對(duì)于重型信問題判斷依賴經(jīng)驗(yàn)運(yùn)維資源不足腳本適用范圍小缺少數(shù)據(jù)量化支撐標(biāo)準(zhǔn)化程度低根因分析操作對(duì)事件影響不明問題判斷依賴經(jīng)驗(yàn)運(yùn)維資源不足腳本適用范圍小缺少數(shù)據(jù)量化支撐標(biāo)準(zhǔn)化程度低根因分析操作對(duì)事件影響不明知識(shí)體系轉(zhuǎn)移較慢趨勢(shì)預(yù)測(cè)知識(shí)復(fù)用性低企業(yè)對(duì)IT系統(tǒng)依賴度高運(yùn)維穩(wěn)定性差農(nóng)業(yè)時(shí)代蒸汽時(shí)代工業(yè)時(shí)代智能時(shí)代維本運(yùn)維機(jī)機(jī)器學(xué)習(xí)無無法自動(dòng)運(yùn)維依依靠人力運(yùn)維故障畫像故障畫像多角度洞察運(yùn)維痛點(diǎn)企業(yè)演進(jìn)過程中運(yùn)維解決之道阿里集團(tuán)用云最佳實(shí)踐企業(yè)運(yùn)維平臺(tái)的未來應(yīng)用架構(gòu)師云平臺(tái)架構(gòu)師應(yīng)用開發(fā)應(yīng)用運(yùn)維專業(yè)運(yùn)維CB資源供給部署監(jiān)控與可觀察性運(yùn)維操作與自動(dòng)化可靠性與可恢復(fù)性應(yīng)用架構(gòu)師云平臺(tái)架構(gòu)師應(yīng)用開發(fā)應(yīng)用運(yùn)維專業(yè)運(yùn)維CB資源供給部署監(jiān)控與可觀察性運(yùn)維操作與自動(dòng)化可靠性與可恢復(fù)性合規(guī)與運(yùn)維風(fēng)控CC云上應(yīng)用如何運(yùn)維?風(fēng)險(xiǎn)識(shí)別、防護(hù)、檢測(cè)、評(píng)估和處置業(yè)務(wù)監(jiān)控的意義故障導(dǎo)致公司資金損失客戶流失還可能產(chǎn)生社會(huì)輿情及群體事件故障導(dǎo)致公司資金損失客戶流失還可能產(chǎn)生社會(huì)輿情及群體事件PP1P2故障故障發(fā)現(xiàn)時(shí)長(zhǎng)故障持續(xù)時(shí)長(zhǎng) 監(jiān)控發(fā)現(xiàn)分鐘級(jí)分鐘級(jí)*4用戶上報(bào)為何選擇業(yè)務(wù)監(jiān)控發(fā)現(xiàn)故障??相比其他監(jiān)控,對(duì)公司核心業(yè)務(wù)指標(biāo)進(jìn)行監(jiān)控,更易發(fā)現(xiàn)業(yè)務(wù)異常異常發(fā)生歷年故障分析監(jiān)控發(fā)現(xiàn)恢復(fù)時(shí)長(zhǎng)遠(yuǎn)小于非監(jiān)控發(fā)現(xiàn)監(jiān)控對(duì)于故障快速恢復(fù)非常重要付款成功量異常監(jiān)控SSK據(jù)源采集SLS監(jiān)控系統(tǒng)agent據(jù)源采集SLS監(jiān)控系統(tǒng)agent Reduce 訂閱管理 報(bào)警網(wǎng)關(guān)智能監(jiān)控報(bào)警規(guī)則業(yè)務(wù)監(jiān)控技術(shù)方案?調(diào)度10萬+核計(jì)算資源,提供分鐘級(jí)百T日志處理能力,存儲(chǔ)億級(jí)監(jiān)控項(xiàng)業(yè)務(wù)監(jiān)控平臺(tái)IHbaseWeb數(shù)據(jù)流任務(wù)流業(yè)務(wù)監(jiān)控-指標(biāo)自定義采集配置路徑詳細(xì)篩選統(tǒng)計(jì)簡(jiǎn)單直觀的反映監(jiān)控指標(biāo)代表含義?日志文件完整路徑?增量采集線上等壓測(cè)標(biāo)業(yè)務(wù)邏輯業(yè)務(wù)結(jié)果錯(cuò)誤碼列-多維度?關(guān)鍵字段前后有明確標(biāo)識(shí)分割(如|)?以上篩選能力一般是基于具體業(yè)務(wù)需要場(chǎng)景組合使用故障場(chǎng)景業(yè)務(wù)體量則業(yè)務(wù)等級(jí)…故障場(chǎng)景業(yè)務(wù)體量則業(yè)務(wù)等級(jí)…淘寶交易創(chuàng)建–量大穩(wěn)定菜鳥倉儲(chǔ)操作–波動(dòng)穩(wěn)定餓了么退款申請(qǐng)–量少?量大,周期趨勢(shì)穩(wěn)定?故障等級(jí):異常下跌5%觸發(fā)故障?量中等有抖動(dòng),周期趨勢(shì)穩(wěn)定?故障等級(jí):異常下跌15%持續(xù)3分鐘觸發(fā)故障?場(chǎng)景相對(duì)簡(jiǎn)單,成功失敗原因均明確?量少,無周期趨勢(shì)?故障等級(jí):持續(xù)5分鐘成功率低于80%?場(chǎng)景相對(duì)簡(jiǎn)單,成功失敗原因均明確?成功量8-22點(diǎn)環(huán)比下跌超過2%?或成功量22-8點(diǎn)2分鐘求和環(huán)比下跌超過3%警?成功量3分鐘求和環(huán)比下跌10%且成功量3分鐘求和昨天同比下跌10%且成功量3分鐘求和上周同比下跌10%?或成功率持續(xù)2分鐘小于95%?成功率持續(xù)3分鐘低于90%且失敗量持續(xù)3分鐘大于5?或成功量持續(xù)3分鐘為0(兜底入口異常無失敗量)?不宜配置成功量波動(dòng)報(bào)警注:上述配置閾值,均為示意值。周周期趨勢(shì)業(yè)務(wù)等級(jí)高,全站交易核心業(yè)務(wù)故障場(chǎng)景下跌3%就觸發(fā)故障業(yè)務(wù)體量大,趨勢(shì)穩(wěn)定波動(dòng)小STL實(shí)現(xiàn)方案不同業(yè)態(tài)曲線的特征有較大差異?STL實(shí)現(xiàn)方案不同業(yè)態(tài)曲線的特征有較大差異?數(shù)量級(jí)?局部波動(dòng)程度?周期面臨挑戰(zhàn)對(duì)外部干擾對(duì)外部干擾不同業(yè)態(tài)的異常判定標(biāo)準(zhǔn)有較大差異?線上業(yè)務(wù)(游戲).vs.線下業(yè)務(wù)(新零售)智能監(jiān)控-實(shí)際效果監(jiān)控報(bào)警核心指標(biāo)準(zhǔn)確準(zhǔn)確率取決于監(jiān)控報(bào)警配置質(zhì)量01取決監(jiān)取決監(jiān)控覆蓋及報(bào)警質(zhì)量決定異常是否能被監(jiān)控發(fā)現(xiàn)重大故障>=90%一般故障>=70%02召回率報(bào)警報(bào)警量取決于合理訂閱及準(zhǔn)確率03多角度洞察運(yùn)維痛點(diǎn)企業(yè)演進(jìn)過程中運(yùn)維解決之道阿里集團(tuán)用云最佳實(shí)踐企業(yè)運(yùn)維平臺(tái)的未來上云歷程集團(tuán)上云三個(gè)階段:彈性上云核心系統(tǒng)上云全面上云在每個(gè)階段集團(tuán)上云解決的問題和核心關(guān)注點(diǎn)都是有差異的。同時(shí)在每個(gè)階段達(dá)成具有里程碑意義的上云案例。22017~2019彈性連續(xù)3年完美支撐雙十一購物22019~2020核心系統(tǒng)上云22020~全面上云BU業(yè)務(wù)考拉餓了么高德優(yōu)酷等100%上云極致彈性,SP模式引入集團(tuán)?基于飛天技術(shù)服務(wù)平臺(tái)(Apsara?基于飛天技術(shù)服務(wù)平臺(tái)(ApsaraServiceStack)CloudDoc/Advisor模塊能力進(jìn)行云平臺(tái)風(fēng)險(xiǎn)巡檢并前置治理風(fēng)險(xiǎn)。?重保期云平臺(tái)針對(duì)性封網(wǎng)管控及變?nèi)W(wǎng)更評(píng)審臺(tái)集群水位評(píng)估與管控。騰挪。?利用單元壓測(cè)摸排各模塊性能瓶頸,并完成容?利用全鏈路壓測(cè)方式驗(yàn)證系統(tǒng)整體并發(fā)能力是?對(duì)系統(tǒng)全鏈路性能瓶頸點(diǎn)做性能調(diào)優(yōu)。北京冬奧累計(jì)壓測(cè)奧運(yùn)相關(guān)項(xiàng)目數(shù)十個(gè)子模塊,數(shù)百保證關(guān)鍵系統(tǒng)并發(fā)性能識(shí)別云基礎(chǔ)設(shè)施潛在風(fēng)險(xiǎn)?按問題場(chǎng)景梳理準(zhǔn)備應(yīng)急預(yù)案73項(xiàng),覆蓋云上數(shù)據(jù)和中間件等8個(gè)產(chǎn)品垂直線方向。超限和管控異常等不同問題的應(yīng)急處理。?主要產(chǎn)品釘群機(jī)器人35類核心告警處理預(yù)案。演練。?主管單位、冬奧組委和各廠商安全情報(bào)協(xié)同處?冬奧重保期間蜜罐捕獲請(qǐng)求數(shù)千次,惡意請(qǐng)求賽事問題快速恢復(fù)構(gòu)建縱深防護(hù)體系奧業(yè)務(wù)連續(xù)性保障方案云平臺(tái)基礎(chǔ)設(shè)施容災(zāi)能力驗(yàn)證,如負(fù)載均衡SLB多可用冗余驗(yàn)證,RDS數(shù)據(jù)庫HA切換驗(yàn)切能力。?釘群機(jī)器人主要產(chǎn)品核心告警項(xiàng)目35項(xiàng),重保期核心告警主動(dòng)處理41次,避免風(fēng)險(xiǎn)擴(kuò)大。?利用資源Grafana監(jiān)控大屏按照top異常資源觀察和匯總異常實(shí)例資源信息,做到全局實(shí)施觀限治理基于業(yè)務(wù)和組織進(jìn)行云上資源的身份管理和授權(quán)規(guī)范?根據(jù)組織架構(gòu)對(duì)云資源進(jìn)行分組,并以云上用戶組為最小?權(quán)限越界訪問用戶數(shù)審計(jì)?授權(quán)失敗審計(jì)?未在指定時(shí)間登錄的用戶數(shù)審計(jì)?未配置強(qiáng)制多的因子認(rèn)證的用戶數(shù)審計(jì)?根據(jù)組織架構(gòu)對(duì)云資源進(jìn)行分組,并以云上用戶組為最小?云上用戶組在信息系統(tǒng)運(yùn)行不同階段權(quán)限的治理?制定訪問管理流程?配置審計(jì)進(jìn)行持續(xù)合規(guī)審計(jì)?云安全中心進(jìn)行持續(xù)合規(guī)審計(jì)BeijingBeijing2022總體賬號(hào)設(shè)計(jì)用用戶權(quán)限訪問控制流程 信息系統(tǒng)運(yùn)行不同階段權(quán)限治理Beijing2Beijing2022云上安全產(chǎn)品安全產(chǎn)品WAFAnti-DDoS(BGP)Anti-DDoS(國際)加密服務(wù)堡壘機(jī)云安全中心墻人機(jī)驗(yàn)證數(shù)據(jù)庫審計(jì)理基于豐富的阿里云安全標(biāo)準(zhǔn)化產(chǎn)品巡檢發(fā)現(xiàn)問題,進(jìn)行資產(chǎn)與數(shù)據(jù)的安全治理?所有已部署的資產(chǎn)必須按照重要程度和數(shù)據(jù)敏感性進(jìn)行分類?在可以批準(zhǔn)并實(shí)現(xiàn)足夠的安全和治理要求之前,無法將任何使云?任何包含受保護(hù)數(shù)據(jù)的段中提升權(quán)限都應(yīng)屬于異常SLSSLSAuditCenter?依托SSL保證數(shù)據(jù)傳輸過程的安全性,依托KMS、加密服務(wù)對(duì)提取操作進(jìn)行合規(guī)審計(jì)監(jiān)測(cè)方案全過程安全防護(hù)保障基于強(qiáng)大的安全服務(wù)團(tuán)隊(duì)保障賽前賽中賽后的全過程零安全事件全全生命周期默認(rèn)安全建設(shè)全全面風(fēng)險(xiǎn)評(píng)估和安全驗(yàn)證安安全責(zé)任有效區(qū)分落地情情報(bào)協(xié)同與應(yīng)急預(yù)案飛天技術(shù)服務(wù)平臺(tái)飛天技術(shù)服務(wù)平臺(tái)-CloudDoc/Advisor運(yùn)維機(jī)器人術(shù)機(jī)器人學(xué)習(xí)特征庫算歷史分析數(shù)據(jù)模式匹配模型訓(xùn)練多云聯(lián)動(dòng)分析OPENAPI可視化大盤控制臺(tái)云監(jiān)控?cái)?shù)據(jù)操作系統(tǒng)級(jí)別數(shù)據(jù)用戶業(yè)務(wù)日志數(shù)據(jù)用戶平臺(tái)操作數(shù)據(jù)數(shù)據(jù)源(租戶層、業(yè)務(wù)層)具平臺(tái)支撐云基礎(chǔ)設(shè)施全景大屏業(yè)務(wù)信息系統(tǒng)全景大屏數(shù)十個(gè)云上系統(tǒng)的數(shù)百個(gè)關(guān)鍵指標(biāo)的全景觀測(cè)云基礎(chǔ)設(shè)施全景大屏業(yè)務(wù)信息系統(tǒng)全景大屏全景作戰(zhàn)大屏全景作戰(zhàn)大屏冬奧某業(yè)務(wù)系統(tǒng)突發(fā)冬奧某業(yè)務(wù)系統(tǒng)突發(fā)業(yè)務(wù)異常應(yīng)急踐業(yè)務(wù)業(yè)務(wù)訪問異常③算法多維度根因分析④NLP以及時(shí)序數(shù)據(jù)實(shí)現(xiàn)定界⑤專家經(jīng)驗(yàn)自動(dòng)化根因下鉆⑥時(shí)序數(shù)據(jù)清洗分析,定位根因⑦提供問題處理建議&解決方案②算法實(shí)時(shí)動(dòng)態(tài)檢測(cè)①業(yè)務(wù)異常發(fā)生算法時(shí)序監(jiān)測(cè)ODS-DFV業(yè)務(wù)指標(biāo)異常源站對(duì)應(yīng)時(shí)間點(diǎn)有變更發(fā)布操作源站業(yè)務(wù)5xx比例與WAF側(cè)一致推導(dǎo)根因可能由于源站異常導(dǎo)致發(fā)布過程出現(xiàn)java內(nèi)存占用異常,導(dǎo)致java進(jìn)程崩潰解決方案及高可用建議診流程根據(jù)阿里巴巴多年運(yùn)維沉淀以及阿里云專家經(jīng)驗(yàn),使用不同數(shù)據(jù)流和習(xí)模型快速生成正常的應(yīng)用程序模式和行為。根因下鉆使用機(jī)器學(xué)習(xí)算法,將監(jiān)控項(xiàng)異常與以實(shí)時(shí)產(chǎn)出或者前瞻性的產(chǎn)出處理建議。明確資源授權(quán)及業(yè)務(wù)各項(xiàng)監(jiān)控核心指標(biāo)集成告警配置,相關(guān)產(chǎn)品配置項(xiàng)和第三方事件管理服務(wù)。通過數(shù)據(jù)接入自動(dòng)繪制資源架構(gòu)拓策略利用監(jiān)控和應(yīng)急體系保障穩(wěn)定性,活前完成高可用性方面演練策略利用監(jiān)控和應(yīng)急體系保障穩(wěn)定性,活前完成高可用性方面演練模塊化和全局接口可調(diào)用性量預(yù)置和性能調(diào)優(yōu)進(jìn)行治理從云上冬奧到大型活動(dòng)保障量資源預(yù)留調(diào)度,深度性能優(yōu)化統(tǒng)復(fù)雜度和內(nèi)部組織協(xié)同復(fù)雜度對(duì)大數(shù)據(jù)處理能力要求高大型活動(dòng)需要確保零故障,對(duì)整體穩(wěn)定性及應(yīng)急預(yù)案要求極高多角度洞察運(yùn)維痛點(diǎn)企業(yè)演進(jìn)過程中運(yùn)維解決之道阿里集團(tuán)用云最佳實(shí)踐企業(yè)運(yùn)維平臺(tái)的未來運(yùn)維平臺(tái)的發(fā)展趨勢(shì)企業(yè)圍繞應(yīng)用、云服務(wù)、云平臺(tái)、基礎(chǔ)設(shè)施構(gòu)建可觀測(cè)、可自動(dòng)化智能化運(yùn)維全新的云運(yùn)營、云工具策略和云運(yùn)維模式成為必然趨勢(shì).Gartner2022IT運(yùn)維與云管關(guān)鍵趨勢(shì)指出t要新的運(yùn)營和工具策略不可變基礎(chǔ)設(shè)施和基礎(chǔ)設(shè)施即代碼不可變基礎(chǔ)設(shè)施和基礎(chǔ)設(shè)施即代碼(IaC)作為應(yīng)用程序操作和工具的核心原則。程序操作和工具的核心原則。使用云”LandingZones”以增強(qiáng)管理和治理的最佳實(shí)踐4、對(duì)可觀察性和效率的需求不斷增長(zhǎng)會(huì)4、對(duì)可觀察性和效率的需求不斷增長(zhǎng)會(huì)可觀察性(observability)是一個(gè)屬性而不是過程最小化、持續(xù)的投資AIOPS組合來獲取即時(shí)價(jià)值這是云運(yùn)維的基礎(chǔ)使用DevOps和開發(fā)實(shí)踐使自動(dòng)化成為IT和業(yè)務(wù)的彈性基礎(chǔ)。稱為持續(xù)基礎(chǔ)架構(gòu)自動(dòng)化(CIA)。使用策略即代碼(PaC)來加強(qiáng)安全性和合規(guī)性?自動(dòng)化事件管理?通過變更管理平衡速度和風(fēng)險(xiǎn)?去中心化的配置管理?LandingZone??LandingZone?云遷移咨詢?數(shù)據(jù)庫遷移?云原生遷移改造?數(shù)據(jù)中臺(tái)建設(shè)?大數(shù)據(jù)平臺(tái)建設(shè)架構(gòu)設(shè)計(jì)數(shù)倉設(shè)計(jì)??GTS服務(wù)介紹阿里云GTS部門(GlobalTechnicalService)通過多種服務(wù)方案組合幫助您在企業(yè)數(shù)字化轉(zhuǎn)型全生命周
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年(全新版)中國沉香市場(chǎng)發(fā)展現(xiàn)狀及前景規(guī)劃研究報(bào)告
- 2025-2030年(全新版)中國住宅產(chǎn)業(yè)化行業(yè)發(fā)展?fàn)顩r規(guī)劃研究報(bào)告
- 2025-2030年中國高效智能換熱機(jī)組行業(yè)發(fā)展現(xiàn)狀及投資策略預(yù)測(cè)研究報(bào)告
- 二零二五年度房產(chǎn)股東合作協(xié)議書范本(含利潤分成)3篇
- 二零二五年度9A文勞務(wù)合作協(xié)議書(綠色環(huán)保工程專版)3篇
- 公交站點(diǎn)電動(dòng)汽車充電服務(wù)考核試卷
- 2025年度合伙退出合同:股權(quán)回購與收益分配協(xié)議
- 塑料制品在包裝機(jī)械中的應(yīng)用考核試卷
- 保險(xiǎn)營銷策略與渠道拓展考核試卷
- 2025-2030全球有機(jī)油田緩蝕劑行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 【公開課】同一直線上二力的合成+課件+2024-2025學(xué)年+人教版(2024)初中物理八年級(jí)下冊(cè)+
- GB/T 10752-2005船用鋼管對(duì)焊接頭
- 酒店婚宴銷售年度工作計(jì)劃4篇
- 健康教育工作考核記錄表
- 裝飾工程施工技術(shù)ppt課件(完整版)
- SJG 05-2020 基坑支護(hù)技術(shù)標(biāo)準(zhǔn)-高清現(xiàn)行
- 汽車維修價(jià)格表
- 10KV供配電工程施工組織設(shè)計(jì)
- 終端攔截攻略
- 藥物外滲處理及預(yù)防【病房護(hù)士安全警示教育培訓(xùn)課件】--ppt課件
評(píng)論
0/150
提交評(píng)論