運(yùn)維思路課件_第1頁
運(yùn)維思路課件_第2頁
運(yùn)維思路課件_第3頁
運(yùn)維思路課件_第4頁
運(yùn)維思路課件_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

運(yùn)維職責(zé)什么是運(yùn)維?運(yùn)維職責(zé)互聯(lián)網(wǎng)運(yùn)維工作始終以服務(wù)為中心,以保證產(chǎn)品的穩(wěn)定、安全、高效運(yùn)行為目標(biāo)?指產(chǎn)品向用戶提供服務(wù)的可用性、準(zhǔn)確性、完整性,訪問速度及用戶體驗符合產(chǎn)品的設(shè)計與預(yù)期穩(wěn)定?指產(chǎn)品運(yùn)行在安全,可控的狀態(tài)下,包括用戶訪問安全,抵御惡意攻擊,網(wǎng)絡(luò)故障,數(shù)據(jù)安全等抗風(fēng)險能力符合產(chǎn)品的服務(wù)要求安全?指系統(tǒng)運(yùn)營的效率、以較小的資源投入帶來最大的用戶價值,如單機(jī)負(fù)載、資源利用率、數(shù)據(jù)傳輸效率、更新周期等高效運(yùn)維職責(zé)運(yùn)維的工作有哪些?運(yùn)維工作系統(tǒng)運(yùn)維

IDC、網(wǎng)絡(luò)、CDN和基礎(chǔ)設(shè)施(lvs,ntp,dns等)建設(shè)、資產(chǎn)管理平臺和服務(wù)器采購、安裝、上架和維修應(yīng)用運(yùn)維

日常業(yè)務(wù)運(yùn)維工作,參與服務(wù)變更、監(jiān)控、容災(zāi)和數(shù)據(jù)備份,每日服務(wù)排查,故障應(yīng)急處理以及常規(guī)運(yùn)維工具開發(fā) 工作DBA

負(fù)責(zé)數(shù)據(jù)庫設(shè)計、優(yōu)化,以及類SRE的變更、監(jiān)控、數(shù)據(jù)備份和報警處理工作。還負(fù)責(zé)數(shù)據(jù)庫管理平臺、中間件開 發(fā)以及數(shù)據(jù)庫安全工作運(yùn)維研發(fā)

運(yùn)維平臺開發(fā)工作,如監(jiān)控、服務(wù)管理等各種運(yùn)維自動化系統(tǒng)/平臺。運(yùn)維安全

安全體系加固,入侵檢測,安全事件處理,常規(guī)安全掃描,滲透測試應(yīng)用運(yùn)維 系統(tǒng)運(yùn)維DBA運(yùn)維研發(fā)運(yùn)維安全網(wǎng)絡(luò)IDC安全內(nèi)核CDN虛擬化資產(chǎn)管理、采購運(yùn)維部測試部運(yùn)維工作NSRDNSQANSOPECOMRD

ECOMQAECOMOPPSRDPSQAPSOPINFRDINFQAINFOPDBAOPED(運(yùn)維平臺研發(fā))

OPTC(運(yùn)維技術(shù)委員會)

系統(tǒng)部SYSTC(系統(tǒng)技術(shù)委員會)運(yùn)維工作——應(yīng)用運(yùn)維1設(shè)計評審參與RD發(fā)起的產(chǎn)品設(shè)計評審,從線上部署和運(yùn)維的角度提出評審意見。服務(wù)變更編制或?qū)徍松暇€步驟、回滾方案確認(rèn)是否可以觸發(fā)變更及變更效果是否符合預(yù)期緊急情況下控制回滾服務(wù)管理掌握所負(fù)責(zé)的服務(wù)及服務(wù)間關(guān)聯(lián)關(guān)系、服務(wù)各種資源能夠發(fā)現(xiàn)服務(wù)上的缺陷,能及時通報并推進(jìn)解決理解運(yùn)維相關(guān)文檔,及時更新運(yùn)維相關(guān)文檔。機(jī)器管理熟悉服務(wù)器資源狀況,機(jī)房分布情況,不出現(xiàn)機(jī)器遺漏或丟失的情況合理使用服務(wù)器資源,根據(jù)不同服務(wù)的需求,安排不同配置的服務(wù)器,不浪費(fèi)機(jī)器資源保證服務(wù)器正常運(yùn)行,對服務(wù)器硬件添加或變更來解決資源不足問題例行檢查理解例行檢查列表的內(nèi)容、檢查項的含義以及可能引發(fā)的問題按照例行檢查表,定期檢查系統(tǒng)狀態(tài),發(fā)現(xiàn)異常立即通報并推進(jìn)解決定期檢查線上服務(wù)模塊,排除可疑進(jìn)程,發(fā)現(xiàn)問題及時通報理解監(jiān)控和統(tǒng)計報表的各項含義,每天定時檢查報表,發(fā)現(xiàn)異常立即通報并推進(jìn)解決制定服務(wù)例行檢查要點和方法,部署執(zhí)行并不斷完善,避免檢查的盲點運(yùn)維工作——應(yīng)用運(yùn)維2預(yù)案管理確定服務(wù)所需的各項監(jiān)控、系統(tǒng)指標(biāo)的閥值或境界點,以及出現(xiàn)該情況后處理預(yù)案建立和更新服務(wù)預(yù)案文檔,并跟據(jù)日常故障情況不斷補(bǔ)充完善,提高預(yù)案完備性能夠制定和評審各類預(yù)案,安排預(yù)案的演練,提高可執(zhí)行性數(shù)據(jù)備份按線上數(shù)據(jù)備份規(guī)范來進(jìn)行數(shù)據(jù)備份工作保證數(shù)據(jù)備份可用性和完整性制定數(shù)據(jù)備份策略,根據(jù)備份要求及時變更定期完成數(shù)據(jù)恢復(fù)性測試監(jiān)控與統(tǒng)計執(zhí)行監(jiān)控配置,并完善監(jiān)控內(nèi)容,提高報警準(zhǔn)確度完成服務(wù)的各種監(jiān)控、運(yùn)維報表開發(fā),并不斷完善故障處理熟悉服務(wù)日常故障處理方法和預(yù)案執(zhí)行要點對已知線上故障能按流程進(jìn)行通報并按預(yù)案執(zhí)行及時處理并回復(fù)相關(guān)的服務(wù)報警信息能透徹分析報警原因,并推動報警問題解決能發(fā)現(xiàn)服務(wù)隱患,總結(jié)處理方法和提出預(yù)案改進(jìn)建議某公司人機(jī)比例2005年

497 11 452006年

1158 21 552007年

3000 42 712008年

4196 82 51550706050403020109080

0服務(wù)器數(shù)人數(shù)人均服務(wù)器350030002500200015001000 50045004000服務(wù)器數(shù)與人數(shù)的比值

45

服務(wù)器數(shù)增長曲線

71人數(shù)增長曲線

5107年人數(shù)的增幅沒趕上服務(wù)器的增幅,這年大家更累了運(yùn)維壓力依賴人的手工操作是當(dāng)前運(yùn)維的主流方式雖然有工具、系統(tǒng),但是分散、零亂,無法產(chǎn)生規(guī)模信息關(guān)聯(lián)方式簡單,信息挖掘基本靠人,無法進(jìn)行大信息量處理與分析,信息孤島林立重復(fù)性工作較多,效率較低,實時性不高人工失誤率無法消除,幾乎成為“系統(tǒng)誤差”HOW?服務(wù)體系

集合角度Association思維角度Thinking規(guī)則角度

Rules

運(yùn)維體系A(chǔ)rchitecture動作流程規(guī)范標(biāo)準(zhǔn)命令工具系統(tǒng)平臺想法概念理念理論依賴人不依賴人體力密集型腦力密集型G1原始時代G2農(nóng)耕時代G3工業(yè)時代

現(xiàn)狀G4高科時代服務(wù)平臺OUTLINE運(yùn)維標(biāo)準(zhǔn)資源管理監(jiān)控告警服務(wù)變更容災(zāi)預(yù)案運(yùn)維安全運(yùn)維效率11UU

運(yùn)維標(biāo)準(zhǔn)標(biāo)準(zhǔn)化是服務(wù)可運(yùn)維的基礎(chǔ),也是實現(xiàn)自動化的必要條件 基礎(chǔ)設(shè)施

服務(wù)器標(biāo)準(zhǔn)化套餐,均衡型、高IO、高CPU..

機(jī)柜使用標(biāo)準(zhǔn) 布線標(biāo)準(zhǔn) 標(biāo)簽和二維碼IP使用標(biāo)準(zhǔn)環(huán)境

操作系統(tǒng)版本統(tǒng)一centos/redhat…系統(tǒng)參數(shù)初始化標(biāo)準(zhǔn)部署路徑,/home/work?/opt?生產(chǎn)環(huán)境賬號,root?work?主機(jī)命名規(guī)范jx-cp-se00.jxsd-im-mq01.bj?

agent部署和升級標(biāo)準(zhǔn)應(yīng)用

日志輸出和切分的規(guī)范./run.shstart/stop/restart/status應(yīng)用啟停接口端口使用依賴標(biāo)準(zhǔn)45U313131311UUUUUUUUU1U3U83U83U83U8ILOTOR111112121UUUUUUUUUOUTLINE運(yùn)維標(biāo)準(zhǔn)資源管理監(jiān)控告警服務(wù)變更容災(zāi)預(yù)案運(yùn)維安全運(yùn)維效率報廢資源管理

機(jī)器交付 新采購

機(jī)器故障服務(wù)管理,以樹的形式將硬件資產(chǎn)、應(yīng)用服務(wù)、人和權(quán)限等多維度信息關(guān)聯(lián)

產(chǎn)品線->服務(wù)->模塊 機(jī)器<->模塊 模塊<->進(jìn)程 服務(wù)<->監(jiān)控模板 機(jī)器<->人 產(chǎn)品線<->域名 模塊<->狀態(tài)、路徑、版本

…資產(chǎn)管理

系統(tǒng)運(yùn)維服務(wù)管理

應(yīng)用運(yùn)維資源管理OUTLINE運(yùn)維標(biāo)準(zhǔn)資源管理監(jiān)控告警服務(wù)變更容災(zāi)預(yù)案運(yùn)維安全運(yùn)維效率監(jiān)控告警價值通過各個層面的報警,快速的定位和發(fā)現(xiàn)故障能夠監(jiān)控的數(shù)據(jù)展示,反應(yīng)業(yè)務(wù)的容量和性能能夠清楚的通過數(shù)據(jù)來量化業(yè)務(wù)運(yùn)行狀態(tài)監(jiān)控分類機(jī)器監(jiān)控CPU內(nèi)存磁盤IO網(wǎng)卡流量存活性網(wǎng)絡(luò)設(shè)備服務(wù)監(jiān)控進(jìn)程端口語義訪問質(zhì)量監(jiān)控告警主動監(jiān)控程序在運(yùn)行時,主動反饋自身運(yùn)行狀態(tài)的計數(shù)器參考,很簡單的方式上報stathat.ez_post_count(‘',‘nginxqps9',300)監(jiān)控告警域名監(jiān)控從全國多個節(jié)點監(jiān)控域名的可用性同時提供訪問質(zhì)量監(jiān)控前期可以采用監(jiān)控寶等第三方監(jiān)控服務(wù)訪問質(zhì)量JS檢測URL多地域監(jiān)控頁面優(yōu)化采用基調(diào)等第三方服務(wù)進(jìn)行監(jiān)控,阿里測等進(jìn)行頁面分析監(jiān)控告警分布式跟蹤系統(tǒng)GoogledapperTwitterzipkin淘寶鷹眼監(jiān)控告警報警合并66%報警分級告警依然太多,避免重要短信被淹沒梳理告警,劃分為5個級別,P0~P4OUTLINE運(yùn)維標(biāo)準(zhǔn)資源管理監(jiān)控告警服務(wù)變更容災(zāi)預(yù)案運(yùn)維安全運(yùn)維效率服務(wù)變更服務(wù)變更

adserver | |---bin ||---adserver ||---conf||---adserver.conf||---data||---data1||---data2||---log||---adserver.log||---adserver.log.2012121910||---adserver.log.2012121909||---script||---run.shadserver.conf

ip_0_0: ip_0_1: ip_1_0: ip_1_1: Data_index:0/1服務(wù)變更手工操作forxin`seq0010`dosshjx-cp-se$x.jx‘dosomething’done批量操作lh系列工具lhjx-cp-se-*獲取列表lhckjx-cp-se-*‘dosomething’lhscpjx-cp-se-*local_服務(wù)變更WEB操作標(biāo)準(zhǔn)程序啟停方式標(biāo)準(zhǔn)化,統(tǒng)一的run.sh接口,支持start、stop、restart、healthcheck….服務(wù)部署路徑的標(biāo)準(zhǔn)化,避免繁瑣的配置變更前備份方式的標(biāo)準(zhǔn)化,路徑、命名規(guī)則、備份方式……服務(wù)通過服務(wù)樹進(jìn)行管理,可以方便的進(jìn)行篩選,部署一批同類型的服務(wù)所有機(jī)器上都一個負(fù)責(zé)具體命令執(zhí)行和反饋的agent功能選擇需要部署的服務(wù)樹節(jié)點,提供篩選功能選擇服務(wù)本次變更的版本,因為之前已經(jīng)在服務(wù)樹上把服務(wù)和SVN關(guān)系進(jìn)行了綁定只能在線上已運(yùn)行服務(wù)的基礎(chǔ)上,做增量上線,替換每次需要升級的bin,不影響data、conf、log提供一個web化的配置文件編輯器,每次發(fā)起部署任務(wù)前,先把線上每臺機(jī)器的配置文件拉回本地進(jìn)行批量編輯因為之前做了服務(wù)啟停標(biāo)準(zhǔn),所以只需要配置stop,start,還是restart等命令執(zhí)行順序即可可以設(shè)置暫停點,如部署完第一臺服務(wù)器后暫停,運(yùn)維人員觀察確認(rèn)后再批量執(zhí)行支持與監(jiān)控系統(tǒng)聯(lián)動,在部署該服務(wù)器時,暫停該服務(wù)器上對應(yīng)的服務(wù)監(jiān)控,部署完成后調(diào)用healthcheck和開啟監(jiān)控,如果發(fā)現(xiàn)問題則暫停批量任務(wù)。服務(wù)變更WEB操作問題配置變更復(fù)雜情況或極簡情況前置、后置動作依賴關(guān)系數(shù)據(jù)依賴外掛型部署系統(tǒng)服務(wù)變更動態(tài)調(diào)度機(jī)器IDC單機(jī)下限存活性動態(tài)調(diào)配任務(wù)優(yōu)先級并發(fā)度資源使用數(shù)據(jù)準(zhǔn)備預(yù)算組內(nèi)任務(wù)端口唯一任務(wù)ID全局唯一taskidclusteriduserididc組合支持supervise功能定時任務(wù)根據(jù)預(yù)算組資源,運(yùn)行時部署服務(wù)變更任務(wù)整體發(fā)布,可隨意遷移.app任務(wù)包含數(shù)據(jù)依賴描述文件數(shù)據(jù)和任務(wù)分離,固定存放通過注冊+訂閱的方式,dataid全局唯一不建議本地存儲,云存儲配置實例配置由同一的策略中心管理,包括上下游連接上下游依賴通過全局唯一url定位僅定位,由調(diào)度保證實例可用日志不建議本地存儲,遠(yuǎn)程寫日志流式傳輸,實時分析監(jiān)控單獨的監(jiān)控輸出,基礎(chǔ)監(jiān)控鏈接lib輸出html文件,可抓取、可展現(xiàn)服務(wù)變更

資源調(diào)度和隔離:調(diào)度服務(wù)在機(jī)器及更細(xì)粒度的部 署運(yùn)行

機(jī)器管理:機(jī)器統(tǒng)一備機(jī)管理,記錄機(jī)器的屬性、 狀態(tài)

資源定位:采用pub/sub的方式,管理與服務(wù)與機(jī) 器的對應(yīng)關(guān)系,解耦服務(wù)之間查詢的問題,降低由于 上下游IP配置等導(dǎo)致的運(yùn)維復(fù)雜度

全量上線:降低上線操作和環(huán)境搭建的復(fù)雜度, 動作一致,實現(xiàn)模塊全量的上線全量上線資源定位機(jī)器管理資源調(diào)度和隔離服務(wù)變更

灰度發(fā)布

統(tǒng)一接入層(FE)

UISRV1SRV2

UISRV1SRV2

UISRV1SRV2

UISRV1SRV2

線上基準(zhǔn)環(huán)境灰度環(huán)境1,2,3服務(wù)器管理故障單停機(jī)中

offline

下線單

online對外提供服務(wù)機(jī)器初始化完成業(yè)務(wù)環(huán)境初始化完成業(yè)務(wù)環(huán)境搭建完成

Noservice problem

服務(wù)下線自助服務(wù)服務(wù)器重啟&netoops密碼查詢自助裝機(jī)機(jī)器改名服務(wù)器管理服務(wù)器管理業(yè)務(wù)部署–結(jié)構(gòu)PAAS機(jī)器管理CloudControllerROUTERDEAServicesAESIRODINFRIGGATHORAUTOBUILDReleaseServer備份監(jiān)控安全自動部署–AESIR

WEBBuildServerAPPSERVERfriggathorODIN ……APPSERVERfriggathor監(jiān)控系統(tǒng) 服務(wù)樹全量部署?行為統(tǒng)一?快速回滾多環(huán)境和多配置?配置模板?配置繼承部署依賴?系統(tǒng)依賴?模塊依賴關(guān)聯(lián)周邊系統(tǒng)?監(jiān)控、備份?服務(wù)TAG多模塊聯(lián)合部署?集群部署?順序部署 服務(wù)狀態(tài)管理自動部署-功能

發(fā)布包結(jié)構(gòu)Passport-agent |-release |-target

|-deploy |-config.template.yml |-init.yml |-模板目錄

|-dch.conf.erb自動部署–標(biāo)準(zhǔn)

程序、數(shù)據(jù)分離/home/work/passport-agent |-bin |-conf/data/passport-agent |-log |-dict自動部署-WEB自動部署-WEBcluster: name:dch version: env:production jobs:[dch,abc,aaa,…](可多個模塊)dch: host:[3] user:work version:93043 path:/home/work/passport-dch pkg_url:

db_passwd:xxxx backup_key:68e7012d5bdca6eaceeb2682e4b20a96 mon_value:mon.template.ymlAbc:…自動部署–配置

Cluster.yml

THOR解析

cluster.yml

同步文件到

base_dir

個性配置項替換(zk、db_passwd) 通知frigga啟動程 序

Config.template.ymlbase: basedir:"$<path>” user:"$<user>" mod_name:"$<name>"#apprunningcontrolmod_start:"${basedir}/bin/run.sh"mod_stop:"${basedir}/bin/stop.sh"production: zookeeper_host:staging: zookeeper_host:

Init.ymlDch: type:file name:${basedir}/conf/dch.conf source:template("dch.conf.erb")

db_password:"$<db_passwd>"monitor:type:monname:${basedir}/conf/mon.confsource:template("mon.conf.erb")

to_email:backup:type:backupname:${basedir}/conf/backup.confsource:template("backup.conf.erb")自動部署–配置自動部署–命令行Odin.rb–fcluster.ymlThor–fcluster.yml自動部署–管理自動部署–管理規(guī)范要求-發(fā)布規(guī)范統(tǒng)一版本標(biāo)識?讓部署在流程和管理上有序統(tǒng)一目錄結(jié)構(gòu)規(guī)范?抽象部署動作的并保持簡單的基礎(chǔ)統(tǒng)一打包格式tgz?簡化傳輸、校驗、屬主和權(quán)限保持統(tǒng)一啟停接口?簡化部署動作,降低接入代價包是完整的,不存在包外信息?部署冪等,回滾=redeploy發(fā)布規(guī)范封裝本地構(gòu)建部署工具規(guī)范要求-自動發(fā)布

本地開發(fā)

本地部署本地測試各種自動化 測試 部署到測試 機(jī)Jenkinsbuildbuild

SCMbuilddeployonlineonlineonlinerelease規(guī)范要求–系統(tǒng)環(huán)境統(tǒng)一系統(tǒng)內(nèi)核、發(fā)行版、初始環(huán)境編譯環(huán)境解釋器系統(tǒng)Lib關(guān)鍵配置依賴命令行BC規(guī)范要求-Runtime依賴Runtimepackage管理,與servicepackage用等同方式Runtimepackage的路徑,固定or路徑無關(guān)?部署時需要的權(quán)限可能和應(yīng)用服務(wù)不同一臺server上多個應(yīng)用,使用不同的runtimeor共用runtime?

ServeicePackageA

RuntimePackageB RuntimePackageCAdeploy B CC規(guī)范要求-解耦關(guān)聯(lián)配置AABBBABABBBBNaming service資源未來-資源隔離

CPU

MEMORYDISKQUOTA DISKIO NETIO IP PORT PATH節(jié)省硬件資源,約

15%容易動態(tài)調(diào)整資源

虛擬化

KVM

容器

LXC資源隔離更徹 底未來-服務(wù)無感上游容錯naming優(yōu)雅重啟動態(tài)篩選、調(diào)度篩選器物理分布

資源網(wǎng)絡(luò)分布CMDB動態(tài)資源 數(shù)據(jù)庫創(chuàng)建容器 調(diào)度器OUTLINE運(yùn)維標(biāo)準(zhǔn)資源管理監(jiān)控告警服務(wù)變更容災(zāi)預(yù)案運(yùn)維安全運(yùn)維效率容災(zāi)預(yù)案SMARTDNS+同城負(fù)載SmartDNS用戶請求

LVSnginx中間層

主庫

LVSnginx中間層

從庫容災(zāi)預(yù)案數(shù)據(jù)備份備份級別備份時間備份介質(zhì)數(shù)據(jù)恢復(fù)測試容災(zāi)預(yù)案預(yù)案管理預(yù)案文檔單機(jī)故障網(wǎng)絡(luò)故障IDC故障…定期預(yù)案演練OUTLINE運(yùn)維標(biāo)準(zhǔn)資源管理監(jiān)控告警服務(wù)變更容災(zāi)預(yù)案運(yùn)維安全運(yùn)維效率運(yùn)維安全

定期安全掃描

WEB應(yīng)用掃描 系統(tǒng)漏洞及弱口令掃描

操作系統(tǒng)安全加固 賬號安全

Relay跳板機(jī)隔離辦公網(wǎng)和IDC的直接訪問 門神系統(tǒng)進(jìn)行賬號統(tǒng)一管理、授權(quán),動靜態(tài)密碼

應(yīng)用防護(hù)

Web應(yīng)用防火墻 文件完成性校驗

Webshell掃描安全滲透測試白盒代碼掃描服務(wù)器服務(wù)器服務(wù)器辦公網(wǎng)

Relay跳板機(jī)門神認(rèn)證服務(wù)器

IDCOUTLINE運(yùn)維標(biāo)準(zhǔn)資源管理監(jiān)控告警服務(wù)變更容災(zāi)預(yù)案運(yùn)維安全運(yùn)維效率輕微故障一般故障

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論