聽(tīng)云悟空平臺(tái)運(yùn)維手冊(cè)_第1頁(yè)
聽(tīng)云悟空平臺(tái)運(yùn)維手冊(cè)_第2頁(yè)
聽(tīng)云悟空平臺(tái)運(yùn)維手冊(cè)_第3頁(yè)
聽(tīng)云悟空平臺(tái)運(yùn)維手冊(cè)_第4頁(yè)
聽(tīng)云悟空平臺(tái)運(yùn)維手冊(cè)_第5頁(yè)
已閱讀5頁(yè),還剩62頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

斤云

/TINGYON

聽(tīng)云悟空平臺(tái)

運(yùn)維手冊(cè)

版本V1.10

Copyright?2007-2021基調(diào)網(wǎng)絡(luò)及其許可者所有,保留一切權(quán)利。

未經(jīng)北京基調(diào)網(wǎng)絡(luò)股份有限公司書(shū)面許可,本文檔不得整體或部分地復(fù)印、復(fù)制、翻譯或縮減成任

何電子介質(zhì)或計(jì)算機(jī)可以閱讀的格式。

本文檔中的Logo、"聽(tīng)云"、"tingyun”等文字、圖形及其組合,以及文檔中聽(tīng)云服務(wù)的名稱(chēng)等為聽(tīng)

云及其關(guān)聯(lián)公司在中國(guó)和其他國(guó)家的注冊(cè)商標(biāo)。未經(jīng)聽(tīng)云書(shū)面授權(quán),任何人不得以任1可方式展示、

使用或做其他處理(包括但不限于復(fù)制、傳播、展示、鏡像、上傳、下載),也不得向他人表明您有

權(quán)展示、使用或做其他處理。對(duì)于本手冊(cè)中出現(xiàn)的其它公司的商標(biāo)、產(chǎn)品標(biāo)識(shí)及商品名稱(chēng),由各自

權(quán)利人擁有。

免責(zé)聲明:

由于產(chǎn)品版本升級(jí)或其他原因,本手冊(cè)內(nèi)容有可能變更?;{(diào)網(wǎng)絡(luò)保留在沒(méi)有任何通知或者提示的

情況下對(duì)本手冊(cè)的內(nèi)容進(jìn)行修改的權(quán)利。基調(diào)網(wǎng)絡(luò)盡全力在本手冊(cè)中提供準(zhǔn)確的信息,但是基調(diào)網(wǎng)

絡(luò)并不確保手冊(cè)內(nèi)容完全沒(méi)有錯(cuò)誤,本手冊(cè)中的所有陳述、信息和建議也不構(gòu)成任何明示或暗示的

擔(dān)保。

聯(lián)系信息:

公司總部(北京總部):

地址:子大廈301室

郵編:100027

電話:400-898-9580

公司官網(wǎng):

刖百

產(chǎn)品版本

與本手冊(cè)相對(duì)應(yīng)的產(chǎn)品版本如下所示。

產(chǎn)品名稱(chēng)產(chǎn)品版本手冊(cè)版本

聽(tīng)云悟空平臺(tái)V3.XV1.10

內(nèi)容介紹

本手冊(cè)主要介紹了聽(tīng)云悟空私有化平臺(tái)在運(yùn)行過(guò)程中,巡檢的相關(guān)任務(wù)、組件的維護(hù)和故障處

理的方法等。

讀者對(duì)象

本手冊(cè)適用于以下人員:

?運(yùn)維工程師

?監(jiān)控工程師

修改記錄

修訂記錄累積了每次手冊(cè)更新的說(shuō)明。最新版本的文檔包含以前所有版本的更新內(nèi)容。

版本V1.10(2021-06-28)

調(diào)整口監(jiān)控部分的組織結(jié)構(gòu),增加同城災(zāi)留章節(jié)。

版本V1.00(2020-12-11)

本手冊(cè)首次發(fā)布。

文檔反饋

針對(duì)本手冊(cè)的反饋,請(qǐng)發(fā)送郵件到:

目錄

1服務(wù)管理....................................................................錯(cuò)誤味定義書(shū)簽。

2自監(jiān)控.......................................................................錯(cuò)誤床定義書(shū)簽。

2.1概述..............................................................錯(cuò)誤味定義書(shū)簽。

2.2原理..............................................................錯(cuò)誤保定義書(shū)簽。

2.2.1探針的監(jiān)控...................................................錯(cuò)誤!未定義書(shū)簽。

2.2.2傳輸組件的監(jiān)控...............................................錯(cuò)誤!未定義書(shū)簽。

2.2.3后臺(tái)任務(wù)的監(jiān)控...............................................錯(cuò)誤味定義書(shū)簽。

2.3自監(jiān)控架構(gòu)........................................................錯(cuò)誤!未定義書(shū)簽。

2.4監(jiān)控指標(biāo)詳解.....................................................錯(cuò)誤!未定義書(shū)簽。

2.4.1操作系統(tǒng)監(jiān)控指標(biāo)詳解.........................................錯(cuò)誤!未定義書(shū)簽。

系統(tǒng)摘要..................................................錯(cuò)誤!未定義書(shū)簽。

CPU負(fù)載.................................................錯(cuò)誤!未定義書(shū)簽。

內(nèi)存使用..................................................錯(cuò)誤!未定義書(shū)簽。

CPU使用率...............................................錯(cuò)誤!未定義書(shū)簽。

進(jìn)程信息..................................................錯(cuò)誤!未定義書(shū)簽。

上下文切換...............................................錯(cuò)誤!未定義書(shū)簽。

中斷次數(shù)..................................................錯(cuò)誤!未定義書(shū)簽。

網(wǎng)絡(luò)吞吐量...............................................錯(cuò)誤!未定義書(shū)簽。

網(wǎng)卡每小時(shí)的收發(fā)量.......................................錯(cuò)誤!未定義書(shū)簽。

0SWAP的使用.............................................錯(cuò)誤!未定義書(shū)簽。

1SWAP的使用活躍度......................................錯(cuò)誤!未定義書(shū)簽。

2打開(kāi)文件數(shù)..............................................錯(cuò)誤!未定義書(shū)簽。

3掛載點(diǎn)磁盤(pán)空間..........................................錯(cuò)誤!未定義書(shū)簽。

2.4.1.14磁盤(pán)延遲................................................錯(cuò)誤!未定義書(shū)簽。

2.4.1.15磁盤(pán)\OPS.....................................................................................錯(cuò)誤!未定義書(shū)簽。

2.4.1.16磁盤(pán)吞吐................................................錯(cuò)誤!未定義書(shū)簽。

710util................................................................................................錯(cuò)誤!未定義書(shū)簽。

2.4.2進(jìn)程監(jiān)控指標(biāo)詳解.............................................錯(cuò)誤!未定義書(shū)簽。

2.4.3組件監(jiān)控.....................................................錯(cuò)誤味定義書(shū)簽。

Nginx監(jiān)控.................................................錯(cuò)誤!未定義書(shū)簽。

Tomcat監(jiān)控..............................................錯(cuò)誤!未定義書(shū)簽。

Zookeeper的...........................................錯(cuò)誤!未定義書(shū)簽。

Kafka監(jiān)控.................................................錯(cuò)誤!未定義書(shū)簽。

2.435Redis監(jiān)控................................................錯(cuò)誤!未定義書(shū)簽。

MySQL監(jiān)控..............................................錯(cuò)誤!未定義書(shū)簽。

ElasticSearch雌........................................錯(cuò)誤!未定義書(shū)簽。

2.4.4JVM監(jiān)控.....................................................四味定義書(shū)簽。

JVM啟動(dòng)時(shí)間..............................................錯(cuò)誤!未定義書(shū)簽。

2.4.4.2當(dāng)前線程數(shù)/deadlock線程數(shù)...............................錯(cuò)誤!未定義書(shū)簽。

JDK版本.................................................錯(cuò)誤!未定義書(shū)簽。

Heap區(qū)內(nèi)存使用情況......................................錯(cuò)誤!未定義書(shū)簽。

NonHeap區(qū)內(nèi)存使用情況.................................錯(cuò)誤!未定義書(shū)簽。

Eden/Survivor/Old區(qū)使用情況..............................錯(cuò)誤!未定義書(shū)簽。

2.4.47平..........................................................均每秒GC次數(shù)..錯(cuò)誤!未定義書(shū)簽。

2.4.4.8平均每次GC時(shí)間..........................................$前吳!未定義書(shū)簽。

2.4.4.9進(jìn)程負(fù)載..................................................錯(cuò)誤!未定義書(shū)簽。

2.4.5進(jìn)程監(jiān)控.....................................................錯(cuò)誤!未定義書(shū)簽。

2.4.5.1進(jìn)程數(shù)....................................................錯(cuò)誤!未定義書(shū)簽。

2.4.5.2進(jìn)程級(jí)CPU時(shí)間.........................................錯(cuò)誤!未定義書(shū)簽。

2.4.5.3進(jìn)程級(jí)10指標(biāo).............................................錯(cuò)誤!未定義書(shū)簽。

2.4.5.4進(jìn)程級(jí)文件句柄數(shù)..........................................錯(cuò)誤!未定義書(shū)簽。

2.4.5.5進(jìn)程級(jí)內(nèi)存使用...........................................錯(cuò)誤!未定義書(shū)簽。

3巡檢.........................................................................錯(cuò)誤!未定義書(shū)簽。

3.1日常巡檢...........................................................錯(cuò)誤!未定義書(shū)簽。

3.2數(shù)據(jù)流檢查........................................................錯(cuò)誤味定義書(shū)簽。

4組件維護(hù)....................................................................錯(cuò)誤味定義書(shū)簽。

4.1概述..............................................................■味定義書(shū)簽。

4.2DRUID配置多路徑..................................................錯(cuò)誤!未定義書(shū)簽。

4.3ELASTICSEARCH配置多路徑.........................................錯(cuò)誤!未定義書(shū)簽。

4.4HADOOP配置多路徑................................................錯(cuò)誤!未定義書(shū)簽。

4.5KAFKA配置多路徑.................................................錯(cuò)誤!未定義書(shū)簽。

5組件擴(kuò)容....................................................................錯(cuò)誤味定義書(shū)簽。

5.1ES擴(kuò)容..........................................................錯(cuò)誤!未定義書(shū)簽。

5.1.1準(zhǔn)備資源.....................................................錯(cuò)誤味定義書(shū)簽。

5.1.2新增ES節(jié)點(diǎn)服務(wù)..............................................錯(cuò)誤!未定義書(shū)簽。

5.1.3節(jié)點(diǎn)驗(yàn)證......................................................錯(cuò)誤味定義書(shū)簽。

5.1.4開(kāi)啟數(shù)據(jù)自動(dòng)均衡.............................................錯(cuò)誤味定義書(shū)簽。

5.1.5等待數(shù)據(jù)均衡.................................................錯(cuò)誤味定義書(shū)簽。

5.2REDIS擴(kuò)容.........................................................錯(cuò)誤味定義書(shū)簽。

5.2.1準(zhǔn)備資源.....................................................錯(cuò)誤!未定義書(shū)簽。

5.2.2新增Redis節(jié)點(diǎn)...............................................錯(cuò)誤!未定義書(shū)簽。

5.2.3修改配置文件.................................................錯(cuò)誤!未定義書(shū)簽。

5.2.4修改配置文件.................................................錯(cuò)誤!未定義書(shū)簽。

5.2.5啟動(dòng)Redis..............................................................................................錯(cuò)誤!未定義書(shū)簽。

5.2.6驗(yàn)證Redis是否正常...........................................錯(cuò)誤味定義書(shū)簽。

5.2.7啟動(dòng)哨兵服務(wù).................................................錯(cuò)誤味定義書(shū)簽。

5.3MYSQL擴(kuò)容.......................................................錯(cuò)誤味定義書(shū)簽。

5.3.1準(zhǔn)備資源.....................................................錯(cuò)誤味定義書(shū)簽。

5.3.2新增MySQL節(jié)點(diǎn).............................................錯(cuò)誤!未定義書(shū)簽。

5.3.3安裝MySQLShell..................................................................................錯(cuò)誤!未定義書(shū)簽。

5.3.4安裝MySQLRouter...............................................................................錯(cuò)誤!未定義書(shū)簽。

5.3.5節(jié)點(diǎn)加入集群.................................................錯(cuò)誤!未定義書(shū)簽。

5.3.6驗(yàn)證數(shù)據(jù).....................................................錯(cuò)誤!未定義書(shū)簽。

5.4DRUID擴(kuò)容........................................................錯(cuò)誤!未定義書(shū)簽。

5.4.1新增Druid節(jié)點(diǎn)................................................錯(cuò)誤!未定義書(shū)簽。

5.4.2增加historical節(jié)點(diǎn)............................................錯(cuò)誤!未定義書(shū)簽。

5.4.3增加middleManager節(jié)點(diǎn)......................................錯(cuò)誤!未定義書(shū)簽。

5.4.4遷移broker服務(wù)..............................................錯(cuò)誤味定義書(shū)簽。

5.5KAFKA擴(kuò)容........................................................錯(cuò)誤味定義書(shū)簽。

5.5.1新增kafka集群節(jié)點(diǎn)...........................................錯(cuò)誤味定義書(shū)簽。

5.5.2修改配置文件.................................................錯(cuò)誤味定義書(shū)簽。

5.5.3配置kafka的環(huán)境變量.........................................錯(cuò)誤!未定義書(shū)簽。

5.5.4注冊(cè)新節(jié)點(diǎn)到zookeeper.......................................................................錯(cuò)誤味定義書(shū)簽。

5.5.5添加新節(jié)點(diǎn)到集群.............................................錯(cuò)誤!未定義書(shū)簽。

5.5.6應(yīng)用遷移.....................................................錯(cuò)誤味定義書(shū)簽。

6備份和恢復(fù)...................................................................錯(cuò)誤味定義書(shū)簽。

6.1應(yīng)用備份和恢復(fù)...................................................錯(cuò)誤!未定義書(shū)簽。

6.1.1手工備份操作.................................................錯(cuò)誤保定義書(shū)簽。

6.1.2定時(shí)備份......................................................錯(cuò)誤!未定義書(shū)簽。

6.1.3恢復(fù)..........................................................錯(cuò)誤!未定義書(shū)簽。

6.1.4恢復(fù)時(shí)間說(shuō)明.................................................錯(cuò)誤!未定義書(shū)簽。

6.2數(shù)據(jù)備份和恢復(fù)...................................................錯(cuò)誤!未定義書(shū)簽。

6.2.1MySQL備份...................................................錯(cuò)誤!未定義書(shū)簽。

6.2.2MySQL恢復(fù)...................................................錯(cuò)誤!未定義書(shū)簽。

6.2.3druid備份.....................................................錯(cuò)誤!未定義書(shū)簽。

6.2.4ES備份.......................................................錯(cuò)誤味定義書(shū)簽。

6.2.5Druid恢復(fù).....................................................錯(cuò)誤!未定義書(shū)簽。

6.2.6ES恢復(fù).......................................................錯(cuò)誤味定義書(shū)簽。

7同城災(zāi)備....................................................................錯(cuò)誤味定義書(shū)簽。

7.1同城災(zāi)備場(chǎng)景.....................................................錯(cuò)誤保定義書(shū)簽。

7.2災(zāi)備架構(gòu)設(shè)計(jì).....................................................錯(cuò)誤!未定義書(shū)簽。

7.3日常維護(hù)..........................................................錯(cuò)誤味定義書(shū)簽。

7.4災(zāi)備切換..........................................................錯(cuò)誤味定義書(shū)簽。

7.5災(zāi)備回切..........................................................錯(cuò)誤味定義書(shū)簽。

7.6數(shù)據(jù)一致性........................................................錯(cuò)誤!未定義書(shū)簽。

8維護(hù)Q&A...............................................................................................................................................錯(cuò)誤味定義書(shū)簽。

8.1應(yīng)用日志中報(bào)ESINDEXREADONLY,如何處理?.......................錯(cuò)誤!未定義書(shū)簽。

8.2用戶體驗(yàn)分析自動(dòng)嵌碼怎么驗(yàn)證探針是否下發(fā)成功?..................錯(cuò)誤!未定義書(shū)簽。

8.3APM-LICENSE-SERVER啟動(dòng)異常......................................錯(cuò)誤!未定義書(shū)簽。

8.4自監(jiān)控配置郵件告警拋異常.........................................錯(cuò)誤味定義書(shū)簽。

1服務(wù)管理

?對(duì)整個(gè)環(huán)境進(jìn)行服務(wù)管理。

-關(guān)閉mysql

shservice,stopmysql

--啟動(dòng)zookeeper集群

shservice_startzookeeper

-關(guān)閉所有服務(wù)

shservice_stopall

-啟動(dòng)所有服務(wù)

shservice_startall

-列出kafka所在的機(jī)器列表

shservice_listkafka

-列出所有服務(wù)所在的機(jī)器列表

shservice_listkafka

-單獨(dú)啟動(dòng)某臺(tái)機(jī)器上的kafka服務(wù)

shservice_startkafka.

?對(duì)整個(gè)環(huán)境進(jìn)行服務(wù)檢直。

-卸載curlwget

shyumerasecurlwget

-卸載binddhcp

shyumerasebinddhcp

-卸載默認(rèn)數(shù)據(jù)庫(kù)

shyumerasemariadb

-檢杳NTP版本

shntpd--version

?Nginx安全

--檢查Nginx配置

在文件中添加

Vi

add_headerX-Frame-OptionsSAMEORIGIN;〃增加x-frame限制

然后重啟應(yīng)用

/usr/local/nginx/sbin/nginx-sreload

?sense-mock認(rèn)證處理

安裝完成后,修改

location/sense-mock/{

#proxy_pass:42017/;〃注釋原有配置

proxy_pass:8302/sense-mock/;〃配置URL跳轉(zhuǎn)到gateway;

)

?grafana配置

安裝完成后,修改/opt/tingyun/monitor3.0/grafana/conf/將grafana賬號(hào)管理統(tǒng)一到應(yīng)用

賬號(hào)管理。

[ic_oauth]

name=OAuth

enabled=true

allow_sign_up=true

clientjd=someid

client_secret=some_secret

scopes=user:email

email_attribute_name=emailprimary

email_attribute_path=

auth_url=http:〃平臺(tái)IP:8080/oauth/auth〃認(rèn)證采月應(yīng)用賬號(hào)系統(tǒng)

token_url=http://平臺(tái)IP:8080/auth-api/oauth/token?source=bpi

〃認(rèn)證采用應(yīng)用賬號(hào)系統(tǒng)

api_url=http://平臺(tái)IP:8080/auth-api/oauth/account?source=bpi

〃認(rèn)證采用應(yīng)用賬號(hào)系統(tǒng)

teamjds=

allowed_organizations=

tls_skip_verify_insecure=false

tls_clier)t_cert=

tls_clier)t_key=

tls_client_ca=

send_client_credentials_via_post=false

2自監(jiān)控

2.1概述

APM整套系統(tǒng)是一套復(fù)雜的分布式系統(tǒng),對(duì)于這樣一個(gè)系統(tǒng)的運(yùn)行需要較強(qiáng)的自運(yùn)維能力才能

保障系統(tǒng)的運(yùn)行,我們根據(jù)系統(tǒng)架構(gòu)進(jìn)行拆分、簡(jiǎn)單可概括為探針的監(jiān)控、監(jiān)控傳輸組件的監(jiān)

控、后臺(tái)任務(wù)的監(jiān)控三部分。保障了這三部分的網(wǎng)絡(luò)和應(yīng)用正常,才能保障整個(gè)系統(tǒng)能夠?qū)ν?/p>

提供服務(wù)。

2.2原理

下面我們分別對(duì)三個(gè)部分進(jìn)行詳細(xì)的原理描述。

2.2.1探針的監(jiān)控

探針的監(jiān)控我們將展示探針的類(lèi)型,探針名稱(chēng),狀態(tài)(在線/掉線),最后一條數(shù)據(jù)上傳時(shí)間。其

中狀態(tài)是以探針是否成功上傳數(shù)據(jù)到傳輸組件為依據(jù),傳輸組件會(huì)記錄該狀態(tài),我們將利用

promethus收集這些探針狀態(tài)進(jìn)行展示。如果探針5分鐘內(nèi)沒(méi)數(shù)據(jù)我們定義該探針為掉線狀

態(tài),需要進(jìn)行排查。

2.2.2傳輸組件的監(jiān)控

傳輸組件我們重點(diǎn)需要關(guān)注吞吐量和并發(fā)數(shù)??梢酝ㄟ^(guò)grafana進(jìn)行日常監(jiān)控。我們的傳輸組

件利用了Tomcat容器,所以對(duì)Tomcat的JVM進(jìn)行監(jiān)控,獲取如下信息,如果達(dá)到性能瓶頸

則進(jìn)行橫向擴(kuò)展。

線程池信息

用于顯示線程池信息,current為當(dāng)前線程池大小,busy為當(dāng)前繁忙線程,即當(dāng)前處理的并發(fā)清

求數(shù),如busy數(shù)量高到max60%考慮增加Tomcat線程數(shù)并擴(kuò)容機(jī)器配置。

16X151&5016^517:0017:0517:1017:151720172517:30173517x10

-max-current-busy

吞吐量

用于顯示Tomcat的請(qǐng)求吞吐量,評(píng)估是否超過(guò)網(wǎng)卡帶寬,若單臺(tái)Tomcat吞吐量過(guò)高,建議橫

向擴(kuò)展。

BytesSent/Received

125________________________________

100

75

50

25+

0---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

16:4516:501&5517:0017:0517:1017:1517:2017:2>17:30173517:40

一received-sent

每秒請(qǐng)求數(shù)/每秒錯(cuò)誤請(qǐng)求數(shù)

下圖為T(mén)omcat每秒請(qǐng)求數(shù)與每秒錯(cuò)誤數(shù),該指標(biāo)與線程池信息可構(gòu)成該Tomcat應(yīng)用的基線信

Qps/Eps

request-error

平均響應(yīng)時(shí)間

下圖為T(mén)omcat請(qǐng)求的瓶頸響應(yīng)時(shí)間,注意觀察如果有暴漲則需要對(duì)該應(yīng)用進(jìn)行優(yōu)化,可先對(duì)

JVM參數(shù)進(jìn)行調(diào)優(yōu),如不明顯則進(jìn)行應(yīng)用本身層面的排查。

request

如進(jìn)行橫向擴(kuò)展,則需要Nginx后端掛載多個(gè)Tomcat,需要對(duì)Nginx的吞吐量和并發(fā)數(shù)進(jìn)行監(jiān)

控,詳情如下:

Nginx并發(fā)連接數(shù)

下圖的active展示的是nginx的并發(fā)連接數(shù)。即nginxESTABILSH狀態(tài)連接的數(shù)量,如果并

發(fā)數(shù)過(guò)高,建議通過(guò)橫向擴(kuò)展增加并發(fā)處理能力。

Reading/Waiting/Writing數(shù)量

用于顯示正在讀取的HTTP請(qǐng)求數(shù)/準(zhǔn)備響應(yīng)的連接數(shù)/空閑等待的請(qǐng)求數(shù)。

Nginx每秒請(qǐng)求數(shù)

用于顯示Nginx的每秒請(qǐng)求數(shù),該指標(biāo)與并發(fā)連接數(shù)可構(gòu)成nginx的基線指標(biāo),注意nginx的

cpu利用率不要超過(guò)60%,如超過(guò)則考慮橫向擴(kuò)容

2.2.3后臺(tái)任務(wù)的監(jiān)控

后臺(tái)應(yīng)用主要負(fù)責(zé)從kafka收數(shù)據(jù)入庫(kù),我們主要針對(duì)kafka的消息積壓數(shù)進(jìn)行監(jiān)控。

詳情如下:

ConsumerGroupLag值

查看某ConsumerGroup積壓的數(shù)量,穩(wěn)定在某一個(gè)區(qū)間則沒(méi)問(wèn)題,如一直增長(zhǎng)說(shuō)明消費(fèi)端處

理不過(guò)來(lái),需要進(jìn)行排查。

此外,因?yàn)楸O(jiān)控?cái)?shù)據(jù)入庫(kù)會(huì)有不同的維度,我們會(huì)對(duì)庫(kù)內(nèi)所有維度的入庫(kù)時(shí)間監(jiān)控。當(dāng)庫(kù)內(nèi)存

儲(chǔ)維度信息的最后一條時(shí)間〈當(dāng)前時(shí)間5分鐘會(huì)有警告。

2.3自監(jiān)控架構(gòu)

除了必要的探針端、傳輸端和后臺(tái)應(yīng)用的監(jiān)控,我們還需要對(duì)所有的機(jī)器資源和組件進(jìn)行監(jiān)

控,以便系統(tǒng)出現(xiàn)瓶頸時(shí),及時(shí)處理和擴(kuò)容。為此我們提供了以下自監(jiān)控。

?系統(tǒng)監(jiān)控:針對(duì)所有機(jī)器操作系統(tǒng)的CPU、內(nèi)存、10、網(wǎng)絡(luò)進(jìn)行監(jiān)控。

?進(jìn)程監(jiān)控:針對(duì)APM系統(tǒng)的所有進(jìn)程進(jìn)行監(jiān)控。

?組件監(jiān)控:針對(duì)APM系統(tǒng)的Redis、MySQL、Kafka.Zookeeper.ES、Nginx等組件進(jìn)

行監(jiān)控。

?JVM監(jiān)控:針對(duì)Java進(jìn)程的JVM進(jìn)行監(jiān)控。

?圖表展示:針對(duì)上述采集到的指標(biāo)進(jìn)行圖標(biāo)展示,方便查看指標(biāo)趨勢(shì)。

?告警:對(duì)運(yùn)維平臺(tái)觸發(fā)的告警信息通知運(yùn)維人員。

自監(jiān)控系統(tǒng)的架構(gòu)如下圖所示:

2.4監(jiān)控指標(biāo)詳解

APM平臺(tái)本身也是一套復(fù)雜的后臺(tái)系統(tǒng),因此需要對(duì)其進(jìn)行完整的監(jiān)控。我們從操作系統(tǒng)、進(jìn)

程、組件、JVM等幾個(gè)維度分別進(jìn)行監(jiān)控,以期能達(dá)到自監(jiān)控的目的。

下面分別進(jìn)行解釋。

2.4.1操作系統(tǒng)監(jiān)控指標(biāo)詳解

眾所周知,操作系統(tǒng)層面的監(jiān)控是監(jiān)控的基本監(jiān)控,許多的故障和問(wèn)題都發(fā)生在操作系統(tǒng)本身

上,如CPU負(fù)載過(guò)高、內(nèi)存不夠等。接下來(lái)我們會(huì)對(duì)系統(tǒng)層面的所有指標(biāo)逐一進(jìn)行說(shuō)明。

系統(tǒng)摘要

主要包括機(jī)器啟動(dòng)時(shí)間、CPU核心數(shù)、內(nèi)存總?cè)萘亢涂捎脙?nèi)存容量。

4.6weeks1223.39GiB

CPU負(fù)載

用于展示CPU的負(fù)載、注意觀察負(fù)載是否有超過(guò)核心數(shù),如負(fù)載較高,需要擴(kuò)容CPU或者進(jìn)

行應(yīng)用遷移。

內(nèi)存使用

用于展示已用和可用內(nèi)存,建議可用內(nèi)存至少2G。

Memory

ZSGiB

23GiB

19GiB

14GiB

9GiB

5GiB

OB

11:1011:1511:20112511:30113511:4011)4511:50115512:0012:05

manmaxF

Used19.51GiB2139GiB20.16QB

Available1.99GiB工88GB3.23QB

CPU使用率

展示user、systemiowait,softirqcpu占比,建議全部加起來(lái)不超過(guò)60%。

CPUUsage

100.0%

50Q%

0%

13:40IMS1350135514K?14:0514:1014:151420142514301435

minmax?v”

uter1.91*11.76%3X)4%

sysietn0方冰1.33W0.79H

lowait0.0&H0.37%0.15%

softirq0.1OW0.10.12W

進(jìn)程信息

展示當(dāng)前處于Runnable狀態(tài)的進(jìn)程以及阻塞等待的進(jìn)程數(shù),需要注意是否有突然暴漲或暴跌。

Processes

IB

上下文切換

用于展示上下文切換次數(shù),需注意是否有累漲或暴跌.

ContextSwitches

15K

10K、_.

5K

0

1M5135013:55140014=0514:1014:15142014251430143514^0

minmax?vg

ContextSwitches1029K12.94K1089K

ContextSwitchesperVirtualCPU8581.08K907

241.7中斷次數(shù)

用于展示系統(tǒng)中斷次數(shù),需注意是否有暴漲或暴跌。

網(wǎng)絡(luò)吞吐量

用于展示出入的網(wǎng)絡(luò)吞吐量,注意不要超過(guò)網(wǎng)卡和交換機(jī)的上限,如當(dāng)前大部分為千兆網(wǎng)卡,

則網(wǎng)絡(luò)吞吐量建議不要超過(guò)600Mbps。

Inbound662kBps1309MBps1.176MBps

Outbound493kBps725kBps554kBps

網(wǎng)卡每小時(shí)的收發(fā)量

用于展示網(wǎng)卡每小時(shí)的收發(fā)量,此數(shù)據(jù)與網(wǎng)絡(luò)吞吐量正相關(guān),注意如有暴漲暴跌要分析其原因

是否合理。

NetworkUtilizationHourlyOLa#t24Wuc

3.78GB5.13?4.70GiB

1.86GB3.62QBZ87GiB

0SWAP的使用

用于展示sw叩的使用,因?yàn)長(zhǎng)inux系統(tǒng)會(huì)盡量使用內(nèi)存,偶爾使用swap,所以使用一點(diǎn)

swap沒(méi)關(guān)系,但是如果使用較多,占比超過(guò)60%,建議對(duì)內(nèi)存進(jìn)行擴(kuò)容。

Free462MiB464MiB463MiB

1SWAP的使用活躍度

用于展示swap換進(jìn)換出的頻率,此指標(biāo)和SWAP使用空間對(duì)應(yīng)著看,如換進(jìn)換出頻繁,且占

比超過(guò)60%建議對(duì)內(nèi)存進(jìn)行擴(kuò)容。如換進(jìn)換出不頻繁有可能是某一時(shí)刻swap使用量過(guò)多,可

以考慮將SWAP內(nèi)容清掉再進(jìn)行觀察。

SwapIn(Reads)0Bps2Z5kBps563Bps

2打開(kāi)文件數(shù)

用于展示系統(tǒng)的最大打開(kāi)文件數(shù)和當(dāng)前打開(kāi)文件數(shù),注意如果使用率超過(guò)60%需要調(diào)整系統(tǒng)參

數(shù)或遷移部分應(yīng)用。

-LimitX427Mil

-Alocated50KFileDescriptors

2.0Mil

1.5Mil

1.0Mil

500K

U>------------------

11/28000011/290(H?11/3000001241000012/200:0012/3000012/400KX)

minmaxavg*

—Umic2.427MdZ427MilZ427Mil

-Allocated35K97K56K

241.13掛載點(diǎn)磁盤(pán)空間

用于展示掛載點(diǎn)磁盤(pán)空間的使用情況,超過(guò)80%需要清理磁盤(pán)或進(jìn)行磁盤(pán)擴(kuò)容。

下圖可展示各掛載點(diǎn)的磁盤(pán)的具體容量信息。

44茲盤(pán)延遲

用于展示磁盤(pán)讀寫(xiě)的延遲,注意如果有延遲大幅增高,需要確認(rèn)是否為業(yè)務(wù)正常。

5磁盤(pán)IOPS

用于展示各磁盤(pán)讀寫(xiě)IOPS,可用于直看磁盤(pán)讀寫(xiě)頻率,如有暴漲或暴跌需注意是否異常,此指

標(biāo)要結(jié)合吞吐和i。util來(lái)判斷磁盤(pán)是否存在瓶頸。

6磁盤(pán)吞吐

用于展示各磁盤(pán)的讀寫(xiě)吞吐量,如果有暴漲或暴跌需注意是否異常,此指標(biāo)要結(jié)婚iops和I0

uti來(lái)判斷是否磁盤(pán)存在瓶頸。

7IOutil

用于展示各磁盤(pán)的繁忙程度,如超過(guò)60%且iops不高,磁盤(pán)吞吐也不高則說(shuō)明磁盤(pán)讀寫(xiě)存在嚴(yán)

重瓶頸,建議升級(jí)更快的磁盤(pán)。注意順序讀寫(xiě)會(huì)大量占用磁盤(pán)吞吐,離散讀寫(xiě)會(huì)大量占用

l0PSo

2.4.2進(jìn)程監(jiān)控指標(biāo)詳解

對(duì)Nginx、DC、wrap,backend,alarm、MySQL、Zookeeper.Kafka.Redis、

ElasticSearch進(jìn)程和端口的監(jiān)控。

2.4.3組件監(jiān)控

Nginx監(jiān)控

Nginx并發(fā)連接數(shù)

下圖的active展示的是nginx的并發(fā)連接數(shù)。即NginxESTABILSH狀態(tài)連接的數(shù)量,如果井

發(fā)數(shù)過(guò)高,建議通過(guò)橫向擴(kuò)展增加并發(fā)處理能力。

一actMreading一waiting-wrmng

Reading/Waiting/Writing數(shù)量

用于顯示正在讀取的http請(qǐng)求數(shù)/準(zhǔn)備響應(yīng)的連接數(shù)/空閑等行的請(qǐng)求數(shù)。

Nginx每秒請(qǐng)求數(shù)

用于顯示Nginx的每秒請(qǐng)求數(shù),該指標(biāo)與并發(fā)連接數(shù)可構(gòu)成Nginx的基線指標(biāo),注意Nginx的

CPU利用率不要超過(guò)60%,如超過(guò)則考慮橫向擴(kuò)容。

Tomcat監(jiān)才空

線程池信息

用于顯示Tomcat線程池信息,cu

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論