




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
斤云
/TINGYON
聽(tīng)云悟空平臺(tái)
運(yùn)維手冊(cè)
版本V1.10
Copyright?2007-2021基調(diào)網(wǎng)絡(luò)及其許可者所有,保留一切權(quán)利。
未經(jīng)北京基調(diào)網(wǎng)絡(luò)股份有限公司書(shū)面許可,本文檔不得整體或部分地復(fù)印、復(fù)制、翻譯或縮減成任
何電子介質(zhì)或計(jì)算機(jī)可以閱讀的格式。
本文檔中的Logo、"聽(tīng)云"、"tingyun”等文字、圖形及其組合,以及文檔中聽(tīng)云服務(wù)的名稱(chēng)等為聽(tīng)
云及其關(guān)聯(lián)公司在中國(guó)和其他國(guó)家的注冊(cè)商標(biāo)。未經(jīng)聽(tīng)云書(shū)面授權(quán),任何人不得以任1可方式展示、
使用或做其他處理(包括但不限于復(fù)制、傳播、展示、鏡像、上傳、下載),也不得向他人表明您有
權(quán)展示、使用或做其他處理。對(duì)于本手冊(cè)中出現(xiàn)的其它公司的商標(biāo)、產(chǎn)品標(biāo)識(shí)及商品名稱(chēng),由各自
權(quán)利人擁有。
免責(zé)聲明:
由于產(chǎn)品版本升級(jí)或其他原因,本手冊(cè)內(nèi)容有可能變更?;{(diào)網(wǎng)絡(luò)保留在沒(méi)有任何通知或者提示的
情況下對(duì)本手冊(cè)的內(nèi)容進(jìn)行修改的權(quán)利。基調(diào)網(wǎng)絡(luò)盡全力在本手冊(cè)中提供準(zhǔn)確的信息,但是基調(diào)網(wǎng)
絡(luò)并不確保手冊(cè)內(nèi)容完全沒(méi)有錯(cuò)誤,本手冊(cè)中的所有陳述、信息和建議也不構(gòu)成任何明示或暗示的
擔(dān)保。
聯(lián)系信息:
公司總部(北京總部):
地址:子大廈301室
郵編:100027
電話:400-898-9580
公司官網(wǎng):
刖百
產(chǎn)品版本
與本手冊(cè)相對(duì)應(yīng)的產(chǎn)品版本如下所示。
產(chǎn)品名稱(chēng)產(chǎn)品版本手冊(cè)版本
聽(tīng)云悟空平臺(tái)V3.XV1.10
內(nèi)容介紹
本手冊(cè)主要介紹了聽(tīng)云悟空私有化平臺(tái)在運(yùn)行過(guò)程中,巡檢的相關(guān)任務(wù)、組件的維護(hù)和故障處
理的方法等。
讀者對(duì)象
本手冊(cè)適用于以下人員:
?運(yùn)維工程師
?監(jiān)控工程師
修改記錄
修訂記錄累積了每次手冊(cè)更新的說(shuō)明。最新版本的文檔包含以前所有版本的更新內(nèi)容。
版本V1.10(2021-06-28)
調(diào)整口監(jiān)控部分的組織結(jié)構(gòu),增加同城災(zāi)留章節(jié)。
版本V1.00(2020-12-11)
本手冊(cè)首次發(fā)布。
文檔反饋
針對(duì)本手冊(cè)的反饋,請(qǐng)發(fā)送郵件到:
目錄
1服務(wù)管理....................................................................錯(cuò)誤味定義書(shū)簽。
2自監(jiān)控.......................................................................錯(cuò)誤床定義書(shū)簽。
2.1概述..............................................................錯(cuò)誤味定義書(shū)簽。
2.2原理..............................................................錯(cuò)誤保定義書(shū)簽。
2.2.1探針的監(jiān)控...................................................錯(cuò)誤!未定義書(shū)簽。
2.2.2傳輸組件的監(jiān)控...............................................錯(cuò)誤!未定義書(shū)簽。
2.2.3后臺(tái)任務(wù)的監(jiān)控...............................................錯(cuò)誤味定義書(shū)簽。
2.3自監(jiān)控架構(gòu)........................................................錯(cuò)誤!未定義書(shū)簽。
2.4監(jiān)控指標(biāo)詳解.....................................................錯(cuò)誤!未定義書(shū)簽。
2.4.1操作系統(tǒng)監(jiān)控指標(biāo)詳解.........................................錯(cuò)誤!未定義書(shū)簽。
系統(tǒng)摘要..................................................錯(cuò)誤!未定義書(shū)簽。
CPU負(fù)載.................................................錯(cuò)誤!未定義書(shū)簽。
內(nèi)存使用..................................................錯(cuò)誤!未定義書(shū)簽。
CPU使用率...............................................錯(cuò)誤!未定義書(shū)簽。
進(jìn)程信息..................................................錯(cuò)誤!未定義書(shū)簽。
上下文切換...............................................錯(cuò)誤!未定義書(shū)簽。
中斷次數(shù)..................................................錯(cuò)誤!未定義書(shū)簽。
網(wǎng)絡(luò)吞吐量...............................................錯(cuò)誤!未定義書(shū)簽。
網(wǎng)卡每小時(shí)的收發(fā)量.......................................錯(cuò)誤!未定義書(shū)簽。
0SWAP的使用.............................................錯(cuò)誤!未定義書(shū)簽。
1SWAP的使用活躍度......................................錯(cuò)誤!未定義書(shū)簽。
2打開(kāi)文件數(shù)..............................................錯(cuò)誤!未定義書(shū)簽。
3掛載點(diǎn)磁盤(pán)空間..........................................錯(cuò)誤!未定義書(shū)簽。
2.4.1.14磁盤(pán)延遲................................................錯(cuò)誤!未定義書(shū)簽。
2.4.1.15磁盤(pán)\OPS.....................................................................................錯(cuò)誤!未定義書(shū)簽。
2.4.1.16磁盤(pán)吞吐................................................錯(cuò)誤!未定義書(shū)簽。
710util................................................................................................錯(cuò)誤!未定義書(shū)簽。
2.4.2進(jìn)程監(jiān)控指標(biāo)詳解.............................................錯(cuò)誤!未定義書(shū)簽。
2.4.3組件監(jiān)控.....................................................錯(cuò)誤味定義書(shū)簽。
Nginx監(jiān)控.................................................錯(cuò)誤!未定義書(shū)簽。
Tomcat監(jiān)控..............................................錯(cuò)誤!未定義書(shū)簽。
Zookeeper的...........................................錯(cuò)誤!未定義書(shū)簽。
Kafka監(jiān)控.................................................錯(cuò)誤!未定義書(shū)簽。
2.435Redis監(jiān)控................................................錯(cuò)誤!未定義書(shū)簽。
MySQL監(jiān)控..............................................錯(cuò)誤!未定義書(shū)簽。
ElasticSearch雌........................................錯(cuò)誤!未定義書(shū)簽。
2.4.4JVM監(jiān)控.....................................................四味定義書(shū)簽。
JVM啟動(dòng)時(shí)間..............................................錯(cuò)誤!未定義書(shū)簽。
2.4.4.2當(dāng)前線程數(shù)/deadlock線程數(shù)...............................錯(cuò)誤!未定義書(shū)簽。
JDK版本.................................................錯(cuò)誤!未定義書(shū)簽。
Heap區(qū)內(nèi)存使用情況......................................錯(cuò)誤!未定義書(shū)簽。
NonHeap區(qū)內(nèi)存使用情況.................................錯(cuò)誤!未定義書(shū)簽。
Eden/Survivor/Old區(qū)使用情況..............................錯(cuò)誤!未定義書(shū)簽。
2.4.47平..........................................................均每秒GC次數(shù)..錯(cuò)誤!未定義書(shū)簽。
2.4.4.8平均每次GC時(shí)間..........................................$前吳!未定義書(shū)簽。
2.4.4.9進(jìn)程負(fù)載..................................................錯(cuò)誤!未定義書(shū)簽。
2.4.5進(jìn)程監(jiān)控.....................................................錯(cuò)誤!未定義書(shū)簽。
2.4.5.1進(jìn)程數(shù)....................................................錯(cuò)誤!未定義書(shū)簽。
2.4.5.2進(jìn)程級(jí)CPU時(shí)間.........................................錯(cuò)誤!未定義書(shū)簽。
2.4.5.3進(jìn)程級(jí)10指標(biāo).............................................錯(cuò)誤!未定義書(shū)簽。
2.4.5.4進(jìn)程級(jí)文件句柄數(shù)..........................................錯(cuò)誤!未定義書(shū)簽。
2.4.5.5進(jìn)程級(jí)內(nèi)存使用...........................................錯(cuò)誤!未定義書(shū)簽。
3巡檢.........................................................................錯(cuò)誤!未定義書(shū)簽。
3.1日常巡檢...........................................................錯(cuò)誤!未定義書(shū)簽。
3.2數(shù)據(jù)流檢查........................................................錯(cuò)誤味定義書(shū)簽。
4組件維護(hù)....................................................................錯(cuò)誤味定義書(shū)簽。
4.1概述..............................................................■味定義書(shū)簽。
4.2DRUID配置多路徑..................................................錯(cuò)誤!未定義書(shū)簽。
4.3ELASTICSEARCH配置多路徑.........................................錯(cuò)誤!未定義書(shū)簽。
4.4HADOOP配置多路徑................................................錯(cuò)誤!未定義書(shū)簽。
4.5KAFKA配置多路徑.................................................錯(cuò)誤!未定義書(shū)簽。
5組件擴(kuò)容....................................................................錯(cuò)誤味定義書(shū)簽。
5.1ES擴(kuò)容..........................................................錯(cuò)誤!未定義書(shū)簽。
5.1.1準(zhǔn)備資源.....................................................錯(cuò)誤味定義書(shū)簽。
5.1.2新增ES節(jié)點(diǎn)服務(wù)..............................................錯(cuò)誤!未定義書(shū)簽。
5.1.3節(jié)點(diǎn)驗(yàn)證......................................................錯(cuò)誤味定義書(shū)簽。
5.1.4開(kāi)啟數(shù)據(jù)自動(dòng)均衡.............................................錯(cuò)誤味定義書(shū)簽。
5.1.5等待數(shù)據(jù)均衡.................................................錯(cuò)誤味定義書(shū)簽。
5.2REDIS擴(kuò)容.........................................................錯(cuò)誤味定義書(shū)簽。
5.2.1準(zhǔn)備資源.....................................................錯(cuò)誤!未定義書(shū)簽。
5.2.2新增Redis節(jié)點(diǎn)...............................................錯(cuò)誤!未定義書(shū)簽。
5.2.3修改配置文件.................................................錯(cuò)誤!未定義書(shū)簽。
5.2.4修改配置文件.................................................錯(cuò)誤!未定義書(shū)簽。
5.2.5啟動(dòng)Redis..............................................................................................錯(cuò)誤!未定義書(shū)簽。
5.2.6驗(yàn)證Redis是否正常...........................................錯(cuò)誤味定義書(shū)簽。
5.2.7啟動(dòng)哨兵服務(wù).................................................錯(cuò)誤味定義書(shū)簽。
5.3MYSQL擴(kuò)容.......................................................錯(cuò)誤味定義書(shū)簽。
5.3.1準(zhǔn)備資源.....................................................錯(cuò)誤味定義書(shū)簽。
5.3.2新增MySQL節(jié)點(diǎn).............................................錯(cuò)誤!未定義書(shū)簽。
5.3.3安裝MySQLShell..................................................................................錯(cuò)誤!未定義書(shū)簽。
5.3.4安裝MySQLRouter...............................................................................錯(cuò)誤!未定義書(shū)簽。
5.3.5節(jié)點(diǎn)加入集群.................................................錯(cuò)誤!未定義書(shū)簽。
5.3.6驗(yàn)證數(shù)據(jù).....................................................錯(cuò)誤!未定義書(shū)簽。
5.4DRUID擴(kuò)容........................................................錯(cuò)誤!未定義書(shū)簽。
5.4.1新增Druid節(jié)點(diǎn)................................................錯(cuò)誤!未定義書(shū)簽。
5.4.2增加historical節(jié)點(diǎn)............................................錯(cuò)誤!未定義書(shū)簽。
5.4.3增加middleManager節(jié)點(diǎn)......................................錯(cuò)誤!未定義書(shū)簽。
5.4.4遷移broker服務(wù)..............................................錯(cuò)誤味定義書(shū)簽。
5.5KAFKA擴(kuò)容........................................................錯(cuò)誤味定義書(shū)簽。
5.5.1新增kafka集群節(jié)點(diǎn)...........................................錯(cuò)誤味定義書(shū)簽。
5.5.2修改配置文件.................................................錯(cuò)誤味定義書(shū)簽。
5.5.3配置kafka的環(huán)境變量.........................................錯(cuò)誤!未定義書(shū)簽。
5.5.4注冊(cè)新節(jié)點(diǎn)到zookeeper.......................................................................錯(cuò)誤味定義書(shū)簽。
5.5.5添加新節(jié)點(diǎn)到集群.............................................錯(cuò)誤!未定義書(shū)簽。
5.5.6應(yīng)用遷移.....................................................錯(cuò)誤味定義書(shū)簽。
6備份和恢復(fù)...................................................................錯(cuò)誤味定義書(shū)簽。
6.1應(yīng)用備份和恢復(fù)...................................................錯(cuò)誤!未定義書(shū)簽。
6.1.1手工備份操作.................................................錯(cuò)誤保定義書(shū)簽。
6.1.2定時(shí)備份......................................................錯(cuò)誤!未定義書(shū)簽。
6.1.3恢復(fù)..........................................................錯(cuò)誤!未定義書(shū)簽。
6.1.4恢復(fù)時(shí)間說(shuō)明.................................................錯(cuò)誤!未定義書(shū)簽。
6.2數(shù)據(jù)備份和恢復(fù)...................................................錯(cuò)誤!未定義書(shū)簽。
6.2.1MySQL備份...................................................錯(cuò)誤!未定義書(shū)簽。
6.2.2MySQL恢復(fù)...................................................錯(cuò)誤!未定義書(shū)簽。
6.2.3druid備份.....................................................錯(cuò)誤!未定義書(shū)簽。
6.2.4ES備份.......................................................錯(cuò)誤味定義書(shū)簽。
6.2.5Druid恢復(fù).....................................................錯(cuò)誤!未定義書(shū)簽。
6.2.6ES恢復(fù).......................................................錯(cuò)誤味定義書(shū)簽。
7同城災(zāi)備....................................................................錯(cuò)誤味定義書(shū)簽。
7.1同城災(zāi)備場(chǎng)景.....................................................錯(cuò)誤保定義書(shū)簽。
7.2災(zāi)備架構(gòu)設(shè)計(jì).....................................................錯(cuò)誤!未定義書(shū)簽。
7.3日常維護(hù)..........................................................錯(cuò)誤味定義書(shū)簽。
7.4災(zāi)備切換..........................................................錯(cuò)誤味定義書(shū)簽。
7.5災(zāi)備回切..........................................................錯(cuò)誤味定義書(shū)簽。
7.6數(shù)據(jù)一致性........................................................錯(cuò)誤!未定義書(shū)簽。
8維護(hù)Q&A...............................................................................................................................................錯(cuò)誤味定義書(shū)簽。
8.1應(yīng)用日志中報(bào)ESINDEXREADONLY,如何處理?.......................錯(cuò)誤!未定義書(shū)簽。
8.2用戶體驗(yàn)分析自動(dòng)嵌碼怎么驗(yàn)證探針是否下發(fā)成功?..................錯(cuò)誤!未定義書(shū)簽。
8.3APM-LICENSE-SERVER啟動(dòng)異常......................................錯(cuò)誤!未定義書(shū)簽。
8.4自監(jiān)控配置郵件告警拋異常.........................................錯(cuò)誤味定義書(shū)簽。
1服務(wù)管理
?對(duì)整個(gè)環(huán)境進(jìn)行服務(wù)管理。
-關(guān)閉mysql
shservice,stopmysql
--啟動(dòng)zookeeper集群
shservice_startzookeeper
-關(guān)閉所有服務(wù)
shservice_stopall
-啟動(dòng)所有服務(wù)
shservice_startall
-列出kafka所在的機(jī)器列表
shservice_listkafka
-列出所有服務(wù)所在的機(jī)器列表
shservice_listkafka
-單獨(dú)啟動(dòng)某臺(tái)機(jī)器上的kafka服務(wù)
shservice_startkafka.
?對(duì)整個(gè)環(huán)境進(jìn)行服務(wù)檢直。
-卸載curlwget
shyumerasecurlwget
-卸載binddhcp
shyumerasebinddhcp
-卸載默認(rèn)數(shù)據(jù)庫(kù)
shyumerasemariadb
-檢杳NTP版本
shntpd--version
?Nginx安全
--檢查Nginx配置
在文件中添加
Vi
add_headerX-Frame-OptionsSAMEORIGIN;〃增加x-frame限制
然后重啟應(yīng)用
/usr/local/nginx/sbin/nginx-sreload
?sense-mock認(rèn)證處理
安裝完成后,修改
location/sense-mock/{
#proxy_pass:42017/;〃注釋原有配置
proxy_pass:8302/sense-mock/;〃配置URL跳轉(zhuǎn)到gateway;
)
?grafana配置
安裝完成后,修改/opt/tingyun/monitor3.0/grafana/conf/將grafana賬號(hào)管理統(tǒng)一到應(yīng)用
賬號(hào)管理。
[ic_oauth]
name=OAuth
enabled=true
allow_sign_up=true
clientjd=someid
client_secret=some_secret
scopes=user:email
email_attribute_name=emailprimary
email_attribute_path=
auth_url=http:〃平臺(tái)IP:8080/oauth/auth〃認(rèn)證采月應(yīng)用賬號(hào)系統(tǒng)
token_url=http://平臺(tái)IP:8080/auth-api/oauth/token?source=bpi
〃認(rèn)證采用應(yīng)用賬號(hào)系統(tǒng)
api_url=http://平臺(tái)IP:8080/auth-api/oauth/account?source=bpi
〃認(rèn)證采用應(yīng)用賬號(hào)系統(tǒng)
teamjds=
allowed_organizations=
tls_skip_verify_insecure=false
tls_clier)t_cert=
tls_clier)t_key=
tls_client_ca=
send_client_credentials_via_post=false
2自監(jiān)控
2.1概述
APM整套系統(tǒng)是一套復(fù)雜的分布式系統(tǒng),對(duì)于這樣一個(gè)系統(tǒng)的運(yùn)行需要較強(qiáng)的自運(yùn)維能力才能
保障系統(tǒng)的運(yùn)行,我們根據(jù)系統(tǒng)架構(gòu)進(jìn)行拆分、簡(jiǎn)單可概括為探針的監(jiān)控、監(jiān)控傳輸組件的監(jiān)
控、后臺(tái)任務(wù)的監(jiān)控三部分。保障了這三部分的網(wǎng)絡(luò)和應(yīng)用正常,才能保障整個(gè)系統(tǒng)能夠?qū)ν?/p>
提供服務(wù)。
2.2原理
下面我們分別對(duì)三個(gè)部分進(jìn)行詳細(xì)的原理描述。
2.2.1探針的監(jiān)控
探針的監(jiān)控我們將展示探針的類(lèi)型,探針名稱(chēng),狀態(tài)(在線/掉線),最后一條數(shù)據(jù)上傳時(shí)間。其
中狀態(tài)是以探針是否成功上傳數(shù)據(jù)到傳輸組件為依據(jù),傳輸組件會(huì)記錄該狀態(tài),我們將利用
promethus收集這些探針狀態(tài)進(jìn)行展示。如果探針5分鐘內(nèi)沒(méi)數(shù)據(jù)我們定義該探針為掉線狀
態(tài),需要進(jìn)行排查。
2.2.2傳輸組件的監(jiān)控
傳輸組件我們重點(diǎn)需要關(guān)注吞吐量和并發(fā)數(shù)??梢酝ㄟ^(guò)grafana進(jìn)行日常監(jiān)控。我們的傳輸組
件利用了Tomcat容器,所以對(duì)Tomcat的JVM進(jìn)行監(jiān)控,獲取如下信息,如果達(dá)到性能瓶頸
則進(jìn)行橫向擴(kuò)展。
線程池信息
用于顯示線程池信息,current為當(dāng)前線程池大小,busy為當(dāng)前繁忙線程,即當(dāng)前處理的并發(fā)清
求數(shù),如busy數(shù)量高到max60%考慮增加Tomcat線程數(shù)并擴(kuò)容機(jī)器配置。
16X151&5016^517:0017:0517:1017:151720172517:30173517x10
-max-current-busy
吞吐量
用于顯示Tomcat的請(qǐng)求吞吐量,評(píng)估是否超過(guò)網(wǎng)卡帶寬,若單臺(tái)Tomcat吞吐量過(guò)高,建議橫
向擴(kuò)展。
BytesSent/Received
125________________________________
100
75
50
25+
0---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
16:4516:501&5517:0017:0517:1017:1517:2017:2>17:30173517:40
一received-sent
每秒請(qǐng)求數(shù)/每秒錯(cuò)誤請(qǐng)求數(shù)
下圖為T(mén)omcat每秒請(qǐng)求數(shù)與每秒錯(cuò)誤數(shù),該指標(biāo)與線程池信息可構(gòu)成該Tomcat應(yīng)用的基線信
Qps/Eps
request-error
平均響應(yīng)時(shí)間
下圖為T(mén)omcat請(qǐng)求的瓶頸響應(yīng)時(shí)間,注意觀察如果有暴漲則需要對(duì)該應(yīng)用進(jìn)行優(yōu)化,可先對(duì)
JVM參數(shù)進(jìn)行調(diào)優(yōu),如不明顯則進(jìn)行應(yīng)用本身層面的排查。
request
如進(jìn)行橫向擴(kuò)展,則需要Nginx后端掛載多個(gè)Tomcat,需要對(duì)Nginx的吞吐量和并發(fā)數(shù)進(jìn)行監(jiān)
控,詳情如下:
Nginx并發(fā)連接數(shù)
下圖的active展示的是nginx的并發(fā)連接數(shù)。即nginxESTABILSH狀態(tài)連接的數(shù)量,如果并
發(fā)數(shù)過(guò)高,建議通過(guò)橫向擴(kuò)展增加并發(fā)處理能力。
Reading/Waiting/Writing數(shù)量
用于顯示正在讀取的HTTP請(qǐng)求數(shù)/準(zhǔn)備響應(yīng)的連接數(shù)/空閑等待的請(qǐng)求數(shù)。
Nginx每秒請(qǐng)求數(shù)
用于顯示Nginx的每秒請(qǐng)求數(shù),該指標(biāo)與并發(fā)連接數(shù)可構(gòu)成nginx的基線指標(biāo),注意nginx的
cpu利用率不要超過(guò)60%,如超過(guò)則考慮橫向擴(kuò)容
2.2.3后臺(tái)任務(wù)的監(jiān)控
后臺(tái)應(yīng)用主要負(fù)責(zé)從kafka收數(shù)據(jù)入庫(kù),我們主要針對(duì)kafka的消息積壓數(shù)進(jìn)行監(jiān)控。
詳情如下:
ConsumerGroupLag值
查看某ConsumerGroup積壓的數(shù)量,穩(wěn)定在某一個(gè)區(qū)間則沒(méi)問(wèn)題,如一直增長(zhǎng)說(shuō)明消費(fèi)端處
理不過(guò)來(lái),需要進(jìn)行排查。
此外,因?yàn)楸O(jiān)控?cái)?shù)據(jù)入庫(kù)會(huì)有不同的維度,我們會(huì)對(duì)庫(kù)內(nèi)所有維度的入庫(kù)時(shí)間監(jiān)控。當(dāng)庫(kù)內(nèi)存
儲(chǔ)維度信息的最后一條時(shí)間〈當(dāng)前時(shí)間5分鐘會(huì)有警告。
2.3自監(jiān)控架構(gòu)
除了必要的探針端、傳輸端和后臺(tái)應(yīng)用的監(jiān)控,我們還需要對(duì)所有的機(jī)器資源和組件進(jìn)行監(jiān)
控,以便系統(tǒng)出現(xiàn)瓶頸時(shí),及時(shí)處理和擴(kuò)容。為此我們提供了以下自監(jiān)控。
?系統(tǒng)監(jiān)控:針對(duì)所有機(jī)器操作系統(tǒng)的CPU、內(nèi)存、10、網(wǎng)絡(luò)進(jìn)行監(jiān)控。
?進(jìn)程監(jiān)控:針對(duì)APM系統(tǒng)的所有進(jìn)程進(jìn)行監(jiān)控。
?組件監(jiān)控:針對(duì)APM系統(tǒng)的Redis、MySQL、Kafka.Zookeeper.ES、Nginx等組件進(jìn)
行監(jiān)控。
?JVM監(jiān)控:針對(duì)Java進(jìn)程的JVM進(jìn)行監(jiān)控。
?圖表展示:針對(duì)上述采集到的指標(biāo)進(jìn)行圖標(biāo)展示,方便查看指標(biāo)趨勢(shì)。
?告警:對(duì)運(yùn)維平臺(tái)觸發(fā)的告警信息通知運(yùn)維人員。
自監(jiān)控系統(tǒng)的架構(gòu)如下圖所示:
2.4監(jiān)控指標(biāo)詳解
APM平臺(tái)本身也是一套復(fù)雜的后臺(tái)系統(tǒng),因此需要對(duì)其進(jìn)行完整的監(jiān)控。我們從操作系統(tǒng)、進(jìn)
程、組件、JVM等幾個(gè)維度分別進(jìn)行監(jiān)控,以期能達(dá)到自監(jiān)控的目的。
下面分別進(jìn)行解釋。
2.4.1操作系統(tǒng)監(jiān)控指標(biāo)詳解
眾所周知,操作系統(tǒng)層面的監(jiān)控是監(jiān)控的基本監(jiān)控,許多的故障和問(wèn)題都發(fā)生在操作系統(tǒng)本身
上,如CPU負(fù)載過(guò)高、內(nèi)存不夠等。接下來(lái)我們會(huì)對(duì)系統(tǒng)層面的所有指標(biāo)逐一進(jìn)行說(shuō)明。
系統(tǒng)摘要
主要包括機(jī)器啟動(dòng)時(shí)間、CPU核心數(shù)、內(nèi)存總?cè)萘亢涂捎脙?nèi)存容量。
4.6weeks1223.39GiB
CPU負(fù)載
用于展示CPU的負(fù)載、注意觀察負(fù)載是否有超過(guò)核心數(shù),如負(fù)載較高,需要擴(kuò)容CPU或者進(jìn)
行應(yīng)用遷移。
內(nèi)存使用
用于展示已用和可用內(nèi)存,建議可用內(nèi)存至少2G。
Memory
ZSGiB
23GiB
19GiB
14GiB
9GiB
5GiB
OB
11:1011:1511:20112511:30113511:4011)4511:50115512:0012:05
manmaxF
Used19.51GiB2139GiB20.16QB
Available1.99GiB工88GB3.23QB
CPU使用率
展示user、systemiowait,softirqcpu占比,建議全部加起來(lái)不超過(guò)60%。
CPUUsage
100.0%
50Q%
0%
13:40IMS1350135514K?14:0514:1014:151420142514301435
minmax?v”
uter1.91*11.76%3X)4%
sysietn0方冰1.33W0.79H
lowait0.0&H0.37%0.15%
softirq0.1OW0.10.12W
進(jìn)程信息
展示當(dāng)前處于Runnable狀態(tài)的進(jìn)程以及阻塞等待的進(jìn)程數(shù),需要注意是否有突然暴漲或暴跌。
Processes
IB
上下文切換
用于展示上下文切換次數(shù),需注意是否有累漲或暴跌.
ContextSwitches
15K
10K、_.
5K
0
1M5135013:55140014=0514:1014:15142014251430143514^0
minmax?vg
ContextSwitches1029K12.94K1089K
ContextSwitchesperVirtualCPU8581.08K907
241.7中斷次數(shù)
用于展示系統(tǒng)中斷次數(shù),需注意是否有暴漲或暴跌。
網(wǎng)絡(luò)吞吐量
用于展示出入的網(wǎng)絡(luò)吞吐量,注意不要超過(guò)網(wǎng)卡和交換機(jī)的上限,如當(dāng)前大部分為千兆網(wǎng)卡,
則網(wǎng)絡(luò)吞吐量建議不要超過(guò)600Mbps。
Inbound662kBps1309MBps1.176MBps
Outbound493kBps725kBps554kBps
網(wǎng)卡每小時(shí)的收發(fā)量
用于展示網(wǎng)卡每小時(shí)的收發(fā)量,此數(shù)據(jù)與網(wǎng)絡(luò)吞吐量正相關(guān),注意如有暴漲暴跌要分析其原因
是否合理。
NetworkUtilizationHourlyOLa#t24Wuc
3.78GB5.13?4.70GiB
1.86GB3.62QBZ87GiB
0SWAP的使用
用于展示sw叩的使用,因?yàn)長(zhǎng)inux系統(tǒng)會(huì)盡量使用內(nèi)存,偶爾使用swap,所以使用一點(diǎn)
swap沒(méi)關(guān)系,但是如果使用較多,占比超過(guò)60%,建議對(duì)內(nèi)存進(jìn)行擴(kuò)容。
Free462MiB464MiB463MiB
1SWAP的使用活躍度
用于展示swap換進(jìn)換出的頻率,此指標(biāo)和SWAP使用空間對(duì)應(yīng)著看,如換進(jìn)換出頻繁,且占
比超過(guò)60%建議對(duì)內(nèi)存進(jìn)行擴(kuò)容。如換進(jìn)換出不頻繁有可能是某一時(shí)刻swap使用量過(guò)多,可
以考慮將SWAP內(nèi)容清掉再進(jìn)行觀察。
SwapIn(Reads)0Bps2Z5kBps563Bps
2打開(kāi)文件數(shù)
用于展示系統(tǒng)的最大打開(kāi)文件數(shù)和當(dāng)前打開(kāi)文件數(shù),注意如果使用率超過(guò)60%需要調(diào)整系統(tǒng)參
數(shù)或遷移部分應(yīng)用。
-LimitX427Mil
-Alocated50KFileDescriptors
2.0Mil
1.5Mil
1.0Mil
500K
U>------------------
11/28000011/290(H?11/3000001241000012/200:0012/3000012/400KX)
minmaxavg*
—Umic2.427MdZ427MilZ427Mil
-Allocated35K97K56K
241.13掛載點(diǎn)磁盤(pán)空間
用于展示掛載點(diǎn)磁盤(pán)空間的使用情況,超過(guò)80%需要清理磁盤(pán)或進(jìn)行磁盤(pán)擴(kuò)容。
下圖可展示各掛載點(diǎn)的磁盤(pán)的具體容量信息。
44茲盤(pán)延遲
用于展示磁盤(pán)讀寫(xiě)的延遲,注意如果有延遲大幅增高,需要確認(rèn)是否為業(yè)務(wù)正常。
5磁盤(pán)IOPS
用于展示各磁盤(pán)讀寫(xiě)IOPS,可用于直看磁盤(pán)讀寫(xiě)頻率,如有暴漲或暴跌需注意是否異常,此指
標(biāo)要結(jié)合吞吐和i。util來(lái)判斷磁盤(pán)是否存在瓶頸。
6磁盤(pán)吞吐
用于展示各磁盤(pán)的讀寫(xiě)吞吐量,如果有暴漲或暴跌需注意是否異常,此指標(biāo)要結(jié)婚iops和I0
uti來(lái)判斷是否磁盤(pán)存在瓶頸。
7IOutil
用于展示各磁盤(pán)的繁忙程度,如超過(guò)60%且iops不高,磁盤(pán)吞吐也不高則說(shuō)明磁盤(pán)讀寫(xiě)存在嚴(yán)
重瓶頸,建議升級(jí)更快的磁盤(pán)。注意順序讀寫(xiě)會(huì)大量占用磁盤(pán)吞吐,離散讀寫(xiě)會(huì)大量占用
l0PSo
2.4.2進(jìn)程監(jiān)控指標(biāo)詳解
對(duì)Nginx、DC、wrap,backend,alarm、MySQL、Zookeeper.Kafka.Redis、
ElasticSearch進(jìn)程和端口的監(jiān)控。
2.4.3組件監(jiān)控
Nginx監(jiān)控
Nginx并發(fā)連接數(shù)
下圖的active展示的是nginx的并發(fā)連接數(shù)。即NginxESTABILSH狀態(tài)連接的數(shù)量,如果井
發(fā)數(shù)過(guò)高,建議通過(guò)橫向擴(kuò)展增加并發(fā)處理能力。
一actMreading一waiting-wrmng
Reading/Waiting/Writing數(shù)量
用于顯示正在讀取的http請(qǐng)求數(shù)/準(zhǔn)備響應(yīng)的連接數(shù)/空閑等行的請(qǐng)求數(shù)。
Nginx每秒請(qǐng)求數(shù)
用于顯示Nginx的每秒請(qǐng)求數(shù),該指標(biāo)與并發(fā)連接數(shù)可構(gòu)成Nginx的基線指標(biāo),注意Nginx的
CPU利用率不要超過(guò)60%,如超過(guò)則考慮橫向擴(kuò)容。
Tomcat監(jiān)才空
線程池信息
用于顯示Tomcat線程池信息,cu
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國(guó)開(kāi)槽機(jī)行業(yè)市場(chǎng)深度研究及發(fā)展趨勢(shì)預(yù)測(cè)報(bào)告
- 2025年度能源項(xiàng)目資料承包合同
- 2誰(shuí)的植物長(zhǎng)得好 教學(xué)設(shè)計(jì)-2024-2025學(xué)年科學(xué)二年級(jí)上冊(cè)人教鄂教版
- 2025年金屬器具合作協(xié)議書(shū)
- 2025年度體育場(chǎng)館地坪鋪設(shè)及運(yùn)動(dòng)性能提升分包協(xié)議
- 專(zhuān)題17 語(yǔ)言文字運(yùn)用(標(biāo)點(diǎn)類(lèi))- 2025年高考復(fù)習(xí)近十年之語(yǔ)文真題分項(xiàng)匯編 (解析卷)
- 03 2 首屆諾貝爾獎(jiǎng)?lì)C發(fā)2024-2025學(xué)年八年級(jí)語(yǔ)文上冊(cè)同步教學(xué)設(shè)計(jì)(河北專(zhuān)版)
- 2025年寵物臨時(shí)寄養(yǎng)服務(wù)合同范本
- 7聽(tīng)聽(tīng)秋的聲音 教學(xué)設(shè)計(jì)-2024-2025學(xué)年語(yǔ)文三年級(jí)上冊(cè)統(tǒng)編版
- 2025年度金融信息服務(wù)保密競(jìng)業(yè)限制及知識(shí)產(chǎn)權(quán)歸屬共享協(xié)議
- 可下載打印的公司章程
- 不吃路邊攤精品課件
- 《網(wǎng)絡(luò)服務(wù)器搭建、配置與管理-Linux(RHEL8、CentOS8)(微課版)(第4版)》全冊(cè)電子教案
- 心理評(píng)估與診斷簡(jiǎn)介
- 無(wú)痛病房管理課件
- 讓孩子變成學(xué)習(xí)的天使——由《第56號(hào)教室的奇跡》讀書(shū)分享
- 球泡檢驗(yàn)標(biāo)準(zhǔn)
- 公安筆錄模板之詢問(wèn)嫌疑人(書(shū)面?zhèn)鲉局伟舶讣?
- 振動(dòng)分析基礎(chǔ)講義1
- 記賬憑證匯總表excel模板
- 鄧麗君經(jīng)典歌曲30首簡(jiǎn)譜(共33頁(yè))
評(píng)論
0/150
提交評(píng)論