哪些網(wǎng)站可以做邀請函精準(zhǔn)大數(shù)據(jù)獲客系統(tǒng)
文章目錄
- 1. 監(jiān)控指標(biāo)采集
- 1.1 部署elasticsearch_exporter
- 1.2 prometheus采集elasticsearch_exporter的暴露指標(biāo)
- 1.3 promethues配置告警規(guī)則或者配置grafana大盤
- 2. 核心告警指標(biāo)
- 2.1 es核心指標(biāo)
- 2.2 es容量模型建議
- 3. 參考文章
探討es的監(jiān)控?cái)?shù)據(jù)采集方式以及需要關(guān)注的核心指標(biāo),便于日常生產(chǎn)進(jìn)行監(jiān)控和巡檢。
1. 監(jiān)控指標(biāo)采集
監(jiān)控指標(biāo)的采集方式使用promethues + elasticsearch_exporter的方式采集es的指標(biāo),并通過promethues協(xié)議暴露出來。本文探討es的采集監(jiān)控方式,以及常用核心監(jiān)控告警配置。
1.1 部署elasticsearch_exporter
elasticsearch_exporter的 下載地址 選擇合適的版本下載,并解壓,使用如下方法啟動(dòng)。
# 不帶鑒權(quán)方式
./elasticsearch_exporter --web.listen-address=":9114" --es.uri=http://127.0.0.1:9200
# 帶鑒權(quán)方式
./elasticsearch_exporter --web.listen-address=":9114" --es.uri=http://admin:pass@127.0.0.1:9200
確定metrics指標(biāo)暴露出來后,就可以通過prometheus配置target進(jìn)行指標(biāo)采集
# 通過promethues協(xié)議暴露指標(biāo)
curl http://localhost:9114/metrics
1.2 prometheus采集elasticsearch_exporter的暴露指標(biāo)
配置prometheus的指標(biāo)采集任務(wù)
- job_name: esstatic_configs:- targets: ['172.19.0.2:9114','172.19.0.3:9114','172.19.0.4:9114']labels:instance: es
1.3 promethues配置告警規(guī)則或者配置grafana大盤
再次不進(jìn)行擴(kuò)展。
2. 核心告警指標(biāo)
es的指標(biāo)很多,相關(guān)的指標(biāo)含義可以參考 官網(wǎng)文檔,本文將摘選出核心的指標(biāo),作為es集群的核心監(jiān)控并配置相關(guān)的告警。
2.1 es核心指標(biāo)
es性能指標(biāo)有以下三類:
- es本身的指標(biāo)
- 主機(jī)層面的指標(biāo)
- JVM垃圾回收指標(biāo)
es層面指標(biāo)
指標(biāo)名稱 | 指標(biāo)說明 | 參考值 | 備注 |
---|---|---|---|
進(jìn)程 | 進(jìn)程 | 進(jìn)程存在 == 1 | |
指標(biāo)名稱 | 指標(biāo)說明 | 參考值 | 備注 |
elasticsearch_cluster_health_status{status=“green”} | 集群狀態(tài) | !==1 | green( 所有的主分片和副本分片都正常運(yùn)行)、yellow(所有的主分片都正常運(yùn)行,但不是所有的副本分片都正常運(yùn)行)red(有主分片沒能正常運(yùn)行) |
elasticsearch_cluster_health_relocating_shards | 前節(jié)點(diǎn)正在遷移到其他節(jié)點(diǎn)的分片數(shù)量 | <=20 | 通常為0,集群中有節(jié)點(diǎn)新加入或者退出時(shí)該值會(huì)增加 |
elasticsearch_cluster_health_initializing_shards | 正在初始化的分片 | <=50 | 如果數(shù)據(jù)寫入,通常持續(xù)有小幅度值出現(xiàn) |
elasticsearch_cluster_health_unassigned_shards | 未分配的分片數(shù) | <=1 | 通常為0,當(dāng)有節(jié)點(diǎn)的副本分片丟失該值會(huì)增加 |
elasticsearch_cluster_health_number_of_pending_tasks | 隊(duì)列中等待的任務(wù) | <=20 | 絕大部分情況下元數(shù)據(jù)更改的隊(duì)列基本上保持為零 |
elasticsearch_cluster_health_active_shards | 活躍的分片數(shù)量 | <=3w | 通常按照容量模型,單個(gè)集群的總分片不應(yīng)該超過3w |
暫無指標(biāo) | 單shard數(shù)據(jù)存儲(chǔ)大小 | <=50g | 通常按照容量模型,單個(gè)分片的最大存儲(chǔ)數(shù)據(jù)量不應(yīng)該超過50g |
機(jī)器層面指標(biāo)
指標(biāo)名稱 | 指標(biāo)說明 | 參考值 | 備注 |
---|---|---|---|
elasticsearch_process_cpu_percent | CPU使用率 | <=80% | 機(jī)器的cpu使用率不能過高 |
elasticsearch_filesystem_data_free_bytes | 磁盤可用空間 | >=30% | 機(jī)器的磁盤是使用率不能過高,否則可能會(huì)觸發(fā)只讀風(fēng)險(xiǎn) |
elasticsearch_process_open_files_count | 進(jìn)程打開的文件描述符 | <=60w | 需要配置ulimit,匹配相關(guān)的進(jìn)程進(jìn)行文件讀寫,通常不能低于60w |
elasticsearch_transport_rx_packets_total | 節(jié)點(diǎn)之間網(wǎng)絡(luò)入流量 | 根據(jù)機(jī)器的規(guī)格調(diào)整 | 節(jié)點(diǎn)之間網(wǎng)絡(luò)入流量,根據(jù)機(jī)器的網(wǎng)絡(luò)網(wǎng)卡規(guī)格調(diào)整,如果單節(jié)點(diǎn)的出入網(wǎng)絡(luò)過高則說明需要擴(kuò)容了 |
elasticsearch_transport_tx_packets_total | 節(jié)點(diǎn)之間網(wǎng)絡(luò)出流量 | 根據(jù)機(jī)器的規(guī)格調(diào)整 | 節(jié)點(diǎn)之間網(wǎng)絡(luò)出流量,根據(jù)機(jī)器的網(wǎng)絡(luò)網(wǎng)卡規(guī)格調(diào)整,如果單節(jié)點(diǎn)的出入網(wǎng)絡(luò)過高則說明需要擴(kuò)容了 |
JVM指標(biāo)
指標(biāo)名稱 | 指標(biāo)說明 | 參考值 | 備注 |
---|---|---|---|
MemHeapUsedM/MemHeapMaxM | Jvm 堆內(nèi)內(nèi)存使用率 | <= 60% |
2.2 es容量模型建議
根據(jù)公有云以及es的維護(hù)、使用的相關(guān)經(jīng)驗(yàn),單個(gè)es集群的容量不是無上限,整理出es的容量模型,需要進(jìn)行注意及時(shí)擴(kuò)容或者做數(shù)據(jù)分流
1.【公有云 ES 最佳實(shí)踐】
1.1 集群總分片數(shù) < 30000,單個(gè)索引分片大小建議不超過 50g,單節(jié)點(diǎn)分片數(shù)量 < 4000
1.2 節(jié)點(diǎn)數(shù)超過 20 節(jié)點(diǎn)添加專有 master 節(jié)點(diǎn),即 data:master ≤ 20:1
1.3 cpu/mem/disk 建議比例
搜索場景:比例 1:2:32
日志場景:比例 1:4:192 ~ 1:4:384
1.4 單節(jié)點(diǎn)性能規(guī)格參考
寫入性能: 16c/64g、 jvm 32G 單節(jié)點(diǎn)可支持 2w docs/s 寫入
存儲(chǔ)容量 = 源數(shù)據(jù) * (1 + 副本數(shù)量) * 1.45 * (1 + 0.5)≈ 源數(shù)據(jù) * (1 + 副本數(shù)量)
2.【社區(qū)建議】
2.1 數(shù)據(jù)加速、查詢聚合等場景:單節(jié)點(diǎn)磁盤最大容量 = 單節(jié)點(diǎn)內(nèi)存大小(GB)* 10。
日志寫入、離線分析等場景:單節(jié)點(diǎn)磁盤最大容量 = 單節(jié)點(diǎn)內(nèi)存大小(GB)* 50。
通常情況:單節(jié)點(diǎn)磁盤最大容量 = 單節(jié)點(diǎn)內(nèi)存大小(GB)* 30。
2.2單個(gè)數(shù)據(jù)節(jié)點(diǎn)的shard數(shù)量 = 當(dāng)前節(jié)點(diǎn)的內(nèi)存大小 * 30(小規(guī)格實(shí)例參考)
單個(gè)數(shù)據(jù)節(jié)點(diǎn)的shard數(shù)量 = 當(dāng)前節(jié)點(diǎn)的內(nèi)存大小 * 50(大規(guī)格實(shí)例參考)
3.其他指標(biāo)
cpu < 60%
jvm內(nèi)存 < 80%
磁盤util < 60%
磁盤使用率 < 70%
集群所有index,必須至少1主 + 1從副本
集群讀寫拒絕率 < 0.1%
集群無節(jié)點(diǎn) old gc
單節(jié)點(diǎn)承載最大數(shù)據(jù)量 < 1T
ES版本 >= 6.8
3. 參考文章
- es監(jiān)控官網(wǎng)