반응형

Prometheus 2

[Monitoring] kube_node_labels에 label이 표시 안되는 현상 (kube-state-metrics) (grafana/prometheus)

개요 Grafana 대시보드 구성을 위해 Node의 lable이 필요한 상황이라 kube_node_label 메트릭(metrics)을 조회해봤다. 하지만, kube_node_label 메트릭에서는 label에 대한 정보가 표시되지 않고 있었다. 이를 해결했던 경험을 작성하려고 한다. + (kube_pod_label에서도 표시되지 않는 현상도 수정하였다.) 환경 kube-prometheus-stack v 32.2.1 kube-state-metric v2.3.0 원인 kube-state-metrics이 kube_node_label과 kube_pod_label 메트릭을 수집하고 있는데, v2.0.0부터는 label을 따로 표기하지 않게 설정이 되었다고 한다. (많은 label로 인해 에러를 방지하기 위함이라고..

Ops/Monitoring 2022.08.31

[Monitoring] DCMG-Exporter 메트릭이 프로메테우스에 수집 안되는 현상

개요 GPU 모니터링을 위해 NVIDIA에서 제공하는 DCGM-Exporter를 설치한 후, 프로메테우스에서 Metrics을 조회해보니 조회되지 않는 현상이 발생하였다. (dcgm-exporter POD에 접속하여, curl 날려본 결과 정상적으로 메트릭을 보내는 것을 알 수 있다.) 원인은 prometheus 설정 부분으로 추측하였다. https://github.com/NVIDIA/dcgm-exporter GitHub - NVIDIA/dcgm-exporter: NVIDIA GPU metrics exporter for Prometheus leveraging DCGM NVIDIA GPU metrics exporter for Prometheus leveraging DCGM - GitHub - NVIDIA/d..

Ops/Monitoring 2022.08.16
반응형