반응형

Ops/Monitoring 4

[Monitoring] Grafana 대시보드 백업 자동화

개요 Grafana 대시보드를 20-30개 정도 커스텀해서 사용하다 보니, 대시보드 백업이 필요했다. 대시보드의 Export 기능을 사용해 수동으로 백업해도 되지만, HTTP API를 이용해 백업을 자동화하였다. HTTP API를 통해 JSON 파일로 백업한 후, 수동으로 git에 푸시하는 구조로 개발하였다. HTTP API https://grafana.com/docs/grafana/latest/developers/http_api/ Api Key를 클릭한다. 2. Add API key를 클릭한다. 3. 아래를 참고하여 정보를 추가해주자. Key Name : 원하는 Key의 이름 Role : 우리는 백업 용도로 사용하니깐, Viewer를 선택해주면 된다. Time to live : 만료일자. 4. 생성이 ..

Ops/Monitoring 2022.11.07

[Monitoring] kube_node_labels에 label이 표시 안되는 현상 (kube-state-metrics) (grafana/prometheus)

개요 Grafana 대시보드 구성을 위해 Node의 lable이 필요한 상황이라 kube_node_label 메트릭(metrics)을 조회해봤다. 하지만, kube_node_label 메트릭에서는 label에 대한 정보가 표시되지 않고 있었다. 이를 해결했던 경험을 작성하려고 한다. + (kube_pod_label에서도 표시되지 않는 현상도 수정하였다.) 환경 kube-prometheus-stack v 32.2.1 kube-state-metric v2.3.0 원인 kube-state-metrics이 kube_node_label과 kube_pod_label 메트릭을 수집하고 있는데, v2.0.0부터는 label을 따로 표기하지 않게 설정이 되었다고 한다. (많은 label로 인해 에러를 방지하기 위함이라고..

Ops/Monitoring 2022.08.31

[Monitoring] DCMG-Exporter 메트릭이 프로메테우스에 수집 안되는 현상

개요 GPU 모니터링을 위해 NVIDIA에서 제공하는 DCGM-Exporter를 설치한 후, 프로메테우스에서 Metrics을 조회해보니 조회되지 않는 현상이 발생하였다. (dcgm-exporter POD에 접속하여, curl 날려본 결과 정상적으로 메트릭을 보내는 것을 알 수 있다.) 원인은 prometheus 설정 부분으로 추측하였다. https://github.com/NVIDIA/dcgm-exporter GitHub - NVIDIA/dcgm-exporter: NVIDIA GPU metrics exporter for Prometheus leveraging DCGM NVIDIA GPU metrics exporter for Prometheus leveraging DCGM - GitHub - NVIDIA/d..

Ops/Monitoring 2022.08.16

[Monitoring] 프로메테우스란 (Prometheus)

프로메테우스 (Prometheus)란? - 음악 공유 플랫폼인 SoundCloud에서 개발한 시스템 모니터링 및 알람 툴이다. - 오픈소스로 전환되어, kubernetes 다음으로 CNCF에 합류 - metrics 단위로 데이터를 Pull - 수집된 정보들은 시계열 데이터베이스에 저장됨 - PromQL 쿼리 언어를 사용 -https://prometheus.io/ Prometheus - Monitoring system & time series database An open-source monitoring system with a dimensional data model, flexible query language, efficient time series database and modern alerting ..

Ops/Monitoring 2022.08.04
반응형