Skip to content

Phase 8 - Monitoring et Observabilité

Objectif

Mettre en place une stack de monitoring complète avec Prometheus, Grafana et logging centralisé.

Architecture Observabilité

graph TB
    ops["👤 Operations<br/>Surveille l'infra"]

    subgraph Monitoring["Monitoring Stack"]
        prometheus["📊 Prometheus<br/>TSDB Métriques"]
        alertmanager["🔔 AlertManager<br/>Notifications"]
        grafana["📈 Grafana<br/>Dashboards"]
    end

    subgraph Logging["Logging Stack"]
        loki["📝 Loki<br/>Log aggregation"]
        promtail["Promtail<br/>Log collection"]
    end

    subgraph Targets["Cibles"]
        os_exporter["OS Exporter<br/>Métriques OpenStack"]
        node_exporter["Node Exporter<br/>Métriques système"]
        ceph_exporter["Ceph Exporter<br/>Métriques Ceph"]
    end

    ops --> grafana
    grafana --> prometheus
    grafana --> loki
    prometheus -->|Scrape| os_exporter
    prometheus -->|Scrape| node_exporter
    prometheus -->|Scrape| ceph_exporter
    prometheus --> alertmanager
    promtail --> loki

Sujets de cette phase

# Sujet Description Durée estimée
01 Stack Prometheus Installation, config 3-4 heures
02 Exporters OpenStack openstack-exporter 2-3 heures
03 Exporters Ceph ceph-exporter 1-2 heures
04 Dashboards Grafana Visualisation 3-4 heures
05 Alerting Règles et notifications 2-3 heures
06 Logging centralisé Loki/ELK 3-4 heures

Métriques clés à surveiller

OpenStack

  • API response time
  • Instance creation rate
  • Service status
  • Quota usage

Ceph

  • Cluster health
  • OSD status
  • Pool usage
  • IOPS/throughput

Système

  • CPU/RAM/Disk
  • Network I/O
  • Container health

Checkpoint de validation

  • Prometheus collecte les métriques
  • Exporters déployés et fonctionnels
  • Dashboards Grafana importés
  • Alerting configuré
  • Logs centralisés dans Loki