Phase 8 - Monitoring et Observabilité¶

Objectif¶

Mettre en place une stack de monitoring complète avec Prometheus, Grafana et logging centralisé.

Architecture Observabilité¶

graph TB
    ops["👤 Operations<br/>Surveille l'infra"]

    subgraph Monitoring["Monitoring Stack"]
        prometheus["📊 Prometheus<br/>TSDB Métriques"]
        alertmanager["🔔 AlertManager<br/>Notifications"]
        grafana["📈 Grafana<br/>Dashboards"]
    end

    subgraph Logging["Logging Stack"]
        loki["📝 Loki<br/>Log aggregation"]
        promtail["Promtail<br/>Log collection"]
    end

    subgraph Targets["Cibles"]
        os_exporter["OS Exporter<br/>Métriques OpenStack"]
        node_exporter["Node Exporter<br/>Métriques système"]
        ceph_exporter["Ceph Exporter<br/>Métriques Ceph"]
    end

    ops --> grafana
    grafana --> prometheus
    grafana --> loki
    prometheus -->|Scrape| os_exporter
    prometheus -->|Scrape| node_exporter
    prometheus -->|Scrape| ceph_exporter
    prometheus --> alertmanager
    promtail --> loki

Sujets de cette phase¶

#	Sujet	Description	Durée estimée
01	Stack Prometheus	Installation, config	3-4 heures
02	Exporters OpenStack	openstack-exporter	2-3 heures
03	Exporters Ceph	ceph-exporter	1-2 heures
04	Dashboards Grafana	Visualisation	3-4 heures
05	Alerting	Règles et notifications	2-3 heures
06	Logging centralisé	Loki/ELK	3-4 heures

Métriques clés à surveiller¶

OpenStack¶

API response time
Instance creation rate
Service status
Quota usage

Ceph¶

Cluster health
OSD status
Pool usage
IOPS/throughput

Système¶

CPU/RAM/Disk
Network I/O
Container health

Checkpoint de validation¶

Prometheus collecte les métriques
Exporters déployés et fonctionnels
Dashboards Grafana importés
Alerting configuré
Logs centralisés dans Loki