Phase 8 - Monitoring et Observabilité¶
Objectif¶
Mettre en place une stack de monitoring complète avec Prometheus, Grafana et logging centralisé.
Architecture Observabilité¶
graph TB
ops["👤 Operations<br/>Surveille l'infra"]
subgraph Monitoring["Monitoring Stack"]
prometheus["📊 Prometheus<br/>TSDB Métriques"]
alertmanager["🔔 AlertManager<br/>Notifications"]
grafana["📈 Grafana<br/>Dashboards"]
end
subgraph Logging["Logging Stack"]
loki["📝 Loki<br/>Log aggregation"]
promtail["Promtail<br/>Log collection"]
end
subgraph Targets["Cibles"]
os_exporter["OS Exporter<br/>Métriques OpenStack"]
node_exporter["Node Exporter<br/>Métriques système"]
ceph_exporter["Ceph Exporter<br/>Métriques Ceph"]
end
ops --> grafana
grafana --> prometheus
grafana --> loki
prometheus -->|Scrape| os_exporter
prometheus -->|Scrape| node_exporter
prometheus -->|Scrape| ceph_exporter
prometheus --> alertmanager
promtail --> loki
Sujets de cette phase¶
| # | Sujet | Description | Durée estimée |
|---|---|---|---|
| 01 | Stack Prometheus | Installation, config | 3-4 heures |
| 02 | Exporters OpenStack | openstack-exporter | 2-3 heures |
| 03 | Exporters Ceph | ceph-exporter | 1-2 heures |
| 04 | Dashboards Grafana | Visualisation | 3-4 heures |
| 05 | Alerting | Règles et notifications | 2-3 heures |
| 06 | Logging centralisé | Loki/ELK | 3-4 heures |
Métriques clés à surveiller¶
OpenStack¶
- API response time
- Instance creation rate
- Service status
- Quota usage
Ceph¶
- Cluster health
- OSD status
- Pool usage
- IOPS/throughput
Système¶
- CPU/RAM/Disk
- Network I/O
- Container health
Checkpoint de validation¶
- Prometheus collecte les métriques
- Exporters déployés et fonctionnels
- Dashboards Grafana importés
- Alerting configuré
- Logs centralisés dans Loki