Phase 10 - Opérations et Maintenance¶
Objectif¶
Maîtriser les opérations day-2 : backups, upgrades SLURP, procédures PRA/PCA, documentation opérationnelle.
Vue d'ensemble opérations¶
graph TB
ops["👤 Ops Team<br/>Gère les opérations"]
openstack["☁️ OpenStack<br/>Production"]
backup["💾 Backup System<br/>Sauvegarde données"]
monitoring["📊 Monitoring<br/>Alerting"]
docs["📖 Documentation<br/>Runbooks, procédures"]
dr["🔄 DR Site<br/>Disaster Recovery"]
ops --> openstack
ops --> docs
openstack -->|Sauvegarde quotidienne| backup
openstack -->|Métriques/Alertes| monitoring
monitoring -->|Notifications| ops
backup -->|Réplication| dr
Sujets de cette phase¶
| # | Sujet | Description | Durée estimée |
|---|---|---|---|
| 01 | Stratégies backup | DB, config, volumes | 3-4 heures |
| 02 | Upgrades SLURP | Skip-level upgrades | 4-5 heures |
| 03 | Rolling updates | Zero-downtime | 3-4 heures |
| 04 | PRA | Plan de Reprise d'Activité | 3-4 heures |
| 05 | PCA | Plan de Continuité | 3-4 heures |
| 06 | Documentation ops | Runbooks, procédures | 3-4 heures |
SLURP (Skip Level Upgrade Release Process)¶
OpenStack supporte les upgrades "SLURP" qui permettent de sauter une version :
Procédure upgrade Kolla-Ansible¶
# 1. Backup complet
./backup-openstack.sh
# 2. Mettre à jour Kolla-Ansible
pip install -U 'kolla-ansible==19.*'
kolla-ansible install-deps
# 3. Préchecks
kolla-ansible -i ~/multinode prechecks
# 4. Upgrade
kolla-ansible -i ~/multinode upgrade
# 5. Post-upgrade checks
./validate-openstack.sh
Backups critiques¶
| Composant | Fréquence | Méthode |
|---|---|---|
| MariaDB | Quotidien | mysqldump + binlog |
| /etc/kolla | Après chaque modif | rsync |
| passwords.yml | Immédiatement | Copie sécurisée |
| Ceph | Continu | Réplication 3x |
| Volumes critiques | Quotidien | Snapshot Ceph |
Structure PRA/PCA¶
PRA (Reprise d'Activité)¶
- RTO : Temps max pour restaurer
- RPO : Perte de données max acceptée
- Procédures de restauration testées
PCA (Continuité d'Activité)¶
- Redondance N+1 minimum
- Sites géographiquement distribués
- Failover automatique/manuel
Checkpoint de validation¶
- Procédure de backup testée et documentée
- Upgrade test réussi (lab)
- PRA documenté avec RTO/RPO définis
- PCA avec procédures de failover
- Runbooks pour incidents courants
- Documentation à jour