Phase 10 - Opérations et Maintenance¶

Objectif¶

Maîtriser les opérations day-2 : backups, upgrades SLURP, procédures PRA/PCA, documentation opérationnelle.

Vue d'ensemble opérations¶

graph TB
    ops["👤 Ops Team<br/>Gère les opérations"]

    openstack["☁️ OpenStack<br/>Production"]
    backup["💾 Backup System<br/>Sauvegarde données"]
    monitoring["📊 Monitoring<br/>Alerting"]
    docs["📖 Documentation<br/>Runbooks, procédures"]
    dr["🔄 DR Site<br/>Disaster Recovery"]

    ops --> openstack
    ops --> docs
    openstack -->|Sauvegarde quotidienne| backup
    openstack -->|Métriques/Alertes| monitoring
    monitoring -->|Notifications| ops
    backup -->|Réplication| dr

Sujets de cette phase¶

#	Sujet	Description	Durée estimée
01	Stratégies backup	DB, config, volumes	3-4 heures
02	Upgrades SLURP	Skip-level upgrades	4-5 heures
03	Rolling updates	Zero-downtime	3-4 heures
04	PRA	Plan de Reprise d'Activité	3-4 heures
05	PCA	Plan de Continuité	3-4 heures
06	Documentation ops	Runbooks, procédures	3-4 heures

SLURP (Skip Level Upgrade Release Process)¶

OpenStack supporte les upgrades "SLURP" qui permettent de sauter une version :

2024.1 → 2024.2 → 2025.1 → 2025.2
  │                  │
  └──────────────────┘
    SLURP (skip 2024.2)

Procédure upgrade Kolla-Ansible¶

# 1. Backup complet
./backup-openstack.sh

# 2. Mettre à jour Kolla-Ansible
pip install -U 'kolla-ansible==19.*'
kolla-ansible install-deps

# 3. Préchecks
kolla-ansible -i ~/multinode prechecks

# 4. Upgrade
kolla-ansible -i ~/multinode upgrade

# 5. Post-upgrade checks
./validate-openstack.sh

Backups critiques¶

Composant	Fréquence	Méthode
MariaDB	Quotidien	mysqldump + binlog
/etc/kolla	Après chaque modif	rsync
passwords.yml	Immédiatement	Copie sécurisée
Ceph	Continu	Réplication 3x
Volumes critiques	Quotidien	Snapshot Ceph

Structure PRA/PCA¶

PRA (Reprise d'Activité)¶

RTO : Temps max pour restaurer
RPO : Perte de données max acceptée
Procédures de restauration testées

PCA (Continuité d'Activité)¶

Redondance N+1 minimum
Sites géographiquement distribués
Failover automatique/manuel

Checkpoint de validation¶

Procédure de backup testée et documentée
Upgrade test réussi (lab)
PRA documenté avec RTO/RPO définis
PCA avec procédures de failover
Runbooks pour incidents courants
Documentation à jour