Skip to content

Phase 10 - Opérations et Maintenance

Objectif

Maîtriser les opérations day-2 : backups, upgrades SLURP, procédures PRA/PCA, documentation opérationnelle.

Vue d'ensemble opérations

graph TB
    ops["👤 Ops Team<br/>Gère les opérations"]

    openstack["☁️ OpenStack<br/>Production"]
    backup["💾 Backup System<br/>Sauvegarde données"]
    monitoring["📊 Monitoring<br/>Alerting"]
    docs["📖 Documentation<br/>Runbooks, procédures"]
    dr["🔄 DR Site<br/>Disaster Recovery"]

    ops --> openstack
    ops --> docs
    openstack -->|Sauvegarde quotidienne| backup
    openstack -->|Métriques/Alertes| monitoring
    monitoring -->|Notifications| ops
    backup -->|Réplication| dr

Sujets de cette phase

# Sujet Description Durée estimée
01 Stratégies backup DB, config, volumes 3-4 heures
02 Upgrades SLURP Skip-level upgrades 4-5 heures
03 Rolling updates Zero-downtime 3-4 heures
04 PRA Plan de Reprise d'Activité 3-4 heures
05 PCA Plan de Continuité 3-4 heures
06 Documentation ops Runbooks, procédures 3-4 heures

SLURP (Skip Level Upgrade Release Process)

OpenStack supporte les upgrades "SLURP" qui permettent de sauter une version :

2024.1 → 2024.2 → 2025.1 → 2025.2
  │                  │
  └──────────────────┘
    SLURP (skip 2024.2)

Procédure upgrade Kolla-Ansible

# 1. Backup complet
./backup-openstack.sh

# 2. Mettre à jour Kolla-Ansible
pip install -U 'kolla-ansible==19.*'
kolla-ansible install-deps

# 3. Préchecks
kolla-ansible -i ~/multinode prechecks

# 4. Upgrade
kolla-ansible -i ~/multinode upgrade

# 5. Post-upgrade checks
./validate-openstack.sh

Backups critiques

Composant Fréquence Méthode
MariaDB Quotidien mysqldump + binlog
/etc/kolla Après chaque modif rsync
passwords.yml Immédiatement Copie sécurisée
Ceph Continu Réplication 3x
Volumes critiques Quotidien Snapshot Ceph

Structure PRA/PCA

PRA (Reprise d'Activité)

  • RTO : Temps max pour restaurer
  • RPO : Perte de données max acceptée
  • Procédures de restauration testées

PCA (Continuité d'Activité)

  • Redondance N+1 minimum
  • Sites géographiquement distribués
  • Failover automatique/manuel

Checkpoint de validation

  • Procédure de backup testée et documentée
  • Upgrade test réussi (lab)
  • PRA documenté avec RTO/RPO définis
  • PCA avec procédures de failover
  • Runbooks pour incidents courants
  • Documentation à jour