Anomalie #175
Indisponibilité de service le 02/02/2023
Description
Le serveur principal (master) de retzo.net a été partiellement indisponible le 02/02/2023 de ~1h du matin à 10h
Service impacté :
- Cloud
- Web
Aucune perte de donnée n'est à déplorer, les e-mails en attentes ont été distribués dans les quelques minutes qui ont suivi le retour complet du service.
Fichiers
Historique
Mis à jour par David Mercereau il y a environ 2 ans
- Fichier load-day.png load-day.png ajouté
- Fichier cpu-day.png cpu-day.png ajouté
Constat¶
Une montée en charge inhabituel et prolongé qui a débuté vers 18-19h Avec un pique vers 0h
La mémoire a commencé à saturer, le serveur c'est ensuite mis en oom-killer : https://doc.ubuntu-fr.org/oomkiller pour se préserver
Feb 2 01:02:01 master kernel: [181758.203197] VM Periodic Tas invoked oom-killer: gfp_mask=0x100cca(GFP_HIGHUSER_MOVABLE), order=0, oom_score_adj=0
Mais il a coupé arbitrairement le mauvais processus, la base de donnée, coeur du serveur/des services
Mis à jour par David Mercereau il y a environ 2 ans
Measure¶
- Augmentation de la mémoire SWAP (curatif) : FAIT
- Optimiser la consommation de mémoire mariadb
- Redémarrer quotidiennement mariadb pour libérer du swap FAIT
- Ajuster la configuration
- Vérifier l'état du service et le redémarrer si H.S. : FAIT (avec Monit) FAIT
- Envoyer Alert e-mail + SMS en cas de oom-killer : FAIT
Mis à jour par David Mercereau il y a presque 2 ans
- Statut changé de En cours à Fermé
- % réalisé changé de 80 à 100
Les mesures ont eu leur effet, c'est maintenant stable