Anomalie #175
fermé
Indisponibilité de service le 02/02/2023
Ajouté par David Mercereau il y a environ 2 ans.
Mis à jour il y a environ 2 ans.
Catégorie:
Infrastructure globale
Description
Le serveur principal (master) de retzo.net a été partiellement indisponible le 02/02/2023 de ~1h du matin à 10h
Service impacté :
Aucune perte de donnée n'est à déplorer, les e-mails en attentes ont été distribués dans les quelques minutes qui ont suivi le retour complet du service.
Fichiers
Constat¶
Une montée en charge inhabituel et prolongé qui a débuté vers 18-19h Avec un pique vers 0h
La mémoire a commencé à saturer, le serveur c'est ensuite mis en oom-killer : https://doc.ubuntu-fr.org/oomkiller pour se préserver
Feb 2 01:02:01 master kernel: [181758.203197] VM Periodic Tas invoked oom-killer: gfp_mask=0x100cca(GFP_HIGHUSER_MOVABLE), order=0, oom_score_adj=0
Mais il a coupé arbitrairement le mauvais processus, la base de donnée, coeur du serveur/des services
Measure¶
- Augmentation de la mémoire SWAP (curatif) : FAIT
- Optimiser la consommation de mémoire mariadb
- Redémarrer quotidiennement mariadb pour libérer du swap FAIT
- Ajuster la configuration
- Vérifier l'état du service et le redémarrer si H.S. : FAIT (avec Monit) FAIT
- Envoyer Alert e-mail + SMS en cas de oom-killer : FAIT
- Statut changé de Nouveau à En cours
- % réalisé changé de 0 à 60
- % réalisé changé de 60 à 80
- Statut changé de En cours à Fermé
- % réalisé changé de 80 à 100
Les mesures ont eu leur effet, c'est maintenant stable
Formats disponibles : Atom
PDF