Actions
Anomalie #175
closedIndisponibilité de service le 02/02/2023
Description
Le serveur principal (master) de retzo.net a été partiellement indisponible le 02/02/2023 de ~1h du matin à 10h
Service impacté :
- Cloud
- Web
Aucune perte de donnée n'est à déplorer, les e-mails en attentes ont été distribués dans les quelques minutes qui ont suivi le retour complet du service.
Files
Actions
#1
Updated by David Mercereau about 3 years ago
- File load-day.png load-day.png added
- File cpu-day.png cpu-day.png added
Constat¶
Une montée en charge inhabituel et prolongé qui a débuté vers 18-19h Avec un pique vers 0h


La mémoire a commencé à saturer, le serveur c'est ensuite mis en oom-killer : https://doc.ubuntu-fr.org/oomkiller pour se préserver
Feb 2 01:02:01 master kernel: [181758.203197] VM Periodic Tas invoked oom-killer: gfp_mask=0x100cca(GFP_HIGHUSER_MOVABLE), order=0, oom_score_adj=0
Mais il a coupé arbitrairement le mauvais processus, la base de donnée, coeur du serveur/des services
Updated by David Mercereau about 3 years ago
Measure¶
- Augmentation de la mémoire SWAP (curatif) : FAIT
- Optimiser la consommation de mémoire mariadb
- Redémarrer quotidiennement mariadb pour libérer du swap FAIT
- Ajuster la configuration
- Vérifier l'état du service et le redémarrer si H.S. : FAIT (avec Monit) FAIT
- Envoyer Alert e-mail + SMS en cas de oom-killer : FAIT
Updated by David Mercereau about 3 years ago
- Status changed from Nouveau to En cours
Updated by David Mercereau about 3 years ago
- Status changed from En cours to Fermé
- % Done changed from 80 to 100
Les mesures ont eu leur effet, c'est maintenant stable
Actions