Projet

Général

Profil

Anomalie #175

Indisponibilité de service le 02/02/2023

Ajouté par David Mercereau il y a environ un an. Mis à jour il y a environ un an.

Statut:
Fermé
Priorité:
Immédiat
Assigné à:
Catégorie:
Infrastructure globale
Début:
02/02/2023
Echéance:
% réalisé:

100%

Temps estimé:
Temps passé:

Description

Le serveur principal (master) de retzo.net a été partiellement indisponible le 02/02/2023 de ~1h du matin à 10h

Service impacté :

  • Cloud
  • E-mail
  • Web

Aucune perte de donnée n'est à déplorer, les e-mails en attentes ont été distribués dans les quelques minutes qui ont suivi le retour complet du service.


Fichiers

load-day.png (28,2 ko) load-day.png David Mercereau, 02/02/2023 12:01
cpu-day.png (48,4 ko) cpu-day.png David Mercereau, 02/02/2023 12:01

Historique

#1

Mis à jour par David Mercereau il y a environ un an

Constat

Une montée en charge inhabituel et prolongé qui a débuté vers 18-19h Avec un pique vers 0h


La mémoire a commencé à saturer, le serveur c'est ensuite mis en oom-killer : https://doc.ubuntu-fr.org/oomkiller pour se préserver

Feb  2 01:02:01 master kernel: [181758.203197] VM Periodic Tas invoked oom-killer: gfp_mask=0x100cca(GFP_HIGHUSER_MOVABLE), order=0, oom_score_adj=0

Mais il a coupé arbitrairement le mauvais processus, la base de donnée, coeur du serveur/des services

#2

Mis à jour par David Mercereau il y a environ un an

Measure

  • Augmentation de la mémoire SWAP (curatif) : FAIT
  • Optimiser la consommation de mémoire mariadb
    • Redémarrer quotidiennement mariadb pour libérer du swap FAIT
    • Ajuster la configuration
    • Vérifier l'état du service et le redémarrer si H.S. : FAIT (avec Monit) FAIT
  • Envoyer Alert e-mail + SMS en cas de oom-killer : FAIT
#4

Mis à jour par David Mercereau il y a environ un an

  • Statut changé de Nouveau à En cours
#5

Mis à jour par David Mercereau il y a environ un an

  • % réalisé changé de 0 à 60
#6

Mis à jour par David Mercereau il y a environ un an

  • % réalisé changé de 60 à 80
#7

Mis à jour par David Mercereau il y a environ un an

  • Statut changé de En cours à Fermé
  • % réalisé changé de 80 à 100

Les mesures ont eu leur effet, c'est maintenant stable

Formats disponibles : Atom PDF